中国硬科技产业投资发展白皮书（2017）

强化学习（ Reinforcement Learning， RL）是一种人工智能方法，能使计算机在没有明确指导的情况下像人一样自主学习。强化学习就是智能系统从环境到行为映射的学习，以使奖励信号（强化信号）函数值最大。假如机器不能够自主通过环境经验磨练技能，自动驾驶汽车以及其他自动化领域的进展速度将受到极大地限制。

强化学习不同于连接主义学习中的监督学习，主要表现在教师信号上，强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价（通常为标量信号），而不是告诉强化学习系统 RLS（ reinforcement learning system）如何去产生正确的动作。由于外部环境提供的信息很少， RLS必须靠自身的经历进行学习。通过这种方式， RLS 在行动-评价的环境中获得知识，改进行动方案以适应环境。 AlphaGo 背后的 DeepMind 就是将深度学习应用到强化学习中去的范例。

迁移学习（ transfer learning）能够将适用于大数据的模型迁移到小数据上，实现个性化迁移。一般就是要将从源领域（ Source Domain）已学训练好的模型参数迁移到新的模型来帮助新模型训练数据集，源领域和目标领域之间往往有 gap/domain discrepancy（源领域的数据和目标领域的数据遵循不同的分布）。考虑到大部分数据或任务是存在相关性的，所以通过迁移学习可加快并优化模型学习。
[url=]查看PDF原文[/url]

中国硬科技产业投资发展白皮书（2017）

浏览过的版块