请问DeepMind和OpenAI身后的两大RL流派有什么具体的区别？

DeepMind和OpenAI都在深度强化学习领域取得了不错的成绩，但是通过分析David Sliver和Sergey Levine的一些Tutorial细节，我感觉到他们对于RL的理解和实现思路有比较大的不同。
请问有没有一种对这两个RL研究机构更深入的对比？谢谢。

zhihu用户 · 2019-5-18 21:11:56

没啥特别大的区别，共同点倒是很多。从代表性的大工作上来看，两边都相信暴力出奇迹，end-to-end加大量模拟数据是王道，和其它做RL及Robotics的人有比较大的差别。有句话叫除了大公司其它人都在折腾小的模拟环境做做RL理论，这话确实挺对的。
常规发文上看，DM现在很大了，RL上各种方向的文章都有，有提出算法的文章，有分析算法的文章，有理论的文章（你看AlphaStar的blog里面引了自己理论的文章，IMPALA也有V-trace的分析等等），也有大量的应用。OpenAI也有很多各种不同且有意思的文章，比如说最近ICLR做Exploration的有趣思路，也有Neural MMO这样的多智能体框架（当然这篇文章的实验真心写得不好），等等。总的来说并没有流派之分，还是往有效果的方向走。
另外policy-based和value-based的区别其实只是formulation上不一样，最后还是要看function approximation是不是和问题对路，inductive bias是不是好。传统tabular上的分析放到实际情况里面往往是不对的。

zhihu用户 · 2019-5-18 21:11:57

谢邀。这是个很好的问题，能看出这个差别说明RL还是上路了。这学期我正好在教Reinforcement learning的课程（课程主页Reinforcement Learning）。第一次开课，花费挺多时间备课以及储备RL的前沿进展，ICCV之后也许可以更详细地总结一下。
总的来说，确实DM和OpenAI两家的工作有明显的派别差异，对RL的理解非常不同，忠于Value-based RL和Policy-based RL的差别。这跟其中的两家主脑人物的RL学派直接关联。
David Silver毫无疑问是DM的主脑人物之一。David的博士导师是Richard Sutton，所以是非常受Sutton的RL价值观影响。Sutton推崇的是正统的Value-based RL。Sutton就是那本畅销书 Reinforcement learning: an introduction的作者之一。读过这本书的同学应该可以发现，这本书是按照经典方法论来组织，比如说Markov Decision Process, Dynamic Programming, Monte Carlo Methods, Temporal Difference Learning等，这些都是传统做优化和控制论里的东西。30年前的RL确实就是control theory背景的人在做，还没做机器学习这帮小屁孩什么事儿。这里还有个有意思的点是，这本500多页的RL畅销教材，关于现在大行其道的Policy-based RL (Policy gradient)的相关方法，只有不到20页的内容，可见Sutton对Policy-based RL的态度。所以David最早在DeepMind里面也是推行Value-based RL的思想，搞出了Deep Q-learning, DDPG之类的东西。至于说后来的A3C，已经是不得不屈从于Policy-based RL的高效率。
另外一方面，OpenAI背后的派别是Berkeley帮，主要工作是围绕Pieter Abbeel以及他的两位superstar博士生Sergey Levine和John Schulman。Levine和Schulman可以说在现今的RL圈子里如日中天，两人都做出了非常有影响力的工作。Levine把Guided Policy Search (GPS)用到robotics里面，使得小样本RL也能学习。Schulman理论功底扎实，为人低调，他的TRPO以及后来的PPO，都是RL必用算法（这里有能看懂TRPO论文推导的同学私信我:)，我请你过来visit，我敬你是条汉子）。
Berkeley帮的明显特征是极度推崇Policy-based RL。用过RL的同学应该知道，policy-based RL以及衍生出的model-based RL比value-based RL效率高一个量级，这跟Abbeel和Sergey的机器人背景关系非常大。在机器人的应用中，sample-efficiency非常重要。不像DeepMind随便就可以跑million级别数量的游戏仿真，机械手臂这玩意其实是非常容易坏的，而且价格不菲，在构建RL算法的时候不得不从sample efficiency角度出发，所以Levine提出了GPS以及相关的一堆东西如imitation learning，inverse RL, model-based RL，包括他的门徒Chelsea Finn做的关于meta-learning之类的东西，都是从这一点出发，跟他的robotics背景也相符。
所以这两个派别差异确实还是挺大。另外，这跟两家公司的定位也有关系，比如说DeepMind着眼于Go和Starcraft这样的AI明珠问题，可能确实Value-based RL+search的办法更work。OpenAI强调Open，大众普及RL，着眼于一些机器人应用和相对小规模的RL问题，Policy-based RL以其优秀的效率和稳定性更胜一筹。可惜OpenAI里面的人已经走得差不多了，创立时候定义自己是non-profit organization，理想很丰满现实很残酷，啧啧啧。
一句话，黑喵白喵抓着老鼠就是好喵。以PPO为核心的Policy-based RL方法目前处于绝对领先位置，有着广泛的群众基础。DeepMind着眼的那些AI明珠问题不是我等群众老百姓可以企及的，坐等吃瓜就好。

zhihu用户 · 2019-5-18 21:11:58

我并不觉得Value-based RL，Policy-based RL这个区分是主要区别。关于Tutorial或者课程上的组织，更多的是一种方式，可以从动态规划出发，然后导入TD，Q learning，然后引入连续action space挑战，进而引入policy，这是实际的发展过程；同样，也可以直接从RL的设定出发，从优化return的角度来引出Policy，这样更直观。而不能强行说是policy，value的区别。

其实，主要是UCB的robotics背景更深，他们更关心的是：连续动作空间。所以policy based自然是首选。Q的话，不容易扩展到连续action space，特别是求max，比较异类的是NAF之类的做法。
然后我觉得主要的区别是：在DRL刚兴起的时候，deepmind和ucb的代表算法不同，DQN与TRPO，这使得中间的发展出现的一些偏差（比如deepmind有段时间工作的baseline根本不考虑trpo。。。）

zhihu用户 · 2019-5-18 21:11:59

OpenAI主要是Berkeley/BAIR系的教授Pieter Abbeel（师从Andrew Ng等），以及他的学生John Schulman。另一个Berkeley系高产教授Sergey Levine，也是Robotics和Control出身，好像会帮身兼多职的Pieter带些学生。还有他们两个的得意门生Chelsea Finn，前一段去Stanford当AP了。
DeepMind系的核心人物之一David Silver，U Alberta读博期间师从Rich Sutton和Martin Müller。Rich Sutton教授本人作为RL鼻祖应该就不用过多说了，好像现在在Alberta的DeepMind。另外DeepMind的创始人Demis Hassabis，在搞了一波游戏、智力竞赛之类的各种碾压估计没意思了，去UCL读了Neuroscience PhD。很佩服他的眼界，不过不是做RL出身。
两者的流派主要就是几位关键人物的思路上稍有不同。BAIR系两位坐拥众多学生的教授出身Robotics；DeepMind系的核心人物主要是RL的鼻祖Rich Sutton本人和他的学生。与其说是Berkeley系和DeepMind系，还不如说是RL系与Robotics系。当然，两者都还是来源于Optimal Control，可能一个稍微工程流一点，一个稍微意识流一点，更多的还是共同点。
DeepMind毕竟是公司，还有其他众多出身各异的Research Scientist，不乏BAIR系学生。Berkeley是学校，还是学生是主要作者，大老板都是两位教授，所以风格可能统一些，但是毕竟两人加起来有几十个PhD+Postdoc，做的范围非常广。
当然，除了这两大”流派“，还有其他RL领域的大牛，分散在各个学校，比如MIT、UMich、UT Austin、Brown等。也有领域里比较知名的小牛分布在CMU、UW、Princeton、CalTech、Northeastern、UMass、UToronto等，以及其他一些非北美学校，其他一些更多的话看大小牛门的学术传承关系其实就可以略知一二。
即将进入RL+Robotics领域PhD坑的大四本科生首答，导师分别在本科和博士期间师从Andrew Ng和Tomás Lozano-Pérez等。主要是补充点信息，就匿名掉了。没有田老师等在相关领域深耕多年的资深研究者有经验，有问题希望大家指正哈。

zhihu用户 · 2019-5-18 21:12:00

首先吐个槽，看不懂trpo大概是原文notation比较混乱吧，比如equation 4下面突然冒出来个/pi_old.全文搜索这是第一次出现old这个词，不知道reviewer是在做啥的。然后全文宗旨就是让每次policy update不要离原来policy太远，然后在提到这个宗旨之前扯了那么多有的没的。。。当然，trpo包括ppo确实好用，特别是ppo，实现起来简单明了，我只是存粹吐槽paper里面太多有的没的数学推导，顺便吐槽大神schulman自己实现的两个trpo效果差异巨大，具体看deep reinforcement learning that matters的比较。
guided policy search没仔细研究过，感觉是trajectory optimization加imitation learning，严格意义上感觉不算rl，算il。然后感觉最近没有听说berkeley用gps做出什么大新闻的东西，都是在用model based，meta learning之类的想法了。
然后来回答问题了，没感觉有什么派别，能用的算法就是好算法。不过openai（包括berkeley）很多算法都开源，所以感觉复现比较方便，然后deepmind也用ppo啊或者policy based的算法呀，然后berkeley也有sac这种学q function的算法。期待一下大神们设计一个类似trpo/ppo的算法出来让我的训练效率更快些吧。听说sac挺快的，不知道有没有人试过。

请问DeepMind和OpenAI身后的两大RL流派有什么具体的区别？

5 个回复

浏览过的版块