请问DeepMind和OpenAI身后的两大RL流派有什么具体的区别?

论坛 期权论坛 留学     
热心用户   2019-5-18 21:11   5457   5
DeepMind和OpenAI都在深度强化学习领域取得了不错的成绩,但是通过分析David Sliver和Sergey Levine的一些Tutorial细节,我感觉到他们对于RL的理解和实现思路有比较大的不同。
请问有没有一种对这两个RL研究机构更深入的对比?谢谢。
分享到 :
0 人收藏

5 个回复

倒序浏览
2#
zhihu用户  16级独孤 | 2019-5-18 21:11:56
没啥特别大的区别,共同点倒是很多。从代表性的大工作上来看,两边都相信暴力出奇迹,end-to-end加大量模拟数据是王道,和其它做RL及Robotics的人有比较大的差别。有句话叫除了大公司其它人都在折腾小的模拟环境做做RL理论,这话确实挺对的。
常规发文上看,DM现在很大了,RL上各种方向的文章都有,有提出算法的文章,有分析算法的文章,有理论的文章(你看AlphaStar的blog里面引了自己理论的文章,IMPALA也有V-trace的分析等等),也有大量的应用。OpenAI也有很多各种不同且有意思的文章,比如说最近ICLR做Exploration的有趣思路,也有Neural MMO这样的多智能体框架(当然这篇文章的实验真心写得不好),等等。总的来说并没有流派之分,还是往有效果的方向走。
另外policy-based和value-based的区别其实只是formulation上不一样,最后还是要看function approximation是不是和问题对路,inductive bias是不是好。传统tabular上的分析放到实际情况里面往往是不对的。
3#
zhihu用户  16级独孤 | 2019-5-18 21:11:57
谢邀。这是个很好的问题,能看出这个差别说明RL还是上路了。这学期我正好在教Reinforcement learning的课程(课程主页Reinforcement Learning)。第一次开课,花费挺多时间备课以及储备RL的前沿进展,ICCV之后也许可以更详细地总结一下。
总的来说,确实DM和OpenAI两家的工作有明显的派别差异,对RL的理解非常不同,忠于Value-based RL和Policy-based RL的差别。这跟其中的两家主脑人物的RL学派直接关联。
David Silver毫无疑问是DM的主脑人物之一。David的博士导师是Richard Sutton,所以是非常受Sutton的RL价值观影响。Sutton推崇的是正统的Value-based RL。Sutton就是那本畅销书 Reinforcement learning: an introduction的作者之一。读过这本书的同学应该可以发现,这本书是按照经典方法论来组织,比如说Markov Decision Process, Dynamic Programming, Monte Carlo Methods, Temporal Difference Learning等,这些都是传统做优化和控制论里的东西。30年前的RL确实就是control theory背景的人在做,还没做机器学习这帮小屁孩什么事儿。这里还有个有意思的点是,这本500多页的RL畅销教材,关于现在大行其道的Policy-based RL (Policy gradient)的相关方法,只有不到20页的内容,可见Sutton对Policy-based RL的态度。所以David最早在DeepMind里面也是推行Value-based RL的思想,搞出了Deep Q-learning, DDPG之类的东西。至于说后来的A3C,已经是不得不屈从于Policy-based RL的高效率。
另外一方面,OpenAI背后的派别是Berkeley帮,主要工作是围绕Pieter Abbeel以及他的两位superstar博士生Sergey Levine和John Schulman。Levine和Schulman可以说在现今的RL圈子里如日中天,两人都做出了非常有影响力的工作。Levine把Guided Policy Search (GPS)用到robotics里面,使得小样本RL也能学习。Schulman理论功底扎实,为人低调,他的TRPO以及后来的PPO,都是RL必用算法(这里有能看懂TRPO论文推导的同学私信我:),我请你过来visit,我敬你是条汉子)。
Berkeley帮的明显特征是极度推崇Policy-based RL。用过RL的同学应该知道,policy-based RL以及衍生出的model-based RL比value-based RL效率高一个量级,这跟Abbeel和Sergey的机器人背景关系非常大。在机器人的应用中,sample-efficiency非常重要。不像DeepMind随便就可以跑million级别数量的游戏仿真,机械手臂这玩意其实是非常容易坏的,而且价格不菲,在构建RL算法的时候不得不从sample efficiency角度出发,所以Levine提出了GPS以及相关的一堆东西如imitation learning,inverse RL, model-based RL,包括他的门徒Chelsea Finn做的关于meta-learning之类的东西,都是从这一点出发,跟他的robotics背景也相符。
所以这两个派别差异确实还是挺大。另外,这跟两家公司的定位也有关系,比如说DeepMind着眼于Go和Starcraft这样的AI明珠问题,可能确实Value-based RL+search的办法更work。OpenAI强调Open,大众普及RL,着眼于一些机器人应用和相对小规模的RL问题,Policy-based RL以其优秀的效率和稳定性更胜一筹。可惜OpenAI里面的人已经走得差不多了,创立时候定义自己是non-profit organization,理想很丰满现实很残酷,啧啧啧。
一句话,黑喵白喵抓着老鼠就是好喵。以PPO为核心的Policy-based RL方法目前处于绝对领先位置,有着广泛的群众基础。DeepMind着眼的那些AI明珠问题不是我等群众老百姓可以企及的,坐等吃瓜就好。


4#
zhihu用户  16级独孤 | 2019-5-18 21:11:58
我并不觉得Value-based RL,Policy-based RL这个区分是主要区别。关于Tutorial或者课程上的组织,更多的是一种方式,可以从动态规划出发,然后导入TD,Q learning,然后引入连续action space挑战,进而引入policy,这是实际的发展过程;同样,也可以直接从RL的设定出发,从优化return的角度来引出Policy,这样更直观。而不能强行说是policy,value的区别。


其实,主要是UCB的robotics背景更深,他们更关心的是:连续动作空间。所以policy based自然是首选。Q的话,不容易扩展到连续action space,特别是求max,比较异类的是NAF之类的做法。
然后我觉得主要的区别是:在DRL刚兴起的时候,deepmind和ucb的代表算法不同,DQN与TRPO,这使得中间的发展出现的一些偏差(比如deepmind有段时间工作的baseline根本不考虑trpo。。。)
5#
zhihu用户  16级独孤 | 2019-5-18 21:11:59
OpenAI主要是Berkeley/BAIR系的教授Pieter Abbeel(师从Andrew Ng等),以及他的学生John Schulman。另一个Berkeley系高产教授Sergey Levine,也是Robotics和Control出身,好像会帮身兼多职的Pieter带些学生。还有他们两个的得意门生Chelsea Finn,前一段去Stanford当AP了。
DeepMind系的核心人物之一David Silver,U Alberta读博期间师从Rich SuttonMartin MüllerRich Sutton教授本人作为RL鼻祖应该就不用过多说了,好像现在在Alberta的DeepMind。另外DeepMind的创始人Demis Hassabis,在搞了一波游戏、智力竞赛之类的各种碾压估计没意思了,去UCL读了Neuroscience PhD。很佩服他的眼界,不过不是做RL出身。
两者的流派主要就是几位关键人物的思路上稍有不同。BAIR系两位坐拥众多学生的教授出身Robotics;DeepMind系的核心人物主要是RL的鼻祖Rich Sutton本人和他的学生。与其说是Berkeley系和DeepMind系,还不如说是RL系与Robotics系。当然,两者都还是来源于Optimal Control,可能一个稍微工程流一点,一个稍微意识流一点,更多的还是共同点。
DeepMind毕竟是公司,还有其他众多出身各异的Research Scientist,不乏BAIR系学生。Berkeley是学校,还是学生是主要作者,大老板都是两位教授,所以风格可能统一些,但是毕竟两人加起来有几十个PhD+Postdoc,做的范围非常广。
当然,除了这两大”流派“,还有其他RL领域的大牛,分散在各个学校,比如MIT、UMich、UT Austin、Brown等。也有领域里比较知名的小牛分布在CMU、UW、Princeton、CalTech、Northeastern、UMass、UToronto等,以及其他一些非北美学校,其他一些更多的话看大小牛门的学术传承关系其实就可以略知一二。
即将进入RL+Robotics领域PhD坑的大四本科生首答,导师分别在本科和博士期间师从Andrew Ng和Tomás Lozano-Pérez等。主要是补充点信息,就匿名掉了。没有田老师等在相关领域深耕多年的资深研究者有经验,有问题希望大家指正哈。
6#
zhihu用户  16级独孤 | 2019-5-18 21:12:00
首先吐个槽,看不懂trpo大概是原文notation比较混乱吧,比如equation 4下面突然冒出来个/pi_old.全文搜索这是第一次出现old这个词,不知道reviewer是在做啥的。然后全文宗旨就是让每次policy update不要离原来policy太远,然后在提到这个宗旨之前扯了那么多有的没的。。。当然,trpo包括ppo确实好用,特别是ppo,实现起来简单明了,我只是存粹吐槽paper里面太多有的没的数学推导,顺便吐槽大神schulman自己实现的两个trpo效果差异巨大,具体看deep reinforcement learning that matters的比较。
guided policy search没仔细研究过,感觉是trajectory optimization加imitation learning,严格意义上感觉不算rl,算il。然后感觉最近没有听说berkeley用gps做出什么大新闻的东西,都是在用model based,meta learning之类的想法了。
然后来回答问题了,没感觉有什么派别,能用的算法就是好算法。不过openai(包括berkeley)很多算法都开源,所以感觉复现比较方便,然后deepmind也用ppo啊或者policy based的算法呀,然后berkeley也有sac这种学q function的算法。期待一下大神们设计一个类似trpo/ppo的算法出来让我的训练效率更快些吧。听说sac挺快的,不知道有没有人试过。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:64547
帖子:12910
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP