在強(qiáng)化學(xué)習(xí)領(lǐng)域,谷歌大腦的研究內(nèi)容一直是業(yè)界重點(diǎn)關(guān)注的對象。Marc G. Bellemare 是谷歌大腦的研究員,研究方向?yàn)榉植际綇?qiáng)化學(xué)習(xí)、表征學(xué)習(xí)等。他將自己在谷歌大腦 18 個(gè)月中研究經(jīng)歷和心得寫成了文章并進(jìn)行發(fā)表。雷鋒網(wǎng) AI 科技評(píng)論全文編譯如下。
時(shí)間回溯到 2017 年夏天,在歐洲一段時(shí)間的告別旅行中,我被當(dāng)時(shí)在蒙特利爾新成立的谷歌大腦團(tuán)隊(duì)錄用 (當(dāng)時(shí)我進(jìn)行遠(yuǎn)程辦公)。我在家里的辦公室可以看到倫敦北部貝爾塞斯公園(Belsize Park)的絕美景色,而且還曾招待了谷歌蒙特利爾的整個(gè)強(qiáng)化學(xué)習(xí)團(tuán)隊(duì),這是真的。
從那以后,我搬到了另一個(gè)大陸,在 AI 實(shí)習(xí)生、學(xué)生研究者和全職谷歌員工三重角色中轉(zhuǎn)換。現(xiàn)在,谷歌團(tuán)隊(duì)的規(guī)模有了相當(dāng)大的擴(kuò)展 (而且還在繼續(xù)擴(kuò)展:Marlos C. Machado 也加入了我們)。事后看來,2018 年是相當(dāng)多產(chǎn)的一年。這篇博客回顧了這段時(shí)間我們的科研產(chǎn)出,以一個(gè)全景視角介紹了蒙特利爾谷歌大腦團(tuán)隊(duì)在強(qiáng)化學(xué)習(xí)方面研究進(jìn)展以及我們所參與過的非常棒的合作,從而讓我們對不遠(yuǎn)的未來有了一個(gè)認(rèn)識(shí)。
分布式強(qiáng)化學(xué)習(xí)
「它很好。但它如何實(shí)現(xiàn)呢?」
在強(qiáng)化學(xué)習(xí)中,分布式的方法認(rèn)為我們應(yīng)該預(yù)測隨機(jī)收益的分布,而不是預(yù)測它們的期望值 (Bellemare, Dabney, Munos, ICML 2017)。然而,大多數(shù)分布式智能體仍然通過將行動(dòng)值 (action value)分布提取還原為它們各自的期望值,然后選擇期望值最高的操作來運(yùn)行。預(yù)測,然后提取。那么,為什么它在實(shí)踐中表現(xiàn)得如此出色呢?
為了回答這個(gè)問題,我們開發(fā)了一種正式語言來分析分布式強(qiáng)化學(xué)習(xí)方法,尤其是基于樣本的方法(Rowland 等,AISTATS 2018)。通過這一形式,我們發(fā)現(xiàn)原來的分布式算法(稱為 C51)隱式地最小化了概率分布之間的距離(Cramér 距離)。但是我們的一些結(jié)果表明,分布式算法應(yīng)該最小化分布之間的 Wasserstein 距離,而不是 Cramér 距離。我們(我指的是 Will Dabney)用一種叫做分位數(shù)回歸(quantile regression,)的技術(shù)重新修正了大部分的 C51,在一定程度上最小化了 Wasserstein 距離。由此產(chǎn)生的智能體(這個(gè)稱為 QR-DQN)在 Atari 2600 基準(zhǔn)上表現(xiàn)出強(qiáng)大的性能(Dabney et al.,AAAI 2018)。另一個(gè)令人興奮的結(jié)果是, Mark Rowland 最近發(fā)現(xiàn)了分布式強(qiáng)化學(xué)習(xí)中統(tǒng)計(jì)量和樣本之間的一個(gè)有趣的失配,這就解釋了為什么這些算法有效,而其他算法注定會(huì)失敗(Rowland et al.,2019)。
根據(jù) Mark 對 C51 的分析,我們從基本原理推導(dǎo)出了一個(gè)分布式算法——在本例中,使用的是更容易處理的 Cramér 距離。我們的目標(biāo)是開發(fā)出一項(xiàng)能顯式地對分配損失執(zhí)行梯度下降(C51 和 QR-DQN 都沒有這樣做)的分配算法,而最終開發(fā)出來的是一項(xiàng)我們命名為 S51 的算法(Bellemare 等人,AISTATS 2019);「S」代表「有符號(hào)的」,因?yàn)樗惴赡軙?huì)輸出有效的負(fù)概率。由于其相對簡單,我們能夠證明,當(dāng)與線性函數(shù)近似(linear function approximation)結(jié)合時(shí),S51 能夠保證收斂性。在此過程中,我們還收集了一些證據(jù),證明在一些病態(tài)的例子中,預(yù)測+提取的方法比直接預(yù)測期望值的表現(xiàn)更糟糕。這是一位評(píng)論者所提到的「更容易出現(xiàn)模型錯(cuò)誤識(shí)別」所導(dǎo)致的自然而然的結(jié)果。
此后,我們也證明了將預(yù)測+提取的方法結(jié)合到表格表征中實(shí)際上是無效的,同時(shí)證實(shí)了如果將該方法結(jié)合到線性表示中,其性能可能比預(yù)期的強(qiáng)化學(xué)習(xí)更差(Lyle, Castro, Bellemare, AAAI 2019)。這使我們排除了不依賴于表征選擇的常見解釋,如「分布式強(qiáng)化學(xué)習(xí)減少方差」或「平均分布式預(yù)測導(dǎo)致更準(zhǔn)確的值估計(jì)」。這些解釋某種程度上錯(cuò)誤地引用了 Holmes 先生的話,一旦你排除了不可能,剩下的一定是真相:分布式強(qiáng)化學(xué)習(xí)一旦與深層網(wǎng)絡(luò)結(jié)合,似乎就會(huì)變得有用。
為了收集這方面的進(jìn)一步證據(jù),我們在 Cartpole 域中訓(xùn)練了智能體,要么使用固定的低維表示(一階傅里葉基),要么使用類似的深度網(wǎng)絡(luò)。結(jié)果(總結(jié)如下面的圖表所示)相當(dāng)有說服力:在固定表征的情況下,分布式方法的性能比基于預(yù)期的方法差;但使用深度表征后,它們就表現(xiàn)得更好了。這篇論文還表明,基于 Cramér 的方法應(yīng)該輸出累積分布函數(shù)(cumulative distribution function),而不是概率質(zhì)量函數(shù)(probability mass function,PMFs)。
一名深度學(xué)習(xí)實(shí)踐者會(huì)很自然地得出這樣的結(jié)論:分布式強(qiáng)化學(xué)習(xí)是有用的,因?yàn)椤杆兄诟玫貙W(xué)習(xí)表征」。但這在形式上意味著什么呢?如何證明或反駁這種說法呢?這些問題促使我們研究了一個(gè)非常熱門的話題:將表征學(xué)習(xí)應(yīng)用于強(qiáng)化學(xué)習(xí)。
表征學(xué)習(xí)
去年夏天,Will Dabney 和我為強(qiáng)化學(xué)習(xí)中的表征學(xué)習(xí)設(shè)計(jì)了一個(gè)我們稱之為「蘋果派」(apple pie)的實(shí)驗(yàn):用一個(gè)簡單的設(shè)置去研究學(xué)習(xí)好的表征意味著什么。這個(gè)實(shí)驗(yàn)包括 1)一個(gè)綜合環(huán)境 (四室域);2)訓(xùn)練一個(gè)非常大的深度網(wǎng)絡(luò); 3)做出各種預(yù)測。我們將表征定義為從狀態(tài)到 d 維特征向量的映射,之后又將這些特征向量線性映射到預(yù)測。在所有的實(shí)驗(yàn)中,d 都小于狀態(tài)數(shù)。這個(gè)設(shè)置允許我們回答這樣的問題:「當(dāng)我們訓(xùn)練網(wǎng)絡(luò)預(yù)測 X 時(shí),得到的表征是什么?」,其中 X 可能是值函數(shù)、值分布或一些輔助任務(wù)。
通過對這個(gè)小問題的不斷探索,我們意識(shí)到可以為表征制定一個(gè)最優(yōu)準(zhǔn)則。該準(zhǔn)則指出,最優(yōu)表征應(yīng)該最小化所有「可實(shí)現(xiàn)」值函數(shù)的近似誤差。這里我用「可實(shí)現(xiàn)」表示「由某些策略生成」(Bellemare et al.,2019)。事實(shí)上,我們只需要考慮此類值函數(shù)的一個(gè)非常特殊的子集,即對偶值函數(shù)(adversarial value functions,AVFs),以反映最優(yōu)性準(zhǔn)則的極小值特征。因?yàn)檫@些參數(shù)基本上是幾何化的,得出的這些結(jié)果也很有趣。在整個(gè)過程中,我們發(fā)現(xiàn)值函數(shù)的空間本身是高度結(jié)構(gòu)化的:雖然還存在著一些不直觀的特征,但它整體來看是一個(gè)多面體(Dadashi et al .,2019)。
我們使用「用于表征的 FMRI 」(見上)來可視化該方法的效果(上圖;Marlos C. Machado 提供代碼)。這里,每個(gè)單元格將特征的歸一化激活描述為輸入狀態(tài)的函數(shù)。圖中對比了網(wǎng)絡(luò)被訓(xùn)練用來預(yù)測單個(gè)值函數(shù)或多個(gè) AVFs 時(shí)的情況。在僅使用值表征的時(shí)候,得出的結(jié)果有點(diǎn)不令人滿意:單個(gè)特征要么在狀態(tài)之間不活躍,要么是預(yù)測值函數(shù)的副本;此外,在激活模式中還存在噪聲。相比之下,AVFs 方法產(chǎn)生的結(jié)構(gòu)很漂亮。
我們可以使用相同的工具來確認(rèn)分布式強(qiáng)化學(xué)習(xí)確實(shí)學(xué)習(xí)了更豐富的表征。下圖是使用 C51(左)或使用 QR-DQN(右)預(yù)測隨機(jī)策略值分布時(shí)學(xué)到的特性的可視化情況。分位數(shù)回歸得到的特征提供了一系列的響應(yīng),從目標(biāo)附近的高度峰值(左下角第二行)到相對分散(右上角)。這兩組特性都比剛剛前面提到強(qiáng)化學(xué)習(xí)在學(xué)習(xí)值函數(shù)時(shí)更加結(jié)構(gòu)化(前面的圖左)。
作為這些結(jié)果的補(bǔ)充,我們可視化了 Atari 2600 游戲智能體中隱藏單位的激活。這些構(gòu)成了與 Pablo Samuel Castro、Felipe Such、Joel Lehman 以及其他許多人在「Atari Zoo」項(xiàng)目中非常出色的合作的一部分(如 et al.,Deep RL Workshop at NeurIPS, 2018)。為了強(qiáng)調(diào)其中一個(gè)結(jié)果,分布式算法(該算法是
Hessel 等人對 C51 的擴(kuò)展,叫做 Rainbow)學(xué)習(xí)到的卷積特性通常比非分布式 DQN 學(xué)習(xí)到的卷積特性更詳細(xì)、更復(fù)雜,如下面的 Seaquest 游戲示例所示:
同樣重要的是,我們發(fā)現(xiàn)預(yù)測多個(gè)折扣率的值函數(shù)也是在 Atari 2600 游戲中制作輔助任務(wù)的一種簡單而有效的方法 (Fedus et al.,2019)。
毫無疑問,不同的強(qiáng)化學(xué)習(xí)方法會(huì)產(chǎn)生不同的表征形式,并且在深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)之間會(huì)發(fā)生復(fù)雜的交互作用。如果幸運(yùn)的話,在接下來的一年,我們也會(huì)找出這些表征與智能體的經(jīng)驗(yàn)表現(xiàn)之間的關(guān)系。
軟件
如果你曾參加我去年的一次演講,你可能會(huì)看到我的演講內(nèi)容如下:
根據(jù)發(fā)行日期,時(shí)間軸按時(shí)間順序?qū)?Arcade Learning Environment 提供的 60 款游戲進(jìn)行排列。每個(gè)標(biāo)題標(biāo)出了(主觀)估計(jì)的性能最好的學(xué)習(xí)智能體:超人的(黑色格),近似人類的(紅白格),最后也為游戲中的 AI 不為完成游戲,而純粹以得分為目的游戲打出了分值(灰色格)。時(shí)間軸顯示,前面標(biāo)上「超人的」標(biāo)簽的游戲,比重要高于后面的游戲。我認(rèn)為,這證明了早期游戲要比后期游戲更容易,部分原因在于電子游戲體驗(yàn)的轉(zhuǎn)變:從反應(yīng)性游戲(Pong)轉(zhuǎn)變?yōu)檎J(rèn)知性游戲(Pitfall!)
注意,時(shí)間表是從 2017 年年中開始的,現(xiàn)在有點(diǎn)過時(shí)了,經(jīng)過調(diào)整,我們也考慮到了其他的游戲,例如 Montezuma's Revenge 通過運(yùn)用模仿學(xué)習(xí)(Hester et al.,2017;Aytar et al., 2018)和非參數(shù)方案(Ecofett et al.,2019)在性能上實(shí)現(xiàn)了巨大進(jìn)步,不過即使是這樣,我們或許還是遺漏了很少一部分有代表性的游戲。鑒于 ALE 在推動(dòng)深度強(qiáng)化學(xué)習(xí)研究復(fù)興方面發(fā)揮了重要的作用,因此在強(qiáng)化學(xué)習(xí)領(lǐng)域應(yīng)該積極尋找「下一個(gè) Atari」。
但這張圖表也幫我說明了另一點(diǎn):ALE 現(xiàn)在是一個(gè)成熟的基準(zhǔn),應(yīng)該區(qū)分對待它和新出現(xiàn)的挑戰(zhàn)。用 Miles Brundage 的話來說就是:Atari 游戲,「如果你在意樣本效率,那么它可以作為強(qiáng)化學(xué)習(xí)基準(zhǔn)」。深度強(qiáng)化學(xué)習(xí)本身也在不斷成熟:想要更好地了解當(dāng)前的技術(shù),請參閱 Vincent François-Lavet's review (2019)。在取得令人興奮的早期成功后,深度強(qiáng)化學(xué)習(xí)可能準(zhǔn)備回歸基礎(chǔ)。
這種成熟的結(jié)果之一是對 ALE 論文進(jìn)行二次更新,這項(xiàng)工作由我當(dāng)時(shí)的學(xué)生 Marlos C. Machado 主導(dǎo),新的成果與新的代碼一同發(fā)布。該代碼的發(fā)布解鎖了額外的難度級(jí)別(flavours),這證明新成果是對遷移學(xué)習(xí)研究非常有用的(Machado et al.,2018)。在這篇論文中有太多的好東西要列出,但是首先要討論的是如何評(píng)估學(xué)習(xí) Atari-playing 算法的重復(fù)性和公平性。在 Go-Explore 博客發(fā)布的 Twitter-eddies 中可以看到一個(gè)關(guān)于社區(qū)如何接受這一點(diǎn)的很好的例子:經(jīng)過討論之后,作者們重新使用我們推薦的「粘性行為」評(píng)估方案來評(píng)估他們的方法。(如果你感興趣,這是 Jeff Clune 的一條推特)。
去年 8 月,我們還發(fā)布了開源強(qiáng)化學(xué)習(xí)框架,Dopamine(白皮書:Castro et al.,2018)。我們想從簡單的 Dopamine 入手,堅(jiān)持開發(fā)對強(qiáng)化學(xué)習(xí)研究有用的一小部分核心功能。因此,框架的第一個(gè)版本由大約 12 個(gè) Python 文件組成,并為 ALE 提供了一個(gè)單 GPU、最先進(jìn)的 Rainbow 智能體。Dopamine 2.0(2 月 6 日 Pablo Samuel Castro 的博客文章)擴(kuò)展了第一個(gè)版本,更廣泛地支持離散操作域。我們最近幾乎所有的強(qiáng)化學(xué)習(xí)研究都使用 Dopamine。
最后同樣值得一提的是,我們最近還與 DeepMind 合作發(fā)布了一個(gè)基于熱門紙牌游戲 Hanabi(Bard et al.,2019)的人工智能方法新研究平臺(tái)。Hanabi 是獨(dú)一無二的,因?yàn)樗Y(jié)合了合作(而不是競爭!)和部分可觀察性。代碼中包含一個(gè)基于 Dopamine 的智能體,因此你可以隨時(shí)將代碼用起來。我已經(jīng)在另一篇博文中對此進(jìn)行了更多的討論,但最后我想說,這是這段時(shí)間以來我研究的最有趣的問題之一。順便說一下:分布式強(qiáng)化學(xué)習(xí)和非分布式強(qiáng)化學(xué)習(xí)之間似乎存在很大的性能差距,如下面的學(xué)習(xí)曲線所示。這是一個(gè)小小的謎團(tuán)。
結(jié)語
這篇文章沒有討論如何探索強(qiáng)化學(xué)習(xí),盡管這個(gè)話題對我來說仍然很重要。值得注意的是,通過 Adrien Ali Taiga,我們在理解偽計(jì)數(shù)如何幫助我們探索方面取得了一些進(jìn)展(Ali Taiga, Courville, Bellemare, 2018)。很高興看到強(qiáng)化學(xué)習(xí)的越來越多的研究者們迎接挑戰(zhàn),致力于解決 Montezuma’s Revenge 等艱難的探索問題。盡管 epsilon-貪婪(epsilon-greedy)算法和熵正則化(entropy regularization)在實(shí)踐中仍然占據(jù)主導(dǎo)地位,但我認(rèn)為我們離顯著提高算法樣本效率的集成解決方案,也不遠(yuǎn)了。
盡管蒙特利爾市中心的風(fēng)景可能與倫敦北部不盡相同,但我在谷歌大腦這段時(shí)間的研究經(jīng)歷絕對令人興奮。蒙特利爾和加拿大是多位世界上最優(yōu)秀的深度強(qiáng)化學(xué)習(xí)研究人員的家鄉(xiāng),能與這么多本地和谷歌大腦團(tuán)隊(duì)的人才交流,我感到很不勝榮光。
來源 | 雷鋒網(wǎng)
作者 | 晟煒
編輯 | 幸麗娟