<label id="qqrfm"><meter id="qqrfm"></meter></label>
      <span id="qqrfm"></span><label id="qqrfm"><meter id="qqrfm"></meter></label>

        我在谷歌大腦工作的 18 個(gè)月中,是怎樣研究強(qiáng)化學(xué)習(xí)的?

        在強(qiáng)化學(xué)習(xí)領(lǐng)域,谷歌大腦的研究內(nèi)容一直是業(yè)界重點(diǎn)關(guān)注的對象。Marc G. Bellemare 是谷歌大腦的研究員,研究方向?yàn)榉植际綇?qiáng)化學(xué)習(xí)、表征學(xué)習(xí)等。他將自己在谷歌大腦 18 個(gè)月中研究經(jīng)歷和心得寫成了文章并進(jìn)行發(fā)表。雷鋒網(wǎng) AI 科技評(píng)論全文編譯如下。

        時(shí)間回溯到 2017 年夏天,在歐洲一段時(shí)間的告別旅行中,我被當(dāng)時(shí)在蒙特利爾新成立的谷歌大腦團(tuán)隊(duì)錄用 (當(dāng)時(shí)我進(jìn)行遠(yuǎn)程辦公)。我在家里的辦公室可以看到倫敦北部貝爾塞斯公園(Belsize Park)的絕美景色,而且還曾招待了谷歌蒙特利爾的整個(gè)強(qiáng)化學(xué)習(xí)團(tuán)隊(duì),這是真的。

        從那以后,我搬到了另一個(gè)大陸,在 AI 實(shí)習(xí)生、學(xué)生研究者和全職谷歌員工三重角色中轉(zhuǎn)換。現(xiàn)在,谷歌團(tuán)隊(duì)的規(guī)模有了相當(dāng)大的擴(kuò)展 (而且還在繼續(xù)擴(kuò)展:Marlos C. Machado 也加入了我們)。事后看來,2018 年是相當(dāng)多產(chǎn)的一年。這篇博客回顧了這段時(shí)間我們的科研產(chǎn)出,以一個(gè)全景視角介紹了蒙特利爾谷歌大腦團(tuán)隊(duì)在強(qiáng)化學(xué)習(xí)方面研究進(jìn)展以及我們所參與過的非常棒的合作,從而讓我們對不遠(yuǎn)的未來有了一個(gè)認(rèn)識(shí)。

        分布式強(qiáng)化學(xué)習(xí)

        「它很好。但它如何實(shí)現(xiàn)呢?」

        在強(qiáng)化學(xué)習(xí)中,分布式的方法認(rèn)為我們應(yīng)該預(yù)測隨機(jī)收益的分布,而不是預(yù)測它們的期望值 (Bellemare, Dabney, Munos, ICML 2017)。然而,大多數(shù)分布式智能體仍然通過將行動(dòng)值 (action value)分布提取還原為它們各自的期望值,然后選擇期望值最高的操作來運(yùn)行。預(yù)測,然后提取。那么,為什么它在實(shí)踐中表現(xiàn)得如此出色呢?

        為了回答這個(gè)問題,我們開發(fā)了一種正式語言來分析分布式強(qiáng)化學(xué)習(xí)方法,尤其是基于樣本的方法(Rowland 等,AISTATS 2018)。通過這一形式,我們發(fā)現(xiàn)原來的分布式算法(稱為 C51)隱式地最小化了概率分布之間的距離(Cramér 距離)。但是我們的一些結(jié)果表明,分布式算法應(yīng)該最小化分布之間的 Wasserstein 距離,而不是 Cramér 距離。我們(我指的是 Will Dabney)用一種叫做分位數(shù)回歸(quantile regression,)的技術(shù)重新修正了大部分的 C51,在一定程度上最小化了 Wasserstein 距離。由此產(chǎn)生的智能體(這個(gè)稱為 QR-DQN)在 Atari 2600 基準(zhǔn)上表現(xiàn)出強(qiáng)大的性能(Dabney et al.,AAAI 2018)。另一個(gè)令人興奮的結(jié)果是, Mark Rowland 最近發(fā)現(xiàn)了分布式強(qiáng)化學(xué)習(xí)中統(tǒng)計(jì)量和樣本之間的一個(gè)有趣的失配,這就解釋了為什么這些算法有效,而其他算法注定會(huì)失敗(Rowland et al.,2019)。

        根據(jù) Mark 對 C51 的分析,我們從基本原理推導(dǎo)出了一個(gè)分布式算法——在本例中,使用的是更容易處理的 Cramér 距離。我們的目標(biāo)是開發(fā)出一項(xiàng)能顯式地對分配損失執(zhí)行梯度下降(C51 和 QR-DQN 都沒有這樣做)的分配算法,而最終開發(fā)出來的是一項(xiàng)我們命名為 S51 的算法(Bellemare 等人,AISTATS 2019);「S」代表「有符號(hào)的」,因?yàn)樗惴赡軙?huì)輸出有效的負(fù)概率。由于其相對簡單,我們能夠證明,當(dāng)與線性函數(shù)近似(linear function approximation)結(jié)合時(shí),S51 能夠保證收斂性。在此過程中,我們還收集了一些證據(jù),證明在一些病態(tài)的例子中,預(yù)測+提取的方法比直接預(yù)測期望值的表現(xiàn)更糟糕。這是一位評(píng)論者所提到的「更容易出現(xiàn)模型錯(cuò)誤識(shí)別」所導(dǎo)致的自然而然的結(jié)果。

        此后,我們也證明了將預(yù)測+提取的方法結(jié)合到表格表征中實(shí)際上是無效的,同時(shí)證實(shí)了如果將該方法結(jié)合到線性表示中,其性能可能比預(yù)期的強(qiáng)化學(xué)習(xí)更差(Lyle, Castro, Bellemare, AAAI 2019)。這使我們排除了不依賴于表征選擇的常見解釋,如「分布式強(qiáng)化學(xué)習(xí)減少方差」或「平均分布式預(yù)測導(dǎo)致更準(zhǔn)確的值估計(jì)」。這些解釋某種程度上錯(cuò)誤地引用了 Holmes 先生的話,一旦你排除了不可能,剩下的一定是真相:分布式強(qiáng)化學(xué)習(xí)一旦與深層網(wǎng)絡(luò)結(jié)合,似乎就會(huì)變得有用。

        為了收集這方面的進(jìn)一步證據(jù),我們在 Cartpole 域中訓(xùn)練了智能體,要么使用固定的低維表示(一階傅里葉基),要么使用類似的深度網(wǎng)絡(luò)。結(jié)果(總結(jié)如下面的圖表所示)相當(dāng)有說服力:在固定表征的情況下,分布式方法的性能比基于預(yù)期的方法差;但使用深度表征后,它們就表現(xiàn)得更好了。這篇論文還表明,基于 Cramér 的方法應(yīng)該輸出累積分布函數(shù)(cumulative distribution function),而不是概率質(zhì)量函數(shù)(probability mass function,PMFs)。

        我在谷歌大腦工作的 18 個(gè)月中,是怎樣研究強(qiáng)化學(xué)習(xí)的?

        一名深度學(xué)習(xí)實(shí)踐者會(huì)很自然地得出這樣的結(jié)論:分布式強(qiáng)化學(xué)習(xí)是有用的,因?yàn)椤杆兄诟玫貙W(xué)習(xí)表征」。但這在形式上意味著什么呢?如何證明或反駁這種說法呢?這些問題促使我們研究了一個(gè)非常熱門的話題:將表征學(xué)習(xí)應(yīng)用于強(qiáng)化學(xué)習(xí)。

        表征學(xué)習(xí)

        去年夏天,Will Dabney 和我為強(qiáng)化學(xué)習(xí)中的表征學(xué)習(xí)設(shè)計(jì)了一個(gè)我們稱之為「蘋果派」(apple pie)的實(shí)驗(yàn):用一個(gè)簡單的設(shè)置去研究學(xué)習(xí)好的表征意味著什么。這個(gè)實(shí)驗(yàn)包括 1)一個(gè)綜合環(huán)境 (四室域);2)訓(xùn)練一個(gè)非常大的深度網(wǎng)絡(luò); 3)做出各種預(yù)測。我們將表征定義為從狀態(tài)到 d 維特征向量的映射,之后又將這些特征向量線性映射到預(yù)測。在所有的實(shí)驗(yàn)中,d 都小于狀態(tài)數(shù)。這個(gè)設(shè)置允許我們回答這樣的問題:「當(dāng)我們訓(xùn)練網(wǎng)絡(luò)預(yù)測 X 時(shí),得到的表征是什么?」,其中 X 可能是值函數(shù)、值分布或一些輔助任務(wù)。
        我在谷歌大腦工作的 18 個(gè)月中,是怎樣研究強(qiáng)化學(xué)習(xí)的?

        通過對這個(gè)小問題的不斷探索,我們意識(shí)到可以為表征制定一個(gè)最優(yōu)準(zhǔn)則。該準(zhǔn)則指出,最優(yōu)表征應(yīng)該最小化所有「可實(shí)現(xiàn)」值函數(shù)的近似誤差。這里我用「可實(shí)現(xiàn)」表示「由某些策略生成」(Bellemare et al.,2019)。事實(shí)上,我們只需要考慮此類值函數(shù)的一個(gè)非常特殊的子集,即對偶值函數(shù)(adversarial value functions,AVFs),以反映最優(yōu)性準(zhǔn)則的極小值特征。因?yàn)檫@些參數(shù)基本上是幾何化的,得出的這些結(jié)果也很有趣。在整個(gè)過程中,我們發(fā)現(xiàn)值函數(shù)的空間本身是高度結(jié)構(gòu)化的:雖然還存在著一些不直觀的特征,但它整體來看是一個(gè)多面體(Dadashi et al .,2019)。
        我在谷歌大腦工作的 18 個(gè)月中,是怎樣研究強(qiáng)化學(xué)習(xí)的?

        我們使用「用于表征的 FMRI 」(見上)來可視化該方法的效果(上圖;Marlos C. Machado 提供代碼)。這里,每個(gè)單元格將特征的歸一化激活描述為輸入狀態(tài)的函數(shù)。圖中對比了網(wǎng)絡(luò)被訓(xùn)練用來預(yù)測單個(gè)值函數(shù)或多個(gè) AVFs 時(shí)的情況。在僅使用值表征的時(shí)候,得出的結(jié)果有點(diǎn)不令人滿意:單個(gè)特征要么在狀態(tài)之間不活躍,要么是預(yù)測值函數(shù)的副本;此外,在激活模式中還存在噪聲。相比之下,AVFs 方法產(chǎn)生的結(jié)構(gòu)很漂亮。

        我們可以使用相同的工具來確認(rèn)分布式強(qiáng)化學(xué)習(xí)確實(shí)學(xué)習(xí)了更豐富的表征。下圖是使用 C51(左)或使用 QR-DQN(右)預(yù)測隨機(jī)策略值分布時(shí)學(xué)到的特性的可視化情況。分位數(shù)回歸得到的特征提供了一系列的響應(yīng),從目標(biāo)附近的高度峰值(左下角第二行)到相對分散(右上角)。這兩組特性都比剛剛前面提到強(qiáng)化學(xué)習(xí)在學(xué)習(xí)值函數(shù)時(shí)更加結(jié)構(gòu)化(前面的圖左)。
        我在谷歌大腦工作的 18 個(gè)月中,是怎樣研究強(qiáng)化學(xué)習(xí)的?

        作為這些結(jié)果的補(bǔ)充,我們可視化了 Atari 2600 游戲智能體中隱藏單位的激活。這些構(gòu)成了與 Pablo Samuel Castro、Felipe Such、Joel Lehman 以及其他許多人在「Atari Zoo」項(xiàng)目中非常出色的合作的一部分(如 et al.,Deep RL Workshop at NeurIPS, 2018)。為了強(qiáng)調(diào)其中一個(gè)結(jié)果,分布式算法(該算法是 Hessel 等人對 C51 的擴(kuò)展,叫做 Rainbow)學(xué)習(xí)到的卷積特性通常比非分布式 DQN 學(xué)習(xí)到的卷積特性更詳細(xì)、更復(fù)雜,如下面的 Seaquest 游戲示例所示:

        我在谷歌大腦工作的 18 個(gè)月中,是怎樣研究強(qiáng)化學(xué)習(xí)的?

        同樣重要的是,我們發(fā)現(xiàn)預(yù)測多個(gè)折扣率的值函數(shù)也是在 Atari 2600 游戲中制作輔助任務(wù)的一種簡單而有效的方法 (Fedus et al.,2019)。

        毫無疑問,不同的強(qiáng)化學(xué)習(xí)方法會(huì)產(chǎn)生不同的表征形式,并且在深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)之間會(huì)發(fā)生復(fù)雜的交互作用。如果幸運(yùn)的話,在接下來的一年,我們也會(huì)找出這些表征與智能體的經(jīng)驗(yàn)表現(xiàn)之間的關(guān)系。

        軟件

        如果你曾參加我去年的一次演講,你可能會(huì)看到我的演講內(nèi)容如下:

        我在谷歌大腦工作的 18 個(gè)月中,是怎樣研究強(qiáng)化學(xué)習(xí)的?

        根據(jù)發(fā)行日期,時(shí)間軸按時(shí)間順序?qū)?Arcade Learning Environment 提供的 60 款游戲進(jìn)行排列。每個(gè)標(biāo)題標(biāo)出了(主觀)估計(jì)的性能最好的學(xué)習(xí)智能體:超人的(黑色格),近似人類的(紅白格),最后也為游戲中的 AI 不為完成游戲,而純粹以得分為目的游戲打出了分值(灰色格)。時(shí)間軸顯示,前面標(biāo)上「超人的」標(biāo)簽的游戲,比重要高于后面的游戲。我認(rèn)為,這證明了早期游戲要比后期游戲更容易,部分原因在于電子游戲體驗(yàn)的轉(zhuǎn)變:從反應(yīng)性游戲(Pong)轉(zhuǎn)變?yōu)檎J(rèn)知性游戲(Pitfall!)

        注意,時(shí)間表是從 2017 年年中開始的,現(xiàn)在有點(diǎn)過時(shí)了,經(jīng)過調(diào)整,我們也考慮到了其他的游戲,例如 Montezuma's Revenge 通過運(yùn)用模仿學(xué)習(xí)(Hester et al.,2017;Aytar et al., 2018)和非參數(shù)方案(Ecofett et al.,2019)在性能上實(shí)現(xiàn)了巨大進(jìn)步,不過即使是這樣,我們或許還是遺漏了很少一部分有代表性的游戲。鑒于 ALE 在推動(dòng)深度強(qiáng)化學(xué)習(xí)研究復(fù)興方面發(fā)揮了重要的作用,因此在強(qiáng)化學(xué)習(xí)領(lǐng)域應(yīng)該積極尋找「下一個(gè) Atari」。
        但這張圖表也幫我說明了另一點(diǎn):ALE 現(xiàn)在是一個(gè)成熟的基準(zhǔn),應(yīng)該區(qū)分對待它和新出現(xiàn)的挑戰(zhàn)。用 Miles Brundage 的話來說就是:Atari 游戲,「如果你在意樣本效率,那么它可以作為強(qiáng)化學(xué)習(xí)基準(zhǔn)」。深度強(qiáng)化學(xué)習(xí)本身也在不斷成熟:想要更好地了解當(dāng)前的技術(shù),請參閱 Vincent François-Lavet's review (2019)。在取得令人興奮的早期成功后,深度強(qiáng)化學(xué)習(xí)可能準(zhǔn)備回歸基礎(chǔ)。

        這種成熟的結(jié)果之一是對 ALE 論文進(jìn)行二次更新,這項(xiàng)工作由我當(dāng)時(shí)的學(xué)生 Marlos C. Machado 主導(dǎo),新的成果與新的代碼一同發(fā)布。該代碼的發(fā)布解鎖了額外的難度級(jí)別(flavours),這證明新成果是對遷移學(xué)習(xí)研究非常有用的(Machado et al.,2018)。在這篇論文中有太多的好東西要列出,但是首先要討論的是如何評(píng)估學(xué)習(xí) Atari-playing 算法的重復(fù)性和公平性。在 Go-Explore 博客發(fā)布的 Twitter-eddies 中可以看到一個(gè)關(guān)于社區(qū)如何接受這一點(diǎn)的很好的例子:經(jīng)過討論之后,作者們重新使用我們推薦的「粘性行為」評(píng)估方案來評(píng)估他們的方法。(如果你感興趣,這是 Jeff Clune 的一條推特)。

        去年 8 月,我們還發(fā)布了開源強(qiáng)化學(xué)習(xí)框架,Dopamine(白皮書:Castro et al.,2018)。我們想從簡單的 Dopamine 入手,堅(jiān)持開發(fā)對強(qiáng)化學(xué)習(xí)研究有用的一小部分核心功能。因此,框架的第一個(gè)版本由大約 12 個(gè) Python 文件組成,并為 ALE 提供了一個(gè)單 GPU、最先進(jìn)的 Rainbow 智能體。Dopamine 2.0(2 月 6 日 Pablo Samuel Castro 的博客文章)擴(kuò)展了第一個(gè)版本,更廣泛地支持離散操作域。我們最近幾乎所有的強(qiáng)化學(xué)習(xí)研究都使用 Dopamine。

        最后同樣值得一提的是,我們最近還與 DeepMind 合作發(fā)布了一個(gè)基于熱門紙牌游戲 Hanabi(Bard et al.,2019)的人工智能方法新研究平臺(tái)。Hanabi 是獨(dú)一無二的,因?yàn)樗Y(jié)合了合作(而不是競爭!)和部分可觀察性。代碼中包含一個(gè)基于 Dopamine 的智能體,因此你可以隨時(shí)將代碼用起來。我已經(jīng)在另一篇博文中對此進(jìn)行了更多的討論,但最后我想說,這是這段時(shí)間以來我研究的最有趣的問題之一。順便說一下:分布式強(qiáng)化學(xué)習(xí)和非分布式強(qiáng)化學(xué)習(xí)之間似乎存在很大的性能差距,如下面的學(xué)習(xí)曲線所示。這是一個(gè)小小的謎團(tuán)。

        我在谷歌大腦工作的 18 個(gè)月中,是怎樣研究強(qiáng)化學(xué)習(xí)的?

        結(jié)語

        這篇文章沒有討論如何探索強(qiáng)化學(xué)習(xí),盡管這個(gè)話題對我來說仍然很重要。值得注意的是,通過 Adrien Ali Taiga,我們在理解偽計(jì)數(shù)如何幫助我們探索方面取得了一些進(jìn)展(Ali Taiga, Courville, Bellemare, 2018)。很高興看到強(qiáng)化學(xué)習(xí)的越來越多的研究者們迎接挑戰(zhàn),致力于解決 Montezuma’s Revenge 等艱難的探索問題。盡管 epsilon-貪婪(epsilon-greedy)算法和熵正則化(entropy regularization)在實(shí)踐中仍然占據(jù)主導(dǎo)地位,但我認(rèn)為我們離顯著提高算法樣本效率的集成解決方案,也不遠(yuǎn)了。

        盡管蒙特利爾市中心的風(fēng)景可能與倫敦北部不盡相同,但我在谷歌大腦這段時(shí)間的研究經(jīng)歷絕對令人興奮。蒙特利爾和加拿大是多位世界上最優(yōu)秀的深度強(qiáng)化學(xué)習(xí)研究人員的家鄉(xiāng),能與這么多本地和谷歌大腦團(tuán)隊(duì)的人才交流,我感到很不勝榮光。

        來源 | 雷鋒網(wǎng)
        作者 | 晟煒
        編輯 | 幸麗娟


        上一篇:像人一樣編輯源代碼,谷歌大腦提出神經(jīng)網(wǎng)絡(luò)也可以學(xué)「編程」
        下一篇:基礎(chǔ)教育如何順應(yīng)人工智能時(shí)代需求

        主站蜘蛛池模板: 亚洲av乱码一区二区三区香蕉| 美女尿口扒开图片免费| 国产精品综合专区中文字幕免费播放 | 亚洲AV日韩综合一区尤物| 国产精品免费看久久久| 国产精品内射视频免费| 国产成人精品免费视频动漫 | 曰批免费视频播放免费| 暖暖免费高清日本中文| 亚洲成在人线aⅴ免费毛片 | 亚洲精品成a人在线观看| 亚洲AV无码一区二区三区性色| a一级毛片免费高清在线| 亚洲精品国产成人影院| 一级中文字幕免费乱码专区| 国产精品视频免费一区二区| 亚洲人成色99999在线观看| 国产中文字幕免费观看| 一级毛片免费视频网站| 国产美女做a免费视频软件| 亚洲美女在线观看播放| 一级做受视频免费是看美女| 久久久久亚洲av毛片大| 无码精品国产一区二区三区免费| 亚洲综合无码一区二区三区| 一级毛片免费视频| 亚洲午夜久久久精品电影院| 在线观看免费国产视频| 最新亚洲成av人免费看| 理论秋霞在线看免费| 亚洲日韩欧洲无码av夜夜摸| 免费无遮挡无码视频在线观看| 久久精品国产亚洲7777| 麻豆成人久久精品二区三区免费| 亚洲第一区二区快射影院| 深夜国产福利99亚洲视频| 国产产在线精品亚洲AAVV| 亚洲熟妇丰满多毛XXXX| 在线a级毛片免费视频| 亚洲 日韩经典 中文字幕| 国产成人精品久久亚洲|