據外媒Venture Beat報道,Facebook人工智能研究院(Facebook AI Research,FAIR)稱,他們推出了一個與紙牌游戲Hanabi相關的最新AI項目。AI系統的得分是24.61分(滿分為25分),而之前最好的系統得分是23.92分。
今年2月,來自Google、DeepMind、卡內基梅隆大學和牛津大學的研究人員提出了Hanabi基準,并提出了更多的人工智能可以玩這個游戲,以實現“人工智能研究的新挑戰”。參與該項目的研究人員認為,弄清楚怎樣玩好Hanabi,這對于人工智能來說可能是一個重大進步,并且有助于其在聊天和自動駕駛等應用場景中與人類進行更加流暢的互動。
與國際象棋或圍棋這些AI挑戰人類的其他游戲不同,Hanabi是一種合作游戲,參與者可以共同努力,朝著一個共同的目標努力。這款游戲最大的特點在于,牌是向著別人握的,玩家看不見自己的牌,但所有其他人都看得見。大家的目標是下牌到桌面上讓五種顏色的牌都順著從1到5排列出來。
曾經發表過相關論文的牛津大學研究員Jakob Foerster說,“Hanabi是一個關于溝通和合作的游戲,人工智能目前還沒有深入這一游戲領域。”
“其中一件非常令人興奮的事情是,我們所觀察到的改進,與通過深度強化學習所觀察到的改進,是完全正交的:你可以在任何策略之上加上這個,效果會更加強大。”Facebook AI研究員Noam Brown在電話采訪中這樣告訴VentureBeat。“我們看到的結果遠遠超出了我們或其他研究人員的預期。實際上,我們從搜索中獲得的好處,要強于過去使用的所有深度強化學習算法所獲得的好處。”
據了解, 這次Facebook的Hanabi AI項目借鑒了Pluribus的一些搜索技術,Pluribus是Facebook于今年早些時候推出的一款玩撲克的AI,擊敗了一些人類冠軍。
報道稱,Facebook的AI團隊通過將搜索技術與深度強化學習結合起來實現了這一壯舉。搜索算法把一個代理之外的所有代理執行商定的策略將問題轉換為單個代理設置,這是一種被稱為“藍圖”(blueprint)的強化學習算法。根據一篇題為“通過在合作部分可觀察的游戲中搜索來改進策略” 的論文,這一算法允許搜索代理“將其他代理的已知策略作為環境的一部分進行處理,并基于其他行為來維護對隱藏信息的信念。”
來源 | 雷鋒網
作者 | 周蕾