神經(jīng)網(wǎng)絡是一種技術(shù),這種技術(shù)讓我們制造出了 Go-mastering 機器人,以及能創(chuàng)作中國古典詩歌的文本生成機器人,但這種技術(shù)通常被稱作黑盒子,因為它們運轉(zhuǎn)的原理非常神秘。想讓它們運作良好可謂是一門藝術(shù),它涉及許多媒體沒有報道的微調(diào)操作。網(wǎng)絡也在變得越來越大、越來越復雜,加上龐大的數(shù)據(jù)集和龐大的計算機陣列,使得復現(xiàn)和研究這些模型變得非常昂貴,只有資金最充足的實驗室才能承擔這樣的研究。來自麥吉爾大學(McGill)的計算機科學教授若埃爾·皮諾(Joelle Pineau)正試圖改變這種局面。本文介紹了當前深度學習領(lǐng)域的一個主要問題,即研究內(nèi)容的可復現(xiàn)性,可復現(xiàn)性好的研究,這對于技術(shù)發(fā)展是很重要的,并介紹了學術(shù)界對此所做的努力和討論。
Facebook 的研究人員表示,他們發(fā)現(xiàn)要復現(xiàn) DeepMind 的 AlphaGo 程序 ‘就算能做到,也是非常困難的’ 。圖片制作:GETTY IMAGES
幾年前,麥吉爾大學(McGill)的計算機科學教授若埃爾·皮諾(Joelle Pineau)在幫助學生設計新的算法,她的學生們當時陷入了困境。她的實驗室研究強化學習,這是人工智能的一種,用于幫助虛擬角色(“半獵豹”和“螞蟻”的虛擬角色很受歡迎)自學如何在虛擬世界中移動。這是制造自動機器人和汽車的先決技術(shù)條件。皮諾的學生希望改進實驗室的另一個系統(tǒng)。但首先他們必須重建它;不知道出于什么原因,他們的設計未能達到預期的效果,直到學生們嘗試了一些其他實驗室的論文中沒有提過的“創(chuàng)造性的操作”。
瞧,這個系統(tǒng)開始像宣傳的那樣運行了。皮諾表示,這種幸運的突破是一種讓人困擾的趨勢的征兆。神經(jīng)網(wǎng)絡是一種技術(shù),這種技術(shù)讓我們制造出了 Go-mastering 機器人,以及能創(chuàng)作中國古典詩歌的文本生成機器人,但這種技術(shù)通常被稱作黑盒子,因為它們運轉(zhuǎn)的原理非常神秘。想讓它們運作良好可謂是一門藝術(shù),它涉及許多媒體沒有報道的微調(diào)操作。網(wǎng)絡也在變得越來越大、越來越復雜,加上龐大的數(shù)據(jù)集和龐大的計算機陣列,使得復現(xiàn)和研究這些模型變得非常昂貴,只有資金最充足的實驗室才能承擔這樣的研究——如果能夠承擔的話。
“那還算是研究嗎?”馬薩諸塞大學機器學習研究員安娜·羅杰斯(Anna Rogers)問道。“也搞不清楚你是在展示模型的優(yōu)越性,還是在展示你預算的優(yōu)越性。”
皮諾正試圖改變這種局面。她是頂級人工智能會議 NeurIPS 的可復現(xiàn)性主席。在她的監(jiān)督下,會議現(xiàn)在要求研究人員提交一份“可復現(xiàn)性清單”,其中包括一些經(jīng)常從論文中省略的信息,比如在選出“最佳”模型之前訓練過的模型數(shù)量、使用的計算能力,以及代碼和數(shù)據(jù)集的鏈接。這是該領(lǐng)域的一次變革——這個領(lǐng)域的參與者聲譽建立在排行榜的基礎(chǔ)之上(排行榜決定了誰的系統(tǒng)是某項特定任務的“最先進水平”),并提供了大量激勵,讓人們掩蓋得出這些驚人結(jié)果背后他們所經(jīng)歷的曲折。
皮諾說,這個想法是為了鼓勵研究人員為其他人提供一個復制自己工作的路線圖。新文本生成器的口才或電子游戲機器人的“超人”敏捷性的確令人驚訝,但即使是最老練的研究人員也對它們的工作原理知之甚少。復現(xiàn)這些人工智能模型不僅對找出研究的新途徑很重要,而且也是一種研究算法的方式,這類算法能夠增強,并且在某些情況下能夠取代人類做出決策,例如決定誰呆在監(jiān)獄,多長時間批準抵押貸款等。
其他人也在著手解決這個問題。谷歌的研究人員提出了所謂的“model cards”,來詳細說明機器學習系統(tǒng)是如何被測試的,包括指出具有潛在偏差的結(jié)果。其他人則試圖證明”最先進“這個表述有多脆弱,因為針對排行榜中使用的數(shù)據(jù)集而進行優(yōu)化的系統(tǒng),換到其他環(huán)境中就變得非常不可靠。上周,艾倫人工智能研究所(Allen Institute for Artificial Intelligence,簡稱 AI2)的研究人員發(fā)表了一篇論文,旨在將皮諾的可復現(xiàn)性清單擴展到實驗過程的其他部分。他們稱之為“展示你的作品”。
“從一個人停下的地方開始是如此痛苦,因為我們從來沒有完整地描述過實驗設置,”AI2 研究員杰西道奇 (Jesse Dodge) 說,他是這項研究的合著者之一。“如果我們不談論我們所做的事情,人們就無法復現(xiàn)我們所做的事情。他補充說,當人們公開系統(tǒng)構(gòu)建過程的基本細節(jié)時,大家都會感到驚訝。去年一項關(guān)于強化學習論文的調(diào)查發(fā)現(xiàn),只有大約一半的論文包含代碼。
有時基本信息會丟失,因為它是私有的——這對工業(yè)界的實驗室來說尤其是個問題。但道奇說,這更多是表明該領(lǐng)域未能跟上不斷變化的方法。研究人員為了改善他們的研究結(jié)果而做了哪些改變,這在十年前是能比較直觀的看到的。相比之下,神經(jīng)網(wǎng)絡則比較講究;要獲得最佳效果,通常需要調(diào)節(jié)數(shù)千個節(jié)點,道奇稱之為是一種“黑魔法”。選出最佳模型往往需要大量的實驗。這種魔法成本變高,速度也變得更快了。
就連大型工業(yè)界實驗室也發(fā)出了警報,它們擁有著設計最大和最復雜系統(tǒng)的資源。當 Facebook 試圖復制 AlphaGo 時,研究人員似乎被這項任務搞得筋疲力盡。AlphaGo 是 Alphabet 旗下 DeepMind 開發(fā)的一個系統(tǒng),用來讓機器掌握古老的圍棋游戲。Facebook 在 5 月份發(fā)表的一篇論文中寫道,龐大的計算需求——在數(shù)千臺設備上運行數(shù)百萬次的實驗,加上不可獲得的源代碼,使得該系統(tǒng)“即使不是不可能,也很難復制、研究、改進和擴展”。(Facebook 團隊最終成功了。)
AI2 的研究為這個問題提出了一個解決方案。這個想法就是提供更多的實驗數(shù)據(jù)。你仍然可以報告你在 100 個實驗之后得到的最佳模型——這個結(jié)果可能被聲稱為“最先進的”——但是你也可以說明,如果你只有嘗試 10 次或者僅僅一次的預算時,你所期望的性能范圍會是怎樣的。
道奇說,復現(xiàn)性的重點不是準確地復現(xiàn)結(jié)果,因為考慮到神經(jīng)網(wǎng)絡代碼中的隨機因素,以及具體硬件和代碼運行的不同,這幾乎是不可能的。相反,這個想法是提供一個路線圖,以達到與原版的研究相同的結(jié)論,特別是涉及到?jīng)Q定哪個機器學習系統(tǒng)最適合某一特定任務時,復現(xiàn)性就尤為重要。
道奇解釋說,這可能有助于提高研究效率。當他的團隊重建一些流行的機器學習系統(tǒng)時,他們發(fā)現(xiàn)在預算約束下,較為陳舊的方法比更酷炫的方法更有意義。這一想法旨在幫助規(guī)模較小的學術(shù)實驗室,讓他們大致了解如何讓他們的資金得到最大回報。他補充說這樣做的一個附帶好處是,考慮到訓練大型模型可能需要的能源相當于一輛汽車的終生排放量(https://twitter.com/strubell/status/1129408199478661120?lang=en),這種方法還會促使研究變得更為環(huán)保。
皮諾說,她很高興看到其他人試圖“開放模型”,但她不確定是否大多數(shù)實驗室會利用這些節(jié)省成本的好處。許多研究人員在壓力下還是會使用更多的計算機來保持領(lǐng)先地位,之后才會考慮效率這件事。她還補充說,要為研究人員報告結(jié)果的方式做出規(guī)范也是很棘手的。AI2 的“展示你的作品”方法可能掩蓋了研究人員選擇最佳模型過程的復雜性。
這些方法上的差異,部分地解釋了為什么 NeurIPS 復現(xiàn)性檢查表需要是一個自愿的行為。尤其對工業(yè)實驗室來說,一個絆腳石是其代碼和數(shù)據(jù)的私有性。比如說,如果 Facebook 正在對你的 Instagram 照片進行研究,那么公開分享這些數(shù)據(jù)就會有問題。涉及健康數(shù)據(jù)的臨床研究是另一個癥結(jié)所在。“我們不想切斷研究人員與社區(qū)的聯(lián)系,”她說。
換句話說,很難在不限制研究人員的情況下開發(fā)出可復現(xiàn)性的標準,尤其是在方法快速發(fā)展的情況下難度更大。但皮諾很樂觀。NeurIPS 可復現(xiàn)性工作的另一個挑戰(zhàn)是要求其他研究人員復現(xiàn)已接受的論文。與其他領(lǐng)域相比(如生命科學,其中舊的方法會持續(xù)使用很久),這個領(lǐng)域中的研究人員更習慣于身處那種靈敏而快速變化的環(huán)境中。她表示:“無論是從人才還是技術(shù)角度來看,這個領(lǐng)域都很年輕,擋在路上的慣性思維更少。”
Gregory Barber 是 WIRED 網(wǎng)站的一位專職作家,撰寫區(qū)塊鏈,AI 和技術(shù)策略方面的文章。他是哥倫比亞大學計算機科學和英語文學專業(yè)的學士,現(xiàn)居于舊金山。
原文鏈接:
https://www.wired.com/story/artificial-intelligence-confronts-reproducibility-crisis
來源 | AI前線