近日,自然語言處理(NLP)領(lǐng)域的國際頂級學(xué)術(shù)會議“國際計算語言學(xué)協(xié)會年會”(ACL 2019)公布了今年大會論文錄用結(jié)果。根據(jù) ACL 2019官方數(shù)據(jù),今年大會的有效投稿數(shù)量達到2694篇,相比去年的1544篇增長高達75%。
其中,國內(nèi)自然語言處理領(lǐng)軍者百度共有10篇論文被大會收錄,展現(xiàn)出在該領(lǐng)域的技術(shù)積淀和國際水準。
國際計算語言學(xué)協(xié)會(ACL,The Association for ComputationalLinguistics)成立于1962年,是自然語言處理領(lǐng)域影響力最大、最具活力的國際學(xué)術(shù)組織之一,自成立之日起就致力于推動計算語言學(xué)及自然語言處理相關(guān)研究的發(fā)展和國際學(xué)術(shù)交流。
百度高級副總裁、AI 技術(shù)平臺體系(AIG)和基礎(chǔ)技術(shù)體系(TG)總負責(zé)人王海峰曾于2013年出任 ACL 主席,是 ACL 五十多年歷史上首位華人主席,也是 ACL 亞太分會(AACL)的創(chuàng)始主席,ACL 會士。研究論文能夠被 ACL 學(xué)術(shù)年會錄用,意味著研究成果得到了國際學(xué)術(shù)界的認可。
百度被錄用的10篇論文,覆蓋了
信息抽取、機器閱讀理解、對話系統(tǒng)、視頻語義理解、機器翻譯等諸多NLP領(lǐng)域的熱點和前沿研究方向,提出了包括基于注意力正則化的ARNOR框架(Attention Regularization based NOiseReduction)、語言表示與知識表示深度融合的 KT-NET 模型、多粒度跨模態(tài)注意力機制、基于端到端深度強化學(xué)習(xí)的共指解析方法等,在人機交互、智能客服、視頻理解、機器翻譯等場景中具有很大的應(yīng)用價值。
對于百度而言,能夠在國際學(xué)術(shù)界取得這樣的成績并不意外。王海峰博士是自然語言處理領(lǐng)域的國際領(lǐng)軍人物之一,其在自然語言處理領(lǐng)域的研究及工程科技成果,得到國際同行的廣泛認可。
他領(lǐng)導(dǎo)下的百度自然語言處理團隊,在自然語言處理技術(shù)的發(fā)展及應(yīng)用上始終保持領(lǐng)先,一直被視為自然語言處理研究的
“第一梯隊”,培養(yǎng)和吸引了海內(nèi)外很多學(xué)術(shù)界和產(chǎn)業(yè)界的人才。
百度自然語言處理技術(shù)全面支持百度業(yè)務(wù),是智能搜索、信息流、智能家居等產(chǎn)品的核心技術(shù),同時積極開放其核心能力,賦能各行各業(yè),助力產(chǎn)業(yè)智能化升級。
作為百度大腦開放平臺的核心組成部分,自然語言處理相關(guān)技術(shù)的日均調(diào)用量超過千億,廣泛應(yīng)用于互聯(lián)網(wǎng)、金融、醫(yī)療、零售、出行、服務(wù)等行業(yè)。
在國內(nèi)各行業(yè)積極擁抱人工智能技術(shù)的大背景下,百度自然語言處理技術(shù)正在為中國的產(chǎn)業(yè)智能化進程做出重要貢獻。
附:百度被收錄ACL 2019論文概覽
摘要:遠監(jiān)督通過知識庫自動獲取標注語料,是關(guān)系抽取的關(guān)鍵算法。但是遠監(jiān)督通常會引入大量噪聲數(shù)據(jù),即句子并未表達自動標注的關(guān)系。進一步說,基于遠監(jiān)督學(xué)習(xí)的模型效果不佳、解釋性差,無法解釋關(guān)系的指示詞。
為此,我們提出基于注意力正則化的 ARNOR 框架(Attention Regularization based NOise Reduction)。此方法通過注意力機制,要求模型能夠關(guān)注關(guān)系的指示詞,進而識別噪聲數(shù)據(jù),并通過 bootstrap 方法逐步選擇出高質(zhì)量的標注數(shù)據(jù),改善模型效果。此方法在關(guān)系分類及降噪上均顯著優(yōu)于此前最好的增強學(xué)習(xí)算法。
應(yīng)用價值:在文本信息抽取有廣泛的應(yīng)用價值。
此方法能夠顯著降低對標注數(shù)據(jù)的依賴,實現(xiàn)低成本的基于知識庫的自動關(guān)系學(xué)習(xí),未來可落地在醫(yī)療、金融等行業(yè)信息抽取中。
摘要:機器閱讀理解 (Machine Reading Comprehension) 是指讓機器閱讀文本,然后回答和閱讀內(nèi)容相關(guān)的問題。該技術(shù)可以使機器具備從文本數(shù)據(jù)中獲取知識并回答問題的能力,是構(gòu)建通用人工智能的關(guān)鍵技術(shù)之一,長期以來受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。
近兩年,
預(yù)訓(xùn)練語言表示模型在機器閱讀理解任務(wù)上取得了突破性進展。通過在海量無標注文本數(shù)據(jù)上預(yù)訓(xùn)練足夠深的網(wǎng)絡(luò)結(jié)構(gòu),當(dāng)前最先進的語言表示模型能夠捕捉復(fù)雜的語言現(xiàn)象,更好地理解語言、回答問題。
然而,正如大家所熟知的,真正意義上的閱讀理解不僅要求機器具備語言理解的能力,還要求機器具備知識以支撐復(fù)雜的推理。
為此,在論文《Enhancing Pre-trained Language Representations with Rich Knowledgefor Machine Reading Comprehension》中,百度開創(chuàng)性地提出了語言表示與知識表示的深度融合模型 KT-NET,希望同時借助語言和知識的力量進一步提升機器閱讀理解的效果。
KT-NET 的模型架構(gòu)如下圖所示。首先,針對給定的閱讀內(nèi)容和結(jié)構(gòu)化知識圖譜,分別利用語言表示模型和知識表示模型對兩者進行編碼,得到相應(yīng)的文本表示和知識表示。
接下來,利用注意力機制從知識圖譜中自動篩選并整合與閱讀內(nèi)容高度相關(guān)的知識。
最后,通過雙層自注意力匹配,實現(xiàn)文本表示和知識表示的深度融合,提升答案邊界預(yù)測的準確性。截止到發(fā)稿日,KT-NET 仍然是常識推理閱讀理解數(shù)據(jù)集 ReCoRD 榜單上排名第一的模型,并在此前很長一段時期內(nèi)都是 SQuAD 1.1榜單上效果最好的單模型。
▲KT-NET: 語言表示與知識表示的深度融合模型
應(yīng)用價值:該項技術(shù)可應(yīng)用于搜索問答、智能音箱等產(chǎn)品中,直接精準定位用戶輸入問題的答案,并在搜索結(jié)果首條顯著位置呈現(xiàn)或通過語音播報呈現(xiàn)給用戶。
摘要:現(xiàn)有的基于監(jiān)督學(xué)習(xí)的對話系統(tǒng),缺乏對多輪回復(fù)方向的控制和規(guī)劃,通常導(dǎo)致對話中發(fā)生重復(fù)、發(fā)散等問題,使得用戶的交互體驗偏差。
在本文中,我們對多輪對話進行了復(fù)合評估 (compound assessment),并基于該評估利用強化學(xué)習(xí)優(yōu)化兩個自對話 (self-play) 的機器人,促進生成過程中較好地控制多輪對話的方向。
考慮到對話的一個主要動機是進行有效的信息交換,針對 Persona Chat 問題(兩個人相互對話聊興趣愛好),我們設(shè)計了一個較為完善的評估系統(tǒng),包括對話的信息量和連貫度兩個主要方面。
我們利用復(fù)合評估作為 reward,基于策略梯度算法(policy gradient),指導(dǎo)優(yōu)化兩個同構(gòu)的對話生成機器人之間的對話策略(dialogue strategy)。
該對話策略通過控制知識的選擇來主導(dǎo)對話的流向。
我們公開數(shù)據(jù)集上進行了全面的實驗,結(jié)果驗證了我們提出的方法生成的多輪對話質(zhì)量,顯著超過其他最優(yōu)方法。
應(yīng)用價值:可應(yīng)用于對話系統(tǒng)、智能客服。
摘要:目前的人機對話還處于初級水平,機器大多是被動對話,無法像人類一樣進行充分交互。
我們提出了基于知識圖譜的主動對話任務(wù),讓機器像人類一樣主動和用戶進行對話。對話過程中,機器根據(jù)知識圖譜主動引領(lǐng)對話進程完成提前設(shè)定的話題(實體)轉(zhuǎn)移目標,并保持對話的自然和流暢性。
為此,我們在電影和娛樂任務(wù)領(lǐng)域人工標注3萬組共27萬個句子的主動對話語料,并實現(xiàn)了生成和檢索的兩個主動對話基線模型。
應(yīng)用價值:可應(yīng)用于智能音箱中的對話技能,也可以基于此開發(fā)閑聊技能,讓機器主動發(fā)起基于知識圖譜的聊天。
摘要:視覺問答(VQA)是一類跨模態(tài)信息理解任務(wù),要求系統(tǒng)理解視覺圖片信息,并回答圍繞圖片內(nèi)容的文本問題。
這篇文章提出一種多粒度跨模態(tài)注意力機制,在圖片-句子粒度注意力的基礎(chǔ)上,提出更細粒度的物體級別跨模態(tài)信息注意力機制,并給出2種有效的細粒度信息理解增強的方法。
實驗表明我們的方法有助于對復(fù)雜圖像和細小物體的識別,使系統(tǒng)更準確地定位到回答文本問題所依賴的視覺信息,從而顯著提升VQA準確率。
應(yīng)用價值:可應(yīng)用于基于多模態(tài)信息和知識圖譜的小視頻內(nèi)容理解項目。
摘要:這項基礎(chǔ)研究提出了一種提高最近鄰搜索的方法。
該方法有非常漂亮的理論基礎(chǔ),不僅能顯著提升雙語詞典編纂(Bilingual Lexicon Induction)的準確率,對涉及最近鄰搜索的很多任務(wù)都有指導(dǎo)意義。
應(yīng)用價值:機器翻譯需要大量對齊的雙語文本作為訓(xùn)練數(shù)據(jù)。這一要求在某些情況下不能被滿足,比如小語種文本,專業(yè)文獻。雙語詞典編纂在這種情況下能提升翻譯系統(tǒng)的準確率。
摘要:同聲翻譯是人工智能領(lǐng)域公認的最難問題之一,已經(jīng)困擾學(xué)術(shù)界和工業(yè)界幾十年了。我們提出了歷史上第一個超前預(yù)測和可控延遲的同聲翻譯算法。去年10月發(fā)布以來,被各大技術(shù)外媒廣泛報導(dǎo),包括 MIT 技術(shù)評論、IEEE Spectrum、財富雜志等。量子位總結(jié)報道:“這是2016年百度Deep Speech 2發(fā)布以來,又一項讓技術(shù)外媒們?nèi)绱思拥男逻M展。”
應(yīng)用價值:2018年11月的百度世界大會采用了這項同傳技術(shù),全程同傳翻譯了李彥宏所有演講,延遲僅為3秒左右,而之前的整句翻譯技術(shù)延遲為一整句(可達10秒以上)。同時,翻譯質(zhì)量也沒有明顯的下降。
摘要:本文旨在提高同聲翻譯的質(zhì)量。我們?nèi)ツ晏岢龅腟TACL框架(即上述文章7)雖然簡單有效,但有時不夠靈活。現(xiàn)在我們提出一種基于模仿學(xué)習(xí)的同聲翻譯算法,通過模仿本文設(shè)計的動態(tài)策略,
該模型可以實時靈活地決定是否需要等待更多信息來繼續(xù)翻譯,進而在保持低延遲的情況下提高了翻譯質(zhì)量。
應(yīng)用價值:該技術(shù)可用于同聲傳譯系統(tǒng)。
摘要:該文章旨在提高翻譯的魯棒性,特別是對同音詞噪音的魯棒性。我們在翻譯的輸入端,通過聯(lián)合嵌入的方式,加入輸入單詞對應(yīng)的發(fā)音信息。
實驗結(jié)果表明,該方法不僅大大提高了翻譯系統(tǒng)在噪聲情況下的魯棒性,也大幅提高了翻譯系統(tǒng)在非噪聲情況下的性能。
應(yīng)用價值:可用于翻譯,特別是語音到語音的同聲傳譯系統(tǒng)。語音翻譯的一個主要難題是語音識別的錯誤太多,而這些錯誤大多是同音詞或發(fā)音相似的單詞,此技術(shù)可以很大程度上降低這些來自于語音識別的噪音。
摘要:共指解析是信息抽取任務(wù)中不可或缺的組成部分。近期的基于端到端深度神經(jīng)網(wǎng)絡(luò)的方法,往往通過優(yōu)化啟發(fā)式的損失函數(shù)并做出一系列局部解析決策,缺乏對整個篇章的理解。
本文首次提出了基于端到端深度強化學(xué)習(xí)的共指解析方法,在同一框架內(nèi)完成指稱檢測和指稱鏈接,并且直接優(yōu)化共指解析的評價指標,在 OntoNotes 上取得了良好效果。
應(yīng)用價值:知可用于識圖譜構(gòu)建,信息抽取。
來源 | 百度AI