<label id="qqrfm"><meter id="qqrfm"></meter></label>
      <span id="qqrfm"></span><label id="qqrfm"><meter id="qqrfm"></meter></label>

        百度 ERNIE 2.0強(qiáng)勢(shì)發(fā)布!16項(xiàng)中英文任務(wù)表現(xiàn)超越 BERT 和 XLNet

        2019年3月,百度正式發(fā)布 NLP 模型 ERNIE,其在中文任務(wù)中全面超越 BERT 一度引發(fā)業(yè)界廣泛關(guān)注和探討。
         
        今天,經(jīng)過(guò)短短幾個(gè)月時(shí)間,百度 ERNIE 再升級(jí)。發(fā)布持續(xù)學(xué)習(xí)的語(yǔ)義理解框架 ERNIE 2.0,及基于此框架的 ERNIE 2.0預(yù)訓(xùn)練模型。繼1.0后,ERNIE 英文任務(wù)方面取得全新突破,在共計(jì)16個(gè)中英文任務(wù)上超越了 BERT 和 XLNet, 取得了 SOTA 效果。

        目前,百度 ERNIE 2.0的 Fine-tuning 代碼和英文預(yù)訓(xùn)練模型已開(kāi)源。( Github 項(xiàng)目地址:https://github.com/PaddlePaddle/ERNIE)

        近兩年,以 BERT 、 XLNet 為代表的無(wú)監(jiān)督預(yù)訓(xùn)練技術(shù)在語(yǔ)言推斷、語(yǔ)義相似度、命名實(shí)體識(shí)別、情感分析等多個(gè)自然語(yǔ)言處理任務(wù)上取得了技術(shù)突破。基于大規(guī)模數(shù)據(jù)的無(wú)監(jiān)督預(yù)訓(xùn)練技術(shù)在自然語(yǔ)言處理領(lǐng)域變得至關(guān)重要。

        百度發(fā)現(xiàn),之前的工作主要通過(guò)詞或句子的共現(xiàn)信號(hào),構(gòu)建語(yǔ)言模型任務(wù)進(jìn)行模型預(yù)訓(xùn)練。例如,BERT 通過(guò)掩碼語(yǔ)言模型和下一句預(yù)測(cè)任務(wù)進(jìn)行預(yù)訓(xùn)練。XLNet 構(gòu)建了全排列的語(yǔ)言模型,并通過(guò)自回歸的方式進(jìn)行預(yù)訓(xùn)練。

        然而,除了語(yǔ)言共現(xiàn)信息之外,語(yǔ)料中還包含詞法、語(yǔ)法、語(yǔ)義等更多有價(jià)值的信息。例如,人名、地名、機(jī)構(gòu)名等詞語(yǔ)概念知識(shí),句子間順序和距離關(guān)系等結(jié)構(gòu)知識(shí),文本語(yǔ)義相似度和語(yǔ)言邏輯關(guān)系等語(yǔ)義知識(shí)。設(shè)想如果能持續(xù)地學(xué)習(xí)各類任務(wù),模型的效果能否進(jìn)一步提升?



        ▲ERNIE 2.0:可持續(xù)學(xué)習(xí)語(yǔ)義理解框架

        基于此,百度提出可持續(xù)學(xué)習(xí)語(yǔ)義理解框架 ERNIE 2.0。該框架支持增量引入詞匯( lexical )、語(yǔ)法 ( syntactic ) 、語(yǔ)義( semantic )等3個(gè)層次的自定義預(yù)訓(xùn)練任務(wù),能夠全面捕捉訓(xùn)練語(yǔ)料中的詞法、語(yǔ)法、語(yǔ)義等潛在信息。

        這些任務(wù)通過(guò)多任務(wù)學(xué)習(xí)對(duì)模型進(jìn)行訓(xùn)練更新,每當(dāng)引入新任務(wù)時(shí),該框架可在學(xué)習(xí)該任務(wù)的同時(shí),不遺忘之前學(xué)到過(guò)的信息。這也意味著,該框架可以通過(guò)持續(xù)構(gòu)建訓(xùn)練包含詞法、句法、語(yǔ)義等預(yù)訓(xùn)練任務(wù),持續(xù)提升模型效果。



        ▲新發(fā)布的 ERNIE 2.0模型結(jié)構(gòu)

        依托該框架,百度充分借助飛槳 PaddlePaddle 多機(jī)分布式訓(xùn)練優(yōu)勢(shì),利用 79億 tokens 訓(xùn)練數(shù)據(jù)(約1/4的 XLNet 數(shù)據(jù))和64張 V100(約1/8的 XLNet 硬件算力)訓(xùn)練的 ERNIE 2.0預(yù)訓(xùn)練模型不僅實(shí)現(xiàn)了 SOTA 效果,而且為開(kāi)發(fā)人員定制自己的 NLP 模型提供了方案。目前,百度開(kāi)源了 ERNIE 2.0的 Fine-tuning 代碼和英文預(yù)訓(xùn)練模型。

        百度研究團(tuán)隊(duì)分別比較了中英文環(huán)境上的模型效果。英文上,ERNIE 2.0在自然語(yǔ)言理解數(shù)據(jù)集 GLUE 的7個(gè)任務(wù)上擊敗了 BERT 和 XLNet。中文上,在包括閱讀理解、情感分析、問(wèn)答等不同類型的9個(gè)數(shù)據(jù)集上超越了 BERT 并刷新了 SOTA。

         


        ERNIE 的工作表明,在預(yù)訓(xùn)練過(guò)程中,通過(guò)構(gòu)建各層面的無(wú)監(jiān)督預(yù)訓(xùn)練任務(wù),模型效果也會(huì)顯著提升。未來(lái),研究者們可沿著該思路構(gòu)建更多的任務(wù)提升效果。

        自2018 年預(yù)訓(xùn)練語(yǔ)言模型 BERT 提出之后,預(yù)訓(xùn)練語(yǔ)言模型將自然語(yǔ)言處理的大部分任務(wù)水平提高了一個(gè)等級(jí),這個(gè)領(lǐng)域的研究也掀起了熱潮。如今可持續(xù)學(xué)習(xí)的特點(diǎn)亦將成為 NLP 領(lǐng)域發(fā)展里程中的關(guān)鍵。

        來(lái)源 | 百度AI

        上一篇:鵬城實(shí)驗(yàn)室榮獲IEEE ICME 2019 最佳論文獎(jiǎng)
        下一篇:商湯科技與阿布扎比投資辦公室達(dá)成戰(zhàn)略合作 中國(guó)原創(chuàng)AI全球化發(fā)展更進(jìn)一步

        主站蜘蛛池模板: 亚洲人成网站18禁止久久影院| 一区二区三区在线免费| 亚洲人成色在线观看| 西西人体免费视频| 杨幂最新免费特级毛片| 国产亚洲福利精品一区| 中文字幕亚洲综合久久菠萝蜜 | 国产亚洲精品不卡在线| 亚洲尤码不卡AV麻豆| 亚洲激情在线视频| 色天使色婷婷在线影院亚洲 | 亚洲色大成网站www永久男同| 亚洲人成人网站18禁| 今天免费中文字幕视频| 国产无人区码卡二卡三卡免费| 最新猫咪www免费人成| 色久悠悠婷婷综合在线亚洲| 精品久久久久久亚洲精品| 亚欧洲精品在线视频免费观看| 久久九九AV免费精品| 国产免费人人看大香伊| 亚洲一区二区三区在线观看蜜桃 | 亚洲国产成人精品无码区在线秒播| 九九精品国产亚洲AV日韩| 国产精品永久免费10000| 亚洲AV中文无码乱人伦下载| 人妻仑乱A级毛片免费看| 黄网址在线永久免费观看| 2020久久精品亚洲热综合一本| 精品一卡2卡三卡4卡免费视频| 亚洲精品tv久久久久| 无码色偷偷亚洲国内自拍| 在线观看永久免费视频网站| 亚洲欧美第一成人网站7777| 成人在线免费观看| 亚洲大成色www永久网址| 日韩免费a级在线观看| 亚洲AV日韩综合一区| 夜色阁亚洲一区二区三区| 视频免费1区二区三区| 国产AV无码专区亚洲AV漫画|