<label id="qqrfm"><meter id="qqrfm"></meter></label>
      <span id="qqrfm"></span><label id="qqrfm"><meter id="qqrfm"></meter></label>

        GPT-2的探究:對虛假新聞生成的恐懼,源于技術還是人?

        今年年初,OpenAI發布了一個非常強大的語言模型,可以模擬生成類似人類創作出的文本。通常在公告發布之后就會面向公眾發布模型,但這這次的公告不同以往,它表示這樣一個強大的工具可能會構成危險,因此只發布了一個較小、功能較單一的模型。

         很快,除了學術的熱議之外,這則新聞還被傳到了大眾媒體上,在那里,人們用相當簡單和夸張的方式描述它。在普通民眾中引起了恐慌;其他NLP人士中也提出了批評意見;甚至連他們內部也提出了質疑。六個月后,OpenAI終于決定發布完整的模型。

        那么這個模型是如何訓練的?它們是如何使用的?它們真的那么好嗎?真的具有危險嗎?

        本文將對以上問題做具體分析。 

        一、 我們討論什么?

        最近大多數人在談論語言模型(language models,LMs)的原因并不是說他們都在進行文本生成研究,而是因為經過預先訓練的LMs(比如OpenAI GPT-2或Google的BERT)可以用于在各種NLP應用程序中生成文本表征,大大提高了它們的性能。這種效果類似于2013年預先訓練過的單詞嵌入對NLP產生的影響。我推薦閱讀SebastianRuder的文章《NLP的ImageNet時刻已經到來》,對此有很好的總結。雷鋒網(公眾號:雷鋒網)接下來將帶你領略文本生成。

        在文本生成中有兩種完全不同的應用:

        1、開放式文本生成:其目的是可以生成任何文本。它可以是一個特定的主題,也可以續寫上一段,該模型被賦予了生成任何文本的最好效果。

        2、限制性文本生成:這個模型預期將生成一個特定的文本。更正式地說,就是給定一些輸入,模型應該嚴格依據輸入文本來生成。最好的例子是翻譯:例如給出一個法語句子,模型必須用英語生成一個與法語句子的意思相同的句子。其他例子包括摘要(給定長文檔,生成包含文檔中重要細節的簡短文本)、圖像描述(給定圖像,生成描述它的文本)、語音到文本(轉換)、以及將文本轉換為代碼或SQL查詢。

        這篇文章的重點是開放式文本生成。

        二、 語言模型 

        我之前曾經討論過機器翻譯的語言模型。簡單來說,語言模型是在文本中給定一個單詞來預測后續出現單詞的概率分布。分布在詞匯表上的所有單詞在總量上通常非常龐大(可能是幾十萬或更多)。 

        例如,“I'mtired, I want to”這個句子中的下一個單詞會是什么?一個好的語言模型會把高分分配給p(sleep|I'mtired, I want to)。像“bed”這樣的詞出現的概率應該很低,雖然它是一個相關的術語,但它并不構成語法句子;再者是“party”,雖然語法上正確但與邏輯相矛盾。整個句子的概率是每個單詞條件概率的乘積,使用鏈式法則,給定前面的單詞:

        p(I'mtired, I want to sleep) = p(I'm|<s>) * p(tired|<s> I'm) *p(,|<s> I'm tired) * p(I|<s> I'm tired,) *p(want|<s> I'm tired, I) * p(to|<s> I'm tired, I want) *p(sleep|<s> I'm tired, I want to) * p(</s>|<s> I'mtired, I want to sleep)
        其中<s>和</s>分別標記句子的開頭和結尾。請注意,我在這篇文章中使用了基于單詞的LM進行演示,但是,可以將基本標記定義為token或“Word部件”/“子詞單元”。 

        三、生成文本

        雖然LMs可以用來對某一文本在通常語言邏輯中出現的可能性進行評分,但在這篇文章中,我們將討論它們的另一個常見用法,即生成新文本。

        假設我們已經訓練了一個語言模型,我們如何生成文本呢?

        我們用一個非常簡單的玩具LM來演示,它的詞匯量很小,僅有少量可能的話語:
        GPT-2的探究:對虛假新聞生成的恐懼,源于技術還是人?
        要使用語言模型生成文本,必須逐個地生成,后面的符號由前面符號定義的分布決定。最基本的方法是在每一步簡單地使用最可能的詞。代碼將如下所示:
        GPT-2的探究:對虛假新聞生成的恐懼,源于技術還是人?
        我們的玩具LM只生成句子“This LM is cool”。一般來說,這種生成方法是非常受限的,因為它的表現單一,尤其是它更傾向于出現概率大的單詞,其中一些是虛詞,如限定詞(the,a,.),介詞(on,in,of,.)。諸如此類。此外,據一些研究表明,最大概率生成的文本與人工生成的文本有很大不同。人們說話并不會考慮哪些單詞出現的概率更大、哪些句子更常規,而是要告訴聽眾對他們最有幫助,或者是他們還不知道的信息(根據Grice's Cooperative原則)。

        另一種方法是根據語言模型從分布中抽樣,即從詞匯表中隨機選取一個單詞,與先前給定的單詞概率成正比。代碼如下所示:
          GPT-2的探究:對虛假新聞生成的恐懼,源于技術還是人?
        你可能會注意到,多次運行這個代碼,有時生成的LM并不符合常理,而有時這個LM是可用的。雖然這種抽樣方法傾向于產生更多樣化的文本,但它也不完美,因為現在有機會在每一個時間步中對一個生詞或無關的單詞進行采樣,一旦模型完成,下一個單詞的生成就取決于這個生詞,這就是它可能會走下坡路的原因。

        一個簡單的解決方案是將這兩種方法結合在一起,僅從分布中概率最大的top k 個單詞中抽取樣本。如下所示:
        GPT-2的探究:對虛假新聞生成的恐懼,源于技術還是人?
        注意,在分布中只保留k個單詞之后,我們需要再次確保它們形成有效的概率分布,即每個數據在0到1之間,并且總和是1。

        從分布頂端取樣的另一種方法是top p:將符號根據從大到小的概率排序,然后抽取符號,直到概率之和(也就是生成這些符號的概率)達到0到1之間的某個預定義值p為止。如果p值接近 0,那么模型將始終采用概率最大的token,而如果p值接近1,那么將從完整的分布中進行采樣。

        顯然這種方法相對于topk更加靈活,因為候選token的數量會根據所生成的前綴而改變。例如,對于像“I want to”這樣的文本就會有更多的候選者,而像“The bride andthe groom got”可選的token就不多(“married”應該占很大一部分的概率)。

        四、訓練語言模型 

        我之前討論過N-gram語言模型,但是4年前它們就已經過時了,取而代之的是神經語言模型。神經LM的基本訓練算法如下:
        GPT-2的探究:對虛假新聞生成的恐懼,源于技術還是人?
        不同的神經LMs在基本token(即字、字符、字塊)和編碼器的選擇上有所不同。編碼器采用一系列單詞嵌入并返回表示相應單詞序列的單個向量(例如: tired, I want to)。我以后可能會再寫一篇文章專門討論將文本編碼為向量的方法。本文我們僅將其視為黑匣子。下圖說明了訓練方法(尤其是基于RNN的編碼器):
        GPT-2的探究:對虛假新聞生成的恐懼,源于技術還是人?

        神經LMs相比于N-gram LMs,有兩個重要的優勢:

        1)N-gram LM通常根據前一個單詞預測下一個單詞,例如, I'mtired, I want to,3-gram LM只會根據最后3個單詞“I want to”來預測下一個可能出現的單詞,完全忽略了“tired”這個關鍵詞。N-gram LMs通常以小N(2 - 4個)為基礎。(請參閱關于N-gram 語言模型的文章獲得詳細的解釋)。

        2)N-gram LM是基于文本數據中每個文本出現次數的統計,它必須是逐字逐句的,“I'mtired”的出現次數與“I'm exhausted”的出現次數是完全不相關的,而神經LMs卻學習將文本片段表示為向量,并在此基礎上預測下一個單詞。它可以通過分配相似的向量表征來概括語義相似的文本(結果是相同的預測)。

        一個重要的提示:當前的LM訓練有不同的訓練目標,即不再執著于猜測句子中可能出現的下一個單詞。具體而言,BERT具有“掩蔽LM的目的”,即隱藏句子中的隨機單詞,并通過聯系上下文對后面出現的單詞進行預測,在這些隱藏單詞的前后都用符號標記。文本GAN(生成對抗網絡)由兩個組件組成:生成類似人類文本的生成器和經過訓練以區分人類生成文本和生成器生成文本的鑒別器。實際上,當前基于GAN的文本生成的表現不如語言模型的生成。

        五、評估文本生成 

        比較兩個用于解決相同任務的分類器的性能很容易。有一個測試集,每個數據點帶有真實標注;使用模型預測測試數據的標注,并計算每個模型與真實標注相比的準確度。我們會得到兩個數值,精度越高模型就越好。

        但這對于文本生成來說卻并不奏效。

        由于我們討論的是開放式文本生成,并不存在黃金標準文本(gold standard text)來評判模型的準確度。

        那么,我們該如何判斷模型的質量呢?

        目前最好的方法就是,我們手動去查看模型生成的部分文本的質量來評判一個模型是否足夠優秀。

        為了更系統地做到這一點,我們可以通過向人們展示由我們的模型生成的文本和由某個基礎模型(或人類)生成的文本,讓他們對比評分,并對這些評價匯總,總結出對這些文本最準確的評價。

        但這種方法成本卻極高,而且耗時很長。因此,在模型開發的最后階段,它通常應用于相對較少的文本,而不是在中間步驟去驗證文本(這可能有助于改進模型)。

        另一種常用的方法是困惑度:根據定義,它是測試集的逆概率,由字數來量化。我們希望得到一個盡可能低的困惑評分,這意味著測試集的概率是最大化的。也就是說,LM學習了一個類似于“truth”的概率分布。測試集是LM從未見過的文本,它的概率是通過逐字逐句的檢查并計算LM預測的每個單詞的概率來計算的。好的LM會將大概率分配給“正確的”(實際的)下一個單詞,而將小概率分配給其他單詞。

        困惑度雖然是最常見的文本生成評價指標,但由于種種原因也備受質疑。主要是因為困惑度的改善并不等同于語言模型的改進(它基本上不是象征質量好的指標)。另外,也是因為困惑度不能用來評估文本生成模型,這些模型不會像GAN一樣產生單詞分布。如果你認為限制性文本生成的評估指標更好,那就要仔細考慮清楚了!

        六、 語言模型是否危險?

        我之前討論過機器學習模型濫用的風險,結論是:如果有人惡意使用LMs,那么可能會造成危險。

        更具體地說,OpenAI的聲明表達了這樣一種擔憂,就是如果發布這種模型,可能會被用于大規模地生成虛假新聞。
        雖然這有可能會發生,但目前文本生成的兩個限制可能會減少對LMs濫用風險的恐慌——至少暫時會。

        人類發布假新聞通常有一定的目的,為了宣傳或者為了點擊量(擴大廣告收益)。與人類不同,語言模型生成文本是沒有目的性的。這里提到的語言模型是為了生成看起來更加真實、連貫、與主題相關的文本。因此想要用它們來產生大規模的假新聞事實上并沒有那么簡單。

        GPT-2的探究:對虛假新聞生成的恐懼,源于技術還是人?

        Grover是一個例外,它的目的是生成可控文本。也可以說,它就是因為假新聞的產生而存在的,由幾個參數控制:域(如“紐約時報”)、日期、作者和標題。然而,最重要的是,這個模型可以非常準確地區分假新聞和真實新聞。它能識別出機器生成的文本和人類生成的文本之間的細微差別,即使文本是由另一種語言模型生成的,它也能準確地區分它們。這其實說明了一點:機器生成的文本還不夠好(如果是以人類生成的文本為標準的話)。

        當然,今天生成文本已經令人印象深刻。它具有語法性,在大多數情況下不會偏離主題。但這并不是說它就具有事實意識(看看它是如何延續以下句子的:GPT-2 is a language model ___),它也沒有什么常識(舉個例子:she fell and broke her leg becausesomeone left a banana peel ____)。盡管有時人類無法判斷出一段文字是否是由機器產生,但有一些模型卻能很好地做到這一點。

        一個機器人讓我們失望,而另一個卻沒有。

        雷鋒網認為害怕虛假信息可以理解,但至少在目前更擔心的是這些信息背后的人——那些使用模型制造虛假新聞的人,惡意傳播它的人,以及那些完全不知情的人。

        也許,與其抗拒虛假信息技術,不如去訓練人類辯證思維!

        via: https://veredshwartz.blogspot.com/2019/08/text-generation.html

        來源 | 雷鋒網
        作者 | 栗峰

        上一篇:從概念到技術,再到國際標準和開源社區,聯邦學習只用兩年時間
        下一篇:Google 開發者大會主旨演講:更好賦能開發者

        主站蜘蛛池模板: 亚洲中文字幕无码爆乳app| 亚洲综合久久综合激情久久| 亚洲AV成人精品一区二区三区| 最近新韩国日本免费观看 | mm1313亚洲国产精品美女| 国产精品亚洲AV三区| 国产一区二区三区免费视频| 国产亚洲精品AAAA片APP| 亚洲A∨精品一区二区三区| 九九全国免费视频| 亚洲精品乱码久久久久66| 久久aa毛片免费播放嗯啊| 亚洲天堂福利视频| 成全视频免费高清| 处破女第一次亚洲18分钟| MM131亚洲国产美女久久| 免费观看一区二区三区| 亚洲精品第五页中文字幕| 毛片免费视频播放| 偷自拍亚洲视频在线观看| 亚洲香蕉成人AV网站在线观看| 免费a级毛片无码a∨免费软件 | 中文字幕av无码无卡免费| 亚洲乱理伦片在线观看中字| 免费人成在线观看播放国产| 亚洲第一视频在线观看免费| 亚洲第一中文字幕| 妞干网免费视频观看| 日韩电影免费在线观看网址| 亚洲国产精品一区二区久久hs | 1区2区3区产品乱码免费| 亚洲а∨天堂久久精品9966| 国产精品久久免费视频| 在线观看黄片免费入口不卡| 亚洲国产精品久久网午夜| 亚洲成人国产精品| 国产91色综合久久免费分享| 男女交性无遮挡免费视频| 午夜亚洲AV日韩AV无码大全| 日韩人妻无码免费视频一区二区三区| 久久久久久国产a免费观看不卡|