<label id="qqrfm"><meter id="qqrfm"></meter></label>
      <span id="qqrfm"></span><label id="qqrfm"><meter id="qqrfm"></meter></label>

        在 Netflix 評論中做情感分析的深度學習模型

         
        在 Netflix 評論中做情感分析的深度學習模型

        在這篇文章中,我將介紹情感分析的主題和怎樣實現一個可以識別和分類Netflix評論中人的感情的深度學習模型。
        生意中的一個很重要的元素是了解客戶基本需求。那對于那些公司而言,去確切了解消費者和客戶對于新和剛建立的產品或者服務,最近方案和客服的看法也是很重要的。

        情感分析是完成上述任務的方法之一

        情感分析是自然語言處理(NLP)中的一個領域,它建立模型,試圖識別和分類語言表達中的屬性 e.g.:
        • 極性:如果發言者表達了積極或者消極的意見,
        • 主題:正在被討論的事情,
        • 意見持有者:表達這個觀點的人或者團體。
        在我們每天產生2.5萬億字節數據的世界里,情感分析已經成為理解這些數據的關鍵工具。這使得公司能夠獲得關鍵的洞察力并自動化所有類型的流程。

        情感分析可以使得無結構的信息,比如民眾關于產品、服務、品牌、政治和其他話題上的意見,自動轉變為結構化的數據。這些數據對如市場分析、公共關系、產品意見、凈推薦值、產品反饋和顧客服務等商業應用非常有用。

        接下來,我將向你們展示如何使用深度學習模型對 Netflix 評論進行正向和負向的分類。這個模型會把全部評論作為輸入(每一個單詞),并且提供一個百分比的評分來檢測某個評論是在表達正向或負向的情緒。

        我使用的數據集包含了大約5000條負向和5000條正向的評論。這里有5個數據集中的樣本,這些樣本在本文末也會在模型中做分類。

        在 Netflix 評論中做情感分析的深度學習模型

        本文所使用的深度模型+全部所需的代碼都能在此處找到。

        下面先開始理論部分。

          1. 循環神經網絡

        循環神經網絡(RNNs)是很受歡迎的模型,并且在很多NLP任務上已經取得了很好的表現。
        循環神經網絡使用了序列信息,如文本。在傳統的前饋神經網絡中,我們假設所有的輸入是彼此獨立的。但是對很多任務而言,這是很不好的想法。舉個例子,一句話有完整的語法結構和順序,句子中每個詞都依賴于前一個詞。如果你想你的神經網絡能夠學習到意義(或者我們案例中的情感),神經網絡必須知道哪個詞按哪個順序出現。
        循環神經網絡被叫做循環是因為他們對序列中的每個元素都執行同樣的任務,并且輸出是依賴于之前的計算。其他的方式去理解循環神經網絡是它們有記憶,能夠獲取之前已經計算過的信息。這里有一個經典的循環神經網絡:
        在 Netflix 評論中做情感分析的深度學習模型
        圖1-循環神經網絡架構
         
        x(t-1),x(t),x(t+1)是彼此依賴的輸入序列(例如句子中的單詞)。y(t_1),y(t),y(t + 1)是輸出。RNN的獨特之處在于,輸入x(t)的神經元的當前隱藏狀態h(t)的計算取決于先前輸入x(t-1)的先前隱藏狀態h(t-1)。Wxh和Whh是權重矩陣,其分別將輸入x(t)與隱藏層h(t)和h(t)與h(t-1)連接。通過這種方式,我們將神經網絡的重復引入,可以將其視為先前輸入的記憶。

        從理論上講,這種“vanilla”RNNs可以在任意長的序列中使用信息,但在實踐中,它們僅限于循環中的幾個步驟。

        1.1LSTMs

        長短時記憶網絡-通常簡稱為“LSTMs”一種特殊的RNN,能夠學習到長期依賴。LSTMs 與RNNs沒有根本不同的架構形式,但是它融合了額外的組件。

        在 Netflix 評論中做情感分析的深度學習模型

        LSTM的關鍵是狀態單元C(t),即橫穿圖頂部的水平線。除了僅僅只使用隱藏狀態h(t)之外,單元狀態是額外的方式來存儲記憶。然而,與 “vanilla”RNN相比, C(t)使得LSTMs能夠在更長的序列上工作成為可能。

        更重要的是,LSTMs 可以在單元狀態上刪除或者增加信息,嚴格地被稱為門的架構約束。門是一種可以選擇地讓信息通過的方式。一個LSTM有三種門結構,來保護和控制單元狀態。
        • 遺忘門:在獲取之前的輸入x(t-1)的隱藏狀態h(t-1)后,遺忘門幫助我們決定該從h(t-1)中刪除什么,只保留相關信息。
        • 輸入門:在輸入門中,我們決定從當前輸入x(t)添加內容到我們當前單元狀態C(t)。
        • 輸出門:正如名字所說一樣,輸出門決定從當前單元狀態C(t)輸出什么到下一個C(t+1)。對于語言模型例子而言,因為它只能看見一個主語,它可能希望看到一個和動詞有關的信息,來控制接下來要發生的情況。舉個例子,它可能輸出主語是單數還是復數,這樣我們就可以知道接下來的動詞應該變成什么形式。    
        每一種狀態的背后都是獨立的神經單元。可以想象,這將會使得LSTMs變得相當復雜。在這一點上,我不會繼續深入講更多關于LSTMs的細節。

          2.預處理

        在我們用這些評論作為循環神經網絡的輸入之前,對這些數據做一些預處理是有必要的。這里我們的主要目的是減小觀測空間。

        2.1單詞的統一書寫

        考慮像"Somethiing"和“something”這些單詞,對我們人來說,這些詞有著同樣的意思,它們之間唯一的區別是第一個字母是大寫,因為它或許是句子中的第一個詞。但是對于神經網絡而言,由于不同的書寫,這些單詞將有(至少在開始的時候)不同的意思。只有在訓練階段,神經網絡才可能學習到或者學習不到識別這些詞意思相同。我們目的就是避免這些錯誤理解。

        因此,預處理的第一步就是把所有字母都變成小寫字母。

        2.2 刪除特殊字符

        像. , ! ? '等等特殊字符,不能對一段評價的情感分析起到促進作用,因此可以被刪除。

        最后結果

        考慮以下未處理的評價例子:

        在 Netflix 評論中做情感分析的深度學習模型

        我們做完上面所說的預處理步驟后,這個評價例子看起來如下所示:

        在 Netflix 評論中做情感分析的深度學習模型

        預處理將會應用于數據集上的每個評價。

        2.3 “詞—索引”映射

        另一個重要步驟是創建稱為“詞—索引”的映射,這個映射為數據集中每一個單詞分配一個唯一的整數值。在我所使用的數據集中,全部的正向和負向評論共包含18339個不同的單詞。因此“詞—索引”映射有相同數量的條目。這個數量被稱為詞匯數(vocabulary size)。

        我得到的 “詞—索引”映射中的第一個和最后一個條目如下:  

        在 Netflix 評論中做情感分析的深度學習模型

        由于我們不能將字符串格式的數據輸入神經網絡,因此為數據集中的單詞分配唯一整數值的步驟非常關鍵。通過“詞—索引”映射,我們可以使用整數代替字符來表示整個句子和評論。考慮以下評論:

        在 Netflix 評論中做情感分析的深度學習模型

        使用”詞—索引”映射  , 可以用一個整數向量來表示這條評論,每一個整數表示映射中對應的單詞:

        在 Netflix 評論中做情感分析的深度學習模型

          3.詞嵌入

        當然,神經網絡既不能接受字符串,也不能接受單個整數值作為輸入。我們必須使用詞嵌入(word embedding)向量來代替。 

        詞嵌入是一種分布式的文本表示,這可能是深度學習方法在挑戰NLP問題上令人印象深刻的關鍵突破之一。詞嵌入實際上是一種用實值向量表示單詞的技術,通常具有數十或數百個維度。每個單詞被映射到一個特定的向量,向量值由神經網絡學習。 

        與單詞的稀疏表示方式不同,詞嵌入不需成千上萬的維度。例如,我們可以使用詞嵌入技術把單詞“although”和“life”表示成十維向量:
        although = [0.8 1.0 4.2 7.5 3.6] life = [8.3 5.7 7.8 4.6 2.5 ] 
        表示數據集中單詞的全部向量組成一個大型矩陣,稱為嵌入矩陣(embedding-matrix)。該矩陣的行數表示詞嵌入的維數,列數表示詞匯量,或者說數據集中不同單詞的個數。因此,這個矩陣的每一列表示數據集中每個單詞相應的的嵌入向量。  

        我們應如何從矩陣中找出單詞對應的列?此時我們需要參考詞—索引映射。假設你想查找單詞“although”的嵌入向量,根據單詞—索引映射,單詞“although”由數字2511表示。接下來,我們需要創建一個長度18339為的獨熱向量,這里的向量長度等于數據集中的單詞數量,向量的第2511位取值為1,其余為0。  

        通過對嵌入矩陣和獨熱編碼向量進行點積運算,我們得到矩陣中的第2511列,即為單詞“although”的嵌入向量。

        在 Netflix 評論中做情感分析的深度學習模型

        這樣我們就可以將整個字符串段落或Netflix評論提供給LSTM。我們只需在單詞到索引映射中查找每個單詞的整數值,創建適當的獨熱編碼向量并使用矩陣執行點積。然后將評論逐字(矢量形式)饋送到LSTM網絡中。

        在 Netflix 評論中做情感分析的深度學習模型

          
        4.獲得評論情感

        到目前為止,你已經了解了如何預處理數據,以及如何將評論輸入LSTM網絡中。現在,讓我們討論一下如何獲得給定評論的情感。 

        對于每一個時間步長t,將向量x(t)輸入LSTM網絡中,得到輸出向量y(t)。在不同的步長上進行此操作,直到輸入向量為x(n),n代表評論中全部單詞的長度。我們不妨假設n=20,直到輸入向量為x(n),LSTM模型輸出向量y(n)為止,全部20個向量中,每個向量都代表一定含義,但仍然不是我們所需要的評論中的情感。實際上,向量y是神經網絡生成的對評論特征的編碼表示,這些特征在判斷情感時非常重要。  

        y(8)表示評論中前8個單詞的神經網絡識別特征。另一方面,y(20)表示評論整體的特性。盡管只使用最后一個輸出向量y(20)足以進行情感判斷,但我發現如果使用y(0) - y(20)的全部向量來確定情感,結果會更加準確。為了使用全部向量,我們可以計算這些向量的均值向量。我們稱這個均值向量為y_mean。  

        現在,均值向量y_mean可以用編碼的方式來表示評論中的特征。我們需要在模型最后增加一個分類層,使用均指向量y_mean將評論劃分為正向情感類和負向情感類。在最終的分類層中,需要將均值向量y_mean和權重矩陣W相乘。

        以上描述的情感分析過程已經在我的GitHub repo上一個深度學習模型中實現。歡迎你來嘗試和復現。模型訓練完成后,可以對新的評論進行情感分析:  

        在 Netflix 評論中做情感分析的深度學習模型

        英語原文:

        https://towardsdatascience.com/sentiment-analysis-with-deep-learning-62d4d0166ef6
        想要繼續查看該篇文章相關鏈接和參考文獻?雷鋒網雷鋒網(公眾號:雷鋒網)雷鋒網

        點擊【在 Netflix 評論中做情感分析的深度學習模型】即可訪問!

        今日資源推薦:MXNet李沐的深度學習教程《動手學深度學習》(有在線練習)

        由 MXNet 創始人李沐大神、Aston Zhang 等人所著的交互式書籍《動手學深度學習》推出了在線預覽版,面向在校學生、工程師和研究人員,旨在幫助讀者從入門到深入、動手學習深度學習,即使是零基礎的讀者也完全適用。這本書是亞馬遜 MXNet 零基礎深度學習課程的重要組成部分,為此,亞馬遜團隊開發了 MXNet 的新前端 Gluon,課程內容推薦使用 Gluon 進行開發。李沐表示,開設這門課程的初衷,是看到了目前剛開始接觸機器學習的學習者沒有很完善的參考資料的現狀,這門課程可以幫助他們從深度學習入門到最新最前沿的算法,從 0 開始通過交互式的代碼來講解每個算法和概念。

        點擊鏈接獲取:https://ai.yanxishe.com/page/resourceDetail/642

        來源 | 雷鋒網
        原標題 | Sentiment Analysis with Deep Learning of Netflix Reviews
        作者 | Artem Oppermann
        譯者 | ybNero(電子科技大學)、Devin_ABCDEF(汕頭大學)、夕陽紅老年萬花(數據分析師)
        編輯 | 王立魚
         

        上一篇:無人駕駛的落地,是一場AI與人的博弈
        下一篇:中國如何在開源芯片領域找到突破口?RISC-V 會是一個絕佳機會!

        主站蜘蛛池模板: 和老外3p爽粗大免费视频| 黄色毛片视频免费| 污视频在线观看免费| 亚洲永久精品ww47| 免费看无码特级毛片| 亚洲国产精品成人久久| 免费国产成人午夜在线观看| 亚洲AV乱码久久精品蜜桃| 16女性下面无遮挡免费| 亚洲AV成人影视在线观看| 午夜一级免费视频| 18禁亚洲深夜福利人口| 亚洲性日韩精品一区二区三区| 日日躁狠狠躁狠狠爱免费视频| 中文国产成人精品久久亚洲精品AⅤ无码精品 | 亚洲av色香蕉一区二区三区蜜桃| 国产日产成人免费视频在线观看 | 美女被爆羞羞网站免费| 亚洲综合色成在线播放| 久久国产乱子伦精品免费强 | 亚洲一区二区三区成人网站| 国产精品冒白浆免费视频| 一级黄色免费毛片| 亚洲成熟xxxxx电影| 福利免费观看午夜体检区| 亚洲国产欧美国产综合一区| 亚洲乱码国产一区网址| 久久午夜夜伦鲁鲁片免费无码| 亚洲黄色免费电影| 在线观看国产情趣免费视频 | 最好看的中文字幕2019免费| 亚洲色欲啪啪久久WWW综合网| 国产一区在线观看免费| 午夜免费福利片观看| 国产成人精品高清免费| 日本一道高清不卡免费| 巨胸喷奶水视频www免费视频| 亚洲AV乱码久久精品蜜桃| 青青青青青青久久久免费观看| 精品国产福利尤物免费| 亚洲精品福利你懂|