下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
無監(jiān)督的主題情感混合模型
現(xiàn)代信息技術(shù)為傳統(tǒng)社會經(jīng)濟活動帶來了前所未有的社會化和網(wǎng)絡(luò)化內(nèi)涵,從而顯著提高了效率。越來越多的用戶樂于在互聯(lián)網(wǎng)上分享自己對于某事件、產(chǎn)品等的觀點或體驗,這類評論信息迅速膨脹,僅靠人工的方法難以應(yīng)對網(wǎng)上海量信息的收集和處理。如何有效地管理和使用這些評價信息成為當(dāng)前的迫切需求,這促進(jìn)了自動文本情感分析技術(shù)的發(fā)展。情感分析中的兩個重要任務(wù)是情感信息抽取和情感信息分類,目前主要有基于規(guī)則和基于統(tǒng)計兩種方法。新詞的不斷出現(xiàn)、表達(dá)方式的變化以及復(fù)雜的語言處理都使得基于規(guī)則的情感分析方法難以適用。機器學(xué)習(xí)方法和文本表示模型是基于統(tǒng)計的情感分析方法的兩個核心內(nèi)容。機器學(xué)習(xí)方法包括有監(jiān)督、半監(jiān)督和無監(jiān)督情感分析。有監(jiān)督和半監(jiān)督的機器學(xué)習(xí)方法中分類器的訓(xùn)練需要一定數(shù)量經(jīng)過標(biāo)注的訓(xùn)練樣本,然而人工標(biāo)注過程相對耗時費力,成本昂貴,無監(jiān)督的機器學(xué)習(xí)則無需經(jīng)過標(biāo)注的訓(xùn)練樣本。長期以來文本表示的主要方法是向量空間模型(vectorspacemodel,VSM)。VSM認(rèn)為文檔都是在詞典空間中進(jìn)行表示的,即一個文檔是一個一對多的映射,表示為文檔→詞。隨著人們對文本認(rèn)識的發(fā)展,發(fā)現(xiàn)向量空間模型沒有考慮詞的同義和多義情況,忽視了詞與詞之間的語義聯(lián)系。為挖掘文本的潛在語義,人們開始尋找更能表示文本語義的文本表示模型。潛在語義分析(latentsemanticanalysis,LSA)就是一種能探查詞與詞之間內(nèi)在語義聯(lián)系的方法,打破了文檔都是在詞典空間進(jìn)行表示的思維定式,在文本和詞之間加入了一個語義維度,采用線性代數(shù)的方法提取語義維度。隨著概率統(tǒng)計分析的發(fā)展,基于概率統(tǒng)計分析模式逐漸取代了基于線性代數(shù)的分析模式。概率潛在語義分析(probabilisticlatentsemanticanalysis,pLSA)就是LSA的概率拓展,它比LSA具有更堅實的數(shù)學(xué)基礎(chǔ)。但是pLSA模型中的參數(shù)隨著文本集的增長而線性增長,容易出現(xiàn)過擬合情況,且模型中的文檔概率值與特定的文檔相關(guān),沒有提供文檔的生成模型,對于訓(xùn)練集外的文本無法分配概率。pLSA存在的問題促發(fā)了人們尋找更好的主題模型,2003年,Blei等在pLSA的基礎(chǔ)上提出了潛在狄里克雷分配(latentDirichletallocation,LDA)模型。LDA模型是一個完全的生成模型,具有良好的數(shù)學(xué)基礎(chǔ)和靈活拓展性,已經(jīng)應(yīng)用到文本分析的很多領(lǐng)域中。本文結(jié)合無監(jiān)督機器學(xué)習(xí)和LDA主題模型的優(yōu)點,提出一個無監(jiān)督的主題情感混合模型(unsupervisedtopicandsentimentunificationmodel,UTSU),通過對每個句子采樣情感標(biāo)簽,對每個詞采樣主題標(biāo)簽,解決了文本主題發(fā)現(xiàn)和主題情感分類問題。1在語言模型上進(jìn)行研究LDA模型是全概率生成模型,參數(shù)空間的規(guī)模與文檔數(shù)量無關(guān),適合處理大規(guī)模語料庫。目前已有研究將LDA模型應(yīng)用到情感分析中。Titov等提出了一個多粒度LDA模型(multigrainLDA,MG-LDA),并應(yīng)用于基于主題的情感摘要生成中,提出了多主題情感模型(multi-aspectsentimentmodel,MAS)。雖然Titov等用實驗證明了MG-LDA模型對于提取細(xì)粒度的主題有很好的效果,但是MG-LDA需要對已標(biāo)注的訓(xùn)練集進(jìn)行訓(xùn)練,屬于有監(jiān)督學(xué)習(xí),具有樣本不容易獲取和領(lǐng)域移植性差的缺點。同樣需要監(jiān)督學(xué)習(xí)的還有Zhao等提出的ME-LDA模型(MaxEnt-LDA),該模型結(jié)合了最大熵組件和主題模型,需要監(jiān)督學(xué)習(xí)。為使主題模型既能獲得細(xì)粒度的主題又保持無監(jiān)督學(xué)習(xí)的特征,很多學(xué)者對主題模型進(jìn)行了改進(jìn)。Brody等直接將句子作為一個文檔,建立“句子-主題-詞”關(guān)系。這種方法將LDA模型沒有考慮文檔和文檔之間的關(guān)系進(jìn)一步擴大,沒有考慮句子和句子之間的關(guān)系,事實上在不同的句子中同一個主題可以有著完全不同的詞。而且該方法只對主題詞進(jìn)行了情感詞識別,并沒有得到文檔或句子的情感分布,即沒有建立情感模型。Jo等認(rèn)為一個句子中所有的詞都由同一個主題和同一個情感產(chǎn)生,因此采樣主題標(biāo)簽時,對每個句子采樣主題標(biāo)簽,而不是對每個詞采樣主題標(biāo)簽,建立“文檔-主題-句子”關(guān)系,這種方法硬性地縮小了詞之間的主題聯(lián)系。主題情感混合模型在語言模型上有兩種表示方法。第一種是將主題和情感描繪成一個單一的語言模型,在模型中一個詞可能同時與主題和情感都相關(guān),如Jo等提出的ASUM模型(aspectandsentimentunificationmodel)和Lin等提出的JST模型(jointsentiment/topicmodel)。另一種是將情感與主題作為分開的語言模型,一個詞要么是情感詞,要么是主題詞,只能二選一,如Mei等提出的TSM模型(topicsentimentmixture)。TSM模型將詞分為主題詞和情感詞,認(rèn)為情感詞對主題發(fā)現(xiàn)沒有作用,而事實上情感詞是表示主題的重要詞匯,應(yīng)該是主題詞的一部分。本文提出的UTSU模型中的每個詞都與主題和情感相關(guān),這一點是與TSM模型最大的區(qū)別。Brody等只對主題詞進(jìn)行了情感詞識別,并沒有得到文檔或句子的情感分布,即沒有建立情感模型,而本文的UTSU模型是一個主題情感混合模型。ASUM模型采樣主題標(biāo)簽和情感標(biāo)簽時,對每個句子進(jìn)行采樣,而不是對每個詞采樣,JST模型則是對每個詞進(jìn)行采樣主題標(biāo)簽和情感標(biāo)簽。本文的UTSU模型對每個句子采樣情感標(biāo)簽,對每個詞采樣主題標(biāo)簽,這種采樣方式即符合語言的情感表達(dá),又不會縮小詞之間的主題聯(lián)系。2uts模型2.1u權(quán)模型的建立UTSU模型是在LDA模型的基礎(chǔ)上添加了情感模型而構(gòu)建的。由于自然語言中的情感都是以句子為單位進(jìn)行表達(dá)的(轉(zhuǎn)折句除外),UTSU模型假設(shè)一個句子的所有詞由一種情感產(chǎn)生,故對句子進(jìn)行情感標(biāo)簽采樣,建立“文檔-情感-句子”關(guān)系。沿用LDA模型中每個詞有不同的主題,對每個詞進(jìn)行主題標(biāo)簽采樣,建立“文檔-主題-詞”關(guān)系。在運行UTSU模型前,先對文本進(jìn)行預(yù)處理,將轉(zhuǎn)折句從轉(zhuǎn)折處分為兩句。UTSU模型的框圖如圖1所示,圖1中符號說明見表1。UTSU模型是一個4層盤子模型,其產(chǎn)生過程的偽代碼描述如下。給定所有參數(shù),UTSU模型所有潛在變量和可觀察變量的聯(lián)合概率為其中Nds表示文檔d內(nèi)的句子數(shù),Ns表示句子s內(nèi)的詞數(shù)。2.2詞匯標(biāo)記的情感分析用i來表示詞匯記號的索引號,i=(d,s,n),詞匯記號wi=wd,s,n表示與文檔位置、句子位置相關(guān)的詞匯,si表示詞匯記號wi所在的句子。表示詞匯記號iw所在句子的情感分配,表示除當(dāng)前詞匯記號所在句子外其他詞匯記號所在句子的情感分配。zi表示詞匯記號iw的主題分配,z-i表示除當(dāng)前詞匯記號外的其他所有詞匯記號的主題分配。有。利用Gibbs采樣算法進(jìn)行采樣,當(dāng)前詞匯記號wi的主題為k,情感為j的概率可通過式(2)得到。其中B(α)是Beta函數(shù),,Γ為Gamma函數(shù),Γ(x)=∫∞0e-ttx-1dt。因為Γ(x+1)=xΓ(x),x>0,所以n(t)k,j,-i表示除當(dāng)前詞匯記號外,其他與wi內(nèi)容相同的詞w的主題和情感分別為k和j上的詞匯記號個數(shù),表示除當(dāng)前詞匯記號所在句子外文檔d中情感為j的句子數(shù),n(k)d,j,-1表示除當(dāng)前詞匯記號外,文檔d中情感j主題為k的詞匯記號數(shù)。從式(3)可以看出,詞匯記號wi的情感,主題zi=k的條件概率正比于3個概率的乘積,第1部分對應(yīng)著wi的主題為k情感為j的概率,第2部分對應(yīng)著情感j在文檔d的情感分布出現(xiàn)的概率,第3部分對應(yīng)著在文檔d的當(dāng)前主題分布中,情感為j主題為k出現(xiàn)的概率。在整個文檔集中,如果一個單詞的很多詞匯記號分配在主題和情感分別為z和j上,那么這個單詞的其他任何一個詞匯記號分配在主題和情感分別為z和j上的概率就會增加。如果情感j在同一文檔中多次出現(xiàn),那么在該文檔中出現(xiàn)的任何句子分配給情感j的概率也會增加。同理,如果主題k在同一文檔中多次出現(xiàn),那么在該文檔中出現(xiàn)的任何單詞分配給主題k的概率也會增加。舍棄詞匯記號,用w表示唯一性詞,θ,φ和φ的估計如下:表示文檔d的當(dāng)前主題分布中,主題為k情感為j出現(xiàn)的概率,表示情感j在文檔d的情感分布中的概率估計,表示詞匯w分配在主題和情感分別為z和j上的概率估計,n(j)d表示文檔d中分配在情感j上的句子數(shù),nd,j(k)表示文檔d中分配在主題為k情感為j上的詞數(shù),nk,j(w)表示w分配在主題為k情感為j上的次數(shù)。3結(jié)果與分析3.1各數(shù)據(jù)集的大小及其分布從大眾點評網(wǎng)上下載關(guān)于快遞、燒烤的評論網(wǎng)頁,下載中國科學(xué)院譚松波博士公布的關(guān)于酒店和計算機的情感分類數(shù)據(jù)集,整理共得到9180個文本。正類(Pos)文本都是從三星級以上評論中整理得到的,負(fù)類(Neg)文本都是從三星級以下評論中整理得到的。每種數(shù)據(jù)集的大小和正負(fù)情感分布如表2所示。預(yù)處理數(shù)據(jù)集:1)對含有“但”、“但是”、“可是”等轉(zhuǎn)折詞的句子進(jìn)行切分,從轉(zhuǎn)折處將句子分為兩句;2)統(tǒng)計實驗所需的文檔-詞共現(xiàn)信息,其中中文分詞采用中國科學(xué)院的ICTCLAS開源工具包,統(tǒng)計時剔除停用詞,但是保留“不”、“沒”、“都”等對情感判斷產(chǎn)生影響的詞。3.2集中存儲的概率本文實驗的情感只考慮褒義和貶義兩種,不考慮中性情感。利用UTSU模型進(jìn)行主題情感發(fā)現(xiàn),參數(shù)設(shè)置如下:α=1,χ=1,β=0.01,L=2,以上參數(shù)均為經(jīng)驗最優(yōu)值,主題數(shù)K=4,迭代次數(shù)N=1000,得到的主題-情感詞按照在文檔集中的概率大小,排列如表3所示。限于空間,只列出了前39個關(guān)于計算機的主題-情感發(fā)現(xiàn)詞。從表3中可以看出,正負(fù)情感詞在主題-情感發(fā)現(xiàn)中分的比較明顯,如左邊表示貶義的情感詞“郁悶、慢、重、一般”等,右邊表示褒義的情感詞有“不錯、漂亮、小巧、喜歡、舒服、精致”等。形容詞“大”同時出現(xiàn)在兩邊靠前的位置,這是由于“大”可以表達(dá)褒義也可以表達(dá)貶義,如“電腦輕巧,電池強勁,鍵盤尺寸夠大”和“鋼琴烤漆很容易留指紋印,并且進(jìn)入不了系統(tǒng),開機時聲音很大”中的“大”的情感完全相反。通過對主題-情感詞進(jìn)行分析,發(fā)現(xiàn)有很多無主題無情感的單字高頻詞,這種詞可以看做情感分類中的噪聲干擾,在此稱作噪聲詞,其會對后續(xù)情感分類產(chǎn)生影響,表4為去噪后獲得的主題-情感詞匯表。3.3種方法提出了明確目標(biāo)的比較利用UTSU模型的可以得到情感j在文檔d的情感分布中的概率估計,取每種情感在文檔d的情感分布中的概率估計的最大值,可得到文檔d的情感,即作為文檔d的情感。下面將本文提出的UTSU模型與ASUM模型、JST模型和Pang等的方法進(jìn)行對比。ASUM模型和JST模型的原文中都用到了種子情感詞作為先驗知識。由于種子情感詞的不同對結(jié)果影響較大,本文統(tǒng)一采用無先驗知識。Pang方法中使用信息增益選取了2000個特征,分類器采用SVM,分類時采用10重交叉驗證。各種方法在4個數(shù)據(jù)集上的情感分類準(zhǔn)確率(precision)、召回率(recall)值和F綜合指標(biāo)(F1)如圖2所示。4種方法中Pang方法是有監(jiān)督的學(xué)習(xí)方法,其他3種都是無監(jiān)督的主題情感混合模型。從圖2中可以看出,綜合考慮準(zhǔn)確率和召回率,效果最好的是Pang方法。但由于Pang方法是基于向量空間模型的有監(jiān)督學(xué)習(xí)方法,需要先對標(biāo)注好的樣本進(jìn)行訓(xùn)練才能測試。其他3種主題情感混合模型中,效果最好的是UTSU模型,其情感分類在4個數(shù)據(jù)集上綜合指標(biāo)平均值比ASUM模型高約2%,比JST模型高約16%。這也證明了本文提出的對每個句子采樣情感標(biāo)簽,對每個詞采樣主題標(biāo)簽的主題情感混合模型在情感分類上的有效性。由于JST模型每次采樣情感標(biāo)簽時,對每個詞進(jìn)行采樣,不符合自然語言的情感表達(dá),故其情感分類效果最差,這也是JST模型與UTSU模型和ASUM模型最大的區(qū)別。從圖2中可以看出,4種方法在4個數(shù)據(jù)集上的情感分類準(zhǔn)確率、召回率不同。根據(jù)綜合指標(biāo)在不同數(shù)據(jù)集上從高到低進(jìn)行排序,依次為:快遞>酒店>計算機>燒烤。通過對數(shù)據(jù)進(jìn)行分析,我們得到了以下4點原因。1)用戶對快遞進(jìn)行觀點表述時,表達(dá)比較單一,基本上只有快遞時間和服務(wù)態(tài)度。2)用戶對酒店關(guān)注的主題比快遞更為分散,包括床、房間、環(huán)境、位置、服務(wù)、價格等。3)由于計算機含有不同的型號,如聯(lián)想、惠普等,不同的零件和屬性,如屏幕、鍵盤、藍(lán)牙、重量、電池等,以及計算機的效能,如散熱、配置、無線信號等,使得計算機數(shù)據(jù)集的情感分類更難。4)燒烤類數(shù)據(jù)集涵蓋的觀點與酒店類很相似,包括口味、房間、環(huán)境、位置、服務(wù)、價格等,但由于許多觀點針對的是不同的燒烤項目,如雞翅、肉筋、肉串等,且對各種燒烤項目的評價不同,這使得以文本為單位進(jìn)行情感分類時,對特征集的依賴性較強,這也是不同的方法在燒烤類數(shù)據(jù)集情感分類中性能最不穩(wěn)定的原因??傮w來說本文構(gòu)建的UTSU模型情感分類的性能比有監(jiān)督情感分類方法稍差,但在無監(jiān)督的情感分類方法中效果最好,比ASUM模型提高了2%,比JST模型提高了16%。4主題-情感詞本文重點從無監(jiān)督機器學(xué)習(xí)和文本表示模型的角度對文本情感分類進(jìn)行了研究。在LDA模型的基礎(chǔ)上,提出無監(jiān)督的主題情感混合模型UTSU模型。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度農(nóng)業(yè)新品種選育與推廣合作合同
- 二零二五年度公交站牌智慧交通系統(tǒng)旗桿供應(yīng)合同4篇
- 二零二五版智慧農(nóng)業(yè)物聯(lián)網(wǎng)解決方案合同3篇
- 二零二五版房產(chǎn)交易中介擔(dān)保貸款服務(wù)合同范本3篇
- 2025年活牛養(yǎng)殖基地與飼料供應(yīng)企業(yè)購銷合同(綠色飼料供應(yīng))3篇
- 2024版建筑工程機械租賃合同范本
- 2025年度物流倉儲專業(yè)人員聘用合同范本
- 二零二五版雞飼料電商平臺運營與推廣合同3篇
- 二零二五年度科技園區(qū)場地租賃承包合同范本8篇
- 2025年度船舶內(nèi)部裝飾改造與翻新合同3篇
- GB/T 37238-2018篡改(污損)文件鑒定技術(shù)規(guī)范
- 普通高中地理課程標(biāo)準(zhǔn)簡介(湘教版)
- 河道治理工程監(jiān)理通知單、回復(fù)單范本
- 超分子化學(xué)簡介課件
- 高二下學(xué)期英語閱讀提升練習(xí)(一)
- 易制爆化學(xué)品合法用途說明
- 【PPT】壓力性損傷預(yù)防敷料選擇和剪裁技巧
- 大氣喜慶迎新元旦晚會PPT背景
- DB13(J)∕T 242-2019 鋼絲網(wǎng)架復(fù)合保溫板應(yīng)用技術(shù)規(guī)程
- 心電圖中的pan-tompkins算法介紹
- 羊絨性能對織物起球的影響
評論
0/150
提交評論