基于主題的關鍵詞提取方法對比研究(中)_第1頁
基于主題的關鍵詞提取方法對比研究(中)_第2頁
基于主題的關鍵詞提取方法對比研究(中)_第3頁
基于主題的關鍵詞提取方法對比研究(中)_第4頁
基于主題的關鍵詞提取方法對比研究(中)_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、基于主題的關鍵詞提取方法對比研究基于主題的關鍵詞提取方法對比研究驗分布與似然函數是共軛的。LDA算法中,對于一個隨機變量而言,其似然函數為多項式分布,并且其先驗分布為Dirichlet分布,那么其后驗概率仍為Dirichlet分布。LDA算法中之所以選擇Dirichlet因為可以減輕計算量。給一個例子說明Dirichlet分布,假設我們在和一個不老實的人玩擲骰子游戲。按常理我們覺得骰子每一面出現(xiàn)的幾率都是1/6,但是擲骰子的人連續(xù)擲出6,這讓我們覺得骰子被做了手腳,使得這個骰子出現(xiàn)6的幾率更高。而我們又不確定這個骰子出現(xiàn)6的概率到底是多少,所以我們猜測有50%的概率是:6出現(xiàn)的概率2/7,其它

2、各面1/7;有25%的概率是:6出現(xiàn)的概率3/8,其它各面1/8;還有25%的概率是:每個面出現(xiàn)的概率都為1/6,也就是那個人沒有作弊,走運而已。用圖表表示如下表3.1:表3.1骰子游戲概率可能性篩子面1234560.5概率1/71/71/71/71/72/70.25概率1/81/81/81/81/83/80.25概率1/61/61/61/61/61/6我們所猜測的值,如果設為X的話,則表示X的最自然的分布便是Dirichlet分布。設隨機變量X服從Dirichlet分布,簡寫為Dir(a),即XDir(a)。a是一個向量,表示的是某個事件出現(xiàn)的次數(向量每個分量之間的相互關系)。比如對于上例

3、,骰子的可能輸出為1,2,3,4,5,6,假設我們分別觀察到了5次15,10次6,那么a=5,5,5,5,5,10。X則表示上例中的各種概率組合,比如1/7,1/7,1/7,1/7,1/7,2/7;1/8,1/8,1/8,1/8,1/8,3/8;1/6,1/6,1/6,1/6,1/6,1/6,那么P(X)則表示了該概率組合出現(xiàn)的概率,也就是概率的概率。這里需要注意的輸入參數a,它表示了各個基本事件的權重。Dirichlet分布受參數a的控制,由圖3.2中可以看出當a=1,1,1時,分布較為平均;當a=0.1,0.1,0.1時,分布集中于邊緣;當a=10,10,10,分布集中于中心區(qū)域中一個較小

4、的范圍;當a=2,5,15,分布集中于偏離中心的一個小范圍內。對于Dirichlet分布而言,a的分量大小控制分布的集中程度,a分量差異程度控制著分布的位置。3.2潛在語義分析(LSA)潛在語義分析(LatentSemanticAnalysis)或者潛在語義索引(LatentSemanticIndex),是1988年S.T.Dumais等人提出了一種新的信息檢索代數模型,是用于知識獲取和展示的計算理論和方法,它使用統(tǒng)計計算的方法對大量的文本集進行分析,從而提取出詞與詞之間潛在的語義結構,并用這種潛在的語義結構,來表示詞和文本,達到消除詞之間的相關性和簡化文本向量實現(xiàn)降維的目的。LSA是基于線性

5、代數理論進行語義分析的一種理論方法,它的核心思想是認為文檔中詞與詞之間存在著某種隱含的語義關系(稱之為語義空間),這種語義空間在文檔中的上下文結構中,通過統(tǒng)計分析方法可以得到。在語義空間中同義詞被定義為,具有相同或類似含義的詞語間有一個相同的語義空間,而對于那種一詞多義的詞語而言,則根據用法的不同會存在不同的語義空間結構中。通過挖掘這種隱含語義結構,有利于進一步消除文檔中同義、多義現(xiàn)象在文檔表達過程中造成的影響。解決語義混亂問題的一個關鍵步驟就是如何將文檔和詞映射到同一語義空間中進行分析研究。在這里主要用到一個方法即奇異值分解28(SingularValueDecomposition,SVD)

6、。SVD分解的重要意義在于將文檔從稀疏的高維詞匯空間映射到一個低維的向量空間29。LSA在信息濾波、文檔索引、視頻檢索、文本分類與聚類、圖像檢索、信息抽取等有著很廣泛的應用。3.2.1潛在語義分析模型介紹LSA算法是信息檢索中潛在語義分析中比較經典的算法,假設文檔集合為D=d1d2d3.dN,詞匯集合為W=Ww2w3皿,那么我們可以將數據集合表示稱為一個MXN共生矩陣,也就是詞項一文檔矩陣的概念,即由M個詞項和N篇文檔組成的一個MXN的權重矩陣C,矩陣的每行代表一個詞項,每列代表一篇文檔。這種表示的優(yōu)點包括:可以將查詢和文檔轉換成同一空間下的向量,可以基于余弦相似度進行評分計算,能夠對不同的詞

7、項賦予不同的權重,除了文檔檢索之外還可以推廣到諸如聚類等其他領域,等等。但是,向量空間表示方法沒有能力處理自然語言中的兩個經典問題:一義多詞(synonymy)和一詞多義(polysemy)問題。一義多詞指的是不同的詞(比如car和automobile)具有相同的含義。向量空間表示方法不能捕捉諸如car和基于主題的關鍵詞提取方法對比研究基于主題的關鍵詞提取方法對比研究automobile這類同義詞之間的關系,而是將它們分別表示成獨立的一維。因此,如果我們計算查詢向量q(如car)和文檔dr(同時包含有car和automobile的文檔)的相似度時,就會低估了用戶所期望的相似度。而一詞多義指的是

8、某個詞項(如match)具有多個含義,因此在計算相似度時,就會高估了用戶所期望的相似度。一個很自然的問題就是,能否利用詞項的共現(xiàn)情況(比如,match是和fire還是score在某篇文檔中共現(xiàn)),來獲得詞項的隱性語義關聯(lián)從而減輕這些問題的影響?即使對一個中等規(guī)模的文檔集來說,詞項文檔矩陣C也可能有成千上萬個行和列,它的秩的數目大概也是這么個數量級。在LSA中,我們使用SVD分解來構造C的一個低秩逼近矩陣Ck,其中k遠小于矩陣C原始的秩。這樣,我們就可以將詞項一文檔矩陣中每行和每列(分別對應每個詞項和每篇文檔)映射到一個k維空間,k個主特征向量(對應k個最大的特征值)可以定義該空間。需要注意的是

9、,不管k取值如何,矩陣Ck仍然是一個MXN的矩陣。接下來,和原始空間一樣,我們利用新的k維空間的LSA表示來計算向量的相似度。可以通過qk=工k-1UTq這個式子來變換到LSI空間。下面簡單介紹一下這個過映射過程的實現(xiàn)。SVD可以用于解決矩陣低秩逼近問題,接著我們將其應用到詞項文檔矩陣的逼近問題上來。為此,我們要進行如下三步操作:(1)給定C,按照公式構造SVD分解,因此C=USVt;(2)把工中對角線上r-k個最小奇異值置為0從而得到工k;(3)計算Ck=USkVT作為C的逼近。由于工k最多包含k個非零元素,所以Ck的秩不高于k。然后,我們回顧一下上面例子的的直觀性結果,即小特征值對于矩陣乘

10、法的影響也小。因此,將這些小特征值替換成0將不會對最后的乘積有實質性影響,也就是說該乘積接近C。Ck到C的逼近性,如果在原始空間中查詢和文檔相近,那么在新的k維空間中它們仍然比較接近。但是這本身并不是十分有趣,特別是當原始的稀疏矩陣轉換成低維空間中的密集矩陣新空間下的計算開銷會高于原始空間。一般來說,可以將求C的低秩逼近看成是一個約束優(yōu)化問題,在Ck的秩最多為k的條件下,從C出發(fā)尋找詞項和文檔的一個表示Ck,當將詞項-檔表示到k維空間時,SVD應該將共現(xiàn)上相似的詞項合在一起。這個直覺也意味著,檢索的質量不僅不太會受降維的影響,而且實際上有可能會提高。整個LSA模型也可以表示成下圖3.3。doc

11、umentsHEZOD-DLSAtermvectorsLSAdocumentvectors圖3.3LSA模型表示Dumais(1993)27基于普遍所使用的Lanczos算法來計算SVD分解,并在TREC語料和任務上對LSI進行了一系列實驗。在實驗當時(20世紀90年代早期),數萬篇文檔上的LSI計算在單機上大約需要一整天。這些實驗也達到或超過了當時TREC參加者的中游水平。在20%左右的TREC主題中,他們的系統(tǒng)得分最高,在平均水平上使用大約350維288的LSI也比常規(guī)的向量空間方法稍高。下面列出了最早從他們工作中得到的結論,而這些結論在后續(xù)的其他實驗中也得到了驗證:SVD的計算開銷很大,

12、這也是一個阻礙LSA推廣的主要障礙。一個解決這個障礙的方法是對文檔集隨機抽樣然后基于抽取出的樣本子集建立LSA表示,剩余的其他文檔可以基于公式進行轉換。如果減低k值,那么如預期一樣,召回率將會提高。令人奇怪的是,當k取幾百之內的數目時,某些查詢的正確率實際上也會得到提高。這也意味著,對于合適的k值,LSA能部分解決一義多詞的問題。當查詢和文檔的重合度很低時,LSA的效果最好。3.2.2潛在語義分析的優(yōu)缺點(1)優(yōu)點:LSA利用潛在的語義結構表示詞匯和文本,它反映的不再是簡單的詞條出現(xiàn)的頻率和分布關系,而是強化的語義關系。LSA模型中不僅能夠進行傳統(tǒng)的詞條、文本與文本之間相似關系分析,而且能夠分

13、析詞條與文本之間的相似關系,具有更好的靈活性。LSA用低維詞條、文本向量代替原始的空間向量,可以有效的處理大規(guī)模的文本庫或者其他數據?;谥黝}的關鍵詞提取方法對比研究基于主題的關鍵詞提取方法對比研究6LSA不同于傳統(tǒng)的自然語言處理過程和人工智能程序,它是完全自動的,它可以自動地模擬人類的知識獲取能力,甚至分類、預測的能力。(2)缺點:LSA的核心在于SVD即奇異值分解,但是矩陣的SVD分解因對數據的變化較為敏感,同時缺乏先驗信息的植入等而顯得過分機械,從而使它的應用受到一定限制。通過SVD分解會舍棄奇異值較小的向量,而有時恰恰是這部分向量決定文本的特征,因而如何在壓縮語義空間和保留奇異值較小的

14、向量之間尋找一個平衡點也是值得關注的問題之一。LSA在進行信息提取時,忽略詞語的語法信息(甚至是忽略詞語在句子中出現(xiàn)的順序),仍是一種詞袋(Bag-of-Word)方法。它不能進行語法分析,忽略了某些事物之間的前后詞序之間的關系,無法處理一些有前后順序的事件對象。當前比較有成果的研究是針對英語環(huán)境進行的,涉及中文環(huán)境的研究還很少。英語環(huán)境和中文環(huán)境存在很大的差別,不能直接將英語環(huán)境下的研究應用于中文環(huán)境,需要適當的改進和完善。目前的研究中k值一般是根據經驗確定的,取值在500之間。k值的選取會影響LSA信息檢索質量,因而有必要根據不同處理對象和條件建立具有普遍性和通用性的k值確定方法。3.3基

15、于概率的潛在語義分析(PLSA)Hoffman對LSA算法所存在的缺點和不足進行修正,提出一種新型的隱性變量挖掘算法,即基于概率的潛在語義分析(ProbabilisticLatentSemanticAnalysis,PLSA)30。PLSA與LSA的思想類似,也是在文檔和詞匯之間引人一個潛在的語義層,但是在PLSA中采用概率的方式來表示PLSA,以解決相類似的問題。它是一個生成模型。該算法運用概率生成模型來表示“文檔-隱含語義-詞”三者間的關系,以替代LSA中的SVD技術。3.3.1PLSA模型介紹PLSA是以統(tǒng)計學的角度來看待LSA,相比于標準的LSA,它的概率學變種有著更巨大的影響。概率潛

16、在語義分析被廣泛應用于信息檢索,過濾,自然語言處理,文本的機器學習或者其他相關領域。類似于LSA的思想,在PLSA中也引入了一個Latentclass(潛在語義層),但這次要用概率模型的方式來表達LSA的問題,如下圖3.4。documentsterms圖3.4plsa模型表示概率潛在語義分析的基本思想是通過計算文檔中共現(xiàn)詞的概率來分析文檔的語義空間。其中,用D=d,d2,.dj表示文檔集,W=W,w2,Wj表示詞語集,文檔中詞的概率用p(d.w.)=p(d.)p(w.|d.)來表示,由文檔和詞所共同組成的矩陣M=m(w,d),其中m(w,d)表示單詞w在文檔d出現(xiàn)的次數。采用Z=z1,z2,.

17、zj表示潛在語義(主題)的集合,那么,文檔可以視為是這K個主題的疊加,則會有公式:工Kp(zId)=1;每一個主題也可以看成是單詞的疊加:工p(wIz)=1。對于整個k=1kweVk模型來說:p(d)表示文檔在數據集中出現(xiàn)的概率;p(wIz)表示當確定主題后,相關ijk的單詞出現(xiàn)的概率;p(zId)表示一個文檔中語義的分布情況;因此PLSA的生成模型ki可以這樣進行生成(見下圖3.5):根據p(d)隨機抽樣選擇文檔d;TOC o 1-5 h zii選定文檔后,根據p(zId)來抽樣選擇文檔要表達的主題zk;kik選定主題后,根據p(wIz)來抽樣選擇文檔所要使用的單詞wjkJ。這樣,我們得到了

18、一個觀測對(di,Wj),多次重復這一過程我們就得到了一個類似N的共生矩陣,而潛在的語義z在觀測值中并沒有表現(xiàn)出來。為了刻畫的聯(lián)合分布,我們可得到以下公式:概率潛在語義分析假設詞-文檔對之間是條件獨立的,并且潛在語義在文檔或詞上分布也是條件獨立的。在上面假設的前提下,可使用下列公式來表示“詞文檔的條件概率:(3.14)(3.15)p(d,w)=p(d)p(wId)p(wId)=工p(wIz)p(zId)這樣,我們得到了一個觀測對,多次重復這一過程我們就得到了一個類似N的共生矩陣,而潛在的語義二丿在觀測值中并沒有表現(xiàn)出來。為了刻畫的聯(lián)合分布,我們可得到以下公式:(3.16)p(d,w)=p(d)

19、乙p(wIz)p(zId)zeZ在PLSA模型中,需要確定的參數有三個p(d),p(zId)和p(wIz)。接下來的目標就是要求出p(d,w),哪個文檔中詞匯出現(xiàn)的概率最大,那么該詞匯就稱為文章的關鍵詞。我們可以通過極大似然函數的方式來求解這些參數。所以我們針對3.2.2中的模型,我們可以得到這樣的一個似然函數:clw,d丿xlog乙p(d)p(wIzk)p(zkId)(3.17)其中c(w,d)表示單詞w在文檔d中出現(xiàn)的次數?,F(xiàn)在我們的目的就是求使得L(0)取得最大時各個參數的值。在似然值L的表達式中存在對數內部的加運算,所以求PLSA最大似然解的問題沒有閉式解,我們只能求助于EM算法,下面

20、我們從最簡單的啟發(fā)式的角度推導出PLSA的求解過程。既然似然值L無法直接求解最大值,那么我們轉而優(yōu)化其下界F,并通過迭代不斷的將此下界提高,那么最終得到的解即為近似最大解,當然,此過程中尋求的下界要求盡量緊確。利用琴生不等式和概率小于1的性質,我們可以得到如下推導:l=茲cq,氣)噸pa,wji=1j=1基于主題的關鍵詞提取方法對比研究基于主題的關鍵詞提取方法對比研究-8-8-二XXc(4,w.)log另p(w.丨z)p(d)p(zkId.).k=1.=1.=1=XXc(d.,w.)logXp(w.Izk)p(zk)p(丿di1zk)丿.=1.=1XXc(d.,氣)Xlog(p(w.Iz)p(z丿p(d.Izk).=1.=1k=1XXc(d,w.)Xp(zId.w.k.,.=1.=1k=1這樣,我們就把刀拿到了外面來,化問題的約束條件是:Xp(wIz)=1這樣我們就得到了EM算法中的M步驟:()Xnd(d,w)p(zId,w)p(zIw)=Xd()ndd,wpzId,wd,w()Xnd(d,w)p(zId,w)p(dIz)=d()()ndd,wpzId,wd,w1p(z)=Xn

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論