基于主題的關(guān)鍵詞提取方法對比研究(中)_第1頁
基于主題的關(guān)鍵詞提取方法對比研究(中)_第2頁
基于主題的關(guān)鍵詞提取方法對比研究(中)_第3頁
基于主題的關(guān)鍵詞提取方法對比研究(中)_第4頁
基于主題的關(guān)鍵詞提取方法對比研究(中)_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、基于主題的關(guān)鍵詞提取方法對比研究驗(yàn)分布與似然函數(shù)是共軛的。LDA算法中,對于一個隨機(jī)變量而言,其似然函數(shù)為多項(xiàng)式分布,并且其先驗(yàn)分布為Dirichlet分布,那么其后驗(yàn)概率仍為Dirichlet分布。LDA算法中之所以選擇Dirichlet因?yàn)榭梢詼p輕計算量。給一個例子說明Dirichlet分布,假設(shè)我們在和一個不老實(shí)的人玩擲骰子游戲。按常理我們覺得骰子每一面出現(xiàn)的幾率都是1/6,但是擲骰子的人連續(xù)擲出6,這讓我們覺得骰子被做了手腳,使得這個骰子出現(xiàn)6的幾率更高。而我們又不確定這個骰子出現(xiàn)6的概率到底是多少,所以我們猜測有50%的概率是:6出現(xiàn)的概率2/7,其它各面1/7;有25%的概率是:6

2、出現(xiàn)的概率3/8,其它各面1/8;還有25%的概率是:每個面出現(xiàn)的概率都為1/6,也就是那個人沒有作弊,走運(yùn)而已。用圖表表示如下表3.1:表 3.1 骰子游戲概率可能性篩子面1234560.5概率1/71/71/71/71/72/70.25概率1/81/81/81/81/83/80.25概率1/61/61/61/61/61/6 我們所猜測的值,如果設(shè)為X的話,則表示X的最自然的分布便是Dirichlet分布。設(shè)隨機(jī)變量X服從Dirichlet分布,簡寫為Dir(),即XDir()。是一個向量,表示的是某個事件出現(xiàn)的次數(shù)(向量每個分量之間的相互關(guān)系)。比如對于上例,骰子的可能輸出為1,2,3,4

3、,5,6,假設(shè)我們分別觀察到了5次15,10次6,那么 = 5,5,5,5,5,10。X則表示上例中的各種概率組合,比如1/7,1/7,1/7, 1/7,1/7,2/7;1/8, 1/8, 1/8, 1/8, 1/8, 3/8;1/6, 1/6, 1/6, 1/6, 1/6, 1/6,那么P(X)則表示了該概率組合出現(xiàn)的概率,也就是概率的概率。這里需要注意的輸入?yún)?shù),它表示了各個基本事件的權(quán)重。圖 3.2 Dirichlet分布受到參數(shù)的影響Dirichlet分布受參數(shù)的控制,由圖3.2中可以看出當(dāng)=1,1,1時,分布較為平均;當(dāng)=0.1,0.1,0.1時,分布集中于邊緣;當(dāng)=10,10,10

4、,分布集中于中心區(qū)域中一個較小的范圍;當(dāng)=2,5,15,分布集中于偏離中心的一個小范圍內(nèi)。對于Dirichlet分布而言,的分量大小控制分布的集中程度,分量差異程度控制著分布的位置。3.2 潛在語義分析(LSA) 潛在語義分析(Latent Semantic Analysis)或者潛在語義索引(Latent Semantic Index),是1988年S.T. Dumais27等人提出了一種新的信息檢索代數(shù)模型,是用于知識獲取和展示的計算理論和方法,它使用統(tǒng)計計算的方法對大量的文本集進(jìn)行分析,從而提取出詞與詞之間潛在的語義結(jié)構(gòu),并用這種潛在的語義結(jié)構(gòu),來表示詞和文本,達(dá)到消除詞之間的相關(guān)性和簡

5、化文本向量實(shí)現(xiàn)降維的目的。LSA是基于線性代數(shù)理論進(jìn)行語義分析的一種理論方法,它的核心思想是認(rèn)為文檔中詞與詞之間存在著某種隱含的語義關(guān)系(稱之為語義空間),這種語義空間在文檔中的上下文結(jié)構(gòu)中,通過統(tǒng)計分析方法可以得到。在語義空間中同義詞被定義為,具有相同或類似含義的詞語間有一個相同的語義空間,而對于那種一詞多義的詞語而言,則根據(jù)用法的不同會存在不同的語義空間結(jié)構(gòu)中。通過挖掘這種隱含語義結(jié)構(gòu),有利于進(jìn)一步消除文檔中同義、多義現(xiàn)象在文檔表達(dá)過程中造成的影響。解決語義混亂問題的一個關(guān)鍵步驟就是如何將文檔和詞映射到同一語義空間中進(jìn)行分析研究。在這里主要用到一個方法即奇異值分解28(Singular V

6、alue Decomposition,SVD)。SVD分解的重要意義在于將文檔從稀疏的高維詞匯空間映射到一個低維的向量空間29。LSA 在信息濾波、文檔索引、視頻檢索、文本分類與聚類、圖像檢索、信息抽取等有著很廣泛的應(yīng)用。3.2.1 潛在語義分析模型介紹LSA算法是信息檢索中潛在語義分析中比較經(jīng)典的算法,假設(shè)文檔集合為D=d1, d2, d3,dN,詞匯集合為W= w1, w2, w3,wM ,那么我們可以將數(shù)據(jù)集合表示稱為一個M×N共生矩陣,也就是詞項(xiàng)文檔矩陣的概念,即由M個詞項(xiàng)和N篇文檔組成的一個M×N的權(quán)重矩陣 C,矩陣的每行代表一個詞項(xiàng),每列代表一篇文檔。這種表示的

7、優(yōu)點(diǎn)包括:可以將查詢和文檔轉(zhuǎn)換成同一空間下的向量,可以基于余弦相似度進(jìn)行評分計算,能夠?qū)Σ煌脑~項(xiàng)賦予不同的權(quán)重,除了文檔檢索之外還可以推廣到諸如聚類等其他領(lǐng)域,等等。但是,向量空間表示方法沒有能力處理自然語言中的兩個經(jīng)典問題:一義多詞(synonymy)和一詞多義(polysemy)問題。一義多詞指的是不同的詞(比如 car 和 automobile)具有相同的含義。向量空間表示方法不能捕捉諸如 car 和automobile這類同義詞之間的關(guān)系,而是將它們分別表示成獨(dú)立的一維。因此,如果我們計算查詢向量(如car)和文檔dr(同時包含有car和automobile的文檔)的相似度時,就會低

8、估了用戶所期望的相似度。而一詞多義指的是某個詞項(xiàng)(如 match)具有多個含義,因此在計算相似度時,就會高估了用戶所期望的相似度。一個很自然的問題就是,能否利用詞項(xiàng)的共現(xiàn)情況(比如,match是和 fire還是score在某篇文檔中共現(xiàn)),來獲得詞項(xiàng)的隱性語義關(guān)聯(lián)從而減輕這些問題的影響?即使對一個中等規(guī)模的文檔集來說,詞項(xiàng)文檔矩陣 C也可能有成千上萬個行和列,它的秩的數(shù)目大概也是這么個數(shù)量級。在 LSA中,我們使用SVD分解來構(gòu)造 C的一個低秩逼近矩陣Ck,其中 k遠(yuǎn)小于矩陣C原始的秩。這樣,我們就可以將詞項(xiàng)文檔矩陣中每行和每列(分別對應(yīng)每個詞項(xiàng)和每篇文檔)映射到一個 k維空間,k個主特征向量

9、(對應(yīng) k個最大的特征值)可以定義該空間。需要注意的是,不管 k取值如何,矩陣Ck仍然是一個M×N的矩陣。接下來, 和原始空間一樣,我們利用新的 k維空間的 LSA表示來計算向量的相似度??梢酝ㄟ^-1UT這個式子來變換到LSI空間。下面簡單介紹一下這個過映射過程的實(shí)現(xiàn)。SVD 可以用于解決矩陣低秩逼近問題,接著我們將其應(yīng)用到詞項(xiàng)文檔矩陣的逼近問題上來。為此,我們要進(jìn)行如下三步操作:(1) 給定C,按照公式構(gòu)造 SVD分解,因此 C = UVT; (2) 把中對角線上r-k個最小奇異值置為0,從而得到 k; (3) 計算 Ck = UkVT作為 C的逼近。由于k最多包含 k個非零元素,

10、所以 Ck的秩不高于 k。然后,我們回顧一下上面例子的的直觀性結(jié)果,即小特征值對于矩陣乘法的影響也小。因此,將這些小特征值替換成 0將不會對最后的乘積有實(shí)質(zhì)性影響,也就是說該乘積接近C。Ck到 C的逼近性,如果在原始空間中查詢和文檔相近,那么在新的 k維空間中它們?nèi)匀槐容^接近。但是這本身并不是十分有趣,特別是當(dāng)原始的稀疏矩陣轉(zhuǎn)換成低維空間中的密集矩陣新空間下的計算開銷會高于原始空間。一般來說,可以將求 C 的低秩逼近看成是一個約束優(yōu)化問題,在 Ck的秩最多為 k的條件下,從C出發(fā)尋找詞項(xiàng)和文檔的一個表示 Ck,當(dāng)將詞項(xiàng)-檔表示到 k 維空間時,SVD 應(yīng)該將共現(xiàn)上相似的詞項(xiàng)合在一起。這個直覺也

11、意味著,檢索的質(zhì)量不僅不太會受降維的影響,而且實(shí)際上有可能會提高。整個LSA模型也可以表示成下圖3.3。 圖3.3 LSA模型表示Dumais(1993)27基于普遍所使用的Lanczos算法來計算 SVD分解,并在 TREC語料和任務(wù)上對 LSI進(jìn)行了一系列實(shí)驗(yàn)。在實(shí)驗(yàn)當(dāng)時(20世紀(jì)90年代早期),數(shù)萬篇文檔上的 LSI計算在單機(jī)上大約需要一整天。這些實(shí)驗(yàn)也達(dá)到或超過了當(dāng)時 TREC參加者的中游水平。在20%左右的 TREC主題中,他們的系統(tǒng)得分最高,在平均水平上使用大約 350維288 的 LSI 也比常規(guī)的向量空間方法稍高。下面列出了最早從他們工作中得到的結(jié)論,而這些結(jié)論在后續(xù)的其他實(shí)驗(yàn)

12、中也得到了驗(yàn)證: (1) SVD的計算開銷很大,這也是一個阻礙LSA推廣的主要障礙。一個解決這個障礙的方法是對文檔集隨機(jī)抽樣然后基于抽取出的樣本子集建立LSA表示,剩余的其他文檔可以基于公式進(jìn)行轉(zhuǎn)換。 (2) 如果減低 k值,那么如預(yù)期一樣,召回率將會提高。令人奇怪的是,當(dāng) k取幾百之內(nèi)的數(shù)目時,某些查詢的正確率實(shí)際上也會得到提高。這也意味著,對于合適的 k值,LSA能部分解決一義多詞的問題。 (3) 當(dāng)查詢和文檔的重合度很低時,LSA的效果最好。 3.2.2 潛在語義分析的優(yōu)缺點(diǎn)(1) 優(yōu)點(diǎn):   LSA利用潛在的語義結(jié)構(gòu)表示詞匯和文本,它反映的不再是簡單的詞條出現(xiàn)的頻率和分布關(guān)系

13、,而是強(qiáng)化的語義關(guān)系。 LSA模型中不僅能夠進(jìn)行傳統(tǒng)的詞條、文本與文本之間相似關(guān)系分析,而且能夠分析詞條與文本之間的相似關(guān)系,具有更好的靈活性。 LSA用低維詞條、文本向量代替原始的空間向量,可以有效的處理大規(guī)模的文本庫或者其他數(shù)據(jù)。 LSA不同于傳統(tǒng)的自然語言處理過程和人工智能程序,它是完全自動的,它可以自動地模擬人類的知識獲取能力,甚至分類、預(yù)測的能力。(2) 缺點(diǎn): LSA的核心在于SVD即奇異值分解,但是矩陣的SVD分解因?qū)?shù)據(jù)的變化較為敏感,同時缺乏先驗(yàn)信息的植入等而顯得過分機(jī)械,從而使它的應(yīng)用受到一定限制。通過SVD分解會舍棄奇異值較小的向量,而有時恰恰是這部分向量決定文本的特征,

14、因而如何在壓縮語義空間和保留奇異值較小的向量之間尋找一個平衡點(diǎn)也是值得關(guān)注的問題之一。 LSA在進(jìn)行信息提取時,忽略詞語的語法信息(甚至是忽略詞語在句子中出現(xiàn)的順序),仍是一種詞袋(Bag-of-Word)方法。它不能進(jìn)行語法分析,忽略了某些事物之間的前后詞序之間的關(guān)系,無法處理一些有前后順序的事件對象。 當(dāng)前比較有成果的研究是針對英語環(huán)境進(jìn)行的,涉及中文環(huán)境的研究還很少。英語環(huán)境和中文環(huán)境存在很大的差別,不能直接將英語環(huán)境下的研究應(yīng)用于中文環(huán)境,需要適當(dāng)?shù)母倪M(jìn)和完善。    目前的研究中k值一般是根據(jù)經(jīng)驗(yàn)確定的,取值在500之間。k值的選取會影響LSA信息檢索質(zhì)量,因而有

15、必要根據(jù)不同處理對象和條件建立具有普遍性和通用性的k值確定方法。3.3 基于概率的潛在語義分析(PLSA) Hoffman對 LSA算法所存在的缺點(diǎn)和不足進(jìn)行修正,提出一種新型的隱性變量挖掘算法,即基于概率的潛在語義分析(Probabilistic Latent Semantic Analysis, PLSA) 30。PLSA與LSA的思想類似,也是在文檔和詞匯之間引人一個潛在的語義層,但是在PLSA中采用概率的方式來表示PLSA,以解決相類似的問題。它是一個生成模型。該算法運(yùn)用概率生成模型來表示“文檔-隱含語義-詞”三者間的關(guān)系,以替代 LSA中的 SVD技術(shù)。3.3.1 PLSA模型介紹P

16、LSA 是以統(tǒng)計學(xué)的角度來看待 LSA,相比于標(biāo)準(zhǔn)的 LSA,它的概率學(xué)變種有著更巨大的影響。概率潛在語義分析被廣泛應(yīng)用于信息檢索,過濾,自然語言處理,文本的機(jī)器學(xué)習(xí)或者其他相關(guān)領(lǐng)域。類似于LSA的思想,在PLSA中也引入了一個Latent class(潛在語義層),但這次要用概率模型的方式來表達(dá)LSA的問題,如下圖3.4。 圖3.4 plsa模型表示概率潛在語義分析的基本思想是通過計算文檔中共現(xiàn)詞的概率來分析文檔的語義空間。其中,用D=d1,d2,dn表示文檔集,W=w1,w2,wj表示詞語集,文檔中詞的概率用 來表示,由文檔和詞所共同組成的矩陣M=m(w,d),其中m(w,d)表示單詞w在

17、文檔d 出現(xiàn)的次數(shù)。采用Z =z1,z2,zk 表示潛在語義(主題)的集合,那么,文檔可以視為是這K個主題的疊加,則會有公式:;每一個主題也可以看成是單詞的疊加:。對于整個模型來說:表示文檔在數(shù)據(jù)集中出現(xiàn)的概率;表示當(dāng)確定主題后,相關(guān)的單詞出現(xiàn)的概率;表示一個文檔中語義的分布情況;因此PLSA的生成模型可以這樣進(jìn)行生成(見下圖3.5):圖3.5 PLSA生成模型圖(1)根據(jù)隨機(jī)抽樣選擇文檔;(2)選定文檔后,根據(jù)來抽樣選擇文檔要表達(dá)的主題zk;(3)選定主題后,根據(jù)來抽樣選擇文檔所要使用的單詞wj。這樣,我們得到了一個觀測對(di,wj) ,多次重復(fù)這一過程我們就得到了一個類似N的共生矩陣,而

18、潛在的語義在觀測值中并沒有表現(xiàn)出來。為了刻畫的聯(lián)合分布,我們可得到以下公式:概率潛在語義分析假設(shè)詞-文檔對之間是條件獨(dú)立的,并且潛在語義在文檔或詞上分布也是條件獨(dú)立的。在上面假設(shè)的前提下,可使用下列公式來表示“詞文檔”的條件概率: (3.14) (3.15) 這樣,我們得到了一個觀測對,多次重復(fù)這一過程我們就得到了一個類似N的共生矩陣,而潛在的語義在觀測值中并沒有表現(xiàn)出來。為了刻畫的聯(lián)合分布,我們可得到以下公式: (3.16) 在PLSA模型中,需要確定的參數(shù)有三個p(d),p(z|d)和p(w|z)。接下來的目標(biāo)就是要求出 ,哪個文檔中詞匯出現(xiàn)的概率最大,那么該詞匯就稱為文章的關(guān)鍵詞。我們可以通過極大似然函數(shù)的方式來求解這些參數(shù)。所以我們針對3.2.2中的模型,我們可以得到這樣的一個似然函數(shù): (3.17)其中c(w,d)表示單詞w在文檔d中出現(xiàn)的次數(shù)?,F(xiàn)在我們的目的就是求使得取得最大時各個參數(shù)的值。在似然值L

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論