版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、概率主題模型簡介 Introduction to Probabilistic Topic Models此文為David M. Blei所寫的Introduction to Probabilistic Topic Models的譯文,供大家參考。摘要:概率主題模型是一系列旨在發(fā)現(xiàn)隱藏在大規(guī)模文檔中的主題結構的算法。本文首先回顧了這一領域的主要思想,接著調研了當前的研究水平,最后展望某些有所希望的方向。從最簡單的主題模型潛在狄立克雷分配(Latent Dirichlet Allocation,LDA)出發(fā),討論了其與概率建模的聯(lián)系,描述了用于主題發(fā)現(xiàn)的兩種算法。主題模型日新月異,被擴展和應用許多領
2、域,其中不乏有趣之處。我們調研發(fā)現(xiàn)很多擴展都弱化了LDA的統(tǒng)計假設,加入元數(shù)據(jù)(meta-data)進行文檔分析,使用近似的模型分析如社會網(wǎng)絡、圖像和基因這類多樣化的數(shù)據(jù)類型。我們在文章的最后給出了主題模型目前還未探索但很重要的方向,包括嚴格檢驗數(shù)據(jù)模型的方法,文本和其它高維數(shù)據(jù)可視化的新技術,以及如何從傳統(tǒng)信息工程中的應用推廣到更多科學應用。1 引言如今公開的知識日益以新聞、博客、網(wǎng)頁、科學論文、書籍、圖像、聲音、視頻和社交網(wǎng)絡的形式被數(shù)字化存儲,巨大的信息量同時也增加了人們尋找和發(fā)現(xiàn)自己所需要的知識的難度。人們需要新的計算工具以組織、搜索和理解這些龐大的信息量?,F(xiàn)在的在線信息挖掘使用兩種主
3、要的工具搜索和鏈接。向搜索引擎提交關鍵詞就可以找到相關的文檔和其它相鏈接的文檔。這種與在線文檔的交互方式雖然有效,但卻丟失了某些信息。假設所要搜索和尋找的文檔由各類主題組成。這樣,通過對文章進行“放大”和“縮小”就可以得到較具體或者較粗略的主題;在文檔中就可以看到這些主題是如何隨著時間變化,或者說是如何相互聯(lián)系的。搜索文檔就不只是通過關鍵詞尋找,取而代之的是先找到相關的主題,然后再查找與這一主題相關的文檔。拿紐約時報所記載的歷史舉例。從較廣的層次來看,報紙中的主題就對應著報紙各個版塊對外政策、國內事務、體育,再拿對外政策進行“放大”,就可以得到其不同方面中國對外政策、中東沖突、英國與俄羅斯的關
4、系。接下來,我們跟蹤這些專題是如何隨著時間演變的,例如過去50年里的中東沖突。如此這般探索就能找到與主題相關的原始文檔。可見,這種主題結構是探索和理解文檔的新窗口。但以這種方法與電子文檔進行交互是不現(xiàn)實的,因為隨著網(wǎng)上文本的數(shù)量越來越多,單單僅靠人力已經(jīng)無法全部閱讀和研究所有的文本。由此,概率主題建模應運而生。機器學習領域的研究人員們開發(fā)出了一套旨在發(fā)現(xiàn)和標記大規(guī)模文檔的主題信息的算法。主題建模算法是一種統(tǒng)計方法,它通過分析原文本中的詞以發(fā)現(xiàn)蘊藏于其中的主題,主題間的聯(lián)系,以及主題隨時間的演變(就比如后面圖3,通過分析耶魯法律找到主題),而且不需要事前對文檔進行標記。也就是說,人力所無法完成的
5、文檔標記,主題建模算法能夠進行組織和歸納。2 潛在狄立克雷分配潛在狄立克雷分配(LDA)是最簡單的主題模型,其基礎是文檔是由多個主題構成的。如圖1所示,Seeking Lifes Bare(Genetic) Necessities是一篇對基因數(shù)量進行數(shù)據(jù)分析的文章(基因是有機體賴以進化的基礎)。圖1 潛在狄立克雷分配的直觀現(xiàn)象如圖左所示,假設主題是詞語上的概率分布;圖右是主題直方圖。從直方圖到文章的詞的過程是這樣的:首先隨機產(chǎn)生一個主題直方圖,然后選擇其中一主題,最后從該主題對應的主題分布中選擇一個詞。這里的主題和主題直方圖只作說明之用,與文章其實并不相匹配。相匹配的主題見圖2。文章中不同的詞
6、被高亮在不同的顏色。如“computer”和“prediction”之類有關數(shù)據(jù)分析的詞以藍色標記;如“l(fā)ife”和“organism”之類關于進化生物學的詞以粉紅色標記;如“sequenced”和“genes”之類有關遺傳學的詞以黃色標記。將所有詞語進行這樣的標記,并剔除“and”、“but”和“if”這類包含極少主題內容的詞語后可以發(fā)現(xiàn),這篇文章由不同主題以不同的比例組成,更進一步地看,多個主題可以幫助人們在一堆科技論文中發(fā)現(xiàn)這篇文章。建立在文檔集合上的統(tǒng)計模型LDA就試圖描述上述直觀的現(xiàn)象。LDA可以看作是一個文檔產(chǎn)生的過程(2.1節(jié)將具體解釋概率模型LDA)。形式化地定義主題是固定的詞
7、語的概率分布。例如,“遺傳學”主題中“genes”的概率就相當高,類似地,“進化生物學”主題中“l(fā)ife”的概率也相對較高。假設所有的主題在文檔產(chǎn)生之前就已經(jīng)產(chǎn)生且指定。生成文檔(或者說生成文檔中的詞)可以看成是如下兩個過程:隨機產(chǎn)生一個主題直方圖(或者說分布);對文檔中的每個詞:(a) 從第一步產(chǎn)生的直方圖里隨機選擇一個主題;(b) 從主題對應的詞語的概率分布中隨機選擇一個詞。從文檔產(chǎn)生的過程來看,第一步使得每篇文檔由不同主題以不同比例組成。第二步的第二小步(b)使得每篇文檔中每個詞從一個主題中得來,其中的主題從第一小步(a)得來。實際上,第一步主題直方圖(或者說分布)是一個狄立克雷分布(D
8、irichlet distribution),其作用是將文檔中的詞分配給不同的主題,那為什么是潛在的呢?且聽后面分解。對圖1所示的文章來說,主題直方圖中主題“遺傳學”、“數(shù)據(jù)分析”和“進化生物學”都會占一定比例,文章中每個詞都由這三個主題中的一個所給出。文檔集中也可能會有一篇關于“數(shù)據(jù)分析”和“神經(jīng)科學”;其主題直方圖中這兩個主題都將占有一定的比例;這就是潛在狄立克雷分配的顯著特征集合中所有文檔共享同一主題集合,但每個文檔中各個主題所占的比例又都各不相同。如前引言所述,主題建模的目的是為了自動地發(fā)現(xiàn)文檔集中的主題。文檔自然是可被觀察到的,但主題結構主題、主題直方圖(或者分布)和主題的詞分布卻是
9、隱藏的。所以主題建模的中心問題就是利用看到的文檔推斷出隱藏的主題結構,其實也就是產(chǎn)生文檔的逆過程。圖2 圖1的LDA我們從自然上的17000篇文章提取100個主題及其相關詞,然后對圖1所示的文章進行分析,左邊是主題所占比例的直方圖,右邊是文章常見主題的最常出現(xiàn)的前15個詞。如圖2所示,就是一個推斷圖1中文章的例子。使用主題建模算法(假設有100個主題)推斷科學上17000篇文章的潛在主題結構,然后推斷出最能描述圖1中示例文章的主題分布(圖左)。需要注意的是,盡管主題分布上有無窮個主題,但事實上只有其中的一小部分的概率不為零。進一步地,文章中詞可被分主題進行組織,可以看到最常見的主題所包含的概率
10、最大的詞。需要強調的是,算法事先并不知道這些主題,文章也未有關鍵詞或主題標記。計算潛在結構得到的主題分布可以產(chǎn)生所觀察到的文檔集合(由推斷算法產(chǎn)生的主題對所分析的文檔集合幾乎都具有可解釋性,主題似乎與語言的統(tǒng)計結構和LDA的具體概率假設有關)。如圖3顯示了Yale Law Journal中發(fā)現(xiàn)的主題(這里設置主題數(shù)為20)。主題由基因和數(shù)據(jù)分析替換為歧視和合同法。主題建模是管理、組織和標記大規(guī)模文本的一種算法。推斷得到的隱藏結構近似于文檔集的主題結構,能標記文檔集中各個文檔。這代替了痛苦的手工標記,并有助于信息檢索,分類和語料庫搜索。2.1 LDA和概率模型LDA和其它主題模型都屬于概率建模這
11、一更大領域。數(shù)據(jù)被看作是經(jīng)過包括隱藏變量在內的生成過程得到的。生成過程定義了觀測隨機變量和隱藏隨機變量的聯(lián)合概率分布。通過使用聯(lián)合分布來計算在給定觀測變量下隱藏變量的條件分布(后驗分布)來進行數(shù)據(jù)分析。對于LDA來說,觀測變量就是文檔中的詞;隱藏變量就是主題結構;生成過程如之前所述。那么推測從文檔中隱藏的主題結構的問題其實就是計算在給定文檔下隱藏變量的條件分布(后驗分布)。形式化地定義如下:所有主題為1:K,其中k是第k個主題的詞的分布(如圖1左部所示)。第d個文檔中主題所占的比例為d,其中d,k表示第k個主題在第d個文檔中的比例(圖1右部的直方圖)。第d個文檔的主題全體為zd,其中zd,n是
12、第d個文檔中第n個詞的主題(如圖1中有顏色的圓圈)。第d個文檔中所有詞記為wd,其中wd,n是第d個文檔中第n個詞,每個詞都是固定的詞匯表中的元素。那么LDA的生成過程對應的觀測變量和隱藏變量的聯(lián)合分布如下:p(1:K,1:D,z1:D,w1:D)=i=1Kp()d=1Dp(d)(n=1Np(zd,n|d)p(wd,n|1:K,zd,n)(1)這一分布指明變量之間的依賴關系。例如,zd,n依賴于d,wd,n依賴于zd,n和1:K(在操作上,先確定zd,n指的哪個主題,然后再看wd,n在主題中的概率)。正是這些依賴定義了LDA:它們存在于生成過程的統(tǒng)計假設里,在聯(lián)合分布的特定數(shù)學形式里以及LDA
13、的概率圖模型里(概率圖模型為描述概率分布提供一個圖形化的語言,如圖4所示。事實上概率圖模型是闡明概率獨立、圖理論和計算概率分布的算法的有力工具)。這三種表現(xiàn)形式在描述LDA的概率假設上是等價的。圖4 LDA的圖模型每個結點表示一個隨機變量,并且根據(jù)其在生成過程中的角色予以標記(見圖1)。隱藏變量對應的結點是白色的,觀測變量wd,n對應的結點是灰色的。在圖模型中,矩形表示變量的重復。從歷史來看,潛在語義分析中最具開創(chuàng)性的研究是對文檔詞矩陣進行奇異值分解得到詞之間,文檔之間和文檔與詞之間的潛在聯(lián)系。概率潛在語義分析(probabilistic latent semantic analysis,pL
14、SI)是它的概率版本,而LDA是用以解決pLSI的問題,可以看作是對離散數(shù)據(jù)進行主成分分析。下一章節(jié)將詳細描述LDA的推斷算法。2.2 LDA后驗概率的計算使用前面的記號,LDA后驗概率的公式為p(1:K,1:D,z1:D|w1:D)=p(1:K,1:D,z1:D,w1:D)p(w1:D)(2)分子為隨機變量的聯(lián)合分布。對于隱藏變量的任何值來說,聯(lián)合分布是容易計算的。分母是觀測變量的邊際概率,是通過觀察可見的語料庫得到的概率。理論上,可以通過將聯(lián)合分布對隱藏變量的所有可能值進行累加得到。但其計算量在實際操作中是異常龐大的(對于一個主題,這種累加包括了將每個詞的所有可能的主題配置,而且文檔集合通
15、常有數(shù)量級達百萬的詞)。就像眾多現(xiàn)代概率模型(包括貝葉斯統(tǒng)計)那樣,后驗概率的分母(即先驗概率)往往是無法計算得到的。故而現(xiàn)代概率建模的一個核心研究目標就是盡一切可能接近之。如前圖1和圖3所述的那樣,主題建模算法其實是求得近似后驗分布的常用方法的一種變種。主題建模算法主要有兩類:基于采樣的算法和變分算法。基于采樣的算法通過收集后驗分布的樣本,以樣本的分布求得后驗分布的近似。主題建模中最常用的采樣算法是吉布斯采樣(Gibbs sampling),通過吉布斯采樣構造馬爾可夫鏈(Markov chain),而馬爾可夫鏈的極限分布就是后驗分布。馬爾可夫鏈是由獨立于前一個隨機變量的隨機變量組成的串。對主
16、題模型來說,隨機變量就是定義在一個特定的語料庫上的隱藏主題。采樣算法從馬爾可夫鏈的極限分布上收集樣本,再用這些樣本來近似后驗分布。通常,只有概率最高的樣本會被收集以作為主題結構的近似。文獻33詳細描述了LDA的吉布斯采樣,開源社區(qū)里有R語言的快速開源實現(xiàn)(/web/packages/lda/index.html)。變分算法的確定性要比基于采樣算法高上不少。變分算法先假定一族在隱藏結構之上的參數(shù)化的分布,再尋找與后驗分布最接近的分布(概率分布之間的距離使用信息論的Kullback-Leibler散度度量,)。也就說,推斷問題轉換為了最優(yōu)化問題。變分
17、算法的創(chuàng)新之處也正在于此,它將最優(yōu)化引入了概率建模中。文獻8介紹了協(xié)調上升的變分推斷算法;文獻20介紹了一個更為快速的在線算法(以及開源軟件),它能輕松處理上百萬文檔并能適應文本流的集合。粗略地講,這兩種算法都在主題結構上進行了搜索,而固定的文檔集合提供了搜索的方向。哪種方法更適合取決于所使用的具體的主題模型(下面的章節(jié)會介紹除LDA以外的其它主題模型),而這通常是學院派們爭論的導火索。文獻1很好地討論了這兩種方法的優(yōu)缺點。3 主題建模的研究進展簡單的LDA模型提供發(fā)現(xiàn)和探索大規(guī)模文本中隱藏主題結構的有力工具。LDA形式化為概率模型的一個主要優(yōu)點在于它可以作為一個模塊被其它更復雜的模塊應用更為
18、復雜的應用系統(tǒng)中。3.1 弱化LDA的假設LDA由對語料庫的統(tǒng)計假設定義,主題建模研究領域中一個熱點就是如何弱化和擴展這些假設以發(fā)現(xiàn)文本中更加復雜的結構。如果不考慮詞在文檔中的順序,那么一個文檔就是一個詞袋。“詞袋”就是LDA的一個假設(對于文檔中詞的任意排列,式(1)都不變)。這個假設當然不符合現(xiàn)實,對于復雜的諸如語言生成之類的目標顯然是不合適的,但對發(fā)現(xiàn)文本語義結構是有理可循的(緩慢移動圖1文章中的詞,盡管詞移動了位置,文章仍然與遺傳學相關)。LDA上模型的不可交換的詞也有諸多擴展。例如,文獻36弱化了詞袋模型,假設主題生成詞時以前一個詞作為條件;文獻18提出了在LDA和隱馬爾可夫模型之間
19、進行切換的主題模型。這些模型顯著地擴展了參數(shù)空間,并且顯示了語言建模帶來的性能提升。LDA的另一個假設是文檔的順序與LDA無關(對于文檔的任意順序的排列,式(1)同樣不變)。但當文檔集所跨越的時間有幾年或幾個世紀時,這個假設可能就不合理了。當遇到這樣的集合時,通常假設主題是隨著時間而發(fā)生變化的。這樣,主題就是動態(tài)的5。動態(tài)主題模型考慮了文檔的先后順序,并給出了內涵比LDA更豐富后驗主題結構。圖5展示了使用動態(tài)主題模型分析所有科學雜志得到的一個主題。這個主題就不只是詞的單一分布,而是詞的一連串分布。這樣,潛在的主題就可以被發(fā)現(xiàn)和跟蹤。圖5 兩個主題的動態(tài)主題模型這個模型的語料庫是1880年到20
20、02年的科學雜志。圖中每十年提取一些常見詞。LDA的第三個假設是主題的數(shù)量已知且固定。貝葉斯非參數(shù)主題模型34提供了:在后驗推斷中文檔集決定了主題數(shù)量,而且新文檔中會有前面文檔所沒有的主題。貝葉斯非參數(shù)主題模型可以通過數(shù)據(jù)推斷,擴展成一系列從較通用到較具體的主題層次,就像一棵主題樹一樣。LDA還有弱化其它假設的擴展。相關主題模型6和彈球分配機器24將同時出現(xiàn)的主題視作相關(例如與地理有關的文檔可能運動相關,但它更可能與化學相關);球狀主題模型28允許詞不太可能在主題中出現(xiàn)(例如,“扭傷”顯然不太可能出現(xiàn)有關“貓”的主題里);稀疏主題模型進一步強化了主題分布的結構37;而“稠密”主題模型則是詞數(shù)
21、的一個更符合實際的模型15。3.2 結合元數(shù)據(jù)在文本分析配置中,文檔通常包含些諸如作者、題目、地理位置、鏈接等其它額外信息。這些信息可以被用于適配主題模型。目前如何結合這些元數(shù)據(jù)是百家爭鳴。作者主題模型29是較早成功的例子。每個作者擁有一個主題直方圖;多個作者的論文中的詞由其中一個作者的主題直方圖決定。作者主題模型允許從作者或文檔進行推斷。Rosen-Zvi等人在論文中展示利用作者的主題直方圖計算作者間的相似性的例子,而LDA是無法勝任這一工作的。又比如,由于許多文檔集合通常是相互鏈接的(例如科技論文相互引用或者網(wǎng)頁相互鏈接),一些主題模型就考慮將那些鏈接用以估計主題。關系主題模型13假設所有
22、文檔都由LDA生成,文檔間的鏈接取決于它們主題直方圖的距離。關系主題模型不僅是新的主題模型,而且是新的網(wǎng)絡模型,其與傳統(tǒng)網(wǎng)絡統(tǒng)計模型不同之處在于,它將用于為鏈接建模的節(jié)點屬性(文檔的詞)考慮在內。其它結合元數(shù)據(jù)的主題模型有語言結構模型10,關注語料庫間的距離的模型38,命名實體模型26。更一般的方法包括狄立克雷多項式回歸模型25和監(jiān)督主題模型7。3.3 其他類型的數(shù)據(jù)在LDA中,主題是詞上的離散分布,并用于產(chǎn)生文檔中的詞(觀測值)。LDA的一個優(yōu)勢在于其主題參數(shù)和數(shù)據(jù)生成所用的分布,它們經(jīng)過微調就可以適配于其它類型的觀測值所對應的推斷算法。LDA作為典型的主題模型,可以看作是分組數(shù)據(jù)的成員混合
23、模型(mixed-membership model),而不只是將一組文檔(觀測值)與一個主題(部件)相關。每組文檔都以不同的比例包含著不同的主題。為了適配諸如調查數(shù)據(jù)、用戶偏好、聲頻和音樂、計算機代碼、網(wǎng)絡日志和社交網(wǎng)絡這些多種多樣的數(shù)據(jù),LDA衍生出眾多模型來處理和分析之。下面介紹兩個成員混合模型已取得顯著成功的領域。在群體遺傳學中,研究人員也獨立地開發(fā)出了相同的概率模型,用以在個體采樣得到的基因中尋找人類祖先(例如,人類從非洲、歐洲或中東等地起源)27。基本原理是每個個體的基因型是由一個或多個祖先群體遺傳的。生物學家們通過與LDA非常相似的模型,描述了在這些人群中的基因模式(即“主題”),
24、并辨認出單個個體的基因組成(即“主題直方圖”)。這一模型如此有效的原因就在于即使具有“純種”祖先基因的個體不存在,其基因模式依然可以假設,并通過實驗得到。LDA模型的推斷算法還可用于自然圖像的檢索、分類和組織,因此LDA也被廣泛地應用于計算機視覺中。研究者們已經(jīng)從圖像到文檔做了一個直接的類比。在文檔分析的假設中,每個文檔包含多個主題,文檔集中的所有文檔共享同一個主題集。在圖像分析的假設中,每副圖像是多個視覺模式的組合,同一個視覺模式在圖像集中不斷重現(xiàn)(預處理階段會分析圖像以得到視覺模式(或者“視覺單詞”)的集合)。主題模型在計算機視覺中被用于圖像分類16,關聯(lián)圖像和字幕4,建立圖像層次2,23
25、,31等。4 展望主題模型是機器學習的新興領域,有很多新方向亟待探索。評價和模型驗證 主題模型的評測和有效性脫節(jié)。一般的評價過程如下,首先取一部分語料做為測試集,然后從剩下的語料中訓練不同的主題模型,并在測試集上度量其近似性(例如概率),最后選擇性能最好的模型。但主題模型通常是用于組織、總結和幫助研究者探索大規(guī)模語料,技術上無法保證,準確性越高,組織性就越好或者解釋得就越簡單。主題建模的一個開放課題是與算法使用相匹配的評測方法。那么如何基于主題的解釋性來比較主題模型呢?這就是模型驗證問題,當面對一個新語料和新問題時,應該如何選擇主題模型呢?哪些建模假設對問題是重要的,哪些是不重要的?該如何試驗眾多已經(jīng)開發(fā)的主題模型呢?這些問題引起了統(tǒng)計學家
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度智能城市建設內部股權轉讓協(xié)議范本
- 2025年度商業(yè)空間窗簾設計、安裝及后期維護合同4篇
- 2025年美團電商平臺用戶隱私保護與數(shù)據(jù)安全協(xié)議
- 2025版小區(qū)房屋裝修智能家居系統(tǒng)安全評估與認證合同2篇
- 2025年度新能源項目用地承包及轉讓合同協(xié)議書4篇
- 2025年度門窗行業(yè)環(huán)保檢測與認證服務合同4篇
- 二零二五年度外教合同終止與清算協(xié)議合同
- 二零二五年度土地租賃合同(農(nóng)業(yè)開發(fā))4篇
- 二零二五年度錨具市場推廣合作合同4篇
- 展會現(xiàn)場觀眾組織與服務合同(2025版)2篇
- 2024年秋季學期學校辦公室工作總結
- 鋪大棚膜合同模板
- 長亭送別完整版本
- 2024年英語高考全國各地完形填空試題及解析
- 智能養(yǎng)老院視頻監(jiān)控技術方案
- 你比我猜題庫課件
- 無人駕駛航空器安全操作理論復習測試附答案
- 建筑工地春節(jié)留守人員安全技術交底
- 默納克-NICE1000技術交流-V1.0
- 蝴蝶蘭的簡介
- 老年人心理健康量表(含評分)
評論
0/150
提交評論