LDA隱含狄利克雷模型演示文稿_第1頁
LDA隱含狄利克雷模型演示文稿_第2頁
LDA隱含狄利克雷模型演示文稿_第3頁
LDA隱含狄利克雷模型演示文稿_第4頁
LDA隱含狄利克雷模型演示文稿_第5頁
已閱讀5頁,還剩43頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

LDA隱含狄利克雷模型演示文稿目前一頁\總數(shù)四十八頁\編于十四點LDA隱含狄利克雷模型目前二頁\總數(shù)四十八頁\編于十四點主要內(nèi)容和目標(biāo)共軛先驗分布Dirichlet分布unigrammodelLDAGibbs采樣算法目前三頁\總數(shù)四十八頁\編于十四點隨機(jī)變量的分布目前四頁\總數(shù)四十八頁\編于十四點思考嘗試計算X(k)落在區(qū)間[x,x+Δx]的概率:目前五頁\總數(shù)四十八頁\編于十四點劃分為3段目前六頁\總數(shù)四十八頁\編于十四點事件E1的概率目前七頁\總數(shù)四十八頁\編于十四點事件E2:假設(shè)有2個數(shù)落在區(qū)間[x,x+Δx]目前八頁\總數(shù)四十八頁\編于十四點只需要考慮1個點落在區(qū)間[x,x+Δx]目前九頁\總數(shù)四十八頁\編于十四點X(k)的概率密度函數(shù)目前十頁\總數(shù)四十八頁\編于十四點補(bǔ)充:Γ函數(shù)Γ函數(shù)是階乘在實數(shù)上的推廣目前十一頁\總數(shù)四十八頁\編于十四點利用Γ函數(shù)目前十二頁\總數(shù)四十八頁\編于十四點增加觀測數(shù)據(jù)目前十三頁\總數(shù)四十八頁\編于十四點思考過程目前十四頁\總數(shù)四十八頁\編于十四點思考過程目前十五頁\總數(shù)四十八頁\編于十四點共軛分布注:上式中的加號“+”,并不代表實際的數(shù)學(xué)公式是相加,事實上,實際計算過程是相乘的。目前十六頁\總數(shù)四十八頁\編于十四點Beta分布的概率密度曲線目前十七頁\總數(shù)四十八頁\編于十四點目前十八頁\總數(shù)四十八頁\編于十四點直接推廣到Dirichlet分布目前十九頁\總數(shù)四十八頁\編于十四點貝葉斯參數(shù)估計的思考過程目前二十頁\總數(shù)四十八頁\編于十四點共軛先驗分布在貝葉斯概率理論中,如果后驗概率P(θ|x)和先驗概率p(θ)滿足同樣的分布律,那么,先驗分布和后驗分布被叫做共軛分布,同時,先驗分布叫做似然函數(shù)的共軛先驗分布。InBayesianprobabilitytheory,iftheposteriordistributionsp(θ|x)areinthesamefamilyasthepriorprobabilitydistributionp(θ),thepriorandposteriorarethencalledconjugatedistributions,andtheprioriscalledaconjugatepriorforthelikelihoodfunction.目前二十一頁\總數(shù)四十八頁\編于十四點共軛先驗分布的提出某觀測數(shù)據(jù)服從概率分布P(θ)時,當(dāng)觀測到新的X數(shù)據(jù)時,有如下問題:可否根據(jù)新觀測數(shù)據(jù)X,更新參數(shù)θ根據(jù)新觀測數(shù)據(jù)可以在多大程度上改變參數(shù)θθθ+Δθ當(dāng)重新估計θ的時候,給出新參數(shù)值θ的新概率分布。即:P(θ|x)目前二十二頁\總數(shù)四十八頁\編于十四點分析根據(jù)貝葉斯法則P(x|θ)表示以預(yù)估θ為參數(shù)的x概率分布,可以直接求得。P(θ)是已有原始的θ概率分布。方案:選取P(x|θ)的共軛先驗作為P(θ)的分布,這樣,P(x|θ)乘以P(θ)然后歸一化結(jié)果后其形式和P(θ)的形式一樣。目前二十三頁\總數(shù)四十八頁\編于十四點舉例說明投擲一個非均勻硬幣,可以使用參數(shù)為θ的伯努利模型,θ為硬幣為正面的概率,那么結(jié)果x的分布形式為:其共軛先驗為beta分布,具有兩個參數(shù)α和β,稱為超參數(shù)(hyperparameters)。簡單解釋就是,這兩個參數(shù)決定了θ參數(shù)。Beta分布形式為目前二十四頁\總數(shù)四十八頁\編于十四點先驗概率和后驗概率的關(guān)系計算后驗概率歸一化這個等式后會得到另一個Beta分布,即:伯努利分布的共軛先驗是Beta分布。目前二十五頁\總數(shù)四十八頁\編于十四點偽計數(shù)可以發(fā)現(xiàn),在后驗概率的最終表達(dá)式中,參數(shù)α和β和x,1-x一起作為參數(shù)θ的指數(shù)。而這個指數(shù)的實踐意義是:投幣過程中,正面朝上的次數(shù)。因此,α和β常常被稱作“偽計數(shù)”。目前二十六頁\總數(shù)四十八頁\編于十四點推廣二項分布多項分布Beta分布Dirichlet分布目前二十七頁\總數(shù)四十八頁\編于十四點Dirichlet分布的定義目前二十八頁\總數(shù)四十八頁\編于十四點Dirichlet分布的分析α是參數(shù),共K個定義在x1,x2…xK-1維上x1+x2+…+xK-1+xK=1x1,x2…xK-1>0定義在(K-1)維的單純形上,其他區(qū)域的概率密度為0α的取值對Dir(p|α)有什么影響?目前二十九頁\總數(shù)四十八頁\編于十四點SymmetricDirichletdistributionAverycommonspecialcaseisthesymmetricDirichletdistribution,wherealloftheelementsmakinguptheparametervectorhavethesamevalue.SymmetricDirichletdistributionsareoftenusedwhenaDirichletprioriscalledfor,sincetheretypicallyisnopriorknowledgefavoringonecomponentoveranother.Sinceallelementsoftheparametervectorhavethesamevalue,thedistributionalternativelycanbeparametrizedbyasinglescalarvalueα,calledtheconcentrationparameter(聚集參數(shù)).目前三十頁\總數(shù)四十八頁\編于十四點對稱Dirichlet分布目前三十一頁\總數(shù)四十八頁\編于十四點對稱Dirichlet分布的參數(shù)分析α=1時退化為均勻分布當(dāng)α>1時p1=p2=…=pk的概率增大當(dāng)α<1時p1=1,pi=0的概率增大圖像說明:將Dirichlet分布的概率密度函數(shù)取對數(shù),繪制對稱Dirichlet分布的圖像,取K=3,也就是有兩個獨立參數(shù)x1,x2,分別對應(yīng)圖中的兩個坐標(biāo)軸,第三個參數(shù)始終滿足x3=1-x1-x2且α1=α2=α3=α,圖中反映的是α從0.3變化到2.0的概率對數(shù)值的變化情況。目前三十二頁\總數(shù)四十八頁\編于十四點參數(shù)α對Dirichlet分布的影響目前三十三頁\總數(shù)四十八頁\編于十四點參數(shù)選擇對對稱Dirichlet分布的影響Whenα=1,thesymmetricDirichletdistributionisequivalenttoauniformdistributionovertheopenstandard(K?1)-simplex,i.e.itisuniformoverallpointsinitssupport.Valuesoftheconcentrationparameterabove1prefervariantsthataredense,evenlydistributeddistributions,i.e.allthevalueswithinasinglesamplearesimilartoeachother.Valuesoftheconcentrationparameterbelow1prefersparsedistributions,i.e.mostofthevalueswithinasinglesamplewillbecloseto0,andthevastmajorityofthemasswillbeconcentratedinafewofthevalues.目前三十四頁\總數(shù)四十八頁\編于十四點多項分布的共軛分布是Dirichlet分布目前三十五頁\總數(shù)四十八頁\編于十四點unigrammodelunigrammodel假設(shè)文本中的詞服從Multinomial分布,而Multinomial分布的先驗分布為Dirichlet分布。圖中雙線圓圈wn表示在文本中觀察到的第n個詞,n∈[1,N]表示文本中一共有N個詞。加上方框表示重復(fù),即一共有N個這樣的隨機(jī)變量wn。p和α是隱含未知變量,分別是詞服從的Multinomial分布的參數(shù)和該Multinomial分布的先驗Dirichlet分布的參數(shù)。一般α由經(jīng)驗事先給定,p由觀察到的文本中出現(xiàn)的詞學(xué)習(xí)得到,表示文本中出現(xiàn)每個詞的概率。目前三十六頁\總數(shù)四十八頁\編于十四點為上述模型增加主題Topic假定語料庫中共有m篇文章,一共涉及了K個Topic,每個Topic下的詞分布為一個從參數(shù)為β的Dirichlet先驗分布中采樣得到的Multinomial分布(注意詞典由term構(gòu)成,每篇文章由word構(gòu)成,前者不能重復(fù),后者可以重復(fù))。每篇文章的長度記做Nm,從一個參數(shù)為α的Dirichlet先驗分布中采樣得到一個Multinomial分布作為該文章中每個Topic的概率分布;對于某篇文章中的第n個詞,首先從該文章中出現(xiàn)每個Topic的Multinomial分布中采樣一個Topic,然后再在這個Topic對應(yīng)的詞的Multinomial分布中采樣一個詞。不斷重復(fù)這個隨機(jī)生成過程,直到m篇文章全部完成上述過程。這就是LDA的解釋。目前三十七頁\總數(shù)四十八頁\編于十四點詳細(xì)解釋字典中共有V個term,不可重復(fù),這些term出現(xiàn)在具體的文章中,就是word語料庫中共有m篇文檔d1,d2…dm對于文檔di,由Ni個word組成,可重復(fù);語料庫中共有K個主題T1,T2…Tk;α,β為先驗分布的參數(shù),一般事先給定:如取0.1的對稱Dirichlet分布θ是每篇文檔的主題分布對于第i篇文檔di,它的主題分布是θi=(θi1,θi2…,θiK),是長度為K的向量對于第i篇文檔di,在主題分布θi下,可以確定一個具體的主題zij=j,j∈[1,K],ψk表示第k個主題的詞分布對于第k個主題Tk,詞分布φk=(φk1,φk2…φkv),是長度為v的向量由zij選擇φzij,表示由詞分布φzij確定word,從而得到wix目前三十八頁\總數(shù)四十八頁\編于十四點詳細(xì)解釋圖中K為主題個數(shù),M為文檔總數(shù),Nm是第m個文檔的單詞總數(shù)。β是每個Topic下詞的多項分布的Dirichlet先驗參數(shù),α是每個文檔下Topic的多項分布的Dirichlet先驗參數(shù)。zmn是第m個文檔中第n個詞的主題,wmn是m個文檔中的第n個詞。兩個隱含變量θ和φ分別表示第m個文檔下的Topic分布和第k個Topic下詞的分布,前者是k維(k為Topic總數(shù))向量,后者是v維向量(v為詞典中term總數(shù))目前三十九頁\總數(shù)四十八頁\編于十四點參數(shù)的學(xué)習(xí)給定一個文檔集合,wmn是可以觀察到的已知變量,α和β是根據(jù)經(jīng)驗給定的先驗參數(shù),其他的變量zmn,θ和φ都是未知的隱含變量,需要根據(jù)觀察到的變量來學(xué)習(xí)估計的。根據(jù)LDA的圖模型,可以寫出所有變量的聯(lián)合分布:目前四十頁\總數(shù)四十八頁\編于十四點似然概率一個詞wmn初始化為一個termt的概率是每個文檔中出現(xiàn)topick的概率乘以topick下出現(xiàn)termt的概率,然后枚舉所有topic求和得到。整個文檔集合的似然函數(shù)為:目前四十一頁\總數(shù)四十八頁\編于十四點GibbsSamplingGibbsSampling算法的運行方式是每次選取概率向量的一個維度,給定其他維度的變量值采樣當(dāng)前維度的值。不斷迭代,直到收斂輸出待估計的參數(shù)。初始時隨機(jī)給文本中的每個單詞分配主題z(0),然后統(tǒng)計每個主題

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論