自然語言處理常用模型方法總結(jié)_第1頁
自然語言處理常用模型方法總結(jié)_第2頁
自然語言處理常用模型方法總結(jié)_第3頁
自然語言處理常用模型方法總結(jié)_第4頁
自然語言處理常用模型方法總結(jié)_第5頁
已閱讀5頁,還剩8頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

本文格式為Word版,下載可任意編輯——自然語言處理常用模型方法總結(jié)

N元模型、馬爾可夫模型以及隱馬爾可夫模型、最大熵模型、支持向量機(jī)、條件隨機(jī)場(chǎng)

自然語言處理常用模型使用方法總結(jié)

一、N元模型

思想:

假使用變量W代表一個(gè)文本中順序排列的n個(gè)詞,即W=W1W2…Wn,則統(tǒng)計(jì)語言模型的任務(wù)是給出任意詞序列W在文本中出現(xiàn)的概率P(W)。利用概率的乘積公式,P(W)可展開為:P(W)=P(w1)P(w2|w1)P(w3|w1w2)…P(wn|w1w2…wn-1),不難看出,為了預(yù)計(jì)詞Wn的出現(xiàn)概率,必需已知它前面所有詞的出現(xiàn)概率。從計(jì)算上來看,這太繁雜了。假使任意一個(gè)詞Wi的出現(xiàn)概率只同它前面的N-1個(gè)詞有關(guān),問題就可以得到很大的簡(jiǎn)化。這時(shí)的語言模型叫做N元模型(N-gram),即P(W)=P(w1)P(w2|w1)P(w3|w1w2)…P(wi|wi-N+1…wi-1)…實(shí)際使用的尋常是N=2或N=3的二元模型(bi-gram)或三元模型(tri-gram)。以三元模型為例,近似認(rèn)為任意詞Wi的出現(xiàn)概率只同它緊接的前面的兩個(gè)詞有關(guān)。重要的是這些概率參數(shù)都是可以通過大規(guī)模語料庫來估值的。譬如三元概率有P(wi|wi-2wi-1)≈count(wi-2wi-1…wi)/count(wi-2wi-1)式中count(…)表示一個(gè)特定詞序列在整個(gè)語料庫中出現(xiàn)的累計(jì)次數(shù)。統(tǒng)計(jì)語言模型有點(diǎn)像天氣預(yù)報(bào)的方法。用來估計(jì)概率參數(shù)的大規(guī)模語料庫好比是一個(gè)地區(qū)歷年積累起來的氣象紀(jì)錄,而用三元模型來做天氣預(yù)報(bào),就像是根據(jù)前兩天的天氣狀況來預(yù)計(jì)今天的天氣。天氣預(yù)報(bào)當(dāng)然不可能百分之百正確。這也算是概率統(tǒng)計(jì)方法的一個(gè)特點(diǎn)吧。(摘自黃昌寧論文《中文信息處理的主流技術(shù)是什么?》)

條件:

該模型基于這樣一種假設(shè),第n個(gè)詞的出現(xiàn)只與前面N-1個(gè)詞相關(guān),而與其它任何詞都不相關(guān),整句的概率就是各個(gè)詞出現(xiàn)概率的乘積。這些概率可以通過直接從語料中統(tǒng)計(jì)N個(gè)詞同時(shí)出現(xiàn)的次數(shù)得到。常用的是二元的Bi-Gram和三元的Tri-Gram。

問題:

雖然我們知道元模型中,n越大約束力越強(qiáng),但由于計(jì)算機(jī)容量和速度的限制及數(shù)據(jù)的稀疏,很難進(jìn)行大n的統(tǒng)計(jì)。

N元模型、馬爾可夫模型以及隱馬爾可夫模型、最大熵模型、支持向量機(jī)、條件隨機(jī)場(chǎng)

二、馬爾可夫模型以及隱馬爾可夫模型

思想:

馬爾可夫模型實(shí)際上是個(gè)有限狀態(tài)機(jī),兩兩狀態(tài)間有轉(zhuǎn)移概率;隱馬爾可夫模型中狀態(tài)不可見,我們只能看到輸出序列,也就是每次狀態(tài)轉(zhuǎn)移會(huì)拋出個(gè)觀測(cè)值;當(dāng)我們觀測(cè)到觀測(cè)序列后,要找到最正確的狀態(tài)序列。隱馬爾科夫模型是一種用參數(shù)表示的用于描述隨機(jī)過程統(tǒng)計(jì)特性的概率模型,是一個(gè)雙重隨機(jī)過程,由兩個(gè)部分組成:馬爾科夫鏈和一般隨機(jī)過程。其中馬爾科夫鏈用來描述狀態(tài)的轉(zhuǎn)移,用轉(zhuǎn)移概率描述。一般隨機(jī)過程用來描述狀態(tài)與觀測(cè)序列之間的關(guān)系,用觀測(cè)值概率描述。因此,隱馬爾可夫模型可以看成是能夠隨機(jī)進(jìn)行狀態(tài)轉(zhuǎn)移并輸出符號(hào)的有限狀態(tài)自動(dòng)機(jī),它通過定義觀測(cè)序列和狀態(tài)序列的聯(lián)合概率對(duì)隨機(jī)生成過程進(jìn)行建模。每一個(gè)觀測(cè)序列可以看成是由一個(gè)狀態(tài)轉(zhuǎn)移序列生成,狀態(tài)轉(zhuǎn)移過程是依據(jù)初始狀態(tài)概率分布隨機(jī)選擇一個(gè)初始狀態(tài)開始,輸出一個(gè)觀測(cè)值后再根據(jù)狀態(tài)轉(zhuǎn)移概率矩陣隨機(jī)轉(zhuǎn)移到下一狀態(tài),直到到達(dá)某一預(yù)先指定的終止?fàn)顟B(tài)為止,在每一個(gè)狀態(tài)將根據(jù)輸出概率矩陣隨機(jī)輸出一個(gè)觀測(cè)序列的元素。

一個(gè)HMM有5個(gè)組成部分,尋常記為一個(gè)五元組{S,K,π,A,B},有時(shí)簡(jiǎn)寫為一個(gè)三元組{π,A,B},其中:①S是模型的狀態(tài)集,模型共有N個(gè)狀態(tài),記為S={s1,s2,,sN};②K是模型中狀態(tài)輸出符號(hào)的集合,符號(hào)數(shù)為M,符號(hào)集記為K={k1,k2,,kM};③是初始狀態(tài)概率分布,記為={1,2,,N},其中i是狀態(tài)Si作為初始狀態(tài)的概率;④A是狀態(tài)轉(zhuǎn)移概率矩陣,記為A={aij},1≤i≤N,1≤j≤N。其中aij是從狀態(tài)Si轉(zhuǎn)移到狀態(tài)Sj的概率;⑤B是符號(hào)輸出概率矩陣,記為B={bik},1≤i≤N,1≤k≤M。其中bik是狀態(tài)Si輸出Vk的概率。要用HMM解決實(shí)際問題,首先需要解決如下3個(gè)基本問題:①給定一個(gè)觀測(cè)序列O=O1O2OT和模型{π,A,B},如何高效率地計(jì)算概率P(O|λ),也就是在給定模型的狀況下觀測(cè)序列O的概率;②給定一個(gè)觀測(cè)序列O=O1O2OT和模型{π,A,B},如何快速地選擇在一定意義下“最優(yōu)〞的狀態(tài)序列Q=q1q2qT,使得該狀態(tài)序列“最好地解釋〞觀測(cè)序列;③給定一個(gè)觀測(cè)序列O=O1O2OT,以及可能的模型空間,如何來估計(jì)模型參數(shù),也就是說,如何調(diào)理模型{π,A,B}的參數(shù),使得P(O|λ)最大。

問題:

隱馬模型中存在兩個(gè)假設(shè):輸出獨(dú)立性假設(shè)和馬爾可夫性假設(shè)。其中,輸出獨(dú)立性假設(shè)要求序列數(shù)據(jù)嚴(yán)格相互獨(dú)立才能保證推導(dǎo)的正確性,而事實(shí)上大多數(shù)序列數(shù)據(jù)不能被表示

N元模型、馬爾可夫模型以及隱馬爾可夫模型、最大熵模型、支持向量機(jī)、條件隨機(jī)場(chǎng)

成一系列獨(dú)立事件。

三、最大熵模型

最大熵原理原本是熱力學(xué)中一個(gè)十分重要的原理,后來被廣泛應(yīng)用于自然語言處理方面。其基本原理很簡(jiǎn)單:對(duì)所有的已知事實(shí)建模,對(duì)未知不做任何假設(shè)。也就是建模時(shí)選擇這樣一個(gè)統(tǒng)計(jì)概率模型,在滿足約束的模型中選擇熵最大的概率模型。若將詞性標(biāo)注或者其他自然語言處理任務(wù)看作一個(gè)隨機(jī)過程,最大熵模型就是從所有符合條件的分布中,選擇最均勻的分布,此時(shí)熵值最大。

求解最大熵模型,可以采用拉格朗日乘數(shù)法,其計(jì)算公式為:

pyx1expifi(x,y)Z(x)i

Z(x)expifi(x,y)yi為歸一化因子,i是對(duì)應(yīng)特征的權(quán)重,fi表示其中,

一個(gè)特征。每個(gè)特征對(duì)詞性選擇的影響大小由特征權(quán)重

學(xué)習(xí)算法自動(dòng)得到。i決定,而這些權(quán)值可由GIS或IIS

四、支持向量機(jī)

原理:

支持向量機(jī)的主要思想可以概括為兩點(diǎn):(1)它是針對(duì)線性可分狀況進(jìn)行分析,對(duì)于線性不可分的狀況,通過使用非線性映射算法將低維輸入空間線性不可分的樣本轉(zhuǎn)化為高維特征空間使其線性可分,從而使得高維特征空間采用線性算法對(duì)樣本的非線性特征進(jìn)行線性分析成為可能;(2)它基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化理論之上在特征空間中建構(gòu)最優(yōu)分割超平面,使得學(xué)習(xí)器得到全局最優(yōu)化,并且在整個(gè)樣本空間的期望風(fēng)險(xiǎn)以某個(gè)概率滿足一定上界。

支持向量機(jī)的目標(biāo)就是要根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理,構(gòu)造一個(gè)目標(biāo)函數(shù)將兩類模式盡可能地區(qū)分開來,尋常分為兩類狀況來探討,:(1)線性可分;(2)線性不可分。

線性可分狀況

在線性可分的狀況下,就會(huì)存在一個(gè)超平面使得訓(xùn)練樣本完全分開,該超平面可描述為:wx+b=0(1)其中,“〞是點(diǎn)積,w是n維向量,b為偏移量。

最優(yōu)超平面是使得每一類數(shù)據(jù)與超平面距離最近的向量與超平面之間的距離最大的這樣的平面.

N元模型、馬爾可夫模型以及隱馬爾可夫模型、最大熵模型、支持向量機(jī)、條件隨機(jī)場(chǎng)

最優(yōu)超平面可以通過解下面的二次優(yōu)化問題來獲得:

滿足約束條件:

,i=1,2,3,,n.(3)在特征數(shù)目特別大的狀況,可以將此二次規(guī)劃問題轉(zhuǎn)化為其對(duì)偶問題:

(4)

(5)(6

滿足約束條件:

這里

(7)是Lagrange乘子

,是最優(yōu)超平面的法向量

,是最優(yōu)超平面的偏移量,在這類優(yōu)化問題的求解與分析中,KKT條件將起到很重要的作用,在(7)式中,其解必需滿足:

從式(5)可知,那些(8)=0的樣本對(duì)分類沒有任何作用,只有那些0的樣本才對(duì)分類起作用,這些樣本稱為支持向量,故最終的分類函數(shù)為:

根據(jù)f(x)的符號(hào)來確定X的歸屬。

線性不可分的狀況(9)

對(duì)于線性不可分的狀況,可以把樣本X映射到一個(gè)高維特征空間H,并在此空間中運(yùn)用原空間的函數(shù)來實(shí)現(xiàn)內(nèi)積運(yùn)算,這樣將非線性問題轉(zhuǎn)換成另一空間的線性問題來獲得一個(gè)樣本的歸屬.根據(jù)泛函的有關(guān)理論,只要一種核函數(shù)滿足Mercer條件,它就對(duì)應(yīng)某一空間中的內(nèi)積,因此只要在最優(yōu)分類面上采用適當(dāng)?shù)膬?nèi)積函數(shù)就可以實(shí)現(xiàn)這種線性不可分的分類問題.此時(shí)的目標(biāo)函數(shù)為:

0)(1

N元模型、馬爾可夫模型以及隱馬爾可夫模型、最大熵模型、支持向量機(jī)、條件隨機(jī)場(chǎng)

其分類函數(shù)為:

(11)

內(nèi)積核函數(shù):

目前有三類用的較多的內(nèi)積核函數(shù):第一類是

(12)

我們所能得到的是p階多項(xiàng)式分類器,其次類是徑向基函數(shù)(RBF),也稱作高斯核函數(shù):

第三類是Sigmoid函數(shù)

特點(diǎn):

概括地說,支持向量機(jī)就是首先通過內(nèi)積函數(shù)定義的非線性變換將輸入空間變換到另一個(gè)高維空間,在這個(gè)空間中求最優(yōu)分類面。SVM分類函數(shù)形式上類似于一個(gè)神經(jīng)網(wǎng)絡(luò),輸出是中間節(jié)點(diǎn)的線性組合,每個(gè)中間節(jié)點(diǎn)對(duì)應(yīng)一個(gè)輸入樣本與一個(gè)支持向量的內(nèi)積,因此也叫做支持向量網(wǎng)絡(luò)。

SVM方法的特點(diǎn):

①非線性映射是SVM方法的理論基礎(chǔ),SVM利用內(nèi)積核函數(shù)代替向高維空間的非線性映射;

②對(duì)特征空間劃分的最優(yōu)超平面是SVM的目標(biāo),最大化分類邊際的思想是SVM方法的核心;

③支持向量是SVM的訓(xùn)練結(jié)果,在SVM分類決策中起決定作用的是支持向量。

SVM是一種有堅(jiān)實(shí)理論基礎(chǔ)的別致的小樣本學(xué)習(xí)方法。它基本上不涉及概率測(cè)度及大數(shù)定律等,因此不同于現(xiàn)有的統(tǒng)計(jì)方法。從本質(zhì)上看,它避開了從歸納到演繹的傳統(tǒng)過程,實(shí)現(xiàn)了高效的從訓(xùn)練樣本到預(yù)報(bào)樣本的“轉(zhuǎn)導(dǎo)推理〞,大大簡(jiǎn)化了尋常的分類和回歸等問題。

SVM的最終決策函數(shù)只由少數(shù)的支持向量所確定,計(jì)算的繁雜性取決于支持向量的數(shù)目,而不是樣本空間的維數(shù),這在某種意義上避免了“維數(shù)災(zāi)難〞。少數(shù)支持向量決定了最終結(jié)果,這不但可以幫助我們抓住關(guān)鍵樣本、“剔除〞大量冗余樣本,而且注定了該方法不但算法簡(jiǎn)單,而且具有較好的“魯棒〞性。這種“魯棒〞性主要表達(dá)在:

N元模型、馬爾可夫模型以及隱馬爾可夫模型、最大熵模型、支持向量機(jī)、條件隨機(jī)場(chǎng)

①增、刪非支持向量樣本對(duì)模型沒有影響;

②支持向量樣本集具有一定的魯棒性;

③有些成功的應(yīng)用中,SVM方法對(duì)核的選取不敏感

五、條件隨機(jī)場(chǎng)

原理:

條件隨機(jī)場(chǎng)(CRFs)是一種基于統(tǒng)計(jì)的序列標(biāo)記識(shí)別模型,由JohnLafferty等人在2023年首次提出。它是一種無向圖模型,對(duì)于指定的節(jié)點(diǎn)輸入值,它能夠計(jì)算指定的節(jié)點(diǎn)輸出值上的條件概率,其訓(xùn)練目標(biāo)是使得條件概率最大化。線性鏈?zhǔn)荂RFs中常見的特定圖結(jié)構(gòu)之一,它由指定的輸出節(jié)點(diǎn)順序鏈接而成。一個(gè)線性鏈與一個(gè)有限狀態(tài)機(jī)相對(duì)應(yīng),可用于解決序列數(shù)據(jù)的標(biāo)注問題。在多數(shù)狀況下,CRFs均指線性的CRFs。用x=(x1,x2,…,xn)表示要進(jìn)行標(biāo)注的數(shù)據(jù)序列,y=(y1,y2,…,yn)表示對(duì)應(yīng)的結(jié)果序列。例如對(duì)于中文詞性標(biāo)注任務(wù),x可以表示一個(gè)中文句子x=(上海,浦東,開發(fā),與,法制,建設(shè),同步),y則表示該句子中每個(gè)詞的詞性序列y=(NR,NR,NN,CC,NN,NN,VV)。

對(duì)于(X,Y),C由局部特征向量f和對(duì)應(yīng)的權(quán)重向量λ確定。對(duì)于輸入數(shù)據(jù)序列x和標(biāo)注結(jié)果序列y,條件隨機(jī)場(chǎng)C的全局特征表示為

Fy,xfy,x,i

i⑴

其中i遍歷輸入數(shù)據(jù)序列的所有位置,f(y,x,i)表示在i位置時(shí)各個(gè)特征組成的特征向量。于是,CRFs定義的條件概率分布為

p(Y,X)

其中expFY,XZX⑵

ZXexpFy,xy⑶

給定一個(gè)輸入數(shù)據(jù)序列X,標(biāo)注的目標(biāo)就是找出其對(duì)應(yīng)的最可能的標(biāo)注結(jié)果序列了,即yargmaxpy|xy⑷

由于Zλ(X)不依靠于y,因此有

N元模型、馬爾可夫模型以及隱馬爾可夫模型、最大熵模型、支持向量機(jī)、條件隨機(jī)場(chǎng)

yargmaxpy|xargmaxFy,xyy⑸

CRFs模型的參數(shù)估計(jì)尋常采用L—BFGS算法實(shí)現(xiàn),CRFs解碼過程,也就是求解未知串標(biāo)注的過程,需要探尋計(jì)算該串上的一個(gè)最大聯(lián)合概率,解碼過程采用Viterbi算法來完成。

CRFs具有很強(qiáng)的推理能力,能夠充分地利用上下文信息作為特征,還可以任意地添加其他外部特征,使得模型能夠獲取的信息十分豐富。CRFs通過僅使用一個(gè)指數(shù)模型作為在給定觀測(cè)序列條件下整個(gè)標(biāo)記序列的聯(lián)合概率,使得該模型中不同狀態(tài)下的不同特征權(quán)值可以彼此交替,從而有效地解決了其他非生成有向圖模型所產(chǎn)生的標(biāo)注偏置的問題。這些特點(diǎn),使得CRFs從理論上講,十分適合中文詞性標(biāo)注?!?/p>

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論