基于語義類漢語句法分析及研究文檔

上傳人：t*** IP屬地：江蘇上傳時(shí)間：2023-09-07 格式：PPTX 頁數(shù)：17 大?。?42.15KB 積分：6 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩12頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

基于語義類的漢語句法分析研究李輝2013.04.01句法分析的困難句法分析的最主要的困難有兩點(diǎn)：

第一個(gè)難點(diǎn)是歧義“自然語言區(qū)別于人工語言的一個(gè)顯著特點(diǎn)就是它存在大量的歧義現(xiàn)象”人類可以依靠大量的先驗(yàn)知識有效地消除各種歧義現(xiàn)象,而機(jī)器由于在知識表示和知識獲取方面的不足還難以像人類那樣進(jìn)行句法分析。

第二個(gè)難點(diǎn)是搜索空間巨大“同一般的分類問題相比,句法分析是一個(gè)更為復(fù)雜的問題”因?yàn)榉诸悊栴}只需要在預(yù)先指定好的數(shù)目確定的若干種類型中做出一個(gè)選擇就可以了,而在進(jìn)行句法分析時(shí),不同的句子會有不同的候選分析樹“給定一個(gè)長度為n個(gè)詞的句子,其可能的候選句法分析樹的個(gè)數(shù)高達(dá)n的指數(shù)級”因此在設(shè)計(jì)句法分析

模型時(shí)不僅僅要加強(qiáng)模型消除歧義的能力,還必須要控制好模型的復(fù)雜度,從而保證解碼器能夠在可接受的時(shí)間內(nèi)搜索到最優(yōu)的句法分析樹。基于語義類的漢語句法分析一般情況下,訓(xùn)練數(shù)據(jù)的規(guī)模越小,句法分析模型的性能就越低“主要原因有兩個(gè):第

一個(gè)原因是數(shù)據(jù)稀疏問題,參數(shù)估計(jì)得不準(zhǔn)確;第二個(gè)原因是訓(xùn)練數(shù)據(jù)缺乏容易引起過擬合(overtfinig)現(xiàn)象,使模型的泛化能力降低”針對這兩個(gè)問題,本章將以最小描述長度原則為基礎(chǔ),探索基于語義類的漢語句法分析模型“在基于詞類的漢語句法分析模

型中,我們用語義類來代替詞匯信息”這種方法。基于語義類模型的輸入是一個(gè)由詞匯，詞性和語義類組成的三元組序列:<W,POS,SC>

其中W(w1,,,wn)為詞序列,wi表示第i個(gè)詞;SC=(sc1,,,scn)為語義類序列,sci表示第i個(gè)詞的語義類;POS=(t1,,,tn)為詞性序列,ti表示第i個(gè)詞的詞性。

給定<W,POS,SC>,我們?nèi)匀皇怯媒y(tǒng)計(jì)方法來消除句法歧義,認(rèn)為條件概率最大的句法分析樹是最好的,即根據(jù)貝葉斯公式并略掉常數(shù)項(xiàng),我們有:為了簡化模型，我們假設(shè)詞序列砰的產(chǎn)生僅僅依賴于SC。

在做句法分析時(shí),W,sc都是給定的,因此，常數(shù),我們有:是一個(gè)可以被省略的

模型總是先產(chǎn)生詞性,然后以詞性為基礎(chǔ)再產(chǎn)生語義類"因此,只有詞性相同的詞語被劃分在同一個(gè)語義類中才有意義"根據(jù)語料庫中的數(shù)據(jù),我們?yōu)槊恳粋€(gè)詞性都建立一棵七層的語義分類樹,樹的根節(jié)點(diǎn)為詞性,葉節(jié)點(diǎn)為詞匯,中間的五層為語義類代碼"例如:詞性NR(專有名詞)的語義分類樹的一部分如圖所示:

為每一個(gè)詞性都劃分好這樣的語義分類樹之后,就可以應(yīng)用文獻(xiàn)所提出的方法,把詞語的聚類問題簡化為語義分類樹的剪枝問題"語義分類樹的每一種剪枝方式都對應(yīng)著一種詞匯聚類結(jié)果"例如,在圖中,靠近根節(jié)點(diǎn)的剪枝方式把所有的詞匯分成了如下的3類:第一類(A):{克林頓尼克松毛澤東鄧小平}第二類(D):{中國美國意大利安徽省福建省中科院鞍鋼}第三類(B):{長城白宮}類似地,在圖中,靠近葉節(jié)點(diǎn)的剪枝方式把所有的詞語分成了如下7類:第一類(Afloc12):{克林頓尼克松}第二類(Afloe13):{毛澤東鄧小平}第三類(oioZAo3):{中國}第四類(Di02C):{美國意大利安徽省福建省}第五類(omolB):{中科院}第六類(omO3C):{鞍鋼}第七類(BnolC):{長城白宮}

我們可以用兩個(gè)極端方式對語義分類樹進(jìn)行剪枝:第一種剪枝方式是只保留根節(jié)點(diǎn)(詞性信息)，其它節(jié)點(diǎn)全部剪掉，這相當(dāng)于回到了

PCFG模型。第二種剪枝方式是不剪枝，保留所有葉子節(jié)點(diǎn)(詞匯信

息)，這相當(dāng)于是詞匯化模型。我們知道PCFG模型過于簡單，消歧

能力差;而詞匯化模型使用詞匯信息卻引起數(shù)據(jù)稀疏。因此，上述兩種方式都是不可取的，比較合理的剪枝應(yīng)該是介于兩個(gè)極端方式之間的。本文采用最小描述長度(MniimumDescriptinoLnegth,MDL)原則，自動地為句法分析模型在兩個(gè)極端方式之間尋找一個(gè)平衡點(diǎn)。對于一棵剪枝后的語義分類樹，其描述長度為:

其中，lGl為所有候選剪枝方式數(shù)目;lSl為樣本數(shù)，即該分類樹下的所有詞語出現(xiàn)次數(shù)之和;k為剪枝后的語義分類樹的自由參數(shù)的個(gè)數(shù)。

語義分類樹的參數(shù)個(gè)數(shù)為其葉節(jié)點(diǎn)數(shù)目。每個(gè)葉節(jié)點(diǎn)對應(yīng)著一個(gè)概率值，由于所有概率之和必須為1，則此約束限定了一個(gè)參數(shù)。因此自由參數(shù)的個(gè)數(shù)為葉節(jié)點(diǎn)數(shù)目減一。

其中，sc為w所屬的語義類，f(sc)是其出現(xiàn)的次數(shù)，lscl偽語義類sc中所包含的詞語數(shù)目。上式的基本思想是把某個(gè)語義類sc的概率平

均分配給該語義類所包含的詞，也就是說語義類sc所包含的詞的各

種統(tǒng)計(jì)量將被融合在一起并在每個(gè)詞之間平均分配，正是借助這種

泛化手段我們才可以從較小的語料庫當(dāng)中獲得比較智能化的參數(shù)估

計(jì)。

為了搜索到能夠使L(M)、L(DlM)兩項(xiàng)之和最小的剪枝方式，理論上要窮舉所有可能的情況。在實(shí)際操作時(shí)，我們可以采用動態(tài)規(guī)劃的方法遞歸地搜索最優(yōu)的剪枝方式，算法如下:

我們看到該算法在對節(jié)點(diǎn)N剪枝之前，首先要對其所有子節(jié)點(diǎn)調(diào)用該算法進(jìn)行剪枝。我們在實(shí)際操作時(shí)，只需要把每個(gè)詞性的語義分類樹的根節(jié)點(diǎn)作為參數(shù)傳遞給該算法即可。實(shí)驗(yàn)與分析

實(shí)驗(yàn)是在規(guī)模較小的第一版賓州中文樹庫(CTB)上進(jìn)行的。CTB由325篇文章組成，根據(jù)以往研究的慣例，我們把前270篇文章作為訓(xùn)練集，后25篇文章作為調(diào)試集，其余的30篇文章作為測試集。訓(xùn)練集和測試集的特性如表5一1所示。實(shí)驗(yàn)的目標(biāo)是在小語料庫上利用語義類信息來提高句法分析器的性能。

我們設(shè)計(jì)了如下的3組實(shí)驗(yàn):)（1）基于詞匯的句法分析，作為其他方法的比較基準(zhǔn)。（2)基于固定層次語義類的句法分析。如前所述，每個(gè)詞匯都有五層語義類代碼，因此分別進(jìn)行了5個(gè)實(shí)驗(yàn)來驗(yàn)證語義信息的作用，即所有詞匯都分別采用第一層、第二層、第三層、第四層、第五層語義類代碼。（3)基于最優(yōu)層次語義類的句法分析，即應(yīng)用MDL原則為每一個(gè)詞匯自動確定采用哪一層語義類代碼。

基于第三層、第四層、第五層語義類代碼的句法分析的性能都超過了基于詞匯模型的方法，這在一定程度上說明了語義類在漢語句法分析模型中的重要作用。但是，基于第一層、第二層語義類的方法的性能不如基于詞匯的方法好。導(dǎo)致這一結(jié)果的原因是語義類的數(shù)目過小，例如，第一層語義類只有12種(即把近萬個(gè)詞語聚成12類)，而這12個(gè)語義類不足以描述眾多詞語之間在句法語義功能上的細(xì)微區(qū)別，因此使句法分析模型的判別能力下降。

在第3組實(shí)驗(yàn)中，語義信息的作用得到了更加充分的發(fā)揮。與第二組實(shí)驗(yàn)相比，用MDL原則剪枝的方式取得的性能提升更為顯著。這是因?yàn)榈诙M的每個(gè)實(shí)驗(yàn)中所有的詞匯都是采用相同層次的語義類，這種不考慮訓(xùn)練數(shù)據(jù)的實(shí)際分布情況而僅僅根據(jù)語義詞典中的

人人文庫> 全部分類> 圖紙下載 > 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于語義類漢語句法分析及研究文檔

文檔簡介

溫馨提示

最新文檔

評論

基于語義類漢語句法分析及研究文檔

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔