




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
基于語義類的漢語句法分析研究李輝2013.04.01句法分析的困難句法分析的最主要的困難有兩點(diǎn):
第一個(gè)難點(diǎn)是歧義“自然語言區(qū)別于人工語言的一個(gè)顯著特點(diǎn)就是它存在大量的歧義現(xiàn)象”人類可以依靠大量的先驗(yàn)知識有效地消除各種歧義現(xiàn)象,而機(jī)器由于在知識表示和知識獲取方面的不足還難以像人類那樣進(jìn)行句法分析。
第二個(gè)難點(diǎn)是搜索空間巨大“同一般的分類問題相比,句法分析是一個(gè)更為復(fù)雜的問題”因?yàn)榉诸悊栴}只需要在預(yù)先指定好的數(shù)目確定的若干種類型中做出一個(gè)選擇就可以了,而在進(jìn)行句法分析時(shí),不同的句子會有不同的候選分析樹“給定一個(gè)長度為n個(gè)詞的句子,其可能的候選句法分析樹的個(gè)數(shù)高達(dá)n的指數(shù)級”因此在設(shè)計(jì)句法分析
模型時(shí)不僅僅要加強(qiáng)模型消除歧義的能力,還必須要控制好模型的復(fù)雜度,從而保證解碼器能夠在可接受的時(shí)間內(nèi)搜索到最優(yōu)的句法分析樹。基于語義類的漢語句法分析一般情況下,訓(xùn)練數(shù)據(jù)的規(guī)模越小,句法分析模型的性能就越低“主要原因有兩個(gè):第
一個(gè)原因是數(shù)據(jù)稀疏問題,參數(shù)估計(jì)得不準(zhǔn)確;第二個(gè)原因是訓(xùn)練數(shù)據(jù)缺乏容易引起過擬合(overtfinig)現(xiàn)象,使模型的泛化能力降低”針對這兩個(gè)問題,本章將以最小描述長度原則為基礎(chǔ),探索基于語義類的漢語句法分析模型“在基于詞類的漢語句法分析模
型中,我們用語義類來代替詞匯信息”這種方法。基于語義類模型的輸入是一個(gè)由詞匯,詞性和語義類組成的三元組序列:<W,POS,SC>
其中W(w1,,,wn)為詞序列,wi表示第i個(gè)詞;SC=(sc1,,,scn)為語義類序列,sci表示第i個(gè)詞的語義類;POS=(t1,,,tn)為詞性序列,ti表示第i個(gè)詞的詞性。
給定<W,POS,SC>,我們?nèi)匀皇怯媒y(tǒng)計(jì)方法來消除句法歧義,認(rèn)為條件概率最大的句法分析樹是最好的,即根據(jù)貝葉斯公式并略掉常數(shù)項(xiàng),我們有:為了簡化模型,我們假設(shè)詞序列砰的產(chǎn)生僅僅依賴于SC。
在做句法分析時(shí),W,sc都是給定的,因此,常數(shù),我們有:是一個(gè)可以被省略的
模型總是先產(chǎn)生詞性,然后以詞性為基礎(chǔ)再產(chǎn)生語義類"因此,只有詞性相同的詞語被劃分在同一個(gè)語義類中才有意義"根據(jù)語料庫中的數(shù)據(jù),我們?yōu)槊恳粋€(gè)詞性都建立一棵七層的語義分類樹,樹的根節(jié)點(diǎn)為詞性,葉節(jié)點(diǎn)為詞匯,中間的五層為語義類代碼"例如:詞性NR(專有名詞)的語義分類樹的一部分如圖所示:
為每一個(gè)詞性都劃分好這樣的語義分類樹之后,就可以應(yīng)用文獻(xiàn)所提出的方法,把詞語的聚類問題簡化為語義分類樹的剪枝問題"語義分類樹的每一種剪枝方式都對應(yīng)著一種詞匯聚類結(jié)果"例如,在圖中,靠近根節(jié)點(diǎn)的剪枝方式把所有的詞匯分成了如下的3類:第一類(A):{克林頓尼克松毛澤東鄧小平}第二類(D):{中國美國意大利安徽省福建省中科院鞍鋼}第三類(B):{長城白宮}類似地,在圖中,靠近葉節(jié)點(diǎn)的剪枝方式把所有的詞語分成了如下7類:第一類(Afloc12):{克林頓尼克松}第二類(Afloe13):{毛澤東鄧小平}第三類(oioZAo3):{中國}第四類(Di02C):{美國意大利安徽省福建省}第五類(omolB):{中科院}第六類(omO3C):{鞍鋼}第七類(BnolC):{長城白宮}
我們可以用兩個(gè)極端方式對語義分類樹進(jìn)行剪枝:第一種剪枝方式是只保留根節(jié)點(diǎn)(詞性信息),其它節(jié)點(diǎn)全部剪掉,這相當(dāng)于回到了
PCFG模型。第二種剪枝方式是不剪枝,保留所有葉子節(jié)點(diǎn)(詞匯信
息),這相當(dāng)于是詞匯化模型。我們知道PCFG模型過于簡單,消歧
能力差;而詞匯化模型使用詞匯信息卻引起數(shù)據(jù)稀疏。因此,上述兩種方式都是不可取的,比較合理的剪枝應(yīng)該是介于兩個(gè)極端方式之間的。本文采用最小描述長度(MniimumDescriptinoLnegth,MDL)原則,自動地為句法分析模型在兩個(gè)極端方式之間尋找一個(gè)平衡點(diǎn)。對于一棵剪枝后的語義分類樹,其描述長度為:
其中,lGl為所有候選剪枝方式數(shù)目;lSl為樣本數(shù),即該分類樹下的所有詞語出現(xiàn)次數(shù)之和;k為剪枝后的語義分類樹的自由參數(shù)的個(gè)數(shù)。
語義分類樹的參數(shù)個(gè)數(shù)為其葉節(jié)點(diǎn)數(shù)目。每個(gè)葉節(jié)點(diǎn)對應(yīng)著一個(gè)概率值,由于所有概率之和必須為1,則此約束限定了一個(gè)參數(shù)。因此自由參數(shù)的個(gè)數(shù)為葉節(jié)點(diǎn)數(shù)目減一。
其中,sc為w所屬的語義類,f(sc)是其出現(xiàn)的次數(shù),lscl偽語義類sc中所包含的詞語數(shù)目。上式的基本思想是把某個(gè)語義類sc的概率平
均分配給該語義類所包含的詞,也就是說語義類sc所包含的詞的各
種統(tǒng)計(jì)量將被融合在一起并在每個(gè)詞之間平均分配,正是借助這種
泛化手段我們才可以從較小的語料庫當(dāng)中獲得比較智能化的參數(shù)估
計(jì)。
為了搜索到能夠使L(M)、L(DlM)兩項(xiàng)之和最小的剪枝方式,理論上要窮舉所有可能的情況。在實(shí)際操作時(shí),我們可以采用動態(tài)規(guī)劃的方法遞歸地搜索最優(yōu)的剪枝方式,算法如下:
我們看到該算法在對節(jié)點(diǎn)N剪枝之前,首先要對其所有子節(jié)點(diǎn)調(diào)用該算法進(jìn)行剪枝。我們在實(shí)際操作時(shí),只需要把每個(gè)詞性的語義分類樹的根節(jié)點(diǎn)作為參數(shù)傳遞給該算法即可。實(shí)驗(yàn)與分析
實(shí)驗(yàn)是在規(guī)模較小的第一版賓州中文樹庫(CTB)上進(jìn)行的。CTB由325篇文章組成,根據(jù)以往研究的慣例,我們把前270篇文章作為訓(xùn)練集,后25篇文章作為調(diào)試集,其余的30篇文章作為測試集。訓(xùn)練集和測試集的特性如表5一1所示。實(shí)驗(yàn)的目標(biāo)是在小語料庫上利用語義類信息來提高句法分析器的性能。
我們設(shè)計(jì)了如下的3組實(shí)驗(yàn):)(1)基于詞匯的句法分析,作為其他方法的比較基準(zhǔn)。(2)基于固定層次語義類的句法分析。如前所述,每個(gè)詞匯都有五層語義類代碼,因此分別進(jìn)行了5個(gè)實(shí)驗(yàn)來驗(yàn)證語義信息的作用,即所有詞匯都分別采用第一層、第二層、第三層、第四層、第五層語義類代碼。(3)基于最優(yōu)層次語義類的句法分析,即應(yīng)用MDL原則為每一個(gè)詞匯自動確定采用哪一層語義類代碼。
基于第三層、第四層、第五層語義類代碼的句法分析的性能都超過了基于詞匯模型的方法,這在一定程度上說明了語義類在漢語句法分析模型中的重要作用。但是,基于第一層、第二層語義類的方法的性能不如基于詞匯的方法好。導(dǎo)致這一結(jié)果的原因是語義類的數(shù)目過小,例如,第一層語義類只有12種(即把近萬個(gè)詞語聚成12類),而這12個(gè)語義類不足以描述眾多詞語之間在句法語義功能上的細(xì)微區(qū)別,因此使句法分析模型的判別能力下降。
在第3組實(shí)驗(yàn)中,語義信息的作用得到了更加充分的發(fā)揮。與第二組實(shí)驗(yàn)相比,用MDL原則剪枝的方式取得的性能提升更為顯著。這是因?yàn)榈诙M的每個(gè)實(shí)驗(yàn)中所有的詞匯都是采用相同層次的語義類,這種不考慮訓(xùn)練數(shù)據(jù)的實(shí)際分布情況而僅僅根據(jù)語義詞典中的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 湖南軟件職業(yè)技術(shù)大學(xué)《軟件質(zhì)量控制與測試技術(shù)》2023-2024學(xué)年第二學(xué)期期末試卷
- 成都工業(yè)學(xué)院《云平臺系統(tǒng)》2023-2024學(xué)年第二學(xué)期期末試卷
- 平頂山職業(yè)技術(shù)學(xué)院《建設(shè)工程造價(jià)A》2023-2024學(xué)年第二學(xué)期期末試卷
- 重慶電子工程職業(yè)學(xué)院《城鄉(xiāng)規(guī)劃原理修詳設(shè)計(jì)》2023-2024學(xué)年第二學(xué)期期末試卷
- 江西應(yīng)用工程職業(yè)學(xué)院《書籍形態(tài)設(shè)計(jì)》2023-2024學(xué)年第二學(xué)期期末試卷
- 揚(yáng)州中瑞酒店職業(yè)學(xué)院《人工智能與大模型》2023-2024學(xué)年第二學(xué)期期末試卷
- 山東工藝美術(shù)學(xué)院《電腦立體設(shè)計(jì)》2023-2024學(xué)年第二學(xué)期期末試卷
- 青海高等職業(yè)技術(shù)學(xué)院《建筑施工組織及BIM應(yīng)用》2023-2024學(xué)年第二學(xué)期期末試卷
- 濟(jì)南幼兒師范高等專科學(xué)?!讹L(fēng)景園林設(shè)計(jì)實(shí)驗(yàn)古典園林景觀設(shè)計(jì)》2023-2024學(xué)年第二學(xué)期期末試卷
- 同濟(jì)大學(xué)浙江學(xué)院《安裝工程施工技術(shù)與造價(jià)審計(jì)》2023-2024學(xué)年第二學(xué)期期末試卷
- 父母委托子女保管存款協(xié)議書
- 產(chǎn)品設(shè)計(jì)與開發(fā)的系統(tǒng)工程方法
- 預(yù)防留置針脫落
- 痛風(fēng)護(hù)理疑難病例討論
- 韓國語入門教學(xué)資料
- 《大學(xué)生職業(yè)能力訓(xùn)練》
- 人民警察忠誠品質(zhì)
- 冠狀動脈搭橋手術(shù)后的健康生活促進(jìn)
- 《英國飲食文化》課件
- 《SolidWorks建模實(shí)例教程》第4章 綜合應(yīng)用實(shí)例
- JCT2110-2012 室內(nèi)空氣離子濃度測試方法
評論
0/150
提交評論