


下載本文檔
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、基于知網(wǎng)的漢語(yǔ)詞語(yǔ)詞義消歧方法 摘 要 本文提出了一種簡(jiǎn)單有效的詞義消歧方法,該模型充分利用依存文法分析,從句子的內(nèi)部結(jié)構(gòu),尋找詞語(yǔ)之間支配與被支配的關(guān)系,借以確定能夠?qū)υ~語(yǔ)語(yǔ)義構(gòu)成內(nèi)在限制的詞語(yǔ)。借助知網(wǎng)系統(tǒng)的實(shí)體關(guān)系,并結(jié)合與該岐義詞相關(guān)聯(lián)詞語(yǔ)的義項(xiàng),計(jì)算歧義詞的義項(xiàng)權(quán)重,從而根據(jù)義項(xiàng)權(quán)重大小來(lái)判斷歧義詞的詞義。 關(guān)鍵詞 詞義消歧;知網(wǎng);自然語(yǔ)言處理;依存句法分析 1 引言 &
2、#160; 自然語(yǔ)言中存在著大量的多義詞,如何在給定的上下文中,確定其中各個(gè)詞語(yǔ)在多個(gè)詞義中選取正確的詞義,是詞義消歧所應(yīng)解決的問(wèn)題。如果多義詞的多個(gè)詞義之間具有不同的詞性,則通過(guò)詞性標(biāo)注就可以確定該詞詞義。所以本文所說(shuō)的詞義消歧,是指如何在詞性相同的情況下選擇多義詞正確詞義的問(wèn)題。 漢語(yǔ)詞語(yǔ)的詞義消歧開(kāi)始于上世紀(jì)90年代后期,主要是利用詞典提供的信息。出現(xiàn)了利用現(xiàn)代漢語(yǔ)詞典釋義文本、同義詞詞林、知網(wǎng)中的語(yǔ)義類(lèi),對(duì)實(shí)詞多義進(jìn)行消歧的方法,但是平均正確率并不是很高12。 近年來(lái),隨計(jì)算機(jī)存儲(chǔ)容量和運(yùn)算速度的提
3、高,通過(guò)對(duì)大規(guī)模語(yǔ)料庫(kù)的利用,出現(xiàn)了許多基于語(yǔ)料庫(kù)統(tǒng)計(jì)的詞義消歧方法。使消歧的準(zhǔn)確率有了一定程度的提高,但是有些低頻詞,在語(yǔ)料中出現(xiàn)次數(shù)不多,很難搜集到它們的上下文環(huán)境,存在著知識(shí)獲取中數(shù)據(jù)稀疏以及自動(dòng)學(xué)習(xí)算法的參數(shù)空間過(guò)大問(wèn)題。 到目前,無(wú)論那種方法都沒(méi)有很好地解決詞義消歧問(wèn)題3。其中一個(gè)重要的原因就是詞義知識(shí)獲取中的瓶頸問(wèn)題,詞義消歧知識(shí)庫(kù)的質(zhì)量已成為詞義消歧成敗的關(guān)鍵。 本文提出了一種基于知網(wǎng)的漢語(yǔ)詞語(yǔ)詞義消歧方法,該方法只考慮詞匯句法之間的內(nèi)在關(guān)聯(lián)對(duì)特定環(huán)境中詞義的貢獻(xiàn),借助依存文法分析來(lái)找出這種詞義關(guān)聯(lián)。假設(shè)
4、不存在詞義關(guān)聯(lián)的上下文對(duì)于歧義詞語(yǔ)的特定詞義貢獻(xiàn)為0,存在語(yǔ)法關(guān)聯(lián)的上下文對(duì)詞義的貢獻(xiàn)相互獨(dú)立。選擇與歧義詞匯存在語(yǔ)法關(guān)聯(lián)的上下文作為模型中的特征值,這樣做既可以減少無(wú)關(guān)上下文對(duì)詞義消歧產(chǎn)生的噪音,又可以大幅度減少計(jì)算次數(shù),在提高詞義消歧準(zhǔn)確率的同時(shí),能夠明顯提高詞義消歧的工作效率。 2 語(yǔ)義資源知網(wǎng)簡(jiǎn)介 “知網(wǎng)”(Hownet)是董振東先生花費(fèi)十年時(shí)間編輯而成的語(yǔ)義詞典,也是一款供自然語(yǔ)言處理工作者免費(fèi)使用的完全共享軟件。知網(wǎng)是一個(gè)以漢語(yǔ)英語(yǔ)詞語(yǔ)所代表的概念為描述對(duì)象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫(kù)4。
5、 知網(wǎng)作為一個(gè)知識(shí)系統(tǒng),是一個(gè)網(wǎng)而不是樹(shù)。它所著力反映的是概念的共性和個(gè)性,同時(shí)知網(wǎng)還著力反映了概念之間和概念的屬性之間的各種關(guān)系。知網(wǎng)知識(shí)庫(kù)主要包括:中英雙語(yǔ)知識(shí)詞典;義原分類(lèi)源文件;知管理工具;知網(wǎng)說(shuō)明文件(包括詞類(lèi)表和標(biāo)識(shí)符號(hào)說(shuō)明) 等。本文采用的知網(wǎng)知識(shí)庫(kù)文件主要有經(jīng)過(guò)處理的和。 2.1 義原分類(lèi)源文件 在知網(wǎng)中,“概念”是對(duì)詞匯語(yǔ)義的一種描述。每一個(gè)詞可以表達(dá)為幾個(gè)概念,其中每個(gè)詞的每一個(gè)義項(xiàng)分別對(duì)應(yīng)于一個(gè)不同的概念。而“義原”是基本的、不易于再分割的、沒(méi)有歧義的最小單位。不同的義原組合構(gòu)成了不同的概念定義。
6、 知網(wǎng)一共采用了1500 多個(gè)義原,這些義原分為“Event|事件”等十多個(gè)大類(lèi)、16種關(guān)系。在義原關(guān)系中最重要的還是上下位關(guān)系。 2.2 中英雙語(yǔ)知識(shí)詞典 中英雙語(yǔ)知識(shí)詞典中一共收錄了12萬(wàn)多條記錄,而每一個(gè)詞語(yǔ)用一條或多條記錄來(lái)表示,每條記錄的詞典信息包括:NO.、W_C、G_C、E_C、W_E、G_E、E_E、DEF八項(xiàng),例如電腦”一詞的概念的記錄如下所示: NO.=21902 W_C=電腦 G_C=N
7、60; E_C= W_E=computer G_E=N E_E= DEF= computer|電腦 其中NO.為概念編號(hào),W_C、G_C、E_C分別是漢語(yǔ)的詞語(yǔ)、詞性和例子,W_E、G_E、E_E分別是對(duì)應(yīng)的英語(yǔ)詞語(yǔ)、詞性和例子,DEF是知網(wǎng)對(duì)于該概念的定義。 3 依存句法分析方法 依存句法是由法國(guó)語(yǔ)言學(xué)家L.Tesniere 在其著作結(jié)構(gòu)句法基礎(chǔ)(1959 年)中提出,對(duì)語(yǔ)言學(xué)的發(fā)展產(chǎn)生了深遠(yuǎn)的影響,特別是在計(jì)
8、算語(yǔ)言學(xué)界備受推崇。依存語(yǔ)法通過(guò)分析語(yǔ)言單位內(nèi)成分之間的依存關(guān)系揭示其句法結(jié)構(gòu),主張句子中動(dòng)詞是支配其他成分的中心成分,而它本身卻不受其他任何成分的支配,所有受支配成分都以某種依存關(guān)系從屬于支配者5。 二十世紀(jì)七十年代,Robinson 提出依存語(yǔ)法中關(guān)于依存關(guān)系的四條公理,在處理中文信息的研究中,中國(guó)學(xué)者提出了依存關(guān)系的第五條公理6: 1. 一個(gè)句子中只有一個(gè)成分是獨(dú)立的; 2. 其它成分直接依存于某一成分; 3. 任何一個(gè)成分都不能依存于兩個(gè)或兩個(gè)以上的成分; 4. 如果A 成分直接依存于B 成分,而C 成分在句中位于A 和B 之間,那么C 或者直接依存于B,或者直接依存處于A 和B 之間的某一成分。 5. 中心成分左右兩邊的其它成分相互不發(fā)生關(guān)系。 對(duì)于第5條公理本方法中并沒(méi)有采納,因?yàn)楫?dāng)某一個(gè)歧義詞語(yǔ)恰好出現(xiàn)在中心動(dòng)詞的一側(cè)時(shí),會(huì)割斷與另一側(cè)詞語(yǔ)關(guān)聯(lián)關(guān)系,從而影響歧義消除的效果。 4 基于知網(wǎng)的語(yǔ)義消歧過(guò)程4.1 語(yǔ)義消歧的體系結(jié)構(gòu) 詞義消歧的處理需要完成兩個(gè)步驟
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 地方新聞稿件供應(yīng)與地方特色推廣合同
- 新教師法考試試題及答案
- 婚姻關(guān)系破裂后探視權(quán)變更與時(shí)間調(diào)整協(xié)議
- 電力變壓器質(zhì)保期及維護(hù)保養(yǎng)補(bǔ)充協(xié)議
- 全方位寵物醫(yī)院連鎖經(jīng)營(yíng)管理委托合同
- 展覽宣傳物料制作及分發(fā)補(bǔ)充協(xié)議
- 商用房產(chǎn)租賃質(zhì)保補(bǔ)充協(xié)議
- 未成年人監(jiān)護(hù)責(zé)任與職業(yè)規(guī)劃合同
- 新能源充電樁EPC總承包項(xiàng)目合規(guī)性審查及服務(wù)協(xié)議
- 食品冷鏈理貨員勞動(dòng)合同
- 高等數(shù)學(xué)(下)練習(xí)題庫(kù)
- 演出經(jīng)紀(jì)人考試題庫(kù)1000道含答案(達(dá)標(biāo)題)
- 中海物業(yè)新員工入職培訓(xùn)
- 2023年江蘇省常州市中考一模歷史試卷(含答案解析)
- 2024年西安亮麗電力集團(tuán)有限責(zé)任公司招聘筆試參考題庫(kù)附帶答案詳解
- 掛名法定負(fù)責(zé)人免責(zé)協(xié)議
- 谷紅注射液-臨床藥品應(yīng)用解讀
- 2024年首都機(jī)場(chǎng)集團(tuán)資產(chǎn)管理有限公司招聘筆試參考題庫(kù)含答案解析
- 2024年山東濟(jì)南先行投資有限責(zé)任公司招聘筆試參考題庫(kù)含答案解析
- 新生兒持續(xù)肺動(dòng)脈高壓的護(hù)理課件
- 酒廠擴(kuò)建可行性報(bào)告
評(píng)論
0/150
提交評(píng)論