【畢業(yè)學(xué)位論文】介詞、連詞用法在短語結(jié)構(gòu)句法分析中的應(yīng)用研究-信息工程_第1頁
【畢業(yè)學(xué)位論文】介詞、連詞用法在短語結(jié)構(gòu)句法分析中的應(yīng)用研究-信息工程_第2頁
【畢業(yè)學(xué)位論文】介詞、連詞用法在短語結(jié)構(gòu)句法分析中的應(yīng)用研究-信息工程_第3頁
【畢業(yè)學(xué)位論文】介詞、連詞用法在短語結(jié)構(gòu)句法分析中的應(yīng)用研究-信息工程_第4頁
【畢業(yè)學(xué)位論文】介詞、連詞用法在短語結(jié)構(gòu)句法分析中的應(yīng)用研究-信息工程_第5頁
已閱讀5頁,還剩59頁未讀, 繼續(xù)免費(fèi)閱讀

【畢業(yè)學(xué)位論文】介詞、連詞用法在短語結(jié)構(gòu)句法分析中的應(yīng)用研究-信息工程.pdf 免費(fèi)下載

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

學(xué) 校 代 碼 10459 學(xué)號或申請?zhí)?201012171911 密 級 碩 士 學(xué) 位 論 文 介詞、連詞用法在短語結(jié)構(gòu)句法分析中的 應(yīng)用研究 作 者 姓 名:龐熠雅 導(dǎo) 師 姓 名:穆玲玲 副教授 學(xué) 科 門 類:工 學(xué) 專 業(yè) 名 稱:計(jì)算機(jī)應(yīng)用技術(shù) 培 養(yǎng) 院 系:信息工程學(xué)院 完 成 時(shí) 間: 2013年 5 月 A on y u 013 摘要 I 摘 要 中文句法分析是自然語言處理領(lǐng)域中的一個(gè)重要課題。針對漢語本身的特點(diǎn),本文將介詞用法融入到句法分析結(jié)果中,使用介詞用法屬性對 行后處理。首先,為了得到較高的介詞用法自動(dòng)識別結(jié)果,本文在已有的基于規(guī)則的介詞用法自動(dòng)標(biāo)注方法的基礎(chǔ)上,提出了基于統(tǒng)計(jì)的介詞用法的自動(dòng)標(biāo)注方法,分別采用條件隨機(jī)場、最大熵和支持向量機(jī)三種統(tǒng)計(jì)模型,以 2000 年 2 月、 3 月、 4 月人民日報(bào)分詞與詞性標(biāo)注語料為實(shí)驗(yàn)語料,對常用介詞進(jìn)行了自動(dòng)標(biāo)注實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明基于統(tǒng)計(jì)的介詞用法自動(dòng)標(biāo)注總體上優(yōu)于基于 規(guī)則的介詞用法自動(dòng)標(biāo)注結(jié)果。其次,本文在 用由介詞用法屬性特征得到的邊界識別結(jié)果,對已有句法分析結(jié)果進(jìn)行一定的修改,從而提高中文句法分析的準(zhǔn)確率。實(shí)驗(yàn)表明,融入用法屬性特征的句法分析結(jié)果比之前結(jié)果有了一定的提高。最后,為了驗(yàn)證基于介詞用法的句法分析后處理方法的適用性,本文將此方法進(jìn)一步運(yùn)用到了連詞中,且得到了較好的實(shí)驗(yàn)效果。 本文主要的工作包括: (1)根據(jù)“三位一體”廣義虛詞知識庫,在對基于規(guī)則的介詞用法自動(dòng)標(biāo)注結(jié)果進(jìn)行人工校對所得到的正確語料的基礎(chǔ)上,實(shí)現(xiàn) 了基于統(tǒng)計(jì)的介詞用法自動(dòng)標(biāo)注。 (2)在介詞用法自動(dòng)識別、基于用法的介詞短語邊界識別、 現(xiàn)了介詞用法在短語結(jié)構(gòu)句法分析中的應(yīng)用研究。 (3)根據(jù)介詞用法在短語結(jié)構(gòu)句法分析中的應(yīng)用研究,在連詞用法自動(dòng)識別、基于用法的連詞短語邊界識別的基礎(chǔ)上,實(shí)現(xiàn)了連詞用法在短語結(jié)構(gòu)句法分析中的應(yīng)用研究。 最后,對本文的研究內(nèi)容進(jìn)行了總結(jié),并根據(jù)研究結(jié)果對下一步工作做了展望,指出了下一步的研究方向。 關(guān)鍵詞 : 自然語言處理 短語結(jié)構(gòu)句法分析 介詞用法自動(dòng)識別 介詞短語邊界識別 連詞短語邊界識別I is an in of at of s to of of of in to a of on of of an of on ME to on s ,4). of on is of of on of of of of to to in to of is on a of (1) to of of on of of on of on (2) On of of on on (3) to on II on of of on on in of to 目錄 錄 摘 要 . I . 錄 . 表目錄 . 引言 . 1 究意義 . 1 究背景 . 4 法分析研究現(xiàn)狀 . 5 外研究現(xiàn)狀 . 5 內(nèi)研究現(xiàn)狀 . 6 究內(nèi)容 . 6 文組織框架 . 7 2 介詞用法自動(dòng)識別 . 8 代漢語介詞用法知識庫 . 8 詞用法詞典 . 8 詞用法規(guī)則庫 . 9 詞用法語料庫 . 10 于規(guī)則的介詞用法自動(dòng)識別 . 11 于規(guī)則的介詞用法自動(dòng)識別方法 . 實(shí)驗(yàn)評價(jià)方法 . 12 驗(yàn)結(jié)果與分析 . 12 目錄 V 于統(tǒng)計(jì)的介詞用法自動(dòng)識別 . 14 計(jì)模型介紹 . 14 征抽取 . 16 實(shí)驗(yàn)結(jié)果與分析 . 18 章小結(jié) . 20 3 介詞用法在短語結(jié)構(gòu)句法分析中的應(yīng)用 . 21 詞短語邊界識別 . 21 于規(guī)則的介詞短語邊界識別 . 21 于統(tǒng)計(jì)的介詞短語邊界識別 . 23 詞用法在短語結(jié)構(gòu)句法分析中的應(yīng)用 . 25 法描述 . 25 得邊界識別標(biāo)準(zhǔn)庫 . 27 處理方法 . 27 驗(yàn)結(jié)果及分析 . 31 驗(yàn)語料 . 31 驗(yàn)評價(jià)指標(biāo) . 32 驗(yàn)結(jié)果 . 32 章小結(jié) . 35 4 連詞用法在短語結(jié)構(gòu)句法分析中的應(yīng)用 . 37 詞短語邊界識別 . 37 于規(guī)則的連詞短語邊界識別 . 37 于統(tǒng)計(jì)的連詞短語邊界識別 . 39 詞用法在短語結(jié)構(gòu)句法分析中的應(yīng)用研究 . 41 法描述 . 41 得邊界識別標(biāo)準(zhǔn)庫 . 42 處理方法 . 43 驗(yàn)結(jié)果及分析 . 46 目錄 章小結(jié) . 47 5 結(jié)論與展望 . 48 論 . 48 望 . 49 參考文獻(xiàn) . 50 個(gè)人簡歷 在學(xué)期間發(fā)表的學(xué)術(shù)論文及研究成果 . 53 個(gè)人簡歷 . 53 在學(xué)期間發(fā)表的學(xué)術(shù)論文 . 53 致謝 . 54 圖表目錄 表目錄 圖目錄 圖 句 1、 2 句法樹 . 1 圖 句 3、 4 句法樹 . 2 圖 句 5、 6 句法樹 . 3 圖 代漢語介詞用法知識庫 . 8 圖 詞用法詞典部分樣例 . 8 圖 詞用法自動(dòng)識別標(biāo)注系統(tǒng)流程圖 . 11 圖 類線性劃分的最優(yōu)超平面 . 16 圖 不同上下文窗口中三種模型的識別效果 . 19 圖 于統(tǒng)計(jì)的介詞短語邊界識別處理過程 . 23 圖 3. 2 例句 1 在 法分析器中的結(jié)果 . 26 圖 法分析后處理操作 過程 . 26 圖 句 出的句法樹 . 28 圖 句 確的句法樹 . 29 圖 改句法分析結(jié)果流程圖 . 30 圖 n 個(gè)介詞短語后處理的算法描述 . 31 圖 于統(tǒng)計(jì)的連詞短語邊界識別過程 . 40 圖 句 的結(jié)果 . 41 圖 法分析后處理的操作 過程 . 42 圖 于連詞用法的句法分析后 處理流程圖 . 45 圖 第 n 個(gè)連詞結(jié)果后處理的算法描述 . 45 表目錄 表 于規(guī)則的常用介詞用法自動(dòng)識別結(jié)果分析 . 13 表 詞“把”的訓(xùn)練數(shù)據(jù)示例 . 17 表 于統(tǒng)計(jì)的常用介詞用法自動(dòng)識別結(jié)果 . 20 表 句 應(yīng)的訓(xùn)練數(shù)據(jù)樣例 . 24 表 處理之后各結(jié)果對比 . 33 表 同結(jié)構(gòu)數(shù)對比 . 34 表 性標(biāo)注正確時(shí)各分析結(jié)果對比 . 34 表 用介詞實(shí)驗(yàn)結(jié)果 . 35 圖表目錄 詞“和”用法詞表中的部分屬性說明 . 38 表 句 特 征表示 . 41 表 4. 3 后處理 之后的各分析結(jié)果對比 . 46 表 性標(biāo)注正確時(shí)各分析結(jié)果對比 . 47 1 引言 1 1 引言 究意義 根據(jù)不同的處理深度,計(jì)算語言學(xué)中的語言技術(shù)可以分為淺層分析 、深層分析兩種 1。淺層分析主要是對詞匯級別的處理,一般只分析句子中的一部分,這種技術(shù)目前已基本成熟,如分詞、詞性標(biāo)注等。深層分析是指對語言進(jìn)行語法級別、語義級別甚至語用級別的處理,如句法分析等,這些分析技術(shù)的分析結(jié)果需要對句子進(jìn)行整體的分析才能得到。而在深層分析技術(shù)中,句法分析一直處于十分關(guān)鍵的位置。 句法分析是根據(jù)一個(gè)給定的語法體系 ,自動(dòng)的推導(dǎo)出句子的語法結(jié)構(gòu) , 分析出句子所包含的語法單元及這些語法單元之間的關(guān)系 , 最終將句子轉(zhuǎn)化為一棵結(jié)構(gòu)化的語法樹 2。漢語句子由實(shí)詞和虛詞組成,而虛詞 包括介詞、連 詞、副詞、助詞、方位詞和語氣詞, 對句子的句法意義作用很大。一個(gè)漢語句子中,在相同的位置選擇不同的虛詞,對句子的意義就可能會(huì)有很大的影響,句法樹也會(huì)有很大不同。如下面的句子: (1)小強(qiáng)和小明去工作。 (2)小強(qiáng)為了小明去工作。 句子 (1)中“和”為連詞,表示并列關(guān)系, (2)中“為了”為介詞,表示動(dòng)作行為的目的。 (1)表示小強(qiáng)和小明一起去工作,而 (2)表示因?yàn)樾∶鞯脑?,小?qiáng)去工作。兩個(gè)句子的句法樹如圖 示。 C V 小 明 工 作P P (a) (b) 圖 句 1、 2 句法樹 1 引言 2 圖 1.1(a)為例句 (1)的句法樹,由句法樹可知,此句中“小強(qiáng)和小明”為主語,“小強(qiáng)”和“小明”為并列關(guān)系;圖 1.1(b)為例句 (2)的句法樹,此句中“小強(qiáng)”為主語,“為了小明”為介詞短語 ,做狀語 。 虛詞用法的變化多種多樣,同一個(gè)虛詞,在不同的句子里,句法樹也可以不同。如下例句: (3)按月準(zhǔn)備。 (4)按明天一早出發(fā)準(zhǔn)備。 兩個(gè)句子中“按”都為介詞,表示 遵從某種標(biāo)準(zhǔn)。而 (3)中的介詞短語為“按月”,“按”后名詞“月”作賓語; (4)中介詞短語為“按明天一早出發(fā)”,“按”后小句“明天一早出發(fā)”作賓語。兩個(gè)句子的句法樹如圖 示。 月a) (b) 圖 句 3、 4 句法樹 圖 1.2(a)、 1.2(b)分別為例句 (3)、 (4)的句法樹,兩個(gè)句子 都是由介詞短語和謂語組成,而圖 1.2(a)中名詞作介詞“按”的賓語,圖 1.2(b)中小句做介詞“按”的賓語,句法結(jié)果就發(fā)生了很大變化。 由上面例子可知,虛詞對漢語句法分析的研究是至關(guān)重要的,而現(xiàn)有的句法分析研究中涉及到虛詞的部分通常都僅依賴于虛詞本身,并沒有考慮到虛詞用法在句法分析中的作用。如例句 (3)和 (4)中,介詞“按”分別介引名詞和小句,而如果依靠介詞“按”的這兩種用法,對例句的句法分析也會(huì)變得容易。也就是說,如果在句法分析研究中引進(jìn)虛詞的用法,則會(huì)有助于對句法分析的研究。例如下面的例句: 1 引言 3 (5)在民 國時(shí)期的上海生活。 (6)北京、上海和重慶都是直轄市。 例句 (5)中“在”為介詞,與“民國時(shí)期的上?!苯M成介詞短語;例句 (6)中“和”為連詞,“北京”、“上海”、“重慶”為并列關(guān)系。 圖 通過 沒有使用虛詞用法的 5)、 (6)進(jìn)行句法分析所得到的句法樹。 生 活在 時(shí) 期a) (b) 圖 句 5、 6 句法樹 由圖 1.3(a)可看出此句的句法分析結(jié)果中,“在民國時(shí)期”為例句 (5)的介詞短語,即賓語指動(dòng)作發(fā)生的時(shí)間,而經(jīng)分析,此句中的介詞短語為“在民國時(shí)期的上?!?,即賓語指動(dòng)作發(fā)生或事物存在的處所。在對此句進(jìn)行句法分析時(shí),如果首先考慮到此處介詞“在”的用法,即首先通過介詞“在”用法確定介詞所引導(dǎo)的賓語是表示處所的,就可以識別出正確的介詞短語。圖 1.3(b)中,“上?!焙汀爸貞c”為并列結(jié)構(gòu),即兩個(gè)詞組成并列結(jié)構(gòu),而經(jīng)分析,此句的并列結(jié)構(gòu)中有“北京”、“ 上海”、“重慶”,即三個(gè)或三個(gè)以上的詞組成并列結(jié)構(gòu)。同樣,在對此句進(jìn)行句法分析時(shí),如果首先考慮到連詞“和”的用法,即首先通過連詞“和”的用法確定組成并列結(jié)構(gòu)詞語的個(gè)數(shù),就可以得到正確的句法樹。 由此可見,在句法分析的研究中,不僅要考慮虛詞本身的詞性,還要考慮虛詞的不同用法,從而提高句法分析的正確率。 介詞和連詞都是漢語虛詞中重要的種類,且在文本中出現(xiàn)頻率頗高。同時(shí) ,介詞句法位置多種多樣,句法意義難以掌握,在意義、來源、用法、作用、分布等方面具有相當(dāng)大的復(fù)雜性,在漢語句法分析中有獨(dú)特的研究價(jià)值。連詞是1 ,在上下文中起到連接段落、句子、分句、詞語的作用,能夠表達(dá)出縝密的邏輯語義關(guān)系,在漢語句法分析中具有不可忽視的地位。 介詞、連詞用法在短語結(jié)構(gòu)句法分析中的應(yīng)用研究有非常重要的理論和應(yīng)用價(jià)值,此研究將會(huì)很大程度的推進(jìn)句法分析的發(fā)展,有利于信息抽取、機(jī)器翻譯等自然語言處理的相關(guān)領(lǐng)域的研究發(fā)展。 究背景 鄭州大學(xué)自然語言處理實(shí)驗(yàn)室于 2006 年起開始承擔(dān)“現(xiàn)代漢語廣義虛詞知識庫”課題,此課題是北京大學(xué)計(jì)算語言學(xué)研究所承擔(dān)的國家 973 課題“文本理解的數(shù)據(jù)基礎(chǔ)項(xiàng)目”( 2004的子課題,鄭州大學(xué)從事有關(guān)現(xiàn)代漢語廣義虛詞知識庫建設(shè)的研究工作,課題已經(jīng)于 2012 年 11 月 通過河南省科學(xué)技術(shù)廳項(xiàng)目鑒定 ,完成了廣義虛詞知識庫總體構(gòu)建以及有關(guān)副詞、介詞、連詞、助詞、語氣詞、方位詞等詞類的用法知識庫構(gòu)建。本文所研究的第一部分,即現(xiàn)代漢語介詞用法自動(dòng)識別就是該項(xiàng)工作的一部分,同時(shí)也是國家自然科學(xué)基金項(xiàng)目“規(guī)則與統(tǒng)計(jì)相結(jié)合的現(xiàn)代漢語虛詞用法自動(dòng)識別研究”( 60970083)的重要組成部分,并且還受模式識別國家重點(diǎn)實(shí)驗(yàn)室開放課題基金 和河南省科技創(chuàng)新人才杰出青年基金項(xiàng)目( 104100510026) 資助 。 目前國內(nèi)外在語言知識庫方面的研究主要是針對實(shí)詞,對虛詞的研究相對較少。因此,俞士汶 3在原有語言資源的基礎(chǔ)之上提出了“三位一體”的思路,來實(shí)現(xiàn)現(xiàn)代漢語廣義虛詞知識庫的構(gòu)建。劉云 4為各類虛詞設(shè)計(jì)了相應(yīng)的屬性描述,對常用虛詞進(jìn)行歸類總結(jié),從而構(gòu)建了現(xiàn)代漢語虛詞詞典基本框架。昝紅英等 5完成了現(xiàn)代漢語廣義虛詞知識庫的構(gòu)建,包括現(xiàn)代漢語虛詞用法詞典、現(xiàn)代漢語虛詞用法規(guī)則庫和現(xiàn)代漢語虛詞語料庫。劉銳等 6初步研究了基于規(guī)則的副詞用法自動(dòng)識別。 昝紅英 等 7探討了基于統(tǒng)計(jì)的副詞用法自動(dòng)識別。在對虛詞用法研 究的基礎(chǔ)上,袁應(yīng)成等 8對現(xiàn)代漢語介詞短語邊界識別進(jìn)行了研究。周麗娟等 9對現(xiàn)代漢語連詞結(jié)構(gòu)短語自動(dòng)識別進(jìn)行了研究。 本文在以上研究的基礎(chǔ)上,完善了現(xiàn)代漢語介詞用法詞典和現(xiàn)代漢語介詞用法規(guī)則庫,并對基于統(tǒng)計(jì)的現(xiàn)代漢語介詞用法自動(dòng)識別進(jìn)行了研究 10,是現(xiàn)代漢語虛詞知識庫的重要組成部分。并且在介詞用法知識庫及介詞短語邊界識別的基礎(chǔ)上,初步探討了介詞用法在短語結(jié)構(gòu)句法分析中的應(yīng)用,并進(jìn)一步將其1 引言 5 運(yùn)用到連詞用法在短語結(jié)構(gòu)句法分析中的應(yīng)用研究中,證明了其適用性。 法分析研究現(xiàn)狀 外研究現(xiàn) 狀 二十世紀(jì) 90 年代,自然語言處理開始從原來的小規(guī)模處理轉(zhuǎn)變?yōu)榇笠?guī)模真實(shí)文本的處理上。此后,句法分析的研究也發(fā)生了根本的變化,即由傳統(tǒng)的基于理論的自然語言處理方法轉(zhuǎn)換為基于語料庫的統(tǒng)計(jì)方法。 目前,形式最簡單、研究最充分的統(tǒng)計(jì)句法分析模型為概率上下文無關(guān)文法模型 (11。 2( 1990)最先使用了 法,從未標(biāo) 注的語 料庫 中自動(dòng) 的估計(jì) 各種參 數(shù), 通過迭 代執(zhí)行法,拋棄了大量的無用規(guī)則,而由剩余的規(guī)則組成了最終的文 法,實(shí)驗(yàn)表明該算法使句法分析的運(yùn)行效率有了很大的改善。 3( 1996)提出了一種基于詞間依賴的、統(tǒng)計(jì)的句法分析模型,使用標(biāo)準(zhǔn)的二元概率估計(jì)方法來技術(shù)詞語詞之間的依賴概率。在這種方法的基礎(chǔ)上, 4( 1997)提出了一個(gè)產(chǎn)生式句法分析模型,此模型是目前影響最廣泛的英文句法分析模型之一。 5( 2000)采用了最大熵模型,使用了更多的特征,并且首先核心節(jié)點(diǎn)的詞性進(jìn)行預(yù)測。該方法借鑒了最大熵模型的可以方便地 融合 各種特征的優(yōu)點(diǎn),使各種特征能夠均勻分布,確保了語 料庫中特征的充分利用,加快了句法分析的速度。 6( 2000)提出了重排序的方法,使用兩個(gè)模型來進(jìn)行句法處理,首先使用第一個(gè)模型對待分析句子進(jìn)行處理,生成最可能的 法分析樹,再使用第二個(gè)模型對 法分析樹進(jìn)行重排序,從中選擇出一棵最優(yōu)的句法樹來作為最終分析結(jié)果。 7( 2005)提出了在重排序和產(chǎn)生式模型上改進(jìn)的句法分析方法。在該方法中,首先輸入長度小于 100 的句子,使用一個(gè)由粗到細(xì)的產(chǎn)生式模型,產(chǎn)生 50選句法樹,最后使 用一個(gè)基于最大熵模型的判別式重排序方法從候選句法樹中選擇出最優(yōu)的句法分析樹。 8( 2010)提出了將 句法分析器分析出的 法樹合并的方法,使用重排序器來選擇合并的句法分析樹的特征,1 引言 6 該實(shí)驗(yàn)證明了使用重排序器合并句法分析的有效性。 內(nèi)研究現(xiàn)狀 在 90 年代之前,因?yàn)闆]有足夠規(guī)模的統(tǒng)一的中文樹庫,中文句法分析的研究發(fā)展較為緩慢。而隨著賓州中文樹庫( 發(fā)布,中文句法分析取得了較快發(fā)展。目前,中文句法分析已經(jīng)成為了中文信息處理研 究領(lǐng)域的一個(gè)熱點(diǎn)問題,國內(nèi)外很多學(xué)者也對中文句法分析進(jìn)行了不斷的研究。 清華大學(xué)的 9( 1997)設(shè)計(jì)了基于統(tǒng)計(jì)的漢語句法分析器,通過預(yù)計(jì)句法分析樹的構(gòu)成,匹配左右括號,產(chǎn)生了相應(yīng)的句法分析樹,最后再使用消歧的方法,生發(fā)最優(yōu)的句法分析樹。 202002 年提出了一種結(jié)合了 法的漢語句法分析器,該方法定義了新的 法,并且使用了規(guī)則和統(tǒng)計(jì)相結(jié)合的方法。 曹海龍 212006 年提出了在 的中心驅(qū)動(dòng)模型結(jié)果,之后 又 提出了一種兩級句法分析方法,該方法首先 使用一個(gè)快速且有效的模型來識別較為簡單的基本短語,然后在擴(kuò)展中心驅(qū)動(dòng)模式,來識別句子中包含有較多的遞歸結(jié)構(gòu)的復(fù)雜短語。 222006 年使用移近規(guī)約決策模型對賓州樹庫進(jìn)行了句法分析實(shí)驗(yàn),比較了 策樹等統(tǒng)計(jì)模型,并且利用了中文的韻律特征,提高了句法分析的 準(zhǔn)確率和解碼速度。 23提出了一種新的生成句法分析樹的方法,該方法采用多個(gè)句法分析器生成的 法分析樹,將其重新合并生財(cái)了新的句法分析樹。 徐文 智和王小捷 242009年提出了一個(gè)新的基于詞匯化的 方法有效的利用了漢語中的字信息,相對緩解了詞匯化 型的數(shù)據(jù)稀疏的問題。 究內(nèi)容 本文根據(jù)已有的現(xiàn)代漢語虛詞知識庫,首先對介詞用法自動(dòng)識別進(jìn)行了研究,其次利用介詞用法自動(dòng)識別及介詞短語邊界識別方法對短語結(jié)構(gòu)句法分析進(jìn)行了初步研究,最后利用介詞用法在短語結(jié)構(gòu)句法分析中的應(yīng)用的成功思路,1 引言 7 將其應(yīng)用在連詞用法在短語結(jié)構(gòu)句法分析中的相關(guān)研究上。 本文所包含的主要工作: (1)在基于規(guī)則的現(xiàn)代漢語介詞用法自動(dòng)識別的基礎(chǔ)上 ,人工校對 2000 年 2月、 3 月、 4 月人民日報(bào)分詞與詞性標(biāo)注語料庫 中的介詞用法 ,在此正確語料的基礎(chǔ)上,實(shí)現(xiàn)基于統(tǒng)計(jì)的介詞用法自動(dòng)識別,并進(jìn)一步完善介詞用法詞典和用法規(guī)則。 (2)在基于規(guī)則和基于統(tǒng)計(jì)的介詞邊界識別及 基礎(chǔ)上,對句法分析結(jié)果進(jìn)行基于介詞用法屬性的后處理,從而提高句法分析的正確率。 (3)在介詞用法屬性在短語結(jié)構(gòu)句法分析中的應(yīng)用研究的思路的基礎(chǔ)上,將其運(yùn)用于連詞用法在短語結(jié)構(gòu)句法分析中的應(yīng)用研究,驗(yàn)證本文所提出方法在虛詞中的適用性。且因?yàn)檫B詞用法與介詞用法特征有 所不同,在使用的過程中對原有方法進(jìn)行調(diào)整,得到連詞用法在短語結(jié)構(gòu)句法分析中的應(yīng)用研究方法。 文組織框架 根據(jù)本文的研究工作,本文主要將其分為五章來闡述。各章具體安排如下: 第一章,引言。主要概述了本文的研究意義、研究背景、句法分析研究現(xiàn)狀及本文主要研究的工作以及組織框架。 第二章,介詞用法自動(dòng)識別。首先介紹了基于規(guī)則的介詞用法自動(dòng)識別,其次講述了 種統(tǒng)計(jì)模型的特征選取及基于三種統(tǒng)計(jì)模型的介詞用法自動(dòng)識別方法,分別給出了四種識別方法的實(shí)驗(yàn)結(jié)果,并對其進(jìn)行分析。 第三章,介詞用法在 短語結(jié)構(gòu)句法分析中的應(yīng)用。首先介紹了基于介詞用法的介詞短語邊界識別方法,且在此方法的基礎(chǔ)上,通過獲取邊界識別標(biāo)準(zhǔn)庫與后處理兩部分詳細(xì)講述了介詞用法在短語結(jié)構(gòu)句法分析中的應(yīng)用研究方法。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論