中文分詞技術畢業(yè)論文開題報告_第1頁
中文分詞技術畢業(yè)論文開題報告_第2頁
中文分詞技術畢業(yè)論文開題報告_第3頁
中文分詞技術畢業(yè)論文開題報告_第4頁
中文分詞技術畢業(yè)論文開題報告_第5頁
已閱讀5頁,還剩4頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、華中科技大學本科生畢業(yè)設計(論文)開題報告第 頁共9頁1課題概述隨著網(wǎng)絡的高速發(fā)展,社會的信息化水平不斷提高,人們越來越習慣,也越 來越依賴從互聯(lián)網(wǎng)中獲取信息。面對當前信息呈現(xiàn)的爆炸性增長趨勢, 我們迫切 地需要優(yōu)質、準確、快捷、簡單、合理的手段對海量信息進行檢索,從中獲取有 效的數(shù)據(jù)。作為海量信息檢索中最首要的預處理手段,分詞技術應運而生。在自然語言處理中,詞是最小的能夠獨立活動的有意義的語言成分。而分詞技術指的是將文本拆分成詞的一種技術。它屬于自然語言處理技術的范疇,是文 本分類、數(shù)據(jù)檢索、信息抽取、機器翻譯、自動摘要、文本語音輸入輸出等研究 領域的基礎所在。至于中文分詞(Chinese

2、Word Segmentation,則是將中文文本中的漢字序列 合理切分成一個個單獨的詞,并對其進行分析處理,然后將文本中的字序列按照 一定的規(guī)則重新組合成詞序列的過程。眾所周知,中文與作為拉丁語系語言代表的英文相比, 有著明顯的區(qū)別。英 文以空格作為天然的分隔符,詞與詞之間的區(qū)分很明顯,并不需要特殊的分詞技 術。而中文由于繼承了古代漢語的傳統(tǒng), 以字作為基本的書寫單位,詞都處于具 體的語句之中,所以并不存在天然的界限。因此,僅僅通過句子或段落間的分隔 標志進行切分是不可行的。同時,由于中文語義的復雜性與語法的多變性, 大多 數(shù)英文分詞技術不能直接適用于中文分詞。盡管如此,中文分詞技術依然是中

3、文信息處理的基礎與關鍵所在。作為自然 語言處理與信息檢索領域的研究熱點,中文分詞技術不斷地發(fā)展,并被廣泛應用 于信息檢索、搜索引擎、機器翻譯、中文校對、文本語音輸入輸出等方面。而近 年來對中文分詞技術的需求與要求的不斷提高, 也在一定程度上刺激了中文分詞 技術的發(fā)展。目前,中文分詞技術正在逐漸邁向成熟。 但是在其關鍵技術上,依然有改進 的空間。本課題的目的即在于,在前人的研究基礎上,通過對中文數(shù)據(jù)檢索中的 分詞檢索機制進行研究,以期初步實現(xiàn)一種可行的中文分詞技術, 使之具備一定 的實用意義與理論價值。2國內外發(fā)展現(xiàn)狀自20世紀80年代初至今,中文分詞技術的概念被提出以來,中文信息處理 領域有了

4、長足的進步與發(fā)展。其發(fā)展歷程大致如下:1983年,梁南元等人將最大匹配法一 MM 方法(The Maximum Matching Method)與逆向的最大匹配法一 RMM 方法(The Reverse Maximum Matching Method)兩種分詞方法應用于中文分詞系統(tǒng) CDWS (The Modern Printed Chinese Distinguishing Word System,現(xiàn)代書面漢語自動分詞系統(tǒng))中。1989年,揭春雨、梁南元等人在考查中文信息處理領域中已有的幾種中文 分詞方法后,提出自動分詞方法的結構模型正向增大最大匹配法ASM,并對幾種中文分詞方法的時間復雜度

5、及其對分詞速度、分詞精度的影響進行分析,同時指出在中文分詞中設立“切分標志”并無意義。隨后于 1991年設計并實現(xiàn)了中 文分詞系統(tǒng)CASS (Chinese Automatic Segmenting System漢語自動分詞實用系 統(tǒng))。1991年,何克抗等人通過對歧義切分字段產生的根源和性質進行深入分析, 把歧義字段從性質上分為四類,并給出了消除每一類歧義切分字段的有效方法。 在對歧義字段進行統(tǒng)計分析的基礎上提出了切分精度的“四級指標體系”,并論證了專家系統(tǒng)方法是實現(xiàn)自動分詞系統(tǒng)的最佳方案。1994年,孫茂松等人就中文分詞中特有的中文姓名自動辨識作了深入的研 究,提出了一種中文文本中自動辨識

6、中文姓名的算法。通過從新華通訊社新聞語料庫中隨機抽取的300個包含中文姓名的句子作為測試樣本, 結果表明,召回率 達到了 99.77%。1996年,吳勝遠對當時現(xiàn)有的漢語分詞方法作了概述后,提出了一種新的 漢語分詞方法一一單掃描分詞方法,并對單掃描漢語分詞方法的時間復雜度作了 分析。分析表明,單掃描分詞方法的時間復雜度為 2.89,比當時現(xiàn)有的分詞方法 的時間復雜度12.32小得多。單掃描分詞方法無論在理論,還是在實踐上都有重 大意義。隨后,又根據(jù)多級內碼理論,成功設計出了一種并行分詞方法,大大提 高了分詞速度。同時,這種并行分詞方法也便于設計成集成電路。1998年,尹峰等人將人工神經網(wǎng)絡技術

7、應用于漢語自動分詞的隱射模型和 性能,著重分析網(wǎng)絡結構和學習算法對歧義詞切分的影響,在大量仿真實驗的基礎上,設計并實現(xiàn)了基于神經網(wǎng)絡的漢語自動分詞系統(tǒng)。華中科技大學本科生畢業(yè)設計(論文)開題報告第 頁共9頁1999年,黃德根等人提出基于一種最長次長匹配原則的漢語自動分詞算法, 具有較好的分詞效果。隨后于 2010年,在最長次長匹配分詞的基礎上,提出一 種一體化同步詞法分析機制,實現(xiàn)了分詞和詞性標注的一體化、未登錄詞識別與 分詞的一體化以及不確定詞性未登錄詞處理的一體化。2000年,陳桂林等人在介紹了一種高效的支持首字Hash和標準二分查找,且不顯詞條長度的中文電子詞表數(shù)據(jù)后,提出了一種改進的快

8、速分詞算法。在快速查找二字詞的基礎上,利用近鄰匹配方法來查找多字詞,明顯提高了分詞效率。 分析表明,該分詞算法的時間復雜度為1.66,在速度方面,由于當時所見的同類 算法。2002年,李振星等人在對中文編碼體系和中文分詞的算法進行研究的基礎 上,提出了一種新的分詞詞典,并基礎這種分詞設計了一種快速的分詞算法一一 全二分最大匹配快速分詞算法。2003年,首屆國際中文分詞評測 Bakeoff (國內863、973分詞測評)在日 本札幌舉辦,基于字標注的統(tǒng)計學方法引起人們的廣泛關注。Bakeoff通過不同標準的分詞語料同臺測試,完成了從“分詞規(guī)范”到“規(guī)范 +詞表”,再從“規(guī)范 +詞表”到“分詞語料

9、庫”的“詞語”的定義過程。后來,經過多年的分析與研究,中文分詞技術逐漸趨于成熟,中文分詞系統(tǒng) 也逐漸被應用于中文信息處理的各個領域。以下是自中文分詞技術被提出以來, 相對成熟的幾個中文分詞系統(tǒng):CDWS分詞系統(tǒng)CDWS分詞系統(tǒng)由北京航空航天大學于1983年設計并實現(xiàn),是我國第一個 自動分詞系統(tǒng)。它采用最大正向匹配分詞算法,并結合尾字構詞知識進行糾錯。 切分速度為11-15字/秒。CASS分詞系統(tǒng)CASS分詞系統(tǒng)由北京航空航天大學于1989年設計并實現(xiàn)。它采用正向增 字最大匹配分詞算法,包括總控程序、自動分詞、設施管理、分詞詞典和知識庫 五個部分,并結合知識庫處理歧義字段。切分速度為200字/秒

10、。SEG/SEGTAG 分詞系統(tǒng)SEG/SEGTAG分詞系統(tǒng)均由清華大學設計并實現(xiàn)。其區(qū)別在于 SEG分詞系 統(tǒng)集成了正向、逆向、雙向最大匹配以及全切分等幾種分詞算法,而 SEGTAG 分詞系統(tǒng)則在此基礎上添加了切分標志。分析表明,兩者的切分精度均可達到 99%左右。ICTCLAS分詞系統(tǒng)ICTCLAS分詞系統(tǒng)由中國科學院設計并實現(xiàn),它采用層疊隱馬爾可夫模型, 將中文分詞、詞性標注、歧義詞處理和未登錄詞識別等集成到一個完整的系統(tǒng)框 架中,是目前應用最廣泛的分詞系統(tǒng)。3課題內容隨著人們對中文分詞技術的不斷研究,各種各樣的中文分詞算法被不斷提出, 評價算法優(yōu)劣的標準也逐漸趨于定式, 對針對中文分詞

11、技術存在的難點問題, 也 取得了不同程度上的進展。本文首先分析了當前中文分詞技術的研究背景及發(fā)展狀況, 隨后研究了主流 的幾種中文分詞算法及其中文分詞系統(tǒng)性能的評價指標, 并根據(jù)中文分詞的技術 難點做出詳細介紹,最后將在第 5章節(jié)中提出初步的技術難點解決方案。主流中文分詞算法簡介目前的中文分詞算法主要分為三大類: 基于字符串匹配的分詞算法、基于統(tǒng) 計的分詞算法與基于理解的分詞算法。(1)基于字符串匹配的分詞算法基于字符串匹配的分詞算法,又稱作機械分詞方法,或基于字典的分詞方法。 該算法按照一定的策略將待切分的漢字用與一個“充分大”的詞庫進行匹配,若 找到某個詞條,則匹配成功。它有三個要素:文本

12、掃描順序、匹配原則和分詞詞 典。文本掃描順序分為正向掃描、逆向掃描和雙向掃描三種。匹配原則分為最大 匹配、最小匹配、最佳匹配和逐詞匹配等。該分詞算法速度較快,但容易產生歧義、也不能解決未登錄詞的問題。最大正向匹配分詞算法假設詞典最長詞條所含字數(shù)為n,則取被處理文本當前字符串序列中的前 n 個字符作為匹配字段,在分詞詞典中進行查找,若找到某個詞條,則匹配成功。若找不到,則匹配失敗,并去掉匹配字段最后一個字,剩下的字符作為新的匹配 字段,再匹配下去,直到匹配成功為止。最大逆向匹配分詞算法基本方法與最大正向匹配分詞算法相同,區(qū)別在于該算法從待切分漢字用的 末尾開始處理,若匹配不成功則去掉最前面的一個

13、漢字。根據(jù)大量測試數(shù)據(jù)統(tǒng)計 結果表明,單純使用最大正向匹配分詞算法的錯誤率為 1/169,單純使用最大逆 向匹配分詞算法的錯誤率為1/245。逆向匹配的切分精度略高于正向匹配,同時, 在處理歧義字段的精度上,逆向匹配同樣略高于正向匹配?;谏鲜鰞煞N最大匹配算法,產生了一種新的名為雙向匹配的分詞算法, 其 原理為將最大正向匹配分詞算法與最大逆向匹配分詞算法的切分結果相結合, 切 分精度相對兩者有了提高。由于其目的著重于歧義字段的檢測與糾錯, 因此能夠 消解部分歧義現(xiàn)象。但執(zhí)行算法時需要進行雙向掃描,時間復雜度有所增加。最佳匹配分詞算法將詞條按照詞頻大小進行排列,縮短對分詞詞典檢索時間,降低了分詞

14、的時 間復雜度,提高了分詞速度。這是對分詞詞典的一種組織方式,對分詞精度沒有 影響。由于分詞詞典每個詞條前都有一個詞的長度的數(shù)據(jù)項, 因此空間復雜度有 所增加。切分標志算法切分標志分為自然切分標志和非自然切分標志。自然切分標志指的是文本中出現(xiàn)的所有非文字符號,如標點符號等。非自然標志指的是利用詞綴和不構成詞 的詞,如單音詞、象聲詞等。該算法對分詞精度沒有影響。由于需要額外消耗時 間來掃描切分標志,花費存儲空間來存放非自然切分標志,因此時間復雜度和空 間復雜度都有所增加。(2)基于統(tǒng)計的分詞算法基于統(tǒng)計的分詞算法,首先需要采用全切分算法將詞庫中的詞條按照長短順 序進行排列,并以此為基礎搜索待處理

15、的漢字用, 知道把所有可能的詞全部切分 出來。然后綜合運用統(tǒng)計語言模型如 N-gram、互信息、隱馬爾可夫、最大嫡等 對結果進行判定。該算法需要對已有的訓練集或語料庫進行預處理, 其復雜度和規(guī)模龐大,并 且由于分詞中存在大量的數(shù)據(jù)概率計算,導致時間復雜度和空間復雜度極高。(3)基于理解的分詞算法基于理解的分詞算法,通過分詞的同時進行語義和句法分析, 利用語義信息 和句法信息處理字段歧義。由于該算法需要大量的語言知識和信息,而漢語又具 有籠統(tǒng)和復雜性的特點,目前仍處于初始實驗階段。專家系統(tǒng)分詞算法從專家系統(tǒng)的角度把分詞過程獨立出來,使知識庫的維護和分詞過程互不干 擾,易于管理和維護。神經網(wǎng)絡分詞

16、算法模擬人腦并行、分布處理和建立數(shù)值計算模型,將分詞知識存入神經網(wǎng)絡內 部,通過自學習和訓練修改內部權值,達到分詞效果。專家系統(tǒng)與神經網(wǎng)絡集成分詞算法首先啟動神經網(wǎng)絡進行分詞,當切分結果不準確時,激活專家系統(tǒng)進行分析 判斷,并根據(jù)知識庫進行推理,得到初步分析結果,再啟動神經網(wǎng)絡的學習機制 進行訓練?;谏鲜鋈N分詞算法各有優(yōu)劣,我們認識到,單一的分詞方法很難達到理 想的效果。因此,目前成熟的中文分詞系統(tǒng)都是考慮將集中不同的算法結合在一 起,或者是用多算法來處理別的問題,以便達到較好的分詞效果。常見中文分詞系統(tǒng)性能評價指標常見的中文分詞系統(tǒng)性能評價指標有:切分精度、切分速度、召回率、準確 率等。

17、(1)切分精度:是中文分詞系統(tǒng)的主要評價指標之一,表明分詞系統(tǒng)的準 確性。計算公式如下所示切分精度=正確切分的詞數(shù)/正確結果總詞數(shù)X 100%(2)切分速度:是中文分詞系統(tǒng)的主要評價指標之一,表明分詞系統(tǒng)的快 慢行,和切分精度是相對存在的,某一指標的提升將以另一指標的下降為代價。 計算公式如下所示:切分速度二切分結束時間-切分開始時間(3)召回率:是中文分詞系統(tǒng)中未登錄詞識別的評價標準之一。計算公式 如下所示:召回率=正確識別的新詞總數(shù)/文本中的新詞總數(shù)X100%(4)準確率:是中文分詞系統(tǒng)中未登錄詞識別的評價標準之一,召回率反 映了未登錄詞識別的完整性,準確率反映了未登錄詞識別的準確性。計算

18、公式如 下所示:準確率=正確識別的新詞總數(shù)/識別的新詞總數(shù)X100%中文分詞技術難點由于中文語義的復雜性與語法的多變性,中文分詞技術在研究的過程中,常常遇到許多不同于英文分詞的問題,總結來說,主要表現(xiàn)為以下四個方面:(1) “詞”是否有清晰的界定:由于中文是由連續(xù)的字構成的有序序列,詞 與詞之間并沒有明顯的間隔標記,因此詞的劃分沒有明確的標準。盡管 1998年 國家教委和語委發(fā)布了漢語拼音正詞法基本規(guī)則,并在1992年制定了國家標 準信息處理用現(xiàn)代漢語分詞規(guī)范,但到目前為止仍未有廣泛被認可的詞與分 詞單位非形式化定義。(2)分詞和理解孰先孰后:由于中文文本的理解通常需要結合上下文,先 分詞或先

19、理解,抑或兩者同時進行,沒有特定的標準。而計算機需要依靠詞的信 息來理解文本內容,因此會首先根據(jù)詞標注的各項信息進行分詞,無法做到完全 準確的切分。(3)分詞歧義消解:由于到目前為止仍沒有廣泛被認可分詞標準,詞性概 念模糊,同一文本可能被切分成多種形式的的分詞結果,將嚴重影響中文分詞的精度。(4)未登錄詞(Out-of-vocabulary, OOV)識別:由于新詞不斷增加,而詞 典的容量有限,更新速度不一定跟得上新詞產生的速度, 因此文本中必然會存在 詞典中沒有收錄的詞,該問題的解決有賴于人們對漢語結構的進一步認識。隨著對中文分詞技術的研究不斷深入,尤其是 2003年國際中文分詞評測活 動B

20、akeoff開展以來,中文分詞技術有了可喜的進步。針對上述四個方面的問題, 也有了不同程度的進展:(1)通過“分詞規(guī)范+詞表十分詞語料庫”的方法,使中文詞語在真是文本 中得到可計算的定義,這是實現(xiàn)計算機自動分詞和可比評測的基礎。(2)實踐證明,基于手工規(guī)則的分詞系統(tǒng)在評測中不敵基于統(tǒng)計學習的分 詞系統(tǒng)。(3)在Bakeoff數(shù)據(jù)上的估算表明,未登錄詞(OOV)造成的分詞精度失 落至少比分詞歧義大5倍以上。(4)迄今為止的實驗結果表明,能夠大幅度提高未登錄詞識別性能的字標 注統(tǒng)計學習方法由于以往基于此(或詞典)的方法,并使自動分詞系統(tǒng)的精度達 到了新高。4預期目標(1)在前人的研究基礎上,通過對

21、中文數(shù)據(jù)檢索中的分詞檢索機制進行研 究,并對現(xiàn)有的中文分詞算法進行改進,以期初步實現(xiàn)一種可行的中文分詞技術, 使之具備一定的實用意義與理論價值(2)改進后的中文分詞算法應當具有較高的分詞精度以及較快的分詞速度 同時,應在一定程度上能夠解決分詞歧義及未登錄詞的識別問題。5技術路線(1)通過基于字符串匹配與基于統(tǒng)計的分詞算法相結合的方式,實現(xiàn)一種 新的可行的中文分詞算法。(2)采用雙向匹配檢索法、逐詞掃描最大匹配法等檢測歧義字段,并通過 人工規(guī)則及詞概率統(tǒng)計進行分詞歧義消解。(3)采用建立專有詞庫、有窮多層列舉、詞性標注等方法識別未登錄詞6課題研究計劃2013-12-252014-02-142014-02-152014-02-282014-03-012014-03-152014-03-162014-03-312014-04-012014-04-302014-05-012014-06-05查閱相關資料外文資料翻譯畢業(yè)設計開題中文分詞檢索機制設計與分析中文分詞檢索機制實現(xiàn)論文撰寫7參考文獻1黃昌寧,趙海.中文分詞十年回顧.中文信息學報.2007. 21(3):8-192梁南元.書面漢語自動分詞系統(tǒng)一CDWS.中文信息學報.1987. 1(2):44-523揭春雨

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論