基于中文分詞算法的英語學習資源查詢系統(tǒng)研究_第1頁
基于中文分詞算法的英語學習資源查詢系統(tǒng)研究_第2頁
基于中文分詞算法的英語學習資源查詢系統(tǒng)研究_第3頁
基于中文分詞算法的英語學習資源查詢系統(tǒng)研究_第4頁
基于中文分詞算法的英語學習資源查詢系統(tǒng)研究_第5頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、基于中文分詞算法的英語學習資源查詢系統(tǒng)研究摘要:針對人工智能在信息搜索領域的實際應用,本文介紹了一種基于中文分詞算法的英語學習資源查詢系統(tǒng)。該系統(tǒng)通過一種基于中文分詞算法的搜索策略,結合事例推理技術實現對英語學習資源的智能搜索。系統(tǒng)測試結果說明,用戶可以通過該系統(tǒng)搜索到所提問問題的類似事例以及解決該問題的相關知識條款。關鍵詞:中文分詞算法;智能搜索;事例推理;英語學習A Study on Information Resources of English Learning Inquires System Based on Chinese Word Segmentation AlgorithmAb

2、stract:Aiming at the usage of Artificial intelligence in the field of information search,this paper having introduced the information resources of English learning inquires system based on Chinese word segmentation algorithm.The system having achieved intelligent search of the English learning which

3、 through a kind of Chinese word segmentations search strategy and case-based reasoning technology. The results show that this system can get the users to gain satisfying results.Key words:Chinese word segmentation algorithm;intelligent search;Case-based reasoning;English learning;一、引言隨著信息技術的迅速開展,英語學

4、習信息資源成為中小學數字圖書館的重要組成部分,它的建立也已成為圖書館界研究的重要課題,其對中小學英語教學以及學生學習的輔助功能也愈來愈顯著。然而經過長期的調查研究說明,中小學英語學習信息資源具有信息量大、內容繁雜、涉及面廣等特點。很多學生甚至教師在應用的過程中,經常會遇到無從下手去查詢相關信息的情況。針對這種情況,本文筆者將基于中文分詞算法的搜索技術應用在海量英語學習資源的智能搜索過程中。二、關鍵技術1.中文分詞算法。中文分詞就是把漢字字串序列切分成有意義的詞串序列。如將句子“我是一名中學教師進展分詞,得到:“我/是/一名/中學/教師?,F有的中文分詞算法有很多,根據其特點,可以分為基于字符串匹

5、配的分詞算法、基于統(tǒng)計的分詞算法、基于理解的分詞算法、基于途徑的分詞算法和基于語義的分詞算法等。在這些分詞算法中,實現最簡單、使用最廣泛、效率最高的是基于字符串匹配的中文分詞算法,它是一種以詞典為根底的方法,該算法按照一定的策略將待切分的漢字串與一個充分大的詞庫進展匹配,假設找到某個詞條,那么匹配成功識別出一個詞。基于字符串匹配的分詞算法主要有以下三種:最大正向匹配分詞算法,簡稱MM法,假設假設Words為詞庫,Max表示詞庫中最大詞條的長度,Str為待切分的漢字串,那么MM分詞算法的根本思想是:首先,取Str中的前Max個漢字作為匹配字段,與Words中的詞條進展匹配,假設詞庫中存在這樣一個

6、詞,那么匹配成功,詞條被切分出來;假設詞庫中找不到這樣一個詞,那么去掉匹配字段的最后一個字,將剩余的漢字串作為新的匹配字段,繼續(xù)匹配;如此進展下去,直到匹配成功為止1,2。最大逆向匹配分詞算法,簡稱RMM法。它的根本思想與MM法一樣,不同的是該方法從待切分漢字串的末尾開始處理,每次匹配不成功時去掉最前面的一個漢字。雙向匹配分詞算法,簡稱BM法,它是把MM法和RMM法相結合的一種方法。由于是雙向掃描漢字串,所以可能會出現多種結果,這時,我們采用人工干預的方法來確定正確含義的字符串。例如,“進步成功確實定性字符串在正向掃描時,切分結果為“進步/成功/確實/定性,逆向掃描時,切分結果為“進步/成功/

7、的/確定性,顯然我們需要的是逆向掃描的結果,只需人工選擇一下即可。本系統(tǒng)所用的分詞算法就是雙向匹配分詞算法。2.匹配度的計算方法。我們將問題字符串中關鍵詞在檢索結果字符串中的包含程度稱為匹配度,其計算公式如下:M=Q/A100%。其中,M指匹配度,Q指關鍵詞在檢索結果中出現的個數,A指關鍵詞個數。3.事例推理原理?;谑吕耐评鞢ase-based Reasoning,CBR是機器學習的一種方法,它利用以前積累的知識和經歷來解決問題,在許多領域被廣泛的應用3。其根本思想是:在進展問題求解時,首先在事例庫中檢索與該問題最類似的事例,假設能找到完全匹配的事例,那么作為問題的解輸出,假設找不到,那么

8、尋求一個類似的事例,根據問題的需求進展修正,并將修正結果存入事例庫中。事例推理模型主要包括四個階段:事例檢索,事例重用,解決方案修正和事例保存3。三、中小學英語學習資源查詢系統(tǒng)的實現1.系統(tǒng)應用功能設計。中小學英語學習資源查詢系統(tǒng)是以中小學英語學習資源為理論根底的,以事例推理的根本思想為根據來解決問題的。它的功能主要是按照用戶輸入的問題進展答復并將結果顯示給用戶,本系統(tǒng)按照功能可以分為四個模塊:根底信息維護模塊、分詞處理模塊、智能查詢模塊、事例維護模塊。通過對用戶輸入的自然語言的提問,對問題進展分詞處理,提取關鍵詞,提交查詢系統(tǒng),在知識庫中查找到相匹配的信息,并將其作為最后的輸出結果。各模塊的

9、功能如下:根底信息維護模塊:維護系統(tǒng)所需的英語學習資源等根底信息。分詞處理模塊:接收用戶輸入的以自然語言方式表述的句子,按照詞義進展分割,提取關鍵詞,供查詢模塊使用。智能查詢模塊:使用分詞處理模塊的結果,在知識庫中查找答案,并將查詢結果顯示給用戶。這里的知識庫是由事例庫和英語學習根底知識庫組成。事例維護模塊:事例庫的維護主要來自兩個方面,一是教學人員歸納整理在教學過程中遇到的知識重點以及相關的本卷須知等信息添加到事例庫中;二是在用戶查詢后未得到結果時,從英語學習資源根底信息庫中查找出相應的解決方案,形成一條新的事例添加到事例庫中。 本系統(tǒng)的效勞對象主要包括兩類人員:中小學教師、學生。系統(tǒng)采用“

10、B/S形式的系統(tǒng)架構,用戶可以通過具有上網功能的PDA或者直接訪問系統(tǒng)。2.系統(tǒng)總體部署構造圖。系統(tǒng)的總體部署構造圖如圖1所示,系統(tǒng)部署的網絡分為內網校園網和外網因特網兩種。應用程序效勞器和數據庫效勞器均部署在學校,內外網間的數據交互采用基于USB介質的專用協(xié)議,實現內外網間的物理隔離,保證數據傳輸的平安。挪動終端可以通過無線網絡直接訪問系統(tǒng)。3.系統(tǒng)的處理流程。系統(tǒng)主要的處理流程為:輸入所要查詢的問題;對該問題進展分詞,過濾掉一些停用詞主要是疑問詞和虛詞,抽取出關鍵詞;根據關鍵詞,在事例庫中進展檢索,對檢索結果按照與問題的匹配度進展排序,取出匹配度最高的信息作為最終的檢索結果,顯示給用戶;假

11、設在事例庫中檢索不到結果,那么去檢索英語學習資源根底庫,從中找出匹配的結果,并將其整理為新案例添加到案例庫中;假設在英語學習資源根底庫中仍然未找到結果,那么將問題提交給相關系統(tǒng)管理人員,由其給出解決方案,并將新案例添加到案例庫中。四、系統(tǒng)測試及結果分析系統(tǒng)測試有兩個目的:一是測試搜索結果的準確性;二是測試搜索效率。為驗證系統(tǒng)搜索結果的準確性,筆者作了一個測試,以?初中英語語法大全?為根底庫,將近些年來教學過程中常用的語法案例整理到事例庫中,共計390條事例。筆者利用200余條自然語言問句進展搜索處理,然后將搜索得到的結果進展人工驗證,測試時采用一個指標:正確率Accuracy。其計算公式如下:Accuracy=a/b100%其中,a為搜索結果匹配的提問句個數;b為所有的提問句個數。經過測試得到正確率為97.3%,這個正確率已經滿足了用戶的要求。實驗結果說明,系統(tǒng)不僅可以提供正確的答案,也可以提供一些跟問題比較相關的答案,因此,系統(tǒng)總體搜索結果令人根本滿意。將中文分詞算法的思想結合事例推理技術運用到查詢信息系統(tǒng)領域,可以很好地發(fā)揮事例推理模型的自學習才能,躲避傳統(tǒng)人工智能在知識獲取上的“瓶頸問題,進而獲得更好的搜索結果。參考文獻:1王遠定,梁久禎.利用關鍵詞倒

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論