版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、基于規(guī)則的信息抽取技術(shù)的研究及其在中醫(yī)醫(yī)案文獻(xiàn)中的應(yīng)用- PAGE 42 -基于模式的語義信息抽取及應(yīng)用研究王雙北京科技大學(xué)MACROBUTTON NoMacro 公開 密級(jí):_論文(lnwn)題目:基于(jy)模式的語義信息(xnx)抽取及應(yīng)用研究G20118233王雙學(xué) 號(hào):_軟件工程作 者:_專 業(yè) 名 稱:_2013年11月10日基于(jy)模式的語義信息(xnx)抽取及應(yīng)用研究Semantic information extraction technology and application based on patterns研究生姓名(xngmng):王雙指導(dǎo)教師姓名:孫義北京科技
2、大學(xué)計(jì)算機(jī)與通信工程學(xué)院北京100083,中國Master Degree Candidate: Wang ShuangSupervisor: Sun YiSchool of Computer &Comunication EngineeringUniversity of Science and Technology Beijing30 Xueyuan Road,Haidian DistrictBeijing 100083,P.R.CHINAMACROBUTTON NoMacro 公開 MACROBUTTON NoMacro 單擊此處鍵入U(xiǎn)DC號(hào)TP3910008分類號(hào):_密級(jí):_:_單位(dnw
3、i)代碼:_北京科技大學(xué)碩士學(xué)位論文(lnwn)基于模式的語義信息抽取及應(yīng)用研究論文(lnwn)題目: 王雙作者:_北京科技大學(xué) 孫義指 導(dǎo) 教 師: 單位: 指導(dǎo)小組成員: 單位: 單位: 論文提交日期:2013年 11月1 0日學(xué)位授予單位:北 京 科 技 大 學(xué)北京科技大學(xué)碩士學(xué)位論文- PAGE XIII -致 謝本課題能夠順利完成,與我所得到(d do)的多方面的無私而熱情的幫助是分不開的。我首先要感謝(gnxi)我的導(dǎo)師孫義教授(jioshu)。在本人讀研期間,孫老師無論在學(xué)習(xí)還是在生活上,都給予了無微不至的關(guān)心。在整個(gè)畢業(yè)論文完成過程中,孫老師定期了解課題進(jìn)展,積極提出寶貴意見,
4、在老師嚴(yán)謹(jǐn)治學(xué)、精益求精的工作作風(fēng)中體會(huì)到了老師崇高的人格魅力。另外我還要感謝實(shí)驗(yàn)室的另外兩位老師張德政老師和劉宏嵐老師,感謝張老師和劉老師對(duì)我的鼓勵(lì)和肯定。張老師積極的人生態(tài)度和拼搏精神,對(duì)我們產(chǎn)生深遠(yuǎn)影響,同時(shí)感謝張老師為我們提供的良好的工作和學(xué)習(xí)環(huán)境。我還要感謝幫助和鼓勵(lì)過我的每一位同學(xué),他們是韋仕偉、于留寶、付彬、華鎮(zhèn)。感謝在這近三年時(shí)間里給予我知識(shí)的老師們,正是由于他們的辛勤施教,使我學(xué)到了許多寶貴的知識(shí),能夠順利完成學(xué)業(yè)。真誠感謝我的父母、姐姐和朋友們。在他們的鼓勵(lì)下,我勇敢前進(jìn),克服很多困難。他們的關(guān)心與幫助是我學(xué)習(xí)和生活最大力量來源。最后,感謝所有在百忙之中參加我論文答辯的老師
5、們,在此致以我崇高的敬意和衷心的感謝。摘 要中醫(yī)學(xué)作為中國特色的傳統(tǒng)醫(yī)學(xué)具有(jyu)重要的社會(huì)價(jià)值,但是由于中醫(yī)學(xué)理論體系的復(fù)雜性和特殊性,對(duì)中醫(yī)理論和技術(shù)的全面把握需要(xyo)較長(zhǎng)的時(shí)間。特別是經(jīng)過多年臨床實(shí)踐,而且擁有(yngyu)多年中醫(yī)實(shí)踐經(jīng)驗(yàn)的專家,很好的反映出了中醫(yī)學(xué)的特色。從而可以通過研究這些醫(yī)案,進(jìn)而了解中醫(yī)學(xué)的方法和理論,從而快速、全面地了解中醫(yī)理論和技術(shù)。面對(duì)海量文本形式的醫(yī)案,目前普遍采用手工填寫結(jié)構(gòu)化采集模板的方法結(jié)構(gòu)化病案信息,不僅耗費(fèi)大量人力物力,而且不能反應(yīng)各個(gè)專家的特點(diǎn)。因此,本文主要研究如何通過計(jì)算機(jī)技術(shù)自動(dòng)結(jié)構(gòu)化文本形式的病案信息,從而為挖掘名老中醫(yī)的臨
6、床經(jīng)驗(yàn)和診療思路打下基礎(chǔ)。本文針對(duì)中醫(yī)病案文本信息的特點(diǎn),從多個(gè)方面、不同角度對(duì)基于中醫(yī)病案信息的自動(dòng)抽取進(jìn)行了深入研究,實(shí)現(xiàn)了一個(gè)基于模式匹配的醫(yī)案信息自動(dòng)抽取系統(tǒng)。本文的主要工作包括以下幾個(gè)方面:1、綜述信息抽取及相關(guān)技術(shù)方法,主要內(nèi)容包括相關(guān)概念的介紹,技術(shù)專有名詞的解釋說明,還包括對(duì)各種技術(shù)的分析。2、重點(diǎn)研究了基于聚類的模式獲取問題,以及基于模式的中醫(yī)醫(yī)案的信息抽取問題。實(shí)現(xiàn)了利用機(jī)器學(xué)習(xí)方法自動(dòng)獲取模式,利用模式識(shí)別文本中的人名、地名、時(shí)間以及實(shí)體間關(guān)系信息。3、設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)基于中醫(yī)醫(yī)案的信息抽取原型系統(tǒng)。該系統(tǒng)提供了一個(gè)方法以供用戶使用,能夠很好的實(shí)現(xiàn)對(duì)中醫(yī)醫(yī)案信息的抽取。關(guān)
7、鍵詞:自然語言處理,信息抽取,模式生成,模式匹配Semantic information extraction technology and application based on patternsAbstractTraditional Chinese medicine as a Chinese traditional medicine has important social value .Medical records as the doctor clinical thinking and treatment based on syndrome differentiation proce
8、ss records, is a concrete reflection of comprehensive application forms of traditional Chinese medicine. Pattern matching is a commonly used method in information extraction system, how to generate the model is the key problem in the field of information extraction. This paper presents a method of c
9、lustering based machine learning, the system can automatic pattern acquisition from text. The application of this method in traditional Chinese medical experiments in the literature, has achieved a good result. According to the characteristicsof text informationofmedical records, Study is conducted
10、for theautomatic extraction ofChinese medical recordinformation based onmany aspects,from different angles, amedical informationautomatic extraction system ofpattern matching.The main work of this paperinclude the following aspects:1. Summary of informationextractionand relatedtechniques, The main c
11、ontentsinclude therelated concepts introduced, Technicalterminologyexplanation, also includes theanalysis of all kinds oftechnology. 2. Focus on the information extractionproblembased on the pattern oftraditional Chinese Medicine, Construction of patternlibrary.3. The design and implementation of ap
12、rototype systembased oninformation extractionoftraditional Chinese medicine.The system provides amethodfor the user touse,can be achieved on thetraditional Chinese medicineinformation extractionis verygood.Key Words:Natural Language Processing , Information Extraction,Pattern Acquisition,Pattern Mat
13、ching(用英文逗號(hào)(duho)“,”分隔(fng))目 錄 TOC o 1-3 h z u HYPERLINK l _Toc371872020 致 謝 PAGEREF _Toc371872020 h I HYPERLINK l _Toc371872021 摘 要 PAGEREF _Toc371872021 h III HYPERLINK l _Toc371872022 Abstract PAGEREF _Toc371872022 h V HYPERLINK l _Toc371872023 插圖(cht)和附表清單 PAGEREF _Toc371872023 h XI HYPERLINK l
14、 _Toc371872024 1 緒論(xln) PAGEREF _Toc371872024 h 1 HYPERLINK l _Toc371872025 1.1 課題(kt)背景 PAGEREF _Toc371872025 h 1 HYPERLINK l _Toc371872026 1.1.1 課題的來源,目的和意義 PAGEREF _Toc371872026 h 1 HYPERLINK l _Toc371872027 1.1.2 課題的研究?jī)?nèi)容 PAGEREF _Toc371872027 h 1 HYPERLINK l _Toc371872028 1.2 論文的主要工作 PAGEREF _T
15、oc371872028 h 2 HYPERLINK l _Toc371872029 1.3 本文的組織結(jié)構(gòu) PAGEREF _Toc371872029 h 2 HYPERLINK l _Toc371872030 2 信息抽取模式學(xué)習(xí)系統(tǒng)綜述 PAGEREF _Toc371872030 h 3 HYPERLINK l _Toc371872031 2.1 信息抽取模式學(xué)習(xí)系統(tǒng)分類 PAGEREF _Toc371872031 h 3 HYPERLINK l _Toc371872032 2.2 基于人工語料標(biāo)注的IE模式學(xué)習(xí)系統(tǒng) PAGEREF _Toc371872032 h 3 HYPERLINK
16、l _Toc371872033 2.2.1 基于人工語料標(biāo)注的IE模式學(xué)習(xí)系統(tǒng)的原理 PAGEREF _Toc371872033 h 3 HYPERLINK l _Toc371872034 2.3 基于人工語料分類的IE模式學(xué)習(xí)系統(tǒng) PAGEREF _Toc371872034 h 6 HYPERLINK l _Toc371872035 2.4 基于自舉的IE模式學(xué)習(xí)系統(tǒng) PAGEREF _Toc371872035 h 7 HYPERLINK l _Toc371872036 2.5 基于WordNet和語料標(biāo)注的IE模式學(xué)習(xí)系統(tǒng) PAGEREF _Toc371872036 h 9 HYPERLI
17、NK l _Toc371872037 2.6 本章小結(jié) PAGEREF _Toc371872037 h 11 HYPERLINK l _Toc371872038 3 中醫(yī)醫(yī)案特征分析 PAGEREF _Toc371872038 h 13 HYPERLINK l _Toc371872039 3.1 中醫(yī)醫(yī)案特征分析 PAGEREF _Toc371872039 h 13 HYPERLINK l _Toc371872040 3.1.1 中醫(yī)醫(yī)案結(jié)構(gòu)特征分析 PAGEREF _Toc371872040 h 13 HYPERLINK l _Toc371872041 3.1.2 中醫(yī)醫(yī)案內(nèi)容特征分析 PA
18、GEREF _Toc371872041 h 15 HYPERLINK l _Toc371872042 3.1.3 中醫(yī)領(lǐng)域本身的特點(diǎn) PAGEREF _Toc371872042 h 15 HYPERLINK l _Toc371872043 3.2 中醫(yī)醫(yī)案語義信息抽取的研究基礎(chǔ)及存在的問題 PAGEREF _Toc371872043 h 16 HYPERLINK l _Toc371872044 3.3 本章小結(jié) PAGEREF _Toc371872044 h 17 HYPERLINK l _Toc371872045 4 一種基于聚類的信息抽取模式自動(dòng)生成方法 PAGEREF _Toc37187
19、2045 h 18 HYPERLINK l _Toc371872046 4.1 基于聚類的模式生成方法的比較與選擇 PAGEREF _Toc371872046 h 18 HYPERLINK l _Toc371872047 4.2 單鏈法聚類的基本思想 PAGEREF _Toc371872047 h 18 HYPERLINK l _Toc371872048 4.3 相關(guān)(xinggun)概念 PAGEREF _Toc371872048 h 18 HYPERLINK l _Toc371872049 4.4 模式生成(shn chn)流程 PAGEREF _Toc371872049 h 20 HYP
20、ERLINK l _Toc371872050 4.4.1 文本處理與聚類 PAGEREF _Toc371872050 h 21 HYPERLINK l _Toc371872051 4.4.2 同類(tngli)之間的模式合并 PAGEREF _Toc371872051 h 24 HYPERLINK l _Toc371872052 4.5 實(shí)驗(yàn)結(jié)果和分析 PAGEREF _Toc371872052 h 26 HYPERLINK l _Toc371872053 4.6 本章小結(jié) PAGEREF _Toc371872053 h 29 HYPERLINK l _Toc371872054 5 基于模式匹
21、配的信息抽取方法 PAGEREF _Toc371872054 h 30 HYPERLINK l _Toc371872055 5.1 國內(nèi)外研究進(jìn)展 PAGEREF _Toc371872055 h 30 HYPERLINK l _Toc371872056 5.1.1 本課題國外研究進(jìn)展 PAGEREF _Toc371872056 h 30 HYPERLINK l _Toc371872057 5.1.2 本課題國內(nèi)研究進(jìn)展 PAGEREF _Toc371872057 h 30 HYPERLINK l _Toc371872058 5.2 中醫(yī)醫(yī)案信息抽取過程中模式的表示方式 PAGEREF _Toc
22、371872058 h 31 HYPERLINK l _Toc371872059 5.3 信息抽取程序的實(shí)現(xiàn)過程 PAGEREF _Toc371872059 h 33 HYPERLINK l _Toc371872060 5.3.1 自動(dòng)分詞的實(shí)現(xiàn) PAGEREF _Toc371872060 h 34 HYPERLINK l _Toc371872061 5.3.2 加載模式庫 PAGEREF _Toc371872061 h 38 HYPERLINK l _Toc371872062 5.3.3 讀取醫(yī)案文件 PAGEREF _Toc371872062 h 39 HYPERLINK l _Toc37
23、1872063 5.3.4 確定醫(yī)案文件的段落主題 PAGEREF _Toc371872063 h 41 HYPERLINK l _Toc371872064 5.2.5逐句遍歷 PAGEREF _Toc371872064 h 41 HYPERLINK l _Toc371872065 5.2.6正則匹配算法 PAGEREF _Toc371872065 h 42 HYPERLINK l _Toc371872066 5.2.7存儲(chǔ)提取結(jié)果 PAGEREF _Toc371872066 h 43 HYPERLINK l _Toc371872067 5.4 本章小節(jié) PAGEREF _Toc3718720
24、67 h 44 HYPERLINK l _Toc371872068 6 基于模式匹配的中醫(yī)醫(yī)案信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn) PAGEREF _Toc371872068 h 45 HYPERLINK l _Toc371872069 6.1 信息抽取系統(tǒng)的通用體系結(jié)構(gòu) PAGEREF _Toc371872069 h 45 HYPERLINK l _Toc371872070 6.2 需求分析 PAGEREF _Toc371872070 h 45 HYPERLINK l _Toc371872071 6.2.1 用戶登錄 PAGEREF _Toc371872071 h 45 HYPERLINK l _Toc
25、371872072 6.2.2 中醫(yī)醫(yī)案管理 PAGEREF _Toc371872072 h 45 HYPERLINK l _Toc371872073 6.2.3 用戶詞典管理 PAGEREF _Toc371872073 h 46 HYPERLINK l _Toc371872074 6.2.4 模板匹配 PAGEREF _Toc371872074 h 46 HYPERLINK l _Toc371872075 6.3 系統(tǒng)設(shè)計(jì) PAGEREF _Toc371872075 h 46 HYPERLINK l _Toc371872076 6.3.1 系統(tǒng)功能結(jié)構(gòu) PAGEREF _Toc3718720
26、76 h 46 HYPERLINK l _Toc371872077 6.3.2 定義抽取任務(wù) PAGEREF _Toc371872077 h 47 HYPERLINK l _Toc371872078 6.3.3 構(gòu)建(u jin)開發(fā)程序 PAGEREF _Toc371872078 h 48 HYPERLINK l _Toc371872079 6.3.4 數(shù)據(jù)庫設(shè)計(jì)(shj) PAGEREF _Toc371872079 h 49 HYPERLINK l _Toc371872080 6.4 詳細(xì)(xingx)設(shè)計(jì) PAGEREF _Toc371872080 h 50 HYPERLINK l _T
27、oc371872081 6.4.1 用戶登錄模塊 PAGEREF _Toc371872081 h 50 HYPERLINK l _Toc371872082 6.4.2 系統(tǒng)主界面 PAGEREF _Toc371872082 h 51 HYPERLINK l _Toc371872083 6.4.3 用戶詞典模塊 PAGEREF _Toc371872083 h 52 HYPERLINK l _Toc371872084 6.4.4 中醫(yī)醫(yī)案管理模塊 PAGEREF _Toc371872084 h 53 HYPERLINK l _Toc371872085 6.4.5 基于模板匹配的抽取模塊 PAGER
28、EF _Toc371872085 h 53 HYPERLINK l _Toc371872086 6.5 軟件測(cè)試 PAGEREF _Toc371872086 h 54 HYPERLINK l _Toc371872087 6.5.1 軟件測(cè)試的步驟 PAGEREF _Toc371872087 h 54 HYPERLINK l _Toc371872088 6.5.2 本系統(tǒng)的測(cè)試方案 PAGEREF _Toc371872088 h 55 HYPERLINK l _Toc371872089 6.6 本章小結(jié) PAGEREF _Toc371872089 h 56 HYPERLINK l _Toc371
29、872090 7 結(jié)論 PAGEREF _Toc371872090 h 57 HYPERLINK l _Toc371872091 7.1 總結(jié) PAGEREF _Toc371872091 h 57 HYPERLINK l _Toc371872092 7.2 進(jìn)一步的工作 PAGEREF _Toc371872092 h 57 HYPERLINK l _Toc371872093 參考文獻(xiàn) PAGEREF _Toc371872093 h 59 HYPERLINK l _Toc371872094 附錄 人工提取的語言模式 PAGEREF _Toc371872094 h 63 HYPERLINK l _
30、Toc371872095 作者簡(jiǎn)歷及在學(xué)研究成果 PAGEREF _Toc371872095 h 69 HYPERLINK l _Toc371872096 獨(dú)創(chuàng)性說明 PAGEREF _Toc371872096 h 71 HYPERLINK l _Toc371872097 關(guān)于論文使用授權(quán)的說明 PAGEREF _Toc371872097 h 72 HYPERLINK l _Toc371872098 學(xué)位論文數(shù)據(jù)集 PAGEREF _Toc371872098 h 73插圖(cht)清單(qngdn) TOC h z c 圖2. HYPERLINK l _Toc372218579 圖2. 1 A
31、utoSlog采用(ciyng)的語言表達(dá)模式及IE模式 PAGEREF _Toc372218579 h 4 HYPERLINK l _Toc372218580 圖2. 2一個(gè)標(biāo)注后的語句及AutoSolg從中學(xué)出的一個(gè)概念節(jié)點(diǎn) PAGEREF _Toc372218580 h 5 HYPERLINK l _Toc372218581 圖2. 3 PALKA的一個(gè)FP-structure的例子 PAGEREF _Toc372218581 h 6 HYPERLINK l _Toc372218582 圖2. 4 AutoSlog-TS學(xué)習(xí)IE模式的流程 PAGEREF _Toc372218582 h
32、7 HYPERLINK l _Toc372218583 圖2. 5 ExDisco中用到的”管理職位繼任”IE領(lǐng)域的兩個(gè)種子IE模式 PAGEREF _Toc372218583 h 8 HYPERLINK l _Toc372218584 圖2. 6 Exdisco的IE模式學(xué)習(xí)流程 PAGEREF _Toc372218584 h 9 HYPERLINK l _Toc372218585 圖2. 7TIMES中的模式例子 PAGEREF _Toc372218585 h 10 HYPERLINK l _Toc372218586 圖2. 8 TIMES的IE模式學(xué)習(xí)流程 PAGEREF _Toc372
33、218586 h 10 HYPERLINK l _Toc372218587 圖2. 9一個(gè)語句經(jīng)過相應(yīng)的NLP步驟處理后所得到的內(nèi)部結(jié)構(gòu) PAGEREF _Toc372218587 h 11 HYPERLINK l _Toc372218588 圖2. 10 TIMES形成的特例模式 PAGEREF _Toc372218588 h 11 TOC h z c 圖3. HYPERLINK l _Toc372218589 圖3. 1 一份典型的中醫(yī)肝病病案 PAGEREF _Toc372218589 h 14 TOC h z c 圖4. HYPERLINK l _Toc372294495 圖4. 1信
34、息抽取模式生成流程 PAGEREF _Toc372294495 h 21 HYPERLINK l _Toc372294496 圖4. 2相關(guān)文檔集 PAGEREF _Toc372294496 h 21 HYPERLINK l _Toc372294497 圖4. 3相關(guān)文檔集經(jīng)過預(yù)處理后的結(jié)果 PAGEREF _Toc372294497 h 22 HYPERLINK l _Toc372294498 圖4. 4分詞后的文本劃分為不同的類別 PAGEREF _Toc372294498 h 23 HYPERLINK l _Toc372294499 圖4. 5相關(guān)文檔集的聚類結(jié)果 PAGEREF _To
35、c372294499 h 24 HYPERLINK l _Toc372294500 圖4. 6模式合并結(jié)果 PAGEREF _Toc372294500 h 26 HYPERLINK l _Toc372294501 圖4. 7泛化后的模式結(jié)果 PAGEREF _Toc372294501 h 26 HYPERLINK l _Toc372294502 圖4. 8中醫(yī)醫(yī)案文本 PAGEREF _Toc372294502 h 27 HYPERLINK l _Toc372294503 圖4. 9測(cè)試語料劃分為不同的類別 PAGEREF _Toc372294503 h 27 HYPERLINK l _Toc
36、372294504 圖4. 10實(shí)驗(yàn)得到的信息抽取模式 PAGEREF _Toc372294504 h 28 HYPERLINK l _Toc372294505 圖4. 11信息抽取模式 PAGEREF _Toc372294505 h 28 HYPERLINK l _Toc372294506 圖4. 12不適宜全部合并的實(shí)例 PAGEREF _Toc372294506 h 29 TOC h z c 圖5. HYPERLINK l _Toc372294512 圖5. 1中醫(yī)信息抽取流程圖 PAGEREF _Toc372294512 h 33 HYPERLINK l _Toc372294513 圖
37、5. 2典型中醫(yī)肝病醫(yī)案 PAGEREF _Toc372294513 h 35 HYPERLINK l _Toc372294514 圖5. 3典型中醫(yī)肝病醫(yī)案分詞標(biāo)注結(jié)果 PAGEREF _Toc372294514 h 36 HYPERLINK l _Toc372294515 圖5. 4MapRules的數(shù)據(jù)結(jié)構(gòu) PAGEREF _Toc372294515 h 39 HYPERLINK l _Toc372294516 圖5. 5典型中醫(yī)(zhngy)肝病醫(yī)案信息抽取結(jié)果 PAGEREF _Toc372294516 h 44 TOC h z c 圖6. HYPERLINK l _Toc37229
38、4629 圖6. 1基于模式匹配的中醫(yī)(zhngy)醫(yī)案信息抽取系統(tǒng)結(jié)構(gòu)圖 PAGEREF _Toc372294629 h 47 HYPERLINK l _Toc372294630 圖6. 2信息抽取(chu q)模塊流程圖 PAGEREF _Toc372294630 h 49 HYPERLINK l _Toc372294631 圖6. 3用戶登錄界面設(shè)計(jì) PAGEREF _Toc372294631 h 50 HYPERLINK l _Toc372294632 圖6. 4用戶管理界面設(shè)計(jì) PAGEREF _Toc372294632 h 51 HYPERLINK l _Toc372294633
39、圖6. 5系統(tǒng)主界面設(shè)計(jì) PAGEREF _Toc372294633 h 51 HYPERLINK l _Toc372294634 圖6. 6用戶詞典管理界面 PAGEREF _Toc372294634 h 52 HYPERLINK l _Toc372294635 圖6. 7基于模版匹配的抽取界面 PAGEREF _Toc372294635 h 53附表清單 TOC h z c 表5. HYPERLINK l _Toc372219170 表5. 1模式(msh)庫-系統(tǒng)(xtng)用到的16個(gè)模式(msh) PAGEREF _Toc372219170 h 31 HYPERLINK l _Toc
40、372219171 表5. 2模式中數(shù)字的含義 PAGEREF _Toc372219171 h 32 HYPERLINK l _Toc372219172 表5. 3模式中字母的含義 PAGEREF _Toc372219172 h 32 HYPERLINK l _Toc372219173 表5. 4中醫(yī)醫(yī)案的用戶詞典 PAGEREF _Toc372219173 h 34 HYPERLINK l _Toc372219174 表5. 5 VecWordCate數(shù)據(jù)結(jié)構(gòu)圖 PAGEREF _Toc372219174 h 39 HYPERLINK l _Toc372219175 表5. 6基本信息部分實(shí)
41、例 PAGEREF _Toc372219175 h 40 HYPERLINK l _Toc372219176 表5. 7主訴部分存儲(chǔ)實(shí)例 PAGEREF _Toc372219176 h 40 HYPERLINK l _Toc372219177 表5. 8治則部分存儲(chǔ)實(shí)例 PAGEREF _Toc372219177 h 41 HYPERLINK l _Toc372219178 表5. 9 VecWordCate數(shù)據(jù)結(jié)構(gòu)圖 PAGEREF _Toc372219178 h 41 TOC h z c 表6. HYPERLINK l _Toc372219185 表6. 1用戶信息表 PAGEREF _T
42、oc372219185 h 49 HYPERLINK l _Toc372219186 表6. 2案例信息表 PAGEREF _Toc372219186 h 50- PAGE 67 -緒論(xln)課題(kt)背景課題的來源,目的(md)和意義該研究課題來源于“十二五”國家科技支撐計(jì)劃“名老中醫(yī)臨床經(jīng)驗(yàn)、學(xué)術(shù)思想傳承研究(一)”項(xiàng)目。本課題研究目標(biāo)是從中醫(yī)傳承的臨床需求出發(fā),匯聚中醫(yī)學(xué)、認(rèn)知科學(xué)、信息技術(shù),研發(fā)中醫(yī)醫(yī)案信息抽取系統(tǒng),即臨床醫(yī)案收集、儲(chǔ)存、分析、管理為一體的系統(tǒng),實(shí)現(xiàn)臨床患者病案采集、數(shù)據(jù)存儲(chǔ)、結(jié)構(gòu)化處理等功能。研發(fā)模式庫生成系統(tǒng),實(shí)現(xiàn)自動(dòng)化地從文本中獲取模式,生成模式庫,用于支持
43、信息抽取的過程。研發(fā)信息抽取系統(tǒng),實(shí)現(xiàn)系統(tǒng)自動(dòng)識(shí)別出醫(yī)案文本中特定語義信息。隨著近幾年來中醫(yī)學(xué)研究的深入進(jìn)行,對(duì)中醫(yī)醫(yī)案的信息分析需求越來越迫切,經(jīng)歷了中國五千年的文化變遷,中醫(yī)歷史積累了海量的中醫(yī)醫(yī)案,收錄散雜,在內(nèi)容和文字上不免也存在著訛、漏、誤、衍等錯(cuò)誤現(xiàn)象15,采用人工手段進(jìn)行查找與分析已經(jīng)不能滿足快節(jié)奏需求。利用信息抽取的辦法,將形式多樣、內(nèi)容豐富繁雜的中醫(yī)醫(yī)案以統(tǒng)一、完整結(jié)構(gòu)化的形式提取出來,有效而搶救性地整理和保留了臨床經(jīng)驗(yàn),將無形的經(jīng)驗(yàn)變成有形的可供大家共享的知識(shí),這對(duì)我國中醫(yī)藥領(lǐng)域的傳承意義重大。課題的研究?jī)?nèi)容本文研究基于模式的信息抽取技術(shù)及應(yīng)用,課題解決的主要技術(shù)難點(diǎn)及技術(shù)
44、方案:(1)模式匹配是信息抽取普遍采用的方法,如何生成模式是課題研究的難點(diǎn)和重點(diǎn)。本文根據(jù)中文自身的特點(diǎn),考慮到模式即為在文本中經(jīng)常出現(xiàn)的句法結(jié)構(gòu), 同時(shí)借鑒英文文本的模式獲取方法, 提出一種基于聚類的模式獲取方法,實(shí)現(xiàn)了從中醫(yī)醫(yī)案中自動(dòng)獲取模式。首先對(duì)文本進(jìn)行預(yù)處理,然后對(duì)分詞后的文本聚類,將分詞后的短語劃分為不同的類別, 則每個(gè)類別為一個(gè)模式集。將同一模式集中的模式實(shí)例進(jìn)行合并, 就可以得到最終的信息抽取模式。(2)研究信息抽取技術(shù)在中醫(yī)醫(yī)案領(lǐng)域的應(yīng)用,實(shí)現(xiàn)機(jī)器自動(dòng)識(shí)別中醫(yī)醫(yī)案里包含的“病”、“證”、“癥候”等相關(guān)屬性及病人基本信息形成最小數(shù)據(jù)冗余的數(shù)據(jù)。本文嘗試采用基于模式匹配的正則匹配
45、算法。第一步對(duì)文本進(jìn)行分詞、詞性標(biāo)注處理,第二步在模式庫的支持下,采用模式匹配算法,最終實(shí)現(xiàn)了機(jī)器對(duì)醫(yī)案的“人名”、“出診時(shí)間”、“癥候”信息的識(shí)別,以及實(shí)體間關(guān)系識(shí)別。論文的主要(zhyo)工作本文的主要工作包括(boku)以下幾個(gè)方面:1)綜述信息(xnx)抽取及相關(guān)技術(shù)方法,主要內(nèi)容包括相關(guān)概念的介紹,技術(shù)專有名詞的解釋說明,還包括對(duì)各種技術(shù)的分析。2)重點(diǎn)研究了基于模式的中醫(yī)醫(yī)案的信息抽取問題。構(gòu)建動(dòng)詞庫、模式庫。3)設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)基于中醫(yī)醫(yī)案的信息抽取原型系統(tǒng)。該系統(tǒng)提供了一個(gè)方法以供用戶使用,能夠很好的實(shí)現(xiàn)對(duì)中醫(yī)醫(yī)案信息的抽取。本文的組織結(jié)構(gòu)本文共分7章,每部分的組織如下:第一章
46、首先介紹了本課題的課題背景,闡述了課題的來源,目的及意義,說明了課題的研究?jī)?nèi)容。第二章給出了模式自動(dòng)生成的學(xué)習(xí)方法以及它們的優(yōu)缺點(diǎn)。第三章介紹了中醫(yī)領(lǐng)域中文文本的特點(diǎn),提出了信息抽取的任務(wù)。第四章介紹了模式自動(dòng)生成方法的思想和具體步驟,并給出了實(shí)驗(yàn)結(jié)果。第五章介紹了基于模式匹配的信息抽取方法第六章完成基于模式匹配的中醫(yī)醫(yī)案信息抽取系統(tǒng),實(shí)現(xiàn)了其中的命名實(shí)體識(shí)別(人名、地名、時(shí)間等名詞性短語)的工作第七章總結(jié)與展望最后是本文的參考文獻(xiàn),及本文作者對(duì)導(dǎo)師和實(shí)驗(yàn)室同學(xué)的衷心感謝!信息(xnx)抽取模式學(xué)習(xí)系統(tǒng)(xtng)綜述(zngsh)信息抽取模式學(xué)習(xí)系統(tǒng)分類為了進(jìn)行IE(Information
47、Extraction)模式的學(xué)習(xí),人們先后設(shè)計(jì)過各種IE模式獲取系統(tǒng),例如AutoSlog、PALKA、CRYSTAL、LIEP、AutoSlog-TS、ExDisco、TIMES等。根據(jù)IE模式獲取系統(tǒng)需要用戶輔助工作方式的不同,可以把這些系統(tǒng)分為四個(gè)類別:它們?yōu)榛谌斯ふZ料標(biāo)注的IE模式學(xué)習(xí)系統(tǒng),如AutoSlog、PALKA、CRYSTAL、LIEP等;基于人工語料分類的IE模式學(xué)習(xí)系統(tǒng),如AutoSlog-TS等;基于種子模式的自舉IE模式學(xué)習(xí)系統(tǒng),如ExDisco等;基于WordNet和語料標(biāo)注的IE模式學(xué)習(xí)系統(tǒng),如TIMES等。下面分別介紹這四類系統(tǒng)的工作原理?;谌斯ふZ料標(biāo)注的I
48、E模式學(xué)習(xí)系統(tǒng)基于人工語料標(biāo)注的IE模式學(xué)習(xí)系統(tǒng)的原理基于人工語料標(biāo)注的IE模式獲取系統(tǒng)的基本原理是:使用一種IE模式表示方式,人工預(yù)先標(biāo)注訓(xùn)練語料,接著利用機(jī)器學(xué)習(xí)的方法從訓(xùn)練語料中學(xué)出IE模式。例如AutoSlog、PALAK、CRYSTAL、LIEP。本節(jié)詳細(xì)介紹AutoSlog和PALKA的工作原理。AutoSlog是世界上第一個(gè)成功實(shí)現(xiàn)利用機(jī)器學(xué)習(xí)的方法獲取信息抽取模式的系統(tǒng),由Univ.of Massachusetts開發(fā)。AutoSlog的核心就是一個(gè)模式學(xué)習(xí)算法。對(duì)于一個(gè)特定的IE任務(wù),系統(tǒng)的輸入是人工標(biāo)注的訓(xùn)練語料,一套語言模式集(領(lǐng)域無關(guān))和一個(gè)相關(guān)領(lǐng)域的語義詞典。系統(tǒng)的輸
49、出是對(duì)應(yīng)案例語句的IE模式。另外,整個(gè)統(tǒng)的實(shí)現(xiàn)需要CIRCUS句法分析器的輔助支持,CIRCUS句法分析器的功能是自動(dòng)識(shí)別句子中的主語、謂語和賓語等。最后需要人工對(duì)學(xué)出的模式進(jìn)行審定和篩選。語言模式集(領(lǐng)域無關(guān))由人工設(shè)計(jì)而成。對(duì)于不同領(lǐng)域的信息抽取任務(wù),語言模式集并不需要做較大改動(dòng)。圖2.1列出了針對(duì)恐怖活動(dòng)事件用到的語言模式,以及與它們對(duì)應(yīng)的一條IE模式。 Linguistic Pattern Example passive-verb was murdered active-verb bombed verb infinitive attempted to kill auxiliary no
50、un attempted to killactive-verb bombed infinitive to kill verb infinitive threatened to attack gerund killing noun auxiliary fatality was noun prep bomb against active-verb prep ki11ed with passive-verb prep was aimed at 圖2. SEQ 圖2. * ARABIC 1 AutoSlog采用(ciyng)的語言表達(dá)模式(msh)及IE模式(msh)這里的語言模式集和IE模式的不同之
51、處在于:語言模式是領(lǐng)域無關(guān)的,是由人工預(yù)先給定的。而IE模式是由該系統(tǒng)自動(dòng)生成的,是給出的語言模式實(shí)例化的結(jié)果。IE模式用于對(duì)一個(gè)事件進(jìn)行信息抽取。語言模式“ active-verb”的含義是:一個(gè)充當(dāng)主語的語法成分后面緊跟著一個(gè)主動(dòng)形式的動(dòng)詞短語。該種形式的句法結(jié)構(gòu)在英語文本中經(jīng)常出現(xiàn),因而將此句型抽象出來作為一條語言模式。對(duì)應(yīng)于該語言模式的一個(gè)IE模式“was murdered”的含義是:句子經(jīng)過CIRCUS句法分析器處理后,“was murdered”充當(dāng)動(dòng)詞短語,動(dòng)詞短語的左側(cè)是主語語法成份,則此主語作為bombing事件的victim角色。若一個(gè)含有動(dòng)詞短語“was murdered
52、”的語句經(jīng)過句法分析后,在該動(dòng)詞短語的左側(cè)有一個(gè)充當(dāng)主語的語法成分,則該語法成分充當(dāng)bombing事件的victim角色。上圖中列出的其它語言模式和與每條語言模式相對(duì)應(yīng)的IE模式案例可按類似的方法解釋??梢允褂么朔椒ㄒ淮螌?duì)上述語言模式和IE模式解釋。AutoSlog13和PALKA13等是最早向知識(shí)獲取自動(dòng)化邁進(jìn)的系統(tǒng)之一。隨后實(shí)現(xiàn)的CRYSTAL和LIEP,也旨在實(shí)現(xiàn)知識(shí)獲取的自動(dòng)化。但這些系統(tǒng)仍較多的依賴于手工的參與,可認(rèn)為這些系統(tǒng)僅是一種半自動(dòng)化的知識(shí)獲取系統(tǒng)。如AutoSlog需要用手工標(biāo)注訓(xùn)練數(shù)據(jù),并設(shè)置啟發(fā)式搜索規(guī)則以獲取錨點(diǎn)(可認(rèn)為是觸發(fā)詞);CRYSTAL除了要有手工標(biāo)注數(shù)據(jù),
53、還要有語義層次和相關(guān)的詞典;PALKA需要手工定義的框架(含觸發(fā)詞)、語義層次和相關(guān)的詞典;LIEP則使用預(yù)先定義的關(guān)鍵詞和對(duì)象識(shí)別器,依賴與用戶的交互,給相關(guān)的語句分配事件類型。這些系統(tǒng)的特點(diǎn)是依賴手工標(biāo)記過的數(shù)據(jù)或通過與用戶的交互過程,利用加工過的語料,學(xué)習(xí)語言的模式規(guī)則,是一種典型的機(jī)器輔助式知識(shí)獲取。盡管如此,通過知識(shí)的半自動(dòng)獲取,系統(tǒng)仍然可以(ky)很大程度上減少手工的參與。如AutoSlog,其輸入可描述為“標(biāo)注實(shí)例+啟發(fā)(qf)規(guī)則”,雖然該系統(tǒng)仍在一定程度上依賴于領(lǐng)域?qū)I(yè)和語言學(xué)知識(shí),但已大大減少了手工的參與,原先需1500人小時(shí)構(gòu)建的概念節(jié)點(diǎn),AutoSlog只要5人小時(shí)進(jìn)行
54、(jnxng)監(jiān)督即可完成。CRYSTAL則向自動(dòng)化更靠近了一步,它的輸入可描述為“標(biāo)注實(shí)例+語義層次詞典”,無須人工監(jiān)督過程即可完成學(xué)習(xí)過程。Sentence: In La Oroya,Junin department,in the central Peruvian mountain range , public buildings (bombing,TARGET) were bombed and a car was detonated.CONCEPT NODEName: target-subject-passive-verb-bombedTrigger: bombedVariable Sl
55、ots: (target(SUBJECT*l)Constraints: (class PHYS一TARGET *SUBJECT*)Constant Slots: (type bombing)Enabling Conditions: ( passive) 圖2. SEQ 圖2. * ARABIC 2一個(gè)標(biāo)注后的語句及AutoSolg從中學(xué)出的一個(gè)概念節(jié)點(diǎn)FP-structure = Meaning Frame+Phrasal PatternMeaning Frame:(BOMBINGis-a:(TERRORIST-ACTION)keywords:(explode,hurl, throw, exp
56、losion, bomb,explosive, dynamite, grenade.)agent:(ANIMATE) ;optionalpatient:(PHYSICAL-OBJECT) ;optionaltarget:(PHYSICAL-OBJECT) ;optionalinstrument:(PHYSICAL-OBJECT) ;optionaleffect:(STATE) ;optionalPhrasal Pattern:(BOMB) BE HUTL AT (PHYSICAL-OBJ)FP-structure:(BOMBINGtarget:PHYSICAL OBi nstrument:BO
57、MBpattern:(i nstrument)BE HURL AT(target)圖2. SEQ 圖2. * ARABIC 3 PALKA的一個(gè)(y )FP-structure的例子基于人工(rngng)語料分類的IE模式學(xué)習(xí)(xux)系統(tǒng)該類系統(tǒng)的典型代表是AutoSlog-TS,它是有Riloff于 1996年發(fā)明的。AutoSlog-TS是AutoSlog的 后繼產(chǎn)品,相比AutoSlog,AutoSlog-TS對(duì)用戶的工作量與技能要求大大降低。該類系統(tǒng)的工作原理是:由人工將語料分為領(lǐng)域相關(guān)和領(lǐng)域不相關(guān)兩類,系統(tǒng)根據(jù)這種分類方式學(xué)習(xí)出IE模式。圖2.4顯示了AutoSlog-TS學(xué)習(xí)出I
58、E模式的過程。AutoSlog-TS系統(tǒng)的輸入是用戶給出的領(lǐng)域相關(guān)和不相關(guān)文檔集及AutoSlog中用到的語言模式。AutoSlog-TS系統(tǒng)的輸出是學(xué)習(xí)出的語言模式。整個(gè)過程可以分為兩個(gè)階段。第一階段,用戶提供出領(lǐng)域相關(guān)的和領(lǐng)域非相關(guān)的語料,使用CIRCUS句法分析器對(duì)語料進(jìn)行句法分析,然后根據(jù)(gnj)AutoSlog中用到的語言模式學(xué)習(xí)出相應(yīng)的Concept Node。例如(lr)句子“World trade center was bombed by terrorists”,經(jīng)過(jnggu)CIRCUS句法分析器處理的結(jié)果為:“World trade center”充當(dāng)句子的主語,“w
59、as bombed”充是句子的動(dòng)詞短語,“by terrorists”是介詞短語。根據(jù)AutoSlog中用到的語言模式“passive-verb”和“passive-verb prep (np)”,生成兩個(gè)Concept Node“ was bombed”和“bombed by ”。第二階段,對(duì)于第一階段學(xué)習(xí)出來的多個(gè)Concept Node,利用CIRCUS句法分析器對(duì)這些Concept Node進(jìn)行領(lǐng)域相關(guān)性打分。如果Concept Node的領(lǐng)域相關(guān)性較低,則去除這個(gè)Concept Node。例如圖2.4列出了計(jì)算出的領(lǐng)域相關(guān)性值,由于Concept Nodesaw 的領(lǐng)域相關(guān)性為49%
60、,小于50%,表示相關(guān)性較差,因此去除這個(gè)Concept Node。RRSentenceAnalyzerS:world trade centerV:was bombedPP:by terroristssAutoSlogHeuristicsConcept Nodeswas bombedbombed by RRConcept Node Dictionary:was killedwas bombedbombed by sawSentenceAnalyzerConcept Nodes REL%was bombed 87%bombed by 84%was killed 63%saw 49%圖2. SEQ
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 遼寧科技大學(xué)《中外戲劇鑒賞》2023-2024學(xué)年第一學(xué)期期末試卷
- 昆明理工大學(xué)《五官科護(hù)理學(xué)》2023-2024學(xué)年第一學(xué)期期末試卷
- 江蘇農(nóng)林職業(yè)技術(shù)學(xué)院《金融建模與計(jì)算》2023-2024學(xué)年第一學(xué)期期末試卷
- 吉林工程職業(yè)學(xué)院《植物食品加工工藝學(xué)》2023-2024學(xué)年第一學(xué)期期末試卷
- 湖南女子學(xué)院《材料分析測(cè)試原理》2023-2024學(xué)年第一學(xué)期期末試卷
- 【物理】第十章 浮力 單元練習(xí)+-2024-2025學(xué)年人教版物理八年級(jí)下冊(cè)
- 黑龍江能源職業(yè)學(xué)院《政治學(xué)導(dǎo)論》2023-2024學(xué)年第一學(xué)期期末試卷
- 高考物理總復(fù)習(xí)《電磁感應(yīng)規(guī)律及應(yīng)用》專項(xiàng)測(cè)試卷含答案
- 重慶五一職業(yè)技術(shù)學(xué)院《導(dǎo)航與制導(dǎo)系統(tǒng)》2023-2024學(xué)年第一學(xué)期期末試卷
- 重慶工貿(mào)職業(yè)技術(shù)學(xué)院《測(cè)繪學(xué)概論》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025新北師大版英語七年級(jí)下單詞表
- 《智慧城市概述》課件
- 2024年北京市家庭教育需求及發(fā)展趨勢(shì)白皮書
- GB/T 45089-20240~3歲嬰幼兒居家照護(hù)服務(wù)規(guī)范
- 中建道路排水工程施工方案
- 拆機(jī)移機(jī)合同范例
- 智能停車充電一體化解決方案
- 化學(xué)驗(yàn)室安全培訓(xùn)
- 天書奇譚美術(shù)課件
- GB/T 18916.15-2024工業(yè)用水定額第15部分:白酒
- 部編四年級(jí)道德與法治下冊(cè)全冊(cè)教案(含反思)
評(píng)論
0/150
提交評(píng)論