【畢業(yè)學位論文】基于數(shù)據(jù)挖掘和信息抽取技術(shù)的專利數(shù)據(jù)屬性識別研究_第1頁
【畢業(yè)學位論文】基于數(shù)據(jù)挖掘和信息抽取技術(shù)的專利數(shù)據(jù)屬性識別研究_第2頁
【畢業(yè)學位論文】基于數(shù)據(jù)挖掘和信息抽取技術(shù)的專利數(shù)據(jù)屬性識別研究_第3頁
【畢業(yè)學位論文】基于數(shù)據(jù)挖掘和信息抽取技術(shù)的專利數(shù)據(jù)屬性識別研究_第4頁
【畢業(yè)學位論文】基于數(shù)據(jù)挖掘和信息抽取技術(shù)的專利數(shù)據(jù)屬性識別研究_第5頁
已閱讀5頁,還剩67頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

要 知識產(chǎn)權(quán)信息,尤其是專利信息蘊藏豐富的技術(shù)、法律、經(jīng)濟和戰(zhàn)略情報,在知識產(chǎn)權(quán)的創(chuàng)造、保護、管理和商業(yè)化的過程中都發(fā)揮著至關(guān)重要的作用。專利信息是指某項技術(shù)在謀取專利權(quán)過程中的各種信息,它具有重要的戰(zhàn)略價值,是國家科技信息系統(tǒng)中重要的組成部分,是信息資源開發(fā)的重點。如何科學地使用專利信息和做好專利分析工作,是目前專利研究領(lǐng)域的重要課題。 本文從專利檢索用戶的角度出發(fā),對美國專利數(shù)據(jù)屬性進行了重新規(guī)劃。根據(jù)專利信息專利權(quán)人(申請人)屬性的特點,利用信息抽取、關(guān)聯(lián)分析等技術(shù),提出基于關(guān)聯(lián)規(guī)則的同指消解抽取模型。同時,利用此方法對通信專利數(shù)據(jù)進行模型訓練,從中抽取出可不斷擴充的同指辭典。該辭典可用于建立專利檢索中的申請人公司樹,從而提高專利在申請人檢索方面的查全率。 另外,根據(jù)專利信息發(fā)明人屬性的特點,利用信息抽取、聚類分析等技術(shù),構(gòu)建基于聚類分析的異指消解抽取模型,提出了一套全新的命名實體識別模型及其算法,并選擇合適的抽取結(jié)果輸出方式。然后,通過實證數(shù)據(jù)進行模型實驗,從中抽取出可維護和可擴展的異指庫,以便建立專利檢索中的發(fā)明人異指標引,提高專利在發(fā)明人檢索方面的查準率。 本文有機地結(jié)合辭典、規(guī)則和統(tǒng)計模型方法,提出了基于關(guān)聯(lián)規(guī)則的同指消解模型和基于聚類分析的異指消解模型,并在此基礎上進行了大量的人工指導和機器學習訓練。實驗結(jié)果表明,本文所設計的信息抽取系統(tǒng)基本令人滿意。 關(guān)鍵詞 :信息抽取 數(shù)據(jù)挖掘 專利信息 同指 異指 a in of of of in of of It is of it is of to of do a in is an On we We on in by of so in to of s At of to be is to of of on to of By on of on of is to to up a of on of on On we a of of in 錄 . 緒 論 . . 1 題背景 . . 1 究的主要內(nèi)容和意義 . 文結(jié)構(gòu)與安排 . . 3 2 信息抽取和數(shù)據(jù)挖掘技術(shù)綜述 . . 5 息抽取 . . 5 息抽取的概述 . . 5 息抽取的發(fā)展 . . 5 息抽取處理的研究對象 . 7 息抽取的類型 . . 8 息抽取的方法設計與流程 . 8 息抽取系統(tǒng)的性能評價 . 9 結(jié)構(gòu)化的信息抽取和非結(jié) 構(gòu)化的信息抽取 . 10 據(jù)挖掘技術(shù) . . 11 據(jù)挖掘的概述 . . 11 據(jù)挖掘的發(fā)展 . . 12 聯(lián)規(guī)則 . . 13 類技術(shù) . . 13 3 基于關(guān)聯(lián)規(guī)則的同指消解技術(shù) . . 16 指消解定義 . . 16 于關(guān)聯(lián)規(guī)則的同指消解模型 的提出 . 17 據(jù)的選擇 . . 19 絡專利數(shù)據(jù)庫 . 19 據(jù)預處理 . . 20 聯(lián)規(guī)則 . . 22 于關(guān)聯(lián)規(guī)則的同指消解模型 設計與實驗 . 26 利數(shù)據(jù)獲取 . . 26 指數(shù)據(jù)庫設計 . . 30 于關(guān)聯(lián)規(guī)則的同指模型設計 . . 34 驗結(jié)果分析 . . 38 專利檢索中的應用 . 專利權(quán)人的公司樹建立 . 40 司樹檢索的意義 . . 41 章小結(jié) . . 41 4 基于聚類分析的異指消解技術(shù) . . 43 指消解定義 . . 43 于聚類分析的異指消解模型 的提出 . 43 類方法. . 44 于聚類規(guī)則的異指消解模型 設計與實驗 . 46 利數(shù)據(jù)獲取 . . 46 指數(shù)據(jù)庫設計 . . 47 于聚類分析的異指模型建立 . . 48 驗結(jié)果分析 . . 53 專利檢索中的應用 . 發(fā)明人標引的建立 . . 54 明人標引的意義 . . 55 章小結(jié) . . 55 5 總結(jié) . . 57 究工作總結(jié) . . 57 論文的創(chuàng)新之處 . . 57 究限制 . . 58 一步的工作 . . 58 致 謝 . . 59 . 60 參考文獻 . . 61 利基本信息圖 . 息抽取模型圖 . 面的結(jié)構(gòu)模式 . 指關(guān)系圖 . 于關(guān)聯(lián)規(guī)則的同指消解圖 . 國專利示意圖 . 頁格式的專利文本 . 于 法的文本預處理流程 . 司辭典庫示例 . 利信息(全) . 處理專利數(shù)據(jù)(同指) . 聯(lián)規(guī)則消解 . 于聚類分析的異指消解模型 . 類算法圖 . 處理專利數(shù)據(jù)(異指) . 息對應 . 類分析過程圖 . 據(jù)挖掘數(shù)據(jù)方案建立 . 維數(shù)據(jù)集建立 . 類分析結(jié)果 . 類矩陣分析結(jié)果 . 入挖掘分析結(jié)果 . 利基本信息表 . 信技術(shù)領(lǐng)域英文檢索式 . 利數(shù)據(jù)信息 . 信技術(shù)專題美國專利數(shù)據(jù)庫數(shù)據(jù)狀況 . 典庫 . 狀表 . 狀顯示表 . 處理專利數(shù)據(jù)(同指) . 產(chǎn)公司表 . 點規(guī)則去除 . 文大小寫規(guī)則去除 . 名規(guī)則去除 . 稱規(guī)則去除 . 公司規(guī)則去除 . 則數(shù)據(jù)表 . 本訓練數(shù)據(jù)表 . 練階段信息抽取模型性能評價指標 . 試階段信息抽取模型性能評價指標 . 處理專利數(shù)據(jù)(異指) . 產(chǎn)發(fā)明人 . 立點分析 . 本訓練數(shù)據(jù)表 . 練階段信息抽取模型性能評價指標 . 型測試數(shù)據(jù)表 . 試階段信息抽取模型性能評價指標 .京理工大學碩士學位論文 11 緒 論 題背景 自中國入世以來,市場的全球化要求我國企業(yè)必須遵循以知識產(chǎn)權(quán)為核心的國際競爭規(guī)則。而相對處于弱勢的我們,在知識產(chǎn)權(quán)領(lǐng)域已連遭重創(chuàng)并面臨日益嚴峻的挑戰(zhàn)。我國企業(yè)迫切需要站在戰(zhàn)略的高度,來認識和處理知識產(chǎn)權(quán)問題,制定適合自身發(fā)展的知識產(chǎn)權(quán)戰(zhàn)略,以增強國際競爭力,實現(xiàn)可持續(xù)發(fā)展1 2。 戰(zhàn)略合理、有效的制定離不開全面、準確的信息。知識產(chǎn)權(quán)信息,尤其是專利信息蘊藏豐富的技術(shù)、法律、經(jīng)濟和戰(zhàn)略情報,在知識產(chǎn)權(quán)的創(chuàng)造、保護、管理和商業(yè)化的過程中都發(fā)揮著至關(guān)重要的作用。專利信息的有效利用直接關(guān)系到知識產(chǎn)權(quán)戰(zhàn)略的制定及實施3。 專利信息是指某項技術(shù)在謀取專利權(quán)過程中的各種信息,它具有重要的戰(zhàn)略價值,是國家科技信息系統(tǒng)中重要的組成部分,是信息資源開發(fā)的重點。專利信息的分析研究正在國內(nèi)外廣泛開展??偟恼f來,對于專利的分析主要從定性和定量兩個角度展開。定性分析主要從專利信息的內(nèi)容著手,通過分析專利中的某些特定信息項以獲得相關(guān)專利分析情報。定量分析則主要對一些專利中的固有標引項目指標進行統(tǒng)計分析,再從技術(shù)和經(jīng)濟的角度對有關(guān)統(tǒng)計數(shù)據(jù)的變化進行解釋,以獲得動態(tài)發(fā)展趨勢的分析結(jié)果4。 圖 利基本信息圖 如圖 條完整的專利包含了 31項標引內(nèi)容5。目北京理工大學碩士學位論文 2前的專利研究主要圍繞著專利的申請日期、發(fā)明人、專利權(quán)人(所屬機構(gòu)) 、國家、是卻存在著諸多不足:比如記錄著關(guān)鍵技術(shù)信息的專利摘要一直得不到有效地利用;發(fā)明人存在的同名同姓現(xiàn)象無法區(qū)分;相同機構(gòu)的不同名稱無法合并等。究其原因是由于目前專利分析僅僅是一些簡單的統(tǒng)計分析,如針對領(lǐng)域?qū)@麛?shù)量、申請者、所在機構(gòu)、申請國家的分析,不具備自然語言的功能,因此無法對其進行有效分析。不能有效處理包括專利摘要、發(fā)明人、專利權(quán)人(所屬機構(gòu))等屬性在內(nèi)的專利文本信息,直接影響了專利信息的利用率,也制約著專利分析向更深層次的內(nèi)容挖掘方面發(fā)展。為了解決當前專利信息分析所面臨的問題,本文創(chuàng)新性的將數(shù)據(jù)挖掘和信息抽取技術(shù)引入到專利信息的分析應用中,以便有效地分析和處理專利信息,從中獲得專利技術(shù)信息, 填補目前專利信息分析研究中的空白,將定性與定量分析方法結(jié)合起來,為我國專利信息分析的發(fā)展提供有益的參考6。 究的主要內(nèi)容和意義 在本課題中,我們將研究重點放在專利信息的有效利用上,把信息抽取技術(shù)、數(shù)據(jù)挖掘技術(shù)應用在專利信息分析中,充分發(fā)揮信息抽取和數(shù)據(jù)挖掘技術(shù)在處理海量文本信息方面的優(yōu)勢,以期實現(xiàn)自動地抽取申請人、發(fā)明人等的重要信息,并嘗試融合先進的專利信息分析方法,建立一套 全新的專利信息分析系統(tǒng)以替代傳統(tǒng)的人工分析,從而提高專利信息分析工作的質(zhì)量和效率,為國家的專利戰(zhàn)略服務。首先,文本理解不是本文研究的重點,所以本文所提到的方法很少涉及深層次的自然語言理解問題,只是應用數(shù)據(jù)挖掘和自然語言處理過程中相關(guān)的統(tǒng)計方法。另一方面,本文主要研究將發(fā)明人、專利權(quán)人(所屬機構(gòu))進行同指和異指關(guān)系關(guān)聯(lián)和區(qū)別,再通過人工指導訓練和機器學習相結(jié)合的方式設計同指和異指信息抽取的實驗平臺。 本文的研究目的是設計基于關(guān)聯(lián)規(guī)則的同指信息抽取模型和基于聚類方法的異指信息抽取模型,主要工作歸納如下: (1)對信息抽取和數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則和聚類分析進行了綜述,并描述信息抽取的評價方法,設計了基于關(guān)聯(lián)規(guī)則的同指信息抽取模型和基于聚類分析方法的異指信息抽取模型。 (2)根據(jù)專利數(shù)源的特征,在數(shù)據(jù)準備階段利用知識發(fā)現(xiàn)與數(shù)據(jù)分析實驗室的專利自動下載工具從網(wǎng)上專利數(shù)據(jù)庫下載的原始專利數(shù)據(jù),再對獲取到的專利數(shù)據(jù)進行清北京理工大學碩士學位論文 3洗、非相關(guān)主題信息過濾、專利信息分塊、數(shù)據(jù)庫導入等操作,從而積累了大量真實有效的專利結(jié)構(gòu)化信息。 通過以上研究內(nèi)容顯示,將信息抽取技術(shù)應用于專利信息分析中,對于專利信息分析有以下幾點意義: (1)體現(xiàn)了專利分析工作的時效性。對于公開的專利資源,目前分析者常常是通過紙質(zhì)或互聯(lián)網(wǎng)粗略收集專利信息,專利中大量關(guān)鍵的技術(shù)信息還得通過人工過程加以識別和分析。信息檢索技術(shù)雖然為找到目標信息提供了很好的支持,但還得根據(jù)它提供的地址去訪問每一個頁面,工作量大且浪費時間。信息抽取技術(shù)通過智能化處理過程大大縮短了專利信息的分析處理時間,體現(xiàn)了專利工作的時效性。 (2)實現(xiàn)了專利信息的動態(tài)監(jiān)測。信息抽取技術(shù)的使用為專利的快速分析和傳遞提供了可能,更有效地實現(xiàn)了專利信息的動態(tài)監(jiān)測。 (3)實現(xiàn)智能化的信息處理。原有的信息獲取技術(shù)實現(xiàn)的是單純的信息獲取,在信息的識別、判斷和分析處理方面明顯不足。信息抽取技術(shù)本質(zhì)上是一種信息獲取技術(shù),但它在某種程度上實現(xiàn)了信息的自動識別、判斷和分析處理。 (4)專利定性和定量分析方法的結(jié)合。通過信息抽取將專利摘要中的技術(shù)關(guān)鍵詞定性的提取出來,就可以進行技術(shù)關(guān)鍵詞分類、關(guān)聯(lián)分析和統(tǒng)計研究,從而將定量分析方法有機結(jié)合起來。 (5)實現(xiàn)規(guī)范化的管理。傳統(tǒng)的管理方式散亂、不易查找,信息抽取最后結(jié)構(gòu)化的表達方式易于理解且方便管理。充分利用這種現(xiàn)代信息技術(shù),使需要的專利技術(shù)信息得到及時、準確的處理,并實現(xiàn)數(shù)據(jù)庫管理的自動化、規(guī)范化。 因此,進行專利的信息抽取和數(shù)據(jù)挖掘研究應用,可以豐富專利信息分析研究方法,提高專利信息利用率,不僅具有理論研究價值,其實踐應用也非常高。 文結(jié)構(gòu)與安排 本文根據(jù)結(jié)構(gòu)安排,共分為五個章節(jié): 第一章:緒論包括本文的選題背景、主要研究內(nèi)容與意義、論文的結(jié)構(gòu)安排以及文章創(chuàng)新點設計 第二章:信息抽取技術(shù)綜述主要介紹信息抽取技術(shù)的概念、研究對象、研究歷史及發(fā)展現(xiàn)狀、信息抽取的類型、方法設計與流程、抽取模型選擇和信息抽取系統(tǒng)的性能評北京理工大學碩士學位論文 4價;數(shù)據(jù)挖掘技術(shù)綜述主要介紹的概述、發(fā)展、關(guān)聯(lián)規(guī)則、聚類的介紹。 第三章:基于關(guān)聯(lián)規(guī)則的同指消解技術(shù)的提出。根據(jù)專利信息的特點設計了一個抽取模型,主要包括專利數(shù)據(jù)源分析、專利數(shù)據(jù)獲取、專利數(shù)據(jù)存儲、專利信息抽取、專利信息服務探討等以便建立新的理論和方法模型。同時,利用此方法通過通信專利數(shù)據(jù)進行模型的實驗,把準備好的專利數(shù)據(jù)信息結(jié)合人工指導和機器學習訓練從中抽取出同指庫,并將抽取結(jié)果生成基于同指的專利辭典。該辭典可用于建立專利檢索中的申請人公司樹,從而提高專利在申請人檢索方面的查全率。 第四章:基于聚類分析的異指消解技術(shù)的建立。專利異指抽取模型的總體框架與流程設計,解決數(shù)據(jù)準備問題,對專利數(shù)據(jù)進行預處理,設計辭典、規(guī)則與統(tǒng)計方法相結(jié)合的分析,提出了一套全新的命名實體識別模型及其算法,并選擇合適的抽取結(jié)果輸出方式。然后,通過實證數(shù)據(jù)進行模型的實驗,結(jié)合人工指導和機器學習訓練,從專利中抽取出異指庫,并將抽取結(jié)果生成基于異指關(guān)系的專利辭典,以便建立專利檢索中的發(fā)明人異指標引,提高專利在發(fā)明人檢索方面的查準率。 第五章:總結(jié)和展望總結(jié)全文,概述研究工作成果及意義,提出本文的創(chuàng)新之處,明確當前研究的不足和下一步的工作方向。 北京理工大學碩士學位論文 52 信息抽取和數(shù)據(jù)挖掘技術(shù)綜述 息抽取 信息抽取是面向結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化文本所進行的淺層的或者說簡化的文本理解技術(shù),其定義為從一段文本或一處信息中抽取指定的一類信息并將其形成結(jié)構(gòu)化的數(shù)據(jù)填入一個數(shù)據(jù)庫中供用戶查詢使用的過程7。即它從文本中抽取用戶感興趣的事件、實體和關(guān)系,然后進入數(shù)據(jù)庫,分析趨勢,或進行在線服務。信息抽取還可以看作是信息檢索的進一步深化,研究指定信息的查找、理解和抽取,并將指定信息以適當?shù)姆绞捷敵?。信息抽取已?jīng)發(fā)展成為自然語言處理領(lǐng)域的一個重要分支,涉及到了深層次的語言理解、篇章分析與推理、多語言文本處理、息抽取、名實體識別等自然語言研究領(lǐng)域8。 息抽取的概述 信息抽取(E)技術(shù)正是這樣一種新型的能滿足上述要求的自然語言處理技術(shù),它通過對原文檔信息內(nèi)容的分析抽取出有意義的事實生成滿足用戶要求的簡潔的信息9。信息抽取系統(tǒng)不僅能幫助人們方便地找到所需信息,而且信息的內(nèi)容經(jīng)過合理的分析和組織人們可以高效地獲取所感興趣的信息內(nèi)容10。一方面信息抽取系統(tǒng)從文檔(例如 檔)中抽取指定領(lǐng)域的信息并使用信息模板來刻畫原文檔信息; 另一方面信息抽取系統(tǒng)將非結(jié)構(gòu)化的文本化,并將結(jié)構(gòu)化的信息組織存儲到信息庫中使用戶能夠方便地進行進一步的數(shù)據(jù)分析和查詢工作11。信息抽取的任務就是將源文檔所包含的信息內(nèi)容抽取出來并按模板的結(jié)構(gòu)組織存儲形成結(jié)構(gòu)化的信息庫。在信息抽取得到的結(jié)構(gòu)化信息庫的基礎上,可以進一步完成信息搜索(數(shù)據(jù)挖掘( 機器翻譯( 文本生成(后續(xù)信息處理1213。 息抽取的發(fā)展 通過調(diào)查我們發(fā)現(xiàn)目前信息抽取在專利信息分析方面的應用研究在國內(nèi)外都還處于起步階段,而我們將信息抽取 技術(shù)應用于專利信息的分析更是一項全新的嘗試。從另一個方面講,這也是科學研究中多學科交叉、多技術(shù)融合大前提下的發(fā)展必然14。 雖然尚沒有直接以信息抽取應用于專利信息分析的先例,但是信息抽取的概念已經(jīng)北京理工大學碩士學位論文 6出現(xiàn)在了很多相關(guān)專利信息分析的工作中并發(fā)揮著重要的作用: 從自然語言文本中獲取結(jié)構(gòu)化信息的研究最早開始于 20 世紀 60 年代中期,這被看作是信息抽取技術(shù)的初始研究,它以兩個長期的、研究性的自然語言處理項目為代表。一個是美國紐約大學開展的 目,開始于 60年代中期并一直延續(xù)到80 年代。另一個相關(guān)的長期項 目是由耶魯大學 其同事在 20 世紀 70 年代開展的有關(guān)故事理解的研究15。從 20世紀 80年代末開始,消息理解系列會議(召開標志著信息抽取研究蓬勃開展起來。近幾年,信息抽取技術(shù)的研究與應用更為活躍。以美國國家標準技術(shù)研究所(織的自動內(nèi)容抽取正在推動信息抽取研究進一步發(fā)展1617。 在研究方面,主要側(cè)重于:利用機器學習技術(shù)增強系統(tǒng)的可移植能力、探索深層理解技術(shù)、篇章分析技術(shù)、多語言文本處理能力、及對時間信息的處理等等22。在應用方面,信息抽取應用的領(lǐng)域非常廣泛,除自成系統(tǒng)以外,還與其他文檔處理技術(shù)結(jié)合建立功能強大的信息服務系統(tǒng)18。 目前國外現(xiàn)有的比較典型的信息抽取系統(tǒng)主要包括: 統(tǒng)是早在 1981 年由 究出來關(guān)于動植物正 規(guī)結(jié)構(gòu)描述數(shù)據(jù)庫的系統(tǒng)及其商用化產(chǎn)品。該系統(tǒng)采用了 概念句子分析技術(shù),通過一些簡單的語言處理技術(shù)能夠完成限制在小規(guī)模,特定專業(yè)領(lǐng)域的信息抽取任務19。 美國 究與開發(fā)中心的 研制的 。便判定該報道的內(nèi)容是否與“公司合并”有關(guān);然后采用自底向上的分析器識別句子結(jié)構(gòu),生成概念表示;最后應用自頂向下的預期驅(qū)動分析器提取預期內(nèi)容20。 美國加里福尼亞斯坦福研究 所人工智能中心從 1991年開 始開發(fā)的一個基于多層、 非確定有限狀態(tài)自動機模型的自然語言文本信息抽取系統(tǒng)21。 統(tǒng),分別采用統(tǒng)計學的方 法進行詞匯標注和語法 分析與使用一組通用的文本處理模塊滿足不同的文本處理應用的需要22 23。 由德國人工智能研究中心語言技術(shù)實驗室(目中所開發(fā)的北京理工大學碩士學位論文 7一個聯(lián)機的德語文檔信息抽取智能系統(tǒng) 24。 在中文信息抽取領(lǐng)域,國立 臺灣大學和新加坡肯特崗數(shù)字實驗室參加了 文命名實體識別任務的評測。國研究中心的 等人在命名實體以及這些實 體間相互關(guān)系的信息抽取系統(tǒng)。近年來包括中國科學院、北京大學、哈爾濱工業(yè)工學和上海交通大學等一批高校和研究機構(gòu)也在中文抽取方面開展了大量的工作,并且取得了一定的研究成果。但是中文信息抽取方面的研究相對起步較晚,純粹的基于中文的信息抽取系統(tǒng)在國內(nèi)仍處于空白,主要的研究工作集中在對中文命名25。 信息抽取技術(shù)是當前的熱門研究方向?qū)W術(shù)會議很頻繁其中最重要的一個會議是 是一個由美國政府資助的為推動 術(shù)發(fā)展的重要的系列工程,迄今為止已經(jīng)舉辦了七屆 用競賽的方式每一屆都提供標準的語料并定義了各種不同的子任務來對參賽的信息抽取系統(tǒng)進行評估,其難度也是越來越大,研究機構(gòu)。參加 1998 年的 最近的一次 的信息抽取任務涉及抽取文檔中的專名(人名組織名和地點名)、同指項、確定模板元素之間的關(guān)系如地點關(guān)系、雇傭關(guān)系和生產(chǎn)關(guān)系等,抽取文檔中的事件文檔包含多語種的新聞稿。訓練用的文檔專業(yè)領(lǐng)域是關(guān)于飛機墜毀報道,而測試用的文檔專業(yè)領(lǐng)域是關(guān)于發(fā)射事件報道。信息抽取的發(fā)展趨勢有:在抽取內(nèi)容方面由單語種向多語種發(fā)展;由簡單的領(lǐng)域?qū)嶓w抽取向?qū)嶓w的屬性和實體間關(guān)系事件的抽取發(fā)展;在抽取方法方面,由單一的基于規(guī)則的系統(tǒng)向結(jié)合機器學習和統(tǒng)計方法的多策略系統(tǒng)發(fā)展;由表層的句子級的語言處理向深層的篇章級的語言處理發(fā)展;在實際應用方面,由早期的理論研究和技術(shù)探討逐漸向?qū)嶋H應用系統(tǒng)的開發(fā)發(fā)展24。 息抽取處理的研究對象 狹義的信息抽取,其處理對象主要是各種文本信息,包括結(jié)構(gòu)化文本信息、半結(jié)構(gòu)化文本信息和自由文本信息。而廣義上的信息抽取處理對象則還包括了語音、圖像和視頻等多媒體數(shù)據(jù)信息。在這里,主要研究的是狹義的信息抽取技術(shù)26。 信息抽取的最初目的是開發(fā)實用系統(tǒng),從自由文本中抽取有限的主要信息。處理自由文本的信息抽取系統(tǒng)通常使用自然語言處理技巧,其抽取規(guī)則主要建立在詞和詞類間北京理工大學碩士學位論文 8句法關(guān)系的基礎上。需要經(jīng)過的處理步驟包括:句法分析、語義標注、命名實體識別和抽取規(guī)則。 結(jié)構(gòu)化文本信息是一種存儲于數(shù)據(jù)庫里的文本信息,或者根據(jù)事先規(guī)定的嚴格格式生成的文本信息。從這樣的文本信息中抽取信息是非常容易的,準確度也很高,通過描述其格式即可達到目的。 半結(jié)構(gòu)化文本信息是一種介于自由文本信息和結(jié)構(gòu)化文本信息之間的數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論