




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、信息自動(dòng)標(biāo)引技術(shù),2012年3月27日,自動(dòng)標(biāo)引技術(shù)概述,自動(dòng)標(biāo)引包括關(guān)鍵詞自動(dòng)提?。ㄓ址Q自動(dòng)抽詞標(biāo)引)與自動(dòng)賦詞標(biāo)引兩種類型。 文本挖掘領(lǐng)域:關(guān)鍵詞抽?。↘eyword Extraction) 在計(jì)算語(yǔ)言學(xué)領(lǐng)域:術(shù)語(yǔ)自動(dòng)識(shí)別(Automatic Term Recognition) 在信息檢索領(lǐng)域:自動(dòng)標(biāo)引(Automatic Indexing) 自動(dòng)標(biāo)引屬于文本信息抽取的范疇文本信息抽取是從文本數(shù)據(jù)中抽取人們關(guān)注的特定的信息。 關(guān)鍵詞自動(dòng)提取是一種識(shí)別有意義且具有代表性片段或詞匯的自動(dòng)化技術(shù)。,術(shù)語(yǔ)、敘詞(主題詞)、標(biāo)引詞包含關(guān)系圖。,信息描述顆粒度,自動(dòng)抽詞標(biāo)引和自動(dòng)賦詞標(biāo)引,自動(dòng)抽詞標(biāo)引
2、:指直接從原文中抽取詞或短語(yǔ)作為標(biāo)引詞來(lái)描述文獻(xiàn)主題內(nèi)容的過(guò)程。,自動(dòng)賦詞標(biāo)引:指使用預(yù)先編制的詞表中的詞來(lái)代替文本中的詞匯進(jìn)行標(biāo)引的過(guò)程 。,找到主題詞,轉(zhuǎn)換主題詞,自動(dòng)標(biāo)引的五十年研究歷程,1957年開(kāi)始進(jìn)行自動(dòng)標(biāo)引后開(kāi)始,到目前為止,自動(dòng)標(biāo)引研究經(jīng)歷了50年的發(fā)展歷程。 20世紀(jì)90年代初到90年代末,自動(dòng)標(biāo)引研究漸漸冷卻: 全文索引逐漸被人采用,并且基本上能滿足用戶需要; 傳統(tǒng)的自動(dòng)標(biāo)引方法的效率達(dá)到極限; 網(wǎng)絡(luò)興起之初的沖擊與信息需求環(huán)境的改變。 隨著信息量的增加,全文索引的功能越來(lái)越難以滿足實(shí)際需求,用戶需要更加精確的結(jié)果。 互聯(lián)網(wǎng)信息服務(wù):例如自動(dòng)摘要,文檔分類與聚類,文本分析,
3、主題檢索等都要依賴于關(guān)鍵詞自動(dòng)提取的結(jié)果,只有這樣才能有希望從根本上提高信息服務(wù)質(zhì)量。,研究歷程,1957年,Luhn開(kāi)始自動(dòng)標(biāo)引研究,首次將計(jì)算機(jī)技術(shù)引入文獻(xiàn)標(biāo)引領(lǐng)域,開(kāi)創(chuàng)了以詞頻為特征的統(tǒng)計(jì)標(biāo)引方法,其理論基礎(chǔ)是Zipf定律,該方法具有一定的客觀性和合理性,并且簡(jiǎn)單易行,在自動(dòng)標(biāo)引中占有重要地位。 基于絕對(duì)頻率加權(quán)法到基于相對(duì)頻率加權(quán)法到貝葉斯、遺傳算法、決策樹(shù)算法等機(jī)器學(xué)習(xí)方法到基于本體的自動(dòng)標(biāo)引方法到基于語(yǔ)言模型的關(guān)鍵詞提取方法到基于集成學(xué)習(xí)的關(guān)鍵詞抽取。,1957年,Luhn開(kāi)始自動(dòng)標(biāo)引研究,首次將計(jì)算機(jī)技術(shù)引入文獻(xiàn)標(biāo)引領(lǐng)域,開(kāi)創(chuàng)了以詞頻為特征的統(tǒng)計(jì)標(biāo)引方法,其理論基礎(chǔ)是Zipf定律
4、,該方法具有一定的客觀性和合理性,并且簡(jiǎn)單易行,在自動(dòng)標(biāo)引中占有重要地位。 1958年,Luhn提出基于絕對(duì)頻率加權(quán)法的自動(dòng)標(biāo)引方法P.B.Baxendale提出從論題句和介詞短語(yǔ)中自動(dòng)提取關(guān)鍵詞 1959年,Edmundson與Oswald提出基于相對(duì)頻率加權(quán)法的自動(dòng)標(biāo)引方法 1960年,Maron & Kuhns提出基于相關(guān)概率的賦詞標(biāo)引方法 1969年,H.P.Edmundson提出了一些新的加權(quán)方法,如提示詞(預(yù)示詞)加權(quán)法、題名加權(quán)法、位置加權(quán)法,并探討了不同加權(quán)法的最優(yōu)組合問(wèn)題 1970年,Lois L. Earl利用句法分析等語(yǔ)言學(xué)方法與詞頻統(tǒng)計(jì)方法相結(jié)合的方法來(lái)提取關(guān)鍵詞 19
5、73年,Salton等提出基于詞區(qū)分值的自動(dòng)標(biāo)引方法 1975年,Salton等將VSM模型用于自動(dòng)標(biāo)引中 1983年,Dillon等提出一種基于概念的自動(dòng)標(biāo)引方法,研制了FASIT系統(tǒng); 1985年,Devadason提出基于深層結(jié)構(gòu)標(biāo)引方法; 1990年,Deerwester & Dumais等提出潛在語(yǔ)義分析標(biāo)引法; 1993年,Silva & Milidiu提出基于相信函數(shù)模型的賦詞標(biāo)引方法; 1995年,Cohen提出N-Gram分析法的自動(dòng)標(biāo)引方法; 1997年,簡(jiǎn)立峰提出基于PAT樹(shù)的關(guān)鍵詞提取方法; 1999年,F(xiàn)rank等人提出基于樸素貝葉斯(Naive Bayes,NB)的
6、關(guān)鍵詞提取方法; 1999年, Turney 利用遺傳算法和C4.5決策樹(shù)算法等機(jī)器學(xué)習(xí)方法進(jìn)行關(guān)鍵短語(yǔ)提取的研究; 2001年,Anjewierden & Kabel提出基于本體的自動(dòng)標(biāo)引方法; 2003年,Tomokiyo & Hurst提出了基于語(yǔ)言模型的關(guān)鍵詞提取方法; 2003年, Hulth利用Bagging算法進(jìn)行了基于集成學(xué)習(xí)的關(guān)鍵詞抽??; 2004年,李素建提出基于最大熵模型的關(guān)鍵詞提取方法; 2006年,張闊提出基于SVM自動(dòng)標(biāo)引模型; 2007年,Ercan, G. & Cicekli, I提出基于詞匯鏈的自動(dòng)標(biāo)引方法。,研究路線圖,圖書(shū)情報(bào)領(lǐng)域,語(yǔ)言學(xué)領(lǐng)域,人工智能領(lǐng)域
7、,詞表資源,主題提取,知識(shí)學(xué)習(xí),三個(gè)領(lǐng)域,圖書(shū)情報(bào)領(lǐng)域,主要從資源構(gòu)建角度進(jìn)行研究,為主題標(biāo)引提供了豐富的詞表資源; 語(yǔ)言學(xué)領(lǐng)域,從語(yǔ)言分析的角度研究了主題提取的機(jī)制與方法,利用詞法知識(shí)、句法知識(shí)、語(yǔ)義知識(shí)以及篇章知識(shí)進(jìn)行不同層次的主題提取研究; 人工智能領(lǐng)域,主要從機(jī)器學(xué)習(xí)角度對(duì)自動(dòng)標(biāo)引進(jìn)行了大量的研究,如利用啟發(fā)式知識(shí)、標(biāo)記數(shù)據(jù)的機(jī)器學(xué)習(xí)、無(wú)標(biāo)記的機(jī)器學(xué)習(xí)、集成學(xué)習(xí)等方法的運(yùn)用。,兩個(gè)維度,自動(dòng)化程度維度:先后經(jīng)歷人工標(biāo)引、機(jī)器輔助標(biāo)引、自動(dòng)標(biāo)引等階段; 知識(shí)復(fù)雜程度維度:先后經(jīng)歷字、詞、短語(yǔ)、語(yǔ)塊、句法、語(yǔ)義、篇章結(jié)構(gòu)等不同顆粒度的多種知識(shí)。,自動(dòng)標(biāo)引技術(shù)的發(fā)展,絕大多數(shù)標(biāo)引系統(tǒng)不是完全
8、自動(dòng)的,標(biāo)引技術(shù)仍然處于實(shí)驗(yàn)階段。 自動(dòng)標(biāo)引的研究主流方法為統(tǒng)計(jì)學(xué)習(xí)模型與語(yǔ)言知識(shí)(如詞類、句法、語(yǔ)義、篇章結(jié)構(gòu)等)的結(jié)合。 語(yǔ)義檢索本體自動(dòng)構(gòu)建。,本體的提出概念空間,概念空間指用于描述領(lǐng)域中概念及其關(guān)系的概念模型,通過(guò)概念的組織形式來(lái)表達(dá)領(lǐng)域中的概念以及概念與概念之間的關(guān)系。長(zhǎng)期以來(lái),領(lǐng)域知識(shí)的表達(dá)依賴于特定的任務(wù),這樣不利于大規(guī)模的模型共享、系統(tǒng)集成、知識(shí)獲取和知識(shí)重用,因此需要與任務(wù)獨(dú)立的知識(shí)庫(kù)來(lái)表達(dá)領(lǐng)域概念空間,從而提出本體的概念。,本體 Ontology 概念,哲學(xué)概念:被哲學(xué)家用于描述事物的本質(zhì)。 本體:人工智能領(lǐng)域?qū)⒔o出構(gòu)成相關(guān)領(lǐng)域詞匯的基本術(shù)語(yǔ)和關(guān)系,以及利用這些術(shù)語(yǔ)和關(guān)系構(gòu)
9、成的規(guī)定這些詞匯外延的規(guī)則的集合。 本體是構(gòu)成語(yǔ)義網(wǎng)知識(shí)結(jié)構(gòu)的基礎(chǔ),通過(guò)本體對(duì)語(yǔ)義網(wǎng)中的概念和關(guān)系以及在此基礎(chǔ)上的規(guī)則進(jìn)行定義,從而進(jìn)行語(yǔ)義上的推理和判斷。,本體的特點(diǎn),本體是共享概念化的形式化的明晰的規(guī)范。是一整套對(duì)某一領(lǐng)域的知識(shí)進(jìn)行表述的詞和術(shù)語(yǔ)。根據(jù)知識(shí)結(jié)構(gòu)進(jìn)行類目的劃分組織。 概念化:概念的模型; 明晰的:概念及其應(yīng)用的明確限定; 形式化的:機(jī)器可讀,數(shù)學(xué)表達(dá); 共享:交互知識(shí),組織劃分。,本體自動(dòng)構(gòu)建研究,本體自動(dòng)構(gòu)建研究主要集中在自動(dòng)抽詞技術(shù)上,機(jī)器輔助編制詞表的研究可以直接用于賦詞標(biāo)引。隨著本體學(xué)習(xí)的研究的不斷深入,本體有望自動(dòng)或半自動(dòng)地被構(gòu)建,并且可用于自動(dòng)賦詞標(biāo)引當(dāng)中?;诒?/p>
10、體的自動(dòng)賦詞方法是在概念層面上對(duì)文本進(jìn)行標(biāo)引,并能識(shí)別概念之間的關(guān)系,標(biāo)引結(jié)果可以用于語(yǔ)義檢索當(dāng)中。,語(yǔ)義分析,自動(dòng)標(biāo)引主要依據(jù)候選對(duì)象的若干特征進(jìn)行分析,將主題表達(dá)能力強(qiáng)的候選對(duì)象作為標(biāo)引結(jié)果。 深層語(yǔ)言知識(shí)(詞法分析向句法分析過(guò)渡) 隨著深層語(yǔ)義分析和篇章分析研究的不斷深入,這些研究成果可用于自動(dòng)標(biāo)引任務(wù),提高標(biāo)引質(zhì)量。,多標(biāo)引方法集成,標(biāo)引是一項(xiàng)富有智能性的工作。我們可以借助認(rèn)知理論對(duì)標(biāo)引任務(wù)進(jìn)行分析和理解。 目前還沒(méi)有一種方法能完全模擬并達(dá)到標(biāo)引員的標(biāo)引能力。 多種標(biāo)引模型擬合或方法的集成學(xué)習(xí)要求每個(gè)標(biāo)引模型標(biāo)引結(jié)果存在差別,同時(shí)保證標(biāo)引結(jié)果優(yōu)于隨機(jī)猜測(cè)的結(jié)果。 多種標(biāo)引方法的集成學(xué)習(xí)、尋求更加理想的機(jī)器學(xué)習(xí)方法,并用于自動(dòng)標(biāo)引任務(wù)中,是今后自動(dòng)標(biāo)引研究的趨勢(shì)之一。,語(yǔ)義理解、自我學(xué)習(xí),自動(dòng)標(biāo)引技術(shù)從最初的尋找“關(guān)鍵詞”已經(jīng)發(fā)展到被廣泛用于文本檢索、
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 西藏清代糧倉(cāng)管理辦法
- 自貢養(yǎng)殖大棚管理辦法
- 逆向思維訓(xùn)練培訓(xùn)課件
- 肝膽微課護(hù)理課件
- 肝病護(hù)理課件
- 甘肅高考模擬數(shù)學(xué)試卷
- 肝病中醫(yī)護(hù)理課件
- 福建省泉州初三數(shù)學(xué)試卷
- 東營(yíng)三模數(shù)學(xué)試卷
- 課件制作的培訓(xùn)總結(jié)
- 腫瘤中心建設(shè)計(jì)劃書(shū)
- 快題設(shè)計(jì)課件
- 自考英語(yǔ)二4500詞匯匯總
- 工程居間保密協(xié)議
- 成都市2021級(jí)(2024屆)高中畢業(yè)班第一次診斷性檢測(cè)(一診)英語(yǔ)試卷(含答案)
- 多鐵性材料應(yīng)用
- 住院病歷點(diǎn)評(píng)匯總表
- 摩登家庭第一季臺(tái)詞中英對(duì)照
- 社會(huì)經(jīng)濟(jì)咨詢服務(wù)合同范本
- 建筑陶瓷磚檢測(cè)報(bào)告及原始記錄
評(píng)論
0/150
提交評(píng)論