基于語義的自動文摘介紹課件_第1頁
基于語義的自動文摘介紹課件_第2頁
基于語義的自動文摘介紹課件_第3頁
基于語義的自動文摘介紹課件_第4頁
基于語義的自動文摘介紹課件_第5頁
已閱讀5頁,還剩16頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、基于語義的自動文摘介紹計算機(jī) 1 介紹 2 兩個語義模型 2.1語義知識模型 2.2 統(tǒng)計主題模型 3 總結(jié)目錄31、介紹基于語義的自動文摘方法能解決自動文摘處理中語言復(fù)雜性問題,在克服領(lǐng)域局限性的同時從本質(zhì)上提高文摘的質(zhì)量.常用語義模型包括統(tǒng)計主題模型和語義知識模型.基于語義的自動文摘是對傳統(tǒng)文摘技術(shù)基于語義模型的擴(kuò)充,在自動文摘的預(yù)處理、文檔轉(zhuǎn)換、文檔候選片段提取和文摘生成4個基本過程中使用各種語義分析方法.4 基于語義的自動文摘方法,采用語義學(xué)、哲學(xué)、統(tǒng)計學(xué)和概率學(xué)等多領(lǐng)域知識,通過語義模型對語義空間建模,生成文檔在語義空間里的表示,然后通過語義分析手段提取文摘候選片段,根據(jù)片段之間的語

2、義關(guān)系得到可讀性強(qiáng)的文摘結(jié)果. 基于語義的自動文摘方法能解決自動文摘處理中語言復(fù)雜性問題,在克服領(lǐng)域局限性的同時從本質(zhì)上提高文摘的質(zhì)量.1、介紹52、兩個語義模型統(tǒng)計主題模型和語義知識模型.2.1 語義知識模型以語義關(guān)系為重點(diǎn)描述對象,以語義知識庫為表示形式,為涉及到語言形式的計算機(jī)處理操作提供語義知識約束條件.作為一個具有結(jié)構(gòu)性、代表性、可機(jī)讀性的一定規(guī)模的語義知識集合,語義知識庫在自然語言處理的各個領(lǐng)域都有廣泛的應(yīng)用.應(yīng)用較為廣泛的語義知識庫包括:WordNet和HowNet等本體庫.7HowNetHowNet:漢語+英語以揭示概念與概念之間,以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識

3、知識庫。知識工程師來設(shè)計知識庫的框架。HowNet認(rèn)為所有概念都是由基本義元組成.它通過對中文基本義元的分析,用有限的義元集合描述無限的概念集合,然后再將概念與概念之間的關(guān)系及概念的屬性與屬性之間的關(guān)系用網(wǎng)狀的知識系統(tǒng)表示出來.8Ontology本體本體是關(guān)于一些主題的清晰規(guī)范的說明。1 術(shù)語表2 術(shù)語關(guān)系集主題圖的概念模型10MeSH1. 嚴(yán)格規(guī)范的科學(xué)語言。不允許一詞多義和一義多詞。把同義檢索詞歸一檢索。嚴(yán)格的同義規(guī)范、詞義規(guī)范、詞類規(guī)范、詞型規(guī)范,明確詞的含義及所涉及的范圍,使得每一個敘詞在詞語的形式和語義上只能有一個概念,不允許一詞多義和一義多詞,避免了標(biāo)引人員和檢索人員人為造成的誤差

4、。在檢索中,最為檢索人員熟悉的是Neoplasm這個科學(xué)用詞,它包含了Tumors,Tumor,Benign Neoplasms,Neoplasms,Benign,Benign Neoplasm,Neoplasm,Benign,Cancer,Cancers這些同義詞,這些同義詞以入口詞的形式出現(xiàn)在MeSH表中,當(dāng)用MeSH對醫(yī)學(xué)知識進(jìn)行標(biāo)引、組織和檢索時,表達(dá)腫瘤概念的也只能是科學(xué)語言Neoplasm,而不是本時常用的Tumor,Cancer等自然語言。11MeSH2、 樹狀結(jié)構(gòu)表主題詞劃分15類:1-9級邏輯和隸屬關(guān)系樹狀結(jié)構(gòu)表將字順表中的主題詞按照每個詞的詞義范疇和學(xué)科屬性,分別歸入15個

5、大類之中,多數(shù)大類又進(jìn)一步細(xì)分多達(dá)9 級。每一級類目用一組號碼標(biāo)明,級與級之間用“.”號隔開。主題詞上、下級之間采用逐級縮進(jìn)格式表現(xiàn)主題之間的隸屬關(guān)系,每個主題詞都有一個或兩個以上的樹狀結(jié)構(gòu)號,該號是聯(lián)系字順表和樹狀結(jié)構(gòu)表的紐帶。12MeSH3. 詞組性主題詞的彌補(bǔ)作用MeSH詞組性主題詞的兩種形式:自然語序:adj+n Hypothalamic Disease倒裝語序:n+adj 名詞形中心詞提前例如:ColonColon,AscendingColon,DescendingColon,SigmoidColon,Transverse142.2 統(tǒng)計主題模型 統(tǒng)計主題模型(Statistical

6、 topic models)通過參數(shù)估計尋找一個低維的多項式分布集合,每個多項式分布稱為一個主題(Topic),用來捕獲詞之間的相關(guān)信息. 潛在語義分析(LSA)是由Deerwester等人3于1988年提出的最早的統(tǒng)計主題模型.它對語義距離的估計,不是依賴表層的統(tǒng)計數(shù)據(jù),而是采用一種具有強(qiáng)大推論能力的數(shù)學(xué)分析方法奇異值分解(SVD). 1999年Hofmann提出的PLSA模型來模擬文檔中詞的產(chǎn)生過程.2003年Blei等人基于PLSA提出了LDA模型,對文檔的產(chǎn)生過程進(jìn)行模擬,發(fā)現(xiàn)的主題能捕獲詞之間的相關(guān)性.15統(tǒng)計主題模型PLSA PLSA模型將文檔的生成這樣設(shè)計:第一步,我們拋一個有H面的骰子,每個面代表一個主題,各個面概率不一,得到一個主題;第二步,這個主題又對應(yīng)了一個有T個面的骰子,每個面代表一個詞,拋這骰子N次,得到一篇文章。其實我覺得這個模型可以看作是兩個詞袋模型的組合,第一個做一次,確定主題,第二個重復(fù)獨(dú)立做N詞,確定文章。下面是一個直觀圖(借用LDA數(shù)學(xué)八卦的圖了):17統(tǒng)計主題模型LDA18統(tǒng)計主題模型LDALDA模型中一篇文檔生成的方式如下:19隱主題馬爾科夫模型基于語義統(tǒng)計主題模型HTMM203、總結(jié) 基于語義的自動文摘技術(shù)強(qiáng)調(diào)語義分析在自動文摘中的作用,但并不代表僅僅使用語義

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論