基于語義的自動文摘介紹課件

上傳人：豬*** IP屬地：江蘇上傳時間：2022-10-08 格式：PPT 頁數(shù)：21 大?。?.19MB 積分：28 舉報 版權(quán)申訴

已閱讀5頁，還剩16頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、基于語義的自動文摘介紹計算機(jī) 1 介紹 2 兩個語義模型 2.1語義知識模型 2.2 統(tǒng)計主題模型 3 總結(jié)目錄31、介紹基于語義的自動文摘方法能解決自動文摘處理中語言復(fù)雜性問題,在克服領(lǐng)域局限性的同時從本質(zhì)上提高文摘的質(zhì)量.常用語義模型包括統(tǒng)計主題模型和語義知識模型.基于語義的自動文摘是對傳統(tǒng)文摘技術(shù)基于語義模型的擴(kuò)充,在自動文摘的預(yù)處理、文檔轉(zhuǎn)換、文檔候選片段提取和文摘生成4個基本過程中使用各種語義分析方法.4 基于語義的自動文摘方法,采用語義學(xué)、哲學(xué)、統(tǒng)計學(xué)和概率學(xué)等多領(lǐng)域知識,通過語義模型對語義空間建模,生成文檔在語義空間里的表示,然后通過語義分析手段提取文摘候選片段,根據(jù)片段之間的語

2、義關(guān)系得到可讀性強(qiáng)的文摘結(jié)果. 基于語義的自動文摘方法能解決自動文摘處理中語言復(fù)雜性問題,在克服領(lǐng)域局限性的同時從本質(zhì)上提高文摘的質(zhì)量.1、介紹52、兩個語義模型統(tǒng)計主題模型和語義知識模型.2.1 語義知識模型以語義關(guān)系為重點(diǎn)描述對象,以語義知識庫為表示形式,為涉及到語言形式的計算機(jī)處理操作提供語義知識約束條件.作為一個具有結(jié)構(gòu)性、代表性、可機(jī)讀性的一定規(guī)模的語義知識集合,語義知識庫在自然語言處理的各個領(lǐng)域都有廣泛的應(yīng)用.應(yīng)用較為廣泛的語義知識庫包括：WordNet和HowNet等本體庫.7HowNetHowNet：漢語+英語以揭示概念與概念之間，以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識

3、知識庫。知識工程師來設(shè)計知識庫的框架。HowNet認(rèn)為所有概念都是由基本義元組成.它通過對中文基本義元的分析,用有限的義元集合描述無限的概念集合,然后再將概念與概念之間的關(guān)系及概念的屬性與屬性之間的關(guān)系用網(wǎng)狀的知識系統(tǒng)表示出來.8Ontology本體本體是關(guān)于一些主題的清晰規(guī)范的說明。1 術(shù)語表2 術(shù)語關(guān)系集主題圖的概念模型10MeSH1. 嚴(yán)格規(guī)范的科學(xué)語言。不允許一詞多義和一義多詞。把同義檢索詞歸一檢索。嚴(yán)格的同義規(guī)范、詞義規(guī)范、詞類規(guī)范、詞型規(guī)范,明確詞的含義及所涉及的范圍,使得每一個敘詞在詞語的形式和語義上只能有一個概念,不允許一詞多義和一義多詞,避免了標(biāo)引人員和檢索人員人為造成的誤差

4、。在檢索中，最為檢索人員熟悉的是Neoplasm這個科學(xué)用詞,它包含了Tumors,Tumor,Benign Neoplasms,Neoplasms,Benign,Benign Neoplasm,Neoplasm,Benign,Cancer,Cancers這些同義詞,這些同義詞以入口詞的形式出現(xiàn)在MeSH表中,當(dāng)用MeSH對醫(yī)學(xué)知識進(jìn)行標(biāo)引、組織和檢索時,表達(dá)腫瘤概念的也只能是科學(xué)語言Neoplasm,而不是本時常用的Tumor,Cancer等自然語言。11MeSH2、樹狀結(jié)構(gòu)表主題詞劃分15類：1-9級邏輯和隸屬關(guān)系樹狀結(jié)構(gòu)表將字順表中的主題詞按照每個詞的詞義范疇和學(xué)科屬性，分別歸入15個

5、大類之中，多數(shù)大類又進(jìn)一步細(xì)分多達(dá)9 級。每一級類目用一組號碼標(biāo)明，級與級之間用“.”號隔開。主題詞上、下級之間采用逐級縮進(jìn)格式表現(xiàn)主題之間的隸屬關(guān)系，每個主題詞都有一個或兩個以上的樹狀結(jié)構(gòu)號，該號是聯(lián)系字順表和樹狀結(jié)構(gòu)表的紐帶。12MeSH3. 詞組性主題詞的彌補(bǔ)作用MeSH詞組性主題詞的兩種形式：自然語序：adj+n Hypothalamic Disease倒裝語序：n+adj 名詞形中心詞提前例如:ColonColon,AscendingColon,DescendingColon,SigmoidColon,Transverse142.2 統(tǒng)計主題模型統(tǒng)計主題模型(Statistical

6、 topic models)通過參數(shù)估計尋找一個低維的多項式分布集合,每個多項式分布稱為一個主題(Topic),用來捕獲詞之間的相關(guān)信息. 潛在語義分析(LSA)是由Deerwester等人3于1988年提出的最早的統(tǒng)計主題模型.它對語義距離的估計,不是依賴表層的統(tǒng)計數(shù)據(jù),而是采用一種具有強(qiáng)大推論能力的數(shù)學(xué)分析方法奇異值分解(SVD). 1999年Hofmann提出的PLSA模型來模擬文檔中詞的產(chǎn)生過程.2003年Blei等人基于PLSA提出了LDA模型,對文檔的產(chǎn)生過程進(jìn)行模擬,發(fā)現(xiàn)的主題能捕獲詞之間的相關(guān)性.15統(tǒng)計主題模型PLSA PLSA模型將文檔的生成這樣設(shè)計：第一步，我們拋一個有H面的骰子，每個面代表一個主題，各個面概率不一，得到一個主題；第二步，這個主題又對應(yīng)了一個有T個面的骰子，每個面代表一個詞，拋這骰子N次，得到一篇文章。其實我覺得這個模型可以看作是兩個詞袋模型的組合，第一個做一次，確定主題，第二個重復(fù)獨(dú)立做N詞，確定文章。下面是一個直觀圖（借用LDA數(shù)學(xué)八卦的圖了）：17統(tǒng)計主題模型LDA18統(tǒng)計主題模型LDALDA模型中一篇文檔生成的方式如下:19隱主題馬爾科夫模型基于語義統(tǒng)計主題模型HTMM203、總結(jié) 基于語義的自動文摘技術(shù)強(qiáng)調(diào)語義分析在自動文摘中的作用,但并不代表僅僅使用語義

人人文庫> 全部分類> 行業(yè)資料 > 醫(yī)學(xué)制藥

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于語義的自動文摘介紹課件

文檔簡介

溫馨提示

最新文檔

評論

基于語義的自動文摘介紹課件

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔