(計算機軟件與理論專業(yè)論文)基于本體的短文本分類研究.pdf_第1頁
(計算機軟件與理論專業(yè)論文)基于本體的短文本分類研究.pdf_第2頁
(計算機軟件與理論專業(yè)論文)基于本體的短文本分類研究.pdf_第3頁
(計算機軟件與理論專業(yè)論文)基于本體的短文本分類研究.pdf_第4頁
(計算機軟件與理論專業(yè)論文)基于本體的短文本分類研究.pdf_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

獨創(chuàng)性聲明 本人鄭重聲明:所提交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下獨立進行研究工作所 取得的成果。據(jù)我所知,除了特別加以標(biāo)注和致謝的地方外,論文中不包含其他 人已經(jīng)發(fā)表或撰寫過的研究成果。對本人的研究做出重要貢獻的個人和集體,均 已在文中作了明確的說明。本聲明的法律結(jié)果由本人承擔(dān)。 學(xué)位論文作者簽名:姜煎壘同期: 出脅! l r i 世田4 孵州舯 予但語義儀用儀儀巾 本學(xué)位論文作者完全了解東北師范大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,即: 東北師范大學(xué)有權(quán)保留并向國家有關(guān)部門或機構(gòu)送交學(xué)位論文的復(fù)印件和電子 版,允許論文被查閱和借閱。奉人授權(quán)東j ! 己f 帥, i - - b - - 范大學(xué)可以采用影印、縮印或其它 復(fù)制手段保存、匯編本學(xué)位論文。同意將本學(xué)位論文收錄到中國優(yōu)秀博碩士學(xué) 位論文全文數(shù)據(jù)庫( 中國學(xué)術(shù)期刊( 光盤版) 電子雜志社) 、中國學(xué)位論文全文 數(shù)據(jù)庫( 中國科學(xué)技術(shù)信息研究所) 等數(shù)據(jù)庫中,并以串i 子出版物形式出版發(fā)行 和提供信息服務(wù)。 ( 保密的學(xué)位論文在解密后適用本授權(quán)書) 學(xué)位論文作者簽名:監(jiān) 日期: 塑瞼6 11 l 學(xué)位論文作者畢業(yè)后去向: 工作單位: 通訊地址: 指導(dǎo)教師簽名:a 薹鷥五馬 日期:黿d i o ! 良! ) 電話: ,h r , 已 瑚p 與恫: 東北師范大學(xué)碩士學(xué)位論文 摘要 互聯(lián)網(wǎng)的發(fā)展使得數(shù)據(jù)和信息呈現(xiàn)海量特征,文本分類作為處理和組織大量文本信 息的關(guān)鍵方法,可以方便人們準(zhǔn)確的找到自己需要的知識。傳統(tǒng)的文本分類方法基本都 是處理普通文本( 長文本) 分類,而短文本在現(xiàn)實世界中也是大量存在的,如w e b 搜索 片段、論壇和聊天信息、新聞供稿、書及電影的摘要、產(chǎn)品介紹與用戶評語等。常用的 短文本分類方法均是采用相似性度量或基于w e b 核函數(shù)的方法,雖然都能達到一定的精 確度,但是由于短文本的特征向量少而導(dǎo)致矩陣的稀疏性,故分類的效果并未達到滿意 的精度。隨著短文本信息的爆炸式增長,短文本中所包含的隱含信息也越來越豐富,而 人們對短文本中的隱含信息也越來越感興趣,但短文本向量的稀疏性的特點加大了研究 的難度,從而使得對短文本分類的要求越來越高。因此,短文本分類是文本分類中非常 棘手問題,也是研究的熱點問題之一。 本文提出了一種基于本體的短文本分類研究的技術(shù)框架,重點研究如何將稀疏性的 文本文檔進行有效的信息補充,從而更好的進行短文本分類,并從中挖掘出有價值的信 息。難點在于如何將短文本文檔進行信息擴充,使其信息量豐富,實驗結(jié)果表明本文采 用的方法能夠完成短文本分類,并取得了良好的效果。 本體作為知識組織和知識表示的手段之一,其具有良好的概念層次和邏輯推理的支 持,能夠通過概念之間的關(guān)系來表達概念的語義,實現(xiàn)語義上的信息表示,可以很好的 應(yīng)用于短文本分類。而且使用基于本體的短文本分類方法,無須訓(xùn)練樣本,可以通過本 體獲得語義信息并結(jié)合相似性計算來實現(xiàn)對短文本的自動分類。該研究具有應(yīng)用價值和 廣泛的應(yīng)用前景。 關(guān)鍵字:短文本;稀疏性;信息補充 東北師范大學(xué)碩士學(xué)位論文 a b s t r a c t w i t ht h ed e v e l o p m e n to ft h ei n t e r a c t , d a t aa n di n f o r m a t i o nh a v eb e c o m eam a s s t e x t c l a s s i f i c a t i o ni st h ek e ym e t h o df o rp r o c e s s i n ga n do r g a n i z i n gl a r g en u m b e ro ft e x t ,w h i c hi s c o n v e n i e n tt of i n dp r e c i s ek n o w l e d g ea c c o r d i n gt on e e d s t r a d i t i o n a lt e x tc l a s s i f i c a t i o n m e t h o d sa x ef o c u s e do nn o r m a lt e x t ( 1 0 n gt e x t ) c l a s s i f i c a t i o n ,h o w e v e r , s h o r tt e x ti sw i d e l y a p p l i e di nt h er e a lw o r l d ,s u c ha sw e bs e a r c hc l i p s ,f o r u m sa n dc h a tm e s s a g e s ,n e w sf e e d so f b l o g , s u m m a r yo ft h eb o o ko rf i l m ,p r o d u c t si n t r o d u c t i o n ,u s e e v a l u a t i o n ,a n ds oo n t h e t r a d i t i o n a lm e t h o d so fs h o r tt e x tc l a s s i f i c a t i o na r es i m i l a r i t ym e a s u r eo rw e b - b a s e dk e r n e l f u n c t i o nm e t h o d d u et ot h ec h a r a c t e r i s t i c so fas h o r tt e x tw h i c hl e dt os p a r s i t yo ft h em a t r i x , t h ee f f e c to fc l a s s i f i c a t i o nd i dn o ta c h i e v es a t i s f a c t o r ya c c u r a c y w i t ht h ee x p l o s i v eg r o w t h , s t h o r tt e x tc o n t a i n ss om u c hr i c hi n f o r m a t i o na n di sv e r yi n t e r e s t e d h o w e v e r , t h es p a r s i t y c h a r a c t e r i s t i c so fs h o r tt e x ti n c r e a s et h ed i f f i c u l t yo fs t u d ya n dm a k eh i g l l d e m a n d i n g t h e r e f o r e ,s h o r tt e x tc l a s s i f i c a t i o ni sv e r yd i f f i c u l ta n do n eo ft h eh o tr e s e a r c h t h i sp a p e rp r e s e n t saf r a m e w o r ko fo n t o l o g y - b a s e ds h o r tt e x tc l a s s i f i c a t i o n ,w h i c h f o c u s e so nh o wt om a k et h ei n f o r m a t i o no fs p a r s i t yd o c u m e n t sm o r er i c h a n dh o wt om i n e u s e f u li n f o r m a t i o ni no r d e rt om a k ec h a r a c t e r i s t i c sb e t t e rt h es h o r tt e x tc l a s s i f i c a t i o n1 t h e e x p e r i m e n t a lr e s u l t ss h o wt h a tt h em e t h o di nt h i sp a p e rc a nb ei m p l e m e n t e da n da c h i e v e b e t t e rr e s u l t s o n t o l o g yi sam e t h o da sak n o w l e d g eo r g a n i z a t i o na n dk n o w l e d g er e p r e s e n t a t i o n ,w h i c h h a v ec o n c e p th i e r a r c h ya n dl o g i c a lr e a s o n i n g i t 鋤b ee x p r e s ss e m a n t i cf r o mr e l a t i o n b e t w e e nt h ec o n c e p t s w i t h o u tt r a i n i n gs a m p l e sw h e nu s i n gt h i sm e t h o d ,w ec a ng e ts e m a n t i c i n f o r m a t i o no fo n t o l o g ya n dc o m b i n et h es i m i l a r i t yc a l c u l a t i o n st oa c h i e v et h es h o r t t e x t c l a s s i f i c a t i o n t h i ss t u d yh a sg r e a tp r a c t i c a lv a l u ea n daw i d ea p p l i c a t i o np r o s p e c t s k e yw o r d s :s h o r tt e x t :s p a r s e ;c o m p l e m e n tf o ri n f o r m a t i o n 東北師范大學(xué)碩士學(xué)位論文 目錄 j 商要l a b s t r a c t i i 目錄i i l 第一章引言1 1 1 選題背景及意義1 1 1 1 選題背景1 1 1 2 研究意義。1 1 2 國內(nèi)外研究現(xiàn)狀。2 1 2 1 短文本分類的研究現(xiàn)狀2 1 2 2 本體的研究現(xiàn)狀2 1 2 3 對現(xiàn)有研究的歸納總結(jié)- 3 1 3 本文的主要工作3 1 4 論文的組織結(jié)構(gòu)3 1 5 本章小結(jié)4 第二章短文本分類相關(guān)技術(shù)的理論探討5 2 1 短文本分類的概念5 2 1 1 文本分類的概念。5 2 2 向量空間模型。5 2 3 概念相似度計算5 2 3 1 詞匯語義相似度6 2 3 2 領(lǐng)域本體概念間關(guān)系的相似度。6 2 3 3 利用概念、特性之間的相似度6 2 3 4 綜合考慮各種因素的概念相似度7 2 3 5 基于知網(wǎng)的詞匯語義相似度。7 2 4 分類算法7 2 4 1 基于w e b 核函數(shù)的短文本分類方法。8 2 4 2 基于相似度測量的短文本分類方法8 2 4 3 基于改進的相似度測量的短文本分類方法9 2 4 4 使用隱含主題的短文本分類方法1 0 2 4 5 基于兩步策略的中文短文本分類研究。1 0 2 4 6 基于頻繁詞集聚類的海量短文分類方法。1 0 2 4 7 基于領(lǐng)域詞語本體的短文本分類1 0 2 5 短文本分類關(guān)鍵技術(shù)研究1 1 2 5 1 本體技術(shù)研究1 1 2 5 2j e n aa p i 1 4 2 5 3 知網(wǎng)1 5 2 5 4 本體細(xì)粒度化研究1 6 2 6 論文思想的形成。1 7 2 7 本章小結(jié)1 7 第三章手機本體的設(shè)計與構(gòu)建1 8 i 東北師范大學(xué)碩士學(xué)位論文 3 1 本體的構(gòu)建知識1 8 3 1 1 本體構(gòu)建的準(zhǔn)則1 8 3 1 2 本體的構(gòu)建方法1 8 3 1 3 本體的構(gòu)建工具2 1 3 1 4 本體的描述語言2 1 3 2 專業(yè)本體的設(shè)計思路與構(gòu)建過程2 3 3 2 1 確定構(gòu)建手機本體的目標(biāo)及它的應(yīng)用范圍2 3 3 2 2 列出構(gòu)建手機本體所需要的重要術(shù)語2 3 3 2 3 建立目標(biāo)手機本體的概念結(jié)構(gòu)2 3 3 2 4 定義手機本體的概念屬性2 4 3 2 5 創(chuàng)建類的實例2 4 3 3 本體檢測2 5 3 4 本章小結(jié)2 5 第四章基于本體的短文本分類方法的研究。2 6 4 1 分類的工作原理2 6 4 2 分類器的具體設(shè)計與實現(xiàn)2 7 4 2 1 短文本的收集及預(yù)處理2 7 4 2 2 權(quán)重計算及文本表示2 7 4 2 3 特征詞匯語義擴展2 7 4 2 4 本體解析。2 8 4 2 5 相似性計算3 0 4 3 短文本分類具體過程3 2 4 4 本章小結(jié)3 2 第五章實驗結(jié)果與分析。3 3 5 1 開發(fā)平臺3 3 5 2 開發(fā)工具3 3 5 3 性能評價3 3 5 4 關(guān)于實驗的說明。3 4 5 5 實驗結(jié)果與分析3 4 5 6 本章小結(jié)3 5 第六章總結(jié)與展望3 6 6 1 總1 4 ;3 6 6 2 未來展望3 6 參考文獻3 7 致謝4 :! 附錄z 1 3 在學(xué)期間公開發(fā)表的論文及科研情況4 4 i v 東北師范大學(xué)碩士學(xué)位論文 第一章引言弟一早 jl 苗 1 1 選題背景及意義 1 1 1 選題背景 文本分類( t e x tc l a s s i f i c a t i o n ) 是處理和組織大量文本信息的關(guān)鍵方法之一,傳 統(tǒng)的文本分類方法基本上都著眼于普通文本( 長文本) 分類,而短文本( s h o r tt e x t ) 在現(xiàn)實世界中也是大量存在的,如w e b 搜索片段、論壇和q q 聊天信息、博客及新聞評 論、書及電影的摘要、產(chǎn)品介紹與用戶評語等。傳統(tǒng)的短文本分類方法均是采用相似性 度量或基于w e b 核函數(shù)的方法,雖然都能達到一定的精確度,但是由于短文本的特征向 量少而導(dǎo)致矩陣了的稀疏性,故分類的效果并未達到滿意的精度。因此,短文本分類是 文本分類中的棘手問題,也是目前領(lǐng)域內(nèi)研究的熱點問題之一。 隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,本體論( o n t o l o g y ) 在w e b 上得到了廣泛應(yīng)用,在w e b 中 加入語義知識表示,增加具有語義的信息,從而實現(xiàn)世界范圍內(nèi)的知識共享和智能信息 集成。近年來本體備受信息科學(xué)領(lǐng)域的廣泛關(guān)注,成為人工智能、文本分類、文本聚類 以及信息檢索等研究領(lǐng)域的研究熱點。對于傳統(tǒng)的短文本分類,大部分是采用相似性計 算、支持向量機、樸素貝葉斯與k 近鄰結(jié)合的分類方法,并沒有考慮文本文檔內(nèi)容的語 義關(guān)系,而文本的語義在近年來亦成為業(yè)界研究的熱點內(nèi)容之一。 1 1 2 研究意義 文本分類是處理和組織大量文本信息的關(guān)鍵方法。它主要針對長文本和短文本進行 分類,長文本特征向量多,實現(xiàn)起來比較容易;而短文本的特征向量少,形成的矩陣具 有稀疏性,實現(xiàn)起來比較困難。如何對稀疏性的短文本文檔進行信息補充,同時對短文 本進行正確而有效的分類便成為文本分類的棘手問題,也是目前研究領(lǐng)域的熱點問題之 一。而且基于本體的短文本分類方法目前在領(lǐng)域還沒有得到廣泛研究。 隨著互聯(lián)網(wǎng)的發(fā)展而產(chǎn)生大量的短文本信息,其所包含的信息越來越豐富。如何有 效的利用這些短文本中所隱含的有價值信息成為目前社會比較關(guān)注的熱點問題。因此, 人們普遍關(guān)注如何行之有效地處理好短文本,使之既能夠增強信息的交互和使用,又能 為人們的生活提供方便和快捷,如在線商品的評論信息挖掘、消費者對產(chǎn)品的投訴文檔 處理等。 1 東北師范大學(xué)碩士學(xué)位論文 1 2 國內(nèi)外研究現(xiàn)狀 1 2 1 短文本分類的研究現(xiàn)狀 隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡(luò)上涌現(xiàn)出大量的短文本,它具有包含字?jǐn)?shù)少、篇幅短、 包含信息相對較少等特點。從語言及語法結(jié)構(gòu)的角度上,短文本又具有其特殊性,如口 語化嚴(yán)重及語法不規(guī)范等特點,如手機短信息、q q 聊天記錄等n 1 ?,F(xiàn)有的文本分類的相 關(guān)技術(shù)并不適用于短文本。 雖然短文本篇幅短小,但它卻包含著大量有價值的隱含信息,因此研究人員也把目 光轉(zhuǎn)移到了短文本分類技術(shù)的相關(guān)研究上。目前國外關(guān)于短文本分類的研究主要集中在 概念相似度的測量方法上,比較有代表性的有m e h r a ns a h a m i 等人提出的使用基于w e b 語義核函數(shù)的方法乜3 和d m e t a l e r 等人提出的基于相似性度量的方法口1 。w y i h 等人對 上面兩種方法進行改進,通過擴展w e b 語義核函數(shù),使用術(shù)語產(chǎn)生的相關(guān)權(quán)重來作內(nèi)積 h 1 ,最終實現(xiàn)短文本分類。這三種方法雖然都能實現(xiàn)短文本分類的目的,但又存在其各 自的局限性。x u a n - h i e u 等人提出了基于隱含主題的短文本分類方法瞄1 ,該方法提出了 使用隱含主題建立一個通用框架,處理了大量稀疏的短文本文檔。國內(nèi)對于短文本的研 究起步較晚,主要集中在中國科學(xué)院1 、重慶郵電大學(xué)口3 ,都是基于支持向量機、k 一近 鄰、樸素貝葉斯等理論的分類,雖然達到了對短文本分類的目的,但耗時費力。后來, 重慶郵電大學(xué)寧亞輝等人采用了基于領(lǐng)域詞語的短文本分類1 ,利用了本體中概念及屬 性的層次關(guān)系,較好的完成了短文本分類,也取得了一定的分類效果,但達到的分類精 準(zhǔn)率和召回率相對較低。 1 2 2 本體的研究現(xiàn)狀 近年來,本體已經(jīng)成為信息科學(xué)及其相關(guān)領(lǐng)域普遍關(guān)注的研究熱點。本體通過概念 之間的關(guān)系來模擬論域中概念的含義。作為一種新型的概念知識庫,它已經(jīng)被廣泛的應(yīng) 用于人工智能、信息系統(tǒng)、知識系統(tǒng)、圖書情報、電子商務(wù)和生物信息學(xué)等眾多的領(lǐng)域。 本體已經(jīng)在多個領(lǐng)域出現(xiàn)了具體應(yīng)用,其研究主要是集中在本體工程、知識工程、信息 語義w e b 以及組織與檢索等方面阻1 。 國外的本體研究起步早于國內(nèi),比較有代表性的研究機構(gòu)有美國卡耐基梅隆大學(xué)、 德克薩斯大學(xué)、西班牙薩拉戈薩大學(xué)、美國的斯坦福大學(xué)等。其中斯坦福大學(xué)開發(fā)研究 的本體建模工具在國際上處于前沿位置。國內(nèi)的研究所用參考文獻大部分是來自于外文 文獻,經(jīng)歷了從理論成熟到實踐成熟的逐步遞進過程,比較有代表性的研究機構(gòu)有中國 2 東北師范大學(xué)碩士學(xué)位論文 科學(xué)院計算機研究所、哈爾濱工業(yè)大學(xué)、上海交通大學(xué)、復(fù)旦大學(xué)、東南大學(xué)、重慶郵 電大學(xué)等。 1 2 3 對現(xiàn)有研究的歸納總結(jié) 短文本是近年來隨著互聯(lián)網(wǎng)的發(fā)展而產(chǎn)生的一種特殊形式的文本,主要以篇幅小, 包含信息簡單,文本向量比較稀疏而著稱。由于短文本向量的稀疏性特點,傳統(tǒng)的文本 分類方法并不能有效地短文本,研究學(xué)者先后提出了使用相似度、w e b 核函數(shù)、支持向 量機、k 一近鄰等多種方式進行短文本分類,但其召回率和準(zhǔn)確率確未達到滿意的效果。 本文提出了一種基于本體的短文本分類方法,通過對特征詞匯集進行語義擴展,使用知 網(wǎng)對特征詞匯進行信息補充,實現(xiàn)了對概念的細(xì)粒度調(diào)整,從而實現(xiàn)了短文本分類,其 召回率和準(zhǔn)確率都得到了一定的提高。 1 3 本文的主要工作 本文提出了一種基于本體的短文本分類的基本框架,并結(jié)合知網(wǎng)對待分類的短文本 文檔的特征詞匯集進行語義擴展,信息補充,利用本體技術(shù)將專業(yè)本體中的概念解析, 顯示出來。重點研究在于如何使用知網(wǎng)對特征詞匯集進行語義擴展和短文本的分類方法 兩部分內(nèi)容。本文的主要內(nèi)容如下: 1 介紹了本體技術(shù)的相關(guān)理論知識和短文本分類關(guān)鍵技術(shù)的發(fā)展趨勢,歸納總結(jié)了 短文本分類所需要的相關(guān)知識。 2 在領(lǐng)域?qū)<业膸椭?,按照中華人民共和國信息產(chǎn)業(yè)部手機品牌分類的標(biāo)準(zhǔn),參 看“品牌手機網(wǎng)、“3 1 5 消費電子投訴網(wǎng) 相關(guān)信息,使用斯坦福大學(xué)的p r o t 6 9 64 0 2 進行了本體庫的開發(fā),為實現(xiàn)短文本分類提供了知識庫。 3 分別介紹了中文的短文本分類關(guān)鍵技術(shù)和基于本體的文本分類技術(shù),分析并找出 這些方法中存在的不足之處,提出了一種基于本體的短文本分類方法,實現(xiàn)了對手機投 訴文檔的短文本的分類。 4 分別采用本文的方法、基于本體的簡單短文本分類方法和基于領(lǐng)域詞語的短文本 分類方法進行了對比實驗,采用了三個評價指標(biāo)分別對分類結(jié)果進行了評估。 1 4 論文的組織結(jié)構(gòu) 本文內(nèi)容安排如下: 第一章引言簡要介紹本課題研究的背景、意義、國內(nèi)外研究現(xiàn)狀以及本課題涉 及的研究技術(shù),另外還包括了本文的主要內(nèi)容介紹和基本框架結(jié)構(gòu)。 3 東北師范大學(xué)碩士學(xué)位論文 第二章短文本分類關(guān)鍵技術(shù)的探討這一章主要介紹的短文本分類所用到的關(guān)鍵 技術(shù),重點對本體技術(shù)、j e n aa p i 技術(shù)、本體的細(xì)粒度化技術(shù)等進行分析介紹,為第四 章提出自己的方法奠定了研究基礎(chǔ)。 第三章手機本體的設(shè)計與構(gòu)建在這一章中,重點給出本體知識庫的構(gòu)建方法、 構(gòu)建原則以及構(gòu)建過程,形成的本體知識庫作為專業(yè)本體庫,為后續(xù)短文本分類提供了 語義信息上的支持。 第四章基于本體的短文本分類方法本章是全文的重點內(nèi)容,重點給出基于本體 的細(xì)粒度化技術(shù),其中詳細(xì)的給出短文本分類的具體步驟,并融合了知網(wǎng)技術(shù),對特征 分類提供關(guān)鍵性的指導(dǎo)。 將本文中提出的分類方法與以往的分類方法進行對比, 的短文本分類技術(shù)的研究目的意義以及國內(nèi)外研究現(xiàn)狀, 它的基本框架結(jié)構(gòu)。 4 東北師范大學(xué)碩士學(xué)位論文 第二章短文本分類相關(guān)技術(shù)的理論探討 2 1 短文本分類的概念 2 1 1 文本分類的概念 文本分類是數(shù)據(jù)挖掘中非常重要的任務(wù)之一,它是基于文本內(nèi)容將待定文本劃分到 一個或多個預(yù)先定義的類中的方法。在機器學(xué)習(xí)中,文本分類被稱作是有監(jiān)督的學(xué)習(xí)過 程。實質(zhì)上,通過對每個類別的樣本進行訓(xùn)練,創(chuàng)建一個分類器。根據(jù)該分類器,對新 來的樣本進行分類,將它分到一個或多個類別之中。從數(shù)學(xué)的角度來說,文本分類實質(zhì) 上是一個映射的過程,將未標(biāo)明的類別的文本映射到已有的類別中,用數(shù)學(xué)公式可以表 示為f :a b 。其中a 為待分類的文本集合,b 為分類體系中類別的集合n 們。 所謂的短文本就是指文本的長度相對比較短,字?jǐn)?shù)少,文本的向量相對比較稀疏的 文本。傳統(tǒng)文本分類的方法如樸素貝葉斯( n a i v eb a y e s ,n b ) 、k 近鄰算法( k - n e a r n e i g h b o r ,l ( n n ) 、r o c c h i o 算法、以及決策樹算法( d e c i s i o nt r e e s ,d t ) 均不適合向 量比較稀疏的短文本分類,可見找到一種有效的短文本分類算法是亟待解決的問題。 2 2 向量空間模型 向量空間模型口( v e c t o rs p a c em o d e l ,v s m ) 是由g s a l t o n 等人在2 0 世紀(jì)6 0 年代提出的,其主要思想是文本是由一組詞條( t ,t 。,t 。) 構(gòu)成,每一個詞條都賦 以一定的權(quán)值w ,文本被映射為由一組詞條矢量組成的向量空間中的一個向量。每個文 檔表示為特征向量i d = t 。,w 。:t :,w :t 。,w n ,其中t 表示詞條,w 表示詞條的權(quán)值, 這樣文本表示稱為結(jié)構(gòu)化數(shù)據(jù)的形式。 向量空間模型的優(yōu)點是將文本簡化為向量表示的形式,把文本分類過程簡化為對空 間向量的計算,使得問題的復(fù)雜性大大減少。缺點是向量空間模型中的文本集被抽取成 為若干個索引項,每個文本由其索引項組成一個文本向量。每個索引項在文本集中的各 個文本中的權(quán)值的集合就構(gòu)成了一個索引項的向量空間。向量空間模型假設(shè)所有的索引 項之間是相互獨立的,但實際上這些索引項之間不是獨立存在的,它們之間是存在著一 定的語義聯(lián)系的,采用基于統(tǒng)計的分類方法會導(dǎo)致分類的不準(zhǔn)確性。 2 3 概念相似度計算 概念語義相似度( 概念相似度) 計算在文本分類、信息檢索、信息過濾、數(shù)據(jù)挖 5 東北師范大學(xué)碩士學(xué)位論文 掘、機器翻譯等領(lǐng)域有著廣泛的應(yīng)用?;诒倔w的概念相似度計算目前成為研究領(lǐng)域的 熱點問題,主要方法有基于信息理論的方法、基于結(jié)構(gòu)的方法、基于統(tǒng)計學(xué)習(xí)的方法、 基于規(guī)則的方法、基于特征的方法、基于邏輯關(guān)系推理的方法和基于集合理論匹配的方 法,這里詳細(xì)介紹如下幾種概念相似度算法作為后續(xù)研究使用。 2 3 1 詞匯語義相似度 東北師范大學(xué)碩士學(xué)位論文 2 3 4 綜合考慮各種因素的概念相似度 張忠平,趙海亮等提出一種利用本體來計算概念間相似度的方法n 射,綜合考慮語義 距離和本體庫統(tǒng)計特征。加入概念的深度、語義重合度和概念間強度的輔助影響。 2 3 5 基于知網(wǎng)的詞匯語義相似度 劉群,李素建提出了基于知網(wǎng)的詞匯語義計算相似度方法n 副,詞匯語義相似度包括 這樣幾個部分: ( 1 ) 第一獨立義原描述式,可以按照公式2 - 2 n 刀進行計算; s i m ( 以p 2 ) :擊o 5 + 面2 而xl o g 河p ( l 爵c n 麗) 0 5 2 2 注意:其中:p 五齠為兩個義原;為最小公共結(jié)點層次;h 為義原樹深度;p ( s ) = s 連結(jié)結(jié)點個數(shù)樹的總結(jié)點個數(shù);l c n 為最小公共父結(jié)點。 ( 2 ) 其他獨立義原描述式:經(jīng)整體相似度還原為部分相似度的加權(quán)平均,參看如 下步驟: ( a ) 先將兩個表達式的所有獨立義原( 第一個除外) 任意配對,計算出所有 可能的配對義原相似度; ( b ) 取相似度最大的一對,并將它們歸為一組; ( c ) 在剩下的獨立義原的配對相似度中,取最大的一對,并歸為一組,如此 反復(fù),直到所有義原都完成分組。 ( 3 ) 關(guān)系義原描述式:關(guān)系義原描述式的配對分組較為簡單,把關(guān)系義原相同的 描述式分為一組,并計算其相似度; ( 4 ) 符號義原描述式:符號義原描述式的配對分組與關(guān)系描述式類似,把關(guān)系符 號相同的描述式分為一組,并計算其相似度。 ( 5 ) 把( 2 ) 、( 3 ) 、( 4 ) 的計算結(jié)果,加權(quán)取平均,各部分取相等的權(quán)值。 在本文中,充分的考慮了義原語義樹的層次關(guān)系,樹的深度,還充分考慮了其他義 原在概念相似度計算中發(fā)揮的作用,提高了短文本分類的準(zhǔn)確性。 2 4 分類算法 關(guān)于分類算法的常見算法,如樸素貝葉斯、k 一近鄰、支持向量機等,這里就不做具 體介紹。對于短文本分類的算法,本文的思想是從參考論文中得來的。下面進行詳細(xì)介 7 東北師范大學(xué)碩士學(xué)位論文 紹。 2 4 1 基于w e b 核函數(shù)的短文本分類方法 基于w e b 核函數(shù)的短文本分類方法埋1 在分析文本時,存在許多情況都是可以決定兩 個短文本片段的相似性,它們用不同的方式去描述獨立的概念。如“u n i t e d n a t i o n s s e c n e t r a y g e n e r a l 和 k o f i a n n a n ,通過計算這兩個短文本片段的語義相似度,為 它們歸類;同樣,片段“a i 和“a r t i f i c i a li n t e l l i g e n c e ”的意義相同,而通常情 況下可能他們不分享任何實際術(shù)語。改進的方法是抓住片段的語義環(huán)境而不是簡單的測 量相似度。 基于w e b 核函數(shù)的短文本分類方法的主要思想在于是找到大量短文本片段,通過檢 查短文本片段術(shù)語,找到環(huán)境術(shù)語,以幫助提供大的原始片段的環(huán)境,并潛在的解決術(shù) 語的多個含義問題。這種方法簡單,效果很好。 我們把每個片段單純看成是w e b 搜索引擎上的一個查詢,目的是為了找到大量包含 源片段的術(shù)語文檔,然后使用這些返回文檔建立一個背景向量。對原始片段,在背景向 量中,包括許多產(chǎn)生背景的詞。然后把原詞向量與產(chǎn)生背景向量進行相似度比較,這種 相似性功能適合于任何基于核的機器學(xué)習(xí)算法,使用這個算法就能處理短文本。 該方法是一種用于測量語義相似度的新的核函數(shù),這個函數(shù)能有效的測量短文本, 但是該方法必須使用特定的語料庫,不具有通用性。 2 4 2 基于相似度測量的短文本分類方法 基于相似度測量的短文本分類方法口3 提出了三種基本相似性測量,它包括詞匯匹配、 概率測量和混合( 聯(lián)合相似性測量方法) 的方式。詞匯匹配方法具體內(nèi)容如下: 給定兩個短文本q ,c ,把q 看作查詢,c 作為相似性測量的候選集。 ( 1 ) e x a c t q 和c 詞匯相同 q :“s e a t t l em a r i n e r st i c k e t s c :“s e a t t l em a r i n e r st i c k e t s ( 2 ) p h r a s eq 是q 的子串 q :“s e a t t l em a r i n e r st i c k e t s c :“s e a t t l em a r i n e r s ( 3 ) s u b s e t - - c 是q 的子集 q :“s e a t t l em a r i n e r st i c k e t s ”c :“m a r i n e r st i c k e t s 這些測量是二進制的,所以有: e x a c tm a t c h e s p h r a s em a t c h e s s u b s e tm a t c h e s 8 東北師范大學(xué)碩士學(xué)位論文 缺點在于低精準(zhǔn)率,高召回率,而且不能處理大量相關(guān)匹配。概率測量的方法如下: 概率測量包括稀疏概率和稠密概率,概率測量是為了改善召回率,使用擴展的文本 表示,使用語言模塊框架去模塊查詢和候選文本。使用查詢和候選模塊之間的負(fù) k l d iv e r g e n c e 如下: 語 同 種 大 改 有 使 東北師范大學(xué)碩士學(xué)位論文 相似性度量( s i m i l a r i t ym e t r i cd i r e c t l y ) 和索引排序( r e f e r e n c eo r d e r i n g ) 方法。 這種方法的優(yōu)點在于能達到較高的精確度,缺點在于只能使用查詢建議數(shù)據(jù)集。 2 4 4 使用隱含主題的短文本分類方法 使用隱含主題的短文本分類方法1 提出了從處理大規(guī)模數(shù)據(jù)集中,針對短文本數(shù)據(jù) 使用隱含主題來建立的一個通用框架,該框架的潛在思想在于對于每個分類任務(wù),在小 規(guī)模標(biāo)記訓(xùn)練數(shù)據(jù)和豐富數(shù)據(jù)集中發(fā)現(xiàn)隱含主題的基礎(chǔ)上建立分類器,該框架使用靈 活,可以應(yīng)用于w e b 搜索結(jié)果到醫(yī)療文本等不同的領(lǐng)域。其優(yōu)點在于達到了處理短而稀 疏性的文檔的目的,提高了準(zhǔn)確度,并且容易實現(xiàn);缺點在于當(dāng)訓(xùn)練集達到了一定數(shù)目 后,精準(zhǔn)度的增加非常的緩慢。 2 4 5 基于兩步策略的中文短文本分類研究 重慶郵電大學(xué)的樊興華、王鵬1 將兩步策略用于中文短文本分類的3 個關(guān)鍵問題, 提出了基于組合樸素貝葉斯和k 近鄰分類器的兩步中文短文本分類方法:一個是直接利 用n b 和k n n 的輸出構(gòu)造其對應(yīng)的二維空間,根據(jù)該空間內(nèi)錯誤文本的分布將測試文本 集分為3 個部分即能被k n n 可靠分類的文本集a ,不能被k n n 可靠分類但能被n b 可靠分 類的文本集b ,其他文本集c ;二是用k n n 、n b 分別對文本集a 和b 進行分類,根據(jù)具 體語料的類別分布,直接給屬于文本集c 的文本分配標(biāo)簽,樊興華、王鵬做了對比實驗, 證明該方法能夠獲得較高的分類性能。 2 4 6 基于頻繁詞集聚類的海量短文分類方法 國防科技大學(xué)王永恒、賈焰訂3 利用了頻繁詞集的方法和基于語義信息的方法,提出 了一個新的海量短文本分類算法s d c f c ( s h o r td o c u m e n tc l a s s i f i c a t i o nb a s e do n f r e q u e n t t e r m sc l u s t e r i n g ) 。s d c f c 基于頻繁項集聚類來壓縮數(shù)據(jù),從而提高性能; 使用語義信息來進行分類,從而提高了準(zhǔn)確度。該算法在處理大規(guī)模短文本數(shù)據(jù)時,性 能和準(zhǔn)確度都超過了其它的短文本分類算法。語義分類的關(guān)鍵問題是如何合理組織和獲 取知識庫,以及如何高效地搜索知識庫。 2 4 7 基于領(lǐng)域詞語本體的短文本分類 重慶郵電大學(xué)的寧亞輝呻1 等人提出了基于領(lǐng)域詞語本體的短文本分類方法。首先抽 取領(lǐng)域高頻詞作為特征詞,然后利用這些特征詞匯建立本體知識庫。其次借助知網(wǎng)從語 1 0 東北師范大學(xué)碩士學(xué)位論文 義方面將特征詞擴展為概念和義原,通過計算不同概念所包括相同義元的信息量來衡量 詞的相似度,進而實現(xiàn)短文本的分類。寧亞輝等通過對比實驗表明,該方法在一定程度 上彌補了短文本分類特征不足的缺點,且提高了精確率和召回率。 通過上述分類算法的研究發(fā)現(xiàn),短文本分類算法可以從以下幾個方面考慮: 從短文本本身的特點出發(fā),考慮隱含主題或是信息補充的方式實現(xiàn)分類; 直接利用傳統(tǒng)的文本分類方法,如樸素貝葉斯,k 一近鄰等方法結(jié)合分類; 使用聚類的方法實現(xiàn)短文本分類; 利用本體技術(shù),對短文本信息進行語義上的補充; 經(jīng)過分析,得到本文短文本分類的研究方法,即使用知網(wǎng)這個常識知識庫對短文本 特征進行信息擴充,在使用相似度計算得到類別。 2 5 短文本分類關(guān)鍵技術(shù)研究 2 5 1 本體技術(shù)研究 1 本體的概念 卜 本體是一個來源于哲學(xué)的概念,最初被用來表示世界的本原和存在的性質(zhì)。后來被 引入到了計算機領(lǐng)域,用來表達人們對于領(lǐng)域的共同理解n 射。1 9 9 9 年,g r u b e r n 們給出的 即“本體是概念模型的明確的規(guī)范說明 。后來,b r o s t 啪3 在這個基礎(chǔ)上,給出本體的另 外定義:“本體是共享概念模型的形式化規(guī)范說明 。s t u d e r 乜等人在上述兩個定義進行 了深入的研究,他們認(rèn)為本體是“共享概念模型的明確的形式化規(guī)范說明 在這個定 義中共體現(xiàn)四層含義: ( 1 ) 概念模型( c o n c e p t u l i z a t i o n ) :通過抽象出客觀世界中一些現(xiàn)象的相關(guān)概念而 得到的模型,概念模型表現(xiàn)的含義獨立于具體的環(huán)境狀態(tài)。 ( 2 ) 明確( e x p l i c i t ) :概念和概念的約束都有明確的和無歧義的定義。 ( 3 ) 形式化( f o r m a l ) :本體通過本體語言編碼,使得計算機可讀,并可以被計算機 處理。 ( 4 ) 共享( s h a r e ) :本體所體現(xiàn)的是共同認(rèn)可的知識,反應(yīng)的是相關(guān)領(lǐng)域內(nèi)公認(rèn)的 概念集。 總之,本體的目標(biāo)是捕獲相關(guān)領(lǐng)域的知識,提供對該領(lǐng)域知識的共同理解,確定該 領(lǐng)域內(nèi)共同認(rèn)可的術(shù)語,給出特定論域中一組概念和概念之間的關(guān)系,以明確的方式表 達了概念的內(nèi)涵,模擬概念的真實含義。從知識共享的角度來說,本體是通用意義上的 概念定義集合,是在各種知識系統(tǒng)間交換知識的共同語言瞳刳。 東北師范大學(xué)碩士學(xué)位論文 2 本體的建模語言 本體可定義為一個七元組o = ( c ,a 。,r ,a r ,h ,i ,x ) ,其中c 是概念的集合;a c 是概念屬性的集合;r 是關(guān)系的集合;a r 是關(guān)系屬性的集合;h 表示層次的集合;i 是實 例的集合;x 是公理的集合。 ( 1 ) 概念。稱為類,從語義上講,是對現(xiàn)實世界中個體的抽象,表示的是個體的 集合,其定義包括概念的名稱,以及對該概念的自然語言描述。 ( 2 ) 概念的屬性。概念間的差異性主要體現(xiàn)在屬性上,屬性不同,對應(yīng)著不同的 個體集合。概念的屬性集合稱為概念的內(nèi)涵,而它對應(yīng)的個體集合為概念的外延。 ( 3 ) 關(guān)系。一個關(guān)系通常包含定義域和值域兩部分,這就限定了關(guān)系所適用的范 圍。本體中,關(guān)系的定義域通常是一個概念,而值域既可以是概念也可以是具體的取值 域,當(dāng)值域為取值域的時候,關(guān)系便退化為屬性,可以說屬性是一種特殊的關(guān)系。 ( 4 ) 關(guān)系的屬性關(guān)系的屬性描述了對關(guān)系的進一步限制,如年齡關(guān)系“h a s - a g e , 如值域是整數(shù),則取值1 - 9 9 間的整數(shù)。 ( 5 ) 層次。層次可以定義在概念、屬性和關(guān)系上。如概念上的層次有k i n d - o f 或 i s - a 。 ( 6 ) 實例。一個實例是現(xiàn)實世界中具體的和唯一的個體,它對應(yīng)著本體中一個或 多個概念,具有概念描述的屬性和具體的屬性值。 ( 7 ) 公理。公理集合x 中的每條公理代表領(lǐng)域知識中的永真斷言,如“教和“被 教 是互逆的,聲明概念“男人”和“女人是用不相交的等嘲。 以上這種描述方式與p e r e z 乜3 1 等人認(rèn)為本體的分類法所提出的出本體的五個基本 構(gòu)成元素是相一致的,即類( c l a s s e s ) ,關(guān)系( r e l a t i o n s ) ,函數(shù)( f u n c t i o n s ) ,公理 ( a x i o m s ) 和實例( i n s t a n c e s ) 。概念之間有四種基本關(guān)系:p a r t o f 表達概念部分與整體 部分的關(guān)系;k i n d - o f 表達概念間的繼承關(guān)系,類似面向?qū)ο笾械母割惻c子類之間的關(guān) 系;i n s t a n c e - o f 表達概念間實例和概念之間的關(guān)系,類似于面向?qū)ο笾械膶ο蠛皖愔?間的關(guān)系;a t t r

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論