(計算機軟件與理論專業(yè)論文)自動文摘技術(shù)的研究與應(yīng)用.pdf_第1頁
(計算機軟件與理論專業(yè)論文)自動文摘技術(shù)的研究與應(yīng)用.pdf_第2頁
(計算機軟件與理論專業(yè)論文)自動文摘技術(shù)的研究與應(yīng)用.pdf_第3頁
(計算機軟件與理論專業(yè)論文)自動文摘技術(shù)的研究與應(yīng)用.pdf_第4頁
(計算機軟件與理論專業(yè)論文)自動文摘技術(shù)的研究與應(yīng)用.pdf_第5頁
已閱讀5頁,還剩48頁未讀, 繼續(xù)免費閱讀

(計算機軟件與理論專業(yè)論文)自動文摘技術(shù)的研究與應(yīng)用.pdf.pdf 免費下載

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

摘要 隨著社會的進(jìn)步和互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡(luò)信息量的頻繁劇增,當(dāng) 今社會面臨著信息大爆炸。當(dāng)大量的信息像潮水般涌向人們時,傳統(tǒng)人 工處理信息的手段已經(jīng)遠(yuǎn)遠(yuǎn)不足。為了解決這一問題,科學(xué)界提出文摘 自動生成的技術(shù)。 自動文摘通常被視為自然語言處理的一項任務(wù)。文摘是準(zhǔn)確全面地 反映某一文章中心內(nèi)容的簡潔連貫的短文,與索引相比更能滿足信息獲 取的要求。我國對自動文摘技術(shù)的研究目前還在初級階段,但此技術(shù)所 具有的重要作用是不可低估的,必將在未來的信息處理領(lǐng)域得到廣泛的 應(yīng)用。 本論文基于現(xiàn)階段的研究現(xiàn)狀下,運用統(tǒng)計自然語言處理方法,首 先對文章進(jìn)行自動分詞,利用停用詞表對分詞結(jié)果進(jìn)行過濾,并利用知 網(wǎng)( h o w n e t ) 獲得概念,建立概念向量空間模型。通過計算詞語重要度 和句子重要度,系統(tǒng)得到一個粗略的文摘。最后再進(jìn)行冗余計算,得到 本文章的文摘。 本文在上述研究的基礎(chǔ)上,設(shè)計了基于概念向量空間模型的自動文 摘系統(tǒng),實現(xiàn)了機器自動生成文摘的各個模塊的功能,證實了本文利用 概念統(tǒng)計的方法比基于詞頻統(tǒng)計的方法得到的文摘,能更準(zhǔn)確含概原文 章的中心內(nèi)容。 關(guān)鍵詞:自動文摘知網(wǎng)概念向量空間模型自然語言處理 a b s t r a c t a 1 0 n gw i t ht h ea d v a n c e m e n to fs o c i e t ya n dt e c h n o l o g yo ft h e w o r l d w i d ew 曲i sd e v e l o p i n g t h ei n f o r m a t i o no ft h en e t w o r ki sg r o w i n g e x p o n e n t i a l l y , s o c i e t yi sf a c i n ge x p l o d i n go ft h ei n f o r m a t i o nn o w a d a y s w h e nt h el a r g ev o l l l m eo f j n f o r m a f i o ne m e r g ep e o p i el i k et i d e w a t e r , i ti st o o d e f t e i e n e yt ou s et r a d i t i o nh u m a np r o f e s s i o n a lt od i s p o s et h ei n f o r m a t i o n i n o r d e rt or e s o l v et h i sp r o b l e m , t h es c i e n c ed o m a i na d v a n c et h et e c h n o l o g yo f t e x ta u t o m a t i cs u m m a r i z a t i o n a u t o m a t i es u m m a r i z a t i o nu s u a l l yi sr e g a r d e da sai t e mt a s ko fn a t u r e l a n g u a g e s u m m a r i z a t i o nc a ne x p r e s sac e r t a i na r t i c l e sc e n t e re o n t e n t a c c u r a t e l ya n dw h o l e ,i ti sc o m p o s e db ys o m es u c c i n c ta n dc o h e r e n t s e n t e n c e s c o m p a r ew i t hi n d e x ,s u m m a r i z a t i o nc a ns a r i s f yt h er e q u e go f i n f o r m a t i o n - o b t a i n e d r e s e a r c h i n g t h e t e c h n o l o g y o f a u t o m a t i c s u m m a r i z a t i o no fo u rc o u n t r yi si nae l e m e n t a r yp h a s ey e t ,b u tt h e s i g n i f i c a n tf u n c t i o no ft h i st e c h n o l o g yc a n n o tu n d e r e s t i m a t e ,a n di tm u s tb e e x t e n s i v e l yu s e di nf u t u r ei n f o r m a t i o nd i s p o s a ld o m a i n a i m i n ga t t h ep r e s e n ts i t u a t i o n , t h i s p a p e r u s e ss t a f f s t i c a ln a t u r e l a n g u a g ed i s p o s a lm e t h o d ,i tc a r r y so u ta u t o m a t i cp a r t i c i p l ef i r s t l y , u s e s c e a s ew o r dl i s tt of i l t r a t et h er e s u l to fa u t o m a t i cp a r t i c i p l e a n do b t a i n st h e c o n c e p t i o nb yu s i n gh o w n e t ,t oe s t a b l i s ht h ec o n c e p t u a lv e c t o rs p a c e m o d e l b yc a r r y i n go u tt h ew e i g h to fw o r da n ds e n t e n c e ,s y s t e mc a ng e ta s u m m a r ya b s t r a c t a n di ta c , c o u n t st h er e d u n d a n c yt oo b t a i nt h i sp a p e r s s u m m a r i z a t i o nf i n a l l y t l l i sp a p e l b a s e so nt h er e s e a r c ha b o v e - m e n t i o n e d i td e v i s e sas y r s t e m o fa u t o m a t i cs u m m a r i z a t i o nb a s e do nc o n c e p t u a lv e c t o r 印a c em o d c l ,i t r e a l i z e sc o m p u t e ra u t o m a t i cs u m m a r i z a t i o n sf u n c t i o no f e v e r ym o d u l e a n d t h i sp a p e ra p p r o v e st h a tb a s i n go nc o n c e p t u a ls t a t i s t i c a lm e t h o di sb e t t e r t h a nw o r df r e q u e n c ys t a t i s t i c a lm e t h o d ,i tc a nc o n t a i no r i g i n a lt e x tc e n t e r c o n t e n tm o r ee x a c t l y k e yw o r d s :a u t o m a t i c s u m m a r i z a t i o nh o w n e t c o n c e p t u a l v e c t o rs p a c em o d e ln a t u r el a n g u a g ed i s p o s a l 長春理工大學(xué)碩士學(xué)位論文原創(chuàng)性聲明 本人鄭重聲明:所呈交的碩士學(xué)位論文,自動文摘技術(shù)的研究與 應(yīng)用是本人在指導(dǎo)教師的指導(dǎo)下,獨立進(jìn)行研究工作所取得的成果。 除文中已經(jīng)注明引用的內(nèi)容外,本論文不包含任何其他個人或集體己經(jīng) 發(fā)表或撰寫過的作品成果。對本文的研究做出重要貢獻(xiàn)的個人和集體, 均已在文中以明確方式標(biāo)明。本人完全意識到本聲明的法律結(jié)果f h 本人 承擔(dān)。 作者簽名:盜必釅三月孕日 長春理工大學(xué)學(xué)位論文版權(quán)使用授權(quán)書 本學(xué)位論文作者及指導(dǎo)教師完全了解“長春理工大學(xué)碩士、博士學(xué) 位論文版權(quán)使用規(guī)定”,同意長春理工大學(xué)保留并向國家有關(guān)部門或機 構(gòu)送交學(xué)位論文的復(fù)印件和電子版,允許論文被查閱和借閱。本人授權(quán) 長春理工大學(xué)可以將本學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn) 行檢索,也可采用影印、縮印或掃描等復(fù)制手段保存和匯編學(xué)位論文。 作者簽名:鹽墮歪3 畢三月掣日 指導(dǎo)導(dǎo)師簽 衛(wèi)成4 日 7| 第一章緒論 1 1 自動文摘的研究意義和相關(guān)概念 1 1 1 研究意義 隨著信息時代的到來,電子文本的大量涌現(xiàn)和i n t e m e t 網(wǎng)的廣泛使 用,人們在欣然享受著海量信息所帶給我們的資訊震撼的同時,開始逐 漸意識到要想在這信息的海洋中迅速有效地找到滿足自己特定需求的 信息是多么的困難和無助,因而迫切渴望能借助一些有效的工具來應(yīng)對 這場信息過載危機。信息的過濾、搜集與綜合成為極有潛力的研究課題, 而這些智能業(yè)務(wù)中最引人注目的便是自動文摘。它的實現(xiàn)基礎(chǔ)是要構(gòu)建 一個文本理解系統(tǒng)。本文構(gòu)建了一個文本理解系統(tǒng),并以系統(tǒng)最后生成 文摘的質(zhì)量作為評判系統(tǒng)理解能力的依據(jù)。 自動摘要是計算機語言學(xué)和情報科學(xué)共同關(guān)注的課題,其本質(zhì)是信 息的挖掘和信息的濃縮。從理論上講,對自動摘要的研究將有助于探討 人類理解、概括自然語言文本,并從中獲取知識的認(rèn)識模型。自動摘要 被認(rèn)為是計算機實現(xiàn)自然語言理解的重要標(biāo)志之一。從應(yīng)用角度講,在 文獻(xiàn)電子化和i n t e r n e t 迅速發(fā)展的今天,自動摘要系統(tǒng)的使用將大幅 度降低編制摘要的成本,縮短文摘的出版周期,為人們廉價、迅速和準(zhǔn) 確地獲得所需要的信息提供方便。 信息檢索技術(shù)的出現(xiàn)在一定程度上緩解了信息過載的壓力。然而, 鑒于現(xiàn)有的信息檢索技術(shù)所能達(dá)到的信息查詢的準(zhǔn)確率和召回率還差 強人意,與人們的實際需求還相距甚遠(yuǎn)。因此,如何能從眾多檢索結(jié)果, 尤其是以文本形式存在的成千上萬的檢索結(jié)果當(dāng)中行之有效地找到與 用戶的當(dāng)前需求最相關(guān)的信息便成為了一個眾所關(guān)注的熱點問題。 自動文摘作為解決當(dāng)前信息過載問題的一種輔助手段,正日益受到 國內(nèi)外學(xué)術(shù)界和工業(yè)界的密切關(guān)注,從近年來頻繁召開的有關(guān)自動文摘 的專題學(xué)術(shù)會議、工作組以及評測大賽就可窺見一般。 自動文摘研究之所以如火如荼的開展,關(guān)鍵就在于研究人員己經(jīng)充 分意識到它能在一定程度上彌補信息檢索技術(shù)在應(yīng)對信息過載危機時 所表現(xiàn)出來的種種缺憾。這種彌補具體表現(xiàn)在以下兩個方面: 一、質(zhì)量良好的文摘能在一定程度上取代原始文本的被檢索地位, 作為原始文本的一個替代品參與檢索,從而能有效地縮減檢索信息的時 間; 二、質(zhì)量良好的文摘能用于檢索結(jié)果的可視化,使得用戶無需瀏覽 原始的大量檢索結(jié)果便能輕松地取舍信息,從而能有效地節(jié)省信息的瀏 覽時間,提高需求信息的命中率。 由此可見,自動文摘必將為輔助解決當(dāng)前日趨嚴(yán)重的信息過載問題 而提供越來越成熟的技術(shù)支持和更加強勁的應(yīng)用保障。 自動文摘是一類特殊的自然語言理解問題。語言的層面模型觀點指 出,語言具有三個主要層面:結(jié)構(gòu)層面、意義層面和功能層面。由于對 語言各層面的研究至今尚很不充分,自動文摘就難免面臨諸方面難以逾 越的障礙。首先在意義層面上,由于語言可以有許多比喻性用法,對其 意義進(jìn)行了不同的引申,語句里各詞的詞義不是幾個范疇能包括的,故 準(zhǔn)確地把握語言的意義十分困難,其次在功能層面上,由于語言的功能 過于廣泛致使歧義問題十分突出。因此,基于目前的語言研究水平,只 有采取一些避開這些困難的有效對策才能使當(dāng)前對自動文摘的研究不 至于重蹈j t e l 轍。 1 1 2 文摘相關(guān)概念及目的 文摘是準(zhǔn)確全面地反映某一文獻(xiàn)中心內(nèi)容的簡潔連貫的短文,與索 引相比更能滿足細(xì)心獲取的要求。所謂自動文摘就是利用計算機自動地 從原始文獻(xiàn)中提取文摘m 。 文摘可分為: 1 ) 指示型文摘:對原文內(nèi)容的一種指示性的介紹,不涉及到具體的 細(xì)節(jié)內(nèi)容。其目的在于幫助用戶做出是否需要對原文做深入閱讀的判 斷; 2 ) 信息型文摘:提供對原文細(xì)節(jié)內(nèi)容的一種濃縮的表達(dá),以幫助用 戶僅通過閱讀文摘便能抓住原文的核心內(nèi)容,從而大大地節(jié)省閱讀的時 間,提高閱讀的效率; 3 ) 評論型文摘:提供對原文內(nèi)容的一種評論,以幫助用戶了解原文 作者想要表達(dá)的主觀意圖。 進(jìn)行自動文摘的主要目的是:( 1 ) 自動文摘是表明文章主題的一 個摘要內(nèi)容。當(dāng)出現(xiàn)在文章的第一頁或僅以摘要形式被作為一個鏈接 時,它可以明確的表達(dá)出文章撰寫的主要目的。這樣可以使讀者很快地 肯定或否定這篇文章是否是他們感興趣的內(nèi)容,而決定是否需要去讀其 中的詳細(xì)內(nèi)容;( 2 ) 當(dāng)文摘被建立索引時,可以讓讀者很快找到自己 真正需要的相關(guān)文章,而不必將時間浪費在不相關(guān)文章的閱讀上;( 3 ) 當(dāng)文摘被搜索引擎標(biāo)記上域信息后,可以使用戶進(jìn)行的搜索更加高效, 2 以在最短的時間里找到與查詢關(guān)鍵字相關(guān)內(nèi)容的文檔列表。 1 1 3 國內(nèi)外研究現(xiàn)狀 關(guān)于自動文摘的研究,起始于1 9 5 8 年i b m 公司的h el u h n 所做 的工作0 1 。到目前為止,已經(jīng)有國內(nèi)外眾多學(xué)者和研發(fā)機構(gòu)投入到此項 富有市場前景和研究價值的課題中來,并取得了一系列豐碩的成果。國 內(nèi)對自動文摘的研究起始于8 0 年代末,上海交通大學(xué)王永成教授領(lǐng)導(dǎo) 的課題組所做的工作是當(dāng)時的典型代表。1 。目前我國在該領(lǐng)域的研究仍 處于初級階段,尚有很大的發(fā)展空間。 縱觀自動文摘的研究歷程,歸納起來可以分為三個主要的發(fā)展階段 、兩種主流的研究方法以及兩種廣泛采用的評價策略0 1 ,現(xiàn)詳述如下: 1 ) 三個主要的發(fā)展階段 階段一:5 0 年代末- 6 0 年代末 代表性的工作:( l u h n ,1 9 5 8 ) ,( h e e d m u n d s o n ,1 9 6 9 ) 等。 l u h n 于1 9 5 8 年發(fā)表了世界上第一篇關(guān)于計算機自動編制文摘的經(jīng) 典論文“t h e a u t o m a t i cc r e a t i o n o f l i t e r a r y a b s t r a c t s ”,從此揭開了自 動文摘研究的序幕0 1 。他提出了一種基于關(guān)鍵詞頻率統(tǒng)計的自動文摘方 法,即通過統(tǒng)計文本中的內(nèi)容詞的詞頻來描述內(nèi)容詞的重要度,并利用 文本句子中包含的所有內(nèi)容詞的重要度來給各個句子打分,從中挑選出 得分最高的若干句子構(gòu)成摘要。他的偉大貢獻(xiàn)在于首次提出了一種基于 文本淺層特征統(tǒng)計的自動文摘方法,并將著名的z i p f 定律成功地應(yīng)用 到自動文摘研究領(lǐng)域,取得了令人矚目的效果。 1 9 6 9 年,e d m u n d s o n 在l u l m 提出的基于關(guān)鍵詞頻率統(tǒng)計的自動文 摘方法的基礎(chǔ)上,進(jìn)一步提出了一個重要的改進(jìn)設(shè)想。即將文本的關(guān) 鍵詞、標(biāo)題、位置以及提示詞這四種淺層特征聯(lián)合起來考慮,并通過對 它們的綜合統(tǒng)計來給每個句子打分,這個分值就作為句子重要性的度量 值。他還系統(tǒng)地比較了綜合應(yīng)用這四種特征加權(quán)的方式所產(chǎn)生的摘要的 效果,結(jié)果發(fā)現(xiàn)標(biāo)題位置提示詞綜合加權(quán)策略取得了最好的摘 要效果,而單純使用關(guān)鍵詞加權(quán)則效果最差。 總之,在自動文摘研究的早期,單純的基于文本淺層特征的統(tǒng)計學(xué) 方法占據(jù)了研究的主導(dǎo)地位,并曾一度統(tǒng)治了相當(dāng)長一段時期。國內(nèi)上 海交通大學(xué)王永成教授所領(lǐng)導(dǎo)的課題組于1 9 9 7 年成功研制出中文自動 文摘系統(tǒng)o a “1 。該系統(tǒng)在原理上就是綜合采用了以上介紹的多種淺層 特征集成的句子打分法,只是它主要針對的是中文文本而非英文文本。 階段- - :7 0 年代初8 0 年代末 代表性的工作“。;( s e h a n k ,1 9 7 4 ) ,( d e j o n g ,1 9 7 9 ) ,( j i t a i t ,1 9 8 2 ) , ( d a n i l o f u m ,1 9 8 2 ) ,( h a h n , 1 9 8 8 ) ,( l i s ae r a u ,1 9 8 9 ) 等。 在1 9 7 4 年,耶魯大學(xué)的s c h a n k 研制了s a m 自動文摘系統(tǒng)。該系 統(tǒng)采用腳本來分析簡單的故事,并對故事進(jìn)行歸納摘要”1 。 耶魯大學(xué)的d c j o n g 于1 9 7 9 年研制出了著名的f r u m p 自動文摘系 統(tǒng)。該系統(tǒng)利用語法知識來判定某個預(yù)期詞在句子當(dāng)中的位置,并通過 句法分析來遍歷整個文本以尋找標(biāo)示為已知腳本的短語,從而建立起各 種故事的梗概“”。 1 9 8 2 年,j i t a i t 對原有的f r u m p 系統(tǒng)進(jìn)行了改進(jìn)。他提出將所 有的資料先轉(zhuǎn)換成概念依存結(jié)構(gòu),然后再在此基礎(chǔ)上通過分析、推測各 種信息之間的關(guān)系來構(gòu)成摘要“”。 意大利u d i n e 大學(xué)的d a n i l o f u m 等研究人員在1 9 8 2 年成功研制出 了s u s y 文摘系統(tǒng)。該系統(tǒng)以一階謂詞邏輯作為文本的機內(nèi)表達(dá)形式, 利用綱要產(chǎn)生器和分析縮寫器來裝配出滿足特定需求的摘要“。 德國康斯坦大學(xué)的h a h n 等研究人員于1 9 8 8 年研制出t o p i c 自動 文摘系統(tǒng),該系統(tǒng)針對的是微處理器領(lǐng)域的科技文本,它采用框架作為 知識的載體,并通過聯(lián)合語法、語義分析來生成各種長度的文摘。 1 9 8 9 年,美國g e 研發(fā)中心的l i s ae r a u 等科研人員研制出了 s c i s o r 自動文摘系統(tǒng)。該系統(tǒng)利用篇章主題分析以及復(fù)雜的句法結(jié)構(gòu) 分析等技術(shù)生成與摘要有關(guān)的框架概念,并采用某種預(yù)期驅(qū)動分析器從 所有框架概念當(dāng)中提取出預(yù)期內(nèi)容,構(gòu)成摘要。該系統(tǒng)主要處理的是“公 司合并”方面的新聞“。 總之,在這個階段,以人工智能技術(shù),深層自然語言處理技術(shù)以及 知識工程技術(shù)為代表的自動文摘方法逐漸占據(jù)了該領(lǐng)域的主導(dǎo)地位。在 國內(nèi),哈爾濱工業(yè)大學(xué)的王開鑄教授領(lǐng)導(dǎo)的課題組于1 9 9 2 年研制出的 中文自動文摘實驗系統(tǒng)m a t a s ,即采用基于了深層自然語言處理的方 法“”。此外,哈爾濱工業(yè)大學(xué)的劉挺教授于1 9 9 6 年提出的中文自動文 摘系統(tǒng)的設(shè)計方案即是采用上述基于信息抽取的框架知識表達(dá)來實現(xiàn) 的“”。北京郵電大學(xué)的鐘義信教授領(lǐng)導(dǎo)下的課題組也充分利用了上述基 于自然語言處理和知識工程的方法開發(fā)出了面向特定領(lǐng)域的中文自動 文摘系統(tǒng)模型l a d i e s “,該系統(tǒng)主要處理的是有關(guān)計算機病毒方面的中 文文本,并取得了不錯的效果。與之類似的還有東北大學(xué)與香港城市理 工大學(xué)聯(lián)合開展的有關(guān)自動文摘方面的研究,他們提出的中文自動文摘 系統(tǒng)通過腳本來存儲知識,通過用戶交互手段來生成最終的摘要“”。 階段三:9 0 年代初至今 代表性的工作:( s a l t o ne ta l ,1 9 9 4 ) ,( k u p i e ee ta l ,1 9 9 5 ) , ( l i n & h o v y , 1 9 9 7 ) ,( j a i m ec a r b o n e l l & j a d eg o l d s t e i n ,1 9 9 8 ) ,( y i h o n 8 g o n g & x i nl i u , 2 0 0 1 ) ,( c o n r o y & o l e a r y , 2 0 0 1 ) 等。 4 s a l t o n 等研究人員在1 9 9 4 年通過統(tǒng)計文本段落之間的共享詞匯數(shù) 來計算段落之間的語義關(guān)聯(lián),構(gòu)造文本的語篇結(jié)構(gòu)圖來輔助文本話語結(jié) 構(gòu)的自動分析,從而提出了基于語篇話語結(jié)構(gòu)分析的抽取型自動文摘方 法“。國內(nèi)與之類似的工作是南京大學(xué)的王繼成等研究人員在2 0 0 3 年 所提出的基于篇章結(jié)構(gòu)指導(dǎo)的中文w e b 文檔自動摘要方法“。 1 9 9 5 年,k u p i e c 等研究人員開創(chuàng)了將機器學(xué)習(xí)技術(shù)用于自動文摘 領(lǐng)域的先河“。他們采用基于樸素b a y e s i o n 理論的機器學(xué)習(xí)方法從 科技論文和論文摘要的語料庫中提取出對抽取重要句子有貢獻(xiàn)的聯(lián)合 特征,并在此基礎(chǔ)上充分利用已獲得的聯(lián)合特征來從科技文本中抽取一 定數(shù)量的句予以構(gòu)成摘要。 l i i l 和h o v y 在1 9 9 7 年嘗試了用機器學(xué)習(xí)方法驗證句子位置這一自 然語言處理領(lǐng)域慣用的淺層特征對文摘句選取質(zhì)量的影響“。 j a i m ec a r b o n e l l 和j a d eg o l d s t e i n 在1 9 9 8 年探討了如何將文本中包 含的概念多樣性引入到自動文摘的研究當(dāng)中,從而使產(chǎn)生的摘要能盡可 能地覆蓋原文多個概念并包含較少的冗余。具體做法是通過采用一種稱 為最大邊緣相關(guān)( m m r ) 的摘要模型來實現(xiàn)的啪1 。 哈爾濱工業(yè)大學(xué)的劉挺等研究人員在1 9 9 9 年提出了種基于篇章 多級依存結(jié)構(gòu)分析的自動文摘方法o ”,并通過實驗驗證了該方法的可行 性和有效性。 h o n gg o n g 和x i nl i u 兩位研究人員在2 0 0 1 年提出了兩種句子抽 取型的自動文摘方法嘲1 。一種是基于相關(guān)性度量策略,另一種是基于潛 在語義分析( l s a ) 算法?;谙嚓P(guān)性度量的文摘方法,它挑選文摘句的 策略在于:先循環(huán)計算每個句子和文本之間的語義相似度,從中挑選出 相似度最大的那個句子放入摘要。然后從剩余的句子集合中依次去掉已 包含在剛?cè)脒x摘要的那個句子中的所有詞語,再通過重新計算剩余的句 子和文本之間的語義相似度來選擇出下一個具有最大相似度的句子入 選進(jìn)最終的摘要。而基于潛在語義分析的文摘方法則通過對句子一詞語 矩陣做s v d 分解,進(jìn)而挑選出分解結(jié)果矩陣的對角線上若干最大特征 值所對應(yīng)的句子入選最終的摘要。 2 0 0 1 年,c o n r o y 和o l e a r y 兩位研究人員嘗試了將隱馬爾可夫模型 引入自動抽取型摘要的研究當(dāng)中“”。 2 0 0 1 年,上海交通大學(xué)的研究人員還嘗試了以心理語言學(xué)為基礎(chǔ), 構(gòu)造基于主題敏感詞分析的新聞文獻(xiàn)自動摘要系統(tǒng)o “。 總之,從9 0 年代初至今,自動文摘研究在經(jīng)歷了相當(dāng)長一段時期 的發(fā)展之后,正朝著面向?qū)嵱没?,面向非受限領(lǐng)域文本處理的方向邁進(jìn), 進(jìn)入到一個前所未有的高潮期。與此同時,各種新穎的研究思想、研究 成果和熱點課題層出不窮。但總的來說,占主導(dǎo)地位的研究方法又逐漸 回歸到以統(tǒng)計學(xué)的方法為主,以深層自然語言處理、信息抽取以及基于 本體的知識工程方法為輔的混和型方法上了”。 2 ) 兩種主流研究方法: 方法一:基于抽取的研究方法( e x t r a c t i o nm e t h o d ) 盡管自動文摘的研究是從基于抽取的研究方法開始的,然而目前的 絕大多數(shù)工作仍然采用了基于抽取的方法來從原文本中抽取句子或更 大的語言單元以構(gòu)成摘要,只是在具體的抽取方法上有所改進(jìn)。從最初 的單純依靠原文本淺層特征的句子抽取方法逐漸過渡到采用更加復(fù)雜 的句子抽取策略,如基于語料庫的機器學(xué)習(xí)方法”1 ,基于文本主題結(jié)構(gòu) 分析的方法。以及基于文本修飾辭分析的自動文摘方法等。 方法二:基于泛化生成的研究方法( a b s t r a c t i o nm e t h o d ) 近期,基于泛化生成的自動文摘方法獲得了不少研究人員的關(guān)注, 并取得了一定的成果。該方法主要利用了信息抽取、信息壓縮、信息融 合等多種泛化生成的核心技術(shù)。 信息抽取技術(shù)的思路主要表現(xiàn)在;通過預(yù)定義信息槽來存放待抽取 信息。如針對計算機病毒類的文章,預(yù)定義信息槽往往設(shè)計為包括病毒 名、發(fā)作時間、解決辦法等:然后利用計算機自動地在原文本中定位有 關(guān)的信息片斷,最后將這些片斷填充到各個對應(yīng)的槽中以產(chǎn)生結(jié)果摘 要。該技術(shù)的優(yōu)點在于能產(chǎn)生較高質(zhì)量的準(zhǔn)確摘要,但缺虐也不容冬視, 那就是它的應(yīng)用領(lǐng)域嚴(yán)格受限且開發(fā)這類文摘系統(tǒng)所需的代價c j 貴。 信息壓縮和信息融合技術(shù)的特點在于:充分和j , 4 1 了現(xiàn)有的自然語言 產(chǎn)生技術(shù)來改造文本中的相關(guān)句子,并在一定程度上構(gòu)造出新的句子。 該技術(shù)具有代表性的工作是k n i g h t ,k e v i n 和m a r c u 在2 0 0 0 年所發(fā)布 的研究成果。“。他們采用了基于期望最大化的估計方法訓(xùn)練系統(tǒng)模型中 的參數(shù),然后通過訓(xùn)練階段所獲得的參數(shù)來產(chǎn)生相關(guān)的規(guī)則,并將它們 用于壓縮句子的句法分析樹,從而產(chǎn)生出原文本的一個精簡的文摘版 本,而該版本所包含的每個句子能在最大程度上符合語法規(guī)范。 據(jù)統(tǒng)計,目前絕大多數(shù)的自動文摘方法往往都致力于基于抽取的文 摘方法啪1 ( 即采用e x t r a c t i o n 的文摘方法) ,而非基于泛化生成的文摘方 法o ”( 即采用a b s t r a c t i o n 的文摘方法) 。一方面,這是由理性的自然語言 理解技術(shù)和知識工程技術(shù)的高度復(fù)雜性及其應(yīng)用領(lǐng)域的嚴(yán)重受限性所 造成;另一方面,這也與近年來統(tǒng)計學(xué)的研究方法、機器學(xué)習(xí)的研究方 法以及模式識別的研究方法在自然語言處理一系列應(yīng)用領(lǐng)域中所取得 的不俗成績密不可分。 基于抽取的文摘方法按抽取辦法的不同可大致分為有指導(dǎo)型和無 指導(dǎo)型。有指導(dǎo)型抽取方法的實現(xiàn)依賴于大量人工做的標(biāo)準(zhǔn)摘要,即業(yè) 類俗稱的金標(biāo)準(zhǔn)“g o l ds t a n d a r d s ”來幫助訓(xùn)練和確定摘要統(tǒng)計學(xué)模型 6 的特征參數(shù)。然而,由于人工摘要的置信度問題至今仍是一個懸而未決 的問題,因而在很大程度上促使了研究人員對無指導(dǎo)型文摘辦法的研 究。而無指導(dǎo)型的文摘辦法,其最大優(yōu)勢就在于:它的實現(xiàn)無需人工摘 要的支持,僅從文本自身出發(fā),利用統(tǒng)計學(xué)方法和啟發(fā)式規(guī)則來確定文 本中各個句子的權(quán)值并依此來挑選出文摘句。該辦法還可以進(jìn)一步被細(xì) 分為無篇章結(jié)構(gòu)分析型和基于篇章結(jié)構(gòu)分析型。前一種辦法的通常做法 是:先給原文本包含的所有句子打分,然后挑選出得分最高的若干句子, 并按照這些句子在原文中出現(xiàn)的語序先后關(guān)系依次輸出它們以構(gòu)成摘 要。但細(xì)心的研究人員很快發(fā)現(xiàn)采用這種方法產(chǎn)生的文摘不僅主題覆蓋 不全而且冗余偏大,它往往只能抽取出文章中分布密度較大的主題,而 忽視了其它主題的存在。針對此問題,南京大學(xué)的王繼成等提出了基于 篇章結(jié)構(gòu)分析型的自動文摘方法,他們通過文本中相鄰段落的用詞重疊 統(tǒng)計來計算相鄰段落之間的語義距離,從而得出文章主題的一種劃分。 最后從各個劃分好的主題下抽取出適量的句子來構(gòu)成摘要。這種方法在 處理篇章結(jié)構(gòu)比較規(guī)范的文本時效果比較好,能有效地解決無篇章結(jié)構(gòu) 分析型文摘方法所凸顯出的上述問題。然而,令人遺憾的是,當(dāng)文本的 寫作風(fēng)格比較自由,且主題分布靈活多樣時,即一個主題可能分布在不 相鄰的若千個段落當(dāng)中。在這種情況下,采用此方法的效果則會大打折 扣。 3 ) 兩種廣泛采用的評價策略 策略一:i n t r i n s i ce v a l u a t i o n 這是基于摘要自身質(zhì)量的一種直接式的評價策略。 策略- - e x t r i n s i ce v a l u a t i o n 這是一種間接式的評價策略,即讓摘要在自然語言處理的其它應(yīng)用 當(dāng)中去取代其對應(yīng)文本的原始地位,從而通過對該應(yīng)用效果的影響程度 來間接評價摘要的質(zhì)量。 自動文摘的評價是一個非常棘手的問題,國內(nèi)外學(xué)術(shù)界一直在努力 探索著,力求尋找到一種行之有效的解決方案,但到目前為止似乎離預(yù) 想中的目標(biāo)還有相當(dāng)長的一段距離,不過這也正好促使了對自動文摘的 評價這一經(jīng)典難題的前所未有的關(guān)注。一系列自動文摘領(lǐng)域頗具影響力 的評價比賽正在受到越來越多的科研機構(gòu)和研究人員的大力支持,而這 必將促進(jìn)自動文摘技術(shù)的蓬勃發(fā)展。 美國的s u m m a c ,d u c ,日本的t s c 以及中國的8 6 3 計劃中文信 息處理與智能人機接口技術(shù)評測系列之自動文摘任務(wù)便是此類評價比 賽中的典型代表。 1 2 本課題研究的內(nèi)容 關(guān)于自動文摘系統(tǒng)的研究,主要有基于意義的理解文摘和基于統(tǒng)計 的機械文摘兩種主要的研究方法。關(guān)于它的理論的研究遠(yuǎn)遠(yuǎn)滯后于信息 社會中信息處理的發(fā)展要求。 產(chǎn)生這種現(xiàn)象的主要原因是由于基于意義的理解文摘和基于統(tǒng)計 的機械文摘系統(tǒng)都存在著一些弊端。如對于基于意義的理解文摘,由于 知識庫建立的困難性,知識表示的復(fù)雜性,使得它只能面向某一應(yīng)用領(lǐng) 域,并且文摘質(zhì)量并不十分令人滿意;對于基于統(tǒng)計的機械文摘,大多 采用的是基于詞形統(tǒng)計的向量空間模型法。這種方法以詞形作基礎(chǔ),認(rèn) 為詞形是文章的最小意義單元。但是向量空間模型最基本的假設(shè)是向量 各義項之間要正交,也就是意義不相關(guān),而在真實文本中,存在著相當(dāng) 多的一詞多義與一義多詞現(xiàn)象,使作為義項的詞語之間往往有很大的相 關(guān)性。從而導(dǎo)致文摘的質(zhì)量不高。 為此,我們提出了基于知網(wǎng)( h o w n e t ) 概念獲取算法得到文本的 主題語義概念,建立概念向量空間模型。這樣,可以使得向量空間模型 中各向量義項間保持正交關(guān)系,從而提高向量空間模型進(jìn)行自動文摘的 各項效能。 本課題研究主要內(nèi)容包括文本詞語的計算機處理、詞語所表達(dá)概念 的自動獲取和句子語義相似度的計算分析,以及文本主題句的提取的研 究。文本將基于統(tǒng)計的機械文摘、基于h o w n e t 的詞語概念獲取和主題 句和主題語義相似度計算等研究方法結(jié)合起來提高了文摘的質(zhì)量。 1 3 本文內(nèi)容組織 本文各章安排如下: 第一章緒論,概述了文本自動文摘的意義和應(yīng)用背景,介紹了文本 自動文摘的國內(nèi)外研究現(xiàn)狀,以及研究存在的問題和提出的相關(guān)技術(shù)。 第二章是文本自動文摘模型的介紹,綜述了當(dāng)前文本自動文摘領(lǐng)域 幾種重要的模型,并作了相應(yīng)的比較和分析。 第三章是基于概念向量空間模型的中文自動文摘研究。這一部分是 文論文的核心部分,介紹了詞語概念獲取的主要工具h(yuǎn) o w n e t ,闡明了 建立一個穩(wěn)定、可靠、高效的自動文摘系統(tǒng)里面的各項關(guān)鍵技術(shù)的實現(xiàn)。 第四章是系統(tǒng)實現(xiàn)與試驗分析,介紹了自動文摘系統(tǒng)各模塊以及相 應(yīng)模塊所實現(xiàn)的功能;此外,對該系統(tǒng)進(jìn)行了全面的測評,主要是通過 各種不同的方法和測試手段對設(shè)計實現(xiàn)的系統(tǒng)進(jìn)行評估,指出了存在的 問題以及初步的解決方案。 第五章對全文進(jìn)行總結(jié)并展望了未來的工作。 9 第二章自動文摘的相關(guān)模型 2 1 向量空間模型 在自然語言處理的各個研究領(lǐng)域,對文本各級語言單元進(jìn)行形式化 的表達(dá)是一個既基礎(chǔ)而又重要的問題。而形式化表達(dá)其根本目的就在于 力圖將各種無結(jié)構(gòu)化的文本單元轉(zhuǎn)換成便于計算機處理的結(jié)構(gòu)化的表 達(dá)形式,以支持后續(xù)一系列語言處理應(yīng)用的需要。 向量空間模型( v e c t o rs p a c em o d e l ) 是2 0 世紀(jì)6 0 年代由g e r a r d s a l t o n 等人提出的。主要應(yīng)用于信息檢索、自動索引、分類、聚類、篇 章分析等。其思想是把文本表示成向量空間中的點( 稱為向量) ,用向量 之間的夾角余弦作為文本間的相似度度量。當(dāng)向量空間模型用于文本檢 索時,首先要建立文本和用戶查詢的向量表示,然后進(jìn)行查詢向量和文 本向量問的相似度計算。 2 1 1 文本向量空間表示 對于計算機來說,中文文本就是由漢字和標(biāo)點符號等晟基本的語言 符號組成的字符串,由字構(gòu)成詞,由詞構(gòu)成短語,進(jìn)而形成句、段、節(jié)、 章、篇等語言結(jié)構(gòu)。用盡量簡單并且準(zhǔn)確的方法表示文檔,是進(jìn)行文本 檢索的前提。 在向量空聞模型f v s m :v e c t o rs p a c em o d e l ) ,文本的各級語言單 元被映射成n 維向量空間中的對應(yīng)向量,而各個向量則通過文本中的 特征的重要度來形式化表達(dá)。值得注意的是,這里所談到的文本中的特 征既可以指文本中所包含的字、詞,也可以是更加復(fù)雜的特征,如概念、 句法結(jié)構(gòu)等,至于具體選用什么樣的特征往往與實際的應(yīng)用需求有關(guān), 不可一概而論。 v s m 表示方法是在文本中提取其特征項組成特征向量,并以某種 方式為特征項賦權(quán),如:文檔d 可表示成d ( t l ,1 2 ,t n ) ,其中t k 是 特征項,1 k n 。由于特征項的重要程度不同,可用附加權(quán)重w k 來進(jìn) 行量化,這樣文檔d 可表示為d ( t l ,w 1 ;t 2 w 2 ;,t n ,w n ) ,簡記為 d ( w l ,w 2 ,w n ) 。這時說項t k 的權(quán)重為w k ,1 k n 。如果把t 1 , t 2 ,t n 看成是一個n 維坐標(biāo)系,而w 1 ,w 2 ,w 。是相應(yīng)的坐標(biāo)值, 則d ( w 1 ,w 2 ,w n ) 被看成是n 維空間中的一個向量。稱d ( w l ,w 2 , w n ) 為文本d 的向量表示。 1 0 w l n ) d e ( w n ,w 強,w 知) 圖2 1 文本的向量空間表示 可以看出,對向量空間模型來說,有兩個基本問題:即特征項的選 擇和項的權(quán)重計算。 2 1 2 特征項選擇 用來表示文檔內(nèi)容的項可以是各種類別,對漢語來說,有字、詞、 短語,甚至是句子或句群等更高層次的單位。項也可以是相應(yīng)詞或短語 的語義概念類。 項的選擇必須由處理速度、精度、存儲空間等方面的具體要求來決 定。特征項選取有幾個原則:一是應(yīng)當(dāng)選取包含語義信息較多,對文本 的表示能力較強的語言單位作為特征項;二是文本在這些特征項上的分 布應(yīng)當(dāng)有較為明顯的統(tǒng)計規(guī)律性,這樣將適用于信息檢索、文檔分類等 應(yīng)用系統(tǒng);三是特征選取過程應(yīng)該容易實現(xiàn),其時間和空間復(fù)雜度都不 太大。實際應(yīng)用中常常采用字、詞或短語作為特征項。 2 1 3 特征項權(quán)重計算 對于特征項權(quán)重的計算,經(jīng)典的t f i d f 蚓方法考慮兩個因素:1 ) 詞 語頻率t f ( t e r mf r e q u e n c y ) ;詞語在文檔中出現(xiàn)的次數(shù):2 ) 詞語倒排文檔 頻率i d f ( i n v e r s ed o c u m e n tf r e q u e n c y ) :該詞語在文檔集合中分布情況的 一種量化,常用的計算方法是l o g :( 仇+ o 0 1 ) ,其中n 為文檔集合中 的文檔數(shù)目,i l k 為出現(xiàn)該詞語的文章數(shù)。 根據(jù)以上兩個因素,可以得出公式: = 吮l o 島( 心+ o 0 1 ) 其中伍k 為詞語t k 在文檔d 。中出現(xiàn)的次數(shù),w i k 為詞語t k 在文檔 d i 中的權(quán)值,k = l 2 n l ( m 為詞的個數(shù)) 。 為了計算方便,通常要對向量進(jìn)行規(guī)一化,最后由: = 吮l 0 9 2 ( n n k + 0 0 1 ) ( 2 1 ) 以上公式的提出是基干這樣一個考慮:對區(qū)別文檔最有意義的特征 詞應(yīng)該是那些在文檔中出現(xiàn)頻率足夠高恧在文檔集合中的其它文檔中 出現(xiàn)頻率足夠少的詞語。 2 1 4 文本間的相似度度量 向量空間模型中的另一個概念是相似度( s i m i l a r i t y ) :相似度 s i m ( d ,d 2 ) 用于度量兩個文檔d 。和d 2 之間的內(nèi)容相關(guān)程度。當(dāng)文檔被 表示為文檔空間的向量,就可以利用向量之間的距離計算公式來表示文 檔間的相似度。常用的距離有向量的內(nèi)積距離: s i m ( d l ,d 2 ) = 。 = 1 s i r e ( d 1 ,d 2 ) = c o s 0 = 既; ( 2 2 ) ( 2 3 ) 將v s m 應(yīng)用于不同的領(lǐng)域,其相似度的計算有所不同。例如,對于 信息檢索來講,v s m 采用向量間的某種距離度量來反應(yīng)文本對查詢的滿 足程度。所有相似度的值最后能與真實情況相符,計算簡便,同時最好 能歸一化到 0 ,1 區(qū)間上,并且分布盡可能的均勻,使閾值的選擇容易 一些。 2 2 存在的問題 從向量空間模型的特點可以看出,在特征項確定的情況下,特征項 的權(quán)重計算是文檔分類的關(guān)鍵,特征項權(quán)重計算常用的方法有布爾函 數(shù)、開根號函數(shù)、對數(shù)函數(shù)、t f i d f 函數(shù)等,其中t f i d f 函數(shù)應(yīng)用最 為廣泛,其基本思路是使用頻率因子t f ( t e r mf r e q u e n c y ) 進(jìn)行特征項 的賦權(quán),同時還要考慮文檔集因子i d f ( i n v e r s ed o c u m e n tf r e q u e n c y ) , 體現(xiàn)出查詢內(nèi)容與文檔的相關(guān)度大小,一般采用使用出現(xiàn)頻率的倒數(shù)來 計算,i d f = l o g ( 玎,) ,其中n 為文檔集合,n 。為查詢內(nèi)容在文檔中 出現(xiàn)的次數(shù),但是t f i d f 函數(shù)也存在缺點,它雖然考慮了出現(xiàn)特征項 的文本在整個文檔集中的比例,卻不能很好地把握特征項在文本集合中 分布的差異,所以影響了分類的最終效果。 v s m 的第一個問題是由于特征項在文檔中的不同位置會代表不同 的權(quán)重,而不同的關(guān)鍵詞長度也會影響權(quán)重的大小。例如“汽車修理” 一詞在查詢時,如果該詞出現(xiàn)在文檔的標(biāo)題處,則其權(quán)重一定比出現(xiàn)在 文章的摘要中要高,而出現(xiàn)在摘要中的權(quán)重一定要比出現(xiàn)在正文中要 高;而且如果文檔d 1 的長度比文檔d 2 長,那么在d 2 中的權(quán)重也應(yīng)該 比d 1 要高,其相似度也應(yīng)該大一些,對于中文文檔,關(guān)鍵詞的長度越 長,則在文檔中出現(xiàn)的機率就越小,所以較長的關(guān)鍵詞要比較短的包含 更多的信息。在實際情況中,如果同一特征項在不同文檔中出現(xiàn)的次數(shù) 不同,那么在出現(xiàn)頻率較高的文檔中,其權(quán)重應(yīng)該較高( 而不應(yīng)該是統(tǒng) 一權(quán)重值“1 ”) ,在傳統(tǒng)的t f i d f 函數(shù)中,每增加一個文檔都要重新計 算向量,導(dǎo)致查詢速度降低,同時由于使用頻率因子,在擴大查詢范圍 時,不可避免的會影響到查詢的準(zhǔn)確性。 v s m 的另一個問題在于查詢和文檔向量間是依靠鏈接來判斷的, 而且判斷的依據(jù)中簡單的兩者相同關(guān)鍵詞的比較,但實際情況是,大量 的關(guān)鍵詞具有相同的語義,同一關(guān)鍵詞也會有多種語義的解釋描述( 即 產(chǎn)生了語義分歧) 。例如“計算機”一詞,也可以是“電腦”、“微機” 等,對用戶來說所指的可能是一個意思,但在v s m 中這幾個詞是完全 不同的概念。 這里用改進(jìn)的v s m 方法??梢钥闯觯瑐鹘y(tǒng)的v s m 主要的缺陷就 是特征項相互獨立的要求與自然語言多樣性的矛盾。實際上我們主要考 慮兩個方面的改進(jìn),一個是關(guān)鍵詞的長度和出現(xiàn)在文檔中的位置對權(quán)重 的影響;另一個就是要考慮關(guān)鍵詞的語義環(huán)境影響。 2 3 加權(quán)的v s m 算法改進(jìn) 為了解決特征項在文本集合中分布的差異,提出改進(jìn)的加權(quán)v s m 算法,公式如下: r ,、t f 矽。= 五i 二- _ + 1l + 衛(wèi)t f , x l o g0 ( 2 4 ) 。 一l n ,7 其中九為位置加權(quán)系數(shù),表示文本在文檔不同位置的加權(quán)處理參 數(shù),按照文本在文檔中的位置不同,一般分為標(biāo)題、摘要、關(guān)鍵詞、正 文、結(jié)論和超鏈接等6 個位置,分別賦予不同的加權(quán)系數(shù),由于w e b 文 檔信息都是通過鏈接來完成的,w e b 上的各種標(biāo)記和鏈接包含了頁面的 結(jié)構(gòu)信息,應(yīng)該給予足夠的重視和利用。 例如:在鏈接r s 中,r 的連接標(biāo)記若為文檔d 錨文本 文檔d :其中錨文本對目標(biāo)u r l = ” h t t p :w 哪c h i n a ”會有比較準(zhǔn)確的描述,而文檔d ,d :就次之,所 以對于出現(xiàn)在錨文本和文檔d 。,d 。中的每一個特征項應(yīng)賦于較高的權(quán)重 系數(shù)。 另外一個關(guān)鍵的加權(quán)位置在一些語義的重點語句位置,如“綜上所 述”、“結(jié)束語”、“主要在于”等關(guān)鍵語句中,其值可以從輔助主題詞表 中獲取( 具體解釋見后) 。一般位置加權(quán)系數(shù) 的計算可以考慮使用各 分部分的頻率與不同位置加權(quán)系數(shù)的乘積和來表示。 a = 璣+ 玩 + t f 2 如+ t f , 也+ 璣2 4 + 璣九 其中t f o 為對正文關(guān)鍵詞統(tǒng)計的詞頻數(shù);t f ,t f z ,t f 3 ,t f , ,t f s 別為標(biāo)題、摘要、關(guān)鍵詞、超鏈接中的詞頻; 。, 。, 。,入。, s 分 別為其加權(quán)系數(shù)。 t f i 為特征項頻率;n 為總文檔數(shù)量;n ,為包含特征項w ,的文檔數(shù); 1 i 為文檔長度,使用一掣來表示文本能夠代表文檔內(nèi)容的能力,例如雖 然“計算機”一詞出現(xiàn)在文檔標(biāo)題和正文中的頻率相同,但由于標(biāo)題比 正文文檔長度要小的多,所以我們認(rèn)為“計算機”一詞在標(biāo)題中的權(quán)重 要比在正文中的權(quán)重要大的多。 1 4 第三章基于概念向量空間模型關(guān)鍵技術(shù)的研究 3 1 自動分詞技術(shù)的研究 機器不同于人,它不可能智能地讀懂文章內(nèi)容。當(dāng)然,我們在讀文 章時,也是從組成這篇文章的基礎(chǔ)詞著手,明白各個句子的的含義,再 概括出各段落的大意,最后得出文章的中心思想。對一篇文章的處理, 我們先從自動分詞開始。下面,現(xiàn)介紹一下自動分詞的算法。 3 1 1 自動分詞算法 我們可以將現(xiàn)有的分詞算法分為三大類:基于字符串匹配的分詞方 法、基于理解的分詞方法和基于統(tǒng)計的分詞方法。 1 、基于字符串匹配的分詞方法 這種方法又叫做機械分詞方法,它是按照一定的策略將待分析的漢 字串與一個“充分大的”機器詞典中的詞條進(jìn)行配,若在詞典中找到某 個字符串,則匹配成功( 識別出一個詞) 。 按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹 配;按照不同長度優(yōu)先匹配的情況,可以分為最大( 最長) 匹配和最小 ( 最短) 匹配;按照是否與詞性標(biāo)注過程相結(jié)合,又可以分為單純分詞 方法和分詞與標(biāo)注相結(jié)合的一體化方法。常用的幾種機械分詞方法如 下; 1 ) 正向最大匹配 正向最大匹配法是最早提出的自動分詞方法,它的基本思想是先取 一句話的前六個字查字庫,若不是一個詞,則刪除六個字的最后一個字 再查,這樣一直查下去,至找到一個詞為止。句子剩余部分重復(fù)此工作, 直到把所有的詞都分出為止。 2 ) 逆向最

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論