第四節(jié)_文本挖掘_第1頁(yè)
第四節(jié)_文本挖掘_第2頁(yè)
第四節(jié)_文本挖掘_第3頁(yè)
第四節(jié)_文本挖掘_第4頁(yè)
第四節(jié)_文本挖掘_第5頁(yè)
已閱讀5頁(yè),還剩22頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第四節(jié)第四節(jié) 文本挖掘概述文本挖掘概述v文本挖掘是數(shù)據(jù)挖掘的一個(gè)分支。文本挖掘是數(shù)據(jù)挖掘的一個(gè)分支。v將文本型信息源作為分析對(duì)象,利用智能算法,將文本型信息源作為分析對(duì)象,利用智能算法,如神經(jīng)網(wǎng)絡(luò)、基于案例的推理等,并結(jié)合文字處如神經(jīng)網(wǎng)絡(luò)、基于案例的推理等,并結(jié)合文字處理技術(shù),分析大量的非結(jié)構(gòu)化文本源(如文檔、理技術(shù),分析大量的非結(jié)構(gòu)化文本源(如文檔、網(wǎng)頁(yè)、企業(yè)管理日志等),從中尋找信息的結(jié)構(gòu)、網(wǎng)頁(yè)、企業(yè)管理日志等),從中尋找信息的結(jié)構(gòu)、模型、模式等各種隱含的知識(shí)。模型、模式等各種隱含的知識(shí)。v文本挖掘就是利用計(jì)算機(jī)的高速度和海量處理能文本挖掘就是利用計(jì)算機(jī)的高速度和海量處理能力,來(lái)幫助人們處

2、理文本信息。力,來(lái)幫助人們處理文本信息。v文本挖掘(文本挖掘(text mining):):是指抽取有效、新穎、是指抽取有效、新穎、有用、可理解的、散布在文本文件中的有價(jià)值知有用、可理解的、散布在文本文件中的有價(jià)值知識(shí),并且利用這些知識(shí)更好地組織信息的過(guò)程。識(shí),并且利用這些知識(shí)更好地組織信息的過(guò)程。vText data mining 、knowledge discovery from textual databasesv提高了海量非結(jié)構(gòu)化信息源的利用價(jià)值;提高了海量非結(jié)構(gòu)化信息源的利用價(jià)值;v使得人們能夠更加方便地從海量文本中發(fā)現(xiàn)隱含使得人們能夠更加方便地從海量文本中發(fā)現(xiàn)隱含的知識(shí);的知識(shí);v

3、為企業(yè)的戰(zhàn)略決策提供競(jìng)爭(zhēng)情報(bào)的支持為企業(yè)的戰(zhàn)略決策提供競(jìng)爭(zhēng)情報(bào)的支持文本挖掘的過(guò)程文本挖掘的過(guò)程v相對(duì)于數(shù)據(jù)挖掘而言,文本挖掘技術(shù)還不成熟。相對(duì)于數(shù)據(jù)挖掘而言,文本挖掘技術(shù)還不成熟。v文本數(shù)量巨大,結(jié)構(gòu)不統(tǒng)一,處于動(dòng)態(tài)變化中;文本數(shù)量巨大,結(jié)構(gòu)不統(tǒng)一,處于動(dòng)態(tài)變化中;v自然語(yǔ)言理解理論在語(yǔ)言的深層理解方面沒有根自然語(yǔ)言理解理論在語(yǔ)言的深層理解方面沒有根本性的突破,致使文本處理的準(zhǔn)確度不高,文本本性的突破,致使文本處理的準(zhǔn)確度不高,文本挖掘的效果不夠理想。挖掘的效果不夠理想。v計(jì)算機(jī)理解語(yǔ)言的能力非常有限!計(jì)算機(jī)理解語(yǔ)言的能力非常有限!文本預(yù)處理文本分類文本聚類文本自動(dòng)摘要文本的向量空間表示文本

4、特征提取文本相似度v文本文本是以文字串形式表示的數(shù)據(jù)文件。是以文字串形式表示的數(shù)據(jù)文件。v文本分析文本分析過(guò)程即通過(guò)文本分析,從中找出一些特過(guò)程即通過(guò)文本分析,從中找出一些特征以便將來(lái)使用。征以便將來(lái)使用。v文本分析文本分析包括語(yǔ)種識(shí)別、特征提取、文本聚類和包括語(yǔ)種識(shí)別、特征提取、文本聚類和文本分類等。文本分類等。 把從文本中抽取出的把從文本中抽取出的特征詞進(jìn)行量化特征詞進(jìn)行量化來(lái)表示文本來(lái)表示文本信息。將它們從一個(gè)無(wú)結(jié)構(gòu)的原始文本轉(zhuǎn)化為信息。將它們從一個(gè)無(wú)結(jié)構(gòu)的原始文本轉(zhuǎn)化為結(jié)結(jié)構(gòu)化構(gòu)化的計(jì)算機(jī)可以識(shí)別處理的信息,即對(duì)文本進(jìn)的計(jì)算機(jī)可以識(shí)別處理的信息,即對(duì)文本進(jìn)行科學(xué)的抽象,建立它的數(shù)學(xué)模型

5、,用以描述和行科學(xué)的抽象,建立它的數(shù)學(xué)模型,用以描述和代替文本。使計(jì)算機(jī)能夠通過(guò)對(duì)這種模型的計(jì)算代替文本。使計(jì)算機(jī)能夠通過(guò)對(duì)這種模型的計(jì)算和操作來(lái)實(shí)現(xiàn)對(duì)文本的識(shí)別。和操作來(lái)實(shí)現(xiàn)對(duì)文本的識(shí)別。 v 文本表示是指用文本的特征信息集合來(lái)代表原來(lái)文本表示是指用文本的特征信息集合來(lái)代表原來(lái)的文本。的文本。v 目前,在信息處理領(lǐng)域,文本的表示方法主要是目前,在信息處理領(lǐng)域,文本的表示方法主要是采用采用向量空間模型向量空間模型(Vector Space Model,VSM)。)。v 向量是既有大小又有方向的量。向量是既有大小又有方向的量。v向量空間模型向量空間模型的基本思想是以向量來(lái)表示文本:的基本思想是以

6、向量來(lái)表示文本:(W1,W2,W3Wn),其中),其中Wi 為第為第i個(gè)特個(gè)特征項(xiàng)的權(quán)重。征項(xiàng)的權(quán)重。v特征項(xiàng)一般選用特征項(xiàng)一般選用字、詞或詞組字、詞或詞組。因此要將文本表。因此要將文本表示為向量空間中的一個(gè)向量,就首先將文本分詞,示為向量空間中的一個(gè)向量,就首先將文本分詞,用這些詞作為向量的維數(shù)來(lái)表示文本。用這些詞作為向量的維數(shù)來(lái)表示文本。v最初的向量表示完全是最初的向量表示完全是0、1的形式。但這種形式的形式。但這種形式無(wú)法體現(xiàn)詞在文本中的作用程度,故無(wú)法體現(xiàn)詞在文本中的作用程度,故0、1逐漸被逐漸被更精確的詞頻代替。更精確的詞頻代替。 語(yǔ)種識(shí)別工具語(yǔ)種識(shí)別工具能自動(dòng)發(fā)現(xiàn)文本使用的語(yǔ)種。這

7、類能自動(dòng)發(fā)現(xiàn)文本使用的語(yǔ)種。這類工具應(yīng)用文本內(nèi)容的一些線索來(lái)識(shí)別語(yǔ)種。通常工具應(yīng)用文本內(nèi)容的一些線索來(lái)識(shí)別語(yǔ)種。通常用機(jī)器領(lǐng)域里的算法,利用相應(yīng)語(yǔ)種的訓(xùn)練文本用機(jī)器領(lǐng)域里的算法,利用相應(yīng)語(yǔ)種的訓(xùn)練文本進(jìn)行訓(xùn)練,最終實(shí)現(xiàn)識(shí)別的目的。進(jìn)行訓(xùn)練,最終實(shí)現(xiàn)識(shí)別的目的。v 用于表示文本的基本單位通常稱為用于表示文本的基本單位通常稱為文本的特征文本的特征或或特征項(xiàng)特征項(xiàng)。v 在中文文本中可以采用字、詞或短語(yǔ)作為表示文本的特征在中文文本中可以采用字、詞或短語(yǔ)作為表示文本的特征項(xiàng)。項(xiàng)。v 特征提取特征提取主要是使用自動(dòng)的提取過(guò)程,識(shí)別文本中詞項(xiàng)的主要是使用自動(dòng)的提取過(guò)程,識(shí)別文本中詞項(xiàng)的意義。意義。v 特征提

8、取特征提取對(duì)掌握該文本的內(nèi)容很重要,是一種強(qiáng)有力的對(duì)掌握該文本的內(nèi)容很重要,是一種強(qiáng)有力的文本挖掘工具。文本挖掘工具。v 在一篇文本中,標(biāo)題是該文本的高度概括,文本中的特在一篇文本中,標(biāo)題是該文本的高度概括,文本中的特征,如人命、地名、組織名等是文本中的主體信息。征,如人命、地名、組織名等是文本中的主體信息。v特征是概念的外在表現(xiàn)形式,特征提取是識(shí)別潛特征是概念的外在表現(xiàn)形式,特征提取是識(shí)別潛在概念結(jié)構(gòu)的重要基礎(chǔ)。在概念結(jié)構(gòu)的重要基礎(chǔ)。v利用自動(dòng)標(biāo)引技術(shù)可以對(duì)文本進(jìn)行特征標(biāo)引。利用自動(dòng)標(biāo)引技術(shù)可以對(duì)文本進(jìn)行特征標(biāo)引。v對(duì)漢語(yǔ)文本進(jìn)行特征抽取時(shí),需要先對(duì)文本進(jìn)行對(duì)漢語(yǔ)文本進(jìn)行特征抽取時(shí),需要先對(duì)

9、文本進(jìn)行分詞處理。分詞處理。分詞實(shí)例分詞實(shí)例v和平民主和平民主 和平、民主 和、平民、主v提高人民生活水平提高人民生活水平 提高、高人、人民、民生、生活、活水、水平v利用計(jì)算機(jī)抽取西文關(guān)鍵詞,首先要建立一個(gè)以利用計(jì)算機(jī)抽取西文關(guān)鍵詞,首先要建立一個(gè)以介詞、冠詞、連詞等無(wú)實(shí)質(zhì)意義的單詞組成的介詞、冠詞、連詞等無(wú)實(shí)質(zhì)意義的單詞組成的停停用詞表用詞表( stop words ),然后利用創(chuàng)建的停用詞),然后利用創(chuàng)建的停用詞表,從被標(biāo)引的文本中篩去停用詞,抽取關(guān)鍵詞表,從被標(biāo)引的文本中篩去停用詞,抽取關(guān)鍵詞。v一般采用一般采用keyword,無(wú)需分詞,單詞之間有空格分開。,無(wú)需分詞,單詞之間有空格分開

10、。vstop words:指文檔中出現(xiàn)的連詞,介詞,冠詞等并:指文檔中出現(xiàn)的連詞,介詞,冠詞等并無(wú)太大意義的詞。例如在英文中常用的停用詞有無(wú)太大意義的詞。例如在英文中常用的停用詞有the,a, it等;在中文中常見的有等;在中文中常見的有“是是”,“的的”,“地地”等。等。v索引詞(標(biāo)引詞,關(guān)鍵祠)索引詞(標(biāo)引詞,關(guān)鍵祠):可以用于指代文檔內(nèi)容可以用于指代文檔內(nèi)容的預(yù)選詞語(yǔ)的預(yù)選詞語(yǔ),一般為名詞或名詞詞組。一般為名詞或名詞詞組。A dog is chasing a boy on the playgroundDetNoun AuxVerbDet Noun PrepDetNounNoun Phra

11、seComplex VerbNoun PhraseNoun PhrasePrep PhraseVerb PhraseVerb PhraseSentenceDog(d1).Boy(b1).Playground(p1).Chasing(d1,b1,p1).語(yǔ)義分析語(yǔ)義分析詞匯分析詞匯分析(詞性標(biāo)注詞性標(biāo)注)語(yǔ)法分析語(yǔ)法分析A person saying this maybe reminding another person toget the dog back 語(yǔ)用分析語(yǔ)用分析(語(yǔ)言行為語(yǔ)言行為)Scared(x) if Chasing(_,x,_).+Scared(b1)推理、推斷推理、推斷(T

12、aken from ChengXiang Zhai, CS 397cxz Fall 2003)標(biāo)引源標(biāo)引源數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)一條待標(biāo)引的記錄一條待標(biāo)引的記錄英語(yǔ)單詞英語(yǔ)單詞遇空分詞遇空分詞停用詞表停用詞表存儲(chǔ)存儲(chǔ)剔除剔除去除重復(fù)關(guān)鍵詞去除重復(fù)關(guān)鍵詞詞頻統(tǒng)計(jì),保留高頻詞詞頻統(tǒng)計(jì),保留高頻詞利用詞表確定標(biāo)引詞或直接選擇關(guān)鍵詞利用詞表確定標(biāo)引詞或直接選擇關(guān)鍵詞標(biāo)引標(biāo)引西文文本標(biāo)引流程圖西文文本標(biāo)引流程圖v 利用計(jì)算機(jī)抽取西文關(guān)鍵詞,首先要建立一個(gè)以介詞、冠利用計(jì)算機(jī)抽取西文關(guān)鍵詞,首先要建立一個(gè)以介詞、冠詞、連詞等無(wú)實(shí)質(zhì)意義的單詞組成的停用詞表,然后利用詞、連詞等無(wú)實(shí)質(zhì)意義的單詞組成的停用詞表,然后利用創(chuàng)

13、建的停用詞表,從被標(biāo)引的文本中篩去停用詞,抽取關(guān)創(chuàng)建的停用詞表,從被標(biāo)引的文本中篩去停用詞,抽取關(guān)鍵詞。鍵詞。v (1 1)從文本中取出一個(gè)單詞從文本中取出一個(gè)單詞:西文中每?jī)蓚€(gè)單詞間有空:西文中每?jī)蓚€(gè)單詞間有空格間隔,可通過(guò)空格取詞。格間隔,可通過(guò)空格取詞。v (2 2)確定候選關(guān)鍵詞確定候選關(guān)鍵詞:利用取出的詞去搜索停用詞表,:利用取出的詞去搜索停用詞表,如是停用詞則舍去;否則,則作為候選詞。如是停用詞則舍去;否則,則作為候選詞。v (3)分析候選關(guān)鍵詞分析候選關(guān)鍵詞:對(duì)于重復(fù)的候選關(guān)鍵詞,刪除重復(fù)詞,同時(shí):對(duì)于重復(fù)的候選關(guān)鍵詞,刪除重復(fù)詞,同時(shí)累計(jì)詞頻。如果標(biāo)引對(duì)象是全文,還可以根據(jù)位置

14、給候選關(guān)鍵詞賦予累計(jì)詞頻。如果標(biāo)引對(duì)象是全文,還可以根據(jù)位置給候選關(guān)鍵詞賦予權(quán)重,例如,權(quán)值最高的位置是標(biāo)題,其次是文摘、首尾段、首尾句、權(quán)重,例如,權(quán)值最高的位置是標(biāo)題,其次是文摘、首尾段、首尾句、其他位置,然后計(jì)算每個(gè)被取出詞的權(quán)值之和,并將它們按其他位置,然后計(jì)算每個(gè)被取出詞的權(quán)值之和,并將它們按權(quán)值權(quán)值從大從大到小排序,根據(jù)排序結(jié)果決定所取出的詞是否作為標(biāo)引詞。到小排序,根據(jù)排序結(jié)果決定所取出的詞是否作為標(biāo)引詞。v (4 4)確定標(biāo)引詞確定標(biāo)引詞:如果標(biāo)引:如果標(biāo)引對(duì)象是標(biāo)題對(duì)象是標(biāo)題,只需判斷所取出的候選詞,只需判斷所取出的候選詞是否重復(fù),去重后,這些詞可以全部作為標(biāo)引詞。如果標(biāo)引是

15、否重復(fù),去重后,這些詞可以全部作為標(biāo)引詞。如果標(biāo)引對(duì)象是文對(duì)象是文摘或全文摘或全文,抽出的候選關(guān)鍵詞會(huì)很多,需要對(duì)它們進(jìn)行進(jìn)一步篩選,抽出的候選關(guān)鍵詞會(huì)很多,需要對(duì)它們進(jìn)行進(jìn)一步篩選,具體的方法:根據(jù)詞頻統(tǒng)計(jì)的結(jié)果,去除低頻詞,將高頻詞作為標(biāo)引具體的方法:根據(jù)詞頻統(tǒng)計(jì)的結(jié)果,去除低頻詞,將高頻詞作為標(biāo)引備用詞,然后根據(jù)系統(tǒng)規(guī)定的標(biāo)引詞的數(shù)量,最終確定標(biāo)引詞。備用詞,然后根據(jù)系統(tǒng)規(guī)定的標(biāo)引詞的數(shù)量,最終確定標(biāo)引詞。v文本聚類是把一個(gè)文本集合分成幾組的過(guò)程。對(duì)文本聚類是把一個(gè)文本集合分成幾組的過(guò)程。對(duì)于文本標(biāo)題中的關(guān)鍵詞的相似匹配是對(duì)文本進(jìn)行于文本標(biāo)題中的關(guān)鍵詞的相似匹配是對(duì)文本進(jìn)行聚類的一種簡(jiǎn)單

16、方法。聚類的一種簡(jiǎn)單方法。v分類工具是把文本集合中的文本分配到已經(jīng)存在分類工具是把文本集合中的文本分配到已經(jīng)存在的類別中,即,已存的的類別中,即,已存的“主題主題”中。中。v將文本分類到各文本類中,一般需要一個(gè)算法。將文本分類到各文本類中,一般需要一個(gè)算法。這些算法包括決策樹分類器、近郊算法和休眠專這些算法包括決策樹分類器、近郊算法和休眠專家算法等。家算法等。v文本分類通過(guò)自動(dòng)組織,把文本分到相應(yīng)的主題文本分類通過(guò)自動(dòng)組織,把文本分到相應(yīng)的主題中,能夠使文本數(shù)據(jù)庫(kù)更易于瀏覽和查詢。中,能夠使文本數(shù)據(jù)庫(kù)更易于瀏覽和查詢。 系統(tǒng)結(jié)構(gòu)系統(tǒng)結(jié)構(gòu)標(biāo)注工具模型數(shù)據(jù)標(biāo)注的樣本類別預(yù)處理預(yù)處理訓(xùn)練數(shù)據(jù)文本新數(shù)

17、據(jù)文本MultimediaGUIGarb.Coll.SemanticsMLPgrammingsemanticslanguageproof.learningintelligencealgorithmreinforcementnetwork.garbagecollectionmemoryoptimizationregion.“planning language proof intelligence”訓(xùn)練數(shù)據(jù)訓(xùn)練數(shù)據(jù)測(cè)試數(shù)據(jù)測(cè)試數(shù)據(jù)類別類別(AI)文本分類示例文本分類示例(Programming)(HCI).文本自動(dòng)摘要文本自動(dòng)摘要v文本自動(dòng)摘要文本自動(dòng)摘要能夠生成簡(jiǎn)短的關(guān)于文本內(nèi)容的指能夠生成簡(jiǎn)短的關(guān)于文本內(nèi)容的指示性信息,將文本的主要內(nèi)容呈現(xiàn)給用戶,以判示性信息,將文本的主要內(nèi)容呈現(xiàn)給用戶,以判斷是

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論