大三下所有課件商務(wù)智能chapter07-text mining_第1頁(yè)
大三下所有課件商務(wù)智能chapter07-text mining_第2頁(yè)
大三下所有課件商務(wù)智能chapter07-text mining_第3頁(yè)
大三下所有課件商務(wù)智能chapter07-text mining_第4頁(yè)
大三下所有課件商務(wù)智能chapter07-text mining_第5頁(yè)
已閱讀5頁(yè),還剩32頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、2022/7/24傳統(tǒng)的自然語(yǔ)言理解是對(duì)文本進(jìn)行較低層次的理解,主要進(jìn)行基于詞、語(yǔ)法和語(yǔ)義信息的分析,并通過(guò)詞在句子中出現(xiàn)的次序發(fā)現(xiàn)有意義的信息。文本高層次理解的對(duì)象可以是僅包含簡(jiǎn)單句子的單個(gè)文本也可以是多個(gè)文本組成的文本集,但是現(xiàn)有的技術(shù)手段雖然基本上解決了單個(gè)句子的分析問(wèn)題,但是還很難覆蓋所有的語(yǔ)言現(xiàn)象,特別是對(duì)整個(gè)段落或篇章的理解還無(wú)從下手。將數(shù)據(jù)挖掘的成果用于分析以自然語(yǔ)言描述的文本,這種方法被稱為文本挖掘(Text Mining)或文本知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Text).一、文本挖掘的定義 The Institute of Business Intel

2、ligence, HFUT2/862022/7/24文本挖掘:文檔本身是半結(jié)構(gòu)化的或非結(jié)構(gòu)化的,無(wú)確定形式并且缺乏機(jī)器可理解的語(yǔ)義;數(shù)據(jù)挖掘:其對(duì)象以數(shù)據(jù)庫(kù)中的結(jié)構(gòu)化數(shù)據(jù)為主,并利用關(guān)系表等存儲(chǔ)結(jié)構(gòu)來(lái)發(fā)現(xiàn)知識(shí)因此,數(shù)據(jù)挖掘的技術(shù)不適用于文本挖掘,或至少需要預(yù)處理。二、文本挖掘與數(shù)據(jù)挖掘的區(qū)別: The Institute of Business Intelligence, HFUT3/862022/7/24文本挖掘(text mining):是指抽取有效、新穎、有用、可理解的、散布在文本文件中的有價(jià)值知識(shí),并且利用這些知識(shí)更好地組織信息的過(guò)程。Text data mining 、knowled

3、ge discovery from textual databases一、文本挖掘的定義 The Institute of Business Intelligence, HFUT4/862022/7/24特征抽取特征選擇文本分類(lèi)文本聚類(lèi)模型評(píng)價(jià)文本挖掘的過(guò)程 The Institute of Business Intelligence, HFUT5/862022/7/24文本挖掘的過(guò)程 The Institute of Business Intelligence, HFUT6/86特征的建立特征集的縮減學(xué)習(xí)與知識(shí)模式的提取知識(shí)模式模式質(zhì)量的評(píng)價(jià)文檔集文本挖掘的一般處理過(guò)程2022/7/24三、

4、文本挖掘的關(guān)鍵技術(shù) The Institute of Business Intelligence, HFUT7/86文本預(yù)處理文本分類(lèi)文本聚類(lèi)文本自動(dòng)摘要文本的向量空間表示文本特征提取文本相似度2022/7/24文本是以文字串形式表示的數(shù)據(jù)文件。文本分析過(guò)程即通過(guò)文本分析,從中找出一些特征以便將來(lái)使用。文本分析包括語(yǔ)種識(shí)別、特征提取、文本聚類(lèi)和文本分類(lèi)等。為什么要進(jìn)行文本分析? The Institute of Business Intelligence, HFUT8/862022/7/24 從文本中抽取出的特征詞進(jìn)行量化來(lái)表示文本信息。將它們從一個(gè)無(wú)結(jié)構(gòu)的原始文本轉(zhuǎn)化為結(jié)構(gòu)化的計(jì)算機(jī)可以識(shí)別

5、處理的信息,即對(duì)文本進(jìn)行科學(xué)的抽象,建立它的數(shù)學(xué)模型,用以描述和代替文本。 使計(jì)算機(jī)能夠通過(guò)對(duì)這種模型的計(jì)算和操作來(lái)實(shí)現(xiàn)對(duì)文本的識(shí)別。 The Institute of Business Intelligence, HFUT9/86為什么要進(jìn)行文本分析?2022/7/24文本表示是指用文本的特征信息集合來(lái)代表原來(lái)的文本。目前,在信息處理領(lǐng)域,文本的表示方法主要是采用向量空間模型(Vector Space Model,VSM)。向量是既有大小又有方向的量。 The Institute of Business Intelligence, HFUT10/86三、文本挖掘的關(guān)鍵技術(shù)文本預(yù)處理文本的向量

6、空間表示2022/7/24向量空間模型的基本思想是以向量來(lái)表示文本:(W1,W2,W3Wn),其中Wi 為第i個(gè)特征項(xiàng)的權(quán)重。特征項(xiàng)一般選用字、詞或詞組。因此要將文本表示為向量空間中的一個(gè)向量,就首先將文本分詞,用這些詞作為向量的維數(shù)來(lái)表示文本。最初的向量表示完全是0、1的形式。但這種形式無(wú)法體現(xiàn)詞在文本中的作用程度,故0、1逐漸被更精確的詞頻代替。 The Institute of Business Intelligence, HFUT11/86三、文本挖掘的關(guān)鍵技術(shù)文本預(yù)處理2022/7/24語(yǔ)種識(shí)別工具能自動(dòng)發(fā)現(xiàn)文本使用的語(yǔ)種。這類(lèi)工具應(yīng)用文本內(nèi)容的一些線索來(lái)識(shí)別語(yǔ)種。通常用機(jī)器領(lǐng)域里的

7、算法,利用相應(yīng)語(yǔ)種的訓(xùn)練文本進(jìn)行訓(xùn)練,最終實(shí)現(xiàn)識(shí)別的目的。 The Institute of Business Intelligence, HFUT12/86三、文本挖掘的關(guān)鍵技術(shù)語(yǔ)種識(shí)別2022/7/24用于表示文本的基本單位通常稱為文本的特征或特征項(xiàng),或文本的元數(shù)據(jù)。在中文文本中可以采用字、詞或短語(yǔ)作為表示文本的特征項(xiàng)。特征提取主要是使用自動(dòng)的提取過(guò)程,識(shí)別文本中詞項(xiàng)的意義。 The Institute of Business Intelligence, HFUT13/86三、文本挖掘的關(guān)鍵技術(shù)特征提取2022/7/24分類(lèi):描述性特征:文本的名稱、日期、大小、類(lèi)型等。語(yǔ)義性特征:文本的作

8、者、標(biāo)題、機(jī)構(gòu)、內(nèi)容等。 The Institute of Business Intelligence, HFUT14/86三、文本挖掘的關(guān)鍵技術(shù)特征提取2022/7/24特征提取對(duì)掌握該文本的內(nèi)容很重要,是一種強(qiáng)有力的文本挖掘工具。在一篇文本中,標(biāo)題是該文本的高度概括,文本中的特征,如人命、地名、組織名等是文本中的主體信息。 The Institute of Business Intelligence, HFUT15/86三、文本挖掘的關(guān)鍵技術(shù)特征提取2022/7/24特征是概念的外在表現(xiàn)形式,特征提取是識(shí)別潛在概念結(jié)構(gòu)的重要基礎(chǔ)。利用自動(dòng)標(biāo)引技術(shù)可以對(duì)文本進(jìn)行特征標(biāo)引。對(duì)漢語(yǔ)文本進(jìn)行特征抽

9、取時(shí),需要先對(duì)文本進(jìn)行分詞處理。 The Institute of Business Intelligence, HFUT16/86三、文本挖掘的關(guān)鍵技術(shù)特征提取2022/7/24 The Institute of Business Intelligence, HFUT17/86分詞實(shí)例和平民主和平、民主和、平民、主提高人民生活水平提高、高人、人民、民生、生活、活水、水平2022/7/24 The Institute of Business Intelligence, HFUT18/86文本表示詞頻矩陣行對(duì)應(yīng)關(guān)鍵詞t,列對(duì)應(yīng)文檔d向量將每一個(gè)文檔視為空間向量v向量值反映單詞t與文檔d的關(guān)聯(lián)度矩

10、陣元素可以是詞頻,也可以是布爾型。表示文檔詞頻的詞頻矩陣d1d2d3d4d5d6t132285356915320t236190765713370t325331604822126t4301407020116352022/7/24 The Institute of Business Intelligence, HFUT19/86中文特征詞(Term)的粒度Character,字:中Word,詞:中國(guó)Phrase,短語(yǔ):中國(guó)人民銀行Concept,概念同義詞:開(kāi)心 高興 興奮相關(guān)詞cluster,word cluster:蔡赟/傅海峰N-gram,N元組:中國(guó) 國(guó)人 人民 民銀 銀行某種規(guī)律性模式:

11、比如某個(gè)window中出現(xiàn)的固定模式2022/7/24 The Institute of Business Intelligence, HFUT20/86中文分詞方法最大匹配法(Maximum Matching method, MM法):選取包含6-8個(gè)漢字的符號(hào)串作為最大符號(hào)串,把最大符號(hào)串與詞典中的單詞條目相匹配,如果不能匹配,就削掉一個(gè)漢字繼續(xù)匹配,直到在詞典中找到相應(yīng)的單詞為止。匹配的方向是從右向左。逆向最大匹配法(Reverse Maximum method, RMM法):匹配方向與MM法相反,是從左向右。實(shí)驗(yàn)表明:對(duì)于漢語(yǔ)來(lái)說(shuō),逆向最大匹配法比最大匹配法更有效。2022/7/24

12、The Institute of Business Intelligence, HFUT21/86中文分詞方法雙向匹配法(Bi-direction Matching method, BM法):比較MM法與RMM法的分詞結(jié)果,從而決定正確的分詞。最佳匹配法(Optimum Matching method, OM法):將詞典中的單詞按它們?cè)谖谋局械某霈F(xiàn)頻度的大小排列,高頻度的單詞排在前,頻度低的單詞排在后,從而提高匹配的速度。聯(lián)想-回溯法(Association-Backtracking method, AB法):采用聯(lián)想和回溯的機(jī)制來(lái)進(jìn)行匹配。2022/7/24首先,要建立一個(gè)以介詞、冠詞、連詞

13、等無(wú)實(shí)質(zhì)意義的單詞組成的停用詞表( stop words ),然后,利用創(chuàng)建的停用詞表,從被標(biāo)引的文本中篩去停用詞,抽取關(guān)鍵詞。 The Institute of Business Intelligence, HFUT22/86西文分詞方法2022/7/24一般采用keyword,無(wú)需分詞,單詞之間有空格分開(kāi)。stop words:指文檔中出現(xiàn)的連詞,介詞,冠詞等并無(wú)太大意義的詞。例如在英文中常用的停用詞有the,a, it等;在中文中常見(jiàn)的有“是”,“的”,“地”等。索引詞(標(biāo)引詞,關(guān)鍵祠):可以用于指代文檔內(nèi)容的預(yù)選詞語(yǔ),一般為名詞或名詞詞組。 The Institute of Busin

14、ess Intelligence, HFUT23/86西文分詞方法2022/7/24 The Institute of Business Intelligence, HFUT24/86A dog is chasing a boy on the playgroundDetNounAuxVerbDetNounPrepDetNounNoun PhraseComplex VerbNoun PhraseNoun PhrasePrep PhraseVerb PhraseVerb PhraseSentenceDog(d1).Boy(b1).Playground(p1).Chasing(d1,b1,p1).語(yǔ)

15、義分析詞匯分析(詞性標(biāo)注)語(yǔ)法分析A person saying this maybe reminding another person toget the dog back 語(yǔ)用分析(語(yǔ)言行為)Scared(x) if Chasing(_,x,_).+Scared(b1)推理、推斷2022/7/24 The Institute of Business Intelligence, HFUT25/862022/7/24 The Institute of Business Intelligence, HFUT26/86標(biāo)引源數(shù)據(jù)庫(kù)一條待標(biāo)引的記錄英語(yǔ)單詞遇空分詞停用詞表存儲(chǔ)剔除去除重復(fù)關(guān)鍵詞詞頻統(tǒng)

16、計(jì),保留高頻詞利用詞表確定標(biāo)引詞或直接選擇關(guān)鍵詞標(biāo)引西文文本標(biāo)引流程圖2022/7/24利用計(jì)算機(jī)抽取西文關(guān)鍵詞,首先要建立一個(gè)以介詞、冠詞、連詞等無(wú)實(shí)質(zhì)意義的單詞組成的停用詞表,然后利用創(chuàng)建的停用詞表,從被標(biāo)引的文本中篩去停用詞,抽取關(guān)鍵詞。(1)從文本中取出一個(gè)單詞:西文中每?jī)蓚€(gè)單詞間有空格間隔,可通過(guò)空格取詞。(2)確定候選關(guān)鍵詞:利用取出的詞去搜索停用詞表,如是停用詞則舍去;否則,則作為候選詞。 The Institute of Business Intelligence, HFUT27/86抽取關(guān)鍵詞的方法與過(guò)程以西文文本為例2022/7/24(3)分析候選關(guān)鍵詞:對(duì)于重復(fù)的候選關(guān)鍵

17、詞,刪除重復(fù)詞,同時(shí)累計(jì)詞頻。如果標(biāo)引對(duì)象是全文,還可以根據(jù)位置給候選關(guān)鍵詞賦予權(quán)重,例如,權(quán)值最高的位置是標(biāo)題,其次是文摘、首尾段、首尾句、其他位置,然后計(jì)算每個(gè)被取出詞的權(quán)值之和,并將它們按權(quán)值從大到小排序,根據(jù)排序結(jié)果決定所取出的詞是否作為標(biāo)引詞。 The Institute of Business Intelligence, HFUT28/86抽取關(guān)鍵詞的方法與過(guò)程以西文文本為例2022/7/24(4)確定標(biāo)引詞:如果標(biāo)引對(duì)象是標(biāo)題,只需判斷所取出的候選詞是否重復(fù),去重后,這些詞可以全部作為標(biāo)引詞。如果標(biāo)引對(duì)象是文摘或全文,抽出的候選關(guān)鍵詞會(huì)很多,需要對(duì)它們進(jìn)行進(jìn)一步篩選,具體的方法:

18、根據(jù)詞頻統(tǒng)計(jì)的結(jié)果,去除低頻詞,將高頻詞作為標(biāo)引備用詞,然后根據(jù)系統(tǒng)規(guī)定的標(biāo)引詞的數(shù)量,最終確定標(biāo)引詞。 The Institute of Business Intelligence, HFUT29/86抽取關(guān)鍵詞的方法與過(guò)程以西文文本為例2022/7/24文本聚類(lèi)是把一個(gè)文本集合分成幾組的過(guò)程。對(duì)于文本標(biāo)題中的關(guān)鍵詞的相似匹配是對(duì)文本進(jìn)行聚類(lèi)的一種簡(jiǎn)單方法。 The Institute of Business Intelligence, HFUT30/86三、文本挖掘的過(guò)程文本聚類(lèi)2022/7/24分類(lèi)工具是把文本集合中的文本分配到已經(jīng)存在的類(lèi)別中,即,已存的“主題”中。將文本分類(lèi)到各文本類(lèi)

19、中,一般需要一個(gè)算法。這些算法包括決策樹(shù)分類(lèi)器、近郊算法和休眠專家算法等。文本分類(lèi)通過(guò)自動(dòng)組織,把文本分到相應(yīng)的主題中,能夠使文本數(shù)據(jù)庫(kù)更易于瀏覽和查詢。 The Institute of Business Intelligence, HFUT31/86三、文本挖掘的過(guò)程文本分類(lèi)2022/7/24 The Institute of Business Intelligence, HFUT32/86三、文本挖掘的過(guò)程文本分類(lèi)定義:給定分類(lèi)體系,將文本分到某個(gè)或者某幾個(gè)類(lèi)別中。分類(lèi)體系一般人工構(gòu)造政治、體育、軍事中美關(guān)系、恐怖事件分類(lèi)系統(tǒng)可以是層次結(jié)構(gòu),如yahoo!分類(lèi)模式2類(lèi)問(wèn)題,屬于或不屬于(

20、binary)多類(lèi)問(wèn)題,多個(gè)類(lèi)別(multi-class),可拆分成2類(lèi)問(wèn)題一個(gè)文本可以屬于多類(lèi)(multi-label)這里講的分類(lèi)主要基于內(nèi)容很多分類(lèi)體系: Reuters分類(lèi)體系、中圖分類(lèi)2022/7/24 The Institute of Business Intelligence, HFUT33/86三、文本挖掘的過(guò)程自動(dòng)文本分類(lèi)方法Rocchio方法Nave BayeskNN方法決策樹(shù)方法decision treeDecision Rule ClassifierThe Widrow-Hoff Classifier神經(jīng)網(wǎng)絡(luò)方法Neural Networks支持向量機(jī)SVM基于投票的方法(voting method)2022/7/24 The Institute of Business Intelligence, HFUT34/86三、文本挖掘的過(guò)程系統(tǒng)結(jié)構(gòu)標(biāo)注工具機(jī)器學(xué)習(xí)工具模型數(shù)據(jù)標(biāo)注的樣本分類(lèi)工具

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論