大三下所有課件商務(wù)智能chapter07-text mining_第1頁
大三下所有課件商務(wù)智能chapter07-text mining_第2頁
大三下所有課件商務(wù)智能chapter07-text mining_第3頁
大三下所有課件商務(wù)智能chapter07-text mining_第4頁
大三下所有課件商務(wù)智能chapter07-text mining_第5頁
已閱讀5頁,還剩32頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、2022/7/24傳統(tǒng)的自然語言理解是對文本進(jìn)行較低層次的理解,主要進(jìn)行基于詞、語法和語義信息的分析,并通過詞在句子中出現(xiàn)的次序發(fā)現(xiàn)有意義的信息。文本高層次理解的對象可以是僅包含簡單句子的單個文本也可以是多個文本組成的文本集,但是現(xiàn)有的技術(shù)手段雖然基本上解決了單個句子的分析問題,但是還很難覆蓋所有的語言現(xiàn)象,特別是對整個段落或篇章的理解還無從下手。將數(shù)據(jù)挖掘的成果用于分析以自然語言描述的文本,這種方法被稱為文本挖掘(Text Mining)或文本知識發(fā)現(xiàn)(Knowledge Discovery in Text).一、文本挖掘的定義 The Institute of Business Intel

2、ligence, HFUT2/862022/7/24文本挖掘:文檔本身是半結(jié)構(gòu)化的或非結(jié)構(gòu)化的,無確定形式并且缺乏機(jī)器可理解的語義;數(shù)據(jù)挖掘:其對象以數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)為主,并利用關(guān)系表等存儲結(jié)構(gòu)來發(fā)現(xiàn)知識因此,數(shù)據(jù)挖掘的技術(shù)不適用于文本挖掘,或至少需要預(yù)處理。二、文本挖掘與數(shù)據(jù)挖掘的區(qū)別: The Institute of Business Intelligence, HFUT3/862022/7/24文本挖掘(text mining):是指抽取有效、新穎、有用、可理解的、散布在文本文件中的有價(jià)值知識,并且利用這些知識更好地組織信息的過程。Text data mining 、knowled

3、ge discovery from textual databases一、文本挖掘的定義 The Institute of Business Intelligence, HFUT4/862022/7/24特征抽取特征選擇文本分類文本聚類模型評價(jià)文本挖掘的過程 The Institute of Business Intelligence, HFUT5/862022/7/24文本挖掘的過程 The Institute of Business Intelligence, HFUT6/86特征的建立特征集的縮減學(xué)習(xí)與知識模式的提取知識模式模式質(zhì)量的評價(jià)文檔集文本挖掘的一般處理過程2022/7/24三、

4、文本挖掘的關(guān)鍵技術(shù) The Institute of Business Intelligence, HFUT7/86文本預(yù)處理文本分類文本聚類文本自動摘要文本的向量空間表示文本特征提取文本相似度2022/7/24文本是以文字串形式表示的數(shù)據(jù)文件。文本分析過程即通過文本分析,從中找出一些特征以便將來使用。文本分析包括語種識別、特征提取、文本聚類和文本分類等。為什么要進(jìn)行文本分析? The Institute of Business Intelligence, HFUT8/862022/7/24 從文本中抽取出的特征詞進(jìn)行量化來表示文本信息。將它們從一個無結(jié)構(gòu)的原始文本轉(zhuǎn)化為結(jié)構(gòu)化的計(jì)算機(jī)可以識別

5、處理的信息,即對文本進(jìn)行科學(xué)的抽象,建立它的數(shù)學(xué)模型,用以描述和代替文本。 使計(jì)算機(jī)能夠通過對這種模型的計(jì)算和操作來實(shí)現(xiàn)對文本的識別。 The Institute of Business Intelligence, HFUT9/86為什么要進(jìn)行文本分析?2022/7/24文本表示是指用文本的特征信息集合來代表原來的文本。目前,在信息處理領(lǐng)域,文本的表示方法主要是采用向量空間模型(Vector Space Model,VSM)。向量是既有大小又有方向的量。 The Institute of Business Intelligence, HFUT10/86三、文本挖掘的關(guān)鍵技術(shù)文本預(yù)處理文本的向量

6、空間表示2022/7/24向量空間模型的基本思想是以向量來表示文本:(W1,W2,W3Wn),其中Wi 為第i個特征項(xiàng)的權(quán)重。特征項(xiàng)一般選用字、詞或詞組。因此要將文本表示為向量空間中的一個向量,就首先將文本分詞,用這些詞作為向量的維數(shù)來表示文本。最初的向量表示完全是0、1的形式。但這種形式無法體現(xiàn)詞在文本中的作用程度,故0、1逐漸被更精確的詞頻代替。 The Institute of Business Intelligence, HFUT11/86三、文本挖掘的關(guān)鍵技術(shù)文本預(yù)處理2022/7/24語種識別工具能自動發(fā)現(xiàn)文本使用的語種。這類工具應(yīng)用文本內(nèi)容的一些線索來識別語種。通常用機(jī)器領(lǐng)域里的

7、算法,利用相應(yīng)語種的訓(xùn)練文本進(jìn)行訓(xùn)練,最終實(shí)現(xiàn)識別的目的。 The Institute of Business Intelligence, HFUT12/86三、文本挖掘的關(guān)鍵技術(shù)語種識別2022/7/24用于表示文本的基本單位通常稱為文本的特征或特征項(xiàng),或文本的元數(shù)據(jù)。在中文文本中可以采用字、詞或短語作為表示文本的特征項(xiàng)。特征提取主要是使用自動的提取過程,識別文本中詞項(xiàng)的意義。 The Institute of Business Intelligence, HFUT13/86三、文本挖掘的關(guān)鍵技術(shù)特征提取2022/7/24分類:描述性特征:文本的名稱、日期、大小、類型等。語義性特征:文本的作

8、者、標(biāo)題、機(jī)構(gòu)、內(nèi)容等。 The Institute of Business Intelligence, HFUT14/86三、文本挖掘的關(guān)鍵技術(shù)特征提取2022/7/24特征提取對掌握該文本的內(nèi)容很重要,是一種強(qiáng)有力的文本挖掘工具。在一篇文本中,標(biāo)題是該文本的高度概括,文本中的特征,如人命、地名、組織名等是文本中的主體信息。 The Institute of Business Intelligence, HFUT15/86三、文本挖掘的關(guān)鍵技術(shù)特征提取2022/7/24特征是概念的外在表現(xiàn)形式,特征提取是識別潛在概念結(jié)構(gòu)的重要基礎(chǔ)。利用自動標(biāo)引技術(shù)可以對文本進(jìn)行特征標(biāo)引。對漢語文本進(jìn)行特征抽

9、取時(shí),需要先對文本進(jìn)行分詞處理。 The Institute of Business Intelligence, HFUT16/86三、文本挖掘的關(guān)鍵技術(shù)特征提取2022/7/24 The Institute of Business Intelligence, HFUT17/86分詞實(shí)例和平民主和平、民主和、平民、主提高人民生活水平提高、高人、人民、民生、生活、活水、水平2022/7/24 The Institute of Business Intelligence, HFUT18/86文本表示詞頻矩陣行對應(yīng)關(guān)鍵詞t,列對應(yīng)文檔d向量將每一個文檔視為空間向量v向量值反映單詞t與文檔d的關(guān)聯(lián)度矩

10、陣元素可以是詞頻,也可以是布爾型。表示文檔詞頻的詞頻矩陣d1d2d3d4d5d6t132285356915320t236190765713370t325331604822126t4301407020116352022/7/24 The Institute of Business Intelligence, HFUT19/86中文特征詞(Term)的粒度Character,字:中Word,詞:中國Phrase,短語:中國人民銀行Concept,概念同義詞:開心 高興 興奮相關(guān)詞cluster,word cluster:蔡赟/傅海峰N-gram,N元組:中國 國人 人民 民銀 銀行某種規(guī)律性模式:

11、比如某個window中出現(xiàn)的固定模式2022/7/24 The Institute of Business Intelligence, HFUT20/86中文分詞方法最大匹配法(Maximum Matching method, MM法):選取包含6-8個漢字的符號串作為最大符號串,把最大符號串與詞典中的單詞條目相匹配,如果不能匹配,就削掉一個漢字繼續(xù)匹配,直到在詞典中找到相應(yīng)的單詞為止。匹配的方向是從右向左。逆向最大匹配法(Reverse Maximum method, RMM法):匹配方向與MM法相反,是從左向右。實(shí)驗(yàn)表明:對于漢語來說,逆向最大匹配法比最大匹配法更有效。2022/7/24

12、The Institute of Business Intelligence, HFUT21/86中文分詞方法雙向匹配法(Bi-direction Matching method, BM法):比較MM法與RMM法的分詞結(jié)果,從而決定正確的分詞。最佳匹配法(Optimum Matching method, OM法):將詞典中的單詞按它們在文本中的出現(xiàn)頻度的大小排列,高頻度的單詞排在前,頻度低的單詞排在后,從而提高匹配的速度。聯(lián)想-回溯法(Association-Backtracking method, AB法):采用聯(lián)想和回溯的機(jī)制來進(jìn)行匹配。2022/7/24首先,要建立一個以介詞、冠詞、連詞

13、等無實(shí)質(zhì)意義的單詞組成的停用詞表( stop words ),然后,利用創(chuàng)建的停用詞表,從被標(biāo)引的文本中篩去停用詞,抽取關(guān)鍵詞。 The Institute of Business Intelligence, HFUT22/86西文分詞方法2022/7/24一般采用keyword,無需分詞,單詞之間有空格分開。stop words:指文檔中出現(xiàn)的連詞,介詞,冠詞等并無太大意義的詞。例如在英文中常用的停用詞有the,a, it等;在中文中常見的有“是”,“的”,“地”等。索引詞(標(biāo)引詞,關(guān)鍵祠):可以用于指代文檔內(nèi)容的預(yù)選詞語,一般為名詞或名詞詞組。 The Institute of Busin

14、ess Intelligence, HFUT23/86西文分詞方法2022/7/24 The Institute of Business Intelligence, HFUT24/86A dog is chasing a boy on the playgroundDetNounAuxVerbDetNounPrepDetNounNoun PhraseComplex VerbNoun PhraseNoun PhrasePrep PhraseVerb PhraseVerb PhraseSentenceDog(d1).Boy(b1).Playground(p1).Chasing(d1,b1,p1).語

15、義分析詞匯分析(詞性標(biāo)注)語法分析A person saying this maybe reminding another person toget the dog back 語用分析(語言行為)Scared(x) if Chasing(_,x,_).+Scared(b1)推理、推斷2022/7/24 The Institute of Business Intelligence, HFUT25/862022/7/24 The Institute of Business Intelligence, HFUT26/86標(biāo)引源數(shù)據(jù)庫一條待標(biāo)引的記錄英語單詞遇空分詞停用詞表存儲剔除去除重復(fù)關(guān)鍵詞詞頻統(tǒng)

16、計(jì),保留高頻詞利用詞表確定標(biāo)引詞或直接選擇關(guān)鍵詞標(biāo)引西文文本標(biāo)引流程圖2022/7/24利用計(jì)算機(jī)抽取西文關(guān)鍵詞,首先要建立一個以介詞、冠詞、連詞等無實(shí)質(zhì)意義的單詞組成的停用詞表,然后利用創(chuàng)建的停用詞表,從被標(biāo)引的文本中篩去停用詞,抽取關(guān)鍵詞。(1)從文本中取出一個單詞:西文中每兩個單詞間有空格間隔,可通過空格取詞。(2)確定候選關(guān)鍵詞:利用取出的詞去搜索停用詞表,如是停用詞則舍去;否則,則作為候選詞。 The Institute of Business Intelligence, HFUT27/86抽取關(guān)鍵詞的方法與過程以西文文本為例2022/7/24(3)分析候選關(guān)鍵詞:對于重復(fù)的候選關(guān)鍵

17、詞,刪除重復(fù)詞,同時(shí)累計(jì)詞頻。如果標(biāo)引對象是全文,還可以根據(jù)位置給候選關(guān)鍵詞賦予權(quán)重,例如,權(quán)值最高的位置是標(biāo)題,其次是文摘、首尾段、首尾句、其他位置,然后計(jì)算每個被取出詞的權(quán)值之和,并將它們按權(quán)值從大到小排序,根據(jù)排序結(jié)果決定所取出的詞是否作為標(biāo)引詞。 The Institute of Business Intelligence, HFUT28/86抽取關(guān)鍵詞的方法與過程以西文文本為例2022/7/24(4)確定標(biāo)引詞:如果標(biāo)引對象是標(biāo)題,只需判斷所取出的候選詞是否重復(fù),去重后,這些詞可以全部作為標(biāo)引詞。如果標(biāo)引對象是文摘或全文,抽出的候選關(guān)鍵詞會很多,需要對它們進(jìn)行進(jìn)一步篩選,具體的方法:

18、根據(jù)詞頻統(tǒng)計(jì)的結(jié)果,去除低頻詞,將高頻詞作為標(biāo)引備用詞,然后根據(jù)系統(tǒng)規(guī)定的標(biāo)引詞的數(shù)量,最終確定標(biāo)引詞。 The Institute of Business Intelligence, HFUT29/86抽取關(guān)鍵詞的方法與過程以西文文本為例2022/7/24文本聚類是把一個文本集合分成幾組的過程。對于文本標(biāo)題中的關(guān)鍵詞的相似匹配是對文本進(jìn)行聚類的一種簡單方法。 The Institute of Business Intelligence, HFUT30/86三、文本挖掘的過程文本聚類2022/7/24分類工具是把文本集合中的文本分配到已經(jīng)存在的類別中,即,已存的“主題”中。將文本分類到各文本類

19、中,一般需要一個算法。這些算法包括決策樹分類器、近郊算法和休眠專家算法等。文本分類通過自動組織,把文本分到相應(yīng)的主題中,能夠使文本數(shù)據(jù)庫更易于瀏覽和查詢。 The Institute of Business Intelligence, HFUT31/86三、文本挖掘的過程文本分類2022/7/24 The Institute of Business Intelligence, HFUT32/86三、文本挖掘的過程文本分類定義:給定分類體系,將文本分到某個或者某幾個類別中。分類體系一般人工構(gòu)造政治、體育、軍事中美關(guān)系、恐怖事件分類系統(tǒng)可以是層次結(jié)構(gòu),如yahoo!分類模式2類問題,屬于或不屬于(

20、binary)多類問題,多個類別(multi-class),可拆分成2類問題一個文本可以屬于多類(multi-label)這里講的分類主要基于內(nèi)容很多分類體系: Reuters分類體系、中圖分類2022/7/24 The Institute of Business Intelligence, HFUT33/86三、文本挖掘的過程自動文本分類方法Rocchio方法Nave BayeskNN方法決策樹方法decision treeDecision Rule ClassifierThe Widrow-Hoff Classifier神經(jīng)網(wǎng)絡(luò)方法Neural Networks支持向量機(jī)SVM基于投票的方法(voting method)2022/7/24 The Institute of Business Intelligence, HFUT34/86三、文本挖掘的過程系統(tǒng)結(jié)構(gòu)標(biāo)注工具機(jī)器學(xué)習(xí)工具模型數(shù)據(jù)標(biāo)注的樣本分類工具

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論