大數(shù)據(jù)與數(shù)據(jù)挖掘之文本挖掘_第1頁
大數(shù)據(jù)與數(shù)據(jù)挖掘之文本挖掘_第2頁
大數(shù)據(jù)與數(shù)據(jù)挖掘之文本挖掘_第3頁
大數(shù)據(jù)與數(shù)據(jù)挖掘之文本挖掘_第4頁
大數(shù)據(jù)與數(shù)據(jù)挖掘之文本挖掘_第5頁
已閱讀5頁,還剩52頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

大數(shù)據(jù)與數(shù)據(jù)挖掘-文本挖掘文本挖掘的背景數(shù)據(jù)挖掘大部分研究主要針對結(jié)構(gòu)化數(shù)據(jù),如關(guān)系的、事務(wù)的和數(shù)據(jù)倉庫數(shù)據(jù)?,F(xiàn)實中大部分數(shù)據(jù)存儲在文本數(shù)據(jù)庫中,如新聞文章、研究論文、書籍、WEB頁面等。存放在文本數(shù)據(jù)庫中的數(shù)據(jù)是半結(jié)構(gòu)化數(shù)據(jù),文檔中可能包含結(jié)構(gòu)化字段,如標題、作者、出版社、出版日期等,也包含大量非結(jié)構(gòu)化數(shù)據(jù),如摘要和內(nèi)容等。1、文本挖掘概述文本挖掘概念文本挖掘旨在通過識別和檢索令人感興趣的模式,進而從數(shù)據(jù)源中抽取有用的信息。文本挖掘的數(shù)據(jù)源是文本集合,令人感興趣的模式不是從形式化的數(shù)據(jù)庫記錄里發(fā)現(xiàn),而是從非結(jié)構(gòu)化的數(shù)據(jù)中發(fā)現(xiàn)。文本挖掘的過程預(yù)處理文檔建模相似性計算信息檢索文本分類文本聚類模型評價預(yù)處理把中文的漢字序列切分成有意義的詞,就是中文分詞,也稱為切詞?!拔沂且粋€學生”分詞的結(jié)果是:我是一個學生。和平民主和平、民主;和、平民、主提高人民生活水平提高、高人、人民、民生、生活、活水、水平大學生活象白紙大學、生活、象、白紙大學生、活象、白紙最大匹配分詞法S1="計算語言學課程是三個課時"設(shè)定最大詞長MaxLen=5S2=""(1)S2=“”;S1不為空,從S1左邊取出候選子串W="計算語言學";(2)查詞表,“計算語言學”在詞表中,將W加入到S2中,S2=“計算語言學/”,并將W從S1中去掉,此時S1="課程是三個課時";(3)S1不為空,于是從S1左邊取出候選子串W="課程是三個";(4)查詞表,W不在詞表中,將W最右邊一個字去掉,得到W="課程是三";(5)查詞表,W不在詞表中,將W最右邊一個字去掉,得到W="課程是";(11)查詞表,W不在詞表中,將W最右邊一個字去掉,得到W="是三"(12)查詞表,W不在詞表中,將W最右邊一個字去掉,得到W=“是”,這時W是單字,將W加入到S2中,S2=“計算語言學/課程/是/”,并將W從S1中去掉,此時S1="三個課時";(21)S2=“計算語言學/課程/是/三/個/課時/”,此時S1=""。(22)S1為空,輸出S2作為分詞結(jié)果,分詞過程結(jié)束。停用詞指文檔中出現(xiàn)的連詞,介詞,冠詞等并無太大意義的詞。英文中常用的停用詞有the,a,it等中文中常見的有“是”,“的”,“地”等。停用詞消除可以減少term的個數(shù),降低存儲空間。停用詞的消除方法:(1)查表法:建立一個停用詞表,通過查表的方式去掉停用詞。(2)基于DF的方法:統(tǒng)計每個詞的DF,如果超過總文檔數(shù)目的某個百分比(如80%),則作為停用詞去掉。文檔建模特征表示是是指以一定定的特征項項如詞條或或描述來代代表文檔信信息。特征表示模模型有多種種,常用的的有布爾邏輯型型、向量空空間型等向量空間模模型中,將將每個文本本文檔看成成是一組詞詞條(T1,T2,T3,…,Tn)構(gòu)成,對對于每一詞詞條Ti,根據(jù)其在在文檔中的的重要程度度賦予一定定的權(quán)值,,可以將其其看成一個個n維坐標系,,W1,W2,…,Wn為對應(yīng)的坐坐標值,因因此每一篇篇文檔都可可以映射為為由一組詞詞條矢量構(gòu)構(gòu)成的向量量空間中的的一點,對對于所有待待挖掘的文文檔都用詞詞條特征矢矢量(T1,W1;T2,W2;T3,W3;…;Tn,Wn)表示。向量空間模模型將文檔檔表達為一一個矢量,,看作向量量空間中的的一個點。。文檔的向量量空間模型型W權(quán)值計算方方法TF-IDF目前廣泛采采用TF-IDF權(quán)值計算方方法來計算算權(quán)重,TF-IDF的主要思想想是,如果果某個詞或或短語在一一篇文章中中出現(xiàn)的頻頻率TF高,并且在在其他文章章中很少出出現(xiàn),則認認為此詞或或者短語具具有很好的的類別區(qū)分分能力,適適合用來分分類。TF詞頻(TermFrequency)指的是某一一個給定的的詞語在該該文件中出出現(xiàn)的次數(shù)數(shù)。IDF逆文檔頻率率(InverseDocumentFrequency)是全體文檔檔數(shù)與包含含詞條文檔檔數(shù)的比值值。如果包包含詞條的的文檔越少少,IDF越大,則說說明詞條具具有很好的的類別區(qū)分分能力。在完整的向向量空間模模型中,將將TF和IDF組合合在一起,,形成TF-IDF度量:TF-IDF(d,t)=TF(d,t)*IDF(t)TF度量在一份給定定的文件里里,詞頻((termfrequency,TF)指的是某某一個給定定的詞語在在該文件中中出現(xiàn)的頻頻率。這個個數(shù)字是對對詞數(shù)(termcount)的歸一化,,以防止它它偏向長的的文件。((同一個詞詞語在長文文件里可能能會比短文文件有更高高的詞數(shù),,而不管該該詞語重要要與否。))對于在某某一特定文文件里的詞詞語來來說,它的的重要性可可表示為::以上式子中中

是該該詞在文件件中的出現(xiàn)現(xiàn)次數(shù),而而分母則是是在文件中中所有字詞詞的出現(xiàn)次次數(shù)之和。。IDF度量逆向文件頻頻率(inversedocumentfrequency,IDF)是一個詞詞語普遍重重要性的度度量。某一一特定詞語語的IDF,可以由總總文件數(shù)目目除以包含含該詞語之之文件的數(shù)數(shù)目,再將將得到的商商取對數(shù)得得到:?|D|:語料庫中的的文件總數(shù)數(shù)?:包包含詞詞語的文件件數(shù)目(即即的文件數(shù)數(shù)目)如果果該詞語不不在語料庫庫中,就會會導(dǎo)致被除除數(shù)為零,,因此一般般情況下使使用關(guān)鍵詞與與網(wǎng)頁的的相關(guān)性性計算在某個一一共有一一千詞的的網(wǎng)頁中中“大數(shù)數(shù)據(jù)”、、“的””和“應(yīng)應(yīng)用”分分別出現(xiàn)現(xiàn)了2次、35次和5次,那么么它們的的詞頻就就分別是是0.002、0.035和0.005。三個數(shù)數(shù)相加,,其和0.042就是相應(yīng)應(yīng)網(wǎng)頁和和查詢““大數(shù)據(jù)據(jù)的應(yīng)用用”相相關(guān)性的的一個簡簡單的度度量。概括地講講,如果果一個查查詢包含含關(guān)鍵詞詞w1,w2,...,wN,它們在一一篇特定定網(wǎng)頁中中的詞頻頻分別是是:TF1,TF2,...,TFN。(TF:termfrequency)。那么么,這個個查詢和和該網(wǎng)頁頁的相關(guān)關(guān)性就是是:TF1+TF2+...+TFN。詞“的””站了總總詞頻的的80%以上,它它對確定定網(wǎng)頁的的主題幾幾乎沒有有用。在在度量相相關(guān)性時時不應(yīng)考考慮它們們的頻率率。刪除除后,上上述網(wǎng)頁頁的相似似度就變變成了0.007,其中““大數(shù)據(jù)據(jù)”貢獻獻了0.002,“應(yīng)用用”貢獻獻了0.005?!皯?yīng)應(yīng)用”是是個很通通用的詞詞,而““大數(shù)據(jù)據(jù)”是個個很專業(yè)業(yè)的詞,,后者在在相關(guān)性性排名中中比前者者重要。。因此我我們需要要給漢語語中的每每一個詞詞給一個個權(quán)重,,這個權(quán)權(quán)重的設(shè)設(shè)定必須須滿足下下面兩個個條件::一個詞預(yù)預(yù)測主題題能力越越強,權(quán)權(quán)重就越越大,反反之,權(quán)權(quán)重就越越小。我我們在網(wǎng)網(wǎng)頁中看看到“大大數(shù)據(jù)””這個詞詞,或多多或少地地能了解解網(wǎng)頁的的主題。。我們看看到“應(yīng)應(yīng)用”一一次,對對主題基基本上還還是一無無所知。。因此,,“原子子能“的的權(quán)重就就應(yīng)該比比應(yīng)用大大。應(yīng)刪除詞詞的權(quán)重重應(yīng)該是是零。如果一個個關(guān)鍵詞詞只在很很少的網(wǎng)網(wǎng)頁中出出現(xiàn),我我們通過過它就容容易鎖定定搜索目目標,它它的權(quán)重重也就應(yīng)應(yīng)該大。。反之如如果一個個詞在大大量網(wǎng)頁頁中出現(xiàn)現(xiàn),我們們看到它它仍然不不很清楚楚要找什什么內(nèi)容容,因此此它應(yīng)該該小。概括地講講,假定定一個關(guān)關(guān)鍵詞ww在在Dww個網(wǎng)網(wǎng)頁中出出現(xiàn)過,,那么DDw越越大,,w的權(quán)權(quán)重越小小,反之之亦然。。在信息息檢索中中,使用用最多的的權(quán)重是是“逆文文本頻率率指數(shù)””(Inversedocumentfrequency縮寫為IIDF)),它的的公式為為logg(D//Dw))其中DD是全部部網(wǎng)頁數(shù)數(shù)。假定中文文網(wǎng)頁數(shù)數(shù)是D==10億億,應(yīng)刪刪除詞““的”在在所有的的網(wǎng)頁中中都出現(xiàn)現(xiàn),即DDw=110億,,那么它它的IDDF=log(10億/10億)=log(1)=0。假如如專用詞詞“大數(shù)數(shù)據(jù)”在在兩百萬萬個網(wǎng)頁頁中出現(xiàn)現(xiàn),即DDw=2200萬萬,則它它的權(quán)重重IDFF=log(500)=6.2。又假定通通用詞““應(yīng)用””,出現(xiàn)現(xiàn)在五億億個網(wǎng)頁頁中,它它的權(quán)重重IDFF=log(2)則只有0.7。也就只只說,在在網(wǎng)頁中中找到一一個“大大數(shù)據(jù)””的比配配相當于于找到九九個“應(yīng)應(yīng)用”的的匹配。。利用IDF,上述相相關(guān)性計計算個公公式就由由詞頻的的簡單求求和變成成了加權(quán)權(quán)求和,,即TF1*IDF1+TF2*IDF2+...+TFN*IDFN。在上面面的例子子中,該該網(wǎng)頁和和“原子子能的應(yīng)應(yīng)用”的的相關(guān)性性為0.0159,其中““大數(shù)據(jù)據(jù)”貢獻獻了0.0124,而“應(yīng)應(yīng)用”只只貢獻了了0.0035。這個比比例和我我們的直直覺比較較一致算例1詞頻(TF)是一詞語語出現(xiàn)的的次數(shù)除除以該文文件的總總詞語數(shù)數(shù)。假如如一篇文文件的總總詞語數(shù)數(shù)是100個,而詞詞語“大大數(shù)據(jù)””出現(xiàn)了了3次,那么么“大數(shù)數(shù)據(jù)”一一詞在該該文件中中的詞頻頻就是3/100=0.03。一個計算算逆文件件頻率(IDF)的方法是是測定有有多少份份文件出出現(xiàn)過““大數(shù)據(jù)據(jù)”一詞詞,然后后除以文文件集里里包含的的文件總總數(shù)。所所以,如如果“大大數(shù)據(jù)””一詞在在1,000份文件出出現(xiàn)過,,而文件件總數(shù)是是10,000,000份的話,,其逆向向文件頻頻率就是是log(10,000,000/1,000)=4。最后的TF-IDF的分數(shù)為為0.03*4=0.12。算例2關(guān)鍵字k1,k2,k3與文檔的的相關(guān)性性可用TF1*IDF1+TF2*IDF2+TF3*IDF3來表示。。比如文檔檔1所包含詞詞匯總量量為1000,k1,k2,k3在文檔1中出現(xiàn)的的次數(shù)是是100,200,50。包含了了k1,k2,k3的文檔總總量分別別是1000,10000,5000。文檔的的總量為為10000。TF1=100/1000=0.1;TF2=200/1000=0.2;TF3=50/1000=0.05;IDF1=log(10000/1000)=log(10)=2.3;IDF2=log(10000/100000)=log(1)=0;IDF3=log(10000/5000)=log(2)=0.69這樣關(guān)鍵鍵字k1,k2,k3與文檔1的相關(guān)性性=0.1*2.3+0.2*0+0.05*0.69=0.2645,其中k1比k3的比重在在文檔1要大,k2的比重是是0.文檔相似似性計算算根據(jù)一個個文檔集集合d和和一個項項集合t,可以以將每個個文檔表表示為在在t維空空間R中中的一個個文檔特特征向量量v。向量v中中第j個個數(shù)值就就是相應(yīng)應(yīng)文檔中中第j個個項的量量度。計算兩個個文檔相相似性可可以使用用上面的的公式余弦計算算法(cosinemeasure)計算步驟驟(1)使用TF-IDF算法,找找出兩篇篇文章的的關(guān)鍵詞詞;(2)每篇文文章各取取出若干干個關(guān)鍵鍵詞,合合并成一一個集合合,計算算每篇文文章對于于這個集集合中的的詞的詞詞頻;(3)生成兩兩篇文章章各自的的詞頻向向量;(4)計算兩兩個向量量的余弦弦相似度度,值越越大就表表示越相相似。文檔相似似性計算算示例句子A:我喜歡歡看電視視,不喜喜歡看電電影。句子B:我不喜喜歡看電電視,也也不喜歡歡看電影影。第一步,,分詞句子A:我/喜歡/看/電視,不不/喜歡/看/電影。句子B:我/不/喜歡/看/電視,也也/不/喜歡/看/電影。第二步,,列出所所有的詞詞我,喜歡歡,看,,電視,,電影,,不,也也。第三步,,計算詞詞頻句子A:我1,喜歡2,看2,電視1,電影1,不1,也0。句子B:我1,喜歡2,看2,電視1,電影1,不2,也1。第四步,,寫出詞詞頻向量量句子A:[1,2,2,1,1,1,0]句子B:[1,2,2,1,1,2,1]信息檢索索信息檢索索研究的的是大量量基于文文本的文文檔信息息的組織織和檢索索,如聯(lián)聯(lián)機圖書書館系統(tǒng)統(tǒng)、聯(lián)機機文檔管管理系統(tǒng)統(tǒng)和WEB搜索引擎擎。數(shù)據(jù)據(jù)庫系統(tǒng)統(tǒng)關(guān)注結(jié)結(jié)構(gòu)化數(shù)數(shù)據(jù)段查查詢和事事務(wù)處理理。信息檢索索研究的的典型問問題是根根據(jù)用戶戶查詢((描述所所需信息息的關(guān)鍵鍵詞),,在文檔檔中定位位相關(guān)文文檔。文本檢索索的基本本度量查準率((Precision)是檢索索到的文文檔中的的相關(guān)文文檔占全全部檢索索到的文文檔的百百分比,,它所衡衡量的是是檢索系系統(tǒng)的準準確性查全率((Recall)是被檢檢索出的的文檔中中的相關(guān)關(guān)文檔占占全部相相關(guān)文檔檔的百分分比,它它所衡量量的是檢檢索系統(tǒng)統(tǒng)的全面面性信息檢索索的度量量方式{relevant}:與某某查詢相相關(guān)的文文檔的集集合。{retrieved}:系系統(tǒng)檢索索到的文文檔的集集合。{relevant}∩{retrieved}:既既相關(guān)又又被檢索索到的實實際文檔檔的集合合。查準率(precision):既既相關(guān)又又被檢索索到的實實際文檔檔與檢索索到的文文檔的百百分比。。查全率(recall):既既相關(guān)又又被檢索索到的實實際文檔檔與查詢詢相關(guān)的的文檔的的百分比比。模型質(zhì)量量的評價價實例{relevant}={A,B,C,D,E,F,G,H,I,J}=10{retrieved}={B,D,F,W,Y}=5{relevant}∩{retrieved}={B,D,F}=3查準率::precision=3/5=60%查全率::recall=3/10=30%B,D,F相關(guān)并被檢索到的文檔所有文檔A,C,E,G,H,I,J相關(guān)的文檔

W,Y被檢索到到的文檔檔文本挖掘掘舉例文檔向量量化查詢:相相關(guān)度文檔間相相似度((余弦定定理)3.文本本的維度度規(guī)約對于任何何一個非非平凡的的文檔數(shù)數(shù)據(jù)庫,,詞的數(shù)數(shù)目T和和文檔數(shù)數(shù)目D通通常都很很大,如如此高的的維度將將導(dǎo)致低低效的計計算,因因為結(jié)果果頻度表表大小為為T*D。高維還會會導(dǎo)致非非常稀疏疏的向量量,增加加監(jiān)測和和探查詞詞之間聯(lián)聯(lián)系的難難度。維度歸約約使用數(shù)數(shù)據(jù)編碼碼或變換換,以便便得到原原數(shù)據(jù)的的歸約或或“壓縮縮”表示示。如果果原數(shù)據(jù)據(jù)可以由由壓縮數(shù)數(shù)據(jù)重新新構(gòu)造而而不丟失失任何信信息,則則該數(shù)據(jù)據(jù)歸約是是無損的的。如果果我們只只能重新新構(gòu)造原原數(shù)據(jù)的的近似表表示,則則該數(shù)據(jù)據(jù)歸約是是有損的的。文本挖掘掘方法文本挖掘掘功能層層次關(guān)鍵詞相似檢索詞語關(guān)聯(lián)分析自然語言處理文本聚類文本分類文本挖掘掘功能層層次(1)關(guān)關(guān)鍵詞檢檢索關(guān)鍵詞建建立倒排排文件索索引,與與傳統(tǒng)的的信息檢檢索使用用的技術(shù)術(shù)類似。。(2)相相似檢索索找到相似似內(nèi)容的的文本。。(3)詞詞語關(guān)聯(lián)聯(lián)分析聚焦在詞詞語(包包括關(guān)鍵鍵詞)之之間的關(guān)關(guān)聯(lián)信息息分析上上。(4)文文本聚類類和文本本分類實現(xiàn)文本本的聚類類和分類類。(5)自自然語言言處理揭示自然然語言處處理技術(shù)術(shù)的語義義,進行行文本語語義挖掘掘。關(guān)聯(lián)分析析挖掘在文本數(shù)數(shù)據(jù)庫中中,每一一文本被被視為一一個事務(wù)務(wù),文本本中的關(guān)關(guān)鍵詞組組可視為為事務(wù)中中的一組組事務(wù)項項。即文文本數(shù)據(jù)據(jù)庫可表表示為::{文本編編號,關(guān)關(guān)鍵詞詞集}文本數(shù)據(jù)據(jù)庫中關(guān)關(guān)鍵詞關(guān)關(guān)聯(lián)挖掘掘的問題題就變成成事務(wù)數(shù)數(shù)據(jù)庫中中事務(wù)項項的關(guān)聯(lián)聯(lián)挖掘。。關(guān)聯(lián)分析析挖掘可可以用于于找出詞詞或關(guān)鍵鍵詞間的的關(guān)聯(lián)。。關(guān)聯(lián)分析析挖掘輸入語義信息,如事件、事實或信息提取發(fā)現(xiàn)的實體輸入是標記的集合輸入是文檔中關(guān)鍵詞或詞的集合基于關(guān)鍵詞的方法標記方法信息提取方法關(guān)聯(lián)分析析挖掘關(guān)聯(lián)分析過程:對文本數(shù)據(jù)進行分析、詞根處理、去除停詞等預(yù)處理,再調(diào)用關(guān)聯(lián)挖掘算法基于關(guān)鍵詞的關(guān)聯(lián)技術(shù):收集頻繁出現(xiàn)的關(guān)鍵詞或詞匯,找出其關(guān)聯(lián)或相互關(guān)系關(guān)聯(lián)挖掘關(guān)聯(lián)挖掘掘有助于于找出符符合關(guān)聯(lián)聯(lián),即領(lǐng)領(lǐng)域相關(guān)關(guān)的術(shù)語語或短語語關(guān)聯(lián)分析析挖掘基于關(guān)鍵鍵字的關(guān)關(guān)聯(lián)分析析基于關(guān)鍵鍵字關(guān)聯(lián)聯(lián)分析就就是首先先收集頻頻繁一起起出現(xiàn)的的項或者者關(guān)鍵字字的集合合,然后后發(fā)現(xiàn)其其中所存存在的關(guān)關(guān)聯(lián)性關(guān)聯(lián)分析析對文本本數(shù)據(jù)庫庫進行預(yù)預(yù)處理,,生成關(guān)關(guān)鍵字向向量,根根據(jù)關(guān)鍵鍵字查詢詢向量與與文檔向向量之間間的相關(guān)關(guān)度比較較結(jié)果輸輸出文本本結(jié)果,,然后調(diào)調(diào)用關(guān)聯(lián)聯(lián)挖掘算算法文檔分類類分析文檔分類類分析自動文檔檔分類是是指利用用計算機機將一篇篇文章自自動地分分派到一一個或多多個預(yù)定定義的類類別中文檔分類類的關(guān)鍵鍵問題是是獲得一一個分類類模式,,利用此此分類模模式也可可以用于于其他文文檔的分分類有了一個個模式之之后,需需要進行行人工標標記和訓訓練,以以確定這這個模式式的參數(shù)數(shù),然后后才能進進行自動動的文檔檔分類文檔分類類分析應(yīng)用領(lǐng)域域門戶網(wǎng)站站(網(wǎng)頁頁)圖書館((電子資資料)…自動分類類優(yōu)點::減小人工工分類的的繁雜工工作提高信息息處理的的效率減小人工工分類的的主觀性性文檔分類類分析步驟定義分類體系系將預(yù)先分分類過的的文檔作作為訓練集從訓練集集中得出出分類模型型(需要測測試過程程,不斷斷細化))用訓練獲獲得出的的分類模模型對其其它文檔檔加以分分類文檔分類類分析文本分類類基本步步驟文檔分類類分析文本分類類過程文檔分類類分析特征選擇

方法貝葉斯分類最近鄰分類相似文檔具有相似文檔向量,將每個文檔關(guān)聯(lián)到相應(yīng)的類標號將文檔分類看做計算文檔在特定類中的統(tǒng)計分布文檔分類支持向量機使用數(shù)表示類,構(gòu)建從詞空間到類變量的直接映射函數(shù)(在高維空間中運行良好,最小二乘線性回歸方法區(qū)分能力較強)基于關(guān)聯(lián)的、頻繁出現(xiàn)的文本模式集對文檔分類基于關(guān)聯(lián)的

分類刪除文檔檔中與與與類標號號統(tǒng)計不不相關(guān)的的非特征征詞文檔聚類類分析文本聚類類是根據(jù)據(jù)文本數(shù)數(shù)據(jù)的不不同特征征,將其其劃分為為不同數(shù)數(shù)據(jù)類的的過程其目的是是要使同同一類別別的文本本間的距距離盡可可能小,,而不同同類別的的文本間間的距離離盡可能能的大文檔聚類類分析文檔自動動聚類的的步驟(1)獲取結(jié)結(jié)構(gòu)化的的文本集集(2)執(zhí)行聚聚類算法法,獲得得聚類譜譜系圖。。聚類算算法的目目的是獲獲取能夠夠反映特特征空間間樣本點點之間的的“抱團團”性質(zhì)質(zhì)(3)選取合合適的聚聚類IA值。在得得到聚類類譜系圖圖后,領(lǐng)領(lǐng)域?qū)<壹覒{借經(jīng)經(jīng)驗,并并結(jié)合具具體的應(yīng)應(yīng)用場合合確定閾閾值(4)執(zhí)行聚聚類算法法,獲得得聚類結(jié)結(jié)果文檔聚類類分析混合模型聚類使用潛在語義標引聚類(LSI)光譜聚類對原始數(shù)據(jù)進行維度歸約,運用傳統(tǒng)的聚類方法(如k均值,缺點是計算昂貴)對文本數(shù)據(jù)和先驗知識估計模型參數(shù),基于參數(shù)推斷聚類最小化全局重構(gòu)誤差下,找到原文檔空間的最佳子空間近似文檔聚類

分析使用保持局部性標引聚類(LPI)發(fā)現(xiàn)局部幾何結(jié)構(gòu),具有更強的區(qū)分能力文檔聚類類分析文檔自動動聚類的的類型平面劃分分法:對對包含n個樣本的的樣本集集構(gòu)造樣樣本集的的k個劃分,,每個劃劃分表示示一個聚聚簇層次聚類類法:層層次聚類類法對給給定的樣樣本集進進行層次次分解。。根據(jù)層層次分解解方向的的不同可可分為凝凝聚層次次聚類和和分裂層

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論