文本相似度算法研究_第1頁
文本相似度算法研究_第2頁
文本相似度算法研究_第3頁
文本相似度算法研究_第4頁
文本相似度算法研究_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

PAGE11文本相似度算法研究摘要基于電子作業(yè)檢查等各類電子文檔對(duì)比需要,本文探究了電子文檔相似度算法,以便解決兩個(gè)電子文檔是否相同,相似比例為多少的問題,考慮到文檔的相似度又可分成段落相似度、句子相似度來進(jìn)行度量,所以該研究課題首先是定義了文本相似度,其次通過研究現(xiàn)有相似度算法,重點(diǎn)是余弦相似性算法、簡單共有詞相似度算法、歐幾里得距離相似度算法,最后在分析余弦相似性算法、簡單共有詞相似度算法、歐幾里得距離相似度算法優(yōu)缺點(diǎn)的基礎(chǔ)上,提出了改進(jìn)的新的相似度算法,對(duì)于余弦相似性算法、簡單共有詞相似度算法、歐幾里得距離相似度進(jìn)行了改進(jìn),提高了3種算法檢測(cè)的準(zhǔn)確度。關(guān)鍵詞文本相似度;余弦定理;簡單共有詞;歐幾里得距離;相似度算法ResearchonTextSimilarityAlgorithmsAbstractInordertosolvetheproblemofwhethertwoelectronicdocumentsarethesameandhowmuchthesimilarityratiois,thesimilarityalgorithmofelectronicdocumentsisexploredinthispaper,basedontheneedofelectronicdocumentcomparison.Consideringthatthesimilarityofdocumentscanbemeasuredbyparagraphsimilarityandsentencesimilarity,thisresearchfirstlydefinesthetextsimilarity,andsecondly,throughtheresearch,thispaperputsforwardthatthesimilarityofdocumentscanbemeasuredbyparagraphsimilarityandsentencesimilarity.Therearesimilarityalgorithms,focusingoncosinesimilarityalgorithm,simplecommonwordsimilarityalgorithmandEuclideandistancesimilarityalgorithm.Finally,basedontheanalysisoftheadvantagesanddisadvantagesofcosinesimilarityalgorithm,simplecommonwordsimilarityalgorithmandEuclideandistancesimilarityalgorithm,animprovednewsimilarityalgorithmisproposed.Forcosinesimilarityalgorithmandsimplecommonwordsimilarityalgorithm,anewsimilarityalgorithmisproposed.ThealgorithmandEuclideandistancesimilarityareimprovedtoincreasetheaccuracyofthethreealgorithms.Keywordstextsimilarity;Cosinetheorem;simplecommonwords;Euclideandistance;similarityalgorithm緒論研究背景與意義在網(wǎng)絡(luò)化時(shí)代算法改變?nèi)藗兊墓ぷ骱蜕睿渲形谋鞠嗨贫人惴ㄔ诰W(wǎng)絡(luò)日益滲透到人們生活方方面面的時(shí)代越來越重要,應(yīng)用范圍越來越普遍、所所不及,只要有知識(shí)或信息的環(huán)境就有可能用到這個(gè)算法,當(dāng)前最典型的應(yīng)用是智能翻譯、分答系統(tǒng)、知識(shí)檢索、文檔分類等領(lǐng)域,在每一個(gè)領(lǐng)域的應(yīng)用都是最基礎(chǔ)的應(yīng)用,沒有文本相似度算法就沒有更多的其它應(yīng)用,其它各類應(yīng)用都是建立在這個(gè)算法的基礎(chǔ)上,這個(gè)算法能夠在不同信息之間實(shí)現(xiàn)匹配,找到人們希望得到的信息,這就解決了海量知識(shí)與精準(zhǔn)需求之間的矛盾,解決了快速檢索需求與計(jì)算效率之間的矛盾[1],解決了人工操作費(fèi)時(shí)費(fèi)力與機(jī)器自動(dòng)計(jì)算快捷高效之間的矛盾。當(dāng)然隨著網(wǎng)絡(luò)規(guī)模越來越大,結(jié)構(gòu)越來越復(fù)雜,聯(lián)系越來越頻繁,存儲(chǔ)的內(nèi)容越來越海量,對(duì)文本相似度算法的計(jì)算準(zhǔn)確性和計(jì)算速度也提出了更高的要求,要求這些算法能夠幾乎在瞬間就可以精準(zhǔn)找到檢索的結(jié)果,在幾乎實(shí)時(shí)就能夠得到人們關(guān)注的結(jié)果,這樣的話人們利用現(xiàn)代信息技術(shù)工作和生活的效率更高,更加人性化。這樣看來,在前人的基礎(chǔ)上深入研究文本相似度算法具有十分重要的意義。研究現(xiàn)狀在國內(nèi)外對(duì)這個(gè)算法的研究多年來一直都是熱點(diǎn),有研究基本理論的,也有研究算法應(yīng)用的,還有創(chuàng)新算法結(jié)構(gòu)的。從國外典型的有代表性的研究來看,發(fā)表比較早的研究成果是1969年Salton和McGill的研究成果[2],這二位作者提出了“向量空間模型”算法框架,在這一個(gè)算法框架中,第一步是對(duì)要分析的文本對(duì)象采取多種其它算法預(yù)處理,第二步通過預(yù)處理來獲得表示文本對(duì)象的特征向量,這個(gè)特征向量就表示文本對(duì)象,第三步利用算法計(jì)算文本特征向量的相似程度,這樣的一個(gè)算法應(yīng)用算法領(lǐng)域比較廣泛,主要包括文本分類、信息檢索和文檔查重等方面。這屬于通過文本特征向量計(jì)算文本相似度的方法,具有典型的代表性。在此基礎(chǔ)上,逐漸發(fā)展出一種語義檢索和判定文本相似度的方法,這種方法是國外的ChrisH·Q·Ding研究后提出的,其理論基礎(chǔ)是矩陣的奇異值分解理論,通過得到文本對(duì)于的矩陣,并計(jì)算矩陣對(duì)應(yīng)的奇異值陣,再對(duì)奇異值陣計(jì)算相似度[3],這種方法適用于大型、復(fù)雜信息文本相似度計(jì)算,效率比較高、準(zhǔn)確度比較高,經(jīng)過算法的發(fā)展后,目前用在大型數(shù)據(jù)庫檢索和搜索引擎中。此外,在國外的研究方面還有從事文本包含度、相似度公式計(jì)算的[4],主要運(yùn)用在信息檢索領(lǐng)域。從國內(nèi)有代表性的典型研究來看,隨著國內(nèi)網(wǎng)絡(luò)理論和信息理論發(fā)展,國內(nèi)學(xué)者也十分重視文本相似度算法研究,有跟蹤國外研究前沿的,有獨(dú)創(chuàng)派系的,也有國內(nèi)國外結(jié)合的,比如2009年曹恬、周朋、國煊等人共同研究,經(jīng)過實(shí)驗(yàn)論證,提出了一種新的基于詞出現(xiàn)的文本相似度算法[5];2010年萬小軍、彭宇新等人,通過系統(tǒng)分析國內(nèi)外典型算法的基礎(chǔ)上,提出了通過文檔結(jié)構(gòu)計(jì)算文本相似度的方法[6];王曉東、郭雷等人提出基于EMD方法計(jì)算文相似度的方法[7],金博等人在研究詞語相似度的基礎(chǔ)上,發(fā)現(xiàn)知網(wǎng)中義原分類樹可以進(jìn)行層次判斷,可以計(jì)算文本中詞與詞之間的近義性和相關(guān)性,這種方法也可以計(jì)算出文本的詞語相似度和文本相似度[8]??偟目矗瑖鴥?nèi)在文本相似度研究方面有超越國外研究的趨勢(shì),經(jīng)過多年的發(fā)展取得了豐碩的成果,在智能計(jì)算、語義分析、機(jī)器學(xué)習(xí)、網(wǎng)絡(luò)翻譯、知識(shí)檢索[9]等方面有了成熟的應(yīng)用。研究框架本文研究主要內(nèi)容的重點(diǎn)放在余弦相似性算法、簡單共有詞相似度算法、歐幾里得距離相似度算法,在分析這三種算法基本原理和運(yùn)用的基礎(chǔ)上,結(jié)合當(dāng)前熱點(diǎn)應(yīng)用對(duì)算法進(jìn)行改進(jìn),改進(jìn)的算法將具有一定的實(shí)用價(jià)值。圍繞這樣的重點(diǎn)研究內(nèi)容,本文主要研究提綱包括五個(gè)方面:一是文本相似度算法概述,二是文本相似度算法基本原理,三是文本相似度算法分析,四是文本相似度算法改進(jìn),五是全文總結(jié)。本論文將按照這樣一個(gè)論文結(jié)構(gòu)和上述三個(gè)方面的研究重點(diǎn)展開研究。文本相似度算法基本原理文本相似度含義文本相似度來自于相似度概念,相似度問題是一個(gè)最基本的問題,是信息科學(xué)中繞不過去的概念,在不同的應(yīng)用方向其含義有所不同,但基本的內(nèi)涵表示了一個(gè)信息結(jié)構(gòu)與另外一個(gè)信息結(jié)構(gòu)的一致程度,從某個(gè)角度研究時(shí)特征量之間的距離大小[10]。比如,在機(jī)器翻譯方面是指詞這個(gè)基本單位的可替代性,在信息檢索方面是指檢索結(jié)果與檢索內(nèi)容的一致性,在自動(dòng)問答方面是指搜索的結(jié)果與輸入的問題的匹配程度。這充分表明文本相似度研究和應(yīng)用領(lǐng)域十分廣泛,所表達(dá)的含義也十分不同。從本文研究的角度來看,文本相似度可以描述為:有A、B兩個(gè)對(duì)象,二者之間的公共區(qū)域越多、共性越大,則相似程度越高;若二者沒有關(guān)聯(lián)關(guān)系,則相似程度低。在文本相似度研究方面,一個(gè)層次是研究文檔中以篇章、句子、詞語衡量相似程度,這不同層次衡量算法也不同,研究的標(biāo)準(zhǔn)和依據(jù)也不同,算法的復(fù)雜程度也不同。從這個(gè)意義上,可以運(yùn)用在新聞?lì)I(lǐng)域?qū)π侣劯寮M(jìn)行歸檔,按照新聞的領(lǐng)域分門別類的存放在一起;也可以運(yùn)用在信息檢索進(jìn)行信息查詢,作為一個(gè)文本與另一個(gè)文本之間相似程度測(cè)量的基本方法。文本相似度計(jì)算方法分類當(dāng)前研究文本相似度都是以計(jì)算機(jī)作為計(jì)算工具,即利用計(jì)算機(jī)算法對(duì)文本進(jìn)行分類,在各個(gè)領(lǐng)域應(yīng)用十分廣泛,比如包括網(wǎng)頁文本分類、數(shù)據(jù)智能挖掘、信息識(shí)別檢索、自動(dòng)問答系統(tǒng)、論文查重分析和機(jī)器自主學(xué)習(xí)等領(lǐng)域,其中起最關(guān)鍵作用的是文本相似度計(jì)算算法,在信息檢索、數(shù)據(jù)挖掘、機(jī)器翻譯、文檔復(fù)制檢測(cè)等領(lǐng)域有著廣泛的應(yīng)用。特別是隨著智能算法、深度學(xué)習(xí)的發(fā)展,文本相似度計(jì)算方法已經(jīng)逐漸不再是基于關(guān)鍵詞匹配的傳統(tǒng)方法,而轉(zhuǎn)向深度學(xué)習(xí),目前結(jié)合向量表示的深度學(xué)習(xí)使用較多,因此度量文本相似度從方法論和算法設(shè)計(jì)全局的角度看,一是基于關(guān)鍵詞匹配的傳統(tǒng)方法,如N-gram相似度;二是將文本映射到向量空間,再利用余弦相似度等方法,三是運(yùn)用機(jī)器學(xué)習(xí)算法的深度學(xué)習(xí)的方法,如基于用戶點(diǎn)擊數(shù)據(jù)的深度學(xué)習(xí)語義匹配模型DSSM,基于卷積神經(jīng)網(wǎng)絡(luò)的ConvNet和LSTM等方法。本文研究的重點(diǎn)是對(duì)電子作業(yè)檢查等各類電子文檔對(duì)比,在對(duì)兩個(gè)電子文檔是否相同,相似比例為多少這一問題探究中需要比較文檔的相似度,而文檔的相似度又可分成段落相似度、句子相似度來進(jìn)行考慮,所以課題的關(guān)鍵是如何定義相似度,要求通過研究歸類現(xiàn)有相似度算法,分析其優(yōu)缺點(diǎn)而提出一些改進(jìn)的新的相似度算法。按照這樣一個(gè)研究任務(wù),本文主要研究三種方法:一個(gè)是應(yīng)用數(shù)學(xué)余弦定理計(jì)算余弦相似性的相似度計(jì)算方法,另一個(gè)是運(yùn)用計(jì)算文檔共有詞的方法評(píng)估相似度的簡單共有詞相似度算法,第三個(gè)是以歐幾里得距離作為衡量文本相似度的歐幾里得距離相似度算法。本章小結(jié)本章從分析文本相似度的內(nèi)涵和外延出發(fā),對(duì)這一個(gè)概念進(jìn)行了闡釋,爾后研究了文本相似度計(jì)算方法,重點(diǎn)分析了用計(jì)算機(jī)算法自動(dòng)計(jì)算相似度的典型方法,最后分析了本課題研究中所用到的方法,進(jìn)行了典型的歸納,為后續(xù)研究做好鋪墊。文本相似度算法歐幾里得距離相似度算法由于歐幾里得距離可以度量兩個(gè)特征向量之間的距離,前文知道文本可以通過提取特征得到文本對(duì)應(yīng)的特征向量,正是有了這樣一個(gè)關(guān)系,所以就建立起了歐幾里得距離和衡量文本相似度之間的應(yīng)用,如圖3.1歐幾里得相似度示意所示。通過數(shù)學(xué)知識(shí)可以建立起歐幾里得算法模型,設(shè),作為向量空間中的任意兩個(gè)點(diǎn),則,之間的距離為:(3-1)有了這樣一個(gè)模型,就可以通過計(jì)算需要計(jì)算相似度的兩個(gè)文檔的詞頻,分別表示為,,設(shè)文檔相似度為S,則:(3-2)這樣一個(gè)演算過程就得到了需要比較相似度的文檔的相似度算法模型。圖3.1歐幾里得相似度示意余弦相似性算法這個(gè)算法的數(shù)學(xué)基礎(chǔ)非常典型,用到了夾角的余弦定理,如圖3.2夾角余弦相似度示意圖所示,就是常見的余弦定理的算法應(yīng)用,這個(gè)算法就是通過計(jì)算兩個(gè)向量的夾角余弦值來評(píng)估文本的相似度,從本質(zhì)上分析就是利用余弦函數(shù)的方法。由此可以看到算法的基本原理,余弦函數(shù)是三角函數(shù)的一種,在Rt△ABC(直角三角形)中,∠C=90°,角A的余弦是它的鄰邊比三角形的斜邊,即cosA=b/c,也可寫為cosA=AC/AB,余弦函數(shù):f(x)=cosx(x∈R),這樣就可以通過計(jì)算兩個(gè)向量的夾角余弦值來評(píng)估他們的相似度。余弦值越接近1,就表明夾角越接近0度,也就是兩個(gè)向量越相似,這就叫“余弦相似性”。通過前文的分析,兩個(gè)文本的相似度就是指各自的特征向量的吻合程度,這樣通過計(jì)算特征向量的余弦值,就可以通過余弦相似性算法計(jì)算出的值代表兩個(gè)詞語大概相似。如圖3.2所示的立體空間中向量,,其相似度可以通過,向量對(duì)應(yīng)的夾角來度量。通過數(shù)學(xué)知識(shí)可以知道,當(dāng),之間的余弦值為1時(shí),相似度達(dá)到最大值1,向量之間的方向非常吻合,可能的相似程度越高;當(dāng),之間的余弦值為0時(shí),相似度達(dá)到最小值0,向量之間的方向越不吻合,可能的相似程度越低;則可以把余弦值放在之間取值來表示不同文本之間相似度。圖3.2夾角余弦相似度示意這樣就可以把余弦相似度計(jì)算公式統(tǒng)一為:(3-3)其中,,為維度相同的兩個(gè)向量。這個(gè)算法直接可以用于機(jī)器學(xué)習(xí),把文本表示為向量即可運(yùn)算,這時(shí)出現(xiàn)的典型現(xiàn)象就是文本表示的向量集合維數(shù)會(huì)達(dá)到數(shù)千維,并且是高維稀疏向量集合。簡單共有詞相似度算法這類算法的思路比較直觀,易于理解其基本原理,直觀的講就是首先統(tǒng)計(jì)需要比較相似度的兩篇文檔的總字符數(shù),其次分別統(tǒng)計(jì)文檔中共有詞語的總字符數(shù),第三用共有詞語除以最長文檔的字符數(shù)得到相似度衡量數(shù)值。這個(gè)算法模型可以這樣建立:設(shè)待統(tǒng)計(jì)相似度的文檔總字符數(shù)為,,其中兩篇文檔中共有詞字符數(shù)為,相似度為S,則算法模型為:當(dāng)時(shí),(3-4)當(dāng)時(shí),(3-5)在這里可以利用一個(gè)例子說明這個(gè)問題,假設(shè)只包括A、B兩句話的文檔,第一步,對(duì)兩個(gè)文檔先取出這兩句話共同都有的詞,統(tǒng)計(jì)共有多少個(gè)字?jǐn)?shù);第二步,對(duì)比A,B兩句話,看哪句話更長,就以這句話的字符數(shù)作為分母;第三步,用共有的詞語數(shù)除以最長的一句話的字符數(shù)。例如同樣是A、B兩句話,共有詞的字符長度為4,最長句子長度為6,那么4/6,相似度約等于0.667。本章小結(jié)本章圍繞研究文檔相似度經(jīng)典算法展開,重點(diǎn)分析了余弦相似性算法、簡單共有詞相似度算法、歐幾里得距離相似度算法,這三種算法各有特點(diǎn),在文檔相似度分析中起著奠基的作用,通過這樣的分析為后文創(chuàng)新算法打下了基礎(chǔ)。文本相似度算法改進(jìn)4.1改進(jìn)算法研究在第三章研究了余弦相似性算法、簡單共有詞相似度算法、歐幾里得距離相似度算法,這些算法在文本相似度方面的應(yīng)用十分基礎(chǔ),也十分重要,目前許多研究都是在這樣一個(gè)基礎(chǔ)上發(fā)展演變來的。本文在深入分析這三種算法的基礎(chǔ)上,也進(jìn)行了簡單的改進(jìn),在改進(jìn)中引進(jìn)了詞語權(quán)重的概念,所謂的詞語權(quán)重也就是一個(gè)詞語對(duì)所在文檔的重要程度,通過研究詞語權(quán)重就會(huì)知道文本中的每個(gè)詞語對(duì)文本的重要程度不同,對(duì)詞語權(quán)重進(jìn)行計(jì)算[11],得到改進(jìn)后的算法,下面進(jìn)行詳細(xì)分析。詞語權(quán)重用公式可以表示為:(4-1)(4-2)(4-3)其中,表示了文檔中的一個(gè)詞語對(duì)該文檔的重要程度,表示詞語在文檔中統(tǒng)計(jì)得出頻率,表示規(guī)范化之后的詞語頻率。表示文檔逆頻率,表示文件總數(shù)目,表示目的文件數(shù)目,假設(shè),表示文檔中的兩個(gè)詞語,,表示這兩個(gè)詞語在文檔中的權(quán)重,這時(shí)可以利用歐幾里得公式計(jì)算相似度,具體為:1、通過數(shù)學(xué)知識(shí)可以建立起歐幾里得算法模型,設(shè),作為向量空間中的任意兩個(gè)點(diǎn),則,之間的距離為:歐幾里得距離為:(4-4)(4-5)可以得出,改進(jìn)之后的歐幾里得算法模型的相似度S1小于改進(jìn)之前的相似度S為:(4-6)2、對(duì)余弦相似度算法的改進(jìn),也同樣在余弦向量算法模型的基礎(chǔ)上引入詞語權(quán)重,這時(shí)利用余弦相似度算法公式進(jìn)行改進(jìn),改進(jìn)的余弦算法模型如下:原始的余弦相似度算法為:(4-7)引入后,則(4-8)立體空間中向量,,其相似度可以通過,向量對(duì)應(yīng)的夾角來度量。通過數(shù)學(xué)知識(shí)可以知道,當(dāng),之間的余弦值為1時(shí),相似度達(dá)到最大值1,向量之間的方向非常吻合,可能的相似程度越高;當(dāng),之間的余弦值為0時(shí),相似度達(dá)到最小值0,向量之間的方向越不吻合,可能的相似程度越低;則可以把余弦值放在之間取值來表示不同文本之間相似度。根據(jù)數(shù)學(xué)之中著名的糖水不等式有:(4-9)3、設(shè)待統(tǒng)計(jì)相似度的文檔總字符數(shù)為,,其中兩篇文檔中共有詞字符數(shù)為,相似度為S,則改進(jìn)算法模型的相似度大于改進(jìn)之前的相似度:當(dāng)時(shí),(4-10)當(dāng)時(shí),(4-11)因此,通過改進(jìn)后余弦相似度算法模型,可以提高計(jì)算文本相似度的精確度。按照同樣的原理,在簡單共有詞相似度算法中也可以引入詞語權(quán)重的概念,這樣就可以把僅僅計(jì)算共有詞的問題轉(zhuǎn)化為計(jì)算詞頻出現(xiàn)頻率問題,同樣可以增加計(jì)算相似度的準(zhǔn)確性。4.2實(shí)驗(yàn)驗(yàn)證4.2.1實(shí)驗(yàn)步驟圖4.1實(shí)驗(yàn)步驟本文從知網(wǎng)庫中選取400篇文章進(jìn)行實(shí)驗(yàn),分別是歷史類100篇,教育類100篇,計(jì)算機(jī)科學(xué)類100片,環(huán)境類100篇。實(shí)驗(yàn)步驟如圖4.1所示,具體詳細(xì)步驟如下所示:1)讀取文檔;2)對(duì)要計(jì)算的文檔進(jìn)行分詞;3)把文檔按照空格整理成一個(gè)超長的字符串;4)計(jì)算詞語出現(xiàn)的頻率;5)對(duì)頻率低的詞進(jìn)行過濾,如果文檔過小就不用選,過大的話把頻率過低的詞過濾后,在更快計(jì)算;6)通過語料庫建立詞典;7)加載要對(duì)比的文檔;8)將要對(duì)比的文檔通過doc2bow轉(zhuǎn)化為稀疏向量;9)對(duì)稀疏向量進(jìn)行處理,獲得新語料庫;10)通過token2id得到特征數(shù);11)稀疏矩陣相似度,從而建立索引;12)得到最終相似度結(jié)果。4.2.2具體的功能實(shí)現(xiàn)本文使用的是Python平臺(tái),具體本文實(shí)驗(yàn)的代碼的部分實(shí)驗(yàn)如下所示:1)如上面步驟所示,首先本文得先要加載兩個(gè)文檔,這兩個(gè)文檔內(nèi)容是不同的,我們要對(duì)比的文檔在后面加載,然后對(duì)兩個(gè)文檔進(jìn)行切詞。具體代碼加載兩個(gè)文檔為:d1=open("D:/pyProject/novel/wudong.txt",encoding="utf-8").read()d2=open("D:/pyProject/novel/wanmei.txt",encoding="utf-8").read()對(duì)兩個(gè)文檔進(jìn)行切詞為:data1=jieba.cut(d1)data2=jieba.cut(d2)2)然后需要將代碼整成我們需要的形式,代碼為:data11=""foriindata1:data11+=i+""data22=""forjindata2:data22+=j+""這里的形式是按照空格分隔。3)進(jìn)行詞頻統(tǒng)計(jì),類似于wordcount,導(dǎo)包,其實(shí)這個(gè)頻率統(tǒng)計(jì)的唯一意義是,為了在后面篩選出那些頻率高的詞,剔除掉頻率低的詞,這個(gè)詞頻統(tǒng)計(jì)與最后的稀疏矩陣的建立沒有任何關(guān)系,具體代碼為:frequency=defaultdict(int)fort1intexts:fort2int1:frequency[t2]+=1其中,這個(gè)循環(huán)的意思是,原本默認(rèn)是0,出現(xiàn)了加一,再出現(xiàn)再加一,frequency里面是一個(gè)元組,里面是一個(gè)字典,鍵值對(duì)。4)text做好后生成語料庫進(jìn)行比較,代碼為:dictionary=corpora.Dictionary(texts)dictionary.save("D:/pyProject/novel/dict.txt")5)語料庫建立的詞典,用這個(gè)詞典把新文件變成稀疏向量,代碼為:data33=""fortindata3:data33+=t+""print(data33)new_doc=data33new_vec=dictionary.doc2bow(new_doc.split())6)計(jì)算語料庫的特征數(shù),具體代碼為:featureNum=len(dictionary.token2id.keys())7)計(jì)算稀疏矩陣相似度,具體代碼為:index=similarities.SparseMatrixSimilarity(tfidf[corpus],num_features=featureNum)sims=index[tfidf[new_ve

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論