大數(shù)據(jù)管理與應(yīng)用 課件 第十一章 文本分析_第1頁
大數(shù)據(jù)管理與應(yīng)用 課件 第十一章 文本分析_第2頁
大數(shù)據(jù)管理與應(yīng)用 課件 第十一章 文本分析_第3頁
大數(shù)據(jù)管理與應(yīng)用 課件 第十一章 文本分析_第4頁
大數(shù)據(jù)管理與應(yīng)用 課件 第十一章 文本分析_第5頁
已閱讀5頁,還剩29頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第十一章文本分析大數(shù)據(jù)管理與應(yīng)用——主編:王剛副主編:劉婧、邵臻文本分析技術(shù)是一種分析、挖掘非結(jié)構(gòu)化自然語言文本的方法,其能挖掘出非結(jié)構(gòu)化文本中的深層語義信息,近年來被廣泛應(yīng)用于醫(yī)療、金融、管理等諸多領(lǐng)域。在本章中您將理解文本分析的概念,掌握常用的文本預(yù)處理技術(shù),特征提取和文本表示技術(shù),文本分類分析技術(shù),文本聚類分析技術(shù)以及文本分析應(yīng)用方法。文本分析概述文本預(yù)處理特征提取和文本表示方法文本分類分析文本聚類分析第十一章文本分析01文本分析概述02文本預(yù)處理03特征提取和文本表示方法04文本分類分析05文本聚類分析文本分析是從原始自然語言文本中提煉出研究者需要的信息。與常見的數(shù)據(jù)分析相比,文本數(shù)據(jù)大多是半結(jié)構(gòu)化、非結(jié)構(gòu)化的,維度可能是普通數(shù)據(jù)的幾十倍或是上百倍,數(shù)據(jù)量龐大,處理的工作量大,此外,更重要的是需要理解自然語言文本中所傳達(dá)出的語義信息。因此,文本分析需要涉及自然語言處理(NaturalLanguageProcessing)、模式識別(PatternRecognition)和機(jī)器學(xué)習(xí)(MachineLearning)等多個(gè)領(lǐng)域知識,才可以盡可能地挖掘出文本中深層的語義信息,是一項(xiàng)交叉性的技術(shù)。文本分析經(jīng)歷了四代進(jìn)程,分別是符號主義、語法規(guī)則、統(tǒng)計(jì)學(xué)習(xí)以及深度學(xué)習(xí)。符號主義是通過邏輯推理方法來進(jìn)行文本分析。語法規(guī)則是基于專家制定的規(guī)則來進(jìn)行語義的抽取。統(tǒng)計(jì)學(xué)習(xí)通過對文本中詞頻、詞語共現(xiàn)等特征進(jìn)行語義的抽取。深度學(xué)習(xí)是通過建立的深度神經(jīng)網(wǎng)絡(luò)模型,根據(jù)訓(xùn)練語料,自主學(xué)習(xí)特征,從而完成文本分析任務(wù)。1.1文本分析的基本概念目前,文本分析還面臨著如下幾個(gè)方面的挑戰(zhàn)。第一,隨著計(jì)算機(jī)技術(shù)的快速發(fā)展,文本數(shù)據(jù)的數(shù)量呈指數(shù)級增長,如何從海量的文本中提取關(guān)鍵信息,成為一個(gè)值得研究的問題。第二,文本數(shù)據(jù)是半結(jié)構(gòu)化或者非結(jié)構(gòu)化的,計(jì)算機(jī)無法直接理解其中的語義信息,這需要研究者構(gòu)建基于語義的模型,高效地識別出文本中的內(nèi)容。第三,簡單的一句話中可能包含著多層意思,不僅需要簡單的語言處理,還需要進(jìn)行文本推理等其他技術(shù)來挖掘語義信息。第四,標(biāo)注數(shù)據(jù)獲取十分困難,人工標(biāo)注語言文本費(fèi)時(shí)費(fèi)力,并且不能保證標(biāo)注全部正確,但是有效的模型往往都是在大量的文本中訓(xùn)練而來的。第五,文本分析的目的無法用數(shù)學(xué)模型直接表示出來。文本分析后的結(jié)果有時(shí)也需要將其轉(zhuǎn)換成人類能夠讀懂的自然語言,這中間的轉(zhuǎn)換復(fù)雜又困難。1.1文本分析的基本概念針對文本數(shù)據(jù)非結(jié)構(gòu)化、高維、具有豐富語義的特征,文本分析流程要比傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)分析流程復(fù)雜一些,包含文本預(yù)處理、構(gòu)建分析挖掘模型及應(yīng)用三個(gè)階段。在文本預(yù)處理階段通常要將文本數(shù)據(jù)轉(zhuǎn)換成計(jì)算機(jī)可以處理的結(jié)構(gòu)化數(shù)據(jù),其核心步驟一般包括分詞、去除停用詞、基本的語義分析如詞性分析及句法分析等,在此基礎(chǔ)上針對高維特征利用特征提取方法提取出文本的主要特征,以降低維度。構(gòu)建分析挖掘模型是在文本預(yù)處理的基礎(chǔ)之上針對具體的應(yīng)用問題選取和設(shè)計(jì)算法,常用的技術(shù)包括文本分類、文本聚類等。文本分析典型應(yīng)用包括信息抽取、情感分析、知識圖譜構(gòu)建、問答系統(tǒng)等。1.2文本分析的基本流程圖11-1文本分析的一般流程圖文本分詞是利用分詞方法將文本分成一個(gè)字、詞語或者短語等詞匯單位的過程。文本分詞會(huì)根據(jù)語言的不同而采用不同的分詞方法。英語文本詞匯與詞匯之間用空格分開,因此英文文本可以直接使用空格和標(biāo)點(diǎn)符號進(jìn)行分詞。然而中文文本字詞之間并沒有天然的分隔標(biāo)記,一句話可以根據(jù)每個(gè)人理解的不同而被切分成不同的詞匯單位,如表11-1所示。因此,對于中文分詞需要額外考慮如何更精準(zhǔn)地進(jìn)行分詞操作。2.1文本分詞原句切分結(jié)果無雞鴨亦可,無魚肉亦可,白菜豆腐不能少。無/雞/鴨/亦可,無/魚/肉亦可,白菜/豆腐/不能/少。無/雞鴨/亦可,無/魚肉/亦可,白菜/豆腐/不能/少。這個(gè)桃子不大好吃。這個(gè)/桃子/不大/好吃。這個(gè)/桃子/不大好吃。表11-1歧義句常用的分詞方法主要有基于詞典的分詞方法、基于統(tǒng)計(jì)的分詞方法以及基于理解的分詞方法三種。基于詞典的分詞方法:此類方法依賴于詞表,將文本切分的字符串跟詞表中的詞語進(jìn)行匹配,匹配成功,則按詞表中的詞語進(jìn)行切分?;诮y(tǒng)計(jì)的分詞方法:此類方法是基于統(tǒng)計(jì)的思想,根據(jù)大規(guī)模語料上表現(xiàn)出來的詞匯共現(xiàn)特征如詞頻、互信息熵進(jìn)行分詞。基于理解的分詞方法:此類方法是利用計(jì)算機(jī)模擬人的思維對句子進(jìn)行理解,從而達(dá)到分詞的目的。2.1文本分詞表11-2三種分詞工具的分詞結(jié)果分詞工具原句JiebaPkusegPyltp2020年8月8日天晴。2020/年/8/月/8/日/天晴/。2020年/8月/8日/天晴/。2020年/8月/8日/天晴/。吃葡萄不吐葡萄皮。吃/葡萄/不吐/葡萄/皮/。吃/葡萄/不/吐/葡萄皮/。吃/葡萄/不/吐/葡萄皮/。小明說他想要回家。小/明說/他/想要/回家/。小明/說/他/想要/回家/。小明/說/他/想要/回家/。我愛自然語言處理。我/愛/自然語言/處理/。我/愛/自然/語言/處理/。我/愛/自然/語言/處理/。TF-IDF(TermFrequency-InverseDocumentFrequency)是自然語言處理中較為經(jīng)典的特征權(quán)重算法。TF-IDF算法是給予在當(dāng)前文本出現(xiàn)頻率較高而在其他文本中出現(xiàn)頻率較低的詞語更高的權(quán)重。特征頻率(TF)是統(tǒng)計(jì)該特征項(xiàng)在當(dāng)前文檔中出現(xiàn)的次數(shù)。一個(gè)特征項(xiàng)在當(dāng)前文檔中出現(xiàn)頻率越高,則TF越大:逆文檔頻率(IDF)是反映一個(gè)特征項(xiàng)在全部語料中的重要程度。文檔頻率(DF)是包含該特征項(xiàng)的文檔數(shù),若是一個(gè)特征項(xiàng)的DF越高,就說明這個(gè)特征項(xiàng)攜帶所在文檔的語義信息越少。通常用下式表示:特征頻率-逆文檔頻率(TF-IDF)是TF和IDF的乘積。公式如下:3.1TF-IDF語料庫“我”的TF值“我”的IDF值“我”的TF-IDF值1.我愛自然語言處理。2.編程語言,我選Python。3.我選擇文本挖掘。4.深度學(xué)習(xí)很難。0.1250.6931470.086643表11-3NLTK調(diào)用TF-IDF算法結(jié)果

3.2卡方統(tǒng)計(jì)量類別特征項(xiàng)文本挖掘非文本挖掘總和出現(xiàn)“詞向量”78684沒有出現(xiàn)“詞向量”61016總和8416100表11-4類別和特征項(xiàng)出現(xiàn)的文檔頻率信息增益(InformationGain,IG)是指在預(yù)測變量Y時(shí),當(dāng)給定隨機(jī)變量X時(shí),Y不確定狀態(tài)減少的程度。不確定程度減少的大小由信息熵減少的程度來決定。信息熵的計(jì)算公式如下:3.3信息增益

特征信息增益值(IG值)1汽車0.20291312車型0.19864343轎車0.12854394找到0.12163985比賽0.11055946一頁0.09527017發(fā)動(dòng)機(jī)0.09453938消費(fèi)者0.0935282表11-5利用信息增益對搜狗新聞?wù)Z料數(shù)據(jù)集進(jìn)行特征選擇的部分結(jié)果一般都將輸入到模型的詞匯或者句子映射成詞向量(WordEmbedding)。詞向量的表征技術(shù)有靜態(tài)的詞向量表征技術(shù)和動(dòng)態(tài)的詞向量表征技術(shù)。靜態(tài)詞向量表征技術(shù)One-Hot詞向量One-Hot詞向量,是最簡單的詞向量表征技術(shù)。根據(jù)前面的特征選擇方法,選擇合適的特征項(xiàng),這些特征項(xiàng)組成的集合就是整個(gè)語料的詞表。假設(shè)詞表的長度為N,則第i個(gè)詞的詞向量的長度為N,向量第I位值為1,其余值為0,如表11-6所示。One-Hot向量生成的詞向量離散稀疏,維度大,且不考慮上下文語義聯(lián)系。3.4詞向量表示原句我愛自然語言處理詞表{'我':1,'愛':2,'自然':3,'語言':4,'處理':5}'語言'的向量[0.,0.,0.,1.,0.]表11-6One-Hot詞向量示例Word2VecCBOW模型CBOW模型的主要思想是用上下文的詞語來預(yù)測中心目標(biāo)詞語,如圖11-2所示。輸入層為上下文詞語的One-Hot向量。假設(shè)詞表大小為V,上下文單詞窗口為C,示意圖中的窗口大小為2。每一個(gè)輸入的One-Hot向量乘以一個(gè)相同的權(quán)重矩陣W1。投影層將該窗口所得向量的平均值作為隱層向量。隱層向量乘以權(quán)重矩陣W2,得到輸出層的輸出向量,輸出向量的維數(shù)為V,最后經(jīng)過Softmax,獲得每個(gè)詞的輸出概率,概率最大的為預(yù)測的中心詞。3.4詞向量表示圖11-2CBOW模型示意圖Skip-Gram模型Skip-Gram模型的主要思想是用中心目標(biāo)詞語來預(yù)測上下文詞語,如圖11-3所示。整體計(jì)算過程其實(shí)與CBOW相似,只不過過程相反。輸入層為中心詞的One-Hot向量,乘以權(quán)重矩陣得到隱層向量,隱層向量乘以共享的權(quán)重矩陣得到輸出層向量,經(jīng)過Softmax獲得每個(gè)詞的概率,概率最大的為當(dāng)前節(jié)點(diǎn)的詞語。3.4詞向量表示圖11-3Skip-Gram模型示意圖動(dòng)態(tài)詞向量表征技術(shù)ElmoElmo(EmbeddingsFromLanguageModels)是最先提出解決多義詞的預(yù)訓(xùn)練詞向量模型。模型結(jié)構(gòu)如圖11-4所示。如圖所示,Elmo主要使用了雙向的LSTM(LongShort-TermMemory,長短時(shí)記憶模型)來構(gòu)建語言模型。通過使用大規(guī)模的語料庫來訓(xùn)練這個(gè)語言模型,獲得各層Bilstm(圖中為2層)的特征,將這些特征拼接起來,得到的就是Elmo詞向量。語言模型是根據(jù)前面出現(xiàn)的詞匯預(yù)測下一個(gè)詞匯來獲得語料特征的模型,因此,語言模型不需要進(jìn)行人工標(biāo)注就可以獲得大量的數(shù)據(jù)。由于Bilstm能夠同時(shí)獲取上下文的信息,因此Elmo利用Bilstm構(gòu)建語言模型,從中學(xué)習(xí)語義特征,獲取詞向量。Elmo是將每一層Bilstm的輸出以及最開始的詞向量進(jìn)行線性相加,相加的權(quán)重是從下游任務(wù)中學(xué)習(xí)出來的。3.4詞向量表示圖11-4Elmo模型示意圖BERTBERT(BidirectionalEncoderRepresentationFromTransformers)是谷歌2019年提出的預(yù)訓(xùn)練模型。模型是由Transformer的Encoder部分組成的。Transformer是谷歌2017年在論文《AttentionIsAllYouNeed》中提出的模型,模型結(jié)構(gòu)如圖11-5所示。模型由Encoder(圖左邊部分)和Decoder(圖右邊部分)組成。Encoder部分由多頭注意力層以及前饋神經(jīng)網(wǎng)絡(luò)層組成,多層Encoder的堆疊就是BERT模型的基本架構(gòu)。3.4詞向量表示圖11-5Transformer模型結(jié)構(gòu)BERT采用兩個(gè)特殊的預(yù)訓(xùn)練任務(wù)進(jìn)行模型的訓(xùn)練。第一個(gè)任務(wù)是遮蔽語言模型(MLM,MaskedLanguageModel),用[MASK]隨機(jī)替換詞匯序列中的部分詞語,再根據(jù)上下文來預(yù)測[MASK]位置原有的詞,如圖11-6所示。第二個(gè)任務(wù)是下一句預(yù)測(NSP,NextSentencePredict),給定一篇文章的一句話,判斷第二句是否緊跟在第一句之后,并會(huì)在句子之前增加一個(gè)向量,用來存儲判斷結(jié)果,如圖11-7所示。3.4詞向量表示圖11-6Bert模型MLM輸出圖圖11-7Bert模型NSP輸出圖XlnetXlnet是一種泛化的自回歸語言模型,根據(jù)BERT存在的一些問題進(jìn)行了創(chuàng)新性的改進(jìn),在20個(gè)自然語言處理任務(wù)上的表現(xiàn)都超過了BERT。BERT是AE(Autoencoding)模型,雖然可以用上下文來預(yù)測[MASK]的原詞匯,但是在微調(diào)過程中,語料庫中并不會(huì)有[MASK]這個(gè)詞匯,這樣就會(huì)造成預(yù)訓(xùn)練過程和微調(diào)過程不匹配;其次,BERT隨機(jī)遮蔽詞匯的前提是假設(shè)每個(gè)詞匯都是獨(dú)立的,但是實(shí)際語料庫中,有些詞匯是相關(guān)的,如“紐約是一座城市”這句話,“紐”和“約”是相關(guān)的,并不是相互獨(dú)立的。AR模型是通過上文或者下文來預(yù)測目標(biāo),是單向的。Xlnet是AR(Autoregressive)模型,但是Xlnet提出了排列語言模型、雙流自注意力機(jī)制以及循環(huán)機(jī)制,將AR模型變成了真“雙向”預(yù)測目標(biāo)。排列語言模型能夠巧妙地獲取上下文信息。雙流自注意力機(jī)制能夠?qū)?nèi)容信息和位置信息分開,根據(jù)預(yù)測詞匯的不同,決定內(nèi)容信息和位置信息的使用。循環(huán)機(jī)制能夠使得模型記住長距離的信息,因此,Xlnet比BERT更擅長處理長文本的任務(wù)。3.4詞向量表示ERNIEERNIE(EnhancedRepresentationFromKnowledgeIntegration)是百度提出針對中文文本的預(yù)訓(xùn)練語言模型。ERNIE模型的結(jié)構(gòu)與BERT模型差不多,主要?jiǎng)?chuàng)新在[MASK]設(shè)置上。BERT是隨機(jī)遮蔽掉一些字,比如“華[MASK]手機(jī)很好用”,這樣會(huì)造成詞法信息的丟失,而ERNIE隨機(jī)遮蔽的是短語或者是實(shí)體名。比如上面的句子,在處理時(shí)為“[MASK][MASK][MASK][MASK]很好用”,這樣使得模型的泛化能力更強(qiáng),通用語義表示能力更強(qiáng),在多項(xiàng)公開的中文數(shù)據(jù)集上的測試結(jié)果發(fā)現(xiàn)ERNIE的表現(xiàn)相較于BERT要好??梢钥闯鲈贐ERT提出之后,許多研究都以其為基礎(chǔ)進(jìn)行改進(jìn)。除上述模型外,還出現(xiàn)了如ALBERT、Roberta、Spanbert等模型。利用這些預(yù)訓(xùn)練模型能提升模型性能,減少模型訓(xùn)練收斂速度,因此近年來在文本分析中得到了較好的應(yīng)用和發(fā)展。3.4詞向量表示文本分類是自然語言處理領(lǐng)域的一項(xiàng)基礎(chǔ)性任務(wù),主要目標(biāo)是根據(jù)指定的分類體系,對文本進(jìn)行自動(dòng)類別標(biāo)注,對文本進(jìn)行有效的整理和歸納。文本分類的主要步驟包括文本預(yù)處理、文本特征提取與表示、分類模型構(gòu)建與訓(xùn)練。常見的應(yīng)用方向有垃圾郵件識別、文本主題分類、情感分析等。早期的文本分類方法是專家制定推理規(guī)則和模板來進(jìn)行文本分類,然而規(guī)則集的建立與更新都會(huì)造成人力、物力的大量浪費(fèi)。直至上個(gè)世紀(jì)90年代,隨著統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法的提出與發(fā)展,文本分類技術(shù)有了一定程度的提升。常見的基于監(jiān)督的機(jī)器學(xué)習(xí)分類算法有樸素貝葉斯(NB,Na?veBayes)、支持向量機(jī)(SVM,SupportVectorMachines)、Logistic回歸、K近鄰(KNN,K-NearestNeighbor)等。統(tǒng)計(jì)機(jī)器學(xué)習(xí)主要是利用詞頻、共現(xiàn)詞匯信息進(jìn)行分類,這會(huì)造成文本特征稀疏,影響分類精度。近年來,隨著深度學(xué)習(xí)的興起,基于卷積神經(jīng)網(wǎng)絡(luò)(CNN,ConvolutionNeuralNetwork)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN,RecurrentNeuralNetwork)的文本分類技術(shù)取得了較大的進(jìn)步,逐漸成為了目前的主流方法。4.1文本分類概述支持向量機(jī)(SVM,SupportVectorMachines)在文本分類任務(wù)上有著良好的性能,具有優(yōu)異的泛化能力。SVM的核心思想是根據(jù)數(shù)據(jù)集的分布情況,找到一個(gè)劃分超平面,使得不同類別之間的距離最大化,如圖11-8中L2所示,到兩類訓(xùn)練樣本的距離都是最大的。支持向量機(jī)是由在分類邊界上的樣本決定的,這可以只關(guān)注關(guān)鍵樣本,避免“維數(shù)災(zāi)難”,并且有優(yōu)秀的泛化能力,根據(jù)問題的不同,替換不同的核函數(shù)進(jìn)行更好的擬合。但是支持向量機(jī)對特征的選擇十分敏感;數(shù)據(jù)量大時(shí),支持向量機(jī)的訓(xùn)練時(shí)間過長,內(nèi)存消耗較大。4.2支持向量機(jī)分類方法圖11-8SVM超平面劃分圖卷積神經(jīng)網(wǎng)絡(luò)輸入層:文本進(jìn)行分詞、初始化詞向量之后得到的矩陣向量,作為卷積神經(jīng)網(wǎng)絡(luò)的輸入。實(shí)際操作中詞向量的維度一般為100維、200維,預(yù)訓(xùn)練模型如BERT的詞向量大小為768維。卷積層:卷積層是CNN的核心層,具有局部連接、共享權(quán)重的特點(diǎn)。通過設(shè)置不同大小的卷積核,可以提取不同大小的特征。卷積核的大小根據(jù)實(shí)際需要進(jìn)行選擇。池化層:對數(shù)據(jù)進(jìn)行下采樣,之后進(jìn)行拼接得到語義組合信息。下采樣策略有最大池化(Max-Pooling)、平均池化(Mean-Pooling)等。通過池化層可以將不同長度的文本轉(zhuǎn)化為相同長度的維度。全連接層:通過全連接層,將池化層的輸出映射成標(biāo)簽數(shù)量大小的輸出維度。卷積神經(jīng)網(wǎng)絡(luò)所需的參數(shù)更少,與循環(huán)神經(jīng)網(wǎng)絡(luò)相比,訓(xùn)練時(shí)間更短。但是卷積神經(jīng)網(wǎng)絡(luò)不能捕捉長距離的語義信息,因此循環(huán)神經(jīng)網(wǎng)絡(luò)更適合處理自然語言處理。4.3深度神經(jīng)網(wǎng)絡(luò)方法圖11-9卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN,RecurrentNeuralNetwork)可以存儲短距離的信息,擅長處理序列數(shù)據(jù)。但是最基本的RNN網(wǎng)絡(luò)往往會(huì)出現(xiàn)梯度消失或者梯度爆炸問題,長短時(shí)記憶網(wǎng)絡(luò)(LSTM,LongShortTermMemory)是RNN模型的一種變形,可避免上述問題。LSTM由輸入門、遺忘門以及輸出門來進(jìn)行信息的存儲與遺忘,具體結(jié)構(gòu)可以回顧第十章。與最基本的RNN相比,LSTM能夠考慮長距離的語義依賴。當(dāng)前位置的文本信息不僅與前文有關(guān),與下文也有關(guān)系,因此,為了獲取更加完整的語義,有研究者提出了雙向長短時(shí)記憶網(wǎng)絡(luò)(Bi-LSTM),將前向LSTM得到的隱層狀態(tài)和后向LSTM得到的隱層狀態(tài)拼接起來,共同決定最終的輸出,模型結(jié)構(gòu)如圖11-10所示。4.3深度神經(jīng)網(wǎng)絡(luò)方法圖11-10Bi-LSTM結(jié)構(gòu)圖文本分類是一種有監(jiān)督的分析方法,而文本聚類分析是一種無監(jiān)督的分析方法。正如第八章中介紹的,文本聚類分析的目的是將文檔集合劃分成不同的子集,使得同一子集中的文檔具有較高的相似性,而不同子集中的文檔相似性較低。在此基礎(chǔ)上,針對不同子集可以展開進(jìn)一步分析,歸納出它們的特點(diǎn)。因此,文本聚類分析有利于我們對文檔集合有更全面的認(rèn)識。由于在實(shí)際應(yīng)用中,我們所獲取的文本數(shù)據(jù)很多都是無標(biāo)簽的,因此文本聚類分析的應(yīng)用場景是比較廣泛的。例如在信息檢索中,對檢索出的文檔信息進(jìn)行聚類,可以使用戶快速找到自己所需要的信息,提高檢索效率;在電子商務(wù)領(lǐng)域中,通過對用戶評論的聚類,可以將信息進(jìn)行有效組織,找出用戶評論的主題,從而解決信息過載問題,輔助用戶做出決策,此外,可以通過對用戶評論中討論的產(chǎn)品特征進(jìn)行聚類,明確用戶所感興趣的產(chǎn)品特征;在醫(yī)學(xué)領(lǐng)域中,通過對電子病歷文檔進(jìn)行聚類,可以實(shí)現(xiàn)對不同病種的歸類分析。5.1文本聚類概述基于詞項(xiàng)的相似性度量方法基于詞項(xiàng)的相似度也稱為字面相似度或關(guān)鍵詞相似度,是指原文本中詞項(xiàng)之間的相似度。計(jì)算詞項(xiàng)間的相似度常用的度量方法有如下幾種:Jaccard相似度Jaccard系數(shù)度量了兩個(gè)集合之間的關(guān)系,其定義如下所示。編輯距離編輯距離又稱為Levenshtein距離,Levenshtein距離關(guān)注的是兩個(gè)詞項(xiàng)之間的差異性,即由一個(gè)詞項(xiàng)轉(zhuǎn)換成另一個(gè)詞項(xiàng)所需要的最小編輯操作次數(shù)。這里的編輯操作是基于字符的操作,即一次操作編輯一個(gè)字符。編輯操作包括添加、刪除或者替換。以兩個(gè)詞項(xiàng)(字符串)a和b為例,它們之間的編輯距離可以定義如下:5.2文本相似性度量方法漢明距離漢明距離(Hamming)則是度量兩個(gè)長度相等的詞項(xiàng)之間的距離。根據(jù)兩個(gè)詞項(xiàng)中對應(yīng)位不同的數(shù)量來度量相似性大小。漢明距離越大表明相似度越低。假設(shè)兩個(gè)詞項(xiàng)A="文本分析",B="文本挖掘",則根據(jù)漢明距離的定義可知A和B兩者對應(yīng)位不同的個(gè)數(shù)為2,因此Hamming(A,B)=2;若兩個(gè)詞項(xiàng)A="文本分析",B="挖掘文本",則根據(jù)漢明距離的定義可知A和B兩者對應(yīng)位不同的個(gè)數(shù)為4,此時(shí)Hamming(A,B)=4。Jaro距離Jaro距離衡量兩個(gè)字符串之間的距離,其公式定義如下:5.2文本相似性度量方法基于向量的相似度度量方法基于詞項(xiàng)的相似度主要用于計(jì)算兩個(gè)詞項(xiàng)之間的相似度,而基于向量的相似度度量方法則是將整個(gè)文檔映射成一個(gè)向量再通過計(jì)算向量間的距離計(jì)算文檔之間的相似度,即度量文檔與文檔之間的相似度。這種方式的基本模型稱之為向量空間模型,即文檔集可以看作是一系列特征詞組成的向量空間模型,在向量空間模型中不考慮文檔集中詞語之間的順序關(guān)系。圖11-11描述了向量空間模型的構(gòu)造過程:5.2文本相似性度量方法圖11-11向量空間模型的構(gòu)造過程基于分布的相似性度量方法文檔除了表示成上述的向量空間模型以外,還可以利用主題概率模型進(jìn)行表示。主題概率模型是一種生成式模型,模型中主題表現(xiàn)為文檔集合中若干詞語的條件概率分布,文檔是在多個(gè)主題上的概率分布。我們將在本節(jié)的第三小節(jié)中詳細(xì)介紹主題概率模型。在此,僅討論文檔表示成概率分布以后如何求解文檔與文檔之間的相似性。這時(shí)可以通過統(tǒng)計(jì)距離來度量兩者之間的相似度,其中最常使用的兩種方法是K-L散度和J-S散度。K-L散度K-L散度的定義公式如下:J-S散度由于K-L散度不具有對稱性,J-S散度主要用于解決K-L散度的非對稱性問題,其公式如下:5.2文本相似性度量方法基于深度學(xué)習(xí)的相似性度量方法向量空間模型和主題概率模型都是基于詞的表示但是未能將文檔集合中詞與詞之間的順序關(guān)系以及上下文的語義關(guān)系考慮到建模過程中。為了更好地表達(dá)語義關(guān)系,近年來深度學(xué)習(xí)方法得到迅速發(fā)展。通過表示后可以直接根據(jù)詞向量之間的距離計(jì)算相似度。其中距離公式仍然可以采用余弦相似度計(jì)算公式。下面以Word2vec為例介紹相似度的計(jì)算過程。還是以兩個(gè)文檔為例,假設(shè)文檔A={"文本聚類十分重要。"},B={"文本分類很實(shí)用。"}。首先將文檔A和B分別進(jìn)行分詞處理,處理結(jié)果如下:A={'文本','聚類','十分','重要‘},B={'文本','分類','很','實(shí)用‘}。利用Word2vec對詞語進(jìn)行表征,實(shí)驗(yàn)中以維基百科語料作為訓(xùn)練語料,選取向量維度為100維,使用Python中的Gensim工具包實(shí)現(xiàn)Word2vec。以特征詞"聚類"為例,最終得到的100維詞向量示例如下:[-7.2159378e-01,7.2500420e-01,4.5519397e-01,1.34977223e-01,-4.4675052e-02,-3.1165814e-01,...,-3.9753205e-01,-1.7396705e-01]。按照上述方法可以得到A、B兩個(gè)文檔中每個(gè)特征詞的詞向量,將詞向量取平均值作為每個(gè)特征詞的表示,這樣每個(gè)句子可以表示成一個(gè)由特征詞詞向量組成的向量模型,對于向量模型可以采用余弦相似度計(jì)算兩個(gè)向量的相似度,進(jìn)而計(jì)算出兩個(gè)文檔的相似度。上述A、B兩個(gè)文檔經(jīng)過上述步驟得到相似度值為0.7656。5.2文本相似性度量方法主題模型是一種基于模型的聚類方法。它是一種生成式模型,模型中主題表現(xiàn)為文檔集合中若干詞語的條件概率分布,文檔是在多個(gè)主題上的概率分布,即利用主題模型可以將文檔、主題詞從原始的基于詞項(xiàng)的空間映射到同一個(gè)隱形語義空間中,此處的主題又可以稱為話題。通過主題模型可以得到文檔-主題,以及主題-詞概率,而每一個(gè)主題可以認(rèn)為是一類,因此通過主題模型就可以得到主題的特征即每個(gè)主題下的文檔、詞概率分布,進(jìn)而描

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論