版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第8章文本數(shù)據(jù)分析《Python數(shù)據(jù)分析與應(yīng)用:從數(shù)據(jù)獲取到可視化(第2版)》學(xué)習(xí)目標(biāo)/Target
了解NLTK與jieba庫(kù),能夠說(shuō)明NLTK與jieba庫(kù)的用途
掌握NLTK語(yǔ)料庫(kù)的安裝,能夠在計(jì)算機(jī)中成功安裝NLTK語(yǔ)料庫(kù)
熟悉文本預(yù)處理的流程,能夠歸納出文本預(yù)處理的基本流程
掌握分詞的方式,能夠通過(guò)NLTK與jieba庫(kù)對(duì)文本進(jìn)行分詞
掌握詞性標(biāo)注的方式,能夠通過(guò)pos_tag()函數(shù)對(duì)英文文本進(jìn)行分詞標(biāo)注學(xué)習(xí)目標(biāo)/Target
掌握詞形歸一化操作,能夠通過(guò)stem模塊實(shí)現(xiàn)詞性歸一化的操作
掌握刪除停用詞操作,能夠通過(guò)stopwords模塊實(shí)現(xiàn)刪除停用詞的操作
熟悉文本情感分析,能夠通過(guò)多種方式實(shí)現(xiàn)簡(jiǎn)單的文本情感分析
熟悉文本相似度,可以結(jié)合NLTK與余弦相似度實(shí)現(xiàn)簡(jiǎn)單的文本相似度分析
熟悉文本分類(lèi),可以結(jié)合NLTK與樸素貝葉斯算法實(shí)現(xiàn)簡(jiǎn)單的文本分類(lèi)分析章節(jié)概述/Summary自然語(yǔ)言處理(NLP)是人工智能領(lǐng)域一個(gè)重要方向,在這一方向上文本數(shù)據(jù)占據(jù)著很大的市場(chǎng),由于文本中可能包含中文、英文等一些語(yǔ)言的內(nèi)容,所以Python針對(duì)不同語(yǔ)言的文本提供了相應(yīng)的庫(kù)進(jìn)行處理,常見(jiàn)的有用于處理英文文本的NLTK庫(kù),用于處理中文文本的jieba庫(kù)。接下來(lái),本章主要圍繞著NLTK和jieba庫(kù)介紹文本預(yù)處理的基本流程,以及文本數(shù)據(jù)分析的經(jīng)典應(yīng)用,包括文本情感分析、文本相似度和文本分類(lèi)。目錄/Contents01文本數(shù)據(jù)分析的工具02文本預(yù)處理03文本情感分析目錄/Contents04文本相似度05文本分類(lèi)06案例:商品評(píng)論分析文本數(shù)據(jù)分析的工具8.18.1.1
認(rèn)識(shí)NLTK與jieba了解NLTK與jieba庫(kù),能夠說(shuō)出NLTK與jieba庫(kù)的用途學(xué)習(xí)目標(biāo)8.1.1
認(rèn)識(shí)NLTK與jiebaNLTK全稱(chēng)為NaturalLanguageToolkit,它是一套基于Python的自然語(yǔ)言處理工具包,可以方便地完成自然語(yǔ)言處理的任務(wù),包括分詞、詞性標(biāo)注、命名實(shí)體識(shí)別(NER)及句法分析等。NLTK概念8.1.1
認(rèn)識(shí)NLTK與jiebaNLTK常用模塊語(yǔ)言處理任務(wù)模塊功能描述獲取和處理語(yǔ)料庫(kù)nltk.corpus語(yǔ)料庫(kù)和詞典的標(biāo)準(zhǔn)化接口字符串處理nltk.tokenize,nltk.stem分詞、句子分解、提取主干搭配探究nltk.collocations用于識(shí)別搭配工具,查找單詞之間的關(guān)聯(lián)關(guān)系詞性標(biāo)識(shí)符nltk.tag用于詞性標(biāo)注的類(lèi)和接口分類(lèi)nltk.classify,nltk.clusternltk.classify是用類(lèi)別標(biāo)簽標(biāo)記的接口;nltk.cluster包含了許多聚類(lèi)算法分塊nltk.chunk在不受限制的文本識(shí)別非重疊語(yǔ)言組的類(lèi)和接口NLTK是免費(fèi)開(kāi)源的,它為超過(guò)50個(gè)語(yǔ)料庫(kù)和詞匯資源提供了易于使用的接口,以及一套用于分類(lèi)、標(biāo)記化、詞干化、解析和語(yǔ)義推理的模塊。8.1.1
認(rèn)識(shí)NLTK與jiebaNLTK常用模塊語(yǔ)言處理任務(wù)模塊功能描述解析nltk.parse對(duì)圖表、概率等解析的接口語(yǔ)義解釋nltk.sem,nltk.inference一階邏輯、模型檢驗(yàn)指標(biāo)評(píng)測(cè)nltk.metrics精度、召回率、協(xié)議系數(shù)概率與估計(jì)bability計(jì)算頻率分布、平滑概率分布應(yīng)用nltk.app,nltk.chat圖形化的關(guān)鍵詞排序、分析器、WordNet查看器、聊天機(jī)器人語(yǔ)言學(xué)領(lǐng)域的工作nltk.toolbox處理SIL工具箱格式的數(shù)據(jù)NLTK是免費(fèi)開(kāi)源的,它為超過(guò)50個(gè)語(yǔ)料庫(kù)和詞匯資源提供了易于使用的接口,以及一套用于分類(lèi)、標(biāo)記化、詞干化、解析和語(yǔ)義推理的模塊。8.1.1
認(rèn)識(shí)NLTK與jiebajieba概念jieba庫(kù)用于實(shí)現(xiàn)中文分詞的功能,中文分詞指的是將中文語(yǔ)句或語(yǔ)段拆成若干漢語(yǔ)詞匯。我是一個(gè)學(xué)生學(xué)生我是一個(gè)學(xué)生我是一個(gè)8.1.1
認(rèn)識(shí)NLTK與jiebajieba特點(diǎn)1.支持三種分詞模式3.支持繁體分詞2.支持自定義詞典4.MIT授權(quán)協(xié)議精確模式:會(huì)將文本中的句子最精準(zhǔn)地切分。全模式:會(huì)將文本中的所有可以成詞的詞語(yǔ)全部掃描出來(lái)。搜索引擎模式:在精確模式的基礎(chǔ)上對(duì)長(zhǎng)詞進(jìn)行再次切分。8.1.2
安裝jieba和NLTK語(yǔ)料庫(kù)掌握NLTK語(yǔ)料庫(kù)的安裝,能夠在計(jì)算機(jī)中成功安裝NLTK語(yǔ)料庫(kù)學(xué)習(xí)目標(biāo)8.1.2
安裝jieba和NLTK語(yǔ)料庫(kù)如果希望使用NLTK和jieba庫(kù)處理文本數(shù)據(jù),則需要在當(dāng)前的開(kāi)發(fā)環(huán)境中安裝這兩個(gè)庫(kù)。由于Anaconda工具中默認(rèn)已經(jīng)自動(dòng)安裝了NLTK,所以這里我們只需要在Anaconda命令行工具中安裝jieba庫(kù)。安裝jieba>>>pip
install
jieba……Installingcollectedpackages:jiebaSuccessfullyinstalledjieba-0.42.18.1.2
安裝jieba和NLTK語(yǔ)料庫(kù)安裝完以后,在命令行工具中進(jìn)入Python環(huán)境,然后輸入導(dǎo)入jieba庫(kù)的語(yǔ)句測(cè)試是否安裝成功。安裝jieba>>>import
jieba8.1.2
安裝jieba和NLTK語(yǔ)料庫(kù)NLTK庫(kù)中附帶了許多語(yǔ)料庫(kù)(指經(jīng)科學(xué)取樣和加工的大規(guī)模電子文本庫(kù))、玩具語(yǔ)法、訓(xùn)練模型等,Anaconda工具中雖然已經(jīng)自動(dòng)安裝了NLTK庫(kù),但是并沒(méi)有安裝語(yǔ)料庫(kù)。安裝NLTK語(yǔ)料庫(kù)importnltknltk.download()8.1.2
安裝jieba和NLTK語(yǔ)料庫(kù)安裝NLTK語(yǔ)料庫(kù)集合語(yǔ)料庫(kù)模型所有包下載數(shù)據(jù)包的目錄8.1.2
安裝jieba和NLTK語(yǔ)料庫(kù)安裝NLTK語(yǔ)料庫(kù)將下載目錄更改為C:\nltk_data。
8.1.2
安裝jieba和NLTK語(yǔ)料庫(kù)安裝NLTK語(yǔ)料庫(kù)1.下載所有選項(xiàng)2.下載部分選項(xiàng)
8.1.2
安裝jieba和NLTK語(yǔ)料庫(kù)安裝NLTK語(yǔ)料庫(kù)在使用NLTKDownloader下載數(shù)據(jù)包時(shí),可能會(huì)因?yàn)榫W(wǎng)絡(luò)受限而出現(xiàn)下載失敗的問(wèn)題,此時(shí)大家可以采用手動(dòng)安裝的方式解決,解決思路是,首先到NLTK官網(wǎng)找到數(shù)據(jù)包列表,然后根據(jù)自己需求下載數(shù)據(jù)包,并將下載后的數(shù)據(jù)包解壓后放到C:\nltk_data目錄下。8.1.2
安裝jieba和NLTK語(yǔ)料庫(kù)驗(yàn)證NLTK語(yǔ)料庫(kù)下載完成以后,我們可以輸入導(dǎo)入語(yǔ)料庫(kù)brown的語(yǔ)句測(cè)試語(yǔ)料庫(kù)是否下載成功。fromnltk.corpusimportbrownbrown.words()
8.1.2
安裝jieba和NLTK語(yǔ)料庫(kù)驗(yàn)證NLTK語(yǔ)料庫(kù)還可以通過(guò)categories()函數(shù)查看brown中包含的類(lèi)別。brown.categories()'brown中一共有{}個(gè)句子'.format(len(brown.sents()))'brown中一共有{}個(gè)單詞'.format(len(brown.words()))還可以查看brown語(yǔ)料庫(kù)中包含的單詞或句子的總個(gè)數(shù)。文本預(yù)處理8.28.2.1
基本流程熟悉文本預(yù)處理的流程,能夠歸納出文本預(yù)處理的基本流程學(xué)習(xí)目標(biāo)8.2.1
基本流程文本數(shù)據(jù)不能直接被用來(lái)分析,它里面可能會(huì)包含一些對(duì)數(shù)據(jù)分析沒(méi)有任何參考意義的內(nèi)容,為此我們?cè)诜治鲋靶枰獙?duì)文本數(shù)據(jù)進(jìn)行一系列的預(yù)處理操作,包括分詞、詞形統(tǒng)一化、刪除停用詞等,這樣可以提升文本數(shù)據(jù)的質(zhì)量。8.2.1
基本流程基本流程8.2.1
基本流程基本流程1.
分詞文本分詞是預(yù)處理過(guò)程中必不可少的一個(gè)操作,它可以分為兩步,第一步是構(gòu)造詞典,第二步是分詞算法的操作。構(gòu)造詞典比較流行的實(shí)現(xiàn)方式是雙數(shù)組的trie樹(shù)。分詞算法常見(jiàn)的主要有正向最大匹配、反向最大匹配、雙向最大匹配、語(yǔ)言模型方法、最短路徑算法等。8.2.1
基本流程基本流程2.
詞形歸一化詞形歸一化包括詞干提取和詞形還原,它們的目的都是為了減少單詞曲折變化的形式,將派生詞轉(zhuǎn)化為基本形式?;谟⑽恼Z(yǔ)法的要求,英文文本中經(jīng)常會(huì)用到單詞的不同形態(tài),例如,一般現(xiàn)在時(shí)的單詞do、現(xiàn)在進(jìn)行時(shí)的doing等,另外也有大量意義相近的同源詞,比如able、unable、disability。如果希望只輸入一個(gè)詞,就能夠返回它所有的同源詞文檔,那么這樣的搜索是非常有用的。am,are,is—be
cars,
car's,
cars'—car
8.2.1
基本流程基本流程3.
刪除停用詞停用詞是指在信息檢索中,為節(jié)省存儲(chǔ)空間和提高搜索效率,在處理文本之前或之后會(huì)自動(dòng)過(guò)濾掉的某些字或詞。刪除停用詞是非常有必要的,主要是因?yàn)槲谋局械拿總€(gè)單詞或字并不是都能夠表明文本的特征,比如“的”、“是”、“這”、“啊”等,這些詞應(yīng)該從文本中刪除。我們可以在網(wǎng)上下載一份中文或英文的停用詞表作為刪除停用詞的參考。8.2.2
分詞掌握分詞的方式,能夠通過(guò)NLTK與jieba庫(kù)對(duì)文本進(jìn)行分詞學(xué)習(xí)目標(biāo)8.2.2
分詞分詞是指將由連續(xù)詞或字組成的語(yǔ)句,按照一定的規(guī)則劃分成獨(dú)立詞語(yǔ)的過(guò)程。概念英文的句子以空格為分界符,可以指定空格為分詞的標(biāo)記。中文的句子只是字、句和段有明顯的分界符,唯獨(dú)詞沒(méi)有一個(gè)形式上的分界符。中英文文本區(qū)別8.2.2
分詞英文文本分詞為了幫助用戶快速地實(shí)現(xiàn)英文文本分詞的效果,NLTK中提供了word_tokenize()函數(shù),該函數(shù)以空格或標(biāo)點(diǎn)符號(hào)為分隔符對(duì)英文文本進(jìn)行分詞,并返回分詞后的單詞列表。sentence='Pythonisastructuredandpowerful'
'object-orientedprogramminglanguage.'words=nltk.word_tokenize(sentence)words※注意,我們?cè)谑褂肗LTK進(jìn)行分詞操作時(shí)需要先確保當(dāng)前的環(huán)境中已經(jīng)下載了punkt分詞模型,否則word_tokenize()函數(shù)是無(wú)法使用的。8.2.2
分詞中文文本分詞jieba是國(guó)內(nèi)使用人數(shù)最多的中文分詞工具,它基于中文分詞的原理,將中文語(yǔ)句或段落拆成若干漢語(yǔ)詞匯。如果想要使用jieba模塊進(jìn)行分詞,則可以通過(guò)cut()
函數(shù)進(jìn)行劃分。cut(self,sentence,cut_all=False,HMM=True,use_paddle=False)sentence:需要分詞的字符串。cut_all:用來(lái)控制是否采用全模式。HMM:用來(lái)控制是否使用HMM模型。8.2.2
分詞中文文本分詞jieba是國(guó)內(nèi)使用人數(shù)最多的中文分詞工具,它基于中文分詞的原理,將中文語(yǔ)句或段落拆成若干漢語(yǔ)詞匯。如果想要使用jieba模塊進(jìn)行分詞,則可以通過(guò)cut()
函數(shù)進(jìn)行劃分。importjiebasentence='傳智專(zhuān)修學(xué)院推出顛覆式辦學(xué)模式'terms_list=jieba.cut(sentence,cut_all=True)print('【全模式】:'+'/'.join(terms_list))terms_list=jieba.cut(sentence,cut_all=False)print('【精確模式】:'+'/'.join(terms_list))采用全模式進(jìn)行分詞采用精確模式進(jìn)行分詞8.2.3
詞性標(biāo)注掌握詞性標(biāo)注的方式,能夠通過(guò)pos_tag()函數(shù)對(duì)英文文本進(jìn)行分詞標(biāo)注學(xué)習(xí)目標(biāo)8.2.3
詞性標(biāo)注詞性是對(duì)詞語(yǔ)分類(lèi)的一種方式?,F(xiàn)代漢語(yǔ)詞匯大致可以分為名詞、動(dòng)詞、形容詞、數(shù)詞、量詞、代詞、介詞、副詞、連詞、感嘆詞、助詞和擬聲詞這12種。英文詞匯可以分為名詞、形容詞、動(dòng)詞、代詞、數(shù)詞、副詞、介詞、連詞、冠詞和感嘆詞這10種。詞性概念8.2.3
詞性標(biāo)注詞性標(biāo)注,又稱(chēng)詞類(lèi)標(biāo)注,是指為分詞結(jié)果中的每個(gè)單詞標(biāo)注一個(gè)正確的詞性,也就是說(shuō)確定每個(gè)單詞是名詞、動(dòng)詞、形容詞或其它詞性的過(guò)程。詞性標(biāo)注概念I(lǐng)loveitcast人稱(chēng)代詞動(dòng)詞名詞8.2.3
詞性標(biāo)注通用詞性標(biāo)注集標(biāo)簽描述示例JJ形容詞special,high,goodRB副詞quickly,simply,hardlyCC條件連詞and,orDT限定詞the,aMD情態(tài)動(dòng)詞could,shouldNN單數(shù)名詞home,time,yearNNS復(fù)數(shù)名詞birds,dogs,flowersNNP專(zhuān)有名詞單數(shù)Africa,April,WashingtonCD基本數(shù)量詞twenty-one,second,19978.2.3
詞性標(biāo)注通用詞性標(biāo)注集標(biāo)簽描述示例PRP人稱(chēng)代詞I,you,he,shePRP$所有格代詞my,your,his,herIN介詞on,of,at,by,underTO不定詞howto,whattodoUH感嘆詞ah,ha,wow,ohVB動(dòng)詞原型see,listen,speak,runVBD動(dòng)詞過(guò)去時(shí)did,told,madeVBG動(dòng)名詞going,working,makingVBN動(dòng)詞過(guò)去分詞given,taken,begunWDTWH限定詞which,whatever8.2.3
詞性標(biāo)注詞性標(biāo)注方式在NLTK中,如果希望給單詞標(biāo)注詞性,則需要確保當(dāng)前環(huán)境中已經(jīng)下載了averaged_perceptron_tagger模塊,下載完后可以通過(guò)pos_tag()函數(shù)進(jìn)行標(biāo)注。words=nltk.word_tokenize('Pythonisastructuredandpowerfulobject-orientedprogramminglanguage.')nltk.pos_tag(words)8.2.4
詞形歸一化掌握詞形歸一化操作,能夠通過(guò)nltk.stem模塊實(shí)現(xiàn)詞形歸一化操作學(xué)習(xí)目標(biāo)8.2.4
詞形歸一化在英文中,一個(gè)單詞常常是另一個(gè)單詞的變種,比如looking是look這個(gè)單詞的一般進(jìn)行式,looked為一般過(guò)去式,這些都會(huì)影響語(yǔ)料庫(kù)學(xué)習(xí)的準(zhǔn)確度。一般在信息檢索和文本挖掘時(shí),需要對(duì)一個(gè)詞的不同形態(tài)進(jìn)行規(guī)范化,以提高文本處理的效率。8.2.4
詞形歸一化分類(lèi)詞干提取是指刪除不影響詞性的詞綴(包括前綴、后綴、中綴、環(huán)綴),得到單詞詞干的過(guò)程。與詞干提取相關(guān),不同的是能夠捕捉基于詞根的規(guī)范單詞形式。詞形還原(lemmatization)詞干提?。╯temming)8.2.4
詞形歸一化詞干提取nltk.stem模塊中提供了多種詞干提取器,目前最受歡迎的就是波特詞干提取器,它是基于波特詞干算法來(lái)提取詞干的,這些算法都集中在PorterStemmer類(lèi)中。fromnltk.stem.porterimportPorterStemmerporter_stem=PorterStemmer()porter_stem.stem('watched')porter_stem.stem('watching')1.
基于波特詞干提取器提取詞干8.2.4
詞形歸一化蘭卡斯特詞干提取器是一個(gè)迭代提取器,它具有超過(guò)120條規(guī)則說(shuō)明如何刪除或替換詞綴以獲得詞干。蘭卡斯特詞干提取器基于蘭卡斯特詞干算法,這些算法都封裝在LancasterStemmer類(lèi)中。fromnltk.stem.lancasterimportLancasterStemmerlancaster_stem=LancasterStemmer()lancaster_stem.stem('jumped')lancaster_stem.stem('jumping')詞干提取2.
基于蘭卡斯特提取器提取詞干8.2.4
詞形歸一化NLTK還支持其它的詞干器,比如SnowballStemmer,這個(gè)詞干器除了支持英文以外,還支持其他13種語(yǔ)言。fromnltk.stemimportSnowballStemmersnowball_stem=SnowballStemmer('english')snowball_stem.stem('listened')snowball_stem.stem('listening')必須接收一個(gè)表示語(yǔ)言的字符串詞干提取3.
基于其他提取器提取詞干8.2.4
詞形歸一化詞形還原詞形還原的過(guò)程與詞干提取非常相似,就是去除詞綴以獲得單詞的基本形式,不過(guò),這個(gè)基本形式稱(chēng)為根詞,而不是詞干。根詞始終存在于詞典中,詞干不一定是標(biāo)準(zhǔn)的單詞,它可能不存在于詞典中?!鵑LTK庫(kù)中使用WordNetLemmatizer類(lèi)封裝的功能獲得根詞,使用前需要確保已經(jīng)下載了wordnet語(yǔ)料庫(kù)。8.2.4
詞形歸一化詞形還原WordNetLemmatizer類(lèi)提供了一個(gè)lemmatize()方法,該方法通過(guò)比對(duì)wordnet語(yǔ)料庫(kù),并采用遞歸技術(shù)刪除詞綴,直至在詞匯網(wǎng)絡(luò)中找到匹配項(xiàng),最終返回輸入詞的基本形式。如果沒(méi)有找到匹配項(xiàng),則直接返回輸入詞,不做任何變化。fromnltk.stemimportWordNetLemmatizerwordnet_lem=WordNetLemmatizer()wordnet_lem.lemmatize('books')wordnet_lem.lemmatize('went')
wordnet_lem.lemmatize('did')1.
不指定詞性8.2.4
詞形歸一化詞形還原在通過(guò)lemmatize()方法進(jìn)行詞形還原時(shí),可以將表示詞性的字符串傳入pos參數(shù)。wordnet_lem.lemmatize('went',pos='v')2.
指定詞性wordnet_lem.lemmatize('did',pos='v')8.2.5
刪除停用詞掌握刪除停用詞操作,能夠通過(guò)stopwords模塊實(shí)現(xiàn)刪除停用詞的操作學(xué)習(xí)目標(biāo)8.2.5
刪除停用詞停用詞是指在信息檢索中,為節(jié)省存儲(chǔ)空間和提高搜索效率,在處理自然語(yǔ)言文本之前或之后會(huì)自動(dòng)過(guò)濾掉某些沒(méi)有具體意義的字或詞,這些字或詞即被稱(chēng)為停用詞。停用詞概念8.2.5
刪除停用詞停用詞處理方式停用詞的存在直接增加了文本的特征難度,提高了文本數(shù)據(jù)分析過(guò)程中的成本,如果直接用包含大量停用詞的文本作為分析對(duì)象,則還有可能會(huì)導(dǎo)致數(shù)據(jù)分析的結(jié)果存在較大偏差,通常在處理過(guò)程中會(huì)將它們從文本中刪除?!鶎?duì)于中文的停用詞表,可以參考中文停用詞庫(kù)、哈工大停用詞表、百度停用詞列表。※對(duì)于其它語(yǔ)言的停用詞表,可以到Ranks
NL官網(wǎng)進(jìn)行了解。8.2.5
刪除停用詞實(shí)現(xiàn)方式刪除停用詞常用的方法有詞表匹配法、詞頻閾值法和權(quán)重閾值法,NLTK庫(kù)所采用的就是詞表匹配法,它里面有一個(gè)標(biāo)準(zhǔn)的停用詞列表,在使用之前要確保已經(jīng)下載了stopwords語(yǔ)料庫(kù),并且用import語(yǔ)句導(dǎo)入stopwords模塊。fromnltk.corpusimportstopwordssentence='Pythonisastructuredandpowerfulobject-orientedprogramminglanguage.'words=nltk.word_tokenize(sentence)stop_words=stopwords.words('english')remain_words=[]forwordinwords:ifwordnotinstop_words:remain_words.append(word)remain_words文本情感分析8.38.3
文本情感分析熟悉文本情感分析,能夠通過(guò)多種方式實(shí)現(xiàn)簡(jiǎn)單的文本情感分析學(xué)習(xí)目標(biāo)8.3
文本情感分析文本情感分析,又稱(chēng)為傾向性分析和意見(jiàn)挖掘,是指對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過(guò)程。概念情感分析可以細(xì)分為情感極性分析、情感程度分析和主客觀分析等,其中情感極性分析主要是對(duì)文本進(jìn)行褒義、貶義、中性的判斷。分類(lèi)8.3
文本情感分析情感極性分析的兩種方法基于情感詞典的情感分析基于機(jī)器學(xué)習(xí)的情感分析8.3
文本情感分析基于情感詞典的情感分析最簡(jiǎn)單的情感極性分析的方法是情感字典,它主要通過(guò)制定一系列的情感詞典和規(guī)則,對(duì)文本進(jìn)行段落拆解、句法分析,并計(jì)算情感值,最終將情感值作為文本的情感傾向依據(jù)。1對(duì)文本進(jìn)行分詞操作,從中找出正向情感詞、負(fù)向情感詞、否定詞以及程度副詞。2如果情感詞前面有否定詞,則將情感詞的情感權(quán)值乘以-1;如果有程度副詞,就乘以程度值。3將所有得分加起來(lái),得分大于0的歸于正向,小于0的歸于負(fù)向。8.3
文本情感分析基于情感詞典的情感分析這款藍(lán)牙耳機(jī)的款式比較好看,操作也比較簡(jiǎn)單,不過(guò)音質(zhì)真的太爛了,耳塞戴著也不舒服。好看簡(jiǎn)單爛舒服+1+1-1+11.
找出正向情感詞、負(fù)向情感詞、否定詞以及程度副詞8.3
文本情感分析基于情感詞典的情感分析這款藍(lán)牙耳機(jī)的款式比較好看,操作也比較簡(jiǎn)單,不過(guò)音質(zhì)真的太爛了,耳塞戴著也不舒服。比較好看比較簡(jiǎn)單太爛不舒服+1*2+1*2-1*4+1*-12.
組合情感詞與否定詞或程度副詞8.3
文本情感分析基于情感詞典的情感分析這款藍(lán)牙耳機(jī)的款式比較好看,操作也比較簡(jiǎn)單,不過(guò)音質(zhì)真的太爛了,耳塞戴著也不舒服。比較好看比較簡(jiǎn)單太爛不舒服+1*2+1*2-1*4+1*-1情感分值-13.
根據(jù)分值判斷情感歸于正向或負(fù)向+1*2+1*2-1*4+1*-1=商品評(píng)價(jià)屬于一條差評(píng)8.3
文本情感分析基于情感詞典的情感分析基于情感詞典的情感分析雖然簡(jiǎn)單粗暴,但是非常實(shí)用,不過(guò)一旦遇到一些新詞或者特殊詞,就無(wú)法識(shí)別出來(lái),擴(kuò)展性非常不好。8.3
文本情感分析基于機(jī)器學(xué)習(xí)的情感分析基于機(jī)器學(xué)習(xí)的情感分析是先將目標(biāo)文本中的情感分為正、負(fù)兩類(lèi),或者是根據(jù)不同的情感程度劃分為1~5,然后對(duì)訓(xùn)練文本進(jìn)行人工標(biāo)注,進(jìn)行有監(jiān)督的機(jī)器學(xué)習(xí)過(guò)程。8.3
文本情感分析基于機(jī)器學(xué)習(xí)的情感分析樸素貝葉斯是經(jīng)典的機(jī)有監(jiān)督的機(jī)器學(xué)習(xí)算法之一,也是為數(shù)不多的基于概率論的分類(lèi)算法,它的思想是:對(duì)于給出的待分類(lèi)項(xiàng),求解在此項(xiàng)出現(xiàn)的條件下各個(gè)類(lèi)別出現(xiàn)的概率,哪個(gè)概率最大就認(rèn)為此待分類(lèi)項(xiàng)屬于哪個(gè)類(lèi)別。8.3
文本情感分析基于機(jī)器學(xué)習(xí)的情感分析nltk.classify是用類(lèi)別標(biāo)簽標(biāo)記的模塊,它內(nèi)置的NaiveBayesClassifier類(lèi)封裝了樸素貝葉斯分類(lèi)算法的功能,該類(lèi)中有一個(gè)類(lèi)方法train(),用于根據(jù)訓(xùn)練集來(lái)訓(xùn)練模型。train(cls,labeled_featuresets,estimator=ELEProbDist)上述方法中,labeled_featuresets參數(shù)表示分類(lèi)的特征集列表。文本相似度8.48.4
文本相似度熟悉文本相似度,可以結(jié)合
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年版回遷住宅買(mǎi)賣(mài)協(xié)議樣本版B版
- 2024年施工設(shè)計(jì)合同范本版B版
- 2024年度餐飲服務(wù)勞務(wù)分包公司管理規(guī)范合同3篇
- 志愿服務(wù)活動(dòng)計(jì)劃方案范文
- 中班月工作計(jì)劃
- 2022學(xué)校教學(xué)工作計(jì)劃
- 2025年中國(guó)連續(xù)纖維材料市場(chǎng)供需預(yù)測(cè)及投資戰(zhàn)略研究咨詢(xún)報(bào)告
- 房屋租賃合同范文合集十篇
- 《畫(huà)》-探索繪畫(huà)的奧秘與魅力
- 教師個(gè)人師德師風(fēng)學(xué)習(xí)計(jì)劃
- 醫(yī)藥行業(yè)合規(guī)培訓(xùn)
- 2024年低壓電工資格考試必考題庫(kù)及答案(共400題)
- 中南大學(xué)《大學(xué)物理C(3)(一)》2022-2023學(xué)年第一學(xué)期期末試卷
- 【MOOC】公司金融-江西財(cái)經(jīng)大學(xué) 中國(guó)大學(xué)慕課MOOC答案
- 2024新人教版英語(yǔ)七年級(jí)上單詞默寫(xiě)表(小學(xué)部分)
- 電力拖動(dòng)教學(xué)講義
- 世界衛(wèi)生組織人類(lèi)精液及精子-宮頸粘液相互作用實(shí)驗(yàn)室檢驗(yàn)手冊(cè)第五版
- MOOC 數(shù)字邏輯電路實(shí)驗(yàn)-東南大學(xué) 中國(guó)大學(xué)慕課答案
- 齊魯名家 談方論藥智慧樹(shù)知到期末考試答案2024年
- 南京工業(yè)大學(xué)橋梁工程課程設(shè)計(jì)
- 2024年華電甘肅大基地煤電分公司招聘筆試參考題庫(kù)含答案解析
評(píng)論
0/150
提交評(píng)論