版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第10章評論文本數(shù)據(jù)的情感分析華南理工大學(xué)廣州學(xué)院思維導(dǎo)圖【開篇思考】小米董事長兼CEO雷軍在2017年“哈佛中國論壇”的演講中表示,互聯(lián)網(wǎng)不僅僅是技術(shù),更是從商業(yè)的角度教會企業(yè)如何能夠做到極致的用戶體驗,如何能做到極致的運作效率。在新零售O2O的驅(qū)動下,小米開始嘗試用互聯(lián)網(wǎng)的方法做實體零售業(yè),發(fā)現(xiàn)和電商成本差不多,甚至還更低。于是小米采用了線上線下相結(jié)合的模式。目前小米已經(jīng)設(shè)立了70多家“小米之家”,目標(biāo)是三年之內(nèi)開到1000家,五年之內(nèi)收入突破100億美元。通過小米之家,小米連接了客戶,與互聯(lián)網(wǎng)緊密結(jié)合,讓用戶參與設(shè)計。小米堅信“不懂用戶就沒有設(shè)計”,所以要求員工去泡論壇、發(fā)微博,不斷跟用戶交流,傾聽用戶的聲音,讓用戶參與產(chǎn)品、營銷的設(shè)計,這是小米商業(yè)模式的基礎(chǔ);同時堅持以用戶反饋來驅(qū)動開發(fā),大家公認的設(shè)計才是好設(shè)計。這種力量是循環(huán)互動的,當(dāng)你很認真地對待用戶的時候,用戶也會用心地對待你。小米是怎樣通過線上線下相結(jié)合的方式去了解客戶的,客戶又是利用什么渠道參與、體驗和設(shè)計小米手機的?目錄4商品評論文本分析的步驟和流程商品品論文本數(shù)據(jù)挖掘目標(biāo)電商評論文本的數(shù)據(jù)采集評論文本數(shù)據(jù)的預(yù)處理文本分析模型的構(gòu)建10.1商品品論文本數(shù)據(jù)挖掘目標(biāo)電商平臺激烈競爭的大背景下,除了提高商品質(zhì)量、壓低商品價格外,了解更多消費者的心聲對于電商平臺來說也變得越來越有必要,其中非常重要的方式就是對消費者的文本評論數(shù)據(jù)進行內(nèi)在信息的數(shù)據(jù)挖掘分析。評論信息中蘊含著消費者對特定產(chǎn)品和服務(wù)的主觀感受,反映了人們的態(tài)度、立場和意見,具有非常寶貴的研究價值。針對電子商務(wù)平臺上的商品評論進行文本數(shù)據(jù)挖掘的目標(biāo)一般如下:分析商品的用戶情感傾向,了解用戶的需求、意見、購買原因;從評論文本中挖掘商品的優(yōu)點與不足,提出改善產(chǎn)品的建議;提煉不同品牌的商品賣點。目錄6商品評論文本分析的步驟和流程商品品論文本數(shù)據(jù)挖掘目標(biāo)電商評論文本的數(shù)據(jù)采集評論文本數(shù)據(jù)的預(yù)處理文本分析模型的構(gòu)建10.2商品評論文本分析的步驟和流程10.2商品評論文本分析的步驟和流程電商商品評論文本分析的步驟和流程如圖10.1所示,主要包括以下步驟:①電商平臺商品評論的數(shù)據(jù)采集;②商品評論數(shù)據(jù)的預(yù)處理,包括文本去重、機械壓縮去詞、短句刪除、文本分詞等操作;③文本評論數(shù)據(jù)經(jīng)過處理后,選擇適當(dāng)?shù)姆治瞿P瓦M行分析;④從對應(yīng)結(jié)果的分析中獲取文本評論數(shù)據(jù)中有價值的內(nèi)容。目錄9商品評論文本分析的步驟和流程商品品論文本數(shù)據(jù)挖掘目標(biāo)電商評論文本的數(shù)據(jù)采集評論文本數(shù)據(jù)的預(yù)處理文本分析模型的構(gòu)建10.3商品評論文本的數(shù)據(jù)采集網(wǎng)絡(luò)爬蟲工具R語言/Python語言等程序火車采集器目錄11商品評論文本分析的步驟和流程商品品論文本數(shù)據(jù)挖掘目標(biāo)電商評論文本的數(shù)據(jù)采集評論文本數(shù)據(jù)的預(yù)處理文本分析模型的構(gòu)建10.4評論文本數(shù)據(jù)的預(yù)處理文本去重檢查是否是默認文本是否是評論人重復(fù)復(fù)制黏貼的內(nèi)容是否引用了其他人的評論機械壓縮去詞例如:“好好好好好好好好好好”->“好”短句刪除原本過短的評論文本例如:很“好好好好好好好好好好”->“好”機械壓縮去詞后過短的評論文本例如:“好好好好好好好好好好”->“好”評論分詞分詞是中文文本信息處理的基礎(chǔ)環(huán)節(jié)。在進行中文文本挖掘時,首先應(yīng)對文本分詞,即將
連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。目錄13商品評論文本分析的步驟和流程商品品論文本數(shù)據(jù)挖掘目標(biāo)電商評論文本的數(shù)據(jù)采集評論文本數(shù)據(jù)的預(yù)處理文本分析模型的構(gòu)建10.5文本分析模型構(gòu)建情感傾向性分析語義網(wǎng)絡(luò)分析基于LDA模型的主題分析10.5.1情感傾向性分析
(1)基于情感詞表進行情感詞匹配
要對評論情感傾向進行分析,首先對情感詞進行匹配,主要采用詞典匹配的方法。2007年10月22日知網(wǎng)發(fā)布的《情感分析用詞語集(beta版)》,包括“中文正面評價”、“中文負面評價”、“中文正面情感”、“中文負面情感”詞表。例如“滿意”“好評”“很快”等為正面情感詞表,“差評”“貴”“高”“漏水”等為中文負面情感詞表。(2)對情感詞的傾向進行修正情感傾向修正主要根據(jù)情感詞前面兩個位置的詞語是否存在否定詞來判斷情感值的正確與否,常用的19個否定詞:不、沒、無、非、莫、弗、毋、未、否、別、休、不是、不能、不可、沒有、不用、不要、從沒、不太。(3)對情感分析結(jié)果進行檢驗對于匹配好的情感詞,可以通過詞云來檢驗情感分析效果,例如:正面情感評論詞云例子如圖所示?!安诲e”“滿意”“好評”等正面情感詞出現(xiàn)的頻數(shù)較高,并且沒有摻雜負面情感的詞語,可以看出,情感分析能較好地將正面情感評論抽取出來。詞云10.5.2語義網(wǎng)絡(luò)分析評論的語義網(wǎng)絡(luò)分析對象是消費者在評論中對產(chǎn)品獨有優(yōu)勢、產(chǎn)品抱怨點以及顧客購買原因等。在此基礎(chǔ)上,并結(jié)合前面的分析對品牌產(chǎn)品的改進提出建議。這個階段主要通過不同產(chǎn)品或不同型號的好評、差評文本數(shù)據(jù)生成的語義網(wǎng)絡(luò)圖,結(jié)合共詞矩陣以及評論定向篩選回查完成對評論的分析。語義網(wǎng)絡(luò)是由R.F.Simon提出的用于理解自然語言并獲取認知的概念,是一種語言的概念及關(guān)系的表達。語義網(wǎng)絡(luò)實際上就是一幅有向網(wǎng)絡(luò)圖,例如,“小明給小華一本書”的語義網(wǎng)絡(luò)如圖10.5所示。10.5.2語義網(wǎng)絡(luò)示分析基于語義網(wǎng)絡(luò)進行評論分析的特點要想對中文評論進行合理的分析必須要采取的一項措施是分詞,因為計算機不可能像人一樣去識別每一個整句的語義,不能直接識別語句的整體結(jié)構(gòu)思想,但是分詞又會使得語句的整體結(jié)構(gòu)變得凌亂,從而對分詞后的語句直接進行諸如產(chǎn)品差異等復(fù)雜的分析變得不合實際,所以必須要采取方法盡可能地將這種原已凌亂的關(guān)系重新整合起來,使得復(fù)雜的分析重新變?yōu)榭赡芾纾耗碂崴鞯奶攸c是安裝方便,但是通過分詞后形成了“安裝”、“方便”兩個獨立的詞,單獨去看,可以產(chǎn)生不同的理解,安裝可以是安裝很容易,也可以是有師傅上門安裝等等。當(dāng)這種語義網(wǎng)絡(luò)建立起來后,就可以借助它進行各種各樣的特定的分析,特別是在判斷特定產(chǎn)品優(yōu)點、抽取各品牌的顧客關(guān)注點等上都具有一定的優(yōu)勢。10.5.2語義網(wǎng)絡(luò)示分析10.5.3基于LDA模型的主題分析LDA是由Blei等在2003年提出的生成式主題模型。生成模型,即認為每一篇文檔的每一個詞都是通過“一定的概率選擇了某個主題,并從這個主題中以一定的概率選擇了某個詞語”。LDA模型也被稱為三層貝葉斯概率模型,包含文檔(d)、主題(Z)、詞(w)三層結(jié)構(gòu),能夠有效地對文本進行建模,和傳統(tǒng)的空間向量模型(VSM)相比,增加了概率的信息。通過LDA主題模型,能夠挖掘數(shù)據(jù)集中的潛在主題,進而分析數(shù)據(jù)集的集中關(guān)注點及其相關(guān)特征詞。例如,選取差評中的一則評論:“售后服務(wù)差極了,不買他們的材料不給安裝,還謊稱免費安裝,其實要收挺貴的安裝費,十分不合理。這也算了,安裝費之前說200元,安好之后要400元,更貴了,更加不合理,不管是安裝師傅自己還是美的規(guī)定,都是很差很差的體驗,我看其他人的了,一樣的安裝,比別人貴的安裝費。而且安裝師傅做事粗糙.態(tài)度粗魯”。在這則評論中,“安裝費”和“安裝師傅”在這則評論中出現(xiàn)頻率較高,可作為潛在主題。同時,可以得到潛在主題上特征詞的概率分布情況,反映潛在主題“安裝費”的特征詞包括“貴”、“不合理”,反映“安裝師傅”的特征詞包括“粗糙”、“粗魯”。本章小結(jié)本章重點介紹了評論文本數(shù)據(jù)的情感挖掘分析步驟、預(yù)處理方法包括文本去重、機械壓縮去詞、短句刪除、文本分詞等,并重點解釋了情感傾向性分析、語義網(wǎng)絡(luò)分析和基于LDA模型的主題分析三個主要的情感分析算法的原理及使用方法?!緦嶒炁c思考】1.實驗?zāi)康?/p>
(1)學(xué)習(xí)運用八爪魚軟件對文本數(shù)據(jù)進行采集。
(2)學(xué)習(xí)運用R語言對文本數(shù)據(jù)做數(shù)據(jù)清洗(預(yù)處理)。
(3)學(xué)習(xí)運用R語言中的jeibaR程序包對文本做分詞處理。2.工具/準(zhǔn)備工作
開始本實驗之前,請認真閱讀課程的相關(guān)內(nèi)容。
準(zhǔn)備一臺可以上網(wǎng)的計算機或者移動設(shè)備?!緦嶒炁c思考】3.實驗內(nèi)容與步驟1)數(shù)據(jù)采
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度個人消費貸款保證擔(dān)保協(xié)議范本4篇
- 2025年度個人二手房出售與貸款擔(dān)保合同2篇
- 小學(xué)生數(shù)學(xué)問題解決能力的多維度培養(yǎng)
- 2025年度個人公司股權(quán)代持爭議解決合同2篇
- 2025版施工現(xiàn)場消防安全保衛(wèi)與應(yīng)急管理合同3篇
- 小學(xué)生網(wǎng)絡(luò)安全意識的提升途徑
- 海南2025年海南醫(yī)科大學(xué)第一附屬醫(yī)院招聘206人筆試歷年參考題庫附帶答案詳解
- 2025年度智能農(nóng)業(yè)管理系統(tǒng)個人股東股權(quán)轉(zhuǎn)讓協(xié)議書3篇
- 課外活動對學(xué)生創(chuàng)新能力的促進作用研究
- 2025年粵教滬科版必修2歷史下冊月考試卷含答案
- 2024年全國統(tǒng)一考試高考新課標(biāo)Ⅱ卷數(shù)學(xué)試題(真題+答案)
- 2024山西省文化旅游投資控股集團有限公司招聘筆試參考題庫附帶答案詳解
- 科普知識進社區(qū)活動總結(jié)與反思
- 加油站廉潔培訓(xùn)課件
- 現(xiàn)金日記賬模板(帶公式)
- 消化內(nèi)科??票O(jiān)測指標(biāo)匯總分析
- 2023屆上海市松江區(qū)高三下學(xué)期二模英語試題(含答案)
- 深圳市物業(yè)專項維修資金管理系統(tǒng)操作手冊(電子票據(jù))
- 混凝土結(jié)構(gòu)工程施工質(zhì)量驗收規(guī)范
- 2023年鐵嶺衛(wèi)生職業(yè)學(xué)院高職單招(數(shù)學(xué))試題庫含答案解析
- 起重機械安裝吊裝危險源辨識、風(fēng)險評價表
評論
0/150
提交評論