信息資源組織與管理課件_第1頁
信息資源組織與管理課件_第2頁
信息資源組織與管理課件_第3頁
信息資源組織與管理課件_第4頁
信息資源組織與管理課件_第5頁
已閱讀5頁,還剩93頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

信息資源組織與管理劉啟華江西財經(jīng)大學qh_liu@163.com信息資源組織與管理劉啟華5評論挖掘與情感分析5評論挖掘與情感分析主要內(nèi)容5.1評論挖掘的產(chǎn)生背景5.2評論挖掘的應用5.3評論挖掘框架5.4一些有趣的研究主要內(nèi)容5.1評論挖掘的產(chǎn)生背景5.1評論挖掘的產(chǎn)生背景(1)隨著互聯(lián)網(wǎng)的發(fā)展,我們已經(jīng)進入了web2.0時代了,互聯(lián)網(wǎng)也逐漸倡導“以用戶為中心,用戶參與的”開放式構(gòu)架理念。互聯(lián)網(wǎng)用戶由單純的“讀”網(wǎng)頁,開始向“寫”網(wǎng)頁、“共同建設(shè)”互聯(lián)網(wǎng)發(fā)展,并由被動地接收互聯(lián)網(wǎng)信息向主動創(chuàng)造互聯(lián)網(wǎng)信息邁進。因此,互聯(lián)網(wǎng)上產(chǎn)生了大量的用戶參與的、對于諸如人物、事件、產(chǎn)品等有價值的評論信息。這些評論信息表達了人們的各種情感色彩和情感傾向性,如喜、怒、哀、樂和批評、贊揚等。5.1評論挖掘的產(chǎn)生背景(1)隨著互聯(lián)網(wǎng)的發(fā)展,我們已經(jīng)5.1評論挖掘的產(chǎn)生背景(2)但是,人工查找和利用這些評論信息成本很高。第一,網(wǎng)絡(luò)數(shù)據(jù)量巨大,通過搜索引擎無法滿足人們對主觀性信息的需求。第二,通過專業(yè)網(wǎng)站雖然可以收集到有限的主觀性信息,但還需要網(wǎng)民自己對這些信息進行分析和總結(jié)。5.1評論挖掘的產(chǎn)生背景(2)但是,人工查找和利用這些評5.1評論挖掘的產(chǎn)生背景(3)評論挖掘針對主觀性信息自動獲取有用的意見信息和知識。它通過信息抽取、情感分析、自然語言處理等手段,可以從大量的文本信息中識別和抽取主觀性觀點,比如口碑評價、輿情分析等。5.1評論挖掘的產(chǎn)生背景(3)評論挖掘針對主觀性信息自動5.2評論挖掘的應用(1)可視化的言論分析系統(tǒng)系統(tǒng)自動對其他消費者的評論進行統(tǒng)計分析,并將不同產(chǎn)品、不同特征的比較結(jié)果以一種可視化的形式展示出來,用戶就可以一目了然的掌握各種產(chǎn)品的優(yōu)點和缺點,從而更好的選擇自己喜好的產(chǎn)品?;谇楦械臋z索、推薦或問答系統(tǒng)這一類系統(tǒng)可以回答用戶以下問題,或為用戶檢索相應的文檔:大多數(shù)人是如何看待這個主題/特征的?誰對這個主題/特征持正面/負面的態(tài)度?他們的觀點是什么?他們?yōu)槭裁粗С诌@種觀點?5.2評論挖掘的應用(1)可視化的言論分析系統(tǒng)5.2評論挖掘的應用(2)評論挖掘的應用價值可以從消費者、企業(yè)和政府三個層面來體現(xiàn):、有助于消費者做出購買決策有助于企業(yè)進行網(wǎng)絡(luò)口碑營銷和競爭情報工作有助于政府了解輿情5.2評論挖掘的應用(2)評論挖掘的應用價值可以從消費者經(jīng)典案例:評論情感與股價之間的關(guān)聯(lián)社交媒體監(jiān)測平臺DataSift監(jiān)測了FacebookIPO當天Twitter上的情感傾向與Facebook股價波動的關(guān)聯(lián)。例如,在Facebook開盤前Twitter上的情感逐漸轉(zhuǎn)向負面,25分鐘之后,Facebook的股價便開始下跌。而當Twitter上的情感轉(zhuǎn)向正面時,F(xiàn)acebook股價在8分鐘之后也開始了回彈。最終,當股市接近收盤時,Twitter上的情感轉(zhuǎn)向負面,10分鐘后Facebook的股價又開始下跌。最終的結(jié)論是:Twitter上每一次情感傾向的轉(zhuǎn)向都會影響Facebook股價的波動,延遲情況只有幾分鐘到20多分鐘.經(jīng)典案例:評論情感與股價之間的關(guān)聯(lián)社交媒體監(jiān)測平臺DataSFacebookIPO當天Twitter上的情感傾向與Facebook股價波動的關(guān)聯(lián)FacebookIPO當天Twitter上的情感傾向與Fa5.3評論挖掘框架5.3.1在線評論的表現(xiàn)形式5.3.2在線評論的分類與度量5.3.3在線評論抽象模型5.3.4評論挖掘的基本步驟5.3評論挖掘框架5.3.1在線評論的表現(xiàn)形式5.3.1在線評論的表現(xiàn)形式

5.3.1在線評論的表現(xiàn)形式

在線評論的表現(xiàn)形式(1)在線評論的表現(xiàn)形式(1)在線評論的表現(xiàn)形式(2)在線評論的表現(xiàn)形式(2)在線評論的表現(xiàn)形式(3)在線評論的表現(xiàn)形式(3)在線評論的表現(xiàn)形式(4)在線評論的表現(xiàn)形式(4)在線評論的表現(xiàn)形式(5)在線評論的表現(xiàn)形式(5)5.3.2在線評論的分類與度量(1)在線評論的分類根據(jù)情感傾向,在線評論可以分為正面評論、負面評論和一般性評論;根據(jù)評論是否具有固定的格式,在線評論可以分為格式評論和自由式評論;根據(jù)評論的表現(xiàn)形式,在線評論可以分為文字評論、評分和混合評論……5.3.2在線評論的分類與度量(1)在線評論的分類5.3.2在線評論的分類與度量(2)在線評論的度量方法數(shù)量情感傾向離散度指評論在不同群組之間的分散程度。如果一個評論信息在不同群落之間的分布越分散,消費者就越容易獲得該評論信息。5.3.2在線評論的分類與度量(2)在線評論的度量方法5.3.3在線評論抽象模型三元模型五元模型六元模型5.3.3在線評論抽象模型三元模型三元模型評論挖掘的抽象模型可以用三元組來表示,即<意見持有者,對象,意見>,評論挖掘的任務是確定三元組中的三個元素。意見持有者:發(fā)表意見的人或者組織對象:意見持有者表達意見的受事,這可能包括產(chǎn)品、服務、話題、人物、事件等。意見:意見持有者關(guān)于對象的觀點、看法、態(tài)度、評分等。三元模型評論挖掘的抽象模型可以用三元組來表示,即<意見持有者五元模型(1)同一段文本中往往論述了多個對象或?qū)ο蟮亩鄠€特征,其中可能對某些特征的評價是正面的,對某些特征的評價是負面的,或者某些評價僅僅是對不同對象/特征的比較,還有時是引用了其他人的言論,然后表示贊同和反對。五元模型(1)同一段文本中往往論述了多個對象或?qū)ο蟮亩鄠€特征五元模型(2)對象特征表示特征的詞稱為特征詞,比如特征詞“外型”描述洗衣機的特征“外觀”。由于表述豐富多樣,多個特征詞可以表達同一個特征,它們之間互稱為同義特征詞,比如“外形、“樣子”也可以描述汽車的特征“動力性”情感極性正面、負面、中性意見持有者發(fā)表意見時間五元模型(2)對象六元模型(1)五元模型并未涉及情感極性強度。情感極性強度是衡量評論的重要指標,它進一步顯示出意見持有者的喜好程度和偏好情況,具有重要的研究價值。例:“TCL洗衣機好用!”例:“海爾洗衣機十分好用!”顯然,這兩句話表達的情感極性強度是不相同的。六元模型(1)五元模型并未涉及情感極性強度。情感極性強度是衡六元模型(2)對象特征情感極性情感極性強度意見持有者發(fā)表意見時間六元模型(2)對象5.3.4評論挖掘的基本步驟

5.3.4評論挖掘的基本步驟

商品評論挖掘框架HuM.andLiuB.MiningOpinionFeaturesinCustomerReviews[C].InProeeedingsoftheAAAI’04,Califorlia,USA,2004,pp.755-760商品評論挖掘框架HuM.andLiuB.Minin評論挖掘通用框架寇廣增.基于意見挖掘通用框架的情感極性強度模糊性研究,博士論文,武漢大學,2010評論挖掘通用框架寇廣增.基于意見挖掘通用框架的情感極性強度模5.3.4評論挖掘的基本步驟主題和數(shù)據(jù)集選擇特征和情感詞選擇情感傾向(極性)判斷應用下面,我們以“基于意見挖掘通用框架的情感極性強度模糊性研究”提供的實驗為例,簡要介紹一下各個部分的主要內(nèi)容。5.3.4評論挖掘的基本步驟主題和數(shù)據(jù)集選擇主題和數(shù)據(jù)集選擇實驗系統(tǒng)將主題選擇為洗衣機,數(shù)據(jù)來源為京東商城中顧客關(guān)于多款型號的洗衣機發(fā)表的評論。主題和數(shù)據(jù)集選擇實驗系統(tǒng)將主題選擇為洗衣機,數(shù)據(jù)來源為京東商特征和情感詞選擇詞頻統(tǒng)計法詞頻統(tǒng)計法認為被頻繁提及的特征是最受關(guān)注的,也是核心特征,將它們組合為特征體系反映了最普遍的看法。在技術(shù)實現(xiàn)上也最為簡單,只需要計算出候選特征的詞頻即可。但是它只能篩選出了最受關(guān)注的特征,而忽略了特征體系的全面性,可能會造成特征數(shù)量少,覆蓋率低的問題。在小規(guī)模的應用中,可以采用此方法?;谟斜O(jiān)督機器學習基于有監(jiān)督機器學習的方法將人工標注的語料庫作為訓練集,在數(shù)據(jù)集中運用機器學習算法識別出特征和情感詞,然后再組合成為特征體系。它有效的解決了詞頻統(tǒng)計法覆蓋率低的問題,技術(shù)實現(xiàn)稍為復雜。特征和情感詞選擇詞頻統(tǒng)計法基于詞頻統(tǒng)計選擇特征基于詞頻統(tǒng)計選擇特征基于詞頻統(tǒng)計選擇情感詞基于詞頻統(tǒng)計選擇情感詞基于有監(jiān)督機器學習的方法(1)標注語料庫構(gòu)建語料庫是有監(jiān)督機器學習的根本,關(guān)于情感分析的標注語料庫,國內(nèi)外已經(jīng)有多個著名的語料庫,但大多是文檔級別的。Blog06語料庫美國國會辯論發(fā)言語料庫康內(nèi)爾大學電影評論語料庫美國芝加哥伊利諾大學消費者評論語料庫Economining語料庫……基于有監(jiān)督機器學習的方法(1)標注語料庫構(gòu)建基于有監(jiān)督機器學習的方法(2)洗衣機語料標注實例1)##:表示句子開始,##后面的句子是原始語句。例句:價格便宜,功能能滿足普通使用要求京東的服務比較到位感覺滿意。標注:##價格便宜,功能能滿足普通使用要求京東的服務比較到位感覺滿意。2)[+|-]:+、-表示特征的極性,+表示正面評價,-表示負面評價。例句:價格便宜,功能能滿足普通使用要求京東的服務比較到位感覺滿意。標注:價格[+],功能[+],服務[+]##價格便宜,功能能滿足普通使用要求京東的服務比較到位感覺滿意。基于有監(jiān)督機器學習的方法(2)洗衣機語料標注實例基于有監(jiān)督機器學習的方法(3)有監(jiān)督學習方法將特征和情感詞選擇看作是一個機器學習問題,從標注語料庫中學習出規(guī)則對生語料進行分類,達到特征和情感詞選擇的目的。機器學習中的多種分類算法,比如決策樹、貝葉斯、序列模式等算法,都可以作為有監(jiān)督學習中的分類算法。基于有監(jiān)督機器學習的方法(3)有監(jiān)督學習方法將特征和情感詞選序列模式挖掘算法序列模式挖掘或稱序列挖掘,是從序列數(shù)據(jù)庫中發(fā)現(xiàn)相對時間或者其他順序所出現(xiàn)的高頻率子序列。比如運用序列模式算法查看100000條顧客的商場購買記錄。在這些數(shù)據(jù)中,有一個序列頻繁出現(xiàn):(1)購買電腦;(2)購買殺毒軟件;(3)購買電腦內(nèi)存。那么可以得到規(guī)則,如:當客戶購買了電腦之后,60%的可能會再購買殺毒軟件,30%的可能性在后來購買內(nèi)存,為電腦升級。序列模式挖掘算法序列模式挖掘或稱序列挖掘,是從序列數(shù)據(jù)庫中發(fā)運用序列模式選擇特征運用序列模式選擇特征洗衣機語料的特征體系和指示詞列表洗衣機語料的特征體系和指示詞列表信息資源組織與管理課件情感傾向判斷在特征體系和情感詞集合確定之后,情感傾向判斷將不再是無本之木。以特征體系和情感詞集合作為基礎(chǔ)進行情感傾向判斷,最為簡單和直接的方式是進行匹配識別:在數(shù)據(jù)集中找出同時出現(xiàn)特征詞和情感詞的句子,按照情感詞的極性進行情感傾向計算。這種方式實現(xiàn)簡單,但是準確率低。在實踐中,可以對其進行改進以提高準確率。情感傾向判斷在特征體系和情感詞集合確定之后,情感傾向判斷將不應用應用評分細節(jié)評分細節(jié)關(guān)注度趨勢圖(2009年11月)可以了解到,2009年11月此款洗衣機的關(guān)注度在11月10日至11月16日較為集中。關(guān)注度趨勢圖(2009年11月)可以了解到,2009口碑趨勢圖(2009年11月)從圖中可以了解到,“松下XQB60-P620U6”洗衣機的正面口碑和負面口碑的總體變化情況趨向一致,正面口碑總體強于負面口碑??诒厔輬D(2009年11月)從圖中可以了解到,“松下X多對象評論情感得分對比多對象評論情感得分對比洗衣機“噪音”排行榜洗衣機“噪音”排行榜綜合排行榜綜合排行榜5.4一些有趣的研究輿論領(lǐng)導者的識別和影響評論順序的影響垃圾評論的識別評論信息的可信度和網(wǎng)絡(luò)水軍識別商品缺陷識別刷單行為識別5.4一些有趣的研究輿論領(lǐng)導者的識別和影響信息資源組織與管理劉啟華江西財經(jīng)大學qh_liu@163.com信息資源組織與管理劉啟華5評論挖掘與情感分析5評論挖掘與情感分析主要內(nèi)容5.1評論挖掘的產(chǎn)生背景5.2評論挖掘的應用5.3評論挖掘框架5.4一些有趣的研究主要內(nèi)容5.1評論挖掘的產(chǎn)生背景5.1評論挖掘的產(chǎn)生背景(1)隨著互聯(lián)網(wǎng)的發(fā)展,我們已經(jīng)進入了web2.0時代了,互聯(lián)網(wǎng)也逐漸倡導“以用戶為中心,用戶參與的”開放式構(gòu)架理念?;ヂ?lián)網(wǎng)用戶由單純的“讀”網(wǎng)頁,開始向“寫”網(wǎng)頁、“共同建設(shè)”互聯(lián)網(wǎng)發(fā)展,并由被動地接收互聯(lián)網(wǎng)信息向主動創(chuàng)造互聯(lián)網(wǎng)信息邁進。因此,互聯(lián)網(wǎng)上產(chǎn)生了大量的用戶參與的、對于諸如人物、事件、產(chǎn)品等有價值的評論信息。這些評論信息表達了人們的各種情感色彩和情感傾向性,如喜、怒、哀、樂和批評、贊揚等。5.1評論挖掘的產(chǎn)生背景(1)隨著互聯(lián)網(wǎng)的發(fā)展,我們已經(jīng)5.1評論挖掘的產(chǎn)生背景(2)但是,人工查找和利用這些評論信息成本很高。第一,網(wǎng)絡(luò)數(shù)據(jù)量巨大,通過搜索引擎無法滿足人們對主觀性信息的需求。第二,通過專業(yè)網(wǎng)站雖然可以收集到有限的主觀性信息,但還需要網(wǎng)民自己對這些信息進行分析和總結(jié)。5.1評論挖掘的產(chǎn)生背景(2)但是,人工查找和利用這些評5.1評論挖掘的產(chǎn)生背景(3)評論挖掘針對主觀性信息自動獲取有用的意見信息和知識。它通過信息抽取、情感分析、自然語言處理等手段,可以從大量的文本信息中識別和抽取主觀性觀點,比如口碑評價、輿情分析等。5.1評論挖掘的產(chǎn)生背景(3)評論挖掘針對主觀性信息自動5.2評論挖掘的應用(1)可視化的言論分析系統(tǒng)系統(tǒng)自動對其他消費者的評論進行統(tǒng)計分析,并將不同產(chǎn)品、不同特征的比較結(jié)果以一種可視化的形式展示出來,用戶就可以一目了然的掌握各種產(chǎn)品的優(yōu)點和缺點,從而更好的選擇自己喜好的產(chǎn)品。基于情感的檢索、推薦或問答系統(tǒng)這一類系統(tǒng)可以回答用戶以下問題,或為用戶檢索相應的文檔:大多數(shù)人是如何看待這個主題/特征的?誰對這個主題/特征持正面/負面的態(tài)度?他們的觀點是什么?他們?yōu)槭裁粗С诌@種觀點?5.2評論挖掘的應用(1)可視化的言論分析系統(tǒng)5.2評論挖掘的應用(2)評論挖掘的應用價值可以從消費者、企業(yè)和政府三個層面來體現(xiàn):、有助于消費者做出購買決策有助于企業(yè)進行網(wǎng)絡(luò)口碑營銷和競爭情報工作有助于政府了解輿情5.2評論挖掘的應用(2)評論挖掘的應用價值可以從消費者經(jīng)典案例:評論情感與股價之間的關(guān)聯(lián)社交媒體監(jiān)測平臺DataSift監(jiān)測了FacebookIPO當天Twitter上的情感傾向與Facebook股價波動的關(guān)聯(lián)。例如,在Facebook開盤前Twitter上的情感逐漸轉(zhuǎn)向負面,25分鐘之后,Facebook的股價便開始下跌。而當Twitter上的情感轉(zhuǎn)向正面時,F(xiàn)acebook股價在8分鐘之后也開始了回彈。最終,當股市接近收盤時,Twitter上的情感轉(zhuǎn)向負面,10分鐘后Facebook的股價又開始下跌。最終的結(jié)論是:Twitter上每一次情感傾向的轉(zhuǎn)向都會影響Facebook股價的波動,延遲情況只有幾分鐘到20多分鐘.經(jīng)典案例:評論情感與股價之間的關(guān)聯(lián)社交媒體監(jiān)測平臺DataSFacebookIPO當天Twitter上的情感傾向與Facebook股價波動的關(guān)聯(lián)FacebookIPO當天Twitter上的情感傾向與Fa5.3評論挖掘框架5.3.1在線評論的表現(xiàn)形式5.3.2在線評論的分類與度量5.3.3在線評論抽象模型5.3.4評論挖掘的基本步驟5.3評論挖掘框架5.3.1在線評論的表現(xiàn)形式5.3.1在線評論的表現(xiàn)形式

5.3.1在線評論的表現(xiàn)形式

在線評論的表現(xiàn)形式(1)在線評論的表現(xiàn)形式(1)在線評論的表現(xiàn)形式(2)在線評論的表現(xiàn)形式(2)在線評論的表現(xiàn)形式(3)在線評論的表現(xiàn)形式(3)在線評論的表現(xiàn)形式(4)在線評論的表現(xiàn)形式(4)在線評論的表現(xiàn)形式(5)在線評論的表現(xiàn)形式(5)5.3.2在線評論的分類與度量(1)在線評論的分類根據(jù)情感傾向,在線評論可以分為正面評論、負面評論和一般性評論;根據(jù)評論是否具有固定的格式,在線評論可以分為格式評論和自由式評論;根據(jù)評論的表現(xiàn)形式,在線評論可以分為文字評論、評分和混合評論……5.3.2在線評論的分類與度量(1)在線評論的分類5.3.2在線評論的分類與度量(2)在線評論的度量方法數(shù)量情感傾向離散度指評論在不同群組之間的分散程度。如果一個評論信息在不同群落之間的分布越分散,消費者就越容易獲得該評論信息。5.3.2在線評論的分類與度量(2)在線評論的度量方法5.3.3在線評論抽象模型三元模型五元模型六元模型5.3.3在線評論抽象模型三元模型三元模型評論挖掘的抽象模型可以用三元組來表示,即<意見持有者,對象,意見>,評論挖掘的任務是確定三元組中的三個元素。意見持有者:發(fā)表意見的人或者組織對象:意見持有者表達意見的受事,這可能包括產(chǎn)品、服務、話題、人物、事件等。意見:意見持有者關(guān)于對象的觀點、看法、態(tài)度、評分等。三元模型評論挖掘的抽象模型可以用三元組來表示,即<意見持有者五元模型(1)同一段文本中往往論述了多個對象或?qū)ο蟮亩鄠€特征,其中可能對某些特征的評價是正面的,對某些特征的評價是負面的,或者某些評價僅僅是對不同對象/特征的比較,還有時是引用了其他人的言論,然后表示贊同和反對。五元模型(1)同一段文本中往往論述了多個對象或?qū)ο蟮亩鄠€特征五元模型(2)對象特征表示特征的詞稱為特征詞,比如特征詞“外型”描述洗衣機的特征“外觀”。由于表述豐富多樣,多個特征詞可以表達同一個特征,它們之間互稱為同義特征詞,比如“外形、“樣子”也可以描述汽車的特征“動力性”情感極性正面、負面、中性意見持有者發(fā)表意見時間五元模型(2)對象六元模型(1)五元模型并未涉及情感極性強度。情感極性強度是衡量評論的重要指標,它進一步顯示出意見持有者的喜好程度和偏好情況,具有重要的研究價值。例:“TCL洗衣機好用!”例:“海爾洗衣機十分好用!”顯然,這兩句話表達的情感極性強度是不相同的。六元模型(1)五元模型并未涉及情感極性強度。情感極性強度是衡六元模型(2)對象特征情感極性情感極性強度意見持有者發(fā)表意見時間六元模型(2)對象5.3.4評論挖掘的基本步驟

5.3.4評論挖掘的基本步驟

商品評論挖掘框架HuM.andLiuB.MiningOpinionFeaturesinCustomerReviews[C].InProeeedingsoftheAAAI’04,Califorlia,USA,2004,pp.755-760商品評論挖掘框架HuM.andLiuB.Minin評論挖掘通用框架寇廣增.基于意見挖掘通用框架的情感極性強度模糊性研究,博士論文,武漢大學,2010評論挖掘通用框架寇廣增.基于意見挖掘通用框架的情感極性強度模5.3.4評論挖掘的基本步驟主題和數(shù)據(jù)集選擇特征和情感詞選擇情感傾向(極性)判斷應用下面,我們以“基于意見挖掘通用框架的情感極性強度模糊性研究”提供的實驗為例,簡要介紹一下各個部分的主要內(nèi)容。5.3.4評論挖掘的基本步驟主題和數(shù)據(jù)集選擇主題和數(shù)據(jù)集選擇實驗系統(tǒng)將主題選擇為洗衣機,數(shù)據(jù)來源為京東商城中顧客關(guān)于多款型號的洗衣機發(fā)表的評論。主題和數(shù)據(jù)集選擇實驗系統(tǒng)將主題選擇為洗衣機,數(shù)據(jù)來源為京東商特征和情感詞選擇詞頻統(tǒng)計法詞頻統(tǒng)計法認為被頻繁提及的特征是最受關(guān)注的,也是核心特征,將它們組合為特征體系反映了最普遍的看法。在技術(shù)實現(xiàn)上也最為簡單,只需要計算出候選特征的詞頻即可。但是它只能篩選出了最受關(guān)注的特征,而忽略了特征體系的全面性,可能會造成特征數(shù)量少,覆蓋率低的問題。在小規(guī)模的應用中,可以采用此方法?;谟斜O(jiān)督機器學習基于有監(jiān)督機器學習的方法將人工標注的語料庫作為訓練集,在數(shù)據(jù)集中運用機器學習算法識別出特征和情感詞,然后再組合成為特征體系。它有效的解決了詞頻統(tǒng)計法覆蓋率低的問題,技術(shù)實現(xiàn)稍為復雜。特征和情感詞選擇詞頻統(tǒng)計法基于詞頻統(tǒng)計選擇特征基于詞頻統(tǒng)計選擇特征基于詞頻統(tǒng)計選擇情感詞基于詞頻統(tǒng)計選擇情感詞基于有監(jiān)督機器學習的方法(1)標注語料庫構(gòu)建語料庫是有監(jiān)督機器學習的根本,關(guān)于情感分析的標注語料庫,國內(nèi)外已經(jīng)有多個著名的語料庫,但大多是文檔級別的。Blog06語料庫美國國會辯論發(fā)言語料庫康內(nèi)爾大學電影評論語料庫美國芝加哥伊利諾大學消費者評論語料庫Economining語料庫……基于有監(jiān)督機器學習的方法(1)標注語料庫構(gòu)建基于有監(jiān)督機器學習的方法(2)洗衣機語料標注實例1)##:表示句子開始,##后面的句子是原始語句。例句:價格便宜,功能能滿足普通使用要求京東的服務比較到位感覺滿意。標注:##價格便宜,功能能滿足普通使用要求京東的服務比較到位感覺滿意。2)[+|-]:+、-表示特征的極性,+表示正面評價,-表示負面評價。例句:價格便宜,功能能滿足普通使用要求京東的服務比較到位感覺滿意。標注:價格[+],功能[+],服務[+]##價格便宜,功能能滿足普通使用要求京東的服務比較到位感覺滿意?;谟斜O(jiān)督機器學習的方法(2)洗衣機語料標注實例基于有監(jiān)督機器學習的方法(3

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論