版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大數(shù)據(jù)在電子商務(wù)中的應(yīng)用——在線評(píng)論信息挖掘1.引言
隨著互聯(lián)網(wǎng)的發(fā)展和普及,Web已經(jīng)成為用戶在線反饋觀點(diǎn)的主要途徑。 網(wǎng)絡(luò)購(gòu)物、論壇發(fā)表意見(jiàn)無(wú)形中已經(jīng)成為了大多數(shù)網(wǎng)友上網(wǎng)的樂(lè)趣,而網(wǎng)絡(luò)機(jī)構(gòu)也開始意識(shí)到通過(guò)提供在線評(píng)論能夠增加與用戶的互動(dòng),獲得自身的改進(jìn)。 然而面對(duì)網(wǎng)上海量的良莠不齊的信息和數(shù)據(jù),企業(yè)、政府和用戶要想從在線評(píng)論中獲得有用的信息,只有通過(guò)人工閱讀的方式來(lái)獲取,這不僅需要耗費(fèi)大量的時(shí)間,而且極易產(chǎn)生錯(cuò)誤。
網(wǎng)民焦點(diǎn)話題
消費(fèi)經(jīng)驗(yàn)經(jīng)濟(jì)發(fā)展趨勢(shì)
在線評(píng)論用戶體驗(yàn)評(píng)論對(duì)像特征在線評(píng)論社會(huì)輿論導(dǎo)向
在線評(píng)論的挖掘研究在線評(píng)論的挖掘研究自然語(yǔ)言處理
數(shù)據(jù)挖掘
機(jī)器學(xué)習(xí)信息抽取2.現(xiàn)狀I(lǐng)SIWebofScience相關(guān)文獻(xiàn)33733篇JournalofInteractiveMarketing、DecisionSupportSystems熱點(diǎn)問(wèn)題情感分析
評(píng)論中產(chǎn)品特征挖掘
評(píng)論中產(chǎn)品特征挖掘情感分析評(píng)論中主觀內(nèi)容識(shí)別等評(píng)論挖掘作為非結(jié)構(gòu)化信息挖掘的一個(gè)信息領(lǐng)域
英文評(píng)論領(lǐng)域,研究者已經(jīng)初步取得一些成果,而針對(duì)中文網(wǎng)絡(luò)評(píng)論的研究仍然處于起步階段。目前,關(guān)于此問(wèn)題的研究,國(guó)外研究者主要是從對(duì)網(wǎng)絡(luò)評(píng)論信息特征的主觀觀點(diǎn)、評(píng)論的情感性分析及評(píng)論信息的可信度方面研究。
在中國(guó)知網(wǎng)(CNKI)上檢索(主題=中英文擴(kuò)展(網(wǎng)絡(luò)評(píng)論)或主題=中英文擴(kuò)展(在線評(píng)論)),檢索結(jié)果為934條。Hu等利用從亞馬遜及Barnes&Noble(全球第二大網(wǎng)上書店,僅次于第一名亞馬遜)得來(lái)的圖書評(píng)論信息來(lái)證明目前存在部分出版商、作者及賣家有意操縱評(píng)論信息的情況,其研究結(jié)果表明大多消費(fèi)者會(huì)根據(jù)商品價(jià)格來(lái)判斷商品質(zhì)量,商家在不進(jìn)行有意的評(píng)論操縱或者銷售質(zhì)量較高的產(chǎn)品更容易改變消費(fèi)中的購(gòu)買傾向性,由此建議可以通過(guò)增加操縱成本來(lái)緩和消費(fèi)者被操縱產(chǎn)生的不良后果。Wang等選擇采用半監(jiān)督-交叉訓(xùn)練方法,以迭代的方式挖掘評(píng)論對(duì)象和評(píng)價(jià)詞,通過(guò)樸素貝葉斯分類器在只有很少標(biāo)注的語(yǔ)料的前提下取得結(jié)果。郭國(guó)慶等引入了霍夫蘭德在耶魯大學(xué)提出的基于信息傳播過(guò)程的說(shuō)服或態(tài)度改變模型,在模型本身提出的信息源、信息內(nèi)容、接收者三個(gè)方面的基礎(chǔ)上,加入社會(huì)因素,提出了在線評(píng)論可信度影響因素模型,并以第三方評(píng)論網(wǎng)站為例,進(jìn)行了實(shí)證研究。3.在線評(píng)論信息挖掘方法觀點(diǎn)句識(shí)別在線評(píng)論要素抽取情感傾向性分析垃圾評(píng)論識(shí)別評(píng)論信息可信度分析在線評(píng)論信息挖掘技術(shù)方法
基于知識(shí)規(guī)則方法基于機(jī)器學(xué)習(xí)的方法當(dāng)前具有代表性的研究方法
3.1基于知識(shí)規(guī)則方法該方法用于在線評(píng)論情感傾向性分析是,通?;谝粋€(gè)預(yù)先定義的情感詞典,如WordNet、HowNet等詞表,統(tǒng)計(jì)整個(gè)句子中的情感詞的傾向性,進(jìn)而得到句子的情感傾向。上海交通大學(xué)的婁德成等通過(guò)手工對(duì)HowNet包含的所有詞條進(jìn)行傾向性標(biāo)注,并從網(wǎng)絡(luò)上選取一定量的極性次于作為種子集合,得到了數(shù)量可觀的褒貶次于字典,字典中不包含的新詞,通過(guò)計(jì)算新詞與種子集合中次于的互信息而得到新詞的語(yǔ)義傾向。對(duì)于意見(jiàn)持有者的識(shí)別,Stoyanov采用命名實(shí)體識(shí)別的方法,將意見(jiàn)持有者看作一個(gè)實(shí)體,通過(guò)選擇相同實(shí)體的意見(jiàn)持有者以解決互指問(wèn)題;Kim等首先通過(guò)分析句子的句法結(jié)構(gòu)識(shí)別動(dòng)詞或形容詞等帶有情感傾向的詞語(yǔ),在借助FrameNet標(biāo)注其情感角色以識(shí)別出主題、意見(jiàn)持有者等信息。3.1基于知識(shí)規(guī)則方法基于知識(shí)的規(guī)則方法中通常還基于自然語(yǔ)言語(yǔ)義理解,使用句法分析方法從評(píng)論的文本結(jié)構(gòu)分析定義一系列規(guī)則或模板,對(duì)文本的情感傾向性進(jìn)行分析。例如,Nasukawa等借助一個(gè)句法剖析其進(jìn)行語(yǔ)義分析并且取得了較高的準(zhǔn)確率。Wilson開創(chuàng)了在短語(yǔ)層面進(jìn)行主觀性分析的研究工作,在他們將文檔按特征分為詞匯特征、修飾特征、句子特征、結(jié)構(gòu)特征和文檔特征五個(gè)類別,基于這五個(gè)特征集合構(gòu)造了一個(gè)分類器,在細(xì)粒度主觀性分析任務(wù)中完成得很好。劉鴻宇等通過(guò)分析情感劇舉行,歸納相應(yīng)的規(guī)則進(jìn)行傾向性的判斷?;谡Z(yǔ)義理解和句法分析方法的準(zhǔn)確率和召回率較高,但定義推理規(guī)則需要花費(fèi)成本較高。3.1基于知識(shí)規(guī)則方法基于知識(shí)的規(guī)則方法在小規(guī)模測(cè)試時(shí)效果較好,速度快。但是,人為編寫規(guī)則需要語(yǔ)言專家對(duì)語(yǔ)言規(guī)則進(jìn)行升入的理解,在此基礎(chǔ)上編寫規(guī)則,構(gòu)造規(guī)則對(duì)語(yǔ)言知識(shí)要求較高,需要很大的人力、財(cái)力。另外,規(guī)則較多時(shí)還會(huì)引起規(guī)則之間的沖突,各語(yǔ)言間移植困難、通用性不強(qiáng)。3.2基于機(jī)器學(xué)習(xí)的方法雙擊添加標(biāo)題文字主要考慮如何利用少量的標(biāo)注樣本和大量的未標(biāo)注樣本進(jìn)行訓(xùn)練和分類的問(wèn)題今年來(lái)模式識(shí)別和機(jī)器學(xué)習(xí)領(lǐng)域研究的重點(diǎn)問(wèn)題,是監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)相結(jié)合的一種學(xué)習(xí)方法對(duì)減少標(biāo)注代價(jià),提高機(jī)器學(xué)習(xí)性能具有非常重大的實(shí)際意義機(jī)器學(xué)習(xí)領(lǐng)域
半監(jiān)督學(xué)習(xí)semi-supervisedlearning
監(jiān)督學(xué)習(xí)
無(wú)監(jiān)督學(xué)習(xí)
3.2基于機(jī)器學(xué)習(xí)的方法通常使用支持向量機(jī)(supportvectormachines,SVM)、隱馬爾可夫模型(hiddenmarkovmodel,HMM)最大熵(ME)等回歸方法、序列標(biāo)注方法進(jìn)行在線評(píng)論信息挖掘。Akshay和Durant使用SVM進(jìn)行情感分類。Pang等在2002年使用包括樸素貝葉斯、最大熵和SVM等多種機(jī)器學(xué)習(xí)方法,使用文本分類中常用的unigram(單個(gè)word)、bigram(雙word)和詞性等作為基本特征對(duì)電影評(píng)論進(jìn)行了分類。Sakvetti等采用隱馬爾可夫模型結(jié)合詞性特征,對(duì)電影評(píng)論和產(chǎn)品評(píng)論進(jìn)行分類。McDonald等把句子的褒貶標(biāo)記看作一個(gè)情感劉問(wèn)題,并利用條件隨機(jī)場(chǎng)(conditionalrandomfields,CRFs)模型來(lái)給篇章中的每個(gè)句子打分,把句子級(jí)的褒貶標(biāo)記和章篇級(jí)的褒貶標(biāo)記放到一個(gè)圖模型下求全局最優(yōu),該方法不僅考慮了句子的上下文關(guān)系,并且考慮了篇章的整體情感傾向性。3.2基于機(jī)器學(xué)習(xí)的方法線性CRFs模型用于傾向性分析沒(méi)有考慮褒貶標(biāo)記間的層級(jí)關(guān)系以及所包含的冗余信息,例如,強(qiáng)烈褒義和一
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 思考引領(lǐng)方向青春奮進(jìn)新時(shí)代
- 工程合同到期如何移交資料
- 二零二五年度二手房買賣合同糾紛仲裁協(xié)議3篇
- 2025版杭州租賃市場(chǎng)房屋租賃保險(xiǎn)合作協(xié)議3篇
- 【模板】員工培訓(xùn)小故事課件
- 二零二五年共享托盤供應(yīng)鏈金融合作協(xié)議3篇
- 商業(yè)地產(chǎn)合作協(xié)議書(2篇)
- 二零二五年度房產(chǎn)析產(chǎn)及財(cái)產(chǎn)分配執(zhí)行合同3篇
- 二零二五年度房地產(chǎn)開發(fā)項(xiàng)目安全消防治安環(huán)保保障合同3篇
- 二零二五年度BIM技術(shù)在建筑項(xiàng)目運(yùn)營(yíng)維護(hù)中的應(yīng)用合同樣本2篇
- 人民醫(yī)院財(cái)務(wù)科工作流程圖
- 雙減作業(yè)分層設(shè)計(jì)-六年級(jí)上冊(cè)語(yǔ)文分層作業(yè)設(shè)計(jì)案例09《竹節(jié)人》課課練含答案
- 壓瘡診療與護(hù)理規(guī)范
- 錦鯉中國(guó)風(fēng)鯉魚吉祥好運(yùn)通用大氣PPT模板
- 燃?xì)鈽I(yè)務(wù)代辦授權(quán)書模板
- 侵襲性肺部真菌感染的診斷標(biāo)準(zhǔn)以及治療基本原則
- 與齒輪相關(guān)的英語(yǔ)詞匯總結(jié)
- 單層鋼結(jié)構(gòu)工業(yè)廠房縱向定位軸線的定位
- 粉體工程第六章粉碎過(guò)程及設(shè)備
- 洪水計(jì)算(推理公式法)
- GMW系列往復(fù)式給料機(jī)說(shuō)明書
評(píng)論
0/150
提交評(píng)論