微博情感分析研究與實(shí)現(xiàn)_第1頁(yè)
微博情感分析研究與實(shí)現(xiàn)_第2頁(yè)
微博情感分析研究與實(shí)現(xiàn)_第3頁(yè)
微博情感分析研究與實(shí)現(xiàn)_第4頁(yè)
微博情感分析研究與實(shí)現(xiàn)_第5頁(yè)
已閱讀5頁(yè),還剩52頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

我本及其研究工作是由本人在導(dǎo)師指導(dǎo)下獨(dú)立完成的在完成時(shí)所利用的一切資料均已在參考文獻(xiàn)中列出。 時(shí)間:20146ResearchandImplementationof ysisonWeiboAuthor:LiDiTutor:NiuWiththedevelopmentoftheInternet,anincreasingnumberofpeoplesharetheiremotionstatusesorattitudesononlinesocialwebsites,leadingtoanexplosiveriseonthescaleofdataontheInternet.Miningsentimentinformationbehinddatahelpspeopleknowaboutpublicopinionstoaproductortopic.Byngthis,negativeattitudeandemotioncsobedetectedsothatorganizationsorernmentscantakemeasuresintime.Textimentysisisabasicresearchareainnaturallanguageprocessing.Atpresentmostofsentimentyzingalgorithmsbuildsupervisedmachinelearningmodelsbyextractingtextfeaturesfromtexts.Textfeaturesismuchrelativetothearea,structurefeatureoftexts,soitisnecessarytoselectfeaturesconsideringthecharacteristicsofthecorpus.Whenselectingmachinelearningmodels,itisalsoimportanttouseanadaptingclassificationorregressionInthispaperasentimentysisalgorithmadaptingtoWeibodataisproposedbasedonLDAtopicmodelandSVRmachinelearningmethod.GiventhataWeibopostisusuallyshort,textfeaturesbasedonstructureorstatisticsaredeprecated.Andtakingtopicsandsemanticinformationbehindtextsintoconsideration,LDAmodelisusedtogeneratetextfeatures.Todecidethesentimentpolaranddegree,SVRmodelisusedhere.ExperimentshowsthealgorithmperformswellonWeibodata.Finally,avisualizingapplicationisdesignedandimplementedtofacilitateyzingdatawhosesentimentattitudehasbeenlabeled.Userscanknowabouttheopiniontrendsyzingatopicoruserinthis:publicopinionmonitoring,sentimentysis,textclassification, 緒 選題背景及意 國(guó)內(nèi)外研究現(xiàn) 機(jī)器學(xué)習(xí)的應(yīng) 情感資源的構(gòu) 研究目標(biāo)及內(nèi) 組織結(jié) 相關(guān)概念和理 支持向量 SVM原 SVM的優(yōu)勢(shì)和不 LDA模 文檔生成過(guò) 參數(shù)估 分詞算 基于詞典的分詞算 統(tǒng)計(jì)分詞算 本章小 情感分析算 算法概 算法過(guò) 整體框 分詞及文本預(yù)處 特征抽取與LDA模型的應(yīng) SVR回歸與參數(shù)選 實(shí) 數(shù)據(jù) 實(shí)驗(yàn)結(jié)果及分 結(jié) 本章小 可視化分析系統(tǒng)設(shè)計(jì)與實(shí) 需求概 相關(guān)技 設(shè)計(jì)實(shí) 數(shù)據(jù)分析接口實(shí) 應(yīng)用實(shí) 系統(tǒng)效 本章小 結(jié)束 致 參考文 社會(huì)對(duì)此支持或的態(tài)度,從而有助于對(duì)特定話題的情緒做出及時(shí)的,實(shí)現(xiàn)監(jiān)測(cè)的目的。最終本課題將以一個(gè)可視化的方式將分析結(jié)果展現(xiàn)出來(lái)。特征抽包括詞語(yǔ)、短語(yǔ)、語(yǔ)法結(jié)構(gòu)、等。tf-idf等算法[1]中有著廣泛的應(yīng)用。然而Pang等人有關(guān)情感分析的實(shí)驗(yàn)[2]卻表明,在情感分析類特征。一個(gè)常用的方法是基于n元語(yǔ)法模型的假設(shè)抽取特征,也就是將n個(gè)詞的共現(xiàn)Pang等人的n元語(yǔ)法模型,Riloff等人構(gòu)建了一個(gè)特征而Airoldi等人則采用毯和啟發(fā)搜索策略來(lái)構(gòu)建類似的詞語(yǔ)依賴結(jié)構(gòu)[6]。Kudo等人的研究[7]中,基于詞語(yǔ)依賴樹在情感分析中和情感有著一定的聯(lián)系Mullen等人對(duì)與相關(guān)的各種文本屬性進(jìn)行研究[11],并據(jù)此將文本中對(duì)的進(jìn)行標(biāo)記。而Kim等人[12]則利用類似的標(biāo)記,將句子分解歸納為不同的模式,并將這些模式作為n元詞模型特征。實(shí)驗(yàn)證明使用這樣的特征比使用普通n10%。數(shù)據(jù)標(biāo)交內(nèi)容等同時(shí)也出現(xiàn)了許多更為通用的語(yǔ)言數(shù)據(jù)庫(kù)(如ordNet,情感分析的研究工作也從理論階段了數(shù)據(jù)驅(qū)動(dòng)的實(shí)驗(yàn)階段。在收集數(shù)據(jù)的過(guò),許多數(shù)據(jù)都包含有顯式的情感特(如評(píng)論中的用戶評(píng)分因而也就不需要人工標(biāo)注數(shù)據(jù)了。學(xué)習(xí)模型進(jìn)行了對(duì)比實(shí)驗(yàn)。最早的對(duì)比實(shí)驗(yàn)始于Pang等人對(duì)樸素、支持向量機(jī)領(lǐng)域適應(yīng)Dave等人利用一種特定領(lǐng)佳。而Engstr?m等人則證明情感分類的準(zhǔn)確率會(huì)受到文本的影響[20]。Owsley等人也針對(duì)特定的訓(xùn)練分類模型的重要性[21]。Aue等人的探索[22]Yang等人給出了一些領(lǐng)域無(wú)關(guān)的特征[23],利用這些特征可以構(gòu)建領(lǐng)域無(wú)關(guān)的情感分類模型。而Blitzer等人也基于相似的思想,從不同的領(lǐng)域中提取共同的特征[24],于基準(zhǔn)算法相比46%。然后針對(duì)每個(gè)具體的進(jìn)行情感分析[25]。這兩步可以同時(shí)進(jìn)行[26][27],也可以分步非監(jiān)督學(xué)2002年分析算法[32]2008Zagibalov等人在Turney算法[30]的基礎(chǔ)上進(jìn)行改進(jìn),大幅度提高了中文情感分析的準(zhǔn)確度[33]2009年,Li等人嘗試使用矩陣分解進(jìn)行情地構(gòu)建更為豐富、領(lǐng)域和相關(guān)的情感詞典。1997年,Hatzivassiloglou等人就提出了一種通過(guò)分析形容詞情感,并基于語(yǔ)言學(xué)啟發(fā)規(guī)則的詞典擴(kuò)充算法[37]。算法首先標(biāo)注一部分形容詞作為集,然后再大使用詞語(yǔ)進(jìn)行詞典擴(kuò)充是許多詞典構(gòu)建算法使用的思想,但的算法則通過(guò)種半監(jiān)督學(xué)習(xí)算法的思想是,首先使用一個(gè)初始的分類模型構(gòu)建詞語(yǔ),然后再通過(guò)監(jiān)督學(xué)習(xí)的方法構(gòu)建新的分類模型從而標(biāo)注的詞語(yǔ)Rioff等人采用這種思想對(duì)形容詞的語(yǔ)言特征進(jìn)行了研究[9],KajiHTML文檔進(jìn)行了標(biāo)注和人們所的的情感傾向反映,故本課題的研究重點(diǎn)在于根據(jù)人們的分析其中為使本課題順利進(jìn)行,首先需要從互聯(lián)網(wǎng)中獲得人們的信息。獲得大量的數(shù)據(jù)研究監(jiān)測(cè)提供了一種解決方案。將情感趨勢(shì)、態(tài)勢(shì)等信息呈現(xiàn)在人們面前。后,提出了研究的具體內(nèi)容和目標(biāo)。第二章詳細(xì)介紹了本文情感分析算法的理論基礎(chǔ)。主要介紹了支持向量(SVM 1995年提出。當(dāng)時(shí)的統(tǒng)計(jì)學(xué)習(xí)理論的實(shí)現(xiàn)和神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)方SVMVC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)理論的基礎(chǔ)上的。VC維較小,即置信風(fēng)險(xiǎn)較小,但同時(shí)SVM分(b), (a)線性可分的數(shù)據(jù) (b)線性不可分的數(shù)據(jù)圖2.1 對(duì)于線性SVM分類模型而言,給定若干n中的數(shù)據(jù)點(diǎn),存在很多超平面將:??(??)=?????+ 這里??代表n中的數(shù)據(jù)點(diǎn)。一般而言,一個(gè)點(diǎn)距離超平面的遠(yuǎn)近可以表示為|??????|可以相對(duì)的表示點(diǎn)到超???=??(?????+??)= 其中??代表類別,通常用+1和-1???=????=???????+??

???????

??.??.????(???

+??)≥1,??=1,2,…, ??????1‖??‖2??.??.??(???

+??)≥1,??=1,2,…, ????=

0的????,對(duì)應(yīng)的????就是支持向量(2.2,對(duì)于那些????0對(duì)應(yīng)的????,圖 核函數(shù)與非線性分有些情況下,將數(shù)據(jù)抽象為n中的數(shù)據(jù)點(diǎn)之后,會(huì)出現(xiàn)線性不可分的情況,這種情況下需要支持向量機(jī)模型通過(guò)一個(gè)函數(shù)將輸入的數(shù)據(jù)點(diǎn)到一個(gè)特征空間使得數(shù)據(jù)點(diǎn)在這個(gè)空間中線性可分這樣一來(lái)就可以在這個(gè)空間中使用線性分類問(wèn)題的求解方法來(lái)對(duì)數(shù)據(jù)點(diǎn)進(jìn)行分類。假定存在這樣一個(gè)??,將n中的點(diǎn)????到空間中的點(diǎn)??(????),使得 ??(??)=?????(??)+??=

??????????(????)???(??)+

個(gè)五。如果使用類似的方法進(jìn)行,那么對(duì)于原始空間是三維的情況下,后的空間將高達(dá)19維。這種后維度的迅速增長(zhǎng),使得新空間中數(shù)據(jù)點(diǎn)之間的內(nèi)積將空間中的內(nèi)積運(yùn)算轉(zhuǎn)化為原低中的內(nèi)積運(yùn)算,即:???(??1),??(??2)?=??(??1, 這樣一來(lái),就避免了直接在空間中進(jìn)行內(nèi)積計(jì)算時(shí)帶來(lái)的極高復(fù)雜度。核函數(shù)的實(shí)質(zhì)是一種隱式,它將變換后的空間中的內(nèi)積隱式到原空間中,從而使得內(nèi)積可以直接在原低中計(jì)算而不需要顯示寫出空間變換結(jié)果后進(jìn)行計(jì)算實(shí)際上,然而對(duì)于任意一個(gè)空間,手工構(gòu)造核函數(shù)是十分的事情。因而在實(shí)際情況線性核函數(shù)??(??1??2)=??1???2+多項(xiàng)式核函數(shù)??(??1??2)=(????1???2+‖???核函數(shù)??(??1??2)=??????

雙曲正切核函數(shù)??(??1??2)=???????(????1???2+這些核函數(shù)有各自不同的特點(diǎn)。如核函數(shù)會(huì)將原始空間到無(wú)窮,同時(shí)可以通過(guò)調(diào)節(jié)參數(shù)來(lái)調(diào)節(jié)高次項(xiàng)的衰度,從而在無(wú)區(qū)分和過(guò)擬合之間尋找平衡。而雙曲正切函數(shù)來(lái)源于神經(jīng)網(wǎng)絡(luò)理論,當(dāng)SVM模型使用此核函數(shù)時(shí),整個(gè)模型實(shí)際上SVR回干n中的數(shù)據(jù)點(diǎn)模型試圖找到一個(gè)超平面使得盡量多的數(shù)據(jù)點(diǎn)落在超平面上,??????1‖??‖2??.??.|???2

+???????|≤??,??=1,2,…, 此問(wèn)題的約束條件使得任何點(diǎn)(????????)到超平面??(??)=?????+??的相對(duì)距離不超過(guò)??。有時(shí)很難用一個(gè)超平面將所有點(diǎn)擬合,這時(shí)候就需要用一個(gè)空間變換函數(shù)將數(shù)據(jù)點(diǎn)到空間中。同樣地,為了簡(jiǎn)化空間中的內(nèi)積運(yùn)算,引入核函數(shù)進(jìn)行隱式內(nèi)積變SVM不足就是大規(guī)模數(shù)據(jù)時(shí),其訓(xùn)練模型的計(jì)算復(fù)雜度非常高?;赟MO等方法求解Shalev-Shwartz等人曾提出Pegasos這一線性時(shí)間復(fù)雜度的求解方法[53],但其在實(shí)際實(shí)驗(yàn)中的效率并不比SMO方法好。在實(shí)際應(yīng)用中,上有一個(gè)PSVM開源項(xiàng)目,利LDA2003年Blei等人提出了LDA(LatentDirichletAllocation)模型[54],它是一種模型。模型是自然語(yǔ)言處理領(lǐng)域一種用于發(fā)現(xiàn)文檔背后所包含的的統(tǒng)計(jì)模型。對(duì)于一篇文檔而言,其可能包含一到多種,并且每個(gè)所占的比例不同。而這些同。模型能夠通過(guò)統(tǒng)計(jì)學(xué)方法給出在某篇文檔中所占的比例。、LDA模型是一種無(wú)監(jiān)督學(xué)習(xí)算法它以出現(xiàn)概率來(lái)表示在文檔中所占的比例。LDA模型的優(yōu)勢(shì)在于不需要被標(biāo)注的訓(xùn)練數(shù)據(jù)可以直接得出文檔與的概率矩陣。目前在自然語(yǔ)言處理領(lǐng)域,LDA模型在文本分類提取、文本相似度計(jì)算等方面都有著廣泛的應(yīng)用。下面將具體介紹LDA模型的構(gòu)建過(guò)程和相關(guān)算法。、LDA模型的文檔生成過(guò)程基于可能會(huì)有完全不同的意思。為了解決這一問(wèn)題,LDA模型加入了的概念,首先將文檔與相聯(lián)系,然后再將和文本相對(duì)應(yīng)。同時(shí),LDA模型認(rèn)為文檔與、形式化地講,在一個(gè)包含若干文檔的數(shù)據(jù)集中,每一篇文檔對(duì)應(yīng)于一個(gè)??個(gè)的多項(xiàng)式分布,記該分布為??。而每個(gè)又與組成所有文檔的單詞的一個(gè)多項(xiàng)式分布相別有一個(gè)包含超參數(shù)??和??的雷先驗(yàn)分布。據(jù)此LDA模型所定義的文檔生成模型根據(jù)雷分布??生成文檔i關(guān)于的一個(gè)分布根據(jù)分布????生成文檔i第j個(gè)詞的根據(jù)雷分布??生 ????,??關(guān)于詞語(yǔ)的一個(gè)分布根據(jù)詞語(yǔ)分布??????,??生 ????,??所對(duì)應(yīng)的文檔i的第j個(gè)詞語(yǔ)ββαθzwNM圖 ??(????,????,????,????|??,??)=

??(????|??)??(????,??|????)??

|??)??

??(????|??,??)=∫??

∑??????(????,????,????,??????|??,

最終根據(jù)??(????|??,??)(1)EM算于這樣一個(gè)問(wèn)題可以使用EM算法求解EM算法中給定一個(gè)聯(lián)合分布??(??,??|??),其中??為觀測(cè)變量,??為隱含變量,??為參數(shù),算法將求解似然函數(shù)??(??|??)LDA模型而言,給定的聯(lián)合分布為文檔的單詞分布??(??????|????),待估計(jì)參數(shù)為????(???,???)=????????????

??(????|??,

設(shè)定參數(shù)??和??E步驟:計(jì)算聯(lián)合分布??(??|??????M(????????,????????)=????????????∑????(??|????,????????,????????)ln??(????,??|??,

然而在實(shí)際計(jì)算過(guò),E步驟中的后驗(yàn)概率計(jì)算非常。為了計(jì)算這一概率,通常采用變分推理來(lái)進(jìn)行近似計(jì)算。在這一過(guò),通過(guò)計(jì)算??和??來(lái)近似似然函數(shù):??(??,??|??,??)=??(??|??)

(???,???)=????????????????(??(??,??|??,??)||??(??,??|????,??, (2)Gibbs采樣算EM算法雖然可以求解LDAGibbs采樣。Gibbs采樣省去了繁瑣的似然函數(shù)計(jì)算,而是通過(guò)迭代的方式不初始時(shí)對(duì)所有文檔中的每個(gè)詞語(yǔ)進(jìn)行遍歷,并為每個(gè)詞語(yǔ)隨機(jī)分配一個(gè),對(duì)于第文檔mn個(gè)詞,即有分布:????,??= 其中??代表的總數(shù)。設(shè)

分別表示文檔m中k出現(xiàn)的歷過(guò)統(tǒng)計(jì)它們的數(shù)值。之后反復(fù)進(jìn)行迭代:對(duì)所有文檔中的每個(gè)詞進(jìn)行遍歷,若當(dāng)前文檔m的詞t為k,則對(duì)

分別減1,之后根據(jù)LDA中采樣的概率分采樣得到新的,并在對(duì)應(yīng)的

,??)∝(??(??)+??)(??(??)+

+??

最終迭代停止時(shí),可以得到文檔-矩陣??和-詞語(yǔ)矩陣

=(??(??)+

=(??(??)+??

+??

??

Gibbs采樣也有其不足之處。其最重要的不足之處在于無(wú)法自動(dòng)停止迭代,也就是迭代而對(duì)于文本情感分析而言,對(duì)語(yǔ)料進(jìn)行正確的分詞,是后續(xù)研究過(guò)重要的基礎(chǔ)。分基于詞典的分詞算法實(shí)質(zhì)上就是通過(guò)匹配文本中的字符串和詞典中的詞來(lái)實(shí)現(xiàn)分算加入一些啟發(fā)式規(guī)則來(lái)提高算法的精度比“正向最大匹配“反向最他/將來(lái)//找/工作收錄而通常情況下又需要將這些詞準(zhǔn)確地識(shí)別并區(qū)分開來(lái)比如““”斷更新字典這所耗費(fèi)的人力過(guò)于巨大并且難以實(shí)現(xiàn)對(duì)于未登錄詞的識(shí)別基于詞典的算法往往具有天生的劣勢(shì)在實(shí)際分詞過(guò)這類詞語(yǔ)往往會(huì)被拆分為單個(gè)的字,這嚴(yán)重影響了分詞的效果,從而對(duì)后續(xù)文本的分析工作產(chǎn)生影響。形式化地來(lái)說(shuō),信息熵可被認(rèn)為是系統(tǒng)不確定性(程度)的度量,熵值越大,系統(tǒng)越。一個(gè)X值域?yàn)閧??1,??2,…,????}的隨量的熵值H定義為:??(??)= 其中E為期望函數(shù),I為X的信息量。信息量是用來(lái)衡量單一隨即變量發(fā)生時(shí)所含

??(??)=log

=?log ??(??)=??(??(??))=?∑??∈????(??)log

0≤??(??)≤ |??|是X的取值個(gè)數(shù),上式僅當(dāng)X滿足均勻分布(如圖2.4所示)圖 X的均勻分因而識(shí)別新詞的問(wèn)題,就成為求得可使信息熵最大化的X常用的統(tǒng)計(jì)分詞學(xué)習(xí)模型是CRF模型[55]和隱模型[56]。過(guò)需要大量的人力。此外,這種算法訓(xùn)練模型所消耗的時(shí)間往往較多,實(shí)現(xiàn)復(fù)雜,CRF模在概率論中,由樣本空間Ω任意取樣構(gòu)成的隨量????的集合??={??1,??2,…,????},對(duì)(RF時(shí),研究隨機(jī)場(chǎng)才有實(shí)際的意義。若隨量????服從具有馬爾可夫性質(zhì)的全聯(lián)合概率分(MRF如果給定一個(gè)馬爾可夫隨機(jī)場(chǎng),其中每個(gè)隨量y下面還有觀察值x,我們要確(CRF布形式,只不過(guò)多了一個(gè)觀察集合X。所以條件隨機(jī)場(chǎng)的本質(zhì)上是給定了觀察值集合的中X表示輸入的單個(gè)字符組成的序列(觀列,Y表示對(duì)應(yīng)輸出的分詞序列(狀態(tài)??(????|??,??1,…,?????1,????+1,…,????)=??(????|??,?????1,????+1) ,對(duì)于觀列的標(biāo)注,可以以“詞語(yǔ)開始“詞語(yǔ)中間“詞語(yǔ)結(jié)束”等標(biāo)記來(lái)隱模模型(HMM)使一種概率模型,可以表示為??=(??????????)S為隱藏狀態(tài)集合,集合大小為V為觀測(cè)符號(hào)集合,集合大小為A為狀態(tài)轉(zhuǎn)移概率矩陣,既從狀態(tài)sisjBsj到觀測(cè)符號(hào)vk??為初始狀態(tài)概率分布,大小為此外,定義Q和O分別是隱藏狀態(tài)集合S和觀測(cè)符號(hào)V有關(guān)于時(shí)序t隱模型包含兩個(gè)基本假設(shè)t的狀態(tài)值????依賴與實(shí)是模型假設(shè)的延伸。t的觀測(cè)????只依賴與該時(shí)刻的馬爾可夫鏈的隱藏在分詞過(guò),隱模型主要通過(guò)以下幾步來(lái)完成分詞模型的構(gòu)建并使用模計(jì)算概率。即給定模型??=(??,??,??)和觀列??(??1,??2,…,????),計(jì)算在模型??下的觀列O出現(xiàn)的可能性,即求??(??|??)。學(xué)習(xí)模型已知已經(jīng)發(fā)生的觀列??(??1,??2,…,????),估計(jì)模型??=(??,??,??)的參數(shù),使得在該模型下O出現(xiàn)的可能性最大,即使用最大似然法求??(??|??)。預(yù)測(cè)結(jié)果已知模型??=(??,??,??)和觀列??(??1,??2,…,????),求使得給定觀列的條件概率??(??|??)最大的隱藏狀態(tài)序列Q。本章對(duì)即將情感分析算法的兩個(gè)理論基礎(chǔ)進(jìn)行了詳細(xì)地介紹本章首先介紹LA這一模型LA模型在自然語(yǔ)言處理領(lǐng)域中有著廣泛的應(yīng)用為了確定其在實(shí)際計(jì)算過(guò)的實(shí)現(xiàn)方法本章對(duì)其原理進(jìn)行了較詳細(xì)地介紹最后本章對(duì)現(xiàn)有的分詞算論基礎(chǔ)。目前情感分析算法中,大多數(shù)算法都是領(lǐng)域或數(shù)據(jù)集相關(guān)的。也就是說(shuō),這數(shù)據(jù)標(biāo)題中的詞語(yǔ)可以作為特征歸入到分類特征中而對(duì)于不帶有標(biāo)題的數(shù)據(jù),就無(wú)法據(jù)此抽取相關(guān)的特征。此外現(xiàn)有的大多數(shù)算法在抽取特征的時(shí)候,僅僅考的語(yǔ)義,結(jié)合LDA模型,將文本分解轉(zhuǎn)化為與語(yǔ)義密切相關(guān)的抽象特征。最后在01,代表列所對(duì)應(yīng)的詞語(yǔ)是否出現(xiàn)在行所對(duì)應(yīng)的文檔中。然后建立LDA模型得到文檔-矩陣。取文檔-矩陣中的每一行作為對(duì)應(yīng)文檔的向量,向量的情感為連續(xù)區(qū)間[-5,5]上的實(shí)數(shù)。并使用這些向量訓(xùn)練SVM回歸模型。分分詞、過(guò)LDA?;貧w分訓(xùn)圖 整個(gè)算法的流程如圖3.1分(如英語(yǔ)過(guò)提高算法的精確度就是對(duì)個(gè)別俚語(yǔ)詞語(yǔ)誤用拼寫錯(cuò)誤等進(jìn)行修正而由于中文是以漢字為單位構(gòu)成句子的,因而對(duì)于中文分詞而言,根據(jù)空格分詞是不現(xiàn)實(shí)的,分詞必須使用一些更為高級(jí)的算法來(lái)實(shí)現(xiàn)。基于詞典的分詞算法實(shí)質(zhì)上就是通過(guò)匹配文本中的字符串和詞典中的詞來(lái)實(shí)現(xiàn)分詞的,目前匹配算法包括正向最小匹配、正向最大匹配、反向匹配、雙向匹配等算法,轉(zhuǎn)化為求熵的概率函數(shù)最大值的問(wèn)題。另法則使用統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法,將分詞問(wèn)題看作是詞語(yǔ)標(biāo)注問(wèn)題常用的分詞學(xué)習(xí)模型是CRF模型[55]和隱模型[56]。采用ICTCLAS漢語(yǔ)分詞系統(tǒng)進(jìn)行分詞。該分詞系統(tǒng)利用的是基于隱模文本預(yù)處其中對(duì)文本情感起決定作用的實(shí)詞和部分虛詞。在分詞過(guò),由于基于HMM監(jiān)督學(xué)除的語(yǔ)言成分包括標(biāo)點(diǎn)符號(hào)、非語(yǔ)素字、URL、助詞等。量。然后使用樸素分類器對(duì)文檔的情感進(jìn)行分類。Δ??????????????????=??????????????????(?????????????????)???????????????????(???????????????????????????????????????(???????????????

實(shí)驗(yàn)結(jié)果如表3.1表 去掉不同詞語(yǔ)類型時(shí)分類準(zhǔn)確率的變--0.25%對(duì)應(yīng)類型的詞語(yǔ)需要過(guò)濾掉。15%的情感產(chǎn)生決定性的改變。特征抽取與LDAtf-idf值、卡方檢驗(yàn)等特征,以及數(shù)據(jù)的一個(gè)重要特點(diǎn)就是每篇文檔()都在140字以內(nèi)。對(duì)于這樣的短文在本文第二章中提到,LDA模型是一種計(jì)算每篇文檔所包含的多種的概率的反映了文本的語(yǔ)義特征。現(xiàn)在如果使用包含情感傾向的文本建立LDA模型,得到文檔-這樣的變換,稀疏的文本向量也就成為維度統(tǒng)一、分布密集的向量了。LDA文檔集合??={??1??2????而言,每篇文檔均可用一個(gè)詞語(yǔ)序列來(lái)表示,即????=???1??2?????。因此可以得到所有詞語(yǔ)的集合??={??|??∈??????=1,2??},設(shè)集合的大小為??,則有如下的文檔- [ [?

? ?

????∈= ?????

然后將此矩陣用于LDA模型的構(gòu)建,即可得到??×??的文檔-矩陣,其中??為主在實(shí)際實(shí)現(xiàn)過(guò),本算法使用ibbs采樣對(duì)LA模型進(jìn)行求解。在ibbs采樣過(guò)需要預(yù)先確定兩個(gè)參數(shù)數(shù)量??和迭代次數(shù)??經(jīng)過(guò)實(shí)驗(yàn)發(fā)現(xiàn)當(dāng)?shù)螖?shù)達(dá)到1000時(shí)得到的文檔-矩陣變化已經(jīng)不大趨于收斂因而在實(shí)驗(yàn)過(guò)迭代次數(shù)??設(shè)為1000而對(duì)于數(shù)量在后續(xù)的實(shí)驗(yàn)中發(fā)現(xiàn)它雖然直接對(duì)應(yīng)于產(chǎn)生的量的維度,但卻與分類(回歸)效果關(guān)系不大,因此這里不妨將數(shù)量??設(shè)為默認(rèn)值100。得到文檔-矩陣后取矩陣的每一行為對(duì)應(yīng)文檔的分類特征向量需要的是,得到的文本向量的每一維特征表示文檔屬于某個(gè)的概率,或者說(shuō)文檔中某所占的比例,這并不是文本結(jié)構(gòu)、統(tǒng)計(jì)特征等具體直觀的分類特征,而是經(jīng)過(guò)LDA模型計(jì)算得出的具有具體意義的抽象特征。這樣的抽象特征反映了文本所蘊(yùn)含的與其所蘊(yùn)SVR??????1‖??‖2??.??.|???2

+???????|≤??,??=1,2,…, 在實(shí)際應(yīng)用過(guò),對(duì)于線性不可分的情況,將向量到空間后,允許數(shù)據(jù)??????1‖??‖2+?? ??.??.|?????(??)+?????|≤??+??,??=1,2,…,??,

≥0 ??=1

使用 乘數(shù)法求解該問(wèn)題同時(shí)將問(wèn)題轉(zhuǎn)化為對(duì)偶型于是問(wèn)題轉(zhuǎn)化為如下形式1??????{?

????)(??????)??(??,??)+

?∑(??+

??.??.∑??(????????)=0,0≤????,???≤??,??=1,2,…, 使用SMO等算法求解????,???????+???∑(????????)??(????, ????∈(0,??

????????∑(????????)??(????, ???∈(0, ??(??)=∑??(????????)??(????,??)+ 其中??

在實(shí)際求解過(guò),首先需要確定使用何種核函數(shù)。對(duì)此,這里對(duì)線性核函數(shù)、多項(xiàng)式核函數(shù)、核函數(shù)、雙曲正切核函數(shù)進(jìn)行了測(cè)試。表明,在本算法中,回歸效果對(duì)核函數(shù)并不敏感。因此本算法最終選擇了較為常用的核函數(shù)。在核函數(shù)的參數(shù)選擇方面,設(shè)??=?1,此參數(shù)作 定參數(shù)C,此參數(shù)反映了對(duì)錯(cuò)誤或偏差數(shù)據(jù)的程度,它同樣需要根據(jù)實(shí)驗(yàn)結(jié)果進(jìn)行能情況的組合。這里網(wǎng)格搜索實(shí)驗(yàn)選擇的參數(shù)設(shè)置如表3.2所示:表 值C[1.0e-5,??[1.0e-5,??=(1?|????|)+????????+Coefficient,RRSEError,RAE(Root結(jié)果如圖3.2所示??梢缘玫?,回歸模型效果最優(yōu)時(shí),??=0.1,??=0.1。表 -----01234-----0123451 圖 本實(shí)驗(yàn)采用的數(shù)據(jù)集全部來(lái)源于數(shù)據(jù)。在使用爬蟲爬取這些數(shù)據(jù)的過(guò),從隨機(jī)選取的節(jié)點(diǎn)開始,不斷爬取其好友用戶數(shù)據(jù),最終獲取了大規(guī)模的、[ 用戶 內(nèi)容]其中的內(nèi)容包括原內(nèi)容和轉(zhuǎn)發(fā)內(nèi)容。在本實(shí)驗(yàn)中,收集到的為2009~2012年,數(shù)據(jù)總量為隨機(jī)抽取的151個(gè)用戶共計(jì)42萬(wàn)多條。此外,對(duì)于每個(gè)在開始實(shí)驗(yàn)之前,還需要對(duì)到的數(shù)據(jù)的情感進(jìn)行標(biāo)注。由博數(shù)據(jù)本身不包含情感屬性而鑒博短文本的特點(diǎn)自動(dòng)標(biāo)注情感的算法無(wú)法取得較好的標(biāo)注效果。此外由于這里要進(jìn)行的是回歸分析這要求數(shù)據(jù)點(diǎn)不僅僅具有正面或的情感類別,還需要有續(xù)的值來(lái)表示情感的強(qiáng)烈程度。綜合以上這些原因,本實(shí)驗(yàn)人工標(biāo)注了個(gè)處于區(qū)間[-5,5]上的數(shù)值。這個(gè)數(shù)值的若為負(fù)值,表示所包含的情感為的,標(biāo)注的數(shù)據(jù)集的情感分布如表3.4所示。表 標(biāo)注數(shù)據(jù)的情感程情感程數(shù)-----012345,從表中可以看出大量情感集中在[-2,2]之間而情感越強(qiáng)烈的數(shù)量就越少。實(shí)際上,在標(biāo)注數(shù)據(jù)的過(guò)發(fā)現(xiàn),大量并沒有表現(xiàn)出非常情感,甚至許多雖然包含情感,但情感表達(dá)得非常含蓄,有時(shí)必須結(jié)合語(yǔ)境甚至用戶的性格特點(diǎn)才能判斷出。另外,的情感程度為0表示此條不包含情感。這些通常是一些諸如、公告等闡述客觀事物。,為了更直觀地反 的情感分布,這里做出 的情感分布曲線數(shù)數(shù)000123452000條數(shù)據(jù)進(jìn)行實(shí)驗(yàn),來(lái)檢驗(yàn)算法的效果。而在最終實(shí)現(xiàn)應(yīng)用的過(guò),將采用這2000條數(shù)據(jù)作為訓(xùn)練集,訓(xùn)練支持向量回歸模型,然42萬(wàn)多條數(shù)據(jù)的情感進(jìn)行標(biāo)注。的算法這里首先使用隱模型對(duì)文本進(jìn)行分詞處理然后構(gòu)建文檔-詞語(yǔ)矩陣,進(jìn)而構(gòu)建并使用Gibbs采樣求解LDA模型,最終得到每條對(duì)應(yīng)的文本向量。需要的是,這里構(gòu)建LDA模型所用的數(shù)據(jù)是全部42萬(wàn)多條數(shù)據(jù),而非回歸用的2000條數(shù)據(jù)。這樣做的好處是使得構(gòu)建的LDA模型具有較強(qiáng)的通用性,同時(shí)更大規(guī)模的數(shù)據(jù)有利于更好地揭示與情感之間的聯(lián)系。同時(shí),為了更直觀地比較本文情感分析算法的效果,實(shí)驗(yàn)中將詞袋模型設(shè)置為基線算法。所謂詞袋模型,就是使用相同的數(shù)據(jù),將每條分詞后得到詞語(yǔ)集合,然后將組成所有文檔的每個(gè)詞語(yǔ)都作為文本向量的一個(gè)特征,詞語(yǔ)在每條中的出現(xiàn)與否用相應(yīng)特征位置上的0或1表示,通過(guò)這樣的方法可以構(gòu)建出對(duì)應(yīng)的文本向量然后用這些文本向量進(jìn)行相同的回歸實(shí)驗(yàn)比較實(shí)驗(yàn)結(jié)果與本文算法的結(jié)果,僅僅使用2000條標(biāo)注的數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)集。在訓(xùn)練并測(cè)試模型時(shí),采用交叉驗(yàn)證的集進(jìn)行實(shí)驗(yàn)驗(yàn)證。表3.510表 實(shí)驗(yàn)數(shù)據(jù)的文本屬詞語(yǔ)數(shù)平均每條分類詞語(yǔ)數(shù)正面情數(shù)中性情數(shù)情數(shù)1283545676899(CC(RRSE實(shí)驗(yàn)結(jié)果如表3.6所示。表 情感分析算法實(shí)驗(yàn)結(jié)LDA模型的算法(本文提出基于詞袋模型的算法(基線算法1234567890123456789基于LDA模型的算基于詞袋模型的相關(guān)系0123456789基于LDA模型的算基于詞袋模型的相關(guān)系相相對(duì)標(biāo)準(zhǔn)506506789基于LDA模型的算基于詞袋模型的50123456789基于LDA模型的算基于詞袋模型的絕對(duì)標(biāo)準(zhǔn)圖3.4 作為情感的回歸特征具有一定的合理性另一方面本文算法的相對(duì)標(biāo)準(zhǔn)差、絕對(duì)標(biāo)準(zhǔn)差較大,這表明本文算法在準(zhǔn)確預(yù)測(cè)文本的情感程度上還有待提高。本章基于前一章介紹的理論基礎(chǔ),提出了一個(gè)用博文本情感分析的算法。算法考慮到所用數(shù)據(jù)的短文本特點(diǎn),放棄使用一些諸如詞頻、詞語(yǔ)出現(xiàn)位置等常見的文結(jié)合LDA模型,將文本分解詞語(yǔ)集合后轉(zhuǎn)化為與語(yǔ)義密切相關(guān)的抽象特征。最后監(jiān)督學(xué)實(shí)驗(yàn)的過(guò),采用基于詞袋模型的特征抽取方法作為基線算法,與本文整體態(tài)勢(shì),然后根據(jù)了解到的情況對(duì)相關(guān)的進(jìn)行及時(shí)調(diào)整。就本課題而言,在計(jì)算得出每條的情感特征之后,設(shè)計(jì)實(shí)現(xiàn)一個(gè)可視化分析系化也成為分析、挖掘數(shù)據(jù)的重要。數(shù)據(jù)可視化是提取數(shù)據(jù)的內(nèi)容和屬性,對(duì)其進(jìn)行對(duì)于指定的,系統(tǒng)將搜索所有相關(guān),然后將這些用兩種方式展示出來(lái)。第式是一個(gè)可交互的氣泡圖,每個(gè)氣泡代表一條,氣泡的顏色表示情感的正負(fù)傾向,氣泡的大小表示的情感強(qiáng)烈程度。第二種展示方式是折線圖,折線圖的橫坐標(biāo)由-5~5共11個(gè)離散坐標(biāo)點(diǎn)組成,縱坐標(biāo)表示的數(shù)量,這樣可以很清楚的表現(xiàn)出在此內(nèi),不同情感程度的數(shù)量。用戶分析功能則更為簡(jiǎn)單明了。系統(tǒng)可以對(duì)指定用戶(需要輸入用戶ID)進(jìn)行分析根據(jù)其發(fā)布的所標(biāo)注的情感統(tǒng)計(jì)用戶每個(gè)月內(nèi)正情感的強(qiáng)烈程度, 本系統(tǒng)基于B/S架構(gòu)實(shí)現(xiàn),分為前端和后端兩個(gè)部分。系統(tǒng)的后端主要涉及到JavaWebJavaScript可視化展現(xiàn)。下面將對(duì)兩項(xiàng)技JavaWeb是用JavaWeb領(lǐng)域問(wèn)題的技術(shù)總和。JavaWeb技務(wù)端技術(shù)則更為豐富,如Servlet、JSP等技術(shù)。就本系統(tǒng)而言,后端與前端的交互主要Servlet與前端進(jìn)行數(shù)據(jù)上的交互。若要對(duì)某個(gè)內(nèi)容進(jìn)行分析首先要找到與此相關(guān)的所有這like并且單純的字符串匹配有時(shí)候不能表明文檔與搜索有聯(lián)系因而本系統(tǒng)采用了LuneLune是由vaLune定最相關(guān)的文檔。JavaScript完成,JavaScriptDOM元素、對(duì)瀏覽器事件做出響應(yīng)、改變HTML元素屬性等等。在本系統(tǒng)中,可視化圖形的D3.js庫(kù)配合SVG技術(shù)實(shí)現(xiàn)。矢量圖形內(nèi)容。它是W3C所制定的開放性網(wǎng)絡(luò)標(biāo)準(zhǔn)之一。SVG具有諸多優(yōu)點(diǎn),包括圖形易于修改和編輯、完全兼容DOM并可由JavaScript來(lái)控制SVG對(duì)象、自帶多種SVG實(shí)現(xiàn)數(shù)據(jù)可視化,具D3.jsJavaScriptHTML、SVG、CSSD3可以以豐富的可視化展現(xiàn)形式展示D3強(qiáng)調(diào)基于開放的Web標(biāo)準(zhǔn)的實(shí)現(xiàn),D3DOM對(duì)象與數(shù)據(jù)結(jié)合的能力。重要的是,D3允許通過(guò)豐富的組件和插件進(jìn)行代碼重用。文所情感分析算法。此外,為了能夠使得新的數(shù)據(jù)能夠得到及時(shí)的處理,必在數(shù)據(jù)分析接口設(shè)計(jì)方面,應(yīng)用假定所有的、分析工作均在完成。在應(yīng)行數(shù)據(jù)相對(duì)應(yīng)。WordSegmentor、FeatureExtractor、Sentimentyst等分析類組成。各類的類圖和主要圖 I/O類的類在4.1I/O相關(guān)的每個(gè)類的具體實(shí)現(xiàn)。每個(gè)類DataReaderDataWriter類:寫入數(shù)據(jù),提供了基本的文件I/OPolarWriterDataWriter圖 FeatureExtractor yst類:包含訓(xùn)練SVR收到的數(shù)據(jù)進(jìn)行可視化處理。整個(gè)系統(tǒng)的框架如圖4.3所示。數(shù)圖 MongoDBNoSQL數(shù)據(jù)庫(kù)。在此外,為了能夠完成根據(jù)搜索相關(guān)這能,需要使用lucene對(duì)文本務(wù),即數(shù)據(jù)存入數(shù)據(jù)庫(kù)和建立文本索引。這一部分功能模塊主要由三個(gè)類組成,即tabnt、DtaImport、Indxrtor組成。DatabaseAgent類:建立并管理數(shù)據(jù)庫(kù)連接,同時(shí)作為數(shù)據(jù)DataImportDatabaseAgentIndexCreator類:建立文本索引,借助lucene圖 Web服務(wù)器采用兼容Servlet3.0標(biāo)準(zhǔn)的Tomcat7。當(dāng)對(duì)所有數(shù)據(jù)的情感完成分析之后,標(biāo)注了情感的數(shù)據(jù)會(huì)被在數(shù)據(jù)庫(kù)中。當(dāng)客戶端發(fā)送一個(gè)數(shù)據(jù)請(qǐng)求時(shí),相應(yīng)的Servlet將響應(yīng)請(qǐng)求,然后通過(guò)查詢索引取得需要ID,然后從數(shù)據(jù)庫(kù)中取出微博;或是直接在數(shù)據(jù)庫(kù)中動(dòng)態(tài)查詢出某用戶的所有。取得數(shù)據(jù)后,再通過(guò)Servlet返回給前端。處理請(qǐng)求的Servlet有兩個(gè),分別是SerchTopicServlet、yzeUserServlet,后進(jìn)行數(shù)據(jù)查詢、封裝的類分別是SearchTopic、yzeUser。在圖4.5所示的應(yīng)用后端類圖中,可以看到對(duì)于每個(gè)請(qǐng)求,當(dāng)Servlet收到客戶端發(fā)查詢索引或數(shù)據(jù)庫(kù),然后取出相應(yīng)的數(shù)據(jù)。最后數(shù)據(jù)通過(guò)Servlet傳回客戶端。圖 為了簡(jiǎn)化數(shù)據(jù)的編碼和過(guò)程,也為了減少通信產(chǎn)生的數(shù)據(jù)量,這里的Ajax請(qǐng)求直GET方式獲取數(shù)據(jù),請(qǐng)求參數(shù)包含在URL中。前后端通信則采用JSON數(shù)據(jù)格JavaScriptJSON的原生支持也使得數(shù)據(jù)處理更為[{"tid":"uid":用戶"date":"$date":"yyyy-MM- //"content":文本內(nèi)容,"polar":0……][{"date":":" //"pos":正面情感值"posNum":正面情感數(shù)量,"neg":情感值,"negNum":情感數(shù)……]得到數(shù)據(jù)后,前端將執(zhí)行JavaScript代碼,結(jié)合D3.js庫(kù),實(shí)現(xiàn)可視化的展現(xiàn)。前端的可視化代碼主要在SentimentMiner.js文件中。最終的分析系統(tǒng)分為3個(gè)頁(yè)面。在支持HTML5的瀏覽器中輸入站點(diǎn)地址,首先打以通過(guò)頁(yè)面頂端的導(dǎo)航欄進(jìn)入分析頁(yè)面或用戶分析頁(yè)面。量,這樣可以看出相關(guān)不同情感程度的數(shù)量。圖 在用戶分析頁(yè)面中,輸入任何想要了解的用戶ID,即可得到如圖4.7所示的圖表。情況,藍(lán)色折線代表其情感的波動(dòng)情況??梢杂檬髽?biāo)點(diǎn)擊右上角的圖例,以便過(guò)濾 圖 究,及時(shí)了解社會(huì)的態(tài)勢(shì)或個(gè)人的情感波動(dòng)。本文利用數(shù)據(jù),提出了一種有監(jiān)督文本情感分析算法,并將分析結(jié)眼于對(duì)文本的二分情感標(biāo)注,即將文本分類為具有正面情感傾向或情感傾向,而針而目前針對(duì)這種中文短文本的情感分析研究較少。在這樣的情況下,本文提出了一種文本情感分析算法。本文算法基于LDA模型和SVR支持向量回歸模型。在抽取文本特征情感有著密切的聯(lián)系,故而使用LDA模型將文本處理為相關(guān)的特征向量。對(duì)于得SVR支持向量回歸模型構(gòu)建回歸函數(shù),最終使得算法在給出文本在訓(xùn)練集的選擇上,本文選擇了人工標(biāo)注數(shù)據(jù)進(jìn)行回歸訓(xùn)練。本文將基于LDA的算法與基于詞袋模型的算法進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果證明本文算法有更好的效果。但B/SLDA模型,對(duì)語(yǔ)義的考慮不夠充分;其二是訓(xùn)歷時(shí)三個(gè)多月的畢業(yè)設(shè)計(jì)即將結(jié)束。在完成畢業(yè)設(shè)計(jì)的過(guò),我極大地提高了自己的知識(shí)水平和專業(yè)技能雖然在完成過(guò)我遇到了許多的和但都在老師、師兄師姐和的幫助下順利度過(guò)了。在此,我向所有給予過(guò)我指導(dǎo)和關(guān)心的老師、師兄師姐、同學(xué)和家人致以最誠(chéng)摯的感謝。同時(shí),感謝分布式與移動(dòng)計(jì)算給我提供了一個(gè)適合的環(huán)境,讓我能夠順利完成自己的本科畢業(yè)設(shè)計(jì)和。感謝實(shí)驗(yàn)室在這三個(gè)月內(nèi)對(duì)鍛煉。首先誠(chéng)摯地感謝指導(dǎo)教師教授,老師悉心的教導(dǎo)使我得以一窺文本情感分析領(lǐng)域的深?yuàn)W不時(shí)的討論并指點(diǎn)我正確的方向使我在完成畢業(yè)設(shè)計(jì)的過(guò)獲益匪淺。益的建議和指導(dǎo)。牛老師有著對(duì)工作鍥而不舍的執(zhí)著追求和忘奮斗精神,老師對(duì)學(xué)其次感謝老師在畢設(shè)完成過(guò)對(duì)指導(dǎo)。老師在我完善、修正算本的完成另外亦得感謝分布式與移動(dòng)計(jì)算所有收集、整理的學(xué)長(zhǎng)們的大力協(xié)助。因?yàn)橛械膸兔椭С?,使得本能夠?qū)λ惴ㄟM(jìn)行驗(yàn)感謝學(xué)長(zhǎng)不厭其煩地我研究中的缺失,且總能在我迷惘時(shí)為我解惑,也感KSaltonG,McGillMJ.Introductiontomoderninformationretrieval[J].PangB,LeeL,VaithyanathanS.Thumbsup?:sentimentclassificationusingmachinelearningtechniques[C]//ProceedingsoftheACL-02conferenceonEmpiricalmethodsinnaturallanguageprocessing-Volume10.AssociationforComputationalLinguistics,2002:WiebeJ,WilsonT,BruceR,etal.Learningsubjectivelanguage[J].Computationallinguistics,2004,30(3):277-308.KimSM,HovyE.Automaticidentificationofproandconreasonsinonlinereviews[C]//ProceedingsoftheCOLING/ACLonMainconferencepostersessions.AssociationforComputationalLinguistics,2006:483-490.RiloffE,PatwardhanS,WiebeJ.Featuresubsumptionforopinionysis[C]//Proceedingsofthe2006ConferenceonEmpiricalMethodsinNaturalLanguageProcessing.AssociationforComputationalLinguistics,2006:440-AiroldiE,BaiX,PadmanR.Markovblanketsandmeta-heuristicssearch:SentimentSpringerBerlinHeidelberg,2006:167-187.KudoT,MatsumotoY.ABoostingAlgorithmforClassificationofSemi-StructuredText[C]//EMNLP.2004,4:301-308.KennedyA,InkpenD.Sentimentclassificationofmoviereviewsusingcontextualvalenceshifters[J].ComputationalInligence,2006,22(2):110-125.RiloffE,WiebeJ.Learningextractionpatternsforsubjectiveexpressions[C]//Proceedingsofthe2003conferenceonEmpiricalmethodsinnaturallanguageprocessing.AssociationforComputationalLinguistics,2003:105-112.WiebeJ,WilsonT,BruceR,etal.Learningsubjectivelanguage[J].Computationallinguistics,2004,30(3):277-308.MullenT,CollierN.SentimentysisusingSupportVectorMachineswithDiverseInformationSources[C]//EMNLP.2004,4:412-418.KimSM,HovyEH.Crystal:yzingPredictiveOpinionsontheWeb[C]//EMNLP-CoNLL.2007:1056-1064.DaveK,LawrenceS,PennockDM.Miningthepeanutgallery:Opinionextractionsemanticclassificationofproductreviews[C]//Proceedingsofthe12thinternationalconferenceonWorldWideWeb.ACM,2003:519-528.GamonM.Sentimentclassificationoncustomerfeedbackdata:noisydata,largefeaturevectors,andtheroleoflinguisticysis[C]//Proceedingsofthe20thinternationalconferenceonComputationalLinguistics.AssociationforComputationalLinguistics,2004:841.MatsumotoS,TakamuraH,OkumuraM.Sentimentclassificationusingwordsub-sequencesanddependencysub-trees[M]//AdvancesinKnowledgeDiscoveryandDataMining.SpringerBerlinHeidelberg,2005:301-311.GoldbergAB,ZhuX.Seeingstarswhentherearen'tmanystars:graph-basedsemi-supervisedlearningforsentimentcategorization[C]//ProceedingsoftheFirstWorkshoponGraphBasedMethodsforNaturalLanguageProcessing.AssociationforComputationalLinguistics,2006:45-52.MaoY,LebanonG.Isotonicconditionalrandomfieldsandlocalsentimentflow[J].Advancesinneuralinformationprocessingsystems,2007,19:961.PangB,LeeL.Seeingstars:Exploitingclassrelationshipsforsentimentcategorizationwithrespecttoratingscales[C]//Proceedingsofthe43rdAnnualMeetingonAssociationforComputationalLinguistics.AssociationforComputationalLinguistics,2005:115-124.WilsonT,WiebeJ,HwaR.Justhowmadareyou?Findingstrongandweakopinionclauses[C]//aaai.2004,4:761-769.Engstr?mC.Topicdependenceinsentimentclassification[J].UnpublishedMPhilDissertation.UniversityofCambridge,2004.OwsleyS,SoodS,HammondKJ.SpecificAffectiveClassificationofs[C]//AAAISpringSymposium:ComputationalApproachestoyzingWeblogs.2006:181-183.AueA,GamonM.Customizingsentimentclassifierstonews:Acasestudy[C]//Proceedingsofrecentadvancesinnaturallanguageprocessing(RANLP).2005,1(3.1):2.1.YangH,CallanJ,SiL.KnowledgeTransferandOpinionDetectionintheTREC2006BlogTrack[C]//TREC.2006.BlitzerJ,DredzeM,PereiraF.Biographies,bollywood,boom-boxesandblenders:adaptationforsentimentclassification[C]//ACL.2007,7:440-447.HurstMF,NigamK.Retrievingtopicalsentimentsfromonlinecollections[C]//ElectronicImaging2004.InternationalSocietyforOpticsandPhotonics,2003:27-34.EguchiK,LavrenkoV.Sentimentretrievalusinggenerativemodels[C]//Proceedingsofthe2006conferenceonempiricalmethodsinnaturallanguageprocessing.AssociationforComputationalLinguistics,2006:345-354.MeiQ,LingX,WondraM,etal.Topicsentimentmixture:modelingfacetsandopinionsinweblogs[C]//Proceedingsofthe16thinternationalconferenceonWorldWideWeb.ACM,2007:171-180.EguchiK,ShahC.OpinionRetrievalExperimentsUsingGenerativeModels:ExperimentsfortheTREC2006BlogTrack[C]//TREC.2006.subjectivity[C]//Proceedingsofthe18thconferenceonComputationallinguistics-Volume1.AssociationforComputationalLinguistics,2000:299-TurneyPD.Thumbsuporthumbsdown?:semanticorientationappliedtounsupervisedclassificationofreviews[C]//Proceedingsofthe40thannualmeetingonassociationforcomputationallinguistics.AssociationforComputationalLinguistics,2002:417-424.YuH,HatzivassiloglouV.Towardsansweringopinionquestions:Separatingfactsfromopinionsandidentifyingthepolarityofopinionsentences[C]//Proceedingsofthe2003conferenceonEmpiricalmethodsinnaturallanguageprocessing.AssociationforComputationalLinguistics,2003:129-136.,,,等.基于HowNet的詞匯語(yǔ)義傾向計(jì)算[J].中文信息學(xué)報(bào),2006,20(1):14-20.ZagibalovT,CarrollJ.AutomaticseedwordselectionforunsupervisedsentimentclassificationofChinesetext[C]//Proceedingsofthe22ndInternationalConferenceonComputationalLinguistics-Volume1.AssociationforComputationalLinguistics,2008:classificationwithlexicalpriorknowledge[C]//ProceedingsoftheJointConferenceofthe47thAnnualMeetingoftheACLandthe4thInternationalJointConferenceonNaturalLanguageProcessingoftheAFNLP:Volume1-Volume1.AssociationforComputationalLinguistics,2009:244-252.HuettnerA,SubasicP.Fuzzytyformanagement[J].ACL2000CompanionVolume:Tutorial sandDemonstrationNotes,2000:26-27.TongRM.Anoperationalsystemfordetectingandtrackingopinionsinon-linediscussion[C]//WorkingNotesoftheACMSIGIR2001WorkshoponOperationalTextClassification.2001,1:6.HatzivassiloglouV,McKeownKR.Predictingthesemanticorientationofadjectives[C]//Proceedingsofthe35thAnnualMeetingoftheAssociationforComputationalLinguisticsandEighthConferenceoftheEuropeanChapteroftheAssociationforComputationalLinguistics.AssociationforComputationalLinguistics,1997:174-181.AntW,FrankMZ.Isallthattalkjustnoise?Theinformationcontentofinternetstockmessags[J].TheJournalofFinance,2004,59(3):1259-1294.GamonM,AueA.Automaticidentificationofsentimentvocabulary:exploitinglowassociationwitownsentimentterms[C]//ProceedingsoftheACLWorkshoponFeatureEngineeringforMachineLearninginNaturalLanguageProcessing.AssociationforComputationalLinguistics,2005:57-64.EsuliA,SebastianiF.Determiningthesemanticorientationoftermsthroughglossclassification[C]//Proceedingsofthe14thACMinternationalconferenceonInformationandknowledgemanagement.ACM,2005:617-624.EsuliA,SebastianiF.DeterminingTermSubjectivityandTermOrientationforOpinionMining[C]//EACL.2006,6:2006.HuM,LiuB.Miningopinionfe

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論