




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、互聯(lián)網(wǎng)輿情挖掘研究述略,2.3.3文本傾向性分析:,以下分別從對(duì)文本傾向性分析的內(nèi)容,意義,原則,用到的一些思想,技術(shù),和一個(gè)可供參考的具體的算法這一個(gè)程序來對(duì)文本定向性分析進(jìn)行具體介紹,內(nèi)容:,通過以上互聯(lián)網(wǎng)輿情信息預(yù)處理這一環(huán)節(jié),我們需要再對(duì)這些已經(jīng)初步加工和處理了的信息資源,進(jìn)行深入分析,來準(zhǔn)確了解網(wǎng)民們的思想動(dòng)態(tài),政治態(tài)度,我們要對(duì)這些信息進(jìn)行分析和總結(jié),得出有用的數(shù)據(jù)結(jié)論,進(jìn)行輿情報(bào)告或者輿情預(yù)警,為領(lǐng)導(dǎo)者提供科學(xué)的參考依據(jù)。,意義:,通過傾向性分析可以明確網(wǎng)絡(luò)傳播者的真正意圖和目的,它是互聯(lián)網(wǎng)輿情挖掘研究過程中極其重要的必不可少的一個(gè)環(huán)節(jié),通過文本傾向性分析,為領(lǐng)導(dǎo)者提供一些科學(xué)數(shù)
2、據(jù)和一些事實(shí)結(jié)論,方便領(lǐng)導(dǎo)者做出決策,以及改善領(lǐng)導(dǎo)者的工作體制,提高管理效率,這對(duì)塑造政府形象,及時(shí)解決民眾的利益問題,以及推動(dòng)民眾參政議政和豐富人民當(dāng)家作主的民主形式,正確引導(dǎo)網(wǎng)絡(luò)輿論,維護(hù)社會(huì)穩(wěn)定和人心安定,都具有重要的現(xiàn)實(shí)意義。,文本定向分析過程中應(yīng)遵守的原則:,1. 在進(jìn)行文本定向性分析的過程中,一切結(jié)論必須要有科學(xué)依據(jù),絕不能憑空亂說。 2. 通過文本的定向性分析,一定要得出有價(jià)值的一些結(jié)論或者數(shù)據(jù)資源。 3. 進(jìn)行分本定向性分析要全面。 這主要是要得出全面的結(jié)論,我們通過針對(duì)文本定向性的分析,得出當(dāng)時(shí)網(wǎng)民們的思想動(dòng)態(tài),或者政治態(tài)度,以及客觀社會(huì)現(xiàn)實(shí),在此我們還需要分析在這個(gè)時(shí)間段之
3、前的網(wǎng)民們的思想動(dòng)態(tài)或者他們的政治態(tài)度,以及所反映的客觀社會(huì)現(xiàn)實(shí),同時(shí)我們通過對(duì)這兩個(gè)階段的分析研究來預(yù)測(cè)未來的網(wǎng)民們的思想和行動(dòng)以及社會(huì)上一些事物的發(fā)展動(dòng)向,從而得出各個(gè)方面的相應(yīng)的結(jié)論。,文本定向性分析過程中需要的一些思想或者一些實(shí)踐技術(shù):,1. 為了實(shí)現(xiàn)對(duì)文本信息的準(zhǔn)確提取,不僅要考慮該文本的影響強(qiáng)度,同時(shí)還要對(duì)文本的感情取向有一個(gè)正確把握,我們可以采用加權(quán)值的手段要標(biāo)出輿情的影響大小,而且標(biāo)出正負(fù)號(hào),反映出輿情的褒貶性。 2. 對(duì)語義傾向分類結(jié)果再進(jìn)一步按照語義傾向強(qiáng)度進(jìn)行細(xì)分的方法。 3. 利用框架技術(shù)對(duì)報(bào)道的描述進(jìn)行不同側(cè)面的敏感要素抽取,構(gòu)成敏感要素集,作為一種分類體系,在報(bào)道中
4、找出包括這些要素的關(guān)鍵句,并根據(jù)分句提供的信息結(jié)構(gòu)立場(chǎng)概念庫等進(jìn)行傾向性計(jì)算。 4. 主題相關(guān)度計(jì)算常用且效果最好的是基于向量空間模型的主題匹配算法,即將主題和待比較的URL轉(zhuǎn)化成向量后通過余弦夾角公式計(jì)算其相似度。,5. 現(xiàn)有的采集技術(shù)基本上都是被動(dòng)的數(shù)據(jù)采集,只有在某個(gè)話題成為熱點(diǎn)話題后才去采集,無法保證輿情的時(shí)效性,可以通過Agent,主題制導(dǎo)等技術(shù)的研究,并結(jié)合互聯(lián)網(wǎng)信息交流的特性,為輿情信息的主動(dòng)采集提供技術(shù)支持。 6. 重點(diǎn)關(guān)注謠言,虛假信息的輿情分析技術(shù)??梢岳弥悄苄畔⑻幚砑夹g(shù),機(jī)器學(xué)習(xí)等研究成果相互融合對(duì)網(wǎng)頁格式和用詞模式做進(jìn)一步的深入分析,為準(zhǔn)確區(qū)分謠言、虛假信息提供可靠的
5、語言模型,或者提出一種新的輿情分析指標(biāo),可以嘗試研究模糊理論中的模糊推理和模糊綜合評(píng)判方法來辨別輿情信息的真?zhèn)巍?7. 關(guān)注在網(wǎng)絡(luò)環(huán)境下情感傾向特征詞的特點(diǎn)和深層分析,并進(jìn)行語氣詞類型判別和標(biāo)注,構(gòu)建適合于互聯(lián)網(wǎng)輿情分析的立場(chǎng)傾向概念庫。因?yàn)槲谋緝A向性分析的研究中語氣詞的標(biāo)注主要依靠專家標(biāo)注,有很強(qiáng)的主觀性,而且語義傾向值的計(jì)算比較直觀,不適應(yīng)互聯(lián)網(wǎng)語言的特點(diǎn),可以重點(diǎn)研究?jī)A向性主客觀相結(jié)合的分析技術(shù),提出更加科學(xué)的計(jì)算方法,提高針對(duì)互聯(lián)網(wǎng)環(huán)境下輿情分析的準(zhǔn)確率。,8. 文本特征表示方法: 向量空間模型(VSM)是目前文本分類中使用較多,效果較好的一種文本特征表示方法。它將每個(gè)文本表示為特征空
6、間的一個(gè)向量,形如:Di=(Ti1,Wi1),(Ti2,Wi2),,(Tin,Win),其中Tin為特征項(xiàng),它可以是字,詞或短語;Win為特征項(xiàng)的權(quán)重,表示Tin在文本中的重要程度。權(quán)重是根據(jù)特征項(xiàng)在文本中出現(xiàn)的頻率、位置等信息計(jì)算得到的,可用TFIDF方法來計(jì)算權(quán)重,當(dāng)然在此工程中,一定要篩選出最具有代表性的詞條作為特征項(xiàng),這就要涉及到特征想選擇的一些技術(shù)。 (1)特征提取 通常的做法是構(gòu)造一個(gè)評(píng)估函數(shù),對(duì)特征項(xiàng)集合中的每個(gè)特征項(xiàng)進(jìn)行獨(dú)立的評(píng)估,得到其評(píng)估分值(即權(quán)值),然后對(duì)所有的特征項(xiàng)按照其權(quán)值大小進(jìn)行排序,最后選擇預(yù)定數(shù)目的特征項(xiàng)作為特征結(jié)果。目前文本分類中常用的特征評(píng)估分類函數(shù)有文檔
7、頻率(DF)、互信息(MI)、信息增益(IG)、期望交叉熵(ECE)、文本證據(jù)權(quán)(WET)等,為了提高褒貶分類的精度,我們可以人為地構(gòu)建褒貶詞典和褒貶評(píng)價(jià)模板作為工具。 + (2)分類算法 可利用基于向量空間模型的文本分類算法,例如簡(jiǎn)單向量距離分類法,最近K鄰居、貝葉斯方法、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò),最大平均熵等。,9. 文本傾向性分析時(shí)的參考因素:包括外在和內(nèi)在因素。前者比如文本的數(shù)量,即特定時(shí)間內(nèi)互聯(lián)網(wǎng)上出現(xiàn)的關(guān)于某個(gè)話題的文本個(gè)數(shù)。后者主要描述單個(gè)文本的性質(zhì),就單個(gè)文本而言,性質(zhì)可以取決于其內(nèi)容和強(qiáng)度,內(nèi)容為該文本的主題、時(shí)間、文本等,強(qiáng)度主要指該文本的影響因子,即文本的出現(xiàn)對(duì)相關(guān)領(lǐng)域的人和
8、事物產(chǎn)生多大程度影響。 10. 在文本的研究過程中,將充分利用數(shù)學(xué)理論中因果關(guān)系的關(guān)聯(lián)分析的方法,通過綜合分析某些公共突發(fā)事件(比如群體性事件)發(fā)生前后網(wǎng)絡(luò)輿情的變化規(guī)律,確定影響事件的關(guān)鍵因果因素,從而得出一些結(jié)論。 11. 文檔聚類。文本實(shí)用模糊聚類把相同側(cè)面的文檔聚在一起,組成一個(gè)文本集。,文本定向性分析的一個(gè)參考算法:(我們已經(jīng)收到了一個(gè)文本集需要進(jìn)行對(duì)它進(jìn)行單向定向性分析),一.針對(duì)單個(gè)句子,關(guān)鍵句傾向性判斷算法: 1. 用已有的分詞程序?qū)?bào)道進(jìn)行分詞和詞性標(biāo)注,通過敏感要素集的驅(qū)動(dòng)查找包含關(guān)鍵詞的關(guān)鍵句組成關(guān)鍵子句集合。然后對(duì)每個(gè)關(guān)鍵句執(zhí)行(2)(6)步。 2. 按定義的優(yōu)先順序?qū)?/p>
9、子句進(jìn)行判斷,首先看關(guān)鍵句中是否有判斷句并作出判斷。 3. 沒有的情況下對(duì)關(guān)鍵句中的動(dòng)詞進(jìn)行基于知網(wǎng)的概念的標(biāo)注,提取出事件類得到動(dòng)態(tài)角色框架。(在基于知網(wǎng)填充動(dòng)態(tài)角色框架的過程中,我們需要定義許多填充規(guī)則,最好請(qǐng)語言專家來定義)。,4. 按照定義的規(guī)則進(jìn)行動(dòng)態(tài)角色框架的填充,考慮到形容詞,副詞,動(dòng)詞名詞更能體現(xiàn)立場(chǎng)故填充時(shí)不考慮關(guān)鍵句中的數(shù)詞,量詞助詞等。 5. 填充后進(jìn)行基于知網(wǎng)的概念標(biāo)注,通過建立的立場(chǎng)概念庫結(jié)合規(guī)則判斷子句的立場(chǎng)。 6. 對(duì)每個(gè)關(guān)鍵分句的判定結(jié)果分別賦予一個(gè)帶符號(hào)的整數(shù)值褒揚(yáng)記為+X,貶斥記為-X。 7.有的情況下一篇文章中的主題可能出現(xiàn)兩種立場(chǎng),如貶斥和同情等。此時(shí)我們采用的策略是計(jì)算所有分句的值,最后帶符號(hào)進(jìn)行整數(shù)值運(yùn)算,結(jié)果為負(fù)則認(rèn)為體現(xiàn)貶斥的思想,正則表示褒揚(yáng)。,二針對(duì)單個(gè)文本:,通過對(duì)單個(gè)文本里面帶權(quán)值句子的計(jì)算,得出
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 數(shù)字化背景下紡織業(yè)產(chǎn)業(yè)鏈重構(gòu)考核試卷
- 信托與智能電網(wǎng)信息化融合考核試卷
- 品牌形象與售后服務(wù)關(guān)系探討考核試卷
- 老舍《買彩票》閱讀練習(xí)及答案
- 二手房房屋買賣協(xié)議書合集7篇
- 幼兒園各種安全教育
- 沙家浜活動(dòng)策劃方案
- 棋牌比賽活動(dòng)方案
- 榔頭教學(xué)活動(dòng)策劃方案
- 樓盤義診活動(dòng)方案
- 醫(yī)?;鸨O(jiān)管知識(shí)考試題庫300題(含答案)
- 冷庫pcuocu應(yīng)用培訓(xùn)
- 源網(wǎng)荷儲(chǔ)一體化綠色供電工業(yè)園區(qū)示范項(xiàng)目環(huán)評(píng)可研資料環(huán)境影響
- 廣東省普通高中學(xué)生檔案
- 《水處理氣浮技術(shù)指南》
- 《大學(xué)法語簡(jiǎn)明教程》課件
- 采購管理的綠色采購與可持續(xù)發(fā)展
- 礦產(chǎn)資源評(píng)估報(bào)告
- 巖土鉆探工程課件
- F450裝機(jī)教程課件
- 快消品行業(yè)的營(yíng)銷渠道分析
評(píng)論
0/150
提交評(píng)論