![文本定向性分析(魚江).ppt_第1頁](http://file1.renrendoc.com/fileroot2/2020-1/13/c9f0e158-c3e7-4d7d-a6ec-d7d49eb2dda8/c9f0e158-c3e7-4d7d-a6ec-d7d49eb2dda81.gif)
![文本定向性分析(魚江).ppt_第2頁](http://file1.renrendoc.com/fileroot2/2020-1/13/c9f0e158-c3e7-4d7d-a6ec-d7d49eb2dda8/c9f0e158-c3e7-4d7d-a6ec-d7d49eb2dda82.gif)
![文本定向性分析(魚江).ppt_第3頁](http://file1.renrendoc.com/fileroot2/2020-1/13/c9f0e158-c3e7-4d7d-a6ec-d7d49eb2dda8/c9f0e158-c3e7-4d7d-a6ec-d7d49eb2dda83.gif)
![文本定向性分析(魚江).ppt_第4頁](http://file1.renrendoc.com/fileroot2/2020-1/13/c9f0e158-c3e7-4d7d-a6ec-d7d49eb2dda8/c9f0e158-c3e7-4d7d-a6ec-d7d49eb2dda84.gif)
![文本定向性分析(魚江).ppt_第5頁](http://file1.renrendoc.com/fileroot2/2020-1/13/c9f0e158-c3e7-4d7d-a6ec-d7d49eb2dda8/c9f0e158-c3e7-4d7d-a6ec-d7d49eb2dda85.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、互聯(lián)網輿情挖掘研究述略,2.3.3文本傾向性分析:,以下分別從對文本傾向性分析的內容,意義,原則,用到的一些思想,技術,和一個可供參考的具體的算法這一個程序來對文本定向性分析進行具體介紹,內容:,通過以上互聯(lián)網輿情信息預處理這一環(huán)節(jié),我們需要再對這些已經初步加工和處理了的信息資源,進行深入分析,來準確了解網民們的思想動態(tài),政治態(tài)度,我們要對這些信息進行分析和總結,得出有用的數(shù)據結論,進行輿情報告或者輿情預警,為領導者提供科學的參考依據。,意義:,通過傾向性分析可以明確網絡傳播者的真正意圖和目的,它是互聯(lián)網輿情挖掘研究過程中極其重要的必不可少的一個環(huán)節(jié),通過文本傾向性分析,為領導者提供一些科學數(shù)
2、據和一些事實結論,方便領導者做出決策,以及改善領導者的工作體制,提高管理效率,這對塑造政府形象,及時解決民眾的利益問題,以及推動民眾參政議政和豐富人民當家作主的民主形式,正確引導網絡輿論,維護社會穩(wěn)定和人心安定,都具有重要的現(xiàn)實意義。,文本定向分析過程中應遵守的原則:,1. 在進行文本定向性分析的過程中,一切結論必須要有科學依據,絕不能憑空亂說。 2. 通過文本的定向性分析,一定要得出有價值的一些結論或者數(shù)據資源。 3. 進行分本定向性分析要全面。 這主要是要得出全面的結論,我們通過針對文本定向性的分析,得出當時網民們的思想動態(tài),或者政治態(tài)度,以及客觀社會現(xiàn)實,在此我們還需要分析在這個時間段之
3、前的網民們的思想動態(tài)或者他們的政治態(tài)度,以及所反映的客觀社會現(xiàn)實,同時我們通過對這兩個階段的分析研究來預測未來的網民們的思想和行動以及社會上一些事物的發(fā)展動向,從而得出各個方面的相應的結論。,文本定向性分析過程中需要的一些思想或者一些實踐技術:,1. 為了實現(xiàn)對文本信息的準確提取,不僅要考慮該文本的影響強度,同時還要對文本的感情取向有一個正確把握,我們可以采用加權值的手段要標出輿情的影響大小,而且標出正負號,反映出輿情的褒貶性。 2. 對語義傾向分類結果再進一步按照語義傾向強度進行細分的方法。 3. 利用框架技術對報道的描述進行不同側面的敏感要素抽取,構成敏感要素集,作為一種分類體系,在報道中
4、找出包括這些要素的關鍵句,并根據分句提供的信息結構立場概念庫等進行傾向性計算。 4. 主題相關度計算常用且效果最好的是基于向量空間模型的主題匹配算法,即將主題和待比較的URL轉化成向量后通過余弦夾角公式計算其相似度。,5. 現(xiàn)有的采集技術基本上都是被動的數(shù)據采集,只有在某個話題成為熱點話題后才去采集,無法保證輿情的時效性,可以通過Agent,主題制導等技術的研究,并結合互聯(lián)網信息交流的特性,為輿情信息的主動采集提供技術支持。 6. 重點關注謠言,虛假信息的輿情分析技術??梢岳弥悄苄畔⑻幚砑夹g,機器學習等研究成果相互融合對網頁格式和用詞模式做進一步的深入分析,為準確區(qū)分謠言、虛假信息提供可靠的
5、語言模型,或者提出一種新的輿情分析指標,可以嘗試研究模糊理論中的模糊推理和模糊綜合評判方法來辨別輿情信息的真?zhèn)巍?7. 關注在網絡環(huán)境下情感傾向特征詞的特點和深層分析,并進行語氣詞類型判別和標注,構建適合于互聯(lián)網輿情分析的立場傾向概念庫。因為文本傾向性分析的研究中語氣詞的標注主要依靠專家標注,有很強的主觀性,而且語義傾向值的計算比較直觀,不適應互聯(lián)網語言的特點,可以重點研究傾向性主客觀相結合的分析技術,提出更加科學的計算方法,提高針對互聯(lián)網環(huán)境下輿情分析的準確率。,8. 文本特征表示方法: 向量空間模型(VSM)是目前文本分類中使用較多,效果較好的一種文本特征表示方法。它將每個文本表示為特征空
6、間的一個向量,形如:Di=(Ti1,Wi1),(Ti2,Wi2),,(Tin,Win),其中Tin為特征項,它可以是字,詞或短語;Win為特征項的權重,表示Tin在文本中的重要程度。權重是根據特征項在文本中出現(xiàn)的頻率、位置等信息計算得到的,可用TFIDF方法來計算權重,當然在此工程中,一定要篩選出最具有代表性的詞條作為特征項,這就要涉及到特征想選擇的一些技術。 (1)特征提取 通常的做法是構造一個評估函數(shù),對特征項集合中的每個特征項進行獨立的評估,得到其評估分值(即權值),然后對所有的特征項按照其權值大小進行排序,最后選擇預定數(shù)目的特征項作為特征結果。目前文本分類中常用的特征評估分類函數(shù)有文檔
7、頻率(DF)、互信息(MI)、信息增益(IG)、期望交叉熵(ECE)、文本證據權(WET)等,為了提高褒貶分類的精度,我們可以人為地構建褒貶詞典和褒貶評價模板作為工具。 + (2)分類算法 可利用基于向量空間模型的文本分類算法,例如簡單向量距離分類法,最近K鄰居、貝葉斯方法、支持向量機、神經網絡,最大平均熵等。,9. 文本傾向性分析時的參考因素:包括外在和內在因素。前者比如文本的數(shù)量,即特定時間內互聯(lián)網上出現(xiàn)的關于某個話題的文本個數(shù)。后者主要描述單個文本的性質,就單個文本而言,性質可以取決于其內容和強度,內容為該文本的主題、時間、文本等,強度主要指該文本的影響因子,即文本的出現(xiàn)對相關領域的人和
8、事物產生多大程度影響。 10. 在文本的研究過程中,將充分利用數(shù)學理論中因果關系的關聯(lián)分析的方法,通過綜合分析某些公共突發(fā)事件(比如群體性事件)發(fā)生前后網絡輿情的變化規(guī)律,確定影響事件的關鍵因果因素,從而得出一些結論。 11. 文檔聚類。文本實用模糊聚類把相同側面的文檔聚在一起,組成一個文本集。,文本定向性分析的一個參考算法:(我們已經收到了一個文本集需要進行對它進行單向定向性分析),一.針對單個句子,關鍵句傾向性判斷算法: 1. 用已有的分詞程序對報道進行分詞和詞性標注,通過敏感要素集的驅動查找包含關鍵詞的關鍵句組成關鍵子句集合。然后對每個關鍵句執(zhí)行(2)(6)步。 2. 按定義的優(yōu)先順序對
9、子句進行判斷,首先看關鍵句中是否有判斷句并作出判斷。 3. 沒有的情況下對關鍵句中的動詞進行基于知網的概念的標注,提取出事件類得到動態(tài)角色框架。(在基于知網填充動態(tài)角色框架的過程中,我們需要定義許多填充規(guī)則,最好請語言專家來定義)。,4. 按照定義的規(guī)則進行動態(tài)角色框架的填充,考慮到形容詞,副詞,動詞名詞更能體現(xiàn)立場故填充時不考慮關鍵句中的數(shù)詞,量詞助詞等。 5. 填充后進行基于知網的概念標注,通過建立的立場概念庫結合規(guī)則判斷子句的立場。 6. 對每個關鍵分句的判定結果分別賦予一個帶符號的整數(shù)值褒揚記為+X,貶斥記為-X。 7.有的情況下一篇文章中的主題可能出現(xiàn)兩種立場,如貶斥和同情等。此時我們采用的策略是計算所有分句的值,最后帶符號進行整數(shù)值運算,結果為負則認為體現(xiàn)貶斥的思想,正則表示褒揚。,二針對單個文本:,通過對單個文本里面帶權值句子的計算,得出
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- CH-5兒童各年齡期保健課件
- 2025年全球及中國纜索式起重機行業(yè)頭部企業(yè)市場占有率及排名調研報告
- 2025年全球及中國高壓有載分接開關行業(yè)頭部企業(yè)市場占有率及排名調研報告
- 2025年全球及中國可見光波段高光譜成像(HSI)設備行業(yè)頭部企業(yè)市場占有率及排名調研報告
- 2025-2030全球墻磨機開關行業(yè)調研及趨勢分析報告
- 2025年全球及中國打印貼標機和耗材行業(yè)頭部企業(yè)市場占有率及排名調研報告
- 2025-2030全球工業(yè)PTFE密封件行業(yè)調研及趨勢分析報告
- 2025-2030全球超高頻RFID一次性腕帶行業(yè)調研及趨勢分析報告
- 2025-2030全球便攜手持式光譜儀行業(yè)調研及趨勢分析報告
- 2025-2030全球除濕白帶丸行業(yè)調研及趨勢分析報告
- 建設銀行對賬單英文翻譯模板【英國簽證】
- 法醫(yī)解剖室管理制度
- 九年級下冊滬教版上?;瘜W5.2酸和堿的性質研究 課件
- 益生芽孢桿菌體外抑菌活性及耐藥性研究
- 2023數(shù)聯(lián)網(DSSN)白皮書
- ISO17025經典培訓教材
- 餐飲行業(yè)品牌介紹商務宣傳PPT模板
- 東南大學宣講介紹
- 2023年菏澤醫(yī)學??茖W校單招綜合素質題庫及答案解析
- 九年級下冊-2023年中考歷史總復習知識點速查速記(部編版)
- GB/T 18103-2022實木復合地板
評論
0/150
提交評論