下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、基于搜索引擎的關鍵詞輿情過濾算法的技術分析隨著網(wǎng)絡成為繼報紙、無線廣播和電視三大傳統(tǒng)的傳播媒體之后的第四媒體;,網(wǎng)絡輿情對社會的影響與日俱增。網(wǎng)絡輿情成為最主要的社會輿情表述和傳播方式之一。對于公司企事業(yè)單位,一些惡劣事件的披露很可能成為他們繼續(xù)發(fā)展的絆腳石;對于社會,一些有損穩(wěn)定,影響極為惡劣的言論很可能對社會造成極為惡劣的負面影響。由于這些信息往往呈現(xiàn)爆炸式增長,因此,輿情監(jiān)控系統(tǒng)的一個重要目標即是及早的發(fā)現(xiàn)輿情發(fā)布源頭,從而提醒管理者及時對其進行適當?shù)目刂啤_@就要求輿情監(jiān)控系統(tǒng)最好能夠做到在數(shù)小時甚至幾十分鐘之內(nèi)能夠抓取到新發(fā)布的輿論信息后立刻過濾出是否含有惡劣言論,這對輿情監(jiān)控系統(tǒng)具有
2、十分重要的意義。目前輿情發(fā)現(xiàn)的方法研究可以基本歸為兩大類,一類是基于規(guī)則的文本內(nèi)容關鍵詞識別的方法【1,2】,一類是基于統(tǒng)計的機器學習文本分類方法【36】。第一類方法能夠最大限度的在輿情未擴散之前的挖掘出網(wǎng)絡中明顯直接的輿情信息,但由于語義方面的局限性使得輿情信息的挖掘不夠充分,第二類方法一般需要在一定數(shù)量的相關輿情記錄出現(xiàn)后才能被挖掘,輿情信息的挖掘較為全面。目前有很多輿情監(jiān)控系統(tǒng)采用這兩類方法相結合的方式進行輿情監(jiān)控。對于第一類方式,較為普遍,簡單而有效的一種方式是預存儲一些行業(yè)惡劣情感詞庫,比如高校教育行業(yè)里可設定自殺、罷課、貪污,猥褻等惡劣情感詞,然后對從網(wǎng)絡中抓取到的文本數(shù)據(jù)進行關鍵
3、詞字串正則匹配,匹配成功則過濾出一條輿情記錄同時將匹配的關鍵詞替換成高亮文本返回給用戶。該方法雖然可行,但正則表達式的算法完成一篇文檔的過濾需要對關鍵詞集中每一個關鍵詞進行循環(huán)匹配,時間主要消耗在循環(huán)調(diào)用、字符串匹配和文本高亮替換之上,算法效率較為低下,在一定程度上影響了輿情發(fā)現(xiàn)的時效性。該文提出基于搜索引擎的關鍵詞查詢過濾方法,能夠最大限度的利用索引查詢的高效性,把批量輿情信息過濾時間控制在較短時間內(nèi),較好的解決了惡劣輿情過濾的實時高效問題。1 基于搜索引擎的關鍵詞輿情過濾算法設計在這一節(jié)中,先介紹搜索引擎背后的基本原理,然后詳細介紹基于搜索引擎的關鍵詞輿情過濾算法的設計與實現(xiàn)。1.1 索引
4、與布爾代數(shù)搜索引擎能夠在毫秒時間內(nèi)檢索到成千上萬的相關結果,其關鍵原理是索引和布爾代數(shù)運算。最簡單的索引的結構是用一個很長的二進制數(shù)表示一個關鍵詞是否出現(xiàn)在每篇文獻中,有多少篇文獻就有多少位數(shù),每一位對應一篇文獻,1代表相應的文獻有這個關鍵詞,0代表沒有。比如南華大學;的二進制數(shù)是010010001100001…,表示第二、第五、第九、第十、第十五篇文獻包含這個關鍵詞,論壇;的二進制數(shù)是010001001000000…,檢索同時包含南華大學;和論壇;的文獻時,將這兩個二進制代數(shù)進行AND布爾運算,就可以找到第二、第九篇文獻滿足要求。實際應用中的搜索引擎的索引是一個只
5、記錄了等于1的位數(shù)的一張大表:表的每一行對應一個關鍵詞,而每一個關鍵詞后面跟著一組數(shù)字,是包含該關鍵詞的文獻序號。計算機做布爾運算是非??斓?,目前最便宜的微機都可以在一個指令周期進行32位布爾運算,一秒鐘進行數(shù)十億次以上。1.2 輿情過濾算法設計基于搜索引擎的關鍵詞輿情過濾算法充分利用索引進行布爾運算所帶來的高效性進行設計。其設計思路及流程如圖1所示。先從爬蟲抓取完成隊列中獲得已經(jīng)下載好的網(wǎng)頁文檔,利用HTMLParser對其進行結構解析以獲得URL、標題、作者、正文、發(fā)表時間等屬性信息,然后將這些屬性構成的文檔對象插入數(shù)據(jù)庫采集記錄表,插入成功則獲取插入記錄的自增標識ID,然后進入分詞索引程
6、序,將需要分詞的屬性比如標題,正文進行分詞,然后連同標識ID一起分別作為一個Lucene文檔的域進行索引,索引完成之后即可對其進行過濾查詢。將標識ID和用戶設定的惡劣情感詞集組合成布爾查詢字符串之后對索引庫進行檢索,若能檢索到唯一一條記錄,則表明剛才索引的那篇文檔中包含有該用戶關心的輿情信息,最終反饋給用戶。以上是該過濾算法設計的基本思路流程,以下將對此過程中的關鍵問題進行詳細介紹。圖1 基于搜索引擎的關鍵詞輿情過濾設計流程1.2.1 唯一標識ID的生成唯一標識ID的生成方式有多種,只須滿足系統(tǒng)全局唯一標識一篇文檔的要求,因此可以通過程序生成全局唯一標識符。在實現(xiàn)石鼓輿情監(jiān)控系統(tǒng)的過程中,因為
7、要采集每一篇文檔的結構化數(shù)據(jù),因此唯一標識ID是通過數(shù)據(jù)庫采集記錄數(shù)據(jù)插入后返回主鍵ID得到的,如圖2中采集記錄表主鍵采集記錄ID。我們利用網(wǎng)絡爬蟲對某些特定監(jiān)控類型網(wǎng)站進行下載后做結構化解析,每個網(wǎng)頁文檔經(jīng)過解析將得到如圖2數(shù)據(jù)表所示的標題、作者、URL、發(fā)表時間、正文等元素信息,然后將此文檔元素信息插入采集記錄表和回復記錄表(沒有回復則不插入回復記錄表),插入成功后程序將獲得此記錄的自增類型主鍵采集記錄ID。此ID將成為后續(xù)進行索引的一個唯一標識域。圖2 石鼓輿情監(jiān)控系統(tǒng)部分數(shù)據(jù)庫設計1.2.2 索引的建立使用開源庫lucene建立索引。上一步生成的唯一標識ID須作為索引的一個文檔存儲域。
8、如無特殊要求,則可將文檔解析出來的全部文本作為另一個域進行分詞并索引。本輿情監(jiān)控系統(tǒng)將之前解析出的標題、正文、回復內(nèi)容作為索引域進行分詞后,連同采集記錄ID、URL、作者一起進行索引。為了保證文本分詞后預存儲的所有惡劣情感詞仍舊還作為一個完整詞出現(xiàn)在索引表中(如果待索引文本中包含預存儲的惡劣情感詞),需要將這些預存儲的惡劣情感詞加入分詞器的用戶自定義詞典,分詞器則不會將某情感詞分解成兩個或多個詞項了。這樣會保證后續(xù)的關鍵詞檢索不遺漏結果。本系統(tǒng)采用中科院分詞系統(tǒng)ICTCLAS50,可將惡劣情感詞加入詞典文件userdict.txt中。1.2.3 輿情關鍵詞查詢過濾索引表建立之后,則可循環(huán)將所有
9、用戶設定的惡劣情感詞集合和唯一標識ID構造布爾查詢字符串對索引表進行檢索。構造的查詢字符串實則是一個布爾算術表達式。比如查詢串采集記錄ID AND (跳樓OR 罷課 OR貪污 OR猥褻);,該表達式即可從剛索引的那篇文檔中找到是否含有一個或多個惡劣情感詞的記錄,有則返回該記錄文檔,沒有則返回零個文檔。查詢表達式中,所有惡劣情感詞之間是或OR關系,它們形成一個整體與采集記錄ID是與AND關系,形成的布爾運算要先檢索到滿足采集記錄ID等于指定值的索引文檔,然后在此文檔中檢索OR查詢串中包含的至少一個情感詞。本系統(tǒng)中如果查詢返回了一條記錄文檔,則將該記錄中匹配的關鍵詞高亮后反饋給用戶并入庫。1.3
10、輿情過濾算法的實現(xiàn)由于輿情監(jiān)控系統(tǒng)面對的是浩瀚信息的互聯(lián)網(wǎng),因此海量數(shù)據(jù)的處理效率是制約系統(tǒng)性能的關鍵因素。將該算法實現(xiàn)在基于生產(chǎn)者-消費者的多線程結構之上可大大提高系統(tǒng)性能,如圖3所示。將該算法的關鍵流程分拆到各個線程中分別實現(xiàn),線程控制數(shù)據(jù)緩存池中數(shù)據(jù)流的走向,各線程本身的并發(fā)運行交由線程池進行統(tǒng)一管理。這樣增大了系統(tǒng)的吞吐量,提高了系統(tǒng)資源的利用率,也大大的提升了系統(tǒng)的運行效能。2 實驗結果對比分析開發(fā)環(huán)境: Windows XP操作系統(tǒng),英特爾酷睿雙核T6600 2.20GHz處理器,4G存,Java JDK1.7,MySql5.5,Myeclipse9.0,lucene3.0。服務器
11、環(huán)境:Windows Server 2003,4核Intel? Xeon? CPU E5506 2.13GHz,16G內(nèi)存,Tomcat7.0。本系統(tǒng)算法的實驗分別基于三類網(wǎng)站進行觀察分析。第一類是以大量回復內(nèi)容為主的某BBS論壇網(wǎng)站,第二類是以大文本正文為主的新浪新聞網(wǎng)站,第三類是以小文本為主的騰訊微博(不要回復評論內(nèi)容)。得到的實驗結果與在程序中使用正則表達式和在數(shù)據(jù)庫中使用SQL正則表達式兩種方式做對比分析(這兩種情況同樣是在多線程架構之上進行試驗)。同時計算基于搜索引擎的過濾算法的查準率和查全率。因為本算法在完成一篇文檔的查詢過濾時,由于唯一標識ID的作用,每次只在特定的一篇文檔中查詢
12、過濾,檢索結果最多是返回一條記錄,因此采用平均查準率和查全率來衡量,分析N篇文檔時的定義如下:使用基于搜索引擎的輿情過濾算法在惡劣情感詞數(shù)量和索引庫大小兩個因素作用下監(jiān)控100篇文檔從下載到查詢過濾結束的運行時間結果,同時計算它們的平均查全率和平均價查準率,并實驗得到在java程序中使用正則表達式的運行時間,在mysql中使用SQL正則表達式的運行時間。繪圖得到如圖4,5,6。平均查全率和平均查準率如表1。表1 平均查全率/平均查準率圖4 *(南華)BBS論壇實驗結果圖5 新浪新聞實驗結果圖6 騰訊微博實驗結果分析圖4,5,6,三大類型網(wǎng)站的實驗圖大同小異,成水平狀態(tài)的4條曲線是基于搜索引擎的
13、過濾算法的運行時間圖,他們基本保持平穩(wěn)但有隨著惡劣情感詞個數(shù)增加呈稍微上升趨勢,當索引庫增大時,運行時間會有相應增加,但漲幅很小?;贘ava正則和sql正則的運行時間曲線都隨著惡劣情感詞個數(shù)增加基本呈線性增加趨勢,惡劣情感詞的數(shù)量決定了他們的循環(huán)次數(shù),當惡劣情感詞較少的時候(10個左右),性能會優(yōu)于基于搜索引擎的過濾算法,但當詞數(shù)增加時,特別是詞數(shù)較多時,則沒有絲毫性能優(yōu)勢。而從工程上來看,由于要適應于多個用戶,關鍵詞數(shù)往往在幾十甚至上百個以上。另外,基于sql正則的方法運行效率整體上比基于java正則有微弱優(yōu)勢。基于以上分析,基于搜索引擎關鍵詞過濾算法能很好的適應于各大類型網(wǎng)站,且能取得良
14、好的運行效率,達到惡劣輿情信息的發(fā)現(xiàn)實時高效的目標。分析表1,三大類型網(wǎng)站的平均查準率較高,平均查全率都偏低,騰訊微博的查全率和查準率都是三者中最低,這可能是用戶在發(fā)表微博這種短文本時隨意性較大所致。新浪新聞的查全率和查準率為三者中最高也與新聞介質本身規(guī)范性較強有關。因此,基于搜索引擎過濾算法的查全率有待提高。3 總結基于搜索引擎的關鍵詞輿情過濾算法在執(zhí)行效率上要比普通的正則匹配、高亮文本替換好得多,它非常適合于網(wǎng)頁實時下載和內(nèi)容解析的系統(tǒng)中,并且能利用開源搜索引擎框架的高亮語法方便的生成輿情簡要文本,較好的解決了惡劣輿情信息的實時挖掘問題。下一步的工作:一是將索引庫嘗試部署成分布式索引,構建
15、運行高效而穩(wěn)定的輿情過濾監(jiān)控系統(tǒng)和搜索引擎;二是結合機器學習的方式進行文本聚類以獲得更高的查全率和查準率。參考文獻:【1】 李強.互聯(lián)網(wǎng)有害信息實時過濾報警系統(tǒng)的實現(xiàn).計算機工程與設計,2006(18):3419-3423.【2】 王俊.基于Web搜索的輿情分析系統(tǒng)的設計與實現(xiàn).北京:北京郵電大學,2011.【3】 龐磊,李壽山,周國棟.基于情緒知識的中文微博情感分類方法.計算機工程,2012(13);156-158.【4】 邱云飛,程亮. 微博突發(fā)話題檢測方法研究.計算機工程,2012(9);288-290.【5】 Kim Soo-Min, Hovy E.Automatic Detection of Opinion Bearing Words and Sentences/Proc. of International Joint Conference on Natural Language Processing. Jeju Island, Korea: , 2005.【6】 Qiang Y,Ziqiong Zhang,Rob Law.Sentiment classication of online re-views to travel de
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 上??苿?chuàng)職業(yè)技術學院《媒材藝術》2023-2024學年第一學期期末試卷
- 上海海關學院《國際經(jīng)貿(mào)組織》2023-2024學年第一學期期末試卷
- 企業(yè)員工管理制度品讀選集
- 上海工商職業(yè)技術學院《獸藥殘留分析》2023-2024學年第一學期期末試卷
- 小學安全與環(huán)境
- 2024年秋季小學數(shù)學北京課改版五年級【數(shù)學(北京版)】小數(shù)除法解決問題(第一課時)-4課后練習
- 機械設計基礎課件 模塊6 齒輪傳動構件承載能力分析
- agv小車轉向課程設計
- 曲軸箱箱體課程設計
- 代做課程設計450
- oa系統(tǒng)合同范例
- 建設精神病醫(yī)院
- 《文明禮儀概述培訓》課件
- 保險金信托課件
- 新時代科學家精神學習通超星期末考試答案章節(jié)答案2024年
- 拋光粉廢料中稀土元素的回收綜述
- (正式版)HGT 22820-2024 化工安全儀表系統(tǒng)工程設計規(guī)范
- 跨文化溝通心理學智慧樹知到期末考試答案2024年
- 《中華民族共同體概論》考試復習題庫(含答案)
- 標準的指令性目標問題解決型案例
- 預制梁場建設驗收標準
評論
0/150
提交評論