搜索引擎與輿情監(jiān)測系統(tǒng)的區(qū)別_第1頁
搜索引擎與輿情監(jiān)測系統(tǒng)的區(qū)別_第2頁
搜索引擎與輿情監(jiān)測系統(tǒng)的區(qū)別_第3頁
免費(fèi)預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

搜索引擎與輿情監(jiān)測系統(tǒng)的區(qū)別

搜索引擎和輿情監(jiān)測系統(tǒng)雖然有著一些共通之處,但是二者的設(shè)計(jì)初衷完全不同,我們要想要了解輿情監(jiān)測需要哪種工具,就必須先要了解各種工具是為了解決什么問題而設(shè)計(jì)的,其工作原理又是什么。搜索引擎的核心價(jià)值在于快速地為用戶找到所需要的內(nèi)容,它是在大而全的收錄的基礎(chǔ)上,按一定算法評估頁面內(nèi)容的價(jià)值,并以倒序排列的方式呈現(xiàn)給用戶。董敬一網(wǎng)絡(luò)輿情研究認(rèn)為,輿情監(jiān)測系統(tǒng)的核心價(jià)值是第一時(shí)間獲取與“我”相關(guān)的輿情信息。輿情監(jiān)控重點(diǎn)強(qiáng)調(diào)的是第一時(shí)間、與“我相關(guān)”以及輿情價(jià)值。有一點(diǎn)需要注意的是內(nèi)容價(jià)值和輿情價(jià)值完全是兩回事,并不是所有的頁面的信息都是輿情信息,技術(shù)站點(diǎn)、下載站點(diǎn)以及訪問量極低的僵尸站點(diǎn)的信息就不是輿情信息。也有可能某一篇博文的內(nèi)容價(jià)值很低,只有幾句話幾個(gè)圖片,但是很有可能它的輿情價(jià)值卻很大。搜索引擎與輿情監(jiān)測系統(tǒng)的不同具體體現(xiàn)在:一、全網(wǎng)抓取與重點(diǎn)抓取搜索引擎的工作原理是先將所有互聯(lián)網(wǎng)上它認(rèn)為有用的頁面先抓取到它的數(shù)據(jù)庫中,然后對這些頁面進(jìn)行索引,最后使用戶提交一個(gè)關(guān)鍵詞時(shí)由系統(tǒng)在它自己的數(shù)據(jù)庫中對這個(gè)關(guān)鍵詞進(jìn)行匹配,并將匹配結(jié)果以一種順序展示給搜索者。整個(gè)互聯(lián)網(wǎng)上的站點(diǎn)是海量的,并不是所有的網(wǎng)絡(luò)站點(diǎn)上都會產(chǎn)生有價(jià)值的輿情信息,我們通過對近些年的網(wǎng)絡(luò)熱點(diǎn)事件進(jìn)行觀察就會發(fā)現(xiàn),幾乎所有的輿情事件最開始都是在有數(shù)的一些重點(diǎn)網(wǎng)站上產(chǎn)生的,例如新浪博客、天涯論壇、貓撲以及類似華龍網(wǎng)、遼一網(wǎng)這類地方網(wǎng)站,除了突發(fā)事件能夠直接被門戶關(guān)注之外,一般性事件都是經(jīng)過這些網(wǎng)站的發(fā)酵之后,才被各大新聞門戶關(guān)注,從而促使輿情爆發(fā)。所以輿情監(jiān)控的重點(diǎn),顯然不是整個(gè)互聯(lián)網(wǎng),而是這些易于產(chǎn)生輿情事件的論壇、博客、社交網(wǎng)站、地方網(wǎng)站及新聞?wù)军c(diǎn),例如大連西盈信息技術(shù)有限公司的西盈網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)就提供了一個(gè)3000個(gè)基礎(chǔ)網(wǎng)站監(jiān)測列表,幾乎已經(jīng)可以覆蓋整個(gè)網(wǎng)絡(luò)輿論場。輿情系統(tǒng)的重點(diǎn)抓取策略可以使信息抓取工作更加精準(zhǔn),有效的避免了信息噪音對系統(tǒng)正常運(yùn)行的影響,從而提高后面的輿情分析系統(tǒng)的工作效率。二、內(nèi)容價(jià)值與輿情價(jià)值搜索引擎的工作原理主要是判斷網(wǎng)頁的內(nèi)容價(jià)值,判斷內(nèi)容價(jià)值這其中起主導(dǎo)作用的是鏈接分析技術(shù),基本工作原理是,當(dāng)搜索引擎發(fā)現(xiàn)有大量的高質(zhì)量頁面有鏈接同時(shí)指向某一個(gè)頁面時(shí),搜索引擎則認(rèn)為這個(gè)頁面很“重要”,從而將這個(gè)頁面呈現(xiàn)給搜索者。鏈接分析技術(shù)顯然不適用于輿情價(jià)值的判斷。第一,鏈接分析技術(shù)存在盲區(qū),近年來一些新興的WEB2.0站點(diǎn)開始主動屏蔽搜索引擎的抓取,例如一些微博和SNS社交網(wǎng)站,而這些網(wǎng)站由于其傳播速度快,恰恰是易于爆發(fā)輿情危機(jī)的地方。第二,鏈接分析技術(shù)無法判斷該頁面的輿情價(jià)值,例如某個(gè)論壇的某個(gè)貼子,可能只有幾行文字配合幾副圖片,該頁面對于搜索引擎來講,內(nèi)容的價(jià)值很低,但可能由于其文字內(nèi)容和圖片內(nèi)容與網(wǎng)民利益切身相關(guān),它可能具有很重要的輿情價(jià)值,但搜索引擎可能并不會對這個(gè)頁面進(jìn)行收錄,或者該頁面排名非??亢螅谷穗y以檢索發(fā)現(xiàn)到,錯(cuò)過了輿情監(jiān)控的最佳時(shí)機(jī)。以上搜索引擎在輿情工作中的兩個(gè)致命缺陷,嚴(yán)重制約了輿情工作人員及時(shí)獲取輿情信息的能力,被忽略的輿情信息很有可能發(fā)展爆發(fā),產(chǎn)生嚴(yán)重后果。而輿情監(jiān)測系統(tǒng)會考慮到如轉(zhuǎn)發(fā)數(shù)、回復(fù)數(shù)、瀏覽量、傳播速度這些更能反映輿情價(jià)值的參數(shù),來判斷一個(gè)信息是否具有輿情價(jià)值。三、被動收錄與主動抓取由于搜索引擎索引的范圍是整個(gè)互聯(lián)網(wǎng),海量數(shù)據(jù)的處理肯定無法做到時(shí)實(shí)監(jiān)控,搜索引擎基于內(nèi)容價(jià)值對各個(gè)網(wǎng)站有自己判斷,對它認(rèn)為質(zhì)量高的網(wǎng)站收錄速度會快一些,對它認(rèn)為質(zhì)量低的網(wǎng)站收錄速度就會慢一些,而這種判斷并不是基于對輿情價(jià)值的判斷,所以仍然會產(chǎn)生輿情價(jià)值高的內(nèi)容沒有被索引或是已經(jīng)過了很久才被索引,搜索引擎什么時(shí)間放出爬蟲去抓取目標(biāo)網(wǎng)站,以及收錄目標(biāo)網(wǎng)站的哪些頁面,這對我們來說都只能被動等待,搜索引擎處于自身商業(yè)利益考慮,一般是不會100%抓取一個(gè)網(wǎng)站的內(nèi)容的。還有一點(diǎn),通常輿情信息都會發(fā)生在網(wǎng)站的內(nèi)頁,搜索引擎抓取網(wǎng)站內(nèi)頁后,在很長一段時(shí)間都不會對這個(gè)內(nèi)頁再次抓取,這樣便很難跟蹤這些輿情信息的變化趨勢,例如對信息回貼、評論、瀏覽量和轉(zhuǎn)載量的監(jiān)控,這些都會對輿情監(jiān)控工作帶來嚴(yán)重影響。而輿情監(jiān)控系統(tǒng)的監(jiān)控范圍是互聯(lián)網(wǎng)上易于產(chǎn)生輿情信息的網(wǎng)站,由于監(jiān)控目標(biāo)非常精確,所以可以提高監(jiān)控效率,輿情監(jiān)控系統(tǒng)什么時(shí)候放出爬蟲去抓取目標(biāo)網(wǎng)站,完全由我們自己說了算,我們可以30分鐘抓取一次,也可以1分鐘抓取一次,也可以想抓取的時(shí)候就抓取,而且理論上可以做到對目標(biāo)網(wǎng)站的100%抓取,包括對重點(diǎn)輿情信息的跟蹤抓取,這種主動監(jiān)控機(jī)制可以保證輿情工作者第一時(shí)間發(fā)現(xiàn)輿情信息,有效把握黃金4小時(shí),引導(dǎo)輿情走向。輿情監(jiān)控系統(tǒng)在重點(diǎn)監(jiān)控網(wǎng)站以外也可以參考和跟蹤搜索引擎的內(nèi)容,可以做到統(tǒng)籌兼顧,萬無一失。四、人工檢索與軟件聚合在沒有輿情監(jiān)控系統(tǒng)的年代,監(jiān)控各個(gè)網(wǎng)站輿情信息,人工檢索的工作量是很大的,例如判斷一個(gè)信息的轉(zhuǎn)載量,還要考慮其標(biāo)題的變種,衍生內(nèi)容,替代詞、傳播范圍等等因素,而且很多私秘網(wǎng)站的內(nèi)容在通用搜索引擎上還無法檢索到,例如微博和一些SNS社區(qū),還需要借助相關(guān)垂直搜索工具來檢索信息,這些監(jiān)控工作都需要持續(xù)跟蹤,所以就需要不斷的重復(fù)進(jìn)行相關(guān)人工檢索,這個(gè)工作效率就非常低了。軟件就是為了解決人工重復(fù)勞動的問題,這些動作其實(shí)完全都可以借助專業(yè)的輿情監(jiān)控系統(tǒng)來完成,例如董敬一網(wǎng)絡(luò)輿情提供的專業(yè)輿情監(jiān)控系統(tǒng),可以對輿情信息進(jìn)行深度分析,通過重點(diǎn)目標(biāo)監(jiān)測和元搜索引擎輔助監(jiān)測,實(shí)現(xiàn)全網(wǎng)信息匹配,將全網(wǎng)各種輿情信息副本、衍生版本聚合在一個(gè)操作界面下,覆蓋微博、SNS社區(qū)或其他私秘網(wǎng)站,幫助輿情監(jiān)控工作者宏觀把握輿情走勢。五、主觀判斷與智能預(yù)警以前輿情工作者通過搜索引擎獲取信息,都是通過自己的主觀認(rèn)識,評判一個(gè)輿情信息的價(jià)值,而這種主觀認(rèn)識,由于缺乏及時(shí)的具體數(shù)據(jù)支持,例如傳播速度、轉(zhuǎn)載量、回復(fù)量、正反面觀點(diǎn)比例判斷等等,經(jīng)常會出現(xiàn)偏差,這就易于產(chǎn)生輿情誤判。還有對一些新興網(wǎng)絡(luò)詞語用在不同情景下的語意把握,完全憑主觀學(xué)習(xí)和判斷,這個(gè)難度就比較大。輿情監(jiān)控系統(tǒng)擁有有效監(jiān)控這些判斷輿情價(jià)值參數(shù)的手段,就可以解決這些問題。輿情監(jiān)控系統(tǒng)通過對歷史輿情事件的研究,通常擁有自己的判斷模型,什么條件達(dá)到什么預(yù)警級別、在什么時(shí)候預(yù)警,以何種方式預(yù)警,輿情監(jiān)控系統(tǒng)都會有更科學(xué)的判斷方法。輿情監(jiān)控系統(tǒng)一般都會配備一個(gè)衍生詞數(shù)據(jù)庫,這個(gè)數(shù)據(jù)庫通常具備自我學(xué)習(xí)功能,針對近些年互聯(lián)網(wǎng)上陸續(xù)出現(xiàn)的一些網(wǎng)絡(luò)詞匯,例如神馬、蒜你狠、坑爹、上墻、拼爹、你妹等等進(jìn)行主動學(xué)習(xí)和收錄,在不同的語境下做具體的語意分析,保證輿情監(jiān)控不留死角,與時(shí)具進(jìn)。除此之外,輿情監(jiān)控系統(tǒng)通常都會集成一些專門為輿情工作者量身定制的貼心小功能,例如手機(jī)短信、郵件通知,可以讓輿情工作者在非工作時(shí)間也能第一時(shí)間掌握網(wǎng)絡(luò)輿情

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論