第五章 網(wǎng)絡輿情監(jiān)測技術_第1頁
第五章 網(wǎng)絡輿情監(jiān)測技術_第2頁
第五章 網(wǎng)絡輿情監(jiān)測技術_第3頁
第五章 網(wǎng)絡輿情監(jiān)測技術_第4頁
第五章 網(wǎng)絡輿情監(jiān)測技術_第5頁
已閱讀5頁,還剩41頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第五章網(wǎng)絡輿情監(jiān)測技術主講:XXX導言

網(wǎng)絡輿情監(jiān)測技術非常復雜,涉及許多計算機與網(wǎng)絡等方面的專業(yè)知識,對于新聞與傳播的從業(yè)者和研究者而言,掌握網(wǎng)絡輿情監(jiān)測相關的基本技術原理,把握技術的基本發(fā)展方向以及它們對于網(wǎng)絡輿情監(jiān)測的影響,是十分必要的。目錄第一節(jié)網(wǎng)絡輿情監(jiān)測數(shù)據(jù)采集第二節(jié)網(wǎng)絡輿情監(jiān)測數(shù)據(jù)分析第三節(jié)網(wǎng)絡輿情監(jiān)測可視化技術第四節(jié)大數(shù)據(jù)時代網(wǎng)絡輿情監(jiān)測技術遇到的挑戰(zhàn)基礎概念:索引統(tǒng)一資源定位符(UniformResourceLocator,URL)是對可以從互聯(lián)網(wǎng)上得到的資源的位置和訪問方法的一種簡潔的表示,是互聯(lián)網(wǎng)上標準資源的地址?;ヂ?lián)網(wǎng)上的每個文件都有一個唯一的URL,它包含的信息指出文件的位置以及瀏覽器應該怎么處理它。只要能夠對資源定位,系統(tǒng)就可以對資源進行各種操作,如存取、更新、替換和查找其屬性。基礎概念:索引在關系數(shù)據(jù)庫中,索引是一種單獨的、物理的對數(shù)據(jù)庫表中一列或多列的值進行排序的一種存儲結構,它是某個表中一列或若干列值的集合和相應的指向表中物理標識這些值的數(shù)據(jù)頁的邏輯指針清單。索引的作用相當于圖書的目錄,可以根據(jù)目錄中的頁碼快速找到所需的內容。第一節(jié)網(wǎng)絡輿情監(jiān)測數(shù)據(jù)采集

(一)網(wǎng)絡爬蟲網(wǎng)絡爬蟲(又被稱為網(wǎng)頁蜘蛛、網(wǎng)絡機器人),是一種按照一定的規(guī)則自動地抓取互聯(lián)網(wǎng)信息的程序或者腳本。一、數(shù)據(jù)采集基本技術第一節(jié)網(wǎng)絡輿情監(jiān)測數(shù)據(jù)采集

(一)網(wǎng)絡爬蟲1.網(wǎng)絡爬蟲的類型(1)批量型爬蟲:批量型爬蟲有比較明確的抓取范圍和目標,當爬蟲達到這個設定的目標后,即停止抓取過程。批量型爬蟲是目前數(shù)據(jù)采集系統(tǒng)中最簡單的爬蟲系統(tǒng)。(2)增量型爬蟲:增量型爬蟲會保持持續(xù)不斷的抓取,對于已經(jīng)抓取過的網(wǎng)頁會按照一定策略定期更新。增量型爬蟲是目前數(shù)據(jù)采集系統(tǒng)中最常用的爬蟲系統(tǒng)。(3)垂直型爬蟲:垂直型爬蟲只關注特定主題或特定行業(yè)的網(wǎng)頁,其最大的挑戰(zhàn)就是如何識別網(wǎng)頁的內容是否屬于指定行業(yè)或主題。一般只有垂直行業(yè)分析才會需要此類型的爬蟲。一、數(shù)據(jù)采集基本技術第一節(jié)網(wǎng)絡輿情監(jiān)測數(shù)據(jù)采集

(一)網(wǎng)絡爬蟲2.網(wǎng)絡爬蟲的特性(1)高性能:爬蟲系統(tǒng)在單位時間內下載的網(wǎng)頁數(shù)量越多性能越高。(2)可擴展性:爬蟲系統(tǒng)應該很容易通過增加抓取服務器和爬蟲數(shù)量來縮短抓取周期。(3)健壯性:包括兩方面,一是爬蟲系統(tǒng)可以處理抓取中遇到的各種非正常情況,二是爬蟲系統(tǒng)自身有一套健壯的容錯機制。(4)友好性:包括兩方面,一是保護網(wǎng)站的部分私密性,二是減少被抓取網(wǎng)站的網(wǎng)絡負載。一、數(shù)據(jù)采集基本技術第一節(jié)網(wǎng)絡輿情監(jiān)測數(shù)據(jù)采集

(二)網(wǎng)頁去重在當今的互聯(lián)網(wǎng)環(huán)境中,有相當大比例的內容是完全相同或者大體相近的。這些網(wǎng)頁不僅會增加數(shù)據(jù)采集系統(tǒng)的壓力,而且會影響后續(xù)數(shù)據(jù)分析結果的質量,所以網(wǎng)頁去重的問題尤為突出,已經(jīng)成為提高數(shù)據(jù)質量的關鍵技術之一。在實際的數(shù)據(jù)采集系統(tǒng)中,往往是在爬蟲階段進行網(wǎng)頁去重操作。當爬蟲新抓取到網(wǎng)頁時,需要和已經(jīng)建立到索引內的網(wǎng)頁進行重復判斷,如果判斷是近似重復網(wǎng)頁,則按一定策略進行處理,如直接丟棄、打上相似標簽。一、數(shù)據(jù)采集基本技術第一節(jié)網(wǎng)絡輿情監(jiān)測數(shù)據(jù)采集

(三)分布式技術分布式計算是一門計算機科學,它研究如何把一個需要非常巨大的計算能力才能解決的問題分成許多小的部分,然后把這些部分分配給許多計算機進行處理,最后把這些計算結果綜合起來得到最終的結果。面對海量的數(shù)據(jù)抓取任務,只有采取分布式架構才有可能在較短的時間周期內完成一輪抓取工作。常見的分布式架構有兩種:主從式分布爬蟲和對等式分布爬蟲。一、數(shù)據(jù)采集基本技術第一節(jié)網(wǎng)絡輿情監(jiān)測數(shù)據(jù)采集

(三)分布式技術1.主從式分布爬蟲(master-slave)是分布式技術中最傳統(tǒng)的也是最常見的一種形式,它指不同的服務器承擔著不同的角色,其中有一臺專門的master服務器來維護待抓取的URL(universalresourcelocator,統(tǒng)一資源定位符)隊列,它負責每次將URL分發(fā)到不同的slave服務器,而slave服務器則負責實際的網(wǎng)頁下載工作。Master服務器除了維護待抓取URL隊列以及分發(fā)URL之外,還要負責調解各個slave服務器的負載情況,以免某些slave服務器過于清閑或者勞累。一、數(shù)據(jù)采集基本技術第一節(jié)網(wǎng)絡輿情監(jiān)測數(shù)據(jù)采集

(三)分布式技術1.主從式分布爬蟲(master-slave)一、數(shù)據(jù)采集基本技術第一節(jié)網(wǎng)絡輿情監(jiān)測數(shù)據(jù)采集

(三)分布式技術2.對等式分布爬蟲(peertopeer)對等式分布爬蟲體系中,服務器之間不存在分工差異,每臺服務器都承擔著一樣的功能,各自負責一部分URL的抓取工作。由于沒有URL服務器存在,如何分工就成了主要問題。一、數(shù)據(jù)采集基本技術第一節(jié)網(wǎng)絡輿情監(jiān)測數(shù)據(jù)采集

二、數(shù)據(jù)采集原理第一節(jié)網(wǎng)絡輿情監(jiān)測數(shù)據(jù)采集

網(wǎng)絡爬蟲的基本工作流程如下:(1)首先選取一部分精心挑選的種子URL。(2)將這些URL放入待抓取URL隊列。(3)從待抓取的URL隊列中取出待抓取的URL,解析DNS,并且得到主機的IP,將URL對應的網(wǎng)頁下載下來,存儲進已下載網(wǎng)頁庫中。此外,將這些URL放進已抓取URL隊列。(4)分析已抓取URL隊列中的URL,分析其中的其他URL,并且將URL放入待抓取URL隊列,從而進入下一個循環(huán)。二、數(shù)據(jù)采集原理第一節(jié)網(wǎng)絡輿情監(jiān)測數(shù)據(jù)采集

(一)網(wǎng)頁搜索策略1.廣度優(yōu)先搜索策略廣度優(yōu)先策略是指在抓取過程中,在完成當前層次的搜索后,才進行下一層次的搜索。2.最佳優(yōu)先搜索策略按照一定的網(wǎng)頁分析算法,預測候選URL與目標網(wǎng)頁的相似度,并選取最好的一個或幾個URL進行抓取。只訪問經(jīng)過網(wǎng)頁分析算法預測為“有用”的網(wǎng)頁。3.深度優(yōu)先策略從起始網(wǎng)頁開始,選擇一個URL進入,分析這個網(wǎng)頁中的URL,選擇一個再進入。三、數(shù)據(jù)采集常用方法第一節(jié)網(wǎng)絡輿情監(jiān)測數(shù)據(jù)采集

(二)網(wǎng)頁更新策略1.歷史參考策略是最直觀的一種更新策略,它建立于如下假設之上:過去頻繁更新的網(wǎng)頁,那么將來也會頻繁更新,所以為了預估某個網(wǎng)頁何時進行更新,可以通過參考其歷史更新情況來做出決定。三、數(shù)據(jù)采集常用方法第一節(jié)網(wǎng)絡輿情監(jiān)測數(shù)據(jù)采集

(二)網(wǎng)頁更新策略2.用戶體驗策略一般來說,用戶提交查詢結果后,相關的搜索結果可能成千上萬,而用戶沒有耐心去查看排在后面的搜索結果,往往只看前三頁的搜索內容,用戶體驗策略就是利用搜索引擎用戶的這個特點來涉及更新策略的。三、數(shù)據(jù)采集常用方法第一節(jié)網(wǎng)絡輿情監(jiān)測數(shù)據(jù)采集

(二)網(wǎng)頁更新策略3.聚類抽樣策略網(wǎng)頁一般具有一些屬性,根據(jù)這些屬性可以預測其更新周期,具有相似屬性的網(wǎng)頁,其更新周期也是類似的。于是,可以根據(jù)這些屬性將網(wǎng)頁歸類,同一類別內的網(wǎng)頁具有相同的更新頻率,并通過對各類別內網(wǎng)頁采樣的方式來確定更新周期。三、數(shù)據(jù)采集常用方法第二節(jié)網(wǎng)絡輿情監(jiān)測數(shù)據(jù)分析

(一)全文檢索技術——負責命中目標信息全文檢索技術是按照全文檢索理論建立起來的用于提供全文檢索服務的軟件系統(tǒng)。一般來說,全文檢索需要具備建立索引和提供查詢的基本功能,還需要具有方便的用戶接口、面向WWW的開發(fā)接口等。在功能上,全文檢索系統(tǒng)核心具有建立索引、處理查詢返回結果集、增加索引、優(yōu)化索引結構等功能,外圍則由各種不同應用具有的功能組成。在結構上,全文檢索系統(tǒng)核心具有索引引擎、查詢引擎、文本分析引擎、對外接口等,加上各種外圍應用系統(tǒng)等共同構成了全文檢索系統(tǒng)。一、數(shù)據(jù)分析基本技術第二節(jié)網(wǎng)絡輿情監(jiān)測數(shù)據(jù)分析

(二)文本挖掘技術——負責對數(shù)據(jù)進行挖掘分析文本挖掘是一個對具有豐富語義的文本進行分析從而理解其所包含的內容和意義的過程,它已經(jīng)成為數(shù)據(jù)挖掘中一個日益流行而重要的研究領域。與一般數(shù)據(jù)挖掘以關系、事務和數(shù)據(jù)倉庫中的結構數(shù)據(jù)為研究目標所不同的是,文本挖掘所研究的文本數(shù)據(jù)庫由來自各種數(shù)據(jù)源的大量文檔組成,包括新聞文章、研究論文、書籍、期刊、報告、專利說明書、會議文獻、技術檔案、政府出版物、數(shù)字圖書館、技術標準、產(chǎn)品樣本、電子郵件消息、web頁面等。一、數(shù)據(jù)分析基本技術第二節(jié)網(wǎng)絡輿情監(jiān)測數(shù)據(jù)分析

(二)文本挖掘技術——負責對數(shù)據(jù)進行挖掘分析文本挖掘技術在網(wǎng)絡輿情信息分析中的應用:對網(wǎng)絡輿情進行描述;對網(wǎng)絡輿情的關聯(lián)性進行分析;對網(wǎng)絡輿情信息的真實性進行判斷分析,對傳播主體的意圖及態(tài)度傾向進行推論;對網(wǎng)絡輿情的產(chǎn)生原因進行分析;預測和推論網(wǎng)絡輿情信息的產(chǎn)生和變化趨勢;一、數(shù)據(jù)分析基本技術第二節(jié)網(wǎng)絡輿情監(jiān)測數(shù)據(jù)分析

(一)全文檢索技術原理目前全文搜索引擎通常使用倒排索引技術。倒排索引(invertedindex),也常被稱為反向索引、置入檔案或反向檔案,是一種索引方法,被用來存儲在全文搜索下某個單詞在一個文檔或者一組文檔中的存儲位置的映射。它是文檔檢索系統(tǒng)中最常用的數(shù)據(jù)結構。二、數(shù)據(jù)分析原理知識延伸:正向索引在搜索引擎中每個文件都對應一個文件ID,文件內容被表示為一系列關鍵詞的集合(實際上在搜索引擎索引庫中,關鍵詞也已經(jīng)轉換為關鍵詞ID)。例如“文檔1”經(jīng)過分詞,提取了20個關鍵詞,每個關鍵詞都會記錄它在文檔中的出現(xiàn)次數(shù)和出現(xiàn)位置。第二節(jié)網(wǎng)絡輿情監(jiān)測數(shù)據(jù)分析

(二)文本挖掘技術原理步驟:二、數(shù)據(jù)分析原理第二節(jié)網(wǎng)絡輿情監(jiān)測數(shù)據(jù)分析

(二)文本挖掘技術原理步驟:(1)文本預處理:選取任務相關的文本并將其轉化成文本挖掘工具可以處理的中間形式。(2)文本挖掘:在完成文本預處理后,可以利用機器學習、數(shù)據(jù)挖掘以及模式識別等方法提取面向特定應用目標的知識或模式。(3)模式評估與表示:為最后一個環(huán)節(jié),是利用已經(jīng)定義好的評估指標對獲取的知識或模式進行評價。如果評價結果符合要求,就存儲該模式以備用戶使用;否則返回到前面的某個環(huán)節(jié)重新調整和改進,然后再進行新一輪的發(fā)現(xiàn)。二、數(shù)據(jù)分析原理第二節(jié)網(wǎng)絡輿情監(jiān)測數(shù)據(jù)分析

(二)文本挖掘技術原理二、數(shù)據(jù)分析原理第二節(jié)網(wǎng)絡輿情監(jiān)測數(shù)據(jù)分析

(一)文檔聚類首先,文檔聚類基于文檔之間的相似度,可以發(fā)現(xiàn)與某文檔相似的一批文檔,幫助知識工作者發(fā)現(xiàn)相關知識;其次,文檔聚類可以將一個文檔聚類成若干個類,提供一種組織文檔集合的方法;再次,文檔聚類還可以生成分類器以對文檔進行分類。聚類方法通常有:文本挖掘中的聚類可用于提供大規(guī)模文檔集內容的總括,識別隱藏的文檔間的相似度,減輕瀏覽相關、相似信息的過程。三、數(shù)據(jù)分析常用文本挖掘算法第二節(jié)網(wǎng)絡輿情監(jiān)測數(shù)據(jù)分析

(二)文檔分類分類和聚類的區(qū)別在于:分類是基于已有的分類體系表的,而聚類則沒有分類表,只是基于文檔之間的相似度。由于分類體系表一般比較準確、科學地反映了某一個領域的劃分情況,所以在信息系統(tǒng)中使用分類的方法,能夠讓用戶手工遍歷一個等級分類體系來找到自己需要的信息,達到發(fā)現(xiàn)知識的目的,這在用戶剛開始接觸一個領域想了解其中的情況,或者用戶不能夠準確地表達自己的信息需求時特別有用。傳統(tǒng)搜索引擎中目錄式搜索引擎屬于分類的范疇,但是許多目錄式搜索引擎都采用人工分類的方法,不僅工作量巨大,而且準確度不高,大大限制了其作用的發(fā)揮。三、數(shù)據(jù)分析常用文本挖掘算法第二節(jié)網(wǎng)絡輿情監(jiān)測數(shù)據(jù)分析

(三)自動文摘互聯(lián)網(wǎng)上的文本信息、機構內部的文檔及數(shù)據(jù)庫的內容都在以呈指數(shù)級的速度增長,用戶在檢索信息的時候,可以得到成千上萬篇的返回結果,其中許多是與其信息需求無關或關系不大的,如果要剔除這些文檔,則必須閱讀完全文,這要求用戶付出很多勞動,而且效果不好。自動文摘能夠生成簡短的關于文檔內容的指示性信息,將文檔的主要內容呈現(xiàn)給用戶,方便用戶決定是否要閱讀文檔的原文,這樣能夠節(jié)省大量的瀏覽時間。三、數(shù)據(jù)分析常用文本挖掘算法第三節(jié)網(wǎng)絡輿情監(jiān)測可視化技術

數(shù)據(jù)可視化(datavisualization)是研究數(shù)據(jù)和信息視覺呈現(xiàn)的學科。它解決的問題一方面是如何將冰冷枯燥的數(shù)據(jù)和信息用有趣直觀的方式呈現(xiàn)給受眾,另一方面也是視覺分析的方法,幫助人們理解大量的復雜的數(shù)據(jù)背后隱藏的故事和洞察。它是將計算機科學領域的理性邏輯思維與藝術設計領域的視覺傳達思維相結合的一種方式。一、數(shù)據(jù)可視化技術介紹第三節(jié)網(wǎng)絡輿情監(jiān)測可視化技術

圖形是直觀呈現(xiàn)數(shù)據(jù)的直接方法。然而,將大量數(shù)據(jù)在同一個圖表中畫出來并不容易。早期的測繪、天氣數(shù)據(jù)都需要長時間的手工繪制。隨著計算機繪圖功能的開發(fā),手工繪畫已經(jīng)完全被自動繪圖程序取代,其問題的核心轉移為要以怎樣的方式呈現(xiàn)數(shù)據(jù),以便數(shù)據(jù)中的信息能自然地體現(xiàn)出來。一、數(shù)據(jù)可視化技術介紹第三節(jié)網(wǎng)絡輿情監(jiān)測可視化技術

可視化不是一個單獨的算法,而是一個流程。一般來講,可視化流程以數(shù)據(jù)流向為主線,整個過程可以看成數(shù)據(jù)流經(jīng)一系列處理模塊并得到轉換的過程。用戶通過可視化交互和其他模塊互動,通過反饋提高可視化的效果。作為探索數(shù)據(jù)的工具,可視化有它的輸入和輸出??梢暬膶ο蠡蛘哒f研究的問題并非數(shù)據(jù)本身,而是數(shù)據(jù)背后的社會自然現(xiàn)在和過程。換個角度來看,可視化的最終結果并不是人們所看到的一系列像素,而是用戶通過可視化從數(shù)據(jù)中得到的知識和靈感。二、數(shù)據(jù)可視化原理第三節(jié)網(wǎng)絡輿情監(jiān)測可視化技術

(一)可視化流水線可視化流水線模型,描述了從數(shù)據(jù)空間到可視空間的映射,包含串行數(shù)據(jù)處理的各個階段:數(shù)據(jù)分析、數(shù)據(jù)過濾、數(shù)據(jù)映射和數(shù)據(jù)渲染。二、數(shù)據(jù)可視化原理第三節(jié)網(wǎng)絡輿情監(jiān)測可視化技術

(二)信息可視化參考流程其起點為輸入的數(shù)據(jù),終點是獲取的知識。從數(shù)據(jù)到知識有兩個途徑:對數(shù)據(jù)進行交互可視化,以幫助用戶感知數(shù)據(jù)中蘊含的規(guī)律;或按照給定的先驗假設進行數(shù)據(jù)挖掘,從數(shù)據(jù)中直接提煉出數(shù)據(jù)模型。用戶既可以對可視化結果進行交互修正,也可以調節(jié)參數(shù)來修正模型。二、數(shù)據(jù)可視化原理第三節(jié)網(wǎng)絡輿情監(jiān)測可視化技術

(二)信息可視化參考流程其起點為輸入的數(shù)據(jù),終點是獲取的知識。從數(shù)據(jù)到知識有兩個途徑:對數(shù)據(jù)進行交互可視化,以幫助用戶感知數(shù)據(jù)中蘊含的規(guī)律;或按照給定的先驗假設進行數(shù)據(jù)挖掘,從數(shù)據(jù)中直接提煉出數(shù)據(jù)模型。用戶既可以對可視化結果進行交互修正,也可以調節(jié)參數(shù)來修正模型。二、數(shù)據(jù)可視化原理第四節(jié)大數(shù)據(jù)時代網(wǎng)絡輿情監(jiān)測技術遇到的挑戰(zhàn)

最早提出“大數(shù)據(jù)”這一說法的是美國麥肯錫全球研究院(MGI)于2011年5月發(fā)表的一篇研究報告《大數(shù)據(jù):未來創(chuàng)新、競爭、生產(chǎn)力的指向標》。這篇報告預示了大數(shù)據(jù)時代的到來:“數(shù)據(jù),已經(jīng)滲透到當今每一個行業(yè)和業(yè)務職能領域,成為重要的生產(chǎn)因素。人們對于海量數(shù)據(jù)的挖掘和運用預示著新一波生產(chǎn)率增長和消費者盈余浪潮的到來?!本S克托·邁爾舍恩伯格在《大數(shù)據(jù)時代》一書中所列舉的大量例證都是為了說明一個道理:在大數(shù)據(jù)時代已經(jīng)到來的時候要用大數(shù)據(jù)思維去發(fā)掘大數(shù)據(jù)的潛在價值。一、大數(shù)據(jù)的由來第四節(jié)大數(shù)據(jù)時代網(wǎng)絡輿情監(jiān)測技術遇到的挑戰(zhàn)

Volume(大量):數(shù)據(jù)體量巨大。大數(shù)據(jù)的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T)。Velocity(高速):處理速度快。Variety(多樣):數(shù)據(jù)類型繁多。比如,網(wǎng)絡日志、視頻、圖片、地理位置信息等。Value(價值):價值密度低,商業(yè)價值高。二、大數(shù)據(jù)的特征第四節(jié)大數(shù)據(jù)時代網(wǎng)絡輿情監(jiān)測技術遇到的挑戰(zhàn)

(一)大數(shù)據(jù)時代,對信息的加工是基礎。據(jù)互聯(lián)網(wǎng)專家介紹,大數(shù)據(jù)體量巨大,非結構化數(shù)據(jù)的超大規(guī)模和增長分別占總數(shù)據(jù)量的80%~90%,比結構化數(shù)據(jù)增長快10~50倍。從輿情產(chǎn)品服務的角度看,濃縮海量信息、抵抗“數(shù)據(jù)爆炸”已成為輿情工作的基本要求。因此,掌握數(shù)據(jù)抓取能力與輿情解讀能力,通過加工實現(xiàn)數(shù)據(jù)的增值,將是未來輿情分析的必備技能。三、大數(shù)據(jù)對輿情的價值和影響第四節(jié)大數(shù)據(jù)時代網(wǎng)絡輿情監(jiān)測技術遇到的挑戰(zhàn)

(二)大數(shù)據(jù)時代,對數(shù)據(jù)的解釋是關鍵。目前,數(shù)據(jù)的可獲得度已經(jīng)空前提高,我們可以分析更多的數(shù)據(jù),有時候甚至可以處理與某種特別現(xiàn)象相關的所有數(shù)據(jù),實現(xiàn)真正的大數(shù)據(jù)挖掘和分析。數(shù)據(jù)的海量、及時、動態(tài)、開放有利于我們完善分析的效度和深度。同時,大數(shù)據(jù)也有價值密度低、傳播速度快等特點,數(shù)據(jù)分析的模式是否科學,將直接影響數(shù)據(jù)分析的質量。三、大數(shù)據(jù)對輿情的價值和影響第四節(jié)大數(shù)據(jù)時代網(wǎng)絡輿情監(jiān)測技術遇到的挑戰(zhàn)

(三)大數(shù)據(jù)時代,對趨勢的研判是目標。

大數(shù)據(jù)的核心和目標就是預測,具體到輿情服務,輿情工作人員從互聯(lián)網(wǎng)浩如煙海的數(shù)據(jù)中挖掘信息、判斷趨勢、提高效益,雖然獲得廣泛且實際的應用,但還遠遠不夠。輿情分析人員要不斷增強關聯(lián)輿情信息的分析和預測,把服務的重點從單純的搜集有效數(shù)據(jù)向對輿情的深入研判拓展,跟蹤關聯(lián)輿情,不再局限于危機解決,要輔之以決策參考,從注重“靜態(tài)搜集”向注重“動態(tài)跟蹤”拓展,從致力于“反映問題”向致力于“解決問題”拓展,使輿情產(chǎn)品和服務“更高、更快、更強”(視點高、預警快、處置強)。三、大數(shù)據(jù)對輿情的價值和影響第四節(jié)大數(shù)據(jù)時代網(wǎng)絡輿情監(jiān)測技術遇到的挑戰(zhàn)

(四)大數(shù)據(jù)時代,分眾服務是方向。數(shù)據(jù)的互通互聯(lián)改變了數(shù)據(jù)庫、應用軟件和用戶界面等系統(tǒng)之間的“孤島”狀態(tài)。輿情服務機構應樹立大輿情觀

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論