可行性報(bào)告-公眾輿論安全監(jiān)測(cè)系統(tǒng)的研制及應(yīng)用_第1頁(yè)
可行性報(bào)告-公眾輿論安全監(jiān)測(cè)系統(tǒng)的研制及應(yīng)用_第2頁(yè)
可行性報(bào)告-公眾輿論安全監(jiān)測(cè)系統(tǒng)的研制及應(yīng)用_第3頁(yè)
可行性報(bào)告-公眾輿論安全監(jiān)測(cè)系統(tǒng)的研制及應(yīng)用_第4頁(yè)
可行性報(bào)告-公眾輿論安全監(jiān)測(cè)系統(tǒng)的研制及應(yīng)用_第5頁(yè)
已閱讀5頁(yè),還剩6頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

-.z互聯(lián)網(wǎng)公眾輿論平安檢測(cè)系統(tǒng)的研制與應(yīng)用可行性報(bào)告1.立項(xiàng)的背景和意義根據(jù)最新的統(tǒng)計(jì)數(shù)據(jù),我國(guó)網(wǎng)民數(shù)量已經(jīng)超過(guò)4.2億,居世界第一位。如此數(shù)量龐大的網(wǎng)民群體,加之以自由言論的網(wǎng)絡(luò)氣氛和形態(tài)豐富多樣的網(wǎng)絡(luò)媒體形式,造成了互聯(lián)網(wǎng)**量的輿論話題。互聯(lián)網(wǎng)上的話題和傳統(tǒng)媒體上的話題有很多區(qū)別,最大的不同就是傳統(tǒng)媒體上的報(bào)道往往是單向性的信息發(fā)布,而互聯(lián)網(wǎng)上的話題往往具有突發(fā)性、直接性、豐富性、互動(dòng)性、偏差性的特點(diǎn)。對(duì)于政府來(lái)說(shuō),這些數(shù)據(jù)中蘊(yùn)含著大量的信息。正確合理利用這些信息,可以有效地了解民情民意,從而快速及時(shí)處理一些突發(fā)性公共危機(jī)事件,改良我們的管理和效勞,促進(jìn)社會(huì)的和諧、穩(wěn)定和開(kāi)展。互聯(lián)網(wǎng)上的討論和文章很多。對(duì)于政府來(lái)說(shuō),一方面,網(wǎng)民會(huì)在互聯(lián)網(wǎng)上發(fā)表自己對(duì)政策以及政府部門的觀點(diǎn)、意見(jiàn)和看法。這些觀點(diǎn)信息能反映出那些好的、受人們擁護(hù)的政策,也包含許多針對(duì)性的批評(píng)〔如:對(duì)于醫(yī)療事故的曝光和醫(yī)院效勞的批評(píng)〕,對(duì)尚待改良問(wèn)題的建立性的意見(jiàn)〔如:對(duì)如何優(yōu)化公共交通的建議、對(duì)醫(yī)療社會(huì)保障的制度的建議、對(duì)中小學(xué)教育改革的建議等等〕。另一方面,我國(guó)正處于經(jīng)濟(jì)開(kāi)展的黃金期和社會(huì)矛盾的多發(fā)期和凸顯期。一些看似平常的小事往往會(huì)釀成群體性事件。群體性事件,尤其是經(jīng)過(guò)互聯(lián)網(wǎng)的傳播和放大,往往造成劇烈的沖突對(duì)抗、嚴(yán)重的破壞性后果和惡劣的社會(huì)影響。如今網(wǎng)絡(luò)上已經(jīng)出現(xiàn)了一些矛盾很鋒利的公眾輿論話題。這些話題很容易被強(qiáng)烈地放大,網(wǎng)絡(luò)輿論從而成為了左右公眾觀點(diǎn)的很大的力量。因此對(duì)這些富含信息的話題和文章,特別是那些可能影響社會(huì)穩(wěn)定和諧的敏感話題,政府需要第一時(shí)間了解信息,發(fā)現(xiàn)問(wèn)題,盡快地解決問(wèn)題。這對(duì)提高政府管理和效勞水平意義重大,對(duì)于社會(huì)的穩(wěn)定和開(kāi)展意義重大,對(duì)于社會(huì)的開(kāi)展和進(jìn)步意義重大。另外,對(duì)于互聯(lián)網(wǎng)上的惡意扭曲,擴(kuò)大和傳播不良信息的行文也能在第一時(shí)間進(jìn)展打擊,從而維護(hù)社會(huì)穩(wěn)定和諧。2.國(guó)內(nèi)外研究開(kāi)發(fā)現(xiàn)狀和開(kāi)展趨勢(shì)傳統(tǒng)的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)通常分為網(wǎng)絡(luò)異常監(jiān)測(cè)和常規(guī)趨勢(shì)預(yù)測(cè)兩方面。實(shí)際上,網(wǎng)絡(luò)異常監(jiān)測(cè)對(duì)于政府部門更為重要。因此,我們主要關(guān)心的是網(wǎng)絡(luò)異常監(jiān)測(cè)方面。針對(duì)網(wǎng)絡(luò)異常監(jiān)測(cè),一般采用數(shù)據(jù)流高頻項(xiàng)檢測(cè)技術(shù)。該技術(shù)首先對(duì)所采集的關(guān)鍵詞語(yǔ)料集進(jìn)展必要的分詞,然后對(duì)提取的關(guān)鍵詞進(jìn)展統(tǒng)計(jì)、聚類和人工分類,最后得到輿情關(guān)鍵詞。在此根底上,針對(duì)所選的輿情關(guān)鍵詞進(jìn)展頻度曲線繪制,針對(duì)關(guān)鍵詞頻度曲線進(jìn)展必要的突變分析和關(guān)聯(lián)分析。突發(fā)檢測(cè)〔BurstDetection〕算法是針對(duì)關(guān)鍵詞頻度曲線的突變性分析的有效方法。目前國(guó)內(nèi)對(duì)于文本數(shù)據(jù)的突發(fā)性檢測(cè)研究尚處在初級(jí)階段。國(guó)際上對(duì)文本詞頻的突發(fā)性建?!瞓urstiness〕多用DirichletpoundMultinomial(DCM)模型。最新的方法是采用DirichletpoundMultinomialLatentDirichletAllocation(DCMLDA)模型將話題檢測(cè)和詞頻突發(fā)性檢測(cè)結(jié)合在一起進(jìn)展建模。這種基于詞頻的方法在話題發(fā)現(xiàn)方面多采用聚類算法。這種方法的缺點(diǎn)是:往往對(duì)網(wǎng)民評(píng)論的情感因素關(guān)注缺乏,而且通常是停留在熱點(diǎn)話題發(fā)現(xiàn)的程度,沒(méi)有進(jìn)一步根據(jù)傾向性進(jìn)展區(qū)分。最新的方法將自然語(yǔ)言理解技術(shù)中的文本傾向性分析技術(shù)引入輿情監(jiān)控系統(tǒng)之中。該方法首先通過(guò)自然語(yǔ)言處理的分詞技術(shù)得到熱點(diǎn)話題和與熱點(diǎn)話題有修飾關(guān)系的詞語(yǔ),然后基于詞語(yǔ)傾向性詞典對(duì)熱點(diǎn)話題的修飾局部進(jìn)展特征提取,最后使用機(jī)器學(xué)習(xí)的方法區(qū)分公眾輿論對(duì)熱點(diǎn)話題的情感傾向。已有的文本傾向性分類研究主要有以下三類方法,這些方法在解決一些特定問(wèn)題上已經(jīng)取得了不錯(cuò)的效果。第一種是基于機(jī)器學(xué)習(xí)的傳統(tǒng)方法,將統(tǒng)計(jì)分類技術(shù)應(yīng)用于文本傾向性分類。PangBo等人提取了包括詞匯、詞性、多元組等特征,用多種分類器設(shè)計(jì)方法進(jìn)展了比照實(shí)驗(yàn)。第二種是基于語(yǔ)義的方法,先提取文本中代表情緒傾向的詞匯,再對(duì)其進(jìn)展統(tǒng)計(jì)計(jì)算,根據(jù)特定公式得出傾向性得分,這可以參考Turney的工作。他以點(diǎn)互信息PMI判斷詞匯傾向性并對(duì)所在文本進(jìn)展了傾向性判別。第三種是結(jié)合了前兩種的方法,以文本中傾向性的詞匯為根底,量化得到特征向量訓(xùn)練分類器。在朱杰的工作中,他用基于評(píng)價(jià)對(duì)象和情感特征的文本向量模型,通過(guò)TSF-IDF加權(quán)方法,得到的文本情感傾向分類方法取得了不錯(cuò)的結(jié)果。相對(duì)于前兩種方法,這種方法出現(xiàn)較晚,但由于綜合了兩者的長(zhǎng)處,效果要好一些。綜上所述,從算法角度看,目前的研究算法在短文本的分類,傾向性分析方面,在垃圾文章的過(guò)濾等方面還遠(yuǎn)遠(yuǎn)不夠。另外,從系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)角度看,目前已有的互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)在功能上還遠(yuǎn)遠(yuǎn)不能滿足實(shí)際應(yīng)用的需求,這些系統(tǒng)還缺少下面這些功能:無(wú)法對(duì)微博,新聞評(píng)論進(jìn)展分析;還沒(méi)有自動(dòng)過(guò)濾垃圾文章、自動(dòng)分析文章的傾向性、自動(dòng)對(duì)文章分類的功能;還不能針對(duì)政府部門的需要進(jìn)展針對(duì)性的分揀和報(bào)告。這些正是開(kāi)展該課題的動(dòng)機(jī)。4.工程目標(biāo)和研發(fā)內(nèi)容4.1工程目標(biāo)通過(guò)本課題的實(shí)施,將構(gòu)建一個(gè)具備先進(jìn)采集和分析功能的互聯(lián)網(wǎng)輿情系統(tǒng)。系統(tǒng)集成了微博和新聞評(píng)論的采集功能,系統(tǒng)具備垃圾文章過(guò)濾、不同話題文章的分類功能的先進(jìn)數(shù)據(jù)分析能力;系統(tǒng)還可以自動(dòng)生成報(bào)告和發(fā)送預(yù)警信息。另外,通過(guò)本課題的實(shí)施,將實(shí)現(xiàn)4.2研發(fā)內(nèi)容本課題的任務(wù)是對(duì)互聯(lián)網(wǎng)公眾論壇研制輿論平安監(jiān)測(cè)系統(tǒng)。具體說(shuō),本課題的研究和開(kāi)發(fā)任務(wù)包括如下幾個(gè)方面:(一)數(shù)據(jù)收集。數(shù)據(jù)收集是一個(gè)根本任務(wù),主要包括微博和新聞評(píng)論的收集。工程申請(qǐng)人所在單位已經(jīng)具備了一般的博客和論壇的數(shù)據(jù)收集子系統(tǒng)。目前還缺少微博和新聞評(píng)論的收集。因此,這局部的工作集中在微博和新聞評(píng)論的收集子系統(tǒng)的研發(fā),以及在用戶行業(yè)相關(guān)的論壇、博客和新聞?wù)军c(diǎn)進(jìn)展自動(dòng)的數(shù)據(jù)收集和整理。(二)數(shù)據(jù)分析。數(shù)據(jù)分析是該課題的最重要和核心的局部,包括垃圾文章過(guò)濾、不同話題文章的分類和文章的傾向性分析三個(gè)子任務(wù)。(1)對(duì)話題不相關(guān)的文章進(jìn)展過(guò)濾主要指對(duì)于諸如廣告、自動(dòng)回復(fù)等等無(wú)用的文章進(jìn)展過(guò)濾。(2)對(duì)不同類型的熱點(diǎn)話題進(jìn)展分類是把文章按照不同的政府局部進(jìn)展分揀,如:把文章按照醫(yī)療衛(wèi)生、公安等局部進(jìn)展分揀。(3)文章的傾向性分析是指該文章是積極的、支持的、正面的,還是消極的、反對(duì)的、負(fù)面的。申請(qǐng)人單位已經(jīng)具有了文章的傾向性分析算法。因此,這局部工作不作為該工程的研究?jī)?nèi)容。(三)報(bào)告自動(dòng)生成。主要是指根據(jù)公安等系統(tǒng)的工作方式和要求,制作和生成需要的報(bào)告。(四)信息發(fā)送。目前申請(qǐng)人所在單位已經(jīng)具備了通過(guò)手機(jī)短信和電子的方式進(jìn)展及時(shí)的信息發(fā)送。在該課題中,還方案和公安部門的內(nèi)網(wǎng)相聯(lián),從而可以將一般的信息和報(bào)告及時(shí)在公安部門的內(nèi)網(wǎng)發(fā)布,讓普通的公安人員閱讀。(五)平臺(tái)設(shè)計(jì)和實(shí)現(xiàn)。為完成該應(yīng)用系統(tǒng),需要進(jìn)展平臺(tái)的設(shè)計(jì)和實(shí)現(xiàn)數(shù)據(jù)的收集(1)微博的采集由于微博數(shù)量眾多,并且不少微博系統(tǒng)需要你有了微博的ID以后才可以查看到別人的微博信息,為簡(jiǎn)化采集流程,本系統(tǒng)的微博采集的主要思路是我們會(huì)注冊(cè)一些ID去關(guān)注〔FOLLOW〕那些作為采集目標(biāo)的微博,這樣登錄這些ID以后就會(huì)看到所關(guān)注的微博的更新。然后利用系統(tǒng)已有的網(wǎng)頁(yè)構(gòu)造化信息采集模塊從這些ID采集所有關(guān)注的微博的內(nèi)容。在關(guān)注微博數(shù)量不是特別多的情況下,用一個(gè)ID就足夠了。當(dāng)關(guān)注的微博數(shù)量超過(guò)微博系統(tǒng)所允許的關(guān)注目標(biāo)數(shù)以后,才需要注冊(cè)更多的ID。采集的架構(gòu)設(shè)計(jì)如圖1所示。圖1微博采集架構(gòu)圖示(2)新聞評(píng)論的采集系統(tǒng)現(xiàn)已有新聞采集模塊,需要參加評(píng)論的采集功能??紤]到新聞的時(shí)效性和系統(tǒng)的性能及反響速度,系統(tǒng)將只對(duì)指定的時(shí)間內(nèi)〔例如最近一個(gè)月內(nèi)〕的新聞采集其評(píng)論的更新。新聞的采集和評(píng)論的采集兩個(gè)模塊在數(shù)據(jù)上保持聯(lián)系,但在運(yùn)行上保持獨(dú)立,如圖2所示。新聞采集模塊會(huì)采集新的新聞,而評(píng)論采集系統(tǒng)則會(huì)選擇系統(tǒng)里面采集到的指定時(shí)間段內(nèi)的新聞去采集其評(píng)論,并在數(shù)據(jù)層面將評(píng)論和其所針對(duì)的新聞關(guān)聯(lián)起來(lái)。每次評(píng)論的采集根據(jù)評(píng)論的發(fā)表時(shí)間和上次采集的運(yùn)行時(shí)間只采集新增加的評(píng)論內(nèi)容。圖2新聞采集架構(gòu)圖示數(shù)據(jù)的分析數(shù)據(jù)分析是該課題的最重要和核心的局部。下面對(duì)于其中涉及的三個(gè)子問(wèn)題描述可能采取的技術(shù)路線。我們把垃圾文章的過(guò)濾看成是一個(gè)分類問(wèn)題,即對(duì)于一篇文章,判斷其是垃圾文章或者非垃圾文章。當(dāng)然,不同熱點(diǎn)話題文章的分揀很自然地可以被看作是一個(gè)分類問(wèn)題。因此,對(duì)于垃圾文章過(guò)濾和不同熱點(diǎn)話題文章的分類我們可以采用統(tǒng)一的兩類分類器設(shè)計(jì)方法。例如,針對(duì)垃圾文章過(guò)濾可以把所有的數(shù)據(jù)分為兩類,一類是有用數(shù)據(jù),另一類是垃圾數(shù)據(jù)。而針對(duì)不同話題〔醫(yī)療,教育,公安等〕的分類,我們可以簡(jiǎn)單地將教育和公安等話題分為非醫(yī)療類文章。在分類器設(shè)計(jì)局部我們主要考慮兩種分類方法:1〕Adaboost方法,2〕先聚類再分類的方法。首先我們提取關(guān)鍵詞向量作為文本的特征。具體做法是:先采用分詞工具提取全樣本集〔訓(xùn)練和測(cè)試〕的關(guān)鍵詞,然后去掉無(wú)意義的詞語(yǔ)〔語(yǔ)氣詞,連接詞等〕得到一個(gè)關(guān)鍵詞表,該詞表共有N個(gè)關(guān)鍵詞。每一篇文章的特征是一個(gè)維數(shù)與關(guān)鍵詞表中詞語(yǔ)個(gè)數(shù)一樣的向量。我們考慮的兩種方法都是用這種特征向量。Adaboost方法需要一個(gè)標(biāo)注的訓(xùn)練集,以下以垃圾文件過(guò)濾為例進(jìn)展說(shuō)明。在訓(xùn)練集中,垃圾文件被標(biāo)注為1,非垃圾文件標(biāo)注為-1。第i篇文章可以用特征向量表示為:針對(duì)每一維有一個(gè)弱分類器:其中,是一個(gè)閾值,該閾值保證弱分類器的正確率在50%以上。給出訓(xùn)練樣本:,其中是文章的特征向量,是每篇文章的標(biāo)簽。Adaboost的具體算法是:初始化:設(shè)正負(fù)樣本分別有A個(gè)和B個(gè)。假設(shè),初始化其權(quán)重為,假設(shè),初始化其權(quán)重為。對(duì)每一個(gè),歸一化。對(duì)的每一維,訓(xùn)練一個(gè)弱分類器,計(jì)算器錯(cuò)誤率為:。從中選出最小的一個(gè),記為,計(jì)算。如果,則終止循環(huán),否則增大錯(cuò)誤樣本權(quán)重為:。最終輸出的分類器為:。在Adaboost方法中,如果訓(xùn)練集太小,不能保證分類器的性能。如果訓(xùn)練集太大,對(duì)訓(xùn)練集中的每一個(gè)數(shù)據(jù)進(jìn)展標(biāo)注的代價(jià)是非常昂貴的。我們考慮的另一個(gè)思路是先聚類再分類。對(duì)于垃圾文章過(guò)濾來(lái)說(shuō),雖然很多文章都屬于垃圾文章,但是這些文章也自然的聚成一些簡(jiǎn)單的類別。通過(guò)先聚類再分類的方法,有可能使用更為簡(jiǎn)單的分類器設(shè)計(jì)方法就可以得到較好的效果。這是因?yàn)轭悇e分界面可能更簡(jiǎn)單了,另外,如果只有少量的樣本這種方法也可以得到不錯(cuò)的效果。以下針對(duì)不同話題分類的問(wèn)題進(jìn)展說(shuō)明。假設(shè)我們一共有K個(gè)話題,則我們需要設(shè)置一個(gè)適宜的類別數(shù)用于聚類,該數(shù)目應(yīng)該大于K。使用這個(gè)類別數(shù)對(duì)全樣本集進(jìn)展聚類。對(duì)過(guò)分割的聚類結(jié)果進(jìn)展人工指導(dǎo)的合并,同時(shí)去除那些自成一類的野值點(diǎn)。根據(jù)得到的標(biāo)簽數(shù)據(jù),進(jìn)展分類器設(shè)計(jì)。報(bào)告自動(dòng)生成本系統(tǒng)將實(shí)現(xiàn)面向公共平安和公安系統(tǒng)的報(bào)告訂制與自動(dòng)生成功能。將根據(jù)公安等系統(tǒng)的工作方式和要求,制作和生成需要的報(bào)告。報(bào)告的生成需定義模板,然后系統(tǒng)會(huì)根據(jù)模板和實(shí)際的數(shù)據(jù)生成最終的報(bào)表,如圖3所示。即最終報(bào)表的樣式取決于模板的定制〔定義〕。根據(jù)不同用戶的需求可以靈活的定義多種報(bào)表模板。圖3報(bào)告生成圖示在報(bào)表種類不是特別多的情況下,可以采用動(dòng)態(tài)網(wǎng)頁(yè)直接生成報(bào)表。如果報(bào)表種類特別多,可以采用開(kāi)源的報(bào)表制作庫(kù)。信息的發(fā)送信息的發(fā)送主要分為預(yù)警模塊和通訊模塊,如圖4所示。圖4信息發(fā)送圖示〔1〕預(yù)警模塊實(shí)時(shí)監(jiān)控采集數(shù)據(jù),根據(jù)設(shè)定的預(yù)警條件觸發(fā)數(shù)據(jù)警報(bào)并發(fā)送到通訊模塊。預(yù)警條件可以根據(jù)文章的回復(fù)量,閱讀量,或者關(guān)鍵詞信息等設(shè)置,并可以根據(jù)信息的關(guān)注/嚴(yán)重程度設(shè)定預(yù)警級(jí)別?!?〕通訊模塊根據(jù)警報(bào)類型及級(jí)別觸發(fā)不同的通訊方式將信息發(fā)送至相關(guān)人員。通訊的方式包括系統(tǒng)可以自動(dòng)處理的電子、短信,以及需要客服人員人工處理的通知等多種形式。另外,通訊模塊還包括與其它外部系統(tǒng)〔例如公安系統(tǒng)〕的數(shù)據(jù)接口,可以將相關(guān)信息發(fā)送到外部系統(tǒng)。平臺(tái)的設(shè)計(jì)和實(shí)現(xiàn)本系統(tǒng)可以對(duì)全國(guó)各類互聯(lián)點(diǎn),例如論壇、新聞、博客、微博等進(jìn)展實(shí)時(shí)掃描監(jiān)控,第一時(shí)間獲取客戶有關(guān)的構(gòu)造化的網(wǎng)絡(luò)信息,例如文章的標(biāo)題,內(nèi)容,閱讀數(shù),回復(fù)數(shù),發(fā)表時(shí)間,回復(fù)時(shí)間等。系統(tǒng)將對(duì)所有信息進(jìn)展智能研判和分析,統(tǒng)計(jì)匯總輿論走勢(shì)、輿論來(lái)源,并推薦閱讀值得重點(diǎn)關(guān)注的文章,形成閱讀性良好的報(bào)告。而對(duì)于突發(fā)事件,系統(tǒng)將第一時(shí)間以緊急情況警報(bào)的形式〔、手機(jī)短信、等〕通知相關(guān)人員。系統(tǒng)的模塊主要分為采集器、數(shù)據(jù)庫(kù)、數(shù)據(jù)分析、應(yīng)用效勞,如圖5所示。圖5系統(tǒng)平臺(tái)圖示(1)采集器采集器采用跨平臺(tái)的java技術(shù),可以運(yùn)行在各種操作系統(tǒng)上。另外,本系統(tǒng)的網(wǎng)絡(luò)爬蟲(chóng)和一般的網(wǎng)絡(luò)爬蟲(chóng)的區(qū)別是,本系統(tǒng)可以執(zhí)行網(wǎng)頁(yè)上的動(dòng)態(tài)腳本〔例如javascript,aja*等〕以得到普通爬蟲(chóng)通過(guò)抓取靜態(tài)頁(yè)面無(wú)法獲取的信息。采集器的采集目標(biāo)可以包括新聞、論壇、博客、微博等各種類型的站點(diǎn)。(2)數(shù)據(jù)庫(kù)系統(tǒng)的數(shù)據(jù)庫(kù)目前采用開(kāi)源數(shù)據(jù)庫(kù)MySQL,以磁盤(pán)陣列組成存儲(chǔ)模塊,并利用其數(shù)據(jù)庫(kù)復(fù)制技術(shù)實(shí)現(xiàn)數(shù)據(jù)庫(kù)的異地實(shí)時(shí)復(fù)制。數(shù)據(jù)在異地復(fù)制數(shù)據(jù)庫(kù)定時(shí)備份,使數(shù)據(jù)的平安性能夠得到有效保障并且不影響主數(shù)據(jù)庫(kù)的運(yùn)行。(3)數(shù)據(jù)分析數(shù)據(jù)分析模塊會(huì)對(duì)采集的數(shù)據(jù)進(jìn)展人工智能分析處理,主要功能包括:垃圾文章(包括廣告,無(wú)意義文章)的過(guò)濾,各類文章的分類,文章的傾向性分析等。(4)應(yīng)用效勞應(yīng)用效勞模塊對(duì)數(shù)據(jù)管理員及終端客戶提供各種數(shù)據(jù)效勞。包括WEB效勞,WAP效勞,針對(duì)特定終端的其它效勞,各種數(shù)據(jù)推送以及預(yù)警效勞〔例如電子,短信等〕等。5.關(guān)鍵技術(shù)和解決關(guān)鍵技術(shù)途徑5.1工程主要技術(shù)及相關(guān)技術(shù)國(guó)內(nèi)外專利申請(qǐng)和授權(quán)情況,本工程擬采取的對(duì)策本課題的研究對(duì)象是互聯(lián)網(wǎng)公眾輿論平安監(jiān)測(cè)系統(tǒng),這是一個(gè)復(fù)雜的軟硬件系統(tǒng)。系統(tǒng)的研制與應(yīng)用在技術(shù)上涉及廣泛的多個(gè)技術(shù)學(xué)科,比方有計(jì)算機(jī)搜索引擎〔網(wǎng)絡(luò)爬蟲(chóng)〕、數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)以及軟件工程等等。就本課題的研究?jī)?nèi)容而言,主要涉及以下技術(shù)方面:搜索引擎技術(shù)。本課題中主要是指網(wǎng)絡(luò)采集、網(wǎng)絡(luò)爬蟲(chóng)的技術(shù),尤其對(duì)新聞評(píng)論和微博的采集。數(shù)據(jù)庫(kù)技術(shù)。本課題中主要是海量數(shù)據(jù)的存放和抽取。數(shù)據(jù)庫(kù)需要同時(shí)支持格式化數(shù)據(jù)抽取和快速數(shù)據(jù)搜索。數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)。本課題中我們將研究垃圾文識(shí)別、文本的分類和網(wǎng)絡(luò)行為異常發(fā)現(xiàn)。該領(lǐng)域的技術(shù)成果,絕大局部屬于理論方法學(xué)研究*疇。經(jīng)過(guò)科學(xué)文獻(xiàn)和知識(shí)產(chǎn)權(quán)檢索,我們發(fā)現(xiàn),本課題涉及的各方面的技術(shù)方法絕大局部是公開(kāi)科學(xué)文獻(xiàn)。目前,產(chǎn)業(yè)界尚無(wú)對(duì)我們構(gòu)成壁壘的相關(guān)技術(shù)保護(hù)?;谖覀儗?duì)相關(guān)產(chǎn)業(yè)界和學(xué)術(shù)界的深刻理解,我們認(rèn)為,本課題組在多個(gè)方面具有突出的優(yōu)勢(shì)。只要充分發(fā)揮這些優(yōu)勢(shì),可以順利完成課題的研發(fā)任務(wù)。a.深厚的技術(shù)積累。工程參與單位**大象信息技術(shù)**研發(fā)的產(chǎn)品“輿情快遞〞的系統(tǒng)總體基于云計(jì)算理念,可以提供公有云、私有云、混合云三種類型的效勞。該產(chǎn)品的技術(shù)來(lái)源可以追溯到2002、2003年在清華智能技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室的國(guó)家級(jí)科研工程。經(jīng)過(guò)多年的持續(xù)的改良和開(kāi)發(fā),才形成了目前成熟商業(yè)應(yīng)用的系統(tǒng)。應(yīng)該說(shuō),本課題在此技術(shù)積累的根底上進(jìn)展研究,已經(jīng)占據(jù)了一定的技術(shù)制高點(diǎn)。b.優(yōu)秀的研發(fā)實(shí)力。本課題的研發(fā)相關(guān)參與單位具有非常優(yōu)秀的研發(fā)實(shí)力。清華智能技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室在信息技術(shù),尤其是智能信息處理、模式識(shí)別、人工智能、機(jī)器學(xué)習(xí)等領(lǐng)域具有一流的研究水平和深厚的學(xué)術(shù)積累。萬(wàn)里學(xué)院作為工程主持單位,在信息技術(shù)研究方面具有優(yōu)秀的人才團(tuán)隊(duì)〔電子信息學(xué)院、互聯(lián)網(wǎng)技術(shù)研究中心、網(wǎng)絡(luò)中心〕,團(tuán)隊(duì)具有極強(qiáng)的創(chuàng)新意識(shí)。**大象信息技術(shù)**是一家高科技軟件公司,公司在自動(dòng)化、計(jì)算機(jī)、電子信息等領(lǐng)域具有高端技術(shù)人才儲(chǔ)藏。公司還擁有強(qiáng)大的參謀團(tuán)隊(duì)。c.強(qiáng)大的應(yīng)用保障。共同申請(qǐng)單位**市公安局網(wǎng)警支隊(duì)為本課題的順利實(shí)施提供了強(qiáng)大的應(yīng)用保障。網(wǎng)警支隊(duì)是專門從事網(wǎng)絡(luò)平安監(jiān)測(cè)的公共平安部門。是本課題所研究的系統(tǒng)的最對(duì)口的政府應(yīng)用部門之一。網(wǎng)警支隊(duì)的參與為課題提供了系統(tǒng)研發(fā)的真實(shí)的、第一線的需求。另外,還可以為課題研發(fā)提供實(shí)驗(yàn)和測(cè)試環(huán)境。d.優(yōu)秀的產(chǎn)業(yè)根底。**大象信息技術(shù)**所推出的“輿情快遞〞互聯(lián)網(wǎng)信息實(shí)時(shí)監(jiān)測(cè)系統(tǒng)和效勞已經(jīng)在市場(chǎng)上占據(jù)了一定的制高點(diǎn)。尤其在**地區(qū),該系統(tǒng)的推廣效果極佳,多家政府和企事業(yè)單位已經(jīng)安裝系統(tǒng),并對(duì)系統(tǒng)所提供的效勞給予高度的評(píng)價(jià)。前期的成功的市場(chǎng)推廣為本課題的開(kāi)展積累了數(shù)據(jù)和用戶需求。e.已有的知識(shí)產(chǎn)權(quán)保護(hù)。工程參與單位**大象信息技術(shù)**注重知識(shí)產(chǎn)權(quán)保護(hù)。公司對(duì)自身研發(fā)成果已經(jīng)進(jìn)展了全面的保護(hù):已經(jīng)申請(qǐng)了多項(xiàng)專利〔局部專利已經(jīng)授權(quán)〕和軟件著作權(quán)。〔見(jiàn)**大象信息技術(shù)**的介紹〕。5.2課題難點(diǎn)及其解決途徑我們認(rèn)為,下面這三個(gè)方面的工作是本課題的難點(diǎn)。〔1〕微博和新聞評(píng)論的自動(dòng)采集。這局部的難點(diǎn)在于軟件的設(shè)計(jì)和實(shí)現(xiàn)?!?〕垃圾文章的分類,各類文章分類。這局部的難點(diǎn)在于算法的設(shè)計(jì)。特別是高性能的算法的設(shè)計(jì)是非常困難的課題。〔3〕和公安內(nèi)部網(wǎng)接口,進(jìn)展自動(dòng)的信息發(fā)送。這局部的難點(diǎn)在于接口協(xié)議的設(shè)計(jì)和軟件的設(shè)計(jì)和實(shí)現(xiàn)。這三個(gè)方面難點(diǎn)的解決方法在第四節(jié)研發(fā)內(nèi)容中已有描述,這里不再累述。5.3工程創(chuàng)新點(diǎn)我們認(rèn)為,本課題創(chuàng)新點(diǎn)在于:1.微博和新聞評(píng)論的自動(dòng)采集是本系統(tǒng)的一個(gè)創(chuàng)新點(diǎn)。據(jù)我們了解,目前類似的系統(tǒng)沒(méi)有這樣的功能。2.垃圾文章的分類,各類文章分類是本系統(tǒng)的較大的創(chuàng)新點(diǎn)。目前類似的系統(tǒng)沒(méi)有這樣的功能。7.年度進(jìn)度和目標(biāo)工程進(jìn)度安排如下表所示。起始年月進(jìn)度目標(biāo)要求〔每欄限80字〕2011.06至2011.12完成工程總體方案分析與設(shè)計(jì);完成工程詳細(xì)設(shè)計(jì)及各模塊實(shí)現(xiàn)方案設(shè)計(jì);完成系統(tǒng)平臺(tái)的方案設(shè)計(jì)和設(shè)備選型;完成關(guān)鍵算法的設(shè)計(jì)及選型;2012.01至2012.061〕數(shù)據(jù)采集模塊子系統(tǒng)的研發(fā)為每個(gè)效勞器所要采集的信息的進(jìn)展配置;設(shè)計(jì)和編寫(xiě)軟件實(shí)現(xiàn)對(duì)不同形式信息的采集;設(shè)計(jì)算法實(shí)現(xiàn)對(duì)不同類型的格式信息進(jìn)展采集;設(shè)計(jì)算法實(shí)現(xiàn)新的信息格式出現(xiàn)時(shí),軟件對(duì)信息格式的自適應(yīng)性;2〕數(shù)據(jù)分析子模塊的研發(fā)數(shù)據(jù)預(yù)處理:如過(guò)濾垃圾文章等處理。為此,需要設(shè)計(jì)和實(shí)現(xiàn)算法實(shí)現(xiàn)數(shù)據(jù)的自動(dòng)預(yù)處理。如:垃圾文件自動(dòng)過(guò)濾算法。預(yù)警功能:根據(jù)系統(tǒng)設(shè)置的預(yù)警任務(wù)進(jìn)展輿情發(fā)現(xiàn)和自動(dòng)報(bào)警。為此,需要設(shè)計(jì)和實(shí)現(xiàn)輿情發(fā)現(xiàn)的算

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論