版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、基于web的可視化定向信息采集系統(tǒng)用戶手冊1引言21.1編寫目的21.2背景21.3定義21.4參考資料21.5系統(tǒng)介紹21.6系統(tǒng)應(yīng)用領(lǐng)域:31.7軟件特點(diǎn)31.8系統(tǒng)配置要求32用途42.1功能42.2性能52.3安全保密63運(yùn)行環(huán)境63.1硬設(shè)備63.2支持軟件63.3數(shù)據(jù)結(jié)構(gòu)64.使用說明64.1登錄與注冊64.2主界面74.2.1任務(wù)定制84.2.2采集104.2.3頻道管理104.2.4自動采集124.2.5錯(cuò)誤處理131引言1.1編寫目的本用戶手冊描述了基于web的可視化定向信息采集系統(tǒng)的詳細(xì)使用說明,包括主要的操作概述和指南,為幫助首次使用這個(gè)系統(tǒng)的操作者能迅速掌握并使用這個(gè)系
2、統(tǒng)。1.2背景互聯(lián)網(wǎng)上信息種類繁多,瞬間萬變,給人們擴(kuò)大獲取信息來源的同時(shí),也帶來了利用互聯(lián)網(wǎng)上的信息麻煩。我們需不斷地手工刷新目標(biāo)網(wǎng)站的信息,而且對于一些網(wǎng) 站信息變化速度快的網(wǎng)站,我們經(jīng)常得不到我們感興趣的信息,就需要通過目標(biāo)網(wǎng)站提供的站內(nèi)搜索或互聯(lián)網(wǎng)搜索引擎去獲取。而且在需要將多個(gè)目標(biāo)網(wǎng)站的信息每天自動整合到自己的網(wǎng)站,或用于內(nèi)部人員使用時(shí),就需要投入大量的人力與物力用于信息采集。而基于web的可視化定向信息采集系統(tǒng)可以滿足這些需要。信息采集是指利用計(jì)算機(jī)軟件技術(shù),針對定制的目標(biāo)數(shù)據(jù)源,實(shí)時(shí)進(jìn)行信息監(jiān)測、挖掘、處理,從而為各種信息服務(wù)系統(tǒng)提供數(shù)據(jù)輸入的整個(gè)過程。該系統(tǒng)即基于web的可視化
3、定向信息采集系統(tǒng)就是針對當(dāng)前大多數(shù)c/s架構(gòu)的信息采集軟件在安裝和采集設(shè)置方面參數(shù)過于復(fù)雜,無法面向大多數(shù)非專業(yè)用戶的缺點(diǎn)而開發(fā)的一款b/s架構(gòu)的可視化的信息采集系統(tǒng),這是可視化定向采集技術(shù)在b/s方向的首次應(yīng)用。1.3定義htmlparser: 網(wǎng)頁抓取與解析的輔助java開源工具包informationcollection: 信息采集1.4參考資料技術(shù)文檔:java 2 核心技術(shù),java api,htmlparser api需求和設(shè)計(jì)文檔:科研信息采集系統(tǒng)需求說明執(zhí)行文檔:科研信息采集開發(fā)計(jì)劃開發(fā)手冊:科研信息采集系統(tǒng)開發(fā)手冊1.5系統(tǒng)介紹基于web的可視化定向信息采集系統(tǒng)是一款b/s架
4、構(gòu)的數(shù)據(jù)定向數(shù)據(jù)采集軟件,定向采集于搜索引擎相比,使得采集對象可以直接面向區(qū)域,突破了一般搜索引擎只能根據(jù)內(nèi)容進(jìn)行搜索的限制,使得用戶可以及時(shí)獲取相關(guān)網(wǎng)站特定的數(shù)據(jù)服務(wù)于自己的工作和生活。該系統(tǒng)于當(dāng)前定向數(shù)據(jù)采集系統(tǒng)比較,特點(diǎn)在于無需下載就可使用,自動采集,實(shí)時(shí)跟蹤??梢暬ㄏ虿杉夹g(shù)首次應(yīng)用使得采集過程可見方便,只需經(jīng)過輸入網(wǎng)址、定位、確認(rèn)三個(gè)步驟后就享受方便及時(shí)準(zhǔn)確的信息服務(wù)。1.6系統(tǒng)應(yīng)用領(lǐng)域1、搜索引擎與垂直搜索2、綜合門戶與行業(yè)門戶3、電子政務(wù)與電子商務(wù)4、知識管理與知識共享5、企業(yè)競爭情報(bào)系統(tǒng)6、bi商業(yè)智能系統(tǒng)7、信息咨詢與信息增值8、信息安全和信息監(jiān)控1.7軟件特點(diǎn) 可視化的數(shù)
5、據(jù)采集方案,該方案建立在可視化信息采集技術(shù)的基礎(chǔ)上。重要的特點(diǎn)在于方案能夠?qū)W(wǎng)絡(luò)環(huán)境進(jìn)行良好的解析,并且完成可視化封裝工作,使得用戶可以任意地定位自己的采集目標(biāo)和內(nèi)容。并且此方案使得采集參數(shù)設(shè)置極為簡單,使得該系統(tǒng)可以直接面對大眾,讓非專業(yè)人士享受到定向數(shù)據(jù)采集帶來高效及時(shí)的信息服務(wù)的好處。1.8系統(tǒng)配置要求 需要windows nt4/ windows 2003 server 或更新的操作系統(tǒng)。 需要 microsoft sql server 7/ 2000或其它jdbc接口 硬件平臺:intel xeon 1g 以上cpu,1000m 以上ram,硬盤空間40gm 以上2用途2.1功能該系
6、統(tǒng)的整個(gè)采集過程可觀,可控,步驟簡潔。用戶無需下載,無需配置過多的網(wǎng)絡(luò)參數(shù)便可輕松完成定向數(shù)據(jù)采集、入庫、瀏覽等工作。同時(shí)系統(tǒng)可以實(shí)時(shí)監(jiān)測目標(biāo)網(wǎng)站,在一次采集成功后,實(shí)現(xiàn)自動跟蹤采集。可視化定向采集技術(shù)在網(wǎng)絡(luò)參數(shù)自動優(yōu)化獲取,數(shù)據(jù)環(huán)境解析,數(shù)據(jù)定位方面現(xiàn)出色,這是因?yàn)檫@點(diǎn),使得網(wǎng)絡(luò)數(shù)據(jù)采集系統(tǒng)面向大眾群體成為可能。用戶無需了解專業(yè)的參數(shù)也可以輕松跟蹤獲取自己想要的內(nèi)容。該系統(tǒng)將為大眾群體的工作,生活提供及時(shí),高效,方便的信息數(shù)據(jù)采集服務(wù)。1) 配置簡單,支持關(guān)鍵字采集在對網(wǎng)站新聞內(nèi)容進(jìn)行采集時(shí),用戶只需輸入正確的網(wǎng)址,系統(tǒng)即會對網(wǎng)頁相關(guān)內(nèi)容進(jìn)行分塊,用戶通過自己的點(diǎn)擊選擇即可采集自己想要的內(nèi)容
7、。同時(shí)支持關(guān)鍵字采集,在提交參數(shù)時(shí)如果輸入關(guān)鍵字則系統(tǒng)會提取出只含有關(guān)鍵字信息的新聞信息。分塊定位后示意圖如圖2-1-1所示:圖2-1-1 分塊定位示意圖2) 所采即所得,所采即可見在用戶輸入一確定的網(wǎng)站后,系統(tǒng)即可根據(jù)網(wǎng)站的欄目對該網(wǎng)站進(jìn)行智能的分塊,一般而言,分塊后所見的泛黃區(qū)域都是可采集的區(qū)域,采集后即可存入服務(wù)器數(shù)據(jù)庫,使用戶得到想要的信息。如圖2-1-2所示:圖2-1-2 采集示意圖3) 增量采集與自動更新增加采集:對于初次采集目標(biāo)網(wǎng)站,軟件支持完全采集;而對于已采集過的站點(diǎn)支持增量采集。 支持自動更新:自動檢測站點(diǎn)是否發(fā)生更新,并不會遺漏任何一個(gè)重要的信息。4) 支持多種編碼支持多
8、種網(wǎng)站的信息的編碼,gbk、big5、unicode、utf8等等,并且無需用戶手動填寫,系統(tǒng)可以自己識別出網(wǎng)站的編碼格式。5) 支持閱讀模板對采集到的科研新聞信息,系統(tǒng)將提供一款閱讀模板以方便用戶的閱讀。6) 支持附件采集包括圖片附件采集、文檔附件采集等,附件與正文自動映射與關(guān)聯(lián)。文檔中出現(xiàn)的附近可由用戶自行選擇是否下載。閱讀的模板和附件的采集如圖所示:圖2-1-3 閱讀模板和附件示意圖7) 多線程、多任務(wù)2.2性能l 支持多線程采集。l 單機(jī)在數(shù)據(jù)采集在g級以上。l 數(shù)據(jù)與數(shù)據(jù)源同步更新小于10秒級。2.3安全保密設(shè)置了用戶登錄的模式使用系統(tǒng),從而他人無法輕易獲取用戶采集到的信息。該系統(tǒng)將
9、檢測當(dāng)前數(shù)據(jù)訪問者是否是該數(shù)據(jù)的擁有者,如果不是,系統(tǒng)將提示用戶還未登錄。 3運(yùn)行環(huán)境3.1硬設(shè)備處理機(jī)型號:intel(r) xeon(tm) cpu 3.20ghz內(nèi)存:3gbi/o設(shè)備:聯(lián)機(jī)狀態(tài)3.2支持軟件1) 服務(wù)器操作系統(tǒng):window server 20032) 開發(fā)語言:java 3) 開發(fā)平臺:myeclipse4) 開發(fā)使用數(shù)據(jù)庫:mysql3.3數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)庫:mysqljava開源工具jar包:htmlparser4.使用說明4.1登錄與注冊系統(tǒng)訪問的網(wǎng)址為:18/inf_test/index.jsp 用戶在瀏覽器中輸入網(wǎng)址后即可進(jìn)入
10、登陸界面,登陸頁面如圖4-1-1所示:圖4-1-1 用戶輸入正確的用戶名后即可使用本系統(tǒng),首次使用本系統(tǒng)的用戶需要進(jìn)行注冊,單擊右側(cè)的“立即注冊”即可進(jìn)入注冊界面。在注冊頁面中紅色*號為必填選項(xiàng),如圖4-1-2所示:圖4-1-2 注冊頁面注冊成功后,系統(tǒng)會自動分配一個(gè)id號給用戶登陸系統(tǒng),請記住此id號,如圖4-1-3所示:圖4-1-3在登陸界面輸入正確的id號和密碼即可進(jìn)入系統(tǒng)主界面。4.2主界面首次登陸系統(tǒng)時(shí),顯示給用戶的界面如圖4-2-1所示:圖4-2-1左邊一欄是用戶自定義的所有頻道的名稱,這將在以后用戶使用過程中由用戶自行添加。右上角是采集、任務(wù)定制、頻道管理和退出,這幾項(xiàng)的功能是用
11、于信息的采集、相應(yīng)的任務(wù)定制、頻道的管理及系統(tǒng)退出。用戶界面的中間是采集到的信息,包含的內(nèi)容有:標(biāo)題(新聞?lì)}目)、時(shí)間(新聞更新時(shí)間或采集時(shí)間)、原文(原文的鏈接)及所屬頻道。4.2.1任務(wù)定制根據(jù)所采即所得,所采即可見的原則,在首次信息采集時(shí),用戶需要到目標(biāo)網(wǎng)站上采集信息,步驟如下所示:單擊任務(wù)定制,進(jìn)入信息采集面板,如圖4-2-2所示:圖4-2-2自定義頻道分類:將用戶頻道進(jìn)行分類,方便用戶進(jìn)行管理。您自定義的頻道:將采集的新聞放入自定義的頻道,該頻道將在主界面中所有頻道一欄中顯示您想鎖定的網(wǎng)址:采集的目標(biāo)網(wǎng)站(網(wǎng)址要寫完整)您想鎖定的欄目:采集網(wǎng)站中的某一塊欄目,如通知公告,如果不填,系
12、統(tǒng)在采集時(shí)將對整個(gè)網(wǎng)頁進(jìn)行解析。您想采集的主題:就是采集新聞的關(guān)鍵字,以“-”作為分隔符,如:“新聞-項(xiàng)目”,“*”為任意主題,系統(tǒng)默認(rèn)的關(guān)鍵字為“基金-項(xiàng)目-申請-標(biāo)書-科研-立項(xiàng)-招標(biāo)-專項(xiàng)-申報(bào)-啟動-評獎(jiǎng)-公告-公式-通知-評審-選題-課題-專題-公布”采集條數(shù):采集目標(biāo)欄目的前n條新聞,注意不是采集多少條新聞,可不填,不填默認(rèn)是前10 條新聞?lì)l道自動采集:選擇“是”則該頻道在進(jìn)入系統(tǒng)后自動進(jìn)行信息采集。舉例:自定義頻道分類:通知您自定義的頻道:江蘇教育您想鎖定的網(wǎng)址:您想鎖定的欄目:通知公告您想采集的主題:通知采集條數(shù):10頻道自動采集:是然后點(diǎn)擊“提交采集參數(shù)”按鈕,進(jìn)入目標(biāo)頁面,
13、如圖4-2-3所示:圖4-2-3單擊想采集的欄目,進(jìn)入“確認(rèn)”頁面,如圖4-2-4所示:圖4-2-4在“確認(rèn)”頁面中列出了所有關(guān)鍵字為通知的新聞,選“否”則不采集;選“是”則進(jìn)行采集,進(jìn)入主界面。此時(shí)主界面如圖4-2-5所示:圖4-2-5標(biāo)題排序:在所有頻道中標(biāo)題的排序是根據(jù)新聞入庫的順序進(jìn)行倒序排序,即最新采集到的信息是排在最上面;而在同一頻道中,標(biāo)題的排序是根據(jù)時(shí)間逆序來排序,即最新的新聞是排在最上面的。4.2.2采集為了提高采集的效率,減少用戶的等待時(shí)間,在開發(fā)時(shí)采取了標(biāo)題采集和正文采集分開的方法。用戶采集信息時(shí),首先采集到新聞的標(biāo)題,點(diǎn)擊某一標(biāo)題時(shí),進(jìn)行該標(biāo)題的正文采集。點(diǎn)擊某一標(biāo)題后
14、,進(jìn)入閱讀模板如圖4-2-6所示:圖4-2-6新聞右上角和右下角分別有“返回主界面”、“返回”字樣,單擊可返回到“信息面板”主界面。征正文下方還有原文鏈接,點(diǎn)擊可進(jìn)入源網(wǎng)頁。另有附件個(gè)數(shù)提醒,用戶要查看附件,可進(jìn)入源網(wǎng)頁查看。4.2.3頻道管理首次登陸系統(tǒng)進(jìn)入頻道管理界面,如圖4-2-7所示: 圖4-2-7其中單擊“添加采集來源信息”,可以進(jìn)入信息采集面板進(jìn)行任務(wù)的定制。單擊“返回采集面板”,可以返回到“信息面板”主界面,如圖4-2-8所示:圖4-2-8在用戶已經(jīng)進(jìn)行存有頻道時(shí),進(jìn)入頻道管理界面就如圖4-2-9所示:圖4-2-9如上圖所示,在左側(cè)居中顯示的是頂級頻道,居右側(cè)或泛黃顯示的是頂級頻
15、道下相應(yīng)的子頻道,提出頂級頻道和子頻道是為了方便用戶對自己輸入的信息進(jìn)行方便的管理;圖片右側(cè)是對頻道和采集來源信息進(jìn)行管理(修改、刪除等)。一、頻道的修改如圖4-2-10所示:圖4-2-10頻道名稱對應(yīng)的是子頻道,頻道的分類對應(yīng)的是頂級頻道的名稱,位于頂級頻道后面的單選框如果不選,意味著在修改頂級頻道名時(shí)僅修改頂級頻道的名稱,若選中了此單選框則表示將現(xiàn)有的子頻道放入另一頂級頻道中,而原有的頂級頻道依然存在。二、采集來源信息的修改選擇頻道管理界面右側(cè)“修改”字樣,界面跳轉(zhuǎn)回任務(wù)定制時(shí)的界面,但在文本框內(nèi)保持現(xiàn)有采集來源的信息,這樣即可對用戶原先采集的信息來源的信息進(jìn)行修改,用戶可根據(jù)自己的需要重
16、新填寫參數(shù)按照采集的步驟重新進(jìn)行采集,系統(tǒng)如果檢測到用戶修改的僅僅是網(wǎng)站的名稱,采集的關(guān)鍵字而非采集的欄目、網(wǎng)址等則無需對原網(wǎng)址進(jìn)行重新解析,可立即采集用戶所需新內(nèi)容或不采集。界面如圖4-2-11所示:圖4-2-11用戶在單擊“修改”后即可出現(xiàn)上圖所示界面進(jìn)行修改。4.2.4自動采集自動采集,是系統(tǒng)頻道去目標(biāo)網(wǎng)站自動進(jìn)行采集的功能。用戶在登錄自己的主界面后,系統(tǒng)就會對頻道進(jìn)行自動采集,使得呈現(xiàn)在用戶面前的數(shù)據(jù)信息是最新的,這樣即可保持采集信息的及時(shí)性,有效的避免了漏采現(xiàn)象的發(fā)生。任務(wù)定制時(shí),用戶可以選擇是否設(shè)置頻道為“自動采集”,如果頻道設(shè)置為自動采集,當(dāng)用戶進(jìn)入系統(tǒng)后,相應(yīng)頻道就會自動到目標(biāo)網(wǎng)站采集信息。用戶可以到“頻道管理”界面修改頻道的自動采集屬性。如果自動采集到新的新聞信息,則將在主界面的頻道欄目中顯示有幾條新增信息。如圖4-2-12所示:圖4-2-12新的新聞信息將在標(biāo)題后面標(biāo)注“new”,以提醒用戶。在用戶產(chǎn)看某一信息后,“new”消失。如圖4-2-13所示:圖4-2-134.2.5錯(cuò)誤處理當(dāng)用戶進(jìn)行任務(wù)定制時(shí),如果網(wǎng)站采集過程中產(chǎn)生錯(cuò)誤,系統(tǒng)將默認(rèn)跳轉(zhuǎn)到錯(cuò)誤界面,如圖4-2-14所示:圖4-2-14此時(shí)將顯示如下錯(cuò)誤信息,如圖4-2-15所
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度智慧校園宿管員綜合服務(wù)聘用合同范本4篇
- 個(gè)性化服務(wù)協(xié)議模板 2024全新出爐版B版
- 2025年度教育機(jī)構(gòu)場地租賃及設(shè)施共建合同4篇
- 2025年度新能源汽車充電樁研發(fā)與運(yùn)營合同3篇
- 二零二五版智能法律助手APP下載與法律服務(wù)套餐協(xié)議3篇
- 專業(yè)空調(diào)安裝協(xié)議2024年細(xì)則版A版
- 2024美發(fā)行業(yè)專屬勞動協(xié)議樣例版
- 二零二四外幣資金借貸風(fēng)險(xiǎn)監(jiān)控及應(yīng)對策略合同3篇
- 專項(xiàng)商鋪投資預(yù)訂協(xié)議:2024認(rèn)籌細(xì)則
- 二零二四商鋪物業(yè)管理與設(shè)施升級改造合同2篇
- 2024年石家莊正定國際機(jī)場改擴(kuò)建工程合同
- 2025年度愛讀書學(xué)長定制化閱讀計(jì)劃合同2篇
- 江西省港口集團(tuán)有限公司招聘筆試沖刺題2025
- 河南省信陽市浉河區(qū)9校聯(lián)考2024-2025學(xué)年八年級上學(xué)期12月月考地理試題(含答案)
- 火災(zāi)安全教育觀后感
- 快速康復(fù)在骨科護(hù)理中的應(yīng)用
- 國民經(jīng)濟(jì)行業(yè)分類和代碼表(電子版)
- ICU患者外出檢查的護(hù)理
- 公司收購設(shè)備合同范例
- 廣東省潮州市2023-2024學(xué)年高二上學(xué)期語文期末考試試卷(含答案)
- 2024年光伏發(fā)電項(xiàng)目EPC總包合同
評論
0/150
提交評論