版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
互聯(lián)網(wǎng)信息采集系統(tǒng)用戶(hù)手冊(cè)用戶(hù)手冊(cè)[V5.0]\l“_TOC_250010“第一章:系統(tǒng)介紹 3\l“_TOC_250009“軟件簡(jiǎn)介 3\l“_TOC_250008“互聯(lián)網(wǎng)信息采集與挖掘 3\l“_TOC_250007“互聯(lián)網(wǎng)采集系統(tǒng)流程圖 3\l“_TOC_250006“系統(tǒng)應(yīng)用領(lǐng)域: 4\l“_TOC_250005“軟件特點(diǎn) 4系統(tǒng)配置要求 13系統(tǒng)性能 13\l“_TOC_250004“其次章:使用手冊(cè) 14\l“_TOC_250003“綜合設(shè)置 14數(shù)據(jù)庫(kù)治理 14表單治理 14頻道治理 18模板治理 19信息采集 19站點(diǎn)差不多屬性 19提交訪問(wèn)數(shù)據(jù) 20站點(diǎn)鏈接預(yù)覽 21采集過(guò)濾 22分頁(yè)模板 22附件采集設(shè)置 23聞自動(dòng)識(shí)別 23字段提取設(shè)置 24字段采后處理 25\l“_TOC_250002“站點(diǎn)治理 25采集站點(diǎn)治理 25掃描采集源 26采集日志 26\l“_TOC_250001“信息治理 26信息治理 26附件治理 27記錄導(dǎo)入 27信息導(dǎo)出 28\l“_TOC_250000“信息公布 28登錄公布效勞器 28獵取公布權(quán)限的信息 29建公布表單公布映射 29公布表單映射治理 29公布頻道映射治理 30第一章:系統(tǒng)介紹軟件簡(jiǎn)介挖掘、處理,從而為各種信息效勞系統(tǒng)供給數(shù)據(jù)輸入的整個(gè)過(guò)程。聯(lián)網(wǎng)信息采集與監(jiān)控軟件?;ヂ?lián)網(wǎng)信息采集與挖掘要求從互聯(lián)網(wǎng)上對(duì)特定目標(biāo)數(shù)據(jù)源或不特定目標(biāo)數(shù)據(jù)源進(jìn)展采集與監(jiān)控效勞于到電子行業(yè)平臺(tái)。行信息采集、抽取、挖掘、處理,從而為各種信息效勞系統(tǒng)供給數(shù)據(jù)輸入,并按業(yè)務(wù)所需,進(jìn)展數(shù)據(jù)公布、分析的整個(gè)過(guò)程。互聯(lián)網(wǎng)采集系統(tǒng)流程圖第一步:確定采集任務(wù)。其次步:每個(gè)采集任務(wù),我們有多個(gè)目標(biāo)數(shù)據(jù)源可供采集。第三步:針對(duì)不同的目標(biāo)數(shù)據(jù)源,進(jìn)展不同的采集配置,以確保能采集到數(shù)據(jù)。第四步:調(diào)度采集任務(wù),與目標(biāo)站點(diǎn)同步更,增量采集。第五步:采集到數(shù)據(jù)結(jié)果,完成數(shù)據(jù)異構(gòu)到同構(gòu)的過(guò)程。第六步:通過(guò)公布效勞器,將數(shù)據(jù)公布到應(yīng)用平臺(tái)。系統(tǒng)應(yīng)用領(lǐng)域:1、搜尋引擎與垂直搜尋2、綜合門(mén)戶(hù)與行業(yè)門(mén)戶(hù)3、電子政務(wù)與電子商務(wù)4、學(xué)問(wèn)治理與學(xué)問(wèn)共享5、企業(yè)競(jìng)爭(zhēng)情報(bào)系統(tǒng)6、BI7、信息詢(xún)問(wèn)與信息增值8、信息安全和信息監(jiān)控軟件特點(diǎn)、過(guò)濾干凈,智能化抽取正文,且圖文關(guān)聯(lián)圖:采集的目標(biāo)源圖:采集后“干凈”的正文結(jié)果、數(shù)據(jù)導(dǎo)出接口豐富,能夠?qū)?shù)據(jù)導(dǎo)出成各種主流關(guān)系型數(shù)據(jù)構(gòu)造。、配置簡(jiǎn)潔自動(dòng)學(xué)習(xí)。關(guān)于數(shù)據(jù)采集軟件供給了通俗易明白的站點(diǎn)配置向?qū)Ш蔚男畔⒉杉?。關(guān)于簡(jiǎn)單的采集過(guò)程,通過(guò)一張采集卡腳本即可實(shí)現(xiàn)信息的自動(dòng)采集與監(jiān)控。圖:支持關(guān)鍵字采集,直截了當(dāng)輸入關(guān)鍵字,一步設(shè)置輸入“關(guān)鍵字、所采即所得,所采即可見(jiàn)、增量采集與自動(dòng)更
圖:所采即所得,所采即可見(jiàn)量采集。支持自動(dòng)更:自動(dòng)檢測(cè)站點(diǎn)是否發(fā)生更,并可不能遺漏任何一個(gè)重要的信息。、采集結(jié)果自動(dòng)排重不是利用簡(jiǎn)潔的規(guī)章判定,而是利用內(nèi)容的相像性進(jìn)展排重判定,準(zhǔn)確性高,可不能由于標(biāo)題或內(nèi)容的少許變化而產(chǎn)生漏判,即使把標(biāo)題進(jìn)展了改頭換面,系統(tǒng)也會(huì)正確判定。、內(nèi)置強(qiáng)大的信息監(jiān)控能夠通過(guò)一個(gè)關(guān)鍵字廣域監(jiān)控互聯(lián)網(wǎng)上任何一個(gè)站點(diǎn)上的相關(guān)信息控頻道監(jiān)控任何站點(diǎn)所采集到含有關(guān)鍵字的信息屬性,監(jiān)控周期到達(dá)了秒級(jí)。關(guān)于發(fā)生變化的信息能夠在短時(shí)刻內(nèi)采集到本地。圖:獨(dú)有的監(jiān)控功能,可能對(duì)采集后的結(jié)果進(jìn)展進(jìn)一步監(jiān)控與過(guò)濾強(qiáng)大的站點(diǎn)治理工具能夠?qū)θ坎杉瘜?duì)象進(jìn)展集中治理和各種操作圖:對(duì)全部采集對(duì)象進(jìn)展集中治理和各種操作圖:為所欲為自定義導(dǎo)航與分類(lèi)圖:綜全的選項(xiàng)配置,提升采集的性能、支持多種編碼
圖:對(duì)采集后的結(jié)果能夠趕忙進(jìn)展修改與編輯支持多種網(wǎng)站的信息的編碼,GBK、BIG5、UNICODE、UTF8,軟件會(huì)自動(dòng)轉(zhuǎn)換成GBK碼進(jìn)展統(tǒng)一的處理。軟件即會(huì)自動(dòng)識(shí)別網(wǎng)站的組織構(gòu)造,自動(dòng)識(shí)別網(wǎng)站的編碼。集圖片用圖片表單。、信息導(dǎo)入導(dǎo)出為所欲為供給信息導(dǎo)入導(dǎo)出與其它軟件可作無(wú)縫連接,如CRM OAExcel/Access等,也能夠直截了當(dāng)導(dǎo)到指定的數(shù)據(jù)庫(kù)。與《信息公布效勞器》結(jié)合使用能夠?qū)⑿畔⒐嫉饺魏我粋€(gè)地點(diǎn)。、支持閱讀模板任何一種信息類(lèi)型,軟件都會(huì)自動(dòng)創(chuàng)立一個(gè)閱讀模板便利了您快速閱讀;任何信息您能夠?qū)θ魏我环N信息表單定制一款秀麗的閱讀模板設(shè)置不同的閱讀模板。、支持多頁(yè)面內(nèi)容重組關(guān)于目標(biāo)數(shù)據(jù)源的一篇文章在目標(biāo)網(wǎng)站上分頁(yè)顯示,系統(tǒng)能自動(dòng)對(duì)其重組.軟件運(yùn)行穩(wěn)固、采集速度快、占用系統(tǒng)資源少并發(fā)運(yùn)行,而不占有過(guò)多的系統(tǒng)資源。采集速度快到瞬時(shí)到位。軟件完全能夠?qū)崿F(xiàn)7*24小時(shí)不連續(xù)無(wú)人值守的信息采集。更多細(xì)節(jié)功能有待于您在使用中去體驗(yàn)。、其它特點(diǎn)列表:1、支持多種語(yǔ)言:支持簡(jiǎn)體中文、繁體中文、英文、日文、韓文等多國(guó)語(yǔ)言htmlrss3、支持登錄、驗(yàn)證后采集4、軟件支持需要登錄與需要驗(yàn)證碼的網(wǎng)站信息采集,采集過(guò)程完全仿人工。5、支持附件采集包括圖片附件采集、多媒體附件采集、音視頻附件采集、附件與正文自動(dòng)映射與關(guān)聯(lián)6、完全構(gòu)造化抽取將網(wǎng)頁(yè)的非構(gòu)造化數(shù)據(jù)抽取成特定的構(gòu)造化信息數(shù)據(jù)。去重、分類(lèi)等,最終分詞、索引再以搜尋的方式滿(mǎn)足用戶(hù)的需求。的方式和構(gòu)造化的方式返回給用戶(hù)。7、數(shù)據(jù)儲(chǔ)存到本地,您能夠隨時(shí)查閱信息。采集到信息自動(dòng)儲(chǔ)存到本地?cái)?shù)據(jù)庫(kù),您能夠隨時(shí)查閱信息。8、多線(xiàn)層、多任務(wù)9、支持海量數(shù)據(jù)采集10、軟件有用、易用、功能強(qiáng)大11、可移植、可擴(kuò)展、可定制系統(tǒng)配置要求WindowsNT4/Windows2023Server或更的操作系統(tǒng)。需要MicrosoftSQLServer7/2023ODBC接口硬件平臺(tái):intelxeon1G以上CPU,1000MRAM40GM以上系統(tǒng)性能支持多線(xiàn)程采集。單機(jī)在數(shù)據(jù)采集在G級(jí)以上。10秒級(jí)。10秒級(jí)。其次章:使用手冊(cè)綜合設(shè)置數(shù)據(jù)庫(kù)治理建數(shù)據(jù)庫(kù)通過(guò)“系統(tǒng)(S)”主菜單下的“建數(shù)據(jù)庫(kù)”功能菜單,您能夠創(chuàng)立一個(gè)全的信息采集與治理數(shù)據(jù)庫(kù)。建的數(shù)據(jù)庫(kù),默認(rèn)會(huì)創(chuàng)立一個(gè)『聞表單儲(chǔ)藏在與操作系統(tǒng)不同的驅(qū)動(dòng)盤(pán)下,如此數(shù)據(jù)庫(kù)中的信息內(nèi)容會(huì)更安全一些。備份數(shù)據(jù)庫(kù)通過(guò)備份數(shù)據(jù)庫(kù)的功能,您能夠?qū)?dāng)前正在使用的數(shù)據(jù)庫(kù)壓縮并備份到另一個(gè)名目下。以備以后的使用。壓縮數(shù)據(jù)庫(kù)由于桌面版的軟件版本使用了微軟的ACCESS數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)在您刪除記錄時(shí)可不能自動(dòng)開(kāi)釋已刪除記錄所占用的空間縮,以削減數(shù)據(jù)庫(kù)占用硬盤(pán)資源的空間。關(guān)于SQLServer版本的軟件,則無(wú)需使用壓縮數(shù)據(jù)庫(kù)的功能。軟件也將該功能屏蔽。表單治理表單的概念在各個(gè)表單中預(yù)置一些字段,通常這些字段含以下幾個(gè)局部:顯示操縱信息字段:密碼字段、文字顏色字段、文字背景顏色字段、顯示圖標(biāo)字段后續(xù)跟蹤信息字段:信息來(lái)源地址字段頻道信息字段:頻道信息,監(jiān)控頻道信息創(chuàng)立表單下面以創(chuàng)立一個(gè)圖書(shū)治理表單為例,逐步向您說(shuō)明如何創(chuàng)立一個(gè)屬于自己的治理表單。找到主菜單欄中的“工具”=>“系統(tǒng)表單治理“菜單,在彈出的在表單治理器中點(diǎn)擊“建表單”按鈕。在“表單標(biāo)題”編輯框中輸入“圖書(shū)表單tblBookShee留意:假設(shè)“表單名稱(chēng)”或“表單標(biāo)題”為空將不能成功地創(chuàng)立表單。點(diǎn)擊“儲(chǔ)存”按鈕,這時(shí)系統(tǒng)會(huì)提示您已成功地創(chuàng)立了一個(gè)名稱(chēng)“圖書(shū)表單”的表單,并在圖書(shū)表單下下掛三個(gè)字段“記錄編號(hào)錄編號(hào)用于標(biāo)識(shí)表單中任何一條記錄的唯獨(dú)的標(biāo)識(shí)道;而源文地址則用于標(biāo)識(shí)信息來(lái)源于何處。表單標(biāo)題該字段用于通俗易明白地標(biāo)示表單。[必需輸入],我們建議您表單標(biāo)題做到整個(gè)數(shù)據(jù)庫(kù)是唯獨(dú)的。表單名稱(chēng)該字段用于在數(shù)據(jù)庫(kù)中創(chuàng)立對(duì)應(yīng)表單的名稱(chēng)2040個(gè)英文字母同Windows中的文件命名規(guī)章相同。能夠取與表單標(biāo)題一樣的名稱(chēng),但建議采納tblXXXSheet作為命名標(biāo)準(zhǔn)。閱讀模板該字段用于標(biāo)識(shí)該表單的信息內(nèi)容閱讀模板的路徑,能夠是文件路徑名稱(chēng)如:e:\Quickreader\readmodel\tblbooksheet.html,也能夠是網(wǎng)絡(luò)上的某個(gè)路徑名如: :// xxx/tblbooksheet.html。也能夠是相對(duì)路徑,如:readmodel\tblbooksheet.html(假設(shè)您將程序安裝在:c\ProgrameFiles\采集軟件\QuickReader,c\ProgrameFiles\采集軟件\QuickReader\readmodel\tblbooksheet.html)假設(shè)沒(méi)有該表單對(duì)應(yīng)的閱讀模板該表單全部字段后利用軟件供給的“創(chuàng)立模板”進(jìn)展創(chuàng)立。添加字段以創(chuàng)立圖書(shū)信息治理表單為例,假設(shè)治理圖圖需要以下字段:圖書(shū)名稱(chēng)fldBookName40,查重鍵,主題鍵作者fldBookAuthor30購(gòu)置日期fldPurchaseDate可用于操縱或統(tǒng)計(jì)日期型圖書(shū)價(jià)格fldBookPrice價(jià)格浮點(diǎn)型借閱人fldUserName40借閱日期fldBrowDate借閱日期日期型圖書(shū)簡(jiǎn)介fldBookMemo有關(guān)該圖書(shū)的說(shuō)明備注型選中剛剛建的“圖書(shū)表單”后,點(diǎn)擊“建字段”按鈕,將在“圖書(shū)表單”下增加一個(gè)結(jié)點(diǎn),編輯框中預(yù)輸入了“字段的“字段標(biāo)題”中輸入?,F(xiàn)在,在結(jié)點(diǎn)編輯中輸入“圖書(shū)名稱(chēng)”后,點(diǎn)擊列表中的“字段名fldBookNam4統(tǒng)已成功地圖書(shū)表單上增加了“圖書(shū)名稱(chēng)”字段。可依據(jù)上述圖書(shū)治理的需求表格,完成在圖書(shū)表單的創(chuàng)立工作。下面將對(duì)表單各個(gè)屬性進(jìn)展具體地說(shuō)明。字段標(biāo)題50個(gè)字節(jié)。字段名稱(chēng)50個(gè)字節(jié),命名規(guī)章同Windows中的文件命名。建議承受fldXXX作為該值的輸入標(biāo)準(zhǔn)。字段類(lèi)型5種字段類(lèi)型,能夠依照實(shí)際需要從這5在以后對(duì)其進(jìn)展修改。字段長(zhǎng)度50個(gè)字節(jié)。設(shè)為查重鍵該字段能夠選擇為“是”或“否“圖書(shū)表單”中設(shè)置“圖書(shū)名稱(chēng)”為查重鍵,如此,以后在輸入每一本書(shū)的屬性時(shí),系統(tǒng)將查找是否存在有一樣圖書(shū)名稱(chēng)的記錄。主題字段該字段能夠選擇為“是”或“否聞表單中的聞標(biāo)題。我們?cè)凇皥D書(shū)表單”中能夠設(shè)置“圖書(shū)名稱(chēng)”為主題字段。識(shí)別標(biāo)簽本中識(shí)別“圖書(shū)名稱(chēng)”的值,則能夠輸入“圖書(shū)名稱(chēng);名稱(chēng);圖書(shū);BOOKNAME;”等作默認(rèn)值在列表中顯示用于操縱屬性字段在概覽表單內(nèi)容時(shí)是否在列表中顯示。列表寬度用于操縱屬性字段在概覽表單時(shí)顯示在列表中的長(zhǎng)度。對(duì)齊格式對(duì)齊??蛇x擇尋常的值選取一個(gè)。承諾為空用于操縱屬性字段是否承諾為空覺(jué)察該字段沒(méi)有值的記錄將被丟棄或要求錄入該字段。如“圖書(shū)表單”中要求“圖書(shū)名稱(chēng)”不為空,那么假設(shè)“圖書(shū)名稱(chēng)”為空的話(huà),該記錄就變得沒(méi)必要了。修改屬性名稱(chēng)。修改后的屬性能夠趕忙在使用中生效。特地提示:在信息采集的過(guò)程中軟件不承諾您對(duì)表單進(jìn)展修改。刪除表單通過(guò)“刪除表單”按鈕能夠刪除掉一些不再使用的表單。欄目也將被刪除。刪除字段通過(guò)“刪除字段”按鈕能夠刪除掉一些不再使用的屬性字段。留意:刪除字段時(shí)將同時(shí)刪除表單中該字段的全部數(shù)據(jù)。上移下移字段字段在列表與閱讀模板中顯示挨次。創(chuàng)立閱讀模板何創(chuàng)立閱讀模板,請(qǐng)參照『閱讀模板』一節(jié)。遠(yuǎn)程表單治理遠(yuǎn)程表單治理關(guān)于使用了《互聯(lián)網(wǎng)信息采編發(fā)系統(tǒng)》的用戶(hù)才會(huì)顯示。關(guān)于一般的用信息。用戶(hù)能夠通過(guò)表單治理器來(lái)掃瞄遠(yuǎn)程表單的信息。但不能修改表單屬性。頻道治理創(chuàng)立頻道選中一個(gè)結(jié)點(diǎn)作為建頻道的父名目在彈出的“頻道屬性”對(duì)話(huà)框中輸入頻道的名稱(chēng),并選擇一個(gè)表單,默認(rèn)為“聞表單我們選擇前面表單治理中創(chuàng)立的“圖書(shū)表單入模板的路徑。找到一個(gè)適宜的圖標(biāo)文件,并將圖標(biāo)文件放置于安裝名目的Icon名目下。重啟軟件,就能夠更該欄目的圖標(biāo)為您剛剛放置的圖標(biāo)。修改頻道屬性修改頻道的各個(gè)屬性〔不能修改欄目所對(duì)應(yīng)的表單〕后儲(chǔ)存即可。刪除頻道通過(guò)右鍵菜單能夠刪除選中的頻道,留意刪除頻道時(shí)將同時(shí)刪除其子頻道的全部信息。假設(shè)該頻道及其子頻道下的記錄比較多,刪除可能需要一段時(shí)刻,請(qǐng)急躁等待。隱蔽頻道在頻道較多的時(shí)候,能夠通過(guò)隱蔽頻道功能隱蔽一些欄目在導(dǎo)航樹(shù)上的顯示。刷頻道通過(guò)刷頻道,能夠重在導(dǎo)航樹(shù)上顯示那些被隱蔽的子頻道。清空頻道清空頻道,將會(huì)將頻道中的全部記錄都清空,但可不能阻礙到其子頻道的信息。設(shè)置頻道密碼設(shè)置了頻道密碼后,能夠操縱頻道的訪問(wèn)權(quán)限,再次訪問(wèn)需要輸入密碼才能夠訪問(wèn)。設(shè)置標(biāo)記〔或一樣顏色。而也能夠通過(guò)“取消全部文字顏色“來(lái)取消全部已設(shè)置文字顯示顏色的頻道的顏色。拖動(dòng)頻道把被拖動(dòng)的頻道顯示在的父頻道下,以轉(zhuǎn)變信息分類(lèi)構(gòu)造。模板治理閱讀模板的作用通過(guò)閱讀模板能夠?qū)⒈韱沃械男畔?nèi)以網(wǎng)頁(yè)的形式快速呈現(xiàn),以便讓您快速閱讀閱讀模板。如何設(shè)計(jì)模板置“表單治理”中各個(gè)要顯示的字段的字段名稱(chēng)。要緊放置id=“字段名稱(chēng)“name=“字段名稱(chēng)“。那個(gè)地點(diǎn)要特地說(shuō)明是放置字段名稱(chēng),而非字段標(biāo)題信息采集站點(diǎn)差不多屬性在增加或編輯站點(diǎn)屬性時(shí),需要設(shè)置站點(diǎn)的的第一步確實(shí)是設(shè)置采集站點(diǎn)的差不多屬性。站點(diǎn)差不多信息包括:站點(diǎn)地址主題的頁(yè)面地址,也能夠是某個(gè)論壇的地址。還能夠是某個(gè)RSS站點(diǎn)名稱(chēng)站點(diǎn)名稱(chēng)要緊用于顯示地標(biāo)識(shí)該站點(diǎn),以便于以后站點(diǎn)疼惜與治理。站點(diǎn)的名稱(chēng),也能夠取得下面要說(shuō)到的站點(diǎn)類(lèi)型和站點(diǎn)編碼。站點(diǎn)類(lèi)型HTML站點(diǎn)和聚類(lèi)RSSHTMLRSS類(lèi)型。站點(diǎn)編碼站點(diǎn)編碼用于顯示地告知軟件該站點(diǎn)的網(wǎng)頁(yè)承受了哪種編碼模式BIG5編碼;一些網(wǎng)站的網(wǎng)頁(yè)則承受UTF8編碼。關(guān)于不同的編碼網(wǎng)頁(yè)軟件需要進(jìn)展統(tǒng)一的編全。需要使用代理加每個(gè)站點(diǎn)都會(huì)自動(dòng)承受該代理。不需使用代理的采集一樣比使用代理采集速度要快。該網(wǎng)站需要登錄在采集一些如論壇或其它需要您輸入登錄賬號(hào)的站點(diǎn)時(shí),需要設(shè)置登錄用戶(hù)名和密碼。登錄時(shí)需要輸入驗(yàn)證碼有些網(wǎng)站在采集時(shí)除了需要登錄外能采集。那個(gè)地點(diǎn)就需要您設(shè)置如何提取與識(shí)別驗(yàn)證碼。需要使用代理、網(wǎng)站需要登錄詳見(jiàn)『登錄目標(biāo)網(wǎng)站碼識(shí)別』承諾自動(dòng)周期檢測(cè)該站的更并采集1設(shè)置的周期獵手能夠快速檢測(cè)并更到達(dá)更周期的站點(diǎn)。提交訪問(wèn)數(shù)據(jù)什么原因要提交數(shù)據(jù)頁(yè)面。您只需把要提交的訪問(wèn)數(shù)據(jù)拷貝到該頁(yè)面的頂端最大的編輯框中些數(shù)據(jù)。您能夠修改解析后的參數(shù)列表中的某些參數(shù)值。比方username=abcd&userpswd=134&classid=23&no=2能夠說(shuō)明成如此的:用戶(hù)名:abcd134要訪問(wèn)類(lèi)別ID23的其次頁(yè)上的信息。如何獲得訪問(wèn)數(shù)據(jù)方法有特地多,我們?cè)诖伺e薦一種最牢靠最有效的獵取訪問(wèn)數(shù)據(jù)的方法。到需要提交的數(shù)據(jù),并拷貝出來(lái)。站點(diǎn)鏈接預(yù)覽站點(diǎn)鏈接預(yù)覽與設(shè)置戶(hù)選擇任何一點(diǎn)條記錄后,點(diǎn)擊右鍵,能夠彈出操縱菜單。復(fù)制鏈接地址 拷貝當(dāng)前選中的鏈接信息中的鏈接地址。復(fù)制鏈接標(biāo)題 拷貝當(dāng)前選中的鏈接信各的鏈接標(biāo)題。掃瞄原文件 在網(wǎng)頁(yè)掃瞄器中翻開(kāi)原文查看。翻開(kāi)該鏈接 將會(huì)在軟件的鏈接預(yù)覽窗口選中的鏈接下開(kāi)放該鏈接記錄的子鏈接信息。設(shè)為典型頁(yè)面設(shè)置為您要采集的感愛(ài)好的鏈接信息。您能夠多設(shè)置幾個(gè),以作后面的字段信息提取測(cè)試的測(cè)試頁(yè)面。采集深度采集深度是指您要對(duì)該目標(biāo)鏈接采集到第幾層。設(shè)置提取特地的鏈接地址在采集過(guò)程中常常會(huì)遇到一些信息內(nèi)容是在彈出式的窗口上顯示的,其腳本類(lèi)似于:javascript:privateWin(”202308766”)的鏈接地址,而該鏈接地址的實(shí)際地址可能是如此的::// test /testsmth.asp?id=202308766轉(zhuǎn)換成真實(shí)的鏈接地址。那么鏈接地址特點(diǎn):就輸入::privateWin(”{1}”)真實(shí)的鏈接地址請(qǐng)輸入: :// test /testsmth.asp?id={1}如此軟件就會(huì)自動(dòng)提取中全部鏈接中符合privateWin(””)的鏈接變量,并轉(zhuǎn)換成真實(shí)的鏈接地址。這種情形,一樣的用戶(hù)能夠躍過(guò)該節(jié)。采集過(guò)濾采集過(guò)濾操縱設(shè)置濾操縱中設(shè)置一些過(guò)濾操縱條件。您能夠從“鏈接地址字的鏈接進(jìn)展操縱,操縱動(dòng)作有:不采集,采集不提取,采集并提取。如設(shè)置鏈接地址中包含有“123“的不采集。而采集不提取的概念是,只采集到符合條件的鏈接地址的信息,并依鏈接而且還會(huì)提取該頁(yè)面的信息。設(shè)置信息鏈接提取范疇2設(shè)置,請(qǐng)參閱『字段信息提取鏈接擴(kuò)展名采集操縱操縱采集提取鏈接的擴(kuò)展名采不采集外網(wǎng)或不同的專(zhuān)內(nèi)容依照需要設(shè)置需不需要采集外部的網(wǎng)站的信息。分頁(yè)模板為了一次性從目標(biāo)網(wǎng)站上采集更多的信息網(wǎng)頁(yè)鏈接,如分頁(yè)信息鏈接。:// /test.asp?no=2...:// /test.asp?no=2002200一次性由軟件自動(dòng)生成。自動(dòng)生成的方式如下::// /test.asp?no={2,200,12200增加一頁(yè)。附件采集設(shè)置附件識(shí)別方法:使用擴(kuò)展名提取 設(shè)置您要提取的附件擴(kuò)展名,每個(gè)擴(kuò)展名以“;”作分隔,如:jpg;gif;zip;等。使用特點(diǎn)符提取 您要設(shè)置附件鏈接中必需包含有關(guān)鍵字的附件才要采集。各個(gè)關(guān)鍵字也是以“;”分隔。不采集就可不能識(shí)別與采集任何附件。附件儲(chǔ)存方式設(shè)置適當(dāng)?shù)母郊?chǔ)存方式來(lái)儲(chǔ)存站點(diǎn)中已識(shí)別的附件信息和文件3種方式能夠選擇:的附件表單中。選中“儲(chǔ)存前壓縮附件“能夠削減附件在數(shù)據(jù)庫(kù)中的占用空間。為空,否則將承受第一種方式。與就失去完整性。聞自動(dòng)識(shí)別多國(guó)語(yǔ)言的聞資訊。假設(shè)您要識(shí)別聞的作者,則需要作者識(shí)別標(biāo)簽。常見(jiàn)的標(biāo)簽有:記者;編輯;作者;通訊員等。每個(gè)標(biāo)簽以“;”作分隔。同樣要識(shí)別來(lái)源與公布日期等也要輸入相應(yīng)的標(biāo)簽。只采集最文章的鏈接地址軟件將只采集目標(biāo)網(wǎng)站的最信息的鏈接地址和鏈接標(biāo)題文信息。自動(dòng)重組文章的全部頁(yè)面特地多目標(biāo)網(wǎng)站會(huì)將長(zhǎng)的聞文章安排到多個(gè)頁(yè)面中顯示重組這些類(lèi)型的聞信息。正文長(zhǎng)度小于閾值不儲(chǔ)存用戶(hù)能夠設(shè)定閾值來(lái)限制聞的長(zhǎng)度,假設(shè)長(zhǎng)度小于閾值就不儲(chǔ)存。文章中的附件數(shù)大于閾值不儲(chǔ)存當(dāng)聞中的附件數(shù)量大于閾值就不儲(chǔ)存不采集。字段提取設(shè)置通過(guò)本節(jié)的學(xué)習(xí)您將學(xué)會(huì)如何從一個(gè)網(wǎng)頁(yè)中提取出每個(gè)字段的信息4通過(guò)智能標(biāo)簽提取法簡(jiǎn)潔適用于多數(shù)的網(wǎng)站。通過(guò)正則表達(dá)式提取關(guān)于生疏正則表達(dá)式的高級(jí)用戶(hù)能夠使用正則表到達(dá)來(lái)提取頁(yè)面中的信息。指定一個(gè)特定的值己指定一個(gè)特定的值。通過(guò)前后標(biāo)識(shí)提取如下:<td>影片:</td><td>XXXXXXXX</td>那么我們能夠承受前標(biāo)識(shí)符為:影片:</td>后標(biāo)識(shí)符為:</td容為<td>XXXXXXXX那么我們不勾選“保存字段值中的HTMLXXXXXXXX提取該字段的附件取字段內(nèi)的附件。如此循環(huán),直到表單中全部的字段信息提取方法都配置完成。字段采后處理用戶(hù)能夠?qū)Σ杉降淖侄沃底饕韵绿幚恚鹤侄蝺?nèi)容替換能夠查找某個(gè)特點(diǎn)值,替換成另一個(gè)字符串。字段中需要保存HTML能夠設(shè)定字段中要不要保存HTML標(biāo)簽,及要保存哪些標(biāo)簽。字段值前插在字段值前面插入一個(gè)指定的特點(diǎn)串字段值后追加在字段值后追加一個(gè)指定的特點(diǎn)串特地截取處理夠取右邊的幾個(gè)字符。字段值的后處理是使得采集到的信息更符合您的要求。站點(diǎn)治理采集站點(diǎn)治理通過(guò)站點(diǎn)治理器能夠治理全部采集站點(diǎn)列表。刪除:能夠從站點(diǎn)列表中刪除某個(gè)站點(diǎn)。復(fù)制:能夠復(fù)制一個(gè)一樣規(guī)章的站點(diǎn)轉(zhuǎn)變。用狀態(tài)。直到您設(shè)置了一個(gè)有效的儲(chǔ)存欄目,并設(shè)置啟用后才會(huì)使該站點(diǎn)使能。向上:能夠提高站點(diǎn)的采集優(yōu)先級(jí)。向下:能夠降低站點(diǎn)的采集優(yōu)先級(jí)。禁用/啟用:能夠設(shè)置站點(diǎn)的采集使能或處于禁用狀態(tài)。采集列表中,能夠設(shè)置該站點(diǎn)處于復(fù)位狀態(tài)來(lái)實(shí)現(xiàn)。去除日志:去除站點(diǎn)的采集日志。具體可參見(jiàn)下節(jié)的采集日志治理一節(jié)。掃描采集源將列出該頻道下全部子頻道的采集站點(diǎn)。您能夠在該對(duì)話(huà)框中對(duì)相應(yīng)的采集站點(diǎn)進(jìn)展操作。操作功能同站點(diǎn)治理。點(diǎn)擊掃描將關(guān)閉對(duì)話(huà),并開(kāi)頭依照設(shè)置對(duì)站點(diǎn)進(jìn)展檢測(cè)更與采集。采集日志采集日志治理軟件在采集每個(gè)一站點(diǎn)都將對(duì)應(yīng)一個(gè)采集日志和學(xué)習(xí)數(shù)據(jù)文件來(lái)實(shí)現(xiàn)去除全部采集日志,也能夠在日志列表中通過(guò)雙擊翻開(kāi)某個(gè)日志鏈接來(lái)閱讀原文。去除采集日志去除日志功能將去除掉全部站點(diǎn)的采集日志?!踩缛空军c(diǎn)重采集和學(xué)習(xí)〕不要使用去除日志功能。由于習(xí)后的采集時(shí)刻。信息治理信息治理添加與編輯信息記錄〔關(guān)于文檔表單〕或〔其它表單文檔表單的信息編輯界面承受了仿Word的窗口,能夠在上面進(jìn)展文字編輯或插入圖片等。儲(chǔ)存時(shí)能夠儲(chǔ)存成純文本方式也能夠儲(chǔ)存成多彩格式。格式的方法占用的空間比后者大。如表單中設(shè)定的字段為數(shù)字型的,只能輸入數(shù)字,而日期型的字段則預(yù)先輸入當(dāng)日的日期。信息內(nèi)容閱讀字段輸入到模板中進(jìn)展顯示。假設(shè)沒(méi)有設(shè)定閱讀模板,則會(huì)彈出信息記錄的編輯窗口。需要您檢查一下該欄目的模板文件的路徑是否設(shè)置正確。刪除信息記錄輸入記錄密碼。信息記錄分類(lèi)您能夠在概覽列表中通過(guò)將選中的記錄拖動(dòng)到另一個(gè)一樣表單的不同欄目下先的分類(lèi)。掃瞄原文密碼,需要輸入密碼才能承諾掃瞄。設(shè)置標(biāo)識(shí)設(shè)置〔取消〕密碼加密的方式。然而信息的安全性更多的照舊需要用戶(hù)自己保證正在使用運(yùn)算機(jī)的安全。設(shè)置其它標(biāo)記《互聯(lián)網(wǎng)信息采編發(fā)系統(tǒng)》為了突出某些信息記錄的特地性或重要性能夠承受設(shè)置圖標(biāo)、設(shè)置加粗、設(shè)置文字顏色或設(shè)置背景顏色等方式來(lái)實(shí)現(xiàn)。點(diǎn)擊Ctrl+中的記錄進(jìn)展加粗或取消加粗顯示。附件治理的方法能夠特地便利地支持附件在其它應(yīng)用程序中使用。插入的附件,在自動(dòng)公布時(shí)將隨著信息記錄一起公布。無(wú)需單獨(dú)公布。記錄導(dǎo)入Excel文件導(dǎo)入Access第一選擇并翻開(kāi)一個(gè)您要記錄所在的EXCEL或ACCESS1軟件界面。①選擇一個(gè)EXCELACCESS20②建立字段映射關(guān)系要正確的從EXCEL或ACCESS中導(dǎo)入數(shù)據(jù),您必需指定EXCEL使用
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度幕墻施工工程保修合同4篇
- 個(gè)人運(yùn)輸服務(wù)一年合同模板2024年
- 2025年木制裝飾條項(xiàng)目投資可行性研究分析報(bào)告
- 2025年塑料包裝編織品行業(yè)深度研究分析報(bào)告
- 2025年熱熔膠產(chǎn)品項(xiàng)目投資分析及可行性報(bào)告
- 2025年閱覽室設(shè)備行業(yè)深度研究分析報(bào)告
- 2025年食用菌產(chǎn)品冷鏈物流配送服務(wù)合同3篇
- 2025年度新型生物藥品全球獨(dú)家代理銷(xiāo)售合同模板4篇
- 2025年流量計(jì)項(xiàng)目調(diào)研報(bào)告
- 二零二五年度環(huán)保型生產(chǎn)線(xiàn)車(chē)間承包加工服務(wù)協(xié)議3篇
- 三角形與全等三角形復(fù)習(xí)教案 人教版
- 2024年1月高考適應(yīng)性測(cè)試“九省聯(lián)考”英語(yǔ) 試題(學(xué)生版+解析版)
- 《朝天子·詠喇叭-王磐》核心素養(yǎng)目標(biāo)教學(xué)設(shè)計(jì)、教材分析與教學(xué)反思-2023-2024學(xué)年初中語(yǔ)文統(tǒng)編版
- 成長(zhǎng)小說(shuō)智慧樹(shù)知到期末考試答案2024年
- 紅色革命故事《王二小的故事》
- 海洋工程用高性能建筑鋼材的研發(fā)
- 英語(yǔ)48個(gè)國(guó)際音標(biāo)課件(單詞帶聲、附有聲國(guó)際音標(biāo)圖)
- GB/T 6892-2023一般工業(yè)用鋁及鋁合金擠壓型材
- 冷庫(kù)安全管理制度
- 2023同等學(xué)力申碩統(tǒng)考英語(yǔ)考試真題
- 家具安裝工培訓(xùn)教案優(yōu)質(zhì)資料
評(píng)論
0/150
提交評(píng)論