




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
資源數(shù)據(jù)采集技術(shù)方案公司名稱O一一年七月目錄\l“_TOC_250011“第1局部概述 3\l“_TOC_250010“工程概況 3\l“_TOC_250009“系統(tǒng)建設(shè)目標 3\l“_TOC_250008“建設(shè)的原則 4\l“_TOC_250007“建設(shè)原則 4\l“_TOC_250006“參考資料和標準 5\l“_TOC_250005“第2局部系統(tǒng)總體框架與技術(shù)路線 5\l“_TOC_250004“系統(tǒng)應(yīng)用架構(gòu) 6\l“_TOC_250003“系統(tǒng)層次架構(gòu) 6\l“_TOC_250002“關(guān)鍵技術(shù)與路線 7\l“_TOC_250001“第3局部系統(tǒng)設(shè)計標準 9\l“_TOC_250000“第4局部系統(tǒng)具體設(shè)計 91工程概況Internet已經(jīng)進展成為當今世界上最大的信息庫和全球范圍內(nèi)傳播學(xué)問的主要渠道,站是企業(yè)競爭力的提升都越來越多地依靠對網(wǎng)上信息資源的利用?,F(xiàn)在是信息時代,信息是一種重要的資源,它在人們的生活和工作中起著重要的作用。計算機和現(xiàn)代信息技術(shù)的快速進展,使Internet成為人們傳遞信息的一個重要的橋梁。網(wǎng)絡(luò)的我們今后建設(shè)在線預(yù)訂類旅游網(wǎng)重要的組成局部。因此,在當今高度信息化的社會里,信息的獵取和信息的準時性。而Web數(shù)據(jù)采集可以大大減輕用戶的信息過載和信息迷失。系統(tǒng)建設(shè)目標游、購、娛等多方面的綜合資訊信息、全方位的旅行信息和預(yù)訂效勞的網(wǎng)站。信息。然后再將之復(fù)制粘貼到Excel文檔或已有資源系統(tǒng)中。這種做法不僅費時費力,而且網(wǎng)信息自動采集的系統(tǒng)可以實現(xiàn)數(shù)據(jù)采集的高效化和自動化。建設(shè)的原則建設(shè)原則特點。因此,在進展工程建設(shè)的過程中,應(yīng)當遵循以下原則:可擴大性增加一些的功能,你可以將開發(fā)的類和文件依據(jù)Bundle進展組織,然后直接扔到運行時環(huán)境下,這些功能就可以用了。因此系統(tǒng)不會受技術(shù)改造而重做出調(diào)整。創(chuàng)性軟件的投資要考慮到今后的進展,不能使用落后的產(chǎn)品與技術(shù),避開投資的鋪張;在系統(tǒng)軟件選型、開發(fā)技術(shù)上,到達國內(nèi)外先進水平。標準性和標準性標準,符合國家有關(guān)標準標準的。低耦合性采集系統(tǒng)與其它系統(tǒng)彼此間相對獨立,直接進展數(shù)據(jù)庫入庫、sql同步或者基于txt/xml的數(shù)據(jù)交換,保證整體系統(tǒng)的低耦合性。高效性在底層的技術(shù)實現(xiàn)上承受java語言,跨平臺,跨數(shù)據(jù)庫,運行效率卓越。安全、穩(wěn)定、準確、準時性技術(shù)先進,易于擴展,既能滿足當前的業(yè)務(wù)數(shù)據(jù)處理要求,又能符合長期進展的需要。易操作和易維護原則WEB方式完成,降低維護的技術(shù)難度,也削減了人為隱患的發(fā)生。參考資料和標準主要參閱并依據(jù)以下一些參考資料及標準:《中國工程治理學(xué)問體系〔C-PMBO,2023.5GB/T1526-1989《信息處理數(shù)據(jù)流程圖、程序流程圖、系統(tǒng)流程圖、程序網(wǎng)絡(luò)圖、系統(tǒng)資源圖的文件編制符號及商定》《信息技術(shù)軟件生存期過程》GB/T8567-1988《計算機軟件產(chǎn)品開發(fā)文件編制指南》GB/T9385-1988《計算機軟件需求說明編制指南》GB/T13702-1992《計算機件分類與代碼》GB/T11457-1995《軟件工程術(shù)語》2網(wǎng)絡(luò)信息資源采集系統(tǒng)是一套功能強大的網(wǎng)絡(luò)信息資源開發(fā)利用與整合系統(tǒng)BLOG,以多種形式供給應(yīng)最終用戶使用。數(shù)據(jù)流掌握流采集應(yīng)用效勞互聯(lián)網(wǎng)數(shù)據(jù)流掌握流采集應(yīng)用效勞互聯(lián)網(wǎng)網(wǎng)絡(luò)蜘蛛數(shù)據(jù)庫數(shù)據(jù)分析數(shù)據(jù)解析 分組分析網(wǎng)絡(luò)蜘蛛資源公布系統(tǒng)客戶端網(wǎng)絡(luò)蜘蛛:依據(jù)指定規(guī)章抓取網(wǎng)站數(shù)據(jù)。數(shù)據(jù)分析:分析從網(wǎng)絡(luò)蜘蛛來的數(shù)據(jù),過濾掉我們不需要的信息。數(shù)據(jù)解析:依據(jù)指定資源格式(字段)的定義,進展數(shù)據(jù)庫字段級別的解析。分組分析:依據(jù)不同的網(wǎng)絡(luò)資源類型進展分類,并以多種存儲方式進展存儲。系統(tǒng)層次架構(gòu)掃瞄器掃瞄器表現(xiàn)層網(wǎng)絡(luò)資源采集網(wǎng)絡(luò)資源采集數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)導(dǎo)出數(shù)據(jù)公布網(wǎng)絡(luò)懇求應(yīng)用層采集監(jiān)控數(shù)據(jù)分析消息通知登錄驗證數(shù)據(jù)處理任務(wù)打算常用腳本庫認證碼識別WEB效勞器應(yīng)用效勞器標準接口其他支撐層關(guān)系數(shù)據(jù)文本文件數(shù)據(jù)圖片視頻數(shù)據(jù)數(shù)據(jù)層整個系統(tǒng)分為四層,分別為:數(shù)據(jù)層:數(shù)據(jù)層負責(zé)存儲抓取來的各種信息及數(shù)據(jù),這里面包括網(wǎng)頁、文檔、關(guān)系型數(shù)據(jù)、多媒體數(shù)據(jù)等。WEB效勞器、標準接口等標準支撐系統(tǒng)。應(yīng)用層:在應(yīng)用層主要供給網(wǎng)絡(luò)資源采集、數(shù)據(jù)轉(zhuǎn)換、分析、處理、導(dǎo)出、公布、采集監(jiān)控、消息通知、登錄驗證、任務(wù)打算、認證碼識別等效勞。表現(xiàn)層:表現(xiàn)層通過掃瞄器等方式,為用戶供給多樣化的信息效勞。關(guān)鍵技術(shù)與路線為了充分滿足本工程的建設(shè):我們承受先進、主流、牢靠、有用、性價比好的三層架構(gòu)體系,充分考慮今后縱向、橫向擴張力量。承受構(gòu)件化和面對對象技術(shù),使系統(tǒng)具有敏捷的擴展性和良好的移植性。J2EE標準體系從軟件層次上看,我們承受了典型的J2EE三層架構(gòu)體系,即應(yīng)用—支撐—數(shù)據(jù)三層。簡潔地說,J2EE〔Java[tm]2PlatformEnterpriseEdition〕是一個標準中間件體系構(gòu)造,旨在表達應(yīng)用的商業(yè)規(guī)律和表示規(guī)律,至于其他系統(tǒng)問題,如內(nèi)存治理,多線程圾收集等,都將由J2EE自動完成。J2EE已經(jīng)被證明是一個穩(wěn)定的、可擴展的、成熟的平臺,在國內(nèi)外擁有眾多成功的應(yīng)用實例。J2EE應(yīng)用效勞器〔ApplicationServer〕承受目前國際最先進的開發(fā)理念、擁有很多適合基于Internet應(yīng)用需求的特點:三層構(gòu)造體系——最適合Internet環(huán)境,可以使系統(tǒng)有很強的可擴展性和可治理性。面對對象、組件化設(shè)計——2EE是一種組件技術(shù),已完成的模塊能便利的移植到其它地方,可以提高開發(fā)速度,降低開發(fā)本錢?;贘AVA完全跨平臺特性——與平臺無關(guān),適應(yīng)Internet需要,并能得到大多數(shù)廠商支持,用戶可依據(jù)需要選擇適宜的效勞器硬件和數(shù)據(jù)庫。并且假設(shè)需要更換系統(tǒng)平臺時,J2EE也能便利的進展移植。把J2EE三層架構(gòu)軟件體系引用到資源采集系統(tǒng),將大大提高系統(tǒng)的可移植性、可伸縮性和可擴展性。XML技術(shù)XML〔eXtensibleMarkupLanguage,可擴展標記語言被稱為“其次代Web全部大公司的支持。XML具有卓越的性能,它具有四大特點:優(yōu)良的數(shù)據(jù)存儲格式可擴展性高度構(gòu)造化便利的網(wǎng)絡(luò)傳輸以XML技術(shù)作為支持,為用戶自定義應(yīng)用界面和業(yè)務(wù)數(shù)據(jù)構(gòu)造,并將其與底層數(shù)據(jù)庫數(shù)據(jù)交換。我們將在本工程中主要以XML為存儲方式,便利擴展和數(shù)據(jù)分析。WEB2.0技術(shù)Web2.0Web1.0〔2023年以前的互聯(lián)網(wǎng)模式〕的的一類互聯(lián)網(wǎng)應(yīng)用的統(tǒng)稱,是一次從核心內(nèi)容到外部應(yīng)用的革命,是依據(jù)“六度分隔”(注:由美國哈佛大學(xué)社會心理學(xué)教授斯坦利·米爾格蘭姆覺察的,你和任何一個生疏人之間所間隔的人不會超過六個,也就是說,最多通過六個人你就能夠生疏任何一個生疏人。)、XML、AJAX等理論和技術(shù)實現(xiàn)的互聯(lián)網(wǎng)一代模式Web1.0單純通過網(wǎng)絡(luò)掃瞄器掃瞄html網(wǎng)頁模式向內(nèi)容更豐富、聯(lián)系性更強、工具性更強的Web2.0互聯(lián)網(wǎng)模式的進展已經(jīng)成為互聯(lián)網(wǎng)的進展趨勢。Web1.0Web2.0的轉(zhuǎn)變,具體的說,從模式上是單純的“讀”向“寫”、“共同建設(shè)”進展;由被動地接收互聯(lián)網(wǎng)信息向主動制造網(wǎng)絡(luò)信息邁進。運行機制上,由“ClientServer”向“WebServices”“滑稽”的應(yīng)用向全面大量應(yīng)用進展。承受創(chuàng)的Ajax技術(shù),同等網(wǎng)絡(luò)環(huán)境下,頁面響應(yīng)時間最高削減90%。APIXML文檔構(gòu)造在很多方面可以便利地反映對象的構(gòu)造,這也是其適合面對對象的軟件技術(shù)的一個關(guān)鍵點。使用XML對數(shù)據(jù)源的數(shù)據(jù)進展處理,它起著接口層或者封裝的作用,XML作為數(shù)據(jù)交換工具還可以解決異構(gòu)數(shù)據(jù)庫之間的集成。承受XML技術(shù)作為數(shù)據(jù)交換的頁面描述標準。XStream是一個JavaXML具體一個Java對象和XML之間問題了。34應(yīng)用功能設(shè)計資源采集我們可以使用采集,對網(wǎng)絡(luò)上的各種資源進展挖掘。采集工程:采集工作的具體設(shè)置文件,包含了要采集的資源鏈接。準確:依據(jù)指定資源格式(字段)的定義,進展數(shù)據(jù)庫字段級別的采集。蜘蛛/爬蟲:依據(jù)指定的文件匹配表達式,自動對指定網(wǎng)站的資源進展全面分析和采集。能包含以下字段:作者、標題、日期、內(nèi)容等。自動把多個分頁的內(nèi)容合并到內(nèi)容字段??梢詾閮?nèi)容自動設(shè)置跟蹤屬性,自動獵取最終的內(nèi)容。整個網(wǎng)站、每個鏈接甚至每個資源單獨定義登錄驗證以滿足具體需求。參數(shù):這是模擬登錄需要的參數(shù),譬如用戶名、密碼等。/值,自動獵取登錄參數(shù)的值。可以使用自定義的登錄腳原來實現(xiàn)相應(yīng)的登錄認證。數(shù)據(jù)處理:臟字過濾:對符合國家規(guī)定的敏感字符的過濾,還可以自定義要過濾的字符,以確保采集到的內(nèi)容符合相關(guān)法律法規(guī)。內(nèi)容,您可以自行對各種垃圾內(nèi)容進展過濾。內(nèi)容嗅探:對于Flash/Silverlight播放器,會在頁面加載之后才從后臺獵取實際的文件(.FLV/MP3/.XAP等),您可以使用內(nèi)容嗅探實現(xiàn)對這些實際內(nèi)容的采集。關(guān)鍵字/標簽(Tag)自動分析:利用全文分詞對采集的內(nèi)容進展分析,自動獵取內(nèi)容的關(guān)鍵字/標簽列表。文件格式批量轉(zhuǎn)換:對大量文件的快速轉(zhuǎn)換,轉(zhuǎn)變圖片或視頻的大小/添加水印/轉(zhuǎn)變格式,抽取壓縮文件,Office系列文檔轉(zhuǎn)換為HTML,以多種方式修寫編碼互轉(zhuǎn),文本切分合并,網(wǎng)頁文本互轉(zhuǎn),不良圖片過濾,數(shù)據(jù)轉(zhuǎn)換等。圖片轉(zhuǎn)換:轉(zhuǎn)變圖片大小和格式,添加水印,支持jpg、bmp、png、gif、icl、jpeg等。壓縮文檔:抽取/轉(zhuǎn)換/生成壓縮文檔,支持zip、rar等。Office文檔支持:支持doc、docx、xls、xlsx、xml、pdf、rtf等。文本排版:段落智能修正、去掉干擾符、修正段落首尾空格、修正標點符號,支持txt,htm,eml。txt,htm,eml。不良圖片過濾:識別并過濾不良圖片,支持全部圖片。件??焖傧螺d:鏈接分析:復(fù)制要下載各種資源(如圖片等)的鏈接或網(wǎng)頁內(nèi)容,全自動分析并下載到本地磁盤。視頻網(wǎng)站。通過多線程并行采集,加快采集速度。數(shù)據(jù)導(dǎo)出導(dǎo)出數(shù)據(jù)庫:把采集后的數(shù)據(jù)導(dǎo)出到各大數(shù)據(jù)庫/數(shù)據(jù)文件中。Excel、XML等文件形式導(dǎo)出??梢园盐募?dǎo)出到FTP。自定義導(dǎo)出腳本。資源信息公布采集后的數(shù)據(jù):可以把采集后的數(shù)據(jù),公布到指定網(wǎng)站或系統(tǒng)。網(wǎng)絡(luò)懇求:可以自定義懇求,譬如網(wǎng)絡(luò)投票等。任務(wù)打算可以指定采集、轉(zhuǎn)換、導(dǎo)出、公布、懇求等各種任務(wù)定時執(zhí)行??蓡⒂枚鄠€線程來完成同一個采集任務(wù)??勺杂稍O(shè)定采集網(wǎng)頁數(shù)和暫停的時間,此功能主要解決采集過快而被屏閉或制止訪問等問題??梢栽诓杉斨须S身暫停、啟動或停頓任務(wù)。消息通知能夠自動通過多種方式〔郵件、系統(tǒng)日志、系統(tǒng)聲音等〕通知采集公布狀況。在各種任務(wù)完成之后,如采集,公布,打算任務(wù)等。監(jiān)控指定網(wǎng)站并在數(shù)據(jù)轉(zhuǎn)變時。監(jiān)控設(shè)置當網(wǎng)絡(luò)資源更或采集到的資源信息時,通過各種通知方式,隨時提示。腳本定義腳本是對各種功能的自定義擴展,支持JavaScript語言編寫。時候,可以通過腳原來進展自定義的采集。公布腳本:可以針對特別的網(wǎng)站進展發(fā)送懇求。常用腳本:系統(tǒng)內(nèi)置的常用的腳本,如對專用鏈的解釋/編碼、條形碼的生成、敏感字符的過濾、中文分詞/TagRSS解釋與生成、消息通知等。認證碼識別系統(tǒng)自動識別各種登錄頁面的認證碼、驗證碼等。默生疏別:全自動識別各種常見的認證碼
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中國蘆薈種植行業(yè)發(fā)展前景預(yù)測及投資方向研究報告
- 2025年中國高密度薄板行業(yè)市場發(fā)展前景及發(fā)展趨勢與投資戰(zhàn)略研究報告
- 中國CPI膜行業(yè)市場調(diào)查報告
- 成卷梳棉機行業(yè)深度研究分析報告(2024-2030版)
- 年產(chǎn)2萬噸覆膜砂新建項目可行性研究報告
- 中國電力電子元件市場深度分析及行業(yè)前景展望報告
- 2025年中國充電電池行業(yè)發(fā)展趨勢預(yù)測及投資戰(zhàn)略咨詢報告
- 2025年中國變頻微波爐行業(yè)市場發(fā)展監(jiān)測及投資潛力預(yù)測報告
- 2025-2030年中國組合式冷藏庫行業(yè)深度研究分析報告
- 培訓(xùn)課件書籍
- T/CHC 1007-2023硫酸軟骨素鈉
- 陜西省特種設(shè)備隱患排查清單(2025年)
- 沼氣工程系統(tǒng)安全操作管理規(guī)程(新編版)
- 成人交通安全教育
- 廣東肇慶航空職業(yè)學(xué)院《電氣控制技術(shù)》2023-2024學(xué)年第二學(xué)期期末試卷
- 國際宏觀金融觀察·2024年度報告 -英國篇
- 通信基站建設(shè)技術(shù)規(guī)范
- 《急救藥物使用培訓(xùn)》課件
- 浙江開放大學(xué)2025年《社會保障學(xué)》形考任務(wù)3答案
- 2025年人教版PEP三年級英語下冊期末測試卷(含答案含聽力原文無音頻)
- 國家職業(yè)技術(shù)技能標準 6-16-02-02 鉆井工 人社廳發(fā)202226號
評論
0/150
提交評論