![資源數(shù)據(jù)采集技術(shù)方案_第1頁](http://file4.renrendoc.com/view/f1597b0bc981cb371357b97a776dcf7f/f1597b0bc981cb371357b97a776dcf7f1.gif)
![資源數(shù)據(jù)采集技術(shù)方案_第2頁](http://file4.renrendoc.com/view/f1597b0bc981cb371357b97a776dcf7f/f1597b0bc981cb371357b97a776dcf7f2.gif)
![資源數(shù)據(jù)采集技術(shù)方案_第3頁](http://file4.renrendoc.com/view/f1597b0bc981cb371357b97a776dcf7f/f1597b0bc981cb371357b97a776dcf7f3.gif)
![資源數(shù)據(jù)采集技術(shù)方案_第4頁](http://file4.renrendoc.com/view/f1597b0bc981cb371357b97a776dcf7f/f1597b0bc981cb371357b97a776dcf7f4.gif)
![資源數(shù)據(jù)采集技術(shù)方案_第5頁](http://file4.renrendoc.com/view/f1597b0bc981cb371357b97a776dcf7f/f1597b0bc981cb371357b97a776dcf7f5.gif)
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
公司名稱20227月名目1(3(3(3(4(4(52(5(6(6(73(94(91局部概述工程概況Internet已經(jīng)進(jìn)展成為當(dāng)今世界上最大的信息庫和全球范圍內(nèi)傳播學(xué)問的主要渠道,站點(diǎn)遍布全球的巨大信息效勞網(wǎng),為用戶供給了一個極具價(jià)值的信息源。無論是個人的進(jìn)展還是企業(yè)競爭力的提升都越來越多地依靠對網(wǎng)上信息資源的利用。現(xiàn)在是信息時(shí)代,信息是一種重要的資源,它在人們的生活和工作中起著重要的,Internet成為人們傳遞信息的一個重要的橋梁。網(wǎng)絡(luò)的不斷進(jìn)展,伴隨著大量信息的產(chǎn)生,如何在海量的信息源中查找搜集所需的信息資源成為了我們今后建設(shè)在線預(yù)訂類旅游網(wǎng)重要的組成局部。因此,在當(dāng)今高度信息化的社會里,信息的獵取和信息的準(zhǔn)時(shí)性。而Web數(shù)據(jù)采集可以通過一系列方法,依據(jù)用戶興趣,自動搜取網(wǎng)上特定種類的信息,去除無關(guān)數(shù)據(jù)和垃圾數(shù)據(jù),篩選虛假數(shù)據(jù)和遲滯數(shù)據(jù),過濾重復(fù)數(shù)據(jù)。直接將信息依據(jù)用戶的要求呈現(xiàn)給用戶??梢源蟠鬁p輕用戶的信息過載和信息迷失。系統(tǒng)建設(shè)目標(biāo)在線預(yù)訂類旅游網(wǎng)是在線供給機(jī)票、酒店、旅游線路等旅游商品為主,涉及的網(wǎng)站。假設(shè)用戶要搜集這一類網(wǎng)站的相關(guān)數(shù)據(jù),通常的做法是人工掃瞄網(wǎng)站,查看最近更的信息。然后再將之復(fù)制粘貼到Excel文檔或已有資源系統(tǒng)中。這種做法不僅費(fèi)時(shí)費(fèi)力,而且在查找的過程中可能還會遺漏,數(shù)據(jù)轉(zhuǎn)移的過程中會出錯。針對這種狀況,在線預(yù)訂類旅游網(wǎng)信息自動采集的系統(tǒng)可以實(shí)現(xiàn)數(shù)據(jù)采集的高效化和自動化。建設(shè)的原則建設(shè)原則多樣化的特點(diǎn)。因此,在進(jìn)展工程建設(shè)的過程中,應(yīng)當(dāng)遵循以下原則:可擴(kuò)大性依據(jù)實(shí)際的要求,系統(tǒng)可被便利地載減和敏捷的擴(kuò)展,使系統(tǒng)能適應(yīng)變化和狀況??梢詫?shí)現(xiàn)模塊級別的動態(tài)擴(kuò)展,而且是運(yùn)行時(shí)的。所謂運(yùn)行時(shí)模塊的動態(tài)擴(kuò)展,,Bundle進(jìn)展組織,然后直接扔到運(yùn)行時(shí)環(huán)境下,這些功能就可以用了。因此系統(tǒng)不會受技術(shù)改造而重做出調(diào)整。創(chuàng)性軟件的投資要考慮到今后的進(jìn)展,不能使用落后的產(chǎn)品與技術(shù),避開投資的鋪張;在系統(tǒng)軟件選型、開發(fā)技術(shù)上,到達(dá)國內(nèi)外先進(jìn)水平。標(biāo)準(zhǔn)性和標(biāo)準(zhǔn)性,應(yīng)當(dāng)全部遵循通用的國際或行業(yè)標(biāo)準(zhǔn),符合國家有關(guān)標(biāo)準(zhǔn)標(biāo)準(zhǔn)的。低耦合性采集系統(tǒng)與其它系統(tǒng)彼此間相對獨(dú)立,直接進(jìn)展數(shù)據(jù)庫入庫、sql同步或者基于txt/xml的數(shù)據(jù)交換,保證整體系統(tǒng)的低耦合性。高效性java語言,跨平臺,跨數(shù)據(jù)庫,運(yùn)行效率卓越。安全、穩(wěn)定、準(zhǔn)確、準(zhǔn)時(shí)性承受先進(jìn)的算法,承受多個子系統(tǒng)和工具組成一個安全、穩(wěn)定、準(zhǔn)確、準(zhǔn)時(shí)的解決方案。方案在總體設(shè)計(jì)上遵循穩(wěn)定、開放、可擴(kuò)展、經(jīng)濟(jì)、安全的原則,從而,技術(shù)先進(jìn),易于擴(kuò)展,既能滿足當(dāng)前的業(yè)務(wù)數(shù)據(jù)處理要求,又能符合長期進(jìn)展的需要。易操作和易維護(hù)原則,簡潔操作,易學(xué),易用,WEB方式完成,降低維護(hù)的技術(shù)難度,也削減了人為隱患的發(fā)生。參考資料和標(biāo)準(zhǔn)主要參閱并依據(jù)以下一些參考資料及標(biāo)準(zhǔn):(C-PMBOK,2022.5●GB/T1526-1989《信息處理數(shù)據(jù)流程圖、程序流程圖、系統(tǒng)流程圖、程序網(wǎng)絡(luò)圖、系統(tǒng)資源圖的文件編制符號及商定》●GB/T8566-1995《信息技術(shù)軟件生存期過程》●GB/T8567-1988《計(jì)算機(jī)軟件產(chǎn)品開發(fā)文件編制指南》●GB/T9385-1988《計(jì)算機(jī)軟件需求說明編制指南》●GB/T13702-1992《計(jì)算機(jī)件分類與代碼》●GB/T11457-1995《軟件工程術(shù)語》2局部系統(tǒng)總體框架與技術(shù)路線網(wǎng)絡(luò)信息資源采集系統(tǒng)是一套功能強(qiáng)大的網(wǎng)絡(luò)信息資源開發(fā)利用與整合系統(tǒng),,建立可再利用的信息效勞系統(tǒng)。能夠從各種網(wǎng)絡(luò)信息源,包括網(wǎng)頁、BLOG、論壇等采集用戶感興趣的特定信息,經(jīng)自動分類處理后,以多種形式供給應(yīng)最終用戶使用。系統(tǒng)應(yīng)用架構(gòu)網(wǎng)絡(luò)蜘蛛:依據(jù)指定規(guī)章抓取網(wǎng)站數(shù)據(jù)。數(shù)據(jù)分析:分析從網(wǎng)絡(luò)蜘蛛來的數(shù)據(jù),過濾掉我們不需要的信息。數(shù)據(jù)解析:依據(jù)指定資源格式(字段的定義,進(jìn)展數(shù)據(jù)庫字段級別的解析。●分組分析:依據(jù)不同的網(wǎng)絡(luò)資源類型進(jìn)展分類,并以多種存儲方式進(jìn)展存儲。系統(tǒng)層次架構(gòu)整個系統(tǒng)分為四層,分別為:數(shù)據(jù)層:數(shù)據(jù)層負(fù)責(zé)存儲抓取來的各種信息及數(shù)據(jù),這里面包括網(wǎng)頁、文檔、關(guān)系型數(shù)據(jù)、多媒體數(shù)據(jù)等。支撐層:支撐層供給了關(guān)鍵的硬、軟件支撐系統(tǒng),包括應(yīng)用效勞器、WEB效勞器、標(biāo)準(zhǔn)接口等標(biāo)準(zhǔn)支撐系統(tǒng)。應(yīng)用層:在應(yīng)用層主要供給網(wǎng)絡(luò)資源采集、數(shù)據(jù)轉(zhuǎn)換、分析、處理、導(dǎo)出、公布、采集監(jiān)控、消息通知、登錄驗(yàn)證、任務(wù)打算、認(rèn)證碼識別等效勞。表現(xiàn)層:表現(xiàn)層通過掃瞄器等方式,為用戶供給多樣化的信息效勞。關(guān)鍵技術(shù)與路線為了充分滿足本工程的建設(shè):我們承受先進(jìn)、主流、牢靠、有用、性價(jià)比好的,充分考慮今后縱向、橫向擴(kuò)張力量。承受構(gòu)件化和面對對象技術(shù),使系統(tǒng)具有敏捷的擴(kuò)展性和良好的移植性。J2EE標(biāo)準(zhǔn)體系從軟件層次上看,J2EE三層架構(gòu)體系,即應(yīng)用—支撐—數(shù)據(jù)三層。簡潔地說,J2EE(Java[tm]2PlatformEnterpriseEdition是一個標(biāo)準(zhǔn)中間件體系旨在簡化和標(biāo)準(zhǔn)多層分布式應(yīng)用系統(tǒng)的開發(fā)和部署,有了它,開發(fā)者只需要集中,至于其他系統(tǒng)問題,如內(nèi)存治理,多線程,資源分布和垃圾收集等,J2EE自動完成。,在國內(nèi)外擁有眾多成功的應(yīng)用實(shí)例。J2EE應(yīng)用效勞器(ApplicationServer承受目前國際最先進(jìn)的開發(fā)理Internet應(yīng)用需求的特點(diǎn):三層構(gòu)造體系——Internet環(huán)境,可以使系統(tǒng)有很強(qiáng)的可擴(kuò)展性和可管理性。面對對象、組件化設(shè)計(jì)——2EE是一種組件技術(shù),已完成的模塊能便利的移植到其它地方,可以提高開發(fā)速度,降低開發(fā)本錢。基于JAVA完全跨平臺特性——與平臺無關(guān),Internet需要,并能得到大多數(shù)廠商支持,用戶可依據(jù)需要選擇適宜的效勞器硬件和數(shù)據(jù)庫。并且假設(shè)需要更換系統(tǒng)平臺時(shí),J2EE也能便利的進(jìn)展移植。J2EE三層架構(gòu)軟件體系引用到資源采集系統(tǒng),將大大提高系統(tǒng)的可移植性、可伸縮性和可擴(kuò)展性。XML技術(shù)XML(eXtensibleMarkupLanguage,可擴(kuò)展標(biāo)記語言,是當(dāng)前最熱門的網(wǎng)絡(luò)技術(shù)之一,被稱為“Web語言”、“下一代網(wǎng)絡(luò)應(yīng)用的基石”。自它被提出以來,幾乎得到了業(yè)界全部大公司的支持。XML具有卓越的性能,它具有四大特點(diǎn):優(yōu)良的數(shù)據(jù)存儲格式可擴(kuò)展性高度構(gòu)造化便利的網(wǎng)絡(luò)傳輸以XML技術(shù)作為支持,為用戶自定義應(yīng)用界面和業(yè)務(wù)數(shù)據(jù)構(gòu)造,并將其與底層,可實(shí)現(xiàn)分布式、異構(gòu)應(yīng)用系統(tǒng)之間的數(shù)據(jù)交換。XML為存儲方式,便利擴(kuò)展和數(shù)據(jù)分析。WEB2.0技術(shù)Web2.0,Web1.0(2022年以前的互聯(lián)網(wǎng)模式的的一類互聯(lián)網(wǎng)應(yīng)用的統(tǒng),是依據(jù)“六度分隔”(注:由美國哈佛大學(xué)社會心理學(xué)教授斯坦利·米爾格蘭姆覺察的,你和任何一個生疏人之間所間隔的人不會超過六個,也就是說,最多通過六個人你就能夠生疏任何一個生疏人。、XML、AJAXWeb1.0單純通過網(wǎng)絡(luò)掃瞄器掃瞄html網(wǎng)頁模式向內(nèi)容更豐富、聯(lián)系性更強(qiáng)、工具性更強(qiáng)的Web2.0互聯(lián)網(wǎng)模式的進(jìn)展已經(jīng)成為互聯(lián)網(wǎng)的進(jìn)展趨勢。Web1.0Web2.0的轉(zhuǎn)變,具體的說,從模式上是單純的“讀”向“寫”、“共同建設(shè)”進(jìn)展;由被動地接收互聯(lián)網(wǎng)信息向主動制造網(wǎng)絡(luò)信息邁進(jìn)。運(yùn)行機(jī)制上,由“ClientServer”向“WebServices”轉(zhuǎn)變;作者由程序員等專業(yè)人士向全部一般用戶進(jìn)展;應(yīng)用“滑稽”Ajax技術(shù),同等網(wǎng)絡(luò)環(huán)境下,90%。APIXML文檔構(gòu)造在很多方面可以便利地反映對象的構(gòu)造,這也是其適合面對對象的軟件技術(shù)的一個關(guān)鍵點(diǎn)。使用XML對數(shù)據(jù)源的數(shù)據(jù)進(jìn)展處理,它起著接口層或者封裝的作用,這樣不同的應(yīng)用程序之間,不同的操作系統(tǒng)之間,不同的數(shù)據(jù)庫之間都可以XML作為數(shù)據(jù)交換工具還可以解決異構(gòu)數(shù)據(jù)庫之間的集成。,我們將開發(fā)專用的數(shù)據(jù)接口,XML技術(shù)作為數(shù)據(jù)交換的頁面描述標(biāo)準(zhǔn)。XML相互轉(zhuǎn)換的工具。使用格外的簡潔,并且可以自定義轉(zhuǎn)換的過程,但是這個組件僅能做的就是這些最根本的工作,有了這個組件,我們可JavaXML之間問題了。3局部系統(tǒng)設(shè)計(jì)標(biāo)準(zhǔn)4局部系統(tǒng)具體設(shè)計(jì)應(yīng)用功能設(shè)計(jì)資源采集我們可以使用采集,對網(wǎng)絡(luò)上的各種資源進(jìn)展挖掘。a采集工程:采集工作的具體設(shè)置文件,包含了要采集的資源鏈接。:依據(jù)指定資源格式(字段的定義,進(jìn)展數(shù)據(jù)庫字段級別的采集。蜘蛛/爬蟲:依據(jù)指定的文件匹配表達(dá)式,自動對指定網(wǎng)站的資源進(jìn)展全面分析和采集。b字段:各種資源的最小單位,譬如您要采集某個網(wǎng)站的多個帖子,那么每個帖子可能包含以下字段:作者、標(biāo)題、日期、內(nèi)容等。c鏈頁:一些帖子在多頁面里的,這種狀況下您可以為帖子的內(nèi)容字段設(shè)置鏈頁屬性,自動把多個分頁的內(nèi)容合并到內(nèi)容字段。d追蹤:一些資源是要從列表頁面中,通過點(diǎn)擊多個頁面才顯示的,這種狀況下,您可以為內(nèi)容自動設(shè)置跟蹤屬性,自動獵取最終的內(nèi)容。e登錄驗(yàn)證:一些資源網(wǎng)站需要您登錄后才可以訪問內(nèi)容,這種狀況下下,您可以為整個網(wǎng)站、每個鏈接甚至每個資源單獨(dú)定義登錄驗(yàn)證以滿足具體需求。參數(shù):這是模擬登錄需要的參數(shù),譬如用戶名、密碼等。,往往會承受一些動態(tài)參數(shù)/值,假設(shè)用固定的參數(shù)是無法滿足登錄需求的,這個時(shí)候,您可以使用采集工程來自動獵取登錄參數(shù)的值。登錄腳本:假設(shè)即便使用采集工程仍舊無法滿足一些特別網(wǎng)站的登錄需求,您可以使用自定義的登錄腳原來實(shí)現(xiàn)相應(yīng)的登錄認(rèn)證。f數(shù)據(jù)處理:臟字過濾:對符合國家規(guī)定的敏感字符的過濾,還可以自定義要過濾的字符,以確保采集到的內(nèi)容符合相關(guān)法律法規(guī)。垃圾內(nèi)容過濾:使用貝葉斯概率模型對已采集的內(nèi)容自動分析判定是否為垃圾內(nèi)容,您可以自行對各種垃圾內(nèi)容進(jìn)展過濾。內(nèi)容嗅探:Flash/Silverlight播放器,會在頁面加載之后才從后臺獵取實(shí)等,您可以使用內(nèi)容嗅探實(shí)現(xiàn)對這些實(shí)際內(nèi)容的采集。關(guān)鍵字/標(biāo)簽(Tag自動分析:利用全文分詞對采集的內(nèi)容進(jìn)展分析,自動獵取內(nèi)容的關(guān)鍵字/標(biāo)簽列表。:對大量文件的快速轉(zhuǎn)換,轉(zhuǎn)變圖片或視頻的大小/添加水,抽取壓縮文件,OfficeHTML,以多種方式修改文件名稱和內(nèi)容,修改圖片文件屬性,文本排版,文本混淆,文本簡繁大小g圖片jpg、bmp、png、gif、icl、jpeg等。hij壓縮文檔:抽取/轉(zhuǎn)換/zip、rarOffice文檔支持:支doc、docx、xls、xlsx、xml、pdf、rtftxt,htm,emlkl大小、行數(shù)或段落數(shù)剪切文本內(nèi)容、和并內(nèi)容,支持txt,htm,eml。不良圖片過濾m數(shù)據(jù)轉(zhuǎn)換:使用自定義腳本轉(zhuǎn)換數(shù)據(jù)n1.鏈接分析:復(fù)制要下載各種資源(2.嗅探:復(fù)制視頻地址或內(nèi)容,全自動分析并下載視頻,特有嗅探功能,支o4.1.2abcd導(dǎo)出數(shù)據(jù)庫:把采集后的數(shù)據(jù)導(dǎo)出到各大數(shù)據(jù)庫/Excel、XML等F
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 蘇教版二年級下冊數(shù)學(xué)口算練習(xí)題
- 視頻會議系統(tǒng)合同范本
- 網(wǎng)絡(luò)布線及設(shè)備采購合同范本
- 安全協(xié)議書范本及員工責(zé)任書
- 滬科版數(shù)學(xué)九年級上冊22.3《相似三角形的性質(zhì)》聽評課記錄1
- 二零二五年度校園消毒防疫應(yīng)急預(yù)案合同
- 北師大版歷史七年級上冊第19課《北方的民族匯聚》聽課評課記錄
- 2025年子女撫養(yǎng)權(quán)變更法律援助與協(xié)議書模板
- 2025年度醫(yī)療事故快速調(diào)解專項(xiàng)協(xié)議
- 二零二五年度倉儲物流租賃合同電子版模板即點(diǎn)即用
- 無人機(jī)航拍技術(shù)理論考核試題題庫及答案
- T∕CMATB 9002-2021 兒童肉類制品通用要求
- 工序勞務(wù)分包管理課件
- 暖通空調(diào)(陸亞俊編)課件
- 工藝評審報(bào)告
- 中國滑雪運(yùn)動安全規(guī)范
- 畢業(yè)論文-基于51單片機(jī)的智能LED照明燈的設(shè)計(jì)
- 酒廠食品召回制度
- 中職數(shù)學(xué)基礎(chǔ)模塊上冊第一章《集合》單元檢測試習(xí)題及參考答案
- 化學(xué)魯科版必修一期末復(fù)習(xí)98頁P(yáng)PT課件
- 《農(nóng)產(chǎn)品質(zhì)量安全檢測》PPT課件
評論
0/150
提交評論