




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、數(shù)據(jù)采集及自動(dòng)處理流程1概述本文主要描述內(nèi)容網(wǎng)庫對外定義的數(shù)據(jù)采集接口以及對于這些采集數(shù)據(jù)的自動(dòng)處理流程。通過對現(xiàn)速網(wǎng)的分析,我們認(rèn)為對于數(shù)據(jù)的采集主要是通過手工方式,爬蟲爬取方式進(jìn)行的,對于其他的采集方式,網(wǎng)信雖然有提及,但是我們在現(xiàn)在的速網(wǎng)后臺沒有發(fā)現(xiàn)相應(yīng)的模塊,希望網(wǎng)信相關(guān)人員通過對該文檔的閱讀,對于我們欠缺的采集接口做及時(shí)的補(bǔ)充。對于我們下面所設(shè)計(jì)的接口,希望網(wǎng)信相關(guān)人員可以提供測試數(shù)據(jù)供我們測試,采集接口定義2.1爬蟲BT接口待確認(rèn)問題因?yàn)樵谠械乃倬W(wǎng)后臺中,我們沒有發(fā)現(xiàn)該接口的設(shè)置界面,所以請相關(guān)人員就一下幾個(gè)問題給與解答爬蟲是否會(huì)去爬取BT的信息如果爬蟲會(huì)爬取BT的信息,那么和H
2、TTP爬取的信息是否一致?Bt爬蟲爬取的數(shù)據(jù)與Bt主動(dòng)緩存解析的數(shù)據(jù)有什么區(qū)別基于上述的問題,在沒有獲得網(wǎng)信相關(guān)人員答復(fù)的前提下,我們按照如下條件設(shè)計(jì)1爬蟲會(huì)爬取BT信息2.爬蟲爬取的信息僅包含資源信息。接口設(shè)計(jì)調(diào)用方:爬蟲系統(tǒng)調(diào)用頻率:當(dāng)發(fā)現(xiàn)爬取到新的數(shù)據(jù)時(shí)實(shí)時(shí)調(diào)用或者每天定時(shí)調(diào)用約束:確保每次發(fā)送的信息都是最新批次的數(shù)據(jù)輸入?yún)?shù):輸入?yún)?shù)明細(xì)如下18FORMAT文件格式2NAME名稱用于完整性校驗(yàn),判斷去重4PROTOCOL采集協(xié)議5LANGUAGE語言(6CNT_SIZE大小7QUALITY質(zhì)量10DATA_RATE碼流11INFOHASHInfohash值判斷去重12Duration播
3、放時(shí)長13URL資源來源完整性校驗(yàn)輸出:成功或者失敗。22爬蟲HTTP接口2.2.1待確認(rèn)問題爬蟲爬取HTTP在線資源時(shí),資源資料信息是否同時(shí)采集?Http爬取的資源中是否帶有影片名稱,集數(shù)?基于上述的問題,在沒有獲得網(wǎng)信相關(guān)人員答復(fù)的前提下,我們按照如下條件設(shè)計(jì)爬蟲爬取HTTP在線資源時(shí),資源和資料信息不是同時(shí)進(jìn)行采集接口設(shè)計(jì)爬蟲HTTP資源接口18FORMAT文件格式2NAME名稱用于完整性校驗(yàn),判斷去重4PROTOCOL采集協(xié)議5LANGUAGE語言(6CNT_SIZE大小7QUALITY質(zhì)量10DATA_RATE碼流11INFOHASHInfohash值判斷去重12Duration播放
4、時(shí)長13URL資源來源完整性校驗(yàn)爬蟲HTTP資料接口編號字段名稱說明備注2NAME名稱影片名稱3LABEL別名4DESCRIPTION描述影片的劇情描述5HPOSTER橫向海報(bào)6VPOSTER豎向海報(bào)7IS_HOT是否熱點(diǎn)8TAGTag欄9CHILDREN_COUNT子集數(shù)量10AUTHOR編劇11TV_NAME電視臺名12TV_HOST主持人13SPAN時(shí)長播放時(shí)間14COMMENTS點(diǎn)評15LANGUAGE影視語言(FK)16ACTORS主要演員17DIRECTORS導(dǎo)演18PLAYDATE影視上映日期19COUNTRY地區(qū)分類(FK)20MOVIETYPE影視分類(FK)21CONTEN
5、T_TYPE題材分類(FK)22AVG_MARKS評分23capture_site采集點(diǎn)判斷是不是10大門戶網(wǎng)站24channel頻道可用于區(qū)分是否有集數(shù),主演作者等一系列字段自動(dòng)處理流程自動(dòng)處理流程的目的是對于采集接口獲得的數(shù)據(jù)通過系統(tǒng)的自動(dòng)內(nèi)容篩選,自動(dòng)內(nèi)容質(zhì)控,自動(dòng)內(nèi)容發(fā)布功能提高入庫數(shù)據(jù)的質(zhì)量,減輕人工編輯的工作量。3.1規(guī)則列表下方表格中定義了我們歸納出的篩選,質(zhì)控,發(fā)布的規(guī)則,平臺的規(guī)則引擎會(huì)自動(dòng)根據(jù)下方的規(guī)則對數(shù)據(jù)進(jìn)行處理。請根據(jù)實(shí)際情況對這些規(guī)則進(jìn)行確認(rèn)以及補(bǔ)充。篩選規(guī)則屏蔽資料垃圾數(shù)據(jù)通過對影片名稱,播放地址進(jìn)行非空判斷。如有空字段,則把該數(shù)據(jù)放到垃圾表中處理。(資料)屏蔽資
6、源垃圾數(shù)據(jù)通過對影片名稱,播放地址進(jìn)行排空處理。如有空字段,則把該數(shù)據(jù)放到垃圾表中處理。(資源)采集信息資料去重對“影片名稱”進(jìn)行比對。如有相同數(shù)據(jù),則把該相對數(shù)據(jù)內(nèi)容不全的資料放到垃圾表中處理。采集信息資源去重對“播放地址”“infohash”進(jìn)行比對。如果數(shù)據(jù)相同。則刪除其中一條記錄。兀數(shù)據(jù)資料去重通過影片名,別名與兀數(shù)據(jù)中原先資料進(jìn)行對比,如果有相同資料,則此資料不添加到元數(shù)據(jù)庫中。兀數(shù)據(jù)資源去重http通過播放地址進(jìn)行對比,bt通過infohash值進(jìn)行對比。如找到相同記錄,此資源狀態(tài)改為屏蔽添加到元數(shù)據(jù)庫中。綁定入庫如果在去重階段未找到相同記錄。通過杳找對應(yīng)的影片名(資料查找資源)進(jìn)
7、行綁定,反之,亦然。(資源資料)對于有父子級關(guān)系的(例如電視劇)資料。如果庫中沒有子集資料。父子資料會(huì)自動(dòng)生成子集資料供資源綁定。審核規(guī)則合法性校驗(yàn)判斷各字段中是否有關(guān)鍵詞(例如:黃色詞語),如果有則轉(zhuǎn)入人工待審核(資源資料通用)資源有效性校驗(yàn)資源是否屬于10大門戶網(wǎng)站,如果是直接審核通過。向播放地址發(fā)送ping看是否有效。資料內(nèi)容校驗(yàn)首先判斷資料是否屬于10大門戶網(wǎng)站,如果是,直接審核通過。對別名中出現(xiàn)的逗號,頓號自動(dòng)轉(zhuǎn)換成/去除”/“兩邊的空格。評分字段如果低于5分,自動(dòng)轉(zhuǎn)為5分以上,如果評分為整數(shù),則添加一位小數(shù)。對于導(dǎo)演,演員,自動(dòng)去除每一行的前后空格。對于劇情描述,首行空2個(gè)空格,自
8、動(dòng)添加或刪除多余空格。對于演員,導(dǎo)演,如果名字不全(例如:張藝謀,但資料中是張藝)查找字典表,自動(dòng)補(bǔ)全名稱。演員亦是如此。對于地區(qū):如果地區(qū)為空,可通過演員,導(dǎo)演來推算是哪個(gè)地區(qū)。如果頻道對應(yīng)的劇集,影片。那么演員,導(dǎo)演不能為空。如果對應(yīng)是動(dòng)漫,那么作者不能為空。如果對應(yīng)是綜藝,那么主持人,電視臺不能為空。不符合規(guī)則,轉(zhuǎn)為人工代審核分布管理規(guī)則資源發(fā)布規(guī)則根據(jù)資源的熱度(點(diǎn)擊率,排行,搜索次數(shù))劃分出若干個(gè)等級,根據(jù)熱度等級的結(jié)合每個(gè)局點(diǎn)的緩存情況,下發(fā)到各個(gè)局點(diǎn)。例如將熱度分為高,普通,低3個(gè)等級,對于等級為高的資源下發(fā)所有局點(diǎn),對于熱度為普通的資源只下發(fā)到緩存空間多的局點(diǎn),對于熱度等級為低
9、的資源只下發(fā)到本地。緩存優(yōu)化規(guī)則1當(dāng)發(fā)現(xiàn)某個(gè)資源的緩存進(jìn)度一直處于比較低的時(shí)候,根據(jù)規(guī)則替換或者刪除該緩存2當(dāng)發(fā)現(xiàn)一個(gè)資源被緩存多次時(shí),應(yīng)根據(jù)資源的緩存進(jìn)度保留進(jìn)度最高的資源,刪除其他資源緩存。3當(dāng)發(fā)現(xiàn)局點(diǎn)緩存空間偏低,應(yīng)根據(jù)每個(gè)資源的熱度,緩存情況,清理資源,清理熱度低,緩存進(jìn)度低的資源。3.2詳細(xì)描述1資源處理流程圖資源在入庫前,會(huì)進(jìn)行完整性校驗(yàn),同批次去重,資源可靠性審核等多重步驟,保證進(jìn)入元數(shù)據(jù)的資源是真實(shí)可用。資源在入庫后會(huì)定時(shí)調(diào)用審核規(guī)則查看資源庫中的數(shù)據(jù)是否符合審核條件,對于已經(jīng)失效的鏈接等進(jìn)行剔除操作。并且對符合發(fā)布條件的資源調(diào)用分布管理機(jī)制,保證資源的最大利用率。券皺4tw總-msyl無W昧HY2資料處理流程圖資料在入庫前,會(huì)進(jìn)行完整性校驗(yàn),同批次去重,與元數(shù)據(jù)庫去重等多重步驟,保證元數(shù)據(jù)的資料是唯一的。并且在入庫之前也會(huì)調(diào)用什么審核規(guī)則,盡量提前修正資料的中錯(cuò)誤。資料在入庫后會(huì)定時(shí)調(diào)用審核規(guī)則查看資料庫中數(shù)據(jù)完整性,可靠性,并對一些數(shù)據(jù)自動(dòng)進(jìn)行校正,修正。并且對符合發(fā)布條件的資料進(jìn)行發(fā)布。接口提供infohash和內(nèi)容信息自動(dòng)流程、爬蟲一httpW:味H-K和名稱內(nèi)容采集內(nèi)容篩選內(nèi)容質(zhì)控元數(shù)據(jù)管理緩存內(nèi)容篩選緩存地址篩迭提供內(nèi)谷信息判斷資料中是否有必要寧段例j如敢地址,infohash影片名等闊用內(nèi)谷質(zhì)控複塊
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 水暖管道系統(tǒng)的噪音控制考核試卷
- 口腔科器械用戶體驗(yàn)優(yōu)化考核試卷
- 體育運(yùn)動(dòng)賽事紀(jì)念郵票設(shè)計(jì)考核試卷
- 冷凍飲品及食用冰制造行業(yè)消費(fèi)升級趨勢與需求預(yù)測考核試卷
- Unit 6 Sunshine for All reading 教學(xué)設(shè)計(jì) 2024-2025學(xué)年牛津譯林版八年級英語下冊
- 醫(yī)療器械臨床數(shù)據(jù)管理與統(tǒng)計(jì)分析考核試卷
- 獸藥批發(fā)商市場拓展考核試卷
- 橡膠制品在電子產(chǎn)品包裝中的應(yīng)用考核試卷
- 倉庫工作總結(jié)計(jì)劃經(jīng)驗(yàn)
- 病案室檔案管理與信息化建設(shè)總結(jié)計(jì)劃
- 2025年孝感貨運(yùn)從業(yè)資格考試
- 防災(zāi)避險(xiǎn)安全應(yīng)急知識培訓(xùn)課件
- 2023年新高考全國Ⅱ卷語文真題(解析版)
- 2025年政府采購評審專家理論考試復(fù)習(xí)試指導(dǎo)題庫(含答案)
- 2025屆西北四省(山西、陜西、青海、寧夏)高三下學(xué)期第一次聯(lián)考英語試題
- 2025年湖南鐵道職業(yè)技術(shù)學(xué)院單招職業(yè)技能測試題庫1套
- 高中主題班會(huì) 復(fù)盤-在思考中學(xué)習(xí)課件-高中上學(xué)期主題班會(huì)
- 2.2學(xué)會(huì)管理情緒 課件 -2024-2025學(xué)年統(tǒng)編版道德與法治七年級下冊
- 2024-2025學(xué)年第二學(xué)期教學(xué)教研工作安排表 第二版
- 2024年高州市人民醫(yī)院廣東醫(yī)學(xué)院附屬高州醫(yī)院高層次衛(wèi)技人才招聘筆試歷年參考題庫頻考點(diǎn)附帶答案
- 江蘇省中小學(xué)生金鑰匙科技競賽(高中組)考試題及答案
評論
0/150
提交評論