無線搜索技術(shù)與發(fā)展常興龍_第1頁(yè)
無線搜索技術(shù)與發(fā)展常興龍_第2頁(yè)
無線搜索技術(shù)與發(fā)展常興龍_第3頁(yè)
無線搜索技術(shù)與發(fā)展常興龍_第4頁(yè)
無線搜索技術(shù)與發(fā)展常興龍_第5頁(yè)
已閱讀5頁(yè),還剩15頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、無線搜索構(gòu)架及其產(chǎn)品介紹常興龍 課程介紹培訓(xùn)目的新員工能夠盡快了解百度無線搜索產(chǎn)品構(gòu)架及相關(guān)技術(shù)培訓(xùn)對(duì)象技術(shù)部新員工培訓(xùn)時(shí)間全部課程大約90分鐘 了解無線搜索功能標(biāo)簽,包括:搜索、網(wǎng)址導(dǎo)航、社區(qū)(貼吧、知道)新聞搜索范圍,包括網(wǎng)絡(luò)與本地用戶可以在通訊錄、短信、郵件中搜素搜索框集成地址欄功能有補(bǔ)齊URL提示;搜索時(shí)可直接選擇搜索類型用缺省瀏覽器內(nèi)核,具有較好的兼容性用戶可定制個(gè)性化首頁(yè)選擇訪問歷史、熱門推薦、新聞、天氣等作為首頁(yè)展示內(nèi)容為什么需要無線搜索?定義:用戶使用移動(dòng)無線終端搜尋信息的行為無線搜索的特點(diǎn)聯(lián)合WEB,WAP1.0,WAP2.0,有更豐富的來源終端特性使搜索更便捷意圖明確、時(shí)效

2、性強(qiáng)無線搜索的價(jià)值時(shí)間和地域信息使目標(biāo)信息更精準(zhǔn)有效將搜索延伸到PC無法覆蓋的時(shí)間和地點(diǎn)百度無線發(fā)展歷程無線搜索歷程2006年,郭眈正式命名,無線搜索(wise, wireless search)2009年無線發(fā)展迅猛,RD及PM規(guī)模顯著擴(kuò)大,團(tuán)隊(duì)日趨成熟三年的歷程,低于100萬pv/天1.8億pv/天從第一個(gè)產(chǎn)品nokia客戶端服務(wù)模塊到現(xiàn)在已經(jīng)有十幾個(gè)服務(wù),數(shù)十個(gè)模塊在線上運(yùn)行無線搜索核心需求決定產(chǎn)品搜索結(jié)果需求有差異存在終端專有資源存在終端更優(yōu)結(jié)果解決方案:cosearch和freewap搜索結(jié)果需求無差異僅需轉(zhuǎn)換為手機(jī)頁(yè)面改善手機(jī)用戶瀏覽效果,如知識(shí)、文字信息等。解決方案:transc

3、oder百度其它產(chǎn)品的WAP應(yīng)用手機(jī)版的帖吧,空間,知道,圖片等百度無線產(chǎn)品硬件平臺(tái)手機(jī)操作系統(tǒng)應(yīng)用程序上網(wǎng):娛樂、瀏覽、搜索 游戲、閱讀本地應(yīng)用:本地搜索、計(jì)算器、 文檔處理通話功能:短信、通訊錄百度服務(wù) 搜索 新聞 貼吧 知道 百科 音樂 視頻 地圖 購(gòu)物 百度Hi百度手機(jī)客戶端掌上百度GSM/CDMA/GPRS/EdgeTD-SCDMA/WCDMA/CDMA2000Wi-FiWiMAX百度無線最新構(gòu)架方案無線核心搜索產(chǎn)品Freewap數(shù)據(jù)收錄情況收錄wml頁(yè)面數(shù)約1.5億三塊數(shù)據(jù)來源百度公共網(wǎng)頁(yè)庫(kù)數(shù)據(jù)主要數(shù)據(jù)來源,占全部頁(yè)面的95%以上Wise獨(dú)立spider源于ps spider,一個(gè)

4、抓取環(huán)更改抓取header,修改agent為手機(jī)agent 數(shù)量大約占全部20%站點(diǎn)獨(dú)立層主要wap站點(diǎn)首頁(yè)頁(yè)面數(shù)大約8000個(gè)wap網(wǎng)站首頁(yè)搜索模型與其它垂直產(chǎn)品基本相同F(xiàn)reewap-無線搜索數(shù)據(jù)收錄情況組織方式共10個(gè)數(shù)據(jù)層百度公共庫(kù)占8層,每層4050庫(kù),每dataminer采并5個(gè)庫(kù),讀取權(quán)值為9頁(yè)面效率及時(shí)耗增量1次每周,兩層/機(jī),周一凌晨同時(shí)啟動(dòng)增量用時(shí)約10小時(shí),重建用時(shí)約70小時(shí)百靈庫(kù)升級(jí)支持中Freewap-百度公共庫(kù)相關(guān)數(shù)據(jù)收錄數(shù)量單庫(kù)wml頁(yè)面約200萬 增量情況下每周單庫(kù)更新頁(yè)面數(shù)2030萬,單層則在1000萬左右最近一期大庫(kù)中wml頁(yè)面對(duì)應(yīng)199095域名,對(duì)應(yīng)98

5、906個(gè)站點(diǎn)收錄質(zhì)量庫(kù)中質(zhì)量較差,實(shí)際收錄頁(yè)面數(shù)在10個(gè)以上的域名為60447 主要wap站點(diǎn)收錄質(zhì)量差,數(shù)量少Freewap-百度公共庫(kù)存在的問題抓取垃圾多無效參數(shù)導(dǎo)致重復(fù)頁(yè)面多適配站點(diǎn)無效頁(yè)面多收錄不全面Wap2.0頁(yè)面未收錄國(guó)內(nèi)站點(diǎn)少策略不適合無線真正高質(zhì)量wap站點(diǎn)抓取少或無法抓取高質(zhì)量頁(yè)面由于深度控制或者循環(huán)抓取導(dǎo)致實(shí)際抓取頁(yè)面少更新慢,web站點(diǎn)的wap版占了近半數(shù)量Freewap-獨(dú)立spider產(chǎn)生目的 專門抓取公共庫(kù)spider無法抓取的wap站點(diǎn) 抓取部分wap2.0 站點(diǎn) 抓取部分高質(zhì)量wap站點(diǎn)現(xiàn)狀目前全部站點(diǎn)數(shù)為9000個(gè)左右,不允許擴(kuò)散抓取 實(shí)際庫(kù)中頁(yè)面在1500萬

6、左右,可索引頁(yè)面700萬 問題 循環(huán)抓取問題,高質(zhì)量列表頁(yè)抓取不足維護(hù)困難,由ps rd代管Freewap-獨(dú)立層特點(diǎn)及需求某些站點(diǎn)根本無法抓取,只能依賴于手動(dòng)添加 要求部分檢索,并且存在單獨(dú)的更新要求 要求能夠pm手動(dòng)添加種子站首頁(yè)問題更新依賴于腳本 依賴于人工因素 部分檢索方式簡(jiǎn)單,需要改進(jìn)無線核心產(chǎn)品之transcoderTranscoder職能為用戶瀏覽搜索結(jié)果,支持對(duì)任意頁(yè)面的實(shí)時(shí)轉(zhuǎn)換支持不同類型的資源支持資源:HTML頁(yè)面、RSS、圖片ImageMagic對(duì)抓取的圖片資源進(jìn)行壓縮、翻轉(zhuǎn)用戶行為模擬用戶瀏覽普能網(wǎng)頁(yè)的代理,摸擬用戶提交,Js提交己完成開發(fā)Transcoder工作方式對(duì)

7、HTML頁(yè)面進(jìn)行重構(gòu)(轉(zhuǎn)為xhtml/wml)、RSS轉(zhuǎn)為HTML頁(yè)面、圖片進(jìn)行壓縮(轉(zhuǎn)為jpg)Transcoder-資源抓取&用戶行為模擬資源抓取未命中Cache時(shí)需要進(jìn)行實(shí)時(shí)的資源抓取目前自行解析HTTP協(xié)議支持chunked、gzip/defalte、HTTP 3XX跳轉(zhuǎn),兼容一些錯(cuò)誤的情況用戶行為模擬作為用戶瀏覽web站點(diǎn)的代理支持用戶提交WEB頁(yè)面中form中使用Javascript控制提交行為,因此使用直接構(gòu)造HTTP請(qǐng)求&使用Gecko模擬用戶提交動(dòng)兩種方法Tanscoder仍面臨的問題摸擬層有待改進(jìn)Ajax頁(yè)面的抓取Gecko性能及穩(wěn)定性問題終端功能補(bǔ)充用戶的狀態(tài)保存手機(jī)大多不支持cookie,狀態(tài)依賴于第三方服務(wù)器非HTTP協(xié)議的支持POP3協(xié)議有需求FTP協(xié)議有需求其它資源轉(zhuǎn)換問題己有手機(jī)支持gif,目前只統(tǒng)一轉(zhuǎn)換成jpgRSS頁(yè)面等的分頁(yè)問題手機(jī)的特殊性導(dǎo)致的其它問題 客戶端功能弱 xhtml的多button提交問題需服務(wù)器校驗(yàn) Cookie支持不完全及url限長(zhǎng)客戶端支持參差不齊 新功能嘗試需謹(jǐn)慎,兼容性需反復(fù)測(cè)試驗(yàn)證 編碼問題 手機(jī)屏適配問題

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論