版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、無線搜索構(gòu)架及其產(chǎn)品介紹常興龍 課程介紹培訓(xùn)目的新員工能夠盡快了解百度無線搜索產(chǎn)品構(gòu)架及相關(guān)技術(shù)培訓(xùn)對(duì)象技術(shù)部新員工培訓(xùn)時(shí)間全部課程大約90分鐘 了解無線搜索功能標(biāo)簽,包括:搜索、網(wǎng)址導(dǎo)航、社區(qū)(貼吧、知道)新聞搜索范圍,包括網(wǎng)絡(luò)與本地用戶可以在通訊錄、短信、郵件中搜素搜索框集成地址欄功能有補(bǔ)齊URL提示;搜索時(shí)可直接選擇搜索類型用缺省瀏覽器內(nèi)核,具有較好的兼容性用戶可定制個(gè)性化首頁(yè)選擇訪問歷史、熱門推薦、新聞、天氣等作為首頁(yè)展示內(nèi)容為什么需要無線搜索?定義:用戶使用移動(dòng)無線終端搜尋信息的行為無線搜索的特點(diǎn)聯(lián)合WEB,WAP1.0,WAP2.0,有更豐富的來源終端特性使搜索更便捷意圖明確、時(shí)效
2、性強(qiáng)無線搜索的價(jià)值時(shí)間和地域信息使目標(biāo)信息更精準(zhǔn)有效將搜索延伸到PC無法覆蓋的時(shí)間和地點(diǎn)百度無線發(fā)展歷程無線搜索歷程2006年,郭眈正式命名,無線搜索(wise, wireless search)2009年無線發(fā)展迅猛,RD及PM規(guī)模顯著擴(kuò)大,團(tuán)隊(duì)日趨成熟三年的歷程,低于100萬pv/天1.8億pv/天從第一個(gè)產(chǎn)品nokia客戶端服務(wù)模塊到現(xiàn)在已經(jīng)有十幾個(gè)服務(wù),數(shù)十個(gè)模塊在線上運(yùn)行無線搜索核心需求決定產(chǎn)品搜索結(jié)果需求有差異存在終端專有資源存在終端更優(yōu)結(jié)果解決方案:cosearch和freewap搜索結(jié)果需求無差異僅需轉(zhuǎn)換為手機(jī)頁(yè)面改善手機(jī)用戶瀏覽效果,如知識(shí)、文字信息等。解決方案:transc
3、oder百度其它產(chǎn)品的WAP應(yīng)用手機(jī)版的帖吧,空間,知道,圖片等百度無線產(chǎn)品硬件平臺(tái)手機(jī)操作系統(tǒng)應(yīng)用程序上網(wǎng):娛樂、瀏覽、搜索 游戲、閱讀本地應(yīng)用:本地搜索、計(jì)算器、 文檔處理通話功能:短信、通訊錄百度服務(wù) 搜索 新聞 貼吧 知道 百科 音樂 視頻 地圖 購(gòu)物 百度Hi百度手機(jī)客戶端掌上百度GSM/CDMA/GPRS/EdgeTD-SCDMA/WCDMA/CDMA2000Wi-FiWiMAX百度無線最新構(gòu)架方案無線核心搜索產(chǎn)品Freewap數(shù)據(jù)收錄情況收錄wml頁(yè)面數(shù)約1.5億三塊數(shù)據(jù)來源百度公共網(wǎng)頁(yè)庫(kù)數(shù)據(jù)主要數(shù)據(jù)來源,占全部頁(yè)面的95%以上Wise獨(dú)立spider源于ps spider,一個(gè)
4、抓取環(huán)更改抓取header,修改agent為手機(jī)agent 數(shù)量大約占全部20%站點(diǎn)獨(dú)立層主要wap站點(diǎn)首頁(yè)頁(yè)面數(shù)大約8000個(gè)wap網(wǎng)站首頁(yè)搜索模型與其它垂直產(chǎn)品基本相同F(xiàn)reewap-無線搜索數(shù)據(jù)收錄情況組織方式共10個(gè)數(shù)據(jù)層百度公共庫(kù)占8層,每層4050庫(kù),每dataminer采并5個(gè)庫(kù),讀取權(quán)值為9頁(yè)面效率及時(shí)耗增量1次每周,兩層/機(jī),周一凌晨同時(shí)啟動(dòng)增量用時(shí)約10小時(shí),重建用時(shí)約70小時(shí)百靈庫(kù)升級(jí)支持中Freewap-百度公共庫(kù)相關(guān)數(shù)據(jù)收錄數(shù)量單庫(kù)wml頁(yè)面約200萬 增量情況下每周單庫(kù)更新頁(yè)面數(shù)2030萬,單層則在1000萬左右最近一期大庫(kù)中wml頁(yè)面對(duì)應(yīng)199095域名,對(duì)應(yīng)98
5、906個(gè)站點(diǎn)收錄質(zhì)量庫(kù)中質(zhì)量較差,實(shí)際收錄頁(yè)面數(shù)在10個(gè)以上的域名為60447 主要wap站點(diǎn)收錄質(zhì)量差,數(shù)量少Freewap-百度公共庫(kù)存在的問題抓取垃圾多無效參數(shù)導(dǎo)致重復(fù)頁(yè)面多適配站點(diǎn)無效頁(yè)面多收錄不全面Wap2.0頁(yè)面未收錄國(guó)內(nèi)站點(diǎn)少策略不適合無線真正高質(zhì)量wap站點(diǎn)抓取少或無法抓取高質(zhì)量頁(yè)面由于深度控制或者循環(huán)抓取導(dǎo)致實(shí)際抓取頁(yè)面少更新慢,web站點(diǎn)的wap版占了近半數(shù)量Freewap-獨(dú)立spider產(chǎn)生目的 專門抓取公共庫(kù)spider無法抓取的wap站點(diǎn) 抓取部分wap2.0 站點(diǎn) 抓取部分高質(zhì)量wap站點(diǎn)現(xiàn)狀目前全部站點(diǎn)數(shù)為9000個(gè)左右,不允許擴(kuò)散抓取 實(shí)際庫(kù)中頁(yè)面在1500萬
6、左右,可索引頁(yè)面700萬 問題 循環(huán)抓取問題,高質(zhì)量列表頁(yè)抓取不足維護(hù)困難,由ps rd代管Freewap-獨(dú)立層特點(diǎn)及需求某些站點(diǎn)根本無法抓取,只能依賴于手動(dòng)添加 要求部分檢索,并且存在單獨(dú)的更新要求 要求能夠pm手動(dòng)添加種子站首頁(yè)問題更新依賴于腳本 依賴于人工因素 部分檢索方式簡(jiǎn)單,需要改進(jìn)無線核心產(chǎn)品之transcoderTranscoder職能為用戶瀏覽搜索結(jié)果,支持對(duì)任意頁(yè)面的實(shí)時(shí)轉(zhuǎn)換支持不同類型的資源支持資源:HTML頁(yè)面、RSS、圖片ImageMagic對(duì)抓取的圖片資源進(jìn)行壓縮、翻轉(zhuǎn)用戶行為模擬用戶瀏覽普能網(wǎng)頁(yè)的代理,摸擬用戶提交,Js提交己完成開發(fā)Transcoder工作方式對(duì)
7、HTML頁(yè)面進(jìn)行重構(gòu)(轉(zhuǎn)為xhtml/wml)、RSS轉(zhuǎn)為HTML頁(yè)面、圖片進(jìn)行壓縮(轉(zhuǎn)為jpg)Transcoder-資源抓取&用戶行為模擬資源抓取未命中Cache時(shí)需要進(jìn)行實(shí)時(shí)的資源抓取目前自行解析HTTP協(xié)議支持chunked、gzip/defalte、HTTP 3XX跳轉(zhuǎn),兼容一些錯(cuò)誤的情況用戶行為模擬作為用戶瀏覽web站點(diǎn)的代理支持用戶提交WEB頁(yè)面中form中使用Javascript控制提交行為,因此使用直接構(gòu)造HTTP請(qǐng)求&使用Gecko模擬用戶提交動(dòng)兩種方法Tanscoder仍面臨的問題摸擬層有待改進(jìn)Ajax頁(yè)面的抓取Gecko性能及穩(wěn)定性問題終端功能補(bǔ)充用戶的狀態(tài)保存手機(jī)大多不支持cookie,狀態(tài)依賴于第三方服務(wù)器非HTTP協(xié)議的支持POP3協(xié)議有需求FTP協(xié)議有需求其它資源轉(zhuǎn)換問題己有手機(jī)支持gif,目前只統(tǒng)一轉(zhuǎn)換成jpgRSS頁(yè)面等的分頁(yè)問題手機(jī)的特殊性導(dǎo)致的其它問題 客戶端功能弱 xhtml的多button提交問題需服務(wù)器校驗(yàn) Cookie支持不完全及url限長(zhǎng)客戶端支持參差不齊 新功能嘗試需謹(jǐn)慎,兼容性需反復(fù)測(cè)試驗(yàn)證 編碼問題 手機(jī)屏適配問題
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 著眼幼小銜接助力兒童成長(zhǎng)幼小銜接培訓(xùn)
- 掌握結(jié)構(gòu)化表達(dá)提升溝通效率
- 食材加工知識(shí)培訓(xùn)課件
- 二零二五年度大數(shù)據(jù)分析與應(yīng)用簡(jiǎn)易技術(shù)服務(wù)合同范本2篇
- 2025年度酒店甲醛濃度達(dá)標(biāo)治理合同范本3篇
- 二零二五年度建筑工程施工現(xiàn)場(chǎng)用電補(bǔ)充協(xié)議范本3篇
- 中學(xué)生寒假計(jì)劃安排
- 四川省眉山市仁壽縣2024-2025學(xué)年高二上學(xué)期期末考試歷史試題(含答案)
- 人教版九年級(jí)歷史與社會(huì)上冊(cè)說課稿:第一單元 第一課 世界的格局與第一次世界大戰(zhàn)
- Unit 3 Where did you go?PartC (說課稿)-2023-2024學(xué)年人教PEP版英語六年級(jí)下冊(cè)
- 政府采購(gòu)評(píng)審專家考試試題庫(kù)(完整版)
- 合作投資酒店意向合同范例
- 安全教育教案大班40篇
- 叉車工安全培訓(xùn)資料
- 九年級(jí)英語教學(xué)反思
- 外研新標(biāo)準(zhǔn)初中英語七年級(jí)上冊(cè)冊(cè)寒假提升補(bǔ)全對(duì)話短文練習(xí)三附答案解析
- 《旅游消費(fèi)者行為學(xué)》-課程教學(xué)大綱
- YY/T 1117-2024石膏繃帶
- 蘇教版小學(xué)三年級(jí)科學(xué)上冊(cè)單元測(cè)試題附答案(全冊(cè))
- 2024年人教版初一語文(上冊(cè))期末試卷及答案(各版本)
- 生豬屠宰獸醫(yī)衛(wèi)生檢驗(yàn)人員理論考試題及答案
評(píng)論
0/150
提交評(píng)論