




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、百度第三代Spider背后的萬億量級(jí)實(shí)時(shí)數(shù)據(jù)處理系統(tǒng)大綱搜索引擎與Spider3.0Tera的模型與架構(gòu)系統(tǒng)構(gòu)建中的經(jīng)驗(yàn)與教訓(xùn)未來工作演講題目姓名搜 索 引 擎互聯(lián)網(wǎng)與搜索引擎Internet搜 索 引 擎SpiderPageRank正排計(jì)算正排計(jì)算倒排計(jì)算倒排計(jì)算檢索系統(tǒng)檢索系統(tǒng)搜索引擎與SpiderInternet快速、全面地采集全網(wǎng)數(shù)據(jù)中文互聯(lián)網(wǎng)與百度Spider Spider每天處理提鏈: 100億 * 120 = 1.2萬億條萬億條 網(wǎng)頁總數(shù):100萬億 有價(jià)值網(wǎng)頁: 10萬億 每天新增: 100億 超鏈接數(shù): 120 條/網(wǎng)頁Hadoop時(shí)代的百度Spider超鏈庫(HDFS)挖掘
2、(MR)調(diào)度(MR)回灌(MR)入庫(MR)抓取頁面解析網(wǎng)頁庫Hadoop的問題 線性擴(kuò)展問題 時(shí)效性問題 近10輪MR過程,耗時(shí)兩天 解決:必須流式處理 1000億鏈接處理 - 500臺(tái)服務(wù)器 10萬億鏈接處理 - 5萬臺(tái) 解決:必須增量處理百度第三代Spider流式計(jì)算系統(tǒng)海量數(shù)據(jù)庫Tera(超鏈、網(wǎng)頁、DNS、策略詞典)抓取頁面解析調(diào)度鏈接打分挖掘?qū)崟r(shí)處理的核心 數(shù)據(jù)是本質(zhì) 來源是數(shù)據(jù) 產(chǎn)出也是數(shù)據(jù) 中間狀態(tài) 一條新鏈接的價(jià)值誰說了算? 站點(diǎn)&路徑深度 前鏈&錨文本 一張網(wǎng)頁變化 觸發(fā)上百條鏈接屬性更新Spider3.0的實(shí)時(shí)數(shù)據(jù)處理 全量數(shù)據(jù) 10萬億條 100PB 每
3、一條隨時(shí)都可能更新 每天新抓網(wǎng)頁 100億 觸發(fā)1萬億條鏈接更新 每秒屬性更新 1億次 隨機(jī)讀&隨機(jī)寫 全局調(diào)度 站點(diǎn)&主域壓力受控 虛擬主機(jī)運(yùn)營商壓力受控我們的解決方案 海量實(shí)時(shí)數(shù)據(jù)庫Tera 分布式、可擴(kuò)展 萬億萬億記錄數(shù),百百PB容量,億級(jí)億級(jí)QPS讀寫 全局有序表 支持區(qū)間訪問,方便統(tǒng)計(jì) 自動(dòng)負(fù)載均衡 互聯(lián)網(wǎng)熱點(diǎn)頻發(fā),業(yè)務(wù)迭代迅速 多版本、表格快照 歷史數(shù)據(jù)分析、業(yè)務(wù)數(shù)據(jù)回滾 其他特性 列存儲(chǔ)、分布式事務(wù)1471016241t21471018236t41471019766t6天宮二號(hào)t4神州十一t631t51471018372t214710193827t81471020
4、1432t10G20峰會(huì)t2金磚會(huì)議t1020t731t12Tera的表是三維的TimeRowcom.abc.www/com.def.www/CrawlTimePageColumnWeight1471016241t21471018236t41471019766t6天宮二號(hào)t4神州十一t631t51471018372t214710193827t814710201432t10G20峰會(huì)t2金磚會(huì)議t1020t731t12按行行 切分成多區(qū)間(Tablet)TimeColumnRowcom.abc.www/com.def.www/CrawlTimePageWeightTablet2Tablet3Ta
5、blet1MasterBFSSSTLOGSSTSSTLOGSSTMasterMasterTabletServerTabletCache創(chuàng)建、更新表Tera架構(gòu)Client/SDK數(shù)據(jù)讀寫TabletServerTabletCache 先寫內(nèi)存再寫Log,文件全部持久化在分布式文件系統(tǒng)上。 LOG: Write-ahead log,正常情況下只寫不讀,用于容災(zāi)。 SST: 內(nèi)存Dump或Compaction產(chǎn)生的靜態(tài)文件,只讀不改。Tera給我們帶來了什么? 海量數(shù)據(jù)隨時(shí)、隨處可用 PB級(jí)的內(nèi)存,統(tǒng)一的地址空間 百PB級(jí)存儲(chǔ),不用擔(dān)心持久化 億級(jí)QPS的吞吐承載 毫秒級(jí)的延遲對(duì)比HBase 相同
6、點(diǎn) Bigtable數(shù)據(jù)模型 開源 不同點(diǎn) 可用性 解決了區(qū)間熱點(diǎn)問題 99.9% - 99.99% 性能、延遲 C+實(shí)現(xiàn),沒有GC問題 Locality Group支持 擴(kuò)展性 數(shù)百臺(tái)-數(shù)千臺(tái)快速負(fù)載均衡 分裂快 50ms 通過文件引用實(shí)現(xiàn) 敢分裂 很好地處理碎片問題 熱點(diǎn)過后,快速合并回來Tablet0Tablet1Tablet2Tablet4Tablet3Tablet5能快速合并,才敢分裂 區(qū)間快速遷移 50ms Powered by BFS 區(qū)間快速合并 僅元數(shù)據(jù)變更 代價(jià)小, 時(shí)間短(200ms) 全自動(dòng) 無人工干預(yù)熱點(diǎn)問題根本解決 分布式文件系統(tǒng) 表面上:實(shí)現(xiàn)了快速分裂與遷移 本質(zhì)
7、是:天然將請(qǐng)求打散到數(shù)千節(jié)點(diǎn)連續(xù)區(qū)間1SST1SST2SST3SST N.DataNode1DataNode2DataNode3DataNode N.百度文件系統(tǒng)百度文件系統(tǒng)連續(xù)區(qū)間N.面向?qū)崟r(shí)應(yīng)用的百度文件系統(tǒng) 元數(shù)據(jù)可用性 無NameNode單點(diǎn) 基于Raft的分布式集群 文件可用性 多數(shù)據(jù)中心副本放置 快速副本恢復(fù) 高吞吐、低延遲 C+實(shí)現(xiàn) 針對(duì)讀寫長尾優(yōu)化 單機(jī) 1.1GB/S讀寫吞吐網(wǎng)絡(luò)通信框架Sofa-pbrpc集群調(diào)度系統(tǒng)Galaxy分布式數(shù)據(jù)庫Tera分布式文件系統(tǒng)BFS分布式計(jì)算框架Shuttle分布式協(xié)調(diào)服務(wù)Nexus工業(yè)實(shí)踐 分層設(shè)計(jì) 分工、復(fù)用 問題最好解決一次 一處解
8、決多處受益The Baidu StackApps(Spider/Index/Search)工業(yè)實(shí)踐 可用性設(shè)計(jì) 硬件&軟件故障不可避免 假設(shè)有MTBF是30年的機(jī)器 搭建一個(gè)1萬臺(tái)的集群 每12天壞一臺(tái) 降低故障恢復(fù)時(shí)間 可用性 = (總時(shí)間 - 故障數(shù) * 恢復(fù)時(shí)間) / 總時(shí)間 HBase 幾分鐘 Tera 幾秒鐘工業(yè)實(shí)踐 低延遲設(shè)計(jì) Backup Requests 2ms后發(fā)送備份讀請(qǐng)求到第二個(gè)副本 如果一個(gè)被響應(yīng)了,Cancel掉另外一個(gè) 99.9分位延遲降低80% 慎用自動(dòng)GC的語言 實(shí)時(shí)處理, 大量小請(qǐng)求,頻繁觸發(fā)STW 服務(wù)無響應(yīng) 不必要的failoverTera在百度發(fā)展2013.7原型系統(tǒng)2014.1V1.0DNS緩存2015.6V2.0超鏈數(shù)據(jù)庫2016.8V2.5全量網(wǎng)頁數(shù)據(jù)存儲(chǔ)場(chǎng)景描述數(shù)據(jù)規(guī)模天級(jí)讀寫DNS信息存儲(chǔ)站點(diǎn)I
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 蘇教版數(shù)學(xué)三年級(jí)上冊(cè)單元測(cè)試卷-第五單元-解決問題的策略(含答案)-
- 2025年湖南吉利汽車職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫及答案一套
- 2025年河南物流職業(yè)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫匯編
- 2025年河北青年管理干部學(xué)院?jiǎn)握新殬I(yè)傾向性測(cè)試題庫參考答案
- 2024年H-系列卷材涂料項(xiàng)目資金申請(qǐng)報(bào)告代可行性研究報(bào)告
- 2024年體育公園項(xiàng)目投資申請(qǐng)報(bào)告代可行性研究報(bào)告
- 2025年河北女子職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫一套
- 物理-云南省師范大學(xué)附屬中學(xué)2025屆高三下學(xué)期開學(xué)考試試題和答案
- 第22課《智取生辰綱》教學(xué)設(shè)計(jì) 2024-2025學(xué)年統(tǒng)編版語文九年級(jí)上冊(cè)
- 汽車旅館裝修合同解除
- 人教版八年級(jí)數(shù)學(xué)下冊(cè)《第十六章二次根式》專題復(fù)習(xí)附帶答案
- 2024屆武漢武昌區(qū)五校聯(lián)考數(shù)學(xué)九年級(jí)第一學(xué)期期末經(jīng)典試題含解析
- 高考復(fù)習(xí)概率中的遞推數(shù)列問題課件
- 生物工程設(shè)備課件
- 詐騙控告書模板
- 善借者贏天下(2017甘肅慶陽中考議論文閱讀試題含答案)
- 新聞采訪與寫作課件第十章采訪的實(shí)施現(xiàn)場(chǎng)觀察
- 八年級(jí)數(shù)學(xué)下冊(cè)《三角形的證明》單元測(cè)試卷(附答案解析)
- 國內(nèi)公務(wù)接待清單
- 《調(diào)整心態(tài)迎接中考》主題班會(huì)
- 領(lǐng)導(dǎo)科學(xué)與領(lǐng)導(dǎo)藝術(shù)
評(píng)論
0/150
提交評(píng)論