




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、滴滴出行平臺的高可用架構(gòu)第1頁,共32頁。滴滴的出行業(yè)務(wù)架構(gòu)高可用方法論異地多活一鍵降級防火放火第2頁,共32頁。滴滴業(yè)務(wù)簡介接單接駕開始行程結(jié)束行程發(fā)單等待接駕上車到達(dá)支付乘客司機(jī)登錄、鑒權(quán) 訂單、司機(jī) 分單計價、收銀、支付 反作弊、管控、運營服務(wù)交互服務(wù)交互交易狀態(tài)流轉(zhuǎn)平臺交易業(yè)務(wù): 實時、多狀態(tài)、長鏈條第3頁,共32頁。業(yè)務(wù)架構(gòu)演進(jìn)MQ司機(jī)、訂單、計價 收銀、運營lvsnginxstorage分單系統(tǒng)lvsDFE核心業(yè)務(wù)apistorage分單引擎訂 單司 機(jī)計 價收 銀運 營DGWDFEstorage分單引 擎2.0訂 單司 機(jī)計 價收 銀運 營專快 api出租 車apiUbera p
2、i代駕 apistoragestoragestoragestorage登 錄 鑒 權(quán)收 銀 支 付運 營地 圖草創(chuàng)時代2012.9滴滴打車上線2013.8 1kw+用戶 紅包大戰(zhàn)2014.3 單量300萬單/天 乘客1億 司機(jī)100萬??燔嚿暇€2014.8 專車上線2015.5 快車上線2016.3 1000萬單/天Uber合并2016.8 收購Uber中國2016.10 2000萬單/天外包日訂單量: 15年幾百萬 - 目前2500w+(僅次于淘寶)第4頁,共32頁。高可用面臨的挑戰(zhàn)流量增 長迅猛業(yè)務(wù)增長迅速 節(jié)假日效應(yīng)明顯業(yè)務(wù)復(fù)雜實時 多狀態(tài) 交易型 鏈路長新場景多 迭代快穩(wěn)定性 挑戰(zhàn)大高
3、速路上 換輪子業(yè)務(wù)調(diào)用鏈路接口調(diào)用鏈條示例第5頁,共32頁。滴滴出行的業(yè)務(wù)架構(gòu)高可用方法論異地多活一鍵降級防火放火第6頁,共32頁。高可用的常見措施不可用因素典型case增大MTBF縮短MTTR程序、數(shù)據(jù)和配置 bug程序出core、配置格式出錯研發(fā)質(zhì)量、測試質(zhì)量、變更分級 解耦減少變更、監(jiān)控告警、快速回滾機(jī)器和網(wǎng)段級故障宕機(jī)、邊緣交換機(jī)板卡故障、 光纖抖動硬件冗余預(yù)警預(yù)遷移服務(wù)、切流到本機(jī) 房冗余、數(shù)據(jù)主從切換多網(wǎng)段和機(jī)房級故 障核心交換機(jī)故障、鏈路割接、 機(jī)房掉電硬件冗余(包括多機(jī)房)預(yù)警預(yù)遷移服務(wù),切流到其他 機(jī)房流量大促、節(jié)假日和特殊天氣、外 部攻擊、上游重試雪崩上游容錯調(diào)度防雪崩容量
4、規(guī)劃、防攻擊、其他同容 量不足容量主流程服務(wù)容量不足容量規(guī)劃、容量預(yù)警限流、切流其他冗余、降級、 熔斷弱依賴、快速擴(kuò)容依賴服務(wù)賬單依賴的到達(dá)時間預(yù)估故障 分單依賴的特征服務(wù)故障、遞歸使用前述方法提高該依賴的 可用性熔斷弱依賴,或遞歸使用前述 方法提高該依賴的可用性第7頁,共32頁。高可用的8大抓手、抓手典型做法業(yè)務(wù)平臺服務(wù)研發(fā)質(zhì)量容錯設(shè)計、cr、單測、穩(wěn)定性 評審弱依賴化(主流程瘦身) 數(shù)據(jù)流治理、研發(fā)流程、scmpf流程平臺rpc框架、服務(wù)組 件測試質(zhì)量線下仿真仿真環(huán)境建設(shè)、測試流程仿真環(huán)境解決方案、測試 框架支持引流、dump變更管理按機(jī)器或流量分級發(fā)布、多 維度質(zhì)量檢測灰度發(fā)布、檢查和回
5、滾流程部署系統(tǒng)、分級發(fā)布系統(tǒng)服務(wù)發(fā)現(xiàn)、配置中 心監(jiān)控告警機(jī)器/進(jìn)程/業(yè)務(wù)監(jiān)控及報警監(jiān)控大盤、多級報警監(jiān)控系統(tǒng)、告警系統(tǒng)metrics、trace故障預(yù)案定位和止損的預(yù)案預(yù)案建設(shè)異地多活、一鍵預(yù)案/降級中間件支持切流 限流、熔斷、降級容量規(guī)劃全鏈路壓測、子鏈路壓測、 哨兵壓測改造支持各壓測壓測平臺中間件支持壓測放火盲測弱依賴驗證、預(yù)案有效性和 完備性驗證請求級放火、資源放火放火盲測平臺中間件支持放火值班巡檢例行值班表、節(jié)假日值班例行值班、集中應(yīng)急處理值班平臺第8頁,共32頁。高可用的5級演進(jìn)目標(biāo)4321021043手工5工具化平臺化自動化智能化43210召回占比演進(jìn)x年x+1年未來第9頁,共32
6、頁。滴滴出行的業(yè)務(wù)架構(gòu)高可用方法論異地多活一鍵降級防火放火第10頁,共32頁。異地多活一個腳本引發(fā)的“血案”?https:/data/attachment/forum/201508/19/155520wtajnigimiz3jqgk.jpg哪些服務(wù)多活?同城還是異地?第11頁,共32頁。如何實現(xiàn)多活?流量路由流量標(biāo)記 分層路由 單元化數(shù)據(jù)同步中間件同步 業(yè)務(wù)雙寫降級預(yù)案單活降級 數(shù)據(jù)故障兜底第12頁,共32頁。業(yè)務(wù)層接入層短連接業(yè)務(wù)核心api分 單 系 統(tǒng)坐 標(biāo) 系 統(tǒng)數(shù)據(jù)庫緩存列式特征消息隊列收 銀 支 付司 機(jī) 系 統(tǒng)訂 單 系 統(tǒng)登地錄圖鑒 權(quán)長連接Native AppWebApp用戶層
7、數(shù)據(jù)層業(yè)務(wù)層接入層短連接業(yè)務(wù)核心api分 單 系 統(tǒng)坐 標(biāo) 系 統(tǒng)司 機(jī) 系 統(tǒng)訂 單 系 統(tǒng)地 圖登 錄 鑒 權(quán)長連接Native AppWebApp用戶層數(shù)據(jù)同步流量路由多活架構(gòu)數(shù)據(jù)庫緩存列式特征消息隊列 數(shù)據(jù)層第13頁,共32頁。業(yè)務(wù)層接入層短連接業(yè)務(wù)核心api分 單 系 統(tǒng)坐 標(biāo) 系 統(tǒng)收 銀 支 付司 機(jī) 系 統(tǒng)訂 單 系 統(tǒng)登地錄圖鑒 權(quán)長連接Native AppWebApp用戶層業(yè)務(wù)層接入層短連接業(yè)務(wù)核心api分 單 系 統(tǒng)坐 標(biāo) 系 統(tǒng)司 機(jī) 系 統(tǒng)訂 單 系 統(tǒng)地 圖登 錄 鑒 權(quán)長連接Native AppWebApp用戶層流量路由單元內(nèi)訪問、不要跨機(jī)房流量路由流量如何劃分?
8、 流量標(biāo)識如何傳遞?路由如何決策? 單活如何訪問多活?跨城、漫游如何處理? 為什么分層切換?第14頁,共32頁。業(yè)務(wù)層業(yè)務(wù)核心api分 單 系 統(tǒng)坐 標(biāo) 系 統(tǒng)數(shù)據(jù)庫緩存列式特征消息隊列收 銀 支 付司 機(jī) 系 統(tǒng)訂 單 系 統(tǒng)地 圖登 錄 鑒 權(quán)數(shù)據(jù)層業(yè)務(wù)層業(yè)務(wù)核心api分 單 系 統(tǒng)坐 標(biāo) 系 統(tǒng)司 機(jī) 系 統(tǒng)訂 單 系 統(tǒng)地 圖登 錄 鑒 權(quán)數(shù)據(jù)同步數(shù)據(jù)同步數(shù)據(jù)庫緩存列式特征消息隊列 數(shù)據(jù)層一致性挑戰(zhàn):成功率、延遲、有序、不重業(yè)務(wù)層的挑戰(zhàn): 不同系統(tǒng)有不同的數(shù)據(jù)特性司機(jī)系統(tǒng):短時問題可容忍,但數(shù)據(jù)修復(fù)麻煩 訂單系統(tǒng):強(qiáng)一致性要求,但修復(fù)相對簡單 分單系統(tǒng):短時問題可容忍坐標(biāo)流:獲取最近的
9、數(shù)據(jù),部分丟失無影響第15頁,共32頁。數(shù)據(jù)同步系統(tǒng)數(shù)據(jù)特征分析存儲一致性系統(tǒng)特性同步方案司機(jī) 系統(tǒng)身份信息靜態(tài)變化小數(shù)據(jù)庫、緩存無需考慮1、短時問題可容忍2、db出問題修復(fù)麻煩1、數(shù)據(jù)庫主從同步,寫主讀從2、緩存通過proxy互寫同步是否忙碌、是否出車、座位數(shù)關(guān)鍵因子數(shù)據(jù)庫、緩存、 列式特征中偏高策略數(shù)據(jù)(服務(wù)分、圍欄、新政) 非關(guān)鍵因子列式特征中偏低訂單 系統(tǒng)起始位置等信息靜態(tài)變化小數(shù)據(jù)庫、緩存無需考慮相對修復(fù)簡單1、乘客直接結(jié)束訂單再次發(fā)單2、客服通過接口強(qiáng)制關(guān)單1、數(shù)據(jù)庫主從同步,成交主流程寫主讀主2、緩存:有序不重雙集群校驗binlog反沖,最終一致訂單狀態(tài)6-7個(狀態(tài)機(jī))狀態(tài)錯誤
10、,無法繼 續(xù)數(shù)據(jù)庫、緩存高分單 系統(tǒng)司機(jī)和乘客特征短時可接受列式特征中偏低特征出問題,可從數(shù)據(jù)庫回?fù)疲?、手工,聽單檢測 收車出車2、服務(wù)端旁路檢測司機(jī)狀態(tài)在業(yè)務(wù)proxy層實現(xiàn)主從同步(類數(shù)據(jù)庫)坐標(biāo)流司機(jī)乘客坐標(biāo)信息內(nèi)存低獲取最近產(chǎn)生的數(shù)據(jù),可容忍數(shù)據(jù) 丟失實現(xiàn)容易,在業(yè)務(wù)proxy層互寫mq消息隊列低異步數(shù)據(jù),一致性要求不高全量互同步第16頁,共32頁。降級預(yù)案多活: 切流單活: 熔斷故障特征庫數(shù)據(jù)異常: DB回?fù)艱B掛了: 主從切換無狀態(tài)業(yè)務(wù)數(shù)據(jù)故障DB主從延遲計價、服務(wù)分有損: 善后補(bǔ)償網(wǎng)絡(luò)抖動: 短時限流 防雪崩、長時切流到主 機(jī)房抖動+主力機(jī)房掛:超 小概率、最小系統(tǒng)有損降級第1
11、7頁,共32頁。滴滴出行的業(yè)務(wù)架構(gòu)高可用方法論異地多活一鍵降級防火放火第18頁,共32頁。What?限流:大促時限制入口流量頁面去掉非核心功能同步轉(zhuǎn) 異步切流:流量切到正常集群盡可能保住服務(wù)第19頁,共32頁。Why?業(yè)務(wù)出問題不可避免需要上線,止損慢預(yù)案有沖突、容易失效業(yè)務(wù)壓力大,精力有限要有降級預(yù)案快速生效止損預(yù)案管理降低接入成本第20頁,共32頁。How?場景預(yù)案,一鍵快速生效L1: 業(yè)務(wù)無損: 號碼保護(hù)、不作弊、導(dǎo)流、切流L2: 部分效果受損: 動調(diào),計價(路面距離降級為直線距離)L3: 核心支付效果有損: 收銀熔斷、乘客未支付可以發(fā)單L4: 核心主流程效果受損: 發(fā)單限流、內(nèi)部丟單移
12、動+pc雙端 隨時觸達(dá)生效率監(jiān)控、灰度發(fā)布、平臺雙活、互斥管理 安全生效切流、限流、熔斷、普通降級配置語義+中間件action實 現(xiàn)評分系統(tǒng)驅(qū)動接入和演練有效演練高效快速接入止損第21頁,共32頁。Detail第22頁,共32頁。切流實現(xiàn)路由表通路實時配送平臺動態(tài)配置路由 規(guī)則路由 算法流量標(biāo)識目的機(jī)房輸入降級中間件服務(wù) 實例舉例:路由成環(huán)問題?第23頁,共32頁。限流實現(xiàn)限流配置通路實時配送平臺動態(tài)配置限流 規(guī)則令牌桶 算法caller、callee、 method是否限流輸入降級中間件服務(wù) 實例令牌桶:支持突發(fā)漏桶:強(qiáng)限固定的速度第24頁,共32頁。熔斷實現(xiàn)熔斷配置通路實時配送平臺端動態(tài)配
13、置熔斷 規(guī)則開關(guān) 語義 識別熔斷標(biāo)記是否熔斷輸入降級中間件服務(wù) 實例第25頁,共32頁。滴滴出行的業(yè)務(wù)架構(gòu)高可用套路異地多活一鍵降級防火放火第26頁,共32頁。防火滅火放火的重要項目防火降低不可用發(fā)生概率:線下仿真灰度發(fā)布滅火縮短止損時間:異地多活一鍵降級驗證滅火是否有效完 備:故障注入壓測放火第27頁,共32頁。防火-灰度發(fā)布上線過程idc-preidc-small人群灰度?X 開關(guān)維護(hù)成本高機(jī)器灰度?X 指標(biāo)不聚焦不敏感So 人群灰度+機(jī)器灰度idc1-g1idc1-g2idc1-g2idc2預(yù)發(fā)城市 灰度10%40%100%第28頁,共32頁。放火-壓測全鏈路壓測仿真司乘行為透傳壓測標(biāo)識
14、隔離壓測數(shù)據(jù)單鏈路壓測注重子系統(tǒng)壓測隔離壓測數(shù)據(jù)構(gòu)造上游請求Mock下游結(jié)果哨兵系統(tǒng)小規(guī)模損失風(fēng)險換取及時預(yù)警物理隔離流量大于正常集群動態(tài)調(diào)控第29頁,共32頁。放火-故障注入控制中心REQ LEVELCPUMEM NETI/OSYS LEVELINTERFACECITY PERCENT FLOW TAGLATENCY ERRCODETHRIFT HTTPHIGH USAGE PACK LOSSSLOW NET CONN REFUSE協(xié)議層故障類型故障類型command目標(biāo)預(yù)案完備性檢查強(qiáng)弱依賴驗證提升異常分支覆蓋率層次線下環(huán)境線上測試賬號線上單個城市IPTABLES NGINX MODULE RPC MIDDLEWARE實現(xiàn)第30頁,共32頁。高可用落地組織結(jié)構(gòu)支撐公正的第三方組織(星辰花):復(fù)盤、 定級追責(zé)、Trace 進(jìn)展專項FT:虛線匯報、項目經(jīng)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 消防系統(tǒng)檢測合同
- 小數(shù)的意義(教學(xué)設(shè)計)-2023-2024學(xué)年四年級下冊數(shù)學(xué)人教版
- 管理軟件系統(tǒng)購買合同范文格式7篇
- 噸的認(rèn)識(教學(xué)設(shè)計)-2024-2025學(xué)年三年級上冊數(shù)學(xué)人教版
- 雙手胸前傳接球 教學(xué)設(shè)計-2023-2024學(xué)年高二下學(xué)期體育與健康人教版必修第一冊
- 小學(xué)三年級數(shù)學(xué)幾百幾十加減幾百幾十水平練習(xí)習(xí)題
- 簡易家用活動平臺施工方案
- Unit 1 Lesson 3 The Sun Is Rising教學(xué)設(shè)計 -2024-2025學(xué)年冀教版八年級英語下冊
- 第9課 兩宋的政治和軍事 教學(xué)設(shè)計-2023-2024學(xué)年高一上學(xué)期統(tǒng)編版(2019)必修中外歷史綱要上
- 綠化給水工程施工方案
- 《中國商貿(mào)文化》3.1古代商人
- 南宋北京大學(xué)歷史學(xué)系課件
- 重慶市房屋建筑與裝飾工程計價定額2018-建筑工程
- 三年級數(shù)學(xué)-解決問題策略(蘇教版)
- 不吃路邊攤精品課件
- 《網(wǎng)絡(luò)服務(wù)器搭建、配置與管理-Linux(RHEL8、CentOS8)(微課版)(第4版)》全冊電子教案
- 心理評估與診斷簡介
- 無痛病房管理課件
- 讓孩子變成學(xué)習(xí)的天使——由《第56號教室的奇跡》讀書分享
- 球泡檢驗標(biāo)準(zhǔn)
- 振動分析基礎(chǔ)講義1
評論
0/150
提交評論