![HBase在打車出行的應(yīng)用實(shí)踐_第1頁](http://file4.renrendoc.com/view/bce8b25a2a5f505aa42ec888bdff8822/bce8b25a2a5f505aa42ec888bdff88221.gif)
![HBase在打車出行的應(yīng)用實(shí)踐_第2頁](http://file4.renrendoc.com/view/bce8b25a2a5f505aa42ec888bdff8822/bce8b25a2a5f505aa42ec888bdff88222.gif)
![HBase在打車出行的應(yīng)用實(shí)踐_第3頁](http://file4.renrendoc.com/view/bce8b25a2a5f505aa42ec888bdff8822/bce8b25a2a5f505aa42ec888bdff88223.gif)
![HBase在打車出行的應(yīng)用實(shí)踐_第4頁](http://file4.renrendoc.com/view/bce8b25a2a5f505aa42ec888bdff8822/bce8b25a2a5f505aa42ec888bdff88224.gif)
![HBase在打車出行的應(yīng)用實(shí)踐_第5頁](http://file4.renrendoc.com/view/bce8b25a2a5f505aa42ec888bdff8822/bce8b25a2a5f505aa42ec888bdff88225.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、HBase在打車出行的應(yīng)用實(shí)踐技術(shù)創(chuàng)新,變革未來背景介紹打車出行:提供一站式的出行服務(wù),包括專車,快車,出租車,巴士,試駕,代駕,租車,共 享單車(OFO)等出行服務(wù)。HBase:Hadoop Database,是一個(gè)高可靠性、高性能、面向列、可伸縮的分布式存儲(chǔ)系 統(tǒng)HBase在出行業(yè)務(wù)上的的主要使用場(chǎng)景在線業(yè)務(wù):服務(wù)于最終用戶,需要實(shí)時(shí)快速地響應(yīng)用戶的操作對(duì)數(shù)據(jù)訪問的延時(shí)非常敏感,訪問趨向隨機(jī)業(yè)務(wù)如派單,動(dòng)調(diào),計(jì)費(fèi),支付,客服等離線業(yè)務(wù):通常是定時(shí)的大批量處理任務(wù),對(duì)一段時(shí)間內(nèi)的數(shù)據(jù)進(jìn)行處理并產(chǎn)出結(jié)果對(duì)任務(wù)完成的時(shí)間要求一般,處理邏輯復(fù)雜業(yè)務(wù)如天報(bào)表,安全分析,用戶行為分析,模型訓(xùn)練等訪問H
2、Base的方式HBase Native APIThrift server (C+, PHP, Go,python) PhoenixPhoenix QueryserverMapReducejobSpark JobStreaming存放在HBase中的主要數(shù)據(jù)數(shù)據(jù)類型:1. 統(tǒng)計(jì)結(jié)果,報(bào)表數(shù)據(jù)運(yùn)營(yíng)情況,運(yùn)力情況,收入等結(jié)果通常配合Phoenix進(jìn)行SQL查詢數(shù)據(jù)量小,查詢靈活性高,延時(shí)要求一般2. 原始事實(shí)類數(shù)據(jù)訂單,司機(jī),乘客等,GPS和日志等主要用作在線和離線數(shù)據(jù)供給數(shù)據(jù)量大,一致性和可用性要求高,延時(shí)要求高,實(shí)時(shí)寫入,單點(diǎn)或者批量查詢3. 生產(chǎn)中間數(shù)據(jù)和結(jié)果數(shù)據(jù)模型訓(xùn)練所需數(shù)據(jù)等數(shù)據(jù)量大,可
3、用性和一致性要求一般,批量查詢對(duì)吞吐要求高4. 線上系統(tǒng)的備份數(shù)據(jù)歷史數(shù)據(jù),查詢頻率不高,延時(shí)要求高場(chǎng)景一:訂單事件需要滿足三個(gè)需求:1. 在線查詢訂單的生命周期的各個(gè)狀態(tài)包括status,event_type,order_detail等信息主要查詢來自客服系統(tǒng)2. 在線歷史訂單詳情查詢同時(shí)由redis來存儲(chǔ)近期的訂單,當(dāng)redis不可用,查詢會(huì)直接落到HBase3. 離線對(duì)訂單的狀態(tài)進(jìn)行分析場(chǎng)景一:訂單事件寫入,滿足每秒10K事件讀取,滿足每秒1K事件時(shí)效性,5s以內(nèi)數(shù)據(jù)可 用場(chǎng)景一:訂單事件1. 訂單狀態(tài)表Rowkey:reverse(order_id) + (MAX_LONG - tim
4、estamp)Columns: 該訂單各種狀態(tài)2. 歷史訂單表Rowkey: reversed(passenger_id | driver_id) + (MAX_LONG - timestamp)Columns: 用戶在時(shí)間范圍內(nèi)的所有訂單場(chǎng)景二:司機(jī)乘客軌跡需求:1. 滿足實(shí)時(shí)或者準(zhǔn)實(shí)時(shí)司機(jī)乘客的軌跡坐標(biāo)查詢2. 滿足離線大規(guī)模的軌跡分析場(chǎng)景:1. 給定ID,查詢其歷史移動(dòng)軌跡2. 給定時(shí)間和空間范圍,查詢符合條件的所有軌跡場(chǎng)景二:司機(jī)乘客軌跡使用坐標(biāo)的業(yè)務(wù):客服系統(tǒng)查詢某客戶的某個(gè)訂單的軌跡可視化系統(tǒng)查詢指定地理范圍的軌跡情況坐標(biāo)半徑距離,坐標(biāo)矩形運(yùn)營(yíng)系統(tǒng)地圖交通分析 質(zhì)量控制場(chǎng)景二:司機(jī)
5、乘客軌跡坐標(biāo)數(shù)據(jù)流水線:出租車軌跡專車軌跡快車軌跡客服可視化運(yùn)營(yíng)地圖HBas estorm場(chǎng)景二:司機(jī)乘客軌跡通過ID查詢軌跡Rowkey: IDTimestampColumn: 軌跡詳細(xì)信息提供java API給用戶使用通過地理范圍查找全部出現(xiàn)的軌跡需要建立空間索引表GeoHash分區(qū)Rowkey: Reversed_geohash + Timestamp + ID提供3種方式訪問小范圍或短時(shí)間數(shù)據(jù):API一次性查詢, 延時(shí)小,成本低中等范圍或中等時(shí)間數(shù)據(jù): 提供iterator/scanner批量查詢結(jié)果,延時(shí)較高,成本低大范圍或者長(zhǎng)時(shí)間數(shù)據(jù):提供Base mapper等離線查詢方法,延時(shí)
6、高,成本高場(chǎng)景三:ETAETA(預(yù)計(jì)到達(dá)時(shí)間)模型實(shí)時(shí)訓(xùn) 練減少訓(xùn)練時(shí)間,準(zhǔn)實(shí)時(shí)生產(chǎn)多城市并行訓(xùn)練增加靈活性減少人工干預(yù)造成的問題場(chǎng)景三:ETAETA流程:1. 原始數(shù)據(jù)匯集2. 清洗過濾3. 特征提取4. 存儲(chǔ)和持久化5. 模型訓(xùn)練KafkaProcessorSpark streamingHBaseModel Trainin gHDF SETA Server訂單司機(jī)軌跡聚合后行程有效性信息特征數(shù)據(jù)分城市,時(shí)間的特征場(chǎng)景三:ETA模型訓(xùn)練通過spark任務(wù),每30分鐘對(duì)各個(gè)城市訓(xùn)練一次模型訓(xùn)練第一個(gè)階段,在5分鐘內(nèi),按照設(shè)定條件從HBase讀取所有城市數(shù) 據(jù) 模型訓(xùn)練第二階段在25分鐘之內(nèi)完成
7、ETA的計(jì)算Rowkey: Salting+CityId+Type0+Type1+Type2+TimestampColumns:Order, FeatureHBase中的數(shù)據(jù)會(huì)每隔一段時(shí)間持久化至HDFS中,供新模型測(cè)試和新特征 提取場(chǎng)景四:監(jiān)控工具Hadoop集群資源監(jiān)控和查詢將hdfs文件的信息和job history定期導(dǎo)入 HBase通過phoenix來做復(fù)雜交互查詢生產(chǎn)各種報(bào)表在前端展示場(chǎng)景四:監(jiān)控工具大量數(shù)據(jù)每日匯聚到HBase,用戶通過phoenix進(jìn)行查 詢CollectorHBasePhoenixWe bfsimag ejobhistor y場(chǎng)景四:監(jiān)控工具該監(jiān)控工具每天將幾
8、億的路徑信息和當(dāng)天執(zhí)行的任務(wù)歷史信息寫入HBaseRowkey: path / jobIdColumns: 多列的相關(guān)信息 用戶通過phoenix用SQL對(duì)數(shù)據(jù)統(tǒng)計(jì) 結(jié)果在秒級(jí)別返回場(chǎng)景四:監(jiān)控工具場(chǎng)景四:監(jiān)控工具場(chǎng)景四:監(jiān)控工具HBase多租戶的挑 戰(zhàn)用戶管理 項(xiàng)目管理 資源隔離性能優(yōu)化 成本控制基礎(chǔ)平臺(tái)管理者和用戶的戰(zhàn)斗用戶方面常見的問題:對(duì)使用資源情況不做分析數(shù)據(jù)量變化后不做調(diào)整項(xiàng)目上下線無計(jì)劃永遠(yuǎn)想要最多的權(quán)限永遠(yuǎn)想要最多的資源平臺(tái)管理者常見的問題:難以理解所有的用戶的業(yè)務(wù)對(duì)項(xiàng)目目前的狀態(tài)不清楚不能判斷用戶的需求是否合理出現(xiàn)問題定位排查時(shí)間長(zhǎng)一個(gè)用戶的問題會(huì)影響其它用戶資源隔離與分配資
9、源共享還是獨(dú)占?資源利用率和服務(wù)質(zhì)量的矛盾 多租戶共享 資源好處:資源利用率高,維護(hù)簡(jiǎn)單壞處:用戶競(jìng)爭(zhēng)資源,難以發(fā)現(xiàn)問題多租戶獨(dú)占資源好處:資源沖突減少,可用性高,細(xì)粒度維護(hù)壞處:業(yè)務(wù)低峰時(shí)段資源浪費(fèi),維護(hù)成本高資源隔離與分配共享與獨(dú)占共存按照業(yè)務(wù)的特性來選擇不同方案 共享資源:對(duì)訪問延時(shí)要求低訪問量小可用性要求低備份或者測(cè)試階段的數(shù)據(jù)獨(dú)占資源:延時(shí),吞吐要求高高峰時(shí)段訪問量大可用性要求高在線業(yè)務(wù)資源分配的方法需求分析用戶需要給出預(yù)估的表大小,訪問方式和吞吐,表的屬性等需要給出均值和最大值,如果可能,給出未來幾個(gè)季度的預(yù)計(jì)增長(zhǎng)情況上線流程開發(fā)集群-測(cè)試集群-線上集群HBase Regionse
10、rver Group分配按照需求和測(cè)試集群的狀況,計(jì)算出所需的regionserver個(gè)數(shù)通常會(huì)在額外給20 -30 的資源定期報(bào)告和賬單每個(gè)月自動(dòng)檢測(cè)資源使用情況計(jì)算開銷發(fā)送給用戶HBaseRegionserver GroupHBASE-6721: RegionServer Group based Assignment通過namespace和RS group兩個(gè)功能對(duì)資源和權(quán)限進(jìn)行隔離用戶的一個(gè)或者多個(gè)table可以分配在指定的regionserver列表中,這個(gè)列表稱為一 個(gè)RS group。一個(gè)HBase集群的計(jì)算資源被邏輯上分成了多個(gè)groups。對(duì)每個(gè)用戶按需分配group。HMas
11、te rRegionserver_0Regionserver_1Regionserver_2Regionserver_3RS Group 1RS Group2Table_0Table_1Table_ 2HBaseRegionserver Group使用RS group可以幫助我們:更容易的權(quán)限分配 (通過綁定group的namespace權(quán) 限)避免多用戶資源爭(zhēng)搶造成的不公平和性能問題可以對(duì)一個(gè)group進(jìn)行單獨(dú)的優(yōu)化,hbase conf, gc等異構(gòu)集群更好管理成本計(jì)算更加容易日常維護(hù)滾動(dòng)升級(jí)可以增量進(jìn)行,而且可以并行化成本控制資源分配考慮的因素:表的總大小讀寫吞吐訪問方式存活時(shí)長(zhǎng)延時(shí)要求資源計(jì)算的方式:用戶預(yù)估測(cè)試環(huán)境評(píng)估線上定期監(jiān)控保證靈活合理地分配資源付費(fèi)服務(wù)服務(wù)不是免費(fèi)的!公司內(nèi)部的一二級(jí)部門都會(huì)定期收到賬單,按照使用的資源付費(fèi)。 付費(fèi)的原因:降低公司的總成本減少平臺(tái)維護(hù)者的不必要工作鼓勵(lì)用戶優(yōu)化業(yè)務(wù),用更少的資源做更多的事各個(gè)部門資源使用情況透明化付費(fèi)服務(wù)計(jì)費(fèi)標(biāo)準(zhǔn):存儲(chǔ)使用計(jì)算使用計(jì)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年特種功能焊接材料合作協(xié)議書
- 2025年P(guān)P改性新材料合作協(xié)議書
- 2025年玻璃纖維仿形織物合作協(xié)議書
- 2025年水質(zhì)監(jiān)測(cè)系統(tǒng)合作協(xié)議書
- 八年級(jí)英語下冊(cè) Unit 3 單元綜合測(cè)試卷(人教版 2025年春)
- 2024-2025學(xué)年河北省石家莊市高新區(qū)四年級(jí)(上)期末數(shù)學(xué)試卷
- 三年級(jí)作文詩歌:乒乓球賽
- 2025年個(gè)體工商戶雇傭合同(2篇)
- 2025年人才培訓(xùn)勞動(dòng)合同樣本(2篇)
- 2025年中學(xué)高三年級(jí)下學(xué)期班級(jí)工作總結(jié)(三篇)
- 2025年初級(jí)社會(huì)工作者綜合能力全國(guó)考試題庫(含答案)
- 小型餐飲店退股協(xié)議書
- 第九講 全面依法治國(guó)PPT習(xí)概論2023優(yōu)化版教學(xué)課件
- 兩淮礦區(qū)地面定向多分支水平井鉆進(jìn)作業(yè)技術(shù)規(guī)程
- vc約起來史上最全180個(gè)知名投資人聯(lián)系方式
- 中國(guó)酒文化英文介紹
- 社會(huì)穩(wěn)定風(fēng)險(xiǎn)評(píng)估報(bào)告風(fēng)險(xiǎn)評(píng)估參考
- GB/T 14343-2008化學(xué)纖維長(zhǎng)絲線密度試驗(yàn)方法
- 制冷操作證培訓(xùn)教材-制冷與空調(diào)設(shè)備運(yùn)行操作作業(yè)培課件
- 市級(jí)臨床重點(diǎn)專科申報(bào)書
- 中交與機(jī)械竣工區(qū)別
評(píng)論
0/150
提交評(píng)論