版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
分布式實時(流)計算框架系統(tǒng)部(SE)--賀先智2014-01-15數(shù)據(jù)分析系統(tǒng)整體架構(gòu)引入實時計算的背景Hadoop的高吞吐,海量數(shù)據(jù)處理的能力使得人們可以方便地處理海量數(shù)據(jù)。但是,Hadoop的缺點也和它的優(yōu)點同樣鮮明-----延遲大,響應(yīng)緩慢,運維復(fù)雜。hadoop主要的使用場景在于離線系統(tǒng),現(xiàn)實生活中,一些場景是不允許那么長時間的延遲時間,都需要實時數(shù)據(jù)展示的,顯而易見,hadoop是無法滿足這種場景下的要求的。Storm是實時計算(流)計算的典型代表,2011年,Twitter開源了Storm,為上述問題提供了良好的解決方案。Storm關(guān)注的是數(shù)據(jù)多次處理一次寫入,而hadoop關(guān)注的是數(shù)據(jù)一次寫入,多次處理使用(查詢)。Storm系統(tǒng)運行起來后是持續(xù)不斷的,而hadoop往往只是在業(yè)務(wù)需要時調(diào)用數(shù)據(jù)。
兩者關(guān)注及應(yīng)用的方向不一樣。Storm架構(gòu)及組件Topology:storm中運行的一個實時應(yīng)用程序.Nimbus:負責資源分配和任務(wù)調(diào)度.Supervisor:負責接受nimbus分配的任務(wù),啟動和停止屬于自己管理的worker進程.Worker:運行具體處理組件邏輯的進程.Task:worker中每一個spout/bolt的線程稱為一個task.Spout:在一個topology中產(chǎn)生源數(shù)據(jù)流的組件.Bolt:在一個topology中接受數(shù)據(jù)然后執(zhí)行處理的組件.Tuple:一次消息傳遞的基本單元.Streamgrouping:消息的分組方法Storm和Hadoop角色對比Storm和Hadoop角色對比Storm集群和Hadoop集群表面上看很類似。但是Hadoop上運行的是MapReducejobs,而在Storm上運行的是拓撲(topology),這兩者之間是非常不一樣的。一個關(guān)鍵的區(qū)別是:一個MapReducejob最終會結(jié)束,而一個topology永遠會運行(除非你手動kill掉)。在Storm的集群里面有兩種節(jié)點:控制節(jié)點(masternode)和工作節(jié)點(workernode)??刂乒?jié)點上面運行一個叫Nimbus后臺程序,它的作用類似Hadoop里面的JobTracker。Nimbus負責在集群里面分發(fā)代碼,分配計算任務(wù)給機器,并且監(jiān)控狀態(tài)。每一個工作節(jié)點上面運行一個叫做Supervisor的節(jié)點。Supervisor會監(jiān)聽分配給它那臺機器的工作,根據(jù)需要啟動/關(guān)閉工作進程。每一個工作進程執(zhí)行一個topology的一個子集;一個運行的topology由運行在很多機器上的很多工作進程組成。Storm實時計算系統(tǒng)架構(gòu)整個數(shù)據(jù)處理流程包括四部分:第一部分是數(shù)據(jù)接入層,該部分從前端業(yè)務(wù)系統(tǒng)獲取數(shù)據(jù);第二部分是最重要的storm實時處理部分,數(shù)據(jù)從接入層接入,經(jīng)過實時處理后傳入數(shù)據(jù)落地層;第三部分為數(shù)據(jù)落地層,該部分指定了數(shù)據(jù)的落地方式;第四部分元數(shù)據(jù)管理器。RDMSStorm實時計算業(yè)務(wù)接口將用戶的業(yè)務(wù)層需求轉(zhuǎn)換為實時處理的具體模式。例如模仿Hive提供一個類Sql的業(yè)務(wù)接口,我們將一類數(shù)據(jù)在元數(shù)據(jù)管理器中描述是一個表,不同字段是表中不同字段select----固定數(shù)據(jù)查詢(異?;蛘吲K數(shù)據(jù)處理),max/min/avg----最大最小值count/sum----求和或次數(shù)統(tǒng)計(比如pv等)count(distinct)----去重計數(shù)(典型的如UV)orderby----排序(取近訪問的用戶)groupby----聚類函數(shù)orderby----聚類后排序(如訪問次數(shù)最多的topN商品)這只是簡單類比,我們可以將實時處理的業(yè)務(wù)需求轉(zhuǎn)化為Sql相關(guān)語句,上層執(zhí)行類Sql語句,底層將其翻譯成具體Topology組成及節(jié)點參數(shù)等。Storm實時計算具體業(yè)務(wù)需求(1)條件過濾這是Storm最基本的處理方式,對符合條件的數(shù)據(jù)進行實時過濾,將符合條件的數(shù)據(jù)保存下來,這種實時查詢的業(yè)務(wù)需求在實際應(yīng)用中是很常見的。(2)中間計算我們需要改變數(shù)據(jù)中某一個字段(例如是數(shù)值),我們需要利用一個中間值經(jīng)過計算(值比較、求和、求平均等等)后改變該值,然后將數(shù)據(jù)重新輸出。(3)求TopN相信大家對TopN類的業(yè)務(wù)需求也是比較熟悉的,在規(guī)定時間窗口內(nèi),統(tǒng)計數(shù)據(jù)出現(xiàn)的TopN,該類處理在購物及電商業(yè)務(wù)需求中,比較常見。(4)推薦系統(tǒng)正如我架構(gòu)圖中畫的那樣,有時候在實時處理時會從mysql及hadoop中獲取數(shù)據(jù)庫中的信息,例如在電影推薦系統(tǒng)中,傳入數(shù)據(jù)為用戶當前點播電影信息,從數(shù)據(jù)庫中獲取的是該用戶之前的一些點播電影信息統(tǒng)計,例如點播最多的電影類型、最近點播的電影類型,及其社交關(guān)系中點播信息,結(jié)合本次點擊及從數(shù)據(jù)庫中獲取的信息,生成一條推薦數(shù)據(jù),推薦給該用戶。并且該次點擊記錄將會更新其數(shù)據(jù)庫中的參考信息,這樣就是實現(xiàn)了簡單的智能推薦。Storm實時計算具體業(yè)務(wù)需求(5)分布式RPCStorm有對RPC進行專門的設(shè)計,分布式RPC用于對Storm上大量的函數(shù)調(diào)用進行并行計算,最后將結(jié)果返回給客戶端。(這部分我也不是很懂)(6)批處理所謂批處理就是數(shù)據(jù)攢積到一定觸發(fā)條件,就批量輸出,所謂的觸發(fā)條件類似時間窗口到了,統(tǒng)計數(shù)量夠了及檢測到某種數(shù)據(jù)傳入等等。(7)熱度統(tǒng)計熱度統(tǒng)計實現(xiàn)依賴于TimeCacheMap數(shù)據(jù)結(jié)構(gòu),該結(jié)構(gòu)能夠在內(nèi)存中保存近期活躍的對象。我們可以使用它來實現(xiàn)例如論壇中的熱帖排行計算等。Storm只是實時計算的解決方案之一,后面我們介紹一款與實時計算相關(guān)的產(chǎn)品,并且NotOnly實時計算,那就是MediationZone。MediationZone系統(tǒng)架構(gòu)配置層包括每個服務(wù)供應(yīng)商的具體要求相關(guān)的所有配置。應(yīng)用層提供的所有功能,可用于工作流配置。這包括關(guān)閉的,現(xiàn)成的代理商,以及自定義應(yīng)用程序和使用的開發(fā)工具包開發(fā)的插件??刂茀^(qū)包含所有的核心服務(wù),為工作流提供運行時環(huán)境。開發(fā)工具包,包括一套標準化的API,可用于擴展平臺。MZ100%在Java下環(huán)境下開發(fā)和Java運行時環(huán)境的要求。MZ可以部署在兩個數(shù)據(jù)庫架構(gòu),Oracle標準版或嵌入式替代。MZ可以部署在廣泛的硬件平臺和操作系統(tǒng),從高端服務(wù)器架構(gòu)到一般商品硬件。MediationZone--集中控制,分布執(zhí)行MZ采用集中控制邏輯和分布式執(zhí)行,這樣可以解決垂直(硬件插槽有限)和水平架構(gòu)(數(shù)據(jù)一致性)的兩個主要問題領(lǐng)域所帶來的問題。MediationZone--實時在線,主/備部署當用戶協(xié)議支持失效備援時,可以一起部署平均恢復(fù)時間和客戶設(shè)備失效備援時間一致對用戶體驗的影響取決于傳輸層的處理能力MediationZone--集中控制,分布執(zhí)行通過負載均衡網(wǎng)絡(luò)硬件,或者大數(shù)據(jù)采集清分平臺的代理工作流方式實現(xiàn)負載均衡MediationZone—批處理工作流MZ工作流有三種不同的類型:批處理工作流程,實時工作流程,任務(wù)工作流程。批處理工作流程是用來收集處理和分發(fā)基于文件的數(shù)據(jù),也被稱為離線模式。這些工作流程可配置為多線程執(zhí)行先進先出的處理順序和嚴格的交易邊界基于每個批處理MediationZone—實時工作流實時工作流使請求/回答與其他系統(tǒng)的在線處理。這些工作流程,能獨立執(zhí)行路徑,同時利用多線程執(zhí)行模型大量的執(zhí)行。MediationZone—任務(wù)工作流任務(wù)工作流用來執(zhí)行一般的活動,如清理(ETL)或維護任務(wù)。一些系統(tǒng)的任務(wù)是預(yù)先在MZ中,可補充任何用戶定義的活動。shell腳本和SQL腳本可以通過工作流執(zhí)行計劃和任務(wù)。MediationZone—工作流開發(fā)管理工作流開發(fā)簡單快捷,采用手工拖拽設(shè)計流程,二次開發(fā)基于JAVA、SQL、Shell等環(huán)境。支持全流程的工作流管理、監(jiān)控及維護。同時支持工作流分組管理,根據(jù)時間模型設(shè)計出多個協(xié)同高效工種的工種流組。MZ案例介01—KPI計算從海量基站文件中,找出覆蓋高鐵的所有基站只對“高鐵小區(qū)”的記錄進行處理,按照省、市、小區(qū)id的方式進行匯總匯總完畢后計算KPI現(xiàn)有解決辦法,各省分別處理,然后將結(jié)果傳到總部再進行處理使用MZ之后,直接放到總部進行處理,效率提高非常大MZ案例介02—GN平臺采集從2個GN平臺采集Gn原始數(shù)據(jù),將原始數(shù)據(jù)的文檔合并,上限為50個文檔。每個文檔的大小約為200MB,合并后的文檔上限為10GB。合并后的文檔上傳至HDFS平臺。上傳的HDFS目錄分別是/tmp/gn/1和/tmp/gn/2,再根據(jù)上傳的時間點建立新的目錄.用戶利用MZ采集到HDFS上的數(shù)據(jù)庫進行準實時數(shù)據(jù)分析MZ案例介03—統(tǒng)計邊界漫游小區(qū)用戶需求:從大量的話單記錄中,統(tǒng)計出在邊界漫游小區(qū)使用的IMSI,為決策分析提供依據(jù)。數(shù)據(jù)量:每月處理一次,每次21億條記錄(7000萬/天*30天)處理速度要求:每月10之前完成處理,對機器負載要求不能太高,處理時間可以長一點。硬件配置:SunE4900,CPU:8核,內(nèi)存:32G每月1日,操作員手工將字典表數(shù)據(jù)以csv格式導(dǎo)出,存放在IF1指定的目錄中;每月1日,操作員手工將原始數(shù)據(jù)從informix數(shù)據(jù)庫中以csv格式導(dǎo)出,存放在IF1接口指定的目錄中;每月2日,工作流1自動啟動,將字典表數(shù)據(jù)插入到一個臨時的Oracle數(shù)據(jù)庫中。然后再將Oracle數(shù)據(jù)庫讀入到內(nèi)存,生成一個內(nèi)存數(shù)據(jù)庫。同時將字典表原始數(shù)據(jù)保存在磁盤上(IF4接口);工作流1完成之后,工作流流2自動啟動,讀取原始輸入數(shù)據(jù),從內(nèi)存數(shù)據(jù)庫中查詢,最后生成結(jié)果;最后結(jié)果從存放在IF3指定的目錄中,同時原始數(shù)據(jù)將通過IF4壓縮保存在磁盤上;字典表數(shù)據(jù)和原始輸入數(shù)據(jù)壓縮并按照時間操作員手工將其導(dǎo)入正式的informix數(shù)據(jù)庫(注:定期刪除IF4接口指定文件夾下的備份文件)MZ案例介04—GPRS數(shù)據(jù)采集、匯總分析用戶需求MZ案例介04—GPRS數(shù)據(jù)處理MZ環(huán)境MZ案例介04—GPRS數(shù)據(jù)處理GPRS文件解析劃分流程每秒處理的數(shù)據(jù)量MZ案例介04—GPRS數(shù)據(jù)處理GPRS和IMEI數(shù)據(jù)關(guān)聯(lián)匯總處理流程每秒處理的數(shù)據(jù)量MZ案例介04—GPRS數(shù)據(jù)處理MediationZone處理解析增加並發(fā)流程可提高數(shù)據(jù)處理性能GPRS文檔解析可達至每秒處理大約16萬條數(shù)據(jù)的性能GPRS和IMEI數(shù)據(jù)關(guān)聯(lián),匯總處理可達至每秒處理大約7千條數(shù)據(jù)的性能無需高性能硬件(eg.IBMx3755M3),普通硬件也可達到高性能GPRS文檔解析GPRS和IMEI數(shù)據(jù)關(guān)聯(lián),匯總處理VMware-1路4核-
16GB每小時處理5.7億數(shù)據(jù)每小時處理2520萬數(shù)據(jù)IBMx3755M3-2.1GHz4路12核-
128GB每小時處理19億數(shù)據(jù)每小時處理3600萬數(shù)據(jù)MZ案例介04—GPRS數(shù)據(jù)處理MZ案例介04—GPRS數(shù)據(jù)處理MZ案例介04—GPRS數(shù)據(jù)處理MZ案例介04—GPRS數(shù)據(jù)處理負荷解析使用4核CPU,每個CPU的負荷量大致平均3個Java處理進程+1個Java核心進程共耗內(nèi)存13GB(虛擬機Vmware內(nèi)存為16GB)GPRS文檔解析處理的主要負荷在CPUGPRS和IMEI數(shù)據(jù)關(guān)聯(lián),匯總處理主要負荷在內(nèi)存MZ其他案例介MiddleEastAfricaEuropeAsiaPacificAmericasMZ與Storm的比較MZ為商業(yè)產(chǎn)品(需要購買)而后者為開源產(chǎn)品(完全免費)我們不能對MZ自身產(chǎn)品進行bug修復(fù)及新功能的開發(fā),只能由原廠商進行;而Storm可以根據(jù)自身需要進行進行bug修復(fù)及新功能的開發(fā)。MZ集成電信設(shè)備廠商協(xié)議(支持InterfacedElementName—接口元素371種)和數(shù)據(jù)庫標準,Storm需要進行單獨開發(fā)。MZ為商業(yè)化成熟產(chǎn)品,在很多大公司都有集成應(yīng)用,包括(IBM、SAP、諾西等);而Storm為開源產(chǎn)品,互聯(lián)網(wǎng)公司(Twitter、淘寶(自己開發(fā)的Jstorm))在使用,但電信級應(yīng)用還不夠廣泛。MZ提供商業(yè)化產(chǎn)品的服務(wù)體系,Storm需要自身建立強大的技術(shù)隊伍進行應(yīng)用開發(fā)、性能優(yōu)化、技術(shù)維護、技術(shù)整合。MZ穩(wěn)定性取決于產(chǎn)品的成熟度,MZ發(fā)展到現(xiàn)在10多年了,有著廣泛的電信級應(yīng)用;而Sto
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 油氣儲運安全課程設(shè)計
- 2025年度電力行業(yè)運維人員派遣合同樣本2篇
- 二零二五年度導(dǎo)購員服務(wù)質(zhì)量監(jiān)控與提升合同3篇
- 2025年度知識產(chǎn)權(quán)質(zhì)押合同標的與質(zhì)押物描述3篇
- 2025年度藥品銷售工作總結(jié)(2篇)
- 幼兒園后勤園長崗位職責模版(2篇)
- 蛙泳動作插畫課程設(shè)計
- 中學(xué)督導(dǎo)自評制度模版(2篇)
- 研學(xué)旅行行前課程設(shè)計
- 系統(tǒng)uml課程設(shè)計
- 教師幽默朗誦節(jié)目《我愛上班》
- 《細胞工程學(xué)》考試復(fù)習題庫(帶答案)
- 中學(xué)課堂教學(xué)評價量表
- 食堂食材配送以及售后服務(wù)方案
- 稱量與天平培訓(xùn)試題及答案
- 塊單項活動教學(xué)材料教案丹霞地貌
- 超全的超濾與納濾概述、基本理論和應(yīng)用
- 青年人應(yīng)該如何樹立正確的人生觀
- 開封辦公樓頂發(fā)光字制作預(yù)算單
- 安全生產(chǎn)標準化管理工作流程圖
- 德龍自卸車合格證掃描件(原圖)
評論
0/150
提交評論