版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、2015年技術(shù)專長(zhǎng)培養(yǎng)大數(shù)據(jù)架構(gòu)專業(yè)一種基于大數(shù)據(jù)平臺(tái)的移動(dòng)通信信令系統(tǒng)謝識(shí)常目錄摘要21.背景22.系統(tǒng)框架33.系統(tǒng)關(guān)鍵模塊33.1 系統(tǒng)采集、解析、存儲(chǔ)方式43.2 數(shù)據(jù)的建模設(shè)計(jì)54數(shù)據(jù)處理中的關(guān)鍵技術(shù)64.1 Hadoop基礎(chǔ)64.2 基礎(chǔ)數(shù)據(jù)采用Hbase數(shù)據(jù)庫(kù)存儲(chǔ)74.3 匯總KPI數(shù)據(jù)使用Hive構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)84.4 上層應(yīng)用查詢考慮Impala數(shù)據(jù)查詢工具94.5 Spark計(jì)算框架的引入114.6 硬件架構(gòu)參考135.結(jié)論156.鳴謝15摘要 信令系統(tǒng)是運(yùn)營(yíng)商日常運(yùn)維的重要支撐手段?,F(xiàn)階段數(shù)據(jù)業(yè)務(wù)急劇增長(zhǎng),基于傳統(tǒng)數(shù)據(jù)庫(kù)的信令平臺(tái)對(duì)信令數(shù)據(jù)的處理越來越困難。本文探討一種基于
2、大數(shù)據(jù)平臺(tái)的移動(dòng)通信信令系統(tǒng)。先給出系統(tǒng)的主要框架,論述數(shù)據(jù)處理的流程,已經(jīng)討論系統(tǒng)涉及的關(guān)鍵大數(shù)據(jù)技術(shù),最后給出一個(gè)硬件的配置參考樣例。1.背景2012年廣州在全國(guó)率先建設(shè)TD-LTE試驗(yàn)網(wǎng)絡(luò),2014年廣州4G網(wǎng)絡(luò)正式商用。現(xiàn)階段數(shù)據(jù)業(yè)務(wù)需求猛增、流量急速增漲。移動(dòng)需要四網(wǎng)協(xié)同(WLAN、LTE、3G、2G),做到集中管理、實(shí)時(shí)維護(hù)網(wǎng)絡(luò)存在的問題,及時(shí)處理網(wǎng)絡(luò)故障。信令是網(wǎng)絡(luò)交流的語言,網(wǎng)絡(luò)的管理與優(yōu)化需要完善的信令系統(tǒng)的支撐。隨著用戶、業(yè)務(wù)、信令數(shù)據(jù)的急劇膨脹,基于傳統(tǒng)數(shù)據(jù)庫(kù)的信令系統(tǒng)已經(jīng)很難滿足網(wǎng)絡(luò)運(yùn)維優(yōu)化的實(shí)時(shí)、存儲(chǔ)及分析要求。例如,2015年廣州本地信令系統(tǒng)對(duì)于4G KPI指標(biāo)只能
3、做到15分鐘粒度的統(tǒng)計(jì),現(xiàn)在客戶感知越來越敏感,5分鐘內(nèi)的指標(biāo)監(jiān)控能提高網(wǎng)絡(luò)運(yùn)維側(cè)響應(yīng)網(wǎng)絡(luò)故障與隱患的主動(dòng)性;此外,隨著信令數(shù)據(jù)膨脹,傳統(tǒng)數(shù)據(jù)庫(kù)不能做到線性增加,數(shù)據(jù)庫(kù)分表、分庫(kù)操作復(fù)雜,存儲(chǔ)效率低,廣州本地信令系統(tǒng)由于數(shù)據(jù)庫(kù)調(diào)整造成不可用的時(shí)間越來越長(zhǎng);另外,在網(wǎng)絡(luò)數(shù)據(jù)的價(jià)值挖取當(dāng)中也缺乏靈活手段,目前只能按幾種固定的時(shí)空、網(wǎng)元、目的IP等維度的統(tǒng)計(jì)。大數(shù)據(jù)技術(shù)的日益成熟,在通信領(lǐng)域運(yùn)用越來越廣。更多運(yùn)營(yíng)商開始部署基于大數(shù)據(jù)平臺(tái)的信令系統(tǒng)?;诖髷?shù)據(jù)解決方案的信令系統(tǒng)就是在這樣的背景下,專門為規(guī)劃、運(yùn)維、優(yōu)化等部門員工提供所需的支撐數(shù)據(jù),提供解決方案的綜合分析優(yōu)化平臺(tái)。對(duì)于移動(dòng)信令分析,大數(shù)
4、據(jù)首先是面臨著越來越多的海量數(shù)據(jù)挑戰(zhàn);其次,要通過合適的分析處理,從大量數(shù)據(jù)中分析出工程人員需要的數(shù)據(jù),區(qū)分出重點(diǎn)數(shù)據(jù)及非重點(diǎn)數(shù)據(jù),分辨出哪些數(shù)據(jù)是實(shí)時(shí)需要的,哪些數(shù)據(jù)是需要存儲(chǔ),為以后工程人員查詢所需要的,并形成實(shí)時(shí)網(wǎng)絡(luò)性能管理、故障性能告警、客戶感知預(yù)警、客戶投訴處理、市場(chǎng)營(yíng)銷支撐等應(yīng)用功能及數(shù)據(jù)模塊。本文探討一種基于大數(shù)據(jù)平臺(tái)的移動(dòng)信令系統(tǒng)。2.系統(tǒng)框架信令系統(tǒng)通常采取分層結(jié)構(gòu)設(shè)計(jì),應(yīng)用功能松耦合設(shè)計(jì),具有優(yōu)點(diǎn)是縮短應(yīng)用上線周期,降低開發(fā)成本。從下往上分為:采集層、存儲(chǔ)計(jì)算層、接口層以及應(yīng)用層。(1)采集層:在移動(dòng)核心網(wǎng)的主要網(wǎng)絡(luò)接口部署分光設(shè)備,分光器出來的原始信令為原始碼流,經(jīng)由匯聚
5、分流設(shè)備后,解析生產(chǎn)原始話單xDR;xDR再經(jīng)過清洗、抽取、轉(zhuǎn)換操作后入庫(kù)。采集層可不斷擴(kuò)展,獲取更多的數(shù)據(jù)源。(2)存儲(chǔ)與計(jì)算層:是整個(gè)系統(tǒng)的核心部分,主要解決數(shù)據(jù)的實(shí)時(shí)計(jì)算、以及xDR話單的長(zhǎng)期存儲(chǔ)、預(yù)統(tǒng)(輕度匯總數(shù)據(jù))的生成與存儲(chǔ),其他數(shù)據(jù)的存儲(chǔ),并通過共享模塊,實(shí)現(xiàn)數(shù)據(jù)共享 。(3)應(yīng)用層:可通過多種接口方式,實(shí)現(xiàn)與共享層的數(shù)據(jù)交互 。圖2.1 信令系統(tǒng)分層框架3.系統(tǒng)關(guān)鍵模塊應(yīng)對(duì)海量數(shù)據(jù)的高效處理、存儲(chǔ),多種類型數(shù)據(jù)的處理 圖3.1 數(shù)據(jù)處理流程3.1 系統(tǒng)采集、解析、存儲(chǔ)方式1、數(shù)據(jù)采集與解析原始信令由專門的采集解析服務(wù)器對(duì)原始信令數(shù)據(jù)進(jìn)行采集解析;目前廣東采取統(tǒng)一的采取匯聚平臺(tái)。
6、篩選后的原始信令保存在采集機(jī)本地存儲(chǔ),建立信令索引,提供信令回放、信令流程查詢。解析后的信令形成XDR,送給信令匯總模塊進(jìn)行關(guān)聯(lián)回填和各種維度的KPI預(yù)統(tǒng)計(jì)。關(guān)聯(lián)回填后的XDR數(shù)據(jù)以及單用戶單業(yè)務(wù)記錄發(fā)送到Hadoop集群存儲(chǔ),利用Hadoop并行列存儲(chǔ)的特性,容易實(shí)現(xiàn)線性擴(kuò)容。2、數(shù)據(jù)存儲(chǔ)數(shù)據(jù)加載集群,可實(shí)現(xiàn)xDR等文件的臨時(shí)緩存。對(duì)不同數(shù)據(jù)采取不同存儲(chǔ)方式:XDR話單文件,則使用Hbase數(shù)據(jù)庫(kù)+HDFS方式存儲(chǔ)(當(dāng)前存兩周) ;匯總數(shù)據(jù),采用MPP數(shù)據(jù)庫(kù)長(zhǎng)期存儲(chǔ),使用的是Hive/Impala+HDFS 。3、數(shù)據(jù)裝載共享平臺(tái)前置加載集群,用于接收獲取統(tǒng)一采集平臺(tái)等上傳XDR話單文件;通
7、過加載集群,向處理集群提供緩存的原始數(shù)據(jù),可用于數(shù)據(jù)恢復(fù)、庫(kù)外預(yù)統(tǒng);通過加載集群,提供應(yīng)用層和統(tǒng)一采集平臺(tái)之間的通道,提供第三方數(shù)據(jù)接口(簡(jiǎn)單處理或透?jìng)鹘o應(yīng)用層)。 4、數(shù)據(jù)處理數(shù)據(jù)匯總,按照多種維度進(jìn)行數(shù)據(jù)匯總提高查詢速度,減少存儲(chǔ)空間 。數(shù)據(jù)關(guān)聯(lián)處理,多張數(shù)據(jù)表,多種xDR類型進(jìn)行聯(lián)合處理,形成OLAP分析結(jié)果 數(shù)據(jù)聚合處理,按全省對(duì)各個(gè)地市進(jìn)行聚合等,通過聚合處理,形成OLAP分析結(jié)果。數(shù)據(jù)計(jì)算,進(jìn)行各種維度的KPI指標(biāo)計(jì)算。在處理流程上,可以理解為,我們采用庫(kù)內(nèi),以及庫(kù)外兩種處理方式。3.2 數(shù)據(jù)的建模設(shè)計(jì) 為了滿足多樣的應(yīng)用層數(shù)據(jù)需求,需要對(duì)數(shù)據(jù)建模:多租戶模式,為不同權(quán)限的用戶提供
8、其所擁有訪問權(quán)限的數(shù)據(jù) 。每種應(yīng)用都會(huì)對(duì)其抽象為一個(gè)數(shù)據(jù)模型,系統(tǒng)根據(jù)數(shù)據(jù)模型,生成相關(guān)的應(yīng)用實(shí)現(xiàn)。大型信令平臺(tái)通常在一個(gè)省集中部署,須考慮多租戶模式。多租戶模式容易出現(xiàn)數(shù)據(jù)和集群資源管理混亂的情況,可考慮建立統(tǒng)一調(diào)度平臺(tái),實(shí)現(xiàn)數(shù)據(jù)統(tǒng)一化管理,任務(wù)合理調(diào)度,集群資源按需分配。多租戶模式下,數(shù)據(jù)的安全性是重要問題,集群需要將不同用戶的數(shù)據(jù)統(tǒng)一管理運(yùn)維,對(duì)不同用戶的數(shù)據(jù)進(jìn)行權(quán)限隔離。用戶通常是Hadoop集群的省公司內(nèi)不同部門或者不同地市公司 。Hadoop可以對(duì)不同文件目錄給不同用戶賦予不同權(quán)限,實(shí)現(xiàn)數(shù)據(jù)統(tǒng)一管理。通常可以建立三級(jí)目錄:第一級(jí)為用戶級(jí),不同用戶擁有自己的私用目錄,每個(gè)用戶不能訪問
9、其他用戶,同時(shí)設(shè)置公共目錄,集群用戶可訪問公共目錄。第二級(jí)根據(jù)數(shù)據(jù)類型劃分,第三級(jí)跟進(jìn)時(shí)間劃分,對(duì)數(shù)據(jù)規(guī)范存放。數(shù)據(jù)建模體系可以大概按以下分層:1) 數(shù)據(jù)裝載層:緩存明細(xì)數(shù)據(jù),網(wǎng)管數(shù)據(jù),根據(jù)源系統(tǒng)的數(shù)據(jù)模型進(jìn)行建模; 2) 基礎(chǔ)數(shù)據(jù)層:存儲(chǔ)經(jīng)過處理的明細(xì)數(shù)據(jù) 3) 數(shù)據(jù)倉(cāng)庫(kù)層:存儲(chǔ)基礎(chǔ)數(shù)據(jù)層的匯總數(shù)據(jù),根據(jù)數(shù)據(jù)倉(cāng)庫(kù)的維度建模 4) 數(shù)據(jù)集市層:面向主題分析的匯總數(shù)據(jù),面向應(yīng)用建模 采用分層、分功能建模 1) 原始數(shù)據(jù)建模使用分布式文件的存儲(chǔ)和設(shè)計(jì)方法 2) 基礎(chǔ)數(shù)據(jù)和明細(xì)應(yīng)用數(shù)據(jù)建模使用Hbase的建模方法 3) 不同維度匯總數(shù)據(jù)和計(jì)算結(jié)果使用Hive/Impala的建模方法 圖3.2 數(shù)據(jù)處
10、理模塊4數(shù)據(jù)處理中的關(guān)鍵技術(shù)本小結(jié)介紹信令系統(tǒng)中應(yīng)用的關(guān)鍵技術(shù),包括:Hadoop基礎(chǔ)、Hbase、Hive、Impala、Spark。4.1 Hadoop基礎(chǔ)Hadoop就是一個(gè)實(shí)現(xiàn)了Google云計(jì)算系統(tǒng)的開源系統(tǒng),包括并行計(jì)算模型Map/Reduce,分布式文件系統(tǒng)HDFS,以及分布式數(shù)據(jù)庫(kù)Hbase。1、HDFSHadoop Distributed File System,簡(jiǎn)稱HDFS,是一個(gè)分布式文件系統(tǒng)。 HDFS是高容錯(cuò)性的,可以部署在低成本的硬件之上,HDFS提供高吞吐量地對(duì)應(yīng)用程序數(shù)據(jù)訪問,它適合大數(shù)據(jù)集的應(yīng)用程序。MapReduce是hadoop的核心組件之一,hadoop
11、要分布式包括兩部分,一是分布式文件系統(tǒng)hdfs,一部是分布式計(jì)算框,就是mapreduce,缺一不可,也就是說,可以通過mapreduce很容易在hadoop平臺(tái)上進(jìn)行分布式的計(jì)算編程。Mapreduce是一種編程模型,是一種編程方法,抽象理論。核心包括map函數(shù)和reduce函數(shù),map函數(shù)和reduce函數(shù)是交給用戶實(shí)現(xiàn)的,這兩個(gè)函數(shù)定義了任務(wù)本身。 map函數(shù):接受一個(gè)鍵值對(duì)(key-value pair),產(chǎn)生一組中間鍵值對(duì)。MapReduce框架會(huì)將map函數(shù)產(chǎn)生的中間鍵值對(duì)里鍵相同的值傳遞給一個(gè)reduce函數(shù)。 reduce函數(shù):接受一個(gè)鍵,以及相關(guān)的一組值,
12、將這組值進(jìn)行合并產(chǎn)生一組規(guī)模更小的值(通常只有一個(gè)或零個(gè)值)。 4.2 基礎(chǔ)數(shù)據(jù)采用Hbase數(shù)據(jù)庫(kù)存儲(chǔ) 移動(dòng)信令中的xDR明細(xì)數(shù)據(jù)存入Hbase列式數(shù)據(jù)庫(kù)。Hbase是運(yùn)行在Hadoop上的NoSQL數(shù)據(jù)庫(kù),它是一個(gè)分布式的和可擴(kuò)展的大數(shù)據(jù)倉(cāng)庫(kù),也就是說HBase能夠利用HDFS的分布式處理模式,并從Hadoop的MapReduce程序模型中獲益。這意味著在一組商業(yè)硬件上存儲(chǔ)許多具有數(shù)十億行和上百萬列的大表。除去Hadoop的優(yōu)勢(shì),HBase本身就是十分強(qiáng)大的數(shù)據(jù)庫(kù),它能夠融合key/value存儲(chǔ)模式帶來實(shí)時(shí)查詢的能力,以及通過MapReduce進(jìn)行離線處理或者批處理的能力??偟?/p>
13、來說,Hbase能夠讓你在大量的數(shù)據(jù)中查詢記錄,也可以從中獲得綜合分析報(bào)告。 圖4.1 Hbase存儲(chǔ)示意圖HBase不是一個(gè)關(guān)系型數(shù)據(jù)庫(kù),它需要不同的方法定義你的數(shù)據(jù)模型,HBase實(shí)際上定義了一個(gè)四維數(shù)據(jù)模型,下面就是每一維度的定義:· 行鍵:每行都有唯一的行鍵,行鍵沒有數(shù)據(jù)類型,它內(nèi)部被認(rèn)為是一個(gè)字節(jié)數(shù)組。· 列簇:數(shù)據(jù)在行中被組織成列簇,每行有相同的列簇,但是在行之間,相同的列簇不需要有相同的列修飾符。在引擎中,HBase將列簇存儲(chǔ)在它自己的數(shù)據(jù)文件中,所以,它們需要事先被定義,此外,改變列簇并不容易。· 列修飾符:列簇定義真實(shí)的列,被稱之為列修飾符,你可
14、以認(rèn)為列修飾符就是列本身。· 版本:每列都可以有一個(gè)可配置的版本數(shù)量,你可以通過列修飾符的制定版本獲取數(shù)據(jù)。4.3 匯總KPI數(shù)據(jù)使用Hive構(gòu)建數(shù)據(jù)倉(cāng)庫(kù) Hive是建立在 Hadoop 上的數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)構(gòu)架 。Hive 的查詢是通過 MapReduce 框架實(shí)現(xiàn)的,是為實(shí)現(xiàn)針對(duì)海量數(shù)據(jù)的高性能處理而設(shè)計(jì)的。Hive 定義了簡(jiǎn)單的類 SQL 查詢語言,稱為 HQL,它允許熟悉 SQL 的用戶查詢數(shù)據(jù),可以進(jìn)行復(fù)雜的查詢。另外,HiveQL可以運(yùn)用任何語言自定義mapper和reducer腳本,具有極大的可擴(kuò)展性,實(shí)現(xiàn)非常復(fù)雜的查詢。Hive采用HDFS進(jìn)行數(shù)據(jù)存儲(chǔ)并利用MapRedu
15、ce框架進(jìn)行數(shù)據(jù)操作;所以從本質(zhì)上來說,Hive就是個(gè)編譯器,它把用戶的操作(查詢或者 ETL)變換成 M/R任務(wù),利用M/R 框架執(zhí)行這些任務(wù)對(duì)HDFS 上的海量數(shù)據(jù)進(jìn)行處理。 Hive被設(shè)計(jì)成一種批處理系統(tǒng)。它利用MapReduce框架來處理數(shù)據(jù)。因此,它在MapReduce任務(wù)提交和調(diào)度上有比較高的開銷。圖4.2 Hive技術(shù)框架Hive和傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)有很大的區(qū)別,Hive將外部的任務(wù)解析成一個(gè)MapReduce可執(zhí)行計(jì)劃,而啟動(dòng)MapReduce是一個(gè)高延遲的一件事,每次提交任務(wù)和執(zhí)行任務(wù)都需要消耗很多時(shí)間,這也就決定Hive只能處理一些高延遲的應(yīng)用(如果你想處理低延
16、遲的應(yīng)用,你可以去考慮一下Hbase)。同時(shí),由于設(shè)計(jì)的目標(biāo)不一樣,Hive目前還不支持事務(wù);不能對(duì)表數(shù)據(jù)進(jìn)行修改(不能更新、刪除、插入;只能通過文件追加數(shù)據(jù)、重新導(dǎo)入數(shù)據(jù));不能對(duì)列建立索引。4.4 上層應(yīng)用查詢考慮Impala數(shù)據(jù)查詢工具 為提高查詢效率,上層考慮應(yīng)用Impala。Impala用來進(jìn)行大數(shù)據(jù)實(shí)時(shí)查詢分析的開源工具 。采取SQL風(fēng)格來操作大數(shù)據(jù),數(shù)據(jù)存儲(chǔ)到HDFS(可Hbase) 。Impala 與Hive都是構(gòu)建在Hadoop之上,Hive適合于長(zhǎng)時(shí)間的批處理查詢分析,而Impala適合于實(shí)時(shí)交互式SQL查詢。圖4.3 Impala技術(shù)框架圖4.4 Impala部署在HBa
17、se之上使用Impala來實(shí)現(xiàn)SQL on Hadoop,實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的實(shí)時(shí)查詢分析。Impala使用Hive Metastore來存儲(chǔ)一些元數(shù)據(jù),為Impala所使用 。Impala會(huì)在HDFS集群的Datanode上啟動(dòng)進(jìn)程,協(xié)調(diào)位于集群上的多個(gè)Impala進(jìn)程(impalad),以及執(zhí)行查詢 。HBase和HDFS存儲(chǔ)著實(shí)際需要查詢的大數(shù)據(jù) 圖4.5 Impala查詢示意Impala的查詢效率比Hive有數(shù)量級(jí)的提升。從技術(shù)角度上來看,Impala之所以能有好的性能,主要有以下幾方面的原因。· Impala不需要把中間結(jié)果寫入磁盤,省掉了大量的I/O開銷。· 省掉了
18、MapReduce作業(yè)啟動(dòng)的開銷。MapReduce啟動(dòng)task的速度很慢(默認(rèn)每個(gè)心跳間隔是3秒鐘),Impala直接通過相應(yīng)的服務(wù)進(jìn)程來進(jìn)行作業(yè)調(diào)度,速度快了很多。· Impala完全拋棄了MapReduce這個(gè)不太適合做SQL查詢的范式,而是像Dremel一樣借鑒了MPP并行數(shù)據(jù)庫(kù)的思想另起爐灶,因此可做更多的查詢優(yōu)化,從而省掉不必要的shuffle、sort等開銷。· 通過使用LLVM來統(tǒng)一編譯運(yùn)行時(shí)代碼,避免了為支持通用編譯而帶來的不必要開銷。· 用C+實(shí)現(xiàn),做了很多有針對(duì)性的硬件優(yōu)化,例如使用SSE指令。· 使用了支持Data localit
19、y的I/O調(diào)度機(jī)制,盡可能地將數(shù)據(jù)和計(jì)算分配在同一臺(tái)機(jī)器上進(jìn)行,減少了網(wǎng)絡(luò)開銷。4.5 Spark計(jì)算框架的引入 Spark 是一種與 Hadoop 相似的開源集群計(jì)算環(huán)境,但是兩者之間還存在一些不同之處,這些有用的不同之處使 Spark 在某些工作負(fù)載方面表現(xiàn)得更加優(yōu)越,換句話說,Spark 啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負(fù)載。Spark 是在 Scala 語言中實(shí)現(xiàn)的,它將 Scala 用作其應(yīng)用程序框架。與 Hadoop 不同,Spark 和 Scala 能夠緊密集成,其中的 Scala 可以像操作本地集合對(duì)象一樣輕松地操作分布式數(shù)據(jù)集。盡管創(chuàng)建 S
20、park 是為了支持分布式數(shù)據(jù)集上的迭代作業(yè),但是實(shí)際上它是對(duì) Hadoop 的補(bǔ)充,可以在 Hadoo 文件系統(tǒng)中并行運(yùn)行。通過名為 Mesos 的第三方集群框架可以支持此行為。Spark 由加州大學(xué)伯克利分校 AMP 實(shí)驗(yàn)室 (Algorithms, Machines, and People Lab) 開發(fā),可用來構(gòu)建大型的、低延遲的數(shù)據(jù)分析應(yīng)用程序。Apache Spark是一個(gè)新興的大數(shù)據(jù)處理引擎,主要特點(diǎn)是提供了一個(gè)集群的分布式內(nèi)存抽象,支持需要工作集的應(yīng)用。 具有如下特點(diǎn):l 基于RDD的抽象,實(shí)數(shù)據(jù)處理邏輯的代碼非常簡(jiǎn)短; l 提供很多轉(zhuǎn)換和動(dòng)作,不僅僅是MAP/REDUCEl
21、通過在內(nèi)存中緩存數(shù)據(jù),提高迭代式計(jì)算的性能 l 通過將流拆成小的batch提供Discretized Stream處理流數(shù)據(jù),降低時(shí)延 Batch Layer,HDFS+Spark Core,將實(shí)時(shí)的增量數(shù)據(jù)追加到HDFS中,使用Spark Core批量處理全量數(shù)據(jù),生成全量數(shù)據(jù)的視圖。 Speed Layer,Spark Streaming來處理實(shí)時(shí)的增量數(shù)據(jù),以較低的時(shí)延生成實(shí)時(shí)數(shù)據(jù)的視圖。Serving Layer,HDFS+Spark SQL,存儲(chǔ)Batch Layer和Speed Layer輸出的視圖,提供低時(shí)延的即席查詢功能,將批量數(shù)據(jù)的視圖與實(shí)時(shí)數(shù)據(jù)的視圖合并圖4.6 Spark計(jì)算架構(gòu)4.6 硬件架構(gòu)參考 系統(tǒng)可主要基于x86平臺(tái),采用Pc Server分布式集群部署??梢暈樵谖锢砩希鳛橐粋€(gè)集群,資源共享 。廣東移動(dòng)業(yè)務(wù)端到端平臺(tái)采用65臺(tái)服務(wù)器,2個(gè)主節(jié)點(diǎn),8臺(tái)實(shí)時(shí)計(jì)算(入庫(kù)),剩余的55臺(tái)為集群 。設(shè)備名稱 主要參數(shù) 數(shù)量 單位 備注 統(tǒng)一加載服務(wù)器集群 2*2.6G 6核CPU,96G/64G DDR3內(nèi)存,2*900G+10*3T硬盤,2個(gè)GE電口,2個(gè)10GE光口 8臺(tái) 實(shí)時(shí)數(shù)據(jù)統(tǒng)計(jì)處理集群 2*2.6G 6核CPU,64G DDR3內(nèi)存,2*900G,2個(gè)GE電口,2個(gè)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版搬運(yùn)企業(yè)節(jié)能減排合同范本3篇
- 2025年度木材加工設(shè)備租賃及維護(hù)服務(wù)合同范本4篇
- 2025版民爆物品裝卸作業(yè)環(huán)境保護(hù)合同4篇
- 2025年度個(gè)人消費(fèi)分期付款合同范本(2025版)3篇
- 農(nóng)業(yè)機(jī)械化與農(nóng)村振興人才培育考核試卷
- 2025版事業(yè)單位聘用合同正規(guī)范本(含試用期)2篇
- 2025版人工智能研發(fā)中心錄用合同范本3篇
- 2025年公益活動(dòng)加盟合同
- 2025年大型活動(dòng)合作協(xié)議
- 2025年度高科技實(shí)驗(yàn)室租賃合同4篇
- 【探跡科技】2024知識(shí)產(chǎn)權(quán)行業(yè)發(fā)展趨勢(shì)報(bào)告-從工業(yè)轟鳴到數(shù)智浪潮知識(shí)產(chǎn)權(quán)成為競(jìng)爭(zhēng)市場(chǎng)的“矛與盾”
- 《中國(guó)政法大學(xué)》課件
- GB/T 35270-2024嬰幼兒背帶(袋)
- 遼寧省沈陽名校2025屆高三第一次模擬考試英語試卷含解析
- 2024-2025學(xué)年高二上學(xué)期期末數(shù)學(xué)試卷(新題型:19題)(基礎(chǔ)篇)(含答案)
- 2022版藝術(shù)新課標(biāo)解讀心得(課件)小學(xué)美術(shù)
- Profinet(S523-FANUC)發(fā)那科通訊設(shè)置
- 醫(yī)學(xué)教程 常見化療藥物歸納
- JJF 1101-2019環(huán)境試驗(yàn)設(shè)備溫度、濕度參數(shù)校準(zhǔn)規(guī)范
- GB/T 25000.51-2016系統(tǒng)與軟件工程系統(tǒng)與軟件質(zhì)量要求和評(píng)價(jià)(SQuaRE)第51部分:就緒可用軟件產(chǎn)品(RUSP)的質(zhì)量要求和測(cè)試細(xì)則
- 外科學(xué)試題庫(kù)及答案(共1000題)
評(píng)論
0/150
提交評(píng)論