




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、H3C FlexData MPP Cluster技 術(shù)白皮書H3C大數(shù)據(jù)產(chǎn)品技術(shù)白皮書杭州華三通信技術(shù)有限公司2019年8月杭州華三通信技術(shù)有限公司iH3C FlexData MPP Cluster技 術(shù)白皮書1 H3C大數(shù)據(jù)產(chǎn)品介紹 11.1 產(chǎn)品簡介 11.2 產(chǎn)品架構(gòu) 11.2.1 數(shù)據(jù)處理 21.2.2 數(shù)據(jù)分層 31.3 產(chǎn)品技術(shù)特點(diǎn) 4先進(jìn)的混合計(jì)算架構(gòu) 4高性價(jià)比的分布式集群 4云化ETL 4數(shù)據(jù)分層和分級存儲(chǔ) 5數(shù)據(jù)分析挖掘 5數(shù)據(jù)服務(wù)接口 5可視化運(yùn)維管理 51.4 產(chǎn)品功能簡介 6管理平面功能: 7業(yè)務(wù)平面功能: 82 DataEngine HDP 核心技術(shù) 93 Data
2、Engine MPP Cluster 核心技術(shù) 93.1 MPP + Shared Nothing 架構(gòu) 93.2 核心組件 103.3 高可用 113.4 高性能擴(kuò)展能力 113.5 高性能數(shù)據(jù)加載 123.6 OLAP函數(shù) 13行列混合存儲(chǔ) 13杭州華三通信技術(shù)有限公司IIH3C FlexData MPP Cluster技 術(shù)白皮書1 H3C大數(shù)據(jù)產(chǎn)品介紹1.1 產(chǎn)品簡介H3C大數(shù)據(jù)平臺(tái)采用開源社區(qū) Apache Hadoop2.0和MPP分布式數(shù)據(jù)庫混 合計(jì)算框架為用戶提供一套完整的大數(shù)據(jù)平臺(tái)解決方案,具備高性能、高可 用、高擴(kuò)展特性,可以為超大規(guī)模數(shù)據(jù)管理提供高性價(jià)比的通用計(jì)算存儲(chǔ)能
3、力。H3C大數(shù)據(jù)平臺(tái)提供數(shù)據(jù)采集轉(zhuǎn)換、計(jì)算存儲(chǔ)、分析挖掘、共享交換以 及可視化等全系列功能,并廣泛地用于支撐各類數(shù)據(jù)倉庫系統(tǒng)、BI系統(tǒng)和決策支持系統(tǒng)幫助用戶構(gòu)建海量數(shù)據(jù)處理系統(tǒng),發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在價(jià)值。1.2 產(chǎn)品架構(gòu)基域方忻機(jī)磚習(xí)刼仙StliSS8538涼取需可衛(wèi)化可嗝屈舸J離時(shí)旦內(nèi)存計(jì)算SS?計(jì)算MapReduce Sperk*5twmHBaseMPP用戶晉連Hadoop2X)ETL工具Kettlemsaas.轉(zhuǎn)按一游洗、加猛5qoaphttpW 社文媒體非結(jié)枸讓救據(jù)向吝管湮數(shù)據(jù)源ERPCRMSCM生產(chǎn)記錄大刪應(yīng)用空豳用am囲杭州華三通信技術(shù)有限公司-1 -H3C FlexData MPP C
4、luster技 術(shù)白皮書杭州華三通信技術(shù)有限公司-# -H3C FlexData MPP Cluster技 術(shù)白皮書H3C大數(shù)據(jù)平臺(tái)包含4個(gè)部分:第一部分是運(yùn)維管理,包括:安裝部署、配置管理、主機(jī)管理、用戶管杭州華三通信技術(shù)有限公司-# -H3C FlexData MPP Cluster技 術(shù)白皮書理、服務(wù)管理、監(jiān)控告警和安全管理等。第二部分是數(shù)據(jù) ETL,即獲取、轉(zhuǎn)換、加載,包括:關(guān)系數(shù)據(jù)庫連接 Sqoop、 日志采集 Flume、ETL工具Kettle 。第三部分是數(shù)據(jù)計(jì)算。MPP采用分析型分布式數(shù)據(jù)庫,存儲(chǔ)高價(jià)值密度 的結(jié)構(gòu)化數(shù)據(jù);Hadoop存儲(chǔ)非結(jié)構(gòu)化/半結(jié)構(gòu)化數(shù)據(jù)和低價(jià)值密度結(jié)構(gòu)化
5、數(shù) 據(jù)。計(jì)算結(jié)果都存到數(shù)據(jù)倉庫,數(shù)據(jù)倉庫中的數(shù)據(jù)可直接用于分析和展示。 數(shù)據(jù)倉庫是面向主題的、集成的、穩(wěn)定的且隨時(shí)間不斷變化的數(shù)據(jù)集合,用 以支持經(jīng)營管理中的決策制定過程。第四部分?jǐn)?shù)據(jù)服務(wù),包括:機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、數(shù)據(jù)檢索、數(shù)據(jù)可視 化、即席分析、SQL和 API,為應(yīng)用層提供服務(wù)和中間件調(diào)用。1.2.1數(shù)據(jù)處理杭州華三通信技術(shù)有限公司-2 -H3C FlexData MPP Cluster技 術(shù)白皮書杭州華三通信技術(shù)有限公司-# -H3C FlexData MPP Cluster技 術(shù)白皮書存儲(chǔ)詵冥時(shí)區(qū)潘動(dòng)區(qū)曰9區(qū)轉(zhuǎn)喚GO-1內(nèi)存計(jì)筒firsts曩時(shí)計(jì)算thtS總杭州華三通信技術(shù)有限公司-
6、# -H3C FlexData MPP Cluster技 術(shù)白皮書杭州華三通信技術(shù)有限公司-3 -H3C FlexData MPP Cluster技 術(shù)白皮書對于大數(shù)據(jù)管理平臺(tái), 應(yīng)該建立一套標(biāo)準(zhǔn)化、規(guī)范化的數(shù)據(jù)處理流程,例如: 如何采集內(nèi)部和外部數(shù)據(jù)、結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù);如何清洗采集來的臟數(shù) 據(jù)和無效數(shù)據(jù);如何對不同來源的數(shù)據(jù)進(jìn)行打通;如何對非結(jié)構(gòu)化的數(shù)據(jù)進(jìn) 行結(jié)構(gòu)化加工;如何在結(jié)構(gòu)化數(shù)據(jù)的基礎(chǔ)上進(jìn)行商業(yè)建模和數(shù)據(jù)挖掘等等。 大數(shù)據(jù)管理層在一條數(shù)據(jù)總線上構(gòu)建了一條完整的大數(shù)據(jù)處理流水線。這條 流水線從數(shù)據(jù)的采集、清洗到加工處理,把原始雜亂無章的數(shù)據(jù)加工成結(jié)構(gòu) 化的數(shù)據(jù)組件,供上層的大數(shù)據(jù)應(yīng)
7、用來拼裝調(diào)用,讓企業(yè)擁有創(chuàng)造數(shù)據(jù)資產(chǎn) 的能力。1.2.2數(shù)據(jù)分層czzzz應(yīng)用庫數(shù)搖訪問分布式數(shù)據(jù)庫MPP0主數(shù)據(jù)倉庫非結(jié)構(gòu)化數(shù)搖結(jié)構(gòu)化數(shù)抿ODS層:數(shù)據(jù)來源于各生產(chǎn)系統(tǒng),通過ETL工具對接口文件數(shù)據(jù)進(jìn)行編碼替換和數(shù)據(jù)清洗轉(zhuǎn)換,不做關(guān)聯(lián)操作。未來也可用于準(zhǔn)實(shí)時(shí)數(shù)據(jù)查 詢。輕度匯總層:主題域內(nèi)部基于明細(xì)層數(shù)據(jù),進(jìn)行多維度的、用戶級的匯 總明細(xì)數(shù)據(jù)層:主題域內(nèi)部進(jìn)行拆分、關(guān)聯(lián)。是對ODS操作型數(shù)據(jù)按照主題域劃分規(guī)則進(jìn)行的拆分及合并。信息子層:報(bào)表數(shù)據(jù)、多維數(shù)據(jù)、指標(biāo)庫等數(shù)據(jù)來源于匯總層。匯總 層:主題域之間進(jìn)行關(guān)聯(lián)、匯總計(jì)算。匯總數(shù)據(jù)服務(wù)于信息子層,目的 是為了節(jié)約信息子層數(shù)據(jù)計(jì)算成本和計(jì)算時(shí)間。
8、應(yīng)用層:應(yīng)用系統(tǒng)的私有數(shù)據(jù),應(yīng)用的業(yè)務(wù)數(shù)據(jù)。精細(xì)化營銷做為大數(shù) 據(jù)平臺(tái)的一個(gè)上層應(yīng)用,由大數(shù)據(jù)平臺(tái)提供數(shù)據(jù)支撐。1.3 產(chǎn)品技術(shù)特點(diǎn)先進(jìn)的混合計(jì)算架構(gòu)采用Hadoop和MPP融合技術(shù)架構(gòu),對半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)支持并行計(jì) 算和低成本存儲(chǔ),提供低時(shí)延、高并發(fā)的查詢和分析功能;對結(jié)構(gòu)化數(shù)據(jù) 采用MPP分布式列存儲(chǔ),支持分布式計(jì)算、智能索引等功能,實(shí)現(xiàn)高性能 結(jié)構(gòu)化數(shù)據(jù)分析處理。集成Map Reduce、Spark、Storm、Tez等多種計(jì)算框架,利用YARN資源管理做統(tǒng)一管理,可在同一份數(shù)據(jù)集上運(yùn)行多種計(jì)算。離線計(jì)算、內(nèi)存計(jì)算和流式計(jì)算并存,能滿足高吞吐、大數(shù)據(jù)量和低時(shí)延 實(shí)時(shí)處理等多方面的數(shù)
9、據(jù)計(jì)算要求。高性價(jià)比的分布式集群基于X86服務(wù)器本地的計(jì)算與存儲(chǔ)資源,計(jì)算集群可以動(dòng)態(tài)調(diào)整,從數(shù)臺(tái)到 數(shù)千臺(tái)之間彈性擴(kuò)展,按需構(gòu)建應(yīng)用,減少總體成本;同時(shí),在設(shè)計(jì)時(shí)充 分考慮了硬件設(shè)備的不可靠因素,在軟件層面提供計(jì)算和存儲(chǔ)的高可靠保 證,具備較強(qiáng)的容錯(cuò)性。云化ETL將不同業(yè)務(wù)系統(tǒng)中分散、零亂、標(biāo)準(zhǔn)不統(tǒng)一的各種源數(shù)據(jù)中的數(shù)據(jù)進(jìn)行匯 聚。支持從DBMS、互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、企業(yè)生產(chǎn)系統(tǒng)等各種數(shù)據(jù)源中提取 數(shù)據(jù)。各類數(shù)據(jù)經(jīng)過抽取、清洗和轉(zhuǎn)化后,實(shí)現(xiàn)多對多地加載到包含但不 限于大數(shù)據(jù)集群和各類關(guān)系型數(shù)據(jù)庫中。該過程由一個(gè)統(tǒng)一的操作接口封 裝,經(jīng)過無代碼的可視化配置后,可實(shí)現(xiàn)自動(dòng)化地、 分布式地執(zhí)行整個(gè)ET
10、L作業(yè)流程。杭州華三通信技術(shù)有限公司-5 -H3C FlexData MPP Cluster技 術(shù)白皮書數(shù)據(jù)分層和分級存儲(chǔ)把數(shù)據(jù)按照不同階段分為 ODSQperational Data Store)數(shù)據(jù)、輕度匯總數(shù)據(jù)、 信息子層數(shù)據(jù)和應(yīng)用數(shù)據(jù),分別存儲(chǔ)在Hadoop平臺(tái)、MPP分布式數(shù)據(jù)庫和數(shù)據(jù)倉庫,滿足不同階段的計(jì)算需求;按照在線數(shù)據(jù)、歷史數(shù)據(jù)等來管理 數(shù)據(jù)生命周期,滿足在線數(shù)據(jù)的高性能存儲(chǔ)的需求;將核心模型數(shù)據(jù)通過 改造融入到數(shù)據(jù)倉庫的核心模型中,減少數(shù)據(jù)冗余,提升數(shù)據(jù)質(zhì)量;將數(shù) 據(jù)倉庫中的歷史數(shù)據(jù)遷移到低成本分布式數(shù)據(jù)庫,減輕數(shù)據(jù)倉庫的計(jì)算與 存儲(chǔ)壓力并支撐深度數(shù)據(jù)分析。數(shù)據(jù)分析挖掘支持
11、R語言,集成機(jī)器學(xué)習(xí)算法庫Mahout和Spark MLlib,包含聚類分析、分類算法、頻度關(guān)聯(lián)分析和推薦系統(tǒng)在內(nèi)的常用機(jī)器學(xué)習(xí)算法。滿足批處 理統(tǒng)計(jì)分析、在線數(shù)據(jù)檢索、R語言數(shù)據(jù)挖掘、實(shí)時(shí)流處理、全文搜索等全方位需求。可幫助企業(yè)建立高速可擴(kuò)展的數(shù)據(jù)倉庫和數(shù)據(jù)集市,結(jié)合多種 報(bào)表工具提供交互式數(shù)據(jù)分析、即時(shí)報(bào)表和BI可視化展示能力。數(shù)據(jù)服務(wù)接口提供交互式SQL和可編程API,提取數(shù)據(jù)存儲(chǔ)計(jì)算平臺(tái)的數(shù)據(jù)處理結(jié)果,屏蔽底層細(xì)節(jié),為上層應(yīng)用提供數(shù)據(jù)服務(wù)。主要包括SQL接口、 MapReduce/Spark/Storm計(jì)算接口等多種可編程 API、全文實(shí)時(shí)搜索接口、 業(yè) 務(wù)定向接口、關(guān)聯(lián)查詢接口,滿足
12、數(shù)據(jù)查詢、可視化BI展示、數(shù)據(jù)交換、數(shù)據(jù)分析、目錄服務(wù)、綜合查詢等業(yè)務(wù)應(yīng)用的需要??梢暬\(yùn)維管理提供Web圖形化界面實(shí)現(xiàn)運(yùn)集群的管理和監(jiān)控,集群的節(jié)點(diǎn)、主機(jī)和服務(wù) 的運(yùn)行狀態(tài)都能在界面上顯示,操作友好,功能豐富。提供集群快速安裝 部署、機(jī)架展示、用戶權(quán)限管理、主機(jī)與服務(wù)管理、監(jiān)控及告警通知等多 方面支持,在可管理性方面優(yōu)勢顯著。服務(wù)分類服務(wù)名稱服務(wù)功能說明系統(tǒng)服務(wù)YARN一種全新的通用的 Hadoop資源管理器,為集群在利用率和資源統(tǒng)一管理等方面帶來了巨大便利。可使MapReduce、Spark、Storm等共存。ZooKeeper分布式應(yīng)用程序協(xié)調(diào)服務(wù),保證集群的一致性。提供的功能包括: 配
13、置維護(hù)、名字服務(wù)、分布式同步、組服務(wù)等。Slider將已存在服務(wù)部署在 YARN集群上,而不用修改已存在服務(wù)。Oozie提供Hadoop作業(yè)工作流管理功能,可管理MR、Hive、Pig、Sqoop和HDFS等任務(wù)。Kafka一種低時(shí)延高吞吐量的分布式發(fā)布 / 訂閱消息系統(tǒng),同時(shí)滿足在線和 離線處理海量消息數(shù)據(jù)派發(fā)。Kerberos一個(gè)基于共享密鑰對稱加密的安全網(wǎng)絡(luò)認(rèn)證系統(tǒng),可防止對集群的 惡意使用和篡改,保障 Hadoop集群的安全可靠。計(jì)算服務(wù)MapReduce批處理框架,將一個(gè)大任務(wù)分成多個(gè)獨(dú)立的小任務(wù),最后匯總各個(gè) 小任務(wù)的結(jié)果。用戶只需關(guān)注上層應(yīng)用的邏輯,完全不用關(guān)注底層 分布式細(xì)節(jié),
14、大大提升了分布式應(yīng)用開發(fā)的效率和質(zhì)量。主要用于 離線計(jì)算和計(jì)算密集型應(yīng)用。Spark迭代計(jì)算框架,基于內(nèi)存計(jì)算。性能比MR快10-100倍,通用性好, 支持批處理、流處理、SQL查詢、機(jī)器學(xué)習(xí)、圖計(jì)算等。Storm流處理框架,具有效率高、能保證每條消息都能被處理和實(shí)踐應(yīng)用 很多等優(yōu)點(diǎn)。TezMapReduce程序性能優(yōu)化器。將 MR程序轉(zhuǎn)化為有向無環(huán)圖,大大 提升性能。存儲(chǔ)服務(wù)HDFSHadoop分布式文件系統(tǒng),具有高容錯(cuò)性,可以部署在廉價(jià)的機(jī)器上。 提供高吞吐量來訪問應(yīng)用程序的數(shù)據(jù),適合存儲(chǔ)超大數(shù)據(jù)集。HBase分布式、面向列數(shù)據(jù)庫,利用HDFS作為持久化數(shù)據(jù)存儲(chǔ),使用Zookeeper作為
15、協(xié)同服務(wù)組件。具有容量巨大、面向列存儲(chǔ)和權(quán)限控 制、稀疏性、咼可用和咼性能等特點(diǎn)。數(shù)據(jù)處理SqoopHadoop和關(guān)系型數(shù)據(jù)庫之間進(jìn)行批量數(shù)據(jù)轉(zhuǎn)移的工具。Flume一個(gè)高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸?shù)?系統(tǒng)。Hive基于Hadoop的數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一 張數(shù)據(jù)庫表,采用 HiveQL作為查詢語言。將 HiveQL轉(zhuǎn)換為 MapReduce任務(wù),從而完成海量數(shù)據(jù)的查詢和分析。Pig基于Hadoop的數(shù)據(jù)流處理引擎,將類 SQL的數(shù)據(jù)分析請求轉(zhuǎn)換為Map/Reduce 任務(wù)。Mahout機(jī)器學(xué)習(xí)算法庫,3個(gè)主要應(yīng)用場景是協(xié)作篩選、集群和分類,可 使用
16、 MR、Scala、Spark 來提交 Mahout 接口。數(shù)據(jù)即服務(wù)提供機(jī)器學(xué)習(xí)Mahout、數(shù)據(jù)挖掘、數(shù)據(jù)檢索、R語言、交互式SQL(SQL on Hadoop )、可編程API等功能,滿足上次應(yīng)用開發(fā)需求。MPP分布式數(shù)據(jù)庫H3C MPP關(guān)系型數(shù)據(jù)庫集群,良好的 SQL語言支持。高性能、高容錯(cuò)、高可 用。1.4 產(chǎn)品功能簡介服務(wù)名稱服務(wù)功能說明安裝部署提供定制部署、Zero部署和虛機(jī)部署等多種集群部署方式,滿足用戶不用應(yīng)用場 景需求。提供 Web圖形化界面和快速向?qū)?,引?dǎo)用戶快捷高效地建立集群。機(jī)架管理實(shí)現(xiàn)HDFS副本存放策略的可視化管理。配置管理實(shí)現(xiàn)集群各項(xiàng)服務(wù)配置參數(shù)的歷史快照功能,
17、記錄配置變更,方便性能調(diào)優(yōu)。用戶和組管理支持單用戶和用戶組管理, 便捷的用戶和組的增刪操作, 提供不同級別的訪問權(quán)限 控制;主機(jī)管理實(shí)時(shí)監(jiān)控主機(jī)各項(xiàng)硬件資源 (CPU、內(nèi)存、磁盤、網(wǎng)絡(luò)等)及其上承載的服務(wù)的運(yùn)行 狀態(tài)。執(zhí)行主機(jī)級別操作如停止、運(yùn)行主機(jī)上的服務(wù)等。服務(wù)管理對集群的各項(xiàng)服務(wù)做集中式管理,提供啟動(dòng)服務(wù)、停止服務(wù)、修改屬性和設(shè)定運(yùn)行參數(shù)等功能。實(shí)現(xiàn)集群各項(xiàng)服務(wù)運(yùn)行狀態(tài)(基本信息、告警、運(yùn)行健康狀態(tài) )實(shí)時(shí)監(jiān)控。監(jiān)控和告警監(jiān)控集群運(yùn)行的健康狀態(tài),在特定的情況下發(fā)岀信息,幫助識(shí)別和定位問題原因。 可自定義告警的監(jiān)控間隔和閾值、觸發(fā)條件、告警通知方式。版本管理實(shí)現(xiàn)HDP Stack可用服務(wù)和
18、軟件版本的管理功能。多租戶支持多租戶訪問集群資源。安全管理支持本地、LDAP和Kerberos多種身份認(rèn)證方式,實(shí)現(xiàn)訪問權(quán)限控制。支持對文件、 目錄、表、列、行等細(xì)粒度的訪問控制,可防止對集群的惡意使用和篡改,保證集 群的可安全可靠。數(shù)據(jù)管理實(shí)現(xiàn)數(shù)據(jù)的壓縮、備份、交換及數(shù)據(jù)ETL的管理。管理平面功能:業(yè)務(wù)平面功能:杭州華三通信技術(shù)有限公司-9 -H3C FlexData MPP Cluster技術(shù)白皮書杭州華三通信技術(shù)有限公司-10 -H3C FlexData MPP Cluster技術(shù)白皮書2 DataEngine HDP核心技術(shù)HivePigHBa5e3理內(nèi)存計(jì)煙SharkSbmminrg
19、iAWWSpark分帝式対系笑HDFSYARN實(shí)時(shí)汁算Storm消亙駄利KafkaDataEngine HDP基于X86服務(wù)器本地的計(jì)算與存儲(chǔ)資源提供了分布式并行計(jì)算和低成本存 儲(chǔ),提供低時(shí)延、高并發(fā)的查詢功能,集群可以擴(kuò)展到上千臺(tái)服務(wù)器。H3G!過對Hadoop開源組件的封裝和增強(qiáng),對外提供數(shù)據(jù)分布式計(jì)算存儲(chǔ)、數(shù)據(jù)分析能力。資源管理YARN改進(jìn)的YARN統(tǒng)一資源管理,在同一物理主機(jī) /虛擬主機(jī)和數(shù)據(jù)集上運(yùn) 行多種計(jì)算框架,包括離線計(jì)算、內(nèi)存計(jì)算和實(shí)時(shí)計(jì)算。分布式文件系統(tǒng) HDFS分布式文件系統(tǒng),有較強(qiáng)的容錯(cuò)性,可在x86平臺(tái)上運(yùn)行,減少總體成本,可擴(kuò)展,能構(gòu)建大規(guī)模的應(yīng)用。數(shù)據(jù)庫 HBase
20、: HBase是一種構(gòu)建在 HDFS(Hadoop Distributed File System )之上的 分布式、面向列的存儲(chǔ)系統(tǒng),它具有高可靠、高性能、面向列和可伸縮的特性。HBase適合于存儲(chǔ)大表數(shù)據(jù) (表的規(guī)模可以達(dá)到數(shù)十億行以及數(shù)百萬列),并且對大表數(shù)據(jù)的讀、寫訪問可以達(dá)到實(shí)時(shí)級別。離線計(jì)算:MapReduce是一種離線計(jì)算框架,將一個(gè)算法抽象成Map和Reduce兩個(gè)階段進(jìn)行處理,適合數(shù)據(jù)密集型計(jì)算場景。內(nèi)存計(jì)算:Spark是一種內(nèi)存計(jì)算框架,它將數(shù)據(jù)盡可能放到內(nèi)存中以提高迭代應(yīng)用 和交互式應(yīng)用的計(jì)算效率。實(shí)時(shí)計(jì)算:Storm 擅長流式計(jì)算、實(shí)時(shí)分析,比如廣告點(diǎn)擊計(jì)算、它在實(shí)時(shí)性
21、要遠(yuǎn)遠(yuǎn) 好于MapReduce計(jì)算框架。3 DataEngine MPP Cluste核心技術(shù)3.1 MPP + Shared Nothing 架構(gòu)DataE ngi ne MPP Cluster 采用完全并行的 MPP + Shared Nothi ng 的分布式扁平架構(gòu), 這種架構(gòu)中的每一個(gè)節(jié)點(diǎn)(n ode)都是獨(dú)立的、自給的、節(jié)點(diǎn)之間對等,而且整個(gè)系統(tǒng)中不 存在單點(diǎn)瓶頸,具有非常強(qiáng)的擴(kuò)展性。杭州華三通信技術(shù)有限公司-11 -H3C FlexData MPP Cluster技術(shù)白皮書杭州華三通信技術(shù)有限公司-12 -H3C FlexData MPP Cluster技術(shù)白皮書MPP架構(gòu)橫向擴(kuò)
22、展數(shù)據(jù)分布策略Ha?hrRang e*RandomL.杭州華三通信技術(shù)有限公司-# -H3C FlexData MPP Cluster技術(shù)白皮書杭州華三通信技術(shù)有限公司-# -H3C FlexData MPP Cluster技術(shù)白皮書圖 3-1 Shared Nothi ng + MPP架構(gòu)示意圖3.2 核心組件DataEngine MPPCluster 產(chǎn)品總共包含三大核心組件,即 GCluster、GCware和GNode> GCWare用于各節(jié)點(diǎn) GCluster實(shí)例間共享信息,GCluster負(fù)責(zé)集群調(diào)度,每個(gè)GNode就是最 基本的存儲(chǔ)和計(jì)算單元。GCluster :GClus
23、ter負(fù)責(zé)SQL的解析、SQL優(yōu)化、分布式執(zhí)行計(jì)劃生成、執(zhí)行調(diào)度。GCWareGCWare用于各節(jié)點(diǎn) GCluster實(shí)例間共享信息(包括集群結(jié)構(gòu),節(jié)點(diǎn)狀態(tài),節(jié)點(diǎn)資源狀 態(tài)等信息),以及控制多副本數(shù)據(jù)操作時(shí),提供可操作節(jié)點(diǎn),并在多副本操作中,控制各節(jié) 點(diǎn)數(shù)據(jù)一致性狀態(tài)。GCWare對于集群的管理工作是以節(jié)點(diǎn)為基本單位的。GNodeGNode是 GCluster中最基本的存儲(chǔ)和計(jì)算單元。 GNode是由GCWare管理的一個(gè)8a實(shí)例, 每個(gè)GCluster節(jié)點(diǎn)上有一個(gè)GNode實(shí)例運(yùn)行。GNode負(fù)責(zé)集群數(shù)據(jù)在節(jié)點(diǎn)上的實(shí)際存儲(chǔ), 并從GCluster接收和執(zhí)行經(jīng)分解的 SQL執(zhí)行計(jì)劃,執(zhí)行結(jié)果返
24、回給GCluster。數(shù)據(jù)加載時(shí), GNode直接從集群加載服務(wù)接收數(shù)據(jù),寫入本地存儲(chǔ)空間。GCMo nit:GCM on it用于定期監(jiān)測 DataE ngine MPP Cluster服務(wù)程序的運(yùn)行狀態(tài),一旦發(fā)現(xiàn)某個(gè)服務(wù)程序的進(jìn)程狀態(tài)發(fā)生變化,就會(huì)根據(jù)配置文件中的內(nèi)容來執(zhí)行相應(yīng)的命令。GCMonit進(jìn)程監(jiān)控程序?yàn)榧褐械拿總€(gè)組件提供各自的啟停腳本,提供的總腳本可以一次性啟停所有模塊的服務(wù)。3.3 咼可用DataEngine MPP Cluster 通過SafeGroup組內(nèi)冗余機(jī)制來保證集群的高可用特性:1) 每個(gè)SafeGroup可提供1個(gè)或2個(gè)副本數(shù)據(jù)冗余;2) SafeGroup內(nèi)數(shù)
25、據(jù)副本自動(dòng)同步;牛驗(yàn)Hownodel復(fù)制引擎自動(dòng)管理數(shù)據(jù)同步;杭州華三通信技術(shù)有限公司-14 -H3C FlexData MPP Cluster技術(shù)白皮書數(shù)據(jù)巧副本Replicator/復(fù)制弓孳J1p1;T1p2BISTip匕T1p2圖3-2 SafeGroup高可用性管理示意圖2.4 高性能擴(kuò)展能力DataE ngi ne MPP Cluster 具備高性能擴(kuò)展能力:1) 通過SafeGroup動(dòng)態(tài)擴(kuò)展集群節(jié)點(diǎn);2) 每個(gè)節(jié)點(diǎn)可以處理10TB有效數(shù)據(jù),同時(shí)提供計(jì)算和存儲(chǔ)能力;GCware負(fù)責(zé)新節(jié)點(diǎn)的數(shù)據(jù)同步。杭州華三通信技術(shù)有限公司-# -H3C FlexData MPP Cluster技術(shù)
26、白皮書 iliSafegroup動(dòng)態(tài)擴(kuò)展集辟節(jié)點(diǎn)GCWare負(fù)責(zé)新節(jié)點(diǎn)的數(shù)據(jù)同步杭州華三通信技術(shù)有限公司-15 -H3C FlexData MPP Cluster技術(shù)白皮書杭州華三通信技術(shù)有限公司-# -H3C FlexData MPP Cluster技術(shù)白皮書高性能+高擴(kuò)展能力Scale out (MPP)圖3-3 DataE ngi ne MPP Cluster擴(kuò)展技術(shù)示意圖因?yàn)镈ataEngine MPP Cluster采用高性能單節(jié)點(diǎn)的MPP扁平架構(gòu),因此進(jìn)行集群擴(kuò)展時(shí),可以保證平滑擴(kuò)展和性能的線性增長特性。Scale up (SMP)高性能節(jié)點(diǎn)圖3-4 DataE ngine MPP Cluster高性能高擴(kuò)展示意圖2.5 高性能數(shù)據(jù)加載數(shù)據(jù)加載功能作為
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 小學(xué)生作文我的夢想征文
- 云南省怒江傈僳族自治州福貢縣聯(lián)考2024-2025學(xué)年高一上學(xué)期1月期末生物學(xué)試題(含答案)
- 國際貿(mào)易實(shí)務(wù)中的結(jié)算方式知識(shí)考點(diǎn)
- 個(gè)人自助圖書館借閱服務(wù)合同
- 現(xiàn)代服務(wù)業(yè)服務(wù)質(zhì)量評價(jià)標(biāo)準(zhǔn)知識(shí)考點(diǎn)
- 互聯(lián)網(wǎng)產(chǎn)品策劃題
- 辦公空間能源消耗表格:能耗統(tǒng)計(jì)、節(jié)能減排
- 金融投資行業(yè)市場波動(dòng)風(fēng)險(xiǎn)免責(zé)聲明
- 醫(yī)學(xué)知識(shí)視頻培訓(xùn)課件
- 工作計(jì)劃完成情況統(tǒng)計(jì)表格
- 常見意外傷害的處理課件
- 第八章運(yùn)動(dòng)和力單元試卷 (含答案) 2024-2025學(xué)年人教版物理八年級下
- 2025年中央一號文件高頻重點(diǎn)考試題庫150題(含答案解析)
- 風(fēng)電項(xiàng)目電網(wǎng)接入系統(tǒng)可行性研究報(bào)告編制服務(wù)方案投標(biāo)文件(技術(shù)方案)
- 2024人教版新教材初中地理七年級下冊內(nèi)容解讀課件(深度)
- 2025年遼寧醫(yī)藥職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性測試近5年常考版參考題庫含答案解析
- 2023-2028年中國油畫行業(yè)市場發(fā)展現(xiàn)狀及投資規(guī)劃建議報(bào)告
- 100以內(nèi)加減法練習(xí)100題(50套)-可直接打印
- 2024年干式電力電容器項(xiàng)目可行性研究報(bào)告
- 河南12系列建筑設(shè)計(jì)圖集一(12YJ1)
- 2025年村三會(huì)一課工作計(jì)劃表
評論
0/150
提交評論