版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、XXX大數(shù)據(jù)平臺(tái)技術(shù)白皮書xxxx大數(shù)據(jù)平臺(tái) 技術(shù)白皮書文檔版本號(hào): 文檔密級(jí): 編寫人:文檔編號(hào): 歸屬部門/項(xiàng)目:編寫日期: 產(chǎn)品部XXXX有限公司修訂記錄:版本號(hào)v 修訂人修訂日期 修訂描述XX版權(quán)所有XXXX科技有限公司保留所有權(quán)利 版權(quán)聲明:檔著作權(quán)XXXX科技有限公司享有。文中涉及 XXXX科技 有限公司的專有信息,未經(jīng)XXXX科技有限公司書面許可,任何單位和個(gè)人不得使用和泄漏該文檔以及該文檔包含的 任何圖片、表格、數(shù)據(jù)及其他信息。檔中的信息隨著 XXXX科技有限公司產(chǎn)品和技術(shù)的進(jìn)步 將不斷更新,XXXX科技有限公司不再通知此類信息的更新。目錄第 1 章產(chǎn) 品 概述系統(tǒng)架 4第 3
2、 章 數(shù)據(jù)存儲(chǔ)5分布式集群存儲(chǔ)分布式文件系統(tǒng) 6HBase-分布列式數(shù)據(jù)庫 7Hive-數(shù)據(jù)倉庫9 GraphDB-大規(guī)模分布式并行圖數(shù)據(jù)庫 12第 4 章 數(shù)據(jù)總線13數(shù) 據(jù) 采 集 與 交換15理16則過濾規(guī)ETL 17疋制化19擎第5早計(jì)算引21能 21成232325292930功能特 30效 果 展示31 第 8 章 運(yùn)維管理平.33系統(tǒng)監(jiān)控界面33系 統(tǒng) 配 置 界面33SQL查詢分析34批 量 數(shù) 據(jù) 導(dǎo) 入 導(dǎo)出第9章產(chǎn)品規(guī)格35標(biāo).產(chǎn)品指模.35平臺(tái)規(guī)力.35系統(tǒng)能營.35系統(tǒng)運(yùn)境.36硬件環(huán)境 36參 考 配 置36第1章產(chǎn)品概述XX大數(shù)據(jù)引擎平臺(tái) UDE是一款大數(shù)據(jù)通用平臺(tái)
3、軟件產(chǎn) 品,支持海量數(shù)據(jù)的采集、過濾、轉(zhuǎn)換、存儲(chǔ)、搜索、查詢、 統(tǒng)計(jì)、分析、可視化與安全管理等大數(shù)據(jù)全生命周期管理, 各種行業(yè)應(yīng)用和最終用戶,可以通過平臺(tái)提供的豐富的接 口,完成大規(guī)模行業(yè)數(shù)據(jù)的挖掘分析和應(yīng)用對(duì)接管理。對(duì)外 提供大容量數(shù)據(jù)分析和查詢能力,為解決各大企業(yè)的以下需 求: 軟硬件國產(chǎn)自主可控多源異構(gòu)數(shù)據(jù)接入數(shù)據(jù)關(guān)聯(lián)融合、統(tǒng)一訪問 大規(guī)模、高性能、可擴(kuò)展 高可靠、 咼可用XXXX在開源 Hadoop版本的基礎(chǔ)上對(duì) HBase HDFS和 MapReduce等組件增加了 HA查詢和分析功能,并進(jìn)行了性 能優(yōu)化。產(chǎn)品定位如圖1-1所示:第2章系統(tǒng)架構(gòu)圖2-1 XX系統(tǒng)架構(gòu)圖如上圖所示,XX
4、是一款大數(shù)據(jù)管理分析平臺(tái),基于底層 的基礎(chǔ)平臺(tái),自下而上可以分四層,依次是數(shù)據(jù)存儲(chǔ)層、數(shù) 據(jù)總線、數(shù)據(jù)處理層以及業(yè)務(wù)適配層。同時(shí)具有高性能和高 可用的特征。數(shù)據(jù)存儲(chǔ)層:支持海量異構(gòu)數(shù)據(jù)的統(tǒng)一可靠的存儲(chǔ)管 理,對(duì)外提供統(tǒng)一的分布式調(diào)用接口。數(shù)據(jù)總線:支持?jǐn)?shù)據(jù)采集、過濾、緩存、中轉(zhuǎn)分發(fā)調(diào) 度等。數(shù)據(jù)總線是計(jì)算與存儲(chǔ)的樞紐,同時(shí)是內(nèi)外數(shù)據(jù)交換的通道,完成數(shù)據(jù)在組件間及 層次間中轉(zhuǎn)、緩沖及調(diào)度。數(shù)據(jù)處理層:基于支持多種計(jì)算模型的分布式計(jì)算框架,為上層業(yè)務(wù)系統(tǒng)提供專業(yè)的計(jì)算處理庫,包括 文本處理、搜索引擎、數(shù)據(jù)挖掘等。業(yè)務(wù)適配層:為上層業(yè)務(wù)系統(tǒng)提供各種不同協(xié)議和標(biāo) 準(zhǔn)的訪問接口。高性能高可用保障:通過軟
5、硬件多方優(yōu)化配置和深度 研究,保證整個(gè)平臺(tái)的高可用和高性能。產(chǎn)品特點(diǎn):面向網(wǎng)絡(luò)內(nèi)容及社會(huì)計(jì)算領(lǐng)域,通過多年積累數(shù)據(jù)處理層的特有業(yè)務(wù)處理引擎深度業(yè)務(wù)適配及衍生的垂直解決方案以數(shù)據(jù)總線為中心進(jìn)行數(shù)據(jù)全生命周期調(diào)度及價(jià)值實(shí) 現(xiàn)的數(shù)據(jù)流驅(qū)動(dòng)視角第3章數(shù)據(jù)存儲(chǔ)XX為用戶提供企業(yè)級(jí)大數(shù)據(jù)平臺(tái)軟件一體化解決方案; 并支持特殊應(yīng)用場景下的定制化硬件加速。面對(duì)結(jié)構(gòu)復(fù)雜、 需求多變的異構(gòu)數(shù)據(jù)處理業(yè)務(wù),XX不僅提供統(tǒng)一、穩(wěn)定、高效的存儲(chǔ)子系統(tǒng),還整合了先進(jìn)的分布式集群資源管理和進(jìn) 程調(diào)度方案、高性能數(shù)據(jù)總線技術(shù)、全并行架構(gòu)分布式關(guān)系 數(shù)據(jù)庫、面向圖計(jì)算的并行圖數(shù)據(jù)庫、分布式KV存數(shù)據(jù)庫,以及面向用戶業(yè)務(wù)的各類工具軟
6、件和庫支持?;赬X平臺(tái),用戶可以以非常低的時(shí)間代價(jià)構(gòu)建大規(guī)模企業(yè)大數(shù)據(jù)一體 化解決方案。文檔數(shù)據(jù)庫圖片音視頻流式數(shù)據(jù) DB郵件消息多維數(shù)據(jù) GraphDB關(guān)系型數(shù)據(jù)Hbase非關(guān)系型數(shù)據(jù)HDFSDSC龍威集群 存儲(chǔ)(申威國產(chǎn)平臺(tái))圖3-1 : XX數(shù)據(jù)存儲(chǔ)子系統(tǒng)結(jié)構(gòu)圖上圖是XX存儲(chǔ)組件的結(jié)構(gòu)圖,主要包括如下功能組件: 分布式集群存儲(chǔ):基于對(duì)象的高性能分布式文件存儲(chǔ)系統(tǒng)。TBase:分布式 Key-Value數(shù)據(jù)庫。DSQL :分布式關(guān)系數(shù)據(jù)庫。GraphDB :并行圖數(shù)據(jù)庫。分布式集群存儲(chǔ)分布式文件系統(tǒng)分布式集群存儲(chǔ)是一款針對(duì)海量數(shù)據(jù)存儲(chǔ)應(yīng)用而設(shè)計(jì) 的大規(guī)模通用集群存儲(chǔ)系統(tǒng),采用通用硬件設(shè)備
7、作為基本的 構(gòu)建單元,為應(yīng)用提供全局統(tǒng)一的系統(tǒng)映像和完全POSIX兼容的API接口分布式集群存儲(chǔ)系統(tǒng)采用了存儲(chǔ)服務(wù)器集群和元數(shù)據(jù)服務(wù)器集群通過千兆以太網(wǎng)絡(luò)/萬兆以太網(wǎng)絡(luò)/ Infiniband網(wǎng)絡(luò)構(gòu)建,具備極高的擴(kuò)展性和可靠性。利用分布式集群存 儲(chǔ)的相關(guān)軟件功能消除集群內(nèi)的單點(diǎn)故障,避免因?yàn)楣收隙?導(dǎo)致服務(wù)中斷或者數(shù)據(jù)丟失等影響,并且打破了傳統(tǒng)存儲(chǔ)系 統(tǒng)架構(gòu)上的限制。其基本架構(gòu)如圖3-2所示。圖3-2 :分布式集群存儲(chǔ)系統(tǒng)架構(gòu)圖3-2 :分布式集群存儲(chǔ)系統(tǒng)架構(gòu)分布式集群存儲(chǔ)為異構(gòu)數(shù)據(jù)提供統(tǒng)一的存儲(chǔ)方案;不僅對(duì)大文件應(yīng)用場景提供良 好的性能支持,元數(shù)據(jù)集群、高效檢索、橫向擴(kuò)展等特性使 得它在復(fù)雜
8、的大數(shù)據(jù)應(yīng)用場景中有更好的表現(xiàn)。除了100%POSIX兼容外,還提供完全的Hadoop API兼容。這意味著Hadoop生態(tài)群的計(jì)算框架和組件可以透明運(yùn)行于分布式集 群存儲(chǔ)之上。分布式集群存儲(chǔ)提供如下關(guān)鍵特性:元數(shù)據(jù)集群多個(gè)元數(shù)據(jù)服務(wù)器組成集群提供互備HA及動(dòng)態(tài)負(fù)載分擔(dān),可有效分載對(duì)目錄樹熱點(diǎn)區(qū)域的訪問,同時(shí)可在線擴(kuò)展 對(duì)元數(shù)據(jù)高密集型應(yīng)用提供支撐。并發(fā)數(shù)據(jù)恢復(fù)消除傳統(tǒng)RAID恢復(fù)技術(shù)中單盤性能瓶頸,采用多對(duì)多 的方式,從所有節(jié)點(diǎn)的所有磁盤并發(fā)進(jìn)行數(shù)據(jù)恢復(fù),可提供極高的聚合恢復(fù)帶寬,從而有效縮短因設(shè)備出錯(cuò)導(dǎo)致的全系統(tǒng)降級(jí)運(yùn)行時(shí)間。兼容POSIX/Hadoop通過提供hadoop接口,可使數(shù)據(jù)分
9、析直接基于在線生 產(chǎn)環(huán)境進(jìn)行,避免大量的數(shù)據(jù)遷移操作。動(dòng)態(tài)擴(kuò)展&容量均衡分布式集群存儲(chǔ)提供在線的容量及處理能力擴(kuò)展,包括 數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)及元數(shù)據(jù)處理節(jié)點(diǎn),并自動(dòng)在擴(kuò)容后對(duì)全系統(tǒng) 容量和熱點(diǎn)訪問進(jìn)行均衡。分布式EC數(shù)據(jù)可靠性方面,分布式集群存儲(chǔ)除了提供副本方式之 外還提供基于 Erasure code 技術(shù)的冗余方式,包括Raid5及N+1等多種策略。其數(shù)據(jù)分布也是跨節(jié)點(diǎn)跨磁盤的。HBase-分布列式數(shù)據(jù)庫HBase是適合大數(shù)據(jù)場景的一款海量分布式列數(shù)據(jù)庫產(chǎn) 品。其架構(gòu)上兼容了Hadoop體系的高可擴(kuò)展性,可支持大于幾十個(gè)節(jié)點(diǎn),PB存儲(chǔ)規(guī)模的scale-out ;性能上其針對(duì)具 體大數(shù)據(jù)應(yīng)
10、用場景進(jìn)行深度定制和調(diào)優(yōu),尤其對(duì)于高吞吐率 入庫和實(shí)時(shí)檢索場景;功能上除了支持標(biāo)準(zhǔn)的K-V訪問接口之外,XXBase還可較好的兼容 SQL標(biāo)準(zhǔn)及JDBC接口,可以 很好的與既有數(shù)據(jù)分析業(yè)務(wù)對(duì)接。尤其在索引性能優(yōu)化及對(duì) 后綴和全文索引的支持上XXBase都有顯著優(yōu)勢。圖3-3 : TBase系統(tǒng)架構(gòu)在應(yīng)用場景方面,TBase常被用作全量基礎(chǔ)數(shù)據(jù)的組織和存儲(chǔ),同時(shí)提供對(duì)此全量數(shù)據(jù)的實(shí)時(shí)查詢;此外TBase可兼容傳統(tǒng)數(shù)據(jù)倉庫 OLAP場景,對(duì)復(fù)雜SQL分析可提供近實(shí) 時(shí)的分析性能。從而可同時(shí)支持對(duì)大數(shù)據(jù)的實(shí)時(shí)查詢和復(fù)雜 離線分析。TBase底層架構(gòu)在 HDFS和MapReduce之上,功 能層分別提
11、供數(shù)據(jù)壓縮/解壓縮、數(shù)據(jù)導(dǎo)入、索引、計(jì)算、 SQL訪問以及訪問控制和應(yīng)用隔離等主要功能。其系統(tǒng)架構(gòu) 如下圖所示。圖3-4 : TBase基于 HBase的優(yōu)化增強(qiáng) TBase架構(gòu)基 于分布式列存模型進(jìn)行擴(kuò)展。其實(shí)現(xiàn)參考開源Hbase的技術(shù) 架構(gòu),并在其基礎(chǔ)上針對(duì)應(yīng)用場景進(jìn)行了深度性能調(diào)優(yōu),并 基于業(yè)務(wù)場景的實(shí)際需求對(duì)功能進(jìn)行了擴(kuò)展增強(qiáng)。其優(yōu)化點(diǎn) 涉及從客戶端到底層存儲(chǔ)的各個(gè)環(huán)節(jié),如圖3-3所示。TBase提供如下關(guān)鍵特性:SQL實(shí)時(shí)短查詢對(duì)全量數(shù)據(jù)的實(shí)時(shí)簡單查詢,包括單表多條件的組合查詢SQL長查詢OLAPXXXX大數(shù)據(jù)平臺(tái) 技術(shù)白皮書文檔版本號(hào):文檔密級(jí): 編寫人:文檔編號(hào):歸屬部門/項(xiàng)目:
12、編寫日期: 產(chǎn)品部XXXX有限公司修訂記錄:版本號(hào)v 修訂人修訂日期修訂描述XX版權(quán)所有XXXX科技有限公司保留所有權(quán)利 版權(quán)聲明:檔著作權(quán)XXXX科技有限公司享有。文中涉及 XXXX科技有限公司的專有信息,未經(jīng)XXXX科技有限公司書面許可,任何單位和個(gè)人不得使用和泄漏該文檔以及該文檔包含的 任何圖片、表格、數(shù)據(jù)及其他信息。檔中的信息隨著 XXXX科技有限公司產(chǎn)品和技術(shù)的進(jìn)步將不斷更新,XXXX科技有限公司不再通知此類信息的更新目錄第 1 章述 3第 2構(gòu)章 系統(tǒng)架 4第 3儲(chǔ)章 數(shù)據(jù)存5分布式集群存儲(chǔ)分布式文件系統(tǒng) 6HBase-分布列式數(shù)據(jù)庫Hive-數(shù)據(jù)倉庫9 GraphDB-大規(guī)模分布式并行圖數(shù)據(jù)庫 12第 4 章線13數(shù) 據(jù) 采 集換15數(shù)據(jù)理.16規(guī)濾17ETL19第 5 章擎21能 21成 21架 23子通 用 算23專用算子及分析模板25第6早高性能高可2929303030313333SQL343535模力35系統(tǒng)能營35系統(tǒng)運(yùn)境36硬件環(huán)36軟件環(huán)境36參考配置.36第1章產(chǎn)品概述XX大數(shù)據(jù)引擎平臺(tái) UDE是一款大數(shù)據(jù)通用平臺(tái)軟件產(chǎn)品,支持海量數(shù)據(jù)的采集、過濾、轉(zhuǎn)換、存儲(chǔ)、搜索、查詢、統(tǒng)計(jì)、分析、可視化與安全管理等大數(shù)據(jù)全生命周期管理,各種行業(yè)應(yīng)用和
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 廣東第二師范學(xué)院《建筑施工CAD》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東財(cái)貿(mào)職業(yè)學(xué)院《建筑設(shè)計(jì)4》2023-2024學(xué)年第一學(xué)期期末試卷
- 《泌尿系統(tǒng)疾病診治》課件
- 《落落的微笑》課件
- 廣東碧桂園職業(yè)學(xué)院《電視節(jié)目播音主持》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣安職業(yè)技術(shù)學(xué)院《設(shè)計(jì)基礎(chǔ)理論》2023-2024學(xué)年第一學(xué)期期末試卷
- 共青科技職業(yè)學(xué)院《城市社區(qū)景觀設(shè)計(jì)》2023-2024學(xué)年第一學(xué)期期末試卷
- 贛南衛(wèi)生健康職業(yè)學(xué)院《軟件測試技術(shù)》2023-2024學(xué)年第一學(xué)期期末試卷
- 贛南醫(yī)學(xué)院《新型土木水利工程材料》2023-2024學(xué)年第一學(xué)期期末試卷
- 贛南衛(wèi)生健康職業(yè)學(xué)院《科技論文寫作專題電氣》2023-2024學(xué)年第一學(xué)期期末試卷
- 《勇敢面對(duì)挫折和困難》參考課件
- 小學(xué)體育期末檢測方案
- 手術(shù)室交接班制度
- 2023-2024學(xué)年福建省莆田市荔城區(qū)中山中學(xué)、九中聯(lián)考九年級(jí)(上)期末數(shù)學(xué)試卷
- 接觸網(wǎng)設(shè)備故障應(yīng)急處理
- 3D打印技術(shù)在軍事領(lǐng)域的應(yīng)用
- 2022年1月自考00850廣告設(shè)計(jì)基礎(chǔ)試題及答案含解析
- 娛樂演藝居間合同協(xié)議書范本
- 酒店服務(wù)禮儀教程-門童篇課件
- 食堂安全用電知識(shí)培訓(xùn)課件
- 湖北省黃岡市黃州區(qū)啟黃中學(xué)2023年數(shù)學(xué)九年級(jí)第一學(xué)期期末調(diào)研模擬試題含解析
評(píng)論
0/150
提交評(píng)論