第7章-大數(shù)據(jù)系統(tǒng)架構(gòu)概述_第1頁
第7章-大數(shù)據(jù)系統(tǒng)架構(gòu)概述_第2頁
第7章-大數(shù)據(jù)系統(tǒng)架構(gòu)概述_第3頁
第7章-大數(shù)據(jù)系統(tǒng)架構(gòu)概述_第4頁
第7章-大數(shù)據(jù)系統(tǒng)架構(gòu)概述_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

大數(shù)據(jù)系統(tǒng)架構(gòu)概述總體架構(gòu)概述總體架構(gòu)設(shè)計原則

滿足大數(shù)據(jù)的V3要求

大數(shù)據(jù)容量的加載、處理和分析-要求大數(shù)據(jù)應(yīng)用平臺經(jīng)過擴展可以支持GB、TB、PB、EB甚至ZB規(guī)模的數(shù)據(jù)集

各種類型數(shù)據(jù)的加載、處理和分析-支持各種各樣的數(shù)據(jù)類型,支持處理交易數(shù)據(jù)、各種非結(jié)構(gòu)化數(shù)據(jù)、機器數(shù)據(jù)以及其他新數(shù)據(jù)結(jié)構(gòu)

大數(shù)據(jù)的處理速度-在很高速度(GB/s)的加載過程中集成來自多個來源的數(shù)據(jù)總體架構(gòu)概述總體架構(gòu)設(shè)計原則

滿足企業(yè)級應(yīng)用的要求

高可擴展性-要求平臺符合企業(yè)未來業(yè)務(wù)發(fā)展要求以及對新業(yè)務(wù)的響應(yīng),要求大數(shù)據(jù)架構(gòu)具備支持調(diào)度和執(zhí)行數(shù)百上千節(jié)點的負載工作流

高可用性-要求平臺能夠具備實時計算環(huán)境所具備的高可用性,在單點故障的情況下能夠保證應(yīng)用的可用性安全性和保護隱私-系統(tǒng)在數(shù)據(jù)采集、存儲、分析架構(gòu)上保證數(shù)據(jù)、網(wǎng)絡(luò)、存儲和計算的安全性,具備保護個人和企業(yè)隱私的措施

開放性-要求平臺能夠支持計算和存儲數(shù)以千計的、地理位置可能不同的、可能異構(gòu)的計算節(jié)點

易用性總體架構(gòu)概述總體架構(gòu)參考模型-

基于Apache開源技術(shù)的大數(shù)據(jù)平臺總體架構(gòu)參考模型如圖所示,大數(shù)據(jù)的產(chǎn)生、組織和處理主要是通過分布式分揀處理系統(tǒng)來實現(xiàn)的,主流的技術(shù)是Hadoop+MapReduce總體架構(gòu)概述大數(shù)據(jù)基礎(chǔ)-這一部分提供了大數(shù)據(jù)框架的基礎(chǔ),包括序列化、分布式協(xié)同等基礎(chǔ)服務(wù),構(gòu)成了上層應(yīng)用的基礎(chǔ)Avro-新的數(shù)據(jù)序列化與傳輸工具,將逐步取代Hadoop原有的IPC機制。

ZooKeeper-分布式鎖設(shè)施,它是一個分布式應(yīng)用程序的集中配置管理器,用戶分布式應(yīng)用的高性能協(xié)同服務(wù),由Facebook貢獻,也可以獨立于Hadoop使用。大數(shù)據(jù)存儲-HDFS是Hadoop分布式文件系統(tǒng),HDFS運行于大規(guī)模集群之上,集群使用廉價的普通機器構(gòu)建,整個文件系統(tǒng)采用的是元數(shù)據(jù)集中管理與數(shù)據(jù)塊分散存儲相結(jié)合的模式,并通過數(shù)據(jù)的冗余復(fù)制來實現(xiàn)高度容錯

總體架構(gòu)概述大數(shù)據(jù)處理-基于MapReduce寫出的應(yīng)用程序能夠運行在由上千個普通機器組成的大型集群上,并以一種可靠容錯的方式并行處理TB級別以上的數(shù)據(jù)集大數(shù)據(jù)訪問和分析-在Hadoop+MapReduce之上架構(gòu)的是基礎(chǔ)平臺服務(wù),在基礎(chǔ)平臺之上是大數(shù)據(jù)訪問和分析的應(yīng)用服務(wù)Pig-Pig支持的常用數(shù)據(jù)分析主要有分組、過濾、合并等,Pig為創(chuàng)建ApacheMapReduce應(yīng)用程序提供了一款相對簡單的工具Hive-Hive是由Facebook貢獻的數(shù)據(jù)倉庫工具,是MapReduce實現(xiàn)的用來查詢分析結(jié)構(gòu)化數(shù)據(jù)的中間件

Sqoop-Sqoop由Cloudera開發(fā),是一種用于在Hadoop與傳統(tǒng)數(shù)據(jù)庫間進行數(shù)據(jù)傳遞的開源工具

Mahout-

ApacheMahout項目提供分布式機器學(xué)習(xí)和數(shù)據(jù)挖掘庫運行架構(gòu)概述物理架構(gòu)-企業(yè)大數(shù)據(jù)系統(tǒng)的各層次系統(tǒng)最終要部署到主機節(jié)點中,這些節(jié)點通過網(wǎng)絡(luò)連接成為一個整體,為企業(yè)的大數(shù)據(jù)應(yīng)用提供物理支撐集成架構(gòu)-企業(yè)大數(shù)據(jù)系統(tǒng)由多個系統(tǒng)集成而成,每個系統(tǒng)都提供了多種協(xié)議和接口,以便企業(yè)大數(shù)據(jù)系統(tǒng)的內(nèi)部系統(tǒng)間集成和外部系統(tǒng)與大數(shù)據(jù)系統(tǒng)的集成安全架構(gòu)-由于企業(yè)大數(shù)據(jù)系統(tǒng)的數(shù)據(jù)資源和計算資源廣泛地分布在多個節(jié)點上,所以用戶的身份、權(quán)限等安全,數(shù)據(jù)資源的存儲、傳輸、訪問等安全,以及計算資源的訪問、監(jiān)控、調(diào)整、恢復(fù)等安全,都是企業(yè)大數(shù)據(jù)系統(tǒng)在進行安全架構(gòu)設(shè)計時需要考慮的問題阿里云飛天系統(tǒng)體系架構(gòu)

飛天(Apsara)是由阿里云自主研發(fā)、服務(wù)全球的超大規(guī)模通用計算操作系統(tǒng)

它可以將遍布全球的百萬級服務(wù)器連成一臺超級計算機、以在線公共服務(wù)的方式為社會提供計算能力

7年過去,飛天已經(jīng)為全球200多個國家和地區(qū)的創(chuàng)新創(chuàng)業(yè)企業(yè)、政府、機構(gòu)等提供服務(wù)阿里云飛天系統(tǒng)體系架構(gòu)阿里云飛天整體架構(gòu)-飛天平臺的體系架構(gòu)如圖所示,整個飛天平臺包括飛天內(nèi)核和飛天開發(fā)服務(wù)兩大部分阿里云飛天系統(tǒng)體系架構(gòu)飛天管理著互聯(lián)網(wǎng)規(guī)模的基礎(chǔ)設(shè)施。其最底層是遍布全球的幾十個數(shù)據(jù)中心和數(shù)百個PoP節(jié)點飛天內(nèi)核跑在每個數(shù)據(jù)中心里面,它負責(zé)統(tǒng)一管理數(shù)據(jù)中心內(nèi)的通用服務(wù)器集群,調(diào)度集群的計算、存儲資源,支撐分布式應(yīng)用的部署和執(zhí)行安全管理根植在飛天內(nèi)核最底層。飛天內(nèi)核提供的授權(quán)機制能夠有效實現(xiàn)“最小權(quán)限原則(principle

of

least

privilege)”,同時還建立了自主可控的全棧安全體系監(jiān)控報警診斷是飛天內(nèi)核最基本的能力之一。飛天內(nèi)核對上層應(yīng)用提供了非常詳細的、無間斷的監(jiān)控數(shù)據(jù)和系統(tǒng)事件采集在基礎(chǔ)公共模塊之上有兩個最核心的服務(wù),一個叫盤古,一個叫伏羲天基是飛天的自動化運維服務(wù),負責(zé)飛天各個子系統(tǒng)的部署、升級、擴容以及故障遷移阿里云飛天平臺內(nèi)核阿里云飛天平臺內(nèi)核可以分成以下幾個部分

分布式系統(tǒng)底層服務(wù)-其提供分布式環(huán)境下所需要的分布式協(xié)調(diào)服務(wù)、遠程過程調(diào)用服務(wù)、安全管理、分布式資源調(diào)度等功能盤古分布式文件系統(tǒng)-盤古(Pangu)是一個分布式文件系統(tǒng),盤古系統(tǒng)的設(shè)計目標是將大量通用機器的存儲資源聚合在一起,為用戶提供大規(guī)模、高可靠、高可用、高吞吐量和可擴展的存儲服務(wù)

伏羲任務(wù)調(diào)度系統(tǒng)-該系統(tǒng)為集群中的任務(wù)提供調(diào)度服務(wù),同時支持強調(diào)響應(yīng)速度的在線服務(wù)(OnlineService)和強調(diào)處理數(shù)據(jù)吞吐量的離線任務(wù)(BatchProcessingJob)

集群監(jiān)控和部署-神農(nóng)(Shennong)是飛天平臺內(nèi)核中負責(zé)信息收集、監(jiān)控和診斷的模塊,大禹(Dayu)是飛天內(nèi)核中負責(zé)提供配置管理和部署的模塊阿里云飛天開放服務(wù)飛天開放服務(wù),包括彈性計算(ECS)、阿里云對象存儲(OSS)、表格存儲服務(wù)(TableStore)、關(guān)系型數(shù)據(jù)庫服務(wù)(RDS)、流式計算服務(wù)(StreamCompute)和大數(shù)據(jù)計算服務(wù)(MaxCompute)等

彈性計算(ECS)

-云服務(wù)器ECS(ElasticComputeService)是一種云計算服務(wù),它的管理方式比物理服務(wù)器更加簡單、高效

阿里云對象存儲(OSS)

-阿里云對象存儲(ObjectStorageService,OSS)是阿里云對外提供的海量、安全、低成本、高可靠的云存儲服務(wù)

表格存儲(TableStore)-它是構(gòu)建在阿里云飛天分布式系統(tǒng)之上的NoSQL數(shù)據(jù)存儲服務(wù),提供海量結(jié)構(gòu)化數(shù)據(jù)的存儲和實時訪問大數(shù)據(jù)計算服務(wù)(MaxCompute)-大數(shù)據(jù)計算服務(wù)(MaxCompute,原名ODPS)是一種快速、完全托管的TB/PB級數(shù)據(jù)倉庫解決方案阿里云飛天的特色阿里云飛天OpenStack和Hadoop的不同

OpenStack和Hadoop是軟件,它們并沒有解決客戶的CAPEX投入問題、運維人員投入問題,需要部署到自有的硬件上,一般只用于單個企業(yè)的內(nèi)部環(huán)境

飛天上面提供了基于Hadoop、EMR、Mongo等開源軟件的托管服務(wù),這是飛天開放能力的體現(xiàn)阿里云飛天與

VMware、華為FusionSphere

的不同虛擬化不等于云計算,云的實時在線、海量彈性、多租戶隔離、專業(yè)運維都是傳統(tǒng)虛擬化軟件所欠缺的

VMware的三大件主要解決了計算的效率問題,但是沒有解決計算的規(guī)模問題華為的FusionSphere其實是基于開源軟件進行定制并適配華為硬件的軟件系統(tǒng),飛天內(nèi)核在規(guī)模、性能、穩(wěn)定性和通用性上都超越了FusionSphere主流大數(shù)據(jù)系統(tǒng)廠商

Cloudera-Cloudera是一家專業(yè)從事基于ApacheHadoop的數(shù)據(jù)管理軟件銷售和服務(wù)的公司,它發(fā)布的實時查詢開源項目Impala比基于MapReduce的HiveSQL的查詢速度提升了3~90倍Hortonworks-Hortonworks的開放式互聯(lián)平臺幫助企業(yè)管理所擁有的數(shù)據(jù)(動態(tài)數(shù)據(jù)以及靜態(tài)數(shù)據(jù)),為用戶組織啟用可操作情報。主流大數(shù)據(jù)系統(tǒng)廠商Amazon–

Amazon的AWS本身就是最完整的大數(shù)據(jù)平臺,AmazonWebServices提供了一系列廣泛的服務(wù),可以快速、輕松地構(gòu)建和部署大數(shù)據(jù)分析應(yīng)用程序

Google-

Google提出的MapReduce計算框架在很多大數(shù)據(jù)領(lǐng)域得到了非常廣泛的應(yīng)用

微軟-微軟推出的商業(yè)數(shù)據(jù)分析系統(tǒng)Microsoft

Analytics

Platform

System能夠通過其擴充的大規(guī)模平行

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論