云計算與大數(shù)據(jù)技術(shù)-配套課件_第1頁
云計算與大數(shù)據(jù)技術(shù)-配套課件_第2頁
云計算與大數(shù)據(jù)技術(shù)-配套課件_第3頁
云計算與大數(shù)據(jù)技術(shù)-配套課件_第4頁
云計算與大數(shù)據(jù)技術(shù)-配套課件_第5頁
已閱讀5頁,還剩190頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

云計算與大數(shù)據(jù)技術(shù)

配套課件第1章云計算概論第1節(jié)

什么是云計算?

云計算(cloudcomputing)是基于互聯(lián)網(wǎng)的相關(guān)服務(wù)的增加、使用和交付模式,通常涉及通過互聯(lián)網(wǎng)來提供動態(tài)易擴展且經(jīng)常是虛擬化的資源。

美國國家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)的定義:

云計算是一種按使用量付費的模式,這種模式提供可用的、便捷的、按需的網(wǎng)絡(luò)訪問,進入可配置的計算資源共享池(資源包括網(wǎng)絡(luò)、服務(wù)器、存儲、應(yīng)用軟件、服務(wù)),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務(wù)供應(yīng)商進行很少的交互。第2節(jié)

云計算的產(chǎn)生背景

云計算是繼1980年代大型計算機到客戶端-服務(wù)器的大轉(zhuǎn)變之后的又一種巨變。云計算是分布式計算(DistributedComputing)、并行計算(ParallelComputing)、效用計算(UtilityComputing)、網(wǎng)絡(luò)存儲(NetworkStorageTechnologies)、虛擬化(Virtualization)、負(fù)載均衡(LoadBalance)、熱備份冗余(HighAvailable)等傳統(tǒng)計算機和網(wǎng)絡(luò)技術(shù)發(fā)展融合的產(chǎn)物。第3節(jié)

云計算的發(fā)展歷史年份云計算的發(fā)展1983網(wǎng)絡(luò)是電腦2006Amazon:彈性計算云服務(wù)(EC2)

Google:云計算的概念2007Google與IBM:高校推廣,提供技術(shù)支持2008IBM:第一個云計算中心

戴爾:申請云計算商標(biāo)2010Novell與CSA:可信任云計算計劃2013中國IaaS:市場規(guī)模約為10.5億元

中國PaaS:市場規(guī)模增長近20%

全球SaaS:云計算領(lǐng)域最為成熟的細(xì)分市場2015云計算方面的相關(guān)政策不斷更新……第4節(jié)

如何學(xué)好云計算

云計算是一種基于互聯(lián)網(wǎng)的計算方式,要實現(xiàn)云計算則需要一整套的技術(shù)架構(gòu)去實施,包括網(wǎng)絡(luò)、服務(wù)器、存儲、虛擬化等。操作系統(tǒng),懂得Windows操作系統(tǒng)的安裝和基本操作、懂得AD域角色的安裝和管理、懂得組策略的配置和管理;數(shù)據(jù)庫的安裝和使用(如SQLServer);存儲的基礎(chǔ)知識(如磁盤性能、RAID等)、光纖交換機的使用等;網(wǎng)絡(luò)的基礎(chǔ)知識(如IP地址規(guī)劃、VLAN等)。第2章云計算基礎(chǔ)第1節(jié)分布式計算

分布式計算將應(yīng)用分解成許多更小的部分,分配到多臺計算機進行處理,這樣可以節(jié)省整體計算時間,大大提高計算效率。

云計算是分布式計算技術(shù)的一種,也是分布式計算這種科學(xué)概念的商業(yè)實現(xiàn)。分布式計算的優(yōu)點就是發(fā)揮“集體的力量”。

分布式計算的一種應(yīng)用是WebService:第2節(jié)

云計算的基本概念

云計算的組成可以分為六個部分,它們由下至上分別是:

基礎(chǔ)設(shè)施(Infrastructure)

存儲(Storage)

平臺(Platform)

應(yīng)用(Application)

服務(wù)(Services)

客戶端(Clients)第3節(jié)

云計算的關(guān)鍵技術(shù)

1、分布式海量數(shù)據(jù)存儲

以移動通信運營商為例,隨著移動業(yè)務(wù)和用戶規(guī)模的不斷擴大,每天都產(chǎn)生海量的業(yè)務(wù)、計費以及網(wǎng)管數(shù)據(jù),然而龐大的數(shù)據(jù)量使得傳統(tǒng)的數(shù)據(jù)庫存儲已經(jīng)無法滿足存儲和分析需求。

數(shù)據(jù)庫容量有限

并行取數(shù)困難JDBC訪問效率太低

數(shù)據(jù)庫并發(fā)訪問數(shù)太多

理想的解決方案是把大數(shù)據(jù)存儲到分布式文件系統(tǒng)中。云計算系統(tǒng)中廣泛使用的數(shù)據(jù)存儲系統(tǒng)是GFS和HDFS。2、虛擬化技術(shù)

虛擬化技術(shù)是云計算系統(tǒng)的核心組成部分之一,是將各種計算及存儲資源充分整合和高效利用的關(guān)鍵技術(shù)。

資源分享資源定制細(xì)粒度資源管理

基于以上特點,虛擬化技術(shù)成為實現(xiàn)云計算資源池化和按需服務(wù)的基礎(chǔ)。3、云平臺技術(shù)

云平臺技術(shù)能夠使大量的服務(wù)器協(xié)同工作,方便地進行業(yè)務(wù)部署,快速發(fā)現(xiàn)和恢復(fù)系統(tǒng)故障,通過自動化、智能化的手段實現(xiàn)大規(guī)模系統(tǒng)的可靠運營。

云計算平臺的主要特點是用戶不必關(guān)心云平臺底層的實現(xiàn)。4、并行編程技術(shù)

數(shù)據(jù)并行

消息傳遞5、數(shù)據(jù)管理技術(shù)

如何高效地管理大數(shù)據(jù)集?

如何在規(guī)模巨大的數(shù)據(jù)中找到特定的數(shù)據(jù)?Google的BigTable數(shù)據(jù)管理技術(shù)第4節(jié)

云交付模型

軟件即服務(wù)(SaaS)

平臺即服務(wù)(PaaS)

基礎(chǔ)設(shè)施即服務(wù)(IaaS)

容器即服務(wù)(CaaS)1、軟件即服務(wù)(SaaS)

SaaS是SoftwareasaService(軟件即服務(wù))的簡稱,它是一種通過Internet提供軟件的模式,用戶無需購買軟件,而是向提供商租用基于Web的軟件。

隨時隨地訪問

支持公開協(xié)議

安全保障

多用戶機制SaaS應(yīng)用包括Citrix公司的GoToMeeting、Cisco公司的WebEx等等。2、平臺即服務(wù)(PaaS)PaaS(PlatformasaService):是將服務(wù)器平臺或者開發(fā)環(huán)境作為服務(wù)進行提供。開發(fā)簡單、部署簡單、維護簡單。

有好的開發(fā)環(huán)境

豐富的服務(wù)

自動的資源調(diào)度

精細(xì)的管理和監(jiān)控PaaS應(yīng)用包括GoogleAppEngine、MicrosoftAzure、F、Heroku、EngineYard等等。3、基礎(chǔ)設(shè)施即服務(wù)(IaaS)

IaaS(InfrastructureasaService):服務(wù)提供商將多臺服務(wù)器組成的“云端”服務(wù)(包括內(nèi)存、I/O設(shè)備、存儲和計算能力等等)作為計量服務(wù)提供給用戶。

資源抽象

負(fù)載管理

數(shù)據(jù)管理

資源管理安全管理計費管理4、基本云交付模型的比較云交付模型服務(wù)對象使用方式關(guān)鍵技術(shù)用戶的控制等級系統(tǒng)實例IaaS需要硬件資源的用戶使用者上傳數(shù)據(jù)、程序代碼、環(huán)境配置虛擬化技術(shù)、分布式海量數(shù)據(jù)存儲等使用和配置AmazonEC2、Eucalyptus等PaaS程序開發(fā)者使用者上傳數(shù)據(jù)、程序代碼云平臺技術(shù)、數(shù)據(jù)管理技術(shù)等有限的管理GoogleAppEngine、MicrosoftAzure、Hadoop等SaaS企業(yè)和需要軟件應(yīng)用的用戶使用者上傳數(shù)據(jù)Web服務(wù)技術(shù)、互聯(lián)網(wǎng)應(yīng)用開發(fā)技術(shù)等完全的管理GoogleApps、SalesforceCRM等5、容器即服務(wù)(CaaS)

CaaS(ContainerasaService)也稱為容器云,是以容器為資源分割和調(diào)度的基本單位,封裝整個軟件運行時環(huán)境,為開發(fā)者和系統(tǒng)管理員提供用于構(gòu)建、發(fā)布和運行分布式應(yīng)用的平臺。

CaaS與基本交付模型IaaS和PaaS的關(guān)系第5節(jié)

云部署模式

公有云

私有云

混合云

1、公有云

公有云,是指為外部客戶提供服務(wù)的云,它所有的服務(wù)是供別人使用,而不是自己用。

在此種模式下,應(yīng)用程序、資源、存儲和其他服務(wù),都由云服務(wù)供應(yīng)商來提供給用戶,這些服務(wù)多半都是免費的,也有部分按需按使用量來付費,這種模式只能使用互聯(lián)網(wǎng)來訪問和使用。

問題:安全性可用性2、私有云

私有云,是指企業(yè)自己使用的云,它所有的服務(wù)不是供別人使用,而是供自己內(nèi)部人員或分支機構(gòu)使用。優(yōu)點是安全性、可用性相比公有云好一些;缺點是成本較大。3、混合云

混合云,是指供自己和客戶共同使用的云,它所提供的服務(wù)既可以供別人使用,也可以供自己使用。

混合云是兩種或兩種以上的云計算模式的混合體,如公有云和私有云混合。

相比較而言,混合云的部署方式對提供者的要求較高。第6節(jié)

云計算的優(yōu)勢與挑戰(zhàn)1、云計算的優(yōu)勢

超大規(guī)模

虛擬化

高可靠性

通用性

高擴展性

按需服務(wù)

極其廉價

2、

云計算所面臨的挑戰(zhàn)服務(wù)的持續(xù)可用性

服務(wù)的安全性

服務(wù)的遷移

服務(wù)的性能1、云存儲

云存儲是是一種新興的網(wǎng)絡(luò)存儲技術(shù),是指通過集群應(yīng)用、網(wǎng)絡(luò)技術(shù)或分布式文件系統(tǒng)等功能,將網(wǎng)絡(luò)中大量各種不同類型的存儲設(shè)備通過應(yīng)用軟件集合起來協(xié)同工作,共同對外提供數(shù)據(jù)存儲和業(yè)務(wù)訪問功能的一個系統(tǒng)。百度網(wǎng)盤

2、云服務(wù)云服務(wù)主要以郵箱為賬號,實現(xiàn)用戶登陸賬號后,內(nèi)容在線同步的作用。

典型的云服務(wù)包括了微軟“Hotmail”、谷歌“gmail”、蘋果“iCloud”等。3、云物聯(lián)

物聯(lián)網(wǎng)就是物物相連的互聯(lián)網(wǎng),物聯(lián)網(wǎng)有兩種業(yè)務(wù)模式:(1)MAI(M2MApplicationIntegration)和內(nèi)部MaaS;(2)MaaS(M2MasaService)、MMO和Multi-Tenants(多租戶模型)。

隨著物聯(lián)網(wǎng)業(yè)務(wù)量的增加,對數(shù)據(jù)存儲和計算量的需求將帶來對“云計算”能力的要求。第8節(jié)

云計算與大數(shù)據(jù)“云計算和大數(shù)據(jù)是一個硬幣的兩面,云計算是大數(shù)據(jù)的IT基礎(chǔ),而大數(shù)據(jù)是云計算的一個殺手級應(yīng)用?!?/p>

云計算與大數(shù)據(jù)的關(guān)系?

云計算能為大數(shù)據(jù)帶來了哪些變化?第3章虛擬化第1節(jié)

虛擬化簡介

1、什么是虛擬化

虛擬化是指計算機元件在虛擬的基礎(chǔ)上而不是在真實的、獨立的物理硬件基礎(chǔ)上運行。

虛擬化架構(gòu)就是在一個物理硬件機器上同時運行多個不同應(yīng)用的獨立的虛擬系統(tǒng)。

研發(fā)與測試

服務(wù)器合并

高級虛擬主機2、虛擬化的發(fā)展歷史

虛擬化技術(shù)的萌芽

虛擬化技術(shù)的雛形

虛擬化標(biāo)準(zhǔn)的提出虛擬化的進一步發(fā)展3、虛擬化帶來的好處

與傳統(tǒng)IT資源分配的應(yīng)用方式相比,使用虛擬化的優(yōu)勢有以下幾個方面:提高資源利用率降低成本,節(jié)能減排統(tǒng)一管理提高安全性第2節(jié)虛擬化的分類

實際上,我們通常所說的虛擬化技術(shù)是指服務(wù)器虛擬化技術(shù)。而除此之外,還有網(wǎng)絡(luò)虛擬化、存儲虛擬化以及應(yīng)用虛擬化等。1、服務(wù)器虛擬化

服務(wù)器虛擬化通過區(qū)分資源的優(yōu)先次序,并隨時隨地地將服務(wù)器資源分配給最需要它們的工作負(fù)載來簡化管理和提高效率,從而減少為單個工作負(fù)載峰值而儲備的資源。通過服務(wù)器虛擬化技術(shù),用戶可以動態(tài)地啟用虛擬服務(wù)器(虛擬機)。x86服務(wù)器的虛擬化技術(shù)

完全虛擬化準(zhǔn)虛擬化操作系統(tǒng)層虛擬化2、網(wǎng)絡(luò)虛擬化

網(wǎng)絡(luò)虛擬化將不同網(wǎng)絡(luò)的硬件和軟件資源結(jié)合成一個虛擬的整體,通常包括虛擬局域網(wǎng)和虛擬專用網(wǎng)。3、存儲虛擬化

存儲虛擬化就是把各種不同的存儲設(shè)備有機的結(jié)合起來進行使用,從而得到一個容量很大的“存儲池”,可以給各種服務(wù)器進行靈活的使用,并且數(shù)據(jù)可以在各存儲設(shè)備間靈活轉(zhuǎn)移。存儲虛擬化的基本概念是將實際的物理存儲實體與存儲的邏輯表示分離開來,應(yīng)用服務(wù)器只與分配給它們的邏輯卷(或稱虛卷)打交道,而不用關(guān)心其數(shù)據(jù)是在哪個物理存儲實體上。

存儲虛擬化技術(shù)主要分為硬件和軟件兩種方式來實現(xiàn)。4、應(yīng)用虛擬化

應(yīng)用虛擬化通常包括兩層含義,一是應(yīng)用軟件的虛擬化,二是桌面的虛擬化。

應(yīng)用軟件虛擬化,就是將應(yīng)用軟件從操作系統(tǒng)中分離出來,通過壓縮后的可執(zhí)行文件夾來運行,而不必需要任何設(shè)備驅(qū)動程序或者與用戶的文件系統(tǒng)相連;

桌面虛擬化技術(shù)是把應(yīng)用程序的人機交互邏輯(應(yīng)用程序界面、鍵盤及鼠標(biāo)的操作、音頻輸入輸出、讀卡器、打印輸出等)與計算邏輯隔離開來,客戶端無需安裝軟件,通過網(wǎng)絡(luò)連接到應(yīng)用服務(wù)器上,計算邏輯從本地遷移到后臺的服務(wù)器完成,實現(xiàn)應(yīng)用的快速交付和統(tǒng)一管理。5、技術(shù)比較第3節(jié)系統(tǒng)虛擬化

系統(tǒng)虛擬化的核心思想是使用虛擬化軟件在一臺物理機上,虛擬出一臺或多臺虛擬機。步驟如下。利用虛擬化評估工具進行容量規(guī)劃,實現(xiàn)同平臺應(yīng)用的資源整合;在服務(wù)器虛擬化的基礎(chǔ)上,虛擬化I/O和存儲;實現(xiàn)虛擬資源池的統(tǒng)一管理;從虛擬化邁向云計算,通過云計算實現(xiàn)跨系統(tǒng)的資源動態(tài)調(diào)整。第4節(jié)虛擬化與云計算云計算是業(yè)務(wù)模式,是產(chǎn)業(yè)形態(tài),它不是一種具體的技術(shù)。比如IaaS,PaaS和SaaS都是云計算的表現(xiàn)形式。而虛擬化技術(shù)是一種具體的技術(shù),虛擬化和分布式系統(tǒng)都是用來實現(xiàn)云計算的關(guān)鍵技術(shù)之一。虛擬化

通過虛擬化技術(shù),可以屏蔽不同硬件平臺的差異性,屏蔽不同硬件的差異所帶來的軟件兼容問題;通過虛擬化技術(shù),可以將硬件的資源通過虛擬化軟件重新整合后分配給軟件使用。虛擬化技術(shù)實現(xiàn)了硬件無差別的封裝,這種方式很適合于部署在云計算的大規(guī)模應(yīng)用中。第5節(jié)開源技術(shù)

1、Xen2、KVM

KVM使用Linux自身的調(diào)度器進行管理,所以相對于Xen,其核心源碼很少,KVM的虛擬化需要硬件支持。它是基于硬件的完全虛擬化,目前已成為主流的VMM之一。3、OpenVZ

OpenVZ是基于Linux內(nèi)核和作業(yè)系統(tǒng)的操作系統(tǒng)級虛擬化技術(shù)。OpenVZ允許物理服務(wù)器運行多個操作系統(tǒng),被稱為虛擬專用服務(wù)器(VPS,VirtualPrivateServer)或虛擬環(huán)境(VE,VirtualEnvironment)。第6節(jié)虛擬化未來發(fā)展趨勢

云計算時代是開放、共贏的時代,作為云計算基礎(chǔ)架構(gòu)的虛擬化技術(shù),將會不斷地有新的技術(shù)變革,逐步地增強開放性、安全性、兼容性以及用戶體驗。

連接協(xié)議標(biāo)準(zhǔn)化

平臺開放化

公有云私有化

虛擬化客戶端硬件化第4章云計算的應(yīng)用第1節(jié)概述

云應(yīng)用跟云計算最大的不同在于,云計算作為一種宏觀技術(shù)發(fā)展概念而存在,而云應(yīng)用則是直接面對客戶解決實際問題的產(chǎn)品?!霸茟?yīng)用”的工作原理是把傳統(tǒng)軟件“本地安裝、本地運算”的使用方式變?yōu)椤奔慈〖从谩钡姆?wù),通過互聯(lián)網(wǎng)或局域網(wǎng)連接并操控遠(yuǎn)程服務(wù)器集群,完成業(yè)務(wù)邏輯或運算任務(wù)的一種新型應(yīng)用。

跨平臺性

易用性

輕量性第2節(jié)Google的云計算平臺與應(yīng)用1、MapReduce分布式編程環(huán)境MapReduce通過“Map(映射)”和“Reduce(化簡)”這樣兩個簡單的概念來參加運算,用戶只需要提供自己的Map函數(shù)以及Reduce函數(shù)就可以在集群上進行大規(guī)模的分布式數(shù)據(jù)處理。2、分布式大規(guī)模數(shù)據(jù)庫管理系統(tǒng)BigTable

為了處理Google公司內(nèi)部大量的格式化以及半格式化數(shù)據(jù),Google公司構(gòu)建了弱一致性要求的大規(guī)模數(shù)據(jù)庫系統(tǒng)BigTable。第3節(jié)亞馬遜的彈性計算云

彈性計算云(ElasticComputeCloud,EC2)開放的服務(wù)靈活的工作模式第4節(jié)IBM藍(lán)云云計算平臺IBM公司在2007年11月15日推出了藍(lán)云計算平臺,為用戶提供“即買即用”的云計算平臺。

它包括一系列的云計算產(chǎn)品,使得計算不僅僅局限在本地機器或遠(yuǎn)程服務(wù)器農(nóng)場(即服務(wù)器集群),通過架構(gòu)一個分布式、可全球訪問的資源結(jié)構(gòu),使得數(shù)據(jù)中心在類似于互聯(lián)網(wǎng)的環(huán)境下運行計算。1、藍(lán)云云計算平臺中的虛擬化

在每一個節(jié)點上運行的軟件棧與傳統(tǒng)的軟件棧一個很大的不同在于藍(lán)云云計算平臺內(nèi)部使用了虛擬化技術(shù)。通過將虛擬化的技術(shù)應(yīng)用到云計算的平臺,可以獲得如下一些良好的特性:

云計算的管理平臺能夠動態(tài)地將計算平臺定位到所需要的物理平臺上;

能夠更加有效率地使用主機資源;

通過動態(tài)遷移,能夠獲得與應(yīng)用無關(guān)的負(fù)載平衡性能;

在部署上也更加靈活。2、藍(lán)云云計算平臺中的存儲結(jié)構(gòu)

在設(shè)計云計算平臺的存儲體系結(jié)構(gòu)的時候,不僅僅是需要考慮存儲的容量。實際上隨著硬盤容量的不斷擴充以及硬盤價格的不斷下降,使用當(dāng)前的磁盤技術(shù),可以很容易通過使用多個磁盤的方式獲得很大的磁盤容量。下圖是一個SAN系統(tǒng)的結(jié)構(gòu)示意圖。第5節(jié)清華大學(xué)透明計算平臺

在透明計算中,用戶無須感知計算具體所在位置以及操作系統(tǒng)、中間件、應(yīng)用等技術(shù)細(xì)節(jié),只需要根據(jù)自己的需求,通過連通在網(wǎng)絡(luò)之上的各種設(shè)備選取相應(yīng)的服務(wù)。第6節(jié)阿里云

阿里云是阿里巴巴集團旗下的云計算品牌,全球卓越的云計算技術(shù)和服務(wù)提供商。1、簡介

阿里云致力于為企業(yè)、政府等組織機構(gòu),提供最安全、可靠的計算和數(shù)據(jù)處理能力,讓計算成為普惠科技和公共服務(wù),為萬物互聯(lián)的DT世界,提供源源不斷的新能源。

阿里云在全球各地部署高效節(jié)能的綠色數(shù)據(jù)中心,利用清潔計算支持不同的互聯(lián)網(wǎng)應(yīng)用。2、阿里云的發(fā)展過程

2015年天貓雙11,阿里云用技術(shù)支撐912億交易額,每秒交易創(chuàng)建峰值達(dá)14萬筆。全球最大規(guī)?;旌显萍軜?gòu)、全球首個核心交易系統(tǒng)上云、1000公里外交易支付“異地多活”、全球首個金融級數(shù)據(jù)庫OceanBase等世界級的技術(shù),通過阿里云向外輸出。3、阿里云的主要產(chǎn)品

底層技術(shù)平臺

彈性計算

云數(shù)據(jù)庫RDS

存儲與CDN

網(wǎng)絡(luò)

大規(guī)模計算

云盾

管理與監(jiān)控

應(yīng)用服務(wù)

萬網(wǎng)服務(wù)第7節(jié)MicrosoftAzure1、簡介WindowsAzure是微軟基于云計算的操作系統(tǒng),現(xiàn)在更名為“MicrosoftAzure”,和AzureServicesPlatform一樣,是微軟“軟件和服務(wù)”技術(shù)的名稱。MicrosoftAzure的主要目標(biāo)是為開發(fā)者提供一個平臺,幫助開發(fā)可運行在云服務(wù)器、數(shù)據(jù)中心、Web和PC上的應(yīng)用程序。

云計算的開發(fā)者能使用微軟全球數(shù)據(jù)中心的儲存、計算能力和網(wǎng)絡(luò)基礎(chǔ)服務(wù)。

Azure服務(wù)平臺包括了以下主要組件:MicrosoftAzure;MicrosoftSQL數(shù)據(jù)庫服務(wù),Microsoft.Net服務(wù);用于分享、儲存和同步文件的Live服務(wù);針對商業(yè)的MicrosoftSharePoint和MicrosoftDynamicsCRM服務(wù)。2、MicrosoftAzure架構(gòu)MicrosoftAzure具有針對數(shù)據(jù)中心架構(gòu)的自我管理(autonomous)機能,可以自動監(jiān)控劃分在數(shù)據(jù)中心數(shù)個不同的分區(qū)(微軟將這些分區(qū)稱為FaultDomain)的所有服務(wù)器與存儲資源,自動更新補丁,自動運行虛擬機部署與鏡像備份(SnapshotBackup)等能力。MicrosoftAzure被安裝在數(shù)據(jù)中心的所有服務(wù)器中,并且定時和中控軟件(MicrosoftAzureFabricController)進行溝通,接收指令以及回傳運行狀態(tài)數(shù)據(jù)等,系統(tǒng)管理人員只要通過MicrosoftAzureFabricController就能夠掌握所有服務(wù)器的運行狀態(tài)。3、MicrosoftAzure服務(wù)平臺

網(wǎng)站

VirtualMachinesCloudServicesMobile服務(wù)

大型數(shù)據(jù)處理

Media媒體支持4、開發(fā)步驟

使用WindowsAzure的專用工具專為分布式處理進行設(shè)計

為最佳性能進行規(guī)劃第5章大數(shù)據(jù)概念和發(fā)展背景大數(shù)據(jù)定義大數(shù)據(jù)是一個不斷發(fā)展的概念,可以指任何體量或復(fù)雜性超出常規(guī)數(shù)據(jù)處理方法和處理能力的數(shù)據(jù)數(shù)據(jù)本身可以是結(jié)構(gòu)化、半結(jié)構(gòu)化甚至是非結(jié)構(gòu)化的海量數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)大數(shù)據(jù)定義狹義上講,大數(shù)據(jù)主要是指處理海量數(shù)據(jù)的關(guān)鍵技術(shù)及其在各個領(lǐng)域中的應(yīng)用廣義上講,大數(shù)據(jù)包括大數(shù)據(jù)技術(shù)、大數(shù)據(jù)工程、大數(shù)據(jù)科學(xué)和大數(shù)據(jù)應(yīng)用等與大數(shù)據(jù)相關(guān)的領(lǐng)域大數(shù)據(jù)的特點IBM公司使用3V來描述大數(shù)據(jù)的特點Volume(體量)。通過各種設(shè)備產(chǎn)生的海量數(shù)據(jù)體量巨大,遠(yuǎn)大于目前互聯(lián)網(wǎng)上的信息流量

Variety(多樣)。大數(shù)據(jù)類型繁多,在編碼方式、數(shù)據(jù)格式、應(yīng)用特征等多個方面存在差異

Velocity(速率)。數(shù)據(jù)以非常高的速率到達(dá)系統(tǒng)內(nèi)部,這就要求處理數(shù)據(jù)段的速度必須非???/p>

大數(shù)據(jù)的發(fā)展大數(shù)據(jù)技術(shù)是一種新一代技術(shù)和構(gòu)架,它成本較低,以快速的采集、處理和分析技術(shù)從各種超大規(guī)模的數(shù)據(jù)中提取價值

大數(shù)據(jù)采集與預(yù)處理方向-目前很多公司已經(jīng)推出了多種數(shù)據(jù)清洗和質(zhì)量控制工具(如IBM公司的DataStage)大數(shù)據(jù)存儲與管理方向-這個方向最常見的挑戰(zhàn)是存儲規(guī)模大,存儲管理復(fù)雜,需要兼顧結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)大數(shù)據(jù)計算模式方向-目前出現(xiàn)了多種典型的計算模式,包括大數(shù)據(jù)查詢分析計算(如Hive)、批處理計算(如Hadoop

MapReduce)等大數(shù)據(jù)的發(fā)展大數(shù)據(jù)技術(shù)是一種新一代技術(shù)和構(gòu)架,它成本較低,以快速的采集、處理和分析技術(shù)從各種超大規(guī)模的數(shù)據(jù)中提取價值

大數(shù)據(jù)分析與挖掘方向-在數(shù)據(jù)量迅速增加的同時,還要進行深度的數(shù)據(jù)分析和挖掘,并且對自動化分析要求越來越高

大數(shù)據(jù)可視化分析方向-通過可視化方式來幫助人們探索和解釋復(fù)雜的數(shù)據(jù),有利于決策者挖掘數(shù)據(jù)的商業(yè)價值,進而有助于大數(shù)據(jù)的發(fā)展

大數(shù)據(jù)安全方向-文件訪問控制權(quán)限ACL、基礎(chǔ)設(shè)備加密、匿名化保護技術(shù)和加密保護等技術(shù)正在最大程度地保護數(shù)據(jù)安全大數(shù)據(jù)的應(yīng)用梅西百貨的實時定價機制-根據(jù)需求和庫存的情況,該公司基于SAS的系統(tǒng)對多達(dá)7300萬種貨品進行實時調(diào)價Tipp24AG針對歐洲博彩業(yè)構(gòu)建的下注和預(yù)測平臺-該公司用KXEN軟件來分析數(shù)十億計的交易以及客戶的特性,然后通過預(yù)測模型對特定用戶進行動態(tài)的營銷活動沃爾瑪?shù)乃阉?這家零售業(yè)寡頭為其網(wǎng)站W(wǎng)自行設(shè)計了最新的搜索引擎Polaris,利用語義數(shù)據(jù)進行文本分析、機器學(xué)習(xí)和同義詞挖掘等TescoPLC(特易購)和運營效率-

這家連鎖超市在其數(shù)據(jù)倉庫中收集了700萬部冰箱的數(shù)據(jù)。通過對這些數(shù)據(jù)的分析進行更全面的監(jiān)控,并進行主動的維修以降低整體能耗第6章大數(shù)據(jù)系統(tǒng)架構(gòu)概述總體架構(gòu)概述總體架構(gòu)設(shè)計原則

滿足大數(shù)據(jù)的V3要求

大數(shù)據(jù)容量的加載、處理和分析-要求大數(shù)據(jù)應(yīng)用平臺經(jīng)過擴展可以支持GB、TB、PB、EB甚至ZB規(guī)模的數(shù)據(jù)集

各種類型數(shù)據(jù)的加載、處理和分析-支持各種各樣的數(shù)據(jù)類型,支持處理交易數(shù)據(jù)、各種非結(jié)構(gòu)化數(shù)據(jù)、機器數(shù)據(jù)以及其他新數(shù)據(jù)結(jié)構(gòu)

大數(shù)據(jù)的處理速度-在很高速度(GB/s)的加載過程中集成來自多個來源的數(shù)據(jù)總體架構(gòu)概述總體架構(gòu)設(shè)計原則

滿足企業(yè)級應(yīng)用的要求

高可擴展性-要求平臺符合企業(yè)未來業(yè)務(wù)發(fā)展要求以及對新業(yè)務(wù)的響應(yīng),要求大數(shù)據(jù)架構(gòu)具備支持調(diào)度和執(zhí)行數(shù)百上千節(jié)點的負(fù)載工作流

高可用性-要求平臺能夠具備實時計算環(huán)境所具備的高可用性,在單點故障的情況下能夠保證應(yīng)用的可用性安全性和保護隱私-系統(tǒng)在數(shù)據(jù)采集、存儲、分析架構(gòu)上保證數(shù)據(jù)、網(wǎng)絡(luò)、存儲和計算的安全性,具備保護個人和企業(yè)隱私的措施

開放性-要求平臺能夠支持計算和存儲數(shù)以千計的、地理位置可能不同的、可能異構(gòu)的計算節(jié)點

易用性總體架構(gòu)概述總體架構(gòu)參考模型-

基于Apache開源技術(shù)的大數(shù)據(jù)平臺總體架構(gòu)參考模型如圖所示,大數(shù)據(jù)的產(chǎn)生、組織和處理主要是通過分布式分揀處理系統(tǒng)來實現(xiàn)的,主流的技術(shù)是Hadoop+MapReduce總體架構(gòu)概述大數(shù)據(jù)基礎(chǔ)-這一部分提供了大數(shù)據(jù)框架的基礎(chǔ),包括序列化、分布式協(xié)同等基礎(chǔ)服務(wù),構(gòu)成了上層應(yīng)用的基礎(chǔ)Avro-新的數(shù)據(jù)序列化與傳輸工具,將逐步取代Hadoop原有的IPC機制。

ZooKeeper-分布式鎖設(shè)施,它是一個分布式應(yīng)用程序的集中配置管理器,用戶分布式應(yīng)用的高性能協(xié)同服務(wù),由Facebook貢獻(xiàn),也可以獨立于Hadoop使用。大數(shù)據(jù)存儲-HDFS是Hadoop分布式文件系統(tǒng),HDFS運行于大規(guī)模集群之上,集群使用廉價的普通機器構(gòu)建,整個文件系統(tǒng)采用的是元數(shù)據(jù)集中管理與數(shù)據(jù)塊分散存儲相結(jié)合的模式,并通過數(shù)據(jù)的冗余復(fù)制來實現(xiàn)高度容錯

總體架構(gòu)概述大數(shù)據(jù)處理-基于MapReduce寫出的應(yīng)用程序能夠運行在由上千個普通機器組成的大型集群上,并以一種可靠容錯的方式并行處理TB級別以上的數(shù)據(jù)集大數(shù)據(jù)訪問和分析-在Hadoop+MapReduce之上架構(gòu)的是基礎(chǔ)平臺服務(wù),在基礎(chǔ)平臺之上是大數(shù)據(jù)訪問和分析的應(yīng)用服務(wù)Pig-Pig支持的常用數(shù)據(jù)分析主要有分組、過濾、合并等,Pig為創(chuàng)建ApacheMapReduce應(yīng)用程序提供了一款相對簡單的工具Hive-Hive是由Facebook貢獻(xiàn)的數(shù)據(jù)倉庫工具,是MapReduce實現(xiàn)的用來查詢分析結(jié)構(gòu)化數(shù)據(jù)的中間件

Sqoop-Sqoop由Cloudera開發(fā),是一種用于在Hadoop與傳統(tǒng)數(shù)據(jù)庫間進行數(shù)據(jù)傳遞的開源工具

Mahout-

ApacheMahout項目提供分布式機器學(xué)習(xí)和數(shù)據(jù)挖掘庫運行架構(gòu)概述物理架構(gòu)-企業(yè)大數(shù)據(jù)系統(tǒng)的各層次系統(tǒng)最終要部署到主機節(jié)點中,這些節(jié)點通過網(wǎng)絡(luò)連接成為一個整體,為企業(yè)的大數(shù)據(jù)應(yīng)用提供物理支撐集成架構(gòu)-企業(yè)大數(shù)據(jù)系統(tǒng)由多個系統(tǒng)集成而成,每個系統(tǒng)都提供了多種協(xié)議和接口,以便企業(yè)大數(shù)據(jù)系統(tǒng)的內(nèi)部系統(tǒng)間集成和外部系統(tǒng)與大數(shù)據(jù)系統(tǒng)的集成安全架構(gòu)-由于企業(yè)大數(shù)據(jù)系統(tǒng)的數(shù)據(jù)資源和計算資源廣泛地分布在多個節(jié)點上,所以用戶的身份、權(quán)限等安全,數(shù)據(jù)資源的存儲、傳輸、訪問等安全,以及計算資源的訪問、監(jiān)控、調(diào)整、恢復(fù)等安全,都是企業(yè)大數(shù)據(jù)系統(tǒng)在進行安全架構(gòu)設(shè)計時需要考慮的問題阿里云飛天系統(tǒng)體系架構(gòu)

飛天(Apsara)是由阿里云自主研發(fā)、服務(wù)全球的超大規(guī)模通用計算操作系統(tǒng)

它可以將遍布全球的百萬級服務(wù)器連成一臺超級計算機、以在線公共服務(wù)的方式為社會提供計算能力

7年過去,飛天已經(jīng)為全球200多個國家和地區(qū)的創(chuàng)新創(chuàng)業(yè)企業(yè)、政府、機構(gòu)等提供服務(wù)阿里云飛天系統(tǒng)體系架構(gòu)阿里云飛天整體架構(gòu)-飛天平臺的體系架構(gòu)如圖所示,整個飛天平臺包括飛天內(nèi)核和飛天開發(fā)服務(wù)兩大部分阿里云飛天系統(tǒng)體系架構(gòu)飛天管理著互聯(lián)網(wǎng)規(guī)模的基礎(chǔ)設(shè)施。其最底層是遍布全球的幾十個數(shù)據(jù)中心和數(shù)百個PoP節(jié)點飛天內(nèi)核跑在每個數(shù)據(jù)中心里面,它負(fù)責(zé)統(tǒng)一管理數(shù)據(jù)中心內(nèi)的通用服務(wù)器集群,調(diào)度集群的計算、存儲資源,支撐分布式應(yīng)用的部署和執(zhí)行安全管理根植在飛天內(nèi)核最底層。飛天內(nèi)核提供的授權(quán)機制能夠有效實現(xiàn)“最小權(quán)限原則(principle

of

least

privilege)”,同時還建立了自主可控的全棧安全體系監(jiān)控報警診斷是飛天內(nèi)核最基本的能力之一。飛天內(nèi)核對上層應(yīng)用提供了非常詳細(xì)的、無間斷的監(jiān)控數(shù)據(jù)和系統(tǒng)事件采集在基礎(chǔ)公共模塊之上有兩個最核心的服務(wù),一個叫盤古,一個叫伏羲天基是飛天的自動化運維服務(wù),負(fù)責(zé)飛天各個子系統(tǒng)的部署、升級、擴容以及故障遷移阿里云飛天平臺內(nèi)核阿里云飛天平臺內(nèi)核可以分成以下幾個部分

分布式系統(tǒng)底層服務(wù)-其提供分布式環(huán)境下所需要的分布式協(xié)調(diào)服務(wù)、遠(yuǎn)程過程調(diào)用服務(wù)、安全管理、分布式資源調(diào)度等功能盤古分布式文件系統(tǒng)-盤古(Pangu)是一個分布式文件系統(tǒng),盤古系統(tǒng)的設(shè)計目標(biāo)是將大量通用機器的存儲資源聚合在一起,為用戶提供大規(guī)模、高可靠、高可用、高吞吐量和可擴展的存儲服務(wù)

伏羲任務(wù)調(diào)度系統(tǒng)-該系統(tǒng)為集群中的任務(wù)提供調(diào)度服務(wù),同時支持強調(diào)響應(yīng)速度的在線服務(wù)(OnlineService)和強調(diào)處理數(shù)據(jù)吞吐量的離線任務(wù)(BatchProcessingJob)

集群監(jiān)控和部署-神農(nóng)(Shennong)是飛天平臺內(nèi)核中負(fù)責(zé)信息收集、監(jiān)控和診斷的模塊,大禹(Dayu)是飛天內(nèi)核中負(fù)責(zé)提供配置管理和部署的模塊阿里云飛天開放服務(wù)飛天開放服務(wù),包括彈性計算(ECS)、阿里云對象存儲(OSS)、表格存儲服務(wù)(TableStore)、關(guān)系型數(shù)據(jù)庫服務(wù)(RDS)、流式計算服務(wù)(StreamCompute)和大數(shù)據(jù)計算服務(wù)(MaxCompute)等

彈性計算(ECS)

-云服務(wù)器ECS(ElasticComputeService)是一種云計算服務(wù),它的管理方式比物理服務(wù)器更加簡單、高效

阿里云對象存儲(OSS)

-阿里云對象存儲(ObjectStorageService,OSS)是阿里云對外提供的海量、安全、低成本、高可靠的云存儲服務(wù)

表格存儲(TableStore)-它是構(gòu)建在阿里云飛天分布式系統(tǒng)之上的NoSQL數(shù)據(jù)存儲服務(wù),提供海量結(jié)構(gòu)化數(shù)據(jù)的存儲和實時訪問大數(shù)據(jù)計算服務(wù)(MaxCompute)-大數(shù)據(jù)計算服務(wù)(MaxCompute,原名ODPS)是一種快速、完全托管的TB/PB級數(shù)據(jù)倉庫解決方案阿里云飛天的特色阿里云飛天OpenStack和Hadoop的不同

OpenStack和Hadoop是軟件,它們并沒有解決客戶的CAPEX投入問題、運維人員投入問題,需要部署到自有的硬件上,一般只用于單個企業(yè)的內(nèi)部環(huán)境

飛天上面提供了基于Hadoop、EMR、Mongo等開源軟件的托管服務(wù),這是飛天開放能力的體現(xiàn)阿里云飛天與

VMware、華為FusionSphere

的不同虛擬化不等于云計算,云的實時在線、海量彈性、多租戶隔離、專業(yè)運維都是傳統(tǒng)虛擬化軟件所欠缺的

VMware的三大件主要解決了計算的效率問題,但是沒有解決計算的規(guī)模問題華為的FusionSphere其實是基于開源軟件進行定制并適配華為硬件的軟件系統(tǒng),飛天內(nèi)核在規(guī)模、性能、穩(wěn)定性和通用性上都超越了FusionSphere主流大數(shù)據(jù)系統(tǒng)廠商

Cloudera-Cloudera是一家專業(yè)從事基于ApacheHadoop的數(shù)據(jù)管理軟件銷售和服務(wù)的公司,它發(fā)布的實時查詢開源項目Impala比基于MapReduce的HiveSQL的查詢速度提升了3~90倍Hortonworks-Hortonworks的開放式互聯(lián)平臺幫助企業(yè)管理所擁有的數(shù)據(jù)(動態(tài)數(shù)據(jù)以及靜態(tài)數(shù)據(jù)),為用戶組織啟用可操作情報。主流大數(shù)據(jù)系統(tǒng)廠商Amazon–

Amazon的AWS本身就是最完整的大數(shù)據(jù)平臺,AmazonWebServices提供了一系列廣泛的服務(wù),可以快速、輕松地構(gòu)建和部署大數(shù)據(jù)分析應(yīng)用程序

Google-

Google提出的MapReduce計算框架在很多大數(shù)據(jù)領(lǐng)域得到了非常廣泛的應(yīng)用

微軟-微軟推出的商業(yè)數(shù)據(jù)分析系統(tǒng)Microsoft

Analytics

Platform

System能夠通過其擴充的大規(guī)模平行處理整合式系統(tǒng)支持混合格式的數(shù)據(jù)倉庫,借此適應(yīng)數(shù)據(jù)倉庫環(huán)境不斷發(fā)展的需求阿里云數(shù)加平臺數(shù)加是阿里云為企業(yè)大數(shù)據(jù)的實施提供的一套完整的一站式大數(shù)據(jù)解決方案,覆蓋數(shù)加平臺由大數(shù)據(jù)計算服務(wù)(MaxCompute)、分析型數(shù)據(jù)庫(AnalyticDB)、流計算(StreamCompute)共同組成了底層強大的計算引擎,速度更快,成本更低阿里云數(shù)加平臺架構(gòu)一站式解決方案第7章分布式通信與協(xié)同數(shù)據(jù)編碼傳輸數(shù)據(jù)編碼概述-在分布式系統(tǒng)中需要處理大量的網(wǎng)絡(luò)數(shù)據(jù),為了加快網(wǎng)絡(luò)數(shù)據(jù)的傳輸速度,通常需要對傳輸數(shù)據(jù)進行編碼壓縮一般來說,數(shù)據(jù)壓縮主要是通過數(shù)據(jù)壓縮編碼來實現(xiàn)的。在給定的模型下通過數(shù)據(jù)編碼來消除冗余,大致有以下3種情況信源符號之間存在相關(guān)性信源符號之間存在分布不等概性利用信息內(nèi)容本身的特點(如自相似性)

數(shù)據(jù)編碼傳輸目前比較認(rèn)同的、常用的數(shù)據(jù)壓縮的編碼方法大致分為兩大類

冗余壓縮法或無損壓縮法-這類壓縮方法只是去掉數(shù)據(jù)中的冗余部分,并沒有損失熵,而這些冗余數(shù)據(jù)是可以重新插入到原數(shù)據(jù)中的

熵壓縮法或有損壓縮法-這類壓縮法由于壓縮了熵,也就損失了信息量,而損失的信息是不能恢復(fù)的LZSS算法LZSS算法屬于字典算法,是把文本中出現(xiàn)頻率較高的字符組合做成一個對應(yīng)的字典列表,并用特殊代碼來表示這個字符

LZSS算法的字典模型使用自適應(yīng)方式,基本的思路是搜索目前待壓縮串是否在以前出現(xiàn)過Snappy壓縮庫Snappy是在Google公司內(nèi)部生產(chǎn)環(huán)境中被許多項目使用的壓縮/解壓縮的鏈接庫,使用該庫的軟件包括BigTable、MapReduce和RPC等

Snappy是面向字節(jié)編碼的LZ77類型壓縮器。Snappy采用的編碼單元是字節(jié)(byte),而不是比特(bit)采用小端方式(little-endian)存儲,同時兼顧可變長度編碼遠(yuǎn)程過程調(diào)用遠(yuǎn)程過程調(diào)用(RemoteProcedureCall)是一個計算機通信協(xié)議,通過該協(xié)議運行于一臺計算機上的程序可以調(diào)用另一臺計算機的子程序,而程序員無須額外地為這個交互編程。RPC框架都支持以下特性:接口描述語言、高性能、數(shù)據(jù)版本支持以及二進制數(shù)據(jù)格式Thrift是由Facebook公司開發(fā)的遠(yuǎn)程服務(wù)調(diào)用框架,它采用接口描述語言定義并創(chuàng)建服務(wù),支持可擴展的跨語言服務(wù)開發(fā)消息隊列消息隊列也是設(shè)計大規(guī)模分布式系統(tǒng)時經(jīng)常采用的中間件產(chǎn)品消息隊列是在消息傳遞過程中保存消息的容器或中間件,其主要目的是提供消息路由并保障消息可靠傳遞分布式消息系統(tǒng)Kafka采用pub-sub機制,具有極高的消息吞吐量、較強的擴展型和高可用性應(yīng)用層多播通信分布式系統(tǒng)中的一個重要的研究內(nèi)容是如何將數(shù)據(jù)通知到網(wǎng)絡(luò)中的多個接收方,這一般被稱為多播通信Gosip協(xié)議就是常見的應(yīng)用層多播通信協(xié)議Gossip協(xié)議也被稱為“感染協(xié)議”(EpidemicProtocol),用來盡快地將本地更新數(shù)據(jù)通知到網(wǎng)絡(luò)中的所有其他節(jié)點其具體更新模型又可以分為3種:全通知模型、反熵模型和散步謠言模型阿里云KuafuRPC系統(tǒng)夸父(Kuafu)是飛天平臺內(nèi)核中負(fù)責(zé)網(wǎng)絡(luò)通信的模塊,它提供了一個RPC的接口,簡化編寫基于網(wǎng)絡(luò)的分布式應(yīng)用夸父的設(shè)計目標(biāo)是提供高可用(7×24小時)、大吞吐量(Gigabyte)、高效率、易用(簡明API、多種協(xié)議和編程接口)的RPC服務(wù)HadoopIPC的應(yīng)用在Hadoop系統(tǒng)中,HadoopIPC為HDFS、MapReduce提供了高效的RPC通信機制HadoopIPC的Server端相對比較復(fù)雜,包括Listener、Reader、Handler和Responder等多種類型的線程分布式協(xié)同系統(tǒng)當(dāng)前的大規(guī)模分布式系統(tǒng)涉及大量的機器,這些機器之間需要進行大量的網(wǎng)絡(luò)通信以及各個節(jié)點之間的消息通信協(xié)同Chubby鎖服務(wù)

Chubby是Google公司研發(fā)的針對分布式系統(tǒng)協(xié)調(diào)管理的粗粒度服務(wù)Chubby的理論基礎(chǔ)是Paxos(一致性協(xié)議),Paxos是在完全分布式環(huán)境下不同客戶端能夠通過交互通信并投票對于某個決定達(dá)成一致的算法

Chubby的設(shè)計目標(biāo)基于以下幾點:高可用性、高可靠性、支持粗粒度的建議性鎖服務(wù)、支持小規(guī)模文件直接存儲Client與Chubby的通信ZooKeperZooKeper是Yahoo!開發(fā)的一套開源高吞吐分布式協(xié)調(diào)系統(tǒng)ZooKeeper是由多臺同構(gòu)服務(wù)器構(gòu)成的一個集群,共用信息存儲在集群系統(tǒng)中,共用信息采用樹形結(jié)構(gòu)來存儲阿里云Nuwa協(xié)同系統(tǒng)女媧(Nuwa)系統(tǒng)為飛天提供高可用的協(xié)調(diào)服務(wù)(CoordinationService),是構(gòu)建各類分布式應(yīng)用的核心服務(wù)

女媧系統(tǒng)基于類Paxos協(xié)議,由多個女媧Server以類似文件系統(tǒng)的樹形結(jié)構(gòu)存儲數(shù)據(jù),提供高可用、高并發(fā)用戶請求的處理能力ZooKeeper在HDFS高可用方案中的使用第8章大數(shù)據(jù)存儲大數(shù)據(jù)的存儲問題容量-“大容量”通常是指可達(dá)PB級的數(shù)據(jù)規(guī)模延遲-大數(shù)據(jù)應(yīng)用不可避免地存在實時性的問題安全-催生出了一些新的、需要重新考慮的安全性問題成本-只有讓每一臺設(shè)備都實現(xiàn)更高的“效率”,才能控制住成本靈活性-大數(shù)據(jù)存儲系統(tǒng)的基礎(chǔ)設(shè)施規(guī)模都很大,為了保證存儲系統(tǒng)的靈活性,使其能夠隨時擴容及擴展

大數(shù)據(jù)存儲技術(shù)的發(fā)展人工管理文件系統(tǒng)數(shù)據(jù)庫GoogleFileSystem、HDFS、HBase

etc海量數(shù)據(jù)存儲的關(guān)鍵技術(shù)大數(shù)據(jù)處理面臨的首要問題是如何有效地存儲規(guī)模巨大的數(shù)據(jù)數(shù)據(jù)分片和數(shù)據(jù)復(fù)制數(shù)據(jù)分片與路由對于海量數(shù)據(jù),將數(shù)據(jù)進行切分并分配到各個機器中的過程叫分片(shard/partition),即將不同數(shù)據(jù)存放在不同節(jié)點數(shù)據(jù)分片后,找到某條記錄的存儲位置稱為數(shù)據(jù)路由(routing)數(shù)據(jù)分片與路由的抽象模型如右圖所示數(shù)據(jù)分片把數(shù)據(jù)的各個部分存放在不同的服務(wù)器/節(jié)點中,每個服務(wù)器/節(jié)點負(fù)責(zé)自身數(shù)據(jù)的讀取與寫入操作,以此實現(xiàn)橫向擴展,這種技術(shù)稱為分片如何存放數(shù)據(jù)-可以實現(xiàn)用戶從一個邏輯節(jié)點(實際多個物理節(jié)點的方式)獲取數(shù)據(jù),并且不用擔(dān)心數(shù)據(jù)的存放位置如何保證負(fù)載平衡-即如何把聚合數(shù)據(jù)均勻地分布在各個節(jié)點中,讓它們需要處理的負(fù)載量相等

哈希分片采用哈希函數(shù)建立Key-Partition映射,其只支持點查詢,不支持范圍查詢,主要有RoundRobin、虛擬桶、一致性哈希3種算法RoundRobin

-其俗稱哈希取模算法,若有k臺機器,分片算法如下:

H(key)

=hash(key)

modk優(yōu)點:實現(xiàn)簡單缺點:缺乏靈活性,若有新機器加入,之前所有數(shù)據(jù)與機器之間的映射關(guān)系都被打亂,需要重新計算

哈希分片虛擬桶-在RoundRobin的基礎(chǔ)上,虛擬桶算法加入一個“虛擬桶層”,形成兩級映射所有記錄首先通過哈希函數(shù)映射到對應(yīng)的虛擬桶(多對一映射)。虛擬桶和物理機之間再有一層映射(同樣是多對一)右圖是Membase虛擬桶的運行優(yōu)點:增加了系統(tǒng)擴展的靈活性缺點:實現(xiàn)相對麻煩

哈希分片一致性哈希-一致性哈希是分布式哈希表的一種實現(xiàn)算法,將哈希數(shù)值空間按照大小組成一個首尾相接的環(huán)狀序列。對于一致性哈??赡茉斐傻母鱾€節(jié)點負(fù)載不均衡的情況,可以采用虛擬節(jié)點的方式來解決在哈??臻g可容納長度為32的二進制數(shù)值(m=32)空間里,每個機器根據(jù)IP地址或者端口號經(jīng)過哈希函數(shù)映射到環(huán)內(nèi)

范圍分片范圍分片首先將所有記錄的主鍵進行排序,然后在排好序的主鍵空間里將記錄劃分成數(shù)據(jù)分片支持范圍查詢即給定記錄主鍵的范圍而一次讀取多條記錄,范圍分片既支持點查詢,也支持范圍查詢路由直接查找法-如果哈希值落在自身管轄的范圍內(nèi),則在此節(jié)點上查詢,否則繼續(xù)往后找,一直找到節(jié)點Nx,x是大于等于待查節(jié)點值的最小編號路由表法-直接查找法缺乏效率,為了加快查找速度,可以在每個機器節(jié)點配置路由表,路由表存儲每個節(jié)點到每個除自身節(jié)點的距離一致性哈希路由算法數(shù)據(jù)復(fù)制與一致性將同一份數(shù)據(jù)放置到多個節(jié)點(主從master-slave方式、對等式per-to-per)的過程稱為復(fù)制主從復(fù)制

-master-slave模式,其中有一個master節(jié)點,存放重要數(shù)據(jù),通常負(fù)責(zé)數(shù)據(jù)的更新,其余節(jié)點都叫slave節(jié)點,復(fù)制操作就是讓slave節(jié)點的數(shù)據(jù)與master節(jié)點的數(shù)據(jù)同步對等復(fù)制-對等復(fù)制是指兩個節(jié)點相互為各自的副本,沒有主從的概念數(shù)據(jù)一致性-強一致、弱一致性、最終一致性等重要數(shù)據(jù)結(jié)構(gòu)和算法分布式存儲系統(tǒng)中存儲大量的數(shù)據(jù),同時需要支持大量的上層讀/寫操作,為了實現(xiàn)高吞吐量,設(shè)計和實現(xiàn)一個良好的數(shù)據(jù)結(jié)構(gòu)能起到相當(dāng)大的作用NoSQL

LSM

TreeMemC3

Cuckoo

HashHBase

BloomFilterBloomFilterBloomFilter用于在海量數(shù)據(jù)中快速查找給定的數(shù)據(jù)是否在某個集合內(nèi)通過k個散列函數(shù)將這個元素映射成一個位數(shù)組中的k個點,把它們置為1檢索時,用戶只要看看這些點是不是都是1就(大約)知道集合中有沒有它了:如果這些點有任何一個0,則被檢元素一定不在;如果都是1,則被檢元素很可能在BloomFilter初始位數(shù)組BloomFilter哈希函數(shù)BloomFilter查找LSMTreeLSM樹和B+樹相比,LSM樹犧牲了部分讀性能,用來大幅度提高寫性能把一棵大樹拆分成n棵小樹,它首先寫入內(nèi)存中,隨著小樹越來越大,內(nèi)存中的小樹會flush到磁盤中,磁盤中的樹定期可以做merge操作插入操作首先會作用于內(nèi)存,由于內(nèi)存中的樹不會很大,因此速度快合并操作會順序?qū)懭胍粋€或多個磁盤頁,比隨機寫入快得多Merkle

Tree數(shù)據(jù)分成小的數(shù)據(jù)塊,有相應(yīng)的哈希和它對應(yīng)往上走,把相鄰的兩個哈希合并成一個字符串,然后運算這個字符串的哈希,這樣每兩個哈希組合得到了一個“子哈?!盡erkle

Tree明顯的一個好處是可以單獨拿出一個分支來對部分?jǐn)?shù)據(jù)進行校驗CuckooHashCuckoo哈希是一種解決hash沖突的方法,其目的是使用簡易的hash函數(shù)來提高HashTable的利用率使用兩個hash函數(shù)來處理碰撞,從而每個key都對應(yīng)到兩個位置對key值哈希,生成兩個hashkey值,hashk1和hashk2,如果對應(yīng)的兩個位置上有一個為空,直接把key插入即可否則,任選一個位置,把key值插入,把已經(jīng)在那個位置的key值踢出

文件存儲格式行式存儲被主流關(guān)系型數(shù)據(jù)庫廣泛采用,HDFS文件系統(tǒng)也采用行式存儲在行式存儲中,每條記錄的各個字段連續(xù)地存儲在一起,而對于文件中的各個記錄也是連續(xù)存儲在數(shù)據(jù)塊中行式存儲對于大數(shù)據(jù)系統(tǒng)的需求已經(jīng)不能很好地滿足快速訪問海量數(shù)據(jù)的能力被束縛擴展性差文件存儲格式列式存儲-與行式存儲布局對應(yīng),列式存儲布局實際存儲數(shù)據(jù)時按照列隊所有記錄進行垂直劃分,將同一列的內(nèi)容連續(xù)存放在一起將經(jīng)常聯(lián)合使用的列存儲在一個數(shù)據(jù)塊中,避免通過不必要的網(wǎng)絡(luò)傳輸來獲取多列數(shù)據(jù)對于某些場景而言會較大地提升系統(tǒng)性能文件存儲格式混合式存儲-融合了行式和列式存儲布局的優(yōu)點首先將記錄表按照行進行分組,若干行劃分為一組對于每組內(nèi)的所有記錄,在實際存儲時按照列將同一列內(nèi)容連續(xù)存儲在一起GFSGFS(Google文件系統(tǒng))是Google為了存儲百億計的海量網(wǎng)頁信息而專門開發(fā)的文件系統(tǒng)數(shù)據(jù)冗余備份、故障自動檢測、故障機器自動恢復(fù)等都列在GFS的設(shè)計目標(biāo)里GFS中存儲的文件絕大多數(shù)是大文件系統(tǒng)中存在大量的“追加”寫操作,即在已有文件的末尾追加內(nèi)容,已經(jīng)寫入的內(nèi)容不做更改對于數(shù)據(jù)讀取操作來說,絕大多數(shù)操作都是“順序”讀,少量的操作是“隨機”讀

HDFSHadoop分布式文件系統(tǒng)(HDFS)被設(shè)計成適合運行在通用硬件(commodityhardware)上的分布式文件系統(tǒng)HDFS采用master/slave架構(gòu)。一個HDFS集群由一個namenode和一定數(shù)目的datanode組成阿里云盤古盤古系統(tǒng)是一個分布式文件系統(tǒng),它是在整個阿里云計算“飛天”系統(tǒng)中負(fù)責(zé)數(shù)據(jù)存儲的基石性系統(tǒng)在整體架構(gòu)上盤古采用Master/ChunkServer結(jié)構(gòu),Master管理元數(shù)據(jù),多Master之間采用Primary-Secondaries模式,基于Paxos協(xié)議來保障服務(wù)的高可用右圖是盤古分布式文件系統(tǒng)架構(gòu)NoSQL數(shù)據(jù)庫概述一個NoSQL數(shù)據(jù)庫提供了一種存儲和檢索數(shù)據(jù)的方法,該方法不同于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫那種表格形式促進NoSQL發(fā)展的因素如下簡單設(shè)計原則,可以更簡單地水平擴展到多機器集群

更細(xì)粒度地控制有效性

KV數(shù)據(jù)庫KV數(shù)據(jù)庫是最常見的NoSQL數(shù)據(jù)庫形式優(yōu)勢是處理速度非???,缺點是只能通過鍵的完全一致查詢來獲取數(shù)據(jù)Redis是著名的內(nèi)存KV數(shù)據(jù)庫,在工業(yè)界得到了廣泛的使用Redis采用異步的主從復(fù)制方式右圖是Redis的副本維護策略列式數(shù)據(jù)庫列式數(shù)據(jù)庫基于列式存儲的文件存儲格局,兼具NoSQL和傳統(tǒng)數(shù)據(jù)庫的一些優(yōu)點BigTable的數(shù)據(jù)模型本質(zhì)上是一個三維映射表,其最基礎(chǔ)的存儲單元由行主鍵、列主鍵、時間構(gòu)成的三維主鍵唯一確定HBase是一個開源的非關(guān)系型分布式數(shù)據(jù)庫,它參考了Google的BigTable模型HBase以表的形式存放數(shù)據(jù)。表由行和列組成,每個列屬于某個列簇,由行和列確定的存儲單元稱為元素

圖數(shù)據(jù)庫在圖的領(lǐng)域并沒有一套被廣泛接受的術(shù)語,存在著很多不同類型的圖模型屬性圖形模型(PropertyGraphModel)

節(jié)點(即頂點)

關(guān)系(即邊),具有方向和類型(標(biāo)記和標(biāo)向)

節(jié)點和關(guān)系上面的屬性(即特性)右圖是一個被標(biāo)記的小型屬性圖文檔數(shù)據(jù)庫文檔數(shù)據(jù)庫中的文檔是一個數(shù)據(jù)記錄,這個記錄能夠?qū)Π臄?shù)據(jù)類型和內(nèi)容進行“自我描述”,如XML文檔、HTML文檔和JSON文檔文檔數(shù)據(jù)庫中的模型采用的是模型視圖控制器(MVC)中的模型層,每個JSON文檔的ID就是它唯一的鍵阿里云數(shù)據(jù)庫阿里云數(shù)據(jù)庫是一種穩(wěn)定可靠、可彈性伸縮的在線數(shù)據(jù)庫服務(wù),提供NoSQL數(shù)據(jù)庫和關(guān)系型數(shù)據(jù)庫兩種數(shù)據(jù)庫服務(wù)云數(shù)據(jù)庫Redis-阿里云數(shù)據(jù)庫Redis版(ApsaraDBforRedis)是兼容開源Redis協(xié)議的Key-Value類型在線存儲服務(wù)ECS網(wǎng)頁控制臺連接Redis實例桌面終端連接ECS服務(wù)器阿里云數(shù)據(jù)庫云數(shù)據(jù)庫RDS(ApsaraDBforRDS,RDS)-是一種穩(wěn)定可靠、可彈性伸縮的在線數(shù)據(jù)庫服務(wù)基于飛天分布式系統(tǒng)和全SSD盤高性能存儲,支持MySQL、SQLServer、PostgreSQL和PPAS(高度兼容Oracle)引擎設(shè)置白名單MySQL系統(tǒng)吞吐量阿里云數(shù)據(jù)庫云數(shù)據(jù)庫Memcache版(ApsaraDBforMemcache)-基于內(nèi)存的緩存服務(wù),支持海量小數(shù)據(jù)的高速訪問云數(shù)據(jù)庫Memcache支持Key-Value的數(shù)據(jù)結(jié)構(gòu),兼容Memcached協(xié)議的客戶端都可與阿里云數(shù)據(jù)庫Memcache版進行通信設(shè)置無密碼訪問Memcached命中率監(jiān)控第9章分布式處理CPU多核和POSIX

Thread在硬件設(shè)備上,CPU技術(shù)不斷發(fā)展,出現(xiàn)了SMP(對稱多處理器)和NUMA(非一致性內(nèi)存訪問)兩種高速處理的CPU結(jié)構(gòu)在軟件層面出現(xiàn)了多進程和多線程編程。進程是內(nèi)存資源管理單元,線程是任務(wù)調(diào)度單元POSIXThread多線程編程標(biāo)準(zhǔn)SMP和NUMA架構(gòu)CPU進程與線程MPI并行計算框架MPI(MessagePassingInterface)是一個標(biāo)準(zhǔn)且可移植的消息傳遞系統(tǒng),服務(wù)于大規(guī)模的并行計算廣泛采用的實現(xiàn)有MPICHMPICH包括ADI3、CH3Device、CH3Interface、Nemesis、NemesisNetModInterfaceMPICH架構(gòu)HadoopMapReduceHadoop是一個由Apache基金會開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop框架最核心的設(shè)計就是HDFS和MapReduceMapReduce為海量的數(shù)據(jù)提供了計算指定一個Map函數(shù),用來把一組鍵值對映射成一組新的鍵值對,指定并發(fā)的Reduce函數(shù),用來保證所有映射的鍵值對中的每一個共享相同的鍵組SparkSpark是UCBerkeleyAMPLab所開源的類HadoopMapReduce的通用的并行計算框架Spark基于map-reduce算法實現(xiàn)的分布式計算,擁有HadoopMapReduce所具有的優(yōu)點不同于MapReduce的是中間輸出和結(jié)果可以保存在內(nèi)存中Spark最主要的結(jié)構(gòu)是RDD(ResilientDistributedDatasets),它表示已被分區(qū)、不可變的并能夠被并行操作的數(shù)據(jù)集合,不同的數(shù)據(jù)集格式對應(yīng)不同的RDD實現(xiàn)數(shù)據(jù)處理技術(shù)的發(fā)展數(shù)據(jù)處理從早期的共享分時單CPU操作系統(tǒng)處理到多核并發(fā)處理早期Google公司的分布式計算框架MapReduce采用的思想就是連接多臺廉價的計算設(shè)備,以此來提供進行大規(guī)模計算任務(wù)的能力為了滿足實時計算任務(wù)需求,設(shè)計實現(xiàn)了流計算框架,比如SparkStreaming、Storm、Flink等實時計算框架目前處理技術(shù)在往大規(guī)模、低延遲方向發(fā)展第10章Hadoop

MapReduce解析HadoopMapReduce架構(gòu)MapReduce是一種分布式計算框架,能夠處理大量數(shù)據(jù),并提供容錯、可靠等功能,運行部署在大規(guī)模計算集群中MapReduce計算框架采用主從架構(gòu),由Client、JobTracker、TaskTracker組成用戶編寫MapReduce程序,通過Client提交到JobTrackerJobTracker負(fù)責(zé)管理運行的TaskTracker節(jié)點;負(fù)責(zé)Job的調(diào)度與分發(fā)JobTracker發(fā)送具體的任務(wù)給TaskTracker節(jié)點執(zhí)行MapReduce架構(gòu)HadoopMapReduce架構(gòu)在MapReduce框架中,所有的程序執(zhí)行最后都轉(zhuǎn)換成task來執(zhí)行顯示了HDFS作為MapReduce任務(wù)的數(shù)據(jù)輸入源,每個HDFS文件切分成多個,Block將其作為MapReduce任務(wù)的數(shù)據(jù)輸入源,執(zhí)行計算任務(wù)HadoopMapReduce與高效能計算、網(wǎng)格計算的區(qū)別高性能計算的思想是將計算作業(yè)分散到集群機器上,集群計算節(jié)點訪問存儲區(qū)域網(wǎng)絡(luò)SAN系統(tǒng)構(gòu)成的共享文件系統(tǒng)獲取數(shù)據(jù),這種設(shè)計比較適合計算密集型作業(yè)由于Hadoop使用專門為分布式計算設(shè)計的文件系統(tǒng)HDFS,在計算的時候只需要將計算代碼推送到存儲節(jié)點上即可在存儲節(jié)點上完成數(shù)據(jù)的本地化計算,Hadoop中的集群存儲節(jié)點也是計算節(jié)點在分布式編程方面,MPI屬于比較底層的開發(fā)庫,它賦予了程序員極大的控制能力;Hadoop的MapReduce卻是一個高度抽象的并行編程模型,它將分布式并行編程抽象為兩個原語操作,即Map操作和Reduce操作MapReduce工作機制整體而言,一個MapReduce程序一般分成Map和Reduce兩個階段,中間可能會有CombineMapReduce工作機制Map-

MapReduce會根據(jù)輸入文件計算輸入分片(inputsplit),每個輸入分片針對一個Map任務(wù),輸入分片存儲的并非數(shù)據(jù)本身,而是一個分片長度和一個記錄數(shù)據(jù)位置的數(shù)組Map函數(shù)產(chǎn)生輸出結(jié)果時并不是直接寫入到磁盤,而是采用緩沖方式寫入到內(nèi)存中,并對數(shù)據(jù)按關(guān)鍵字進行預(yù)排序MapReduce工作機制執(zhí)行用戶指定的Reduce函數(shù),輸出計算結(jié)果到HDFS集群上。Reduce執(zhí)行數(shù)據(jù)的歸并,數(shù)據(jù)是以key,list(value1,value2...)的方式存儲MapReduce工作機制Comine-Combine是在本地進行的一個在Map端做的Reduce的過程,其目的是提高Hadoop的效率MapReduce工作機制Shuffle描述數(shù)據(jù)從Map

Task輸出到Reduce

Task輸入的這段過程Reducer真正運行之前,所有的時間都是在拉取數(shù)據(jù),做merge,且不斷重復(fù)地做copy過程

-

其用于簡單地拉取數(shù)據(jù)。Reduce進程啟動一些數(shù)據(jù)copy線程(Fetcher),通過HTTP請求文件數(shù)據(jù)merge階段

-這里的merge如Map端的merge動作

Reducer的輸入文件-不斷地merge,最后會生成一個“最終文件”數(shù)據(jù)從Map端copy到Reduce端SpeculativeTask存在這樣的計算任務(wù),它的運行時間遠(yuǎn)遠(yuǎn)長于其他任務(wù)的計算任務(wù),減少該任務(wù)的運行時間就可以提高整體作業(yè)的運行速度,這種任務(wù)也稱為“拖后腿”任務(wù)導(dǎo)致任務(wù)執(zhí)行緩慢的原因有很多種,包括軟件和硬件原因為了解決上述“拖后腿”任務(wù)導(dǎo)致的系統(tǒng)性能下降問題,Hadoop為該task啟動SpeculativeTask,與原始的task同時運行,以最快運行結(jié)束的結(jié)果返回

是一種以空間換時間的方式

任務(wù)容錯MapReduce是一種通用的計算框架,有著非常健壯的容錯機制,容錯粒度包括JobTracker、TaskTracker、Job、Task、Record等級別對于任務(wù)的容錯機制,MapReduce采用最簡單的方法進行處理如果是一個Map任務(wù)或Reduce任務(wù)失敗了,那么調(diào)度器會將這個失敗的任務(wù)分配到其他節(jié)點重新執(zhí)行如果是一個節(jié)點死機了,那么在這臺死機的節(jié)點上已經(jīng)完成運行的Map任務(wù)及正在運行中的Map和Reduce任務(wù)都將被調(diào)度重新執(zhí)行,同時在其他機器上正在運行的Reduce任務(wù)也將被重新執(zhí)行應(yīng)用案例WordCount用于計算文件中每個單詞出現(xiàn)的次數(shù),非常適合采用MapReduce進行處理在Map階段處理每個文本split中的數(shù)據(jù),產(chǎn)生<word,1>這樣的鍵-值對在Reduce階段對相同的關(guān)鍵字求和,最后生成所有的單詞計數(shù)WordCount運行過程應(yīng)用案例現(xiàn)在HDFS集群中有大量的文件,需要統(tǒng)計所有文件所出現(xiàn)單詞的平均長度其處理也可以采用MapReduce方式,計算結(jié)果最后以HDFS文件的方式保存應(yīng)用案例Grep-還是進行大規(guī)模文本中單詞的相關(guān)操作,現(xiàn)在希望提供類似Linux系統(tǒng)中Grep命令的功能,找出匹配目標(biāo)串的所有文件,并統(tǒng)計出每個文件中出現(xiàn)目標(biāo)字符串的個數(shù)在Map階段根據(jù)提供的文件split信息、給定的每個字符串輸出<filename,1>這樣的鍵-值對信息在Reduce階段根據(jù)filename對Map階段產(chǎn)生的結(jié)果進行合并

Grep的運行結(jié)果MapReduce的缺陷與不足MapReduce是一種離線處理框架,比較適合大規(guī)模的離線數(shù)據(jù)處理MapReduce在實時處理性能方面比較薄弱,不適合處理事務(wù)或者單一處理請求第11章Spark解析Spark

RDD每個Spark應(yīng)用都是由一個driverprogram構(gòu)成,該程序運行用戶的main函數(shù)Spark提供的一個主要抽象就是RDD(ResilientDistributedDatasets),這是一個分布在集群中多節(jié)點上的數(shù)據(jù)集合,利用內(nèi)存和磁盤作為存儲介質(zhì)RDD的設(shè)計目標(biāo)是針對迭代式機器學(xué)習(xí),每個RDD是只讀的、不可更改的創(chuàng)建RDD有兩種方式創(chuàng)建一個RDD在driver

program中并行化一個當(dāng)前的數(shù)據(jù)集合利用一個外部存儲系統(tǒng)中的數(shù)據(jù)集合創(chuàng)建Spark與MapReduce的對比Spark作為新一代的大數(shù)據(jù)計算框架,針對的是迭代式計算、實時數(shù)據(jù)處理,要求處理的時間更少

在中間計算結(jié)果方面-Spark基本把數(shù)據(jù)存放在內(nèi)存中,只有在內(nèi)存資源不夠的時候才寫到磁盤等存儲介質(zhì)中;而MapReduce計算過程中Map任務(wù)產(chǎn)生的計算結(jié)果存放到本地磁盤中

在計算模型方面-Spark采用DAG圖描述計算任務(wù),Spark擁有更豐富的功能;MapReduce則只采用Map和Reduce兩個函數(shù),計算功能比較簡單

在計算速度方面-

Spark的計算速度更快Spark與MapReduce的對比在容錯方面-Spark采用了和MapReduce類似的方式,針對丟失和無法引用的RDD,Spark采用利用記錄的transform,采取重新做已做過的transform

在計算成本方面-

Spark是把RDD主要存放在內(nèi)存存儲介質(zhì)中,則需要提供高容量的內(nèi)存;而MapReduce是面向磁盤的分布式計算框架,因此在成本考慮方面,Spark的計算成本高于MapReduce計算框架

在簡單易管理方面-

目前Spark也在同一個集群上運行流處理、批處理和機器學(xué)習(xí),同時Spark也可以管理不同類型的負(fù)載。這些都是MapReduce做不到的

Spark工作機制開始深入探討

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論