云計(jì)算與分布式數(shù)據(jù)處理.課件_第1頁(yè)
云計(jì)算與分布式數(shù)據(jù)處理.課件_第2頁(yè)
云計(jì)算與分布式數(shù)據(jù)處理.課件_第3頁(yè)
云計(jì)算與分布式數(shù)據(jù)處理.課件_第4頁(yè)
云計(jì)算與分布式數(shù)據(jù)處理.課件_第5頁(yè)
已閱讀5頁(yè),還剩75頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、唐卓 博士 副教授 湖南大學(xué)信息科學(xué)與工程學(xué)院2015 年 9 月云計(jì)算與大數(shù)據(jù)分布式處理技術(shù)概述講義大綱1云計(jì)算概述23云計(jì)算主要技術(shù)CloudStack+Hadoop生態(tài)系統(tǒng)網(wǎng)絡(luò)計(jì)算發(fā)展趨勢(shì)1995集群計(jì)算1998網(wǎng)格計(jì)算1999對(duì)等計(jì)算2007云計(jì)算201X3分布式計(jì)算技術(shù)的演進(jìn)智能計(jì)算云計(jì)算已經(jīng)成為IT的發(fā)展趨勢(shì) 行業(yè)環(huán)境分析云計(jì)算 一種新的突破式創(chuàng)新云計(jì)算隨需應(yīng)變的計(jì)算軟件即是服務(wù)效用計(jì)算網(wǎng)格計(jì)算 基于網(wǎng)絡(luò)的應(yīng)用訂購(gòu) 把計(jì)算資源作為一種可計(jì)量的服務(wù)提供出來(lái) 用并行計(jì)算解決大的計(jì)算問題 整合的端到端業(yè)務(wù),能夠快速響應(yīng)任何客戶需求、市場(chǎng)機(jī)會(huì)或者外部威脅 在任何時(shí)間、任何地點(diǎn)訪問動(dòng)態(tài)提供的

2、IT資源云計(jì)算的推動(dòng)力商業(yè)的需求: 降低IT成本、簡(jiǎn)化IT管理和快速響應(yīng)市場(chǎng)變化運(yùn)營(yíng)的需求:規(guī)范流程、降低成本、節(jié)約能源計(jì)算的需求:更大的數(shù)據(jù)量、更多的用戶技術(shù)的進(jìn)步:虛擬化、多核、自動(dòng)化、Web技術(shù) 云計(jì)算定義云計(jì)算(Cloud Computing ):是分布式處理(Distributed Computing)、并行處理(Parallel Computing)和網(wǎng)格計(jì)算(Grid Computing)的發(fā)展,或者說(shuō)是這些計(jì)算機(jī)科學(xué)概念的商業(yè)實(shí)現(xiàn)。Wiki定義:Cloud computing is a style of computing in which dynamically scalab

3、le and offer virtualized resources are provided as a service over the Internet。云計(jì)算是一種通過Internet以服務(wù)的方式提供動(dòng)態(tài)可伸縮的虛擬化的資源的計(jì)算模式.云計(jì)算的目標(biāo)企業(yè)B企業(yè)A企業(yè)C企業(yè)A企業(yè)B企業(yè)C互聯(lián)網(wǎng)云平臺(tái)服務(wù)商像用電、水一樣使用IT發(fā)電廠企業(yè)自己部署發(fā)電設(shè)施企業(yè)使用公共電力服務(wù)電力傳輸網(wǎng)絡(luò)數(shù)據(jù)在云端:不怕丟失,不必備份,任意點(diǎn)恢復(fù);軟件在云端:不必下載自動(dòng)升級(jí) ;無(wú)所不在的計(jì)算:在任何時(shí)間,任意地點(diǎn),任何設(shè)備登錄后就可以進(jìn)行計(jì)算服務(wù);(桌面虛擬化、服務(wù)器虛擬化)無(wú)限強(qiáng)大的計(jì)算:具有無(wú)限空間的,無(wú)限

4、速度。硬件為中心軟件為中心 服務(wù)為中心 PCC/S云計(jì)算 云計(jì)算定義應(yīng)用運(yùn)維整合應(yīng)用軟件集成軟件平臺(tái)整合硬件系統(tǒng)整合傳統(tǒng)企業(yè)信息化服務(wù)的模型開發(fā)商A應(yīng)用A維護(hù)企業(yè)IT運(yùn)行部門操作系統(tǒng)、數(shù)據(jù)庫(kù)、中間件、套件軟件、工具軟件等系統(tǒng)軟件維護(hù)服務(wù)器、存儲(chǔ)、備份、網(wǎng)絡(luò)、通訊、安全、桌面等系統(tǒng)運(yùn)行維護(hù)服務(wù)器、存儲(chǔ)、備份、網(wǎng)絡(luò)、通訊、安全、桌面等系統(tǒng)產(chǎn)品維保供電、通風(fēng)、監(jiān)控、消防、門禁、接地、避雷、機(jī)架等機(jī)房產(chǎn)品維保系統(tǒng)維保服務(wù)商系統(tǒng)軟件服務(wù)商系統(tǒng)運(yùn)維服務(wù)商機(jī)房維保服務(wù)商開發(fā)商B應(yīng)用B維護(hù)開發(fā)商C應(yīng)用C維護(hù)開發(fā)商X應(yīng)用X維護(hù)煙囪式的建設(shè)分布式的開發(fā)分離式的運(yùn)維云計(jì)算將改變模式單一、重復(fù)建設(shè)、各自為陣的狀態(tài)開發(fā)

5、商A應(yīng)用A維護(hù)操作系統(tǒng)、數(shù)據(jù)庫(kù)、中間件、套件軟件、工具軟件等系統(tǒng)軟件維護(hù)服務(wù)器、存儲(chǔ)、備份、網(wǎng)絡(luò)、通訊、安全、桌面等系統(tǒng)運(yùn)行維護(hù)服務(wù)器、存儲(chǔ)、備份、網(wǎng)絡(luò)、通訊、安全、桌面等系統(tǒng)產(chǎn)品維保供電、通風(fēng)、監(jiān)控、消防、門禁、接地、避雷、機(jī)架等機(jī)房產(chǎn)品維保開發(fā)商B應(yīng)用B維護(hù)開發(fā)商C應(yīng)用C維護(hù)開發(fā)商X應(yīng)用X維護(hù)云計(jì)算理念:一切皆服務(wù)軟件服務(wù)(SaaS):云軟件服務(wù)平臺(tái)服務(wù)(PaaS):云平臺(tái)服務(wù)基礎(chǔ)架構(gòu)服務(wù)(IaaS):云架構(gòu)服務(wù)運(yùn)維服務(wù)(OaaS):云運(yùn)營(yíng)服務(wù)基礎(chǔ)設(shè)施服務(wù)(DCaaS):云數(shù)據(jù)中心服務(wù)軟件開發(fā)服務(wù)(SDaaS):云開發(fā)服務(wù)信息融合服務(wù)云計(jì)算正走向成熟的生產(chǎn)期Gartner14技術(shù)預(yù)測(cè)云計(jì)算

6、已過了最高期望點(diǎn)、炒作高峰期!人類機(jī)能增進(jìn)量子計(jì)算語(yǔ)音識(shí)別平面計(jì)算機(jī)增強(qiáng)現(xiàn)實(shí)云計(jì)算飛速發(fā)展11云計(jì)算處于快速發(fā)展階段十年一浪潮12智能計(jì)算以數(shù)據(jù)為中心云計(jì)算必然走向以數(shù)據(jù)為基礎(chǔ)的智能計(jì)算以云計(jì)算為基礎(chǔ)、以大數(shù)據(jù)為核心的企業(yè)級(jí)應(yīng)用/軟件,將是互聯(lián)網(wǎng)下一個(gè)爆發(fā)領(lǐng)域。在營(yíng)銷領(lǐng)域,企業(yè)級(jí)營(yíng)銷云將成為廣大企業(yè)的智能核心,在未來(lái)5年,將逐步顛覆數(shù)字廣告、電商銷售、客戶信息管理CRM、甚至是OA領(lǐng)域的傳統(tǒng)模式。 1月14日,阿里宣布戰(zhàn)略投資并控股中國(guó)最大的多屏整合數(shù)字廣告平臺(tái)易傳媒。易傳媒閆方軍:五年內(nèi)顛覆整個(gè)CRM營(yíng)銷產(chǎn)業(yè)馬云:現(xiàn)在正在從IT Technology 到DT云服務(wù)提供面向云服務(wù)消費(fèi)者,提供統(tǒng)

7、一登錄界面和訪問根據(jù)云服務(wù)資源狀況和消費(fèi)者需求,包裝云服務(wù)資源對(duì)云服務(wù)的消費(fèi)設(shè)立服務(wù)等級(jí),按需計(jì)費(fèi)管理云消費(fèi)者狀態(tài)和請(qǐng)求簡(jiǎn)化和標(biāo)準(zhǔn)化云計(jì)算整體邏輯結(jié)構(gòu)云服務(wù)管理運(yùn)行維護(hù)云計(jì)算架構(gòu)系統(tǒng),保障云架構(gòu)的穩(wěn)定和可靠云計(jì)算的類型和服務(wù)層次私有云公有云混合云操作系統(tǒng)+應(yīng)用服務(wù)引擎應(yīng)用系統(tǒng)基礎(chǔ)設(shè)施(IaaS)應(yīng)用平臺(tái)(PaaS)應(yīng)用軟件(SaaS)Infrastructure as a Service以服務(wù)的形式提供虛擬硬件資源,如虛擬主機(jī)/存儲(chǔ)/網(wǎng)絡(luò)/數(shù)據(jù)庫(kù)管理等資源。用于無(wú)需購(gòu)買服務(wù)器、網(wǎng)絡(luò)設(shè)備、存儲(chǔ)設(shè)備,只需通過互聯(lián)網(wǎng)租賃即可搭建自己的應(yīng)用系統(tǒng)典型應(yīng)用:Amazon Web Service (AWS)

8、Platform as a Service提供應(yīng)用服務(wù)引擎,如互聯(lián)網(wǎng)應(yīng)用編程接口/運(yùn)行平臺(tái)等。用戶基于該應(yīng)用服務(wù)引擎,可以構(gòu)建該類應(yīng)用。典型應(yīng)用:Google AppEngine, F, Microsoft Azure服務(wù)平臺(tái)Software as a Service用戶通過Internet (如瀏覽器)來(lái)使用軟件。用戶不必購(gòu)買軟件,只需按需租用軟件典型應(yīng)用:Google Doc, S, Oracle CRM OnDemand, Office Live Workspace面向外部用戶需求,通過開放網(wǎng)絡(luò)提供云計(jì)算服務(wù)IDC,GoogleApp,Saleforce在線CRM大型企業(yè)按照云計(jì)算的架構(gòu)

9、搭建平臺(tái),面向企業(yè)內(nèi)部需求提供云計(jì)算服務(wù)企業(yè)內(nèi)部數(shù)據(jù)中心等兼顧以上兩種情況的云計(jì)算服務(wù)Amazon Web Server等既為企業(yè)內(nèi)部又為外部用戶提供云計(jì)算服務(wù)按照部署模式分類按照交付模式分類阿里云在2014年上半年里成為了國(guó)內(nèi)最大的公有云領(lǐng)域之中基礎(chǔ)設(shè)施及服務(wù)中的老大。位于其后的則分別是:2. 中國(guó)電信3. 中國(guó)聯(lián)通4. 微軟的azure云5. 亞馬遜的AWS部署層次的類型平臺(tái)即服務(wù)Platform as a ServiceHigh VolumeTransactionsSoftware as a Service服務(wù)器網(wǎng)絡(luò)存儲(chǔ)Metering監(jiān)控計(jì)費(fèi)服務(wù)云開發(fā)云企業(yè)云多租賃安全中間件協(xié)作業(yè)務(wù)服

10、務(wù)CRM/ERP/HR定制服務(wù)數(shù)據(jù)中心虛擬化,動(dòng)態(tài)供應(yīng)服務(wù)管理J2EEOn-ramps服務(wù)封裝Ajax開發(fā)On-ramps開發(fā)工具與其他云的互操作軟件即服務(wù)基礎(chǔ)設(shè)施即服務(wù)部署層次的類型云計(jì)算的類型和服務(wù)層次目錄1云計(jì)算概述23云計(jì)算主要技術(shù)CloudStack+Hadoop生態(tài)系統(tǒng)18云管理平臺(tái)虛擬化分布式文件系統(tǒng)結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)大規(guī)模并行技術(shù)云計(jì)算技術(shù)框架云計(jì)算技術(shù)框架分布式文件系統(tǒng)大規(guī)模并行計(jì)算結(jié)構(gòu)化分布式數(shù)據(jù)存儲(chǔ)虛擬化云計(jì)算云管理平臺(tái):實(shí)現(xiàn)對(duì)于云計(jì)算平臺(tái)資源的管理、硬件及應(yīng)用系統(tǒng)的性能和故障監(jiān)控分布式文件系統(tǒng):可擴(kuò)展的支持海量數(shù)據(jù)的分布式文件系統(tǒng),用于大型的、分布式的、對(duì)大量數(shù)據(jù)進(jìn)行訪問的

11、應(yīng)用。它運(yùn)行于廉價(jià)的普通硬件上,提供容錯(cuò)功能(通常保留數(shù)據(jù)的3份拷貝),典型技術(shù)為GFS/HDFS/KFS以及中國(guó)移動(dòng)提出的HyperDFS大規(guī)模并行計(jì)算:在分布式并行環(huán)境中將一個(gè)任務(wù)分解成更多份細(xì)粒度的子任務(wù),這些子任務(wù)在空閑的處理節(jié)點(diǎn)之間被調(diào)度和快速處理之后,最終通過特定的規(guī)則進(jìn)行合并生成最終的結(jié)果。典型技術(shù)為MapReduce結(jié)構(gòu)化分布式數(shù)據(jù)存儲(chǔ):類似文件系統(tǒng)采用數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù),云計(jì)算也需要采用特殊技術(shù)實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ),典型技術(shù)為BigTable/Dynamo以及中國(guó)移動(dòng)提出的HugeTable虛擬化:即資源的抽象化,實(shí)現(xiàn)單一物理資源的多個(gè)邏輯表示,或者多個(gè)物理資源的單一邏輯表

12、示 云管理平臺(tái)虛擬化技術(shù)前端數(shù)據(jù)中心虛擬化組件虛擬化:設(shè)備層面IDS/IPS,虛擬路由 轉(zhuǎn)發(fā)VRF,VDC,虛擬防火墻交換系統(tǒng)虛擬化:系統(tǒng)層面虛擬交換VSS N:1,提供更好的可用性虛擬私有云VPC Nexus N:1 提供更好的網(wǎng)絡(luò)擴(kuò)展能力網(wǎng)絡(luò)虛擬化:連接層面VPN,MPLS/VPN,VLAN,VNet,OTV網(wǎng)絡(luò)服務(wù)虛擬化:服務(wù)層面應(yīng)用加速、L4-7交換機(jī),安全服務(wù),廣域網(wǎng)優(yōu)化技術(shù)服務(wù)器和后端存儲(chǔ)虛擬化:存儲(chǔ)虛擬化與統(tǒng)一IO :DCE :數(shù)據(jù)中心以太網(wǎng), Unified IO/FCoE VSAN:虛擬SAN技術(shù)服務(wù)器及桌面虛擬化 :x86服務(wù)器虛擬化小型機(jī)分區(qū)技術(shù)VDI技術(shù):虛擬桌面技術(shù)

13、前端虛擬 SANs/統(tǒng)一IO虛擬存儲(chǔ)虛擬網(wǎng)絡(luò)服務(wù)Virtual Firewall Context 1Virtual SSLContext 3虛擬機(jī)前端虛擬化 Virtual Firewall Context 1Virtual Firewall Context Virtual SLBContext Virtual SSLContext 3Virtual SSLContext VSSVLANVRFVPNsVDCvHBAVSANsFCoEGFS后端虛擬化不等于云計(jì)算虛擬化不等于云計(jì)算,云計(jì)算除了虛擬化之外,還需要從運(yùn)維、管理、安全等方面進(jìn)行調(diào)整來(lái)滿足云計(jì)算的要求。虛擬化轉(zhuǎn)化成云計(jì)算的要素云計(jì)算關(guān)鍵技

14、術(shù):資源管理與調(diào)度建立超大規(guī)模集群的資源管理系統(tǒng),實(shí)現(xiàn)透明化的可伸縮計(jì)算系統(tǒng),提高資源的使用效率、發(fā)揮計(jì)算資源的聚合效能關(guān)鍵技術(shù)虛擬機(jī)生成虛擬機(jī)文件管理(復(fù)制、備份)快速的動(dòng)態(tài)部署技術(shù)資源監(jiān)控與調(diào)度,高效負(fù)載均衡高效遷移技術(shù)故障快速檢測(cè)與容錯(cuò)技術(shù)高效的資源動(dòng)態(tài)擴(kuò)展技術(shù)23鏡像文件存儲(chǔ)器部署服務(wù)器、監(jiān)控服務(wù)器調(diào)度服務(wù)器云計(jì)算關(guān)鍵技術(shù):分布式文件系統(tǒng)文件劃分為64M的塊每一塊至少在三個(gè)服務(wù)器上保存(可靠性)其中某塊數(shù)據(jù)失效,會(huì)從其他塊訪問并恢復(fù)新的塊主機(jī)(Master)管理所有元數(shù)據(jù)信息(每個(gè)塊的具體大小、位置、起始)數(shù)據(jù)實(shí)際上直接在客戶端和塊服務(wù)器(Chunk Server)之間傳輸主機(jī)和塊服務(wù)

15、器之間保持通訊,以保證塊服務(wù)器和塊數(shù)據(jù)的有效性每次主機(jī)重啟,都會(huì)重新從塊服務(wù)器中刷新信息文件客戶端應(yīng)用備份主機(jī) MasterMasterC0C1C2C5塊服務(wù)器C0C2C5塊服務(wù)器C1塊服務(wù)器文件客戶端應(yīng)用C5C3文件命名空間塊1 2ef7塊n . 塊m . 塊s . /foo/bar 時(shí)間200GB300GB500GB1TB傳統(tǒng)模式自動(dòng)精簡(jiǎn)配置模式1TB1TB減少預(yù)分配空間浪費(fèi)達(dá)31%-50%資源利用率達(dá)到近100%不停機(jī)擴(kuò)容快照空間自動(dòng)擴(kuò)展數(shù)據(jù)卷快照資源傳統(tǒng)快照技術(shù)數(shù)據(jù)卷快照資源新一代快照技術(shù)預(yù)留100%空間預(yù)留20%空間自動(dòng)智能擴(kuò)展初始空間節(jié)省80%按需擴(kuò)展,提高存儲(chǔ)利用率無(wú)快照溢出問題

16、分級(jí)存儲(chǔ)與FC/SAS硬盤比較,SSD功耗降低近80%,訪問速度提升近100倍四級(jí)分層存儲(chǔ),提高資源整體利用效率CacheSSDSASSATA性能提升第0層第1層第2層第3層典型功耗比較16W 2W 典型訪問時(shí)間比較6ms0.09ms11W 12ms自動(dòng)精簡(jiǎn)配置 關(guān)鍵技術(shù):智能空間管理實(shí)現(xiàn)資源動(dòng)態(tài)分配存儲(chǔ)資源管理計(jì)算資源管理網(wǎng)絡(luò)資源管理應(yīng)用性能管理Executive DashboardService Level Reporting統(tǒng)一管理中心部署對(duì)計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)的統(tǒng)一資源化管理平臺(tái)網(wǎng)絡(luò),安全資源的觸發(fā)聯(lián)動(dòng)技術(shù)部署實(shí)現(xiàn)存儲(chǔ)資源基于策略的動(dòng)態(tài)調(diào)整機(jī)制云計(jì)算關(guān)鍵技術(shù):統(tǒng)一管理云計(jì)算關(guān)鍵技術(shù):并行計(jì)

17、算傳統(tǒng)的并行計(jì)算算法復(fù)雜,并行規(guī)模有限(1024個(gè)節(jié)點(diǎn)),Mapreduce通過若干優(yōu)化(本地化計(jì)算),簡(jiǎn)化模型(Map和Reduce)高效地并發(fā)計(jì)算(擴(kuò)展到5000個(gè)節(jié)點(diǎn))Google的搜索要求在幾百毫秒內(nèi)得到結(jié)果,如果采用傳統(tǒng)的計(jì)算方式是不可能達(dá)到的。200多億個(gè)網(wǎng)頁(yè),產(chǎn)生的索引是天文數(shù)據(jù)。2000年時(shí)2億個(gè)網(wǎng)頁(yè),2005年是20億,2009年初是200億但這種模式只適合小眾應(yīng)用,不具有普適性云計(jì)算時(shí)代的分布并行編程技術(shù)分布并行數(shù)據(jù)處理技術(shù)Google MapReduceHadoop MapReduce分布式文件系統(tǒng)Google File SystemHadoop Distributed

18、File System分布式數(shù)據(jù)庫(kù)Google BigTableHadoop HBase28云計(jì)算關(guān)鍵技術(shù)云計(jì)算中的數(shù)據(jù)并行處理技術(shù)Hadoop中將Job分成map和reduce兩種類型的任務(wù),Job執(zhí)行流程如下圖:MapReduce示例:?jiǎn)卧~計(jì)數(shù)案例:?jiǎn)卧~記數(shù)問題(Word Count)給定一個(gè)巨大的文本(如1TB),如何計(jì)算單詞出現(xiàn)的數(shù)目?MapReduce示例:?jiǎn)卧~計(jì)數(shù)使用MapReduce求解該問題Step 1: 自動(dòng)對(duì)文本進(jìn)行分割MapReduce示例:?jiǎn)卧~計(jì)數(shù)使用MapReduce求解該問題Step 2:在分割之后的每一對(duì)進(jìn)行用戶定義的Map進(jìn)行處理,再生成新的對(duì)MapReduce

19、示例:?jiǎn)卧~計(jì)數(shù)使用MapReduce求解該問題Step 3:對(duì)輸出的結(jié)果集歸攏(不同mapslot間copy到一起)、排序(sort)(系統(tǒng)自動(dòng)完成)MapReduce示例:?jiǎn)卧~計(jì)數(shù)使用MapReduce求解該問題Step 4:通過Reduce操作生成最后結(jié)果MapReduce示例:?jiǎn)卧~計(jì)數(shù)使用MapReduce求解該問題定義Map和Reduce函數(shù)private final static IntWritable one = new IntWritable(1);private Text word = new Text();public void map(Object key, Text va

20、lue, Context context) throws IOException,InterruptedException StringTokenizer itr = new StringTokenizer(value.toString();while (itr.hasMoreTokens() word.set(itr.nextToken();context.write(word, one);public void reduce(Text key, Iterable values, Context context) throws IOException,InterruptedException

21、 int sum = 0;for (IntWritable val : values) sum += val.get();result.set(sum);context.write(key, result); 互聯(lián)網(wǎng)公司的大數(shù)據(jù)處理框架Google:MapReduce、hadoop、GFSAmazon: Simple Storage Service (S3)、Twiter:StormFacebook: Apache Hive、 CassandraUCBerkeley:SparkIBM:StreamBaseTaobao:OceanBase,TFS講義大綱1云計(jì)算概述23云計(jì)算主要技術(shù)CloudS

22、tack+Hadoop生態(tài)系統(tǒng)ComputeHypervisorStorageBlock & ObjectNetworkNetwork & Network ServicesPrimary StorageSecondary StorageCloud平臺(tái)及技術(shù)支持HostsServers onto which services will be provisionedPrimary StorageVM storageClusterA grouping of hosts and their associated storagePodCollection of clustersNetworkLogica

23、l network associated with service offeringsSecondary StorageTemplate, snapshot and ISO storageZoneCollection of pods, network offerings and secondary storageManagement Server FarmResponsible for all management and provisioning tasksCore CloudStack ComponentsZonePodClusterNetworkPrimaryStorageHostHos

24、tVMVMPodClusterSecondaryStorage Pod 1.Cluster NAccess LayerHost 2Cluster 1Host 1Host是部署Hypervisor的物理主機(jī)Cluster由一組Host組成Cluster中的Host可訪問共享存儲(chǔ) (Primary Storage)單個(gè)或多個(gè)Cluster組成Pod一個(gè)Pod通常配置一個(gè)2層交換機(jī)設(shè)備Availability Zone由一組Pod組成,配置二級(jí)存儲(chǔ)(Secondary Storage)整個(gè)云由單個(gè)或位于不同地理位置的多個(gè)Availability Zone構(gòu)成PrimaryStorageZone 1.

25、L3 switchSecondaryStoragePod NMgmt ServerInternetDeployment ArchitectureInternetInternet服務(wù)目錄 & 門戶用戶管理統(tǒng)計(jì)報(bào)表性能監(jiān)控和管理瀏覽器用戶用戶服務(wù)管理Telnet,VNC. 虛擬服務(wù)器虛擬存儲(chǔ)虛擬桌面虛擬網(wǎng)絡(luò)資源申請(qǐng)資源訪問物理資源的轉(zhuǎn)變資源管理服務(wù)器網(wǎng)絡(luò)存儲(chǔ)服務(wù)器和存儲(chǔ)刀片服務(wù)器資源管理資源管理模板管理服務(wù)實(shí)例管理web安全管理接口管理物理系統(tǒng)虛擬系統(tǒng)ZoneZonePodsClustersHostsPrimary StorageSecondary StorageZone資源池運(yùn)營(yíng)管理平臺(tái)時(shí)序用戶

26、應(yīng)用資源池管理UI:幫助完成應(yīng)用啟動(dòng)和準(zhǔn)備,允許用戶以自助方式完成添加、移動(dòng)和修改等虛擬機(jī)操作Cloudstack的主要功能自動(dòng)化管理:通過資源池管理UI,實(shí)現(xiàn)高度自動(dòng)化操作提供系統(tǒng)級(jí)資源調(diào)度,支持用戶自定義資源調(diào)度策略,具通用調(diào)度引擎資源調(diào)度支持用戶自定義資源調(diào)度策略,資源調(diào)度引擎和監(jiān)控系統(tǒng)聯(lián)動(dòng)動(dòng)態(tài)資源調(diào)度通過定制模板的方式,支持操作系統(tǒng)介質(zhì)庫(kù)創(chuàng)建,支持Xen和VMware裸機(jī)操作系統(tǒng)安裝虛擬機(jī)創(chuàng)建、IP地址分配、用戶名密碼設(shè)定、系統(tǒng)鏡像部署、軟件安裝與配置虛擬機(jī)自動(dòng)化部署通過門戶對(duì)虛擬服務(wù)器進(jìn)行開機(jī)與關(guān)機(jī)、停止與恢復(fù)、重啟、刪除等操作虛擬機(jī)控制實(shí)現(xiàn)存儲(chǔ)層面的自動(dòng)化功能存儲(chǔ)自動(dòng)化自動(dòng)化的為虛

27、擬機(jī)設(shè)置IP地址、機(jī)器名稱、子網(wǎng)掩碼、網(wǎng)關(guān)以及用戶名、密碼網(wǎng)絡(luò)自動(dòng)化軟件自動(dòng)化部署通過部署工具和應(yīng)用模板兩種方式Cloudstack的主要功能什么是HDFS?Hadoop Distributed File SystemHadoop Distributed File System (HDFS) is the primary storage system used by Hadoop applications. HDFS creates multiple replicas of data blocks and distributes them on compute nodes throughout

28、 a cluster to enable reliable, extremely rapid computations.HDFS簡(jiǎn)介HDFS為了做到可靠性(reliability)創(chuàng)建了多份數(shù)據(jù)塊(data blocks)的復(fù)制(replicas),并將它們放置在服務(wù)器群的計(jì)算節(jié)點(diǎn)中(compute nodes),MapReduce就可以在它們所在的節(jié)點(diǎn)上處理這些數(shù)據(jù)了。HDFS主要組件的功能 NameNodeDataNode 存儲(chǔ)元數(shù)據(jù) 存儲(chǔ)文件內(nèi)容元數(shù)據(jù)保存在內(nèi)存中文件內(nèi)容保存在磁盤 保存文件,block ,datanode之間的映射關(guān)系維護(hù)了block id到datanode本地文件的映

29、射關(guān)系系統(tǒng)架構(gòu)文件文件切分成塊(默認(rèn)大小64M),以塊為單位,每個(gè)塊有多個(gè)副本存儲(chǔ)在不同的機(jī)器上,副本數(shù)可在文件生成時(shí)指定(默認(rèn)3)NameNode是主節(jié)點(diǎn),存儲(chǔ)文件的元數(shù)據(jù)如文件名,文件目錄結(jié)構(gòu),文件屬性(生成時(shí)間,副本數(shù),文件權(quán)限),以及每個(gè)文件的塊列表以及塊所在的DataNode等等DataNode在本地文件系統(tǒng)存儲(chǔ)文件塊數(shù)據(jù),以及塊數(shù)據(jù)的校驗(yàn)和可以創(chuàng)建、刪除、移動(dòng)或重命名文件,當(dāng)文件創(chuàng)建、寫入和關(guān)閉之后不能修改文件內(nèi)容。NameNodeNamenode是一個(gè)中心服務(wù)器,單一節(jié)點(diǎn)(簡(jiǎn)化系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)),負(fù)責(zé)管理文件系統(tǒng)的名字空間(namespace)以及客戶端對(duì)文件的訪問。文件操作,N

30、ameNode負(fù)責(zé)文件元數(shù)據(jù)的操作,DataNode負(fù)責(zé)處理文件內(nèi)容的讀寫請(qǐng)求,跟文件內(nèi)容相關(guān)的數(shù)據(jù)流不經(jīng)過NameNode,只會(huì)詢問它跟那個(gè)DataNode聯(lián)系,否則NameNode會(huì)成為系統(tǒng)的瓶頸NameNode副本存放在那些DataNode上由NameNode來(lái)控制,根據(jù)全局情況做出塊放置決定,讀取文件時(shí)NameNode盡量讓用戶先讀取最近的副本,降低帶塊消耗和讀取時(shí)延Namenode全權(quán)管理數(shù)據(jù)塊的復(fù)制,它周期性地從集群中的每個(gè)Datanode接收心跳信號(hào)和塊狀態(tài)報(bào)告(Blockreport)。接收到心跳信號(hào)意味著該Datanode節(jié)點(diǎn)工作正常。塊狀態(tài)報(bào)告包含了一個(gè)該Datanode上

31、所有數(shù)據(jù)塊的列表。 DataNode一個(gè)數(shù)據(jù)塊在DataNode以文件存儲(chǔ)在磁盤上,包括兩個(gè)文件,一個(gè)是數(shù)據(jù)本身,一個(gè)是元數(shù)據(jù)包括數(shù)據(jù)塊的長(zhǎng)度,塊數(shù)據(jù)的校驗(yàn)和,以及時(shí)間戳DataNode啟動(dòng)后向NameNode注冊(cè),通過后,周期性(1小時(shí))的向NameNode上報(bào)所有的塊信息。 心跳是每3秒一次,心跳返回結(jié)果帶有NameNode給該DataNode的命令如復(fù)制塊數(shù)據(jù)到另一臺(tái)機(jī)器,或刪除某個(gè)數(shù)據(jù)塊。如果超過10分鐘沒有收到某個(gè)DataNode 的心跳,則認(rèn)為該節(jié)點(diǎn)不可用。集群運(yùn)行中可以安全加入和退出一些機(jī)器Example:HDFS如何寫文件?Write packetCreate file Wri

32、te packetWrite packetSend ackSend ackSend ackClose fileExample:HDFS如何寫文件?寫一個(gè)數(shù)據(jù)塊Example:HDFS如何讀文件?Read blockOpen fileClose fileGet block location客戶端聯(lián)系NameNode,得到所有數(shù)據(jù)塊信息,以及數(shù)據(jù)塊對(duì)應(yīng)的所有數(shù)據(jù)服務(wù)器的位置信息嘗試從某個(gè)數(shù)據(jù)塊對(duì)應(yīng)的一組數(shù)據(jù)服務(wù)器中選出一個(gè),進(jìn)行連接數(shù)據(jù)被一個(gè)包一個(gè)包發(fā)送回客戶端,等到整個(gè)數(shù)據(jù)塊的數(shù)據(jù)都被讀取完了,就會(huì)斷開此鏈接,嘗試連接下一個(gè)數(shù)據(jù)塊對(duì)應(yīng)的數(shù)據(jù)服務(wù)器,整個(gè)流程,依次如此反復(fù),直到所有想讀的都讀取完了

33、為止讀文件流程節(jié)點(diǎn)失效是常態(tài)DataNode中的磁盤掛了怎么辦?DataNode所在機(jī)器掛了怎么辦?NameNode掛了怎么辦?DataNode的磁盤掛了怎么辦?DataNode正常服務(wù)壞掉的磁盤上的數(shù)據(jù)盡快通知NameNodeDataNode所在機(jī)器掛了怎么辦?問:NameNode怎么知道DataNode掛掉了?答:datanode每3秒鐘向namenode發(fā)送心跳,如果10分鐘datanode沒有向namenode發(fā)送心跳,則namenode認(rèn)為該datanode已經(jīng)dead,namenode將取出該datanode上對(duì)應(yīng)的block,對(duì)其進(jìn)行復(fù)制。NameNode掛了怎么辦?持久化元數(shù)據(jù)

34、操作日志(edit log)記錄文件創(chuàng)建,刪除,修改文件屬性等操作Fsimage包含完整的命名空間File - Block的映射關(guān)系文件的屬性(ACL, quota, 修改時(shí)間等) NameNode掛了怎么辦?Secondary NameNode將NameNode的fsimage與edit log從Namenode復(fù)制到臨時(shí)目錄將fsimage同edit log合并,并產(chǎn)生新的fsimage (減少啟動(dòng)時(shí)間)將產(chǎn)生的新的fsimage上傳給NameNode清除NameNode中的edit log注: Secondary NameNode僅僅對(duì)NameNode中元數(shù)據(jù)提供冷備方案Secondar

35、y NameNode進(jìn)化MapReduce是offline應(yīng)用基于HDFS的HBase是online應(yīng)用HBaseHBase是一個(gè)分布式的、面向列的開源數(shù)據(jù)庫(kù),該技術(shù)來(lái)源于Chang et al所撰寫的Google論文“Bigtable:一個(gè)結(jié)構(gòu)化數(shù)據(jù)的分布式存儲(chǔ)系統(tǒng)”。HBase在Hadoop之上提供了類似于Bigtable的能力。 HBase是Apache的Hadoop項(xiàng)目的子項(xiàng)目。HBase不同于一般的關(guān)系數(shù)據(jù)庫(kù),它是一個(gè)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫(kù)。HBase中的表一般有這樣的特點(diǎn):1 大:一個(gè)表可以有上億行,上百萬(wàn)列2 面向列:面向列(族)的存儲(chǔ)和權(quán)限控制,列(族)獨(dú)立檢索。3 稀

36、疏:對(duì)于為空(null)的列,并不占用存儲(chǔ)空間,因此,表可以設(shè)計(jì)的非常稀疏。Hbase系統(tǒng)框架圖通過client讀寫數(shù)據(jù)HMaster管理元數(shù)據(jù)(表分區(qū),管理分區(qū)的 HregionServer)HRegionServer負(fù)責(zé)Region的數(shù)據(jù)存取Hbase的所有數(shù)據(jù)都存放在HDFS上HDFS將文件分成64M的塊,并存儲(chǔ)多個(gè)副本hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表,并提供簡(jiǎn)單的sql查詢功能,可以將sql語(yǔ)句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行。 其優(yōu)點(diǎn)是學(xué)習(xí)成本低,可以通過類SQL語(yǔ)句快速實(shí)現(xiàn)簡(jiǎn)單的MapReduce統(tǒng)計(jì),不必開發(fā)專門的MapR

37、educe應(yīng)用,十分適合數(shù)據(jù)倉(cāng)庫(kù)的統(tǒng)計(jì)分析。HiveHive主要分為以下幾個(gè)部分:用戶接口,包括 CLI,Client,WUI。元數(shù)據(jù)存儲(chǔ),通常是存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)如 mysql, derby 中。解釋器、編譯器、優(yōu)化器、執(zhí)行器。Hadoop:用 HDFS 進(jìn)行存儲(chǔ),利用 MapReduce 進(jìn)行計(jì)算。Pig什么是pigPig是一個(gè)基于Hadoop的大規(guī)模數(shù)據(jù)分析平臺(tái),它提供的SQL-LIKE語(yǔ)言叫Pig Latin,該語(yǔ)言的編譯器會(huì)把類SQL的數(shù)據(jù)分析請(qǐng)求轉(zhuǎn)換為一系列經(jīng)過優(yōu)化處理的MapReduce運(yùn)算。Pig為復(fù)雜的海量數(shù)據(jù)并行計(jì)算提供了一個(gè)簡(jiǎn)單的操作和編程接口。Pig的特點(diǎn)1、專注于于大量數(shù)據(jù)集分析(ad-

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論