大數(shù)據(jù)平臺運維(高級)高職全套教學(xué)課件_第1頁
大數(shù)據(jù)平臺運維(高級)高職全套教學(xué)課件_第2頁
大數(shù)據(jù)平臺運維(高級)高職全套教學(xué)課件_第3頁
大數(shù)據(jù)平臺運維(高級)高職全套教學(xué)課件_第4頁
大數(shù)據(jù)平臺運維(高級)高職全套教學(xué)課件_第5頁
已閱讀5頁,還剩573頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)平臺運維(高級)Hadoop集群選型第一章全套可編輯PPT課件【ch01】Hadoop集群選型.pptx【ch02】Hadoop平臺架構(gòu)設(shè)計.pptx【ch03】Hadoop組件部署規(guī)劃.pptx【ch04】大數(shù)據(jù)平臺安全體系.pptx【ch05】大數(shù)據(jù)平臺安全實戰(zhàn).pptx【ch06】大數(shù)據(jù)平臺治理.pptx【ch07】大數(shù)據(jù)平臺資源管理.pptx【ch08】大數(shù)據(jù)平臺數(shù)據(jù)治理.pptx【ch09】Linux系統(tǒng)優(yōu)化.pptx【ch10】Hadoop應(yīng)用.pptx【ch11】Hadoop組件.pptx【ch12】大數(shù)據(jù)備份和恢復(fù).pptx【ch13】大數(shù)據(jù)平臺核心升級.pptx【ch14】大數(shù)據(jù)平臺及組件升級.pptx【ch15】政務(wù)大數(shù)據(jù)運維項目實戰(zhàn).pptx【ch16】大數(shù)據(jù)平臺安全運維實戰(zhàn).pptx【ch17】商業(yè)大數(shù)據(jù)平臺運維實戰(zhàn).pptx01Hadoop集群概述Hadoop集群概述01Hadoop是Apache基金會開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu),被公認(rèn)為行業(yè)大數(shù)據(jù)標(biāo)準(zhǔn)開源軟件,可以在大規(guī)模計算機集群中提供海量數(shù)據(jù)處理能力。CDH是Cloudera發(fā)布的Hadoop商業(yè)版軟件發(fā)行包,里面不僅包含了Cloudera的商業(yè)版Hadoop,也包含了各類常用的開源數(shù)據(jù)處理與存儲框架,如Spark、Hive、HBase等。ClouderaHadoop發(fā)行版CDH簡介Hadoop集群概述01Hadoop集群概述01集成性能夠快速集成、發(fā)布和運行一個完整的Hadoop平臺,適用于各種不同的硬件和軟件。2安全性能夠處理和控制敏感數(shù)據(jù)。3靈活性能夠存儲各種類型的數(shù)據(jù),并使用各種不同的計算框架進(jìn)行操作,包括批處理、交互式SQL、文本搜索、集群學(xué)習(xí)和統(tǒng)計計算等。1CDH特性Hadoop集群概述01高可用性可以穩(wěn)定可靠的用于關(guān)鍵商業(yè)任務(wù)。5兼容性可以利用現(xiàn)有IT基礎(chǔ)設(shè)施。6擴展性能夠部署并擴展和擴充多種應(yīng)用。4CDH特性Hadoop集群概述01CDH版本演進(jìn)CDH6最新的CDH大版號目前是6版本,簡稱CDH6,其Hadoop核心組件對應(yīng)Apache

Hadoop社區(qū)的3.0.0版本,并在該版本基礎(chǔ)上追加了各種補丁。在大版本號的后面跟有2位小版本號。CDH5CDH5的Hadoop核心組件對應(yīng)社區(qū)的2.6.0版本,并在該版本基礎(chǔ)上追加了各種補丁版本。Hadoop集群概述01CDH版本演進(jìn)CDH4CDH4對應(yīng)Hadoop核心組件20,目前還能從Cloudera倉庫下載,但不推薦使用。該版本最近一次更新時間是2017年9月。CDH5CDH3以及更早的版本對應(yīng)Hadoop核心組件1.(包括0.22x之前),目前已經(jīng)無法下載。如果還在使用該版本的集群,建議盡快備份數(shù)據(jù)和升級。Hadoop集群概述01ApacheHadoop社區(qū)版本雖然完全開源免費,但是也存在諸多問題。(1)版本管理比較混亂。(2)集群部署配置較為復(fù)雜,通常安裝集群需要編寫大量的配置文件,分發(fā)到每一臺節(jié)點上,容易出錯,效率低下。(3)對集群的監(jiān)控,運維,需要安裝第三方的其他軟件,運維難度比較大。(4)在Hadoop生態(tài)圈中,組件的選擇和使用,比如Hive、Mahout、Sqoop、Flume

Spark等,需要大量考慮兼容性的問題,經(jīng)常會花費大量時間去編譯組件,解決版本沖突問題。CDH和ApacheHadoop對比Hadoop集群概述01CDH版本的Hadoop的優(yōu)勢在于:(1)基于Apache協(xié)議,100%開源,版本管理清晰。(2)在兼容性安全性、穩(wěn)定性上比ApacheHadoop有大幅度的增強。(3)運維簡單方便,對于Hadoop集群提供管理、診斷、監(jiān)控、配置更改等功能,使得運維工作非常高效。(4)CDH提供成體系的文檔,很多大公司的應(yīng)用案例以及商業(yè)支持等。CDH和ApacheHadoop對比Hadoop集群概述01ClouderaManger簡介管理對集群進(jìn)行管理,如添加、刪除節(jié)點等操作。監(jiān)控監(jiān)控集群的健康情況,對設(shè)置的各種指標(biāo)和系統(tǒng)運行情況進(jìn)行全面監(jiān)控。Hadoop集群概述01ClouderaManger簡介診斷對集群出現(xiàn)的問題進(jìn)行診斷,對出現(xiàn)的問題給出建議解決方案。集成對Hadoop的多組件進(jìn)行整合。Hadoop集群概述01Hadoop集群概述01(1)Agent:代理組件,安裝在每臺主機上。(2)ManagementService:執(zhí)行各種監(jiān)控,警報和報告功能角色的服務(wù)。(3)Database:存儲配置和監(jiān)視信息。(4)ClouderaRepository:軟件由Cloudera管理分布存儲庫。(5)Clients:是用于與服務(wù)器進(jìn)行交互的接口。(6)AdminConsole:基于Web的用戶界面與管理員管理集群和Cloudera管理。(7)API:供開發(fā)人員創(chuàng)建自定義的ClouderaManager應(yīng)用程序API。ClouderaManager簡介02Hadoop集群硬件設(shè)計概述Hadoop集群硬件設(shè)計概述02傳統(tǒng)的數(shù)據(jù)計算和存儲模式是通過SAN集中存儲所有數(shù)據(jù),如果需要進(jìn)行計算,則將數(shù)據(jù)傳輸?shù)揭幌盗蟹?wù)器進(jìn)行計算。Hadoop是基于全新的數(shù)據(jù)存儲和計算的方式,盡量避免數(shù)據(jù)傳輸,Hadoop通過軟件層實現(xiàn)大數(shù)據(jù)的處理計算以及可靠性。03大數(shù)據(jù)平臺硬件選型大數(shù)據(jù)平臺硬件選型03一個Hadoop集群通常有4個角色:NameNode(以及StandbyNameNode)Resource

Manager、NodeManager和DataNode。集群中絕大多數(shù)機器同時是NodeManager和DataNode,既用于數(shù)據(jù)存儲,又用于數(shù)據(jù)計算。NameNode負(fù)責(zé)協(xié)調(diào)集群上的數(shù)據(jù)存儲,ResourceManager則是負(fù)責(zé)協(xié)調(diào)數(shù)據(jù)處理。StandbyNameNode不應(yīng)該與NameNode在同一臺機器,但應(yīng)該選擇與NameNode配置相同的機器。建議為NameNode和ResourceManager選擇企業(yè)級的服務(wù)器,具有幾余電源,以及企業(yè)級的RAID1或RAID10磁盤配置。大數(shù)據(jù)平臺硬件選型03大數(shù)據(jù)平臺硬件選型0304集群硬件配置方案制定集群硬件配置方案制定04Hadoop集群搭建完成后,可以開始識別集群的工作負(fù)載,并且進(jìn)行負(fù)載測試,以定位硬件性能瓶頸。經(jīng)過一段時間的測試和監(jiān)控,可以了解到需要增加什么樣配置的新機器。異構(gòu)的Hadoop集群比較常見,特別是隨著數(shù)據(jù)量和計算量的增加集群需要擴容時。集群硬件配置方案制定0405大數(shù)據(jù)集群網(wǎng)絡(luò)方案設(shè)計大數(shù)據(jù)集群網(wǎng)絡(luò)方案設(shè)計05大數(shù)據(jù)集群網(wǎng)絡(luò)方案設(shè)計05網(wǎng)絡(luò)平面設(shè)計管理平面通過運維網(wǎng)絡(luò)接入,主要用于集群管理,對外提供集群監(jiān)控、配置審計、用戶管理等服務(wù)。業(yè)務(wù)平面通過業(yè)務(wù)平臺接入,主要為用戶或上層用戶提供業(yè)務(wù)通道,對外提供數(shù)據(jù)存儲、業(yè)務(wù)提交和計算的功能。大數(shù)據(jù)集群網(wǎng)絡(luò)方案設(shè)計05機架部署設(shè)計單機架部署對于小規(guī)模集群,或者單機架部署的集群,所有的節(jié)點都連接到相同的接入交換機接入交換機配置為堆疊方式,互為冗余并增加交換機帶寬。多機架部署在多機架的部署模式下,除了接入交換機,還需要聚合交換機。聚合交換機用于連接各接入交換機,負(fù)責(zé)跨機架的數(shù)據(jù)存取。大數(shù)據(jù)集群網(wǎng)絡(luò)方案設(shè)計05單機架部署大數(shù)據(jù)集群網(wǎng)絡(luò)方案設(shè)計05多機架部署大數(shù)據(jù)集群網(wǎng)絡(luò)方案設(shè)計05每個服務(wù)器都應(yīng)該配置靜態(tài)IP。如果配置了動態(tài)IP,在機器重啟或者DNS租約過期時,機器的IP地址會改變,這將導(dǎo)致Hadoop服務(wù)故障。2使用專用柜頂(TOR)交換機。3所有的Hadoop服務(wù)器節(jié)點應(yīng)該是獨有網(wǎng)絡(luò),而不存在跟其他應(yīng)用程序節(jié)點共享網(wǎng)絡(luò)I/O的情況。1Hadoop集群網(wǎng)絡(luò)規(guī)范大數(shù)據(jù)集群網(wǎng)絡(luò)方案設(shè)計05CDH只支持IPv4,不支持IPv6。5機架之間的網(wǎng)絡(luò)連接速度應(yīng)該足夠快。6專用的核心交換刀片或者核心交換機。4Hadoop集群網(wǎng)絡(luò)規(guī)范大數(shù)據(jù)集群網(wǎng)絡(luò)方案設(shè)計05關(guān)閉所有節(jié)點的HugePagecompaction透明大頁功能。8確保集群中的所有網(wǎng)絡(luò)連接都會被監(jiān)控,例如監(jiān)控網(wǎng)絡(luò)沖突和丟包問題,以方便后期進(jìn)行排障。9確保網(wǎng)絡(luò)接口對于集群中的所有節(jié)點一致。7Hadoop集群網(wǎng)絡(luò)規(guī)范大數(shù)據(jù)集群網(wǎng)絡(luò)方案設(shè)計05大數(shù)據(jù)集群網(wǎng)絡(luò)部署實例大數(shù)據(jù)集群網(wǎng)絡(luò)方案設(shè)計05大數(shù)據(jù)集群網(wǎng)絡(luò)部署實例06大數(shù)據(jù)集群網(wǎng)絡(luò)高可用方案設(shè)計大數(shù)據(jù)集群網(wǎng)絡(luò)高可用方案設(shè)計06集群主機和角色分布管理節(jié)點(MasterHosts)主要用于運行Hadoop的管理進(jìn)程,比如HDFS的NameNode,YARN的ResourceManager。工具節(jié)點(UtilityHosts)主要用于運行非管理進(jìn)程的其他進(jìn)程,比如Cloudera

Manager和HiveMetastore。大數(shù)據(jù)集群網(wǎng)絡(luò)高可用方案設(shè)計06集群主機和角色分布邊緣節(jié)點(GatewayHosts)用于集群中啟動作業(yè)的客戶端機器,邊緣節(jié)點的數(shù)量取決于工作負(fù)載的類型和數(shù)量。數(shù)據(jù)節(jié)點(WorkerHosts)主要用于運行DataNode以及其他分布式進(jìn)程。大數(shù)據(jù)集群網(wǎng)絡(luò)高可用方案設(shè)計06根據(jù)集群的規(guī)模,推薦的角色劃分如下所示,實際部署時,根據(jù)工作負(fù)載的類型和數(shù)量、集群中部署的服務(wù)、硬件資源、配置和其他因素,依據(jù)下面建議優(yōu)化角色的主機分布。集群高可用方案設(shè)計大數(shù)據(jù)集群網(wǎng)絡(luò)高可用方案設(shè)計063~20個數(shù)據(jù)節(jié)點高可用方案大數(shù)據(jù)集群網(wǎng)絡(luò)高可用方案設(shè)計0620~80個數(shù)據(jù)節(jié)點高可用方案07本章小結(jié)本章小結(jié)07本章主要介紹ClouderaHadoop發(fā)行版CDH集群特征、版本演進(jìn)、ClouderaManagel集群管理工具。介紹Hadoop集群硬件設(shè)計和選型原則,集群硬件通用型配置方案和不同業(yè)務(wù)場景的定制化配置方案。介紹如何根據(jù)不同的集群規(guī)模,進(jìn)行大數(shù)據(jù)集群網(wǎng)絡(luò)方案設(shè)計和高可用方案設(shè)計。感謝觀看,再見!大數(shù)據(jù)平臺運維(高級)大數(shù)據(jù)平臺運維(高級)Hadoop平臺架構(gòu)設(shè)計第二章01Hadoop集群節(jié)點高可用方案規(guī)劃計劃Hadoop集群節(jié)點高可用方案規(guī)劃設(shè)計01Cloudera的軟件體系結(jié)構(gòu)中包含了以下模塊:系統(tǒng)部署和管理、數(shù)據(jù)存儲、資源管理、處理引擎、安全、數(shù)據(jù)管理、工具庫以及訪問接口。Hadoop集群節(jié)點高可用方案規(guī)劃設(shè)計01Hadoop集群節(jié)點高可用方案規(guī)劃設(shè)計0102Hadoop集群容量方案規(guī)劃設(shè)計Hadoop集群容量方案規(guī)劃設(shè)計02搭建小規(guī)模集群一般是為了支撐專有業(yè)務(wù),受限于集群的存儲和處理能力,不太適合用于多業(yè)務(wù)的處理。小規(guī)模集群可以部署一個HBase存儲集群;也可以部要一個數(shù)據(jù)分析集群,包含YARN、Impala組件。在小規(guī)模集群中,為了最大化利用集群的存儲和處理能力,節(jié)點的復(fù)用程度往往也比較高。小規(guī)模集群規(guī)劃設(shè)計Hadoop集群容量方案規(guī)劃設(shè)計02一個中等規(guī)模的集群,集群的節(jié)點數(shù)一般在20個到200個,通常的數(shù)據(jù)存儲可以規(guī)劃到幾百TB,適用于中型企業(yè)的數(shù)據(jù)平臺,或者大型企業(yè)的業(yè)務(wù)部門數(shù)據(jù)平臺。中等規(guī)模集群節(jié)點的復(fù)用程度可以適當(dāng)降低,按照管理節(jié)點、主節(jié)點、工具節(jié)點和工作節(jié)點來規(guī)劃設(shè)計。中等規(guī)模集群規(guī)劃設(shè)計Hadoop集群容量方案規(guī)劃設(shè)計02Hadoop集群容量方案規(guī)劃設(shè)計02主節(jié)點上部署CDH服務(wù)的管理角色組件和HA組件,可參照如表2.2所示的方式進(jìn)行部署。Hadoop集群容量方案規(guī)劃設(shè)計02大規(guī)模集群的節(jié)點數(shù)量一般在200個以上,存儲容量可以是幾百TB甚至是PB級別,適用于大型企業(yè)搭建全公司規(guī)模的數(shù)據(jù)平臺。大規(guī)模集群和中等規(guī)模集群相比,部署的方案類似,規(guī)劃設(shè)計時主要考慮主節(jié)點可用性的增強。將HDFSJournalNode的數(shù)量由3個增加到5個,ZooKeeperServer和HBaseMaster的數(shù)據(jù)由3個增加到5個,HiveMetastore的數(shù)量由1個增加到3個,確保主節(jié)點管理組件的高可用性。大規(guī)模集群規(guī)劃設(shè)計03Hadoop行業(yè)方案規(guī)劃設(shè)計Hadoop行業(yè)方案規(guī)劃設(shè)計03電信行業(yè)移動互聯(lián)網(wǎng)時代的運營商面臨著許多新挑戰(zhàn)。微信等手機通信App的出現(xiàn)侵蝕了運營商的語音和短信收入,流量業(yè)務(wù)顯得更加重要。金融行業(yè)傳統(tǒng)關(guān)系型數(shù)據(jù)庫或者M(jìn)PP數(shù)據(jù)庫對于大數(shù)據(jù)場景下的復(fù)雜計算變得越來越捉襟見肘,銀行需要一個更高效的數(shù)據(jù)處理工具。Hadoop行業(yè)方案規(guī)劃設(shè)計03快遞行業(yè)快遞行業(yè)IT系統(tǒng)產(chǎn)生的數(shù)據(jù)量和承載的壓力過去一直沒有得到大家的關(guān)注。近年來,快遞行業(yè)的規(guī)模隨著電子商務(wù)的高速發(fā)展出現(xiàn)了快速的擴張。工商行業(yè)工商部門在建設(shè)國家的“經(jīng)濟戶籍庫”積累了大量的市場主體信息、年檢情況、執(zhí)法數(shù)據(jù)和12315投訴等數(shù)據(jù)。對這些數(shù)據(jù)的統(tǒng)計分析可以幫助工商部門理解市場與經(jīng)濟形勢。Hadoop行業(yè)方案規(guī)劃設(shè)計03電力系統(tǒng)隨著電力企業(yè)信息化快速建設(shè)和智能電力系統(tǒng)的全面建成,電力數(shù)據(jù)的增長速度將遠(yuǎn)遠(yuǎn)超出電力企業(yè)的預(yù)期。交通行業(yè)隨著經(jīng)濟迅猛發(fā)展,機動車輛不斷增加,全國性的交通擁堵現(xiàn)象也越來越嚴(yán)重,如何通過信息化手段提高交通管理水平和保障道路安全已經(jīng)成為一個重要的課題。Hadoop行業(yè)方案規(guī)劃設(shè)計03廣電系統(tǒng)在中國,廣電系統(tǒng)正經(jīng)歷著數(shù)字化浪潮的沖擊,基于網(wǎng)絡(luò)化的影視播放給傳統(tǒng)廣電運營商帶來很大挑戰(zhàn)。電子商務(wù)在電子商務(wù)領(lǐng)域,大數(shù)據(jù)可以說已經(jīng)成為業(yè)務(wù)支撐的關(guān)鍵技術(shù),在營銷推廣、客戶關(guān)懷等眾多環(huán)節(jié)發(fā)揮重要作用。04Hadoop企業(yè)方案規(guī)劃設(shè)計Hadoop企業(yè)方案規(guī)劃設(shè)計04數(shù)據(jù)孤島如果企業(yè)內(nèi)部存在多個分散的小集群,那么首先各種業(yè)務(wù)數(shù)據(jù)從物理上便會被孤立存儲于各自的小集群之中,我們就沒有辦法對數(shù)據(jù)進(jìn)行全量的整合使用,數(shù)據(jù)便失去了關(guān)聯(lián)的能力,大數(shù)據(jù)技術(shù)使用全量數(shù)據(jù)進(jìn)行分析的優(yōu)勢也喪失了。2服務(wù)孤島企業(yè)內(nèi)部各自為政的小集群的首要任務(wù)是支撐團隊或項目組自身的業(yè)務(wù)場景來滿足自身需求,所以在實現(xiàn)功能的時候不會以面向服務(wù)的思維來抽取提煉服務(wù),很有可能都沒有可以提供出來供小集群外部使用的服務(wù)。3資源浪費通常在一個企業(yè)內(nèi)部會有多個不同的技術(shù)團隊和業(yè)務(wù)團隊。如果每個團隊都搭建一套自己的大數(shù)據(jù)集群,那么寶貴的服務(wù)器資源就這樣隨意地分制成若干個小塊,服務(wù)器資源的整體利用率也無法得到保證。1企業(yè)大數(shù)據(jù)平臺易產(chǎn)生的缺陷Hadoop企業(yè)方案規(guī)劃設(shè)計04缺乏可維護(hù)性和可擴展性大數(shù)據(jù)領(lǐng)域的技術(shù)發(fā)展日新月異,其本身正處于一個高速的發(fā)展期,我們的集群服務(wù)會不時需要進(jìn)行更新獲得新的能力,或是需要安裝補丁以修復(fù)Bug。5缺乏可復(fù)制性各自為政的小集群缺乏統(tǒng)一的技術(shù)路線,導(dǎo)致大數(shù)據(jù)集群的運維工作會缺乏可復(fù)制性。6安全存疑企業(yè)內(nèi)部各項組成團隊自身維護(hù)的小集群通常都只為支撐自身業(yè)務(wù)而實現(xiàn)的,不會同時面對多個用戶。企業(yè)通過一些行政手段可以在一定程度上保障集群的安全。4企業(yè)大數(shù)據(jù)平臺易產(chǎn)生的缺陷Hadoop企業(yè)方案規(guī)劃設(shè)計04企業(yè)大數(shù)據(jù)平臺架構(gòu)思想資源共享使用單一集群架構(gòu),可以實現(xiàn)通過一個大集群整合所有可用的服務(wù)器資源,通過一個大集群對外提供所有的能力。數(shù)據(jù)共享使用單一存儲架構(gòu),可以實現(xiàn)將企業(yè)內(nèi)部的所有數(shù)據(jù)集中存儲在一個集群之內(nèi),方便進(jìn)行各種業(yè)務(wù)數(shù)據(jù)的整合使用。Hadoop企業(yè)方案規(guī)劃設(shè)計04企業(yè)大數(shù)據(jù)平臺架構(gòu)思想服務(wù)共享通過統(tǒng)一服務(wù)架構(gòu),我們可以站在宏觀服務(wù)設(shè)計的角度來考慮問題,可將一套統(tǒng)一服務(wù)設(shè)計規(guī)則應(yīng)用到所有服務(wù)實現(xiàn)之上,同時也能夠統(tǒng)一服務(wù)的訪問入口與訪問規(guī)則。安全保障通過統(tǒng)一安全架構(gòu),可以從平臺層面出發(fā),設(shè)計并實現(xiàn)一套整體的安全保證方案。Hadoop企業(yè)方案規(guī)劃設(shè)計04企業(yè)大數(shù)據(jù)平臺架構(gòu)思想統(tǒng)一規(guī)則由于統(tǒng)一大數(shù)據(jù)集群實現(xiàn)技術(shù)線路的統(tǒng)一,這使得我們在后續(xù)開發(fā)過程中有很多施展拳腳的空間。易于使用在開發(fā)一款大數(shù)據(jù)產(chǎn)品或者業(yè)務(wù)的時候,我們應(yīng)當(dāng)將主要的精力放在業(yè)務(wù)的梳理和實現(xiàn)之上,而不應(yīng)該過度關(guān)注平臺底層細(xì)節(jié),如集群的安裝、維護(hù)和監(jiān)控等。Hadoop企業(yè)方案規(guī)劃設(shè)計041.數(shù)據(jù)接入在大數(shù)據(jù)的應(yīng)用領(lǐng)域,自始至終都是圍繞著數(shù)據(jù)在做文章。2.數(shù)據(jù)存儲和查詢在數(shù)據(jù)接入進(jìn)來之后,就需要開始考慮如何將數(shù)據(jù)持久化存儲并提供數(shù)據(jù)查詢能力的問題了。3.數(shù)據(jù)計算在數(shù)據(jù)接入并存儲下來之后,還需對數(shù)據(jù)進(jìn)行進(jìn)一步的加工,分析和挖掘,這就是數(shù)據(jù)計算的范疇了。企業(yè)大數(shù)據(jù)平臺能力需求Hadoop企業(yè)方案規(guī)劃設(shè)計044.平臺管理與安全作為一個企業(yè)級大數(shù)據(jù)平臺產(chǎn)品,安全問題自然不容小覷。5.平臺輔助工具大數(shù)據(jù)領(lǐng)域相比傳統(tǒng)的企業(yè)及應(yīng)用,在平臺運維和程序研發(fā)等方向都顯得復(fù)雜和困難。企業(yè)大數(shù)據(jù)平臺能力需求Hadoop企業(yè)方案規(guī)劃設(shè)計041.企業(yè)應(yīng)用磁盤陣列設(shè)計方案企業(yè)大數(shù)據(jù)平臺設(shè)計方案Hadoop企業(yè)方案規(guī)劃設(shè)計042.生產(chǎn)環(huán)境軟硬件選擇(1)硬件部分(2)軟件部分(3)角色劃分企業(yè)大數(shù)據(jù)平臺設(shè)計方案Hadoop企業(yè)方案規(guī)劃設(shè)計04(3)角色劃分1)管理節(jié)點:主要用于運行重要的管理進(jìn)程,如NameNode、ResourceManager等;2)工具節(jié)點:主要用于非Hadoop管理進(jìn)程的其他進(jìn)程,如ClouderaManager、Hue等;3)邊緣節(jié)點:用于運行集群的客戶端、Flume等數(shù)據(jù)采集進(jìn)程、FTP服務(wù)等;4)工作節(jié)點:主要用于運行各種分布式計算進(jìn)程,如NodeManager、Impala等。企業(yè)大數(shù)據(jù)平臺設(shè)計方案05本章小結(jié)本章小結(jié)05本章主要介紹掌握Hadoop集群節(jié)點高可用方案規(guī)劃設(shè)計、Hadoop集群容量方案規(guī)劃設(shè)計Hadoop集群容量方案規(guī)劃設(shè)計。介紹了電信、金融、快遞、工商等Hadoop行業(yè)方案規(guī)劃設(shè)計。Hadoop企業(yè)方案規(guī)劃設(shè)計中的常見的缺陷、架構(gòu)思路和解決方案。感謝觀看,再見!大數(shù)據(jù)平臺運維(高級)Hadoop組件部署規(guī)劃第三章大數(shù)據(jù)平臺運維(高級)01Hadoop集群組件選擇Hadoop集群組件選擇01YARN集群負(fù)責(zé)海量數(shù)據(jù)運算時的資源調(diào)度。2MapReduce負(fù)責(zé)海量數(shù)據(jù)運算時的資源調(diào)度。3HDFS集群負(fù)責(zé)海量數(shù)據(jù)的存儲。1CDH集群Hadoop集群組件選擇01管理節(jié)點(MasterHosts)主要用于運行Hadoop的管理進(jìn)程,比如HDFS的NameNode、YARN的ResourceManager。工具節(jié)點(UtilityHosts)主要用于運行非管理進(jìn)程的其他進(jìn)程,比如Cloudera

Manager和HiveMetastore。CDH集群Hadoop集群組件選擇01CDH集群邊緣節(jié)點(GatewayHosts)用于集群中動作業(yè)的客戶機器,邊緣節(jié)點的數(shù)量取決于工作負(fù)載的類型和數(shù)量。工作節(jié)點(WorkerHosts)用戶運行DataNode以及其他分布式進(jìn)程。Hadoop集群組件選擇011.下面將介紹CKH常用組件(1)HDFS:Hadoop分布式文件系統(tǒng)被設(shè)計成適合運行在通用硬件(commodity

hardware)上的分布式文件系統(tǒng)。(2)HBase:HBase是一個分布式的、非關(guān)系型開源數(shù)據(jù)庫。CDH組件Hadoop集群組件選擇012.關(guān)系型數(shù)據(jù)庫難以克服的問題(1)不能很好處理對數(shù)據(jù)庫高并發(fā)讀寫的需求。(2)不能很好處理對海量數(shù)據(jù)的高效率存儲和訪問的需求。(3)不能很好處理對數(shù)據(jù)庫的高可擴展性和高可用性的需求。CDH組件Hadoop集群組件選擇01不過在最近興起的NSQL運動中,涌現(xiàn)出一批具備高可用性、支持線性擴展、支持Map/Reduce操作等特性的數(shù)據(jù)產(chǎn)品比如MongoDB、CouchDB、HBase等,它們具有如下特性:(1)頻繁的寫入操作、相對較少的讀取統(tǒng)計信息的操作。(2)海量數(shù)據(jù)(如數(shù)中要分的數(shù)據(jù)合在一個結(jié)、分布式的文件存儲系統(tǒng)中。(3)存儲二進(jìn)制文件(如mp3或者pdf文檔)并且能夠直接為用戶的瀏覽器提供下載功能。CDH組件Hadoop集群組件選擇01CDH組件3.HiveHive是一個建立在Hadoop架構(gòu)之上的數(shù)據(jù)倉庫。它能夠提供數(shù)據(jù)的精煉,查詢和分析。4.OozieOozie是一個管理Hadoop作業(yè)(Job)的工作流程調(diào)度管理系統(tǒng),其工作流是一系列動作的直接周期圖。Hadoop集群組件選擇015.Hue所支持的功能特性如下:(1)默認(rèn)基于輕量級sqlite數(shù)據(jù)庫管理會話數(shù)據(jù),用戶認(rèn)證和授權(quán),可以自定義為MySQL、Postgresql以及Oracle。(2)基于文件瀏覽器(FileBrowser)訪問HDFS。(3)基于Hive編輯器來開發(fā)和運行Hive查詢。(4)支持基于Solr進(jìn)行搜索的應(yīng)用,并提供可視化的數(shù)據(jù)視圖,以及儀表板(Dashboard)。(5)支持基于Impala的應(yīng)用進(jìn)行交互式查詢。CDH組件Hadoop集群組件選擇015.Hue所支持的功能特性如下:(6)支持Spark編輯器和儀表板(Dashboard)。(7)支持Pig編輯器,并能夠提交腳本任務(wù)。(8)支持Oozie編輯器,可以通過儀表板提交和監(jiān)控Workflow、Coordinator和Bundle。(9)支持HBase瀏覽器,能夠可視化數(shù)據(jù)、查詢數(shù)據(jù)、修改HBase表。(10)支持Metastore瀏覽器,可以訪問Hive的元數(shù)據(jù),以及HCatalog。CDH組件Hadoop集群組件選擇015.Hue所支持的功能特性如下:(11)支持Job瀏覽器,能夠訪問MapReduceJob(MR1/MR2-YARN)。(12)支持Job設(shè)計器,能夠創(chuàng)建MapReduce/Streaming/JavaJob。(13)支持Sqoop2編輯器和儀表板(Dashboard)。(14)支持ZooKeeper瀏覽器和編輯器。(15)支持MySql、PostGresql、Sqlite和Oracle數(shù)據(jù)庫查詢編輯器。CDH組件Hadoop集群組件選擇01CDH組件6.ImpalaImpala是Cloudera公司主導(dǎo)開發(fā)的新型查詢系統(tǒng),它提供SQL語義,能查詢存儲在Hadoop的HDFS和HBase中的PB級大數(shù)據(jù)。7.Key-ValueindexerHBase是一個列存數(shù)據(jù)庫,每行數(shù)據(jù)只有一個主鍵RowKey,無法依據(jù)指定列的數(shù)據(jù)進(jìn)行檢索。Hadoop集群組件選擇018.YARN(MR2Included)(1)ResourceManager代替集群管理器。(2)ApplicationMaster代替一個專用且短暫的JobTracker。(3)NodeManager代替TaskTracker。(4)一個分布式應(yīng)用程序代替一個MapReduce作業(yè)。CDH組件Hadoop集群組件選擇019.ClouderaManager(1)Agent:安裝在每臺主機上。它負(fù)責(zé)啟動和停止進(jìn)程,解壓縮配置,觸發(fā)安裝和監(jiān)控主機。(2)Database:存儲配置和監(jiān)控信息。(3)ClouderaRepository:可供ClouderaManager分配的軟件的存儲庫(repo庫)。(4)Client:用于與服務(wù)器進(jìn)行交五的接口。(5)AdminConsole:管理員控制臺。(6)API:開發(fā)人員使用API可以創(chuàng)建自定義的ClouderaManager應(yīng)用程序。CDH組件Hadoop集群組件選擇01(7)ClouderaManagementService。1)ClouderaManagementService:可作為一組角色實施各種管理功能。2)ActivityMonitor:收集有關(guān)服務(wù)運行的活動的信息。3)HostMonitor:收集有關(guān)主機的運行狀況和指標(biāo)信息。4)ServiceMonitor:收集有關(guān)服務(wù)的運行狀況和指標(biāo)信息。5)EventServer:聚合組件的事件并將其用于警報和搜索。CDH組件Hadoop集群組件選擇01(7)ClouderaManagementService。6)AlertPublisher:為特定類型的事件生成和提供警報。7)ReportsManager:生成圖表報告,它提供用戶、用戶組的目錄的磁盤使用率、磁盤、IO等歷史視圖。CDH組件02Hadoop集群版本選擇Hadoop集群版本選擇02Cloudera提供了Hadoop的商業(yè)發(fā)行版本CDH(Cloudera'sDistributionIncluding

ApacheHadoop),能夠十分方便地對Hadoop集群進(jìn)行安裝、部署和管理。它是目前比較完整的,充分測試的Hadoop及其相關(guān)項目的發(fā)行版。CDH的基礎(chǔ)組件均基于Apache

License開源,無論個人學(xué)習(xí)還是企業(yè)使用都比較有保障。03Hadoop生態(tài)組件的工作原理Hadoop生態(tài)組件的工作原理03數(shù)據(jù)遷移層通過批量加處理(Sqoop)、流式實時傳輸(Flume、Kafka)將數(shù)據(jù)移入移出Hadoop。數(shù)據(jù)存儲層主要包括具有高批處理性的HDFS,具有高隨機讀寫性的HBase,以及批處理性和隨機讀寫性介于兩者之間的Kudu。生態(tài)體系Hadoop生態(tài)組件的工作原理03生態(tài)體系資源管理與安全管制層由Yarn提供資源管理、Sentry提供安全管制。數(shù)據(jù)處理分析層數(shù)據(jù)處理主要由適用于大型數(shù)據(jù)集離線批處理的MapReduce,以及基于內(nèi)存快速處理的Spark完成。Hadoop生態(tài)組件的工作原理031.數(shù)據(jù)遷移層(1)Sqoop1)用于將關(guān)系型數(shù)據(jù)庫與Hadoop生態(tài)(HDFS,HBase,Hive)中的數(shù)據(jù)進(jìn)行相轉(zhuǎn)移。2)通過MapReduce任務(wù)(主要為Map),映射傳輸關(guān)系型數(shù)據(jù)庫與Hadoop中的數(shù)據(jù)。3)基于JDBC和關(guān)系型數(shù)據(jù)庫進(jìn)行交互。各層相關(guān)組件概念及原理Hadoop生態(tài)組件的工作原理03Hadoop生態(tài)組件的工作原理031.數(shù)據(jù)遷移層(2)Kafka1)一個用于構(gòu)建實時數(shù)據(jù)管道和流應(yīng)用程序的分布式消息系統(tǒng)。2)客戶端和服務(wù)器之間的通信是通過TCP協(xié)議完成。3)作為一個集群運行在一個或多個可跨多個數(shù)據(jù)中心的服務(wù)器上。4)Kafka集群以Topic的形式存儲流記錄信息。各層相關(guān)組件概念及原理Hadoop生態(tài)組件的工作原理03Hadoop生態(tài)組件的工作原理031.數(shù)據(jù)遷移層(3)Flume1)一個分布式日志采集系統(tǒng),同時也采集網(wǎng)絡(luò)流量數(shù)據(jù)、社交媒體生成的數(shù)據(jù)、電子郵件消息等多種信息。2)Event為數(shù)據(jù)傳輸?shù)幕締卧奢d有數(shù)據(jù)的字節(jié)數(shù)組和可選的headers頭部信息構(gòu)成。3)使用事務(wù)的方式確保Event的可靠傳輸。4)Agent是一個(JVM)進(jìn)程。各層相關(guān)組件概念及原理Hadoop生態(tài)組件的工作原理03Hadoop生態(tài)組件的工作原理032.數(shù)據(jù)存儲層(1)HDFS1)分布式文件存儲系統(tǒng),主從式架構(gòu)(Master/Slave)。2)每個文件具有多個備份。3)包括NameNode、SecondaryNameNode、DataNode三大角色。4)NameNode主要負(fù)責(zé)文件系統(tǒng)命名控件的管理,存儲文件目錄的Metadata元數(shù)據(jù)信息等。各層相關(guān)組件概念及原理Hadoop生態(tài)組件的工作原理032.數(shù)據(jù)存儲層(1)HDFS5)SecondaryNameNode主要用于備份NameNode中的元數(shù)據(jù)信息,加快集群啟動時間等。6)DataNode主要負(fù)責(zé)存儲客戶端發(fā)送的Block數(shù)據(jù)塊,執(zhí)行數(shù)據(jù)塊的讀寫操作。7)NameNode與DataNode通過心跳機制進(jìn)行通信。各層相關(guān)組件概念及原理Hadoop生態(tài)組件的工作原理03Hadoop生態(tài)組件的工作原理032.數(shù)據(jù)存儲層(2)HBase1)分布式NOSOL數(shù)據(jù)庫,列存儲。2)客戶端訪問數(shù)據(jù)時采用三級尋址:ZooKeeper文件-ROOT表META表用戶數(shù)據(jù)表。3)查詢時采用惰性緩存機制,當(dāng)客戶端通過已有的緩存去具體的region服務(wù)器中沒有找到時,再通過三級尋址,將最新的地址進(jìn)行緩存。各層相關(guān)組件概念及原理Hadoop生態(tài)組件的工作原理032.數(shù)據(jù)存儲層(2)HBase4)數(shù)據(jù)先寫入MemStore緩存,并在Hlog中記錄,系統(tǒng)周期性的將MemStore中的內(nèi)容寫入StoreFile文件,當(dāng)StoreFile過大時,會觸發(fā)文件分裂操作。各層相關(guān)組件概念及原理Hadoop生態(tài)組件的工作原理032.數(shù)據(jù)存儲層(3)資源管理與安管制層1)YARN2)Sentry各層相關(guān)組件概念及原理Hadoop生態(tài)組件的工作原理03Hadoop生態(tài)組件的工作原理032.數(shù)據(jù)存儲層(4)資源管理與安管制層1)MapReduce2)Hive3)Impala各層相關(guān)組件概念及原理Hadoop生態(tài)組件的工作原理03Hadoop生態(tài)組件的工作原理0304Hadoop生態(tài)圈的發(fā)展趨勢Hadoop生態(tài)圈的發(fā)展趨勢04Hadoop生態(tài)體系中,HDFS提供文件存儲,YARN提供資源管理,在此基礎(chǔ)上,進(jìn)行各種處理,包括MapReduce、Tez、Sprak、Storm等計算。05本章小結(jié)本章小結(jié)05本章主要介紹ClouderaHadoop發(fā)行版CDH集群特征及組件、版本說明、CDH與ApacheHadoop版本的區(qū)別;介紹了Hadoop生態(tài)體系及各層相關(guān)組件的工作原理,以及Hadoop生態(tài)圈的發(fā)展趨勢。感謝觀看,再見!大數(shù)據(jù)平臺運維(高級)大數(shù)據(jù)平臺運維(高級)大數(shù)據(jù)平臺安全體系第四章01安全與認(rèn)證概述安全與認(rèn)證概述011.安全要求數(shù)據(jù)管理系統(tǒng)的目標(biāo)(例如機密性、完整性和可用性)要求在多個維度上對系統(tǒng)進(jìn)行保護(hù),可以根據(jù)總體操作目標(biāo)和技術(shù)概念來表征如下特征。外圍訪問集群必須受到保護(hù),以防止來自內(nèi)部、外部網(wǎng)絡(luò)等各種威脅。(1)必須始終保護(hù)集群中的數(shù)據(jù)免遭未經(jīng)授權(quán)的暴露。(2)訪問權(quán)限授權(quán),必須明確授予用戶訪問集群中服務(wù)或數(shù)據(jù)項的權(quán)限。(3)可見性,意味著數(shù)據(jù)更改的歷史是透明的,并且能夠滿足數(shù)據(jù)治理策略。(4)確保集群安全以實現(xiàn)特定的組織目標(biāo),使用Hadoop生態(tài)系統(tǒng)固有的安全功能以及使用外部安全基礎(chǔ)架構(gòu),各種安全機制可以在一定范圍內(nèi)應(yīng)用。安全與認(rèn)證概述012.安全等級安全等級列表如圖所示。安全與認(rèn)證概述013.認(rèn)證概述對訪問集群用戶的身份驗證是基本的安全要求,簡單來說,用戶和服務(wù)必須先向系統(tǒng)證明其身份(身份驗證),然后才能在授權(quán)范圍內(nèi)使用系統(tǒng)功能。為保護(hù)系統(tǒng)資源,授權(quán)使用多種方法處理,從訪問控制列表(ACL)到HDFS擴展ACL,再到使用Sentry的基于角色的訪問控制(RBAC)。不同的機制可以一起工作以對集群中的用戶和服務(wù)進(jìn)行身份驗證,包括ApacheHive、Hue和ApacheImpala,都可以使用Kerberos進(jìn)行身份驗證。02Hadoop安全背景Hadoop安全背景021.Hadoop安全背景共享集群:按照業(yè)務(wù)或應(yīng)用的規(guī)則劃分資源隊列,并分配給特定用戶。HDFS上存放各種數(shù)據(jù),包括公共的、機密的。(1)安全認(rèn)證:確保某個用戶是合法的用戶。(2)安全授權(quán):確保某個用戶只能做被允許的操作。(3)User:Hadoop用戶,可以提交作業(yè)、查看作業(yè)狀態(tài)、查看HDFS上的文件。(4)Service:Hadoop中的服務(wù)組件,包括NameNode、ResourceManager、DataNode、NodeManager。Hadoop安全背景022.Hadoop安全架構(gòu)在所有內(nèi)部連接和外部連接中,都可用身份驗證和訪問控制來保護(hù)集群安全。(1)UserUnsecurezonel:未加密數(shù)據(jù)區(qū)域。(2)FS/GTM:文件、資源管理。(3)DataCenter1:數(shù)據(jù)中心。(4)DataTier:數(shù)據(jù)層。(5)Securezone:加密區(qū)域。(6)SecureHadoopCluster:加密的Hadoop集群。未加密的數(shù)據(jù),通過文件、資源管理器傳輸?shù)郊用軈^(qū)域,加密區(qū)域數(shù)據(jù)跟Hadoop集群進(jìn)行交互,訪問數(shù)據(jù)先要通過密鑰中心獲取票據(jù),最終才可以訪問到數(shù)據(jù)。Hadoop安全背景023.Hadoop安全機制ApacheHadoop1.0.0版本和ClouderaCDH3之后的版本添加了安全機制,Hadoop提供了兩種安全機制:Simple和Kerberos.(1)Simple采用SAAS協(xié)議,默認(rèn)機制,配置簡單,使用簡單,適合單一團隊使用。(2)Kerberos可以將認(rèn)證的密鑰在集群部署時事先放到自己的節(jié)點。03安全認(rèn)證安全認(rèn)證031.身份驗證協(xié)議(Kerberos)Kerberos是一種身份驗證協(xié)議,它依賴加密機制來處理請求的客戶端和服務(wù)器之間的交互,從而極大地降低了模擬的風(fēng)險,密碼既不存儲在本地也不通過網(wǎng)絡(luò)明文發(fā)送,用戶在登錄其系統(tǒng)時輸入的密碼用于解鎖本地機制,然后在與受信任的第三方的后續(xù)交互中使用該機制來向用戶授予票證(Ticket)(有效期有限),該票證用于根據(jù)請求進(jìn)行身份驗證服務(wù)。服務(wù)在客戶端和服務(wù)器進(jìn)程相互證明各自的身份之后,還要對通信進(jìn)行加密以確保隱私和數(shù)據(jù)的完整性。安全認(rèn)證031.身份驗證協(xié)議(Kerberos)Kerberos認(rèn)證的基本工作流程如圖所示。安全認(rèn)證031.身份驗證協(xié)議(Kerberos)1.Kerberos關(guān)鍵術(shù)語(1)Realm:

在一個Kerberos認(rèn)證網(wǎng)絡(luò)中所有機器的組名。(2)Principal:

被認(rèn)證的個體,有一個名字和口令。(3)Keytabfile:存儲Principal和相關(guān)密鑰的文件。(4)KDC(KeyDistributionCenter):是一個網(wǎng)絡(luò)服務(wù),提供Ticket和臨時會話密鑰。(5)Ticket:一個票據(jù),客戶用它來向服務(wù)器證明自己的身份,包括客戶標(biāo)識、會話密鑰、時間戳。(6)AS(AuthenticationServer):認(rèn)證服務(wù)器。(7)TGS(Ticket-grantingServer):許可證服務(wù)器。(8)TGT(Ticket-grantingTicket):申請票據(jù)的資格。安全認(rèn)證031.身份驗證協(xié)議(Kerberos)2.Kerberos部署模型可以在符合LDAP的身份/目錄服務(wù)(如OpenLDAP或MicrosoftActiveDirectory)中存儲和管理Kerberos身份驗證所需的憑據(jù)。Microsoft提供了一項獨立的服務(wù),即ActiveDirectory服務(wù),現(xiàn)在打包為MicrosoftServerDomainServices的一部分。3.Kerberos解決的Hadoop認(rèn)證問題Kerberos實現(xiàn)的是機器級別的安全認(rèn)證,也就是服務(wù)到服務(wù)的認(rèn)證,解決服務(wù)器到服務(wù)器的認(rèn)證。Kerberos防止了用戶偽裝成DataNode,去接受NameNode的任務(wù)指派,解決客戶端到服務(wù)器的認(rèn)證。Kerberos對可信任的客戶端提供認(rèn)證,確保他們可以執(zhí)行作業(yè)的相關(guān)操作。Kerberos未提供用戶級別上的認(rèn)證,無法控制用戶提交作業(yè)的操作。安全認(rèn)證031.身份驗證協(xié)議(Kerberos)4.Kerberos協(xié)議Kerberos協(xié)議分兩部分,如圖所示。安全認(rèn)證031.身份驗證協(xié)議(Kerberos)5.Kerberos認(rèn)證過程認(rèn)證過程即為SessionKey安全發(fā)布的過程,如圖所示。安全認(rèn)證031.身份驗證協(xié)議(Kerberos)6.Kerberos認(rèn)證授權(quán)過程KDC包含了AS、數(shù)據(jù)庫和TGS三部分,如圖所示。安全認(rèn)證031.身份驗證協(xié)議(Kerberos)7.Kerberos在Hadoop上的應(yīng)用Kerberos在Hadoop上認(rèn)證的場景包括HTTP訪問、RPC通信及塊訪問等。(1)HTTPplugauth:用戶或者瀏覽器通過身份驗證訪問服務(wù)器數(shù)據(jù)。(2)HTTPHMAC:HTTP密鑰,通過任務(wù)查看任務(wù)進(jìn)度。(3)RPCKerberos、RPCDGEST:RPC(遠(yuǎn)程過程調(diào)用)驗證密鑰請求訪問進(jìn)程和數(shù)據(jù)。(4)BlockAccess:訪問數(shù)據(jù)塊。(5)ThirdParty:訪問第三方文件和信息。安全認(rèn)證031.身份驗證協(xié)議(Kerberos)8.使用Kerberos進(jìn)行驗證的原因(1)可靠:Hadoop本身并沒有認(rèn)證功能和創(chuàng)建用戶組功能,使用依靠外圍的認(rèn)證系統(tǒng)。(2)高效:Kerberos使用對稱鑰匙操作,比SSL的公共密鑰快。(3)操作簡單:Kerberos依賴第三方的統(tǒng)一管理中心——KDC,

管理員對用戶的操作直接作用在KDC上。安全認(rèn)證032.Hadoop安全機制的具體實現(xiàn)1.RPC安全(1)身份認(rèn)證機制。Hadoop中所有RPC連接均采用了SASL,

另外Hadoop還將Kerberos和DIGEST-MD5兩種認(rèn)證機制添加到SASL中實現(xiàn)安全認(rèn)證?;诠蚕砻荑€生成的安全認(rèn)證憑證稱為令牌(Token),Hadoop中共有三種令牌:授權(quán)令牌、數(shù)據(jù)塊訪問令牌、作業(yè)令牌。(2)服務(wù)訪問控制機制。Hadoop提供的最原始的授權(quán)機制,服務(wù)訪問控制是通過控制各個服務(wù)之間的通信協(xié)議實現(xiàn)的,它通常發(fā)生在其他訪問控制機制之前。2.HDFS安全策略采用Kerberos與令牌相結(jié)合的方法進(jìn)行身份認(rèn)證,客戶端與HDFS之間的通信連接由兩部分組成。(1)客戶端向NameNode發(fā)起的RPC連接。(2)客戶端向DataNode發(fā)起的Block傳輸連接。安全認(rèn)證032.Hadoop安全機制的具體實現(xiàn)3.MapReduce安全策略(1)作業(yè)運行:Hadoop以實際提交作業(yè)的那個用戶身份運行相應(yīng)的任務(wù),用C程序?qū)崿F(xiàn)了一個setuid程序以修改每個任務(wù)所在JVM的有效用戶ID。(2)Shuffle:Hadoop在ReduceTask與TaskTracker之間的通信機制上添加了雙向認(rèn)證機制,以保證有且僅有同作業(yè)的ReduceTask才能夠讀取MapTask的中間結(jié)果。(3)WebUI:Kerberos中已經(jīng)自帶了Web瀏覽器訪問認(rèn)證機制。4.Hadoop安全機制的實現(xiàn)系統(tǒng)安全機制由認(rèn)證(Authentication)和授權(quán)(Authorization)兩大部分構(gòu)成。Hadoop中的認(rèn)證機制采用Kerbero和Token兩種方案,授權(quán)則是通過引入訪問控制列表實現(xiàn)的。安全認(rèn)證033.Hadoop安全機制的應(yīng)用場景創(chuàng)建安全用戶,如HDFS和MapReduce,并為其添加Kerberos認(rèn)證,用不同的用戶安全地啟動HDFS服務(wù)和MapReduce服務(wù)。一個安全的Hadoop集群需要在各種應(yīng)用場景中涉及安全認(rèn)證過程,流程如下。(1)文件存取。(2)作業(yè)提交與運行。(3)上層中間件訪問Hadoop。安全認(rèn)證033.Hadoop安全機制的應(yīng)用場景1.文件存取:認(rèn)證流程是在NameNode和DataNode節(jié)點上為用戶HDFS添加Kerberos認(rèn)證,一個應(yīng)用程序從HDFS上存取文件涉及的安全認(rèn)證,如圖所示。安全認(rèn)證033.Hadoop安全機制的應(yīng)用場景2.上層中間件訪問Hadoop:Hadoop有很多上層中間件,如Oozie、Hive等,它們通常采用“偽裝成其他用戶”的方式訪問Hadoop,如圖所示。04安全認(rèn)證認(rèn)證方式041.Kerberos安全工件因為本機Hadoop身份驗證僅檢查用戶和組是否有效,而不像Kerberos一樣對所有網(wǎng)絡(luò)資源中的用戶或服務(wù)進(jìn)行身份驗證。Kerberos協(xié)議僅在特定時間段內(nèi)對發(fā)出請求的用戶或服務(wù)進(jìn)行身份驗證,并且每個用戶可能要使用的服務(wù)都需要在協(xié)議的上下文中使用適當(dāng)?shù)腒erberos工件。例如,用于用戶身份驗證的Kerberos主體和密鑰表,以及系統(tǒng)如何使用委派令牌在運行時代表已身份驗證的用戶對作業(yè)進(jìn)行身份驗證。認(rèn)證方式042.Kerberos主體每個需要對Kerberos進(jìn)行身份驗證的用戶和服務(wù)都需要-一個主體(Principal),該主體在可能有多個Kerberos服務(wù)器和相關(guān)子系統(tǒng)的上下文中唯-標(biāo)識該用戶或服務(wù)。主體最多包含三段標(biāo)識信息,以用戶名或服務(wù)名開頭,通常,主體的主要部分由操作系統(tǒng)中的用戶賬戶名稱組成。(1)用戶的主體通常僅由主要名稱和Kerberos領(lǐng)域名稱組成。(2)對于服務(wù)角色實例身份,主要是Hadoop守護(hù)程序使用的Linux賬戶名。(3)HadoopWeb服務(wù)接口需要通過實例名稱登錄。(4)通常,服務(wù)名稱是給定服務(wù)角色實例使用的Linux賬戶名,但是用于確保對Hadoop服務(wù)Web界面進(jìn)行Web身份驗證的HTTP主體沒有Linux賬戶名,因此主體的主要身份是HTTP。05本章小結(jié)本章小結(jié)05通過配置Kerberos安全認(rèn)證,對用戶和服務(wù)的身份進(jìn)行驗證,確保用戶和服務(wù)僅在證明身份后才能訪問集群,保證集群的安全性,避免惡意攻擊者訪問集群,竊取數(shù)據(jù)。通過身份認(rèn)證的方式,保障用戶的數(shù)據(jù)安全,避免數(shù)據(jù)泄露。感謝觀看,再見!大數(shù)據(jù)平臺運維(高級)大數(shù)據(jù)平臺運維(高級)大數(shù)據(jù)平臺安全實戰(zhàn)第五章01Kerberos安裝部署Kerberos安裝部署01使用Kerberos時,一個客戶端需要經(jīng)過三個步驟來獲取服務(wù)。(1)認(rèn)證:客戶端向認(rèn)證服務(wù)器發(fā)送一條報文,并獲取一個含時間戳的TicketGrantingTicket(TGT)。(2)授權(quán):客戶端使用TGT向TicketGrantingServer(TGS)請求一個服務(wù)Ticket。(3)服務(wù)請求:客戶端向服務(wù)器出示服務(wù)Ticket,以證實自己的合法性。為此,Kerberos需要TheKeyDistributionCenters(KDC)來進(jìn)行認(rèn)證。KDC只有一個master,可以帶多個slaves機器。slaves機器僅進(jìn)行普通驗證,master上做的修改需要自動同步到slaves。另外,KDC需要一個admin來進(jìn)行日常的管理操作,這個admin可以通過遠(yuǎn)程或者本地方式登錄。Kerberos安裝部署011.集群環(huán)境準(zhǔn)備使用已部署好的CDH5.16.2集群環(huán)境來搭建Kerberos,集群規(guī)劃如表5.1所示。Kerberos安裝部署012.Kerberos安裝KDC是KeyDistributionCenter的簡寫,意思是可信任的密鑰分發(fā)中心,如圖所示。Kerberos安裝部署012.Kerberos安裝1.安裝KDCserver在master上安裝krb5-server、krb5-libs和krb5-auth-dialog包:一般系統(tǒng)安裝會配置本地yum源,如果不能通過yum安裝,則通過離線下載rpm包進(jìn)行安裝。2.修改配置文件KDC服務(wù)器涉及三個配置文件:Kerberos安裝部署012.Kerberos安裝3.編輯配置文件/etc/krb5.conf(1)[logging]:表示server端的日志的打印位置。(2)[libdefaults]:

每種連接的默認(rèn)配置。(3)[domain_realm]:

設(shè)置一個域搜索范圍,并通過以上設(shè)置可以使得域名與大小寫無關(guān)。4.修改/var/kerberos/krb5kdc/kdc.conf該文件包含Kerberos的配置信息。如KDC的位置、Kerberos的admin的realms等。需要所有使用Kerberos的機器上的配置文件都同步。5.修改/var/kerberos/krb5kdc/kadm5.aclkadm5.acl是為了能夠不直接訪問KDC控制臺而從Kerberos數(shù)據(jù)庫中添加和刪除主體,對Kerberos管理服務(wù)器指示允許哪些主體執(zhí)行哪些操作。ACL允許精確指定特權(quán)。02HDFS配置KerberosHDFS配置Kerberos021.創(chuàng)建認(rèn)證規(guī)則(1)在Kerberos安全機制里,一個principal就是realm里的-一個對象,一個principal總是和一個密鑰(secretkey)成對出現(xiàn)的。(2)principal的對應(yīng)物可以是service,可以是host,也可以是user,對于Kerberos來說并沒有區(qū)別。(3)KDC知道所有principal的secretkey,但每個principal對應(yīng)的對象只知道自己的那個secretkey。(4)對于Hadoop,principals的格式為username/@YOUR-REALM.COM。(5)通過yum源安裝的CDH集群中,NameNode和DataNode是通過HDFS啟動的,故為集群中每個服務(wù)器節(jié)點添加兩個principals:HDFS、HTTP。HDFS配置Kerberos022.認(rèn)證規(guī)則配置實現(xiàn)在KDC服務(wù)器上創(chuàng)建HDFS和HTTPprincipal:HDFS配置Kerberos023.創(chuàng)建keytab文件keytab是包含principals和加密principalkey的文件。keytab文件對于每個host是唯一的。keytab文件用于不需要人工交互和保存純文本密碼,實現(xiàn)到Kerberos.上驗證一個主機上的principal(認(rèn)證用戶),就可以以principal的身份通過Kerberos的認(rèn)證,所以keytab文件必須妥善保存。(1)在master節(jié)點上,即KDC服務(wù)器節(jié)點上執(zhí)行下面命令。(2)使用ktutil合并hdfs-unmerged.keytab和HTTP.keytab為hdfs.keytab.(3)使用klist顯示hdfs.keytab文件列表:(4)驗證是否正確合并hdfs.keytab.(5)使用合并后的hdfs.keytab:Keytab就是一個包含了若干principals和一個加密了的principalkey的文件。HDFS配置Kerberos024.部署Kerberoskeytab文件(1)在master復(fù)制hdfs.keytab文件到所有節(jié)點的/etc/hadoop/conf目錄。(2)設(shè)置權(quán)限,在master節(jié)點上執(zhí)行。由于keytab相當(dāng)于有了永久憑證,不需要提供密碼(如果修改KDC中的principal的密碼,則該keytab就會失效),所以其他用戶如果對該文件有讀權(quán)限,就可以冒充keytab中指定的用戶身份訪問Hadoop,所以keytab文件需要確保只對owner有讀權(quán)限(0400)。(3)驗證。執(zhí)行結(jié)果沒有提示錯誤信息則表示正常,如果報錯沒有用戶,則需要重新執(zhí)行前面的操作。03YARN配置KerberosYARN配置Kerberos031.生成keytab(1)在master節(jié)點,即KDC服務(wù)器節(jié)點上執(zhí)行命令。(2)復(fù)制yarm.keytab和mapred.keytab文件到其他節(jié)點的/etc/hadoop/conf目錄:(3)設(shè)置文件歸屬用戶和權(quán)限。YARN配置Kerberos032.修改YARN配置文件(1)修改yarn-site.xm1;(2)修改mapred-site.xml,開啟mapred的kerberos認(rèn)證,添加mapred的密鑰文件(keytab)和認(rèn)證用戶(principal);(3)修改/etc/hadoop/conf/container-executor.cfg文件;(4)在master節(jié)點設(shè)置/etc/hadoop/conf/container-executor.cfg文件權(quán)限;(5)設(shè)置/usr/lib/hadoop-yar/bin/container-executor的讀寫權(quán)限為6050(保留默認(rèn)設(shè)置);(6)測試是否配置正確;(7)將修改的文件同步到其他節(jié)點,如slavel、slave2。YARN配置Kerberos033.啟動服務(wù)1.啟動ResourceManagerResourceManager是通過yarn用戶啟動的,故應(yīng)在master節(jié)點上先獲取yarn用戶的ticket再啟動服務(wù):然后查看日志,確認(rèn)是否啟動成功。2.啟動NodeManagerNodeManager是通過yarn用戶啟動的,故應(yīng)在slave1和slave2節(jié)點上先獲取yarn用戶的ticket再啟動服務(wù)。YARN配置Kerberos033.啟動服務(wù)3.啟動MapReduceJobHistoryServerHistoryServer是通過mapred用戶啟動的,故應(yīng)在master節(jié)點上先獲取mapred用戶的ticket再啟動服務(wù):YARN配置Kerberos034.測試檢查Web頁面是否可以訪問http://master:8088/cluster,運行示例程序:04本章小結(jié)本章小結(jié)04通過本章的學(xué)習(xí),使讀者能掌握Kerberos的安裝配置操作,能掌握HDFS和YARN服務(wù)配置Kerberos的配置操作,包括keytab文件的創(chuàng)建和配置文件的修改。感謝觀看,再見!大數(shù)據(jù)平臺運維(高級)大數(shù)據(jù)平臺運維(高級)大數(shù)據(jù)平臺治理第六章01大數(shù)據(jù)數(shù)據(jù)資產(chǎn)概述大數(shù)據(jù)數(shù)據(jù)資產(chǎn)概述011.數(shù)據(jù)資產(chǎn)定義“數(shù)據(jù)資產(chǎn)”這一概念是由信息資源和數(shù)據(jù)資源的概念逐漸演變而來的。信息資源是在20世紀(jì)70年代計算機科學(xué)快速發(fā)展的背景下產(chǎn)生的,信息被視為與人力資源、物質(zhì)資源、財務(wù)資源和自然資源同等重要的資源,高效、經(jīng)濟地管理組織中的信息資源是非常必要的。數(shù)據(jù)資源的概念是在20世紀(jì)90年代伴隨著政府和企業(yè)的數(shù)字化轉(zhuǎn)型而產(chǎn)生,是有含義的數(shù)據(jù)集結(jié)到一定規(guī)模后形成的資源。數(shù)據(jù)資產(chǎn)在21世紀(jì)初大數(shù)據(jù)技術(shù)的興起背景下產(chǎn)生,并隨著數(shù)據(jù)管理、數(shù)據(jù)應(yīng)用和數(shù)字經(jīng)濟的發(fā)展而普及。大數(shù)據(jù)數(shù)據(jù)資產(chǎn)概述012.數(shù)據(jù)資產(chǎn)管理五星模型在數(shù)據(jù)資產(chǎn)化背景下,數(shù)據(jù)資產(chǎn)管理是在數(shù)據(jù)管理基礎(chǔ)上的進(jìn)一步發(fā)展,可以視作數(shù)據(jù)管理的“升級版”。主要區(qū)別表現(xiàn)為以下三方面。一是管理視角不同,數(shù)據(jù)管理主要關(guān)注的是如何解決問題數(shù)據(jù)帶來的損失,而數(shù)據(jù)資產(chǎn)管理則關(guān)注如何利用數(shù)據(jù)資產(chǎn)為企業(yè)帶來價值,需要基于數(shù)據(jù)資產(chǎn)的成本、收益來開展數(shù)據(jù)價值管理。二是管理職能不同,傳統(tǒng)數(shù)據(jù)管理的管理職能包含數(shù)據(jù)標(biāo)準(zhǔn)管理、數(shù)據(jù)質(zhì)量管理、元數(shù)據(jù)管理、主數(shù)據(jù)管理、數(shù)據(jù)模型管理、數(shù)據(jù)安全管理等,而數(shù)據(jù)資產(chǎn)管理針對不同的應(yīng)用場景和大數(shù)據(jù)平臺建設(shè)情況,增加了數(shù)據(jù)價值管理和數(shù)據(jù)共享管理等職能。三是組織架構(gòu)不同,在“數(shù)據(jù)資源管理轉(zhuǎn)向數(shù)據(jù)資產(chǎn)管理”的理念影響下,相應(yīng)的組織架構(gòu)和管理制度也有所變化,需要有更專業(yè)的管理隊伍和更細(xì)致的管理制度來確保數(shù)據(jù)資產(chǎn)管理的流程性、安全性和有效性。大數(shù)據(jù)數(shù)據(jù)資產(chǎn)概述012.數(shù)據(jù)資產(chǎn)管理五星模型在數(shù)據(jù)資產(chǎn)管理AIGOV五星模型中將數(shù)據(jù)資產(chǎn)管理相關(guān)工作劃分成五個管理域和13個能力項。1.數(shù)據(jù)架構(gòu)策略:數(shù)據(jù)架構(gòu)策略,包含組織架構(gòu)/策略制度一個能力項。2.數(shù)據(jù)集成共享:數(shù)據(jù)集成共享管理域,包括數(shù)據(jù)采集、數(shù)據(jù)集成、數(shù)據(jù)共享中心三個能力項。3.數(shù)據(jù)治理:包含數(shù)據(jù)模型管理、元數(shù)據(jù)管理、數(shù)據(jù)標(biāo)準(zhǔn)管理、數(shù)據(jù)質(zhì)量管理幾個能力項目。4.數(shù)據(jù)運營管理:數(shù)據(jù)運營管理域,包含數(shù)據(jù)生命周期管理、數(shù)據(jù)安全管理、主數(shù)據(jù)管理三個能力項,其核心目標(biāo)是提升數(shù)據(jù)安全和運營效率。5.數(shù)據(jù)增值應(yīng)用:包含數(shù)據(jù)分析挖掘和開放服務(wù)兩個能力項。大數(shù)據(jù)數(shù)據(jù)資產(chǎn)概述013.大數(shù)據(jù)資產(chǎn)管理框架數(shù)據(jù)資產(chǎn)管理“AIGOV五星模型”從數(shù)據(jù)資產(chǎn)管理的全局視角和整體過程出發(fā),總結(jié)歸納出了企業(yè)生產(chǎn)中數(shù)據(jù)資產(chǎn)化價值實現(xiàn)的大致過程。但對于企業(yè)中如何分層落地實施卻沒有給出具體解決方案。從大數(shù)據(jù)發(fā)展歷史來看,企業(yè)要通過“數(shù)據(jù)驅(qū)動”實現(xiàn)數(shù)據(jù)價值變現(xiàn),需要依次經(jīng)歷大數(shù)據(jù)處理能力建設(shè)、數(shù)據(jù)資產(chǎn)管理、業(yè)務(wù)價值實現(xiàn)三個階段。因此應(yīng)用在企業(yè)中的大數(shù)據(jù)資產(chǎn)管理體系需要包括大數(shù)據(jù)資產(chǎn)治理和管控、大數(shù)據(jù)資產(chǎn)應(yīng)用創(chuàng)新和資產(chǎn)共享、大數(shù)據(jù)資產(chǎn)流通運營和資產(chǎn)增值三個方面的核心內(nèi)容。治理與管控在海量數(shù)據(jù)存儲計算和統(tǒng)一訪問的基礎(chǔ)上,面向數(shù)據(jù)的生命周期,從空間視角和時間視角實現(xiàn)治理和管控。大數(shù)據(jù)的流通運營和資產(chǎn)增值是數(shù)據(jù)資產(chǎn)管理的最終目的。02大數(shù)據(jù)平臺管理體系大數(shù)據(jù)平臺管理體系021.大數(shù)據(jù)標(biāo)準(zhǔn)體系框架1.基礎(chǔ)標(biāo)準(zhǔn):為整個標(biāo)準(zhǔn)體系提供包括總則、術(shù)語、參考模型等基礎(chǔ)性標(biāo)準(zhǔn)。2.數(shù)據(jù)標(biāo)準(zhǔn):該類標(biāo)準(zhǔn)主要針對底層數(shù)據(jù)相關(guān)要素進(jìn)行規(guī)范,包括數(shù)據(jù)資源和數(shù)據(jù)交換共享兩部分,其中數(shù)據(jù)資源包括元數(shù)據(jù)、數(shù)據(jù)元素、數(shù)據(jù)字典和數(shù)據(jù)目錄等,數(shù)據(jù)交換共享包括數(shù)據(jù)交易和數(shù)據(jù)開放共享相關(guān)標(biāo)準(zhǔn)。3.技術(shù)標(biāo)準(zhǔn):該類標(biāo)準(zhǔn)主要針對大數(shù)據(jù)相關(guān)技術(shù)進(jìn)行規(guī)范,包括大數(shù)據(jù)集描述及評估、大數(shù)據(jù)處理生命周期技術(shù)、大數(shù)據(jù)開放與互操作、面向領(lǐng)域的大數(shù)據(jù)技術(shù)四類標(biāo)準(zhǔn)。4.平臺和工具標(biāo)準(zhǔn):該類標(biāo)準(zhǔn)主要針對大數(shù)據(jù)相關(guān)平臺和工具進(jìn)行規(guī)范,包括系統(tǒng)級產(chǎn)品和工具級產(chǎn)品兩類。大數(shù)據(jù)平臺管理體系021.大數(shù)據(jù)標(biāo)準(zhǔn)體系框架5.管理標(biāo)準(zhǔn):該部分主要是數(shù)據(jù)管理、運維管理和評估三個層次進(jìn)行規(guī)范。數(shù)據(jù)管理標(biāo)準(zhǔn)主要包括數(shù)據(jù)管理能力模型、數(shù)據(jù)資產(chǎn)管理及大數(shù)據(jù)生命周期中處理過程的管理規(guī)范。運維管理主要包含大數(shù)據(jù)系統(tǒng)管理及相關(guān)產(chǎn)品等方面的運維及服務(wù)等方面的標(biāo)準(zhǔn)。評估標(biāo)準(zhǔn)包括設(shè)計大數(shù)據(jù)解決方案評估、數(shù)據(jù)管理能力成熟度評估等。6.安全和隱私標(biāo)準(zhǔn):數(shù)據(jù)安全和隱私保護(hù)作為數(shù)據(jù)標(biāo)準(zhǔn)體系的重要部分,貫穿整個數(shù)據(jù)生命周期的各個階斷。7.行業(yè)應(yīng)用標(biāo)準(zhǔn):行業(yè)應(yīng)用類標(biāo)準(zhǔn)主要是針對大數(shù)據(jù)為各個行業(yè)所能提供的服務(wù)角度出發(fā)制定的規(guī)定。大數(shù)據(jù)平臺管理體系022.大數(shù)據(jù)平臺關(guān)鍵技術(shù)1.大數(shù)據(jù)平臺參考架構(gòu)從模型構(gòu)成上看,大數(shù)據(jù)通用模型架構(gòu)是由一系列在不同概念層級上的邏輯構(gòu)件組成的。這些邏輯構(gòu)件被劃分為三個層級,從高到低依次為角色、活動和功能組件。系統(tǒng)管理活動組包括調(diào)配、配置、軟件包管理、軟件管理、備份管理、能力管理、資源管理和大數(shù)據(jù)基礎(chǔ)設(shè)施的性能管理等活動。2.大數(shù)據(jù)平臺關(guān)鍵實現(xiàn)技術(shù)實際工程項目中,實現(xiàn)上述大數(shù)據(jù)通用系統(tǒng)需要涉及的關(guān)鍵技術(shù)有分布式數(shù)據(jù)庫技術(shù)、分布式存儲技術(shù)、流失計算技術(shù)、圖數(shù)據(jù)庫技術(shù)。大數(shù)據(jù)平臺管理體系022.大數(shù)據(jù)平臺關(guān)鍵技術(shù)3.分布式數(shù)據(jù)庫技術(shù)分布式數(shù)據(jù)庫是指將物理上分散的多個數(shù)據(jù)庫單元連接起來組成邏輯上統(tǒng)一的數(shù)據(jù)庫。分布式數(shù)據(jù)庫主要分為OLTP數(shù)據(jù)庫、OLAP數(shù)據(jù)庫、HTAP系統(tǒng)。4.分布式存儲技術(shù)基于產(chǎn)業(yè)需求和技術(shù)發(fā)展,分布式存儲主要呈現(xiàn)三方面趨勢。一是基于硬件處理的分布式存儲技術(shù)。二是基于融合存儲的分布式存儲技術(shù)。三是人工智能技術(shù)融合。大數(shù)據(jù)平臺管理體系022.大數(shù)據(jù)平臺關(guān)鍵技術(shù)5.流計算技術(shù)流計算是指在數(shù)據(jù)流入的同時對數(shù)據(jù)進(jìn)行處理和分析,常用于處理高速并發(fā)且時效性要求較高的大規(guī)模計算場景。流計算系統(tǒng)的關(guān)鍵是流計算引擎,目前流計算引擎主要具備以下特征:支持流計算模型,能夠?qū)α魇綌?shù)據(jù)進(jìn)行實時的計算;支持增量計算,可以對局部數(shù)據(jù)進(jìn)行增量處理;支持事件觸發(fā),能夠?qū)崟r對變化進(jìn)行及時響應(yīng);支持流量控制,避免因流量過高而導(dǎo)致崩潰或者性能降低等。大數(shù)據(jù)平臺管理體系022.大數(shù)據(jù)平臺關(guān)鍵技術(shù)6.圖數(shù)據(jù)庫技術(shù)圖數(shù)據(jù)庫是利用圖數(shù)據(jù)結(jié)構(gòu)進(jìn)行語義查詢的數(shù)據(jù)庫。相比關(guān)系模型,圖數(shù)據(jù)模型具有獨特的優(yōu)勢。一是借助邊的標(biāo)簽,能對具有復(fù)雜甚至任意結(jié)構(gòu)的數(shù)據(jù)集進(jìn)行建模;而使用關(guān)系模型,需要人工地將數(shù)據(jù)集歸化為一組表及它們之間的JOIN條件,才能保存原始結(jié)構(gòu)的全部信息。二是圖模型能夠非常有效地執(zhí)行涉及數(shù)據(jù)實體之間多跳關(guān)系的復(fù)雜查詢或分析。三是相較于關(guān)系模型,圖模型更加靈活,能夠簡便地創(chuàng)建及動態(tài)轉(zhuǎn)換數(shù)據(jù),降低模式遷移成本。四是圖數(shù)據(jù)庫擅于處理網(wǎng)狀的復(fù)雜關(guān)系,在金融大數(shù)據(jù)、社交網(wǎng)絡(luò)分析、推薦、安全防控、物流等領(lǐng)域有著更為廣泛的應(yīng)用。大數(shù)據(jù)平臺管理體系023.面向特定領(lǐng)域大數(shù)據(jù)參考架構(gòu)整個參考架構(gòu)由數(shù)據(jù)源層、大數(shù)據(jù)管理層、大數(shù)據(jù)計算層、大數(shù)據(jù)應(yīng)用層、大數(shù)據(jù)相關(guān)通信協(xié)議和標(biāo)準(zhǔn)、大數(shù)據(jù)安全維護(hù)和管理等部件組成,其中大數(shù)據(jù)相關(guān)通信協(xié)議和標(biāo)準(zhǔn)、大數(shù)據(jù)安全維護(hù)和管理兩大部件貫穿大數(shù)據(jù)參考架構(gòu)始終。1.數(shù)據(jù)源層主要負(fù)責(zé)數(shù)據(jù)的供給和數(shù)據(jù)清洗等。2.大數(shù)據(jù)管理層負(fù)責(zé)對特定領(lǐng)域大數(shù)據(jù)的存儲、組織和管理。目前主流的分布式關(guān)系數(shù)據(jù)庫包括OracleRAC、MySQLcluster、MemSQL等。大數(shù)據(jù)平臺管理體系023.面向特定領(lǐng)域大數(shù)據(jù)參考架構(gòu)3.大數(shù)據(jù)計算層提供大數(shù)據(jù)運算所需要的計算框架和任務(wù)調(diào)度等功能,負(fù)責(zé)對特定領(lǐng)域大數(shù)據(jù)的計算、分析和處理等。4.大數(shù)據(jù)應(yīng)用層構(gòu)建在大數(shù)據(jù)存儲架構(gòu)和計算架構(gòu)之上,為了滿足特定領(lǐng)域需要而開發(fā)的面向?qū)iT任務(wù)的大數(shù)據(jù)應(yīng)用系統(tǒng)集合。5.大數(shù)據(jù)相關(guān)通信協(xié)議和標(biāo)準(zhǔn)負(fù)責(zé)消息傳輸、數(shù)據(jù)管理和功能接口交互等的相關(guān)規(guī)則和約定。6.大數(shù)據(jù)安全維護(hù)和管理大數(shù)據(jù)安全既包括傳統(tǒng)數(shù)據(jù)平臺的物理安全、系統(tǒng)安全、網(wǎng)絡(luò)安全等,又包括大數(shù)據(jù)特有的數(shù)據(jù)安全、隱私防護(hù)等。03大數(shù)據(jù)的數(shù)據(jù)共享與開放大數(shù)據(jù)的數(shù)據(jù)共享與開放031.數(shù)據(jù)共享開放概述在數(shù)據(jù)共享與開放的過程中,主要參與的角色可以分為四種:數(shù)據(jù)擁有者、數(shù)據(jù)消費者、數(shù)據(jù)服務(wù)者和數(shù)據(jù)運營者。(1)數(shù)據(jù)擁有者:通常是指數(shù)據(jù)的合法擁有方,在數(shù)據(jù)共享中,則特指信息系統(tǒng)的業(yè)務(wù)管理部門及單位。(2)數(shù)據(jù)消費者:在數(shù)據(jù)共享中,是指發(fā)起數(shù)據(jù)共享需求申請并使用數(shù)據(jù)用于開展合法、合規(guī)業(yè)務(wù)的內(nèi)部部門及單位。(3)數(shù)據(jù)服務(wù)者:負(fù)責(zé)在數(shù)據(jù)擁有者給出的數(shù)據(jù)資源基礎(chǔ)上,根據(jù)數(shù)據(jù)消費者可能的使用需求,提供各類服務(wù)。(4)數(shù)據(jù)運營者:負(fù)責(zé)提供一個支持?jǐn)?shù)據(jù)共享與開放的環(huán)境。大數(shù)據(jù)的數(shù)據(jù)共享與開放032.政府?dāng)?shù)據(jù)開放共享發(fā)展歷程政府?dāng)?shù)據(jù)開放共享的概念大概經(jīng)歷了三個發(fā)展階段的演變:第一個階段的主要概念是“政府信息公開”,1996年,美國克林頓政府頒布的《信息自由法》修正案提出“政府信息公開”,這個概念迅速成為美國學(xué)術(shù)界關(guān)注的話題,隨后,世界上許多國家開始頒布類似的法律法規(guī)。第二個階段的概念是“開放政府?dāng)?shù)據(jù)”,2009年,美國奧巴馬政府簽署了《開放透明政府備忘錄》。第三個階段的概念是“政府?dāng)?shù)據(jù)開放共享”,隨著越來越多的國家和機構(gòu)參與開放政府?dāng)?shù)據(jù),數(shù)據(jù)開放共享問題成為新熱點。大數(shù)據(jù)的數(shù)據(jù)共享與開放033.數(shù)據(jù)開放共享主要實現(xiàn)方式1.數(shù)據(jù)開放:主要是指政府機關(guān)數(shù)據(jù)面向公眾開放。因此,該方式限定了被開發(fā)的數(shù)據(jù)必須是非敏感數(shù)據(jù),同時被開放共享數(shù)據(jù)不涉及公民個人隱私信息,并且需要保證數(shù)據(jù)經(jīng)過二次加工或者挖掘分析后依然不涉及敏感信息和個人隱私信息。2.數(shù)據(jù)交換數(shù)據(jù)交換主要是政府部門之間、政府與企業(yè)之間通過簽署協(xié)議或合作等方式開展的非營利性數(shù)據(jù)開放共享。一般有兩種情況。一種是為信用較好或有關(guān)聯(lián)的實體之間提供數(shù)據(jù)交換機制,由第三方機構(gòu)為雙方提供交換區(qū)域、技術(shù)及服務(wù)。另一種是針對敏感數(shù)據(jù)封裝在業(yè)務(wù)場景中的閉環(huán)交換。大數(shù)據(jù)的數(shù)據(jù)共享與開放033.數(shù)據(jù)開放共享主要實現(xiàn)方式3.數(shù)據(jù)交易數(shù)據(jù)交易主要是對數(shù)據(jù)資產(chǎn)進(jìn)行明碼標(biāo)價,有特定機構(gòu)進(jìn)行買賣交易。當(dāng)前市場上較多的第三方數(shù)據(jù)交易平臺提供的主要是這種模式。當(dāng)前較為典型的代表是貴陽大數(shù)據(jù)交易所、長江大數(shù)據(jù)交易所及東湖大數(shù)據(jù)交易平臺。在數(shù)據(jù)交易中,數(shù)據(jù)提供方通過交易平臺為數(shù)據(jù)使用方提供有償?shù)臄?shù)據(jù)開放共享服務(wù),數(shù)據(jù)使用方按照市場交易規(guī)則進(jìn)行付費,從而獲得數(shù)據(jù)或者相關(guān)服務(wù)的調(diào)用權(quán)限。具體而言,數(shù)據(jù)提供方要具備數(shù)據(jù)的知識產(chǎn)權(quán),保證數(shù)據(jù)的有效性和準(zhǔn)確性,并及時更新和安全可靠。大數(shù)據(jù)的數(shù)據(jù)共享與開放034.大數(shù)據(jù)開放共享困境1.無意愿開放共享已有數(shù)據(jù)對于已經(jīng)擁有數(shù)據(jù)資源積累的部門或者企業(yè),由于觀念約束、利益補償、安全制約等因素,不愿意分享自己已有的數(shù)據(jù),客觀上造成“數(shù)據(jù)孤島”現(xiàn)象。2.無膽量開放共享關(guān)鍵數(shù)據(jù)世界范圍內(nèi),數(shù)據(jù)泄露、隱私侵犯的案例層出不窮,數(shù)據(jù)倫理問題也是一直是業(yè)界爭論不休的話題,企業(yè)組織乃至國家政府對于數(shù)據(jù)開放共享持保守態(tài)度。3.無能力開放共享復(fù)雜數(shù)據(jù)數(shù)據(jù)開放共享的前提是保證數(shù)據(jù)質(zhì)量,不同行業(yè)的數(shù)據(jù)在專業(yè)性、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)規(guī)范上的差異極大。04大數(shù)據(jù)安全與隱私保護(hù)大數(shù)據(jù)安全與隱私保護(hù)041.大數(shù)據(jù)安全與隱私問題現(xiàn)狀1.網(wǎng)絡(luò)攻擊模式的改變相對于傳統(tǒng)網(wǎng)絡(luò)攻擊主要針對ICT系統(tǒng)和信息資源進(jìn)行攻擊破壞,如今新的網(wǎng)絡(luò)攻擊更趨向通過各種手段獲得政府、企業(yè)或者個人的私密信息資源進(jìn)而變現(xiàn)獲利。2.數(shù)據(jù)技術(shù)是開放與安全的二元挑戰(zhàn)大數(shù)據(jù)安全是“互聯(lián)網(wǎng)+”時代的核心挑戰(zhàn),安全問題具有線上和線下融合在一起的特征。3.生產(chǎn)過程中用戶權(quán)限的發(fā)放和管理問題現(xiàn)實生活中難以用有效的方式向用戶發(fā)放權(quán)限,實現(xiàn)角色預(yù)設(shè)、難以檢測、控制開發(fā)者的訪問行為,防止過度的大數(shù)據(jù)分析、預(yù)測和連接。大數(shù)據(jù)安全與隱私保護(hù)042.大數(shù)據(jù)安全技術(shù)總體視圖大數(shù)據(jù)安全與隱私保護(hù)042.大數(shù)據(jù)安全技術(shù)總體視圖在總體視圖中,大數(shù)據(jù)安全技術(shù)體系分為大數(shù)據(jù)平臺運行安全、數(shù)據(jù)安全和隱私安全三個層次,自下而上為依次承載的關(guān)系。大數(shù)據(jù)平臺不僅要保障自身基礎(chǔ)組件安全,還要為運行其上的數(shù)據(jù)和應(yīng)用提供安全機制保障;除平臺安全保障外,數(shù)據(jù)安全防護(hù)技術(shù)為業(yè)務(wù)應(yīng)用中的數(shù)據(jù)流動過程提供安全防護(hù)手段;隱私安全保護(hù)是在數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論