




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
模塊一大數(shù)據(jù)概述大數(shù)據(jù)基礎模塊1大數(shù)據(jù)概述.pptx模塊2大數(shù)據(jù)思維.pptx模塊3大數(shù)據(jù)支撐技術.pptx模塊4大數(shù)據(jù)采集與預處理.pptx模塊5大數(shù)據(jù)分析與挖掘.pptx模塊6深度學習與人工智能.pptx模塊7數(shù)據(jù)可視化.pptx模塊8大數(shù)據(jù)安全.pptx全套可編輯PPT課件導讀主要內(nèi)容1.1大數(shù)據(jù)時代1.2大數(shù)據(jù)相關概念1.3大數(shù)據(jù)應用現(xiàn)狀1.4大數(shù)據(jù)相關技術1.5大數(shù)據(jù)處理流程1.6大數(shù)據(jù)技術架構1.7大數(shù)據(jù)面臨的挑戰(zhàn)與發(fā)展趨勢重點和難點重點:大數(shù)據(jù)相關概念及應用難點:大數(shù)據(jù)處理流程、技術架構§1.1大數(shù)據(jù)時代隨著第三次信息化浪潮的發(fā)展,大數(shù)據(jù)時代全面開啟?!?.1.1三次信息化浪潮在信息技術發(fā)展史上,有三次信息化浪潮,如表1-1所示。信息化浪潮時間標志核心代表性企業(yè)第一次浪潮1980年前后個人計算機信息處理Intel、AMD、IBM、微軟、蘋果、聯(lián)想、惠普等第二次浪潮1995年前后互聯(lián)網(wǎng)信息傳輸谷歌、雅虎、阿里、百度、騰訊等第三次浪潮2010年前后物聯(lián)網(wǎng)、云計算、大數(shù)據(jù)信息獲取亞馬遜、谷歌、IBM、VMWare、Cloudera、阿里云等表1-1三次信息化浪潮§1.1.2大數(shù)據(jù)發(fā)展歷程大數(shù)據(jù)的發(fā)展可以劃分為三個階段,如表1-2所示。表1-2大數(shù)據(jù)發(fā)展史階段時間內(nèi)容第一階段:萌芽期20世紀90年代至21世紀初數(shù)據(jù)挖掘理論和數(shù)據(jù)庫技術逐步成熟,一批商業(yè)智能工具和知識管理技術開始被應用,如數(shù)據(jù)倉庫、專家系統(tǒng)、知識管理系統(tǒng)等。第二階段:成熟期21世紀初至2010年非結構化數(shù)據(jù)大量產(chǎn)生,傳統(tǒng)處理方法難以應對,帶動了大數(shù)據(jù)技術的快速突破,大數(shù)據(jù)解決方案逐漸走向成熟,形成了并行計算與分布式系統(tǒng)兩大核心技術,谷歌的GFS和MapReduce等大數(shù)據(jù)技術受到追捧,Hadoop平臺得到推廣。第三階段:大規(guī)模應用期2010年后大數(shù)據(jù)應用滲透各行各業(yè),企業(yè)依賴數(shù)據(jù)進行決策,信息社會智能化程度大幅提高,同時出現(xiàn)跨行業(yè)、跨領域的數(shù)據(jù)整合,甚至是全社會的數(shù)據(jù)整合?!?.1.3數(shù)據(jù)產(chǎn)生方式的變化人類社會的數(shù)據(jù)產(chǎn)生方式大致經(jīng)歷了三個階段,如圖1-1所示。正是數(shù)據(jù)產(chǎn)生方式的巨大變化,才最終導致大數(shù)據(jù)的產(chǎn)生。圖1-1數(shù)據(jù)產(chǎn)生方式的變化§1.2大數(shù)據(jù)相關概念大數(shù)據(jù)是一個較為抽象的概念,正如信息學領域大多數(shù)新興概念一樣,大數(shù)據(jù)至今尚無確切、統(tǒng)一的定義,而大數(shù)據(jù)應具備的特征則較為明確。本節(jié)主要介紹大數(shù)據(jù)的定義以及特征。§1.2.1大數(shù)據(jù)的定義關于大數(shù)據(jù)的定義,不同機構給出的描述有所不同。百度百科對大數(shù)據(jù)的定義:大數(shù)據(jù)(bigdata),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法透過主流軟件工具,在合理時間內(nèi)達到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。麥肯錫全球研究所對大數(shù)據(jù)的定義:一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉、多樣的數(shù)據(jù)類型和價值密度低四大特征。研究機構Gartner對大數(shù)據(jù)的定義:大數(shù)據(jù)是需要新處理模式才能具有更強的決策維基百科對大數(shù)據(jù)的定義:涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工或一般軟件,在合理時間內(nèi)達到截取、管理、處理、并整理成為人類所能解讀的形式的信息?!?.2.2大數(shù)據(jù)的特征大數(shù)據(jù)的特征可以概括為5V特征,即數(shù)據(jù)量大(Volume)、多樣性(Variety)、速度快(Velocity)、價值密度低(Value)、真實性(Veracity),如圖1-2所示。圖1-2大數(shù)據(jù)5V特征數(shù)據(jù)量大(Volume):數(shù)據(jù)容量大、體積大,即海量數(shù)據(jù)。多樣性(Variety):數(shù)據(jù)類型多樣性,包括結構化數(shù)據(jù)、非結構化數(shù)據(jù)、半結構化數(shù)據(jù)。速度快(Velocity):數(shù)據(jù)產(chǎn)生速度很快,時效性要求很高。價值密度低(Value):價值密度低,商業(yè)價值高。真實性(Veracity):數(shù)據(jù)的準確度和可信賴度。§1.3大數(shù)據(jù)應用現(xiàn)狀大數(shù)據(jù)正在逐步應用到各行各業(yè),生產(chǎn)服務、工作生活和衣食住行數(shù)字化的場景比比皆是。本節(jié)列舉幾種常見的大數(shù)據(jù)應用場景。電子商務領域金融領域醫(yī)療領域交通領域電信領域電子政務領域§1.3.1電子商務領域電子商務是在網(wǎng)絡上以電子交易方式進行交易活動或相關服務活動,常見的電子商務平臺有天貓、淘寶、京東、亞馬遜、當當網(wǎng)等。目前,電子商務憑借其自身的高效性、全球性、互動性等優(yōu)勢,已經(jīng)成為一種主流的商業(yè)模式。電商領域是大數(shù)據(jù)應用最廣泛的領域之一,如精準廣告推送和個性化推薦,借助大數(shù)據(jù)技術分析用戶行為,進行針對性廣告投放和商品推薦。在電商平臺上,每天都會產(chǎn)生商家信息、個人信息、產(chǎn)品使用體驗、商品瀏覽記錄、商品成交記錄、產(chǎn)品價格動態(tài)等海量信息。這些數(shù)據(jù)通過聚類可以形成電商行業(yè)大數(shù)據(jù),其背后隱藏的是電商行業(yè)的市場需求、競爭情報,閃現(xiàn)著巨大的財富價值。§1.3.2金融領域麥肯錫的一份研究顯示,金融業(yè)在大數(shù)據(jù)價值潛力指數(shù)中排名第一。銀行是金融數(shù)據(jù)的重要使用機構,銀行業(yè)大數(shù)據(jù)應用主要集中在客戶營銷、產(chǎn)品創(chuàng)新、風險控制和運營優(yōu)化等領域。證券行業(yè)具有資本密集、信息密集、智力密集和技術密集的特點,而大數(shù)據(jù)越來越呈現(xiàn)出細節(jié)化、多維化、立體化的特點,對證券業(yè)務的發(fā)展影響巨大。證券行業(yè)大數(shù)據(jù)應用主要表現(xiàn)在股市行情預測、股價預測、智能投資顧問等方面?!?.3.3醫(yī)療領域醫(yī)療活動會產(chǎn)生大量的醫(yī)療數(shù)據(jù)。數(shù)據(jù)來源一般包括病人就醫(yī)時產(chǎn)生的數(shù)據(jù),臨床醫(yī)療研究和實驗數(shù)據(jù),可穿戴設備采集的數(shù)據(jù)等。例如,常見的電子病例就包括掛號、檢查、治療、住院、出院、康復等就醫(yī)過程的數(shù)據(jù),既提高了醫(yī)務工作者的工作效率,又改善了患者的就醫(yī)體驗,同時也是醫(yī)學研究的重要數(shù)據(jù)參考。
借助大數(shù)據(jù)技術,可以挖掘、分析患者的病理數(shù)據(jù)以及成功治療案例的相關數(shù)據(jù),進而建立某類疾病的分析模型、臨床診療過程指標和結果評價模型。醫(yī)生能夠通過分析模型和評價模型精準查找病因,為患者提供科學化、個性化的治療方案。§1.3.4交通領域交通大數(shù)據(jù)是在城市智能交通建設和運營的過程中,把視頻監(jiān)控、卡口電警、GPS定位等每天產(chǎn)生的大量數(shù)據(jù)整合到一起(比如車輛信息、地圖信息、違規(guī)違章記錄等),形成一個有價值的數(shù)據(jù)鏈,從而指導城市交通信息化建設,為市民出行服務。比如,公交車GPS定位系統(tǒng)可以根據(jù)每天的位置和時間數(shù)據(jù)以及時刻表預測出公交車的到站時間,讓乘客可以根據(jù)搭乘路線確定出行,免去不必要的時間浪費;道路交通狀況的判別及預測可以讓用戶盡量避開擁堵,也有效緩解交通壓力。如今,智慧城市在很多城市得到了積極的倡導和推廣,它利用的就是大數(shù)據(jù)技術來協(xié)助管理城市,使整個城市的管理工作更加智能化、科學化、規(guī)范化,而智慧交通是智慧城市建設的重要構成部分?!?.3.5電信領域電信是信息化水平比較高的行業(yè),行業(yè)內(nèi)部業(yè)務系統(tǒng)的信息化較為完善,歷史數(shù)據(jù)豐富,并且擁有較深層次的分析類應用,目前正處于將內(nèi)外部數(shù)據(jù)結合起來為業(yè)務發(fā)展服務的階段。大數(shù)據(jù)在電信領域的應用主要體現(xiàn)在5個方面:(1)網(wǎng)絡管理和優(yōu)化,包括基礎設施建設優(yōu)化、網(wǎng)絡運營管理和優(yōu)化。(2)市場與精準營銷,包括客戶畫像、關系鏈研究、精準營銷、實時營銷和個性化推薦。(3)客戶關系管理,包括客服中心優(yōu)化和客戶生命周期管理。(4)企業(yè)運營管理,包括業(yè)務運營監(jiān)控和經(jīng)營分析。(5)數(shù)據(jù)商業(yè)化,指大數(shù)據(jù)對外商業(yè)化?!?.3.6電子政務領域隨著電子政務服務的不斷完善,無紙化辦公、電子化辦公、一站式服務、一鍵搞定服務等逐步在各大城市得到推廣。大數(shù)據(jù)技術融入電子政務之后,數(shù)據(jù)獲取變得更加容易,數(shù)據(jù)處理效率顯著提高,保證了各項政務工作的順利開展。大數(shù)據(jù)在電子政務領域的應用主要體現(xiàn)在以下5個方面:(1)建立公共信息平臺。(2)協(xié)同辦公。(3)輿情監(jiān)測。(4)危機管理。(5)構建政府知識圖譜?!?.4大數(shù)據(jù)相關技術大數(shù)據(jù)的興起,得到了云計算、物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、人工智能等重要技術的支持,它們極大地推動了大數(shù)據(jù)服務的進程。本節(jié)分別介紹這幾項相關技術。云計算物聯(lián)網(wǎng)移動互聯(lián)網(wǎng)人工智能§1.4.1云計算1.云計算的概念云計算(cloudcomputing)是分布式計算的一種,通過網(wǎng)絡“云”將巨大的數(shù)據(jù)計算處理程序分解成無數(shù)個小程序,然后,通過多部服務器組成的系統(tǒng)進行處理和分析這些小程序得到結果并返回給用戶。云計算將網(wǎng)絡上分布的計算、存儲、服務構件、網(wǎng)絡軟件等資源集中起來,基于資源虛擬化的方式,為用戶提供方便快捷的服務,它可以實現(xiàn)計算與存儲的分布式與并行處理。如果把“云”視為一個虛擬化的存儲與計算資源池,那么云計算則是這個資源池基于網(wǎng)絡平臺為用戶提供的數(shù)據(jù)存儲和網(wǎng)絡計算服務?;ヂ?lián)網(wǎng)是最大的一片“云”,其上的各種計算機資源共同組成了若干個龐大的數(shù)據(jù)中心及計算中心?!?.4.1云計算2.云計算的分類根據(jù)云計算服務模式的不同,云計算可以分為基礎即服務(Iaas)、平臺即服務(Paas)、軟件即服務(Saas)等,分別為客戶提供構建云計算的基礎設施、云計算操作系統(tǒng)、云計算環(huán)境下的軟件和應用服務。根據(jù)云計算部署方式的不同,云計算可以分為四類:公有云、私有云、社區(qū)云和混合云,如圖1-3所示。圖1-3云計算分類§1.4.1云計算3.云計算與大數(shù)據(jù)之間的關系云計算是支撐大數(shù)據(jù)環(huán)境及應用的基礎平臺,解決了大數(shù)據(jù)面臨的問題,通過云計算實現(xiàn)大數(shù)據(jù)應用的落地。云計算的核心是業(yè)務模式,其本質是數(shù)據(jù)處理技術,本質上旨在整合和優(yōu)化各種IT資源并通過網(wǎng)絡以服務的方式,廉價地提供給用戶。大數(shù)據(jù)是一種移動互聯(lián)網(wǎng)和物聯(lián)網(wǎng)背景下的應用場景,各種應用產(chǎn)生的巨量數(shù)據(jù)需要處理和分析,挖掘有價值的信息;云計算是一種技術解決方案,以提供虛擬化技術為核心,利用云計算可以解決計算、存儲、數(shù)據(jù)庫等一系列IT基礎設施的按需構建的需求問題。在實際的運用中,大數(shù)據(jù)是云計算非常重要的應用場景,而云計算則為大數(shù)據(jù)提供了技術支持,二者密不可分?!?.4.2物聯(lián)網(wǎng)1.物聯(lián)網(wǎng)的概念物聯(lián)網(wǎng)(InternetofThings,IoT)意指物物相連,萬物萬聯(lián)??梢哉f,物聯(lián)網(wǎng)就是物物相連的互聯(lián)網(wǎng)。這有兩層意思:第一,物聯(lián)網(wǎng)的核心和基礎仍然是互聯(lián)網(wǎng),是在互聯(lián)網(wǎng)基礎上延伸和擴展的網(wǎng)絡;第二,其用戶端延伸和擴展到了任何物品,物品與物品之間可以進行信息交換和通信,也就是萬物萬聯(lián)。物聯(lián)網(wǎng)的定義是,通過二維碼識別設備、射頻識別裝置、紅外感應器、全球定位系統(tǒng)、激光掃描器等信息傳感設備,按約定的協(xié)議把任何物品與互聯(lián)網(wǎng)連接,進行信息交換和通信,以實現(xiàn)對物品的智能化識別、定位、跟蹤、監(jiān)控和管理的一種網(wǎng)絡。在物聯(lián)網(wǎng)應用中有三項關鍵技術,即傳感器技術、RFID標簽、嵌入式系統(tǒng)技術。§1.4.2物聯(lián)網(wǎng)2.
物聯(lián)網(wǎng)的體系架構物聯(lián)網(wǎng)的體系架構可以分為3層,自下而上依次是:感知層、網(wǎng)絡層、應用層,如圖1-4所示。圖1-4物聯(lián)網(wǎng)體系架構§1.4.2物聯(lián)網(wǎng)3.物聯(lián)網(wǎng)與大數(shù)據(jù)之間的關系物聯(lián)網(wǎng)是通過感知信息將物體與物體在網(wǎng)絡中實現(xiàn)互聯(lián)互通,實現(xiàn)物物感知、信息共享、協(xié)作聯(lián)通、智慧應用,物聯(lián)網(wǎng)能夠將沒有智慧的東西變得有生命,有活力,使物體具有“智慧”,提高“智商”變得“聰明”起來。物聯(lián)網(wǎng)需要借助大數(shù)據(jù),實現(xiàn)物聯(lián)網(wǎng)數(shù)據(jù)的智能分析和處理。大數(shù)據(jù)的發(fā)展源于物聯(lián)網(wǎng)技術的應用。物聯(lián)網(wǎng)的傳感器源源不斷產(chǎn)生的大量數(shù)據(jù),構成了大數(shù)據(jù)的數(shù)據(jù)來源,沒有物聯(lián)網(wǎng)的飛速發(fā)展,就不會帶來數(shù)據(jù)產(chǎn)生方式的變革,即由人工產(chǎn)生階段轉向自動產(chǎn)生階段,大數(shù)據(jù)時代也不會這么快就到來。因此,物聯(lián)網(wǎng)是大數(shù)據(jù)的重要數(shù)據(jù)來源?!?.4.3移動互聯(lián)網(wǎng)1.移動互聯(lián)網(wǎng)的概念移動互聯(lián)網(wǎng)是指移動通信終端與互聯(lián)網(wǎng)結合的產(chǎn)物,用戶可使用手機、平板電腦或其他無線終端設備,在移動狀態(tài)下(如乘地鐵、公交車)通過速率較高的移動網(wǎng)絡隨時、隨地訪問Internet,享受商務、娛樂等各種網(wǎng)絡服務。其中,移動環(huán)境下的網(wǎng)頁瀏覽、文件下載、位置服務、在線游戲、視頻瀏覽和下載、移動支付等是主流應用?!?.4.3移動互聯(lián)網(wǎng)2.移動互聯(lián)網(wǎng)的組成移動互聯(lián)網(wǎng)可以劃分為移動通信網(wǎng)絡、移動互聯(lián)網(wǎng)終端設備、移動互聯(lián)網(wǎng)應用和移動互聯(lián)網(wǎng)相關技術四大部分,如圖1-5所示。圖1-5移動互聯(lián)網(wǎng)結構§1.4.3移動互聯(lián)網(wǎng)3.移動互聯(lián)網(wǎng)與大數(shù)據(jù)的關系移動互聯(lián)網(wǎng)是大數(shù)據(jù)的重要來源??梢哉f,移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)以及云計算等熱點崛起是大數(shù)據(jù)產(chǎn)生的原因。移動互聯(lián)網(wǎng)應用的關鍵在于智能終端,智能終端不僅包括手機,所有顯示設備、可穿戴設備、機器設備等都可以成為智能終端,都在源源不斷地采集數(shù)據(jù)、匯聚數(shù)據(jù)。因此,移動互聯(lián)網(wǎng)將為大數(shù)據(jù)的發(fā)展提供更多數(shù)據(jù)、信息和資源。移動互聯(lián)網(wǎng)應用逐漸大數(shù)據(jù)化,越來越多的應用服務正向數(shù)據(jù)密集型轉變,這都離不開大數(shù)據(jù)的驅動,意味著它們將基于海量數(shù)據(jù)或實時數(shù)據(jù)提供“大數(shù)據(jù)”驅動下的移動互聯(lián)網(wǎng)服務。因此,大數(shù)據(jù)的發(fā)展為移動互聯(lián)網(wǎng)的發(fā)展提供了更多的支撐、服務和應用。此外,移動互聯(lián)網(wǎng)應用的大數(shù)據(jù)化也使得大數(shù)據(jù)的處理超越空間和時間的束縛,更新更及時。§1.4.4人工智能1.人工智能的概念人工智能(ArtificialIntelligence,AI)是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統(tǒng)的一門新的技術科學。人工智能領域的研究包括機器學習、計算機視覺、機器人、語音識別、圖像識別、自然語言處理和專家系統(tǒng)等。人工智能可以對人的意識、思維的信息過程進行模擬。人工智能不是人的智能,但可以像人一樣思考甚至超過人的智能。人工智能的本質是大量的樣本數(shù)據(jù)經(jīng)過規(guī)則引導之后,使機器可以自動識別類似目標樣本。所以需要“先人工,后智能”,如果給計算機提供一個它從來沒有“見過”的物品,則無法識別?!?.4.4人工智能2.人工智能的實現(xiàn)方法人工智能在計算機上有兩種不同的實現(xiàn)方式。
一種是采用傳統(tǒng)的編程技術,使系統(tǒng)呈現(xiàn)智能效果,而不考慮所用方法是否與人或動物機體所用的方法相同。這種方法叫工程學法(EngineeringApproach),已在一些領域取得了成果,如文字識別。另一種是模擬法(ModelingApproach),該方法不僅要看效果,還要求所用方法與人或動物機體所用的方法相同或類似。遺傳算法和人工神經(jīng)網(wǎng)絡均屬于這一種類型:遺傳算法模擬人或動物的遺傳—進化機制;人工神經(jīng)網(wǎng)絡模擬人或動物大腦中神經(jīng)細胞的活動方式?!?.4.4人工智能3.人工智能的研究成果(1)問題求解:該功能包括問題表示、搜索和行動計劃等,它是在人工智能早期的棋類游戲、智力問答、定理證明研究的基礎上逐漸發(fā)展起來的。問題求解技術給人們留下的最深的印象就是人機對弈,人工智能棋手曾經(jīng)在圍棋大賽上戰(zhàn)勝了許多人類高手。
(2)模式識別:用智能設備代替人類或者幫助人類感知外部信息,如指紋識別、人像識別、文字識別、圖像識別、車牌識別、語音識別等。(3)自動工程:主要應用領域包括自動駕駛等。(4)知識工程:以知識本身為處理對象,研究如何運用人工智能和軟件技術設計、構造和維護知識系統(tǒng),包括專家系統(tǒng)、智能搜索引擎、計算機視覺和圖像處理、機器翻譯和自然語言理解、深度學習、數(shù)據(jù)挖掘和知識發(fā)現(xiàn)?!?.4.4人工智能4.人工智能與大數(shù)據(jù)的關系人工智能與大數(shù)據(jù)存在著密切的內(nèi)在聯(lián)系,可以很好地協(xié)同工作。人工智能是基于大數(shù)據(jù)實施計算機決策的技術,需要大量數(shù)據(jù)作為思考和決策的依據(jù),而大數(shù)據(jù)也需要人工智能技術對數(shù)據(jù)進行價值操作,使數(shù)據(jù)更加有價值。如果說大數(shù)據(jù)相當于人類大腦中存儲的海量知識,人工智能的作用就是吸收、內(nèi)化大量的數(shù)據(jù),不斷深度分析并創(chuàng)造更大的價值。因此,大數(shù)據(jù)與人工智能的關系是相輔相成、相互依存,兩者結合能高效地保障信息的可靠性、真實性、穩(wěn)定性。人工智能需要數(shù)據(jù)來形成智能,特別是機器學習。過去,人工智能由于處理器速度慢、數(shù)據(jù)量小而不能很好地工作?,F(xiàn)在,強大的算力和海量數(shù)據(jù)使人工智能技術得到了長足的發(fā)展。§1.5.大數(shù)據(jù)處理流程大數(shù)據(jù)的處理流程可以定義為在適合工具的輔助下,對不同結構的數(shù)據(jù)源進行汲取和集成,并將結果按照一定的標準統(tǒng)-存儲,再利用合適的數(shù)據(jù)分析技術對其進行分析,最后從中提取有益的知識,并利用恰當?shù)姆绞綄⒔Y果展示給終端前的用戶。大數(shù)據(jù)處理流程一般分為5個步驟:數(shù)據(jù)采集、數(shù)據(jù)預處理、數(shù)據(jù)存儲、數(shù)據(jù)分析與挖掘、數(shù)據(jù)可視化,如圖1-6所示。數(shù)據(jù)質量貫穿于整個大數(shù)據(jù)流程,每一個數(shù)據(jù)處理環(huán)節(jié)都會對大數(shù)據(jù)質量產(chǎn)生影響作用。圖1-6大數(shù)據(jù)處理流程§1.5.大數(shù)據(jù)處理流程1.數(shù)據(jù)采集數(shù)據(jù)采集是通過RFID射頻數(shù)據(jù)、傳感器數(shù)據(jù)、社交網(wǎng)絡交互數(shù)據(jù)及移動互聯(lián)網(wǎng)數(shù)據(jù)等方式獲得各種類型的結構化、半結構化及非結構化的海量數(shù)據(jù)。常用的大數(shù)據(jù)采集工具有:Flume、Sqoop、Scrapy、Kafka、kettle、BeautifulSoup、八爪魚等。大數(shù)據(jù)采集從數(shù)據(jù)源上可以分為四類:網(wǎng)絡數(shù)據(jù)采集(網(wǎng)頁、視頻、音頻、動畫、圖片等)數(shù)據(jù)庫采集日志數(shù)據(jù)采集感知設備數(shù)據(jù)采集§1.5.大數(shù)據(jù)處理流程2.數(shù)據(jù)預處理數(shù)據(jù)預處理是指在進行主要的數(shù)據(jù)分析環(huán)節(jié)之前對數(shù)據(jù)進行初步處理?,F(xiàn)實中的數(shù)據(jù),大多存在不完整、有噪聲、不一致等問題,比如Salary=“-1500”就是明顯的錯誤數(shù)據(jù)。進行數(shù)據(jù)分析之前,對原始數(shù)據(jù)進行諸如“清洗、填補、平滑、合并、規(guī)格化、一致性檢驗”等操作可以提高數(shù)據(jù)質量,為后期分析工作奠定基礎。數(shù)據(jù)預處理主要包括4個部分:數(shù)據(jù)清洗:對數(shù)據(jù)進行過濾、去噪,從而提取出有效的數(shù)據(jù)。數(shù)據(jù)集成:把不同數(shù)據(jù)源中的數(shù)據(jù)整合并存儲到統(tǒng)一的數(shù)據(jù)庫中。數(shù)據(jù)轉換:對數(shù)據(jù)進行規(guī)范化處理,將多維數(shù)據(jù)壓縮成較少維的數(shù)據(jù)。數(shù)據(jù)規(guī)約:在保持數(shù)據(jù)原貌的基礎上精簡數(shù)據(jù)量,以得到較小數(shù)據(jù)集的操作。§1.5.大數(shù)據(jù)處理流程3.數(shù)據(jù)存儲數(shù)據(jù)通常需要用存儲器存儲起來,并建立相應的數(shù)據(jù)庫,方便后續(xù)進行管理和調(diào)用。HDFS、HBase、Hive都是Hadoop技術流的數(shù)據(jù)存儲框架。MongoDB是NoSQL數(shù)據(jù)庫,以JSON的形式進行數(shù)據(jù)存儲。大數(shù)據(jù)存儲和管理技術需要重點解決的問題:海量文件的存儲與管理,海量小文件的傳輸、索引和管理,海量大文件的分塊與存儲,確保系統(tǒng)可擴展性與可靠性等。常用的存儲和管理大數(shù)據(jù)的方式如下:不斷加密
倉庫存儲
備份服務云§1.5.大數(shù)據(jù)處理流程4.
數(shù)據(jù)分析與挖掘大數(shù)據(jù)分析是指將采集到的大量數(shù)據(jù)匯總、理解并消化,進而發(fā)現(xiàn)數(shù)據(jù)的價值。數(shù)據(jù)分析是大數(shù)據(jù)處理與應用的關鍵環(huán)節(jié),應根據(jù)大數(shù)據(jù)應用情境與決策需求選擇合適的數(shù)據(jù)分析技術,提高大數(shù)據(jù)分析結果的可用性、價值性和準確性。大數(shù)據(jù)分析常用的手段是基于數(shù)據(jù)倉庫的聯(lián)機分析處理(OLAP)。大數(shù)據(jù)挖掘是指從海量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的信息的技術。數(shù)據(jù)挖掘并不是一個新技術,并且發(fā)展成熟,但在大數(shù)據(jù)概念下,數(shù)據(jù)挖掘被賦予了新的意義。其所處理的數(shù)據(jù)類別越來越廣泛,挖掘工具的性能也在不斷提升。與大數(shù)據(jù)分析過程不同的是,數(shù)據(jù)挖掘一般沒有預先設定好的主題,主要是在現(xiàn)有數(shù)據(jù)上進行基于各種算法的計算,起到預測效果,滿足高級別數(shù)據(jù)分析的需求?!?.5.大數(shù)據(jù)處理流程5.數(shù)據(jù)可視化數(shù)據(jù)可視化是指將大數(shù)據(jù)分析與預測結果以計算機圖形或圖像的方式直觀展示給用戶,并可與用戶進行交互式處理。大數(shù)據(jù)可視化的基本思想是將數(shù)據(jù)庫中的每一個數(shù)據(jù)項以單個圖元元素表示,同時將數(shù)據(jù)的各個屬性以多維數(shù)據(jù)的形式表示,便于人們從不同的維度觀察數(shù)據(jù),對數(shù)據(jù)進行更深入的觀察和分析,做出更好的決策。此外,人機交互技術可以引導用戶對數(shù)據(jù)進行逐步分析,參與分析過程,以便更好地理解分析結果。數(shù)據(jù)可視化工具種類繁多,其中,零編程工具包括Tableau和MicrosoftPowerBI等?!?.6
大數(shù)據(jù)技術架構大數(shù)據(jù)技術是一系列技術的總稱,包含數(shù)據(jù)采集、數(shù)據(jù)傳輸、數(shù)據(jù)存儲、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)可視化等技術,是一個龐大而復雜的技術體系。在實際應用場景中,大數(shù)據(jù)平臺架構及技術選型是很重要的一步。下面從大數(shù)據(jù)基礎架構、常用框架技術以及大數(shù)據(jù)技術棧3個方面進行介紹。§1.6.1
大數(shù)據(jù)基礎架構大數(shù)據(jù)基礎架構為四層堆棧式技術架構,包括:基礎層、管理層、分析層、應用層,如圖1-7所示。圖1-7大數(shù)據(jù)四層堆棧式技術架構§1.6.2
大數(shù)據(jù)常用框架技術具體來說,大數(shù)據(jù)的框架技術有很多,這里列舉其中一些常用的:文件存儲:HadoopHDFS、Tachyon、KFS離線計算:HadoopMapReduce、Spark流式、實時計算:Storm、SparkStreaming、S4、HeronK-V、NOSQL數(shù)據(jù)庫:HBase、Redis、MongoDB資源管理:YARN、Mesos日志收集:Flume、Scribe、Logstash、Kibana消息系統(tǒng):Kafka、StormMQ、ZeroMQ、RabbitMQ查詢分析:Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Flink、Kylin、Druid分布式協(xié)調(diào)服務:Zookeeper集群管理與監(jiān)控:Ambari、Ganglia、Nagios、ClouderaManager數(shù)據(jù)挖掘、機器學習:Mahout、SparkMLLib數(shù)據(jù)同步:Sqoop任務調(diào)度:Oozie§1.6.3
大數(shù)據(jù)技術棧圖1-8大數(shù)據(jù)技術?!?.7
大數(shù)據(jù)面臨的挑戰(zhàn)與發(fā)展趨勢大數(shù)據(jù)技術在不斷發(fā)展,未來幾年大數(shù)據(jù)將逐漸步入理性發(fā)展階段、落地應用階段。大數(shù)據(jù)時代,挑戰(zhàn)與機遇并存,大數(shù)據(jù)依然存在諸多挑戰(zhàn),但前景依然非常樂觀?!?.7.1
大數(shù)據(jù)面臨的挑戰(zhàn)在大數(shù)據(jù)技術應用的各個環(huán)節(jié),都存在著一定的挑戰(zhàn)。來自數(shù)據(jù)集成的挑戰(zhàn)來自數(shù)據(jù)存儲與分析的挑戰(zhàn)來自隱私與安全的挑戰(zhàn)來自人才缺乏的挑戰(zhàn)§1.7.2
大數(shù)據(jù)發(fā)展趨勢大數(shù)據(jù)的發(fā)展呈現(xiàn)出以下幾個方面的趨勢:1.數(shù)據(jù)資源化2.科學理論的突破3.大數(shù)據(jù)在更多行業(yè)落地應用4.數(shù)據(jù)將越來越開放5.大數(shù)據(jù)安全越來越受重視6.催生新的學科和崗位7.大數(shù)據(jù)多角度改善人類生活模塊小結大數(shù)據(jù)時代已經(jīng)到來,大數(shù)據(jù)對未來社會發(fā)展將產(chǎn)生重大影響。本模塊從大數(shù)據(jù)的發(fā)展、定義、特征、應用、處理流程、技術架構、面臨的挑戰(zhàn)以及發(fā)展趨勢等方面進行了介紹,幫助讀者更好地理解大數(shù)據(jù)。習題教材:P26-27謝謝觀看!模塊二大數(shù)據(jù)思維大數(shù)據(jù)基礎導讀主要內(nèi)容2.1傳統(tǒng)思維方式2.2大數(shù)據(jù)思維的含義2.3大數(shù)據(jù)思維的三個維度2.4大數(shù)據(jù)思維方式2.5大數(shù)據(jù)思維運用案例重點和難點重點:大數(shù)據(jù)思維的三個維度、大數(shù)據(jù)思維方式、大數(shù)據(jù)思維運用案例難點:理解運用大數(shù)據(jù)思維方式§2.1傳統(tǒng)思維方式17世紀以來,機械思維是指導我們?nèi)粘W鍪滦袨榈囊环N重要思維方式。機械思維的形成可以追溯至古希臘,其中最有代表性的是歐幾里得的幾何學和托勒密的地心說。后來,牛頓提出三大運動定律和萬有引力定律。人們將牛頓的方法論概括為機械思維,其核心思想可以概括成:第一,世界變化的規(guī)律是確定的。第二,由于有確定性做保障,因此規(guī)律不僅是可以被認識的,而且是可以用簡單的公式或者語言描述清楚的。第三,這些規(guī)律應該是放之四海而皆準的,可以應用到各種未知領域指導實踐。§2.2大數(shù)據(jù)思維的含義大數(shù)據(jù)思維是根據(jù)數(shù)據(jù)來思考事物的一種思維模式,是一種量化的,重視事實、追求真理的思維模式。與傳統(tǒng)機械思維相比,大數(shù)據(jù)思維表現(xiàn)為一種全新的思維方式。大數(shù)據(jù)研究專家舍恩伯格指出,大數(shù)據(jù)時代,人們對待數(shù)據(jù)的思維方式發(fā)生如下三個變化:(1)全樣而非抽樣:人們處理的數(shù)據(jù)從樣本數(shù)據(jù)變成全部數(shù)據(jù)。(2)效率而非精確:由于是海量數(shù)據(jù)和全樣本數(shù)據(jù),人們不得不接受數(shù)據(jù)的混雜性,而放棄對精確性的追求。(3)相關而非因果:人類通過對大數(shù)據(jù)的處理,放棄對因果關系的渴求,轉而關注相關關系?!?.3大數(shù)據(jù)思維的三個維度大數(shù)據(jù)思維有三個維度:定量思維、相關思維、實驗思維。第一,定量思維,又稱為描述思維,即提供更多描述性的信息,其原則是一切皆可測。例如不僅銷售數(shù)據(jù)、價格這些客觀標準可以形成大數(shù)據(jù),甚至連顧客情緒(如對色彩、空間的感知等)都可以測得,大數(shù)據(jù)包含了與消費行為有關的方方面面。第二,相關思維,一切皆可連,消費者行為的不同數(shù)據(jù)都有內(nèi)在聯(lián)系。這可以用來預測消費者的行為偏好。第三,實驗思維,一切皆可試,大數(shù)據(jù)所帶來的信息可以幫助制定營銷策略。這是三個大數(shù)據(jù)運用遞進的層次:首先是描述,然后是預測,最后產(chǎn)生策略?!?.4大數(shù)據(jù)思維方式大數(shù)據(jù)時代最大的轉變就是思維方式的轉變,為我們觀察世界提供了全新的思維。大思維方式有多種,下面介紹4種重要的大數(shù)據(jù)思維方式:數(shù)據(jù)核心思維、數(shù)據(jù)全樣思維、數(shù)據(jù)容錯思維和數(shù)據(jù)相關思維,如圖2-1所示。圖2-1大數(shù)據(jù)思維方式§2.4.1
數(shù)據(jù)核心思維數(shù)據(jù)核心思維,是以數(shù)據(jù)為核心、數(shù)據(jù)驅動的思維方式。要樹立基于數(shù)據(jù)的思維理念,用數(shù)據(jù)核心思維方式思考問題和解決問題,讓數(shù)據(jù)說話,用數(shù)據(jù)說話。大數(shù)據(jù)能告訴我們每個客戶的消費傾向,以及他們的需求有哪些區(qū)別,可以如何分類,等等。大數(shù)據(jù)是數(shù)據(jù)在數(shù)量上的增加,因此我們能夠實現(xiàn)從量變到質變的過程,從數(shù)據(jù)中挖掘價值,數(shù)據(jù)驅動決策,令決策者的選擇有據(jù)可依。數(shù)據(jù)作為新型生產(chǎn)要素,能夠帶給我們巨大的變革。在數(shù)字經(jīng)濟時代,龐大、復雜的經(jīng)濟活動所產(chǎn)生的海量數(shù)據(jù)蘊藏著巨大的價值。。數(shù)據(jù)早已和其他生產(chǎn)要素一起融入經(jīng)濟價值的創(chuàng)造過程中,對生產(chǎn)力發(fā)展產(chǎn)生廣泛影響。對于很多行業(yè)而言,利用好這些大規(guī)模數(shù)據(jù),發(fā)掘其潛在價值,是贏得核心競爭力的關鍵?!?.4.2
數(shù)據(jù)全樣思維數(shù)據(jù)全樣思維是指大數(shù)據(jù)研究的對象是所有樣本數(shù)據(jù),而非抽樣數(shù)據(jù)。抽樣是指從總體數(shù)據(jù)中抽取一部分個體作為樣本,通過對樣本數(shù)據(jù)的分析,推斷總體數(shù)據(jù)的特征,從而達到對總體的認識。通常,樣本數(shù)據(jù)規(guī)模要比總體數(shù)據(jù)小很多。抽樣是科學實驗、質量檢驗、社會調(diào)查普遍采用的一種經(jīng)濟有效的工作和研究方法。在大數(shù)據(jù)時代,人們可以獲得并分析更多的數(shù)據(jù),甚至是與之相關的所有數(shù)據(jù),而不再依賴于抽樣,從而可以更全面地認識事物,進一步發(fā)現(xiàn)樣本數(shù)據(jù)無法揭示的細節(jié)信息。相應地,思維方式也應該從樣本思維轉向全樣思維,從而能夠更加全面、立體、系統(tǒng)地認識總體狀況。全數(shù)據(jù)樣本調(diào)查相比傳統(tǒng)的抽樣調(diào)查而言更具真實性和可靠性。因為大數(shù)據(jù)包含全部的信息。足夠多的數(shù)據(jù)可讓人們透過現(xiàn)象看本質,從而洞察事物的內(nèi)在規(guī)律。所以說,采集的數(shù)據(jù)量越大,越能更準確地反映事物的真實性?!?.4.3
數(shù)據(jù)容錯思維數(shù)據(jù)容錯思維是指更加追求效率,而不是精確性。過去,我們習慣了使用抽樣分析方法。由于收集的樣本信息量遠遠少于全樣的樣本數(shù)據(jù),因此樣本的質量就顯得非常關鍵。人們十分注重精確思維,會盡量確保記錄下來的樣本數(shù)據(jù)結構化、精確化,確保分析結論的正確性。
而在大數(shù)據(jù)時代,采集的數(shù)據(jù)是全樣數(shù)據(jù),而不是一部分數(shù)據(jù),數(shù)據(jù)中的異常、紕漏、疏忽、錯誤都是數(shù)據(jù)的實際情況,其分析結果是最接近客觀事實的。在大數(shù)據(jù)時代,思維方式要從精確思維轉向容錯思維,當擁有海量即時數(shù)據(jù)時,絕對的精準不再是追求的主要目標,適當忽略微觀層面上的精確度,容許一定程度的錯誤與混雜,反而可以在宏觀層面擁有更好的知識和洞察力?!?.4.4
數(shù)據(jù)容錯思維數(shù)據(jù)相關思維是指關注相關性,而不是因果關系。
因果思維是人類的本能思維,每當我們遇到新事物的時候,會下意識地嘗試給出因果解釋。人類具有抽象思維的能力,能夠把因果推論轉化為框架。我們可以將人類長期的經(jīng)驗推而廣之,變成一種更為通用的因果模板。但因果關系也是一種非常脆弱的關系,只要存在一個反例,因果關系就失敗。大數(shù)據(jù)出現(xiàn)之后,人們可以通過大數(shù)據(jù)技術挖掘出事物之間隱蔽的相關關系,了解更多的相關信息。相關關系甚至可以超越因果關系,成為人們了解世界的更好視角。舍恩伯格指出,大數(shù)據(jù)的出現(xiàn)讓人們放棄了對因果關系的渴求,轉而關注相關關系,人們只需知道“是什么”,而不用知道“為什么”。我們不必非得知道事物或現(xiàn)象背后的復雜深層原因,而只需要通過大數(shù)據(jù)分析獲知“是什么”就意義非凡?!?.5大數(shù)據(jù)思維運用案例前面介紹了4種大數(shù)據(jù)思維,下面列舉一些大數(shù)據(jù)思維運用的典型案例,幫助大家理解大數(shù)據(jù)思維方式。數(shù)據(jù)核心思維運用案例數(shù)據(jù)全樣思維運用案例數(shù)據(jù)容錯思維運用案例數(shù)據(jù)相關思維運用案例§2.5.1數(shù)據(jù)核心思維運用案例谷歌廣告谷歌廣告案例告訴我們谷歌如何以數(shù)據(jù)為核心,利用數(shù)據(jù)提升廣告效果。GoogleAds全稱為GoogleAdWords,也稱為付費廣告或按單擊付費(PPC)廣告,是一種付費在線廣告平臺,以每單擊付費(Pay-per-click)的形式為主。廣告商在GoogleAds渠道中按單擊次數(shù)或千次展示費用進行付費。相對于其他廣告投放平臺,GoogleAds觸達潛在消費者更為精準。當目標用戶通過Google搜索或GoogleMaps查找相關的產(chǎn)品和服務時,廣告商的業(yè)務就會顯示在搜索引擎結果頁面(SERP),這樣就能吸引目標受眾。對廣告商來說,GoogleAds是廣告效果最好的平臺之一。谷歌做法是先收集大量的數(shù)據(jù),然后分析利用這些數(shù)據(jù)。例如,某個廣告很少被單擊,谷歌就會盡量少地展示這個廣告。對于廣告主來說,省錢了,因為不用把錢花在無用的廣告上面。對于谷歌來說,不展示這些廣告就可以把有限而寶貴的搜索流量留給那些可能被單擊的廣告,進而增加自己的收入。對于用戶來說,不會看到自己不想看并且和自己沒關系的廣告,提升了用戶的體驗。這就是用數(shù)據(jù)來獲得智能?!?.5.2數(shù)據(jù)全樣思維運用案例1.谷歌預測流感趨勢2009年,甲型H1N1流感在全球爆發(fā),引起了全球衛(wèi)生組織的重視。許多國家都要求醫(yī)生發(fā)現(xiàn)新病例時及時上報,然而求醫(yī)和上報流程均會使信息滯后,衛(wèi)生組織難以在第一時間掌握病毒流行情況。而在甲型H1N1流感爆發(fā)前幾周,谷歌工程師們在《自然》雜志上發(fā)表了論文,提到谷歌通過分析人們的搜索記錄來預測冬季流感的傳播趨勢。2009年,谷歌的“谷歌流感趨勢”項目,把5000萬條美國人檢索最頻繁的詞條和美國疾控中心在2003—2008年間季節(jié)性流感傳播時期的數(shù)據(jù)進行了比較。計算機將檢索詞條在4.5億個數(shù)學模型上測試之后,準確地找出了哪些是與流感傳播相關的詞條。最終,他們的預測與官方數(shù)據(jù)的相關性高達97%。這些工作疾控中心要在流感爆發(fā)一兩周之后才可以完成。
谷歌保存了多年來所有的搜索記錄,而且每天都會收到來自全球超過30億條搜索指令,如此龐大的數(shù)據(jù)資源足以支撐它完成這項工作。谷歌預測流感趨勢,并不是依賴于對隨機抽樣的分析,而是分析了全美幾十億條互聯(lián)網(wǎng)檢索記錄而得出的結論。這個案例體現(xiàn)了數(shù)據(jù)全樣思維的運用?!?.5.2數(shù)據(jù)全樣思維運用案例2.購買飛機票計算機學者奧倫·埃齊奧尼從自己訂購飛機票的經(jīng)歷獲得啟發(fā),開發(fā)出了一個預測系統(tǒng),利用大數(shù)據(jù)來預測機票價格走勢。2003年,奧倫·埃齊奧尼準備乘坐飛機去參加弟弟的婚禮。他知道飛機票越早預訂越便宜,于是提前幾個月就在網(wǎng)上預訂了機票。后來,他發(fā)現(xiàn)別人的機票比他買得晚,但是票價都比他的便宜。飛機著陸之后,埃齊奧尼下定決心要為人們開發(fā)一個系統(tǒng),用來判斷當前網(wǎng)頁上的機票價格是否合理。
埃齊奧尼創(chuàng)建的系統(tǒng)并不需要去解開機票價格差異的奧秘,要做的是預測當前機票價格在未來一段時間是上升還是下降。如果一張機票的平均價格呈下降趨勢,預測系統(tǒng)就會建議用戶稍后購票;反之,如果一張機票的平均價格呈上漲趨勢,系統(tǒng)就會提醒用戶立刻購票。這個價格預測系統(tǒng)是建立在41天之內(nèi)的12000個價格樣本的基礎之上的,功能就是利用其他航班的數(shù)據(jù)與要買票的這個航班的關系去預測機票價格走勢。數(shù)據(jù)都是埃齊奧尼從一個旅游網(wǎng)站獲取的?!?.5.3數(shù)據(jù)容錯思維運用案例谷歌機器翻譯系統(tǒng)20世紀90年代,IBM的Candide項目研究機器翻譯,由于成效不大,IBM終止了這個項目。2006年,谷歌涉足機器翻譯。谷歌翻譯開始利用一個更大、更繁雜的數(shù)據(jù)庫——全球互聯(lián)網(wǎng)。谷歌翻譯系統(tǒng)為了訓練計算機,會吸收它能找到的所有翻譯,包括多語言公司的對譯文檔,國際組織發(fā)布的官方文件和報告的譯本。盡管其輸入源有些混亂,但較其他翻譯系統(tǒng)而言,谷歌的翻譯質量相對較好,而且可翻譯的內(nèi)容更多。谷歌的翻譯質量較好并不是因為它擁有一個更好的算法機制,而是谷歌翻譯增加了很多數(shù)據(jù)。它之所以能比IBM的Candide系統(tǒng)多利用成千上萬的數(shù)據(jù),是因為接受了有錯誤的數(shù)據(jù)。谷歌翻譯系統(tǒng)案例體現(xiàn)了容錯思維的運用,不是精確性,而是混雜性。正如舍恩伯格指出的,只有5%的數(shù)據(jù)是結構化且能適用于傳統(tǒng)數(shù)據(jù)庫的。如果不接受混雜,剩下95%的非結構化數(shù)據(jù)都無法被利用,因此,只有接受不精確性,我們才能打開一扇通往從未涉足的世界的窗戶?!?.5.4數(shù)據(jù)相關思維運用案例1.啤酒與尿布啤酒與尿布的故事是大數(shù)據(jù)技術應用的經(jīng)典案例,體現(xiàn)了相關的大數(shù)據(jù)思維。沃爾瑪是大型零售商,擁有龐大的數(shù)據(jù)倉庫,是最早應用數(shù)據(jù)挖掘技術的企業(yè)之一,也是數(shù)據(jù)挖掘技術的集大成者。在一次例行的數(shù)據(jù)分析之后,沃爾瑪?shù)难芯咳藛T發(fā)現(xiàn):與尿布一起購買的最多的商品竟是啤酒。尿布和啤酒,風馬牛不相及,但這確實是對歷史數(shù)據(jù)進行挖掘的結果,反映的是數(shù)據(jù)層面的規(guī)律。為了搞清楚原因,他們派出工作人員進行調(diào)查。在美國有孩子的家庭中,妻子經(jīng)常囑咐丈夫下班后為孩子買尿布,而丈夫在買完尿布后常常會順便買點兒啤酒來犒勞自己。因此,啤酒和尿布的銷量一起增長。清楚原因后,沃爾瑪?shù)墓ぷ魅藛T打破常規(guī),嘗試將啤酒和尿布擺在一起,不出所料,啤酒和尿布的銷量雙雙增加,為商家?guī)砹舜罅康睦麧??!?.5.4數(shù)據(jù)相關思維運用案例2.颶風與蛋撻颶風與蛋撻,同樣是沃爾瑪利用數(shù)據(jù)挖掘技術擴大銷售的故事。沃爾瑪?shù)姆治鋈藛T發(fā)現(xiàn),每次季節(jié)性颶風來臨之前,不僅手電筒銷量增加了,一種袋裝小食品——蛋撻“Pop-Tarts”的銷量也會明顯上升。手電筒、電池、水的銷量會隨著颶風的到來而上升,這很容易理解,但蛋撻銷量上升是不是必然的呢?研究人員發(fā)現(xiàn),這是一個有用的規(guī)律:蛋撻的銷量上升,一是因為美國人喜歡甜食,二是因為它在停電時吃起來非常方便。此后,每當季節(jié)性颶風來襲之前,沃爾瑪也會提高蛋撻的倉儲量,并把蛋撻和颶風用品擺在一起。這樣,不僅銷量增加了,而且方便顧客拿取?!?.5.4數(shù)據(jù)相關思維運用案例3.亞馬遜推薦系統(tǒng)很多購物網(wǎng)站有“猜你喜歡”的推薦,它是如何“猜中”你的心思的呢?推薦系統(tǒng)最早出現(xiàn)在亞馬遜網(wǎng)站上,根據(jù)以往用戶的購買行為,推薦其購買某種產(chǎn)品時可能購買的其他產(chǎn)品。格雷格·林登認為,推薦系統(tǒng)要做的是找到產(chǎn)品之間的關聯(lián)性。1998年,林登和他的同事申請了“item-to-item協(xié)同過濾技術”的專利。因為估算可以提前進行,所以推薦系統(tǒng)快如閃電,而且適用于各種各樣的產(chǎn)品。當然,亞馬遜目前的推薦遠遠不止基于對象的協(xié)同過濾那么簡單。事實上,林登的工作徹底改變了電子商務。在亞馬遜的帶領下,成千上萬的網(wǎng)站可以推薦產(chǎn)品、內(nèi)容等相關信息,雖然不知道為什么人們對這些信息感興趣,但這個問題不重要,知道“是什么”就可以創(chuàng)造單擊率。找到某個現(xiàn)象的良好的關聯(lián)物,就可以利用相關關系捕捉現(xiàn)在發(fā)生的事情和預測可能發(fā)生的事情。例如,如果A和B經(jīng)常一起發(fā)生,我們只需要注意B是否發(fā)生,就可以預測A,此外,這還有助于我們捕捉可能和A一起發(fā)生的事情。小結大數(shù)據(jù)不僅是一次技術革命,也是一次思維革命。本模塊先介紹了大數(shù)據(jù)思維的含義及3個維度,然后介紹了幾種重要的大數(shù)據(jù)思維方式:數(shù)據(jù)核心思維、數(shù)據(jù)全樣思維、數(shù)據(jù)容錯思維和數(shù)據(jù)相關思維,并對大數(shù)據(jù)思維進行了典型案例分析。數(shù)據(jù)是有價值的,要學會從數(shù)據(jù)中挖掘價值,基于數(shù)據(jù)分析做出決策。當然,大數(shù)據(jù)雖然能夠發(fā)現(xiàn)“是什么”,卻不能說明“為什么”;大數(shù)據(jù)提供的是一些描述性信息,而創(chuàng)新還是需要人類自己來完成。習題教材:P41謝謝觀看!模塊三大數(shù)據(jù)支撐技術大數(shù)據(jù)基礎導讀主要內(nèi)容3.1虛擬化技術
3.2云計算3.3大數(shù)據(jù)生態(tài)系統(tǒng)Hadoop3.4分布式文件系統(tǒng)HDFS3.5分布式計算框架MapReduce3.6實時數(shù)據(jù)處理Spark3.7數(shù)據(jù)倉庫Hive3.8實訓§3.1虛擬化技術虛擬化技術(VirtualizationTechnology,VT),虛擬化技術可以實現(xiàn)在一臺主機上運行多個操作系統(tǒng),用戶便可充分利用計算機資源;進而應用通過虛擬化技術創(chuàng)建的虛擬機來搭建大數(shù)據(jù)平臺。§3.1虛擬化技術虛擬化技術是一種資源管理技術,可以將計算機的各種實體資源(如服務器、網(wǎng)絡、內(nèi)存和存儲等)抽象出來,打破實體結構不可切割的問題,使用戶可以靈活地應用這些資源。在實際生產(chǎn)環(huán)境中,虛擬化技術主要用來解決高性能物理硬件產(chǎn)能過剩和舊的硬件產(chǎn)能過低的的問題,實現(xiàn)重組、重用,透明化底層物理硬件,從而最大化地利用物理硬件?!?.1.1.1
虛擬化技術概述1964年,IBM設計了名為CP-40的新型操作系統(tǒng),實現(xiàn)了虛擬內(nèi)存和虛擬機。1965年,IBM推出了System/360Model67和TSS。1972年,IBM發(fā)布了用于創(chuàng)建靈活大型主機的虛擬化技術,實現(xiàn)了根據(jù)動態(tài)需求快速有效地使用各種資源。其后,虛擬化技術從大型計算機延伸到小型計算機領域,HP、Sun及IBM都將虛擬化技術應用到其小型計算機中。1998年,VMware公司成立,開創(chuàng)了虛擬化技術的x86時代?!?.1.1.1
虛擬化技術概述(1)物理平臺:實現(xiàn)虛擬技術的真實物理硬件和操作系統(tǒng)平臺。(2)虛擬平臺:在物理平臺上虛擬出來的可運行不同操作系統(tǒng)的虛擬機。(3)VMM:虛擬機監(jiān)視器,監(jiān)控和管理虛擬機運行的核心軟件層,也叫Hypervisor。(4)宿主機:真實的物理服務器,可以運行虛擬出來的虛擬機。(5)客戶機:從宿主機上虛擬出來的虛擬機。虛擬化技術涉及的關鍵概念:§3.1.1.2虛擬化技術的分類虛擬化技術中核心的部分是系統(tǒng)虛擬化、存儲虛擬化、網(wǎng)絡虛擬化和容器虛擬化系統(tǒng)虛擬化存儲虛擬化網(wǎng)絡虛擬化容器虛擬化§3.1.1.2虛擬化技術的分類從實現(xiàn)結構來看,容器虛擬化主要分為Hypervisor模型虛擬、宿主模型虛擬及混合模型虛擬Hypervisor模型宿主模型混合模型§3.1.2常見的虛擬化軟件VMwareVirtualBoxKVMHyper-VXenDocker§3.2云計算云計算(CloudComputing)作為近幾年十分熱門的技術,已經(jīng)成為各大應用如大數(shù)據(jù)、移動應用開發(fā)、物聯(lián)網(wǎng)和人工智能的基礎。云計算的核心是以互聯(lián)網(wǎng)為中心,通過網(wǎng)絡提供快速且安全的云計算服務,讓每一個接入互聯(lián)網(wǎng)的用戶都可以使用網(wǎng)絡上龐大的計算資源。云計算和大數(shù)據(jù)息息相關,云計算是大數(shù)據(jù)的基礎,大數(shù)據(jù)的分析能力幫助云計算更好、更合理地利用資源?!?.2.1云計算簡介云計算是基于互聯(lián)網(wǎng)的相關服務的增加、使用和交付模式,通常涉及通過互聯(lián)網(wǎng)提供的動態(tài)、易擴展且經(jīng)常是虛擬化的資源。云是網(wǎng)絡的比喻。從狹義上講,云計算是一種提供資源的網(wǎng)絡,使用者可以隨時獲取資源,按使用量付費,和用水、用電一樣。從廣義上講,云計算是與信息技術、軟件、互聯(lián)網(wǎng)相關的一種服務,這種計算資源共享池稱為“云”?!?.2.2云計算的服務模式IaaS基礎設施即服務PaaS平臺即服務SaaS軟件即服務CaaS容器即服務§3.2.3云計算的部署方式私有云(PrivateCloud)私有云是為某個特定用戶/機構建立的,只能實現(xiàn)小范圍內(nèi)的資源優(yōu)化,因此并不完全符合云的本質,即社會分工。托管型私有云在一定程度上實現(xiàn)了社會分工,但是仍無法解決大規(guī)模范圍內(nèi)物理資源利用效率的問題。公有云(PublicCloud)公有云是為大眾建立的,所有入駐用戶都稱為租戶,公有云可以同時容納很多租戶,一個租戶離開后,其資源可以馬上釋放給下一個租戶。公有云是最徹底的社會分工,能夠在大范圍內(nèi)實現(xiàn)資源優(yōu)化。社區(qū)云/行業(yè)云(CommunityCloud)社區(qū)云是介于公有云、私有云之間的一種形式。如果每個客戶的規(guī)模不大,但又處于敏感行業(yè),那么他們聯(lián)合建立一個云平臺是很有必要的。這樣做還可以規(guī)避公有云的限制和風險?;旌显疲℉ybridCloud)混合云是公有云、私有云、社區(qū)云的任意混合,這種混合可以是計算的、存儲的,也可以兩者兼而有之。在公有云尚不完全成熟,而私有云存在運維難、部署時間長、動態(tài)擴展難的階段,混合云是一種較為理想的平滑過渡方式?!?.2.4云計算與大數(shù)據(jù)的關系(1)目的不同。大數(shù)據(jù)主要用于發(fā)掘信息價值,而云計算主要是通過互聯(lián)網(wǎng)管理資源并提供相應的服務。(2)對象不同。大數(shù)據(jù)的對象是數(shù)據(jù),云計算的對象是互聯(lián)網(wǎng)資源以及應用等。(3)背景不同。大數(shù)據(jù)的出現(xiàn)基于用戶和社會各行各業(yè)所產(chǎn)生的數(shù)據(jù)呈幾何倍數(shù)增長;云計算的出現(xiàn)基于用戶服務需求的增長,以及企業(yè)處理業(yè)務的能力的提高。(4)價值不同。大數(shù)據(jù)的價值在于發(fā)掘數(shù)據(jù)的有效信息,云計算則可以大量節(jié)約使用成本?!?.3大數(shù)據(jù)生態(tài)系統(tǒng)Hadoop隨著計算機和互聯(lián)網(wǎng)的廣泛應用,人類產(chǎn)生的數(shù)據(jù)量呈爆炸式增長,數(shù)據(jù)應用已經(jīng)滲透到人類生活的各個角落,帶來的問題是海量數(shù)據(jù)的存儲、處理和分析,Hadoop的誕生有效地解決了這些問題。Hadoop是一個能夠讓用戶輕松構建和使用的分布式計算框架,它可以使用戶在不了解分布式底層細節(jié)的情況下開發(fā)分布式程序,充分利用集群的威力進行高速運算和存儲。Hadoop改變了對數(shù)據(jù)的存儲、處理和分析的過程,加速了大數(shù)據(jù)的發(fā)展,并形成了良好的技術生態(tài)系統(tǒng)。如今,Hadoop已成為大數(shù)據(jù)分布式處理的首選,在眾多領域得到了廣泛應用?!?.3.1
Hadoop的起源2002年,起源于ApacheNutch項目2004年,與NDFS(NutchDistributedFileSystem)結合2006年
,被分離出來,成為一套完整而獨立的軟件,并被命名為Hadoop2008年,Hadoop已成為Apache的頂級項目,包含眾多子項目§3.3.2
Hadoop的基本概念
Hadoop是一個由Apache基金會開發(fā)的分布式系統(tǒng)基礎架構。Hadoop框架的核心設計是HDFS和MapReduce。HDFS為海量數(shù)據(jù)提供了存儲服務,而MapReduce則為海量數(shù)據(jù)提供了計算服務。HDFSMapReduceHDFS具有高容錯性的特點,可部署在低廉的硬件設備上,能提供高吞吐量訪問應用程序的數(shù)據(jù),適合具有超大數(shù)據(jù)集的應用程序,可以以流的形式訪問文件系統(tǒng)中的數(shù)據(jù)。MapReduce是一種海量數(shù)據(jù)集的分布式并行計算編程模型,可以將大作業(yè)拆分成小作業(yè)進行作業(yè)調(diào)度和容錯管理,適用于數(shù)據(jù)的批量處理。MapReduce將復雜的并行計算過程高度抽象為Map函數(shù)和Reduce函數(shù),這使得用戶開發(fā)并行應用程序時無須了解分布式系統(tǒng)的底層實現(xiàn)細節(jié),就可以完成海量數(shù)據(jù)的分布式并行計算工作?!?.3.3
Hadoop的優(yōu)勢高可靠性高效性低成本支持多種編程語言多平臺運行高容錯性高擴展性§3.3.4
Hadoop生態(tài)系統(tǒng)§3.3.5
Hadoop的版本Hadoop版本版本名稱版本號包含內(nèi)容第一代Hadoop1.00.20.x、0.21.x、0.22.xHDFS、MapReduce第二代Hadoop2.00.23.x和2.xHDFS、MapReduce、YARN第三代Hadoop3.03.1.0、3.1.2、3.2.1、3.3.1、3.3.2內(nèi)核改進§3.3.6
Hadoop的應用場景1.Hadoop在國外互聯(lián)網(wǎng)領域的應用2002年,Yahoo搭建了2000個節(jié)點的Hadoop集群,被認為是當時規(guī)模最大的Hadoop應用。2008年,Yahoo在1萬多臺Linux虛擬機組成的Hadoop集群上處理了網(wǎng)頁搜索所產(chǎn)生的5PB數(shù)據(jù),并分析了超過300TB的網(wǎng)頁索引資料(壓縮后),從而為用戶提供了更好的Web搜索服務。
目前,Yahoo的Hadoop機器總結點數(shù)目超過42000個,有超過10萬的核心CPU在運行Hadoop。Yahoo已將Hadoop技術應用在數(shù)據(jù)倉庫、反垃圾郵件系統(tǒng)、廣告系統(tǒng)、Web搜索、用戶行為分析及個性化推薦等方面。§3.3.6
Hadoop的應用場景2.Hadoop在通信領域的應用中國移動研究院基于Hadoop開發(fā)了“大云”系統(tǒng),該系統(tǒng)不僅能用于相關數(shù)據(jù)分析,還能對外提供服務?!按笤啤?.5版本產(chǎn)品的總體架構中包括PaaS層和IaaS層,PaaS層是基于Hadoop構建的,用于數(shù)據(jù)存儲和分析。中國電信發(fā)布的大數(shù)據(jù)業(yè)務品牌“天翼大數(shù)據(jù)”推出了精準營銷、風險防控、區(qū)域洞察、咨詢報告四類數(shù)據(jù)型產(chǎn)品和大數(shù)據(jù)云平臺型產(chǎn)品,重點服務于旅游、金融、廣告、政府、交通等行業(yè)。§3.3.6
Hadoop的應用場景2.Hadoop在通信領域的應用中國聯(lián)通從2013年開始發(fā)展大數(shù)據(jù)業(yè)務,如今其大數(shù)據(jù)產(chǎn)品體系包括征信產(chǎn)品、沃指數(shù)、精準營銷產(chǎn)品、用戶標簽、開放平臺和智慧足跡等?!?.4
分布式文件系統(tǒng)HDFS在大數(shù)據(jù)時代,數(shù)據(jù)量呈爆炸式增長,傳統(tǒng)的集中式存儲在容量和性能上都無法較好地滿足大數(shù)據(jù)的需求。因此,具有可擴展能力的分布式存儲成為大數(shù)據(jù)存儲的主流技術方式。HDFS是Hadoop的分布式文件存儲系統(tǒng),用來存儲Hadoop集群中所有節(jié)點上的海量數(shù)據(jù)。§3.4
.1
HDFS的體系結構
HDFS的核心組件是NameNode和DataNode。它是一個主/從(master/slave)架構的系統(tǒng),即一個HDFS集群由一個NameNode和若干DataNode組成。§3.4
.2
HDFS的運行機制副本機制心跳機制副本放置與機架感知策略HA機制§3.4
.2
HDFS的運行機制副本機制為了保證集群的容錯性和可用性,HDFS采用了數(shù)據(jù)冗余存儲方式,即一個數(shù)據(jù)可以保存多個副本,并且這些副本會分別存儲在不同的DataNode上?!?.4
.2
HDFS的運行機制心跳機制
DataNode通過“心跳”(Heartbeats)將block信息報告給NameNode,這里的“心跳”是一種形象化描述,指的是不間斷地發(fā)送一個自定義結構體(“心跳包”或“心跳幀”)來證明自己節(jié)點的有效性。NameNode啟動后,會等待所有DataNode的“心跳”,而DataNode啟動后,會主動連接NameNode,并在一定間隔(默認為3s)主動向NameNode發(fā)送一個“心跳”,報告自己的狀態(tài)信息,然后NameNode通過這個“心跳”向DataNode下達命令。§3.4
.2
HDFS的運行機制副本放置與機架感知策略一個集群中往往存在多個機架,且每個機架上又放置了多個DataNode,而每個DataNode上又保存了多個文件的block副本。另外,NameNode上的元數(shù)據(jù)存儲著每個DataNode所屬的機架ID。§3.4
.2
HDFS的運行機制HA機制Hadoop2.x允許運行主(active)、備(standby)兩個NameNode,從而可以在NameNode節(jié)點出現(xiàn)故障或維護時,快速啟用備用狀態(tài)的NameNode節(jié)點,以確保集群正常運行。§3.4
.3
HDFS文件的上傳和下載HDFS文件上傳的流程§3.4
.3
HDFS文件的上傳和下載HDFS文件下載的流程§3.4
.4
HDFSShell常用命令命令參數(shù)功能描述hadoopversion查看Hadoop的版本hadoop-help查看命令的格式hadoopfs-ls查看HDFS指定目錄下的文件目錄hadoopfs-ls-R遞歸查看HDFS指定目錄下的文件目錄Hadoopfs-mv移動文件Hadoopfs-cp復制文件Hadoopfs-rm刪除HDFS上某文件§3.4
.4
HDFSShell常用命令命令參數(shù)功能描述Hadoopfs-mkdir在HDFS中創(chuàng)建文件夾,如果父目錄不存在就報錯Hadoopfs-mkdir-p在HDFS中創(chuàng)建文件夾,如果父目錄不存在就創(chuàng)建該父目錄Hadoopfs-put將本地系統(tǒng)中的文件上傳到HDFS指定文件夾中Hadoopfs-get將HDFS上的某文件下載到本地的文件夾中hadoopfs-cat在HDFS查看某文件hadoopfs-tail在標準輸出中顯示文件末尾1KB數(shù)據(jù)Hadoopfs-count統(tǒng)計hdfs對應路徑下的目錄個數(shù),文件個數(shù),文件總計大小hadoopfs-du顯示hdfs對應路徑下每個文件夾和文件的大小§3.5
分布式計算框架MapReduce大數(shù)據(jù)時代,人們除了需要解決大規(guī)模數(shù)據(jù)的高效存儲問題,還需要解決大規(guī)模數(shù)據(jù)的高效計算問題。MapReduce是Hadoop中的大數(shù)據(jù)并行計算框架,是Hadoop的核心組件之一,其原理簡單且易于實現(xiàn)。它可以將復雜的并行計算過程高度抽象為Map函數(shù)和Reduce函數(shù),用戶可以在不清楚分布式計算框架內(nèi)部運行機制的情況下輕松完成計算任務。§3.5.1
MapReduce簡介MapReduce的核心思想是“分而治之”,就是把一個復雜的問題按照一定的規(guī)律分解成一些小的任務,然后逐個解決,最后再把各個任務的結果匯總,構成整個問題的結果。任務分解的前提是這些任務之間沒有必然的依賴關系,可以單獨執(zhí)行。MapReduce是工作于Hadoop之上的計算模型,計算過程主要分為Map任務和Reduce任務,Map任務負責將問題進行分解,Reduce任務負責將計算結果合并。Map階段的運行結果會作為Reduce任務的輸入,最終由Reduce任務輸出最后結果,并寫入分布式文件系統(tǒng)?!?.5.1
MapReduce簡介MapReduce任務分解示意圖§3.5.1
MapReduce簡介
MapReduce將整個并行計算過程抽象到兩個函數(shù):map()函數(shù)和reduce()函數(shù),這兩個函數(shù)來自MapReduceAPI提供的Mapper類和Reducer類?;贛apreduce計算模型編寫分布式程序的主要工作就是實現(xiàn)map()函數(shù)和reduce()函數(shù)。這兩個函數(shù)都是以鍵值對<key,value>作為輸入,按照一定的映射規(guī)則將其轉換成另一個鍵值對<key,value>進行輸出。§3.5.2
MapReduce的特點
1(1)易于編程
MapReduce在執(zhí)行分布式并行計算時,會將并行編程的繁瑣細節(jié)隱藏起來,如任務調(diào)度、負載均衡、失敗恢復等都由框架來完成。所以,開發(fā)人員在設計程序時,只需實現(xiàn)Map任務和Reduce任務中的map()函數(shù)和reduce()函數(shù),就可以完成分布式計算任務,這就大大降低了分布式程序的編寫難度。
2(2)具有良好的擴展性
MapReduce具有良好的可擴展性,當集群計算資源不能滿足需求時,可以通過動態(tài)增加機器來擴展計算能力,實現(xiàn)彈性計算。§3.5.2
MapReduce的特點
3(3)具有高容錯性
MapReduce設計的初衷是可以使程序運行在廉價的機器上,因為廉價機器出現(xiàn)問題的概率相對較高,這就要求其具有良好的容錯性。當集群中的某一臺機器出現(xiàn)故障后,相應數(shù)據(jù)的存儲和計算能力會被移植到另外一臺機器上,從而實現(xiàn)容錯性。
4(4)適合處理離線的海量數(shù)據(jù)MapReduce適合處理離線的海量數(shù)據(jù)(PB級別或ZB級別),這里的“離線”可以理解為存在本地,非實時處理。離線計算往往需要一段時間,如幾分鐘或者幾個小時,根據(jù)業(yè)務數(shù)據(jù)和業(yè)務復雜程度有所區(qū)別。§3.5.3
MapReduce的工作流程§3.5.4
MapReduce案例單詞計數(shù)1.輸入分片及輸入格式化§3.5.4
MapReduce案例單詞計數(shù)2.Map過程§3.5.4
MapReduce案例單詞計數(shù)3.Shuffle過程§3.5.4
MapReduce案例單詞計數(shù)4.Reduce過程§3.5.4
MapReduce案例單詞計數(shù)5.結果輸出§3.6
實時數(shù)據(jù)處理SparkSpark是一個高性能、易于使用的開源平臺,它為用戶既提供了批處理功能,又提供了基于內(nèi)存的實時數(shù)據(jù)處理和分析功能。Spark在Hadoop之上運行,并且擁有許多優(yōu)秀的庫,如SparkSQL、MLlib等,它的出現(xiàn)促使Hadoop生態(tài)系統(tǒng)發(fā)生演變,可以更好地為大數(shù)據(jù)分析服務?!?.6.1
Spark簡介
Spark的主要編程語言是Scala,它是一種面向對象、函數(shù)式編程語言,旨在以簡練、優(yōu)雅的方式來表達常用編程模式。Scala具有強大的并發(fā)性,支持函數(shù)式編程,可以更好地支持分布式系統(tǒng),且兼容Java,運行速度快,能融合到Hadoop生態(tài)系統(tǒng)中。除了Scala,Spark還支持Java、Python、R等作為編程語言。§3.6.2
Spark的特點
1(1)速度快
Spark實現(xiàn)了高效的DAG執(zhí)行引擎,能夠通過內(nèi)存計算高效地處理數(shù)據(jù)流。據(jù)統(tǒng)計,與Hadoop相比,Spark基于內(nèi)存的運算效率要快100倍以上,基于磁盤的運算效率也要快10倍以上。
2(2)易用性強
Spark除了支持使用Scala、Java、Python和R語言進行編程,還支持超過80種高級算法,簡潔的API設計有助于用戶輕松構建并行程序,并且可以通過SparkShell進行交互式編程?!?.6.2
Spark的特點
3(3)通用性強
Spark提供了完整而強大的技術棧,包括SQL查詢、流式計算、機器學習和圖算法組件,它們可以在同一個應用程序中無縫地結合使用,大大減少了大數(shù)據(jù)開發(fā)和維護的人力成本和部署平臺的物力成本。
4(4)兼容性好
Spark可以運行在Hadoop模式、Mesos模式、Standalone獨立模式或Cloud中,還可以訪問各種數(shù)據(jù)源,包括本地文件系統(tǒng)、HDFS、Cassandra、HBase和Hive等?!?.6.3
Spark生態(tài)系統(tǒng)§3.6.3
Spark生態(tài)系統(tǒng)Spark的核心組件,它實現(xiàn)了Spark的基本功能,包含任務調(diào)度、內(nèi)存管理、錯誤恢復、存儲系統(tǒng)交互等模塊。SparkCore中還包含對彈性分布式數(shù)據(jù)集的API定義。SparkCore用于操作結構化數(shù)據(jù)的核心組件,通過SparkSQL可直接查詢Hive、HBase等多種外部數(shù)據(jù)源中的數(shù)據(jù)。SparkSQL的重要特點是能夠統(tǒng)一處理關系表和RDD。SparkSQL12§3.6.3
Spark生態(tài)系統(tǒng)Spark提供的流式計算框架,支持高吞吐量、可容錯的實時流式數(shù)據(jù)處理,其核心原理是將流數(shù)據(jù)分解成一系列短小的批處理作業(yè),每個作業(yè)都可以使用SparkCore進行快速處理。SparkStreaming支持多種數(shù)據(jù)源,如HDFS、Kafka、Flume等。SparkStreamingSpark提供的關于機器學習功能的算法程序庫,包括分類、回歸、聚類、協(xié)同過濾算法等,還提供了模型評估、數(shù)據(jù)導入等額外的功能。MLlib43§3.6.3
Spark生態(tài)系統(tǒng)Spark提供的分布式圖處理框架,擁有圖計算和圖挖掘算法的API接口以及豐富的功能和運算符,能在海量數(shù)據(jù)上運行復雜的圖算法,極大地方便了用戶對分布式圖的處理需求。GraphXSpark集群管理器,確保Spark框架可以高效地在一個到數(shù)千個節(jié)點之間進行伸縮計算。Spark支持在多種集群管理器上運行,主要包括HadoopYarn、ApacheMesos以及Spark自帶的獨立調(diào)度器。獨立調(diào)度器、Yarn、Mesos65§3.6.4
Spark與Hadoop對比
1(1)編程方式
Hadoop的MapReduce在計算數(shù)據(jù)時,必須要轉化為Map和Reduce兩個計算過程,因此難以描述復雜的數(shù)據(jù)處理過程;而Spark的計算模型不但不局限于Map和Reduce操作,還提供了多種數(shù)據(jù)集的操作類型,編程模型比MapReduce更加靈活。
2(2)數(shù)據(jù)存儲Hadoop的MapReduce進行計算時,每次產(chǎn)生的中間結果都存儲在本地磁盤中;而Spark在計算時產(chǎn)生的中間結果存儲在內(nèi)存中?!?.6.4
Spark與Hadoop對比
3(3)數(shù)據(jù)處理
Hadoop在每次進行數(shù)據(jù)處理時,都需要從磁盤中加載數(shù)據(jù),導致磁盤的I/O開銷較大;而Spark在進行數(shù)據(jù)處理時,只需要將數(shù)據(jù)加載到內(nèi)存中,之后直接在內(nèi)存中加載中間結果數(shù)據(jù)集即可,減少了磁盤的I/O開銷。
4(4)數(shù)據(jù)容錯MapReduce計算的中間結果數(shù)據(jù)保存在磁盤中,并且Hadoop框架底層實現(xiàn)了備份機制,從而保證了數(shù)據(jù)容錯。同樣,SparkRDD實現(xiàn)了基于Lineage的容錯機制和設置檢查點的容錯機制,彌補了數(shù)據(jù)在內(nèi)存處理時斷電丟失的問題?!?.6.4
Spark與Hadoop對比盡管Spark相對Hadoop具有較多的優(yōu)勢,但Spark并不能完全替代Hadoop,主要用于替代Hadoop中的MapReduce計算模型。實際上,Spark已經(jīng)很好地融入了Hadoop生態(tài)系統(tǒng),并成為其中的重要一員,它可以借助YARM實現(xiàn)資源調(diào)度管理,借助HDFS實現(xiàn)分布式存儲。此外,Hadoop可以使用廉價、異構的機器來進行分布式存儲與計算,但是Spark對硬件(內(nèi)存、CPU等)的要
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 公司職場內(nèi)活動方案
- 公司組織健身走活動方案
- 公司自制檸檬茶活動方案
- 公司晨會團體活動方案
- 2025年統(tǒng)計學專業(yè)期末考試試卷及答案
- 2025年經(jīng)濟法相關知識考試試題及答案
- 北師大版(2024)七年級下冊英語期末復習:Unit1~6各單元書面表達練習題(含答案+范文)
- 2025年中國冷凍面包產(chǎn)品行業(yè)市場全景分析及前景機遇研判報告
- 2024年度浙江省二級造價工程師之建設工程造價管理基礎知識練習題及答案
- 2024年度浙江省二級注冊建筑師之法律法規(guī)經(jīng)濟與施工題庫綜合試卷B卷附答案
- 2023-2024學年全國初中七年級下語文人教版期末考試試卷(含答案解析)
- 有趣的圖形化編程
- T-CECS120-2021套接緊定式鋼導管施工及驗收規(guī)程
- PPH術后護理查房
- 2022年江蘇省常州市強基計劃選拔數(shù)學試卷(附答案解析)
- 小學生體適能教育現(xiàn)狀調(diào)查與分析
- HG∕T 5229-2017 熱空氣老化箱
- 09SMS202-1埋地矩形雨水管道及附屬構筑物(混凝土模塊砌體)
- 醫(yī)生簽約MCN機構合同模版
- 重慶市沙坪壩區(qū)南開中學校2023-2024學年八年級下學期期末英語試題(無答案)
- 廣東省深圳市南山區(qū)2023-2024學年七年級下學期期末英語試題
評論
0/150
提交評論