![大數(shù)據(jù)技術(shù)及應(yīng)用-基于Python語(yǔ)言 課件 第1章 緒論_第1頁(yè)](http://file4.renrendoc.com/view5/M01/26/18/wKhkGGaPbYCAYs3QAADSwVJAUuk889.jpg)
![大數(shù)據(jù)技術(shù)及應(yīng)用-基于Python語(yǔ)言 課件 第1章 緒論_第2頁(yè)](http://file4.renrendoc.com/view5/M01/26/18/wKhkGGaPbYCAYs3QAADSwVJAUuk8892.jpg)
![大數(shù)據(jù)技術(shù)及應(yīng)用-基于Python語(yǔ)言 課件 第1章 緒論_第3頁(yè)](http://file4.renrendoc.com/view5/M01/26/18/wKhkGGaPbYCAYs3QAADSwVJAUuk8893.jpg)
![大數(shù)據(jù)技術(shù)及應(yīng)用-基于Python語(yǔ)言 課件 第1章 緒論_第4頁(yè)](http://file4.renrendoc.com/view5/M01/26/18/wKhkGGaPbYCAYs3QAADSwVJAUuk8894.jpg)
![大數(shù)據(jù)技術(shù)及應(yīng)用-基于Python語(yǔ)言 課件 第1章 緒論_第5頁(yè)](http://file4.renrendoc.com/view5/M01/26/18/wKhkGGaPbYCAYs3QAADSwVJAUuk8895.jpg)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第1章緒論目錄Contents1.1
大數(shù)據(jù)的基本概念1.2大數(shù)據(jù)的價(jià)值和作用1.3大數(shù)據(jù)帶來(lái)的思維方式變革1.4大數(shù)據(jù)處理技術(shù)基礎(chǔ)1.5大數(shù)據(jù)面臨的技術(shù)挑戰(zhàn)大數(shù)據(jù)的基本概念1.1什么是“大數(shù)據(jù)”大數(shù)據(jù)的特點(diǎn)大數(shù)據(jù)的構(gòu)成1.1.1什么是“大數(shù)據(jù)”
“大數(shù)據(jù)”這一名詞最早公開出現(xiàn)于1998年,美國(guó)高性能計(jì)算公司SGI的首席科學(xué)家約翰?馬西(John?Mashey)在一個(gè)國(guó)際會(huì)議報(bào)告中指出:隨著數(shù)據(jù)量的快速增長(zhǎng),必將出現(xiàn)數(shù)據(jù)難理解、難獲取、難處理和難組織等四個(gè)難題,并用“Big?Data(大數(shù)據(jù))”來(lái)描述這一挑戰(zhàn),在計(jì)算機(jī)領(lǐng)域引起了人們的重視和關(guān)注。1.1.1什么是“大數(shù)據(jù)”在“大數(shù)據(jù)”這一概念形成的過(guò)程中,有三個(gè)標(biāo)志性的事件。2008年9月,美國(guó)《自然》(Nature)雜志專刊——ThenextGoogle,第一次正式提出了“大數(shù)據(jù)”概念。2011年2月1日,《科學(xué)》(Science)雜志專刊——Dealingwithdata,第一次綜合分析了大數(shù)據(jù)對(duì)人們生活造成的影響,詳細(xì)描述了人類面臨的“數(shù)據(jù)困境”。2011年5月,麥肯錫全球研究院(McKinseyGlobalInstitute)發(fā)布報(bào)告——BigData:TheNextFrontierforInnovation,Competition,andProductivity,第一次給大數(shù)據(jù)做出相對(duì)清晰的定義。1.1.1什么是“大數(shù)據(jù)”維基百科(Wikipedia)對(duì)大數(shù)據(jù)的定義是:規(guī)模龐大,結(jié)構(gòu)復(fù)雜,難以通過(guò)現(xiàn)有商業(yè)工具和技術(shù)在可容忍的時(shí)間內(nèi)獲取、管理和處理的數(shù)據(jù)集。從以上對(duì)大數(shù)據(jù)的定義可以看出,大數(shù)據(jù)與傳統(tǒng)所處理的數(shù)據(jù)相比,具有體量大、結(jié)構(gòu)復(fù)雜的顯著特點(diǎn),并且難以用常規(guī)的技術(shù)進(jìn)行處理。1.1.2大數(shù)據(jù)的特點(diǎn)通常用“4V特性”來(lái)描述大數(shù)據(jù)的主要特征,即大數(shù)據(jù)具有體量大(Volume)、種類多(Variety)、速度快(Velocity)和價(jià)值高(Value)四個(gè)主要特征。大數(shù)據(jù)的基本特征(1)體量大(Volume)
大數(shù)據(jù)的特征首先體現(xiàn)在數(shù)量巨大,存儲(chǔ)單位達(dá)到TB、PB甚至EB級(jí)別。圖靈獎(jiǎng)得主JimGrey對(duì)人類社會(huì)信息量的增長(zhǎng)提出一個(gè)“新摩爾定律:”每18個(gè)月,全球信息量是計(jì)算機(jī)有史以來(lái)全部信息量的總和“。根據(jù)IDC(InternationalDataCorporation,國(guó)際數(shù)據(jù)公司)的一份報(bào)告預(yù)測(cè),從2013年至2020年,全球數(shù)據(jù)規(guī)模擴(kuò)大了50倍,每年產(chǎn)生的數(shù)據(jù)量將增長(zhǎng)到44萬(wàn)億GB,相當(dāng)于美國(guó)國(guó)家圖書館數(shù)據(jù)量的數(shù)百萬(wàn)倍,2025年全球數(shù)據(jù)總量預(yù)計(jì)將達(dá)175ZB。
大數(shù)據(jù)體量大Domo公司2020年每秒全球大數(shù)據(jù)產(chǎn)生量分析的可視化圖示(/learn/data-never-sleeps-9)??梢钥闯鯢acebook用戶每秒共享的圖片有240K張、上傳了44M條信息,INSTAGRAM用戶每秒共享了65K張圖片……。
大數(shù)據(jù)的基本特征(2)種類多(Variety)
大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)相比,數(shù)據(jù)的來(lái)源廣、維度大、類型雜。(3)速度快(Velocity)
隨著計(jì)算機(jī)技術(shù)、互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)生成、儲(chǔ)存、分析、處理的速度遠(yuǎn)遠(yuǎn)超出人們的想象力,這是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)或小數(shù)據(jù)的顯著特征。(4)價(jià)值高(Value)
大數(shù)據(jù)有巨大的潛在價(jià)值,具有價(jià)值高但價(jià)值密度低的特點(diǎn),也就是說(shuō)同其呈幾何指數(shù)爆發(fā)式增長(zhǎng)相比,某一對(duì)象或模塊數(shù)據(jù)的價(jià)值密度較低,這給我們挖掘海量的大數(shù)據(jù)增加了難度和成本。
1.1.2大數(shù)據(jù)的構(gòu)成大數(shù)據(jù)的構(gòu)成可以分為結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)三類
(1)結(jié)構(gòu)化數(shù)據(jù):結(jié)構(gòu)化數(shù)據(jù)具有固定的結(jié)構(gòu)、類型和屬性劃分等,通??梢杂枚S表表示,如用關(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ)的信息、Excel表所存放的信息等。學(xué)號(hào)姓名性別出生日期1100101小王男1998-03-051100102小李女1999-08-051100103小陳男2000-03-07結(jié)構(gòu)化數(shù)據(jù)示例1.1.2大數(shù)據(jù)的構(gòu)成
(2)半結(jié)構(gòu)化數(shù)據(jù):半結(jié)構(gòu)化數(shù)據(jù)具有一定的結(jié)構(gòu)性,但又靈活多變。例如XML、HTML格式的文件,其自描述、數(shù)據(jù)結(jié)構(gòu)和內(nèi)容混雜在一起??蓴U(kuò)展標(biāo)記語(yǔ)言XML是一種W3C制定的標(biāo)準(zhǔn)通用標(biāo)記語(yǔ)言,已成為國(guó)際上數(shù)據(jù)交換的一種公共語(yǔ)言。1.1.2大數(shù)據(jù)的構(gòu)成用XML文件格式來(lái)描述表1.2中的三條記錄。1.1.2大數(shù)據(jù)的構(gòu)成
(3)非結(jié)構(gòu)化數(shù)據(jù):非結(jié)構(gòu)化數(shù)據(jù)是指無(wú)法采用固定的結(jié)構(gòu)來(lái)表示的數(shù)據(jù),如文本、圖像、視頻和音頻等數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)其格式非常多樣,無(wú)法用統(tǒng)一的結(jié)構(gòu)表示,而且在技術(shù)上非結(jié)構(gòu)化信息比結(jié)構(gòu)化信息更難標(biāo)準(zhǔn)化和理解。文本、圖片和視頻文件示意圖大數(shù)據(jù)的價(jià)值和作用1.21.2大數(shù)據(jù)的價(jià)值和作用1.人類的活動(dòng)越來(lái)越依賴于數(shù)據(jù)電子商務(wù)物流金融教育科學(xué)研究……1.2大數(shù)據(jù)的價(jià)值和作用2.大數(shù)據(jù)的核心價(jià)值3.大數(shù)據(jù)的作用大數(shù)據(jù)的核心價(jià)值在于提供了一種人類認(rèn)識(shí)復(fù)雜系統(tǒng)的新思維和新手段,可以幫助人們發(fā)現(xiàn)規(guī)律、預(yù)測(cè)未來(lái)和決策指導(dǎo)。目前,大數(shù)據(jù)技術(shù)在國(guó)內(nèi)外各個(gè)行業(yè)發(fā)揮著越來(lái)越大作用,以下介紹幾個(gè)著名的大數(shù)據(jù)應(yīng)用案例。1.2大數(shù)據(jù)的價(jià)值和作用【案例】孟山都(Monsanto)是一家美國(guó)的跨國(guó)農(nóng)業(yè)生物技術(shù)公司,該公司首先發(fā)起“GreenDataRevolution”運(yùn)動(dòng),建立農(nóng)業(yè)數(shù)據(jù)聯(lián)盟(OpenAgDataAlliance)來(lái)統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn),讓農(nóng)民也能享受大數(shù)據(jù)的成果。
典型的應(yīng)用如農(nóng)場(chǎng)設(shè)備制造商JohnDeere與DuPontPioneer聯(lián)合提供“決策服務(wù)(DecisionServices)”,農(nóng)民只需在駕駛室里拿出平板電腦,收集種子監(jiān)視器傳來(lái)的數(shù)據(jù),然后將其上傳給服務(wù)器,通過(guò)服務(wù)器端的智能決策服務(wù)系統(tǒng),返回化肥的配方到農(nóng)場(chǎng)的拖拉機(jī)上。1.2大數(shù)據(jù)的價(jià)值和作用
【案例】大數(shù)據(jù)金融監(jiān)管。中國(guó)證監(jiān)會(huì)于2013年下半年開始啟用大數(shù)據(jù)分析系統(tǒng),到2015年8月,已調(diào)查內(nèi)幕交易線索375起,立案142起,分別比以往同期增長(zhǎng)了21%、33%。上海證監(jiān)局2017年以來(lái)招聘了大量的大數(shù)據(jù)研究和挖掘人才,專門模擬不同賬戶之間的關(guān)聯(lián),通過(guò)無(wú)數(shù)次的模擬分析找到看似無(wú)關(guān),但本質(zhì)上相關(guān)的賬戶之間的交易關(guān)聯(lián)。1.2大數(shù)據(jù)的價(jià)值和作用
對(duì)于大數(shù)據(jù)在若干重要領(lǐng)域的作用,可以簡(jiǎn)短地總結(jié)如下:醫(yī)療大數(shù)據(jù)——看病更高效生物大數(shù)據(jù)——改良基因金融大數(shù)據(jù)——理財(cái)?shù)睦髁闶鄞髷?shù)據(jù)——了解消費(fèi)者電商大數(shù)據(jù)——精準(zhǔn)營(yíng)銷的法寶農(nóng)牧大數(shù)據(jù)——量化生產(chǎn)交通大數(shù)據(jù)——暢通出行教育大數(shù)據(jù)——因材施教體育大數(shù)據(jù)——奪冠精靈食品大數(shù)據(jù)——安全飲食的保護(hù)傘政府大數(shù)據(jù)——改進(jìn)社會(huì)服務(wù)討論同學(xué)們談?wù)劥髷?shù)據(jù)的作用數(shù)據(jù)帶來(lái)的思維方式變革1.31.3大數(shù)據(jù)帶來(lái)的思維方式變革大數(shù)據(jù)時(shí)代要關(guān)注三大變革:(1)處理數(shù)據(jù)理念的思維變革(2)挖掘數(shù)據(jù)價(jià)值的商業(yè)變革(3)面對(duì)數(shù)據(jù)風(fēng)險(xiǎn)的管理變革
其中,對(duì)于大數(shù)據(jù)時(shí)代帶來(lái)的處理數(shù)據(jù)理念的思維模式轉(zhuǎn)變,舍恩伯格提出了三個(gè)常著名的觀點(diǎn)。大數(shù)據(jù)帶來(lái)的思維方式變革
在過(guò)去,由于收集、儲(chǔ)存和分析數(shù)據(jù)的技術(shù)落后,對(duì)大量數(shù)據(jù)的收集成本非常高昂,我們只能收集少量的數(shù)據(jù)進(jìn)行分析。在大數(shù)據(jù)時(shí)代,可以獲取足夠大的數(shù)據(jù)樣本乃至全體數(shù)據(jù)。抽樣采用的不合理會(huì)導(dǎo)致預(yù)測(cè)結(jié)果的偏差,在大數(shù)據(jù)時(shí)代,依靠強(qiáng)大的數(shù)據(jù)處理能力,應(yīng)該去處理所有數(shù)據(jù)?!景咐縁arecast系統(tǒng)用大數(shù)據(jù)預(yù)測(cè)機(jī)票價(jià)格
1.要全體,不要抽樣大數(shù)據(jù)帶來(lái)的思維方式變革
因果分析和相關(guān)分析是人們認(rèn)識(shí)、了解世界最重要的手段和方法。
因果關(guān)系,即某種現(xiàn)象(原因)引起了另一種現(xiàn)象(結(jié)果),其原因和結(jié)果必須同時(shí)具有必然的聯(lián)系。
相關(guān)關(guān)系分析是從大量數(shù)據(jù)中通過(guò)頻繁模式的挖掘,發(fā)現(xiàn)事物之間有趣的關(guān)聯(lián)和相關(guān)聯(lián)系,然而該分析方法通常面臨數(shù)據(jù)量不足的問(wèn)題。
在大數(shù)據(jù)時(shí)代,由于已經(jīng)獲取到了大量的數(shù)據(jù),建立在相關(guān)關(guān)系分析法上面的預(yù)測(cè)成為大數(shù)據(jù)的核心。如果A事件和B事件經(jīng)常一起發(fā)生,那么當(dāng)B發(fā)生時(shí),我們就可以預(yù)測(cè)A也發(fā)生了,至于為什么會(huì)是這樣,在某些應(yīng)用上,已經(jīng)沒(méi)那么重要了?!景咐课譅柆敚赫?qǐng)把蛋撻與颶風(fēng)用品擺在一起2.要相關(guān),不要因果大數(shù)據(jù)帶來(lái)的思維方式變革
對(duì)于采用“小數(shù)據(jù)”而言,由于收集的信息量比較少,必須確保記錄下來(lái)的數(shù)據(jù)盡量精確,并要求計(jì)算模型和運(yùn)算也非常精確,因?yàn)椤安钪晾灞闶еЮ铩?。然而在大?shù)據(jù)的“全樣本時(shí)代”,有多少偏差就是多少偏差而不會(huì)被放大。谷歌公司的人工智能專家彼得.諾維格(PeterNorvig)說(shuō)過(guò):“大數(shù)據(jù)基礎(chǔ)上的簡(jiǎn)單算法比小數(shù)據(jù)基礎(chǔ)上的復(fù)雜算法更加有效?!币虼丝焖佾@得一個(gè)大概的輪廓和發(fā)展脈絡(luò),要比嚴(yán)格的精確性重要得多?!景咐柯槭±砉W(xué)院的通貨膨脹率預(yù)測(cè)3.要效率,允許不精確大數(shù)據(jù)處理技術(shù)基礎(chǔ)1.4大數(shù)據(jù)處理的主要環(huán)節(jié)大數(shù)據(jù)的技術(shù)支撐流行的大數(shù)據(jù)技術(shù)1.4.1大數(shù)據(jù)處理的主要環(huán)節(jié)1.數(shù)據(jù)采集數(shù)據(jù)采集又稱為數(shù)據(jù)獲取,是指從現(xiàn)實(shí)世界系統(tǒng)中采集信息,并進(jìn)行計(jì)量和記錄的過(guò)程。數(shù)據(jù)的來(lái)源可能是傳感器、互聯(lián)網(wǎng)、系統(tǒng)運(yùn)行的日志文件等,也可能是人類生活和生產(chǎn)活動(dòng)所產(chǎn)生的各種類型的數(shù)據(jù)。在數(shù)據(jù)規(guī)模不斷擴(kuò)大的情況下,運(yùn)用數(shù)據(jù)采集自動(dòng)化工具,從外部系統(tǒng)、互聯(lián)網(wǎng)和物聯(lián)網(wǎng)等自動(dòng)獲取、傳輸和記錄數(shù)據(jù)已經(jīng)成為必要的技術(shù)手段。1.4.1大數(shù)據(jù)處理的主要環(huán)節(jié)
2.數(shù)據(jù)預(yù)處理采集的數(shù)據(jù)可能包含噪聲、缺失值、不一致性和冗余等問(wèn)題,數(shù)據(jù)預(yù)處理的目的就是要提高數(shù)據(jù)的質(zhì)量。通過(guò)數(shù)據(jù)預(yù)處理工作,可以使殘缺的數(shù)據(jù)完整,并將錯(cuò)誤的數(shù)據(jù)糾正、多余的數(shù)據(jù)去除,進(jìn)而將所需的數(shù)據(jù)挑選出來(lái),并且進(jìn)行數(shù)據(jù)集成。數(shù)據(jù)預(yù)處理有多種方法,如:數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)變換,數(shù)據(jù)歸納等。1.4.1大數(shù)據(jù)處理的主要環(huán)節(jié)
3.大數(shù)據(jù)的存儲(chǔ)與管理目前,“分布式存儲(chǔ)系統(tǒng)”是大數(shù)據(jù)存儲(chǔ)的主要技術(shù)手段,例如,分布式文件系統(tǒng)、集群文件系統(tǒng)和并行文件系統(tǒng)等。
云存儲(chǔ)也是大數(shù)據(jù)存儲(chǔ)常用的技術(shù)方法,它通過(guò)集群應(yīng)用、網(wǎng)格技術(shù)或分布式文件系統(tǒng)等,將網(wǎng)絡(luò)中各種不同的存儲(chǔ)設(shè)備通過(guò)應(yīng)用軟件集合起來(lái)協(xié)同工作,共同對(duì)外提供數(shù)據(jù)存儲(chǔ)和業(yè)務(wù)訪問(wèn)功能的一個(gè)系統(tǒng)。1.4.1大數(shù)據(jù)處理的主要環(huán)節(jié)分布式文件系統(tǒng)示意圖課后學(xué)習(xí)分布式文件系統(tǒng)如何提高數(shù)據(jù)存儲(chǔ)的可靠性?1.4.1大數(shù)據(jù)處理的主要環(huán)節(jié)4.大數(shù)據(jù)分析與挖掘數(shù)據(jù)信息知識(shí)智慧過(guò)去未來(lái)“分析”通常指用傳統(tǒng)的統(tǒng)計(jì)學(xué)方法,對(duì)數(shù)據(jù)的特征進(jìn)行分析,如:統(tǒng)計(jì)特征分析、數(shù)據(jù)分布特性分析和回歸分析等。
而“挖掘”通常指的是用人工智能方法,挖掘大數(shù)據(jù)中所蘊(yùn)含的知識(shí),如:聚類、分類和關(guān)聯(lián)規(guī)則挖掘等。
知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘(KDD)的過(guò)程可以用一個(gè)金字塔形形象地進(jìn)行說(shuō)明,如右圖所示。知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘過(guò)程1.4.2大數(shù)據(jù)的技術(shù)支撐大數(shù)據(jù)技術(shù)發(fā)展的主要技術(shù)支撐來(lái)自于存儲(chǔ)成本的下降、計(jì)算速度的提高和人工智能理論與技術(shù)的發(fā)展,而云計(jì)算和分布式系統(tǒng)、人工智能、物聯(lián)網(wǎng)、硬件性價(jià)比的提高以及軟件技術(shù)的進(jìn)步推動(dòng)了大數(shù)據(jù)技術(shù)的發(fā)展。如右圖是大數(shù)據(jù)的三大支撐技術(shù)之間關(guān)系的示意圖。大數(shù)據(jù)的支撐技術(shù)1.4.2大數(shù)據(jù)的技術(shù)支撐
1.云計(jì)算的支撐作用
云計(jì)算提供了云存儲(chǔ)中心和分布式處理,一方面降低了存儲(chǔ)成本,另一方面提供了強(qiáng)大的計(jì)算能力。沒(méi)有云計(jì)算,就不會(huì)有大數(shù)據(jù)的被分析和利用。
2.人工智能與大數(shù)據(jù)一方面,數(shù)據(jù)及對(duì)數(shù)據(jù)的分析,客觀上支撐了一大類人工智能的發(fā)展;另一方面,人工智能使得機(jī)器擁有理解數(shù)據(jù)的能力。
3.物聯(lián)網(wǎng)與大數(shù)據(jù)
物聯(lián)網(wǎng)為大數(shù)據(jù)技術(shù)的發(fā)展提供了海量的數(shù)據(jù)來(lái)源和廣泛的應(yīng)用平臺(tái);而大數(shù)據(jù)技術(shù)的發(fā)展,促進(jìn)了物聯(lián)網(wǎng)系統(tǒng)在更多領(lǐng)域的應(yīng)用,并提高了其應(yīng)用的效果。1.4.3目前流行的大數(shù)據(jù)技術(shù)大數(shù)據(jù)時(shí)代,數(shù)據(jù)的存儲(chǔ)和處理由“集中式”向“分布式”演進(jìn)。2003~2006年,Google發(fā)表了四篇文章,分別是關(guān)于分布式文件系統(tǒng)(GFS),分布式計(jì)算框架(MapReduce),大數(shù)據(jù)管理(BigTable)和分布式資源管理(Chubby),至此奠定了分布式計(jì)算發(fā)展的基礎(chǔ)。在大數(shù)據(jù)處理技術(shù)中,“分布式存儲(chǔ)”和“分布式計(jì)算”框架最為重要也是最基礎(chǔ)的技術(shù)支撐,所謂“框架”是一組負(fù)責(zé)對(duì)系統(tǒng)中的數(shù)據(jù)進(jìn)行操作的“計(jì)算引擎和組件”。1.4.3目前流行的大數(shù)據(jù)技術(shù)Hadoop和Spark是目前最著名的兩大主流大數(shù)據(jù)處理框架。Hadoop生態(tài)系統(tǒng)示意圖Hadoop被公認(rèn)為行業(yè)大數(shù)據(jù)標(biāo)準(zhǔn)開源軟件,通常運(yùn)行在Linux平臺(tái)上。幾乎所有主流廠商都圍繞Hadoop提供開發(fā)工具和技術(shù)服務(wù)。國(guó)內(nèi)采用Hadoop的公司主要有百度、淘寶、網(wǎng)易、華為、中國(guó)移動(dòng)等。1.4.3目前流行的大數(shù)據(jù)技術(shù)ApacheSpark是UCBerkeleyAMPLab(加州大學(xué)伯克利分校的AMP實(shí)驗(yàn)室)所開源的類似于MapReduce的通用大數(shù)據(jù)計(jì)算框架,Spark不同于MapReduce的是中間結(jié)果可以保存在內(nèi)存中,而不再需要頻繁讀寫HDFS(HadoopDistributedFileSystem),因此Spark能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的MapReduce的算法。當(dāng)前,Hadoop與Spark兩個(gè)大數(shù)據(jù)計(jì)算框架的結(jié)合是一種被廣泛應(yīng)用的大數(shù)據(jù)處理架構(gòu)。
分布式存儲(chǔ)1.分布式存儲(chǔ)分布式存儲(chǔ)是相對(duì)于集中式存儲(chǔ)而言的。當(dāng)前,隨著大數(shù)據(jù)時(shí)代的到來(lái)和IT技術(shù)的飛速發(fā)展,各種非結(jié)構(gòu)化數(shù)據(jù)(如圖片、視頻、音頻等)呈幾何數(shù)級(jí)增長(zhǎng),傳統(tǒng)的集中式存儲(chǔ)模式已經(jīng)無(wú)法滿足其容量、性能和安全性的需求。傳統(tǒng)的網(wǎng)絡(luò)存儲(chǔ)系統(tǒng)采用集中的存儲(chǔ)服務(wù)器存放所有數(shù)據(jù),存儲(chǔ)服務(wù)器成為系統(tǒng)性能的瓶頸,也是可靠性和安全性的焦點(diǎn),不能滿足大規(guī)模存儲(chǔ)應(yīng)用的需要。分布式網(wǎng)絡(luò)存儲(chǔ)系統(tǒng)采用可擴(kuò)展的系統(tǒng)結(jié)構(gòu),利用多臺(tái)存儲(chǔ)服務(wù)器分擔(dān)存儲(chǔ)負(fù)荷,利用位置服務(wù)器定位存儲(chǔ)信息,它不但提高了系統(tǒng)的可靠性、可用性和存取效率,還易于擴(kuò)展。流行的開源分布式數(shù)據(jù)庫(kù)系統(tǒng)名
稱數(shù)據(jù)存儲(chǔ)方式速
度事務(wù)支持主要應(yīng)用場(chǎng)景HBase表、列寫快、讀慢支持持久存儲(chǔ)MongoDB文檔快只支持單文檔事務(wù)文檔存儲(chǔ)PostgreDB表快支持多媒體數(shù)據(jù)Redis鍵-值很快支持緩存Mysql表快支持Web系統(tǒng)、日志、嵌入式系統(tǒng)表1.4流行的開源分布式數(shù)據(jù)庫(kù)系統(tǒng)分布式計(jì)算框架1.分布式計(jì)算框架
目前流行的大數(shù)據(jù)計(jì)算框架包括MapReduce、Storm和Spark等,以下分別對(duì)這三種計(jì)算框架進(jìn)行簡(jiǎn)要的介紹。(1)MapReduceHadoop的MapReduce屬于“批量計(jì)算”框架。所謂“批量計(jì)算”是指對(duì)存儲(chǔ)在文件系統(tǒng)中的數(shù)據(jù)集進(jìn)行批量處理的方式,它適用于處理存儲(chǔ)在文件系統(tǒng)中的大容量靜態(tài)數(shù)據(jù)集,但每個(gè)任務(wù)需要多次執(zhí)行讀取和寫入操作,因此不適用于實(shí)時(shí)性要求較高的場(chǎng)合。1.4.3目前流行的大數(shù)據(jù)技術(shù)(2)StormStorm是由Twitter公司開源的“實(shí)時(shí)流式計(jì)算”框架?!皩?shí)時(shí)流式計(jì)算”方式是基于內(nèi)存的計(jì)算模式,它無(wú)須針對(duì)整個(gè)數(shù)據(jù)集進(jìn)行操作,而是對(duì)通過(guò)系統(tǒng)傳輸?shù)拿總€(gè)數(shù)據(jù)項(xiàng)執(zhí)行操作,可以對(duì)隨時(shí)進(jìn)入系統(tǒng)的數(shù)據(jù)進(jìn)行計(jì)算,因此適用于時(shí)間性要求較高的場(chǎng)合。其他著名的實(shí)時(shí)流計(jì)算框架還有Facebook公司的Puma和Yahoo!公司的S4(SimpleScalableStreamingSystem)等。(3)SparkSpark屬于前兩種框架形式的集合體,是一種混合式的計(jì)算框架。它既有自帶的“實(shí)時(shí)流式計(jì)算”引擎,也可以和Hadoop集成,代替其中的MapReduce,Spark也可以單獨(dú)拿出來(lái)部署集群,但是還得借助HDFS等分布式存儲(chǔ)系統(tǒng)作為其基礎(chǔ)支撐架構(gòu)。兩種計(jì)算方式的對(duì)比
批量計(jì)算流式計(jì)算數(shù)據(jù)到達(dá)計(jì)算開始前數(shù)據(jù)已準(zhǔn)備好計(jì)算進(jìn)行中數(shù)據(jù)持續(xù)到來(lái)計(jì)算周期計(jì)算完成后會(huì)結(jié)束計(jì)算一般會(huì)作為服務(wù)持續(xù)運(yùn)行使用場(chǎng)景時(shí)效性要求低的場(chǎng)景時(shí)效性要求高的場(chǎng)景表1.5批量計(jì)算和流式計(jì)算的特性比較批量計(jì)算”和“實(shí)時(shí)流式計(jì)算”對(duì)比示意圖兩種計(jì)算方式的對(duì)比大數(shù)據(jù)面臨的技術(shù)挑戰(zhàn)1.5數(shù)據(jù)存儲(chǔ)和管理的挑戰(zhàn)計(jì)算速度的挑戰(zhàn)數(shù)據(jù)安全的挑戰(zhàn)
1.5.1數(shù)據(jù)存儲(chǔ)和管理的挑戰(zhàn)大數(shù)據(jù)的體量非常大,雖然一些新的數(shù)據(jù)存儲(chǔ)技術(shù)已經(jīng)被開發(fā)應(yīng)用,但面對(duì)數(shù)據(jù)量大約每?jī)赡暝鲩L(zhǎng)一倍的速度,如何跟上數(shù)據(jù)增長(zhǎng)的步伐并找到有效存儲(chǔ)數(shù)據(jù)的方法,仍然是許多企業(yè)面臨的嚴(yán)峻挑戰(zhàn)。但是僅僅存儲(chǔ)數(shù)據(jù)是不夠的,數(shù)據(jù)必須是有價(jià)值的,這取決于對(duì)數(shù)據(jù)的管理和分析。干凈的數(shù)據(jù),以及以支持有意義的分析的方式組織的數(shù)據(jù),需要大量的工作。數(shù)據(jù)科學(xué)家通常需要花50%到80%的時(shí)間來(lái)管理和準(zhǔn)備數(shù)據(jù),然后才可以實(shí)際使用。1.5.2計(jì)算速度的挑戰(zhàn)大數(shù)據(jù)技術(shù)正在快速變化,跟上大數(shù)據(jù)技術(shù)的發(fā)展是一個(gè)持續(xù)不斷的挑戰(zhàn)。海量數(shù)據(jù)從原始數(shù)據(jù)源到產(chǎn)生價(jià)值,期間會(huì)經(jīng)過(guò)存儲(chǔ)、清洗、挖掘、分析等多個(gè)環(huán)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030年手賬裝飾膠帶行業(yè)深度調(diào)研及發(fā)展戰(zhàn)略咨詢報(bào)告
- 大傾角有機(jī)工質(zhì)分液冷凝流動(dòng)換熱特性及氣液分離特性研究
- 水通道蛋白MdTIP1.3和MdTIP1.4參與蘋果砧木M26抗旱分子機(jī)理研究
- 公共資源交易平臺(tái)運(yùn)行優(yōu)化研究
- 山東黃金ESG實(shí)踐對(duì)其企業(yè)績(jī)效的影響研究
- 新型的自組裝材料和空穴傳輸材料調(diào)節(jié)劑應(yīng)用于鈣鈦礦太陽(yáng)能電池
- 群舞《開花調(diào)》人物性格塑造的二度創(chuàng)作研究
- 環(huán)保費(fèi)改稅的大氣污染減排效應(yīng)研究
- 基于輕量化CNN的滾動(dòng)軸承故障診斷與壽命預(yù)測(cè)
- 多核銅(Ⅱ)、鋅(Ⅱ)、錳(Ⅲ)、鈷(Ⅲ)和鎘(Ⅱ)Salamo型配合物構(gòu)筑、性質(zhì)及理論研究
- 濰坊市人民醫(yī)院招聘真題
- 銷售人員薪資提成及獎(jiǎng)勵(lì)制度
- 2017年江蘇南京中考滿分作文《無(wú)情歲月有味詩(shī)》5
- 2023年宏觀經(jīng)濟(jì)學(xué)考點(diǎn)難點(diǎn)
- 2024-2030年中國(guó)智慧水務(wù)行業(yè)應(yīng)用需求分析發(fā)展規(guī)劃研究報(bào)告
- 黑龍江申論真題2021年(鄉(xiāng)鎮(zhèn))
- 山體排險(xiǎn)合同模板
- 醫(yī)保專(兼)職管理人員的勞動(dòng)合同(2篇)
- 特殊感染手術(shù)的配合與術(shù)后處理課件
- 檢驗(yàn)科生物安全工作總結(jié)
- 《金屬與石材幕墻工程技術(shù)規(guī)范》jgj1332001-2021112401384
評(píng)論
0/150
提交評(píng)論