大數(shù)據(jù)分布式計算框架簡介_第1頁
大數(shù)據(jù)分布式計算框架簡介_第2頁
大數(shù)據(jù)分布式計算框架簡介_第3頁
大數(shù)據(jù)分布式計算框架簡介_第4頁
大數(shù)據(jù)分布式計算框架簡介_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)分布式計算框架簡介5/21/20231各種名詞云平臺數(shù)據(jù)中心集群超級計算機分布式計算并行計算云計算集群計算高性能計算超級計算網(wǎng)格計算分布式系統(tǒng)并行系統(tǒng)5/21/20232不一定準(zhǔn)確的理解互聯(lián)網(wǎng)連接的計算機低速互聯(lián)網(wǎng)絡(luò),通用硬件,分布分散服務(wù)器的集合高速互聯(lián)網(wǎng)絡(luò),通用硬件,分布集中超級計算機超高速互聯(lián)網(wǎng)絡(luò),專門定制的硬件,分布集中云平臺數(shù)據(jù)中心集群超級計算機分布式計算并行計算云計算集群計算高性能計算超級計算網(wǎng)格計算分布式系統(tǒng)并行系統(tǒng)以上名詞都可以對應(yīng)到左邊三類系統(tǒng)上5/21/20233各種名詞在線處理,離線處理流處理(流式處理),批處理(批量處理)實時處理,流數(shù)據(jù),批量數(shù)據(jù)5/21/20234數(shù)據(jù)存儲技術(shù)數(shù)據(jù)處理技術(shù)數(shù)據(jù)存儲通信統(tǒng)計分析機器學(xué)習(xí)Hadoop起源DougCutting

LuceneHadoop這個名字不是一個縮寫,而是一個虛構(gòu)的名字,是Doug的孩子給一個棕黃色的大象玩具的命名GoogleLab的三篇論文GFS,MapReduce,BigTable——HDFS,MapReduce,HBase商業(yè)公司Cloudera,MapR,Hortonworks開發(fā)語言Java5/21/20235Hadoop5/21/20236Hadoop5/21/20237HadoopHadoop框架中最核心設(shè)計是HDFS和MapReduce。HDFS,即為分布式文件系統(tǒng),提供了對大規(guī)模數(shù)據(jù)的存儲;MapReduce則提供了對數(shù)據(jù)的分布式計算。5/21/202385/21/20239MahoutMahout是Apache旗下的一個開源項目,是一個很強大的數(shù)據(jù)挖掘工具及分布式機器學(xué)習(xí)算法的集合,提供一些可擴(kuò)展的機器學(xué)習(xí)領(lǐng)域經(jīng)典算法的實現(xiàn),旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序。Mahout包含的算法實現(xiàn)主要有:推薦(Recommendation),聚類(Clustering),分類(Classification),頻繁子項挖掘等。Mahout用MapReduce實現(xiàn)了部分?jǐn)?shù)據(jù)挖掘算法,解決了并行挖掘的問題。這里說的“解決”是一個初步的概念,很多算法由于各種原因是無法用map-reduce并行實現(xiàn)的。5/21/202310SparkBerkeleyDataAnalyticsStack(BDAS)BDAS是UCBerkeleyAMPLab開源的通用并行計算框架開發(fā)語言ScalaScala是一種函數(shù)式面向?qū)ο笳Z言,它融匯了許多前所未有的特性,而同時又運行于JVM之上。Scala運行于Java平臺(Java虛擬機),并兼容現(xiàn)有的Java程序。它也能運行于JavaME,CLDC(JavaPlatform,MicroEditionConnectedLimitedDeviceConfiguration)上。還有另一.NET平臺的實現(xiàn),不過該版本更新有些滯后。商業(yè)公司Databricks5/21/202311Spark5/21/202312MLBaseMLBase是Spark生態(tài)圈的一部分,專注于機器學(xué)習(xí),包含三個組件:MLlib、MLI、MLOptimizer。MLlib是Spark的分布式機器學(xué)習(xí)庫。MLI提供特征提取和算法開發(fā)的API,引入更高層次的機器學(xué)習(xí)編程抽象。MLOptimizer致力于實現(xiàn)機器學(xué)習(xí)流水線建立任務(wù)的自動化。優(yōu)化器解決了對包含在MLI和MLlib中的特征提取和機器學(xué)習(xí)算法的搜索問題。目前,MLOptimizer正在積極的開發(fā)過程中。5/21/202313SparkRSparkR是AMPLab發(fā)布的一個R開發(fā)包,為ApacheSpark提供了輕量的前端。SparkR提供了Spark中彈性分布式數(shù)據(jù)集(RDD)的API,用戶可以在集群上通過Rshell交互性的運行job。SparkR應(yīng)該被看作是R版Spark的輕量級前端,這意味著它不會擁有像Scala或Java那樣廣泛的API,但它還是能夠在R里運行Spark任務(wù)和操作數(shù)據(jù)。除了常見的RDD函數(shù)式算子reduce、reduceByKey、groupByKey和collect之外,SparkR也支持利用lapplyWithPartition對每個RDD的分區(qū)進(jìn)行操作。AMPLab團(tuán)隊已經(jīng)表現(xiàn)出了今后在SparkR中集成Spark

MLlib機器學(xué)習(xí)類庫的濃厚興趣,這樣一來,算法可以無縫地并行運行而無需特別手動設(shè)定哪一部分的算法可以并行運行5/21/202314Storm起源Storm是Twitter開源的一個的實時數(shù)據(jù)處理框架,它原來是由BackType開發(fā),后BackType被Twitter收購,將Storm作為Twitter的實時數(shù)據(jù)分析系統(tǒng)。開發(fā)語言Clojure。Clojure是Lisp語言的一種現(xiàn)代方言。類似于Lisp,Clojure支持一種功能性編程風(fēng)格,但Clojure還引入了一些特性來簡化多線程編程(一種對創(chuàng)建Storm很有用的特性)。Clojure是一種基于虛擬機(VM)的語言,在Java虛擬機上運行。5/21/202315St材or暗mDA黎G計算批模型Tu背pl置e:數(shù)炭據(jù)處亡理單貢元,舟一個Tu青pl只e由多授個Fi呆el湊d組成St素re消am:持其續(xù)的Tu沃pl全e流Sp頑ou雞t:從外房誠部獲看取數(shù)腿據(jù),侄輸出夸原始Tu蜻pl稠eBo障lt:接收Sp緒ou帝t/禮Bo諷lt輸出秧的Tu權(quán)pl塑e,處男理,吊輸出乒新Tu羞pl母e5/運18良/2捏02壩316一個丸普通堆的St震or哲m拓?fù)涠芙Y(jié)構(gòu)張的概凱念性景架構(gòu)Ma主pR憶ed熟uc仔e功能仆的簡魄單St蒜or流m拓?fù)涞亟Y(jié)構(gòu)Gr震ap瞞hL執(zhí)ab起源Gr躲ap廟hL繪ab是一什個基療于圖喚像處劈燕理模訓(xùn)型的溫開源蠢圖計救算框師架,河由卡內(nèi)許基梅券隆大提學(xué)的Se誘le盼ct實驗塊室在20革10年提畢出的兵。20露15年1月8日Gr化ap情hL奮ab籌得18革50萬美踏金,討并改廟名為Da研to,以丙顯示遮在大臥數(shù)據(jù)用時代勒,該宵計算當(dāng)框架缺不僅握可以叉建立治圖表櫻模型筐,還危能夠澇分析拍和處朋理數(shù)疾據(jù)。Gr蘋ap里hL無ab提供況了一僅個完晴整的處平臺糾,讓籮機構(gòu)病能使洲用可姨擴(kuò)展菌的機孩器學(xué)昂習(xí)系才統(tǒng)進(jìn)副行大毅數(shù)據(jù)葛分析旋,該收平臺材客戶差包括Zi籌ll馬ow、Ad者ob差e、Zy本ng即a、Pa坑nd酒or授a等,膜它們垮從其嘆它應(yīng)堅用程月序中誦抓取娛數(shù)據(jù)掠,通密過推襖薦系升統(tǒng)、蒼情感油及社杰交網(wǎng)翅絡(luò)分養(yǎng)析系扁統(tǒng)等參將大采數(shù)據(jù)姐理念由轉(zhuǎn)換王為可清以使莫用的機預(yù)測壺應(yīng)用椅程序蚊。開發(fā)時語言C+混+5/頸18稱/2閣02耽317Gr泡ap朵hL辭ab5/結(jié)18瞞/2頂02肺318Pe的tu泡um起源卡內(nèi)雄基梅繁隆大元學(xué)IC住ML僚2吸01鄉(xiāng)豐4程序此主席棚邢勿波開發(fā)暈語言C+堅+5/炎18延/2鞏02涼319Pe朱tu良umEr舊ic霧X某in需g指出路,一課方面區(qū),很蓬多機器畫學(xué)習(xí)概學(xué)者由于吹本身蜓訓(xùn)練倦局限心或者市習(xí)慣足思維眼的緣號故,麗對系雕統(tǒng)知叛識通到常并炎不了滴解,診他們嫩看到煙一百仍臺機醬器跟建一臺統(tǒng)機器制的差王別只盯不過孔乘了這一百株,中陰間的盾代價悔或者研機器祝的失失效幾怠率他話們可花以都步不太難考慮忌,所盛以他播們的終算法含主要巷是針傳對數(shù)學(xué)政上的填正確蘿性或者雪是迭代濾算法虹迭代寸次數(shù)前的減襲少性,但遷是他互們不床會鉆淚研算癥法到障底在凈一個告真實利的機濕器群蹤蝶上怎達(dá)么運抽作。另一叼方面軟,系統(tǒng)剪工程潔師對機亮器學(xué)禿習(xí)或動者統(tǒng)絲式計學(xué)揚習(xí)原采理、觀技術(shù)坊并不研見得扶非常溉精通現(xiàn),他錦們所潤需要跳實現(xiàn)境的目層標(biāo)是猴盡可委能實寬現(xiàn)極爭高的飲迭代蔥輸出沒,修護(hù)正由潑于機重器造何成的街一些勇?lián)p耗負(fù),所次以他芝們會悲發(fā)展箭一些非常山可靠楊、非款常高質(zhì)通的技掀術(shù),您而忽嶄視了頸機器可學(xué)習(xí)獄的特永點。5/蛇18南/2文02價320Pe轉(zhuǎn)tu勵um這里赴用容兩錯性唱對機本器學(xué)濱習(xí)程廟序與幟普通扶程序貍的區(qū)節(jié)別做骨一個虜比較杜。我們丈對一肢組數(shù)袋進(jìn)行排序,這衡個過倦程是餐不能凡容錯喝的,滴必須夕精密強到按侍步驟孩進(jìn)行舉實現(xiàn)播,一潤步都筑不能吳錯。敵這是鎖傳統(tǒng)仰計算搞機程煉序的買普遍讓特點夾。機器齡學(xué)習(xí)炭不是也精密泡實現(xiàn)路設(shè)定程好的架計劃踢,而屈是通占常實挎現(xiàn)一峽個數(shù)學(xué)傘優(yōu)化問題惜。這與如同粘爬山針,可堡以從聚這條駕路爬貍,也趙可以噴從那層條路箏爬,斧所以跪有一貪種容宰錯性龍,有圣容錯說性就值給了憶新的寨機會失。走門錯了手以后立也不確一定告要走銷回去級重走快。5/活18董/2在02暫321Pe劑tu女um設(shè)計皇可以昆有兩序種極列端,基一端爹是同步傷協(xié)議,Ha怕do疊op和Sp偶ar減k都是段這樣塘做的冠,這辱在數(shù)短學(xué)上褲可證若明是湖對的高,但瓦也會雜造成棒效率周的損臥失。另一陣端是完全慶不同詢步,這凈對程靜序的攏收斂家性和鉛正確置性沒戴有任此何保藥障。烘在這浪兩端拿往往絹可以廚做一俯個權(quán)意衡。Pe鵝tu爐um采取始中間羨路線惠,使斑用一膊種半同邀步的技拜術(shù),奸讓機期器在勞有限隆的窗探口里落做局士部運伸算,害用參森數(shù)值筑的局貿(mào)部版傾本做腥運算聯(lián),不烈與其帖他節(jié)央點通箱信。榮當(dāng)這盞個窗彩口被曾突破糕的時躲候,串就必變須停如下來歐等待挎同步撤。每腳一個梁線程雨到達(dá)逗窗口辮邊界輔的時胃間是禾隨機貧的,側(cè)所以礎(chǔ)最后貌結(jié)果啦是所已有線土程都惡可以叨在最紗大程絡(luò)度上闊使用驗窗口鎖做運芹算。5/犧18珠/2會02時322Pe政tu芬um對數(shù)據(jù)和模型的并貪行計液算進(jìn)亭行區(qū)谷別對涂待對于僅系統(tǒng)鹿工程猴師,肆數(shù)據(jù)宰和模賺型并宏沒有耐什么嶺區(qū)別刑,它灑都是竹在內(nèi)取存中汽的一西些數(shù)末字而隙已當(dāng)數(shù)貓據(jù)被坑并行渣時,倒它們繁之間音是不騙相關(guān)史的,杯所以遭不需辮要在兔它們巴之間趣進(jìn)行膊協(xié)調(diào)財;而分當(dāng)模醉型被鉛并行糊的時蓋候,雜中間盲結(jié)果扶實際恩是相肆關(guān)的于,所食以不震在過河程中臭進(jìn)行烘協(xié)調(diào)填,最推后結(jié)孔果就能會出款錯。這種紐奉情況黨下我求們會醬發(fā)現(xiàn)稅,對擴(kuò)數(shù)據(jù)俗和模搏型的師并行懶需要粥做不唐同的尾通訊治和系推統(tǒng)設(shè)榴計。5/鬧18妻/2正02掃323PD渣Mi致ne具r中國耳科學(xué)侍院計廊算技冶術(shù)研并究所并開發(fā)囑了基于Ha忽do欲op的并宇行分側(cè)布式謙數(shù)據(jù)岡挖掘飄平臺PD硬Mi極ne獻(xiàn)r,這查是一載個集孤成各綱種并歐行算領(lǐng)法的揭數(shù)據(jù)卻挖掘改工具獎平臺述,包憲括數(shù)據(jù)黑預(yù)處揭理(ET跡L)、黃數(shù)據(jù)避挖掘參算法、結(jié)果紛展示等功采能。并行ET娘L(fēng)算法插達(dá)到型了線柄性加現(xiàn)速比杜;可慈實現(xiàn)TB級海量街?jǐn)?shù)據(jù)酸的預(yù)梨處理扛及之匙后的魯并行盤挖掘叢分析湯處理授,且秤挖掘膚算法傍隨節(jié)仇點數(shù)枕線性啟增加狡,加存速比接隨之例增加肺。其眾中的井并行狡計算傷模式錯不僅可包括苗算法脹之間

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論