![大數(shù)據(jù)與Hadoop培訓課件_第1頁](http://file4.renrendoc.com/view/fe92a756a92af0d98f9a3198fa75d4b7/fe92a756a92af0d98f9a3198fa75d4b71.gif)
![大數(shù)據(jù)與Hadoop培訓課件_第2頁](http://file4.renrendoc.com/view/fe92a756a92af0d98f9a3198fa75d4b7/fe92a756a92af0d98f9a3198fa75d4b72.gif)
![大數(shù)據(jù)與Hadoop培訓課件_第3頁](http://file4.renrendoc.com/view/fe92a756a92af0d98f9a3198fa75d4b7/fe92a756a92af0d98f9a3198fa75d4b73.gif)
![大數(shù)據(jù)與Hadoop培訓課件_第4頁](http://file4.renrendoc.com/view/fe92a756a92af0d98f9a3198fa75d4b7/fe92a756a92af0d98f9a3198fa75d4b74.gif)
![大數(shù)據(jù)與Hadoop培訓課件_第5頁](http://file4.renrendoc.com/view/fe92a756a92af0d98f9a3198fa75d4b7/fe92a756a92af0d98f9a3198fa75d4b75.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
大數(shù)據(jù)與Hadoop演講者:電話:郵箱:部門:災備服務部大數(shù)據(jù)與Hadoop演講者:1什么是大數(shù)據(jù)?什么是Hadoop?理解大數(shù)據(jù)理解Hadoop基于Hadoop的大數(shù)據(jù)產品分析基于Hadoop的大數(shù)據(jù)應用分析議題什么是大數(shù)據(jù)?議題2Wikipedia:Bigdataisthetermforacollectionof
datasets
solargeandcomplexthatitbecomesdifficulttoprocessusingon-handdatabasemanagementtoolsortraditionaldataprocessingapplications.Gartner:Bigdataishighvolume,highvelocity,and/orhighvarietyinformationassetsthatrequirenewformsofprocessingtoenableenhanceddecisionmaking,insightdiscoveryandprocessoptimization。Forrester:“Bigdata”as“techniquesandtechnologiesthatmakehandlingdataatextremescaleaffordable”。BI&BigDataBusinessIntelligenceuses
descriptivestatistics
withdatawithhighinformationdensitytomeasurethings,detecttrendsetc.Bigdatauses
inductivestatistics
andconceptsfrom
nonlinearsystemidentification
toinferlaws(regressions,nonlinearrelationships,andcausaleffects)fromlargedatasets
torevealrelationships,dependencies,andtoperformpredictionsofoutcomesandbehaviors。什么是大數(shù)據(jù)Wikipedia:Bigdataistheterm3什么是大數(shù)據(jù)?什么是Hadoop?理解大數(shù)據(jù)理解Hadoop基于Hadoop的大數(shù)據(jù)產品分析基于Hadoop的大數(shù)據(jù)應用分析議題什么是大數(shù)據(jù)?議題4Hadoop是一個分布式系統(tǒng)基礎架構,由Apache基金會開發(fā)。用戶可以在不了解分布式底層細節(jié)的情況下,開發(fā)分布式程序。充分利用集群的威力高速運算和存儲。ApacheHadoop軟件庫是一個框架,允許使用簡單編程模型進行跨計算機集群的分布式的大數(shù)據(jù)集的處理。它被設計成可以從單服務器擴展到幾千臺服務器,每臺服務器都有自己的計算和存儲。不是依賴于硬件來實現(xiàn)高可用性,Hadoop庫被設計成在應用層來檢測與處理故障,以在計算機集群上交付高可用服務,而底層的每臺計算機是很容易出現(xiàn)故障的。Hadoop是項目的總稱,主要是由分布式存儲(HDFS),分布式計算(MapReduce,目前的稱為YARN,即mapReduce2.0)組成。Hadoop程序目前只能運行在Linux系統(tǒng)上,Windows上運行需要安裝其他插件。什么是HadoopDougCuttingYahooHadoop集群Hadoop是一個分布式系統(tǒng)基礎架構,由Apache基金會5什么是大數(shù)據(jù)?什么是Hadoop?理解大數(shù)據(jù)理解Hadoop基于Hadoop的大數(shù)據(jù)產品分析基于Hadoop的大數(shù)據(jù)應用分析議題什么是大數(shù)據(jù)?議題6facebook社交網絡淘寶、ebuy電子商務微博、Apps移動互聯(lián)21世紀是數(shù)據(jù)信息大發(fā)展的時代,移動互聯(lián)、社交網絡、電子商務等極大拓展了互聯(lián)網的邊界和應用范圍,各種數(shù)據(jù)正在迅速膨脹并變大?;ヂ?lián)網(社交、搜索、電商)、移動互聯(lián)網(微博)、物聯(lián)網(傳感器,智慧地球)、車聯(lián)網、GPS、醫(yī)學影像、安全監(jiān)控、金融(銀行、股市、保險)、電信(通話、短信)都在瘋狂產生著數(shù)據(jù)?!按髷?shù)據(jù)”的誕生:半個世紀以來,隨著計算機技術全面融入社會生活,信息爆炸已經積累到了一個開始引發(fā)變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長速度也在加快。信息爆炸的學科如天文學和基因學,創(chuàng)造出了“大數(shù)據(jù)”這個概念。如今,這個概念幾乎應用到了所有人類智力與發(fā)展的領域中。大數(shù)據(jù)時代的背景facebook社交網絡淘寶、ebuy電子商務微博、Apps7GBTBPBEBZB想駕馭這龐大的數(shù)據(jù),我們必須了解大數(shù)據(jù)的特征。地球上至今總共的數(shù)據(jù)量:在2006年,個人用戶才剛剛邁進TB時代,全球一共新產生了約180EB的數(shù)據(jù);在2011年,這個數(shù)字達到了1.8ZB。而有市場研究機構預測:到2020年,整個世界的數(shù)據(jù)總量將會增長44倍,達到35.2ZB(1ZB=10億TB)!1PB
=2^50字節(jié)1EB
=2^60字節(jié)1ZB=2^70字節(jié)大數(shù)據(jù)時代的爆炸增長GBTBPBEBZB想駕馭這龐大的數(shù)據(jù),我們必須了解大數(shù)據(jù)的8“大量化(Volume)、多樣化(Variety)、快速化(Velocity)、價值密度低(Value)”就是“大數(shù)據(jù)”的顯著特征,或者說,只有具備這些特點的數(shù)據(jù),才是大數(shù)據(jù)。VolumeVelocityValueVariety大數(shù)據(jù)的4V特征“大量化(Volume)、多樣化(Variety)、快速化(9大數(shù)據(jù)=海量數(shù)據(jù)+復雜類型的數(shù)據(jù)海量交易數(shù)據(jù):企業(yè)內部的經營交易信息主要包括聯(lián)機交易數(shù)據(jù)和聯(lián)機分析數(shù)據(jù),是結構化的、通過關系數(shù)據(jù)庫進行管理和訪問的靜態(tài)、歷史數(shù)據(jù)。通過這些數(shù)據(jù),我們能了解過去發(fā)生了什么。大數(shù)據(jù)包括:交易數(shù)據(jù)和交互數(shù)據(jù)集在內的所有數(shù)據(jù)集海量交互數(shù)據(jù):源于Facebook、Twitter、LinkedIn及其他來源的社交媒體數(shù)據(jù)構成。它包括了呼叫詳細記錄CDR、設備和傳感器信息、GPS和地理定位映射數(shù)據(jù)、通過管理文件傳輸ManageFileTransfer協(xié)議傳送的海量圖像文件、Web文本和點擊流數(shù)據(jù)、科學信息、電子郵件等等??梢愿嬖V我們未來會發(fā)生什么。海量數(shù)據(jù)處理:大數(shù)據(jù)的涌現(xiàn)已經催生出了設計用于數(shù)據(jù)密集型處理的架構。例如具有開放源碼、在商品硬件群中運行的ApacheHadoop。大數(shù)據(jù)的構成大數(shù)據(jù)=海量數(shù)據(jù)+復雜類型的數(shù)據(jù)海量交易數(shù)據(jù):大數(shù)據(jù)10密不可分的大數(shù)據(jù)與云計算商業(yè)模式驅動應用需求驅動云計算本身也是大數(shù)據(jù)的一種業(yè)務模式大數(shù)據(jù)是落地的云云計算的模式是業(yè)務模式,本質是數(shù)據(jù)處理技術。數(shù)據(jù)是資產,云為數(shù)據(jù)資產提供存儲、訪問和計算。當前云計算更偏重海量存儲和計算,以及提供的云服務,運行云應用,但是缺乏盤活數(shù)據(jù)資產的能力,挖掘價值性信息和預測性分析,為國家、企業(yè)、個人提供決策和服務,是大數(shù)據(jù)核心議題,也是云計算的最終方向。密不可分的大數(shù)據(jù)與云計算商業(yè)模式驅動應用需求驅動云計算本身也11大數(shù)據(jù)不僅僅是“大”多大?至少PB級比大更重要的是數(shù)據(jù)的復雜性,有時甚至大數(shù)據(jù)中的小數(shù)據(jù)如一條微博就具有顛覆性的價值大數(shù)據(jù)不僅僅是“大”多大?比大更重要的是數(shù)據(jù)的復雜性,有時甚12軟件是大數(shù)據(jù)的引擎和數(shù)據(jù)中心(DataCenter)
一樣,軟件是大數(shù)據(jù)的驅動力,軟件改變世界軟件是大數(shù)據(jù)的引擎和數(shù)據(jù)中心(DataCenter)一樣13大數(shù)據(jù)生態(tài):軟件是引擎大數(shù)據(jù)生態(tài):軟件是引擎14大數(shù)據(jù)的應用不僅僅是精準營銷通過用戶行為分析實現(xiàn)精準營銷是大數(shù)據(jù)的典型應用,但是大數(shù)據(jù)在各行各業(yè)特別是公共服務領域具有廣闊的應用前景消費行業(yè)金融服務食品安全醫(yī)療衛(wèi)生軍事交通環(huán)保電子商務氣象大數(shù)據(jù)的應用不僅僅是精準營銷通過用戶行為分析實現(xiàn)精準營銷是大15管理大數(shù)據(jù)“易”理解大數(shù)據(jù)“難”雖然大數(shù)據(jù)是一個重大問題,真正的問題是讓大數(shù)據(jù)更有意義目前大數(shù)據(jù)管理多從架構和并行等方面考慮,解決高并發(fā)數(shù)據(jù)存取的性能要求及數(shù)據(jù)存儲的橫向擴展,但對非結構化數(shù)據(jù)的內容理解仍缺乏實質性的突破和進展,這是實現(xiàn)大數(shù)據(jù)資源化、知識化、普適化的核心非結構化海量信息的智能化處理:自然語言理解、多媒體內容理解、機器學習等管理大數(shù)據(jù)“易”理解大數(shù)據(jù)“難”雖然大數(shù)據(jù)是一個重大問題,真16分析技術:數(shù)據(jù)處理:自然語言處理技術統(tǒng)計和分析:A/Btest;topN排行榜;地域占比;文本情感分析數(shù)據(jù)挖掘:關聯(lián)規(guī)則分析;分類;聚類模型預測:預測模型;機器學習;建模仿真大數(shù)據(jù)技術:數(shù)據(jù)采集:ETL工具數(shù)據(jù)存?。宏P系數(shù)據(jù)庫;NoSQL;SQL等基礎架構支持:云存儲;分布式文件系統(tǒng)等計算結果展現(xiàn):云計算;標簽云;關系圖等存儲結構化數(shù)據(jù):海量數(shù)據(jù)的查詢、統(tǒng)計、更新等操作效率低非結構化數(shù)據(jù)圖片、視頻、word、pdf、ppt等文件存儲不利于檢索、查詢和存儲半結構化數(shù)據(jù)轉換為結構化存儲按照非結構化存儲解決方案:Hadoop(MapReduce技術)流計算(twitter的storm和yahoo!的S4)數(shù)據(jù)采集數(shù)據(jù)儲存數(shù)據(jù)管理數(shù)據(jù)分析與挖掘一些相關技術分析技術:存儲解決方案:數(shù)據(jù)采集數(shù)據(jù)儲存數(shù)據(jù)管理數(shù)據(jù)分析與挖17行業(yè)拓展者,打造大數(shù)據(jù)行業(yè)基石:IBM:IBM大數(shù)據(jù)提供的服務包括數(shù)據(jù)分析,文本分析,藍色云杉(混搭供電合作的網絡平臺);業(yè)務事件處理;IBMMashupCenter的計量,監(jiān)測,和商業(yè)化服務(MMMS)IBM的大數(shù)據(jù)產品組合中的最新系列產品的InfoSpherebigInsights,基于ApacheHadoop。該產品組合包括:打包的ApacheHadoop的軟件和服務,代號是bigInsights核心,用于開始大數(shù)據(jù)分析軟件被稱為bigsheet,軟件目的是幫助從大量數(shù)據(jù)中輕松、簡單、直觀的提取、批注相關信息為金融,風險管理,媒體和娛樂等行業(yè)量身定做的行業(yè)解決方案微軟:2011年1月與惠普(具體而言是HP數(shù)據(jù)庫綜合應用部門)合作目標是開發(fā)了一系列能夠提升生產力和提高決策速度的設備。
EMC:EMC斬獲了紐交所和Nasdaq;大數(shù)據(jù)解決方案已包括40多個產品。Oracle:Oracle大數(shù)據(jù)機與OracleExalogic中間件云服務器、OracleExadata數(shù)據(jù)庫云服務器以及OracleExalytics商務智能云服務器一起組成了甲骨文最廣泛、高度集成化系統(tǒng)產品組合。大數(shù)據(jù)的應用--企業(yè)在投入
行業(yè)拓展者,打造大數(shù)據(jù)行業(yè)基石:IBM:大數(shù)據(jù)的應用--企業(yè)18政府職能變革重視應用大數(shù)據(jù)技術,盤活各地云計算中心資產:把原來大規(guī)模投資產業(yè)園、物聯(lián)網產業(yè)園從政績工程,改造成智慧工程;在安防領域,應用大數(shù)據(jù)技術,提高應急處置能力和安全防范能力;在民生領域,應用大數(shù)據(jù)技術,提升服務能力和運作效率,以及個性化的服務,比如醫(yī)療、衛(wèi)生、教育等部門;解決在金融,電信領域等中數(shù)據(jù)分析的問題:一直得到得極大的重視,但受困于存儲能力和計算能力的限制,只局限在交易數(shù)型數(shù)據(jù)的統(tǒng)計分析;政府投入將形成示范效應,大大推動大數(shù)據(jù)的發(fā)展。大數(shù)據(jù)的應用--政府
政府職能變革大數(shù)據(jù)的應用--政府
19“智慧大腦”智能感知互聯(lián)互通智能運營協(xié)同共享美國奧巴馬政府在白宮網站發(fā)布《大數(shù)據(jù)研究和發(fā)展倡議》,提出“通過收集、處理龐大而復雜的數(shù)據(jù)信息,從中獲得知識和洞見,提升能力,加快科學、工程領域的創(chuàng)新步伐,強化美國國土安全,轉變教育和學習模式”;中國工程院院士鄔賀銓說道,“智慧城市是使用智能計算技術使得城市的關鍵基礎設施的組成和服務更智能、互聯(lián)和有效,隨著智慧城市的建設,社會將步入“大數(shù)據(jù)”時代?!彪y點:1、在最初就合理規(guī)劃智慧城市(深度思考哪些領域能夠運用);2、在城市發(fā)展基礎設施和“云產業(yè)”的同時,更多重視“數(shù)據(jù)”的價值;3、在大數(shù)據(jù)處理領域的核心技術不足,需要政府更大的投入。大數(shù)據(jù)的應用—智慧城市
“智慧大腦”智能感知互聯(lián)互通智能運營協(xié)同共享美國奧巴馬政府在20政府、金融、電信等行業(yè)投資建立大數(shù)據(jù)的處理分析手段,實現(xiàn)綜合治理、業(yè)務開拓等目標;應用到制造等更多行業(yè)。更多行業(yè)的應用政府、金融、電信等行業(yè)投資建立大數(shù)據(jù)的處理分析手段,實現(xiàn)綜合21數(shù)據(jù)的再利用:由于在信息價值鏈中的特殊位置,有些公司可能會收集到大量的數(shù)據(jù),但他們并不急需使用也不擅長再次利用這些數(shù)據(jù)。例如,移動電話運營商建立呼叫時會從HLR獲得用戶位置信息,這對于運營商來說,數(shù)據(jù)只有狹窄的技術用途。但當它被一些發(fā)布個性化位置廣告服務和促銷活動的公司再次利用時,則變得更有價值。大數(shù)據(jù)價值鏈的3大構成:數(shù)據(jù)本身、技能與思維其中三者兼具的有谷歌公司,谷歌在剛開始收集數(shù)據(jù)的時候就已經有多次使用數(shù)據(jù)的想法。比方說,它的街景采集車手機全球定位系統(tǒng)數(shù)據(jù)不光是為了創(chuàng)建谷歌地圖,也是為了制成全自動汽車以及谷歌眼鏡等與實景交匯的產品。未來,企業(yè)會依靠洞悉數(shù)據(jù)中的信息更加了解自己,也更加了解客戶?!洞髷?shù)據(jù)時代》傳統(tǒng)行業(yè)最終都會轉變?yōu)榇髷?shù)據(jù)行業(yè),無論是金融服務也、醫(yī)藥還是制造業(yè)。大數(shù)據(jù)的應用
——未來,改變一切數(shù)據(jù)的再利用:大數(shù)據(jù)價值鏈的3大構成:數(shù)據(jù)本身、技能與思維未大數(shù)據(jù)賦予我們洞察未來的能力馬云成功預測2008年經濟危機“2008年初,阿里巴巴平臺上整個買家詢盤數(shù)急劇下滑,歐美對中國采購在下滑。海關是賣了貨,出去以后再獲得數(shù)據(jù);我們提前半年時間從詢盤上推斷出世界貿易發(fā)生變化了?!蓖ǔ6?,買家在采購商品前,會比較多家供應商的產品,反映到阿里巴巴網站統(tǒng)計數(shù)據(jù)中,就是查詢點擊的數(shù)量和購買點擊的數(shù)量會保持一個相對的數(shù)值,綜合各個維度的數(shù)據(jù)可建立用戶行為模型。因為數(shù)據(jù)樣本巨大,保證用戶行為模型的準確性。因此在這個案例中,詢盤數(shù)據(jù)的下降,自然導致買盤的下降。人類從依靠自身判斷做決定到依靠數(shù)據(jù)做決定的轉變,也是大數(shù)據(jù)作出的最大貢獻之一?!洞髷?shù)據(jù)時代》大數(shù)據(jù)帶來的機遇大數(shù)據(jù)賦予我們洞察未來的能力馬云成功預測2008年經濟危機23結構化數(shù)據(jù)向非結構化數(shù)據(jù)演進,使得未來IT投資重點不再是建系統(tǒng)為核心,而是圍繞大數(shù)據(jù)為核心;海量數(shù)據(jù)可以在各個部門創(chuàng)造重大的財物價值,未來投資傾斜。未來IT投資重心轉移結構化數(shù)據(jù)向非結構化數(shù)據(jù)演進,使得未來IT投資重點不再是建系24什么是大數(shù)據(jù)?什么是Hadoop?理解大數(shù)據(jù)理解Hadoop基于Hadoop的大數(shù)據(jù)產品分析基于Hadoop的大數(shù)據(jù)應用分析議題什么是大數(shù)據(jù)?議題25據(jù)IDC的預測,全球大數(shù)據(jù)市場2015年將達170億美元規(guī)模,市場發(fā)展前景很大。而Hadoop作為新一代的架構和技術,因為有利于并行分布處理“大數(shù)據(jù)”而備受重視。ApacheHadoop是一個用java語言實現(xiàn)的軟件框架,在由大量計算機組成的集群中運行海量數(shù)據(jù)的分布式計算,它可以讓應用程序支持上千個節(jié)點和PB級別的數(shù)據(jù)。Hadoop是項目的總稱,主要是由分布式存儲(HDFS)、分布式計算(MapReduce)等組成。
優(yōu)點:可擴展:不論是存儲的可擴展還是計算的可擴展都是Hadoop的設計根本。經濟:框架可以運行在任何普通的PC上??煽浚悍植际轿募到y(tǒng)的備份恢復機制以及MapReduce的任務監(jiān)控保證了分布式處理的可靠性。高效:分布式文件系統(tǒng)的高效數(shù)據(jù)交互實現(xiàn)以及MapReduce結合LocalData處理的模式,為高效處理海量的信息作了基礎準備。大數(shù)據(jù)主要應用技術-Hadoop據(jù)IDC的預測,全球大數(shù)據(jù)市場2015年將達17026Hadoop項目簡介Hadoop包括以下模塊:HadoopCommon:支持其他Hadoop模塊的公用工具,包括FileSystem(面向通用文件系統(tǒng)的抽象基類)、遠程程序調用(RPC)和序列化庫.Hadoop分布文件系統(tǒng)(HDFS?):一個為訪問應用數(shù)據(jù)提供高吞吐量的分布式文件系統(tǒng)。HadoopYARN:一個工作調度與集群資源管理的框架HadoopMapReduce:一個基于YARN大數(shù)據(jù)集并行處理系統(tǒng).其他與Hadoop相關的項目包括:Ambari?:基于Web的對Hadoop集群進行管理的工具Avro?:數(shù)據(jù)序列化系統(tǒng)Cassandra?:沒有單點故障的可擴展的多主結點數(shù)據(jù)庫.Chukwa?:管理大型分布式系統(tǒng)的數(shù)據(jù)采集系統(tǒng),用于監(jiān)控在HDFS和MapReduce上構建的大型分布式系統(tǒng);包括用于顯示、監(jiān)視和分析結果的工具套件.HBase?:支持對大表進行結構化數(shù)據(jù)存儲的可擴展的,分布式數(shù)據(jù)庫Hive?:提供數(shù)據(jù)匯總與特設查詢的數(shù)據(jù)倉庫基礎設施Mahout?:可擴展的機器學習與數(shù)據(jù)挖掘庫.Pig?:高級數(shù)據(jù)流語言與并行計算執(zhí)行框架ZooKeeper?:高性能的分布式應用協(xié)調服務.Hadoop項目簡介Hadoop包括以下模塊:27HDFSZooKeeperAmbari是基于Web的對Hadoop集群進行管理的工具Avro是一個數(shù)據(jù)序列化系統(tǒng)Mahout是一個可擴展的機器學習與數(shù)據(jù)挖掘庫.
Pig是一個基于Hadoop的大規(guī)模數(shù)據(jù)分析平臺,Pig為復雜的海量數(shù)據(jù)并行計算提供了一個簡易的操作和編程接口Chukwa是基于Hadoop的集群監(jiān)控系統(tǒng),由yahoo貢獻hive是基于Hadoop的一個工具,提供完整的sql查詢功能,可以將sql語句轉換為MapReduce任務進行運行ZooKeeper:高效的,可擴展的協(xié)調系統(tǒng),存儲和協(xié)調關鍵共享狀態(tài)HBase是一個開源的,基于列存儲模型的分布式數(shù)據(jù)庫HDFS是一個分布式文件系統(tǒng)。有著高容錯性的特點,并且設計用來部署在低廉的硬件上,適合那些有著超大數(shù)據(jù)集的應用程序MapReduce/YARN是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運算Cassandra是一種可擴展的多主數(shù)據(jù)庫,無單點故障MapReduce/YARNHBaseChuKwaPigHiveAvroMahoutCassandraAmbariHadoop體系架構HDFSZooKeeperAmbari是基于Web的對Had28ApacheHadoop概覽主要開發(fā)子項目HadoopHDFS主要的存儲系統(tǒng),使用多個數(shù)據(jù)塊副本,在集群內的節(jié)點上進行分配,并為應用數(shù)據(jù)提供了高吞吐率訪問能力HadoopMapReduce一種面向應用的編程模型和軟件框架,在計算節(jié)點上對大型數(shù)據(jù)集執(zhí)行分布式處理HadoopCommon支持Hadoop框架的實用程序,包括FileSystem(面向通用文件系統(tǒng)的抽象基類)、遠程程序調用(RPC)和序列化庫其它相關Hadoop項目ApacheAvro一種數(shù)據(jù)序列化系統(tǒng)ApacheCassandra一種可擴展的多主數(shù)據(jù)庫,無單點故障ApacheChukwa一種數(shù)據(jù)收集系統(tǒng),用于監(jiān)控在HDFS和MapReduce上構建的大型分布式系統(tǒng);包括用于顯示、監(jiān)視和分析結果的工具套件ApacheHBase一種可擴展的分布式數(shù)據(jù)庫,支持結構化數(shù)據(jù)存儲,可創(chuàng)建大表;同時支持隨機實時讀寫訪問大數(shù)據(jù)ApacheMahout一種可擴展的機器學習和數(shù)據(jù)挖掘庫,實施了廣泛的算法,包括集群、分類、協(xié)作過濾和頻繁模式挖掘ApacheHive一種數(shù)據(jù)倉庫基礎設施,提供了數(shù)據(jù)匯總和即席查詢能力,并支持在Hadoop兼容的文件系統(tǒng)中分析大型數(shù)據(jù)集ApachePig一種高級數(shù)據(jù)庫語言和執(zhí)行框架,用于進行并行數(shù)據(jù)分析ApacheZooKeeper一種高性能中央?yún)f(xié)調服務,可保持配置信息和命名,為分布式應用提供了分布式同步和群組服務ApacheAmbri一種基于Web對Hadoop集群進行管理的工具ApacheHadoop概覽主要開發(fā)子項目Hadoop292004年--最初的版本(現(xiàn)在稱為HDFS和MapReduce)由DougCutting和MikeCafarella開始實施。2006年1月--DougCutting加入雅虎。2006年2月--ApacheHadoop項目正式啟動以支持MapReduce和HDFS的獨立發(fā)展。2006年2月--雅虎的網格計算團隊采用Hadoop。06年12月--標準排序在20個節(jié)點上運行1.8個小時,100個節(jié)點3.3小時,500個節(jié)點5.2小時,900個節(jié)點7.8個小時。08年4月--贏得世界最快1TB數(shù)據(jù)排序在900個節(jié)點上用時209秒。08年10月--研究集群每天裝載10TB的數(shù)據(jù)。09年3月--17個集群總共24000臺機器。09年4月--贏得每分鐘排序,59秒內排序500GB(在1400個節(jié)點上)和173分鐘內排序100TB數(shù)據(jù)(在3400個節(jié)點上)。10年5月—Avro與Hbase畢業(yè)。10年9月–Hive與Pig畢業(yè)11年1月—Zookeeper畢業(yè)11年3月—獲得Guardian媒體創(chuàng)新獎頭獎11年12月27—1.0.0版發(fā)布13年8月25—2.1.0beta版發(fā)布13年10月15—2.2.0發(fā)布Hadoop發(fā)展大事
2004年--最初的版本(現(xiàn)在稱為HDFS和MapRedu30MapReduceMap:任務的分解Reduce:結果的匯總兩大核心設計HDFSNameNode:文件管理DataNode:文件存儲Client:文件獲取Hadoop核心設計MapReduce兩大核心設計HDFSHadoop核心設計31Hadoop基本架構在Hadoop的系統(tǒng)中,會有一臺Master,主要負責NameNode的工作以及JobTracker的工作。JobTracker的主要職責就是啟動、跟蹤和調度各個Slave的任務執(zhí)行。還會有多臺Slave,每一臺Slave通常具有DataNode的功能并負責TaskTracker的工作。TaskTracker根據(jù)應用要求來結合本地數(shù)據(jù)執(zhí)行Map任務以及Reduce任務。名稱節(jié)點(NameNode):管理文件系統(tǒng)的命名空間,記錄文件系統(tǒng)樹及這個樹內所有的文件和索引目錄,同時也記錄每個文件的每個塊,所在的數(shù)據(jù)節(jié)點。數(shù)據(jù)節(jié)點(DataNode):文件系統(tǒng)的工作者,存儲并提供定位塊的服務,并定時向名稱節(jié)點發(fā)送塊的存儲列表JobTracker:協(xié)調作業(yè)的運行。TaskTracker:運行作業(yè)劃分后的任務。Hadoop基本架構在Hadoop的系統(tǒng)中,會有一臺Mast32HDFS適應條件超大文件
指的是幾百MB,幾百GB,幾百TB,甚至幾百PB流式數(shù)據(jù)訪問
HDFS建立的思想是:一次寫入、多次讀取模式是最高效的。商用硬件
hadoop不需要運行在昂貴并且高可靠的硬件上。HDFS:為以流式數(shù)據(jù)訪問模式存儲超大文件而設計的文件系統(tǒng)。HDFS適應條件超大文件HDFS:為以流式數(shù)據(jù)訪問模式存儲超33HDFS不適應條件低延遲數(shù)據(jù)訪問HDFS是為了達到高數(shù)據(jù)吞吐量而優(yōu)化的,這是以延遲為代價的,對于低延遲訪問,可以用Hbase(hadoop的子項目)。大量的小文件多用戶寫入,任意修改
HDFS不適應條件低延遲數(shù)據(jù)訪問34HDFS的基本單元儲存基本單元
Block(塊):HDFS基本儲存單元,是個邏輯單元,和OS中的頁類似。 一個文件有可能包含多個塊,一個塊有可以包含多個文件,由文件的大小和塊大小的參數(shù)決定。
dfs.block.size參數(shù)。Hdfs中Block的大小,默認64MB。如果設置大,就會有可能導致Map運行慢,設置小,有可能導致Map個數(shù)多,所有一定要設置適當。(目前主流機器建議設置為128M)。HDFS的基本單元儲存基本單元35HDFS集群框架圖HDFS集群框架圖36HDFS集群框架圖文件寫入:Client向NameNode發(fā)起文件寫入的請求。NameNode根據(jù)文件大小和文件塊配置情況,返回給Client它所管理部分DataNode的信息。Client將文件劃分為多個Block,根據(jù)DataNode的地址信息,按順序寫入到每一個DataNode塊中。文件讀?。篊lient向NameNode發(fā)起文件讀取的請求。NameNode返回文件存儲的DataNode的信息。Client讀取文件信息。HDFS集群框架圖文件寫入:37HDFS集群框架NameNode記錄著每個文件的元數(shù)據(jù)。每個文件在那個塊中,每個數(shù)據(jù)節(jié)點包含哪些塊。(不儲存原始文件)DataNode是文件的工作者,它們存儲文件并提供定位塊的服務,并且定時向名稱節(jié)點發(fā)送它們的存儲塊的列表(儲存原始文件)。重要參數(shù)
dfs.replication.min參數(shù)。最小為1,表示每個塊在HDFS中的副本個數(shù)。HDFS集群框架NameNode記錄著每個文件的元數(shù)據(jù)。每個38HDFS文件讀取圖HDFS文件讀取圖39HDFS文件寫入圖HDFS文件寫入圖40HDFS的幾個設計特點Block的放置:默認不配置。一個Block會有三份備份,一份放在NameNode指定的DataNode,另一份放在與指定DataNode非同一Rack上的DataNode,最后一份放在與指定DataNode同一Rack上的DataNode上。備份無非就是為了數(shù)據(jù)安全,考慮同一Rack的失敗情況以及不同Rack之間數(shù)據(jù)拷貝性能問題就采用這種配置方式。心跳檢測DataNode的健康狀況,如果發(fā)現(xiàn)問題就采取數(shù)據(jù)備份的方式來保證數(shù)據(jù)的安全性。數(shù)據(jù)復制(場景為DataNode失敗、需要平衡DataNode的存儲利用率和需要平衡DataNode數(shù)據(jù)交互壓力等情況):這里先說一下,使用HDFS的balancer命令,可以配置一個Threshold來平衡每一個DataNode磁盤利用率。例如設置了Threshold為10%,那么執(zhí)行balancer命令的時候,首先統(tǒng)計所有DataNode的磁盤利用率的均值,然后判斷如果某一個DataNode的磁盤利用率超過這個均值Threshold以上,那么將會把這個DataNode的block轉移到磁盤利用率低的DataNode,這對于新節(jié)點的加入來說十分有用。HDFS的幾個設計特點Block的放置:默認不配置。一個Bl41HDFS的幾個設計特點數(shù)據(jù)校驗:采用CRC32作數(shù)據(jù)校驗。在文件Block寫入的時候除了寫入數(shù)據(jù)還會寫入校驗信息,在讀取的時候需要校驗后再讀入。NameNode是單點:如果失敗的話,任務處理信息將會紀錄在本地文件系統(tǒng)和遠端的文件系統(tǒng)中。數(shù)據(jù)管道性的寫入:當客戶端要寫入文件到DataNode上,首先客戶端讀取一個Block然后寫到第一個DataNode上,然后由第一個DataNode傳遞到備份的DataNode上,一直到所有需要寫入這個Block的NataNode都成功寫入,客戶端才會繼續(xù)開始寫下一個Block。HDFS的幾個設計特點數(shù)據(jù)校驗:采用CRC32作數(shù)據(jù)校驗。在42HDFS的幾個設計特點安全模式:在分布式文件系統(tǒng)啟動的時候,開始的時候會有安全模式,當分布式文件系統(tǒng)處于安全模式的情況下,文件系統(tǒng)中的內容不允許修改也不允許刪除,直到安全模式結束。安全模式主要是為了系統(tǒng)啟動的時候檢查各個DataNode上數(shù)據(jù)塊的有效性,同時根據(jù)策略必要的復制或者刪除部分數(shù)據(jù)塊。運行期通過命令也可以進入安全模式。在實踐過程中,系統(tǒng)啟動的時候去修改和刪除文件也會有安全模式不允許修改的出錯提示,只需要等待一會兒即可。HDFS的幾個設計特點安全模式:在分布式文件系統(tǒng)啟動的時候,43MapReduce程序1:runjobJobClient客戶端JVMJobTrackerTaskTrackerChildMapTask或者ReduceTaskJobtracker節(jié)點子JVMTasktracker節(jié)點HDFS2:getnewjobID3:copyJobrescouce4:submitjob5:initializejob6:retrieveInputsplits7:returnstask8:retrievejobresources10:run9:launch客戶端:提交MapReduce作業(yè),即一個job。jobTracker:協(xié)調作業(yè)的運行。taskTracker:作業(yè)劃分后的任務(一個job對應多個
task,一個task對應一個或者多個
MapReduce線程)。HDFS:用來在其他實體間共享作業(yè)文件MapReduce的工作原理MapReduce1:runjobJobClient客戶端44MapReduce基本構架與工作過程datanodedaemonLinuxfilesystem…tasktrackerslavenodedatanodedaemonLinuxfilesystem…tasktrackerslavenodedatanodedaemonLinuxfilesystem…tasktrackerslavenodenamenodenamenodedaemonjobsubmissionnodejobtracker數(shù)據(jù)存儲與計算節(jié)點構架MapReduce基本構架與工作過程datanodedae45MapReduce數(shù)據(jù)流MapReduce數(shù)據(jù)流46MapReduce數(shù)據(jù)流1根據(jù)輸入數(shù)據(jù)的大小和參數(shù)的設置把數(shù)據(jù)分成splits,每個split對應于一個map線程。2Split中的數(shù)據(jù)作為Map的輸入,Map的輸出一定在Map端。3Map的輸出到Reduce的輸入的過程(shuffle過程): 第一階段:在map端完成 內存->排序->寫入磁盤->復制 分區(qū)->排序->分區(qū)合并->合并后分區(qū)->復制 第二階段:在reduce端完成 映射到reduce端分區(qū)->合并->排序4Reduce的輸入到Reduce的輸出最后排好序的key/value作為Reduce的輸入,輸出不一定是在reduce端。MapReduce數(shù)據(jù)流1根據(jù)輸入數(shù)據(jù)的大小和參數(shù)的設置把47MapReduce數(shù)據(jù)流MapReduce是Hadoop程序的體現(xiàn)??蚣軜O其簡單:首先是對MapReduce程序運行前的參數(shù)配置,然后編寫Map類(實現(xiàn)Map方法),最后是Reduce類(實現(xiàn)Reduce方法)。MapReduce程序的每個細節(jié)都與設置的參數(shù)有很大的關系,參數(shù)設置的好,程序的效率肯定得到提高。Map方法:Map(k1,v1)
->list(k2,v2),并行應用于每一個輸入的數(shù)據(jù)集,每一次調用都會產生一個(k2,v2)的隊列。Reduce方法:Reduce(k2,list(v2))
->
list(k3,v3)。收集map端輸出隊列l(wèi)ist(k2,v2)中有相同key的數(shù)據(jù)對,把它們聚集在一起,輸出時形成目的數(shù)據(jù)
list(k3,v3)。MapReduce數(shù)據(jù)流MapReduce是Hadoop程48下一代MapReduce
-YARNMRV2maintains
APIcompatibility
withpreviousstablerelease(hadoop-0.20.205).ThismeansthatallMap-ReducejobsshouldstillrununchangedontopofMRv2withjustarecompile下一代MapReduce-YARNMRV2maintai49HBase–HadoopDatabase,是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng);HBase位于結構化存儲層,HDFS為HBase提供了高可靠性的底層存儲支持,MapReduce為HBase提供了高性能的計算能力,Zookeeper為HBase提供了穩(wěn)定服務和failover機制;Pig和Hive還為HBase提供了高層語言支持,使得在HBase上進行數(shù)據(jù)統(tǒng)計處理變的簡單。HBASE——分布式數(shù)據(jù)存儲HBase–HadoopDatabase,是一個高可靠50什么是大數(shù)據(jù)?什么是Hadoop?理解大數(shù)據(jù)理解Hadoop基于Hadoop的大數(shù)據(jù)產品分析基于Hadoop的大數(shù)據(jù)應用分析議題什么是大數(shù)據(jù)?議題51大型企業(yè)和機構在尋求解決棘手的大數(shù)據(jù)問題時,往往會使用開源軟件基礎架構Hadoop的服務。由于Hadoop深受歡迎,許多公司都推出了各自版本的Hadoop,也有一些公司則圍繞Hadoop提供解決方案。Hadoop的發(fā)行版除了社區(qū)的Apachehadoop外,Cloudera,IBM,ORACLE等都提供了自己的商業(yè)版本。商業(yè)版主要是提供Hadoop專業(yè)的技術支持,這對一些大型企業(yè)尤其重要。ClouderaEMC。。。IBMOracleHadoop主要開發(fā)廠商大型企業(yè)和機構在尋求解決棘手的大數(shù)據(jù)問題時,往往會使用開源52在Hadoop生態(tài)系統(tǒng)中,規(guī)模最大、知名度最高的公司則是Cloudera。2008年成立的Cloudera是最早將Hadoop商用的公司,為合作伙伴提供Hadoop的商用解決方案,主要是包括支持,咨詢服務和培訓。Cloudera的客戶中倒是有很多知名公司,如AOL、哥倫比亞廣播公司、eBay、Expedia、摩根大通、Monsanto、諾基亞、RIM和迪士尼等。Cloudera企業(yè)解決方案包括Hadoop軟件發(fā)行版、Cloudera管理器。CLOUDERA在Hadoop生態(tài)系統(tǒng)中,規(guī)模最大、知名度最高的公司53
2011年成立的Hortonworks是雅虎與硅谷風投公司BenchmarkCapital合資組建的公司。公司成立之初吸納了大約25名至30名專門研究Hadoop的雅虎工程師,上述工程師均在2005年開始協(xié)助雅虎開發(fā)Hadoop,這些工程師貢獻了hadoop80%的代碼。Hortonworks的主打產品是HortonworksDataPlatform(HDP),包括穩(wěn)定版本的ApacheHadoop的所有關鍵組件。Hortonworks2011年成立的Hortonworks是雅虎與硅谷風投公司54InfoSphereBigInsights是一個軟件平臺,旨在幫助企業(yè)從大量不同范圍的數(shù)據(jù)中挖掘商機并進行分析,如日志記錄、點擊流、社會媒體數(shù)據(jù)、新聞摘要、電子傳感器輸出,甚至是一些事務數(shù)據(jù)等。BigInsights包括ApacheHadoop發(fā)行版、面向MapReduce編程的Pig編程語言、針對IBM的DB2數(shù)據(jù)庫的連接件以及IBMBigSheets。IBM通過其智慧云企業(yè)(SmartCloudEnterprise)基礎架構,將BigInsights和BigSheets作為一項服務來提供??蛻舨槐刭徺I支持性硬件,也不需要IT專門知識,就可以學習和試用大數(shù)據(jù)處理和分析功能。據(jù)IBM稱,客戶用30分鐘就能搭建起Hadoop集群,并能將現(xiàn)有數(shù)據(jù)轉移到集群里面。IBMInfoSphereBigInsights是55Oracle
BigData機與Oracle
Exadata數(shù)據(jù)庫云服務器以及新推出的Oracle
Exalytics商務智能云服務器,為客戶提供了一個端到端的大數(shù)據(jù)解決方案,從而為客戶在企業(yè)內獲取、組織、分析大數(shù)據(jù)以及最大限度地挖掘大數(shù)據(jù)的價值提供了所需要的一切條件。OracleBigData機是一款集成設計的系統(tǒng),并且針對獲取、組織以及將非結構化數(shù)據(jù)加載到Oracle數(shù)據(jù)庫11g之中的整個流程進行優(yōu)化。OracleBigData機包括開源ApacheHadoop、OracleNoSQL數(shù)據(jù)庫、Oracle數(shù)據(jù)集成Hadoop應用適配器、OracleHadoop裝載器。OracleOracleBigData機與Oracle56
EMC公司于2013年發(fā)布了自身的ApacheHadoop發(fā)行版——PivotalHD,同時發(fā)布的還有一個名為HAWQ的技術,通過HAWQ能夠將Greenplum分析型數(shù)據(jù)庫與Hadoop分布式架構進行緊密地融合。PivotalHD對ApacheHadoop進行了全面的改造,同其他一些Hadoop發(fā)行版相比,其最大的優(yōu)勢就是能夠與Greenplum數(shù)據(jù)庫進行整合,PivotalHD和HAWQ讓EMC在Hadoop領域更進一步,同時將成為EMC大數(shù)據(jù)戰(zhàn)略中的一個重要里程碑。EMCEMC公司于2013年發(fā)布了自身的ApacheHa57基于在大數(shù)據(jù)領域的長期技術積累和應用經驗,英特爾推出成熟的企業(yè)級Hadoop發(fā)行版,為企業(yè)和政府部門實現(xiàn)大數(shù)據(jù)應用提供強有力的平臺支持。英特爾在Hadoop上的改進和功能增強為用戶提供了一個高性能、高穩(wěn)定性和可管理的大數(shù)據(jù)應用實施平臺,并提供全面的專業(yè)支持。在Hadoop軟件的英特爾分發(fā)版在中國推廣的兩年多時間里,已經在電信行業(yè)、智能交通行業(yè)有多個成功應用。INTEL基于在大數(shù)據(jù)領域的長期技術積累和應用經驗,英特爾58什么是大數(shù)據(jù)?什么是Hadoop?理解大數(shù)據(jù)理解Hadoop基于Hadoop的大數(shù)據(jù)產品分析基于Hadoop的大數(shù)據(jù)應用分析議題什么是大數(shù)據(jù)?議題59網絡終端設備網絡技術的升級和終端設備的爆發(fā),使今天的用戶能夠使用多種設備、從不同位置、通過多種手段來接入互聯(lián)網,并在這一過程中不斷創(chuàng)造新內容在線應用和服務越來越豐富的在線應用和服務,不斷激勵用戶創(chuàng)造和分享信息,尤其是社會化媒體業(yè)務,帶動圖片、視頻等非結構化數(shù)據(jù)飛速增長與各垂直行業(yè)的融合互聯(lián)網作為一個高滲透力的行業(yè),正在與各垂直行業(yè)發(fā)生深度的融合,原本隱藏于線下的孤島信息,源源不斷的輸入到線上?;ヂ?lián)網行業(yè)擁抱大數(shù)據(jù)的關鍵因素互聯(lián)網大數(shù)據(jù)技術的應用,會首先帶動社會化媒體、電子商務的快速發(fā)展,其他的互聯(lián)網分支也會緊追其后,整個行業(yè)在大數(shù)據(jù)的推動下將會蓬勃發(fā)展?;ヂ?lián)網行業(yè)對數(shù)據(jù)實時分析要求較高,例如廣告監(jiān)測、B2C業(yè)務,往往要求在數(shù)秒內返回上億行數(shù)據(jù)的分析,從而達到不影響用戶體驗和快速準確營銷的目的。目前互聯(lián)網企業(yè)面對大數(shù)據(jù),會普遍感覺到實時分析能力差、海量數(shù)據(jù)處理效率低、缺少分析方法、分析軟件能力差等問題。互聯(lián)網行業(yè)大數(shù)據(jù)分析面臨的主要問題互聯(lián)網行業(yè)大數(shù)據(jù)需求分析網絡終端設備網絡技術的升級和終端設備的爆發(fā),使今天的用戶能夠60公司具體應用HADOOP在阿里巴巴用于處理商業(yè)數(shù)據(jù)的排序,并將其應用于阿里巴巴的ISEARCH搜索引擎,垂直商業(yè)搜索引擎。節(jié)點數(shù):15臺機器的構成的服務器集群服務器配置:8核CPU,16G內存,1.4T硬盤容量HADOOP在百度HADOOP主要應用日志分析,同時使用它做一些網頁數(shù)據(jù)庫的數(shù)據(jù)挖掘工作。節(jié)點數(shù):10-500個節(jié)點。周數(shù)據(jù)量:3000TBHADOOP在Facebook主要用于存儲內部日志的拷貝,作為一個源用于處理數(shù)據(jù)挖掘和日志統(tǒng)計。主要使用了2個集群:一個由1100臺節(jié)點組成的集群,包括8800核CPU(即每臺機器8核),和12000TB的原始存儲(即每臺機器12T硬盤),一個有300臺節(jié)點組成的集群,包括2400核CPU(即每臺機器8核),和3000TB的原始存儲(即每臺機器12T硬盤),由此基礎上開發(fā)了基于SQL語法的項目:HIVEHADOOP在TWITTER使用HADOOP用于存儲微博數(shù)據(jù),日志文件和許多中間數(shù)據(jù)使用基于HADOOP構件的Cloudera'sCDH2系統(tǒng),存儲壓縮后的數(shù)據(jù)文件(LZO格式)HADOOP在雅虎主要用于支持廣告系統(tǒng)及網頁搜索機器數(shù):25000,CPU:8核集群機器數(shù):
4000
個節(jié)點
(2*4cpuboxesw4*1TBdisk&16GBRAM)互聯(lián)網行業(yè)Hadoop應用公司具體應用HADOOP在阿里巴巴用于處理商業(yè)數(shù)據(jù)的排序,并61金融行業(yè)大數(shù)據(jù)發(fā)展分析
IDC研究顯示,數(shù)據(jù)是重要資產的理念已經在中國金融行業(yè)形成共識,數(shù)據(jù)的真正價值在于能夠洞察企業(yè)內部規(guī)律,數(shù)據(jù)的洞察力成為金融企業(yè)的核心競爭力。在中國金融行業(yè)信息化建設中,與信息加工密切相關的大數(shù)據(jù)管理正逐漸成為與核心業(yè)務系統(tǒng)建設、渠道建設和前置建設同等重要的領域。經過多年的發(fā)展與積累,目前中國的大型商業(yè)銀行和保險公司的數(shù)據(jù)量已經達到100TB以上級別,并且非結構化數(shù)據(jù)量在迅速增長。金融行業(yè)大數(shù)據(jù)需求背景從未來幾年看,金融行業(yè)在“十二五”時期面臨發(fā)展方式轉型的挑戰(zhàn),轉型主要集中在三大方面:一,建立全面的風險管理體制,向嚴監(jiān)管轉型;二,從粗放式管理向精細化管理轉型;三,從“利潤為中心”向“客戶為中心”轉型。大數(shù)據(jù)在加強風險管控、精細化管理、服務創(chuàng)新等轉型中別具現(xiàn)實意義,是實現(xiàn)向信息化銀行轉型的重要推動力。金融行業(yè)應首先在戰(zhàn)略層面對大數(shù)據(jù)進行規(guī)劃,積極應對大數(shù)據(jù)時代的挑戰(zhàn),推進并建立數(shù)據(jù)驅動型發(fā)展方式。金融行業(yè)大數(shù)據(jù)需求分析金融行業(yè)大數(shù)據(jù)發(fā)展分析金融行業(yè)大數(shù)據(jù)需求背景62已經開始使用Hadoop技術以滿足日益增多的用途,包括詐騙檢驗、IT風險管理和自助服務。150PB在線存儲數(shù)據(jù)、30,000個數(shù)據(jù)庫和35億個用戶登錄賬號。Hadoop能夠存儲大量非結構化數(shù)據(jù),允許公司收集和存儲Web日志、交易數(shù)據(jù)和社交媒體數(shù)據(jù)。數(shù)據(jù)被匯集至一個通用平臺,以方便以客戶為中心的數(shù)據(jù)挖掘與數(shù)據(jù)分析工具的使用。摩根大通已經開始使用Hadoop技術以滿足日益增多的用途,包括詐騙檢63中信銀行信用卡中心大數(shù)據(jù)挑戰(zhàn)發(fā)卡量增長迅速:2008年發(fā)卡約500萬張,2010年增加了一倍。業(yè)務數(shù)據(jù)增長迅速:隨著業(yè)務的迅猛增長,業(yè)務數(shù)據(jù)規(guī)模也線性膨脹。數(shù)據(jù)存儲、系統(tǒng)維護、數(shù)據(jù)有效利用都面臨巨大壓力。需求可擴展、高性能的數(shù)據(jù)倉庫解決方案能夠實現(xiàn)業(yè)務數(shù)據(jù)的集中和整合;可以支持多樣化和復雜化數(shù)據(jù)分析提升信用卡中心的業(yè)務效率;通過從數(shù)據(jù)倉庫提取數(shù)據(jù),改進和推動有針對性的營銷活動。采用大數(shù)據(jù)方案后價值體現(xiàn)實時的商業(yè)智能可以結合實時、歷史數(shù)據(jù)進行全局分析,風險管理部門現(xiàn)在可以每天評估客戶的行為,并決定對客戶的信用額度在同一天進行調整;原有內部系統(tǒng)、模型整體性能顯著提高秒級營銷Greenplum數(shù)據(jù)倉庫解決方案提供了統(tǒng)一的客戶視圖,更有針對的進行營銷。2011年,中信銀行信用卡中心通過其數(shù)據(jù)庫營銷平臺進行了1286個宣傳活動,每個營銷活動配置平均時間從2周縮短到2-3天。EMCGreen-plum未來和基于Hadoop的PivotalHD相融合中信銀行信用卡中心大數(shù)據(jù)發(fā)卡量增長迅速:2008年發(fā)卡約5064
隨著互聯(lián)網和移動互聯(lián)網的發(fā)展,運營商的網絡將會更加繁忙,用于監(jiān)測網絡狀態(tài)的信令數(shù)據(jù)也會快速增長。通過大數(shù)據(jù)的海量分布式存儲技術,可以更好地滿足存儲需求;通過智能分析技術,能夠提高網絡維護的實時性,預測網絡流量峰值,預警異常流量,有效防止網絡堵塞和宕機,為網絡改造、優(yōu)化提供參考,從而提高網絡服務質量,提升用戶體驗。提升網絡服務質量,增強管道智能化客戶洞察是指在企業(yè)或部門層面對客戶數(shù)據(jù)的全面掌握并在市場營銷、客戶聯(lián)系等環(huán)節(jié)的有效應用。通過使用大數(shù)據(jù)分析、數(shù)據(jù)挖掘等工具和方法,電信運營商能夠整合來自市場部門、銷售部門、服務部門的數(shù)據(jù),從各種不同的角度全面了解自己的客戶,對客戶形象進行精準刻畫,以尋找目標客戶,制定有針對性的營銷計劃、產品組合或商業(yè)決策,提升客戶價值。判斷客戶對企業(yè)產品、服務的感知,有針對性地進行改進和完善。通過情感分析、語義分析等技術,可以針對客戶的喜好、情緒,進行個性化的業(yè)務推薦。更加精準地洞察客戶需求,增強市場競爭力智慧城市的發(fā)展以及教育、醫(yī)療、交通、環(huán)境保護等關系到國計民生的行業(yè),都具有極大的信息化需求。目前,電信運營商針對智慧城市及行業(yè)信息化服務雖然能夠提供一攬子解決方案,但主要還是提供終端和通信管道,行業(yè)應用軟件和系統(tǒng)集成尚需要整合外部的應用軟件提供商,對于客戶的價值主要體現(xiàn)在網絡化、自動化等較低水平。而隨著社會、經濟的發(fā)展,客戶及客戶的客戶對于智能化的要求將逐步強烈,因此運營商如能把大數(shù)據(jù)技術整合到行業(yè)信息化方案中,幫助客戶通過數(shù)據(jù)采集、存儲和分析更好地進行決策,將能極大提升信息化服務的價值。升級行業(yè)信息化解決方案,提升客戶價值大數(shù)據(jù)也有大風險,其中之一就是客戶隱私泄露及數(shù)據(jù)安全風險。由于大量的數(shù)據(jù)產生、存儲和分析,數(shù)據(jù)保密和隱私問題將在未來幾年內成為一個更大的問題,企業(yè)必須對此加以高度關注并部署相應的解決方案。提供數(shù)據(jù)安全服務,在大數(shù)據(jù)市場建立差異化競爭優(yōu)勢電信行業(yè)大數(shù)據(jù)需求分析
隨著互聯(lián)網和移動互聯(lián)網的發(fā)展,運營商的網絡將會更加繁65在中國移動“大云”產品總體架構中,分析型PaaS產品底層基于Hadoop數(shù)據(jù)存儲和分析平臺,在技術路線方面,選擇數(shù)據(jù)倉庫與Hadoop混搭的方式,借鑒關系型數(shù)據(jù)倉庫在傳統(tǒng)應用支持方面以及在復雜查詢和分析方面的快速響應能力,同時也借鑒了Hadoop的非結構化數(shù)據(jù)處理能力以及存儲的低成本。屏蔽Hadoop與數(shù)據(jù)倉庫的使用細節(jié),讓用戶在使用這些數(shù)據(jù)時盡量無感知;在數(shù)據(jù)的ETL采集預處理環(huán)節(jié),盡量采用Hadoop與分布式ETL的方式,提高數(shù)據(jù)轉換效率,同時降低成本。
中國移動在中國移動“大云”產品總體架構中,分析型PaaS產66中國聯(lián)通已經構建了一個全國集中的一級架構海量數(shù)據(jù)存儲和查詢系統(tǒng):通信用戶上網記錄集中查詢與分析支撐系統(tǒng),在集團公司進行統(tǒng)一部署,各個省分僅僅是做數(shù)據(jù)的采集,按照業(yè)務實時性將數(shù)據(jù)傳送到集團公司,由集團公司統(tǒng)一處理,全國所有用戶所有上網記錄數(shù)據(jù)都放北京數(shù)據(jù)中心里,在國內電信行業(yè)當中也是首創(chuàng)的方式。中國聯(lián)通成功將大數(shù)據(jù)和Hadoop技術引入到‘移動通信用戶上網記錄集中查詢與分析支撐系統(tǒng)’。截止到目前已經部署了4.5PB的存儲空間。其中,4.5PB的存儲分布在300個數(shù)據(jù)節(jié)點上,即每個節(jié)點配備15TB的存儲空間。系統(tǒng)每天有能力處理700億條上網記錄。中國聯(lián)通中國聯(lián)通已經構建了一個全國集中的一級架構海量數(shù)67Q&AQ&A68演講完畢,謝謝觀看!演講完畢,謝謝觀看!69大數(shù)據(jù)與Hadoop演講者:電話:郵箱:部門:災備服務部大數(shù)據(jù)與Hadoop演講者:70什么是大數(shù)據(jù)?什么是Hadoop?理解大數(shù)據(jù)理解Hadoop基于Hadoop的大數(shù)據(jù)產品分析基于Hadoop的大數(shù)據(jù)應用分析議題什么是大數(shù)據(jù)?議題71Wikipedia:Bigdataisthetermforacollectionof
datasets
solargeandcomplexthatitbecomesdifficulttoprocessusingon-handdatabasemanagementtoolsortraditionaldataprocessingapplications.Gartner:Bigdataishighvolume,highvelocity,and/orhighvarietyinformationassetsthatrequirenewformsofprocessingtoenableenhanceddecisionmaking,insightdiscoveryandprocessoptimization。Forrester:“Bigdata”as“techniquesandtechnologiesthatmakehandlingdataatextremescaleaffordable”。BI&BigDataBusinessIntelligenceuses
descriptivestatistics
withdatawithhighinformationdensitytomeasurethings,detecttrendsetc.Bigdatauses
inductivestatistics
andconceptsfrom
nonlinearsystemidentification
toinferlaws(regressions,nonlinearrelationships,andcausaleffects)fromlargedatasets
torevealrelationships,dependencies,andtoperformpredictionsofoutcomesandbehaviors。什么是大數(shù)據(jù)Wikipedia:Bigdataistheterm72什么是大數(shù)據(jù)?什么是Hadoop?理解大數(shù)據(jù)理解Hadoop基于Hadoop的大數(shù)據(jù)產品分析基于Hadoop的大數(shù)據(jù)應用分析議題什么是大數(shù)據(jù)?議題73Hadoop是一個分布式系統(tǒng)基礎架構,由Apache基金會開發(fā)。用戶可以在不了解分布式底層細節(jié)的情況下,開發(fā)分布式程序。充分利用集群的威力高速運算和存儲。ApacheHadoop軟件庫是一個框架,允許使用簡單編程模型進行跨計算機集群的分布式的大數(shù)據(jù)集的處理。它被設計成可以從單服務器擴展到幾千臺服務器,每臺服務器都有自己的計算和存儲。不是依賴于硬件來實現(xiàn)高可用性,Hadoop庫被設計成在應用層來檢測與處理故障,以在計算機集群上交付高可用服務,而底層的每臺計算機是很容易出現(xiàn)故障的。Hadoop是項目的總稱,主要是由分布式存儲(HDFS),分布式計算(MapReduce,目前的稱為YARN,即mapReduce2.0)組成。Hadoop程序目前只能運行在Linux系統(tǒng)上,Windows上運行需要安裝其他插件。什么是HadoopDougCuttingYahooHadoop集群Hadoop是一個分布式系統(tǒng)基礎架構,由Apache基金會74什么是大數(shù)據(jù)?什么是Hadoop?理解大數(shù)據(jù)理解Hadoop基于Hadoop的大數(shù)據(jù)產品分析基于Hadoop的大數(shù)據(jù)應用分析議題什么是大數(shù)據(jù)?議題75facebook社交網絡淘寶、ebuy電子商務微博、Apps移動互聯(lián)21世紀是數(shù)據(jù)信息大發(fā)展的時代,移動互聯(lián)、社交網絡、電子商務等極大拓展了互聯(lián)網的邊界和應用范圍,各種數(shù)據(jù)正在迅速膨脹并變大?;ヂ?lián)網(社交、搜索、電商)、移動互聯(lián)網(微博)、物聯(lián)網(傳感器,智慧地球)、車聯(lián)網、GPS、醫(yī)學影像、安全監(jiān)控、金融(銀行、股市、保險)、電信(通話、短信)都在瘋狂產生著數(shù)據(jù)?!按髷?shù)據(jù)”的誕生:半個世紀以來,隨著計算機技術全面融入社會生活,信息爆炸已經積累到了一個開始引發(fā)變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長速度也在加快。信息爆炸的學科如天文學和基因學,創(chuàng)造出了“大數(shù)據(jù)”這個概念。如今,這個概念幾乎應用到了所有人類智力與發(fā)展的領域中。大數(shù)據(jù)時代的背景facebook社交網絡淘寶、ebuy電子商務微博、Apps76GBTBPBEBZB想駕馭這龐大的數(shù)據(jù),我們必須了解大數(shù)據(jù)的特征。地球上至今總共的數(shù)據(jù)量:在2006年,個人用戶才剛剛邁進TB時代,全球一共新產生了約180EB的數(shù)據(jù);在2011年,這個數(shù)字達到了1.8ZB。而有市場研究機構預測:到2020年,整個世界的數(shù)據(jù)總量將會增長44倍,達到35.2ZB(1ZB=10億TB)!1PB
=2^50字節(jié)1EB
=2^60字節(jié)1ZB=2^70字節(jié)大數(shù)據(jù)時代的爆炸增長GBTBPBEBZB想駕馭這龐大的數(shù)據(jù),我們必須了解大數(shù)據(jù)的77“大量化(Volume)、多樣化(Variety)、快速化(Velocity)、價值密度低(Value)”就是“大數(shù)據(jù)”的顯著特征,或者說,只有具備這些特點的數(shù)據(jù),才是大數(shù)據(jù)。VolumeVelocityValueVariety大數(shù)據(jù)的4V特征“大量化(Volume)、多樣化(Variety)、快速化(78大數(shù)據(jù)=海量數(shù)據(jù)+復雜類型的數(shù)據(jù)海量交易數(shù)據(jù):企業(yè)內部的經營交易信息主要包括聯(lián)機交易數(shù)據(jù)和聯(lián)機分析數(shù)據(jù),是結構化的、通過關系數(shù)據(jù)庫進行管理和訪問的靜態(tài)、歷史數(shù)據(jù)。通過這些數(shù)據(jù),我們能了解過去發(fā)生了什么。大數(shù)據(jù)包括:交易數(shù)據(jù)和交互數(shù)據(jù)集在內的所有數(shù)據(jù)集海量交互數(shù)據(jù):源于Facebook、Twitter、LinkedIn及其他來源的社交媒體數(shù)據(jù)構成。它包括了呼叫詳細記錄CDR、設備和傳感器信息、GPS和地理定位映射數(shù)據(jù)、通過管理文件傳輸ManageFileTransfer協(xié)議傳送的海量圖像文件、Web文本和點擊流數(shù)據(jù)、科學信息、電子郵件等等??梢愿嬖V我們未來會發(fā)生什么。海量數(shù)據(jù)處理:大數(shù)據(jù)的涌現(xiàn)已經催生出了設計用于數(shù)據(jù)密集型處理的架構。例如具有開放源碼、在商品硬件群中運行的ApacheHadoop。大數(shù)據(jù)的構成大數(shù)據(jù)=海量數(shù)據(jù)+復雜類型的數(shù)據(jù)海量交易數(shù)據(jù):大數(shù)據(jù)79密不可分的大數(shù)據(jù)與云計算商業(yè)模式驅動應用需求驅動云計算本身也是大數(shù)據(jù)的一種業(yè)務模式大數(shù)據(jù)是落地的云云計算的模式是業(yè)務模式,本質是數(shù)據(jù)處理技術。數(shù)據(jù)是資產,云為數(shù)據(jù)資產提供存儲、訪問和計算。當前云計算更偏重海量存儲和計算,以及提供的云服務,運行云應用,但是缺乏盤活數(shù)據(jù)資產的能力,挖掘價值性信息和預測性分析,為國家、企業(yè)、個人提供決策和服務,是大數(shù)據(jù)核心議題,也是云計算的最終方向。密不可分的大數(shù)據(jù)與云計算商業(yè)模式驅動應用需求驅動云計算本身也80大數(shù)據(jù)不僅僅是“大”多大?至少PB級比大更重要的是數(shù)據(jù)的復雜性,有時甚至大數(shù)據(jù)中的小數(shù)據(jù)如一條微博就具有顛覆性的價值大數(shù)據(jù)不僅僅是“大”多大?比大更重要的是數(shù)據(jù)的復雜性,有時甚81軟件是大數(shù)據(jù)的引擎和數(shù)據(jù)中心(DataCenter)
一樣,軟件是大數(shù)據(jù)的驅動力,軟件改變世界軟件是大數(shù)據(jù)的引擎和數(shù)據(jù)中心(DataCenter)一樣82大數(shù)據(jù)生態(tài):軟件是引擎大數(shù)據(jù)生態(tài):軟件是引擎83大數(shù)據(jù)的應用不僅僅是精準營銷通過用戶行為分析實現(xiàn)精準營銷是大數(shù)據(jù)的典型應用,但是大數(shù)據(jù)在各行各業(yè)特別是公共服務領域具有廣闊的應用前景消費行業(yè)金融服務食品安全醫(yī)療衛(wèi)生軍事交通環(huán)保電子商務氣象大數(shù)據(jù)的應用不僅僅是精準營銷通過用戶行為分析實現(xiàn)精準營銷是大84管理大數(shù)據(jù)“易”理解大數(shù)據(jù)“難”雖然大數(shù)據(jù)是一個重大問題,真正的問題是讓大數(shù)據(jù)更有意義目前大數(shù)據(jù)管理多從架構和并行等方面考慮,解決高并發(fā)數(shù)據(jù)存取的性能要求及數(shù)據(jù)存儲的橫向擴展,但對非結構化數(shù)據(jù)的內容理解仍缺乏實質性的突破和進展,這是實現(xiàn)大數(shù)據(jù)資源化、知識化、普適化的核心非結構化海量信息的智能化處理:自然語言理解、多媒體內容理解、機器學習等管理大數(shù)據(jù)“易”理解大數(shù)據(jù)“難”雖然大數(shù)據(jù)是一個重大問題,真85分析技術:數(shù)據(jù)處理:自然語言處理技術統(tǒng)計和分析:A/Btest;topN排行榜;地域占比;文本情感分析數(shù)據(jù)挖掘:關聯(lián)規(guī)則分析;分類;聚類模型預測:預測模型;機器學習;建模仿真大數(shù)據(jù)技術:數(shù)據(jù)采集:ETL工具數(shù)據(jù)存?。宏P系數(shù)據(jù)庫;NoSQL;SQL等基礎架構支持:云存儲;分布式文件系統(tǒng)等計算結果展現(xiàn):云計算;標簽云;關系圖等存儲結構化數(shù)據(jù):海量數(shù)據(jù)的查詢、統(tǒng)計、更新等操作效率低非結構化數(shù)據(jù)圖片、視頻、word、pdf、ppt等文件存儲不利于檢索、查詢和存儲半結構化數(shù)據(jù)轉換為結構化存儲按照非結構化存儲解決方案:Hadoop(MapReduce技術)流計算(twitter的storm和yahoo!的S4)數(shù)據(jù)采集數(shù)據(jù)儲存數(shù)據(jù)管理數(shù)據(jù)分析與挖掘一些相關技術分析技術:存儲解決方案:數(shù)據(jù)采集數(shù)據(jù)儲存數(shù)據(jù)管理數(shù)據(jù)分析與挖86行業(yè)拓展者,打造大數(shù)據(jù)行業(yè)基石:IBM:IBM大數(shù)據(jù)提供的服務包括數(shù)據(jù)分析,文本分析,藍色云杉(混搭供電合作的網絡平臺);業(yè)務事件處理;IBMMashupCenter的計量,監(jiān)測,和商業(yè)化服務(MMMS)IBM的大數(shù)據(jù)產品組合中的最新系列產品的InfoSpherebigInsights,基于ApacheHadoop。該產品組合包括:打包的ApacheHadoop的軟件和服務,代號是bigInsights核心,用于開始大數(shù)據(jù)分析軟件被稱為bigsheet,軟件目的是幫助從大量數(shù)據(jù)中輕松、簡單、直觀的提取、批注相關信息為金融,風險管理,媒體和娛樂等行業(yè)量身定做的行業(yè)解決方案微軟:2011年1月與惠普(具體而言是HP數(shù)據(jù)庫綜合應用部門)合作目標是開發(fā)了一系列能夠提升生產力和提高決策速度的設備。
EMC:EMC斬獲了紐交所和Nasdaq;大數(shù)據(jù)解決方案已包括40多個產品。Oracle:Oracle大數(shù)據(jù)機與OracleExalogic中間件云服務器、OracleExadata數(shù)據(jù)庫云服務器以及OracleExalytics商務智能云服務器一起組成了甲骨文最廣泛、高度集成化系統(tǒng)產品組合。大數(shù)據(jù)的應用--企業(yè)在投入
行業(yè)拓展者,打造大數(shù)據(jù)行業(yè)基石:IBM:大數(shù)據(jù)的應用--企業(yè)87政府職能變革重視應用大數(shù)據(jù)技術,盤活各地云計算中心資產:把原來大規(guī)模投資產業(yè)園、物聯(lián)網產業(yè)園從政績工程,改造成智慧工程;在安防領域,應用大數(shù)據(jù)技術,提高應急處置能力和安全防范能力;在民生領域,應用大數(shù)據(jù)技術,提升服務能力和運作效率,以及個性化的服務,比如醫(yī)療、衛(wèi)生、教育等部門;解決在金融,電信領域等中數(shù)據(jù)分析的問題:一直得到得極大的重視,但受困于存儲能力和計算能力的限制,只局限在交易數(shù)型數(shù)據(jù)的統(tǒng)計分析;政府投入將形成示范效應,大大推動大數(shù)據(jù)的發(fā)展。大數(shù)據(jù)的應用--政府
政府職能變革大數(shù)據(jù)的應用--政府
88“智慧大腦”智能感知互聯(lián)互通智能運營協(xié)同共享美國奧巴馬政府在白宮網站發(fā)布《大數(shù)據(jù)研究和發(fā)展倡議》,提出“通過收集、處理龐大而復雜的數(shù)據(jù)信息,從中獲得知識和洞見,提升能力,加快科學、工程領域的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二手辦公桌椅采購合同范本
- 2025年中國快運快遞產業(yè)園區(qū)行業(yè)市場全景評估及發(fā)展戰(zhàn)略研究報告
- 2025年度貨物批量存放與倉儲管理合同范本
- 2025年制衣服裝等行業(yè)深度研究分析報告
- 2025年度醫(yī)療健康企業(yè)獨立董事任聘與醫(yī)療質量管理協(xié)議
- 2025年度股權抵押擔保創(chuàng)業(yè)孵化合同
- 申請書的正文主要包括
- 2025年承載比測定儀項目投資可行性研究分析報告
- 2025年圓型鎳氫電池項目投資可行性研究分析報告
- 休學申請書范文
- 2024年6月第3套英語六級真題
- 2024年江蘇省公務員錄用考試《行測》題(A類)
- 2024年10月時政100題(附答案)
- 江蘇省無錫市2024年中考數(shù)學試卷(含答案)
- 2024年保密知識測試試題及答案(奪冠)
- 矯形器裝配工(四級)職業(yè)技能鑒定考試題庫(含答案)
- 北師大版八年級下冊因式分解(分組分解法)100題及答案
- 湖南2024年湖南省衛(wèi)生健康委直屬事業(yè)單位招聘276人筆試歷年典型考題及考點附答案解析
- SF-36生活質量調查表(SF-36-含評分細則)
- 2023年陜西西安亮麗電力集團有限責任公司招聘考試真題
- 不需公證的遺囑范文
評論
0/150
提交評論