大數(shù)據(jù)概述課件_第1頁(yè)
大數(shù)據(jù)概述課件_第2頁(yè)
大數(shù)據(jù)概述課件_第3頁(yè)
大數(shù)據(jù)概述課件_第4頁(yè)
大數(shù)據(jù)概述課件_第5頁(yè)
已閱讀5頁(yè),還剩50頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)概述2大數(shù)據(jù)在各個(gè)領(lǐng)域的應(yīng)用3大數(shù)據(jù)關(guān)鍵技術(shù)4Hadoop基礎(chǔ)概念5Hadoop3.0偽分布式部署1什么是大數(shù)據(jù)目錄什么是數(shù)據(jù)數(shù)據(jù)本質(zhì)是生產(chǎn)資料和資產(chǎn)OFFiceAPPS瀏覽器本地?cái)?shù)據(jù)商業(yè)數(shù)據(jù)數(shù)據(jù)中心結(jié)構(gòu)化數(shù)據(jù)/非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)爆炸性增長(zhǎng)2020年,預(yù)計(jì)全球數(shù)據(jù)量達(dá)到44ZB2015年,全球數(shù)據(jù)量達(dá)到8.61ZB2010年,全球數(shù)據(jù)量達(dá)到1.2ZB2008年,全球數(shù)據(jù)量達(dá)到0.49ZB著智能手機(jī)普及,數(shù)據(jù)業(yè)務(wù)爆炸性增長(zhǎng),“現(xiàn)在數(shù)據(jù)業(yè)務(wù)不是20%、30%地增長(zhǎng),而是300%、500%、600%地增長(zhǎng)數(shù)據(jù)爆炸性增長(zhǎng)微信:日發(fā)送消息次數(shù)380億Google

:每分鐘搜索380萬(wàn)次Twitter:平均每天發(fā)布推特?cái)?shù)已達(dá)到4億朋友圈日發(fā)表視頻次數(shù)6800萬(wàn)我們已經(jīng)步入大數(shù)據(jù)時(shí)代人與人之間機(jī)器與機(jī)器之間人與機(jī)器之間2015年,我們已經(jīng)有8.5ZB數(shù)據(jù)到2020年,會(huì)有44個(gè)ZB的數(shù)據(jù)預(yù)測(cè)2025年全球數(shù)據(jù)將攀升至163ZB2017年微信全年發(fā)送消息量138700億條消息Google2016年全年搜索量:2萬(wàn)億次以上大數(shù)據(jù)是指對(duì)海量數(shù)據(jù)進(jìn)行智慧分析并且預(yù)測(cè)結(jié)果的行為和思維方式數(shù)據(jù)量暴增大數(shù)據(jù)來(lái)源更多,不是隨機(jī)樣本而是全量數(shù)據(jù)更好,不是因果關(guān)系而是相關(guān)關(guān)系更雜,不是精確性而逝混雜性大數(shù)據(jù)本質(zhì)Google利用網(wǎng)絡(luò)大數(shù)據(jù)預(yù)測(cè)流感喬布斯的癌癥抗?fàn)?,自身所有DNA和腫瘤DNA排序大數(shù)據(jù)應(yīng)用實(shí)施大數(shù)據(jù)戰(zhàn)略,大力推動(dòng)大數(shù)據(jù)產(chǎn)業(yè)布局“十三五”規(guī)劃綱要發(fā)布提出實(shí)施國(guó)家大數(shù)據(jù)戰(zhàn)略把大數(shù)據(jù)作為基礎(chǔ)性戰(zhàn)略資源全面實(shí)施促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng),加快推動(dòng)數(shù)據(jù)資源共享開(kāi)放和開(kāi)發(fā)應(yīng)用,助力產(chǎn)業(yè)轉(zhuǎn)型升級(jí)和社會(huì)治理創(chuàng)新。十九大報(bào)告:推動(dòng)互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能和實(shí)體經(jīng)濟(jì)深度融加快建設(shè)制造強(qiáng)國(guó),加快發(fā)展先進(jìn)制造業(yè),推動(dòng)互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能和實(shí)體經(jīng)濟(jì)深度融合《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃(2016-2020年)》強(qiáng)化大數(shù)據(jù)產(chǎn)業(yè)創(chuàng)新發(fā)展能力為核心農(nóng)業(yè)部辦公廳印發(fā)《農(nóng)業(yè)農(nóng)村大數(shù)據(jù)試點(diǎn)方案》習(xí)近平:實(shí)施國(guó)家大數(shù)據(jù)戰(zhàn)略加快建設(shè)數(shù)字中國(guó)大數(shù)據(jù)概念大數(shù)據(jù)(bigdata),指無(wú)法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)大數(shù)據(jù)是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。大數(shù)據(jù)就是“未來(lái)的新石油”。大數(shù)據(jù)的特點(diǎn)Volume存儲(chǔ)量大:預(yù)計(jì)2025年全球數(shù)據(jù)量達(dá)到163ZB增量大:數(shù)據(jù)呈爆炸性增長(zhǎng),正在以300%,600%的增長(zhǎng)率增長(zhǎng)體量大增長(zhǎng)速度快(高速數(shù)據(jù)I/O)處理速度快速度快在龐大的數(shù)據(jù)量中挖掘有價(jià)值的數(shù)據(jù),猶如在沙里淘金價(jià)值密度低來(lái)源多:搜索引擎、社交網(wǎng)絡(luò)、通話記錄、傳感器…數(shù)據(jù)類型多:結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)種類繁多VarietyVelocityValue大數(shù)據(jù)帶來(lái)的影響大數(shù)據(jù)影響著社會(huì)信息化的進(jìn)程社會(huì)變革的力量我國(guó)大數(shù)據(jù)的建設(shè)將圍繞大智慧進(jìn)行,未來(lái)十年,決定我國(guó)是否有大智慧的核心標(biāo)準(zhǔn)是國(guó)民幸福。而國(guó)民幸福的體現(xiàn),一是民生:通過(guò)大數(shù)據(jù)看我們?cè)谌伺c人的關(guān)系上做得是否比以前更有意義;二是生態(tài):通過(guò)大數(shù)據(jù)看我們?cè)谏鐣?huì)與自然、人與自然的關(guān)系上做得是否比以前更有意義。經(jīng)濟(jì)變革的力量(1)大數(shù)據(jù)激發(fā)內(nèi)需的劇增,引發(fā)產(chǎn)業(yè)的巨變。(2)建設(shè)更高水平的智慧城鄉(xiāng)。(3)各行各業(yè)數(shù)據(jù)業(yè)務(wù)轉(zhuǎn)型升級(jí)。組織變革的力量大數(shù)據(jù)的特點(diǎn)在于意義主導(dǎo)價(jià)值,它將引起組織結(jié)構(gòu)的改變和發(fā)展革新。重構(gòu)互聯(lián)網(wǎng)云計(jì)算和大數(shù)據(jù)已經(jīng)帶來(lái)了像IT生產(chǎn)力、計(jì)算范式、開(kāi)發(fā)方式這樣偏架構(gòu)和技術(shù)的變革,它們最大的價(jià)值在于讓社會(huì)得以革新與升級(jí),促使互聯(lián)網(wǎng)進(jìn)行重構(gòu)。2大數(shù)據(jù)在各個(gè)領(lǐng)域的應(yīng)用3大數(shù)據(jù)關(guān)鍵技術(shù)1什么是大數(shù)據(jù)4Hadoop基礎(chǔ)概念5Hadoop3.0偽分布式部署目錄大數(shù)據(jù)在醫(yī)療行業(yè)的應(yīng)用

佛羅里達(dá)大學(xué)使用免費(fèi)公共衛(wèi)生數(shù)據(jù)和Google地圖創(chuàng)建視覺(jué)數(shù)據(jù),可以更快速地識(shí)別和有效分析醫(yī)療信息,用于跟蹤慢性病的傳播。

ValenceHealth通過(guò)建立醫(yī)療大數(shù)據(jù)平臺(tái)提供醫(yī)療輔助決策,提高了該院醫(yī)保結(jié)果和財(cái)務(wù)狀況。大數(shù)據(jù)在交通行業(yè)的應(yīng)用

以色列實(shí)時(shí)識(shí)別模式系統(tǒng),基于車輛的道路通過(guò)時(shí)間來(lái)收費(fèi),有效降低道路擁堵情況

百度地圖與交通部門合作深挖大數(shù)據(jù),大幅提升用戶出行體驗(yàn),為共享出行提供基礎(chǔ)支持,輔助宏觀交通規(guī)劃決策,提高日常交通疏導(dǎo)效率,也為無(wú)人車提供可靠的公共大數(shù)據(jù)依賴大數(shù)據(jù)在教育行業(yè)的應(yīng)用北京大學(xué)使用大數(shù)據(jù)對(duì)學(xué)生進(jìn)行學(xué)業(yè)預(yù)測(cè)。通過(guò)近8年的考試成績(jī)數(shù)據(jù),對(duì)學(xué)生進(jìn)行分類,然后進(jìn)行訓(xùn)練,利用矩陣相關(guān)性進(jìn)行匹配,從而得到課程之間的相關(guān)性,得到一個(gè)線性回歸的計(jì)算模型,通過(guò)這個(gè)模型用來(lái)預(yù)測(cè)學(xué)生在某一個(gè)課程的成績(jī),預(yù)測(cè)精準(zhǔn)值在±8分,準(zhǔn)確率可以做到90%以上西南交通大學(xué)通過(guò)大數(shù)據(jù)建立貧困生分析系統(tǒng)?;谀壳皩W(xué)校在發(fā)放助學(xué)金的時(shí)候,沒(méi)有數(shù)據(jù)依據(jù)支撐,主觀性比較大的背景。那么在西安交通大學(xué)借助于大數(shù)據(jù)技術(shù),對(duì)學(xué)校的貧困生進(jìn)行精準(zhǔn)識(shí)別,可以發(fā)現(xiàn)一些虛假貧困生,如貧困生中的非貧困學(xué)生;發(fā)現(xiàn)一些需要關(guān)愛(ài)的學(xué)生,如非貧困生中的貧困學(xué)生,對(duì)其進(jìn)行特別關(guān)愛(ài)。還可以計(jì)算出,應(yīng)該給需要關(guān)愛(ài)的學(xué)生的具體的資助金額西北工業(yè)大學(xué)通過(guò)大數(shù)據(jù)建立領(lǐng)導(dǎo)駕駛艙。通過(guò)這個(gè)駕駛艙,可以做到基于領(lǐng)導(dǎo)的視角去縱覽學(xué)校的數(shù)據(jù)2大數(shù)據(jù)在各個(gè)領(lǐng)域的應(yīng)用3大數(shù)據(jù)相關(guān)技術(shù)1什么是大數(shù)據(jù)4Hadoop基礎(chǔ)概念5Hadoop3.0偽分布式部署目錄大數(shù)據(jù)采集數(shù)據(jù)庫(kù)采集網(wǎng)絡(luò)數(shù)據(jù)采集文件采集數(shù)據(jù)總線(flume、Kafka、sqoop)大數(shù)據(jù)采集大數(shù)據(jù)預(yù)處理大數(shù)據(jù)存儲(chǔ)大數(shù)據(jù)分析挖掘展示和交互數(shù)據(jù)庫(kù)采集采集頻率靜態(tài)數(shù)據(jù)高頻數(shù)據(jù)低頻數(shù)據(jù)人事檔案信息歷史數(shù)據(jù)源個(gè)人信息數(shù)據(jù)數(shù)據(jù)課程信息一卡通互聯(lián)網(wǎng)日志W(wǎng)I-FI采集程序客戶端實(shí)時(shí)抓取、清洗解析定時(shí)采集/導(dǎo)入成績(jī)信息課程信息就業(yè)信息借閱信息按數(shù)據(jù)采集頻率關(guān)系型數(shù)據(jù)庫(kù)非關(guān)系型數(shù)據(jù)庫(kù)…結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)辦公文檔文本圖片XMLHTML各類報(bào)表音頻視頻企業(yè)ERP財(cái)務(wù)數(shù)據(jù)醫(yī)療HIS數(shù)據(jù)庫(kù)教育一卡通政府行政審批其他核心數(shù)據(jù)庫(kù)網(wǎng)絡(luò)數(shù)據(jù)采集網(wǎng)絡(luò)爬蟲(chóng)和API方式采集非結(jié)構(gòu)化數(shù)據(jù)

通過(guò)這種途徑可將網(wǎng)絡(luò)上非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁(yè)中提取出來(lái),并以結(jié)構(gòu)化的方式將其存儲(chǔ)為統(tǒng)一的本地?cái)?shù)據(jù)文件。

網(wǎng)絡(luò)數(shù)據(jù)采集主要是借助網(wǎng)絡(luò)爬蟲(chóng)或網(wǎng)站公開(kāi)API等方式,從網(wǎng)站上獲取數(shù)據(jù)信息的過(guò)程。大數(shù)據(jù)預(yù)處理數(shù)據(jù)庫(kù)采集網(wǎng)絡(luò)數(shù)據(jù)采集文件采集數(shù)據(jù)總線ETL工具(flume、Kafka、sqoop)大數(shù)據(jù)采集大數(shù)據(jù)預(yù)處理大數(shù)據(jù)存儲(chǔ)大數(shù)據(jù)分析挖掘展示和交互數(shù)據(jù)清理數(shù)據(jù)清理數(shù)據(jù)清理主要包含遺漏值處理(缺少感興趣的屬性)、噪音數(shù)據(jù)處理(數(shù)據(jù)中存在著錯(cuò)誤、或偏離期望值的數(shù)據(jù))、不一致數(shù)據(jù)處理。主要的清洗工具是ETL(Extraction/Transformation/Loading)和Potter’sWheel。遺漏數(shù)據(jù)可用全局常量、屬性均值、可能值填充或者直接忽略該數(shù)據(jù)等方法處理;噪音數(shù)據(jù)可用分箱(對(duì)原始數(shù)據(jù)進(jìn)行分組,然后對(duì)每一組內(nèi)的數(shù)據(jù)進(jìn)行平滑處理)、聚類、計(jì)算機(jī)人工檢查和回歸等方法去除噪音;對(duì)于不一致數(shù)據(jù)則可進(jìn)行手動(dòng)更正。數(shù)據(jù)源數(shù)據(jù)源數(shù)據(jù)源中間數(shù)據(jù)庫(kù)抽取(清洗)抽?。ㄇ逑矗┏槿。ㄇ逑矗┘虞d轉(zhuǎn)換(清洗)目標(biāo)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)清洗在ETL中的應(yīng)用模型大數(shù)據(jù)存儲(chǔ)數(shù)據(jù)庫(kù)采集網(wǎng)絡(luò)數(shù)據(jù)采集文件采集數(shù)據(jù)總線ETL工具(flume、Kafka、sqoop)大數(shù)據(jù)采集大數(shù)據(jù)預(yù)處理大數(shù)據(jù)存儲(chǔ)大數(shù)據(jù)分析挖掘展示和交互數(shù)據(jù)清理MPP架構(gòu)的新型數(shù)據(jù)庫(kù)集群基于Hadoop的技術(shù)擴(kuò)展和封裝分布式文件系統(tǒng)(HDFS、GFS)Nosql數(shù)據(jù)庫(kù)(HBase、Redis)關(guān)系型數(shù)據(jù)庫(kù)和非關(guān)系型數(shù)據(jù)庫(kù)的融合內(nèi)存數(shù)據(jù)庫(kù)(MemCache)MPP架構(gòu)數(shù)據(jù)庫(kù)集群和HDFS分布式DATA轉(zhuǎn)換/劃分并行入庫(kù)節(jié)點(diǎn)組目錄組節(jié)點(diǎn)2…P1P2P3P4P5P6MPP集群并行數(shù)據(jù)庫(kù)分步式存儲(chǔ)HDFS數(shù)據(jù)劃分方式Hash,Range,List,datetime虛分區(qū)技術(shù),支持規(guī)模動(dòng)態(tài)擴(kuò)展無(wú)需重新計(jì)算分區(qū)節(jié)點(diǎn)1P7P8P9P10P11P12子目錄1F1F2F3F4F5…子目錄2F1F2F3F4F5……任務(wù)并行執(zhí)行數(shù)據(jù)分布式存儲(chǔ)(本地化)分布式計(jì)算私有資源橫向擴(kuò)展Shared

Nothing架構(gòu)基于Hadoop的技術(shù)擴(kuò)展和封裝基于Hadoop的技術(shù)擴(kuò)展和封裝,圍繞Hadoop衍生出相關(guān)的大數(shù)據(jù)技術(shù),應(yīng)對(duì)傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)較難處理的數(shù)據(jù)和場(chǎng)景,例如針對(duì)非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)和計(jì)算等,充分利用Hadoop開(kāi)源的優(yōu)勢(shì),伴隨相關(guān)技術(shù)的不斷進(jìn)步,其應(yīng)用場(chǎng)景也將逐步擴(kuò)大,目前最為典型的應(yīng)用場(chǎng)景就是通過(guò)擴(kuò)展和封裝Hadoop來(lái)實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)大數(shù)據(jù)存儲(chǔ)、分析的支撐。這里面有幾十種NoSQL技術(shù),也在進(jìn)一步的細(xì)分。對(duì)于非結(jié)構(gòu)、半結(jié)構(gòu)化數(shù)據(jù)處理、復(fù)雜的ETL流程、復(fù)雜的數(shù)據(jù)挖掘和計(jì)算模型,Hadoop平臺(tái)更擅長(zhǎng)。分析類應(yīng)用結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)Hadoop新型數(shù)據(jù)庫(kù)高價(jià)值密度數(shù)據(jù)低價(jià)值密度數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)分布式文件系統(tǒng)(GFS、HDFS)GFS架構(gòu)設(shè)計(jì)HDFS架構(gòu)設(shè)計(jì)高容錯(cuò)性數(shù)據(jù)自動(dòng)保存多個(gè)副本副本丟失后,自動(dòng)恢復(fù)適合批處理移動(dòng)計(jì)算而非移動(dòng)數(shù)據(jù)數(shù)據(jù)位置暴露給計(jì)算框架適合大數(shù)據(jù)處理GB、TB、甚至PB級(jí)數(shù)據(jù)提供了容錯(cuò)和恢復(fù)機(jī)制通過(guò)多副本提高可靠性Google三駕馬車BigTable,Mapreduce、GFS非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)高性能、可擴(kuò)展性、可靠性、可用性海量數(shù)據(jù)讀寫(xiě)容錯(cuò)機(jī)制數(shù)據(jù)分散到多個(gè)節(jié)點(diǎn)上多副本存儲(chǔ)、冗余備份、快速恢復(fù)大數(shù)據(jù)分析挖掘數(shù)據(jù)庫(kù)采集網(wǎng)絡(luò)數(shù)據(jù)采集文件采集數(shù)據(jù)總線ETL工具(flume、Kafka、sqoop)大數(shù)據(jù)采集大數(shù)據(jù)預(yù)處理大數(shù)據(jù)存儲(chǔ)大數(shù)據(jù)分析挖掘展示和交互數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)變換數(shù)據(jù)規(guī)約MPP架構(gòu)的新型數(shù)據(jù)庫(kù)集群基于Hadoop的技術(shù)擴(kuò)展和封裝分布式文件系統(tǒng)(HDFS、GFS)Nosql數(shù)據(jù)庫(kù)(HBase、Redis)關(guān)系型數(shù)據(jù)庫(kù)和非關(guān)系型數(shù)據(jù)庫(kù)的融合內(nèi)存數(shù)據(jù)庫(kù)(MemCache)數(shù)據(jù)查詢統(tǒng)計(jì)與分析(MapReduce、Pig、Hive)數(shù)據(jù)預(yù)測(cè)與挖掘(Spark、Mahout)圖譜處理BI商業(yè)智能可視化分析數(shù)據(jù)挖掘算法預(yù)測(cè)性分析語(yǔ)義引擎數(shù)據(jù)質(zhì)量管理MapReduce分布式計(jì)算架構(gòu)MapReduce是Google提出的一個(gè)軟件架構(gòu),用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算。它使編程人員在不了解分布式并行編程的情況下,能將自己的程序運(yùn)行在分布式系統(tǒng)上。Map=映射Reduce=規(guī)約或化簡(jiǎn)MapReduce統(tǒng)計(jì)單詞展示和交互數(shù)據(jù)庫(kù)采集網(wǎng)絡(luò)數(shù)據(jù)采集文件采集數(shù)據(jù)總線ETL工具(flume、Kafka、sqoop)大數(shù)據(jù)采集大數(shù)據(jù)預(yù)處理大數(shù)據(jù)存儲(chǔ)大數(shù)據(jù)分析挖掘展示和交互數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)變換數(shù)據(jù)規(guī)約MPP架構(gòu)的新型數(shù)據(jù)庫(kù)集群基于Hadoop的技術(shù)擴(kuò)展和封裝分布式文件系統(tǒng)(HDFS、GFS)Nosql數(shù)據(jù)庫(kù)(HBase、Redis)關(guān)系型數(shù)據(jù)庫(kù)和非關(guān)系型數(shù)據(jù)庫(kù)的融合內(nèi)存數(shù)據(jù)庫(kù)(MemCache)數(shù)據(jù)查詢統(tǒng)計(jì)與分析(MapReduce、Pig、Hive)數(shù)據(jù)預(yù)測(cè)與挖掘(Spark、Mahout)圖譜處理BI商業(yè)智能可視化分析數(shù)據(jù)挖掘算法預(yù)測(cè)性分析語(yǔ)義引擎數(shù)據(jù)質(zhì)量管理圖形與報(bào)表(Hue)可視化工具(D3、Echart、Mapv、)增強(qiáng)現(xiàn)實(shí)技術(shù)(Google眼鏡)標(biāo)簽云奧馬巴布什克林頓林肯聚類圖聚類圖(Clustergram)是指用圖形方式展示聚類分析結(jié)果的技術(shù),可以有助于判斷簇?cái)?shù)量不同時(shí)的聚類效果空間信息流空間信息流(Spatialinformationflow)是展示信息空間狀態(tài)的一種可視化技術(shù)。熱圖

熱圖(Heatmap)是一項(xiàng)數(shù)據(jù)展示技術(shù),將變量值用不同的顏色或高亮形式描繪出來(lái)??梢苑浅V庇^的呈現(xiàn)一些原本不易理解或表達(dá)的數(shù)據(jù),比如密度、頻率、溫度等。用戶視覺(jué)注意力圖2大數(shù)據(jù)在各個(gè)領(lǐng)域的應(yīng)用3大數(shù)據(jù)相關(guān)技術(shù)1什么是大數(shù)據(jù)4Hadoop基礎(chǔ)概念5Hadoop3.0偽分布式部署目錄Hadoop成為大數(shù)據(jù)開(kāi)放的事實(shí)標(biāo)準(zhǔn)Hadoop——Apache基金會(huì)最成功項(xiàng)目之一Hadoop是Apache基金會(huì)的一個(gè)項(xiàng)目總稱,主要由HDFS、MapReduce和HBase等組成。HDFS是對(duì)GoogleGFS的開(kāi)源實(shí)現(xiàn),MapReduce是對(duì)GoogleMapReduce的開(kāi)源實(shí)現(xiàn),HBase是GoogleBigTable的開(kāi)源實(shí)現(xiàn)。

Hadoop來(lái)源于其創(chuàng)始人DougCutting的兒子給一頭黃色大象取的名字。Hadoop最初只與網(wǎng)頁(yè)索引有關(guān),迅速發(fā)展成為分析大數(shù)據(jù)的領(lǐng)先平臺(tái)。Hadoop生態(tài)系統(tǒng)組成HDFS分布式文件系統(tǒng)Sqoop數(shù)據(jù)庫(kù)ETL工具Flume日志收集工具Ambari(安裝、部署、配置和管理工具)Stome流式計(jì)算框架TezDAG計(jì)算框架MapReduce分布式離線計(jì)算框架YARN(集群資源管理系統(tǒng))Hive數(shù)據(jù)倉(cāng)庫(kù)Pig數(shù)據(jù)流處理Mahout數(shù)據(jù)挖掘庫(kù)Hive2數(shù)據(jù)倉(cāng)庫(kù)Pig2數(shù)據(jù)流處理Zookeeper分布式協(xié)作服務(wù)Hbase實(shí)時(shí)分布式數(shù)據(jù)庫(kù)Hadoop技術(shù)選型和架構(gòu)設(shè)計(jì)Hadoop技術(shù)選型和架構(gòu)設(shè)計(jì)Web服務(wù)器flumeHDFSMapReduceHiveSqoopHBase前端Flume收集日志HDFS日志存儲(chǔ)MapReduce數(shù)據(jù)清洗Hive數(shù)據(jù)挖掘Sqoop數(shù)據(jù)導(dǎo)出數(shù)據(jù)存儲(chǔ)到HBase數(shù)據(jù)可視化展示HDFS分布式文件系統(tǒng)簡(jiǎn)介不適用場(chǎng)景存儲(chǔ)大文件將大文件分割成很多小塊存儲(chǔ)流式數(shù)據(jù)讀取,“writeonereadmany”本身是分布式的,具備良好的可擴(kuò)展性通過(guò)放開(kāi)POSIX要求,極大改善數(shù)據(jù)讀寫(xiě)性能HDFS主要特點(diǎn)存儲(chǔ)大量小文件(<1MB)實(shí)時(shí)數(shù)據(jù)讀取需經(jīng)常修改數(shù)據(jù)的場(chǎng)景NameNodeHDFSClientSecondaryNamaNodeDataNodeDataNodeDataNodeDataNodeDataNodeABCDBACAECDEDBEHeartbeaty,balancing,replicationetc.Data

writing文件被切分成大小相同的數(shù)據(jù)塊(最末尾的塊可能小于塊大小),并存儲(chǔ)在不同的數(shù)據(jù)節(jié)點(diǎn)上。HDFS架構(gòu)圖MapReduce分布式計(jì)算架構(gòu)簡(jiǎn)介

ApacheMapReduce是googleMapReduce的開(kāi)源實(shí)現(xiàn)。是對(duì)并行計(jì)算的封裝,使用戶通過(guò)一些簡(jiǎn)單的邏輯即可完成復(fù)雜的并行計(jì)算。其核心理念是將一個(gè)大的運(yùn)算任務(wù)分解到集群每個(gè)節(jié)點(diǎn)上,充分運(yùn)用集群資源,縮短運(yùn)行時(shí)間。Hbase分布式數(shù)據(jù)庫(kù)簡(jiǎn)介HBase是一個(gè)分布式的架構(gòu),從功能上可以分為三塊:Zookeeper群、Master群和RegionServer群。Zookeeper群:

選舉出一個(gè)Master作為集群的總管、主備切換,避免集群?jiǎn)吸c(diǎn)時(shí)效問(wèn)題,并且存儲(chǔ)了root表尋址信息。Master群: Master主要負(fù)責(zé)表和Region的管理工作,用戶對(duì)表的的增、刪、改、查作為,以及故障遷移等。RegionServer群:

主要是管理region,負(fù)責(zé)具體數(shù)據(jù)的讀寫(xiě)請(qǐng)求。Zookeeper簡(jiǎn)介提供分布式鎖的服務(wù)提供了事件偵聽(tīng)機(jī)制個(gè)別場(chǎng)景,可充當(dāng)一個(gè)微型數(shù)據(jù)庫(kù)角色

例如,集群中master選舉,怎么樣保證僅有一個(gè)Active角色存在?這就需要一個(gè)分布式的鎖機(jī)制來(lái)保證。集群中的節(jié)點(diǎn)啟動(dòng)時(shí),會(huì)去向zookeeper集群服務(wù)的指定目錄下(比如/lock目錄)創(chuàng)建臨時(shí)帶序列的節(jié)點(diǎn),這些節(jié)點(diǎn)中誰(shuí)的節(jié)點(diǎn)序列最小,那么就選舉這個(gè)節(jié)點(diǎn)作為我們集群的Master。

例如,主Master進(jìn)程宕掉之后,其它的備Master如何能夠快速的接管?這個(gè)過(guò)程中,備Master在偵聽(tīng)那個(gè)對(duì)應(yīng)ZooKeeper節(jié)點(diǎn)。主Master進(jìn)程宕掉之后,該節(jié)點(diǎn)會(huì)被刪除,那么,其它的備Master就可以收到相應(yīng)的消息。

例如,在ZooKeeper中存放了RootRegion的地址(RootRegion原來(lái)是存在ZooKeeper中的!),此時(shí),可以將它理解成一個(gè)微型數(shù)據(jù)庫(kù)。2大數(shù)據(jù)在各個(gè)領(lǐng)域的應(yīng)用3大數(shù)據(jù)相關(guān)技術(shù)4Hadoop基礎(chǔ)概念5Hadoop3.0偽分布式安裝1什么是大數(shù)據(jù)目錄環(huán)境準(zhǔn)備CentosCentos6.8

X64JavaSEDevelopmentKitJDK1.8Hadoop3Hadoop

3.0.1環(huán)境準(zhǔn)備Hadoop3.0.1安裝包下載,HttP地址如下:/apache/hadoop/common/hadoop-3.0.1/hadoop-3.0.1.tar.gz

/apache/hadoop/common/hadoop-3.0.1/hadoop-3.0.1.tar.gz

/apache/hadoop/common/hadoop-3.0.1/hadoop-3.0.1.tar.gz

JavaSEDevelopmentKit8u161下載/technetwork/java/javase/downloads/jdk8-downloads-2133151.htmlCentos7下載http:///centos/7/isos/x86_64/CentOS-7-x86_64-DVD-1708.iso基礎(chǔ)環(huán)境準(zhǔn)備1、配置主機(jī)名

#vi/etc/sysconfig/network

編輯修改 HOSTNAME=hadoop1 #reboot 重啟虛擬機(jī)生效2、配置hosts文件

#vi/etc/hosts

11hadoop13、關(guān)閉防火墻 #serviceiptablesstop4、配置SSH免密登錄

#cd~ #ssh-keygen-trsa #cd~/.ssh #catid_rsa.pub>>~/.ssh/authorized_keys #sshhadoop1測(cè)試免密登錄是否成功5、安裝JDK軟件

#tar-zxvf jdk-8u161-linux-x64.tar.gz-C/use/local

配置java環(huán)境變量

#vi/etc/profile exportJAVA_HOME=/usr/local/jdk1.8.0_161 exportCLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar exportPATH=$PATH:$JAVA_HOME/bin

刷新環(huán)境變量 #source/etc/profile

測(cè)試java是否安裝成功 #java-version

如果出現(xiàn)java版本說(shuō)明java安裝成功

基礎(chǔ)環(huán)境準(zhǔn)備部署Hadoop3.0偽分布式下載解壓配置hadoop-env.sh配置core-site.xml配置hdfs-site.xml配置mapred-site.xml配置yarn-site.xml配置環(huán)境變量PATH初始化namenode啟動(dòng)測(cè)試:上傳數(shù)據(jù)到HDFS測(cè)試:運(yùn)行自帶的wordcount命令部署Hadoop3.0偽分布式1、解壓縮Hadoop安裝包到/opt目錄下

#tar-zxvfhadoop-3.1.0.tar.gz–C/opt2、配置Hadoop配置文件

修改core-site.xml文件 #vi/opt/hadoop-3.1.0/etc/hadoop/core-site.xml<configuration><property><name>fs.defaultFS</name><value>hdfs://hadoop1:9000</value></property><property><name>hadoop.tmp.dir</name><value>/opt/hadoop-3.1.0/tmp</value></property></configuration>

部署Hadoop3.0偽分布式

修改hdfs-site.xml

#vi/opt/hadoop-3.1.0/etc/hadoop/hdfs-site.xml<configuration><property><name>dfs.replication</name><value>3</value></property></configuration>

修改mapred-site.xml

#vi/opt/hadoop-3.1.0/etc/hadoop/mapred-site.xml<configuration><property><name></name><value>yarn</value></property><property><name>mapreduce.application.classpath</name><value>/opt/hadoop-3.1.0/etc/hadoop,/opt/hadoop-3.1.0/share/hadoop/common/*,/opt/hadoop-3.1.0/share/hadoop/common/lib/*,/opt/hadoop-3.1.0/share/hadoop/hdfs/*,/opt/hadoop-3.1.0/share/hadoop/hdfs/lib/*,/opt/hadoop-3.1.0/share/hadoop/mapreduce/*,/opt/hadoop-3.1.0/share/hadoop/mapreduce/lib/*,/opt/hadoop-3.1.0/share/hadoop/yarn/*,/opt/hadoop-3.1.0/share/hadoop/yarn/lib/*</value></property></configuration>部署Hadoop3.0偽分布式

修改yarn-site.xml

#vi/opt/hadoop-3.1.0/etc/hadoop/yarn-site.xml<configuration><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property></configuration>

修改hadoop-env.sh,配置JDK路徑 #vi/opt/hadoop-3.1.0/etc/hadoop/hadoop-env.sh exportJAVA_HOME=/usr/java/jdk1.8.0_161

修改Hadoop啟動(dòng)腳本,添加用戶

分別編輯start-yarn.sh、stop-yarn.sh配置如下內(nèi)容

部署Hadoop3.0偽分布式部署Hadoop3.0偽分布式

#vi/opt/hadoop-3.1.0/sbin/start-yarn.shexportYARN_RESOURCEMANAGER_USER=rootex

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論