大數(shù)據(jù)技術(shù)原理與操作應(yīng)用 第1章 初始Hadoop_第1頁(yè)
大數(shù)據(jù)技術(shù)原理與操作應(yīng)用 第1章 初始Hadoop_第2頁(yè)
大數(shù)據(jù)技術(shù)原理與操作應(yīng)用 第1章 初始Hadoop_第3頁(yè)
大數(shù)據(jù)技術(shù)原理與操作應(yīng)用 第1章 初始Hadoop_第4頁(yè)
大數(shù)據(jù)技術(shù)原理與操作應(yīng)用 第1章 初始Hadoop_第5頁(yè)
已閱讀5頁(yè),還剩22頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第1章初始Hadoop·大數(shù)據(jù)的介紹·Hadoop的介紹12?學(xué)習(xí)目標(biāo)了解掌握掌握了解什么是大數(shù)據(jù)及其特征12Hadoop的生態(tài)環(huán)境4Hadoop的應(yīng)用場(chǎng)景3Hadoop的發(fā)展歷史及其版本本章通過(guò)對(duì)大數(shù)據(jù)的簡(jiǎn)介、Hadoop的歷史版本、Hadoop的應(yīng)用場(chǎng)景、Hadoop的生態(tài)體系等進(jìn)行詳細(xì)講解。章節(jié)概要近年來(lái),隨著科技的進(jìn)步以及移動(dòng)互聯(lián)網(wǎng)、5G移動(dòng)通信網(wǎng)絡(luò)技術(shù)的發(fā)展,實(shí)際應(yīng)用場(chǎng)景中的數(shù)據(jù)規(guī)模也爆炸式地增長(zhǎng),大數(shù)據(jù)(BigData)引起了國(guó)內(nèi)外產(chǎn)業(yè)界、學(xué)術(shù)界和政府部門(mén)的高度關(guān)注。各類基于大數(shù)據(jù)的應(yīng)用正日益對(duì)全球生產(chǎn)、流通、分配、消費(fèi)活動(dòng),以及經(jīng)濟(jì)運(yùn)行機(jī)制、社會(huì)生活方式和國(guó)家治理能力產(chǎn)生重大影響。

1.1大數(shù)據(jù)的介紹大數(shù)據(jù)的概念大數(shù)據(jù)是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)?!按髷?shù)據(jù)”是指用現(xiàn)有的一般技術(shù)難以管理的大量數(shù)據(jù)的集合,即所涉及的資料量規(guī)模巨大到無(wú)法通過(guò)目前主流軟件工具在合理時(shí)間內(nèi)達(dá)到提取、管理、處理。

1.1大數(shù)據(jù)的介紹大數(shù)據(jù)的特征目前,通常認(rèn)為大數(shù)據(jù)具有四大特征,即體量大、種類多、速度快和價(jià)值密度低。其核心在于對(duì)這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理。體量大種類多速度快價(jià)值密度低性6(一)體量大體量大指數(shù)據(jù)集體量非常巨大,在“大數(shù)據(jù)”剛剛提出的時(shí)候,普遍認(rèn)為PB級(jí)的數(shù)據(jù)可以稱為“大數(shù)據(jù)”,但這并不絕對(duì)。在實(shí)際應(yīng)用中,很多企業(yè)用戶將多個(gè)數(shù)據(jù)集放在一起,已經(jīng)形成了TB級(jí)或PB級(jí)的數(shù)據(jù)量。(二)種類多在大數(shù)據(jù)面對(duì)的應(yīng)用場(chǎng)景中,數(shù)據(jù)種類多,一方面體現(xiàn)在面向一類場(chǎng)景的大數(shù)據(jù)集可能同時(shí)覆蓋結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù),另一方面也體現(xiàn)在同類數(shù)據(jù)中的結(jié)構(gòu)模式復(fù)雜多樣。7(三)速度多數(shù)據(jù)生成、存儲(chǔ)、分析、處理的速度超出人們的想象。一方面,數(shù)據(jù)來(lái)源于對(duì)現(xiàn)實(shí)世界和人的行為的持續(xù)觀察。如果希望在數(shù)據(jù)基礎(chǔ)上對(duì)客觀世界加以研究,就必須保持足夠高的采樣率,以確保能夠刻畫(huà)現(xiàn)實(shí)世界的細(xì)節(jié)。另一方面,數(shù)據(jù)集必須能夠持續(xù)、快速地更新,才能夠不斷地描述客觀世界和人的行為變化,這就要求技術(shù)上必須考慮時(shí)效性要求,實(shí)現(xiàn)實(shí)時(shí)數(shù)據(jù)的處理。(四)價(jià)值密度低在大數(shù)據(jù)中,通過(guò)數(shù)據(jù)分析,在無(wú)序數(shù)據(jù)中建立關(guān)聯(lián)可以獲得大量高價(jià)值的隱含知識(shí),從而具有巨大價(jià)值。這一價(jià)值體現(xiàn)在統(tǒng)計(jì)特征、事件檢測(cè)、關(guān)聯(lián)和假設(shè)檢驗(yàn)等各個(gè)方面。另一方面,數(shù)據(jù)的價(jià)值并不一定隨數(shù)據(jù)集的大小增加而增加。

1.1大數(shù)據(jù)的介紹大數(shù)據(jù)技術(shù)的概述目前大數(shù)據(jù)技術(shù)主要包括幾個(gè)方面:大數(shù)據(jù)采集技術(shù)、大數(shù)據(jù)預(yù)處理技術(shù)、大數(shù)據(jù)存儲(chǔ)及管理技術(shù)、大數(shù)據(jù)分析及挖掘技術(shù)和數(shù)據(jù)可視化技術(shù)。大數(shù)據(jù)采集大數(shù)據(jù)預(yù)處理大數(shù)據(jù)存儲(chǔ)及管理大數(shù)據(jù)分析及挖掘數(shù)據(jù)可視化9(一)大數(shù)據(jù)采集技術(shù)數(shù)據(jù)采集主要通過(guò)Web、應(yīng)用、傳感器等方式獲得各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù),難點(diǎn)在于采集量大且數(shù)據(jù)類型繁多。采集網(wǎng)絡(luò)數(shù)據(jù)可以通過(guò)網(wǎng)絡(luò)爬蟲(chóng)或者API的方式來(lái)獲取。例如:Hadoop的Chukwa、Flume,F(xiàn)acebook的Scribe等。(二)大數(shù)據(jù)預(yù)處理技術(shù)大數(shù)據(jù)的預(yù)處理包括對(duì)數(shù)據(jù)的抽取和清洗等方面。由于大數(shù)據(jù)的數(shù)據(jù)類型是多樣化的,不利于快速分析處理,數(shù)據(jù)抽取過(guò)程可以將數(shù)據(jù)轉(zhuǎn)化為單一的或者便于處理的數(shù)據(jù)結(jié)構(gòu)。10(三)大數(shù)據(jù)存儲(chǔ)及管理技術(shù)大數(shù)據(jù)的存儲(chǔ)及管理與傳統(tǒng)數(shù)據(jù)相比,難點(diǎn)在于數(shù)據(jù)量大、數(shù)據(jù)類型多,文件大小可能超過(guò)單個(gè)磁盤(pán)容量。企業(yè)要解決這些問(wèn)題,實(shí)現(xiàn)對(duì)結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化海量數(shù)據(jù)的存儲(chǔ)與管理,可以綜合利用分布式文件系統(tǒng)、數(shù)據(jù)倉(cāng)庫(kù)、關(guān)系型數(shù)據(jù)庫(kù)、非關(guān)系型數(shù)據(jù)庫(kù)等技術(shù)。(四)大數(shù)據(jù)分析挖掘技術(shù)數(shù)據(jù)挖掘是從大量復(fù)雜的數(shù)據(jù)中提取信息,通過(guò)處理分析海量數(shù)據(jù)發(fā)現(xiàn)價(jià)值。大數(shù)據(jù)平臺(tái)通過(guò)不同的計(jì)算框架執(zhí)行計(jì)算任務(wù),實(shí)現(xiàn)數(shù)據(jù)分析和挖掘的目的。常用的分布式計(jì)算框架有MapReduce、Storm和Spark等。11(五)數(shù)據(jù)可視化技術(shù)數(shù)據(jù)可視化是指將數(shù)據(jù)以圖形圖像形式表示,向用戶清楚有效地傳達(dá)信息的過(guò)程。通過(guò)數(shù)據(jù)可視化技術(shù),可以生成實(shí)時(shí)的圖表,它能對(duì)數(shù)據(jù)的生成和變化進(jìn)行觀察、跟蹤,也可以形成靜態(tài)的多維報(bào)表以發(fā)現(xiàn)數(shù)據(jù)中不同變量的潛在聯(lián)系。

1.2Hadoop的介紹Hadoop的由來(lái)ApacheHadoop項(xiàng)目是一款可靠、可擴(kuò)展的分布式計(jì)算開(kāi)源軟件。Hadoop軟件庫(kù)是一個(gè)框架,該框架的兩個(gè)核心模塊是分布式文件系統(tǒng)(HDFS)和數(shù)據(jù)計(jì)算MapReduce。MapReduce允許用戶在不了解分布式系統(tǒng)底層知識(shí)的情況下,以可靠、容錯(cuò)的方式靈活地并行處理大型計(jì)算機(jī)集群(數(shù)千個(gè)節(jié)點(diǎn))上的大量數(shù)據(jù)。用戶可以輕松地搭建和使用Hadoop分布式計(jì)算框架,并充分地利用集群的運(yùn)算和存儲(chǔ)能力,完成海量數(shù)據(jù)的計(jì)算與存儲(chǔ)。

1.2Hadoop的介紹Hadoop的發(fā)展歷史2003—2004年,Google公布部分GFS、MapReduce思想的細(xì)節(jié),DougCutting等人用兩年的業(yè)余時(shí)間實(shí)現(xiàn)了DFS和MapReduce機(jī)制,使Nutch性能飆升。2005年,Hadoop作為L(zhǎng)ucene的子項(xiàng)目Nutch的一部分正式引入Apache基金會(huì)。由于NDFS和MapReduce在Nutch引擎中有著很好的應(yīng)用。2006年2月該模塊被分離出來(lái),成為一套完整獨(dú)立的軟件,起名為“Hadoop”。到了2008年初,Hadoop已經(jīng)成為Apache的頂級(jí)項(xiàng)目,包含眾多的子項(xiàng)目。比如:、一種用于Hadoop數(shù)據(jù)的快速通用計(jì)算引擎(Spark)、數(shù)據(jù)序列化系統(tǒng)(Avro)、沒(méi)有單點(diǎn)故障的可擴(kuò)展多主數(shù)據(jù)庫(kù)(Cassandra)、一種提供數(shù)據(jù)匯總和及時(shí)查詢的數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)結(jié)構(gòu)(Hive)等。

1.2Hadoop的介紹Hadoop的優(yōu)勢(shì)Hadoop作為一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架,用戶可以輕松地搭建Hadoop的分布式框架,以及在該基礎(chǔ)上進(jìn)行開(kāi)發(fā)處理大量數(shù)據(jù)的應(yīng)用程序。高可靠高擴(kuò)展高容錯(cuò)15(一)高可靠性Hadoop支持高可用性(HA),當(dāng)分布式集群中單節(jié)點(diǎn)出現(xiàn)故障時(shí),通過(guò)數(shù)據(jù)備份與資源調(diào)度的方式實(shí)現(xiàn)自動(dòng)故障轉(zhuǎn)移。(二)高擴(kuò)展性Hadoop中HDFS有兩種節(jié)點(diǎn)類型:名稱節(jié)點(diǎn)(NameNode)和數(shù)據(jù)節(jié)點(diǎn)(DataNode),以主從模式運(yùn)行增添或者刪除DataNode,且節(jié)點(diǎn)的擴(kuò)展支持熱插拔,即無(wú)需重新啟動(dòng)集群就可實(shí)現(xiàn)集群的動(dòng)態(tài)擴(kuò)展。(三)高容錯(cuò)性NameNode通過(guò)ZooKeeper實(shí)現(xiàn)備份。DataNode是以數(shù)據(jù)塊作為容錯(cuò)單元,在默認(rèn)情況下,每個(gè)數(shù)據(jù)塊會(huì)被備份為三份,分別存在不同DataNode上。當(dāng)一個(gè)數(shù)據(jù)塊訪問(wèn)失效,則會(huì)從備份的DataNode中選取一個(gè),并備份該數(shù)據(jù)塊,以保證數(shù)據(jù)塊的最低備份標(biāo)準(zhǔn)。

1.2Hadoop的介紹Hadoop的應(yīng)用場(chǎng)景在當(dāng)前大數(shù)據(jù)背景下,海量數(shù)據(jù)的價(jià)值越來(lái)越被企業(yè)重視,Hadoop可用于離線大數(shù)據(jù)的分析挖掘。例如:電商數(shù)據(jù)的分析挖掘、社交數(shù)據(jù)的分析挖掘、企業(yè)客戶關(guān)系的分析挖掘。最終的目標(biāo)就是提高企業(yè)運(yùn)作效率,實(shí)現(xiàn)精準(zhǔn)營(yíng)銷,發(fā)現(xiàn)潛在客戶等等。大數(shù)據(jù)還應(yīng)用于很多其他領(lǐng)域,例如:機(jī)器學(xué)習(xí)、知識(shí)發(fā)現(xiàn)、預(yù)測(cè)分析等都必須基于大規(guī)模的數(shù)據(jù),隨著數(shù)據(jù)量的劇增,單節(jié)點(diǎn)的數(shù)據(jù)存儲(chǔ)已經(jīng)被社會(huì)淘汰,一種基于多節(jié)點(diǎn)的分布式存儲(chǔ)逐漸興起,而這些多節(jié)點(diǎn)就依賴于大規(guī)模的廉價(jià)PC構(gòu)建Hadoop集群。

1.2Hadoop的介紹Hadoop的生態(tài)體系Hadoop是一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架,目前Hadoop已經(jīng)發(fā)展成為包含很多項(xiàng)目的集合。Hadoop的核心是HDFS和MapReduce,Hadoop2.0還包括YARN。隨著Hadoop的興起,其框架下的開(kāi)發(fā)工具也逐漸豐富。18(一)HDFSHadoop分布式文件系統(tǒng)(HDFS)是一種可以在低成本計(jì)算機(jī)硬件上運(yùn)行的高容錯(cuò)性分布式文件系統(tǒng)。HDFS

提供對(duì)應(yīng)用程序數(shù)據(jù)的高吞吐量訪問(wèn),并且適用于具有大數(shù)據(jù)集的應(yīng)用程序。HDFS

放寬了一些可一直操作系統(tǒng)接口(POSIX)的要求,以實(shí)現(xiàn)對(duì)文件系統(tǒng)數(shù)據(jù)的流式訪問(wèn)。HDFS的設(shè)計(jì)目標(biāo)包含如下幾個(gè)方面:硬件故障流數(shù)據(jù)訪問(wèn)大數(shù)據(jù)集簡(jiǎn)單一致性模型跨異構(gòu)硬件和軟件平臺(tái)的可移植性19(二)MapReduceMapReduce

是一款以可靠、容錯(cuò)的方式并行處理大型硬件集群(數(shù)千個(gè)節(jié)點(diǎn))中大量數(shù)據(jù)(多TB數(shù)據(jù)集)的軟件框架?!癕ap”(映射)和“Reduce”(簡(jiǎn)化)的概念以及其主要思想都是從函數(shù)式編程語(yǔ)言借用來(lái)的。這極大方便了編程人員在不會(huì)分布式并行編程的情況下,將自己的程序運(yùn)行在分布式系統(tǒng)上。其中Map對(duì)數(shù)據(jù)集上的獨(dú)立元素進(jìn)行指定的操作,生成“鍵-值”對(duì)形式中間結(jié)果。Reduce則對(duì)中間結(jié)果中相同“鍵”的所有“值”進(jìn)行規(guī)約,以得到最終結(jié)果。MapReduce這樣的功能劃分,非常適合在大量計(jì)算機(jī)組成的分布式并行環(huán)境里進(jìn)行數(shù)據(jù)處理。20(三)YARNYARN

是在Hadoop1.0基礎(chǔ)上衍化而來(lái)的,它充分吸收了Hadoop1.0的優(yōu)勢(shì),并具有比Hadoop1.0更為先進(jìn)的理念和思想,YARN

是Hadoop2.0及以上版本的下一代集群資源管理與調(diào)度平臺(tái),它的基本思想是將資源管理和作業(yè)調(diào)度、監(jiān)視的功能拆分為單獨(dú)的守護(hù)程序。(四)ZooKeeperZooKeeper

是一個(gè)為分布式應(yīng)用所設(shè)計(jì)的開(kāi)源協(xié)調(diào)服務(wù)。它可以為用戶提供同步、配置、管理、分組和命名等服務(wù)。用戶可以使用ZooKeeper

提供的接口方便地實(shí)現(xiàn)一致性、組管理等協(xié)議。ZooKeeper

提供了一種易于編程的環(huán)境,它的文件系統(tǒng)使用了目錄樹(shù)結(jié)構(gòu)。ZooKeeper是使用Java編寫(xiě)的,但是它支持Java和C兩種編程語(yǔ)言接口。21(五)HBASEHBase

是一個(gè)分布式的、面向列的開(kāi)源數(shù)據(jù)庫(kù),它參考了Google的BigTable建模進(jìn)行開(kāi)源實(shí)現(xiàn),實(shí)現(xiàn)的編程語(yǔ)言為Java。HBase

是Apache軟件基金會(huì)的Hadoop項(xiàng)目的一個(gè)子項(xiàng)目,運(yùn)行于HDFS文件系統(tǒng)之上,為Hadoop提供類似于BigTable規(guī)模的服務(wù)。因此,它可以容錯(cuò)地存儲(chǔ)海量稀疏的數(shù)據(jù)。HBase

是一個(gè)高可靠、高性能、面向列、可伸縮的分布式數(shù)據(jù)庫(kù),主要用來(lái)存儲(chǔ)非結(jié)構(gòu)化和半結(jié)構(gòu)化的松散數(shù)據(jù)。HBase

的目標(biāo)是對(duì)大數(shù)據(jù)進(jìn)行隨機(jī)處理與實(shí)時(shí)讀寫(xiě)訪問(wèn),它利用廉價(jià)計(jì)算機(jī)集群處理由超過(guò)10億行數(shù)據(jù)和數(shù)百萬(wàn)列元素組成的數(shù)據(jù)表。22(六)SPARK機(jī)器學(xué)習(xí)算法通常需要對(duì)同一個(gè)數(shù)據(jù)集合進(jìn)行多次迭代計(jì)算,而MapReduce中每次迭代都會(huì)涉及HDFS的讀寫(xiě),以及在計(jì)算過(guò)程中缺乏一個(gè)常駐的MapReduce作業(yè),因此,每次迭代都要初始化新的MapReduce任務(wù),MapReduce就顯得效率不高了。同時(shí),基于MapReduce之上的Hive、Pig等技術(shù)也存在類似問(wèn)題。Spark

作為一個(gè)研究項(xiàng)目,Spark

擴(kuò)展了廣泛使用的MapReduce計(jì)算模型,高效地支撐更多計(jì)算模式,包括交互式查詢和流處理。Spark的一個(gè)主要特點(diǎn)是能夠在內(nèi)存中進(jìn)行計(jì)算,即使依賴磁盤(pán)進(jìn)行復(fù)雜的運(yùn)算,Spark

依然比MapReduce更加高效。23(七)HIVE最初,Hive

是由Facebook開(kāi)發(fā),后來(lái)由Apache軟件基金會(huì)開(kāi)發(fā),并將它作為其名下的一個(gè)開(kāi)源項(xiàng)目,名為“ApacheHive”,它是一個(gè)數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)工具在Hadoop中用來(lái)處理結(jié)構(gòu)化數(shù)據(jù),可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表,并提供完整的SQL查詢功能,可以將SQL語(yǔ)句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行。Hive的優(yōu)點(diǎn)是:學(xué)習(xí)成本低,可以通過(guò)類SQL語(yǔ)句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行,不必開(kāi)發(fā)專門(mén)的MapReduce應(yīng)用,十分適合數(shù)據(jù)倉(cāng)庫(kù)的統(tǒng)計(jì)分析工作。Hive

是建立在Hadoop上的數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)構(gòu)架。它提供了一系列的工具,可以用來(lái)進(jìn)行數(shù)據(jù)提取、轉(zhuǎn)化、加載,這是一種可以存儲(chǔ)、查詢和分析存儲(chǔ)在Hadoop中的大規(guī)模數(shù)據(jù)機(jī)制。24(八)PIGApachePig是一個(gè)用于分析大型數(shù)據(jù)集的平臺(tái),該平臺(tái)包含用于表示數(shù)據(jù)分析程序的高級(jí)語(yǔ)言,以及用于評(píng)估這些程序的基礎(chǔ)結(jié)構(gòu)。Pig程序的顯著特性是:它的結(jié)構(gòu)適用于并行化,從而使其能夠處理非常大的數(shù)據(jù)集。要編寫(xiě)數(shù)據(jù)分析程序,Pig提供了一種稱為PigLatin的高級(jí)語(yǔ)言。該語(yǔ)言提供了各種操作符,程序員可以利用它們開(kāi)發(fā)自己的用于讀取、寫(xiě)入和處理數(shù)據(jù)的功能。要使用Pig分析數(shù)據(jù),程序員需要使用PigLatin語(yǔ)言編寫(xiě)腳本。所有這些腳本都在內(nèi)部轉(zhuǎn)換為Map和Reduce任務(wù)。Ap

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論