大數(shù)據(jù)技術(shù)概論_第1頁(yè)
大數(shù)據(jù)技術(shù)概論_第2頁(yè)
大數(shù)據(jù)技術(shù)概論_第3頁(yè)
大數(shù)據(jù)技術(shù)概論_第4頁(yè)
大數(shù)據(jù)技術(shù)概論_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、大數(shù)據(jù)技術(shù)概論一大數(shù)據(jù)技術(shù)之大數(shù)據(jù)概論大數(shù)據(jù)技術(shù)之大數(shù)據(jù)概論一大數(shù)據(jù)概念大數(shù)據(jù)(big data),指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、 管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決 策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化 的信息資產(chǎn)。最小的基本單位是bit,按順序給出所有單位:bit、Byte、 KB、 MB、 GB、 TB、 PB、 EB、 ZB、 YB、 BB、 NB、 DB。1Byte = 8bit 1K = 1024bit 1MB = 1024K 1G = 1024M 1T = 1024G 1P = 1024T 1E = 1024P 1Z = 10

2、24E 1Y = 1024Z 1B = 1024Y 1N = 1024B 1D = 1024N 二 大數(shù)據(jù)的 特點(diǎn)1)Volume (大量):截至目前,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB, 而歷史上全人類總共說過的話的數(shù)據(jù)量大約是5EB。當(dāng)前,典 型個(gè)人計(jì)算機(jī)硬盤的容量為TB量級(jí),而一些大企業(yè)的數(shù)據(jù)量 已經(jīng)接近EB量級(jí)。2)Velocity (高速):這是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘的最顯著特征。根據(jù)IDC 的“數(shù)字宇宙”的報(bào)告,預(yù)計(jì)到20年,全球數(shù)據(jù)使用量將 達(dá)到35.2ZB。在如此海量的數(shù)據(jù)面前,處理數(shù)據(jù)的效率就是 企業(yè)的生命。天貓雙一: 20_年6分58秒,天貓交易額超過100億3)

3、Variety (多樣):這種類型的多樣性也讓數(shù)據(jù)被分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化 數(shù)據(jù)。相對(duì)于以往便于存儲(chǔ)的以數(shù)據(jù)庫(kù)/文本為主的結(jié)構(gòu)化數(shù) 據(jù),非結(jié)構(gòu)化數(shù)據(jù)越來越多,包括網(wǎng)絡(luò)日志、音頻、視頻、圖 片、地理位置信息等,這些多類型的數(shù)據(jù)對(duì)數(shù)據(jù)的處理能力提 出了更高要求。訂單數(shù)據(jù):網(wǎng)絡(luò)數(shù)據(jù):4)Value (低價(jià)值密度):價(jià)值密度的高低與數(shù)據(jù)總量的大小成反比。比如,在一天 監(jiān)控視頻中,我們只關(guān)心宋宋老師晚上在床上健身那一分鐘, 如何快速對(duì)有價(jià)值數(shù)據(jù)“提純”成為目前大數(shù)據(jù)背景下待解決 的難題。三 大數(shù)據(jù)能干啥? 1)O2O:百度大數(shù)據(jù)+平臺(tái)通過先進(jìn) 的線上線下打通技術(shù)和客流分析能力,助力商家精細(xì)化運(yùn)營(yíng), 提

4、升銷量。2)零售:探索用戶價(jià)值,提供個(gè)性化服務(wù)解決方案;貫穿網(wǎng)絡(luò)與實(shí)體零售,攜手創(chuàng)造極致體驗(yàn)。經(jīng)典案例,子 尿布+啤酒。3)旅游:深度結(jié)合百度獨(dú)有大數(shù)據(jù)能力與旅游行業(yè)需 求,共建旅游產(chǎn)業(yè)智慧管理、智慧服務(wù)和智慧營(yíng)銷的未來。4)商品廣告推薦:給用戶推薦訪問過的商品廣告類型5)房產(chǎn):大數(shù)據(jù)全面助力房地產(chǎn)行業(yè),打造精準(zhǔn)投策與營(yíng) 銷,選出更合適的地,建造更合適的樓,賣給更合適的人。6)保險(xiǎn):海量數(shù)據(jù)挖掘及風(fēng)險(xiǎn)預(yù)測(cè),助力保險(xiǎn)行業(yè)精準(zhǔn) 營(yíng)銷,提升精細(xì)化定價(jià)能力。7)金融:多維度體現(xiàn)用戶特征,幫助金融機(jī)構(gòu)推薦優(yōu)質(zhì) 客戶,防范欺詐風(fēng)險(xiǎn)。8)移動(dòng)聯(lián)通:移動(dòng)聯(lián)通:根據(jù)用戶年齡、職業(yè)、消費(fèi)情 況,分析統(tǒng)計(jì)哪種套餐適

5、合哪類人群。對(duì)市場(chǎng)人群精準(zhǔn)定制。9)人工智能四大數(shù)據(jù)發(fā)展前景1)黨的十八屆五中全會(huì)提出“實(shí)施國(guó)家大數(shù)據(jù)戰(zhàn)略”,國(guó)務(wù)院印發(fā)促進(jìn)大 數(shù)據(jù)發(fā)展行動(dòng)綱要,大數(shù)據(jù)技術(shù)和應(yīng)用處于創(chuàng)新突破期,國(guó) 內(nèi)市場(chǎng)需求處于爆發(fā)期,我國(guó)大數(shù)據(jù)產(chǎn)業(yè)面臨重要的發(fā)展機(jī)、甲 遇。2)國(guó)際數(shù)據(jù)公司IDC預(yù)測(cè),到20_年,企業(yè)基于大數(shù)據(jù) 計(jì)算分析平臺(tái)的支出將突破5000億美元。目前,我國(guó)大數(shù)據(jù) 人才只有46萬,未來3到5年人才缺口達(dá)150萬之多。人才缺口計(jì)算 150w-40w=110w 110W/5 年 二 22w/年 22w/12月=1.83w/月自古不變的真理:先入行者吃肉,后入 行者喝湯,最后到的買單! 3)20_ 年北京大學(xué)

6、、中國(guó)人民大 學(xué)、北京郵電大學(xué)等25所高校成功申請(qǐng)開設(shè)大數(shù)據(jù)課程。4)大數(shù)據(jù)屬于高新技術(shù),大牛少,升職競(jìng)爭(zhēng)??;5)在北京大數(shù)據(jù)開發(fā)工程師的平均薪水已經(jīng)到17800元 (數(shù)據(jù)統(tǒng)計(jì)來職友集),而且目前還保持強(qiáng)勁的發(fā)展勢(shì)頭。智聯(lián)、BOSS直聘五企業(yè)數(shù)據(jù)部的業(yè)務(wù)流程分析 六企 業(yè)數(shù)據(jù)部的一般組織結(jié)構(gòu) 企業(yè)數(shù)據(jù)部的一般組織結(jié)構(gòu),適用 于大中型企業(yè)。七 從Hadoop框架討論大數(shù)據(jù)生態(tài)1.1 Hadoop是什么1)Hadoop是一個(gè)由Apache基金會(huì)所開發(fā)的分布式系統(tǒng)基礎(chǔ) 架構(gòu)2)主要解決,海量數(shù)據(jù)的存儲(chǔ)和海量數(shù)據(jù)的分析計(jì)算問 題。3)廣義上來說,HADOOP通常是指一個(gè)更廣泛的概念 HADOOP 生態(tài)

7、圈 1.2 Hadoop 發(fā)展歷史 1)Lucene-Doug Cutting開創(chuàng)的開源軟件,用java書寫代碼,實(shí)現(xiàn)與Google 類似的全文搜索功能,它提供了全文檢索引擎的架構(gòu),包括完 整的查詢引擎和索引引擎2) 20年年底成為apache基金會(huì) 的一個(gè)子項(xiàng)目3)對(duì)于大數(shù)量的場(chǎng)景,Lucene面對(duì)與Google 同樣的困難4)學(xué)習(xí)和模仿Google解決這些問題的辦法:微 型版Nutch 5)可以說Google是hadoop的思想之源:處理客 戶端請(qǐng)求、啟動(dòng)/監(jiān)控ApplicationMaster、監(jiān)控 NodeManager、資源分配與調(diào)度;NodeManager:單個(gè)節(jié)點(diǎn)上的資源管理、處

8、理來自 ResourceManager 的命令、處理來自 ApplicationMaster 的命 令;ApplicationMaster:數(shù)據(jù)切分、為應(yīng)用程序申請(qǐng)資 源,并分配給內(nèi)部任務(wù)、任務(wù)監(jiān)控與容錯(cuò)。Container:對(duì)任務(wù)運(yùn)行環(huán)境的抽象,封裝了 CPU、內(nèi) 存等多維資源以及環(huán)境變量、啟動(dòng)命令等任務(wù)運(yùn)行相關(guān)的信 息。1.5.3 MapReduce架構(gòu)概述MapReduce將計(jì)算過程分為兩 個(gè)階段:Map和Reduce 1)Map階段并行處理輸入數(shù)據(jù)2) Reduce階段對(duì)Map結(jié)果進(jìn)行匯總 上圖簡(jiǎn)單的闡明了 map和 reduce的兩個(gè)過程或者作用,雖然不夠嚴(yán)謹(jǐn),但是足以提供 一個(gè)大概

9、的認(rèn)知,map過程是一個(gè)蔬菜到制成食物前的準(zhǔn)備工 作,reduce將準(zhǔn)備好的材料合并進(jìn)而制作出食物的過程1.6 大數(shù)據(jù)技術(shù)生態(tài)體系 圖中涉及的技術(shù)名詞解釋如下:Sqoop: sqoop是一款開源的工具,主要用于在 Hadoop(Hive)與傳統(tǒng)的數(shù)據(jù)庫(kù)(mysql)間進(jìn)行數(shù)據(jù)的傳遞,可 以將一個(gè)關(guān)系型數(shù)據(jù)庫(kù)(例如:MySQL ,Oracle等)中的數(shù)據(jù)導(dǎo)進(jìn)到Hadoop的HDFS中, 也可以將HDFS的數(shù)據(jù)導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫(kù)中。2)Flume: Flume是Cloudera提供的一個(gè)高可用的,高 可靠的,分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng),F(xiàn)lume 支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用

10、于收集數(shù)據(jù);同時(shí),F(xiàn)lume提供對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單處理,并寫到各種數(shù)據(jù) 接受方(可定制)的能力。3)Kafka: Kafka是一種高吞吐量的分布式發(fā)布訂閱消息 系統(tǒng),有如下特性:(1)通過O(1)的磁盤數(shù)據(jù)結(jié)構(gòu)提供消息的持久化,這種 結(jié)構(gòu)對(duì)于即使數(shù)以TB的消息存儲(chǔ)也能夠保持長(zhǎng)時(shí)間的穩(wěn)定性 能。(2)高吞吐量:即使是非常普通的硬件Kafka也可以支 持每秒數(shù)百萬的消息(3)支持通過Kafka服務(wù)器和消費(fèi)機(jī)集 群來分區(qū)消息。(4)支持Hadoop并行數(shù)據(jù)加載。4)Storm: Storm為分布式實(shí)時(shí)計(jì)算提供了一組通用原 語,可被用于“流處理”之中,實(shí)時(shí)處理消息并更新數(shù)據(jù)庫(kù)。 這是管理隊(duì)列及工作者集群的

11、另一種方式。Storm也可被用于“連續(xù)計(jì)算(continuous computation),對(duì)數(shù)據(jù)流做連續(xù)查詢,在計(jì)算時(shí)就將結(jié)果以 流的形式輸出給用戶。Spark: Spark是當(dāng)前最流行的開源大數(shù)據(jù)內(nèi)存計(jì)算框 架。可以基于Hadoop 上存儲(chǔ)的大數(shù)據(jù)進(jìn)行計(jì)算。Oozie: Oozie是一個(gè)管理Hdoop作業(yè)(job)的工作 流程調(diào)度管理系統(tǒng)。Oozie協(xié)調(diào)作業(yè)就是通過時(shí)間(頻率)和 有效數(shù)據(jù)觸發(fā)當(dāng)前的Oozie工作流程。Hbase: HBase是一個(gè)分布式的、面向列的開源數(shù)據(jù) 庫(kù)HBase不同于一般的關(guān)系數(shù)據(jù)庫(kù),它是一個(gè)適合于非結(jié)構(gòu) 化數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫(kù)。Hive: hive是基于Hadoop

12、的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,可 以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表,并提供簡(jiǎn)單的 sql查詢功能,可以將sql語句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn) 行。其優(yōu)點(diǎn)是學(xué)習(xí)成本低,可以通過類SQL語句快速實(shí)現(xiàn)簡(jiǎn)單 的MapReduce統(tǒng)計(jì),不必開發(fā)專門的MapReduce應(yīng)用,十分適 合數(shù)據(jù)倉(cāng)庫(kù)的統(tǒng)計(jì)分析。R語言:R是用于統(tǒng)計(jì)分析、繪圖的語言和操作環(huán) 境。R是屬于GNU系統(tǒng)的一個(gè)自由、免費(fèi)、源代碼開放的軟 件,它是一個(gè)用于統(tǒng)計(jì)計(jì)算和統(tǒng)計(jì)制圖的優(yōu)秀工具。Mahout: Apache Mahout是個(gè)可擴(kuò)展的機(jī)器學(xué)習(xí)和數(shù) 據(jù)挖掘庫(kù),當(dāng)前Mahout支持主要的4個(gè)用例:推薦挖掘:搜集用戶動(dòng)作并以此給用戶推薦可能喜歡的事 物。聚集:收集文件并進(jìn)行相關(guān)文件分組。分類:從現(xiàn)有的分類文檔中學(xué)習(xí),尋找文檔中的相似特 征,并為無標(biāo)簽的文檔進(jìn)行

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論