2014縱觀大數(shù)據(jù)學習題要_第1頁
2014縱觀大數(shù)據(jù)學習題要_第2頁
2014縱觀大數(shù)據(jù)學習題要_第3頁
2014縱觀大數(shù)據(jù)學習題要_第4頁
2014縱觀大數(shù)據(jù)學習題要_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

前言緒論一、縱觀大數(shù)據(jù)發(fā)展前景1.人們不再止步于大數(shù)據(jù)的談論

2014年,大數(shù)據(jù)止于說的情況將發(fā)生改變,人們將致力于從中獲益,所有大數(shù)據(jù)的炒作也將“煙消云散”。從Gainsight了解到,大數(shù)據(jù)本身也將成為桌面上的籌碼,Gainsight在其IaaS平臺中利用大數(shù)據(jù)分析被其稱之為“customersuccessmanagement”的服務。Gainsight認為,在2014年,每家云應用程序提供商都將會讓其后端基礎設施支持大數(shù)據(jù)。2.Hadoop在大中型企業(yè)普及應用將成為企業(yè)的關鍵組件

Hadoop將普及,大數(shù)據(jù)也不會再繼續(xù)止步于云服務。Alteryx認為,2014年,Hadoop的適用場景將超越批處理和存儲,將成為企業(yè)數(shù)據(jù)架構(gòu)中通用的核心組件,這意味著數(shù)據(jù)分析將繼續(xù)成為大數(shù)據(jù)的首要用例。3.企業(yè)將更加鐘情于用戶數(shù)據(jù)

從Gainsight了解到,各個機構(gòu)將對用戶數(shù)據(jù)充滿熱情,企業(yè)將充分利用客戶與其在線產(chǎn)品或服務交互產(chǎn)生的數(shù)據(jù),并從中獲取價值。為了實現(xiàn)這點,數(shù)據(jù)分析能力將比BI團隊更受重視,為企業(yè)提供更多的價值。

4.大數(shù)據(jù)為王的時刻將要玩轉(zhuǎn)市場決策

Alteryx認為,在2014年,大數(shù)據(jù)將首次正式登陸市場營銷,用于市場營銷的大數(shù)據(jù)技術將在這一年扮演重要角色——影響著廣告、產(chǎn)品推銷和消費者行為,WorldCup及WinterOlympics將是其最大的舞臺。5.海量的數(shù)據(jù)將超越數(shù)據(jù)科學家的意識

Alteryx認為,新型的數(shù)據(jù)分析需求將超越人力可為,有些情況下大數(shù)據(jù)技術將堪比成千上萬的數(shù)據(jù)科學家。該公司預測,這將會毫無疑問的拉低數(shù)據(jù)科學家薪酬。6.物聯(lián)網(wǎng)將進軍網(wǎng)絡

IEEE的專業(yè)協(xié)會認為,2014年,可識別事物將無縫的連接到信息網(wǎng)絡,實現(xiàn)真正意義上的WebofThings。TheWebofThings將會充分利用移動設備和傳感器的監(jiān)控能力,增強現(xiàn)實世界中的物體與Web副本之間的協(xié)同性。

TheWebofThings將會生成大量與現(xiàn)實世界相關的數(shù)據(jù),因而會需求智能化的解決方案在現(xiàn)實世界與相對應的數(shù)字世界資源之間賦予連接性、網(wǎng)際互連和相關性。7.從大數(shù)據(jù)到海量數(shù)據(jù)

數(shù)據(jù)的體積、速度和類型(volume、velocity和variety)在2014年將會繼續(xù)呈指數(shù)級增長,因此需要更簡單的分析工具來駕馭這些“數(shù)據(jù)洪流”。

IEEE稱,“不止是3個V讓大數(shù)據(jù)成了非常難以制服的老虎,數(shù)據(jù)科學家及行業(yè)所需簡單工具也是個難題,許多行業(yè)尚無獨立提取數(shù)據(jù)價值的能力。當前已出現(xiàn)的海量數(shù)據(jù)時代更需求數(shù)據(jù)管理和分析上新的范式和實踐。2014年,這個領域?qū)⑸涎萑盒蹱幇浴!?.R語言將取代傳統(tǒng)SAS解決方案

Alteryx認為,基于R編程語言的分析將數(shù)據(jù)科學家“御用”模式,這種分析在2014年將成為主流,將替代傳統(tǒng)的SAS及SPSS模式。Alteryx說道:“超過200萬用戶和300萬的分析師都在尋找更好的解決方案,R恰逢其時。”9.Hadoop將增加實時特性

SQL-on-Hadoop供應商SpliceMachine共同創(chuàng)始人兼CEOMonteZweben指出,未來1年建立在Hadoop平臺上的交互式應用程序?qū)⒊时l(fā)式增長,其中包括Web應用、移動應用和社交應用,人們可以與之進行實時的交互。

Zweben說道:“2014將帶來實時大數(shù)據(jù)應用程序平臺,企業(yè)將不會只能像當下一樣分析歷史數(shù)據(jù),你將有能力分析5分鐘,甚至是1分鐘之內(nèi)的數(shù)據(jù);企業(yè)將擁有交互式應用程序,以便實時的制定決策?!?0.Hadoop將得到企業(yè)級強化

SpliceMachine的Zweben說:“毋庸置疑,Hadoop是個了不起的平臺,但是仍然有許多工作要做?!彼J為,在2014,你將看到Hadoop向安全、運營管理、資源管理及多站點響應方向發(fā)展。Zweben補充道:“你將看到所有的企業(yè)級需求,我認為這些將是未來主要的焦點?!?/p>

11.2014年底,至少有一家NoSQL

IPO

大數(shù)據(jù)及云環(huán)境安全解決方案Gazzang董事長兼CEOLarryWarnock預測,在2014,至少有一家Hadoop或者NoSQL供應商會IPO,這標志著大數(shù)據(jù)平臺已被廣泛認可。

Warnock說道:“我不會去預測哪家會IPO,但是至少會有一家Hadoop或NoSQL供應商IPO。通過Wikibon了解到,在2012年,NoSQL軟件和服務創(chuàng)造了2.86億美元的稅收,而在2017年,這個數(shù)據(jù)被預測為18.25億。商場被不斷增長的企業(yè)需求推動,他們需要靈活、可擴展及負擔得起的數(shù)據(jù)管理解決方案,為新時代的云及大數(shù)據(jù)設計?!?/p>

12.一個新的分析堆棧將誕生

Alteryx預測,2014年,將出現(xiàn)一個新的數(shù)據(jù)及分析堆棧,為數(shù)據(jù)庫、分析、可視化提供新的解決方案,這將直接威脅到傳統(tǒng)的供應商巨頭,而這些供應商也會在匆忙中推出新的解決方案。二、大數(shù)據(jù)基礎概論簡介2.1大數(shù)據(jù)(BigData)是指那些超過傳統(tǒng)數(shù)據(jù)庫系統(tǒng)處理能力的數(shù)據(jù)。它的數(shù)據(jù)規(guī)模和轉(zhuǎn)輸速度要求很高,或者其結(jié)構(gòu)不適合原本的數(shù)據(jù)庫系統(tǒng)。為了獲取大數(shù)據(jù)中的價值,我們必須選擇另一種方式來處理它。

數(shù)據(jù)中隱藏著有價值的模式和信息,在以往需要相當?shù)臅r間和成本才能提取這些信息。如沃爾瑪或谷歌這類領先企業(yè)都要付高昂的代價才能從大數(shù)據(jù)中挖掘信息。而當今的各種資源,如硬件、云架構(gòu)和開源軟件使得大數(shù)據(jù)的處理更為方便和廉價。即使是在車庫中創(chuàng)業(yè)的公司也可以用較低的價格租用云服務時間了。

對于企業(yè)組織來講,大數(shù)據(jù)的價值體現(xiàn)在兩個方面:分析使用和二次開發(fā)。通過大數(shù)據(jù)創(chuàng)造出新產(chǎn)品和服務的商業(yè)行為并非巧合,谷歌、雅虎、亞馬遜和Facebook,它們都是大數(shù)據(jù)時代的創(chuàng)新者。

2.2大數(shù)據(jù)的特征

作為一個包羅萬象的術語,“大數(shù)據(jù)”相當?shù)暮磺?。同樣的,“云”這個概念也涵蓋了不同的技術。大數(shù)據(jù)系統(tǒng)的輸入端可以列一個極長的表,包括了社會網(wǎng)絡、Web服務器日志、流量傳感器、衛(wèi)星圖像、廣播音頻流、銀行交易、搖滾音樂MP3、網(wǎng)頁的內(nèi)容、政府文件掃描、GPS路線、金融市場數(shù)據(jù)等等。而這些數(shù)據(jù)本質(zhì)上并非是相同的東西。

IBM公司把大數(shù)據(jù)的特征概括成三個“V”,也就是規(guī)模(Volume),快速(Velocity)和多樣(Variety)。這三個方面是觀察數(shù)據(jù)本質(zhì)和軟件處理平臺的有用視角。

幾家典型公司的大數(shù)據(jù):95%的中國網(wǎng)民,日均響應80%,百度聯(lián)盟,60萬聯(lián)盟合作伙伴每天有50基礎。變現(xiàn)模式:榜;百度數(shù)據(jù)中心,廣告站長和開發(fā)組提供的百度(移動)統(tǒng)計以及相關的開發(fā)者服務工具騰訊則超過億QQ活躍賬戶,4.69億微博用戶和超過1億的視頻用戶、億QQ空間用戶,微信、手機管家等帶來的移動用戶也超過了4億,海外用戶快超過1除卻海量用戶,龐大服務矩陣,化、碎片化、海量化。變現(xiàn)工具只有:騰訊分析和騰訊羅盤馬云宣稱平臺、阿里未來本質(zhì)上是一個數(shù)據(jù)公司,電商越來越離不開數(shù)據(jù),金融的核心也是、KPI系統(tǒng)、數(shù)據(jù)門戶、活動直播間、賣家云圖、頁面點擊、黃金策;給客戶提供的數(shù)據(jù)魔方、無量神針和類目360、淘寶指數(shù)最具備劃時代意義的2012年阿里又推出了聚石塔產(chǎn)品可處理的訂單超過天貓總量的20%,比平時增長20倍。應用上走得是最遠的。

2.3規(guī)模(Volume)

能處理大數(shù)據(jù)所獲得的好處在于能對大數(shù)據(jù)進行分析。更多的數(shù)據(jù)強于更好的模型,如果你的預測模型可以考慮到300個變量而非僅僅6個變量,其預測能力多半能更為準確。

大數(shù)據(jù)的規(guī)模是傳統(tǒng)IT架構(gòu)所面臨的直接挑戰(zhàn)。它要求可擴展的存儲和分布式的方法來完成查詢。許多公司已經(jīng)擁有大量的存檔數(shù)據(jù),但卻沒有能力來處理它。傳統(tǒng)的關系數(shù)據(jù)庫無法處理大數(shù)據(jù)的規(guī)模,目前可選擇的方法包括大規(guī)模并行處理架構(gòu)、數(shù)據(jù)倉庫、或類似Greenplum的數(shù)據(jù)庫、以及ApacheHadoop解決方案。其中,數(shù)據(jù)倉庫比較適合于預先確定的數(shù)據(jù)結(jié)構(gòu)和變化緩慢的數(shù)據(jù)。而ApacheHadoop則沒有這些限制。

Hadoop的核心是一個分布在多個服務器上的計算平臺。它作為開放源碼首先由雅虎開發(fā)并發(fā)布,它是谷歌所提出的MapReduce方法的實現(xiàn)。Hadoop的MapReduce包括了兩個階段:向多個服務器和操作系統(tǒng)分發(fā)數(shù)據(jù),即map階段,然后重組并行計算結(jié)果,即reduce階段。

Hadoop利用自身的分布式文件系統(tǒng)(HDFS)來存儲數(shù)據(jù),這使得多個計算節(jié)點能獲取數(shù)據(jù)。一個典型的Hadoop使用模式包括三個階段:加載數(shù)據(jù)到HDFS、MapReduce操作、從HDFS檢索結(jié)果。這個過程本質(zhì)上是一個批處理,適合于分析或者是非交互式的計算任務。正因為如此,Hadoop本身不是一個數(shù)據(jù)庫或數(shù)據(jù)倉庫的解決方案,而是分析的輔助。最知名的Hadoop的用戶之一是Facebook。它的MySQL數(shù)據(jù)庫存儲核心數(shù)據(jù)。然后再反映到Hadoop系統(tǒng)進行計算。計算結(jié)果會再次轉(zhuǎn)移到MySQL,以提供給用戶的頁面使用。三、大數(shù)據(jù)七點總結(jié):一種思維:數(shù)據(jù)思維 三大趨勢:泛互聯(lián)網(wǎng)、垂直一體化、數(shù)據(jù)是資產(chǎn)。四大步驟:入口、流量、數(shù)據(jù)、變現(xiàn)五大標準:活性、顆粒度、維度時空、情緒七字心決:專注、極致、口碑、快四、大數(shù)據(jù)進修學習內(nèi)容模塊及發(fā)展方向 4.1 Linux學習知識概要(安裝)Linux簡介Linux與Unix區(qū)別Linux安裝Linux常用命令與Unix異同Linux文件系統(tǒng)Linux用戶及用戶組管理 實驗:1)安裝,2)常用命令的使用3)常用服務配置4)用戶配置5)網(wǎng)絡管理(管理) Linux系統(tǒng)性能分析Linux網(wǎng)絡管理及配置Linux安全控制Linux存儲管理Linux系統(tǒng)服務 目標:掌握Linux基本操作和管理知識 4.2Hadoop分布式計算學習目標:掌握MapReduce程序開發(fā)及Hadoop集群運維知識(架構(gòu)原理)大數(shù)據(jù)時代及Hadoop簡介Hadoop集群安裝部署HDFS部分HDFS原理和體系結(jié)構(gòu)訪問HDFSHDFS常用JavaAPI詳解HDFS中的重要文件存儲結(jié)構(gòu)HDFS數(shù)據(jù)讀寫原理 (實驗):部署Hadoop集群編寫簡單和復雜的MapReduce程序元數(shù)據(jù)備份及管理使用Ganglia、Nagios對Hadoop進行監(jiān)控使用dfsadmin和fsck對Hadoop集群進行管理掌握Hadoop集群日常維護1、datanode節(jié)點磁盤損壞故障恢復2、datanode節(jié)點硬件升級替換3、datanode節(jié)點故障宕機恢復4、datanode節(jié)點磁盤損壞處理5、namenode高可用方案實戰(zhàn) 6、namenode故障宕機后的metadata數(shù)據(jù)恢復7、namenode主備節(jié)點熱切換要求具備基本的Hadoop知識(開發(fā)維護) HDFS數(shù)據(jù)壓縮機制HDFS元數(shù)據(jù)管理方法與技術HDFS數(shù)據(jù)塊存儲管理方法與技術HDFSHAMapReduce部分MapRedcue工作原理MapReduce組件詳解MapReduceJob執(zhí)行流程介紹Streaming編程MapReduce任務調(diào)度 (Hadoop的最新框架原理) 什么是Hadoop2.0Hadoop2.0與1.0對比YARN原理和基本架構(gòu)YARN安裝部署運作機制 (Hadoop運維監(jiān)控) Hadoop運維Hadoop運維管理,常見故障openTSDB實戰(zhàn)MapReduce作業(yè)調(diào)優(yōu)案例討論 4.3大數(shù)據(jù)存儲(Hbase)學習目標:掌握HBase主要功能,熟練使用API開發(fā)應用程序,掌握集群運維方法(HBase簡介和架構(gòu)) NoSql數(shù)據(jù)庫與關系數(shù)據(jù)庫的對比HBase基本概念HBase應用場景HBase架構(gòu)和核心模塊介紹HBase存儲邏輯結(jié)構(gòu)介紹集群下安裝部署HBase啟動HBase,啟動順序測試啟動多種方法實驗:部署HBase集群通過Java程序管理表通過Java程序增刪改查數(shù)據(jù)編寫過濾器精細控制數(shù)據(jù)編寫2種協(xié)處理器程序HBase表管理HBaseRegion轉(zhuǎn)移和備份Split&Compact策略regionserver日常維護master日常維護 (HBase核心知識點) 基本方法:Get/Put/Scan/Delete列式存儲核心:LSM日志系統(tǒng):WAL底層存儲:HFile復制、備份:Replication過渡期:RIT分裂、合并:Split/Compact負載均衡:LoadBalance批量記載:bulkload監(jiān)控系統(tǒng):OpenTSDB主鍵設計:keydesign二級索引:secondaryindex協(xié)處理器:Coprocessors過濾器:bloomfilter版本:version (Hbase管理與案例) 集群管理和監(jiān)控性能優(yōu)化nativejava接口shellclientthrift接口案例(需求剖析、架構(gòu)設計) (Nosql技術發(fā)展) 主流NoSql產(chǎn)品簡介:Cassandra、MongoDB、CouchDB、RedisNoSql產(chǎn)品優(yōu)缺點比較、性能比較 4.4大數(shù)據(jù)存儲(Hive數(shù)據(jù)庫)學習(原理)Hive概念Hive架構(gòu)原理如何利用Hive用戶接口提交作業(yè)Hive主要配置詳解 目標:掌握HQL語法及調(diào)優(yōu)方法實驗:使用HQL語句和自定義函數(shù)實現(xiàn)簡單和復雜的數(shù)據(jù)統(tǒng)計 (使用) HiveQL語法講解及使用編寫UDF及UDAF、UDTF函數(shù)Hive與HBase的整合HiveQL優(yōu)化與執(zhí)行計劃Hive日志管理hive輸入lzo文件格式時會產(chǎn)生中文亂碼?分隔符入庫問題(如何定制分隔符入庫,比如€)(管理和優(yōu)化) ?多級存儲遷移(數(shù)據(jù)生命周期)?如何找出低效的hive任務?使用Hive分區(qū)策略HIVE查詢中分區(qū)剪裁失效案例分析?使用Lzo壓縮優(yōu)化數(shù)據(jù)存儲容量?CPU與IO配比?編寫Hive自定義MapReduce腳本優(yōu)化查詢?Hive數(shù)據(jù)傾斜和查詢性能優(yōu)化解決hive數(shù)據(jù)傾斜的多個案例分析Mapjoin解決數(shù)據(jù)傾斜優(yōu)化小文件過多的sql介紹一下大表之間join或groupby或distinct產(chǎn)生傾斜解決的案例?使用Sqoop工作原理和進行數(shù)據(jù)分析?使用oozie配置工作流編寫程序注意規(guī)范 4.5大數(shù)據(jù)相關技術Pig學習 Pig簡介安裝和運行PigPigLatin詳解 命令行使用以及配置選項介紹目標:掌握PigLatin使用方法 4.6ZooKeeper協(xié)調(diào)管理學習目標:了解ZooKeeper在Hadoop系統(tǒng)中的作用,掌握基本運維知識 概念介紹和基本原理集群安裝部署ZookeeperServer角色 實驗:搭建ZooKeeper集群 ZookeeperServer選舉、同步和工作流程Leader的工作流程Follower的工作流程 Zookeeper的擴展Zookeeper的應用場景Zookeeper性能調(diào)優(yōu) Zookeeper性能調(diào)優(yōu)數(shù)據(jù)一致性與Paxos算法案例相關技術 4.7 日志采集系統(tǒng)Flume 學習目標:掌握FlumeAgent和Collector配置 2天 具備Hadoop基礎Flume簡介Flume架構(gòu)設計Flume原理及常見配置 Flume部署、安裝、配置Flume常用Source、Sink、DecoratorFlume常用命令 Flume與Hadoop、HBase集成編寫Source、Sink、Decorator插件 主要日志采集產(chǎn)品簡介:Chukwa、Scribe、Kafka各產(chǎn)品之間優(yōu)缺點比較 4.8Storm實時處理 學習Storm簡介Storm安裝部署Storm架構(gòu)及工

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論