Hadoop與數(shù)據(jù)分析概述_第1頁(yè)
Hadoop與數(shù)據(jù)分析概述_第2頁(yè)
Hadoop與數(shù)據(jù)分析概述_第3頁(yè)
Hadoop與數(shù)據(jù)分析概述_第4頁(yè)
Hadoop與數(shù)據(jù)分析概述_第5頁(yè)
已閱讀5頁(yè),還剩25頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、技術(shù)創(chuàng)新,變革未來(lái)Hadoop與數(shù)據(jù)分析概述OutlineHadoop基本概念Hadoop的應(yīng)用范圍Hadoop底層實(shí)現(xiàn)原理Hive與數(shù)據(jù)分析Hadoop集群管理典型的Hadoop離線分析系統(tǒng)架構(gòu)常見(jiàn)問(wèn)題及解決方案關(guān)于打撲克的哲學(xué)打撲克與MapReduceInput split shuffle output 分牌各自齊牌交換再次理牌搞定統(tǒng)計(jì)單詞數(shù)The weather is goodThis guyis a good manToday is goodGood manis goodthe 1weather 1is 1good 1today 1is 1good 1this 1guy 1is 1a

2、1good 1man 1good 1man 1is 1good 1a 1 good 1good 1good 1good 1good 1man 1man 1the 1weather 1today 1guy 1is 1is 1is 1is 1this 1a 1good 5guy 1is 4man 2the 1this 1today 1weather 1流量計(jì)算6趨勢(shì)分析7/截圖用戶推薦8分布式索引910Hadoop 核心Hadoop Common分布式文件系統(tǒng)HDFSMapReduce框架并行數(shù)據(jù)分析語(yǔ)言Pig 列存儲(chǔ)NoSQL數(shù)據(jù)庫(kù) Hbase分布式協(xié)調(diào)器Zookeeper數(shù)據(jù)倉(cāng)庫(kù)Hive(使用

3、SQL)Hadoop日志分析工具ChukwaHadoop生態(tài)系統(tǒng)11DataData data data data dataData data data data dataData data data data dataData data data data dataData data data data dataData data data data dataData data data data dataData data data data dataData data data data dataData data data data dataData data data data da

4、taData data data data dataResultsData data data dataData data data dataData data data dataData data data dataData data data dataData data data dataData data data dataData data data dataData data data dataHadoop ClusterDFS Block 1DFS Block 1DFS Block 2DFS Block 2DFS Block 2DFS Block 1DFS Block 3DFS B

5、lock 3DFS Block 3MAPMAPMAPReduceHadoop實(shí)現(xiàn)作業(yè)執(zhí)行流程/ MapClass1中的map方法 public void map(LongWritable Key, Text value, OutputCollector output, Reporter reporter) throws IOException String strLine = value.toString(); String strList = strLine.split(); String mid = strList3; String sid = strList4;String timest

6、r = strList0;try timestr = timestr.substring(0,10);catch(Exception e)return;timestr += 0000; / 省略數(shù)十行 output.collect(new Text(mid + “” + “sid” + timestr , .);Hadoop案例(1) public static class Reducer1 extends MapReduceBase implements Reducer private Text word = new Text(); private Text str = new Text()

7、; public void reduce(Text key, Iterator values, OutputCollector output, Reporter reporter) throws IOException String t = key.toString().split(); word.set(t0);/ str.set(t1); output.collect(word,str);/uid kind /reduce /Reduce0b Hadoop案例(2) public static class MapClass2 extends MapReduceBase implements

8、 Mapper private Text word = new Text(); private Text str = new Text(); public void map(LongWritable Key, Text value, OutputCollector output, Reporter reporter) throws IOException String strLine = value.toString(); String strList = strLine.split(s+);word.set(strList0);str.set(strList1);output.collect

9、(word,str); Hadoop案例(3) public static class Reducer2 extends MapReduceBase implements Reducer private Text word = new Text(); private Text str = new Text(); public void reduce(Text key, Iterator values, OutputCollector output, Reporter reporter) throws IOException while(values.hasNext() String t = v

10、alues.next().toString(); / 省略數(shù)十行代碼 / 省略數(shù)十行代碼 output.collect(new Text(mid + “” + sid + “”) + ., .) Hadoop案例(4)BADAACBCBCDGroupCo-groupFunctionAggregate FilterFilterThinking in MapReduce(1)Thinking in MapReduce(2)Magics of Hive:SELECT COUNT(DISTINCT mid) FROM log_tableHive的魔力為什么淘寶采用Hadoop?webalizeraws

11、tat般若Atpanel時(shí)代日志最高達(dá)250GB/天最高達(dá)約50道作業(yè)每天運(yùn)行20小時(shí)以上Hadoop時(shí)代當(dāng)前日志470GB/天當(dāng)前366道作業(yè)平均67小時(shí)完成還有誰(shuí)在用Hadoop?雅虎北京全球軟件研發(fā)中心中國(guó)移動(dòng)研究院英特爾研究院金山軟件百度騰訊新浪搜狐IBMFacebookAmazonYahoo!Web ServersLog Collection ServersFilersData Warehousing on a ClusterOracle RACFederated MySQLWeb站點(diǎn)的典型Hadoop架構(gòu)HadoopRich ClientMetaStore ServerMysqlSchedulerThrift ServerWebJobClientCLI/GUIClientProgramWeb Server淘寶Hadoop與Hive的使用標(biāo)準(zhǔn)輸出,標(biāo)準(zhǔn)出錯(cuò)Web顯示(50030, 50060, 50070)NameNode,JobTracker, DataNode, TaskTracker日志本地重現(xiàn): Local RunnerDistributedCache中放入調(diào)試代碼調(diào)試目的:查性能瓶頸,內(nèi)存泄漏,線程死鎖等工具: jmap, jstat, hpr

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論