![運(yùn)用Hadoop開(kāi)源技術(shù)推動(dòng)大數(shù)據(jù)落地_第1頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-2/22/96621b47-1d74-4326-b5ec-33494529a3b6/96621b47-1d74-4326-b5ec-33494529a3b61.gif)
![運(yùn)用Hadoop開(kāi)源技術(shù)推動(dòng)大數(shù)據(jù)落地_第2頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-2/22/96621b47-1d74-4326-b5ec-33494529a3b6/96621b47-1d74-4326-b5ec-33494529a3b62.gif)
![運(yùn)用Hadoop開(kāi)源技術(shù)推動(dòng)大數(shù)據(jù)落地_第3頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-2/22/96621b47-1d74-4326-b5ec-33494529a3b6/96621b47-1d74-4326-b5ec-33494529a3b63.gif)
![運(yùn)用Hadoop開(kāi)源技術(shù)推動(dòng)大數(shù)據(jù)落地_第4頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-2/22/96621b47-1d74-4326-b5ec-33494529a3b6/96621b47-1d74-4326-b5ec-33494529a3b64.gif)
![運(yùn)用Hadoop開(kāi)源技術(shù)推動(dòng)大數(shù)據(jù)落地_第5頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-2/22/96621b47-1d74-4326-b5ec-33494529a3b6/96621b47-1d74-4326-b5ec-33494529a3b65.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、培訓(xùn)目標(biāo)熟悉HADOOP應(yīng)用背景123了解Hadoop應(yīng)用案例了解Hadoop技術(shù)最佳實(shí)踐培訓(xùn)目錄大數(shù)據(jù)和數(shù)據(jù)倉(cāng)庫(kù)概述1Hadoop 應(yīng)用案例和云平臺(tái)2Hadoop 數(shù)據(jù)倉(cāng)庫(kù)python/java最佳實(shí)踐3數(shù)據(jù)可視化案例4基于數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)改造變遷5阿里金融通過(guò)大數(shù)據(jù)整合掘金阿里金融通過(guò)大數(shù)據(jù)整合掘金!阿里金融的信用評(píng)估系統(tǒng)會(huì)自動(dòng)分析小微企業(yè)的數(shù)據(jù),例如企業(yè)通過(guò)支付寶,淘寶進(jìn)行的支付數(shù)據(jù),最終算出信用評(píng)估和放貸額度。截止2011年底,阿里金融對(duì)近30萬(wàn)家小微企業(yè)進(jìn)行信用評(píng)估。累計(jì)投放96800家,投放貸款154億,壞賬率為交易額的0.76%。阿里金融的實(shí)時(shí)業(yè)務(wù)阿里金融的實(shí)時(shí)業(yè)務(wù)墻墻阿里金融的數(shù)據(jù)
2、模型任務(wù)(局部)阿里金融的數(shù)據(jù)模型任務(wù)(局部)每個(gè)模型任務(wù)都是面向海量數(shù)據(jù)的大規(guī)模運(yùn)算任務(wù)。天貓/淘寶 雙十一191億背后的開(kāi)源技術(shù)?dbatools: 雙十一一天時(shí)間,雙十一一天時(shí)間,支付寶核心數(shù)據(jù)庫(kù)集群處理了支付寶核心數(shù)據(jù)庫(kù)集群處理了41億個(gè)事務(wù),億個(gè)事務(wù),執(zhí)行執(zhí)行285億次億次SQL,訪問(wèn)訪問(wèn)1931億次內(nèi)存數(shù)據(jù)塊,億次內(nèi)存數(shù)據(jù)塊,13億個(gè)物理讀,億個(gè)物理讀,生成生成15TB日志日志。數(shù)據(jù)應(yīng)用開(kāi)發(fā)平臺(tái)數(shù)據(jù)工場(chǎng) Hive報(bào)表需求(淘數(shù)據(jù))Hbase即席查詢(adhoc)數(shù)據(jù)分析數(shù)據(jù)挖掘數(shù)據(jù)產(chǎn)品淘寶數(shù)據(jù)云梯平臺(tái)淘寶數(shù)據(jù)云梯平臺(tái)-產(chǎn)品架構(gòu)產(chǎn)品架構(gòu)實(shí)時(shí)計(jì)算 底層平臺(tái)數(shù)據(jù)開(kāi)發(fā)平臺(tái)數(shù)據(jù)應(yīng)用是需求驅(qū)動(dòng)
3、技術(shù)是需求驅(qū)動(dòng)技術(shù),技術(shù)帶動(dòng)需求技術(shù)帶動(dòng)需求?思考-云計(jì)算技術(shù)有兩極 3200臺(tái)主機(jī)Hadoop解決了什么難題? 移動(dòng)計(jì)算而非移動(dòng)數(shù)據(jù),化整為零,分片處理。 本地化計(jì)算,并行IO,降低網(wǎng)絡(luò)通信思考-數(shù)據(jù)分析系統(tǒng)的基本指標(biāo)思考-數(shù)據(jù)分析系統(tǒng)的基本指標(biāo) 海量用戶海量用戶大規(guī)模批量服務(wù)(服務(wù) 1.0) 決策邏輯決策邏輯 數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)用戶用戶1邏輯邏輯1邏輯邏輯N數(shù)據(jù)集數(shù)據(jù)集 編輯人員編輯人員用戶用戶N 編輯編輯邏輯邏輯信息生產(chǎn)者信息生產(chǎn)者信息消費(fèi)者信息消費(fèi)者M(jìn)ysql/Oracle 大數(shù)據(jù)倉(cāng)庫(kù)大數(shù)據(jù)倉(cāng)庫(kù) 海量用戶海量用戶大規(guī)模個(gè)性化服務(wù)(服務(wù) 2.0) 決策邏輯決策邏輯 大數(shù)據(jù)庫(kù)大數(shù)據(jù)庫(kù)用戶用戶1邏
4、輯邏輯1服務(wù)數(shù)據(jù)服務(wù)數(shù)據(jù)1用戶用戶N邏輯邏輯N服務(wù)數(shù)據(jù)服務(wù)數(shù)據(jù)N原始數(shù)據(jù)原始數(shù)據(jù)N挖掘邏輯挖掘邏輯NHiveHbaseStormHadoop原始數(shù)據(jù)原始數(shù)據(jù)1原始數(shù)據(jù)原始數(shù)據(jù)2信息信息 生產(chǎn)者生產(chǎn)者/消費(fèi)者消費(fèi)者 規(guī)則制定規(guī)則制定 上帝之手上帝之手本質(zhì):智能組織-智能群體實(shí)時(shí)實(shí)時(shí)思考-數(shù)據(jù)分析系統(tǒng)的基本指標(biāo)反饋決策周期!快反饋決策粒度! 細(xì)反饋決策準(zhǔn)確性! 準(zhǔn) 反饋總體成本! 廉價(jià)數(shù)據(jù)統(tǒng)計(jì)/分析 是一個(gè)組織 自動(dòng)控制,自學(xué)習(xí),自調(diào)整系統(tǒng)核心組成部分。機(jī)會(huì)成本! 想象空間!Hadoop 前的數(shù)據(jù)倉(cāng)庫(kù)流程反饋決策周期!快 ?反饋決策粒度! 細(xì) ?反饋決策準(zhǔn)確性! 準(zhǔn) ? 反饋總體成本! 廉價(jià) ?
5、perl,shell,awk Hadoop后的數(shù)據(jù)倉(cāng)庫(kù)流程反饋決策周期!快 ?反饋決策粒度! 細(xì) ?反饋決策準(zhǔn)確性! 準(zhǔn) ? 反饋總體成本! 廉價(jià) ?持續(xù)擴(kuò)展成本 ? Hql,Pig,Mapreduce,工作流 那些用戶需要Hadoop (合)技術(shù)?案例解析User Case 1 (網(wǎng)頁(yè)游戲) 國(guó)內(nèi)網(wǎng)頁(yè)游戲廠商 百個(gè)服/網(wǎng)頁(yè)游戲,30-50個(gè)庫(kù)/服 10G用戶數(shù)據(jù)/天/游戲 十幾款游戲場(chǎng)景: 游戲玩家行為分析 其他平臺(tái):數(shù)據(jù)無(wú)法導(dǎo)出 中間數(shù)據(jù)匯總丟棄,無(wú)法用戶級(jí)分析User Case 2(智慧交通) 用戶:最大城市,交通領(lǐng)域(City traffic) 場(chǎng)景:車(chē)牌記錄Car Licence P
6、late,100億10 Billion/年 需求:小時(shí)級(jí)別-優(yōu)化到分鐘級(jí)Minute -未來(lái)優(yōu)化到秒級(jí)Seconds查詢Intelligent TransportationSmarter Cities場(chǎng)景: 車(chē)輛異??焖僮R(shí)別Vehicle Abnormal 交通安全問(wèn)題Hadoop技術(shù) 其他應(yīng)用領(lǐng)域 電信 醫(yī)療 交通 公安 航空 電力 金融 搜索 社交 游戲 視頻民生核心基于hadoop的數(shù)據(jù)平臺(tái)總體架構(gòu)Python 結(jié)合 Hadoop Streaming 原理解析MapReduce基本流程實(shí)現(xiàn)distinct一、日志格式:0E3AAC3B-E705-4915-9ED4-EB7B1E96359
7、0FB11E363-6D2B-40C6-A096-95D8959CDB9206F7CAAB-E165-4F48-B32C-8DD1A8BA2562B17F6175-6D36-44D1-946F-D748C494648A06F7CAAB-E165-4F48-B32C-8DD1A8BA2562B17F6175-6D36-44D1-946F-D748C494648AB11E363-6D2B-40C6-A096-95D8959CDB9217F6175-6D36-44D1-946F-D748C494648AE3AAC3B-E705-4915-9ED4-EB7B1E9635906F7CAAB-E165-4
8、F48-B32C-8DD1A8BA25624使用python實(shí)現(xiàn) distinct/count一、日志格式:0E3AAC3B-E705-4915-9ED4-EB7B1E963590FB11E363-6D2B-40C6-A096-95D8959CDB9206F7CAAB-E165-4F48-B32C-8DD1A8BA2562B17F6175-6D36-44D1-946F-D748C494648A06F7CAAB-E165-4F48-B32C-8DD1A8BA2562B17F6175-6D36-44D1-946F-D748C494648AB11E363-6D2B-40C6-A096-95D8959
9、CDB9217F6175-6D36-44D1-946F-D748C494648AE3AAC3B-E705-4915-9ED4-EB7B1E9635906F7CAAB-E165-4F48-B32C-8DD1A8BA25624import sysfor line in sys.stdin: try:flags = line1:-2 str = flags+t+1 print strexcept Exception,e:print e#!/usr/bin/pythonimport sysres = for line in sys.stdin: try: flags = line:-1.split(t
10、) if len(flags) != 2: continue field_key = flags0 if res.has_key(field_key) = False: resfield_key = 0 resfield_key0 = 1 except Exception,e: passfor key in res: print key( distinctcount)-map(distinct)-red#!/usr/bin/pythonimport syslastuid=num=1for line in sys.stdin: uid,count=line:-1.split(t) if last
11、uid =: lastuid=uid if lastuid != uid: num+=1 lastuid=uidprint num(count的優(yōu)化實(shí)現(xiàn)的優(yōu)化實(shí)現(xiàn) )-reduce基于Python MapReduce Streaming 快速并行編程一、單機(jī)測(cè)試head test.log | python map.py | python red.py一、將文件上傳到集群/bin/hadoop fs -copyFromLocal test.log /hdfs/三、運(yùn)行map red/bin/hadoop jar contrib/streaming/hadoop-streaming-0.20.20
12、3.0.jar -file /path/map.py -file /path/red.py -mapper map.py -reducer red.py -input /path/test.log -output /path/通過(guò)界面查看任務(wù)狀態(tài)Python快速構(gòu)建 數(shù)據(jù)分析模塊 ComETL軟件地址: https:/ Hive Mysql MapReduce 等模式作者:趙修湘極少的代碼量,幾萬(wàn)行吧!類似系統(tǒng) Sqoop DataX OozieComEtl配置樣例etl_op = run_mode:day, delay_hours:2, jobs:job_name:job1, analysi
13、s:etl_class_name:ExtractionEtl, step_name:mysql_e_1, db_type:hive, db_coninfo:db_ip:0,db_port:3306,db_user:jobs,db_passwd:hhxxttxs,db_db:test, db_path:test.a2, pre_sql:, post_sql:, data_save_type:SimpleOutput, sql_assemble:SimpleAssemble, sql:select * from test.a2 limit 30, , transform:et
14、l_class_name:TransformEtl, step_name:transform1, data_source:job_name:job1,step_name:mysql_e_1,data_field:, data_transform_type:SimpleTransform, , loading:etl_class_name:LoadingEtl, step_name:load1, data_source:job_name:job1,step_name:transform1, db_type:mysql, db_coninfo:db_ip:0,db_port:
15、3306,db_user:jobs,db_passwd:hhxxttxs,db_db:test, db_path:test.a2, pre_sql:, post_sql:, data_load_type:SplitLoad, data_field:a|b, Pig內(nèi)嵌JPython 實(shí)現(xiàn)PageRank算法JPython+pig 代碼實(shí)現(xiàn)演示https:/ MapReduce框架 Pydoop - Python API for Hadoop MapReduce and HDFShttp:/ Happy - http:/ datafu -Pig算法庫(kù) linkedin https:/ 總空間30
16、0T以上, 每日新增數(shù)據(jù)2T 20+ 服務(wù)器的Hadoop/hive計(jì)算平臺(tái) 單個(gè)任務(wù)優(yōu)化從 7個(gè)小時(shí)到 1個(gè)小時(shí) 每日 Hive 查詢 1200+ 每天處理3000+作業(yè)任務(wù) 每天處理10T+數(shù)據(jù)集群資源利用率集群資源利用率Page 40Hadoop集群監(jiān)控 Cacti默認(rèn)Cacti模板太少增加模板我們的模板磁盤(pán)IO內(nèi)存詳情單個(gè)內(nèi)核使用CPU總和及IOWaitJMX支持監(jiān)控HadoopHAProxy+Hive 網(wǎng)絡(luò)拓?fù)銺ueriesHAProxyHAProxyHiveHiveHiveHiveHadoopHAProxy+Hive高可用集群數(shù)據(jù)平臺(tái) 技術(shù)路線發(fā)展Python Hadoop最佳實(shí)踐
17、通過(guò)Tornado Nginx 接受日志通過(guò)Scribe 同步數(shù)據(jù)使用Python 編寫(xiě)加載和清洗腳本使用ComEtl 通過(guò)Hive做ETL參考HappyEtl,Pydoop編寫(xiě)Python Streaming使用CronHub 做定時(shí)調(diào)度使用phpHiveAdmin 提供自助查詢使用 Mysql 存儲(chǔ)中間結(jié)果通過(guò)Tornado+highcharts/gnuplot 提供報(bào)表展現(xiàn)使用 Python + Nagios Cacti Ganglia 監(jiān)控集群整體構(gòu)建在 Hadoop+Hive+pig 基礎(chǔ)平臺(tái)之上。參加EasyHadoop 聚會(huì)學(xué)習(xí)使用EasyHadoop管理集群Hadoop JAV
18、A 數(shù)據(jù)最佳實(shí)踐通過(guò) Nginx+ tomcat 接受日志通過(guò) Scribe,Flume-Ng同步數(shù)據(jù)使用Jython編寫(xiě)加載和清洗腳本使用Sqoop,DataX通過(guò)Hive做ETL參考Java MapReduce API編寫(xiě)程序使用CronHub 做定時(shí)調(diào)度使用phpHiveAdmin+hive+haproxy 提供自助查詢使用 Mysql/Oracle存儲(chǔ)中間結(jié)果通過(guò)Spring+struts+highcharts/gnuplot/JFreeChart 提供報(bào)表展現(xiàn)使用 Python + Nagios Cacti Ganglia 監(jiān)控集群整體構(gòu)建在 Hadoop+Hive+Pig 基礎(chǔ)平臺(tái)
19、之上。參加EasyHadoop 聚會(huì)學(xué)習(xí)使用Cloudera Manager管理集群基于云平臺(tái)構(gòu)建的集群性能?HD Cluster: 80 Core,180GHZ,10TB 20*Aliyun Standard C Cloud Server4G RAM,4Core*2.26GHz500GBHadoop/Hive Cluster aliyun User-phpHiveAdmin-HiveServer-Hadoop用EasyHadoop 安裝和管理節(jié)點(diǎn)啟動(dòng)100個(gè)Map生成100億數(shù)據(jù) 通過(guò)100個(gè)Map用 Perl 隨機(jī)生成數(shù)據(jù) 準(zhǔn)備,1kw,1億,10億,100億,100GB數(shù)據(jù)集 通過(guò)Hiv
20、e創(chuàng)建測(cè)試庫(kù)表結(jié)構(gòu) 使用phpHiveadmin+HQL查詢返回結(jié)果PhpHiveAdmin 界面查詢SELECT id FROM Table where id like %JA-sq%;(模糊匹配查詢出ID 帶 JA-sq 的車(chē)牌號(hào))1億 數(shù)據(jù),并行5 Map進(jìn)程,144w/s 掃描速度,69s 返回10億數(shù)據(jù),并行46 Map進(jìn)程,800w/s 掃描速度,117s 返回100億數(shù)據(jù),并行453Map進(jìn)程,5400w/s 掃描速度,3分鐘返回,基本滿足需求。SELECT id,COUNT(*) FROM Table GROUP BY id(對(duì)每個(gè)車(chē)牌號(hào)分組歸并,并求出現(xiàn)次數(shù))1億 數(shù)據(jù),并行
21、5 Map進(jìn)程,2 Reduce進(jìn)程,104w/s 處理速度,96s 返回10億數(shù)據(jù),并行46Map進(jìn)程,13Reduce進(jìn)程,230w/s 處理速度,7分鐘返回100億數(shù)據(jù),并行453Map進(jìn)程,121Reduce進(jìn)程,500w/s 處理速度,54分鐘返回。Hadoop預(yù)算解析其他方案的成本對(duì)比!投入成本 (10TB預(yù)算) IOE(IBM+Oracle+EMC)時(shí)代 (x)kw+ 自建Hadoop集群 (20*4w+4w)=80w+ 使用云主機(jī)構(gòu)建Hadoop 20*7970=15.94w/年轉(zhuǎn)變轉(zhuǎn)變千萬(wàn)時(shí)代百萬(wàn)時(shí)代十幾萬(wàn)時(shí)代初創(chuàng)型公司中型技術(shù)型公司政府,銀行,電信年成本:1.5w/T我們還有那些成本壓縮空間我們還有那些成本壓縮空間?實(shí)施周期 IBM+Oracle+EMC 時(shí)代(月) 自建Hadoop集群(1年-半年)學(xué)習(xí)和培訓(xùn) 阿里云Hadoop時(shí)代(星期/月)轉(zhuǎn)變轉(zhuǎn)變季度/月1年/半年月/星期個(gè)人,初創(chuàng)公司中型公
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 湘教版數(shù)學(xué)八年級(jí)下冊(cè)4.5《一次函數(shù)的應(yīng)用》聽(tīng)評(píng)課記錄3
- 湘教版九年級(jí)數(shù)學(xué)下冊(cè)2.6弧長(zhǎng)與扇形面積第1課時(shí)弧長(zhǎng)聽(tīng)評(píng)課記錄
- 八年級(jí)上冊(cè)道德與法治第一單元 走進(jìn)社會(huì)生活則 復(fù)習(xí)聽(tīng)課評(píng)課記錄
- 蘇科版數(shù)學(xué)八年級(jí)下冊(cè)《9.1 圖形的旋轉(zhuǎn)》聽(tīng)評(píng)課記錄2
- 蘇教版小學(xué)五年級(jí)上冊(cè)數(shù)學(xué)口算練習(xí)題
- 出國(guó)勞務(wù)派遣合同范本
- IT程序員保密協(xié)議書(shū)范本
- 深圳經(jīng)濟(jì)特區(qū)房產(chǎn)抵押貸款協(xié)議書(shū)范本
- 全國(guó)事業(yè)單位聘用合同范本
- 鄉(xiāng)村振興戰(zhàn)略合作合同范本
- GB/T 6404.2-2005齒輪裝置的驗(yàn)收規(guī)范第2部分:驗(yàn)收試驗(yàn)中齒輪裝置機(jī)械振動(dòng)的測(cè)定
- GB/T 11376-2020金屬及其他無(wú)機(jī)覆蓋層金屬的磷化膜
- 成功源于自律 主題班會(huì)課件(共34張ppt)
- 分析化學(xué)(第6版)全套課件完整版電子教案最新板
- 海上日出配套說(shuō)課PPT
- 新青島版(五年制)五年級(jí)下冊(cè)小學(xué)數(shù)學(xué)全冊(cè)導(dǎo)學(xué)案(學(xué)前預(yù)習(xí)單)
- (完整word版)重點(diǎn)監(jiān)管的危險(xiǎn)化學(xué)品名錄(完整版)
- 高級(jí)工程師電子版職稱證書(shū)在網(wǎng)上打印步驟
- 詳情頁(yè)測(cè)試文檔20220802
- 品牌形象的12個(gè)原型
- 專利糾紛行政調(diào)解辦案指南
評(píng)論
0/150
提交評(píng)論