




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)模板培訓(xùn)課件123大數(shù)據(jù)概述大數(shù)據(jù)4V特性相關(guān)領(lǐng)域應(yīng)用4相關(guān)技術(shù)架構(gòu)目錄123大數(shù)據(jù)概述大數(shù)據(jù)4V特性相關(guān)領(lǐng)域應(yīng)用4相關(guān)技術(shù)架構(gòu)目錄1大數(shù)據(jù)概述大數(shù)據(jù)產(chǎn)生的背景什么是大數(shù)據(jù)大數(shù)據(jù)時(shí)代1大數(shù)據(jù)概述大數(shù)據(jù)產(chǎn)生的背景數(shù)據(jù)量級(jí)變化大數(shù)據(jù)產(chǎn)生背景數(shù)據(jù)量級(jí)不斷增加|根據(jù)IDC監(jiān)測,人類產(chǎn)生的數(shù)據(jù)量正在呈指數(shù)級(jí)增長,大約每兩年翻一番,這個(gè)速度在2020年之前會(huì)繼續(xù)保持下去。數(shù)據(jù)結(jié)構(gòu)日趨復(fù)雜|
大量新數(shù)據(jù)源的出現(xiàn)則導(dǎo)致非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)爆發(fā)式的增長TBPBZBEB數(shù)據(jù)量級(jí)變化大數(shù)據(jù)產(chǎn)生背景數(shù)據(jù)量級(jí)不斷增加|根據(jù)IDC地球上至今的數(shù)據(jù)量:在2006年,個(gè)人用戶才剛剛邁進(jìn)TB時(shí)代,全球一共新產(chǎn)生了約180EB的數(shù)據(jù);在2011年,這個(gè)數(shù)字達(dá)到了1.8ZB。
而有市場研究機(jī)構(gòu)預(yù)測:到2020年,整個(gè)世界的數(shù)據(jù)總量將會(huì)增長44倍,達(dá)到35.2ZB(1ZB=10億TB)說明互聯(lián)網(wǎng)(社交、搜索、電商)、移動(dòng)互聯(lián)網(wǎng)(微博)、物聯(lián)網(wǎng)(傳感器,智慧地球)、車聯(lián)網(wǎng)、GPS、醫(yī)學(xué)影像、安全監(jiān)控、金融(銀行、股市、保險(xiǎn))、電信(通話、短信)都在瘋狂產(chǎn)生著數(shù)據(jù)。1GB(Gigabyte)=1024MB1TB(Terabyte)=1024GB1PB(Petabyte)=1024TB1EB(Exabyte)=1024PB1ZB(Zettabyte)=1024EB地球上至今的數(shù)據(jù)量:在2006年,個(gè)人用戶才剛剛邁進(jìn)TB時(shí)大數(shù)據(jù)時(shí)代變化數(shù)據(jù)在web2.0的時(shí)代,人們從信息的被動(dòng)接受者變成了主動(dòng)創(chuàng)造者全球每秒鐘發(fā)送2.9百萬封電子郵件,每天會(huì)有2.88萬個(gè)小時(shí)的視頻上傳到Y(jié)outube,推特上每天發(fā)布5千萬條消息量級(jí)每月網(wǎng)民在Facebook上要花費(fèi)7千億分鐘,發(fā)送和接收的數(shù)據(jù)高達(dá)1.3EBGoogle上每天需要處理24PB的數(shù)據(jù)…大數(shù)據(jù)時(shí)代變化數(shù)據(jù)在web2.0的時(shí)代,人們從信息的被動(dòng)接數(shù)結(jié)多樣性大數(shù)據(jù)的定義大數(shù)據(jù)(bigdata),指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應(yīng)海量、高增長率和多樣化的信息資產(chǎn)。想駕馭這龐大的數(shù)據(jù),我們必須了解大數(shù)據(jù)的特征。facebook社交網(wǎng)絡(luò)…淘寶、ebuy電子商務(wù)…微博、Apps移動(dòng)互聯(lián)…數(shù)結(jié)多樣性大數(shù)據(jù)的定義大數(shù)據(jù)(bigdata),指無法在一2大數(shù)據(jù)的4V特性體量Volume多樣性Variety價(jià)值密度Value速度Velocity2大數(shù)據(jù)的4V特性體量Volume數(shù)據(jù)結(jié)構(gòu)海量存儲(chǔ)能力讀寫速度實(shí)時(shí)大數(shù)據(jù)分析hadoophbasesparkstrom數(shù)據(jù)結(jié)構(gòu)海量存儲(chǔ)能力讀寫速度實(shí)時(shí)大數(shù)據(jù)分析hadoophba大數(shù)據(jù)典型特性——存儲(chǔ)能力變化▲
數(shù)據(jù)量不斷增加,存儲(chǔ)能力也隨之不斷增強(qiáng)存儲(chǔ)能力大數(shù)據(jù)典型特性——存儲(chǔ)能力變化▲數(shù)據(jù)量不斷增加,存儲(chǔ)能力也大數(shù)據(jù)典型特性——讀寫速度提升▲與云計(jì)算相結(jié)合的大數(shù)據(jù)存儲(chǔ)速度顯著提升數(shù)據(jù)體量讀寫速度讀寫速度大數(shù)據(jù)典型特性——讀寫速度提升▲與云計(jì)算相結(jié)合的大數(shù)據(jù)存儲(chǔ)速大數(shù)據(jù)典型特性——多樣性發(fā)展▲數(shù)據(jù)結(jié)構(gòu)更加復(fù)雜,呈多樣性發(fā)展數(shù)據(jù)結(jié)構(gòu)多樣性大數(shù)據(jù)典型特性——多樣性發(fā)展▲數(shù)據(jù)結(jié)構(gòu)更加復(fù)雜,呈多樣性發(fā)展1234體量Volume多樣性Variety價(jià)值密度Value速度Velocity4V特性從非結(jié)構(gòu)化數(shù)據(jù)的超大規(guī)模和增長,比結(jié)構(gòu)化數(shù)據(jù)增長快10倍到50倍,是傳統(tǒng)數(shù)據(jù)倉庫的10倍到50倍,總數(shù)據(jù)量的80~90%大數(shù)據(jù)的異構(gòu)和多樣性,多種形式(文本、圖像、視頻、機(jī)器數(shù)據(jù)),無模式或者模式不明顯,不連貫的語法或句義大量的不相關(guān)信息對(duì)未來趨勢與模式的可預(yù)測分析,深度復(fù)雜分析,機(jī)器學(xué)習(xí)、人工智能Vs傳統(tǒng)商務(wù)智能(咨詢、報(bào)告等)實(shí)時(shí)分析而非批量式分析,數(shù)據(jù)輸入、處理與丟棄,立竿見影而非事后見效1234體量Volume多樣性Variety價(jià)值密度Valu3相關(guān)領(lǐng)域應(yīng)用3相關(guān)領(lǐng)域應(yīng)用軍事①建設(shè)公共基礎(chǔ)設(shè)施應(yīng)該如何選址?②怎樣有效提高公眾生活安全水平?③人口土地、資源利用如何優(yōu)化?④自然災(zāi)害、霧霾情況怎樣最大化去改善?⑤城市交通擁堵情況怎么去解決?合理規(guī)劃很重要食品安全消費(fèi)行業(yè)金融服務(wù)電子商務(wù)氣象交通環(huán)保醫(yī)療衛(wèi)生軍事①建設(shè)公共基礎(chǔ)設(shè)施應(yīng)該如何選址?合理規(guī)劃很重要食品安全消軍事食品安全消費(fèi)行業(yè)金融服務(wù)電子商務(wù)氣象交通環(huán)保醫(yī)療衛(wèi)生軍事食品安全消費(fèi)行業(yè)金融服務(wù)電子商務(wù)氣象交通環(huán)保醫(yī)療衛(wèi)生VS優(yōu)化城市實(shí)時(shí)交通信息:利用社交網(wǎng)絡(luò)和天氣數(shù)據(jù)來優(yōu)化最新的交通情況智能城市系統(tǒng):自動(dòng)通知消防、公安、醫(yī)院等,迅速到達(dá)現(xiàn)場處理自然災(zāi)害預(yù)測:實(shí)時(shí)監(jiān)測、對(duì)潛在危機(jī)做出快速響應(yīng),通過衛(wèi)星和遙感技術(shù),遠(yuǎn)程獲取災(zāi)區(qū)情況,制定合理救援計(jì)劃智慧城市建設(shè):宏觀調(diào)控人口、環(huán)境、土地資源利用等,做高效的城市規(guī)劃建設(shè)正確方式VS優(yōu)化實(shí)時(shí)交通信息:利用社交網(wǎng)絡(luò)和天氣數(shù)據(jù)來優(yōu)化最正確VS改善生活穿戴的裝備:根據(jù)睡眠模式、熱量消耗、心率等時(shí)刻監(jiān)控健康狀況提高醫(yī)療和研發(fā):迅速解碼DNA,結(jié)合海量病例迅速制定最優(yōu)治療方案改善安全和執(zhí)法:國家實(shí)時(shí)監(jiān)控恐怖主義,企業(yè)防御網(wǎng)絡(luò)攻擊,警察利用社交、公共資源數(shù)據(jù)來匹配犯罪人員信息,捕捉罪犯正確方式VS改善穿戴的裝備:根據(jù)睡眠模式、熱量消耗、心率等正確用戶行為數(shù)據(jù)用戶消費(fèi)數(shù)據(jù)用戶社交等UGC數(shù)據(jù)培亞馬遜、SMG、淘寶信用卡中心、螞蟻金服谷歌地圖、大眾點(diǎn)評(píng)、美團(tuán)等APP的自動(dòng)定位系統(tǒng)互聯(lián)網(wǎng)金融數(shù)據(jù)支付寶、陸金所用戶地理位置數(shù)據(jù)互聯(lián)網(wǎng)大數(shù)據(jù)簡單羅列幾個(gè)行業(yè)fackbook、新浪用戶行為數(shù)據(jù)用戶消費(fèi)數(shù)據(jù)用戶社交等UGC數(shù)據(jù)培亞馬遜、SMG合理使用大數(shù)據(jù)大數(shù)據(jù)之提高經(jīng)濟(jì)策略金融服務(wù)電子商務(wù)消費(fèi)行業(yè)根據(jù)用戶的喜好、交易記錄并制定權(quán)重匹配商品,提供準(zhǔn)確的推送根據(jù)不同地域、不同年齡段的人群的消費(fèi)情況及生活習(xí)慣,制定提供最優(yōu)服務(wù)的計(jì)劃結(jié)合熱點(diǎn)、題材、政策和歷史數(shù)據(jù)及趨勢分析,制定良好的方向合理使用大數(shù)據(jù)大數(shù)據(jù)之提高經(jīng)濟(jì)策略金融服務(wù)電子商務(wù)消費(fèi)行業(yè)根4相關(guān)技術(shù)云計(jì)算列數(shù)據(jù)庫實(shí)時(shí)分析hadoop生態(tài)集群4相關(guān)技術(shù)云計(jì)算數(shù)據(jù)庫數(shù)據(jù)靈活低價(jià)格高性能數(shù)據(jù)靈活非關(guān)系型(列)數(shù)據(jù)庫數(shù)據(jù)靈活低價(jià)格高性能數(shù)據(jù)靈活非關(guān)系型(列)性能對(duì)比優(yōu)點(diǎn)缺點(diǎn)優(yōu)點(diǎn)缺點(diǎn)易理解使用方便支持sql易于維護(hù)價(jià)格昂貴不能自動(dòng)切片固定表結(jié)構(gòu)讀寫性能差高并發(fā)讀寫需求讀寫性能高基于鍵值對(duì)無耦合數(shù)據(jù)存儲(chǔ)格式豐富價(jià)格低大多免費(fèi)不提供sql支持學(xué)習(xí)成本高BI支持弱關(guān)系型數(shù)據(jù)庫非關(guān)系型數(shù)據(jù)庫NoSql場景不同效果也不同,目前NoSql是最為合適大數(shù)據(jù)發(fā)展的關(guān)系型數(shù)據(jù)庫:Mysql、Oracle、SQserver等非關(guān)系型數(shù)據(jù)庫:Hbase、MongoDB、Redis等性優(yōu)點(diǎn)缺點(diǎn)優(yōu)點(diǎn)缺點(diǎn)易理解價(jià)格昂貴不提供sql支持關(guān)系型數(shù)據(jù)云計(jì)算移動(dòng)電話PCsTVsPDAsGPS導(dǎo)航汽車電子設(shè)備智能家電iPhoneDCs傳感器。。。我們已經(jīng)進(jìn)入一個(gè)無處不網(wǎng)、無時(shí)不網(wǎng)的時(shí)代!云計(jì)算(cloudcomputing)是基于互聯(lián)網(wǎng)的相關(guān)服務(wù)的增加、使用和交付模式,通常涉及通過互聯(lián)網(wǎng)來提供動(dòng)態(tài)易擴(kuò)展且經(jīng)常是虛擬化的資源。云是網(wǎng)絡(luò)、互聯(lián)網(wǎng)的一種比喻說法,用戶通過電腦、筆記本、手機(jī)等方式接入數(shù)據(jù)中心,按自己的需求進(jìn)行運(yùn)算。云移動(dòng)電話PCsTVsPDAsGPS導(dǎo)航汽車電子設(shè)備智能家電大數(shù)據(jù)與云計(jì)算云計(jì)算與大數(shù)據(jù)的關(guān)系是靜與動(dòng)的關(guān)系,前者強(qiáng)調(diào)的是計(jì)算、存儲(chǔ)能力;大數(shù)據(jù)需要處理大數(shù)據(jù)的能力(數(shù)據(jù)獲取、清洗、轉(zhuǎn)換、存儲(chǔ)、分析、統(tǒng)計(jì)等能力),其實(shí)就是強(qiáng)大的計(jì)算能力和數(shù)據(jù)存儲(chǔ)能力。大數(shù)據(jù)必須采用云端分布式架構(gòu)對(duì)海量數(shù)據(jù)進(jìn)行分布式存儲(chǔ)、分布式處理。云計(jì)算為大數(shù)據(jù)資源、大數(shù)據(jù)挖掘提供技術(shù)設(shè)施大數(shù)據(jù)挖掘?yàn)樵朴?jì)算建設(shè)和運(yùn)作提供決策相互關(guān)聯(lián)性大數(shù)據(jù)與云計(jì)算云計(jì)算與大數(shù)據(jù)的關(guān)系是靜與動(dòng)的關(guān)系,相互關(guān)聯(lián)性大數(shù)據(jù)之實(shí)時(shí)分析是指對(duì)規(guī)模巨大的數(shù)據(jù)進(jìn)行分析,利用大數(shù)據(jù)技術(shù)高效的快速完成分析,達(dá)到近似實(shí)時(shí)的效果,更及時(shí)的反映數(shù)據(jù)的價(jià)值和意義。大數(shù)據(jù)之是指對(duì)規(guī)模巨大的數(shù)據(jù)進(jìn)行分析,利用大數(shù)據(jù)技術(shù)高效的快近實(shí)時(shí)的數(shù)據(jù)分析,是傳統(tǒng)架構(gòu)的50-1000倍高效的響應(yīng)速度在當(dāng)今互聯(lián)網(wǎng)顯得極為重要
實(shí)時(shí)大數(shù)據(jù)分析spark實(shí)時(shí)分析框架共性:開源的分布式系統(tǒng),具有低延遲、可擴(kuò)展和容錯(cuò)性諸多優(yōu)點(diǎn)流式實(shí)時(shí)分析框架storm近實(shí)時(shí)的數(shù)據(jù)分析,是傳統(tǒng)架構(gòu)的50-1000倍高效的響應(yīng)速度Hadoop集群什么是hadoop?集群又是什么?是編程語言嗎?作用?設(shè)計(jì)理念?跟大數(shù)據(jù)有什么關(guān)系?Hadoop集群什么是hadoop?是編程語言嗎?作用?跟大Hadoop是開源平臺(tái),本身不是數(shù)據(jù)庫,但可處理非結(jié)構(gòu)化數(shù)據(jù)這點(diǎn)關(guān)系數(shù)據(jù)庫很難做到j(luò)ava、android等程序是用來做交互的,而hadoop是用來做計(jì)算的Hadoop是開源平臺(tái),本身不是數(shù)據(jù)庫,但可處理非結(jié)構(gòu)哪些公司在使用Hadoop哪些公司在使用Hadoop為什么使用Hadoop小型機(jī)小型機(jī)VPSVPSVPSVPS存儲(chǔ)陣列數(shù)據(jù)移動(dòng)EMC存儲(chǔ)OracleIBM磁盤IO瓶頸帶寬瓶頸計(jì)算瓶頸cpucpu基于共享存儲(chǔ)和高性能計(jì)算的架構(gòu)。大型機(jī)和小型機(jī)的差別存儲(chǔ)陣列和普通硬盤的差別IO,穩(wěn)定性。IO能力和機(jī)器數(shù)量成非正比計(jì)算能力和機(jī)器數(shù)量成正比scale-up(縱向擴(kuò)展)為什么使用Hadoop小型機(jī)小型機(jī)VPSVPSVPSVPS存集群思路引入一戶人家,家里有很多的田,他需要牛來耕地,他要怎么來決策耕田的問題呢?一只普通的牛體力有限,很快就不行了換一只昂貴的身材健碩的牛呢?還是體力有限,很快就又不行了最后他想到一個(gè)辦法:如果找一群普通的牛,事實(shí)不會(huì)又便宜又高效呢?集群的概念就是這么得來的集群思路引入一戶人家,家里有很多的田,他需要牛來耕地,他要怎特性HDFS:HadoopDistributed
分布式文件系統(tǒng)MapReduce:分布式運(yùn)算框架YARN:YetAnotherResourceNegotiator資源管理調(diào)度系統(tǒng)特HDFS:HadoopDistributed分布生態(tài)圈生問題:怎樣存儲(chǔ)海量數(shù)據(jù)?HDFS分布式文件系統(tǒng)兩個(gè)思想十分重要1.切分2.分裝問題:怎樣存儲(chǔ)海量數(shù)據(jù)?HDFS分布式文件系統(tǒng)兩個(gè)思想十分MapReduce介紹MapReduce=Map(拆分)+Reduce(合并、排序)MapReduce介紹MapReduce=Map(拆分大數(shù)據(jù)時(shí)代來臨一切真相將會(huì)展現(xiàn)在我們面前大數(shù)據(jù)時(shí)代來臨一切真相將會(huì)展現(xiàn)在我們面前大數(shù)據(jù)模板培訓(xùn)課件1、有時(shí)候讀書是一種巧妙地避開思考的方法。12月-2212月-22Monday,December12,20222、閱讀一切好書如同和過去最杰出的人談話。04:22:2904:22:2904:2212/12/20224:22:29AM3、越是沒有本領(lǐng)的就越加自命不凡。12月-2204:22:2904:22Dec-2212-Dec-224、越是無能的人,越喜歡挑剔別人的錯(cuò)兒。04:22:2904:22:2904:22Monday,December12,20225、知人者智,自知者明。勝人者有力,自勝者強(qiáng)。12月-2212月-2204:22:2904:22:29December12,20226、意志堅(jiān)強(qiáng)的人能把世界放在手中像泥塊一樣任意揉捏。12十二月20224:22:29上午04:22:2912月-227、最具挑戰(zhàn)性的挑戰(zhàn)莫過于提升自我。。十二月224:22上午12月-2204:22December12,20228、業(yè)余生活要有意義,不要越軌。2022/12/124:22:2904:22:2912December20229、一個(gè)人即使已登上頂峰,也仍要自強(qiáng)不息。4:22:29上午4:22上午04:22:2912月-2210、你要做多大的事情,就該承受多大的壓力。12/12/20224:22:29AM04:22:2912-12月-2211、自己要先看得起自己,別人才會(huì)看得起你。12/12/20224:22AM12/12/20224:22AM12月-2212月-2212、這一秒不放棄,下一秒就會(huì)有希望。12-Dec-2212December202212月-2213、無論才能知識(shí)多么卓著,如果缺乏熱情,則無異紙上畫餅充饑,無補(bǔ)于事。Monday,December12,202212-Dec-2212月-2214、我只是自己不放過自己而已,現(xiàn)在我不會(huì)再逼自己眷戀了。12月-2204:22:2912December202204:22謝謝大家1、有時(shí)候讀書是一種巧妙地避開思考的方法。12月-2212月39大數(shù)據(jù)模板培訓(xùn)課件123大數(shù)據(jù)概述大數(shù)據(jù)4V特性相關(guān)領(lǐng)域應(yīng)用4相關(guān)技術(shù)架構(gòu)目錄123大數(shù)據(jù)概述大數(shù)據(jù)4V特性相關(guān)領(lǐng)域應(yīng)用4相關(guān)技術(shù)架構(gòu)目錄1大數(shù)據(jù)概述大數(shù)據(jù)產(chǎn)生的背景什么是大數(shù)據(jù)大數(shù)據(jù)時(shí)代1大數(shù)據(jù)概述大數(shù)據(jù)產(chǎn)生的背景數(shù)據(jù)量級(jí)變化大數(shù)據(jù)產(chǎn)生背景數(shù)據(jù)量級(jí)不斷增加|根據(jù)IDC監(jiān)測,人類產(chǎn)生的數(shù)據(jù)量正在呈指數(shù)級(jí)增長,大約每兩年翻一番,這個(gè)速度在2020年之前會(huì)繼續(xù)保持下去。數(shù)據(jù)結(jié)構(gòu)日趨復(fù)雜|
大量新數(shù)據(jù)源的出現(xiàn)則導(dǎo)致非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)爆發(fā)式的增長TBPBZBEB數(shù)據(jù)量級(jí)變化大數(shù)據(jù)產(chǎn)生背景數(shù)據(jù)量級(jí)不斷增加|根據(jù)IDC地球上至今的數(shù)據(jù)量:在2006年,個(gè)人用戶才剛剛邁進(jìn)TB時(shí)代,全球一共新產(chǎn)生了約180EB的數(shù)據(jù);在2011年,這個(gè)數(shù)字達(dá)到了1.8ZB。
而有市場研究機(jī)構(gòu)預(yù)測:到2020年,整個(gè)世界的數(shù)據(jù)總量將會(huì)增長44倍,達(dá)到35.2ZB(1ZB=10億TB)說明互聯(lián)網(wǎng)(社交、搜索、電商)、移動(dòng)互聯(lián)網(wǎng)(微博)、物聯(lián)網(wǎng)(傳感器,智慧地球)、車聯(lián)網(wǎng)、GPS、醫(yī)學(xué)影像、安全監(jiān)控、金融(銀行、股市、保險(xiǎn))、電信(通話、短信)都在瘋狂產(chǎn)生著數(shù)據(jù)。1GB(Gigabyte)=1024MB1TB(Terabyte)=1024GB1PB(Petabyte)=1024TB1EB(Exabyte)=1024PB1ZB(Zettabyte)=1024EB地球上至今的數(shù)據(jù)量:在2006年,個(gè)人用戶才剛剛邁進(jìn)TB時(shí)大數(shù)據(jù)時(shí)代變化數(shù)據(jù)在web2.0的時(shí)代,人們從信息的被動(dòng)接受者變成了主動(dòng)創(chuàng)造者全球每秒鐘發(fā)送2.9百萬封電子郵件,每天會(huì)有2.88萬個(gè)小時(shí)的視頻上傳到Y(jié)outube,推特上每天發(fā)布5千萬條消息量級(jí)每月網(wǎng)民在Facebook上要花費(fèi)7千億分鐘,發(fā)送和接收的數(shù)據(jù)高達(dá)1.3EBGoogle上每天需要處理24PB的數(shù)據(jù)…大數(shù)據(jù)時(shí)代變化數(shù)據(jù)在web2.0的時(shí)代,人們從信息的被動(dòng)接數(shù)結(jié)多樣性大數(shù)據(jù)的定義大數(shù)據(jù)(bigdata),指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應(yīng)海量、高增長率和多樣化的信息資產(chǎn)。想駕馭這龐大的數(shù)據(jù),我們必須了解大數(shù)據(jù)的特征。facebook社交網(wǎng)絡(luò)…淘寶、ebuy電子商務(wù)…微博、Apps移動(dòng)互聯(lián)…數(shù)結(jié)多樣性大數(shù)據(jù)的定義大數(shù)據(jù)(bigdata),指無法在一2大數(shù)據(jù)的4V特性體量Volume多樣性Variety價(jià)值密度Value速度Velocity2大數(shù)據(jù)的4V特性體量Volume數(shù)據(jù)結(jié)構(gòu)海量存儲(chǔ)能力讀寫速度實(shí)時(shí)大數(shù)據(jù)分析hadoophbasesparkstrom數(shù)據(jù)結(jié)構(gòu)海量存儲(chǔ)能力讀寫速度實(shí)時(shí)大數(shù)據(jù)分析hadoophba大數(shù)據(jù)典型特性——存儲(chǔ)能力變化▲
數(shù)據(jù)量不斷增加,存儲(chǔ)能力也隨之不斷增強(qiáng)存儲(chǔ)能力大數(shù)據(jù)典型特性——存儲(chǔ)能力變化▲數(shù)據(jù)量不斷增加,存儲(chǔ)能力也大數(shù)據(jù)典型特性——讀寫速度提升▲與云計(jì)算相結(jié)合的大數(shù)據(jù)存儲(chǔ)速度顯著提升數(shù)據(jù)體量讀寫速度讀寫速度大數(shù)據(jù)典型特性——讀寫速度提升▲與云計(jì)算相結(jié)合的大數(shù)據(jù)存儲(chǔ)速大數(shù)據(jù)典型特性——多樣性發(fā)展▲數(shù)據(jù)結(jié)構(gòu)更加復(fù)雜,呈多樣性發(fā)展數(shù)據(jù)結(jié)構(gòu)多樣性大數(shù)據(jù)典型特性——多樣性發(fā)展▲數(shù)據(jù)結(jié)構(gòu)更加復(fù)雜,呈多樣性發(fā)展1234體量Volume多樣性Variety價(jià)值密度Value速度Velocity4V特性從非結(jié)構(gòu)化數(shù)據(jù)的超大規(guī)模和增長,比結(jié)構(gòu)化數(shù)據(jù)增長快10倍到50倍,是傳統(tǒng)數(shù)據(jù)倉庫的10倍到50倍,總數(shù)據(jù)量的80~90%大數(shù)據(jù)的異構(gòu)和多樣性,多種形式(文本、圖像、視頻、機(jī)器數(shù)據(jù)),無模式或者模式不明顯,不連貫的語法或句義大量的不相關(guān)信息對(duì)未來趨勢與模式的可預(yù)測分析,深度復(fù)雜分析,機(jī)器學(xué)習(xí)、人工智能Vs傳統(tǒng)商務(wù)智能(咨詢、報(bào)告等)實(shí)時(shí)分析而非批量式分析,數(shù)據(jù)輸入、處理與丟棄,立竿見影而非事后見效1234體量Volume多樣性Variety價(jià)值密度Valu3相關(guān)領(lǐng)域應(yīng)用3相關(guān)領(lǐng)域應(yīng)用軍事①建設(shè)公共基礎(chǔ)設(shè)施應(yīng)該如何選址?②怎樣有效提高公眾生活安全水平?③人口土地、資源利用如何優(yōu)化?④自然災(zāi)害、霧霾情況怎樣最大化去改善?⑤城市交通擁堵情況怎么去解決?合理規(guī)劃很重要食品安全消費(fèi)行業(yè)金融服務(wù)電子商務(wù)氣象交通環(huán)保醫(yī)療衛(wèi)生軍事①建設(shè)公共基礎(chǔ)設(shè)施應(yīng)該如何選址?合理規(guī)劃很重要食品安全消軍事食品安全消費(fèi)行業(yè)金融服務(wù)電子商務(wù)氣象交通環(huán)保醫(yī)療衛(wèi)生軍事食品安全消費(fèi)行業(yè)金融服務(wù)電子商務(wù)氣象交通環(huán)保醫(yī)療衛(wèi)生VS優(yōu)化城市實(shí)時(shí)交通信息:利用社交網(wǎng)絡(luò)和天氣數(shù)據(jù)來優(yōu)化最新的交通情況智能城市系統(tǒng):自動(dòng)通知消防、公安、醫(yī)院等,迅速到達(dá)現(xiàn)場處理自然災(zāi)害預(yù)測:實(shí)時(shí)監(jiān)測、對(duì)潛在危機(jī)做出快速響應(yīng),通過衛(wèi)星和遙感技術(shù),遠(yuǎn)程獲取災(zāi)區(qū)情況,制定合理救援計(jì)劃智慧城市建設(shè):宏觀調(diào)控人口、環(huán)境、土地資源利用等,做高效的城市規(guī)劃建設(shè)正確方式VS優(yōu)化實(shí)時(shí)交通信息:利用社交網(wǎng)絡(luò)和天氣數(shù)據(jù)來優(yōu)化最正確VS改善生活穿戴的裝備:根據(jù)睡眠模式、熱量消耗、心率等時(shí)刻監(jiān)控健康狀況提高醫(yī)療和研發(fā):迅速解碼DNA,結(jié)合海量病例迅速制定最優(yōu)治療方案改善安全和執(zhí)法:國家實(shí)時(shí)監(jiān)控恐怖主義,企業(yè)防御網(wǎng)絡(luò)攻擊,警察利用社交、公共資源數(shù)據(jù)來匹配犯罪人員信息,捕捉罪犯正確方式VS改善穿戴的裝備:根據(jù)睡眠模式、熱量消耗、心率等正確用戶行為數(shù)據(jù)用戶消費(fèi)數(shù)據(jù)用戶社交等UGC數(shù)據(jù)培亞馬遜、SMG、淘寶信用卡中心、螞蟻金服谷歌地圖、大眾點(diǎn)評(píng)、美團(tuán)等APP的自動(dòng)定位系統(tǒng)互聯(lián)網(wǎng)金融數(shù)據(jù)支付寶、陸金所用戶地理位置數(shù)據(jù)互聯(lián)網(wǎng)大數(shù)據(jù)簡單羅列幾個(gè)行業(yè)fackbook、新浪用戶行為數(shù)據(jù)用戶消費(fèi)數(shù)據(jù)用戶社交等UGC數(shù)據(jù)培亞馬遜、SMG合理使用大數(shù)據(jù)大數(shù)據(jù)之提高經(jīng)濟(jì)策略金融服務(wù)電子商務(wù)消費(fèi)行業(yè)根據(jù)用戶的喜好、交易記錄并制定權(quán)重匹配商品,提供準(zhǔn)確的推送根據(jù)不同地域、不同年齡段的人群的消費(fèi)情況及生活習(xí)慣,制定提供最優(yōu)服務(wù)的計(jì)劃結(jié)合熱點(diǎn)、題材、政策和歷史數(shù)據(jù)及趨勢分析,制定良好的方向合理使用大數(shù)據(jù)大數(shù)據(jù)之提高經(jīng)濟(jì)策略金融服務(wù)電子商務(wù)消費(fèi)行業(yè)根4相關(guān)技術(shù)云計(jì)算列數(shù)據(jù)庫實(shí)時(shí)分析hadoop生態(tài)集群4相關(guān)技術(shù)云計(jì)算數(shù)據(jù)庫數(shù)據(jù)靈活低價(jià)格高性能數(shù)據(jù)靈活非關(guān)系型(列)數(shù)據(jù)庫數(shù)據(jù)靈活低價(jià)格高性能數(shù)據(jù)靈活非關(guān)系型(列)性能對(duì)比優(yōu)點(diǎn)缺點(diǎn)優(yōu)點(diǎn)缺點(diǎn)易理解使用方便支持sql易于維護(hù)價(jià)格昂貴不能自動(dòng)切片固定表結(jié)構(gòu)讀寫性能差高并發(fā)讀寫需求讀寫性能高基于鍵值對(duì)無耦合數(shù)據(jù)存儲(chǔ)格式豐富價(jià)格低大多免費(fèi)不提供sql支持學(xué)習(xí)成本高BI支持弱關(guān)系型數(shù)據(jù)庫非關(guān)系型數(shù)據(jù)庫NoSql場景不同效果也不同,目前NoSql是最為合適大數(shù)據(jù)發(fā)展的關(guān)系型數(shù)據(jù)庫:Mysql、Oracle、SQserver等非關(guān)系型數(shù)據(jù)庫:Hbase、MongoDB、Redis等性優(yōu)點(diǎn)缺點(diǎn)優(yōu)點(diǎn)缺點(diǎn)易理解價(jià)格昂貴不提供sql支持關(guān)系型數(shù)據(jù)云計(jì)算移動(dòng)電話PCsTVsPDAsGPS導(dǎo)航汽車電子設(shè)備智能家電iPhoneDCs傳感器。。。我們已經(jīng)進(jìn)入一個(gè)無處不網(wǎng)、無時(shí)不網(wǎng)的時(shí)代!云計(jì)算(cloudcomputing)是基于互聯(lián)網(wǎng)的相關(guān)服務(wù)的增加、使用和交付模式,通常涉及通過互聯(lián)網(wǎng)來提供動(dòng)態(tài)易擴(kuò)展且經(jīng)常是虛擬化的資源。云是網(wǎng)絡(luò)、互聯(lián)網(wǎng)的一種比喻說法,用戶通過電腦、筆記本、手機(jī)等方式接入數(shù)據(jù)中心,按自己的需求進(jìn)行運(yùn)算。云移動(dòng)電話PCsTVsPDAsGPS導(dǎo)航汽車電子設(shè)備智能家電大數(shù)據(jù)與云計(jì)算云計(jì)算與大數(shù)據(jù)的關(guān)系是靜與動(dòng)的關(guān)系,前者強(qiáng)調(diào)的是計(jì)算、存儲(chǔ)能力;大數(shù)據(jù)需要處理大數(shù)據(jù)的能力(數(shù)據(jù)獲取、清洗、轉(zhuǎn)換、存儲(chǔ)、分析、統(tǒng)計(jì)等能力),其實(shí)就是強(qiáng)大的計(jì)算能力和數(shù)據(jù)存儲(chǔ)能力。大數(shù)據(jù)必須采用云端分布式架構(gòu)對(duì)海量數(shù)據(jù)進(jìn)行分布式存儲(chǔ)、分布式處理。云計(jì)算為大數(shù)據(jù)資源、大數(shù)據(jù)挖掘提供技術(shù)設(shè)施大數(shù)據(jù)挖掘?yàn)樵朴?jì)算建設(shè)和運(yùn)作提供決策相互關(guān)聯(lián)性大數(shù)據(jù)與云計(jì)算云計(jì)算與大數(shù)據(jù)的關(guān)系是靜與動(dòng)的關(guān)系,相互關(guān)聯(lián)性大數(shù)據(jù)之實(shí)時(shí)分析是指對(duì)規(guī)模巨大的數(shù)據(jù)進(jìn)行分析,利用大數(shù)據(jù)技術(shù)高效的快速完成分析,達(dá)到近似實(shí)時(shí)的效果,更及時(shí)的反映數(shù)據(jù)的價(jià)值和意義。大數(shù)據(jù)之是指對(duì)規(guī)模巨大的數(shù)據(jù)進(jìn)行分析,利用大數(shù)據(jù)技術(shù)高效的快近實(shí)時(shí)的數(shù)據(jù)分析,是傳統(tǒng)架構(gòu)的50-1000倍高效的響應(yīng)速度在當(dāng)今互聯(lián)網(wǎng)顯得極為重要
實(shí)時(shí)大數(shù)據(jù)分析spark實(shí)時(shí)分析框架共性:開源的分布式系統(tǒng),具有低延遲、可擴(kuò)展和容錯(cuò)性諸多優(yōu)點(diǎn)流式實(shí)時(shí)分析框架storm近實(shí)時(shí)的數(shù)據(jù)分析,是傳統(tǒng)架構(gòu)的50-1000倍高效的響應(yīng)速度Hadoop集群什么是hadoop?集群又是什么?是編程語言嗎?作用?設(shè)計(jì)理念?跟大數(shù)據(jù)有什么關(guān)系?Hadoop集群什么是hadoop?是編程語言嗎?作用?跟大Hadoop是開源平臺(tái),本身不是數(shù)據(jù)庫,但可處理非結(jié)構(gòu)化數(shù)據(jù)這點(diǎn)關(guān)系數(shù)據(jù)庫很難做到j(luò)ava、android等程序是用來做交互的,而hadoop是用來做計(jì)算的Hadoop是開源平臺(tái),本身不是數(shù)據(jù)庫,但可處理非結(jié)構(gòu)哪些公司在使用Hadoop哪些公司在使用Hadoop為什么使用Hadoop小型機(jī)小型機(jī)VPSVPSVPSVPS存儲(chǔ)陣列數(shù)據(jù)移動(dòng)EMC存儲(chǔ)OracleIBM磁盤IO瓶頸帶寬瓶頸計(jì)算瓶頸cpucpu基于共享存儲(chǔ)和高性能計(jì)算的架構(gòu)。大型機(jī)和小型機(jī)的差別存儲(chǔ)陣列和普通硬盤的差別IO,穩(wěn)定性。IO能力和機(jī)器數(shù)量成非正比計(jì)算能力和機(jī)器數(shù)量成正比scale-up(縱向擴(kuò)展)為什么使用Hadoop小型機(jī)小型機(jī)VPSVPSVPSVPS存集群思路引入一戶人家,家里有很多的田,他需要牛來耕地,他要怎么來決策耕田的問題呢?一只普通的牛體力有限,很快就不行了換一只昂貴的身材健碩的牛呢?還是體力有限,很快就又不行了最后他想到一個(gè)辦法:如果找一群普通的牛,事實(shí)不會(huì)又便宜又高效呢?集群的概念就是這么得來的集群思路引入一戶人家,家里有很多的田,他需要牛來耕地,他要怎特性HDFS:HadoopDistributed
分布式文件系統(tǒng)MapReduce:分布式運(yùn)算框架YARN:YetAnotherResourceNegotiator資源管理調(diào)度系統(tǒng)特HDFS:HadoopDistributed分布生態(tài)圈生問題:怎樣存儲(chǔ)海量數(shù)據(jù)?HDFS分布式文件系統(tǒng)兩個(gè)思想十分重要1.切分2.分裝
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年標(biāo)牌產(chǎn)品項(xiàng)目可行性研究報(bào)告
- 納米改性劑行業(yè)市場發(fā)展及發(fā)展趨勢與投資戰(zhàn)略研究報(bào)告
- 2025年中國哮喘藥市場競爭策略及行業(yè)投資潛力預(yù)測報(bào)告
- 2024-2025學(xué)年高中地理第一單元地球運(yùn)動(dòng)第一節(jié)地球自轉(zhuǎn)的地理意義練習(xí)
- 2024-2025學(xué)年新教材高中化學(xué)1.1物質(zhì)的分類及轉(zhuǎn)化綜合訓(xùn)練含解析新人教版必修第一冊(cè)
- 2024-2025學(xué)年高中化學(xué)專題3從礦物到基礎(chǔ)材料第2單元第2課時(shí)鐵銅及其化合物的應(yīng)用練習(xí)含解析蘇教版必修1
- 2024年上海市普通高中學(xué)業(yè)水平等級(jí)性考試物理試題含答案
- 庫克小兒止咳糖漿行業(yè)深度研究報(bào)告
- 2025年門燈開關(guān)項(xiàng)目可行性研究報(bào)告
- 2025年中國巡檢機(jī)器人行業(yè)市場規(guī)模及發(fā)展前景研究報(bào)告(智研咨詢)
- 《2023版CSCO卵巢癌診療指南》解讀課件
- XX小學(xué)學(xué)生心理健康檔案(一生一案)
- 螺旋體病梅毒課件
- (小學(xué)組)全國版圖知識(shí)競賽考試題含答案
- 人教版一年級(jí)道德與法治下冊(cè)全冊(cè)教案
- 類風(fēng)濕關(guān)節(jié)炎前狀態(tài)診療專家共識(shí)(2024)解讀
- 2024-2030年中國化妝鏡行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略分析報(bào)告
- Project項(xiàng)目管理(從菜鳥到實(shí)戰(zhàn)高手)
- 食品加工機(jī)械與設(shè)備操作技能測試考核試卷
- SNT 1961.11-2013 出口食品過敏原成分檢測 第11部分:實(shí)時(shí)熒光PCR方法檢測麩質(zhì)成分
- 冀教版數(shù)學(xué)七年級(jí)上下冊(cè)知識(shí)點(diǎn)總結(jié)
評(píng)論
0/150
提交評(píng)論