大數(shù)據(jù)技術(shù)和應(yīng)用_第1頁(yè)
大數(shù)據(jù)技術(shù)和應(yīng)用_第2頁(yè)
大數(shù)據(jù)技術(shù)和應(yīng)用_第3頁(yè)
大數(shù)據(jù)技術(shù)和應(yīng)用_第4頁(yè)
大數(shù)據(jù)技術(shù)和應(yīng)用_第5頁(yè)
已閱讀5頁(yè),還剩17頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、大數(shù)據(jù)時(shí)代大數(shù)據(jù)技術(shù)和應(yīng)用一.什么是大大數(shù)據(jù)?大數(shù)據(jù)的的概念大數(shù)據(jù)(big data,megadata),或稱(chēng)巨巨量資料,指的是是需要新新處理模模式才能能具有更更強(qiáng)的決決策力、洞察力力和流程程優(yōu)化能能力的海海量、高高增長(zhǎng)率率和多樣樣化的信信息資產(chǎn)產(chǎn)。大數(shù)據(jù)的的4V特點(diǎn)Volume(大量)Velocity(高速)Variety(多樣)Value(價(jià)值)大數(shù)據(jù)的的4V特性大數(shù)據(jù)的4個(gè)“V”,或者說(shuō)說(shuō)特點(diǎn)有有四個(gè)層層面:第一,數(shù)據(jù)體體量巨大大。從TB級(jí)別,躍躍升到PB級(jí)別;位、bit(比特,BinaryDigits):存放以為為二進(jìn)制制數(shù),即0或1,最小的存儲(chǔ)單位。字節(jié)byte:8個(gè)二進(jìn)制制位為一一

2、個(gè)字節(jié)節(jié)(B)。(1KB=1024B1MB=1024KB1GB=1024MB1TB=1024GB1PB=1024TB1EB=1024PB1ZB=1024EB1YB=1024ZB1BB=1024YB)第二,數(shù)據(jù)類(lèi)類(lèi)型繁多多。網(wǎng)絡(luò)上上提到的網(wǎng)絡(luò)日日志、視視頻、圖圖片、地地理位置置信息等等等。第三,價(jià)值密密度低。以視頻頻為例,連續(xù)不不間斷監(jiān)監(jiān)控過(guò)程程中,可可能有用用的數(shù)據(jù)據(jù)僅僅有有一兩秒秒。第四,處理速速度快。1秒定律。最后這這一點(diǎn)也也是和傳傳統(tǒng)的數(shù)數(shù)據(jù)挖掘掘技術(shù)有有著本質(zhì)質(zhì)的不同同。業(yè)界界將其歸歸納為4個(gè)“V”Volume,Variety,Value,Velocity。大數(shù)據(jù)的的收集方方式物聯(lián)網(wǎng)云

3、計(jì)算移動(dòng)互聯(lián)聯(lián)網(wǎng)車(chē)聯(lián)網(wǎng)手機(jī)、平板電電腦、PC遍布地球各個(gè)個(gè)角落的的各種各各樣的傳傳感器大數(shù)據(jù)的的收集方方式物聯(lián)網(wǎng)、云云計(jì)算、移動(dòng)互互聯(lián)網(wǎng)、車(chē)聯(lián)網(wǎng)網(wǎng)、手機(jī)機(jī)、車(chē)聯(lián)聯(lián)網(wǎng)、PC以及遍布布地球各各個(gè)角落落的各種種各樣的的傳感器器,無(wú)一一不是數(shù)數(shù)據(jù)來(lái)源源或者承承載的方方式。大數(shù)據(jù)領(lǐng)領(lǐng)域的技技術(shù)HadoopHadoop是一個(gè)由由Apache基金會(huì)所開(kāi)發(fā)的的分布式系系統(tǒng)基礎(chǔ)架構(gòu)。Hadoop是一個(gè)能能夠?qū)Υ蟠罅繑?shù)據(jù)據(jù)進(jìn)行分分布式處處理的軟軟件框架架。但是是Hadoop是以一種種可靠、高效、可伸縮縮的方式式進(jìn)行處處理的。Hadoop是可靠的的,因?yàn)闉樗僭O(shè)設(shè)計(jì)算元元素和存存儲(chǔ)會(huì)失失敗,因因此它維維護(hù)多個(gè)個(gè)工作

4、數(shù)數(shù)據(jù)副本本,確保保能夠針針對(duì)Hadoop失敗的節(jié)節(jié)點(diǎn)重新新分布處處理。Hadoop是高效的的,因?yàn)闉樗圆⒉⑿械姆椒绞焦ぷ髯?,通過(guò)過(guò)并行處處理加快快處理速速度。Hadoop還是可伸伸縮的,能夠處處理PB級(jí)數(shù)據(jù)。此外,Hadoop依賴于社社區(qū)服務(wù)務(wù)器,因因此它的的成本比比較低,任何人人都可以以使用。Hadoop原本來(lái)自自于谷歌歌一款名名為MapReduce的編程模模型包。谷歌的的MapReduce框架可以以把一個(gè)個(gè)應(yīng)用程程序分解解為許多多并行計(jì)計(jì)算指令令,跨大大量的計(jì)計(jì)算節(jié)點(diǎn)點(diǎn)運(yùn)行非非常巨大大的數(shù)據(jù)據(jù)集。Hadoop得以在大大數(shù)據(jù)處處理應(yīng)用用中廣泛泛應(yīng)用得得益于其其自身在在數(shù)據(jù)提取取、變形和加

5、載(ETL)方面上的的天然優(yōu)優(yōu)勢(shì)。Hadoop的分布式式架構(gòu),將大數(shù)數(shù)據(jù)處理理引擎盡盡可能的的靠近存存儲(chǔ),對(duì)對(duì)例如像像ETL這樣的批批處理操操作相對(duì)對(duì)合適,因?yàn)轭?lèi)類(lèi)似這樣樣操作的的批處理理結(jié)果可可以直接接走向存存儲(chǔ)。Hadoop的MapReduce功能實(shí)現(xiàn)現(xiàn)了將單單個(gè)任務(wù)務(wù)打碎,并將碎碎片任務(wù)務(wù)(Map)發(fā)送到多多個(gè)節(jié)點(diǎn)點(diǎn)上,之之后再以以單個(gè)數(shù)數(shù)據(jù)集的的形式加加載(Reduce)到數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)里。它主要有以以下幾個(gè)個(gè)優(yōu)點(diǎn):高可靠靠性。Hadoop按位存儲(chǔ)儲(chǔ)和處理理數(shù)據(jù)的的能力值值得人們們信賴。高擴(kuò)展展性。Hadoop是在可用用的計(jì)算算機(jī)集簇簇間分配配數(shù)據(jù)并并完成計(jì)計(jì)算任務(wù)務(wù)的,這這些集簇簇可以方

6、方便地?cái)U(kuò)擴(kuò)展到數(shù)數(shù)以千計(jì)計(jì)的節(jié)點(diǎn)點(diǎn)中。高效性性。Hadoop能夠在節(jié)節(jié)點(diǎn)之間間動(dòng)態(tài)地地移動(dòng)數(shù)數(shù)據(jù),并并保證各各個(gè)節(jié)點(diǎn)點(diǎn)的動(dòng)態(tài)態(tài)平衡,因此處處理速度度非常快快。高容錯(cuò)錯(cuò)性。Hadoop能夠自動(dòng)動(dòng)保存數(shù)數(shù)據(jù)的多多個(gè)副本本,并且且能夠自自動(dòng)將失失敗的任任務(wù)重新新分配。Storm什么是Storm?如果只用用一句話話來(lái)描述述storm的話,可可能會(huì)是是這樣:分布式式實(shí)時(shí)計(jì)計(jì)算系統(tǒng)統(tǒng)。按照照storm作者的說(shuō)說(shuō)法,storm對(duì)于實(shí)時(shí)時(shí)計(jì)算的的意義類(lèi)類(lèi)似于hadoop對(duì)于批處處理的意意義。在淘寶,storm被廣泛用用來(lái)進(jìn)行行實(shí)時(shí)日日志處理理,出現(xiàn)現(xiàn)在實(shí)時(shí)時(shí)統(tǒng)計(jì)、實(shí)時(shí)風(fēng)風(fēng)控、實(shí)實(shí)時(shí)推薦薦等場(chǎng)景景中。一一般來(lái)說(shuō)

7、說(shuō),我們們從類(lèi)kafka的metaQ或者基于于hbase的timetunnel中讀取實(shí)實(shí)時(shí)日志志消息,經(jīng)過(guò)一一系列處處理,最最終將處處理結(jié)果果寫(xiě)入到到一個(gè)分布式存存儲(chǔ)中,提供給給應(yīng)用程程序訪問(wèn)問(wèn)。我們們每天的的實(shí)時(shí)消消息量從從幾百萬(wàn)萬(wàn)到幾十十億不等等,數(shù)據(jù)據(jù)總量達(dá)達(dá)到TB級(jí)。對(duì)于于我們來(lái)來(lái)說(shuō),storm往往會(huì)配配合分布布式存儲(chǔ)儲(chǔ)服務(wù)一一起使用用。在我我們正在在進(jìn)行的的個(gè)性化化搜索實(shí)實(shí)時(shí)分析析項(xiàng)目中中,就使使用了timetunnel +hbase+storm+ ups的架構(gòu),每天處處理幾十十億的用用戶日志志信息,從用戶戶行為發(fā)發(fā)生到完完成分析析延遲在在秒級(jí)。其他大數(shù)數(shù)據(jù)技術(shù)術(shù)ApacheDril

8、l為了幫助企業(yè)業(yè)用戶尋尋找更為為有效、加快Hadoop數(shù)據(jù)查詢?cè)兊姆椒ǚ?,Apache軟件基金金會(huì)近日日發(fā)起了了一項(xiàng)名名為“Drill”的開(kāi)源項(xiàng)項(xiàng)目。ApacheDrill實(shí)現(xiàn)了GooglesDremel.RapidMinerRapidMiner是世界領(lǐng)領(lǐng)先的數(shù)數(shù)據(jù)挖掘掘解決方方案,在在一個(gè)非非常大的的程度上上有著先先進(jìn)技術(shù)術(shù)。它數(shù)數(shù)據(jù)挖掘掘任務(wù)涉涉及范圍圍廣泛,包括各各種數(shù)據(jù)據(jù)藝術(shù),能簡(jiǎn)化化數(shù)據(jù)挖挖掘過(guò)程程的設(shè)計(jì)計(jì)和評(píng)價(jià)價(jià)。Pentaho BIPentahoBI平臺(tái)不同同于傳統(tǒng)統(tǒng)的BI產(chǎn)品,它它是一個(gè)個(gè)以流程程為中心心的,面面向解決決方案(Solution)的框架。其目的的在于將將一系列列企

9、業(yè)級(jí)級(jí)BI產(chǎn)品、開(kāi)開(kāi)源軟件件、API等等組件件集成起起來(lái),方方便商務(wù)務(wù)智能應(yīng)應(yīng)用的開(kāi)開(kāi)發(fā)。HPCCHPCC,High Performance ComputingandCommunications(高性能計(jì)計(jì)算與通通信)的縮寫(xiě)。1993年,由美美國(guó)科學(xué)學(xué)、工程程、技術(shù)術(shù)聯(lián)邦協(xié)協(xié)調(diào)理事事會(huì)向國(guó)國(guó)會(huì)提交交了“重重大挑戰(zhàn)戰(zhàn)項(xiàng)目:高性能能計(jì)算與與 通信信”的報(bào)報(bào)告,也也就是被被稱(chēng)為HPCC計(jì)劃的報(bào)報(bào)告,即即美國(guó)總總統(tǒng)科學(xué)學(xué)戰(zhàn)略項(xiàng)項(xiàng)目,其其目的是是通過(guò)加加強(qiáng)研究究與開(kāi)發(fā)發(fā)解決一一批重要要的科學(xué)學(xué)與技術(shù)術(shù)挑戰(zhàn)問(wèn)問(wèn)題大數(shù)據(jù)的的應(yīng)用大數(shù)據(jù)在在風(fēng)電領(lǐng)領(lǐng)域的應(yīng)用首先,結(jié)合了了大數(shù)據(jù)據(jù)分析和和天氣建建模技術(shù)術(shù)的能源源

10、電力系系統(tǒng)能夠夠提高風(fēng)風(fēng)電的可可靠性。以往對(duì)對(duì)風(fēng)資源源的預(yù)測(cè)測(cè)不夠精精準(zhǔn),在在風(fēng)能無(wú)無(wú)法貢獻(xiàn)獻(xiàn)預(yù)期功功力時(shí),火電就就要作為為后備電電力。這這樣,電電網(wǎng)對(duì)風(fēng)風(fēng)電的依依賴程度度越高,需要建建設(shè)后備備電站的的成本就就越高。另外,啟用火火電站的的就等于于向環(huán)境境中釋放放碳排。然而,在大數(shù)數(shù)據(jù)分析析的幫助助下,溫溫度、氣氣壓、濕濕度、降降雨量、風(fēng)向和和風(fēng)力等等變量都都得到充充分考慮慮,對(duì)風(fēng)風(fēng)電的預(yù)預(yù)測(cè)更加加精準(zhǔn)。電網(wǎng)調(diào)調(diào)度人員員可以提提前做好好調(diào)度安安排,也也有助于于電網(wǎng)消消納更多多風(fēng)電。除了做到更精精準(zhǔn)的預(yù)預(yù)測(cè),檢檢測(cè)和采采集風(fēng)機(jī)機(jī)的運(yùn)轉(zhuǎn)轉(zhuǎn)數(shù)據(jù)、風(fēng)場(chǎng)的的運(yùn)營(yíng)數(shù)數(shù)據(jù)還有有利于風(fēng)風(fēng)機(jī)制造造商更好好地改善善

11、風(fēng)機(jī)的的性能,風(fēng)電場(chǎng)場(chǎng)業(yè)主在在追求風(fēng)風(fēng)場(chǎng)效益益最大化化時(shí)也離離不開(kāi)大大數(shù)據(jù)。大數(shù)據(jù)的的核心價(jià)值大數(shù)據(jù)的的核心價(jià)價(jià)值是什什么?無(wú)論是大數(shù)據(jù)據(jù)在農(nóng)業(yè)業(yè)的應(yīng)用用也好,工業(yè)的的應(yīng)用也也好,抑抑或是在在金融行行業(yè)的應(yīng)應(yīng)用也好好,最終終都是通通過(guò)大數(shù)數(shù)據(jù)技術(shù)術(shù)來(lái)獲知知事情發(fā)發(fā)展的真真相,最最終利用用這個(gè)“真相”來(lái)更加加合理的的配置資資源。也就是說(shuō)說(shuō)大數(shù)據(jù)據(jù)的核心心價(jià)值就就是:優(yōu)優(yōu)化資源源 配置置大數(shù)據(jù)的的核心價(jià)價(jià)值網(wǎng)上相關(guān)關(guān)研究表表明:要實(shí)現(xiàn)大數(shù)數(shù)據(jù)的核核心價(jià)值值,還需需要前兩兩個(gè)重要要的步驟第一步是通過(guò)過(guò)“眾包”的形式式收集海海量數(shù)據(jù)據(jù),第二步是通過(guò)過(guò)大數(shù)據(jù)據(jù)的技術(shù)術(shù)途徑進(jìn)進(jìn)行“全量數(shù)據(jù)據(jù)挖掘”,最后后

12、利用分分析結(jié)果果進(jìn)行“資源優(yōu)化化配置”。通過(guò)“眾眾包”產(chǎn)產(chǎn)生和收收集數(shù)據(jù)高德地圖、百度地地圖都有有實(shí)時(shí)路路況的功功能,但但大家有有沒(méi)有想想過(guò)實(shí)時(shí)時(shí)路況的的數(shù)據(jù)是是怎么收收集的?實(shí)際上上經(jīng)過(guò)了了三個(gè)階階段,開(kāi)開(kāi)始是跟跟交通口口的一些些公司合合作,獲獲取交通通流量監(jiān)監(jiān)測(cè)設(shè)備備的數(shù)據(jù)據(jù),這個(gè)個(gè)方法缺缺陷很明明顯,一一個(gè)是受受制于人人,一個(gè)個(gè)是想擴(kuò)擴(kuò)大監(jiān)測(cè)測(cè)范圍就就要部署署大量設(shè)設(shè)備,費(fèi)費(fèi)時(shí)費(fèi)力力,而且且還受法法律制約約。于是是一些專(zhuān)專(zhuān)門(mén)做路路況的公公司開(kāi)始始用出租租車(chē)當(dāng)浮浮動(dòng)車(chē)收收集數(shù)據(jù)據(jù)。但這這種辦法法還是無(wú)無(wú)法覆蓋蓋大量的的大小路路段,隨隨著移動(dòng)動(dòng)互聯(lián)網(wǎng)網(wǎng)的普及及,高德德地圖的的APP能夠?qū)崟r(shí)時(shí)

13、上傳大大量機(jī)動(dòng)動(dòng)車(chē)的速速度和位位置信息息,經(jīng)過(guò)過(guò)去噪和和綜合分分析,就就形成了了覆蓋率率極高的的實(shí)時(shí)路路況信息息。這就就是一個(gè)個(gè)典型的的“眾包包”過(guò)程程。通過(guò)“全全量數(shù)據(jù)據(jù)挖掘”獲知“真相”這些數(shù)據(jù)不是是通過(guò)采采樣得來(lái)來(lái)的,就就是真真真切切的的“全量量數(shù)據(jù)”。我們們?cè)僖膊徊挥猛ㄟ^(guò)過(guò)“管中中窺豹”的形式式來(lái)推測(cè)測(cè)全局,而是直直接通過(guò)過(guò)“上帝帝視角”來(lái)窺視視真相。這就是是大數(shù)據(jù)據(jù)的魅力力,我們們獲得了了前所未未有的獲獲取真相相的能力力,而且且對(duì)于大大型互聯(lián)聯(lián)網(wǎng)公司司來(lái)說(shuō),即使是是PB級(jí)別的數(shù)數(shù)據(jù)分析析也是準(zhǔn)準(zhǔn)實(shí)時(shí)的的,我們們下一個(gè)個(gè)小時(shí)就就能夠得得知上一一個(gè)小時(shí)時(shí)的全量量數(shù)據(jù)分分析結(jié)果果,這樣樣的

14、能力力是前所所未有的的。大數(shù)據(jù)的的核心價(jià)價(jià)值“資源優(yōu)化化配置”前段時(shí)間,滴滴滴打車(chē)車(chē)曾通過(guò)過(guò)投票和和訂單分分析的方方式得出出了北上上廣深四四地的加加班大樓樓排行榜。但事實(shí)真的的是即使使加班很很晚也很很難打到到車(chē)啊啊啊!所以以滴滴打打車(chē)更名名為“滴滴滴出行行”之后后,也拋拋出了他他們偉大大的愿景景,那就就是利用用大數(shù)據(jù)據(jù)分析實(shí)實(shí)時(shí)綜合合調(diào)度“快車(chē)”、“專(zhuān)專(zhuān)車(chē)”、“出租租車(chē)”、“順風(fēng)風(fēng)車(chē)”甚甚至是滴滴滴巴士士的資源源,實(shí)現(xiàn)現(xiàn)全局的的交通資資源優(yōu)化化。事實(shí)實(shí)也是如如此,滴滴滴的司司機(jī)們?cè)皆絹?lái)越多多的需要要完成“指派任任務(wù)”,而不是是集中去去搶高凈凈值客戶戶。也許許對(duì)于個(gè)個(gè)別單體體來(lái)說(shuō)他他們的利利益降

15、低低了,但但全局的的資源配配置卻避避免了全全局的資資源浪費(fèi)費(fèi)和過(guò)度度競(jìng)爭(zhēng),無(wú)疑大大大提高高了交通通資源的的使用效效率。所以我們們說(shuō),基于大數(shù)數(shù)據(jù)分析析的結(jié)果果,進(jìn)行行資源優(yōu)優(yōu)化配置置,才是是大數(shù)據(jù)據(jù)應(yīng)用的的落地點(diǎn)點(diǎn)和真正正價(jià)值。謝謝觀看看!MapReduce是一種編編程模型型,用于于大規(guī)模模數(shù)據(jù)集集(大于1TB)的并行運(yùn)運(yùn)算。概概念Map(映射)和Reduce(歸約),和它們們的主要要思想,都是從從函數(shù)式式編程語(yǔ)語(yǔ)言里借借來(lái)的,還有從從矢量編編程語(yǔ)言言里借來(lái)來(lái)的特性性。它極極大地方方便了編編程人員員在不會(huì)會(huì)分布式式并行編編程的情情況下,將自己己的程序序運(yùn)行在在分布式系系統(tǒng)上。當(dāng)當(dāng)前的軟軟件實(shí)現(xiàn)現(xiàn)是指定定一個(gè)Map(映射)函數(shù),用用來(lái)把一一組鍵值值對(duì)映射射成一組組新的鍵鍵值對(duì),指定并并發(fā)的Reduce(歸約)函數(shù),用用來(lái)保證證所有映映射的鍵鍵值對(duì)中中的每一一個(gè)共享享相同的的鍵組。返回分布式處處理分布式處處理(distributedprocessing)和并并行處理

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論