“互聯(lián)網(wǎng)+”大數(shù)據(jù)課件_第1頁
“互聯(lián)網(wǎng)+”大數(shù)據(jù)課件_第2頁
“互聯(lián)網(wǎng)+”大數(shù)據(jù)課件_第3頁
“互聯(lián)網(wǎng)+”大數(shù)據(jù)課件_第4頁
“互聯(lián)網(wǎng)+”大數(shù)據(jù)課件_第5頁
已閱讀5頁,還剩414頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、第一章大數(shù)據(jù)概念與應用1.1大數(shù)據(jù)的概念與意義1.2大數(shù)據(jù)的來源1.3大數(shù)據(jù)應用場景1.4大數(shù)據(jù)處理方法of401習題第1頁,共419頁。1.1 大數(shù)據(jù)的概念與意義第一章 大數(shù)據(jù)概念與應用of40212008年9 月,美國自然(Nature)雜志??疶he next google,第一次正式提出“大數(shù)據(jù)”概念。22011年2月1日,科學(Science)雜志??疍ealing with data,通過社會調(diào)查的方式,第一次綜合分析了大數(shù)據(jù)對人們生活造成的影響,詳細描述了人類面臨的“數(shù)據(jù)困境”。32011年5月,麥肯錫研究院發(fā)布報告Big data: The next frontier for

2、innovation, competition, and productivity,第一次給大數(shù)據(jù)做出相對清晰的定義:“大數(shù)據(jù)是指其大小超出了常規(guī)數(shù)據(jù)庫工具獲取、儲存、管理和分析能力的數(shù)據(jù)集?!睍r至今日,“數(shù)據(jù)”變身“大數(shù)據(jù)”,“開啟了一次重大的時代轉(zhuǎn)型”。 “大數(shù)據(jù)”這一概念的形成,有三個標志性事件:1從“數(shù)據(jù)”到“大數(shù)據(jù)”第2頁,共419頁。4 V特征種類多(Variety)速度快(Velocity)價值高(Value)體量大(Volume)大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)相比,數(shù)據(jù)來源廣、維度多、類型雜,各種機器儀表在自動產(chǎn)生數(shù)據(jù)的同時,人自身的生活行為也在不斷創(chuàng)造數(shù)據(jù);不僅有企業(yè)組織內(nèi)部的業(yè)務數(shù)據(jù),還

3、有海量相關的外部數(shù)據(jù)。隨著現(xiàn)代感測、互聯(lián)網(wǎng)、計算機技術的發(fā)展,數(shù)據(jù)生成、儲存、分析、處理的速度遠遠超出人們的想象力,這是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)或小數(shù)據(jù)的顯著特征。大數(shù)據(jù)有巨大的潛在價值,但同其呈幾何指數(shù)爆發(fā)式增長相比,某一對象或模塊數(shù)據(jù)的價值密度較低,這無疑給我們開發(fā)海量數(shù)據(jù)增加了難度和成本。第一章 大數(shù)據(jù)概念與應用of403從2013年至2020年,人類的數(shù)據(jù)規(guī)模將擴大50倍,每年產(chǎn)生的數(shù)據(jù)量將增長到44萬億GB,相當于美國國家圖書館數(shù)據(jù)量的數(shù)百萬倍,且每18個月翻一番。1.1 大數(shù)據(jù)的概念與意義第3頁,共419頁。第一章 大數(shù)據(jù)概念與應用大數(shù)據(jù)數(shù)據(jù)源整合進行存儲、清洗、挖掘、分析后得出結果直

4、到優(yōu)化企業(yè)管理提高效率云計算、硬件性價比的提高以及軟件技術的進步智能設備、傳感器的普及,推動物聯(lián)網(wǎng)、人工智能的發(fā)展計算運行、計算速度越來越快存儲 存儲成本下降 智能實現(xiàn)信息對等解放腦力,機器擁有人的智慧of4041.1 大數(shù)據(jù)的概念與意義2大數(shù)據(jù)的技術支撐第4頁,共419頁。第一章 大數(shù)據(jù)概念與應用of4051.1 大數(shù)據(jù)的概念與意義1)存儲:存儲成本的下降云計算出現(xiàn)之前云計算出現(xiàn)之后在云計算出現(xiàn)之前,數(shù)據(jù)存儲的成本是非常高的。例如,公司要建設網(wǎng)站,需要購置和部署服務器,安排技術人員維護服務器,保證數(shù)據(jù)存儲的安全性和數(shù)據(jù)傳輸?shù)臅惩ㄐ?,還會定期清理數(shù)據(jù),騰出空間以便存儲新的數(shù)據(jù),機房整體的人力和

5、管理成本都很高。云計算出現(xiàn)后,數(shù)據(jù)存儲服務衍生出了新的商業(yè)模式,數(shù)據(jù)中心的出現(xiàn)降低了公司的計算和存儲成本。例如,公司現(xiàn)在要建設網(wǎng)站,不需要去購買服務器,不需要去雇用技術人員維護服務器,可以通過租用硬件設備的方式解決問題。存儲成本的下降,也改變了大家對數(shù)據(jù)的看法,更加愿意把1年、2年甚至更久遠的歷史數(shù)據(jù)保存下來,有了歷史數(shù)據(jù)的沉淀,才可以通過對比,發(fā)現(xiàn)數(shù)據(jù)之間的關聯(lián)和價值。正是由于存儲成本的下降,才能為大數(shù)據(jù)搭建最好的基礎設施。第5頁,共419頁。第一章 大數(shù)據(jù)概念與應用of4061.1 大數(shù)據(jù)的概念與意義2)計算:運算速度越來越快分布式系統(tǒng)基礎架構Hadoop的出現(xiàn),為大數(shù)據(jù)帶來了新的曙光;H

6、DFS為海量的數(shù)據(jù)提供了存儲;MapReduce則為海量的數(shù)據(jù)提供了并行計算,從而大大提高了計算效率;Spark、Storm、Impala等各種各樣的技術進入人們的視野。海量數(shù)據(jù)從原始數(shù)據(jù)源到產(chǎn)生價值,期間會經(jīng)過存儲、清洗、挖掘、分析等多個環(huán)節(jié),如果計算速度不夠快,很多事情是無法實現(xiàn)的。所以,在大數(shù)據(jù)的發(fā)展過程中,計算速度是非常關鍵的因素。第6頁,共419頁。第一章 大數(shù)據(jù)概念與應用of4071.1 大數(shù)據(jù)的概念與意義3)智能:機器擁有理解數(shù)據(jù)的能力大數(shù)據(jù)帶來的最大價值就是“智慧”,大數(shù)據(jù)讓機器變得有智慧,同時人工智能進一步提升了處理和理解數(shù)據(jù)的能力。例如:谷歌AlphaGo大勝世界圍棋冠軍李

7、世石阿里云小Ai成功預測出我是歌手的總決賽歌王12iPhone上智能化語音機器人Siri微信上與大家聊天的微軟小冰34第7頁,共419頁。第一章 大數(shù)據(jù)概念與應用of408美國著名管理學家愛德華戴明所言:“我們信靠上帝。除了上帝,任何人都必須用數(shù)據(jù)來說話?!保?)有數(shù)據(jù)可說 在大數(shù)據(jù)時代,“萬物皆數(shù)”,“量化一切”,“一切都將被數(shù)據(jù)化”。人類生活在一個海量、動態(tài)、多樣的數(shù)據(jù)世界中,數(shù)據(jù)無處不在、無時不有、無人不用,數(shù)據(jù)就像陽光、空氣、水分一樣常見,好比放大鏡、望遠鏡、顯微鏡那般重要。 (2)說數(shù)據(jù)可靠 大數(shù)據(jù)中的“數(shù)據(jù)”真實可靠,它實質(zhì)上是表征事物現(xiàn)象的一種符號語言和邏輯關系,其可靠性的數(shù)理哲

8、學基礎是世界同構原理。世界具有物質(zhì)統(tǒng)一性,統(tǒng)一的世界中的一切事物都存在著時空一致性的同構關系。這意味著任何事物的屬性和規(guī)律,只要通過適當編碼,均可以通過統(tǒng)一的數(shù)字信號表達出來。1.1 大數(shù)據(jù)的概念與意義3大數(shù)據(jù)的意義 因此,“用數(shù)據(jù)說話”、“讓數(shù)據(jù)發(fā)聲”,已成為人類認知世界的一種全新方法。第8頁,共419頁。1.1從“數(shù)據(jù)”到“大數(shù)據(jù)”第一章 大數(shù)據(jù)概念與應用of409風馬牛可相及 在大數(shù)據(jù)背景下,因海量無限、包羅萬象的數(shù)據(jù)存在,讓許多看似毫不相干的現(xiàn)象之間發(fā)生一定的關聯(lián),使人們能夠更簡捷、更清晰地認知事物和把握局勢。大數(shù)據(jù)的巨大潛能與作用現(xiàn)在難以進行估量,但揭示事物的相關關系無疑是其真正的價

9、值所在。經(jīng)典案例:(1)啤酒與尿布(2)谷歌與流感第9頁,共419頁。1.1大數(shù)據(jù)的概念與意義1.2大數(shù)據(jù)的來源第一章大數(shù)據(jù)概念與應用1.3大數(shù)據(jù)應用場景1.4大數(shù)據(jù)處理方法全國高校標準教材云計算姊妹篇,剖析大數(shù)據(jù)核心技術和實戰(zhàn)應用of4010習題第10頁,共419頁。1.2 大數(shù)據(jù)的來源第一章 大數(shù)據(jù)概念與應用of4011全球數(shù)據(jù)總量圖杰姆格雷(Jim Gray)提出著名的“新摩爾定律”,即人類有史以來的數(shù)據(jù)總量,每過18個月就會翻一番。(EB)(年份)第11頁,共419頁。為什么全球數(shù)據(jù)量增長如此之快?第12頁,共419頁。1.2 大數(shù)據(jù)的來源第一章 大數(shù)據(jù)概念與應用of4013互聯(lián)網(wǎng)每天

10、產(chǎn)生的全部內(nèi)容可以刻滿6.4億張DVDGoogle每天需要處理24PB的數(shù)據(jù)網(wǎng)民每天在Facebook上要花費234億分鐘,被移動互聯(lián)網(wǎng)使用者發(fā)送和接收的數(shù)據(jù)高達44PB全球每秒發(fā)送290萬封電子郵件,一分鐘讀一篇的話,足夠一個人晝夜不停地讀5.5年每天會有2.88萬個小時的視頻上傳到YouTube,足夠一個人晝夜不停地觀看3.3年Twitter上每天發(fā)布5000萬條消息,假設10秒就瀏覽一條消息,足夠一個人晝夜不停地瀏覽16年大數(shù)據(jù)到底有多大? 以上一組互聯(lián)網(wǎng)數(shù)據(jù)第13頁,共419頁。1.2 大數(shù)據(jù)的來源第一章 大數(shù)據(jù)概念與應用of4014來自大量傳感器的機器數(shù)據(jù)科學研究及行業(yè)多結構專業(yè)數(shù)據(jù)

11、來自“大人群”泛互聯(lián)網(wǎng)數(shù)據(jù)智能終端拍照、拍視頻發(fā)微博、發(fā)微信其他互聯(lián)網(wǎng)數(shù)據(jù)海量的數(shù)據(jù)的產(chǎn)生隨著人類活動的進一步擴展,數(shù)據(jù)規(guī)模會急劇膨脹,包括金融、汽車、零售、餐飲、電信、能源、政務、醫(yī)療、體育、娛樂等在內(nèi)的各行業(yè)累積的數(shù)據(jù)量越來越大,數(shù)據(jù)類型也越來越多、越來越復雜,已經(jīng)超越了傳統(tǒng)數(shù)據(jù)管理系統(tǒng)、處理模式的能力范圍,于是“大數(shù)據(jù)”這樣一個概念才會應運而生。第14頁,共419頁。1.2 大數(shù)據(jù)的來源第一章 大數(shù)據(jù)概念與應用of4015按產(chǎn)生數(shù)據(jù)的主體劃分1)少量企業(yè)應用產(chǎn)生的數(shù)據(jù)如關系型數(shù)據(jù)庫中的數(shù)據(jù)和數(shù)據(jù)倉庫中的數(shù)據(jù)等。2)大量人產(chǎn)生的數(shù)據(jù)如推特、微博、通信軟件、移動通信數(shù)據(jù)、電子商務在線交易日志

12、數(shù)據(jù)、企業(yè)應用的相關評論數(shù)據(jù)等。3)巨量機器產(chǎn)生的數(shù)據(jù)如應用服務器日志、各類傳感器數(shù)據(jù)、圖像和視頻監(jiān)控數(shù)據(jù)、二維碼和條形碼(條碼)掃描數(shù)據(jù)等。01第15頁,共419頁。1.2 大數(shù)據(jù)的來源第一章 大數(shù)據(jù)概念與應用of4016按數(shù)據(jù)來源的行業(yè)劃分1)以BAT為代表的互聯(lián)網(wǎng)公司百度公司數(shù)據(jù)總量超過了千PB級別,阿里巴巴公司保存的數(shù)據(jù)量超過了百PB級別,擁有90%以上的電商數(shù)據(jù),騰訊公司總存儲數(shù)據(jù)量經(jīng)壓縮處理以后仍然超過了百PB級別,數(shù)據(jù)量月增加達到10%。2)電信、金融、保險、電力、石化系統(tǒng)電信行業(yè)數(shù)據(jù)年度用戶數(shù)據(jù)增長超過10%,金融每年產(chǎn)生的數(shù)據(jù)超過數(shù)十PB,保險系統(tǒng)的數(shù)據(jù)量也超過了PB級別,電

13、力與石化方面,僅國家電網(wǎng)采集獲得的數(shù)據(jù)總量就達到了數(shù)十PB,石油化工領域每年產(chǎn)生和保存下來的數(shù)據(jù)量也將近百PB級別。3)公共安全、醫(yī)療、交通領域一個中、大型城市,一個月的交通卡口記錄數(shù)可以達到3億條;整個醫(yī)療衛(wèi)生行業(yè)一年能夠保存下來的數(shù)據(jù)就可達到數(shù)百PB級別;航班往返一次產(chǎn)生的數(shù)據(jù)就達到TB級別;列車、水陸路運輸產(chǎn)生的各種視頻、文本類數(shù)據(jù),每年保存下來的也達到數(shù)十PB。024)氣象、地理、政務等領域中國氣象局保存的數(shù)據(jù)將近10PB,每年約增數(shù)百TB;各種地圖和地理位置信息每年約數(shù)十PB;政務數(shù)據(jù)則涵蓋了旅游、教育、交通、醫(yī)療等多個門類,且多為結構化數(shù)據(jù)。5)制造業(yè)和其他傳統(tǒng)行業(yè)制造業(yè)的大數(shù)據(jù)類

14、型以產(chǎn)品設計數(shù)據(jù)、企業(yè)生產(chǎn)環(huán)節(jié)的業(yè)務數(shù)據(jù)和生產(chǎn)監(jiān)控數(shù)據(jù)為主。其中產(chǎn)品設計數(shù)據(jù)以文件為主,非結構化,共享要求較高,保存時間較長;企業(yè)生產(chǎn)環(huán)節(jié)的業(yè)務數(shù)據(jù)主要是數(shù)據(jù)庫結構化數(shù)據(jù),而生產(chǎn)監(jiān)控數(shù)據(jù)則數(shù)據(jù)量非常大。在其他傳統(tǒng)行業(yè),雖然線下商業(yè)銷售、農(nóng)林牧漁業(yè)、線下餐飲、食品、科研、物流運輸?shù)刃袠I(yè)數(shù)據(jù)量劇增,但是數(shù)據(jù)量還處于積累期,整體體量都不算大,多則達到PB級別,少則數(shù)十TB或數(shù)百TB級別。第16頁,共419頁。1.2 大數(shù)據(jù)的來源第一章 大數(shù)據(jù)概念與應用of4017按數(shù)據(jù)存儲的形式劃分大數(shù)據(jù)不僅僅體現(xiàn)在數(shù)據(jù)量大,還體現(xiàn)在數(shù)據(jù)類型多。如此海量的數(shù)據(jù)中,僅有20%左右屬于結構化的數(shù)據(jù),80%的數(shù)據(jù)屬于廣泛

15、存在于社交網(wǎng)絡、物聯(lián)網(wǎng)、電子商務等領域的非結構化數(shù)據(jù)。結構化數(shù)據(jù)簡單來說就是數(shù)據(jù)庫,如企業(yè)ERP、財務系統(tǒng)、醫(yī)療HIS數(shù)據(jù)庫、教育一卡通、政府行政審批、其他核心數(shù)據(jù)庫等數(shù)據(jù)。非結構化數(shù)據(jù)包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻、視頻信息等數(shù)據(jù)。03第17頁,共419頁。1.2 大數(shù)據(jù)的來源第一章 大數(shù)據(jù)概念與應用of4018常用的大數(shù)據(jù)獲取途徑1)系統(tǒng)日志采集可以使用海量數(shù)據(jù)采集工具,用于系統(tǒng)日志采集,如Hadoop的Chukwa、Cloudera的Flume、Facebook的Scribe等,這些工具均采用分布式架構,能滿足大數(shù)據(jù)的日志數(shù)據(jù)采集和傳輸需求。0

16、43)APP移動端數(shù)據(jù)采集APP是獲取用戶移動端數(shù)據(jù)的一種有效方法,APP中的SDK插件可以將用戶使用APP的信息匯總給指定服務器,即便用戶在沒有訪問時,也能獲知用戶終端的相關信息,包括安裝應用的數(shù)量和類型等。單個APP用戶規(guī)模有限,數(shù)據(jù)量有限;但數(shù)十萬APP用戶,獲取的用戶終端數(shù)據(jù)和部分行為數(shù)據(jù)也會達到數(shù)億的量級。4)與數(shù)據(jù)服務機構進行合作數(shù)據(jù)服務機構通常具備規(guī)范的數(shù)據(jù)共享和交易渠道,人們可以在平臺上快速、明確地獲取自己所需要的數(shù)據(jù)。而對于企業(yè)生產(chǎn)經(jīng)營數(shù)據(jù)或?qū)W科研究數(shù)據(jù)等保密性要求較高的數(shù)據(jù),也可以通過與企業(yè)或研究機構合作,使用特定系統(tǒng)接口等相關方式采集數(shù)據(jù)。2)互聯(lián)網(wǎng)數(shù)據(jù)采集通過網(wǎng)絡爬蟲或

17、網(wǎng)站公開API等方式從網(wǎng)站上獲取數(shù)據(jù)信息,該方法可以數(shù)據(jù)從網(wǎng)頁中抽取出來,將其存儲為統(tǒng)一的本地數(shù)據(jù)文件,它支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以自動關聯(lián)。除了網(wǎng)站中包含的內(nèi)容之外,還可以使用DPI或DFI等帶寬管理技術實現(xiàn)對網(wǎng)絡流量的采集。第18頁,共419頁。1.3大數(shù)據(jù)應用場景1.2大數(shù)據(jù)的來源1.1大數(shù)據(jù)的概念與意義第一章大數(shù)據(jù)概念與應用1.4大數(shù)據(jù)處理方法全國高校標準教材云計算姊妹篇,剖析大數(shù)據(jù)核心技術和實戰(zhàn)應用of4019習題第19頁,共419頁。1.3 大數(shù)據(jù)應用場景第一章 大數(shù)據(jù)概念與應用of4020大數(shù)據(jù)7個應用場景 環(huán)境教育行業(yè)醫(yī)療行業(yè) 農(nóng)業(yè) 智慧城市零售行業(yè)

18、金融行業(yè)第20頁,共419頁。1.3 大數(shù)據(jù)應用場景第一章 大數(shù)據(jù)概念與應用of4021零售行業(yè)零售行業(yè)大數(shù)據(jù)應用有兩個層面,一個層面是零售行業(yè)可以了解客戶的消費喜好和趨勢,進行商品的精準營銷,降低營銷成本。另一個層面是依據(jù)客戶購買的產(chǎn)品,為客戶提供可能購買的其他產(chǎn)品,擴大銷售額,也屬于精準營銷范疇。未來考驗零售企業(yè)的是如何挖掘消費者需求,以及高效整合供應鏈滿足其需求的能力,因此,信息技術水平的高低成為獲得競爭優(yōu)勢的關鍵要素。金融行業(yè)1)銀行數(shù)據(jù)應用場景利用數(shù)據(jù)挖掘來分析出一些交易數(shù)據(jù)背后的商業(yè)價值。2)保險數(shù)據(jù)應用場景用數(shù)據(jù)來提升保險產(chǎn)品的精算水平,提高利潤水平和投資收益。3)證券數(shù)據(jù)應用場

19、景對客戶交易習慣和行為分析可以幫助證券公司獲得更多的收益。第21頁,共419頁。1.3 大數(shù)據(jù)應用場景第一章 大數(shù)據(jù)概念與應用of4022醫(yī)療行業(yè)醫(yī)療行業(yè)擁有大量的病例、病理報告、治愈方案、藥物報告等,通過對這些數(shù)據(jù)進行整理和分析將會極大地輔助醫(yī)生提出治療方案,幫助病人早日康復??梢詷嫿ù髷?shù)據(jù)平臺來收集不同病例和治療方案,以及病人的基本特征,建立針對疾病特點的數(shù)據(jù)庫,幫助醫(yī)生進行疾病診斷。醫(yī)療行業(yè)的大數(shù)據(jù)應用一直在進行,但是數(shù)據(jù)并沒有完全打通,基本都是孤島數(shù)據(jù),沒辦法進行大規(guī)模的應用。未來可以將這些數(shù)據(jù)統(tǒng)一采集起來,納入統(tǒng)一的大數(shù)據(jù)平臺,為人類健康造福。教育行業(yè)信息技術已在教育領域有了越來越廣

20、泛的應用,教學、考試、師生互動、校園安全、家校關系等,只要技術達到的地方,各個環(huán)節(jié)都被數(shù)據(jù)包裹。通過大數(shù)據(jù)的分析來優(yōu)化教育機制,也可以作出更科學的決策,這將帶來潛在的教育革命,在不久的將來,個性化學習終端將會更多地融入學習資源云平臺,根據(jù)每個學生的不同興趣愛好和特長,推送相關領域的前沿技術、資訊、資源乃至未來職業(yè)發(fā)展方向。第22頁,共419頁。1.3 大數(shù)據(jù)應用場景第一章 大數(shù)據(jù)概念與應用of4023農(nóng)業(yè)行業(yè)環(huán)境行業(yè)借助于大數(shù)據(jù)提供的消費能力和趨勢報告,政府可為農(nóng)業(yè)生產(chǎn)進行合理引導,依據(jù)需求進行生產(chǎn),避免產(chǎn)能過剩造成不必要的資源和社會財富浪費。通過大數(shù)據(jù)的分析將會更精確地預測未來的天氣,幫助農(nóng)

21、民做好自然災害的預防工作,幫助政府實現(xiàn)農(nóng)業(yè)的精細化管理和科學決策。借助于大數(shù)據(jù)技術,天氣預報的準確性和實效性將會大大提高,預報的及時性將會大大提升,同時對于重大自然災害如龍卷風,通過大數(shù)據(jù)計算平臺,人們將會更加精確地了解其運動軌跡和危害的等級,有利于幫助人們提高應對自然災害的能力。大數(shù)據(jù)技術可以了解經(jīng)濟發(fā)展情況、各產(chǎn)業(yè)發(fā)展情況、消費支出和產(chǎn)品銷售情況等,依據(jù)分析結果,科學地制定宏觀政策,平衡各產(chǎn)業(yè)發(fā)展,避免產(chǎn)能過剩,有效利用自然資源和社會資源,提高社會生產(chǎn)效率。大數(shù)據(jù)技術也能幫助政府進行支出管理,透明合理的財政支出將有利于提高公信力和監(jiān)督財政支出。智慧城市第23頁,共419頁。1.3大數(shù)據(jù)應用

22、場景1.4大數(shù)據(jù)處理方法1.2大數(shù)據(jù)的來源1.1大數(shù)據(jù)的概念與意義第一章大數(shù)據(jù)概念與應用全國高校標準教材云計算姊妹篇,剖析大數(shù)據(jù)核心技術和實戰(zhàn)應用of4024習題第24頁,共419頁。1.4 大數(shù)據(jù)處理方法第一章 大數(shù)據(jù)概念與應用of4025大數(shù)據(jù)正帶來一場信息社會的變革。大量的結構化數(shù)據(jù)和非結構化數(shù)據(jù)的廣泛應用,致使人們需要重新思考已有的IT模式;與此同時,大數(shù)據(jù)將推動進行又一次基于信息革命的業(yè)務轉(zhuǎn)型,使社會能夠借助大數(shù)據(jù)獲取更多的社會效益和發(fā)展機會;龐大的數(shù)據(jù)需要我們進行剝離、整理、歸類、建模、分析等操作,通過這些動作后,我們開始建立數(shù)據(jù)分析的維度,通過對不同的維度數(shù)據(jù)進行分析,最終才能得

23、到想到的數(shù)據(jù)和信息。因此,如何進行大數(shù)據(jù)的采集、導入/預處理、統(tǒng)計/分析和大數(shù)據(jù)挖掘,是“做”好大數(shù)據(jù)的關鍵基礎。第25頁,共419頁。1.4 大數(shù)據(jù)處理方法第一章 大數(shù)據(jù)概念與應用of4026大數(shù)據(jù)的采集1大數(shù)據(jù)的采集通常采用多個數(shù)據(jù)庫來接收終端數(shù)據(jù),包括智能硬件端、多種傳感器端、網(wǎng)頁端、移動APP應用端等,并且可以使用數(shù)據(jù)庫進行簡單的處理工作。常用的數(shù)據(jù)采集的方式主要包括以下幾種:數(shù)據(jù)抓取01數(shù)據(jù)導入02物聯(lián)網(wǎng)傳感設備自動信息采集03第26頁,共419頁。1.4 大數(shù)據(jù)處理方法第一章 大數(shù)據(jù)概念與應用of4027導入/預處理2雖然采集端本身有很多數(shù)據(jù)庫,但是如果要對這些海量數(shù)據(jù)進行有效的分

24、析,還是應該將這些數(shù)據(jù)導入到一個集中的大型分布式數(shù)據(jù)庫或者分布式存儲集群當中,同時,在導入的基礎上完成數(shù)據(jù)清洗和預處理工作。也有一些用戶會在導入時使用來自Twitter的Storm來對數(shù)據(jù)進行流式計算,來滿足部分業(yè)務的實時計算需求。現(xiàn)實世界中數(shù)據(jù)大體上都是不完整、不一致的“臟”數(shù)據(jù),無法直接進行數(shù)據(jù)挖掘,或挖掘結果差強人意,為了提高數(shù)據(jù)挖掘的質(zhì)量,產(chǎn)生了數(shù)據(jù)預處理技術。數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)變換數(shù)據(jù)歸約主要是達到數(shù)據(jù)格式標準化、異常數(shù)據(jù)清除、數(shù)據(jù)錯誤糾正、重復數(shù)據(jù)的清除等目標。是將多個數(shù)據(jù)源中的數(shù)據(jù)結合起來并統(tǒng)一存儲,建立數(shù)據(jù)倉庫。過平滑聚集、數(shù)據(jù)概化、規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形

25、式。尋找依賴于發(fā)現(xiàn)目標的數(shù)據(jù)的有用特征,縮減數(shù)據(jù)規(guī)模,最大限度地精簡數(shù)據(jù)量。第27頁,共419頁。1.4 大數(shù)據(jù)處理方法第一章 大數(shù)據(jù)概念與應用of4028 統(tǒng)計與分析3統(tǒng)計與分析主要是利用分布式數(shù)據(jù)庫,或分布式計算集群來對存儲于其內(nèi)的海量數(shù)據(jù)進行普通的分析和分類匯總,以滿足大多數(shù)常見的分析需求,在這些方面可以使用R語言。R語言是用于統(tǒng)計分析、繪圖的語言和操作環(huán)境,屬于GNU系統(tǒng)的一個自由、免費、源代碼開放的軟件,它是一個用于統(tǒng)計計算和統(tǒng)計制圖的優(yōu)秀工具。R語言在國際和國內(nèi)的發(fā)展差異非常大,國際上R語言已然是專業(yè)數(shù)據(jù)分析領域的標準,但在國內(nèi)依舊任重而道遠,這固然有數(shù)據(jù)學科地位的原因,國內(nèi)很多人

26、版權概念薄弱,以及學術領域相對閉塞也是原因。R語言是一套完整的數(shù)據(jù)處理、計算和制圖軟件系統(tǒng)。R語言的思想是:它可以提供一些集成的統(tǒng)計工具,但更大量的是它提供各種數(shù)學計算、統(tǒng)計計算的函數(shù),從而使使用者能靈活機動地進行數(shù)據(jù)分析,甚至創(chuàng)造出符合需要的新的統(tǒng)計計算方法。在大數(shù)據(jù)的統(tǒng)計與分析過程中,主要面對的挑戰(zhàn)是分析涉及的數(shù)據(jù)量太大,其對系統(tǒng)資源,特別是I/O會有極大的占用。第28頁,共419頁。1.4 大數(shù)據(jù)處理方法第一章 大數(shù)據(jù)概念與應用of4029大數(shù)據(jù)挖掘4數(shù)據(jù)挖掘是創(chuàng)建數(shù)據(jù)挖掘模型的一組試探法和計算方法,通過對提供的數(shù)據(jù)進行分析,查找特定類型的模式和趨勢,最終形成創(chuàng)建模型。分類樸素貝葉斯算法

27、一種重要的數(shù)據(jù)分析形式,根據(jù)重要數(shù)據(jù)類的特征向量值及其他約束條件,構造分類函數(shù)或分類模型,目的是根據(jù)數(shù)據(jù)集的特點把未知類別的樣本映射到給定類別中。支持向量機SVM算法AdaBoost算法C4.5算法CART算法聚類BIRCH算法目的在于將數(shù)據(jù)集內(nèi)具有相似特征屬性的數(shù)據(jù)聚集在一起,同一個數(shù)據(jù)群中的數(shù)據(jù)特征要盡可能相似,不同的數(shù)據(jù)群中的數(shù)據(jù)特征要有明顯的區(qū)別。K-Means算法期望最大化算法(EM算法)K近鄰算法關聯(lián)規(guī)則Apriori算法索系統(tǒng)中的所有數(shù)據(jù),找出所有能把一組事件或數(shù)據(jù)項與另一組事件或數(shù)據(jù)項聯(lián)系起來的規(guī)則,以獲得預先未知的和被隱藏的,不能通過數(shù)據(jù)庫的邏輯操作或統(tǒng)計的方法得出的信息。F

28、P-Growth算法預測模型序貫模式挖掘SPMGC算法一種統(tǒng)計或數(shù)據(jù)挖掘的方法,包括可以在結構化與非結構化數(shù)據(jù)中使用以確定未來結果的算法和技術,可為預測、優(yōu)化、預報和模擬等許多業(yè)務系統(tǒng)所使用。第29頁,共419頁。1新摩爾定律的含義是什么?2大數(shù)據(jù)現(xiàn)象是怎么形成的?3大數(shù)據(jù)有哪些特征?4如何對大數(shù)據(jù)的來源進行分類?5大數(shù)據(jù)預處理的方法有哪些?6大數(shù)據(jù)的挖掘方法有哪些?習題:第30頁,共419頁。感謝聆聽第31頁,共419頁。第二章數(shù)據(jù)采集與預處理2.12.2數(shù)據(jù)預處理原理2.3數(shù)據(jù)倉庫與ETL工具習題全國高校標準教材云計算姊妹篇,剖析大數(shù)據(jù)核心技術和實戰(zhàn)應用大數(shù)據(jù)采集架構of4232第32頁,

29、共419頁。2.1大數(shù)據(jù)采集架構第二章 數(shù)據(jù)采集與預處理如今,社會中各個機構、部門、公司、團體等正在實時不斷地產(chǎn)生大量的信息,這些信息需要以簡單的方式進行處理,同時又要十分準確且能迅速滿足各種類型的數(shù)據(jù)(信息)需求者。這給我們帶來了許多挑戰(zhàn),第一個挑戰(zhàn)就是在大量的數(shù)據(jù)中收集需要的數(shù)據(jù),下面介紹常用的大數(shù)據(jù)采集工具。of42332.1.1概述第33頁,共419頁。2.1大數(shù)據(jù)采集架構第二章 數(shù)據(jù)采集與預處理FlumeChukwaScribleKafka大數(shù)據(jù)采集工具of42342.1.2 常用大數(shù)據(jù)采集工具數(shù)據(jù)采集最傳統(tǒng)的方式是企業(yè)自己的生產(chǎn)系統(tǒng)產(chǎn)生的數(shù)據(jù),除上述生產(chǎn)系統(tǒng)中的數(shù)據(jù)外,企業(yè)的信息系

30、統(tǒng)還充斥著大量的用戶行為數(shù)據(jù)、日志式的活動數(shù)據(jù)、事件信息等,越來越多的企業(yè)通過架設日志采集系統(tǒng)來保存這些數(shù)據(jù),希望通過這些數(shù)據(jù)獲取其商業(yè)或社會價值。第34頁,共419頁。2.1大數(shù)據(jù)采集架構第二章 數(shù)據(jù)采集與預處理of4235在Flume中,外部輸入稱為Source(源),系統(tǒng)輸出稱為Sink(接收端)。Channel(通道)把Source和Sink鏈接在一起。Apache Chukwa項目與Flume有些相類似,Chukwa繼承了Hadoop的伸縮性和魯棒性。也內(nèi)置一個功能強大的工具箱,用于顯示系統(tǒng)監(jiān)控和分析結果?;ヂ?lián)網(wǎng)時代,網(wǎng)絡爬蟲也是許多企業(yè)獲取數(shù)據(jù)的一種方式。Nutch就是網(wǎng)絡爬蟲中的

31、嬌嬌者,Nutch是Apache旗下的開源項目,存在已經(jīng)超過10年,擁有大量的忠實用戶。Flume體系架構第35頁,共419頁。2.1大數(shù)據(jù)采集架構第二章 數(shù)據(jù)采集與預處理of42362.1.3 Apache Kafka數(shù)據(jù)采集Apache Kafka被設計成能夠高效地處理大量實時數(shù)據(jù),其特點是快速的、可擴展的、分布式的,分區(qū)的和可復制的。Kafka是用Scala語言編寫的,雖然置身于Java陣營,但其并不遵循JMS規(guī)范。Topics(話題):消息的分類名。Producers(消息發(fā)布者):能夠發(fā)布消息到Topics的進程。Consumers(消息接收者):可以從Topics接收消息的進程。B

32、roker(代理):組成Kafka集群的單個節(jié)點?;綤afka集群的工作流程第36頁,共419頁。2.1大數(shù)據(jù)采集架構第二章 數(shù)據(jù)采集與預處理of4237 1、TopicsTopics是消息的分類名(或Feed的名稱)。Kafka集群或Broker為每一個Topic都會維護一個分區(qū)日志。每一個分區(qū)日志是有序的消息序列,消息是連續(xù)追加到分區(qū)日志上,并且這些消息是不可更改的。 2、日志區(qū)分一個Topic可以有多個分區(qū),這些分區(qū)可以作為并行處理的單元,從而使Kafka有能力高效地處理大量數(shù)據(jù)。Topics與日志分析第37頁,共419頁。2.1大數(shù)據(jù)采集架構第二章 數(shù)據(jù)采集與預處理of4238 3、

33、ProducersProducers是向它們選擇的主題發(fā)布數(shù)據(jù)。生產(chǎn)者可以選擇分配某個主題到哪個分區(qū)上。這可以通過使用循環(huán)的方式或通過任何其他的語義分函數(shù)來實現(xiàn)。 4、ConsumersKafka提供一種單獨的消費者抽象,此抽象具有兩種模式的特征消費組:Queuing 和Publish-Subscribe。 5、Apache Kafka的安裝及使用因為Kafka是處理網(wǎng)絡上請求,所以,應該為其創(chuàng)建一個專用的用戶,這將便于對Kafka相關服務的管理,減少對服務器上其他服務的影響。第38頁,共419頁。2.1大數(shù)據(jù)采集架構第二章 數(shù)據(jù)采集與預處理of4239使用useradd命令來創(chuàng)建一個Kafk

34、a用戶:$sudo useradd kafka m使用passwd 命令來設置其密碼:$sudo passwd kafaka接下來把kafaka用戶添加到sudo管理組,以便kafaka用戶具有安裝Apache Kafka依賴庫的權限。這里使用adduser命令來進行添加:$sudo adduser kafka sudo這時就可以使用kafka賬戶了。 切換用戶可以使用su命令:$su - kafka在Apache Kafka安裝所依賴的軟件包前,最好更新一下apt管理程序的軟件列表:$sudo apt-get updateApache Kafka需要Java運行環(huán)境,這里使用apt-get命

35、令安裝default-jre包,然后安裝Java運行環(huán)境:$sudo apt-get install default-jre通過下面的命令測試一下Java運行環(huán)境是否安裝成功,并查看Java的版本信息:$java -version第39頁,共419頁。2.1大數(shù)據(jù)采集架構第二章 數(shù)據(jù)采集與預處理of4240機器有如下顯示:第40頁,共419頁。2.1大數(shù)據(jù)采集架構第二章 數(shù)據(jù)采集與預處理of4241第41頁,共419頁。2.1大數(shù)據(jù)采集架構第二章 數(shù)據(jù)采集與預處理of4242第42頁,共419頁。2.1大數(shù)據(jù)采集架構第二章 數(shù)據(jù)采集與預處理of4243第43頁,共419頁。2.1大數(shù)據(jù)采集架構

36、第二章 數(shù)據(jù)采集與預處理of42446、使用Java來編寫Kafka的實例首先,編寫KafkaPperties文件:zk.connect = localhost:2181broker.list = localhost:9092serializer.class = kafka.serializer.StringEncoderrequest.required.acks = 1下面的代碼是使用Java編寫了一個Kafka消息發(fā)布者:import ducer.Producer;import ducer.KeyedMessage;import ducer.ProducerConfig;public cl

37、ass MyKafkaProducer private Producer producer;private final String topic;public MyKafkaProducer(String topic) throws Exception InputStream in = Properties.class.getResourceAsStream(KafkaPperties);Properties props = new Properties();props.load(in);ProducerConfig config = new ProducerConfig(props);pro

38、ducer = new Producer(config);public void sendMessage(String msg)KeyedMessage data = new KeyedMessage( topic, msg);producer.send(data);producer.close();public static void main(String args) throws ExceptionMyKafkaProducer producer = new MyKafkaProducer(HelloTopic);String msg = Hello Kafka!;producer. s

39、endMessage(msg);第44頁,共419頁。2.1大數(shù)據(jù)采集架構第二章 數(shù)據(jù)采集與預處理of4245下面創(chuàng)建Comsumer,首先編寫KafkaProperties文件:zk.connect = localhost:2181group.id = testgroupzookeeper.session.timeout.ms = 500zookeeper.sync.time.ms = 250erval.ms = 1000上述參數(shù)配置,十分容易理解,具體的詳細說明,可以參考Kafka的官方文檔。下面的代碼是使用Java編寫了一個Kafka的Comsumer。import java.io.In

40、putStream;import java.util.HashMap;import java.util.List;import java.util.Map;import java.util.Properties;import kafka.consumer.ConsumerConfig;import kafka.consumer.ConsumerIterator;import kafka.consumer.KafkaStream;import kafka.javaapi.consumer.ConsumerConnector;import kafka.consumer.Consumer;publi

41、c class MyKafkaConsumer private final ConsumerConnector consumer;private final String topic;public MyKafkaConsumer(String topic) throws ExceptionInputStream in = Properties.class.getResourceAsStream(KafkaPperties);Properties props = new Properties();props.load(in);ConsumerConfig config = new Consume

42、rConfig(props);consumer = Consumer.createJavaConsumerConnector(config);this.topic = topic;public void consumeMessage() Map topicMap = new HashMap();topicMap.put(topic, new Integer(1);MapString, ListKafkaStream consumerStreamsMap =consumer.createMessageStreams(topicMap);ListKafkaStream streamList = c

43、onsumerStreamsMap.get(topic);for (final KafkaStream stream : streamList) ConsumerIterator consumerIte = stream.iterator();while (consumerIte.hasNext()System.out.println(message : + new String(consumerIte.next().message();if (consumer != null)consumer.shutdown();public static void main(String args) t

44、hrows ExceptionString groupId = testgroup;String topic = HelloTopic;MyKafkaConsumer consumer = new MyKafkaConsumer(topic);consumer.consumeMessage();第45頁,共419頁。第二章數(shù)據(jù)采集與預處理2.12.2數(shù)據(jù)預處理原理2.3數(shù)據(jù)倉庫與ETL工具習題全國高校標準教材云計算姊妹篇,剖析大數(shù)據(jù)核心技術和實戰(zhàn)應用大數(shù)據(jù)采集架構of4246第46頁,共419頁。2.2數(shù)據(jù)預處理原理第二章 數(shù)據(jù)采集與預處理通過數(shù)據(jù)預處理工作,可以使殘缺的數(shù)據(jù)完整,并將錯誤的數(shù)

45、據(jù)糾正、多余的數(shù)據(jù)去除,進而將所需的數(shù)據(jù)挑選出來,并且進行數(shù)據(jù)集成。數(shù)據(jù)預處理的常見方法有數(shù)據(jù)清洗、數(shù)據(jù)集成與數(shù)據(jù)變換。of4247第47頁,共419頁。2.2數(shù)據(jù)預處理原理第二章 數(shù)據(jù)采集與預處理填 充缺 失值數(shù)據(jù)屬性分為數(shù)值屬性和非數(shù)值屬性進行處理,通過利用已存數(shù)據(jù)的多數(shù)信息來推測缺失值數(shù)據(jù)屬性分為數(shù)值屬性和非數(shù)值屬性進行處理,通過利用已存數(shù)據(jù)的多數(shù)信息來推測缺失值大量采用同一屬性值,可能會誤導挖掘程序得出有偏差甚至錯誤的結論數(shù)據(jù)偏離的問題小,但該方法十分費時,不具備實際的可操作性通常當在缺少類標號時,通過這樣的方法來填補缺失值利用均值替換缺失值忽略元組人工填寫缺失值使用一個全局常量填充缺

46、失值用屬性的均值填充缺失值用同類樣本的屬性均值填充缺失值使用最可能的值填充缺失值of42482.2.1 數(shù)據(jù)清洗第48頁,共419頁。2.2數(shù)據(jù)預處理原理第二章 數(shù)據(jù)采集與預處理of4249分箱方法通過考察某一數(shù)據(jù)周圍數(shù)據(jù)的值,即“近鄰”來光滑有序數(shù)據(jù)的值。分箱01回歸02光滑數(shù)據(jù)可以通過一個函數(shù)擬合數(shù)據(jù)來實現(xiàn)。線性回歸的目標就是查找擬合兩個屬性的“最佳”線,使得其中一個屬性可以用于預測出另一個屬性。聚類03離群點可通過聚類進行檢測,將類似的值組織成群或簇,離群點即為落在簇集合之外的值。許多數(shù)據(jù)光滑的方法也是涉及離散化的數(shù)據(jù)歸約方法。噪聲是被測量的變量的隨機誤差或方差。給定一個數(shù)值屬性,如何才

47、能使數(shù)據(jù)“光滑”,去掉噪聲?下面給出數(shù)據(jù)光滑技術的具體內(nèi)容。第49頁,共419頁。2.2數(shù)據(jù)預處理原理第二章 數(shù)據(jù)采集與預處理of4250數(shù)據(jù)清洗可以視為一個過程,包括檢測偏差與糾正偏差兩個步驟:2糾正偏差1檢查偏差可以使用已有的關于數(shù)據(jù)性質(zhì)的知識發(fā)現(xiàn)噪聲、離群點和需要考察的不尋常的值。這種知識或“關于數(shù)據(jù)的數(shù)據(jù)”稱為元數(shù)據(jù)。即一旦發(fā)現(xiàn)偏差,通常需要定義并使用一系列的變換來糾正它們。但這些工具只支持有限的變換,因此,常??赡苄枰獮閿?shù)據(jù)清洗過程的這一步編寫定制的程序。第50頁,共419頁。2.2數(shù)據(jù)預處理原理第二章 數(shù)據(jù)采集與預處理(1)模式集成和對象匹配問題(2)冗余問題(3)元組重復(4)數(shù)

48、據(jù)值沖突的檢測與處理問題數(shù)據(jù)挖掘經(jīng)常需要數(shù)據(jù)集成合并來自多個數(shù)據(jù)存儲的數(shù)據(jù)。數(shù)據(jù)還可能需要變換成適于挖掘的形式。數(shù)據(jù)分析任務多半涉及數(shù)據(jù)集成。問題of42512.2.2 數(shù)據(jù)集成第51頁,共419頁。2.2數(shù)據(jù)預處理原理第二章 數(shù)據(jù)采集與預處理 1、光滑。去除數(shù)據(jù)中的噪聲 2、聚集。對數(shù)據(jù)進行匯總或聚集。3、 數(shù)據(jù)泛化。使用概念分層,用高層概念替換低層或“原始”數(shù)據(jù) 4、規(guī)范化。將屬性數(shù)據(jù)按比例縮放,使之落入一個小的特定區(qū)間5、屬性構造。可以構造新的屬性并添加到屬性集中,以幫助挖掘過程of42522.2.3 數(shù)據(jù)變換數(shù)據(jù)變換的目的是將數(shù)據(jù)變換或統(tǒng)一成適合挖掘的形式。數(shù)據(jù)變換主要涉及以下內(nèi)容:第

49、52頁,共419頁。第二章數(shù)據(jù)采集與預處理2.12.2數(shù)據(jù)預處理原理2.3數(shù)據(jù)倉庫與ETL工具習題全國高校標準教材云計算姊妹篇,剖析大數(shù)據(jù)核心技術和實戰(zhàn)應用大數(shù)據(jù)采集架構of4253第53頁,共419頁。2.3 數(shù)據(jù)倉庫與ETL工具第二章 數(shù)據(jù)采集與預處理數(shù)據(jù)倉庫中的數(shù)據(jù)來自于多種業(yè)務數(shù)據(jù)源,這些數(shù)據(jù)源可能處于不同硬件平臺上,使用不同的操作系統(tǒng),數(shù)據(jù)模型也相差很遠。如何獲取并向數(shù)據(jù)倉庫加載這些數(shù)據(jù)量大、種類多的數(shù)據(jù),已成為建立數(shù)據(jù)倉庫所面臨的一個關鍵問題。of42542.3.1 數(shù)據(jù)倉庫與ETL工具數(shù)據(jù)倉庫,是在企業(yè)管理和決策中面向主題的、集成的、隨時間變化的、非易失性數(shù)據(jù)的集合。第54頁,共

50、419頁。2.3 數(shù)據(jù)倉庫與ETL工具第二章 數(shù)據(jù)采集與預處理如何獲取并向數(shù)據(jù)倉庫加載數(shù)據(jù)量大、種類多的數(shù)據(jù),一般要使用專業(yè)的數(shù)據(jù)抽取、轉(zhuǎn)換和裝載工具,這些工具合并起來被稱為ETL(Extract-Transform-Load)。Informatica PowerCenter常用ETL工具IBM DatastageWarehouse Builder(OWB)Oracle Data Integrator(ODI)Microsoft SQLServer Integration Services開源Kettleof42552.3.2 常用ETL工具第55頁,共419頁。2.3 數(shù)據(jù)倉庫與ETL工具第

51、二章 數(shù)據(jù)采集與預處理of4256PowerCenterIBM DatastageKettleInformatica的PowerCenter是一個可擴展、高性能企業(yè)數(shù)據(jù)集成平臺,應用于各種數(shù)據(jù)集成流程,通過該平臺可實現(xiàn)自動化、重復使用及靈活性IBM InfoSphere DataStage是一款功能強大的ETL工具,是IBM數(shù)據(jù)集成平臺IBM Information Server的一部分,是專門的數(shù)據(jù)提取、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)發(fā)布的工具。Kettle是Pentaho中的ETL工具,Pentaho是一套開源BI解決方案。Kettle是一款國外優(yōu)秀的開源ETL工具,由純Java編寫,可以在Windows

52、、Linux、UNIX上運行,無須安裝,數(shù)據(jù)抽取高效穩(wěn)定。第56頁,共419頁。2.3 數(shù)據(jù)倉庫與ETL工具第二章 數(shù)據(jù)采集與預處理of425701(1)Chef可使用戶創(chuàng)建任務(Job)。它是提供圖形用戶界面的工作設計工具。02(2)Kitchen可使用戶批量使用由Chef設計的任務,一般在自動調(diào)度時借助此命令調(diào)用調(diào)試成功的任務。它是一個后臺運行的程序,以命令行方式,沒有圖形用戶界面。03(3)Spoon可使用戶通過圖形界面來設計ETL轉(zhuǎn)換過程,一般在編寫和調(diào)試ETL時用到。04(4)Span可使用戶批量運行由Spoon設計的ETL轉(zhuǎn)換,Span是一個后臺執(zhí)行的程序,以命令行方式,沒有圖形界

53、面,一般在自動調(diào)度時借助此命令調(diào)用調(diào)試成功的轉(zhuǎn)換。Kettle目前包括如下4個產(chǎn)品:第57頁,共419頁。2.3 數(shù)據(jù)倉庫與ETL工具第二章 數(shù)據(jù)采集與預處理案例:Kettle數(shù)據(jù)遷移可以在Kettle的官網(wǎng)/下載進入主界面在“輸入”文件夾下選擇“表輸入”,并把它拖動到右側(cè)編輯區(qū)of42582.3.3 案例:Kettle數(shù)據(jù)遷移第58頁,共419頁。2.3 數(shù)據(jù)倉庫與ETL工具第二章 數(shù)據(jù)采集與預處理案例:Kettle數(shù)據(jù)遷移編輯數(shù)據(jù)來源 配置數(shù)據(jù)庫的參數(shù) 選擇輸入表 設置“字段選擇”of4259第59頁,共419頁。2.3 數(shù)據(jù)倉庫與ETL工具第二章 數(shù)據(jù)采集與預處理案例:Kettle數(shù)據(jù)遷

54、移將每一個輸入字段改成和輸出字段相同的名字自動列出之前表輸入中的所有字段of4260第60頁,共419頁。2.3 數(shù)據(jù)倉庫與ETL工具第二章 數(shù)據(jù)采集與預處理案例:Kettle數(shù)據(jù)遷移of4261在“輸出”文件夾中拖出一個“表輸出”到右側(cè)編輯區(qū),并畫連接配置數(shù)據(jù)庫將輸出表對象設置為Oracle數(shù)據(jù)庫 映射輸入/輸出關系單擊“確定”按鈕關閉窗口第61頁,共419頁。2.3 數(shù)據(jù)倉庫與ETL工具第二章 數(shù)據(jù)采集與預處理案例:Kettle數(shù)據(jù)遷移of4262執(zhí)行轉(zhuǎn)換去本地Oracle數(shù)據(jù)庫中查看實時顯示轉(zhuǎn)換過程第62頁,共419頁。1采用哪些方式可以獲取大數(shù)據(jù)?2常用大數(shù)據(jù)采集工具有哪些?3簡述什么

55、是Apache Kafka數(shù)據(jù)采集。4Topic可以有多個分區(qū),這些分區(qū)有什么作用?5Kafka抽象具有哪種模式的特征消費組?6查閱相關資料,實例演示Apache Kafka的安裝及使用。7使用Java來編寫Kafka的實例。8簡述數(shù)據(jù)預處理的原理。9數(shù)據(jù)清洗有哪些方法?10數(shù)據(jù)集成需要重點考慮的問題有哪些?11數(shù)據(jù)變換主要涉及哪些內(nèi)容?12分別簡述常用ETL工具。習題:第63頁,共419頁。感謝聆聽第64頁,共419頁。全國高校標準教材云計算姊妹篇,剖析大數(shù)據(jù)核心技術和實戰(zhàn)應用第三章數(shù)據(jù)挖掘算法3.1數(shù)據(jù)挖掘概述3.2分類3.3聚類3.4關聯(lián)規(guī)則3.5預測規(guī)模習題3.6數(shù)據(jù)挖掘算法綜合應用o

56、f3965第65頁,共419頁。3.1數(shù)據(jù)挖掘概述第三章 數(shù)據(jù)挖掘算法20世紀80年代末,數(shù)據(jù)挖掘(Data Mining,DM)提出。1989年,KDD 這個名詞正式開始出現(xiàn)。1995年,“數(shù)據(jù)挖掘” 流傳。從科學定義分析,數(shù)據(jù)挖掘是從大量的、有噪聲的、不完全的、模糊和隨機的數(shù)據(jù)中,提取出隱含在其中的、人們事先不知道的、具有潛在利用價值的信息和知識的過程。從技術角度分析,數(shù)據(jù)挖掘就是利用一系列的相關算法和技術,從大數(shù)據(jù)中提取出行業(yè)或公司所需要的、有實際應用價值的知識的過程。知識表示形式可以是概念、規(guī)律、規(guī)則與模式等。準確地說,數(shù)據(jù)挖掘是整個知識發(fā)現(xiàn)流程中的一個具體步驟,也是知識發(fā)現(xiàn)過程中最重

57、要的核心步驟。特征處理大數(shù)據(jù)的能力更強,且無須太專業(yè)的統(tǒng)計背景就可以使用數(shù)據(jù)挖掘工具數(shù)據(jù)挖掘的最終目的是方便企業(yè)終端用戶使用,而并非給統(tǒng)計學家檢測用的從使用與需求的角度上看,數(shù)據(jù)挖掘工具更符合企業(yè)界的需求of39663.1.1 數(shù)據(jù)挖掘概念第66頁,共419頁。3.1數(shù)據(jù)挖掘概述第三章 數(shù)據(jù)挖掘算法使用廣義角度分類聚類估值預測關聯(lián)規(guī)則數(shù)理基礎角度機器學習方法統(tǒng)計方法神經(jīng)網(wǎng)絡方法決策樹基于范例學習規(guī)則歸納遺傳算法回歸分析時間序列分析關聯(lián)分析聚類分析粗糙集探索性分析支持向量機最近鄰分析模糊集前向神經(jīng)網(wǎng)絡自組織神經(jīng)網(wǎng)絡多層神經(jīng)網(wǎng)絡深度學習感知機可視化of39673.1.2 數(shù)據(jù)挖掘常用算法第67頁,

58、共419頁。3.1數(shù)據(jù)挖掘概述第三章 數(shù)據(jù)挖掘算法1分類數(shù)據(jù)挖掘方法中的一種重要方法就是分類,在給定數(shù)據(jù)基礎上構建分類函數(shù)或分類模型,該函數(shù)或模型能夠把數(shù)據(jù)歸類為給定類別中的某一種類別,這就是分類的概念。2聚類3關聯(lián)規(guī)則4時間序列預測聚類也就是將抽象對象的集合分為相似對象組成的多個類的過程,聚類過程生成的簇稱為一組數(shù)據(jù)對象的集合。關聯(lián)規(guī)則屬于數(shù)據(jù)挖掘算法中的一類重要方法,關聯(lián)規(guī)則就是支持度與信任度分別滿足用戶給定閾值的規(guī)則。時間序列預測法是一種歷史引申預測法,也即將時間數(shù)列所反映的事件發(fā)展過程進行引申外推,預測發(fā)展趨勢的一種方法。of39683.1.2 數(shù)據(jù)挖掘常用算法第68頁,共419頁。3

59、.1數(shù)據(jù)挖掘概述第三章 數(shù)據(jù)挖掘算法按照數(shù)據(jù)挖掘的應用場景分類,數(shù)據(jù)挖掘的應用主要涉及通信、股票、金融、銀行、交通、商品零售、生物醫(yī)學、精確營銷、地震預測、工業(yè)產(chǎn)品設計等領域,在這些領域眾多數(shù)據(jù)挖掘方法均被廣泛采用且衍生出各自獨特的算法。1數(shù)據(jù)挖掘在電信行業(yè)的應用2數(shù)據(jù)挖掘在商業(yè)銀行中的應用數(shù)據(jù)挖掘廣泛應用在電信行業(yè),可以幫助企業(yè)制定合理的服務與資費標準、防止欺詐、優(yōu)惠政策,為公司決策者提供可靠的決策依據(jù),為市場營銷、客戶服務、全網(wǎng)業(yè)務、經(jīng)營決策等提供有效的數(shù)據(jù)支撐,進一步完善了國內(nèi)電信公司對省、市電信運營的指導,在業(yè)務運營中發(fā)揮重要的作用,從而為精細化運營提供技術與數(shù)據(jù)的基礎。在美國銀行業(yè)與

60、金融服務領域數(shù)據(jù)挖掘技術的應用十分廣泛,由于金融業(yè)務的分析與評估往往需要大數(shù)據(jù)的支撐,從中可以發(fā)現(xiàn)客戶的信用評級與潛在客戶等有價值的信息,可成功地預測客戶的需求。of39693.1.3 數(shù)據(jù)挖掘應用場景第69頁,共419頁。3.1數(shù)據(jù)挖掘概述第三章 數(shù)據(jù)挖掘算法3數(shù)據(jù)挖掘在信息安全中的應用4數(shù)據(jù)挖掘在科學探索中的應用利用機器學習與數(shù)據(jù)挖掘等前沿技術與處理方法對入侵檢測的數(shù)據(jù)進行自動分析,提取出盡可能多的隱藏安全信息,從中抽象出與安全有關的數(shù)據(jù)特征,從而能夠發(fā)現(xiàn)未知的入侵行為。數(shù)據(jù)挖掘技術可以建立一種具備自適應性、自動的、系統(tǒng)與良好擴展性的入侵檢測系統(tǒng),能夠解決傳統(tǒng)入侵檢測系統(tǒng)適應性與擴展性較差

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論