《計(jì)算機(jī)高級應(yīng)用教程》課件-第8章_第1頁
《計(jì)算機(jī)高級應(yīng)用教程》課件-第8章_第2頁
《計(jì)算機(jī)高級應(yīng)用教程》課件-第8章_第3頁
《計(jì)算機(jī)高級應(yīng)用教程》課件-第8章_第4頁
《計(jì)算機(jī)高級應(yīng)用教程》課件-第8章_第5頁
已閱讀5頁,還剩25頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第8章大數(shù)據(jù)技術(shù)及應(yīng)用8.1大數(shù)據(jù)應(yīng)用概述8.2大數(shù)據(jù)的采集

8.3大數(shù)據(jù)的存儲與處理課后習(xí)題八.

8.1大數(shù)據(jù)應(yīng)用概述.

8.1.1大數(shù)據(jù)的概念與意義

1.大數(shù)據(jù)的概念

大數(shù)據(jù)(BigData)指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn),如購物網(wǎng)站的消費(fèi)記錄。這些數(shù)據(jù)只有進(jìn)行處理整合才有意義。

2.大數(shù)據(jù)的意義

大數(shù)據(jù)的意義主要體現(xiàn)在以下三個(gè)方面:

(1)對大數(shù)據(jù)的處理分析正成為新一代信息技術(shù)融合應(yīng)用的結(jié)點(diǎn)。移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)、數(shù)字家庭、電子商務(wù)等是新一代信息技術(shù)的應(yīng)用形態(tài),這些應(yīng)用不斷產(chǎn)生大數(shù)據(jù)。云計(jì)算為這些海量、多樣化的大數(shù)據(jù)提供存儲和運(yùn)算平臺。通過對不同來源數(shù)據(jù)的管理、處理、分析與優(yōu)化,將結(jié)果反饋到上述應(yīng)用中,會創(chuàng)造出巨大的經(jīng)濟(jì)和社會價(jià)值。

(2)大數(shù)據(jù)是信息產(chǎn)業(yè)持續(xù)高速增長的新引擎。面向大數(shù)據(jù)市場的新技術(shù)、新產(chǎn)品、新服務(wù)、新業(yè)態(tài)會不斷涌現(xiàn)。在硬件與集成設(shè)備領(lǐng)域,大數(shù)據(jù)將對芯片、存儲產(chǎn)業(yè)產(chǎn)生重要影響,還將催生一體化數(shù)據(jù)存儲處理服務(wù)器、內(nèi)存計(jì)算等市場。在軟件與服務(wù)領(lǐng)域,大數(shù)據(jù)將引發(fā)數(shù)據(jù)快速處理分析、數(shù)據(jù)挖掘技術(shù)和軟件產(chǎn)品的發(fā)展。

(3)大數(shù)據(jù)利用將成為提高核心競爭力的關(guān)鍵因素。各行各業(yè)的決策正在從“業(yè)務(wù)驅(qū)動”轉(zhuǎn)變?yōu)椤皵?shù)據(jù)驅(qū)動”。

8.1.2大數(shù)據(jù)的主要分類

從數(shù)據(jù)結(jié)構(gòu)角度來看,大數(shù)據(jù)可以分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。從內(nèi)容來源角度來看,大數(shù)據(jù)可以分為互聯(lián)網(wǎng)大數(shù)據(jù)、政務(wù)大數(shù)據(jù)、企業(yè)大數(shù)據(jù)和個(gè)人大數(shù)據(jù)。對各種大數(shù)據(jù)的介紹如下:

1.互聯(lián)網(wǎng)大數(shù)據(jù)

互聯(lián)網(wǎng)上的數(shù)據(jù)每年增長50%,每兩年便將翻一番?;ヂ?lián)網(wǎng)數(shù)據(jù)中心(InternetDataCenter,IDC)預(yù)測,到2020年,全球?qū)⒖偣矒碛?5ZB的數(shù)據(jù)量。

2.政務(wù)大數(shù)據(jù)

政務(wù)大數(shù)據(jù)是政府部門在對整個(gè)社會活動進(jìn)行管理的過程中產(chǎn)生并使用的各類巨量數(shù)據(jù),包括工業(yè)數(shù)據(jù)、農(nóng)業(yè)數(shù)據(jù)、工商數(shù)據(jù)、納稅數(shù)據(jù)、環(huán)保數(shù)據(jù)、海關(guān)數(shù)據(jù)、土地?cái)?shù)據(jù)、房地產(chǎn)數(shù)據(jù)、氣象數(shù)據(jù)、金融數(shù)據(jù)、信用數(shù)據(jù)、電力數(shù)據(jù)、電信數(shù)據(jù)、天然氣數(shù)據(jù)、自來水?dāng)?shù)據(jù)和道路交通數(shù)據(jù)等各種數(shù)據(jù)以及針對個(gè)人的人口、教育、收入、安全刑事案件、出入境數(shù)據(jù)、旅游數(shù)據(jù)、醫(yī)療數(shù)據(jù)、教育數(shù)據(jù)和消費(fèi)數(shù)據(jù)等各種數(shù)據(jù)。

3.企業(yè)大數(shù)據(jù)

企業(yè)大數(shù)據(jù)是企業(yè)在業(yè)務(wù)管理和運(yùn)營中產(chǎn)生和使用的各類巨量數(shù)據(jù)。因其在行業(yè)的主導(dǎo)地位,其數(shù)據(jù)具有兩重性,即其數(shù)據(jù)既是企業(yè)數(shù)據(jù)也是政府關(guān)注的數(shù)據(jù)。比如,作為電力企業(yè)、電信運(yùn)營商、銀行、主流電商等大型企業(yè),龐大的運(yùn)營數(shù)據(jù)、設(shè)備數(shù)據(jù)等是企業(yè)自己的數(shù)據(jù)。但同時(shí),這些企業(yè)面向宏觀層面的數(shù)據(jù)也是該行業(yè)的政務(wù)大數(shù)據(jù)。

4.個(gè)人大數(shù)據(jù)

個(gè)人大數(shù)據(jù)是指與個(gè)人相關(guān)聯(lián)的各種數(shù)據(jù)。個(gè)人信息被有效采集后,可由本人授權(quán)提供給第三方進(jìn)行處理和使用。

個(gè)人大數(shù)據(jù)的特點(diǎn)是數(shù)據(jù)僅留存在個(gè)人中心,其他第三方機(jī)構(gòu)只被授權(quán)使用,且數(shù)據(jù)使用授權(quán)有一定的期限。

8.1.3大數(shù)據(jù)應(yīng)用總體框架

大數(shù)據(jù)框架圖如圖8-1所示。圖8-1大數(shù)據(jù)框架圖

在圖8-1中的最左側(cè)是Zookeeper,它為整個(gè)集群的部分組件(如HBase和Kafka)提供協(xié)調(diào)服務(wù)。它是集群的管理者,監(jiān)視著集群中各個(gè)節(jié)點(diǎn)的狀態(tài)并根據(jù)節(jié)點(diǎn)的反饋?zhàn)龀龊侠淼牟僮鳌?/p>

綜上,采集層解決的是大數(shù)據(jù)的收集和流通,存儲層解決的是大數(shù)據(jù)的存儲,計(jì)算層和交互層解決的是大數(shù)據(jù)的計(jì)算和消費(fèi)問題。

8.2大數(shù)據(jù)的采集

對三類大數(shù)據(jù)的介紹如下:1.結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)包括由各種電子政務(wù)系統(tǒng),企業(yè)的OA、ERP、CRM、進(jìn)銷存系統(tǒng),電商平臺等產(chǎn)生的數(shù)據(jù)。其特點(diǎn)是數(shù)據(jù)已經(jīng)結(jié)構(gòu)化,每條記錄的每個(gè)字段都有著確定的意義。這些數(shù)據(jù)庫中不同的庫表包括不同的內(nèi)容,不同庫表以關(guān)系型數(shù)據(jù)庫的方式關(guān)聯(lián),可以刻畫更復(fù)雜的內(nèi)容。

在進(jìn)行數(shù)據(jù)采集時(shí),首先需要確定從原有各系統(tǒng)采集數(shù)據(jù)的具體內(nèi)容,其次制定與原有系統(tǒng)的接口規(guī)范。這一接口既可以是原有系統(tǒng)提供的程序接口,又可以是數(shù)據(jù)庫接口,如圖8-2所示。從原有系統(tǒng)采集數(shù)據(jù),對數(shù)據(jù)進(jìn)行簡單關(guān)聯(lián)處理,作為進(jìn)一步大數(shù)據(jù)分析與挖掘的基礎(chǔ)。圖8-2結(jié)構(gòu)化數(shù)據(jù)采集示意圖

2.半結(jié)構(gòu)化和非結(jié)構(gòu)化互聯(lián)網(wǎng)數(shù)據(jù)

相比結(jié)構(gòu)化數(shù)據(jù),互聯(lián)網(wǎng)的很多數(shù)據(jù)是以網(wǎng)頁等方式存在的,具有分布廣、格式多樣、半結(jié)構(gòu)化或非結(jié)構(gòu)化的特點(diǎn),這需要有針對性地對網(wǎng)頁數(shù)據(jù)進(jìn)行采集、轉(zhuǎn)換、加工和存儲。尤其在網(wǎng)頁數(shù)據(jù)的采集和處理方面,需要更為復(fù)雜的方法。下面簡要介紹網(wǎng)頁數(shù)據(jù)的采集和處理的方法。

互聯(lián)網(wǎng)大數(shù)據(jù)采集和處理的整體過程如圖8-3所示。它包含四個(gè)主要模塊:爬蟲、數(shù)據(jù)處理、URL隊(duì)列和數(shù)據(jù)。這四個(gè)主要模塊的功能如下:

(1)爬蟲:從互聯(lián)網(wǎng)上抓取網(wǎng)頁內(nèi)容,并抽取出需要的屬性內(nèi)容。

(2)數(shù)據(jù)處理:對爬蟲抓取的內(nèi)容進(jìn)行處理。

(3)URL隊(duì)列:為爬蟲提供需要抓取數(shù)據(jù)網(wǎng)站的URL。

(4)數(shù)據(jù):包含三方面,一是網(wǎng)站URL,即需要抓取數(shù)據(jù)網(wǎng)站的URL信息;二是爬蟲數(shù)據(jù),即爬蟲從網(wǎng)頁中抽取出來的數(shù)據(jù);三是數(shù)據(jù)處理后的數(shù)據(jù),即經(jīng)過數(shù)據(jù)處理之后的數(shù)據(jù)。圖8-3Web數(shù)據(jù)抓取與處理

整個(gè)Web數(shù)據(jù)采集和處理的基本步驟如下:

(1)將需要抓取數(shù)據(jù)的網(wǎng)站的URL信息(SiteURL)寫入U(xiǎn)RL隊(duì)列。

(2)爬蟲從URL隊(duì)列中獲取需要抓取數(shù)據(jù)的網(wǎng)站的SiteURL信息。

(3)爬蟲從互聯(lián)網(wǎng)抓取與SiteURL對應(yīng)的網(wǎng)頁內(nèi)容,并抽取出網(wǎng)頁特定屬性的內(nèi)容值。

(4)爬蟲將從網(wǎng)頁中抽取出的數(shù)據(jù)(SpiderData)寫入數(shù)據(jù)庫。

(5)數(shù)據(jù)處理單元讀取爬蟲數(shù)據(jù)并進(jìn)行處理。

(6)數(shù)據(jù)處理單元將處理后的數(shù)據(jù)寫入數(shù)據(jù)庫。

3.物聯(lián)網(wǎng)數(shù)據(jù)

相比結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化互聯(lián)網(wǎng)數(shù)據(jù),物聯(lián)網(wǎng)數(shù)據(jù)通常不是現(xiàn)成的,需要首先通過傳感器對各種物理量進(jìn)行信號采集與處理,轉(zhuǎn)化為計(jì)算機(jī)系統(tǒng)可以識別的數(shù)據(jù),然后才能做進(jìn)一步分析和處理。在很多情況下,物聯(lián)網(wǎng)數(shù)據(jù)是實(shí)時(shí)的、不斷產(chǎn)生的,是一種流數(shù)據(jù)。

一個(gè)典型的物聯(lián)網(wǎng)數(shù)據(jù)采集系統(tǒng)(前端)如圖8-4所示。傳感器信號通過以太網(wǎng)、WiFi、ZigBee等本地網(wǎng)絡(luò)接入網(wǎng)關(guān),物聯(lián)網(wǎng)網(wǎng)關(guān)一般通過4G或NB-IoT遠(yuǎn)程接入數(shù)據(jù)中心。傳感器不僅實(shí)現(xiàn)了數(shù)據(jù)的采集和模/數(shù)轉(zhuǎn)換,還實(shí)現(xiàn)了數(shù)據(jù)的網(wǎng)絡(luò)封裝,以便在網(wǎng)絡(luò)上傳輸。目前,主流的封裝方式是IP封裝,以便采用互聯(lián)網(wǎng)的傳輸技術(shù)。

圖8-4物聯(lián)網(wǎng)數(shù)據(jù)采集系統(tǒng)(前端)示意圖

8.3大數(shù)據(jù)的存儲與處理

8.3.1數(shù)據(jù)庫技術(shù)回顧數(shù)據(jù)庫技術(shù)是存儲、處理、管理數(shù)據(jù)的一門計(jì)算機(jī)技術(shù),是計(jì)算機(jī)科學(xué)技術(shù)中發(fā)展最快、應(yīng)用最為廣泛的重要分支之一,是計(jì)算機(jī)信息系統(tǒng)的重要技術(shù)基礎(chǔ)和支柱。數(shù)據(jù)庫是存儲在計(jì)算機(jī)內(nèi)的有結(jié)構(gòu)的數(shù)據(jù)集合。數(shù)據(jù)庫系統(tǒng)是指由硬件設(shè)備、軟件系統(tǒng)、專業(yè)領(lǐng)域的數(shù)據(jù)庫和數(shù)據(jù)庫管理人員構(gòu)成的一個(gè)運(yùn)行系統(tǒng)。

8.3.2大數(shù)據(jù)數(shù)據(jù)處理技術(shù)概述

大數(shù)據(jù)處理的流程主要包括四個(gè)環(huán)節(jié):采集、導(dǎo)入(預(yù)處理)、統(tǒng)計(jì)(分析)和挖掘。下面針對這四環(huán)節(jié)進(jìn)行簡單闡述。

1.采集

大數(shù)據(jù)的采集是指利用多個(gè)數(shù)據(jù)庫來接收發(fā)自客戶端(Web、App或傳感器形式等)的數(shù)據(jù),并且用戶可以通過這些數(shù)據(jù)庫來進(jìn)行簡單的查詢和處理工作。

2.導(dǎo)入(預(yù)處理)

雖然采集端本身會有很多數(shù)據(jù)庫,但是如果要對這些海量數(shù)據(jù)進(jìn)行有效的分析,還是應(yīng)該將這些來自前端的數(shù)據(jù)導(dǎo)入到一個(gè)集中的大型分布式數(shù)據(jù)庫或分布式存儲集群,并且可以在導(dǎo)入基礎(chǔ)上做一些簡單的清洗和預(yù)處理工作。

3.統(tǒng)計(jì)(分析)

統(tǒng)計(jì)(分析)主要利用分布式數(shù)據(jù)庫或分布式計(jì)算集群來對存儲于其內(nèi)的海量數(shù)據(jù)進(jìn)行普通的分析和分類匯總等操作,以滿足用戶常見的分析需求。

4.挖掘

與前面統(tǒng)計(jì)(分析)過程不同,數(shù)據(jù)挖掘一般沒有預(yù)先設(shè)定的主題,主要是在現(xiàn)有數(shù)據(jù)上進(jìn)行基于各種算法的計(jì)算,從而起到預(yù)測(Predict)的效果,實(shí)現(xiàn)一些高級別數(shù)據(jù)分析的需求。比較典型算法有用于聚類的Kmeans、用于統(tǒng)計(jì)學(xué)習(xí)的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點(diǎn)和挑戰(zhàn)主要是用于挖掘的算法很復(fù)雜,且計(jì)算涉及的數(shù)據(jù)量和計(jì)算量都很大。常用數(shù)據(jù)挖掘算法都以單線程為主。

課后習(xí)題八

一、選擇題(1)當(dāng)前大數(shù)據(jù)技術(shù)的基礎(chǔ)是由()首先提出的。A.微軟 B.百度 C.谷歌 D.阿里巴巴(2)大數(shù)據(jù)的起源是()。A.金融 B.電信 C.互聯(lián)網(wǎng) D.公共管理

(3)數(shù)據(jù)清洗的方法不包括()。

A.缺失值處理 B.噪聲數(shù)據(jù)清除

C.一致性檢查 D.重復(fù)數(shù)據(jù)記錄處理

(4)智能健康手環(huán)的應(yīng)用開發(fā)體現(xiàn)了()的數(shù)據(jù)采集技術(shù)的應(yīng)用。

A.統(tǒng)計(jì)報(bào)表 B.網(wǎng)絡(luò)爬蟲

C.API接口D.傳感器

(5)下列關(guān)于數(shù)據(jù)重組的說法錯(cuò)誤的是()。

A.?dāng)?shù)據(jù)重組是數(shù)據(jù)的重新生產(chǎn)和重新采集

B.?dāng)?shù)據(jù)重組能夠使數(shù)據(jù)煥發(fā)新的光芒

C.?dāng)?shù)據(jù)重組實(shí)現(xiàn)的關(guān)鍵在于多源數(shù)據(jù)融合和數(shù)據(jù)集成

D.?dāng)?shù)據(jù)重組有利于實(shí)現(xiàn)新穎的數(shù)據(jù)模式創(chuàng)新

(6)智慧城市的構(gòu)建不包括()。

A.?dāng)?shù)字城市 B.物聯(lián)網(wǎng)

C.聯(lián)網(wǎng)監(jiān)控 D.云計(jì)算

(7)大數(shù)據(jù)的最顯著的特征是()。

A.?dāng)?shù)據(jù)規(guī)模大 B.?dāng)?shù)據(jù)類型多樣

C.?dāng)?shù)據(jù)處理速度快 D.?dāng)?shù)據(jù)價(jià)值密度高

(8)美國海軍軍官莫里通過對前人航海日志的分析,繪制了新的航海路線圖,標(biāo)明了大風(fēng)與洋流可能發(fā)生的地點(diǎn)。這體現(xiàn)了大數(shù)據(jù)分析理念中()的觀點(diǎn)。

A.在數(shù)據(jù)基礎(chǔ)上傾向于全體數(shù)據(jù)而不是抽樣數(shù)據(jù)

B.在分析方法上更注重相關(guān)分析而不是因果分析

C.在分析效果上更追求效率而不是絕對精確

D.在數(shù)據(jù)規(guī)模上強(qiáng)調(diào)相對數(shù)據(jù)而不是絕對數(shù)據(jù)

(9)下列關(guān)于舍恩伯格對大數(shù)據(jù)特點(diǎn)的說法錯(cuò)誤的是()。

A.?dāng)?shù)據(jù)規(guī)模大 B.?dāng)?shù)據(jù)類型多樣

C.?dāng)?shù)據(jù)處理速度快 D.?dāng)?shù)據(jù)價(jià)值密度高

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論