大數(shù)據(jù)技術(shù)及應(yīng)用教學(xué)課件第1章-大數(shù)據(jù)技術(shù)概述_第1頁
大數(shù)據(jù)技術(shù)及應(yīng)用教學(xué)課件第1章-大數(shù)據(jù)技術(shù)概述_第2頁
大數(shù)據(jù)技術(shù)及應(yīng)用教學(xué)課件第1章-大數(shù)據(jù)技術(shù)概述_第3頁
大數(shù)據(jù)技術(shù)及應(yīng)用教學(xué)課件第1章-大數(shù)據(jù)技術(shù)概述_第4頁
大數(shù)據(jù)技術(shù)及應(yīng)用教學(xué)課件第1章-大數(shù)據(jù)技術(shù)概述_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)技術(shù)及應(yīng)用

BigDataTechnologyandApplicationCONCENTS目錄第1章大數(shù)據(jù)技術(shù)概述第2章大數(shù)據(jù)采集與預(yù)處理第3章大數(shù)據(jù)存儲(chǔ)技術(shù)第4章大數(shù)據(jù)分析挖掘-分類第5章大數(shù)據(jù)分析挖掘-回歸CONCENTS目錄第6章大數(shù)據(jù)分析挖掘-聚類第7章大數(shù)據(jù)分析挖掘-關(guān)聯(lián)規(guī)則第8章大數(shù)據(jù)可視化技術(shù)第9章電信行業(yè)大數(shù)據(jù)應(yīng)用第10章其他行業(yè)大數(shù)據(jù)應(yīng)用cont.第1章大數(shù)據(jù)技術(shù)概述

大數(shù)據(jù)應(yīng)用010203主要內(nèi)容大數(shù)據(jù)技術(shù)

什么是大數(shù)據(jù)01020304大數(shù)據(jù)是指大小超出傳統(tǒng)數(shù)據(jù)庫工具的獲取、存儲(chǔ)、管理和分析能力的數(shù)據(jù)集?!溈襄a新一代的技術(shù)與架構(gòu)體系,它被設(shè)計(jì)用于在成本可承受的條件下,通過高速采集、發(fā)現(xiàn)和/或分析等手段,從海量、多樣化的數(shù)據(jù)中提取經(jīng)濟(jì)價(jià)值?!狪DC大數(shù)據(jù)是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)?!狦artner大數(shù)據(jù)是指無法在可承受的時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行獲取、管理和處理的數(shù)據(jù)集。—維基百科什么是大數(shù)據(jù)?1如何理解大數(shù)據(jù)?從數(shù)據(jù)自身特征如何理解大數(shù)據(jù)?從數(shù)據(jù)處理方法

傳統(tǒng)的數(shù)據(jù)處理方法已經(jīng)不能適應(yīng)大數(shù)據(jù)處理的需求,需要根據(jù)大數(shù)據(jù)的特點(diǎn),對(duì)傳統(tǒng)的常規(guī)數(shù)據(jù)處理技術(shù)進(jìn)行變革,形成適用于大數(shù)據(jù)發(fā)展的全新體系架構(gòu),實(shí)現(xiàn)大規(guī)模數(shù)據(jù)的獲取、存儲(chǔ)、管理和分析。如何理解大數(shù)據(jù)?從人類認(rèn)知方式

大數(shù)據(jù)與三個(gè)重大的思維轉(zhuǎn)變有關(guān):首先,要分析與某事物相關(guān)的所有數(shù)據(jù),而不是依靠分析少量的數(shù)據(jù)樣本;其次,樂于接受數(shù)據(jù)的紛繁復(fù)雜,而不再追求精確性;最后,不再探求難以捉摸的因果關(guān)系,轉(zhuǎn)而關(guān)注事物的相關(guān)關(guān)系?!猇iktorMayer-Sch?nberger大數(shù)據(jù)技術(shù)2數(shù)據(jù)采集系統(tǒng)日志

幾乎所有的數(shù)字設(shè)備在運(yùn)行過程中,都會(huì)將有關(guān)自身運(yùn)行的信息記錄到日志文件中。日志數(shù)據(jù)包含豐富的信息,具有很高的實(shí)用價(jià)值。網(wǎng)絡(luò)數(shù)據(jù)采集系統(tǒng)

綜合運(yùn)用網(wǎng)絡(luò)爬蟲、分詞系統(tǒng)、任務(wù)與索引系統(tǒng)等技術(shù),從互聯(lián)網(wǎng)海量信息中獲取非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)采集傳感器采集

在信息時(shí)代,傳感器已經(jīng)成為人類生產(chǎn)、生活、科研等活動(dòng)中的重要工具,源源不斷地向人類提供宏觀與微觀的各種信息。數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗數(shù)據(jù)集成數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)規(guī)約去除噪聲數(shù)據(jù),合并或清除重復(fù)數(shù)據(jù),糾正或刪除錯(cuò)誤數(shù)據(jù),處理缺失數(shù)據(jù),糾正數(shù)據(jù)中的不一致性。整合來自不同數(shù)據(jù)源的數(shù)據(jù),存放在統(tǒng)一的數(shù)據(jù)庫或者數(shù)據(jù)倉庫中,包括模式集成、冗余數(shù)據(jù)集成、數(shù)據(jù)值沖突的檢測與處理等。對(duì)數(shù)據(jù)進(jìn)行規(guī)范化處理,將數(shù)據(jù)轉(zhuǎn)化成適合挖掘的形式。在不損害挖掘結(jié)果準(zhǔn)確性的前提下,通過有效的數(shù)據(jù)采樣和屬性選擇,縮小數(shù)據(jù)集的規(guī)模,提高數(shù)據(jù)挖掘的效率。數(shù)據(jù)存儲(chǔ)與管理分布式文件系統(tǒng)

大數(shù)據(jù)存儲(chǔ)管理中最基礎(chǔ)、最核心的組成部分。目前常用的有Hadoop分布式文件系統(tǒng)(HDFS)、Google分布式文件系統(tǒng)(GFS,已演化成Colossus系統(tǒng))、淘寶文件系統(tǒng)(TFS)等。數(shù)據(jù)存儲(chǔ)與管理分布式數(shù)據(jù)庫

構(gòu)建于分布式文件系統(tǒng)之上,用于實(shí)現(xiàn)數(shù)據(jù)的存儲(chǔ)管理和快速查詢。分為傳統(tǒng)的關(guān)系型數(shù)據(jù)庫、非關(guān)系型數(shù)據(jù)庫(NoSQL)和新型數(shù)據(jù)庫(NewSQL)。

關(guān)系型數(shù)據(jù)庫技術(shù)成熟,代表產(chǎn)品有Oracle、SQLServer和MySQL。NoSQL數(shù)據(jù)庫具有自由靈活的數(shù)據(jù)模型,適宜存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù),而且擴(kuò)展方便。NewSQL是一類新型的分布式關(guān)系數(shù)據(jù)庫,融合了NoSQL和傳統(tǒng)數(shù)據(jù)庫的特點(diǎn)。數(shù)據(jù)分析與挖掘機(jī)器學(xué)習(xí)使計(jì)算機(jī)模擬人類的學(xué)習(xí)行為,從而自動(dòng)發(fā)現(xiàn)和獲取新知識(shí)新技能,并通過經(jīng)驗(yàn)知識(shí)改善自身的性能。分為監(jiān)督式學(xué)習(xí)、非監(jiān)督式學(xué)習(xí)和半監(jiān)督式學(xué)習(xí)。統(tǒng)計(jì)分析以概率論為基礎(chǔ),對(duì)大量隨機(jī)數(shù)據(jù)進(jìn)行收集、整理、建模,從而推斷出其中存在的統(tǒng)計(jì)規(guī)律性。數(shù)據(jù)挖掘從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道但又是潛在有用的信息和知識(shí)的過程。數(shù)據(jù)展現(xiàn)與可視化科學(xué)可視化

主要面向科學(xué)實(shí)驗(yàn)與工程測量數(shù)據(jù),利用計(jì)算機(jī)圖形學(xué)和圖像處理等技術(shù),將具有空間幾何特征的數(shù)據(jù)中所蘊(yùn)含的時(shí)空現(xiàn)象和規(guī)律通過三維、動(dòng)態(tài)模擬等方式表現(xiàn)出來。信息可視化

主要面向沒有明顯幾何屬性和空間特征的數(shù)據(jù),綜合運(yùn)用計(jì)算機(jī)圖形學(xué)、視覺設(shè)計(jì)、人機(jī)交互、心理學(xué)等學(xué)科中的技術(shù)和理論,用可視化的形式展現(xiàn)抽象數(shù)據(jù)中隱藏的特征、關(guān)系和模式等。大數(shù)據(jù)應(yīng)用3政府管理市場監(jiān)管社會(huì)管理政府?dāng)?shù)據(jù)開放與社會(huì)創(chuàng)新工業(yè)領(lǐng)域研發(fā)設(shè)計(jì)環(huán)節(jié)生產(chǎn)制造環(huán)節(jié)市場營銷環(huán)節(jié)售后服務(wù)環(huán)節(jié)商業(yè)領(lǐng)域金融行業(yè)零售行業(yè)物流行業(yè)廣告業(yè)……公共服務(wù)電信行業(yè)交通管理

醫(yī)療衛(wèi)生

教育行業(yè)

環(huán)境保護(hù)……習(xí)題1.1什么是大數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論