




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)技術(shù)及應(yīng)用
BigDataTechnologyandApplicationCONCENTS目錄第1章大數(shù)據(jù)技術(shù)概述第2章大數(shù)據(jù)采集與預(yù)處理第3章大數(shù)據(jù)存儲(chǔ)技術(shù)第4章大數(shù)據(jù)分析挖掘-分類第5章大數(shù)據(jù)分析挖掘-回歸CONCENTS目錄第6章大數(shù)據(jù)分析挖掘-聚類第7章大數(shù)據(jù)分析挖掘-關(guān)聯(lián)規(guī)則第8章大數(shù)據(jù)可視化技術(shù)第9章電信行業(yè)大數(shù)據(jù)應(yīng)用第10章其他行業(yè)大數(shù)據(jù)應(yīng)用cont.第1章大數(shù)據(jù)技術(shù)概述
大數(shù)據(jù)應(yīng)用010203主要內(nèi)容大數(shù)據(jù)技術(shù)
什么是大數(shù)據(jù)01020304大數(shù)據(jù)是指大小超出傳統(tǒng)數(shù)據(jù)庫工具的獲取、存儲(chǔ)、管理和分析能力的數(shù)據(jù)集?!溈襄a新一代的技術(shù)與架構(gòu)體系,它被設(shè)計(jì)用于在成本可承受的條件下,通過高速采集、發(fā)現(xiàn)和/或分析等手段,從海量、多樣化的數(shù)據(jù)中提取經(jīng)濟(jì)價(jià)值?!狪DC大數(shù)據(jù)是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)?!狦artner大數(shù)據(jù)是指無法在可承受的時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行獲取、管理和處理的數(shù)據(jù)集。—維基百科什么是大數(shù)據(jù)?1如何理解大數(shù)據(jù)?從數(shù)據(jù)自身特征如何理解大數(shù)據(jù)?從數(shù)據(jù)處理方法
傳統(tǒng)的數(shù)據(jù)處理方法已經(jīng)不能適應(yīng)大數(shù)據(jù)處理的需求,需要根據(jù)大數(shù)據(jù)的特點(diǎn),對(duì)傳統(tǒng)的常規(guī)數(shù)據(jù)處理技術(shù)進(jìn)行變革,形成適用于大數(shù)據(jù)發(fā)展的全新體系架構(gòu),實(shí)現(xiàn)大規(guī)模數(shù)據(jù)的獲取、存儲(chǔ)、管理和分析。如何理解大數(shù)據(jù)?從人類認(rèn)知方式
大數(shù)據(jù)與三個(gè)重大的思維轉(zhuǎn)變有關(guān):首先,要分析與某事物相關(guān)的所有數(shù)據(jù),而不是依靠分析少量的數(shù)據(jù)樣本;其次,樂于接受數(shù)據(jù)的紛繁復(fù)雜,而不再追求精確性;最后,不再探求難以捉摸的因果關(guān)系,轉(zhuǎn)而關(guān)注事物的相關(guān)關(guān)系?!猇iktorMayer-Sch?nberger大數(shù)據(jù)技術(shù)2數(shù)據(jù)采集系統(tǒng)日志
幾乎所有的數(shù)字設(shè)備在運(yùn)行過程中,都會(huì)將有關(guān)自身運(yùn)行的信息記錄到日志文件中。日志數(shù)據(jù)包含豐富的信息,具有很高的實(shí)用價(jià)值。網(wǎng)絡(luò)數(shù)據(jù)采集系統(tǒng)
綜合運(yùn)用網(wǎng)絡(luò)爬蟲、分詞系統(tǒng)、任務(wù)與索引系統(tǒng)等技術(shù),從互聯(lián)網(wǎng)海量信息中獲取非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)采集傳感器采集
在信息時(shí)代,傳感器已經(jīng)成為人類生產(chǎn)、生活、科研等活動(dòng)中的重要工具,源源不斷地向人類提供宏觀與微觀的各種信息。數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗數(shù)據(jù)集成數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)規(guī)約去除噪聲數(shù)據(jù),合并或清除重復(fù)數(shù)據(jù),糾正或刪除錯(cuò)誤數(shù)據(jù),處理缺失數(shù)據(jù),糾正數(shù)據(jù)中的不一致性。整合來自不同數(shù)據(jù)源的數(shù)據(jù),存放在統(tǒng)一的數(shù)據(jù)庫或者數(shù)據(jù)倉庫中,包括模式集成、冗余數(shù)據(jù)集成、數(shù)據(jù)值沖突的檢測與處理等。對(duì)數(shù)據(jù)進(jìn)行規(guī)范化處理,將數(shù)據(jù)轉(zhuǎn)化成適合挖掘的形式。在不損害挖掘結(jié)果準(zhǔn)確性的前提下,通過有效的數(shù)據(jù)采樣和屬性選擇,縮小數(shù)據(jù)集的規(guī)模,提高數(shù)據(jù)挖掘的效率。數(shù)據(jù)存儲(chǔ)與管理分布式文件系統(tǒng)
大數(shù)據(jù)存儲(chǔ)管理中最基礎(chǔ)、最核心的組成部分。目前常用的有Hadoop分布式文件系統(tǒng)(HDFS)、Google分布式文件系統(tǒng)(GFS,已演化成Colossus系統(tǒng))、淘寶文件系統(tǒng)(TFS)等。數(shù)據(jù)存儲(chǔ)與管理分布式數(shù)據(jù)庫
構(gòu)建于分布式文件系統(tǒng)之上,用于實(shí)現(xiàn)數(shù)據(jù)的存儲(chǔ)管理和快速查詢。分為傳統(tǒng)的關(guān)系型數(shù)據(jù)庫、非關(guān)系型數(shù)據(jù)庫(NoSQL)和新型數(shù)據(jù)庫(NewSQL)。
關(guān)系型數(shù)據(jù)庫技術(shù)成熟,代表產(chǎn)品有Oracle、SQLServer和MySQL。NoSQL數(shù)據(jù)庫具有自由靈活的數(shù)據(jù)模型,適宜存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù),而且擴(kuò)展方便。NewSQL是一類新型的分布式關(guān)系數(shù)據(jù)庫,融合了NoSQL和傳統(tǒng)數(shù)據(jù)庫的特點(diǎn)。數(shù)據(jù)分析與挖掘機(jī)器學(xué)習(xí)使計(jì)算機(jī)模擬人類的學(xué)習(xí)行為,從而自動(dòng)發(fā)現(xiàn)和獲取新知識(shí)新技能,并通過經(jīng)驗(yàn)知識(shí)改善自身的性能。分為監(jiān)督式學(xué)習(xí)、非監(jiān)督式學(xué)習(xí)和半監(jiān)督式學(xué)習(xí)。統(tǒng)計(jì)分析以概率論為基礎(chǔ),對(duì)大量隨機(jī)數(shù)據(jù)進(jìn)行收集、整理、建模,從而推斷出其中存在的統(tǒng)計(jì)規(guī)律性。數(shù)據(jù)挖掘從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道但又是潛在有用的信息和知識(shí)的過程。數(shù)據(jù)展現(xiàn)與可視化科學(xué)可視化
主要面向科學(xué)實(shí)驗(yàn)與工程測量數(shù)據(jù),利用計(jì)算機(jī)圖形學(xué)和圖像處理等技術(shù),將具有空間幾何特征的數(shù)據(jù)中所蘊(yùn)含的時(shí)空現(xiàn)象和規(guī)律通過三維、動(dòng)態(tài)模擬等方式表現(xiàn)出來。信息可視化
主要面向沒有明顯幾何屬性和空間特征的數(shù)據(jù),綜合運(yùn)用計(jì)算機(jī)圖形學(xué)、視覺設(shè)計(jì)、人機(jī)交互、心理學(xué)等學(xué)科中的技術(shù)和理論,用可視化的形式展現(xiàn)抽象數(shù)據(jù)中隱藏的特征、關(guān)系和模式等。大數(shù)據(jù)應(yīng)用3政府管理市場監(jiān)管社會(huì)管理政府?dāng)?shù)據(jù)開放與社會(huì)創(chuàng)新工業(yè)領(lǐng)域研發(fā)設(shè)計(jì)環(huán)節(jié)生產(chǎn)制造環(huán)節(jié)市場營銷環(huán)節(jié)售后服務(wù)環(huán)節(jié)商業(yè)領(lǐng)域金融行業(yè)零售行業(yè)物流行業(yè)廣告業(yè)……公共服務(wù)電信行業(yè)交通管理
醫(yī)療衛(wèi)生
教育行業(yè)
環(huán)境保護(hù)……習(xí)題1.1什么是大數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度共有產(chǎn)權(quán)住房租賃合同
- 二零二五年度配音演員聘用合同
- 二零二五年度珠寶店安全保衛(wèi)人員聘用合同
- 二零二五年度影視聲音后期制作合同(封面設(shè)計(jì)新穎)
- 二零二五年度美發(fā)行業(yè)國際交流與合作協(xié)議
- 二零二五年度國際貿(mào)易知識(shí)產(chǎn)權(quán)傭金協(xié)議
- 二零二五年度分手補(bǔ)償協(xié)議書及子女教育費(fèi)用承擔(dān)
- 2025年度股份代持股份占比調(diào)整合同協(xié)議書模板
- 2025年度酒店餐飲服務(wù)兼職員工合同
- 二零二五年度隱名股東股權(quán)轉(zhuǎn)讓及管理權(quán)移交協(xié)議
- 2024年玩具陀螺項(xiàng)目可行性研究報(bào)告
- 城區(qū)綠地養(yǎng)護(hù)服務(wù)費(fèi)項(xiàng)目成本預(yù)算績效分析報(bào)告
- v建筑主墩雙壁鋼圍堰施工工藝資料
- 新部編人教版六年級(jí)道德與法治下冊(cè)全冊(cè)全套課件
- 我國互聯(lián)網(wǎng)公司資本結(jié)構(gòu)分析-以新浪公司為例
- 【藍(lán)天幼兒園小一班早期閱讀現(xiàn)狀的調(diào)查報(bào)告(含問卷)7800字(論文)】
- 糧油機(jī)械設(shè)備更新項(xiàng)目資金申請(qǐng)報(bào)告-超長期特別國債投資專項(xiàng)
- 個(gè)體戶的食品安全管理制度文本
- 部編版道德與法治七年級(jí)下冊(cè)每課教學(xué)反思
- 自考14237《手機(jī)媒體概論》備考試題庫(含答案)
- 第二次全國土地調(diào)查技術(shù)規(guī)程完整版
評(píng)論
0/150
提交評(píng)論