![大數(shù)據(jù)管理與應(yīng)用概論 課件 1.3 大數(shù)據(jù)全生命周期_第1頁](http://file4.renrendoc.com/view10/M02/20/27/wKhkGWWujxmAGwjAAAH6F-MQTqk975.jpg)
![大數(shù)據(jù)管理與應(yīng)用概論 課件 1.3 大數(shù)據(jù)全生命周期_第2頁](http://file4.renrendoc.com/view10/M02/20/27/wKhkGWWujxmAGwjAAAH6F-MQTqk9752.jpg)
![大數(shù)據(jù)管理與應(yīng)用概論 課件 1.3 大數(shù)據(jù)全生命周期_第3頁](http://file4.renrendoc.com/view10/M02/20/27/wKhkGWWujxmAGwjAAAH6F-MQTqk9753.jpg)
![大數(shù)據(jù)管理與應(yīng)用概論 課件 1.3 大數(shù)據(jù)全生命周期_第4頁](http://file4.renrendoc.com/view10/M02/20/27/wKhkGWWujxmAGwjAAAH6F-MQTqk9754.jpg)
![大數(shù)據(jù)管理與應(yīng)用概論 課件 1.3 大數(shù)據(jù)全生命周期_第5頁](http://file4.renrendoc.com/view10/M02/20/27/wKhkGWWujxmAGwjAAAH6F-MQTqk9755.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1.3大數(shù)據(jù)全生命周期大數(shù)據(jù)全生命周期環(huán)節(jié)全生命周期是指從產(chǎn)生到消亡的整個過程。大數(shù)據(jù)是一種特殊的信息資源,也有其自身的生命周期。大數(shù)據(jù)全生命周期環(huán)節(jié)數(shù)據(jù)收集數(shù)據(jù)預(yù)處理數(shù)據(jù)存儲數(shù)據(jù)分析數(shù)據(jù)可視化數(shù)據(jù)遷移數(shù)據(jù)歸檔數(shù)據(jù)銷毀大數(shù)據(jù)的全生命周期數(shù)據(jù)收集比較項目傳統(tǒng)的數(shù)據(jù)收集大數(shù)據(jù)的數(shù)據(jù)收集數(shù)據(jù)來源數(shù)據(jù)來源單一數(shù)據(jù)來源廣泛數(shù)據(jù)量數(shù)據(jù)量相對較小數(shù)據(jù)量巨大數(shù)據(jù)類型結(jié)構(gòu)單一結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)使用數(shù)據(jù)庫關(guān)系數(shù)據(jù)庫和并行數(shù)據(jù)庫分布式數(shù)據(jù)庫在大數(shù)據(jù)的收集過程中,其面臨的主要挑戰(zhàn)是成千上萬的用戶同時進行訪問和操作而引起的高并發(fā)數(shù)。12306火車票售票網(wǎng)站在2020年春運火車票售賣的最高峰時,網(wǎng)絡(luò)點擊量高達1495億次。數(shù)據(jù)收集是大數(shù)據(jù)全生命周期的第一個環(huán)節(jié),是在確定用戶目標的基礎(chǔ)上,針對該范圍內(nèi)所有結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)的采集。數(shù)據(jù)收集商業(yè)數(shù)據(jù)互聯(lián)網(wǎng)數(shù)據(jù)物聯(lián)網(wǎng)數(shù)據(jù)……大數(shù)據(jù)主要來源系統(tǒng)日志采集方法。采用分布式架構(gòu),能滿足高可用、高可靠和可擴展的日志數(shù)據(jù)采集和傳輸系統(tǒng)的需求。網(wǎng)絡(luò)數(shù)據(jù)采集方法。將非結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁中抽取出來,將其存儲為統(tǒng)一的本地數(shù)據(jù)文件,并以結(jié)構(gòu)化的方式存儲。感知設(shè)備數(shù)據(jù)采集方法。通過傳感器、攝像頭和其他智能終端自動采集信號、圖片或錄像來獲取數(shù)據(jù)。數(shù)據(jù)收集方法數(shù)據(jù)預(yù)處理數(shù)據(jù)缺失包括數(shù)據(jù)記錄缺失和記錄中部分屬性值缺失。數(shù)據(jù)重復(fù)多重數(shù)據(jù)結(jié)構(gòu)、名稱拼寫錯誤、不通用的別名等。數(shù)據(jù)不一致數(shù)據(jù)記錄規(guī)范的不一致和數(shù)據(jù)邏輯的不一致。數(shù)據(jù)噪聲不正確的屬性值,出現(xiàn)錯誤或存在偏離預(yù)期的離群值。在數(shù)據(jù)采集環(huán)節(jié)可能產(chǎn)生數(shù)據(jù)缺失、數(shù)據(jù)重復(fù)、數(shù)據(jù)不一致和數(shù)據(jù)噪聲等問題,因此需要檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性,對其中的噪聲數(shù)據(jù)進行平滑,對丟失的數(shù)據(jù)進行填補,對重復(fù)的數(shù)據(jù)進行消除等。數(shù)據(jù)預(yù)處理對缺失值的填補。常用的方法包括刪除對象方法、數(shù)據(jù)補齊方法和基于k-NN近鄰缺失數(shù)據(jù)的填充算法。不完整數(shù)據(jù)清洗數(shù)據(jù)來源于不同的類、自然變異、數(shù)據(jù)測量和收集誤差。異常值檢測方法包括統(tǒng)計方法和基于鄰近度的方法。異常數(shù)據(jù)清洗對重復(fù)性事物和概念,通過規(guī)范、規(guī)程和制度達到統(tǒng)一,以獲得最佳秩序和效益。常用的數(shù)據(jù)規(guī)范化方法有:最小—最大規(guī)范化方法、z分數(shù)規(guī)范化方法和小數(shù)定標規(guī)范化方法。數(shù)據(jù)規(guī)范化用更抽象(更高層次)的概念來取代低層次或數(shù)據(jù)層的數(shù)據(jù)對象。例如,將屬性值為“地鐵”、“出租車”和“公共汽車”的數(shù)據(jù)統(tǒng)一使用“交通工具”來代替。數(shù)據(jù)泛化處理數(shù)據(jù)預(yù)處理方法數(shù)據(jù)預(yù)處理數(shù)據(jù)去重。重復(fù)的數(shù)據(jù)是冗余數(shù)據(jù),對于這一類數(shù)據(jù)應(yīng)刪除其冗余部分。重復(fù)數(shù)據(jù)清洗數(shù)據(jù)中存在某變量的隨機誤差或異常的數(shù)據(jù)。常用的技術(shù)包括分箱技術(shù)、回歸方法等。
噪聲數(shù)據(jù)處理在盡可能保持數(shù)據(jù)原始特性的前提下,最大規(guī)模地精簡數(shù)據(jù)量。特征約簡、樣本約簡、數(shù)據(jù)立方體聚集、維約簡等。
數(shù)據(jù)約簡利用數(shù)據(jù)編碼或數(shù)據(jù)轉(zhuǎn)換等手段將原數(shù)據(jù)集壓縮為一個較小規(guī)模的數(shù)據(jù)集。常用的兩種數(shù)據(jù)壓縮方法為小波變換和主成分分析都屬于有損壓縮。數(shù)據(jù)壓縮數(shù)據(jù)預(yù)處理方法數(shù)據(jù)存儲直接鏈接存儲中間環(huán)節(jié)少,磁盤的利用率高,成本也比較低。網(wǎng)絡(luò)連接存儲響應(yīng)速度快,數(shù)據(jù)傳輸速率高。存儲域網(wǎng)絡(luò)存儲傳輸速率和傳輸效率都非常高,適合大數(shù)據(jù)量高帶寬的傳輸要求。關(guān)系型數(shù)據(jù)結(jié)構(gòu)非關(guān)系型數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)結(jié)構(gòu)MBGBPBZB數(shù)據(jù)量增長大數(shù)據(jù)存儲是將收集的數(shù)據(jù)集持久化到計算機存儲系統(tǒng)中。數(shù)據(jù)分析大數(shù)據(jù)分析是指用準確適宜的分析方法和工具來分析經(jīng)過預(yù)處理后的大數(shù)據(jù),提取具有價值的信息,進而形成有效的結(jié)論并通過可視化技術(shù)展現(xiàn)出來的過程。探索性數(shù)據(jù)分析以靈活的方式探究數(shù)據(jù)分布情況。證實性數(shù)據(jù)分析評估觀察到的模式或效應(yīng)的再現(xiàn)性。定性數(shù)據(jù)分析分析非數(shù)值型數(shù)據(jù),總結(jié)對象特點。離線數(shù)據(jù)分析將數(shù)據(jù)存儲于磁盤,然后進行分析。在線數(shù)據(jù)分析實時處理在線請求,響應(yīng)時間要求高。交互式分析快速數(shù)據(jù)分析,強調(diào)快速的數(shù)據(jù)探索。數(shù)據(jù)分析以分析結(jié)果分類以分析的方式分類數(shù)據(jù)分析數(shù)據(jù)挖掘是大數(shù)據(jù)分析的核心,占有重要的地位。數(shù)據(jù)挖掘是通過鍵名和構(gòu)造算法來獲取信息和知識。數(shù)據(jù)挖掘融合了數(shù)據(jù)庫技術(shù)、人工智能、機器學(xué)習(xí)、統(tǒng)計學(xué)、知識工程、面向?qū)ο蠓椒?、信息檢索、云計算、高性能計算以及數(shù)據(jù)可視化等最新技術(shù)的研究成果。樣本學(xué)習(xí)模型建立交叉驗證模型測試關(guān)聯(lián)分析:發(fā)現(xiàn)數(shù)據(jù)集中聯(lián)系規(guī)則分類方法:從數(shù)據(jù)集中提取分類模型聚類方法:自動對數(shù)據(jù)對象進行分類時間序列挖掘:發(fā)現(xiàn)趨勢性與周期性數(shù)據(jù)可視化可視化旨在利用計算機自動化分析能力的同時,充分挖掘人對于可視化信息的認知能力優(yōu)勢,將人、機的各自強項進行有機融合,借助人機交互式分析方法和交互技術(shù),輔助人們更為直觀和高效地洞悉大數(shù)據(jù)背后的信息、知識與智慧。結(jié)構(gòu)化主要是統(tǒng)計圖表注重數(shù)據(jù)及其結(jié)構(gòu)關(guān)系大數(shù)據(jù)可視化結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化多種表現(xiàn)形式發(fā)現(xiàn)數(shù)據(jù)中蘊含的規(guī)律特征數(shù)據(jù)可視化數(shù)據(jù)可視化文本可視化網(wǎng)絡(luò)可視化時空數(shù)據(jù)可視化數(shù)據(jù)可視化可視分析是通過交互可視界面來進行的分析、推理和決策。可視分析與各個領(lǐng)域的數(shù)據(jù)形態(tài)、大小及其應(yīng)用密切相關(guān)??梢暦治鍪且环N通過交互式可視化界面來輔助用戶對大規(guī)模復(fù)雜數(shù)據(jù)集進行分析與推理的技術(shù)。雷達圖氣泡圖熱力圖樹形圖數(shù)據(jù)遷移按照遷移條件分類全表遷移條件遷移自動遷移按照遷移模式分類覆蓋追加按照數(shù)據(jù)來源分類文本源數(shù)據(jù)源遷移模塊架構(gòu)任務(wù)調(diào)度模塊Sqoop架構(gòu)日志管理數(shù)據(jù)遷移指的是在不同存儲格式、數(shù)據(jù)類型以及硬業(yè)件設(shè)備之間的數(shù)據(jù)移動過程。數(shù)據(jù)遷移支持任意存儲系統(tǒng)之間的遷移,且成功率較高,支持聯(lián)機遷移。基于主機的遷移方式可以有效縮短停機時間窗口,一旦備份完成,其數(shù)據(jù)的遷移過程完全不會影響生產(chǎn)系統(tǒng)。備份恢復(fù)的方式兼容主流存儲設(shè)備,支持不同廠商不同品牌間的數(shù)據(jù)遷移和容災(zāi),適合于頻繁遷移數(shù)據(jù)的大型企業(yè)?;诖鎯Φ姆绞酵耆蕾囉趹?yīng)用軟件自身,與具體的主機、存儲種類則關(guān)系不大。應(yīng)用軟件提供的方式數(shù)據(jù)遷移方法的選擇是建立在對系統(tǒng)軟硬件以及業(yè)務(wù)系統(tǒng)的各環(huán)節(jié)的具體分析基礎(chǔ)之上。數(shù)據(jù)歸檔數(shù)據(jù)歸檔是將不經(jīng)常使用的數(shù)據(jù)移動到單獨的存儲設(shè)備進行長期存儲的過程。數(shù)據(jù)歸檔具有索引和搜索功能,因此可以很容易地找到文件。數(shù)據(jù)對象主要是長期積累的業(yè)務(wù)數(shù)據(jù)。對數(shù)據(jù)進行定時的數(shù)據(jù)歸檔操作。定期數(shù)據(jù)歸檔數(shù)據(jù)對象主要是應(yīng)用系統(tǒng)中數(shù)據(jù)量較大的數(shù)據(jù),或者使用非常頻繁的數(shù)據(jù)。采用不定期的集中化數(shù)據(jù)歸檔,以保證對系統(tǒng)和應(yīng)用資源的影響最小。不定期數(shù)據(jù)歸檔形成一套規(guī)范、一項制度,將數(shù)據(jù)歸檔納入日常操作,使數(shù)據(jù)清理自動化、規(guī)范化、量化,成為一套完整的數(shù)據(jù)清理和歸檔規(guī)范系統(tǒng)。數(shù)據(jù)銷毀數(shù)據(jù)銷毀是指通過一定手段將指定的待刪除數(shù)據(jù)進行有效刪除,使其被恢復(fù)的可能性足夠小甚至是不可被恢復(fù)?,F(xiàn)有的數(shù)據(jù)銷毀方法主要分為硬銷毀和軟銷毀。通常用于保密等級比較高的場合。如國家機密、軍事要務(wù)等。硬銷毀通常用于保密等級不是很高的場合。如一般的企業(yè)、個人文件等,存儲空間可以重復(fù)使用。軟銷毀數(shù)據(jù)銷毀不管是物理破壞方法還是化學(xué)破壞方法,被銷毀的存儲介質(zhì)不能重復(fù)使用,造成了一定的浪費,并且有著一定的污染,所有基本上沒有得到廣泛地應(yīng)用。運用化學(xué)試劑噴灑磁性存儲介質(zhì)的磁表面,腐蝕破壞其磁性結(jié)構(gòu)?;瘜W(xué)破壞方法焚燒、粉碎等,但是磁盤的碎片仍然可以被惡意用戶所利用,而且物理破壞方法需要特定的環(huán)境和設(shè)備。物理破壞方法數(shù)據(jù)硬銷毀是指采用物理、化學(xué)方法直接銷毀存儲介質(zhì),從而徹底銷毀存儲在其中的用戶數(shù)據(jù)。數(shù)據(jù)硬銷毀數(shù)據(jù)銷毀數(shù)據(jù)軟銷毀即邏輯銷毀,是向準備銷毀的數(shù)據(jù)塊區(qū)中反復(fù)寫入無意義的隨機數(shù)據(jù)。刪除與格式化操作是計算機用戶最常用的兩種清除數(shù)據(jù)的方式,但其實它們都不是
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 14124-2024機械振動與沖擊固定建筑結(jié)構(gòu)的振動振動測量及對結(jié)構(gòu)影響評價的指南
- PB-22-8-Hydroxyisoquinoline-isomer-生命科學(xué)試劑-MCE-5052
- Lariciresinol-4-O-β-D-glucopyranoside-生命科學(xué)試劑-MCE-5846
- E3-Ligase-Ligand-linker-Conjugate-122-生命科學(xué)試劑-MCE-1944
- 二零二五年度航空航天產(chǎn)業(yè)融資合作協(xié)議書
- 二零二五年度用人單位與派遣公司國際化人才派遣服務(wù)協(xié)議
- 2025年度音樂制作與音樂版權(quán)許可合同
- 2025年度活動板房銷售與臨時辦公場所租賃合同
- 二零二五年度商業(yè)地產(chǎn)貸款合同范本
- 2025年度飯店短期餐飲服務(wù)員勞務(wù)派遣協(xié)議
- 四年級數(shù)學(xué)上冊口算天天練4
- 蘇教版二年級數(shù)學(xué)寒假輔導(dǎo)提高班課件 第1講 眼花繚亂的數(shù)據(jù)(66張PPT)
- 水利水電工程監(jiān)理平行檢測表部分
- 分部分項工程質(zhì)量檢驗計劃表
- 社區(qū)衛(wèi)生服務(wù)中心醫(yī)療服務(wù)推薦病-2023版1-4-10
- HY/T 266-2018外壓中空纖維超濾膜表面親水性的測試接觸角法
- 【英文原版小說】the things they carried《負荷》
- 領(lǐng)導(dǎo)干部如何管理壓力與情緒課件
- 2022-2023年度神農(nóng)中華農(nóng)業(yè)科技獎科研和科普類推薦書和摘要表(樣本)
- 《鄉(xiāng)土中國-差序格局》學(xué)案-統(tǒng)編版高中語文必修上冊
- 大學(xué)成績單中文(word版)
評論
0/150
提交評論