下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、精選優(yōu)質(zhì)文檔-傾情為你奉上超人學(xué)院:大數(shù)據(jù)處理的關(guān)鍵技術(shù)大數(shù)據(jù)技術(shù),從本質(zhì)上講是從類型各異、內(nèi)容龐大的數(shù)據(jù)中快速獲得有價值信息的技術(shù)。目前,隨著大數(shù)據(jù)領(lǐng)域被廣泛關(guān)注,大量新的技術(shù)已經(jīng)開始涌現(xiàn)出來,而這些技術(shù)將成為大數(shù)據(jù)采集、存儲、分析、表現(xiàn)的重要工具。大數(shù)據(jù)處理的關(guān)鍵技術(shù)主要包括:數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理(數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換等)、大數(shù)據(jù)存儲、數(shù)據(jù)分析和挖掘、數(shù)據(jù)的呈現(xiàn)與應(yīng)用(數(shù)據(jù)可視化、數(shù)據(jù)安全與隱私等)。該圖展示了如何將大量的數(shù)據(jù)經(jīng)過一系列的加工和處理,最終以有價值的信息形式到達(dá)用戶的手中。在數(shù)據(jù)分析中,云技術(shù)與傳統(tǒng)方法之間進(jìn)行聯(lián)合,使得一些傳統(tǒng)的數(shù)據(jù)分析方法能夠成功地運用到大數(shù)據(jù)的范
2、疇中來。一、數(shù)據(jù)的采集技術(shù)數(shù)據(jù)的采集是指利用多個數(shù)據(jù)庫來接收發(fā)自客戶端(Web、App或傳感器形式等)的各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù),并允許用戶通過這些數(shù)據(jù)來進(jìn)行簡單的查詢和處理工作。二、數(shù)據(jù)集成與處理技術(shù)數(shù)據(jù)的集成就是將各個分散的數(shù)據(jù)庫采集來的數(shù)據(jù)集成到一個集中的大型分布式數(shù)據(jù)庫,或者分布式存儲集群中,以便對數(shù)據(jù)進(jìn)行集中的處理。該階段的挑戰(zhàn)主要是集成的數(shù)據(jù)量大,每秒的集成數(shù)據(jù)量一般會達(dá)到百兆,甚至千兆。三、大數(shù)據(jù)存儲及管理技術(shù)數(shù)據(jù)的海量化和快增長特征是大數(shù)據(jù)對存儲技術(shù)提出的首要挑戰(zhàn)。為適應(yīng)大數(shù)據(jù)環(huán)境下爆發(fā)式增長的數(shù)據(jù)量,大數(shù)據(jù)采用由成千上萬臺廉價PC來存儲數(shù)據(jù)方案,以降低成本,同時提供高
3、擴展性??紤]到系統(tǒng)由大量廉價易損的硬件組成,為了保證文件整體可靠性,大數(shù)據(jù)通常對同一份數(shù)據(jù)在不同節(jié)點上存儲多份副本,同時,為了保障海量數(shù)據(jù)的讀寫能力,大數(shù)據(jù)借助分布式存儲架構(gòu)提供高吐量的數(shù)據(jù)訪問。超人學(xué)院主要培訓(xùn)內(nèi)容Hadoop HDFS(Hadoop Distributed File System是較為有名的大數(shù)據(jù)文件存儲技術(shù)。HDFS是GFS的開源實現(xiàn),它們均采用分布式存儲的方式存儲數(shù)據(jù)(將文件塊復(fù)制在幾個不同的節(jié)儲節(jié)點上)。在實現(xiàn)原理上,它們均采用主從控制模式(主節(jié)點存儲元數(shù)據(jù)、接收應(yīng)用請求并且根據(jù)請求類型進(jìn)行應(yīng)答,從節(jié)點則負(fù)責(zé)存儲數(shù)據(jù))。Hadoop的HBase是大數(shù)據(jù)的數(shù)據(jù)管理技術(shù)的
4、典型代表之一。HBase基于HDFS。作為NoSQL(Not only SQL)數(shù)據(jù)庫,它們?yōu)閼?yīng)用提供數(shù)據(jù)結(jié)構(gòu)化存儲功能和類似數(shù)據(jù)庫的簡單數(shù)據(jù)查詢功能,并為MapReduce 等并行處理方式提供數(shù)據(jù)源或數(shù)據(jù)結(jié)果的存儲。四、大數(shù)據(jù)的分析與挖掘數(shù)據(jù)分析與挖掘是大數(shù)據(jù)處理流程中最為關(guān)鍵的步驟。在人類全部數(shù)字化數(shù)據(jù)中,僅有非常小的一部分(約占數(shù)據(jù)量的1%)數(shù)值型數(shù)據(jù)得到了深入分析和挖掘(如:回歸、分類、聚類),大型互聯(lián)網(wǎng)企業(yè)對網(wǎng)頁索引、社交數(shù)據(jù)等半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行了淺層分析(如:排序)。占總量近60%的語音、圖片、視頻等非結(jié)構(gòu)化數(shù)據(jù)還難以進(jìn)行有效的分析。大數(shù)據(jù)分析技術(shù)的發(fā)展需要取得兩個方面的突破:一是對體量龐大的結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行高效率的深度分析,挖掘隱性知識(如:從自然語言構(gòu)成的文本網(wǎng)頁中理解和識別語義、情感、意圖等);二是對非結(jié)構(gòu)化數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年學(xué)生寢室衛(wèi)生的管理制度細(xì)則
- 速寫的課程設(shè)計
- 二零二五版電商平臺電商平臺數(shù)據(jù)分析與產(chǎn)品優(yōu)化合同3篇
- 年度特種變壓器戰(zhàn)略市場規(guī)劃報告
- 2025年度社區(qū)停車位產(chǎn)權(quán)轉(zhuǎn)讓協(xié)議范本4篇
- 2025年度鋅錠國際貿(mào)易結(jié)算服務(wù)合同3篇
- 2025年度智能大樓能源管理系統(tǒng)施工合同4篇
- 老虎畫畫賀卡課程設(shè)計
- 二零二五版共享單車運營管理服務(wù)合同4篇
- 2025年度個人別墅買賣合同范本8篇
- 《酸堿罐區(qū)設(shè)計規(guī)范》編制說明
- 橋梁監(jiān)測監(jiān)控實施方案
- 書籍小兵張嘎課件
- 藝術(shù)哲學(xué):美是如何誕生的學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 北京海淀區(qū)2025屆高三下第一次模擬語文試題含解析
- 量子醫(yī)學(xué)治療學(xué)行業(yè)投資機會分析與策略研究報告
- 多重耐藥菌病人的管理-(1)課件
- (高清版)TDT 1056-2019 縣級國土資源調(diào)查生產(chǎn)成本定額
- 環(huán)境監(jiān)測對環(huán)境保護(hù)的意義
- 2023年數(shù)學(xué)競賽AMC8試卷(含答案)
- 2023年十天突破公務(wù)員面試
評論
0/150
提交評論