文檔簡介
大數(shù)據(jù)采集與預(yù)處理主講教師:龍霄漢《大數(shù)據(jù)導(dǎo)論》課程Introductiontobigdata數(shù)據(jù)預(yù)處理概述數(shù)據(jù)預(yù)處理概述011數(shù)據(jù)預(yù)處理概述數(shù)據(jù)預(yù)處理概述在數(shù)據(jù)轉(zhuǎn)換階段主要數(shù)據(jù)進行采樣處理、類型轉(zhuǎn)換、歸一化。采樣是從特定的概率分布中抽取樣本點的過程。采樣在大數(shù)據(jù)分析中有非常重要的應(yīng)用:將復(fù)雜分布簡化為離散的樣本點;用重采樣可以對樣本集進行調(diào)整以更好地進行調(diào)整并適應(yīng)后期的模型學(xué)習(xí);用于隨機模擬以進行復(fù)雜模型的近似求解或推理。采樣的一個重要作用是處理不均衡數(shù)據(jù)集。最簡單的處理不均衡樣本集的方法是隨機采樣。采樣一般分為過采樣(Over-sampling)和欠采樣(Under-sampling)。數(shù)據(jù)預(yù)處理概述數(shù)據(jù)類型可以簡單劃分為數(shù)值型和非數(shù)值型。數(shù)值型有連續(xù)型和離散型。非數(shù)值型有類別型和非類別型,其中類別型特征中如果類別存在排序問題為定序型,若不存在排序問題則為定類型,非類別型是字符串型。圖片來自互聯(lián)網(wǎng)數(shù)據(jù)預(yù)處理概述在數(shù)據(jù)描述階段,我們可以根據(jù)需要計算統(tǒng)計量和對數(shù)據(jù)進行可視化。數(shù)據(jù)的一般性描述有mean,median,mode,variance.mean是均值;median是中位數(shù),取數(shù)據(jù)排序后在中間位置的值,避免因為極端離群點影響客觀評價;mode是出現(xiàn)頻率最高的元素,其實用的比較少;variance是方差,由于衡量數(shù)據(jù)集與其均值的偏離。數(shù)據(jù)之間的相關(guān)性可以使用Pearsoncorrelationcoefficient和Pearsonchi-square進行度量。前者適用與有metricdata的情況,后者適用于分類統(tǒng)計的情況。數(shù)據(jù)預(yù)處理概述數(shù)據(jù)可視化一維數(shù)據(jù)圓餅圖,柱狀圖;二維數(shù)據(jù)散點圖;三維數(shù)據(jù)用三維坐標呈現(xiàn);高維數(shù)據(jù)需要先做轉(zhuǎn)換或映射,比如用matlab的BoxPlots,也可以用平行坐標呈現(xiàn)。可使用工具有很多,如matlab和Geph。圖片來自互聯(lián)網(wǎng)數(shù)據(jù)預(yù)處理概述在大數(shù)據(jù)分析中,數(shù)據(jù)可以被表示為向量的形式進行訓(xùn)練,但是在對高維向量進行處理和分析時,會極大消耗系統(tǒng)資源,甚至產(chǎn)生維度災(zāi)難。因此,使用低維度的向量來表示高維度的向量就十分必要。特征抽取或降維即使用低緯度向量表示高維度向量的方法。特征抽取是主要有主成分分析(PrincipalComponentAnalysis,PCA)和線性判別分析(LinearDiscriminantAnalysis,LDA)兩種方式。兩者相同之處為均假設(shè)數(shù)據(jù)服從高斯分布,都使用了矩陣分解的思想。兩者不同之處為PCA是無監(jiān)督的算法,對降低后的維度無限制,其目標為投影方差最大;LDA是有監(jiān)督的算法,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030年可食用消毒包裝材料行業(yè)深度調(diào)研及發(fā)展戰(zhàn)略咨詢報告
- 2025-2030年復(fù)古銅表收藏行業(yè)跨境出海戰(zhàn)略研究報告
- 2025-2030年手繪陶瓷水杯行業(yè)深度調(diào)研及發(fā)展戰(zhàn)略咨詢報告
- 2025-2030年文具材料創(chuàng)新行業(yè)跨境出海戰(zhàn)略研究報告
- 安全網(wǎng)絡(luò)數(shù)據(jù)安全合規(guī)性自查工具實踐考核試卷
- 2025-2030年新能源汽車電池梯次利用商業(yè)模式行業(yè)跨境出海戰(zhàn)略研究報告
- 2025-2030年手術(shù)室智能更衣室行業(yè)跨境出海戰(zhàn)略研究報告
- 搪瓷制品生產(chǎn)項目管理考核試卷
- 合成革廢水資源化處理技術(shù)考核試卷
- 保險市場準入門檻考核試卷
- 北京市城市管理委員會直屬事業(yè)單位公開招聘10人高頻難、易錯點500題模擬試題附帶答案詳解
- 禁止送禮的協(xié)議書
- 2024年版《輸變電工程標準工藝應(yīng)用圖冊》
- 2024年高考數(shù)學(xué)試卷(北京)(空白卷)
- 2024從洞見到生意:阿里健康特色人群消費趨勢報告-阿里健康x一財商學(xué)院
- 《2023-2024中國區(qū)塊鏈發(fā)展年度報告》
- 人教版2024年新教材七年級上冊英語starter unit 1 -unit7重點短語句型清單
- 排水管網(wǎng)更新改造項目經(jīng)濟效益和社會效益分析
- 護理服務(wù)在產(chǎn)科中的應(yīng)用課件
- 【江蘇省機電產(chǎn)品出口貿(mào)易規(guī)模結(jié)構(gòu)及問題和完善策略14000字(論文)】
- 2024年小升初語文入學(xué)分班測試卷四(統(tǒng)編版)
評論
0/150
提交評論