![第二章數(shù)據(jù)預(yù)處理_第1頁](http://file4.renrendoc.com/view2/M02/2E/05/wKhkFmY_HOuAQyrzAADU35KhjOc855.jpg)
![第二章數(shù)據(jù)預(yù)處理_第2頁](http://file4.renrendoc.com/view2/M02/2E/05/wKhkFmY_HOuAQyrzAADU35KhjOc8552.jpg)
![第二章數(shù)據(jù)預(yù)處理_第3頁](http://file4.renrendoc.com/view2/M02/2E/05/wKhkFmY_HOuAQyrzAADU35KhjOc8553.jpg)
![第二章數(shù)據(jù)預(yù)處理_第4頁](http://file4.renrendoc.com/view2/M02/2E/05/wKhkFmY_HOuAQyrzAADU35KhjOc8554.jpg)
![第二章數(shù)據(jù)預(yù)處理_第5頁](http://file4.renrendoc.com/view2/M02/2E/05/wKhkFmY_HOuAQyrzAADU35KhjOc8555.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第2章數(shù)據(jù)預(yù)處理內(nèi)容簡介數(shù)據(jù)科學(xué)中的基礎(chǔ)知識(shí)圖2-1(2)數(shù)據(jù)科學(xué)中的數(shù)據(jù)預(yù)處理目錄目錄圖2-1(2)數(shù)據(jù)科學(xué)中的數(shù)據(jù)預(yù)處理學(xué)習(xí)目的了解數(shù)據(jù)質(zhì)量的基本含義、評(píng)價(jià)指標(biāo)和評(píng)價(jià)依據(jù);理解數(shù)據(jù)審計(jì)方法以及數(shù)據(jù)脫敏、數(shù)據(jù)規(guī)約和數(shù)據(jù)標(biāo)注方法;掌握數(shù)據(jù)集成、數(shù)據(jù)清洗和數(shù)據(jù)變換方法;熟練掌握在讀者自己所屬專業(yè)領(lǐng)域中,常用數(shù)據(jù)預(yù)處理方法、技術(shù)與工具。學(xué)習(xí)目的引言圖2-2數(shù)據(jù)預(yù)處理方法數(shù)據(jù)預(yù)處理工作數(shù)據(jù)審計(jì)數(shù)據(jù)清洗數(shù)據(jù)變換數(shù)據(jù)集成其他預(yù)處理引言目錄2.1數(shù)據(jù)質(zhì)量圖2-1(2)數(shù)據(jù)科學(xué)中的數(shù)據(jù)預(yù)處理2.1數(shù)據(jù)質(zhì)量2.1數(shù)據(jù)質(zhì)量圖2-3數(shù)據(jù)質(zhì)量的屬性2.1數(shù)據(jù)質(zhì)量基本屬性數(shù)據(jù)正確性(Correctness)數(shù)據(jù)完整性(Integrity)一致性(Consistency)擴(kuò)展屬性形式化程度(Formalization)時(shí)效性(Timeliness)精確性(Accuracy)自描述性(Self-Description)2.1數(shù)據(jù)質(zhì)量2.1.1統(tǒng)計(jì)學(xué)規(guī)律2.1數(shù)據(jù)質(zhì)量第一數(shù)字定律第一數(shù)字定律(First-DigitLaw)描述的是自然數(shù)“1”到“9”的使用頻率,公式為其中,數(shù)字“1”的使用最多接近三分之一,“2”為17.6%,“3”為12.5%,依次遞減,“9”的頻率是4.6%2.1數(shù)據(jù)質(zhì)量圖2-4十進(jìn)制首位數(shù)字的出現(xiàn)機(jī)率2.1.1統(tǒng)計(jì)學(xué)規(guī)律小概率原理基本思想:一個(gè)事件如果發(fā)生的概率很小的話,那么它在一次試驗(yàn)中是幾乎不可能發(fā)生的,但在多次重復(fù)試驗(yàn)中幾乎是必然發(fā)生的,數(shù)學(xué)上稱之小概率原理。在統(tǒng)計(jì)學(xué)中,把小概率事件在一次實(shí)驗(yàn)中看成是實(shí)際不可能發(fā)生的事件,一般認(rèn)為等于或小于0.05或0.01的概率為小概率。例如,曾有人采用小概率理論探討了《紅樓夢》中擲骰子游戲、主人公生日是否為真實(shí)的問題。2.1數(shù)據(jù)質(zhì)量2.1.1統(tǒng)計(jì)學(xué)規(guī)律第一數(shù)字定律與小概率原理的應(yīng)用只能幫助我們識(shí)別一些“可能有問題”的數(shù)據(jù)但“是否真的存在問題”以及“存在何種問題”需要用領(lǐng)域知識(shí)、其他數(shù)據(jù)質(zhì)量評(píng)價(jià)方法、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)分析等方法進(jìn)行進(jìn)一步深入研究。2.1數(shù)據(jù)質(zhì)量2.1.2語言學(xué)規(guī)律頻率特征連接特征重復(fù)特征2.1數(shù)據(jù)質(zhì)量2.1數(shù)據(jù)質(zhì)量頻率特征表2-2Algoritmy統(tǒng)計(jì)表2.1.2語言學(xué)規(guī)律連接特征包括語言學(xué)中的后連接(如字母“q”后總是“u”)、前連接(如字母“x”的前面總是字母“i”,字母“e”很少與“o”和“a”連接)以及間斷連接(如在“e”和“e”之間,“r”的出現(xiàn)頻率最高)。重復(fù)特征兩個(gè)字符以上的字符串重復(fù)出現(xiàn)的現(xiàn)象,叫做語言的重復(fù)特征。例如,在英文中字符串“th”、“tion”和“tious”的重復(fù)率很高。2.1數(shù)據(jù)質(zhì)量2.1.3數(shù)據(jù)連續(xù)性理論2.1數(shù)據(jù)質(zhì)量圖2-5數(shù)據(jù)連續(xù)性的定義及重要性2.1.3數(shù)據(jù)連續(xù)性理論2.1數(shù)據(jù)質(zhì)量圖2-6數(shù)據(jù)連續(xù)性的理論框架2.1.4數(shù)據(jù)鑒別技術(shù)數(shù)據(jù)鑒別的目的消息本身的鑒別主體的鑒別數(shù)據(jù)鑒別的常用方法消息鑒別碼Hash函數(shù)數(shù)字簽名2.1數(shù)據(jù)質(zhì)量消息鑒別碼(MessageAuthenticationCode,MAC)是一個(gè)固定長的鑒別碼,其計(jì)算方式如下:MAC=C(K,M)M為輸入消息(變長);K為雙方共享的密鑰;C為MAC函數(shù);C(K,M)為MAC函數(shù)的返回值(固定長度)。注意:消息鑒別碼的生成與數(shù)據(jù)加密是兩個(gè)不同的概念。2.1數(shù)據(jù)質(zhì)量消息鑒別碼在實(shí)際工作中,我們需要選擇二者的執(zhí)行順序。從理論上看,可以選擇3種方式:MAC碼直接附加在消息之后;MAC直接附加在消息之后,并對(duì)整體進(jìn)行加密;先對(duì)消息加密,再對(duì)密文生成鑒別碼。消息鑒別碼的實(shí)現(xiàn)方法有很多種,例如:基于對(duì)稱分組密碼的MAC(CBC,CipherBlockChaining-MAC)基于CFB(CipherFeedBack)的MAC碼等2.1數(shù)據(jù)質(zhì)量消息鑒別碼2.1數(shù)據(jù)質(zhì)量圖2-7基于對(duì)稱分組密碼的MAC2.1數(shù)據(jù)質(zhì)量Hash函數(shù)基于MAC的消息鑒別方法需要加密處理,計(jì)算速度較慢基于Hash函數(shù)的消息鑒別不需要加密處理,計(jì)算速度更快Hash函數(shù)是指具備如下特征的函數(shù)輸入為任意長度的消息M;輸出為一個(gè)固定長度的散列值,稱為消息摘要MessageDigest);消息中的任何一位或多位的變化都將導(dǎo)致該散列值的變化。2.1數(shù)據(jù)質(zhì)量Hash函數(shù)一個(gè)好的Hash函數(shù)應(yīng)具備如下個(gè)特征:容易計(jì)算,即給定M,很容易計(jì)算h;單向性,即如果已知h,根據(jù)H(M)=h計(jì)算M很難;抗碰撞性,即給定M1,要找到另一個(gè)消息M2并滿足H(M1)=H(M2)很難2.1數(shù)據(jù)質(zhì)量Hash函數(shù)2.1數(shù)據(jù)質(zhì)量圖2-8使用Hash函數(shù)進(jìn)行完整性檢測2.1數(shù)據(jù)質(zhì)量數(shù)字簽名簽名與加密、鑒別的區(qū)別簽名的基本要求簽名者事后無法否認(rèn)自己的簽名、接收者能驗(yàn)證簽名,而任何其他人都不能偽造簽名;在有爭議時(shí),可由第三方進(jìn)行驗(yàn)證;對(duì)簽名的作者、日期和時(shí)間、簽名時(shí)刻消息的內(nèi)容提供驗(yàn)證。2.1.5探索性數(shù)據(jù)分析探索性數(shù)據(jù)分析(ExploratoryDataAnalysis,EDA)對(duì)已有的數(shù)據(jù)(特別是調(diào)查或觀察得來的原始數(shù)據(jù))在盡量少的先驗(yàn)假定下進(jìn)行探索,并通過作圖、制表、方程擬合、計(jì)算特征量等手段‘探索數(shù)據(jù)的結(jié)構(gòu)和規(guī)律的一種數(shù)據(jù)分析方法。EDA方法與驗(yàn)證性分析的主要區(qū)別:EDA不需要事先假設(shè),而驗(yàn)證性分析需要事先提出假設(shè);EDA中采用的方法往往比驗(yàn)證性分析簡單;在一般數(shù)據(jù)科學(xué)項(xiàng)目中,探索分析在先,而驗(yàn)證性分析在后。2.1數(shù)據(jù)質(zhì)量探索性數(shù)據(jù)分析關(guān)注的主題(1)耐抗性(Resistance)(2)殘差(Residuals)(3)重新表達(dá)(Re-expression)(4)啟示(Revelation)2.1數(shù)據(jù)質(zhì)量(1)DEA/耐抗性(Resistance)描述數(shù)據(jù)的集中趨勢2.1數(shù)據(jù)質(zhì)量表2-3描述性統(tǒng)計(jì)中常用的集中趨勢統(tǒng)計(jì)量描述數(shù)據(jù)的離散程度2.1數(shù)據(jù)質(zhì)量表2-4描述性統(tǒng)計(jì)中常用的離散程度統(tǒng)計(jì)量描述數(shù)據(jù)的分布狀態(tài)2.1數(shù)據(jù)質(zhì)量表2-5描述性統(tǒng)計(jì)中常用的數(shù)據(jù)分布統(tǒng)計(jì)量(2)DEA/殘差(Residuals)殘差=實(shí)際值-擬合值。2.1數(shù)據(jù)質(zhì)量圖2-9殘差示意圖(3)DEA/重新表達(dá)(Re-expression)一批數(shù)據(jù)x1,x2,…,xn的變換是一個(gè)函數(shù)T,它把每個(gè)xi用新值T(xi)來代替,使得變換后的數(shù)據(jù)值是
T(x1),T(x2)
,…,T(xn)。(4)DEA/啟示(Revelation)通過探索性分析,發(fā)現(xiàn)新的規(guī)律、問題和啟迪,進(jìn)而滿足數(shù)據(jù)預(yù)處理和數(shù)據(jù)分析的需要。2.1數(shù)據(jù)質(zhì)量目錄目錄圖2-1(2)數(shù)據(jù)科學(xué)中的數(shù)據(jù)預(yù)處理2.2數(shù)據(jù)審計(jì)數(shù)據(jù)審計(jì)是指按照數(shù)據(jù)質(zhì)量的一般規(guī)律與評(píng)價(jià)方法,對(duì)數(shù)據(jù)內(nèi)容及其元數(shù)據(jù)進(jìn)行審計(jì),發(fā)現(xiàn)其中存在的“問題”,例如:缺失值(缺少數(shù)據(jù))噪聲值(異常數(shù)據(jù))不一致值(相互矛盾的數(shù)據(jù))不完整值(被篡改或無法溯源的數(shù)據(jù))2.2數(shù)據(jù)審計(jì)2.2數(shù)據(jù)審計(jì)預(yù)定義審計(jì)自定義審計(jì)可視化審計(jì)數(shù)據(jù)審計(jì)2.2數(shù)據(jù)審計(jì)2.2.1預(yù)定義審計(jì)預(yù)定義審計(jì)中可以依據(jù)的數(shù)據(jù)或方法有:數(shù)據(jù)字典;用戶自定義的完整性約束條件,如字段“年齡”的取值范圍為20~40;數(shù)據(jù)的自描述性信息,如數(shù)字指紋(數(shù)字摘要)、校驗(yàn)碼、XMLSchema定義;屬性的定義域與值域;數(shù)據(jù)自包含的關(guān)聯(lián)信息。2.2數(shù)據(jù)審計(jì)2.2.2自定義審計(jì)自定義審計(jì)變量定義規(guī)則函數(shù)自定義規(guī)則其他自定義規(guī)則2.2數(shù)據(jù)審計(jì)2.2.2自定義審計(jì)(1)變量定義規(guī)則給出一個(gè)有效值(或無效值)的取值范圍例如,大學(xué)生表中的年齡屬性的取值范圍為[18,28];列舉所有有效值(或無效值),以有效值(無效值列表)形式定義例如,大學(xué)生表中的性別屬性為“男”或“女”。2.2數(shù)據(jù)審計(jì)2.2.2自定義審計(jì)(2)函數(shù)定義規(guī)則相對(duì)于簡單變量定義規(guī)則,函數(shù)定義規(guī)則更為復(fù)雜,需要對(duì)變量進(jìn)行函數(shù)計(jì)算。例如,設(shè)計(jì)一個(gè)函數(shù)f(),并定義規(guī)則f(age)=TRUE。2.2數(shù)據(jù)審計(jì)2.2.3可視化審計(jì)2.2數(shù)據(jù)審計(jì)圖2-10可視化審計(jì)目錄目錄圖2-1(2)數(shù)據(jù)科學(xué)中的數(shù)據(jù)預(yù)處理2.3數(shù)據(jù)清洗2.3數(shù)據(jù)清洗2.3數(shù)據(jù)清洗圖2-11數(shù)據(jù)審計(jì)與數(shù)據(jù)清洗2.3.1缺失數(shù)據(jù)處理2.3數(shù)據(jù)清洗圖2-12缺失數(shù)據(jù)的處理步驟類型特征解決方法完全隨機(jī)缺失(MCAR)某變量的缺失數(shù)據(jù)與其他任何觀測或未觀測變量都不相關(guān)較為簡單,可以進(jìn)行忽略/刪除/插值處理隨機(jī)缺失(MAR)某變量的缺失數(shù)據(jù)與其他觀測相關(guān),但與未觀測變量不相關(guān)非隨機(jī)缺失(NMAR)缺失數(shù)據(jù)不屬于上述“完全隨機(jī)缺失”或“隨機(jī)缺失”較為復(fù)雜,可以采用模型選擇法和模式混合法等2.3數(shù)據(jù)清洗表2-6缺失值的類型2.3.2冗余數(shù)據(jù)處理2.3數(shù)據(jù)清洗圖2-13冗余數(shù)據(jù)的處理2.3.3噪聲數(shù)據(jù)處理噪聲數(shù)據(jù)的存在形式錯(cuò)誤數(shù)據(jù)虛假數(shù)據(jù)異常數(shù)據(jù)離群數(shù)據(jù)或孤立數(shù)據(jù)噪聲數(shù)據(jù)的處理方法分箱(Binning)聚類(Clustering)回歸(Regression)2.3數(shù)據(jù)清洗2.3數(shù)據(jù)清洗圖2-14分箱處理的步驟與類型2.3數(shù)據(jù)清洗圖2-15均值平滑與邊界值平滑2.3數(shù)據(jù)清洗圖2-16通過聚類發(fā)現(xiàn)離群點(diǎn)/孤立點(diǎn)2.3數(shù)據(jù)清洗圖2-17通過回歸方法發(fā)現(xiàn)噪聲數(shù)據(jù)目錄目錄圖2-1(2)數(shù)據(jù)科學(xué)中的數(shù)據(jù)預(yù)處理2.4數(shù)據(jù)變換2.4數(shù)據(jù)變換序號(hào)方法目的1平滑處理去除噪聲數(shù)據(jù)2特征構(gòu)造構(gòu)造出新的特征3聚集進(jìn)行粗粒度計(jì)算4標(biāo)準(zhǔn)化將特征(屬性)值按比例縮放,使之落入一個(gè)特定的區(qū)間5離散化用區(qū)間或概念標(biāo)簽表示數(shù)據(jù)表2-6數(shù)據(jù)變換的類型2.4.1大小變換數(shù)據(jù)標(biāo)準(zhǔn)化處理(DataNormalization)0-1標(biāo)準(zhǔn)化(0-1normalization)z-score標(biāo)準(zhǔn)化(zero-meannormalization)2.4數(shù)據(jù)變換2.4.1大小變換0-1標(biāo)準(zhǔn)化(0-1normalization)對(duì)原始數(shù)據(jù)的線性變換,使結(jié)果落到[0,1]區(qū)間,轉(zhuǎn)換函數(shù)如下:
其中,max和max分別為樣本數(shù)據(jù)的最大值和最小值;x與x*分別代表標(biāo)準(zhǔn)化處理前的值和標(biāo)準(zhǔn)化處理后的值;缺點(diǎn)當(dāng)有新數(shù)據(jù)加入時(shí),可能導(dǎo)致最大值和最小值的變化,需要重新定義min和max的取值。2.4數(shù)據(jù)變換z-score標(biāo)準(zhǔn)化(zero-meannormalization)經(jīng)過處理的數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布,即均值為0,標(biāo)準(zhǔn)差為1,其轉(zhuǎn)化函數(shù)為:其中,μ為平均數(shù);σ為標(biāo)準(zhǔn)差;
x與z分別代表標(biāo)準(zhǔn)化處理前的值和標(biāo)準(zhǔn)化處理后的值。2.4數(shù)據(jù)變換2.4.2類型變換(1)一對(duì)一轉(zhuǎn)換2.4數(shù)據(jù)變換來源變量的值(字符串型)目標(biāo)變量的值(日期型)1969年12月30日1969/12/301979年12月30日1979/12/301980年1月1日1980/1/11999年12月30日1999/12/302016年1月12日2016/1/12表2-7一對(duì)一轉(zhuǎn)換(2)多對(duì)一轉(zhuǎn)換2.4數(shù)據(jù)變換來源變量的值(日期型)目標(biāo)變量的值(字符串型)<=1969/12/3170前1970/1/1~1979/12/3170后1980/1/1~1989/12/3180后1990/1/1~1999/12/3190后2000/1/1<=00后表2-8多對(duì)一轉(zhuǎn)換目錄目錄圖2-1(2)數(shù)據(jù)科學(xué)中的數(shù)據(jù)預(yù)處理2.5數(shù)據(jù)集成2.5.1基本類型2.5.2主要問題2.5數(shù)據(jù)集成2.5.1基本類型內(nèi)容集成結(jié)構(gòu)集成2.5數(shù)據(jù)集成2.5數(shù)據(jù)集成圖2-18內(nèi)容集成2.5數(shù)據(jù)集成圖2-19結(jié)構(gòu)集成2.5.2主要問題數(shù)據(jù)集成的3個(gè)基本問題模式集成數(shù)據(jù)冗余沖突檢測與消除2.5數(shù)據(jù)集成屬性A和屬性B之間的相關(guān)度可根據(jù)以下計(jì)算公式分析獲得:其中,A?和B?分別代表屬性A,B的平均值,
和分別表示屬性A,B的標(biāo)準(zhǔn)方差2.5數(shù)據(jù)集成數(shù)據(jù)冗余若有>0,則屬性A,B之間是正關(guān)聯(lián),也就是說若A增加,B也增加;值越大,說明屬性A,B正關(guān)聯(lián)關(guān)系越密;若有=0,就有屬性A,B相互獨(dú)立,兩者之間沒有關(guān)系。最后若有<0,則屬性A,B之間是負(fù)關(guān)聯(lián),也就是說若A增加,B就減少;>0絕對(duì)值越大,說明屬性A,B負(fù)關(guān)聯(lián)關(guān)系越密。2.5數(shù)據(jù)集成目錄目錄圖2-1(2)數(shù)據(jù)科學(xué)中的數(shù)據(jù)預(yù)處理2.6.1數(shù)據(jù)脫敏2.6其他預(yù)處理方法圖2-20數(shù)據(jù)脫敏處理數(shù)據(jù)脫敏的原則單向性無殘留易于實(shí)現(xiàn)2.6其他預(yù)處理方法2.6.2數(shù)據(jù)規(guī)約維歸約(Dimensionalityreduction)主成分分析(PrincipalComponentAnalysis,PCA)奇異值分解(SingularValueDecomposition,SVD)離散小波轉(zhuǎn)換(DiscreteWaveletTransform,DWT)值規(guī)約(NumerosityReduction)參數(shù)模型(如簡單線性回歸模型和對(duì)數(shù)線性模型等)非參數(shù)模型(如抽樣、聚類、直方圖等)2.6其他預(yù)處理方法2.6.3數(shù)據(jù)標(biāo)注按標(biāo)注活動(dòng)的自動(dòng)化程度,數(shù)據(jù)標(biāo)注可以分為手工標(biāo)注、自動(dòng)化標(biāo)注和半自動(dòng)化標(biāo)注。從標(biāo)注的實(shí)現(xiàn)層次看,數(shù)據(jù)標(biāo)注可以分為:語法標(biāo)注語義標(biāo)注2.6其他預(yù)處理方法2.7應(yīng)用案例【例2.1】IBMInfoSphereDataStage2.7應(yīng)用案例圖2-21IBMInformationServer體系結(jié)構(gòu)IBMInfoSphereDataStage的主要特點(diǎn)(1)功能強(qiáng)大的可擴(kuò)展ETL平臺(tái)(2)支持大數(shù)據(jù)和Hadoop(3)工作負(fù)載和業(yè)務(wù)規(guī)則管理(4)實(shí)時(shí)數(shù)據(jù)集成(5)易于使用2.7應(yīng)用案例(1)功能強(qiáng)大的可擴(kuò)展ETL平臺(tái)支持管理數(shù)據(jù),以及定期或按計(jì)劃收到的數(shù)據(jù);支持對(duì)海量數(shù)據(jù)進(jìn)行高性能處理;支持基于多處理器硬件平臺(tái)的并行處理功能;在單個(gè)作業(yè)中支持異構(gòu)數(shù)據(jù)源和目標(biāo),包括文本文件、XML、ERP系統(tǒng)、大多數(shù)數(shù)據(jù)庫(包括分區(qū)數(shù)據(jù)庫)、Web服務(wù)和商業(yè)智能工具。2.7應(yīng)用案例(2)支持大數(shù)據(jù)和Hadoop支持IBMInfoSphereBigInsights、Cloudera、Apache和HortonworksHadoopDistributedFileSystem(HDFS);提供BalancedOptimizationforHadoop的方式支持大數(shù)據(jù)處理;支持大數(shù)據(jù)監(jiān)管,包括影響分析和數(shù)據(jù)沿襲之類的功能。2.7應(yīng)用案例(3)工作負(fù)載和業(yè)務(wù)規(guī)則管理支持策略驅(qū)動(dòng)的系統(tǒng)資源控制以及不同類別工作負(fù)載的優(yōu)先級(jí)劃分;支持優(yōu)化硬件利用率和劃分任務(wù)優(yōu)先級(jí),控制資源超過指定閾值的作業(yè)活動(dòng),并在將作業(yè)提交至隊(duì)列中時(shí)評(píng)估并重新分配作業(yè)優(yōu)先級(jí);集成IBMOperationalDecisionManagement,支持決策邏輯。2.7應(yīng)用案例(4)實(shí)時(shí)數(shù)據(jù)集成支持Java消息服務(wù)(JMS)/WebSphereMQ適配器從面向消息的中間件(MOM)隊(duì)列捕獲消息,將數(shù)據(jù)組合成遵循標(biāo)準(zhǔn)的操作和歷史分析透視圖;支持面向服務(wù)架構(gòu)(SOA),將數(shù)據(jù)集成邏輯發(fā)布為可復(fù)用的共享服務(wù);可同時(shí)支持事務(wù)處理的高速、高可靠性要求,以及批處理的大批量數(shù)據(jù)要求。2.7應(yīng)用案例(5)易于使用支持并行作業(yè)的操作控制臺(tái)和交互式調(diào)試器;支持縮短數(shù)據(jù)集成項(xiàng)目的開發(fā)和維護(hù)周期;提供操作智能功能、元數(shù)據(jù)和元數(shù)據(jù)導(dǎo)入的智能管理以及并行調(diào)試功能。2.7應(yīng)用案例【例2.2】基于R的數(shù)據(jù)預(yù)處理本例主要分析VIM包數(shù)據(jù)集sleep中的缺失數(shù)據(jù)處理問題睡眠變量,包括睡眠中做夢時(shí)長(Dream)、不做夢的時(shí)長(NonD)以及二者的和(sleep);體質(zhì)變量,包括體重(BodyWgt,單位為千克)、腦重(BrainWgt,單位為克)、壽命(Span,單位為年)和妊娠期(Gest,單位為天);生態(tài)學(xué)變量,包括物種被捕食的程度(Pred)、睡眠時(shí)暴露的程度(Exp)和面臨的總危險(xiǎn)程度(Danger)。2.7應(yīng)用案例2.7應(yīng)用案例圖2-22基于R的缺失數(shù)據(jù)處理
install.packages("VIM")d
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度書畫藝術(shù)品市場代理銷售合同
- 2025年度建筑安全風(fēng)險(xiǎn)評(píng)估與監(jiān)測委托合同
- 2025年度國際知識(shí)產(chǎn)權(quán)轉(zhuǎn)讓合同樣本
- 2024-2025學(xué)年福建省福州第十中學(xué)高一上學(xué)期期中考試歷史試卷
- 2025年公共租賃場地安全協(xié)議
- 2025年合作協(xié)議訂立與實(shí)施年
- 2025年醫(yī)院護(hù)師職責(zé)合同
- 2025年農(nóng)場土地租賃合同年協(xié)議書
- 2025年TBBS項(xiàng)目申請報(bào)告模稿
- 2025年焦化二甲苯項(xiàng)目規(guī)劃申請報(bào)告模范
- 酒店長包房租賃協(xié)議書范本
- 2 找春天 公開課一等獎(jiǎng)創(chuàng)新教學(xué)設(shè)計(jì)
- 2025年江蘇護(hù)理職業(yè)學(xué)院高職單招語文2018-2024歷年參考題庫頻考點(diǎn)含答案解析
- 2025年江蘇南京水務(wù)集團(tuán)有限公司招聘筆試參考題庫含答案解析
- 【道法】開學(xué)第一課 課件-2024-2025學(xué)年統(tǒng)編版道德與法治七年級(jí)下冊
- 口腔門診分診流程
- 建筑工程施工安全管理課件
- 2025年春新外研版(三起)英語三年級(jí)下冊課件 Unit2第1課時(shí)Startup
- 2025年上半年畢節(jié)市威寧自治縣事業(yè)單位招考考試(443名)易考易錯(cuò)模擬試題(共500題)試卷后附參考答案
- 處方點(diǎn)評(píng)知識(shí)培訓(xùn)
- 2025年新合同管理工作計(jì)劃
評(píng)論
0/150
提交評(píng)論