2023-2024學(xué)年《大數(shù)據(jù)預(yù)處理》模擬試卷及答案解析_第1頁
2023-2024學(xué)年《大數(shù)據(jù)預(yù)處理》模擬試卷及答案解析_第2頁
2023-2024學(xué)年《大數(shù)據(jù)預(yù)處理》模擬試卷及答案解析_第3頁
2023-2024學(xué)年《大數(shù)據(jù)預(yù)處理》模擬試卷及答案解析_第4頁
2023-2024學(xué)年《大數(shù)據(jù)預(yù)處理》模擬試卷及答案解析_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

國家開放大學(xué)

2023-2024學(xué)年《大數(shù)據(jù)預(yù)處理》模擬試卷及答案解析

(一)單選題

1.下列關(guān)于缺失值的形式的說法中,正確的是()。

A.Python中默認(rèn)的缺失值形式為NA

B.Pandas中默認(rèn)的缺失值形式為NaN

C.Python中默認(rèn)的缺失值形式為Null

D.Pandas中默認(rèn)的缺失值形式為空字符串(〃〃)

2.下列表述中,正確的是()o

A.對字符串型變量的缺失值,需要使用眾數(shù)進(jìn)行填補(bǔ)。

B.對于缺失值,最簡單的處理方法是使用均值進(jìn)行填補(bǔ)。

C.完全變量指的包含缺失值的變量。

D.在調(diào)查過程中,因被調(diào)查者拒絕回答敏感問題而造成的數(shù)據(jù)缺失,屬于人

為原因。

3.關(guān)于日期時間型數(shù)據(jù),下列說法正確的是()。

A.在計算機(jī)系統(tǒng)中,日期時間型數(shù)據(jù)是以文本形式存儲的。

B.在計算機(jī)系統(tǒng)中,日期時間型數(shù)據(jù)是以數(shù)值形式存儲的。

C.在計算機(jī)系統(tǒng)中,日期時間型數(shù)據(jù)是以因子形式存儲的。

D.在計算機(jī)系統(tǒng)中,日期時間型數(shù)據(jù)是以缺失值形式存儲的。

4.下圖是某分類變量各類別計數(shù)分布的箱線圖,從圖中可知()o

A.少部分分類計數(shù)很低。

B.該變量類別很少,可以清晰的用箱線圖展示各類別的頻數(shù)。

C.這個變量存在大量低頻分類。

D.絕大多數(shù)分類計數(shù)很高。

5.下列關(guān)于數(shù)據(jù)預(yù)處理的表述中,不正確的是()o

A.具備專業(yè)經(jīng)驗(yàn)的數(shù)據(jù)科學(xué)家可以在數(shù)據(jù)分析前忽略數(shù)據(jù)預(yù)處理。

B.數(shù)據(jù)預(yù)處理是在數(shù)據(jù)采集后,分析前這段時間里對數(shù)據(jù)進(jìn)行的處理操作。

C.數(shù)據(jù)預(yù)處理的效果與數(shù)據(jù)分析順利與否直接相關(guān)。

D.數(shù)據(jù)預(yù)處理往往占據(jù)數(shù)據(jù)分析項目總工作量的60%以上。

6.下列數(shù)據(jù)特征縮放的公式中,正確的是()。

A.數(shù)據(jù)中心化公式為:Xscaled=F。

B.數(shù)據(jù)標(biāo)準(zhǔn)化公式為:Xscaled=X—鼠

C.Max-ABS縮放公式為:X=

scaled\A\rnax

xMeian

D.Robust縮放公式為:Xscaled=~^o

7.下列關(guān)于相關(guān)系數(shù)的表述中,正確的是()o

A.Pearson相關(guān)系數(shù)的值在[0,1]之間分布。

B.Spearman相關(guān)系數(shù)的值在[T,1]之間分布。

C.變量X和丫的Spearman相關(guān)系數(shù)的定義為:「二意篝』。

D.相關(guān)系數(shù)越大,則說明兩個變量的相關(guān)性越強(qiáng)。

8.下列關(guān)于異常值的表述中,不正確的是()o

A.異常值也可以稱為離群值。

B.異常值的數(shù)值可能是真實(shí)可靠的。

C.異常值在數(shù)據(jù)中占得比例很小。

D.異常值完全是由于錯誤形成的數(shù)據(jù)。

9.下列關(guān)于啞變量的名稱中,不正確的是()o

A.二分類變量

B.虛擬變量

C.0-1型變量

D.數(shù)值型變量

10.下列關(guān)于異常值識別方法的表述中,不正確的是()。

A.異常值的識別方式是考察變量中每一個樣本值與其他樣本值的相對距離。

B.通過箱線圖可以識別異常值。

C.可以利用變量的樣本均值和樣本標(biāo)準(zhǔn)差來識別異常值。

D.異常值識別標(biāo)準(zhǔn)中使用了標(biāo)準(zhǔn)差的倍數(shù)作為距離大小的度量標(biāo)準(zhǔn)。

11.下列表述中,正確的是()o

A.含有缺失值的變量必須被剔除。

B.數(shù)據(jù)缺失的原因是該數(shù)據(jù)不存在。

C.數(shù)據(jù)缺失對于數(shù)據(jù)建模分析不存在影響。

D.隨機(jī)缺失類型是指數(shù)據(jù)的缺失僅僅依賴于其它變量。

12.下列關(guān)于數(shù)據(jù)錯誤的表述中,不正確的是()。

A.數(shù)據(jù)集中所有錯誤的數(shù)據(jù)都可以被發(fā)現(xiàn)并予以糾正。

B.數(shù)據(jù)自身的邏輯規(guī)律可以幫助我們發(fā)現(xiàn)一些數(shù)據(jù)錯誤。

C.類別名稱不統(tǒng)一會造成數(shù)據(jù)錯誤。

D.文字表述不規(guī)范會造成數(shù)據(jù)錯誤。

13.在大多數(shù)箱線圖繪圖工具中,定義上限值位置和下限值位置分別為

()o

A.QI+1.5xIQR,Q3-1.5xIQR

B.QI-1.5xIQR,Q3+1.5xIQR

C.Q3-1.5xIQR,QI+1.5xIQR

D.Q3+1.5xIQR,QI-1.5xIQR

14.下列關(guān)于數(shù)據(jù)缺失的表述中,正確的是()。

A.缺失值處理的主要手段就是使用最接近的值進(jìn)行填補(bǔ)。

B.只要數(shù)據(jù)錄入人員避免漏錄,數(shù)據(jù)就不會缺失。

C.在預(yù)處理階段,遇到數(shù)據(jù)缺失情況可以忽略,不做處理。

D.某個變量的值為0,說明產(chǎn)生了數(shù)據(jù)缺失。

15.下列關(guān)于數(shù)據(jù)預(yù)處理環(huán)節(jié)簡化數(shù)據(jù)的表述中,不正確的是()o

A.過多的數(shù)據(jù)會導(dǎo)致模型訓(xùn)練效率低下。

B.初學(xué)者進(jìn)行數(shù)據(jù)分析時需要簡化數(shù)據(jù),專業(yè)數(shù)據(jù)分析師不需要簡化數(shù)據(jù)。

C.簡化數(shù)據(jù)時,需要保證數(shù)據(jù)集的信息不過多損失。

D.在樣本量增加到一定程度后,信息含量趨近于不變。

16.下列關(guān)于數(shù)據(jù)中心化的表述中,不正確的是()。

A.中心化后,平均值變?yōu)?。

B.中心化后,標(biāo)準(zhǔn)差發(fā)生改變。

C.中心化后,極差沒有發(fā)生改變。

D.中心化后,分布形狀沒有發(fā)生改變。

17.下列關(guān)于數(shù)據(jù)歸約的意義中,不正確的是()。

A.可以降低無效、錯誤數(shù)據(jù)對數(shù)據(jù)建模的影響,提高建模準(zhǔn)確性。

B.大幅縮減模型的訓(xùn)練時間,在需要反復(fù)訓(xùn)練模型的場景下能夠極大地提高

建模效率。

C.可以降低數(shù)據(jù)存儲的空間成本。

D.有利于不同量綱數(shù)據(jù)之間的比較,也避免了自變量的不同量綱對建模的影

響。

18.下列關(guān)于異常值處理的表述中,不正確的是()。

A.異常值可能是準(zhǔn)確的數(shù)據(jù)

B.對于數(shù)據(jù)錯誤的異常值,可以刪除

C.刪除異常值將改變數(shù)據(jù)集的樣本量

D.截斷方法改變了樣本容量

19.下列表述中,正確的是()。

A.將連續(xù)型變量離散化為定性變量,其數(shù)據(jù)信息含量會增加。

B.等頻法屬于有監(jiān)督離散化方法。

C.數(shù)據(jù)離散化是指把無限空間中有限的個體映射到有限的空間中,以此提

高算法的時空效率。

D.數(shù)據(jù)離散化是指將連續(xù)型變量的部分取值映射到根據(jù)客觀或主觀依據(jù)事

先確定好的一系列分組或分類中,從而得到另一個連續(xù)型變量的數(shù)據(jù)預(yù)處理

方法。

20.關(guān)于啞變量與one-hot碼,下列說法正確的是()。

A.任何一個上個類別的定性變量都可以轉(zhuǎn)換為k_1個啞變量。

B.任何一個上個類別的定性變量都可以轉(zhuǎn)換為k_1個比特的one-hot碼。

C.啞變量與one-hot碼是完全相同的概念。

D.啞變量既有兩個類別形式的,又有多個類別形式的。

21.下列關(guān)于數(shù)據(jù)缺失類型的表述中,錯誤的是()。

A.在某次調(diào)查中,在整理問卷時不小心打翻墨水瓶,導(dǎo)致部分問卷的部分問

題污損,這種缺失記為非隨機(jī)、不可忽略缺失。

B.數(shù)據(jù)缺失的三種類型是完全隨機(jī)缺失、隨機(jī)缺失和非隨機(jī)、不可忽略缺失。

C.在某次調(diào)查中,某些消費(fèi)者的“收入”變量發(fā)生了缺失,經(jīng)過分析發(fā)現(xiàn),

沒有缺失的收入數(shù)據(jù)大多屬于中等收入水平,因而這種缺失屬于非隨機(jī)缺失。

D.隨機(jī)缺失是指數(shù)據(jù)的缺失僅僅依賴于其它變量,即受本變量以外因素的影

響。

22.在大多數(shù)箱線圖繪圖工具中,定義上限值位置和下限值位置分別為

()-

A.QI+1.5xIQR,Q3-1.5xIQR

B.QI-1.5xIQR,Q3+1.5xIQR

C.Q3-1.5xIQR,QI+1.5xIQR

D.Q3+1.5xIQR,QI-1.5xIQR

23.下列關(guān)于低頻分類數(shù)據(jù)的表述中,正確的是()。

A.低頻分類數(shù)據(jù)都是由于數(shù)據(jù)采集是的錯誤導(dǎo)致的。

B.低頻分類數(shù)據(jù)都是真實(shí)可靠的,只是其類別的樣本頻數(shù)比較低。

C.使用低頻分類數(shù)據(jù)建立模型會使模型更簡化,更精確。

D.低頻分類指在分類型數(shù)據(jù)中出現(xiàn)一些類別頻數(shù)非常低的情況。

24.下列對定性變量的描述中,不正確的是()o

A.“成績”可以作為定性變量。

B.連續(xù)型數(shù)據(jù)很難轉(zhuǎn)變?yōu)槎ㄐ詳?shù)據(jù)。

C.多分類定性變量可以轉(zhuǎn)變?yōu)閱∽兞俊?/p>

D.順序型變量可以轉(zhuǎn)變成得分變量。

25.下列關(guān)于Robust縮放方法的表述中,不正確的是()□

A.Robust縮放方法的理念是“首先中心化,然后除以尺度”。

B.Robust縮放方法用到的指標(biāo)不易受極端值影響。

C.Robust縮放方法用中位數(shù)代替了標(biāo)準(zhǔn)化方法里的均值指標(biāo)。

D.Robust縮放方法用方差代替了標(biāo)準(zhǔn)化方法里的標(biāo)準(zhǔn)差指標(biāo)。

26.下列關(guān)于變量的數(shù)據(jù)特征的表述中,正確的是()。

A.原始數(shù)據(jù)的特征往往與分析方法的要求不一致。

B.變量的數(shù)據(jù)特征與測量尺度和采集方式無關(guān)。

C.兩個數(shù)值型變量之間可以直接比較大小。

D.對數(shù)據(jù)進(jìn)行縮放后,數(shù)據(jù)的分布形狀會發(fā)生明顯變化。

27.下列關(guān)于用方差分析進(jìn)行變量選擇的表述中,不正確的是()。

A.方差分析是用于檢驗(yàn)兩組或多組數(shù)據(jù)之間樣本均值的差異是否顯著的方

法。

B.方差分析的檢驗(yàn)形式是F檢驗(yàn)。

C.P值以0.01作為篩選標(biāo)準(zhǔn)時,P值大于0.01的變量需要保留下來。

D.某些場合下通過方差分析選擇變量,可以改善模型的建模效率和預(yù)測精

度。

28.下列關(guān)于分箱法的表述中,不正確的是(

A.使用客觀法進(jìn)行數(shù)據(jù)離散化是計算機(jī)科學(xué)領(lǐng)域通常的做法,通常用名詞

“分箱”稱呼這種方法。

B.分箱法主要有等寬法(等寬分箱)和等頻法(等頻分箱)兩種形式。

C.等寬分箱法一般被稱作“分類”

D.在統(tǒng)計分析領(lǐng)域,客觀法和主觀法中都會用到分箱法。

29.下列關(guān)于異常值處理方法的表述中,正確的是()。

A.把異常值替換為某一可以接受的值,這一處理方法是標(biāo)記法。

B.用一個變量將異常值標(biāo)記出來的方法是截斷法。

C.采用截斷方法不會造成信息損失。

D.只有在研究目的是獲取數(shù)據(jù)的一般規(guī)律特征時才有必要采取截斷方法清

楚異常值對于規(guī)律挖缺的干擾。

30.下列關(guān)于啞變量的說法中,不正確的是()o

A.任何一個k個類別的定性變量都可以轉(zhuǎn)換為k-1個啞變量。

B.啞變量只有兩個類別,用0和1表示。

C.啞變量的0T形態(tài)與邏輯型數(shù)據(jù)的False和True相同,0表示True,1表

z5Falseo

D.啞變量屬于定性變量。

31.下列表述中,正確的是()。

A.含有缺失值的變量必須被剔除。

B.數(shù)據(jù)缺失的原因一定是該數(shù)據(jù)不存在。

C.數(shù)據(jù)缺失對于數(shù)據(jù)建模分析不存在影響。

D.隨機(jī)缺失類型是指數(shù)據(jù)的缺失僅僅依賴于其它變量。

32.下列關(guān)于數(shù)據(jù)錯誤的表述中,不正確的是()。

A.數(shù)據(jù)集中所有錯誤的數(shù)據(jù)都可以被發(fā)現(xiàn)并予以糾正。

B.數(shù)據(jù)自身的邏輯規(guī)律可以幫助我們發(fā)現(xiàn)一些數(shù)據(jù)錯誤。

C.類別名稱不統(tǒng)一會造成數(shù)據(jù)錯誤。

D.文字表述不規(guī)范會造成數(shù)據(jù)錯誤。

33.下列表述中,錯誤的是()。

A.低頻分類數(shù)據(jù)都是真實(shí)的分類結(jié)果確實(shí)存在低頻類別導(dǎo)致的。

B.可以通過繪制分類變量的各類別頻數(shù)分布的箱線圖來發(fā)現(xiàn)數(shù)據(jù)是否為低

頻分類數(shù)據(jù)。

C.過多的低頻類別會嚴(yán)重影響建模的效率,在數(shù)據(jù)預(yù)處理階段需要盡量進(jìn)行

處理。

D.低頻分類數(shù)據(jù)通常呈現(xiàn)出類別眾多,而且很多類別僅有幾個甚至一個樣本

的情況。

34.下列關(guān)于數(shù)據(jù)預(yù)處理的目的中,不正確的是()。

A.完善數(shù)據(jù),使其滿足分析建模的質(zhì)量和數(shù)據(jù)形式要求。

B.使數(shù)據(jù)集得以簡化,提高建模分析的效率。

C.作為數(shù)據(jù)分析項目的第一步,為數(shù)據(jù)采集提供指導(dǎo)。

D.提高數(shù)據(jù)信息含量,進(jìn)而提高數(shù)據(jù)分析模型的準(zhǔn)確性。

35.下列關(guān)于數(shù)據(jù)標(biāo)準(zhǔn)化的表述中,不正確的是()o

A.標(biāo)準(zhǔn)化后,正負(fù)號代表了原始值是大于(+)還是小于(-)均值。

B.標(biāo)準(zhǔn)化后,可以避免數(shù)據(jù)尺度差異對后續(xù)建模造成負(fù)面影響。

C.標(biāo)準(zhǔn)化后,數(shù)據(jù)的標(biāo)準(zhǔn)差并沒有變化,只有均值發(fā)生變化。

D.標(biāo)準(zhǔn)化后,通過新值可以發(fā)現(xiàn)原始數(shù)據(jù)中的異常值。

36.下列關(guān)于Max-ABS縮放的表述中,不正確的是()。

A.Max-ABS縮放將原值大于0的數(shù)據(jù)縮放到區(qū)間(0,1]。

B.不包含負(fù)數(shù)的變量經(jīng)過Max-ABS縮放后的結(jié)果可能會出現(xiàn)負(fù)數(shù)。

C.原值等于0的數(shù)據(jù)縮放后還為0。

D.Max-ABS縮放的尺度就是變量絕對值的最大值。

37.下列關(guān)于決策樹模型的表述中,不正確的是()。

A.越晚進(jìn)入決策樹的變量,其對于目標(biāo)變量而言越重要。

B.該算法形象的以樹狀結(jié)構(gòu)建立模型,再現(xiàn)了人類決策的過程。

C.具有建立過程直觀易理解、便于可視化、應(yīng)用范圍廣等一系列優(yōu)點(diǎn)。

D.存在不能保證得到全局最優(yōu)決策樹、容易形成復(fù)雜結(jié)構(gòu)從而過擬合等缺

點(diǎn)。

38.下列關(guān)于數(shù)據(jù)離散化的方法中,不正確的是()。

A.數(shù)據(jù)離散化可以分為客觀法和主觀法兩種。

B.客觀法基于研究目的確定類別。

C.通常用名詞“分箱”稱呼客觀法。

D.分箱法主要有等寬法(等寬分箱)和等頻法(等頻分箱)兩種形式。

39.下列不屬于異常值處理正確方法的是()。

A.直接刪除

B.標(biāo)記

C.截斷

D.替換為任意值

40.確定異常值時,是比較與()的距離

A.平均值

B.中值

C.最大值

D.最小值

(二)判斷題

1.若數(shù)據(jù)集中某樣本包含缺失值,則該樣本需要被刪除。()

2.所有的數(shù)據(jù)錯誤都可以被發(fā)現(xiàn)并糾正。()

3.低頻分類數(shù)據(jù)的處理方式通常是將頻數(shù)過低的類別刪除。()

4.數(shù)據(jù)缺失使得數(shù)據(jù)集信息含量降低,還會使一些模型無法應(yīng)用。

()

5.在數(shù)據(jù)預(yù)處理時,數(shù)據(jù)集中變量的數(shù)量不能發(fā)生變化。()

6.Min-Max縮放可以將數(shù)據(jù)縮放至任意給定的范圍內(nèi)。()

7.模型預(yù)測準(zhǔn)確度總是隨著樣本數(shù)量的增加而同步增加。()

8.如果輸入數(shù)據(jù)是連續(xù)型數(shù)據(jù),使用決策樹模型時,就必須將連續(xù)型變量

離散化為定性變量使用。()

9.數(shù)據(jù)離散化指的是將連續(xù)型變量在保留其基本數(shù)據(jù)含義的基礎(chǔ)上轉(zhuǎn)換為

定性變量的操作。()

10.所有的異常值都必須刪除。()

H.在數(shù)據(jù)存儲過程中,由于設(shè)備故障造成存儲失敗而導(dǎo)致的數(shù)據(jù)缺失,屬

于客觀條件原因。()

12.日期時間型數(shù)據(jù)不能進(jìn)行任何計算。()

13.過多的低頻類別會嚴(yán)重影響建模的效率。()

14.數(shù)據(jù)分析項目中,數(shù)據(jù)預(yù)處理環(huán)節(jié)不重要,可以忽略不做。()

15.經(jīng)過標(biāo)準(zhǔn)化處理后,新值體現(xiàn)的是原值在序列中的相對位置。()

16.Pearson相關(guān)系數(shù)的值均在[0,1]之間分布。()

17.變量選擇的目的是刪除數(shù)據(jù)集的行,樣本歸約的目的是刪除數(shù)據(jù)集的列。

()

18.出現(xiàn)在訓(xùn)練集中的異常值,會干擾模型的訓(xùn)練。()

19.通過考察變量中每一個樣本值與變量分布中心的相對距離來識別異常值。

()

20.“分箱”是客觀法數(shù)據(jù)離散化的方法。()

21.完全隨機(jī)缺失類型是指數(shù)據(jù)的缺失不受任何內(nèi)部和外部因素的影響。

()

22.Python中,使用datetime對象的datetime,now()方法獲得當(dāng)前系統(tǒng)時

間。()

23.低頻分類數(shù)據(jù)的形成都是由于真實(shí)的分類結(jié)果確實(shí)存在低頻類別。

()

24.數(shù)據(jù)預(yù)處理是指在對數(shù)據(jù)進(jìn)行分析前需要對數(shù)據(jù)進(jìn)行的處理工作。

()

25.數(shù)據(jù)中心化是數(shù)據(jù)標(biāo)準(zhǔn)化的第一個步驟。()

26.Max-ABS縮放只可以將變量縮放至區(qū)間[0,1]。()

27.在進(jìn)行變量選擇時需要遵循的原則是,剔除的變量必須對數(shù)據(jù)分析影響

較小。()

28.異常值的數(shù)值可能是真實(shí)的值。()

29.一旦發(fā)現(xiàn)異常值,就應(yīng)當(dāng)將其刪除。()

30.數(shù)據(jù)離散化是指將定性變量轉(zhuǎn)換為連續(xù)性變量。()

31.包含缺失值的數(shù)據(jù)集表現(xiàn)出來的不確定性與不包含缺失值的數(shù)據(jù)集相

比顯著增大。()

32.邏輯糾錯中比較簡單的方式是將不合理的值替換為缺失值,這樣既保持

了變量的性質(zhì)不變,又避免了錯誤數(shù)據(jù)的危害。()

33.低頻分類數(shù)據(jù)都是由于數(shù)據(jù)采集是的錯誤導(dǎo)致的。()

34.具有不同的數(shù)據(jù)特征的變量可以直接納入到同一個分析體系中。

()

35.經(jīng)過Max-ABS縮放后,數(shù)據(jù)的正負(fù)可能會發(fā)生改變。()

36.數(shù)量歸約是指從所有樣本中選擇一個有代表性的子集,因此也稱為樣本

歸約。()

37.Spearman相關(guān)系數(shù)為T時,兩個變量不相關(guān)。()

38.將數(shù)據(jù)離散化后,可以克服連續(xù)型變量中隱藏的缺陷,使模型結(jié)果更加

穩(wěn)定,得到更加有意義的研究結(jié)論。()

39.使用客觀法得到的是分類形式或順序形式定性變量,依據(jù)的是研究者基

于研究目的所確定的類別。()

40.利用箱線圖可以識別出異常值。()

(三)簡答題

1.請簡述數(shù)據(jù)特征縮放對數(shù)據(jù)分析的意義。

2.請簡述異常值的含義。

3.簡述缺失值填補(bǔ)的思路。

4.請簡述使用相關(guān)系數(shù)選擇變量的思想和步驟。

5.請簡述將變量縮放至區(qū)間[-1,1]時,Max-ABS縮放與Min-Max縮放

的效果是否相同。

6.簡述數(shù)據(jù)離散化的操作含義。

7.簡述低頻分類數(shù)據(jù)的特點(diǎn)、形成原因及影響。

8.簡述等寬法的適用情況。

(四)程序填空題(請在上填寫合適的代碼)

1.計算car_data數(shù)據(jù)集中的make變量每一個類別的頻數(shù),存儲在

maka_count中:

make_count=car_data["make"].

2.對boston數(shù)據(jù)集中的變量LSTAT進(jìn)行處理,隨機(jī)生成了10個缺失值:

sample=random.sample((boston.shape[0])z10)

boston.[sample,"LSTAT"]=np.nan

3.對序列B進(jìn)行中心化,結(jié)果保存在centralize_b中:

c一ntraliz一_b=(B,with_std=Fals一)

4.對數(shù)據(jù)集data中的所有變量進(jìn)行Min-Max縮放,結(jié)果保存在data_scale

中:

mm_scaler=()

data_scal一=mm_scaler.(data)

5.通過畫箱線圖對數(shù)據(jù)data識別異常值:

data.plot.()

6.對數(shù)據(jù)data計算平均值,結(jié)果保存在result中:

result=data.()

7.對data數(shù)據(jù)采用等頻分箱,分組數(shù)為5組,結(jié)果保存在result中:

工一sult=pd,(data,bins=5)

8.將data離散化為0-1型變量,結(jié)果保存在result中:

result=data.eq(0).

9.car_data數(shù)據(jù)集中的make變量每一個類別的頻數(shù)存儲在

make_count中,現(xiàn)在將car_data數(shù)據(jù)集中的mak一變量頻數(shù)低于100的類

別合并為一類:

car_data[nmakeln]=car_data[一”].map(

lambdax:"cat一gory_und一工100”

ifelse,na_action=nignore")

10.將data_l數(shù)據(jù)集age變量中的-1和999替換為缺失值:

data_l["ag一”],([-1,999],np.nanfinplac一=Tru一)

11.對數(shù)據(jù)集data中的所有變量進(jìn)行Max-ABS縮放,結(jié)果保存在data_scale

中:

ma_scaler=()

data_scal一=ma_scal一r.(data)

12.計算變量y與x的Pearson相關(guān)系數(shù):

P一arson_xy=(y,x)

13.使用客觀法離散化data,設(shè)定了參數(shù)為bins=[0,10000,100000,

200000,np.inf],標(biāo)簽為[〃new〃,"used",〃old〃,〃worn〃],結(jié)果保存在result

中:

result=pd.cut(data,bins=[0,10000,100000,200000,np.in

f],,include_low一st=Tru一)

14.對數(shù)據(jù)data計算標(biāo)準(zhǔn)分?jǐn)?shù),data_mean是data的平均值,data_

std是data的標(biāo)準(zhǔn)差,結(jié)果保存在result中:

r一sult=(data-)/

15.對3倍標(biāo)準(zhǔn)差異常值分類計數(shù),結(jié)果保存在result中:

result=data.()

16.查看數(shù)據(jù)集car_data中所有變量缺失值情況,將結(jié)果保存在對象

missing_car中:

missing_car=car_data..sum()

17.使用boston數(shù)據(jù)實(shí)現(xiàn)線性回歸模型填補(bǔ)。首先初始化一個線性回

歸模型,模型的訓(xùn)練集為train,將含有缺失值的變量LSTAT作為目標(biāo)變量,

其余變量作為自變量擬合模型:

train=boston.dropna(subset=[HLSTATn])

reg=Lin一arR一gr一ssion()

reg.fit(X=train.("LSTAT"z),

y=train[nLSTATn])

18.將數(shù)據(jù)集data中的所有變量縮放到區(qū)間[0,5],結(jié)果保存在datascale

中:

n一w_scal一r=(=(0,5))

data_scaler=n一w_scaler.fit_transform(data)

19.使用test_x數(shù)據(jù)集計算只包含部分變量var_new的新模型model_new的

AUC值:

auc=(y_true=test_y,

y_sco工一=mod一l_n一w.(t一st_x[var_new])[:,1])

20.對data數(shù)據(jù)采用等寬分箱,分組數(shù)為5組,結(jié)果保存在result中:

r一sult=pd?(data,bins=5)

21.對數(shù)據(jù)data計算標(biāo)準(zhǔn)差,結(jié)果保存在result中:

工一sult=data.()

22.使用截斷方法,將大于data_mean+5*data_std賦值為

data_mean+5*data_std:

data[data.(data_mean+5*data_std)]=

datam一an+5*datastd

23.將數(shù)據(jù)集data中的變量vl的缺失值使用其均值進(jìn)行填補(bǔ),將填補(bǔ)

完的變量保存在中:

vl_fill=data["vl"].(data["vln].)

24.截取addr的前三個字,并查看唯一值:

addr.(0r3).unique()

25.對數(shù)據(jù)集data中的所有變量進(jìn)行Robust縮放,結(jié)果保存在

data_scale中:

rob_scal一r=()

data_scal一=rob_scaler.(data)

26.計算變量y與x的Spearman相關(guān)系數(shù):

Sp一arman_xy=(y,x)

27.找出data中3000到10000的值,結(jié)果保存在result中:

r一sult=data.Sdata.

28.計算離散化變量的各類頻數(shù),結(jié)果保存在result中:

data._____

29.對group_a組和group_b組樣本進(jìn)行方差分析的F檢驗(yàn):

anova=(group_a,group_b)

(五)程序理解題(根據(jù)所給的代碼,寫出代碼所能完成的功能,每題10

分,共20分)

1.請寫出下方代碼的功能

scaler=StandardScaler()

new_data=scaler.fit_transform(mydata)

print(pd.DataFrame({"Scale”:scaler.scale_,"Mean":scale

r.m一an}rindex=mydata.columns))

2.請寫出下方代碼的功能

train,test=train_test_split(data,test_size=O.3)

3.請寫出下方代碼的功能

car_data=pd.read_csv(rnd:cardata.csv",header=O)

vl_fill=car_data["vln.fillna(car_data[nvlH].m一dian

0)

4.請寫出下方代碼的功能

data_l=copy,d一一pcopy(data)

5.請寫出下方代碼的功能

dt_一xample=pd?S一ri一s("”)

dt_example[0]="2020/01/20"

dt_example[1]="2020/02/20"

dt_example=pd.to_datetime(dt_examplezformat=

n%Y/%m/%dn)

6.請寫出下方代碼的功能

pearson=pd,S一ri一s(nam;="p一arsoncorrelation")

foriintrainx:

p一arson[i]=p一arsonr(train_y,train_x[i])[0]

var_cor=p一arson?abs()>0.5

7.請寫出下方代碼的功能

model_all=

Gradi一ntBoostingClassifier(random_state=0)

mod一l_all.fit(X=train_xzy=train_y)

f一ature_imp=

pd.Series(mod一l_all.f一atu工一_importanc一s_,

index=train_x.columns)

var_tree=

f一atur一_imp.sort_values(ascending=Fals一).head(8).index

print(f一atur一_imp.sorjvalu一s(asc一nding=Fals一))

print(”\n結(jié)果為:\n%s"%var_t工一一.values)

8.請寫出下方代碼的功能

bin_l=pd.cut(pric一,bins=5)

dl={''pric一〃:car_data[''price"],,zbin,z:bin_l}

pl=pd.DataFram一(data=dl)

print(''等寬分箱結(jié)果:\n%s〃%pl[0:20])

print(''等寬分箱頻數(shù)分布:\n%s,,%bin_l.value_counts())

參考答案

(一)單選題(每題2分)

1.B2.A3.B4.C5.A

6.C7.B8.D9.D10.A

11.D12.A13.D14.A15.B

16.B17.D18.D19.C20.A

21.A22.D23.D24.B25.D

26.A27.C28.C29.D30.C

31.D32.A33.A34.C35.C

36.B37.A38.B39.D40.A

(二)判斷題(每題2分)

1.x2.x3.x4.V5.x

6.V7.x8.V9.V10.x

11.x12.x13.V14.x15.V

16.x17.x18.x19.V20.V

21.V22.V23.x24.V25.V

26.x27.V28.V29.x30.x

31.V32.V33.x34.x35.x

36.V37.x38.V39.x40.V

(三)簡答題(每題10分)

1.意義共有三點(diǎn):一是,多數(shù)數(shù)據(jù)特征縮放的方法可以消除數(shù)據(jù)的量綱,

而保留其數(shù)據(jù)分布特征,這樣更有利于不同量綱數(shù)據(jù)之間的比較,也避免了自變

量的不同量綱對建模的影響;二是,數(shù)據(jù)特征縮放可以提高梯度下降求解(迭代

運(yùn)算)的收斂速度,提高建模效率;三是,數(shù)據(jù)特征縮放可以提高一些模型的預(yù)

測精度。

2.異常值也可以稱為離群值,指在一個數(shù)據(jù)序列中與大多數(shù)值相比特別大

或特別小的值。

3.第一個思路是利用包含缺失值的變量自身的信息進(jìn)行填補(bǔ),主要形式為

使用該變量的非缺失部分構(gòu)造簡單統(tǒng)計量,并用該統(tǒng)計量填補(bǔ)缺失部分。第二個

思路是同時利用包含缺失值的變量自身的信息和其他變量的信息,建立機(jī)器學(xué)習(xí)

模型,基于該模型對缺失值變量的預(yù)測結(jié)果進(jìn)行填補(bǔ)。

4.無論是Pearson相關(guān)系數(shù)還是Spearman相關(guān)系數(shù),其值均在[-1,1]之間

分布。當(dāng)值為0時,兩個變量不相關(guān);當(dāng)其值為1或時,表示兩個變量完全

正相關(guān)或完全負(fù)相關(guān)。相關(guān)系數(shù)的絕對值越大,則說明兩個變量的相關(guān)性越強(qiáng)。

運(yùn)用相關(guān)系數(shù)進(jìn)行變量選擇的步驟是,分別計算每個變量與目標(biāo)變量的相關(guān)系數(shù),

保留與目標(biāo)變量相關(guān)系數(shù)大的變量。

5.縮放效果不同,因?yàn)槎卟扇】s放方式不同。Min-Max縮放將原數(shù)據(jù)的所

有值整體縮放至[T,l]oMax-ABS縮放是將原值大于0的數(shù)據(jù)縮放到(0,1],將

原值小于0的數(shù)據(jù)縮放到0),原值等于0的數(shù)據(jù)縮放后還為0o

6.數(shù)據(jù)離散化是指將連續(xù)型變量的每個取值映射到根據(jù)客觀或主觀標(biāo)準(zhǔn)事

先確定好的一系列分組或分類中,從而得到定性變量的數(shù)據(jù)預(yù)處理方法。

7.低頻分類數(shù)據(jù)通常呈現(xiàn)出類別眾多,并且很多類別僅有幾個甚至一個樣

本的情況。低頻分類數(shù)據(jù)形成原因大致可以分為兩種:第一,真實(shí)的分類結(jié)果中

確實(shí)存在低頻分類。第二,采集數(shù)據(jù)時格式不規(guī)范或錯誤,從而形成一些頻數(shù)極

?。ㄈ鐑H有一個樣本)的類別。過多的低頻分類會嚴(yán)重影響建模的效率。

8.等寬法適用于對數(shù)據(jù)分布較為均勻的連續(xù)型變量進(jìn)行離散化,根據(jù)連續(xù)

型變量的取值范圍,建立若干個寬度相等且首尾相連的區(qū)間,將連續(xù)型變量的每

個值映射到相應(yīng)的區(qū)間,并以區(qū)間名稱作為新的離散型變量的值。

(四)程序填空題(每空2

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論