數(shù)據(jù)挖掘與python實(shí)踐-中央財(cái)經(jīng)大學(xué)中國(guó)大學(xué)mooc課后章節(jié)答案期末考試題庫(kù)2023年

上傳人：題*** IP屬地：浙江上傳時(shí)間：2023-07-22 格式：DOCX 頁(yè)數(shù)：42 大?。?2.56KB 積分：9.6 舉報(bào) 版權(quán)申訴

數(shù)據(jù)挖掘與python實(shí)踐-中央財(cái)經(jīng)大學(xué)中國(guó)大學(xué)mooc課后章節(jié)答案期末考試題庫(kù)2023年_第2頁(yè)

數(shù)據(jù)挖掘與python實(shí)踐-中央財(cái)經(jīng)大學(xué)中國(guó)大學(xué)mooc課后章節(jié)答案期末考試題庫(kù)2023年_第3頁(yè)

數(shù)據(jù)挖掘與python實(shí)踐-中央財(cái)經(jīng)大學(xué)中國(guó)大學(xué)mooc課后章節(jié)答案期末考試題庫(kù)2023年_第4頁(yè)

數(shù)據(jù)挖掘與python實(shí)踐-中央財(cái)經(jīng)大學(xué)中國(guó)大學(xué)mooc課后章節(jié)答案期末考試題庫(kù)2023年_第5頁(yè)

已閱讀5頁(yè)，還剩37頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)挖掘與python實(shí)踐_中央財(cái)經(jīng)大學(xué)中國(guó)大學(xué)mooc課后章節(jié)答案期末考試題庫(kù)2023年（）采用自頂向下分而治之的思想，將訓(xùn)練集不斷分割成子數(shù)據(jù)集來不斷擴(kuò)展樹枝，當(dāng)滿足一定條件時(shí)停止樹的生長(zhǎng)。

參考答案:

決策樹_模型樹_回歸樹

最小最大規(guī)范化方法MinMaxScaler屬于python中的哪個(gè)包（）。

參考答案:

sklearn

使用python處理缺失值的方法中敘述錯(cuò)誤的是（）。

參考答案:

interpolate()使用中位數(shù)填充缺失值

數(shù)據(jù)預(yù)處理的任務(wù)不包括（）。

參考答案:

數(shù)據(jù)分類

在使用主成分分析法進(jìn)行數(shù)據(jù)屬性特征提取中，在對(duì)數(shù)據(jù)集進(jìn)行中心化處理后，為了去除冗余和降低噪音，應(yīng)將協(xié)方差矩陣非對(duì)角線上的元素化為（）。

參考答案:

特征選擇方法中，一般的啟發(fā)式方法有（）。

參考答案:

以上都是

通過代碼“fromsklearnimportmetrics”引入評(píng)價(jià)指標(biāo)模塊后，面對(duì)真實(shí)標(biāo)簽true_label和模型預(yù)測(cè)標(biāo)簽predicted_label，混淆矩陣可通過調(diào)用（）代碼得到。

參考答案:

metrics.confusion_matrix(true_labe,predicted_label)

使用等距離分箱法進(jìn)行數(shù)據(jù)離散化，數(shù)據(jù)范圍為20,40,50,58,65,80,80,82,86,90,96,105,120,200，區(qū)間個(gè)數(shù)為4。下列屬于4個(gè)箱的區(qū)間是（）。

參考答案:

[110,155)

運(yùn)行以下代碼”importmatplotlib.pyplotasplt”引入plt后，要繪制餅狀圖，需要利用的函數(shù)為（）。

參考答案:

plt.pie()

在利用linear_model.LinearRegression()構(gòu)造的reg對(duì)象訓(xùn)練模型后，可以通過以下哪行代碼查看回歸模型系數(shù)（）。

參考答案:

reg.coef_

在以下四個(gè)散點(diǎn)圖中，其中適用于作線性回歸的散點(diǎn)圖為（）?！緢D片】

參考答案:

①③

已知對(duì)一組觀察值(xi，yi)作出散點(diǎn)圖后確定具有線性相關(guān)關(guān)系，若對(duì)于y＝bx＋a，求得b＝0.51，x＝61.75，y＝38.14，則線性回歸方程為（）。

參考答案:

y＝0.51x＋6.65

下面關(guān)于構(gòu)建模型樹的說法中，錯(cuò)誤的是（）。

參考答案:

在選擇分類屬性時(shí)，應(yīng)選擇時(shí)SDR值最小的屬性

下列選項(xiàng)中錯(cuò)誤的是（）。

參考答案:

SSR=SST+SSE

決策樹的葉子結(jié)點(diǎn)對(duì)應(yīng)（）。

參考答案:

某個(gè)類別

假設(shè)某分類器在一個(gè)測(cè)試數(shù)據(jù)集上的分類結(jié)果的混淆矩陣如下所示，該分類器的準(zhǔn)確率accuracy為（）。PredictedyesnoActualyes155no1020

參考答案:

70%

假設(shè)某分類器在一個(gè)測(cè)試數(shù)據(jù)集上的分類結(jié)果的混淆矩陣如下所示，該分類器的錯(cuò)誤率errorrate為（）。PredictedyesnoActualyes155no1020

參考答案:

30%

為了比較利用不同分類算法構(gòu)建的分類模型的性能，可以利用圖形進(jìn)行比較，常用的圖形包括（）。

參考答案:

ROC曲線_增益圖

回歸樹的葉子結(jié)點(diǎn)對(duì)應(yīng)（）。

參考答案:

一個(gè)數(shù)值

在比較模型的擬合效果時(shí)，甲、乙、丙、丁四個(gè)模型的決定系數(shù)R^2的值分別約為0.96、0.85、0.80和0.7，則擬合效果好的模型是（）。

參考答案:

甲

多元回歸建模后的檢驗(yàn)包括（）。

參考答案:

回歸系數(shù)的顯著性檢驗(yàn)_回歸關(guān)系的顯著性檢驗(yàn)_擬合優(yōu)度檢驗(yàn)

常用的非線性函數(shù)除了多項(xiàng)式函數(shù)之外，還包括（）。

參考答案:

冪函數(shù)_對(duì)數(shù)函數(shù)_指數(shù)函數(shù)_雙曲函數(shù)

回歸樹和模型樹都是通過自下而上、分而治之的思想，將訓(xùn)練集不斷分割成子數(shù)據(jù)集來不斷擴(kuò)展樹枝，當(dāng)滿足一定條件時(shí)停止樹的生長(zhǎng)。

參考答案:

錯(cuò)誤

多元回歸是對(duì)一個(gè)自變量和多個(gè)因變量之間的回歸分析。

參考答案:

錯(cuò)誤

模型樹構(gòu)建之后，為了避免過度擬合，需要對(duì)模型樹進(jìn)行剪枝。

參考答案:

正確

K近鄰數(shù)值預(yù)測(cè)是利用一個(gè)樣本的K個(gè)最相似的鄰居的目標(biāo)屬性的取值來進(jìn)行預(yù)測(cè)。

參考答案:

正確

模型樹構(gòu)建之后，為了避免過度擬合，需要對(duì)模型樹進(jìn)行________。

參考答案:

剪枝

運(yùn)行以下代碼“importmatplotlib.pyplotasplt”引入plt后，要繪制散點(diǎn)圖，需要利用的函數(shù)為（）。

參考答案:

plt.scatter()

在Numpy包中，計(jì)算標(biāo)準(zhǔn)差的函數(shù)為（）。

參考答案:

numpy.std()

在Numpy包中，計(jì)算中位數(shù)的函數(shù)為（）。

參考答案:

numpy.median()

通過代碼”fromsklearn.clusterimportKMeans”引入Kmenas模塊，生成模型對(duì)象“kmeans=KMeans(n_clusters=2)”后，對(duì)于數(shù)據(jù)X訓(xùn)練時(shí)要調(diào)用的方法是（）。

參考答案:

kmeans.fit()

以下哪種情況對(duì)Kmeans模型的影響較?。ǎ?。

參考答案:

簇的大小分布不均衡

在利用sklearn.cluster.AgglomerativeClustering進(jìn)行凝聚聚類時(shí)，使用的默認(rèn)距離度量是（）。

參考答案:

歐氏距離

（）可以觀察從一個(gè)分布到另一分布是否有漂移。

參考答案:

分位數(shù)-分位數(shù)圖

結(jié)構(gòu)化的數(shù)據(jù)是指一些數(shù)據(jù)通過統(tǒng)一的（）的形式存儲(chǔ)的，這類數(shù)據(jù)我們稱為結(jié)構(gòu)化的數(shù)據(jù)。

參考答案:

二維表格

在模型樹的構(gòu)建過程中，分裂屬性的選擇以分裂后的各個(gè)子數(shù)據(jù)集中目標(biāo)屬性取值的標(biāo)準(zhǔn)差為依據(jù)，將標(biāo)準(zhǔn)差作為一種誤差度量，將分裂前后標(biāo)準(zhǔn)差的減少量作為誤差的期望減少，稱為_________（填寫英文簡(jiǎn)稱）。

參考答案:

SDR

逐層發(fā)現(xiàn)算法Apriori發(fā)現(xiàn)頻繁項(xiàng)集的過程是按照項(xiàng)集的長(zhǎng)度由大到小逐級(jí)進(jìn)行的。

參考答案:

錯(cuò)誤

Python在調(diào)用efficient-apriori包中的apriori函數(shù)訓(xùn)練挖掘關(guān)聯(lián)規(guī)則時(shí)，設(shè)定最小支持度的參數(shù)是______。

參考答案:

min_support

P(22,1,42,10)，Q(20,0,36,8)為兩個(gè)向量對(duì)象，這兩個(gè)對(duì)象的曼哈頓距離是（）。

參考答案:

決策樹中根結(jié)點(diǎn)的層次為?！菊?qǐng)?zhí)顚懓⒗當(dāng)?shù)字】

參考答案:

P(22,1,42,10)，Q(20,0,36,8)為兩個(gè)向量對(duì)象，這兩個(gè)對(duì)象的切比雪夫距離是（）。

參考答案:

下面哪些聚類方法易于發(fā)現(xiàn)具有球形形狀的簇，難以發(fā)現(xiàn)橢圓形或者凹形形狀的簇？

參考答案:

層次聚類_k均值聚類

關(guān)于聚類下列說法正確的是（）。

參考答案:

聚類可以發(fā)現(xiàn)偏離多數(shù)數(shù)據(jù)對(duì)象的孤立點(diǎn)。_聚類可以作為其他數(shù)據(jù)挖掘分析過程的一個(gè)基礎(chǔ)處理步驟。_聚類有著廣泛的應(yīng)用。

網(wǎng)絡(luò)由一個(gè)節(jié)點(diǎn)集和一個(gè)連接這些節(jié)點(diǎn)的邊集組成。

參考答案:

正確

運(yùn)行以下代碼“importmatplotlib.pyplotasplt”引入plt后，要繪制折線圖，需要利用的函數(shù)為（）。

參考答案:

plt.plot()

參考答案:

[110,155)

特征選擇方法中，一般的啟發(fā)式方法有（）。

參考答案:

以上都是

聚類分析的過程中，聚類效果較好時(shí)屬于同一個(gè)簇的對(duì)象相似度很高，而屬于不同簇的對(duì)象相似度很低。

參考答案:

正確

使用零均值規(guī)范化方法，年收入屬性的均值為65，標(biāo)準(zhǔn)差為12，則年收入59萬(wàn)元規(guī)范化后為（）。

參考答案:

-0.5

通過代碼fromsklearnimporttree引入決策樹模塊，并通過代碼clf=tree.DecisionTreeClassifier()構(gòu)造分類器對(duì)象后，訓(xùn)練時(shí)要調(diào)用的方法是（）。

參考答案:

clf.fit()

運(yùn)行以下代碼fromsklearn.datasetsimportload_irisiris_data=load_iris()iris_data.data.shape輸出結(jié)果為(150,4)。則表示iris數(shù)據(jù)集包括樣本個(gè)數(shù)為（）。

參考答案:

150

多種屬性相似度的綜合度量，可以先對(duì)單個(gè)屬性進(jìn)行相似度度量，然后求所有屬性相似度的均值作為整個(gè)對(duì)象相似度。

參考答案:

正確

凝聚度是用于衡量簇間相似程度的，凝聚度越大越好。

參考答案:

正確

基于隨機(jī)游走理論的鏈接相似度衡量方法(稱為SimRank)計(jì)算兩結(jié)點(diǎn)間的相似度，具有有界性、對(duì)稱性、單調(diào)遞增性、三角不等式性質(zhì)。

參考答案:

錯(cuò)誤

數(shù)值預(yù)測(cè)用于連續(xù)變量的取值，常用的預(yù)測(cè)方法是（）。

參考答案:

回歸分析

給定df是一個(gè)DataFrame對(duì)象，對(duì)df所有字段進(jìn)行描述性統(tǒng)計(jì)，可以利用的方法為（）。

參考答案:

df.describe()

輪廓系數(shù)是將凝聚度和分離度相結(jié)合的一種度量，越大聚類效果越好。

參考答案:

正確

DBSCAN是一種基于密度的聚類方法，容易發(fā)現(xiàn)特殊形狀的簇。

參考答案:

正確

K均值聚類需要提前設(shè)定K值，而凝聚層次法不需要預(yù)先設(shè)置參數(shù)。

參考答案:

正確

運(yùn)行以下代碼fromsklearn.datasetsimportload_irisiris_data=load_iris()iris_data.data.shape輸出結(jié)果為(150,4)。則表示iris數(shù)據(jù)集包括樣本特征數(shù)為（）。

參考答案:

數(shù)值預(yù)測(cè)與分類都屬于有監(jiān)督學(xué)習(xí)，解決問題的過程相同，都是先通過訓(xùn)練數(shù)據(jù)集進(jìn)行學(xué)習(xí)，以得到一個(gè)模型然后利用模型進(jìn)行預(yù)測(cè)。

參考答案:

正確

【圖片】的值越接近1，說明回歸直線對(duì)觀測(cè)值的擬合程度越好。

參考答案:

正確

中列數(shù)是數(shù)據(jù)集的最大值和的平均值。

參考答案:

最小值

Jaccard系數(shù)適用于衡量用________二值屬性描述的對(duì)象間的相似度。

參考答案:

非對(duì)稱

多媒體數(shù)據(jù)挖掘是一個(gè)交叉學(xué)科領(lǐng)域，涉及圖像處理和理解、計(jì)算機(jī)視覺、數(shù)據(jù)挖掘和模式識(shí)別。

參考答案:

正確

如果一個(gè)規(guī)則和其祖先規(guī)則具有近似相同的置信度，則該規(guī)則稱為_____。為了減少發(fā)現(xiàn)的規(guī)則數(shù)目，可以將其從輸出的結(jié)果中刪除。

參考答案:

冗余規(guī)則

下列哪些選項(xiàng)能表示序數(shù)屬性的數(shù)據(jù)集中趨勢(shì)度量（）。

參考答案:

眾數(shù)

下列對(duì)學(xué)生相關(guān)屬性描述中，不是標(biāo)稱屬性的是（）。

參考答案:

身高

參考答案:

通過代碼”fromsklearnimportlinear_model”引入線性模型模塊，并通過代碼“reg=linear_model.LinearRegression()”構(gòu)造回歸器對(duì)象后，在訓(xùn)練時(shí)要調(diào)用的方法是（）。

參考答案:

reg.fit()

利用linear_model.LinearRegression()訓(xùn)練模型時(shí)調(diào)用.fit()方法需要傳遞的第二個(gè)參數(shù)是（）。

參考答案:

樣本標(biāo)簽Y

給定一個(gè)頻繁負(fù)項(xiàng)集X，我們可以從中發(fā)現(xiàn)隱含的負(fù)關(guān)聯(lián)規(guī)則。負(fù)項(xiàng)集和負(fù)關(guān)聯(lián)規(guī)則統(tǒng)稱為_____。

參考答案:

負(fù)模式

對(duì)于指數(shù)曲線y=a*e^(bx)，令u＝lny，c＝lna，經(jīng)過非線性化回歸分析之后，可以轉(zhuǎn)化成的形式為（）。

參考答案:

u＝c＋bx

模型樹的葉子結(jié)點(diǎn)對(duì)應(yīng)（）。

參考答案:

一個(gè)線性回歸方程

給定numpy.ndarray類型的數(shù)X，在以下代碼中，eps參數(shù)的含義是（）。fromsklearn.clusterimportDBSCANclustering=DBSCAN(eps=3,min_samples=2).fit(X)

參考答案:

鄰域半徑

下面哪些聚類方法易于發(fā)現(xiàn)特殊形狀的簇？

參考答案:

基于密度的聚類方法_DBSCAN

FP-growth算法無(wú)須生成候選項(xiàng)集的方法，可以避免產(chǎn)生大量候選項(xiàng)集。

參考答案:

正確

如果一個(gè)規(guī)則X→Y同時(shí)滿足support(X→Y)≥minsup和confidence(X→Y)≥minconf，則稱該規(guī)則在數(shù)據(jù)庫(kù)D中成立，其中minsup和minconf分別是用戶給定的最小支持度和最小置信度的閾值。

參考答案:

正確

具體來講，若一個(gè)項(xiàng)集X的支持度大于用戶給定的一個(gè)最小支持度閾值，則X被稱為頻繁項(xiàng)集（或頻繁模式）。

參考答案:

正確

下列應(yīng)用場(chǎng)景不屬于分類的是（）。

參考答案:

為了解用戶特點(diǎn)，公司將客戶分群

基于熵的離散化方法是常用的有監(jiān)督的離散化方法。

參考答案:

正確

通過代碼fromsklearnimporttree引入決策樹模塊，并通過代碼clf=tree.DecisionTreeClassifier()構(gòu)造分類器對(duì)象，在訓(xùn)練后做預(yù)測(cè)時(shí)要調(diào)用的方法是（）。

參考答案:

clf.predict()

二元屬性是一種特殊的標(biāo)稱屬性，分為對(duì)稱和不對(duì)稱兩種。

參考答案:

正確

數(shù)據(jù)挖掘又稱從數(shù)據(jù)中發(fā)現(xiàn)知識(shí)，前者英文簡(jiǎn)稱為（）。

參考答案:

以下Python包中，最適合用于機(jī)器學(xué)習(xí)的是（）。

參考答案:

Scikit-learn

給定兩個(gè)數(shù)據(jù)對(duì)象（19,4,5）和（22,6,3），則兩個(gè)對(duì)象之間的上確界距離?！救绻?jì)算結(jié)果是小數(shù)，則保留一位；如果是整數(shù)，則直接填寫整數(shù)】

參考答案:

在主成分分析中，每個(gè)主成分都是原始變量的線性組合，且各個(gè)主成分之間互不相關(guān)。

參考答案:

正確

在Scikit-learn模塊下，不同分類模型在預(yù)測(cè)時(shí)，調(diào)用的方法名稱（）。

參考答案:

相同

數(shù)據(jù)挖掘又稱從數(shù)據(jù)中發(fā)現(xiàn)知識(shí)，后者英文簡(jiǎn)稱為（）。

參考答案:

KDD

通過代碼”fromsklearnimportlinear_model”引入線性模型模塊，并通過代碼“reg=linear_model.LinearRegression()”構(gòu)造回歸器對(duì)象，在訓(xùn)練后做預(yù)測(cè)時(shí)要調(diào)用的方法是（）。

參考答案:

reg.predict()

預(yù)測(cè)的模型構(gòu)建需要來進(jìn)行分析。

參考答案:

歷史數(shù)據(jù)

數(shù)據(jù)挖掘又稱從數(shù)據(jù)中發(fā)現(xiàn)知識(shí)，后者英文簡(jiǎn)稱為（）。

參考答案:

KDD

數(shù)據(jù)挖掘又稱從數(shù)據(jù)中發(fā)現(xiàn)知識(shí)，前者英文簡(jiǎn)稱為（）。

參考答案:

一般數(shù)據(jù)挖掘的流程順序，下列正確的是（）。①選擇數(shù)據(jù)挖掘的技術(shù)、功能和合適的算法②選擇數(shù)據(jù)，數(shù)據(jù)清洗和預(yù)處理③了解應(yīng)用領(lǐng)域，了解相關(guān)的知識(shí)和應(yīng)用目標(biāo)④尋找感興趣的模式、模式評(píng)估、知識(shí)表示⑤創(chuàng)建目標(biāo)數(shù)據(jù)集

參考答案:

③⑤②①④

參考答案:

二維表格

數(shù)值預(yù)測(cè)用于連續(xù)變量的取值，常用的預(yù)測(cè)方法是（）。

參考答案:

回歸分析

以下Python包中，繪圖功能最強(qiáng)大的是（）。

參考答案:

matplotlib

下列關(guān)于數(shù)據(jù)規(guī)范化說法錯(cuò)誤的是（）。

參考答案:

數(shù)據(jù)規(guī)范化是為了給重要的屬性賦予更大的權(quán)重

使用python處理缺失值的方法中敘述錯(cuò)誤的是（）。

參考答案:

interpolate()使用中位數(shù)填充缺失值

主成分分析方法PCA屬于屬于python中的哪個(gè)包（）。

參考答案:

sklearn

給定df是一個(gè)DataFrame對(duì)象，對(duì)df所有字段進(jìn)行描述性統(tǒng)計(jì)，可以利用的方法為（）。

參考答案:

df.describe()

運(yùn)行以下代碼“importmatplotlib.pyplotasplt”引入plt后，要繪制餅狀圖，需要利用的函數(shù)為（）。

參考答案:

plt.pie()

運(yùn)行以下代碼“importmatplotlib.pyplotasplt”引入plt后，要繪制直方圖，需要利用的函數(shù)為（）。

參考答案:

plt.hist()

使用最小-最大法進(jìn)行數(shù)據(jù)規(guī)范化，需要映射的目標(biāo)區(qū)間為[0,100]，原來的取值范圍是[-10,10]。根據(jù)等比映射的原理，一個(gè)值8映射到新區(qū)間后的值是（）。

參考答案:

利用tree.DecisionTreeClassifier()訓(xùn)練模型時(shí)調(diào)用.fit()方法需要傳遞的第一個(gè)參數(shù)是（）。

參考答案:

樣本特征X

利用tree.DecisionTreeClassifier()訓(xùn)練模型時(shí)調(diào)用.fit()方法需要傳遞的第二個(gè)參數(shù)是（）。

參考答案:

樣本標(biāo)簽Y

從存儲(chǔ)方式對(duì)數(shù)據(jù)類型進(jìn)行分類，可分為數(shù)據(jù)和數(shù)據(jù)。（輸入兩個(gè)位置的答案時(shí)，以一個(gè)空格作為分隔符）

參考答案:

結(jié)構(gòu)化非結(jié)構(gòu)化

在這個(gè)大數(shù)據(jù)爆炸的時(shí)代，我們期待能夠從這些數(shù)據(jù)中提煉出有用的知識(shí)，解決的方法就是技術(shù)和數(shù)據(jù)挖掘技術(shù)。

參考答案:

數(shù)據(jù)倉(cāng)庫(kù)

在這個(gè)大數(shù)據(jù)爆炸的時(shí)代，我們期待能夠從這些數(shù)據(jù)中提煉出有用的知識(shí)，解決的方法就是數(shù)據(jù)倉(cāng)庫(kù)技術(shù)和技術(shù)。

參考答案:

數(shù)據(jù)挖掘

若Y和Z是X的兩個(gè)不同的k項(xiàng)子集，只有當(dāng)confidence(X-Y→Y)≥minconf和confidence(X-Z→Z)≥minconf都滿足時(shí)，X-(Y∪Z)→(Y∪Z)一定成立。

參考答案:

錯(cuò)誤

在結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行關(guān)聯(lián)分析發(fā)現(xiàn)其中的頻繁模式和關(guān)聯(lián)規(guī)則。對(duì)于取值連續(xù)的屬性，首先將其離散化，然后將每個(gè)取值區(qū)間作為一個(gè)值，繼而轉(zhuǎn)化為“屬性=值”的形式。

參考答案:

正確

利用項(xiàng)的概念層次信息，不僅可以發(fā)現(xiàn)涉及那些出現(xiàn)頻率比較低的商品的頻繁模式和關(guān)聯(lián)規(guī)則，而且還可以發(fā)現(xiàn)概括性更強(qiáng)的規(guī)則。

參考答案:

正確

生物學(xué)序列通常很長(zhǎng)，攜帶重要的、復(fù)雜的、隱藏的語(yǔ)義。

參考答案:

正確

在FP-growth構(gòu)建頻繁模式樹中，每個(gè)（）（除根結(jié)點(diǎn)外）代表一個(gè)單項(xiàng)，樹中的每條（）代表原數(shù)據(jù)中每一個(gè)條目的各個(gè)項(xiàng)。如果把條目?jī)?nèi)的項(xiàng)組合在一起看成一個(gè)字符串，則字符串前綴相同時(shí)共享相同的（）。

參考答案:

結(jié)點(diǎn)；路徑；路徑

在多層次關(guān)聯(lián)規(guī)則分析中，如果將商品進(jìn)行歸類，每一商品類別的支持度會(huì)（）其包含的每個(gè)商品的支持度，從而有利于發(fā)現(xiàn)一些有意義的頻繁模式或關(guān)聯(lián)規(guī)則。

參考答案:

大于

對(duì)于任一個(gè)頻繁項(xiàng)集X和它的一個(gè)非空真子集Y，S=X-Y，規(guī)則S→Y成立的條件是（）。

參考答案:

confidence(S→Y)≥minconf

分類就是根據(jù)物以類聚的原理，將沒有類別的對(duì)象根據(jù)對(duì)象的特征自動(dòng)聚成不同簇的過程。

參考答案:

錯(cuò)誤

分類算法針對(duì)某個(gè)測(cè)試數(shù)據(jù)集的有效性通常通過矩陣來反映。

參考答案:

混淆

為了評(píng)價(jià)一個(gè)分類模型的性能，我們通常根據(jù)分類模型判斷一組已知類別的對(duì)象的類別，這些已知類別的對(duì)象構(gòu)成的數(shù)據(jù)集稱為。

參考答案:

測(cè)試數(shù)據(jù)集##%_YZPRLFH_%##測(cè)試集

x=(5,0,3,0,2,0,0,2,0,0)和y=(3,0,2,0,1,1,0,1,0,1)，使用余弦相似度公式計(jì)算這兩個(gè)向量之間的相似性等于?！救绻?jì)算結(jié)果是小數(shù)，則保留一位；如果是整數(shù)，則直接填寫整數(shù)】

參考答案:

0.9

K近鄰方法的核心思想是對(duì)一個(gè)預(yù)測(cè)樣本A，從訓(xùn)練數(shù)據(jù)集中找到與其最相似的k個(gè)樣本，利用這個(gè)k個(gè)樣本的類別來決策該樣本A的類別。

參考答案:

正確

序列分析經(jīng)常會(huì)用在購(gòu)物籃分析中。

參考答案:

錯(cuò)誤

關(guān)聯(lián)分析是數(shù)據(jù)分析中常用的分析方法。

參考答案:

正確

序數(shù)屬性的值存在有意義的序。相鄰兩者之間的差是已知的。

參考答案:

錯(cuò)誤

如果屬性不是離散的，則它是連續(xù)的。

參考答案:

正確

決策樹的思想是自頂向下遞歸的構(gòu)建過程，關(guān)鍵點(diǎn)是在于分裂屬性和分裂條件的選擇。

參考答案:

正確

構(gòu)造訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集的常用方法有（）。

參考答案:

保持法(holdout)_留一法（leaveoneout）_自助抽樣法(bootstrap)_交叉驗(yàn)證法(crossvalidation)

分類和回歸都可用于預(yù)測(cè)，分類的輸出是離散的類別值。

參考答案:

正確

聚類針對(duì)有標(biāo)簽的數(shù)據(jù)。

參考答案:

錯(cuò)誤

4人喜歡服飾的顏色如下，屬性是標(biāo)稱屬性。李四和孫六的相似性是（）。姓名帽子顏色上衣顏色褲子顏色鞋子顏色圍巾顏色張三紅藍(lán)藍(lán)綠紅李四紅藍(lán)藍(lán)紅粉王五黃綠藍(lán)綠紅孫六藍(lán)藍(lán)藍(lán)紅粉

參考答案:

4/5

盒圖用來考察兩個(gè)屬性之間是否存在正相關(guān)和負(fù)相關(guān)。

參考答案:

錯(cuò)誤

相異性矩陣又稱對(duì)象-對(duì)象結(jié)構(gòu)，存放n個(gè)對(duì)象兩兩之間的鄰近度。

參考答案:

正確

在計(jì)算混合類型屬性的相異性時(shí)，一般是通過將所有有意義的屬性轉(zhuǎn)換到共同的區(qū)間[0.0,1.0]上，實(shí)現(xiàn)在單個(gè)相異性矩陣中進(jìn)行計(jì)算。

參考答案:

正確

預(yù)測(cè)性能的優(yōu)劣需要一定的度量來衡量，常用的度量是（）。

參考答案:

RAE（相對(duì)絕對(duì)誤差）_RSE（相對(duì)平方誤差）_MAE（平均絕對(duì)誤差）_MSE（均方誤差）

特征選擇過程是描述同一對(duì)象的多個(gè)屬性的取值范圍，統(tǒng)一到相同的范圍，避免某些屬性的作用大于其它屬性。

參考答案:

錯(cuò)誤

通過數(shù)據(jù)離散化，可以實(shí)現(xiàn)縮減數(shù)據(jù)量的效果。

參考答案:

正確

如下表所示，使用FP-Growth計(jì)算其頻繁集，給定最小支持度為40%，頻繁模式樹（FP樹）有（）個(gè)結(jié)點(diǎn)。（不包括根結(jié)點(diǎn)）。交易號(hào)（TID）商品（Items）1beer,diaper,nuts2beer,biscuit,diaper3bread,butter,cheese4beer,cheese,diaper,nuts5beer,butter,cheese,nuts

參考答案:

如下表所示，X={butter,cheese}，則支持度support(X)=（）。交易號(hào)（TID）商品（Items）1beer,diaper,nuts2beer,biscuit,diaper3bread,butter,cheese4beer,cheese,diaper,nuts5beer,butter,cheese,nuts

參考答案:

2/5

Python在調(diào)用efficient-apriori包中的apriori函數(shù)進(jìn)行挖掘關(guān)聯(lián)規(guī)則時(shí)，第二個(gè)返回值是（）。

參考答案:

關(guān)聯(lián)規(guī)則

以下Python包中，提供了DataFrame數(shù)據(jù)類型的是（）。

參考答案:

Pandas

對(duì)于非對(duì)稱的二元屬性，兩個(gè)都取值1的情況(正匹配)被認(rèn)為比兩個(gè)都取值0的情況(負(fù)匹配)更有意義，其中負(fù)匹配數(shù)t被認(rèn)為是不重要的，因此在計(jì)算時(shí)可以忽略。

參考答案:

正確

給定兩個(gè)數(shù)據(jù)對(duì)象（19,4,5）和（22,6,3），則兩個(gè)對(duì)象之間的曼哈頓距離?！救绻?jì)算結(jié)果是小數(shù)，則保留一位；如果是整數(shù)，則直接填寫整數(shù)】

參考答案:

一種簡(jiǎn)單的填補(bǔ)缺失值的方法為,將屬于同一類的對(duì)象的該屬性值的均值賦予此缺失值。

參考答案:

正確

給定兩個(gè)數(shù)據(jù)對(duì)象（19,4,5）和（22,6,3），則兩個(gè)對(duì)象之間的歐氏距離。【如果計(jì)算結(jié)果是小數(shù)，則保留一位；如果是整數(shù)，則直接填寫整數(shù)】

參考答案:

4.1

樸素貝葉斯分類中得到條件概率的方法錯(cuò)誤的是（）。

參考答案:

對(duì)于定性屬性，將轉(zhuǎn)化為定量屬性，再計(jì)算相應(yīng)的概率

以下哪種算法是分類算法（）。

參考答案:

C4.5

決策樹中不包含一下哪種結(jié)點(diǎn)（）。

參考答案:

外部結(jié)點(diǎn)（externalnode）

在Scikit-learn模塊下，不同分類模型在訓(xùn)練時(shí)，調(diào)用的方法名稱（）。

參考答案:

相同

一般來說數(shù)據(jù)庫(kù)中行對(duì)應(yīng)于數(shù)據(jù)對(duì)象，而列對(duì)應(yīng)于屬性。

參考答案:

正確

在探索性數(shù)據(jù)分析中，認(rèn)為最有代表性，最能反映數(shù)據(jù)重要特征的五數(shù)概括,包括：

參考答案:

最小值_中位數(shù)Q2_四分位數(shù)Q1_最大值

下列哪些指標(biāo)可以度量數(shù)據(jù)的離散趨勢(shì)度量：

參考答案:

極差_四分位數(shù)_五數(shù)概括_四分位數(shù)極差

下列對(duì)學(xué)生的描述屬性中，標(biāo)稱屬性的屬性是：

參考答案:

婚姻狀況_學(xué)號(hào)_頭發(fā)顏色

為了避免包的依賴關(guān)系和系統(tǒng)兼容性等方面出現(xiàn)問題，本課程推薦的Python安裝方式為（）。

參考答案:

通過Anaconda安裝

以下Python包中，繪圖功能最強(qiáng)大的是（）。

參考答案:

Matplotlib

Python科學(xué)計(jì)算的基本包是（）。

參考答案:

Numpy

Python語(yǔ)言在創(chuàng)始人是（）。

參考答案:

GuidovanRossum

度量作為一種測(cè)度，滿足以下哪些條件：

參考答案:

以上均是

基于熵的方法可以被看做是自頂向下的分裂方法，ChiMerge則屬于自底向上的合并方法。

參考答案:

正確

分類是總結(jié)已有類別對(duì)象的特點(diǎn)，并根據(jù)這些特點(diǎn)，進(jìn)行未知類別對(duì)象的類別預(yù)測(cè)的過程。又可稱為無(wú)監(jiān)督學(xué)習(xí)。

參考答案:

錯(cuò)誤

ID3的分裂屬性選擇條件是選擇信息增益最大的作為分裂屬性。

參考答案:

正確

k近鄰方法不需要事先學(xué)習(xí)分類模型，當(dāng)需要預(yù)測(cè)的時(shí)候，根據(jù)預(yù)測(cè)樣本的特性和已知訓(xùn)練數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行類別的判斷。

參考答案:

正確

為了檢驗(yàn)回歸系數(shù)的顯著性，可以使用F檢驗(yàn)。

參考答案:

錯(cuò)誤

在模型樹的剪枝過程中，兩個(gè)葉子結(jié)點(diǎn)的期望誤差通過加權(quán)求和結(jié)合在一起作為子樹誤差。

參考答案:

正確

在模型樹的構(gòu)建過程中，應(yīng)選擇使SDR值最小的屬性。

參考答案:

錯(cuò)誤

為了抵消少數(shù)極端值對(duì)均值計(jì)算的影響，我們可以使用。

參考答案:

截尾均值

四分位數(shù)極差（IQR）是第1個(gè)和第2個(gè)四分位數(shù)之間的距離。

參考答案:

錯(cuò)誤

在文獻(xiàn)中，屬性、維、特征和變量通常可以互換地使用。

參考答案:

正確

一元線性回歸的步驟：構(gòu)建包含因變量和自變量的訓(xùn)練集；通過散點(diǎn)圖確認(rèn)因變量和自變量之前的近似線性關(guān)系；計(jì)算系數(shù)和構(gòu)建模型；模型檢驗(yàn)；利用模型進(jìn)行預(yù)測(cè)。

參考答案:

正確

下列哪項(xiàng)不是時(shí)間序列的主要研究方法（）

參考答案:

序列模式挖掘

利用tree.DecisionTreeClassifier()訓(xùn)練模型時(shí)調(diào)用.fit()方法需要傳遞的第二個(gè)參數(shù)是（）。

參考答案:

樣本標(biāo)簽Y

利用tree.DecisionTreeClassifier()訓(xùn)練模型時(shí)調(diào)用.fit()方法需要傳遞的第一個(gè)參數(shù)是（）。

參考答案:

樣本特征X

通過代碼“fromsklearnimporttree”引入決策樹模塊，并通過代碼“clf=tree.DecisionTreeClassifier()”構(gòu)造分類器對(duì)象，在訓(xùn)練后做預(yù)測(cè)時(shí)要調(diào)用的方法是（）。

參考答案:

clf.predict()

通過代碼“fromsklearnimporttree”引入決策樹模塊，并通過代碼“clf=tree.DecisionTreeClassifier()”構(gòu)造分類器對(duì)象后，訓(xùn)練時(shí)要調(diào)用的方法是（）。

參考答案:

clf.fit()

下列屬于異質(zhì)網(wǎng)絡(luò)的是（）

參考答案:

在線醫(yī)療網(wǎng)絡(luò)

機(jī)動(dòng)車輛管理者把GPS安裝在汽車上，以便更好地監(jiān)管和引導(dǎo)車輛，所記錄的數(shù)據(jù)屬于（）

參考答案:

時(shí)空數(shù)據(jù)

典型的文本挖掘任務(wù)包括（）

參考答案:

以上都是

根據(jù)分析目標(biāo)，Web挖掘可以劃分主要研究領(lǐng)域包括()。

參考答案:

Web結(jié)構(gòu)挖掘_Web使用挖掘_Web內(nèi)容挖掘

下面哪些是時(shí)空數(shù)據(jù)的應(yīng)用（）。

參考答案:

動(dòng)物學(xué)家把遙感設(shè)備安裝在野生動(dòng)物身上，以便分析生態(tài)行為_機(jī)動(dòng)車輛管理者把GPS安裝在汽車上，以便更好地監(jiān)管和引導(dǎo)車輛_氣象學(xué)家使用人造衛(wèi)星和雷達(dá)觀察颶風(fēng)

符號(hào)序列數(shù)據(jù)由事件或標(biāo)稱數(shù)據(jù)的長(zhǎng)序列組成，通常時(shí)間間隔相等。

參考答案:

錯(cuò)誤

圖與網(wǎng)絡(luò)挖掘應(yīng)用范圍廣泛，涉及生物信息學(xué)、化學(xué)情報(bào)學(xué)、計(jì)算機(jī)視覺、多媒體和文本檢索。

參考答案:

正確

數(shù)據(jù)挖掘包括下面哪些方法（）。

參考答案:

聚類_分類_異常發(fā)現(xiàn)_關(guān)聯(lián)

（）是指大量流入系統(tǒng)、動(dòng)態(tài)變化的、可能無(wú)限的，并且包含多維特征的數(shù)據(jù)。

參考答案:

流數(shù)據(jù)

Python在調(diào)用efficient-apriori包中的apriori函數(shù)進(jìn)行挖掘關(guān)聯(lián)規(guī)則時(shí)，第一個(gè)返回值是（）。

參考答案:

頻繁項(xiàng)集

如下表所示，X={butter,cheese}，Y={beer}，則置信度confidence(X→Y)=（）。交易號(hào)（TID）商品（Items）1beer,diaper,nuts2beer,biscuit,diaper3bread,butter,cheese4beer,cheese,diaper,nuts5beer,butter,cheese,nuts

參考答案:

1/2

回歸系數(shù)的檢驗(yàn)可以采用t檢驗(yàn)。

參考答案:

正確

在模型樹的構(gòu)建過程中，分裂屬性的選擇以分裂后的各個(gè)子數(shù)據(jù)集中目標(biāo)屬性取值的標(biāo)準(zhǔn)差為依據(jù)，將標(biāo)準(zhǔn)差作為一種誤差度量，將分裂前后標(biāo)準(zhǔn)差的減少量作為誤差的期望減少，稱為SDR。

參考答案:

正確

通過代碼”fromsklearn.clusterimportKMeans”引入Kmenas模塊后，生成模型對(duì)象“kmeans=KMeans(n_clusters=3)”并完成對(duì)數(shù)據(jù)X完成聚類后，以下哪個(gè)代碼可以查看每個(gè)樣本所屬簇的標(biāo)簽（）。

參考答案:

kmeans.labels_

目前大部分系統(tǒng)能夠多次讀取流數(shù)據(jù)。

參考答案:

錯(cuò)誤

物聯(lián)網(wǎng)系統(tǒng)由大量相互作用的物理和信息部件組成，其例子包括患者護(hù)理系統(tǒng)，運(yùn)輸系統(tǒng)等。

參考答案:

正確

“你和任何一個(gè)陌生人之間所間隔的人不會(huì)超過六個(gè)”稱為小世界現(xiàn)象。

參考答案:

正確

Python科學(xué)計(jì)算的基本包是（）。

參考答案:

Numpy

購(gòu)買了此商品后還會(huì)購(gòu)買的商品，它們的地位是平等的，其中涉及了時(shí)間和順序的概念，強(qiáng)調(diào)的是一個(gè)規(guī)則，也就是我們所說的關(guān)聯(lián)規(guī)則。

參考答案:

錯(cuò)誤

假設(shè)某分類器在一個(gè)測(cè)試數(shù)據(jù)集上的分類結(jié)果的混淆矩陣如下所示，請(qǐng)計(jì)算該分類器的錯(cuò)誤率，以類別yes為正例，計(jì)算分類器的查全率recall為%。【保留到整數(shù)位】Predicte

人人文庫(kù)> 全部分類> 教育資料 > 考試試卷

溫馨提示

1. 本站所有資源如無(wú)特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)挖掘與python實(shí)踐-中央財(cái)經(jīng)大學(xué)中國(guó)大學(xué)mooc課后章節(jié)答案期末考試題庫(kù)2023年

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

數(shù)據(jù)挖掘與python實(shí)踐-中央財(cái)經(jīng)大學(xué)中國(guó)大學(xué)mooc課后章節(jié)答案期末考試題庫(kù)2023年

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔