數(shù)據(jù)挖掘與python實(shí)踐-中央財(cái)經(jīng)大學(xué)中國(guó)大學(xué)mooc課后章節(jié)答案期末考試題庫(kù)2023年_第1頁(yè)
數(shù)據(jù)挖掘與python實(shí)踐-中央財(cái)經(jīng)大學(xué)中國(guó)大學(xué)mooc課后章節(jié)答案期末考試題庫(kù)2023年_第2頁(yè)
數(shù)據(jù)挖掘與python實(shí)踐-中央財(cái)經(jīng)大學(xué)中國(guó)大學(xué)mooc課后章節(jié)答案期末考試題庫(kù)2023年_第3頁(yè)
數(shù)據(jù)挖掘與python實(shí)踐-中央財(cái)經(jīng)大學(xué)中國(guó)大學(xué)mooc課后章節(jié)答案期末考試題庫(kù)2023年_第4頁(yè)
數(shù)據(jù)挖掘與python實(shí)踐-中央財(cái)經(jīng)大學(xué)中國(guó)大學(xué)mooc課后章節(jié)答案期末考試題庫(kù)2023年_第5頁(yè)
已閱讀5頁(yè),還剩37頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)挖掘與python實(shí)踐_中央財(cái)經(jīng)大學(xué)中國(guó)大學(xué)mooc課后章節(jié)答案期末考試題庫(kù)2023年()采用自頂向下分而治之的思想,將訓(xùn)練集不斷分割成子數(shù)據(jù)集來不斷擴(kuò)展樹枝,當(dāng)滿足一定條件時(shí)停止樹的生長(zhǎng)。

參考答案:

決策樹_模型樹_回歸樹

最小最大規(guī)范化方法MinMaxScaler屬于python中的哪個(gè)包()。

參考答案:

sklearn

使用python處理缺失值的方法中敘述錯(cuò)誤的是()。

參考答案:

interpolate()使用中位數(shù)填充缺失值

數(shù)據(jù)預(yù)處理的任務(wù)不包括()。

參考答案:

數(shù)據(jù)分類

在使用主成分分析法進(jìn)行數(shù)據(jù)屬性特征提取中,在對(duì)數(shù)據(jù)集進(jìn)行中心化處理后,為了去除冗余和降低噪音,應(yīng)將協(xié)方差矩陣非對(duì)角線上的元素化為()。

參考答案:

0

特征選擇方法中,一般的啟發(fā)式方法有()。

參考答案:

以上都是

通過代碼“fromsklearnimportmetrics”引入評(píng)價(jià)指標(biāo)模塊后,面對(duì)真實(shí)標(biāo)簽true_label和模型預(yù)測(cè)標(biāo)簽predicted_label,混淆矩陣可通過調(diào)用()代碼得到。

參考答案:

metrics.confusion_matrix(true_labe,predicted_label)

使用等距離分箱法進(jìn)行數(shù)據(jù)離散化,數(shù)據(jù)范圍為20,40,50,58,65,80,80,82,86,90,96,105,120,200,區(qū)間個(gè)數(shù)為4。下列屬于4個(gè)箱的區(qū)間是()。

參考答案:

[110,155)

運(yùn)行以下代碼”importmatplotlib.pyplotasplt”引入plt后,要繪制餅狀圖,需要利用的函數(shù)為()。

參考答案:

plt.pie()

在利用linear_model.LinearRegression()構(gòu)造的reg對(duì)象訓(xùn)練模型后,可以通過以下哪行代碼查看回歸模型系數(shù)()。

參考答案:

reg.coef_

在以下四個(gè)散點(diǎn)圖中,其中適用于作線性回歸的散點(diǎn)圖為()?!緢D片】

參考答案:

①③

已知對(duì)一組觀察值(xi,yi)作出散點(diǎn)圖后確定具有線性相關(guān)關(guān)系,若對(duì)于y=bx+a,求得b=0.51,x=61.75,y=38.14,則線性回歸方程為()。

參考答案:

y=0.51x+6.65

下面關(guān)于構(gòu)建模型樹的說法中,錯(cuò)誤的是()。

參考答案:

在選擇分類屬性時(shí),應(yīng)選擇時(shí)SDR值最小的屬性

下列選項(xiàng)中錯(cuò)誤的是()。

參考答案:

SSR=SST+SSE

決策樹的葉子結(jié)點(diǎn)對(duì)應(yīng)()。

參考答案:

某個(gè)類別

假設(shè)某分類器在一個(gè)測(cè)試數(shù)據(jù)集上的分類結(jié)果的混淆矩陣如下所示,該分類器的準(zhǔn)確率accuracy為()。PredictedyesnoActualyes155no1020

參考答案:

70%

假設(shè)某分類器在一個(gè)測(cè)試數(shù)據(jù)集上的分類結(jié)果的混淆矩陣如下所示,該分類器的錯(cuò)誤率errorrate為()。PredictedyesnoActualyes155no1020

參考答案:

30%

為了比較利用不同分類算法構(gòu)建的分類模型的性能,可以利用圖形進(jìn)行比較,常用的圖形包括()。

參考答案:

ROC曲線_增益圖

回歸樹的葉子結(jié)點(diǎn)對(duì)應(yīng)()。

參考答案:

一個(gè)數(shù)值

在比較模型的擬合效果時(shí),甲、乙、丙、丁四個(gè)模型的決定系數(shù)R^2的值分別約為0.96、0.85、0.80和0.7,則擬合效果好的模型是()。

參考答案:

多元回歸建模后的檢驗(yàn)包括()。

參考答案:

回歸系數(shù)的顯著性檢驗(yàn)_回歸關(guān)系的顯著性檢驗(yàn)_擬合優(yōu)度檢驗(yàn)

常用的非線性函數(shù)除了多項(xiàng)式函數(shù)之外,還包括()。

參考答案:

冪函數(shù)_對(duì)數(shù)函數(shù)_指數(shù)函數(shù)_雙曲函數(shù)

回歸樹和模型樹都是通過自下而上、分而治之的思想,將訓(xùn)練集不斷分割成子數(shù)據(jù)集來不斷擴(kuò)展樹枝,當(dāng)滿足一定條件時(shí)停止樹的生長(zhǎng)。

參考答案:

錯(cuò)誤

多元回歸是對(duì)一個(gè)自變量和多個(gè)因變量之間的回歸分析。

參考答案:

錯(cuò)誤

模型樹構(gòu)建之后,為了避免過度擬合,需要對(duì)模型樹進(jìn)行剪枝。

參考答案:

正確

K近鄰數(shù)值預(yù)測(cè)是利用一個(gè)樣本的K個(gè)最相似的鄰居的目標(biāo)屬性的取值來進(jìn)行預(yù)測(cè)。

參考答案:

正確

模型樹構(gòu)建之后,為了避免過度擬合,需要對(duì)模型樹進(jìn)行________。

參考答案:

剪枝

運(yùn)行以下代碼“importmatplotlib.pyplotasplt”引入plt后,要繪制散點(diǎn)圖,需要利用的函數(shù)為()。

參考答案:

plt.scatter()

在Numpy包中,計(jì)算標(biāo)準(zhǔn)差的函數(shù)為()。

參考答案:

numpy.std()

在Numpy包中,計(jì)算中位數(shù)的函數(shù)為()。

參考答案:

numpy.median()

通過代碼”fromsklearn.clusterimportKMeans”引入Kmenas模塊,生成模型對(duì)象“kmeans=KMeans(n_clusters=2)”后,對(duì)于數(shù)據(jù)X訓(xùn)練時(shí)要調(diào)用的方法是()。

參考答案:

kmeans.fit()

以下哪種情況對(duì)Kmeans模型的影響較?。ǎ?。

參考答案:

簇的大小分布不均衡

在利用sklearn.cluster.AgglomerativeClustering進(jìn)行凝聚聚類時(shí),使用的默認(rèn)距離度量是()。

參考答案:

歐氏距離

()可以觀察從一個(gè)分布到另一分布是否有漂移。

參考答案:

分位數(shù)-分位數(shù)圖

結(jié)構(gòu)化的數(shù)據(jù)是指一些數(shù)據(jù)通過統(tǒng)一的()的形式存儲(chǔ)的,這類數(shù)據(jù)我們稱為結(jié)構(gòu)化的數(shù)據(jù)。

參考答案:

二維表格

在模型樹的構(gòu)建過程中,分裂屬性的選擇以分裂后的各個(gè)子數(shù)據(jù)集中目標(biāo)屬性取值的標(biāo)準(zhǔn)差為依據(jù),將標(biāo)準(zhǔn)差作為一種誤差度量,將分裂前后標(biāo)準(zhǔn)差的減少量作為誤差的期望減少,稱為_________(填寫英文簡(jiǎn)稱)。

參考答案:

SDR

逐層發(fā)現(xiàn)算法Apriori發(fā)現(xiàn)頻繁項(xiàng)集的過程是按照項(xiàng)集的長(zhǎng)度由大到小逐級(jí)進(jìn)行的。

參考答案:

錯(cuò)誤

Python在調(diào)用efficient-apriori包中的apriori函數(shù)訓(xùn)練挖掘關(guān)聯(lián)規(guī)則時(shí),設(shè)定最小支持度的參數(shù)是______。

參考答案:

min_support

P(22,1,42,10),Q(20,0,36,8)為兩個(gè)向量對(duì)象,這兩個(gè)對(duì)象的曼哈頓距離是()。

參考答案:

11

決策樹中根結(jié)點(diǎn)的層次為?!菊?qǐng)?zhí)顚懓⒗當(dāng)?shù)字】

參考答案:

1

P(22,1,42,10),Q(20,0,36,8)為兩個(gè)向量對(duì)象,這兩個(gè)對(duì)象的切比雪夫距離是()。

參考答案:

6

下面哪些聚類方法易于發(fā)現(xiàn)具有球形形狀的簇,難以發(fā)現(xiàn)橢圓形或者凹形形狀的簇?

參考答案:

層次聚類_k均值聚類

關(guān)于聚類下列說法正確的是()。

參考答案:

聚類可以發(fā)現(xiàn)偏離多數(shù)數(shù)據(jù)對(duì)象的孤立點(diǎn)。_聚類可以作為其他數(shù)據(jù)挖掘分析過程的一個(gè)基礎(chǔ)處理步驟。_聚類有著廣泛的應(yīng)用。

網(wǎng)絡(luò)由一個(gè)節(jié)點(diǎn)集和一個(gè)連接這些節(jié)點(diǎn)的邊集組成。

參考答案:

正確

運(yùn)行以下代碼“importmatplotlib.pyplotasplt”引入plt后,要繪制折線圖,需要利用的函數(shù)為()。

參考答案:

plt.plot()

使用等距離分箱法進(jìn)行數(shù)據(jù)離散化,數(shù)據(jù)范圍為20,40,50,58,65,80,80,82,86,90,96,105,120,200,區(qū)間個(gè)數(shù)為4。下列屬于4個(gè)箱的區(qū)間是()。

參考答案:

[110,155)

特征選擇方法中,一般的啟發(fā)式方法有()。

參考答案:

以上都是

聚類分析的過程中,聚類效果較好時(shí)屬于同一個(gè)簇的對(duì)象相似度很高,而屬于不同簇的對(duì)象相似度很低。

參考答案:

正確

使用零均值規(guī)范化方法,年收入屬性的均值為65,標(biāo)準(zhǔn)差為12,則年收入59萬(wàn)元規(guī)范化后為()。

參考答案:

-0.5

通過代碼fromsklearnimporttree引入決策樹模塊,并通過代碼clf=tree.DecisionTreeClassifier()構(gòu)造分類器對(duì)象后,訓(xùn)練時(shí)要調(diào)用的方法是()。

參考答案:

clf.fit()

運(yùn)行以下代碼fromsklearn.datasetsimportload_irisiris_data=load_iris()iris_data.data.shape輸出結(jié)果為(150,4)。則表示iris數(shù)據(jù)集包括樣本個(gè)數(shù)為()。

參考答案:

150

多種屬性相似度的綜合度量,可以先對(duì)單個(gè)屬性進(jìn)行相似度度量,然后求所有屬性相似度的均值作為整個(gè)對(duì)象相似度。

參考答案:

正確

凝聚度是用于衡量簇間相似程度的,凝聚度越大越好。

參考答案:

正確

基于隨機(jī)游走理論的鏈接相似度衡量方法(稱為SimRank)計(jì)算兩結(jié)點(diǎn)間的相似度,具有有界性、對(duì)稱性、單調(diào)遞增性、三角不等式性質(zhì)。

參考答案:

錯(cuò)誤

數(shù)值預(yù)測(cè)用于連續(xù)變量的取值,常用的預(yù)測(cè)方法是()。

參考答案:

回歸分析

給定df是一個(gè)DataFrame對(duì)象,對(duì)df所有字段進(jìn)行描述性統(tǒng)計(jì),可以利用的方法為()。

參考答案:

df.describe()

輪廓系數(shù)是將凝聚度和分離度相結(jié)合的一種度量,越大聚類效果越好。

參考答案:

正確

DBSCAN是一種基于密度的聚類方法,容易發(fā)現(xiàn)特殊形狀的簇。

參考答案:

正確

K均值聚類需要提前設(shè)定K值,而凝聚層次法不需要預(yù)先設(shè)置參數(shù)。

參考答案:

正確

運(yùn)行以下代碼fromsklearn.datasetsimportload_irisiris_data=load_iris()iris_data.data.shape輸出結(jié)果為(150,4)。則表示iris數(shù)據(jù)集包括樣本特征數(shù)為()。

參考答案:

4

數(shù)值預(yù)測(cè)與分類都屬于有監(jiān)督學(xué)習(xí),解決問題的過程相同,都是先通過訓(xùn)練數(shù)據(jù)集進(jìn)行學(xué)習(xí),以得到一個(gè)模型然后利用模型進(jìn)行預(yù)測(cè)。

參考答案:

正確

【圖片】的值越接近1,說明回歸直線對(duì)觀測(cè)值的擬合程度越好。

參考答案:

正確

中列數(shù)是數(shù)據(jù)集的最大值和的平均值。

參考答案:

最小值

Jaccard系數(shù)適用于衡量用________二值屬性描述的對(duì)象間的相似度。

參考答案:

非對(duì)稱

多媒體數(shù)據(jù)挖掘是一個(gè)交叉學(xué)科領(lǐng)域,涉及圖像處理和理解、計(jì)算機(jī)視覺、數(shù)據(jù)挖掘和模式識(shí)別。

參考答案:

正確

如果一個(gè)規(guī)則和其祖先規(guī)則具有近似相同的置信度,則該規(guī)則稱為_____。為了減少發(fā)現(xiàn)的規(guī)則數(shù)目,可以將其從輸出的結(jié)果中刪除。

參考答案:

冗余規(guī)則

下列哪些選項(xiàng)能表示序數(shù)屬性的數(shù)據(jù)集中趨勢(shì)度量()。

參考答案:

眾數(shù)

下列對(duì)學(xué)生相關(guān)屬性描述中,不是標(biāo)稱屬性的是()。

參考答案:

身高

在使用主成分分析法進(jìn)行數(shù)據(jù)屬性特征提取中,在對(duì)數(shù)據(jù)集進(jìn)行中心化處理后,為了去除冗余和降低噪音,應(yīng)將協(xié)方差矩陣非對(duì)角線上的元素化為()。

參考答案:

0

通過代碼”fromsklearnimportlinear_model”引入線性模型模塊,并通過代碼“reg=linear_model.LinearRegression()”構(gòu)造回歸器對(duì)象后,在訓(xùn)練時(shí)要調(diào)用的方法是()。

參考答案:

reg.fit()

利用linear_model.LinearRegression()訓(xùn)練模型時(shí)調(diào)用.fit()方法需要傳遞的第二個(gè)參數(shù)是()。

參考答案:

樣本標(biāo)簽Y

給定一個(gè)頻繁負(fù)項(xiàng)集X,我們可以從中發(fā)現(xiàn)隱含的負(fù)關(guān)聯(lián)規(guī)則。負(fù)項(xiàng)集和負(fù)關(guān)聯(lián)規(guī)則統(tǒng)稱為_____。

參考答案:

負(fù)模式

對(duì)于指數(shù)曲線y=a*e^(bx),令u=lny,c=lna,經(jīng)過非線性化回歸分析之后,可以轉(zhuǎn)化成的形式為()。

參考答案:

u=c+bx

模型樹的葉子結(jié)點(diǎn)對(duì)應(yīng)()。

參考答案:

一個(gè)線性回歸方程

給定numpy.ndarray類型的數(shù)X,在以下代碼中,eps參數(shù)的含義是()。fromsklearn.clusterimportDBSCANclustering=DBSCAN(eps=3,min_samples=2).fit(X)

參考答案:

鄰域半徑

下面哪些聚類方法易于發(fā)現(xiàn)特殊形狀的簇?

參考答案:

基于密度的聚類方法_DBSCAN

FP-growth算法無(wú)須生成候選項(xiàng)集的方法,可以避免產(chǎn)生大量候選項(xiàng)集。

參考答案:

正確

如果一個(gè)規(guī)則X→Y同時(shí)滿足support(X→Y)≥minsup和confidence(X→Y)≥minconf,則稱該規(guī)則在數(shù)據(jù)庫(kù)D中成立,其中minsup和minconf分別是用戶給定的最小支持度和最小置信度的閾值。

參考答案:

正確

具體來講,若一個(gè)項(xiàng)集X的支持度大于用戶給定的一個(gè)最小支持度閾值,則X被稱為頻繁項(xiàng)集(或頻繁模式)。

參考答案:

正確

下列應(yīng)用場(chǎng)景不屬于分類的是()。

參考答案:

為了解用戶特點(diǎn),公司將客戶分群

基于熵的離散化方法是常用的有監(jiān)督的離散化方法。

參考答案:

正確

通過代碼fromsklearnimporttree引入決策樹模塊,并通過代碼clf=tree.DecisionTreeClassifier()構(gòu)造分類器對(duì)象,在訓(xùn)練后做預(yù)測(cè)時(shí)要調(diào)用的方法是()。

參考答案:

clf.predict()

二元屬性是一種特殊的標(biāo)稱屬性,分為對(duì)稱和不對(duì)稱兩種。

參考答案:

正確

數(shù)據(jù)挖掘又稱從數(shù)據(jù)中發(fā)現(xiàn)知識(shí),前者英文簡(jiǎn)稱為()。

參考答案:

DM

以下Python包中,最適合用于機(jī)器學(xué)習(xí)的是()。

參考答案:

Scikit-learn

給定兩個(gè)數(shù)據(jù)對(duì)象(19,4,5)和(22,6,3),則兩個(gè)對(duì)象之間的上確界距離?!救绻?jì)算結(jié)果是小數(shù),則保留一位;如果是整數(shù),則直接填寫整數(shù)】

參考答案:

3

在主成分分析中,每個(gè)主成分都是原始變量的線性組合,且各個(gè)主成分之間互不相關(guān)。

參考答案:

正確

在Scikit-learn模塊下,不同分類模型在預(yù)測(cè)時(shí),調(diào)用的方法名稱()。

參考答案:

相同

數(shù)據(jù)挖掘又稱從數(shù)據(jù)中發(fā)現(xiàn)知識(shí),后者英文簡(jiǎn)稱為()。

參考答案:

KDD

通過代碼”fromsklearnimportlinear_model”引入線性模型模塊,并通過代碼“reg=linear_model.LinearRegression()”構(gòu)造回歸器對(duì)象,在訓(xùn)練后做預(yù)測(cè)時(shí)要調(diào)用的方法是()。

參考答案:

reg.predict()

預(yù)測(cè)的模型構(gòu)建需要來進(jìn)行分析。

參考答案:

歷史數(shù)據(jù)

數(shù)據(jù)挖掘又稱從數(shù)據(jù)中發(fā)現(xiàn)知識(shí),后者英文簡(jiǎn)稱為()。

參考答案:

KDD

數(shù)據(jù)挖掘又稱從數(shù)據(jù)中發(fā)現(xiàn)知識(shí),前者英文簡(jiǎn)稱為()。

參考答案:

DM

一般數(shù)據(jù)挖掘的流程順序,下列正確的是()。①選擇數(shù)據(jù)挖掘的技術(shù)、功能和合適的算法②選擇數(shù)據(jù),數(shù)據(jù)清洗和預(yù)處理③了解應(yīng)用領(lǐng)域,了解相關(guān)的知識(shí)和應(yīng)用目標(biāo)④尋找感興趣的模式、模式評(píng)估、知識(shí)表示⑤創(chuàng)建目標(biāo)數(shù)據(jù)集

參考答案:

③⑤②①④

結(jié)構(gòu)化的數(shù)據(jù)是指一些數(shù)據(jù)通過統(tǒng)一的()的形式存儲(chǔ)的,這類數(shù)據(jù)我們稱為結(jié)構(gòu)化的數(shù)據(jù)。

參考答案:

二維表格

數(shù)值預(yù)測(cè)用于連續(xù)變量的取值,常用的預(yù)測(cè)方法是()。

參考答案:

回歸分析

以下Python包中,繪圖功能最強(qiáng)大的是()。

參考答案:

matplotlib

下列關(guān)于數(shù)據(jù)規(guī)范化說法錯(cuò)誤的是()。

參考答案:

數(shù)據(jù)規(guī)范化是為了給重要的屬性賦予更大的權(quán)重

使用python處理缺失值的方法中敘述錯(cuò)誤的是()。

參考答案:

interpolate()使用中位數(shù)填充缺失值

主成分分析方法PCA屬于屬于python中的哪個(gè)包()。

參考答案:

sklearn

給定df是一個(gè)DataFrame對(duì)象,對(duì)df所有字段進(jìn)行描述性統(tǒng)計(jì),可以利用的方法為()。

參考答案:

df.describe()

運(yùn)行以下代碼“importmatplotlib.pyplotasplt”引入plt后,要繪制餅狀圖,需要利用的函數(shù)為()。

參考答案:

plt.pie()

運(yùn)行以下代碼“importmatplotlib.pyplotasplt”引入plt后,要繪制直方圖,需要利用的函數(shù)為()。

參考答案:

plt.hist()

使用最小-最大法進(jìn)行數(shù)據(jù)規(guī)范化,需要映射的目標(biāo)區(qū)間為[0,100],原來的取值范圍是[-10,10]。根據(jù)等比映射的原理,一個(gè)值8映射到新區(qū)間后的值是()。

參考答案:

90

利用tree.DecisionTreeClassifier()訓(xùn)練模型時(shí)調(diào)用.fit()方法需要傳遞的第一個(gè)參數(shù)是()。

參考答案:

樣本特征X

利用tree.DecisionTreeClassifier()訓(xùn)練模型時(shí)調(diào)用.fit()方法需要傳遞的第二個(gè)參數(shù)是()。

參考答案:

樣本標(biāo)簽Y

從存儲(chǔ)方式對(duì)數(shù)據(jù)類型進(jìn)行分類,可分為數(shù)據(jù)和數(shù)據(jù)。(輸入兩個(gè)位置的答案時(shí),以一個(gè)空格作為分隔符)

參考答案:

結(jié)構(gòu)化非結(jié)構(gòu)化

在這個(gè)大數(shù)據(jù)爆炸的時(shí)代,我們期待能夠從這些數(shù)據(jù)中提煉出有用的知識(shí),解決的方法就是技術(shù)和數(shù)據(jù)挖掘技術(shù)。

參考答案:

數(shù)據(jù)倉(cāng)庫(kù)

在這個(gè)大數(shù)據(jù)爆炸的時(shí)代,我們期待能夠從這些數(shù)據(jù)中提煉出有用的知識(shí),解決的方法就是數(shù)據(jù)倉(cāng)庫(kù)技術(shù)和技術(shù)。

參考答案:

數(shù)據(jù)挖掘

若Y和Z是X的兩個(gè)不同的k項(xiàng)子集,只有當(dāng)confidence(X-Y→Y)≥minconf和confidence(X-Z→Z)≥minconf都滿足時(shí),X-(Y∪Z)→(Y∪Z)一定成立。

參考答案:

錯(cuò)誤

在結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行關(guān)聯(lián)分析發(fā)現(xiàn)其中的頻繁模式和關(guān)聯(lián)規(guī)則。對(duì)于取值連續(xù)的屬性,首先將其離散化,然后將每個(gè)取值區(qū)間作為一個(gè)值,繼而轉(zhuǎn)化為“屬性=值”的形式。

參考答案:

正確

利用項(xiàng)的概念層次信息,不僅可以發(fā)現(xiàn)涉及那些出現(xiàn)頻率比較低的商品的頻繁模式和關(guān)聯(lián)規(guī)則,而且還可以發(fā)現(xiàn)概括性更強(qiáng)的規(guī)則。

參考答案:

正確

生物學(xué)序列通常很長(zhǎng),攜帶重要的、復(fù)雜的、隱藏的語(yǔ)義。

參考答案:

正確

在FP-growth構(gòu)建頻繁模式樹中,每個(gè)()(除根結(jié)點(diǎn)外)代表一個(gè)單項(xiàng),樹中的每條()代表原數(shù)據(jù)中每一個(gè)條目的各個(gè)項(xiàng)。如果把條目?jī)?nèi)的項(xiàng)組合在一起看成一個(gè)字符串,則字符串前綴相同時(shí)共享相同的()。

參考答案:

結(jié)點(diǎn);路徑;路徑

在多層次關(guān)聯(lián)規(guī)則分析中,如果將商品進(jìn)行歸類,每一商品類別的支持度會(huì)()其包含的每個(gè)商品的支持度,從而有利于發(fā)現(xiàn)一些有意義的頻繁模式或關(guān)聯(lián)規(guī)則。

參考答案:

大于

對(duì)于任一個(gè)頻繁項(xiàng)集X和它的一個(gè)非空真子集Y,S=X-Y,規(guī)則S→Y成立的條件是()。

參考答案:

confidence(S→Y)≥minconf

分類就是根據(jù)物以類聚的原理,將沒有類別的對(duì)象根據(jù)對(duì)象的特征自動(dòng)聚成不同簇的過程。

參考答案:

錯(cuò)誤

分類算法針對(duì)某個(gè)測(cè)試數(shù)據(jù)集的有效性通常通過矩陣來反映。

參考答案:

混淆

為了評(píng)價(jià)一個(gè)分類模型的性能,我們通常根據(jù)分類模型判斷一組已知類別的對(duì)象的類別,這些已知類別的對(duì)象構(gòu)成的數(shù)據(jù)集稱為。

參考答案:

測(cè)試數(shù)據(jù)集##%_YZPRLFH_%##測(cè)試集

x=(5,0,3,0,2,0,0,2,0,0)和y=(3,0,2,0,1,1,0,1,0,1),使用余弦相似度公式計(jì)算這兩個(gè)向量之間的相似性等于?!救绻?jì)算結(jié)果是小數(shù),則保留一位;如果是整數(shù),則直接填寫整數(shù)】

參考答案:

0.9

K近鄰方法的核心思想是對(duì)一個(gè)預(yù)測(cè)樣本A,從訓(xùn)練數(shù)據(jù)集中找到與其最相似的k個(gè)樣本,利用這個(gè)k個(gè)樣本的類別來決策該樣本A的類別。

參考答案:

正確

序列分析經(jīng)常會(huì)用在購(gòu)物籃分析中。

參考答案:

錯(cuò)誤

關(guān)聯(lián)分析是數(shù)據(jù)分析中常用的分析方法。

參考答案:

正確

序數(shù)屬性的值存在有意義的序。相鄰兩者之間的差是已知的。

參考答案:

錯(cuò)誤

如果屬性不是離散的,則它是連續(xù)的。

參考答案:

正確

決策樹的思想是自頂向下遞歸的構(gòu)建過程,關(guān)鍵點(diǎn)是在于分裂屬性和分裂條件的選擇。

參考答案:

正確

構(gòu)造訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集的常用方法有()。

參考答案:

保持法(holdout)_留一法(leaveoneout)_自助抽樣法(bootstrap)_交叉驗(yàn)證法(crossvalidation)

分類和回歸都可用于預(yù)測(cè),分類的輸出是離散的類別值。

參考答案:

正確

聚類針對(duì)有標(biāo)簽的數(shù)據(jù)。

參考答案:

錯(cuò)誤

4人喜歡服飾的顏色如下,屬性是標(biāo)稱屬性。李四和孫六的相似性是()。姓名帽子顏色上衣顏色褲子顏色鞋子顏色圍巾顏色張三紅藍(lán)藍(lán)綠紅李四紅藍(lán)藍(lán)紅粉王五黃綠藍(lán)綠紅孫六藍(lán)藍(lán)藍(lán)紅粉

參考答案:

4/5

盒圖用來考察兩個(gè)屬性之間是否存在正相關(guān)和負(fù)相關(guān)。

參考答案:

錯(cuò)誤

相異性矩陣又稱對(duì)象-對(duì)象結(jié)構(gòu),存放n個(gè)對(duì)象兩兩之間的鄰近度。

參考答案:

正確

在計(jì)算混合類型屬性的相異性時(shí),一般是通過將所有有意義的屬性轉(zhuǎn)換到共同的區(qū)間[0.0,1.0]上,實(shí)現(xiàn)在單個(gè)相異性矩陣中進(jìn)行計(jì)算。

參考答案:

正確

預(yù)測(cè)性能的優(yōu)劣需要一定的度量來衡量,常用的度量是()。

參考答案:

RAE(相對(duì)絕對(duì)誤差)_RSE(相對(duì)平方誤差)_MAE(平均絕對(duì)誤差)_MSE(均方誤差)

特征選擇過程是描述同一對(duì)象的多個(gè)屬性的取值范圍,統(tǒng)一到相同的范圍,避免某些屬性的作用大于其它屬性。

參考答案:

錯(cuò)誤

通過數(shù)據(jù)離散化,可以實(shí)現(xiàn)縮減數(shù)據(jù)量的效果。

參考答案:

正確

如下表所示,使用FP-Growth計(jì)算其頻繁集,給定最小支持度為40%,頻繁模式樹(FP樹)有()個(gè)結(jié)點(diǎn)。(不包括根結(jié)點(diǎn))。交易號(hào)(TID)商品(Items)1beer,diaper,nuts2beer,biscuit,diaper3bread,butter,cheese4beer,cheese,diaper,nuts5beer,butter,cheese,nuts

參考答案:

9

如下表所示,X={butter,cheese},則支持度support(X)=()。交易號(hào)(TID)商品(Items)1beer,diaper,nuts2beer,biscuit,diaper3bread,butter,cheese4beer,cheese,diaper,nuts5beer,butter,cheese,nuts

參考答案:

2/5

Python在調(diào)用efficient-apriori包中的apriori函數(shù)進(jìn)行挖掘關(guān)聯(lián)規(guī)則時(shí),第二個(gè)返回值是()。

參考答案:

關(guān)聯(lián)規(guī)則

以下Python包中,提供了DataFrame數(shù)據(jù)類型的是()。

參考答案:

Pandas

對(duì)于非對(duì)稱的二元屬性,兩個(gè)都取值1的情況(正匹配)被認(rèn)為比兩個(gè)都取值0的情況(負(fù)匹配)更有意義,其中負(fù)匹配數(shù)t被認(rèn)為是不重要的,因此在計(jì)算時(shí)可以忽略。

參考答案:

正確

給定兩個(gè)數(shù)據(jù)對(duì)象(19,4,5)和(22,6,3),則兩個(gè)對(duì)象之間的曼哈頓距離?!救绻?jì)算結(jié)果是小數(shù),則保留一位;如果是整數(shù),則直接填寫整數(shù)】

參考答案:

7

一種簡(jiǎn)單的填補(bǔ)缺失值的方法為,將屬于同一類的對(duì)象的該屬性值的均值賦予此缺失值。

參考答案:

正確

給定兩個(gè)數(shù)據(jù)對(duì)象(19,4,5)和(22,6,3),則兩個(gè)對(duì)象之間的歐氏距離。【如果計(jì)算結(jié)果是小數(shù),則保留一位;如果是整數(shù),則直接填寫整數(shù)】

參考答案:

4.1

樸素貝葉斯分類中得到條件概率的方法錯(cuò)誤的是()。

參考答案:

對(duì)于定性屬性,將轉(zhuǎn)化為定量屬性,再計(jì)算相應(yīng)的概率

以下哪種算法是分類算法()。

參考答案:

C4.5

決策樹中不包含一下哪種結(jié)點(diǎn)()。

參考答案:

外部結(jié)點(diǎn)(externalnode)

在Scikit-learn模塊下,不同分類模型在訓(xùn)練時(shí),調(diào)用的方法名稱()。

參考答案:

相同

一般來說數(shù)據(jù)庫(kù)中行對(duì)應(yīng)于數(shù)據(jù)對(duì)象,而列對(duì)應(yīng)于屬性。

參考答案:

正確

在探索性數(shù)據(jù)分析中,認(rèn)為最有代表性,最能反映數(shù)據(jù)重要特征的五數(shù)概括,包括:

參考答案:

最小值_中位數(shù)Q2_四分位數(shù)Q1_最大值

下列哪些指標(biāo)可以度量數(shù)據(jù)的離散趨勢(shì)度量:

參考答案:

極差_四分位數(shù)_五數(shù)概括_四分位數(shù)極差

下列對(duì)學(xué)生的描述屬性中,標(biāo)稱屬性的屬性是:

參考答案:

婚姻狀況_學(xué)號(hào)_頭發(fā)顏色

為了避免包的依賴關(guān)系和系統(tǒng)兼容性等方面出現(xiàn)問題,本課程推薦的Python安裝方式為()。

參考答案:

通過Anaconda安裝

以下Python包中,繪圖功能最強(qiáng)大的是()。

參考答案:

Matplotlib

Python科學(xué)計(jì)算的基本包是()。

參考答案:

Numpy

Python語(yǔ)言在創(chuàng)始人是()。

參考答案:

GuidovanRossum

度量作為一種測(cè)度,滿足以下哪些條件:

參考答案:

以上均是

基于熵的方法可以被看做是自頂向下的分裂方法,ChiMerge則屬于自底向上的合并方法。

參考答案:

正確

分類是總結(jié)已有類別對(duì)象的特點(diǎn),并根據(jù)這些特點(diǎn),進(jìn)行未知類別對(duì)象的類別預(yù)測(cè)的過程。又可稱為無(wú)監(jiān)督學(xué)習(xí)。

參考答案:

錯(cuò)誤

ID3的分裂屬性選擇條件是選擇信息增益最大的作為分裂屬性。

參考答案:

正確

k近鄰方法不需要事先學(xué)習(xí)分類模型,當(dāng)需要預(yù)測(cè)的時(shí)候,根據(jù)預(yù)測(cè)樣本的特性和已知訓(xùn)練數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行類別的判斷。

參考答案:

正確

為了檢驗(yàn)回歸系數(shù)的顯著性,可以使用F檢驗(yàn)。

參考答案:

錯(cuò)誤

在模型樹的剪枝過程中,兩個(gè)葉子結(jié)點(diǎn)的期望誤差通過加權(quán)求和結(jié)合在一起作為子樹誤差。

參考答案:

正確

在模型樹的構(gòu)建過程中,應(yīng)選擇使SDR值最小的屬性。

參考答案:

錯(cuò)誤

為了抵消少數(shù)極端值對(duì)均值計(jì)算的影響,我們可以使用。

參考答案:

截尾均值

四分位數(shù)極差(IQR)是第1個(gè)和第2個(gè)四分位數(shù)之間的距離。

參考答案:

錯(cuò)誤

在文獻(xiàn)中,屬性、維、特征和變量通常可以互換地使用。

參考答案:

正確

一元線性回歸的步驟:構(gòu)建包含因變量和自變量的訓(xùn)練集;通過散點(diǎn)圖確認(rèn)因變量和自變量之前的近似線性關(guān)系;計(jì)算系數(shù)和構(gòu)建模型;模型檢驗(yàn);利用模型進(jìn)行預(yù)測(cè)。

參考答案:

正確

下列哪項(xiàng)不是時(shí)間序列的主要研究方法()

參考答案:

序列模式挖掘

利用tree.DecisionTreeClassifier()訓(xùn)練模型時(shí)調(diào)用.fit()方法需要傳遞的第二個(gè)參數(shù)是()。

參考答案:

樣本標(biāo)簽Y

利用tree.DecisionTreeClassifier()訓(xùn)練模型時(shí)調(diào)用.fit()方法需要傳遞的第一個(gè)參數(shù)是()。

參考答案:

樣本特征X

通過代碼“fromsklearnimporttree”引入決策樹模塊,并通過代碼“clf=tree.DecisionTreeClassifier()”構(gòu)造分類器對(duì)象,在訓(xùn)練后做預(yù)測(cè)時(shí)要調(diào)用的方法是()。

參考答案:

clf.predict()

通過代碼“fromsklearnimporttree”引入決策樹模塊,并通過代碼“clf=tree.DecisionTreeClassifier()”構(gòu)造分類器對(duì)象后,訓(xùn)練時(shí)要調(diào)用的方法是()。

參考答案:

clf.fit()

下列屬于異質(zhì)網(wǎng)絡(luò)的是()

參考答案:

在線醫(yī)療網(wǎng)絡(luò)

機(jī)動(dòng)車輛管理者把GPS安裝在汽車上,以便更好地監(jiān)管和引導(dǎo)車輛,所記錄的數(shù)據(jù)屬于()

參考答案:

時(shí)空數(shù)據(jù)

典型的文本挖掘任務(wù)包括()

參考答案:

以上都是

根據(jù)分析目標(biāo),Web挖掘可以劃分主要研究領(lǐng)域包括()。

參考答案:

Web結(jié)構(gòu)挖掘_Web使用挖掘_Web內(nèi)容挖掘

下面哪些是時(shí)空數(shù)據(jù)的應(yīng)用()。

參考答案:

動(dòng)物學(xué)家把遙感設(shè)備安裝在野生動(dòng)物身上,以便分析生態(tài)行為_機(jī)動(dòng)車輛管理者把GPS安裝在汽車上,以便更好地監(jiān)管和引導(dǎo)車輛_氣象學(xué)家使用人造衛(wèi)星和雷達(dá)觀察颶風(fēng)

符號(hào)序列數(shù)據(jù)由事件或標(biāo)稱數(shù)據(jù)的長(zhǎng)序列組成,通常時(shí)間間隔相等。

參考答案:

錯(cuò)誤

圖與網(wǎng)絡(luò)挖掘應(yīng)用范圍廣泛,涉及生物信息學(xué)、化學(xué)情報(bào)學(xué)、計(jì)算機(jī)視覺、多媒體和文本檢索。

參考答案:

正確

數(shù)據(jù)挖掘包括下面哪些方法()。

參考答案:

聚類_分類_異常發(fā)現(xiàn)_關(guān)聯(lián)

()是指大量流入系統(tǒng)、動(dòng)態(tài)變化的、可能無(wú)限的,并且包含多維特征的數(shù)據(jù)。

參考答案:

流數(shù)據(jù)

Python在調(diào)用efficient-apriori包中的apriori函數(shù)進(jìn)行挖掘關(guān)聯(lián)規(guī)則時(shí),第一個(gè)返回值是()。

參考答案:

頻繁項(xiàng)集

如下表所示,X={butter,cheese},Y={beer},則置信度confidence(X→Y)=()。交易號(hào)(TID)商品(Items)1beer,diaper,nuts2beer,biscuit,diaper3bread,butter,cheese4beer,cheese,diaper,nuts5beer,butter,cheese,nuts

參考答案:

1/2

回歸系數(shù)的檢驗(yàn)可以采用t檢驗(yàn)。

參考答案:

正確

在模型樹的構(gòu)建過程中,分裂屬性的選擇以分裂后的各個(gè)子數(shù)據(jù)集中目標(biāo)屬性取值的標(biāo)準(zhǔn)差為依據(jù),將標(biāo)準(zhǔn)差作為一種誤差度量,將分裂前后標(biāo)準(zhǔn)差的減少量作為誤差的期望減少,稱為SDR。

參考答案:

正確

通過代碼”fromsklearn.clusterimportKMeans”引入Kmenas模塊后,生成模型對(duì)象“kmeans=KMeans(n_clusters=3)”并完成對(duì)數(shù)據(jù)X完成聚類后,以下哪個(gè)代碼可以查看每個(gè)樣本所屬簇的標(biāo)簽()。

參考答案:

kmeans.labels_

目前大部分系統(tǒng)能夠多次讀取流數(shù)據(jù)。

參考答案:

錯(cuò)誤

物聯(lián)網(wǎng)系統(tǒng)由大量相互作用的物理和信息部件組成,其例子包括患者護(hù)理系統(tǒng),運(yùn)輸系統(tǒng)等。

參考答案:

正確

“你和任何一個(gè)陌生人之間所間隔的人不會(huì)超過六個(gè)”稱為小世界現(xiàn)象。

參考答案:

正確

Python科學(xué)計(jì)算的基本包是()。

參考答案:

Numpy

購(gòu)買了此商品后還會(huì)購(gòu)買的商品,它們的地位是平等的,其中涉及了時(shí)間和順序的概念,強(qiáng)調(diào)的是一個(gè)規(guī)則,也就是我們所說的關(guān)聯(lián)規(guī)則。

參考答案:

錯(cuò)誤

假設(shè)某分類器在一個(gè)測(cè)試數(shù)據(jù)集上的分類結(jié)果的混淆矩陣如下所示,請(qǐng)計(jì)算該分類器的錯(cuò)誤率,以類別yes為正例,計(jì)算分類器的查全率recall為%。【保留到整數(shù)位】Predicte

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論