




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)挖掘與python實(shí)踐_中央財(cái)經(jīng)大學(xué)中國(guó)大學(xué)mooc課后章節(jié)答案期末考試題庫(kù)2023年()采用自頂向下分而治之的思想,將訓(xùn)練集不斷分割成子數(shù)據(jù)集來不斷擴(kuò)展樹枝,當(dāng)滿足一定條件時(shí)停止樹的生長(zhǎng)。
參考答案:
決策樹_模型樹_回歸樹
最小最大規(guī)范化方法MinMaxScaler屬于python中的哪個(gè)包()。
參考答案:
sklearn
使用python處理缺失值的方法中敘述錯(cuò)誤的是()。
參考答案:
interpolate()使用中位數(shù)填充缺失值
數(shù)據(jù)預(yù)處理的任務(wù)不包括()。
參考答案:
數(shù)據(jù)分類
在使用主成分分析法進(jìn)行數(shù)據(jù)屬性特征提取中,在對(duì)數(shù)據(jù)集進(jìn)行中心化處理后,為了去除冗余和降低噪音,應(yīng)將協(xié)方差矩陣非對(duì)角線上的元素化為()。
參考答案:
0
特征選擇方法中,一般的啟發(fā)式方法有()。
參考答案:
以上都是
通過代碼“fromsklearnimportmetrics”引入評(píng)價(jià)指標(biāo)模塊后,面對(duì)真實(shí)標(biāo)簽true_label和模型預(yù)測(cè)標(biāo)簽predicted_label,混淆矩陣可通過調(diào)用()代碼得到。
參考答案:
metrics.confusion_matrix(true_labe,predicted_label)
使用等距離分箱法進(jìn)行數(shù)據(jù)離散化,數(shù)據(jù)范圍為20,40,50,58,65,80,80,82,86,90,96,105,120,200,區(qū)間個(gè)數(shù)為4。下列屬于4個(gè)箱的區(qū)間是()。
參考答案:
[110,155)
運(yùn)行以下代碼”importmatplotlib.pyplotasplt”引入plt后,要繪制餅狀圖,需要利用的函數(shù)為()。
參考答案:
plt.pie()
在利用linear_model.LinearRegression()構(gòu)造的reg對(duì)象訓(xùn)練模型后,可以通過以下哪行代碼查看回歸模型系數(shù)()。
參考答案:
reg.coef_
在以下四個(gè)散點(diǎn)圖中,其中適用于作線性回歸的散點(diǎn)圖為()?!緢D片】
參考答案:
①③
已知對(duì)一組觀察值(xi,yi)作出散點(diǎn)圖后確定具有線性相關(guān)關(guān)系,若對(duì)于y=bx+a,求得b=0.51,x=61.75,y=38.14,則線性回歸方程為()。
參考答案:
y=0.51x+6.65
下面關(guān)于構(gòu)建模型樹的說法中,錯(cuò)誤的是()。
參考答案:
在選擇分類屬性時(shí),應(yīng)選擇時(shí)SDR值最小的屬性
下列選項(xiàng)中錯(cuò)誤的是()。
參考答案:
SSR=SST+SSE
決策樹的葉子結(jié)點(diǎn)對(duì)應(yīng)()。
參考答案:
某個(gè)類別
假設(shè)某分類器在一個(gè)測(cè)試數(shù)據(jù)集上的分類結(jié)果的混淆矩陣如下所示,該分類器的準(zhǔn)確率accuracy為()。PredictedyesnoActualyes155no1020
參考答案:
70%
假設(shè)某分類器在一個(gè)測(cè)試數(shù)據(jù)集上的分類結(jié)果的混淆矩陣如下所示,該分類器的錯(cuò)誤率errorrate為()。PredictedyesnoActualyes155no1020
參考答案:
30%
為了比較利用不同分類算法構(gòu)建的分類模型的性能,可以利用圖形進(jìn)行比較,常用的圖形包括()。
參考答案:
ROC曲線_增益圖
回歸樹的葉子結(jié)點(diǎn)對(duì)應(yīng)()。
參考答案:
一個(gè)數(shù)值
在比較模型的擬合效果時(shí),甲、乙、丙、丁四個(gè)模型的決定系數(shù)R^2的值分別約為0.96、0.85、0.80和0.7,則擬合效果好的模型是()。
參考答案:
甲
多元回歸建模后的檢驗(yàn)包括()。
參考答案:
回歸系數(shù)的顯著性檢驗(yàn)_回歸關(guān)系的顯著性檢驗(yàn)_擬合優(yōu)度檢驗(yàn)
常用的非線性函數(shù)除了多項(xiàng)式函數(shù)之外,還包括()。
參考答案:
冪函數(shù)_對(duì)數(shù)函數(shù)_指數(shù)函數(shù)_雙曲函數(shù)
回歸樹和模型樹都是通過自下而上、分而治之的思想,將訓(xùn)練集不斷分割成子數(shù)據(jù)集來不斷擴(kuò)展樹枝,當(dāng)滿足一定條件時(shí)停止樹的生長(zhǎng)。
參考答案:
錯(cuò)誤
多元回歸是對(duì)一個(gè)自變量和多個(gè)因變量之間的回歸分析。
參考答案:
錯(cuò)誤
模型樹構(gòu)建之后,為了避免過度擬合,需要對(duì)模型樹進(jìn)行剪枝。
參考答案:
正確
K近鄰數(shù)值預(yù)測(cè)是利用一個(gè)樣本的K個(gè)最相似的鄰居的目標(biāo)屬性的取值來進(jìn)行預(yù)測(cè)。
參考答案:
正確
模型樹構(gòu)建之后,為了避免過度擬合,需要對(duì)模型樹進(jìn)行________。
參考答案:
剪枝
運(yùn)行以下代碼“importmatplotlib.pyplotasplt”引入plt后,要繪制散點(diǎn)圖,需要利用的函數(shù)為()。
參考答案:
plt.scatter()
在Numpy包中,計(jì)算標(biāo)準(zhǔn)差的函數(shù)為()。
參考答案:
numpy.std()
在Numpy包中,計(jì)算中位數(shù)的函數(shù)為()。
參考答案:
numpy.median()
通過代碼”fromsklearn.clusterimportKMeans”引入Kmenas模塊,生成模型對(duì)象“kmeans=KMeans(n_clusters=2)”后,對(duì)于數(shù)據(jù)X訓(xùn)練時(shí)要調(diào)用的方法是()。
參考答案:
kmeans.fit()
以下哪種情況對(duì)Kmeans模型的影響較?。ǎ?。
參考答案:
簇的大小分布不均衡
在利用sklearn.cluster.AgglomerativeClustering進(jìn)行凝聚聚類時(shí),使用的默認(rèn)距離度量是()。
參考答案:
歐氏距離
()可以觀察從一個(gè)分布到另一分布是否有漂移。
參考答案:
分位數(shù)-分位數(shù)圖
結(jié)構(gòu)化的數(shù)據(jù)是指一些數(shù)據(jù)通過統(tǒng)一的()的形式存儲(chǔ)的,這類數(shù)據(jù)我們稱為結(jié)構(gòu)化的數(shù)據(jù)。
參考答案:
二維表格
在模型樹的構(gòu)建過程中,分裂屬性的選擇以分裂后的各個(gè)子數(shù)據(jù)集中目標(biāo)屬性取值的標(biāo)準(zhǔn)差為依據(jù),將標(biāo)準(zhǔn)差作為一種誤差度量,將分裂前后標(biāo)準(zhǔn)差的減少量作為誤差的期望減少,稱為_________(填寫英文簡(jiǎn)稱)。
參考答案:
SDR
逐層發(fā)現(xiàn)算法Apriori發(fā)現(xiàn)頻繁項(xiàng)集的過程是按照項(xiàng)集的長(zhǎng)度由大到小逐級(jí)進(jìn)行的。
參考答案:
錯(cuò)誤
Python在調(diào)用efficient-apriori包中的apriori函數(shù)訓(xùn)練挖掘關(guān)聯(lián)規(guī)則時(shí),設(shè)定最小支持度的參數(shù)是______。
參考答案:
min_support
P(22,1,42,10),Q(20,0,36,8)為兩個(gè)向量對(duì)象,這兩個(gè)對(duì)象的曼哈頓距離是()。
參考答案:
11
決策樹中根結(jié)點(diǎn)的層次為?!菊?qǐng)?zhí)顚懓⒗當(dāng)?shù)字】
參考答案:
1
P(22,1,42,10),Q(20,0,36,8)為兩個(gè)向量對(duì)象,這兩個(gè)對(duì)象的切比雪夫距離是()。
參考答案:
6
下面哪些聚類方法易于發(fā)現(xiàn)具有球形形狀的簇,難以發(fā)現(xiàn)橢圓形或者凹形形狀的簇?
參考答案:
層次聚類_k均值聚類
關(guān)于聚類下列說法正確的是()。
參考答案:
聚類可以發(fā)現(xiàn)偏離多數(shù)數(shù)據(jù)對(duì)象的孤立點(diǎn)。_聚類可以作為其他數(shù)據(jù)挖掘分析過程的一個(gè)基礎(chǔ)處理步驟。_聚類有著廣泛的應(yīng)用。
網(wǎng)絡(luò)由一個(gè)節(jié)點(diǎn)集和一個(gè)連接這些節(jié)點(diǎn)的邊集組成。
參考答案:
正確
運(yùn)行以下代碼“importmatplotlib.pyplotasplt”引入plt后,要繪制折線圖,需要利用的函數(shù)為()。
參考答案:
plt.plot()
使用等距離分箱法進(jìn)行數(shù)據(jù)離散化,數(shù)據(jù)范圍為20,40,50,58,65,80,80,82,86,90,96,105,120,200,區(qū)間個(gè)數(shù)為4。下列屬于4個(gè)箱的區(qū)間是()。
參考答案:
[110,155)
特征選擇方法中,一般的啟發(fā)式方法有()。
參考答案:
以上都是
聚類分析的過程中,聚類效果較好時(shí)屬于同一個(gè)簇的對(duì)象相似度很高,而屬于不同簇的對(duì)象相似度很低。
參考答案:
正確
使用零均值規(guī)范化方法,年收入屬性的均值為65,標(biāo)準(zhǔn)差為12,則年收入59萬(wàn)元規(guī)范化后為()。
參考答案:
-0.5
通過代碼fromsklearnimporttree引入決策樹模塊,并通過代碼clf=tree.DecisionTreeClassifier()構(gòu)造分類器對(duì)象后,訓(xùn)練時(shí)要調(diào)用的方法是()。
參考答案:
clf.fit()
運(yùn)行以下代碼fromsklearn.datasetsimportload_irisiris_data=load_iris()iris_data.data.shape輸出結(jié)果為(150,4)。則表示iris數(shù)據(jù)集包括樣本個(gè)數(shù)為()。
參考答案:
150
多種屬性相似度的綜合度量,可以先對(duì)單個(gè)屬性進(jìn)行相似度度量,然后求所有屬性相似度的均值作為整個(gè)對(duì)象相似度。
參考答案:
正確
凝聚度是用于衡量簇間相似程度的,凝聚度越大越好。
參考答案:
正確
基于隨機(jī)游走理論的鏈接相似度衡量方法(稱為SimRank)計(jì)算兩結(jié)點(diǎn)間的相似度,具有有界性、對(duì)稱性、單調(diào)遞增性、三角不等式性質(zhì)。
參考答案:
錯(cuò)誤
數(shù)值預(yù)測(cè)用于連續(xù)變量的取值,常用的預(yù)測(cè)方法是()。
參考答案:
回歸分析
給定df是一個(gè)DataFrame對(duì)象,對(duì)df所有字段進(jìn)行描述性統(tǒng)計(jì),可以利用的方法為()。
參考答案:
df.describe()
輪廓系數(shù)是將凝聚度和分離度相結(jié)合的一種度量,越大聚類效果越好。
參考答案:
正確
DBSCAN是一種基于密度的聚類方法,容易發(fā)現(xiàn)特殊形狀的簇。
參考答案:
正確
K均值聚類需要提前設(shè)定K值,而凝聚層次法不需要預(yù)先設(shè)置參數(shù)。
參考答案:
正確
運(yùn)行以下代碼fromsklearn.datasetsimportload_irisiris_data=load_iris()iris_data.data.shape輸出結(jié)果為(150,4)。則表示iris數(shù)據(jù)集包括樣本特征數(shù)為()。
參考答案:
4
數(shù)值預(yù)測(cè)與分類都屬于有監(jiān)督學(xué)習(xí),解決問題的過程相同,都是先通過訓(xùn)練數(shù)據(jù)集進(jìn)行學(xué)習(xí),以得到一個(gè)模型然后利用模型進(jìn)行預(yù)測(cè)。
參考答案:
正確
【圖片】的值越接近1,說明回歸直線對(duì)觀測(cè)值的擬合程度越好。
參考答案:
正確
中列數(shù)是數(shù)據(jù)集的最大值和的平均值。
參考答案:
最小值
Jaccard系數(shù)適用于衡量用________二值屬性描述的對(duì)象間的相似度。
參考答案:
非對(duì)稱
多媒體數(shù)據(jù)挖掘是一個(gè)交叉學(xué)科領(lǐng)域,涉及圖像處理和理解、計(jì)算機(jī)視覺、數(shù)據(jù)挖掘和模式識(shí)別。
參考答案:
正確
如果一個(gè)規(guī)則和其祖先規(guī)則具有近似相同的置信度,則該規(guī)則稱為_____。為了減少發(fā)現(xiàn)的規(guī)則數(shù)目,可以將其從輸出的結(jié)果中刪除。
參考答案:
冗余規(guī)則
下列哪些選項(xiàng)能表示序數(shù)屬性的數(shù)據(jù)集中趨勢(shì)度量()。
參考答案:
眾數(shù)
下列對(duì)學(xué)生相關(guān)屬性描述中,不是標(biāo)稱屬性的是()。
參考答案:
身高
在使用主成分分析法進(jìn)行數(shù)據(jù)屬性特征提取中,在對(duì)數(shù)據(jù)集進(jìn)行中心化處理后,為了去除冗余和降低噪音,應(yīng)將協(xié)方差矩陣非對(duì)角線上的元素化為()。
參考答案:
0
通過代碼”fromsklearnimportlinear_model”引入線性模型模塊,并通過代碼“reg=linear_model.LinearRegression()”構(gòu)造回歸器對(duì)象后,在訓(xùn)練時(shí)要調(diào)用的方法是()。
參考答案:
reg.fit()
利用linear_model.LinearRegression()訓(xùn)練模型時(shí)調(diào)用.fit()方法需要傳遞的第二個(gè)參數(shù)是()。
參考答案:
樣本標(biāo)簽Y
給定一個(gè)頻繁負(fù)項(xiàng)集X,我們可以從中發(fā)現(xiàn)隱含的負(fù)關(guān)聯(lián)規(guī)則。負(fù)項(xiàng)集和負(fù)關(guān)聯(lián)規(guī)則統(tǒng)稱為_____。
參考答案:
負(fù)模式
對(duì)于指數(shù)曲線y=a*e^(bx),令u=lny,c=lna,經(jīng)過非線性化回歸分析之后,可以轉(zhuǎn)化成的形式為()。
參考答案:
u=c+bx
模型樹的葉子結(jié)點(diǎn)對(duì)應(yīng)()。
參考答案:
一個(gè)線性回歸方程
給定numpy.ndarray類型的數(shù)X,在以下代碼中,eps參數(shù)的含義是()。fromsklearn.clusterimportDBSCANclustering=DBSCAN(eps=3,min_samples=2).fit(X)
參考答案:
鄰域半徑
下面哪些聚類方法易于發(fā)現(xiàn)特殊形狀的簇?
參考答案:
基于密度的聚類方法_DBSCAN
FP-growth算法無(wú)須生成候選項(xiàng)集的方法,可以避免產(chǎn)生大量候選項(xiàng)集。
參考答案:
正確
如果一個(gè)規(guī)則X→Y同時(shí)滿足support(X→Y)≥minsup和confidence(X→Y)≥minconf,則稱該規(guī)則在數(shù)據(jù)庫(kù)D中成立,其中minsup和minconf分別是用戶給定的最小支持度和最小置信度的閾值。
參考答案:
正確
具體來講,若一個(gè)項(xiàng)集X的支持度大于用戶給定的一個(gè)最小支持度閾值,則X被稱為頻繁項(xiàng)集(或頻繁模式)。
參考答案:
正確
下列應(yīng)用場(chǎng)景不屬于分類的是()。
參考答案:
為了解用戶特點(diǎn),公司將客戶分群
基于熵的離散化方法是常用的有監(jiān)督的離散化方法。
參考答案:
正確
通過代碼fromsklearnimporttree引入決策樹模塊,并通過代碼clf=tree.DecisionTreeClassifier()構(gòu)造分類器對(duì)象,在訓(xùn)練后做預(yù)測(cè)時(shí)要調(diào)用的方法是()。
參考答案:
clf.predict()
二元屬性是一種特殊的標(biāo)稱屬性,分為對(duì)稱和不對(duì)稱兩種。
參考答案:
正確
數(shù)據(jù)挖掘又稱從數(shù)據(jù)中發(fā)現(xiàn)知識(shí),前者英文簡(jiǎn)稱為()。
參考答案:
DM
以下Python包中,最適合用于機(jī)器學(xué)習(xí)的是()。
參考答案:
Scikit-learn
給定兩個(gè)數(shù)據(jù)對(duì)象(19,4,5)和(22,6,3),則兩個(gè)對(duì)象之間的上確界距離?!救绻?jì)算結(jié)果是小數(shù),則保留一位;如果是整數(shù),則直接填寫整數(shù)】
參考答案:
3
在主成分分析中,每個(gè)主成分都是原始變量的線性組合,且各個(gè)主成分之間互不相關(guān)。
參考答案:
正確
在Scikit-learn模塊下,不同分類模型在預(yù)測(cè)時(shí),調(diào)用的方法名稱()。
參考答案:
相同
數(shù)據(jù)挖掘又稱從數(shù)據(jù)中發(fā)現(xiàn)知識(shí),后者英文簡(jiǎn)稱為()。
參考答案:
KDD
通過代碼”fromsklearnimportlinear_model”引入線性模型模塊,并通過代碼“reg=linear_model.LinearRegression()”構(gòu)造回歸器對(duì)象,在訓(xùn)練后做預(yù)測(cè)時(shí)要調(diào)用的方法是()。
參考答案:
reg.predict()
預(yù)測(cè)的模型構(gòu)建需要來進(jìn)行分析。
參考答案:
歷史數(shù)據(jù)
數(shù)據(jù)挖掘又稱從數(shù)據(jù)中發(fā)現(xiàn)知識(shí),后者英文簡(jiǎn)稱為()。
參考答案:
KDD
數(shù)據(jù)挖掘又稱從數(shù)據(jù)中發(fā)現(xiàn)知識(shí),前者英文簡(jiǎn)稱為()。
參考答案:
DM
一般數(shù)據(jù)挖掘的流程順序,下列正確的是()。①選擇數(shù)據(jù)挖掘的技術(shù)、功能和合適的算法②選擇數(shù)據(jù),數(shù)據(jù)清洗和預(yù)處理③了解應(yīng)用領(lǐng)域,了解相關(guān)的知識(shí)和應(yīng)用目標(biāo)④尋找感興趣的模式、模式評(píng)估、知識(shí)表示⑤創(chuàng)建目標(biāo)數(shù)據(jù)集
參考答案:
③⑤②①④
結(jié)構(gòu)化的數(shù)據(jù)是指一些數(shù)據(jù)通過統(tǒng)一的()的形式存儲(chǔ)的,這類數(shù)據(jù)我們稱為結(jié)構(gòu)化的數(shù)據(jù)。
參考答案:
二維表格
數(shù)值預(yù)測(cè)用于連續(xù)變量的取值,常用的預(yù)測(cè)方法是()。
參考答案:
回歸分析
以下Python包中,繪圖功能最強(qiáng)大的是()。
參考答案:
matplotlib
下列關(guān)于數(shù)據(jù)規(guī)范化說法錯(cuò)誤的是()。
參考答案:
數(shù)據(jù)規(guī)范化是為了給重要的屬性賦予更大的權(quán)重
使用python處理缺失值的方法中敘述錯(cuò)誤的是()。
參考答案:
interpolate()使用中位數(shù)填充缺失值
主成分分析方法PCA屬于屬于python中的哪個(gè)包()。
參考答案:
sklearn
給定df是一個(gè)DataFrame對(duì)象,對(duì)df所有字段進(jìn)行描述性統(tǒng)計(jì),可以利用的方法為()。
參考答案:
df.describe()
運(yùn)行以下代碼“importmatplotlib.pyplotasplt”引入plt后,要繪制餅狀圖,需要利用的函數(shù)為()。
參考答案:
plt.pie()
運(yùn)行以下代碼“importmatplotlib.pyplotasplt”引入plt后,要繪制直方圖,需要利用的函數(shù)為()。
參考答案:
plt.hist()
使用最小-最大法進(jìn)行數(shù)據(jù)規(guī)范化,需要映射的目標(biāo)區(qū)間為[0,100],原來的取值范圍是[-10,10]。根據(jù)等比映射的原理,一個(gè)值8映射到新區(qū)間后的值是()。
參考答案:
90
利用tree.DecisionTreeClassifier()訓(xùn)練模型時(shí)調(diào)用.fit()方法需要傳遞的第一個(gè)參數(shù)是()。
參考答案:
樣本特征X
利用tree.DecisionTreeClassifier()訓(xùn)練模型時(shí)調(diào)用.fit()方法需要傳遞的第二個(gè)參數(shù)是()。
參考答案:
樣本標(biāo)簽Y
從存儲(chǔ)方式對(duì)數(shù)據(jù)類型進(jìn)行分類,可分為數(shù)據(jù)和數(shù)據(jù)。(輸入兩個(gè)位置的答案時(shí),以一個(gè)空格作為分隔符)
參考答案:
結(jié)構(gòu)化非結(jié)構(gòu)化
在這個(gè)大數(shù)據(jù)爆炸的時(shí)代,我們期待能夠從這些數(shù)據(jù)中提煉出有用的知識(shí),解決的方法就是技術(shù)和數(shù)據(jù)挖掘技術(shù)。
參考答案:
數(shù)據(jù)倉(cāng)庫(kù)
在這個(gè)大數(shù)據(jù)爆炸的時(shí)代,我們期待能夠從這些數(shù)據(jù)中提煉出有用的知識(shí),解決的方法就是數(shù)據(jù)倉(cāng)庫(kù)技術(shù)和技術(shù)。
參考答案:
數(shù)據(jù)挖掘
若Y和Z是X的兩個(gè)不同的k項(xiàng)子集,只有當(dāng)confidence(X-Y→Y)≥minconf和confidence(X-Z→Z)≥minconf都滿足時(shí),X-(Y∪Z)→(Y∪Z)一定成立。
參考答案:
錯(cuò)誤
在結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行關(guān)聯(lián)分析發(fā)現(xiàn)其中的頻繁模式和關(guān)聯(lián)規(guī)則。對(duì)于取值連續(xù)的屬性,首先將其離散化,然后將每個(gè)取值區(qū)間作為一個(gè)值,繼而轉(zhuǎn)化為“屬性=值”的形式。
參考答案:
正確
利用項(xiàng)的概念層次信息,不僅可以發(fā)現(xiàn)涉及那些出現(xiàn)頻率比較低的商品的頻繁模式和關(guān)聯(lián)規(guī)則,而且還可以發(fā)現(xiàn)概括性更強(qiáng)的規(guī)則。
參考答案:
正確
生物學(xué)序列通常很長(zhǎng),攜帶重要的、復(fù)雜的、隱藏的語(yǔ)義。
參考答案:
正確
在FP-growth構(gòu)建頻繁模式樹中,每個(gè)()(除根結(jié)點(diǎn)外)代表一個(gè)單項(xiàng),樹中的每條()代表原數(shù)據(jù)中每一個(gè)條目的各個(gè)項(xiàng)。如果把條目?jī)?nèi)的項(xiàng)組合在一起看成一個(gè)字符串,則字符串前綴相同時(shí)共享相同的()。
參考答案:
結(jié)點(diǎn);路徑;路徑
在多層次關(guān)聯(lián)規(guī)則分析中,如果將商品進(jìn)行歸類,每一商品類別的支持度會(huì)()其包含的每個(gè)商品的支持度,從而有利于發(fā)現(xiàn)一些有意義的頻繁模式或關(guān)聯(lián)規(guī)則。
參考答案:
大于
對(duì)于任一個(gè)頻繁項(xiàng)集X和它的一個(gè)非空真子集Y,S=X-Y,規(guī)則S→Y成立的條件是()。
參考答案:
confidence(S→Y)≥minconf
分類就是根據(jù)物以類聚的原理,將沒有類別的對(duì)象根據(jù)對(duì)象的特征自動(dòng)聚成不同簇的過程。
參考答案:
錯(cuò)誤
分類算法針對(duì)某個(gè)測(cè)試數(shù)據(jù)集的有效性通常通過矩陣來反映。
參考答案:
混淆
為了評(píng)價(jià)一個(gè)分類模型的性能,我們通常根據(jù)分類模型判斷一組已知類別的對(duì)象的類別,這些已知類別的對(duì)象構(gòu)成的數(shù)據(jù)集稱為。
參考答案:
測(cè)試數(shù)據(jù)集##%_YZPRLFH_%##測(cè)試集
x=(5,0,3,0,2,0,0,2,0,0)和y=(3,0,2,0,1,1,0,1,0,1),使用余弦相似度公式計(jì)算這兩個(gè)向量之間的相似性等于?!救绻?jì)算結(jié)果是小數(shù),則保留一位;如果是整數(shù),則直接填寫整數(shù)】
參考答案:
0.9
K近鄰方法的核心思想是對(duì)一個(gè)預(yù)測(cè)樣本A,從訓(xùn)練數(shù)據(jù)集中找到與其最相似的k個(gè)樣本,利用這個(gè)k個(gè)樣本的類別來決策該樣本A的類別。
參考答案:
正確
序列分析經(jīng)常會(huì)用在購(gòu)物籃分析中。
參考答案:
錯(cuò)誤
關(guān)聯(lián)分析是數(shù)據(jù)分析中常用的分析方法。
參考答案:
正確
序數(shù)屬性的值存在有意義的序。相鄰兩者之間的差是已知的。
參考答案:
錯(cuò)誤
如果屬性不是離散的,則它是連續(xù)的。
參考答案:
正確
決策樹的思想是自頂向下遞歸的構(gòu)建過程,關(guān)鍵點(diǎn)是在于分裂屬性和分裂條件的選擇。
參考答案:
正確
構(gòu)造訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集的常用方法有()。
參考答案:
保持法(holdout)_留一法(leaveoneout)_自助抽樣法(bootstrap)_交叉驗(yàn)證法(crossvalidation)
分類和回歸都可用于預(yù)測(cè),分類的輸出是離散的類別值。
參考答案:
正確
聚類針對(duì)有標(biāo)簽的數(shù)據(jù)。
參考答案:
錯(cuò)誤
4人喜歡服飾的顏色如下,屬性是標(biāo)稱屬性。李四和孫六的相似性是()。姓名帽子顏色上衣顏色褲子顏色鞋子顏色圍巾顏色張三紅藍(lán)藍(lán)綠紅李四紅藍(lán)藍(lán)紅粉王五黃綠藍(lán)綠紅孫六藍(lán)藍(lán)藍(lán)紅粉
參考答案:
4/5
盒圖用來考察兩個(gè)屬性之間是否存在正相關(guān)和負(fù)相關(guān)。
參考答案:
錯(cuò)誤
相異性矩陣又稱對(duì)象-對(duì)象結(jié)構(gòu),存放n個(gè)對(duì)象兩兩之間的鄰近度。
參考答案:
正確
在計(jì)算混合類型屬性的相異性時(shí),一般是通過將所有有意義的屬性轉(zhuǎn)換到共同的區(qū)間[0.0,1.0]上,實(shí)現(xiàn)在單個(gè)相異性矩陣中進(jìn)行計(jì)算。
參考答案:
正確
預(yù)測(cè)性能的優(yōu)劣需要一定的度量來衡量,常用的度量是()。
參考答案:
RAE(相對(duì)絕對(duì)誤差)_RSE(相對(duì)平方誤差)_MAE(平均絕對(duì)誤差)_MSE(均方誤差)
特征選擇過程是描述同一對(duì)象的多個(gè)屬性的取值范圍,統(tǒng)一到相同的范圍,避免某些屬性的作用大于其它屬性。
參考答案:
錯(cuò)誤
通過數(shù)據(jù)離散化,可以實(shí)現(xiàn)縮減數(shù)據(jù)量的效果。
參考答案:
正確
如下表所示,使用FP-Growth計(jì)算其頻繁集,給定最小支持度為40%,頻繁模式樹(FP樹)有()個(gè)結(jié)點(diǎn)。(不包括根結(jié)點(diǎn))。交易號(hào)(TID)商品(Items)1beer,diaper,nuts2beer,biscuit,diaper3bread,butter,cheese4beer,cheese,diaper,nuts5beer,butter,cheese,nuts
參考答案:
9
如下表所示,X={butter,cheese},則支持度support(X)=()。交易號(hào)(TID)商品(Items)1beer,diaper,nuts2beer,biscuit,diaper3bread,butter,cheese4beer,cheese,diaper,nuts5beer,butter,cheese,nuts
參考答案:
2/5
Python在調(diào)用efficient-apriori包中的apriori函數(shù)進(jìn)行挖掘關(guān)聯(lián)規(guī)則時(shí),第二個(gè)返回值是()。
參考答案:
關(guān)聯(lián)規(guī)則
以下Python包中,提供了DataFrame數(shù)據(jù)類型的是()。
參考答案:
Pandas
對(duì)于非對(duì)稱的二元屬性,兩個(gè)都取值1的情況(正匹配)被認(rèn)為比兩個(gè)都取值0的情況(負(fù)匹配)更有意義,其中負(fù)匹配數(shù)t被認(rèn)為是不重要的,因此在計(jì)算時(shí)可以忽略。
參考答案:
正確
給定兩個(gè)數(shù)據(jù)對(duì)象(19,4,5)和(22,6,3),則兩個(gè)對(duì)象之間的曼哈頓距離?!救绻?jì)算結(jié)果是小數(shù),則保留一位;如果是整數(shù),則直接填寫整數(shù)】
參考答案:
7
一種簡(jiǎn)單的填補(bǔ)缺失值的方法為,將屬于同一類的對(duì)象的該屬性值的均值賦予此缺失值。
參考答案:
正確
給定兩個(gè)數(shù)據(jù)對(duì)象(19,4,5)和(22,6,3),則兩個(gè)對(duì)象之間的歐氏距離。【如果計(jì)算結(jié)果是小數(shù),則保留一位;如果是整數(shù),則直接填寫整數(shù)】
參考答案:
4.1
樸素貝葉斯分類中得到條件概率的方法錯(cuò)誤的是()。
參考答案:
對(duì)于定性屬性,將轉(zhuǎn)化為定量屬性,再計(jì)算相應(yīng)的概率
以下哪種算法是分類算法()。
參考答案:
C4.5
決策樹中不包含一下哪種結(jié)點(diǎn)()。
參考答案:
外部結(jié)點(diǎn)(externalnode)
在Scikit-learn模塊下,不同分類模型在訓(xùn)練時(shí),調(diào)用的方法名稱()。
參考答案:
相同
一般來說數(shù)據(jù)庫(kù)中行對(duì)應(yīng)于數(shù)據(jù)對(duì)象,而列對(duì)應(yīng)于屬性。
參考答案:
正確
在探索性數(shù)據(jù)分析中,認(rèn)為最有代表性,最能反映數(shù)據(jù)重要特征的五數(shù)概括,包括:
參考答案:
最小值_中位數(shù)Q2_四分位數(shù)Q1_最大值
下列哪些指標(biāo)可以度量數(shù)據(jù)的離散趨勢(shì)度量:
參考答案:
極差_四分位數(shù)_五數(shù)概括_四分位數(shù)極差
下列對(duì)學(xué)生的描述屬性中,標(biāo)稱屬性的屬性是:
參考答案:
婚姻狀況_學(xué)號(hào)_頭發(fā)顏色
為了避免包的依賴關(guān)系和系統(tǒng)兼容性等方面出現(xiàn)問題,本課程推薦的Python安裝方式為()。
參考答案:
通過Anaconda安裝
以下Python包中,繪圖功能最強(qiáng)大的是()。
參考答案:
Matplotlib
Python科學(xué)計(jì)算的基本包是()。
參考答案:
Numpy
Python語(yǔ)言在創(chuàng)始人是()。
參考答案:
GuidovanRossum
度量作為一種測(cè)度,滿足以下哪些條件:
參考答案:
以上均是
基于熵的方法可以被看做是自頂向下的分裂方法,ChiMerge則屬于自底向上的合并方法。
參考答案:
正確
分類是總結(jié)已有類別對(duì)象的特點(diǎn),并根據(jù)這些特點(diǎn),進(jìn)行未知類別對(duì)象的類別預(yù)測(cè)的過程。又可稱為無(wú)監(jiān)督學(xué)習(xí)。
參考答案:
錯(cuò)誤
ID3的分裂屬性選擇條件是選擇信息增益最大的作為分裂屬性。
參考答案:
正確
k近鄰方法不需要事先學(xué)習(xí)分類模型,當(dāng)需要預(yù)測(cè)的時(shí)候,根據(jù)預(yù)測(cè)樣本的特性和已知訓(xùn)練數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行類別的判斷。
參考答案:
正確
為了檢驗(yàn)回歸系數(shù)的顯著性,可以使用F檢驗(yàn)。
參考答案:
錯(cuò)誤
在模型樹的剪枝過程中,兩個(gè)葉子結(jié)點(diǎn)的期望誤差通過加權(quán)求和結(jié)合在一起作為子樹誤差。
參考答案:
正確
在模型樹的構(gòu)建過程中,應(yīng)選擇使SDR值最小的屬性。
參考答案:
錯(cuò)誤
為了抵消少數(shù)極端值對(duì)均值計(jì)算的影響,我們可以使用。
參考答案:
截尾均值
四分位數(shù)極差(IQR)是第1個(gè)和第2個(gè)四分位數(shù)之間的距離。
參考答案:
錯(cuò)誤
在文獻(xiàn)中,屬性、維、特征和變量通常可以互換地使用。
參考答案:
正確
一元線性回歸的步驟:構(gòu)建包含因變量和自變量的訓(xùn)練集;通過散點(diǎn)圖確認(rèn)因變量和自變量之前的近似線性關(guān)系;計(jì)算系數(shù)和構(gòu)建模型;模型檢驗(yàn);利用模型進(jìn)行預(yù)測(cè)。
參考答案:
正確
下列哪項(xiàng)不是時(shí)間序列的主要研究方法()
參考答案:
序列模式挖掘
利用tree.DecisionTreeClassifier()訓(xùn)練模型時(shí)調(diào)用.fit()方法需要傳遞的第二個(gè)參數(shù)是()。
參考答案:
樣本標(biāo)簽Y
利用tree.DecisionTreeClassifier()訓(xùn)練模型時(shí)調(diào)用.fit()方法需要傳遞的第一個(gè)參數(shù)是()。
參考答案:
樣本特征X
通過代碼“fromsklearnimporttree”引入決策樹模塊,并通過代碼“clf=tree.DecisionTreeClassifier()”構(gòu)造分類器對(duì)象,在訓(xùn)練后做預(yù)測(cè)時(shí)要調(diào)用的方法是()。
參考答案:
clf.predict()
通過代碼“fromsklearnimporttree”引入決策樹模塊,并通過代碼“clf=tree.DecisionTreeClassifier()”構(gòu)造分類器對(duì)象后,訓(xùn)練時(shí)要調(diào)用的方法是()。
參考答案:
clf.fit()
下列屬于異質(zhì)網(wǎng)絡(luò)的是()
參考答案:
在線醫(yī)療網(wǎng)絡(luò)
機(jī)動(dòng)車輛管理者把GPS安裝在汽車上,以便更好地監(jiān)管和引導(dǎo)車輛,所記錄的數(shù)據(jù)屬于()
參考答案:
時(shí)空數(shù)據(jù)
典型的文本挖掘任務(wù)包括()
參考答案:
以上都是
根據(jù)分析目標(biāo),Web挖掘可以劃分主要研究領(lǐng)域包括()。
參考答案:
Web結(jié)構(gòu)挖掘_Web使用挖掘_Web內(nèi)容挖掘
下面哪些是時(shí)空數(shù)據(jù)的應(yīng)用()。
參考答案:
動(dòng)物學(xué)家把遙感設(shè)備安裝在野生動(dòng)物身上,以便分析生態(tài)行為_機(jī)動(dòng)車輛管理者把GPS安裝在汽車上,以便更好地監(jiān)管和引導(dǎo)車輛_氣象學(xué)家使用人造衛(wèi)星和雷達(dá)觀察颶風(fēng)
符號(hào)序列數(shù)據(jù)由事件或標(biāo)稱數(shù)據(jù)的長(zhǎng)序列組成,通常時(shí)間間隔相等。
參考答案:
錯(cuò)誤
圖與網(wǎng)絡(luò)挖掘應(yīng)用范圍廣泛,涉及生物信息學(xué)、化學(xué)情報(bào)學(xué)、計(jì)算機(jī)視覺、多媒體和文本檢索。
參考答案:
正確
數(shù)據(jù)挖掘包括下面哪些方法()。
參考答案:
聚類_分類_異常發(fā)現(xiàn)_關(guān)聯(lián)
()是指大量流入系統(tǒng)、動(dòng)態(tài)變化的、可能無(wú)限的,并且包含多維特征的數(shù)據(jù)。
參考答案:
流數(shù)據(jù)
Python在調(diào)用efficient-apriori包中的apriori函數(shù)進(jìn)行挖掘關(guān)聯(lián)規(guī)則時(shí),第一個(gè)返回值是()。
參考答案:
頻繁項(xiàng)集
如下表所示,X={butter,cheese},Y={beer},則置信度confidence(X→Y)=()。交易號(hào)(TID)商品(Items)1beer,diaper,nuts2beer,biscuit,diaper3bread,butter,cheese4beer,cheese,diaper,nuts5beer,butter,cheese,nuts
參考答案:
1/2
回歸系數(shù)的檢驗(yàn)可以采用t檢驗(yàn)。
參考答案:
正確
在模型樹的構(gòu)建過程中,分裂屬性的選擇以分裂后的各個(gè)子數(shù)據(jù)集中目標(biāo)屬性取值的標(biāo)準(zhǔn)差為依據(jù),將標(biāo)準(zhǔn)差作為一種誤差度量,將分裂前后標(biāo)準(zhǔn)差的減少量作為誤差的期望減少,稱為SDR。
參考答案:
正確
通過代碼”fromsklearn.clusterimportKMeans”引入Kmenas模塊后,生成模型對(duì)象“kmeans=KMeans(n_clusters=3)”并完成對(duì)數(shù)據(jù)X完成聚類后,以下哪個(gè)代碼可以查看每個(gè)樣本所屬簇的標(biāo)簽()。
參考答案:
kmeans.labels_
目前大部分系統(tǒng)能夠多次讀取流數(shù)據(jù)。
參考答案:
錯(cuò)誤
物聯(lián)網(wǎng)系統(tǒng)由大量相互作用的物理和信息部件組成,其例子包括患者護(hù)理系統(tǒng),運(yùn)輸系統(tǒng)等。
參考答案:
正確
“你和任何一個(gè)陌生人之間所間隔的人不會(huì)超過六個(gè)”稱為小世界現(xiàn)象。
參考答案:
正確
Python科學(xué)計(jì)算的基本包是()。
參考答案:
Numpy
購(gòu)買了此商品后還會(huì)購(gòu)買的商品,它們的地位是平等的,其中涉及了時(shí)間和順序的概念,強(qiáng)調(diào)的是一個(gè)規(guī)則,也就是我們所說的關(guān)聯(lián)規(guī)則。
參考答案:
錯(cuò)誤
假設(shè)某分類器在一個(gè)測(cè)試數(shù)據(jù)集上的分類結(jié)果的混淆矩陣如下所示,請(qǐng)計(jì)算該分類器的錯(cuò)誤率,以類別yes為正例,計(jì)算分類器的查全率recall為%。【保留到整數(shù)位】Predicte
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 山西傳媒學(xué)院《學(xué)術(shù)規(guī)范及論文寫作技巧》2023-2024學(xué)年第二學(xué)期期末試卷
- 大同師范高等??茖W(xué)校《酒水調(diào)制與酒吧管理》2023-2024學(xué)年第二學(xué)期期末試卷
- 南充職業(yè)技術(shù)學(xué)院《食品添加劑實(shí)驗(yàn)》2023-2024學(xué)年第二學(xué)期期末試卷
- 長(zhǎng)春職業(yè)技術(shù)學(xué)院《數(shù)據(jù)庫(kù)原理》2023-2024學(xué)年第二學(xué)期期末試卷
- 紅河衛(wèi)生職業(yè)學(xué)院《基礎(chǔ)實(shí)踐》2023-2024學(xué)年第二學(xué)期期末試卷
- 哈爾濱體育學(xué)院《現(xiàn)代企業(yè)運(yùn)營(yíng)虛擬仿真綜合實(shí)訓(xùn)》2023-2024學(xué)年第二學(xué)期期末試卷
- 招投標(biāo)及合同管理辦法-模板
- 佳木斯職業(yè)學(xué)院《臨床生物化學(xué)檢驗(yàn)學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 寧夏職業(yè)技術(shù)學(xué)院《顆粒技術(shù)》2023-2024學(xué)年第二學(xué)期期末試卷
- 2021護(hù)理考研護(hù)導(dǎo)錯(cuò)題試題及答案
- 公路施工技術(shù)全套課件
- JJF1175-2021試驗(yàn)篩校準(zhǔn)規(guī)范-(高清現(xiàn)行)
- 產(chǎn)品結(jié)構(gòu)設(shè)計(jì)概述課件
- 八年級(jí)下綜合實(shí)踐教案全套
- 胸痹心痛中醫(yī)診療方案及臨床路徑
- 第8課《山山水水》教學(xué)設(shè)計(jì)(新人教版小學(xué)美術(shù)六年級(jí)上冊(cè))
- word 公章 模板
- 世界技能大賽PPT幻燈片課件(PPT 21頁(yè))
- 中學(xué)生防溺水安全教育課件(PPT 44頁(yè))
- Python程序設(shè)計(jì)ppt課件完整版
- T∕ZSQX 008-2020 建設(shè)工程全過程質(zhì)量行為導(dǎo)則
評(píng)論
0/150
提交評(píng)論