【干貨】Alibaba數(shù)據(jù)分析師(實習(xí))試題解析_第1頁
【干貨】Alibaba數(shù)據(jù)分析師(實習(xí))試題解析_第2頁
【干貨】Alibaba數(shù)據(jù)分析師(實習(xí))試題解析_第3頁
【干貨】Alibaba數(shù)據(jù)分析師(實習(xí))試題解析_第4頁
【干貨】Alibaba數(shù)據(jù)分析師(實習(xí))試題解析_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、干貨】 Alibaba 數(shù)據(jù)分析師(實習(xí))試題解析一、異常值是指什么?請列舉 1 種識別連續(xù)型變量異常值的方法?異常值( Outlier ) 是指樣本中的個別值,其數(shù)值明顯偏離所屬樣本的其余觀測值。在數(shù)理統(tǒng)計里一般是指一組觀測值中與平均值的偏差超過兩倍標準差的測定值。Grubbs test (是以 Frank E.Grubbs 命名的),又叫 maximumnormed residual test ,是一種用于單變量數(shù)據(jù)集異常值識別的統(tǒng)計檢測,它假定數(shù)據(jù)集來自正態(tài)分布的總體。未知總體標準差b,在五種檢驗法中,優(yōu)劣次序為:t 檢驗法、格拉布斯檢驗法、峰度檢驗法、狄克遜檢驗法、偏度檢驗法。二、什么

2、是聚類分析?聚類算法有哪幾種?請選擇一種詳細描述其計算原理和步驟。聚類分析 (clusteranalysis) 是一組將研究對象分為相對同質(zhì)的群組 (clusters) 的統(tǒng)計分析技術(shù)。 聚類分析也叫分類分析 (classification analysis) 或數(shù)值分類 (numericaltaxonomy) 。聚類與分類的不同在于,聚類所要求劃分的類是未知的。聚類分析計算方法主要有:層次的方法( hierarchical method )、劃分方法partitioning method )、基于密度的方法( density-based method)、基于網(wǎng)格的方法( grid-based

3、 method )、基于模型的方法( model-based method)等。其中,前兩種算法是利用統(tǒng)計學(xué)定義的距離進行度量。k-means 算法的工作過程說明如下:首先從 n 個數(shù)據(jù)對象任意選擇個對象作為初始聚類中心;而對于所剩下其它對象,則根據(jù)它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的(聚類中心所代表的)聚類;然后再計算每個所獲新聚類的聚類中心(該聚類中所有對象的均值);不斷重復(fù)這一過程直到標準測度函數(shù)開始收斂為止。般都采用均方差作為標準測度函數(shù). k 個聚類具有以下特點:各聚類本身盡可能的緊湊,而各聚類之間盡可能的分開。其流程如下:(1 )從n個數(shù)據(jù)對象任意選擇

4、k個對象作為初始聚類中心;(2 )根據(jù)每個聚類對象的均值(中心對象),計算每個對象與這些中心對象的距離;并 根據(jù)最小距離重新對相應(yīng)對象進行劃分;(3)重新計算每個(有變化)聚類的均值(中心對象);(4 )循環(huán)(2)、( 3)直到每個聚類不再發(fā)生變化為止(標準測量函數(shù)收斂)。優(yōu) 點:本算法確定的 K個劃分到達平方誤差最小。當(dāng)聚類是密集的,且類與類之間區(qū)別 明顯時,效果較好。對于處理大數(shù)據(jù)集,這個算法是相對可伸縮和高效的,計算的復(fù)雜度為O(NKt),其中N是數(shù)據(jù)對象的數(shù)目,t是迭代的次數(shù)。一般來說,KN,tN 。缺點:1. K是事先給定的,但非常難以選定;2.初始聚類中心的選擇對聚類結(jié)果有較大 的

5、影響。三、根據(jù)要求寫出 SQL 表A結(jié)構(gòu)如下:MembeMD(用戶的ID,字符型)Log_time(用戶訪問頁面時間,日期型(只有一天的數(shù)據(jù))URL (訪問的頁面地址,字符型)要求:提取出每個用戶訪問的第一個URL (按時間最早),形成一個新表(新表名為B, 表結(jié)構(gòu)和表A 一致)create table B as select Member_ID, min( Log_time), URL from A group byMembeMD ;四、銷售數(shù)據(jù)分析 以下是一家 B2C 電子商務(wù)網(wǎng)站的一周銷售數(shù)據(jù),該網(wǎng)站主要用戶群是辦公室女性,銷售額 主要集中在 5 種產(chǎn)品上,如果你是這家公司的分析師,a)

6、 從數(shù)據(jù)中,你看到了什么問題?你覺得背后的原因是什么?b) 如果你的老板要求你提出一個運營改進計劃,你會怎么做? 表如下:一組每天某網(wǎng)站的銷售數(shù)據(jù)a) 從這一周的數(shù)據(jù)可以看出,周末的銷售額明顯偏低。這其中的原因,可以從兩個 角度來看:站在消費者的角度,周末可能不用上班,因而也沒有購買該產(chǎn)品的欲望;站在 產(chǎn)品的角度來看,該產(chǎn)品不能在周末的時候引起消費者足夠的注意力。b) 針對該問題背后的兩方面原因,我的運營改進計劃也分兩方面:一是,針對消費者周末 沒有購買欲望的心理,進行引導(dǎo)提醒消費者周末就應(yīng)該準備好該產(chǎn)品;二是,通過該產(chǎn)品 的一些類似于打折促銷等活動來提升該產(chǎn)品在周末的人氣和購買力。五、用戶調(diào)

7、研 某公司針對 A、B、C 三類客戶,提出了一種統(tǒng)一的改進計劃,用于提升客戶的周消費次 數(shù),需要你來制定一個事前試驗方案,來支持決策,請你思考下列問題: a) 試驗需要為決策提供什么樣的信息?c) 按照上述目的,請寫出你的數(shù)據(jù)抽樣方法、需要采集的數(shù)據(jù)指標項,以及你選擇的統(tǒng)計 方法。a) 試驗要能證明該改進計劃能顯著提升 A、B、C 三類客戶的周消費次數(shù)。b) 根據(jù)三類客戶的數(shù)量,采用分層比例抽樣; 需要采集的數(shù)據(jù)指標項有:客戶類別,改進計劃前周消費次數(shù),改進計劃后周消費次數(shù);選用統(tǒng)計方法為:分別針對 A、B、C三類客戶,進行改進前和后的周消費次數(shù)的,兩獨立樣本 T-檢驗(two-samplet

8、-test)。摘錄一段企業(yè)面對海量數(shù)據(jù)應(yīng)如何具體實施數(shù)據(jù)挖掘,使之轉(zhuǎn)換成可行的結(jié)果/模型?首先進行數(shù)據(jù)的預(yù)處理,主要進行數(shù)據(jù)的清洗,數(shù)據(jù)清洗,處理空缺值,數(shù)據(jù)的集成,數(shù)據(jù)的變換和數(shù)據(jù)規(guī)約。請列舉您使用過的各種數(shù)據(jù)倉庫工具軟件(包括建模工具,ETL工具,前端展現(xiàn)工具,OLAP Server 、數(shù)據(jù)庫、數(shù)據(jù)挖掘工具)和熟悉程度。ETL 工具:Ascential DataStage , IBM warehouse MANAGER 、Informatica 公司的 Po werCe nter 、Cognos 公司的 Decisi on Stream市場上的主流數(shù)據(jù)倉庫存儲層軟件有:SQL SERVER

9、、SYBASE、ORACLE、DB2、TERADATA請談一下你對元數(shù)據(jù)管理在數(shù)據(jù)倉庫中的運用的理解。元數(shù)據(jù)能支持系統(tǒng)對數(shù)據(jù)的管理和維護,如關(guān)于數(shù)據(jù)項存儲方法的元數(shù)據(jù)能支持系統(tǒng)以最有效的方式訪問數(shù)據(jù)。具體來說,在數(shù)據(jù)倉庫系統(tǒng)中,元數(shù)據(jù)機制主要支持以下五類系統(tǒng)管理功能:(1)描述哪些數(shù)據(jù)在數(shù)據(jù)倉庫中;(2)定義要進入數(shù)據(jù)倉庫中的數(shù)據(jù)和從數(shù)據(jù)倉庫中產(chǎn)生的數(shù)據(jù);(3)記錄根據(jù)業(yè)務(wù)事件發(fā)生而隨之進行的數(shù)據(jù)抽取工作時間安排;(4) 記錄并檢測系統(tǒng)數(shù)據(jù)一致性的要求和執(zhí)行情況;(5) 衡量數(shù)據(jù)質(zhì)量。數(shù)據(jù)挖掘?qū)垲惖臄?shù)據(jù)要求是什么?1)可伸縮性2)處理不同類型屬性的能力發(fā)現(xiàn)任意形狀的聚類使輸入?yún)?shù)的領(lǐng)域知識最

10、小化5)處理噪聲數(shù)據(jù)的能力6)對于輸入順序不敏感7)高維性基于約束的聚類9)可解釋性和可利用性簡述 Apriori 算法的思想,談?wù)勗撍惴ǖ膽?yīng)用領(lǐng)域并舉例。思想:其發(fā)現(xiàn)關(guān)聯(lián)規(guī)則分兩步,第一是通過迭代,檢索出數(shù)據(jù)源中所有煩瑣項集,即 支持度不低于用戶設(shè)定的閥值的項即集,第二是利用第一步中檢索出的煩瑣項集構(gòu)造出滿足用戶最小信任度的規(guī)則,其中,第一步即挖掘出所有頻繁項集是該算法的核心,也占整 個算法工作量的大部分。在商務(wù)、金融、保險等領(lǐng)域皆有應(yīng)用。在建筑陶瓷行業(yè)中的交叉銷售應(yīng)用,主要采用 了 Apriori 算法通過閱讀該文擋,請同學(xué)們分析一下數(shù)據(jù)挖掘在電子商務(wù)領(lǐng)域的應(yīng)用情況(請深入分 析并給出實例

11、,切忌泛泛而談)?單選題1. 某超市研究銷售紀錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會購買尿布,這種屬于 數(shù)據(jù)挖掘的哪類問題? (A)A. 關(guān)聯(lián)規(guī)則發(fā)現(xiàn) B. 聚類C. 分類 D. 自然語言處理(A)2. 以下兩種描述分別對應(yīng)哪兩種對分類算法的評價標準? (a) 警察抓小偷,描述警察抓的人中有多少個是小偷的標準。(b) 描述有多少比例的小偷給警察抓了的標準。A. Precision, Recall B. Recall, PrecisionA. Precision, ROC D. Recall, ROC(C)3. 將原始數(shù)據(jù)進行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個步驟的任務(wù)?A. 頻繁模式挖掘

12、 B. 分類和預(yù)測 C. 數(shù)據(jù)預(yù)處理 D. 數(shù)據(jù)流挖掘4. 當(dāng)不知道數(shù)據(jù)所帶標簽時,可以使用哪種技術(shù)促使帶同類標簽的數(shù)據(jù)與帶其他標簽的數(shù) 據(jù)相分離? (B)A. 分類 B. 聚類 C. 關(guān)聯(lián)分析 D. 隱馬爾可夫鏈5. 什么是 KDD ? (A)A. 數(shù)據(jù)挖掘與知識發(fā)現(xiàn) B. 領(lǐng)域知識發(fā)現(xiàn)C. 文檔知識發(fā)現(xiàn) D. 動態(tài)知識發(fā)現(xiàn)A)(B)6. 使用交互式的和可視化的技術(shù),對數(shù)據(jù)進行探索屬于數(shù)據(jù)挖掘的哪一類任務(wù)?(A. 探索性數(shù)據(jù)分析 B. 建模描述C. 預(yù)測建模 D. 尋找模式和規(guī)則7. 為數(shù)據(jù)的總體分布建模;把多維空間劃分成組等問題屬于數(shù)據(jù)挖掘的哪一類任務(wù)?A. 探索性數(shù)據(jù)分析 B. 建模描述

13、C. 預(yù)測建模 D. 尋找模式和規(guī)則8. 建立一個模型,通過這個模型根據(jù)已知的變量值來預(yù)測其他某個變量值屬于數(shù)據(jù)挖掘的 哪一類任務(wù)? (C)A. 根據(jù)內(nèi)容檢索 B. 建模描述C. 預(yù)測建模 D. 尋找模式和規(guī)則9. 用戶有一種感興趣的模式并且希望在數(shù)據(jù)集中找到相似的模式,屬于數(shù)據(jù)挖掘哪一類任 務(wù)? (A)A. 根據(jù)內(nèi)容檢索 B. 建模描述C. 預(yù)測建模 D. 尋找模式和規(guī)則11.下面哪種不屬于數(shù)據(jù)預(yù)處理的方法?(D)A 變量代換 B 離散化 C 聚集 D 估計遺漏值15 在第幾個箱子12. 假設(shè) 12 個銷售價格記錄組已經(jīng)排序如下: 5, 10, 11, 13, 15,35, 50, 55,

14、72, 92, 204, 215 使用如下每種方法將它們劃分成四個箱。等頻(等深)劃分時,內(nèi)? (B)A 第一個B 第二個 C 第三個D 第四個13. 上題中,等寬劃分時(寬度為50), 15 又在哪個箱子里? (A)A 第一個B 第二個 C 第三個D 第四個14. 下面哪個不屬于數(shù)據(jù)的屬性類型: (D)A 標稱 B 序數(shù) C 區(qū)間 D 相異 15. 在上題中,屬于定量的屬性類型是: (C)A 標稱 B 序數(shù) C 區(qū)間 D 相異16. 只有非零值才重要的二元屬性被稱作:A 計數(shù)屬性 B 離散屬性 C 非對稱的二元屬性D 對稱屬性17. 以下哪種方法不屬于特征選擇的標準方法:(D)A 嵌入 B

15、過濾 C 包裝 D 抽樣18.下面不屬于創(chuàng)建新屬性的相關(guān)方法的是:(B)A 特征提取 B 特征修改 C 映射數(shù)據(jù)到新的空間 D 特征構(gòu)造 19. 考慮值集 1、2、3、4、5、90 ,其截斷均值( p=20% )是 (C)A 2 B 3 C 3.5 D 520. 下面哪個屬于映射數(shù)據(jù)到新的空間的方法?(A)A 傅立葉變換 B 特征加權(quán) C 漸進抽樣 D 維歸約(B)21. 熵是為消除不確定性所需要獲得的信息量,投擲均勻正六面體骰子的熵是:A 1 比特 B 2.6 比特 C 3.2 比特 D 3.8 比特的方法將屬性的值映射到22. 假設(shè)屬性 income 的最大最小值分別是 12000 元和

16、98000 元。利用最大最小規(guī)范化0 至 1 的范圍內(nèi)。對屬性 income 的 73600 元將被轉(zhuǎn)化為: (D)A 0.821 B 1.224 C 1.458 D 0.71623.假定用于分析的數(shù)據(jù)包含屬性 age 。數(shù)據(jù)元組中 age 的值如下(按遞增序): 13,15,16,16,19,20,20,21,22,22 ,25,25,25,30 ,33,33,35,35 ,36,40 ,45,46 ,52 ,70, 問題:使用按箱平均值平滑方法對上述數(shù)據(jù)進行平滑,箱的深度為 3 。第二個箱子值為: (A)A 18.3 B 22.6 C 26.8 D 27.924. 考慮值集 12 24 3

17、32 4 55 68 26,其四分位數(shù)極差是: (A)A 31 B 24 C 55 D 325. 一所大學(xué)內(nèi)的各年紀人數(shù)分別為:一年級 200 人,二年級 160 人,三年級 130 人,四年級 110 人。則年級屬性的眾數(shù)是: (A)A 一年級 B 二年級 C 三年級 D 四年級26. 下列哪個不是專門用于可視化時間空間數(shù)據(jù)的技術(shù):(B)A 等高線圖 B 餅圖 C 曲面圖 D 矢量場圖27. 在抽樣方法中,當(dāng)合適的樣本容量很難確定時,可以使用的抽樣方法是:(D)A 有放回的簡單隨機抽樣 B 無放回的簡單隨機抽樣 C 分層抽樣 D 漸進抽樣28. 數(shù)據(jù)倉庫是隨著時間變化的 ,下面的描述不正確的

18、是 (C)A.數(shù)據(jù)倉庫隨時間的變化不斷增加新的數(shù)據(jù)內(nèi)容B.捕捉到的新數(shù)據(jù)會覆蓋原來的快照C.數(shù)據(jù)倉庫隨事件變化不斷刪去舊的數(shù)據(jù)內(nèi)容D.數(shù)據(jù)倉庫中包含大量的綜合數(shù)據(jù) ,這些綜合數(shù)據(jù)會隨著時間的變化不斷地進行重新綜合29. 關(guān)于基本數(shù)據(jù)的元數(shù)據(jù)是指 :(D)A. 基本元數(shù)據(jù)與數(shù)據(jù)源 ,數(shù)據(jù)倉庫 ,數(shù)據(jù)集市和應(yīng)用程序等結(jié)構(gòu)相關(guān)的信息B. 基本元數(shù)據(jù)包括與企業(yè)相關(guān)的管理方面的數(shù)據(jù)和信息C. 基本元數(shù)據(jù)包括日志文件和簡歷執(zhí)行處理的時序調(diào)度信息D. 基本元數(shù)據(jù)包括關(guān)于裝載和更新處理,分析處理以及管理方面的信息30. 下面關(guān)于數(shù)據(jù)粒度的描述不正確的是 : (C)A.粒度是指數(shù)據(jù)倉庫小數(shù)據(jù)單元的詳細程度和級別

19、B.數(shù)據(jù)越詳細 ,粒度就越小 ,級別也就越高 ;C.數(shù)據(jù)綜合度越高 ,粒度也就越大 ,級別也就越高 ;D.粒度的具體劃分將直接影響數(shù)據(jù)倉庫中的數(shù)據(jù)量以及查詢質(zhì)量31. 有關(guān)數(shù)據(jù)倉庫的開發(fā)特點 ,不正確的描述是 : (A)A. 數(shù)據(jù)倉庫開發(fā)要從數(shù)據(jù)出發(fā)B. 數(shù)據(jù)倉庫使用的需求在開發(fā)出去就要明確C. 數(shù)據(jù)倉庫的開發(fā)是一個不斷循環(huán)的過程,是啟發(fā)式的開發(fā) ;D. 在數(shù)據(jù)倉庫環(huán)境中 ,并不存在操作型環(huán)境中所固定的和較確切的處理流,數(shù)據(jù)倉庫中數(shù)據(jù)分析和處理更靈活 ,且沒有固定的模式32. 在有關(guān)數(shù)據(jù)倉庫測試 ,下列說法不正確的是 : (D)A. 在完成數(shù)據(jù)倉庫的實施過程中 ,需要對數(shù)據(jù)倉庫進行各種測試 .

20、測試工作中要包括單元測試和系統(tǒng)測試 .B. 當(dāng)數(shù)據(jù)倉庫的每個單獨組件完成后 ,就需要對他們進行單元測試C. 系統(tǒng)的集成測試需要對數(shù)據(jù)倉庫的所有組件進行大量的功能測試和回歸測試D. 在測試之前沒必要制定詳細的測試計劃33. OLAP 技術(shù)的核心是 : (D)A. 在線性 ;B. 對用戶的快速響應(yīng) ;C. 互操作性 .D. 多維分析 ;34. 關(guān)于 OLAP 的特性 ,下面正確的是 : (D)(1)快速性 (2)可分析性 (3) 多維性 (4)信息性 (5) 共享性A. (1) (2) (3)B. (2) (3) (4)C. (1) (2) (3) (4)D. (1) (2) (3) (4) (5

21、)35. 關(guān)于 OLAP 和 OLTP 的區(qū)別描述 ,不正確的是 : (C)A. OLAP 主要是關(guān)于如何理解聚集的大量不同的數(shù)據(jù).它與 OTAP 應(yīng)用程序不同 .B. 與 OLAP 應(yīng)用程序不同 ,OLTP 應(yīng)用程序包含大量相對簡單的事務(wù)C. OLAP 的特點在于事務(wù)量大 ,但事務(wù)內(nèi)容比較簡單且重復(fù)率高D. OLAP 是以數(shù)據(jù)倉庫為基礎(chǔ)的 ,但其最終數(shù)據(jù)來源與 OLTP 一樣均來自底層的數(shù)據(jù)庫系統(tǒng),兩者面對的用戶是相同的36. OLAM 技術(shù)一般簡稱為”數(shù)據(jù)聯(lián)機分析挖掘”,下面說法正確的是 : (D)A. OLAP 和 OLAM 都基于客戶機 / 服務(wù)器模式 ,只有后者有與用戶的交互性B.

22、由于 OLAM 的立方體和用于 OLAP 的立方體有本質(zhì)的區(qū)別C. 基于 WEB 的 OLAM 是 WEB 技術(shù)與 OLAM 技術(shù)的結(jié)合 .D. OLAM 服務(wù)器通過用戶圖形借口接收用戶的分析指令,在元數(shù)據(jù)的知道下 ,對超級立方體作一定的操作 .37. 關(guān)于 OLAP 和 OLTP 的說法 ,下列不正確的是 : (A)A. OLAP事務(wù)量大 ,但事務(wù)內(nèi)容比較簡單且重復(fù)率高B. OLAP的最終數(shù)據(jù)來源與 OLTP 不一樣 .C. OLTP面對的是決策人員和高層管理人員D. OLTP以應(yīng)用為核心 ,是應(yīng)用驅(qū)動的 .38.A、4 B、5 C、6 D、740.概念分層圖是 _(B)_圖。設(shè) X=1 ,

23、 2, 3是頻繁項集,則可由 X 產(chǎn)生 _(C)_個關(guān)聯(lián)規(guī)則。A、41.頻繁項集、頻繁閉項集、最大頻繁項集之間的關(guān)系是:(C)無向無環(huán) B、有向無環(huán) C、有向有環(huán) D、無向有環(huán)A、頻繁項集頻繁閉項集=最大頻繁項集B、頻繁項集=頻繁閉項集最大頻繁項集 c、頻繁項集頻繁閉項集最大頻繁項集D、頻繁項集=頻繁閉項集=最大頻繁項集 42. 考慮下面的頻繁 3- 項集的集合: 1,2,3,1,2,4,1,2,5,1,3,4,1,3,5,2,3,4,2,3,5,3,4,5假定數(shù)據(jù)集中只有5 個項,采用 合并策 略,由候選產(chǎn)生過程得到 4- 項集不包含( C)A、 1,2,3,4 B、 1,2,3,5 c、

24、1,2,4,5 D 、 1,3,4,543.面選項中 t 不是 s 的子序列的是 ( c )A、s=t=B、s=t=c、s=t=D、s=t=44.在圖集合中發(fā)現(xiàn)一組公共子結(jié)構(gòu),這樣的任務(wù)稱為89A、45.下列度量不具有反演性的是 (D)A、系數(shù)B、幾率C、Cohen度量D、興趣因子頻繁子集挖掘 B、頻繁子圖挖掘 C、頻繁數(shù)據(jù)項挖掘D、頻繁模式挖掘46.下列_(A)_不是將主觀信息加入到模式發(fā)現(xiàn)任務(wù)中的方法。A 、與同一時期其他數(shù)據(jù)對比B、可視化C、基于模板的方法D 、主觀興趣度量47. 下面購物籃能夠提取的 3- 項集的最大數(shù)量是多少(C)ID 購買項牛奶,尿布面包,牛奶牛奶,尿布,餅干面包,

25、餅干啤酒,餅干,尿布牛奶,尿布,面包,黃油面包,尿布啤酒,尿布牛奶,尿布,10 啤酒,餅干A、 1 B、 2 C、3 D、 448.以下哪些算法是分類算法, A,DBSCAN B ,C4.5 C,K-Mean D,EMB)49.以下哪些分類方法可以較好地避免樣本的不平衡問題,A,KNN B ,SVM C , BayesD,神經(jīng)網(wǎng)絡(luò) ( A)50.決策樹中不包含一下哪種結(jié)點, A, 根結(jié)點( root node) B, 內(nèi)部結(jié)點(internalnode ) C,外部結(jié)點(external node )D,葉結(jié)點(leaf node )(C)51. 不純性度量中 Gini 計算公式為(其中c 是

26、類的個數(shù)) (A)A, B, C, D, ( A )53. 以下哪項關(guān)于決策樹的說法是錯誤的(C)A.冗余屬性不會對決策樹的準確率造成不利的影響B(tài).子樹可能在決策樹中重復(fù)多次C.決策樹算法對于噪聲的干擾非常敏感D.尋找最佳決策樹是 NP 完全問題54. 在基于規(guī)則分類器的中,依據(jù)規(guī)則質(zhì)量的某種度量對規(guī)則排序,保證每一個測試記錄都是由覆蓋它的“最好的”規(guī)格來分類,這種方案稱為(B)A.基于類的排序方案B.基于規(guī)則的排序方案C.基于度量的排序方案D.基于規(guī)格的排序方案。55. 以下哪些算法是基于規(guī)則的分類器 (A)A. C4.5 B. KNN C. Na?ve Bayes D. ANN56. 如果

27、規(guī)則集 R 中不存在兩條規(guī)則被同一條記錄觸發(fā),則稱規(guī)則集R 中的規(guī)則為C);A,無序規(guī)則B,窮舉規(guī)則 C,互斥規(guī)則 D ,有序規(guī)則57. 如果對屬性值的任一組合,(B)A, 無序規(guī)則B,窮舉規(guī)則C, 互斥規(guī)則 D,有序規(guī)則R中都存在一條規(guī)則加以覆蓋,則稱規(guī)則集R中的規(guī)則為(D)58. 如果規(guī)則集中的規(guī)則按照優(yōu)先級降序排列,則稱規(guī)則集是A,無序規(guī)則 B,窮舉規(guī)則 C,互斥規(guī)則 D,有序規(guī)則59. 如果允許一條記錄觸發(fā)多條分類規(guī)則,把每條被觸發(fā)規(guī)則的后件看作是對相應(yīng)類的一次投票,然后計票確定測試記錄的類標號,稱為(A)A, 無序規(guī)則 B,窮舉規(guī)則 C,互斥規(guī)則 D,有序規(guī)則60. 考慮兩隊之間的足

28、球比賽:隊 0 和隊 1。假設(shè) 65%的比賽隊 0 勝出,剩余的比賽隊 1 獲勝。隊 0 獲勝的比賽中只有 30%是在隊 1 的主場,而隊 1 取勝的比賽中 75%是主場獲 勝。如果下一場比賽在隊 1 的主場進行隊 1 獲勝的概率為 (C)A, 0.75 B,0.35 C,0.4678 D, 0.573861. 以下關(guān)于人工神經(jīng)網(wǎng)絡(luò)( ANN )的描述錯誤的有 (A)A,神經(jīng)網(wǎng)絡(luò)對訓(xùn)練數(shù)據(jù)中的噪聲非常魯棒B,可以處理冗余特征 C,訓(xùn)練ANN是一個 很耗時的過程 D,至少含有一個隱藏層的多層神經(jīng)網(wǎng)絡(luò)(A)62. 通過聚集多個分類器的預(yù)測來提高分類準確率的技術(shù)稱為A,組合(ensemble) B,

29、聚集(aggregate) C ,合并(combination) D ,投票(voting)63. 簡單地將數(shù)據(jù)對象集劃分成不重疊的子集,使得每個數(shù)據(jù)對象恰在一個子集中,這種 聚類類型稱作( B )A、層次聚類 B、劃分聚類 C、非互斥聚類D、模糊聚類64. 在基本 K 均值算法里,當(dāng)鄰近度函數(shù)采用( A )的時候,合適的質(zhì)心是簇中各點的中位數(shù)。A、曼哈頓距離 B、平方歐幾里德距離 C 余弦距離 D、Bregman 散度65. ( C )是一個觀測值,它與其他觀測值的差別如此之大,以至于懷疑它是由不同的機制產(chǎn)生的。A、邊界點B、質(zhì)心C、離群點D、核心點66. BIRCH是一種( B )。A、分

30、類器B、聚類算法 C、關(guān)聯(lián)分析算法 D、特征選擇算法67. 檢測一元正態(tài)分布中的離群點,屬于異常檢測中的基于(A )的離群點檢測。A、統(tǒng)計方法 B、鄰近度 C、密度D、聚類技術(shù)68. ( C )將兩個簇的鄰近度定義為不同簇的所有點對的平均逐對鄰近度,它是一種凝聚層次聚類技術(shù)。A、 MIN (單鏈)B、MAX (全鏈) C、組平均 D、Ward 方法69. ( D )將兩個簇的鄰近度定義為兩個簇合并時導(dǎo)致的平方誤差的增量,它是一種凝聚層次聚類技術(shù)。A、MIN (單鏈)B、MAX (全鏈) C、組平均 D、Ward方法70. DBSCAN 在最壞情況下的時間復(fù)雜度是(B )。A、 O(m) B 、

31、 O(m2) C 、 O(log m) D 、 O(m*log m)71. 在基于圖的簇評估度量表里面,如果簇度量為proximity(Ci , C) ,簇權(quán)值為 mi ,那么它的類型是( C )。A、基于圖的凝聚度B、基于原型的凝聚度C、基于原型的分離度D、基于圖的凝聚度和 分離度A )。72. 關(guān)于 K 均值和 DBSCAN 的比較,以下說法不正確的是(A、 K 均值丟棄被它識別為噪聲的對象,而 DBSCAN 一般聚類所有對象。B、K 均值使用簇的基于原型的概念,而DBSCAN 使用基于密度的概念。C、 K 均值很難處理非球形的簇和不同大小的簇,DBSCAN 可以處理不同大小和不同形狀的簇

32、。D、K 均值可以發(fā)現(xiàn)不是明顯分離的簇,即便簇有重疊也可以發(fā)現(xiàn),但是DBSCAN 會合并有重疊的簇。73.以下是哪一個聚類算法的算法流程:構(gòu)造k 最近鄰圖。使用多層圖劃分算法劃分圖。rep eat :合并關(guān)于相對互連性和相對接近性而言,最好地保持簇的自相似性的簇。until :不再有可以合并的簇。(C)。、 Jarvis Patrick ( JP)A、MST B 、OPOSSUM C 、Chameleon D74. 考慮這么一種情況:一個對象碰巧與另一個對象相對接近,但屬于不同的類,因為這兩個對象一般不會共享許多近鄰,所以應(yīng)該選擇(D )的相似度計算方法。A、平方歐幾里德距離B、余弦距離 C、

33、直接相似度 D、共享最近鄰75. 以下屬于可伸縮聚類算法的是(A )。A、CURE B 、 DENCLUE C 、CLIQUE D 、OPOSSUM76. 以下哪個聚類算法不是屬于基于原型的聚類(D )。A、模糊 c 均值 B、EM 算法 C、SOM D、CLIQUEB )。77. 關(guān)于混合模型聚類算法的優(yōu)缺點,下面說法正確的是(A、當(dāng)簇只包含少量數(shù)據(jù)點,或者數(shù)據(jù)點近似協(xié)線性時,混合模型也能很好地處理。B、混合模型比K均值或模糊c均值更一般,因為它可以使用各種類型的分布。C、混合模型很難發(fā)現(xiàn)不同大小和橢球形狀的簇。D 、混合模型在有噪聲和離群點時不會存在問題。78. 以下哪個聚類算法不屬于基于

34、網(wǎng)格的聚類算法(D )。A、STING B 、 WaveCluster C 、MAFIA D 、BIRCH79. 一個對象的離群點得分是該對象周圍密度的逆。這是基于(C )的離群點定義。A .概率 B、鄰近度 C、密度 D、聚類80.下面關(guān)于Jarvis Patrick (JP)聚類算法的說法不正確的是(D )。A、 JP 聚類擅長處理噪聲和離群點,并且能夠處理不同大小、形狀和密度的簇。B、 JP 算法對高維數(shù)據(jù)效果良好,尤其擅長發(fā)現(xiàn)強相關(guān)對象的緊致簇。C、 JP 聚類是基于 SNN 相似度的概念。D 、 JP 聚類的基本時間復(fù)雜度為O(m) 。多選題(A B)1. 通過數(shù)據(jù)挖掘過程所推倒出的關(guān)系和摘要經(jīng)常被稱為:A. 模型 B. 模式 C. 模范 D. 模具 2 尋找數(shù)據(jù)集中的關(guān)系是為了尋找精確、方便并且有價值地總結(jié)了數(shù)據(jù)的某一特征的表示,這個過程包括了以下哪些步驟?(A B C D)A.決定要使用的表示的特征和結(jié)構(gòu)B.決定如何量化和比較不同表

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論