




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
2024年商業(yè)經(jīng)濟行業(yè)技能考試-數(shù)據(jù)挖掘工程師歷年考試高頻考點試題附帶答案(圖片大小可自由調(diào)整)第1卷一.參考題庫(共25題)1.簡述聯(lián)機分析處理的四個特征?2.在數(shù)據(jù)訪問模式上,數(shù)據(jù)倉庫以()為主,而日常應用數(shù)據(jù)庫則以()為主。3.聚類分析常作為一個獨立的工具來獲得()4.可視化技術對于分析的數(shù)據(jù)類型通常不是專用性的。5.數(shù)據(jù)倉庫數(shù)據(jù)庫常見的存儲優(yōu)化方法包括()、反向規(guī)范化引入冗余、表的物理分割。6.簡述分類模型的評價。7.常用的數(shù)值屬性概念分層的方法有哪些?8.下面哪種分類方法是屬于神經(jīng)網(wǎng)絡學習算法?()A、判定樹歸納B、貝葉斯分類C、后向傳播分類D、基于案例的推理9.具有較高的支持度的項集具有較高的置信度。10.為什么說數(shù)據(jù)倉庫具有隨時間而變化的特征?11.ROLAP12.數(shù)據(jù)倉庫系統(tǒng)的組成部分包括數(shù)據(jù)倉庫,倉庫管理,數(shù)據(jù)抽取,分析工具等四個部分。13.調(diào)和數(shù)據(jù)是存儲在()數(shù)據(jù)倉庫和操作型數(shù)據(jù)存儲中的數(shù)據(jù)。14.以下哪項關于決策樹的說法是錯誤的?()A、冗余屬性不會對決策樹的準確率造成不利的影響B(tài)、子樹可能在決策樹中重復多次C、決策樹算法對于噪聲的干擾非常敏感D、尋找最佳決策樹是NP完全問題15.以下兩種描述分別對應哪兩種對分類算法的評價標準?() (1)警察抓小偷,描述警察抓的人中有多少個是小偷的標準。 (2)描述有多少比例的小偷給警察抓了的標準。A、Precision,RecallB、Recall,PrecisionC、Precision,ROCD、Recall,ROC16.簡述數(shù)據(jù)倉庫系統(tǒng)設計過程?17.數(shù)據(jù)倉庫中間層OLAP服務器只能采用關系型OLAP。18.在抽樣方法中,當合適的樣本容量很難確定時,可以使用的抽樣方法是:()。A、有放回的簡單隨機抽樣B、無放回的簡單隨機抽樣C、分層抽樣D、漸進抽樣19.假設12個銷售價格記錄組已經(jīng)排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每種方法將它們劃分成四個箱。等頻(等深)劃分時,15在第幾個箱子內(nèi)?()A、第一個B、第二個C、第三個D、第四個20.簡述數(shù)據(jù)挖掘的過程。21.簡述處理空缺值的方法。22.下列幾種數(shù)據(jù)挖掘功能中,()被廣泛的用于購物籃分析。A、關聯(lián)分析B、分類和預測C、聚類分析D、演變分析23.一個典型的數(shù)據(jù)挖掘系統(tǒng)應該包括哪些組成部分?24.數(shù)據(jù)聚合需要考慮的問題有哪些?25.計算一個單位的平均工資,使用哪個中心趨勢度量將得到最合理的結(jié)果?()A、算術平均值B、截尾均值C、中位數(shù)D、眾數(shù)第2卷一.參考題庫(共25題)1.數(shù)據(jù)挖掘技術對聚類分析的要求有哪幾個方面?2.OLAP服務器的類型主要包括:()、()和()3.簡述數(shù)據(jù)倉庫設計的三級模型的基本內(nèi)容。4.考慮下表所示二元分類問題的數(shù)據(jù)集。 (1)計算按照屬性A和B劃分時的信息增益。決策樹歸納算法將會選擇哪個屬性? (2)計算按照屬性A和B劃分時Gini系數(shù)。決策樹歸納算法將會選擇哪個屬性?5.給定由兩次運行K均值產(chǎn)生的兩個不同的簇集,誤差的平方和最大的那個應該被視為較優(yōu)。6.ROLAP是基于()的OLAP實現(xiàn),而MOLAP是基于多維數(shù)據(jù)結(jié)構(gòu)組織的OLAP實現(xiàn)。7.預測型知識8.連續(xù)型屬性的數(shù)據(jù)樣本之間的距離有歐氏距離、曼哈頓距離和()9.一種常用的確定離群點的簡單方法是()10.簡述抽樣的定義及分類。11.比較統(tǒng)計學與數(shù)據(jù)挖掘的異同?12.為什么要建立數(shù)據(jù)倉庫?13.數(shù)據(jù)庫中的知識挖掘(KDD)包括以下七個步驟:()、()、()、()、()、()和()14.通過聚集多個分類器的預測來提高分類準確率的技術稱為()。A、組合(ensemble)B、聚集(aggregate)C、合并(combination)D、投票(voting)15.數(shù)據(jù)挖掘16.列舉操作型數(shù)據(jù)與分析型數(shù)據(jù)的主要區(qū)別。17.為什么時間總是數(shù)據(jù)倉庫或數(shù)據(jù)集市的維?18.何謂相異度矩陣?它有什么特點?19.數(shù)據(jù)壓縮可分為:()和()兩種類型。20.如何用決策樹進行分類?21.以下哪個指標不是表示對象間的相似度和相異度?()A、Euclidean距離B、Manhattan距離C、Eula距離D、Minkowski距離22.聚類分析中常見的數(shù)據(jù)類型有哪些?23.確定了數(shù)據(jù)倉庫的粒度模型以后,為提高數(shù)據(jù)倉庫的使用性能,還需要根據(jù)擁護需求設計()24.關聯(lián)規(guī)則25.熵是為消除不確定性所需要獲得的信息量,投擲均勻正六面體骰子的熵是:()。A、1比特B、2.6比特C、3.2比特D、3.8比特第3卷一.參考題庫(共25題)1.如果規(guī)則不滿足置信度閾值,則形如的規(guī)則一定也不滿足置信度閾值,其中是X的子集。2.以下是哪一個聚類算法的算法流程()。 ①構(gòu)造k-最近鄰圖。 ②使用多層圖劃分算法劃分圖。 ③repeat:合并關于相對互連性和相對接近性而言,最好地保持簇的自相似性的簇。 ④until:不再有可以合并的簇。A、MSTB、OPOSSUMC、ChameleonD、Jarvis-Patrick(JP)3.求和函數(shù)sum()是一個()的函數(shù)。4.()將兩個簇的鄰近度定義為兩個簇合并時導致的平方誤差的增量,它是一種凝聚層次聚類技術。A、MIN(單鏈)B、MAX(全鏈)C、組平均D、Ward方法5.什么是數(shù)據(jù)清洗?6.Web挖掘包括哪些步驟?7.數(shù)據(jù)倉庫在技術上的工作過程是()。A、數(shù)據(jù)的抽取B、存儲和管理C、數(shù)據(jù)的表現(xiàn)D、數(shù)據(jù)倉庫設計8.簡述數(shù)據(jù)挖掘的對象。9.如果允許一條記錄觸發(fā)多條分類規(guī)則,把每條被觸發(fā)規(guī)則的后件看作是對相應類的一次投票,然后計票確定測試記錄的類標號,稱為()。A、無序規(guī)則B、窮舉規(guī)則C、互斥規(guī)則D、有序規(guī)則10.下面的散點圖顯示哪種屬性相關性?() A、不相關;B、正相關;C、負相關;D、先正相關然后負相關11.Bayes法是一種在已知后驗概率與類條件概率的情況下的模式分類方法,待分樣本的分類結(jié)果取決于各類域中樣本的全體。12.給定兩個向量對象,分別表示為p1(22,1,42,10),p2(20,0,36,8): (a)計算兩個對象之間的歐幾里得距離 (b)計算兩個對象之間的曼哈頓距離 (c)計算兩個對象之間的閔可夫斯基距離,用x=3 (d)計算兩個對象之間的切比雪夫距離13.業(yè)務元數(shù)據(jù)主要包含的內(nèi)容是什么?14.Apriori算法所面臨的主要的挑戰(zhàn)包括()。A、會消耗大量的內(nèi)存B、會產(chǎn)生大量的候選項集C、對候選項集的支持度計算非常繁瑣D、要對數(shù)據(jù)進行多次掃描15.MOLAP16.維度表一般又主鍵、分類層次和描述屬性組成。對于主鍵可以選擇兩種方式:一種是采用自然鍵,另一種是采用()17.下列幾種數(shù)據(jù)挖掘功能中,()被廣泛的應用于股票價格走勢分析。A、關聯(lián)分析B、分類和預測C、聚類分析D、演變分析18.簡述數(shù)據(jù)清理的基本內(nèi)容。19.數(shù)據(jù)變換的內(nèi)容是什么?20.根據(jù)顧客的收入和職業(yè)情況,預測他們在計算機設備上的花費,所使用的相應數(shù)據(jù)挖掘功能是()。A、關聯(lián)分析B、分類和預測C、演變分析D、概念描述21.簡述典型的聚類分析任務包括的步驟。22.數(shù)據(jù)挖掘處理的對象有哪些?請從實際生活中舉出至少三種。23.檢測一元正態(tài)分布中的離群點,屬于異常檢測中的基于()的離群點檢測。A、統(tǒng)計方法B、鄰近度C、密度D、聚類技術24.尋找模式和規(guī)則主要是對數(shù)據(jù)進行干擾,使其符合某種規(guī)則以及模式。25.什么是技術元數(shù)據(jù)?主要包含的內(nèi)容是什么?第1卷參考答案一.參考題庫1.參考答案: (1)快速性:用戶對OLAP的快速反應能力有很高的要求。 (2)可分析性:OLAP系統(tǒng)應能處理任何邏輯分析和統(tǒng)計分析。 (3)多維性:系統(tǒng)必須提供對數(shù)據(jù)分析的多維視圖和分析。 (4)信息性:OLAP系統(tǒng)應能及時獲得信息,并且管理大容量的信息。2.參考答案:事務操作;只讀查詢3.參考答案:數(shù)據(jù)分布的情況4.參考答案:錯誤5.參考答案:表的歸并與簇文件6.參考答案:分類過程一般分為兩步:第一步是利用分類算法對訓練集進行學習,建立分類模型;第二步是用分類模型對標號未知的測試數(shù)據(jù)進行分類。7.參考答案:分箱、直方圖分析,聚類分析,基于熵的離散化和通過自然劃分分段。8.參考答案:C9.參考答案:錯誤10.參考答案: 1,數(shù)據(jù)倉庫的時間范圍比操作數(shù)據(jù)庫系統(tǒng)要長的多。操作數(shù)據(jù)庫系統(tǒng)主要保存當前數(shù)據(jù),而數(shù)據(jù)倉庫從歷史的角度提供信息。 2,數(shù)據(jù)倉庫中的每一個關鍵結(jié)構(gòu)都隱式或顯式的包含時間元素,而操作數(shù)據(jù)庫中的關鍵結(jié)構(gòu)可能就不包含時間元素。11.參考答案:是基于關系數(shù)據(jù)庫存儲方式的,在這種結(jié)構(gòu)中,多維數(shù)據(jù)被映像成二維關系表,通常采用星型或雪花型架構(gòu),由一個事實表和多個維度表構(gòu)成。12.參考答案:錯誤13.參考答案:企業(yè)級14.參考答案:C15.參考答案:A16.參考答案:收集、分析和確認業(yè)務分析需求,分析和理解主題和元數(shù)據(jù)、事實及其量度、粒度和維度的選擇與設計、數(shù)據(jù)倉庫的物理存儲方式的設計等。17.參考答案:錯誤18.參考答案:D19.參考答案:B20.參考答案:數(shù)據(jù)清洗,數(shù)據(jù)集成(考慮數(shù)據(jù)一致性和冗余),數(shù)據(jù)選擇,數(shù)據(jù)轉(zhuǎn)換,數(shù)據(jù)挖掘,模式評估,知識表示。21.參考答案: ①忽略該記錄; ②去掉屬性; ③手工填寫空缺值; ④使用默認值; ⑤使用屬性平均值; ⑥使用同類樣本平均值。22.參考答案:A23.參考答案: 1,數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫; 2,數(shù)據(jù)庫或數(shù)據(jù)倉庫服務器; 3,知識庫; 4,數(shù)據(jù)挖掘引擎; 5,模式評估模塊; 6.圖形用戶界面。24.參考答案:(1)模式識別:這主要是實體識別問題; (2)冗余:一個屬性是冗余的,即它能由另一個表導出,如果屬性或維的命名不一致,也可能導致冗余,可以用相關分析來檢測; (3)數(shù)據(jù)值沖突的檢測與處理:有些屬性因表示比例或編碼不同,會導致屬性不同。25.參考答案:B第2卷參考答案一.參考題庫1.參考答案:可伸縮性;處理不同類型屬性的能力;發(fā)現(xiàn)任意形狀聚類的能力;減小對先驗知識和用戶自定義參數(shù)的依賴性;處理噪聲數(shù)據(jù)的能力;可解釋性和實用性。2.參考答案:關系OLAP服務器;多維OLAP服務器;混合OLAP服務器3.參考答案: (1)概念模型設計是在較高的抽象層次上的設計,其主要內(nèi)容包括:界定系統(tǒng)邊界和確定主要的主題域。 (2)邏輯模型設計的主要內(nèi)容包括:分析主題域、確定粒度層次劃分、確定數(shù)據(jù)分割策略、定義關系模式、定義記錄系統(tǒng)。 (3)物理數(shù)據(jù)模型設計的主要內(nèi)容包括:確定數(shù)據(jù)存儲結(jié)構(gòu)、確定數(shù)據(jù)存放位置、確定存儲分配以及確定索引策略等。4.參考答案:按照屬性A和B劃分時,數(shù)據(jù)集可分為如下兩種情況: 按照屬性A劃分樣本集分別得到的兩個子集(A取值T和A取值F)的信息熵分別為: 按照屬性B劃分樣本集分別得到的兩個子集(B取值T和B取值F)的信息熵分別為: 因此,決策樹歸納算法將會選擇屬性A。 (2) 劃分前的Gini值為G=1-0.42-0.62=0.48 按照屬性A劃分時Gini指標: 因此,決策樹歸納算法將會選擇屬性B。5.參考答案:錯誤6.參考答案:關系數(shù)據(jù)庫7.參考答案:是根據(jù)時間序列型數(shù)據(jù),由歷史的和當前的數(shù)據(jù)去推測未來的數(shù)據(jù),也可以認為是以時間為關鍵屬性的關聯(lián)知識。8.參考答案:明考斯基距離9.參考答案:出落在至少高于第三個四分位數(shù)或低于第一個四分位數(shù)1.5*IQR處的值10.參考答案:抽樣:長期用于數(shù)據(jù)的事先調(diào)查和最終的數(shù)據(jù)分析,在數(shù)據(jù)挖掘中,抽樣是選擇數(shù)據(jù)子集進行分析的常用方法。 1)無放回的簡單隨機抽樣方法 2)有放回的簡單隨機抽樣方法 3)分層抽樣方法11.參考答案: 統(tǒng)計學主要是對數(shù)量數(shù)據(jù)(數(shù)值)或連續(xù)值數(shù)據(jù)(如年齡、工資等),進行數(shù)值計算(如初等運算)的定量分析,得到數(shù)量信息。 數(shù)據(jù)挖掘主要對離散數(shù)據(jù)(如職稱、病癥等)進行定性分析(覆蓋、歸納等),得到規(guī)則知識。 統(tǒng)計學與數(shù)據(jù)挖掘是有區(qū)別的。但是,它們之間是相互補充的。12.參考答案: 建立數(shù)據(jù)倉庫的目的有3個: 一是為了解決企業(yè)決策分析中的系統(tǒng)響應問題,數(shù)據(jù)倉庫能提供比傳統(tǒng)事務數(shù)據(jù)庫更快的大規(guī)模決策分析的響應速度。 二是解決決策分析對數(shù)據(jù)的特殊需求問題。決策分析需要全面的、正確的集成數(shù)據(jù),這是傳統(tǒng)事務數(shù)據(jù)庫不能直接提供的。 三是解決決策分析對數(shù)據(jù)的特殊操作要求。決策分析是面向?qū)I(yè)用戶而非一般業(yè)務員,需要使用專業(yè)的分析工具,對分析結(jié)果還要以商業(yè)智能的方式進行表現(xiàn),這是事務數(shù)據(jù)庫不能提供的。13.參考答案:數(shù)據(jù)清理;數(shù)據(jù)集成;數(shù)據(jù)選擇;數(shù)據(jù)變換;數(shù)據(jù)挖掘;模式評估;知識表示14.參考答案:A15.參考答案:從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。16.參考答案:17.參考答案:因為數(shù)據(jù)倉庫或數(shù)據(jù)集市的數(shù)據(jù)總是歷史的數(shù)據(jù),需要時間維來區(qū)別。18.參考答案: 相異度矩陣是用于存儲所有對象兩兩之間相異度的矩陣,為一個nn維的單模矩陣。 其特點是d(i,j)=d(j,i),d(i,i)=0,d(j,j)=0。如下所示: 19.參考答案:有損壓縮;無損壓縮20.參考答案:決策樹用于對新樣本的分類,即通過決策樹對新樣本屬性值的測試,從樹的根結(jié)點開始,按照樣本屬性的取值,逐漸沿著決策樹向下,直到樹的葉結(jié)點,該葉結(jié)點表示的類別就是新樣本的類別。決策樹方法是數(shù)據(jù)挖掘中非常有效的分類方法。21.參考答案:C22.參考答案:常見數(shù)據(jù)類型有區(qū)間標度變量、比例標度型變量、二元變量、標稱型、序數(shù)型以及混合類型等。23.參考答案:聚合模型24.參考答案:同時滿足最小支持度閾值和最小可信度閾值的規(guī)則稱之為關聯(lián)規(guī)則。25.參考答案:B第3卷參考答案一.參考題庫1.參考答案:正確2.參考答案:C3.參考答案:分布4.參考答案:D5.參考答案:數(shù)據(jù)清洗是一種使用模式識別和其他技術,在將原始數(shù)據(jù)轉(zhuǎn)換和移到數(shù)據(jù)倉庫之前來升級原始數(shù)據(jù)質(zhì)量的技術。6.參考答案:數(shù)據(jù)清理(可能有占全過程的60%的工作量);將數(shù)據(jù)存入數(shù)據(jù)倉庫;建立數(shù)據(jù)立方體;選擇用來進行數(shù)據(jù)挖掘的數(shù)據(jù);數(shù)據(jù)挖掘(選擇適當?shù)乃惴▉碚业礁信d趣的模式);展現(xiàn)挖掘結(jié)果;將模式或者知識應用或者存入知識庫。7.參考答案:A,B,C,D8.參考答案:關系數(shù)據(jù)庫(借助集合代數(shù)等概念和方法來處理數(shù)據(jù)庫中的數(shù)據(jù))、數(shù)據(jù)倉庫(數(shù)據(jù)集合,用于支持管理決策)、事務數(shù)據(jù)庫(每個記錄代表一個事務)、空間數(shù)據(jù)庫、事態(tài)數(shù)據(jù)庫和時間序列數(shù)據(jù)庫、流數(shù)據(jù)、多媒體數(shù)據(jù)庫、文本數(shù)據(jù)庫、萬維數(shù)據(jù)庫。9.參考答案:A10.參考答案:C11.參考答案:錯誤12.參考答案:(a)計算兩個對象之間的歐幾里得距離 (b)計算兩個對象之間的曼哈頓距離 (c)計算兩個對象之間的閔可夫斯基距離,其中參數(shù)r=3 13.參考答案:業(yè)務元數(shù)據(jù):從業(yè)務角度描述了DW中的數(shù)據(jù),提供了介于使用者和實際系統(tǒng)之間的語義層,主要包括: 1.使用者的業(yè)務屬于所表達的數(shù)據(jù)模型、對象名和屬性名。 2.訪問數(shù)據(jù)的原則和數(shù)據(jù)的來源。 3.系統(tǒng)提供的分析方法及公式和報表的信息。14.參考答案:B,C,D15.參考答案:是基于類似于“超立方”塊的OLAP存儲結(jié)構(gòu),由許多經(jīng)壓縮的、類似于多維數(shù)組的對象構(gòu)成,并帶有高度壓縮的索引及指針結(jié)構(gòu),通過直接偏移計算進行存取。16.參考答案:代理鍵17.參考答案:D18.參考答案:①盡可能賦予屬性名和屬性值明確的含義;②統(tǒng)一多數(shù)據(jù)源的屬性值編碼;③去除無用的惟一屬性或鍵值(如自動增長的id);④去除重復屬性(在某些分析中,年齡和出生日期可能就是重復的屬性,但在某些時候它們可能又是同時需要的);⑤去除
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 電視設備智能生物藥品產(chǎn)業(yè)國際企業(yè)社會責任與道德規(guī)范技術考核試卷
- 物業(yè)管理法律咨詢考核試卷
- 染整企業(yè)生產(chǎn)安全與事故預防考核試卷
- 海洋環(huán)境監(jiān)測網(wǎng)絡建設與優(yōu)化考核試卷
- 皮鞋生產(chǎn)中的節(jié)能減排措施考核試卷
- 激光加工技術在機電組件制造中的應用考核試卷
- 烏魯木齊職業(yè)大學《影視非線性編輯與合成》2023-2024學年第一學期期末試卷
- 江南影視藝術職業(yè)學院《中央銀行學英》2023-2024學年第二學期期末試卷
- 吉林農(nóng)業(yè)科技學院《泵與泵站》2023-2024學年第二學期期末試卷
- 上海思博職業(yè)技術學院《膠東紅色文化概論》2023-2024學年第一學期期末試卷
- 2024年中國東方航空技術有限公司招聘筆試參考題庫含答案解析
- 小學生飛花令大全
- 研發(fā)管理中的變革與創(chuàng)新
- 2024年九省聯(lián)考新高考 數(shù)學試卷(含答案解析)
- 考研復試調(diào)劑講座
- SPC控制圖應用指導書
- Unit2-social-media-detox課件-高一英語外研版(2019)選擇性必修二
- 2023版設備管理體系標準
- IrreguLar-Verbs-不規(guī)則動詞表
- 蔬菜水果配送投標方案(技術方案)
- (2023版)《結(jié)腸鏡檢查腸道準備專家共識意見》解讀課件
評論
0/150
提交評論