版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
(圖片大小可任意調節(jié))2023年商業(yè)經濟行業(yè)技能考試-數據挖掘工程師考試沖刺-歷年真題演練帶答案第一卷一.參考題庫(共20題)1.為什么樸素貝葉斯分類稱為“樸素”的?簡述樸素貝葉斯分類優(yōu)缺點。2.簡述雪花模型。3.ID3算法主要存在的缺點是什么?4.離散屬性總是具有有限個值。5.維度可以根據其變化快慢分為元變化維度、()維度和劇烈變化維度三類。6.MOLAP7.如何用決策樹進行分類?8.關于OLAP的特性,下面正確的是() (1)快速性(2)可分析性(3)多維性(4)信息性(5)共享性A、(1)(2)(3)B、(2)(3)(4)C、(1)(2)(3)(4)D、(1)(2)(3)(4)(5)9.下表中列出了4個點的兩個最近鄰。使用SNN相似度定義,計算每對點之間的SNN相似度。 10.以下哪種聚類方法可以發(fā)現任意形狀的聚類?()A、劃分的方法B、基于模型的方法C、基于密度的方法D、層次的方法11.數據倉庫的三層架構主要包括以下哪三部分?()A、數據源B、數據倉庫服務器C、OLAP服務器D、前端工具12.如果規(guī)則不滿足置信度閾值,則形如的規(guī)則一定也不滿足置信度閾值,其中是X的子集。13.根據關聯分析中所涉及的抽象層,可以將關聯規(guī)則分類為()。A、布爾關聯規(guī)則B、單層關聯規(guī)則C、多維關聯規(guī)則D、多層關聯規(guī)則14.數據挖掘的預測建模任務主要包括哪幾大類問題?()A、分類B、回歸C、模式發(fā)現D、模式匹配15.項集的頻率是指()16.可視化技術對于分析的數據類型通常不是專用性的。17.數據倉庫系統的體系結構根據應用需求的不同,可以分為以下4種類型:()、獨立型數據集合、以來型數據結合和操作型數據存儲和邏輯型數據集中和實時數據倉庫。18.某超市研究銷售紀錄數據后發(fā)現,買啤酒的人很大概率也會購買尿布,這種屬于數據挖掘的哪類問題?()A、關聯規(guī)則發(fā)現B、聚類C、分類D、自然語言處理19.數據分類模型的常用表示形式包括()、()等。20.基于網格的聚類方法的優(yōu)點是:()第二卷一.參考題庫(共20題)1.考慮如下的頻繁3-項集:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}。 (a)根據Apriori算法的候選項集生成方法,寫出利用頻繁3-項集生成的所有候選4-項集。 (b)寫出經過剪枝后的所有候選4-項集。2.分類方法的常用評估度量都有哪些?3.數據挖掘的特征:()。4.()這些數據特性都是對聚類分析具有很強影響的。A、高維性B、規(guī)模C、稀疏性D、噪聲和離群點5.尋找模式和規(guī)則主要是對數據進行干擾,使其符合某種規(guī)則以及模式。6.定量屬性可以是整數值或者是連續(xù)值。7.數據從集結區(qū)加載到數據倉庫中的主要方法是什么?8.下面哪種分類方法是屬于神經網絡學習算法?()A、判定樹歸納B、貝葉斯分類C、后向傳播分類D、基于案例的推理9.簡述分類器設計階段包含的3個過程。10.當前的數據挖掘研究中,最主要的三個研究方向是:()、()和()11.常見的分箱方法有哪些?數據平滑處理的方法有哪些?12.簡述K-means算法的基本操作步驟(包括算法的輸入和輸出)。13.在基于圖的簇評估度量表里面,如果簇度量為proximity(Ci,C),簇權值為mi,那么它的類型是()。A、基于圖的凝聚度B、基于原型的凝聚度C、基于原型的分離度D、基于圖的凝聚度和分離度14.在判定樹歸納中,為什么樹剪枝是有用的?15.關于OLAP和OLTP的說法,下列不正確的是()A、OLAP事務量大,但事務內容比較簡單且重復率高B、OLAP的最終數據來源與OLTP不一樣C、OLTP面對的是決策人員和高層管理人員D、OLTP以應用為核心,是應用驅動的16.下面哪個不屬于數據的屬性類型:()。A、標稱B、序數C、區(qū)間D、相異17.在評價不平衡類問題分類的度量方法有如下幾種,()。A、F1度量B、召回率(recall)C、精度(precision)D、真正率(turepositiverate,TPR)18.數據倉庫數據庫常見的存儲優(yōu)化方法包括()、反向規(guī)范化引入冗余、表的物理分割。19.簡述數據分類的兩步過程。20.下列哪些是數據變換可能涉及的內容?()A、數據壓縮B、數據概化C、維歸約D、規(guī)范化第三卷一.參考題庫(共20題)1.為什么時間總是數據倉庫或數據集市的維?2.數據挖掘要解決的問題是什么?3.尋找數據集中的關系是為了尋找精確、方便并且有價值地總結了數據的某一特征的表示,這個過程包括了以下哪些步驟?()A、決定要使用的表示的特征和結構B、決定如何量化和比較不同表示擬合數據的好壞C、選擇一個算法過程使評分函數最優(yōu)D、決定用什么樣的數據管理原則以高效地實現算法4.進行數據預處理時所使用的主要方法包括:()、()、()和()5.使用交互式的和可視化的技術,對數據進行探索屬于數據挖掘的哪一類任務?()A、探索性數據分析B、建模描述C、預測建模D、尋找模式和規(guī)則6.數據挖掘處理的對象有哪些?請從實際生活中舉出至少三種。7.抽取、轉換、加載過程的目的是為決策支持應用提供一個()、權威數據源。因此,我們要求ETL過程產生的數據是詳細的、歷史的、規(guī)范的、可理解的、即時的和質量可控制的。8.假設屬性income的最大最小值分別是12000元和98000元。利用最大最小規(guī)范化的方法將屬性的值映射到0至1的范圍內。對屬性income的73600元將被轉化為:()。A、0.821B、1.224C、1.458D、0.7169.在項目實施時,根據事實表的特點和擁護的查詢需求,可以選用()、業(yè)務類型、區(qū)域和下屬組織等多種數據分割類型。10.貝葉斯信念網絡(BBN)有如下哪些特點,()。A、構造網絡費時費力B、對模型的過分問題非常魯棒C、貝葉斯網絡不適合處理不完整的數據D、網絡結構確定后,添加變量相當麻煩11.考慮兩隊之間的足球比賽:隊0和隊1。假設65%的比賽隊0勝出,剩余的比賽隊1獲勝。隊0獲勝的比賽中只有30%是在隊1的主場,而隊1取勝的比賽中75%是主場獲勝。如果下一場比賽在隊1的主場進行隊1獲勝的概率為()。A、0.75B、0.35C、0.4678D、0.573812.請列出3種數據倉庫產品,并說明其優(yōu)缺點。13.在數據挖掘中,常用的聚類算法包括:()、()、()、基于網格的方法和基于模型的方法。14.下面關于數據粒度的描述不正確的是()A、粒度是指數據倉庫小數據單元的詳細程度和級別B、數據越詳細,粒度就越小,級別也就越高C、數據綜合度越高,粒度也就越大,級別也就越高D、粒度的具體劃分將直接影響數據倉庫中的數據量以及查詢質量15.定義下列數據挖掘功能: 關聯、分類、聚類、演變分析、離群點檢測 使用你熟悉的生活中的數據,給出每種數據挖掘功能的例子。16.如果允許一條記錄觸發(fā)多條分類規(guī)則,把每條被觸發(fā)規(guī)則的后件看作是對相應類的一次投票,然后計票確定測試記錄的類標號,稱為()。A、無序規(guī)則B、窮舉規(guī)則C、互斥規(guī)則D、有序規(guī)則17.關于數據倉庫的設計,四種不同的視圖必須考慮,分別是:()、()、()、()18.企業(yè)面對海量數據,應如何具體實施數據挖掘,使之轉換成可行的結果/模型?19.Web挖掘包括哪些步驟?20.確定了數據倉庫的粒度模型以后,為提高數據倉庫的使用性能,還需要根據擁護需求設計()第一卷參考答案一.參考題庫1.正確答案:基于貝葉斯定理的推斷需要大量訓練數據以覆蓋類條件概率空間,引入了很大開銷。樸素貝葉斯分類做了類條件獨立假設,大幅降低了計算開銷。他的優(yōu)點是容易實現并在大多數情況下可以取得較好的結果;他的缺陷是類條件獨立在實際應用缺乏準確性,因為變量之間經常存在依賴關系,這種依賴關系影響了樸素貝葉斯分類器的準確性。2.正確答案:雪花模式中某些維表是規(guī)范化的,因而把數據進一步分解到附加的表中,模式圖形成了類似雪花的形狀。通過最大限度地減少數據存儲量以及聯合較小的維表來改善查詢性能。雪花模型增加了用戶必須處理的表數量,增加了某些查詢的復雜性,但同時提高了處理的靈活性,可以回答更多的商業(yè)問題,特別適合系統的逐步建設要求。3.正確答案:(1)ID3算法在選擇根結點和各內部結點中的分枝屬性時,使用信息增益作為評價標準。信息增益的缺點是傾向于選擇取值較多的屬性,在有些情況下這類屬性可能不會提供太多有價值的信息。 (2)ID3算法只能對描述屬性為離散型屬性的數據集構造決策樹。4.正確答案:錯誤5.正確答案:緩慢變化6.正確答案:是基于類似于“超立方”塊的OLAP存儲結構,由許多經壓縮的、類似于多維數組的對象構成,并帶有高度壓縮的索引及指針結構,通過直接偏移計算進行存取。7.正確答案:決策樹用于對新樣本的分類,即通過決策樹對新樣本屬性值的測試,從樹的根結點開始,按照樣本屬性的取值,逐漸沿著決策樹向下,直到樹的葉結點,該葉結點表示的類別就是新樣本的類別。決策樹方法是數據挖掘中非常有效的分類方法。8.正確答案:D9.正確答案:SNN即共享最近鄰個數為其相似度。 點1和點2的SNN相似度:0(沒有共享最近鄰) 點1和點3的SNN相似度:1(共享點4這個最近鄰) 點1和點4的SNN相似度:1(共享點3這個最近鄰) 點2和點3的SNN相似度:1(共享點4這個最近鄰) 點2和點4的SNN相似度:1(共享點3這個最近鄰) 點3和點4的SNN相似度:0(沒有共享最近鄰)10.正確答案:C11.正確答案:B,C,D12.正確答案:正確13.正確答案:B,D14.正確答案:A,B15.正確答案:包含項集的事務數16.正確答案:錯誤17.正確答案:兩層架構18.正確答案:A19.正確答案:分類規(guī)則;決策樹和數學公式20.正確答案:處理速度快第二卷參考答案一.參考題庫1.正確答案:(a)利用頻繁3-項集生成的所有候選4-項集: {1,2,3,4},{1,2,3,5},{1,2,4,5},{1,3,4,5},{2,3,4,5} (b)經過剪枝后的所有候選4-項集: {1,2,3,4},{1,2,3,5}2.正確答案: 精度(precision):標記為正類的元組實際為正類所占的百分比。召回率:正元組標記為正的百分比。F量度:精度和召回率的調和評估指標。準確率,識別率:測試數據中正被正確分類的元組所占的百分比。 靈敏度:真正例(識別)率。特效性:真負例率。3.正確答案:先前未知,有效和實用4.正確答案:A,B,C,D5.正確答案:錯誤6.正確答案:正確7.正確答案:SQL命令(如Insert或Update) 由DW供應商或第三方提供專門的加載工具 由DW管理員編寫自定義程序8.正確答案:C9.正確答案:劃分數據集,分類器構造,分類器測試。10.正確答案:統計學;數據路技術;機器學習11.正確答案:分箱的方法主要有:①統一權重法(又稱等深分箱法)②統一區(qū)間法(又稱等寬分箱法)③最小熵法④自定義區(qū)間法數據平滑的方法主要有:平均值法、邊界值法和中值法。12.正確答案:13.正確答案:C14.正確答案:決策樹建立時,血多分析反映的是訓練數據中的噪聲和離群點點,樹剪枝可以識別并剪去這種分枝,以提高對未知數據分類的準確性。15.正確答案:A16.正確答案:D17.正確答案:A,B,C,D18.正確答案:表的歸并與簇文件19.正確答案: 第一步,建立模型:建立描述預先定義的數據類或概念集的分類器; 第二步,在獨立測試集上評估模型的預測準確率,通過測試后再使用模型,對新的數據進行分類。20.正確答案:B,D第三卷參考答案一.參考題庫1.正確答案:因為數據倉庫或數據集市的數據總是歷史的數據,需要時間維來區(qū)別。2.正確答案:面對高維,復雜,異構的海量數據,如何集中獲取有用的信息和知識。3.正確答案:A,B,C,D4.正確答案:數據清理;數據集成;數據變換;數據規(guī)約5.正確答案:A6.正確答案:數據挖掘處理的對象是某一專業(yè)領域中積累的數據,對象既可以來自社會科學,又可以來自自然科學產生的數據,還可以是衛(wèi)星觀測得到的數據。數據形式和結構也各不相同,可以是傳統的關系數據庫,可以是面向對象的高級數據庫系統,也可以是面向特殊應用的數據庫,如空間數據庫、時序數據庫、文本數據庫和多媒體數據庫等,還可以是Web數據信息。 實際生活的例子: ①電信行業(yè)中利用數據挖掘技術進行客戶行為分析,包含客戶通話記錄、通話時間、所開通的服務等,據此進行客戶群體劃分以及客戶流失性分析。 ②天文領域中利用決策樹等數據挖掘方法對上百萬天體數據進行分類與分析,幫助天文學家發(fā)現其他未知星體。 ③制造業(yè)中應用數據挖掘技術進行零部件故障診斷、資源優(yōu)化、生產過程分析等。 ④市場業(yè)中應用數據挖掘技術進行市場定位、消費者分析、輔助制定市場營銷策略等。7.正確答案:單一的8.正確答案:D9.正確答案:時間10.正確答案:A,B11.正確答案:D12.正確答案: (1)IBM提供了基于可視化數據倉庫的商業(yè)智能(BI)解決方案,包括:VisualWarehouse(VW),Essbase/DB2OLAPServer5.0、IBMDB2UDB,其中,VW是一個功能很強的集成環(huán)境,既可用于數據倉庫建模和元數據管理,又可用于數據抽取、轉換、裝載和調度。Essbase/DB2OLAPServer支持“維”的定義和數據裝載。 (2)Oracle數據倉庫解決方案主要包括OracleExpress和OracleDiscoverer兩個部分。OracleExpress由四個工具組成:OracleExpressServer是一個MOLAP(多維OLAP)服務器,它利用多維模型,存儲和管理多維數據庫或多維高速緩存,同時也能夠訪問多種關系數據庫 (3)Microsoft將OLAP功能集成到SQLServer數據庫中,其解決方案包括BI平臺、BI終端工具、BI門戶和BI應用四個部分。BI平臺是BI解決方案的基礎,包括ETL平臺SQLServer2005IntegrationService(SSIS)、數據倉庫引擎SQLServer2005RDBMS以及多維分析和數據挖掘引擎SQLServer2005AnalysisService、報表管理引擎SQLServer2005ReportingService。13.正確答案:劃分方法;層次方法;基于密度的方法14.正確答案:C15.正確答案:關聯是指發(fā)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度財務信息系統集成合同3篇
- 2024石子深加工技術研發(fā)與應用合同3篇
- 2024玩具樂園設備采購及租賃服務合同3篇
- 2024版影視作品版權轉讓與授權播放合同
- 2025年松樹造林項目采購合同3篇
- 二零二五版船舶光租及船舶安全管理體系合同3篇
- 二零二五年度安置房項目公共設施維護合同3篇
- 2025年度淋浴房綠色環(huán)保材料采購與安裝服務合同4篇
- 2025年度鋁材貿易結算與風險管理合同4篇
- 二零二五年度跨境電商進口采購合同3篇
- 領導溝通的藝術
- 發(fā)生用藥錯誤應急預案
- 南潯至臨安公路(南潯至練市段)公路工程環(huán)境影響報告
- 綠色貸款培訓課件
- 大學生預征對象登記表(樣表)
- 主管部門審核意見三篇
- 初中數學校本教材(完整版)
- 父母教育方式對幼兒社會性發(fā)展影響的研究
- 新課標人教版數學三年級上冊第八單元《分數的初步認識》教材解讀
- (人教版2019)數學必修第一冊 第三章 函數的概念與性質 復習課件
- 重慶市銅梁區(qū)2024屆數學八上期末檢測試題含解析
評論
0/150
提交評論