下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
2023年商業(yè)經(jīng)濟(jì)行業(yè)技能考試-數(shù)據(jù)挖掘工程師考試參考題庫(kù)(含答案)(圖片大小可任意調(diào)節(jié))第I卷一.全考點(diǎn)試題庫(kù)(共20題)1.支持度
正確答案:規(guī)則A→B的支持度指的是所有事件中A與B同地發(fā)生的的概率,即P(A∪B),是AB同時(shí)發(fā)生的次數(shù)與事件總次數(shù)之比。支持度是對(duì)關(guān)聯(lián)規(guī)則重要性的衡量。2.什么是分類?分類的應(yīng)用領(lǐng)域有哪些?
正確答案:
分類是指把數(shù)據(jù)樣本映射到一個(gè)事先定義的類中的學(xué)習(xí)過(guò)程,即給定一組輸入的屬性向量及其對(duì)應(yīng)的類,用基于歸納的學(xué)習(xí)算法得出分類。
分類問(wèn)題在商業(yè)、銀行業(yè)、醫(yī)療診斷、生物學(xué)、文本挖掘、因特網(wǎng)篩選等領(lǐng)域都有廣泛應(yīng)用。例如,在銀行業(yè)中,分類方法可以輔助工作人員將正常信用卡用戶和欺詐信用卡用戶進(jìn)行分類,從而采取有效措施減小銀行的損失;在醫(yī)療診斷中,分類方法可以幫助醫(yī)療人員將正常細(xì)胞和癌變細(xì)胞進(jìn)行分類,從而及時(shí)制定救治方案,挽救病人的生命。3.關(guān)聯(lián)知識(shí)
正確答案:是反映一個(gè)事件和其他事件之間依賴或相互關(guān)聯(lián)的知識(shí)。如果兩項(xiàng)或多項(xiàng)屬性之間存在關(guān)聯(lián),那么其中一項(xiàng)的屬性值就可以依據(jù)其他屬性值進(jìn)行預(yù)測(cè)。4.關(guān)于混合模型聚類算法的優(yōu)缺點(diǎn),下面說(shuō)法正確的是()。
A、當(dāng)簇只包含少量數(shù)據(jù)點(diǎn),或者數(shù)據(jù)點(diǎn)近似協(xié)線性時(shí),混合模型也能很好地處理
B、混合模型比K均值或模糊c均值更一般,因?yàn)樗梢允褂酶鞣N類型的分布
C、混合模型很難發(fā)現(xiàn)不同大小和橢球形狀的簇
D、混合模型在有噪聲和離群點(diǎn)時(shí)不會(huì)存在問(wèn)題
正確答案:B5.()都屬于簇有效性的監(jiān)督度量。
A、輪廓系數(shù)
B、共性分類相關(guān)系數(shù)
C、熵
D、F度量
正確答案:C,D6.關(guān)聯(lián)規(guī)則挖掘過(guò)程是發(fā)現(xiàn)滿足最小支持度的所有項(xiàng)集代表的規(guī)則。
正確答案:錯(cuò)誤7.一個(gè)典型的數(shù)據(jù)挖掘系統(tǒng)應(yīng)該包括哪些組成部分?
正確答案:
1,數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)或其他信息庫(kù);
2,數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器;
3,知識(shí)庫(kù);
4,數(shù)據(jù)挖掘引擎;
5,模式評(píng)估模塊;
6.圖形用戶界面。8.項(xiàng)集的頻率是指()
正確答案:包含項(xiàng)集的事務(wù)數(shù)9.數(shù)據(jù)集分為三類:()。
正確答案:記錄數(shù)據(jù),基于圖形的數(shù)據(jù)和有序的數(shù)據(jù)集10.尋找模式和規(guī)則主要是對(duì)數(shù)據(jù)進(jìn)行干擾,使其符合某種規(guī)則以及模式。
正確答案:錯(cuò)誤11.簡(jiǎn)述數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的關(guān)系?
正確答案:數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘都是決策支持新技術(shù)。但它們有著完全不同的輔助決策方式。在數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的前端的分析工具中,數(shù)據(jù)挖掘是其中重要工具之一。它可以幫助決策用戶挖掘數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)中隱含的規(guī)律性。12.DBSCAN在最壞情況下的時(shí)間復(fù)雜度是()。
A、O(m)
B、O(m2)
C、O(logm)
D、O(m*logm)
正確答案:B13.在數(shù)據(jù)挖掘之前為什么要對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理?
正確答案:
原始業(yè)務(wù)數(shù)據(jù)來(lái)自多個(gè)數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù),它們的結(jié)構(gòu)和規(guī)則可能是不同的,這將導(dǎo)致原始數(shù)據(jù)非常的雜亂、不可用,即使在同一個(gè)數(shù)據(jù)庫(kù)中,也可能存在重復(fù)的和不完整的數(shù)據(jù)信息,為了使這些數(shù)據(jù)能夠符合數(shù)據(jù)挖掘的要求,提高效率和得到清晰的結(jié)果,必須進(jìn)行數(shù)據(jù)的預(yù)處理。
為數(shù)據(jù)挖掘算法提供完整、干凈、準(zhǔn)確、有針對(duì)性的數(shù)據(jù),減少算法的計(jì)算量,提高挖掘效率和準(zhǔn)確程度。14.請(qǐng)描述主成份分析(PCA)算法步驟
正確答案:
1.規(guī)范化輸入的數(shù)據(jù):所有屬性落在相同的區(qū)間內(nèi);
2,計(jì)算k個(gè)標(biāo)準(zhǔn)正交向量,即主成分;
3,每個(gè)數(shù)據(jù)數(shù)據(jù)的向量都是這k主成分向量的線性組合;
4,主成分按照重要程度降序排序。15.在有關(guān)數(shù)據(jù)倉(cāng)庫(kù)測(cè)試,下列說(shuō)法不正確的是:()。
A、在完成數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施過(guò)程中,需要對(duì)數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行各種測(cè)試.測(cè)試工作中要包括單元測(cè)試和系統(tǒng)測(cè)試
B、當(dāng)數(shù)據(jù)倉(cāng)庫(kù)的每個(gè)單獨(dú)組件完成后,就需要對(duì)他們進(jìn)行單元測(cè)試
C、系統(tǒng)的集成測(cè)試需要對(duì)數(shù)據(jù)倉(cāng)庫(kù)的所有組件進(jìn)行大量的功能測(cè)試和回歸測(cè)試
D、在測(cè)試之前沒(méi)必要制定詳細(xì)的測(cè)試計(jì)劃
正確答案:D16.層次聚類方法包括哪些?
正確答案:層次聚類方法包括凝聚型和分解型兩中層次聚類方法。17.以下哪些學(xué)科和數(shù)據(jù)挖掘有密切聯(lián)系?()
A、統(tǒng)計(jì)
B、計(jì)算機(jī)組成原理
C、礦產(chǎn)挖掘
D、人工智能
正確答案:A,D18.請(qǐng)列出3種數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)品,并說(shuō)明其優(yōu)缺點(diǎn)。
正確答案:
(1)IBM提供了基于可視化數(shù)據(jù)倉(cāng)庫(kù)的商業(yè)智能(BI)解決方案,包括:VisualWarehouse(VW),Essbase/DB2OLAPServer5.0、IBMDB2UDB,其中,VW是一個(gè)功能很強(qiáng)的集成環(huán)境,既可用于數(shù)據(jù)倉(cāng)庫(kù)建模和元數(shù)據(jù)管理,又可用于數(shù)據(jù)抽取、轉(zhuǎn)換、裝載和調(diào)度。Essbase/DB2OLAPServer支持“維”的定義和數(shù)據(jù)裝載。
(2)Oracle數(shù)據(jù)倉(cāng)庫(kù)解決方案主要包括OracleExpress和OracleDiscoverer兩個(gè)部分。OracleExpress由四個(gè)工具組成:OracleExpressServer是一個(gè)MOLAP(多維OLAP)服務(wù)器,它利用多維模型,存儲(chǔ)和管理多維數(shù)據(jù)庫(kù)或多維高速緩存,同時(shí)也能夠訪問(wèn)多種關(guān)系數(shù)據(jù)庫(kù)
(3)Microsoft將OLAP功能集成到SQLServer數(shù)據(jù)庫(kù)中,其解決方案包括BI平臺(tái)、BI終端工具、BI門戶和BI應(yīng)用四個(gè)部分。BI平臺(tái)是BI解決方案的基礎(chǔ),包括ETL平臺(tái)SQLServer2005IntegrationService(SSIS)、數(shù)據(jù)倉(cāng)庫(kù)引擎SQLServer2005RDBMS以及多維分析和數(shù)據(jù)挖掘引擎SQLServer2005AnalysisService、報(bào)表管理引擎SQLServer2005ReportingService。19.考慮如下的頻繁3-項(xiàng)集:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}。 (a)根據(jù)Apriori算法的候選項(xiàng)集生成方法,寫出利用頻繁3-項(xiàng)集生成的所有候選4-項(xiàng)集。 (b)寫出經(jīng)過(guò)剪枝后的所有候選4-項(xiàng)集。
正確答案:(a)利用頻繁3-項(xiàng)集生成的所有候選4-項(xiàng)集:
{1,2,3,4},{1,2,3,5},{1,2,4,5},{1,3,4,5},{2,3,4,5}
(b)經(jīng)過(guò)剪枝后的所有候選4-項(xiàng)集:
{1,2,3,4},{1
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年工業(yè)自動(dòng)化生產(chǎn)線廠房租賃合同4篇
- 2024離婚合同書:不含財(cái)產(chǎn)分割案例版B版
- 個(gè)人房產(chǎn)抵押合同
- 2024年04月交通銀行股份有限公司畢節(jié)分行(貴州)招考1名勞務(wù)人員筆試歷年參考題庫(kù)附帶答案詳解
- 2024物業(yè)公司收費(fèi)標(biāo)準(zhǔn)合同
- 2025年度不銹鋼復(fù)合材料應(yīng)用研發(fā)與推廣協(xié)議3篇
- 2024年03月貴州中國(guó)農(nóng)業(yè)銀行貴州省分行春季招考筆試歷年參考題庫(kù)附帶答案詳解
- 2025年度農(nóng)產(chǎn)品溯源體系建設(shè)合作協(xié)議范本3篇
- 二零二五年度草牧場(chǎng)資源綜合利用與承包合同3篇
- 專職護(hù)林員2024年度服務(wù)協(xié)議版B版
- 骨科手術(shù)后患者營(yíng)養(yǎng)情況及營(yíng)養(yǎng)不良的原因分析,骨傷科論文
- GB/T 24474.1-2020乘運(yùn)質(zhì)量測(cè)量第1部分:電梯
- GB/T 12684-2006工業(yè)硼化物分析方法
- 定崗定編定員實(shí)施方案(一)
- 高血壓患者用藥的注意事項(xiàng)講義課件
- 特種作業(yè)安全監(jiān)護(hù)人員培訓(xùn)課件
- (完整)第15章-合成生物學(xué)ppt
- 太平洋戰(zhàn)爭(zhēng)課件
- 封條模板A4打印版
- T∕CGCC 7-2017 焙烤食品用糖漿
- 貨代操作流程及規(guī)范
評(píng)論
0/150
提交評(píng)論