2024年商業(yè)經(jīng)濟行業(yè)技能考試-數(shù)據(jù)挖掘工程師歷年高頻考點試卷專家薈萃含答案_第1頁
2024年商業(yè)經(jīng)濟行業(yè)技能考試-數(shù)據(jù)挖掘工程師歷年高頻考點試卷專家薈萃含答案_第2頁
2024年商業(yè)經(jīng)濟行業(yè)技能考試-數(shù)據(jù)挖掘工程師歷年高頻考點試卷專家薈萃含答案_第3頁
2024年商業(yè)經(jīng)濟行業(yè)技能考試-數(shù)據(jù)挖掘工程師歷年高頻考點試卷專家薈萃含答案_第4頁
2024年商業(yè)經(jīng)濟行業(yè)技能考試-數(shù)據(jù)挖掘工程師歷年高頻考點試卷專家薈萃含答案_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

2024年商業(yè)經(jīng)濟行業(yè)技能考試-數(shù)據(jù)挖掘工程師歷年高頻考點試卷專家薈萃含答案(圖片大小可自由調(diào)整)第1卷一.參考題庫(共25題)1.以下哪個聚類算法不屬于基于網(wǎng)格的聚類算法()。A、STINGB、WaveClusterC、MAFIAD、BIRCH2.何謂數(shù)據(jù)規(guī)范化?規(guī)范化的方法有哪些?寫出對應(yīng)的變換公式。3.列舉操作型數(shù)據(jù)與分析型數(shù)據(jù)的主要區(qū)別。4.分類知識的發(fā)現(xiàn)方法主要有哪些?分類過程通常包括哪兩個步驟?5.如果規(guī)則集中的規(guī)則按照優(yōu)先級降序排列,則稱規(guī)則集是()。A、無序規(guī)則B、窮舉規(guī)則C、互斥規(guī)則D、有序規(guī)則6.下面關(guān)于Jarvis-Patrick(JP)聚類算法的說法不正確的是()。A、JP聚類擅長處理噪聲和離群點,并且能夠處理不同大小、形狀和密度的簇B、JP算法對高維數(shù)據(jù)效果良好,尤其擅長發(fā)現(xiàn)強相關(guān)對象的緊致簇C、JP聚類是基于SNN相似度的概念D、JP聚類的基本時間復(fù)雜度為O(m)7.何謂數(shù)據(jù)倉庫?為什么要建立數(shù)據(jù)倉庫?8.決策樹9.簡述基于劃分的聚類方法。劃分的準則是什么?10.考慮如下的頻繁3-項集:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}。 (a)根據(jù)Apriori算法的候選項集生成方法,寫出利用頻繁3-項集生成的所有候選4-項集。 (b)寫出經(jīng)過剪枝后的所有候選4-項集。11.為什么要建立數(shù)據(jù)倉庫?12.關(guān)于OLAP的特性,下面正確的是:()。 (1)快速性 (2)可分析性 (3)多維性 (4)信息性 (5)共享性A、(1)(2)(3)B、(2)(3)(4)C、(1)(2)(3)(4)D、(1)(2)(3)(4)(5)13.以下哪個指標不是表示對象間的相似度和相異度?()A、Euclidean距離B、Manhattan距離C、Eula距離D、Minkowski距離14.以下哪項關(guān)于決策樹的說法是錯誤的?()A、冗余屬性不會對決策樹的準確率造成不利的影響B(tài)、子樹可能在決策樹中重復(fù)多次C、決策樹算法對于噪聲的干擾非常敏感D、尋找最佳決策樹是NP完全問題15.ROLAP16.數(shù)據(jù)清理的目的是什么?17.在基于規(guī)則分類器的中,依據(jù)規(guī)則質(zhì)量的某種度量對規(guī)則排序,保證每一個測試記錄都是由覆蓋它的“最好的”規(guī)格來分類,這種方案稱為()。A、基于類的排序方案B、基于規(guī)則的排序方案C、基于度量的排序方案D、基于規(guī)格的排序方案18.OLAP服務(wù)器的類型主要包括:()、()和()19.分類的定義是什么?20.下面的數(shù)據(jù)操作中,哪些操作不是多維數(shù)據(jù)模型上的OLAP操作?()A、上卷(roll-up)B、選擇(select)C、切片(slice)D、轉(zhuǎn)軸(pivot)21.下面哪種分類方法是屬于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法?()A、判定樹歸納B、貝葉斯分類C、后向傳播分類D、基于案例的推理22.定量屬性可以是整數(shù)值或者是連續(xù)值。23.已知數(shù)據(jù)元組中age的值如下(按遞增序): 13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。 (a)使用min-max規(guī)范化,將age值35轉(zhuǎn)換到[0.0,1.0]區(qū)間。 (b)使用z-score規(guī)范化轉(zhuǎn)換age值35,其中,age的標準偏差為12.94年。 (c)使用小數(shù)定標規(guī)范化轉(zhuǎn)換age值35。24.簡述數(shù)據(jù)倉庫的組成。25.什么是數(shù)據(jù)倉庫的數(shù)據(jù)ETL過程?第2卷一.參考題庫(共25題)1.特征搜索過程中不可缺少的環(huán)節(jié)就是()。2.簡述Apriori算法的思想,談?wù)勗撍惴ǖ膽?yīng)用領(lǐng)域。3.調(diào)和數(shù)據(jù)是存儲在()數(shù)據(jù)倉庫和操作型數(shù)據(jù)存儲中的數(shù)據(jù)。4.當維表中的主鍵在事實表中沒有與外鍵關(guān)聯(lián)時,這樣的維稱為()。它于事實表并無關(guān)系,但有時在查詢限制條件中需要用到。5.頻繁項集6.Apriori算法的計算復(fù)雜度受()影響。A、支持度閥值B、項數(shù)(維度)C、事務(wù)數(shù)D、事務(wù)平均寬度7.常用的數(shù)值屬性概念分層的方法有哪些?8.考慮兩隊之間的足球比賽:隊0和隊1。假設(shè)65%的比賽隊0勝出,剩余的比賽隊1獲勝。隊0獲勝的比賽中只有30%是在隊1的主場,而隊1取勝的比賽中75%是主場獲勝。如果下一場比賽在隊1的主場進行隊1獲勝的概率為()。A、0.75B、0.35C、0.4678D、0.57389.下面不屬于創(chuàng)建新屬性的相關(guān)方法的是:()。A、特征提取B、特征修改C、映射數(shù)據(jù)到新的空間D、特征構(gòu)造10.比較統(tǒng)計學(xué)與數(shù)據(jù)挖掘的異同?11.在圖集合中發(fā)現(xiàn)一組公共子結(jié)構(gòu),這樣的任務(wù)稱為()。A、頻繁子集挖掘B、頻繁子圖挖掘C、頻繁數(shù)據(jù)項挖掘D、頻繁模式挖掘12.數(shù)據(jù)挖掘定義是什么?13.簡述決策樹的構(gòu)建。14.如果葉貝斯網(wǎng)絡(luò)的各個結(jié)點都沒有任何證據(jù),從歷史數(shù)據(jù)中如何用兩種不同的方法得到各個結(jié)點的發(fā)生概率?15.根據(jù)特征選擇過程與后續(xù)數(shù)據(jù)挖掘任務(wù)的關(guān)聯(lián)可分為三種方法:()。根據(jù)是否用到類信息的指導(dǎo),分為(),()和()特征選擇,16.模式為對數(shù)據(jù)集的全局性總結(jié),它對整個測量空間的每一點做出描述;模型則對變量變化空間的一個有限區(qū)域做出描述。17.什么是聚類?簡單描述如下的聚類方法:劃分方法,層次方法,基于密度的方法,基于模型的方法。為每類方法給出例子。18.從結(jié)構(gòu)的角度看,數(shù)據(jù)倉庫模型包括以下幾類?()A、企業(yè)倉庫B、數(shù)據(jù)集市C、虛擬倉庫D、信息倉庫19.列舉離群點挖掘的常見應(yīng)用。20.假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)元組中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,問題:使用按箱平均值平滑方法對上述數(shù)據(jù)進行平滑,箱的深度為3。第二個箱子值為:()。A、18.3B、22.6C、26.8D、27.921.設(shè)X={1,2,3}是頻繁項集,則可由X產(chǎn)生()個關(guān)聯(lián)規(guī)則。A、4B、5C、6D、722.聚類分析中常見的數(shù)據(jù)類型有哪些?23.雪花型模式是對()維表的進一步層次化和規(guī)范化來消除冗余的數(shù)據(jù)。24.()都屬于分裂的層次聚類算法。A、二分K均值B、MSTC、ChameleonD、組平均25.一個數(shù)據(jù)倉庫系統(tǒng)的建立通暢需要經(jīng)過哪些步驟?第3卷一.參考題庫(共25題)1.一個數(shù)據(jù)庫有5個事務(wù),如表所示。設(shè)min_sup=60%,min_conf=80%。 (a)分別用Apriori算法和FP-growth算法找出所有頻繁項集。比較兩種挖掘方法的效率。 (b)比較窮舉法和Apriori算法生成的候選項集的數(shù)量。 (c)利用(1)所找出的頻繁項集,生成所有的強關(guān)聯(lián)規(guī)則和對應(yīng)的支持度和置信度。2.分類的過程包括獲取數(shù)據(jù)、預(yù)處理、分類器設(shè)計和()3.OLTP4.考慮下表數(shù)據(jù)集,請完成以下問題: (1)估計條件概率。 (2)根據(jù)(1)中的條件概率,使用樸素貝葉斯方法預(yù)測測試樣本(A=0,B=1,C=0)的類標號; (3)使用Laplace估計方法,其中p=1/2,l=4,估計條件概率。 (4)同(2),使用(3)中的條件概率。 (5)比較估計概率的兩種方法,哪一種更好,為什么?5.下面屬于定量的屬性類型是:()。A、標稱B、序數(shù)C、區(qū)間D、相異6.下面的散點圖顯示哪種屬性相關(guān)性?() A、不相關(guān);B、正相關(guān);C、負相關(guān);D、先正相關(guān)然后負相關(guān)7.建立一個模型,通過這個模型根據(jù)已知的變量值來預(yù)測其他某個變量值屬于數(shù)據(jù)挖掘的哪一類任務(wù)?()A、根據(jù)內(nèi)容檢索B、建模描述C、預(yù)測建模D、尋找模式和規(guī)則8.非頻繁模式()。A、其支持度小于閾值B、都是不讓人感興趣的C、包含負模式和負相關(guān)模式D、對異常數(shù)據(jù)項敏感9.Bayes法是一種在已知后驗概率與類條件概率的情況下的模式分類方法,待分樣本的分類結(jié)果取決于各類域中樣本的全體。10.使用交互式的和可視化的技術(shù),對數(shù)據(jù)進行探索屬于數(shù)據(jù)挖掘的哪一類任務(wù)?()A、探索性數(shù)據(jù)分析B、建模描述C、預(yù)測建模D、尋找模式和規(guī)則11.何謂聚類?它與分類有什么異同?12.數(shù)據(jù)規(guī)范化13.分類器設(shè)計階段包含三個過程:劃分數(shù)據(jù)集、分類器構(gòu)造和()14.商業(yè)智能系統(tǒng)與一般交易系統(tǒng)之間在系統(tǒng)設(shè)計上的主要區(qū)別在于:后者把結(jié)構(gòu)強加于商務(wù)之上,一旦系統(tǒng)設(shè)計完畢,其程序和規(guī)則不會輕易改變;而前者則是一個學(xué)習(xí)型系統(tǒng),能自動適應(yīng)商務(wù)不斷變化的要求。15.基于鄰近度的離群點檢測方法不能處理具有不同密度區(qū)域的數(shù)據(jù)集。16.“實時數(shù)據(jù)倉庫”以為著源數(shù)據(jù)系統(tǒng)、決策支持服務(wù)和倉庫倉庫之間以一個()的速度交換數(shù)據(jù)和業(yè)務(wù)規(guī)則。17.離散屬性總是具有有限個值。18.如何提高Apriori算法的有效性?有哪些常見方法?19.OLAP技術(shù)側(cè)重于把數(shù)據(jù)庫中的數(shù)據(jù)進行分析、轉(zhuǎn)換成輔助決策信息,是繼數(shù)據(jù)庫技術(shù)發(fā)展之后迅猛發(fā)展起來的一種新技術(shù)。20.下面選項中t不是s的子序列的是()。A、s=,t=B、s=,t=C、s=,t=D、s=,t=21.K均值是一種產(chǎn)生劃分聚類的基于密度的聚類算法,簇的個數(shù)由算法自動地確定。22.在評價不平衡類問題分類的度量方法有如下幾種,()。A、F1度量B、召回率(recall)C、精度(precision)D、真正率(turepositiverate,TPR)23.存放最低層匯總的方體稱為()。A、頂點方體B、方體的格C、基本方體D、維24.何謂數(shù)據(jù)挖掘?它有哪些方面的功能?25.什么是關(guān)聯(lián)規(guī)則?關(guān)聯(lián)規(guī)則的應(yīng)用有哪些?第1卷參考答案一.參考題庫1.參考答案:D2.參考答案: 將數(shù)據(jù)按比例縮放(如更換大單位),使之落入一個特定的區(qū)域(如0.0~1.0),稱為規(guī)范化。 規(guī)范化的常用方法有: (1)最大-最小規(guī)范化; (2)零-均值規(guī)范化; (3)小數(shù)定標規(guī)范化。 3.參考答案:4.參考答案: 分類規(guī)則的挖掘方法通常有:決策樹法、貝葉斯法、人工神經(jīng)網(wǎng)絡(luò)法、粗糙集法和遺傳算法。 分類的過程包括2步:首先在已知訓(xùn)練數(shù)據(jù)集上,根據(jù)屬性特征,為每一種類別找到一個合理的描述或模型,即分類規(guī)則;然后根據(jù)規(guī)則對新數(shù)據(jù)進行分類。5.參考答案:D6.參考答案:D7.參考答案:數(shù)據(jù)倉庫是一種新的數(shù)據(jù)處理體系結(jié)構(gòu),是面向主題的、集成的、不可更新的(穩(wěn)定性)、隨時間不斷變化(不同時間)的數(shù)據(jù)集合,為企業(yè)決策支持系統(tǒng)提供所需的集成信息。 建立數(shù)據(jù)倉庫的目的有3個: 一是為了解決企業(yè)決策分析中的系統(tǒng)響應(yīng)問題,數(shù)據(jù)倉庫能提供比傳統(tǒng)事務(wù)數(shù)據(jù)庫更快的大規(guī)模決策分析的響應(yīng)速度。 二是解決決策分析對數(shù)據(jù)的特殊需求問題。決策分析需要全面的、正確的集成數(shù)據(jù),這是傳統(tǒng)事務(wù)數(shù)據(jù)庫不能直接提供的。 三是解決決策分析對數(shù)據(jù)的特殊操作要求。決策分析是面向?qū)I(yè)用戶而非一般業(yè)務(wù)員,需要使用專業(yè)的分析工具,對分析結(jié)果還要以商業(yè)智能的方式進行表現(xiàn),這是事務(wù)數(shù)據(jù)庫不能提供的。8.參考答案:是用樣本的屬性作為結(jié)點,用屬性的取值作為分支的樹結(jié)構(gòu)。它是分類規(guī)則挖掘的典型方法,可用于對新樣本進行分類。9.參考答案: 基于劃分的聚類方法:給頂一個n個對象或元組的數(shù)據(jù)庫,一個劃分方法構(gòu)建數(shù)據(jù)的k個劃分,每個劃分表示一個簇,丙炔k《=n。劃分方法要求每個組至少包含一個對象并且每個對象屬于且僅數(shù)以一個組。聚類目標可以是最優(yōu)化某種量度,比如最小化數(shù)據(jù)點與類中心的距離平方和等。 劃分準則是同一個聚類中的對象盡可能的接近或相關(guān),不同聚類中的對象盡可能的遠離或不同。10.參考答案:(a)利用頻繁3-項集生成的所有候選4-項集: {1,2,3,4},{1,2,3,5},{1,2,4,5},{1,3,4,5},{2,3,4,5} (b)經(jīng)過剪枝后的所有候選4-項集: {1,2,3,4},{1,2,3,5}11.參考答案: 建立數(shù)據(jù)倉庫的目的有3個: 一是為了解決企業(yè)決策分析中的系統(tǒng)響應(yīng)問題,數(shù)據(jù)倉庫能提供比傳統(tǒng)事務(wù)數(shù)據(jù)庫更快的大規(guī)模決策分析的響應(yīng)速度。 二是解決決策分析對數(shù)據(jù)的特殊需求問題。決策分析需要全面的、正確的集成數(shù)據(jù),這是傳統(tǒng)事務(wù)數(shù)據(jù)庫不能直接提供的。 三是解決決策分析對數(shù)據(jù)的特殊操作要求。決策分析是面向?qū)I(yè)用戶而非一般業(yè)務(wù)員,需要使用專業(yè)的分析工具,對分析結(jié)果還要以商業(yè)智能的方式進行表現(xiàn),這是事務(wù)數(shù)據(jù)庫不能提供的。12.參考答案:D13.參考答案:C14.參考答案:C15.參考答案:是基于關(guān)系數(shù)據(jù)庫存儲方式的,在這種結(jié)構(gòu)中,多維數(shù)據(jù)被映像成二維關(guān)系表,通常采用星型或雪花型架構(gòu),由一個事實表和多個維度表構(gòu)成。16.參考答案:試圖填充缺失數(shù)據(jù),去除噪聲并識別離群點,糾正數(shù)據(jù)中的不一致值。17.參考答案:B18.參考答案:關(guān)系OLAP服務(wù)器;多維OLAP服務(wù)器;混合OLAP服務(wù)器19.參考答案:分類是數(shù)據(jù)挖掘中的主要手段,其任務(wù)是對數(shù)據(jù)集進行學(xué)習(xí)并構(gòu)造一個擁有預(yù)測功能的分類模型,用于預(yù)測未知樣本的類標號,把類標號未知的樣本映射到某個預(yù)先給定的類標號中。20.參考答案:B21.參考答案:C22.參考答案:正確23.參考答案:(a)已知最大值為70,最小值為13,則可將35規(guī)范化為: (b)已知均值為30,標準差為12.94,則可將35規(guī)范化為: (c)使用小數(shù)定標規(guī)范化可將35規(guī)范化為:35/100=0.3524.參考答案:數(shù)據(jù)倉庫數(shù)據(jù)庫,數(shù)據(jù)抽取工具,元數(shù)據(jù),訪問工具,數(shù)據(jù)集市,數(shù)據(jù)倉庫管理,信息發(fā)布系統(tǒng)。25.參考答案: 數(shù)據(jù)的ETL過程就是負責將操作型數(shù)據(jù)轉(zhuǎn)換成調(diào)和數(shù)據(jù)的過程。數(shù)據(jù)調(diào)和是構(gòu)建一個數(shù)據(jù)倉庫中最難的和最具技術(shù)挑戰(zhàn)性的部分。在為企業(yè)級數(shù)據(jù)倉庫填充數(shù)據(jù)的過程中,數(shù)據(jù)調(diào)和可分為兩個階段:一是企業(yè)級數(shù)據(jù)倉庫(EDW)首次創(chuàng)建時的原始加載;二是接下來的定期修改,以保持EDW的當前有效性和擴展性。 整個過程由四個步驟組成:抽取、清洗、轉(zhuǎn)換、加載和索引。事實上,這些步驟可以進行不同的組合,如,可以將數(shù)據(jù)抽取與清洗組合為一個過程,或者將清洗和轉(zhuǎn)換組合在一起。第2卷參考答案一.參考題庫1.參考答案:逐步評估2.參考答案: 思想:其發(fā)現(xiàn)關(guān)聯(lián)規(guī)則分兩步,第一是通過迭代,檢索出數(shù)據(jù)源中所有煩瑣項集,即支持度不低于用戶設(shè)定的閥值的項即集,第二是利用第一步中檢索出的煩瑣項集構(gòu)造出滿足用戶最小信任度的規(guī)則,其中,第一步即挖掘出所有頻繁項集是該算法的核心,也占整個算法工作量的大部分。 在商務(wù)、金融、保險等領(lǐng)域皆有應(yīng)用。3.參考答案:企業(yè)級4.參考答案:退化維5.參考答案:指滿足最小支持度的項集,是挖掘關(guān)聯(lián)規(guī)則的基本條件之一。6.參考答案:A,B,C,D7.參考答案:分箱、直方圖分析,聚類分析,基于熵的離散化和通過自然劃分分段。8.參考答案:D9.參考答案:B10.參考答案: 統(tǒng)計學(xué)主要是對數(shù)量數(shù)據(jù)(數(shù)值)或連續(xù)值數(shù)據(jù)(如年齡、工資等),進行數(shù)值計算(如初等運算)的定量分析,得到數(shù)量信息。 數(shù)據(jù)挖掘主要對離散數(shù)據(jù)(如職稱、病癥等)進行定性分析(覆蓋、歸納等),得到規(guī)則知識。 統(tǒng)計學(xué)與數(shù)據(jù)挖掘是有區(qū)別的。但是,它們之間是相互補充的。11.參考答案:B12.參考答案:技術(shù)層面上:數(shù)據(jù)挖掘就是從大量數(shù)據(jù)提取有用信息的過程; 商業(yè)層面上:數(shù)據(jù)挖掘就是對大量業(yè)務(wù)數(shù)據(jù)進行抽取,轉(zhuǎn)換和分析以及建模處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。13.參考答案:1)屬性的選擇(很重要,一般要最大限度地增大樣本集純度) 2)獲得大小適合的決策樹 3)使用ID3等經(jīng)典算法構(gòu)建決策樹14.參考答案:可以用兩種方式從歷史數(shù)據(jù)中得到各個節(jié)點的發(fā)生概率:(1)用各節(jié)點的發(fā)生次數(shù)除以總的數(shù)據(jù)條數(shù),就是各個節(jié)點的發(fā)生概率。(2)首先,用第一種方法計算原因節(jié)點的發(fā)生概率,然后計算原因節(jié)點到中間節(jié)點或結(jié)果節(jié)點的條件概率,最后根據(jù)原因節(jié)點的概率和這些條件概率計算結(jié)果節(jié)點的概率。15.參考答案:過濾,封裝和嵌入;監(jiān)督式;無監(jiān)督式;半監(jiān)督式16.參考答案:錯誤17.參考答案:聚類是將數(shù)據(jù)劃分為相似對象組的過程,使得同一組中對象相似度最大而不同組中對象相似度最小。主要有以下幾種類型方法: (1)劃分方法 給定一個有N個元組或者記錄的數(shù)據(jù)集,分裂法將構(gòu)造K個分組,每一個分組就代表一個聚類,K<N。而且這K個分組滿足下列條件:第一,每一個分組至少包含一條記錄;第二,每一條記錄屬于且僅屬于一個分組(注意:這個要求在某些模糊聚類算法中可以放寬);對于給定的K,算法首先給出一個初始的分組方法,以后通過反復(fù)迭代的方法改變分組,使得每一次改進之后的分組方案都較前一次好,而所謂好的標準就是:同一分組中的記錄越近越好,而不同分組中的記錄越遠越好。 使用這個基本思想的算法有:K-MEANS算法、K-MEDOIDS算法、CLARANS算法。 (2)層次方法 這種方法對給定的數(shù)據(jù)集進行層次似的分解,直到某種條件滿足為止。具體又可分為“自底向上”和“自頂向下”兩種方案。例如在“自底向上”方案中,初始時每一個數(shù)據(jù)記錄都組成一個單獨的組,在接下來的迭代中,它把那些相互鄰近的組合并成一個組,直到所有的記錄組成一個分組或者某個條件滿足為止。 代表算法有:BIRCH算法、CURE算法、CHAMELEON算法等。 (3)基于密度的方法 基于密度的方法與其它方法的一個根本*區(qū)別是:它不是基于各種各樣的距離,而是基于密度的。這樣就能克服基于距離的算法只能發(fā)現(xiàn)“類圓形”的聚類的缺點。這個方法的指導(dǎo)思想就是:只要一個區(qū)域中的點的密度大過某個閾值,就把它加到與之相近的聚類中去。 代表算法有:DBSCAN算法、OPTICS算法、DENCLUE算法等。 (4)基于模型的方法 基于模型的方法給每一個聚類假定一個模型,然后去尋找能夠很好的滿足這個模型的數(shù)據(jù)。這樣一個模型可能是數(shù)據(jù)點在空間中的密度分布函數(shù)或者其它。它的一個潛在假定就是:目標數(shù)據(jù)集是由一系列的概率分布所決定的。 基于模型的方法主要有兩類:統(tǒng)計學(xué)方法和神經(jīng)網(wǎng)絡(luò)方法(SOM)。18.參考答案:A,B,C19.參考答案: 1,欺詐檢測; 2,網(wǎng)絡(luò)入侵; 3,故障診斷; 4,可疑金融交易監(jiān)控20.參考答案:A21.參考答案:C22.參考答案:常見數(shù)據(jù)類型有區(qū)間標度變量、比例標度型變量、二元變量、標稱型、序數(shù)型以及混合類型等。23.參考答案:星型模式24.參考答案:A,B25.參考答案: (1)收集和分析業(yè)務(wù)需求; (2)建立數(shù)據(jù)模型和數(shù)據(jù)倉庫的物理設(shè)計; (3)定義數(shù)據(jù)源; (4)選擇數(shù)據(jù)倉庫技術(shù)和平臺; (5)從操作型數(shù)據(jù)庫中抽取、清洗及轉(zhuǎn)換數(shù)據(jù)到數(shù)據(jù)倉庫; (6)選擇訪問和報表工具,選擇數(shù)據(jù)庫連接軟件,選擇數(shù)據(jù)分析和數(shù)據(jù)展示軟件; (7)更新數(shù)據(jù)倉庫。第3卷參考答案一.參考題庫1.參考答案:(a)頻繁1-項集:M,O,K,E,Y 頻繁2-項集:{M,K},{O,K},{O,E},{K,Y},{K,E} 頻繁3-項集:{O,K,E} (b)窮舉法:M=2k-1=211-1=2047 Apriori算法:23 (c){O,K}—>{E},支持度0.6,置信度1 {O,E}—>{k},支持度0.6,置信度12.參考答案:分類決策3.參考答案:OLTP為聯(lián)機事務(wù)處理的縮寫,OLAP是聯(lián)機分析處理的縮寫。前者是以數(shù)據(jù)庫為基礎(chǔ)的,面對的是操作人員和低層管理人員,對基本數(shù)據(jù)進行查詢和增、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論