版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
商業(yè)數(shù)據(jù)分析師題庫一、單項選擇題1.某超市研究銷售紀錄數(shù)據(jù)後發(fā)現(xiàn),買啤酒的人很大概率也會購置尿布,這種屬于數(shù)據(jù)挖掘的哪類問題?(A)A.關聯(lián)規(guī)則發(fā)現(xiàn)B.聚類C.分類D.自然語言處理2.如下兩種描述分別對應哪兩種對分類算法的評價原則?(A)(a)警察抓小偷,描述警察抓的人中有多少個是小偷的原則。(b)描述有多少比例的小偷給警察抓了的原則。A.Precision,RecallB.Recall,PrecisionC.Precision,ROCD.Recall,ROC3.將原始數(shù)據(jù)進行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在如下哪個環(huán)節(jié)的任務?(C)A.頻繁模式挖掘B.分類和預測C.數(shù)據(jù)預處理D.數(shù)據(jù)流挖掘4.當不懂得數(shù)據(jù)所帶標簽時,可以使用哪種技術(shù)促使帶同類標簽的數(shù)據(jù)與帶其他標簽的數(shù)據(jù)相分離?(B)A.分類B.聚類C.關聯(lián)分析D.隱馬爾可夫鏈5.什么是KDD?(A)A.數(shù)據(jù)挖掘與知識發(fā)現(xiàn)B.領域知識發(fā)現(xiàn)C.文檔知識發(fā)現(xiàn)D.動態(tài)知識發(fā)現(xiàn)6.使用交互式的和可視化的技術(shù),對數(shù)據(jù)進行探索屬于數(shù)據(jù)挖掘的哪一類任務?(A)A.探索性數(shù)據(jù)分析B.建模描述C.預測建模D.尋找模式和規(guī)則7.為數(shù)據(jù)的總體分布建模;把多維空間劃提成組等問題屬于數(shù)據(jù)挖掘的哪一類任務?(B)A.探索性數(shù)據(jù)分析B.建模描述C.預測建模D.尋找模式和規(guī)則8.建立一種模型,通過這個模型根據(jù)已知的變量值來預測其他某個變量值屬于數(shù)據(jù)挖掘的哪一類任務?(C)A.根據(jù)內(nèi)容檢索B.建模描述C.預測建模D.尋找模式和規(guī)則9.顧客有一種感愛好的模式并且但愿在數(shù)據(jù)集中找到相似的模式,屬于數(shù)據(jù)挖掘哪一類任務?(A)A.根據(jù)內(nèi)容檢索B.建模描述C.預測建模D.尋找模式和規(guī)則11.下面哪種不屬于數(shù)據(jù)預處理的措施?(D)A變量代換B離散化C匯集D估計遺漏值12.假設12個銷售價格記錄組已經(jīng)排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每種措施將它們劃提成四個箱。等頻(等深)劃分時,15在第幾種箱子內(nèi)?(B)A第一種B第二個C第三個D第四個13.上題中,等寬劃分時(寬度為50),15又在哪個箱子裏?(A)A第一種B第二個C第三個D第四個14.下面哪個不屬于數(shù)據(jù)的屬性類型:(D)A標稱B序數(shù)C區(qū)間D相異15.在上題中,屬于定量的屬性類型是:(C)A標稱B序數(shù)C區(qū)間D相異16.只有非零值才重要的二元屬性被稱作:(C)A計數(shù)屬性B離散屬性C非對稱的二元屬性D對稱屬性17.如下哪種措施不屬于特性選擇的原則措施:(D)A嵌入B過濾C包裝D抽樣18.下面不屬于創(chuàng)立新屬性的有關措施的是:(B)A特性提取B特性修改C映射數(shù)據(jù)到新的空間D特性構(gòu)造19.考慮值集{1、2、3、4、5、90},其截斷均值(p=20%)是(C)A2B3C3.5D520.下面哪個屬于映射數(shù)據(jù)到新的空間的措施?(A)A傅立葉變換B特性加權(quán)C漸進抽樣D維歸約21.熵是為消除不確定性所需要獲得的信息量,投擲均勻正六面體骰子的熵是:(B)A1比特B2.6比特C3.2比特D3.8比特22.假設屬性income的最大最小值分別是1元和98000元。運用最大最小規(guī)范化的措施將屬性的值映射到0至1的范圍內(nèi)。對屬性income的73600元將被轉(zhuǎn)化為:(D)A0.821B1.224C1.458D0.71623.假定用于分析的數(shù)據(jù)包括屬性age。數(shù)據(jù)元組中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,問題:使用按箱平均值平滑措施對上述數(shù)據(jù)進行平滑,箱的深度為3。第二個箱子值為:(A)A18.3B22.6C26.8D27.9解析:(16+19+20)/324.考慮值集{12243324556826},其四分位數(shù)極差是:(A)A31B24C55D3解析:四分位數(shù)極差(IQR)=Q3-Q1。從小到大排序:24122426335568Q1={2,4}Q3={26,33}25.一所大學內(nèi)的各年齡人數(shù)分別為:一年級200人,二年級160人,三年級130人,四年級110人。則年級屬性的眾數(shù)是:(A)A一年級B二年級C三年級D四年級26.下列哪個不是專門用于可視化時間空間數(shù)據(jù)的技術(shù):(B)A等高線圖B餅圖C曲面圖D矢量場圖27.在抽樣措施中,當合適的樣本容量很難確定期,可以使用的抽樣措施是:(D)A有放回的簡樸隨機抽樣B無放回的簡樸隨機抽樣C分層抽樣D漸進抽樣28.數(shù)據(jù)倉庫是伴隨時間變化的,下面的描述不對的的是(C)A.數(shù)據(jù)倉庫隨時間的變化不停增長新的數(shù)據(jù)內(nèi)容;B.捕捉到的新數(shù)據(jù)會覆蓋本來的快照;C.數(shù)據(jù)倉庫隨事件變化不停刪去舊的數(shù)據(jù)內(nèi)容;D.數(shù)據(jù)倉庫中包括大量的綜合數(shù)據(jù),這些綜合數(shù)據(jù)會伴隨時間的變化不停地進行重新綜合.29.有關基本數(shù)據(jù)的元數(shù)據(jù)是指:(D)A.基本元數(shù)據(jù)與數(shù)據(jù)源,數(shù)據(jù)倉庫,數(shù)據(jù)集市和應用程序等構(gòu)造有關的信息;B.基本元數(shù)據(jù)包括與企業(yè)有關的管理方面的數(shù)據(jù)和信息;C.基本元數(shù)據(jù)包括曰志文獻和簡歷執(zhí)行處理的時序調(diào)度信息;D.基本元數(shù)據(jù)包括有關裝載和更新處理,分析處理以及管理方面的信息.30.下面有關數(shù)據(jù)粒度的描述不對的的是:(C)A.粒度是指數(shù)據(jù)倉庫小數(shù)據(jù)單元的詳細程度和級別;B.數(shù)據(jù)越詳細,粒度就越小,級別也就越高;C.數(shù)據(jù)綜合度越高,粒度也就越大,級別也就越高;D.粒度的詳細劃分將直接影響數(shù)據(jù)倉庫中的數(shù)據(jù)量以及查詢質(zhì)量.31.有關數(shù)據(jù)倉庫的開發(fā)特點,不對的的描述是:(A)A.數(shù)據(jù)倉庫開發(fā)要從數(shù)據(jù)出發(fā);B.數(shù)據(jù)倉庫使用的需求在開發(fā)出去就要明確;C.數(shù)據(jù)倉庫的開發(fā)是一種不停循環(huán)的過程,是啟發(fā)式的開發(fā);D.在數(shù)據(jù)倉庫環(huán)境中,并不存在操作型環(huán)境中所固定的和較確切的處理流,數(shù)據(jù)倉庫中數(shù)據(jù)分析和處理更靈活,且沒有固定的模式32.在有關數(shù)據(jù)倉庫測試,下列說法不對的的是:(D)A.在完畢數(shù)據(jù)倉庫的實行過程中,需要對數(shù)據(jù)倉庫進行多種測試.測試工作中要包括單元測試和系統(tǒng)測試.B.當數(shù)據(jù)倉庫的每個單獨組件完畢後,就需要對他們進行單元測試.C.系統(tǒng)的集成測試需要對數(shù)據(jù)倉庫的所有組件進行大量的功能測試和回歸測試.D.在測試之前沒必要制定詳細的測試計劃.33.OLAP技術(shù)的關鍵是:(D)A.在線性;B.對顧客的迅速響應;C.互操作性.D.多維分析;34.有關OLAP的特性,下面對的的是:(D)(1)迅速性(2)可分析性(3)多維性(4)信息性(5)共享性A.(1)(2)(3)B.(2)(3)(4)C.(1)(2)(3)(4)D.(1)(2)(3)(4)(5)35.有關OLAP和OLTP的區(qū)別描述,不對的的是:(C)A.OLAP重要是有關怎樣理解匯集的大量不一樣的數(shù)據(jù).它與OTAP應用程序不一樣.B.與OLAP應用程序不一樣,OLTP應用程序包括大量相對簡樸的事務.C.OLAP的特點在于事務量大,但事務內(nèi)容比較簡樸且反復率高.D.OLAP是以數(shù)據(jù)倉庫為基礎的,但其最終數(shù)據(jù)來源與OLTP同樣均來自底層的數(shù)據(jù)庫系統(tǒng),兩者面對的顧客是相似的.36.OLAM技術(shù)一般簡稱為”數(shù)據(jù)聯(lián)機分析挖掘”,下面說法對的的是:(D)A.OLAP和OLAM都基于客戶機/服務器模式,只有後者有與顧客的交互性;B.由于OLAM的立方體和用于OLAP的立方體有本質(zhì)的區(qū)別.C.基于WEB的OLAM是WEB技術(shù)與OLAM技術(shù)的結(jié)合.D.OLAM服務器通過顧客圖形借口接受顧客的分析指令,在元數(shù)據(jù)的懂得下,對超級立方體作一定的操作.37.有關OLAP和OLTP的說法,下列不對的的是:(A)A.OLAP事務量大,但事務內(nèi)容比較簡樸且反復率高.B.OLAP的最終數(shù)據(jù)來源與OLTP不一樣樣.C.OLTP面對的是決策人員和高層管理人員.D.OLTP以應用為關鍵,是應用驅(qū)動的.38.設X={1,2,3}是頻繁項集,則可由X產(chǎn)生__(C)__個關聯(lián)規(guī)則。A、4B、5C、6D、740.概念分層圖是__(B)__圖。A、無向無環(huán)B、有向無環(huán)C、有向有環(huán)D、無向有環(huán)41.頻繁項集、頻繁閉項集、最大頻繁項集之間的關系是:(C)A、頻繁項集頻繁閉項集=最大頻繁項集B、頻繁項集=頻繁閉項集最大頻繁項集C、頻繁項集頻繁閉項集最大頻繁項集D、頻繁項集=頻繁閉項集=最大頻繁項集42.考慮下面的頻繁3-項集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定數(shù)據(jù)集中只有5個項,采用合并方略,由候選產(chǎn)生過程得到4-項集不包括(C)A、1,2,3,4B、1,2,3,5C、1,2,4,5D、1,3,4,5根據(jù)數(shù)據(jù)挖掘Apriori算法的性質(zhì)之一:鑒定與否可作為K項頻繁集是通過K項集分裂為K個K-1項集,考察K-1項集與否為Lk-1,要生成4-項集,{1,2,4,5}分裂後為{1,2,4}{2,4,5}{1,2,5}{1,4,5}其中,{1,4,5}不屬于頻繁3項集,因此{1,2,4,5}不能作為4項集,由于有性質(zhì)為:任何非頻繁的K-1項集都不也許是頻繁項集K項集的子集.43.下面選項中t不是s的子序列的是(C)A、s=<{2,4},{3,5,6},{8}>t=<{2},{3,6},{8}>B、s=<{2,4},{3,5,6},{8}>t=<{2},{8}>C、s=<{1,2},{3,4}>t=<{1},{2}>D、s=<{2,4},{2,4}>t=<{2},{4}>44.在圖集合中發(fā)現(xiàn)一組公共子構(gòu)造,這樣的任務稱為(B)A、頻繁子集挖掘B、頻繁子圖挖掘C、頻繁數(shù)據(jù)項挖掘D、頻繁模式挖掘45.下列度量不具有反演性的是(D)A、系數(shù)B、幾率C、Cohen度量D、愛好因子46.下列__(A)__不是將主觀信息加入到模式發(fā)現(xiàn)任務中的措施。A、與同一時期其他數(shù)據(jù)對比B、可視化C、基于模板的措施D、主觀愛好度量47.下面購物籃可以提取的3-項集的最大數(shù)量是多少(C)ID購置項1牛奶,啤酒,尿布2面包,黃油,牛奶3牛奶,尿布,餅干4面包,黃油,餅干5啤酒,餅干,尿布6牛奶,尿布,面包,黃油7面包,黃油,尿布8啤酒,尿布9牛奶,尿布,面包,黃油10啤酒,餅干A、1B、2C、3D、448.如下哪些算法是分類算法,(B)A,DBSCANB,C4.5C,K-MeanD,EM49.如下哪些分類措施可以很好地防止樣本的不平衡問題,(A)A,KNNB,SVMC,BayesD,神經(jīng)網(wǎng)絡50.決策樹中不包括一下哪種結(jié)點,(C)A,根結(jié)點(rootnode)B,內(nèi)部結(jié)點(internalnode)C,外部結(jié)點(externalnode)D,葉結(jié)點(leafnode)51.不純性度量中Gini計算公式為(其中c是類的個數(shù))(A)A,B,C,D,(A)53.如下哪項有關決策樹的說法是錯誤的(C)A.冗余屬性不會對決策樹的精確率導致不利的影響B(tài).子樹也許在決策樹中反復多次C.決策樹算法對于噪聲的干擾非常敏感D.尋找最佳決策樹是NP完全問題54.在基于規(guī)則分類器的中,根據(jù)規(guī)則質(zhì)量的某種度量對規(guī)則排序,保證每一種測試記錄都是由覆蓋它的“最佳的”規(guī)格來分類,這種方案稱為(B)A.基于類的排序方案B.基于規(guī)則的排序方案C.基于度量的排序方案D.基于規(guī)格的排序方案。55.如下哪些算法是基于規(guī)則的分類器(A)A.C4.5B.KNNC.Na?veBayesD.ANN56.假如規(guī)則集R中不存在兩條規(guī)則被同一條記錄觸發(fā),則稱規(guī)則集R中的規(guī)則為(C);A,無序規(guī)則B,窮舉規(guī)則C,互斥規(guī)則D,有序規(guī)則57.假如對屬性值的任一組合,R中都存在一條規(guī)則加以覆蓋,則稱規(guī)則集R中的規(guī)則為(B)A,無序規(guī)則B,窮舉規(guī)則C,互斥規(guī)則D,有序規(guī)則58.假如規(guī)則集中的規(guī)則按照優(yōu)先級降序排列,則稱規(guī)則集是(D)A,無序規(guī)則B,窮舉規(guī)則C,互斥規(guī)則D,有序規(guī)則59.假如容許一條記錄觸發(fā)多條分類規(guī)則,把每條被觸發(fā)規(guī)則的後件看作是對對應類的一次投票,然後計票確定測試記錄的類標號,稱為(A)A,無序規(guī)則B,窮舉規(guī)則C,互斥規(guī)則D,有序規(guī)則60.考慮兩隊之間的足球比賽:隊0和隊1。假設65%的比賽隊0勝出,剩余的比賽隊1獲勝。隊0獲勝的比賽中只有30%是在隊1的主場,而隊1取勝的比賽中75%是主場獲勝。假如下一場比賽在隊1的主場進行隊1獲勝的概率為(C)A,0.75B,0.35C,0.4678D,0.5738答案貌似錯誤的,根據(jù)貝葉斯公式計算應當是0.5738;假設踢了100場,隊0贏了65場,隊1贏了35場;隊1的主場,隊0贏了65*0.3=19.5場,隊1贏了35*0.75=26.25場;則隊1在在自已主場贏得概率:26.25/(19.5+26.25)=0.573861.如下有關人工神經(jīng)網(wǎng)絡(ANN)的描述錯誤的有(A)A,神經(jīng)網(wǎng)絡對訓練數(shù)據(jù)中的噪聲非常魯棒B,可以處理冗余特性C,訓練ANN是一種很耗時的過程D,至少具有一種隱藏層的多層神經(jīng)網(wǎng)絡62.通過匯集多種分類器的預測來提高分類精確率的技術(shù)稱為(A)A,組合(ensemble)B,匯集(aggregate)C,合并(combination)D,投票(voting)63.簡樸地將數(shù)據(jù)對象集劃提成不重疊的子集,使得每個數(shù)據(jù)對象恰在一種子集中,這種聚類類型稱作(B)A、層次聚類B、劃分聚類C、非互斥聚類D、模糊聚類64.在基本K均值算法裏,當鄰近度函數(shù)采用(A)的時候,合適的質(zhì)心是簇中各點的中位數(shù)。A、曼哈頓距離B、平方歐幾裏德距離C、余弦距離D、Bregman散度65.(C)是一種觀測值,它與其他觀測值的差異如此之大,以至于懷疑它是由不一樣的機制產(chǎn)生的。A、邊界點B、質(zhì)心C、離群點D、要點66.BIRCH是一種(B)。A、分類器B、聚類算法C、關聯(lián)分析算法D、特性選擇算法67.檢測一元正態(tài)分布中的離群點,屬于異常檢測中的基于(A)的離群點檢測。A、記錄措施B、鄰近度C、密度D、聚類技術(shù)68.(C)將兩個簇的鄰近度定義為不一樣簇的所有點對的平均逐對鄰近度,它是一種凝聚層次聚類技術(shù)。A、MIN(單鏈)B、MAX(全鏈)C、組平均D、Ward措施69.(D)將兩個簇的鄰近度定義為兩個簇合并時導致的平方誤差的增量,它是一種凝聚層次聚類技術(shù)。A、MIN(單鏈)B、MAX(全鏈)C、組平均D、Ward措施70.DBSCAN在最壞狀況下的時間復雜度是(B)。A、O(m)B、O(m2)C、O(logm)D、O(m*logm)71.在基于圖的簇評估度量表裏面,假如簇度量為proximity(Ci,C),簇權(quán)值為mi,那么它的類型是(C)。A、基于圖的凝聚度B、基于原型的凝聚度C、基于原型的分離度D、基于圖的凝聚度和分離度72.有關K均值和DBSCAN的比較,如下說法不對的的是(A)。A、K均值丟棄被它識別為噪聲的對象,而DBSCAN一般聚類所有對象。B、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。C、K均值很難處理非球形的簇和不一樣大小的簇,DBSCAN可以處理不一樣大小和不一樣形狀的簇。D、K均值可以發(fā)現(xiàn)不是明顯分離的簇,即便簇有重疊也可以發(fā)現(xiàn),不過DBSCAN會合并有重疊的簇。73.如下是哪一種聚類算法的算法流程:①構(gòu)造k-近來鄰圖。②使用多層圖劃分算法劃分圖。③repeat:合并有關相對互連性和相對靠近性而言,最佳地保持簇的自相似性的簇。④until:不再有可以合并的簇。(C)。A、MSTB、OPOSSUMC、ChameleonD、Jarvis-Patrick(JP)74.考慮這樣一種狀況:一種對象碰巧與另一種對象相對靠近,但屬于不一樣的類,由于這兩個對象一般不會共享許多近鄰,因此應當選擇(D)的相似度計算措施。A、平方歐幾裏德距離B、余弦距離C、直接相似度D、共享近來鄰75.如下屬于可伸縮聚類算法的是(A)。A、CUREB、DENCLUEC、CLIQUED、OPOSSUM76.如下哪個聚類算法不是屬于基于原型的聚類(D)。A、模糊c均值B、EM算法C、SOMD、CLIQUE77.有關混合模型聚類算法的優(yōu)缺陷,下面說法對的的是(B)。A、當簇只包括少許數(shù)據(jù)點,或者數(shù)據(jù)點近似協(xié)線性時,混合模型也能很好地處理。B、混合模型比K均值或模糊c均值更一般,由于它可以使用多種類型的分布。C、混合模型很難發(fā)現(xiàn)不一樣大小和橢球形狀的簇。D、混合模型在有噪聲和離群點時不會存在問題。78.如下哪個聚類算法不屬于基于網(wǎng)格的聚類算法(D)。A、STINGB、WaveClusterC、MAFIAD、BIRCH79.一種對象的離群點得分是該對象周圍密度的逆。這是基于(C)的離群點定義。A.概率B、鄰近度C、密度D、聚類80.下面有關Jarvis-Patrick(JP)聚類算法的說法不對的的是(D)。A、JP聚類擅長處理噪聲和離群點,并且可以處理不一樣大小、形狀和密度的簇。B、JP算法對高維數(shù)據(jù)效果良好,尤其擅長發(fā)現(xiàn)強有關對象的緊致簇。C、JP聚類是基于SNN相似度的概念。D、JP聚類的基本時間復雜度為O(m)。二、多選題1.通過數(shù)據(jù)挖掘過程所推倒出的關系和摘要常常被稱為:(AB)A.模型B.模式C.模范D.模具2尋找數(shù)據(jù)集中的關系是為了尋找精確、以便并且有價值地總結(jié)了數(shù)據(jù)的某一特性的表達,這個過程包括了如下哪些環(huán)節(jié)?(ABCD)A.決定要使用的表達的特性和構(gòu)造B.決定怎樣量化和比較不一樣表達擬合數(shù)據(jù)的好壞C.選擇一種算法過程使評分函數(shù)最優(yōu)D.決定用什么樣的數(shù)據(jù)管理原則以高效地實現(xiàn)算法。3.數(shù)據(jù)挖掘的預測建模任務重要包括哪幾大類問題?(AB)A.分類B.回歸C.模式發(fā)現(xiàn)D.模式匹配4.數(shù)據(jù)挖掘算法的組件包括:(ABCD)A.模型或模型構(gòu)造B.評分函數(shù)C.優(yōu)化和搜索措施D.數(shù)據(jù)管理方略5.如下哪些學科和數(shù)據(jù)挖掘有親密聯(lián)絡?(AD)A.記錄B.計算機構(gòu)成原理C.礦產(chǎn)挖掘D.人工智能6.在現(xiàn)實世界的數(shù)據(jù)中,元組在某些屬性上缺乏值是常有的。描述處理該問題的多種措施有:(ABCDE)A忽視元組B使用屬性的平均值填充空缺值C使用一種全局常量填充空缺值D使用與給定元組屬同一類的所有樣本的平均值E使用最也許的值填充空缺值7.下面哪些屬于可視化高維數(shù)據(jù)技術(shù)(ABCE)A矩陣B平行坐標系C星形坐標D散布圖EChernoff臉8.對于數(shù)據(jù)挖掘中的原始數(shù)據(jù),存在的問題有:(ABCDE)A不一致B反復C不完整D含噪聲E維度高9.下列屬于不一樣的有序數(shù)據(jù)的有:(ABCE)A時序數(shù)據(jù)B序列數(shù)據(jù)C時間序列數(shù)據(jù)D事務數(shù)據(jù)E空間數(shù)據(jù)10.下面屬于數(shù)據(jù)集的一般特性的有:(BCD)A持續(xù)性B維度C稀疏性D辨別率E相異性11.下面屬于維歸約常用的線性代數(shù)技術(shù)的有:(AC)A主成分分析B特性提取C奇異值分解D特性加權(quán)E離散化12.下面列出的條目中,哪些是數(shù)據(jù)倉庫的基本特性:(ACD)A.數(shù)據(jù)倉庫是面向主題的B.數(shù)據(jù)倉庫的數(shù)據(jù)是集成的C.數(shù)據(jù)倉庫的數(shù)據(jù)是相對穩(wěn)定的D.數(shù)據(jù)倉庫的數(shù)據(jù)是反應歷史變化的E.數(shù)據(jù)倉庫是面向事務的13.如下各項均是針對數(shù)據(jù)倉庫的不一樣說法,你認為對的的有(BCDE)。A.數(shù)據(jù)倉庫就是數(shù)據(jù)庫B.數(shù)據(jù)倉庫是一切商業(yè)智能系統(tǒng)的基礎C.數(shù)據(jù)倉庫是面向業(yè)務的,支持聯(lián)機事務處理(OLTP)D.數(shù)據(jù)倉庫支持決策而非事務處理E.數(shù)據(jù)倉庫的重要目的就是協(xié)助分析,做長期性的戰(zhàn)略制定14.數(shù)據(jù)倉庫在技術(shù)上的工作過程是:(ABCD)A.數(shù)據(jù)的抽取B.存儲和管理C.數(shù)據(jù)的體現(xiàn)D.數(shù)據(jù)倉庫設計15.聯(lián)機分析處理包括如下哪些基本分析功能?(BCD)A.聚類B.切片C.轉(zhuǎn)軸D.切塊E.分類16.運用Apriori算法計算頻繁項集可以有效減少計算頻繁集的時間復雜度。在如下的購物籃中產(chǎn)生支持度不不不小于3的候選3-項集,在候選2-項集中需要剪枝的是(BD)ID項集1面包、牛奶2面包、尿布、啤酒、雞蛋3牛奶、尿布、啤酒、可樂4面包、牛奶、尿布、啤酒5面包、牛奶、尿布、可樂A、啤酒、尿布B、啤酒、面包C、面包、尿布D、啤酒、牛奶解析:面包:,4,牛奶:4,尿布:4,啤酒:3,雞蛋:1,可樂:2生成新的ID數(shù)據(jù)集17.下表是一種購物籃,假定支持度閾值為40%,其中__(AD)__是頻繁閉項集。TID項1abc2abcd3bce4acde5deA、abcB、adC、cdD、de18.Apriori算法的計算復雜度受__(ABCD)?__影響。A、支持度閥值B、項數(shù)(維度)C、事務數(shù)D、事務平均寬度19.非頻繁模式__(AD)__A、其支持度不不小于閾值B、都是不讓人感愛好的C、包括負模式和負有關模式D、對異常數(shù)據(jù)項敏感20.如下屬于分類器評價或比較尺度的有:(ACD)A,預測精確度B,召回率C,模型描述的簡潔度D,計算復雜度21.在評價不平衡類問題分類的度量措施有如下幾種,(ABCD)A,F1度量B,召回率(recall)C,精度(precision)D,真正率(turepositiverate,TPR)22.貝葉斯信念網(wǎng)絡(BBN)有如下哪些特點,(AB)A,構(gòu)造網(wǎng)絡費時費力B,對模型的過度問題非常魯棒C,貝葉斯網(wǎng)絡不適合處理不完整的數(shù)據(jù)D,網(wǎng)絡構(gòu)造確定後,添加變量相稱麻煩23.如下哪些不是近來鄰分類器的特點,(C)A,它使用品體的訓練實例進行預測,不必維護源自數(shù)據(jù)的模型B,分類一種測試樣例開銷很大C,近來鄰分類器基于全局信息進行預測D,可以生產(chǎn)任意形狀的決策邊界24.如下那些不是基于規(guī)則分類器的特點,(AC)A,規(guī)則集的體現(xiàn)能力遠不如決策樹好B,基于規(guī)則的分類器都對屬性空間進行直線劃分,并將類指派到每個劃分C,無法被用來產(chǎn)生更易于解釋的描述性模型D,非常適合處理類分布不平衡的數(shù)據(jù)集25.如下屬于聚類算法的是(ABD)。A、K均值B、DBSCANC、AprioriD、Jarvis-Patrick(JP)26.(CD)都屬于簇有效性的監(jiān)督度量。A、輪廓系數(shù)B、共性分類有關系數(shù)C、熵D、F度量27.簇有效性的面向相似性的度量包括(BC)。A、精度B、Rand記錄量C、Jaccard系數(shù)D、召回率28.(ABCD)這些數(shù)據(jù)特性都是對聚類分析具有很強影響的。A、高維性B、規(guī)模C、稀疏性D、噪聲和離群點29.在聚類分析當中,(AD)等技術(shù)可以處理任意形狀的簇。A、MIN(單鏈)B、MAX(全鏈)C、組平均D、Chameleon30.(AB)都屬于分裂的層次聚類算法。A、二分K均值B、MSTC、ChameleonD、組平均三、判斷題1.數(shù)據(jù)挖掘的重要任務是從數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)則,從而能更好的完畢描述數(shù)據(jù)、預測數(shù)據(jù)等任務。(對)2.數(shù)據(jù)挖掘的目的不在于數(shù)據(jù)采集方略,而在于對于已經(jīng)存在的數(shù)據(jù)進行模式的發(fā)掘。(對)3.圖挖掘技術(shù)在社會網(wǎng)絡分析中飾演了重要的角色。(對)4.模式為對數(shù)據(jù)集的全局性總結(jié),它對整個測量空間的每一點做出描述;模型則對變量變化空間的一種有限區(qū)域做出描述。(錯)5.尋找模式和規(guī)則重要是對數(shù)據(jù)進行干擾,使其符合某種規(guī)則以及模式。(錯)6.離群點可以是合法的數(shù)據(jù)對象或者值。(對)7.離散屬性總是具有有限個值。(錯)8.噪聲和偽像是數(shù)據(jù)錯誤這一相似表述的兩種叫法。(錯)9.用于分類的離散化措施之間的主線區(qū)別在于與否使用類信息。(對)10.特性提取技術(shù)并不依賴于特定的領域。(錯)11.序列數(shù)據(jù)沒有時間戳。(對)12.定量屬性可以是整數(shù)值或者是持續(xù)值。(對)13.可視化技術(shù)對于分析的數(shù)據(jù)類型一般不是專用性的。(錯)14.DSS重要是基于數(shù)據(jù)倉庫.聯(lián)機數(shù)據(jù)分析和數(shù)據(jù)挖掘技術(shù)的應用。(對)15.OLAP
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度金融行業(yè)兼職財務人員勞務合同協(xié)議2篇
- 2025年人教版拓展型課程化學下冊階段測試試卷含答案
- 二零二五年度個人住宅買賣合同書模板9篇
- 二零二五年度房地產(chǎn)經(jīng)紀人傭金結(jié)算方法合同3篇
- 2025年度出租車行業(yè)安全責任管理與保障合同3篇
- 二零二五年建筑勞務派遣人員管理服務合同3篇
- 2025年冀教版選修4化學上冊階段測試試卷
- 2025年外研版五年級英語下冊階段測試試卷
- 2025年人教版高一數(shù)學上冊階段測試試卷
- 2025年新科版必修3物理下冊階段測試試卷
- 水工-建筑物課件
- 裝修增減項單模板
- 義務教育英語課程標準2022年版新增詞匯記背
- 人教版高中物理必修二全冊同步課時練習
- 張克非《公共關系學》(修訂版)筆記和課后習題詳解
- 30多個環(huán)衛(wèi)PPP項目先后退庫涉及多家上市公司
- 世界技能大賽選拔賽3D數(shù)字游戲藝術(shù)項目技術(shù)文件
- 榮譽證書打印模板word格式
- 營養(yǎng)學與健康
- 湖北高校畢業(yè)生就業(yè)協(xié)議書填寫格式說明樣表
- 單位工會組織活動方案(9篇)
評論
0/150
提交評論