數(shù)據(jù)挖掘分析面試題_第1頁
數(shù)據(jù)挖掘分析面試題_第2頁
數(shù)據(jù)挖掘分析面試題_第3頁
數(shù)據(jù)挖掘分析面試題_第4頁
數(shù)據(jù)挖掘分析面試題_第5頁
已閱讀5頁,還剩9頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

能不用上班,因而也沒有購置該產(chǎn)品的欲望;站在產(chǎn)品的角度來看,該產(chǎn)品不能在周末的時候引起消費者足夠的注意力。b)針對該問題背后的兩方面原因,我的運營改良方案也分兩方面:一是,針對消費者周末沒有購置欲望的心理,進行引導(dǎo)提醒消費者周末就應(yīng)該準(zhǔn)備好該產(chǎn)品;二是,通過該產(chǎn)品的一些類似于打折促銷等活動來提升該產(chǎn)品在周末的人氣和購置力。五、用戶調(diào)研某公司針對A、B、C三類客戶,提出了一種統(tǒng)一的改良方案,用于提升客戶的周消費次數(shù),需要你來制定一個事前試驗方案,來支持決策,請你思考以下問題:a)試驗需要為決策提供什么樣的信息?c)a)試驗要能證明該改良方案能顯著提升A、B、C三類客戶的周消費次數(shù)。b)根據(jù)三類客戶的數(shù)量,采用分層比例抽樣;需要采集的數(shù)據(jù)指標(biāo)項有:客戶類別,改良方案前周消費次數(shù),改良方案后周消費次數(shù);A、B、C三類客戶,進行改良前和后的周消費次數(shù)的,兩獨立樣本T-檢驗〔two-samplet-test〕。摘錄一段/模型?首先進行數(shù)據(jù)的預(yù)處理,主要進行數(shù)據(jù)的清洗,數(shù)據(jù)清洗,處理空缺值,數(shù)據(jù)的集成,數(shù)據(jù)的變換和數(shù)據(jù)規(guī)約。請列舉您使用過的各種數(shù)據(jù)倉庫工具軟件(包括建模工具,ETL工具,前端展現(xiàn)工具,OLAPServer、數(shù)據(jù)庫、數(shù)據(jù)挖掘工具)和熟悉程度。ETL工具:AscentialDataStage,IBMwarehouseMANAGER、Informatica公司的PowerCenter、Cognos公司的DecisionStream市場上的主流數(shù)據(jù)倉庫存儲層軟件有:SQLSERVER、SYBASE、ORACLE、DB2、TERADATA請談一下你對元數(shù)據(jù)管理在數(shù)據(jù)倉庫中的運用的理解。,在數(shù)據(jù)倉庫系統(tǒng)中,元數(shù)據(jù)機制主要支持以下五類系統(tǒng)管理功能:〔1〕描述哪些數(shù)據(jù)在數(shù)據(jù)倉庫中;〔2〕定義要進入數(shù)據(jù)倉庫中的數(shù)據(jù)和從數(shù)據(jù)倉庫中產(chǎn)生的數(shù)據(jù);〔3〕記錄根據(jù)業(yè)務(wù)事件發(fā)生而隨之進行的數(shù)據(jù)抽取工作時間安排;〔4〕記錄并檢測系統(tǒng)數(shù)據(jù)一致性的要求和執(zhí)行情況;〔5〕衡量數(shù)據(jù)質(zhì)量。數(shù)據(jù)挖掘?qū)垲惖臄?shù)據(jù)要求是什么?〔1〕可伸縮性〔2〕處理不同類型屬性的能力〔3〕發(fā)現(xiàn)任意形狀的聚類〔4〕使輸入?yún)?shù)的領(lǐng)域知識最小化〔5〕處理噪聲數(shù)據(jù)的能力〔6〕對于輸入順序不敏感〔7〕高維性〔8〕基于約束的聚類〔9〕可解釋性和可利用性簡述Apriori算法的思想,談?wù)勗撍惴ǖ膽?yīng)用領(lǐng)域并舉例。思想:其發(fā)現(xiàn)關(guān)聯(lián)規(guī)那么分兩步,第一是通過迭代,檢索出數(shù)據(jù)源中所有煩瑣項集,即支持度不低于用戶設(shè)定的閥值的項即集,第二是利用第一步中檢索出的煩瑣項集構(gòu)造出滿足用戶最小信任度的規(guī)那么,其中,第一步即挖掘出所有頻繁項集是該算法的核心,也占整個算法工作量的大局部。在商務(wù)、金融、保險等領(lǐng)域皆有應(yīng)用。在建筑陶瓷行業(yè)中的交叉銷售應(yīng)用,主要采用了Apriori算法通過閱讀該文擋,請同學(xué)們分析一下數(shù)據(jù)挖掘在電子商務(wù)領(lǐng)域的應(yīng)用情況〔請深入分析并給出實例,切忌泛泛而談〕?單項選擇題.某超市研究銷售紀(jì)錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會購置尿布,這種屬于數(shù)據(jù)挖掘的哪類問題?(A)A.關(guān)聯(lián)規(guī)那么發(fā)現(xiàn)B.聚類C.分類D.自然語言處理.以下兩種描述分別對應(yīng)哪兩種對分類算法的評價標(biāo)準(zhǔn)?(A)⑶警察抓小偷,描述警察抓的人中有多少個是小偷的標(biāo)準(zhǔn)。(b)描述有多少比例的小偷給警察抓了的標(biāo)準(zhǔn)。A.Precision,RecallB.Recall,PrecisionA.Precision,ROCD.Recall,ROC.將原始數(shù)據(jù)進行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個步驟的任務(wù)?(C)A.頻繁模式挖掘 B.分類和預(yù)測C.數(shù)據(jù)預(yù)處理 D.數(shù)據(jù)流挖掘.當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時,可以使用哪種技術(shù)促使帶同類標(biāo)簽的數(shù)據(jù)與帶其他標(biāo)簽的數(shù)據(jù)相別離?(B)A.分類B.聚類C.關(guān)聯(lián)分析 D.隱馬爾可夫鏈.什么是KDD?(A)A.數(shù)據(jù)挖掘與知識發(fā)現(xiàn)B.領(lǐng)域知識發(fā)現(xiàn)C.文檔知識發(fā)現(xiàn)D.動態(tài)知識發(fā)現(xiàn).使用交互式的和可視化的技術(shù),對數(shù)據(jù)進行探索屬于數(shù)據(jù)挖掘的哪一類任務(wù)?〔A〕A.探索性數(shù)據(jù)分析B.建模描述C.預(yù)測建模D.尋找模式和規(guī)那么.為數(shù)據(jù)的總體分布建模;把多維空間劃分成組等問題屬于數(shù)據(jù)挖掘的哪一類任務(wù)?(B)A.探索性數(shù)據(jù)分析B.建模描述C.預(yù)測建模D.尋找模式和規(guī)那么.建立一個模型,通過這個模型根據(jù)的變量值來預(yù)測其他某個變量值屬于數(shù)據(jù)挖掘的哪一類任務(wù)?(C)A.根據(jù)內(nèi)容檢索B.建模描述C.預(yù)測建模D.尋找模式和規(guī)那么9.用戶有一種感興趣的模式并且希望在數(shù)據(jù)集中找到相似的模式,屬于數(shù)據(jù)挖掘哪一類任務(wù)?(A)A.根據(jù)內(nèi)容檢索B.建模描述C.預(yù)測建模D.尋找模式和規(guī)那么(D)A變量代換B離散化C聚集D估計遺漏值假設(shè)12個銷售價格記錄組已經(jīng)排序如下:5,10,11,13,15,35,50,55,72,92,204,21515在第幾個箱子內(nèi)?(B)A第一個B第二個C第三個D第四個上題中,等寬劃分時〔寬度為50〕,15又在哪個箱子里?(A)A第一個B第二個C第三個D第四個下面哪個不屬于數(shù)據(jù)的屬性類型:(D)A標(biāo)稱B序數(shù)C區(qū)間D相異在上題中,屬于定量的屬性類型是:(C)A標(biāo)稱B序數(shù)C區(qū)間D相異只有非零值才重要的二元屬性被稱作:(C)A計數(shù)屬性B離散屬性C非對稱的二元屬性D對稱屬性(D)A嵌入B過濾C包裝D抽樣(B)A特征提取B特征修改C映射數(shù)據(jù)到新的空間D特征構(gòu)造考慮值集{1、2、3、4、5、90},其截斷均值〔p=20%〕是(C)A2B3C3.5D5(A)A傅立葉變換B特征加權(quán)C漸進抽樣D維歸約熵是為消除不確定性所需要獲得的信息量,投擲均勻正六面體骰子的熵是:(B)A1比特B2.6比特C3.2比特D3.8比特假設(shè)屬性income的最大最小值分別是12000元和980000至1的范圍內(nèi)。對屬性income的73600元將被轉(zhuǎn)化為:(D)A0.821B1.224C1.458D0.716假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)元組中age的值如下〔按遞增序〕:13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,問題:使用按箱平均值3。第二個箱子值為:(A)A18.3B22.6C26.8D27.9考慮值集{12243324556826},其四分位數(shù)極差是:(A)A31B24C55D3一所大學(xué)內(nèi)的各年紀(jì)人數(shù)分別為:一年級200人,二年級160人,三年級130人,四年級110人。那么年級屬性的眾數(shù)是:(A)A一年級B二年級C三年級 D四年級以下哪個不是專門用于可視化時間空間數(shù)據(jù)的技術(shù):(B)A等高線圖B餅圖C曲面圖D矢量場圖(D)A有放回的簡單隨機抽樣B無放回的簡單隨機抽樣C分層抽樣D漸進抽樣數(shù)據(jù)倉庫是隨著時間變化的,下面的描述不正確的選項是(C)數(shù)據(jù)倉庫隨時間的變化不斷增加新的數(shù)據(jù)內(nèi)容;捕捉到的新數(shù)據(jù)會覆蓋原來的快照;數(shù)據(jù)倉庫隨事件變化不斷刪去舊的數(shù)據(jù)內(nèi)容;D.數(shù)據(jù)倉庫中包含大量的綜合數(shù)據(jù),這些綜合數(shù)據(jù)會隨著時間的變化不斷地進行重新綜合.:(D)根本元數(shù)據(jù)與數(shù)據(jù)源,數(shù)據(jù)倉庫,數(shù)據(jù)集市和應(yīng)用程序等結(jié)構(gòu)相關(guān)的信息;根本元數(shù)據(jù)包括與企業(yè)相關(guān)的管理方面的數(shù)據(jù)和信息;;,分析處理以及管理方面的信息.:(C)粒度是指數(shù)據(jù)倉庫小數(shù)據(jù)單元的詳細程度和級別;數(shù)據(jù)越詳細,粒度就越小,級別也就越高;數(shù)據(jù)綜合度越高,粒度也就越大,級別也就越高;D.粒度的具體劃分將直接影響數(shù)據(jù)倉庫中的數(shù)據(jù)量以及查詢質(zhì)量有關(guān)數(shù)據(jù)倉庫的開發(fā)特點,不正確的描述是:(A)數(shù)據(jù)倉庫開發(fā)要從數(shù)據(jù)出發(fā);數(shù)據(jù)倉庫使用的需求在開發(fā)出去就要明確;數(shù)據(jù)倉庫的開發(fā)是一個不斷循環(huán)的過程,是啟發(fā)式的開發(fā);D.在數(shù)據(jù)倉庫環(huán)境中,并不存在操作型環(huán)境中所固定的和較確切的處理流,數(shù)據(jù)倉庫中數(shù)據(jù)分析和處理更靈活,且沒有固定的模式在有關(guān)數(shù)據(jù)倉庫測試,以下說法不正確的選項是:(D),需要對數(shù)據(jù)倉庫進行各種測試.測試工作中要包括單元測試和系統(tǒng)測試.當(dāng)數(shù)據(jù)倉庫的每個單獨組件完成后,就需要對他們進行單元測試.系統(tǒng)的集成測試需要對數(shù)據(jù)倉庫的所有組件進行大量的功能測試和回歸測試.D.在測試之前沒必要制定詳細的測試方案.OLAP技術(shù)的核心是:(D)在線性;對用戶的快速響應(yīng);互操作性.D.多維分析;OLAP的特性,下面正確的選項是:(D)(1)快速性(2)可分析性(3)多維性(4)信息性(5)共享性(1)(2)(3)(2)(3)(4)(1)(2)(3)(4)(1)(2)(3)(4)(5)OLAP和OLTP的區(qū)別描述,不正確的選項是:(C)OLAP.它與OTAP應(yīng)用程序不同.B.與OLAP應(yīng)用程序不同,OLTP應(yīng)用程序包含大量相對簡單的事務(wù).OLAP的特點在于事務(wù)量大,但事務(wù)內(nèi)容比擬簡單且重復(fù)率高.OLAP是以數(shù)據(jù)倉庫為根底的,但其最終數(shù)據(jù)來源與OLTP一樣均來自底層的數(shù)據(jù)庫系統(tǒng),兩者面對的用戶是相同的.OLAM技術(shù)一般簡稱為〃數(shù)據(jù)聯(lián)機分析挖掘〃,下面說法正確的選項是:(D)A.OLAP和OLAM都基于客戶機/效勞器模式,只有后者有與用戶的交互性;B.由于OLAM的立方體和用于OLAP的立方體有本質(zhì)的區(qū)別.C.基于WEB的OLAM是WEB技術(shù)與OLAM技術(shù)的結(jié)合.D.OLAM,在元數(shù)據(jù)的知道下,對超級立方體作一定的操作.OLAP和OLTP的說法,以下不正確的選項是:(A)OLAP事務(wù)量大,但事務(wù)內(nèi)容比擬簡單且重復(fù)率高.OLAP的最終數(shù)據(jù)來源與OLTP不一樣.OLTP面對的是決策人員和高層管理人員.OLTP以應(yīng)用為核心,是應(yīng)用驅(qū)動的.設(shè)X={1,2,3}是頻繁項集,那么可由X產(chǎn)生_(C)__個關(guān)聯(lián)規(guī)那么。A、4B、5C、6D、7.概念分層圖是__(B)__圖。A、無向無環(huán)B、有向無環(huán)C、有向有環(huán)D、無向有環(huán).頻繁項集、頻繁閉項集、最大頻繁項集之間的關(guān)系是:(C)A、頻繁項集頻繁閉項集=最大頻繁項集B、頻繁項集=頻繁閉項集最大頻繁項集C、頻繁項集頻繁閉項集最大頻繁項集D、頻繁項集=頻繁閉項集=最大頻繁項集.考慮下面的頻繁3-項集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定數(shù)據(jù)集中只有5個項,采用合并策略,由候選產(chǎn)生過程得到4-項集不包含〔C〕A、1,2,3,4B、1,2,3,5C、1,2,4,5D、1,3,4,5.下面選項中t不是s的子序列的是(C)A、s=<{2,4},{3,5,6},{8}>t=<{2},{3,6},{8}>B、s=<{2,4},{3,5,6},{8}>t=<{2},{8}>C、s=<{1,2},{3,4}>t=<{1},{2}>D、s=<{2,4},{2,4}>t=<{2},{4}>.在圖集合中發(fā)現(xiàn)一組公共子結(jié)構(gòu),這樣的任務(wù)稱為(B)A、頻繁子集挖掘B、頻繁子圖挖掘C、頻繁數(shù)據(jù)項挖掘D、頻繁模式挖掘.以下度量不具有反演性的是(D)A、系數(shù)B、幾率C、Cohen度量D、興趣因子.以下__(A)__A、與同一時期其他數(shù)據(jù)比照B、可視化CD、主觀興趣度量.下面購物籃能夠提取的3-項集的最大數(shù)量是多少〔C〕ID購置項牛奶,啤酒,尿布面包,黃油,牛奶牛奶,尿布,餅干面包,黃油,餅干啤酒,餅干,尿布牛奶,尿布,面包,黃油面包,黃油,尿布啤酒,尿布牛奶,尿布,面包,黃油啤酒,餅干A、1B、2C、3D、4.以下哪些算法是分類算法,A,DBSCANB,C4.5C,K-MeanD,EM〔B〕.A,KNNB,SVMC,BayesD,神經(jīng)網(wǎng)絡(luò)〔A〕.決策樹中不包含一下哪種結(jié)點,A,根結(jié)點〔rootnode)B,internalnode〕C,外部結(jié)點〔externalnode〕D,葉結(jié)點〔leafnode〕(C).不純性度量中Gini計算公式為〔其中c是類的個數(shù)〕(A)A,B,C,D,〔A〕(C)冗余屬性不會對決策樹的準(zhǔn)確率造成不利的影響子樹可能在決策樹中重復(fù)屢次決策樹算法對于噪聲的干擾非常敏感D.尋找最正確決策樹是NP完全問題在基于規(guī)那么分類器的中,依據(jù)規(guī)那么質(zhì)量的某種度量對規(guī)那么排序,保證每一個測試記錄都是由覆蓋它的“最好的〃規(guī)格來分類,這種方案稱為(B)基于類的排序方案基于規(guī)那么的排序方案基于度量的排序方案D.基于規(guī)格的排序方案。.以下哪些算法是基于規(guī)那么的分類器(A)A.C4.5B.KNNC.Na?veBayesD.ANN.如果規(guī)那么集R中不存在兩條規(guī)那么被同一條記錄觸發(fā),那么稱規(guī)那么集R中的規(guī)那么為〔C〕;A,無序規(guī)那么B,窮舉規(guī)那么C,互斥規(guī)那么D,有序規(guī)那么.如果對屬性值的任一組合,R中都存在一條規(guī)那么加以覆蓋,那么稱規(guī)那么集R中的規(guī)那么為(B)A,無序規(guī)那么B,窮舉規(guī)那么C,互斥規(guī)那么D,有序規(guī)那么.如果規(guī)那么集中的規(guī)那么按照優(yōu)先級降序排列,那么稱規(guī)那么集是(D)A,無序規(guī)那么B,窮舉規(guī)那么C,互斥規(guī)那么D,有序規(guī)那么.A〕A,無序規(guī)那么B,窮舉規(guī)那么C,互斥規(guī)那么D,有序規(guī)那么.考慮兩隊之間的足球比賽:隊0和隊1。假設(shè)65%的比賽隊0勝出,剩余的比賽隊1獲勝。隊0獲勝的比賽中只有30%是在隊1的主場,而隊1取勝的比賽中75%是主場獲勝。如果下一場比賽在隊1的主場進行隊1獲勝的概率為(C)A,0.75B,0.35C,0.4678D,0.5738.ANN〕的描述錯誤的有(A)A,神經(jīng)網(wǎng)絡(luò)對訓(xùn)練數(shù)據(jù)中的噪聲非常魯棒B,可以處理冗余特征C,訓(xùn)練ANN是一個很耗時的過程D,至少含有一個隱藏層的多層神經(jīng)網(wǎng)絡(luò).通過聚集多個分類器的預(yù)測來提高分類準(zhǔn)確率的技術(shù)稱為(A)A,組合(ensemble)B,聚集(aggregate)C,合并(combination)D,投票(voting).簡單地將數(shù)據(jù)對象集劃分成不重疊的子集,使得每個數(shù)據(jù)對象恰在一個子集中,這種聚類類型稱作〔B〕A、層次聚類 B、劃分聚類C、非互斥聚類D、模糊聚類.在根本KA〕的時候,適宜的質(zhì)心是簇中各點的中位數(shù)。A、曼哈頓距離 B、平方歐幾里德距離C、余弦距離D、Bregman散度.〔C〕是一個觀測值,它與其他觀測值的差異如此之大,以至于疑心它是由不同的機制產(chǎn)生的。A、邊界點3、質(zhì)心C、離群點口、核心點.BIRCH是一種〔B〕。A、分類器B、聚類算法 C、關(guān)聯(lián)分析算法 D、特征選擇算法.檢測一元正態(tài)分布中的離群點,屬于異常檢測中的基于〔A〕的離群點檢測。A B、鄰近度CD、聚類技術(shù).〔C〕將兩個簇的鄰近度定義為不同簇的所有點對的平均逐對鄰近度,它是一種凝聚層次聚類技術(shù)。A、min〔單鏈〕 B、MAX〔全鏈〕 C、組平均D、Ward.〔D〕將兩個簇的鄰近度定義為兩個簇合并時導(dǎo)致的平方誤差的增量,它是一種凝聚層次聚類技術(shù)。A、MIN〔單鏈〕 B、MAX〔全鏈〕 C、組平均D、Ward.DBSCAN在最壞情況下的時間復(fù)雜度是〔B〕。A、O(m)B、O(m2) C、O(logm) D、O(m*logm).在基于圖的簇評估度量表里面,如果簇度量為proximity(Ci,C),簇權(quán)值為mi,那么它的類型是〔C〕。A、基于圖的凝聚度 B、基于原型的凝聚度 C、基于原型的別離度 D、基于圖的凝聚度和別離度.K均值和DBSCAN的比擬,以下說法不正確的選項是〔A〕。A、K均值丟棄被它識別為噪聲的對象,而DBSCAN一般聚類所有對象。B、K均值使用簇的基于原型的概念,而DBSCANC、K均值很難處理非球形的簇和不同大小的簇,DBSCAN可以處理不同大小和不同形狀的簇。D、K均值可以發(fā)現(xiàn)不是明顯別離的簇,即便簇有重疊也可以發(fā)現(xiàn),但是DBSCAN會合并有重疊的簇。.以下是哪一個聚類算法的算法流程:①構(gòu)造k—最近鄰圖。②使用多層圖劃分算法劃分圖。③repeat④until:不再有可以合并的簇?!睠〕。A、MSTB、OPOSSUM C、ChameleonD、Jarvis—Patrick〔JP〕.考慮這么一種情況:一個對象碰巧與另一個對象相對接近,但屬于不同的類,因為這兩個對象一般不會共享許多近鄰,所以應(yīng)該選擇〔DA、平方歐幾里德距離 B、余弦距離 C、直接相似度 D、共享最近鄰.以下屬于可伸縮聚類算法的是〔A〕。A、CUREB、DENCLUEC、CLIQUED、OPOSSUM.以下哪個聚類算法不是屬于基于原型的聚類〔D〕。A、模糊c均值 B、EM算法C、SOM D、CLIQUE.B〕。A、當(dāng)簇只包含少量數(shù)據(jù)點,或者數(shù)據(jù)點近似協(xié)線性時,混合模型也能很好地處理。B、混合模型比K均值或模糊c均值更一般,因為它可以使用各種類型的分布。C、混合模型很難發(fā)現(xiàn)不同大小和橢球形狀的簇。D、混合模型在有噪聲和離群點時不會存在問題。.以下哪個聚類算法不屬于基于網(wǎng)格的聚類算法〔D〕。A、STINGB、WaveCluster C、MAFIAD、BIRCH.C〕的離群點定義。A.概率 B、鄰近度CD、聚類.Jarvis—Patrick〔JP〕聚類算法的說法不正確的選項是〔D〕。A、JPB、JP算法對高維數(shù)據(jù)效果良好,尤其擅長發(fā)現(xiàn)強相關(guān)對象的緊致簇。C、JP聚類是基于SNN相似度的概念。D、JP聚類的根本時間復(fù)雜度為O(m)。二、多項選擇題.通過數(shù)據(jù)挖掘過程所推倒出的關(guān)系和摘要經(jīng)常被稱為:(AB)A.模型B.模式C.模范D.模具尋找數(shù)據(jù)集中的關(guān)系是為了尋找精確、方便并且有價值地總結(jié)了數(shù)據(jù)的某一特征的表示,這個過程包括了以下哪些步驟?(ABCD).數(shù)據(jù)挖掘的預(yù)測建模任務(wù)主要包括哪幾大類問題?(AB)A.分類B.回歸C.模式發(fā)現(xiàn)D.模式匹配.數(shù)據(jù)挖掘算法的組件包括:(ABCD)A.模型或模型結(jié)構(gòu)B.C.D.數(shù)據(jù)管理策略.(AD)A.統(tǒng)計B.計算機組成原理C.礦產(chǎn)挖掘D.人工智能.在現(xiàn)實世界的數(shù)據(jù)中,元組在某些屬性上缺少值(ABCDE)A忽略元組 C使用一個全局常量填充空缺值B使用屬性的平均值填充空缺值D使用與給定元組屬同一類的所有樣本的平均值 E使用最可能的值填充空缺值.下面哪些屬于可視化高維數(shù)據(jù)技術(shù)(ABCE)A矩陣B平行坐標(biāo)系C星形坐標(biāo)D散布圖EChernoff臉.對于數(shù)據(jù)挖掘中的原始數(shù)據(jù),存在的問題有:(ABCDE)A不一致B重復(fù)C不完整D含噪聲E維度高.以下屬于不同的有序數(shù)據(jù)的有:(ABCE)A時序數(shù)據(jù)B序列數(shù)據(jù)C時間序列數(shù)據(jù)D事務(wù)數(shù)據(jù)E空間數(shù)據(jù).下面屬于數(shù)據(jù)集的一般特性的有:(BCD)A連續(xù)性B維度C稀疏性D分辨率E相異性.下面屬于維歸約常用的線性代數(shù)技術(shù)的有:(AC)A主成分分析B特征提取C奇異值分解D特征加權(quán)E離散化.下面列出的條目中,哪些是數(shù)據(jù)倉庫的根本特征:(ACD)A.數(shù)據(jù)倉庫是面向主題的B.數(shù)據(jù)倉庫的數(shù)據(jù)是集成的C.數(shù)據(jù)倉庫的數(shù)據(jù)是相對穩(wěn)定的 D.數(shù)據(jù)倉庫的數(shù)據(jù)是反映歷史變化的E.數(shù)據(jù)倉庫是面向事務(wù)的.以下各項均是針對數(shù)據(jù)倉庫的不同說法,你認為正確的有〔BCDE 〕。A.數(shù)據(jù)倉庫就是數(shù)據(jù)庫B.數(shù)據(jù)倉庫是一切商業(yè)智能系統(tǒng)的根底C.數(shù)據(jù)倉庫是面向業(yè)務(wù)的,支持聯(lián)機事務(wù)處理〔OLTP〕D.數(shù)據(jù)倉庫支持決策而非事務(wù)處理E.數(shù)據(jù)倉庫的主要目標(biāo)就是幫助分析,做長期性的戰(zhàn)略制定.數(shù)據(jù)倉庫在技術(shù)上的工作過程是:(ABCD)A.數(shù)據(jù)的抽取B.存儲和管理 C.數(shù)據(jù)的表現(xiàn)D.數(shù)據(jù)倉庫設(shè)計E.數(shù)據(jù)的表現(xiàn).聯(lián)機分析處理包括以下哪些根本分析功能?(BCD)A.聚類B.切片C.轉(zhuǎn)軸D.切塊E.分類.利用Apriori算法計算頻繁項集可以有效降低計算頻繁集的時間復(fù)雜度。在以下的購物籃中產(chǎn)生支持度不小于3的候選3-項集,在候選2-項集中需要剪枝的是〔BD〕ID項集面包、牛奶面包、尿布、啤酒、雞蛋牛奶、尿布、啤酒、可樂面包、牛奶、尿布、啤酒面包、牛奶、尿布、可樂A、啤酒、尿布B、啤酒、面包C、面包、尿布D、啤酒、牛奶.下表是一個購物籃,假定支持度閾值為40%,其中__(AD)__是頻繁閉項集。TID項1abc2abcd3bce4acde5deA、abcB、adC、cdD、de.Apriori算法的計算復(fù)雜度受_(ABCD)?__影響。A、支持度閥值B、項數(shù)〔維度〕C、事務(wù)數(shù)D、事務(wù)平均寬度.非頻繁模式__(AD)__A、其支持度小于閾值B、都是不讓人感興趣的C、包含負模式和負相關(guān)模式D、對異常數(shù)據(jù)項敏感.以下屬于分類器評價或比擬尺度的有:A,預(yù)測準(zhǔn)確度B,召回率^模型描述的簡潔度D,計算復(fù)雜度(ACD).A,F1度量B,召回率〔recall〕C,精度〔precision〕D,真正率〔turepositiverate,TPR(ABCD)22.貝葉斯信念網(wǎng)絡(luò)(BBN)有如下哪些特點,A,構(gòu)造網(wǎng)絡(luò)費時費力B,對模型的過分問題非常魯棒C,貝葉斯網(wǎng)絡(luò)不適合處理不完整的數(shù)據(jù)D,網(wǎng)絡(luò)結(jié)構(gòu)確定后,添加變量相當(dāng)麻煩〔AB〕23.如下哪些不是最近鄰分類器的特點,A,它使用具體的訓(xùn)練實例進行預(yù)測,不必維護源自數(shù)據(jù)的模型B,分類一個測試樣例開銷很大C,最近鄰分類器基于全局信息進行預(yù)測D,可以生產(chǎn)任意形狀的決策邊界(C).如下那些不是基于規(guī)那么分類器的特點,A,規(guī)那么集的表達能力遠不如決策樹好B,基于規(guī)那么的分類器都對屬性空間進行直線劃分,并將類指派到每個劃分C,無法被用來產(chǎn)生更易于解釋的描述性模型D,非常適合處理類分布不平衡的數(shù)據(jù)集〔AC〕.以下屬于聚類算法的是〔ABD〕。A、K均值B、DBSCAN C、Apriori D、Jarvis-Patrick〔JP〕.〔CD〕都屬于簇有效性的監(jiān)督度量。A、輪廓系數(shù) B、共性分類相關(guān)系數(shù) C、熵 D、F度量.簇有效性的面向相似性的度量包括〔BC〕。A、精度B、Rand統(tǒng)計量C、Jaccard系數(shù) D、召回率.〔ABCD〕這些數(shù)據(jù)特性都是對聚類分析具有很強影響的。A、高維性B、規(guī)模C、稀疏性 D、噪聲和離群點.在聚類分析當(dāng)中,〔AD〕等技術(shù)可以處理任意形狀的簇。A、min〔單鏈〕 B、MAX〔全鏈〕 C、組平均D、Chameleon.〔AB〕都屬于分裂的層次聚類算法。A、二分K均值B、MSTC、ChameleonD、組平均數(shù)據(jù)挖掘的主要任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)那么,從而能更好的完成描述數(shù)據(jù)、預(yù)測數(shù)據(jù)等任務(wù)。(對)數(shù)據(jù)挖掘的目標(biāo)不在于數(shù)據(jù)采集策略,而在于對于已經(jīng)存在的數(shù)據(jù)進行模式的開掘?!矊Α硤D挖掘技術(shù)在社會網(wǎng)絡(luò)分析中扮演了重要的角色?!矊Α衬J綖閷?shù)據(jù)集的全局性總結(jié),它對整個測量空間的每一點做出描述;模型那么對變量變化空間的一個有限區(qū)域做出描述?!插e〕尋找模式和規(guī)那么主要是對數(shù)據(jù)進行干擾,使其符合某種規(guī)那么以及模式?!插e〕TOC\o"1-5"\h\z離群點可以是合法的數(shù)據(jù)對象或者值。 〔對〕離散屬性總是具有有限個值。 〔錯〕噪聲和偽像是數(shù)據(jù)錯誤這一相同表述的兩種叫法。 〔錯〕特征提取技術(shù)并不依賴于特定的領(lǐng)域。 〔錯〕序列數(shù)據(jù)沒有時間戳。 〔對〕定量屬性可以是整數(shù)值或者是連續(xù)值。 〔對〕可視化技術(shù)對于分析的數(shù)據(jù)類型通常不是專用性的。 〔錯〕DSS主要是基于數(shù)據(jù)倉庫.聯(lián)機數(shù)據(jù)分析和數(shù)據(jù)挖掘技術(shù)的應(yīng)用?!矊Α砄LAP技術(shù)側(cè)重于把數(shù)據(jù)庫中的數(shù)據(jù)進行分析、轉(zhuǎn)換成輔助決策信息,是繼數(shù)據(jù)庫技術(shù)開展之后迅猛開展起來的一種新技術(shù)。〔對〕商業(yè)智能系統(tǒng)與一般交易系統(tǒng)之間在系統(tǒng)設(shè)計上的主要區(qū)別在于:后者把結(jié)構(gòu)強加于商務(wù)之上,一旦系統(tǒng)設(shè)計完畢,其程序和規(guī)那么不會輕易改變;而前者那么是一個學(xué)習(xí)型系統(tǒng),能自動適應(yīng)商務(wù)不斷變化的要求?!矊Α硵?shù)據(jù)倉庫中間層OLAP效勞器只能采用關(guān)系型OLAP 〔錯〕18.?dāng)?shù)據(jù)倉庫系統(tǒng)的組成局部包括數(shù)據(jù)倉庫,倉庫管理,數(shù)據(jù)抽取,分析工具等四個局部.(錯)19.Web數(shù)據(jù)挖掘是通過數(shù)據(jù)庫仲的一些屬性來預(yù)測另一個屬性,它在驗證用戶提出的假設(shè)過程中提取信息.〔錯〕關(guān)聯(lián)規(guī)那么挖掘過程是發(fā)現(xiàn)滿足最小支持度的所有項集代表的規(guī)那么?!插e〕利用先驗原理可以幫助減少頻繁項集產(chǎn)生時需要探查的候選項個數(shù)〔對〕。先驗原理可以表述為:如果一個項集是頻繁的,那包含它的所有項集也是頻繁的?!插e如果規(guī)那么不滿足置信度閾值,那么形如的規(guī)那么一定也不滿足置信度閾值,其中是X的子集?!矊Α尘哂休^高的支持度的項集具有較高的置信度?!插e〕聚類〔clustering〕是這樣的過程:它找出描述并區(qū)分數(shù)據(jù)類或概念的模型(),以便能夠使用模型預(yù)測類標(biāo)記未知的對象類?!插e〕分類和回歸都可用于預(yù)測,分類的輸出是離散的類別值,而回歸的輸出是連續(xù)數(shù)值。(對)對于SVM分類算法,待分樣本集中的大局部樣本不是支持向量,移去或者減少這些樣本對分類結(jié)果沒有影響。〔對〕Bayes法是一種在后驗概率與類條(錯)分類模型的誤差大致分為兩種:訓(xùn)練誤差〔trainingerror〕和泛化誤差〔generalizationerror〕.(對)在決策樹中,隨著樹中結(jié)點數(shù)變得太大,即使模型的訓(xùn)練誤差還在繼續(xù)減低,但是檢驗誤差開始增大,這是出現(xiàn)了模型擬合缺乏的問題?!插e〕SVM是這樣一個分類器,他尋找具有最小邊緣的超平面,因此它也經(jīng)常被稱為最小邊緣分類器〔minimalmarginclassifier〕 (錯)在聚類分析當(dāng)中,簇內(nèi)的相似性越大,簇間的差異越大,聚類的效果就越差。〔錯〕聚類分析可以看作是一種非監(jiān)督的分類?!矊Α矺給定由兩次運行K均值產(chǎn)生的兩個不同的簇集,誤差的平方和最大的那個應(yīng)該被視為較優(yōu)。〔錯〕如果一個對象不強屬于任何簇,那么該對象是基于聚類的離群點。〔對〕從點作為個體簇40.DBSCAN是相對抗噪聲的,并且能夠處理任意形狀和大小的簇。對〕普加搜索引擎面試題:一、根本問答題:.冒泡和插入排序哪個快?快多少?一樣快〔如果插入排序指的是直接插入排序的話〕一樣快〔如果插入排序指的是折半插入排序的話〕一樣快〔如果插入排序指的是二路插入排序的話〕一樣快〔如果插入排序指的是表插入排序的話〕插入排序快〔如果插入排序指的是希爾插入排序的話〕理論上快O〔門人2〕—O〔nM.3〕。.請說明冒泡排序和插入排序的序列應(yīng)用何種數(shù)據(jù)結(jié)構(gòu)儲存更好?分別對應(yīng)著STL中哪個Tempelate?冒泡排序用數(shù)組比擬好,對應(yīng)著template中的vector;插入排序用鏈表比擬好,對應(yīng)著template中的deque。3.在linux平臺下下用gcc進行編譯,在windows平臺下用cl.exe進行編譯,用make4.數(shù)據(jù)的邏輯存儲結(jié)構(gòu)〔如數(shù)組,隊列,樹等〕對于軟件開發(fā)具有十分重要的影響,試對你所了解的各種存儲結(jié)構(gòu)從運行速度、存儲效率和適用場合等方面進行簡要地分析。運行速度存儲效率適用場合數(shù)組快高比擬適合進行查找操作,還有像類似于矩陣等的操作鏈表較快較高比擬適合增刪改頻繁操作,動態(tài)的分配內(nèi)存隊列較快較高比擬適合進行任務(wù)類等的調(diào)度棧一般較高比擬適合遞歸類程序的改寫二叉樹〔樹〕較快一般一切具有層次關(guān)系的問題都可用樹來描述圖一般一般除了像最小生成樹、最短路徑、拓撲排序等經(jīng)典用途。還被用于像神經(jīng)網(wǎng)絡(luò)等人工智能領(lǐng)域等等。.什么是分布式數(shù)據(jù)庫?分布式數(shù)據(jù)庫系統(tǒng)是在集中式數(shù)據(jù)庫系統(tǒng)成熟技術(shù)的根底上開展起來的,但不是簡單地把集中式數(shù)據(jù)庫分散地實現(xiàn),它具有自己的性質(zhì)和特征。集中式數(shù)據(jù)庫系統(tǒng)的許多概念和技術(shù),如數(shù)據(jù)獨立性、數(shù)據(jù)共享和減少冗余度、并發(fā)控制、完整性、平安性和恢復(fù)等在分布式數(shù)據(jù)庫系統(tǒng)中都有了不同的、更加豐富的內(nèi)容。.寫一段代碼判斷一個單向鏈表中是否有環(huán)。給出如下結(jié)構(gòu)structnode{struct*next;};typedefstuctnodeNode;算法說明:初始化兩個指針,一個每次后移1個,一個后移2個。當(dāng)?shù)谝粋€指針追上第二個指針時候就說明有環(huán)!intfind_circle(Node*sll){listfast=sll;listslow=sll;if(NULL==fast){return-1;}while(fast&&fast->next){fast=fast->next->next;slow=slow->next;if(fast==slow){return1;}}return0;.談?wù)凥ashMap和Hashtable

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論