數(shù)據(jù)挖掘考試題庫(kù)1

上傳人：灰*** IP屬地：寧夏上傳時(shí)間：2021-12-02 格式：PDF 頁(yè)數(shù)：4 大小：38.20KB 積分：6 舉報(bào) 版權(quán)申訴

全文預(yù)覽已結(jié)束

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、1.何謂數(shù)據(jù)挖掘？它有哪些方面的功能？從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中，提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程稱為數(shù)據(jù)挖掘。相關(guān)的名稱有知識(shí)發(fā)現(xiàn)、數(shù)據(jù)分析、數(shù)據(jù)融合、決策支持等。數(shù)據(jù)挖掘的功能包括：概念描述、關(guān)聯(lián)分析、分類與預(yù)測(cè)、聚類分析、趨勢(shì)分析、孤立點(diǎn)分析以及偏差分析等。2.何謂粒度？它對(duì)數(shù)據(jù)倉(cāng)庫(kù)有什么影響？按粒度組織數(shù)據(jù)的方式有哪些？粒度是指數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)單位中保存數(shù)據(jù)細(xì)化或綜合程度的級(jí)別。粒度影響存放在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)量的大小，同時(shí)影響數(shù)據(jù)倉(cāng)庫(kù)所能回答查詢問題的細(xì)節(jié)程度。按粒度組織數(shù)據(jù)的方式主要有：簡(jiǎn)單堆積結(jié)構(gòu)輪轉(zhuǎn)綜合結(jié)構(gòu)簡(jiǎn)單直接結(jié)構(gòu)連續(xù)

2、結(jié)構(gòu)3.簡(jiǎn)述數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的三級(jí)模型及其基本內(nèi)容。概念模型設(shè)計(jì)是在較高的抽象層次上的設(shè)計(jì)，其主要內(nèi)容包括：界定系統(tǒng)邊界和確定主要的主題域。邏輯模型設(shè)計(jì)的主要內(nèi)容包括：分析主題域、確定粒度層次劃分、確定數(shù)據(jù)分割策略、定義關(guān)系模式、定義記錄系統(tǒng)。物理數(shù)據(jù)模型設(shè)計(jì)的主要內(nèi)容包括：確定數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)、確定數(shù)據(jù)存放位置、確定存儲(chǔ)分配以及確定索引策略等。在物理數(shù)據(jù)模型設(shè)計(jì)時(shí)主要考慮的因素有: i/o存取時(shí)間、空間利用率和維護(hù)代價(jià)等。提高性能的主要措施有劃分粒度、數(shù)據(jù)分割、合并表、建立數(shù)據(jù)序列、引入冗余、生成導(dǎo)出數(shù)據(jù)、建立廣義索引等。4.在數(shù)據(jù)挖掘之前為什么要對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理？原始業(yè)務(wù)數(shù)據(jù)來自多個(gè)數(shù)據(jù)庫(kù)或數(shù)

3、據(jù)倉(cāng)庫(kù)，它們的結(jié)構(gòu)和規(guī)則可能是不同的，這將導(dǎo)致原始數(shù)據(jù)非常的雜亂、不可用，即使在同一個(gè)數(shù)據(jù)庫(kù)中，也可能存在重復(fù)的和不完整的數(shù)據(jù)信息，為了使這些數(shù)據(jù)能夠符合數(shù)據(jù)挖掘的要求，提高效率和得到清晰的結(jié)果，必須進(jìn)行數(shù)據(jù)的預(yù)處理。為數(shù)據(jù)挖掘算法提供完整、干凈、準(zhǔn)確、有針對(duì)性的數(shù)據(jù)，減少算法的計(jì)算量，提高挖掘效率和準(zhǔn)確程度。5.簡(jiǎn)述數(shù)據(jù)預(yù)處理方法和內(nèi)容。數(shù)據(jù)清洗：包括填充空缺值，識(shí)別孤立點(diǎn)，去掉噪聲和無關(guān)數(shù)據(jù)。數(shù)據(jù)集成：將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來存放在一個(gè)一致的數(shù)據(jù)存儲(chǔ)中。需要注意不同數(shù)據(jù)源的數(shù)據(jù)匹配問題、數(shù)值沖突問題和冗余問題等。數(shù)據(jù)變換：將原始數(shù)據(jù)轉(zhuǎn)換成為適合數(shù)據(jù)挖掘的形式。包括對(duì)數(shù)據(jù)的匯總、聚集、概

4、化、規(guī)范化，還可能需要進(jìn)行屬性的重構(gòu)。數(shù)據(jù)歸約：縮小數(shù)據(jù)的取值范圍，使其更適合于數(shù)據(jù)挖掘算法的需要，并且能夠得到和原始數(shù)據(jù)相同的分析結(jié)果。6.簡(jiǎn)述數(shù)據(jù)清理的基本內(nèi)容。盡可能賦予屬性名和屬性值明確的含義；統(tǒng)一多數(shù)據(jù)源的屬性值編碼；去除無用的惟一屬性或鍵值( 如自動(dòng)增長(zhǎng)的id) ；去除重復(fù)屬性 ( 在某些分析中，年齡和出生日期可能就是重復(fù)的屬性，但在某些時(shí)候它們可能又是同時(shí)需要的) 去除可忽略字段 ( 大部分為空值的屬性一般是沒有什么價(jià)值的，如果不去除可能造成錯(cuò)誤的數(shù)據(jù)挖掘結(jié)果) 合理選擇關(guān)聯(lián)字段( 對(duì)于多個(gè)關(guān)聯(lián)性較強(qiáng)的屬性，重復(fù)無益，只需選擇其中的部分用于數(shù)據(jù)挖掘即可，如價(jià)格、數(shù)據(jù)、金額 )

5、去掉數(shù)據(jù)中的噪音、填充空值、丟失值和處理不一致數(shù)據(jù)。7.簡(jiǎn)述處理空缺值的方法。忽略該記錄；去掉屬性；手工填寫空缺值；使用默認(rèn)值；使用屬性平均值；使用同類樣本平均值；預(yù)測(cè)最可能的值。8.常見的分箱方法有哪些？數(shù)據(jù)平滑處理的方法有哪些？分箱的方法主要有：統(tǒng)一權(quán)重法 ( 又稱等深分箱法) 統(tǒng)一區(qū)間法 ( 又稱等寬分箱法) 最小熵法自定義區(qū)間法數(shù)據(jù)平滑的方法主要有：平均值法、邊界值法和中值法。9.何謂數(shù)據(jù)規(guī)范化？規(guī)范化的方法有哪些？寫出對(duì)應(yīng)的變換公式。將數(shù)據(jù)按比例縮放( 如更換大單位 ) ，使之落入一個(gè)特定的區(qū)域（如0.0 1.0 ），稱為規(guī)范化。規(guī)范化的常用方法有：(1)最大最小規(guī)范化：(2)零均

6、值規(guī)范化：(3)小數(shù)定標(biāo)規(guī)范化：xx0/1010.數(shù)據(jù)歸約的方法有哪些？為什么要進(jìn)行維歸約？數(shù)據(jù)立方體聚集維歸約數(shù)據(jù)壓縮數(shù)值壓縮離散化和概念分層維歸約可以去掉不重要的屬性，減少數(shù)據(jù)立方體的維數(shù)，從而減少數(shù)據(jù)挖掘處理的數(shù)據(jù)量，提高挖掘效率。11.何謂聚類？它與分類有什么異同？聚類是將物理或抽象對(duì)象的集合分組成為多個(gè)類或簇(cluster)的過程，使得在同一個(gè)簇中的對(duì)象之間具有較高的相似度，而不同簇中的對(duì)象差別較大。聚類與分類不同，聚類要?jiǎng)澐值念愂俏粗?，分類則可按已知規(guī)則進(jìn)行；聚類是一種無指導(dǎo)學(xué)習(xí)，它不依賴預(yù)先定義的類和帶類標(biāo)號(hào)的訓(xùn)練實(shí)例，屬于觀察式學(xué)習(xí)，分類則屬于有指導(dǎo)的學(xué)習(xí)，是示例式學(xué)習(xí)。1

7、2.舉例說明聚類分析的典型應(yīng)用。商業(yè)：幫助市場(chǎng)分析人員從客戶基本庫(kù)中發(fā)現(xiàn)不同的客戶群，并且用不同的購(gòu)買模式描述不同客戶群的特征。生物學(xué)：推導(dǎo)植物或動(dòng)物的分類，對(duì)基于進(jìn)行分類，獲得對(duì)種群中固有結(jié)構(gòu)的認(rèn)識(shí)。web文檔分類其他：如地球觀測(cè)數(shù)據(jù)庫(kù)中相似地區(qū)的確定；各類保險(xiǎn)投保人的分組；一個(gè)城市中不同類型、價(jià)值、地理位置房子的分組等。聚類分析還可作為其他數(shù)據(jù)挖掘算法的預(yù)處理：即先進(jìn)行聚類，然后再進(jìn)行分類等其他的數(shù)據(jù)挖掘。聚類分析是一種數(shù)據(jù)簡(jiǎn)化技術(shù)，它把基于相似數(shù)據(jù)特征的變量或個(gè)案組合在一起。13.聚類分析中常見的數(shù)據(jù)類型有哪些？何謂相異度矩陣？它有什么特點(diǎn)？常見數(shù)據(jù)類型有區(qū)間標(biāo)度變量、比例標(biāo)度型變量、

8、二元變量、標(biāo)稱型、序數(shù)型以及混合類型等。相異度矩陣是用于存儲(chǔ)所有對(duì)象兩兩之間相異度的矩陣，為一個(gè)nn 維的單模矩陣。其特點(diǎn)是d(i,j)=d(j,i)，d(i,i)=0，d(j,j)=0。如下所示：14.分類知識(shí)的發(fā)現(xiàn)方法主要有哪些？分類過程通常包括哪兩個(gè)步驟？分類規(guī)則的挖掘方法通常有：決策樹法、貝葉斯法、人工神經(jīng)網(wǎng)絡(luò)法、粗糙集法和遺傳算法。分類的過程包括2 步：首先在已知訓(xùn)練數(shù)據(jù)集上，根據(jù)屬性特征，為每一種類別找到一個(gè)合理的描述或模型，即分類規(guī)則；然后根據(jù)規(guī)則對(duì)新數(shù)據(jù)進(jìn)行分類。15.什么是決策樹？如何用決策樹進(jìn)行分類？決策樹是用樣本的屬性作為結(jié)點(diǎn)，用屬性的取值作為分支的樹結(jié)構(gòu)。它是利用信息論

9、原理對(duì)大量樣本的屬性進(jìn)行分析和歸納而產(chǎn)生的。決策樹的根結(jié)點(diǎn)是所有樣本中信息量最大的屬性。樹的中間結(jié)點(diǎn)是以該結(jié)點(diǎn)為根的子樹所包含的樣本子集中信息量最大的屬性。決策樹的葉結(jié)點(diǎn)是樣本的類別值。決策樹用于對(duì)新樣本的分類，即通過決策樹對(duì)新樣本屬性值的測(cè)試，從樹的根結(jié)點(diǎn)開始，按照樣本屬性的取值，逐漸沿著決策樹向下，直到樹的葉結(jié)點(diǎn)，該葉結(jié)點(diǎn)表示的類別就是新樣本的類別。決策樹方法是數(shù)據(jù)挖掘中非常有效的分類方法。16.簡(jiǎn)述 id3 算法的基本思想及其主算法的基本步驟。()()0000maxminxxminminmaxmin0xxxx0d(2,1)0d(3,1) d(3,2) 0d(n,1) d(n,2) .0

10、首先找出最有判別力的因素，然后把數(shù)據(jù)分成多個(gè)子集，每個(gè)子集又選擇最有判別力的因素進(jìn)一步劃分，一直進(jìn)行到所有子集僅包含同一類型的數(shù)據(jù)為止。最后得到一棵決策樹，可以用它來對(duì)新的樣例進(jìn)行分類。主算法包括如下幾步：從訓(xùn)練集中隨機(jī)選擇一個(gè)既含正例又含反例的子集( 稱為窗口 ) ；用“建樹算法”對(duì)當(dāng)前窗口形成一棵決策樹；對(duì)訓(xùn)練集 ( 窗口除外 ) 中例子用所得決策樹進(jìn)行類別判定，找出錯(cuò)判的例子；若存在錯(cuò)判的例子，把它們插入窗口，重復(fù)步驟，否則結(jié)束。17.簡(jiǎn)述 id3 算法的基本思想及其建樹算法的基本步驟。首先找出最有判別力的因素，然后把數(shù)據(jù)分成多個(gè)子集，每個(gè)子集又選擇最有判別力的因素進(jìn)一步劃分，一直進(jìn)行到

11、所有子集僅包含同一類型的數(shù)據(jù)為止。最后得到一棵決策樹，可以用它來對(duì)新的樣例進(jìn)行分類。建樹算法的具體步驟如下：對(duì)當(dāng)前例子集合，計(jì)算各特征的互信息；選擇互信息最大的特征ak；把在 ak處取值相同的例子歸于同一子集，ak取幾個(gè)值就得幾個(gè)子集；對(duì)既含正例又含反例的子集，遞歸調(diào)用建樹算法；若子集僅含正例或反例，對(duì)應(yīng)分枝標(biāo)上p或 n，返回調(diào)用處。18.設(shè)某事務(wù)項(xiàng)集構(gòu)成如下表，填空完成其中支持度和置信度的計(jì)算。事務(wù) id 項(xiàng)集l2 支持度 % 規(guī)則置信度 % t1 a, d a, b 33.3 a b50 t2 d, e a, c 33.3 ca 60 t3 a, c, e a, d 44.4 ad 66.

12、7 t4 a, b, d, e b, d 33.3 bd 75 t5 a, b, c c, d 33.3 cd 60 t6 a, b, d d, e 33.3 de 43 t7 a, c, d ,t8 c, d, e t9 b, c, d 19.從信息處理角度看，神經(jīng)元具有哪些基本特征？寫出描述神經(jīng)元狀態(tài)的m-p方程并說明其含義。基本特征：多輸入、單輸出；突觸兼有興奮和抑制兩種性能；可時(shí)間加權(quán)和空間加權(quán)；可產(chǎn)生脈沖；脈沖可進(jìn)行傳遞；非線性，有閾值。m-p方程：()iijjjjsfw s，wij是神經(jīng)元之間的連接強(qiáng)度，j是閾值，f(x) 是階梯函數(shù)。20.遺傳算法與傳統(tǒng)尋優(yōu)算法相比有什么特點(diǎn)？遺

13、傳算法為群體搜索，有利于尋找到全局最優(yōu)解；遺傳算法采用高效有方向的隨機(jī)搜索，搜索效率高；遺傳算法處理的對(duì)象是個(gè)體而不是參變量，具有廣泛的應(yīng)用領(lǐng)域；遺傳算法使用適應(yīng)值信息評(píng)估個(gè)體，不需要導(dǎo)數(shù)或其他輔助信息，運(yùn)算速度快，適應(yīng)性好；遺傳算法具有隱含并行性，具有更高的運(yùn)行效率。21.寫出非對(duì)稱二元變量相異度計(jì)算公式( 即 jaccard系數(shù) ) ，并計(jì)算下表中各對(duì)象間的相異度。測(cè)試項(xiàng)目對(duì) 象test-1 test-2 test-3 test-4 test-5 test-6 obj1 y n p n n n obj2 y n p n p n obj3 n y n y n n ,22.簡(jiǎn)述 k-平均算法的

14、輸入、輸出及聚類過程( 流程 ) 。輸入：簇的數(shù)目k 和包含 n 個(gè)對(duì)象的數(shù)據(jù)集。輸出： k 個(gè)簇，使平方誤差準(zhǔn)則最小。步驟：任意選擇 k 個(gè)對(duì)象作為初始的簇中心；計(jì)算其它對(duì)象與這k 個(gè)中心的距離，然后把每個(gè)對(duì)象歸入離它“最近”的簇；計(jì)算各簇中對(duì)象的平均值，然后重新選擇簇中心( 離平均值“最近”的對(duì)象值) ；重復(fù)第 2 第 3 步直到簇中心不再變化為止。23.簡(jiǎn)述 k-中心點(diǎn)算法的輸入、輸出及聚類過程( 流程 ) 。輸入：結(jié)果簇的數(shù)目k，包含 n 個(gè)對(duì)象的數(shù)據(jù)集輸出： k 個(gè)簇，使得所有對(duì)象與其最近中心點(diǎn)的相異度總和最小。流程：隨機(jī)選擇 k 個(gè)對(duì)象作為初始中心點(diǎn)；計(jì)算其它對(duì)象與這k 個(gè)中心的距

15、離，然后把每個(gè)對(duì)象歸入離它“最近”的簇；隨機(jī)地選擇一個(gè)非中心點(diǎn)對(duì)象orandom，并計(jì)算用orandom代替 oj 的總代價(jià) s；如果 s0,則用 orandom代替 oj，形成新的k 個(gè)中心點(diǎn)集合；重復(fù)迭代第 3、4 步，直到中心點(diǎn)不變?yōu)橹埂?4.何謂文本挖掘？它與信息檢索有什么關(guān)系( 異同 ) 。文本挖掘是從大量文本數(shù)據(jù)中提取以前未知的、有用的、可理解的、可操作的知識(shí)的過程。它與信息檢索之間有以下幾方面的區(qū)別：方法論不同：信息檢索是目標(biāo)驅(qū)動(dòng)的，用戶需要明確提出查詢要求；而文本挖掘結(jié)果獨(dú)立于用戶的信息需求，是用戶無法預(yù)知的。著眼點(diǎn)不同：信息檢索著重于文檔中字、詞和鏈接；而文本挖掘在于理解文本

16、的內(nèi)容和結(jié)構(gòu)。目的不同：信息檢索的目的在于幫助用戶發(fā)現(xiàn)資源，即從大量的文本中找到滿足其查詢請(qǐng)求的文本子集；而文本挖掘是為了揭示文本中隱含的知識(shí)。評(píng)價(jià)方法不同：信息檢索用查準(zhǔn)率和查全率來評(píng)價(jià)其性能。而文本挖掘采用收益、置信度、簡(jiǎn)潔性等來衡量所發(fā)現(xiàn)知識(shí)的有效性、可用性和可理解性。使用場(chǎng)合不同：文本挖掘是比信息檢索更高層次的技術(shù)，可用于信息檢索技術(shù)不能解決的許多場(chǎng)合。一方面，這兩種技術(shù)各有所長(zhǎng)，有各自適用的場(chǎng)合；另一方面，可以利用文本挖掘的研究成果來提高信息檢索的精度和效率，改善檢索結(jié)果的組織，使信息檢索系統(tǒng)發(fā)展到一個(gè)新的水平。人工神經(jīng)網(wǎng)絡(luò)是用大量的簡(jiǎn)單處理單元廣泛連接而成的網(wǎng)絡(luò), 用以模擬生物神經(jīng)

17、網(wǎng)絡(luò)的智能計(jì)算系統(tǒng), 神經(jīng)網(wǎng)絡(luò)是一組類似于神經(jīng)元的處理單元, 其中每個(gè)連接都與一個(gè)權(quán)重相關(guān)聯(lián). apriori優(yōu)缺點(diǎn) : 優(yōu)點(diǎn)：大大壓縮了頻繁集的大小，取得了很好的性能。缺點(diǎn)： (1 ) 產(chǎn)生大量的頻繁集 (2 ) 重復(fù)掃描事務(wù)數(shù)據(jù)庫(kù)如何改進(jìn) ?改進(jìn) ：在第一次數(shù)據(jù)庫(kù)遍歷后就不需要用到原始數(shù)據(jù)庫(kù)，而使用在前一次過程中所用的候選項(xiàng)集的集合。aprioritid算法的優(yōu)點(diǎn) 是用逐漸減少的tid 表代替原始數(shù)據(jù)庫(kù), 但是在循環(huán)的初始階段, 候選項(xiàng)集的個(gè)數(shù)往往大于數(shù)據(jù)項(xiàng)個(gè)數(shù) , 導(dǎo)致構(gòu)造的tid 表可能比原始事務(wù)數(shù)據(jù)庫(kù)還要大. 聚類分析 : 從數(shù)據(jù)集中找出相似的數(shù)據(jù)并組成不同的組數(shù)據(jù)挖掘步驟: 問題定義 , 數(shù)據(jù)準(zhǔn)備 , 預(yù)處理 , 數(shù)據(jù)挖掘 , 結(jié)果的解釋和

人人文庫(kù)> 全部分類> 生活休閑 > 科普知識(shí)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)挖掘考試題庫(kù)1

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

數(shù)據(jù)挖掘考試題庫(kù)1

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔