




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、一、 填空題1. Web挖掘可分為、和3大類。2. 數(shù)據(jù)倉庫需要統(tǒng)一數(shù)據(jù)源,包括統(tǒng)一、統(tǒng)一、統(tǒng)一和統(tǒng)一數(shù)據(jù)特征4個方面。3. 數(shù)據(jù)分割通常按時間、以及組合方法進(jìn)行。4. 噪聲數(shù)據(jù)處理的方法主要有、和。5. 數(shù)值歸約的常用方法有、和對數(shù)模型等。6. 評價關(guān)聯(lián)規(guī)則的2個主要指標(biāo)是和。7. 多維數(shù)據(jù)集通常采用或雪花型架構(gòu),以表為中心,連接多個表 。8. 決策樹是用作為結(jié)點(diǎn),用作為分支的樹結(jié)構(gòu)。9. 關(guān)聯(lián)可分為簡單關(guān)聯(lián)、和。10. BP神經(jīng)網(wǎng)絡(luò)的作用函數(shù)通常為區(qū)間的。11. 數(shù)據(jù)挖掘的過程主要包括確定業(yè)務(wù)對象、及知識同化等幾個步驟。12. 數(shù)據(jù)挖掘技術(shù)主要涉及、和3個技術(shù)領(lǐng)域。13. 數(shù)據(jù)挖掘的主要功
2、能包括、趨勢分析、孤立點(diǎn)分析和偏差分析7個方面。14. 人工神經(jīng)網(wǎng)絡(luò)具有和等特點(diǎn),其結(jié)構(gòu)模型包括、和自組織網(wǎng)絡(luò)3種。15. 數(shù)據(jù)倉庫數(shù)據(jù)的4個基本特征是、非易失、隨時間變化。16. 數(shù)據(jù)倉庫的數(shù)據(jù)通常劃分為、和等幾個級別。17. 數(shù)據(jù)預(yù)處理的主要內(nèi)容(方法)包括、和 數(shù)據(jù)歸約等。18. 平滑分箱數(shù)據(jù)的方法主要有、和。19. 數(shù)據(jù)挖掘發(fā)現(xiàn)知識的類型主要有廣義知識、和偏差型知識五種。20. OLAP的數(shù)據(jù)組織方式主要有和兩種。21. 常見的OLAP多維數(shù)據(jù)分析包括、和旋轉(zhuǎn)等操作。22. 傳統(tǒng)的決策支持系統(tǒng)是以和驅(qū)動,而新決策支持系統(tǒng)則是以 、建立在和技術(shù)之上。23. OLAP的數(shù)據(jù)組織方式主要有和
3、2種。24. SQL Server2000的OLAP組件叫,OLAP操作窗口叫。25. BP神經(jīng)網(wǎng)絡(luò)由、以及一或多個結(jié)點(diǎn)組成。26. 遺傳算法包括、3個基本算子。27. 聚類分析的數(shù)據(jù)通??煞譃閰^(qū)間標(biāo)度變量、序數(shù)型以及混合類型等。28. 聚類分析中最常用的距離計算公式有、等。29. 基于劃分的聚類算法有和。30. Clementine的工作流通常由、和等節(jié)點(diǎn)連接而成。31. 簡單地說,數(shù)據(jù)挖掘就是從中挖掘的過程。32. 數(shù)據(jù)挖掘相關(guān)的名稱還有、等。二、 判斷題( )1. 數(shù)據(jù)倉庫的數(shù)據(jù)量越大,其應(yīng)用價值也越大。( )2. 啤酒與尿布的故事是聚類分析的典型實(shí)例。( )3. 等深分箱法使每個箱子的
4、記錄個數(shù)相同。( )4. 數(shù)據(jù)倉庫“粒度”越細(xì),記錄數(shù)越少。( )5. 數(shù)據(jù)立方體由3維構(gòu)成,Z軸表示事實(shí)數(shù)據(jù)。( )6. 決策樹方法通常用于關(guān)聯(lián)規(guī)則挖掘。( )7. ID3算法是決策樹方法的早期代表。( )8. C4.5是一種典型的關(guān)聯(lián)規(guī)則挖掘算法。( )9. 回歸分析通常用于挖掘關(guān)聯(lián)規(guī)則。( )10. 人工神經(jīng)網(wǎng)絡(luò)特別適合解決多參數(shù)大復(fù)雜度問題。( )11. 概念關(guān)系分析是文本挖掘所獨(dú)有的。( )12. 可信度是對關(guān)聯(lián)規(guī)則的準(zhǔn)確度的衡量。( )13. 孤立點(diǎn)在數(shù)據(jù)挖掘時總是被視為異常、無用數(shù)據(jù)而丟棄。( )14. SQL Server 2000不提供關(guān)聯(lián)規(guī)則挖掘算法。( )15. Clem
5、entine是IBM公司的專業(yè)級數(shù)據(jù)挖掘軟件。( )16. 決策樹方法特別適合于處理數(shù)值型數(shù)據(jù)。( )17. 數(shù)據(jù)倉庫的數(shù)據(jù)為歷史數(shù)據(jù),從來不需要更新。( )18. 等寬分箱法使每個箱子的取值區(qū)間相同。( )19. 數(shù)據(jù)立方體是廣義知識發(fā)現(xiàn)的方法和技術(shù)之一。( )20. 數(shù)據(jù)立方體的其中一維用于記錄事實(shí)數(shù)據(jù)。( )21. 決策樹通常用于分類與預(yù)測。( )22. Apriori算法是一種典型的關(guān)聯(lián)規(guī)則挖掘算法。( )23. 支持度是衡量關(guān)聯(lián)規(guī)則重要性的一個指標(biāo)。( )24. SQL Server 2000集成了OLAP,但不具有數(shù)據(jù)挖掘功能。( )25. 人工神經(jīng)網(wǎng)絡(luò)常用于分類與預(yù)測。三、 名詞
6、解釋1. 數(shù)據(jù)倉庫:是一種新的數(shù)據(jù)處理體系結(jié)構(gòu),是面向主題的、集成的、不可更新的(穩(wěn)定性)、隨時間不斷變化(不同時間)的數(shù)據(jù)集合,為企業(yè)決策支持系統(tǒng)提供所需的集成信息。2. 孤立點(diǎn):指數(shù)據(jù)庫中包含的一些與數(shù)據(jù)的一般行為或模型不一致的異常數(shù)據(jù)。3. OLAP:OLAP是在OLTP的基礎(chǔ)上發(fā)展起來的,以數(shù)據(jù)倉庫為基礎(chǔ)的數(shù)據(jù)分析處理,是共享多維信息的快速分析,是被專門設(shè)計用于支持復(fù)雜的分析操作,側(cè)重對分析人員和高層管理人員的決策支持。4. 粒度:指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)細(xì)化或綜合程度的級別。粒度影響存放在數(shù)據(jù)倉庫中的數(shù)據(jù)量的大小,同時影響數(shù)據(jù)倉庫所能回答查詢問題的細(xì)節(jié)程度。5. 數(shù)據(jù)規(guī)范化:指
7、將數(shù)據(jù)按比例縮放(如更換大單位),使之落入一個特定的區(qū)域(如01)以提高數(shù)據(jù)挖掘效率的方法。規(guī)范化的常用方法有:最大最小規(guī)范化、零均值規(guī)范化、小數(shù)定標(biāo)規(guī)范化。6. 關(guān)聯(lián)知識:是反映一個事件和其他事件之間依賴或相互關(guān)聯(lián)的知識。如果兩項或多項屬性之間存在關(guān)聯(lián),那么其中一項的屬性值就可以依據(jù)其他屬性值進(jìn)行預(yù)測。7. 數(shù)據(jù)挖掘:從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。8. OLTP:OLTP為聯(lián)機(jī)事務(wù)處理的縮寫,OLAP是聯(lián)機(jī)分析處理的縮寫。前者是以數(shù)據(jù)庫為基礎(chǔ)的,面對的是操作人員和低層管理人員,對基本數(shù)據(jù)進(jìn)行查詢和增、
8、刪、改等處理。9. ROLAP:是基于關(guān)系數(shù)據(jù)庫存儲方式的,在這種結(jié)構(gòu)中,多維數(shù)據(jù)被映像成二維關(guān)系表,通常采用星型或雪花型架構(gòu),由一個事實(shí)表和多個維度表構(gòu)成。10. MOLAP:是基于類似于“超立方”塊的OLAP存儲結(jié)構(gòu),由許多經(jīng)壓縮的、類似于多維數(shù)組的對象構(gòu)成,并帶有高度壓縮的索引及指針結(jié)構(gòu),通過直接偏移計算進(jìn)行存取。11. 數(shù)據(jù)歸約:縮小數(shù)據(jù)的取值范圍,使其更適合于數(shù)據(jù)挖掘算法的需要,并且能夠得到和原始數(shù)據(jù)相同的分析結(jié)果。12. 廣義知識:通過對大量數(shù)據(jù)的歸納、概括和抽象,提煉出帶有普遍性的、概括性的描述統(tǒng)計的知識。13. 預(yù)測型知識:是根據(jù)時間序列型數(shù)據(jù),由歷史的和當(dāng)前的數(shù)據(jù)去推測未來的
9、數(shù)據(jù),也可以認(rèn)為是以時間為關(guān)鍵屬性的關(guān)聯(lián)知識。14. 偏差型知識:是對差異和極端特例的描述,用于揭示事物偏離常規(guī)的異?,F(xiàn)象,如標(biāo)準(zhǔn)類外的特例,數(shù)據(jù)聚類外的離群值等。15. 遺傳算法:是一種優(yōu)化搜索算法,它首先產(chǎn)生一個初始可行解群體,然后對這個群體通過模擬生物進(jìn)化的選擇、交叉、變異等遺傳操作遺傳到下一代群體,并最終達(dá)到全局最優(yōu)。16. 聚類:是將物理或抽象對象的集合分組成為多個類或簇(cluster)的過程,使得在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象差別較大。17. 決策樹:是用樣本的屬性作為結(jié)點(diǎn),用屬性的取值作為分支的樹結(jié)構(gòu)。它是分類規(guī)則挖掘的典型方法,可用于對新樣本進(jìn)行分類
10、。18. 相異度矩陣:是聚類分析中用于表示各對象之間相異度的一種矩陣,n個對象的相異度矩陣是一個nn維的單模矩陣,其對角線元素均為0,對角線兩側(cè)元素的值相同。19. 頻繁項集:指滿足最小支持度的項集,是挖掘關(guān)聯(lián)規(guī)則的基本條件之一。20. 支持度:規(guī)則AB的支持度指的是所有事件中A與B同地發(fā)生的的概率,即P(AB),是AB同時發(fā)生的次數(shù)與事件總次數(shù)之比。支持度是對關(guān)聯(lián)規(guī)則重要性的衡量。21. 可信度:規(guī)則AB的可信度指的是包含A項集的同時也包含B項集的條件概率P(B|A),是AB同時發(fā)生的次數(shù)與A發(fā)生的所有次數(shù)之比??尚哦仁菍﹃P(guān)聯(lián)規(guī)則的準(zhǔn)確度的衡量。22. 關(guān)聯(lián)規(guī)則:同時滿足最小支持度閾值和最小
11、可信度閾值的規(guī)則稱之為關(guān)聯(lián)規(guī)則。四、 綜合題1. 何謂數(shù)據(jù)挖掘?它有哪些方面的功能?從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程稱為數(shù)據(jù)挖掘。相關(guān)的名稱有知識發(fā)現(xiàn)、數(shù)據(jù)分析、數(shù)據(jù)融合、決策支持等。數(shù)據(jù)挖掘的功能包括:概念描述、關(guān)聯(lián)分析、分類與預(yù)測、聚類分析、趨勢分析、孤立點(diǎn)分析以及偏差分析等。2. 何謂數(shù)據(jù)倉庫?為什么要建立數(shù)據(jù)倉庫?數(shù)據(jù)倉庫是一種新的數(shù)據(jù)處理體系結(jié)構(gòu),是面向主題的、集成的、不可更新的(穩(wěn)定性)、隨時間不斷變化(不同時間)的數(shù)據(jù)集合,為企業(yè)決策支持系統(tǒng)提供所需的集成信息。建立數(shù)據(jù)倉庫的目的有3個:一是為
12、了解決企業(yè)決策分析中的系統(tǒng)響應(yīng)問題,數(shù)據(jù)倉庫能提供比傳統(tǒng)事務(wù)數(shù)據(jù)庫更快的大規(guī)模決策分析的響應(yīng)速度。二是解決決策分析對數(shù)據(jù)的特殊需求問題。決策分析需要全面的、正確的集成數(shù)據(jù),這是傳統(tǒng)事務(wù)數(shù)據(jù)庫不能直接提供的。三是解決決策分析對數(shù)據(jù)的特殊操作要求。決策分析是面向?qū)I(yè)用戶而非一般業(yè)務(wù)員,需要使用專業(yè)的分析工具,對分析結(jié)果還要以商業(yè)智能的方式進(jìn)行表現(xiàn),這是事務(wù)數(shù)據(jù)庫不能提供的。3. 列舉操作型數(shù)據(jù)與分析型數(shù)據(jù)的主要區(qū)別。操作型數(shù)據(jù)分析型數(shù)據(jù)當(dāng)前的、細(xì)節(jié)的歷史的、綜合的面向應(yīng)用、事務(wù)驅(qū)動面向分析、分析驅(qū)動頻繁增、刪、改幾乎不更新,定期追加操作需求事先知道分析需求事先不知道生命周期符合SDLC完全不同的生
13、命周期對性能要求高對性能要求寬松一次操作數(shù)據(jù)量小一次操作數(shù)據(jù)量大支持日常事務(wù)操作支持管理決策需求4. 何謂OLTP和OLAP?它們的主要異同有哪些?OLTP即聯(lián)機(jī)事務(wù)處理,是以傳統(tǒng)數(shù)據(jù)庫為基礎(chǔ)、面向操作人員和低層管理人員、對基本數(shù)據(jù)進(jìn)行查詢和增、刪、改等的日常事務(wù)處理。OLAP即聯(lián)機(jī)分析處理,是在OLTP基礎(chǔ)上發(fā)展起來的、以數(shù)據(jù)倉庫基礎(chǔ)上的、面向高層管理人員和專業(yè)分析人員、為企業(yè)決策支持服務(wù)。OLTP和OLAP的主要區(qū)別如下表:OLTPOLAP數(shù)據(jù)庫數(shù)據(jù)數(shù)據(jù)庫或數(shù)據(jù)倉庫數(shù)據(jù)細(xì)節(jié)性數(shù)據(jù)綜合性數(shù)據(jù)當(dāng)前數(shù)據(jù)歷史數(shù)據(jù)經(jīng)常更新不更新,但周期性刷新一次性處理的數(shù)據(jù)量小一次處理的數(shù)據(jù)量大對響應(yīng)時間要求高響應(yīng)
14、時間合理用戶數(shù)量大用戶數(shù)據(jù)相對較少面向操作人員,支持日常操作面向決策人員,支持管理需要面向應(yīng)用,事務(wù)驅(qū)動面向分析,分析驅(qū)動5. 何謂粒度?它對數(shù)據(jù)倉庫有什么影響?按粒度組織數(shù)據(jù)的方式有哪些?粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)細(xì)化或綜合程度的級別。粒度影響存放在數(shù)據(jù)倉庫中的數(shù)據(jù)量的大小,同時影響數(shù)據(jù)倉庫所能回答查詢問題的細(xì)節(jié)程度。按粒度組織數(shù)據(jù)的方式主要有: 簡單堆積結(jié)構(gòu) 輪轉(zhuǎn)綜合結(jié)構(gòu) 簡單直接結(jié)構(gòu) 連續(xù)結(jié)構(gòu)6. 簡述數(shù)據(jù)倉庫設(shè)計的三級模型及其基本內(nèi)容。概念模型設(shè)計是在較高的抽象層次上的設(shè)計,其主要內(nèi)容包括:界定系統(tǒng)邊界和確定主要的主題域。邏輯模型設(shè)計的主要內(nèi)容包括:分析主題域、確定粒度層次劃
15、分、確定數(shù)據(jù)分割策略、定義關(guān)系模式、定義記錄系統(tǒng)。物理數(shù)據(jù)模型設(shè)計的主要內(nèi)容包括:確定數(shù)據(jù)存儲結(jié)構(gòu)、確定數(shù)據(jù)存放位置、確定存儲分配以及確定索引策略等。在物理數(shù)據(jù)模型設(shè)計時主要考慮的因素有: I/O存取時間、空間利用率和維護(hù)代價等。提高性能的主要措施有劃分粒度、數(shù)據(jù)分割、合并表、建立數(shù)據(jù)序列、引入冗余、生成導(dǎo)出數(shù)據(jù)、建立廣義索引等。7. 在數(shù)據(jù)挖掘之前為什么要對原始數(shù)據(jù)進(jìn)行預(yù)處理?原始業(yè)務(wù)數(shù)據(jù)來自多個數(shù)據(jù)庫或數(shù)據(jù)倉庫,它們的結(jié)構(gòu)和規(guī)則可能是不同的,這將導(dǎo)致原始數(shù)據(jù)非常的雜亂、不可用,即使在同一個數(shù)據(jù)庫中,也可能存在重復(fù)的和不完整的數(shù)據(jù)信息,為了使這些數(shù)據(jù)能夠符合數(shù)據(jù)挖掘的要求,提高效率和得到清晰
16、的結(jié)果,必須進(jìn)行數(shù)據(jù)的預(yù)處理。為數(shù)據(jù)挖掘算法提供完整、干凈、準(zhǔn)確、有針對性的數(shù)據(jù),減少算法的計算量,提高挖掘效率和準(zhǔn)確程度。8. 簡述數(shù)據(jù)預(yù)處理方法和內(nèi)容。 數(shù)據(jù)清洗:包括填充空缺值,識別孤立點(diǎn),去掉噪聲和無關(guān)數(shù)據(jù)。 數(shù)據(jù)集成:將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來存放在一個一致的數(shù)據(jù)存儲中。需要注意不同數(shù)據(jù)源的數(shù)據(jù)匹配問題、數(shù)值沖突問題和冗余問題等。 數(shù)據(jù)變換:將原始數(shù)據(jù)轉(zhuǎn)換成為適合數(shù)據(jù)挖掘的形式。包括對數(shù)據(jù)的匯總、聚集、概化、規(guī)范化,還可能需要進(jìn)行屬性的重構(gòu)。 數(shù)據(jù)歸約:縮小數(shù)據(jù)的取值范圍,使其更適合于數(shù)據(jù)挖掘算法的需要,并且能夠得到和原始數(shù)據(jù)相同的分析結(jié)果。9. 簡述數(shù)據(jù)清理的基本內(nèi)容。 盡可能賦
17、予屬性名和屬性值明確的含義; 統(tǒng)一多數(shù)據(jù)源的屬性值編碼; 去除無用的惟一屬性或鍵值(如自動增長的id); 去除重復(fù)屬性(在某些分析中,年齡和出生日期可能就是重復(fù)的屬性,但在某些時候它們可能又是同時需要的) 去除可忽略字段(大部分為空值的屬性一般是沒有什么價值的,如果不去除可能造成錯誤的數(shù)據(jù)挖掘結(jié)果) 合理選擇關(guān)聯(lián)字段(對于多個關(guān)聯(lián)性較強(qiáng)的屬性,重復(fù)無益,只需選擇其中的部分用于數(shù)據(jù)挖掘即可,如價格、數(shù)據(jù)、金額) 去掉數(shù)據(jù)中的噪音、填充空值、丟失值和處理不一致數(shù)據(jù)。10. 簡述處理空缺值的方法。 忽略該記錄; 去掉屬性; 手工填寫空缺值; 使用默認(rèn)值; 使用屬性平均值; 使用同類樣本平均值; 預(yù)測
18、最可能的值。11. 常見的分箱方法有哪些?數(shù)據(jù)平滑處理的方法有哪些?分箱的方法主要有: 統(tǒng)一權(quán)重法(又稱等深分箱法) 統(tǒng)一區(qū)間法(又稱等寬分箱法) 最小熵法 自定義區(qū)間法數(shù)據(jù)平滑的方法主要有:平均值法、邊界值法和中值法。12. 何謂數(shù)據(jù)規(guī)范化?規(guī)范化的方法有哪些?寫出對應(yīng)的變換公式。將數(shù)據(jù)按比例縮放(如更換大單位),使之落入一個特定的區(qū)域(如0.01.0),稱為規(guī)范化。規(guī)范化的常用方法有:(1) 最大最小規(guī)范化:(2) 零均值規(guī)范化:(3) 小數(shù)定標(biāo)規(guī)范化:xx0/1013. 數(shù)據(jù)歸約的方法有哪些?為什么要進(jìn)行維歸約? 數(shù)據(jù)立方體聚集 維歸約 數(shù)據(jù)壓縮 數(shù)值壓縮 離散化和概念分層維歸約可以去掉
19、不重要的屬性,減少數(shù)據(jù)立方體的維數(shù),從而減少數(shù)據(jù)挖掘處理的數(shù)據(jù)量,提高挖掘效率。14. 何謂聚類?它與分類有什么異同?聚類是將物理或抽象對象的集合分組成為多個類或簇(cluster)的過程,使得在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象差別較大。聚類與分類不同,聚類要劃分的類是未知的,分類則可按已知規(guī)則進(jìn)行;聚類是一種無指導(dǎo)學(xué)習(xí),它不依賴預(yù)先定義的類和帶類標(biāo)號的訓(xùn)練實(shí)例,屬于觀察式學(xué)習(xí),分類則屬于有指導(dǎo)的學(xué)習(xí),是示例式學(xué)習(xí)。15. 舉例說明聚類分析的典型應(yīng)用。商業(yè):幫助市場分析人員從客戶基本庫中發(fā)現(xiàn)不同的客戶群,并且用不同的購買模式描述不同客戶群的特征。生物學(xué):推導(dǎo)植物或動物的分
20、類,對基于進(jìn)行分類,獲得對種群中固有結(jié)構(gòu)的認(rèn)識。WEB文檔分類其他:如地球觀測數(shù)據(jù)庫中相似地區(qū)的確定;各類保險投保人的分組;一個城市中不同類型、價值、地理位置房子的分組等。聚類分析還可作為其他數(shù)據(jù)挖掘算法的預(yù)處理:即先進(jìn)行聚類,然后再進(jìn)行分類等其他的數(shù)據(jù)挖掘。聚類分析是一種數(shù)據(jù)簡化技術(shù),它把基于相似數(shù)據(jù)特征的變量或個案組合在一起。16. 聚類分析中常見的數(shù)據(jù)類型有哪些?何謂相異度矩陣?它有什么特點(diǎn)?常見數(shù)據(jù)類型有區(qū)間標(biāo)度變量、比例標(biāo)度型變量、二元變量、標(biāo)稱型、序數(shù)型以及混合類型等。相異度矩陣是用于存儲所有對象兩兩之間相異度的矩陣,為一個nn維的單模矩陣。其特點(diǎn)是d(i,j)=d(j,i),d(
21、i,i)=0,d(j,j)=0。如下所示:17. 分類知識的發(fā)現(xiàn)方法主要有哪些?分類過程通常包括哪兩個步驟?分類規(guī)則的挖掘方法通常有:決策樹法、貝葉斯法、人工神經(jīng)網(wǎng)絡(luò)法、粗糙集法和遺傳算法。分類的過程包括2步:首先在已知訓(xùn)練數(shù)據(jù)集上,根據(jù)屬性特征,為每一種類別找到一個合理的描述或模型,即分類規(guī)則;然后根據(jù)規(guī)則對新數(shù)據(jù)進(jìn)行分類。18. 什么是決策樹?如何用決策樹進(jìn)行分類?決策樹是用樣本的屬性作為結(jié)點(diǎn),用屬性的取值作為分支的樹結(jié)構(gòu)。它是利用信息論原理對大量樣本的屬性進(jìn)行分析和歸納而產(chǎn)生的。決策樹的根結(jié)點(diǎn)是所有樣本中信息量最大的屬性。樹的中間結(jié)點(diǎn)是以該結(jié)點(diǎn)為根的子樹所包含的樣本子集中信息量最大的屬性
22、。決策樹的葉結(jié)點(diǎn)是樣本的類別值。決策樹用于對新樣本的分類,即通過決策樹對新樣本屬性值的測試,從樹的根結(jié)點(diǎn)開始,按照樣本屬性的取值,逐漸沿著決策樹向下,直到樹的葉結(jié)點(diǎn),該葉結(jié)點(diǎn)表示的類別就是新樣本的類別。決策樹方法是數(shù)據(jù)挖掘中非常有效的分類方法。19. 簡述ID3算法的基本思想及其主算法的基本步驟。首先找出最有判別力的因素,然后把數(shù)據(jù)分成多個子集,每個子集又選擇最有判別力的因素進(jìn)一步劃分,一直進(jìn)行到所有子集僅包含同一類型的數(shù)據(jù)為止。最后得到一棵決策樹,可以用它來對新的樣例進(jìn)行分類。主算法包括如下幾步:從訓(xùn)練集中隨機(jī)選擇一個既含正例又含反例的子集(稱為窗口);用“建樹算法”對當(dāng)前窗口形成一棵決策樹
23、;對訓(xùn)練集(窗口除外)中例子用所得決策樹進(jìn)行類別判定,找出錯判的例子;若存在錯判的例子,把它們插入窗口,重復(fù)步驟,否則結(jié)束。20. 簡述ID3算法的基本思想及其建樹算法的基本步驟。首先找出最有判別力的因素,然后把數(shù)據(jù)分成多個子集,每個子集又選擇最有判別力的因素進(jìn)一步劃分,一直進(jìn)行到所有子集僅包含同一類型的數(shù)據(jù)為止。最后得到一棵決策樹,可以用它來對新的樣例進(jìn)行分類。建樹算法的具體步驟如下:對當(dāng)前例子集合,計算各特征的互信息;選擇互信息最大的特征Ak;把在Ak處取值相同的例子歸于同一子集,Ak取幾個值就得幾個子集;對既含正例又含反例的子集,遞歸調(diào)用建樹算法;若子集僅含正例或反例,對應(yīng)分枝標(biāo)上P或N
24、,返回調(diào)用處。21. 設(shè)某事務(wù)項集構(gòu)成如下表,填空完成其中支持度和置信度的計算。事務(wù)ID項集L2支持度%規(guī)則置信度%T1A, DA, B33.3AB50T2D, EA, C33.3CA60T3A, C, EA, D44.4AD66.7T4A, B, D, EB, D33.3BD75T5A, B, CC, D33.3CD60T6A, B, DD, E33.3DE43T7A, C, DT8C, D, ET9B, C, D22. 從信息處理角度看,神經(jīng)元具有哪些基本特征?寫出描述神經(jīng)元狀態(tài)的M-P方程并說明其含義?;咎卣鳎憾噍斎?、單輸出;突觸兼有興奮和抑制兩種性能;可時間加權(quán)和空間加權(quán);可產(chǎn)生脈沖
25、;脈沖可進(jìn)行傳遞;非線性,有閾值。M-P方程:,Wij是神經(jīng)元之間的連接強(qiáng)度,是閾值,f(x)是階梯函數(shù)。23. 遺傳算法與傳統(tǒng)尋優(yōu)算法相比有什么特點(diǎn)? 遺傳算法為群體搜索,有利于尋找到全局最優(yōu)解; 遺傳算法采用高效有方向的隨機(jī)搜索,搜索效率高; 遺傳算法處理的對象是個體而不是參變量,具有廣泛的應(yīng)用領(lǐng)域; 遺傳算法使用適應(yīng)值信息評估個體,不需要導(dǎo)數(shù)或其他輔助信息,運(yùn)算速度快,適應(yīng)性好; 遺傳算法具有隱含并行性,具有更高的運(yùn)行效率。24. 寫出非對稱二元變量相異度計算公式(即jaccard系數(shù)),并計算下表中各對象間的相異度。測試項目對 象test-1test-2test-3test-4test
26、-5test-6OBJ1YNPNNNOBJ2YNPNPNOBJ3NYNYNN25. 簡述K-平均算法的輸入、輸出及聚類過程(流程)。輸入:簇的數(shù)目k和包含n個對象的數(shù)據(jù)集。輸出:k個簇,使平方誤差準(zhǔn)則最小。步驟: 任意選擇k個對象作為初始的簇中心; 計算其它對象與這k個中心的距離,然后把每個對象歸入離它“最近”的簇; 計算各簇中對象的平均值,然后重新選擇簇中心(離平均值“最近”的對象值); 重復(fù)第2第3步直到簇中心不再變化為止。 26. 簡述K-中心點(diǎn)算法的輸入、輸出及聚類過程(流程)。輸入:結(jié)果簇的數(shù)目k,包含n個對象的數(shù)據(jù)集輸出:k個簇,使得所有對象與其最近中心點(diǎn)的相異度總和最小。流程:
27、隨機(jī)選擇k個對象作為初始中心點(diǎn); 計算其它對象與這k個中心的距離,然后把每個對象歸入離它“最近”的簇; 隨機(jī)地選擇一個非中心點(diǎn)對象Orandom,并計算用Orandom代替Oj的總代價S; 如果S0,則用Orandom代替Oj,形成新的k個中心點(diǎn)集合; 重復(fù)迭代第3、4步,直到中心點(diǎn)不變?yōu)橹埂?7. 何謂文本挖掘?它與信息檢索有什么關(guān)系(異同)。文本挖掘是從大量文本數(shù)據(jù)中提取以前未知的、有用的、可理解的、可操作的知識的過程。它與信息檢索之間有以下幾方面的區(qū)別: 方法論不同:信息檢索是目標(biāo)驅(qū)動的,用戶需要明確提出查詢要求;而文本挖掘結(jié)果獨(dú)立于用戶的信息需求,是用戶無法預(yù)知的。 著眼點(diǎn)不同:信息檢
28、索著重于文檔中字、詞和鏈接;而文本挖掘在于理解文本的內(nèi)容和結(jié)構(gòu)。 目的不同:信息檢索的目的在于幫助用戶發(fā)現(xiàn)資源,即從大量的文本中找到滿足其查詢請求的文本子集;而文本挖掘是為了揭示文本中隱含的知識。 評價方法不同:信息檢索用查準(zhǔn)率和查全率來評價其性能。而文本挖掘采用收益、置信度、簡潔性等來衡量所發(fā)現(xiàn)知識的有效性、可用性和可理解性。 使用場合不同:文本挖掘是比信息檢索更高層次的技術(shù),可用于信息檢索技術(shù)不能解決的許多場合。一方面,這兩種技術(shù)各有所長,有各自適用的場合;另一方面,可以利用文本挖掘的研究成果來提高信息檢索的精度和效率,改善檢索結(jié)果的組織,使信息檢索系統(tǒng)發(fā)展到一個新的水平。一、名詞解釋(每
29、題4分,共20分) 1、數(shù)據(jù)倉庫數(shù)據(jù)倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrate)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策。2、數(shù)據(jù)挖掘數(shù)據(jù)挖掘(Data Mining),又稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database, KDD),就是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程,簡單的說,數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或“挖掘”知識。3、雪花模型雪花模式中某些維表是規(guī)范化的,因而把數(shù)據(jù)進(jìn)一步分解到附加的表中,模式圖形成了類似雪花的形狀。通過最大限度地減少數(shù)據(jù)存儲量以及聯(lián)合較小的維表來改善查詢性能。雪花模型增加了用戶必須處理的表數(shù)量,增加了某些查詢的復(fù)雜性,但同時提高了處理的靈活性,可以回答更多的商業(yè)問題,特別適合系統(tǒng)的逐步建設(shè)要求。4、OLAP OLAP是聯(lián)機(jī)分析處理,是使分析人員、管理人員或執(zhí)行人員能夠從多角度對信息 姓名:學(xué)號:班級機(jī)器學(xué)習(xí)Machine LearningIntroduction t.linear model (.第2 頁共4 頁2005級數(shù)據(jù)倉庫與數(shù)據(jù)挖掘卷進(jìn)行快速、一致、交互地存取,從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術(shù)。它支持復(fù)雜的分析操作
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 山西省渾源縣第五中學(xué)校2025年化學(xué)高一下期末達(dá)標(biāo)檢測模擬試題含解析
- 公務(wù)往返簽證管理辦法
- 北京收容管理辦法修訂
- 創(chuàng)新重點(diǎn)稅源管理辦法
- 公益訴訟損害管理辦法
- 回收芯片高頻管理辦法
- 團(tuán)隊目標(biāo)考核管理辦法
- 醫(yī)療廢物出境管理辦法
- 作業(yè)工具管理辦法臺賬
- 林業(yè)園林建設(shè)管理辦法
- 2024年露營帳篷項目可行性研究報告
- 《公務(wù)員錄用體檢操作手冊(試行)》
- 2024粵東西粵北地區(qū)教師全員輪訓(xùn)培訓(xùn)心得總結(jié)
- 2024-2025學(xué)年華東師大版數(shù)學(xué)七年級上冊計算題專項訓(xùn)練
- 福建省機(jī)關(guān)工作人員年度考核登記表
- JBT 7808-2010 無損檢測儀器 工業(yè)X射線探傷機(jī)主參數(shù)系列
- DB44-T 2474-2024 自然教育標(biāo)識設(shè)置指引
- 研學(xué)基地合作協(xié)議
- 駕駛員行為規(guī)范管理制度
- (高清版)JTG D81-2017 公路交通安全設(shè)施設(shè)計規(guī)范
- 《鍋爐水介質(zhì)檢驗導(dǎo)則標(biāo)準(zhǔn)-征求意見稿》
評論
0/150
提交評論