




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
一、填空題
1.Web挖掘可分卷、和3大類。
2.數(shù)據(jù)倉庫需要統(tǒng)壹數(shù)據(jù)源,包括統(tǒng)壹―、統(tǒng)壹—、統(tǒng)壹—和統(tǒng)壹數(shù)據(jù)特性
410方面。
3.數(shù)據(jù)分割壹般準(zhǔn)畤間、—、—、—以及組合措施迤行。
4.噪聲數(shù)據(jù)處理的措施重要有—、—和—。
5.數(shù)值歸約的常用措施有一、—、—、—和卦數(shù)模型等。
6.評(píng)價(jià)關(guān)聯(lián)規(guī)則的2(0重要指檄是—和—。
7.多維數(shù)據(jù)集壹股采用或省花型架構(gòu),以表卷中心,連接多種表。
8.決策樹是用—作懸結(jié)黠,用—作卷分支的樹構(gòu)造。
9.關(guān)聯(lián)可分卷簡樸關(guān)聯(lián)、—和—o
10.BP神^網(wǎng)絡(luò)的作用函數(shù)壹般卷—區(qū)間的—o
11.數(shù)據(jù)挖掘的謾程重要包括確定業(yè)務(wù)封象、—、—、—及知識(shí)同化等幾種環(huán)
節(jié)。
12.數(shù)據(jù)挖掘技術(shù)重要波及—、—和—3彳固技術(shù)領(lǐng)域。
13.數(shù)據(jù)挖掘的重要功能包括—、—、—、—、趨勢分析、孤立黠分析和偏
差分析7值1方面。
14.人工神^網(wǎng)絡(luò)具有—和—等特黠,其構(gòu)造模型包括—、—和自組織網(wǎng)絡(luò)
3種。
15.數(shù)據(jù)倉庫數(shù)據(jù)的4他基本特性是—、—、非易失、隨日寺間變化。
16.數(shù)據(jù)倉庫的數(shù)據(jù)宜般劃分卷—、—、—和—等幾種級(jí)別。
17.數(shù)據(jù)預(yù)處理的重要內(nèi)容(措施)包括—、—、—和數(shù)據(jù)歸約等。
18.平滑分箱數(shù)據(jù)的措施重要有—、—和—。
19.數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類型重要有廣義知識(shí)、—、—、—和偏差型知識(shí)五種。
20.0LAP的數(shù)據(jù)組織方式重要有—和—兩種。
21.常見的0LAP多維數(shù)據(jù)分析包括—、—、—和旋轉(zhuǎn)等操作。
22.老式的決策支持系統(tǒng)是以—和—驅(qū)勃,而新決策支持系統(tǒng)則是以—、建
立在和技術(shù)之上。
23.0LAP的數(shù)據(jù)組織方式重要有—和—2種。
24.SQLServer的OLAP組件叫,OLAP操作窗口叫。
25.BP神^網(wǎng)絡(luò)由—、—以及壹或多種—結(jié)粘構(gòu)成。
26.遺傳算法包括、、R佰1基本算子。
27.聚類分析的數(shù)據(jù)壹般可分卷區(qū)間襟度變量、—、—、—、序數(shù)型以及混合
類型等。
28.聚類分析中最常用的距離計(jì)算公式有—、—、—等。
29.基于劃分的聚類算法有—和—。
3O.Clementine的工作流壹般由—、—和一等節(jié)黠連接而成。
31.簡樸地三心數(shù)據(jù)挖掘就是優(yōu)—中挖掘—的遇程。
32.數(shù)據(jù)挖掘有關(guān)的名稱尚有、、等。
、判斷題
)1.數(shù)據(jù)倉庫的數(shù)據(jù)量越大,其應(yīng)用價(jià)值也越大。
)2.啤酒與尿布的故事是聚類分析的^典實(shí)例。
)3.等深分箱法使每他箱子的記錄他數(shù)相似。
)4.數(shù)據(jù)倉庫“粒度”越細(xì),記錄數(shù)越少。
)5.數(shù)據(jù)立方體由3維構(gòu)成,Z軸表達(dá)事實(shí)數(shù)據(jù)。
)6.決策樹措施壹般用于關(guān)聯(lián)規(guī)則挖掘。
)7.1D3算法是決策樹措施的初期代表。
)8.C4.5是壹種^典的關(guān)聯(lián)規(guī)則挖掘算法。
)9.回歸分析宣般用于挖掘關(guān)聯(lián)規(guī)則。
)10.人工神畿網(wǎng)絡(luò)尤其適合處理多參數(shù)大復(fù)雜度冏題。
)11.概念關(guān)系分析是文本挖掘所獨(dú)有的。
)12.可信度是封關(guān)聯(lián)規(guī)則的精確度的衡量。
)13.孤立黠在數(shù)據(jù)挖掘^^是被視卷異常、維用數(shù)據(jù)而丟棄。
)14.SQLServer不提供關(guān)聯(lián)規(guī)則挖掘算法。
)15.Clementine是IBM企業(yè)的專業(yè)級(jí)數(shù)據(jù)挖掘軟件。
)16.決策樹措施尤其適合于處理數(shù)值型數(shù)據(jù)。
)17.數(shù)據(jù)倉庫的數(shù)據(jù)卷歷史數(shù)據(jù),歷來不需要更新。
)18.等寬分箱法使每他箱子的取值區(qū)間相似。
)19.數(shù)據(jù)立方體是廣義知識(shí)發(fā)現(xiàn)的措施和技術(shù)之壹。
)20.數(shù)據(jù)立方體的其中壹維用于記錄事實(shí)數(shù)據(jù)。
)21.決策樹壹般用于分類與預(yù)測。
)22.Apriori算法是壹種^典的關(guān)聯(lián)規(guī)則挖掘算法。
)23.支持度是衡量關(guān)聯(lián)規(guī)則重要性的壹種指襟。
)24.SQLServer集成了OLAP,但不具有數(shù)據(jù)挖掘功能。
)25.人工神^網(wǎng)絡(luò)常用于分類與預(yù)測。
,、名同解釋
1.數(shù)據(jù)倉庫:是壹種新的數(shù)據(jù)處理體系構(gòu)造,是面向主題的、集成的、不可更新
的(穩(wěn)定性)、隨畤間不停變化(不壹樣步間)的數(shù)據(jù)集合,卷企業(yè)決策支持系統(tǒng)
提供所需的集成信息。
2.孤立黠:指數(shù)據(jù)庫中包括的某些與數(shù)據(jù)的壹般行卷或模型不壹致的異常數(shù)據(jù)。
3.OLAP:OLAP是在OLTP的基礎(chǔ)上發(fā)展起來的,以數(shù)據(jù)倉庫卷基礎(chǔ)的數(shù)據(jù)分析處
理,是共享多維信息的迅速分析,是被專門設(shè)計(jì)用于支持復(fù)雜的分析操作,側(cè)
重封分析人員和高層管理人員的決策支持。
4.粒度:指數(shù)據(jù)倉庫的數(shù)據(jù)軍位中保留數(shù)據(jù)細(xì)化或淙合程度的級(jí)別。粒度影響寄
存在數(shù)據(jù)倉庫中的數(shù)據(jù)量的大小,同步影響數(shù)據(jù)倉庫所能回答查冏詢題的細(xì)節(jié)
程度。
5.數(shù)據(jù)規(guī)范化:指將教據(jù)按比例縮放(如更換大軍位),使之落入壹種特定的區(qū)域
(如0—1)以提高數(shù)據(jù)挖掘效率的措施。規(guī)范化的常用措施有:最大一最小規(guī)
范化、零一均值規(guī)范化、小數(shù)定襟規(guī)范化。
6.關(guān)聯(lián)知識(shí):是反應(yīng)壹種事件和其他事件之間依賴或互相關(guān)聯(lián)的知識(shí)。假如兩項(xiàng)
或多項(xiàng)屬性之間存在關(guān)聯(lián),那么其中壹項(xiàng)的屬性值就可以根據(jù)其他屬性值迤行
預(yù)測。
7.數(shù)據(jù)挖掘:優(yōu)大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取除
含在其中的、人儼J事先不懂得的、但又是潛在有用的信息和知識(shí)的遇程。
8.OLTP:OLTP卷聯(lián)機(jī)事務(wù)處理的縮寫,OLAP是聯(lián)機(jī)分析處理的縮寫。前者是以數(shù)
據(jù)庫卷基礎(chǔ)的,面封的是操作人員和低層管理人員,封基本數(shù)據(jù)暹行查詢和增、
刪、改等處理。
9.ROLAP:是基于關(guān)系數(shù)據(jù)庫存儲(chǔ)方式的,在造種構(gòu)造中,多維數(shù)據(jù)被映像成二維
關(guān)系表,堂般采用星型或雪花型架構(gòu),由直種事實(shí)表和多種維度表構(gòu)成。
10.MOLAP:是基于類似于“超立方”塊的OLAP存儲(chǔ)構(gòu)造,由言午多^壓縮的、類似
于多維數(shù)組的封象構(gòu)成,并帶有高度壓縮的索引及指針構(gòu)造,通遇直接偏移「
算暹行存取。
II.數(shù)據(jù)歸約:縮小數(shù)據(jù)的取值范圍,使其更適合于數(shù)據(jù)挖掘算法的需要,并且可
以得到和原始數(shù)據(jù)相似的分析成果。
12.廣義知識(shí):通謾封大量數(shù)據(jù)的歸納、概括和抽象,提煉出帶有普遍性的、概括
性的描述記錄的知識(shí)。
13.預(yù)測型知識(shí):是根據(jù)畤間序列型數(shù)據(jù),由歷史的和目前的數(shù)據(jù)去推測未來的數(shù)
據(jù),也可以認(rèn)卷是以畤間卷關(guān)鍵屬性的關(guān)聯(lián)知識(shí)。
14.偏差型知識(shí):是卦差異和極端特例的描述,用于揭示事物偏離常規(guī)的異常現(xiàn)象,
如原則類外的特例,數(shù)據(jù)聚類外的離群值等。
15.遺傳算法:是壹種優(yōu)化搜索算法,它首先產(chǎn)生壹種初始可行解群體,然彳及封道
倜群體通遇模擬生物謹(jǐn)化的選擇、交叉、變異等遺傳操作遺傳到下壹代群體,
并最終到達(dá)全局最優(yōu)。
16.聚類:是將物理或抽象封象的集合分構(gòu)成^多種類或簇Glust")的謾程,使得
在同壹種簇中的封象之間具有較高的相似度,而不壹樣簇中的卦象差異較大。
17.決策樹:是用樣本的屬性作卷結(jié)黠,用屬性的取值作卷分支的樹構(gòu)造。它是分
類規(guī)則挖掘的典措施,可用于封新樣本暹行分類。
18.相異度矩陣:是聚類分析中用于表達(dá)各卦象之間相異度的壹種矩陣,n他I封象
的相異度矩陣是壹種rm維的軍模矩陣,其封角線元素均卷0,封角線兩側(cè)元素
的值相似。
19.頻繁項(xiàng)集:指滿足最小支持度的項(xiàng)集,是挖掘關(guān)我規(guī)則的基本條件之壹。
20.支持度:規(guī)則A-B的支持度指的是所有事件中A與B同地發(fā)生的的概率,即
P(AUB),是AB同步發(fā)生的次數(shù)與事件^次數(shù)之比。支持度是封關(guān)聯(lián)規(guī)則重要
性的衡量。
21.可信度:規(guī)則A-B的可信度指的是包括A項(xiàng)集的同步也包括B項(xiàng)集的條件概率
P(BA),是AB同步發(fā)生的次數(shù)與A發(fā)生的所有次數(shù)之比??尚哦仁欠怅P(guān)聯(lián)規(guī)則
的精確度的衡量。
22.關(guān)聯(lián)規(guī)則:同步滿足最小支持度閾值和最小可信度閾值的規(guī)則稱之卷關(guān)聯(lián)規(guī)則。
四、綜合題
1.何謂數(shù)據(jù)挖掘?它有哪些方面的功能?
優(yōu)大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中
的、人儼1事先不懂得的、但又是潛在有用的信息和知識(shí)的謾程稱懸數(shù)據(jù)挖掘。有
關(guān)的名稱有知識(shí)發(fā)JS、數(shù)據(jù)分析、數(shù)據(jù)融合、決策支持等。
數(shù)據(jù)挖掘的功能包括:概念描述、關(guān)聯(lián)分析、分類與預(yù)測、聚類分析、趨勢
分析、孤立黠分析以及偏差分析等。
2.何謂數(shù)據(jù)倉庫?卷何要建立數(shù)據(jù)倉庫?
數(shù)據(jù)倉庫是壹種新的數(shù)據(jù)處理體系構(gòu)造,是面向主題的、集成的、不可更新
的(穩(wěn)定性)、隨日寺間不停變化(不壹樣步間)的數(shù)據(jù)集合,卷企業(yè)決策支持系統(tǒng)提
供所需的集成信息。
建立數(shù)據(jù)倉庫的目的有3倜:
壹是卷了處理企業(yè)決策分析中的系統(tǒng)響應(yīng)冏題,數(shù)據(jù)倉庫能提供比老式事務(wù)
數(shù)據(jù)庫更快的大規(guī)模決策分析的響應(yīng)速度。
二是處理決策分析封數(shù)據(jù)的特殊需求冏題。決策分析需要全面的、封的的集
成數(shù)據(jù),道是老式事務(wù)數(shù)據(jù)庫不能直接提供的。
三是處理決策分析封數(shù)據(jù)的特殊操作規(guī)定。決策分析是面向?qū)?也顧客而非壹
般業(yè)務(wù)員,需要使用專業(yè)的分析工具,封分析成果遢要以商業(yè)智能的方式暹行體
現(xiàn),道是事務(wù)數(shù)據(jù)庫不能提供的。
3.列舉操作型數(shù)據(jù)與分析型數(shù)據(jù)的重要區(qū)別。
操作型數(shù)據(jù)分析型數(shù)據(jù)
目前的、細(xì)節(jié)的歷史的、綜合的
面向應(yīng)用、事務(wù)驅(qū)勒面向分析、分析驅(qū)勃
頻繁增、冊||、改幾乎不更新,定期追加
操作需求事先懂得分析需求事先不懂得
生命周期符合SDLC完全不壹樣的生命周期
封性能規(guī)定高封性能規(guī)定寬松
壹次操作數(shù)據(jù)量小壹次操作數(shù)據(jù)量大
支持平常事務(wù)操作支持管理決策需求
4.何謂OLTP和OLAP?它優(yōu)的重要異同有哪些?
OLTP即聯(lián)機(jī)事務(wù)處理,是以老式數(shù)據(jù)庫卷基礎(chǔ)、面向操作人員和低層管理
人員、封基本數(shù)據(jù)迤行查詢和增、刪、改等的平常事務(wù)處理。OLAP即聯(lián)機(jī)分析
處理,是在OLTP基礎(chǔ)上發(fā)展起來的、以數(shù)據(jù)倉庫基礎(chǔ)上的、面向高層管理人員
和專業(yè)分析人員、卷企業(yè)決策支持服務(wù)。
OLTP和OI.AP的重要區(qū)別如下表:
OLTPOLAP
數(shù)據(jù)庫數(shù)據(jù)數(shù)據(jù)庫或數(shù)據(jù)倉庫數(shù)據(jù)
細(xì)節(jié)性數(shù)據(jù)綜合性數(shù)據(jù)
目前數(shù)據(jù)歷史數(shù)據(jù)
常常更新不更新,但周期性刷新
壹次性處理的數(shù)據(jù)量小壹次處理的數(shù)據(jù)量大
封響應(yīng)畤間規(guī)定高響應(yīng)畤間合理
顧客數(shù)量大顧客數(shù)據(jù)相封較少
面向操作人員,支持平常操作面向決策人員,支持管理需要
面向應(yīng)用,事務(wù)驅(qū)助面向分析,分析驅(qū)勃
5.何謂粒度?它封數(shù)據(jù)倉庫有什么影響?按粒度組織數(shù)據(jù)的方式有哪些?
粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)罩位中保留數(shù)據(jù)細(xì)化或綜合程度的級(jí)別。粒度影響
寄存在數(shù)據(jù)倉庫中的數(shù)據(jù)量的大小,同步影響數(shù)據(jù)倉庫所能回答查周詢題的細(xì)節(jié)
程度。按粒度組織數(shù)據(jù)的方式重要有:
①簡樸堆積構(gòu)造
②輪轉(zhuǎn)綜合構(gòu)造
③簡樸直接構(gòu)造
④持續(xù)構(gòu)造
6.簡述數(shù)據(jù)倉庫設(shè)計(jì)的三級(jí)模型及其基本內(nèi)容。
概念模型設(shè)計(jì)是在較高的抽象層次上的設(shè)計(jì),其重要內(nèi)容包括:界定系統(tǒng)邊
界和確定重要的主題域。
邏輯模型設(shè)計(jì)的重要內(nèi)容包括:分析主題域、確定粒度層次劃分、確定數(shù)據(jù)
分割方略、定義關(guān)系模式、定義記錄系統(tǒng)。
物理數(shù)據(jù)模型設(shè)計(jì)的重要內(nèi)容包括:確定數(shù)據(jù)存儲(chǔ)構(gòu)造、確定數(shù)據(jù)寄存位置、
確定存儲(chǔ)分派以及確定索引方略等。在物理數(shù)據(jù)模型設(shè)計(jì)畤重要考慮的原因有:
I/O存取畤間、空間運(yùn)用率和維護(hù)代價(jià)等。
提高性能的重要措施有劃分粒度、數(shù)據(jù)分割、合并表、建立數(shù)據(jù)序列、引入
冗余、生成導(dǎo)出數(shù)據(jù)、建立廣義索引等。
7.在數(shù)據(jù)挖掘之前卷何要封原始數(shù)據(jù)暹行預(yù)處理?
原始業(yè)務(wù)數(shù)據(jù)來自多種數(shù)據(jù)庫或數(shù)據(jù)倉庫,它儼]的構(gòu)造和規(guī)則也^是不壹樣
的,道將導(dǎo)致原始數(shù)據(jù)非常的雜亂、不可用,雖然在同壹種數(shù)據(jù)庫中,也也^存
在反復(fù)的和不完整的數(shù)據(jù)信息,卷了使道些數(shù)據(jù)可以符合數(shù)據(jù)挖掘的規(guī)定,提高
效率和得到清晰的成果,必須暹行數(shù)據(jù)的預(yù)處理。
卷數(shù)據(jù)挖掘算法提供完整、潔凈、精確、有針封性的數(shù)據(jù),減少算法的計(jì)算
量,提高挖掘效率和精確程度。
8.簡述數(shù)據(jù)預(yù)處理措施和內(nèi)容。
①數(shù)據(jù)清洗:包括填充空缺值,識(shí)別孤立鉆,去掉噪聲和輾關(guān)數(shù)據(jù)。
②數(shù)據(jù)集成:將多種數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來寄存在壹種壹致的數(shù)據(jù)存儲(chǔ)中。
需要注意不登樣數(shù)據(jù)源的數(shù)據(jù)匹配冏題、數(shù)值沖突冏題和冗余冏題等。
③數(shù)據(jù)變換:將原始數(shù)據(jù)轉(zhuǎn)換成卷適合數(shù)據(jù)挖掘的形式。包括封數(shù)據(jù)的匯幺恩、
匯集、概化、規(guī)范化,遢也考午需要迤行屬性的重構(gòu)。
④數(shù)據(jù)歸約:縮小數(shù)據(jù)的取值范圍,使其更適合于數(shù)據(jù)挖掘算法的需要,并且
可以得到和原始數(shù)據(jù)相似的分析成果。
9.簡述數(shù)據(jù)清理的基本內(nèi)容。
①盡量賦予屬性名和屬性值明確的含義;
②統(tǒng)壹多數(shù)據(jù)源的屬性值編碼;
③清除輾用的惟壹屬性或鍵值(如自勤增房的id);
④清除反復(fù)屬性(在某些分析中,年齡和出生曰期也言午就是反復(fù)的屬性,但在某
些日寺候它什,也言午又是同步需要的)
⑤消除可忽視字段(大部分^空值的屬性壹般是沒有什么價(jià)值的,假如不清除也
者午導(dǎo)致金音誤的數(shù)據(jù)挖掘成果)
?合理選擇關(guān)聯(lián)字段(封于多種關(guān)聯(lián)性較強(qiáng)的屬性,反復(fù)輾益,只需選擇其中的
部分用于數(shù)據(jù)挖掘即可,如價(jià)格、數(shù)據(jù)、金額)
⑦去掉數(shù)據(jù)中的噪音、填充空值、丟失值和處理不壹致數(shù)據(jù)。
10.簡述處理空缺值的措施。
①忽視該記錄;
②去掉屬性;
③手工填寫空缺值;
④使用默認(rèn)值;
⑤使用屬性平均值;
⑥使用同類樣本平均值:
⑦預(yù)測最也^的值。
II.常見的分箱措施有哪些?數(shù)據(jù)平滑處理的措施有哪些?
分箱的措施重要有:
①統(tǒng)壹權(quán)重法(又稱等深分箱法)
②統(tǒng)壹區(qū)間法(又稱等寬分箱法)
③最小焙法
④自定義區(qū)間法
數(shù)據(jù)平滑的措施重要有:平均值法、邊界值法和中值法。
12.何謂數(shù)據(jù)規(guī)范化?規(guī)范化的措施有哪些?寫出封應(yīng)的變換公式。
將數(shù)據(jù)按比例縮放(如更換大軍位),使之落入壹種特定的區(qū)域(如0.0?
1.0),稱卷規(guī)范化。規(guī)范化的常用措施有:
(1)最大一最小規(guī)范化:max-min,..
x=------------------(x—mui)+min
n0n
(maxf,-niin?)°
(2)零均值規(guī)范化:X-A
x=o------
W
(3)小數(shù)定襟規(guī)范化:^=V10"
13.數(shù)據(jù)歸約的措施有哪些?卷何要暹行維歸約?
①數(shù)據(jù)立方體匯集
②維歸約
③數(shù)據(jù)壓縮
④數(shù)值壓縮
⑤離散化和概念分層
維歸約可以去掉不重要的屬性,減少數(shù)據(jù)立方體的維數(shù),優(yōu)而減少數(shù)據(jù)挖掘
處理的數(shù)據(jù)量,提高挖掘效率。
14.何謂聚類?它與分類有什么異同?
聚類是將物理或抽象封象的集合分構(gòu)成卷多種類或簇(cluster)的謾程,便
得在同壹種簇中的封象之間具有較高的相似度,而不壹樣簇中的封象差異較大。
聚類與分類不壹樣,聚類要?jiǎng)澐值念愂俏粗?,分類則可按已知規(guī)則誕行;
聚類是壹種輾指導(dǎo)摯習(xí),它不依賴預(yù)先定義的類和帶類襟號(hào)的訓(xùn)練實(shí)例,屬于
觀測式摯習(xí),分類則屬于有指導(dǎo)的學(xué)習(xí),是示例式摯習(xí)。
15.舉例闡明聚類分析的^典應(yīng)用。
①商、亞:協(xié)助市埸分析人員優(yōu)客戶基本庫中發(fā)現(xiàn)不壹樣的客戶群,并且用不壹
樣的購置模式描述不壹樣客戶群的特性。
②生物孥:推導(dǎo)植物或勤物的分類,封基于迤行分類,獲得封種群中固有構(gòu)造
的認(rèn)識(shí)。
③跖?文檔分類
④其他:如地球觀測數(shù)據(jù)庫中相似地區(qū)確實(shí)定:各類保險(xiǎn)投保人的分組:壹種
都市中不壹樣類型、價(jià)值、地理位置房子的分組等。
⑤聚類分析遢可作卷其他數(shù)據(jù)挖掘算法的預(yù)處理:即先暹行聚類,然彳爰再逛行
分類等其他的數(shù)據(jù)挖掘。聚類分析是壹種數(shù)據(jù)簡化技術(shù),它把基于相似數(shù)據(jù)
特性的變量或他1案組合在壹起。
16.聚類分析中常見的數(shù)據(jù)類型有哪些?何謂相異度矩陣?它有什么特鉆?
常見數(shù)據(jù)類型有區(qū)間襟度變量、比例襟度型變量、二元變量、檄稱型、序教
型以及混合類型等。相異度矩陣是用于存儲(chǔ)所有封象兩兩之間相異度的矩陣,
壹種nn維的軍模矩陣。其特黠是d(i,j)=d(j,i),d(i,i)=0,d(j,j)=0o如下
所示:
-0'
(1(2,1)0
d(3,l)d(3,2)0
????
■?????
d(n,l)d(n,2)..........0
17.分類知識(shí)的發(fā)現(xiàn)措施重要有哪些?分類謾程壹般包括哪兩fel環(huán)節(jié)?
分類規(guī)則的挖掘措施壹般有:決策樹法、貝葉斯法、人工神^網(wǎng)絡(luò)法、粗
糙集法和遺傳算法。分類的謾程包括2步:首先在已知訓(xùn)練數(shù)據(jù)集上,根據(jù)屬
性特性,卷每壹種類別找到壹種合理的描述或模型,即分類規(guī)則:然彳為根據(jù)規(guī)
則封新數(shù)據(jù)暹行分類。
18.什么是決策樹?怎樣用決策樹迤行分類?
決策樹是用樣本的屬性作卷結(jié)粘;用屬性的取值作卷分支的樹構(gòu)造。它是
運(yùn)用信息論原理封大量樣本的屬性暹行分析和歸納而產(chǎn)生的。決策樹的根幺吉鉆
是所有樣本中信息量最大的屬性。樹的中間結(jié)黠是以該幺吉黠卷根的子樹所包括
的樣本子集中信息量最大的屬性。決策樹的葉東吉貼是樣本的類別值。
決策樹用于封新樣本的分類,即通遇決策樹封新樣本屬性值的測試,優(yōu)樹
的根結(jié)始,按照樣本屬性的取值,逐漸沿著決策樹向下,直到樹的葉結(jié)黠,
該葉結(jié),粘表達(dá)的類別就是新樣本的類別。決策樹措施是數(shù)據(jù)挖掘中非常有效的
分類措施.
19.簡述ID3算法的基本思想及其主算法的基本環(huán)節(jié)。
首先找出最有鑒別力的原因,然彳爰把數(shù)據(jù)提成多種子集,每他子集又選擇
最有鑒別力的原因深入劃分,壹直暹行到所有子集僅包括同壹類型的數(shù)據(jù)卷止。
最終得到壹棵決策樹,可以用它來封新的樣例迤行分類。
主算法包括如下幾步:
①優(yōu)訓(xùn)練集中隨機(jī)選擇壹種既含正例又含反例的子集(稱卷窗口);
②用“建樹算法”封目前窗口形成宜棵決策樹;
③封訓(xùn)練集(窗口除外)中例子用所得決策樹迤行類別鑒定,找出貧昔判的例
子;
④若存在金昔判的例子,把它件號(hào)插入窗口,反復(fù)環(huán)節(jié)②,否則結(jié)束。
20.簡述ID3算法的基本思想及其建樹算法的基本環(huán)節(jié)。
首先找出最有鑒別力的原因,然彼把數(shù)據(jù)提成多種子集,每倜子集又選擇
最有鑒別力的原因淡入劃分,壹直暹行到所有子集僅包括同壹類型的數(shù)據(jù)懸止。
最終得到壹棵決策樹,可以用它來封新的樣例暹行分類。
建樹算法的詳細(xì)環(huán)節(jié)如下:
①封目前例子集合,計(jì)算各特性的互信息;
②選擇互信息最大的特性A』
③把在Ak處取值相似的例子歸于同壹子集,Ak取幾種值就得兒種子集;
④封既含正例又含反例的子集,遞歸調(diào)用建樹算法;
⑤若子集僅含五例或反例,封應(yīng)分枝楝上P或N,返回調(diào)用處。
21.設(shè)某事務(wù)項(xiàng)集構(gòu)成如下表,填空完畢其中支持度和置信度的計(jì)算。
事務(wù)ID項(xiàng)集L2支持度為規(guī)則置信度先
T1A,CA,B33.3A-*B50
T2D,EA,C33.3C~A60
T3A,C,EA,D44.4A-D66.7
T4A,B,C,EB,D33.3B-D75
T5A,B,CC,D33.3C-D60
T6A,B,I)D,E33.3D-E43
T7A,C,1)??????
T8C,D,E
T9B,C,D
22.彳史信息處理角度看,神^元具有哪些基本特性?寫出描述神^元狀態(tài)的M-P方
程并闡明其含義。
基本特性:①多輸入、罩輸出;②突觸兼有興奮和克制兩種性能;③可畤間加
權(quán)和空間加權(quán);④可產(chǎn)生脈沖;⑤脈沖可迤行傳遞;⑥非線性,有
閾值。
M-P方程:3萬/(2叱戶廠4),心是神^元之間的連接強(qiáng)度,斗是閾值,
j
f(x)是階梯函數(shù)。
23.遺傳算法與老式尋優(yōu)算法相比有什么特黠?
①遺傳算法卷群體搜索,有助于尋找到全局最優(yōu)解;
②遺傳算法采用高效有方向的隨機(jī)搜索,搜索效率高;
③遺傳算法處理的封象是他體而不是參變量,具有廣泛的應(yīng)用領(lǐng)域;
④遺傳算法使用適應(yīng)值信息評(píng)估f0體,不需要導(dǎo)數(shù)或其他輔助信息-運(yùn)算速
度快,適應(yīng)性好;
⑤遺傳算法具有隱含并行性,具有更高的運(yùn)行效率。
24.寫出非封稱二元變量相異度計(jì)算公式(即jaccard系數(shù)),并計(jì)算下表中各封象
間的相異度。
項(xiàng)目
test-1test-2test-3test-4test-5test-6
OBJ1YNPNNN
OBJ2YNPNPN
OBJ3NYNYNN
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 衛(wèi)生間衛(wèi)浴知識(shí)培訓(xùn)課件
- 企業(yè)預(yù)算知識(shí)培訓(xùn)課件
- 公司印章辦法企業(yè)公章管理制度
- 測繪合同范本
- 分包外協(xié)管理辦法
- 企業(yè)項(xiàng)目申報(bào)管理制度
- 日常安全檢查制度
- 高風(fēng)險(xiǎn)作業(yè)安全管理制度修訂部分紅色標(biāo)出
- 如何做研發(fā)項(xiàng)目獎(jiǎng)勵(lì)制度
- 洗車店獎(jiǎng)勵(lì)制度
- GB/T 45251-2025互聯(lián)網(wǎng)金融個(gè)人網(wǎng)絡(luò)消費(fèi)信貸貸后催收風(fēng)控指引
- 關(guān)于除顫儀的試題及答案
- 旅行社與旅行社經(jīng)理2025年度經(jīng)營管理聘用合同
- 6.4 生活中的圓周運(yùn)動(dòng) 課件 高中物理 人教版必修第二冊
- 遼寧省名校聯(lián)盟2024-2025學(xué)年高二下學(xué)期3月聯(lián)考物理試題(含答案)
- 跨學(xué)科主題學(xué)習(xí) 認(rèn)識(shí)東南亞的世界遺產(chǎn)課件 2024-2025學(xué)年七年級(jí)地理下冊(人教版2024)
- 山洪災(zāi)害防御知識(shí)培訓(xùn)課件
- 個(gè)案管理系統(tǒng)需求說明
- 《睡眠的重要性》課件
- 《證券證券投資學(xué)》課件
- 2024年高中歷史 第2課 中華文化的世界意義說課稿 部編版選擇性必修3
評(píng)論
0/150
提交評(píng)論