![模式識別基礎(chǔ)復(fù)習(xí)資料Word版_第1頁](http://file4.renrendoc.com/view/13b40078e4e8feabf6ccc645de7ebd68/13b40078e4e8feabf6ccc645de7ebd681.gif)
![模式識別基礎(chǔ)復(fù)習(xí)資料Word版_第2頁](http://file4.renrendoc.com/view/13b40078e4e8feabf6ccc645de7ebd68/13b40078e4e8feabf6ccc645de7ebd682.gif)
![模式識別基礎(chǔ)復(fù)習(xí)資料Word版_第3頁](http://file4.renrendoc.com/view/13b40078e4e8feabf6ccc645de7ebd68/13b40078e4e8feabf6ccc645de7ebd683.gif)
![模式識別基礎(chǔ)復(fù)習(xí)資料Word版_第4頁](http://file4.renrendoc.com/view/13b40078e4e8feabf6ccc645de7ebd68/13b40078e4e8feabf6ccc645de7ebd684.gif)
![模式識別基礎(chǔ)復(fù)習(xí)資料Word版_第5頁](http://file4.renrendoc.com/view/13b40078e4e8feabf6ccc645de7ebd68/13b40078e4e8feabf6ccc645de7ebd685.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
整理為word格式整理為word格式整理為word格式模式識別基礎(chǔ)模式識別基礎(chǔ)復(fù)習(xí)資料教師:張學(xué)工2009秋季Xinbenlv@清華大學(xué)自動化系2009秋季整理為word格式整理為word格式整理為word格式Contents卷一、模式識別機(jī)經(jīng) 3卷二、2008~2009秋_模式識別_張學(xué)工_期末B 4卷三、2007~2008秋_模式識別_張學(xué)工_期末B 6卷四、2007~2008秋_模式識別_張學(xué)工_期末A 8卷五、2006~2007秋_模式識別_張學(xué)工_期末B 9卷六、2005~2006秋_模式識別_張學(xué)工_期末 10卷七、2004~2005秋_模式識別_張學(xué)工_期末 11卷八、2003~2004秋_模式識別_張學(xué)工_期末 12卷九、1999~2000春_模式識別_張學(xué)工_期末 13附錄、名詞以及原理 15整理為word格式整理為word格式整理為word格式
卷一、模式識別機(jī)經(jīng)
1.(16分)正態(tài)分布N(0,9)與均勻分布[5,10],先驗概率1/2
最小錯誤率分類器,并畫圖.最小錯誤率分類器缺點(diǎn)答:
1.設(shè)計最小錯誤率分類器:如果則為反之則為(特別的,當(dāng),可以接受為任何一類也可以拒絕。在連續(xù)情況下這種情況幾乎完全不出現(xiàn)。1.(16分)正態(tài)分布N(0,9)與均勻分布[5,10],先驗概率1/2
最小錯誤率分類器,并畫圖.最小錯誤率分類器缺點(diǎn),2.畫圖如下,紅色表示([5,10]均勻分布的后驗概率),藍(lán)色表示(N(0,9)的后驗概率)(注意?。?!圖是錯的——作者)(圖是錯的)3.最小錯誤分類器有許多局限性。其一,其只考慮到錯誤率的限制,并未考慮到實際情況中不同錯誤的代價等等,為了克服這類局限性,學(xué)者們在最小錯誤率之外又設(shè)計了最小風(fēng)險分類器、限定一類錯誤率令另一類錯誤率最小的分類器等;其二,其只能用于監(jiān)督學(xué)習(xí),要求已知分類情況,并且要滿足I.I.D條件即樣本與總體分布相符;其三,其要求必須知道先驗概率,許多實際問題的先驗概率是難以得到的。2.(22分)8個樣品w1
3個...,w2
5個
1)最近鄰分類,畫圖2.(22分)8個樣品w1
3個...,w2
5個
1)最近鄰分類,畫圖 2)給兩個點(diǎn)..,問怎么分
3)最近鄰分類器線性分類器? 4)設(shè)計二次曲面分之
5)壓縮近鄰法壓縮過程及結(jié)果 6)壓縮近鄰法分界面并比較1)
答:(題目不完整)最近鄰法(k=1),k近鄰(k個最近的點(diǎn)投票),可以考慮加權(quán)3.(5分)證明兩個樣品構(gòu)成得協(xié)方差矩陣一般是奇異的3.(5分)證明兩個樣品構(gòu)成得協(xié)方差矩陣一般是奇異的(不可逆的)
答:設(shè),從而其第i行j列元素為整理為word格式整理為word格式整理為word格式,表示第m個樣本第n個維度的值。從而這是一個行列式為零的矩陣(第一行除以(),第二行除以之后想減得零,故該協(xié)方差陣是奇異的。4.(26分)"距離"不同會有不同結(jié)果
1)給出兩種你認(rèn)為重要的距離,如何定義及物理意義
2)貝葉斯分類器,近鄰法,fisher投影法,c均值法是否受距離度量影響,不受則說明理由,
受,距離說明
4.(26分)"距離"不同會有不同結(jié)果
1)給出兩種你認(rèn)為重要的距離,如何定義及物理意義
2)貝葉斯分類器,近鄰法,fisher投影法,c均值法是否受距離度量影響,不受則說明理由,
受,距離說明
答:距離可以是任意一種范數(shù),設(shè)對點(diǎn)歐幾里得距離(2范數(shù)):每個坐標(biāo)的絕對值差之和(1范數(shù)):貝葉斯分類器不受、fisher投影法不受:都屬于判別函數(shù)與距離度量無關(guān)的,故不受影響,近鄰法,c均值法與受到距離度量的
5.(15分)AB玩游戲,A問是非問題,B回答是或非.
問
1)游戲與模式識別什么內(nèi)容有關(guān)系?用模式識別語言描述
2)B應(yīng)如何調(diào)整問題
3)如果做成計算機(jī)游戲,寫出設(shè)計思路,方法,難點(diǎn),解決方案.游戲受歡迎嗎?為什么?
5.(15分)AB玩游戲,A問是非問題,B回答是或非.
問
1)游戲與模式識別什么內(nèi)容有關(guān)系?用模式識別語言描述
2)B應(yīng)如何調(diào)整問題
3)如果做成計算機(jī)游戲,寫出設(shè)計思路,方法,難點(diǎn),解決方案.游戲受歡迎嗎?為什么?
答:???這是一類決策樹問題??梢詫⒚恳粋€是非問題看做一個決策樹節(jié)點(diǎn),是非答案決定了分支的方向(左或右)。調(diào)整問題應(yīng)該使得在有效分類的情況下樹深度最淺,就能在單次游戲最壞情況下最快猜出。(我覺得挺2的,應(yīng)該不會受歡迎。。不過可以用作公安局犯罪嫌疑人指認(rèn)的軟件)6.(6分)自己設(shè)計模糊數(shù)學(xué)用于模式識別的其他理論方法(除去聚類).寫出思路必要細(xì)節(jié)
.分析可能結(jié)果.
答:例如k-近鄰法的模糊性質(zhì)。定義隸屬函數(shù)表示屬于類的程度,值域上界為1,表示完全屬于,下界為0,表示完全不屬于,將對任意一個待判定的樣本,選取某個距離度量(如歐幾里得距離)最近的k個已知類別的訓(xùn)練樣本,從而令得到x對于類的隸屬函數(shù)。
7.(10分)專家經(jīng)常根據(jù)特殊筆跡或特殊長相分類.問如何在一個人臉自動識別系統(tǒng)或筆跡
自動識別系統(tǒng)中實現(xiàn)人的這一經(jīng)驗.從數(shù)據(jù)預(yù)處理,特征提取,選擇分類器設(shè)計等角度描述
實現(xiàn)這一經(jīng)驗的方法與可能性.優(yōu)點(diǎn)?缺點(diǎn)?
6.(6分)自己設(shè)計模糊數(shù)學(xué)用于模式識別的其他理論方法(除去聚類).寫出思路必要細(xì)節(jié)
.分析可能結(jié)果.
7.(10分)專家經(jīng)常根據(jù)特殊筆跡或特殊長相分類.問如何在一個人臉自動識別系統(tǒng)或筆跡
自動識別系統(tǒng)中實現(xiàn)人的這一經(jīng)驗.從數(shù)據(jù)預(yù)處理,特征提取,選擇分類器設(shè)計等角度描述
實現(xiàn)這一經(jīng)驗的方法與可能性.優(yōu)點(diǎn)?缺點(diǎn)?
答:這是一類特殊的圖像識別問題,可以采用K-L分類整理為word格式整理為word格式整理為word格式卷二、2008~2009秋_模式識別_張學(xué)工_期末B1.(30')
簡要介紹下列概念
·ROC曲線1.(30')
簡要介紹下列概念
·ROC曲線、交叉驗證、似然函數(shù)、特征選擇與提取、推廣能力、隨機(jī)森林ROC曲線(ReceiverOperationalCharacteristicCurve)是以FalsePositiveRate為橫坐標(biāo),TruePositiveRate為縱坐標(biāo)的繪制的曲線,通過改變分點(diǎn)給出對應(yīng)的FP和TP繪成。曲線的點(diǎn)表示了在敏感度和特殊性之間的平衡,例如越往左,也就是假陽性越小,則真陽性也越小。曲線下方的面積越大,則表示該方法越有利于區(qū)分兩種類別。交叉驗證是指交叉驗證(Cross-validation)主要用于建模應(yīng)用中,在給定的建模樣本中,拿出大部分樣本進(jìn)行建模型,留小部分樣本用剛建立的模型進(jìn)行預(yù)報,并求這小部分樣本的預(yù)報誤差,記錄它們的平方加和。這個過程一直進(jìn)行,直到所有的樣本都被預(yù)報了一次而且僅被預(yù)報一次。把每個樣本的預(yù)報誤差平方加和,這個數(shù)越小,表示該方法越好特征選擇與提?。禾卣魇侵笇κ挛锏挠^測或者某種運(yùn)算,用于分類。特征提取是指直接觀測到或者經(jīng)過初步運(yùn)算的特征——原始特征。特征選擇是指從m個特征中選擇m1個,m1<m。特征提?。ㄌ卣鲏嚎s、變換)將m個特征變?yōu)閙2個新特征。推廣能力:在有限的樣本上建立的學(xué)習(xí)機(jī)器對未來樣本的表現(xiàn)。隨機(jī)森林是指通過bootstrapping樣本來生成許多決策樹,對于決策樹上的每一個節(jié)點(diǎn),選擇m個變量來進(jìn)行決策。計算訓(xùn)練集基于這m個變量的最佳分劃。(Wiki:在\o"機(jī)器學(xué)習(xí)"機(jī)器學(xué)習(xí)中,隨機(jī)森林是一個包含多個\o"決策樹"決策樹的\o"分類器(尚未撰寫)"分類器,并且其輸出的類別是由個別樹輸出的類別的\o"眾數(shù)"眾數(shù)而定。\o"LeoBreiman(尚未撰寫)"LeoBreiman和\o"AdeleCutler(尚未撰寫)"AdeleCutler發(fā)展出推論出隨機(jī)森林的算法。而"RandomForests"是他們的\o"商標(biāo)"商標(biāo)。這個術(shù)語是1995年由貝爾實驗室的\o"TinKamHo(尚未撰寫)"TinKamHo所提出的隨機(jī)決策森林(randomdecisionforests)而來的。這個方法則是結(jié)合Breimans的"\o"Bootstrapaggregating(尚未撰寫)"Bootstrapaggregating"想法和Ho的"randomsubspacemethod""以建造決策樹的集合。)2.(30’)簡述Fisher線性判別方法的基本原理并討論如何在Fisher線性判別中實現(xiàn)最小風(fēng)險的分類決策。
答:2.(30’)簡述Fisher線性判別方法的基本原理并討論如何在Fisher線性判別中實現(xiàn)最小風(fēng)險的分類決策。Fisher線性判別法是指:將多維判別決策問題通過線性組合降低為1維的時候,選擇一個最優(yōu)的一維線性判別函數(shù)的方法。該方法考慮了不同類別樣本的協(xié)方差和均值之差。決策面法向量為??紤]最小風(fēng)險分類決策的時候,需要甄選分界閾值點(diǎn)。從而可以根據(jù)貝葉斯決策規(guī)獲得一種一維內(nèi)的最小風(fēng)險分類器。例如,經(jīng)過投影后的分別服從的分布規(guī)律…P14頁下方3.(20’)簡述C-均值方法的基本原理,并討論在什么情況下此方法比較適用。3.(20’)簡述C-均值方法的基本原理,并討論在什么情況下此方法比較適用。答:整理為word格式整理為word格式整理為word格式C均值法是一種動態(tài)聚類法,通過多次迭代,逐步調(diào)整類別劃分,最終使某準(zhǔn)則達(dá)到最優(yōu)。C均值法的目標(biāo)是最小化——最小方差劃分。用另一個角度來看,就是用C個碼本來代表整個樣本集,使這種表示帶來的總體誤差最小——向量量化。誤差平方和聚類準(zhǔn)則:見課件9.3(p14)適用條件:課件9.3(p22)
4.(20’)SVM與多層感知器都可以實現(xiàn)非線性分類,試討論它們在原理上的聯(lián)系與區(qū)別。4.(20’)SVM與多層感知器都可以實現(xiàn)非線性分類,試討論它們在原理上的聯(lián)系與區(qū)別。答:支持向量機(jī)(SVM:SupportingVectorMechine)原理:課件5.5P6(特點(diǎn)是:P13),課本P301。支持向量機(jī)的基本思想可以概括為:首先通過非線性變化將輸入空間變換到一個高維空間,然后在這個新空間中求取最優(yōu)先行分類面,而這種非線性變換是通過定義適當(dāng)?shù)膬?nèi)積函數(shù)K(X,Y)實現(xiàn)的。多層感知器(MLP:Multi-LayerPerception)原理:課件5.4P10。是一種前饋人工神經(jīng)網(wǎng)絡(luò)。它利用三層或者三層以上多個感知器來講輸入數(shù)據(jù)映射為復(fù)雜輸出數(shù)據(jù),使得分類器可以產(chǎn)生非線性的或者超平面的決策面,從而成為分線性分類器。(Wiki:Amultilayerperceptronisa\o"Feedforward"feedforward\o"Artificialneuralnetwork"artificialneuralnetworkmodelthatmapssetsofinputdataontoasetofappropriateoutput.Itisamodificationofthestandardlinear\o"Perceptron"perceptroninthatitusesthreeormorelayersofneurons(nodes)withnonlinear\o"Activationfunction"activationfunctions,andismorepowerfulthanthe\o"Perceptron"perceptroninthatitcandistinguishdatathatisnotlinearlyseparable,orseparablebya\o"Hyperplane"hyperplane.[1])聯(lián)系與差異:都屬于非線性分類器,但是其中一種是通過特征空間的非線性變換來實現(xiàn)最優(yōu)決策面的,而多層感知器則是通過多層感知器(邏輯單元)的邏輯組合(輸入-中間-輸出)以及每層之間各數(shù)據(jù)的線性組合來實現(xiàn)非線性決策面的5.(沒有分)給課程提建設(shè)性建議5.(沒有分)給課程提建設(shè)性建議。1.通過《模式識別基礎(chǔ)》課程的學(xué)習(xí)。。。
卷三、2007~2008秋_模式識別_張學(xué)工_期末B
1
1
.寫出英文全稱,中文,100字簡述
5*6=30
a)Hierachical
Clustering;
b)MLP;c)Nonparametric
Estimation;
d)SVM
e)Fisher's
Linear
Discriminant
Analysis;f)PCA;g)Random
Forest整理為word格式整理為word格式整理為word格式HierachicalClustering,分級聚類(課件9.4P45):從各類只有一個樣本點(diǎn)開始,逐級合并,每級只合并兩類,直到最后所有樣本都?xì)w到一類。聚類過程中考察類間相似度,依次決定類別數(shù)。MLP,Multi-LayerPerception,多層感知器原理:課件5.4P10。是一種前饋人工神經(jīng)網(wǎng)絡(luò)。它利用三層或者三層以上多個感知器來講輸入數(shù)據(jù)映射為復(fù)雜輸出數(shù)據(jù),使得分類器可以產(chǎn)生非線性的或者超平面的決策面,從而成為分線性分類器。(Wiki:Amultilayerperceptronisa\o"Feedforward"feedforward\o"Artificialneuralnetwork"artificialneuralnetworkmodelthatmapssetsofinputdataontoasetofappropriateoutput.Itisamodificationofthestandardlinear\o"Perceptron"perceptroninthatitusesthreeormorelayersofneurons(nodes)withnonlinear\o"Activationfunction"activationfunctions,andismorepowerfulthanthe\o"Perceptron"perceptroninthatitcandistinguishdatathatisnotlinearlyseparable,orseparablebya\o"Hyperplane"hyperplane.[1])Nonparametric
Estimation:非參數(shù)估計(課件3.5.1,P36)不假設(shè)概率模型,通過樣本落在區(qū)域的概率來估計出一個概率密度函數(shù)。常用的有窗函數(shù)法(如近鄰估計、Parzen窗估計)。SVM,SupportingVectorMechine,支持向量機(jī):課件5.5P6(特點(diǎn)是:P13),課本P301。支持向量機(jī)的基本思想可以概括為:首先通過非線性變化將輸入空間變換到一個高維空間,然后在這個新空間中求取最優(yōu)先行分類面,而這種非線性變換是通過定義適當(dāng)?shù)膬?nèi)積函數(shù)K(X,Y)實現(xiàn)的。Fisher's
Linear
Discriminant
Analysis,F(xiàn)isher線性判別分析:Fisher線性判別法是指:將多維判別決策問題通過線性組合降低為1維的時候,選擇一個最優(yōu)的一維線性判別函數(shù)的方法。該方法考慮了不同類別樣本的協(xié)方差和均值之差。決策面法向量為。PCA,PrincipalComponentAnalysis,主成分分析:課件8.2P21,目的:在\o"統(tǒng)計學(xué)"統(tǒng)計學(xué)中,主成分分析(principalcomponentsanalysis(PCA))是一種簡化數(shù)據(jù)集的技術(shù)。它是一個線性變換。這個變換把數(shù)據(jù)變換到一個新的坐標(biāo)系統(tǒng)中,使得任何數(shù)據(jù)投影的第一大方差在第一個坐標(biāo)(稱為第一主成分)上,第二大方差在第二個坐標(biāo)(第二主成分)上,依次類推。主成分分析經(jīng)常用減少數(shù)據(jù)集的維數(shù),同時保持?jǐn)?shù)據(jù)集的對方差貢獻(xiàn)最大的特征。這是通過保留低階主成分,忽略高階主成分做到的。這樣低階成分往往能夠保留住數(shù)據(jù)的最重要方面。但是,這也不是一定的,要視具體應(yīng)用而定。RandomForest,隨機(jī)森林:隨機(jī)森林是指通過bootstrapping樣本來生成許多決策樹,對于決策樹上的每一個節(jié)點(diǎn),選擇m個變量來進(jìn)行決策。計算訓(xùn)練集基于這m個變量的最佳分劃。(Wiki:整理為word格式整理為word格式整理為word格式在\o"機(jī)器學(xué)習(xí)"機(jī)器學(xué)習(xí)中,隨機(jī)森林是一個包含多個\o"決策樹"決策樹的\o"分類器(尚未撰寫)"分類器,并且其輸出的類別是由個別樹輸出的類別的\o"眾數(shù)"眾數(shù)而定。\o"LeoBreiman(尚未撰寫)"LeoBreiman和\o"AdeleCutler(尚未撰寫)"AdeleCutler發(fā)展出推論出隨機(jī)森林的算法。而"RandomForests"是他們的\o"商標(biāo)"商標(biāo)。這個術(shù)語是1995年由貝爾實驗室的\o"TinKamHo(尚未撰寫)"TinKamHo所提出的隨機(jī)決策森林(randomdecisionforests)而來的。這個方法則是結(jié)合Breimans的"\o"Bootstrapaggregating(尚未撰寫)"Bootstrapaggregating"想法和Ho的"randomsubspacemethod""以建造決策樹的集合。)2.2.
200字簡述
4*5=20
a)最小距離分類器何時是最優(yōu)分類器?
b)寫出最小距離分類器,分段線性判別,最近鄰法的關(guān)系
c)寫出決策樹和隨機(jī)森林的關(guān)系,以及為什么要有隨機(jī)森林
記不太清了,貌似有個SVM的原理?
d)寫出K-L變換和PCA的關(guān)系
寫出特征提取和fisher線性判別的關(guān)系最小距離分類器:(課本P120頁)最小距離分類器是指在貝葉斯決策規(guī)則當(dāng)類條件概率密度為正態(tài)分布且各特征統(tǒng)計獨(dú)立同方差時,利用貝葉斯決策規(guī)則在可以得到線性距離判別函數(shù),特別是當(dāng)時,決策規(guī)則式可以寫成 這時的最小距離分類器是滿足貝葉斯決策規(guī)則的最優(yōu)分類器。最小距離分類器是一種分段線性的判別方法。每個樣本點(diǎn)的類別由最近的代表點(diǎn)的類別決定。最近鄰法是這種分類器的一種應(yīng)用,特殊之處在于(課本P120頁)最近鄰法是將每一個樣本都當(dāng)做類別的代表點(diǎn)隨機(jī)森林由多個決策樹組成。隨機(jī)森林的優(yōu)缺點(diǎn):Wiki:Theadvantagesofrandomforestare:Formanydatasets,itproducesahighlyaccurateclassifierIthandlesaverylargenumberofinputvariablesItestimatestheimportanceofvariablesindeterminingclassificationItgeneratesaninternalunbiasedestimateofthegeneralizationerrorastheforestbuildingprogressesItincludesagoodmethodforestimatingmissingdataandmaintainsaccuracywhenalargeproportionofthedataaremissingItprovidesanexperimentalwaytodetectvariableinteractionsItcanbalanceerrorinclasspopulationunbalanceddatasetsItcomputesproximitiesbetweencases,usefulfor\o"Clustering"clustering,detecting\o"Outlier"outliers,and(byscaling)visualizingthedataUsingtheabove,itcanbeextendedtounlabeleddata,leadingtounsupervisedclustering,outlierdetectionanddataviewsLearningisfastThedisadvantagesofrandomforestare:整理為word格式整理為word格式整理為word格式Randomforestarepronetooverfittingforsomedatasets.Thisisevenmorepronouncedinnoisyclassification/regressiontasks.[6]RandomForestdoesnothandlelargenumbersofirrelevantfeaturesaswellasensemblesofentropy-reducingdecisiontrees.[7]Itismoreefficienttoselectarandomdecisionboundarythananentropy-reducingdecisionboundary,thusmakinglargerensemblesmorefeasible.Althoughthismayseemtobeanadvantageatfirst,ithastheeffectofshiftingthecomputationfromtrainingtimetoevaluationtime,whichisactuallyadisadvantageformostapplications.3.寫出K-L變換和PCA的關(guān)系:PCA和K-L變換目的都是從高維的原始數(shù)據(jù)中提取低維度相關(guān)性低的特征數(shù)據(jù)。(白云飛:PCA針對樣本協(xié)方差矩陣,找出特征值較大的,K-L變換針對產(chǎn)生矩陣,可以根據(jù)不同準(zhǔn)則挑選特征值和特征向量,二者本質(zhì)相同)3.3.構(gòu)造兩類分類器,100個訓(xùn)練數(shù)據(jù),使用K近鄰法,如何選擇K,給出一個合適的K,說明理由(1*5=5)K值不宜太大,太大則太多干擾樣本點(diǎn)被納入,太小則無法適應(yīng)小規(guī)模錯誤情況,對于100個訓(xùn)練數(shù)據(jù),一般來說選擇5、7、9比較合適。去奇數(shù)是為了避免出現(xiàn)兩種類別數(shù)相同無法判決的情況。4.SOM若沒有鄰域作用,則變成什么算法?寫出該算法的目標(biāo)函數(shù),算法基本步驟4.SOM若沒有鄰域作用,則變成什么算法?寫出該算法的目標(biāo)函數(shù),算法基本步驟(1*15=15)SOM思路類似先作向量量化(聚類),用較少的點(diǎn)(子類)代表原樣本空間,把這些代表點(diǎn)進(jìn)行分類。(Wiki:Aself-organizingmap(SOM)orself-organizingfeaturemap(SOFM)isatypeof\o"Artificialneuralnetwork"artificialneuralnetworkthatistrainedusing\o"Unsupervisedlearning"unsupervisedlearningtoproducealow-dimensional(typicallytwo-dimensional),discretizedrepresentationoftheinputspaceofthetrainingsamples,calledamap.Self-organizingmapsaredifferentfromotherartificialneuralnetworksinthesensethattheyuseaneighborhoodfunctiontopreservethe\o"Topology"topologicalpropertiesoftheinputspace.)如果沒有鄰域作用,就退化一個典型的C均值法。該算法計算步驟(課件9.3,P17)55.綜合題。文本自動分類的原理性設(shè)計,按內(nèi)容分類為軍事,體育,娛樂等。例舉本科所學(xué)內(nèi)容和概念能在這個設(shè)計上怎么體現(xiàn)。1*30=30答:因為是按已知內(nèi)容分類,是一個監(jiān)督學(xué)習(xí)的模式識別問題??紤]如下監(jiān)督學(xué)習(xí)模式1.隨機(jī)獲取已經(jīng)定義好類別的樣本1.特征提?。好總€樣本進(jìn)行詞頻統(tǒng)計,詞匯來自《辭?!?。假設(shè)辭海有80000個詞,則對每一個樣本,得到一個80000維的特征數(shù)據(jù)。顯然,這是一個高維數(shù)據(jù)。整理為word格式整理為word格式整理為word格式2.特征處理:(1)首先去所有樣本出現(xiàn)頻度都小于一定閾值的詞匯,比方說出現(xiàn)5次。剩下10000維。(2)對這10000維進(jìn)行主成分分析,得到一個低維度的特征數(shù)據(jù),比如4維。(3)對于這三維,可以進(jìn)行一下分類:k近鄰法、支撐向量機(jī)法(廣義支撐向量機(jī))、Fisher判別法等。其中Fisher判別再次降維后還可以運(yùn)用基于最小錯誤率的貝葉斯決策3.對于以上監(jiān)督學(xué)習(xí)模式的樣本可以進(jìn)行同一個方法的交叉驗證,去除一定的干擾。附加題附加題.說明兩類錯誤率。在SVM線性不可分的情況下,如何把最小風(fēng)險的概念引入SVM,對目標(biāo)函數(shù)應(yīng)該怎樣修正。(最多10分,全卷不會超過100分)
答:(1)兩類錯誤率為“拒真納偽”。(2)(課本P298)如果線性不可分,就是某些樣本不能滿足條件時,引入松弛因子,使得條件變成,對于足夠小的,只要使最小就能使錯分樣本數(shù)最小。對應(yīng)線性可分情況下的使分類間隔最大,在線性不可分的時候引入約束,最終得到目標(biāo)函數(shù),C為某個指定常數(shù),起著控制對錯分樣本懲罰的程度(風(fēng)險)的作用。關(guān)于風(fēng)險的討論在課本P299頁卷四、2007~2008秋_模式識別_張學(xué)工_期末A(略)
卷五、2006~2007秋_模式識別_張學(xué)工_期末B1.
寫出英文全稱并解釋相應(yīng)的概念或者方法的原理30%
a)非參數(shù)估計
b)非監(jiān)督模式識別1.
寫出英文全稱并解釋相應(yīng)的概念或者方法的原理30%
a)非參數(shù)估計
b)非監(jiān)督模式識別
c)最大似然估計
d)MDS
e)推廣能力
f)kNN答:其他見前文卷子。MDS:\o"Multi-DimensionalScaling(pagedoesnotexist)"Multi-DimensionalScaling,Multidimensionalscaling(MDS)isasetofrelated\o"Statistical"statisticaltechniquesoftenusedin\o"Informationvisualization"informationvisualizationforexploringsimilaritiesordissimilaritiesindata.MDSisaspecialcaseof\o"Ordination(statistics)"ordination.AnMDSalgorithmstartswitha\o"Matrix(mathematics)"matrixofitem–item\o"Similarity(mathematics)"similarities,thenassignsalocationtoeachiteminN-dimensionalspace,whereNisspecifiedapriori.ForsufficientlysmallN,theresultinglocationsmaybedisplayedinagraphor\o"3Dvisualisation"3Dvisualisation.這里附上紅寶書預(yù)測詞匯:LDF:LinearDiscriminantFunctions線性判別函數(shù)。ISOMAP\o"Isomap"Isomap[6]isacombinationofCurvilinearDistanceAnalysis(CDA)and\o"MultidimensionalScaling"MultidimensionalScaling(MDS).BothCDAandIsomapbeginbyfindingasetofthenearestneighborsofeachpoint.Theyseektopreservethegeodesicdistancesbetweenpointswhileprojectingthedataintofewerdimensions.Geodesicdistanceisdefinedasthelengthoftheshortestpathbetweentwopointsthatstaysonthemanifoldsurface.Thesealgorithmsestimategeodesicdistancesbyfindingtheshortestneighbor-to-neighborpathbetweeneverypairofpoints,whichcanbecomputedefficientlyusing整理為word格式整理為word格式整理為word格式\o"Dijkstrasalgorithm"Dijkstrasalgorithm.LLELocally-LinearEmbedding(LLE)[8]waspresentedatapproximatelythesametimeasIsomap.IthasseveraladvantagesoverIsomap,includingfasteroptimizationwhenimplementedtotakeadvantageofsparsematrixalgorithms,andbetterresultswithmanyproblems.LLEalsobeginsbyfindingasetofthenearestneighborsofeachpoint.Itthencomputesasetofweightsforeachpointthatbestdescribethepointasalinearcombinationofitsneighbors.Finally,itusesaneigenvector-basedoptimizationtechniquetofindthelow-dimensionalembeddingofpoints,suchthateachpointisstilldescribedwiththesamelinearcombinationofitsneighbors.LLEtendstohandlenon-uniformsampledensitiespoorlybecausethereisnofixedunittopreventtheweightsfromdriftingasvariousregionsdifferinsampledensities.LLEhasnointernalmodel.2.
如果用kNN來解決作業(yè)中的男女生訓(xùn)練樣本問題,那么你如何選擇k?簡述理由
2.
如果用kNN來解決作業(yè)中的男女生訓(xùn)練樣本問題,那么你如何選擇k?簡述理由
答:K=5,7,9,理由見卷子3.
12%
無鄰域相互作用的SOM的相當(dāng)于是優(yōu)化什么目標(biāo)函數(shù),寫出目標(biāo)函數(shù)。8%
3.
12%
無鄰域相互作用的SOM的相當(dāng)于是優(yōu)化什么目標(biāo)函數(shù),寫出目標(biāo)函數(shù)。8%
答:Cmeans,見前文4.
1)簡述兩類錯誤率的概念,并由此談一談最小風(fēng)險錯誤率Bayes分類器的原理?
8%
2)怎么把最小風(fēng)險的概念引入線性SVM中(考慮線性不可分的情況),嘗試寫出公式6%
3)怎么把最小風(fēng)險的概念引入Fisher線性判別中,簡述一下。6%4.
1)簡述兩類錯誤率的概念,并由此談一談最小風(fēng)險錯誤率Bayes分類器的原理?
8%
2)怎么把最小風(fēng)險的概念引入線性SVM中(考慮線性不可分的情況),嘗試寫出公式6%
3)怎么把最小風(fēng)險的概念引入Fisher線性判別中,簡述一下。6%答:見前文5.
現(xiàn)在先要建立一種針對不同用戶的文本郵件分類系統(tǒng),比如分成私人郵件,公務(wù)郵件等。描述怎么建立,課上講的哪些方法和概念可以用到5.
現(xiàn)在先要建立一種針對不同用戶的文本郵件分類系統(tǒng),比如分成私人郵件,公務(wù)郵件等。描述怎么建立,課上講的哪些方法和概念可以用到?30%
答:見前文
卷六、2005~2006秋_模式識別_張學(xué)工_期末張老師說:言多必失
1.
10%
簡述最小錯誤率Bayes分類器的原理和適用范圍
1.
10%
簡述最小錯誤率Bayes分類器的原理和適用范圍
答:(NBA@zzxy說):原理:通過觀察x把狀態(tài)的先驗概率轉(zhuǎn)化為狀態(tài)的后驗概率,比較不同的后驗概率并作出決策。適用范圍:各類別總體的概率分布是已知的,要決策分類的類別數(shù)是一定的,離散數(shù)據(jù),相較其它算法可以解決高維問題。整理為word格式整理為word格式整理為word格式2.
10%
2.
10%
什么是分類器的錯誤率?如何估計?
簡述兩類錯誤率的概念,以及如何控制兩類錯誤率的影響?
答:兩類錯誤率是:拒真納偽??刂苾深愬e誤率(1)選擇更好的特征。(2)對特征進(jìn)行提取。(3)變更分類器。(4)同一種分類器引入風(fēng)險函數(shù)進(jìn)行權(quán)衡(Tradeoff)3.
10%
寫出英文全稱
模式識別
似然函數(shù)
非監(jiān)督學(xué)習(xí)
非參數(shù)估計
SVM
MLP
PCA
MDS(必殺!)
k-NN
SOM
3.
10%
寫出英文全稱
模式識別
似然函數(shù)
非監(jiān)督學(xué)習(xí)
非參數(shù)估計
SVM
MLP
PCA
MDS(必殺!)
k-NN
SOM
答:PatternRecognition;LikelihoodFunction;UnsupervisedLearning;Non-parametricalEstimation4.
10%
無鄰域相互作用的SOM的準(zhǔn)則函數(shù)?(記不清怎么說的了..)
4.
10%
無鄰域相互作用的SOM的準(zhǔn)則函數(shù)?(記不清怎么說的了..)
C-means,見前文
5.
15%
學(xué)號末兩位和為奇數(shù)用身高數(shù)據(jù),為偶數(shù)用體重數(shù)據(jù)
體重:
55
57
67
68
50
進(jìn)行平均距離分級聚類,給出分類樹,給出每級的距離矩陣。
聚為幾類合適?為什么?5.
15%
學(xué)號末兩位和為奇數(shù)用身高數(shù)據(jù),為偶數(shù)用體重數(shù)據(jù)
體重:
55
57
67
68
50
進(jìn)行平均距離分級聚類,給出分類樹,給出每級的距離矩陣。
聚為幾類合適?為什么?(((67,68)),50),(55,57)),分為兩類合適。每級距離矩陣:(((67[1]68))[方差*]50)[方差**](55[1.414]57)),6.
15%
參數(shù)估計和非參數(shù)估計的概念?最大似然估計和Parzen窗法的原理?
如何估計錯誤率?6.
15%
參數(shù)估計和非參數(shù)估計的概念?最大似然估計和Parzen窗法的原理?
如何估計錯誤率?答:參數(shù)估計:已知概率模型,根據(jù)樣本對參數(shù)進(jìn)行估計。非參數(shù)估計:未知概率模型,通過樣本對概率模型進(jìn)行直接估計。最大似然估計:在參數(shù)估計中選取使樣本出現(xiàn)概率最大(MostLikelihood)的參數(shù)進(jìn)行的估計。Parzen窗法是一種非參
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 現(xiàn)代物流信息系統(tǒng)建設(shè)中的標(biāo)準(zhǔn)化問題
- 掛繩高空作業(yè)施工方案
- 拆除臨時用電施工方案
- 生態(tài)文明教育在校園的實踐與推廣
- 現(xiàn)代企業(yè)綜合管理能力提升及領(lǐng)導(dǎo)力培訓(xùn)方案研究報告
- 國慶節(jié)營銷活動方案模板
- 2023三年級語文上冊 第一單元 習(xí)作:猜猜他是誰說課稿 新人教版
- Unit 2 AnimaIs Lesson 1 Enjoy the story(說課稿)-2024-2025學(xué)年北師大版(三起)英語五年級上冊
- 2024秋八年級物理上冊 第1章 機(jī)械運(yùn)動 第2節(jié) 運(yùn)動的描述說課稿2(新版)新人教版
- 2025仿石漆施工合同
- 中日勞務(wù)合同范本
- 白宮-人工智能行業(yè):美國人工智能權(quán)利法案藍(lán)圖(英譯中)
- 營口市大學(xué)生專考專招考試真題2022
- 典范英語8-15Here comes trouble原文翻譯
- 六安市葉集化工園區(qū)污水處理廠及配套管網(wǎng)一期工程環(huán)境影響報告書
- 運(yùn)動技能學(xué)習(xí)與控制課件第一章運(yùn)動技能學(xué)習(xí)與控制概述
- 固體廢棄物檢查記錄
- 工程設(shè)計費(fèi)取費(fèi)標(biāo)準(zhǔn)
- 2023年遼寧鐵道職業(yè)技術(shù)學(xué)院高職單招(數(shù)學(xué))試題庫含答案解析
- CAPP教學(xué)講解課件
- 自然環(huán)境的服務(wù)功能課件 高中地理人教版(2019)選擇性必修3
評論
0/150
提交評論