模式識別基礎(chǔ)復(fù)習(xí)資料Word版

上傳人：H*** IP屬地：廣東上傳時間：2022-12-16 格式：DOC 頁數(shù)：17 大小：269.50KB 積分：12 舉報 版權(quán)申訴

已閱讀5頁，還剩12頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

整理為word格式整理為word格式整理為word格式模式識別基礎(chǔ)模式識別基礎(chǔ)復(fù)習(xí)資料教師：張學(xué)工2009秋季Xinbenlv@清華大學(xué)自動化系2009秋季整理為word格式整理為word格式整理為word格式Contents卷一、模式識別機(jī)經(jīng) 3卷二、2008~2009秋_模式識別_張學(xué)工_期末B 4卷三、2007~2008秋_模式識別_張學(xué)工_期末B 6卷四、2007~2008秋_模式識別_張學(xué)工_期末A 8卷五、2006~2007秋_模式識別_張學(xué)工_期末B 9卷六、2005~2006秋_模式識別_張學(xué)工_期末 10卷七、2004~2005秋_模式識別_張學(xué)工_期末 11卷八、2003~2004秋_模式識別_張學(xué)工_期末 12卷九、1999~2000春_模式識別_張學(xué)工_期末 13附錄、名詞以及原理 15整理為word格式整理為word格式整理為word格式

卷一、模式識別機(jī)經(jīng)

1.(16分)正態(tài)分布N(0,9)與均勻分布[5,10],先驗概率1/2

最小錯誤率分類器,并畫圖.最小錯誤率分類器缺點(diǎn)答：

１．設(shè)計最小錯誤率分類器：如果則為反之則為（特別的，當(dāng)，可以接受為任何一類也可以拒絕。在連續(xù)情況下這種情況幾乎完全不出現(xiàn)。1.(16分)正態(tài)分布N(0,9)與均勻分布[5,10],先驗概率1/2

最小錯誤率分類器,并畫圖.最小錯誤率分類器缺點(diǎn)，2．畫圖如下，紅色表示（[5,10]均勻分布的后驗概率），藍(lán)色表示（N(0,9)的后驗概率）（注意?。?！圖是錯的——作者）（圖是錯的）3．最小錯誤分類器有許多局限性。其一，其只考慮到錯誤率的限制，并未考慮到實際情況中不同錯誤的代價等等，為了克服這類局限性，學(xué)者們在最小錯誤率之外又設(shè)計了最小風(fēng)險分類器、限定一類錯誤率令另一類錯誤率最小的分類器等；其二，其只能用于監(jiān)督學(xué)習(xí)，要求已知分類情況，并且要滿足I.I.D條件即樣本與總體分布相符；其三，其要求必須知道先驗概率，許多實際問題的先驗概率是難以得到的。2.(22分)8個樣品w1

3個...,w2

5個

1)最近鄰分類,畫圖2.(22分)8個樣品w1

3個...,w2

5個

1)最近鄰分類,畫圖 2)給兩個點(diǎn)..,問怎么分

3)最近鄰分類器線性分類器? 4)設(shè)計二次曲面分之

5)壓縮近鄰法壓縮過程及結(jié)果 6)壓縮近鄰法分界面并比較1)

答：（題目不完整）最近鄰法（k=1），k近鄰（k個最近的點(diǎn)投票），可以考慮加權(quán)3.(5分)證明兩個樣品構(gòu)成得協(xié)方差矩陣一般是奇異的3.(5分)證明兩個樣品構(gòu)成得協(xié)方差矩陣一般是奇異的（不可逆的）

答：設(shè),從而其第i行j列元素為整理為word格式整理為word格式整理為word格式，表示第m個樣本第n個維度的值。從而這是一個行列式為零的矩陣（第一行除以(）,第二行除以之后想減得零，故該協(xié)方差陣是奇異的。4.(26分)"距離"不同會有不同結(jié)果

1)給出兩種你認(rèn)為重要的距離,如何定義及物理意義

2)貝葉斯分類器,近鄰法,fisher投影法,c均值法是否受距離度量影響,不受則說明理由,

受,距離說明

4.(26分)"距離"不同會有不同結(jié)果

1)給出兩種你認(rèn)為重要的距離,如何定義及物理意義

2)貝葉斯分類器,近鄰法,fisher投影法,c均值法是否受距離度量影響,不受則說明理由,

受,距離說明

答：距離可以是任意一種范數(shù)，設(shè)對點(diǎn)歐幾里得距離（2范數(shù)）：每個坐標(biāo)的絕對值差之和（1范數(shù)）：貝葉斯分類器不受、fisher投影法不受：都屬于判別函數(shù)與距離度量無關(guān)的，故不受影響，近鄰法，c均值法與受到距離度量的

5.(15分)AB玩游戲,A問是非問題,B回答是或非.

問

1)游戲與模式識別什么內(nèi)容有關(guān)系?用模式識別語言描述

2)B應(yīng)如何調(diào)整問題

3)如果做成計算機(jī)游戲,寫出設(shè)計思路,方法,難點(diǎn),解決方案.游戲受歡迎嗎?為什么?

5.(15分)AB玩游戲,A問是非問題,B回答是或非.

問

1)游戲與模式識別什么內(nèi)容有關(guān)系?用模式識別語言描述

2)B應(yīng)如何調(diào)整問題

3)如果做成計算機(jī)游戲,寫出設(shè)計思路,方法,難點(diǎn),解決方案.游戲受歡迎嗎?為什么?

答：???這是一類決策樹問題?？梢詫⒚恳粋€是非問題看做一個決策樹節(jié)點(diǎn)，是非答案決定了分支的方向（左或右）。調(diào)整問題應(yīng)該使得在有效分類的情況下樹深度最淺，就能在單次游戲最壞情況下最快猜出。（我覺得挺2的，應(yīng)該不會受歡迎。。不過可以用作公安局犯罪嫌疑人指認(rèn)的軟件）6.(6分)自己設(shè)計模糊數(shù)學(xué)用于模式識別的其他理論方法(除去聚類).寫出思路必要細(xì)節(jié)

.分析可能結(jié)果.

答：例如k-近鄰法的模糊性質(zhì)。定義隸屬函數(shù)表示屬于類的程度，值域上界為1，表示完全屬于，下界為0，表示完全不屬于，將對任意一個待判定的樣本,選取某個距離度量（如歐幾里得距離）最近的k個已知類別的訓(xùn)練樣本，從而令得到x對于類的隸屬函數(shù)。

7.(10分)專家經(jīng)常根據(jù)特殊筆跡或特殊長相分類.問如何在一個人臉自動識別系統(tǒng)或筆跡

自動識別系統(tǒng)中實現(xiàn)人的這一經(jīng)驗.從數(shù)據(jù)預(yù)處理,特征提取,選擇分類器設(shè)計等角度描述

實現(xiàn)這一經(jīng)驗的方法與可能性.優(yōu)點(diǎn)?缺點(diǎn)?

6.(6分)自己設(shè)計模糊數(shù)學(xué)用于模式識別的其他理論方法(除去聚類).寫出思路必要細(xì)節(jié)

.分析可能結(jié)果.

7.(10分)專家經(jīng)常根據(jù)特殊筆跡或特殊長相分類.問如何在一個人臉自動識別系統(tǒng)或筆跡

自動識別系統(tǒng)中實現(xiàn)人的這一經(jīng)驗.從數(shù)據(jù)預(yù)處理,特征提取,選擇分類器設(shè)計等角度描述

實現(xiàn)這一經(jīng)驗的方法與可能性.優(yōu)點(diǎn)?缺點(diǎn)?

答：這是一類特殊的圖像識別問題，可以采用K-L分類整理為word格式整理為word格式整理為word格式卷二、2008~2009秋_模式識別_張學(xué)工_期末B1.（30'）

簡要介紹下列概念

·ROC曲線1.（30'）

簡要介紹下列概念

·ROC曲線、交叉驗證、似然函數(shù)、特征選擇與提取、推廣能力、隨機(jī)森林ROC曲線（ReceiverOperationalCharacteristicCurve）是以FalsePositiveRate為橫坐標(biāo)，TruePositiveRate為縱坐標(biāo)的繪制的曲線，通過改變分點(diǎn)給出對應(yīng)的FP和TP繪成。曲線的點(diǎn)表示了在敏感度和特殊性之間的平衡，例如越往左，也就是假陽性越小，則真陽性也越小。曲線下方的面積越大，則表示該方法越有利于區(qū)分兩種類別。交叉驗證是指交叉驗證(Cross-validation)主要用于建模應(yīng)用中，在給定的建模樣本中，拿出大部分樣本進(jìn)行建模型，留小部分樣本用剛建立的模型進(jìn)行預(yù)報，并求這小部分樣本的預(yù)報誤差，記錄它們的平方加和。這個過程一直進(jìn)行，直到所有的樣本都被預(yù)報了一次而且僅被預(yù)報一次。把每個樣本的預(yù)報誤差平方加和，這個數(shù)越小，表示該方法越好特征選擇與提?。禾卣魇侵笇κ挛锏挠^測或者某種運(yùn)算，用于分類。特征提取是指直接觀測到或者經(jīng)過初步運(yùn)算的特征——原始特征。特征選擇是指從m個特征中選擇m1個，m1<m。特征提?。ㄌ卣鲏嚎s、變換）將m個特征變?yōu)閙2個新特征。推廣能力：在有限的樣本上建立的學(xué)習(xí)機(jī)器對未來樣本的表現(xiàn)。隨機(jī)森林是指通過bootstrapping樣本來生成許多決策樹，對于決策樹上的每一個節(jié)點(diǎn)，選擇m個變量來進(jìn)行決策。計算訓(xùn)練集基于這m個變量的最佳分劃。（Wiki:在\o"機(jī)器學(xué)習(xí)"機(jī)器學(xué)習(xí)中，隨機(jī)森林是一個包含多個\o"決策樹"決策樹的\o"分類器（尚未撰寫）"分類器，并且其輸出的類別是由個別樹輸出的類別的\o"眾數(shù)"眾數(shù)而定。\o"LeoBreiman（尚未撰寫）"LeoBreiman和\o"AdeleCutler（尚未撰寫）"AdeleCutler發(fā)展出推論出隨機(jī)森林的算法。而"RandomForests"是他們的\o"商標(biāo)"商標(biāo)。這個術(shù)語是1995年由貝爾實驗室的\o"TinKamHo（尚未撰寫）"TinKamHo所提出的隨機(jī)決策森林（randomdecisionforests）而來的。這個方法則是結(jié)合Breimans的"\o"Bootstrapaggregating（尚未撰寫）"Bootstrapaggregating"想法和Ho的"randomsubspacemethod""以建造決策樹的集合。）2.（30’）簡述Fisher線性判別方法的基本原理并討論如何在Fisher線性判別中實現(xiàn)最小風(fēng)險的分類決策。

答：2.（30’）簡述Fisher線性判別方法的基本原理并討論如何在Fisher線性判別中實現(xiàn)最小風(fēng)險的分類決策。Fisher線性判別法是指：將多維判別決策問題通過線性組合降低為1維的時候，選擇一個最優(yōu)的一維線性判別函數(shù)的方法。該方法考慮了不同類別樣本的協(xié)方差和均值之差。決策面法向量為?？紤]最小風(fēng)險分類決策的時候，需要甄選分界閾值點(diǎn)。從而可以根據(jù)貝葉斯決策規(guī)獲得一種一維內(nèi)的最小風(fēng)險分類器。例如，經(jīng)過投影后的分別服從的分布規(guī)律…P14頁下方3.（20’）簡述C-均值方法的基本原理，并討論在什么情況下此方法比較適用。3.（20’）簡述C-均值方法的基本原理，并討論在什么情況下此方法比較適用。答：整理為word格式整理為word格式整理為word格式C均值法是一種動態(tài)聚類法，通過多次迭代，逐步調(diào)整類別劃分，最終使某準(zhǔn)則達(dá)到最優(yōu)。C均值法的目標(biāo)是最小化——最小方差劃分。用另一個角度來看，就是用C個碼本來代表整個樣本集，使這種表示帶來的總體誤差最小——向量量化。誤差平方和聚類準(zhǔn)則：見課件9.3(p14)適用條件：課件9.3(p22)

4.（20’）SVM與多層感知器都可以實現(xiàn)非線性分類，試討論它們在原理上的聯(lián)系與區(qū)別。4.（20’）SVM與多層感知器都可以實現(xiàn)非線性分類，試討論它們在原理上的聯(lián)系與區(qū)別。答：支持向量機(jī)（SVM：SupportingVectorMechine)原理：課件5.5P6（特點(diǎn)是：P13），課本P301。支持向量機(jī)的基本思想可以概括為：首先通過非線性變化將輸入空間變換到一個高維空間，然后在這個新空間中求取最優(yōu)先行分類面，而這種非線性變換是通過定義適當(dāng)?shù)膬?nèi)積函數(shù)K(X,Y)實現(xiàn)的。多層感知器（MLP:Multi-LayerPerception）原理：課件5.4P10。是一種前饋人工神經(jīng)網(wǎng)絡(luò)。它利用三層或者三層以上多個感知器來講輸入數(shù)據(jù)映射為復(fù)雜輸出數(shù)據(jù)，使得分類器可以產(chǎn)生非線性的或者超平面的決策面，從而成為分線性分類器。(Wiki:Amultilayerperceptronisa\o"Feedforward"feedforward\o"Artificialneuralnetwork"artificialneuralnetworkmodelthatmapssetsofinputdataontoasetofappropriateoutput.Itisamodificationofthestandardlinear\o"Perceptron"perceptroninthatitusesthreeormorelayersofneurons(nodes)withnonlinear\o"Activationfunction"activationfunctions,andismorepowerfulthanthe\o"Perceptron"perceptroninthatitcandistinguishdatathatisnotlinearlyseparable,orseparablebya\o"Hyperplane"hyperplane.[1])聯(lián)系與差異：都屬于非線性分類器，但是其中一種是通過特征空間的非線性變換來實現(xiàn)最優(yōu)決策面的，而多層感知器則是通過多層感知器（邏輯單元）的邏輯組合（輸入-中間-輸出）以及每層之間各數(shù)據(jù)的線性組合來實現(xiàn)非線性決策面的5.（沒有分）給課程提建設(shè)性建議5.（沒有分）給課程提建設(shè)性建議。1.通過《模式識別基礎(chǔ)》課程的學(xué)習(xí)。。。

卷三、2007~2008秋_模式識別_張學(xué)工_期末B

.寫出英文全稱，中文，100字簡述

5*6=30

a)Hierachical

Clustering；

b)MLP；c)Nonparametric

Estimation；

d)SVM

e)Fisher's

Linear

Discriminant

Analysis；f)PCA；g)Random

Forest整理為word格式整理為word格式整理為word格式HierachicalClustering，分級聚類（課件9.4P45）：從各類只有一個樣本點(diǎn)開始，逐級合并，每級只合并兩類，直到最后所有樣本都?xì)w到一類。聚類過程中考察類間相似度，依次決定類別數(shù)。MLP，Multi-LayerPerception，多層感知器原理：課件5.4P10。是一種前饋人工神經(jīng)網(wǎng)絡(luò)。它利用三層或者三層以上多個感知器來講輸入數(shù)據(jù)映射為復(fù)雜輸出數(shù)據(jù)，使得分類器可以產(chǎn)生非線性的或者超平面的決策面，從而成為分線性分類器。(Wiki:Amultilayerperceptronisa\o"Feedforward"feedforward\o"Artificialneuralnetwork"artificialneuralnetworkmodelthatmapssetsofinputdataontoasetofappropriateoutput.Itisamodificationofthestandardlinear\o"Perceptron"perceptroninthatitusesthreeormorelayersofneurons(nodes)withnonlinear\o"Activationfunction"activationfunctions,andismorepowerfulthanthe\o"Perceptron"perceptroninthatitcandistinguishdatathatisnotlinearlyseparable,orseparablebya\o"Hyperplane"hyperplane.[1])Nonparametric

Estimation：非參數(shù)估計(課件3.5.1，P36)不假設(shè)概率模型，通過樣本落在區(qū)域的概率來估計出一個概率密度函數(shù)。常用的有窗函數(shù)法（如近鄰估計、Parzen窗估計）。SVM，SupportingVectorMechine，支持向量機(jī)：課件5.5P6（特點(diǎn)是：P13），課本P301。支持向量機(jī)的基本思想可以概括為：首先通過非線性變化將輸入空間變換到一個高維空間，然后在這個新空間中求取最優(yōu)先行分類面，而這種非線性變換是通過定義適當(dāng)?shù)膬?nèi)積函數(shù)K(X,Y)實現(xiàn)的。Fisher's

Linear

Discriminant

Analysis，F(xiàn)isher線性判別分析:Fisher線性判別法是指：將多維判別決策問題通過線性組合降低為1維的時候，選擇一個最優(yōu)的一維線性判別函數(shù)的方法。該方法考慮了不同類別樣本的協(xié)方差和均值之差。決策面法向量為。PCA，PrincipalComponentAnalysis，主成分分析：課件8.2P21，目的：在\o"統(tǒng)計學(xué)"統(tǒng)計學(xué)中，主成分分析（principalcomponentsanalysis(PCA)）是一種簡化數(shù)據(jù)集的技術(shù)。它是一個線性變換。這個變換把數(shù)據(jù)變換到一個新的坐標(biāo)系統(tǒng)中，使得任何數(shù)據(jù)投影的第一大方差在第一個坐標(biāo)（稱為第一主成分）上，第二大方差在第二個坐標(biāo)（第二主成分）上，依次類推。主成分分析經(jīng)常用減少數(shù)據(jù)集的維數(shù)，同時保持?jǐn)?shù)據(jù)集的對方差貢獻(xiàn)最大的特征。這是通過保留低階主成分，忽略高階主成分做到的。這樣低階成分往往能夠保留住數(shù)據(jù)的最重要方面。但是，這也不是一定的，要視具體應(yīng)用而定。RandomForest，隨機(jī)森林：隨機(jī)森林是指通過bootstrapping樣本來生成許多決策樹，對于決策樹上的每一個節(jié)點(diǎn)，選擇m個變量來進(jìn)行決策。計算訓(xùn)練集基于這m個變量的最佳分劃。（Wiki:整理為word格式整理為word格式整理為word格式在\o"機(jī)器學(xué)習(xí)"機(jī)器學(xué)習(xí)中，隨機(jī)森林是一個包含多個\o"決策樹"決策樹的\o"分類器（尚未撰寫）"分類器，并且其輸出的類別是由個別樹輸出的類別的\o"眾數(shù)"眾數(shù)而定。\o"LeoBreiman（尚未撰寫）"LeoBreiman和\o"AdeleCutler（尚未撰寫）"AdeleCutler發(fā)展出推論出隨機(jī)森林的算法。而"RandomForests"是他們的\o"商標(biāo)"商標(biāo)。這個術(shù)語是1995年由貝爾實驗室的\o"TinKamHo（尚未撰寫）"TinKamHo所提出的隨機(jī)決策森林（randomdecisionforests）而來的。這個方法則是結(jié)合Breimans的"\o"Bootstrapaggregating（尚未撰寫）"Bootstrapaggregating"想法和Ho的"randomsubspacemethod""以建造決策樹的集合。）2．2．

200字簡述

4*5=20

a)最小距離分類器何時是最優(yōu)分類器？

b)寫出最小距離分類器，分段線性判別，最近鄰法的關(guān)系

c)寫出決策樹和隨機(jī)森林的關(guān)系，以及為什么要有隨機(jī)森林

記不太清了，貌似有個SVM的原理？

d)寫出K-L變換和PCA的關(guān)系

寫出特征提取和fisher線性判別的關(guān)系最小距離分類器：（課本P120頁）最小距離分類器是指在貝葉斯決策規(guī)則當(dāng)類條件概率密度為正態(tài)分布且各特征統(tǒng)計獨(dú)立同方差時，利用貝葉斯決策規(guī)則在可以得到線性距離判別函數(shù)，特別是當(dāng)時，決策規(guī)則式可以寫成這時的最小距離分類器是滿足貝葉斯決策規(guī)則的最優(yōu)分類器。最小距離分類器是一種分段線性的判別方法。每個樣本點(diǎn)的類別由最近的代表點(diǎn)的類別決定。最近鄰法是這種分類器的一種應(yīng)用，特殊之處在于（課本P120頁）最近鄰法是將每一個樣本都當(dāng)做類別的代表點(diǎn)隨機(jī)森林由多個決策樹組成。隨機(jī)森林的優(yōu)缺點(diǎn)：Wiki:Theadvantagesofrandomforestare:Formanydatasets,itproducesahighlyaccurateclassifierIthandlesaverylargenumberofinputvariablesItestimatestheimportanceofvariablesindeterminingclassificationItgeneratesaninternalunbiasedestimateofthegeneralizationerrorastheforestbuildingprogressesItincludesagoodmethodforestimatingmissingdataandmaintainsaccuracywhenalargeproportionofthedataaremissingItprovidesanexperimentalwaytodetectvariableinteractionsItcanbalanceerrorinclasspopulationunbalanceddatasetsItcomputesproximitiesbetweencases,usefulfor\o"Clustering"clustering,detecting\o"Outlier"outliers,and(byscaling)visualizingthedataUsingtheabove,itcanbeextendedtounlabeleddata,leadingtounsupervisedclustering,outlierdetectionanddataviewsLearningisfastThedisadvantagesofrandomforestare:整理為word格式整理為word格式整理為word格式Randomforestarepronetooverfittingforsomedatasets.Thisisevenmorepronouncedinnoisyclassification/regressiontasks.[6]RandomForestdoesnothandlelargenumbersofirrelevantfeaturesaswellasensemblesofentropy-reducingdecisiontrees.[7]Itismoreefficienttoselectarandomdecisionboundarythananentropy-reducingdecisionboundary,thusmakinglargerensemblesmorefeasible.Althoughthismayseemtobeanadvantageatfirst,ithastheeffectofshiftingthecomputationfromtrainingtimetoevaluationtime,whichisactuallyadisadvantageformostapplications.3.寫出K-L變換和PCA的關(guān)系:PCA和K-L變換目的都是從高維的原始數(shù)據(jù)中提取低維度相關(guān)性低的特征數(shù)據(jù)。（白云飛：PCA針對樣本協(xié)方差矩陣，找出特征值較大的，K-L變換針對產(chǎn)生矩陣，可以根據(jù)不同準(zhǔn)則挑選特征值和特征向量，二者本質(zhì)相同）3．3．構(gòu)造兩類分類器，100個訓(xùn)練數(shù)據(jù)，使用K近鄰法，如何選擇K，給出一個合適的K，說明理由（1*5=5）K值不宜太大，太大則太多干擾樣本點(diǎn)被納入，太小則無法適應(yīng)小規(guī)模錯誤情況，對于100個訓(xùn)練數(shù)據(jù)，一般來說選擇5、7、9比較合適。去奇數(shù)是為了避免出現(xiàn)兩種類別數(shù)相同無法判決的情況。4．SOM若沒有鄰域作用，則變成什么算法？寫出該算法的目標(biāo)函數(shù)，算法基本步驟4．SOM若沒有鄰域作用，則變成什么算法？寫出該算法的目標(biāo)函數(shù)，算法基本步驟（1*15=15）SOM思路類似先作向量量化（聚類），用較少的點(diǎn)（子類）代表原樣本空間，把這些代表點(diǎn)進(jìn)行分類。(Wiki:Aself-organizingmap(SOM)orself-organizingfeaturemap(SOFM)isatypeof\o"Artificialneuralnetwork"artificialneuralnetworkthatistrainedusing\o"Unsupervisedlearning"unsupervisedlearningtoproducealow-dimensional(typicallytwo-dimensional),discretizedrepresentationoftheinputspaceofthetrainingsamples,calledamap.Self-organizingmapsaredifferentfromotherartificialneuralnetworksinthesensethattheyuseaneighborhoodfunctiontopreservethe\o"Topology"topologicalpropertiesoftheinputspace.)如果沒有鄰域作用，就退化一個典型的C均值法。該算法計算步驟（課件9.3，P17）55．綜合題。文本自動分類的原理性設(shè)計，按內(nèi)容分類為軍事，體育，娛樂等。例舉本科所學(xué)內(nèi)容和概念能在這個設(shè)計上怎么體現(xiàn)。1*30=30答：因為是按已知內(nèi)容分類，是一個監(jiān)督學(xué)習(xí)的模式識別問題?？紤]如下監(jiān)督學(xué)習(xí)模式1.隨機(jī)獲取已經(jīng)定義好類別的樣本1.特征提?。好總€樣本進(jìn)行詞頻統(tǒng)計，詞匯來自《辭?！?。假設(shè)辭海有80000個詞，則對每一個樣本，得到一個80000維的特征數(shù)據(jù)。顯然，這是一個高維數(shù)據(jù)。整理為word格式整理為word格式整理為word格式2.特征處理：（1）首先去所有樣本出現(xiàn)頻度都小于一定閾值的詞匯，比方說出現(xiàn)5次。剩下10000維。（2）對這10000維進(jìn)行主成分分析，得到一個低維度的特征數(shù)據(jù)，比如4維。（3）對于這三維，可以進(jìn)行一下分類：k近鄰法、支撐向量機(jī)法（廣義支撐向量機(jī)）、Fisher判別法等。其中Fisher判別再次降維后還可以運(yùn)用基于最小錯誤率的貝葉斯決策3．對于以上監(jiān)督學(xué)習(xí)模式的樣本可以進(jìn)行同一個方法的交叉驗證，去除一定的干擾。附加題附加題．說明兩類錯誤率。在SVM線性不可分的情況下，如何把最小風(fēng)險的概念引入SVM，對目標(biāo)函數(shù)應(yīng)該怎樣修正。（最多10分，全卷不會超過100分）

答：（1）兩類錯誤率為“拒真納偽”。（2）（課本P298）如果線性不可分，就是某些樣本不能滿足條件時，引入松弛因子，使得條件變成，對于足夠小的，只要使最小就能使錯分樣本數(shù)最小。對應(yīng)線性可分情況下的使分類間隔最大，在線性不可分的時候引入約束，最終得到目標(biāo)函數(shù)，C為某個指定常數(shù)，起著控制對錯分樣本懲罰的程度（風(fēng)險）的作用。關(guān)于風(fēng)險的討論在課本P299頁卷四、2007~2008秋_模式識別_張學(xué)工_期末A（略）

卷五、2006~2007秋_模式識別_張學(xué)工_期末B1.

寫出英文全稱并解釋相應(yīng)的概念或者方法的原理30%

a)非參數(shù)估計

b)非監(jiān)督模式識別1.

寫出英文全稱并解釋相應(yīng)的概念或者方法的原理30%

a)非參數(shù)估計

b)非監(jiān)督模式識別

c)最大似然估計

d)MDS

e)推廣能力

f)kNN答：其他見前文卷子。MDS：\o"Multi-DimensionalScaling(pagedoesnotexist)"Multi-DimensionalScaling,Multidimensionalscaling(MDS)isasetofrelated\o"Statistical"statisticaltechniquesoftenusedin\o"Informationvisualization"informationvisualizationforexploringsimilaritiesordissimilaritiesindata.MDSisaspecialcaseof\o"Ordination(statistics)"ordination.AnMDSalgorithmstartswitha\o"Matrix(mathematics)"matrixofitem–item\o"Similarity(mathematics)"similarities,thenassignsalocationtoeachiteminN-dimensionalspace,whereNisspecifiedapriori.ForsufficientlysmallN,theresultinglocationsmaybedisplayedinagraphor\o"3Dvisualisation"3Dvisualisation.這里附上紅寶書預(yù)測詞匯：LDF:LinearDiscriminantFunctions線性判別函數(shù)。ISOMAP\o"Isomap"Isomap[6]isacombinationofCurvilinearDistanceAnalysis(CDA)and\o"MultidimensionalScaling"MultidimensionalScaling(MDS).BothCDAandIsomapbeginbyfindingasetofthenearestneighborsofeachpoint.Theyseektopreservethegeodesicdistancesbetweenpointswhileprojectingthedataintofewerdimensions.Geodesicdistanceisdefinedasthelengthoftheshortestpathbetweentwopointsthatstaysonthemanifoldsurface.Thesealgorithmsestimategeodesicdistancesbyfindingtheshortestneighbor-to-neighborpathbetweeneverypairofpoints,whichcanbecomputedefficientlyusing整理為word格式整理為word格式整理為word格式\o"Dijkstrasalgorithm"Dijkstrasalgorithm.LLELocally-LinearEmbedding(LLE)[8]waspresentedatapproximatelythesametimeasIsomap.IthasseveraladvantagesoverIsomap,includingfasteroptimizationwhenimplementedtotakeadvantageofsparsematrixalgorithms,andbetterresultswithmanyproblems.LLEalsobeginsbyfindingasetofthenearestneighborsofeachpoint.Itthencomputesasetofweightsforeachpointthatbestdescribethepointasalinearcombinationofitsneighbors.Finally,itusesaneigenvector-basedoptimizationtechniquetofindthelow-dimensionalembeddingofpoints,suchthateachpointisstilldescribedwiththesamelinearcombinationofitsneighbors.LLEtendstohandlenon-uniformsampledensitiespoorlybecausethereisnofixedunittopreventtheweightsfromdriftingasvariousregionsdifferinsampledensities.LLEhasnointernalmodel.2.

如果用kNN來解決作業(yè)中的男女生訓(xùn)練樣本問題，那么你如何選擇k？簡述理由

答：K=5,7,9,理由見卷子3.

12%

無鄰域相互作用的SOM的相當(dāng)于是優(yōu)化什么目標(biāo)函數(shù)，寫出目標(biāo)函數(shù)。8%

12%

無鄰域相互作用的SOM的相當(dāng)于是優(yōu)化什么目標(biāo)函數(shù)，寫出目標(biāo)函數(shù)。8%

答：Cmeans，見前文4.

1)簡述兩類錯誤率的概念，并由此談一談最小風(fēng)險錯誤率Bayes分類器的原理？

2)怎么把最小風(fēng)險的概念引入線性SVM中（考慮線性不可分的情況），嘗試寫出公式6%

3)怎么把最小風(fēng)險的概念引入Fisher線性判別中，簡述一下。6%4.

1)簡述兩類錯誤率的概念，并由此談一談最小風(fēng)險錯誤率Bayes分類器的原理？

2)怎么把最小風(fēng)險的概念引入線性SVM中（考慮線性不可分的情況），嘗試寫出公式6%

3)怎么把最小風(fēng)險的概念引入Fisher線性判別中，簡述一下。6%答：見前文5.

現(xiàn)在先要建立一種針對不同用戶的文本郵件分類系統(tǒng)，比如分成私人郵件，公務(wù)郵件等。描述怎么建立，課上講的哪些方法和概念可以用到5.

現(xiàn)在先要建立一種針對不同用戶的文本郵件分類系統(tǒng)，比如分成私人郵件，公務(wù)郵件等。描述怎么建立，課上講的哪些方法和概念可以用到？30%

答：見前文

卷六、2005~2006秋_模式識別_張學(xué)工_期末張老師說：言多必失

10%

簡述最小錯誤率Bayes分類器的原理和適用范圍

10%

簡述最小錯誤率Bayes分類器的原理和適用范圍

答：（NBA@zzxy說）：原理：通過觀察x把狀態(tài)的先驗概率轉(zhuǎn)化為狀態(tài)的后驗概率，比較不同的后驗概率并作出決策。適用范圍：各類別總體的概率分布是已知的，要決策分類的類別數(shù)是一定的，離散數(shù)據(jù)，相較其它算法可以解決高維問題。整理為word格式整理為word格式整理為word格式2.

10%

什么是分類器的錯誤率？如何估計？

簡述兩類錯誤率的概念，以及如何控制兩類錯誤率的影響？

答：兩類錯誤率是：拒真納偽?？刂苾深愬e誤率（1）選擇更好的特征。（2）對特征進(jìn)行提取。（3）變更分類器。（4）同一種分類器引入風(fēng)險函數(shù)進(jìn)行權(quán)衡（Tradeoff）3.

10%

寫出英文全稱

模式識別

似然函數(shù)

非監(jiān)督學(xué)習(xí)

非參數(shù)估計

SVM

MLP

PCA

MDS(必殺!)

k-NN

SOM

10%

寫出英文全稱

模式識別

似然函數(shù)

非監(jiān)督學(xué)習(xí)

非參數(shù)估計

SVM

MLP

PCA

MDS(必殺!)

k-NN

SOM

答：PatternRecognition;LikelihoodFunction;UnsupervisedLearning;Non-parametricalEstimation4.

10%

無鄰域相互作用的SOM的準(zhǔn)則函數(shù)？(記不清怎么說的了..)

10%

無鄰域相互作用的SOM的準(zhǔn)則函數(shù)？(記不清怎么說的了..)

C-means，見前文

15%

學(xué)號末兩位和為奇數(shù)用身高數(shù)據(jù)，為偶數(shù)用體重數(shù)據(jù)

體重：

進(jìn)行平均距離分級聚類，給出分類樹，給出每級的距離矩陣。

聚為幾類合適？為什么？5.

15%

學(xué)號末兩位和為奇數(shù)用身高數(shù)據(jù)，為偶數(shù)用體重數(shù)據(jù)

體重：

進(jìn)行平均距離分級聚類，給出分類樹，給出每級的距離矩陣。

聚為幾類合適？為什么？(((67,68)),50),(55,57)),分為兩類合適。每級距離矩陣：(((67[1]68))[方差*]50)[方差**](55[1.414]57)),6.

15%

參數(shù)估計和非參數(shù)估計的概念？最大似然估計和Parzen窗法的原理？

如何估計錯誤率？6.

15%

參數(shù)估計和非參數(shù)估計的概念？最大似然估計和Parzen窗法的原理？

如何估計錯誤率？答：參數(shù)估計：已知概率模型，根據(jù)樣本對參數(shù)進(jìn)行估計。非參數(shù)估計：未知概率模型，通過樣本對概率模型進(jìn)行直接估計。最大似然估計：在參數(shù)估計中選取使樣本出現(xiàn)概率最大（MostLikelihood）的參數(shù)進(jìn)行的估計。Parzen窗法是一種非參

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

模式識別基礎(chǔ)復(fù)習(xí)資料Word版

文檔簡介

溫馨提示

最新文檔

評論

模式識別基礎(chǔ)復(fù)習(xí)資料Word版

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔