《模式識別》(張向榮)教案全套 第1-10章 模式識別概論-半監(jiān)督學(xué)習(xí)_第1頁
《模式識別》(張向榮)教案全套 第1-10章 模式識別概論-半監(jiān)督學(xué)習(xí)_第2頁
《模式識別》(張向榮)教案全套 第1-10章 模式識別概論-半監(jiān)督學(xué)習(xí)_第3頁
《模式識別》(張向榮)教案全套 第1-10章 模式識別概論-半監(jiān)督學(xué)習(xí)_第4頁
《模式識別》(張向榮)教案全套 第1-10章 模式識別概論-半監(jiān)督學(xué)習(xí)_第5頁
已閱讀5頁,還剩39頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

PAGEPAGE10《模式識別》教案人工智能學(xué)院課程名稱:學(xué)分/學(xué)時:3/40+16適用專業(yè):先修課程:概率論與數(shù)理統(tǒng)計、線性代數(shù)后續(xù)課程:機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘開課單位:人工智能學(xué)院智能所一、課程性質(zhì)和教學(xué)目標(biāo)課程性質(zhì):智能科學(xué)與技術(shù)專業(yè)的專業(yè)必修課。二、課程教學(xué)內(nèi)容及學(xué)時分配詳見表格。三、教學(xué)方法四、考核及成績評定方式最終成績由平時成績和期末成績組合而成,所占比例如下:平時成績:40%。其中包含出勤率、平時作業(yè)、課堂展示和上機(jī)C++或Matlab期末考試成績:60%。主要考核對模式識別基礎(chǔ)知識的掌握程度。五、教材及參考書目教材:張向榮馮婕焦李成劉芳,《模式識別》,西安電子科技大學(xué)出版社,2019參考書目:RichardGStork2003AndrewD.Copsey20043.吳建鑫,《模式識別》,機(jī)械工業(yè)出版社,20204.孫即祥,現(xiàn)代模式識別,高等教育出版社,2008課程名稱模式識別年級大三授課方式講課+學(xué)生展示+上機(jī)授課學(xué)時2授課內(nèi)容第一講授課教師唐旭授課章節(jié)第一章模式識別概論1.1什么是模式識別基本要求重點(diǎn)、難點(diǎn)(1)YF(x)解讀:x的定義域取自特征集,Y的值域為類別的標(biāo)號集,F(xiàn)是模式識別的判別方法。(3)鱸魚和鮭魚識別步驟如下:abcd.設(shè)計分類器,對鱸魚和鮭魚進(jìn)行分類。(4)模式識別過程(5)有監(jiān)督學(xué)習(xí)(Supervisedlearning)(6)無監(jiān)督學(xué)習(xí)(Unsupervisedlearning)樣本的類別標(biāo)記和分類代價未知,由聚類器形成“聚類”(clusters)或者“自然組織(naturalgroupings)”。事先不知有多少類,有哪些類,只能根據(jù)樣本間的相似性進(jìn)行聚合。課外學(xué)習(xí)要求復(fù)習(xí)先驗概率、條件概率、全概率公式等相關(guān)內(nèi)容課程名稱模式識別年級大三授課方式講課+學(xué)生展示+上機(jī)授課學(xué)時2授課內(nèi)容第二講授課教師唐旭授課章節(jié)第一章模式識別概論1.5模式識別方法1.6模式識別應(yīng)用領(lǐng)域第二章貝葉斯決策理論2.1引言2.2基于最小錯誤率的貝葉斯決策基本要求重點(diǎn)、難點(diǎn)a.模板匹配b.統(tǒng)計方法decisionboundaryc.句法方法d.神經(jīng)網(wǎng)絡(luò)(2)模式識別的應(yīng)用領(lǐng)域廣泛,例如,文字處理、生物特征識別、生物醫(yī)學(xué)、遙感、文檔分類、預(yù)測決策、機(jī)器人等等。(3)貝葉斯決策的兩個要求:①各個類別的總體概率分布(先驗概率和類條件概率密度)是已知的②要決策分類的類別數(shù)是一定的最小錯誤率準(zhǔn)則最小風(fēng)險準(zhǔn)則Neyman-Pearson(黎曼皮爾遜)準(zhǔn)則最小最大決策準(zhǔn)則(4)幾個重要概念a.先驗概率Pi表示未獲得觀測數(shù)據(jù)之前類別的分布;b.類條件概率pxi表示在類條件下x的概率分布密度;c后驗概率Pix表示在x出現(xiàn)條件i下類出現(xiàn)的概率。課程名稱模式識別年級大三授課方式講課+學(xué)生展示+上機(jī)授課學(xué)時2授課內(nèi)容第三講授課教師唐旭授課章節(jié)第二章貝葉斯決策理論基本要求了解基于最小錯誤率的貝葉斯決策和基于最小風(fēng)險的貝葉斯決策重點(diǎn)、難點(diǎn)(1)采用類條件信息——類條件概率密度函數(shù)P(x|1):鱸魚的屬性分布;P(x|2):鮭魚的屬性分布(2)貝葉斯公式先驗概率,后驗概率,概率密度函數(shù)之間關(guān)系P(|x P(x|)P(i) i2P(x)P(x|)P()2i 2 j jP(x|j)P(j) jj1為x的概率密度貝葉斯公式通過類條件概率密度形式的觀察值,將先驗概率轉(zhuǎn)化為后驗概率。(3)后驗概率含義P(1|x):表示當(dāng)觀測向量為x值時,是鱸魚的概率。P(2|x):表示當(dāng)觀測向量為x值時,是鮭魚的概率。(4)基于最小錯誤率的貝葉斯決策如下:P(1|x)P(2|x),x1P(1|x)P(2|x),x2等價形式|x)P(j|x),xi,P(x|i)P(i)P(x|j)P(j),xi,jjl(x)P(x|1)P(2),x1,P(x|)P() 2 1 2)ln(h(x)ln[l(x)]lnp(x|)lnp(x| )),x)ln(1 2 P()2 2(5)最小風(fēng)險貝葉斯決策上述最小錯誤率決策中,使錯誤率達(dá)到最小是重要的。但實際上,有時候需要考慮一個比錯誤率更廣泛的概念—風(fēng)險,而風(fēng)險又是和損失緊密相連的。我們對樣本的分類不僅要考慮到盡可能作出正確的判斷,而且還要考慮到作出錯誤判斷時會帶來什么后果。最小風(fēng)險貝葉斯決策正是考慮各種錯誤造成損失不同而提出的一種決策規(guī)則。jj最小風(fēng)險貝葉斯決策規(guī)則為:如果R(aii。實現(xiàn)過程:

x)min{(aj1,...,a

x)},則①已知先驗概率和類條件概率,根據(jù)貝葉斯公式計算出后驗概率;②利用后驗概率和決策表,計算采取每種決策的條件風(fēng)險;③比較各個條件風(fēng)險的值,找出條件風(fēng)險最小的決策。課程名稱模式識別年級大三授課方式講課+學(xué)生展示+上機(jī)授課學(xué)時2授課內(nèi)容第四講授課教師唐旭授課章節(jié)第二章貝葉斯決策理論基本要求了解正態(tài)分布時的統(tǒng)計決策重點(diǎn)、難點(diǎn)(1)判別函數(shù)(DiscriminantFunction)用于表決策的某些數(shù)gi(x)稱為別函數(shù)每個別對應(yīng)一判別,gi(x),i,cgi(xkgi(x,k為正常數(shù)gi(xgi(xk,kgi(x),ln(gi(x))用f(gi(x))替換gi(x),其中f()為單調(diào)遞增函數(shù)(2)決策面對于cd維特征空間分成c判決區(qū)域Ri是特征空間中的一個子空間,判決規(guī)則將所有落入Ri的樣本x分類為類別i;(超平面;(3)分類器設(shè)計gx。gixi2, cgjxi,jgixgjxgi(x)p(i|x)gi(x)p(x|i)p(i)gi(x)lnp(x|i)lnp(i)gixRix(4)兩分類下的判別函數(shù)和多分類下的判別函數(shù)gxxg2x②對于多類問題,模式有1,2,...,c個類別。轉(zhuǎn)換成多個兩分類問題??煞秩N情況:a.每一模式類與其它模式類間可用單個判別平面把一個類分開。b.每個模式類和其它模式類間可分別用判別平面分開。c.每類都有一個判別函數(shù)。課程名稱模式識別年級大三授課方式講課+學(xué)生展示+上機(jī)授課學(xué)時2授課內(nèi)容第五講授課教師唐旭授課章節(jié)第三章線性和非線性判別分析3.1Fisher線性判別基本要求Fisher重點(diǎn)、難點(diǎn)(1)線性判別函數(shù)的一般形式①gxwTxw0式中,x為d特征量x,x, ,xT,又稱本向,1 2 dww,w, ,wTgx0w1 2 d 0數(shù),成為閾值權(quán)或者偏置。②決策規(guī)則gxxg2x如果gx0,則決策xgx0,則決策x2gx0,可將x任意分到某一類,或拒判。(2)Fisher準(zhǔn)則函數(shù)YFisher目標(biāo)函數(shù):S ()2J(w)b1 2 J(w)S S2S2 , w 1 2 w其中()2表示不同類的投影點(diǎn)盡量分開,S2S2表示同一1 2 1 2類的投影點(diǎn)盡量靠近。(3)Fisher準(zhǔn)則函數(shù)求解將J(w變成w的顯函數(shù)w*經(jīng)過推導(dǎo),可得w*S1μμw 1 2(3)Fisher線性分類一維空間的分類面是一個點(diǎn),將兩類分開即是確定一個閾值w0,分類規(guī)則如下,y,x1,yw,x 0 2 NN np1p2其中1 2或11 22或1 2 2 N1N2 2 N1N22課外學(xué)習(xí)要求第一次大作業(yè)Fisher辨別分析UCIIrissonar34150Sonar260208訓(xùn)練和測試樣本有三種方式進(jìn)行劃分:(三選一)1)將數(shù)據(jù)隨機(jī)分訓(xùn)練和測試,多次平均求結(jié)果2)k折交證3)留1法(針對不同維數(shù),畫出曲線圖;)仿真結(jié)果+報告。課程名稱模式識別年級大三授課方式講課+學(xué)生展示+上機(jī)授課學(xué)時2授課內(nèi)容第六講授課教師唐旭授課章節(jié)第三章線性和非線性判別分析3.2感知準(zhǔn)則函數(shù)基本要求了解不同線性判別函數(shù)的算法和步驟重點(diǎn)、難點(diǎn)(1)基本概念①線性可分性假設(shè)樣本集D1,x2, ,xm,為樣本個數(shù)m,為n維向量,其中包含類和2。果存在個向滿足如條件:aTx0,x, i i 1aTx0,x,i i 2則稱樣本集是線性可分的,反之是線性不可分的。②樣本的規(guī)范化;對于線性可分的樣本集,若令xxi,xi1,,則樣本集線性i x,x, i i 2可分的條件可改寫為aTx0。iixi。③解向量和解區(qū)對于線性可分的一組樣本1,x2, ,xm(規(guī)范化增廣樣本向量),若存在一個權(quán)向量a*滿足a*Tx0,則稱a*為一個解向量,在i權(quán)值空間中所有解向量組成的區(qū)域稱作為解區(qū)。④對解區(qū)的限制b0xi滿足axbTibxi。入余量b主要是為了避免求解權(quán)向量的算法收斂到解區(qū)邊界的某點(diǎn)上。(2)感知器算法基本思想:采用感知器算法(PerceptionApproach)能通過對訓(xùn)練模式樣本集的“學(xué)習(xí)”得到判別函數(shù)的系數(shù)。樣本線可分足wT,i,, ,N其xi,xi1i i x,x i i 2對于權(quán)向量w,如果某個樣本x被錯誤分類,wTx0。k i定JwwT。p kwTxk0當(dāng)且僅當(dāng)函數(shù)取得最小值0時,求得最優(yōu)的w??梢杂锰荻认陆捣ㄟM(jìn)行求解。(3)三種梯度下降優(yōu)化框架批量梯度下降法BatchGradientDescent,BGD隨機(jī)梯度下降法StochasticGradientDescent,SGD小批量梯度下降法Mini-batchGradientDescent,MBGD課程名稱模式識別年級大三授課方式講課+學(xué)生展示+上機(jī)授課學(xué)時2授課內(nèi)容第七講授課教師唐旭授課章節(jié)第三章線性和非線性判別分析3.3廣義線性判別分析3.4k近鄰基本要求了解多類分類問題的設(shè)計;掌握最近鄰和k-近鄰算法重點(diǎn)、難點(diǎn)(1)廣義線性判別函數(shù)判別函數(shù)的一般形式:k1gxf1xf2x fkxfix,i1i,kfixfkx1k1gxwfx換iii1WTYgY0,x10,x 2(2)近鄰法(程)近鄰法則在原理上屬于模板匹配。(3)最近鄰法算法思想將與測試樣本最近鄰樣本的類別作為決策的方法。對一個C類別問題每類有Ni個樣本,C則第i類的判別函數(shù):gxminxxk,k,N,i k i i其中xk表示是類的第k個樣本。i i最近鄰規(guī)則是次優(yōu)的方法,通常的錯誤率比最小可能錯誤率(即最小貝葉斯法則的錯誤率)要大。補(bǔ)充:這里需要補(bǔ)充常見的距離尺度度量。(4)K-近鄰法則kK在所有N個樣本中找到與測試樣本的k個最近鄰者,其中第i個類別所占數(shù)為gix,i2, ,c,策規(guī)則:如果gjxgix,i則決策xj。K近鄰一般采用k為奇數(shù),跟投票表決一樣,避免因兩種票數(shù)相等而難以決策。(5)近鄰法的快速算法剪輯最近鄰方法:壓縮最近鄰方法:剪輯的結(jié)果只是去掉了兩類邊界附近的樣一般稱這類方法為壓縮近鄰法。第二次大作業(yè)分析K近鄰算法的錯誤率推薦數(shù)據(jù)集課外學(xué)習(xí)要求數(shù)據(jù):UCI數(shù)據(jù)庫1中sonar和Iris數(shù)據(jù);自然圖像:Mnist手寫體數(shù)據(jù)集2、CIFAR數(shù)據(jù)集3;遙感圖像:UCM數(shù)據(jù)集4,NWPU數(shù)據(jù)集5。作業(yè)形式:程序+大報告+上機(jī)課演示1/ml/index.php2/exdb/mnist/3/~kriz/cifar.html4/datasets/landuse.html5/people/JunweiHan/NWPU-RESISC45html課程名稱模式識別年級大三授課方式講課+學(xué)生展示+上機(jī)授課學(xué)時2授課內(nèi)容第八講授課教師唐旭授課章節(jié)第三章線性和非線性判別分析3.5決策樹基本要求了解ID3決策樹構(gòu)建方法及特點(diǎn)重點(diǎn)、難點(diǎn)(1)決策樹個子節(jié)點(diǎn)樣本()(2)ID3ID3ID3(當(dāng)?shù)姆种В貜?fù)上面的過程。PAGEPAGE20決策樹節(jié)點(diǎn)停止分裂的一般性條件:①最小節(jié)點(diǎn)數(shù)②熵或者基尼值小于閥值。③決策樹的深度達(dá)到指定的條件④所有特征已經(jīng)使用完畢,不能繼續(xù)進(jìn)行分裂。ID3缺點(diǎn):③不能處理缺省值④沒有對決策樹進(jìn)行剪枝處理,很可能會出現(xiàn)過擬合的問題(3)C4.5C4.5是對ID3的改進(jìn)算法①對連續(xù)值的處理②對未知特征值的處理④規(guī)則的派生課程名稱模式識別年級大三授課方式講課+學(xué)生展示+上機(jī)授課學(xué)時2授課內(nèi)容第九講授課教師唐旭授課章節(jié)無具體內(nèi)容翻轉(zhuǎn)課堂,前三章復(fù)習(xí)基本要求PAGEPAGE21課程名稱模式識別年級大三授課方式講課+學(xué)生展示+上機(jī)授課學(xué)時2授課內(nèi)容第十講授課教師唐旭授課章節(jié)第四章無監(jiān)督模式識別4.1高斯混合模型(GMM)4.1.1單高斯模型4.1.2高斯混合模型基本要求了解高斯混合模型用于聚類應(yīng)用的方法重點(diǎn)、難點(diǎn)(1)高斯混合模型(GMM)k(EM)(2)單高斯模型基本定義:若隨機(jī)變量x服從一個數(shù)學(xué)期望為u、方差為2的高斯分布,則該分布記為Nu,2。在統(tǒng)計學(xué)中,u指的就是樣本均值,2為標(biāo)準(zhǔn)差。一維情況下高斯分布的概率密度函數(shù)為:1 xu2Nx;u, exp 2 2 高維情況下的高斯分布模型的概率密度函數(shù)為:N;, 1 p1xuT1xu 2 其中x是duu差(3)高斯混合模型高斯混合模型假定樣本數(shù)據(jù)分布服從幾個高斯分布的加權(quán)和K的形式PrxkN;uk,k。k1其中的任意一個高斯分布稱作這個模型的一個分量。k是混合K系數(shù),表示每個分量的權(quán)重。需滿足:k1,0k1。k1(4)將高斯混合模型用于聚類的具體步驟Step1:以k為概率隨機(jī)選擇K個高斯分布分量中的一個;Step2Step1Step1課程名稱模式識別年級大三授課方式講課+學(xué)生展示+上機(jī)授課學(xué)時2授課內(nèi)容第十一講授課教師唐旭授課章節(jié)第四章無監(jiān)督模式識別4.1高斯混合模型4.1.3EM算法求解高斯混合模型4.2動態(tài)聚類算法4.2.1K-均值算法基本要求了解高斯混合模型用于聚類應(yīng)用的方法;了解K均值算法。重點(diǎn)、難點(diǎn)(1)EM算法EM步計算最大化在E步上找到的期望對數(shù)似然的參數(shù)。然后用這些參數(shù)估計來確定下一步中隱含變量的分布。EM要求解問題X的一般形式是:*argmaxPr(Xx,Yy;)。 jjyY其中Y是隱含變量,如果已知數(shù)據(jù)點(diǎn)的分類標(biāo)簽Y,則可以使用最大似然估計直接求解模型參數(shù)。EM算法的基本思路是:隨機(jī)初始化一組模型參數(shù)(0),并根據(jù)后驗概率更新Y的預(yù)期E(Y),然后用E(Y)代替Y求出新的模型參數(shù)(1)。如此迭代直到趨于穩(wěn)定。EM算法的具體步驟:Step1k設(shè)置kuk和k的初始值,然后計算對數(shù)似然函數(shù);Step2:E步:假設(shè)模型參數(shù)已知,引入隱含變量,該隱變量在高斯混合模型中表示數(shù)據(jù)點(diǎn)由各個分量生成的概率。(i,k) kN(xn|uk,k)KNx|u,)j n j jj1Step3:M(ik就是“數(shù)據(jù)點(diǎn)由分量k4.1.2kuk和kNNk(i,k)i1 N1(i,k)(xu)(xu)Tk N i k i kki1 Nu1(i,k)xk N iki1 NKk NN KStep4log{kN(x;ukki1 kStep5:檢查參數(shù)是否收斂或?qū)?shù)似然函數(shù)是否收斂,若不收斂,則返回Step2。(2)K-均值算法數(shù)據(jù)的優(yōu)化過程是從“不合理”劃分到“最佳”劃分,是一個動態(tài)的迭代過程。K-均值(K-means算法要點(diǎn):K均值準(zhǔn)則函數(shù):k kJJ||xm||2i ii1 i1算法流程:Step1:初始化:隨機(jī)選擇k個樣本點(diǎn),并將其視為各聚類的初始中心m1,m2,...,mk;Step2:按照最小距離法則逐個將樣本x劃分到以聚類中心m1,m2,...,mk為代表的k個類C1,C2,...,Ck中;Step3:計算聚類準(zhǔn)則函數(shù)J,重新計算k個類的聚類中心m1,m2,...,mk;Step23知道聚類中心函數(shù)J不減小。優(yōu)點(diǎn):簡單、快速。對處理大數(shù)據(jù)集,該算法是相對可伸縮和高效率的。缺點(diǎn):結(jié)果與初始聚類中心有關(guān);必須預(yù)先給出聚類的類別數(shù)k;不適合發(fā)現(xiàn)非凸面形狀的聚類課程名稱模式識別年級大三授課方式講課+學(xué)生展示+上機(jī)授課學(xué)時2授課內(nèi)容第十二講授課教師唐旭授課章節(jié)第四章無監(jiān)督模式識別4.2動態(tài)聚類算法4.2.2模糊聚類算法4.2.3密度聚類法基本要求了解模糊C均值(FCM)算法,DBSCAN算法重點(diǎn)、難點(diǎn)(1)模糊數(shù)學(xué)基本知識1965L.A.ZadehFuzzySets隸屬度函數(shù):表示一個對象xA常記為AxA即集A),取值范圍是0,1,即0Ax1。XxA。對于限個象x2, ,xn,模糊合A可以示為:AAxi,xi。模糊集的基本運(yùn)算:并集:ABxxAx,Bx,交集:ABxinAx,Bx,Ax1Bx。特征模糊化:特征的模糊化是指根據(jù)一定的規(guī)則把普通意義下的一個或幾個特征變量變成多個模糊變量,用來表達(dá)原始特征的某一局部特性。模糊分類:用模糊子集代替確定子集,從而得到模糊的分類結(jié)果,即分類結(jié)果的模糊化。(2)模糊C均值(FCM)算法C均值:把N個樣本{x1,x2,...,xN}劃分成C個子類G1,G2,...,GCCJxm2,i jj1xiG其中mj為第j個子類Gj的聚類中心;xi表示分到Gj的所有樣本,j1,2,...,C。CCj(xi是第i個樣本j類GjCNJ[(x)]bxm2,f j i i jj1i1其中b1是一個可以控制聚類結(jié)果的模糊程度的常數(shù)。約束條件為一個樣本屬于各個聚類的隸屬度之和為1,即Cj(xi)1,(i1,2,...,N)。j1利用拉格朗日乘數(shù)法來求解在條件式(2)約束下式(1)的極小值。令優(yōu)化的目標(biāo)函數(shù)為L[(x)]bxm2(x),CN N Cj i i j i j i ji1 i1 j分別求L對mjj(xi0Nx)bxj i imji1 ,(j2,...,C),Nx)bj ii11ximj 21b1j(xi)C 1b1i2N;j2C。1ximj 2j1(3)DBSCAN算法描述nMinPts①Repeat②從數(shù)據(jù)庫中抽取一個未處理過的點(diǎn);③If④找出所有從該點(diǎn)密度可達(dá)的對象,形成一個簇;⑤Else()⑥跳出本次循環(huán),尋找下一個點(diǎn);⑦Until課外學(xué)習(xí)要求第三次大作業(yè)Kmeans和FCM算法性能比較,要求如下:1.查閱無監(jiān)督聚類的評價標(biāo)準(zhǔn)有哪些,選擇其中一個標(biāo)準(zhǔn)作為后續(xù)試驗的驗證指標(biāo)。2kmeansFCM選做:利用圖像分割任務(wù)驗證算法。課程名稱模式識別年級大三授課方式講課+學(xué)生展示+上機(jī)授課學(xué)時2授課內(nèi)容第十三講授課教師唐旭授課章節(jié)第四章無監(jiān)督模式識別4.3層次聚類算法基本要求了解相關(guān)的層次聚類算法重點(diǎn)、難點(diǎn)(1)層次聚類算法(2)自上而下的算法KKStepCStep2:使用K-均值算法把簇C劃分成指定的K個子簇,i1,2,...,k,形成一個新的層;Step2KK(),(3)自下而上的算法K對于樣本數(shù)據(jù)集D{x1,x2,...,xn}Step1:把將數(shù)據(jù)集中的每個樣本單獨(dú)看成一個簇,得到最底層的簇的集合C{c1,c2,...,cn},其中每個簇只含有一個樣本ci{xi};Step2:重復(fù)以下步驟,直到所有樣本被聚類到同一個簇或者滿足特定的停止條件:①從C中找到兩個“距離”最近的簇:minD(ci,cj);②合并簇ci和cj,形成新的簇cij;③從C中刪除簇ci和cj,添加簇cij和cj,計算D(c1c2有以①單連鎖:把兩個簇中相距最近的兩個點(diǎn)之間的距離作為簇間距離。距離。課程名稱模式識別年級大三授課方式講課+學(xué)生展示+上機(jī)授課學(xué)時2授課內(nèi)容第十四講授課教師唐旭授課章節(jié)第五章特征選擇5.1引言基本要求了解特征優(yōu)化方法,類別可分離性判據(jù)及經(jīng)典特征選擇算法重點(diǎn)、難點(diǎn)(1)特征優(yōu)化特征優(yōu)化有兩種方法:假設(shè)有D維特征向量空間,y{y1,y2,...,yD}y:①特征選擇是指從原有的D后的dxdDxy的一個子集,因此每個分量xi必然能在原特征集中找到其對應(yīng)的描述量xiyj。A:YX函數(shù),即xWTyi j(2)類別可分離性判據(jù)①基于距離的可分性判據(jù)Fisher準(zhǔn)則是以使類間距離盡可能大同時又保持類內(nèi)距離較小這一種原理為基礎(chǔ)的。同樣在特征選擇中也可以使用類似的原理,這一類被稱為基于距離的可分性判據(jù)。優(yōu)點(diǎn):定義直觀、易于實現(xiàn),因此比較常用。②基于概率分布的可分性判據(jù)p(x|2p(x|端情況是對所有xp(x|p(x|2x③基于熵函數(shù)的可分性判據(jù)特征對分類的有效性也可以從后驗概率角度來考慮。把類別i2c機(jī)向量x,給定x后|x)i如果根據(jù)x能完全確定,則就沒有不確定性,對本身的如果x完全不能確定,則不確定性最大,對本身的觀察所提供信息量最大,此時熵為最大,特征最不利于分類。(3)①最優(yōu)搜索算法:分枝定界法lrl-r法)③智能優(yōu)化算法:遺傳算法、模擬退火法等。課程名稱模式識別年級大三授課方式講課+學(xué)生展示+上機(jī)授課學(xué)時2授課內(nèi)容第十五講授課教師唐旭授課章節(jié)第八章支撐向量機(jī)8.1支持向量機(jī)的引入基本要求了解間隔的概念,數(shù)據(jù)集的線性可分性、超平面、函數(shù)間隔、幾何間隔等基本概念,掌握支撐矢量機(jī)學(xué)習(xí)算法。重點(diǎn)、難點(diǎn)(1)數(shù)據(jù)集的線性可分性12m位移項b,使得超平面TxbTxby1 i i Txby1i i(2)支撐矢量機(jī)學(xué)習(xí)算法根據(jù)訓(xùn)練數(shù)據(jù)是否線性可分,支持向量機(jī)方法可分為三種模型:線性可分支持向量機(jī)線性支持向量機(jī)非線性向量機(jī)(3)線性可分支持向量機(jī)求解相應(yīng)的凸二次規(guī)劃問題學(xué)習(xí)得到的分離超平面Txb為以及相應(yīng)的分類決策函數(shù)f(x)signTxb)稱為線性可分支持向量機(jī)。1,也即是定義離超平面最近的點(diǎn)的距離為1。對目標(biāo)函數(shù)進(jìn)行改寫后,得到如下的優(yōu)化問題:min12式(1),,b2s.t.y(Txb)imi iTx1x2y2),...(xmym)},其xRnyi2n(1)的i i約束最優(yōu)化問題得到最優(yōu)解,*、b*,從而得到最大間隔分離超平面和分類決策函數(shù)。輸出:最大間隔劃分超平面和分類決策函數(shù)。(4)線性SVM的學(xué)習(xí)T{(xyxy),...(xyxRn。若1 1 2 2 m m i(outlier),課程名稱模式識別年級大三授課方式講課+學(xué)生展示+上機(jī)授課學(xué)時2授課內(nèi)容第十六講授課教師唐旭授課章節(jié)第八章支撐向量機(jī)SMO基本要求了解非線性支持向量機(jī)的學(xué)習(xí)、核函數(shù)的定義、核函數(shù)有效性判定、Mercer定理及SMO算法原理重點(diǎn)、難點(diǎn)(1)非線性支持向量機(jī)的學(xué)習(xí)核技巧基本是通過個非變換將入空(式空間或者散集映射到個特(爾伯空使在輸入空間 n中的面模型應(yīng)于空間H中的超平型。從而通在特間H中求解先行向量機(jī)可以行分類(2)核函數(shù)的定義設(shè)是輸入空間(歐式空間Rn的子集或離散集合),H是特征空間(希爾伯特空間),如果存在一個到H的映射:(x):H使得對所有的x,z,函數(shù)K(x,z)滿足條件:K(x,z)(x)(z)那么K(x,z)稱為核函數(shù),(x)為映射函數(shù)。核技巧并不顯式地定義映射函數(shù),它通過在學(xué)習(xí)和預(yù)測中定義核函數(shù)K(x,z)。特征空間H的維度往往很高,甚至是無窮維的.并且對于給定的核函數(shù),特征空間H與映射函數(shù)的取法不唯一SMOSVMSVM的對偶SMOSVMSMOSVMSMOKKTKKTSVM①非線性映射是SVM方法的理論基礎(chǔ),SVM利用內(nèi)積核函數(shù)代替向高維空間的非線性映射;SVMSVMSVMSVM課外學(xué)習(xí)要求第四次大作業(yè)SVM算法練習(xí)要求:sonar和Iris數(shù)據(jù)上分別驗證SVM課程名稱模式識別年級大三授課方式講課+學(xué)生展示+上機(jī)授課學(xué)時2授課內(nèi)容第十七講授課教師唐旭授課章節(jié)第九章組合分類器基本要求了解現(xiàn)有的分類方法及其特點(diǎn),如何評估分類法的準(zhǔn)確性,bagging與boosting的概念以及二者之間的區(qū)別與聯(lián)系重點(diǎn)、難點(diǎn)(1)分類方法①基于經(jīng)典統(tǒng)計理論的分類法理論)②參數(shù)法直接求取分類判別函數(shù)(分類面)如SVM、BOOSTING等③從訓(xùn)練集中直接得出分類結(jié)果非參數(shù),如近鄰法等(2)分類法的準(zhǔn)確性①評估分類法的準(zhǔn)確性Holdout劃分為兩個獨(dú)立的數(shù)據(jù)集,訓(xùn)練集,測試集變形:隨機(jī)子選擇K-倍交叉驗證(k-foldcrossvalidation)Kk-1k②提高分類法的準(zhǔn)確率“arcing”(adaptivereweightingandcombining):重新使用或選擇數(shù)據(jù),以期達(dá)到改善分類器性能的目的。Bagging、boosting(3)分類器組合評價①泛化誤差E(s)sE(s)估計泛化誤差實驗方法有,持續(xù)法、交叉驗證估計、自舉

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論