




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
模式識別聚類第一頁,共四十八頁,編輯于2023年,星期六什么是聚類聚類是一種無監(jiān)督分類法:沒有預(yù)先指定的類別分類:用已知類別的樣本訓練集來設(shè)計分類器(監(jiān)督學習)聚類:用事先不知類別的樣本,利用樣本的先驗知識來構(gòu)造分類器(無監(jiān)督學習)聚類分析無訓練過程,訓練與識別混合在一起。
第二頁,共四十八頁,編輯于2023年,星期六相似性度量設(shè)有樣本集,要求按某種相似性把分類,怎樣實現(xiàn)?聚類分析符合“物以類聚,人以群分“的原則,它把相似性大的樣本聚集為一個類型,在特征空間里占據(jù)著一個局部區(qū)域。每個局部區(qū)域都形成一個聚合中心,聚合中心代表相應(yīng)類型。第三頁,共四十八頁,編輯于2023年,星期六如下圖中,(a)有一個聚合中心,(b)、(c)有兩個。第四頁,共四十八頁,編輯于2023年,星期六聚類分析避免了估計類概率密度的困難,對每個聚合中心來說都是局部密度極大值位置,其附近密度高,距離越遠密度越小。聚類分析的關(guān)鍵問題:如何在聚類過程中自動地確定類型數(shù)目c。實際工作中,也可以給定值作為算法終止的條件。第五頁,共四十八頁,編輯于2023年,星期六聚類分析的結(jié)果與特征的選取有很大的關(guān)系。不同的特征,分類的結(jié)果不同。第六頁,共四十八頁,編輯于2023年,星期六1.距離相似性度量一個模式樣本,對應(yīng)特征空間里的一個點。如果模式的特征是適當選擇的,也就是各維特征對于分類來說都是有效的,那么同類樣本就會密集地分布在一個區(qū)域里,不同類的模式樣本就會遠離。因此,點間距離遠近反映了相應(yīng)模式樣本所屬類型有無差異,可以作為樣本相似性度量。距離越近,相似性越大,屬于一個類型。聚類分析中,最常用的就是距離相似性。第七頁,共四十八頁,編輯于2023年,星期六(1)歐氏距離歐氏距離簡稱距離,模式樣本向量x與y之間的歐氏距離定義為:
d為特征空間的維數(shù)。
當較小時,表示x與y在一個類型區(qū)域,反之,則不在一個類型區(qū)域。這里有一個門限的選擇問題。若選擇過大,則全部樣本被視作一個唯一類型;若選取過小,則可能造成每個樣本都單獨構(gòu)成一個類型。必須正確選擇門限值以保證正確分類。
第八頁,共四十八頁,編輯于2023年,星期六(1)歐氏距離(續(xù))另外,模式特征坐標單位的選取也會強烈地影響聚類結(jié)果。例如:一個二維模式,一個特征是長度,另一個特征是壓力。當長度由厘米變?yōu)槊?,在中長度特征的比重會下降,同樣,若把比重單位由毫米汞柱高度變成厘米汞柱高度,中壓力特征的影響也會下降。第九頁,共四十八頁,編輯于2023年,星期六(1)歐氏距離(續(xù))可以用圖表示上述情況:從上圖看出,(b)、(c)特征空間劃分是不同的。(b)中為一類,為另一類,(c)中為一類,為另一類。第十頁,共四十八頁,編輯于2023年,星期六(1)歐氏距離(續(xù))另外,使用歐氏距離度量時,還要注意模式樣本測量值的選取,應(yīng)該是有效反映類別屬性特征(各類屬性的代表應(yīng)均衡)。但馬氏距離可解決不均衡(一個多,一個少)的問題。例如,取5個樣本,其中有4個反映對分類有意義的特征A,只有1個對分類有意義的特征B,歐氏距離的計算結(jié)果,則主要體現(xiàn)特征A。第十一頁,共四十八頁,編輯于2023年,星期六(2)馬氏(Mahalanobis)距離定義:馬氏距離的平方其中,為均值向量,為協(xié)方差矩陣。馬氏距離排除了不同特征之間相關(guān)性的影響,其關(guān)鍵在于協(xié)方差矩陣的計算。當為對角陣時,各特征之間才完全獨立;當為單位矩陣時,馬氏距離等于歐氏距離。馬氏距離比較適用于對樣本已有初步分類的情況,做進一步考核、修正。第十二頁,共四十八頁,編輯于2023年,星期六(3)明氏(Minkowsky)距離定義:明氏距離:它是若干距離函數(shù)的通式:時,等于歐氏距離;時,稱為“街坊”(cityblock)距離。第十三頁,共四十八頁,編輯于2023年,星期六2.角度相似性度量樣本x與y之間的角度相似性度量定義為它們之間夾角的余弦,即
也是單位向量之間的點積(內(nèi)積)。
越大,x與y越相似。常用于情報檢索、植物分類、疾病分類。第十四頁,共四十八頁,編輯于2023年,星期六2.角度相似性度量滿足:①②當時,達到最大。對于坐標系的旋轉(zhuǎn)及放大、縮小是不變的量,但對位移和一般性的線性變換不是不變的。樣本與核的相似性度量近鄰函數(shù)值相等第十五頁,共四十八頁,編輯于2023年,星期六樣本相似性度量是聚類分析的基礎(chǔ),針對具體問題,選擇適當?shù)南嗨菩远攘渴潜WC聚類質(zhì)量的重要問題。但有了相似性度量還不夠,還必須有適當?shù)木垲悳蕜t函數(shù)。聚類準則函數(shù)對聚類質(zhì)量也有重大影響。相似性度量→集合與集合的相似性。相似性準則→分類效果好壞的評價準則
第十六頁,共四十八頁,編輯于2023年,星期六聚類準則函數(shù)在樣本相似性度量的基礎(chǔ)上,聚類分析還需要一定的準則函數(shù),才能把真正屬于同一類的樣本聚合成一個類型的子集,而把不同類的樣本分離開來。如果聚類準則函數(shù)選得好,聚類質(zhì)量就會高。第十七頁,共四十八頁,編輯于2023年,星期六聚類準則函數(shù)同時,聚類準則函數(shù)還可以用來評價一種聚類結(jié)果的質(zhì)量,如果聚類質(zhì)量不滿足要求,就要重復(fù)執(zhí)行聚類過程,以優(yōu)化結(jié)果。在重復(fù)優(yōu)化中,可以改變相似性度量,也可以選用新的聚類準則。第十八頁,共四十八頁,編輯于2023年,星期六1.誤差平方和準則(最常用的)假定有混合樣本,采用某種相似性度量,被聚合成c個分離開的子集,每個子集是一個類型,它們分別包含個樣本。為了衡量聚類的質(zhì)量,采用誤差平方和聚類準則函數(shù),定義為:mj是個集合的中心,可以用來代表c個類型。第十九頁,共四十八頁,編輯于2023年,星期六誤差平方和準則(續(xù))是樣本和集合中心的函數(shù)。在樣本集X給定的情況下,的取值取決于c個集合中心。描述個n試驗樣本聚合成c個類型時,所產(chǎn)生的總誤差平方和。越小越好。
第二十頁,共四十八頁,編輯于2023年,星期六誤差平方和準則(續(xù))誤差平方和準則適用于各類樣本比較密集且樣本數(shù)目懸殊不大的樣本分布。例如:上圖的樣本分布,共有3個類型,各個類型的樣本數(shù)目相差不多(10個左右)。類內(nèi)較密集,誤差平方和很小,類別之間距離遠。第二十一頁,共四十八頁,編輯于2023年,星期六誤差平方和準則(續(xù))注意:如果不同類型的樣本數(shù)目相差很大,采用誤差平方和準則,有可能把樣本數(shù)目多的類型分開,以便達到總的最小。如下圖所示:第二十二頁,共四十八頁,編輯于2023年,星期六誤差平方和準則(續(xù))下面進一步說明上述問題:例如:有5個樣本,如下圖所示~第二十三頁,共四十八頁,編輯于2023年,星期六誤差平方和準則(續(xù))虛線為正確類型區(qū)分域,實線為采用誤差平方和最小準則時的類別區(qū)分。虛線劃分時:第二十四頁,共四十八頁,編輯于2023年,星期六誤差平方和準則(續(xù))實線劃分時:所以,如果按誤差平方和準則聚類將得到錯誤結(jié)果。第二十五頁,共四十八頁,編輯于2023年,星期六2.加權(quán)平均平方距離和準則定義:加權(quán)平均平方距離和準則式中:是類內(nèi)樣本間平均平方距離,即所有的樣本之間距離的平均值
。第二十六頁,共四十八頁,編輯于2023年,星期六加權(quán)平均平方距離和準則(續(xù))為類的先驗概率,可以用樣本數(shù)目和樣本總數(shù)目來估計因此:
第二十七頁,共四十八頁,編輯于2023年,星期六加權(quán)平均平方距離和準則(續(xù))用重新討論誤差平方和準則中所舉例子。5個樣本,如圖所示。第二十八頁,共四十八頁,編輯于2023年,星期六第二十九頁,共四十八頁,編輯于2023年,星期六加權(quán)平均平方距離和準則(續(xù))雖然,但已較接近。所以,當各類樣本數(shù)目相差懸殊時,使用加權(quán)平均平方距離和準則,要比使用誤差平方和準則容易得到正確聚類結(jié)果。同一樣,越小,樣本類內(nèi)越密集。以聚合中心為極大值的局部區(qū)域密度越高,聚類結(jié)果越好。第三十頁,共四十八頁,編輯于2023年,星期六3.類間距離和準則類間距離和可用于描述聚類結(jié)果的類間距離分布狀態(tài)。它定義為:加權(quán)類間距離和:
式中,第三十一頁,共四十八頁,編輯于2023年,星期六類間距離和準則(續(xù))對于兩類問題,類間距離常用下式計算類間距離和準則描述不同類型之間的分離程度,所以值越大,表示各類之間分離性好,聚類質(zhì)量高。
第三十二頁,共四十八頁,編輯于2023年,星期六4.散射矩陣為了對聚類質(zhì)量有一個全面的描述和考核標準,可以通過散射矩陣引導(dǎo)出一些準則函數(shù),它們不但反映同類樣本的聚集程度,而且也反映不同類之間的分離程度。
第三十三頁,共四十八頁,編輯于2023年,星期六散射矩陣(續(xù))假定混合樣本集X的n個樣本被聚集成c個類型的子集Xj,每個子集有nj個樣本,則類內(nèi)散射矩陣定義為:其中為某一個類型的類內(nèi)散射矩陣:第三十四頁,共四十八頁,編輯于2023年,星期六散射矩陣(續(xù))類間散射矩陣定義為:
式中,為各類型的均值向量,為全部樣本的均值向量,()為各類型先驗概率。
第三十五頁,共四十八頁,編輯于2023年,星期六定義全部樣本的總散射矩陣為:上述3個散射矩陣有如下關(guān)系:這一結(jié)果表明,對于給定的混合樣本集,類內(nèi)散射的減少,將導(dǎo)致類間散射的增加。對某一聚類結(jié)果,類內(nèi)散射越小越好,類間散射越大越好。
第三十六頁,共四十八頁,編輯于2023年,星期六利用、、可以定義如下的4個聚類準則:表示矩陣的跡,也就是對角線元素之和,||為行列式。J1~J4同時考慮了類內(nèi)的散射和類間散射,為了得到好的聚類結(jié)果,它們的值越大越好。第三十七頁,共四十八頁,編輯于2023年,星期六兩種簡單的聚類算法
介紹兩種簡單的聚類分析方法,它是對某些關(guān)鍵性的元素進行試探性的選取,使某種聚類準則達到最優(yōu),又稱為基于試探的聚類算法。采用最近鄰規(guī)則的聚類算法
最大最小距離聚類算法第三十八頁,共四十八頁,編輯于2023年,星期六1.采用最近鄰規(guī)則的聚類算法假設(shè)已有混合樣本集,按照最近鄰原則進行聚類,算法如下:①選取距離閾值T,并且任取一個樣本作為第一個聚類中心Z1,如:。②計算樣本到Z1的距離D21:若,則,否則令為第二個聚合中心,。第三十九頁,共四十八頁,編輯于2023年,星期六采用最近鄰規(guī)則的聚類算法(續(xù))設(shè),計算到Z1和Z2的距離D31和D32,若D31>T和D32>T
,則建立第三個聚合中心。否則把歸于最近鄰的聚合中心。依此類推,直到把所有樣本都進行分類。③按照某種聚類準則考察聚類結(jié)果,若不滿意,則重新選取距離閾值T、第一個聚合中心Z1
,返回②,直到滿意,算法結(jié)束。第四十頁,共四十八頁,編輯于2023年,星期六在樣本分布一定時,該算法的結(jié)果在很大程度上取決于第一個聚合中心的選取和距離閾值的大小。該算法的優(yōu)點是簡單,如果有樣本分布的先驗知識用于指導(dǎo)閾值和起始點的選取,則可較快得到合理結(jié)果。對于高維的樣本集來說,則只有經(jīng)過多次試探,并對聚類結(jié)果進行驗算,從而選擇最優(yōu)的聚類結(jié)果。采用最近鄰規(guī)則的聚類算法(續(xù))第四十一頁,共四十八頁,編輯于2023年,星期六2.最大最小距離聚類算法該算法以歐氏距離為基礎(chǔ),除首先辨識最遠的聚類中心外,與上述算法相似。用一個例子說明該算法。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 展覽館管理合作協(xié)議
- 新材料研發(fā)與應(yīng)用在制造業(yè)中的推廣方案設(shè)計
- 農(nóng)村電商農(nóng)村電商國際合作與交流方案
- 環(huán)保科技在水資源管理中的應(yīng)用合作協(xié)議
- 保證金質(zhì)押擔保協(xié)議書
- 房屋租賃合同三方協(xié)議
- 可再生能源設(shè)備采購合同
- 項目季度工作總結(jié)與前景展望報告
- 大數(shù)據(jù)平臺開發(fā)協(xié)議
- 承包招商合同協(xié)議書
- 五年級數(shù)學(小數(shù)乘除法)計算題專項練習及答案匯編
- 上海市楊浦區(qū)2024-2025學年八年級上學期英語期末考卷(含筆試答案無聽力答案、原文及音頻)
- 課題申報參考:法國漢學家弗朗索瓦·朱利安對中國山水畫論的闡釋研究
- 生物-山東省濰坊市、臨沂市2024-2025學年度2025屆高三上學期期末質(zhì)量檢測試題和答案
- 2024年09月2024年中國農(nóng)業(yè)發(fā)展銀行總行部門秋季校園招聘(22人)筆試歷年參考題庫附帶答案詳解
- 2025年小學督導(dǎo)工作計劃
- 2025年月度工作日歷含農(nóng)歷節(jié)假日電子表格版
- 《商務(wù)數(shù)據(jù)分析》課件-商務(wù)數(shù)據(jù)的分析
- 安全隱患規(guī)范依據(jù)查詢手冊
- 部編版六年級下冊道德與法治全冊教案教學設(shè)計
- 物流無人機垂直起降場選址與建設(shè)規(guī)范
評論
0/150
提交評論