版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
標準文檔聚類分析學習體會聚類分析是多元統(tǒng)計分析中研究“物以類聚”的一種方法,用于對事物的類別尚不清楚,甚至在事前連總共有幾類都不能確定的情況下進行分類的場合。聚類分析主要目的是研究事物的分類,而不同于判別分析。在判別分析中必須事先知道各種判別的類型和數(shù)目,并且要有一批來自各判別類型的樣本,才能建立判別函數(shù)來對未知屬性的樣本進行判別和歸類。若對一批樣品劃分的類型和分類的數(shù)目事先并不知道,這時對數(shù)據(jù)的分類就需借助聚類分析方法來解決。聚類分析把分類對象按一定規(guī)則分成組或類,這些組或類不是事先給定的而是根據(jù)數(shù)據(jù)特征而定的。在一個給定的類里的這些對象在某種意義上傾向于彼此相似,而在不同類里的這些對象傾向于不相似。1.聚類統(tǒng)計量在對樣品(變量)進行分類時,樣品(變量)之間的相似性是怎么度量?通常有三種相似性度量——距離、 匹配系數(shù)和相似系數(shù)。距離和匹配系數(shù)常用來度量樣品之間的相似性,相似系數(shù)常用來變量之間的相似性。 樣品之間的距離和相似系數(shù)有著各種不同的定義,而這些定義與變量的類型有著非常密切的關系。 通常變量按取值的不同可以分為:定量變量:變量用連續(xù)的量來表示,例如長度、重量、速度、人口等,又稱為間隔尺度變量。定性變量:并不是數(shù)量上有變化,而只是性質上有差異。定性變量還可以再分為:⑴有序尺度變量:變量不是用明確的數(shù)量表示,而是用等級表示,例如文化程度分為文盲、小學、中學、大學等。⑵名義尺度變量:變量用一些類表示,這些類之間既無等級關系,也無數(shù)量關系,例如職業(yè)分為工人、教師、干部、農(nóng)民等。下面主要討論具有定量變量的樣品聚類分析,描述樣品間的親疏程度最常用的是距離。1.1.距離數(shù)據(jù)矩陣文案大全標準文檔設xij為第i個樣品的第 j個指標,數(shù)據(jù)矩陣如下表表1數(shù)據(jù)矩陣變量樣品x1x2?xp1x11x12?x1p2x21x22?x2pnxn1xn2?xnp在上表中,每個樣品有p個變量,故每個樣品都可以看成是Rp中的一個點,n個樣品就是Rp中的n個點。在Rp中需定義某種距離,第i個樣品與第 j個樣品之間的距離記為 dij,在聚類過程中,相距較近的點傾向于歸為一類,相距較遠的點應歸屬不同的類。所定義的距離 dij一般應滿足如下四個條件:⑴dij0,對一切i,j;且d(xi,xj)0當且僅當xixj⑵dijdji,對一切i,j;⑶dijdikdkj,對一切i,j,k2.定量變量的常用的距離對于定量變量,常用的距離有以下幾種:⑴閔科夫斯基(Minkowski)距離pq1]qdij(q)[xikxjkk1這里q為某一自然數(shù)。閔科夫斯基距離有以下三種特殊形式:p1)當q 1時,dij(1) xik xjk稱為絕對值距離,常被形象地稱為“城市k1街區(qū)”距離;文案大全標準文檔p12)當q2時,dij(2)[2xikxjk]2,稱為歐氏距離,這是聚類分析中最k1常用的距離;3)當q 時,dij( ) maxxik xjk,稱為切比雪夫距離。1k pdij(q)在實際中用得很多,但是有一些缺點,一方面距離的大小與各指標的觀測單位有關,另一方面它沒有考慮指標間的相關性。當各指標的測量值相差懸殊時, 應先對數(shù)據(jù)標準化,然后用標準化后的數(shù)據(jù)計算距離;最常用的標準化處理是:令xijxijxjsj其中xj1nxij為第j個變量的樣本均值,sj1n(xijxj)2為第j個ni1n1i1變量的樣本方差。⑵蘭氏(Lance和Williams)距離當xij0(i1,2,,n;j1,2,,p)時,第i個樣品與第j個樣品間的蘭氏距離為pxikxjkdij(L)xikxjkk1這個距離與各變量的單位無關,但沒有考慮指標間的相關性。⑶馬氏距離(Mahalanobis)距離第i個樣品與第j個樣品間的馬氏距離為dij(M) (xi xj)'S1(xi xj)其中xi (xi1,xi2, ,xip)',xj (xj1,xj2, xjp),S為樣品協(xié)方差矩陣。使用馬氏距離的好處是考慮到了各變量之間的相關性, 并且與各變量的單位無關;但馬氏距離有一個很大的缺陷,就是S難確定。由于聚類是一個動態(tài)過程,故S隨聚類過程而變化,那么同樣的兩個樣品之間的距離可能也會隨之而變化,這不符和聚類的基本要求。因此,在實際聚類分析中,馬氏距離不是理想的距離。文案大全標準文檔⑷斜交空間距離第i個樣品與第j個樣品間的斜交空間距離定義為dij[1pp1(xikxjk)(xilxjl)rkl]2p2k1l1其中rkl是變量xk與變量xl間的相關系數(shù)。當p個變量互不相關時,dijdij(2),p即斜交空間距離退化為歐氏距離(除相差一個常數(shù)倍外) 。以上幾種距離的定義均要求樣品的變量是定量變量,如果使用的是定性變量,則有相應的定義距離的方法。3.定性變量的距離下例只是對名義尺度變量的一種距離定義。例1某高校舉辦一個培訓班,從學員的資料中得到這樣6個變量:性別(x1)取值為男和女;外語語種(x2)取值為英、日和俄;專業(yè)(x3)取值為統(tǒng)計、會計和金融;職業(yè)(x4)取值為教師和非教師;居住處(x5)取值為校內(nèi)和校外;學歷(x6)取值為本科和本科以下?,F(xiàn)有兩名學員:x1 (男,英,統(tǒng)計,非教師,校外,本科)ˊx2 (女,英,金融,教師,校外,本科以下 )ˊ這兩名學員的第二個變量都取值“英” ,稱為配合的,第一個變量一個取值為“男”,另一個取值為“女”,稱為不配合的。一般地,若記配合的變量數(shù)為 m1,不配合的變量數(shù)為 m2,則它們之間的距離可定義為d12
m2m1 m22按此定義本例中 x1與x2之間的距離為 。1.2.匹配系數(shù)當樣品的變量為定性變量時,通常采用匹配系數(shù)作為聚類統(tǒng)計量。文案大全標準文檔第i個樣品與第j個樣品的匹配系數(shù)定義為pSijZk,其中k11,當xikxjkZk當xikxjk0,顯然匹配系數(shù)越大,說明兩樣品越相似。1.3.相似系數(shù)聚類分析方法不僅用來對樣品進行分類,而且可用來對變量進行分類。在對變量進行分類時,常常采用相似系數(shù)來度量變量之間的相似性。設cij表示xi與xj的相似系數(shù),它一般應滿足如下三個條件:⑴cij1,對一切i,j;⑵cij1,當且僅當存在常數(shù)a和b,使得xiaxjb;⑶cijcji,對一切i,j.最常用的相似系數(shù)有以下兩種:1.夾角余弦變量xi與xj的夾角余弦定義為nxkixkjcij(1)k1n1n[xki2xkj2]2k1k1它是Rn中變量xi的觀測向量1i2i,ni)'與變量xj的觀測向量(x,x,x(x1j,x2j,,xnj)'之間夾角ij的余弦函數(shù),即cij(1)cosij.相關系數(shù)變量xi與xj的相關系數(shù)為n(xkixi)(xkjxj)cij(2)k1nn12(xki)2][(xkjxj)2{[xi]}k1k1文案大全標準文檔n n其中xi xki,xj xkjk1 k12.聚類分析從統(tǒng)計學的觀點看,聚類分析是通過數(shù)據(jù)建模簡化數(shù)據(jù)的一種方法。傳統(tǒng)的統(tǒng)計聚類分析方法包括系統(tǒng)聚類法、分解法、加入法、動態(tài)聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。采用 k-均值、k-中心點等算法的聚類分析工具已被加入到許多著名的統(tǒng)計分析軟件包中,如 SPSS、SAS等。從機器學習的角度看,需要由聚類學習算法自動確定標記,而分類學習的實例或數(shù)據(jù)對象有類別標記。聚類是觀察式學習,而不是示例式的學習。從實際應用的角度看,聚類分析是數(shù)據(jù)挖掘的主要任務,是模式識別的重要前提。而且聚類能夠作為一個獨立的工具獲得數(shù)據(jù)的分布狀況,觀察每一簇數(shù)據(jù)的特征,集中對特定的聚簇集合作進一步地分析。聚類分析還可以作為其他算法(如分類和定性歸納算法)的預處理步驟。2.1.聚類分析的流程及數(shù)據(jù)來源聚類分析法的主要流程包括 : 數(shù)據(jù)預處理、為衡量數(shù)據(jù)點間的相似度定義一個距離函數(shù)、聚類或分組和評估輸出 , 用流程圖描述如圖 1所示。文案大全標準文檔圖1聚類分析流程圖聚類分析的源數(shù)據(jù)通常是待聚類或分組的數(shù)據(jù)。對機械故障模式識別而言, 首先要獲取關于本機組的大量運行參數(shù) , 既要有機器平穩(wěn)運行、正常工作時的數(shù)據(jù) , 更要有機器出現(xiàn)故障時的數(shù)據(jù) , 并且獲知故障的類別。這樣, 由已知故障類別、故障發(fā)生時的各運行參數(shù)、歷史記錄組成的數(shù)據(jù)庫便構成了數(shù)據(jù)挖掘的訓練學習樣本庫。這里用到的數(shù)據(jù)就是設備的點檢數(shù)據(jù)。2.2.常用的聚類分析方法(1)系統(tǒng)聚類法系統(tǒng)聚類法(Hierarchicalclusteringmethod)是目前使用最多的一種方法。其基本思想是首先將n個樣品看成n類(即一類包括一個樣品),然后規(guī)定樣品之間的距離和類與類之間的距離。將距離最近的兩類合并為一個新類,在計算新類和其他類之間的距離,再從中找出最近的兩類合并,繼續(xù)下去,最后所有的樣品全在一類。將上述并類過程畫成聚類圖,便可以決定分多少類,每類各有什么樣品。系統(tǒng)聚類法的步驟為:①首先各樣品自成一類,這樣對n組樣品就相當于有n類;②計算各類間的距離,將其中最近的兩類進行合并;③計算新類與其余各類的距離,再將距離最近的兩類合并;④重復上述的步驟,直到所有的樣品都聚為一類時為止。下面以最短距離法為例來說明系統(tǒng)聚類法的過程。最短距離法的聚類步驟如下:①規(guī)定樣品之間的距離,計算樣品的兩兩距離,距離矩陣記為S0,開始視每個樣品分別為一類,這時顯然應有D(p,q)dpq;②選擇距離矩陣S0中的最小元素,不失一般性,記其為D(p,q),則將Gp與Gq合并為一新類,記為Gm,有GmGpGq;③計算新類Gm與其他各類的距離,得到新的距離矩陣記為S1;④對S1重復開始進行第②步,?,直到所有樣本成為一類為止。值得注意的是在整個聚類的過程中,如果在某一步的距離矩陣中最小元素不止一個時,則可以將其同時合并。文案大全標準文檔(2)動態(tài)聚類法開始將n個樣品粗略地分成若干類,然后用某種最優(yōu)準則進行調(diào)整,一次又一次地調(diào)整,直至不能調(diào)整了為止。此法非常類似于計算方法的迭代法。3)分解法它的程序正好和系統(tǒng)聚類相反,開始時所有的樣本都在一類,然后用某種最優(yōu)準則將它分成兩類。再用同樣準則將這兩類各自試圖分裂為兩類,從中選出一個使目標函數(shù)較好者,這樣由兩類變成了三類。如此下去,一直分裂到每類只有一個樣品為止(或用其他停止規(guī)則)。(4)加入法將樣品依次輸入,每次輸入后將它放到當前聚類圖的應有位置上,全部輸入后,即得聚類圖。3.總結體會聚類分析指將物理或抽象對象的集合分組成為由類似的對象組成的多個類的分析過程。它是一種重要的人類行為。聚類分析的目標就是在相似的基礎上收集數(shù)據(jù)來分類。聚類源于很多領域,包括數(shù)學,計算機科學,統(tǒng)計學,生物學和經(jīng)濟學。在不同的應用領域,很多聚類技術都得到了發(fā)展, 這些技術方法被用作描述數(shù)據(jù),衡量不同數(shù)據(jù)源間的相似性, 以及把數(shù)據(jù)源分類到不同的簇中。 比如說現(xiàn)在要把n個產(chǎn)品按產(chǎn)品的m個指標繼續(xù)聚類,因為產(chǎn)品可能之前的特色是不
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 洗滌劑的課程設計
- 家居建材行業(yè)銷售員培訓心得
- 班級心理健康活動的設計計劃
- 【八年級下冊歷史】第1課 中華人民共和國成立 同步練習
- 農(nóng)業(yè)行業(yè)話務員工作心得
- 化工行業(yè)銷售工作總結
- 2024年秋季開學第一課教案
- 2024年萍鄉(xiāng)衛(wèi)生職業(yè)學院單招職業(yè)技能測試題庫標準卷
- 2024年牛郎織女教案 (一)
- 2025屆武威市高三語文(上)期末聯(lián)考試卷及答案解析
- 建筑設計行業(yè)項目商業(yè)計劃書
- 慢性病防治健康教育知識講座
- 骶尾部藏毛疾病診治中國專家共識(2023版)
- 【高新技術企業(yè)所得稅稅務籌劃探析案例:以科大訊飛為例13000字(論文)】
- 幽門螺旋桿菌
- 智慧農(nóng)業(yè)利用技術提高農(nóng)業(yè)可持續(xù)發(fā)展的方案
- 制冷壓縮機安全操作規(guī)程范文
- 初中歷史考試試題答題卡模版
- 《草圖大師建?!肥谡n計劃+教案
- 小學音樂-鈴兒響叮當教學設計學情分析教材分析課后反思
- 《3-6歲兒童學習與發(fā)展指南》考試試題
評論
0/150
提交評論