醫(yī)學(xué)信息分析實習(xí)指導(dǎo)-聚類分析_第1頁
醫(yī)學(xué)信息分析實習(xí)指導(dǎo)-聚類分析_第2頁
醫(yī)學(xué)信息分析實習(xí)指導(dǎo)-聚類分析_第3頁
醫(yī)學(xué)信息分析實習(xí)指導(dǎo)-聚類分析_第4頁
醫(yī)學(xué)信息分析實習(xí)指導(dǎo)-聚類分析_第5頁
已閱讀5頁,還剩37頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、醫(yī)學(xué)信息分析實習(xí)指導(dǎo)聚類分析吉林大學(xué)公共衛(wèi)生學(xué)院醫(yī)學(xué)信息學(xué)系實習(xí)目的 掌握聚類分析的基礎(chǔ)理論知識 熟練應(yīng)用統(tǒng)計軟件進行聚類分析聚類分析 聚類分析是研究“物以類聚”問題的分析方法。“物以類聚”問題在醫(yī)學(xué)、社會、經(jīng)濟研究中十分常見。聚類分析 將類似的數(shù)據(jù)歸類到一起,形成一個新的類別進行分析。聚類分析應(yīng)用商業(yè)聚類分析是細(xì)分市場的有效工具,同時也可用于研究消費者行為,尋找新的潛在市場、選擇實驗的市場,并作為多元分析的預(yù)處理。 聚類分析應(yīng)用電子商務(wù)通過分組聚類出具有相似瀏覽行為的客戶,并分析客戶的共同特征,可以更好的幫助管理者了解自己的客戶,向客戶提供更合適的服務(wù)。 聚類分析應(yīng)用醫(yī)學(xué)利用聚類分析工具可以

2、分析患者的疾病診斷數(shù)據(jù),以進行探索性的數(shù)據(jù)分析,并考察產(chǎn)生的聚類結(jié)果的意義。其中糖尿病的分型是聚類分析典型的應(yīng)用。 聚類分析的算法劃分聚類算法 K-Means聚類、 K-中心點聚類層次聚類算法 凝聚的與分裂的層次聚類、BIRCH、Chameleon基于密度的聚類算法 DBSCAN、OPTICS、DENCLUE基于網(wǎng)格的聚類算法 STING、CLIQUE劃分聚類算法K-Means聚類K-Means聚類也稱快速聚類,屬于劃分聚類算法。它得到的聚類結(jié)果,每個樣本點都唯一屬于一個類,而且聚類變量為數(shù)值型。K-Means聚類主要涉及兩個方面的問題:第一,如何測度樣本的“親疏程度”;第二,如何進行聚類。劃

3、分聚類算法K-Means聚類如何測度樣本的“親疏程度” K-Means聚類采用歐氏距離(Euclidian distance)來測度數(shù)據(jù)之間的差異程度,即數(shù)據(jù)點x和y的p個變量值之差的平方和的平方根,數(shù)學(xué)定義為:劃分聚類算法K-Means聚類例如計算4號和6號的歐氏距離: (21-20)2+(23-23)2+(22-22)2 =1應(yīng)聘者12345678910X28181121262016142422Y29232223292322232927Z28181622262222242424劃分聚類算法K-Means聚類練習(xí)1:對10位應(yīng)聘者做智能檢驗。3項指標(biāo)X,Y和Z分別表示數(shù)學(xué)推理能力,空間想象能

4、力和語言理解能力。其得分如下,請分別計算出應(yīng)聘者1和3,2和4,5和7 的歐式距離。結(jié)果寫在實驗報告上應(yīng)聘者12345678910X28181121262016142422Y29232223292322232927Z28181622262222242424劃分聚類算法K-Means聚類如何進行聚類 基本思想是初始隨機給定K個簇中心,按照最鄰近原則把待分類樣本點分到各個簇。然后按平均法重新計算各個簇的質(zhì)心,從而確定新的簇心。一直迭代,直到簇心的移動距離小于某個給定的值 。劃分聚類算法K-Means聚類K-Means聚類過程指定聚類數(shù)目K確定K個初始聚類中心計算每個點到聚類中心的距離,將每個點聚類

5、到離該點最近的聚類中去計算每個聚類中所有點的坐標(biāo)平均值,并將這個平均值作為新的聚類中心,反復(fù)執(zhí)行3、4步,直到聚類中心不再進行大范圍移動或者聚類次數(shù)達(dá)到要求為止 劃分聚類算法K-Means聚類層次聚類算法層次聚類就是通過對數(shù)據(jù)集按照某種方法進行層次分解,直到滿足某種條件為止。按照分類原理的不同,可以分為凝聚和分裂兩種方法。 層次聚類算法凝聚凝聚的方法首先將每個對象作為單獨的一個原子簇然后相繼地合并相近的對象或原子簇直到所有的原子簇合并為一個(層次的最上層),或者達(dá)到一個終止條件層次聚類算法分裂分裂的方法首先將所有的對象置于一個簇中在迭代的每一步中,一個簇被分裂為更小的簇直到最終每個對象在單獨的

6、一個簇中,或者達(dá)到一個終止條件層次聚類算法變量樣本層次聚類對樣本進行聚類層次聚類對樣本進行聚類對樣本進行聚類(Q型聚類)把所有的觀測記錄(cases)進行分類,它把性質(zhì)相似的觀測分在同一個類,性質(zhì)差異較大的觀測分在不同的類 層次聚類對變量進行聚類對變量進行聚類(R型聚類)把變量(variables)作為分類對象。這種聚類用在變量數(shù)目比較多、且相關(guān)性比較強的情形,目的是將性質(zhì)相近的變量聚類為同一個類,并從中找出代表變量,從而減少變量個數(shù)以達(dá)到降維的效果 如何利用SPSS進行聚類分析? K-Means聚類分析 SPSS通過分析 分類K-Means完成對某資料的K-Means聚類分析。 層次聚類分析

7、 SPSS通過分析分類系統(tǒng)聚類完成對某資料的層次聚類分析。K-Means聚類分析建立數(shù)據(jù)文件(K-Means聚類.sav)K-Means聚類分析分析 分類K-Means打開K-Means聚類分析對話框, 將分析變量(x1、x2、x3)調(diào)入變量欄中迭代和分類:首先選擇聚類中心,并在迭代過程中使用K-Means算法不斷更換類中心,把觀察量分派到與之最近的類中心去。僅分類:僅僅根據(jù)初始類中心對觀察變量進行分類。表示事先欲聚類的數(shù)量。本例鍵入2。表示聚類的判別標(biāo)準(zhǔn),它必須是01中的數(shù)值,其含義是:當(dāng)兩次迭代計算的最大的類中心的變化距離小于該判別標(biāo)準(zhǔn),則迭代結(jié)束。本例取0.01。表示要求輸出初始類中心。

8、表示要求輸出方差分析表。要求輸出每一個case分在何類的信息K-Means聚類分析結(jié)果判讀表示進行K-Means聚類之初選取的聚類中心。經(jīng)過4次迭代后停止。K-Means聚類分析結(jié)果判讀顯示各醫(yī)院進入的類別及與各自類別中心的距離。K-Means聚類分析結(jié)果判讀K-Means聚類分析 練習(xí)2:數(shù)據(jù)文件練習(xí)2.sav為我國31個省市自治區(qū)2008年各地區(qū)經(jīng)濟發(fā)展的數(shù)據(jù),利用spss完成K-Means聚類分析(聚為4類)。 (1)分別寫出4個類的人均GDP的初始聚類中心及最終聚類中心; (2)北京、上海、安徽和福建這四個省市分別被聚到哪個類中,同時回答這四個省市與各自類別中心的距離; (3)寫出操作

9、過程。 將結(jié)果寫在實驗報告上層次聚類分析建立數(shù)據(jù)文件(層次聚類.sav)層次聚類分析分析分類系統(tǒng)聚類打開層次聚類分析對話框, 將分析變量(x1x6)調(diào)入變量:欄中個案:表示對個案進行分群,即對數(shù)據(jù)中的每一個樣本進行聚類,也稱為Q型聚類。變量:表示對變量進行分群,即對數(shù)據(jù)中的每一個變量進行聚類,也稱為R型聚類。顯示聚類過程中每一步合并的類或觀察量,被合并的類或觀察量之間的距離,因此,可以根據(jù)此表跟蹤聚類合并的過程。顯示相互之間的距離的矩陣。選擇此項,會顯示層次聚類譜系圖。決定樹狀圖的方向。本例選擇水平。本例選擇組間聯(lián)接確定計算距離的方法。本例選擇歐式距離。36373839層次聚類分析 練習(xí)3:數(shù)據(jù)文件練習(xí)3.sav為中、美、俄等七個國家的裁判和一名未經(jīng)訓(xùn)練的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論