教育學(xué)第7章 聚類分析_第1頁
教育學(xué)第7章 聚類分析_第2頁
教育學(xué)第7章 聚類分析_第3頁
教育學(xué)第7章 聚類分析_第4頁
教育學(xué)第7章 聚類分析_第5頁
已閱讀5頁,還剩41頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第三節(jié)系統(tǒng)聚類方法類與類之間用不同的方法定義距離,就產(chǎn)生了不同的系統(tǒng)聚類方法。開始時(shí)將n個(gè)樣品各自作為一類,并規(guī)定樣品之間的距離和類與類之間的距離,然后將距離最近的兩類合并成一個(gè)新類,計(jì)算新類與其它類之間的距離,重復(fù)進(jìn)行兩個(gè)最近類的合并,每次減少一類,直至所有的樣品合并為一類。一、根本思想4/14/2023x21?x12?x22?x11?二、最短距離法〔singlelinkagemethod)4/14/2023例設(shè)有五個(gè)樣品,每個(gè)只測量了一個(gè)指標(biāo),指標(biāo)值分別是1,2,6,8,11.在用最短距離法對這五個(gè)樣品進(jìn)行聚類時(shí),樣品間采用絕對值距離,現(xiàn)已得到樣品間初始距離矩陣如下G1G2G3G4G5G10G210G3540G47620G5109530試根據(jù)以上結(jié)果完成下面的聚類過程,將五個(gè)樣品聚為一類。4/14/2023dataexam7_3_1_1;inputv$x;cards;x11x22x36x48x511;proc

cluster

method=sin;varx;idv;proc

tree

horizontal=1;idv;run;SAS程序14/14/2023dataexam7_3_1_2(type=distance);arrayx(5)x1-x5;inputv$x1-x5;cards;x10....x210...x3540..x47620.x5109530;proc

cluster

method=sin;varx1-x5;idv;proc

tree

horizontal;idv;run;SAS程序24/14/2023聚類樹形〔譜系〕圖4/14/2023???x11?x21????三、最長距離法〔Completelinkagemethod)4/14/2023例對305名女中學(xué)生測量八個(gè)體型指標(biāo):x1=身高,x5=體重,x2=手臂長,x6=頸圍,x3=上肢長,x7=胸圍,x4=下肢長,x8=胸寬,相關(guān)矩陣列于下表x1x2x3x4x5x6x7x8x11.000.......x20.8461.000......x30.8050.8811.000....x40.8590.8260.8011.000....x50.4730.3760.3800.4361.000...x60.3980.3260.3190.3290.7621.000..x70.3010.2770.2370.3270.7300.5831.000.x80.3820.4150.3450.3650.6290.5770.5391.0004/14/2023應(yīng)用最長距離法進(jìn)行聚類,即類與類之間的相似系數(shù)定義為兩類變量之間的最小相關(guān)系數(shù)。每次聚類時(shí)合并兩個(gè)相關(guān)系數(shù)最大的類。4/14/2023dataexamp7_3_2(type=distance);

arrayx(8)x1-x8;

inputv$x1-x8;

doi=1

to

8;

x(i)=1-x(i);

end;

dropi;

cards;x11.000.......x2.8461.000......x3.805.8811.000.....x4.859.826.8011.000....x5.473.376.380.4361.000...x6.398.326.319.329.7621.000..x7.301.277.237.327.730.5831.000.x8.382.415.345.365.629.577.5391.000;proc

print

data=examp7_3_2;run;proc

cluster

data=examp7_3_2method=com;

varx1-x8;

idv;proc

tree

horizontal;

idv;run;SAS程序4/14/2023四、中間距離法〔medianmethod)DKJDLJ中間距離4/14/2023用上式作為遞推公式的系統(tǒng)聚類法稱為可變法。五、可變法如果讓中間距離法的遞推公式三項(xiàng)的系數(shù)依賴于參數(shù)b,即遞推公式為:4/14/2023

類平均法定義類間的距離是兩類間所有樣品對之間的距離的平均值,即六、類平均法〔Averagelinkagemethod)定義距離:遞推公式:注:類平均法利用了所有樣品的信息,在很多情況下被認(rèn)為是一種比較好的系統(tǒng)聚類法4/14/2023類平均法的遞推公式中,沒有反映GK類和GL類的距離有多大,進(jìn)一步將其改進(jìn),參加D2KL,并給定系數(shù)<1,那么類平均法的遞推公式改為:

用此遞推公式進(jìn)行聚類就是可變類平均法。遞推公式由:K類和L類與J類的距離的加權(quán)平均數(shù)K類和L類的距離兩項(xiàng)的加權(quán)和構(gòu)成,β的大小根據(jù)哪項(xiàng)更重要而定。七、可變類平均法〔Flexible-Betamethod)4/14/2023分別為GK和GL的重心,類與類之間的平方距離定義為兩個(gè)類重心〔類內(nèi)樣品平均值〕間的平方距離,即重心法,也稱為樣品的均值法。設(shè)GK和GL為兩個(gè)類八、重心法〔Centroidhierarchicalmethod)4/14/2023設(shè)某一步GK和GL的類內(nèi)的樣品數(shù)分別為nK和nL,如果要把GK和GL合并為GM類,那么GM類的樣品數(shù)nM=nK+nL,GM類的重心為和的加權(quán)算術(shù)平均數(shù):距離遞推公式為4/14/2023

類似于方差分析的想法,如果類分得恰當(dāng),同類內(nèi)的樣品之間的離差平方和應(yīng)較小,而類間的離差平方和應(yīng)當(dāng)較大。

離差平方和法的思路是,先讓n個(gè)樣品各自成一類,然后縮小一類,每縮小一類離差平方和就要增大,選擇使S2增加最小的兩類合并,直到所有的樣品歸為一類為止。離差平方和法定義類間的平方距離為九、離差平方和法〔Ward'sminimumvariancemethod)4/14/2023

設(shè)類GK和GL合并成新類GM,三類的類內(nèi)離差平方和分別記為定義類GK和GL之間的平方距離為:4/14/2023可以證明離差平方和法的聚類遞推公式為:4/14/2023例下表列出了1999年全國31個(gè)省、市和自治區(qū)的城鎮(zhèn)居民家庭平均全年消費(fèi)性支出的八個(gè)主要變量數(shù)據(jù),這8個(gè)變量是x1=食品,x5=交通和通訊,x2=衣著,x6=娛樂教育文化效勞,x3=家庭設(shè)備用品及效勞,x7=居住,x4=醫(yī)療保健,x8=雜項(xiàng)商品和效勞,試分別用最短距離法、重心法和Ward方法對各地區(qū)作聚類分析。4/14/2023Obsregionx1x2x3x4x5x6x7x81北京2959.19730.79749.41513.34467.871141.82478.42457.642天津2459.77495.47697.33302.87284.19735.97570.84305.083河北1495.63515.90362.37285.32272.95540.58364.91188.634山西1406.33477.77290.15208.57201.50414.72281.84212.105內(nèi)蒙古1303.97524.29254.83192.17249.81463.09287.87192.966遼寧1730.84553.90246.91279.81239.18445.20330.24163.867吉林1561.86492.42200.49218.36220.69459.62360.48147.768黑龍江1410.11510.71211.88277.11224.65376.82317.61152.859上海3712.31550.74893.37346.93527.001034.98720.33462.0310江蘇2207.58449.37572.40211.92302.09585.23429.77252.5411浙江2629.16557.32689.73435.69514.66795.87575.76323.3612安徽1844.78430.29271.28126.33250.56513.18314.00151.3913福建2709.46428.11334.12160.77405.14461.67535.13232.2914江西1563.78303.65233.81107.90209.70393.99509.39160.1215山東1675.75613.32550.71219.79272.59599.43371.62211.8416河南1427.65431.79288.55208.14217.00337.76421.31165.3217湖北1783.43511.88282.84201.01237.60617.74523.52182.5218湖南1942.23512.27401.39206.06321.29697.22492.60226.4519廣東3055.17353.23564.56356.27811.88873.061082.82420.8120廣西2033.87300.82338.65157.78329.06621.74587.02218.2721海南2057.86186.44202.72171.79329.65477.17312.93279.1922重慶2303.29589.99516.21236.55403.92730.05438.41225.8023四川1974.28507.76344.79203.21240.24575.10430.36223.4624貴州1673.82437.75461.61153.32254.66445.59346.11191.4825云南2194.25537.01369.07249.54290.84561.91407.70330.9526西藏2646.61839.70204.44209.11379.30371.04269.59389.3327陜西1472.95390.89447.95259.51230.61490.90469.10191.3428甘肅1525.57472.98328.90219.86206.65449.69249.66228.1929青海1654.69437.77258.78303.00244.93479.53288.56236.5130寧夏1375.46480.89273.84317.32251.08424.75228.73195.9331新疆1608.82536.05432.46235.82250.28541.30344.85214.404/14/2023dataexam7_3_3;inputxuhaoregion$x1-x8;cards;

1北京2959.19730.79749.41513.34467.871141.82478.42457.642天津2459.77495.47697.33302.87284.19735.97570.84305.083河北1495.63515.90362.37285.32272.95540.58364.91188.634山西1406.33477.77290.15208.57201.50414.72281.84212.105內(nèi)蒙古1303.97524.29254.83192.17249.81463.09287.87192.966遼寧1730.84553.90246.91279.81239.18445.20330.24163.867吉林1561.86492.42200.49218.36220.69459.62360.48147.768黑龍江1410.11510.71211.88277.11224.65376.82317.61152.859上海3712.31550.74893.37346.93527.001034.98720.33462.0310江蘇2207.58449.37572.40211.92302.09585.23429.77252.5411浙江2629.16557.32689.73435.69514.66795.87575.76323.3612安徽1844.78430.29271.28126.33250.56513.18314.00151.3913福建2709.46428.11334.12160.77405.14461.67535.13232.2914江西1563.78303.65233.81107.90209.70393.99509.39160.1215山東1675.75613.32550.71219.79272.59599.43371.62211.8416河南1427.65431.79288.55208.14217.00337.76421.31165.3217湖北1783.43511.88282.84201.01237.60617.74523.52182.5218湖南1942.23512.27401.39206.06321.29697.22492.60226.4519廣東3055.17353.23564.56356.27811.88873.061082.82420.8120廣西2033.87300.82338.65157.78329.06621.74587.02218.2721海南2057.86186.44202.72171.79329.65477.17312.93279.1922重慶2303.29589.99516.21236.55403.92730.05438.41225.8023四川1974.28507.76344.79203.21240.24575.10430.36223.4624貴州1673.82437.75461.61153.32254.66445.59346.11191.4825云南2194.25537.01369.07249.54290.84561.91407.70330.9526西藏2646.61839.70204.44209.11379.30371.04269.59389.3327陜西1472.95390.89447.95259.51230.61490.90469.10191.3428甘肅1525.57472.98328.90219.86206.65449.69249.66228.1929青海1654.69437.77258.78303.00244.93479.53288.56236.5130寧夏1375.46480.89273.84317.32251.08424.75228.73195.9331新疆1608.82536.05432.46235.82250.28541.30344.85214.40;proc

cluster

data=exam7_3_3method=sinstd

pseudo;varx1-x8;idregion;proc

tree

horizontal;idregion;proc

cluster

data=exam7_3_3method=censtd

pseudo;varx1-x8;idregion;proc

tree

horizontal;idregion;proc

cluster

data=exam7_3_3method=warstd

notie

pseudo;varx1-x8;idregion;proc

tree

horizontal;idregion;run;SAS程序4/14/20234/14/20234/14/20234/14/2023通過觀測聚類圖,給出一個(gè)適宜的閾值T。要求類與類之間的距離不要超過T值。例如我們給定T=0.35,當(dāng)聚類時(shí),類間的距離已經(jīng)超過了0.35,那么聚類結(jié)束。在聚類分析過程中類的個(gè)數(shù)如何來確定才適宜呢?這是一個(gè)十分困難的問題,人們至今仍未找到令人滿意的方法。但是這個(gè)問題又是不可回避的。下面我們介紹幾種方法。十、確定類的個(gè)數(shù)1.閾值法4/14/2023假設(shè)樣品只涉及2個(gè)或3個(gè)變量,那么可以通過觀測數(shù)據(jù)的散點(diǎn)圖來確定類的個(gè)數(shù)。如果變量個(gè)數(shù)超過3個(gè),那么可以將原始變量綜合成2個(gè)或3個(gè)綜合變量,然后再觀測這些綜合變量的散點(diǎn)圖。2.觀測樣品的散點(diǎn)圖4/14/20233.R2統(tǒng)計(jì)量總離差平方和的分解總離差平方和類內(nèi)離差平方和類間離差平方和令4/14/2023R2的取值在0~1之間,假設(shè)R2比較大,說明分k個(gè)類時(shí)類內(nèi)的離差平方和Pk比較小,也就是說分k類是適宜的。但是,分類越多,每個(gè)類的類內(nèi)的離差平方和就越小,R2也就越大;所以我們只能取適宜的k,使得R2足夠大。比方,假定分4類時(shí),R2=0.8;下一次合并分3類時(shí),下降了許多,R2=0.32,那么分4類是適宜的。構(gòu)造統(tǒng)計(jì)量4/14/20234.半偏R2統(tǒng)計(jì)量其中可以看出半偏R2是上一步R2與該步R2值之差,因此半偏R2值越大,說明上一次聚類的效果越好。4/14/20235.偽F統(tǒng)計(jì)量偽F統(tǒng)計(jì)量用于評價(jià)聚為k類的效果。如果聚類的效果好,類間的離差平方和相對于類內(nèi)的離差平方和大,所以應(yīng)該取偽F統(tǒng)計(jì)量較大而類數(shù)較小的聚類水平。偽F統(tǒng)計(jì)量不具有F分布。4/14/20236.偽t2

統(tǒng)計(jì)量偽t2

值大表示GK和GL合并成新類GM

后,類內(nèi)離差平方和的增量相對于原GK和GL兩類的類內(nèi)的離差平方和是大的,這說明原GK和GL兩類是很分開的,即上一次聚類的效果是好的。偽t2

統(tǒng)計(jì)量不具有隨機(jī)變量t2那樣的分布。4/14/2023十一、系統(tǒng)聚類法的根本性質(zhì)1.單調(diào)性在聚類分析過程中,并類距離分別為Dk(k=1,2,3,…)若滿足,則稱該聚類方法具有單調(diào)性??梢宰C明除了重心法和中間距離法之外,其他的系統(tǒng)聚類法均滿足單調(diào)性的條件。2.空間的濃縮與擴(kuò)張4/14/2023十二、小結(jié)系統(tǒng)聚類法是一種比較成功的聚類方法。然而當(dāng)樣本點(diǎn)數(shù)量十分龐大時(shí),那么是一件非常繁重的工作,且聚類的計(jì)算速度也比較慢。比方在市場抽樣調(diào)查中,有4萬人就其對衣著的偏好作了答復(fù),希望能迅速將他們分為幾類。這時(shí),采用系統(tǒng)聚類法就很困難,而動(dòng)態(tài)聚類法就會(huì)顯得方便,適用。4/14/2023第四節(jié)動(dòng)態(tài)聚類法一、根本思想選擇凝聚點(diǎn)分類修改分類分類是否合理分類結(jié)束YesNo4/14/2023用一個(gè)簡單的例子來說明動(dòng)態(tài)聚類法的工作過程。例如我們要把圖中的點(diǎn)分成兩類。快速聚類的步驟:1、隨機(jī)選取兩個(gè)點(diǎn)和作為聚核。2、對于任何點(diǎn),分別計(jì)算3、假設(shè),那么將劃為第一類,否那么劃給第二類。于是得圖〔b〕的兩個(gè)類。4、分別計(jì)算兩個(gè)類的重心,則得和,以其為新的聚核,對空間中的點(diǎn)進(jìn)行重新分類,得到新分類。4/14/2023〔a〕空間的群點(diǎn)(b)任取兩個(gè)聚核

(c)第一次分類(d)求各類中心4/14/2023(e)第二次分類4/14/20231.人為選擇,當(dāng)人們對所欲分類的問題有一定了解時(shí),根據(jù)經(jīng)驗(yàn),預(yù)先確定分類個(gè)數(shù)和初始分類,并從每一類中選擇一個(gè)有代表性的樣品作為凝聚點(diǎn)。2.將數(shù)據(jù)人為地分為A類,計(jì)算每一類的重心,就將這些重心作為凝聚點(diǎn)。二、選擇凝聚點(diǎn)和確定初始分類凝聚點(diǎn)就是一批有代表性的點(diǎn),是欲形成類的中心。凝聚點(diǎn)的選擇直接決定初始分類,對分類結(jié)果也有很大的影響,由于凝聚點(diǎn)的不同選擇,其最終分類結(jié)果也將出現(xiàn)不同。應(yīng)選擇時(shí)要慎重.通常選擇凝聚點(diǎn)的方法有:4/14/20233.用密度法選擇凝聚點(diǎn)。以某個(gè)正數(shù)d為半徑,以每個(gè)樣品為球心,落在這個(gè)球內(nèi)的樣品數(shù)(不包括作為球心的樣品)就叫做這個(gè)樣品的密度。計(jì)算所有樣品點(diǎn)的密度后,首先選擇密度最大的樣品作為第一凝聚點(diǎn),并且人為地確定一個(gè)正數(shù)D(一般D>d,常取D=2d)。然后選出次大密度的樣品點(diǎn),假設(shè)它與第一個(gè)凝聚點(diǎn)的距離大于D,那么將其作為第二個(gè)凝聚點(diǎn);否那么舍去這點(diǎn),再選密度次于它的樣品。這樣,按密度大小依次考查,直至全部樣品考查完畢為止.此方法中,d要給的適宜,太大了使凝聚點(diǎn)個(gè)數(shù)太少,太小了使凝聚點(diǎn)個(gè)數(shù)太多。4/14/20235.隨機(jī)地選擇,如果對樣品的性質(zhì)毫無所知,可采用隨機(jī)數(shù)表來選擇,打算分幾類就選幾個(gè)凝聚點(diǎn)?;蛘呔陀们癆個(gè)樣品作為凝聚點(diǎn)(假設(shè)分A類)。這方法一般不提倡使用。4.人為地選擇一正數(shù)d,首先以所有樣品的均值作為第一凝聚點(diǎn)。然后依次考察每個(gè)樣品,假設(shè)某樣品與已選定的凝聚點(diǎn)的距離均大于d,該樣品作為新的凝聚點(diǎn),否那么考察下一個(gè)樣品。4/14/20231.選擇k個(gè)樣品作為初始凝聚點(diǎn),或者將所有樣品分成k個(gè)初始類,然后將這k個(gè)類的重心〔均值〕作為初始凝聚點(diǎn)。2.對除凝聚點(diǎn)之外的所有樣品逐個(gè)歸類,將每個(gè)樣品歸入凝聚點(diǎn)離它最近的那個(gè)類〔通常采用歐式距離〕,該類的凝聚點(diǎn)更新為這一類目前的均值,直至所有樣品都?xì)w了類。3.重復(fù)步驟2,直至所有的樣品都不能再分配為止。三、k均值法聚類的步驟4/14/2023例對例使用k均值法進(jìn)行聚類,聚類前對各變量作標(biāo)準(zhǔn)化變換。dataexam7_4_1;inputxuhaoregion$x1-x8;cards;

1北京2959.19730.79749.41513.34467.871141.82478.42457.642天津2459.77495.47697.33302.87284.19735.97570.84305.083河北1495.63515.90362.37285.32272.95540.58364.91188.634山西1406.33477.77290.15208.57201.50414.72281.84212.105內(nèi)蒙古1303.97524.29254.83192.17249.81463.09287.87192.966遼寧1730.84553.90246.91279.81239.18445.20330.24163.867吉林1561.86492.42200.49218.36220.69459.62360.48147.768黑龍江1410.11510.71211.88277.11224.65376.82317.61152.859上海3712.31550.74893.37346.93527.001034.98720.33462.0310江蘇2207.58449.37572.40211.92302.09585.23429.77252.5411浙江2629.16557.32689.73435.69514.66795.87575.76323.3612安徽1844.78430.29271.28126.33250.56513.18314.00151.3913福建2709.46428.11334.12160.77405.14461.67535.13232.2914江西1563.78303.65233.81107.90209.70393.99509.39160.1215山東1675.75613.32550.71219.79272.59599.43371.62211.8416河南1427.65431.79288.55208.14217.00337.76421.31165.3217湖北1783.43511.88282.84201.01237.60617.74523.52182.5218湖南1942.23512.27401.39206.06321.29697.22492.60226.4519廣東3055.17353.23564.56356.27811.88873.061082.82420.8120廣西2033.87300.82338.65157.78329.06621.74587.02218.2721海南2057.86186.44202.72171.79329.65477.17312.93279.1922重慶2303.29589.99516.21236.55403.92730.05438.41225.8023四川1974.28507.76344.79203.21240.24575.10430.36223.4624貴州1673.82437.75461.61153.32254.66445.59346.11191.4825云南2194.25537.01369.07249.54290.84561.91407.70330.9526西藏2646.61839.70204.44209.11379.30371.04269.59389.3327陜西1472.95390.89447.95259.51230.61490.90469.10191.3428甘肅1525.57472.98328.90219.86206.65449.69249.66228.1929青海1654.69437.77258.78303.00244.93479.53288.56236.5130寧夏1375.46480.89273.84317.32251.08424.75228.73195.9331新疆1608.82536.05432.46235.82250.28541.30344.85214.40;proc

standandmean=0std=1out=stan;proc

fastclus

data=stanmaxc=5

drift

list;varx1-x8;idregion;run;SAS程序14/14/2023dataexam741_1;inputxuhaoregion$x1-x8;cards;

1北京2959.19730.79749.41513.34467.871141.82478.42457.642天津2459.77495.47697.33302.87284.19735.97570.84305.083河北1495.63515.90362.37285.32272.95540.58364.91188.634山西1406.33477.77290.15208.57201.50414.72281.84212.105內(nèi)蒙古1303.97524.29254.83192.17249.81463.09287.87192.966遼寧1730.84553.90246.91279.81239.18445.20330.24163.867吉林1561.86492.42200.49218.36220.69459.62360.48147.768黑龍江1410.11510.71211.88277.11224.65376.82317.61152.859上海3712.31550.74893.37346.93527.001034.98720.33462.0310江蘇2207.58449.37572.40211.92302.09585.23429.77252.5411浙江2629.16557.32689.73435.69514.66795.87575.76323.3612安徽1844.78430.29271.28126.33250.56513.18314.00151.3913福建2709.46428.11334.12160.77405.14461.67535.13232.2914江西1563.78303.65233.81107.90209.70393.99509.39160.1215山東1675.75613.32550.71219.79272.59599.43371.62211.8416河南1427.65431.79288.55208.14217.00337.76421.31165.3217湖北1783.43511.88282.84201.01237.60617.74523.52182.5218湖南1942.23512.27401.39206.06321.29697.22492.60226.4519廣東3055.17353.23564.56356.27811.88873.061082.82420.8120廣西2033.87300.82338.65157.78329.06621.74587.02218.2721海南

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論