版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、d(2)=&XX2)i/2ijikjk判別分析和聚類分析有何區(qū)別?答:即根據(jù)一定的判別準(zhǔn)則,判定一個樣本歸屬于哪一類。具體而言,設(shè)有!個樣本,對每個樣本測得P項指標(biāo)(變量)的數(shù)據(jù),已知每個樣本屬于k個類別(或總體)中的某一類,通過找出一個最優(yōu)的劃分,使得不同類別的樣本盡可能地區(qū)別開,并判別該樣本屬于哪個總體。聚類分析是分析如何對樣品(或變量)進行量化分類的問題。在聚類之前,我們并不知道總體,而是通過一次次的聚類,使相近的樣品(或變量)聚合形成總體。通俗來講,判別分析是在已知有多少類及是什么類的情況下進行分類,而聚類分析是在不知道類的情況下進行分類。試述系統(tǒng)聚類的基本思想。答:系統(tǒng)聚類的基本思想
2、是:距離相近的樣品(或變量)先聚成類,距離相遠(yuǎn)的后聚成類,過程一直進行下去,每個樣品(或變量)總能聚到合適的類中。對樣品和變量進行聚類分析時,所構(gòu)造的統(tǒng)計量分別是什么?簡要說明為什么這樣構(gòu)造?答:對樣品進行聚類分析時,用距離來測定樣品之間的相似程度。因為我們把n個樣本看作p維空間的n個點。點之間的距離即可代表樣品間的相似度。常用的距離為(一)閔可夫斯基距離:dj(q)=ElXi.-Xjq)1/qk=1q取不同值,分為(1)絕對距離(q=1)d(1)=蘭X-Xijikjkk=1k=13)切比雪夫距離d(a)=maxj1kpXik-XjkXXikjkX+Xikjk二)馬氏距離d(L)=-蘭ijpk
3、=1(三)蘭氏距離d2(M)=(XX)21(XX)ijijij對變量的相似性,我們更多地要了解變量的變化趨勢或變化方向,因此用相關(guān)性進行衡量。將變量看作p維空間的向量,一般用(一)夾角余弦(二)相關(guān)系數(shù)rij刀(X-X)(X-X)ikijkjk=1(X-X)2刀ikik=1(X-X)2jkj5.4在進行系統(tǒng)聚類時,不同類間距離計算方法有何區(qū)別?選擇距離公式應(yīng)遵循哪些原則?答:設(shè)dij表示樣品與X之間距離,用??诒硎绢怗與Gj之間的距離(1).最短距離法D=mindijX.gG.,XgG.ijIIJJD=mind=minD,DkrXgG,XgGijikjrkpkq(2)最長距離法D=maxdpq
4、XgG,XgGijzpjqD=maxd=maxD,DkrXgG,XgGijkpkqikjr中間距離法D2=1D2+1D2+BD2kr2kp2kqpq其中-一-重心法D2=(X-X)(X-X)X=丄(nX+nX)pqpqpqrnpprnnnnD2=D2+D2pqD2krnkpnkqn2Pqr(5)類平均法D2=1工工d2D2=1工工d2nn=D2+qD2pqnnijkrnnijnkpnkqpqXi叫X“JkrXi叫XeGjrrr可變類平均法nnD2=(1-P)(pD2+qD2)+PD2krnkPnkqpqrr其中P是可變的且P1可變法1-PD2=(D2+D2)+pD2其中p是可變的且p1kr2k
5、pkqpq離差平方和法s=總(x-x)(x-X)TOC o 1-5 h ztittittt=1n+nn+nnD2=kpD2+kqD2一kD2krn+nkpn+nkqn+npqrkrkrk通常選擇距離公式應(yīng)注意遵循以下的基本原則:要考慮所選擇的距離公式在實際應(yīng)用中有明確的意義。如歐氏距離就有非常明確的空間距離概念。馬氏距離有消除量綱影響的作用。要綜合考慮對樣本觀測數(shù)據(jù)的預(yù)處理和將要采用的聚類分析方法。如在進行聚類分析之前已經(jīng)對變量作了標(biāo)準(zhǔn)化處理,則通常就可采用歐氏距離。要考慮研究對象的特點和計算量的大小。樣品間距離公式的選擇是一個比較復(fù)雜且?guī)в幸欢ㄖ饔^性的問題,我們應(yīng)根據(jù)研究對象的特點不同做出具
6、體分折。實際中,聚類分析前不妨試探性地多選擇幾個距離公式分別進行聚類,然后對聚類分析的結(jié)果進行對比分析,以確定最合適的距離測度方法。5.5試述K均值法與系統(tǒng)聚類法的異同。答:相同:K均值法和系統(tǒng)聚類法一樣,都是以距離的遠(yuǎn)近親疏為標(biāo)準(zhǔn)進行聚類的。不同:系統(tǒng)聚類對不同的類數(shù)產(chǎn)生一系列的聚類結(jié)果,而K均值法只能產(chǎn)生指定類數(shù)的聚類結(jié)果。具體類數(shù)的確定,離不開實踐經(jīng)驗的積累;有時也可以借助系統(tǒng)聚類法以一部分樣品為對象進行聚類,其結(jié)果作為K均值法確定類數(shù)的參考。5.6試述K均值法與系統(tǒng)聚類有何區(qū)別?試述有序聚類法的基本思想。答:K均值法的基本思想是將每一個樣品分配給最近中心(均值)的類中。系統(tǒng)聚類對不同的
7、類數(shù)產(chǎn)生一系列的聚類結(jié)果,而K均值法只能產(chǎn)生指定類數(shù)的聚類結(jié)果。具體類數(shù)的確-0定,有時也可以借助系統(tǒng)聚類法以一部分樣品為對象進行聚類,其結(jié)果作為K均值法確定類數(shù)的參考。有序聚類就是解決樣品的次序不能變動時的聚類分析問題。如果用X,X,,X表示(2)(n)n個有序的樣品,則每一類必須是這樣的形式,即X,X,,X,其中1in,且(i)(i+1)(j)j?lusters:2numbetoTdusters:4Continue:CflHCtii-feip圖5.2Statistics子對話框圖5.3Plots子對話框4.點擊Method按鈕,設(shè)置系統(tǒng)聚類的方法選項。ClusterMethod下拉列表用于
8、指定聚類的方法,這里選擇Between-groupinkage(組間平均數(shù)連接距離);Measure欄用于選擇對距離和相似性的測度方法,選擇SquaredEuclideandistance(歐氏距離);單擊Continue按鈕,返回主界面。甥HierarchcaclulrArulysit:Sj.Ill-ClusterNoneOSJnefesoiuiionMurrterofdusters:的凹匕E呂EjUticiri忑Mrittiumnumberd1clustersjJ/laKrTiumn.-rnkier口fclusters:4Help圖5.5Save子對話框圖5.4Method子對話框點擊Sa
9、ve按鈕,指定保存在數(shù)據(jù)文件中的用于表明聚類結(jié)果的新變量。None表示不保存任何新變量;Singlesolution表示生成一個分類變量,在其后的矩形框中輸入要分成的類數(shù);Rangeofsolutions表示生成多個分類變量。這里我們選擇Rangeofsolutions,并在后面的兩個矩形框中分別輸入2和4,即生成三個新的分類變量,分別表明將樣品分為2類、3類和4類時的聚類結(jié)果,如圖5.5。點擊Continue,返回主界面。點擊0K按鈕,運行系統(tǒng)聚類過程。聚類結(jié)果分析:下面的群集成員表給出了把公司分為2類,3類,4類時各個樣本所屬類別的情況,另外,從右邊的樹形圖也可以直觀地看到,若將15個公司
10、分為2類,則13獨自為一類,其余的為一類;若分為3類,則公司8分離出來,自成一類。以此類推。EESC-iled.Dist-aiiceClustErCoutlineLDID圖5.6聚類樹形圖?14115B13CASELakielNun表5.1各樣品所屬類別表b)K均值法的步驟如下:1.在SPSS窗口中選擇AnalyzefClassifyfK-MeansCluster,調(diào)出K均值聚類分析主界面,并將變量X1-X8移入Variables框中。在Method框中選擇Iterateclassify,即使用K-means算法不斷計算新的類中心,并替換舊的類中心(若選擇Classifyonly,則根據(jù)初始類
11、中心進行聚類,在聚類過程中不改變類中心)。在NumberofCluster后面的矩形框中輸入想要把樣品聚成的類數(shù),這里我們輸入3,即將15個公司分為3類。(Centers按鈕,則用于設(shè)置迭代的初始類中心。如果不手工設(shè)置,則系統(tǒng)會自動設(shè)置初始類中心,這里我們不作設(shè)置。)2.點擊Iterate按鈕,對迭代參數(shù)進行設(shè)置。MaximumIterations參數(shù)框用于設(shè)定K-means算法迭代的最大次數(shù),輸入10,ConvergenceCriterion參數(shù)框用于設(shè)定算法的收斂判據(jù),輸入0,只要在迭代的過程中先滿足了其中的參數(shù),則迭代過程就停止。單擊Continue,返回主界面。圍K-Meansclus
12、terAnalysis:iterateWaximuinterstiong:hoCanvergenceCriterion:q:Userunningmeanscontinue匚ancelHelp圖5.8Iterate子對話框3.點擊Save按鈕,設(shè)置保存在數(shù)據(jù)文件中的表明聚類結(jié)果的新變量。我們將兩個復(fù)選框都選中,其中Clustermembership選項用于建立一個代表聚類結(jié)果的變量,默認(rèn)變量名為qcl_1;Distancefromclustercenter選項建立一個新變量,代表各觀測量與其所屬類中心的歐氏距離。單擊Continue按鈕返回。0ClustermembershipHDistance
13、fromclustercenterContinueCancelHelp圖5.9Save子對話框4.點擊Options按鈕,指定要計算的統(tǒng)計量。選中Initialclustercenters和Clusterinformationforeachcase復(fù)選框。這樣,在輸出窗口中將給出聚類的初始類中心和每個公司的分類信息,包括分配到哪一類和該公司距所屬類中心的距離。單擊Continue返回。StartHrittoidusterccrterjANWAtabfe*CluslerInrutmallonfarescticsse-imr&siiKivaiuos()&cuctanstwise:0EclugsFw
14、iseContinueCeticel卍Ip圖5.10Options子對話框點擊OK按鈕,運行K均值聚類分析程序。聚類結(jié)果分析:以下三表給出了各公司所屬的類及其與所屬類中心的距離,聚類形成的類的中心的各變量值以及各類的公司數(shù)。由以上表格可得公司13與公司8各自成一類,其余的公司為一類。通過比較可知,兩種聚類方法得到的聚類結(jié)果完全一致。室1398.1532312.9代33235.34643531609.9586393.39913205.51132.OOC9395.9231338.967113834.134123101.3521?1.OOC143246.882153433.1rs策類11.00021
15、.000313.000有蝕15.000.000毎亍聚類中的案例數(shù)聚類123劃95.7911.126.48y.2-5.20-1.69.08x3.5012.39姻252.34132.1471.48y.599.34100.0092.06如-5.42-.661.90y.7-9816.52-4454.39-103.94-46.82-627511.91巖終饕類中心5.9下表是某年我國16個地區(qū)農(nóng)民支出情況的抽樣調(diào)查數(shù)據(jù),每個地區(qū)調(diào)查了反映每人平均生活消費支出情況的六個經(jīng)濟指標(biāo)。試通過統(tǒng)計分析軟件用不同的方法進行系統(tǒng)聚類分析,并比較何種方法與人們觀察到的實際情況較接近。地區(qū)食品衣著燃料住房交通和通訊娛樂教育
16、文化北京190.3343.779.7360.5449.019.04天津135.236.410.4744.1636.493.94河北95.2122.839.322.4422.812.8山西104.7825.116.49.8918.173.25內(nèi)蒙128.4127.638.9412.5823.992.27遼寧145.6832.8317.7927.2939.093.47吉林159.3733.3818.3711.8125.295.22黑龍江116.2229.5713.2413.7621.756.04上海221.1138.6412.53115.6550.825.89江蘇144.9829.1211.674
17、2.627.35.74浙江169.9232.7512.7247.1234.355安徽135.1123.0915.6223.5418.186.39福建144.9221.2616.9619.5221.756.73江西140.5421.517.6419.1915.974.94山東115.8430.2612.233.633.773.85河南101.1823.268.4620.220.54.3解:令食品支出為X1,衣著支出為X2,燃料支出為X3,住房支出為X4,交通和通訊支出為X5,娛樂教育文化支出為X6,用spss對16各地區(qū)聚類分析的步驟如5.8題,不同的方法在第4個步驟的Method子對話框中選擇
18、不同的Clustermethod。Between-groupinkage(組間平均數(shù)連接距離)空:閉14W2E=111122213321A321522162217221a22194321D221111111222113221142211-.32115321CASE0510Lah亡J.Mundd一一-一一-十16q15Z106IE均125B11119152D2S+十上表給出了把全國16個地區(qū)分為2類、3類和4類時,各地區(qū)所屬的類別,另外從右邊的樹形圖也可以直觀地觀察到,若用組間平均數(shù)連接距離將這些地區(qū)分為3類,則9(上海)獨自為一類,1(北京)和11(浙江)為一類,剩余地區(qū)為一類。Within-
19、grouplinkage(組內(nèi)平均連接距離)3薛2-W11112221332143215221622172218321g1311D221li22112E11132211J221152211g321CASELabelNum5015101312611119+10_+15_E0-+若用組內(nèi)平均數(shù)連接距離將這些地區(qū)分為3類,則9(上海)獨自為一類,1(北京)獨自為一類,剩余地區(qū)為一類。3.Nearestneighbor(最短距離法)珈14TEB3fil隼2S11I22113221+2215221822172Q1g22193321022111421122Q113221142211522116221CAS
20、ELabelNII十20-+若用最短距離法將這些地區(qū)分為3類,則9(上海)獨自為一類,1(北京)獨自為一類,剩余地區(qū)為一類。4.Furthestneighbor(最遠(yuǎn)距離法)土;|3群集231ft1I1i3222332243225R3227丄2222283229a3110222111111222213222H222153221632HEScfllEdBlseanceCluscerCombine匚A5E5ID15ZD25LabelNwui+1-1-t-+3_15ZI10_6一-i一12_7-1-19若用最遠(yuǎn)距離法將這些地區(qū)分為3類,則9(上海)獨自為一類,1(北京)和11(浙江)為一類,剩余地區(qū)
21、為一類。5.Centroidcluster(重心法)4科年3IS年2蓉111122213321A32152i62217221822ig43210221T11111222i13221142211512116321若用重心法將這些地區(qū)分為3類,則9(上海)獨自為一類,1(北京)和11(浙江)為一類,剩余地區(qū)為一類。Mediancluster(中位數(shù)距離)CELahElNuiri,則9(上海)獨自為一類,1(北京)和11(浙江)Wardmethod(離差平方和)客聞1髀集32if#1i1I2222333243325332621272223332g41IID2221111I12222133221422
22、2153216332CALabel10-4-152D-+若用離差平方和法將這些地區(qū)分為3類,則9(上海),1(北京)和11(浙江)為一類,2(天津)、6(遼寧)、7(吉林)、10(江蘇)、12(安徽)、13(福建)和14(江西)為一類,剩余地區(qū)為一類。5.10根據(jù)上題數(shù)據(jù)通過SPSS統(tǒng)計分析軟件進行快速聚類運算,并與系統(tǒng)聚類分析結(jié)果進行比較。解:快速聚類運算即K均值法聚類,具體步驟同5.8,聚類結(jié)果如下:室縮1146.7512122.9203322.4004316.8645313.8306115.2557126.265837.51392.00010114.59011117.90612319.5
23、0113125.91214325.20315319.20116316.4031:3166.77221.11117.1632.7999.6425.41;13.9612.5311.48y.A30.15115.6519.40n51R?7IAA5.595sg4.237.00011.010J8.ODO16.0DQ.ngo毎個玉找中的案洌敷聚類的結(jié)果為9(上海)獨自為一類,1(北京)、2(天津)、6(遼寧)、7(吉林)、10(江蘇)、11(浙江)、13(福建)和14(江西)為一類,剩余地區(qū)為一類。5.11下表是2003年我國省會城市和計劃單列市的主要經(jīng)濟指標(biāo):人均GDPx(元)、1人均工業(yè)產(chǎn)值X(元)、客
24、運總量x(萬人)、貨運總量x(萬噸)、地方財政預(yù)算內(nèi)收入XTOC o 1-5 h z2345(億元)、固定資產(chǎn)投資總額X(億元)、在崗職工占總?cè)丝诘谋壤齒(%)、在崗職工人均67工資額X(元)、城鄉(xiāng)居民年底儲蓄余額X(億元、。試通過統(tǒng)計分析軟件進行系統(tǒng)聚類分89析,并比較何種方法與人們觀察到的實際情況較接近。城市x1x2x3x4x5x6x7x8x9北京31886331683052030671593200037.8253126441天津264334373235073467920593418.8186481825石家莊15134131591184310008494169.5123061044太原1
25、5752158312975152483319722.812679660呼和浩特1899111257350841552118213.514116255沈陽23268154466612146368155714.8149611423大連2914527615110012108111140714.7175601310長春18630210456999108924629412.513870831哈爾濱148257561645895187642317.7124511154上海4658677083721263861899227421.0273056055南京275474385316790148051367941
26、5.4221901134杭州3266749823213491681515071711.8246671466寧波3254347904249381379713955510.9236911060合肥106211171460344641362458.313901359福州2228121310968082506737611.815053876廈門5359093126444130557023838.619024397南昌142219205572844543121011.013913483濟南23437226345810143547642913.516027758青島24705355061466630553
27、12054814.515335908鄭州16674140231070978476637312.7135381048武漢212781708311882166108062317.4137301286長沙15446887310609106316043410.016987705廣州48220554042975128859275108925.1288053727深圳19183834751910989679329187569.6310532199南寧8176339070165893361708.313171451???644214553132843304129916.514819284重慶71905076
28、582903245016211876.5124401897成都17914928972793287989078811.9152741494貴陽11046103501851153184023115.812181345昆明16215116015126123386034214.614255709西安1314089131141393926544615.9135051211蘭州1445917136220955812120318.013489468西寧706656052788203787610.114629175銀川1178711013214621271213421.913497193烏魯木齊2250817
29、1372188127544118026.116509420南寧31886331683052030671593200037.8253126441???64334373235073467920593418.8186481825資料來源:中國統(tǒng)計年鑒2004解:用spss對37個地區(qū)聚類分析的步驟如5.8題,不同的方法在第4個步驟的Method子對話框中選擇不同的Clustermethod。l.Between-groupinkage(組間平均數(shù)連接距離)31i口11223-35S1513213口3汕2231173-3B從上面的樹形圖可以直觀地觀察到,若用組間平均數(shù)連接距離將這些地區(qū)分為3類,則24(深圳)獨自為一類,10(上海)和16(廈門)為一類,剩余地區(qū)為一類。2.Within-grouplinkage(組內(nèi)平均連接距離)371922312D253314273
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 動物園裝修施工合同樣本
- 飛機場地勤個人鏟車租賃協(xié)議
- 金融行業(yè)文秘人才聘用合同
- 建筑工程合同變更渠道施工合同
- 市場調(diào)研合作協(xié)議三篇
- 林地拆遷合同范例
- 能源管理合同(2篇)
- 集體所有制企業(yè)合同制工人退休新規(guī)定
- 常熟房屋租賃合同范例
- 采購垃圾桶合同范例
- 經(jīng)典繪本推薦--《果果的花朵》
- 劍橋英語 中級班 聽力腳本劍橋二
- 蛋白質(zhì)分選與膜泡運輸
- 彈簧設(shè)計公差標(biāo)準(zhǔn)
- X62W萬能銑床電氣控制
- 常用普通螺紋加工的中徑和頂徑極限偏差快速查詢表
- 質(zhì)量認(rèn)證基礎(chǔ)知識(共218頁).ppt
- 《光學(xué)教程》[姚啟鈞]課后習(xí)題解答
- 供應(yīng)室不良事件
- ACOG指南:妊娠期高血壓疾病指南(專家解讀)
- 服務(wù)外包公司評價表(共1頁)
評論
0/150
提交評論