數(shù)理統(tǒng)計(jì)-4.數(shù)據(jù)處理用spss作聚類分析_第1頁(yè)
數(shù)理統(tǒng)計(jì)-4.數(shù)據(jù)處理用spss作聚類分析_第2頁(yè)
數(shù)理統(tǒng)計(jì)-4.數(shù)據(jù)處理用spss作聚類分析_第3頁(yè)
數(shù)理統(tǒng)計(jì)-4.數(shù)據(jù)處理用spss作聚類分析_第4頁(yè)
數(shù)理統(tǒng)計(jì)-4.數(shù)據(jù)處理用spss作聚類分析_第5頁(yè)
已閱讀5頁(yè),還剩27頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

用SPSS作聚類一、聚類分析 ysis)簡(jiǎn)聚類分析是直接比較各事物之間的性質(zhì),將性質(zhì)相近一類,將性質(zhì)差別較大的歸入不同的類的分析利于我們的判斷。日常生活中,我們不自覺地用定性方法將人分為“好人”、“”;按熟悉程度分為“朋友”、“熟人”、“陌生人”等等。數(shù)理統(tǒng)計(jì)中的數(shù)判別分析:已知分類情況,將未 歸入正確類聚類分事物,找出解決問題的方法。例如將進(jìn)行分類,二、聚類聚聚類分析根據(jù)分類對(duì)象的不同可分為Q型和RQ型是對(duì)樣本進(jìn)行分類處理,其作用在于能利用多個(gè)變量R型是對(duì)變量進(jìn)行分可以了解變量間三、聚類過程與聚聚類的主要過程一般可分為如下四個(gè)步驟數(shù)據(jù)預(yù)處理(標(biāo)準(zhǔn)化構(gòu)造關(guān)系矩陣(親疏關(guān)系的描述聚類(根據(jù)不同方法進(jìn)行分類確定最佳分類(類別數(shù)以下我們結(jié)合實(shí)例、下表給出了1982年28個(gè)省、市、農(nóng)民家庭收支情況,有六個(gè)指標(biāo),是利用資料進(jìn)行(詳見文件1982“農(nóng)民生活消費(fèi)聚類數(shù)據(jù)預(yù)處理(標(biāo)準(zhǔn)化為什么要做數(shù)據(jù)在SPSS中如何選擇標(biāo)準(zhǔn)化方法 yze→Classify→Hierachical 然后 框中進(jìn)行如下選從TransformValues框常用標(biāo)準(zhǔn)化方法(選項(xiàng)說明)為了便于后面的所有樣本表示 均值表示 標(biāo)準(zhǔn)差表示

11n1nij1n1nijxj 2

xj

nn

Sj 極差表Rjmaxxij極差表1i 1ibb)ZScoresxij

若S

i1,2,L,n 00

若Sj

j1,2,L,mc)c)Range1to1:極差標(biāo)準(zhǔn)化xij

若R

i1,2,L,n

若R

j1,2,L,m 作作用:變換后的數(shù)據(jù)均值為0,極差為1|xij*|<1umummagnitudeof

若maxx

1i1i

i1,2,L,n 1

j1,2,L,m

1i作用作用:變換后的數(shù)據(jù)最大值為1e)e)Range0to1(規(guī)格化變換xij* 1i*

若R

i1,2,L,n

若Rj

j1,2,L,m Meanof

若xj

1,2,L,n

j1,2,L,mx

若x 作用作用:變換后的數(shù)據(jù)均值為1g)g)Standarddeviationof*Sj

若Sj若S

i1,2,L,n j 作作用:變換后的數(shù)據(jù)標(biāo)準(zhǔn)差為1構(gòu)造關(guān)系描述變量或樣本的親疏程度的數(shù)量指標(biāo)有兩種 這 中定義距離,距離較近的點(diǎn)歸為一類相似系數(shù)與距離有40在SPSS中如何選擇測(cè)度 yze→Classify→Hierachical 然后 框中進(jìn)行如下選常用測(cè)度(選項(xiàng)說明

項(xiàng),從中選一即aa)Euclideandistance(二階Minkowski距離(xy2(xy2iiibb)SquaredEucideandistance i用用途:聚類分析中用得最廣泛的)) x2 d)d)Pearson nXYX 2 2

X

Y用途:計(jì)算兩個(gè)相關(guān)系e)Chebycheve)Chebychev距d(x,y)maxxii用途:計(jì)算兩個(gè)向量的 距 Block:絕對(duì)值距離(一階Minkowski度量(又稱Manhattan度量或網(wǎng)格廣義歐氏距離d1(x,y)i

xi距距g)Minkowski1/d(x,y)xy 用途:計(jì)算兩個(gè)向量的 距 hh)Customizedd(x,y)

1/ry 用途用途:計(jì)算兩個(gè)選擇聚類樣品或變量進(jìn)行分類。分類的法是(又稱譜系聚類);另法是調(diào)優(yōu)法(如動(dòng)態(tài)聚我們主要介紹系統(tǒng)聚類法(實(shí)際應(yīng)用中使用最多)聚類過程可做成聚類譜系圖(Hierarchicaldiagram)。系統(tǒng)聚類法的系統(tǒng)聚類法的聚類原則決定于樣品間的距離(SPSS中如何選擇系統(tǒng)聚從ClusterMethod框中常用系統(tǒng)聚類用D(p,q)表示類p和類qaa)Between-groupslinkage組間平均距離連iipjq1iipjq1423

b)b)Within-groupslinkage11423c)c)Nearestneighbor最近鄰法(最短距離法特點(diǎn)聚合的趨勢(shì),這是其缺dd)Furthestneighbor最遠(yuǎn)鄰法(最長(zhǎng)距離法e)e)Centroidclustering特點(diǎn):該距離隨聚類地進(jìn)行不斷縮小樹狀圖很 Medianclustering中位離,也不采用最特點(diǎn):圖形將出現(xiàn)遞轉(zhuǎn),譜系樹狀圖很難,而這個(gè)方法幾乎g)g)Ward’smethod四、譜系分類的 確定的類分類的數(shù)目必須SPSS中其他選項(xiàng)(通過實(shí)例演示例、下表給出了1982年28個(gè)省、市、農(nóng)民家庭收支情況,有六個(gè)指標(biāo),是利用資料進(jìn)行(詳見文件1982“農(nóng)民生活消費(fèi)聚類生成樹生成冰柱 各項(xiàng)間類成員結(jié)果分析:(方法選擇如下第一類包含6第二類包含10個(gè)元素:8、17、28、12、13、18第三類包含9個(gè)元素:3、16、23、24、4、27、525、另有三個(gè)元素1、9、19 三地農(nóng)民屬高消費(fèi)生活水平 等第一類農(nóng)民生活水平較高 等第二類的農(nóng)民生活水為中等;陜西等”聚類分析數(shù)據(jù)來源: 國(guó) 數(shù)據(jù)選“統(tǒng)計(jì)數(shù)據(jù)”—〉“年度數(shù)據(jù)—〉“能源生產(chǎn)和消費(fèi)”—〉“九、人民生活—〉“各地區(qū)農(nóng)村居民家庭平均每人生活消費(fèi)支出數(shù)據(jù)預(yù)處文本數(shù)據(jù)處將網(wǎng)頁(yè)文 到“記事

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論