教育統(tǒng)計(jì)學(xué) 課件第15次-聚類(lèi)分析及其應(yīng)用；第16次-判別分析及其應(yīng)用

上傳人：q*** IP屬地：山東上傳時(shí)間：2024-12-04 格式：PPTX 頁(yè)數(shù)：161 大?。?.72MB 積分：15 舉報(bào) 版權(quán)申訴

教育統(tǒng)計(jì)學(xué) 課件第15次-聚類(lèi)分析及其應(yīng)用；第16次-判別分析及其應(yīng)用_第2頁(yè)

教育統(tǒng)計(jì)學(xué) 課件第15次-聚類(lèi)分析及其應(yīng)用；第16次-判別分析及其應(yīng)用_第3頁(yè)

教育統(tǒng)計(jì)學(xué) 課件第15次-聚類(lèi)分析及其應(yīng)用；第16次-判別分析及其應(yīng)用_第4頁(yè)

教育統(tǒng)計(jì)學(xué) 課件第15次-聚類(lèi)分析及其應(yīng)用；第16次-判別分析及其應(yīng)用_第5頁(yè)

已閱讀5頁(yè)，還剩156頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

教育統(tǒng)計(jì)學(xué)聚類(lèi)分析及其應(yīng)用學(xué)部本科科生課課程北京師范大學(xué)教育學(xué)部胡詠梅聚類(lèi)方法：分層聚類(lèi)（系統(tǒng)聚類(lèi)）與快速聚類(lèi)聚類(lèi)分析概述：概念、準(zhǔn)則及原理聚類(lèi)分析方法應(yīng)用示例聚類(lèi)研究的質(zhì)量評(píng)價(jià)課堂操作練習(xí)contentso

概念：口聚類(lèi)分析是統(tǒng)計(jì)學(xué)中研究“物以類(lèi)聚”的一種方法,即根據(jù)事物外顯特

征研究個(gè)體分類(lèi)的多元統(tǒng)計(jì)分析方法。o

聚類(lèi)分析按分類(lèi)的對(duì)象不同，可分為樣本聚類(lèi)（或稱(chēng)個(gè)案聚類(lèi)）

和變量

聚類(lèi)兩種類(lèi)型。o

樣本聚類(lèi)是根據(jù)被觀測(cè)對(duì)象的各種特征，即反映被觀測(cè)對(duì)象特征的各變

量值對(duì)樣本進(jìn)行分類(lèi)。o

在教育研究中適用于對(duì)于學(xué)生或?qū)W校按照某些指標(biāo)進(jìn)行類(lèi)別劃分等方面。例如：對(duì)大學(xué)按照辦學(xué)質(zhì)量分類(lèi)、對(duì)學(xué)生按照興趣愛(ài)好分類(lèi)、對(duì)校長(zhǎng)進(jìn)

行領(lǐng)導(dǎo)風(fēng)格分類(lèi)等等。聚類(lèi)分析概述o

變量聚類(lèi)是一種降維的方法，用于在變量眾多時(shí)，尋找有代表性的變

量，以便當(dāng)用少數(shù)、有代表性的變量代替原始較多變量時(shí)，損失的信

息很少。o

在教育、心理研究中適用于對(duì)高校各系課程變量的類(lèi)屬劃分以及心理

結(jié)構(gòu)變量的探查等方面。聚類(lèi)分析概述o

準(zhǔn)則：聚類(lèi)分析是建立一種分類(lèi)，是將一批樣本(或變量)按照在性質(zhì)上的“親疏”程度,在沒(méi)有先驗(yàn)知識(shí)的情況下自動(dòng)進(jìn)行分類(lèi)的方法。其中:類(lèi)

內(nèi)個(gè)體具有較高的相似性，類(lèi)間的差異性較大。聚類(lèi)分析概述若對(duì)以上五所高校進(jìn)行分類(lèi)，依據(jù)平均得分的差距，將差距較小的分為一類(lèi)，我們可以將A

、B高校分為一類(lèi)，C高校為一類(lèi)，D

、E高校為一類(lèi)。o

例15-1假設(shè)現(xiàn)在對(duì)A

、B

、C

、D

、E五所高校教學(xué)、科研、社會(huì)服務(wù)三大職能進(jìn)行評(píng)價(jià)，評(píng)分情況如下：聚類(lèi)分析研究的關(guān)鍵問(wèn)題

問(wèn)題3.

形成

多少類(lèi)別最

合適？問(wèn)題1.

怎樣測(cè)量相似性？問(wèn)題2.如何

聚類(lèi)？o

親疏遠(yuǎn)程度的衡量指標(biāo)：衡量親疏程度的指標(biāo)有兩種，即距離和相似系

數(shù)。o

變量之間的親疏程度則通常用相似系數(shù)來(lái)度量。相似系數(shù)越接近于1或-

1時(shí)，認(rèn)為變量之間的親疏程度越高；相似系數(shù)接近于0時(shí)，認(rèn)為變量之

間是無(wú)關(guān)的。比如夾角余弦、相關(guān)系數(shù)：r

聚類(lèi)分析原理:1.怎樣測(cè)量相似性？o

距離是將每個(gè)樣品看成m個(gè)數(shù)據(jù)對(duì)應(yīng)的m維空間中的一個(gè)點(diǎn)，然后在該

空間中所定義的距離越近，則親疏程度越高。o

如何定義數(shù)據(jù)間的距離呢？不同測(cè)度水平的數(shù)據(jù)間的距離定義是否不同？聚類(lèi)分析原理:1.怎樣測(cè)量相似性？o

定距型個(gè)體間的距離：把每個(gè)個(gè)案數(shù)據(jù)看成是m維空間上的點(diǎn),在點(diǎn)和點(diǎn)之間定義某種距離。一n平方歐氏距離(SEUCLID)n明可夫斯基距離（歐氏距離是其特例）般適用于定距數(shù)據(jù)。n歐氏距離(EUCLID)缺點(diǎn)：要求各指標(biāo)計(jì)量單位相同，而且同等看待各指標(biāo)的重要性。

聚類(lèi)分析原理：怎樣測(cè)量相似性？

(

)

2n切比雪夫距離dij(∞)

mxEUCLID

(

x,y

)

=xik

xjkCaseEuclidean

Distance1:A商廈2:B商廈3:C商廈4:D商廈5:E商廈1:A商廈2:B商廈3:C商廈4:D商廈5:E商廈.0008.062

17.804

26.907

30.4148.062.000

25.456

34.655

38.21017.80425.456

.000

9.22012.80626.90734.655

9.220

.00030.41438.210

12.806

3.606

.000l定距型個(gè)體間的距離：連續(xù)型變量個(gè)體距離矩陣ProximityMatrix兩類(lèi):(AB)(C

三類(lèi):(AB)

(C)

E)聚類(lèi)分析原理：怎樣測(cè)量相似性？This

isa

dissimilarity

matrix3.606姓名選修課門(mén)數(shù)

（期望頻數(shù)）專(zhuān)業(yè)課門(mén)數(shù)

（期望頻數(shù)）得優(yōu)門(mén)數(shù)

（期望頻數(shù)）合計(jì)張三9（8.5）6（6）4（4.5）5（4.5）9198（8.5）171938

聚類(lèi)分析原理：怎樣測(cè)量相似性？l

定距型個(gè)體間的距離：計(jì)數(shù)變量6（6）12李四合計(jì)選課特征姓名是否喜歡討論

式教學(xué)是否選擇方法

類(lèi)課程是否喜歡年

輕教師授課小張111小李110小王001ll聚類(lèi)分析原理：怎樣測(cè)量相似性？

類(lèi)屬型個(gè)體間的距離

類(lèi)屬型個(gè)體間的距離(1)簡(jiǎn)單匹配(simple

matching)系數(shù)：適用二值變量簡(jiǎn)單匹配系數(shù)將同時(shí)擁有或同時(shí)不擁有某特征的情況看作匹配。應(yīng)

用簡(jiǎn)單匹配系數(shù)時(shí),取0和1的地位等價(jià),編碼方案的變化不會(huì)引起系數(shù)的其中,a為個(gè)體i與個(gè)體j在相同變量上同時(shí)取1的個(gè)數(shù)

;d為同

時(shí)取0的個(gè)數(shù)。個(gè)體i與個(gè)體j之間的距離為:個(gè)體i10

聚類(lèi)分析原理：怎樣測(cè)量相似性？個(gè)體j1

0變化。a

類(lèi)屬型個(gè)體間的距離—簡(jiǎn)單匹配(simple

matching)系數(shù):適用二值變量。姓名是否喜歡討論課是否喜歡方法課是否喜歡年輕老師張三

111李四

0王五

01（張三，李四）：a=2b=

1c=0d=0d(x,y)=1/(1+2)=1/3（張三，王五）：a=1b=2c=0d=0d(x,y)=2/(1+2)=2/3張三距李四近聚類(lèi)分析原理：怎樣測(cè)量相似性？發(fā)燒咳嗽檢查1

檢查2檢查3檢查41

0010

00o

類(lèi)屬型個(gè)體間的距離口根據(jù)臨床表現(xiàn)研究病人是否有類(lèi)似的病聚類(lèi)分析原理：怎樣測(cè)量相似性？姓名張三李四王五……男

女

男性別(2)杰卡德(Jaccard)系數(shù)：適用二值變量杰卡德系數(shù)排除同時(shí)不擁有某特征的情況。應(yīng)用杰卡德系數(shù)時(shí),取1的狀

態(tài)比取0更有意義。同時(shí),編碼方案會(huì)引起系數(shù)的變化。個(gè)體j個(gè)體i10其中,a為個(gè)體i與個(gè)體j在相同變量上同時(shí)取1的個(gè)數(shù);d

為同時(shí)取0的個(gè)數(shù)。個(gè)體i與個(gè)體j之間的距離為:J

)

聚類(lèi)分析原理：怎樣測(cè)量相似性？1

0acbdo

類(lèi)屬型個(gè)體間的距離口

Jaccard系數(shù)舉例:根據(jù)臨床表現(xiàn)研究病人是否有類(lèi)似的病。姓名性別

發(fā)燒咳嗽檢查1

檢查2

檢查3

檢查4張三

男

0李四女

0101

0王五

男

0結(jié)論:張三和李四最有可能得類(lèi)似的病;李

四和王五不太有可能得類(lèi)似的病。聚類(lèi)分析原理：怎樣測(cè)量相似性？d

(張三

李四

)

.33d

(李四

王五

)

.75d

(張三

王五

)

.67……..

相似系數(shù)測(cè)量：

夾角余弦或相似系數(shù)

小結(jié)：怎樣測(cè)量相似性？

選擇距離測(cè)量：

區(qū)分?jǐn)?shù)據(jù)類(lèi)型

樣本聚類(lèi)變量聚類(lèi)o

注意：口聚類(lèi)過(guò)程中如果數(shù)據(jù)在數(shù)量級(jí)上存在差異或單位不同時(shí)，應(yīng)進(jìn)行標(biāo)準(zhǔn)

化處理。聚類(lèi)分析概述

例如:l

說(shuō)明：l聚類(lèi)分析中的變量選擇問(wèn)題：–

變量應(yīng)和聚類(lèi)分析的目標(biāo)密切相關(guān)(如：學(xué)?？蒲心芰Φ脑u(píng)價(jià)，可選

變量:科研經(jīng)費(fèi)、項(xiàng)目數(shù)、獲獎(jiǎng)等級(jí)及頻次、重點(diǎn)學(xué)科數(shù)、重點(diǎn)實(shí)驗(yàn)

室或基地?cái)?shù))。–

聚類(lèi)結(jié)果僅是所選變量數(shù)據(jù)相似性的反映，未必符合事物真實(shí)的類(lèi)

別屬性。–

變量之間不應(yīng)具有高度相關(guān)性,否則相當(dāng)于給這些變量進(jìn)行了加權(quán)。l聚類(lèi)分析包括：樣本（或個(gè)案）聚類(lèi)和變量聚類(lèi)兩種。l聚類(lèi)方法包括：分層（或系統(tǒng)）聚類(lèi)和快速聚類(lèi)兩種。聚類(lèi)分析概述o

(一）基本原理：首先將所有的個(gè)體（樣品或變量）各自看成一類(lèi)，然后根據(jù)個(gè)體之間

特征的親疏程度，將親疏程度最高的兩類(lèi)進(jìn)行合并，再計(jì)算合并后的新

類(lèi)與其他類(lèi)之間的親疏程度，并將親疏程度最高的兩類(lèi)進(jìn)行合并。重復(fù)

這一過(guò)程，直至所有個(gè)體都合并為一類(lèi)。分層聚類(lèi)（或稱(chēng)系統(tǒng)聚類(lèi)，Hierarchical

Cluster)

衡量親疏程度的指標(biāo)有兩種，即距離和相似系數(shù)。o

距離是將每個(gè)樣品看成m個(gè)數(shù)據(jù)對(duì)應(yīng)的m維空間中的一個(gè)點(diǎn)，然后在該

空間中所定義的距離越近，則親疏程度越高。o

變量之間的親疏程度則通常用相似系數(shù)來(lái)度量。相似系數(shù)越接近于1或-

1時(shí)，認(rèn)為變量之間的親疏程度越高；相似系數(shù)接近于0時(shí)，認(rèn)為變量

之間是無(wú)關(guān)的。分層聚類(lèi)（或稱(chēng)系統(tǒng)聚類(lèi)，Hierarchical

Cluster)

以合并(凝聚)的方式聚類(lèi)（SPSS采用）：口

首先,每個(gè)個(gè)體自成一類(lèi)?？?/p>

其次,將最“親密”的個(gè)體聚成一小類(lèi)。口

然后,將最“親密”的小類(lèi)或個(gè)體再聚成一類(lèi)?？?/p>

重復(fù)上述過(guò)程,即：把所有的個(gè)體和小類(lèi)聚集成越來(lái)越大的類(lèi)，直到所有的個(gè)體都

到一起(一大類(lèi))為止?？诳梢?jiàn),隨著聚類(lèi)的進(jìn)行,類(lèi)內(nèi)的“親密”性在逐漸減低。分層聚類(lèi)（或稱(chēng)系統(tǒng)聚類(lèi)，Hierarchical

Cluster)

（二）程序：o

以分解的方式聚類(lèi)：口

首先,所有個(gè)體都屬于一類(lèi)。口

其次,將大類(lèi)中最“疏遠(yuǎn)”的小類(lèi)或個(gè)體分離出去。口

然后,分別將小類(lèi)中最“疏遠(yuǎn)”的小類(lèi)或個(gè)體再分離出去?？?/p>

重復(fù)上述過(guò)程,即：把類(lèi)分解成越來(lái)越小的小類(lèi)，直到所有的個(gè)體自成一類(lèi)為止?？诳梢?jiàn),隨著聚類(lèi)的進(jìn)行,類(lèi)內(nèi)的親密性在逐漸增強(qiáng)。

分層（或系統(tǒng)）聚類(lèi)方法o

（三）類(lèi)間距離的計(jì)算方法o

“親疏”程度的衡量對(duì)象：口個(gè)體間距離口個(gè)體和小類(lèi)間、小類(lèi)和小類(lèi)間的距離分層（或系統(tǒng)）聚類(lèi)方法o

個(gè)體與類(lèi)間、類(lèi)和類(lèi)間的距離計(jì)算方法口最短距離法(nearest

neighbor):n兩類(lèi)間的距離定義為兩類(lèi)中距離最近的兩個(gè)個(gè)案之間的距離?？谧铋L(zhǎng)距離法(furthest

neighbor)：n兩類(lèi)間的距離定義為兩類(lèi)中距離最遠(yuǎn)的兩個(gè)個(gè)案之間的距離?？陬?lèi)平均法(Average

linkage)n兩類(lèi)之間的距離定義為兩類(lèi)個(gè)案之間距離的平均值。包括：n組間平均法(between-groups

linkage):只考慮兩類(lèi)間的距離n組內(nèi)平均法（Within-groups

linage)：考慮所有個(gè)案間的距離（三）分層聚類(lèi)中類(lèi)間距離的計(jì)算方法常用的系統(tǒng)聚類(lèi)方法有8種。Wishart在1969年給出了8種聚類(lèi)方法類(lèi)與類(lèi)之間距離的統(tǒng)一公式。設(shè)

類(lèi)

與

類(lèi)

合

并

為

類(lèi)

{Gp

,Gq

}，則

類(lèi)

與

任

一

類(lèi)

的

距

離

為

：D

βD

D-

|式中

,β,

對(duì)

于

不同的

聚

類(lèi)

方

法

取

不同的

值，

下

表

給出了

種

聚

類(lèi)

方

法的

參

數(shù)

值

。k2kp2p2k2kp2k2常用的分層（或系統(tǒng)）聚類(lèi)方法Ward’s

Method

Average

Linkage

（SPSS中即betweengroupslinkage)o

（四）基本操作步驟1.基本操作A.菜單選項(xiàng):analyze->classify->Hierarchical

clusterB.選擇參與聚類(lèi)分析的變量入variables框C.選擇一個(gè)字符型變量作為個(gè)案的標(biāo)記變量(label

cases)D.選擇個(gè)案聚類(lèi)還是變量聚類(lèi)分層（或系統(tǒng)）聚類(lèi)方法o

（四）基本操作步驟2.選擇距離計(jì)算方法（method選項(xiàng)）o

cluster

method:計(jì)算類(lèi)間距離的方法o

measure:計(jì)算樣本距離的方法o

transform

values:對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理口

variable:以變量為單位標(biāo)準(zhǔn)化，適用于個(gè)案聚類(lèi)口

case:以個(gè)案為單位標(biāo)準(zhǔn)化，適用于變量聚類(lèi)分層（或系統(tǒng)）聚類(lèi)方法

例15-2假設(shè)有學(xué)者認(rèn)為，可以從受教育權(quán)和入學(xué)機(jī)會(huì)公平、公共教育資源配置公平、教育質(zhì)量公平、群體間教育公平四個(gè)方面設(shè)計(jì)正規(guī)三級(jí)教育的教育公平的具體評(píng)價(jià)指標(biāo)。據(jù)此對(duì)全國(guó)31個(gè)省區(qū)、直轄市展開(kāi)調(diào)查，獲得31個(gè)省區(qū)、直轄市的教育公平指標(biāo)數(shù)據(jù)。試將31個(gè)省區(qū)、直轄市按照教育公平狀況進(jìn)行分類(lèi)。

數(shù)據(jù)文件15-1.sav

入學(xué)機(jī)會(huì)公平、公共教育資源配置公平、教育質(zhì)量公平、群體間教育公平4個(gè)

指標(biāo)的變量名分別為x1

、x2

、x3

、x4

Analyze-Classify-HierachicalCluster

…分層（或系統(tǒng)）聚類(lèi)示例-樣本聚類(lèi)o選擇Agglomeration

schedule（凝聚狀態(tài)表）和Proximitiy

matrix（樣本的距離矩陣）選項(xiàng)，輸出

結(jié)果將生成樣本的距離矩陣和凝聚狀態(tài)表，顯示

每一步合并的類(lèi)以及類(lèi)與類(lèi)之間的距離等信息。o在Cluster

membership（類(lèi)成員）欄下方選中Single

solution（聚成固定類(lèi)數(shù)時(shí)各樣本的歸屬）復(fù)選項(xiàng)，

并在其右側(cè)的空白框內(nèi)輸入：3

。輸出結(jié)果中將會(huì)

顯示聚為3類(lèi)時(shí)各個(gè)樣品所對(duì)應(yīng)的類(lèi)別。類(lèi)成員欄

其他選項(xiàng)none表示不輸出類(lèi)成員，range

ofsolutions表示聚成m-n類(lèi)時(shí)各樣本的歸屬（m<n<總

樣本數(shù)）。o單擊Plots按鈕，展開(kāi)其對(duì)話(huà)框。選擇Dendrogram（樹(shù)形圖）復(fù)選項(xiàng)。樹(shù)形圖顯示系統(tǒng)聚類(lèi)步驟，

包括各步的成員合并情況和距離系數(shù)值，圖中用

相連的垂線(xiàn)表示相聯(lián)系的樣品，它將實(shí)際距離縮

放到0-25之間，保留聚類(lèi)步驟之間距離的比例。o在Icicle（冰柱圖）下單欄中勾選默認(rèn)選項(xiàng)Allclusters選項(xiàng)，表示聚類(lèi)的每一步均在冰柱圖中體

現(xiàn)。specified

range

clusters表示冰柱圖中呈現(xiàn)聚

類(lèi)時(shí)從第m類(lèi)開(kāi)始到第n類(lèi)結(jié)束，間隔p類(lèi)的過(guò)程。

Orientation表示冰柱圖的方向，我們選擇默認(rèn)選項(xiàng)

vertical（縱向），horizontal表示橫向。o

計(jì)算類(lèi)間距離的方法（ClusterMethod）包括組間平均法（between-groupslinkage）、組內(nèi)平均法（Within-groupslinage）、最短距離法（nearestneighbor）、最長(zhǎng)距離法（furthestneighbor）、中間距離法（Medianclustering）、重心法（Centroidclustering）、離差平方和法（Wald’smethod）。我

們選擇默認(rèn)選項(xiàng)組間平均法。o

在計(jì)算樣本距離的方法（Measure）的下拉式列表框

中選擇默認(rèn)項(xiàng)歐氏距離的平方（SquaredEuclideandistance）。TransformValues部分為對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理，本例中未勾選。Byvariable為以變量為單位的標(biāo)準(zhǔn)化，適用于樣本聚類(lèi)；

Bycase為以個(gè)案為單

位標(biāo)準(zhǔn)化，適用于變量聚類(lèi)。o

勾選Single

solution復(fù)選項(xiàng)，并在其

右側(cè)的空白框內(nèi)輸入：3

。在變量

界面會(huì)生成新的聚類(lèi)變量CLUN_M，

其中N為聚類(lèi)數(shù)，M表示第幾次做

的聚類(lèi)結(jié)果。o

range

solutions表示生成若干個(gè)

變量分別存放聚成n-m類(lèi)時(shí)各樣本

的歸屬情況。右側(cè)為聚類(lèi)分析的凝聚過(guò)程表。Stage列代表聚類(lèi)的步驟順序。ClusterCombined（Cluster1

，Cluster2）是該步被合并的兩類(lèi)中的觀測(cè)量號(hào)，合并生成的新類(lèi)序號(hào)以類(lèi)中最

小序號(hào)代之，如第一步12

、13類(lèi)被合并成一新類(lèi)，新類(lèi)的

序號(hào)為12

。Coefficients列代表合并類(lèi)之間的距離。隨著類(lèi)數(shù)減少，類(lèi)間距離逐漸增大。StageClusterFirst

Appears兩列代表對(duì)應(yīng)的被合并的類(lèi)上一次是在哪一步形成的。Cluster1和Cluster2值均為0的表示是兩個(gè)觀測(cè)量合并；其中有一個(gè)為0的表示是觀測(cè)量與類(lèi)合并；兩個(gè)值均為非0值的表示是兩個(gè)類(lèi)合并。如第7步為第26個(gè)觀測(cè)量與第28個(gè)觀測(cè)量合并，而第26個(gè)觀測(cè)量已經(jīng)在第2步與第27個(gè)觀測(cè)量合并為一類(lèi)了，因此此項(xiàng)值2表示與第2步形成的類(lèi)歸并為一類(lèi)。NextStage列則表示該步被合并的類(lèi)又被合并成新類(lèi)時(shí)的步驟序號(hào)。如第7步合并的類(lèi)將在第12步被合并成新類(lèi)。聚類(lèi)結(jié)果

右側(cè)為聚類(lèi)結(jié)果成員表，它表明各觀測(cè)

量分別隸屬哪一類(lèi)別。北京、上海、天津?yàn)橐活?lèi)，浙江、廣東、江蘇、遼寧、福建為一類(lèi)，

其他省份為一類(lèi)。聚類(lèi)結(jié)果

右側(cè)樹(shù)形圖顯示系統(tǒng)聚類(lèi)的具

體步驟，包括各步的成員合并

情況和距離系數(shù)值。生成的新的聚類(lèi)類(lèi)別變量

CLU3

1。聚類(lèi)結(jié)果

聚類(lèi)結(jié)果

（五）SPSS選項(xiàng)說(shuō)明：1.數(shù)據(jù)輸出（statistics選項(xiàng)）o

agglomeration

schedule:凝聚狀態(tài)表（默認(rèn)）o

distance

matrix:樣本的距離矩陣o

cluster

membership:類(lèi)成員口

none:不輸出類(lèi)成員（默認(rèn)）口single

solution：聚成n類(lèi)時(shí)各樣本的歸屬口

range

solutions:聚成m～n類(lèi)時(shí)各樣本的歸屬(m<n<總樣本數(shù))分層（或系統(tǒng)）聚類(lèi)方法2.

圖形輸出（plot選項(xiàng)）o

dendrogram:樹(shù)型圖o

icicle:冰柱圖口all

cluster:聚類(lèi)的每一步均在冰柱圖中體現(xiàn)?？趕pecified

range

clusters:將聚類(lèi)的第n1類(lèi)開(kāi)始到第n2類(lèi)結(jié)束，間隔n3類(lèi)

的聚類(lèi)分析過(guò)程在冰柱圖中體現(xiàn)。o

orientation:冰柱圖的方向口

vertical:縱向口

horizontal:橫向分層（或系統(tǒng)）聚類(lèi)方法3.結(jié)果保存（save選項(xiàng)）o

single

solution:生成一新變量存儲(chǔ)在聚成n類(lèi)時(shí)各樣本屬于哪一類(lèi)

(cluN_M:N為聚類(lèi)數(shù),M為第幾次做的)。o

range

solutions:生成若干個(gè)變量分別存放聚成n～m類(lèi)時(shí)各樣本的歸屬

情況。分層（或系統(tǒng)）聚類(lèi)方法例15-3本科生課程設(shè)置與其能力培養(yǎng)有著密切的聯(lián)系。某高校教育學(xué)部為本科生開(kāi)設(shè)教育學(xué)原理、教學(xué)論、量化研究、質(zhì)性研究等10門(mén)課程，

現(xiàn)在需要對(duì)這10門(mén)課程進(jìn)行分類(lèi)，以便了解其對(duì)學(xué)生培養(yǎng)的能力模式。

數(shù)據(jù)文件15-2.sav為該教育學(xué)部30名本科生在校期間上述10門(mén)課程的成績(jī)

數(shù)據(jù)。Analyze-Classify-Hierachical

Cluster

…分層（或系統(tǒng)）聚類(lèi)方法示例2-變量聚類(lèi)右側(cè)為聚類(lèi)結(jié)果成員表，它表明各

變量分別隸屬哪一類(lèi)別。教育史為一類(lèi)，主要側(cè)重學(xué)生學(xué)科

史、學(xué)科發(fā)展脈絡(luò)知識(shí)的培養(yǎng)；量化研究和質(zhì)性研究一類(lèi)，主要側(cè)

重學(xué)生方法論知識(shí)的培養(yǎng)；教育學(xué)原理、教育管理學(xué)基礎(chǔ)、學(xué)

期教育學(xué)基礎(chǔ)等課程為一類(lèi)，主要

側(cè)重學(xué)生各方向基礎(chǔ)知識(shí)能力的培

養(yǎng)。聚類(lèi)分析:3.形成多少類(lèi)別最合適？

聚類(lèi)數(shù)目的確定口聚類(lèi)數(shù)目確定尚無(wú)統(tǒng)一標(biāo)準(zhǔn)，一般原則：n

各類(lèi)所包含的元素都不應(yīng)過(guò)多。n

分類(lèi)數(shù)目應(yīng)符合分析的目的。口分層聚類(lèi)中可以將類(lèi)間距離作為確定分類(lèi)數(shù)目的輔助工具n

SPSS聚類(lèi)過(guò)程中（合并凝聚方式），類(lèi)間距離隨著類(lèi)數(shù)減少而呈增加趨勢(shì)。n

類(lèi)間距離小，類(lèi)的相似性大；距離大，相似性小。n

繪制碎石圖（X軸為類(lèi)距離，Y軸為類(lèi)數(shù)）。o

確定分類(lèi)數(shù)的問(wèn)題是聚類(lèi)分析迄今尚未解決的問(wèn)題之一，主要障礙是對(duì)待分類(lèi)的群體的類(lèi)的真實(shí)結(jié)構(gòu)不清楚，從理論和實(shí)踐中都無(wú)法得到

關(guān)于類(lèi)結(jié)構(gòu)的假設(shè)。因此，往往根據(jù)研究目的，從實(shí)用的角度出發(fā)，

選擇合適的分類(lèi)數(shù)。聚類(lèi)分析:3.形成多少類(lèi)別最合適？戴米爾曼(Demirmen,

1972)曾提出根據(jù)樹(shù)狀結(jié)構(gòu)圖來(lái)分類(lèi)的準(zhǔn)則：o

任何類(lèi)都必須在鄰近各類(lèi)中是突出的，即各類(lèi)重心之間的距離必須夠

大。o

各類(lèi)所包含的元素都不要過(guò)分地多。o

分類(lèi)數(shù)目應(yīng)該符合使用的目的。o

若采用幾種不同的聚類(lèi)方法處理，則在各自的聚類(lèi)圖上應(yīng)發(fā)現(xiàn)相同的

類(lèi)。聚類(lèi)分析:3.形成多少類(lèi)別最合適？(一）基本原理：首先確定要聚成的類(lèi)數(shù)，然后按照一定的方法選取一批凝聚點(diǎn)，并讓參與聚類(lèi)的樣品向最近的凝聚點(diǎn)凝聚，這樣由點(diǎn)凝聚成類(lèi)，

得到初始分類(lèi)。但是，初始分類(lèi)不一定合理，需要按距離最小原則進(jìn)行

修改不合理的分類(lèi)，直到分類(lèi)比較合理為止，這樣形成一個(gè)最終的分類(lèi)

結(jié)果。K-means快速聚類(lèi)快速聚類(lèi)法使用的是歐氏距離平方作為距離測(cè)度，如果需要使用其他的距離測(cè)度，則必須使用系統(tǒng)聚類(lèi)法進(jìn)行。快速聚類(lèi)的變量必須是連續(xù)型變量，如果各變量的單位不同，應(yīng)該對(duì)聚類(lèi)

變量使用Descriptives過(guò)程進(jìn)行標(biāo)準(zhǔn)化后再進(jìn)行聚類(lèi)分析，否則會(huì)得出錯(cuò)誤

的結(jié)論。如果參與聚類(lèi)的變量是計(jì)數(shù)變量或二分變量，則只能考慮使用系

統(tǒng)聚類(lèi)法進(jìn)行聚類(lèi)分析。K-means快速聚類(lèi)(二)程序1.指定最后要聚成K類(lèi)。2.用戶(hù)指定k個(gè)樣本作為初始類(lèi)中心或系統(tǒng)自動(dòng)確定k個(gè)樣本作為初始類(lèi)中

心。3.系統(tǒng)按照距k個(gè)中心距離最近的原則把每個(gè)樣本分派到各中心所在的類(lèi)

中去,形成一個(gè)新的k類(lèi)，完成一次迭代。4.重新計(jì)算k個(gè)類(lèi)的類(lèi)中心(計(jì)算每類(lèi)各變量的均值,

以均值點(diǎn)作為類(lèi)中心)。

5.重復(fù)3步和4步，直到達(dá)到指定的迭代次數(shù)或達(dá)到終止迭代的條件。SPSS中兩個(gè)判斷聚類(lèi)是否結(jié)束的條件，滿(mǎn)足其中一個(gè)即可結(jié)束聚類(lèi)過(guò)程?？谶_(dá)到指定迭代次數(shù)(maximum

iteration),默認(rèn)10次。口收斂標(biāo)準(zhǔn)(convergence),默認(rèn)0.02

，即：本次迭代產(chǎn)生的任意新類(lèi),各中

心位置變化較小，其中最大的變化率小于2%。(三)SPSS操作步驟A.菜單選項(xiàng):analyze->classify->k

means

clusterB.選定參加快速聚類(lèi)分析的變量到variables框。C.確定快速聚類(lèi)的類(lèi)數(shù)(number

clusters)

，類(lèi)數(shù)應(yīng)小于個(gè)案總數(shù)。D.選擇聚類(lèi)方法(method)：默認(rèn)iterate

and

classify

，即：在聚類(lèi)的每一步

都重新計(jì)算新的類(lèi)中心。E.確定聚類(lèi)終止條件（如iterate次數(shù))。(四)SPSS可選項(xiàng)說(shuō)明1.保存快速聚類(lèi)的結(jié)果(save)口

cluster

membership:將各個(gè)案所屬類(lèi)的類(lèi)號(hào)保存到qcl_

1變量中。口

distance

from

cluster

center:將各樣本距所屬類(lèi)中心的距離保存到qcl_2變量中。(四)SPSS可選項(xiàng)說(shuō)明

2.輸出選項(xiàng)(option)口

initial

cluster

centers:輸出初始類(lèi)中心點(diǎn)?？?/p>

ANOVA

table:輸出各類(lèi)的方差分析表?？?/p>

cluster

information

for

each

case:輸出每個(gè)樣本的分類(lèi)結(jié)果和距離。(四)SPSS可選項(xiàng)說(shuō)明3.use

running

means項(xiàng):口選中：表示每個(gè)樣本被分配到一類(lèi)后立即計(jì)算新的類(lèi)中心。聚類(lèi)結(jié)果

與個(gè)案的先后次序有關(guān)?？诓贿x中：表示完成了所有個(gè)案的依次分配后再計(jì)算類(lèi)中心，省時(shí)。(四)SPSS可選項(xiàng)說(shuō)明

4.用戶(hù)指定類(lèi)中心(center)口

read

initial

from:若不指定則系統(tǒng)自動(dòng)確定初始類(lèi)中心。指定則從某.sav文件中讀入

初始類(lèi)中心數(shù)據(jù)（應(yīng)設(shè)一個(gè)名為Cluster_的變量名）?？?/p>

Write

final

as:在分析的最后將各類(lèi)中心寫(xiě)入某.sav文件。o

例15-4某中學(xué)希望對(duì)某實(shí)驗(yàn)班320名學(xué)生按照他們的語(yǔ)文、數(shù)學(xué)、英語(yǔ)、文科綜合和理科綜合成績(jī)進(jìn)行分類(lèi)，將學(xué)生分成優(yōu)秀、良好、中等、及格4類(lèi)，以便提供針對(duì)性輔導(dǎo)，數(shù)據(jù)文件15-3.sav包含這320名學(xué)生的

期末考試成績(jī)，試采用快速聚類(lèi)法進(jìn)行聚類(lèi)分析。K-means快速聚類(lèi)示例o在進(jìn)行快速聚類(lèi)分析之前，首先要生成各成績(jī)變量的標(biāo)準(zhǔn)化變量。o

Analyze-Descriptive

Statistics-Descriptives

…K-means快速聚類(lèi)示例o

Analyze-Classify-K-Means

Cluster

…o在Method（聚類(lèi)方法）欄下選擇默認(rèn)的Iterate

and

classify

，即選擇初始聚類(lèi)中心，在迭代過(guò)程中使

用K-Means算法不斷更換類(lèi)中心，在聚類(lèi)的每一

步都重新計(jì)算新的類(lèi)中心，把樣品分派到與之最

近的以類(lèi)中心為標(biāo)志的類(lèi)中去。另一選項(xiàng)Classify

only

，則只使用初始類(lèi)中心對(duì)樣品進(jìn)行聚類(lèi)。o下方（Cluster

Centers）用戶(hù)指定類(lèi)中心中readinitial表示若不指定則系統(tǒng)自動(dòng)確定初始類(lèi)中心，指定則從某.sav文件中讀入初始類(lèi)中心數(shù)據(jù)（應(yīng)設(shè)

一個(gè)名為Cluster_的變量名）；Write

final

表示在

分析的最后將各類(lèi)中心寫(xiě)入某.sav文件。K-means快速聚類(lèi)示例o

單擊Iterate按鈕，進(jìn)入確定聚類(lèi)終止條件對(duì)話(huà)框，如圖可以設(shè)置iterate次數(shù)，此處

保持默認(rèn)狀態(tài)。use

running

means項(xiàng)若選

中，表示每個(gè)樣本被分配到一類(lèi)后立即計(jì)

算新的類(lèi)中心。聚類(lèi)結(jié)果與個(gè)案的先后次

序有關(guān)。若不選中，表示完成了所有個(gè)案

的依次分配后再計(jì)算類(lèi)中心，這種方式比

較省時(shí)。K-means快速聚類(lèi)示例o

單擊Save按鈕，展開(kāi)Save

New

Variables保存新變量對(duì)話(huà)框，選中Clustermembership復(fù)選項(xiàng)，以建立一個(gè)新變量，

系統(tǒng)默認(rèn)該變量名為qc1

，其值表示

聚類(lèi)結(jié)果，即各樣品被分配到哪一類(lèi)中，

該變量將在原數(shù)據(jù)文件中出現(xiàn)。另一選

項(xiàng)distance

from

cluster

center表示將各樣

本距所屬類(lèi)中心的距離保存到qcl

2變量

中。K-means快速聚類(lèi)示例o

單擊Options（輸出選項(xiàng)），保持默認(rèn)狀態(tài)。選中initial

cluster

centers表示輸出初

始類(lèi)中心點(diǎn)。ANOVA

table表示輸出各

類(lèi)的方差分析表。cluster

information

foreach

case表示輸出每個(gè)樣本的分類(lèi)結(jié)果

和距離。K-means快速聚類(lèi)示例o

上面是初始類(lèi)中心表，此表中作為類(lèi)中心的樣品由系統(tǒng)所確定。輸出結(jié)果

o此表顯示的是各次迭代后類(lèi)中心的變化距離。由于沒(méi)有指定迭代次數(shù)或收斂判據(jù)，因此使用系統(tǒng)

默認(rèn)值：最大迭代次數(shù)為10

，收斂參數(shù)為0

。即

當(dāng)?shù)?0次時(shí)則停止迭代；或迭代使類(lèi)中心變

化的距離近似為0時(shí)，則迭代停止。此例快速聚

類(lèi)過(guò)程執(zhí)行4次迭代后，各類(lèi)中心的變化距離均

為0

，因此，迭代就停止了。第一次迭代1—4類(lèi)

的類(lèi)中心與初始類(lèi)中心之間的距離分別為1.423

、

1.298

、0.964

、1.550

。第二次迭代1—4類(lèi)的類(lèi)中

心與初始類(lèi)中心之間的距離分別為0.443

、0.311

、

0.000

、0.000

。第三次迭代1—4類(lèi)的類(lèi)中心與初

始類(lèi)中心之間的距離分別為0.030

、0.019

、0.000、

0.000。輸出結(jié)果

最終的類(lèi)中心的各變量值。輸出結(jié)果

聚類(lèi)總結(jié)表，顯示的是各類(lèi)別中樣品的個(gè)數(shù)以及參與聚類(lèi)分析的有效樣品數(shù)、缺失樣品數(shù)。輸出結(jié)果

輸出結(jié)果

系統(tǒng)聚類(lèi)法（分層聚類(lèi)法）只能單方向進(jìn)行聚類(lèi)，聚類(lèi)結(jié)果受數(shù)據(jù)中

奇異值影響很大。o

快速聚類(lèi)法（迭代聚類(lèi)法）對(duì)初始分類(lèi)非常敏感，通常也只能得到局

部最優(yōu)解。系統(tǒng)聚類(lèi)法與快速聚類(lèi)法的缺點(diǎn)

如何聚類(lèi)？--選擇聚類(lèi)類(lèi)型：樣本聚類(lèi)/變量聚類(lèi)？

--選擇聚類(lèi)方法：系統(tǒng)聚類(lèi)/快速聚類(lèi)？

--選擇類(lèi)間距離測(cè)度、樣本距離測(cè)度2.如何聚類(lèi)？--系統(tǒng)聚類(lèi)法VS快速聚類(lèi)法口選擇系統(tǒng)聚類(lèi)和快速聚類(lèi)的依據(jù)

系統(tǒng)聚類(lèi)比較適用：①一個(gè)廣泛的可供選擇的聚類(lèi)方法有待嘗試；②

樣本規(guī)模適中（一般樣本個(gè)數(shù)在300~400之內(nèi)，至多不超過(guò)1000）

快速聚類(lèi)比較適用：①聚類(lèi)數(shù)目或者初始類(lèi)中心比較明確；②離群值

（outlier）必須進(jìn)入分析時(shí)，因?yàn)榭焖倬垲?lèi)對(duì)離群值不太敏感/受離群值的影響不大。-在系統(tǒng)聚類(lèi)后同時(shí)使用快速聚類(lèi)（兩種方法結(jié)合使用）的適用情況：n通過(guò)系統(tǒng)聚類(lèi)可以獲得初始聚類(lèi)數(shù)目，以及各聚類(lèi)中心；n在系統(tǒng)聚類(lèi)后，再進(jìn)行快速聚類(lèi)可以提供更加準(zhǔn)確的聚類(lèi)關(guān)系。2.如何聚類(lèi)？--系統(tǒng)聚類(lèi)法VS快速聚類(lèi)法o

如何聚類(lèi)？o

趨勢(shì)：兩者結(jié)合使用o

首先使用系統(tǒng)聚類(lèi)法確定分類(lèi)數(shù)，檢查是否有離群值，去除離群值后，

對(duì)剩下的樣本重新進(jìn)行分類(lèi)，把用系統(tǒng)聚類(lèi)法得到的各個(gè)類(lèi)的重心，作為迭代聚類(lèi)法的初始分類(lèi)中心，這樣就克服了系統(tǒng)聚類(lèi)法單方向聚

類(lèi)以及迭代聚類(lèi)法對(duì)初始類(lèi)中心敏感的缺點(diǎn)，對(duì)樣品點(diǎn)進(jìn)行重新調(diào)整、

聚類(lèi)。2.如何聚類(lèi)？--系統(tǒng)聚類(lèi)法VS快速聚類(lèi)法如何評(píng)價(jià)聚類(lèi)研究的質(zhì)量？

口

沒(méi)有任何一個(gè)公認(rèn)的客觀標(biāo)準(zhǔn)能夠完全判斷聚類(lèi)的好壞；研究者可以根據(jù)下述標(biāo)

準(zhǔn)進(jìn)行參考性判斷：

單一樣本(數(shù)量很少的樣本)成為一組往往不能被接受，這一組往往需要考慮刪

除【當(dāng)然，如果確實(shí)存在非常突出/糟糕表現(xiàn)的樣本也需要保留，引起重視/單

獨(dú)分析】。

各個(gè)聚類(lèi)的樣本規(guī)模：最好每個(gè)聚類(lèi)應(yīng)包含10%的樣本。以樣本規(guī)模為1000的樣本為

例，每一個(gè)類(lèi)別最好應(yīng)包含100個(gè)樣本。這意味著我們最后得到的類(lèi)別不能超過(guò)10類(lèi)。

對(duì)于系統(tǒng)聚類(lèi)，停止準(zhǔn)則主要依賴(lài)于隨著聚類(lèi)類(lèi)別數(shù)量的增減，類(lèi)間距離是否

不再有較大幅度的增加。

聚類(lèi)結(jié)果不是顯著地依賴(lài)于聚類(lèi)變量的選擇。

對(duì)于聚類(lèi)結(jié)果可以進(jìn)行有實(shí)際意義的解釋。

交互分類(lèi)有效性（cross-validation）

將樣本隨機(jī)分成2組或者多組:分組分別使用同樣的聚類(lèi)方法進(jìn)行分析，看看是

否具有穩(wěn)定性（比如同時(shí)使用系統(tǒng)聚類(lèi)對(duì)兩組樣本--每組100個(gè)樣品--分別進(jìn)行

聚類(lèi)，看看聚類(lèi)成2-10類(lèi)時(shí)，兩組樣本中各類(lèi)的樣本數(shù)是否基本相同，類(lèi)中心

是否接近）。?

通常的做法是計(jì)算各類(lèi)在各聚類(lèi)變量上的均值，對(duì)均值進(jìn)行比較，看看分組的意義是否合適（各類(lèi)的均值差異是否較大）（可以利用多因變量方差分析考察

各組在聚類(lèi)變量上的均值是否存在顯著性差異）。建立有效性標(biāo)準(zhǔn)（Establishing

Criterion

Validity）聚類(lèi)結(jié)果的效度（Validity）

1.試比較系統(tǒng)聚類(lèi)法和快速聚類(lèi)法的優(yōu)缺點(diǎn)。2.隨機(jī)從某大學(xué)經(jīng)濟(jì)與工商管理學(xué)院抽取30名學(xué)生,他們的4科成績(jī)?nèi)缦?試?yán)脭?shù)據(jù)文件“exe15-1.sav”將這30名學(xué)生按其綜合成績(jī)的優(yōu)劣進(jìn)行分類(lèi)。作業(yè)o

3.試?yán)脭?shù)據(jù)文件“

15-1.sav”,采用快速聚類(lèi)法對(duì)例15-1進(jìn)行聚類(lèi)分析,并將之與系統(tǒng)聚類(lèi)法的聚類(lèi)結(jié)果進(jìn)行對(duì)比分析。作業(yè)教育統(tǒng)計(jì)學(xué)判別分析及其應(yīng)用北京師范大學(xué)教育學(xué)部胡詠梅學(xué)部本科科生課課程判別分析概述：概念及基本原理判別分析的假設(shè)條件及基本模型

判別分析的研究步驟幾種判別分析方法示例分析練習(xí)與思考contentso判別分析是利用已知類(lèi)別的樣本模擬模型，為未知樣品判類(lèi)的一種統(tǒng)計(jì)方

法。即根據(jù)已掌握的每個(gè)類(lèi)別的若干樣本的數(shù)據(jù)信息，建立判別公式和判別準(zhǔn)

則；然后，當(dāng)遇到新的樣品時(shí)，只要根據(jù)判別公式和判別準(zhǔn)則，就能判別該樣

品所屬的類(lèi)別。o

該方法（

Discriminant

Analysis

，簡(jiǎn)稱(chēng)DA），是由R.A.Fisher于1936

年提出來(lái)的。近年來(lái)，在醫(yī)學(xué)、管理學(xué)、心理學(xué)、教育學(xué)科中都有廣泛的應(yīng)用。

比如，識(shí)別新患者是否得了某種疾??；預(yù)測(cè)一個(gè)公司是否會(huì)違貸；預(yù)測(cè)某個(gè)學(xué)

生能否考上“985”高校；識(shí)別某所高校能否成為世界一流大學(xué)；識(shí)別某個(gè)學(xué)生

是否有網(wǎng)癮，等等。一、概念及基本原理簡(jiǎn)言之，判別分析是研究判別個(gè)體所屬類(lèi)型的一種統(tǒng)計(jì)分析方法。設(shè)有k個(gè)總體，希望建立一個(gè)準(zhǔn)則，對(duì)給定的任意一個(gè)樣品，依據(jù)這

個(gè)準(zhǔn)則就能判斷它是來(lái)自哪個(gè)總體。當(dāng)然，我們應(yīng)當(dāng)要求這種準(zhǔn)則在某

種意義下是最優(yōu)的。例如，錯(cuò)判概率最小，或錯(cuò)判損失最小等等。一、概念及基本原理o判別分析是用于分析因變量為分類(lèi)變量、自變量為可測(cè)變量（定距或定比變量）數(shù)

據(jù)的一種統(tǒng)計(jì)分析模型。o在判別分析中將分組變量稱(chēng)為因變量；用以分組的其他特征變量稱(chēng)為判別變量或自

變量。o例如，某高校學(xué)生管理部門(mén)希望對(duì)現(xiàn)在就讀的本科生進(jìn)行分類(lèi)，以便對(duì)肄業(yè)風(fēng)險(xiǎn)高的學(xué)生進(jìn)行提前干預(yù)。o分組變量（因變量）：是否肄業(yè)o判別變量（自變量）：專(zhuān)業(yè)課GPA、學(xué)位基礎(chǔ)課與學(xué)位專(zhuān)業(yè)課掛科門(mén)數(shù)、每周網(wǎng)絡(luò)聊天或游戲時(shí)長(zhǎng)、實(shí)習(xí)或兼職

周工作天數(shù)……一、概念及基本原理判別分析的應(yīng)用和解釋非常類(lèi)似于回歸分析：利用1個(gè)或者多個(gè)自變量的線(xiàn)性（非線(xiàn)性）組合，用于預(yù)測(cè)唯一的因變量。但回歸分析的因變

量是數(shù)值型變量，而判別分析要預(yù)判的是分類(lèi)變量【也正因?yàn)槿绱耍?/p>

估計(jì)判定函數(shù)時(shí)可以采用logistic回歸模型】判別分析VS回歸分析

對(duì)于已有樣本并未給出明確的分組信息時(shí)，往往需要先利用聚類(lèi)分析給出樣本的分組信息（分組數(shù)、分組類(lèi)別、各組具體特征等）。之后，在此基礎(chǔ)上再進(jìn)行新增樣本分組預(yù)測(cè)。聚類(lèi)分析

樣本進(jìn)行分組判別分析VS回歸分析

對(duì)新增樣本進(jìn)行

分組預(yù)測(cè)

1.根據(jù)判別變量建立判別函數(shù)；

2.要處理的是未知分組屬性的case

，以第一階段的分析結(jié)果所建立的

判別函數(shù)為依據(jù)，將這些未知組別的cases進(jìn)行判別分組。判別分析兩個(gè)階段的工作將中國(guó)各個(gè)省份按教育發(fā)展?fàn)顩r劃分為教育發(fā)達(dá)地區(qū)和落后地區(qū)兩種。用來(lái)分組的指標(biāo)包括人均受教育年限、生均經(jīng)費(fèi)、各級(jí)教育的入學(xué)

率、財(cái)政性教育經(jīng)費(fèi)占GNI的比重等。假定已經(jīng)有28個(gè)省份被歸類(lèi)了，但是還有中部地區(qū)的河南省、湖南省以及西部的陜西省還未歸類(lèi)。請(qǐng)用

判別分析過(guò)程進(jìn)行歸類(lèi)。一個(gè)假想的例子o

體溫、血壓、白血球感冒？肺炎？非典？o

人均GDP

、人均收入、人均壽命、人均住房面積等

小康了嗎？……其他例子

前提條件：

分組類(lèi)型（group

，用g表示）在兩組以上；

在第一階段工作時(shí)候每組case必須至少在一個(gè)以上；

各判別變量的測(cè)度等級(jí)為定距變量或定比變量（才能方便計(jì)算均值和

方差）；

已知類(lèi)別Case

的個(gè)數(shù)要比判別變量的個(gè)數(shù)至少多兩個(gè)。二、判別分析的假設(shè)條件和基本模型不同組別的變量具有相同協(xié)方差

以便計(jì)算判別函數(shù)

和進(jìn)行顯著性檢驗(yàn)不存在多重共線(xiàn)

性：每一個(gè)判別

變量不能是其他

判別變量的線(xiàn)性各個(gè)判別變量的

聯(lián)合分布服從多

元以便精確計(jì)算統(tǒng)計(jì)

量的顯著性水平和

樣品分組歸屬的概

率。否則無(wú)法估計(jì)

判別函數(shù)判別分析的研究假設(shè)

通過(guò)判定得分對(duì)每個(gè)case進(jìn)行分類(lèi)：對(duì)于每個(gè)特定的群組，分別計(jì)算z分?jǐn)?shù)平均值，這一平

均數(shù)又被稱(chēng)為各組的重心（centroid）;如果有2個(gè)群組，則會(huì)得到2個(gè)重心，如果有3個(gè)組別

則有3個(gè)重心，依次類(lèi)推。重心意味著該群組內(nèi)絕大多數(shù)的個(gè)案都會(huì)分布在該點(diǎn)周?chē)?/p>

判別效果依賴(lài)于判定函數(shù)對(duì)不同組別重心之間距離的測(cè)量；如果分布的重疊很小，那么，

判定函數(shù)能夠?qū)山M樣本較好的區(qū)分開(kāi)；反之，如果分布的重疊部分很大，那么，判定函

數(shù)則不能將兩組樣本較好的區(qū)分開(kāi)?？谝跃€(xiàn)性判別函數(shù)為例，闡述判別分析基本思想：zjk

W1x1k+

W2x

2k+…

Wnx

nk在上式中：Z分?jǐn)?shù)是第k個(gè)樣本在第j個(gè)判定函數(shù)中的得分；a是常數(shù)項(xiàng)；Wi是自變量Xi的判

定權(quán)重；x

ik是第k個(gè)case在自變量Xi的取值。

對(duì)于每個(gè)case的判定函數(shù)得分Z，實(shí)質(zhì)上是每個(gè)自變量通過(guò)判定權(quán)重W加權(quán)后的得分之和。判別分析的基本思想判別函數(shù)：y=b0

b1x1

+…+

(1)其中y是判別函數(shù)值，xi

為判別變量，bi

為相應(yīng)的判別系數(shù)。

判別函數(shù)與回歸函數(shù)的

區(qū)別：[1]判別函數(shù)中的y不是代表實(shí)測(cè)的因變量

的估計(jì)，因?yàn)閷?shí)測(cè)的因變量是定類(lèi)變

量，而由該函數(shù)預(yù)測(cè)的

因變量是定距變量。[2]回歸分析中的方程只有

一個(gè)；判別分析中的函數(shù)往往不止一個(gè)。判別函數(shù)值y又簡(jiǎn)稱(chēng)為判別值，判別

系數(shù)表示各個(gè)判別變量對(duì)判別值的影響，

是常數(shù)值。判別分析的基本模型

第一步：判別分析的研究設(shè)計(jì)第二步：判別分析的研究假設(shè)第三步：估計(jì)判別函數(shù)以及評(píng)估整體擬合度第四步：判別結(jié)果的解釋第五步：結(jié)果的驗(yàn)證三、判別分析的研究步驟第一步

判別分析的研究設(shè)計(jì)

保留樣本選

擇變量的選擇樣本規(guī)模/容

量A的選擇樣本規(guī)模/容量因變量：分類(lèi)變量，相互獨(dú)立、排斥（即每個(gè)樣本只能歸為其中的一類(lèi)）；分類(lèi)結(jié)果可以使從現(xiàn)有信息

中直接獲得，也可以是通過(guò)聚類(lèi)分析等手段生成。+盡可能地控制因變量的類(lèi)型數(shù)量（因?yàn)殡S著組別類(lèi)型的增加，不同組別之間在自變量特征的重

合性上增加，會(huì)大大增加判定的難度、降低判定的準(zhǔn)確性）。+因變量最好是分類(lèi)變量；對(duì)于順序型數(shù)值變量，我們可將其轉(zhuǎn)化成分類(lèi)變量（例如：按照學(xué)生

成績(jī)排名，將樣本分為高、中、低）。自變量：

來(lái)自于已有研究/理論模型+

運(yùn)用研究者知識(shí)、直覺(jué)第一步

判別分析的研究設(shè)計(jì)

保留樣本選

擇變量A樣本規(guī)

量模/容保留樣本選

擇最佳：+

樣本數(shù)÷自變量數(shù)≥20

樣本數(shù)÷組別數(shù)量≥20底線(xiàn)：+

樣本數(shù)÷自變量數(shù)≥5

樣本數(shù)÷組別數(shù)量≥5第一步

判別分析的研究設(shè)計(jì)

變量的選擇保留樣本選

擇分析組樣本：+

估計(jì)判定函數(shù)保留組樣本：+檢驗(yàn)判斷函數(shù)樣本外的預(yù)測(cè)正確率選擇分析組和保留組的個(gè)體時(shí)，通常遵循等比例分

層抽樣，即兩組樣本中，各具體組別大小比例應(yīng)與

整個(gè)樣本基本保持一致。第一步

判別分析的研究設(shè)計(jì)

變量的選擇樣本規(guī)模/容量不存在多重

共線(xiàn)性不同組別的

變量具有相

同協(xié)方差矩陣

檢驗(yàn)：相關(guān)系數(shù)檢驗(yàn)

處理1:選擇代表性變量

處理2：使用因子分析方法提取公因子各個(gè)判別變

量的聯(lián)合分

布服從多元正態(tài)分布第二步

判別分析的研究假設(shè)不存在多重

共線(xiàn)性不同組別的

樣本具有相

同協(xié)方差矩陣各個(gè)判別變

量的聯(lián)合分

布服從多元正態(tài)分布Box’sM

test

隨著樣本量的增加，以及組別數(shù)量的增加，協(xié)方差

矩陣的要求可以放寬（比如，p>0.01即可）。

解決辦法：增加樣本量；使用二次判定函數(shù)。第二步

判別分析的研究假設(shè)不存在多重

共線(xiàn)性各個(gè)判別變

量的聯(lián)合分

布服從多元正態(tài)分布不同組別的

變量具有相

同協(xié)方差矩陣

對(duì)于顯著性檢驗(yàn)可以適當(dāng)放寬，即將顯著性水平限制在0.01及以下。+更需要保證單變量服從一元正態(tài)分布，因此，可以通過(guò)取對(duì)數(shù)等手段

進(jìn)行數(shù)據(jù)轉(zhuǎn)換。

如果確實(shí)拒絕多元正態(tài)分布的假設(shè)，我們則可以采用logistic回歸估計(jì)

判定函數(shù)，或者非參數(shù)的判定方法。第二步

判別分析的研究假設(shè)

計(jì)算判別Z得

分；檢驗(yàn)組的差異；評(píng)價(jià)各組預(yù)測(cè)

的精度。聯(lián)立模型逐步模型第三步

估計(jì)判別函數(shù)以及評(píng)估整體擬合度

評(píng)估判別函數(shù)

的顯著性估計(jì)判別函數(shù)評(píng)估整體擬合統(tǒng)計(jì)顯著性聯(lián)立模型：

自變量同時(shí)全部進(jìn)入判別函數(shù)模型，判別函數(shù)可能不止

一個(gè)，所以是聯(lián)立模型。逐步模型：

自變量逐步進(jìn)入判別函數(shù)模型計(jì)算判別Z得分；檢驗(yàn)組的差

異；評(píng)價(jià)各組預(yù)

測(cè)的精度。第三步

估計(jì)判別函數(shù)以及評(píng)估整體擬合度評(píng)估判別函

數(shù)的顯著性聯(lián)立模型

逐步模型估計(jì)判別函數(shù)評(píng)估整體擬合統(tǒng)計(jì)顯著性在我們估計(jì)完判別函數(shù)后，首先需要做的是判斷估計(jì)所得到判別函數(shù)的解釋效力：

整體顯著性判斷：Wilk’s

lamada;Hotelling

跡；Pillai準(zhǔn)則(實(shí)質(zhì)上為多因變量

方差分析整體顯著性的判斷)聯(lián)立模型；

逐步模型；計(jì)算判別Z得分；檢驗(yàn)組的差異；評(píng)價(jià)各組預(yù)測(cè)

的精度。第三步

估計(jì)判別函數(shù)以及評(píng)估整體擬合度

評(píng)估判別函數(shù)

的顯著性估計(jì)判別函數(shù)評(píng)估整體擬合統(tǒng)計(jì)顯著性計(jì)算判別Z得分；

檢驗(yàn)組的差異；

評(píng)價(jià)各組預(yù)測(cè)

的精度。聯(lián)立模型；

逐步模型；第三步

估計(jì)判別函數(shù)以及評(píng)估整體擬合度評(píng)估判別函數(shù)

的顯著性評(píng)估整體擬合度估計(jì)判別函數(shù)統(tǒng)計(jì)顯著性o評(píng)估整體擬合度（Assessing

overallmodel

fit）口

對(duì)每個(gè)觀測(cè)樣本估算Z分?jǐn)?shù)口

基于判別Z分?jǐn)?shù)評(píng)價(jià)組間差異性n計(jì)算組間Z分?jǐn)?shù)重心的差異性口

評(píng)價(jià)各組預(yù)測(cè)的精度n設(shè)定分類(lèi)函數(shù)/分類(lèi)準(zhǔn)則，估算臨界得分（cutting

score）。n通過(guò)每個(gè)樣本Z分?jǐn)?shù)與臨界得分的對(duì)比，將各個(gè)樣本歸入相應(yīng)的組別中。第三步

估計(jì)判別函數(shù)以及評(píng)估整體擬合度

判別載荷標(biāo)準(zhǔn)化判別權(quán)重第四步

判別結(jié)果的解釋觀察并分析判別函數(shù)賦予每個(gè)變量的標(biāo)準(zhǔn)化判別權(quán)重：+符號(hào)：正的貢獻(xiàn)or負(fù)的貢獻(xiàn)+大小：較大值代表那個(gè)變量對(duì)判別函數(shù)的判斷力貢獻(xiàn)較大；反之，則對(duì)判別函數(shù)的判別力貢

獻(xiàn)較小。

需要注意：較為嚴(yán)重的多重共線(xiàn)性會(huì)對(duì)判別權(quán)重的估算產(chǎn)生非常嚴(yán)重偏差。判別載荷標(biāo)準(zhǔn)化判別權(quán)重第四步

判別結(jié)果的解釋標(biāo)準(zhǔn)化判別權(quán)重

判別載荷判別載荷又被稱(chēng)為結(jié)構(gòu)相關(guān)系數(shù)：

各個(gè)解釋變量與判別函數(shù)得分的簡(jiǎn)單相關(guān)系數(shù)+其反映的是每個(gè)解釋變量對(duì)判別函數(shù)的相對(duì)貢獻(xiàn)第四步

判別結(jié)果的解釋

任何判別準(zhǔn)則都可能產(chǎn)生錯(cuò)判現(xiàn)象，總的平均錯(cuò)判概率越小，判別準(zhǔn)則越好。

有些時(shí)候?yàn)榱藱z驗(yàn)判別準(zhǔn)則的優(yōu)劣，需要將各母體中的對(duì)象按判別準(zhǔn)則進(jìn)行

回判，觀察回判中的錯(cuò)判比例。母體中的樣品，有時(shí)被稱(chēng)為“訓(xùn)練樣本”。第五步

結(jié)果的驗(yàn)證

（1）貌似誤判率方法在建立了判別準(zhǔn)則后，計(jì)算誤判的比例：

n12、n21分別是應(yīng)當(dāng)是第一類(lèi)錯(cuò)判為第二類(lèi)的樣品數(shù)、應(yīng)當(dāng)是第二類(lèi)而錯(cuò)判為

第一類(lèi)的樣品數(shù)。該比例一般情況下比實(shí)際的誤判概率要小，因?yàn)槭褂玫氖遣糠謽颖?。但在樣?/p>

足夠大的情況下，可以近似地反映整體誤判情況。可以證明該結(jié)果是實(shí)際誤判概率的漸近無(wú)偏估計(jì)。第五步

結(jié)果的驗(yàn)證（2）刀切法也稱(chēng)為L(zhǎng)achenbruch刪除法或者交叉確認(rèn)法（Cross-Validation）。其基本思想是每次剔除訓(xùn)練樣本中的一個(gè)樣品，利用其余的樣品建立判別準(zhǔn)則，

然后對(duì)所剔除的樣品進(jìn)行判別，記錄判別的效果。刀切法的計(jì)算量非常大，但stata軟件中提供了專(zhuān)門(mén)的處理程序。第五步

結(jié)果的驗(yàn)證-判別法四、幾種判別分析方法te判別法四、幾種判別分析方法1

、總體樣本分布已知的馬氏距離計(jì)算2

、兩個(gè)總體的距離判別3

、多個(gè)總體的距離判別口距離判別最直觀的想法是計(jì)算樣品到第i類(lèi)總體的平均距離，選擇距離最小的組作為歸類(lèi)組別。口因此，距離函數(shù)判別的思想是通過(guò)構(gòu)建一個(gè)適當(dāng)?shù)木嚯x函數(shù)，通過(guò)計(jì)算樣本與某類(lèi)別之間距離的大小，判別其所屬類(lèi)別。設(shè)

(x1,

x2,

…,

)9和y

(y1,

y2,

…,

是從期望μ=

(μ1,

μ2,

…,

μm

)9和方差陣Σ=(σij

)m×m

的總體G抽得的兩個(gè)觀測(cè)值

，

則稱(chēng)d

(x,

y)=(x

y)9Σ-1

y)為X與Y之間的Mahal

anobis距離。樣品X和Gi類(lèi)之間的馬氏距離定義為X與Gi類(lèi)重心間的距離：d

(x,

)=(x

μi

)9Σ-1

μi

)

=1,2,

…

k1、總體樣本分布已知的馬氏距離計(jì)算馬氏距離有如下的特點(diǎn)：1

、馬氏距離不受計(jì)量單位的影響;2

、馬氏距離是標(biāo)準(zhǔn)化后的變量的歐式距離。1

、總體樣本分布已知的馬氏距離計(jì)算先考慮兩個(gè)總體的情況，設(shè)有兩個(gè)協(xié)差陣Σ相同的p維正態(tài)總體，對(duì)給定的樣品Y，判別一個(gè)樣品Y到底是來(lái)自哪一個(gè)總體，一個(gè)最直觀的想法是計(jì)算Y到兩個(gè)總體的距離。

故我們用馬氏距離來(lái)給定判別準(zhǔn)則，即：[y

∈

，

如d

，

)

，

)，{y

∈

，如d

，

)

，

)l待判，如d

(y,

)=d

(y,

)2、兩個(gè)總體距離判別法1、協(xié)方差陣相同d2

(

)

一

(

一

μ2

)

’Σ

一1

(

一

μ2

)

一

(

一

μ1

)

’Σ

一1

(

一

μ1

)

’Σ

一1

(

μ1

一

μ2

)一

(

μ1

μ2

)

’Σ

一1

(

μ1

一

μ2

)

α=

一1

(

μ1

一

μ2

)

(a1,

a2,

…

)’令

當(dāng)

μ1,

μ2

和Σ已知時(shí)，α

=Σ

一1

(μ1

一

μ2

)

是一個(gè)已知的p維向量，

W(y)是y的線(xiàn)性函數(shù)，稱(chēng)為線(xiàn)性判別函數(shù)。用線(xiàn)性判別函數(shù)進(jìn)行判別分析非常直觀，使用起來(lái)最方便，在實(shí)

際中的應(yīng)用也最廣泛。[y

∈

，如W（y）>0，{y

∈

，

如W（y）<

0。l待判，

如W

(Y)=0W(y)=(y一

μ)’α

α’(y一

μ)則前面的判別準(zhǔn)則可以轉(zhuǎn)換為μ1

)

…+

(yp’

’=

一

αμ=a1

(y1一

μp

)一變量均值向量協(xié)方差矩陣優(yōu)秀一般資金利潤(rùn)率13.55.468.3940.2421.41勞動(dòng)生產(chǎn)率40.729.840.2454.5811.67產(chǎn)品凈值率10.76.221.4111.677.90例如，在企業(yè)績(jī)效考核中，可以根據(jù)企業(yè)的生產(chǎn)經(jīng)營(yíng)情況把企業(yè)分為優(yōu)秀企業(yè)和一般企業(yè)?？己似髽I(yè)經(jīng)營(yíng)狀況的指標(biāo)有：現(xiàn)有二個(gè)企業(yè)，觀測(cè)值分別為（7.8，39.1，9.6）和（8.1，34.2，6.9），問(wèn)這兩個(gè)企業(yè)應(yīng)該屬于哪一類(lèi)？資金利潤(rùn)率=利潤(rùn)總額/資金占用總額

勞動(dòng)生產(chǎn)率=總產(chǎn)值/職工平均人數(shù)

產(chǎn)品凈值率=凈產(chǎn)值/總產(chǎn)值根據(jù)前面對(duì)線(xiàn)性判別函數(shù)的推導(dǎo)，我們可以根據(jù)本例子中

的協(xié)方差矩陣以及兩組樣本的均值，給出以下判別函數(shù)：y

一

81x1

2x2

9x3

一

9’’

一

對(duì)于觀測(cè)值為（7.8，39.1，9.6）的樣本點(diǎn)：y1

一

81×7

×3

9×9

一

屬于第一組，即是優(yōu)秀類(lèi)企業(yè)對(duì)于觀測(cè)值為（

8.1，34.2，6.9）的樣本點(diǎn)：y

一

81×8

×3

9×

一

屬于第二組，即是一般類(lèi)企業(yè)[y

∈

，

如d

，

)

，

)，{y

∈

，如d

，

)

，

)l待判，如d

(y,

)=d

(y,

)一

)=(y一

μ2

)’Σ2

一1

(y一

μ2

)

一

(y一

μ1

)’Σ1一1

(y一

μ1

、兩個(gè)總體距離判別法2

、當(dāng)協(xié)方差陣不同判別準(zhǔn)則為：判別函數(shù)：設(shè)有K個(gè)總體，分別有均值向量μi(i=

1,2,

…

,k)和協(xié)方差陣Σi=Σ

,各總體出現(xiàn)的先驗(yàn)概率相等。又設(shè)Y是一個(gè)待判樣品。則Y與第i個(gè)

總體的距離為（即判別函數(shù)）d2

(

y,G

)

(

一

μi

)

一1

(

一

μi

)

上式中的第一項(xiàng)Y'Σ-1Y與i無(wú)關(guān)，可忽略，舍去后得一個(gè)等價(jià)函數(shù)：

)

一2

,Σ

一1μi

+μi,Σ

一1μi,3

、多個(gè)總體距離判別法將上式中提-2，得

)

一2

(

,Σ

一1μi

一

μi,Σ

一1μi,)令

)

,Σ

一1μi

一

μi,Σ

一1μi,)則距離判別法的判別函數(shù)為：令

)

,Σ

一1μi

一

μi,Σ

一1μi,)

(

)

(

)

，則

∈

1mfi

)

(

,Σ

一1μi

一0

μi,Σ

一1μi,)最大d2

)

=(y

一

μi

)

,Σ注：這與前面所提出的距離判別是等價(jià)的。判別準(zhǔn)則為：(y

一

μi

)最小一12

距離判別費(fèi)雪性判別法四、幾種判別分析方法

費(fèi)雪（Fisher）判別是借助于方差分析的思想，來(lái)導(dǎo)出判別函數(shù)和建立判別準(zhǔn)則。在現(xiàn)實(shí)中，通常使用線(xiàn)性判別函數(shù)，因此也稱(chēng)為費(fèi)雪線(xiàn)性判別。費(fèi)雪判別對(duì)于總體的分布不需要提出特定的假設(shè)，因此適用性更廣。1

．基本思想構(gòu)造一個(gè)判別函數(shù)，假定是線(xiàn)性函數(shù)y

…

n其中各系數(shù)的選擇，應(yīng)當(dāng)是使兩類(lèi)間的區(qū)別最大，而使類(lèi)內(nèi)

部的離差最小。對(duì)于一個(gè)新的樣品，將其代入判別函數(shù)，然后與

判別臨界點(diǎn)進(jìn)行比較。該統(tǒng)計(jì)量越大，判別效果越好。最佳的線(xiàn)性判別函數(shù)應(yīng)該是：兩個(gè)重心的距離越大越好，兩個(gè)組內(nèi)

的離差平方和越小越好。最優(yōu)的判別函數(shù)應(yīng)當(dāng)滿(mǎn)足y(1)

-y(2)最大，而組內(nèi)的

離差平方和(yi(1)

-y(1))和

(yi(2)

-y(2))

最小.21212

．求判別函數(shù)觀察兩組的判別函數(shù)的平均值：

…

(

)

(

)

(

)

(

)

(1)

人人文庫(kù)> 全部分類(lèi)> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

教育統(tǒng)計(jì)學(xué) 課件第15次-聚類(lèi)分析及其應(yīng)用；第16次-判別分析及其應(yīng)用

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

教育統(tǒng)計(jì)學(xué) 課件第15次-聚類(lèi)分析及其應(yīng)用；第16次-判別分析及其應(yīng)用

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

教育統(tǒng)計(jì)學(xué) 課件第15次-聚類(lèi)分析及其應(yīng)用；第16次-判別分析及其應(yīng)用