spss第十六講聚類分析與判別分析_第1頁
spss第十六講聚類分析與判別分析_第2頁
spss第十六講聚類分析與判別分析_第3頁
spss第十六講聚類分析與判別分析_第4頁
spss第十六講聚類分析與判別分析_第5頁
已閱讀5頁,還剩116頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第十六講聚類分析與判別分析第一部分上一講回顧第二部分聚類分析概念第三部分聚類分析的SPSS過程第四部分判別分析1、回歸分析及模型2、線性回歸3、線性回歸SPSS過程4、曲線估計(jì)第一部分上一講回顧第二部分聚類分析概念俗語說,物以類聚、人以群分。但什么是分類的根據(jù)呢?比如,要想把中國的縣分成若干類,就有很多種分類法;可以按照自然條件來分,比如考慮降水、土地、日照、濕度等各方面;也可以考慮收入、教育水準(zhǔn)、醫(yī)療條件、基礎(chǔ)設(shè)施等指標(biāo);既可以用某一項(xiàng)來分類,也可以同時(shí)考慮多項(xiàng)指標(biāo)來分類。結(jié)構(gòu)一、分類二、什么是聚類分析三、如何度量遠(yuǎn)近四、兩個(gè)距離概念分類聚類分析有1、系統(tǒng)聚類法2、有序樣品聚類法3、動(dòng)態(tài)聚類法4、模糊聚類法5、圖論聚類法6、聚類預(yù)報(bào)法等(注:一般用的是系統(tǒng)聚類法。)什么是聚類分析1、聚類分析起源于分類學(xué)。在考古的分類學(xué)中,人們主要依靠經(jīng)驗(yàn)和專業(yè)知識(shí)事項(xiàng)分類,形成數(shù)值分類學(xué)。

例子:對(duì)我國30個(gè)省市自治區(qū)獨(dú)立核算工業(yè)企業(yè)經(jīng)濟(jì)效益的分析;對(duì)某些大城市物價(jià)指數(shù)考核等。(注:值得提出的是將聚類分析和其他方法聯(lián)系起來使用,如判別分析、主成分分析、回歸分析等效果更好。)什么是聚類分析

2、聚類分析是根據(jù)事物本身的特性研究個(gè)體分類的方法,原則是同一類中的個(gè)體有較大的相似性,不同類中的個(gè)體差異很大。根據(jù)分類對(duì)象的不同,①、分為樣品(觀測量)聚類②、變量聚類兩種樣品聚類:對(duì)觀測量(Case)進(jìn)行聚類(不同的目的選用不同的指標(biāo)作為分類的依據(jù),如選拔運(yùn)動(dòng)員與分課外活動(dòng)小組)。變量聚類:找出彼此獨(dú)立且有代表性的自變量,而又不丟失大部分信息。在生產(chǎn)活動(dòng)中不乏有變量聚類的實(shí)例,如:衣服號(hào)碼(身長、胸圍、褲長、腰圍)、鞋的號(hào)碼。變量聚類使批量生產(chǎn)成為可能。什么是聚類分析比如學(xué)生成績數(shù)據(jù)就可以對(duì)學(xué)生按照理科或文科成績(或者綜合考慮各科成績)分類。當(dāng)然,并不一定事先假定有多少類,完全可以按照數(shù)據(jù)本身的規(guī)律來分類。本部分主要介紹的分類的方法稱為聚類分析(clusteranalysis)。對(duì)變量的聚類稱為R型聚類,而對(duì)觀測值聚類稱為Q型聚類。這兩種聚類在數(shù)學(xué)上是對(duì)稱的,沒有什么不同。如何度量遠(yuǎn)近?如果想要對(duì)100個(gè)學(xué)生進(jìn)行分類,如果僅僅知道他們的數(shù)學(xué)成績,則只好按照數(shù)學(xué)成績來分類;這些成績?cè)谥本€上形成100個(gè)點(diǎn)。這樣就可以把接近的點(diǎn)放到一類。如果還知道他們的物理成績,這樣數(shù)學(xué)和物理成績就形成二維平面上的100個(gè)點(diǎn),也可以按照距離遠(yuǎn)近來分類。三維或者更高維的情況也是類似;只不過三維以上的圖形無法直觀地畫出來而已。在飲料數(shù)據(jù)中,每種飲料都有四個(gè)變量值。這就是四維空間點(diǎn)的問題了。如何度量遠(yuǎn)近?判斷關(guān)系方法1、一種方法用相似系數(shù)2、另一種方法將一個(gè)樣本看作是P維空間的一個(gè)點(diǎn),并在空間定義距離,距離越近的點(diǎn)歸為一類。變量類型:scale、nominal、0rdinal。問:聚類分析與相關(guān)分析和距離分析是否有關(guān)?兩個(gè)距離概念按照遠(yuǎn)近程度來聚類需要明確兩個(gè)概念:一個(gè)是點(diǎn)和點(diǎn)之間的距離,一個(gè)是類和類之間的距離。1、點(diǎn)間距離的計(jì)算方法主要有:歐氏距離(Euclideandistance)平方歐氏距離(SquaredEuclideandistance)Block距離(Blockdistance)Chebychev距離(Chebychevdistance)馬氏距離(Minkovskidistance)最常用的是平方歐氏距離類和類之間的距離

由一個(gè)點(diǎn)組成的類是最基本的類;如果每一類都由一個(gè)點(diǎn)組成,那么點(diǎn)間的距離就是類間距離。但是如果某一類包含不止一個(gè)點(diǎn),那么就要確定類間距離。類間距離是基于點(diǎn)間距離定義的:比如兩類之間最近點(diǎn)之間的距離可以作為這兩類之間的距離,也可以用兩類中最遠(yuǎn)點(diǎn)之間的距離作為這兩類之間的距離;當(dāng)然也可以用各類的中心之間的距離來作為類間距離。備注在計(jì)算時(shí),各種點(diǎn)間距離和類間距離的選擇是通過統(tǒng)計(jì)軟件的選項(xiàng)實(shí)現(xiàn)的。不同的選擇的結(jié)果會(huì)不同,但一般不會(huì)差太多。另外還有一些和距離相反但起同樣作用的概念,比如相似性等,兩點(diǎn)越相似度越大,就相當(dāng)于距離越短。相似性的度量

(樣本點(diǎn)間距離的計(jì)算方法)Euclidean距離SquaredEuclidean距離Block距離Chebychev距離Minkovski距離在對(duì)變量進(jìn)行分類時(shí),度量變量之間的相似性常用相似系數(shù),測度方法有相似性的度量

(變量相似系數(shù)的計(jì)算方法)夾角余弦

Pearson相關(guān)系數(shù)

類間距離的計(jì)算方法最短距離法(Nearestneighbor)

最長距離法(Furthestneighbor)

重心法(Centroidclustering)組間平均距離(Between-groupslinkage)離差平方和法(Ward’smethod)

Nearestneighbor(最短距離法)—用兩個(gè)類別中各個(gè)數(shù)據(jù)點(diǎn)之間最短的那個(gè)距離來表示兩個(gè)類別之間的距離Furthestneighbor(最長距離法)—用兩個(gè)類別中各個(gè)數(shù)據(jù)點(diǎn)之間最長的那個(gè)距離來表示兩個(gè)類別之間的距離

類間距離的計(jì)算方法Centroidclustering(重心法)—用兩個(gè)類別的重心之間的距離來表示兩個(gè)類別之間的距離between-groupslinkage(組間平均距離法)—SPSS的默認(rèn)方法。是用兩個(gè)類別中間各個(gè)數(shù)據(jù)點(diǎn)之間的距離的平均來表示兩個(gè)類別之間的距離離差平方和法Ward‘smethod(離差平方和法)—使各類別中的離差平方和較小,而不同類別之間的離差平方和較大最短距離法舉例設(shè)抽取五個(gè)樣品,每個(gè)樣品只測一個(gè)指標(biāo)。它們是1、2、3.5、7、9、現(xiàn)采用最短距離法對(duì)五個(gè)樣品進(jìn)行分類。(1)定義樣品間距離采用絕對(duì)距離,計(jì)算樣品兩兩之間的距離,得距離矩陣D(0)表1G1={X1}G2={X2}G2={X2}G4={X4}G5={X5}G1={X1}0G2={X2}10G3={X3}2.51.50G4={X4}653.50G5={X5}875.520最短距離法舉例(2)找出中非對(duì)角線最小元素是1,即,則將并成一個(gè)新類,記為G6={X1,X2}。(3)計(jì)算新類G6與其它類之間的距離,按公式Di6=min(Di1,Di2)(i=3,4,5)取前兩列較小的一列再計(jì)算樣品兩兩之間的距離,得距離矩陣D(1)表2G6G3G4G5G6={X1,X2}0G3={X3}1.50G4={X4}53.50G5={X5}75.520最短距離法舉例(4)找出D(1)中非對(duì)角線最小元素是1.5,則將G3和G6并成一個(gè)新類,記為G7={X1,X2,X3}。(5)計(jì)算新類G7與其它類之間的距離,按公式Di7=min(Di1,Di2,Di3)(i=4,5)得距離矩陣D(2)表3G6G4G5G7={X1,X2,X3}0G4={X4}3.50G5={X5}5.520最短距離法舉例(7)找出D(2)中非對(duì)角線最小元素是2,則將G4和G5并成一個(gè)新類,記為G8={X4,X5}。(8)計(jì)算新類G8與其它類之間的距離,再按公式計(jì)算,得距離矩陣D(3)

表4G6G8G7={X1,X2,X3}0G8={X4

,X5}3.50結(jié)果圖01234x1x2x3x4x51.53.521G9G8G7G6由上圖可以看出分成兩類{X1,X2,X3}和{X4,X5}比較合適,在實(shí)際問題中有時(shí)回給出一個(gè)閥值T,要求類與類之間的距離小于T,因此有些樣品可能歸不到類中。第三部分聚類分析的SPSS過程在AnalyzeClassify下:1、快速聚類(K-MeansCluster):觀測量快速聚類分析過程。2、分層聚類(HierarchicalCluster):分層聚類(進(jìn)行觀測量聚類和變量聚類的過程??焖倬垲愡^程(QuickCluster)使用k均值分類法對(duì)觀測量進(jìn)行聚類??墒褂孟到y(tǒng)的默認(rèn)選項(xiàng)或自己設(shè)置選項(xiàng),如分為幾類、指定初始類中心、是否將聚類結(jié)果或中間數(shù)據(jù)數(shù)據(jù)存入數(shù)據(jù)文件等。AnalyzeClassifyK-MeansClusterK-均值聚類法基本原理

K-均值聚類分析K均值聚類法迭代終止條件兩次迭代計(jì)算的聚心之間距離的最大改變量小于初始聚心間最小距離的

倍到達(dá)迭代次數(shù)的上限K均值聚類的優(yōu)缺點(diǎn)優(yōu)點(diǎn):占有內(nèi)存少、計(jì)算量小、處理速度快,特別適合大樣本的聚類分析缺點(diǎn):1、應(yīng)用范圍有限,要求用戶指定分類數(shù)目;2、只能對(duì)觀測量聚類,而不能對(duì)變量聚類;3、所使用的聚類變量必須都是連續(xù)性變量??焖倬垲愡^程中的選項(xiàng)使用快速聚類的選擇項(xiàng):類中心數(shù)據(jù)的輸入與輸出:Centers選項(xiàng)輸出數(shù)據(jù)選擇項(xiàng):Save選項(xiàng)聚類方法選擇項(xiàng):Method選項(xiàng)聚類何時(shí)停止選擇項(xiàng):Iterate選項(xiàng)輸出統(tǒng)計(jì)量選擇項(xiàng):Option選項(xiàng)舉例下表反映我國16各地區(qū)農(nóng)民在1982年支出情況的抽樣調(diào)查數(shù)據(jù)的匯總資料,每個(gè)地區(qū)都調(diào)查了反映每人平均生活消費(fèi)支出情況的6個(gè)指標(biāo)。利用聚類方法進(jìn)行分類。地區(qū)食品衣著燃料住房生活用品文化生活北京190.3343.779.7360.5449.019.04天津135.236.410.4744.1636.493.94…………………步驟步驟一:錄入數(shù)據(jù),打開分析菜單,選擇Classify——>K-MeansCluster(逐步聚類分析)步驟二:選擇聚類變量聚類類數(shù)聚類個(gè)案標(biāo)識(shí)步驟三:指定聚類過程中類是否調(diào)整類中心點(diǎn)給出聚類過程中兩個(gè)調(diào)整類中心點(diǎn):1、表示聚類過程中選擇或指定初始類中心點(diǎn),按照K-Means的迭代算法不斷調(diào)整類中心點(diǎn)。2、聚類過程中只使用初始的類中心點(diǎn)而不作調(diào)整,迭代次數(shù)也進(jìn)行一次步驟四:類中心數(shù)據(jù)的輸入與輸出。Readinitialfrom指定初始中心Writefinal保存結(jié)果中的各類中心數(shù)據(jù)Iterate(迭代)選項(xiàng)最大迭代次數(shù)收斂準(zhǔn)則值在0~1之間,且不等于1.如果輸入值為0.01,表示兩次迭代計(jì)算的最小的類中心的變化距離小于初始類中心距離的1%時(shí)迭代停止是否在每個(gè)個(gè)案被分配到一類后立即計(jì)算新的類中心Save選項(xiàng)添加默認(rèn)變量名為qcl-1的新變量,變量值表示聚類結(jié)果。添加默認(rèn)變量名為qcl-2的新變量,變量值表示聚類終止后樣本值距所屬類中心的歐氏距離。初始類中心,輸出初始類中心的數(shù)據(jù)。方差分析表,以聚類分析產(chǎn)生的類為控制變量的單因素方差分析,并輸出個(gè)變量的值輸出每個(gè)個(gè)案的分類信息,包括分配到哪一類和該個(gè)案距所屬類中心的距離結(jié)果分析逐步聚類分析的初始類中心數(shù)據(jù)迭代記錄下表給出了5個(gè)類中心點(diǎn)每次迭代時(shí)的變化。第一次迭代后,5類中心點(diǎn)中變化最大的是那個(gè)?第二次迭代后,5類中心點(diǎn)變化是否達(dá)到聚類結(jié)果的要求?(停止準(zhǔn)則是什么?)逐步聚類分析的類成員其中第三列給出了每個(gè)個(gè)案所屬的類,第四列給出個(gè)案和所屬中心的距離。我省河南歸到哪一類,與那幾個(gè)省一類,且距所屬中心距離多少?聚類結(jié)束時(shí)的類中心數(shù)據(jù)下表所示5個(gè)類的最終聚類中心。其中第幾類各指數(shù)相對(duì)來講較高?那個(gè)最低?作用:為后續(xù)分析以及解釋分類結(jié)果提供依據(jù)最終聚類的類中心之間的距離哪兩類之間距離最大,值為多少?對(duì)應(yīng)的省份是那些?說明什么問題?逐步聚類分析的方差分析表各指數(shù)在不同類的均值比較情況。各項(xiàng)數(shù)據(jù)分別為:組間均方、組間自由度、組內(nèi)均方、組內(nèi)自由度。聚類小結(jié)顯示5類成員情況,主要包括每一類的地區(qū)數(shù)例2:利用如下數(shù)據(jù)將以下城市按照空氣指標(biāo)分類在描述性統(tǒng)計(jì)分析中做標(biāo)準(zhǔn)化處理利用標(biāo)準(zhǔn)化處理后變量進(jìn)行聚類分析結(jié)果解讀初始聚類中心表迭代史表最終聚類中心表系統(tǒng)(分層)聚類

(HierarchicalCluster)過程分層聚類又稱系統(tǒng)聚類:是指事先不確定要分多少類,而是先把每一個(gè)對(duì)象作為一類,然后一層一層進(jìn)行分類分層聚類方法:分解法:先視為一大類,再分成幾類凝聚法:先視每個(gè)為一類,再合并為幾大類分層聚類法可用于觀測量(樣本)聚類(Q型)和變量聚類(R型)一般分為兩步:Proximities:先對(duì)數(shù)據(jù)進(jìn)行的預(yù)處理(標(biāo)準(zhǔn)化和計(jì)算距離等)Cluster:然后進(jìn)行聚類分析兩種統(tǒng)計(jì)圖:樹形圖(Dendrogram)和冰柱圖(Icicle)各類型數(shù)據(jù)的標(biāo)準(zhǔn)化、距離和相似性計(jì)算定距變量、分類變量、二值變量標(biāo)準(zhǔn)化方法p353:ZScores、Range-1to1、Range0to1等舉例現(xiàn)有對(duì)07級(jí)本科生中5名不同學(xué)科的學(xué)生能力測試的結(jié)果,并進(jìn)行聚類分析。個(gè)案學(xué)科抽象思維形象思維創(chuàng)新能力case1188783case2194632case3364891case4358911case5283882步驟步驟一:錄入數(shù)據(jù),打開分析菜單,選擇Classify——>HierarchicalCluster(逐步聚類分析)步驟二:選擇聚類變量,選擇聚類個(gè)案標(biāo)識(shí)步驟三:選擇聚類類型和輸出內(nèi)容選擇Q型聚類選擇R型聚類輸出聚類分析的相關(guān)圖形輸出聚類分析的相關(guān)統(tǒng)計(jì)量Method選項(xiàng)分層聚類的方法:組間平均連鎖法組內(nèi)平均連鎖法最近相鄰法最遠(yuǎn)相鄰法重心聚類法中位數(shù)聚類法離差平方和法連續(xù)型定距變量的距離選擇(歐氏距離、平方歐氏距離、夾角余弦距離、皮爾遜相關(guān)系數(shù)距離、契比雪夫距離、Block距離、閔可夫斯基距離、自定義距離)計(jì)數(shù)變量的距離選擇(卡方測度、Phi方測度)二值變量的距離選項(xiàng)共26個(gè)選項(xiàng)轉(zhuǎn)換值,給出變量值的標(biāo)準(zhǔn)化方法的選項(xiàng)距離計(jì)算完成后,對(duì)距離測度的轉(zhuǎn)換距離值取絕對(duì)值改變距離符號(hào)距離與最小值之差,再除以極差得到距離標(biāo)準(zhǔn)化Save選項(xiàng)不建立新變量單一結(jié)果,利用新變量表示每個(gè)個(gè)案聚類后所屬的類。可以選擇指定的分類數(shù)量顯示指定聚類數(shù)的范圍內(nèi)結(jié)果。自動(dòng)生成若干個(gè)新變量,表示聚為若干個(gè)類時(shí),每個(gè)個(gè)體聚類后所屬的類??芍付ㄗ钚?、最大聚類數(shù)。輸出凝聚狀態(tài)表個(gè)案間的距離矩陣聚類成員不顯示列出某一類數(shù)個(gè)案所屬的類列出指定范圍內(nèi)的結(jié)果Plots選項(xiàng)樹形圖冰掛圖輸出聚類的每個(gè)階段的冰掛圖指定顯示聚類數(shù)的范圍不生成冰掛圖設(shè)置作圖方向1、顯示縱向冰掛圖;2、顯示水平冰掛圖結(jié)果分析摘要?dú)W氏距離矩陣以矩陣的形式顯示個(gè)案間的距離或相似測度的值,并顯示處距離類型。凝聚狀態(tài)表其中第一列表示聚類分析的第幾步;二、三列表示本步驟中哪兩個(gè)案或小類聚成一類;四列為個(gè)案距離或小類距離;五、六表示本步驟類中參與聚類的是個(gè)案還是小類,0表示個(gè)案;七列標(biāo)識(shí)本步驟類結(jié)果將在以下第幾步中用到。類成員聚類表從表中可知,類數(shù)從2至4時(shí)的個(gè)案所屬類別。當(dāng)聚成4類時(shí),3、4個(gè)案聚成一類,其他個(gè)案自成一類冰掛圖如何觀察冰掛圖:從最后一行開始,當(dāng)聚成4類時(shí),3、4個(gè)案聚成一類,其他個(gè)案自成一類;當(dāng)聚成3類時(shí),3、4個(gè)案,1、2個(gè)案聚成一類,個(gè)案五自成一類;當(dāng)聚成2類時(shí),1、2個(gè)案聚成一類,其余個(gè)案聚成一類樹形圖樹形圖以水平放置的樹形結(jié)構(gòu)呈現(xiàn)了聚類分析中每一次類合并的情況。SPSS自動(dòng)將各類間的距離映射到0~25之間。如何看?那個(gè)更直觀?例2:觀測量聚類:按照交通情況對(duì)各地進(jìn)行聚類標(biāo)準(zhǔn)化處理過程系統(tǒng)聚類結(jié)果龍骨圖變量聚類:按照日照數(shù)對(duì)月份進(jìn)行聚類

結(jié)果解讀聚類進(jìn)度表——垂直冰柱圖從下往上看龍骨圖小結(jié)除分層聚類法和K-均值聚類法外,1996年還提出一種新的聚類方法,即兩步聚類法(TwoStepCluster)無論那種分類方法,最終要分成多少類別,并不是完全由方法本身來決定,研究者應(yīng)結(jié)合具體問題而定。聚類分析是一種探索性的數(shù)據(jù)分析方法。相同的數(shù)據(jù)采用不同的分類方法,也會(huì)的得到不同的分類結(jié)果。分類的結(jié)果沒有對(duì)錯(cuò)之分,只是分類標(biāo)準(zhǔn)不同而已

。使用聚類方法時(shí),首先要明確分類的目的,再考慮選擇哪些變量(或數(shù)據(jù))參與分類,最后才需要考慮方法的選擇。至于分類結(jié)果是否合理,該如何解釋,更多取決于研究者對(duì)所研究問題的了解程度、相關(guān)的背景知識(shí)和經(jīng)驗(yàn)。從數(shù)據(jù)要求上看1、參與分類的變量首先應(yīng)符合要求2、各變量的取值不應(yīng)有數(shù)量級(jí)上的過大差異,否則會(huì)對(duì)分類結(jié)果產(chǎn)生較大影響。這時(shí)需要對(duì)變量進(jìn)行標(biāo)準(zhǔn)化處理(SPSS提供的層次聚類法中在聚類時(shí)可以選擇對(duì)變量做標(biāo)準(zhǔn)化處理,而K-均值聚類法則需要單獨(dú)做標(biāo)準(zhǔn)化處理,而后再進(jìn)行聚類)3、各變量間不應(yīng)有較強(qiáng)的相關(guān)關(guān)系。若兩個(gè)強(qiáng)相關(guān)的變量同時(shí)參與聚類分析,在測度距離時(shí),就加大了它們的貢獻(xiàn),而其他變量則相對(duì)被削弱從聚類方法的選擇上1、看數(shù)據(jù)的類型,如果參與分類的變量是連續(xù)變量,層次聚類法、K-均值聚類法、以及兩步聚類法都是適用的。如果變量中包括離散變量(計(jì)數(shù)變量),則需要將先對(duì)離散變量進(jìn)行連續(xù)化處理。當(dāng)數(shù)據(jù)量較少時(shí)(比如小于100),兩種方法都可以選用,當(dāng)數(shù)據(jù)量較多時(shí)(比如大于1000),則應(yīng)該考慮選用K-均值聚類法2、要看分類的對(duì)象。如果是對(duì)樣本分類,兩種方法都可用;如果是對(duì)變量分類則應(yīng)選擇層次聚類法(至少SPSS的程序是這樣)注意對(duì)分類結(jié)果的檢驗(yàn)分類結(jié)果是否合理取決于它是否“有用”,但分類結(jié)果是否可靠和穩(wěn)定,則需要反復(fù)聚類和比較。一般來說,在所分的類別中,各類所包含的對(duì)象(樣本或變量)的數(shù)量應(yīng)該大致相當(dāng)。至少這從表面上看更漂亮一些。問題1、什么時(shí)候用快速聚類?2、什么時(shí)候用分層聚類?第四部分判別分析概念

有一些昆蟲的性別很難看出,只有通過解剖才能夠判別;但是雄性和雌性昆蟲在若干體表度量上有些綜合的差異。于是統(tǒng)計(jì)學(xué)家就根據(jù)已知雌雄的昆蟲體表度量(這些用作度量的變量亦稱為預(yù)測變量)得到一個(gè)標(biāo)準(zhǔn),并且利用這個(gè)標(biāo)準(zhǔn)來判別其他未知性別的昆蟲。這樣的判別雖然不能保證百分之百準(zhǔn)確,但至少大部分判別都是對(duì)的,而且用不著殺死昆蟲來進(jìn)行判別了。判別分析(discriminantanalysis)這就是本次課要講的是判別分析。判別分析和前面的聚類分析有什么不同呢?主要不同點(diǎn)就是:在聚類分析中一般人們事先并不知道或一定要明確應(yīng)該分成幾類,完全根據(jù)數(shù)據(jù)來確定。而在判別分析中,至少有一個(gè)已經(jīng)明確知道類別的“訓(xùn)練樣本”,利用這個(gè)數(shù)據(jù),就可以建立判別準(zhǔn)則,并通過預(yù)測變量來為未知類別的觀測值進(jìn)行判別了。判別的思想判別分析:根據(jù)一批分類明確的樣本在若干指標(biāo)上的觀察值,建立一個(gè)關(guān)于指標(biāo)的判別函數(shù)和判別準(zhǔn)則,然后根據(jù)這個(gè)判別函數(shù)和判別準(zhǔn)則對(duì)新的樣本進(jìn)行分類,并且根據(jù)回代判別的準(zhǔn)確率評(píng)估它的實(shí)用性。判別函數(shù)(discriminantfunction):指的是一個(gè)關(guān)于指標(biāo)變量的函數(shù)。每一個(gè)樣本在指標(biāo)變量上的觀察值代入判別函數(shù)后可以得到一個(gè)確定的函數(shù)值。判別準(zhǔn)則(discriminantrule):對(duì)樣本的判別函數(shù)值進(jìn)行分類的法則。1、判別分析的一般步驟2、判別方法

SPSS系統(tǒng)提供的判別方法有馬氏距離判別法、貝葉斯概率判別法以及費(fèi)氏多類判別模型法。⑴馬氏(Mahalamobis)距離判別法

馬氏距離判別法的思想就是建立馬氏距離,當(dāng)被判斷個(gè)案距離哪個(gè)總體中的馬氏距離最小,該個(gè)案就隸屬于這個(gè)總體。假定有A、B兩個(gè)總體,則:X∈A若d(x,A)<d(x,B)X∈B若d(x,A)>d(x,B)待判若d(x,A)=d(x,B)⑵貝葉斯(Bayes)概率判別法

貝葉斯概率判別法是根據(jù)被判斷個(gè)案應(yīng)當(dāng)歸屬于出現(xiàn)概率最大的總體或者歸屬于錯(cuò)判概率最小的總體的原則進(jìn)行判別的。出現(xiàn)概率最大的總體指在全部N個(gè)個(gè)案中,屬于各個(gè)不同總體的個(gè)案數(shù)分別為:n1、n2、n3…,則各自的概率可以簡單計(jì)算為:

P(Gi)為先驗(yàn)概率。被判斷的個(gè)案屬于先驗(yàn)概率最大總體的概率應(yīng)當(dāng)高一些。先驗(yàn)概率反映了樣本分布的總體趨向特性。當(dāng)不能確定一個(gè)個(gè)案屬于若干個(gè)總體中的哪一個(gè)時(shí),歸屬大概率總體的概率顯然會(huì)比歸屬小概率總體的概率高。另外,考慮到某些個(gè)案的特殊性,還應(yīng)當(dāng)具體分析各個(gè)個(gè)案的趨向特性。因?yàn)閭€(gè)案趨向于各個(gè)總體的概率可能不同。

例如:對(duì)兒童某行為應(yīng)隸屬于心理發(fā)展問題的概率遠(yuǎn)遠(yuǎn)超過隸屬于生理發(fā)育問題的概率,即使樣本數(shù)量很大時(shí)也基本如此,則將該行為判斷為心理問題的正確性就大。當(dāng)假定某個(gè)案歸屬某一個(gè)總體i時(shí),由其判別函數(shù)得到的可能概率為P(D|Gi)。則該個(gè)案被判定屬于總體i時(shí)的概率為:P(Gi|D)也稱為后驗(yàn)概率,其對(duì)于不同總體的概率將決定判別的結(jié)果。⑶費(fèi)氏(Fisher)多類判別模型法

費(fèi)氏多類判別模型法的實(shí)質(zhì)為一種通過坐標(biāo)變換的方式將個(gè)案類別進(jìn)行劃分的方法。當(dāng)個(gè)案數(shù)據(jù)點(diǎn)的分布在原有的變量空間無法通過變量的取值來區(qū)分時(shí),坐標(biāo)變換將數(shù)據(jù)點(diǎn)投影到另一個(gè)坐標(biāo)系,在新的坐標(biāo)系中個(gè)案的不同水平差異顯著,用一元方差分析的檢驗(yàn)手段就可以將不同種類區(qū)分開來了。即按照類間離差平方和最大同類內(nèi)離差平方和最小的原則,使二者之比取最大來確定判別函數(shù)的系數(shù)。(4)逐步判別法逐步判別法與逐步回歸法的基本思想類似,都是逐步引入變量,每引入一個(gè)“最重要”的變量進(jìn)入判別式,同時(shí)也考慮較早引入判別式的某些變量,若其判別能力不顯著了,應(yīng)及時(shí)從判別式中剔除去,直到判別式中沒有不重要的變量需要剔除,且也沒有重要的變量要引入為止。第三部分判別分析的SPSS過程在AnalyzeClassify下:判別分析(Discriminant):判別分析過程。使用判別分析的選擇項(xiàng):統(tǒng)計(jì)量選項(xiàng):Statistics選項(xiàng)判別分類選項(xiàng):Classify選項(xiàng)判別方法選擇項(xiàng):Method選項(xiàng)輸出數(shù)據(jù)選擇項(xiàng):Save選項(xiàng)實(shí)例為研究舒張期血壓和血漿膽固醇對(duì)冠心病的作用,某醫(yī)師測定了50~59歲冠心病人15例和正常人16例的舒張壓和膽固醇指標(biāo),結(jié)果如下所示。試做判別分析,建立判別分析,建立判別函數(shù)一邊在臨床中用于篩選慣性病人。冠心病人組

正常人組

編號(hào)舒張壓膽固醇編號(hào)舒張壓膽固醇19.865.18110.662.07213.333.73212.534.45314.663.89313.333.06………………步驟一:錄入數(shù)據(jù),打開分析菜單,選擇AnalyzeClassifyDiscriminant(判別分析)步驟二:選擇組別變量步驟三:選擇變量1、當(dāng)認(rèn)為所有自變量都能對(duì)觀測量特性提供豐富的信息時(shí),使用該選項(xiàng)。不加選擇地使用是所有自變量進(jìn)行判別分析2、逐步分析方法。選擇該選項(xiàng)“Method”將被激活Statistics選項(xiàng)矩陣選項(xiàng)1、類內(nèi)相關(guān)矩陣2、合并類內(nèi)協(xié)方差矩陣3、協(xié)方差矩陣4、總樣本的協(xié)方差矩陣1、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論