第8講.SPSS的多元統(tǒng)計分析因子分析、聚類分析、判別分析.ppt_第1頁
第8講.SPSS的多元統(tǒng)計分析因子分析、聚類分析、判別分析.ppt_第2頁
第8講.SPSS的多元統(tǒng)計分析因子分析、聚類分析、判別分析.ppt_第3頁
第8講.SPSS的多元統(tǒng)計分析因子分析、聚類分析、判別分析.ppt_第4頁
第8講.SPSS的多元統(tǒng)計分析因子分析、聚類分析、判別分析.ppt_第5頁
已閱讀5頁,還剩56頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第八章 SPSS的多元統(tǒng)計分析,本章主要內(nèi)容:,因子分析 聚類分析 判別分析,在工業(yè)、農(nóng)業(yè)以及經(jīng)濟(jì)、管理等諸多領(lǐng)域中,常常需要同時觀測多個指標(biāo)。例如,衡量一個地區(qū)的經(jīng)濟(jì)發(fā)展,需觀測的指標(biāo)有:總產(chǎn)值、利潤、效益、勞動生產(chǎn)率、固定資產(chǎn)、物價、信貸等。因此,受多種指標(biāo)作用和影響的現(xiàn)象是大量存在的。由于每個指標(biāo)值是不能預(yù)先確定的,那么該如何根據(jù)這些觀測數(shù)據(jù)進(jìn)行有效的分析研究呢? - 多元統(tǒng)計分析,就是進(jìn)行多個隨機(jī)變量觀測數(shù)據(jù)分析的一種有效方法,它通過研究變量之間的相互關(guān)系來揭示這些變量內(nèi)在的變化規(guī)律。在當(dāng)前科技和經(jīng)濟(jì)迅速發(fā)展的今天,國民經(jīng)濟(jì)許多領(lǐng)域只停留在定性分析上往往是不夠的。 為提高科學(xué)性、可靠性

2、,通常需要定性與定量分析相結(jié)合。而多元分析正是定量分析的有效手段和方法。,整體分析與設(shè)計的內(nèi)容,因子分析,一、案例背景,居民消費(fèi)結(jié)構(gòu)變化 “消費(fèi)結(jié)構(gòu)”是指消費(fèi)過程中,各項消費(fèi)支出占居民總支出的比重,它是反映居民生活消費(fèi)水平、生活質(zhì)量變化狀況以及內(nèi)在過程合理化程度的重要標(biāo)志。,消費(fèi)結(jié)構(gòu)的變動不僅是消費(fèi)領(lǐng)域的重要問題,而且也關(guān)系到國民經(jīng)濟(jì)的發(fā)展。因為合理的消費(fèi)結(jié)構(gòu)及消費(fèi)結(jié)構(gòu)的升級和優(yōu)化不僅反映了消費(fèi)的層次和質(zhì)量的提高,而且也為建立合理的產(chǎn)業(yè)結(jié)構(gòu)和產(chǎn)品結(jié)構(gòu)提供了重要的依據(jù)。 首先看一下本節(jié)課給出的相關(guān)數(shù)據(jù): 本數(shù)據(jù)文件是某市民在食品、衣著、醫(yī)療保健等幾個方面的消費(fèi)數(shù)據(jù)。這些指標(biāo)之間存在著不同強(qiáng)弱的相

3、關(guān)性。 如果單獨(dú)分析這些指標(biāo),那么就很難全面的分析和了解居民消費(fèi)結(jié)構(gòu)的特點(diǎn)。因此,我們可以考慮采用“因子分析”的方法,將這幾個指標(biāo)綜合為少數(shù)幾個因子,通過這幾個因子來考察居民消費(fèi)結(jié)構(gòu)的變動情況。,整體分析與設(shè)計的內(nèi)容,因子分析,二、方法原理,在研究實際問題的時候,往往希望盡可能的收集相關(guān)變量,以期對問題有較全面、完整的把握和認(rèn)識。例如,企業(yè)綜合評價研究中,可能會收集諸如盈利能力、負(fù)債能力、運(yùn)營能力等方面的經(jīng)濟(jì)指標(biāo)數(shù)據(jù)。 這些數(shù)據(jù)在帶來有關(guān)信息的同時,也給數(shù)據(jù)的分析帶來了一定的困難:這眾多的變量之間可能存在著或多或少的相關(guān)性,實際觀測到的數(shù)據(jù)包含的信息有一部分可能是重復(fù)的。 為了解決這些問題,最

4、簡單和最直接的辦法就是減少變量數(shù)目。但這又將導(dǎo)致另一個問題,即信息丟失或不完整的問題。 因此,研究人員希望能夠找到一種有效的方法,既能減少參與數(shù)據(jù)分析的變量個數(shù),同時又不會造成統(tǒng)計信息的大量浪費(fèi)和丟失。,-“因子分析”就這樣應(yīng)運(yùn)而生了。 因子分析就是在盡可能不損失信息或少損失信息的情況下,將多個變量減少為少數(shù)幾個因子的方法,這幾個因子可以高度概括大量數(shù)據(jù)中的信息。這樣,既減少了變量個數(shù),又同樣能再現(xiàn)變量之間的內(nèi)在聯(lián)系。,整體分析與設(shè)計的內(nèi)容,因子分析,二、方法原理,1.因子分析的數(shù)學(xué)模型 針對變量作因子分析,稱為R型因子分析; 對樣本個案做因子分析,稱為Q型因子分析。 這兩種方法有許多相似之處

5、。其中,R型因子分析的數(shù)學(xué)模型如下:,設(shè)原有p個變量,且每個變量(或經(jīng)標(biāo)準(zhǔn)化處理后的變量)的均值為0,標(biāo)準(zhǔn)差為1.現(xiàn)將每個原有變量用k(kp)因子f1,f2,fk的線性組合來表示,即可得此數(shù)學(xué)模型。,其矩陣形式:,可實測的隨機(jī)向量,特殊因子,表示原變量不能被因子解釋的部分,均值為0,因子,由于它們出現(xiàn)在每個原有變量的線性表達(dá)式中,又被稱為公共因子。,因子載荷矩陣,其中每個元素aij(i=1,2,p; j=1,2,k)稱為因子載荷。,因子分析的基本思想是通過對變量的相關(guān)系數(shù)矩陣內(nèi)部結(jié)構(gòu)的分析,從中找出少數(shù)幾個能控制原始變量的隨機(jī)變量fi(選取的原則是使其盡可能多的包含原始變量中的信息),并建立起

6、數(shù)學(xué)模型。之后,忽略特殊因子,用F代替X,并使其能再現(xiàn)原始變量X的信息,從而達(dá)到簡化變量、降低維數(shù)的目的。,整體分析與設(shè)計的內(nèi)容,因子分析,二、方法原理,2.因子分析的基本操作步驟 一個完整的因子分析過程,主要包括如下幾個步驟: 確認(rèn)待分析的原變量是否適合作因子分析 因子分析的主要任務(wù)是將原有變量的信息重疊部分提取,綜合成因子,進(jìn)而最終實現(xiàn)減少變量個數(shù)的目的,故它要求原始變量之間應(yīng)存在較強(qiáng)的相關(guān)關(guān)系。進(jìn)行因子分析前,通常可以采取計算相關(guān)系數(shù)矩陣、巴特利特球度檢驗和KMO檢驗等方法來檢驗候選數(shù)據(jù)是否適合采用因子分析。 構(gòu)造因子變量 將原有變量綜合成少數(shù)幾個因子,是因子分析的核心內(nèi)容,它的關(guān)鍵是根

7、據(jù)樣本數(shù)據(jù)求解因子載荷矩陣。因子載荷矩陣的求解方法有基于主成分模型的主成份分析法、基于因子分析模型的主軸因子法、極大似然法等。,整體分析與設(shè)計的內(nèi)容,因子分析,二、方法原理,2.因子分析的基本操作步驟 利用旋轉(zhuǎn)方法使因子變量更具有可解釋性 將原有變量綜合為少數(shù)幾個因子后,如果因子的實際含義不清,則不利于后續(xù)分析。為解決這個問題,可通過因子旋轉(zhuǎn)的方式使一個變量只在盡可能少的因子上有比較高的載荷,這樣使提取出的因子具有更好的解釋性。 計算因子變量得分 實際中,當(dāng)因子確定以后,便可計算各因子在每個樣本上的具體數(shù)值,這些數(shù)值成為因子得分。于是,在以后的分析中就可以利用因子得分對樣本進(jìn)行分類或評價等研究

8、,進(jìn)而實現(xiàn)了降維和簡化問題的目標(biāo)。 根據(jù)上述步驟,可得到因子分析的算法流程。,整體分析與設(shè)計的內(nèi)容,因子分析,二、方法原理,2.因子分析的基本操作步驟(算法流程),標(biāo)準(zhǔn)化原始數(shù)據(jù),求標(biāo)準(zhǔn)數(shù)據(jù)的相關(guān)矩陣,求相關(guān)矩陣的特征值和特征向量,方差貢獻(xiàn)率與累積方差貢獻(xiàn)率,確定因子,因子旋轉(zhuǎn),求各因子得分,綜合得分,消除變量間在數(shù)量級和量綱上的不同。,設(shè)F1、F2,F(xiàn)p為p個因子,其中前m個因子包含的數(shù)據(jù)信息總量(即其累計貢獻(xiàn)率)不低于85%時,可取前m個因子來反映原評價指標(biāo)。,若所得的m個因子無法確定或其實際意義不是很明顯,這時需將因子進(jìn)行旋轉(zhuǎn),以獲得較為明顯的實際含義。,用原指標(biāo)的線性組合來求。,通常以

9、各因子的方差貢獻(xiàn)率為權(quán),由各因子的線性組合得到綜合評價指標(biāo)函數(shù)。,整體分析與設(shè)計的內(nèi)容,因子分析,三、操作,數(shù)據(jù)文件:“居民消費(fèi)結(jié)構(gòu)的變化.sav” 菜單:“分析降維因子分析”,選擇符合條件的樣本進(jìn)行分析,整體分析與設(shè)計的內(nèi)容,因子分析,三、操作,1.“描述”統(tǒng)計量,輸出參與分析的各原始變量的均值、標(biāo)準(zhǔn)差等。,初始分析結(jié)果,系統(tǒng)默認(rèn)選項。輸出各個分析變量的初始共同度、特征值以及解釋方差的百分比等。,輸出原始分析變量間的相關(guān)系數(shù)矩陣。,前者用于檢驗變量間的偏相關(guān)是否很??;后者用于檢驗相關(guān)系數(shù)矩陣是否為單位矩陣,如果是,則表明不合適采用因子模型。,相關(guān)系數(shù)的逆矩陣,因子分析后的相關(guān)矩陣以及殘差矩陣

10、,反映像相關(guān)矩陣包括偏相關(guān)系數(shù)的負(fù)數(shù);反映像協(xié)方差矩陣包括偏協(xié)方差的負(fù)數(shù);一個好的因子模型,對角線上的元素應(yīng)較大,非對角線元素則較小。,整體分析與設(shè)計的內(nèi)容,因子分析,三、操作,2.“抽取”對話框 (提取公因子),該方法假設(shè)變量是因子的純線性組合。第一主成份有最大的方差,后續(xù)成分可解釋的方差逐個遞減。,輸出未經(jīng)旋轉(zhuǎn)的因子提取結(jié)果。,該圖顯示了按特征值大小排列的因子序號,有助于確定保留多少個因子。典型的碎石圖會有一個明顯的拐點(diǎn),在該拐點(diǎn)之前是與大因子連接的陡峭的折線,之后是與小因子相連的緩坡折線。,用于輸出與提取結(jié)果有關(guān)的選擇項。理論上,因子數(shù)目與原始變量數(shù)目相等,但因子分析的目的是用少量的因子

11、,替代多個原始變量,因此需要這個選項組來決定抽取多少個因子。,提取特征值大于指定數(shù)值的因子。系統(tǒng)默認(rèn)特征值為1.,指明要提取的因子數(shù)量。,適用于各變量方差不等的情況,適用于各變量度量單位不同的情況,整體分析與設(shè)計的內(nèi)容,因子分析,三、操作,3.“旋轉(zhuǎn)”按鈕:因子選擇方法。,這是一種正交旋轉(zhuǎn)法,使得每個因子具有最高載荷的變量數(shù)最小,可以簡化對因子的解釋。,直接斜交旋轉(zhuǎn)法。點(diǎn)擊該選項后,需要輸入Delta系數(shù),取值范圍01.,該方法中,每個變量中需要解釋的因子數(shù)最少。,斜交旋轉(zhuǎn)方法。該方法允許彼此相關(guān),它比直線斜交旋轉(zhuǎn)更快,適用于大數(shù)據(jù)集的因子分析。點(diǎn)選該按鈕后,需要輸入K值,系統(tǒng)默認(rèn)為4(此值最

12、適合于分析)。,“方法”部分如果選擇“無”,則不能選該復(fù)選框。,若有兩個公因子,則輸出各原始變量在F1和F2坐標(biāo)系中的散點(diǎn)圖;若多于兩個公因子,則輸出前3個因子的三緯因子載荷散點(diǎn)圖;如果只提取了一個公因子,則不輸出。,整體分析與設(shè)計的內(nèi)容,因子分析,三、操作,3.“得分”按鈕:計算因子得分的方法。,將因子得分作為新變量保存在數(shù)據(jù)文件中,其因子得分的均值為0;方差等于估計因子得分與實際因子得分之間的多元相關(guān)的平方,即使公因子正交時此得分也可能是相關(guān)的。,巴特利法:其因子得分均值為0.,是巴特利法的調(diào)整,可以保證因子的正交性,其因子得分均值為0,標(biāo)準(zhǔn)差為1,且彼此不相關(guān)。,4.“選項” 按鈕,選中

13、該復(fù)選框后,即可輸入01之間的數(shù)值作為臨界值。所有絕對值小于指定值的載荷系數(shù)將不再顯示。(系統(tǒng)默認(rèn)為0.10),整體分析與設(shè)計的內(nèi)容,因子分析,四、輸出分析,1.因子分析共同度,表示因子分析初始解下的變量共同度,它表明對原有8個變量,如果采用主成份分析法提取8個特征根,那么原有變量的所有方差都可被解釋,變量的共同度均為1(原變量標(biāo)準(zhǔn)化后的方差為1)。,按提取條件(即特征根大于1)提取特征根時的共同度??梢钥吹?,所有變量的絕大部分信息(全部大于83%)可被因子解釋,這些變量信息丟失較少。因此,本次因子提出的總體效果理想。,整體分析與設(shè)計的內(nèi)容,因子分析,四、輸出分析,2.因子分析的總方差解釋,相

14、關(guān)系數(shù)矩陣的特征值,方差貢獻(xiàn)率。每個變量后的數(shù)值表示其對原有8個變量總方差的解釋程度。 例如,第一個變量,即可解釋53.947%總方差,累積貢獻(xiàn)率。前3個變量的累計貢獻(xiàn)率已經(jīng)達(dá)到了94.196% 。 而且,也只有這三個變量的特征根取值大于1.說明前3個因子基本包含了全部變量的主要信息,選前3個因子為主因子即可。,因子提取后,方差解釋情況。,旋轉(zhuǎn)后的因子方差解釋情況。,整體分析與設(shè)計的內(nèi)容,因子分析,四、輸出分析,3.因子碎石圖,橫坐標(biāo)為因子序號,縱坐標(biāo)為特征根。從圖中可知,第一個因子特征值最高,對解釋原有變量貢獻(xiàn)最大;第三個以后的因子特征根都較小,取值都小于1,說明它們對解釋原有變量的貢獻(xiàn)很小

15、,稱為可以忽略的“高山腳下的碎石”,因此,提取前三個因子是合適的。,整體分析與設(shè)計的內(nèi)容,因子分析,四、輸出分析,4.旋轉(zhuǎn)前的因子載荷矩陣,這是因子分析的核心內(nèi)容。通過載荷系數(shù)大小可以分析不同公共因子所反映的主要指標(biāo)的區(qū)別。從結(jié)果看,大部分因子解釋性較好。 采用因子旋轉(zhuǎn)方法,能夠使得因子載荷系數(shù)向0或1兩極分化,使得大的載荷更大,小的載荷更小,從而得到更具可解釋性的結(jié)果。,整體分析與設(shè)計的內(nèi)容,因子分析,四、輸出分析,5.旋轉(zhuǎn)后的因子載荷矩陣(待續(xù)),從表中可知:第一主因子在“交通和通信”、“醫(yī)療保健”等5個指標(biāo)上具有較大的載荷系數(shù); 第二主因子在“居住”和“衣著”指標(biāo)上系數(shù)較大。 第三主因子

16、在“雜項商品與服務(wù)”上的系數(shù)最大。 此時,各個因子的含義更加突出。,第一主因子,是享受性消費(fèi)因子,從系數(shù)的正負(fù)值可知:有的消費(fèi)在遞增,有的則遞減。 第二主因子,是發(fā)展性消費(fèi)因子,也包含了遞增和遞減的消費(fèi)項目。 第三主因子,是其他類型的消費(fèi)因子。,整體分析與設(shè)計的內(nèi)容,因子分析,四、輸出分析,6. 因子得分系數(shù),根據(jù)得分系數(shù)表,可以給出因子的函數(shù)。,整體分析與設(shè)計的內(nèi)容,因子分析,四、輸出分析,7. 繪制因子變動圖(根據(jù)數(shù)據(jù)分析時保存到數(shù)據(jù)集的新變量來繪制),第一因子除過開始階段下降外,其余階段都是上升的。(2000年左右,國企改革,中國經(jīng)濟(jì)軟著陸、下崗職工增多等原因,享受型消費(fèi)支出是減少的;近

17、幾年隨著經(jīng)濟(jì)的發(fā)展和收入增加,則又呈現(xiàn)回升趨勢。) 第二因子的波動和住房比重的升降相關(guān)。 第三因子波動頻繁,說明雜項消費(fèi)上的發(fā)展空間挺大。,整體分析與設(shè)計的內(nèi)容,因子分析,四、輸出分析,8. 綜合得分的分析,如果想計算各年的綜合情況,可以對公因子做加權(quán)求和。權(quán)數(shù)一般取其方差貢獻(xiàn)率或方差貢獻(xiàn)值。,整體分析與設(shè)計的內(nèi)容,聚類分析,一、方法原理,聚類分析,又稱為群分析。它是研究(樣品或指標(biāo))分類問題的一種多元統(tǒng)計方法。所謂類,通俗地說,就是指相似元素的集合。 聚類分析起源于分類學(xué)。隨著生產(chǎn)技術(shù)和科學(xué)的發(fā)展,人類的認(rèn)識不斷加深,分類越來越細(xì),要求也越來越高,有時光憑經(jīng)驗和專業(yè)知識是不能進(jìn)行確切分類的,

18、往往需要定性分析與定量分析結(jié)合起來去分類,于是數(shù)學(xué)工具逐漸被引進(jìn)分類學(xué)中,形成了數(shù)值分類學(xué)。 后來,隨著多元分析的引進(jìn),聚類分析又逐漸從數(shù)值分類學(xué)中分離出來而形成一個相對獨(dú)立的分支。,社會經(jīng)濟(jì)領(lǐng)域中存在著大量分類問題,比如對我國30個省市自治區(qū)獨(dú)立核算工業(yè)企業(yè)經(jīng)濟(jì)效益進(jìn)行分析,一般不是逐個省市自治區(qū)去分析,而是選取能反映企業(yè)經(jīng)濟(jì)效益的代表性指標(biāo),如“百元固定資產(chǎn)實現(xiàn)利稅”、“資金利稅率”、“產(chǎn)值利稅率”、“百元銷售收入實現(xiàn)利潤”、“全員勞動生產(chǎn)率”等。根據(jù)這些指標(biāo),對30個省市自治區(qū)進(jìn)行分類,然后根據(jù)分類結(jié)果對企業(yè)經(jīng)濟(jì)效益進(jìn)行綜合評價,就易于得出科學(xué)的分析。 若對某些大城市的物價指數(shù)進(jìn)行考察,

19、由于物價指數(shù)很多,有農(nóng)用生產(chǎn)物價指數(shù)、服務(wù)項目物價指數(shù)、食品消費(fèi)物價指數(shù)、建材零售價格指數(shù)等,通常需要先對這些指數(shù)分類。,整體分析與設(shè)計的內(nèi)容,聚類分析,一、方法原理,1.聚類分析的分類 根據(jù)分類對象的不同可分為樣品聚類和變量聚類: 樣品聚類 在統(tǒng)計學(xué)中又稱為Q型聚類。用SPSS的術(shù)語來說就是對個案(Case)進(jìn)行聚類或是說對觀測量進(jìn)行聚類。它是根據(jù)被觀測對象的各種特征進(jìn)行分類的,即根據(jù)反映被觀測對象的特征的各變量值進(jìn)行分類。 變量聚類 在統(tǒng)計學(xué)中又稱為R型聚類。反映同一事物特點(diǎn)的變量有很多,我們往往根據(jù)所研究的問題選擇部分變量對事物的某一方面進(jìn)行研究。由于人類對客觀事物的認(rèn)識是有限的,往往難

20、以找出彼此獨(dú)立的有代表性的變量,從而影響對問題的進(jìn)一步認(rèn)識和研究。例如,在回歸分析中,由于自變量的共線性導(dǎo)致偏回歸系數(shù)不能真正反映自變量對因變量的影響等,因此往往先要進(jìn)行變量聚類,找出彼此獨(dú)立且具有代表性的自變量,而又不丟失大部分信息。 聚類分析和其他方法聯(lián)合起來使用(如判別分析、主成份分析、回歸分 析等),往往效果更好。,整體分析與設(shè)計的內(nèi)容,聚類分析,一、方法原理,2.距離和相似系數(shù) 為了將樣品(或指標(biāo))進(jìn)行分類,就需要研究樣品之間的關(guān)系。目前使用最多的方法有兩種: 1)相似系數(shù):性質(zhì)越接近的樣品,它們的相似系數(shù)的絕對值越接近1;而彼此無關(guān)的樣品,它們的相似系數(shù)的絕對值越接近0.把比較相似

21、的樣品歸為一類,不相似的樣品歸為不同的類。 2)距離:把樣品看作P緯空間的一個點(diǎn),并在空間中定義距離,距離越近的點(diǎn)歸為一類,距離較遠(yuǎn)的點(diǎn)歸為不同的類。,相似系數(shù)和距離有各種各樣的定義,這些定義與變量的類型關(guān)系極大。有時候選擇不同的距離和相似系數(shù)可能會得到不同的聚類分析結(jié)果,因此要結(jié)合問題的實際意義,進(jìn)行詳細(xì)的分析,不可盲目輕信結(jié)果。,整體分析與設(shè)計的內(nèi)容,聚類分析,一、方法原理,3.距離分類 如果把n個樣品看成p緯空間中的n個點(diǎn),則兩個樣品間相似程度可以用p緯空間中兩點(diǎn)的距離來度量。常用的距離如下: 明氏(Minkowski)距離,當(dāng)各變量的測量值相差懸殊時,用明氏距離并不合理,常需要先對數(shù)據(jù)

22、做標(biāo)準(zhǔn)化,然后用標(biāo)準(zhǔn)化后的數(shù)據(jù)計算距離。,整體分析與設(shè)計的內(nèi)容,聚類分析,一、方法原理,3.距離分類 馬氏(Mahalanobis)距離 馬氏距離既排除了各指標(biāo)之間的相關(guān)性干擾,而且還不受各指標(biāo)量綱的影響。 蘭氏(Canberra)距離 蘭氏距離適用于xij0的情況,這個距離有助于克服各指標(biāo)之間量綱的影響,但沒有考慮指標(biāo)間的相關(guān)性。,4.相似系數(shù) 夾角余弦 將任何兩個樣品Xi與Xj看成p緯空間的兩個向量,這兩個向量的夾角余弦可表達(dá)為:,取值1,說明兩樣品完全相似;接近1,說明兩樣品相似密切;取值0,說明兩樣品完全不相似;接近0,說明兩樣品差別大。,整體分析與設(shè)計的內(nèi)容,聚類分析,一、方法原理,

23、4.相似系數(shù) 相關(guān)系數(shù),聚類分析的內(nèi)容非常豐富:有序樣品聚類法、動態(tài)聚類法、模糊聚類法、 快速聚類法、系統(tǒng)聚類法等。,整體分析與設(shè)計的內(nèi)容,聚類分析,二、快速聚類法,1. 算法原理 K-均值聚類法又叫快速聚類法,可用于大量數(shù)據(jù)進(jìn)行聚類分析的情形。 它是一種非分層的聚類方法,具有占用內(nèi)存少、計算量大、處理速度 快,特別適合大樣本的聚類分析。 其具體操作步驟為: 指定聚類數(shù)目k(由用戶指定) 確定k個初始類的中心(用戶指定;或根據(jù)數(shù)據(jù)本身結(jié)構(gòu)的中心來確 定) 根據(jù)距離最近原則進(jìn)行分類。(逐一計算每一記錄到各個中心點(diǎn)的距離,把各個記錄按照距離最近的原則歸入各個類別,并計算新形成類別的中心點(diǎn)) 按照新

24、的中心位置,重新計算每一個記錄距離新的類別中心點(diǎn)的距離,并重新進(jìn)行歸類 重復(fù)步驟(4),直到達(dá)到一定的收斂標(biāo)準(zhǔn),整體分析與設(shè)計的內(nèi)容,聚類分析,二、快速聚類法,2.案例背景介紹 全國人口文化程度分析 深入了解全國人口的文化程度狀況,是很有意義的一項工作。 本節(jié)的數(shù)據(jù)文件給出了1990年全國人口普查數(shù)據(jù)。 數(shù)據(jù)中,有三個指標(biāo):大學(xué)以上文化程度的人口比例、初中文化程度的人口比例、文盲半文盲的人口比例。過這些指標(biāo)和具體的數(shù)據(jù),來分析省市地區(qū)之間文化程度的差異。 這是一個典型的多元分析問題,可以考慮利用快速聚類法來分析研究省市之間的差異性。,整體分析與設(shè)計的內(nèi)容,聚類分析,二、快速聚類法,3.操作說明

25、 數(shù)據(jù)文件:“全國人口文化程度.sav” 菜單:“分析分類K-均值聚類”,輸入分類個數(shù),系統(tǒng)默認(rèn)為2. 本例子中,輸入4.,系統(tǒng)默認(rèn)項.選擇初始類中心,在迭代的過程中不斷更新聚類中心。把觀測量分派到與之最近的以類中心為標(biāo)志的類中去。,只使用初始類中心對觀測量進(jìn)行分類,聚類中心始終不變。,用戶可以指定外部文件或數(shù)據(jù)作為初始聚類中心點(diǎn);也可以將聚類分析中心結(jié)果輸出到指定文件或數(shù)據(jù)集中。 小技巧:對于大數(shù)據(jù)集,可以先用小樣本,迭代聚類,并通過該選項組將中心結(jié)果保存到文件或記錄集;再通過讀取的方式,獲得該中心,選擇“僅分類”來處理大樣本數(shù)據(jù)。,整體分析與設(shè)計的內(nèi)容,聚類分析,二、快速聚類法,3.操作說

26、明 1)“迭代”按鈕:,輸入迭代次數(shù)。文本框可輸入范圍:1999,輸入算法收斂標(biāo)準(zhǔn),其實就是算法的精度。該文本框輸入數(shù)值是不得超過1的正數(shù)。例如,輸入0.02,則表示兩次迭代計算的最小的類中心的變化距離小于初始類中心距離的2%時,迭代停止。,選擇該復(fù)選框,在每個觀測量被分配到一類后,立刻計算新的類中心;若不選該復(fù)選框,則完成所有的觀測量的一次分配后,再計算各類的中心,此時可節(jié)省迭代時間。,2)“保存”按鈕:,在數(shù)據(jù)集中生成名為qcl_1的新變量。其值表示聚類結(jié)果,即各觀測量被分配到哪一類。其取值可為1、2、3等。,在數(shù)據(jù)集中生成名為qcl_2的新變量。其值表示各觀測量與所屬類中心的歐氏距離。,

27、整體分析與設(shè)計的內(nèi)容,聚類分析,二、快速聚類法,3.操作說明 3)“選項”按鈕:,整體分析與設(shè)計的內(nèi)容,聚類分析,二、快速聚類法,4.輸出分析 1)初始中心表,2)迭代歷史表,初始中心間的最小距離為13.128,整體分析與設(shè)計的內(nèi)容,聚類分析,二、快速聚類法,4.輸出分析 3)分析結(jié)果列表,列出了4類地區(qū),整體分析與設(shè)計的內(nèi)容,聚類分析,二、快速聚類法,4.輸出分析 4)最終聚類分析中心表,5)最終聚類中心位置之間的距離,與初始中心比,變化很大,第一類和第二類之間的距離最大;第一類和第三類之間的距離最短。,整體分析與設(shè)計的內(nèi)容,聚類分析,二、快速聚類法,4.輸出分析 6)方差分析表,組間均方,

28、組間自由度,組內(nèi)均方,組內(nèi)自由度,7)聚類數(shù)目匯總表,整體分析與設(shè)計的內(nèi)容,聚類分析,三、系統(tǒng)聚類法,1. 算法原理 又稱為層次聚類法或分層聚類法。 1)對研究對象本身進(jìn)行分類,稱為Q型聚類;對研究對象的觀察指標(biāo) 進(jìn)行分類,稱為R聚類。,2)根據(jù)聚類過程的不同,又分為分解法和凝聚法。 分解法:開始把所有個體(觀測量或變量)都視為同屬一大類,再根據(jù)距離和相似性逐層分解,直到參與聚類的每個個體自成一類為止。 凝聚法:開始把參與聚類的每個個體(觀測量或變量)視為一類,根據(jù)兩類之間的距離或相似性逐步合并,直到合并為一個大類為止。,系統(tǒng)聚類的距離公式有多種,常用的是“組間平均距離法”。,整體分析與設(shè)計的

29、內(nèi)容,聚類分析,三、系統(tǒng)聚類法,2. 案例背景 要求:不同地區(qū)信息基礎(chǔ)設(shè)施發(fā)展?fàn)顩r的評價。,數(shù)據(jù)文件中給出了世界不同地區(qū)信息基礎(chǔ)設(shè)施的發(fā)展?fàn)顩r。這里選取了發(fā)達(dá)地區(qū)、新興工業(yè)化地區(qū)、拉美地區(qū)。亞洲發(fā)展中地區(qū)、轉(zhuǎn)型地區(qū)等不同類型的20個地區(qū)的數(shù)據(jù)。 描述信息基礎(chǔ)設(shè)施的變量主要有6個,分別為: Call:每千人擁有電話線數(shù) Movecall:每千房居民移動電話數(shù) Fee:高峰時期每三分鐘國際電話的成本 Computer:每千人擁有的計算機(jī)數(shù) Mips:每千人中計算機(jī)功率(每秒百萬指令) Net:每千人互聯(lián)網(wǎng)絡(luò)戶主數(shù) 根據(jù)這6個變量指標(biāo)來分析地區(qū)之間的信息基礎(chǔ)設(shè)施發(fā)展的差異,可采用系統(tǒng)聚類法.,整體分

30、析與設(shè)計的內(nèi)容,聚類分析,三、系統(tǒng)聚類法,3. 操作 數(shù)據(jù)文件:”不同地區(qū)信息基礎(chǔ)設(shè)施發(fā)展?fàn)顩r的評價.sav” 菜單:“分析分類系統(tǒng)聚類”,即Q型聚類,即R型聚類,整體分析與設(shè)計的內(nèi)容,聚類分析,三、系統(tǒng)聚類法,3. 操作 1)“統(tǒng)計量”按鈕:,輸出顯示聚類過程中每一步合并的類或觀測量,反映聚類過程中每一步樣品或類的合并過程。,輸出相似矩陣或不相似矩陣,及其更具體的類別,取決于“方法”按鈕對應(yīng)的對話框中的設(shè)置。,輸入大于1的整數(shù)。例如,輸入“2”,在結(jié)果窗口將顯示輸出聚為2類的分析結(jié)果。,輸入大于1的整數(shù)。表述輸出樣本或變量的分類數(shù)從最小值到最大值的各種分類聚類表。最大類數(shù)值不能大于參與聚類的

31、樣本數(shù)或變量總數(shù)。,整體分析與設(shè)計的內(nèi)容,聚類分析,三、系統(tǒng)聚類法,3. 操作 2)“繪制”按鈕:,輸入文本框的必須是正整數(shù)。分別是起、止步驟以及步長。例如,輸入3、9、2,則生成的冰柱圖則從第3步開始,顯示第3、5、7、9步的聚類情況。 注意:“排序標(biāo)準(zhǔn)”標(biāo)簽文字翻譯的不對,應(yīng)該是“步長”才準(zhǔn)確。,冰柱圖的顯示方向。,整體分析與設(shè)計的內(nèi)容,聚類分析,三、系統(tǒng)聚類法,3. 操作 3)“方法”按鈕:,該方法合并兩類的依據(jù)是使這兩個類別里所有兩兩配對觀測量的平均距離最小。,該方法合并兩類的依據(jù)是使兩個類別合并后的新類中,觀測量的平均距離最小。,離差平方和。聚類使得類內(nèi)各樣本的離差平方和最小;類間的

32、離差平方和盡可能大。,適合于等間隔測度的連續(xù)性變量。下拉列表中可選擇距離測度方法。,適合于字?jǐn)?shù)變量(離散變量),下拉列表中可選擇不相似性測度的方法。,選擇標(biāo)準(zhǔn)化方法。,把相似性值變?yōu)椴幌嗨菩曰蛳喾?整體分析與設(shè)計的內(nèi)容,聚類分析,三、系統(tǒng)聚類法,3. 操作 4)“保存”按鈕:,保存指定聚類個數(shù)時的分類結(jié)果。文本框的值必須是大于1的正數(shù),且小于等于參與聚類的觀測量個數(shù)和變量個數(shù)。,文本框中輸入最小聚類數(shù)目和最大聚類數(shù)目,表示分別生成樣本或變量的分類數(shù)從最小值到最大值的各種分類聚類變量。例如,輸入“4”和“6”,表示在聚類結(jié)束后,在原數(shù)據(jù)集中將會增加3個變量,分別表明分為4類、5類和6類時的聚類結(jié)

33、果,即分別為4、5、6類時各分析對象分別屬于哪一類。,整體分析與設(shè)計的內(nèi)容,聚類分析,三、系統(tǒng)聚類法,4. 輸出分析 1)聚類過程表,步驟序號,第二列和第三列,給出了某一步驟中哪些地區(qū)參與了合并。例如,第一步中,第十個樣品和第十二個樣品,首先被合并在一起。,每一步的聚類系數(shù)。可根據(jù)這個系數(shù)來判斷數(shù)據(jù)應(yīng)該被分為多少類,當(dāng)兩個相鄰步驟的系數(shù)變化遠(yuǎn)大于前面相鄰步驟變化時,即可大致確定應(yīng)該將聚類過程進(jìn)行到哪里的類別數(shù)是較為合適的。(主要是參考作用),第五列和第六列,表示參與合并的類是在第幾步第一次出現(xiàn)。0代表該記錄是第一次出現(xiàn)在聚類過程中。,標(biāo)識出:該步驟合并的類別,下一次將在第幾步中出現(xiàn),與其他類再

34、進(jìn)行合并。,整體分析與設(shè)計的內(nèi)容,聚類分析,三、系統(tǒng)聚類法,4. 輸出分析,2)聚類分析結(jié)果表,3)樹形圖,聚類結(jié)果分兩類。 其中,第一類是轉(zhuǎn)型地區(qū)和亞洲、拉美發(fā)展中地區(qū),這些區(qū)域經(jīng)濟(jì)不發(fā)達(dá),基礎(chǔ)設(shè)施薄弱;第二類主要是美、日、歐洲發(fā)達(dá)地區(qū)與新興工業(yè)化地區(qū),如中國臺灣、新加坡、韓國等,信息基礎(chǔ)設(shè)施較好。 其中,美國、瑞典、丹麥的信息基礎(chǔ)設(shè)施發(fā)展最為良好。,整體分析與設(shè)計的內(nèi)容,判別分析,一、方法原理,判別分析是判別樣品所屬類型的一種統(tǒng)計方法,其應(yīng)用也非常廣泛。 在生產(chǎn)、科研和日常生活中,經(jīng)常需要根據(jù)觀測到的數(shù)據(jù)資料,對所研究的對象進(jìn)行分類。 例如,在經(jīng)濟(jì)學(xué)中,根據(jù)人均國民收入、人均工農(nóng)業(yè)產(chǎn)值、人

35、均消費(fèi)水平等多種指標(biāo)來判定一個國家的經(jīng)濟(jì)發(fā)展程度所屬類型;在市場預(yù)測中,根據(jù)以往調(diào)查所得的種種指標(biāo),判別下季度產(chǎn)品是否暢銷、平?;驕N??傊?,在實際問題中需要判別的問題幾乎到處可見。,判別分析和聚類分析不同。 判別分析是在已知研究對象分成若干類型(或組別),并已取得各種類型的一批已知樣品的觀測數(shù)據(jù),在此基礎(chǔ)上根據(jù)某些準(zhǔn)則建立判別式,然后來對未知類型的樣品進(jìn)行判別分類。 聚類分析,一批給定樣品要劃分的類型事先并不知道,需要通過聚類分析以確定類型。 判別分析和聚類分析常聯(lián)合使用。先聚類分析,再用判別分析建立判別式。,整體分析與設(shè)計的內(nèi)容,判別分析,一、方法原理,判別分析的分類: 1)按組數(shù):兩組判

36、別分析和多組判別分析 2)按總體所用的數(shù)學(xué)模型不同:線性判別和非線性判別 3)按處理變量的方法不同:逐步判別和序貫判別 判別方法介紹 距離判別分析,是一種常見的判別分析法。其基本思想是:首先根據(jù)已知分類的數(shù)據(jù)計算各類的中心(即類的均值),若樣品與第i類的中心距離最近,就認(rèn)為該樣品來自第i類。 例如,兩個總體的距離判別法中,設(shè)有兩個總體G1、G2,從第一個總體中抽取n1個樣品,從第二個總體抽取n2個樣品,每個樣品測量p個指標(biāo)?,F(xiàn)任取一個樣品,來判斷X該歸哪一類?,X到G1的距離,X到G2的距離,整體分析與設(shè)計的內(nèi)容,判別分析,二、操作,數(shù)據(jù)文件:“省市地區(qū)經(jīng)濟(jì)增長差異.sav” 菜單:“分析分類

37、判別”,選擇離散型變量作為分類變量.然后在”定義范圍”中輸入分類變量的數(shù)值范圍.,當(dāng)所有自變量都能對觀測量特性提供豐富的信息時,選擇該選項.,采用逐步判別法作判別分析.點(diǎn)選該按鈕,界面右側(cè)的”方法”按鈕將被激活,可以進(jìn)一步選擇判別分析方法.,整體分析與設(shè)計的內(nèi)容,判別分析,二、操作,1)”統(tǒng)計量”按鈕,對各類協(xié)方差矩陣相等的假設(shè)進(jìn)行檢驗。,對每一類給出一組系數(shù),并給出該組中判別分?jǐn)?shù)最大的觀測量。,整體分析與設(shè)計的內(nèi)容,判別分析,二、操作,2)”方法”按鈕,每步都選擇Wilk 的lambda統(tǒng)計量最小的變量加入判別函數(shù)。,選擇未解釋方差和最小變量加入判別函數(shù)。,每步都選擇靠的最近的兩類間的馬氏距離的變量加入判別函數(shù)中。,每步都選擇任何兩類間的“最小F值”達(dá)到最大的變量加入判別函數(shù)中。,每步都選擇使V統(tǒng)計量產(chǎn)生最大增量的變量加入判別函數(shù)。(在文本框中輸入數(shù)值,當(dāng)某變量導(dǎo)致的V值增量大于該數(shù)時,此變量就進(jìn)入判別函數(shù)。),用于設(shè)置逐步判別過程中保留或刪除變量的準(zhǔn)則。,當(dāng)變量的F值大于文本框中的數(shù)值時,保留該變量。,當(dāng)變量的F值小于文本框中的數(shù)值時,刪除該變量。,與F值類似,只是換成了F檢驗概率。,顯示每步選擇變量之后各變量的統(tǒng)計量結(jié)果。,顯示兩類之間的F比值矩陣。,整體分析與設(shè)計的內(nèi)容,判別分析,二、操作,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論