多元分析數(shù)模_第1頁
多元分析數(shù)模_第2頁
多元分析數(shù)模_第3頁
多元分析數(shù)模_第4頁
多元分析數(shù)模_第5頁
已閱讀5頁,還剩128頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第1頁,課件共133頁,創(chuàng)作于2023年2月1、多元線性回歸模型及實例2、多元線性回歸模型的顯著性檢驗3、多元線性回歸模型的診斷4、非線性回歸一、多元回歸分析第2頁,課件共133頁,創(chuàng)作于2023年2月

1、多元線性回歸模型

一個因變量與兩個及兩個以上自變量的回歸。描述因變量y如何依賴于自變量x1,x2,…,xp

和誤差項

的方程,稱為多元回歸模型。涉及k個自變量的多元回歸模型可表示為:

b0

,b1,b2

,,bp是參數(shù);

是被稱為誤差項的隨機變量;y是x1,,x2

,,xp

的線性函數(shù)加上誤差項;

包含在y里面但不能被p個自變量的線性關系所解釋的變異性。第3頁,課件共133頁,創(chuàng)作于2023年2月多元線性回歸模型

(基本假定)1.解釋變量x1,x2,…,xp是確定性變量.不是隨機變量,且要求樣本容量的個數(shù)應大于解釋變量的個數(shù)。2.誤差項ε是一個期望值為0的隨機變量,即E()=0。3.對于自變量x1,x2,…,xp的所有值,的方差2都相同。4.誤差項ε是一個服從正態(tài)分布的隨機變量,即ε~N(0,2),且相互獨立。第4頁,課件共133頁,創(chuàng)作于2023年2月二元線性回歸方程的直觀解釋二元線性回歸模型(觀察到的y)回歸面0ix1yx2(x1,x2)}第5頁,課件共133頁,創(chuàng)作于2023年2月

多元線性回歸方程的參數(shù)估計

用樣本統(tǒng)計量估計回歸方程中的參數(shù)

時得到的方程。由最小二乘法求得。一般形式為是的估計值;是y的估計值。第6頁,課件共133頁,創(chuàng)作于2023年2月參數(shù)的最小二乘法求解各回歸參數(shù)的標準方程如下使因變量的觀察值與估計值之間的離差平方和達到最小來求得

。即第7頁,課件共133頁,創(chuàng)作于2023年2月參數(shù)的最小二乘法

(例題分析)例1生產(chǎn)總值是衡量一個國家地區(qū)經(jīng)濟發(fā)展的重要指標,影響一個國家或地區(qū)生產(chǎn)總值的因素包括資本、資源、科技、勞動力、進出口、國家基礎設施建設等方面的因素。本例研究財政支出對生產(chǎn)總值的影響?!吨袊y(tǒng)計年鑒》把財政支出劃分為31個組成部分,本例只選取其中的13個重要支出項。第8頁,課件共133頁,創(chuàng)作于2023年2月回歸系數(shù)表用spss軟件計算的回歸系數(shù)如下:第9頁,課件共133頁,創(chuàng)作于2023年2月

需要注意的是,這一回歸方程并不理想,回歸系數(shù)的經(jīng)濟意義不好解釋,這里只是作為多元線性回歸參數(shù)估計的一例,后邊我們還要進一步完善這一模型的建立。第10頁,課件共133頁,創(chuàng)作于2023年2月2、回歸方程顯著性檢驗檢驗因變量與所有自變量之間的線性關系是否顯著;也被稱為總體的顯著性檢驗。檢驗方法是將回歸均方(MSR)同殘差均方(MSE)加以比較,應用F檢驗來分析二者之間的差別是否顯著如果是顯著的,因變量與自變量之間存在線性關系;如果不顯著,因變量與自變量之間不存在線性關系。第11頁,課件共133頁,創(chuàng)作于2023年2月線性關系檢驗提出假設H0:12p=0線性關系不顯著H1:1,2,p至少有一個不等于02.計算檢驗統(tǒng)計量F確定顯著性水平和分子自由度k、分母自由度n-k-1找出臨界值F

4.作出決策:若F>F

,拒絕H0第12頁,課件共133頁,創(chuàng)作于2023年2月表中的Sig即為顯著性P值,由P值=0.000(近似值)可知回歸方程十分顯著。即可以以99.9%以上的概率斷言自變量所有自變量全體對因變量產(chǎn)生顯著線性影響。對例1回歸方程的檢驗:

第13頁,課件共133頁,創(chuàng)作于2023年2月回歸系數(shù)顯著性檢驗線性關系檢驗通過后,對各個回歸系數(shù)有選擇地進行一次或多次檢驗對每一個自變量都要單獨進行檢驗應用t檢驗統(tǒng)計量第14頁,課件共133頁,創(chuàng)作于2023年2月回歸系數(shù)的檢驗步驟提出假設H0:bi=0(自變量xi

因變量y沒有線性關系)H1:bi

0(自變量xi

因變量y有線性關系)計算檢驗的統(tǒng)計量t確定顯著性水平,并進行決策t>t,拒絕H0;t<t,不拒絕H0第15頁,課件共133頁,創(chuàng)作于2023年2月回歸系數(shù)的推斷

(置信區(qū)間)回歸系數(shù)在(1-)%置信水平下的置信區(qū)間為

回歸系數(shù)的抽樣標準差第16頁,課件共133頁,創(chuàng)作于2023年2月例4.1spss計算出的t值和P值對回歸系數(shù)的檢驗:第17頁,課件共133頁,創(chuàng)作于2023年2月結果發(fā)現(xiàn):

并不是所有的自變量單獨對因變量都有顯著性影響,最大的P值為0.926>0.05,在取顯著性水平a=0.05時通不過顯著性檢驗。這個例子說明:盡管回歸方程通過了顯著性檢驗,但也會出現(xiàn)某些單個自變量(甚至每一個)對因變量并不顯著的情況。由于某些自變量不顯著,因而在多元回歸中并不是包含在回歸方程中的自變量越多越好。第18頁,課件共133頁,創(chuàng)作于2023年2月在此介紹一種剔除多余自變量的方法剔除x3科技三項費后:第19頁,課件共133頁,創(chuàng)作于2023年2月剔除x6工交部門事業(yè)費后:第20頁,課件共133頁,創(chuàng)作于2023年2月依次剔除,最終只保留x1,x2,x4,x8,x10,x11,x12,x13,其回歸系數(shù)見下表:第21頁,課件共133頁,創(chuàng)作于2023年2月多元線性回歸分析操作(一)基本操作步驟(1)菜單選項:analyze->regression->linear…(2)選擇一個變量為因變量進入dependent框(3)選擇一個或多個變量為自變量進入independent框(4)選擇多元回歸分析的自變量篩選方法:enter:所選變量全部進入回歸方程(默認方法)remove:從回歸方程中剔除變量stepwise:逐步篩選;backward:向后篩選;forward:向前篩選(5)對樣本進行篩選(selectionvariable)利用滿足一定條件的樣本數(shù)據(jù)進行回歸分析(6)指定作圖時各數(shù)據(jù)點的標志變量(caselabels)第22頁,課件共133頁,創(chuàng)作于2023年2月多元線性回歸分析操作(二)statistics選項(1)基本統(tǒng)計量輸出Partandpartialcorrelation:與Y的簡單相關、偏相關和部分相關Rsquarechange:每個自變量進入方程后R2及F值的變化量Collinearitydignostics:共線性診斷.第23頁,課件共133頁,創(chuàng)作于2023年2月多元線性回歸分析操作例2某醫(yī)生為了探討缺碘地區(qū)母嬰TSH水平的關系,隨機抽取10對數(shù)據(jù)如下,試求臍帶血TSH水平y(tǒng)對母血TSH水平x的直線回歸方程。第24頁,課件共133頁,創(chuàng)作于2023年2月第25頁,課件共133頁,創(chuàng)作于2023年2月Analyze

→Regression→Linear…

檢驗步驟第26頁,課件共133頁,創(chuàng)作于2023年2月LinearRegression對話框應變量自變量計算統(tǒng)計量第27頁,課件共133頁,創(chuàng)作于2023年2月Statistics對話框回歸系數(shù)估計回歸系數(shù)可信區(qū)間模型檢驗統(tǒng)計描述第28頁,課件共133頁,創(chuàng)作于2023年2月點擊“OK”,運行結果第29頁,課件共133頁,創(chuàng)作于2023年2月結果輸出第30頁,課件共133頁,創(chuàng)作于2023年2月統(tǒng)計描述第31頁,課件共133頁,創(chuàng)作于2023年2月相關系數(shù)及假設檢驗結果P值相關系數(shù)第32頁,課件共133頁,創(chuàng)作于2023年2月相關系數(shù)及決定系數(shù)R值=相關系數(shù)R的平方修正的R方第33頁,課件共133頁,創(chuàng)作于2023年2月回歸方程的方差分析回歸平方和剩余平方和自由度均方F值P值第34頁,課件共133頁,創(chuàng)作于2023年2月回歸系數(shù)及其統(tǒng)計推斷結果標準化系數(shù)是指把原始數(shù)據(jù)進行標準化處理之后回歸的結果。此時回歸方程中常數(shù)項為零。第35頁,課件共133頁,創(chuàng)作于2023年2月回歸系數(shù)及其統(tǒng)計推斷結果常數(shù)項自變量非標準化回歸系數(shù)標準化回歸系數(shù)a值b值第36頁,課件共133頁,創(chuàng)作于2023年2月回歸系數(shù)及其統(tǒng)計推斷結果t值P值回歸系數(shù)可信區(qū)間第37頁,課件共133頁,創(chuàng)作于2023年2月3、多元線性回歸模型的診斷異方差性自相關性多重共線性第38頁,課件共133頁,創(chuàng)作于2023年2月異方差性產(chǎn)生的原因:

,當時。例:在研究城鎮(zhèn)居民收入與購買量的關系時,我們知道居民收入與消費水平有著密切的關系,用表示第i戶的收入量,表示第i戶的消費額,則簡單的消費模型為

在此問題中,由于各戶的收入不同,消費觀念和習慣的差異,通常存在明顯的差異性。一般情況下,低收入家庭購買差異比較小,而高收入家庭購買差異相對較大。第39頁,課件共133頁,創(chuàng)作于2023年2月異方差性當存在異方差時,普通最小二乘法存在以下問題★參數(shù)估計值雖是無偏的,但不是最小方差線性無偏估計;★參數(shù)的顯著性檢驗失效;★回歸方程的應用效果極不理想。診斷方法:★殘差圖分析法:直觀、方便。以殘差為縱坐標,其它適宜變量(如擬合值、自變量或觀測時間等)為橫坐標畫散點圖。如點的散布是隨機的,則滿足基本假定;如散布有規(guī)律性,存在異方差。★等級相關系數(shù)法(Spearman檢驗):廣泛。三步驟:

第40頁,課件共133頁,創(chuàng)作于2023年2月異方差性第一步:作y關于x的普通最小二乘回歸,求出的估計值,即第二步:取的絕對值,把和按遞增或遞減的次序排列分成等級,按下式計算出等級相關系數(shù)其中n為樣本容量,為等級的差數(shù)。第三步:做等級相關系數(shù)的顯著性檢驗。在n>8的情況下,檢驗統(tǒng)計量為如果,存在異方差。第41頁,課件共133頁,創(chuàng)作于2023年2月異方差性消除異方差的方法:

加權最小二乘法(最常用)

Box- Cox變換法方差穩(wěn)定性變換法第42頁,課件共133頁,創(chuàng)作于2023年2月自相關性產(chǎn)生的原因:1、遺漏關鍵變量;2、經(jīng)濟變量的滯后性;3、采用錯誤的回歸函數(shù)形式;4、蛛網(wǎng)現(xiàn)象;5、對數(shù)據(jù)加工整理。第43頁,課件共133頁,創(chuàng)作于2023年2月自相關性診斷方法:★圖示檢驗法★自相關系數(shù)法再用DW檢驗。第44頁,課件共133頁,創(chuàng)作于2023年2月自相關性消除自相關的方法:

迭代法差分法第45頁,課件共133頁,創(chuàng)作于2023年2月多重共線性診斷方法:★方差擴大因子法

SPSS:在線性回歸對話框的Statitics選項框中點選

CollinearityDiagnostic共線性診斷選項,然后作回歸。★特征根判定法★直觀判定法:如增加或剔除一個自變量時,回歸系數(shù)的估計值發(fā)生較大變化;定性分析的重要自變量在回歸方程中沒有通過顯著性檢驗;重要自變量的回歸系數(shù)的標準誤差較大等。消除方法:

1、剔除一些不重要的解釋變量2、增大樣本容量

3、回歸系數(shù)的有偏估計第46頁,課件共133頁,創(chuàng)作于2023年2月非線性回歸非線性回歸模型參數(shù)估計:非線性最小二乘估計SPSS操作步驟:

1、散點圖,確定非線性關系

2、Regression菜單下點選Nonlinear,進入非線性回歸對話框。

第47頁,課件共133頁,創(chuàng)作于2023年2月本章結束第48頁,課件共133頁,創(chuàng)作于2023年2月2、聚類分析第49頁,課件共133頁,創(chuàng)作于2023年2月分類俗語說,物以類聚、人以群分。但什么是分類的根據(jù)呢?比如,要想把中國的縣分成若干類,就有很多種分類法,可以按照自然條件來分,比如考慮降水、土地、日照、濕度等各方面;也可以考慮收入、教育水準、醫(yī)療條件、基礎設施等指標;既可以用某一項來分類,也可以同時考慮多項指標來分類。

第50頁,課件共133頁,創(chuàng)作于2023年2月聚類分析對于一個數(shù)據(jù),人們既可以對變量(指標)進行分類(相當于對數(shù)據(jù)中的列分類),也可以對觀測值(事件,樣品)來分類(相當于對數(shù)據(jù)中的行分類)。比如學生成績數(shù)據(jù)就可以對學生按照理科或文科成績(或者綜合考慮各科成績)分類,當然,并不一定事先假定有多少類,完全可以按照數(shù)據(jù)本身的規(guī)律來分類。本章要介紹的分類的方法稱為聚類分析(clusteranalysis)。對變量的聚類稱為R型聚類,而對觀測值聚類稱為Q型聚類。這兩種聚類在數(shù)學上是對稱的,沒有什么不同。第51頁,課件共133頁,創(chuàng)作于2023年2月如何度量遠近?如果想要對100個學生進行分類,如果僅僅知道他們的數(shù)學成績,則只好按照數(shù)學成績來分類;這些成績在直線上形成100個點。這樣就可以把接近的點放到一類。如果還知道他們的物理成績,這樣數(shù)學和物理成績就形成二維平面上的100個點,也可以按照距離遠近來分類。三維或者更高維的情況也是類似;只不過三維以上的圖形無法直觀地畫出來而已。在飲料數(shù)據(jù)中,每種飲料都有四個變量值。這就是四維空間點的問題了。第52頁,課件共133頁,創(chuàng)作于2023年2月兩個距離概念按照遠近程度來聚類需要明確兩個概念:一個是點和點之間的距離,一個是類和類之間的距離。點間距離有很多定義方式。最簡單的是歐氏距離,還有其他的距離。由一個點組成的類是最基本的類;如果每一類都由一個點組成,那么點間的距離就是類間距離。但是如果某一類包含不止一個點,那么就要確定類間距離,類間距離是基于點間距離定義的:比如兩類之間最近點之間的距離可以作為這兩類之間的距離,也可以用兩類中最遠點之間的距離作為這兩類之間的距離;當然也可以用各類的中心之間的距離來作為類間距離。在計算時,各種點間距離和類間距離的選擇是通過統(tǒng)計軟件的選項實現(xiàn)的。不同的選擇的結果會不同,但一般不會差太多。第53頁,課件共133頁,創(chuàng)作于2023年2月:平方歐氏距離:Block(絕對距離):Si|xi-yi|Minkowski距離:當變量的測量值相差懸殊時,要先進行標準化.如R為極差,s為標準差,則標準化的數(shù)據(jù)為每個觀測值減去均值后再除以R或s.當觀測值大于0時,有人采用Lance距離歐氏距離距離公式第54頁,課件共133頁,創(chuàng)作于2023年2月最短距離法:最長距離法:重心法:離差平方和:(Wald)類平均法:類間距離第55頁,課件共133頁,創(chuàng)作于2023年2月聚類分析的實質就是按照距離的遠近將數(shù)據(jù)分為若干個類型,以使得類別內(nèi)數(shù)據(jù)的“差異”盡可能小,類別間“差異”盡可能大。如何描述“差異”?通常的做法是通過距離和相似性的方式來描述。聚類分析第56頁,課件共133頁,創(chuàng)作于2023年2月1、層次聚類法:根據(jù)定義的距離把距離接近的數(shù)據(jù)一步一步歸為一類直到數(shù)據(jù)完全歸為一類,最后再利用一些相應的指標來確定聚為幾類是合適的。樹狀圖是層次聚類法結果解釋的重要工具。Analyze—Classify—HierarchicalCluster

事先不用確定分多少類層次聚類法第57頁,課件共133頁,創(chuàng)作于2023年2月2、非層次聚類法:給定類別個數(shù)將案例快速的分為K類,然后使用迭代的方式把數(shù)據(jù)在不同類別之間移動,直到達到一定的標準為止。K-均值聚類法為主Analyze—Classify—K-MeansCluster

事先要確定分多少類非層次聚類法第58頁,課件共133頁,創(chuàng)作于2023年2月層次聚類法的優(yōu)點:

1、變量可以是連續(xù)的,也可以是分類變量;

2、提供的距離測量方法也非常豐富;缺點:由于每合并一次就要計算一次距離,故運算速度較慢。優(yōu)缺點

第59頁,課件共133頁,創(chuàng)作于2023年2月一、在SPSS中利用系統(tǒng)聚類法進行

聚類分析設有20個土壤樣品分別對5個變量的觀測數(shù)據(jù)如表5.16所示,試利用系統(tǒng)聚類法對其進行樣品聚類分析。表5.16土壤樣本的觀測數(shù)據(jù)第60頁,課件共133頁,創(chuàng)作于2023年2月第61頁,課件共133頁,創(chuàng)作于2023年2月

(一)操作步驟 1.在SPSS窗口中選擇Analyze→Classify→HierachicalCluster,調(diào)出系統(tǒng)聚類分析主界面,并將變量X1~X5移入Variables框中。在Cluster欄中選擇Cases單選按鈕,即對樣品進行聚類(若選擇Variables,則對變量進行聚類)。在Display欄中選擇Statistics和Plots復選框,這樣在結果輸出窗口中可以同時得到聚類結果統(tǒng)計量和統(tǒng)計圖。第62頁,課件共133頁,創(chuàng)作于2023年2月圖5.9系統(tǒng)聚類法主界面第63頁,課件共133頁,創(chuàng)作于2023年2月2.點擊Statistics按鈕,設置在結果輸出窗口中給出的聚類分析統(tǒng)計量。這里我們選擇系統(tǒng)默認值,點擊Continue按鈕,返回主界面。3.點擊Plots按鈕,設置結果輸出窗口中給出的聚類分析統(tǒng)計圖。選中Dendrogram復選框和Icicle欄中的None單選按鈕,即只給出聚類樹形圖,而不給出冰柱圖。單擊Continue按鈕,返回主界面。圖5.10Plots子對話框第64頁,課件共133頁,創(chuàng)作于2023年2月4.點擊Method按鈕,設置系統(tǒng)聚類的方法選項。ClusterMethod下拉列表用于指定聚類的方法,包括組間連接法、組內(nèi)連接法、最近距離法、最遠距離法等;Measure欄用于選擇對距離和相似性的測度方法;剩下的TransformValues和TransformMeasures欄用于選擇對原始數(shù)據(jù)進行標準化的方法。這里我們?nèi)匀痪赜孟到y(tǒng)默認選項。單擊Continue按鈕,返回主界面。第65頁,課件共133頁,創(chuàng)作于2023年2月圖5.11Method子對話框第66頁,課件共133頁,創(chuàng)作于2023年2月5.點擊Save按鈕,指定保存在數(shù)據(jù)文件中的用于表明聚類結果的新變量。None表示不保存任何新變量;Singlesolution表示生成一個分類變量,在其后的矩形框中輸入要分成的類數(shù);Rangeofsolutions表示生成多個分類變量。這里我們選擇Rangeofsolutions,并在后面的兩個矩形框中分別輸入2和4,即生成三個新的分類變量,分別表明將樣品分為2類、3類和4類時的聚類結果。點擊Continue,返回主界面。第67頁,課件共133頁,創(chuàng)作于2023年2月圖5.12Save子對話框6.點擊OK按鈕,運行系統(tǒng)聚類過程。第68頁,課件共133頁,創(chuàng)作于2023年2月(二)主要運行結果解釋1.在結果輸出窗口中我們可以看到聚類樹形圖(Dendrogram)。從樹形圖5.12可以清楚地看到,若將20個樣品分為兩類,則樣品2、6、19、7、和樣品1為一類,其余的為另一類;若將樣品分為三類,則樣品8、9、4從第二類中分離出來,自成一類;依此類推。第69頁,課件共133頁,創(chuàng)作于2023年2月圖5.13系統(tǒng)聚類法樹形圖第70頁,課件共133頁,創(chuàng)作于2023年2月2.由于我們已經(jīng)在Save子對話框中設置了在數(shù)據(jù)文件中生成新的分類變量,所以,在數(shù)據(jù)編輯窗口中,我們可以看到生成的三個表示分類結果的新變量。變量名為clu4_1、clu3_1和clu2-1的三個分類變量分別表明了把樣品分成4類、3類和2類的分類情況。圖5.14生成三個新的分類變量第71頁,課件共133頁,創(chuàng)作于2023年2月二、在SPSS中利用K均值法進行聚類分析我國各地區(qū)2003年三次產(chǎn)業(yè)產(chǎn)值如表5.17所示,試根據(jù)三次產(chǎn)業(yè)產(chǎn)值利用K均值法對我國31個省、自治區(qū)和直轄市進行聚類分析。第72頁,課件共133頁,創(chuàng)作于2023年2月當要聚成的類數(shù)確定時,使用K均值法可以很快將觀測量分到各類中去,而且該方法處理速度快,占用內(nèi)存少,尤其適用于大樣本的聚類分析。(一)操作步驟1.在SPSS窗口中選擇Analyze→Classify→K-MeansCluster,調(diào)出K均值聚類分析主界面,并將變量—移入Variables框中,將標志變量Region移入LabelCaseby框中。在Method框中選擇Iterateclassify,即使用K-means算法不斷計算新的類中心,并替換舊的類中心(若選擇Classifyonly,則根據(jù)初始類中心進行聚類,在聚類過程中不改變類中心)。在NumberofCluster后面的矩形框中輸入想要把樣品聚成的類數(shù),這里我們輸入3,即將31個地區(qū)分為3類。至于Centers按鈕,則用于設置迭代的初始類中心。如果不手工設置,則系統(tǒng)會自動設置初始類中心,這里我們不作設置。第73頁,課件共133頁,創(chuàng)作于2023年2月圖5.15K均值聚類分析主界面第74頁,課件共133頁,創(chuàng)作于2023年2月

2.點擊Iterate按鈕,對迭代參數(shù)進行設置。MaximumIterations參數(shù)框用于設定K-means算法迭代的最大次數(shù),ConvergenceCriterion參數(shù)框用于設定算法的收斂判據(jù),其值應該介于0和1之間。例如判據(jù)設置為0.02,則當一次完整的迭代不能使任何一個類中心距離的變動與原始類中心距離的比小于2時,迭代停止。設置完這兩個參數(shù)之后,只要在迭代的過程中先滿足了其中的參數(shù),則迭代過程就停止。這里我們選擇系統(tǒng)默認的標準。單擊Continue,返回主界面。圖5.16Iterate子對話框第75頁,課件共133頁,創(chuàng)作于2023年2月

3.點擊Save按鈕,設置保存在數(shù)據(jù)文件中的表明聚類結果的新變量。其中Clustermembership選項用于建立一個代表聚類結果的變量,默認變量名為qcl_1;Distancefromclustercenter選項建立一個新變量,代表各觀測量與其所屬類中心的歐氏距離。我們將兩個復選框都選中,單擊Continue按鈕返回。圖5.17Save子對話框第76頁,課件共133頁,創(chuàng)作于2023年2月

4.點擊Options按鈕,指定要計算的統(tǒng)計量。選中Initialclustercenters和Clusterinformationforeachcase復選框。這樣,在輸出窗口中將給出聚類的初始類中心和每個觀測量的分類信息,包括分配到哪一類和該觀測量距所屬類中心的距離。單擊Continue返回。

5.點擊OK按鈕,運行K均值聚類分析程序。圖5.18Options子對話框第77頁,課件共133頁,創(chuàng)作于2023年2月 (二)主要運行結果解釋

1.InitialClusterCenters(給出初始類中心)

2.IterationHistory(給出每次迭代結束后類中心的變動) 從表5.18中可以看到本次聚類過程共經(jīng)歷了三次迭代。由于我們在Iterate子對話框中使用系統(tǒng)默認的選項(最大迭代次數(shù)為10和收斂判據(jù)為0),所以在第三次迭代后,類中心的變化為0,從而迭代停止。第78頁,課件共133頁,創(chuàng)作于2023年2月

3.ClusterMembership(給出各觀測量所屬的類及與所屬類中心的距離) 表5.19中Cluster列給出了觀測量所屬的類別,Distance列給出了觀測量與所屬類中心的距離。(出于排版要求,此表經(jīng)過加工,因此與原始輸出表形態(tài)有一定差異)。表5.18迭代過程中類中心的變化量第79頁,課件共133頁,創(chuàng)作于2023年2月表5.19各觀測量所屬類成員表第80頁,課件共133頁,創(chuàng)作于2023年2月

4.FinalClusterCenters(給出聚類結果形成的類中心的各變量值)表5.20最終的類中心表第81頁,課件共133頁,創(chuàng)作于2023年2月結合表5.19和表5.20,我們可以看出31個地區(qū)被分成3類。第一類包括:江蘇、浙江、山東和廣東4個省。這一類的類中心三個產(chǎn)業(yè)的產(chǎn)值分別為1102.14億元、6423.01億元和4454.26億元,屬于三個產(chǎn)業(yè)都比較發(fā)達的地區(qū)。第二類包括:天津、山西、內(nèi)蒙古、吉林、江西、廣西、海南、重慶、貴州、云南、西藏、陜西、甘肅、青海、寧夏和新疆16個地區(qū)。這一類的類中心三個產(chǎn)業(yè)的產(chǎn)值分別為307.61億元、795.41億元和673.63億元,屬于欠發(fā)達地區(qū)。剩下的11個地區(qū)為第三類。這一類的類中心三個產(chǎn)業(yè)的產(chǎn)值分別為713.28億元、2545.20億元和212.87億元,屬于中等發(fā)達地區(qū)。

5.由于我們已經(jīng)在Save子對話框中設置了在數(shù)據(jù)文件中生成新的分類變量,所以,在數(shù)據(jù)編輯窗口中,我們可以看到生成的兩個表示分類結果的新變量。變量qcl_1和變量qcl_2分別代表分類號和觀測量距所屬類中心的距離。第82頁,課件共133頁,創(chuàng)作于2023年2月聚類要注意的問題

聚類結果主要受所選擇的變量影響。如果去掉一些變量,或者增加一些變量,結果會很不同。相比之下,聚類方法的選擇則不那么重要了。因此,聚類之前一定要目標明確。

另外就分成多少類來說,也要有道理。只要你高興,從分層聚類的計算機結果可以得到任何可能數(shù)量的類。但是,聚類的目的是要使各類距離盡可能的遠,而類中點的距離盡可能的近,而且分類結果還要有令人信服的解釋。這一點就不是數(shù)學可以解決的了。第83頁,課件共133頁,創(chuàng)作于2023年2月本章結束第84頁,課件共133頁,創(chuàng)作于2023年2月

3、主成分分析多元統(tǒng)計分析處理的是多變量(多指標)問題。由于變量較多,增加了分析問題的復雜性。但在實際問題中,變量之間可能存在一定的相關性,因此,多變量中可能存在信息的重疊。人們自然希望通過克服相關性、重疊性,用較少的變量來代替原來較多的變量,而這種代替可以反映原來多個變量的大部分信息,這實際上是一種“降維”的思想。第85頁,課件共133頁,創(chuàng)作于2023年2月主成分分析也稱主分量分析,是由Hotelling于1933年首先提出的。由于多個變量之間往往存在著一定程度的相關性。人們自然希望通過線性組合的方式,從這些指標中盡可能快地提取信息。當?shù)谝粋€線性組合不能提取更多的信息時,再考慮用第二個線性組合繼續(xù)這個快速提取的過程,……,直到所提取的信息與原指標相差不多時為止。這就是主成分分析的思想。一般說來,在主成分分析適用的場合,用較少的主成分就可以得到較多的信息量。以各個主成分為分量,就得到一個更低維的隨機向量;因此,通過主成分既可以降低數(shù)據(jù)“維數(shù)”又保留了原數(shù)據(jù)的大部分信息。第86頁,課件共133頁,創(chuàng)作于2023年2月

第87頁,課件共133頁,創(chuàng)作于2023年2月第五節(jié)實例分析與計算機實現(xiàn)一主成分分析實例

二利用SPSS進行主成分分析

第88頁,課件共133頁,創(chuàng)作于2023年2月一、主成分分析實例表6.1是某市工業(yè)部門13個行業(yè)的8項重要經(jīng)濟指標的數(shù)據(jù),這8項經(jīng)濟指標分別是:

X1:年末固定資產(chǎn)凈值,單位:萬元;

X2:職工人數(shù)據(jù),單位:人;

X3:工業(yè)總產(chǎn)值,單位:萬元;

X4:全員勞動生產(chǎn)率,單位:元/人年;

X5:百元固定資產(chǎn)原值實現(xiàn)產(chǎn)值,單位:元;

X6:資金利稅率,單位:%;

X7:標準燃料消費量,單位:噸;

X8:能源利用效果,單位:萬元/噸。第89頁,課件共133頁,創(chuàng)作于2023年2月表6.1某市工業(yè)部門13個行業(yè)8項指標第90頁,課件共133頁,創(chuàng)作于2023年2月我們要考慮的是:如何從這些經(jīng)濟指標出發(fā),對各工業(yè)部門進行綜合評價與排序?我們先計算這些指標的主成分,然后通過主成分的大小進行排序。表6.2和表6.3分別是特征根(累計貢獻率)和特征向量的信息。利用主成分得分進行綜合評價時,從特征向量我們可以寫出所有8個主成分的具體形式:第91頁,課件共133頁,創(chuàng)作于2023年2月表6.2特征根和累計貢獻率第92頁,課件共133頁,創(chuàng)作于2023年2月表6.3特征向量第93頁,課件共133頁,創(chuàng)作于2023年2月表6.4各行業(yè)主成分得分及排序第94頁,課件共133頁,創(chuàng)作于2023年2月我們以特征根為權,對8個主成分進行加權綜合,得出各工業(yè)部門的綜合得分,具體數(shù)據(jù)見表6.4。綜合得分的計算公式是: 根據(jù)上式可計算出各工業(yè)部門的綜合得分,并可據(jù)此排序。從上表可以看出,機器行業(yè)在該地區(qū)的綜合評價排在第一,原始數(shù)據(jù)也反映出機器行業(yè)存在明顯的規(guī)模優(yōu)勢,另外從前兩個主成分得分上看,該行業(yè)也排在第一位,同樣存在效益優(yōu)勢;而排在最后三位的分別是皮革行業(yè)、電力行業(yè)和煤炭行業(yè)。第95頁,課件共133頁,創(chuàng)作于2023年2月二、利用SPSS進行主成分分析SPSS沒有提供主成分分析的專用功能,只有因子分析的功能。但是因子分析和主成分分析有著密切的聯(lián)系。因子分析的重要步驟——因子的提取最常用的方法就是“主成分法”。利用因子分析的結果,可以很容易地實現(xiàn)主成分分析。具體來講,就是利用因子載荷陣和相關系數(shù)矩陣的特征根來計算特征向量。即:其中,zij為第j個特征向量的第i個元素;aij為因子載荷陣第i 行第j列的元素;λj為第j個因子對應的特征根。然后再利用 計算出的特征向量來計算主成分。以下是我國2005年第1、2季度分地區(qū)城鎮(zhèn)居民家庭收支基本情況。通過這個例子,介紹如何利用SPSS軟件實現(xiàn)主成分分析。第96頁,課件共133頁,創(chuàng)作于2023年2月表6.5分地區(qū)城鎮(zhèn)居民家庭收支基本情況

第97頁,課件共133頁,創(chuàng)作于2023年2月表6.5分地區(qū)城鎮(zhèn)居民家庭收支基本情況

第98頁,課件共133頁,創(chuàng)作于2023年2月 (一)利用SPSS進行因子分析將原始數(shù)據(jù)輸入SPSS數(shù)據(jù)編輯窗口,將5個變量分別命名為X1~X5。在SPSS窗口中選擇Analyze→DataReduction→Factor菜單項,調(diào)出因子分析主界面,并將變量X1~X5移入Variables框中,其他均保持系統(tǒng)默認選項,單擊OK按鈕,執(zhí)行因子分析過程(關于因子分子在SPSS中實現(xiàn)的詳細過程,參見第7章實例)。得到如表6.6所示的特征根和方差貢獻率表和表6.7所示的因子載荷陣。表6.6中Total列為各因子對應的特征根,本例中共提取兩個公因子;%ofVariance列為各因子的方差貢獻率;Cumulative%列為各因子累積方差貢獻率,由表中可以看出,前兩個因子已經(jīng)可以解釋79.31%的方差第99頁,課件共133頁,創(chuàng)作于2023年2月圖6.2因子分析主界面第100頁,課件共133頁,創(chuàng)作于2023年2月表6.6特征根和方差貢獻率表第101頁,課件共133頁,創(chuàng)作于2023年2月 (二)利用因子分析結果進行主成分分析

1.將表6.7中因子載荷陣中的數(shù)據(jù)輸入SPSS數(shù)據(jù)編輯窗口,分別命名為a1和a2。表6.7因子載荷陣第102頁,課件共133頁,創(chuàng)作于2023年2月

2.為了計算第一個特征向量,點擊菜單項中的Transform→Compute,調(diào)出Computevariable對話框,在對話框中輸入等式:

z1=a1/SQRT(2.576)

點擊OK按鈕,即可在數(shù)據(jù)編輯窗口中得到以z1為變量名的第一特征向量。 再次調(diào)出Computevariable對話框,在對話框中輸入等式:

z2=a2/SQRT(1.389)

點擊OK按鈕,得到以z2為變量名第二特征向量。這樣,我們得到了如表6.8所示的特征向量矩陣。第103頁,課件共133頁,創(chuàng)作于2023年2月圖6.3Computevariable對話框第104頁,課件共133頁,創(chuàng)作于2023年2月根據(jù)表6.8可以得到主成分的表達式:

3.再次使用Compute命令,就可以計算得到兩個主成分。表6.8特征向量矩陣第105頁,課件共133頁,創(chuàng)作于2023年2月本章結束第106頁,課件共133頁,創(chuàng)作于2023年2月因子分析一般認為因子分析是從CharlesSpearman在1904年發(fā)表的文章《對智力測驗得分進行統(tǒng)計分析》開始,他提出這種方法用來解決智力測驗得分的統(tǒng)計方法。目前因子分析在心理學、社會學、經(jīng)濟學等學科中都取得了成功的應用,是多元統(tǒng)計分析中典型方法之一。因子分析(factoranalysis)也是一種降維、簡化數(shù)據(jù)的技術。它通過研究眾多變量之間的內(nèi)部依賴關系,探求觀測數(shù)據(jù)中的基本結構,并用少數(shù)幾個“抽象”的變量來表示其基本的數(shù)據(jù)結構。這幾個抽象的變量被稱作“因子”,能反映原來眾多變量的主要信息。原始的變量是可觀測的顯在變量,而因子一般是不可觀測的潛在變量。第107頁,課件共133頁,創(chuàng)作于2023年2月例如,在商業(yè)企業(yè)的形象評價中,消費者可以通過一系列指標構成的一個評價指標體系,評價百貨商場的各個方面的優(yōu)劣。但消費者真正關心的只是三個方面:商店的環(huán)境、商店的服務和商品的價格。這三個方面除了價格外,商店的環(huán)境和服務質量,都是客觀存在的、抽象的影響因素,都不便于直接測量,只能通過其它具體指標進行間接反映。因子分析就是一種通過顯在變量測評潛在變量,通過具體指標測評抽象因子的統(tǒng)計分析方法。又比如,在研究區(qū)域社會經(jīng)濟發(fā)展中,描述社會與經(jīng)濟現(xiàn)象的指標很多,過多的指標容易導致分析過程復雜化。一個合適的做法就是從這些關系錯綜復雜的社會經(jīng)濟指標中提取少數(shù)幾個主要因子,每一個主要因子都能反映相互依賴的社會經(jīng)濟指標間共同作用,抓住這些主要因素就可以幫助我們對復雜的社會經(jīng)濟發(fā)展問題進行深入分析、合理解釋和正確評價。第108頁,課件共133頁,創(chuàng)作于2023年2月因子分析的內(nèi)容非常豐富,常用的因子分析類型是R型因子分析和Q型因子分析。R型的因子分析是對變量作因子分析,Q型因子分析是對樣品作因子分析。本章側重討論R型因子分析。第109頁,課件共133頁,創(chuàng)作于2023年2月第五節(jié)實例分析與計算機實現(xiàn)一利用SPSS進行因子分析二因子分析在市場研究中的應用第110頁,課件共133頁,創(chuàng)作于2023年2月一、利用SPSS進行因子分析

第111頁,課件共133頁,創(chuàng)作于2023年2月 (一)操作步驟

1.在SPSS窗口中選擇Analyze→DataReduction→Factor,調(diào)出因子分析主界面圖(7.1),并將變量X1—X13移入Variables框中。圖7.1因子分析主界面第112頁,課件共133頁,創(chuàng)作于2023年2月

2.點擊Descriptives按鈕,展開相應對話框,見圖7.2。選擇Initialsolution復選項。這個選項給出各因子的特征值、各因子特征值占總方差的百分比以及累計百分比。單擊Continue按鈕,返回主界面。圖7.2Descriptives子對話框第113頁,課件共133頁,創(chuàng)作于2023年2月

3.點擊Extraction按鈕,設置因子提取的選項,見圖7.3。在Method下拉列表中選擇因子提取的方法,SPSS提供了七種提取方法可供選擇,一般選擇默認選項,即“主成分法”。在Analyze欄中指定用于提取因子的分析矩陣,分別為相關矩陣和協(xié)方差矩陣。在Display欄中指定與因子提取有關的輸出項,如未旋轉的因子載荷陣和因子的碎石圖。在Extract欄中指定因子提取的數(shù)目,有兩種設置方法:一種是在Eigenvaluesover后的框中設置提取的因子對應的特征值的范圍,系統(tǒng)默認值為1,即要求提取那些特征值大于1的因子;第二種設置方法是直接在Numberoffactors后的矩形框中輸入要求提取的公因子的數(shù)目。這里我們均選擇系統(tǒng)默認選項,單擊Continue按鈕,返回主界面。第114頁,課件共133頁,創(chuàng)作于2023年2月圖7.3Extraction子對話框第115頁,課件共133頁,創(chuàng)作于2023年2月

4.點擊Rotation按鈕,設置因子旋轉的方法。這里選擇Varimax(方差最大旋轉),并選擇Display欄中的Rotatedsolution復選框,在輸出窗口中顯示旋轉后的因子載荷陣。單擊Continue按鈕,返回主界面。圖7.4Rotation子對話框第116頁,課件共133頁,創(chuàng)作于2023年2月

5.點擊Scores按鈕,設置因子得分的選項。選中Saveasvariables復選框,將因子得分作為新變量保存在數(shù)據(jù)文件中。選中Displayfactorscorecoefficientmatrix復選框

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論