第9章 SPSS 線性回歸分析_第1頁
第9章 SPSS 線性回歸分析_第2頁
第9章 SPSS 線性回歸分析_第3頁
第9章 SPSS 線性回歸分析_第4頁
第9章 SPSS 線性回歸分析_第5頁
已閱讀5頁,還剩52頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、.,第9章 SPSS的線性回歸分析,9.1 回歸分析概述 9.2 線性回歸分析和線性回歸模型 9.3 回歸方程的統(tǒng)計檢驗 9.4 多元回歸分析中的其他問題 9.5 線性回歸分析的基本操作 9.6 線性回歸分析的應(yīng)用舉例,.,學(xué)習(xí)的內(nèi)容與目標(biāo),掌握線性回歸分析的主要指標(biāo),了解最小二乘法的基本思想 熟練掌握線性回歸分析的具體操作,讀懂分析結(jié)果;掌握計算結(jié)果之間的數(shù)量關(guān)系,寫出回歸方程,對回歸方程進行各種統(tǒng)計檢驗 了解多元回歸分析中自變量篩選的策略,以及對應(yīng)結(jié)果的分析 了解SPSS殘差分析和多重共線檢測的基本操作,并能分析結(jié)果,.,9.1回歸分析概述,9.1.1什么是回歸分析 “回歸”一詞最初源于英

2、國統(tǒng)計學(xué)家F.Galton(高爾頓)描述父親的身高和其成年兒子身高之間的關(guān)系,發(fā)現(xiàn)成年兒子的身高會趨向于子輩身高的平均值,F(xiàn).Galton稱這種現(xiàn)象為“回歸”。 用于分析事物之間的統(tǒng)計關(guān)系,并通過回歸方程的形式描述變量間的數(shù)量變化規(guī)律,幫助人們準確把握變量受一個或多個變量的影響程度,進而為預(yù)測提供依據(jù)。,.,回歸分析和相關(guān)分析,1.相關(guān)分析 變量性質(zhì):都是隨機變量且關(guān)系對等 分析方法:圖表法(散點圖)和相關(guān)系數(shù) 分析目的:判定變量之間相關(guān)方向和關(guān)系的密切程度 2.回歸分析 變量性質(zhì):自變量(確定型變量)和因變量(隨機變量)的關(guān)系且不對等 分析方法:建立回歸模型 分析目的:研究變量間數(shù)量依存關(guān)系

3、,.,9.1.2如何得到回歸線,函數(shù)擬合 首先,通過散點圖觀察變量之間的統(tǒng)計關(guān)系,得到對回歸線的感性認知,并據(jù)之確定最簡潔的數(shù)學(xué)函數(shù)(回歸模型); 其次,利用樣本數(shù)據(jù)在一定的擬合準則下,估計回歸模型中各個參數(shù),得到確定的回歸方程; 最后,由于回歸參數(shù)是在樣本數(shù)據(jù)的基礎(chǔ)上得到的,存在隨機性。因此需要進行各種檢驗。,.,9.1.3回歸分析的一般步驟,確定回歸方程中的解釋變量(父親身高x)和被解釋變量(兒子身高y) 確定回歸模型(線性與非線性) 建立回歸方程,并估計出模型中的參數(shù) 對回歸方程進行各種檢驗 利用方程進行預(yù)測,.,9.2 線性回歸分析和線性回歸模型,觀察被解釋變量y和一個或多個解釋變量x

4、i的散點圖,當(dāng)發(fā)現(xiàn)y與xi之間呈現(xiàn)出顯著的線性關(guān)系時,應(yīng)采用線性回歸分析的方法,建立y關(guān)于xi的線性回歸模型。 線性回歸模型可分為: 一元線性回歸模型 多元線性回歸模型,.,9.2.1一元線性回歸模型(只有1個解釋變量),數(shù)學(xué)模型為: y=0+1x+ 上式表明:y的變化可由兩部分解釋:第一,由解釋變量x的變化引起的y的線性變化部分,即y=0+1x;第二,由其他隨機因素引起的y的變化部分,即。 0 、1 都是模型中的未知參數(shù),0為回歸常數(shù),1為y對x回歸系數(shù)(即x每變動一個單位所引起的y的平均變動) 。 稱為隨機誤差。且滿足:E()=0,Var()=2 。,.,一元線性回歸方程: E(y)=0+

5、1x 表明x和y之間的統(tǒng)計關(guān)系是在平均意義下表述的。 估計的一元線性回歸方程: 估計方程是平面上的一條直線,即回歸直線。 參數(shù)分別代表回歸直線的截距和斜率。,.,9.2.2多元線性回歸模型,多元數(shù)學(xué)模型: y=0+1x 1+2x 2 .+px p + 多元線性回歸方程: E(y)=0+1x 1+2x 2 .+px p 估計多元線性回歸方程: y=0+1x 1 +2x 2 . +px p,.,9.2.3回歸參數(shù)的最小二乘估計 (ordinary least square estimation ,OLSE),估計思想: 使每個樣本點(xi , yi)與回歸線上的對應(yīng)點( xi , E(yi )在垂

6、直方向上偏差距離的二次方總和達到最小的原則來估計參數(shù) 即,( yi - E(yi )2 =最小 一元二乘估計: 多元二乘估計(略),.,9.3回歸方程的統(tǒng)計檢驗,擬合優(yōu)度檢驗 回歸方程的顯著性檢驗 回歸系數(shù)的顯著性檢驗 殘差分析,.,9.3.1回歸方程的擬合優(yōu)度檢驗,用于檢驗樣本數(shù)據(jù)點聚集在回歸線周圍的密集程度,從而評價回歸線對樣本數(shù)據(jù)的代表程度。 思想:因變量y(兒子身高)取值的變化受兩個因素的影響:自變量x(父親身高)不同取值的影響,其他因素(環(huán)境、飲食等)的影響。 可表示如下: 因變量總變差 = 自變量引起的 + 其他因素引起的 即因變量總變差= 回歸方程可解釋的+不可解釋的 即,因變量

7、總離差平方和SST =回歸平方和 SSA + 剩余平方和SSE,.,圖示:,.,.,一、一元線性回歸方程,擬合優(yōu)度的檢驗采用R2統(tǒng)計量,稱為判定系數(shù) R2=SSA/SST=1-SSE/SST. R2體現(xiàn)了回歸方程所能解釋的因變量變差的比例;1-R2體現(xiàn)了回歸方程所無法解釋的變差比例。,.,R2越接近于1,則說明回歸平方和占了絕大部分比例,因變量y的變差主要由自變量x的取值造成,回歸方程對樣本數(shù)據(jù)點擬合得好 在一元線性回歸中,判定系數(shù)R2=相關(guān)系數(shù)r2; 因此,從這個意義上講,判定系數(shù)能夠比較好地反映回歸直線對樣本數(shù)據(jù)的代表程度和線性相關(guān)性。,說明,.,二、多元線性回歸方程,多元線性回歸方程的擬

8、合優(yōu)度檢驗采用統(tǒng)計量 ,稱為調(diào)整的判定系數(shù) 調(diào)整的判定系數(shù):判定系數(shù)受解釋變量X的個數(shù)p的影響,在p的個數(shù)不同的模型之間進行比較時,判定系數(shù)必須進行調(diào)整。,.,9.3.2回歸方程的顯著性檢驗,用于檢驗被解釋變量與所有解釋變量之間的線性關(guān)系是否顯著,用線性模型來描述它們之間的關(guān)系是否恰當(dāng),即檢驗?zāi)P蛯傮w的近似程度。 SST =回歸平方和 SSA + 剩余平方和SSE 回歸方程的顯著性檢驗中采用方差分析的方法,研究在SST中SSA相對于SSE來說是否占有較大比例。如果比例較大,表明y與x全體的線性關(guān)系明顯,則利用線性模型反映y與x的關(guān)系是恰當(dāng)?shù)?;反之,不恰?dāng)。,.,原假設(shè)H0: 1 =0 .即:

9、回歸系數(shù)與0無顯著差異 利用F檢驗,構(gòu)造F統(tǒng)計量: FF(1,n-2) 判斷:若 pa,則拒絕H0 ,模型的線性關(guān)系是顯著的;反之,模型的線性關(guān)系不顯著.,一、一元線性回歸方程顯著性檢驗,.,原假設(shè)H0: 1 = 2=. =p = 0 .即:各個回歸系數(shù)同時與0無顯著差異 利用F檢驗,構(gòu)造F統(tǒng)計量: FF(p,n-p-1) 判斷:若 pa,則拒絕H0 ,模型的線性關(guān)系是顯著的;反之,模型的線性關(guān)系不顯著.,二、多元線性回歸方程的顯著性檢驗,.,R2檢驗與F檢驗的關(guān)系,F是R2的單調(diào)增函數(shù),F(xiàn)與 一一對應(yīng)。,圖1 F統(tǒng)計量與R2的關(guān)系,.,9.3.3回歸系數(shù)的顯著性檢驗,主要目的是研究回歸方程中

10、每個解釋變量與被解釋變量之間是否存在顯著的線性關(guān)系。 即研究每個解釋變量能否有效的反映被解釋變量的線性變化,它們能否保留在線性回歸方程中。 回歸系數(shù)的顯著性檢驗是圍繞回歸系數(shù)估計值的抽樣分布展開的,構(gòu)造統(tǒng)計量,并進行檢驗。,.,一、一元線性回歸方程顯著性檢驗,回歸系數(shù)的顯著性檢驗:t檢驗 H0:1=0 ,即:回歸系數(shù)與0無顯著差異,利用t檢驗:,.,若 pa,不能拒絕H0, y和x線性關(guān)系不顯著。 一元線性回歸方程的檢驗和回歸系數(shù)的檢驗是等效的。,.,需要對回歸系數(shù)是否為零逐一進行檢驗。 原假設(shè)H0:i=0 ,即:第i個偏回歸系數(shù)與0無顯著差異 利用t檢驗統(tǒng)計量(略) 若與t統(tǒng)計量的概率伴隨p

11、 a,則拒絕H0 多元線性回歸中回歸系數(shù)的檢驗與整體回歸方程的檢驗不能相互替代。,二、多元線性方程回歸系數(shù)的檢驗,.,9.3.4殘差分析,殘差指由回歸方程計算所得的預(yù)測值與實際樣本值之間的差距,即模型中i 的估計值: 回歸模型要求:殘差序列中不含明顯的規(guī)律性和趨勢性,均值為零、正態(tài)分布、等方差,且序列是獨立的。,.,一、殘差均值為零的正態(tài)分析,可以通過繪制殘差散點圖來觀察:如果殘差的均值為零,殘差圖中的點應(yīng)在縱坐標(biāo)為零的橫線上下隨機散落,如下圖。,.,二、殘差的獨立性分析(非自相關(guān)),殘差是獨立的,則殘差序列應(yīng)滿足cov(i , j)=0(ij),表示殘差序列前期和后期之間不存在相關(guān)關(guān)系,即不

12、存在自相關(guān)。獨立性檢驗方式: 第一、繪制殘差序列圖(下圖殘差隨時間的推移,呈有規(guī)律變化,表明殘差序列存在一定的正或負自相關(guān)),.,自相關(guān)系數(shù)用于測定序列自相關(guān)強弱,其取值范圍-1+1,接近1表明序列存在正自相關(guān),第二、計算殘差的自相關(guān)系數(shù),.,DW檢驗用于推斷小樣本序列是否存在自相關(guān)的方法。其原假設(shè)為:總體自相關(guān)系數(shù)與零無顯著差異。采用統(tǒng)計量為: DW取值在04之間: =(-1,0)時,DW=(2,4)殘差序列負自相關(guān) =0時, DW=2,殘差序列無自相關(guān) = (0,1)時,DW=(0,2)殘差序列正自相關(guān) 殘差存在自相關(guān)表明遺漏了解釋變量,或變量取值存在滯后性,或線性模型不適合,第三、DW(

13、durbin-watson)檢驗,.,三、殘差異方差分析,回歸分析要求殘差的方差相等,如果存在異方差,則參數(shù)的最小二乘估計不再是最小方差的無偏估計。因此需要檢驗殘差是否存在異方差。其方法: 第一,繪制殘差圖(下圖殘差的方差隨解釋變量值的增加呈現(xiàn)增加趨勢,表明存在異方差),.,第二,計算等級相關(guān)系數(shù) 得到殘差序列后首先取其絕對值,然后分別計算出殘差和解釋變量的 秩,最后計算spearman等級相關(guān)系數(shù),進行等級相關(guān)分析。若p值小于給定顯著性水平,則拒絕原假設(shè),認為解釋變量與殘差間存在顯著相關(guān),出現(xiàn)了異方差現(xiàn)象。,.,9.4 多元回歸分析中的其它問題,9.4.1解釋變量的篩選問題 多元回歸分析中,

14、模型選中應(yīng)引入多少解釋變量呢?少了難以解釋對解釋變量的變化,多了會引起多重共線。 一、向前篩選策略 指解釋變量不斷進入回歸方程的策略。 首先引入與被解釋變量線性相關(guān)系數(shù)最高的解釋變量進入方程,并進行回歸方程的各種檢驗; 然后,引入與被解釋變量偏相關(guān)系數(shù)最高并通過檢驗的解釋變量,并對新方程進行各項檢驗; 直到?jīng)]有可引入的變量為止。,.,二、向后篩選策略 指解釋變量不斷剔除出回歸方程的過程。 首先,將所有解釋變量引入方程,并檢驗; 然后剔除t檢驗值不顯著(最?。┑囊粋€或多個變量,重新建立回歸方程并進行各種檢驗。 如果回歸系數(shù)都顯著,則方程建立結(jié)束。否則,接著依次刪除最不顯著的解釋變量。 三、逐步篩

15、選策略 指向前向后篩選的綜合策略。 在向前篩選過程中,隨著變量不斷引入方程,需要再次判斷是否存在可剔除的解釋變量,如有,則剔除。,.,9.4.2 變量的多重共線性問題,變量的多重共線:指解釋變量之間存在線性相關(guān)關(guān)系的現(xiàn)象。 若存在多重共線,則會造成偏回歸系數(shù)估計困難、估計的方差增大、估計值的不穩(wěn)定性增強、偏回歸系數(shù)假設(shè)檢驗的結(jié)果不顯著等問題。 測度多重共線的方法如下:,.,一、容忍度,解釋變量xi 的容忍度:Toli=1-Ri2,其中: Ri2是解釋變量xi與方程中其他解釋變量間復(fù)相關(guān)系數(shù)的平方,表明了解釋變量之間的線性相關(guān)程度。 容忍度大表示與其他自變量的共線性低,應(yīng)進入方程。容忍度很小的變

16、量,spss才會給出警告,不應(yīng)進入方程 (T0.1一般認為具有多重共線性),.,二、方差膨脹因子,方差膨脹因子(VIF):容忍度的倒數(shù) 方差膨脹因子取值大于等于1。R i 2接近0,解釋變量間多重共線性越弱,VIF i 越接近于1。 如果VIF i 大于等于10,說明解釋變量xi 與方程中其余解釋變量之間有嚴重的多重共線性。 另外,也可以采用方差膨脹因子的均值來測度多重共線性。,.,三、特征值與方差比,如果最大特征值遠大于其它特征值,表明該解釋變量能刻畫所有解釋變量絕大部分信息(方差),意味著解釋變量間存在較強的線性相關(guān)關(guān)系。 常以某特征值占70%左右。,.,四、條件指數(shù),條件指數(shù)是在特征值的

17、基礎(chǔ)上定義的,它能反映解釋變量間多重共線性指標(biāo)。定義如下: Ki 為第i個解釋變量的條件指標(biāo),它是最大特征值m 與第i個特征值比的平方根。 第i個條件指數(shù)Ki 越大,表明解釋變量間信息重疊的越多,多重共線越嚴重。 Ki 小表明共線不明顯。 0Ki 10,認為多重共線弱;10 Ki 100,認為多重共線較強,100 Ki 時,認為共線很嚴重。,.,9.5線性回歸分析的基本操作,9.5.1線性回歸分析的基本操作 SPSS將一元與多元集成在一起(一個菜單工具) 【analyze】-【regression】-【linear】 選擇被解釋變量進入【dependent】框中 選擇一個或多個解釋變量進入【i

18、ndependent】框 在【method】中選擇解釋變量的篩選策略 enter:所選解釋變量強行進入回歸方程(默認方法,常用于一元回歸) remove:從回歸方程中剔除所選變量 stepwise:逐步篩選策略;backward:向后篩選;forward:向前篩選,.,【block】表示設(shè)置解釋變量不同的篩選策略塊??梢园磏ext和previous按鈕設(shè)置多組解釋變量和變量的篩選策略,并放在不同的塊中。SPSS將按每一指定策略逐一進行回歸。其中【remove】方法只能放在第二個以后塊中。塊設(shè)置便于作各種探索性分析。 【selection variable】為設(shè)置的條件變量框。Rule表示給定的

19、判定條件。只有滿足條件的樣本數(shù)據(jù)才參與回歸分析。 【case labels】是指定某變量為樣本數(shù)據(jù)點的標(biāo)記變量,將再圖形中標(biāo)出。,.,9.5.2線性回歸的其它操作,一、statistics選項 該窗口提供用戶可選擇的統(tǒng)計量 【estimates】是SPSS 默認輸出項,輸出與回歸系數(shù)相關(guān)的統(tǒng)計量。包括回歸系數(shù)(偏回歸系數(shù))、回歸系數(shù)標(biāo)準誤差、標(biāo)準化回歸系數(shù)(如果各解釋變量單位不一致,如希望比較對被解釋變量的影響時,可采用)、回歸系數(shù)顯著性檢驗t統(tǒng)計量和P值、各解釋變量的容忍度。 【confidence intervals】輸出每個非標(biāo)準化回歸系數(shù)的95%置信區(qū)間,.,【descriptives

20、】:輸出各解釋變量和被解釋變量的均值、標(biāo)準差、相關(guān)系數(shù)矩陣及單側(cè)檢驗概率值。 【model fit】為SPSS 默認輸出項,輸出判定系數(shù)、調(diào)整的判定系數(shù),回歸方程的標(biāo)準誤差、回歸方程顯著性檢驗的方差分析表。 【R squared change】表示每個解釋變量進入方程后引起判定系數(shù)的變化量(R ch 2 )和F值的變化量,.,【Part and partial correlation】輸出方程中各解釋變量與被解釋變量間的簡單相關(guān)系數(shù)、偏相關(guān)系數(shù)和部分相關(guān)系數(shù)。 【covariance matrix】輸出各解釋變量間的相關(guān)系數(shù)、協(xié)方差和回歸系數(shù)的方差。 【Collinearity dignost

21、ics】多重共線性診斷。輸出各解釋變量的容忍度、方差膨脹因子、特征值、條件指標(biāo)、方差比率等。 在【residuals】框中:【durbin - watson】表示輸出DW檢驗值(異方差檢驗);【casewise diagnostics】表示輸出標(biāo)準化殘差絕對值大于等于3的樣本數(shù)據(jù)相關(guān)信息。,.,二、option選項,該窗口提供解釋變量篩選的標(biāo)準以及缺失值處理方式。 【use probability of F】SPSS默認項,表示以偏F統(tǒng)計量的概率值為標(biāo)準判斷解釋變量能否進入或剔除出回歸方程。一個解釋變量的F值顯著性水平小于entry(0.05)則該解釋變量可以進入方程;大于removal(0.

22、1)則剔除出方程。 【use F value】:以偏F統(tǒng)計量的臨界值來判斷解釋變量能否進入(默認大于3.84,線性影響顯著)方程;還是剔除出(默認小于2.71,不能拒絕原假設(shè),線性影響不顯著)方程。,.,三、plot選項,該窗口用于對殘差的序列分析,包括分析殘差散點圖、正態(tài)分布累計概率圖等。 窗口左邊dependent表示被解釋變量、zpred表示標(biāo)準化預(yù)測值、dresid表示標(biāo)準化殘差、adjpred表示剔除異常點后調(diào)整的新預(yù)測值、sresid表示學(xué)生化殘差。 繪制多對變量散點圖需要在【scatter 1 of 1】框中定義散點圖的縱坐標(biāo)和橫坐標(biāo)變量。 在【standardized residual plots】中選【histogram】表示繪制標(biāo)準化殘差序列直方圖;選【normal probability plot】表示繪制標(biāo)準化殘差序列正態(tài)分布累計概率圖;選【produce all partial plots】項,表示一次繪制被解釋變量與各個解釋變量的散點圖。,.,四、save選項,表示將回歸分析結(jié)果保存到數(shù)據(jù)編輯窗口中(略講) 【predicted value】:保存非標(biāo)準化預(yù)測值unstandardized、標(biāo)準化預(yù)測值standardized、調(diào)整的預(yù)測值adjusted,解釋變量x=x0 下預(yù)測值的均值標(biāo)準差。 【prediction int

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論