9、spss第九章-回歸分析_第1頁
9、spss第九章-回歸分析_第2頁
9、spss第九章-回歸分析_第3頁
9、spss第九章-回歸分析_第4頁
9、spss第九章-回歸分析_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第九章回歸分析1主要內(nèi)容9.0回歸分析概述9.1線性回歸分析9.2曲線估計9.3非線性回歸分析29.0回歸分析概述(1)確定性關(guān)系與非確定性關(guān)系變量與變量之間的關(guān)系分為確定性關(guān)系和非確定性關(guān)系,函數(shù)表達(dá)確定性關(guān)系。研究變量間的非確定性關(guān)系,構(gòu)造變量間經(jīng)驗公式的數(shù)理統(tǒng)計方法稱為回歸分析。(2)回歸分析根本概念回歸分析是指通過提供變量之間的數(shù)學(xué)表達(dá)式來定量描述變量間相關(guān)關(guān)系的數(shù)學(xué)過程,這一數(shù)學(xué)表達(dá)式通常稱為經(jīng)驗公式。我們不僅可以利用概率統(tǒng)計知識,對這個經(jīng)驗公式的有效性進(jìn)行判定,同時還可以利用這個經(jīng)驗公式,根據(jù)自變量的取值預(yù)測因變量的取值。如果是多個因素作為自變量的時候,還可以通過因素分析,找出哪些自變量對因變量的影響是顯著的,哪些是不顯著的。3主要內(nèi)容9.0回歸分析概述9.1線性回歸分析9.2曲線估計9.3非線性回歸分析49.1線性回歸分析(1)根本概念線性回歸假設(shè)因變量與自變量之間為線性關(guān)系,用一定的線性回歸模型來擬合因變量和自變量的數(shù)據(jù),并通過確定模型參數(shù)來得到回歸方程。根據(jù)自變量的多少,線性回歸可有不同的劃分。當(dāng)自變量只有一個時,稱為一元線性回歸,當(dāng)自變量有多個時,稱為多元線性回歸。(2)統(tǒng)計原理一元回歸方程和多元回歸方程一元線性和多元線性回歸分析的核心任務(wù)就是估計其中的參數(shù)。59.1線性回歸分析(3)分析步驟第1步確定回歸方程中的因變量和自變量;第2步確定回歸模型:根據(jù)函數(shù)擬合方式,通過觀察散點圖確定應(yīng)通過哪種數(shù)學(xué)模型來概括回歸方程。如果被解釋變量與解釋變量之間存在線性關(guān)系,那么應(yīng)進(jìn)行線性回歸分析,建立線性回歸模型;反之,建立非線性回歸模型。第3步建立回歸方程:根據(jù)收集到的數(shù)據(jù)以及第2步所確定的回歸模型,在一定的統(tǒng)計擬合準(zhǔn)那么下估計出模型中的各個參數(shù),得到一個確定的回歸方程。第4步對回歸方程進(jìn)行各種檢驗:擬合優(yōu)度檢驗;回歸方程的顯著性檢驗;回歸系數(shù)的顯著性檢驗。第5步利用回歸方程進(jìn)行預(yù)測。69.1線性回歸分析SPSS實現(xiàn)舉例【例9-1】現(xiàn)有1992年~2006年國家財政收入和國民生產(chǎn)總值的數(shù)據(jù)如下表所示,請研究國家財政收入和國民生產(chǎn)總值之間的線性關(guān)系。年份國內(nèi)生產(chǎn)總值(單位:億元)財政收入(單位:億元)年份國內(nèi)生產(chǎn)總值(單位:億元)財政收入(單位:億元)199226923.53483.37200099214.613395.23199335333.94348.952001109655.216386.04199448197.95218.102002120332.718903.64199560793.76242.202003135822.821715.25199671176.67407.992004159878.326396.47199778973.08651.142005183867.931649.29199884402.39875.952006210871.038760.20199989677.111444.0879.1線性回歸分析第1步分析:這是一個因變量和一個自變量之間的問題,故應(yīng)該考慮用一元線性回歸解決。第2步數(shù)據(jù)組織:定義三個變量,分別為“year”〔年份〕、“x”〔國內(nèi)生產(chǎn)總值〕、“y”〔財政收入。第3步一元線性回歸分析設(shè)置:將變量“y”作為因變量,“x”作為自變量。在Plots對話框中選用DEPENDENT和*ZPRED作圖。并且選擇Histogram復(fù)選框給出正態(tài)曲線和Normalprobabilityplot復(fù)選框輸出標(biāo)準(zhǔn)化殘差的正態(tài)概率圖。并作相應(yīng)的保存選項設(shè)置。89.1線性回歸分析第4步主要結(jié)果及分析。引入或剔除表ModelVariablesEnteredVariablesRemovedMethod1國內(nèi)生產(chǎn)總值a.Entera.Allrequestedvariablesentered.b.DependentVariable:財政收入表中顯示回歸模型編號、進(jìn)入模型的變量、移出模型的變量和變量的篩選方法??梢钥闯觯M(jìn)入模型的自變量為“x”〔國內(nèi)生產(chǎn)總值〕。模型綜述表

ModelRRSquareAdjustedRSquareStd.ErroroftheEstimate1.989a.979.9771621.66312a.Predictors:(Constant),國內(nèi)生產(chǎn)總值b.DependentVariable:財政收入R=0.989,說明自變量與因變量之間的相關(guān)性很強。R2=0.979,說明自變量x可以解釋因變量y的97.9%的差異性。99.1線性回歸分析方差分析表表中顯示因變量的方差來源、方差平方和、自由度、均方、F檢驗統(tǒng)計量的觀測值和顯著性水平。從表中可以看出,方差來源有回歸〔Regression〕、殘差〔Residual〕和總和〔Total〕,F(xiàn)統(tǒng)計量的觀測值為592.25,顯著性概率為0.000,即檢驗假設(shè)“H0:回歸系數(shù)B=0”成立的概率為0.000,從而應(yīng)拒絕零假設(shè),說明因變量和自變量的線性關(guān)系是非常顯著的,可建立線性模型。ModelSumofSquaresdfMeanSquareFSig.1Regression1.557E911.557E9592.250.000aResidual3.419E7132629791.290Total1.592E914a.Predictors:(Constant),國內(nèi)生產(chǎn)總值b.DependentVariable:財政收入109.1線性回歸分析回歸系數(shù)表表中顯示回歸模型的常數(shù)項〔Constant〕、回歸系數(shù)〔UnstandardizedCoefficients〕B值及其標(biāo)準(zhǔn)誤差〔Std.Error〕、標(biāo)準(zhǔn)化的回歸系數(shù)〔StandardizedCoefficients〕Beta值、統(tǒng)計量t值以及顯著性水平〔Sig.〕。從表中可看出,回歸模型的常數(shù)項為-4993.281,自變量“國內(nèi)生產(chǎn)總值”的回歸系數(shù)為0.197。因此,可以得出回歸方程為:財政收入=-4993.281+0.197×國內(nèi)生產(chǎn)總值。ModelUnstandardizedCoefficientsStandardizedCoefficientstSig.BStd.ErrorBeta1(Constant)-4993.281919.356-5.431.000國內(nèi)生產(chǎn)總值.197.008.98924.336.000a.DependentVariable:財政收入11主要內(nèi)容9.0回歸分析概述9.1線性回歸分析9.2曲線估計9.3非線性回歸分析129.2曲線估計(1)根本概念曲線估計〔曲線擬合、曲線回歸〕那么是研究兩變量間非線性關(guān)系的一種方法,選定一種用方程表達(dá)的曲線,使得實際數(shù)據(jù)與理論數(shù)據(jù)之間的差異盡可能地小。如果曲線選擇得好,那么可以揭示因變量與自變量的內(nèi)在關(guān)系,并對因變量的預(yù)測有一定的意義。在曲線估計中,需要解決兩個問題:一是選用哪種理論模型,即用哪種方程來擬合觀測值;二是當(dāng)模型確定后,如何選擇適宜的參數(shù),使得理論數(shù)據(jù)和實際數(shù)據(jù)的差異最小。139.2曲線估計(2)統(tǒng)計原理

在曲線估計中,有很多的數(shù)學(xué)模型,選用哪一種形式的回歸方程才能最好地表示出一種曲線的關(guān)系往往不是一個簡單的問題,可以用數(shù)學(xué)方程來表示的各種曲線的數(shù)目幾乎是沒有限量的。在可能的方程之間,以吻合度而論,也許存在著許多吻合得同樣好的曲線方程。因此,在對曲線的形式的選擇上,對采取什么形式需要有一定的理論,這些理論是由問題本質(zhì)決定的。(3)分析步驟首先,在不能明確究竟哪種模型更接近樣本數(shù)據(jù)時,可在上述多種可選擇的模型中選擇幾種模型;其次,SPSS自動完成模型參數(shù)的估計,并輸出回歸方程顯著性檢驗的F值和概率p值、判定系數(shù)R2等統(tǒng)計量;最后,以判定系數(shù)為主要依據(jù)選擇其中的最優(yōu)模型,并進(jìn)行預(yù)測分析等。149.2曲線估計(4)SPSS實現(xiàn)舉例

【例9-2】下表是1989年~2001年國家保費收入與國民生產(chǎn)總值的數(shù)據(jù),請研究保費收入與國民生產(chǎn)總值的關(guān)系。年度保費收入國民生產(chǎn)總值年度保費收入國民生產(chǎn)總值19804.64517.81991239.721662.519817.84860.3199237826651.9198210.35301.8199352534560.5198313.25957.41994630466701984207206.7199568357494.9198533.18989.1199677666850.5198645.810201.41997108073142.7198771.0411954.519981247.376967.21988109.514922.319991393.2280579.41989142.616917.820001595.988228.11990178.518598.420012109.3694346.4159.2曲線估計第1步分析:先用散點圖的形式進(jìn)行分析,看究竟是否具有一元線性關(guān)系,如果具有一元線性關(guān)系,那么用一元線性回歸分析,否那么采用曲線估計求解。第2步數(shù)據(jù)組織:定義為三個變量,分別是:“year”〔年度〕、“y”〔保費收入〕和“x”〔國民收入〕,輸入數(shù)據(jù)并保存。第3步作散點圖初步判定變量的分布趨勢:費收入y隨著國民生產(chǎn)總值x的提高而逐漸提高,而且當(dāng)國民生產(chǎn)總值到達(dá)一定水平后,保費收入的增幅更加明顯,因此用線性回歸模型表示x,y的關(guān)系是不恰當(dāng)?shù)?。由于不知道哪種擬合效果更好,于是應(yīng)先找擬合效果好的模型。169.2曲線估計第4步進(jìn)行曲線估計:按順序選擇Analyze→Regression→CurveEstimation,將Models下的模型全選上,看哪種模型擬合效果更好(主要看擬合優(yōu)度R2),其所有模型的擬合優(yōu)度R2如下表所示。模型名稱RSquare(R2)直線(Linear)0.941二次曲線(Quadratic)0.973復(fù)合曲線(Compound)0.789生長曲線(Growth)0.789對數(shù)曲線(Logarithmic)0.772三次曲線(Cubic)0.990S曲線(S)0.946指數(shù)曲線(Exponential)0.789逆函數(shù)(Inverse)0.481冪函數(shù)(Power)0.972邏輯函數(shù)(Logistic)0.789從擬合優(yōu)度(RSquare即R2)來看,三次曲線〔Cubic〕效果最好(因為其R2值較大),并且方差分析的顯著性水平為0,故重新進(jìn)行上面的過程,只選Cubic一種模型。179.2曲線估計第5步結(jié)果與分析。三次曲線模型擬合效果的檢驗表RRSquareAdjustedRSquareStd.ErroroftheEstimate.995.990.98964.883Theindependentvariableis國民生產(chǎn)總值.相關(guān)系數(shù)R=0.995,RSquare=0.990,經(jīng)校正后的R平方值為0.989,故可判斷保費收入與國民生產(chǎn)總值之間有較顯著的三次曲線關(guān)系。方差分析表SumofSquaresdfMeanSquareFSig.Regression7800612.55932600204.186617.659.000Residual75775.960184209.776Total7876388.51821Theindependentvariableis國民生產(chǎn)總值.相伴概率Sig.=0.000說明模型具有顯著的統(tǒng)計學(xué)意義。189.2曲線估計第5步結(jié)果與分析?;貧w系數(shù)表UnstandardizedCoefficientsStandardizedCoefficientstSig.BStd.ErrorBeta國民生產(chǎn)總值.029.0051.5065.836.000國民生產(chǎn)總值**2-5.364E-7.000-2.554-4.277.000國民生產(chǎn)總值**35.022E-12.0002.093..(Constant)-166.43045.399-3.666.002從表中可知因變量與自變量的三次回歸模型為:2+5.022E-12x3199.2曲線估計第5步結(jié)果與分析。擬合效果圖從圖形上看出其擬合效果非常好。20主要內(nèi)容9.0回歸分析概述9.1線性回歸分析9.2曲線估計9.3非線性回歸分析219.3非線性回歸分析(1)根本概念非線性回歸分析〔NonlinearRegressionAnalysis〕是尋求因變量與一組自變量之間的非線性相關(guān)模型的統(tǒng)計方法。線性回歸限制模型估計必須是線性的,非線性回歸可以估計因變量與自變量之間具有任意關(guān)系的模型。(2)統(tǒng)計原理非線性回歸分析〔NonlinearRegressionAnalysis〕是尋求因變量與一組自變量之間的非線性相關(guān)模型的統(tǒng)計方法。線性回歸限制模型估計必須是線性的,非線性回歸可以估計因變量與自變量之間具有任意關(guān)系的模型。229.3非線性回歸分析(3)分析步驟

針對呈非線性關(guān)系的情況,可以采用兩種策略:一是對標(biāo)準(zhǔn)的線性模型做一些修正,使之能處理各種異常情況,但方法仍在線性回歸的范疇內(nèi),SPSS軟件中包含了一些常見的非線性回歸模型及其變換方式;二是徹底打破原有模型的束縛,采用非線性模型來擬合。非線性回歸過程是專用的非線性回歸模型擬合過程,它采用迭代方法對用戶設(shè)置的各種復(fù)雜曲線模型進(jìn)行擬合,同時將殘差的定義從最小二乘法向外擴展,為用戶提供了極為強大的分析能力,不僅能夠擬合SPSS的回歸分析過程提供的全部模型,還可以擬合文件回歸、多項式回歸、百分位數(shù)回歸等各種非常復(fù)雜的模型。

239.3非線性回歸分析(4)SPSS實現(xiàn)舉例【例9-3】某企業(yè)1990年~1998年年產(chǎn)值統(tǒng)計資料見下表。根據(jù)企業(yè)設(shè)備能力、產(chǎn)品的市場占有率及數(shù)據(jù)散點圖分析,認(rèn)為該企業(yè)的生產(chǎn)能力已經(jīng)趨于穩(wěn)定,假定產(chǎn)品能夠全部銷售出去。試根據(jù)數(shù)據(jù)資料進(jìn)行非線性回歸分析。

年份199019911992199319941995199619971998年份序號123456789產(chǎn)值4.845.216.788.028.759.549.629.910.15249.3非線性回歸分析第1步分析:這顯然是一個非線性回歸的問題。第2步數(shù)據(jù)組織:定義三個變量:“Year”〔年份〕“t”〔年份編號〕,“Products”〔年產(chǎn)值〕,輸入數(shù)據(jù)并保存。第3步進(jìn)行非線性回歸分析:選Log-Modified曲線為回歸模型,并在參數(shù)對話框中將a,b,c的參數(shù)依次設(shè)為-4、63和0.4。

(1)由于非線性回歸的模型很多,在對具體問題進(jìn)行分析時究竟選擇何種數(shù)據(jù)模型,一般是通過先作散點圖,根據(jù)散點圖的情況,再進(jìn)行適當(dāng)?shù)哪P瓦x擇;(2)對具

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論