北航數(shù)理統(tǒng)計大作業(yè)多元線性回歸_第1頁
北航數(shù)理統(tǒng)計大作業(yè)多元線性回歸_第2頁
北航數(shù)理統(tǒng)計大作業(yè)多元線性回歸_第3頁
北航數(shù)理統(tǒng)計大作業(yè)多元線性回歸_第4頁
北航數(shù)理統(tǒng)計大作業(yè)多元線性回歸_第5頁
已閱讀5頁,還剩9頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、應(yīng)用數(shù)理統(tǒng)計多元線性回歸分析第一次作業(yè)學(xué)院: 姓名:  學(xué)號: 2021年12月交通運輸業(yè)產(chǎn)值的多元線性回歸分析摘 要:本文基于?中國統(tǒng)計年鑒?2021年版統(tǒng)計數(shù)據(jù),尋找影響交通運輸業(yè)開展的因素,包括工農(nóng)業(yè)開展水平、能源生產(chǎn)水平、進出口貿(mào)易交流以及居民消費水平等,利用統(tǒng)計軟件SPSS對各因素進行了篩選分析,采用逐步回歸法得到最優(yōu)多元線性回歸模型,并對模型的回歸顯著性、擬合度以及隨機誤差的正態(tài)性進行了檢驗,最后可以利用有效的最優(yōu)回歸模型對將來進行預(yù)測。關(guān) 鍵 字:多元線性回歸,逐步回歸,交通運輸產(chǎn)值,工業(yè)產(chǎn)值,進出口總額1, 引言交通運輸業(yè)指國民經(jīng)濟中專門從事運送貨物和旅客的社會生產(chǎn)部

2、門,包括鐵路、公路、水運、航空等運輸部門。它是國民經(jīng)濟的重要組成局部,是保證人們在政治、經(jīng)濟、文化、軍事等方面聯(lián)系交往的手段,也是銜接生產(chǎn)和消費的一個重要環(huán)節(jié)。交通運輸業(yè)在現(xiàn)代社會的各個方面起著十分重要的作用,因此研究交通運輸業(yè)開展水平與各個影響因素間的關(guān)系顯得十分重要,建立有效的數(shù)學(xué)相關(guān)模型對于預(yù)測交通運輸業(yè)的開展,制定相關(guān)政策方案提供依據(jù)。根據(jù)經(jīng)驗交通運輸業(yè)的開展受到工農(nóng)業(yè)開展、能源生產(chǎn)、進出口貿(mào)易以及居民消費水平等眾因素的影響,故建立一個完整精確的數(shù)學(xué)模型在理論上根本無法實現(xiàn),并且在實際運用中也沒有必要,一種簡單有效的方式就是尋找主要影響因素,分析其與指標(biāo)變量的相關(guān)性,建立多元線性回歸模

3、型就是一種有效的方式。變量與變量之間的關(guān)系分為確定性關(guān)系和非確定性關(guān)系,函數(shù)表達確定性關(guān)系。研究變量間的非確定性關(guān)系,構(gòu)造變量間經(jīng)驗公式的數(shù)理統(tǒng)計方法稱為回歸分析。回歸分析是指通過提供變量之間的數(shù)學(xué)表達式來定量描述變量間相關(guān)關(guān)系的數(shù)學(xué)過程,這一數(shù)學(xué)表達式通常稱為經(jīng)驗公式。一方面,研究者可以利用概率統(tǒng)計知識,對這個經(jīng)驗公式的有效性進行判定;另一方面,研究者可以利用經(jīng)驗公式,根據(jù)自變量的取值預(yù)測因變量的取值。如果是多個因素作為自變量的時候,還可以通過因素分析,找出哪些自變量對因變量的影響是顯著的,哪些是不顯著的?;貧w分析目前在生物統(tǒng)計、醫(yī)學(xué)統(tǒng)計、經(jīng)濟分析、數(shù)據(jù)挖掘中得到了廣泛的應(yīng)用。通過對訓(xùn)練數(shù)據(jù)

4、進行回歸分析得出經(jīng)驗公式,利用經(jīng)驗公式就可以在自變量的情況下預(yù)測因變量的取值。實際問題的控制中往往是根據(jù)預(yù)測結(jié)果來進行的,如在商品流通領(lǐng)域,通常用回歸分析商品價和與商品需求之間的關(guān)系,以便對商品的價格和需求量進行控制。本文查找2021年?中國統(tǒng)計年鑒?取1996年-2021年共16年間的數(shù)據(jù),利用SPSS軟件對影響交通運輸業(yè)開展的因素進行討論構(gòu)造多元線性線性回歸模型。以探求影響交通運輸業(yè)開展水平的各個因素,得到最優(yōu)線性回歸模型。隨后,我們對模型的回歸顯著性、擬合度、正態(tài)分布等分別進行檢驗,以考察線性回歸模型的可信度。2,根底知識及相關(guān)理論2.1 回歸分析回歸分析研究的主要對象是客觀事物變量間的

5、統(tǒng)計關(guān)系,它是建立在對客觀事物進行大量試驗和觀察的根底上,用來尋找隱藏在那些看上去是不確定的現(xiàn)象中的統(tǒng)計規(guī)律性的統(tǒng)計方法。回歸分析方法是通過建立統(tǒng)計模型研究變量間相互關(guān)系的密切程度、結(jié)構(gòu)狀態(tài)及進行模型預(yù)測的一種有效的工具。在實際問題回歸分析模型的建立和分析中有幾個重要的階段:l 根據(jù)研究的目的設(shè)置指標(biāo)變量回歸分析模型主要是揭示事物間相關(guān)變量的數(shù)量聯(lián)系。首先要根據(jù)所研究問題的目的設(shè)置因變量Y,然后再選取與Y有統(tǒng)計關(guān)系的一些變量作為自變量。l 收集、整理統(tǒng)計數(shù)據(jù)回歸分析模型的建立是基于回歸變量的樣本統(tǒng)計數(shù)據(jù)。當(dāng)確定好回歸模型的變量之后,就要對這些變量收集、整理統(tǒng)計數(shù)據(jù)。l 確定理論回歸模型的數(shù)學(xué)形

6、式當(dāng)收集到所設(shè)置的變量的數(shù)據(jù)之后,就要確定適當(dāng)?shù)臄?shù)學(xué)形式來描述這些變量之間的關(guān)系。如果因變量與自變量的散點圖近似一條直線,可考慮用線性回歸模型去擬合這條直線,如果二者之間無線性關(guān)系,那么需要使用非線性模型構(gòu)造回歸模型。l 模型參數(shù)的估計回歸理論模型確定之后,便可以利用收集、整理的樣本數(shù)據(jù)對模型的未知參數(shù)給出估計。位置參數(shù)的估計方法最常用的是普通最小二乘法,它是經(jīng)典的估計方法。l 模型的檢驗當(dāng)模型的位置參數(shù)估計出來后,需要通過對模型的檢驗才能決定參數(shù)估計是否適宜。模型的檢驗一般需要進行統(tǒng)計檢驗和模型經(jīng)濟意義的檢驗。統(tǒng)計檢驗是對回歸方程的顯著性檢驗、以及回歸系數(shù)的顯著性檢驗,還有擬合優(yōu)度的檢驗,殘

7、差的獨立性檢驗等。l 回歸模型的運用當(dāng)一個問題的回歸模型通過了各種統(tǒng)計檢驗,且模型具有合理的經(jīng)濟意義時,就可以運用這個模型來進一步研究此問題。在客觀問題的研究中,我們需要參數(shù)估計的結(jié)果和具體經(jīng)濟問題以及現(xiàn)實情況緊密結(jié)合,這樣才能保證回歸模型在客觀問題研究中得到正確運用。2.2 多元回歸分析一元線性回歸模型研究的是某一個因變量和一個自變量之間的關(guān)系問題,但在實際中,因變量的變化常常受到不止一個自變量的影響,可能同時有兩個或兩個以上的自變量對因變量的變化產(chǎn)生影響。這種研究某一個因變量和多個自變量之間的相互關(guān)系的理論和方法就是多元線性回歸分析方法,它是一元線性模型的拓展。設(shè)隨機變量Y與P(P2)個一

8、般變量X1,X2,XP的線性回歸模型可表示為:Y=0+1X1+2X2+PXP+0稱為回歸常數(shù),1,P稱為偏回歸系數(shù),他們決定了因變量Y與自變量X1,X2,XP的線性關(guān)系的具體形式;是隨機誤差,滿足N(0,2)。如果獲得滿足條件=12nn×1 Y=X+E=0,D=2In Q22(n-p-1)的n組觀測數(shù)據(jù)(xi1,xi2,xip;yi),其中i=1,2,n,那么線性回歸模型可表示為yi=0+1xi1+2xi2+PxiP+i其中i=1,2,n。上式寫成方程組形式為y1=0+1x11+2x12+Px1P+1y2=0+1x21+2x22+Px2P+2yn=0+1xn1+2xn2+PxnP+n

9、記Y=y1y2ynn×1,X=1x11x12x1p1x21x22x2p1xn1xn2xnp,=01p(p+1)×1,=12nn×1那么回歸模型成為Y=X+E=0,D=2In。2.3 逐步回歸法在實際問題中, 人們總是希望從對因變量 y有影響的諸多變量中選擇一些變量作為自變量, 應(yīng)用多元回歸分析的方法建立“最優(yōu)回歸方程以便對因變量進行預(yù)報或控制。所謂“最優(yōu)回歸方程, 主要是指希望在回歸方程中包含所有對因變量y影響顯著的自變量而不包含對y影響不顯著的自變量的回歸方程。逐步回歸分析正是根據(jù)這種原那么提出來的一種回歸分析方法。它的主要思路是在考慮的全部自變量中按其對y的作

10、用大小, 顯著程度大小或者說奉獻大小, 由大到小地逐個引入回歸方程, 而對那些對y作用不顯著的變量可能始終不被引人回歸方程。另外, 己被引人回歸方程的變量在引入新變量后也可能失去重要性, 而需要從回歸方程中剔除出去。引人一個變量或者從回歸方程中剔除一個變量都稱為逐步回歸的一步, 每一步都要進行F檢驗, 以保證在引人新變量前回歸方程中只含有對y影響顯著的變量, 而不顯著的變量已被剔除。由此可見,逐步回歸法是一種向前法和向后法的一種結(jié)合,具體步驟是預(yù)先給定一個出和進或出和進,為防止死循環(huán),要求出 進:1逐步回歸法的前兩部與向前法的前兩步相同,并假定已建立了不完全的相關(guān)模型;2當(dāng)引入變量X2XL2后

11、,對X1XL1做偏F檢驗,看X1是否需要剔除即為向后法: <1>如果 L1>出,那么不剔除XL1,并繼續(xù)引入下一個變量; <2>如果 L1<出,那么從模型中剔除XL1,再繼續(xù)引入下一個變量。重復(fù)上述步驟,直到所有模型外的變量都不能引入,模型內(nèi)的變量都不能被剔除為止。3,模型建立本文查詢了1996年至2021間共16的交通運輸業(yè)增加值,詳細(xì)分析了影響交通運輸業(yè)開展的相關(guān)因素,利用統(tǒng)計軟件SPSS逐步回歸法嘗試建立交通運輸業(yè)增加值與各個因素間的線性回歸模型。3.1 設(shè)置變量近年來,國內(nèi)交通運輸業(yè)得到了大力開展,交通運輸業(yè)產(chǎn)值可以作為衡量交通運輸業(yè)開展水平的重要指

12、標(biāo),本文設(shè)置交通運輸業(yè)產(chǎn)值作為指標(biāo)變量。交通運輸業(yè)作為為國民經(jīng)濟效勞的第三產(chǎn)業(yè),其開展受到工農(nóng)業(yè)的開展、能源生產(chǎn)的影響,同時國內(nèi)外貿(mào)易交流水平近年來也深刻影響了運輸業(yè)的開展,作為交通運輸主要對象的居民,居民消費水平、旅游花費等也影響了運輸業(yè)的開展。經(jīng)過分析,本文選擇農(nóng)業(yè)生產(chǎn)總值、工業(yè)生產(chǎn)總值、能源生產(chǎn)總量、進出口總額、居民消費價格指數(shù)、國民旅游總花費以及交通運輸年客運量共7個因素作為解釋變量研究交通運輸業(yè)的開展。各變量具體設(shè)置為:解釋變量:X1:農(nóng)業(yè)生產(chǎn)總值億元X2:工業(yè)生產(chǎn)總值億元X3:能源生產(chǎn)總量萬噸標(biāo)準(zhǔn)煤X4:進出口總額億元X5:居民消費價格指數(shù)X6:國民旅游總花費億元X7:客運量萬人指

13、標(biāo)變量:Y:交通運輸增加值億元3.2 數(shù)據(jù)收集和整理本文所用數(shù)據(jù)均來源于?中國統(tǒng)計年鑒?2021年,選取1996年-2021數(shù)據(jù)作為回歸模型樣本。數(shù)據(jù)見表1所示。表 1 1996年-2021年各變量數(shù)據(jù)x1x2x3x4x5x6x7y年份農(nóng)業(yè)生產(chǎn)總值/億元工業(yè)生產(chǎn)總值/億元能源生產(chǎn)總量/萬噸標(biāo)準(zhǔn)煤進出口總額/億元居民消費價格指數(shù)國民旅游總花費/億元客運量 /萬人交通運輸增加值/億元1996133032124535719971334601326094199812983413787171999358613193513944132000135048147857320011438751534122200

14、215065616081502003171906158749720041966481767453200521621918470182006232167202415820072472792227761202126055228678922021274619297689820212969163269508202131798735263194,數(shù)據(jù)處理與分析本文基于表1數(shù)據(jù)樣本建立多元線性回歸模型并進行檢驗,研究思路為:首先對解釋變量進行相關(guān)性分析篩選主要影響因素,然后利用逐步回歸法,取顯著性水平采用SPSS軟件對回歸系數(shù)進行估計,最后從回歸方程顯著性、擬合度以及殘差三個方面對模型進行檢驗,證實模型的

15、有效性。4.1 初步確定理論回歸模型研究指標(biāo)變量與各個解釋變量的相關(guān)性可以利用散點圖直觀分析剔除相關(guān)性不顯著的因素,也可以利用SPSS軟件直接計算Pearson相關(guān)系數(shù)篩選主要影響因素。本文利用SPSS軟件計算各因素相關(guān)系數(shù)如表2所示。表 2 各影響因素與指標(biāo)變量的相關(guān)系數(shù)x1x2x3x4x5x6x7yx1Pearson 相關(guān)性1.997*.972*.963*.352.976*.992*.985*顯著性雙側(cè).000.000.000.181.000.000.000N1616161616161616x2Pearson 相關(guān)性.997*1.983*.978*.336.967*.990*.995*顯著

16、性雙側(cè).000.000.000.204.000.000.000N1616161616161616x3Pearson 相關(guān)性.972*.983*1.990*.347.922*.961*.988*顯著性雙側(cè).000.000.000.187.000.000.000N1616161616161616x4Pearson 相關(guān)性.963*.978*.990*1.388.921*.947*.985*顯著性雙側(cè).000.000.000.138.000.000.000N1616161616161616x5Pearson 相關(guān)性.352.336.347.3881.308.290.305顯著性雙側(cè).181.204.

17、187.138.246.275.251N1616161616161616x6Pearson 相關(guān)性.976*.967*.922*.921*.3081.957*.952*顯著性雙側(cè).000.000.000.000.246.000.000N1616161616161616x7Pearson 相關(guān)性.992*.990*.961*.947*.290.957*1.982*顯著性雙側(cè).000.000.000.000.275.000.000N1616161616161616yPearson 相關(guān)性.985*.995*.988*.985*.305.952*.982*1顯著性雙側(cè).000.000.000.000

18、.251.000.000N1616161616161616*. 在 .01 水平雙側(cè)上顯著相關(guān)。中度相關(guān),0.3<|r|<0.5低度相關(guān),|r|<0.3相關(guān)程度極弱,可視為不相關(guān)。從表2中可知,Y與X5相關(guān)系數(shù)為0.305,相關(guān)程度很弱,在建立回歸模型中可以忽略該因素的影響;而Y與其他因素都高度相關(guān),從相關(guān)性選取回歸模型主要影響因素X2、X3和X4。圖1與圖2分別表示指標(biāo)變量Y與解釋變量X5和X2的散點圖,從圖中也可直觀分析出影響Y變量的X變量的線性相關(guān)性。圖 1 Y與X5散點圖 圖 2 Y與X2散點圖交通運輸業(yè)產(chǎn)值與居民消費價格指數(shù)相關(guān)性很弱,這是因為居民消費價格指數(shù)反映的

19、是一定時期內(nèi)城鄉(xiāng)居民做購置的生活消費品和效勞價格變動趨勢和程度,居民消費水平受到多種因素影響,不能以它作為影響交通運輸業(yè)開展的主要線性因素。而交通運輸業(yè)的開展主要受益于工業(yè)水平的開展,以及能源生產(chǎn)水平的開展,近年來受國內(nèi)外貿(mào)易交流影響增大,應(yīng)選這三個主要因素作為回歸模型分析?;貧w模型建立為:4.2 模型參數(shù)估計確定主要影響因素X2、X3和X4后,采用逐步回歸法,取顯著性水平使用SPSS軟件對原始數(shù)據(jù)作線性回歸分析,得到最優(yōu)回歸方程,逐步回歸法得到回歸系數(shù)表如表3所示。表 3 模型回歸系數(shù)表模型非標(biāo)準(zhǔn)化系數(shù)標(biāo)準(zhǔn)系數(shù)tSig.B標(biāo)準(zhǔn) 誤差試用版1(常量).000x2.113.003.995.000

20、2(常量).000x2.080.012.709.000x4.024.009.293.020a. 因變量: y逐步回歸模型中采用F檢驗引入解釋變量顯著性水平閾值,剔除解釋變量顯著性水平。從表3可知逐步回歸得到兩個模型,其中模型2為最優(yōu)模型,回歸方程為:由回歸方程可知,對Y有顯著影響的是X2和X4,即影響交通運輸業(yè)產(chǎn)值的主要因素時工業(yè)產(chǎn)值與進出口總額,換句話說就是影響交通運輸業(yè)開展的主要因素時工業(yè)水平的開展與國家進出口貿(mào)易水平?;貧w方程中回歸系數(shù)都為正值,說明工業(yè)水平的開展與國家進出口貿(mào)易水平的開展都有利于開展交通運輸業(yè)。直觀而言,交通運輸業(yè)的開展離不開一個國家的工業(yè)開展,工業(yè)的開展一方面為交通運

21、輸業(yè)提供了流通的產(chǎn)品與資源,使得交通運輸業(yè)得以生存開展;另一反面工業(yè)的開展為交通運輸業(yè)提供了大量先進快速的交通工具,加速了交通運輸業(yè)的開展。另一個重要的影響因素進出口貿(mào)易水平是近年來我國與國外市場貿(mào)易交流得到大力開展,國內(nèi)大量產(chǎn)品外銷海外,這極大的刺激了交通運輸業(yè)的開展,可以預(yù)見這一因素在將來將越來越重要的影響到交通運輸業(yè)的開展。表 4 逐步回歸模型排除變量模型Beta IntSig.偏相關(guān)共線性統(tǒng)計量容差1x3.304b.042.530.033x4.293b.020.593.0442x3.115c.588.567.167.015a. 因變量: yb. 模型中的預(yù)測變量: (常量), x2。c

22、. 模型中的預(yù)測變量: (常量), x2, x4。值得注意的是,如表4所示,最優(yōu)模型2中將X3這一因素剔除,說明交通運輸業(yè)的開展一定程度上與能源生產(chǎn)總量沒有顯著性關(guān)系。從這一個層面說明能源的開展水平并沒有限制交通運輸?shù)拈_展,從市場供求關(guān)系而言國內(nèi)交通運輸業(yè)的開展需求大于現(xiàn)有運力的供應(yīng)。4.3 模型檢驗4.3.1 回歸方程的顯著性檢驗對回歸方程的顯著性檢驗就是要看自變量X1、X2、XP從整體上對隨機變量Y是否有明顯的影響,顯著性檢驗有兩種方法:一是回歸方程顯著性的F檢驗,二是回歸系數(shù)顯著性的t檢驗。這里僅對F檢驗進行論述,t檢驗原理相同。F檢驗原假設(shè)H0假定自變量系數(shù)1=2=P=0當(dāng)所構(gòu)造F檢驗

23、統(tǒng)計量F>F(n-p-1)時拒絕原假設(shè),認(rèn)為回歸方程顯著;或P=PF>Fn-p-1<時,拒絕原假設(shè),回歸方程顯著。選定顯著性水平,利用SPSS軟件計算出的方差分析表如表5所示。表 5 方差分析表模型平方和df均方FSig.1回歸1.000b殘差14總計152回歸2.000c殘差13總計15a. 因變量: yb. 預(yù)測變量: (常量), x2。c. 預(yù)測變量: (常量), x2, x4。從表5可知,顯著性P值即表中Sig值均小于0.05,因此拒接原假設(shè),回歸方程線性回歸效果顯著。4.3.2 擬合度檢驗擬合度用于檢驗回歸方程對樣本觀測值的擬合程度,其值越大說明隨機誤差所占的比重越

24、小,回歸的效果越顯著??蓻Q系數(shù)也稱擬合優(yōu)度定義為:通產(chǎn)定義r為相關(guān)系數(shù):它描述了指標(biāo)變量與解釋變量之間的線性相關(guān)程度。與值越接近1,說明回歸方程對樣本觀測值擬合得很好,表6所示為模型相關(guān)系數(shù)值。表 6 模型相關(guān)系數(shù)表模型RR 方調(diào)整 R 方標(biāo)準(zhǔn) 估計的誤差更改統(tǒng)計量R 方更改F 更改df1df2Sig. F 更改1.995a.989.988.989114.0002.996b.993.992.004113.020a. 預(yù)測變量: (常量), x2。b. 預(yù)測變量: (常量), x2, x4。c. 因變量: y由表6可知,模型2相關(guān)系數(shù)和比模型的相關(guān)系數(shù)大,說明模型2擬合效果最好,模型2得到的回歸方程是最優(yōu)方程。4.3.3 殘差檢驗如圖3和圖4分別是殘差分布直方圖和觀測量累計概率P-P圖。在回歸分析中,總是假定殘差服從正態(tài)分布,這兩個圖就是根據(jù)樣本數(shù)據(jù)的計算結(jié)果顯示殘差分析的實際情況。從圖3殘差分布的直方圖與附于其上的正態(tài)分布曲線的比擬,可以觀察出殘差分析的正態(tài)性。觀測量累計概率P-P圖也是用來比擬殘差分布與正態(tài)分布差異的圖形,圖4的縱坐標(biāo)為期望累計概率分布,橫坐標(biāo)為觀測累計概率分布,圖中的斜線對應(yīng)著一個均值為0的正態(tài)分布,從而證明樣本確實是來自正態(tài)總體。否那么應(yīng)疑心隨機變量殘差的正態(tài)性。圖 3 殘差分布直方圖圖 4 觀測量累計概率P-P圖4.4

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論