回歸分析法概念及原理_第1頁
回歸分析法概念及原理_第2頁
回歸分析法概念及原理_第3頁
回歸分析法概念及原理_第4頁
回歸分析法概念及原理_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、回歸分析法概念及原理回歸分析定義:利用數(shù)據(jù)統(tǒng)計原理,對大量統(tǒng)計數(shù)據(jù)進行數(shù)學處理,并確定因變 量與某些自變量的相關關系,建立一個相關性較好的回歸方程(函數(shù)表達式), 并加以外推,用于預測今后的因變量的變化的分析方法。分類:根據(jù)因變量和自變量的個數(shù)來分類:一元回歸分析;多元回歸分析;根據(jù)因變量和自變量的函數(shù)表達式來分類:線性回歸分析;非線性回歸分析;幾點說明:通常情況下,線性回歸分析是回歸分析法中最基本的方法,當遇到非線性回 歸分析時,可以借助數(shù)學手段將其化為線性回歸;因此,主要研究線性回歸 問題,一點線性回歸問題得到解決,非線性回歸也就迎刃而解了,例如,取 對數(shù)使得乘法變成加法等;當然,有些非線

2、性回歸也可以直接進行,如多項 式回歸等;在社會經(jīng)濟現(xiàn)象中,很難確定因變量和自變量之間的關系,它們大多是隨機 性的,只有通過大量統(tǒng)計觀察才能找出其中的規(guī)律。隨機分析是利用統(tǒng)計學 原理來描述隨機變量相關關系的一種方法;由回歸分析法的定義知道,回歸分析可以簡單的理解為信息分析與預測。信 息即統(tǒng)計數(shù)據(jù),分析即對信息進行數(shù)學處理,預測就是加以外推,也就是適 當擴大已有自變量取值范圍,并承認該回歸方程在該擴大的定義域內(nèi)成立, 然后就可以在該定義域上取值進行“未來預測”。當然,還可以對回歸方程進 行有效控制;相關關系可以分為確定關系和不確定關系。但是不論是確定關系或者不確定 關系,只要有相關關系,都可以選擇

3、一適當?shù)臄?shù)學關系式,用以說明一個或 幾個變量變動時,另一變量或幾個變量平均變動的情況。相關關系線性相關| |非線性相關|完全相關| 不相關正相關I |負相關|正相關| |負相關回歸分析主要解決的問題:回歸分析主要解決方面的問題;確定變量之間是否存在相關關系,若存在,則找出數(shù)學表達式;根據(jù)一個或幾個變量的值,預測或控制另一個或幾個變量的值,且要估計這 種控制或預測可以達到何種精確度?;貧w模型:回歸模型一元回歸多元回歸線性回歸非線性回歸線性回歸非線性回歸回歸分析步驟:根據(jù)自變量與因變量的現(xiàn)有數(shù)據(jù)以及關系,初步設定回歸方程;求出合理的回歸系數(shù);進行相關性檢驗,確定相關系數(shù);在符合相關性要求后,即可根

4、據(jù)已得的回歸方程與具體條件相結合,來確定 事物的未來狀況,并計算預測值的置信區(qū)間;回歸分析的有效性和注意事項:有效性:用回歸分析法進行預測首先要對各個自變量做出預測。若各個自變量可 以由人工控制或易于預測,而且回歸方程也較為符合實際,則應用回歸預測是有 效的,否則就很難應用;注意事項:為使回歸方程較能符合實際,首先應盡可能定性判斷自變量的可能種 類和個數(shù),并在觀察事物發(fā)展規(guī)律的基礎上定性判斷回歸方程的可能類型;其次, 力求掌握較充分的高質(zhì)量統(tǒng)計數(shù)據(jù),再運用統(tǒng)計方法,利用數(shù)學工具和相關軟件 從定量方面計算或改進定性判斷?;貧w分析中的幾個常用概念:實際值:實際觀測到的研究對象特征數(shù)據(jù)值;理論值:根

5、據(jù)實際值我們可以得到一條傾向線,用數(shù)學方法擬合這條曲線,可以 得到數(shù)學模型,根據(jù)這個數(shù)學模型計算出來的、與實際值相對應的值,稱為理論 值;預測值:實際上也是根據(jù)數(shù)學模型計算出來的理論值,但它是與未來對應的理論 值。表示符號:實際值,用J表示;理論值,用J表示;預測值,用J表示。ii0+Unary Linear Regression+ 一元線性回歸,就是只涉及一個自變量的回歸;自變量和因變量之間的關系是 線性關系的回歸;因變量與自變量之間的關系用一條線性方程來表示的回歸。方法步驟:確定回歸模型:由于我們研究的是一元線性回歸,因此其回歸模型可表示為:J = 8 +叩+ ; 其中,j是因變量;.是自

6、變量;e是誤差項;8和8 1稱為模型參數(shù)(回歸系數(shù))。求出回歸系數(shù):這里的回歸系數(shù)的求解,就要用一定的方法,使得該系數(shù)應用于該方程是“合理 的”。最常用的一種方法就是最小二乘估計法。最小二乘法是測量工作和科學實 驗中最常用的一種數(shù)據(jù)處理方法,其基本原理是,根據(jù)實驗觀測得到的自變量x 和因變量y之間的一組對應關系,找出一個給定類型的函數(shù)j = f 3),使得它所 取的值f (X ), f (X ), ,f (X )與觀測值j , j ,,j在某 TOC o 1-5 h z 12n12n種尺度下最接近,即在各點處的偏差的平方和達到最小,即(j - j )2 = X(j - 8 - 8 x )2 =

7、最小。這種方法求的的8和8將使得擬合直線 i ii 01 i01i=1i =1j = 8 +18 X中的j和X之間的關系與實際數(shù)據(jù)的誤差比其他任何直線都小。01根據(jù)最小二乘法的要求,可以推導得到最小二乘法的計算公式:nxy 一i=1nLx 2 一i人i=1i=1-1亍 -1亍x = _ J x , y = _ Jni=1nyi ;i=1、P0 = y -P1 x相關性檢驗:從而得到回歸方程。至于J對于若干組具體數(shù)據(jù)(x , y )都可算出回歸系數(shù)B , B i i01與x之間是否真有如回歸模型所描述的關系,或者說用所得的回歸模型去擬合實 際數(shù)據(jù)是否有足夠好的近似,并沒有得到判明。因此,必須對回

8、歸模型描述實際 數(shù)據(jù)的近似程度,也即對所得的回歸模型的可信程度進行檢驗,稱為相關性檢驗。E Xy -Z x y=i i相關系數(shù)是衡量一組測量數(shù)據(jù)氣,y,線性相關程度的參量,其定義為:r = xy - xy ,或者 r = 據(jù)-x2序-y 2),:nZx2-Zx2nZy2-Zy2* i=1i=1i=1i=1r值在0v | r |W1中。| r |越接近于1,x,y之間線性好;r為正,直線斜率為 正,稱為正相關;r為負,直線斜率為負,稱為負相關。| r |接近于0,則測量 們必點分散種判冒囂盈鬻的方論測用數(shù)判好壞都能求出量數(shù)據(jù)不宜所以我 判斷的方法是| r | v r0時,測量數(shù)據(jù)是非線性的.r稱

9、為相關系數(shù)的起碼值,與 測量次數(shù)n有關,如下表:0相關系數(shù)起碼值r0nr0nr0nr031.00090.798150.64140.990100.765160.62350.959110.735170.60660.917120.708180.59070.874130.684190.57580.834140.661200.561在進行一元線性回歸之前應先求出r值,再與r比較,若| r | r0,則x和y具 置信區(qū)間的,定:口當確定相關性后,就可以對置信區(qū)間進行確定,就可以結合實際情況,確定事物 未來的狀況了?;貧w分析的最主要的應用就在于“預測”,而預測是不是準確的, 就得有一個衡量的工具。它就是置信

10、區(qū)間?;蛘邚牧硗庖环矫鎭碚f,回歸方程是 由數(shù)理統(tǒng)計得出的,它反映的是實際數(shù)據(jù)的統(tǒng)計規(guī)律,所以,根據(jù)回歸方程所得 的預測值y只是對應于x的單點預測估計值,預測值應該有一個置信區(qū)間。這 樣來看,計)算置信區(qū)間就是很有必要的。置信區(qū)間:才(y - y )2S 2 = ,=1 n-2 ,其中S 2是a 2的無偏估計量,S 2稱為剩余方差,S稱為剩余 標準差。注:該表達式的自由度為n-2是因為有2個限制變量x和y,故對于給 定的x0,y值的概率為0.95的置信區(qū)間是:(y - 1.96S, y + 1.96S)。點擊參看置 信區(qū)間的確定內(nèi)容。+Example實驗數(shù)據(jù)如下表:城鎮(zhèn)居民家庭人 均可支配收入城

11、市人均住宅面 積城鎮(zhèn)居民家庭人 均可支配收入城市人均住宅面 積343.46.74838.917.0477.67.25160.317.8739.110.05425.118.71373.913.55854.019.41510.213.76280.020.31700.614.26859.620.82026.614.87702.822.82577.415.28472.223.73496.215.79421.625.04283.016.310493.026.1步驟一:先畫出散點圖,進行觀察:程序如下: clf x=343.4 477.6 739.1 1373.9 1510.2 1700.6 2026.6

12、 2577.4 3496.2 4283.0 4838.95160.3 5425.1 5854.0 6280.0 6859.6 7702.8 8472.2 9421.6 0493.0;y=6.7 7.2 10.0 13.5 13.7 14.2 14.8 15.2 15.7 16.3 17.0 17.8 18.7 19.4 20.3 20.8 22.823.7 25.0 26.1;plot(x,y,x) xlabel(城鎮(zhèn)居民家庭人均可支配收入)ylabel(城市人均住宅面積)在MATALB中的運行結果:301000 2000 3000 4000 5000 6000 7000 8000 9000

13、10000 城鎮(zhèn)居民家庭人均可支配收入25OO 52 1可以看到,除了個別點除外,基本上所有的點都分布在一條直線的附近。而且自變量只有一個,因此可以假設其回歸模型為:J = 8。+叩+ ;步驟二:求出回歸系數(shù),過程根據(jù)最小而乘法的公式計算;計算公式為:2 P= n 2 八 八i=i P = y - *xi=1/ i=1、21i /i=1七匕其中-1亍 -1亍x = _ x , y = _ y ; n i =1n ii=1編程: n1,n2=size(x);lxx=0;lxy=0for k=1:n2lxx=lxx+(x(k)-mean(x)A2lxy=lxy+(x(k)-mean(x)*(y(k

14、)-mean(y) end b=lxy/lxxa=mean(y)-b*mean(x)在MATLAB中的運行結果:求得 P =0.0017 P =9.4866, 故:y =9.4866+0.0017x 為所求。 10整個數(shù)據(jù)擬合如下: clf x=343.4 477.6 739.1 1373.9 1510.2 1700.6 2026.6 2577.4 3496.2 4283.0 4838.95160.3 5425.1 5854.0 6280.0 6859.6 7702.8 8472.2 9421.6 0493.0;y=6.7 7.2 10.0 13.5 13.7 14.2 14.8 15.2 1

15、5.7 16.3 17.0 17.8 18.7 19.4 20.3 20.8 22.823.7 25.0 26.1;plot(x,y,x) xlabel(城鎮(zhèn)居民家庭人均可支配收入)ylabel(城市人均住宅面積) n1,n2=size(x);lxx=0;lxy=0for k=1:n2lxx=lxx+(x(k)-mean(x)A2lxy=lxy+(x(k)-mean(x)*(y(k)-mean(y)endb=lxy/lxxa=mean(y)-b*mean(x)n1,n2=size(x);lxx=0;lxy=0for k=1:n2lxx=lxx+(x(k)-mean(x)A2lxy=lxy+(x(k)-mean(x)*(y(k)-mean(y)endb=lxy/lxxa=mean(y)-b*mean(x)xx=linspace(0,12000,500)yy=a+b*xx;hold onplot(xx,yy,b-)text(6000,15,FitFunction: y=a+b*x)在MATLAB中運行得到擬合圖:步驟三:相關性檢驗;r = :_-=,同理編程計算出相關系數(shù)為:(x2 - x2)(y2 - y2)r=0.964740192922406由于r的絕對值很接近1,所以相

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論