《概率論與數(shù)理統(tǒng)計》課件 孟祥波 第十章 回歸分析_第1頁
《概率論與數(shù)理統(tǒng)計》課件 孟祥波 第十章 回歸分析_第2頁
《概率論與數(shù)理統(tǒng)計》課件 孟祥波 第十章 回歸分析_第3頁
《概率論與數(shù)理統(tǒng)計》課件 孟祥波 第十章 回歸分析_第4頁
《概率論與數(shù)理統(tǒng)計》課件 孟祥波 第十章 回歸分析_第5頁
已閱讀5頁,還剩103頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

概率論

與數(shù)理統(tǒng)計理學(xué)院數(shù)學(xué)系“悟道詩---嚴(yán)加安”隨機(jī)非隨意,概率破玄機(jī);無序隱有序,統(tǒng)計解迷離.第十章回歸分析第一節(jié)相關(guān)與回歸分析概述二、相關(guān)關(guān)系的度量與可視化四、小結(jié)一、相關(guān)關(guān)系三、什么是回歸分析一、相關(guān)關(guān)系函數(shù)關(guān)系:人的身高和體重父親的身高和成年兒子的身高糧食的施肥量和產(chǎn)量商品的廣告費和銷售額相關(guān)關(guān)系:例如例如二、相關(guān)關(guān)系的度量與可視化1.相關(guān)系數(shù)隨機(jī)變量X

和Y

的相關(guān)系數(shù)定義如下:其中

是X和Y的協(xié)方差,分別為X和Y的方差.二、相關(guān)關(guān)系的度量與可視化1.相關(guān)系數(shù)在實際問題中,基于X

和Y

的n

對觀測數(shù)據(jù)

可以利用下式計算X和Y的相關(guān)系數(shù):稱r

為變量X

和Y

的樣本相關(guān)系數(shù).二、相關(guān)關(guān)系的度量與可視化1.相關(guān)系數(shù)樣本相關(guān)系數(shù)r度量了變量X

和Y

的線性相關(guān)性的強弱,滿足.對于固定的樣本容量n1);2)越接近于1時,X

和Y

的線性相關(guān)性越強;3)越接近于0時,X

和Y

的線性相關(guān)性越弱.二、相關(guān)關(guān)系的度量與可視化1.相關(guān)系數(shù)二、相關(guān)關(guān)系的度量與可視化2.散點圖二、相關(guān)關(guān)系的度量與可視化3.相關(guān)系數(shù)矩陣圖設(shè)有m個變量,對它們進(jìn)行n

次獨立的觀測,觀測數(shù)據(jù)矩陣記為定義的相關(guān)系數(shù)矩陣如下:3.相關(guān)系數(shù)矩陣圖其中這里為變量和的相關(guān)系數(shù),滿足.例10.1.1

在有氧鍛煉中,人的耗氧能力Y是衡量身體狀況的重要指標(biāo),它可能與以下因素有關(guān):年齡X1

(歲),體重X2(kg),1500米跑所用的時間X3(min),靜止時心速X4(次/min),跑步后心速X5(次/min).對24名40至57歲的志愿者進(jìn)行了測試,結(jié)果如下表所列.試根據(jù)這些數(shù)據(jù)分析耗氧能力Y與諸因素之間的相關(guān)性.例10.1.1

數(shù)據(jù)表:序號yx1x2x3x4x5144.64489.56.8262178245.34075.16.0462185354.34485.85.1945156459.64268.24.940166549.938895.5355178…………………2345.45276.35.78481642454.75070.95.3548146解經(jīng)計算得的相關(guān)系數(shù)矩陣如下:為了直觀,繪制相關(guān)系數(shù)矩陣圖,圖中用橢圓色塊直觀地表示變量間的線性相關(guān)程度的大小.相關(guān)系數(shù)矩陣圖第i行,第j

列的橢圓色塊用來表示第i個變量和第j

個變量的相關(guān)性,其短半軸和長半軸滿足注:橢圓越扁,變量間相關(guān)系數(shù)的絕對值越接近于1,橢圓越圓,變量間相關(guān)系數(shù)的絕對值越接近于0.若橢圓的長軸方向是從左下到右上,則變量間為正相關(guān),反之為負(fù)相關(guān).三、什么是回歸分析回歸分析是對變量的相關(guān)關(guān)系進(jìn)行建模的數(shù)學(xué)工具.回歸分析的內(nèi)容包括:1)從一組樣本數(shù)據(jù)出發(fā),確定因變量和自變量之間的數(shù)學(xué)關(guān)系式,即經(jīng)驗回歸方程;2)對經(jīng)驗回歸方程進(jìn)行顯著性檢驗;3)對回歸方程中的各項進(jìn)行檢驗,判斷哪些項對因變量的影響是顯著的,哪些是不顯著的,通常需要剔除不顯著的項,重新計算,對模型做出改進(jìn);4)利用所求得的經(jīng)驗回歸方程進(jìn)行預(yù)測和控制.小結(jié)1.主要概念:相關(guān)關(guān)系,相關(guān)系數(shù),樣本相關(guān)系數(shù),相關(guān)系數(shù)矩陣.2.基于樣本數(shù)據(jù)計算樣本相關(guān)系數(shù)和相關(guān)系數(shù)矩陣.3.散點圖和相關(guān)系數(shù)矩陣圖.概率論

與數(shù)理統(tǒng)計理學(xué)院數(shù)學(xué)系“悟道詩---嚴(yán)加安”隨機(jī)非隨意,概率破玄機(jī);無序隱有序,統(tǒng)計解迷離.第十章回歸分析第二節(jié)一元線性回歸二、參數(shù)的最小二乘估計四、利用回歸方程進(jìn)行預(yù)測一、一元線性回歸模型三、回歸方程的顯著性檢驗五、小結(jié)一、一元線性回歸模型隨機(jī)變量

Y可控變量X線性相關(guān)Y

關(guān)于X的一

元線性回歸模型:

n

次獨立觀測數(shù)據(jù)a,b

為待估計的模型參數(shù).εi為隨機(jī)誤差項.一、一元線性回歸模型當(dāng)時,,可得對每個,相應(yīng)的因變量的觀測值來自于正態(tài)總體,回歸直線將穿過點,即回歸直線從Y的均值位置穿過.理論回歸方程:二、參數(shù)的最小二乘估計假設(shè)a,b

的估計量為擬合誤差(殘差)一個比較好的回歸方程應(yīng)該使所有觀測點的殘差平方和盡可能小二、參數(shù)的最小二乘估計殘差平方和:二元函數(shù)的最小值點稱為a,b

的最小二乘估計.求關(guān)于的偏導(dǎo)數(shù),并令其等于0,列方程組如下:二、參數(shù)的最小二乘估計進(jìn)一步整理得:其中當(dāng)不全相等時,方程組的系數(shù)矩陣的行列式二、參數(shù)的最小二乘估計解得唯一解:經(jīng)驗回歸方程:其中注:經(jīng)驗回歸直線一定過觀測數(shù)據(jù)散點圖的幾何中心例10.2.1

由專業(yè)知識可知,合金鋼的強度Y(107

Pa)與合金鋼中碳的含量X

(%)有關(guān).為了研究它們之間的關(guān)系,從生產(chǎn)中收集了一批數(shù)據(jù),如下表所列.試根據(jù)這些數(shù)據(jù)求Y關(guān)于X的經(jīng)驗回歸方程.序號xy序號xy10.1042.070.1649.020.1143.580.1753.030.1245.090.1850.040.1345.5100.2055.050.1445.0110.2155.060.1547.5120.2360.0解先根據(jù)已知數(shù)據(jù)繪制X

和Y

的散點圖解由散點圖可知,12個觀測數(shù)據(jù)點分布在一條直線附近,Y與X是線性相關(guān)的.假定Y

關(guān)于X

的理論回歸方程為經(jīng)計算得從而可得故Y

關(guān)于X

的經(jīng)驗回歸方程為三、回歸方程的顯著性檢驗對于變量Y和X的任意n對觀測值,只要不全相等,則無論變量Y和X之間是否存在線性相關(guān)關(guān)系,都可根據(jù)上面介紹的方法求得一個線性回歸方程。顯然,只有當(dāng)變量Y和X之間存在線性相關(guān)關(guān)系時,這樣的線性回歸方程才是有意義的.為了使求得的線性回歸方程真正有意義,就需要檢驗變量Y

和X

之間是否存在顯著的線性相關(guān)關(guān)系.三、回歸方程的顯著性檢驗1.F

檢驗離差分解:三、回歸方程的顯著性檢驗1.F

檢驗殘差平方和回歸平方和三、回歸方程的顯著性檢驗1.F檢驗定理10.2.1對于一

元線性回歸,有并且和相互獨立H0成立時,三、回歸方程的顯著性檢驗1.F檢驗檢驗統(tǒng)計量拒絕域aF

(1,n-2)0拒絕H0不能拒絕H0FF分布三、回歸方程的顯著性檢驗1.F

檢驗當(dāng)時拒絕原假設(shè)H0,認(rèn)為Y

和X之間的線性相關(guān)關(guān)系是顯著的.方差來源平方和自由度均方F值臨界值回歸SSR1MSR=SSR/1MSR/MSE

Fα(1,n–2)殘差SSEn–2MSE=SSE

/(n–2)總和SSTn–1一元線性回歸的方差分析表:例10.2.2

在研究合金鋼的強度(Y)與碳含量(X)關(guān)系的例10.2.1中,我們已經(jīng)求出了Y關(guān)于X的經(jīng)驗回歸方程,接下來取顯著性水平α

=0.01,對回歸方程進(jìn)行顯著性檢驗.解經(jīng)計算得從而可得解SST,SSR,SSE

的自由度分別為11,1和10,從而可得各均方分別為檢驗統(tǒng)計量的觀測值由于檢驗統(tǒng)計量可得檢驗的p

值為解由上表可知兩不等式均可說明在顯著性水平0.01下,Y和X之間的線性相關(guān)關(guān)系是顯著的,或者說Y關(guān)于X的回歸方程是顯著的.又F(1,10)分布的上側(cè)0.01分位數(shù),于是可得方差分析表如下:方差來源平方和自由度均方F值臨界值p值回歸317.25871317.2587176.539310.040.0000殘差17.9705101.7971

總計335.229211

三、回歸方程的顯著性檢驗2.t檢驗定理10.2.2對于一

元線性回歸,有并且和相互獨立(1)的分布并且和相互獨立2.t檢驗當(dāng)原假設(shè)成立時,檢驗統(tǒng)計量(2)檢驗統(tǒng)計量和拒絕域拒絕域檢驗的p

值其中稱為剩余標(biāo)準(zhǔn)差(或均方根誤差)故在顯著性水平0.01下拒絕原假設(shè)H0,認(rèn)為Y關(guān)于X

的回歸方程是顯著的以例10.2.1中數(shù)據(jù)為例,經(jīng)計算得注:對于一元線性回歸分析,t檢驗和F檢驗是等同的四、利用回歸方程進(jìn)行預(yù)測1.點預(yù)測稱為

y0的點預(yù)測.對于給定的X=x0,由于因變量Y是隨機(jī)變量,Y

的相應(yīng)取值y0是無法準(zhǔn)確預(yù)測的.將x0代入經(jīng)驗回歸方程,只能得到y(tǒng)0的均值的估計四、回歸系數(shù)的顯著性檢驗2.區(qū)間預(yù)測對于給定的X=x0,相應(yīng)的y0

的均值a+bx0

的點估計為由可得y0

的置信水平為1-α

的預(yù)測區(qū)間為其中四、回歸系數(shù)的顯著性檢驗2.區(qū)間預(yù)測當(dāng)時,y0的預(yù)測區(qū)間的長度達(dá)到最短當(dāng)x0逐漸遠(yuǎn)離時,預(yù)測區(qū)間的長度逐漸增大例10.2.3

在例10.2.1中,若碳含量為0.19,求相應(yīng)的合金鋼強度的預(yù)測值和置信水平為95%的預(yù)測區(qū)間.解令,可得合金鋼強度y0

的預(yù)測值為取,則,又可得從而可得所求預(yù)測區(qū)間為小結(jié)1.主要概念:一元線性回歸模型,理論回歸方程,經(jīng)驗回歸方程.2.參數(shù)的最小二乘估計.3.回歸方程的顯著性檢驗:F檢驗和

t

檢驗.4.利用回歸方程進(jìn)行預(yù)測:點預(yù)測和區(qū)間預(yù)測.概率論

與數(shù)理統(tǒng)計理學(xué)院數(shù)學(xué)系“悟道詩---嚴(yán)加安”隨機(jī)非隨意,概率破玄機(jī);無序隱有序,統(tǒng)計解迷離.第十章回歸分析第三節(jié)多元線性回歸二、參數(shù)的最小二乘估計四、回歸系數(shù)的顯著性檢驗一、多元線性回歸模型三、回歸方程的顯著性檢驗五、小結(jié)一、多元線性回歸模型隨機(jī)變量

Y可控變量X1,X2,…,

Xm線性相關(guān)Y

關(guān)于X1,X2,…,

Xm

的m

元線性回歸模型:

n

組獨立觀測數(shù)據(jù)b0,b1,…,

bm為待估計的模型參數(shù).εi為隨機(jī)誤差項.一、多元線性回歸模型Y

關(guān)于X1,X2,…,

Xm

的m

元線性回歸模型:Y

關(guān)于X1,X2,…,

Xm

的理論回歸方程:二、參數(shù)的最小二乘估計假設(shè)b0,b1,…,

bm的估計量為回歸平面擬合誤差(殘差)一個比較好的回歸方程應(yīng)該使所有觀測點的殘差平方和盡可能小二、參數(shù)的最小二乘估計殘差平方和:求m+1元函數(shù)的最小值點,即得未知參數(shù)b0,b1,…,

bm的最小二乘估計二、參數(shù)的最小二乘估計求關(guān)于的偏導(dǎo)數(shù),并令其等于0,列方程組如下:稱為正規(guī)方程組二、參數(shù)的最小二乘估計1.第一種解法求解方程組其中二、參數(shù)的最小二乘估計1.第一種解法由后m個方程解得,代入第一個方程得Y

關(guān)于X1,X2,…,

Xm

的經(jīng)驗回歸方程:二、參數(shù)的最小二乘估計2.第二種解法(矩陣解法)令可得正規(guī)方程組的矩陣形式X

稱為設(shè)計矩陣二、參數(shù)的最小二乘估計2.第二種解法(矩陣解法)由解得將代入理論回歸方程式同樣可得經(jīng)驗回歸方程三、回歸方程的顯著性檢驗1.離差平方和分解殘差平方和回歸平方和三、回歸方程的顯著性檢驗2.F檢驗法定理10.3.1對于m

元線性回歸,有并且和相互獨立H0成立時,三、回歸方程的顯著性檢驗2.F檢驗法檢驗統(tǒng)計量拒絕域aF

(m,n-m-1)0拒絕H0不能拒絕H0FF分布三、回歸方程的顯著性檢驗3.方差分析表當(dāng)時拒絕原假設(shè)H0,認(rèn)為回歸方程整體上是顯著的.方差來源平方和自由度均方F值回歸SSRmMSR=SSR/mMSR/MSE

剩余SSEn–m–1MSE=SSE

/(n–m–1)總和SSTn–1四、回歸系數(shù)的顯著性檢驗1.的分布并且和相互獨立.定理10.3.2記,對于m元線性回歸模型,有四、回歸系數(shù)的顯著性檢驗2.t

檢驗法對于給定的顯著性水平α,檢驗的拒絕域為當(dāng)原假設(shè)H0成立時,檢驗統(tǒng)計量檢驗的p

值:例10.3.1

考察15名不同程度的煙民的每日抽煙量X1(支)、飲酒(啤酒)量X2(L)與其心電圖指標(biāo)Y的對應(yīng)數(shù)據(jù),如下表所列:(1)求變量的相關(guān)系數(shù)矩陣;(2)求Y

關(guān)于的二元線性回歸方程;(3)對回歸方程進(jìn)行顯著性檢驗(取).解(1)由式(10.25)~式(10.27)計算得于是可得X1和X2的相關(guān)系數(shù)為解(1)X1

和Y的相關(guān)系數(shù)為X2

和Y的相關(guān)系數(shù)為X1

,X2,Y的相關(guān)系數(shù)矩陣為解(2)假設(shè)Y關(guān)于X1

,X2

的理論回歸方程為根據(jù)式(10.28)寫出如下方程組解得可得Y關(guān)于X1

,X2

的經(jīng)驗回歸方程為解(3)顯著性檢驗的原假設(shè)和備擇假設(shè)為顯著性檢驗的方差分析表如下:由上表可知,

所以Y關(guān)于X1

,X2

的回歸方程是顯著的.方差來源平方和自由度均方F值臨界值p值回歸110638.83255319.4273.893.890.0000殘差8984.512748.71

總計119623.3314

小結(jié)1.主要概念:m元線性回歸模型,理論回歸方程,經(jīng)驗回歸方程,正規(guī)方程組.2.求解參數(shù)最小二乘估計的兩種方法.3.回歸方程的顯著性檢驗:F檢驗法(方差分析表).4.回歸系數(shù)的顯著性檢驗:t檢驗法.概率論

與數(shù)理統(tǒng)計理學(xué)院數(shù)學(xué)系“悟道詩---嚴(yán)加安”隨機(jī)非隨意,概率破玄機(jī);無序隱有序,統(tǒng)計解迷離.第十章回歸分析第四節(jié)一元非線性回歸二、可線性化的非線性函數(shù)一、一元非線性回歸模型三、小結(jié)一、一元非線性回歸模型隨機(jī)變量

Y可控變量X非線性相關(guān)Y

關(guān)于X的一元非線性回歸模型:

n

組獨立觀測數(shù)據(jù)b0,b1,…,

bk為待估計的模型參數(shù).εi為隨機(jī)誤差項.二、可線性化的非線性函數(shù)1.雙曲線函數(shù)3)線性化方法:1)

函數(shù)形式:令,則有2)函數(shù)圖形:2.冪函數(shù)3)線性化方法:1)

函數(shù)形式:取對數(shù)得2)函數(shù)圖形:令,則有3.對數(shù)函數(shù)3)線性化方法:1)

函數(shù)形式:2)函數(shù)圖形:令,則有4.指數(shù)函數(shù)3)線性化方法:1)

函數(shù)形式:取對數(shù)得2)函數(shù)圖形:令,則有5.負(fù)指數(shù)函數(shù)3)線性化方法:1)

函數(shù)形式:取對數(shù)得2)函數(shù)圖形:令,則有6.邏輯斯蒂(logistic)函數(shù)3)線性化方法:1)

函數(shù)形式:取倒數(shù)得2)函數(shù)圖形:令,則有7.多項式函數(shù)3)線性化方法:1)

函數(shù)形式:2)函數(shù)圖形:令,則有例10.4.1

頭圍是反映嬰幼兒大腦和顱骨發(fā)育程度的重要指標(biāo)之一.為研究頭圍Y和月齡X的關(guān)系,現(xiàn)收集21名男童的頭圍(cm)和月齡數(shù)據(jù),如下表所列:序號月齡頭圍序號月齡頭圍序號月齡頭圍1137.88844.7154851.42239.49946.1166052.33340.7101045.4177252.94441.8111146.9188453.15542.8121247.0199653.36643.7132449.72010853.07742.9143651.22112053.5求Y

關(guān)于X

的回歸方程.解(1)散點圖(2)理論回歸方程解(3)線性化對理論回歸方程取對數(shù)得令建立V

關(guān)于U

的一元線性回歸方程uvuvuv0.13.63230.05883.80.01753.93960.09093.67380.05563.83080.01453.9570.08333.70620.05263.81550.01233.96840.07693.73290.053.8480.01083.97220.07143.75650.04763.85010.00953.97590.06673.77730.03033.9060.00853.97030.06253.75890.02223.93570.00783.9797利用本例中已給數(shù)據(jù)計算得U,V

的數(shù)據(jù)如下表:解(3)經(jīng)計算得可得于是V關(guān)于U的經(jīng)驗回歸方程為解(3)進(jìn)一步計算得由于所以V和U之間的線性相關(guān)關(guān)系是非常顯著的.解(4)換回原變量可得故Y關(guān)于X的經(jīng)驗回歸方程為注:對于一元非線性回歸,如何選取合適的回歸曲線是一個難題,通常要用到專業(yè)知識,如果專業(yè)上也不清楚,還可以根據(jù)散點圖選取回歸曲線,并且可能會有多種不同的回歸曲線供選擇.如何評價回歸曲線的好壞呢?一個常用的指標(biāo)是殘差平方和SSE(或均方根誤差),SSE(或)越小的回歸曲線越好.小結(jié)1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論