《3.1回歸分析的基本思想及其初步應(yīng)用》教學案5_第1頁
《3.1回歸分析的基本思想及其初步應(yīng)用》教學案5_第2頁
《3.1回歸分析的基本思想及其初步應(yīng)用》教學案5_第3頁
《3.1回歸分析的基本思想及其初步應(yīng)用》教學案5_第4頁
《3.1回歸分析的基本思想及其初步應(yīng)用》教學案5_第5頁
已閱讀5頁,還剩27頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

《回分析的基本思及其初步應(yīng)》教學案5(計課)授類:授課一教內(nèi)與學象析學生將在必修課程學習統(tǒng)計的基礎(chǔ)上,通過對典型案例的討論,了解和使用一些常用的統(tǒng)計方法一體會運用統(tǒng)方法解決實際問題的基本思想識統(tǒng)計方法在決策中的作用。二學目、識技通過本節(jié)的學習了解回歸分析基本思想對兩個變量進行回歸分析明確建立回歸模型的基本步驟,并對具體問題進行回歸分析,解決實際應(yīng)用問題。、程方本節(jié)的學習讓生通過實際問題去理解回歸分析的必要性回歸分析的基本思想,從散點圖中點的分布上我們發(fā)現(xiàn)直接求回歸直線方程存在明顯的不足引學生去發(fā)現(xiàn)解決問題的新思—進行回歸分析,進而介紹殘差分析的方法和利用的平方來表示解釋變量對于預(yù)報變量變化的貢獻率中選擇較為合理的回歸方程后是建立回歸模型基本步驟。、感態(tài)與值通過本節(jié)課的學習先讓顯示了解回歸分析的必要性和回歸分析的基本思想確歸分析的基本方法和基本步驟培養(yǎng)我們利用整體的觀點和互相聯(lián)系的觀點來分析問題進步加強數(shù)學的應(yīng)用意識培學學好數(shù)學用好數(shù)學的信心。加強與現(xiàn)實生活的聯(lián)系,以科學的態(tài)度評價兩個變量的相關(guān)系學中適當?shù)卦黾訉W生合作與交流的機會從際生活中找出例子使生在學習的時體與他人合作的重要性理處理問題的方法與結(jié)論的聯(lián)系實求是的嚴謹治學態(tài)度和鍥而不舍的求學精神生用所學知識,解決實際問題的能力。三教重、點教重熟掌握回歸分析的步驟相關(guān)指數(shù)、建立回歸模型的步驟過探究使學生iiniin體會有些非線性模型通過變換可以轉(zhuǎn)化為線性回歸模型在解決實際問題的過程中尋找更好的模型的方法。教難:求回歸系數(shù)a,b;關(guān)指數(shù)的計算、殘差分析;了解常用函數(shù)的圖象特點,選擇不同的模型建模,并通過比較相關(guān)指數(shù)對不同的模型進行比較。四教策:教方:誘思探究教學法學方:自主探究、觀察發(fā)現(xiàn)、作交流、歸納總結(jié)。教手:多媒體輔助教學五教過:(、習入回歸分析是對具有相關(guān)關(guān)系的兩個變量進行統(tǒng)計析的一種常用方法。(、課:探:對于一組具有線性相關(guān)關(guān)系的數(shù)據(jù):(

x,y)x,y12

2

),?(

x,yn

n

),我們知道其回歸方程的截距和斜率的最小二乘估計公式分別為:yx

(1)

i

(x)iix)2i

)

(2其中

i1n1xx,y)成為樣本點的nii注回歸直線過樣本中你能推導出這兩個計算公式嗎?從我們已經(jīng)學過的知識知道,截距

和斜率

分別是使(

ii

2

)i取到最小值時

的值由于nnQ(

n

yii

2

]iiii

yyyyii

}2ii

yiiii注意到i

[iiyiiiiiiiy

Qyyiii

()i

y))iii

(y

i

ii(y)[ii

i

(x)()iix)2i

]2

[)]2iiix)i

)ii

在上式中,后兩項和

ii無關(guān),而前兩項為非負數(shù),因此要使取最小值,當且僅當前兩項的值均為,即有

iii2ii

,y這正是我們所要推導的公式.下面我們從另一個角度來推導的公式.iiiiiiiiii人教A版修2-2P37習1.4A組:用測量工具測量某物體的長度,由于工具的精度以及測量技術(shù)的原因,測得n個據(jù),,1

證:用這個數(shù)據(jù)的平均值

1nxani表示這個物體的長度,能使這個據(jù)的方差1f(x()ni最小.

2思:這個結(jié)果說明了什么?通過個問題,你能說明最小二乘法的基本原理嗎?證明:由于

f(x

1ni

()i

2

,所以f

'

2n()(x)ni

,令

f')

1nxani

??梢缘玫剑?/p>

1xa是函數(shù)f()ni

的極小值點,也是最小值點.這個結(jié)果說明,用個數(shù)據(jù)的平均值

1ni

ai

表示這個物體的長度是合理的,這就是最小二乘法的基本原理.由最小二乘法的基本原理即得x定設(shè)xR,xn

n

則11[(x)]2]nn

(*)當且僅當

xxn

n

時取等號.(*)式明,

x

x12n

n

是任何一個實數(shù)與xx,x1

的差的平方的平均數(shù)中最小的從而說明了方差具有最小也即定義標準差的合理下面借助(*)式

)y)y)122n

的最小nnnn值()y))1122nnn

yx12n2nn

n

由(*)式知,ay)]11

2

nn)]1

)]2

y)]2nnxy)]x)byy)]21122nnx)bbiiiiiii

2)ii

[

i

()(yy)iix)i

]

y)ii

[x)(y)]iiix)2ii

i

i

()i

[

i

()(yy)iix)i

]

i

(yy)i

[x)(y)]iiix)2ii

iy)ii

[x)]2iiix)ii

x)iii

(yy)y)]2iiiix)ii當且僅當

i

(xy)iix)i

iii2nxi

時Q達到最小值i

iiix))2x)()]iiiiiiix)2ii

由此得到,

n(xiiin(xiay.

iii2ii

,其中

是回歸直線的斜率

是截距借助

|||ab|

和配方法我們給出了人教A版修的二章統(tǒng)第三節(jié)變量間的相關(guān)關(guān)系中回歸直線方程、歸析基步:

ybx

的一個合理的解.畫出兩個變量的散點求回歸直線方程用回歸直線方程進行預(yù).下面我們通過案例,進一步學習回歸分析的基本思想及其應(yīng)用.、例例.從大學中隨機選取8名大學生,其身高和體重數(shù)據(jù)如表編號

123457

8身高/cm165165157170175165體重/4857505464

15543

17059求根據(jù)女大學生的身高預(yù)報體重的回歸方程,并預(yù)報一名身高為的女大學生的體重.解由問題中要求根據(jù)身高預(yù)報體重此選取身高為自變量x體為因變量.作散點圖圖3.一1)??n??n從圖3.1一中以看出,樣本點呈條狀分布,身高和體重有比較好的線性相關(guān)關(guān),因此可以用線性回歸方程來近似刻畫它們之間的關(guān)系.根據(jù)探究中的公式()和(2),以得到于是得到回歸方程

b0.849,

因此,對于身高172cm的女大學生,由回歸方程可以預(yù)報其體重為084960.316

(.0.849

是斜率的估計值,說明身高x每增加1個位時,體重y就加位這表明體重與身高具有正的線性相關(guān)關(guān)系.如何描述它們之間線性相關(guān)關(guān)系的強弱?在必修中我們介紹了用相關(guān)系數(shù);來衡量兩個變量之間線性相關(guān)關(guān)系的方法.相關(guān)系數(shù)的具體計算公式為r

iiix))iiii

當時表明兩個變量正相關(guān);當r<0,表明兩個變量負相關(guān)r的對值越接近,表明兩個變量的線性相關(guān)性越強r的絕對值接近于時表明兩個變量之間幾乎不存在線性相關(guān)關(guān)系.通常,當r的絕對值大0.75時為兩個變量有很的線性相關(guān)關(guān)系.在本例中,可以計算出r=0..這表明體重與身高有很強的線性相關(guān)關(guān)系而表明我們建立的回歸模型是有意義的.顯然身172cm的大學生的體重不一定是60.但一般可以認為的體重接近于.316kg圖.一2中的樣本點和回歸直線的相互位置說明了這一點.由于所有的樣本點不共線只散布在某一條直線的附近以高和體重的關(guān)系可用下面的線性回歸模型來表示:y這里a和為型的未知參數(shù)是y與

之間的誤差為隨機變量,稱為隨誤,它的均值E)=0方差D)完整表達式為:

()

>0.樣線性回歸模型的

bxE()D()

在線性回歸模型(4中,隨機誤差e的差護越小,通過回歸線

預(yù)報真實值的度高.隨機誤差是引起預(yù)報值y與實值之的誤差的原因之一,大小取決于隨機誤差的方另一方面,由于公式()和()中和為距和斜率的估計值,它們與真實值和b之間也存在誤差,這種誤差是引起報值

與真實值y之誤差的另一個原因.思:產(chǎn)生隨機誤差項的因是什?一個人的體重值除了受身高的影響外受許多其他因素的影響例飲食習慣是喜歡運動度誤差等事上我們無法知道身高和體重之間的確切關(guān)系是什么,這里只是利用線性回歸方程來近似這種關(guān)系近似以及上面提到的影響因素都是產(chǎn)生隨機誤差e的原因.eieie,,e因為隨機誤差是隨機變量可以通過這個隨機變量的數(shù)字特征來刻畫它的一些總體特征均值是反映隨機變量取值均水平的數(shù)字特征差是反映隨機變量集中于均值程度的數(shù)字特征,而隨機誤差的均值為0,因此可以用方差來量隨機誤差的大?。疄榱撕饬款A(yù)報的精度要計的值個自然的想法是通過樣本方差來估計總體方差.如何得到隨機變量

的樣本呢?由于模型(3或()的

隱含在預(yù)報變量y中我們無法精確地把它從y中離出來,因此也就無法得到隨機變量的本解決問題的途徑是通過樣本的估計值來估截距和斜率的估計公),可以建立回歸方程

因此5)中y的估計.由于隨機誤差

ey,以ey是e的計量.對于樣本點(

x,y),y12

2

),?(

xn

n

)而言,相應(yīng)于它們的隨機誤差為yi,iiiii其估計值為eyyi,iiiii

i

稱為相應(yīng)于點

(,)ii

的殘(residual).類比樣本方差估計總體方差的思想,可以用

1n1(,b)(n2)nni作為的估計量,其和由((2給Q,稱為殘平和residualsumof).可以用衡回歸方的預(yù)報精度.通常,越小,預(yù)報精度越高.在研究兩個變量間的關(guān)系時先要根據(jù)散點圖來粗略判斷它們是否線性相關(guān)否可以用線性回歸模型來擬合數(shù)據(jù).然后,可以通過殘差1n來判斷模型擬合的效果斷原始數(shù)據(jù)中是否存在可疑數(shù)據(jù)方面的分析工作稱為殘差分析.表列了大學生身高和體重的原始數(shù)據(jù)以及相應(yīng)的殘差數(shù)據(jù).2222編號身高/cm體重/

116548

216557

315750

417054

517564

616561

715543

817059殘差

2.6272.419-4.6181.1376.627-2.8830.382我們可以利用圖形來分析殘差特性作圖時縱坐標為殘差坐標可以選為樣本編號身高數(shù)據(jù),或體重的估計值等,這樣作出的圖形稱為殘差圖.圖31一是樣本編號為橫坐標的殘差圖.從圖.1一中以看出個本和第6個樣本點的殘差比較大要確認在采集這兩個樣本點的過程中是否有人為的錯誤果數(shù)據(jù)采集有錯誤就予以糾正然再重新利用線性回歸模型擬合數(shù)據(jù)數(shù)據(jù)采集沒有錯誤需尋找其他的原因外,殘差點比較均勻地落在水平的帶狀區(qū)域中,說明選用的模型比較合適.這樣的帶狀區(qū)域的寬度越窄,說明模型擬合精度越高,回歸方程的預(yù)報精度越高,們還可以用相關(guān)指數(shù)

2

來刻畫回歸的效果,其計算公式是:R

y)iiiy)ii顯然,

2

取值越大,意味著殘差平方和越小,也就是說模型的擬合效果越好.在線性回歸模型中,表示解釋變量對于預(yù)報變量變化的貢獻率.越接近于1表示回歸的效果越好(因為

2

越接近于1表示解釋變量和預(yù)報變量的線性相關(guān)性越強對某組數(shù)據(jù)可能采取幾種不同的回歸方程進行回歸分析可通過比較幾個

2選擇2

大的模型作為這組數(shù)據(jù)的模型.在例中64表“大學生的身高解釋了64%的體重變化“大學生的體重差異有%是由身高引起的.用身高預(yù)報體重時,需要注意下列問題:oo1.回歸方程只適用于我們所研的樣本的總體.例如,不能用女大學生的身高和體重之間的回歸方程描述女運動員身高和體重之間的關(guān)系樣不用生長在南方多雨地區(qū)的樹木的高與直徑之間的回歸方程,描述北方干旱地區(qū)的樹木的高與直徑之間的關(guān)系..我們所建立的回歸方程一般都有時間性.例如,不能用20世紀80年代身高體重數(shù)據(jù)所建立的回歸方程,描述現(xiàn)在的身高和體重之間的關(guān)系..樣本取值的范圍會影響回歸方程的適用范圍.例如,我們的回歸方程是由女大學生身高和體重數(shù)據(jù)建立的用來描述一個人幼兒時期的身高和體重之間的關(guān)系就不恰當(即在回歸方程中,解釋變量x樣本的取值范圍為155cm,170cm〕,而這個方程計算x-70cm時的y值顯然不合適)4.不能期望回歸方程得到的預(yù)值就是預(yù)報變量的精確值.事實上,它是預(yù)報變量的可能取值的平均值.一般地,建立回歸模型的基本步驟為:(1)確定研究對象,明確哪個變是解釋變量,哪個變量是預(yù)報變量;(2畫確定好的解釋變量和預(yù)報變量的散點圖察們之間的關(guān)(是否存在線性關(guān)系等);(3由驗確定回歸方程的類(如我們觀察到數(shù)據(jù)呈線性關(guān)系選用線性回歸方程y=bx+a);(4)按一定規(guī)則估計回歸方程中參數(shù)(如最小二乘法;(5得結(jié)果后分析殘差圖是否有異個別數(shù)據(jù)對應(yīng)殘差過大或差呈現(xiàn)不隨機的規(guī)律性等等存在異常,則檢查數(shù)據(jù)是否有誤,或模型是否合適等.例.現(xiàn)收集了一紅鈴蟲的產(chǎn)卵數(shù)y和溫度x之的組觀數(shù)據(jù)列于下表:溫度xC212325產(chǎn)卵數(shù)/2466115325(1)試建立與x之的回歸方程;并預(yù)測溫度為28

o時產(chǎn)卵數(shù)目。(2)你所建立的模型中溫度在多大程上解釋了產(chǎn)卵數(shù)的變化?探:方(學生實施):()擇變量,畫散點圖。()過計算器求得線性回歸方:

y=19.87-463.7322222222222222()行回歸分析和預(yù)測:R

=

≈0.8642預(yù)測當氣溫為28時卵數(shù)為92個個線性回歸模型中溫度解釋了74.64%卵數(shù)的變化。困隨著自變量的增加,因變量也隨之增加,氣溫為28時,估計產(chǎn)卵數(shù)應(yīng)該低于66個,但是從推算的結(jié)果來看個66個多了個是什么原因造成的呢?方:(1)到變量t=x

,將y=bx

+a轉(zhuǎn)成y=bt+a;利用計算器計算出y和t線性回歸方程y=0.367-202.54轉(zhuǎn)換回y和的型:y=0.367x-202.54()算相關(guān)指數(shù)R≈0.802這回歸模型中溫度解釋了80.2%卵數(shù)的變化。預(yù)測:當氣溫為28時,產(chǎn)卵數(shù)為85。困:比66多個是否還有更適合的模型呢?方:(1)變換z=lgy將yc1

cx

轉(zhuǎn)化成z=c

x+lgc21

(線性模型)。利計器計算出z和x的線性回歸方程:z=0.118x-1.672(3)換回y的型:y

1.672計相指數(shù)R

≈這個回歸模型中溫度解釋了產(chǎn)卵數(shù)的變化。預(yù)測:當氣溫為時產(chǎn)卵數(shù)為42。解:根據(jù)收集的數(shù)據(jù)作散點圖(圖一4)在散點圖中,樣本點并沒有分布在某個帶狀區(qū)域內(nèi),因此兩個變量不呈線性相關(guān)關(guān)系,所以不能直接利用線性回歸方程來建立兩個變量之間的關(guān)系據(jù)有的函數(shù)知識以發(fā)現(xiàn)樣本點分布在某一條指數(shù)函數(shù)曲線

e1

的周圍,其中

c1

c

2

是待定參數(shù).現(xiàn)在,問題變?yōu)槿绾喂烙嫶▍?shù)c和c.我們可以通過對數(shù)變換把指數(shù)關(guān)系變?yōu)榫€性關(guān)系令1zy

,則變換后樣本點應(yīng)該分布在直線

zbxc,c1

的周圍.這樣,就可以利用線性回歸模型來建立y和x之的非線性回歸方程了.由表一3的據(jù)可以得到變換后的樣本據(jù)表3一一5給出了表一中數(shù)據(jù)的散點圖從圖一中以看出變換后的樣本點分布在一條直線的附近此可以用線性回歸方程來擬合.x2127z3.3983.1784.1905.784由表一中數(shù)得到線性回歸方程z0.272

(1)(1)因此紅鈴蟲的產(chǎn)卵數(shù)對溫度的非線性回歸方程為y

x

(6另一方面,可以認為圖1一中本點集中在某二次曲線

x234

的附近,其中c和c為定參數(shù)因此可以對溫度變量做變換即tx2然建立y與之的線34性回歸方程,從而得到y(tǒng)與之間的非線性回歸方程.表3一是鈴蟲的產(chǎn)卵數(shù)和對應(yīng)的溫度的平方,圖3一是應(yīng)的散點圖.t4415296257298411225x7112124115325從圖一6中以看出y與t的點圖并不分布在一條直線的周圍,因此不宜用線性回歸方程來擬合它即不宜用次曲線

y234

來擬合和x之間的關(guān)系這結(jié)論還可以通過殘差分析得到,下面介紹具體方法.為比較兩個不同模型的殘差,需要建立兩個相應(yīng)的回歸方程.前面我們已經(jīng)建立了y(2)(2)(13(2)(2)(1349e(1)(2)2關(guān)于x的數(shù)回歸程,下面建立y關(guān)x的次回歸方程.用線性回歸模型擬合表3一中數(shù)據(jù),得到關(guān)于t的性回歸方程yt202.543

即y關(guān)x的次回歸方程為y0.367x

2

(7可以通過殘差來比較兩個回歸方程(6)(7)擬合效果.用x表示表一3中i行i列數(shù)據(jù),則回歸方程()(7)殘差計算公式分別為y2iiii

,i,yx2202.543,i1,2,,7iiii

表3一6給了原始數(shù)據(jù)及相應(yīng)的兩個回歸方程的殘差表中的數(shù)據(jù)可以看出模型()的殘差的絕對值顯然比模型(7)殘差的絕對小,因此模型(6)擬合效果比模型(的合效果好.

i

-0.1011.875-13.381i

(2)

19.400-5.832-41.000-40.1.4-58.265在一般情況下較兩個模型的殘差比較困難因是在某些樣本點上一個模型的殘差的絕對值比另一個模型的小另一些樣本點的情況則相反時可以通過比較兩個模型的殘差平方和的大小來判斷模型的擬合效果平方和越小的模型擬的效果越好表3一容算模型()()的殘差平方和分別為Q1550.538,Q

因此模型(6)的擬合效果遠遠優(yōu)于模型7)類似地,還可以用尸來比較兩個模型的擬合效果R

越大,擬合的效果越好.由表3一容算模型)和7的好于模型(7)的果.

2

分別約為098和.,此模型(6)效果對于給定的樣本點(

x,y),(xy12

2

),?

xn

n

),兩個含有未知參數(shù)的模型f(xa)和g(x)f(xa)和g(x)(1)(2)(1)n(1)n(2))(2)yxa)y,b的效果比(1)xY=e(2)

其中a和b都未知參數(shù).可以按如下的驟來比較它們的擬合效果:(1)分別建立對應(yīng)于兩個模型的回方程y分別是參數(shù)估計值;

f(x,與(x,

中和分別計算兩歸方程的差平方和

()ii

2

與i()iii

2

;(若

QQ

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論