8.2.1一元線性回歸模型 課件-山東省滕州市第一中學(xué)高中數(shù)學(xué)人教A版(2019)選擇性必修第三冊_第1頁
8.2.1一元線性回歸模型 課件-山東省滕州市第一中學(xué)高中數(shù)學(xué)人教A版(2019)選擇性必修第三冊_第2頁
8.2.1一元線性回歸模型 課件-山東省滕州市第一中學(xué)高中數(shù)學(xué)人教A版(2019)選擇性必修第三冊_第3頁
8.2.1一元線性回歸模型 課件-山東省滕州市第一中學(xué)高中數(shù)學(xué)人教A版(2019)選擇性必修第三冊_第4頁
8.2.1一元線性回歸模型 課件-山東省滕州市第一中學(xué)高中數(shù)學(xué)人教A版(2019)選擇性必修第三冊_第5頁
已閱讀5頁,還剩31頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、8.2.1一元線性回歸模型8.2.2一元線性回歸模型參數(shù)的最小二乘估計(1)自變量取值一定時,因變量的取值帶有一定隨機(jī)性的兩個變量之間的關(guān)系,叫做相關(guān)關(guān)系.相關(guān)關(guān)系的概念2、相關(guān)關(guān)系與函數(shù)關(guān)系的異同點(diǎn)不同點(diǎn):函數(shù)關(guān)系是一種確定的關(guān)系,因果關(guān)系;而相關(guān)關(guān)系是一種非確定性關(guān)系,也可能是伴隨關(guān)系。相同點(diǎn):均是指兩個變量的關(guān)系相關(guān)關(guān)系當(dāng)自變量取值一定,因變量的取值帶有一定的隨機(jī)性( 非確定性關(guān)系)函數(shù)關(guān)系-函數(shù)關(guān)系指的是自變量和因變量之間的關(guān)系是相互唯一確定的.1、對相關(guān)關(guān)系的理解復(fù)習(xí)引入散點(diǎn)圖1、散點(diǎn)圖:將樣本中n個數(shù)據(jù)點(diǎn)(xi,yi)(i1,2,n)描在平面直角坐標(biāo)系中,以表示具有相關(guān)關(guān)系的兩個變

2、量的一組數(shù)據(jù)的圖形叫做散點(diǎn)圖.2、分類:(1)正相關(guān)、負(fù)相關(guān)正相關(guān):如果散點(diǎn)圖的點(diǎn)散布在從左下角到右上角的區(qū)域,即一個變量的值由小變大時,另一個變量的值也近似的由小變大,對于兩個變量的這種相關(guān)關(guān)系,我們稱為正相關(guān)負(fù)相關(guān):如果散點(diǎn)圖的點(diǎn)散布的位置是從在左上角到右下角的區(qū)域,即一個變量的值由小變大時,另一個變量的值也近似的由大變小,對于兩個變量的這種相關(guān)關(guān)系,我們稱為負(fù)相關(guān).(2)線性相關(guān)和非線性相關(guān)兩個變量之間相關(guān)關(guān)系的確定(1).經(jīng)驗(yàn)作出推斷(2).通過樣本數(shù)據(jù)分析,從數(shù)據(jù)中提取信息,并構(gòu)建適當(dāng)?shù)哪P停倮媚P瓦M(jìn)行估計或推斷復(fù)習(xí)引入樣本相關(guān)系數(shù)r (1)當(dāng)r 0時,稱成對樣本數(shù)據(jù)正相關(guān);當(dāng)r

3、 0時,稱成對樣本數(shù)據(jù)負(fù)相關(guān)(2)r的取值范圍為-1,1 (3)當(dāng)|r|越接近1時,成對樣本數(shù)據(jù)的線性相關(guān)程度越強(qiáng);當(dāng)|r|越接近0時,成對樣本數(shù)據(jù)的線性相關(guān)程度越弱.獲得總體中所有的成對數(shù)據(jù)往往是不容易的,因此,我們還是要用樣本估計總體的思想來解決問題,也就是說,我們先要通過抽樣獲取兩個變量的一些成對樣本數(shù)據(jù),再計算出樣本相關(guān)系數(shù),通過樣本相關(guān)系數(shù)去估計總體相關(guān)系數(shù),從而了解兩個變量之間的相關(guān)程度,對于簡單隨機(jī)樣本而言,樣本具有隨機(jī)性,因此樣本相關(guān)系數(shù)r也具有隨機(jī)性,一般地,樣本容量越大,用樣本相關(guān)系數(shù)估計兩個變量的相關(guān)系數(shù)的效果越好。復(fù)習(xí)引入通過前面的學(xué)習(xí)我們已經(jīng)了解到,根據(jù)成對樣本數(shù)據(jù)的

4、散點(diǎn)圖和樣本相關(guān)系數(shù),可以推斷兩個變量是否存在相關(guān)關(guān)系、是正相關(guān)還是負(fù)相關(guān),以及線性相關(guān)程度的強(qiáng)弱等.下面我們研究當(dāng)兩個變量線性相關(guān)時,如何利用成對樣本數(shù)據(jù)建立統(tǒng)計模型,并利用模型進(jìn)行預(yù)測的問題.如果能像建立函數(shù)模型刻畫兩個變量之間的確定性關(guān)系那樣,通過建立適當(dāng)?shù)慕y(tǒng)計模型刻畫兩個隨機(jī)變量的相關(guān)關(guān)系,那么我們就可以利用這個模型研究兩個變量之間的隨機(jī)關(guān)系,并通過模型進(jìn)行預(yù)測. 問題1:生活經(jīng)驗(yàn)告訴我們,兒子的身高與父親的身高相關(guān).一般來說,父親的身高較高時,兒子的身高通常也較高.為了進(jìn)一步研究兩者之間的關(guān)系,有人調(diào)查了14名男大學(xué)生的身高及其父親的身高,得到的數(shù)據(jù)如表1所示.編號123456789

5、1011121314父親身高/cm174170173169182172180172168166182173164180兒子身高/cm176176170170185176178174170168178172165182可以發(fā)現(xiàn),散點(diǎn)大致分布在一條從左下角到右上角的直線附近,表明兒子身高和父親身高線性相關(guān).利用統(tǒng)計軟件,求得樣本相關(guān)系數(shù)為r0.886,表明兒子身高和父親身高正線性相關(guān),且相關(guān)程度較高。復(fù)習(xí)引入 問題2:根據(jù)表中的數(shù)據(jù),兒子身高和父親身高這兩個變量之間的關(guān)系可以用函數(shù)模型刻畫嗎?列表法是函數(shù)的一種表示方法,但并不是所有列表表示的數(shù)據(jù)都是函數(shù)關(guān)系,要成為函數(shù)關(guān)系必須滿足函數(shù)的定義,即應(yīng)

6、滿足“集合A中的任意一個數(shù),在集合B中都存在唯一的數(shù)與它對應(yīng)”.編號1234567891011121314父親身高/cm174170173169182172180172168166182173164180兒子身高/cm176176170170185176178174170168178172165182表中的數(shù)據(jù),存在父親身高相同而兒子身高不同的情況.例如,第6個和第8個觀測父親的身高均為172cm,而對應(yīng)的兒子的身高為176cm和174cm;同樣在第3,4個觀測中,兒子的身高都是170cm,而父親的身高分別為173cm,169cm.可見兒子的身高不是父親身高的函數(shù)同樣父親的身高也不是兒子身高的

7、函數(shù),所以不能用函數(shù)模型來刻畫.學(xué)習(xí)新知問題3:從成對樣本數(shù)據(jù)的散點(diǎn)圖和樣本相關(guān)系數(shù)可以發(fā)現(xiàn),散點(diǎn)大致分布在一條直線附近表明兒子身高和父親身高有較強(qiáng)的線性關(guān)系.我們可以這樣理解,由于有其他因素的存在,使兒子身高和父親身高有關(guān)系但不是函數(shù)關(guān)系.那么影響兒子身高的其他因素是什么?影響兒子身高的因素除父親的身外,還有母親的身高、生活的環(huán)境、飲食習(xí)慣、營養(yǎng)水平、體育鍛煉等隨機(jī)的因素,兒子身高是父親身高的函數(shù)的原因是存在這些隨機(jī)的因素. 問題4:由問題3我們知道,正是因?yàn)榇嬖谶@些隨機(jī)的因素,使得兒子的身高呈現(xiàn)出隨機(jī)性各種隨機(jī)因素都是獨(dú)立的,有些因素又無法量化.你能否考慮到這些隨機(jī)因素的作用,用類似于函數(shù)

8、的表達(dá)式,表示兒子身高與父親身高的關(guān)系嗎?如果用x表示父親身高,Y表示兒子的身高,用e表示各種其他隨機(jī)因素影響之和,稱e為隨機(jī)誤差,由于兒子身高與父親身高線性相關(guān),所以Y=bx+a.其中,Y稱為因變量或響應(yīng)變量,x稱為自變量或解釋變量;a和b為模型的未知參數(shù),a稱為截距參數(shù),b稱為斜率參數(shù);e是Y與bx+a之間的隨機(jī)誤差,模型中的Y也是隨機(jī)變量,其值雖然不能由變量x的值確定,但是卻能表示為bx+a與e的和(疊加),前一部分由x所確定,后一部分是隨機(jī)的,如果e=0,那么Y與x之間的關(guān)系就可用一元線性函數(shù)模型來描述.學(xué)習(xí)新知追問:為什么要假設(shè)E(e)=0,而不假設(shè)其為某個不為0的常數(shù)?因?yàn)檎`差是隨

9、機(jī)的,即取各種正負(fù)誤差的可能性一樣,所以它們均值的理想狀態(tài)應(yīng)該為0.思考:你能結(jié)合父親與兒子身高的實(shí)例,說明回歸模型的意義?學(xué)習(xí)新知思考:你能結(jié)合父親與兒子身高的實(shí)例,說明回歸模型的意義?問題5:你能結(jié)合具體實(shí)例解釋產(chǎn)生模型中隨機(jī)誤差項(xiàng)的原因嗎?(1)除父親身高外,其他可能影響兒子身高的因素,比如母親身高、生活環(huán)境、飲食習(xí)慣和鍛煉時間等.(2)在測量兒子身高時,由于測量工具、測量精度所產(chǎn)生的測量誤差.(3)實(shí)際問題中,我們不知道兒子身高和父親身高的相關(guān)關(guān)系是什么,可以利用一元線性回歸模型來近似這種關(guān)系,這種近似關(guān)系也是產(chǎn)生隨機(jī)誤差e的原因.產(chǎn)生隨機(jī)誤差e的原因有:學(xué)習(xí)新知 問題6:為了研究兩個

10、變量之間的相關(guān)關(guān)系,我們建立了一元線性回歸模型達(dá)式 刻畫的是變量Y與變量x之間的線性相關(guān)關(guān)系,其中參數(shù)a和b未知,我們能否通過樣本數(shù)據(jù)估計參數(shù)a和b?參數(shù)a和b刻畫了變量Y與變量x的線性關(guān)系,因此通過樣本數(shù)據(jù)估計這兩個參數(shù),相當(dāng)于尋找一條適當(dāng)?shù)闹本€,使表示成對樣本數(shù)據(jù)的這些散點(diǎn)在整體上與這條直線最接近.與函數(shù)模型不同,回歸模型的參數(shù)一般是無法精確求出的,只能通過成對樣本數(shù)據(jù)估計這兩個參數(shù)。學(xué)習(xí)新知追問1:我們怎樣尋找一條“最好”的直線,使得表示成對樣本數(shù)據(jù)的這些散點(diǎn)在整體上與這條直線最“接近”?目標(biāo):從成對樣本數(shù)據(jù)出發(fā),用數(shù)學(xué)的方法刻畫“從整體上看,各散點(diǎn)與直線最接近”方法:利用點(diǎn)到直線y=b

11、x+a的“距離”來刻畫散點(diǎn)與該直線的接近程度,然后用所有“距離”之和刻畫所有樣本觀測數(shù)據(jù)與該直線的接近程度.由yi=bxi+a+ei(i=1,2,n),得|yi-(bxi+a)|=|ei|.顯然|ei|越小,表示點(diǎn)(xi,yi)與點(diǎn)(xi,bxi+a)的“距離”越小,即樣本數(shù)據(jù)點(diǎn)離直線y=bx+a的豎直距離越小。特別地,當(dāng)ei=0時,表示點(diǎn)(xi,yi)在這條直線上.我們設(shè)滿足一元線性回歸模型的兩個變量的n對樣本數(shù)據(jù)為(x1,y1),(x2,y2),(xn,yn)因此,可以用 來刻畫各樣本觀測數(shù)據(jù)與直線y=bx+a的整體接近程度。在實(shí)際應(yīng)用中,因?yàn)榻^對值使得計算不方便,所以人們通常用各散點(diǎn)到直

12、線的豎直距離的平方之和來刻畫“整體接近程度”殘差平方和:求a,b的值,使Q(a,b)最小在上式中,xi,yi(i=1,2,3,n)是已知的成對樣本數(shù)據(jù),所以Q由a和b所決定,即它是a和b的函數(shù),因?yàn)镼還可以表示為 即它是隨機(jī)誤差的平方和,這個和當(dāng)然越小越好,所以我們?nèi)∈筈達(dá)到最小的a和b的值,作為截距和斜率的估計值。下面利用成對樣本數(shù)據(jù)求使Q取最小值的a,b.上式是關(guān)于b的二次函數(shù),因此要使Q取得最小值,當(dāng)且僅當(dāng)b的取值為 我們將 稱為Y關(guān)于x的經(jīng)驗(yàn)回歸方程,也稱經(jīng)驗(yàn)回歸函數(shù)或經(jīng)驗(yàn)回歸公式,其圖形稱為經(jīng)驗(yàn)回歸直線,這種求經(jīng)驗(yàn)回歸方程的方法叫最小二乘法注意:1、經(jīng)驗(yàn)回歸必過 .2、 都是估計值.

13、3 、 與r符號相同.問題7:利用下表的數(shù)據(jù),依據(jù)用最小二乘估計一元線性回歸模型參數(shù)的公式,求出兒子身高Y關(guān)于父親身高x的經(jīng)驗(yàn)回歸方程。通過信息技術(shù),計算求得問1:當(dāng)x=176時, ,如果一位父親身高為176cm,他兒子長大后身高一定能長到177cm嗎?為什么?兒子的身高不一定會是177cm,這是因?yàn)檫€有其他影響兒子身高的因素,回歸模型中的隨機(jī)誤差清楚地表達(dá)了這種影響,父親的身高不能完全決定兒子的身高,不過,我們可以作出推測,當(dāng)父親的身高為176cm時,兒子身高一般在177cm左右.父親身高/cm174170173169182172180172168166182173164180兒子身高/cm

14、176176170170185176178174170168178172165182問2:根據(jù)經(jīng)驗(yàn)回歸方程 中斜率的具體含義,高個子的父親一定生高個子的兒子嗎?同樣,矮個子的父親一定生矮個子的兒子嗎?問3:根據(jù)模型,父親身高為多少時,長大成人的兒子的平均身高與父親身高一樣?你怎么看這個判斷?例如,對于右表中的第6個觀測,父親身高為172cm,其兒子身高的觀測值為y=176(cm),預(yù)測值為96=0.839172+28.957=173.265(cm),殘差為176-173.265=2.735(cm).類似地,可以得到其他的殘差,如右表所示.問題8:兒子身高與父親身高的關(guān)系,運(yùn)用殘差分析所得的一元

15、線性回歸模型的有效性嗎?殘差圖:作圖時縱坐標(biāo) 為殘差,橫坐標(biāo)可以選為樣本編號,或身高數(shù)據(jù),或體重估計值等,這樣作出的圖形稱為殘差圖觀察表可以看到,殘差有正有負(fù),殘差的絕對值最大是4.413.觀察殘差的散點(diǎn)圖可以發(fā)現(xiàn),殘差比較均勻地分布在橫軸的兩邊,說明殘差比較符合一元線性回歸模型的假定,是均值為0、方差為2的隨機(jī)變量的觀測值.可見,通過觀察殘差圖可以直觀判新模型是否滿足一元線性回歸模型的假設(shè). 一般地,建立經(jīng)驗(yàn)回歸方程后,通常需要對模型刻畫數(shù)據(jù)的效果進(jìn)行分析,借助殘差分析還可以對模型進(jìn)行改進(jìn),使我們能根據(jù)改進(jìn)模型作出更符合實(shí)際的預(yù)測與決策。(1)(2)(3)(4)思考:觀察以下四幅殘差圖,你認(rèn)

16、為哪一個殘差滿足一元線性回歸模型中對隨機(jī)誤差的假定?圖(1)顯示殘差與觀測時間有線性關(guān)系,應(yīng)將時間變量納入模型;圖(2)顯示殘差與觀測時間有非線性關(guān)系,應(yīng)在模型中加入時間的非線性函數(shù)部分;圖(3)說明殘差的方差不是一個常數(shù),隨觀測時間變大而變大;圖(4)的殘差比較均勻地集中在以橫軸為對稱軸的水平帶狀區(qū)域內(nèi).所以,只有圖(4)滿足一元線性回歸模型對隨機(jī)誤差的假設(shè)。練習(xí):關(guān)于殘差圖的描述錯誤的是() A.殘差圖的橫坐標(biāo)可以是樣本編號 B.殘差圖的橫坐標(biāo)也可以是解釋變量或響應(yīng)變量 C.殘差點(diǎn)分布的帶狀區(qū)域的寬度越窄相關(guān)指數(shù)越小 D.殘差點(diǎn)分布的帶狀區(qū)域的寬度越窄殘差平方和越小C對于一組具有線性相關(guān)關(guān)系的數(shù)據(jù)我們知道其回歸方程的截距和斜率的最小二乘估計公式分別為:稱為樣本點(diǎn)的中心.學(xué)習(xí)新知2、求回歸直線方程的步驟:(3)代入公式(4)寫出直線方程為y=bx+a,即為所求的回歸直線方程.學(xué)習(xí)新知某大學(xué)中隨機(jī)選取8名女大學(xué)生,其身高和體重數(shù)據(jù)如下表所示.編號12345678身高/cm165165157170175165155170體重/kg4857505464614359求根據(jù)女大學(xué)生的身高預(yù)報體重的回歸方程,并預(yù)報一名身高為172cm的女大學(xué)生的體重.典型例題由得:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論