第九章 回歸與相關(guān)分析_第1頁
第九章 回歸與相關(guān)分析_第2頁
第九章 回歸與相關(guān)分析_第3頁
第九章 回歸與相關(guān)分析_第4頁
第九章 回歸與相關(guān)分析_第5頁
已閱讀5頁,還剩43頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第九章回歸與相關(guān)分析學(xué)習(xí)目標1.變量間的相關(guān)關(guān)系與相關(guān)系數(shù)的計算2.總體回歸函數(shù)與樣本回歸函數(shù)3.線性回歸的基本假定4.簡單線性回歸參數(shù)的估計與檢驗實例1:

中國婦女生育水平的決定因素是什么?婦女生育水平除了受計劃生育政策影響以外,還可能與社會、經(jīng)濟、文化等多種因素有關(guān)。1.影響中國婦女生育率變動的因素有哪些?2.各種因素對生育率的作用方向和作用程度如何?3.哪些因素是影響婦女生育率主要的決定性因素?4.如何評價計劃生育政策在生育水平變動中的作用?5.計劃生育政策與經(jīng)濟因素比較,什么是影響生育率的決定因素?6.如果某些地區(qū)的計劃生育政策及社會、經(jīng)濟、文化等因素發(fā)生重大變化,預(yù)期對這些地區(qū)的婦女生育水平會產(chǎn)生怎樣的影響?

據(jù)世界衛(wèi)生組織統(tǒng)計,全球肥胖癥患者達3億人,其中兒童占2200萬人,11億人體重過重。肥胖癥和體重超常早已不是發(fā)達國家的“專利”,已遍及五大洲。目前,全球因”吃”致病乃至死亡的人數(shù)已高于因饑餓死亡的人數(shù)。

(引自《光明日報)問題:

肥胖癥和體重超常與死亡人數(shù)真有顯著的數(shù)量關(guān)系嗎?這些類型的問題可以運用相關(guān)分析與回歸分析的方法去解決。實例2:全球吃死的人比餓死的人多?第一節(jié)相關(guān)與回歸的基本概念一、變量間的相互關(guān)系二、相關(guān)關(guān)系的類型三、相關(guān)分析與回歸分析

一、變量間的相互關(guān)系

◆確定性的函數(shù)關(guān)系Y=f(X)◆不確定性的統(tǒng)計關(guān)系—相關(guān)關(guān)系

Y=f(X)+ε(ε為隨機變量)◆沒有關(guān)系

變量間關(guān)系的圖形描述:坐標圖(散點圖)

相關(guān)關(guān)系的類型●

從涉及的變量數(shù)量看

簡單相關(guān)多重相關(guān)(復(fù)相關(guān))●

從變量相關(guān)關(guān)系的表現(xiàn)形式看

線性相關(guān)——散布圖接近一條直線(左圖)非線性相關(guān)——散布圖接近一條曲線(右圖)●

從變量相關(guān)關(guān)系變化的方向看正相關(guān)——變量同方向變化A

同增同減(A)負相關(guān)——變量反方向變化一增一減(B)B●從變量相關(guān)的程度看

完全相關(guān)(B)不完全相關(guān)(A)C

不相關(guān)(C)相關(guān)關(guān)系的類型相關(guān)分析與回歸分析回歸的古典意義:

高爾頓遺傳學(xué)的回歸概念

父母身高與子女身高的關(guān)系:

無論高個子或低個子的子女都有向人的平均身高回歸的趨勢回歸:退回regression平均身高1877年弗朗西斯?高爾頓爵士遺傳學(xué)研究回歸線回歸分析法產(chǎn)生的歷史父親們的身高與兒子們的身高之間

關(guān)系的研究1889年F.Gallton和他的朋友K.Pearson收集了上千個家庭的身高、臂長和腿長的記錄企圖尋找出兒子們身高與父親們身高之間關(guān)系的具體表現(xiàn)形式下圖是根據(jù)1078個家庭的調(diào)查所作的散點圖(略圖)160165170175180185140150160170180190200YX兒子們身高向著平均身高“回歸”,以保持種族的穩(wěn)定從圖上雖可看出,個子高的父親確有生出個子高的兒子的傾向,同樣地,個子低的父親確有生出個子低的兒子的傾向。得到的具體規(guī)律如下:如此以來,高的伸進了天,低的縮入了地。他百思不得其解,同時又發(fā)現(xiàn)某人種的平均身高是相當(dāng)穩(wěn)定的。最后得到結(jié)論:兒子們的身高回復(fù)于全體男子的平均身高,即“回歸”——見1889年F.Gallton的論文《普用回歸定律》。后人將此種方法普遍用于尋找變量之間的規(guī)律回歸的現(xiàn)代意義一個因變量對若干解釋變量依存關(guān)系的研究回歸的目的(實質(zhì)):

由固定的自變量去估計因變量的平均值樣本總體自變量固定值估計因變量平均值相關(guān)分析與回歸分析的聯(lián)系●共同的研究對象:都是對變量間相關(guān)關(guān)系的分析?!裰挥挟?dāng)變量間存在相關(guān)關(guān)系時,用回歸分析去尋求相關(guān)的具體數(shù)學(xué)形式才有實際意義?!裣嚓P(guān)分析只表明變量間相關(guān)關(guān)系的性質(zhì)和程度,要確定變量間相關(guān)的具體數(shù)學(xué)形式依賴于回歸分析?!裣嚓P(guān)分析中相關(guān)系數(shù)的確定建立在回歸分析的基礎(chǔ)上。第二節(jié)簡單線性相關(guān)與回歸分析一、簡單線性相關(guān)系數(shù)及檢驗二、總體回歸函數(shù)與樣本回歸函數(shù)三、回歸系數(shù)的估計四、簡單線性回歸模型的檢驗

五、簡單線性回歸模型預(yù)測一、簡單線性相關(guān)系數(shù)及檢驗

●總體相關(guān)系數(shù)

對于所研究的總體,表示兩個相互聯(lián)系變量相關(guān)程度的總體相關(guān)系數(shù)為:

總體相關(guān)系數(shù)反映總體兩個變量X和Y的線性相關(guān)程度。

特點:對于特定的總體來說,X和Y的數(shù)值是既定的總體相關(guān)系數(shù)是客觀存在的特定數(shù)值?!?/p>

樣本相關(guān)系數(shù)

通過X和Y的樣本觀測值去估計樣本相關(guān)系數(shù)變量X和Y的樣本相關(guān)系數(shù)通常用表示特點:樣本相關(guān)系數(shù)是根據(jù)從總體中抽取的隨機樣本的觀測值計算出來的,是對總體相關(guān)系數(shù)的估計,它是個隨機變量。相關(guān)系數(shù)的特點:

相關(guān)系數(shù)的取值在-1與1之間。當(dāng)r=0時,表明X與Y沒有線性相關(guān)關(guān)系。當(dāng)

時,表明X與Y存在一定的線性相關(guān)關(guān)系:若

表明X與Y為正相關(guān);若表明X與Y為負相關(guān)。當(dāng)時,表明X與Y完全線性相關(guān):若r=1,稱X與Y完全正相關(guān);若r=-1,稱X與Y完全負相關(guān)。使用相關(guān)系數(shù)的注意事項:▲X和Y都是相互對稱的隨機變量,所以▲相關(guān)系數(shù)只反映變量間的線性相關(guān)程度,不能說明非線性相關(guān)關(guān)系?!嚓P(guān)系數(shù)不能確定變量的因果關(guān)系,也不能說明相關(guān)關(guān)系具體接近于哪條直線。相關(guān)系數(shù)的檢驗

為什么要檢驗?

樣本相關(guān)系數(shù)是隨抽樣而變動的隨機變量,相關(guān)系數(shù)的統(tǒng)計顯著性還有待檢驗。檢驗的依據(jù):

如果X和Y都服從正態(tài)分布,在總體相關(guān)系數(shù)的假設(shè)下,與樣本相關(guān)系數(shù)r有關(guān)的t統(tǒng)計量服從自由度為n-2的t分布:

相關(guān)系數(shù)的檢驗方法給定顯著性水平,查自由度為n-2的臨界值若,表明相關(guān)系數(shù)r在統(tǒng)計上是顯著的,應(yīng)否定而接受的假設(shè);反之,若,應(yīng)接受的假設(shè)。

二、總體回歸函數(shù)與樣本回歸函數(shù)

若干基本概念●

Y的條件分布:Y在X取某固定值條件下的分布?!駥τ赬的每一個取值,都有Y的條件期望與之對應(yīng),在坐標圖上Y的條件期望的點隨X而變化的軌跡所形成的直線或曲線,稱為回歸線?!袢绻裏的條件期望表示為X的某種函數(shù):,這個函數(shù)稱為回歸函數(shù)?!袢绻浜瘮?shù)形式是只有一個自變量的線性函數(shù),如,稱為簡單線性回歸函數(shù)??傮w回歸函數(shù)(PRF)

概念:將總體因變量Y的條件均值表現(xiàn)為自變量X的某種函數(shù),這個函數(shù)稱為總體回歸函數(shù)(簡記為PRF)。表現(xiàn)形式:(1)條件均值表現(xiàn)形式(2)個別值表現(xiàn)形式(隨機設(shè)定形式)樣本回歸函數(shù)(SRF)概念:

●Y的樣本觀測值的條件均值隨自變量X而變動的軌跡,稱為樣本回歸線。

●如果把因變量Y的樣本條件均值表示為自變量X的某種函數(shù),這個函數(shù)稱為樣本回歸函數(shù)(簡記為SRF)。表現(xiàn)形式:線性樣本回歸函數(shù)可表示為或者

樣本回歸函數(shù)與總體回歸函數(shù)的關(guān)系

——相互聯(lián)系

●樣本回歸函數(shù)的函數(shù)形式應(yīng)與設(shè)定的總體回歸函數(shù)的函數(shù)形式一致?!窈褪菍傮w回歸函數(shù)參數(shù)的估計。●是對總體條件期望的估計●殘差e在概念上類似總體回歸函數(shù)中的隨機誤差u?;貧w分析的目的:用樣本回歸函數(shù)去估計總體回歸函數(shù)。樣本回歸函數(shù)與總體回歸函數(shù)的關(guān)系

——相互區(qū)別

●總體回歸函數(shù)雖然未知,但它是確定的;樣本回歸線隨抽樣波動而變化,可以有許多條。●樣本回歸線還不是總體回歸線,至多只是未知總體回歸線的近似表現(xiàn)?!窨傮w回歸函數(shù)的參數(shù)雖未知,但是確定的常數(shù);樣本回歸函數(shù)的參數(shù)可估計,但是隨抽樣而變化的隨機變量?!窨傮w回歸函數(shù)中的是不可直接觀測的;而樣本回歸函數(shù)中的是只要估計出樣本回歸的參數(shù)就可以計算的數(shù)值。

三、回歸系數(shù)的估計回歸系數(shù)估計的思想:為什么只能對未知參數(shù)作估計?

參數(shù)是未知的、不可直接觀測的、不能精確計算的

能夠得到的只是變量的樣本觀測值結(jié)論:只能通過變量樣本觀測值選擇適當(dāng)方法去近似地估計回歸系數(shù)。前提:

u是隨機變量其分布性質(zhì)不確定,必須作某些假定,其估計才有良好性質(zhì),其檢驗才可進行。原則:

使參數(shù)估計值“盡可能地接近”總體參數(shù)真實值。簡單線性回歸的基本假定假定1:零均值假定。假定2:同方差假定。

假定3:無自相關(guān)假定。

假定4:隨機擾動與自變量不相關(guān)。假定5:正態(tài)性假定回歸系數(shù)的最小二乘估計基本思想:

希望所估計的偏離實際觀測值的殘差越小越好??梢匀埐钇椒胶妥鳛楹饬颗c偏離程度的標準——最小二乘準則。估計式:

最小二乘估計的性質(zhì)

——高斯—馬爾可夫定理

前提:

在基本假定滿足時最小二乘估計是因變量的線性函數(shù)

最小二乘估計是無偏估計,即

在所有的線性無偏估計中,回歸系數(shù)的最小二乘估計的方差最小。結(jié)論:回歸系數(shù)的最小二乘估計是最佳線性無偏估計最小二乘估計的概率分布性質(zhì)

和都是服從正態(tài)分布的隨機變量,其期望為方差和標準誤差為

結(jié)論:

的無偏估計

為什么要估計?

確定所估計參數(shù)的方差需要由于不能直接觀測,也是未知的對的數(shù)值只能通過樣本信息去估計。怎樣估計?可以證明的無偏估計為:擬合優(yōu)度的度量

基本思想:樣本回歸直線是對樣本數(shù)據(jù)的一種擬合,不同估計方法可擬合出不同的回歸線。樣本回歸擬合優(yōu)度的度量建立在對因變量總離差平方和分解的基礎(chǔ)上

總離差平方和

回歸平方和殘差平方和

可決系數(shù)定義:

對可決系數(shù)的理解

可決系數(shù)的特點

可決系數(shù)是非負的統(tǒng)計量;可決系數(shù)取值范圍:可決系數(shù)是樣本觀測值的函數(shù),可決系數(shù)是隨抽樣而變動的隨機變量;在一元線性回歸中,可決系數(shù)在數(shù)值上是簡單線性相關(guān)系數(shù)的平方:,

回歸系數(shù)顯著性的t檢驗?zāi)?/p>

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論