第二章 簡單線性回歸_第1頁
第二章 簡單線性回歸_第2頁
第二章 簡單線性回歸_第3頁
第二章 簡單線性回歸_第4頁
第二章 簡單線性回歸_第5頁
已閱讀5頁,還剩110頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第二章簡單線性回歸第一頁,共一百一十五頁,編輯于2023年,星期四何謂簡單線性回歸模型只有兩個變量的線性回歸模型,稱為簡單線性回歸模型,也叫做雙變量模型,或者一元線性回歸模型。模型形式為:第二頁,共一百一十五頁,編輯于2023年,星期四第一節(jié)回歸分析和回歸方程本節(jié)主要介紹:1.1經(jīng)濟變量之間的關(guān)系。1.2相關(guān)關(guān)系:分類、度量。1.3回歸分析:概念、回歸線、回歸函數(shù)1.4總體回歸函數(shù)1.5隨機擾動項1.6樣本回歸函數(shù)第三頁,共一百一十五頁,編輯于2023年,星期四1.1經(jīng)濟變量之間的關(guān)系確定的函數(shù)關(guān)系:y=f(x)不確定性的統(tǒng)計關(guān)系——相關(guān)關(guān)系

y=f(x)+u(u為隨機變量)沒有關(guān)系

變量間的函數(shù)關(guān)系和相關(guān)關(guān)系在一定條件下可以互相轉(zhuǎn)化。第四頁,共一百一十五頁,編輯于2023年,星期四1.2相關(guān)關(guān)系1.2.1分類:只有兩個變量:簡單相關(guān);三個及三個以上:多重相關(guān)(復相關(guān));線性相關(guān)、非線性相關(guān);正相關(guān)、負相關(guān)、不相關(guān)第五頁,共一百一十五頁,編輯于2023年,星期四正相關(guān)(我國人均消費函數(shù))Y為我國人均消費X為我國人均國民收入相關(guān)系數(shù):0.982004006008001000120005001000150020002500YX第六頁,共一百一十五頁,編輯于2023年,星期四負相關(guān)Y與X的相關(guān)系數(shù):

-0.9220304050607080010203040YX第七頁,共一百一十五頁,編輯于2023年,星期四不相關(guān)(不排除存在曲線相關(guān))相關(guān)系數(shù)為:4.24E-18-60-40-200204060-60-40-200204060YX第八頁,共一百一十五頁,編輯于2023年,星期四1.2.2線性相關(guān)程度的度量

——線性相關(guān)系數(shù)總體相關(guān)系數(shù):樣本相關(guān)系數(shù):第九頁,共一百一十五頁,編輯于2023年,星期四使用相關(guān)系數(shù)要注意:簡單線性相關(guān)包含了其他變量的影響。X,Y都是隨機變量,相關(guān)系數(shù)只說明其線性相關(guān)程度,不說明其非線性關(guān)系,也不反映他們之間的因果關(guān)系;樣本相關(guān)系數(shù)是總體相關(guān)系數(shù)的樣本估計量;相關(guān)系數(shù)具有對稱性,即;相關(guān)系數(shù)取值區(qū)間[-1,1]。第十頁,共一百一十五頁,編輯于2023年,星期四1.3回歸分析和相關(guān)分析1.3.1回歸分析是對一個應(yīng)變量對若干解釋變量依存關(guān)系的研究;其目的是:由固定的解釋變量去估計和預(yù)測應(yīng)變量的平均值等。第十一頁,共一百一十五頁,編輯于2023年,星期四1.3.2回歸函數(shù)、回歸線應(yīng)變量Y的條件期望隨著解釋變量X的變化而有規(guī)律地變化。把這種變化關(guān)系用函數(shù)表示出來,就是回歸函數(shù):回歸函數(shù)在坐標系中用圖形表示出來就是回歸線。它表示了應(yīng)變量和解釋變量之間的平均關(guān)系。第十二頁,共一百一十五頁,編輯于2023年,星期四回歸線圖示YX概率密度函數(shù)f(Yi)PRFx1xiXk第十三頁,共一百一十五頁,編輯于2023年,星期四注意:一般地,在重復抽樣中解釋變量被假定為固定的。所以回歸分析中,解釋變量一般當作非隨機變量處理。第十四頁,共一百一十五頁,編輯于2023年,星期四

由于變量間關(guān)系的隨機性,回歸分析關(guān)心的是根據(jù)解釋變量的已知或給定值,考察被解釋變量的總體均值,即當解釋變量取某個確定值時,與之統(tǒng)計相關(guān)的被解釋變量所有可能出現(xiàn)的對應(yīng)值的平均值。例2.1:一個假想的社區(qū)有100戶家庭組成,要研究該社區(qū)每月家庭消費支出Y與每月家庭可支配收入X的關(guān)系。即如果知道了家庭的月收入,能否預(yù)測該社區(qū)家庭的平均月消費支出水平。1.4總體回歸函數(shù)

為達到此目的,將該100戶家庭劃分為組內(nèi)收入差不多的10組,以分析每一收入組的家庭消費支出。第十五頁,共一百一十五頁,編輯于2023年,星期四第十六頁,共一百一十五頁,編輯于2023年,星期四(1)由于不確定因素的影響,對同一收入水平X,不同家庭的消費支出不完全相同;(2)但由于調(diào)查的完備性,給定收入水平X的消費支出Y的分布是確定的,即以X的給定值為條件的Y的條件分布(Conditionaldistribution)是已知的,如:P(Y=561|X=800)=1/4。因此,給定收入X的值Xi,可得消費支出Y的條件均值(conditionalmean)或條件期望(conditionalexpectation):E(Y|X=Xi)該例中:E(Y|X=800)=561分析:第十七頁,共一百一十五頁,編輯于2023年,星期四描出散點圖發(fā)現(xiàn):隨著收入的增加,消費“平均地說”也在增加,且Y的條件均值均落在一根正斜率的直線上。這條直線稱為總體回歸線。05001000150020002500300035005001000150020002500300035004000每月可支配收入X(元)每月消費支出Y(元)

第十八頁,共一百一十五頁,編輯于2023年,星期四概念:

在給定解釋變量Xi條件下被解釋變量Yi的期望軌跡稱為總體回歸線(populationregressionline),或更一般地稱為總體回歸曲線(populationregressioncurve)。稱為(雙變量)總體回歸函數(shù)(populationregressionfunction,PRF)。

相應(yīng)的函數(shù):第十九頁,共一百一十五頁,編輯于2023年,星期四

回歸函數(shù)(PRF)說明被解釋變量Y的平均狀態(tài)(總體條件期望)隨解釋變量X變化的規(guī)律。含義:

函數(shù)形式:可以是線性或非線性的。例2.1中,將居民消費支出看成是其可支配收入的線性函數(shù)時:

為一線性函數(shù)。其中,0,1是未知參數(shù),稱為回歸系數(shù)(regressioncoefficients)。

。第二十頁,共一百一十五頁,編輯于2023年,星期四1.4.2總體回歸函數(shù)的表現(xiàn)形式條件均值形式,如隨機設(shè)定形式。對于一定的,Y的各個個別值分布在的周圍,其差令為,則:對上例,有也即:第二十一頁,共一百一十五頁,編輯于2023年,星期四1.5隨機擾動項1、引入隨機擾動項的目的2、隨機擾動項代表模型中省略了的所有次要因素的綜合作用3、根據(jù)中心極限定理隨機擾動項服從正態(tài)分布4、通常模型由隨機方程組成5、隨機擾動項產(chǎn)生的原因第二十二頁,共一百一十五頁,編輯于2023年,星期四為什么要引入隨機擾動項模型中引入反映不確定因素影響的隨機擾動項μ的目的在于使模型更符合客觀經(jīng)濟活動實際。干擾項是從模型中省略下來而又集體地影響著Y地全部變量地替代物第二十三頁,共一百一十五頁,編輯于2023年,星期四簡單線性需求函數(shù)——不可能包羅萬象地引入全部影響變量我們以最簡單的線性需求函數(shù)為例進行分析。Qd=b0+b1X1理論分析和實踐經(jīng)驗表明,某種商品需求量不僅趨近于價格,而且趨近于替代商品的價格X2,消費者收入X3和消費者偏好X4等等。將所有對需求量有影響的個變量引入方程:Qd=b0+b1X1+b2X2+b3X3+b4X4++bkXk即使如此也還可能有其他次要因素影響需求量,譬如社會風尚,心理變化甚至天氣等等??傊?,不可能巨細無遺地全部都引入。第二十四頁,共一百一十五頁,編輯于2023年,星期四次要因素的綜合效應(yīng)是不能忽視的未引入的這些隨機變量有的可以度量,有些不可以度量,在實際觀測中,有時發(fā)生影響有時又不發(fā)生影響,記為隨機變量Zi(i=1,2,…,m)。從個別意義上,這些次要因素可能是不重要的,但所有這些的綜合效應(yīng)是不能忽視的。否則,模型將與實際不符。于是將它們也引入模型。第二十五頁,共一百一十五頁,編輯于2023年,星期四必須另外尋找解決問題的思路全部變量引入顯然是不必要的。計量經(jīng)濟學將這些或者次要,或者偶然的,或者不可測度的變量用一個隨機擾動項μ來概括,需求函數(shù):這是一個隨機方程。μ是隨機變量Zj的線性組合,也是一個隨機變量。它代表所有未列入模型的那些次要因素的綜合影響。第二十六頁,共一百一十五頁,編輯于2023年,星期四由中心極限定理μ服從正態(tài)分布進一步分析μ相當于諸隨機變量Zj的均值因此,由中心極限定理,無論Zj原來的分布形式如何,只要它們相互獨立,m足夠大,就會有μ趨于正態(tài)分布。而且正態(tài)分布簡單易用,且數(shù)理統(tǒng)計學中研究的成果很多,可以借鑒。第二十七頁,共一百一十五頁,編輯于2023年,星期四隨機擾動項產(chǎn)生的原因(1)人類行為和客觀現(xiàn)象的隨機性。引入μ的根本原因,乃是經(jīng)濟活動是人類參與的,而人類行為的內(nèi)在隨機性決定了不可能像科學實驗?zāi)菢泳_。此外還有社會環(huán)境和自然環(huán)境的隨機性。(2)模型省略了變量。被省略的變量包含在隨機擾動項μ中。核心變量與周邊變量(3)測量與歸并誤差。測量誤差致使觀察值不等于實際值,匯總也存在誤差。(4)數(shù)學模型形式設(shè)定造成的誤差。比如由于認識不足或者簡化,將非線性設(shè)定成線性模型。第二十八頁,共一百一十五頁,編輯于2023年,星期四(5)數(shù)據(jù)的欠缺(6)糟糕的替代變量(7)理論的含糊性隨機擾動項產(chǎn)生的原因第二十九頁,共一百一十五頁,編輯于2023年,星期四1.6樣本回歸函數(shù)(SRF)

問題:能從一次抽樣中獲得總體的近似的信息嗎?如果可以,如何從抽樣中獲得總體的近似信息?問:能否從該樣本估計總體回歸函數(shù)PRF?回答:能例2.2:在例2.1的總體中有如下一個樣本,

總體的信息往往無法掌握,現(xiàn)實的情況只能是在一次觀測中得到總體的一個樣本。第三十頁,共一百一十五頁,編輯于2023年,星期四核樣本的散點圖(scatterdiagram):

樣本散點圖近似于一條直線,畫一條直線以盡好地擬合該散點圖,由于樣本取自總體,可以該線近似地代表總體回歸線。該線稱為樣本回歸線(sampleregressionlines)。記樣本回歸線的函數(shù)形式為:稱為樣本回歸函數(shù)(sampleregressionfunction,SRF)。

第三十一頁,共一百一十五頁,編輯于2023年,星期四

這里將樣本回歸線看成總體回歸線的近似替代則

注意:第三十二頁,共一百一十五頁,編輯于2023年,星期四

樣本回歸函數(shù)的隨機形式/樣本回歸模型:同樣地,樣本回歸函數(shù)也有如下的隨機形式:

由于方程中引入了隨機項,成為計量經(jīng)濟模型,因此也稱為樣本回歸模型(sampleregressionmodel)。

第三十三頁,共一百一十五頁,編輯于2023年,星期四

▼回歸分析的主要目的:根據(jù)樣本回歸函數(shù)SRF,估計總體回歸函數(shù)PRF。注意:這里PRF可能永遠無法知道。即,根據(jù)

估計第三十四頁,共一百一十五頁,編輯于2023年,星期四1.6.2對樣本回歸函數(shù)的說明每次抽樣都能夠獲得一個樣本,就可以擬合一條樣本回歸線,所以樣本回歸線隨抽樣波動而變化,可以有多條。樣本回歸線不是總體回歸線,只是未知總體回歸線的近似。SRF1SRF2XY第三十五頁,共一百一十五頁,編輯于2023年,星期四1.6.3殘差定義:那么有:對上例,有:第三十六頁,共一百一十五頁,編輯于2023年,星期四回歸分析的思路樣本樣本回歸函數(shù)的參數(shù)

一定方法得出總體回歸函數(shù)的參數(shù)近似看成是SRF1:PRF2:(觀察參數(shù)的對應(yīng)估計關(guān)系)第三十七頁,共一百一十五頁,編輯于2023年,星期四第二節(jié)簡單線性回歸模型的最小二乘估計(OLS)本節(jié)主要介紹:

2.1簡單線性回歸模型的基本假定

2.2普通最小二乘法(OLS)

2.3OLS回歸線的性質(zhì)

2.4最小二乘估計的統(tǒng)計性質(zhì)

第三十八頁,共一百一十五頁,編輯于2023年,星期四2.1簡單線性回歸的基本假定2.1.1為什么要做基本假定參數(shù)估計量是隨機變量,只有在一定的假設(shè)條件下,所作出的估計才具較好的統(tǒng)計性質(zhì)。只有對隨機擾動項的分布作出假定,才能確定所估計參數(shù)的分布的性質(zhì),也才可能進行假設(shè)檢驗和區(qū)間估計。第三十九頁,共一百一十五頁,編輯于2023年,星期四2.1.2假定的兩個方面:

(1)關(guān)于變量和模型的基本假定是非隨機的,或者雖然是隨機的,但是與是不相關(guān)的;無測量誤差;變量和函數(shù)形式設(shè)定正確。第四十頁,共一百一十五頁,編輯于2023年,星期四假定的兩個方面:

(2)關(guān)于隨機擾動項也稱高斯假定、古典假定假定1零均值:假定2同方差:假定3無自相關(guān):假定4隨機擾動項與不相關(guān)。即:假定5服從正態(tài)分布,即:第四十一頁,共一百一十五頁,編輯于2023年,星期四注意:正態(tài)性假定(5)不影響對參數(shù)的點估計,所以可不列入基本假定,且根據(jù)中心極限定理,當樣本容量無窮大時,的分布趨近于正態(tài)分布。但此假定對確定所估計參數(shù)的分布性質(zhì)是需要的,第四十二頁,共一百一十五頁,編輯于2023年,星期四2.1.3Y的分布性質(zhì)由于,所以的分布性質(zhì)就決定了的分布性質(zhì)。對的一些假定可以等價地表示為對的假定:零均值:同方差:無自相關(guān):正態(tài)性:第四十三頁,共一百一十五頁,編輯于2023年,星期四2.2普通最小二乘法(OLS)基本思想數(shù)學過程估計結(jié)果第四十四頁,共一百一十五頁,編輯于2023年,星期四2.2.1最小二乘法的基本思想縱向距離是Y的實際值與擬合值之差,稱為擬合誤差或殘差。差異大擬合不好,差異小擬合好。殘差可正可負,為克服加總時正負相消,將其平方后相加,得殘差平方和,“最好”直線就是使誤差平方和最小的直線。于是求最好擬合直線問題轉(zhuǎn)換為求殘差平方和最小,可以運用求極值的原理求解。第四十五頁,共一百一十五頁,編輯于2023年,星期四三種距離YX縱向距離橫向距離距離A為實際點,B為擬合直線上與之對應(yīng)的點SRF返回第四十六頁,共一百一十五頁,編輯于2023年,星期四YX0******△**△****Y7Y9Min數(shù)學形式第四十七頁,共一百一十五頁,編輯于2023年,星期四2.2.2最小二乘法的數(shù)學過程詳見課本第四十八頁,共一百一十五頁,編輯于2023年,星期四2.2.3OLS估計結(jié)果的離差形式離差形式:OLS估計結(jié)果的離差形式:(樣本回歸函數(shù)的離差形式:)第四十九頁,共一百一十五頁,編輯于2023年,星期四2.2.4幾個有用的結(jié)果可以用到以后計算、證明過程中:第五十頁,共一百一十五頁,編輯于2023年,星期四2.3OLS回歸線的性質(zhì)1.回歸線過樣本均值點2.殘差和為零3.Y的真實值和擬合值有共同均值4.殘差與自變量不相關(guān)5.殘差與擬合值不相關(guān)第五十一頁,共一百一十五頁,編輯于2023年,星期四

2.3.1回歸線過樣本均值由,知:即樣本均值點滿足回歸線方程SRFYX第五十二頁,共一百一十五頁,編輯于2023年,星期四2.3.2殘差和為零由OLS數(shù)學過程直接可得。且易推出殘差的平均數(shù)也等于零。第五十三頁,共一百一十五頁,編輯于2023年,星期四2.3.3Y的真實值和擬合值有共同的均值第五十四頁,共一百一十五頁,編輯于2023年,星期四性質(zhì)4、52.3.4殘差與自變量不相關(guān)(Residualsareunrelatedwithindependentvariable)2.3.5估計殘差與擬合值不相關(guān)(Residualsareunrelatedwithfittedvalueof)

第五十五頁,共一百一十五頁,編輯于2023年,星期四樣本回歸直線性質(zhì)總結(jié)

殘差和=0均值相等擬合值與殘差不相關(guān)自變量與殘差不相關(guān)過樣本均值第五十六頁,共一百一十五頁,編輯于2023年,星期四2.4最小二乘估計量的性質(zhì)當模型參數(shù)估計出后,需考慮參數(shù)估計值的精度,即是否能代表總體參數(shù)的真值,或者說需考察參數(shù)估計量的統(tǒng)計性質(zhì)。一個用于考察總體的估計量,可從如下幾個方面考察其優(yōu)劣性:

(1)線性性,即它是否是另一隨機變量的線性函數(shù);

(2)無偏性,即它的均值或期望值是否等于總體的真實值;

(3)有效性,即它是否在所有線性無偏估計量中具有最小方差。第五十七頁,共一百一十五頁,編輯于2023年,星期四(4)漸近無偏性,即樣本容量趨于無窮大時,是否它的均值序列趨于總體真值;(5)一致性,即樣本容量趨于無窮大時,它是否依概率收斂于總體的真值;(6)漸近有效性,即樣本容量趨于無窮大時,是否它在所有的一致估計量中具有最小的漸近方差。

這三個準則也稱作估計量的小樣本性質(zhì)。擁有這類性質(zhì)的估計量稱為最佳線性無偏估計量(bestlinerunbiasedestimator,BLUE)。

當不滿足小樣本性質(zhì)時,需進一步考察估計量的大樣本或漸近性質(zhì):第五十八頁,共一百一十五頁,編輯于2023年,星期四2.4.1線性:最小二乘估計量是關(guān)于Yi的線性函數(shù)注意同2.2.4第五十九頁,共一百一十五頁,編輯于2023年,星期四2.4.2無偏性由2.2.4,知:第六十頁,共一百一十五頁,編輯于2023年,星期四2.4.3有效性證明太繁雜,略。以下只給出其方差:第六十一頁,共一百一十五頁,編輯于2023年,星期四2.4.4參數(shù)的分布、殘差方差的估計由上,知:擾動項的方差通過樣本估計為:其中,n為樣本容量。第六十二頁,共一百一十五頁,編輯于2023年,星期四OLS參數(shù)估計量的有效性指的是:在一切線性、無偏估計量中,OLS參數(shù)估計量的方差最小。所有參數(shù)估計量線性參數(shù)估計量無偏參數(shù)估計量最小二乘參數(shù)估計量第六十三頁,共一百一十五頁,編輯于2023年,星期四3、最大似然法最大似然法(MaximumLikelihood,ML),也稱最大或然法,是不同于最小二乘法的另一種參數(shù)估計方法,是從最大或然原理出發(fā)發(fā)展起來的其它估計方法的基礎(chǔ)?;驹恚寒攺哪P涂傮w隨機抽取n組樣本觀測值后,最合理的參數(shù)估計量應(yīng)該使得從模型中抽取該n組樣本觀測值的概率最大。ML必須已知隨機項的分布。第六十四頁,共一百一十五頁,編輯于2023年,星期四3.1、估計步驟Yi的分布Yi的概率函數(shù)

Y的所有樣本觀測值的聯(lián)合概率—似然函數(shù)

第六十五頁,共一百一十五頁,編輯于2023年,星期四對數(shù)似然函數(shù)

對數(shù)似然函數(shù)極大化的一階條件結(jié)構(gòu)參數(shù)的ML估計量第六十六頁,共一百一十五頁,編輯于2023年,星期四3.2、討論在滿足一系列基本假設(shè)的情況下,模型結(jié)構(gòu)參數(shù)的最大似然估計量與普通最小二乘估計量是相同的。但是,分布參數(shù)的估計結(jié)果不同。第六十七頁,共一百一十五頁,編輯于2023年,星期四第四節(jié)回歸系數(shù)的區(qū)間估計和假設(shè)檢驗本節(jié)主要介紹:簡單線性回歸系數(shù)的分布及其標準化?;貧w系數(shù)的區(qū)間估計回歸系數(shù)的假設(shè)檢驗擾動項方差的區(qū)間估計。第六十八頁,共一百一十五頁,編輯于2023年,星期四4.1回歸系數(shù)的標準化第六十九頁,共一百一十五頁,編輯于2023年,星期四4.2回歸系數(shù)的區(qū)間估計區(qū)間估計區(qū)間估計的概念、步驟應(yīng)用:

1、已知擾動項方差,對進行區(qū)間估計

2、擾動項方差未知,對進行區(qū)間估計大樣本下/小樣本下第七十頁,共一百一十五頁,編輯于2023年,星期四4.2.1區(qū)間估計的概念所謂區(qū)間估計就是以一定的可靠性給出被估計參數(shù)的一個可能的取值范圍。具體作法是找出兩個統(tǒng)計量1(x1,…,xn)與2(x1,…,xn),使

P(1<<2)=1-(1,2)稱為置信區(qū)間,1-稱為置信系數(shù)(置信度),稱為冒險率(測不準的概率)或者顯著水平,一般取5%或1%。第七十一頁,共一百一十五頁,編輯于2023年,星期四對區(qū)間估計的形象比喻我們經(jīng)常說某甲的成績“大概80分左右”,可以看成一個區(qū)間估計。(某甲的成績?yōu)楸还烙嫷膮?shù))P(1<<2)=大概的準確程度(1-)

如:P(75<<85)=95%=1-5%“大概80分左右”冒險率(也叫顯著水平)下限上限置信系數(shù)1-第七十二頁,共一百一十五頁,編輯于2023年,星期四4.2.2區(qū)間估計的步驟:

1)找一個含有該參數(shù)的統(tǒng)計量;

要求該統(tǒng)計量:分布已知含待估參數(shù)除了待估參數(shù)外,其余為已知量。

2)構(gòu)造一個概率為的事件;3)通過該事件解出該參數(shù)的區(qū)間估計.第七十三頁,共一百一十五頁,編輯于2023年,星期四4.2.3已知擾動項方差,對

的區(qū)間估計第七十四頁,共一百一十五頁,編輯于2023年,星期四4.2.4未知擾動項方差,對的

區(qū)間估計(1)大樣本下

可以用代替,有所以仍按已知方差作區(qū)間估計,只不過把區(qū)間估計中的隨機擾動的方差換成其估計值。第七十五頁,共一百一十五頁,編輯于2023年,星期四(2)小樣本下第七十六頁,共一百一十五頁,編輯于2023年,星期四區(qū)間估計,統(tǒng)計量選擇小結(jié)第七十七頁,共一百一十五頁,編輯于2023年,星期四4.2.5擾動項方差的區(qū)間估計對擾動項的區(qū)間估計使用的統(tǒng)計量為:其余步驟相同第七十八頁,共一百一十五頁,編輯于2023年,星期四4.3回歸系數(shù)的假設(shè)檢驗基本概念:假設(shè)檢驗,原假設(shè)/備擇假設(shè)置信水平假設(shè)檢驗的步驟應(yīng)用:的假設(shè)檢驗(方差已知/方差未知)方差的假設(shè)檢驗第七十九頁,共一百一十五頁,編輯于2023年,星期四4.3.1假設(shè)檢驗的概念定義:稱對任何一個隨機變量未知的分布類型或參數(shù)的假設(shè)為統(tǒng)計假設(shè),簡稱假設(shè)。檢驗該假設(shè)是否正確稱為假設(shè)檢驗。在統(tǒng)計假設(shè),如

H0:p=0.5(稱為原假設(shè))

H1:p0.5(稱為備擇假設(shè))

是假設(shè)檢驗中小概率事件發(fā)生的概率,也稱為置信水平。

第八十頁,共一百一十五頁,編輯于2023年,星期四4.3.2假設(shè)檢驗的步驟:Step1:分析問題,提出原假設(shè)和備擇假設(shè);Step2:選擇和計算統(tǒng)計量U:在原假設(shè)成立時,U的分布已知;含有要檢驗的參數(shù);各個參數(shù)應(yīng)該都是已知的、可求的。Step3:構(gòu)造小概率事件:Step4:判斷小概率事件是否發(fā)生:Step5:下結(jié)論:若小概率事件發(fā)生,拒絕原假設(shè)H0;選擇備擇假設(shè)H1。否則,原假設(shè)成立。第八十一頁,共一百一十五頁,編輯于2023年,星期四假設(shè)檢驗的具體操作步驟

(已知方差,檢驗為例)1、提出零假設(shè)H0:H1:3、確定顯著水平,如=0.05,查表得相應(yīng)的臨界值/24、判斷和下結(jié)論:若|U|/2,拒絕H0;若|U|</2,接受H0;(判斷區(qū)域圖示)5、依據(jù)結(jié)論,作出經(jīng)濟學上的解釋。第八十二頁,共一百一十五頁,編輯于2023年,星期四4.3.3假設(shè)檢驗中統(tǒng)計量的選擇第八十三頁,共一百一十五頁,編輯于2023年,星期四4.3.4回歸系數(shù)假設(shè)檢驗及意義回歸系數(shù)的假設(shè)檢驗,往往是檢驗

檢驗的意義:檢驗該系數(shù)是否顯著,進而檢驗對應(yīng)的解釋變量是否對應(yīng)變量有解釋作用。第八十四頁,共一百一十五頁,編輯于2023年,星期四第五節(jié)擬合優(yōu)度的度量本節(jié)主要內(nèi)容:4.1總變差(總平方和)的分解4.2可決系數(shù)4.3可決系數(shù)和相關(guān)系數(shù)的關(guān)系4.4自由度的分解第八十五頁,共一百一十五頁,編輯于2023年,星期四問題的提出由最小二乘法所得直線確實能夠?qū)@些點之間的關(guān)系加以反映嗎?對這些點之間的關(guān)系或趨勢反映到了何種程度?于是必須經(jīng)過某種檢驗或者找出一個指標,在一定可靠程度下,根據(jù)指標值的大小,對擬合的優(yōu)度進行評價。第八十六頁,共一百一十五頁,編輯于2023年,星期四

5.1總離差1、總平方和、回歸平方和、殘差平方和2、總平方和的分解第八十七頁,共一百一十五頁,編輯于2023年,星期四5.1.1總平方和(總變差)、回歸平方和、殘差平方和的定義TSS度量Y自身的差異程度;ESS度量因變量Y的擬合值自身的差異程度,是總變差中由模型解釋了的變差;RSS度量實際值與擬合值之間的差異程度,是總變差中沒有得到解釋的變差。第八十八頁,共一百一十五頁,編輯于2023年,星期四5.1.2平方和分解:TSS=ESS+RSS正交分解第八十九頁,共一百一十五頁,編輯于2023年,星期四平方和分解的意義TSS=ESS+RSS被解釋變量Y總的變動(差異)=

解釋變量X引起的變動(差異)

+除X以外的因素引起的變動(差異)如果X引起的變動在Y的總變動中占很大比例,那么X可以很好地解釋了Y;否則,X不能很好地解釋Y。第九十頁,共一百一十五頁,編輯于2023年,星期四5.2可決系數(shù)(或稱判定系數(shù))目的:企圖構(gòu)造一個不含單位,可以相互進行比較,而且能直觀判斷擬合優(yōu)劣的指標??蓻Q系數(shù)的定義:指標含義:可決系數(shù)越大,自變量對因變量的解釋程度越高,自變量引起的變動占總變動的百分比高。觀察點在回歸直線附近越密集。第九十一頁,共一百一十五頁,編輯于2023年,星期四可決系數(shù)(續(xù))可決系數(shù)只是說明列入模型的所有解釋變量對應(yīng)變量的聯(lián)合的影響程度,不說明模型中單個解釋變量的影響程度。可決系數(shù)取值范圍:[0,1]對時間序列數(shù)據(jù),可決系數(shù)達到0.9以上是很平常的;但是,對截面數(shù)據(jù)而言,能夠有0.5就不錯了。第九十二頁,共一百一十五頁,編輯于2023年,星期四可決系數(shù)達到多少為宜?沒有一個統(tǒng)一的明確界限值;若建模的目的是預(yù)測應(yīng)變量值,一般需考慮有較高的可決系數(shù)。若建模的目的是結(jié)構(gòu)分析,就不能只追求高的可決系數(shù),而是要得到總體回歸系數(shù)的可信任的估計量。可決系數(shù)高并不一定每個回歸系數(shù)都可信任;第九十三頁,共一百一十五頁,編輯于2023年,星期四5.3可決系數(shù)和相關(guān)系數(shù)的聯(lián)系數(shù)值上,可決系數(shù)等于應(yīng)變量與解釋變量之間簡單相關(guān)系數(shù)的平方:第九十四頁,共一百一十五頁,編輯于2023年,星期四可決系數(shù)和相關(guān)系數(shù)的區(qū)別可決系數(shù)相關(guān)系數(shù)就模型而言就兩個變量而言說明解釋變量對應(yīng)變量的解釋程度度量兩個變量線性依存程度。度量不對稱的因果關(guān)系度量不含因果關(guān)系的對稱相關(guān)關(guān)系取值:[0,1]取值:[-1,1]第九十五頁,共一百一十五頁,編輯于2023年,星期四5.4自由度的分解(1)什么是自由度(2)對應(yīng)于平方和分解的自由度的分解第九十六頁,共一百一十五頁,編輯于2023年,星期四自由度是指變量可以自由取值得個數(shù),例如我們要測量學生的身高X,隨機抽取10名學生,如果沒有任何限制,則X可以自由取值10個值,自由度為10;但是如果我們限定10各同學的平均身高,那么隨機抽取9名后,最后一名的身高則不能隨意取值了,此時自由度減少一個,為10-1=9。這也是為什么我們在統(tǒng)計學里說修正的樣本方差(除以n-1)為總體方差的無偏估計量。4.4.1什么是自由度第九十七頁,共一百一十五頁,編輯于2023年,星期四模型中樣本值可以自由變動的個數(shù),稱為自由度自由度=樣本個數(shù)—樣本數(shù)據(jù)受約束條件(方程)的個數(shù)例如,樣本數(shù)據(jù)個數(shù)為n,它們受k個方程的約束(系數(shù)矩陣秩為k),那么,自由度df=n-k第九十八頁,共一百一十五頁,編輯于2023年,星期四在計量經(jīng)濟學中,對于一個包含k個解釋變量的回歸方程而言,待估計的參數(shù)個數(shù)為k+1(包括常數(shù)項),在我們根據(jù)最小殘差平方和求偏導的過程中,會得到(k+1)個方程構(gòu)成的方程組,這k+1個方程實際上構(gòu)成了對殘差的k+1個限制條件,所以凡是涉及到殘差構(gòu)成的統(tǒng)計量,自由度就會減少k+1個,例如顯著性檢驗中的t檢驗和f檢驗的自由度等。第九十九頁,共一百一十五頁,編輯于2023年,星期四例:TSS、RSS、ESS的自由度第一百頁,共一百一十五頁,編輯于2023年,星期四4.4.2對應(yīng)于平方和分解的自由度的分解

TSS=ESS+RSSn-11n-2

總自由度dfT

回歸自由度dfE

殘差自由度dfR自由度分解:dfT=dfE+dfR第一百零一頁,共一百一十五頁,編輯于2023年,星期四復習與提高

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論