




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第 二 章 簡單線性回歸模型,引例:居民收入與消費有何種關系?,西方經濟學理論代表福利經濟學 家凱恩斯(Keyness)認為: 隨著收入的增加,消費也會增加。 收入直接制約著消費,而收入分 配的嚴重不均,不僅會使社會中 產生不安因素,而且還大大影響 消費需求的提高。 居民收入與消費相關密切程度如何? 居民收入和消費有著何種數量關系? 怎樣根據收入的變動來估計消費的變動?,顯然,對居民消費起決定性影響作用的有“居民的可支配收入”,“對未來收入的預期”以及“物價水平”等因素。為了不使問題復雜化, 我們先對最簡單的單一變量間數量關系加以討論“居民消費”(Y)與“居民可支配收入”(X)有怎樣的數量關系
2、呢? 能否用某種線性或非線性關系式 Y= f ( X ) 去表現這種數量關系呢?具體該怎樣去表現呢?,需要研究經濟變量之間數量關系的方法,為什么先討論簡單線性回歸模型呢?,在計量經濟模型中,只有兩個變量且為線性的回歸模型最簡單,稱為簡單線性回歸模型。簡單線性回歸的原理可以直接用代數式去表述,較為直觀,更容易理解和接受。 先討論 簡單線性回歸模型,然后很容易拓展到多元的情況。 本章主要討論的問題 : 回歸分析的基本概念 線性回歸模型參數的估計 參數的區(qū)間估計和假設檢驗 回歸方程的擬合優(yōu)度回歸模型預測,第一節(jié) 回歸分析與回歸函數 一、相關分析與回歸分析 1、經濟變量之間的相互關系 性質上可能有三種
3、情況: 確定性的函數關系 Y=f (X) 可用數學方法計算 例如: 個人收入與所得稅之間的關系,經濟變量之間的相互關系,不確定的統計關系相關關系 Y= f(X,) (為隨機變量) 可用統計方法分析 例如:收入與消費之間的關系,沒有關系 不用分析 例如: 收入與天氣的關系,2、相關關系, 相關關系的描述 最直觀的描述方式坐標圖(散布圖、散點圖),函數關系(線性),相關關系(線性),沒有關系,相關關系(非線性),相關關系的類型, 從涉及的變量數量看 簡單相關 多重相關(復相關) 從變量相關關系的表現形式看 線性相關散布圖接近一條直線 非線性相關散布圖接近一條曲線 從變量相關關系變化的方向看 正相關
4、變量同方向變化,同增同減 負相關變量反方向變化,一增一減 不相關,3、相關程度的度量相關系數,如果 和 總體的全部數據都已知, 和 的方差和 協方差也已知,則 X和Y的總體線性相關系數: 其中: -X 的方差 -Y的方差 -X和Y的協方差 如果只知道 和 的樣本觀測值,則 X和Y的樣本線性相關系數: 其中: 和 分別是變量X和Y的樣本觀測值, 和 分別是變量 X 和Y 樣本值的平均值。,特點: 線性相關系數(包括總體和樣本相關系數)只反映變量間的線性相關程度,不能說明非線性相關關系。 X和Y 都是相互對稱的隨機變量, , 注意: 對于特定的總體來說, 和 的分布是既定的,總體相關系數 是客觀存
5、在的特定數值。 總體的兩個變量 和 的全部數值通常不可能直接觀測,所以總體相關系數一般是未知的。 樣本相關系數 是隨抽樣而變動的隨機變量,是總體相關系數的樣本估計值。,對相關系數的正確理解和使用,只是相關分析還不能達到經濟計量分析的目的,相關分析的局限: 相關系數只能反映變量間的線性相關程度,不能確 定變量間的因果關系 相關系數只能說明兩個變量線性相關的方向和程度,不 能說明相關關系具體接近哪條直線,也就不能說明一個 變量的變動會導致另一個變量變動的具體數量規(guī)律。 計量經濟學關心的問題: 是經濟變量間的因果關系以及隱藏在隨機性后面的具 體統計規(guī)律性 在這方面回歸分析方法可以發(fā)揮更為重要的作用。
6、,4、回歸分析,回歸的古典意義: 高爾頓遺傳學的回歸概念 ( 父母身高與子女身高的關系) 子女的身高有向人的平均身高回歸的趨勢 回歸的現代意義: 一個被解釋變量對若干個 解釋變量依存關系的研究 回歸的目的(實質): 由固定的解釋變量去估計 被解釋變量的平均值,注意明確幾個概念(為深刻理解“回歸”) 被解釋變量Y的條件分布和條件概率: 當解釋變量X取某固定值時(條件),Y的值不確定,Y的不同取值會形成一定的分布,這是Y的條件分布。 X取某固定值時,Y取不同值的概率稱為條件概率。 被解釋變量Y的條件期望: 對于X 的每一個取值, 對Y所形成的分布確 定其期望或均值,稱 為Y的條件期望或條件均 值,
7、用 表示。 注意:Y的條件期望是隨X的變動而變動的,Y,X,回歸線:對于每一個X的取值 ,都有Y的條件期望 與之對應,代表Y的條件期望的點的軌跡形成的直線或曲線稱為回歸線。 回歸函數:被解釋變量Y 的條件期望 隨 解釋變量X的變化而有規(guī)律 的變化,如果把Y的條件期 望表現為 X 的某種函數 , 這個函數稱為回歸函數。 回歸函數分為:總體回歸函數和樣本回歸函數,X,Y,舉例: 假如已知由100個家庭構成的總體的數據 (單位:元),二、總體回歸函數(PRF),16,家庭消費支出的條件期望與家庭收入的關系的圖形:,對于本例的總體,家庭消費支出的條件期望 與家庭收入 基本是線性關系, 可以把家庭消費
8、支出的條件均值表示為家庭收入的線性函數:,17,1. 總體回歸函數的概念 前提:假如已知所研究的經濟現象的總體的被解釋變量Y 和解釋變量X的每個觀測值(通常這是不可能的?。?么,可以計算出總體被解釋變量Y的條件期望 , 并將其表現為解釋變量X的某種函數 這個函數稱為總體回歸函數(PRF) 本質: 總體回歸函數實際上表現的是特定總體中被解釋變 量隨解釋變量的變動而變動的某種規(guī)律性。 計量經濟學的根本目的是要探尋變量間數量關系的規(guī)律,也 就是要去尋求總體回歸函數。,18,條件期望表現形式 例如Y的條件期望 是解 釋變量X的線性函數,可表示為: 個別值表現形式(隨機設定形式) 對于一定的 ,Y的
9、各個別值 并不一定等于條件期望,而 是分布在 的周圍,若令各個 與條件期望 的 偏差為 ,顯然 是個隨機變量 則有,2.總體回歸函數的表現形式,PRF,3.如何理解總體回歸函數,作為總體運行的客觀規(guī)律,總體回歸函數是客觀存在 的,但在實際的經濟研究中總體回歸函數通常是未知的, 只能根據經濟理論和實踐經驗去設定。 計量經濟學研究中“計量”的根本目的就是要尋求總體 回歸函數。 我們所設定的計量模型實際就是在設定總體回歸函 數的具體形式。 總體回歸函數中 Y 與 X 的關系可以是線性的,也可以 是非線性的。,19,20,計量經濟學中,線性回歸模型的“線性” 有兩種解釋: 就變量而言是線性的 Y的條件
10、期望(均值)是X的線性函數 就參數而言是線性的 Y的條件期望(均值)是參數的線性函數 例如: 對變量、參數均為“線性” 對參數“線性”,對變量”非線性” 對變量“線性”,對參數”非線性” 注意:在計量經濟學中,線性回歸模型主要指就參數而言是“線性”的,因為只要對參數而言是線性的,都可以用類似的方法去估計其參數,都可以歸于線性回歸。,“線性”的判斷,三、隨機擾動項u,概念 在總體回歸函數中,各 個 的值與其條件期望 的偏差 有很重 要的意義。若只有 影響Y, 與 不應有偏差。 若偏差 存在,說明還有其他影響因素, 實際代表了排除在模型以外的所有因素對 Y 的影響。 性質 是其期望為 0 有一定分
11、布的隨機變量 重要性:隨機擾動項的性質決定著計量經濟分析結 果的性質和計量經濟方法的選擇,21,引入隨機擾動項 的原因,是未知影響因素的代表(理論的模糊性) 是無法取得數據的已知影響因素的代表(數據欠缺) 是眾多細小影響因素的綜合代表(非系統性影響) 模型可能存在設定誤差(變量、函數形式的設定) 歸并誤差(不同種類糧食不合理的歸并為“糧食產量”) 模型中變量可能存在觀測誤差(變量數據不符合實際) 變量可能有內在隨機性(人類經濟行為的內在隨機性),22,四、樣本回歸函數(SRF),樣本回歸線: 對于X的一定值,取得Y 的樣本觀測值,可計算其條件 均值,樣本觀測值條件均值的軌跡,稱為樣本回歸線。
12、樣本回歸函數: 如果把被解釋變量Y的樣本條件 均值 表示為解釋變量X的某種 函數,這個函數稱為樣本回歸函 數(SRF)。,23,X,Y,SRF,24,樣本回歸函數如果為線性函數,可表示為 其中: 是與 相對應的 Y 的樣本條件均值 和 分別是樣本回歸函數的參數 個別值(實際值)形式: 被解釋變量Y的實際觀測值 不完全等于樣本條件均值 ,二者之差用 表示, 稱為剩余項或殘差項: 則 或,樣本回歸函數的函數形式,條件均值形式:,對樣本回歸的理解,如果能夠通過某種方式獲得 和 的數值,顯然: 和 是對總體回歸函數參數 和 的估計 是對總體條件期望 的估計 在概念上類似總體回歸函數中的 ,可視 為對
13、的估計。,25,對比: 總體回歸函數 樣本回歸函數,樣本回歸函數的特點,樣本回歸線隨抽樣波動而變化: 每次抽樣都能獲得一個樣本,就可以擬合一條樣本回歸 線,(SRF不唯一) Y SRF1 SRF2 樣本回歸函數的函數形式 應與設定的總體回歸函數的 函數形式一致。 X 樣本回歸線只是樣本條件均值的軌跡,還不是總體回歸 線,它至多只是未知的總體回歸線的近似表現。,26,樣本回歸函數與總體回歸函數的關系,SRF PRF A X,27,28,目的: 計量經濟分析的目標是尋求總體回歸函數。即用樣本回歸函數SRF去估計總體回歸函數PRF。 由于樣本對總體總是存在代表性誤差,SRF 總會 過高或過低估計PR
14、F。 要解決的問題: 尋求一種規(guī)則和方法,使其得到的SRF的參數 和 盡可能“接近”總體回歸函數中的參數 和 的真實值。這樣的“規(guī)則和方法”有多種,如矩估計、極大似然估計、最小二乘估計等。其中最常用的是最小二乘法。,回歸分析的目的,第二節(jié) 簡單線性回歸模型的最小二乘估計,用樣本去估計總體回歸函數,總要使用特定的方法,而任 何估計參數的方法都需要有一定的前提條件假定條件 一、簡單線性回歸的基本假定 為什么要作基本假定? 只有具備一定的假定條件,所作出的估計才具有良好的統計性質。 因為模型中有隨機擾動項,估計的參數是隨機變量,顯然參數估計值的分布與擾動項的分布有關,只有對隨機擾動的分布作出假定,才
15、能比較方便地確定所估計參數的分布性質,也才可能進行假設檢驗和區(qū)間估計等統計推斷。 假定分為:對模型和變量的假定對隨機擾動項的假定,29,1.對模型和變量的假定,如對于 假定模型設定是正確的(變量和模型無設定誤差) 假定解釋變量X在重復抽樣中取固定值。 假定解釋變量X是非隨機的,或者雖然X是隨機的, 但與擾動項u是不相關的。(從變量X角度看) 注意: 解釋變量非隨機在自然科學的實驗研究中容易 滿足,經濟領域變量的觀測是被動不可控的,X非隨機 的假定不容易滿足。,30,2.對隨機擾動項u的假定,假定1:零均值假定: 在給定X的條件下, 的條件期望為零 假定2:同方差假定: 在給定X的條件下,的條件
16、方差為某個常數,31,32,假定3:無自相關假定: 隨機擾動項 的逐次值互不相關 假定4:解釋變量 是非隨機的,或者雖然 是隨 機的但與擾動項 不相關 (從隨機擾動 角度看),33,假定5:對隨機擾動項分布的正態(tài)性假定, 即假定 服從均值為零、方差為 的正態(tài)分布 (說明:正態(tài)性假定不影響對參數的點估計,所以有時不列入基本假定,但這對確定所估計參數的分布性質是需要的。且根據中心極限定理,當樣本容量趨于無窮大時, 的分布會趨近于正態(tài)分布。所以正態(tài)性假定有合理性) 注意: 并不是參數估計的每一具體步驟都要用到所有的假定,但對全部假定有完整的認識,對學習計量經濟學的原理是有益的。,在對 的基本假定下
17、Y 的分布性質,由于 其中的 和 是非隨機的,因此 的分布性質決定了 的分布性質。 對 的一些假定可以等價地表示為對 的假定: 假定1:零均值假定 假定2:同方差假定 假定3:無自相關假定 假定5:正態(tài)性假定,34,二、普通最小二乘法(OLS) (rdinary Least Squares),1. OLS的基本思想: 對于 不同的估計方法可以得到不同的樣本回歸參數 和 ,所估計的 也就不同。 理想的估計方法應使估計的 與真實的 的差(即剩余 )總的來說越小越好 因 可正可負,總有 ,所以可以取 最 小,即 在觀測值Y和X確定時, 的大小決定于 和 。,35,2. 正規(guī)方程和估計式,用克萊姆法則
18、求解得以觀測值表現的OLS估計式:,36,取偏導數并令其為0,可得正規(guī)方程,或整理得,即,37,為表達得更簡潔,或者用離差形式OLS估計式: 容易證明 由正規(guī)方程: 注意:其中: 本課程中大寫的 和 均表示觀測值; 小寫的 和 均表示觀測值的離差 而且由 樣本回歸函數可用離差形式寫為,用離差表現的OLS估計式,3. OLS回歸線的數學性質 可以證明:(見教材P33P34證明) (證明過程用到OLS正規(guī)方程的結論,但與基本假定無關),回歸線通過樣本均值 估計值 的均值等于實 際觀測值 的均值 剩余項 的均值為零,38,(由OLS第一個正規(guī)方程直接得到),(由OLS正規(guī)方程 兩邊同除n得到),被解
19、釋變量估計值 與剩余項 不相關,解釋變量 與剩余項 不相關,由OLS正規(guī)方程有:,(注意:紅色的項為0),4. OLS估計式的統計性質,回顧第1章:參數估計式的優(yōu)劣需要有評價的標準 參數無法通過觀測直接確定,只能通過樣本估計,但因 存在抽樣波動,參數估計值不一定等于總體參數的真實值。 參數估計方法及所確定的估計式不一定完備,不一定 能得到總體參數的真實值,需要對估計方法作評價與選擇。 比較不同估計方法的估計結果時,需要有一定的評價標準 基本要求:參數估計值應盡可能地接近總體參數的真實值 估計準則:“盡可能地接近” 原則 決定于參數估計式的統計性質:無偏性、有效性、一致性等。,40,41,(1)
20、 無偏性,前提:重復抽樣中估計方法固定、樣本數不變、經 重復抽樣的觀測值,可得一系列參數估計值 , 的分布稱為 的抽樣分布,其密度函數記為 如果 稱 是參數的無偏估計式,否則 則稱 是有偏的估計,其偏倚為 (見圖2),42,概 率 密 度 估計值 偏倚,圖2,43,(2)有效性,前提:樣本相同、用不同的方法估計參數,可以找到若干 個不同的無偏估計式 目標: 努力尋求其抽樣分布具有最小方差的估計式 (見圖3) 既是無偏的同時又具有最小方差特性的估計式,稱為最佳 (有效)估計式。,44,概 率 密 度,圖 3,估計值,(3)漸近性質(大樣本性質),思想:當樣本容量較小時,有時很難找到方差最小的無偏
21、估計, 需要考慮樣本擴大后的性質(估計方法不變,樣本數逐步增大) 一致性: 當樣本容量 n 趨于無窮大時,如果估計式 依概率收斂于總體參數的真實值,就稱這個估計式 是 的一致估計式。即 或 (漸近無偏估計式是當樣本容量變得足夠大時其偏倚趨于零的 估計式) (見圖4) 漸近有效性:當樣本容量 n 趨于無窮大時,在所有的一致估計 式中,具有最小的漸近方差。,45,46,概 率 密 度 估計值,圖 4,4.分析OLS估計式的統計性質,先明確幾點: 由OLS估計式可以看出 都由可觀測的樣本值 和 唯一表示。 因存在抽樣波動,OLS估計 是隨機變量 OLS估計式是點估計式,47,OLS估計是否符合“盡可
22、能地接近總體參數真實值”的要求呢?,1、 線性特征 是Y的線性函數,2、 無偏特性 可以證明 (證明見教材P37),48,OLS估計式的統計性質高斯定理,3、 最小方差特性 (證明見教材P68附錄21) 可以證明:在所有的線性無偏估計中,OLS估計 具有最小方差 (注意:無偏性和最小方差性的證明中用到了基本假定1-假定4) 結論(高斯定理): 在古典假定條件下,OLS估計式是最佳線性無偏估計式(BLUE),49,第三節(jié) 擬合優(yōu)度的度量,概念: 樣本回歸線是對樣本數據的 一種擬合。 不同的模型(不同函數形式) 可擬合出不同的回歸線 相同的模型用不同方法估計 參數,可以擬合出不同的回歸線 擬合的回
23、歸線與樣本觀測值總是有偏離。樣本回歸 線對樣本觀測數據擬合的優(yōu)劣程度稱為擬合優(yōu)度 如何度量擬合優(yōu)度呢? 擬合優(yōu)度的度量建立在對 Y 的總變差分解的基礎上,50,一、總變差的分解,分析Y的觀測值 、估計值 與平均值 有以下關系 將上式兩邊平方加總,可證得(提示:交叉項 ) (TSS) (ESS) (RSS) 或者表示為 總變差 (TSS):被解釋變量Y的觀測值與其平均值的離差平 方和(總平方和)(說明 Y 的變動程度) 解釋了的變差 (ESS):被解釋變量Y的估計值與其平均值的 離差平方和(回歸平方和) 剩余平方和 (RSS):被解釋變量觀測值與估計值之差的平方 和(未解釋的平方和),51,Y
24、X,52,變差分解的圖示(以某一個觀測值為例),二、可決系數,以TSS同除總變差等式兩邊: 或 定義:回歸平方和(解釋了的變差ESS) 在總變 差(TSS) 中所占的比重稱為可決系數,用 或 表示:,53,或,可決系數的作用,可決系數越大,說明在總變差中由模型作出了解釋的部分占的比重越大,模型擬合優(yōu)度越好。反之可決系數越小,說明模型對樣本觀測值的擬合程度越差。 可決系數的特點: 可決系數取值范圍: 隨抽樣波動,樣本可決系數 是隨抽樣而變 動的隨機變量 可決系數是非負的統計量,54,可決系數與相關系數的數值關系,聯系:數值上可決系數是相關系數的平方,55,可決系數與相關系數的區(qū)別,區(qū)別: 可決系
25、數 相關系數 就模型而言 就兩個變量而言 說明解釋變量對被解釋 說明兩變量線性依存程度 變量的解釋程度 度量的不對稱的因果關系 度量的對稱的相關關系 取值 0 1 取值 -1r1 有非負性 可正可負,56,運用可決系數時應注意:, 可決系數只是說明列入模型的所有解釋變量對 被解釋變量的聯合的影響程度,不說明模型中每個解 釋變量的影響程度(在多元中) 如果回歸的主要目的是經濟結構分析,不能只追 求高的可決系數,而是要得到總體回歸系數可信的 估計量??蓻Q系數高并不一定每個回歸系數都可信任。 如果研究的主要目的只是為了預測被解釋變量的值, 不是為了正確估計回歸系數,一般可考慮有較高的可 決系數。,5
26、7,58,第四節(jié) 回歸系數的區(qū)間估計和假設檢驗,為什么要作區(qū)間估計? 運用OLS法可以估計出參數的一個估計值,但OLS估計只是通過樣本得到的點估計,它不一定等于真實參數,還需要尋求真實參數的可能范圍,并說明其可靠性。 為什么要作假設檢驗? OLS 估計只是用樣本估計的結果,是否可靠? 是否抽樣的偶然結果呢?還有待統計檢驗。 區(qū)間估計和假設檢驗都是建立在確定參數估計值 概率分布性質的基礎上。,59,一、OLS估計的分布性質 基本思想 是隨機變量,必須確定其分布性質才可能進行區(qū)間估計和假設檢驗 怎樣確定 的分布性質呢? 是服從正態(tài)分布的隨機變量,決定 了 也是服從正態(tài)分布的隨機變量; 是 的線性函
27、數,決定了 也服從正態(tài)分布 正態(tài) 正態(tài) 正態(tài) 只要確定 的期望和方差,即可確定 的分布性質,線性特征,60, 的期望: (已證明是無偏估計) 的方差和標準誤差 (證明見P38,要求看懂!) (標準誤差是方差的平方根) 注意:以上各式中 均未知,但是個常數,其余均是已 知的樣本觀測值,這時 和 都不是隨機變量。,的期望和方差,61,基本思想: 是 的方差,而 不能直接觀測,只能從由樣本得到的 去獲得有關 的某些信息,去對 作出估計。 可以證明(見附錄2.2)其無偏估計為 (n-2為自由度, 即可自由變化的樣本觀測值個數) 注意區(qū)別: 是未知的確定的常數; 是由樣本信息估計的,是個隨機變量,對隨機
28、擾動項方差 的估計,62,對 作標準化變換,為什么要對 作標準化變換? 在 正態(tài)性假定下,由前面的分析已知 但在對一般正態(tài)變量 作實際分析時,要具體確定 的取值及對應的概率,要通過正態(tài)分布密度函數或 分布函數去計算是很麻煩的,為了便于直接利用“標 準化正態(tài)分布的臨界值”,需要對 作標準化變換。 標準化的方式:,分布函數,分布函數,63,在 已知時對 作標準化變換,所得Z統計量為標準正態(tài)變量。,1. 已知時,對 作標準化變換,注意:這時 和 都不是隨機變量(X、 、 都是非隨機的),64,條件: 當 未知時,可用 (隨機變量)代替 去估計參數的標準誤差。這時參數估計的標準誤差是個隨機變量。 樣本
29、為大樣本時,作標準化變換所得的統計量Zk,也可以 視為標準正態(tài)變量(根據中心極限定理)。 樣本為小樣本時,,用估計的參數標準誤差對 作標準化變換,所得的統 計量用t表示,這時t將不再服從正態(tài)分布,而是服從 t 分布(注意這時分母是隨機變量) :,2. 未知時,對 作標準化變換,二、回歸系數的區(qū)間估計,基本思想: 對參數作出的點估計是隨機變量,雖然是無偏估計,但 還不能說明這種估計的可靠性和精確性。如果能找到包含 真實參數的一個范圍,并確定這樣的范圍包含參數真實值 的可靠程度,將是對真實參數更深刻的認識。 方法:如果在確定參數估計式概率分布性質的基礎上,可 找到兩個正數和 ,能使得 這樣的區(qū)間包
30、含真實 的概率為 ,即 這樣的區(qū)間稱為所估計參數的置信區(qū)間。 討論:“如果已經得出了 的特定估計值,并確定了某個置信區(qū)間,這說明真實參數落入這個區(qū)間的概率為1- 。這種說法對嗎?,65,怎樣正確理解置信區(qū)間?,注意: 是未知但確定的數, 是隨抽樣而變化的隨機區(qū)間。 從重復抽樣的觀點看,每次抽樣都可構造一個區(qū)間,象這樣構造的區(qū)間,平均來說有( )比例的次數包含 的真實值。但對特定樣本,一但估計出特定的 ,區(qū)間 就不再是隨機的,而是特定的,這時它或者包含 (包含的概率為1),或者不包含 (包含的概率為0)。,問題: 是給定的,如何去尋找合適的 呢?,67,樣本容量充分大,樣本容量較小,總體方差 已
31、知,總 體 方 差 未 知,Z將接近 標準正態(tài)分布,服從 t 分布,三 種 情 況,基本思想:利用 標準化后統計量的分布性質去尋求 :,置信區(qū)間:,標準正態(tài)分布,回歸系數的區(qū)間估計 (分三種情況尋找合適的 ),(1) 當總體方差 已知時( Z 服從正態(tài)分布) 取定 (例如 =0.05),查標準正態(tài)分布表得與 對 應的臨界值z (例如z為1.96),則標準化變量Z*(統計量) 因為 或 即,68,(2)當總體方差 未知,而樣本容量充分大時,方法:可用無偏估計 去代替未知的 , 由于樣本容量充分大,標準化變量Z*(統計量)將 接近標準正態(tài)分布 注意:這里的“ ”,表示“估計的”, 這時區(qū)間估計的方
32、式也可利用標準正態(tài)分布 只是這時,69,(3)當總體方差 未知,且樣本容量較小時,方法:用無偏估計 去代替未知的 , 由于樣本容量較小,“標準化變量” t (統計量)不再 服從正態(tài)分布,而服從 t 分布。 這時可用 t 分布去建立參數估計的置信區(qū)間。選定, 查 t 分布表得顯著性水平為 ,自由度為n-2的臨界值 (n-2) ,則有 即,70,例1:研究某市城鎮(zhèn)居民人均鮮蛋需求量Y(公斤)與人均可支配收入X(元,1980年不變價計)的關系 設定模型: 1995-2005年樣本數據: 估計參數:,計算可決系數 例1:由前面的估計結果可計算出 由數據Y 可計算出: 則,估計結果:,估計 : 給定 查
33、df=n-2=9的t分布臨界值 參數區(qū)間估計: 若給定 查df=9的t分布臨界值,73,若給定 則,若給定 則,則,74,74,統計量 t,計算的統計量為:,相對于顯著性水平 的臨界值為: (單側)或 (雙側),基本概念回顧: 臨界值與概率、大概率事件與小概率事件,0,(大概率事件),(小概率事件),目的:簡單線性回歸中,檢驗X對Y是否真有顯著影響,三、回歸系數的假設檢驗,75,雙側檢驗與單側檢驗,76,76,1. 假設檢驗的基本思想,在某種條件下,在一次抽樣中,大概率事件出現被認為是合理的,而小概率事件被認為基本不會發(fā)生,如果小概率事件竟然發(fā)生了,認為是不合理的。 在事先作出的某種原假設成立
34、的條件下,利用樣本構造適當統計量(一次抽樣的結果),并確定統計量的抽樣分布。給定顯著性水平,構造一個小概率事件。如果在一次抽樣中該小概率事件竟然發(fā)生,就認為原假設不真實,從而拒絕原假設,不拒絕備擇假設。反之,如果大概率事件發(fā)生,則不拒絕原假設。,77,2. 回歸系數的檢驗方法,確立假設:原假設為 備擇假設為 (本質:檢驗 是否為0,即檢驗 是否對Y有顯著影響) (1)當已知 或樣本容量足夠大時 可利用正態(tài)分布作Z檢驗 給定 , 查正態(tài)分布表得臨界值 Z 如果 (大概率事件發(fā)生)則不拒絕原假設 如果 或 (小概率事件發(fā)生)則 拒絕原假設,78,(2) 當 未知,且樣本容量較小時,只能用 去代替
35、,可利用 t分布作 t 檢驗:,給定 , 查 t 分布表得 如果 或者 (小概率事件發(fā)生) 則拒絕原假設 而不拒絕備擇假設 如果 (大概率事件發(fā)生) 則不拒絕原假設,用 P 值判斷參數的顯著性,假設檢驗的 p 值: p 值是基于既定的樣本數據所計算的統計量,原假設可以被拒絕的最高顯著性水平。 統計分析軟件中通常都給出了檢驗的 p 值,P,統計量 t,相對于計算的統計量 :,相對于顯著性水平 的臨界值: 或,注意: t檢驗是比較 和 用P值檢驗是比較 和 p,與 相對應,與 P 相對應,80,用 P 值判斷參數顯著性的方法,方法:將給定的顯著性水平 與 p 值比較: 若 值,則在顯著性水平 下拒
36、絕原假設 ,即認為 對 Y 有顯著影響 若 值,則在顯著性水平 下不拒絕原假設 ,即認為 對 Y 沒有顯著影響 規(guī)則:當 時,P值越小,越能拒絕原 假設,81,舉例:對例1參數的顯著性檢驗 給定 查df=9的 t分布臨界值 計算統計量 判斷:因 拒絕 說明 顯著不為0, X對Y 確有顯著影響 用P值檢驗: (需要確定與 對應的P值) 由 ,df=9,查 t 分布表知道P0.0005(t= 4.781時 ) 因t=5.00時的P值 0.0005 則在顯著性水平 下更應拒絕原假設 即認為 對 Y 有顯著影響,一、極大似然估計的思想: 舉例:對一種藥物,藥劑師認為有效率為70%。生產該藥物的公司聲稱
37、:有效率為90%,誰的說法更可信呢? 統計學家抽取10個病人,發(fā)現有8人被治愈 若真實概率為P=0.7時: 產生“10個病人有8個治愈” 結果的概率為:(實驗結果只有“治愈”和“未治愈”是二項分布),第五節(jié) 簡單線性回歸模型的極大似然估計,82,若真實概率為P=0.9時,產生“10個病人有8個治愈” 結果的概率為:,統計學家判斷:有效率為0.7作為真實有效率的估計值比0.9更為可信。(為什么?),極大似然原理:“一個事件由于與實際最近似而發(fā)生”,原理:一個事件之所以會發(fā)生,是因為存在著產生這一事件概率最大的客觀現實(總體)。 總體的分布規(guī)律是由其分布性質和參數決定的。 樣本觀測值是從總體中抽取
38、而得到的,從總體中隨機抽取容量為n的樣本觀測值時,這n組樣本觀測值會以一定的概率出現。 當從總體中隨機抽取n組樣本觀測值后,要尋求最可能產生該n組樣本的那個總體的參數。 最合理的參數估計量應該是能夠使得從總體中抽取出該n組樣本觀測值的概率最大。,83,二、簡單線性回歸模型的極大似然估計,在滿足基本假設的條件下,對簡單線性回歸模型 若隨機抽取n組樣本觀測值( , )(i=1,2,n) 為隨機變量,其分布特征與參數 和 及 有關, 已知 假定 服從正態(tài)分布且是獨立分布的,則: 于是,每個 的概率密度函數為 (i=1,2,n),84,1.似然函數 (likelihood function),因為各個
39、 相互獨立,因此獲得所有n組樣本觀測值 的聯合概率(即似然函數)為: 其中未知參數為 ,為使產生 n個樣本觀測值 的聯合概率最大,可尋求能使該似然函數極大化的參 數值,即可求得模型參數的極大似然估計量。 為便于取最大化,取對數似然函數,因為似然函數的 極大化與似然函數的對數的極大化是等價的,所以,,85,(n個密度函數的乘積),將對數似然函數對 求偏導得:,86,令各方程為0,記參數估計量為 可得:,使 最大化 等價于使,最小化,注意到:,產生n組樣本觀測值的聯合概率的對數(對數似然函數)為:,87,(A),(B),(C),經簡化,由(A)(B)式有:,這與OLS正規(guī)方程相同,2.簡單線性回歸
40、模型的極大似然估計量,對L*求極大值,等價于對 求極小值: 解方程得參數估計量: 可見,在滿足基本假設的情況下,模型參數的最大似 然估計量與普通最小二乘估計量是相同的。,88,89,3. 的極大似然估計(ML),把參數估計量 代入(C)式并簡化,得 的極大似然估計:,所以,結論: 的極大似然估計(ML)是有偏的。其偏誤因子 是隨 而趨于0的,因此 的ML估計只是一致估計量。,因為,所以 的ML估計為:,對比 的OLS估計:,在OLS無偏性證明中有,90,4.極大似然估計與最小二乘估計的比較,1.在滿足基本假設的情況下,模型參數的最大似 然估計量與普通最小二乘估計量是相同的。,的普通最小二乘估計
41、是無偏估計. 的極大似然估計(ML)是有偏的。 但 隨 , 是漸近無偏的,即,91,一、過原點的回歸 有時根據理論判斷模型可能沒有截距項(常數項),例如: 弗瑞德曼永久收入假說: 永久消費正比于永久收入。 成本分析理論: 生產的可變成本正比于產出。 貨幣主義理論某些假說: 價格變化率(通貨膨脹率) 正比于貨幣供給變化率。 這時總體回歸函數可設定為: 這是截距項不出現或為零的回歸 模型。稱為過原點的回歸。,91,第六節(jié) 線性回歸模型的若干延伸,92,沒有截距項的過原點回歸模型為: 因為 對 求偏導 令其為零得 可以證明,92,對比有截距時:,(注意:正規(guī)方程只有一個方程),即,過原點的回歸的OL
42、S估計量,注意:過原點回歸的特點,在運用過原點回歸模型時應注意以下特點: 1)在有截距的模型中,根據最小二乘原理的正規(guī)方程有: 則 但在截距項不存在時,因為正規(guī)方程中只有一個方程, 而沒有 這樣的關系, 則有可能 從而,93,2)回歸線不通過樣本均值 過原點回歸模型 因為 有,94,3)估計值 的均值不等于實際觀測值 的均值,這說明過原點回歸最小二乘法的數學性質不一定成立,由無截距模型的最小二乘正規(guī)方程有: 由正規(guī)方程導出的無偏估計量為: 由 有 若是 則有 顯然 的估計是有偏的! 結論:在過原點的回歸中,如果 成立, OLS估計則是有偏估計.,95,即,4)如果 ,OLS估計可能是有偏的,9
43、6,5)有時零均值假定 不一定滿足 例如對于 如果: 假如已知 ,對于有截距的模型,此時模型可變換為 令 則 可見,有截距的模型可使得隨機擾動具有零均值。而不含截距的模型 變換后成為有截距模型,若堅持用無截距模型,則隨機項零均值不一定能保證。,97,6)有截距模型中 , 總為正 值,即 模型可決系數總是非負的。但對無截距的模型 ,可決系數可能出現負值,因此計算可 決系數的公式不一定適合于過原點的回歸模型。,一般規(guī)則:除非有充分的理由特別說明,否則模型還是應當包含常數項為好。,二、變量度量單位對回歸的影響,變量的度量單位對估計的參數數值會有什么影響? 例如美國1988年-1997年國內總投資(Y
44、)與GDP的回歸 (數據略): A.當總投資(Y)與GDP都以10億美元為度量單位時,估計 結果為: B.當總投資(Y)仍以10億美元計,而GDP以百萬美元計時 估計結果為:,98,C.當總投資(Y)與GDP都以百萬美元(縮小1000倍)計時 估計結果為: D.當總投資(Y)以百萬美元計,而GDP以10億美元計時, 估計結果為: 注意:與A相比較,截距、斜率系數、標準誤差、可決系數 的變化。,99,變量度量單位對回歸影響的一般規(guī)律,1.當被解釋變量測量單位改變(擴大或縮小常數c倍),而解釋變量測量單位不變時:OLS截距和斜率的估計值及標準誤差都縮小或擴大為原來的c倍. (如D的情況) 2.當解
45、釋變量測量單位改變(擴大或縮小常數c倍),而被解釋變量測量單位不變時:OLS斜率的估計值及標準誤差擴大或縮小為原來的c倍,但不影響截距的估計. (如B的情況) 3.當被解釋變量和解釋變量測量單位同時改變相同倍數時,OLS的截距估計值及標準誤差擴大為原來的c倍,但不影響斜率的估計. (如C的情況),100,101,僅被解釋變量測量單位改變,僅解釋變量測量單位改變,截距及標準誤差,斜率及標準誤差,被解釋變量和解釋變量測量單位同時改變相同倍數,4.當被解釋變量和解釋變量測量單位改變時,不會影響擬合優(yōu)度.可決系數是純數沒有維度,所以不隨計量單位而變化。 (如B、C、D的情況),當被解釋變量和解釋變量測
46、量單位同時改變相同倍數時, 對斜率系數的影響相互抵消了.,擴大或縮小方向相同 ; 擴大或縮小方向相反,第七節(jié) 回歸模型預測,一、回歸分析結果的報告 經過模型的估計、檢驗,得到一系列重要的數據,為了簡明、清晰、規(guī)范地表述這些數據,計量經濟學通常采用以下規(guī)范化的方式: 例如:回歸結果為 = 244545 + 05091 (64138) (00357) 標準誤差SE t = (38128) (142605) t 統計量 = 09621 df = 8 可決系數和自由度 F = 20287 DW = 2.3 F 統計量 DW統計量,102,二、被解釋變量平均值預測,1. 基本思想 經估計的計量經濟模型可
47、用于: 經濟結構分析 經濟預測 政策評價 驗正理論 運用計量經濟模型作預測:指利用所估計的樣本回歸函數 作預測工具,用解釋變量的已知值或預測值,對預測期或樣 本以外的被解釋變量的數值作出定量的估計。 計量經濟預測是一種條件預測: 條件:模型設定的關系式不變 所估計的參數不變 解釋變量在預測期的取值已作出預測,103,對被解釋變量Y的預測分為: 平均值預測和個別值預測對被解釋變量Y的預測又分為: 點預測和區(qū)間預測,平均值預測 個別值預測 區(qū)間預測 點預測 區(qū)間預測,預測的類型,預測值、平均值、個別值的相互關系,Y 是對真實平均值的點估計,105,點預測值,真實平均值,個別值,2. Y 平均值的點
48、預測,點預測: 用樣本估計的總體參數值所計算的Y的估計值直接作為Y的預測值 方法: 將解釋變量預測值直接代入估計的方程 這樣計算的 是一個點估計值,106,3. Y平均值的區(qū)間預測,基本思想: 預測的目標值是真實平均值,由于存在抽樣波動,預 測的平均值 是隨機變量,不一定等于真實平均值 ,還需要對 作區(qū)間估計 為對Y的平均值作區(qū)間預測,必須確定平均值點預測值 的抽樣分布 必須找出點預測值 與預測目標值 的關系,即找出與二者都有關的統計量,107,具體作法 (從 的分布分析),由 服從正態(tài)分布(為什么?) 已知 可以證明,108,當 未知時,只得用 代替,這時將 標準化,有,注意:,(較復雜不具
49、體證明),109,顯然這樣的 t 統計量與 和 都有關。 給定顯著性水平,查 t 分布表,得自由度n2的臨界 值 ,則有 Y平均值的置信度為 的預測區(qū)間為,構建平均值的預測區(qū)間,三、被解釋變量個別值預測,基本思想: 是對Y平均值的點預測。 由于存在隨機擾動 的影響,Y的平均值并不等于Y的個別值 為了對Y的個別值 作區(qū)間預測,需要尋找與點預測值 和預測目標個別值 有關的統計量,并要明確其概率分布,110,具體作法:,已知剩余項 是與預測值 及個別值 都有關的變量,并且已知 服從正態(tài)分布,且可證明 當用 代替 時,對 標準化的 變量 t 為,111,(較復雜不具體證明),構建個別值的預測區(qū)間,給定
50、顯著性水平 ,查 t 分布表得自由度為 n2 的臨界值 ,則有 因此,一元回歸時Y的個別值的置信度為 的 預測區(qū)間上下限為,113,被解釋變量Y區(qū)間預測的特點,(1)Y平均值的預測值與真實平均值有誤差,主要是受抽樣波動影響 預測區(qū)間 Y個別值的預測值與真實個別值的差異,不僅受抽樣波動影響,而且還受隨機擾動項的影響 預測區(qū)間,114,(2)平均值和個別值預測區(qū)間都不是常數, 是隨 的變化而變化的,當 時,預測區(qū)間最小。 (3)預測區(qū)間上下限與樣本容量有關,當樣本容量n時,個別值的預測區(qū)間只決定于隨機擾 動的方差。,被解釋變量Y區(qū)間預測的特點(續(xù)),預測區(qū)間,115,SRF,各種預測值的關系,Y的個別值的預測區(qū)間,Y平均值的預測區(qū)間,116,第八節(jié) 案例分析,案例1:中國各地區(qū)城市居民人均年消費支出 和可
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024成都信息工程大學輔導員招聘筆試真題
- 2025年加脂劑項目發(fā)展計劃
- 2024年合陽縣社區(qū)工作者招聘真題
- 2025秋統編版(2024)道德與法治一年級上冊第一單元《4平平安安回家來》教學設計
- 2024年廣西壯族自治區(qū)農業(yè)農村廳下屬事業(yè)單位真題
- 2025年事業(yè)單位招聘考試公共基礎知識仿真模擬考試試卷(四套)【答案】
- 2025年三明市三元區(qū)滬明小學招聘校聘教師考試試題【答案】
- 消防應急預案(15篇)
- 湘藝版二年級音樂下冊《月圓曲》教案
- 2025年工程項目管理服務項目建議書
- 酒店服務流程與空間布局優(yōu)化
- (2025)醫(yī)療護理員理論考試試題含答案
- 2025年廣西中考語文試題卷(含答案)
- 建設工程法律培訓
- 2025年南京市中考數學真題試卷
- 2025年呼倫貝爾農墾集團有限公司招聘筆試參考題庫含答案解析
- 2025年重慶市中考數學試卷真題(含標準答案)
- 2024廣西專業(yè)技術人員繼續(xù)教育公需科目參考答案(97分)
- 四川省地質災害治理工程常用資料表格
- 人教版九年級數學上冊教材解讀分析精編ppt
- 電子秤cal標定方法
評論
0/150
提交評論