普通最小二乘法.ppt_第1頁
普通最小二乘法.ppt_第2頁
普通最小二乘法.ppt_第3頁
普通最小二乘法.ppt_第4頁
普通最小二乘法.ppt_第5頁
已閱讀5頁,還剩107頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第二章經典單方程計量經濟學模型 一元線性回歸模型 回歸分析概述一元線性回歸模型的參數(shù)估計一元線性回歸模型檢驗一元線性回歸模型預測實例 2 1回歸分析概述 一 變量間的關系及回歸分析的基本概念二 總體回歸函數(shù) PRF 三 隨機擾動項四 樣本回歸函數(shù) SRF 一 變量間的關系及回歸分析的基本概念 1 變量間的關系 1 確定性關系或函數(shù)關系 研究的是確定現(xiàn)象非隨機變量間的關系 2 統(tǒng)計依賴或相關關系 研究的是非確定現(xiàn)象隨機變量間的關系 對變量間統(tǒng)計依賴關系的考察主要是通過相關分析 correlationanalysis 或回歸分析 regressionanalysis 來完成的 注意 不線性相關并不意味著不相關 有相關關系并不意味著一定有因果關系 回歸分析 相關分析研究一個變量對另一個 些 變量的統(tǒng)計依賴關系 但它們并不意味著一定有因果關系 相關分析對稱地對待任何 兩個 變量 兩個變量都被看作是隨機的 回歸分析對變量的處理方法存在不對稱性 即區(qū)分應變量 被解釋變量 和自變量 解釋變量 前者是隨機變量 后者不是 2 回歸分析的基本概念回歸分析 regressionanalysis 是研究一個變量關于另一個 些 變量的具體依賴關系的計算方法和理論 其目的在于通過后者的已知或設定值 去估計和 或 預測前者的 總體 均值 被解釋變量 ExplainedVariable 或應變量 DependentVariable 解釋變量 ExplanatoryVariable 或自變量 IndependentVariable 回歸分析構成計量經濟學的方法論基礎 其主要內容包括 1 根據(jù)樣本觀察值對經濟計量模型參數(shù)進行估計 求得回歸方程 2 對回歸方程 參數(shù)估計值進行顯著性檢驗 3 利用回歸方程進行分析 評價及預測 二 總體回歸函數(shù) 回歸分析關心的是根據(jù)解釋變量的已知或給定值 考察被解釋變量的總體均值 即當解釋變量取某個確定值時 與之統(tǒng)計相關的被解釋變量所有可能出現(xiàn)的對應值的平均值 例2 1 一個假想的社區(qū)有100戶家庭組成 要研究該社區(qū)每月家庭消費支出Y與每月家庭可支配收入X的關系 即如果知道了家庭的月收入 能否預測該社區(qū)家庭的平均月消費支出水平 為達到此目的 將該100戶家庭劃分為組內收入差不多的10組 以分析每一收入組的家庭消費支出 由于不確定因素的影響 對同一收入水平X 不同家庭的消費支出不完全相同 但由于調查的完備性 給定收入水平X的消費支出Y的分布是確定的 即以X的給定值為條件的Y的條件分布 Conditionaldistribution 是已知的 例如 P Y 561 X 800 1 4 因此 給定收入X的值Xi 可得消費支出Y的條件均值 conditionalmean 或條件期望 conditionalexpectation E Y X Xi 該例中 E Y X 800 561描出散點圖發(fā)現(xiàn) 隨著收入的增加 消費 平均地說 也在增加 且Y的條件均值均落在一根正斜率的直線上 這條直線稱為總體回歸線 在給定解釋變量Xi條件下被解釋變量Yi的期望軌跡稱為總體回歸線 populationregressionline 或更一般地稱為總體回歸曲線 populationregressioncurve 稱為 雙變量 總體回歸函數(shù) populationregressionfunction PRF 相應的函數(shù) 含義 回歸函數(shù) PRF 說明被解釋變量Y的平均狀態(tài) 總體條件期望 隨解釋變量X變化的規(guī)律 函數(shù)形式 可以是線性或非線性的 例2 1中 將居民消費支出看成是其可支配收入的線性函數(shù)時 為一線性函數(shù) 其中 0 1是未知參數(shù) 稱為回歸系數(shù) regressioncoefficients 三 隨機擾動項 總體回歸函數(shù)說明在給定的收入水平Xi下 該社區(qū)家庭平均的消費支出水平 但對某一個別的家庭 其消費支出可能與該平均水平有偏差 稱為觀察值圍繞它的期望值的離差 deviation 是一個不可觀測的隨機變量 又稱為隨機干擾項 stochasticdisturbance 或隨機誤差項 stochasticerror 例2 1中 給定收入水平Xi 個別家庭的支出可表示為兩部分之和 1 該收入水平下所有家庭的平均消費支出E Y Xi 稱為系統(tǒng)性 systematic 或確定性 deterministic 部分 2 其他隨機或非確定性 nonsystematic 部分 i 稱為總體回歸函數(shù) PRF 的隨機設定形式 表明被解釋變量除了受解釋變量的系統(tǒng)性影響外 還受其他因素的隨機性影響 由于方程中引入了隨機項 成為計量經濟學模型 因此也稱為總體回歸模型 隨機誤差項主要包括下列因素 在解釋變量中被忽略的因素的影響 變量觀測值的觀測誤差的影響 模型關系的設定誤差的影響 其他隨機因素的影響 產生并設計隨機誤差項的主要原因 理論的含糊性 數(shù)據(jù)的欠缺 節(jié)省原則 四 樣本回歸函數(shù) SRF 問題 能從一次抽樣中獲得總體的近似的信息嗎 如果可以 如何從抽樣中獲得總體的近似信息 例2 2 在例2 1的總體中有如下一個樣本 能否從該樣本估計總體回歸函數(shù)PRF 回答 能 該樣本的散點圖 scatterdiagram 畫一條直線以盡好地擬合該散點圖 由于樣本取自總體 可以該直線近似地代表總體回歸線 該直線稱為樣本回歸線 sampleregressionlines 記樣本回歸線的函數(shù)形式為 稱為樣本回歸函數(shù) sampleregressionfunction SRF 注意 這里將樣本回歸線看成總體回歸線的近似替代 則 樣本回歸函數(shù)的隨機形式 樣本回歸模型 同樣地 樣本回歸函數(shù)也有如下的隨機形式 由于方程中引入了隨機項 成為計量經濟模型 因此也稱為樣本回歸模型 sampleregressionmodel 回歸分析的主要目的 根據(jù)樣本回歸函數(shù)SRF 估計總體回歸函數(shù)PRF 即 根據(jù) 估計 注意 這里PRF可能永遠無法知道 2 2一元線性回歸模型的參數(shù)估計 一 一元線性回歸模型的基本假設二 參數(shù)的普通最小二乘估計 OLS 三 參數(shù)估計的最大或然法 ML 四 最小二乘估計量的性質五 參數(shù)估計量的概率分布及隨機干擾項方差的估計 說明 單方程計量經濟學模型分為兩大類 線性模型和非線性模型線性模型中 變量之間的關系呈線性關系非線性模型中 變量之間的關系呈非線性關系一元線性回歸模型 只有一個解釋變量 i 1 2 n Y為被解釋變量 X為解釋變量 0與 1為待估參數(shù) 為隨機干擾項 回歸分析的主要目的是要通過樣本回歸函數(shù) 模型 SRF盡可能準確地估計總體回歸函數(shù) 模型 PRF 估計方法有多種 其中最廣泛使用的是普通最小二乘法 ordinaryleastsquares OLS 為保證參數(shù)估計量具有良好的性質 通常對模型提出若干基本假設 實際這些假設與所采用的估計方法緊密相關 一 線性回歸模型的基本假設 假設1 解釋變量X是確定性變量 不是隨機變量 假設2 隨機誤差項 具有零均值 同方差和不序列相關性 E i 0i 1 2 nVar i 2i 1 2 nCov i j 0i ji j 1 2 n 假設3 隨機誤差項 與解釋變量X之間不相關 Cov Xi i 0i 1 2 n假設4 服從零均值 同方差 零協(xié)方差的正態(tài)分布 i N 0 2 i 1 2 n 如果假設1 2滿足 則假設3也滿足 如果假設4滿足 則假設2也滿足 注意 以上假設也稱為線性回歸模型的經典假設或高斯 Gauss 假設 滿足該假設的線性回歸模型 也稱為經典線性回歸模型 ClassicalLinearRegressionModel CLRM 另外 在進行模型回歸時 還有兩個暗含的假設 假設5 隨著樣本容量的無限增加 解釋變量X的樣本方差趨于一有限常數(shù) 即 假設6 回歸模型是正確設定的 假設5旨在排除時間序列數(shù)據(jù)出現(xiàn)持續(xù)上升或下降的變量作為解釋變量 因為這類數(shù)據(jù)不僅使大樣本統(tǒng)計推斷變得無效 而且往往產生所謂的偽回歸問題 spuriousregressionproblem 假設6也被稱為模型沒有設定偏誤 specificationerror 二 參數(shù)的普通最小二乘估計 OLS 給定一組樣本觀測值 Xi Yi i 1 2 n 要求樣本回歸函數(shù)盡可能好地擬合這組值 普通最小二乘法 Ordinaryleastsquares OLS 給出的判斷標準是 二者之差的平方和 最小 方程組 稱為正規(guī)方程組 normalequations 記 上述參數(shù)估計量可以寫成 稱為OLS估計量的離差形式 deviationform 由于參數(shù)的估計結果是通過最小二乘法得到的 故稱為普通最小二乘估計量 ordinaryleastsquaresestimators 順便指出 記 則有 可得 式也稱為樣本回歸函數(shù)的離差形式 注意 在計量經濟學中 往往以小寫字母表示對均值的離差 三 參數(shù)估計的最大或然法 ML 最大或然法 MaximumLikelihood 簡稱ML 也稱最大似然法 是不同于最小二乘法的另一種參數(shù)估計方法 是從最大或然原理出發(fā)發(fā)展起來的其他估計方法的基礎 基本原理 對于最大或然法 當從模型總體隨機抽取n組樣本觀測值后 最合理的參數(shù)估計量應該使得從模型中抽取該n組樣本觀測值的概率最大 在滿足基本假設條件下 對一元線性回歸模型 隨機抽取n組樣本觀測值 Xi Yi i 1 2 n 那么Yi服從如下的正態(tài)分布 于是 Y的概率函數(shù)為 i 1 2 n 假如模型的參數(shù)估計量已經求得 為 因為Yi是相互獨立的 所以的所有樣本觀測值的聯(lián)合概率 也即或然函數(shù) likelihoodfunction 為 將該或然函數(shù)極大化 即可求得到模型參數(shù)的極大或然估計量 由于或然函數(shù)的極大化與或然函數(shù)的對數(shù)的極大化是等價的 所以 取對數(shù)或然函數(shù)如下 解得模型的參數(shù)估計量為 可見 在滿足一系列基本假設的情況下 模型結構參數(shù)的最大或然估計量與普通最小二乘估計量是相同的 例2 2 1 在上述家庭可支配收入 消費支出例中 對于所抽出的一組樣本數(shù) 參數(shù)估計的計算可通過下面的表2 2 1進行 因此 由該樣本估計的回歸方程為 四 最小二乘估計量的性質 當模型參數(shù)估計出后 需考慮參數(shù)估計值的精度 即是否能代表總體參數(shù)的真值 或者說需考察參數(shù)估計量的統(tǒng)計性質 一個用于考察總體的估計量 可從如下幾個方面考察其優(yōu)劣性 1 線性性 即它是否是另一隨機變量的線性函數(shù) 2 無偏性 即它的均值或期望值是否等于總體的真實值 3 有效性 即它是否在所有線性無偏估計量中具有最小方差 這三個準則也稱作估計量的小樣本性質 擁有這類性質的估計量稱為最佳線性無偏估計量 bestlinerunbiasedestimator BLUE 4 漸近無偏性 即樣本容量趨于無窮大時 是否它的均值序列趨于總體真值 5 一致性 即樣本容量趨于無窮大時 它是否依概率收斂于總體的真值 6 漸近有效性 即樣本容量趨于無窮大時 是否它在所有的一致估計量中具有最小的漸近方差 當不滿足小樣本性質時 需進一步考察估計量的大樣本或漸近性質 高斯 馬爾可夫定理 Gauss Markovtheorem 在給定經典線性回歸的假定下 最小二乘估計量是具有最小方差的線性無偏估計量 證 易知 故 同樣地 容易得出 2 證明最小方差性 其中 ci ki di di為不全為零的常數(shù)則容易證明 普通最小二乘估計量 ordinaryleastSquaresEstimators 稱為最佳線性無偏估計量 bestlinearunbiasedestimator BLUE 由于最小二乘估計量擁有一個 好 的估計量所應具備的小樣本特性 它自然也擁有大樣本特性 五 參數(shù)估計量的概率分布及隨機干擾項方差的估計 2 隨機誤差項 的方差 2的估計 2又稱為總體方差 由于隨機項 i不可觀測 只能從 i的估計 殘差ei出發(fā) 對總體方差進行估計 可以證明 2的最小二乘估計量為 它是關于 2的無偏估計量 在最大或然估計法中 因此 2的最大或然估計量不具無偏性 但卻具有一致性 2 3一元線性回歸模型的統(tǒng)計檢驗 一 擬合優(yōu)度檢驗二 變量的顯著性檢驗三 參數(shù)的置信區(qū)間 說明 回歸分析是要通過樣本所估計的參數(shù)來代替總體的真實參數(shù) 或者說是用樣本回歸線代替總體回歸線 盡管從統(tǒng)計性質上已知 如果有足夠多的重復抽樣 參數(shù)的估計值的期望 均值 就等于其總體的參數(shù)真值 但在一次抽樣中 估計值不一定就等于該真值 那么 在一次抽樣中 參數(shù)的估計值與真值的差異有多大 是否顯著 這就需要進一步進行統(tǒng)計檢驗 主要包括擬合優(yōu)度檢驗 變量的顯著性檢驗及參數(shù)的區(qū)間估計 一 擬合優(yōu)度檢驗 擬合優(yōu)度檢驗 對樣本回歸直線與樣本觀測值之間擬合程度的檢驗 度量擬合優(yōu)度的指標 判定系數(shù) 可決系數(shù) R2 問題 采用普通最小二乘估計方法 已經保證了模型最好地擬合了樣本觀測值 為什么還要檢驗擬合程度 1 總離差平方和的分解 已知由一組樣本觀測值 Xi Yi i 1 2 n得到如下樣本回歸直線 如果Yi i即實際觀測值落在樣本回歸 線 上 則擬合最好 可認為 離差 全部來自回歸線 而與 殘差 無關 對于所有樣本點 則需考慮這些點與樣本均值離差的平方和 可以證明 TSS ESS RSS 記 總體平方和 TotalSumofSquares 回歸平方和 ExplainedSumofSquares 殘差平方和 ResidualSumofSquares Y的觀測值圍繞其均值的總離差 totalvariation 可分解為兩部分 一部分來自回歸線 ESS 另一部分則來自隨機勢力 RSS 在給定樣本中 TSS不變 如果實際觀測點離樣本回歸線越近 則ESS在TSS中占的比重越大 因此擬合優(yōu)度 回歸平方和ESS 總離差TSS 2 可決系數(shù)R2統(tǒng)計量 稱R2為 樣本 可決系數(shù) 判定系數(shù) coefficientofdetermination 可決系數(shù)的取值范圍 0 1 R2越接近1 說明實際觀測點離樣本線越近 擬合優(yōu)度越高 在例2 1 1的收入 消費支出例中 注 可決系數(shù)是一個非負的統(tǒng)計量 它也是隨著抽樣的不同而不同 為此 對可決系數(shù)的統(tǒng)計可靠性也應進行檢驗 這將在第3章中進行 二 變量的顯著性檢驗 回歸分析是要判斷解釋變量X是否是被解釋變量Y的一個顯著性的影響因素 在一元線性模型中 就是要判斷X是否對Y具有顯著的線性性影響 這就需要進行變量的顯著性檢驗 變量的顯著性檢驗所應用的方法是數(shù)理統(tǒng)計學中的假設檢驗 計量經濟學中 主要是針對變量的參數(shù)真值是否為零來進行顯著性檢驗的 1 假設檢驗 所謂假設檢驗 就是事先對總體參數(shù)或總體分布形式作出一個假設 然后利用樣本信息來判斷原假設是否合理 即判斷樣本信息與原假設是否有顯著差異 從而決定是否接受或否定原假設 假設檢驗采用的邏輯推理方法是反證法先假定原假設正確 然后根據(jù)樣本信息 觀察由此假設而導致的結果是否合理 從而判斷是否接受原假設 判斷結果合理與否 是基于 小概率事件不易發(fā)生 這一原理的 2 變量的顯著性檢驗 檢驗步驟 1 對總體參數(shù)提出假設H0 1 0 H1 1 0 2 以原假設H0構造t統(tǒng)計量 并由樣本計算其值 3 給定顯著性水平 查t分布表得臨界值t 2 n 2 4 比較 判斷若 t t 2 n 2 則拒絕H0 接受H1 若 t t 2 n 2 則拒絕H1 接受H0 對于一元線性回歸方程中的 0 可構造t統(tǒng)計量進行顯著性檢驗 在上述收入 消費支出例中 首先計算 2的估計值 t統(tǒng)計量的計算結果分別為 給定顯著性水平 0 05 查t分布表得臨界值t0 05 2 8 2 306 t1 2 306 說明家庭可支配收入在95 的置信度下顯著 即是消費支出的主要解釋變量 t2 2 306 表明在95 的置信度下 無法拒絕截距項為零的假設 假設檢驗可以通過一次抽樣的結果檢驗總體參數(shù)可能的假設值的范圍 如是否為零 但它并沒有指出在一次抽樣中樣本參數(shù)值到底離總體參數(shù)的真值有多 近 三 參數(shù)的置信區(qū)間 要判斷樣本參數(shù)的估計值在多大程度上可以 近似 地替代總體參數(shù)的真值 往往需要通過構造一個以樣本參數(shù)的估計值為中心的 區(qū)間 來考察它以多大的可能性 概率 包含著真實的參數(shù)值 這種方法就是參數(shù)檢驗的置信區(qū)間估計 如果存在這樣一個區(qū)間 稱之為置信區(qū)間 confidenceinterval 1 稱為置信系數(shù) 置信度 confidencecoefficient 稱為顯著性水平 levelofsignificance 置信區(qū)間的端點稱為置信限 confidencelimit 或臨界值 criticalvalues 一元線性模型中 i i 1 2 的置信區(qū)間 在變量的顯著性檢驗中已經知道 意味著 如果給定置信度 1 從分布表中查得自由度為 n 2 的臨界值 那么t值處在 t 2 t 2 的概率是 1 表示為 即 于是得到 1 的置信度下 i的置信區(qū)間是 在上述收入 消費支出例中 如果給定 0 01 查表得 由于 于是 1 0的置信區(qū)間分別為 0 6345 0 9195 433 32 226 98 由于置信區(qū)間一定程度地給出了樣本參數(shù)估計值與總體參數(shù)真值的 接近 程度 因此置信區(qū)間越小越好 要縮小置信區(qū)間 需要 1 增大樣本容量n 因為在同樣的置信水平下 n越大 t分布表中的臨界值越小 同時 增大樣本容量 還可使樣本參數(shù)估計量的標準差減小 2 提高模型的擬合優(yōu)度 因為樣本參數(shù)估計量的標準差與殘差平方和呈正比 模型擬合優(yōu)度越高 殘差平方和應越小 由于置信區(qū)間一定程度地給出了樣本參數(shù)估計值與總體參數(shù)真值的 接近 程度 因此置信區(qū)間越小越好 要縮小置信區(qū)間 需 1 增大樣本容量n 因為在同樣的置信水平下 n越大 t分布表中的臨界值越小 同時 增大樣本容量 還可使樣本參數(shù)估計量的標準差減小 2 提高模型的擬合優(yōu)度 因為樣本參數(shù)估計量的標準差與殘差平方和呈正比 模型擬合優(yōu)度越高 殘差平方和應越小 2 4一元線性回歸分析的應用 預測問題 一 0是條件均值E Y X X0 或個值Y0的一個無偏估計二 總體條件均值與個值預測值的置信區(qū)間 對于一元線性回歸模型 給定樣本以外的解釋變量的觀測值X0 可以得到被解釋變量的預測值 0 可以此作為其條件均值E Y X X0 或個別值Y0的一個近似估計 嚴格地說 這只是被解釋變量的預測值的估計值 而不是預測值 原因 1 參數(shù)估計量不確定 2 隨機項的影響 說明 一 0是條件均值E Y X X0 或個值Y0的一個無偏估計 對總體回歸函數(shù)E Y X X0 0 1X X X0時E Y X X0 0 1X0 于是 可見 0是條件均值E Y X X0 的無偏估計 對總體回歸模型Y 0 1X 當X X0時 于是 二 總體條件均值與個值預測值的置信區(qū)間 1 總體均值預測值的置信區(qū)間 由于 于是 可以證明 因此 故 于是 在1 的置信度下 總體均值E Y X0 的置信區(qū)間為 其中 2 總體個值預測值的預測區(qū)間 由Y0 0 1X0 知 于是 式中 從而在1 的置信度下 Y0的置信區(qū)間為 在上述收入 消費支出例中 得到的樣本回歸函數(shù)為 則在X0 1000處 0 103 172 0 777 1000 673 84 而 因此 總體均值E Y X 1000 的95 的置信區(qū)間為 673 84 2 306 61 05 E Y X 1000 673 84 2 306 61 05或 533 05 814 62 同樣地 對于Y在X 1000的個體值 其95 的置信區(qū)間為 673 84 2 306 61 05 Yx 1000 673 84 2 306 61 05或 372 03 975 65 總體回歸函數(shù)的置信帶 域 confidenceband 個體的置信帶 域 對于Y的總體均值E Y X 與個體值的預測區(qū)間 置信區(qū)間 1 樣本容量n越大 預測精度越高 反之預測精度越低 2 樣本容量一定時 置信帶的寬度當在X均值處最小 其附近進行預測 插值預測 精度越大 X越遠離其均值 置信帶越寬 預測可信度下降 2 5實例 時間序列問題 一 中國居民人均消費模型二 時間序列問題 一 中國居民人均消費模型 例2 5 1考察中國居民

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論