計量經(jīng)濟學(xué)課件教案第四章從數(shù)理統(tǒng)計到古典回歸模型

上傳人：雙*** IP屬地：重慶上傳時間：2024-12-07 格式：DOC 頁數(shù)：29 大?。?72.50KB 積分：12 舉報 版權(quán)申訴

計量經(jīng)濟學(xué)課件教案第四章從數(shù)理統(tǒng)計到古典回歸模型_第2頁

計量經(jīng)濟學(xué)課件教案第四章從數(shù)理統(tǒng)計到古典回歸模型_第3頁

計量經(jīng)濟學(xué)課件教案第四章從數(shù)理統(tǒng)計到古典回歸模型_第4頁

計量經(jīng)濟學(xué)課件教案第四章從數(shù)理統(tǒng)計到古典回歸模型_第5頁

已閱讀5頁，還剩24頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第四章從數(shù)理統(tǒng)計到古典回歸模型案例4-1：人類天生的統(tǒng)計本能在基因上，我們?nèi)院臀撮_化的土著人很接近。我們信念的形成，充滿著迷信——即使今天也不例外，甚至尤以今天為甚。某一天，原始部落的某個人摸鼻子后不久，天開始下雨，于是他煞費苦心地發(fā)展出一套抓鼻子祈雨的方法。同樣地，我們會把經(jīng)濟的繁榮歸功于中央銀行降低利率?；蛘咭患夜镜慕?jīng)營成功和新總裁走馬上任有關(guān)。類似風(fēng)馬牛不相及的事件屢屢被我們扯上聯(lián)系，并導(dǎo)致我們在人生的重要抉擇關(guān)頭步步踏錯，先機盡失。我們所受的教育和文化，騙我們?nèi)ハ嘈趴茖W(xué)和邏輯進(jìn)入現(xiàn)代生活時，迷信就會自然消除。但是隨著我們的智力與日俱增，隨機現(xiàn)象卻源源不絕而來，我們變得越來越迷信。哈佛大學(xué)心理學(xué)家Skinner做過一個關(guān)老鼠和鴿子的籠子，籠子有個開關(guān)，鴿子可以用喙去操作。此外，有個電動裝置會把食物送進(jìn)籠子里。1948年，他以隨機的方式送食物給非常饑餓的鴿子。隨后他觀察到鴿子表現(xiàn)出相當(dāng)驚人的行為。它們根據(jù)內(nèi)在根深蒂固的統(tǒng)計機制，發(fā)展出極其復(fù)雜、有如祈雨般的舞蹈行為；有只鴿子會對著籠中特定的一角有規(guī)律地?fù)u頭，另一只鴿子會以逆時鐘方向轉(zhuǎn)頭。幾乎每一只鴿子都發(fā)展出一種與獲取食物聯(lián)結(jié)起來的特別儀式，慢慢地固定到它們心里。有那么一段時間，我迷上了炒股，每天早上搭黃色出租車去證券公司，有一天，不幸卻搭上一輛紅色出租車，司機還不知道他要去的地方，我試著要他從央行門口往南走，但他頑固地再往南多走了一個街區(qū)，我被逼得只好利用后門口進(jìn)入證券公司，那一天，我操作的投資組合賺了很多錢，那是我年輕時最美好的一天。隔天，一切如常，我在校門口等那輛出租車，前一天的紅色出租車和那個頑固的家伙卻不見蹤影。真是不巧，因為我有個無法解釋的念頭，想要謝謝那天他對我做的好事，還想多給他一點錢。我好不容易等到一輛紅色的出租車，上車后我告訴新司機載我繞到證券公司的后門，也就是前一天下車的那個地方。。。。進(jìn)了公司，迎面有個鏡子，看著自己，發(fā)現(xiàn)仍然裝著昨天那件沾了污漬的襯衣。我體內(nèi)有另一個我，顯然相信從這個入口上樓、裝這件臟衣服、坐與前一天一樣的車、走同樣的入口與股票的市場走勢之間有強烈的因果關(guān)系存在。我為自己的行為舉止像個騙子，猶如扮演別人角色的演員一樣而啞然失笑。有些賭徒相信賭博的結(jié)果和某些身體動作之間有一些不自然的關(guān)聯(lián)，據(jù)而發(fā)展出一些扭曲的行為。我出現(xiàn)了所謂的“賭徒的迷信”。雖然細(xì)微且難以察覺，卻正在迅速累積。我們的心似乎一直想找出某種統(tǒng)計上的關(guān)聯(lián)，在理性上我們知道這種統(tǒng)計關(guān)聯(lián)是騙人的，因為樣本很小。但是這種天生的統(tǒng)計本能，并沒有因為我在假說檢驗上的專長而有所抑制。——納西姆。塔勒布，《隨機致富的傻瓜》，中信出版社概率論是已知總體，即已知DGP或者分布函數(shù)，求隨機變量取特定值或者落在特定區(qū)域內(nèi)的可能性。而數(shù)量統(tǒng)計是未知DGP或分布函數(shù)，面對一個黑箱，根據(jù)從黑箱中取出的東西來推測黑箱中的DGP或者分布函數(shù)的類型以及未知參數(shù)的取值。f(x)f(x)案例4-2：統(tǒng)計小史1085年，《末日審判》（Domesday）統(tǒng)計了田地名稱、擁有者、面積、可耕地面積、牛群數(shù)量、土地價值…….，但國王威廉沒有將這些數(shù)據(jù)用于任何地方，900年來，他一直是研究的對象。英國的格朗特（Graunt,1620-1674）對這樣一個問題很感興趣“誰活著？誰死了，為什么死了？”，他研究了死亡公告，分析了1604-1661年的數(shù)據(jù)（<NaturalandpoliticalobservationmentionedinafollowingindexandmadeupontheBillsofmortality>），書中寫道：“大多數(shù)人只是找找奇怪的事，看看離奇的死亡，僅此而已”。謀殺很受關(guān)注，但是格發(fā)現(xiàn)，在229250例死亡中，只有86人死于謀殺，謀殺不是殘廢的主要原因。人們還認(rèn)為，“瘟疫伴隨著一個新王朝的開始”，格證明這種看法是錯誤的。國王查理三世出面舉薦他加入皇家學(xué)會。哈雷預(yù)言哈雷慧星將于1758年返回，他對天文著迷，個人的擁有的儀器足以成立一個天文臺。它沒畢業(yè)就到南大西洋的一個小島上，準(zhǔn)確地測量了300多顆恒星，他描繪了第一張世界海洋地圖，標(biāo)明了風(fēng)向，其中包含的信息對每一位船長都有重要價值。他提問“40歲的男人再活7年的概率是多大”？并編出了第一年生命表，資助牛頓出版了科學(xué)史上最有影響的著作《自然哲學(xué)的數(shù)學(xué)原理》。費希爾（Fisher,1890-1962）是現(xiàn)代統(tǒng)計學(xué)的奠基人，1925年出版《研究工作者用的統(tǒng)計方法》，提出隨機化的實驗設(shè)計。休哈特（Shewhart,1891-1967）提出質(zhì)量控制，戴明（Deming）將其發(fā)揚光大。應(yīng)用于流行病學(xué)、斯諾（Snow,1813-1858）發(fā)現(xiàn)霍亂與水源的關(guān)系。另用于人口普查，民意調(diào)查等。一、問題的提出天安門城樓到底有多高，其“真實”的高度究竟是多少？恐怕沒有人能夠給出完全精確的答案，即使給出來也未必令人信服。盡管實踐是檢驗真理的唯一標(biāo)準(zhǔn)，然而如果我們?nèi)y量，每次測量的結(jié)果都會不同，應(yīng)該相信哪一次的結(jié)果呢？測量很多很多次是否有幫助？如何來處理這很多次的測量結(jié)果，以便最好地逼近真實高度？上述問題可以轉(zhuǎn)化為如下的數(shù)學(xué)模型：其中為天安門城樓的高度，當(dāng)然是一個客觀存，有唯一精確值的未知數(shù)。而u為測量誤差，是一個隨機變動的隨機數(shù)。y為測量結(jié)果。顯然只有y是能夠觀察到的，而真實高度與誤差卻無法觀察到的，核心問題就是如何用觀察到的y來求得未知的？總體是任何一種定義良好的一種對象的全體，如全部人民大學(xué)的學(xué)生不是一個定義良好的總體，而全部人民大學(xué)學(xué)生的高考成績是一個定義良好的總體。天門安城樓高度的所有測量結(jié)果也是一個定義良好的總體（無限總體）?？傮w也是一種數(shù)據(jù)生成機制（DGP，datageneratingprocess），如天門安城樓高度的測量結(jié)果由這一機制生成，既然u為隨機變量，則它有相應(yīng)的矩，假設(shè)其方差為。二、樣本最容易理解的抽樣是從有限總體中抽取一個樣本，比如從100個混有紅球和黑球的暗箱中摸出8個球來。有限樣本的抽樣又分為放回和不放回兩種，如果放回，則同一個球可能被抽中兩次。從無限總體中抽取一個樣本可被視為某個數(shù)據(jù)生成過程（DGP）的一次實現(xiàn)。比如天門安城樓高度的測量結(jié)果y是一個無限總體，某一次的測量結(jié)果可視為按照公式所確定的數(shù)據(jù)產(chǎn)生機制生成一個數(shù)據(jù)yi。相應(yīng)地n次測量的結(jié)果可被視為一個n維隨機向量（樣本）表格4SEQ表格\*ARABIC\s11：隨機抽樣：抽得任何一個樣本的概率相同yy1y２…yn第一次抽樣y1y11y12…y1n第二次抽樣y1y21y22…y2n………第m次抽樣ymym1ym2…ymn樣本聯(lián)合概率密度：已知隨機變量Y,從該總體中隨機的取一個容量為n的樣本，其聯(lián)合概率密度為fJ(Y1,Y2,Y3,…,Yn)。同分布：指總體服從同一種分布。想象一下，箱子中既有不同重量的紅球（假設(shè)重量服從正態(tài)分布f1(Y)），也有不同重量的綠球（假設(shè)其重量服從指數(shù)分布f2(Y)），于是從這個箱子里隨機抽取的球不是同分布的。如果箱子中只有紅球，則是同分布的。簡單隨機抽樣：是指每個樣本被抽取的可能性等同，也就是事前不知道會抽中哪個樣本，每個樣本都有同樣的可能被抽中，否則，就不能算做隨機抽樣。想像上面的例子，不論是很重的球還是很輕的球，也不論是紅球還是綠球，更不論服從什么分布，反正每個球被抽中的概率都一樣。比如箱中共有100個球，則每個球被取出的可能都為0.01。再如街頭攔訪，老出門在外的或老在家的人被抽中的概率就不一樣，是一個明顯的非隨機樣本。獨立：獨立，指的是各個試驗或觀察得到的樣本間是相互獨立的。獨立和隨機是兩回事，隨機樣本并不一定相互獨立，而相互獨立的兩個樣本并不一定隨機。獨立性要求每一次取球的結(jié)果不影響另一次取球的結(jié)果，如果取出一個紅球，下一次總是又取出一個紅球，則不獨立。同樣，如果取出一個很重的球，下一次總?cè)〕鲆粋€很輕的球，再下一次又取出一個很重的球，這種的樣本不獨立。案例4-3：獨立性與Polya過程阿瑟提出波利亞過程（polyaprocess），假設(shè)有個盒子，起初裝有等量的黑球和紅球，每次取球之前，得先猜測取出來的是哪個顏色，而猜對的概率取決于前面猜對的記錄，先前猜對的話，后來繼續(xù)猜對的概率會提高，仿真這種結(jié)果，可以看出結(jié)果變異非常大，有極多的成功，也有極多的失敗。在常見的模式中，玩家是把取出的球放回去后再猜下一次會取到哪種顏色的球，假設(shè)你這次猜對了，這會提高你下次贏的概率嗎？不會，但波利亞過程會，為什么這在數(shù)學(xué)上極難處理？原因出在獨立性的觀念被破壞。獨立性是指每一次取球時，都不受先前的結(jié)果影響，它是處理概率數(shù)學(xué)的必要條件。沙堆現(xiàn)象不斷地把沙加到頂端來蓋座沙堡，我想知道我的沙堡能蓋到多高，我的沙堡終于跨了，所有的沙又變成海灘上的一部分。最后一粒沙破壞了整座結(jié)構(gòu)。線性的力量加在一個物體上，結(jié)果產(chǎn)生了非線性的效果。一粒沙竟然產(chǎn)生不成比例的后果。“一根稻草壓垮一頭駱駝”。生命是以非線性的方式呈現(xiàn)不公平。假想等候室里有一大堆學(xué)生等著試演測驗，最終錄用者將住進(jìn)豪宅還可能染上吸毒惡習(xí)，而其他絕大多數(shù)人，他們將終生在附近的咖啡店端茶倒水。名氣的形成有其自身的動態(tài)過程，演員因為某一群人認(rèn)識他而被另一群人認(rèn)識，名氣像螺旋一樣動個不停，起點可能就在試演室。他會被選上，可能是某個可笑的細(xì)節(jié)恰好投合主試者當(dāng)天的心情。要是主試者前一天對某個人產(chǎn)生好感，而這個受試者的名字聽起來和眼前這個人很像，那么從那個特殊的樣本歷史中選出來的這位演員，可能就必須在另一個樣本歷史中端送咖啡。獨立同分布：從服從同一分布的總體中隨機獨立地抽取樣本。獨立同分布樣本的聯(lián)合概率密度滿足公式：clearmatau=uniform(8,1)J=J(8,1,1)y=J*10+un=row(y)//①樣本容量end三、最小二乘估計OLS（一）最小二乘估計量取得樣本后，我們有了多個數(shù)據(jù)，如何處理這些數(shù)據(jù)呢？同樣的問題曾困惑著18世紀(jì)和19世紀(jì)初的許多天文學(xué)家和數(shù)學(xué)家。那個時代的人熱衷于測量天體的軌道長度，他們在很多地方建立天文臺，反復(fù)測量，得到大量的數(shù)據(jù)。比如測量慧星的軌道，“每次測量都有誤差，次數(shù)越多，誤差累積越多，但把次數(shù)減少并不是解決問題的辦法，用什么辦法來恰當(dāng)?shù)厥褂么罅康臄?shù)據(jù)呢”？勒讓德（Legendre,1752-1833）解決了如何從數(shù)據(jù)中得出準(zhǔn)確結(jié)論的問題，他提出了“最小二乘法”。而著名的數(shù)學(xué)家高斯（1777-1855）也聲稱他發(fā)明了最小二乘法。拉普拉斯在1812年寫出《解析概率論》，他是拿破侖的朋友，但后來又背叛了拿破侖，他討論了誤差理論，提出土星是太陽質(zhì)量的1/3512，估計偏離真實的1%的可能性是1/11000。他還提出了中心極限定理。最小二乘法的核心思想是：尋求樣本點與總體參數(shù)的距離最小。這種距離通常以平方和來表示，因此稱為最小二乘估計。根據(jù)這個式子，我們就可以計算出b稱之為β的最小二乘估計量（OLS）。mataC=invsym(J’J)*J’b=C*yb//②回歸系數(shù)Coef.end運用其他的原理，能得到其他估計量，比如矩估計量和極大似然估計量（見第九小節(jié)）。根據(jù)最小二乘法估計原理，我們得到如下的估計量：上式右邊顯然是一個函數(shù)，是樣本隨機變量的函數(shù)g(Y1,Y2,…,Yn)。實際上，估計量是一個處理隨機樣本的法則，這個法則是抽樣進(jìn)行之前就已制定好的，不管實際上得到的是什么數(shù)據(jù)，這個法則都不變。而當(dāng)這個法則改變了，我們就得到另一個估計量，比如將樣本減均值得到另一個估計量殘差e.殘差的平方和（即樣本隨機向量的某個二次型）是另一個估計量既然估計量是隨機變量的函數(shù)，它也是一個隨機變量，它的隨機性由樣本決定，隨著樣本而變，代入不同的樣本，同一個估計量會得到不同的估計值。估計量與估計值sysuseauto,clearsample10sumprice反復(fù)執(zhí)行上面的三行命令，每一次我們都得到不同的均值。drawnormu,n(8)cleargy=10+uregy同樣，反復(fù)執(zhí)行上述命令，每一次我們得到不同的估計值（二）線性無偏估計量對同一個樣本，可以定義無窮多的估計量，這些估計量僅依賴于總體的性質(zhì)和定義估計量的函數(shù)，我們不能控制總體的特征，它是由客觀分布規(guī)律所決定的，而客觀分布規(guī)律又是由自然規(guī)律或社會力量來決定,不是我們所能控制的。但是我們可以選擇定義估計量的函數(shù)。問題是我們該選擇什么樣的函數(shù)來處理觀察到的樣本值呢？潛在的函數(shù)既可以是線性的也可以是非線性的，但線性的往往比較容易處理。線性估計量是樣本的線性函數(shù)（組合）。比如對樣本Y，給定任意非隨機矩陣A，AY便是一個線性估計量。其次，既然估計量是隨機變量，它也就具有期望等數(shù)字特征，而估計量的期望既取決于樣本特征，也取決于我們所選擇的函數(shù)形式（數(shù)據(jù)處理法則）。無偏估計量是一類特殊的估計量，無偏估計量的期望等于總體參數(shù)真值。注意估計量的無偏性評價的是估計法則的特性，而不是特定樣本。再次重申，一個估計量的無偏性和可能偏誤的大小依賴于Y的分布和函數(shù)g（），通常Y的分布是我們不能選擇的，但法則g（）的選擇操縱在我們手中，如果我們想要得到一個無偏估計量，我們就要對g（）做相應(yīng)的選擇。無偏性反映的是有限樣本的性質(zhì)，它可以理解為執(zhí)行無窮次抽樣(抽樣次數(shù)m趨于無窮，但樣本容量n為一個有限值)，然后利用每個樣本計算得到的估計值的期望等于總體參數(shù)真值。線性無偏估計量是同時滿足線性和無偏性的估計量。在測量的例子中，估計量b是線性的嗎？是無偏估計量嗎？是線性無偏估計量嗎？如果不是，需要滿足什么條件才是一個線性無偏估計量？從下式可以看出b是一個線性估計量如果要使b成為一個無偏估計量，必須滿足假設(shè)1：即當(dāng)時，b為線性無偏估計量。如果假設(shè)不成立，則b是有偏的，在什么情況下，誤差為零的假設(shè)不成立呢？比如測量時用的工具并不準(zhǔn)確，總是偏大。再比某測量員總是傾向于高估測量結(jié)果等。（三）有效估計量除了上述線性無偏估計量外，考慮另一個線性無偏估計量，因為顯然他們都是線性無偏估計量，我們又如何在這兩個法則中間選擇最好的一個呢？結(jié)論是進(jìn)一步比較估計量的方差，選擇方差最小的那一個。如果兩個無偏估計量Ｗ１和Ｗ２，總有Var(W1)<Var(W2)，則稱Ｗ１比Ｗ２相對有效。如果不限于考慮無偏估計量，那么比較方差大小就毫無意義。比如，無論取到什么樣本，我們都設(shè)定一個等于０的估計量，其方差最小，但毫無意義。同時滿足線性、無偏、最小方差的估計量稱為最小方差線性無偏估計量（BLUE）。假設(shè)2：,則證明：在假設(shè)1和假設(shè)2下，OLS估計量b為BLUE估計量盡管得到了但是，由于未知，仍然無法求出具體的值，無偏估計。mataP=J*invsym(J’J)*J’M=I(n)-Pe=Y-J*brmse=sqrt(e’e/(n-1))//③誤差標(biāo)準(zhǔn)差rmsese=rmse/n//④標(biāo)準(zhǔn)誤seend注意比較下面的四個概念的區(qū)別：總體方差：Var(Y)均方差(meansquarederror,MSE）定義為：MSE(W)＝E[(W-θ)2=Var(W)+[Bias(W)]2=Var(W)+[E(W)-θ]2樣本方差：S是樣本的隨機變量抽樣方差：既然估計量是隨機變量，它也具有方差的屬性，稱為抽樣方差比較：抽樣方差是一個確定的數(shù)，不是一個隨機數(shù)。它由無窮次抽樣，每次抽樣獲得的樣本計算得到的估計值，對所有的估計值再計算方差而得到。但樣本方差是一個隨機變量，它隨不同的樣本而變動。MSE度量Ｗ離開θ的平均距離，依賴于方差和偏誤，利用MSE我們可以比較任何兩個估計量，即使其中之一或者兩者都是有偏誤的。（四）抽樣分布既然估計量是一個隨機變量，它就有相應(yīng)的分布規(guī)律，稱之為抽樣分布。b服從什么分布呢？如果我們假設(shè)3：由于均值相當(dāng)于隨機向量的一個函數(shù)（線性組合）。組合之后，均值仍然為隨機的，而且成為一個隨機變量。由于正態(tài)隨機變量的線性組合仍然服從正態(tài)分布。因此b也服從正態(tài)分布，正態(tài)分布由均值和方差確定，故估計量的抽樣分布下面的例題，首先生成一個均值為0，標(biāo)準(zhǔn)差為1的隨機誤差項，然后生成Y，再抽取8個樣本，計算其均值。重復(fù)上述程序1000次，得到1000個估計值，做這些估計值的直方圖，可以發(fā)現(xiàn)，它服從正態(tài)分布。captprogdropsdprogsddrawnormu,n(8)clear//8個期望為10的正態(tài)隨機樣本gy=10+uregyend***將上述抽樣試驗進(jìn)行1000次，得到1000個均值和標(biāo)準(zhǔn)差simulate_b,reps(1000):sdsum//比較兩者的均值和標(biāo)準(zhǔn)差。tw(kdensity_b)(functiony=normalden(x,10,1/sqrt(8)),range(515))改變樣本容量為800，再進(jìn)行試驗，觀察估計量的收斂性。matau=invnorm(uniform(8,1000))y=10*+ub=C*ymean(b’)st_matrix(“b”,b)svmatbtw(kdensity_b)(functiony=normalden(x,10,1/sqrt(8)),range(515))（五）誤差方差的估計量及其分布是一個估計量，自然是一個隨機變量，那么這個隨機變量服從什么分布呢？clearcaptprogdropsdprogsddrawnormu,n(8)clear//8個期望為10的正態(tài)隨機樣本gy=10+uregyscalars=7*(e(rmse))^2end***將上述抽樣試驗進(jìn)行1000次，得到1000個均值和標(biāo)準(zhǔn)差simulates,reps(1000):sdtw(kdensity_s)(functiony=100*((chi2(7,x)-chi2(7,(x-0.01)))),rang(030))matau=invnorm(uniform(8,1000))y=10*+ub=C*ye=y-J*bs=e’est_matrix(“s”,s)svmatstw(kdensity_s)(functiony=chi(x,10,1/sqrt(8)),range(515))（六）F估計量（七）T估計量在上面的分布中，β和σ是未知的常參數(shù)，因而仍然無法確定估計量b的具體分布。怎么辦呢？能否在σ未知的情況下得到某個具體的分布？辦法是構(gòu)造T值，T值是一個含有未知常參數(shù)β的估計量（因為b和S都是樣本的函數(shù)），而且T值的分布函數(shù)僅有樣本容量n唯一確定。注意到T值實際上也是樣本的一個函數(shù)，然而當(dāng)總體服從正態(tài)分布時，T值成為一個僅與樣本容量有關(guān)的統(tǒng)計量。注意到上式中僅有一個未知常參數(shù)β，我們把這種統(tǒng)計量稱為樞柚量。四、區(qū)間估計區(qū)間估計的含義是：總體參數(shù)β（真值）被由樣本和置信水平構(gòu)造的區(qū)間覆蓋住的概率。根據(jù)一個樣本的觀察值給出總體參數(shù)的估計范圍，并給出總體參數(shù)落在這一區(qū)間的概率t分布僅有一個參數(shù)，即樣本容量n，當(dāng)n的大小被確定，分布即被決定。隨機變量T落在（-∞，-t0.025）和（+t0.025，+∞）內(nèi)的概率為0.05,T落在（-t0.025,+t0.025）的概率為0.95。而T由n，b，S及β四個變量所決定。給定樣本，則n,b,S都是確定的，但樣本容量不變，而樣本變化，b和S會隨之變化，而β為未知參數(shù)，但β落在下面區(qū)間的概率為0.95大致意思是如果隨機抽取樣本容量相同（均為n）的樣本很多很多次，每次都計算出相應(yīng)的S,b，代入上式計算出許許多多的區(qū)間，則所有區(qū)間中約有95%將包含總體參數(shù)β，有5個不包含β。真值約有95次穿過區(qū)間，但約有5次在區(qū)間兩個端點之外。對某一次抽樣來說，可信區(qū)間一旦形成，它要么包含總體參數(shù)，要么不包含總體參數(shù)，二者必居其一，無概率可言，因此所謂95％的可信度是針對可信區(qū)間的構(gòu)建方法而言的。區(qū)間估計與點估計不同，它尋求一個區(qū)間，該區(qū)間以一定的概率保證真正的總體參數(shù)值包含在其中，當(dāng)然，對于一個特定的樣本，它可能包含參數(shù)真值，也可能不包含。captprogdropbbprogbbdrawnormu,n(100)sds(10)dclear/*生成一個標(biāo)準(zhǔn)差o=10的正態(tài)隨機變量樣本，樣本容量為100*/gY=10+uquietlyregyend***將上述抽樣試驗進(jìn)行100次，得到100個樣本均值mean和標(biāo)準(zhǔn)誤simulate_b_se,reps(100)nodots:bbgn=_n*在總體方差未知的前提下，用樣本標(biāo)準(zhǔn)差sd替代，需要借助t統(tǒng)計量gtlow=_b-invttail(99,0.025)*_se/sqrt(100)gthigh=_b+invttail(99,0.025)*_se/sqrt(100)*考察總體均值是否在子樣本的95%置信區(qū)間內(nèi)，如不在則標(biāo)記為1，否則為零gtsign=(tlow<5&thigh>5)*統(tǒng)計沒有包括總體均值的子樣本95%置信區(qū)間個數(shù)tabletsign*圖示twrcapsymthightlown,yline(5)||rcapsymthightlownifthigh<5|tlow>5在通常的研究中，我們只進(jìn)行一次抽樣，只構(gòu)造出一個區(qū)間，并推測這一個區(qū)間有95%的可能屬于包含總體參數(shù)的區(qū)間簇，有5%的可能屬于不包含總體參數(shù)的區(qū)間簇。五、假設(shè)檢驗真正的總體參數(shù)β是一個常數(shù)，但具體等于多少，卻是未知的。我們假設(shè)總體參數(shù)等于一個值β0=10，然而這個值卻是我們假設(shè)出來的，它也是一個常數(shù)。然后我們抽取一個樣本，計算后得到一個估計值b，這個估計值b是一個隨機變量。注意區(qū)別三個值β、β0，b。原假設(shè)為β=β0，對立假設(shè)為β！=β0。也就是說，我們的假設(shè)值可能正好等于原總體的參數(shù)值，也可能不等。想一想，你能準(zhǔn)確猜測出真正的總體值嗎？另外，注意到在原假設(shè)與對立假設(shè)中，并不涉及到估計量。第一類錯誤：如果原假設(shè)正好成立，即原假設(shè)為真，則β=β0。然而即使我們做出了完全正確的假設(shè)，我們也只抽得了一個樣本，從這一個樣本中估計得到了樣本均值，并進(jìn)一步得到了T值，這個T值可能落在發(fā)生概率非常?。?.5%）的兩個端點之外。這個小概率事件如果發(fā)生，我們就拒絕原假設(shè)，認(rèn)為β！=β0，反之如果T值在95%的概率區(qū)間中間，則不能拒絕原假設(shè)。由于抽樣的偏誤，我們可能恰好在一次抽樣中得到一個過大或過小的T值，從而否定正確的原假設(shè)，這種錯誤叫做棄真錯誤，但是在原假設(shè)為真的前提下，發(fā)生這種錯誤的可能性只有5%。第二類錯誤：由于原假設(shè)只是我們的一個假設(shè)，我們并不真正知道總體參數(shù)的真實值，因此可能從一開始，我們的假設(shè)就錯誤了。由于這個錯誤的假設(shè)，我們會犯取偽的錯誤。若顯著性水平為，當(dāng)真值的確為假設(shè)值時，就是作出正確判斷（即H0為真時接受H0，取真）的概率，此時有。而則為棄真的概率。而當(dāng)假設(shè)為錯誤，即真值不等于假設(shè)值時，為犯第II類錯誤（即原假設(shè)為誤，接受原假設(shè)，取偽）的概率。則為作出正確判斷的概率（即原假設(shè)為假時，拒絕原假設(shè)的概率），又稱為檢驗的功效。以真值為橫軸，以為縱軸，可以得到一條曲線。這條曲線反映了當(dāng)假設(shè)值偏離真值時，檢驗的功效如何變動：當(dāng)參數(shù)的真值在假設(shè)值附近時，檢驗法的功效很低。犯第二類錯誤的概率很大。當(dāng)n趨于無窮時，曲線成為T形，此時，納偽的的概率為0，檢驗的功效達(dá)到最高100%。情形1：總體均值已知，為u=10。但我們假裝不知道，卻做出了對總體均值正確的原假設(shè)，認(rèn)為它等于u0=10，則抽樣進(jìn)行假設(shè)檢驗如下drawnormx,n(100)m(10)sds(10)dclear*生成一個均值u=10,標(biāo)準(zhǔn)差o=10的正態(tài)隨機變量，作為研究總體quietlysumxdi"從樣本計算t統(tǒng)計值為："(r(mean)-10)/(sqrt(100)*r(sd))di"根據(jù)t統(tǒng)計量臨界值為："aserrorinvttail(99,0.025)diasresult"對這次實驗，拒絕還是接受？"由于我們通常只取一次樣，所以有可能碰巧得到的樣本正好是導(dǎo)致我們拒絕真的原假設(shè)的樣本。這時我們就會犯錯誤。然而，棄真錯誤的可能性比較小。在100次這樣的抽樣研究中，大概有5次左右。將上述試驗進(jìn)行100次，統(tǒng)計一下有多少次拒絕，多少次接受？captprogdropbbprogbbdrawnormx,n(100)m(10)sds(10)dclearquietlysumxscalarref=(abs(sqrt(100)*(r(mean)-10)/r(sd))>invttail(99,0.025))*如果樣本統(tǒng)計量（t）值大于臨界值，則拒絕原假設(shè)一次jud=1,否則為0endsimulateref,reps(100):bbtab_sim//其中的1表示在100次中拒絕原假設(shè)的次數(shù)。情形2：總體均值已知，為u=10。但我們假裝不知道，并做出了對總體均值錯誤的原假設(shè)，如認(rèn)為它等于u0=5，則抽樣進(jìn)行假設(shè)檢驗如下captprogdropbbprogbbdrawnormx,n(100)m(10)sds(10)dclearquietlysumxscalarref=(abs(sqrt(100)*(r(mean)-5)/r(sd))>invttail(99,0.025))endsimulatejud,reps(100):bbtab_sim這時，我們100次地拒絕了原假設(shè)，認(rèn)為原總體的均值不可能為5。drawnormu,n(100)sds(10)dcleargY=10+uregy顯著性：你和朋友來進(jìn)行橫跨西伯利亞的越野車比賽，一個月后，你以一秒之差擊敗他，顯然你不能吹噓自己比他快。你可能受助于某些東西，或者只是隨機因素使然，別無其他。那一秒不夠顯著，沒有辦法據(jù)此得出什么結(jié)論?！白孕熊囼T手A比B優(yōu)秀，因為他平常吃菠菜，而B吃豆腐，所在A在3000里的比賽中比B快了1秒”。六、計量模型的本質(zhì)案例4-5：我們生來就偏好因果關(guān)系我們生來不會把不同的事情獨立開來看待，觀察A和B兩件事時，我們很難不假設(shè)是A造成B、B造成A，或者兩者彼此影響。我們會立即在其間建立因果關(guān)系。在感情上拒絕一項假說比接受它更難（即所謂的第一類錯誤和第二類錯誤）。候讓以前常和索羅斯打網(wǎng)球，有個周末，索羅斯在談話中表示非?？磯暮笫?，還講出一連串復(fù)雜的道理，索羅斯顯然在市場中做空。幾天后，市場激漲，頻創(chuàng)新高。候讓擔(dān)心索羅斯可能賠錢，下次打球時就問他是否有所損失，索羅斯說：“我們大賺了一票，我改變了主意，不但回補空頭頭寸，而且還建立起很大的多頭頭寸”。20世紀(jì)80年代末，索羅斯給候讓2000萬美金去投機，候讓借此創(chuàng)立了一家交易公司。幾天后，索羅斯與候讓在共進(jìn)午餐時聊到市場，索羅斯的態(tài)度變得相當(dāng)冷談。之后索羅斯把錢全部撤回，沒做任何解釋。索羅斯這種真正的投機者與別人不一樣的地方，在于他們?nèi)狈β窂揭蕾嚕耆皇苓^去行為的束縛，每一天都是一張白紙。要測試信念是否路徑依賴，有個簡單的方法。假設(shè)你擁有一幅畫，當(dāng)初是以2萬美金買進(jìn)的。由于藝術(shù)品市場欣欣向榮，現(xiàn)在這幅畫值4萬美金，如果你手頭上沒有這幅畫，你會依目前的市場價格買進(jìn)嗎。如果一連串的觀念都以第一個觀念馬首是瞻，我們便稱其有路徑依賴。（一）因果關(guān)系與計量經(jīng)濟學(xué)的任務(wù)人類對自己周圍的一切事物都充滿了好奇，孜孜不倦地探索和理解著這個神奇的世界?？梢哉f，人類的認(rèn)識是一個逐步深化的過程。首先是概念的辨識，從紛紜復(fù)雜的大千世界中抽離出一些關(guān)鍵的概念，在明確其內(nèi)涵及外延的基礎(chǔ)上，使我們今天有了一個分類無比細(xì)致的世界，概念和名詞也因此多得要極厚的百科字典才能存載。比如性別是一個概念，年薪是一個概念，受教育年限是一個概念。而這些概念在數(shù)學(xué)公式中則被抽象為一些簡單的符號x、y、z。光有概念是遠(yuǎn)遠(yuǎn)不夠的，人們希望能夠?qū)ν粋€概念有更深入的把握，因此概念需要量化，比如性別有男有女，工資有高有低，教育有文盲到博士的區(qū)別。在數(shù)學(xué)中，便表現(xiàn)為x和y的不同取值，如x=1表示男，x=0表示女，y=10000表示年薪1萬元。有了不同的概念，也有了對各種概念在量和程度上的不同認(rèn)識，人們就希望能舉一反三，見一葉落而知天下秋。在這個探索過程中，函數(shù)是一個核心，它把多個變量聯(lián)系起來，使人可以由此及彼，見微知著；可能通過操控一些可控的變量來對不可控或難以直接操控的變量（往往目標(biāo)）施加影響。比如未來的高收入是我們的目標(biāo)，現(xiàn)在可以操控的是提高自己的能力和受教育水平，而受教育是要付出成本的，投入多少是最佳的呢？初中畢業(yè)？大學(xué)畢業(yè)？要不要上研究生？如果要做出定量的回答，顯然需要對于教育及教育回報的定量關(guān)系的深入認(rèn)識。這種探索在數(shù)學(xué)上表現(xiàn)為函數(shù)y=f(x)。有了函數(shù)，人類的認(rèn)識就有了很大的飛躍，追尋因果關(guān)系也因此成為研究的最主要任務(wù)，所謂因果關(guān)系探求，實質(zhì)上是想要明白f(x)究竟是怎樣的？打開f(x)這個黑匣子并不容易，純粹從理論上的工作屬于數(shù)量經(jīng)濟學(xué)的范疇，本文不再展開。我們僅假設(shè)有一個在理論上存在的函數(shù)關(guān)系：Y=f(x，β)，其中β為常參數(shù)。函數(shù)關(guān)系Y=f(X，β)刻畫了Y如何伴隨著另一個變量X的變化而變化。假設(shè)x與y的關(guān)系是普遍存在的，但是在不同的環(huán)境條件下，β是不同的，在同樣的環(huán)境條件下β是真實存在的一個確定的常參數(shù)值?；貧w分析的任務(wù)就是通過在某個特定環(huán)境下收集數(shù)據(jù)，獲得β的最接近的一個估計值。換言之，就是要得到計量經(jīng)濟學(xué)的總目標(biāo)：得到一個最佳的估計量(估計量是一個函數(shù)，是一個對樣本進(jìn)行運算的法則)。所謂最佳是針對這個法則而言的。這意味著，對于我們想探索的未知函數(shù)g(X，Y，|β)中的常參數(shù)而言，我們可以根據(jù)樣本得到最逼近β的估計值。估計量的最優(yōu)性質(zhì)在一系列的假設(shè)下得到，當(dāng)這些假設(shè)不成立時，相應(yīng)的特性也不成立，此時，需要退而求其次，獲得在放松后的條件下（通常更符合現(xiàn)實），更逼近未知常參數(shù)的估計值。（二）概率因果模式及計量模型的實質(zhì)借用大家都熟悉的物理學(xué)例子，炮彈以初速度x和與水平軸成θ角離開地面，從發(fā)射點到落點的距離為d，根據(jù)牛頓定律可以得到（1）這似乎是一個不受限制的滿足因果律的函數(shù)關(guān)系，其中g(shù)為常參數(shù)，即重力加速度：固定發(fā)射角，給定一個初速度，就得到一個確定的距離。然后根據(jù)試驗得到的三個數(shù)據(jù)v，θ，d，我們就可以計算出重力加速度g=d/(v2sin2θ)然而實踐并非如此簡單，上述模型只是一個近似公式，是人類思維的發(fā)明，是一個理想化模型。這個理想化模型忽略了空氣阻力、氣壓變化以及初速度和發(fā)射角的不精確性。因此只能在一定限制條件下應(yīng)用，即忽略掉的諸因素在我們可以接受的范圍內(nèi)，我們才可以放心地進(jìn)行這種簡化推測。但是無論無何，在現(xiàn)實中，我們通過某次實驗所計算出的g并不會正好等于9.8。同樣，如果做很多次實驗，根據(jù)每次的實驗結(jié)果來測算g，我們會得到許多不同的g。由于v和θ的不精確，以及炮彈在空氣中受到的擾動，在一次確定的發(fā)射中，測定的著彈點與發(fā)射點的距離記為di。這個di與按（1）式計算的理論結(jié)果必然存在不一致，換言之，單次實驗的結(jié)果看似確定的，但這種確定是事后的，事前它是不確定的，是隨機現(xiàn)象。因此，第i次實驗的事后結(jié)果可表達(dá)為：如果我們提出另外一個問題，既然單次實驗結(jié)果是隨機的，是事前不能確定的，當(dāng)我們用同一個大炮在同一地點打出許多有相同初速度和發(fā)射角的炮彈時（注意，這也只是理想化狀態(tài)），這些炮彈落入第j個洞的概率是多少？或者問，這些炮彈的落點到發(fā)射點的距離的測量均值是多少？則這一問題不再有因果答案，只能給出一個隨機性的解釋，表現(xiàn)為概率因果模式。在這種情況下，看似隨機的結(jié)果卻又表現(xiàn)出確定性，其確定性表現(xiàn)為：“如果試驗次數(shù)足夠多，平均特性具有高度的確定性”。因此，同一個問題既可用確定的因果方式也可用概率的方式進(jìn)行分析。有人可能會說，這本來就是個確定性的問題，盡管我們不知道，但炮彈總有其精確初速度和發(fā)射角，如果我們知道它，就能準(zhǔn)確知道它落入洞的位置，因此，我們之所以需要概率解釋是因為我們對一些因素的無知。對這一爭議的回答是：科學(xué)家并不關(guān)心什么是真實的，只關(guān)心什么是他們能夠觀測到的。這也是后現(xiàn)代關(guān)于真實的觀點。愛因斯坦說：“數(shù)學(xué)定律不能百分之百地確實地用在現(xiàn)實生活里,能百分之百確實地用數(shù)學(xué)定律描述的,就不是現(xiàn)實生活.”，如果我們接受，事實上我們必須接受，科學(xué)理論不是自然規(guī)律的發(fā)現(xiàn)，而是人類思維的發(fā)明，那么，因果性和隨機之間，或者確定性和或然性之間是沒有抵觸的。由于Y=d在事前無法預(yù)測，因此它是隨機的。通常我們將X也視為隨機的（當(dāng)然在控制實驗中是非隨機的，但計量經(jīng)濟學(xué)處理的社會經(jīng)濟變量通常都是非試驗非可控的）。而模型的實質(zhì)是制約因變量Y與自變量X的聯(lián)合分布的集合。模型是滿足假定條件的聯(lián)合分布。在這一章中我們先假設(shè)X為非隨機的。令得到在上述模型中，X為非隨機變量，是事先給定的，u和y為隨機變量，其中y是可觀測的，而ε也為隨機變量，但是不可觀測的，β為未知常參數(shù)，是我們想估計的未知參數(shù)。（三）模擬實驗現(xiàn)在，給定初速度vi,發(fā)射角θ，在同樣的條件下發(fā)射n次炮彈。每一次都會受到微小因素的干擾而產(chǎn)生誤差ui。這些誤差將服從某種分布，設(shè)其分布的密度函數(shù)為f(u|x=x0），因為則給定初速度x1和發(fā)射角θ,落點距離y1服從以x1和θ為條件的分布f（y|x1,θ）。如右圖如果初速度改變?yōu)閤k,保持發(fā)射角不變，得到不斷改變初速度，將得到若干y對應(yīng)于x的分布如圖。我們希望通過觀察（實驗）來確定出兩個常參數(shù)，并獲得這個函數(shù)。于是，我們固定發(fā)射角做實驗，通過不斷改變初速度(改變10次，x=1-10)，得到10000個數(shù)據(jù)（模擬數(shù)據(jù)bomb。并對每個x求y求條件均值E(d|v),得到下表。clearsetobs10000genx=int((_n-0.5)/1000)+1genu=9*invnorm(uniform())geny=x^2/9.8*sin(_pi/6)+utablex,c(meany)format(%5.2f)x

12345678910m(y|x).13.47.76.581.152.532.613.444.435.35下面，我們來做進(jìn)一步的模擬實驗。首先，作為一個基準(zhǔn)，考慮一種最理想狀態(tài)，當(dāng)發(fā)射角為45度，初速度?。?，10）之間的正整數(shù)，沒有測量誤差，重力加速度恒定，空氣阻力等炮彈飛行中的擾動產(chǎn)生的條件誤差服從均值為零，方差為0.09的正態(tài)分布，于是可以根據(jù)牛頓定律，可生成一個總體如下。七、古典線性回歸模型（一）期望與方差先把X看做是非隨機的，則X為一個固定的常矩陣，這種情形通常在設(shè)計實驗中出現(xiàn)，比如第一塊地施1kg化肥，第二塊實驗地施2kg化肥，…。當(dāng)X為固定的常數(shù)矩陣時，也為一矩陣，不妨設(shè)為因此有clearmatau=invnormal(uniform(1,8))uniformseed(1)//生成偽隨機變量的種子X=uniform(2,8)beta=(2,10)y=X*beta:+uC=invsym(X’X)X’b=C*y可見b為一隨機向量，其期望為要使b為無偏估計量，則必須滿足條件Eu=0,即隨機向量b的方差陣為顯然，要獲得b的方差陣，必須首先假定誤差u的方差，在一個非常嚴(yán)格的假設(shè)，即誤差兩兩不相關(guān)，而且同方差的條件下，有（二）估計量的分布僅假設(shè)誤差的期望和方差還無法確定最小二乘估計量b的分布，要獲得其分布，必須對誤差的分布做出假設(shè)（即限制條件），當(dāng)誤差向量服從正態(tài)分布，并且前述的期望和方差假設(shè)也成立時，因為正態(tài)分布由期望和方差確定，并且正態(tài)隨機向量的線性組合仍然服從正態(tài)分布，因此隨機向量b也服從如下的正態(tài)分布：由于正態(tài)分布具有斷尾性，因此服從正態(tài)分布的隨機向量，其任意一個元素也服從正態(tài)分布，（三）t統(tǒng)計量與T檢驗根據(jù)點估計的值，可以計算出Y的擬合值將觀察值與擬合值相減，得到的值定義為殘差e（注意與誤差相區(qū)別），即因為M為確定的常矩陣，My是樣本的線性組合，因此e實際上也是一個估計量，進(jìn)一步，我們將殘差的平方和除以一個常參數(shù)σ2，得到顯然，上式也是一個估計量，可以證明，該估計量服從自由度為n-k的卡方分布。證明：證明非常簡單，因為由于bj服從均值為βj的正態(tài)分布，根據(jù)t分布的定義，可以得到（四）F統(tǒng)計量與F檢驗在上述估計量中，只有一個唯一的未知常參數(shù)βj，而相應(yīng)的t分布卻是唯一確定的，因此可以構(gòu)造出置信區(qū)間，該置信區(qū)間將以一定的可能性能夠?qū)⑽粗?shù)覆蓋在內(nèi)。如果我們假設(shè)模型沒有任何解釋力，即所有的β=0，則可以利用F檢驗，推理如下：從X為非隨機變量到X為隨機變量，只需要將X視為條件，反復(fù)運用重期望定理即可得到上述結(jié)論。附：矩估計與極大似然估計（一）矩估計矩法的核心思想：總體矩=樣本矩總體矩，如正態(tài)分布的總體一階原點矩為u，二階中心矩為σ2，二點分布的期望為p,泊松分布的期望為λ?？傮w矩由隨機變量的取值及其對應(yīng)的概率PDF加權(quán)求和得到。樣本矩，對于IID，均值對應(yīng)于一階原點矩。由于是IID，而且是簡單隨機抽樣，因此，概率高的取值被抽中的可能性高，概率低的被抽中的可能性低，而且其頻率近似等于其概率，因此對樣本取值依頻率加權(quán)求和得到的結(jié)果，就近似等于期望。^u=-x。另一方面，樣本值的經(jīng)驗分布EDF是CDF的一致估計，因此，總體矩=樣本矩。EDF是隨機變量X的CDF的一致估計。當(dāng)xi獨立同分布時，由于隨機變量Y=I(Xi<x)的期望為F(x)，因此，正好為Y的均值，服從大數(shù)定理，所以是F(x)的一致估計量。矩法估計當(dāng)然不限于期望=樣本均值，相應(yīng)地還有總體方差=樣本方差；總體K階原點矩=樣本K階原點矩；總體K階中心矩=樣本K階中心矩利用矩法估計總體參數(shù)時不需要知道總體的PDF或CDF，只需要知道用未知參數(shù)表達(dá)的總體矩即可，因此具有更廣泛的運用性。矩法的一般步驟：從總體矩入手將待估參數(shù)表示成總體矩的函數(shù)θ=g(EX,Var(X))。用樣本矩m和s分別替換g中的總體矩EX=m,Var(X)=s，則估計值θ*=g(EX,var(X))=g(m,s)=g(x1,x2,…,xn)假設(shè)1：（二）極大似然估計已知分布類型，不知分布參數(shù)。例：遇到三個人，

人人文庫> 全部分類> 教育資料 > 中學(xué)教育

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

計量經(jīng)濟學(xué)課件教案第四章從數(shù)理統(tǒng)計到古典回歸模型

文檔簡介

溫馨提示

最新文檔

評論

計量經(jīng)濟學(xué)課件教案第四章從數(shù)理統(tǒng)計到古典回歸模型

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔