版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第四章從數(shù)理統(tǒng)計到古典回歸模型案例4-1:人類天生的統(tǒng)計本能在基因上,我們?nèi)院臀撮_化的土著人很接近。我們信念的形成,充滿著迷信——即使今天也不例外,甚至尤以今天為甚。某一天,原始部落的某個人摸鼻子后不久,天開始下雨,于是他煞費苦心地發(fā)展出一套抓鼻子祈雨的方法。同樣地,我們會把經(jīng)濟的繁榮歸功于中央銀行降低利率?;蛘咭患夜镜慕?jīng)營成功和新總裁走馬上任有關(guān)。類似風(fēng)馬牛不相及的事件屢屢被我們扯上聯(lián)系,并導(dǎo)致我們在人生的重要抉擇關(guān)頭步步踏錯,先機盡失。我們所受的教育和文化,騙我們?nèi)ハ嘈趴茖W(xué)和邏輯進(jìn)入現(xiàn)代生活時,迷信就會自然消除。但是隨著我們的智力與日俱增,隨機現(xiàn)象卻源源不絕而來,我們變得越來越迷信。哈佛大學(xué)心理學(xué)家Skinner做過一個關(guān)老鼠和鴿子的籠子,籠子有個開關(guān),鴿子可以用喙去操作。此外,有個電動裝置會把食物送進(jìn)籠子里。1948年,他以隨機的方式送食物給非常饑餓的鴿子。隨后他觀察到鴿子表現(xiàn)出相當(dāng)驚人的行為。它們根據(jù)內(nèi)在根深蒂固的統(tǒng)計機制,發(fā)展出極其復(fù)雜、有如祈雨般的舞蹈行為;有只鴿子會對著籠中特定的一角有規(guī)律地?fù)u頭,另一只鴿子會以逆時鐘方向轉(zhuǎn)頭。幾乎每一只鴿子都發(fā)展出一種與獲取食物聯(lián)結(jié)起來的特別儀式,慢慢地固定到它們心里。有那么一段時間,我迷上了炒股,每天早上搭黃色出租車去證券公司,有一天,不幸卻搭上一輛紅色出租車,司機還不知道他要去的地方,我試著要他從央行門口往南走,但他頑固地再往南多走了一個街區(qū),我被逼得只好利用后門口進(jìn)入證券公司,那一天,我操作的投資組合賺了很多錢,那是我年輕時最美好的一天。隔天,一切如常,我在校門口等那輛出租車,前一天的紅色出租車和那個頑固的家伙卻不見蹤影。真是不巧,因為我有個無法解釋的念頭,想要謝謝那天他對我做的好事,還想多給他一點錢。我好不容易等到一輛紅色的出租車,上車后我告訴新司機載我繞到證券公司的后門,也就是前一天下車的那個地方。。。。進(jìn)了公司,迎面有個鏡子,看著自己,發(fā)現(xiàn)仍然裝著昨天那件沾了污漬的襯衣。我體內(nèi)有另一個我,顯然相信從這個入口上樓、裝這件臟衣服、坐與前一天一樣的車、走同樣的入口與股票的市場走勢之間有強烈的因果關(guān)系存在。我為自己的行為舉止像個騙子,猶如扮演別人角色的演員一樣而啞然失笑。有些賭徒相信賭博的結(jié)果和某些身體動作之間有一些不自然的關(guān)聯(lián),據(jù)而發(fā)展出一些扭曲的行為。我出現(xiàn)了所謂的“賭徒的迷信”。雖然細(xì)微且難以察覺,卻正在迅速累積。我們的心似乎一直想找出某種統(tǒng)計上的關(guān)聯(lián),在理性上我們知道這種統(tǒng)計關(guān)聯(lián)是騙人的,因為樣本很小。但是這種天生的統(tǒng)計本能,并沒有因為我在假說檢驗上的專長而有所抑制。——納西姆。塔勒布,《隨機致富的傻瓜》,中信出版社概率論是已知總體,即已知DGP或者分布函數(shù),求隨機變量取特定值或者落在特定區(qū)域內(nèi)的可能性。而數(shù)量統(tǒng)計是未知DGP或分布函數(shù),面對一個黑箱,根據(jù)從黑箱中取出的東西來推測黑箱中的DGP或者分布函數(shù)的類型以及未知參數(shù)的取值。f(x)f(x)案例4-2:統(tǒng)計小史1085年,《末日審判》(Domesday)統(tǒng)計了田地名稱、擁有者、面積、可耕地面積、牛群數(shù)量、土地價值…….,但國王威廉沒有將這些數(shù)據(jù)用于任何地方,900年來,他一直是研究的對象。英國的格朗特(Graunt,1620-1674)對這樣一個問題很感興趣“誰活著?誰死了,為什么死了?”,他研究了死亡公告,分析了1604-1661年的數(shù)據(jù)(<NaturalandpoliticalobservationmentionedinafollowingindexandmadeupontheBillsofmortality>),書中寫道:“大多數(shù)人只是找找奇怪的事,看看離奇的死亡,僅此而已”。謀殺很受關(guān)注,但是格發(fā)現(xiàn),在229250例死亡中,只有86人死于謀殺,謀殺不是殘廢的主要原因。人們還認(rèn)為,“瘟疫伴隨著一個新王朝的開始”,格證明這種看法是錯誤的。國王查理三世出面舉薦他加入皇家學(xué)會。哈雷預(yù)言哈雷慧星將于1758年返回,他對天文著迷,個人的擁有的儀器足以成立一個天文臺。它沒畢業(yè)就到南大西洋的一個小島上,準(zhǔn)確地測量了300多顆恒星,他描繪了第一張世界海洋地圖,標(biāo)明了風(fēng)向,其中包含的信息對每一位船長都有重要價值。他提問“40歲的男人再活7年的概率是多大”?并編出了第一年生命表,資助牛頓出版了科學(xué)史上最有影響的著作《自然哲學(xué)的數(shù)學(xué)原理》。費希爾(Fisher,1890-1962)是現(xiàn)代統(tǒng)計學(xué)的奠基人,1925年出版《研究工作者用的統(tǒng)計方法》,提出隨機化的實驗設(shè)計。休哈特(Shewhart,1891-1967)提出質(zhì)量控制,戴明(Deming)將其發(fā)揚光大。應(yīng)用于流行病學(xué)、斯諾(Snow,1813-1858)發(fā)現(xiàn)霍亂與水源的關(guān)系。另用于人口普查,民意調(diào)查等。一、問題的提出天安門城樓到底有多高,其“真實”的高度究竟是多少?恐怕沒有人能夠給出完全精確的答案,即使給出來也未必令人信服。盡管實踐是檢驗真理的唯一標(biāo)準(zhǔn),然而如果我們?nèi)y量,每次測量的結(jié)果都會不同,應(yīng)該相信哪一次的結(jié)果呢?測量很多很多次是否有幫助?如何來處理這很多次的測量結(jié)果,以便最好地逼近真實高度?上述問題可以轉(zhuǎn)化為如下的數(shù)學(xué)模型:其中為天安門城樓的高度,當(dāng)然是一個客觀存,有唯一精確值的未知數(shù)。而u為測量誤差,是一個隨機變動的隨機數(shù)。y為測量結(jié)果。顯然只有y是能夠觀察到的,而真實高度與誤差卻無法觀察到的,核心問題就是如何用觀察到的y來求得未知的?總體是任何一種定義良好的一種對象的全體,如全部人民大學(xué)的學(xué)生不是一個定義良好的總體,而全部人民大學(xué)學(xué)生的高考成績是一個定義良好的總體。天門安城樓高度的所有測量結(jié)果也是一個定義良好的總體(無限總體)??傮w也是一種數(shù)據(jù)生成機制(DGP,datageneratingprocess),如天門安城樓高度的測量結(jié)果由這一機制生成,既然u為隨機變量,則它有相應(yīng)的矩,假設(shè)其方差為。二、樣本最容易理解的抽樣是從有限總體中抽取一個樣本,比如從100個混有紅球和黑球的暗箱中摸出8個球來。有限樣本的抽樣又分為放回和不放回兩種,如果放回,則同一個球可能被抽中兩次。從無限總體中抽取一個樣本可被視為某個數(shù)據(jù)生成過程(DGP)的一次實現(xiàn)。比如天門安城樓高度的測量結(jié)果y是一個無限總體,某一次的測量結(jié)果可視為按照公式所確定的數(shù)據(jù)產(chǎn)生機制生成一個數(shù)據(jù)yi。相應(yīng)地n次測量的結(jié)果可被視為一個n維隨機向量(樣本)表格4SEQ表格\*ARABIC\s11:隨機抽樣:抽得任何一個樣本的概率相同yy1y2…yn第一次抽樣y1y11y12…y1n第二次抽樣y1y21y22…y2n………第m次抽樣ymym1ym2…ymn樣本聯(lián)合概率密度:已知隨機變量Y,從該總體中隨機的取一個容量為n的樣本,其聯(lián)合概率密度為fJ(Y1,Y2,Y3,…,Yn)。同分布:指總體服從同一種分布。想象一下,箱子中既有不同重量的紅球(假設(shè)重量服從正態(tài)分布f1(Y)),也有不同重量的綠球(假設(shè)其重量服從指數(shù)分布f2(Y)),于是從這個箱子里隨機抽取的球不是同分布的。如果箱子中只有紅球,則是同分布的。簡單隨機抽樣:是指每個樣本被抽取的可能性等同,也就是事前不知道會抽中哪個樣本,每個樣本都有同樣的可能被抽中,否則,就不能算做隨機抽樣。想像上面的例子,不論是很重的球還是很輕的球,也不論是紅球還是綠球,更不論服從什么分布,反正每個球被抽中的概率都一樣。比如箱中共有100個球,則每個球被取出的可能都為0.01。再如街頭攔訪,老出門在外的或老在家的人被抽中的概率就不一樣,是一個明顯的非隨機樣本。獨立:獨立,指的是各個試驗或觀察得到的樣本間是相互獨立的。獨立和隨機是兩回事,隨機樣本并不一定相互獨立,而相互獨立的兩個樣本并不一定隨機。獨立性要求每一次取球的結(jié)果不影響另一次取球的結(jié)果,如果取出一個紅球,下一次總是又取出一個紅球,則不獨立。同樣,如果取出一個很重的球,下一次總?cè)〕鲆粋€很輕的球,再下一次又取出一個很重的球,這種的樣本不獨立。案例4-3:獨立性與Polya過程阿瑟提出波利亞過程(polyaprocess),假設(shè)有個盒子,起初裝有等量的黑球和紅球,每次取球之前,得先猜測取出來的是哪個顏色,而猜對的概率取決于前面猜對的記錄,先前猜對的話,后來繼續(xù)猜對的概率會提高,仿真這種結(jié)果,可以看出結(jié)果變異非常大,有極多的成功,也有極多的失敗。在常見的模式中,玩家是把取出的球放回去后再猜下一次會取到哪種顏色的球,假設(shè)你這次猜對了,這會提高你下次贏的概率嗎?不會,但波利亞過程會,為什么這在數(shù)學(xué)上極難處理?原因出在獨立性的觀念被破壞。獨立性是指每一次取球時,都不受先前的結(jié)果影響,它是處理概率數(shù)學(xué)的必要條件。沙堆現(xiàn)象不斷地把沙加到頂端來蓋座沙堡,我想知道我的沙堡能蓋到多高,我的沙堡終于跨了,所有的沙又變成海灘上的一部分。最后一粒沙破壞了整座結(jié)構(gòu)。線性的力量加在一個物體上,結(jié)果產(chǎn)生了非線性的效果。一粒沙竟然產(chǎn)生不成比例的后果。“一根稻草壓垮一頭駱駝”。生命是以非線性的方式呈現(xiàn)不公平。假想等候室里有一大堆學(xué)生等著試演測驗,最終錄用者將住進(jìn)豪宅還可能染上吸毒惡習(xí),而其他絕大多數(shù)人,他們將終生在附近的咖啡店端茶倒水。名氣的形成有其自身的動態(tài)過程,演員因為某一群人認(rèn)識他而被另一群人認(rèn)識,名氣像螺旋一樣動個不停,起點可能就在試演室。他會被選上,可能是某個可笑的細(xì)節(jié)恰好投合主試者當(dāng)天的心情。要是主試者前一天對某個人產(chǎn)生好感,而這個受試者的名字聽起來和眼前這個人很像,那么從那個特殊的樣本歷史中選出來的這位演員,可能就必須在另一個樣本歷史中端送咖啡。獨立同分布:從服從同一分布的總體中隨機獨立地抽取樣本。獨立同分布樣本的聯(lián)合概率密度滿足公式:clearmatau=uniform(8,1)J=J(8,1,1)y=J*10+un=row(y)//①樣本容量end三、最小二乘估計OLS(一)最小二乘估計量取得樣本后,我們有了多個數(shù)據(jù),如何處理這些數(shù)據(jù)呢?同樣的問題曾困惑著18世紀(jì)和19世紀(jì)初的許多天文學(xué)家和數(shù)學(xué)家。那個時代的人熱衷于測量天體的軌道長度,他們在很多地方建立天文臺,反復(fù)測量,得到大量的數(shù)據(jù)。比如測量慧星的軌道,“每次測量都有誤差,次數(shù)越多,誤差累積越多,但把次數(shù)減少并不是解決問題的辦法,用什么辦法來恰當(dāng)?shù)厥褂么罅康臄?shù)據(jù)呢”?勒讓德(Legendre,1752-1833)解決了如何從數(shù)據(jù)中得出準(zhǔn)確結(jié)論的問題,他提出了“最小二乘法”。而著名的數(shù)學(xué)家高斯(1777-1855)也聲稱他發(fā)明了最小二乘法。拉普拉斯在1812年寫出《解析概率論》,他是拿破侖的朋友,但后來又背叛了拿破侖,他討論了誤差理論,提出土星是太陽質(zhì)量的1/3512,估計偏離真實的1%的可能性是1/11000。他還提出了中心極限定理。最小二乘法的核心思想是:尋求樣本點與總體參數(shù)的距離最小。這種距離通常以平方和來表示,因此稱為最小二乘估計。根據(jù)這個式子,我們就可以計算出b稱之為β的最小二乘估計量(OLS)。mataC=invsym(J’J)*J’b=C*yb//②回歸系數(shù)Coef.end運用其他的原理,能得到其他估計量,比如矩估計量和極大似然估計量(見第九小節(jié))。根據(jù)最小二乘法估計原理,我們得到如下的估計量:上式右邊顯然是一個函數(shù),是樣本隨機變量的函數(shù)g(Y1,Y2,…,Yn)。實際上,估計量是一個處理隨機樣本的法則,這個法則是抽樣進(jìn)行之前就已制定好的,不管實際上得到的是什么數(shù)據(jù),這個法則都不變。而當(dāng)這個法則改變了,我們就得到另一個估計量,比如將樣本減均值得到另一個估計量殘差e.殘差的平方和(即樣本隨機向量的某個二次型)是另一個估計量既然估計量是隨機變量的函數(shù),它也是一個隨機變量,它的隨機性由樣本決定,隨著樣本而變,代入不同的樣本,同一個估計量會得到不同的估計值。估計量與估計值sysuseauto,clearsample10sumprice反復(fù)執(zhí)行上面的三行命令,每一次我們都得到不同的均值。drawnormu,n(8)cleargy=10+uregy同樣,反復(fù)執(zhí)行上述命令,每一次我們得到不同的估計值(二)線性無偏估計量對同一個樣本,可以定義無窮多的估計量,這些估計量僅依賴于總體的性質(zhì)和定義估計量的函數(shù),我們不能控制總體的特征,它是由客觀分布規(guī)律所決定的,而客觀分布規(guī)律又是由自然規(guī)律或社會力量來決定,不是我們所能控制的。但是我們可以選擇定義估計量的函數(shù)。問題是我們該選擇什么樣的函數(shù)來處理觀察到的樣本值呢?潛在的函數(shù)既可以是線性的也可以是非線性的,但線性的往往比較容易處理。線性估計量是樣本的線性函數(shù)(組合)。比如對樣本Y,給定任意非隨機矩陣A,AY便是一個線性估計量。其次,既然估計量是隨機變量,它也就具有期望等數(shù)字特征,而估計量的期望既取決于樣本特征,也取決于我們所選擇的函數(shù)形式(數(shù)據(jù)處理法則)。無偏估計量是一類特殊的估計量,無偏估計量的期望等于總體參數(shù)真值。注意估計量的無偏性評價的是估計法則的特性,而不是特定樣本。再次重申,一個估計量的無偏性和可能偏誤的大小依賴于Y的分布和函數(shù)g(),通常Y的分布是我們不能選擇的,但法則g()的選擇操縱在我們手中,如果我們想要得到一個無偏估計量,我們就要對g()做相應(yīng)的選擇。無偏性反映的是有限樣本的性質(zhì),它可以理解為執(zhí)行無窮次抽樣(抽樣次數(shù)m趨于無窮,但樣本容量n為一個有限值),然后利用每個樣本計算得到的估計值的期望等于總體參數(shù)真值。線性無偏估計量是同時滿足線性和無偏性的估計量。在測量的例子中,估計量b是線性的嗎?是無偏估計量嗎?是線性無偏估計量嗎?如果不是,需要滿足什么條件才是一個線性無偏估計量?從下式可以看出b是一個線性估計量如果要使b成為一個無偏估計量,必須滿足假設(shè)1:即當(dāng)時,b為線性無偏估計量。如果假設(shè)不成立,則b是有偏的,在什么情況下,誤差為零的假設(shè)不成立呢?比如測量時用的工具并不準(zhǔn)確,總是偏大。再比某測量員總是傾向于高估測量結(jié)果等。(三)有效估計量除了上述線性無偏估計量外,考慮另一個線性無偏估計量,因為顯然他們都是線性無偏估計量,我們又如何在這兩個法則中間選擇最好的一個呢?結(jié)論是進(jìn)一步比較估計量的方差,選擇方差最小的那一個。如果兩個無偏估計量W1和W2,總有Var(W1)<Var(W2),則稱W1比W2相對有效。如果不限于考慮無偏估計量,那么比較方差大小就毫無意義。比如,無論取到什么樣本,我們都設(shè)定一個等于0的估計量,其方差最小,但毫無意義。同時滿足線性、無偏、最小方差的估計量稱為最小方差線性無偏估計量(BLUE)。假設(shè)2:,則證明:在假設(shè)1和假設(shè)2下,OLS估計量b為BLUE估計量盡管得到了但是,由于未知,仍然無法求出具體的值,無偏估計。mataP=J*invsym(J’J)*J’M=I(n)-Pe=Y-J*brmse=sqrt(e’e/(n-1))//③誤差標(biāo)準(zhǔn)差rmsese=rmse/n//④標(biāo)準(zhǔn)誤seend注意比較下面的四個概念的區(qū)別:總體方差:Var(Y)均方差(meansquarederror,MSE)定義為:MSE(W)=E[(W-θ)2=Var(W)+[Bias(W)]2=Var(W)+[E(W)-θ]2樣本方差:S是樣本的隨機變量抽樣方差:既然估計量是隨機變量,它也具有方差的屬性,稱為抽樣方差比較:抽樣方差是一個確定的數(shù),不是一個隨機數(shù)。它由無窮次抽樣,每次抽樣獲得的樣本計算得到的估計值,對所有的估計值再計算方差而得到。但樣本方差是一個隨機變量,它隨不同的樣本而變動。MSE度量W離開θ的平均距離,依賴于方差和偏誤,利用MSE我們可以比較任何兩個估計量,即使其中之一或者兩者都是有偏誤的。(四)抽樣分布既然估計量是一個隨機變量,它就有相應(yīng)的分布規(guī)律,稱之為抽樣分布。b服從什么分布呢?如果我們假設(shè)3:由于均值相當(dāng)于隨機向量的一個函數(shù)(線性組合)。組合之后,均值仍然為隨機的,而且成為一個隨機變量。由于正態(tài)隨機變量的線性組合仍然服從正態(tài)分布。因此b也服從正態(tài)分布,正態(tài)分布由均值和方差確定,故估計量的抽樣分布下面的例題,首先生成一個均值為0,標(biāo)準(zhǔn)差為1的隨機誤差項,然后生成Y,再抽取8個樣本,計算其均值。重復(fù)上述程序1000次,得到1000個估計值,做這些估計值的直方圖,可以發(fā)現(xiàn),它服從正態(tài)分布。captprogdropsdprogsddrawnormu,n(8)clear//8個期望為10的正態(tài)隨機樣本gy=10+uregyend***將上述抽樣試驗進(jìn)行1000次,得到1000個均值和標(biāo)準(zhǔn)差simulate_b,reps(1000):sdsum//比較兩者的均值和標(biāo)準(zhǔn)差。tw(kdensity_b)(functiony=normalden(x,10,1/sqrt(8)),range(515))改變樣本容量為800,再進(jìn)行試驗,觀察估計量的收斂性。matau=invnorm(uniform(8,1000))y=10*+ub=C*ymean(b’)st_matrix(“b”,b)svmatbtw(kdensity_b)(functiony=normalden(x,10,1/sqrt(8)),range(515))(五)誤差方差的估計量及其分布是一個估計量,自然是一個隨機變量,那么這個隨機變量服從什么分布呢?clearcaptprogdropsdprogsddrawnormu,n(8)clear//8個期望為10的正態(tài)隨機樣本gy=10+uregyscalars=7*(e(rmse))^2end***將上述抽樣試驗進(jìn)行1000次,得到1000個均值和標(biāo)準(zhǔn)差simulates,reps(1000):sdtw(kdensity_s)(functiony=100*((chi2(7,x)-chi2(7,(x-0.01)))),rang(030))matau=invnorm(uniform(8,1000))y=10*+ub=C*ye=y-J*bs=e’est_matrix(“s”,s)svmatstw(kdensity_s)(functiony=chi(x,10,1/sqrt(8)),range(515))(六)F估計量(七)T估計量在上面的分布中,β和σ是未知的常參數(shù),因而仍然無法確定估計量b的具體分布。怎么辦呢?能否在σ未知的情況下得到某個具體的分布?辦法是構(gòu)造T值,T值是一個含有未知常參數(shù)β的估計量(因為b和S都是樣本的函數(shù)),而且T值的分布函數(shù)僅有樣本容量n唯一確定。注意到T值實際上也是樣本的一個函數(shù),然而當(dāng)總體服從正態(tài)分布時,T值成為一個僅與樣本容量有關(guān)的統(tǒng)計量。注意到上式中僅有一個未知常參數(shù)β,我們把這種統(tǒng)計量稱為樞柚量。四、區(qū)間估計區(qū)間估計的含義是:總體參數(shù)β(真值)被由樣本和置信水平構(gòu)造的區(qū)間覆蓋住的概率。根據(jù)一個樣本的觀察值給出總體參數(shù)的估計范圍,并給出總體參數(shù)落在這一區(qū)間的概率t分布僅有一個參數(shù),即樣本容量n,當(dāng)n的大小被確定,分布即被決定。隨機變量T落在(-∞,-t0.025)和(+t0.025,+∞)內(nèi)的概率為0.05,T落在(-t0.025,+t0.025)的概率為0.95。而T由n,b,S及β四個變量所決定。給定樣本,則n,b,S都是確定的,但樣本容量不變,而樣本變化,b和S會隨之變化,而β為未知參數(shù),但β落在下面區(qū)間的概率為0.95大致意思是如果隨機抽取樣本容量相同(均為n)的樣本很多很多次,每次都計算出相應(yīng)的S,b,代入上式計算出許許多多的區(qū)間,則所有區(qū)間中約有95%將包含總體參數(shù)β,有5個不包含β。真值約有95次穿過區(qū)間,但約有5次在區(qū)間兩個端點之外。對某一次抽樣來說,可信區(qū)間一旦形成,它要么包含總體參數(shù),要么不包含總體參數(shù),二者必居其一,無概率可言,因此所謂95%的可信度是針對可信區(qū)間的構(gòu)建方法而言的。區(qū)間估計與點估計不同,它尋求一個區(qū)間,該區(qū)間以一定的概率保證真正的總體參數(shù)值包含在其中,當(dāng)然,對于一個特定的樣本,它可能包含參數(shù)真值,也可能不包含。captprogdropbbprogbbdrawnormu,n(100)sds(10)dclear/*生成一個標(biāo)準(zhǔn)差o=10的正態(tài)隨機變量樣本,樣本容量為100*/gY=10+uquietlyregyend***將上述抽樣試驗進(jìn)行100次,得到100個樣本均值mean和標(biāo)準(zhǔn)誤simulate_b_se,reps(100)nodots:bbgn=_n*在總體方差未知的前提下,用樣本標(biāo)準(zhǔn)差sd替代,需要借助t統(tǒng)計量gtlow=_b-invttail(99,0.025)*_se/sqrt(100)gthigh=_b+invttail(99,0.025)*_se/sqrt(100)*考察總體均值是否在子樣本的95%置信區(qū)間內(nèi),如不在則標(biāo)記為1,否則為零gtsign=(tlow<5&thigh>5)*統(tǒng)計沒有包括總體均值的子樣本95%置信區(qū)間個數(shù)tabletsign*圖示twrcapsymthightlown,yline(5)||rcapsymthightlownifthigh<5|tlow>5在通常的研究中,我們只進(jìn)行一次抽樣,只構(gòu)造出一個區(qū)間,并推測這一個區(qū)間有95%的可能屬于包含總體參數(shù)的區(qū)間簇,有5%的可能屬于不包含總體參數(shù)的區(qū)間簇。五、假設(shè)檢驗真正的總體參數(shù)β是一個常數(shù),但具體等于多少,卻是未知的。我們假設(shè)總體參數(shù)等于一個值β0=10,然而這個值卻是我們假設(shè)出來的,它也是一個常數(shù)。然后我們抽取一個樣本,計算后得到一個估計值b,這個估計值b是一個隨機變量。注意區(qū)別三個值β、β0,b。原假設(shè)為β=β0,對立假設(shè)為β!=β0。也就是說,我們的假設(shè)值可能正好等于原總體的參數(shù)值,也可能不等。想一想,你能準(zhǔn)確猜測出真正的總體值嗎?另外,注意到在原假設(shè)與對立假設(shè)中,并不涉及到估計量。第一類錯誤:如果原假設(shè)正好成立,即原假設(shè)為真,則β=β0。然而即使我們做出了完全正確的假設(shè),我們也只抽得了一個樣本,從這一個樣本中估計得到了樣本均值,并進(jìn)一步得到了T值,這個T值可能落在發(fā)生概率非常?。?.5%)的兩個端點之外。這個小概率事件如果發(fā)生,我們就拒絕原假設(shè),認(rèn)為β!=β0,反之如果T值在95%的概率區(qū)間中間,則不能拒絕原假設(shè)。由于抽樣的偏誤,我們可能恰好在一次抽樣中得到一個過大或過小的T值,從而否定正確的原假設(shè),這種錯誤叫做棄真錯誤,但是在原假設(shè)為真的前提下,發(fā)生這種錯誤的可能性只有5%。第二類錯誤:由于原假設(shè)只是我們的一個假設(shè),我們并不真正知道總體參數(shù)的真實值,因此可能從一開始,我們的假設(shè)就錯誤了。由于這個錯誤的假設(shè),我們會犯取偽的錯誤。若顯著性水平為,當(dāng)真值的確為假設(shè)值時,就是作出正確判斷(即H0為真時接受H0,取真)的概率,此時有。而則為棄真的概率。而當(dāng)假設(shè)為錯誤,即真值不等于假設(shè)值時,為犯第II類錯誤(即原假設(shè)為誤,接受原假設(shè),取偽)的概率。則為作出正確判斷的概率(即原假設(shè)為假時,拒絕原假設(shè)的概率),又稱為檢驗的功效。以真值為橫軸,以為縱軸,可以得到一條曲線。這條曲線反映了當(dāng)假設(shè)值偏離真值時,檢驗的功效如何變動:當(dāng)參數(shù)的真值在假設(shè)值附近時,檢驗法的功效很低。犯第二類錯誤的概率很大。當(dāng)n趨于無窮時,曲線成為T形,此時,納偽的的概率為0,檢驗的功效達(dá)到最高100%。情形1:總體均值已知,為u=10。但我們假裝不知道,卻做出了對總體均值正確的原假設(shè),認(rèn)為它等于u0=10,則抽樣進(jìn)行假設(shè)檢驗如下drawnormx,n(100)m(10)sds(10)dclear*生成一個均值u=10,標(biāo)準(zhǔn)差o=10的正態(tài)隨機變量,作為研究總體quietlysumxdi"從樣本計算t統(tǒng)計值為:"(r(mean)-10)/(sqrt(100)*r(sd))di"根據(jù)t統(tǒng)計量臨界值為:"aserrorinvttail(99,0.025)diasresult"對這次實驗,拒絕還是接受?"由于我們通常只取一次樣,所以有可能碰巧得到的樣本正好是導(dǎo)致我們拒絕真的原假設(shè)的樣本。這時我們就會犯錯誤。然而,棄真錯誤的可能性比較小。在100次這樣的抽樣研究中,大概有5次左右。將上述試驗進(jìn)行100次,統(tǒng)計一下有多少次拒絕,多少次接受?captprogdropbbprogbbdrawnormx,n(100)m(10)sds(10)dclearquietlysumxscalarref=(abs(sqrt(100)*(r(mean)-10)/r(sd))>invttail(99,0.025))*如果樣本統(tǒng)計量(t)值大于臨界值,則拒絕原假設(shè)一次jud=1,否則為0endsimulateref,reps(100):bbtab_sim//其中的1表示在100次中拒絕原假設(shè)的次數(shù)。情形2:總體均值已知,為u=10。但我們假裝不知道,并做出了對總體均值錯誤的原假設(shè),如認(rèn)為它等于u0=5,則抽樣進(jìn)行假設(shè)檢驗如下captprogdropbbprogbbdrawnormx,n(100)m(10)sds(10)dclearquietlysumxscalarref=(abs(sqrt(100)*(r(mean)-5)/r(sd))>invttail(99,0.025))endsimulatejud,reps(100):bbtab_sim這時,我們100次地拒絕了原假設(shè),認(rèn)為原總體的均值不可能為5。drawnormu,n(100)sds(10)dcleargY=10+uregy顯著性:你和朋友來進(jìn)行橫跨西伯利亞的越野車比賽,一個月后,你以一秒之差擊敗他,顯然你不能吹噓自己比他快。你可能受助于某些東西,或者只是隨機因素使然,別無其他。那一秒不夠顯著,沒有辦法據(jù)此得出什么結(jié)論?!白孕熊囼T手A比B優(yōu)秀,因為他平常吃菠菜,而B吃豆腐,所在A在3000里的比賽中比B快了1秒”。六、計量模型的本質(zhì)案例4-5:我們生來就偏好因果關(guān)系我們生來不會把不同的事情獨立開來看待,觀察A和B兩件事時,我們很難不假設(shè)是A造成B、B造成A,或者兩者彼此影響。我們會立即在其間建立因果關(guān)系。在感情上拒絕一項假說比接受它更難(即所謂的第一類錯誤和第二類錯誤)。候讓以前常和索羅斯打網(wǎng)球,有個周末,索羅斯在談話中表示非??磯暮笫?,還講出一連串復(fù)雜的道理,索羅斯顯然在市場中做空。幾天后,市場激漲,頻創(chuàng)新高。候讓擔(dān)心索羅斯可能賠錢,下次打球時就問他是否有所損失,索羅斯說:“我們大賺了一票,我改變了主意,不但回補空頭頭寸,而且還建立起很大的多頭頭寸”。20世紀(jì)80年代末,索羅斯給候讓2000萬美金去投機,候讓借此創(chuàng)立了一家交易公司。幾天后,索羅斯與候讓在共進(jìn)午餐時聊到市場,索羅斯的態(tài)度變得相當(dāng)冷談。之后索羅斯把錢全部撤回,沒做任何解釋。索羅斯這種真正的投機者與別人不一樣的地方,在于他們?nèi)狈β窂揭蕾嚕耆皇苓^去行為的束縛,每一天都是一張白紙。要測試信念是否路徑依賴,有個簡單的方法。假設(shè)你擁有一幅畫,當(dāng)初是以2萬美金買進(jìn)的。由于藝術(shù)品市場欣欣向榮,現(xiàn)在這幅畫值4萬美金,如果你手頭上沒有這幅畫,你會依目前的市場價格買進(jìn)嗎。如果一連串的觀念都以第一個觀念馬首是瞻,我們便稱其有路徑依賴。(一)因果關(guān)系與計量經(jīng)濟學(xué)的任務(wù)人類對自己周圍的一切事物都充滿了好奇,孜孜不倦地探索和理解著這個神奇的世界??梢哉f,人類的認(rèn)識是一個逐步深化的過程。首先是概念的辨識,從紛紜復(fù)雜的大千世界中抽離出一些關(guān)鍵的概念,在明確其內(nèi)涵及外延的基礎(chǔ)上,使我們今天有了一個分類無比細(xì)致的世界,概念和名詞也因此多得要極厚的百科字典才能存載。比如性別是一個概念,年薪是一個概念,受教育年限是一個概念。而這些概念在數(shù)學(xué)公式中則被抽象為一些簡單的符號x、y、z。光有概念是遠(yuǎn)遠(yuǎn)不夠的,人們希望能夠?qū)ν粋€概念有更深入的把握,因此概念需要量化,比如性別有男有女,工資有高有低,教育有文盲到博士的區(qū)別。在數(shù)學(xué)中,便表現(xiàn)為x和y的不同取值,如x=1表示男,x=0表示女,y=10000表示年薪1萬元。有了不同的概念,也有了對各種概念在量和程度上的不同認(rèn)識,人們就希望能舉一反三,見一葉落而知天下秋。在這個探索過程中,函數(shù)是一個核心,它把多個變量聯(lián)系起來,使人可以由此及彼,見微知著;可能通過操控一些可控的變量來對不可控或難以直接操控的變量(往往目標(biāo))施加影響。比如未來的高收入是我們的目標(biāo),現(xiàn)在可以操控的是提高自己的能力和受教育水平,而受教育是要付出成本的,投入多少是最佳的呢?初中畢業(yè)?大學(xué)畢業(yè)?要不要上研究生?如果要做出定量的回答,顯然需要對于教育及教育回報的定量關(guān)系的深入認(rèn)識。這種探索在數(shù)學(xué)上表現(xiàn)為函數(shù)y=f(x)。有了函數(shù),人類的認(rèn)識就有了很大的飛躍,追尋因果關(guān)系也因此成為研究的最主要任務(wù),所謂因果關(guān)系探求,實質(zhì)上是想要明白f(x)究竟是怎樣的?打開f(x)這個黑匣子并不容易,純粹從理論上的工作屬于數(shù)量經(jīng)濟學(xué)的范疇,本文不再展開。我們僅假設(shè)有一個在理論上存在的函數(shù)關(guān)系:Y=f(x,β),其中β為常參數(shù)。函數(shù)關(guān)系Y=f(X,β)刻畫了Y如何伴隨著另一個變量X的變化而變化。假設(shè)x與y的關(guān)系是普遍存在的,但是在不同的環(huán)境條件下,β是不同的,在同樣的環(huán)境條件下β是真實存在的一個確定的常參數(shù)值?;貧w分析的任務(wù)就是通過在某個特定環(huán)境下收集數(shù)據(jù),獲得β的最接近的一個估計值。換言之,就是要得到計量經(jīng)濟學(xué)的總目標(biāo):得到一個最佳的估計量(估計量是一個函數(shù),是一個對樣本進(jìn)行運算的法則)。所謂最佳是針對這個法則而言的。這意味著,對于我們想探索的未知函數(shù)g(X,Y,|β)中的常參數(shù)而言,我們可以根據(jù)樣本得到最逼近β的估計值。估計量的最優(yōu)性質(zhì)在一系列的假設(shè)下得到,當(dāng)這些假設(shè)不成立時,相應(yīng)的特性也不成立,此時,需要退而求其次,獲得在放松后的條件下(通常更符合現(xiàn)實),更逼近未知常參數(shù)的估計值。(二)概率因果模式及計量模型的實質(zhì)借用大家都熟悉的物理學(xué)例子,炮彈以初速度x和與水平軸成θ角離開地面,從發(fā)射點到落點的距離為d,根據(jù)牛頓定律可以得到(1)這似乎是一個不受限制的滿足因果律的函數(shù)關(guān)系,其中g(shù)為常參數(shù),即重力加速度:固定發(fā)射角,給定一個初速度,就得到一個確定的距離。然后根據(jù)試驗得到的三個數(shù)據(jù)v,θ,d,我們就可以計算出重力加速度g=d/(v2sin2θ)然而實踐并非如此簡單,上述模型只是一個近似公式,是人類思維的發(fā)明,是一個理想化模型。這個理想化模型忽略了空氣阻力、氣壓變化以及初速度和發(fā)射角的不精確性。因此只能在一定限制條件下應(yīng)用,即忽略掉的諸因素在我們可以接受的范圍內(nèi),我們才可以放心地進(jìn)行這種簡化推測。但是無論無何,在現(xiàn)實中,我們通過某次實驗所計算出的g并不會正好等于9.8。同樣,如果做很多次實驗,根據(jù)每次的實驗結(jié)果來測算g,我們會得到許多不同的g。由于v和θ的不精確,以及炮彈在空氣中受到的擾動,在一次確定的發(fā)射中,測定的著彈點與發(fā)射點的距離記為di。這個di與按(1)式計算的理論結(jié)果必然存在不一致,換言之,單次實驗的結(jié)果看似確定的,但這種確定是事后的,事前它是不確定的,是隨機現(xiàn)象。因此,第i次實驗的事后結(jié)果可表達(dá)為:如果我們提出另外一個問題,既然單次實驗結(jié)果是隨機的,是事前不能確定的,當(dāng)我們用同一個大炮在同一地點打出許多有相同初速度和發(fā)射角的炮彈時(注意,這也只是理想化狀態(tài)),這些炮彈落入第j個洞的概率是多少?或者問,這些炮彈的落點到發(fā)射點的距離的測量均值是多少?則這一問題不再有因果答案,只能給出一個隨機性的解釋,表現(xiàn)為概率因果模式。在這種情況下,看似隨機的結(jié)果卻又表現(xiàn)出確定性,其確定性表現(xiàn)為:“如果試驗次數(shù)足夠多,平均特性具有高度的確定性”。因此,同一個問題既可用確定的因果方式也可用概率的方式進(jìn)行分析。有人可能會說,這本來就是個確定性的問題,盡管我們不知道,但炮彈總有其精確初速度和發(fā)射角,如果我們知道它,就能準(zhǔn)確知道它落入洞的位置,因此,我們之所以需要概率解釋是因為我們對一些因素的無知。對這一爭議的回答是:科學(xué)家并不關(guān)心什么是真實的,只關(guān)心什么是他們能夠觀測到的。這也是后現(xiàn)代關(guān)于真實的觀點。愛因斯坦說:“數(shù)學(xué)定律不能百分之百地確實地用在現(xiàn)實生活里,能百分之百確實地用數(shù)學(xué)定律描述的,就不是現(xiàn)實生活.”,如果我們接受,事實上我們必須接受,科學(xué)理論不是自然規(guī)律的發(fā)現(xiàn),而是人類思維的發(fā)明,那么,因果性和隨機之間,或者確定性和或然性之間是沒有抵觸的。由于Y=d在事前無法預(yù)測,因此它是隨機的。通常我們將X也視為隨機的(當(dāng)然在控制實驗中是非隨機的,但計量經(jīng)濟學(xué)處理的社會經(jīng)濟變量通常都是非試驗非可控的)。而模型的實質(zhì)是制約因變量Y與自變量X的聯(lián)合分布的集合。模型是滿足假定條件的聯(lián)合分布。在這一章中我們先假設(shè)X為非隨機的。令得到在上述模型中,X為非隨機變量,是事先給定的,u和y為隨機變量,其中y是可觀測的,而ε也為隨機變量,但是不可觀測的,β為未知常參數(shù),是我們想估計的未知參數(shù)。(三)模擬實驗現(xiàn)在,給定初速度vi,發(fā)射角θ,在同樣的條件下發(fā)射n次炮彈。每一次都會受到微小因素的干擾而產(chǎn)生誤差ui。這些誤差將服從某種分布,設(shè)其分布的密度函數(shù)為f(u|x=x0),因為則給定初速度x1和發(fā)射角θ,落點距離y1服從以x1和θ為條件的分布f(y|x1,θ)。如右圖如果初速度改變?yōu)閤k,保持發(fā)射角不變,得到不斷改變初速度,將得到若干y對應(yīng)于x的分布如圖。我們希望通過觀察(實驗)來確定出兩個常參數(shù),并獲得這個函數(shù)。于是,我們固定發(fā)射角做實驗,通過不斷改變初速度(改變10次,x=1-10),得到10000個數(shù)據(jù)(模擬數(shù)據(jù)bomb。并對每個x求y求條件均值E(d|v),得到下表。clearsetobs10000genx=int((_n-0.5)/1000)+1genu=9*invnorm(uniform())geny=x^2/9.8*sin(_pi/6)+utablex,c(meany)format(%5.2f)x
12345678910m(y|x).13.47.76.581.152.532.613.444.435.35下面,我們來做進(jìn)一步的模擬實驗。首先,作為一個基準(zhǔn),考慮一種最理想狀態(tài),當(dāng)發(fā)射角為45度,初速度?。?,10)之間的正整數(shù),沒有測量誤差,重力加速度恒定,空氣阻力等炮彈飛行中的擾動產(chǎn)生的條件誤差服從均值為零,方差為0.09的正態(tài)分布,于是可以根據(jù)牛頓定律,可生成一個總體如下。七、古典線性回歸模型(一)期望與方差先把X看做是非隨機的,則X為一個固定的常矩陣,這種情形通常在設(shè)計實驗中出現(xiàn),比如第一塊地施1kg化肥,第二塊實驗地施2kg化肥,…。當(dāng)X為固定的常數(shù)矩陣時,也為一矩陣,不妨設(shè)為因此有clearmatau=invnormal(uniform(1,8))uniformseed(1)//生成偽隨機變量的種子X=uniform(2,8)beta=(2,10)y=X*beta:+uC=invsym(X’X)X’b=C*y可見b為一隨機向量,其期望為要使b為無偏估計量,則必須滿足條件Eu=0,即隨機向量b的方差陣為顯然,要獲得b的方差陣,必須首先假定誤差u的方差,在一個非常嚴(yán)格的假設(shè),即誤差兩兩不相關(guān),而且同方差的條件下,有(二)估計量的分布僅假設(shè)誤差的期望和方差還無法確定最小二乘估計量b的分布,要獲得其分布,必須對誤差的分布做出假設(shè)(即限制條件),當(dāng)誤差向量服從正態(tài)分布,并且前述的期望和方差假設(shè)也成立時,因為正態(tài)分布由期望和方差確定,并且正態(tài)隨機向量的線性組合仍然服從正態(tài)分布,因此隨機向量b也服從如下的正態(tài)分布:由于正態(tài)分布具有斷尾性,因此服從正態(tài)分布的隨機向量,其任意一個元素也服從正態(tài)分布,(三)t統(tǒng)計量與T檢驗根據(jù)點估計的值,可以計算出Y的擬合值將觀察值與擬合值相減,得到的值定義為殘差e(注意與誤差相區(qū)別),即因為M為確定的常矩陣,My是樣本的線性組合,因此e實際上也是一個估計量,進(jìn)一步,我們將殘差的平方和除以一個常參數(shù)σ2,得到顯然,上式也是一個估計量,可以證明,該估計量服從自由度為n-k的卡方分布。證明:證明非常簡單,因為由于bj服從均值為βj的正態(tài)分布,根據(jù)t分布的定義,可以得到(四)F統(tǒng)計量與F檢驗在上述估計量中,只有一個唯一的未知常參數(shù)βj,而相應(yīng)的t分布卻是唯一確定的,因此可以構(gòu)造出置信區(qū)間,該置信區(qū)間將以一定的可能性能夠?qū)⑽粗?shù)覆蓋在內(nèi)。如果我們假設(shè)模型沒有任何解釋力,即所有的β=0,則可以利用F檢驗,推理如下:從X為非隨機變量到X為隨機變量,只需要將X視為條件,反復(fù)運用重期望定理即可得到上述結(jié)論。附:矩估計與極大似然估計(一)矩估計矩法的核心思想:總體矩=樣本矩總體矩,如正態(tài)分布的總體一階原點矩為u,二階中心矩為σ2,二點分布的期望為p,泊松分布的期望為λ??傮w矩由隨機變量的取值及其對應(yīng)的概率PDF加權(quán)求和得到。樣本矩,對于IID,均值對應(yīng)于一階原點矩。由于是IID,而且是簡單隨機抽樣,因此,概率高的取值被抽中的可能性高,概率低的被抽中的可能性低,而且其頻率近似等于其概率,因此對樣本取值依頻率加權(quán)求和得到的結(jié)果,就近似等于期望。^u=-x。另一方面,樣本值的經(jīng)驗分布EDF是CDF的一致估計,因此,總體矩=樣本矩。EDF是隨機變量X的CDF的一致估計。當(dāng)xi獨立同分布時,由于隨機變量Y=I(Xi<x)的期望為F(x),因此,正好為Y的均值,服從大數(shù)定理,所以是F(x)的一致估計量。矩法估計當(dāng)然不限于期望=樣本均值,相應(yīng)地還有總體方差=樣本方差;總體K階原點矩=樣本K階原點矩;總體K階中心矩=樣本K階中心矩利用矩法估計總體參數(shù)時不需要知道總體的PDF或CDF,只需要知道用未知參數(shù)表達(dá)的總體矩即可,因此具有更廣泛的運用性。矩法的一般步驟:從總體矩入手將待估參數(shù)表示成總體矩的函數(shù)θ=g(EX,Var(X))。用樣本矩m和s分別替換g中的總體矩EX=m,Var(X)=s,則估計值θ*=g(EX,var(X))=g(m,s)=g(x1,x2,…,xn)假設(shè)1:(二)極大似然估計已知分布類型,不知分布參數(shù)。例:遇到三個人,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版城市物流配送承包合同3篇
- 電子產(chǎn)品制造安全用品規(guī)定
- 2025個人租房合同范本標(biāo)準(zhǔn)版
- 食品安全廚師聘用合同模板
- 乙供物資供應(yīng)商質(zhì)量管理體系
- 2025版商鋪轉(zhuǎn)租與新能源技術(shù)應(yīng)用合同范本3篇
- 2025版風(fēng)電項目用地租賃合同3篇
- 2025版蟲草保健品原料供應(yīng)合同2篇
- 2025版冷鏈物流快遞業(yè)務(wù)承包管理合同3篇
- 2024年貨物買賣合同標(biāo)的及權(quán)益說明
- 國有土地上房屋裝修備案申請表
- 遼寧盤錦浩業(yè)化工“1.15”泄漏爆炸著火事故
- 紅黃綠白黑五色食物巧選擇紅黃綠白黑五色健康法
- 辦公樓裝修工程難點、重點分析及對策
- 動物行為學(xué)論文(無刪減范文8篇),動物學(xué)論文
- 社會工作理論復(fù)習(xí)資料
- 某市自來水廠工藝設(shè)計
- 2023年公務(wù)員體檢表
- GB/T 9115-2010對焊鋼制管法蘭
- GB/T 20882.2-2021淀粉糖質(zhì)量要求第2部分:葡萄糖漿(粉)
- 西南林業(yè)大學(xué)宿舍樓環(huán)評報告
評論
0/150
提交評論