社會(huì)統(tǒng)計(jì)學(xué)12回歸分析_第1頁(yè)
社會(huì)統(tǒng)計(jì)學(xué)12回歸分析_第2頁(yè)
社會(huì)統(tǒng)計(jì)學(xué)12回歸分析_第3頁(yè)
社會(huì)統(tǒng)計(jì)學(xué)12回歸分析_第4頁(yè)
社會(huì)統(tǒng)計(jì)學(xué)12回歸分析_第5頁(yè)
已閱讀5頁(yè),還剩32頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第12講

回歸分析(2)問(wèn)題:如何走出經(jīng)濟(jì)學(xué)研究的怪圈?經(jīng)濟(jì)學(xué)的研究一般都是用面板數(shù)據(jù)來(lái)對(duì)過(guò)去的事情進(jìn)行分析,試圖尋找一種趨勢(shì),拋開(kāi)純理論研究不談,實(shí)證分析中往往都是不斷地嘗試各種數(shù)據(jù)變量組合來(lái)得到自己想要的擬合最好的回歸方程。但是這樣得到的結(jié)果真的是反映了真實(shí)情況么?而且同樣的數(shù)據(jù)變換了方法得到的答案可能是截然相反的。2

數(shù)據(jù)分析能幫助你接近事實(shí),但并不是事實(shí)本身。每一次回歸,你看到的結(jié)果只是數(shù)據(jù)空間上的一個(gè)投影——在數(shù)十萬(wàn)條數(shù)據(jù)中投影出一條向量,你省略掉的信息比你得到的信息多得多。

每一個(gè)回歸方程,背后都是截然不同的假設(shè)。在回歸之前,先討論它背后的假設(shè),不僅是計(jì)量上的假設(shè),比如什么樣的分布,異質(zhì)性怎么處理,內(nèi)生性強(qiáng)不強(qiáng),數(shù)據(jù)結(jié)構(gòu)是不是合適回歸方程;更包括你要驗(yàn)證的理論的運(yùn)行機(jī)制所需要的假設(shè),每一步都要仔細(xì)推敲。3

每個(gè)真相都是局部的真相??此葡嗷ッ艿慕Y(jié)論,其適用范圍必定不相同。這個(gè)適用范圍包括數(shù)據(jù)和不同的假設(shè)。一個(gè)嚴(yán)謹(jǐn)?shù)慕?jīng)濟(jì)學(xué)研究,不會(huì)試圖聲明自己是一個(gè)包容宇宙萬(wàn)物的理論,這些理論的適用范圍只存在于抽取樣本的群體中,都屬于局部的真相。在城市顯著的結(jié)論,在農(nóng)村可能不顯著;十年以前被驗(yàn)證的理論,在現(xiàn)在可能就會(huì)被推翻……要么找到造成不同的原因,要么就老老實(shí)實(shí)地聲明自己的結(jié)論的適用性限于哪里。如果真的在某個(gè)局部上,在同一種假設(shè)下出現(xiàn)了兩個(gè)矛盾的結(jié)論,那其中肯定有一個(gè)是錯(cuò)的,甚至可能兩個(gè)結(jié)論都是錯(cuò)的。4本講概要1)多元線性回歸分析概述2)多元線性回歸分析中的變量性質(zhì)3)多元線性回歸方程中的參數(shù)估計(jì)4)多元線性回歸模型的統(tǒng)計(jì)檢驗(yàn)51.多元線性回歸分析概述多元線性回歸分析是一元線性回歸分析的拓展,它將多個(gè)解釋變量(自變量)納入回歸模型,能夠揭示被解釋變量(因變量)與多個(gè)解釋變量之間的線性關(guān)系。其基本原理是,通過(guò)控制其他因素不變,探討某個(gè)解釋變量與被解釋變量之間的獨(dú)立關(guān)系。由于在現(xiàn)實(shí)生活中,任何一個(gè)事物總是受到多種因素的影響,而多元線性回歸分析能夠比較完整地揭示事物之間的真正聯(lián)系,因此有著更為廣泛的應(yīng)用。6多元線性回歸模型的基本形式:

7

8

9

多元線性回歸分析的前提假定

102.多元線性回歸分析中的變量性質(zhì)

因變量y必須為定距變量若y為分類變量(包括定類和定序變量),則需要使用邏輯回歸的方法(LogisticRegression);

自變量x可以是定距變量或分類變量但是,如果x是分類變量,必須首先將其轉(zhuǎn)變成“虛擬變量(DummyVariable)”,才能進(jìn)行回歸分析。11虛擬變量由于分類變量的數(shù)值編碼不具有任何數(shù)量上的意義,而只代表類別之間的差異,因此,在回歸分析中是不能直接作為自變量納入回歸模型的。但是,我們可以先將分類變量轉(zhuǎn)換成一組相應(yīng)的虛擬變量,然后將這些虛擬變量納入回歸模型,從而達(dá)到在回歸分析中以分類變量作為自變量的目的,并進(jìn)而識(shí)別因變量中存在的群體間差異以及自變量對(duì)因變量效應(yīng)上的群體間差異。12簡(jiǎn)單地說(shuō),虛擬變量(也被稱為啞變量)是一種對(duì)分類變量各分類進(jìn)行重新編碼從而讓它們能在回歸方程中作為自變量的方式。它將某一初始分類變量重新建構(gòu),從而得到一個(gè)或多個(gè)二分變量。一般而言,當(dāng)某個(gè)樣本觀察值屬于分類變量的某個(gè)類別時(shí),表征這個(gè)類別的虛擬變量就被賦值為1,否則便賦值為0。例:性別(x1=1女性;x2=0男性/非女性)13一般而言,對(duì)于包含k個(gè)類別的分類變量,可以得到相對(duì)應(yīng)的k個(gè)虛擬變量,但是,回歸分析中所需要的虛擬變量只能是其中的k-1個(gè)。也就是說(shuō),在納入模型時(shí),必須將這k個(gè)虛擬變量中的某一個(gè)保留在模型之外。這樣做的原因主要是為了避免完全多重共線性問(wèn)題。由于任何一個(gè)樣本觀察值屬于且僅屬于分類變量的某一個(gè)類別,被取消的那個(gè)(假設(shè)是第k個(gè))類別的信息完全可以由表示其他k-1個(gè)分類的虛擬變量聯(lián)合表達(dá);所以,如果將k個(gè)虛擬變量全部納入模型,勢(shì)必存在完全多重共線性問(wèn)題。14設(shè)置虛擬變量的實(shí)例通常,被排除出回歸模型的那個(gè)虛擬變量所對(duì)應(yīng)的類別(即所有虛擬變量取值全部為0的類別)叫參照組。15編號(hào)原變量值虛擬變量值genderedugirlD1D2D3114100122300103111000414100152201001女2男1小學(xué)及以下2初中3高中4大學(xué)及以上虛擬變量回歸系數(shù)的解釋

16②自變量中包含一個(gè)虛擬變量和一個(gè)連續(xù)變量的情況在這種情況下,虛擬變量所表示的兩個(gè)人群的回歸擬合直線就成為兩條斜率相同但截距不同的平行線。虛擬變量的回歸系數(shù)就代表兩條平行線之間的垂直距離,也就是兩條回歸直線在截距上的差距。1718

③自變量包含兩個(gè)或多個(gè)虛擬變量的情況

19203.多元線性回歸方程中的參數(shù)估計(jì)

21

22

4.多元線性回歸模型的統(tǒng)計(jì)檢驗(yàn)①多元線性回歸方程的擬合優(yōu)度檢驗(yàn)在多元線性回歸分析中,調(diào)整的決定系數(shù)(Adj-R2)比決定系數(shù)(R2)更能準(zhǔn)確地反映回歸方程對(duì)樣本數(shù)據(jù)的擬合程度。其原因:1)自變量增多時(shí),剩余平方和必然減少進(jìn)而導(dǎo)致R2增大;2)通過(guò)比較Adj-R2還能判定增加的自變量是否對(duì)因變量具有顯著性貢獻(xiàn)。23和一元線性回歸模型中一樣,0≤R2

≤1R2代表回歸模型的解釋能力,也就是所有自變量xi的整體解釋能力(解釋因變量y變異的百分比)。24②多元線性回歸方程的顯著性檢驗(yàn)

2526F檢驗(yàn)的結(jié)果顯示,回歸方程具有統(tǒng)計(jì)顯著性(F=92.19,p=0.00),也就是說(shuō),回歸方程中至少有一個(gè)自變量與因變量之間存在顯著的線性關(guān)系,可以建立線性回歸模型。根據(jù)上述結(jié)果,回歸方程調(diào)整后的R2等于0.1302,該值并不是特別大,因此,模型的擬合優(yōu)度并不是特別理想,僅僅使用受訪者的教育程度和收入只能解釋因變量(家務(wù)勞動(dòng)時(shí)間)較少的部分?;貧w方程顯著性檢驗(yàn)擬合優(yōu)度檢驗(yàn)③回歸系數(shù)的顯著性檢驗(yàn)

27

28④多重共線性的檢驗(yàn)當(dāng)自變量之間存在某種顯著的線性關(guān)系或高度相關(guān)的時(shí)候,就會(huì)出現(xiàn)多重共線性問(wèn)題。如果回歸模型中存在多重共線性問(wèn)題,可以造成參數(shù)的估計(jì)值嚴(yán)重偏離實(shí)際值,進(jìn)而出現(xiàn)回歸方程總體顯著但是各回歸系數(shù)卻普遍不顯著的情況。2930

3)檢查統(tǒng)計(jì)量的顯著性:模型的決定系R2數(shù)值很大,但沒(méi)有幾個(gè)顯著的t統(tǒng)計(jì)量,或F統(tǒng)計(jì)量高度顯著,而每個(gè)t統(tǒng)計(jì)量都不顯著,就說(shuō)明存在明顯的多重共線性。3132回歸模型方差膨脹因子的計(jì)算結(jié)果:從中可以看出,自變量weight的VIF大于10,平均的VIF為7.11,明顯大于1,因此可以認(rèn)為存在較為嚴(yán)重的多重共線性問(wèn)題,回歸模型的建立是有問(wèn)題的。33模型中各變量的相關(guān)系數(shù)矩陣34多重共線性問(wèn)題的處理:(1)增大樣本規(guī)模;(2)使用逐步回歸的方法,逐個(gè)引進(jìn)自變量;(3)使用主成分回歸的方法,將彼此之間存在相關(guān)性的變量綜合成較少的幾個(gè)變量。35⑤模型的殘差分析與一元線性回歸分析一樣,多元線性回歸模型也要進(jìn)行殘差分析,以滿足前

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論