版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、多元回歸分析multiple regression analysis y = b0 + b1x1 + b2x2 + . . . bkxk + u 4.進(jìn)一步的問題本章大綱n數(shù)據(jù)的測度單位換算對ols統(tǒng)計量的影響n對函數(shù)形式的進(jìn)一步討論n擬合優(yōu)度和回歸元選擇的進(jìn)一步探討n預(yù)測和殘差分析課堂提綱n重新定義變量的影響n估計系數(shù)nr 平方nt 統(tǒng)計量n函數(shù)形式n對數(shù)函數(shù)形式n含二次式的模型n含交叉項(xiàng)的模型重新定義變量n為什么我們想這樣做?n數(shù)據(jù)測度單位變換經(jīng)常被用于減少被估參數(shù)小數(shù)點(diǎn)后的零的個數(shù),這樣結(jié)果更好看一些。n既然這樣做主要為了好看,我們希望本質(zhì)的東西不改變。重新定義變量:一個例子n以下模型反
2、映了嬰兒出生體重與孕婦吸煙量和家庭收入之間的關(guān)系:(1)n考慮如下單位變換:(2) 出生體重單位由盎司變?yōu)榘?3) 香煙的支數(shù)變?yōu)榘鼣?shù)n估計結(jié)果列于下表012minbwghtcigsfacbbbtable 6.1y (column) (1) bwght(2)bwghtlbs(3) bwghtx (rows)cigs-0.4634 (0.0916)-0.0289 (0.0057)-packs-9.268 (1.832)faminc0.0927 (0.0292)0.0058 (0.0018)0.0927(0.0292)intercept116.794 (1.049)7.3109 (0.0656)1
3、16.974(1.049)observations138813881388r-squared0.02980.02980.0298ssr557,485.512177.5778557.485.51ser20.0631.253920.063改變被解釋變量測度單位的影響n因?yàn)?磅16盎司,被解釋變量被除以16。n比較第1列與第2列。n(1)中被估參數(shù)/16 (2)中被估參數(shù)n(1)中被估參數(shù)的標(biāo)準(zhǔn)差/16 (2)中被估參數(shù)的標(biāo)準(zhǔn)差n(1)和(2)中 t 統(tǒng)計量相同nr平方相同n(1)中ssr/(16*16) (2)中ssrn(1)中ser(標(biāo)準(zhǔn)差)/16 (2)中ser012/16/16(/16)(/
4、16)minbwghtcigsfacbbb改變解釋變量測度單位的影響n現(xiàn)在香煙數(shù)量單位變?yōu)榘?。n現(xiàn)在比較 第(1)列和第(3)列。n變量faminc系數(shù)和截距項(xiàng)的估計值和其標(biāo)準(zhǔn)差分析同上。npacks的系數(shù)估計值和標(biāo)準(zhǔn)差變?yōu)?0倍。nt 統(tǒng)計量相同nr平方相同nssr相同nser相同012(*20)(/20)minbwghtcigsfacbbb重新定義變量n改變變量y的測度單位會導(dǎo)致系數(shù)和標(biāo)準(zhǔn)差相應(yīng)的改變,所以解釋變量系數(shù)顯著性和對其解釋沒有改變。n改變一個變量x的測度單位會導(dǎo)致該變量系數(shù)和標(biāo)準(zhǔn)差的相應(yīng)改變,所以所有解釋變量顯著性和對其解釋沒有改變。n如果被解釋變量以對數(shù)形式出現(xiàn),改變被解釋變
5、量度量單位對任何斜率系數(shù)沒有影響。n來自log(cy)=log(c)+log(y),改變y測度單位將改變截距,不改變斜率系數(shù)。beta系數(shù)n考慮如下形式的樣本回歸方程:=200+20,000 x1 +0.2x2n我們能說x1是最重要的變量嗎?n現(xiàn)在,查看以下各個變量的單位:ny單位:美元nx1單位:美分nx2單位:千美元beta系數(shù)n上例揭示了什么問題?n被估計系數(shù)的大小是不可比較的。n一個相關(guān)的問題是,當(dāng)變量大小差別過大時,在回歸中因運(yùn)算近似而導(dǎo)致的誤差會比較大。beta系數(shù)n有時,我們會看見“標(biāo)準(zhǔn)化系數(shù)”或“beta系數(shù)”,這些名稱有著特殊的意義n使用beta系數(shù)是因?yàn)橛袝r我們把y和各個x
6、替換為標(biāo)準(zhǔn)化版本也就是,減去均值后除以標(biāo)準(zhǔn)離差。n系數(shù)反映對于一單位x的標(biāo)準(zhǔn)離差的y的標(biāo)準(zhǔn)離差。beta系數(shù)j12k01 12 2yxy1 x2 xx., zz zzz.z(2)jikkijjiiiyxyjkjjyxxxxxyyyxzzbbbbbbbbb樣本回歸方程的標(biāo)準(zhǔn)形式是標(biāo)準(zhǔn)化和 ,?,F(xiàn)在將 向回歸得到注意沒有截距項(xiàng)現(xiàn)在,與的關(guān)系如何?beta系數(shù)1122121212.,1,2,.,iiikikkkyyyykjjjyjijijyyxxxxxxbjkbxybbbbbb可以看到令傳統(tǒng)上被稱為標(biāo)準(zhǔn)化系數(shù)或 系數(shù)。意思是,如果 改變一單位標(biāo)準(zhǔn)離差,則 改變單位標(biāo)準(zhǔn)離差。例子 ustratiodi
7、stroomscrimenoxprice543210bbbbbbzstratiozdistzroomszcrimeznoxceizpr270. 0235. 0514. 0143. 0340. 0函數(shù)形式nols也可以用在x和y不是嚴(yán)格線性的情況,通過使用非線性方程,使得關(guān)于參數(shù)仍為線性。n可以取x,y(一個或全部)的自然對數(shù)n可以用x的平方形式n可以用x的交叉項(xiàng)對數(shù)模型的解釋n如果模型是 ln(y) = b0 + b1ln(x) + unb1是y對于x的彈性n如果模型是ln(y) = b0 + b1x + unb1近似是,給定一單位x的改變,y的百分比變化,常被稱為半彈性。為什么使用對數(shù)模型?
8、n取對數(shù)后變量的斜率系數(shù),不隨變量測度單位改變。n如果回歸元和回歸子都取對數(shù)形式,斜率系數(shù)給出對彈性的一個直接估計。n對于y0的模型,條件分布經(jīng)常偏斜或存在異方差,而ln(y)就小多了,所以nln(y)的分布窄多了,限制了異常(或極端)觀測值(outliers)的影響。一些經(jīng)驗(yàn)法則n什么類型的變量經(jīng)常用對數(shù)形式?n肯定為正的錢數(shù):工資,薪水,企業(yè)銷售額和企業(yè)市值。n非常大的變量:如人口,雇員總數(shù)和學(xué)校注冊人數(shù)等。n什么類型的變量經(jīng)常用水平值形式?n用年測量的變量:如教育年限,工作經(jīng)歷,任期年限和年齡n可以以水平值或?qū)?shù)形式出現(xiàn)的變量:n比例或百分比變量:失業(yè)率,養(yǎng)老保險金參與率等。對數(shù)形式的限
9、制n一個變量取零或負(fù)值,則不能使用對數(shù)。n如果y非負(fù)但可以取零,則有時使用log(1+y)。n當(dāng)數(shù)據(jù)并非多數(shù)為零時,使用log(1+y) 估計,并且假定變量為log(y),解釋所得的估計值,是可以接受的。慎重使用對數(shù)形式n注意到,當(dāng)y取對數(shù)形式時,更難以預(yù)測原變量的值,因?yàn)樵P驮试S我們預(yù)測log(y)而不是y。01 1111111log( ).1log( )% exp( log( ) 1 100*(exp() 1) yxxyyxyyyyxybbbbb 考慮如果我們想知道時, 的百分比變化,我們不能只報告 ,因?yàn)?,所以含二次式的模型n對于形式為y = b0 + b1x + b2x2 + u的模
10、型,我們不能單獨(dú)將b1解釋為關(guān)于x,y變化的度量,我們需要將b2也考慮進(jìn)來,因?yàn)?0121212(1) (2) 2, so(3) 2yxxyxxyxxbbbbbbb n如果感興趣的是,給定x的初始值和變動,預(yù)測y的變化,那么可以直接使用(1)。n一般來說,我們可以使用x的平均值,中值,或上下四分位數(shù)來預(yù)測y,取決于我們感興趣的問題。含二次式的模型122(0.35)(0.041)(0.0009)01 ,所以調(diào)整過的r2總比r2小。n加入一個解釋變量有兩個相反的效果。(1)ssr降低導(dǎo)致調(diào)整過的r2增加。(2) (n-1)/(n-k-1) 增加導(dǎo)致調(diào)整過的r2降低。n調(diào)整過的r2可能是負(fù)的,發(fā)生在
11、以下情況:所有解釋變量使殘差平方和下降的太少,不足以抵消因子(n-1)/(n-k-1)。n r2只有在過原點(diǎn)回歸中才可能為負(fù)。比較r2和adjusted r2nr2和調(diào)整過的r2告訴我們,解釋變量是否很好地預(yù)測了,或“解釋”了,手頭數(shù)據(jù)中被解釋變量的值。nr2和調(diào)整過的r2并沒有告訴我們n被包含變量是否統(tǒng)計顯著n解釋變量是否是被解釋變量變動的真正原因n是否有遺漏變量偏誤,或n是否選取了最合適的解釋變量組合r2和adjusted r2 n在決定某個變量是否應(yīng)該被加入模型時,r2和adjusted r2并非理想的工具。n決定一個解釋變量是否屬于模型的因素應(yīng)該是,該解釋變量在總體中對y的局部效應(yīng)是否
12、為零。擬合優(yōu)度和解釋變量選擇的進(jìn)一步探討擬合優(yōu)度和解釋變量選擇的進(jìn)一步探討nadjusted r-squared2/11/ssrssr nrsstsst n 2/(1)111/(1)1ssrnkssrnrsstnsst nk 2211 (1)1nrrnk n我們定義總體r2為:y的變異在總體中能被解釋變量解釋的比例,為n調(diào)整過的r2仍不是總體r2的一個無偏估計量,因?yàn)閮蓚€無偏估計量的比例不是一個無偏估計量。221/.uy擬合優(yōu)度和解釋變量選擇的進(jìn)一步探討擬合優(yōu)度和解釋變量選擇的進(jìn)一步探討n調(diào)整過的r2最根本的吸引力,在于它對向模型增加自變量的懲罰。n如果我們向回歸模型加入一個新的解釋變量,當(dāng)且
13、僅當(dāng)新變量的t統(tǒng)計量的絕對值大于1時,調(diào)整過的r2增加。擬合優(yōu)度和解釋變量選擇的進(jìn)一步探討擬合優(yōu)度和解釋變量選擇的進(jìn)一步探討利用調(diào)整的r2在兩個非嵌套模型中進(jìn)行選擇n如果兩個模型中任何一個都不是另一個的特例,則兩個模型是非嵌套的。nf統(tǒng)計量只允許我們檢驗(yàn)嵌套的模型,因?yàn)橛邢拗频哪P褪菬o限制模型的特例。n我們需要一些在無嵌套模型間進(jìn)行選擇的指導(dǎo)。n當(dāng)變量有不同函數(shù)形式時,通過比較調(diào)整過的r2 ,在不同的解釋變量的非嵌套組合中進(jìn)行選擇,是頗有價值的。n例如,一個模型是y= b0 + b1x1 + b2log(x2 ) ,另一個是y= b0 + b1x1 +b2 x2+b3 x22 。如果第一個模型
14、調(diào)整過的r平方為0.3,而第二個為0.6,我們傾向于選擇第二個模型利用調(diào)整的r2在兩個非嵌套模型中進(jìn)行選擇n 調(diào)整過的r2的限制:我們不能利用它在關(guān)于因變量函數(shù)形式不同的模型間進(jìn)行選擇利用調(diào)整的r2在兩個非嵌套模型中進(jìn)行選擇預(yù)測分析:估計量01 112001 11001 1.c ,.,.( |,.,).kkkkkkkkyxxcccce y ccccbbbbbbbbb設(shè)想我們有估計方程 。我們將自變量的具體數(shù)值代入其中時,得到y(tǒng)的一個預(yù)測值。例如,令分別代表k個自變量中每一個的具體值,想要估計的參數(shù):。它的估計量是。0001 101110.().()kkkkkccyxcxcubbbbb如何得到
15、的標(biāo)準(zhǔn)誤差?本質(zhì)上講,這是一個尋找ols估計量的線性組合的標(biāo)準(zhǔn)誤差的問題。因?yàn)?,我們可以得到 。的標(biāo)準(zhǔn)誤差就是新的回歸截距項(xiàng)的標(biāo)準(zhǔn)誤差。預(yù)測分析:標(biāo)準(zhǔn)差預(yù)測分析:置信區(qū)間00000*( ), *( )c sec sec在得到估計量和相應(yīng)的標(biāo)準(zhǔn)誤之后,下一步比較直接的是估計 的置信區(qū)間:,其中 是給定顯著性水平的臨界值。預(yù)測分析:一個特殊y的置信區(qū)間0 10(|,.)ke y xxy我們剛剛定義,因此,我們可以為y的平均值建立一個置信區(qū)間。如何為總體中的一個特定的值, 建立置信區(qū)間呢?需要考慮進(jìn)不可觀察誤差的變化。預(yù)測分析: y0的預(yù)測區(qū)間10 000010000yo ls y.,ey .e
16、(e )0kkxxybbb令的回 歸 線 為則 , 預(yù) 測 誤 差 為 ,容 易 證 明。000020000v(e )(y )()(y )y*(e ),y*(e )vv uvc sec se我們也可以證明?,F(xiàn)在預(yù)測區(qū)間為。預(yù)測分析: y0的預(yù)測區(qū)間10 000010000yo ls y.,ey .e (e )0kkxxybbb令的回 歸 線 為則 , 預(yù) 測 誤 差 為 ,容 易 證 明。n有時,檢驗(yàn)個體觀測值來看它的因變量高于還是低于預(yù)測值是有用的。n也就是,檢驗(yàn)個體觀測值的殘差。殘差分析殘差分析n例:將房價對一些可觀測特點(diǎn)回歸,得預(yù)測值,算出殘差。殘差為負(fù)則說明根據(jù)可觀測因素房價偏低。負(fù)的
17、程度最大值的大小說明我們還沒有控制因素的重要程度??蔀楦闹到㈩A(yù)測區(qū)間。 y = b0 + b1x1 + b2x2 + . . . bkxk + u 5. dummy variables虛擬變量n 虛擬變量是一個取值為1或0的變量。n例: male (= 1 if are male, 0 otherwise), south (= 1 if in the south, 0 otherwise), etc.n虛變量也稱二值變量。虛擬變量n考慮只有一個解釋變量(x)和一個虛擬變量(d)的簡單模型。n y = b0 + d0d + b1x + un 該模型可以看做是一個截距的變化。this can be interpreted as an intercept shiftn若d = 0, 則 y = b0 + b1x + un 若 d = 1, 則y = (b0 + d0) + b1x + und = 0組為基組。example of d0 0 xyd0b0y = (b0 + d0) + b1xy = b0 + b1xslope = b1d = 0d = 1例1 日本1985-1995年水稻產(chǎn)量與耕種面積的變化 年份產(chǎn)量(10萬噸)y耕種面積(萬公頃)x19851162321986116228198710621219889920919891032081990105206199196203
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 麻雀主題課程設(shè)計意圖
- 連接板沖壓課程設(shè)計
- 算法與計算方法課程設(shè)計
- 2024年學(xué)校安全工作應(yīng)急預(yù)案
- 2024年一年級語文上全冊各單元測試題分解
- 年度其它新型計算機(jī)外圍設(shè)備戰(zhàn)略市場規(guī)劃報告
- 年度碳纖維預(yù)浸布市場分析及競爭策略分析報告
- 2025年度專業(yè)打印紙銷售渠道建設(shè)合同4篇
- 2025年度新能源項(xiàng)目出借咨詢及項(xiàng)目管理協(xié)議4篇
- 2025年新型門窗安裝工程承包合同4篇
- 吸入療法在呼吸康復(fù)應(yīng)用中的中國專家共識2022版
- 1-35kV電纜技術(shù)參數(shù)表
- 信息科技課程標(biāo)準(zhǔn)測(2022版)考試題庫及答案
- 施工組織設(shè)計方案針對性、完整性
- 2002版干部履歷表(貴州省)
- DL∕T 1909-2018 -48V電力通信直流電源系統(tǒng)技術(shù)規(guī)范
- 2024年服裝制版師(高級)職業(yè)鑒定考試復(fù)習(xí)題庫(含答案)
- 門診部縮短就診等候時間PDCA案例-課件
- 第21課《鄒忌諷齊王納諫》對比閱讀 部編版語文九年級下冊
- NB-T32042-2018光伏發(fā)電工程建設(shè)監(jiān)理規(guī)范
評論
0/150
提交評論