![第10講-回歸分析_第1頁(yè)](http://file4.renrendoc.com/view/d21ac875d9d15ab31f06216fd6beb42c/d21ac875d9d15ab31f06216fd6beb42c1.gif)
![第10講-回歸分析_第2頁(yè)](http://file4.renrendoc.com/view/d21ac875d9d15ab31f06216fd6beb42c/d21ac875d9d15ab31f06216fd6beb42c2.gif)
![第10講-回歸分析_第3頁(yè)](http://file4.renrendoc.com/view/d21ac875d9d15ab31f06216fd6beb42c/d21ac875d9d15ab31f06216fd6beb42c3.gif)
![第10講-回歸分析_第4頁(yè)](http://file4.renrendoc.com/view/d21ac875d9d15ab31f06216fd6beb42c/d21ac875d9d15ab31f06216fd6beb42c4.gif)
![第10講-回歸分析_第5頁(yè)](http://file4.renrendoc.com/view/d21ac875d9d15ab31f06216fd6beb42c/d21ac875d9d15ab31f06216fd6beb42c5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1線性回歸據(jù)英國(guó)媒體2008年2月18日?qǐng)?bào)道,通過對(duì)過去20年里定期在東京和大阪街頭進(jìn)行的隨機(jī)調(diào)查發(fā)現(xiàn)。當(dāng)日本經(jīng)濟(jì)迅速發(fā)展時(shí),女性更愿意留長(zhǎng)頭發(fā);而當(dāng)經(jīng)濟(jì)出現(xiàn)停滯時(shí),她們更愿意更多地剪短發(fā)…
環(huán)球時(shí)報(bào),2008年2月20日
管理決策,經(jīng)常取決于對(duì)兩個(gè)或更多個(gè)變量的分析。例如:一位銷售部經(jīng)理在考慮了廣告費(fèi)和銷售收入之間的關(guān)系后,才能嘗試去預(yù)測(cè)一定水平的廣告費(fèi)可能帶來(lái)多少銷售收入。通常,一位管理人員要依靠直覺或經(jīng)驗(yàn)去判斷兩個(gè)變量的關(guān)系。但是,如果能取得數(shù)據(jù),我們就能利用統(tǒng)計(jì)模型(如回歸分析)去建立一個(gè)表示變量間相互關(guān)系的方程,來(lái)做預(yù)測(cè)。4預(yù)測(cè)需要建立統(tǒng)計(jì)模型“沒有哪一個(gè)模型是對(duì)的,但是的確有一些模型是有用的。”
Allthemodelsarewrong,butsomeareuseful.---Box,G.模型提供了一種參照(Benchmark),從而減少了你決策過程當(dāng)中由于不確定因素存在而帶來(lái)的困惑。線性回歸的是干啥的?線性回歸是確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法。解釋變量之間的關(guān)系;經(jīng)濟(jì)發(fā)展同女性頭發(fā)的關(guān)系。預(yù)測(cè)未來(lái);通過廣告花費(fèi)才預(yù)測(cè)企業(yè)未來(lái)的銷售量。歷史淵源回歸(regression)到什么?SirFrancisGalton
(1822-1911)7案例一:比格比薩餅連鎖店比格比薩餅連鎖店坐落在大學(xué)校園附近。管理人員確信,這些連鎖店的季度銷售收入(用y表示)與學(xué)生人數(shù)(用x表示)是正相關(guān)的。問題:y如何依賴于x?8數(shù)據(jù)假定由位于大學(xué)校園附近的10家比格比薩餅連鎖店組成一個(gè)樣本。9散點(diǎn)圖10相關(guān)系數(shù)可以告訴你什么?不能告訴你什么?
相關(guān)系數(shù)為0.95。變異性的分解
為什么不同連鎖店的季度銷售收入存在差異?一種理解模式:誤差項(xiàng)ε,包含了x之外的對(duì)y的變異有影響的其它因素。簡(jiǎn)單線性回歸模型這個(gè)模型表達(dá)了y與x之間的什么關(guān)系?問題:此模型的假設(shè)是什么?
當(dāng)x=某一個(gè)值時(shí),y服從什么分布?它期望的均值是多少?針對(duì)具體樣本應(yīng)該選擇一條什么直線14最小二乘法對(duì)回歸系數(shù)的最小二乘估計(jì)1415最小二乘估計(jì)找以及使得如下的平方和最小最小二乘估計(jì)問題:估計(jì)出來(lái)的回歸系數(shù)是樣本觀測(cè)值的函數(shù)?它們會(huì)隨著樣本的不同而變化嗎?問題I:估計(jì)出來(lái)的回歸系數(shù)是樣本觀測(cè)值的函數(shù)?它們會(huì)隨著樣本的不同而變化嗎?問題II:估計(jì)出來(lái)的回歸系數(shù)是參數(shù)還是統(tǒng)計(jì)量?樣本回歸系數(shù)17課堂案例的回歸直線如何解釋60和5?1819關(guān)于回歸系數(shù)的假設(shè)檢驗(yàn)需要檢驗(yàn)假設(shè)的抽樣分布?1920抽樣分布假定各觀測(cè)的誤差項(xiàng)獨(dú)立,并且都來(lái)自于分布那么,最小二乘估計(jì)的抽樣分布為
21關(guān)于回歸系數(shù)的假設(shè)檢驗(yàn)問題檢驗(yàn)統(tǒng)計(jì)量由N-P原則可以推出拒絕域:p值:2122案例一:假設(shè)檢驗(yàn)23對(duì)樣本數(shù)據(jù)變異性的分解24擬合值和殘差擬合值(fittedvalue):根據(jù)樣本數(shù)據(jù)估計(jì)出來(lái)的回歸線,記為殘差(residual):對(duì)數(shù)據(jù)擬合回歸線后剩余的部分,記為樣本數(shù)據(jù)可以分解成擬合值加殘差。25對(duì)樣本變異性的分解xy擬合值殘差25870-1261059015888100-1281181001812117120-316137140-320157160-320169160922149170-212620219012方差1747.7781577.778170XY27判定系數(shù)27含義:總變異中能被估計(jì)的回歸方程解釋的比例28比薩案例一的判定系數(shù)對(duì)于比格比薩餅連鎖店的例子 判定系數(shù)=0.903表明:季度銷售收入變異性的90.3%能被估計(jì)的回歸方程所解釋。案例繼續(xù):比薩店盈利預(yù)測(cè)研究問題:預(yù)測(cè)某地區(qū)比薩店銷售收入。y:比薩店的銷售收入x:周邊學(xué)校學(xué)生人數(shù);學(xué)校學(xué)生的平均開支。良好的預(yù)測(cè)取決于你對(duì)問題的認(rèn)識(shí)!比薩店數(shù)據(jù)學(xué)生人數(shù)(千人)平均支出(千元)銷售收入(千美元)20.815860.92105880.851.0288118120.93117161.13137202022261.200.941.281.3815716914920231自變量誤差項(xiàng)多元線性回歸因變量參數(shù):對(duì)x1-x2的回歸系數(shù)參數(shù):截距回歸系數(shù)32最小二乘法對(duì)回歸系數(shù)的最小二乘估計(jì)3233判定系數(shù)33總變異中能被估計(jì)的回歸方程解釋的比例34關(guān)于回歸系數(shù)的假設(shè)檢驗(yàn)需要檢驗(yàn)假設(shè)的抽樣分布?3435抽樣分布假定各觀測(cè)的誤差項(xiàng)獨(dú)立,并且都來(lái)自于分布那么,最小二乘估計(jì)的抽樣分布為
36關(guān)于回歸系數(shù)的假設(shè)檢驗(yàn)問題檢驗(yàn)統(tǒng)計(jì)量拒絕域:p值:36回歸結(jié)果輸出
參數(shù)估計(jì)標(biāo)準(zhǔn)誤差P值截距項(xiàng)54.0738.100.20x14.841.190.005X27.8648.770.87
Review-回歸模型
建立回歸模型的步驟:
Step1:了解數(shù)據(jù)畫散點(diǎn)圖看相關(guān)系數(shù)表
相關(guān)系數(shù)為0.95建立回歸模型的步驟:
Step2:建立模型問題:當(dāng)x=某一個(gè)值時(shí),y服從什么分布?41圖示回歸方程xy回歸直線x1x2x=x1時(shí)y的分布回歸分析回歸的目的(實(shí)質(zhì)):由固定的解釋變量x去估計(jì)因變量y的平均值常數(shù)項(xiàng)(截距),當(dāng)所有的=0時(shí),y的平均值?;貧w系數(shù)(regressioncoefficient):
在其它自變量保持不變時(shí),增加或減少一個(gè)單
位時(shí)y的平均變化量。
包含了p個(gè)解釋變量之外的對(duì)y的變異有影響的其它因素。多元線性回歸模型的一般形式建立回歸模型的步驟:
Step3:模型估計(jì)針對(duì)具體樣本應(yīng)該選擇一條什么直線?辦法:最小二乘估計(jì)
找使得如下的平方和最小問題:估計(jì)出來(lái)的回歸系數(shù)是樣本觀測(cè)值的函數(shù)?它們會(huì)隨著樣本的不同而變化嗎?當(dāng)p=1時(shí)建立回歸模型的步驟:
Step4:解讀模型(1)y總變異中能被估計(jì)的回歸方程解釋多少比例(2)所有的x是否與y之間存在一個(gè)顯著的關(guān)系(3)檢驗(yàn)y與每個(gè)x之間是否存在關(guān)系(1)y總變異中能被估計(jì)的回歸方程解釋多少比例為什么y存在差異?(y的變異)一種理解模式:誤差項(xiàng)ε,包含了p個(gè)解釋變量之外的對(duì)y的變異有影響的其它因素??傋儺愔心鼙还烙?jì)的回歸方程解釋的比例對(duì)于Armand比薩餅連鎖店的例子 判定系數(shù)=0.903表明:季度銷售收入變異性的90.3%能被估計(jì)的回歸方程所解釋,
或者說季度銷售收入變異性的90.3%能被校園的學(xué)生人數(shù)所解釋。(3)檢驗(yàn)y與每個(gè)x之間是否存在關(guān)系
檢驗(yàn)檢驗(yàn)統(tǒng)計(jì)量一般的回歸結(jié)果輸出
參數(shù)估計(jì)標(biāo)準(zhǔn)誤差P值截距項(xiàng)54.0738.100.20x14.841.190.005X27.8648.770.87
51回歸模型的診斷回顧一下對(duì)模型的設(shè)定1)
回歸函數(shù)是直線;2)是服從正態(tài)分布N(0,)的.
2.1)對(duì)于所有的x,的均值為0.2.2)對(duì)于所有的x,的方差為.3)對(duì)于不同的x,誤差項(xiàng)是相互獨(dú)立的.
這些假定對(duì)于檢驗(yàn)回歸系數(shù)檢驗(yàn)提供了理論上的依據(jù)。如果關(guān)于誤差項(xiàng)的假定不可靠,那么有關(guān)回歸關(guān)系的顯著性檢驗(yàn)會(huì)站不住腳。
所以建完模型后,我們應(yīng)該先“診斷”
后“讀結(jié)果”。53診斷模型的工具:殘差分析什么是殘差?殘差可以看作是誤差的代表。分析殘差是對(duì)模型進(jìn)行診斷的重要手段。
54利用殘差圖來(lái)診斷模型殘差圖通常是指殘差與擬合值的散點(diǎn)圖如果模型是比較合適的,那么殘差圖上的點(diǎn)應(yīng)該落在一條水平帶中間,除此之外,殘差圖上的點(diǎn)不應(yīng)呈現(xiàn)出什么規(guī)律性。55Armand案例的殘差圖56Reynolds公司的銷售人員
Reynolds公司是一家生產(chǎn)工業(yè)天平和實(shí)驗(yàn)室設(shè)備的企業(yè)。公司管理人員想要對(duì)公司銷售人員的工作年限和天平的銷售數(shù)量之間的關(guān)系進(jìn)行研究。他們隨機(jī)抽取了15名銷售人員,利用相應(yīng)的數(shù)據(jù)資料得到了他們近期的銷售數(shù)量對(duì)工作年限的簡(jiǎn)單線性回歸方程,SALES=111+2.38MONTHS。觀察該回歸方程的殘差圖(見下頁(yè)),你覺得哪些地方存在問題,如何進(jìn)行更改?57Reynolds公司案例殘差圖58對(duì)Reynolds案例的診斷殘差圖呈現(xiàn)出有規(guī)律的曲線形態(tài),說明線性回歸形式選擇不適當(dāng),建議改用二次函數(shù)即拋物線型的回歸曲線或者其它曲線形式。59二次曲線回歸的結(jié)果自變量系數(shù)系數(shù)標(biāo)準(zhǔn)誤TP常量45.3522.771.990.070MONTHS6.3451.0586.000.000MONTHS2-0.0344860.008948-3.850.002R-Sq=90.2%60二次曲線回歸的殘差圖61衡量廣告的效果
Superbrands’98(1997.10.20)給出了10種主要品牌的啤酒的廣告費(fèi)用(百萬(wàn)美元)和銷售數(shù)量(百萬(wàn)桶)的統(tǒng)計(jì)資料,根據(jù)該數(shù)據(jù)可以得到銷售量對(duì)廣告投入的回歸方程,SALES=4.089+0.196AD,對(duì)應(yīng)的殘差圖見下頁(yè)。你根據(jù)該殘差圖能夠得出什么結(jié)論?62Superbrands’98案例殘差圖63對(duì)Superbrands案例的診斷結(jié)論在殘差圖可以看出,殘差的波動(dòng)幅度前后呈現(xiàn)出明顯的差異,屬于異方差情況(Heteroskedasticity),說明在回歸模型中對(duì)誤差項(xiàng)作的等方差假設(shè)是不合適的。建議對(duì)因變量做變換,比如ln(y)、或者
1/y等等,再對(duì)變換后的因變量建立線性回歸模型。64以取對(duì)數(shù)的銷售額建立的回歸自變量系數(shù)系數(shù)標(biāo)準(zhǔn)誤TP常量1.61230.130012.400.000AD0.01490.00226.830.000R-Sq=85.4%65新的模型的殘差圖66標(biāo)準(zhǔn)化的殘差殘差的標(biāo)準(zhǔn)化這里的標(biāo)準(zhǔn)化也稱為學(xué)生化(Studentized)。
標(biāo)準(zhǔn)化殘差圖能對(duì)隨機(jī)誤差項(xiàng)服從正態(tài)分布的假定提供一種直觀的認(rèn)識(shí)。如果這一假定被滿足,那么標(biāo)準(zhǔn)化殘差的分布也應(yīng)服從標(biāo)準(zhǔn)正態(tài)分布。于是我們應(yīng)期望看到,大約95%的標(biāo)準(zhǔn)化殘差都落在-1.96到1.96之間,或約為-2到2之間。Armand案例的標(biāo)準(zhǔn)化殘差圖判斷殘差是否服從正態(tài)分布
正態(tài)概率圖識(shí)別異常值異常值(Outlier)是指殘差異常大的觀測(cè)。識(shí)別方法:標(biāo)準(zhǔn)化殘差落在[-3,3]之外的觀測(cè)值被認(rèn)為是異常值識(shí)別異常值之后:檢查是否輸入數(shù)據(jù)錯(cuò)誤,如果是,則改正數(shù)據(jù);否則,也應(yīng)當(dāng)保留該觀測(cè),而不是簡(jiǎn)單地刪除。具有異常值的數(shù)據(jù)異常值:觀測(cè)值偏離了散點(diǎn)圖中的趨勢(shì)72識(shí)別影響點(diǎn)影響點(diǎn)(InfluentialObservation)是指對(duì)回歸結(jié)果具有很大影響的觀測(cè)。73具有影響點(diǎn)的例子影響點(diǎn):觀測(cè)值相當(dāng)大的偏離了散點(diǎn)圖中的趨勢(shì),或遠(yuǎn)離自變量x的平均值,或兩者皆有。74保留和剔除影響點(diǎn)的差異保留影響點(diǎn)時(shí)的回歸直線剔除影響點(diǎn)時(shí)的回歸直線影響點(diǎn)異常值不一定是影響點(diǎn),反之,影響點(diǎn)的殘差也可以很小,不一定是異常值。識(shí)別影響點(diǎn)的方法:杠桿率和Cook距離識(shí)別之后:建議應(yīng)該同時(shí)報(bào)告包含影響點(diǎn)和除去影響點(diǎn)的兩種回歸結(jié)果。Armand案例的杠桿率圖識(shí)別影響點(diǎn)的方法:杠桿率比較大(大于3(p+1)/n)杠桿率是更具自變量x的值與它們的平均值的遠(yuǎn)近來(lái)確定的。但是高杠桿率的觀測(cè)未必對(duì)估計(jì)的結(jié)果影響很大。Armand案例的Cook距離圖識(shí)別影響點(diǎn)的方法:Cook距離D比較大(>1).78多重共線性問題79HOTDOG案例
Dubuque是一家熱狗生產(chǎn)廠家,他們最近收到信息說,BallPark,一家與他們競(jìng)爭(zhēng)的品牌,將會(huì)降低他們兩種熱狗(常規(guī)熱狗和全牛肉熱狗)的價(jià)格。公司內(nèi)部圍繞這是否會(huì)給他們現(xiàn)在的市場(chǎng)份額帶來(lái)負(fù)面影響展開了爭(zhēng)論,有人認(rèn)為應(yīng)該采取相應(yīng)的措施來(lái)保護(hù)已有的市場(chǎng)份額,也有人說OscarMayer才是他們的主要競(jìng)爭(zhēng)對(duì)手,可以不必采取任何措施。你覺得應(yīng)該如何處理這一問題?80需要分析的問題Dubuque的價(jià)格怎樣影響到它的市場(chǎng)份額?OscarMayer的價(jià)格會(huì)影響到Dubuque的市場(chǎng)份額嗎?BallPark的價(jià)格影響到Dubuque的市場(chǎng)份額嗎?OscarMayer和BallPark誰(shuí)是Dubuque主要的競(jìng)爭(zhēng)對(duì)手?81數(shù)據(jù)說明Mktdub
Dubuque熱狗的市場(chǎng)份額;Pdub
Dubuque熱狗的市場(chǎng)價(jià)格;Poscar
OscarMayer熱狗的市場(chǎng)價(jià)格;Pbpreg
BallPark常規(guī)熱狗的市場(chǎng)價(jià)格;Pbpbeef
BallPark全牛肉熱狗的市場(chǎng)價(jià)格。82直接以市場(chǎng)份額為因變量的回歸自變量系數(shù)系數(shù)標(biāo)準(zhǔn)誤TP常量0.040300.014122.850.005pdub-0.000759770.00008092-9.390.000poscar0.000262230.000084273.110.002pbpreg0.00034730.00033161.050.297pbpbeef0.00010250.00029380.350.728R-Sq=52.6%83對(duì)應(yīng)的殘差圖84以市場(chǎng)份額的對(duì)數(shù)為因變量的回歸自變量系數(shù)系數(shù)標(biāo)準(zhǔn)誤TP常量-3.39970.3553-9.570.000pdub-0.0201790.002036-9.910.000poscar0.0065850.0021203.110.002pbpreg0.0077050.0083430.920.358pbpbeef0.0051840.0073910.700.485R-Sq=56.8%小心地處理系數(shù)的p值比較大的變量,切記:你不應(yīng)該馬上把那些p值較大的自變量都消除!85對(duì)應(yīng)的殘差圖86自變量之間的相關(guān)系數(shù)
pdubposcarpbpregpbpbeefpdub1.000000.484430.359280.32257poscar0.484431.000000.548810.53368pbpreg0.359280.548811.000000.97938pbpbeef0.322570.533680.979381.0000087多重共線性問題在多元線性回歸模型中,多重共線性性(Multi-collinearity)問題是指自變量之間存在著比較強(qiáng)的線性相關(guān)關(guān)系。多重共線性存在時(shí)會(huì)使得最小二乘系數(shù)估計(jì)的標(biāo)準(zhǔn)誤差增大,從而使得相應(yīng)的t統(tǒng)計(jì)量減小和p值增加。88識(shí)別多重共線性自變量的相關(guān)矩陣;方差膨脹因子(VarianceInflationFactors,
簡(jiǎn)記作VIF):刻畫了相比多重共線性不存在時(shí)回歸系數(shù)估計(jì)的方差增大了多少。VIF越大說明多重共線性問題越嚴(yán)重。經(jīng)驗(yàn)法則:VIF>1089同時(shí)考慮BallPark的兩個(gè)價(jià)格
方差膨變量系數(shù)系數(shù)標(biāo)準(zhǔn)誤TP脹因子常量-3.39970.3553-9.570.000pdub-0.0201790.002036-9.910.0001.362poscar0.0065850.0021203.11
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 服裝批發(fā)居間合同委托書
- 知識(shí)產(chǎn)權(quán)運(yùn)營(yíng)股權(quán)居間合同
- 專業(yè)運(yùn)動(dòng)器材銷售與推廣合同
- 弱電項(xiàng)目總結(jié)
- 游戲規(guī)則與操作指南發(fā)布平臺(tái)建設(shè)作業(yè)指導(dǎo)書
- 農(nóng)業(yè)產(chǎn)業(yè)鏈社會(huì)責(zé)任履行實(shí)戰(zhàn)指導(dǎo)書
- 三農(nóng)村集體資產(chǎn)管理方案
- 體育訓(xùn)練與比賽作業(yè)指導(dǎo)書
- 安能轉(zhuǎn)讓合同
- 消防安全技術(shù)服務(wù)項(xiàng)目合同
- 縱隔腫物的護(hù)理查房
- 新能源汽車概論題庫(kù)
- 設(shè)備維保的維修成本和維護(hù)費(fèi)用
- 2024年濰坊護(hù)理職業(yè)學(xué)院高職單招(英語(yǔ)/數(shù)學(xué)/語(yǔ)文)筆試歷年參考題庫(kù)含答案解析
- 客運(yùn)站員工安全生產(chǎn)教育培訓(xùn)
- 口腔預(yù)防兒童宣教
- 綠城桃李春風(fēng)推廣方案
- 體質(zhì)健康概論
- 檔案管理流程優(yōu)化與效率提升
- 2023高考語(yǔ)文實(shí)用類文本閱讀-新聞、通訊、訪談(含答案)
- 人工智能在商場(chǎng)應(yīng)用
評(píng)論
0/150
提交評(píng)論