![分位數(shù)回歸學(xué)習(xí)筆記_第1頁](http://file4.renrendoc.com/view/25a994d98046581635bc61cf685f8dfe/25a994d98046581635bc61cf685f8dfe1.gif)
![分位數(shù)回歸學(xué)習(xí)筆記_第2頁](http://file4.renrendoc.com/view/25a994d98046581635bc61cf685f8dfe/25a994d98046581635bc61cf685f8dfe2.gif)
![分位數(shù)回歸學(xué)習(xí)筆記_第3頁](http://file4.renrendoc.com/view/25a994d98046581635bc61cf685f8dfe/25a994d98046581635bc61cf685f8dfe3.gif)
![分位數(shù)回歸學(xué)習(xí)筆記_第4頁](http://file4.renrendoc.com/view/25a994d98046581635bc61cf685f8dfe/25a994d98046581635bc61cf685f8dfe4.gif)
![分位數(shù)回歸學(xué)習(xí)筆記_第5頁](http://file4.renrendoc.com/view/25a994d98046581635bc61cf685f8dfe/25a994d98046581635bc61cf685f8dfe5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、分位數(shù)回歸學(xué)習(xí)筆記一、分位數(shù)回歸概念分位數(shù)回歸是估計一組回歸變量X與被解釋變量Y的分位數(shù)之間線性關(guān)系的建模方法。以往的回歸模型實際上是研究被解釋變量的條件期望。而人們也關(guān)心解釋變量與被解釋變量分布的中位數(shù),分位數(shù)回歸是Koenker和最小二乘的不足提出來的一種新的估計方法,它不僅能夠度量回歸變量對分布中心的影響,而且能度量回歸變量對分布上尾和下尾的影響,在不同的分位數(shù)下進行預(yù)測,得到的信息更為全面和精確。時間序列分析是對時間序列數(shù)據(jù)建立模型,分析數(shù)據(jù)的內(nèi)部結(jié)構(gòu)和自身規(guī)律,從而對未來的發(fā)展進行預(yù)測。用分位數(shù)回歸方法來估計時間序列模型時,對隨機誤差的分布不做要求,能更加全面的刻畫分布的特征。OLS
2、回歸估計量的計算是基于最小化殘差平方。分位數(shù)回歸估計量的計算也是基于一種非對稱形式的絕對值殘差最小化。其中,中位數(shù)回歸運用的是最小絕對值離差估計(LAD,leastabsolutedeviationsestimator)。分位數(shù)回歸的優(yōu)點能夠更加全面的描述被解釋變量條件分布的全貌,而不是僅僅分析被解釋變量的條件期望(均值),也可以分析解釋變量如何影響被解釋變量的中位數(shù)、分位數(shù)等。不同分位數(shù)下的回歸系數(shù)估計量常常不同,即解釋變量對不同水平被解釋變量的影響不同。中位數(shù)回歸的估計方法與最小二乘法相比,估計結(jié)果對離群值則表現(xiàn)的更加穩(wěn)健,而且,分位數(shù)回歸對誤差項并不要求很強的假設(shè)條件,因此對于非正態(tài)分布
3、而言,分位數(shù)回歸系數(shù)估計量則更加穩(wěn)健。二、普通回歸優(yōu)化為分位數(shù)回歸的過程:在一般線性回歸中,我們估計的是一些變量y的平均值,條件是自變量x的值。當(dāng)我們在數(shù)據(jù)上擬合一般最小二乘回歸模型時,我們對線性模型中的隨機誤差項做了一個關(guān)鍵假設(shè)。我們假設(shè)誤差項在自變量x的值上方差。當(dāng)這個假設(shè)不再成立時會發(fā)生什么?另外,除了估計自變量的平均值,我們還能估計自變量的中位數(shù)、0.3分位數(shù)或0.8分位數(shù)嗎?這就是分位數(shù)回歸發(fā)揮作用的地方。接下來將編寫一些代碼來更好地理解這一點。創(chuàng)建一些數(shù)據(jù)并繪制出來。importnumpyasnpimportmatplotlib.pyplotaspitplt.figure(1)pl
4、t.scatter(x,y)plt.xlabel(x)plt.ylabel(y)plt.title(Datawithconstantvariance)自變量為X,因變量為y,噪聲,誤差_u是高斯單位方差。#生成一些具有恒定方差/噪聲的數(shù)據(jù)x=np.arange(100).reshape(100,1)intercept.=6slope_=0.1#非常數(shù)誤差error_=np.random.normal(size=(100,1),loc=0.0,scale=1)#回歸方程y=intercept.+slope_*x+error_Datawithconstantvariance16-14-12-亠.A
5、ID-a-6-Figure_1.png如圖所示,當(dāng)我們沿著x軸從左向右移動時,我們看不到y(tǒng)值有很大的變化。般的最小二乘回歸是建立數(shù)據(jù)模型的理想候選。下面對數(shù)據(jù)進行最小二乘回歸。#對上述數(shù)據(jù)集進行最小二乘回歸fromsklearninear_modelimportLinearRegressionmodell=LinearRegression(fit_intercept=True,normalize=False)model1.fit(x,y)y_pred1=modell.predict(x)print(Meansquarederror:0:.2f.format(np.mean(y_pred1-y)
6、*2)print(Variancescore:0:.2f.format(model1.score(x,y)#繪制回歸圖plt.figure(2)plt.scatter(x,y,color=black)plt.plot(x,y_pred1,color=blue,linewidth=3)plt.xticks()plt.yticks()plt.xlabel(x)plt.ylabel(yandpredictedy)plt.title(Linearregression)LinearregressionFigure_2.png方差得分為1.0,我們對數(shù)據(jù)進行了完美的建模。我們的回歸線圖也證實了這一點?,F(xiàn)在
7、在數(shù)據(jù)中引入一些可變噪聲。我們的噪聲根據(jù)x值的范圍而變化。#生成一些具有非常量方差的數(shù)據(jù)x_=叩.arange(100).reshape(100,1)intercept.=6slope_=0.1#非常數(shù)方差var_=0.1+0.05*x_#非常數(shù)誤差error_=np.random.normal(size=(100,1),loc=0.0,scale=var_)#回歸方程y_=intercept.+slope_*x+error_plt.figure(3)plt.scatter(x_,y_)plt.xlabel(x)plt.ylabel(y)plt.title(Datawithnon-consta
8、ntvariance)Figure_3.png誤差計算的比例參數(shù)不再是前一種情況下的1。比例是X值的線性函數(shù)。當(dāng)y的變異性在X值的范圍內(nèi)不相等時,這種現(xiàn)象稱為異方差。如圖所示,它呈圓錐形。丫變量隨著X值的增加而變寬。接下來嘗試將線性回歸擬合到此數(shù)據(jù)集。#嘗試擬合線性回歸model2=LinearRegression(fit_intercept=True,normalize=False)model2.fit(x_,y_)y_pred2=model2.predict(x_)print(Meansquarederror:0:.2f.format(np.mean(y_pred2-y_)*2)print
9、(Variancescore:0:.2f.format(model1.score(x_,y_)#繪制回歸圖plt.figure(4)plt.scatter(x_,y_,color=black)plt.plot(x_,y_pred2,color=blue,linewidth=3)plt.xticks()plt.yticks()plt.xlabel(x)plt.ylabel(yandpredictedy)plt.title(Linearregressionondatawithnon-constantvariance)Linearregressionondatawithnori-constantva
10、rianceApula一plljd口匚中AFigure_4.png方差得分為0.43的線性回歸總體效果不好。當(dāng)x值接近0時,線性回歸可以很好地估計y,但是我們接近x值的末尾時,預(yù)測的y與實際值相差很遠(yuǎn),因此變得完全沒有意義。這就是分位數(shù)回歸的救星。我使用了python包statsmodels0.8.0進行分位數(shù)回歸。讓我們從找到條件中位數(shù)0.5分位數(shù)的回歸系數(shù)開始。#中位數(shù)的分位數(shù)回歸,0.5分位數(shù)importpandasaspddata=pd.DataFrame(data=np.hstack(x_,y_),columns=x,y)print(data.head()importstatsmod
11、els.formula.apiassmfmod=smf.quantreg(yx,data)res=mod.fit(q=.5)print(res.summary()首先,我們將數(shù)據(jù)放入一個pandas數(shù)據(jù)框架中,這樣我們就可以更容易地使用StatsMode接口。我們的數(shù)據(jù)幀數(shù)據(jù)有兩列:“x”和“y”。然后,我們繼續(xù)為中位數(shù)0.5分位數(shù)建立分位數(shù)回歸模型。模型的總結(jié):QuantRw呂RegressionResultsr)ep.Variable:Model:Method:Date:Time:yQuantrReg1eastSquaresTue,97May201910:59:69PseudoR-squa
12、red:Bandwidth:SpsFtyiNo.Qbservat-ions:DfResiduals:DfMedel:.33652+241.5.900100981CD?fstd曰t|t|0+G259,975Irrtercept693490.58610,37S3廚卿4,921X&.10270.91010,035e,os2e,i23屏幕快照2019-05-07上午11.00.20.png截距是6.0849,斜率或x的系數(shù)是0.1027。這些是Y的0.5分位數(shù)的參數(shù)。同樣,可以為其他分位數(shù)建立模型。#為其他分位數(shù)建立模型quantiles=np.arange(0.1,1,0.1)print(quant
13、iles)models=params=forqtinquantiles:print(qt)res=mod.fit(q=qt)models.append(res)params.append(qt,res.paramsIntercept,res.paramsx+res.conf_int().ixx.tolist()params=pd.DataFrame(data=params,columns=qt,intercept,x_coef,cf_lower_bound,cf_upper_bound)print(params)在for循環(huán)的一側(cè),為列表中的每個分位數(shù)構(gòu)建模型。在構(gòu)建這些模型時,還將模型參數(shù)存
14、儲在一個名為params的列表中。制作了一個同名的數(shù)據(jù)框架,這樣我們就可以查看不同的模型。數(shù)據(jù)框架的截圖qtinter匚巳ptx_coefcf_Lower_boundcf_upper_bound00.15.8632270.0420860,0206000,063572屏幕快照2019-05-07上午11.00.32.png正如在上面的輸出中看到的,0.1th分位數(shù)的截距值是5.863,斜率是0.042,還有下限和上限都在結(jié)果中輸出了,也就是x截距值的間隔。#根據(jù)原始數(shù)據(jù)繪制0.1th、0.5和0.9分位數(shù)模型plt.figure(5)plt.scatter(x_,y_,color=black)p
15、lt.plot(x_,y_pred2,color=blue,linewidth=3,label=LinReg)y_pred3=models0.paramslntercept+models0.paramsx*x_plt.plot(x_,y_pred3,color=red,linewidth=3,label=QReg:0.1)y_pred4=models4.paramslntercept+models4.paramsx*x_plt.plot(x_,y_pred4,color=green,linewidth=3,label=QReg:0.5)y_pred5=models8.paramslntercept+models8.paramsx*x_plt.plot(x_,y_pred5,color=cyan,linewidth=3,label=QReg:0.9)plt.xticks()plt.yticks()plt.xlabel(x)plt.ylabel(yandpredictedy)plt.title(Quantileregressionondatawithnon-constantvariance)pltegend()普通線性回歸模型用藍色線繪制。您可以將該模型與其他分位數(shù)模型進行比較。另一種有趣的可視
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 年終工作總結(jié)15篇
- 人文關(guān)懷:傳遞愛與溫暖的力量主題班會
- 2025年高考語文文化常識題試題庫300題(含答案)
- 2025年河南對外經(jīng)濟貿(mào)易職業(yè)學(xué)院高職單招語文2018-2024歷年參考題庫頻考點含答案解析
- 2025年楊凌職業(yè)技術(shù)學(xué)院高職單招高職單招英語2016-2024歷年頻考點試題含答案解析
- 中班幼兒重陽活動策劃方案五篇
- 電子商務(wù)交易合同
- 廣告宣傳片制作合同范本
- 固始土雞蛋購銷合同書
- 幼兒園種子科學(xué)活動策劃方案五篇
- 福建省泉州市晉江市2024-2025學(xué)年七年級上學(xué)期期末生物學(xué)試題(含答案)
- 2025年春新人教版物理八年級下冊課件 第十章 浮力 第4節(jié) 跨學(xué)科實踐:制作微型密度計
- 財務(wù)BP經(jīng)營分析報告
- 2024年全國統(tǒng)一高考英語試卷(新課標(biāo)Ⅰ卷)含答案
- 《社區(qū)康復(fù)》課件-第八章 視力障礙患者的社區(qū)康復(fù)實踐
- 透析患者的血糖管理
- 《逆向建模與產(chǎn)品創(chuàng)新設(shè)計》課程標(biāo)準(zhǔn)
- 前置審方合理用藥系統(tǒng)建設(shè)方案
- 國壽增員長廊講解學(xué)習(xí)及演練課件
- 新疆維吾爾自治區(qū)烏魯木齊市初中語文九年級期末??荚囶}詳細(xì)答案和解析
- 同等學(xué)力申碩英語考試高頻詞匯速記匯總
評論
0/150
提交評論