Bootstrap方法在非參數(shù)核估計中的研究與應(yīng)用_第1頁
Bootstrap方法在非參數(shù)核估計中的研究與應(yīng)用_第2頁
Bootstrap方法在非參數(shù)核估計中的研究與應(yīng)用_第3頁
Bootstrap方法在非參數(shù)核估計中的研究與應(yīng)用_第4頁
Bootstrap方法在非參數(shù)核估計中的研究與應(yīng)用_第5頁
已閱讀5頁,還剩9頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、Bootstrap 方法在非參數(shù)核估計中的研究與應(yīng)用潘海濤(西安財經(jīng)學(xué)院統(tǒng)計學(xué)院,西安710061)摘要:當(dāng)數(shù)據(jù)中存在異常值時,Bootstrap 樣本可能比原有樣本含有更多的“污染”,這會影響要進行的統(tǒng)計推斷的有效性。文章討論了在非參數(shù)回歸N-W 估計中,如何利用影響函數(shù)(influencefunction )得到重新抽樣的概率,使用調(diào)整后的非等概率Bootstrap 抽樣方法得到曲線的擬合,從而達到有效地抵制異常值對回歸函數(shù)影響的目的。數(shù)值模擬的結(jié)果表明了這種處理方法的有效性。關(guān)鍵詞:非參數(shù)N-W 回歸;Bootstrap ;影響函數(shù);帶寬選擇中圖分類號:O212.8文獻標(biāo)識碼:A文章編號

2、:10026487(2010)230022-03的回歸分析中,通常假定有某種特定的數(shù)學(xué)形式,其中包含0引言非參數(shù)回歸是基于數(shù)據(jù)本身,非參數(shù)回歸方法的研究已若干個未知參數(shù),并假定“誤差”的分布為正態(tài)等。這時用最小二乘法對回歸系數(shù)進行估計即可得到的估計。但在實際問題中,很多情形下假定條件(回歸為線性,誤差為正態(tài))不能成立,此時,基于最小二乘法作出的估計不一定好。這就促使人們?nèi)ふ移渌椒?,非參?shù)回歸即是我們的一種選擇。其特點是對模型的假設(shè)要求很低:回歸函數(shù)的形式可以是任意的,隨機誤差也不必服從正態(tài)分布。最受歡迎的非參數(shù)回歸是N-W 核回歸,定義為nn廣泛受到人們的重視。有關(guān)非參數(shù)回歸的原理及其應(yīng)用

3、的專著有許多,如Eubank 、Muller 、Hardle 和Wabba 等分別介紹了非參數(shù)回歸在許多實際問題中的應(yīng)用。自上世紀(jì)七十年的末Enfron 引入Bootstrap 方法后,Bootstrap 方法有了廣泛的運用,如點估計、統(tǒng)計推斷、曲線擬合、置信區(qū)間的構(gòu)造等。然而,在回歸函數(shù)中,若數(shù)據(jù)中含有異常值,進行傳統(tǒng)的Boot -strap 有很明顯的缺陷,即數(shù)據(jù)擬合的效果可能很不理想,造成這樣問題的主要原因是每個數(shù)據(jù)點被以等概率抽取,這樣得到的Bootstap 樣本可能受到比原始樣本更大的“污染”,由此導(dǎo)致可能數(shù)值結(jié)果失真。然而若直接去掉異常值進行估計或推斷,這就可能丟失了數(shù)據(jù)中的信息,

4、因此也不被人們接受。對于這類含有異常值的數(shù)據(jù),采用具有穩(wěn)健性質(zhì)的非等概Bootstrap 是一種有效的方法。況且非參數(shù)回歸函數(shù)估計幾乎基于數(shù)據(jù)本身,數(shù)據(jù)中有異常值就特別需要注意,因為傳統(tǒng)的Bootstrap 可能產(chǎn)生較大的偏差。本文將運用穩(wěn)健統(tǒng)計方法的一些結(jié)果來構(gòu)造具有抗異常值干擾的Bootstrap 方法并給以數(shù)值模擬的結(jié)果。贊NW (x=Y i K(x-Xi /h/K(x-Xi /hmi =1i =1至少當(dāng)使用連續(xù)的核函數(shù)K 時,它可以產(chǎn)生連續(xù)的估計函數(shù)。一般要求核函數(shù)K 為有界可積的實值函數(shù),且有l(wèi)im |x|x K(x=0,通常核函數(shù)K 是一個有緊支撐的對稱概率密度函數(shù)。1.2回歸函數(shù)

5、的Bootstrap 方法回歸模型的Bootstrap 通常有兩種抽樣方式,即對殘差重新抽樣(Bootstrap the residuals )和對數(shù)據(jù)對(X ,Y )重新抽樣(Bootstrappairs 。在對殘差抽樣的方法中,Bootstrap 方法是基于模型殘差的,通常應(yīng)用于非參數(shù)Bootstrap 。由模型得到的贊n (xi ,i=1,2,,n, 為以等概率從1, 相應(yīng)殘差1, ,n ,i =yi -m i,n 中抽取,得到殘差的Bootstrap 樣本i , ,n 。根據(jù)Y i*11.1非參數(shù)回歸和Bo o ts trap 方法介紹非參數(shù)回歸函數(shù)的權(quán)函數(shù)估計設(shè)X 和Y 分別是d 維

6、和1維的隨機變量,假定E|Y|贊n (xi +*得到y(tǒng) *,而令X *=Xi ,得到Bootstrap 樣本(X*,Y * ,=mi i i 11贊n (xi + 。對數(shù)據(jù)對(X ,Y )抽樣的,(Xn ,Y n ,即(Xn ,Y n =(Xi ,m i想法則是直接對數(shù)據(jù)((X1,Y 1, ,(X n ,Y n )以概率1/n進行抽樣而得到樣本(X1,Y 1, ,(Xn ,Y n ,即(Xi ,Y i =(X j ,Y j ),j=1,2,,*,則m(x=E(Y|X=x存在,稱m(x為Y 對X 的回歸函數(shù)?;豗 i (i=1,2,,n ,然后用此樣本來估計回歸函數(shù)m(x。在傳統(tǒng)基金項目:西安統(tǒng)

7、計研究院課題(07JD13)n 。根據(jù)已得到的Bootstrap 樣本就可以對模型進行調(diào)整及統(tǒng)計推斷。作者簡介:潘海濤(1978-),男,浙江奉化人,博士,講師,研究方向:統(tǒng)計計算、計量經(jīng)濟學(xué)、試驗設(shè)計。22統(tǒng)計與決策2010年第23期(總第323期)2N-W 回歸中的Bo o ts trap 方法當(dāng)數(shù)據(jù)經(jīng)含有異常值時,正如前面所述,此時會降低數(shù)據(jù)處理的準(zhǔn)確度,特別是在Bootstrap 的運用中。本文運用非等概Bootstrap 來降低這種缺點,其基本思想為使用加權(quán)經(jīng)驗分布,即在經(jīng)驗分布F贊中的數(shù)據(jù)X i 有權(quán)重p i :P(X*i =Xi |=pi (i,j=1,2,,n )其中X *i

8、是Bootstrap 的第j 個樣本,=X1, ,X n 為原始樣本,p1, ,p n 構(gòu)成一個多項分布。本文討論X *i 數(shù)據(jù)中含有異常值時Bootstrap 在非參數(shù)回歸的運用。設(shè)(X ni ,Y i )i=1是(X ,Y )的一個獨立同分布樣本,有如下模型y=m(x+v1/2=m(x+其中m(x=E(Y|X=x是回歸函數(shù),v(x=Var(Y|X=x是條件方差函數(shù),是均值為0,方差是1的隨機變量。我們的主要目的是對m 進行統(tǒng)計推斷,文中取m 為N-W 估計。Amado 和Pires ,Allende et al. 引入了用影響函數(shù)來改變觀測值在重新抽樣中的選擇概率,這樣異常值有比較小的被選

9、概率。下面我們先簡要介紹影響函數(shù)等穩(wěn)健統(tǒng)計方法中的一些概念,然后給出N-W 估計中求帶寬的穩(wěn)健算法,最后給出N-W 估計的Bootstrap 算法。2.1影響函數(shù)Hample (1974)引進了下面的定義:定義1設(shè)T(F為一范函,由對任何實數(shù)x ,以x 記退化于點x 的概率分布,并記F =(1-F+x (01 。則當(dāng)下述極限IC(x,F,T=lim10T(F-T(F=d T(F|=0存在時,它稱為范函T 當(dāng)總體分布為F 時的影響函數(shù)。當(dāng)x 變化時,IC(x,F,T的圖像則稱為影響曲線。2.2穩(wěn)健帶寬和非等概Bootstrap 算法選擇穩(wěn)健的帶寬是為了避免異常值對估計產(chǎn)生嚴(yán)重的影響。設(shè)(X ,Y

10、 )是取值于R d ×R 1的隨機變量,Y 有有限均值,m(x=E(Y|X=x是Y 關(guān)于X 的回歸函數(shù)。即數(shù)據(jù)集(Xi ,Y i ,i=1,2,F (x,y ). m(x的N-W 估計有如下形式:nK(x-X jY jnK(x-X m 贊NW (x,h=j =1=j Y jK(x-X j j =1K(x-X j i =1i =1其中K (。)是概率核。帶寬h贊n 定義為:h贊n =minRLn (h:hR其中nRL 1(y i -m 贊n (h=NW (xi j =1上式中為給定X 時Y 的方差,為定義在R 上抑制數(shù)據(jù)中異常值影響的函數(shù)??梢愿鶕?jù)函數(shù)的選在來得到常見的帶寬選擇準(zhǔn)則。綜

11、合以上得到帶寬h 的求解算法為:算法1:帶寬h 的求解算法步驟1:給定tol 值,令h=h0;步驟2:令Y 'i =(Yi -m贊NW (xi ,h 0 2,做回歸估計Y 'i =2(xi +軌i(i=1,2,,n )其中軌4i 滿足E(軌i =0,E(軌2i =E(ri;步驟3:解方程(1),得到新的帶寬值,記為h 1;步驟4:若|h1-h 0|t0l ,則停止計算;否則令h 0=h1,返回步驟2。有了不受異常值干擾的帶寬,我們下面就可據(jù)此給出具有抗異常值干擾的運用于N-W 核回歸中的非等概Bootstrap 算法:步驟1:對數(shù)據(jù)(X i ,Y ni )i=1用前面穩(wěn)健帶寬選

12、擇得到N-W回歸函數(shù)m贊NW (xi ,h 贊n ;步驟2:計算殘差rt=yt-m贊NW (xi ,h 贊n (k=1,2,,n );步驟3:Bootstrap 過程,b=1,2,,B 。S 對殘差(贊r 1, ,r 贊n )運用獨立的Bootstrap 方法得到誤*差的抽樣(贊r 1, ,r 贊1);對數(shù)據(jù)(x 1, ,x n )進行一般的Bootstrap 抽樣(即等概論抽樣)產(chǎn)生獨立的Bootstrap 抽樣(x *1, ,x 1);得到第b 次的數(shù)據(jù)集(x *)n *i ,y i i=1,其中y i =yt -m 贊NW (x*i,h 贊n *+r贊1;對(x *nb *i ,y i

13、)i=1運用穩(wěn)健帶寬選擇得到帶寬h 贊n和回歸函b *數(shù)m 贊NW (x*i,h 贊n ;直到產(chǎn)生B 個Bootstrap 樣本為止;否則令b=b+1,重復(fù)步驟3中的I-IV 。b *步驟4:對每個h贊表示得到回歸函數(shù)的一個樣本f b *=fb b *(x=m贊NW (x,h贊n(b=1,2,,B )1*B *我們可以從(h贊, ,h 贊 和(f1*n n, ,f B 做出我們感興趣的統(tǒng)計推斷。3數(shù)值模擬本節(jié)中,我們將通過數(shù)據(jù)模擬來對非等概Bootstrap (NB )與傳統(tǒng)Bootstrap (CB )進行比較。對Bootstrap 結(jié)果進行推斷時,我們一般感興趣的是它的均值和%置信區(qū)間。在

14、選擇穩(wěn)健帶寬時,我們使用Huber 函數(shù)統(tǒng)計與決策2010年第23期(總第323期)23H (r,c=sgn(rmin(|r|,c考慮如下數(shù)據(jù)生成過程(data generating process,DGP )y(x=(x+v其中:(x=cos(a xcos(b x, a =0.5,b =1.5,x0,N(0,22a (x,a (x=0.03+0.07×1-cos(a x2是異常值,分布為F 2N(0, ,v 的分布為二項分布,P (v0=,0<1。我們從0,隨機產(chǎn)生1000個樣本來進行曲線擬合,然后從0到中以0.02的間隔產(chǎn)生158個等距數(shù)據(jù)來做檢驗。下面我們考慮參數(shù)2,分別

15、為0%,5%,10%,20%,25%的情形進行討論。下表給出了的各種情形的總結(jié),其中考慮了1000個樣本的平均預(yù)測誤差(PE )、覆蓋概率(PC )和置信區(qū)間的平均長度(L )。PC 是檢驗樣本觀測值落入置信區(qū)間的百分比,平均長度定義為L=n1sup infk =1(Lk -L k ,其中L infsupk 和L k 分布為點(xk ,y k 在置信區(qū)間的上下界。NB 和CB 方法的數(shù)值模擬比較表Bootstrap 方法異常值所占比例%預(yù)測誤差覆蓋概率置信區(qū)間平均長度CB 00.347850從上表中我們可以看出,NB 方法和CB 方法在預(yù)測誤差的估計很接近,但在覆蓋概率和平均長度,NB 算法明

16、顯要好于CB 算法。特別地,在覆蓋概率和置信水平相差不多的情況下,有NB 方法得到的平均長度要比CB 方法中的窄,且RB 方法受異常值的影響要小,數(shù)值穩(wěn)定,而CB 方法受異常值的影響就要大得多。此結(jié)果表明此文給出的Bootstrap 算法在含有異常值的非參數(shù)推斷中具有較強的抗干擾能力,值得我們在處理非參數(shù)回歸問題時進行采用。4結(jié)論在含有異常值的樣本中,Bootstrap 樣本會含有更高的“污染”,傳統(tǒng)Bootstrap 估計的效果一般不理想。本文給出了24統(tǒng)計與決策2010年第23期(總第323期)N-W 非參數(shù)回歸函數(shù)的Bootstrap 推斷方法,引入非等概Bootstrap 來抑制異常值

17、在Bootstrap 樣本中的影響。其中非等概Bootstrap 是通過影響函數(shù)計算樣本點對帶寬的影響;然后得到非等概抽樣概率,在此基礎(chǔ)給出相應(yīng)Bootstrap 算法。數(shù)值模擬表明了此方法的有效性和準(zhǔn)確性。參考文獻:2EubankR.Spline Smoothing and Nonparametric Regression M.New York:Dekker,1998.3HardleW.Applied Nonparametric Regression M.Cambridge:Cam -bridge Univ.Press,1990.4EfronB.Bootstrap Methods:AnotherLook at the JackknifeJ.Ann.Statist,1979,(7.5SinghK.Breakdown Theory for Bootstrap QuantilesJ.TheAnnals of Statistics,1998,26.6Salibian-BarreraM.,Zamar R H.Bootstrapping Robust Estimates of RegressionJ.TheA

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論