版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第五章非參數(shù)密度估計(jì)引論在非參數(shù)函數(shù)估計(jì)中,平滑是最基本的方法之一,通常被稱為一維散點(diǎn)圖平滑和密 度估計(jì).在多維框架下,平滑是建立非參數(shù)估計(jì)的有用的構(gòu)建模塊.平滑首先從時(shí)間序列中的譜密度估計(jì)中產(chǎn)生.在又Bartlett(1946)的富有創(chuàng)新的文章的討論中,Henry E. Daniels指出,譜密度估計(jì)的一個(gè)可能的修正可以通過平滑周期圖來實(shí)現(xiàn).然后,這一問題的理論和方法由Bartlett (1948, 1950)系統(tǒng)地發(fā)展起來.這樣,早在半個(gè)世紀(jì)以前,平滑方法 便已是時(shí)間序列分析的一個(gè)重要部分.平滑問題在時(shí)間序列分析的各個(gè)方面經(jīng)常出現(xiàn).平滑方法為概述一個(gè)給定的時(shí)間序列的邊緣分布提供了有用的圖解
2、工具.它們還可用于估計(jì)和消除慢變時(shí)間趨勢(shì).這就產(chǎn)生了時(shí)域平滑.研究一個(gè)時(shí)間序列和它的延遲序列聯(lián)系的需要產(chǎn)生了狀態(tài)域平滑.這些方法能夠容易地推廣到估計(jì)一個(gè)時(shí)間序列的條件方差(波動(dòng)性).為了檢驗(yàn)周期形式和別的特征,比如時(shí)間序列的功率譜,平滑方法常常用來估計(jì)譜密度.在擬合一個(gè)時(shí)間序列數(shù) 據(jù)時(shí),一個(gè)重要的問題是擬合模型的殘差的行為是否像白噪聲.對(duì)這類非參數(shù)擬合優(yōu)度檢驗(yàn),非參數(shù)函數(shù)估計(jì)提供了有用的工具.這個(gè)內(nèi)容將本章和下一章中討論.最簡(jiǎn)單的非參數(shù)函數(shù)估計(jì)問題可能是密度估計(jì).這種簡(jiǎn)單結(jié)構(gòu)對(duì)理解非參數(shù)建模和推斷中更復(fù)雜的問題提供了有用的工具.這就是我們?cè)诒菊轮杏懻摲菂?shù)密度估計(jì)的目的.核密度估計(jì)國(guó)庫(kù)券收益的
3、分布是什么?直方圖是回答這類問題的經(jīng)典的方法.核密度估計(jì)是對(duì)直方圖方法的改善.它用來驗(yàn)證數(shù)據(jù)集合的所有分布特征.這些包括密度峰和谷的數(shù)目和位置以及密度的對(duì)稱性.它是揭示非參數(shù)函數(shù)估計(jì)基本特性的最簡(jiǎn)單的工具.對(duì)密度估計(jì)和它的應(yīng)用的全面的討論在Devroye和Gy?rfi (1985), Silverman (1986)以及Scott(1992)給出.給定T個(gè)數(shù)據(jù)點(diǎn)Xi,IH,Xt ,通過對(duì)每一個(gè)觀測(cè)點(diǎn)乘以量1/T可得到這些數(shù)據(jù)點(diǎn)的經(jīng)驗(yàn)分布函數(shù):1 JF(x)= % I(Xt 三 x).T td這個(gè)累積分布函數(shù)是非降的,對(duì)驗(yàn)證給定分布的全面的結(jié)構(gòu)不是太有用的.當(dāng)人們論及分布時(shí),其腦海里常常有密度函
4、數(shù).然而,經(jīng)驗(yàn)分布函數(shù)白密度是不存在的.對(duì)經(jīng)驗(yàn)分布函127數(shù)的改進(jìn)是在每一個(gè)數(shù)據(jù)點(diǎn)及其鄰近重新平滑地分配量1/T (見圖5.1).這通常是通過引進(jìn)一個(gè)核函數(shù) K來實(shí)現(xiàn).核函數(shù)通常取為非負(fù)對(duì)稱白單峰概率密度函數(shù).令h是帶寬參數(shù),在圖5.1中,我們重機(jī)關(guān)報(bào)表示窗的大小(實(shí)際上,它是密度函數(shù)的標(biāo)準(zhǔn)差,以虛 歲線畫出).這時(shí),核密度估計(jì)定義為圖5.1核密度估計(jì)對(duì)點(diǎn)群重新建立分布 .在每一個(gè)數(shù)據(jù)點(diǎn)處,由實(shí)的重直線來表示, 并把重新建立分布的點(diǎn)群和已獲得的最終估計(jì)放在一起1.T 1 X - x TOC o 1-5 h z HYPERLINK l bookmark20 o Current Document
5、fh(x)=T, 1K -t-=Kh(ux)dF(u) ,(5.1)tmh h其中 Kh() =K( /h)/h.常用的核函數(shù)包括高斯核_K(u) =(、Z)4exp(-u2/2)和對(duì)稱貝塔(Beta)族12K (u)-(1-u2) I(|u|三 1). HYPERLINK l bookmark30 o Current Document Beta(1/ 2,1)選擇0 =0,1,2和3,則分別對(duì)應(yīng)于均勻核函數(shù)、Epanechnikov核函數(shù)、雙權(quán)核函數(shù)和三權(quán)核函數(shù).當(dāng)丫取大的數(shù)值時(shí),通過適當(dāng)?shù)闹匦屡帕?,?duì)稱卡瑪( Gamma)核近似于高 斯核函數(shù).注意,不同的核函數(shù)有不同的支撐.例如,均勻核函
6、數(shù)的有效支撐是-1,1,而三權(quán)核函數(shù)的有效支撐更短(原因是在尾部有較小的權(quán)),高斯核函數(shù)的有效支撐更長(zhǎng)(見圖5.2).這樣,即使具有相同的帶寬,不同的核獲得的x點(diǎn)周圍的局部數(shù)據(jù)所提供的信息也不同.下面的公式(5.7)試圖顯示使用兩個(gè)不同核的平滑量間的等價(jià)關(guān)系128Marron和Nolan (1988)引入的經(jīng)典核的概念減弱了這個(gè)問題圖5.2常用的核函數(shù).它們被標(biāo)準(zhǔn)化使得最大高度為1,以便于表示.粗曲線是高斯核,它比別的核有更長(zhǎng)的有效支撐為了使用核密度估計(jì),人們需要選擇核函數(shù)和帶寬.眾所周知,對(duì)核密度估計(jì),無論 是從經(jīng)驗(yàn)的角度,還是從理論的角度,核函數(shù)的選擇都不是太重要的.只要它們是對(duì)稱和 單峰
7、的,當(dāng)帶寬h是最優(yōu)選擇時(shí),所得核密度估計(jì)的表現(xiàn)幾乎都相同.見5.4中的表5.1.這樣,正如圖5.3所示,在一個(gè)大的帶寬 h下,得到一個(gè)過度平滑的估計(jì),遺漏一些可能 的細(xì)節(jié),比如多峰情形和所得的估計(jì)密度低于峰值.換句話說,使用大的帶寬可能導(dǎo)致估計(jì)產(chǎn)生大的偏差.當(dāng)使用較小的帶寬時(shí),沒有太多的局部數(shù)據(jù)點(diǎn)被使用,從而減少了估計(jì) 的方差,其結(jié)果可能產(chǎn)生一條擺動(dòng)的曲線.為了得到滿意的結(jié)果,我們需要反復(fù)試驗(yàn).帶寬的數(shù)據(jù)驅(qū)動(dòng)選擇可以幫助我們確定最優(yōu)的平滑量(更多的細(xì)節(jié)參閱5.4).如圖5.3所示,描繪了用帶寬分別為h =0.61/3,0.61和3M 0.61的高斯核所得的3個(gè)月期國(guó)庫(kù)券收益的分布估計(jì).S-Pl
8、us函數(shù)“ density”被用來計(jì)算核密度估計(jì).帶寬h =0.61通過下面(5.9)所述的標(biāo)準(zhǔn)參考的帶寬來選擇,顯然,小的帶寬導(dǎo)致平滑不足 的估計(jì),產(chǎn)生一個(gè)具有不自然擺動(dòng)樣式的密度函數(shù),而大的帶寬則給出一條過度平滑的 曲線,使得原來分布好的結(jié)構(gòu)變得模糊.雖然所得的曲線稍微出現(xiàn)過度平滑,但簡(jiǎn)單的供參考帶寬h =0.61通常被認(rèn)為是對(duì) h的一個(gè)初步選擇.正如在圖5.3中所看到的那樣,利率的分布有長(zhǎng)的右尾.分布的中位數(shù)和眾數(shù)大約是 5.34%,而均值是5.97%.在1980年代初,利率高達(dá) 15%.129圖5.3用帶寬分別為h =0.61/3 (短劃線),0.61 (實(shí)線)和3X0.61 (長(zhǎng)劃線
9、)的高斯核所得的 3個(gè)月期國(guó)庫(kù)券收益(按百分率)密度估計(jì).因子3是有意用來解釋平滑不足和平滑過度的影響5.3 加窗和白化如果數(shù)據(jù)Xt:是來自具有邊緣密度f的平穩(wěn)過程的實(shí)現(xiàn),則通過變量變換,我們有Ef h(x)=EKh Xt -x )永 u(f )uH(hx du) (5.2)這樣,估計(jì)的偏度Ef h(x) -f (x)不依賴于數(shù)據(jù)的相依結(jié)構(gòu),就如同于獨(dú)立樣本那樣.然而,估計(jì)的方差卻受數(shù)據(jù)相依結(jié)構(gòu)的影響.為了獲得得進(jìn)一步的認(rèn)識(shí),我們考慮K有有界支撐-1,1的情形.這時(shí),核密度估計(jì)(5.1)僅用了在局部窗 x h內(nèi)的局部數(shù)據(jù)點(diǎn): J fh(x)=T, Kh(Xt(j) -x),j 1其中t(j)是
10、落在xh中的第j個(gè)數(shù)據(jù)點(diǎn),J是局部數(shù)據(jù)點(diǎn)的總數(shù).當(dāng)原始序列中的數(shù)據(jù) 高相關(guān)時(shí),在x周圍的局部窗內(nèi),新序列丫 =Xt,j =i,ih,j的相依性可能相對(duì)很弱. 這歸因于這樣的事實(shí),即時(shí)間序列 t(j), j =1,|, J相對(duì)于小的帶寬 h來說不得相隔很 遠(yuǎn).作為一個(gè)圖例,參見 5.4.加拿大山貓數(shù)據(jù)的一步延遲自相關(guān)比局部窗2.7 0.2內(nèi)的那些數(shù)據(jù)相對(duì)很強(qiáng).實(shí)際上,局部數(shù)據(jù)看起來就像是來自一個(gè)獨(dú)立樣本的數(shù)據(jù).因此,當(dāng)某種混合條件被使用時(shí),人們將期望核密度估計(jì)的漸近方差如同獨(dú)立觀測(cè)情形那樣.這種直覺知識(shí)由Hart (1996)給予闡明.由于在狀態(tài)域中通過局部加窗所得的白化性質(zhì),使得混合過程的核密
11、度估計(jì)所表現(xiàn)的行為非常像獨(dú)立樣本的情形.因此,對(duì)獨(dú)立樣本的所有方130法都可推廣到混合平穩(wěn)過程.在5.6中,我們將給出一些基本理論.相依結(jié)構(gòu)對(duì)核密度估 計(jì)的影響最近由 Claeskens和Hall (2002)作了詳盡的研究.圖5.4 (a)加拿大山貓數(shù)據(jù)的延遲為1的散點(diǎn)圖;(b)落在局部領(lǐng)域 2.70.2中那些數(shù)據(jù)Yj, j =1,|,J的延遲為1的散點(diǎn)圖,它是點(diǎn)Xt(j)相對(duì)于Xt(j)畫出的,用數(shù)t(j)表示點(diǎn) (Xt(j p,Xt);(c)用帶寬h =0.14 (實(shí)線)和0.23 (虛線)所得的加拿大山貓數(shù)據(jù)的密度估計(jì)5.4 帶寬選擇當(dāng)數(shù)據(jù)Xt是來自平穩(wěn)過程的實(shí)現(xiàn)時(shí),由下面的定理 5.
12、1 ,對(duì)f支撐的內(nèi)點(diǎn)X ,核密度估計(jì)的均方誤差(MSE)能夠表示為MSE(x)=Efh(x)-f(x)21 : 、2丁.一u K(u)du. f X 2. 一K4-udu 球)(5.3)這里及以后,“之”意味著兩邊有相同的主項(xiàng) .這是一個(gè)逐點(diǎn)度量.通過使用平均平方積131分誤差(MISE),可獲得全局度量如下: 2 MISE = E f h (x) - f(x)2dx1 : - 2.-.-2421u K(u)du) ( f (x)方xhK (u)du一.(5.4)4Th調(diào)整帶寬參數(shù)h來極小公漸近 MISE,得到一個(gè)帶寬,稱為漸近最優(yōu)帶寬,或簡(jiǎn)單地,最 優(yōu)帶寬,它由下式給出hpt=a(K) 11
13、fl2|5 T 1/(5.5)其中 11g |2= J:g(u)2du 是 L2 范數(shù),匕(K) = J:u2K(u)du 是 K 的方差,ot(K) = %(K)2511K |2/5是已知常數(shù).相對(duì)于這個(gè)漸近最優(yōu)帶寬,最優(yōu)的 MISE是-P(K ) |fir x 2)/5|T4/5(5.6)4其中P(k)= R2(k)2/5 |K|2/5.由(5.5)得到,對(duì)兩個(gè)不同的核函數(shù)K1和K2 ,最優(yōu)帶寬滿足:(K1)hopt(K1)=-(L2hopt(K2), (K2)其中hopt(Ki)和hopt(Kz)分別是與核函數(shù) Kl和K2相對(duì)應(yīng)的最優(yōu)帶寬.下面的表5.L對(duì)幾 個(gè)常用的核函數(shù)列出了這些有用
14、的函數(shù)的值.從該表可見,對(duì)使用最優(yōu)帶寬核函數(shù)的不同選擇,它們執(zhí)行的結(jié)果幾乎完全相同(見表中P(K)所在的行).因此,核K2用帶寬h2的執(zhí)行的結(jié)果幾乎和核 K1用如下帶寬執(zhí)行的結(jié)果相同:(K1) )=h2.(5.7);(K2)| f”|2.當(dāng)f是具這就是經(jīng)典核概念的思想( Marron和Nolan 1988).它允許兩個(gè)研究者比較平滑的量, 即使他們用的是兩個(gè)不同的核.泛函高斯均勻Epanechnikov雙權(quán)三權(quán)2(K)10.33330.20000.14290.1111211K |20.28210.50000.06000.71430.8159二(K)0.77641.35011.71882.036
15、22.3122:(K)0.36330.37010.34910.35080.3529表5.1一些與核函數(shù)相關(guān)的有用的常數(shù)最優(yōu)帶寬(5.5)不是直接可用的,這是因?yàn)樗蕾囉谖粗膮?shù)132有標(biāo)準(zhǔn)差仃的高斯密度時(shí),人們能夠容易地由(5.5)推導(dǎo)出(5.8)%pt, = (8,二 /3* K(二T 1./5正態(tài)參考帶寬選擇 (例如見 Bickel和Doksum, 1977及Silverman (1986)是通過在(5.8) 中用樣本標(biāo)準(zhǔn)差s代替未知參數(shù)。來獲得得的.特別地,在數(shù)值地計(jì)算了常數(shù) a(K)后,我們有下列正態(tài)參考帶寬選擇i1. 0J6T-/ 5對(duì)高斯核, TOC o 1-5 h z hoP4
16、 三1 / 5 T4六(5)2. 3s4T_ 對(duì) Epanechnikov通過在高斯密度周圍對(duì)f作Edgeworth展開可獲得得一個(gè)改良的帶寬選擇.這個(gè)帶寬選擇由Hjort和Jones (1996b)提供)由下式給出_ _J/5kpt,T二/35十的尸:十里1I48321024其中鼻和丫4分別是樣本斜度和峰度,其定義為T3 =(T -1)-*z (Xt -X)3/s3 ,11 T4 =(T -1)dy (Xt -X)4/x4 -3.tw正態(tài)參考寬選擇只是一個(gè)簡(jiǎn)單的經(jīng)驗(yàn)方法.當(dāng)數(shù)據(jù)接近高斯分布時(shí),它是一個(gè)好的選擇,而且在許多應(yīng)用中,常常是適當(dāng)?shù)?然而,當(dāng)真實(shí)分布是非對(duì)稱或多峰時(shí),它可能導(dǎo)致過度平
17、滑.在此情形,人們或者主觀地調(diào)整帶寬,或者用更精細(xì)的帶寬選擇方法來選擇所要的帶寬.人們帶可以先對(duì)數(shù)據(jù)做變換,使其分布接近于正態(tài),然后,用正態(tài)參考帶寬選擇估計(jì)密度,再應(yīng)用逆變換獲得原始數(shù)據(jù)的密度估計(jì).這個(gè)方法被稱為變換法.見下面(5.12).對(duì)由圖5.3說明的非對(duì)稱分布,正態(tài)參考帶寬選擇給出徑微的過度平滑估計(jì).對(duì)圖5.4 (c)中的雙峰數(shù)據(jù),正態(tài)參考帶寬選擇是 h = 0.23,這導(dǎo)致一個(gè)過度平滑估計(jì).因 此,址到獲得一個(gè)適當(dāng)?shù)墓烙?jì)(圖 5.4中的實(shí)線)時(shí),我們才減少平滑量 .有為數(shù)不多的幾個(gè)重要的帶寬選擇方法,諸如cross-validation (CV)和plug-in帶寬選擇.理論上合理、
18、經(jīng)驗(yàn)上執(zhí)行良好的概念上簡(jiǎn)單的方法是plug-in方法.該方法依賴于在(5.5)中尋找泛函11fl2的一個(gè)估計(jì).這個(gè)方法的一個(gè)好的補(bǔ)充由Sheather和Jones(1991)提出.帶寬選擇進(jìn)展的一個(gè)總結(jié)可在Jones, Marron和Sheather(1996)中找到.還可參閱6.3.5.5.5 邊界修正在許多情況中,已知密度f有一個(gè)有界的支撐.例如,利率不能小于零.一個(gè)自然的 假定是利率有支撐0,比).事實(shí)上,過去的四十多年中,最低短期利率是2.11%,而最高利率是16.76%.因此,假定短期利率有支撐區(qū)間2%, 17%不是沒有道理的.然而,因?yàn)?33 核密度估計(jì)在觀測(cè)數(shù)據(jù)點(diǎn)的周圍平滑地散布
19、點(diǎn)團(tuán),所以靠近支撐邊界的一些點(diǎn)會(huì)分布在密度支撐之外(見圖 5.3).故而核密度估計(jì)是在邊界范圍里估計(jì)密度.如在圖5.3所見,對(duì)大的帶寬和對(duì)密度有高峰白左邊界,問題更嚴(yán)重.因此,做一些矯正是必需的.為了獲得一些進(jìn)一步的知識(shí), 不失一般性,我們假定密度函數(shù) f有有界的支撐0,1, 并在左邊界處理密度估計(jì).為簡(jiǎn)單起見,假設(shè) K有支撐-1,1.則點(diǎn)x = ch(0 W C 0.(5.11) HYPERLINK l bookmark71 o Current Document T yy注意,當(dāng)x偏離邊界時(shí),(5.11)中的第二項(xiàng)實(shí)際上是可被忽略的 .因此,僅需要修正邊 界附近的估計(jì).見Schuster (
20、1985)及Hall和Wehrly (1991).這個(gè)估計(jì)是基于合成數(shù)據(jù) 土Xt,t =1|,T的兩次核密度估計(jì),一般地,如果左邊界點(diǎn)是小 (代替0),則合成數(shù)據(jù)是TXtx0),Xt,t=1MI,T, 所得的估計(jì)為*1 TTfh(x)Kh(Xt-x) x Kh(x0-Xt-x) , x-X0.T .tmtd圖5.5給出模擬數(shù)據(jù),圖5.6 (a)描繪了基于這個(gè)方法給出的估計(jì).所用的核為高斯核,帶寬為0.344.另一個(gè)簡(jiǎn)單的方法是先對(duì)數(shù)據(jù)做如下變換Y =g(XJ,i =1,IH,n ,其中g(shù)是從到好的單調(diào)增函數(shù).現(xiàn)在,應(yīng)用核密度估計(jì)(5.1)到這個(gè)變換數(shù)據(jù)集,獲得彳計(jì)fy(y),再應(yīng)用逆變換得到所
21、要的X的密度.這就導(dǎo)致如下結(jié)果Tf X(x) = gx。丫 g(x(3g xTZ Kh g x (-a Xt , ()5.12)11134虛線一一估計(jì)的曲線.邊界影響可被容易地看到這里9()是9()的導(dǎo)函數(shù).圖5.6 (b)用對(duì)圖5.5中的數(shù)據(jù)使用對(duì)數(shù)變換來說明這一想法.我們首先應(yīng)用核密度估計(jì)變換后的數(shù)據(jù)-log(Xt),t =1,|,200,以獲得fY(y).對(duì)變換數(shù)據(jù)使用高斯核,由高斯參考帶寬選擇得到h= 0.344.因此,所得密度估計(jì)是fX(x)= fY(logx)/x,或 f X (exp(x) = exp(-x) f Y (x).這樣,相對(duì)于 exp(-x)f Y(x) 畫exp(x
22、),可得所要的密度估計(jì).在點(diǎn)x =0處的密度對(duì)應(yīng)變換數(shù)據(jù)密度的尾部, 注意到 log(0) =-,由于在尾部缺乏數(shù)據(jù)的原因,通常密度不能被很好地估計(jì).除了在這一點(diǎn)處,變換方法有很好的表現(xiàn) .(b)用變換方法所得的核密度估計(jì).實(shí)線一一真實(shí)曲線;圖5.6 (a)用反射方法所得的核密度估計(jì);虛線一一估計(jì)的曲線1355.6 漸近結(jié)果*我們現(xiàn)在給出當(dāng)樣本容量 Ttg時(shí),核密度估計(jì)的漸近偏度和方差.必然地,帶寬h要依賴于T ,而且趨于零.用在這里的想法能夠推廣到更復(fù)雜的結(jié)構(gòu),比如非參數(shù)回歸 我們從一個(gè)簡(jiǎn)單的引理開始,它對(duì)導(dǎo)出漸近偏度是有用的引理5.1 令f在其支撐白內(nèi)點(diǎn)x有連續(xù)的有界 p階導(dǎo)數(shù).假定函數(shù)
23、K滿足J jupK(u) |du 0.這就完成了證明.注意,當(dāng)核函數(shù) K有有界支撐時(shí),以上積分取值范圍僅是x的一個(gè)鄰域.因此,只需假定密度f在點(diǎn)x處有連續(xù)的p階導(dǎo)數(shù).鑒于這個(gè)原因,為簡(jiǎn)單的緣故,常假定 K有 有界支撐.去掉這個(gè)假定將以冗長(zhǎng)的論證作為代價(jià) .特別地,高斯核被允許作為核函數(shù) .使用以上引理和(5.2),對(duì)滿足下式的核函數(shù);K(u)du =1, J ;uK(u)du =0, 在f有連續(xù)的二階導(dǎo)數(shù)的條件下,我們即得核密度估計(jì)的偏倚為 (區(qū)) f (x)h2 o(h2). 2如果f有更高階的導(dǎo)數(shù),通過要求以下條件,可得偏倚的階為O(hp)N0(K 尸 / K =) 0斤 IIH,p ,1
24、(5.13)但是,所得結(jié)論通常對(duì)實(shí)際的樣本大小不是本質(zhì)的.滿足(5.13)的核稱為p階核.當(dāng)p2時(shí),由于為(。=0, K不能再是非負(fù)的.現(xiàn)在,我們返回到計(jì)算方差分量.為此,我們假定過程Xt是有u混合系數(shù)a(k)的136 平穩(wěn)過程.進(jìn)一步,令gl (x, y)是X1和Xl卡的聯(lián)合密度.定理5.1令Xt是一個(gè)具有混合系數(shù)|口(1)區(qū)Cl邛的“混合過程,其中C 0, P 2.進(jìn)一步假定|gi IL=sup(x,y)gi(x, y)是有界的.假設(shè)K是具有有界支撐 的有界核函數(shù),滿足 N1(K) =0, hT 0 ,進(jìn)而ThTg.如果f在其支撐的內(nèi)點(diǎn)x處有 連續(xù)的二階導(dǎo)數(shù),則有L(K).22Ef h(x
25、)= f(x) 上 ) f (x)h2 o(h2)2和Var fh(x)二號(hào) 11K |2 +o().ThTh TOC o 1-5 h z 證明 由引理5.1直接得到偏度的表達(dá)式.這樣,僅需導(dǎo)出方差項(xiàng)的漸近表達(dá)式.令Zt =Kh(Xt x).則由Xt的平穩(wěn)性,我們有12 TlVar(fh(x)=1Var(Z1)?(1-1/T)Cov(Zi,Zii).TT 11注意,EZi = Ef h(x) =O(1).由變量變換和引理 5.1.可得Var(Z1) =EKh2(Xt -x)-(EZi)2 HYPERLINK l bookmark28 o Current Document 122=h 一 K2(
26、u)f(x hu)dx-(E乙)2= h,f(x)|K|2 +o(h).于是,我們僅需證明T 1Z |Cov(Z1,Zi2|=o(h).(5.14)1m由Billingsley不等式命題2.5之(ii),我們有| Cov(Zi,Zi 初宅 4a (1 )|乙 MZi 書 |g 4a(l )| K 瞑/h2.(5.15)另一方面,|Cov(Zi,Zi )|=|EZiZi 1 -(EZi)2|!:Kh(u-x)Kh(v-x)gi(u,v)dudv (EZi)2E|gi |屋+位乙)2.(5.16)因此,協(xié)方差有常數(shù) C為界.我們現(xiàn)在驗(yàn)證(5.14).令dTT m是一個(gè)整數(shù)序列.則由(5.16)得d
27、T 1v |Cov(Z1,ZM)|CdT. i 1由(5.15)和混合系數(shù)的假定,對(duì)某個(gè)常數(shù)D ,我們有137E |Cov(Z1,Zl+) |2 ,我們有T :v |Cov(Zi,Zi .i)|二O(h2 一)=o(1/h). 11因此,獲得得(5.14).這就完成了證明.逐點(diǎn)均方誤差可分解成如下的偏度和方差表示:2MSE(x) =Efh(x) - f(x)2= Efh(x)-f(x)2 Varfh(x).由定理5.1, MSE的逼近由(5.3)給出.相對(duì)于h,極小化(5.3)的右邊,在f ”(x) 0 的條件下,得到漸近逐點(diǎn)最優(yōu)帶寬hopt(x) = : (K)f (x) 25 f (x)1
28、/5T/5.最小(理想)風(fēng)險(xiǎn),即 MSE (x)的主階逼近的最小值,由下式給出勺 P(K )f (x2)/5 f (x1/5T ,4/5(5.17)4其中P(K)在(5.6)中給出.類似地,極小化(5.4)的右邊得到最優(yōu)帶寬(5.5)和(5.6)中最小的(理想)MISE.因此,通過開方,核密度估計(jì)的收斂速度可達(dá)到T,/5.對(duì)某個(gè)1/5c 0 ,只要 h=cT ,就可達(dá)到這個(gè)速度.按照 Farrell (1972), Hasminskii (1978)和Stone (1980),在具有二階有界導(dǎo)數(shù)的函數(shù)類中,這是估計(jì)密度函數(shù)可能達(dá)到的最快速度.核密度估計(jì)的漸近正態(tài)性仍然成立.我們不加證明地?cái)⑹鲞@
29、個(gè)定理,它非常類似于定 理6.3的證明.我們將它留給讀者作為練習(xí).如果混合條件a(l) Wc|l |羋,P 2,被加強(qiáng),則條件Th5/3 t電能夠被放松.5/3定理5.2 在定理5.1的條件下,如果Th T9,則我們有而 fh(x) f (x) K) f “(x)h2 +o(h2)- N(0, f (x)| K|2).核密度估計(jì)具有許多好的性質(zhì).可參閱Bosq (1988)的第二章.我們證明一個(gè)類似于Bosq (1988)定理2.2的結(jié)果,但顯著地放松了對(duì)幾何混合條心的要求定理5.3 假定過程Xt的混合系數(shù)滿足(l) 5/2.設(shè)Xt的密度f在區(qū)間a, b上是有界的,K滿足Lipschitz條件
30、.則sup | f h(x) -E fh(x) |=Oppog,xa,b. Th其中h以下列方式T 0 ,138T2h 5(logT),2 i/4,二.作為定理5.3的一個(gè)推論,當(dāng)過程是幾何混合時(shí),即支(l ) 0, PW 0,1對(duì)任意的(0,1)和 d A0, h=dT一7 定理 5.3成立.定理5.3 一致地控制著核密度估計(jì)的隨機(jī)誤差.偏度項(xiàng)Efh(x)-f(x)是確定性的,且由引理5.1,容易得到它的一致有界性.它有階O(h2).通過選擇h = O(logT/T)1/5), 當(dāng)a(l) 15/ 4 ,得到sup | fh(x) - f (x) | sup |Ef h(x) - f(x)|
31、 sup | f h(x) - Ef h(x)| x 二a,bx-a,bx a,b= OP(logT/T)2/5.按照Hasminskii (1978),這個(gè)速度是最優(yōu)的.一致收斂更精確的描述由Bickel和Rosenblatt ( 1973)給出.他們對(duì)獨(dú)立樣本導(dǎo)出了如下標(biāo)準(zhǔn)化統(tǒng)計(jì)量的漸近分布Mt = sup f(x)| K |2 /(Th)/2( fh(x)-Efh(x).0 xd我們期望在一定的混合條件下,結(jié)論對(duì)平穩(wěn)過程還成立.這里使用區(qū)間0,1是為了方便.f的支撐可以被任意區(qū)間所代替.我們要求密度f在0,1上是連續(xù)的和正的,而且f (x)/ f1/2(x)和f (x)在0,1上是有界的
32、.假定K是有界的,且關(guān)于 0點(diǎn)對(duì)稱.此外, K或者在區(qū)間-A,A外為零,且在-A,A上絕對(duì)連續(xù),并有導(dǎo)數(shù)K,或者在(戶) 絕對(duì)連續(xù)使得N2(K),口(K)和11Kli2是有限的.定理5.4 在以上條件下,如果X1,川,Xt是獨(dú)立同分布的,h=cT,其中0 6 0,如果 c(K)=K2(A)/|K|20,則令一1/2 一2/2 一1/2 _dT =(2log h)+(2log h) log c(K)/冗-0.5loglog h,否則,令1/24/2II K |2dT =(-2logh)(-2log h) 10g 411K li2 .我們有P 1(-210g h)1/2(MT -dT)二 x J
33、exp(-2exp( -x).1/2.定理5.4的一個(gè)推論是 Mt =Op(-log h) .由此得到1/2sup f h(x) -E f h(x) =Op-(log h)/(Th)1/2, 0*i1即與定理5.3給出的階相同.定理5.4的一個(gè)應(yīng)用是對(duì)一切的 f(x),xW0,1,構(gòu)造聯(lián)合置信區(qū)間.實(shí)際上,由定理 5.4,相對(duì)于逼近概率1 -6,_4/ 2-1一Mt 二dT -(一2log h) log log(1 -0. 4a證明 首先,我們注意到,對(duì)任意的h 0 , B(Kh) = P(K).令K0是Epanechnikov 核.對(duì)任意別的非負(fù) K ,如果必要,通過變換尺度,我們假定匕(K
34、) = L(K0).這樣,我們僅需證明11Ko|W|K|.令3 =K -K0.則(u)du =0,二u2、(u)du =0.并蘊(yùn)涵了:(1-u2)、(u)du =0.由此式和K0有支撐1,1的事實(shí),我們有.二(u)K0(u)du = . |u|、(u)(1-u2)du= -:i|u| 1 (u)(1 -u2)du 二|u| 1K(u)(u2 -1)du .由于K是非負(fù)的,故上面最后一項(xiàng)也是非負(fù)的.因此,.K2(u)du - J Ko(u)du 2. (u)、(u)du .1 2(u)du二 2-一 K:(u)du,這就證明了 K是最優(yōu)核.140補(bǔ)充定理5.3的證明在這一節(jié)中,我們都用 C表示一
35、般常數(shù),在同一表達(dá)中是可變的.我們首先把在區(qū)間a,b上的上確界問題轉(zhuǎn)變?yōu)樵趨^(qū)間上的點(diǎn)格的極大化問題.為此目的,我們把區(qū)間a,b分割成N個(gè)長(zhǎng)度相等的子區(qū)間Ij.令為是Ij的中心.由于K滿足Lipschitz條件)我們概率為 1地有T| fh(x) -fh(x)|Td- |Kh(x-Xt)-Kh(x -Xt)|ChJ|x-x |.一由此得到|Efh(x) -Efh(x)| E|fh(x)-fh(x)|ChJ|x-x |.由上述不等式,我們有sup| fh(x) -Efh(x)|-| fh(xj) -Ef h(xj)| C(Nh)-1.x -I jxsup|fh(x)-Efh(x)|Smax|fh(
36、xj)-Efh(xj)| C(Nh)-1.取N =(T/h)1/2 ,我們得到sup fh x( -)Efh x ()l mfax(j| -5fh)xj +C(Th)t2 (5.)18) xab 1N現(xiàn)在,我們來估f h(x) E f h(x)的尾部概率的界.令Y =Kh(xXt)EKh(xXt), 則|Y |b0和每一個(gè)整數(shù)qW1,T/2, 我們有P| fh(x)-Efh(x)| s) N4T 1 T4/2 0.75h,235(logT廠/2 0.25=o(1) O( Th) 2 n4 h2(log T)(2 :1)/ 4它是趨于零的由此可得1/2max |1胃吧fh(Xj) -Efh(Xj
37、)| = Op聯(lián)合(5.18)便證明了定理文獻(xiàn)注釋非參數(shù)平滑的文獻(xiàn)量是很大的,其遍布的范圍包括核密度估計(jì)、非參數(shù)回歸、時(shí)域 平滑、譜密度估計(jì)和在別的統(tǒng)計(jì)估計(jì)中的應(yīng)用.實(shí)際上,大多數(shù)參數(shù)問題都有它們的非參數(shù)配又物.大多數(shù)非參數(shù)的結(jié)果都能由獨(dú)立數(shù)據(jù)推廣到相依數(shù)據(jù).在過去的三十年中,非參數(shù)函數(shù)估計(jì)是最活躍的領(lǐng)域之一.許多新的方法已經(jīng)被發(fā)明,許多新的現(xiàn)象被公諸于眾不可能對(duì)這個(gè)龐大領(lǐng)域給出一個(gè)全面的評(píng)述.更確切地,我們僅從這個(gè)活躍的領(lǐng)域中抽取一小部分參考文獻(xiàn).它們甚至也不能代表這個(gè)領(lǐng)域的許多重要貢獻(xiàn).在這個(gè)文獻(xiàn)注釋中,列在1.7的有關(guān)非參數(shù)函數(shù)估計(jì)的著作對(duì)獨(dú)立數(shù)據(jù)給出了大量詳細(xì)的討論.相關(guān)的文獻(xiàn)能夠在第
38、6章和第7章中找到.對(duì)相依數(shù)據(jù)非參數(shù)函數(shù)估計(jì)的廣泛而詳盡的處理方法能夠在Gy?rfi, H? rdle, Sarda和Vieu (1990), Rosenblatt (1991)和Bosq (1998)等專著中找到.它們把重點(diǎn)主要放在單 變量非參數(shù)平滑的理論發(fā)展上.對(duì)獨(dú)立數(shù)據(jù)的密度估計(jì)關(guān)于核密度估計(jì)有大量的文獻(xiàn).大多數(shù)研究工作的重點(diǎn)是在獨(dú)立隨機(jī)樣本方面.核密度估計(jì)的基本思想出現(xiàn)在Fix和Hodges (1951)的技術(shù)報(bào)告中.漸近均方誤差和漸近平均平方積分誤差被 Rosenblatt (1956), Parzen ( 1962)及 Watson 和 Leadbetter (1963) 所研究.
39、關(guān)于核密度估計(jì)有許多著作,包才D Devroye和Gy?rfi (1985), Silverman (1986),Scott(1992), Wand和Jones(1995)等.核密度估計(jì)的各種性質(zhì)能夠在Prakasa Rao(1983)和Nadaraya ( 1989)的著作中發(fā)現(xiàn).核密度估計(jì)的性質(zhì)已被廣泛的研究.為減小偏度而使用高階核的思想可追溯到Parzen (1962)和Bartlett (1963) . Davis (1975)對(duì)超平滑密度用正弦核獲得了一個(gè)接近1421/2 .n 相合估計(jì).取優(yōu)核理論由 Gasser, M ller 和 Mammitzsch (1985), Grano
40、vsky 和 Muller (1991), Muller (1993)等做了廣泛的發(fā)展.密度估計(jì)的最優(yōu)收斂速度由Farrell (1972)研究.Hasminskii (1979)和Stone (1980,1982)做了進(jìn)一步的研究 .Ibragimov 和 Hasminskii (1984), Donoho 和 Liu (1991a,b), Fan ( 1993b), Low (1993)等推廣到極小極大研究的范圍.Sobolov空間上更深刻的漸近極小極大風(fēng)險(xiǎn)由 Pinsker ( 1980), Efromovich 和 Pinsker (1982), Nussbaum (1985)等建 立.這些最優(yōu)收斂速度依賴于未知函數(shù)的平滑程度.自適應(yīng)方法已被構(gòu)造使其對(duì)每一個(gè)給定的函數(shù)類都幾乎是最優(yōu)的.例如,見 Efromovich (1985), Lepski (1991), Donoho和 Johnstone ( 1995, 96, 98), Donoho , Johnstone, Kerkyacharian 和 Picard (1995),
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025關(guān)于消防安全的責(zé)任合同書范文
- 2025關(guān)于商店承包合同的樣本
- 鐵路貨運(yùn)專用線建設(shè)合同三篇
- 培養(yǎng)創(chuàng)新人才的教研探索
- 2025合同無效的類型
- 2025前期物業(yè)服務(wù)合同(示范)
- 小學(xué)數(shù)學(xué)教育的市場(chǎng)潛力與開發(fā)
- 完善秋季教學(xué)設(shè)備與設(shè)施計(jì)劃
- 翻譯公司前臺(tái)服務(wù)總結(jié)
- 技術(shù)領(lǐng)域的創(chuàng)新團(tuán)隊(duì)構(gòu)建案例分享
- 采空區(qū)穩(wěn)定性可靠度分析
- 軟件無線電原理與應(yīng)用第3版 課件 【ch03】軟件無線電體系結(jié)構(gòu)
- 石油化工裝置火炬系統(tǒng)堵塞風(fēng)險(xiǎn)分析
- 2023年山東省泰安市中考英語試卷(含解析)
- 防突抽采隊(duì)202年度工作總結(jié)
- 四川省石棉縣石石石材有限責(zé)任公司石棉縣大巖窩花崗石礦礦山地質(zhì)環(huán)境保護(hù)與土地復(fù)墾方案
- 2023年ERCP圍手術(shù)期用藥專家共識(shí)意見
- 2019年內(nèi)蒙古鄂爾多斯市中考數(shù)學(xué)試題(原卷+解析)
- 塑鋼門窗及鋁合金門窗制作和安裝合同
- 人衛(wèi)兒科學(xué)生兒缺氧缺血性腦病
- 網(wǎng)絡(luò)春晚晚會(huì)方案
評(píng)論
0/150
提交評(píng)論