統(tǒng)計(jì)學(xué)bootstrap_第1頁(yè)
統(tǒng)計(jì)學(xué)bootstrap_第2頁(yè)
統(tǒng)計(jì)學(xué)bootstrap_第3頁(yè)
統(tǒng)計(jì)學(xué)bootstrap_第4頁(yè)
統(tǒng)計(jì)學(xué)bootstrap_第5頁(yè)
已閱讀5頁(yè),還剩50頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、1上節(jié)課內(nèi)容總結(jié)n統(tǒng)計(jì)推斷基本概念n統(tǒng)計(jì)模型:參數(shù)模型與非參數(shù)模型n統(tǒng)計(jì)推斷/模型估計(jì):點(diǎn)估計(jì)、區(qū)間估計(jì)、假設(shè)檢驗(yàn)n估計(jì)的評(píng)價(jià):無(wú)偏性、一致性、有效性、MSEn偏差、方差、區(qū)間估計(jì)nCDF估計(jì):n點(diǎn)估計(jì)、偏差、方差及區(qū)間估計(jì)n統(tǒng)計(jì)函數(shù)估計(jì)n點(diǎn)估計(jì)n區(qū)間估計(jì)/標(biāo)準(zhǔn)誤差n影響函數(shù)nBootstrapnBootstrap也可用于偏差、置信區(qū)間和分布估計(jì)等計(jì)算2本節(jié)課內(nèi)容n重采樣技術(shù)(resampling)nBootstrapn刀切法(jackknife)3引言n 是一個(gè)統(tǒng)計(jì)量,或者是數(shù)據(jù)的某個(gè)函數(shù),數(shù)據(jù)來(lái)自某個(gè)未知的分布F,我們想知道 的某些性質(zhì)(如偏差、方差和置信區(qū)間)n假設(shè)我們想知道 的方差n如

2、果 的形式比較簡(jiǎn)單,可以直接用上節(jié)課學(xué)習(xí)的嵌入式估計(jì)量 作為 的估計(jì)n例: ,則n ,其中 n ,其中n問(wèn)題:若 的形式很復(fù)雜(任意統(tǒng)計(jì)量),如何計(jì)算/估計(jì)?()1,.,nnTg XX=nTnT( )FnTV( )FnTV( )FnTV( )nnFTV11nniiTnX-=( )2FnTns=V()( )( )22,xdF xxdF xsmm=-=蝌( )2nnFTns=V()221nniiXXns=-( )FnTV4Bootstrap簡(jiǎn)介nBootstrap是一個(gè)很通用的工具,用來(lái)估計(jì)標(biāo)準(zhǔn)誤差、置信區(qū)間和偏差。由Bradley Efron于1979年提出,用于計(jì)算任意估計(jì)的標(biāo)準(zhǔn)誤差n術(shù)語(yǔ)“B

3、ootstrap”來(lái)自短語(yǔ)“to pull oneself up by ones bootstraps” (源自西方神話故事“ The Adventures of Baron Munchausen”,男爵掉到了深湖底,沒有工具,所以他想到了拎著鞋帶將自己提起來(lái))n計(jì)算機(jī)的引導(dǎo)程序boot也來(lái)源于此n意義:不靠外界力量,而靠自身提升自己的性能,翻譯為自助/自舉n1980年代很流行,因?yàn)橛?jì)算機(jī)被引入統(tǒng)計(jì)實(shí)踐中來(lái)5Bootstrap簡(jiǎn)介nBootstrap:利用計(jì)算機(jī)手段進(jìn)行重采樣n一種基于數(shù)據(jù)的模擬(simulation)方法,用于統(tǒng)計(jì)推斷?;舅枷胧牵豪脴颖緮?shù)據(jù)計(jì)算統(tǒng)計(jì)量和估計(jì)樣本分布,而不對(duì)

4、模型做任何假設(shè)(非參數(shù)bootstrap)n無(wú)需標(biāo)準(zhǔn)誤差的理論計(jì)算,因此不關(guān)心估計(jì)的數(shù)學(xué)形式有多復(fù)雜nBootstrap有兩種形式:非參數(shù)bootstrap和參數(shù)化的bootstrap,但基本思想都是模擬6重采樣n通過(guò)從原始數(shù)據(jù) 進(jìn)行n次有放回采樣n個(gè)數(shù)據(jù),得到bootstrap樣本n對(duì)原始數(shù)據(jù)進(jìn)行有放回的隨機(jī)采樣,抽取的樣本數(shù)目同原始樣本數(shù)目一樣n如:若原始樣本為n則bootstrap樣本可能為()1,.,nXXX=()1*,.,nbXXX=()12345,XXXXXX=()*123545,XXXXXX=()*213145,XXXXXX=7計(jì)算bootstrap樣本n重復(fù)B次,n1. 隨機(jī)選

5、擇整數(shù) ,每個(gè)整數(shù)的取值范圍為1, n,選擇每個(gè)1, n之間的整數(shù)的概率相等,均為n2. 計(jì)算bootstrap樣本為:nWeb上有matlab代碼:nBOOTSTRAP MATLAB TOOLBOX, by Abdelhak M. Zoubir and D. Robert Iskander,n.au/downloads/bootstrap_ toolbox.htmlnMatlab函數(shù):bootstrp1 n1,.,nii()*1,.,iinXXX=8Bootstrap樣本n在一次bootstrap采樣中,某些原始樣本可能沒被采到,另外一些樣本可

6、能被采樣多次n在一個(gè)bootstrap樣本集中不包含某個(gè)原始樣本 的概率為n一個(gè)bootstrap樣本集包含了大約原始樣本集的1-0.368 = 0.632,另外0.368的樣本沒有包括()11,1,.10.368njiXXjnen-驏=-換桫PiX9模擬n假設(shè)我們從 的分布 中抽取IID樣本 ,當(dāng) 時(shí),根據(jù)大數(shù)定律,n也就是說(shuō),如果我們從 中抽取大量樣本,我們可以用樣本均值 來(lái)近似n當(dāng)樣本數(shù)目B足夠大時(shí),樣本均值 與期望 之間的差別可以忽略不計(jì)()( ),11BPnn bnnbTTtdGtTB=EnT,1,.,nn BTTnT( )nTEnT( )nTEnGnGB10模擬n更一般地,對(duì)任意均

7、值有限的函數(shù)h,當(dāng) 有n則當(dāng) 時(shí),有n用模擬樣本的方差來(lái)近似方差()()()( )(),11BPn bnnbh Th t dGth TB=E()()()( )22,11BPn bnnnnbTTTTTB=-=EV( )nTV()()2,n bn bnh TTT=-B11模擬n怎樣得到 的分布?n已知的只有X,但是我們可以討論X的分布Fn如果我們可以從分布F中得到樣本 ,我們可以計(jì)算n怎樣得到F?用 代替(嵌入式估計(jì)量)n怎樣從 中采樣?n因?yàn)?對(duì)每個(gè)數(shù)據(jù)點(diǎn) 的質(zhì)量都為1/n n所以從 中抽取一個(gè)樣本等價(jià)于從原始數(shù)據(jù)隨機(jī)抽取一個(gè)樣本n也就是說(shuō):為了模擬 ,可以通過(guò)有放回地隨機(jī)抽取n個(gè)樣本(boot

8、strap 樣本)來(lái)實(shí)現(xiàn)1*,.,nXX()1*,.,nnTg XX=1*,.,nnXXFnTnFnFnFnF1,.,nXX12Bootstrap:一個(gè)重采樣過(guò)程n重采樣:n通過(guò)從原始數(shù)據(jù) 進(jìn)行有放回采樣n個(gè)數(shù)據(jù),得到bootstrap樣本n模擬:n為了估計(jì)我們感興趣的統(tǒng)計(jì)量 的方差/中值/均值,我們用 bootstrap樣本對(duì)應(yīng)的統(tǒng)計(jì)量(bootstrap復(fù)制) 近似,其中()1,.,nXXX=( )()1,.,nnTgg XX=X( )* ,1111BBn bootn bbbbTTgBB=邋X( )(),1,*,.,n bbn bbTg Xg XX=()1,*,.,bn bbXXX=1,.

9、,bB=13例:中值X = (3.12, 0, 1.57, 19.67, 0.22, 2.20)Mean=4.46X1=(1.57,0.22,19.67, 0,0,2.2,3.12)Mean=4.13X2=(0, 2.20, 2.20, 2.20, 19.67, 1.57)Mean=4.64X3=(0.22, 3.12,1.57, 3.12, 2.20, 0.22)Mean=1.74()14.134.641.743.503bootMean=+=14Bootstrap方差估計(jì)n方差: n其中n注意:F為數(shù)據(jù)X的分布,G為統(tǒng)計(jì)量T的分布n通過(guò)兩步實(shí)現(xiàn):n第一步:用 估計(jì) n插入估計(jì),積分符號(hào)變成求

10、和n第二步:通過(guò)從 中采樣來(lái)近似計(jì)算nBootstrap采樣+大數(shù)定律近似()()22,TTntdGtsm=-( )2FnTTns=V()TntdGtm=( )()2*,1111, nBBnn bnnn bFbbTTTTTBB=-=邋V( )FnTV( )nnFTV( )nnFTVnF15Bootstrap:方差估計(jì)nBootstrap的步驟:n1.畫出n2.計(jì)算n3.重復(fù)步驟1和2共B次,得到n4.(大數(shù)定律)2*,1111Bnbootn bn rbrvTTBB=驏=-桫邋(計(jì)算boostrap樣本)(計(jì)算boostrap復(fù)制)*1,.,nnXXF:()*1,.,nnTg XX=*,1,.,

11、nn BTT16例:混合高斯模型:n假設(shè)真實(shí)分布為n現(xiàn)有n=100個(gè)觀測(cè)樣本:( )()()2: 0.21,20.86,1FF XNN=+5,m=()1100,.,XXX=4.997,nX =( )()2221 nniniXXXns=-V直接用嵌入式估計(jì)結(jié)果:0.0484=7.0411 4.8397 5.3156 6.7719 7.06165.2546 7.3937 4.3376 4.4010 5.17247.4199 5.3677 6.7028 6.2003 7.57074.1230 3.8914 5.2323 5.5942 7.14793.6790 0.3509 1.4197 1.7X =

12、585 2.4476-3.8635 2.5731 -0.7367 0.5627 1.6379-0.1864 2.7004 2.1487 2.3513 1.4833-1.0138 4.9794 0.1518 2.8683 1.62696.9523 5.3073 4.7191 5.4374 4.61086.5975 6.3495 7.2762 5.9453 4.69936.1559 5.8950 5.7591 5.2173 4.99804.5010 4.7860 5.4382 4.8893 7.29405.5741 5.5139 5.8869 7.2756 5.84496.6439 4.5224

13、5.5028 4.5672 5.87186.0919 7.1912 6.4181 7.2248 8.41537.3199 5.1305 6.8719 5.2686 5.80555.3602 6.4120 6.0721 5.2740 7.23297.0912 7.0766 5.9750 6.6091 7.21354.9585 5.9042 5.9273 6.5762 5.37024.7654 6.4668 6.1983 4.3450 5.3261輊犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏臌17例:混合高斯模型(續(xù))n用Bootstrap計(jì)算統(tǒng)計(jì)量 的方差:

14、n1. 得到B=1000個(gè)bootstrap樣本 ,其中n2. 計(jì)算B=1000個(gè)bootstrap樣本對(duì)應(yīng)的統(tǒng)計(jì)量的值n 3. ()1,100,*,., 1, ., bbbXXXbB=*11000,.,XX,*11n bn bi bniTXXn=nnTX=(),2*,1111,n bnBnbootnn rbrvXXXXBB=-=邋*1005.001,X=0.0489,bootv=與直接用嵌入式估計(jì)得到的結(jié)果比較:4.997,nX =20.0484,s=0.221bootbootsev=20.22ses=18Bootstrap:方差估計(jì)n真實(shí)世界:nBootstrap世界:n發(fā)生了兩個(gè)近似n近

15、似的程度與原始樣本數(shù)目n及bootstrap樣本的數(shù)目B有關(guān)()11,.,.,nnnnFXXTg XX揶=()*11,.,.,nnnnFXXTg XX揶=( )()( )()11nOnOBFnnbootFTTv=VV19Bootstrap:方差估計(jì)n在方差估計(jì)中, 可為任意統(tǒng)計(jì)函數(shù)n如均值(混合高斯模型的例子)n中值(偽代碼參見教材)n偏度(例子參見教材)n極大值(見后續(xù)例子)nn除了用來(lái)計(jì)算方差外,還可以用作其他應(yīng)用nCDF近似、偏差估計(jì)、置信區(qū)間估計(jì)nT20CDF近似n令 為 的CDFn則 的bootstrap估計(jì)為()()nnGtTt=PnTnG()()*,11Bnn bbGtI TtB

16、=21偏差估計(jì)n偏差的bootstrap估計(jì)定義為:nBootstrap偏差估計(jì)的步驟為:n得到B個(gè)獨(dú)立bootstrap樣本n計(jì)算每個(gè)bootstrap樣本 對(duì)應(yīng)的統(tǒng)計(jì)量的值n計(jì)算bootstrap期望:n計(jì)算bootstrap偏差:( )( )*bootnFnnBiasTTT=-E*1,.,BXX( )(),1,*,.,n bbn bbTg Xg XX=*,11nnn rrTTB=( )*nbootnnBiasTTT=-*bX22例:混合高斯模型: n標(biāo)準(zhǔn)誤差估計(jì)n在標(biāo)準(zhǔn)誤差估計(jì)中,B為50到200之間結(jié)果比較穩(wěn)定n偏差估計(jì)4.997nX =bootsebootBias( )*FXE23B

17、ootstrap置信區(qū)間n正態(tài)區(qū)間:n簡(jiǎn)單,但該估計(jì)不是很準(zhǔn)確,除非 接近正態(tài)分布n 百分位區(qū)間: ,對(duì)應(yīng) 的樣本分位數(shù)n還有其他一些計(jì)算置信區(qū)間的方法n如樞軸置信區(qū)間:()*212,nCTTaa-=2nTzseanT*,1,.,nn BTT()*1222,2,nCTTTTaa-=-24例:Bootstrap置信區(qū)間n例8.6:Bootstrap方法的發(fā)明者Bradley Efron給出了下列用語(yǔ)解釋Bootstrap方法的例子。這些數(shù)據(jù)是LAST分?jǐn)?shù)(法學(xué)院的入學(xué)分?jǐn)?shù))和GPA。計(jì)算相關(guān)系數(shù)及其標(biāo)準(zhǔn)誤差。LSAT (Y) 57663555857866658055566165160565357

18、5545572594GPA (Z)3.393.302.813.033.443.073.003.433.342.762.882.9625例8.6 (續(xù))n相關(guān)系數(shù)的定義為:n相關(guān)系數(shù)的嵌入式估計(jì)量為:nBootstrap得到的相關(guān)系數(shù)插入估計(jì)的標(biāo)準(zhǔn)誤差為:0.132bootse標(biāo)準(zhǔn)誤差趨向穩(wěn)定于()()()()( ) ()( )22,YzYzyzdF y zydF yzdF zmmqmm-=-蝌蝌()()()()220.776iiiiiiiYYZZYYZZq-=-邋$B50100200400800160032000.1410.1370.1330.132bootse26例8

19、.6 (續(xù))n當(dāng)B=1000時(shí),n 的直方圖為下圖,可近似為從 的分布采樣n95%的正態(tài)區(qū)間為:n95%的百分點(diǎn)區(qū)間為:n當(dāng)大樣本情況下,這兩個(gè)區(qū)間趨近于相同0.137bootse*1,.,Bqq$q$()0.7820.51, 1.00 se=()0.46, 0.96 27非參數(shù)bootstrap過(guò)程總結(jié)n對(duì)原始樣本數(shù)據(jù) 進(jìn)行重采樣,得到B個(gè)bootstrap樣本 ,其中b=1, , Bn 對(duì)每個(gè)bootstrap樣本 ,計(jì)算其對(duì)應(yīng)的統(tǒng)計(jì)量的值(bootstrap復(fù)制)n根據(jù)bootstrap復(fù)制 ,計(jì)算其方差、偏差和置信區(qū)間等n稱為非參數(shù)bootstrap方法,因?yàn)闆]有對(duì)F的先驗(yàn)(即F的知識(shí)

20、僅從樣本數(shù)據(jù)中獲得)()1,.,nXXX=()1*,.,nbXXX=( )(),1,*,.,n bbn bbTg Xg XX=*,1,.,bXbB=,*,1,.,n bTbB=28非參數(shù)bootstrapn統(tǒng)計(jì)量/統(tǒng)計(jì)函數(shù):n沒有對(duì)F的先驗(yàn),F(xiàn)的知識(shí)僅從樣本數(shù)據(jù)中獲得(CDF估計(jì)),統(tǒng)計(jì)函數(shù)的估計(jì)變?yōu)榍度胧焦烙?jì)n真實(shí)世界:nBootstrap世界:n如方差計(jì)算中,發(fā)生了兩個(gè)近似n近似的程度與樣本數(shù)目n及bootstrap樣本的數(shù)目B有關(guān)( )TT F=( )( )()1, ,.,nnnTT FTT Fg XX=()11,.,.,nnnnFXXTg XX揶=()*11,.,.,nnnnFXXTg

21、 XX揶=( )()( )()11nOnOBFnnbootFTTv=VV29Bootstrap的收斂性n例:混合高斯模型:n nn=100個(gè)觀測(cè)樣本:n4次試驗(yàn)得到不同B的偏差和方差的結(jié)果( )()(): 0.21,20.86,1FF XNN=+()1100,.,XX=XnnTX=bootsebootBias30Bootstrap的收斂性nB的選擇取決于n計(jì)算機(jī)的可用性n問(wèn)題的類型:標(biāo)準(zhǔn)誤差/偏差/置信區(qū)間/n問(wèn)題的復(fù)雜程度* ,11Bn bootn bbTTB=31Bootstrap失敗的一個(gè)例子n ,我們感興趣的統(tǒng)計(jì)量 為 n 的CDF用G表示n則 的pdf為 ()1,.,0,nXXUni

22、formq( )( )1nngGqqqqq-驏驏=桫 桫( )()()()1max,.,nGXXqqq=Q =PPq()max1max,.,nXXXq=()( )()1nnniiXFqqqq=驏= 桫Pq32Bootstrap失敗的一個(gè)例子(續(xù))n對(duì)非參數(shù)bootstrap,令n則n所以 ,非參數(shù)bootstrap不能很好地模擬真正的分布( )()1max,.,nnXXX=()()()()*11max,.,max,.,nnXXXXqq=PP()( ) is in the bootstrap samplenX= P()( )1 is not in the bootstrap samplenX=-

23、 P111nn驏=-桫()*0.632qq=P33Bootstrap失敗的一個(gè)例子(續(xù))n假設(shè)樣本數(shù)目n=10,樣本為 ,取參數(shù) X = (0.5729,0.1873,0.5984,0.2883,0.8722,0.4320,0.4896,0.7106,0.2754,0.7637) ()1,.,nXXX=()1max,.,nXXq=*q非參數(shù)bootstrap復(fù)制的直方圖B=1000,最高峰為 ()()*0.656011 10.6513nnqq=-=P理論結(jié)果:()1nngqqqq-驏驏=桫 桫g1q=0.8772q=34Bootstrap失敗的一個(gè)例子n為什么失?。縩EDF 不是真正分布 的很

24、好近似n為了得到更好的結(jié)果,需要F的參數(shù)知識(shí)或者 的平滑性n參數(shù)化的bootstrap表現(xiàn)很好,能很好模擬真正的分布nF()0,1FUniform=nF35Bootstrap的收斂性n給定n個(gè)IID數(shù)據(jù) ,要求n當(dāng) , 收斂于Fn 為 的嵌入式估計(jì)n統(tǒng)計(jì)函數(shù)的平滑性n平滑函數(shù):n均值、方差n不平滑函數(shù):數(shù)據(jù)的一個(gè)小的變化會(huì)帶來(lái)統(tǒng)計(jì)量的很大變化n順序統(tǒng)計(jì)量的極值(極大值、極小值)nF( )TT F=( )nnTT F=1,.,nXXn36參數(shù)化的bootstrapn真實(shí)世界:nBootstrap世界:n與非參數(shù)的bootstrap相比:nF的先驗(yàn)用參數(shù)模型表示n多了一個(gè)步驟:根據(jù)數(shù)據(jù)估計(jì)參數(shù) (

25、參數(shù)估計(jì)),從而得到 不是經(jīng)驗(yàn)分布函數(shù)EDFn重采樣:從估計(jì)的分布 采樣(產(chǎn)生隨機(jī)數(shù))();fxq();f xqF的先驗(yàn)nFqq();f xq();f xq()11,.,.,nnnXXTg XX揶=()*11,.,.,nnnXXTg XX揶=37例: 非參數(shù)bootstrap失敗的例子n ,取參數(shù) ,假設(shè)樣本數(shù)目n=10,樣本為 X = (0.5729,0.1873,0.5984,0.2883,0.8722,0.4320,0.4896,0.7106,0.2754,0.7637)n在參數(shù)bootstrap中:nF的先驗(yàn):n根據(jù)數(shù)據(jù)估計(jì)F中的參數(shù):n得到F的估計(jì):n從分布 產(chǎn)生B=1000個(gè)樣本

26、, 得到B個(gè) , 直方圖如右圖()1max,.,0.8722nXXq=()0,fUniformq;()1,.,0,nXXUniformq1q=()0,0.8722fUniform;nF*bX( )*maxbbXq=*q的分布為真正的分布()1nnggqqqq-驏驏=桫 桫38參數(shù)化的bootstrapn當(dāng)F為參數(shù)模型時(shí),參數(shù)化的bootstrap也可用于計(jì)算方差、偏差、置信區(qū)間等n如計(jì)算方差:2*,1111Bnbootn bn rbrvTTBB=驏=-桫邋0. 根據(jù)數(shù)據(jù) 估計(jì) f 的參數(shù) ,得到 f 的估計(jì)1. 抽取樣本2. 計(jì)算3. 重復(fù)步驟1和2 B次,得到4.();f xqq1,.,nX

27、X()*1,.,;nXXf xq:()*1,.,nnTg XX=*,1,.,nn BTT39參數(shù)bootstrap Vs. 非參數(shù)的bootstrapnF的先驗(yàn)n參數(shù)bootstrap中利用了分布F的先驗(yàn),表現(xiàn)為一個(gè)參數(shù)模型,因此多了一個(gè)步驟,估計(jì)F模型中的參數(shù)。當(dāng)先驗(yàn)?zāi)P驼_時(shí),參數(shù)bootstrap能得到更好的結(jié)果n而非參數(shù)bootstrap不利用F的先驗(yàn)知識(shí)就能得到正確的標(biāo)準(zhǔn)誤差(在大多數(shù)情況下)n參數(shù)bootstrap能得到與Delta方法(計(jì)算變量的函數(shù)的方差)相當(dāng)?shù)慕Y(jié)果,但更簡(jiǎn)單n重采樣n參數(shù)bootstrap中,通過(guò)從分布 中產(chǎn)生隨機(jī)數(shù),得到bootstrap樣本,得到的樣本通常

28、與原始樣本不重合n非參數(shù)bootstrap中,通過(guò)對(duì)原始樣本進(jìn)行有放回采樣實(shí)現(xiàn)對(duì) 的采樣,每個(gè)bootstrap樣本都是原始樣本集合的一部分二者相同的是模擬的思想();f xqnF40Bootstrap(參數(shù)/非參數(shù))不適合的場(chǎng)合n小樣本(n太?。﹏原始樣本不能很好地代表總體分布nBootstrap只能覆蓋原始樣本的一部分,帶來(lái)更大的偏差n結(jié)構(gòu)間有關(guān)聯(lián)n如時(shí)間/空間序列信號(hào)n因?yàn)閎ootstrap假設(shè)個(gè)樣本間獨(dú)立n臟數(shù)據(jù)n奇異點(diǎn)(outliers)給估計(jì)帶來(lái)了變化41刀切法(jackknife)42引言nBootstrap方法并不總是最佳的。其中一個(gè)主要原因是bootstrap樣本是從 產(chǎn)生而

29、不是從F產(chǎn)生。n問(wèn)題:能完全從F采樣或重采樣嗎?n如果樣本數(shù)目為n,答案是否定的!n若樣本數(shù)目為m (m n),則可以從F中找到數(shù)目為m的采樣/重采樣,通過(guò)從原始樣本X得到不同的子集就可以!n尋找原始樣本的不同子集相當(dāng)于從觀測(cè) 進(jìn)行無(wú)放回采樣,得到數(shù)目為m的重采樣樣本(在此稱為子樣本)這就是jackknife的基本思想。nF1,.,nXX43刀切法(jackknife)nJackknife由Maurice Quenouille (1949)首先提出n比bootstrap出現(xiàn)更早n與bootstrap相比,Jackknife ( m=n-1) 對(duì)計(jì)算機(jī)不敏感。nJackknife為一種瑞士小折刀

30、,很容易攜帶。通過(guò)類比, John W. Tukey (1958)在統(tǒng)計(jì)學(xué)中創(chuàng)造了這個(gè)術(shù)語(yǔ),作為一種通用的假設(shè)檢驗(yàn)和置信區(qū)間計(jì)算的方法。44Jackknife樣本nJackknife樣本定義為:一次從原始樣本 中留出一個(gè)樣本 :n Jackknife樣本中的樣本數(shù)目為m=n-1n共有n個(gè)不同的jackknife樣本n無(wú)需通過(guò)采樣手段得到 jackknife樣本()1,.,nXXX=, 1,.,iXin=()()111,., ,.,iiinXXXXX-+=()111,.,.,iiinXXXXXX-+=BOOTSTRAP MATLAB TOOLBOX中也有該功能45Jackknife復(fù)制n統(tǒng)計(jì)量為

31、:nJackknife復(fù)制為:n均值的jackknife復(fù)制為:()()(),niiTg X-=1,.,in=()111ninijijnXXXXnn-=-()1,.,nnTg XX=46Jackknife方差估計(jì)n 從原始樣本X中計(jì)算n個(gè)jackknife樣本n計(jì)算n個(gè)jackknife復(fù)制:n計(jì)算jackknife估計(jì)的方差:n (),1,.,iXin-=()()(),niiTg X-=1,.,in=()2()()()()1111,nnninijackniniiinvTTTTnn-=-=-=邋jackjacksev=47例:計(jì)算均值的方差n ,則n所以nnTX=()1nininXXTn-=-

32、()()()111111111nnnninininiiiinXXTTnXXnnnnn-=-=-邋()()22()11111njackninniinvTTXXnnn-=-=-=-( )( )22, niXXnss=VV()( )22221, 1niSXXSns=-=-E方差的無(wú)偏估計(jì)()2111nnnn XnXXnn=-=-48例:計(jì)算均值的方差n因子 比bootstrap中的因子 大多了。n直觀上,因?yàn)閖ackknife 方差 比bootstrap中的方差 小得多(相比bootstrap樣本,jackknife樣本與原始樣本更相似n事實(shí)上,因子 就是考慮特殊情況 得到的 (有點(diǎn)武斷)1nn-1

33、B()2()ninTT-()2*bnTT-nnTX=1nn-49例:混合高斯模型: nBootstrap結(jié)果:nJacknife結(jié)果:4.997nX =nnTX=0.22, 0jackjackseBias=bootsebootBias50例:混合高斯模型: n復(fù)制的直方圖nnTX=1000個(gè)Bootstrap復(fù)制100個(gè)Jacknife復(fù)制Jackknife復(fù)制之間的差異很小,每?jī)蓚€(gè)Jackknife樣本中只有兩個(gè)單個(gè)的原始樣本不同51Jackknife Vs. bootstrapn當(dāng)n較小時(shí),能更容易(更快)計(jì)算 n個(gè) jackknife復(fù)制。n但是,與bootstrap 相比,jackknife只利用了更少的信息(更少的樣本) 。n事實(shí)上, jackknife為bootstrap的一個(gè)近似(jackknife方差為bootstrap方差的一階近似

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論