上部分課內(nèi)容總結(jié)_第1頁
上部分課內(nèi)容總結(jié)_第2頁
上部分課內(nèi)容總結(jié)_第3頁
上部分課內(nèi)容總結(jié)_第4頁
上部分課內(nèi)容總結(jié)_第5頁
已閱讀5頁,還剩51頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、上節(jié)課內(nèi)容總結(jié)統(tǒng)計推斷基本概念統(tǒng)計模型:參數(shù)模型與非參數(shù)模型統(tǒng)計推斷/模型估計:點估計、區(qū)間估計、假設(shè)檢驗估計的評價:無偏性、一致性、有效性、MSE偏差、方差、區(qū)間估計CDF估計:點估計、偏差、方差及區(qū)間估計統(tǒng)計函數(shù)估計點估計區(qū)間估計/標(biāo)準(zhǔn)誤差影響函數(shù)BootstrapBootstrap也可用于偏差、置信區(qū)間和分布估計等計算1本節(jié)課內(nèi)容重采樣技術(shù)(resampling)Bootstrap刀切法(jackknife)2引言 是一個統(tǒng)計量,或者是數(shù)據(jù)的某個函數(shù),數(shù)據(jù)來自某個未知的分布F,我們想知道 的某些性質(zhì)(如偏差、方差和置信區(qū)間)假設(shè)我們想知道 的方差如果 的形式比較簡單,可以直接用上節(jié)課學(xué)習(xí)

2、的嵌入式估計量 作為 的估計例: ,則 ,其中 ,其中問題:若 的形式很復(fù)雜(任意統(tǒng)計量),如何計算/估計?3Bootstrap簡介Bootstrap是一個很通用的工具,用來估計標(biāo)準(zhǔn)誤差、置信區(qū)間和偏差。由Bradley Efron于1979年提出,用于計算任意估計的標(biāo)準(zhǔn)誤差術(shù)語“Bootstrap”來自短語“to pull oneself up by ones bootstraps” (源自西方神話故事“ The Adventures of Baron Munchausen”,男爵掉到了深湖底,沒有工具,所以他想到了拎著鞋帶將自己提起來)計算機的引導(dǎo)程序boot也來源于此意義:不靠外界力量,

3、而靠自身提升自己的性能,翻譯為自助/自舉1980年代很流行,因為計算機被引入統(tǒng)計實踐中來4Bootstrap簡介Bootstrap:利用計算機手段進(jìn)行重采樣一種基于數(shù)據(jù)的模擬(simulation)方法,用于統(tǒng)計推斷?;舅枷胧牵豪脴颖緮?shù)據(jù)計算統(tǒng)計量和估計樣本分布,而不對模型做任何假設(shè)(非參數(shù)bootstrap)無需標(biāo)準(zhǔn)誤差的理論計算,因此不關(guān)心估計的數(shù)學(xué)形式有多復(fù)雜Bootstrap有兩種形式:非參數(shù)bootstrap和參數(shù)化的bootstrap,但基本思想都是模擬5重采樣通過從原始數(shù)據(jù) 進(jìn)行n次有放回采樣n個數(shù)據(jù),得到bootstrap樣本對原始數(shù)據(jù)進(jìn)行有放回的隨機采樣,抽取的樣本數(shù)目同

4、原始樣本數(shù)目一樣如:若原始樣本為則bootstrap樣本可能為6計算bootstrap樣本重復(fù)B次,1. 隨機選擇整數(shù) ,每個整數(shù)的取值范圍為1, n,選擇每個1, n之間的整數(shù)的概率相等,均為2. 計算bootstrap樣本為:Web上有matlab代碼:BOOTSTRAP MATLAB TOOLBOX, by Abdelhak M. Zoubir and D. Robert Iskander, toolbox.htmlMatlab函數(shù):bootstrp7Bootstrap樣本在一次bootstrap采樣中,某些原始樣本可能沒被采到,另外一些樣本可能被采樣多次在一個bootstrap樣本集中

5、不包含某個原始樣本 的概率為一個bootstrap樣本集包含了大約原始樣本集的1-0.368 = 0.632,另外0.368的樣本沒有包括8模擬假設(shè)我們從 的分布 中抽取IID樣本 ,當(dāng) 時,根據(jù)大數(shù)定律,也就是說,如果我們從 中抽取大量樣本,我們可以用樣本均值 來近似當(dāng)樣本數(shù)目B足夠大時,樣本均值 與期望 之間的差別可以忽略不計9模擬更一般地,對任意均值有限的函數(shù)h,當(dāng) 有則當(dāng) 時,有用模擬樣本的方差來近似方差10模擬怎樣得到 的分布?已知的只有X,但是我們可以討論X的分布F如果我們可以從分布F中得到樣本 ,我們可以計算怎樣得到F?用 代替(嵌入式估計量)怎樣從 中采樣?因為 對每個數(shù)據(jù)點

6、的質(zhì)量都為1/n 所以從 中抽取一個樣本等價于從原始數(shù)據(jù)隨機抽取一個樣本也就是說:為了模擬 ,可以通過有放回地隨機抽取n個樣本(bootstrap 樣本)來實現(xiàn)11Bootstrap:一個重采樣過程重采樣:通過從原始數(shù)據(jù) 進(jìn)行有放回采樣n個數(shù)據(jù),得到bootstrap樣本模擬:為了估計我們感興趣的統(tǒng)計量 的方差/中值/均值,我們用 bootstrap樣本對應(yīng)的統(tǒng)計量(bootstrap復(fù)制) 近似,其中12例:中值X = (3.12, 0, 1.57, 19.67, 0.22, 2.20)Mean=4.46X1=(1.57,0.22,19.67, 0,0,2.2,3.12)Mean=4.13X

7、2=(0, 2.20, 2.20, 2.20, 19.67, 1.57)Mean=4.64X3=(0.22, 3.12,1.57, 3.12, 2.20, 0.22)Mean=1.7413Bootstrap方差估計方差: 其中注意:F為數(shù)據(jù)X的分布,G為統(tǒng)計量T的分布通過兩步實現(xiàn):第一步:用 估計 插入估計,積分符號變成求和第二步:通過從 中采樣來近似計算Bootstrap采樣+大數(shù)定律近似14Bootstrap:方差估計Bootstrap的步驟:1.畫出2.計算3.重復(fù)步驟1和2共B次,得到4.(大數(shù)定律)(計算boostrap樣本)(計算boostrap復(fù)制)15例:混合高斯模型:假設(shè)真實

8、分布為現(xiàn)有n=100個觀測樣本:直接用嵌入式估計結(jié)果:16例:混合高斯模型(續(xù))用Bootstrap計算統(tǒng)計量 的方差:1. 得到B=1000個bootstrap樣本 ,其中2. 計算B=1000個bootstrap樣本對應(yīng)的統(tǒng)計量的值 3. 與直接用嵌入式估計得到的結(jié)果比較:17Bootstrap:方差估計真實世界:Bootstrap世界:發(fā)生了兩個近似近似的程度與原始樣本數(shù)目n及bootstrap樣本的數(shù)目B有關(guān)18Bootstrap:方差估計在方差估計中, 可為任意統(tǒng)計函數(shù)如均值(混合高斯模型的例子)中值(偽代碼參見教材)偏度(例子參見教材)極大值(見后續(xù)例子)除了用來計算方差外,還可以

9、用作其他應(yīng)用CDF近似、偏差估計、置信區(qū)間估計19CDF近似令 為 的CDF則 的bootstrap估計為20偏差估計偏差的bootstrap估計定義為:Bootstrap偏差估計的步驟為:得到B個獨立bootstrap樣本計算每個bootstrap樣本 對應(yīng)的統(tǒng)計量的值計算bootstrap期望:計算bootstrap偏差:21例:混合高斯模型: 標(biāo)準(zhǔn)誤差估計在標(biāo)準(zhǔn)誤差估計中,B為50到200之間結(jié)果比較穩(wěn)定偏差估計22Bootstrap置信區(qū)間正態(tài)區(qū)間:簡單,但該估計不是很準(zhǔn)確,除非 接近正態(tài)分布 百分位區(qū)間: ,對應(yīng) 的樣本分位數(shù)還有其他一些計算置信區(qū)間的方法如樞軸置信區(qū)間:23例:Bo

10、otstrap置信區(qū)間例8.6:Bootstrap方法的發(fā)明者Bradley Efron給出了下列用語解釋Bootstrap方法的例子。這些數(shù)據(jù)是LAST分?jǐn)?shù)(法學(xué)院的入學(xué)分?jǐn)?shù))和GPA。計算相關(guān)系數(shù)及其標(biāo)準(zhǔn)誤差。24例8.6 (續(xù))相關(guān)系數(shù)的定義為:相關(guān)系數(shù)的嵌入式估計量為:Bootstrap得到的相關(guān)系數(shù)插入估計的標(biāo)準(zhǔn)誤差為:標(biāo)準(zhǔn)誤差趨向穩(wěn)定于25例8.6 (續(xù))當(dāng)B=1000時, 的直方圖為下圖,可近似為從 的分布采樣95%的正態(tài)區(qū)間為:95%的百分點區(qū)間為:當(dāng)大樣本情況下,這兩個區(qū)間趨近于相同26非參數(shù)bootstrap過程總結(jié)對原始樣本數(shù)據(jù) 進(jìn)行重采樣,得到B個bootstrap樣本

11、 ,其中b=1, , B 對每個bootstrap樣本 ,計算其對應(yīng)的統(tǒng)計量的值(bootstrap復(fù)制)根據(jù)bootstrap復(fù)制 ,計算其方差、偏差和置信區(qū)間等稱為非參數(shù)bootstrap方法,因為沒有對F的先驗(即F的知識僅從樣本數(shù)據(jù)中獲得)27非參數(shù)bootstrap統(tǒng)計量/統(tǒng)計函數(shù):沒有對F的先驗,F(xiàn)的知識僅從樣本數(shù)據(jù)中獲得(CDF估計),統(tǒng)計函數(shù)的估計變?yōu)榍度胧焦烙嬚鎸嵤澜纾築ootstrap世界:如方差計算中,發(fā)生了兩個近似近似的程度與樣本數(shù)目n及bootstrap樣本的數(shù)目B有關(guān)28Bootstrap的收斂性例:混合高斯模型: n=100個觀測樣本:4次試驗得到不同B的偏差和方

12、差的結(jié)果29Bootstrap的收斂性B的選擇取決于計算機的可用性問題的類型:標(biāo)準(zhǔn)誤差/偏差/置信區(qū)間/問題的復(fù)雜程度30Bootstrap失敗的一個例子 ,我們感興趣的統(tǒng)計量 為 的CDF用G表示則 的pdf為 31Bootstrap失敗的一個例子(續(xù))對非參數(shù)bootstrap,令則所以 ,非參數(shù)bootstrap不能很好地模擬真正的分布32Bootstrap失敗的一個例子(續(xù))假設(shè)樣本數(shù)目n=10,樣本為 ,取參數(shù) X = (0.5729,0.1873,0.5984,0.2883,0.8722,0.4320,0.4896,0.7106,0.2754,0.7637) 非參數(shù)bootstra

13、p復(fù)制的直方圖B=1000,最高峰為理論結(jié)果:33Bootstrap失敗的一個例子為什么失???EDF 不是真正分布 的很好近似為了得到更好的結(jié)果,需要F的參數(shù)知識或者 的平滑性參數(shù)化的bootstrap表現(xiàn)很好,能很好模擬真正的分布34Bootstrap的收斂性給定n個IID數(shù)據(jù) ,要求當(dāng) , 收斂于F 為 的嵌入式估計統(tǒng)計函數(shù)的平滑性平滑函數(shù):均值、方差不平滑函數(shù):數(shù)據(jù)的一個小的變化會帶來統(tǒng)計量的很大變化順序統(tǒng)計量的極值(極大值、極小值)35參數(shù)化的bootstrap真實世界:Bootstrap世界:與非參數(shù)的bootstrap相比:F的先驗用參數(shù)模型表示多了一個步驟:根據(jù)數(shù)據(jù)估計參數(shù) (參

14、數(shù)估計),從而得到 不是經(jīng)驗分布函數(shù)EDF重采樣:從估計的分布 采樣(產(chǎn)生隨機數(shù))F的先驗36例: 非參數(shù)bootstrap失敗的例子 ,取參數(shù) ,假設(shè)樣本數(shù)目n=10,樣本為 X = (0.5729,0.1873,0.5984,0.2883,0.8722,0.4320,0.4896,0.7106,0.2754,0.7637)在參數(shù)bootstrap中:F的先驗:根據(jù)數(shù)據(jù)估計F中的參數(shù):得到F的估計:從分布 產(chǎn)生B=1000個樣本 , 得到B個 , 直方圖如右圖的分布為真正的分布37參數(shù)化的bootstrap當(dāng)F為參數(shù)模型時,參數(shù)化的bootstrap也可用于計算方差、偏差、置信區(qū)間等如計算方

15、差:0. 根據(jù)數(shù)據(jù) 估計 f 的參數(shù) ,得到 f 的估計1. 抽取樣本2. 計算3. 重復(fù)步驟1和2 B次,得到4.38參數(shù)bootstrap Vs. 非參數(shù)的bootstrapF的先驗參數(shù)bootstrap中利用了分布F的先驗,表現(xiàn)為一個參數(shù)模型,因此多了一個步驟,估計F模型中的參數(shù)。當(dāng)先驗?zāi)P驼_時,參數(shù)bootstrap能得到更好的結(jié)果而非參數(shù)bootstrap不利用F的先驗知識就能得到正確的標(biāo)準(zhǔn)誤差(在大多數(shù)情況下)參數(shù)bootstrap能得到與Delta方法(計算變量的函數(shù)的方差)相當(dāng)?shù)慕Y(jié)果,但更簡單重采樣參數(shù)bootstrap中,通過從分布 中產(chǎn)生隨機數(shù),得到bootstrap樣本

16、,得到的樣本通常與原始樣本不重合非參數(shù)bootstrap中,通過對原始樣本進(jìn)行有放回采樣實現(xiàn)對 的采樣,每個bootstrap樣本都是原始樣本集合的一部分二者相同的是模擬的思想39Bootstrap(參數(shù)/非參數(shù))不適合的場合小樣本(n太?。┰紭颖静荒芎芎玫卮砜傮w分布Bootstrap只能覆蓋原始樣本的一部分,帶來更大的偏差結(jié)構(gòu)間有關(guān)聯(lián)如時間/空間序列信號因為bootstrap假設(shè)個樣本間獨立臟數(shù)據(jù)奇異點(outliers)給估計帶來了變化40刀切法(jackknife)41引言Bootstrap方法并不總是最佳的。其中一個主要原因是bootstrap樣本是從 產(chǎn)生而不是從F產(chǎn)生。問題:能

17、完全從F采樣或重采樣嗎?如果樣本數(shù)目為n,答案是否定的!若樣本數(shù)目為m (m n),則可以從F中找到數(shù)目為m的采樣/重采樣,通過從原始樣本X得到不同的子集就可以!尋找原始樣本的不同子集相當(dāng)于從觀測 進(jìn)行無放回采樣,得到數(shù)目為m的重采樣樣本(在此稱為子樣本)這就是jackknife的基本思想。42刀切法(jackknife)Jackknife由Maurice Quenouille (1949)首先提出比bootstrap出現(xiàn)更早與bootstrap相比,Jackknife ( m=n-1) 對計算機不敏感。Jackknife為一種瑞士小折刀,很容易攜帶。通過類比, John W. Tukey (

18、1958)在統(tǒng)計學(xué)中創(chuàng)造了這個術(shù)語,作為一種通用的假設(shè)檢驗和置信區(qū)間計算的方法。43Jackknife樣本Jackknife樣本定義為:一次從原始樣本 中留出一個樣本 : Jackknife樣本中的樣本數(shù)目為m=n-1共有n個不同的jackknife樣本無需通過采樣手段得到 jackknife樣本BOOTSTRAP MATLAB TOOLBOX中也有該功能44Jackknife復(fù)制統(tǒng)計量為:Jackknife復(fù)制為:均值的jackknife復(fù)制為:45Jackknife方差估計 從原始樣本X中計算n個jackknife樣本計算n個jackknife復(fù)制:計算jackknife估計的方差: 46

19、例:計算均值的方差 ,則所以方差的無偏估計47例:計算均值的方差因子 比bootstrap中的因子 大多了。直觀上,因為jackknife 方差 比bootstrap中的方差 小得多(相比bootstrap樣本,jackknife樣本與原始樣本更相似事實上,因子 就是考慮特殊情況 得到的 (有點武斷)48例:混合高斯模型: Bootstrap結(jié)果:Jacknife結(jié)果:49例:混合高斯模型: 復(fù)制的直方圖1000個Bootstrap復(fù)制100個Jacknife復(fù)制Jackknife復(fù)制之間的差異很小,每兩個Jackknife樣本中只有兩個單個的原始樣本不同50Jackknife Vs. boo

20、tstrap當(dāng)n較小時,能更容易(更快)計算 n個 jackknife復(fù)制。但是,與bootstrap 相比,jackknife只利用了更少的信息(更少的樣本) 。事實上, jackknife為bootstrap的一個近似(jackknife方差為bootstrap方差的一階近似)!估計樣本分位數(shù)時,jackknife計算的方差不是一致估計51Jackknife的其他應(yīng)用Jackknife可用于類似bootstrap的應(yīng)用,如偏差估計52Jackknife不適合的場合統(tǒng)計函數(shù)不是平滑函數(shù):數(shù)據(jù)小的變化會帶來統(tǒng)計量的一個大的變化如極值、中值如對數(shù)據(jù) X=(10,27,31,40,46,50,52,104,146)的中值得到的結(jié)果為48,48,48,48,45,43,43,43,43偶數(shù)個數(shù)的中值為最中間兩個數(shù)的平均值當(dāng)函數(shù)不平滑時,可以用delete-d jackknife子采樣來彌補每個delete-d jackknife樣本中的樣本的數(shù)目為n-d共有 個不同的delete-d jackknife樣本d的取值:53參考文獻(xiàn)BooksAn Introduction to Bootstrap, B. Efron and R. J. Tibshirani, Chapman & Hall, 1998.Bootstrap Meth

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論