第課翻譯統(tǒng)計楊凱翔_第1頁
第課翻譯統(tǒng)計楊凱翔_第2頁
第課翻譯統(tǒng)計楊凱翔_第3頁
第課翻譯統(tǒng)計楊凱翔_第4頁
第課翻譯統(tǒng)計楊凱翔_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、STA333 第21章自助法求置信區(qū)間(第一部分)21.1準(zhǔn)備階段:理論誤差的概念自助法的基本用法之一是對總體參數(shù)尋求置信區(qū)間,在傳統(tǒng)的統(tǒng)計學(xué)中需要作假設(shè)時,一般而言的方法是固定的,但是如果我們遇到通常的假設(shè)被違背的情況時,我們會去嘗試估計一些非典型參數(shù),自主化程序可以提供給我們一個對象于參數(shù)非參數(shù)化的構(gòu)建置信區(qū)間的方法。我在上一節(jié)提到過用自助法分布估計實(shí)際的樣本分布是我們在統(tǒng)計學(xué)中正在使用的。那么,打個比方說,我們可以使用自助分布檢驗(yàn)正態(tài)性。如果樣本分布出現(xiàn)正態(tài)性并且以實(shí)際參數(shù)為中心,我們可以使用自助化標(biāo)準(zhǔn)誤差計算t分布置信區(qū)間。所以,得出結(jié)論我們用自助法檢驗(yàn)樣本分布中心化的表達(dá)式和拓展。關(guān)

2、于這個結(jié)論,自助法不能顯示中心化方向,但可顯示誤差。所謂誤差。一項估計參數(shù)是否有偏及樣本分布能反映被估計的真實(shí)參數(shù)的指標(biāo),統(tǒng)計資料的誤差表達(dá)式:誤差=樣本分布均值參數(shù)真實(shí)值當(dāng)然,我們不知道參數(shù)真實(shí)值,所以不能直接計算誤差,但自助法提供允許我們檢驗(yàn)誤差的方法,觀測自助化分布統(tǒng)計量是否中心化于原始隨機(jī)樣本的統(tǒng)計量,自助法估計誤差如下:自助法估計誤差=自助化分布均值原始數(shù)據(jù)統(tǒng)計量 正態(tài)分布使用樣本均值的例子。眾所周知,樣本均值x總體均值m來說是無偏估計,實(shí)際誤差為0,舉個例子,使用一些隨機(jī)生成的正態(tài)分布數(shù)據(jù)檢驗(yàn)自助法的使用。具體步驟:1. 從一個均值,標(biāo)準(zhǔn)差分別為m=22, s=5的正態(tài)分布中隨機(jī)生

3、成一個n=50的樣本。2. 計算樣本均值。3. 在這個樣本中生成1000個自助法樣本,計算每個自助法樣本的均值。4. 從這個自助法分布中求,使用前面講的一般方法計算估計誤差運(yùn)行下面程序:運(yùn)行R程序后,得到的估計誤差是0.00497,。重復(fù)多做幾次,觀察得到的結(jié)果,由于重復(fù)取樣,你會得到不同的答案,但應(yīng)該都接近于0,下圖告訴你原因不知其他的統(tǒng)計量是否符合?讓我們檢驗(yàn)上章中西雅圖房屋問題這一例子的中位數(shù)估計誤差。 西雅圖實(shí)際房屋價格。我們對西雅圖房屋擁有權(quán)感興趣。不巧的是,從市稅務(wù)局得到的數(shù)據(jù)不能很好的區(qū)分房屋和商業(yè)使用權(quán),由此,我們想知道房屋銷售價格的中位數(shù)(記住數(shù)據(jù)在R工作區(qū)里的seattle

4、realestate2002中。)下面估計使用樣本中位數(shù)估計中位數(shù)真實(shí)值的誤差。我得到了估計誤差為-3.9995。多運(yùn)行幾次,你可以清楚地看到使用中位數(shù)的系統(tǒng)誤差,樣本分布低估實(shí)際總體中位數(shù)產(chǎn)生的誤差,下圖清楚地顯示了,由此,一個合適的置信區(qū)間可以使用自助法來彌補(bǔ)估計產(chǎn)生的誤差,不久我們就能看到。21.2 主要自助法置信區(qū)間在傳統(tǒng)的(參數(shù))統(tǒng)計學(xué)中,一旦你找到樣本分布統(tǒng)計量,那么均值的置信區(qū)間也會隨之確定,一旦你找到了方法,通過找到合適的樣本分布中2.5%,97.5%分位點(diǎn),就可以確定95%置信區(qū)間上下限,右圖可以說明這點(diǎn):然后可以計算出固定的置信區(qū)間,比如x±t0.025*s/n。

5、如何找到非參數(shù)置信區(qū)間呢?當(dāng)然,原理本質(zhì)上相同,除非我們用自助法分布作為估計樣本分布的統(tǒng)計量,一旦我們找到自助化分布2.5%和97.5%分位點(diǎn),我們也就找到了參數(shù)95%置信區(qū)間,這個區(qū)間類型稱作自助化百分比置信區(qū)間,容易用R中quantile()功能得到。過一小會兒,建立在R上常規(guī)自助法自動計算出自助法置信區(qū)間,通過R編碼,我們也來實(shí)現(xiàn)。 使用均值正態(tài)分布的例子,找到一個使用模擬數(shù)據(jù)的總體均值95%置信區(qū)間,下面的事情已知:1. 從均值m=22, 標(biāo)準(zhǔn)差s=5的正態(tài)總體中隨機(jī)抽出50個觀測值,找到實(shí)際均值為2,希望他在我們的置信區(qū)間中。2. 對于總體均值m,x 是其無偏估計量,我們不需要擔(dān)心誤

6、差影響置信區(qū)間的結(jié)果。3. 當(dāng)正態(tài)假設(shè)出現(xiàn)而且我們使用的估計值無偏,就可以使用T統(tǒng)計量的置信區(qū)間發(fā)現(xiàn)自助化結(jié)果與一般參數(shù)估計結(jié)果是否一致、以下是運(yùn)行程序:得到(19.95,22.44)作為m的95%非參數(shù)自助法置信區(qū)間,將它與來自于固定的x±t0.025*s/n T統(tǒng)計量置信區(qū)間作對比,容易得到t.text():覆蓋在R輸出窗口的是95%參數(shù)置信區(qū)間的結(jié)果(19.92,22.57),可以看出參數(shù)與非參數(shù)結(jié)果是一致的。 西雅圖實(shí)際房屋價格??梢哉业轿餮艌D2002年房屋銷售價格中位數(shù)的95%自助化百分比置信區(qū)間。使用這種方法,可以得到95%置信度下西雅圖2002年房屋所有權(quán)銷售價格中位數(shù)

7、,小貼士:1. 在最后的例子中,嘗試使用t統(tǒng)計量及自助法找到均值95%置信區(qū)間,比較結(jié)果并得出結(jié)論。2. 我們可以提高置信區(qū)間的結(jié)果,如何?知道中位數(shù)是有偏的,我們的方法不能計算這些誤差,下一章我們會了解到一種使用自助法估計誤差的方法。3. R加入了一個boot程序包可以操作許多類別的自助法問題以及自動計算自助法置信區(qū)間,下一節(jié)我會使用boot程序包重新解決西雅圖房地產(chǎn)問題。 舉例:西雅圖實(shí)際房屋價格。在這一部分,我重做這個問題,與之前不同,我需要使用boot程序包,下面代碼在課堂上討論。原始樣本數(shù)據(jù)中位數(shù)為244.925,估計誤差是-4.305,這一例子中自助法分布是16.27.我們現(xiàn)在尋找

8、95%自助法百分比置信區(qū)間的中位數(shù),這一步的完成需要通過boot程序包中的boot.ci()功能。得到的95%的置信區(qū)間是(213.2,266.0)。我們將在下一章了解更多,伴隨著不同的問題以及使用多種不同的統(tǒng)計學(xué)方法,同時,以下的內(nèi)容僅供參考:1. 檢索help頁面,找到boot。2. 訪問 3. 訪問 網(wǎng)站,可以找到boot程序包一些詳細(xì)資料。本章練習(xí):記錄一個300位顧客的隨機(jī)樣本工作日中午在市區(qū)Colubus Chippotle餐廳等待時間,在R中的waittime.Rdata.1. 找到并說明工作日中午在市區(qū)Colubus Chippotle餐廳等待時間實(shí)際均值95%自助法置信區(qū)間。

9、2. 重復(fù)問題1,使用R軟件boot程序包。3. 回顧第20章課后練習(xí)題,經(jīng)過自助化處理的樣本分布均值出現(xiàn)相對正態(tài)性,除了在尾部的一點(diǎn)不符,因?yàn)檫@樣,找到工作日中午在市區(qū)Colubus Chippotle餐廳等待時間的95% t分布置信區(qū)間,看看傳統(tǒng)方法的結(jié)果與來自問題1的自助法置信區(qū)間有什么不同?4. 找到并說明對于工作日中午在市區(qū)Colubus Chippotle餐廳等待時間的中位數(shù)95%的自助法置信區(qū)間,估計誤差并討論,這個置信區(qū)間如何不同于問題1得到的均值?你能解釋一下不同為什么存在嗎?STA333 第22章自助法求置信區(qū)間(第二部分)22.1 優(yōu)良的自助法置信區(qū)間:快速修正誤差的區(qū)間

10、在練習(xí)中沒有找到可以獲得精確置信水平的置信區(qū)間的方法,當(dāng)你估計該假設(shè)為什么時,會講,一個90%置信區(qū)間,你所使用的方法能獲得實(shí)際參數(shù)的概率是很低的,說成87%,或是5%,一個方法會在一些情況下錯過3%的時間,7%用在其他地方,得到實(shí)際參數(shù)的有偏圖像。準(zhǔn)確的說,在一個特定環(huán)境下,精確的得到90%置信區(qū)間的方法,當(dāng)以90%的可信度產(chǎn)生了一個包含實(shí)際參數(shù)的區(qū)間,產(chǎn)生的區(qū)間不包含實(shí)際參數(shù)是以5%為浮動,在練習(xí)中,找不到完全精確的置信區(qū)間,因?yàn)樗僭O(shè)的情況并不能讓我們完全滿意,一個很小的失誤也會導(dǎo)致置信區(qū)間不精確:1. 從高偏離度的總體中取樣;或是,2. 使用一個一致總體參數(shù)的有偏統(tǒng)計量。自助法的好處之

11、一是讓你能夠檢查樣本的偏離程度,當(dāng)偏離存在時,在偏離的引導(dǎo)下產(chǎn)生了置信區(qū)間誤差,所以,一個自助法百分比置信區(qū)間是不精確的,即使這樣:1. 統(tǒng)計量本身嚴(yán)重有偏,但被自助法離差估計找出,2. 樣本分布的統(tǒng)計量有明顯偏差,被自助分布找到,3. 高的精度存在高風(fēng)險(比如大量貨幣,社會福利等)BCa置信區(qū)間BCa,又稱誤差修正和加速自助法置信區(qū)間,是一種自助法百分比置信區(qū)間的修正方法,BCa置信區(qū)間端點(diǎn)是分布中修正誤差與離散程度的一種自助法百分比分布,打個比方,如果這個統(tǒng)計量向上有偏(趨于無限大),BCa誤差修正向左移動端點(diǎn),如果自助法分布向右偏離,BCa包含了將端點(diǎn)向右甚至更多移動的修正方法(這種做法

12、也許會違反直覺,但其實(shí)是正確的),這些估計的細(xì)節(jié)是一種前進(jìn)的動力,所以我們要用軟件計算BCa區(qū)間,在R中,要使用boot程序包中boot.ci()功能建立BCa區(qū)間,尋求method=”bca”而不是method=”perc”. 舉例:西雅圖實(shí)際房屋問題。我們之前看到(估計到)對于這些數(shù)據(jù)有向下的誤差,記起來了嗎?估計誤差為-4.305.正因?yàn)槿绱耍形粩?shù)95%自助法百分比置信區(qū)間是不精確的,所以我們轉(zhuǎn)而尋求BCa區(qū)間,輕而易舉,從R中得到程序:95%BCa自助法區(qū)間為(213.0265.5),自助法百分比置信區(qū)間和BCa置信區(qū)間的顯著不同表明誤差對結(jié)果無太大影響。22.2自助法的部分解釋在下

13、一節(jié),看到一些使用自助法的例子之前,有一些必要的說明:1. 自助法及其結(jié)論以包含兩個來源的隨機(jī)變量為基礎(chǔ): 從總體樣本中隨機(jī)抽取原始樣本 從原始樣本中隨機(jī)抽取自助法樣本2. 對于大多數(shù)統(tǒng)計量,幾乎所有自助法分布的變量來自原始樣本的選擇,并不是來自你選擇的自助法樣本,一個自助法重新取樣的步驟使用1000或更多重新抽取的樣本,得到非常少的其他變量。3. 當(dāng)自助法允許我們像正態(tài)分布一樣放寬假設(shè),但必須遵守數(shù)據(jù)的結(jié)構(gòu),一些數(shù)據(jù)中值得依靠的表格也必須計算在內(nèi),更長遠(yuǎn)來說,如何用自助法樣本的均值與獨(dú)立樣本作對比一定會與成對樣本有所不同。4. 自助法不適用于小樣本!如果樣本量很小,就沒有足夠的信息從一個形成

14、一個精確和可用的總體中得到結(jié)論,這總是對的,不取決于是否用自助法,所以大樣本可以得到更有用的結(jié)果。5. 自助法并不適用于所有統(tǒng)計量,特別的,我推薦使用自助法統(tǒng)計量,對于樣本來說他們有很多功能。比如,最大值,最小值,矩,等等,自助法的功能是挑選統(tǒng)計量,這包括均值,標(biāo)準(zhǔn)差,相關(guān)系數(shù),回歸數(shù)量,比如模型系數(shù)和預(yù)測等,它對中位數(shù)及其數(shù)量非常適用,即使大樣本對于自助法這些統(tǒng)計量是兩人滿意的。22.3 舉例現(xiàn)在,我們來看一些使用在不同情境下的自助法樣本。 例:食物對比。這些數(shù)據(jù)出現(xiàn)在第11章,兩種食物A,B成長效果對比,將一部分小白鼠服用這兩種食物,觀察7周小白鼠的生長狀況.之前,我們做了原假設(shè)H0:A=

15、B及備擇假設(shè)HA:AB,適用獨(dú)立參數(shù)樣本t檢驗(yàn)和非參數(shù)置換檢驗(yàn),現(xiàn)在,我們用自助法估計,90%置信度,兩種食物之間成長均值的不同。解決方案:這樣做,我們可以用兩個分離R向量,對每個進(jìn)行自助化,然后計算自助化樣本均值的不同,我們使自助化樣本獨(dú)立因?yàn)槊總€樣本都獨(dú)立(見之前的說明3)在成長上實(shí)際均值的不同是A-B,所以我們用xA-xB作為我們的統(tǒng)計量,具體步驟如下:1. 從A樣本中收集一個自助化樣本,計算xA2. 從B樣本中收集一個自助化樣本,計算xB 3. 計算xA-xB ,這是自助法均值的差異4. 重復(fù)步驟1步驟3若干次(比如1000),產(chǎn)生了自助法分布xA-xB 5. 由來自于自助化樣本的A-

16、B形成置信區(qū)間這是做自助法的R程序,包含一個檢驗(yàn)誤差:運(yùn)行之后,得到一個非常接近于0的估計誤差,下圖反映誤差不是重要因素:現(xiàn)在,計算關(guān)于A-B 90%的自助法百分比置信區(qū)間:我們可以得到在90%置信度下服用食物A成長的實(shí)際均值為9.8241.68并高于B。 舉例:兒童的呼吸速率,兒童的高呼吸速率可能導(dǎo)致呼吸感染,判斷呼吸速率是否判定為高,內(nèi)科醫(yī)生必須持有正常呼吸率的分布圖,為了這個目的,意大利研究專家測量年齡在15天到3歲(換算為月)的大約618名孩子的呼吸率,數(shù)據(jù)在R工作區(qū)的respiratory。數(shù)據(jù)的分布圖像如下:找到年齡與呼吸率實(shí)際等級相關(guān)系數(shù)的95%自助法置信區(qū)間解決問題,我們要通過

17、對兒童重新取樣來演示自助法,在這節(jié)中,我們需要自助法R數(shù)據(jù)結(jié)構(gòu)的整個行,我們得保持每個孩子的年齡和他們的呼吸率之間存在關(guān)系。在這個例子中,我要說明的是通過使用R中boot程序包,從R中打開數(shù)據(jù)源后,運(yùn)行一下程序,代碼將在課上講解,但必要的說明包含在代碼下面:下面是代碼運(yùn)行窗口:年齡與呼吸率的斯皮爾曼相關(guān)系數(shù)是-0.7445.相關(guān)估計的標(biāo)準(zhǔn)誤是0.0173,誤差可以忽略不計,我們使用boot程序包plot()功能作出自助法分布圖,命名為results:t*是boot自助法統(tǒng)計量的一類統(tǒng)稱,在這個問題里自助化分布出現(xiàn)合理正態(tài)性!置信區(qū)間為:可以得到年齡在15天到三歲的兒童年齡與呼吸率的實(shí)際相關(guān)系數(shù)

18、的95%置信區(qū)間為(-0.77,-0.71).因此,根據(jù)統(tǒng)計學(xué)原理證明年齡與呼吸速率為負(fù)相關(guān),因?yàn)閷ΨQ性和無偏差,自助法置信區(qū)間是適用的。 舉例:肌肉,一個人的肌肉被認(rèn)為隨著年齡在逐漸減少,從女性中尋找關(guān)系,一個營養(yǎng)學(xué)家從4079歲的女性中每隔10歲抽取女性,隨機(jī)抽取15位女性,數(shù)據(jù)在R工作區(qū)中musclemass。在數(shù)據(jù)中變量為肌肉數(shù)量和年齡,做下面的工作:1. 畫出散點(diǎn)圖觀察兩個變量的關(guān)系2. 找到一個肌肉與年齡的樣本回歸模型3. 找到隨時間變化的肌肉實(shí)際均值95%自助法置信區(qū)間。(換句話說,找到相關(guān)變化率95%自助法置信區(qū)間)。解決:首先,散點(diǎn)圖如下:可以清楚地看到負(fù)向趨勢,可以期望:隨

19、著年齡增長,肌肉趨于減少你應(yīng)該會發(fā)現(xiàn)按一個近似線性減少,所以合理的樣本線性回歸模型適用于這個數(shù)據(jù),(然而,這一點(diǎn)是可以證明的我們會在下一節(jié)說明)現(xiàn)在我們在R中找到適合的模型,這樣做,要使用lm()功能,通過summary()功能得到結(jié)果:擬合的回歸模型是:mass=156.345-1.19(age)。斜率估計值為b1=-1.19,這些數(shù)據(jù)表明對于40-79的女性隨著年齡增長肌肉下降的均值為1.19.現(xiàn)在我們想知道年齡影響肌肉變化的速率的95%置信區(qū)間,用參數(shù)的方法要使用t分布置信區(qū)間,但如果沒有普通回歸假設(shè),就可以使用自助法置信區(qū)間,這種方法在下面會詳細(xì)給出,R程序被建立在離散情況下,我會在課上詳細(xì)說明,我會通過自助法斜率散點(diǎn)圖向你展示自助法分布是個好東西(是不是很酷?。┪覀儠谡n上運(yùn)行(而且獨(dú)立完成),處于說明的目的,下面是50個自助法斜率散點(diǎn)圖,他可以給你提

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論