概率與抽樣分布培訓(xùn)課件.ppt_第1頁(yè)
概率與抽樣分布培訓(xùn)課件.ppt_第2頁(yè)
概率與抽樣分布培訓(xùn)課件.ppt_第3頁(yè)
概率與抽樣分布培訓(xùn)課件.ppt_第4頁(yè)
概率與抽樣分布培訓(xùn)課件.ppt_第5頁(yè)
已閱讀5頁(yè),還剩52頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第3章 概率與抽樣分布Probability and Sampling Distributions精品Section 3.1Random Variables隨機(jī)變量精品 事件的實(shí)際發(fā)生率稱(chēng)為頻率。設(shè)在相同條件下,獨(dú)立重復(fù)進(jìn)行n次試驗(yàn),事件A出現(xiàn)f 次,則事件A出現(xiàn)的頻率為f/n。 概率:隨機(jī)事件發(fā)生的可能性大小,用大寫(xiě)的P 表示;取值0,1。 一、頻率與概率frequency and probability精品 1. 樣本頻率總是圍繞概率上下波動(dòng) 2. 樣本含量n越大,波動(dòng)幅度越小,頻率越接近概率。頻率與概率的關(guān)系:調(diào)查株數(shù)(n)52550100200500100015002000受害株數(shù)(a

2、) 21215 33 72177 351 525 704棉株受害頻率(a/n)0.400.480.300.330.360.3540.3510.3500.352表 在相同條件下盲蝽象在某棉田危害程度的調(diào)查結(jié)果一、頻率與概率frequency and probability精品一、頻率與概率frequency and probability 小概率原理 若事件A發(fā)生的概率較小,如小于0.05或0.01,則認(rèn)為事件A在一次試驗(yàn)中不太可能發(fā)生,這稱(chēng)為小概率事件實(shí)際不可能性原理,簡(jiǎn)稱(chēng)小概率原理。這里的0.05或0.01稱(chēng)為小概率標(biāo)準(zhǔn),農(nóng)業(yè)試驗(yàn)研究中通常使用這兩個(gè)小概率標(biāo)準(zhǔn)。精品二、隨機(jī)變量用以記錄隨機(jī)試

3、驗(yàn)結(jié)果(outcome)的變量,稱(chēng)為隨機(jī)變量(random variable),用大寫(xiě)英文字母X, Y 等代表。隨機(jī)變量X的概率分布,表達(dá) X 的可能取值和取這些值的概率規(guī)則。精品離散型和連續(xù)型隨機(jī)變量隨機(jī)變量的可能取值是離散的數(shù)字,如計(jì)數(shù)型或分類(lèi)型等,稱(chēng)為離散型隨機(jī)變量(discrete random variable)。0, 1, 9 。20次實(shí)驗(yàn)中成功的次數(shù), 二項(xiàng)式分布。隨機(jī)變量的可能取值是某一實(shí)數(shù)的區(qū)間,如“大于0”或“-22之間”等,稱(chēng)為連續(xù)型隨機(jī)變量(continuous random variable)。正態(tài)隨機(jī)變量二、隨機(jī)變量精品三、離散型隨機(jī)變量的概率分布X = xix1

4、,x2 , ,xnP(X =xi)=pip1 ,p2 , ,pn列出離散型隨機(jī)變量X的所有可能取值列出隨機(jī)變量取這些值的概率通常用下面的表格來(lái)表示P(X =xi)=pi稱(chēng)為離散型隨機(jī)變量的概率函數(shù)精品四、連續(xù)型隨機(jī)變量的概率密度若觀察資料數(shù)量夠大,則直方圖(組數(shù)適當(dāng)增加)的整體形態(tài)可用一近似的平滑曲線(xiàn)顯示。直方圖中縱軸改為次數(shù)比例,則該平滑曲線(xiàn)稱(chēng)為密度曲線(xiàn)(density curve)。精品概率密度曲線(xiàn)精品密度曲線(xiàn)的性質(zhì)曲線(xiàn)都在水平線(xiàn)上 (密度函數(shù)=0)。曲線(xiàn)下所涵蓋的全部面積正好為1(所有可能性為1)。曲線(xiàn)下任何范圍所涵蓋的面積,為觀察值落在該范圍的比例(概率)。密度曲線(xiàn)可視為是觀察變量的理

5、論分布圖形。 四、連續(xù)型隨機(jī)變量的概率密度精品隨機(jī)變量X的一切可能取值的完備組中,各可能取值xi與其相對(duì)應(yīng)的概率pi乘積之和描述隨機(jī)變量取值的集中程度計(jì)算公式為五、隨機(jī)變量的數(shù)學(xué)期望精品隨機(jī)變量X的每一個(gè)取值與期望值的離差平方和的數(shù)學(xué)期望,記為D(X)描述離散型隨機(jī)變量取值的分散程度計(jì)算公式為六、隨機(jī)變量的方差精品Section 3.2The Binomial Distributions二項(xiàng)分布精品一、二項(xiàng)分布設(shè)定The Binomial Setting固定的觀察次數(shù) n。n 次的觀察都獨(dú)立,每次的觀察都不會(huì)對(duì)其他觀察提供任何信息。每次的觀察都只有兩種可能的結(jié)果,多假設(shè)為“成功”或“失敗”兩種

6、。每次的觀察“成功”的概率都一樣,設(shè)定為 p。精品二、二項(xiàng)分布Binomial Distribution滿(mǎn)足二項(xiàng)分布設(shè)定的試驗(yàn),以 X 記錄 n次觀察中“成功”的次數(shù),則稱(chēng) X 的分布為參數(shù)為 n 與 p 的二項(xiàng)分布(binomial),記為B(n, p)。X 的所有可能取值為0, 1, , n。對(duì)應(yīng)的概率函數(shù)為 P(X = x) = P(x)。精品 例1 某種昆蟲(chóng)在某地區(qū)的死亡率為40%,即p=0.4,現(xiàn)對(duì)這種害蟲(chóng)用一種新藥進(jìn)行治療試驗(yàn),每次抽樣10頭作為一組治療。試問(wèn)如新藥無(wú)療效,則在10頭中死3頭、2頭、1頭,以及全部愈好的概率為多少?按上述二項(xiàng)分布概率函數(shù)式計(jì)算 7頭愈好,3頭死去概率

7、:8頭愈好,2頭死去概率:9頭愈好,1頭死去概率:10頭全部愈好的概率: 三、示例精品 若問(wèn)10頭中不超過(guò)2頭死去的概率為多少?則應(yīng)該應(yīng)用累積函數(shù),即三、示例精品四、二項(xiàng)分布的期望值與標(biāo)準(zhǔn)差期望值: E(X) = np方差: Var(X) = np(1-p)標(biāo)準(zhǔn)差:精品Section 3.3Normal Distributions正態(tài)分布精品一、特點(diǎn)正態(tài)曲線(xiàn)所有正態(tài)曲線(xiàn)都有相同的外型具有對(duì)稱(chēng)、單峰及鐘形的特性。正態(tài)曲線(xiàn)所代表的分布即為正態(tài)分布(normal distribution)每一正態(tài)分布都有其平均值 與標(biāo)準(zhǔn)差精品ms一、特點(diǎn)精品正態(tài)曲線(xiàn)較大ms一、特點(diǎn)精品正態(tài)曲線(xiàn)的拐點(diǎn)拐點(diǎn)落在一個(gè)處拐

8、點(diǎn)落在-處一、特點(diǎn)精品二、為什么這么重要Good descriptions for some distributions of real data身高, 體重, 考試成績(jī)Good approximations to the results of many kinds of chance outcomesTossing a coin many timesMany statistical inference procedures are based on normal distributions精品三、68-95-99.7規(guī)則正態(tài)分布有其特定的數(shù)據(jù)分布規(guī)則:平均值為 , 標(biāo)準(zhǔn)差為 的正態(tài)分布68%

9、的觀察資料落在m 的 1 之內(nèi)95%的觀察資料落在m 的 2 之內(nèi)99.7%的觀察資料落在m 的 3 之內(nèi)精品0123-1-2-3mm+sm+2sm+3sm-sm-2sm-3s68% 的資料95% 的資料99.7% 的資料三、68-95-99.7規(guī)則精品四、變量標(biāo)準(zhǔn)化(Standardization)令觀察值 x 服從平均值為 ,標(biāo)準(zhǔn)差為 的分布,則 x 的標(biāo)準(zhǔn)化值(standardized value)定義為標(biāo)準(zhǔn)化值又稱(chēng)為 z-值(z-score)。精品標(biāo)準(zhǔn)化變量可以證明z的平均值為0z的標(biāo)準(zhǔn)差為1四、變量標(biāo)準(zhǔn)化(Standardization)精品五、標(biāo)準(zhǔn)正態(tài)分布變量 X 服從平均值為 ,

10、標(biāo)準(zhǔn)差為 的正態(tài)分布,簡(jiǎn)記為 X N(, 2)。X 經(jīng)過(guò)標(biāo)準(zhǔn)化后為 Z(=(X-)/ s ),則 Z 也服從正態(tài)分布,并且平均值為 0 ,標(biāo)準(zhǔn)差為 1,即Z N(0, 1)。我們稱(chēng) Z 服從標(biāo)準(zhǔn)正態(tài)(standard normal)。精品六、標(biāo)準(zhǔn)正態(tài)表z表列數(shù)字是z左邊的面積z = - 0.44z左邊的面積為0.33- 0.440.33精品z表列數(shù)字是z左邊的面積z = 0.44z左邊的面積為0.67六、標(biāo)準(zhǔn)正態(tài)表精品七、雙側(cè)臨界值在標(biāo)準(zhǔn)正態(tài)曲線(xiàn)圖下, 右方與 左方的面積和為 a ,則稱(chēng) 為標(biāo)準(zhǔn)正態(tài)分布概率為 a 的雙側(cè)臨界值??刹楸?。m = 0面積為a/2面積為a/2精品八、單側(cè)臨界值在標(biāo)準(zhǔn)

11、正態(tài)曲線(xiàn)圖下, 右方的面積為 a ,則稱(chēng) 為標(biāo)準(zhǔn)正態(tài)分布概率為 a 的單側(cè)臨界值??刹楸?。m = 0面積為a精品 例2 假定y是一隨機(jī)變數(shù)具有正態(tài)分布,平均數(shù) =30,標(biāo)準(zhǔn)差 =5,試計(jì)算小于26,小于40的概率,介乎26和40區(qū)間的概率以及大于40的概率。首先計(jì)算:先將x轉(zhuǎn)換為u值 九、計(jì)算精品同理可得: FN(40)=0.9773 所以:P(26x40)=FN(40)FN(26)=0.97730.2119 = 0.7654 P(x40)=1P(x40)=10.9773 =0.0227 查附表,當(dāng)u=0.8時(shí),F(xiàn)N(26)=0.2119,說(shuō)明這一分布從到26范圍內(nèi)的變量數(shù)占全部變量數(shù)的21.

12、19%,或者說(shuō),x26概率為0.2119.九、計(jì)算精品 例3 在應(yīng)用正態(tài)分布時(shí),經(jīng)常要討論隨機(jī)變數(shù)x離其平均數(shù)的差數(shù)大于或小于若干個(gè)值的概率。例如計(jì)算離均差絕對(duì)值等于小于和等于大于1 的概率為:也可以簡(jiǎn)寫(xiě)為 九、計(jì)算精品 相應(yīng)地,離均差絕對(duì)值等于小于2 、等于大于2 、等于小于3 和等于大于3 的概率值為:九、計(jì)算精品 例4 計(jì)算正態(tài)分布曲線(xiàn)的中間概率為0.99時(shí),其y或u值應(yīng)等于多少? 因?yàn)檎龖B(tài)分布是對(duì)稱(chēng)的,故在曲線(xiàn)左邊從到 u的概率和在曲線(xiàn)右邊從u到的概率都應(yīng)等于1/2(10.99)=0.005。 查表,u=2.58時(shí), fN(x) =0.004940.005。 于是知,當(dāng) 2.58時(shí),在

13、其范圍內(nèi)包括99%的變量,僅有1%變量在此范圍之外。上述結(jié)果寫(xiě)作:九、計(jì)算精品同理可求得:九、計(jì)算精品同理, 亦可寫(xiě)成: 以上 乃正態(tài)曲線(xiàn)下左邊一尾x從到 上的面積和右邊一尾y從 到上的面積之和,亦可寫(xiě)成:九、計(jì)算精品Section 3.4Sampling Distributions抽樣分布精品一、總體與樣本 population and sample總體:根據(jù)研究目的確定的同質(zhì)研究對(duì)象的全體(集合)。分有限總體與無(wú)限總體樣本:從總體中隨機(jī)抽取的部分研究對(duì)象 精品二、總體容量與樣本容量population size and sample size總體容量(N):總體中所包含的個(gè)體數(shù)目。根據(jù)N大

14、小,總體分有限總體和無(wú)限總體樣本(n):從總體中隨機(jī)抽取的部分研究對(duì)象 精品三、隨機(jī)抽樣 random sampling為了保證樣本的可靠性和代表性,需要采用隨機(jī)的方法抽取樣本(在總體中每個(gè)個(gè)體具有相同的機(jī)會(huì)被抽到)。精品四、參數(shù)與統(tǒng)計(jì)量parameter and statistic參數(shù):總體的統(tǒng)計(jì)指標(biāo),如總體均數(shù)、標(biāo)準(zhǔn)差,采用希臘字母分別記為、。固定的常數(shù) 總體樣本抽取部分觀察單位 統(tǒng)計(jì)量 參 數(shù) 推斷inference統(tǒng)計(jì)量:樣本的統(tǒng)計(jì)指標(biāo),如樣本均數(shù)、標(biāo)準(zhǔn)差,采用英文字母分別記為 。 參數(shù)附近波動(dòng)的隨機(jī)變量 。精品五、總體均值、方差與標(biāo)準(zhǔn)差總體均值總體方差總體標(biāo)準(zhǔn)差精品六、樣本均值、方差

15、與標(biāo)準(zhǔn)差總體均值總體方差總體標(biāo)準(zhǔn)差精品七、樣本的概率分布統(tǒng)計(jì)量(為樣本的函數(shù)),亦為隨機(jī)變量,其概率分布稱(chēng)為抽樣分布(sampling distribution)。一般統(tǒng)計(jì)量的抽樣分布,則多根據(jù)重復(fù)抽樣(實(shí)驗(yàn))結(jié)果來(lái)了解其概率分布。 的抽樣分布大數(shù)法則,中心極限定理精品八、大數(shù)法則由具有有限(finite)平均數(shù) m 的總體隨機(jī)抽樣,隨著樣本容量的增加,樣本平均數(shù) 越接近總體的均數(shù) m 。樣本平均數(shù)的這種行為稱(chēng)為大數(shù)法則(law of large numbers)。精品以 代表樣本容量為 n 的資料平均數(shù),逐漸增加樣本容量,將 n 及對(duì)應(yīng)的 圖示如后。八、大數(shù)法則精品Number of obs

16、ervations, n前 n個(gè)樣本的均數(shù)2223242526272829303132331510501005001000500010000八、大數(shù)法則精品九、樣本平均數(shù)的均數(shù)與標(biāo)準(zhǔn)差令 為樣本容量為 n 的一組SRS的平均數(shù),其總體平均數(shù)為 m 與標(biāo)準(zhǔn)差為 s。則 的分布平均數(shù)為 m 與標(biāo)準(zhǔn)差為 。因?yàn)?的分布平均數(shù)也是 m,故 又稱(chēng)為 m 的不偏估計(jì)。樣本容量越大,則樣本平均數(shù) 的變異越小。精品十、正態(tài)的樣本平均數(shù)的分布若總體服從正態(tài) N(m, s2) ,則SRS的平均數(shù) 也服從正態(tài) N(m, )。精品十一、中心極限定理(CLT)若總體平均數(shù)為 m 、標(biāo)準(zhǔn)差為 s ,當(dāng)樣本容量夠大時(shí),則SRS的平均數(shù) 的分布近似正態(tài) N(m, )。我們稱(chēng)之為中心極限定理(Central Limit Theorem)???/p>

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論