版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
抽樣與抽樣分布第1頁/共68頁案例1936年美國總統(tǒng)選舉的預(yù)測,民主黨羅斯福VS共和黨蘭登。《文摘》郵寄了1000萬份調(diào)查表;收回240萬份,預(yù)測蘭登獲得57%的選票獲勝。而蓋洛普(Gallup)研究所僅僅隨機(jī)抽取了2000
多選民,預(yù)測羅斯福將得到54%的選票獲勝。選舉結(jié)果是羅斯福獲得62%的選票獲勝。此后,蓋洛普研究所每年用1000~1500人的樣本快速準(zhǔn)確的預(yù)測選舉,誤差在2%之內(nèi)。第2頁/共68頁案例蓋洛普公司的網(wǎng)站蓋洛普民意調(diào)查舉例:
第3頁/共68頁抽樣的基本概念抽樣調(diào)查,按照隨機(jī)原則從全部研究對象中抽取一部分單位進(jìn)行調(diào)查,并以調(diào)查結(jié)果對總體數(shù)量特征作出具有一定可靠程度的估計(jì)與推斷,從而認(rèn)識總體的一種統(tǒng)計(jì)方法。隨機(jī)原則:指樣本單位的抽取不受主觀因素及其他系統(tǒng)性因素的影響,每個(gè)總體單位都有均等的被抽中機(jī)會。第4頁/共68頁并非所有的抽樣估計(jì)都按隨機(jī)原則抽取樣本,也有非隨機(jī)抽樣??傮w隨機(jī)樣本非隨機(jī)樣本與總體分布特征相同與總體分布特征不同第5頁/共68頁抽樣的基本概念總體,要研究的調(diào)查對象的全體。個(gè)體,組成總體的每個(gè)元素。樣本:從總體中隨機(jī)抽取的部分個(gè)體。樣本容量:樣本中所含的個(gè)體數(shù)量。第6頁/共68頁樣本和總體(sample&population)視頻教學(xué)第7頁/共68頁應(yīng)該隨機(jī)嗎?隨機(jī)選擇并非永遠(yuǎn)都是好主意,有時(shí)候我們無法對所有的人一視同仁,因?yàn)橛械娜嘶蛟S更有資格。
1.
籃球比賽有400個(gè)座位,但有700個(gè)學(xué)生想要票,是否應(yīng)該在學(xué)生中隨機(jī)選取400人?
2.
等著換肝臟的病人,人數(shù)遠(yuǎn)超能用于移植的肝臟數(shù)目。在選擇移植給誰時(shí),應(yīng)該完全用隨機(jī)方式嗎?
3.
越戰(zhàn)期間,用抽簽的隨機(jī)方式,決定年輕男子誰上戰(zhàn)場,這是最好的方式嗎?第8頁/共68頁觀測研究和實(shí)驗(yàn)的區(qū)別觀測研究,在只觀測不干擾的情形下搜集信息。實(shí)驗(yàn):會對個(gè)體做某件事情,然后觀察個(gè)體如何反應(yīng)。例:經(jīng)常運(yùn)動是否可以降低心臟病發(fā)作的風(fēng)險(xiǎn)?
(觀測研究和實(shí)驗(yàn)有什么不同,各自的優(yōu)點(diǎn))第9頁/共68頁觀測研究和實(shí)驗(yàn)的區(qū)別方法1:一位研究者找到2000名40歲以上的男士,他們都經(jīng)常運(yùn)動,也未曾發(fā)過心臟病,他為每個(gè)人“配”了一名各方面條件接近,但沒有固定運(yùn)動習(xí)慣的人,然后觀察運(yùn)動組和非運(yùn)動組長達(dá)5年時(shí)間。方法2:另一位研究者找了4000名40歲以上的男士,他們都沒有發(fā)作過心臟病,也愿意參加這項(xiàng)研究。他安排其中的2000人參加了一項(xiàng)有監(jiān)督的定時(shí)運(yùn)動計(jì)劃,另外2000人依照原來的習(xí)慣不變,觀察5年時(shí)間。(對于規(guī)律運(yùn)動是否降低心臟病風(fēng)險(xiǎn)的問題,實(shí)驗(yàn)可以提供更多有用的信息)第10頁/共68頁兩種有偏的抽樣方法方便抽樣,在總體中選擇最容易取得的個(gè)體。例如,從每箱桔子中拿上面的幾個(gè)檢查,但它們可能無法代表整箱桔子的情況。自發(fā)性回應(yīng)樣本:是經(jīng)由對某一訴求的回應(yīng)而自然形成的,會導(dǎo)致高度偏差。
第11頁/共68頁兩種有偏的抽樣方法自發(fā)性回應(yīng)樣本:例如,專欄作家Landers問讀者:“如果可以重來一次,你還會要孩子嗎?”她接到1萬份答復(fù),其中70%說不要。難道70%的父母都后悔了嗎?通常對某個(gè)論題有強(qiáng)烈感覺的人,尤其是負(fù)面感覺,比較會不嫌麻煩地去回應(yīng)。寫信回應(yīng)和電話回應(yīng),一定會導(dǎo)致高度偏差。第12頁/共68頁隨機(jī)原則的實(shí)現(xiàn)抽簽法,是將總體中每個(gè)單位的編號寫在外形完全一致的簽上,將其攪拌均勻,從中任意抽選,簽上的號碼所對應(yīng)的單位就是樣本單位。隨機(jī)數(shù)表法:將總體中每個(gè)單位編上號碼,然后使用隨機(jī)數(shù)表,查出所要抽取的調(diào)查單位。計(jì)算機(jī)模擬法:是將隨機(jī)數(shù)字編制為程序存儲在計(jì)算機(jī)中,需要時(shí)將總體中各單位編上號碼,啟用隨機(jī)數(shù)字發(fā)生器輸出隨機(jī)數(shù)字。第13頁/共68頁簡單隨機(jī)抽樣大小為n的簡單隨機(jī)樣本(SRS,simple
random
sample):使得總體中任一組n個(gè)個(gè)體,中選的概率相同。隨機(jī)原則:用機(jī)遇選擇樣本。
1.對每個(gè)個(gè)體指定一個(gè)數(shù)字代碼;
2.用隨機(jī)數(shù)表選取。第14頁/共68頁隨機(jī)數(shù)表(部分)用Excel表生成隨機(jī)數(shù)第15頁/共68頁你玩樂透嗎?蓋洛普研究所曾抽取了一個(gè)1523人的樣本,其中有868人在過去的12月中買了樂透,對于這個(gè)樣本的比率:
如果取1000個(gè)樣本呢?第16頁/共68頁大樣本的變異性比小樣本小第17頁/共68頁估計(jì)時(shí)的兩種誤差偏差:統(tǒng)計(jì)量一直朝一個(gè)方向偏離總體的參數(shù)值;
(瞄準(zhǔn)有問題)變異性:取很多樣本時(shí),統(tǒng)計(jì)量的值會離散到什么程度。如果變異性大,說明不同樣本的結(jié)果可能差別很大。(技術(shù)不穩(wěn)定)一個(gè)好的抽樣方法,應(yīng)該要有小偏差、小變異性。
(象神射手一樣)第18頁/共68頁兩種誤差第19頁/共68頁如何處理誤差減低偏差:利用隨機(jī)抽樣,用SRS的統(tǒng)計(jì)量來估計(jì)總體參數(shù)。降低SRS的變異性:只要樣本足夠大。第20頁/共68頁誤差界限一個(gè)隨機(jī)樣本的結(jié)果,不會剛好估計(jì)出總體的真正值。所以,用誤差界限,表達(dá)我們的估計(jì)值距離真正值有多遠(yuǎn)。95%的置信度:所有樣本中,有95%計(jì)算出的統(tǒng)計(jì)量距離真正值的確有那么近,但是另外的5%,距離真正值就超過誤差界限了。第21頁/共68頁誤差界限速算法用大小為n的隨機(jī)樣本,對應(yīng)95%置信度的誤差界限,大致為。蓋洛普調(diào)查的1523人,對應(yīng)的誤差界限為
蓋洛普當(dāng)時(shí)公布的誤差界限是3%對于100人的樣本的誤差界限是多大?第22頁/共68頁置信敘述蓋洛普對于樂透彩票購買情況所做的結(jié)論:精簡版:調(diào)查發(fā)現(xiàn)57%的美國成年人在過去12個(gè)月中曾購買彩票。我們有95%的信心,所有美國成年人購買彩票的真正比例,在這個(gè)樣本結(jié)果的正負(fù)3個(gè)百分點(diǎn)之內(nèi)。超精簡版:我們有95%的信心,所有美國成年人中,有54%-60%曾在過去12個(gè)月里買過彩票。第23頁/共68頁抽樣的誤差問題抽樣誤差:用于抽樣的隨機(jī)性所帶來的誤差,是一種固有誤差。非抽樣誤差:調(diào)查過程中發(fā)生的誤差,以及由于主觀因素破壞了隨機(jī)性原則而產(chǎn)生的系統(tǒng)性偏差,是可以避免的。第24頁/共68頁抽樣誤差167CM169CM172CM160CM162CM167CM175CM180CM165CM167CM170CM175CM178CM180CM162CM173CM155CM160CM170CM165CM平均身高=169.8CM平均身高=174.6CM總平均身高=168.6CM第25頁/共68頁隨機(jī)抽樣設(shè)計(jì)不同的抽樣方式,對抽樣結(jié)果有很大影響,根據(jù)研究目的和要求,以及具體情況選擇抽樣方式;簡單隨機(jī)抽樣、等距抽樣、類型抽樣、整群抽樣、多階段抽樣等。即便是最好的統(tǒng)計(jì)學(xué)家,也做不到最正確的抽樣方法。第26頁/共68頁分層抽樣的問題一所大學(xué)中有30000個(gè)學(xué)生,其中3000個(gè)是研究生。如果要抽取一個(gè)500名學(xué)生的SRS,每個(gè)學(xué)生被抽中的概率是相同的(1/60)。
如果預(yù)期在SRS中有10%研究生,只有50人,樣本不夠大,無法精確估計(jì)研究生的意見。
所以,用包含200研究生,300大學(xué)生的分層樣本比較好。那么,如何來選取這個(gè)分層的SRS?第27頁/共68頁抽樣分布在討論抽樣分布之前,需要回顧以下一些與概率分布有關(guān)的概念:隨機(jī)變量、離散型隨機(jī)變量及其概率分布、連續(xù)型隨機(jī)變量及其概率分布。概率密度函數(shù)。第28頁/共68頁隨機(jī)變量(RandomVariable)隨機(jī)變量是表征一個(gè)隨機(jī)試驗(yàn)結(jié)果的變量,其數(shù)值由一次試驗(yàn)結(jié)果所決定,但是在試驗(yàn)之前是不確定的。隨機(jī)變量的所有可能取值就是所有基本事件對應(yīng)的值。通常用英文大寫字母或希臘字母表示。離散型、非離散型、連續(xù)型。第29頁/共68頁隨機(jī)變量(RandomVariable)離散型隨機(jī)變量:投擲骰子;非離散型隨機(jī)變量:某路口24小時(shí)內(nèi)經(jīng)過的車輛;連續(xù)型隨機(jī)變量:燈泡壽命。第30頁/共68頁離散型隨機(jī)變量離散型隨機(jī)變量的取值域由有限個(gè)或可數(shù)多個(gè)數(shù)值或符號組成。其概率是指離散型隨機(jī)變量(X)取一個(gè)具體數(shù)值(x)的概率,即P(X=x)。離散型隨機(jī)變量的概率分布是指離散型隨機(jī)變量取遍每一個(gè)實(shí)驗(yàn)結(jié)果x的概率的分布情況,常用列表表示,如下表。第31頁/共68頁離散型隨機(jī)變量X的取值x123456X的概率
P(X=x)1/61/61/61/61/61/6第32頁/共68頁連續(xù)型隨機(jī)變量連續(xù)型隨機(jī)變量的取值域?yàn)橐粋€(gè)連續(xù)區(qū)間。只有在(連續(xù)的)區(qū)間上取值時(shí),其概率才可能為正值,連續(xù)型隨機(jī)變量在任何一點(diǎn)上的概率都為零。第33頁/共68頁概率密度函數(shù)連續(xù)型隨機(jī)變量的概率密度函數(shù)
f(x)概率密度函數(shù)的含義:曲線
f(x)下任何一個(gè)區(qū)間的面積,等于隨機(jī)變量
X
在該區(qū)間取值的概率。第34頁/共68頁最常見的連續(xù)型隨機(jī)變量的概率分布正態(tài)分布(P40)。若隨機(jī)變量x
的概率密度函數(shù)記為
第35頁/共68頁最常見的連續(xù)型隨機(jī)變量的概率分布標(biāo)準(zhǔn)正態(tài)分布:標(biāo)準(zhǔn)正態(tài)分布Z分?jǐn)?shù)第36頁/共68頁標(biāo)準(zhǔn)正態(tài)分布的計(jì)算
第37頁/共68頁例:設(shè)隨機(jī)變量XN(0,1),求下列概率:(1)P(X<0);(2)P(X2.77);
(3)P(X>1);(4)P(-1.80<X<2.45).
(1)
查正態(tài)分布數(shù)值表,當(dāng)x=0時(shí),對應(yīng)的(x)=0.5(2)
查正態(tài)分布數(shù)值表,當(dāng)x=2.77時(shí),對應(yīng)的(x)=0.9972,
所以P(X<0)=0.5所以P(X2.77)=0.9972(3)
因?yàn)镻(X>1)=1-P(X1)=1-(1)查正態(tài)分布數(shù)值表,(1)=0.8413所以
P(X>1)=1-(1)=0.1587第38頁/共68頁例:設(shè)隨機(jī)變量XN(0,1),求下列概率:(1)P(X<0);(2)P(X2.77);
(3)P(X>1);(4)P(-1.80<X<2.45).(4)
因?yàn)镻(-1.80<X<2.45)=(2.45)-(-1.80)=(2.45)-[1-(1.80)]
查正態(tài)分布數(shù)值表,(2.45)=0.9929,(1.80)=0.9641,
所以
P(-1.80<X<2.45)=0.9929-[1-0.9641]=0.9570.第39頁/共68頁正態(tài)分布的計(jì)算
-
例題某廠生產(chǎn)的某種節(jié)能燈管使用壽命服從正態(tài)分布,對某批次產(chǎn)品的測試結(jié)果,平均使用壽命為1050小時(shí),標(biāo)準(zhǔn)差為200小時(shí)。求:
1.使用壽命在500小時(shí)以下的燈管占多大比例?
2.使用壽命在850~1450小時(shí)的燈管所占比例?
3.以均值為中心,95%的燈管使用壽命的范圍?第40頁/共68頁第41頁/共68頁第42頁/共68頁68.27%95.45%99.73%
視頻:經(jīng)驗(yàn)法則,經(jīng)驗(yàn)法則的另一個(gè)例題第43頁/共68頁正態(tài)分布的練習(xí)(Z分?jǐn)?shù))(1)把兩個(gè)人的分?jǐn)?shù)表示成Z分?jǐn)?shù),可以看出兩位女士在
各自的年齡組中居于什么位置。(2)相對于自己的年齡組,莎拉和母親誰的IQ高?
相對于測量值,莎拉和母親誰的IQ高?
第44頁/共68頁關(guān)于智商的問題斯坦福-比奈(Stanford-Binet)智力量表:1986年公布第四次修訂版。量表共包含15個(gè)分測驗(yàn),可以評定4個(gè)認(rèn)知領(lǐng)域,即言語推理、抽象/視覺推理、數(shù)量推理和短時(shí)記憶。網(wǎng)頁鏈接韋氏(Wechsler)智力量表:醫(yī)院使用。門薩智力測試:適用于高智商和高學(xué)歷人群。
百度百科鏈接第45頁/共68頁什么是抽樣分布?如果要估計(jì)總體的均值
;是用樣本平均值
,還是用中位數(shù)m?還是擲骰子,總體均值
第一次,2,2,6,m=2,
第二次,3,4,6,m=4,可見,不能僅僅根據(jù)一個(gè)樣本去比較是
和
m樣本統(tǒng)計(jì)量本身是隨機(jī)變量,抽樣分布就是由樣本n個(gè)觀察值計(jì)算的統(tǒng)計(jì)量的概率分布。第46頁/共68頁樣本均值的抽樣分布
一個(gè)總體1,2,3,4.重復(fù)抽樣方法,先抽一個(gè),放回,再抽一個(gè)。樣本均值
的抽樣分布第47頁/共68頁樣本均值的抽樣分布
有放回(withreplacement)抽樣
12341{1,1} 1{2,1} 1.5{3,1} 2{4,1} 2.52{1,2} 1.5{2,2} 2{3,2} 2.5{4,2}33{1,3} 2{2,3} 2.5{3,3}3{4,3}3.54{1,4} 2.5{2,4} 3{3,4} 3.5{4,4} 4第48頁/共68頁樣本均值的抽樣分布
的取值
的個(gè)數(shù)概率1.011/161.522/162.033/162.544/163.033/163.522/164.011/16第49頁/共68頁第50頁/共68頁第51頁/共68頁第52頁/共68頁中心極限定理中心極限定理:不論該總體服從何種分布,只要當(dāng)樣本容量足夠大(
),樣本均值的分布都近似服從正態(tài)分布。第53頁/共68頁程序模擬
視頻:程序模擬n的不斷增加第54頁/共68頁樣本均值的抽樣分布與總體的關(guān)系總體分布正態(tài)分布非正態(tài)分布大樣本小樣本正態(tài)分布大樣本小樣本正態(tài)分布t分布第55頁/共68頁的抽樣分布例題1某汽車電池的制造商聲稱其最好的電池壽命的均值是54個(gè)月,標(biāo)準(zhǔn)差為6個(gè)月。某消費(fèi)組織決定購買50個(gè)該品種電池作為樣本來檢驗(yàn)電池壽命,
1.假設(shè)該制造商所言為真實(shí)的,請描述這50個(gè)電池樣本的平均壽命的抽樣分布;
2.假設(shè)該制造商所言是真實(shí)的,則消費(fèi)組織的樣本壽命小于或等于52個(gè)月的概率是多少?第56頁/共68頁抽樣分布例題11.運(yùn)用中心極限定理推斷:對于50個(gè)電池的樣本來說,平均壽命的分布近似正態(tài)分布。因此,這個(gè)抽樣分布的均值與抽樣總體的均值是相同的,抽樣分布的標(biāo)準(zhǔn)差由公式計(jì)算,得
個(gè)月;
個(gè)月
第57頁/共68頁抽樣分布例題12.假設(shè)制造商所言是真實(shí)的,則對于50個(gè)電池的樣本來說,消費(fèi)組織觀察到電池的平均壽命小于或者等于52個(gè)月的概率
,等于下圖的陰影面積,計(jì)算標(biāo)準(zhǔn)正態(tài)分布
z值求這個(gè)面積:第58頁/共68頁抽樣分布例題
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度車輛擔(dān)保糾紛處理合同4篇
- 二零二五年度男方家暴女方離婚后個(gè)人隱私保護(hù)及信息保密協(xié)議3篇
- 2025年草花種植基地環(huán)境保護(hù)合作協(xié)議3篇
- 2025年預(yù)攪拌混凝土項(xiàng)目可行性研究報(bào)告
- 2025年度綠色生態(tài)奶牛飼養(yǎng)基地承包經(jīng)營權(quán)轉(zhuǎn)讓合同3篇
- 二零二五年版美術(shù)品投資管理合作協(xié)議4篇
- 2024年丁香酚市場分析報(bào)告
- 二零二五年度綠色生態(tài)住宅區(qū)綠化養(yǎng)護(hù)管理協(xié)議3篇
- 二零二四年度校園物業(yè)服務(wù)與智慧校園建設(shè)合作協(xié)議3篇
- 2025年度船舶舾裝件更換與安裝合同范本4篇
- 遼寧省撫順五十中學(xué)2024屆中考化學(xué)全真模擬試卷含解析
- 2024年湖南汽車工程職業(yè)學(xué)院單招職業(yè)技能測試題庫及答案解析
- 2024年中國科學(xué)技術(shù)大學(xué)少年創(chuàng)新班數(shù)學(xué)試題真題(答案詳解)
- 家長心理健康教育知識講座
- GB/T 292-2023滾動軸承角接觸球軸承外形尺寸
- 軍人結(jié)婚函調(diào)報(bào)告表
- 民用無人駕駛航空器實(shí)名制登記管理規(guī)定
- 北京地鐵6號線
- 航空油料計(jì)量統(tǒng)計(jì)員(初級)理論考試復(fù)習(xí)題庫大全-上(單選題匯總)
- 諒解書(標(biāo)準(zhǔn)樣本)
評論
0/150
提交評論