版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
第七講抽樣推斷PowerPoint統(tǒng)計學抽樣推斷的過程樣本總體樣本統(tǒng)計量例如:樣本均值、比例、方差總體均值、比例、方差抽樣推斷有關的基本概念一、抽樣推斷有關的基本概念
總體(Population):是指調(diào)查對象的全體
個體(Itemunit):組成總體的每個個體
樣本(Sample):由總體中所抽取的部分個體構(gòu)成
樣本容量(Samplesize):樣本中所含個體的數(shù)量例如:假設要調(diào)查西安市有多少家庭擁有電腦,擁有電腦的家庭與沒有電腦的家庭有什么區(qū)別?
抽樣單元(SamplingCell):為了便于實現(xiàn)隨機抽樣,常常將總體劃分為有限個互不重疊的部分,每個部分都叫做一個抽樣單元。
抽樣框(SamplingFrame):在抽樣時,必須有一份全部抽樣單元的資料,這份資料就叫做抽樣框。如人員名單、地圖、電話簿、客戶檔案等。
隨機原則:在進行抽樣時,總體中的每一個體被抽取的可能性是相等的,而不是由研究者主觀決定的。由于隨機抽樣使每一個體都有同等的機會被抽取,因而樣本與總體結(jié)構(gòu)相一致的可能性最大,或者說,樣本具有最大可能表現(xiàn)總體的某些特征。另外,只有遵循隨機原則,才能按概率論的原則計算抽樣誤差,并對總體資料進行推斷。
總體指標(總體參數(shù)):使用平均數(shù)、中位數(shù)、眾數(shù)、比例、標準差這些量來描述總體的特征時,叫做總體參數(shù)
樣本指標(樣本統(tǒng)計量):使用平均數(shù)、中位數(shù)、眾數(shù)、比例、標準差這些量來描述樣本的特征時,叫做樣本統(tǒng)計量指標總體樣本平均數(shù)平均數(shù)的方差平均數(shù)的標準差比例比例的方差比例的標準差樣本統(tǒng)計量的計算公式樣本平均數(shù)樣本平均數(shù)的方差樣本成數(shù)樣本成數(shù)的方差抽樣方式及樣本可能數(shù)目二、抽樣方式及樣本可能數(shù)目
抽樣方式重復抽樣(放回抽樣)不重復抽樣(不放回抽樣)
對樣本的要求考慮順序(排列)不考慮順序(組合)樣本可能數(shù)目(樣本個數(shù))重復抽樣、考慮順序重復抽樣、不考慮順序不重復抽樣、不考慮順序不重復抽樣、考慮順序例如:從A、B、C、D四個字母中隨機抽取兩個字母,樣本的可能數(shù)目:重復,排列不重復,排列不重復,組合重復,組合A,AA,BA,BA,ABCCBCDDCDB,AB,CDB,ACDB,BBDC,DCCC,ADDBC,CC,ADDBD,AD,DCBDCD,ABCD抽樣推斷的組織形式三、抽樣推斷的組織形式概率抽樣:按照隨機原則選取樣本
簡單隨機抽樣:完全隨機地抽選樣本
分層抽樣(類型抽樣):總體分成不同的“層”,然后在每一層內(nèi)進行抽樣
整群抽樣:將一組被調(diào)查者(群)作為一個抽樣單元
等距抽樣(系統(tǒng)抽樣):在樣本框中每隔一定距離抽選一個被調(diào)查者非概率抽樣:不是完全按隨機原則選取樣本
任意抽樣:由調(diào)查人員自由選取被調(diào)查者
判斷抽樣:通過某些條件過濾來選擇被調(diào)查者
配額抽樣:選擇一群特定數(shù)目、滿足特定條件的被調(diào)查者樣本平均數(shù)的抽樣分布所有樣本指標(如平均數(shù)、比例、方差等)所形成的分布稱為抽樣分布是一種理論概率分布隨機變量是樣本統(tǒng)計量如樣本平均數(shù),樣本比例等結(jié)果來自容量相同的所有可能樣本
四、抽樣分布
(概念要點)樣本平均數(shù)的抽樣分布
(一個例子)【例】設一個總體,含有4個元素(個體),即總體單位數(shù)N=4。4個個體分別為X1=1、X2=2、X3=3、X4=4??傮w的平均數(shù)、方差及分布如下:平均數(shù)和方差總體分布14230.1.2.3樣本平均數(shù)的抽樣分布
(一個例子)
現(xiàn)從總體中抽取n=2的簡單隨機樣本,在重復抽樣、考慮順序條件下,共有42=16個樣本。所有樣本的結(jié)果如下表:3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二個觀察值第一個觀察值所有可能樣本(共16個)樣本平均數(shù)的抽樣分布
(一個例子)
計算出各樣本的平均數(shù),如下表。并給出樣本平均數(shù)的抽樣分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二個觀察值第一個觀察值16個樣本的平均數(shù)(x)樣本平均數(shù)的抽樣分布0.1.2.3P(x)1.01.53.04.03.52.02.5x所有樣本平均數(shù)的平均數(shù)和方差式中:M為樣本可能數(shù)目比較及結(jié)論:1.樣本平均數(shù)的平均數(shù)等于總體平均數(shù)2.樣本平均數(shù)的方差等于總體方差的1/n
(樣本平均數(shù)的方差也稱抽樣方差)樣本平均數(shù)的抽樣分布
與中心極限定理n=4抽樣分布xn=16xXxxX當總體服從正態(tài)分布N~(,σ2)時,來自該總體的所有容量為n的樣本的平均數(shù)也服從正態(tài)分布,的數(shù)學期望為,方差為σ2/n。即~N(
,σ2/n)X
=10X總體分布中心極限定理
(圖示)當樣本容量足夠大時(n
30),樣本平均數(shù)的抽樣分布逐漸趨于正態(tài)分布一個任意分布的總體X中心極限定理:設從平均數(shù)為X,方差為
2的一個任意總體中抽取容量為n的樣本,當n充分大時,樣本平均數(shù)的抽樣分布近似服從均值為X、方差為σ2/n的正態(tài)分布抽樣誤差五、抽樣平均誤差(一)樣本平均數(shù)的抽樣平均誤差1.所有可能出現(xiàn)的樣本平均數(shù)的標準差,測度所有樣本平均數(shù)的離散程度計算公式為重復抽樣不重復抽樣抽樣平均誤差(二)樣本成數(shù)的抽樣平均誤差1.所有可能出現(xiàn)的樣本成數(shù)的標準差,測度所有樣本成數(shù)的離散程度計算公式為重復抽樣不重復抽樣(三)抽樣平均誤差的影響因素總體方差樣本容量抽樣方法抽樣的組織形式(四)總體方差未知的處理辦法用以往的方差資料代替用樣本方差代替用估計的方差代替例如:從某學校隨機抽取100名學生,測得平均體重為61公斤,標準差為10公斤,請計算學生平均體重的抽樣平均誤差。解:參數(shù)估計的基本方法六、參數(shù)估計的基本方法(一)點估計(二)區(qū)間估計(一)點估計
(概念要點)從總體中抽取一個樣本,根據(jù)該樣本的統(tǒng)計量對總體的未知參數(shù)作出一個數(shù)值點的估計例如:用樣本平均數(shù)作為總體未知平均數(shù)的估計值就是一個點估計2. 點估計沒有給出估計值接近總體未知參數(shù)程度的信息(如準確程度、把握程度)1. 用于估計總體某一參數(shù)的隨機變量如樣本平均數(shù)、樣本比例、樣本中位數(shù)等例:樣本平均數(shù)就是平均數(shù)的一個估計量如果樣本平均數(shù)
x=3,則
3
就是總體平均數(shù)的估計值理論基礎是抽樣分布估計量
(概念要點)二戰(zhàn)中的點估計二戰(zhàn)中的點估計—
德軍有多少輛坦克?二戰(zhàn)期間,盟軍非常想知道德軍總共制造了多少輛坦克。德國人在制造坦克時是墨守成規(guī)的,他們把坦克從1開始進行了連續(xù)編號。在戰(zhàn)爭過程中,盟軍繳獲了一些敵軍坦克,并記錄了它們的生產(chǎn)編號。那么怎樣利用這些號碼來估計坦克總數(shù)呢?在這個問題中,總體參數(shù)是未知的坦克總數(shù)N,而繳獲坦克的編號則是樣本。假設我們是盟軍手下負責解決這個問題的統(tǒng)計人員。制造出來的坦克總數(shù)肯定大于等于記錄的最大編號。為了找到它比最大編號大多少,我們先找到被繳獲坦克編號的平均值,并認為這個值是全部編號的中點。因此樣本平均數(shù)乘以2就是總數(shù)的一個估計;當然要特別假設繳獲的坦克代表了所有坦克的一個隨機樣本。這種估計N的公式的缺點是:不能保證均值的2倍一定大于記錄中的最大編號。二戰(zhàn)中的點估計—
德軍有多少輛坦克?N的另一個點估計公式是:用觀測到的最大編號乘以因子1+1/n,其中n是被俘虜坦克個數(shù)。假如你俘虜了10輛坦克,其中最大編號是50,那么坦克總數(shù)的一個估計是(1+1/10)50=55。此處我們認為坦克的實際數(shù)略大于最大編號。從戰(zhàn)后發(fā)現(xiàn)的德軍記錄來看,盟軍的估計值非常接近所生產(chǎn)的坦克的真實值。記錄仍然表明統(tǒng)計估計比通常通過其他情報方式作出估計要大大接近于真實數(shù)目。統(tǒng)計學家們做得比間諜們更漂亮!資料來源:GUDMUNDR.IVERSEN和MARYGERGRN著,吳喜之等譯:《統(tǒng)計學—基本概念和方法》,高等教育出版社,施普林格出版社,2000。估計量的優(yōu)良性準則
(無偏性)無偏性:估計量的數(shù)學期望等于被估計的總體參數(shù)P(x)xCA
無偏有偏估計量的優(yōu)良性準則
(有效性)有效性:一個方差較小的無偏估計量稱為一個更有效的估計量。如:與其他估計量相比,樣本平均數(shù)是一個更有效的估計量AB
中位數(shù)的抽樣分布平均數(shù)的抽樣分布xP(x)估計量的優(yōu)良性準則
(一致性)一致性:隨著樣本容量的增大,估計量越來越接近被估計的總體參數(shù)AB較小的樣本容量較大的樣本容量
P(x)x(二)區(qū)間估計
(概念要點)1. 根據(jù)一個樣本的觀察值給出總體參數(shù)的估計范圍給出總體參數(shù)落在這一區(qū)間的概率例如:總體平均數(shù)落在50~70之間,置信度為95%樣本統(tǒng)計量
(點估計)置信區(qū)間置信下限置信上限置信區(qū)間估計
(內(nèi)容)
2已知
2未知
平均數(shù)比例置信區(qū)間
方差已知方差
未知
落在總體平均數(shù)某一區(qū)間內(nèi)的樣本
x_x90%的樣本95%的樣本99%的樣本總體未知參數(shù)落在區(qū)間內(nèi)的概率置信水平表示為(1-
為顯著性水平,是總體參數(shù)未在區(qū)間內(nèi)的概率常用的置信水平值有99%,95%,90%相應的
為0.01,0.05,0.10置信水平
區(qū)間與置信水平
平均數(shù)的抽樣分布1-aa/2a/2(1-
)%區(qū)間包含了
%的區(qū)間未包含影響區(qū)間寬度的因素1. 數(shù)據(jù)的離散程度,用來測度樣本容量n3. 置信水平(1-
),影響
Z的大小總體平均數(shù)和總體比例的區(qū)間估計總體平均數(shù)和總體比例
的區(qū)間估計(一)
總體平均數(shù)的區(qū)間估計(二)總體比例的區(qū)間估計(一)總體平均數(shù)的置信區(qū)間
(
2已知)1. 假定條件總體服從正態(tài)分布,且總體方差(
2)已知如果不是正態(tài)分布,可以由正態(tài)分布來近似
(n
30)使用正態(tài)分布統(tǒng)計量Z總體平均數(shù)
在1-置信水平下的置信區(qū)間為總體平均數(shù)的區(qū)間估計
(正態(tài)總體:實例)我們可以95%的概率保證該種零件的平均長度在21.302~21.498mm之間【例】某種零件長度服從正態(tài)分布,從該批產(chǎn)品中隨機抽?。辜?,測得其平均長度為21.4
mm。已知總體標準差
=0.15mm,試建立該種零件平均長度的置信區(qū)間,給定置信水平為0.95。解:已知X~N(,0.152),x=2.14,n=9,1-=0.95,Z=1.96
總體均值
的置信區(qū)間為總體平均數(shù)的區(qū)間估計
(非正態(tài)總體:實例)解:已知
x=26,=6,n=100,1-=0.95,Z=1.96我們可以95%的概率保證平均每天參加鍛煉的時間在24.824~27.176分鐘之間【例】某大學從該校學生中隨機抽取100人,調(diào)查到他們平均每天參加體育鍛煉的時間為26分鐘。試以95%的置信水平估計該大學全體學生平均每天參加體育鍛煉的時間(已知總體方差為36小時)??傮w平均數(shù)的置信區(qū)間(
2未知)大樣本條件下,使用Z分布統(tǒng)計量
總體均值在1-置信水平下的置信區(qū)間為小樣本條件下,使用t分布統(tǒng)計量總體平均數(shù)
在1-置信水平下的置信區(qū)間為總體平均數(shù)的區(qū)間估計
(實例)我們可以95%的概率保證總體均值在46.69~53.30之間【例】從一個正態(tài)總體中抽取一個隨機樣本,n=25,其均值`x=
50,標準差s=8。建立總體均值x的95%的置信區(qū)間。解:已知X~N(X,
2),x=50,s=8,n=25,1-=0.95,t=2.0639。
老年人的睡眠情況是困擾老年人日常生活快樂的一個重要因素,為此,醫(yī)生著手進行了一次摸底調(diào)查,在隨機采訪的36名老年人中,他們每晚的睡眠時間為:練習一5.48.63.93.27.13.56.56.04.06.97.25.13.77.77.14.52.16.34.84.84.55.36.56.57.08.67.05.57.25.94.37.75.04.76.23.7(1)用點估計的方法推斷老年人每晚的平均睡眠時間;(2)用區(qū)間估計的方法推斷老年人每晚的平均睡眠時間(置信水平為90%)。(1)∴老年人每晚的平均睡眠時間為5.7小時。(2)練習一答案
因此,我們以90%的可靠程度估計老年人每晚平均睡眠時間在5.3小時~6.1小時之間。
一大型超市為研究顧客的購買行為,隨機抽取了100個顧客,這些顧客的平均花費水平為80元,標準差25元。試以90%概率保證程度,計算顧客群體平均花費水平的變化范圍。練習二練習二答案
因此,我們以90%的可靠程度估計顧客的平均花費水平在75.9元~84.1元之間。(二)總體比例的置信區(qū)間1. 假定條件兩類結(jié)果總體服從二項分布可以由正態(tài)分布來近似使用正態(tài)分布統(tǒng)計量Z3.總體比例P
的置信區(qū)間為總體比例的置信區(qū)間
(實例)解:已知n=200,=0.7,
1-=0.95,Z=1.96p
我們可以95%的概率保證該企業(yè)職工由于同管理人員不能融洽相處而離開的比例在63.6%~76.4%之間【例】某企業(yè)在一項關于職工流動原因的研究中,從該企業(yè)前職工的總體中隨機選取了200人組成一個樣本。在對其進行訪問時,有140人說他們離開該企業(yè)是由于同管理人員不能融洽相處。試對由于這種原因而離開該企業(yè)的人員的真正比例構(gòu)造95%的置信區(qū)間。
Sateer是一家大型的計算機應用程序開發(fā)公司,為提高程序員的編程水平,在公司范圍內(nèi)組織了一次為期50天的培訓活動。培訓結(jié)束后,隨即進行了測試,以了解培訓產(chǎn)生的效果。在隨機抽選出來的45名被測試者中,有36人通過了考試。試據(jù)此對全部參加培訓的450名程序員通過測試的比例進行區(qū)間估計(要求1-α=95%)。練習三練習三答案因此,我們以95%的把握程度估計程序員能夠通過考試的比例在68.8%~91.2%元之間。
航空公司飛行時間安排和價格是商務旅行者選擇航班要考慮的重要因素,但是一項調(diào)查的結(jié)果表明,商務旅行者一般將航空公司許諾的??驼劭劭闯墒亲顬橹匾囊蛩?。在一個由1993名商務旅行者組成的簡單隨機樣本中,有618人認為折扣是他們最看好的東西。試就這一問題,在95%的置信水平下,估計商務旅行者認為折扣最有吸引力的人數(shù)所占的比例。練習四練習四答案因此,我們以95%的把握估計“認為折扣最有吸引力”的人數(shù)所占的比例在27.3%~34.7%元之間。樣本容量的確定(一)估計總體均值時樣本容量的確定根據(jù)均值區(qū)間估計公式可得樣本容量n為七、樣本容量的確定
樣本容量n與總體方差
2、允許誤差
、可靠性系數(shù)Z之間的關系為與總體方差成正比與允許誤差成反比與可靠性系數(shù)成正比其中:樣本容量的確定
(實例)解:已知
2=1800000,=0.05,Z=1.96,=500
應抽取的樣本容量為【例】一家廣告公司估計某類商店去年所花的平均廣告費用有多少。經(jīng)驗表明,總體方差約為1800000元。如置信度取95%,并要使估計處在總體平均值附近500元的范圍內(nèi),這家廣告公司應抽多大的樣本?根據(jù)比例區(qū)間估計公式可得樣本容量n為(二)估計總體比例時樣本容量的確定
若總體比例P未知時,可用樣本比例來代替
p其中:樣本容量的確定
(實例)【例】一家市場調(diào)研公司想估計某地區(qū)有彩色電視機的家庭所占的比例。該公司希望對比例P的估計誤差不超過0.05,要求的可靠程度為95%,應抽取多少戶家庭構(gòu)成樣本?解:
已知
=0.05,1-=0.95,Z=1.96,當P未知時用最大方差0.25代替應抽取的樣本容量為
為了配備所需的售貨員人數(shù),商場管理部門想了解一名售貨員接待顧客平均花費的時間。假定一名售貨員接待一位顧客所花費的時間的標準差為4分鐘,要求估計誤差不超過2分鐘,置信度為99%,問應觀察多少名顧客?練習五練習五答案∴應觀察27名顧客。
一純凈水生產(chǎn)廠家
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025公路施工勞務承包合同
- 2025企業(yè)管理資料員工訴企業(yè)“乘人之?!焙炗喰薷膭趧雍贤趺崔k文檔范本
- 2025合同模板合作辦幼兒園合同范本
- 2025國際銷售代表合同
- 胎兒保護科學指導下的孕婦藥物選擇
- 結(jié)合現(xiàn)代科技的自然體驗課程設計探討
- 2024年拉米夫定項目資金需求報告代可行性研究報告
- 2024年O型圈項目投資申請報告代可行性研究報告
- 生態(tài)農(nóng)業(yè)科技發(fā)展現(xiàn)狀與前景展望
- 二零二五年度新能源發(fā)電項目電氣設備安裝調(diào)試合同4篇
- 2024-2025學年山東省濰坊市高一上冊1月期末考試數(shù)學檢測試題(附解析)
- 江蘇省揚州市蔣王小學2023~2024年五年級上學期英語期末試卷(含答案無聽力原文無音頻)
- 數(shù)學-湖南省新高考教學教研聯(lián)盟(長郡二十校聯(lián)盟)2024-2025學年2025屆高三上學期第一次預熱演練試題和答案
- 決勝中層:中層管理者的九項修煉-記錄
- 幼兒園人民幣啟蒙教育方案
- 軍事理論(2024年版)學習通超星期末考試答案章節(jié)答案2024年
- 記錄片21世紀禁愛指南
- 腰椎間盤的診斷證明書
- 移動商務內(nèi)容運營(吳洪貴)任務七 裂變傳播
- 單級倒立擺系統(tǒng)建模與控制器設計
- 齲病的治療 深齲的治療
評論
0/150
提交評論