




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、統(tǒng)計學(xué)在考古中的應(yīng)用,第四講,總體、樣本、樣本觀察值的關(guān)系,總體,樣本,樣本觀察值,?,理論分布,統(tǒng)計是從手中已有的資料樣本觀察值,去推斷總體的情況總體分布。樣本是聯(lián)系兩者的橋梁??傮w分布決定了樣本取值的概率規(guī)律,也就是樣本取到樣本觀察值的規(guī)律,因而可以用樣本觀察值去推斷總體,17個柱洞組成的總體 樣本量 n1 17個不同樣本 17.6% n2 153個不同樣本 8.5% n=3 969個不同樣本 5.3% 樣本量越大,樣本平均值更集中于總體平均值附近,不具備代表性的樣本,它的少見程度(根據(jù)特殊數(shù)列)能讓我們確定,對我們可能從給定總體中可以隨機(jī)抽取出來的任何給定大小的特定樣本,它不具備代表性的
2、概率是多少。,特殊數(shù)列,由所有可能的不同樣本(樣本大小相等)的平均值組成 數(shù)學(xué)上也能夠證明,特殊數(shù)列的標(biāo)準(zhǔn)差就是給定總體的標(biāo)準(zhǔn)差再除以樣本大小的平方根 。 標(biāo)準(zhǔn)誤差就是由從給定總體中能夠抽取的給定大小的所有不同樣本的平均值組成的數(shù)列的標(biāo)準(zhǔn)差。,特殊數(shù)列,平均值的抽樣分布 第一,特殊數(shù)列的平均值和樣本抽取總體的平均值一致;第二,特殊數(shù)列的標(biāo)準(zhǔn)差,就是標(biāo)準(zhǔn)誤差,即。第三,特殊數(shù)列符合正態(tài)分布,只要樣本大小超過30。,樣本均值抽樣分布與中心極限定理,中心極限定理:設(shè)從均值為,方差為2的一個任意總體中抽取容量為n的樣本,當(dāng)n充分大時,樣本均值的抽樣分布近似服從均值為、方差為2/n的正態(tài)分布,置信度和總
3、體平均值,一個特殊數(shù)列的平均值與總體的平均值是一樣的;其標(biāo)準(zhǔn)差(也即標(biāo)準(zhǔn)誤差)是總體的標(biāo)準(zhǔn)差除以樣品數(shù)目的平方根。在現(xiàn)實生活中,我們既不知道樣品所取自的總體平均值,又不知道其標(biāo)準(zhǔn)差。 沒有一個總體和所有可能取自它的樣本,相反只有一個樣本以及它可能來自的總體。,假設(shè)有一個由100件矛頭組成的隨機(jī)樣本,它抽取自一個數(shù)目更大的總體。我們想要知道的是這個矛頭總體的長度平均值。這個隨機(jī)樣本的100個矛頭的長度平均值是3.35cm,標(biāo)準(zhǔn)差是0.50cm。 將這些樣品(100件矛頭)看作是取自那個時期該地區(qū)的史前居民制作的所有矛頭組成的總體的一個隨機(jī)樣本。,大而模糊的總體被認(rèn)為是無限總體。這并不是說它們中的
4、個體無限多,只是因為它們非常巨大而且沒有準(zhǔn)確地限定。,對于大的總體和樣本而言,樣本平均值與總體平均值常常一樣。與之相類似,樣本標(biāo)準(zhǔn)差與總體標(biāo)準(zhǔn)差也常常相同。因此,最好的評估是,樣本所取自的矛頭總體的長度平均值為3.35cm,標(biāo)準(zhǔn)差是0.50cm。 然而,樣本的平均值并不總是正好與其總體相同。因此,在作上述估計時,到底應(yīng)該具有多大的置信度。換種說法:這一估計到底在多大程度上是不正確的?更準(zhǔn)確地說,這一估計的錯誤到了何種程度才至于(對研究結(jié)果)造成影響?,已經(jīng)假定它很可能來源于一個長度平均值為3.35cm(與樣本的長度平均值一樣)的總體,但并不能保證它一定來自這樣一個總體。 樣本可能來源于一個長度
5、平均值大于或小于3.35cm、甚至遠(yuǎn)遠(yuǎn)大于或小于3.35cm的總體。 可以分別考慮,樣本可能取自各種不同的特殊總體:在多大程度上會是這樣的(樣本來源于平均值大于或小于3.35cm的總體)。對于每一個所能想象到的樣本母體,需要考慮到來自這個總體的、由任意100件矛頭平均值組成的特殊總體。,想象樣本可能來源于一個長度平均值為3.25cm的總體。從一個平均值為3.25cm的總體中取得這樣的樣本(就是說,平均值為3.35cm,標(biāo)準(zhǔn)偏差為0.50cm的樣本)的不尋常性有多大? 那個來自平均值為3.25cm總體、由任意100件矛頭平均值組成特殊數(shù)列會是什么樣的? 這個特殊數(shù)列的平均值與總體的平均值一樣,也
6、就是3.25cm。這個特殊數(shù)列的形狀大體上是正態(tài)分布,,取自一個平均值為3.25cm、標(biāo)準(zhǔn)差為0.50cm的總體,并由100件樣品平均值組成的特殊數(shù)列。,平均值為3.35cm的樣本確實有可能在平均值為3.25cm的總體的抽樣數(shù)目為100件的所有可能樣本之中,但它們出現(xiàn)的概率不高不如那些平均值更靠近3.25cm的樣品出現(xiàn)的頻率高。在一個取自平均值為3.25的總體的所有可能樣本中,我們的樣本極不正常。所以,我們的樣本有可能來自一個平均值為3.25cm的總體,但這種可能性不是很大。,樣本來源于平均值為3.20cm總體的可能性有多大?圖9.3示意了一個選自平均值為3.25cm,標(biāo)準(zhǔn)差為0.50cm的總
7、體、由任意(所有可能性)100件樣品的平均值組成的特殊數(shù)列。,樣本來源于平均值為3.30cm總體的可能性有多大?圖9.4示意了一個選自平均值為3.30,標(biāo)準(zhǔn)差為0.50cm的總體、由任意(所有可能性)100件樣品的平均值組成的特殊總體。在圖9.4所示的正態(tài)曲線上,與我們的樣本相對應(yīng)的位置水平相當(dāng)高。因而平均值為3.35cm的樣本選自平均值為3.30cm的總體的可能性很大。,圖9.5代表由選自平均值為3.35cm、標(biāo)準(zhǔn)差為0.50cm的100件所有可能性樣本組成的特殊數(shù)列。于是,它代表各種可能取自這種總體的樣本不尋常性,因而也就是從這個總體中選取它們?nèi)魏我粋€的可能性。,可以設(shè)想繼續(xù)把這個方法應(yīng)用
8、到更多的可能性母體,用這些試驗結(jié)果來構(gòu)建一個新的曲線。這個新的曲線將會表明每一個可能的母體是我們的樣本來源的可能性有多大。其結(jié)果是,如果實施這樣的程序,我們建立的曲線將會有一個與圖9.5所示意的曲線具備完全相同的參數(shù)。,另一方面,圖9.6所示的曲線代表了平均值為3.35cm、標(biāo)準(zhǔn)偏差為0.50cm的100件樣品所來自的可能性總體的概率,因而也就是這個樣本取自它們中任何特定一個的可能性。,置信度與精確度,樣本的可能來源的大量總體(都有一個介于3.30cm和3.40cm的平均值)的平均值都介于3.30cm和3.40cm之間。(這些總體的平均值落在我們樣本平均值的正負(fù)1個標(biāo)準(zhǔn)誤差的范圍之內(nèi))。,謹(jǐn)慎
9、地認(rèn)為,我們的樣本可能來自平均值在3.30和3.40cm之間的總體。我們這樣說,是因為在所有可能的總體中平均值小于3.30cm和大于3.40cm的總體的數(shù)量仍然是很多的。,我們的樣本很可能來自一個平均值為3.350.10cm,只有極少數(shù)的可能性總體的平均值小于3.20cm或大于3.50cm。那么,從一個平均值小于3.20cm或大于3.50cm的總體選擇一個由100件樣品組成、平均值為3.35cm、標(biāo)準(zhǔn)偏差為0.50cm的樣本的就是極不尋常的(概率極低)。 我們的樣本來自一個平均值為3.350.15cm的總體的可能性非常大,很可能說“我將于4點(diǎn)到”。雖然守時的習(xí)俗不同,但我不大可能說,我會在4點(diǎn)
10、前5分鐘內(nèi)到達(dá),除非我感覺有非常大的自信。如果我的到達(dá)取決于途中的交通狀況如何,我更可能說“我會在4點(diǎn)左右到達(dá)”,這是一個精確度較低的陳述,表明我有可能或早或晚10至15分鐘到達(dá)。如果預(yù)想到可能碰到更難估計的阻力,我可能說“我將大概在4點(diǎn)左右到那兒,”暗示一個更低的精確性,也許在3:30和4:30之間。,students t檢驗,小樣本,左邊的一列代表自由度,它們等于樣本中所有個體的數(shù)目減去1(n-1)。 這意味著我們樣本所取自的可能性總體有95(圖9.7“正態(tài)曲線以下”的陰影區(qū)域所代表的)落在樣本平均值的1.98個標(biāo)準(zhǔn)誤差之內(nèi)。因此,當(dāng)我們說“很可能”樣本來源于一個平均值為3.35cm0.1
11、0cm時,我們的意思-更確切地說,是來自這樣一個總體的可能性為95。我們有95的自信說我們的樣本取自一個平均值為3.35cm0.10cm的總體。我們并不完全肯定我們的樣本來源于一個平均值為3.35cm0.10cm的總體,但情況就是那樣的可能性是95。,正態(tài)分布的3法則,68.3% 295.5% 399.7%,特定置信水平,推斷確定當(dāng)樣本中個體數(shù)目是100時,與90置信度對應(yīng)的標(biāo)準(zhǔn)誤差是多少。因為n =100,d.f.=99,所以我們用120 d.f.所在的那一行。在90置信度一列的數(shù)值是1.658,這意味著對這樣大的一個樣本來說,1.658個標(biāo)準(zhǔn)誤差的誤差范圍對應(yīng)的置信度是90。從而,我們將標(biāo)
12、準(zhǔn)誤差(0.05cm)乘以1.658,得到一個0.08cm的誤差范圍。我們于是說:我們有90的置信度說我們的樣本來自一個平均值為3.350.08cm的總體。如果我們的樣品由12件而不是100件矛頭組成,我們就得用表9.1中的11 d.f.所在的那一行,(相應(yīng)地)需要用1.796個標(biāo)準(zhǔn)誤差的誤差范圍。以這個方法把誤差范圍校準(zhǔn)到一定的置信水平可以消除任何因樣本大小不同所引起的可能混亂,有限總體,如果我們利用一個100件矛頭樣本對其所代表的總數(shù)目為120件的總體的長度平均值作推算時,我們的推論結(jié)果的不確定性比起用同樣大的樣本對一個實質(zhì)上無限總體的長度平均值進(jìn)行的推論會更小。至少在這個案例中,普通感覺
13、判斷為真時,在數(shù)學(xué)上也是正確的。任何時候只要總體是有限的,我們就可以把有限總體校正系數(shù)代入下面的標(biāo)準(zhǔn)誤差等式中:,案例,設(shè)想在一個村莊遺址發(fā)掘現(xiàn)場的一個特定房子內(nèi)發(fā)現(xiàn)了53個碗口沿殘片,我們從中隨機(jī)選取25個。我們希望以這25個殘片的測量值為依據(jù)來推算數(shù)目為53個的碗口沿殘片總體的平均直徑,并且我們希望在95的置信水平上作出一個判斷。,平均值14.79cm 樣本的標(biāo)準(zhǔn)差是3.21cm 0.47cm 95置信度 t值2.064 2.064*0.47cm= 0.97cm 14.790.97cm,需要多大樣本?,確定我們希望表述時所有的置信水平和可以接受的誤差范圍,然后確定需要多大的樣本來達(dá)到這個目
14、標(biāo)。 在95的置信水平上對一個遺址中的陶片厚度進(jìn)行估計,誤差范圍不超過0.5毫米。經(jīng)過對該地區(qū)的幾個遺址上收集的陶片厚度的測量,我們發(fā)現(xiàn)陶片樣本的標(biāo)準(zhǔn)差大約在0.9毫米。,n=0.9mm1.960/0.5mm2 =(1.764mm/0.5mm)2 =3.5282 =12.447,帶回一個13件的陶片樣本,其平均厚度為7.3毫米,標(biāo)準(zhǔn)差為0.9毫米 對數(shù)量大小為13件的樣本,在12 d.f和95置信度時,t為2.179 殘?zhí)掌钠骄穸仁?.30.5毫米,截尾,修正平均值的估計能帶來雙倍的回報它對數(shù)列中心而言是一個更靈敏的指數(shù),而且對平均值估計的誤差范圍也小得多。,類型數(shù)列與總體比例,在樣本的基
15、礎(chǔ)上,對總體比例進(jìn)行估計,與根據(jù)樣本平均值來估計總體平均值非常相似。 由100個矛頭組成的樣本,我們要分析一下矛頭的制作原材料。經(jīng)檢測,其中有13個是由黑曜石制作。由于樣本中矛頭的總數(shù)目是100個,那由黑曜石做成的矛頭所占的比例就是13/100或13.0%。 一個樣本可能會與作為其來源的總體有一個不同的平均值;同樣,一個樣本中,由黑曜石制成的矛頭的比例是13.0%,而樣本選取的總體中,黑曜石矛頭的比例卻不是13.0%,這種情況也是可能的。因此,我們就想把誤差范圍和置信區(qū)間也引入到對樣本及總體比例的估計中去,就像總體平均值一樣。,標(biāo)準(zhǔn)差 S0.3363 13.0%3.4% 在置信度為95%的水平
16、上,我們就可以估計:在樣本抽取的總體中,黑曜石矛頭所占比例為13.06.7%(即在6.3%-19.7%之間)。這就意味著,在一個黑曜石矛頭所占比例小于5.3%或大于19.7%的總體中,抽出一個象我們這樣的樣本(即:有100個矛頭,其中有13.0%是由黑曜石制成的)的概率只有5%。,假設(shè)我們對一個村落遺址進(jìn)行全面發(fā)掘。這個村落曾經(jīng)有人居住的時期相對較短。我們在其中確定了24個房屋基址。在這24個房屋基址中,有17個保存的程度較好,可以確定其入口的位置。在這17個房屋中,有6個房屋的入口是朝南開的。經(jīng)過對偏差所有可能來源進(jìn)行一一慎重考慮,我們決定將最初建立在遺址上的24所房屋作為一個總體,把其中保
17、存較好的這17所房屋作為一個隨機(jī)樣本。于是我們可以估計,在這個遺址上的房屋中,有6/17(即35.3%)的入口是面向南的。,SE= 0.0625 想達(dá)到90%的置信水平,用這個標(biāo)準(zhǔn)誤差乘上1.746(根據(jù)表9.1.,置信度為90%和16d.f.時的t=1.746)得到0.1091,由此我們就可以斷定:在此遺址上的24座房屋中,有35.310.9%(即24.4%-46.2%)的房屋的開口朝南。因為這是一個有限總體,我們可以將其估計的比例(以及其后的誤差范圍)轉(zhuǎn)換成房屋的數(shù)目。將總體中房屋的數(shù)目(24)乘上誤差范圍的最低值(24.4%),得5.9座房屋;乘上最高值(46.2%),得11座房屋。于是
18、我們就可以說:在置信度為90%的水平上,這個遺址上的房屋中,有611座的開口是朝南的。,在這個案例中,所抽取的樣本以及從中抽取這個樣本的總體太小了,以至于這些統(tǒng)計結(jié)果并無多大的實際意義;因為畢竟我們已經(jīng)知道,在這個遺址上有6座房屋的開口是朝南的:就是在這個樣本中已知開口朝南的房屋有6座。我們還知道,不可能有多于13座的房屋的開口朝南,因為只有7座房屋的開口沒有記錄。如果這7座房子的開口均朝南的話,那加上前面的6座就是13座。倘若我們早已知道開口朝南的房屋的數(shù)目在613之間的話,那我們還說“在置信度90%的水平上,這個遺址上開口朝南的房子的數(shù)目是611座”這樣的話又意義何在呢?但無論如何,我們已經(jīng)意識到,這個樣本小得無法讓我們在很高的置信水平上,對整個總體做出一些精確的判斷。即使這是一個抽樣比例達(dá)到71%的樣本(17/24=71%),但要為了揭示一些我們所想知道的事情的話,這個樣本還是顯得太小了。在統(tǒng)計術(shù)語中,不論其在總體中所占的比例如何大,一個由17個樣品組成的樣本確實是一個非常小的樣本。假如我們處理這樣一個小樣本的話,就會有一個很大的問題:無論我們得出的比例是多少,都有可能與總體中的比例不同。不管我們通過這個樣本對其總體做出怎樣的結(jié)論,它都不會是很精確或確定的,即使這些結(jié)論是我們對整個總體所能做
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 畢業(yè)游戲活動方案
- 汽車漂流活動方案
- 法務(wù)公司營銷策劃方案
- 母乳喂養(yǎng)宣傳周活動方案
- 水災(zāi)救援活動方案
- 沸石清潔面膜活動方案
- 民間滬劇比賽活動方案
- 汽車配件促銷活動方案
- 水槍泡泡樂活動方案
- 氣象調(diào)研活動方案
- 2025泉州市洛江區(qū)事業(yè)單位考試歷年真題
- 商場夏季餐飲活動方案
- 高溫施工人員防暑指南
- 上海市重點(diǎn)建設(shè)項目社會穩(wěn)定風(fēng)險評估報告編制指南2025
- 2025央國企AI+數(shù)智化轉(zhuǎn)型研究報告
- 倉儲部標(biāo)簽管理制度
- 數(shù)字化情報資源管理-洞察闡釋
- 電氣自動化 霓虹燈廣告屏的PLC控制設(shè)計
- 穿透式管理模式在建設(shè)項目中的應(yīng)用與探索
- 車庫門維修合同范本
- 2025年度事業(yè)單位公開招聘考試《綜合應(yīng)用能力(E類)公共衛(wèi)生管理》試卷真題及解析
評論
0/150
提交評論