第7部分假設(shè)檢驗_第1頁
第7部分假設(shè)檢驗_第2頁
第7部分假設(shè)檢驗_第3頁
第7部分假設(shè)檢驗_第4頁
第7部分假設(shè)檢驗_第5頁
已閱讀5頁,還剩45頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第7部分假設(shè)檢驗 第一節(jié) 二項分布 二項分布是從著名的貝努里試驗中推導(dǎo)而來。所謂貝努里試驗,是指只有兩種可能結(jié)果的隨機試驗。在實際問題中,有許多隨機現(xiàn)象只包含兩個結(jié)果,如男與女,是與非,生與死,同意與不同意,贊成與反對等等。通常,我們把其中比較關(guān)注那個結(jié)果稱為“成功”,另一個結(jié)果則稱為“失敗”。每當(dāng)情況如同貝努里試驗,是在相同的條件下重復(fù)n次,考慮的是“成功”的概率,且各次試驗相互獨立,就可利用與二項分布有關(guān)的統(tǒng)計檢驗。雖然許多分布較之二項分布更實用,但二項分布簡單明了,況且其他概率分布的使用和計算邏輯與之相同。所以要理解統(tǒng)計檢驗以及它所涉及的許多新概念,人們幾乎都樂意從二項分布的討論入手。

2、7/20/202221. 二項分布的數(shù)學(xué)形式 從擲硬幣的試驗入手。假定二項試驗由重復(fù)拋擲n次硬幣組成,已知硬幣面朝上(成功)的概率是p,面朝下(失敗)的概率是q (顯然有 q1p)。這樣,對試驗結(jié)果而言,成功的次數(shù)(即硬幣面朝上的次數(shù))X是一個離散型隨機變量,它的可能取值是0,1,2,3,n。而對X的一個具體取值x而言,根據(jù)乘法規(guī)則,我們立刻可以就試驗結(jié)果計算出一種特定排列方式(先x次面朝上,而后nx次面朝下)實現(xiàn)的概率,即 ppppqqqqpxqn-x7/20/20223 由于正確解決概率問題,光考慮乘法規(guī)則是不夠的,還要考慮加法規(guī)則,于是就x次成功和(nx)次失敗這個宏觀結(jié)果而言所包含的所

3、有排列的方式數(shù),用符號表示 這樣,我們就得到了二項試驗中隨機變量X的概率分布,即 7/20/20224 譬如,二項試驗是將一枚硬幣重復(fù)做8次拋擲,假設(shè)這枚硬幣是無偏的,即pq0.5,那么恰好得到5次面朝上的概率是 硬幣面朝上數(shù)x 概率P(X=x) 012345678 1/256= .004 8/256= .031 28/256= .109 56/256= .219 70/256= .274 56/256= .219 28/256= .109 8/256= .031 1/256= .004合 計 1.000 同理,我們也可以求出這個二項試驗中硬幣剛好為0,1,2,8次面朝上的各種宏觀結(jié)果的概率,

4、全部寫出來就是右表。 7/20/202252. 二項分布討論X 0 1 2 n合計P(X) 二項分布為離散型隨機變量的分布。每當(dāng)試驗做的是在相同的條件下n次重復(fù)的貝努利試驗時,隨機變量X共有n+1個取值。二項分布可以用分布律(見上表)和折線圖(見右圖)來表示。 當(dāng)P=0.5時二項分布的圖形是對稱的。7/20/20226 E(X)=np, D(X)= 2= npq 二項分布受 p 和 n 變化的影響,只要確定了 p和 n,成功次數(shù) X 的分布也隨之確定。因此,二項分布還可簡寫作 B(x;n,p)。 二項分布的概率值除了根據(jù)公式直接進(jìn)行計算外,還可查表求得。二項分布表的編制方法有兩種:一種依據(jù)概率

5、分布律 P(x) 編制(見附表2);另一種依據(jù)分布函數(shù) F(x) 編制(見附表3)。 其中7/20/20227 例 某特定社區(qū)人口的10%是少數(shù)民族,現(xiàn)隨機抽取6人,問其中恰好2人是少數(shù)民族的概率是多少? 解 解法一:根據(jù)(7.3)式直接計算 解法二:根據(jù)附表2中縱列n6和橫行p0.1所對應(yīng)x值,可直接查得B(x;6,0.1)的概率值 B (2;6,0.1)00984 解法三:根據(jù)附表3求得 B (2;6,0.1)F(2) F(3 ) 0.11430.01590.0984 7/20/20228第二節(jié) 統(tǒng)計檢驗的基本步驟 二項分布是用數(shù)學(xué)或演繹推理的方法求得的一種理論分布。認(rèn)識到概率分布是先驗的

6、理論分布這一點很重要,因為我們不禁要問,既然試驗或抽樣調(diào)查的結(jié)果僅與隨機變量可能取值中的一個相聯(lián)系,那么實際試驗或樣本調(diào)查對結(jié)果的概率分布及前提假設(shè)有沒有一個檢驗的問題?具體來講,對于一枚硬幣被重復(fù)拋擲8次的二項試驗,經(jīng)驗告訴我們,一共有9種可能的結(jié)果,而且實現(xiàn)這些結(jié)果的機會是大不相同的。研究者實際上從來不用經(jīng)驗的方法求得概率分布,因為通常我們只對一項試驗進(jìn)行一次或幾次,抽取樣本也是一個或至多不過幾個。既然二項分布是按照數(shù)學(xué)規(guī)則得到的,那么對這9種結(jié)果的可能性我們應(yīng)該作出何種評價呢?如果實際試驗(或抽樣)得到的結(jié)果偏巧就是先驗概率預(yù)示的最不可能出現(xiàn)的結(jié)果,那么我們是認(rèn)定純屬巧合,還是開始對用數(shù)

7、學(xué)或演繹推理方法求得的概率以及理想試驗的種種前提假設(shè)產(chǎn)生懷疑?更準(zhǔn)確地說,在一枚硬幣被重復(fù)拋擲8次的這個二項試驗中,究竟出現(xiàn)什么結(jié)果時,我們應(yīng)該對二項分布及其前提假設(shè)產(chǎn)生懷疑呢?是不是只要不是得到4次成功4次失敗這個最大可能性結(jié)果就開始懷疑,還是僅當(dāng)出現(xiàn)8次成功或一次也不成功這兩個極端情況時才產(chǎn)生懷疑呢?這就是統(tǒng)計檢驗的核心問題。 7/20/20229大數(shù)定理表明:就大量觀察而言,事件的發(fā)生具有一定的規(guī)律性。根據(jù)概率的大小,人們處理的態(tài)度和方式很不一樣。在日常生活中,人們往往習(xí)慣于把概率很小的事件,當(dāng)作一次觀察中是極不可能看到的事件。例如,人們出門做事就有可能遇到不測事故,但卻很少人因此而不敢

8、出門。原因是:小概率事件極不可能發(fā)生。 統(tǒng)計檢驗是指先建立一個關(guān)于總體情況的假設(shè),繼而抽取一個隨機樣本,然后以樣本的統(tǒng)計量或者統(tǒng)計性質(zhì)來檢定假設(shè)。 統(tǒng)計檢驗的依據(jù)是小概率原理:一是認(rèn)為小概率事件在一次觀察中是極少出現(xiàn)的;二是如果在一次觀察中出現(xiàn)了小概率事件,那么應(yīng)該否定原有事件具有小概率的說法或者假設(shè)。7/20/202210(1)建立假設(shè)(2)求抽樣分布(4)計算檢驗統(tǒng)計量(3)選擇顯著性水平和否定域(5)判定所所包有含統(tǒng)的計步檢驟驗 根據(jù)以往多年的統(tǒng)計表明,上海財大英語的平均成績?yōu)?0分,隨機抽取100個學(xué)生,其平均成績?yōu)?0分,問今年財大學(xué)生的英語成績是否下降?7/20/202211 1建

9、立假設(shè) 統(tǒng)計檢驗是將抽樣結(jié)果和抽樣分布相對照而作出判斷的工作。取得抽樣結(jié)果,依據(jù)描述性統(tǒng)計的方法就足夠了。抽樣分布則不然,它無法從資料中得到,非利用概率論不可。而不對待概括的總體和使用的抽樣程序做某種必要的假設(shè),這項工作將無法進(jìn)行。比如通過擲硬幣的實驗得到二項分布,必須假設(shè):樣本是隨機的,試驗中各次拋擲相互獨立;硬幣是無偏的(或稱是誠實的),即pq05。概括地說,必須首先就研究總體和抽樣方案都做出假設(shè),再加上概率論,我們就可以對各種可能結(jié)果做具體的概率陳述了。 7/20/202212 2求抽樣分布 在做了必要的假設(shè)之后,我們就能用數(shù)學(xué)推理過程來求抽樣分布了。比如在這一章開頭,在硬幣重復(fù)拋擲n次

10、的理想實驗中,我們計算了成功次數(shù)為x的宏觀結(jié)果所具有的概率,得到二項分布。如果前提假設(shè)變動了,還可以求出其他形式的概率分布,如正態(tài)分布、泊松分布、卡方分布等等,它們都有特定的方程式。由于數(shù)學(xué)上已經(jīng)取得的成果,實際上統(tǒng)計工作者要做的這項工作往往并不是真的去求抽樣分布的數(shù)學(xué)形式,而是根據(jù)具體需要,確定特定問題的統(tǒng)計檢驗應(yīng)該采用哪種分布的現(xiàn)成的數(shù)學(xué)用表。 7/20/202213 3選擇顯著性水平和否定域 在統(tǒng)計檢驗中,那些不大可能的結(jié)果稱為否定域。如果這類結(jié)果真的發(fā)生了,我們將否定假設(shè);反之就不否定假設(shè)。 在統(tǒng)計檢驗中,通常把被檢驗的那個假設(shè)稱為零假設(shè)(用符號H0表示),并用它和其他備擇假設(shè)(用符號

11、H1表示)相對比。零假設(shè)與備擇假設(shè)否定域7/20/202214 在統(tǒng)計檢驗中,無論是拒絕或者接受原假設(shè),都不可能做到百分之百的正確,都有一定的錯誤。第一類錯誤是,零假設(shè)H0實際上是正確的,卻被否定了。第二類錯誤則是,H0實際上是錯的,卻沒有被否定。 遺憾的是,不管我們?nèi)绾芜x擇否定域,都不可能完全避免第一類錯誤和第二類錯誤,也不可能同時把犯兩類錯誤的危險壓縮到最小。對任何一個給定的檢驗而言,第一類錯誤的危險越小,第二類錯誤的概率就越大;反之亦然。一般來講,不可能具體估計出第二類錯誤的概率值。第一類錯誤則不然,犯第一類錯誤的概率是否定域內(nèi)各種結(jié)果的概率之和。 兩類錯誤及其關(guān)系7/20/202215

12、 被我們事先選定的可以犯第一類錯誤的概率,叫做檢驗的顯著性水平(用表示),它決定了否定域的大小。因此,有人也把第一類錯誤稱之錯誤 。相應(yīng)地第二類錯誤被人稱為 錯誤。 在原假設(shè)成立的條件下,統(tǒng)計檢驗中所規(guī)定的小概率標(biāo)準(zhǔn)一般取為=0.05或=0.01。 由所決定的否定域與接受域之間的分界值被稱為臨界值, 如Z 。 如果抽樣分布是連續(xù)的,否定域可以建立在想要建立的任何水平上,否定域的大小可以和顯著性水平的要求一致起來(后面的正態(tài)檢驗就如此)。如果抽樣分布是非連續(xù)的,就要用累計概率的方法找出一組構(gòu)成否定域的結(jié)果。顯著性水平7/20/202216 根據(jù)否定域位置的不同,可以將假設(shè)檢驗分為雙側(cè)檢驗和單側(cè)檢

13、驗。 在統(tǒng)計中,必須把否定域分配到抽樣分布的兩端的檢驗,被稱為雙側(cè)檢驗。 在統(tǒng)計中,可以事先能預(yù)測偏差方向,因而可以把否定域集中到抽樣分布更合適的一端的檢驗,被稱為單側(cè)檢驗。 雙側(cè)檢驗和單側(cè)檢驗7/20/202217 奈曼皮爾遜 (NeymanPearson)提出了一個原則 “在控制犯第一類錯誤的概率不超過指定值的條件下, 盡量使犯第二類錯誤 小”按這種法則做出的檢驗稱為“顯著性檢驗”, 稱為顯著性水平或檢驗水平。 在同樣顯著性水平的條件下,單側(cè)檢驗比雙側(cè)檢驗更合適。因為否定域被集中到抽樣分布更合適的一側(cè),這樣在犯第一類錯誤的危險不變的情況下,減少了犯第二類錯誤的危險。 7/20/202218

14、4計算檢驗統(tǒng)計量 在完成了上述工作之后,接下來就是做一次與理想試驗盡量相同的實際抽樣(比如實際做一次重復(fù)拋擲硬幣的試驗),并從獲取的樣本資料算出檢驗統(tǒng)計量。檢驗統(tǒng)計量是關(guān)于樣本的一個綜合指標(biāo),但與我們后面參數(shù)估計中將要討論的統(tǒng)計量有所不同,它不用作估測,而只用作檢驗。 5判定 假設(shè)檢驗系指拒絕或保留零假設(shè)的判斷,又稱顯著性檢定。在選擇否定域并計算檢驗統(tǒng)計量之后,我們完成最后一道手續(xù),即根據(jù)試驗或樣本結(jié)果決定假設(shè)的取與舍。如果結(jié)果落在否定域內(nèi),我們將在已知犯第一類錯誤概率的條件下,否定零假設(shè)。反之,如果結(jié)果落在否定域外,則不否定零假設(shè),與此同時,我們就有了犯第二類錯誤的危險。 7/20/2022

15、19 例 若想通過拋擲10次硬幣的實驗來檢驗這個硬幣無偏的零假設(shè),通過雙側(cè)檢驗0.10顯著性水平,請指出否定域。如果單側(cè)檢驗(p0.4)7/20/202220第三節(jié) 正態(tài)分布 如果說二項分布是離散型隨機變量最具典型意義的概率分布,那么連續(xù)型隨機變量最具典型意義的概率分布就是正態(tài)分布了。一般地講,若影響某一變量的隨機因素很多,而每個因素所起的作用不太大且相互獨立,則這個變量服從正態(tài)分布。更為重要的是,不論總體是否服從正態(tài)分布,只要樣本容量n足夠大,樣本平均數(shù)的抽樣分布就趨于正態(tài)分布。 正態(tài)分布是最重要的概率分布:(1)許多自然現(xiàn)象和社會現(xiàn)象,都可用正態(tài)分布加以敘述;(2)當(dāng)樣本足夠大時,都可用正

16、態(tài)近似法解決變量的概率分布問題;(3)許多統(tǒng)計量的抽樣分布呈正態(tài)分布。7/20/2022211. 正態(tài)分布的數(shù)學(xué)形式正態(tài)分布性質(zhì): (1)正態(tài)曲線以x=呈鐘型對稱 均值=中位數(shù)=眾數(shù) (2)在x=處,概率密度最大;當(dāng)區(qū)間離越遠(yuǎn),x落在這個區(qū)間的概率越小。 7/20/202222 (3)正態(tài)曲線的外形由值確定。對于固定的值,不同均值的正態(tài)曲線的外形完全相同,差別只在于曲線在橫軸方向上整體平移了一個位置 。 (5)E(X)= D(X)= 2 (4)對于固定的值,改變值,值越小,正態(tài)曲線越陡峭;值越大,正態(tài)曲線越低平。 (總之,正態(tài)分布曲線的位置是由決定的,而正態(tài)分布曲線的“高、矮、胖、瘦” 由決定

17、的。) 7/20/202223 2. 標(biāo)準(zhǔn)正態(tài)分布 Z分?jǐn)?shù)(標(biāo)準(zhǔn)正態(tài)變量)用Z分?jǐn)?shù)表達(dá)的標(biāo)準(zhǔn)正態(tài)分布,其概率密度為一般正態(tài)分布的表示標(biāo)準(zhǔn)正態(tài)分布的表示7/20/2022243. 正態(tài)曲線下的面積 但積分畢竟太麻煩了,更何況許多人對積分運算不熟悉,為此須計算出現(xiàn)成的數(shù)值表供使用者查找。由于正態(tài)曲線的優(yōu)良性質(zhì),這項工作可以卓有成效地完成:經(jīng)過X的標(biāo)準(zhǔn)分 ,可以將任何正態(tài)分布N(,2)轉(zhuǎn)換成標(biāo)準(zhǔn)正態(tài)分布N(0,1);運用分布函數(shù)的定義,并利用正態(tài)曲線的對稱性,通過下式(分布函數(shù))可以計算編制出正態(tài)分布表(見附4)。 7/20/202225 采用標(biāo)準(zhǔn)正態(tài)變量表達(dá)正態(tài)分布,使標(biāo)準(zhǔn)差得到了進(jìn)一步闡明。我們

18、看到,標(biāo)準(zhǔn)差是計算總體單位分布及其標(biāo)志值變異范圍的主要依據(jù),下圖說明了這一點。(1)變量值在【 -, + 】之間的概率為0.6826。(2)變量值在【 -2, +2 】之間的概率為0.9546。(3)變量值在【 -3, +3 】之間的概率為0.9973。7/20/202226 例 設(shè)隨機變量X服從正態(tài)分布N(168,122),試求P(X143)。 總之,決定任意兩點間的面積都完全是可能的。比如向均值兩側(cè)移1.96個標(biāo)準(zhǔn)差,曲線下方便包含了大約95的面積;如移動2.58個標(biāo)準(zhǔn)差,則面積幾乎是99。附錄4已編制了關(guān)于Z和標(biāo)準(zhǔn)正態(tài)曲線所含面積之間關(guān)系的精確數(shù)值表,即Z從0到+變化,相應(yīng)區(qū)間含的面積從

19、0變至0.5。7/20/202227 解 已知168,12 z 是負(fù)值,表示X的取值處于均值左邊。由于曲線完全對稱,所以使用正態(tài)分布表時可以忽略 z 的正負(fù)號。查表可知,正態(tài)曲線在均值與z2.08之間所含面積是0.4812。由于總面積的一半是0.5,因P(X143)可以由下面計算求得 P(X143)0.5P(0Z2.08) 0.50.4812 1.88 這說明,X的取值小于或等于143的概率大約是2。由于即將討論的正態(tài)檢驗幾乎都要涉及概率分布的尾端,所以此例說明的是一個非常普遍的問題。 7/20/202228 4. 二項分布的正態(tài)近似法 通過前面的討論,我們已經(jīng)知道二項分布受成功事件概率p和重

20、復(fù)次數(shù)n兩個參數(shù)的影響,只要確定了p和n,二項分布也隨之確定了。 但是,二項分布的應(yīng)用價值實際上受到了n的很大限制。也就是說,只有當(dāng)n較小時,我們才能比較方便地計算二項分布。所幸的是,二項分布是以正態(tài)分布為極限的。所以當(dāng)n很大時,只要p或q不近于零,我們就可以用正態(tài)近似來解決二項分布的計算問題。即以n p、n p q2,將B(x;n,p)視為N(n p,n p q)進(jìn)行計算。在社會統(tǒng)計中,當(dāng)n 30,n p、n q均不小于5時,對二項分布作正態(tài)近似是可靠的。 7/20/202229 第四節(jié) 中心極限定理 一旦統(tǒng)計的學(xué)習(xí)進(jìn)入到推論統(tǒng)計,我們就必須同時與三種不同的分布概念打交道,即總體分布、樣本分

21、布、抽樣分布。為了不產(chǎn)生混淆,視分布不同,將統(tǒng)計指標(biāo)的符號加以區(qū)別是完全必要的。對那些反映標(biāo)志值集中趨勢和離中趨勢的綜合指標(biāo),尤其對均值和標(biāo)準(zhǔn)差(或方差)。均值標(biāo)準(zhǔn)差總體分布樣本分布抽樣分布 抽樣分布特指樣本統(tǒng)計量作為隨機變量的概率分布。用數(shù)學(xué)語言來說,抽樣分布是運用數(shù)理統(tǒng)計的方法,把具體概率賦予樣本的所有可能結(jié)果的一種理論分布。 在一個總體中可以產(chǎn)生無數(shù)個樣本,所以樣本統(tǒng)計量(比如均值 )必定是隨機變量。 這樣就提出一個問題:如果樣本統(tǒng)計量作為隨機變量,它的概率分布是什么樣呢?7/20/202230 1中心極限定理 我們知道,概率論中用來闡明大量隨機現(xiàn)象平均結(jié)果的穩(wěn)定性的定理,是著名的大數(shù)定

22、理。其具體內(nèi)容是:頻率穩(wěn)定于概率,平均值穩(wěn)定于期望值。但是,大量隨機現(xiàn)象的穩(wěn)定性不僅表現(xiàn)在平均結(jié)果上,同時也表現(xiàn)在分布上,這就是中心極限定理所要闡明的內(nèi)容。顯然,推論統(tǒng)計需要有一座能夠架通抽樣調(diào)查和抽樣分布的橋梁。中心極限定理告訴我們:如果從任何一個具有均值和方差2的總體(可以具有任何分布形式)中重復(fù)抽取容量為n的隨機樣本,那么當(dāng)n變得很大時,樣本均值的抽樣分布接近正態(tài),并具有均值和方差 。 7/20/202231 (2)由于抽樣分布的標(biāo)準(zhǔn)差要比總體標(biāo)準(zhǔn)差小,并且 ,所以如右圖所示,樣本容量越大,抽樣分布的峰態(tài)愈陡峭,由樣本結(jié)果來推斷總體參數(shù)的可靠性也隨之提高。 無疑,中心極限定理大大拓展了正

23、態(tài)分布的適用面,同時我們得到了以下重要信息: (1)雖然樣本的均值可能和總體均值有差別,但我們可期望這些將聚集在的周圍。因此均值抽樣分布的算術(shù)平均數(shù)能和總體的均值很好地重合,這就是為什么總體均值和抽樣分布的均值用同一個來表示的緣故。7/20/202232 統(tǒng)計檢驗應(yīng)用正態(tài)分布和二項分布有兩點區(qū)別:抽樣分布在這里是連續(xù)的而非離散的,否定域的大小可以和顯著性水平的要求精確地一致起來。計算檢驗統(tǒng)計量不再像在應(yīng)用二項分布時那樣,可以不勞而獲了。很顯然,為了能使用現(xiàn)成的正態(tài)分布表,關(guān)鍵是要從樣本資料中計算出在N(0,1)形式下的統(tǒng)計量Z,再根據(jù)Z是否落在否定城內(nèi)而對被檢驗假設(shè)的取舍作出決定。 在上一節(jié)我

24、們曾引出 。Z 的這種形式適用于N(,2)的總體,但并不適用于取正態(tài)的抽樣分布。正如我們反復(fù)強調(diào)的那樣,統(tǒng)計檢驗單純依靠樣本自身是得不出結(jié)果的,必須首先在一系列假設(shè)的基礎(chǔ)上求出抽樣分布。如果這些假設(shè)實際上正確,那么抽樣分布將告訴我們得到一個給定的的可能性是多少。在抽樣分布中,隨機變量的取值是每個 ,均值是,標(biāo)準(zhǔn)差是 。因此 Z 如果作為檢驗統(tǒng)計量,應(yīng)該用替換X,用 替換,不動,因而有 。7/20/202233 一個完整的假設(shè)應(yīng)該包括零假設(shè)和備擇假設(shè)。在Z檢驗中,假設(shè)有三種寫法:第一種:H0: =90 H1: 90第二種:H0: =90 H1: 90雙側(cè)檢驗單側(cè)檢驗(右)單側(cè)檢驗(左)7/20/

25、202234思考題1、如何理解兩類錯誤及其關(guān)系?2、如何理解小概率原理在假設(shè)檢驗中的重要性?3、假設(shè)檢驗的基本原理和步驟是什么?4、什么是原假設(shè)域備擇假設(shè)?5、如何理解雙側(cè)檢驗與單側(cè)檢驗?7/20/202235 例 一位研究者試圖檢驗?zāi)骋簧鐣{(diào)查所運用的抽樣程序,該項調(diào)查是由一些缺乏經(jīng)驗的訪問員進(jìn)行的。研究者懷疑屬于干部和知識分子的家庭抽得過多。過去的統(tǒng)計資料表明,該街區(qū)的家庭收入是7500元,標(biāo)準(zhǔn)差是1500元;此次調(diào)查共抽取100個家庭,樣本平均收入是7900元。問:該研究人員是否有理由懷疑該樣本有偏估?(選用=0.05)第五節(jié) 總體均值和成數(shù)的單樣本檢驗1已知,對總體均值的檢驗實際上是要

26、檢驗“隨機抽樣”這個零假設(shè) 7/20/202236 解 根據(jù)題意,可做如下假設(shè),并做單側(cè)檢驗 因=0.05,查表得Z 0.05=1.65,故否定域為根據(jù)中心極限定理,檢驗統(tǒng)計量計算得 檢驗統(tǒng)計量Z的計算表明,樣本均值比總體均值大267個標(biāo)準(zhǔn)差( ),超過了顯著性水平規(guī)定的臨界值,調(diào)查者應(yīng)該否定“隨機抽樣”的零假設(shè)。也就是說,由于抽樣在程序上不合要求,這項社會調(diào)查有必要重新組織。 7/20/202237 中心極限定理實際解決了大樣本均值的檢驗問題。假定樣本比較大(n50,這在社會調(diào)查中一般都能得到滿足),樣本均值的抽樣分布就與總體分布無關(guān),而服從正態(tài)分布。當(dāng)H0成立時,樣本均值的觀察值比較集中地

27、分布在總體均值周圍;當(dāng)H0不成立時, 將對有明顯偏離的趨勢。因而,我們可以在選定的顯著性水平上,通過計算檢驗統(tǒng)計量Z,對零假設(shè)進(jìn)行檢定。 注:當(dāng)未知時,只要樣本量很大,就可用S來代替 。但對于小樣本,Z檢驗就要用 t 檢驗來替代了,而且還必須嚴(yán)格限于正態(tài)總體。7/20/202238 解 根據(jù)題意,可作如下的假設(shè),并做雙側(cè)檢驗 H0:2330元 H1:2330元因0.05,查正態(tài)分布表得Z/21.96,故否定域|Z|1.96 計算檢驗統(tǒng)計量 Z 1.20196 所以,不能認(rèn)為該單位人均月收入不是2330元,即不能認(rèn)為該統(tǒng)計報表有誤。 例 某單位統(tǒng)計報表顯示,人均月收入為2330元,為了驗證該統(tǒng)計

28、報表的正確性,作了共81人的抽樣調(diào)查,樣本人均月收入為2350元,標(biāo)準(zhǔn)差為150元,問能否說明該統(tǒng)計報表顯示的人均 收入的數(shù)字有誤(取顯著性水平0.05)。 此乃“總體均值”零假設(shè)的檢驗7/20/202239提醒:單側(cè) Z 雙側(cè) Z /20.050.010.0011.652.333.091.962.583.307/20/202240 2.小樣本總體均值的檢驗(學(xué)生t分布) 中心極限定理解決了大樣本均值的檢驗問題。但是當(dāng)n較小時,用這種方法求出的概率可能是錯誤的,有必要做某種修正。于是有人設(shè)計了另一種檢驗統(tǒng)計量 這個統(tǒng)計量最初是由戈塞特(1876一1937)用筆名“學(xué)生”發(fā)表,所以這個統(tǒng)計量的抽

29、樣分布稱為學(xué)生t分布。比較t和Z,我們注意到它們的分子相同,而分母卻稍有不同:為S所代替(這一點無須解釋);根號下是n1。7/20/202241 當(dāng)Z為t替代時,雖用因子nI所導(dǎo)致的修正看起來不大,但在樣本容量較小時,這種修正就會起很大作用了。所以當(dāng)不知道值、且樣本容量較小時,我們應(yīng)該考慮應(yīng)用t分布而不是Z分布。 采用n1的原因:樣本數(shù)據(jù)的離散程度小于總體數(shù)據(jù)的離散程度。 n1實際為自由度數(shù)k 。7/20/202242通過下式可以編制出t 分布表(見附錄5) 注意t(k)寫法的含義,它表示自由度數(shù)為k的t分布當(dāng)分布函數(shù) 時隨機變量t的臨界值。當(dāng)n變大,t 分布將越來越接近正態(tài)分布,應(yīng)用t分布還

30、是Z分布就無所謂了。事實上隨著n變大,S逐漸變成的精確估計量,因而分母項無論使用S還是,差別都非常小。但特別要留意,使用t 分布的條件比使用Z分布的條件苛刻,即必須假定總體為正態(tài)。 7/20/202243 例 已知初婚年齡服從正態(tài)分布。根據(jù)10人的調(diào)查有 = 23.5歲,S=3歲,問是否可以認(rèn)為該地區(qū)的平均初婚年齡已超過20歲?(=0.01) 解 H0:=20;H1:20 因為n小,又不知值,因此用t檢驗 對自由度9來講,單側(cè)檢驗和顯著性水平0.01,查表知否定域為t值等于或大于 2.821。再計算檢驗統(tǒng)計量 因此拒絕H0,即可以認(rèn)為在顯著性水平為0.01的條件下,該地區(qū)的初婚年齡已超過20歲

31、。7/20/202244 3.大樣本成數(shù)的檢驗 有時,需要對總體中具有某種特征的單位在總體中所占的的比例 p(即總體成數(shù))作顯著性檢驗,如人口中的失業(yè)率、學(xué)齡兒童中的失學(xué)率等等。成數(shù)檢驗與二項檢驗的聯(lián)系是不言而愈的。因為在二項檢驗中,隨機變量是樣本的“成功”次數(shù)x。而在成數(shù)檢驗中,隨機變量是樣本的“成功”比例 (即樣本成數(shù)),這樣在 n 一定的情況下,顯然有 7/20/202245 既然 是一個隨機變量,那么把具體概率賦予樣本成數(shù)的每一個取值,我們就得到了樣本成數(shù)的抽樣分布。根據(jù)中心極限定理,我們不難想見,當(dāng)n足夠大時,樣本成數(shù)的抽樣分布也服從正態(tài)分布。由于數(shù)學(xué)上很容易證明 , ,這樣一來,對于大樣本(n30,np5),成數(shù)的檢驗統(tǒng)計量

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論