資料的統(tǒng)計分析課件_第1頁
資料的統(tǒng)計分析課件_第2頁
資料的統(tǒng)計分析課件_第3頁
資料的統(tǒng)計分析課件_第4頁
資料的統(tǒng)計分析課件_第5頁
已閱讀5頁,還剩183頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第九章資料的統(tǒng)計分析

在調(diào)查結(jié)束后,我們必須對收集到的資料進(jìn)行認(rèn)真仔細(xì)的整理。而整理的目的是為了分析,沒有對資料的分析,我們就不可能有對研究對象的總體把握,也不可能寫出好的研究報告。當(dāng)然,作為社會調(diào)查研究對象的社會現(xiàn)象有其質(zhì)和量兩方面,我們對整理好的資料也必須展開定性和定量兩方面的分析,缺一不可。但是,定性分析是以研究者的理論功底為基礎(chǔ),主要靠個人的悟性。定量分析就不同了,它是我們每個人通過學(xué)習(xí)都可以統(tǒng)一掌握的技術(shù)。所以學(xué)習(xí)社會研究方法,課堂教學(xué)在資料分析方面重點講得是統(tǒng)計分析,而對定性分析,本書是以穿插于有關(guān)章節(jié)的方式并以情境啟發(fā)的方式來加以討論的。第九章資料的統(tǒng)計分析在調(diào)查結(jié)束后,我們必1第一節(jié)統(tǒng)計調(diào)查資料及其整理

一、統(tǒng)計分組和頻數(shù)分布

統(tǒng)計整理是與統(tǒng)計分組相聯(lián)系的。所謂統(tǒng)計分組,就是將情況相同或相近的數(shù)據(jù)資料加以分門別類的歸并,使之簡單明晰,以便為統(tǒng)計分析中提取各種有用信息打下基礎(chǔ)。

經(jīng)過調(diào)查收集上來的資料雖然是大量的,卻很可能是雜亂無章的,用它來直接做分析往往有困難。統(tǒng)計整理是對調(diào)查數(shù)據(jù)資料的條理化、系統(tǒng)化和有序化,通過它,社會調(diào)查研究才能進(jìn)入統(tǒng)計分析階段。

第一節(jié)統(tǒng)計調(diào)查資料及其整理一、統(tǒng)計分組和頻數(shù)分布2

統(tǒng)計分組有兩方面的含義,對總體(或樣本)而言是“分”,即將總體中各個單位按照它們的差異性(如身高的差異)區(qū)分為若干部分;對總體單位而言是“合”,即將相近似的單位組合起來。這樣,本來雜亂無章的數(shù)據(jù)便有序化了。

頻數(shù)分布是統(tǒng)計分組的結(jié)果,它是指眾多的調(diào)查數(shù)據(jù)在各個組(各類別、各等級或各區(qū)間)出現(xiàn)或發(fā)生的次數(shù)。頻數(shù)分布是對客觀事物自然形成的分布狀態(tài)的集中反映和描述。

統(tǒng)計分組有兩方面的含義,對總體(或樣本)而言是“3

60名男性青年的身高表

(原始資料)

單位:厘米

161179173162161169166155177165165171165168176174163173159170170169169170174169171167164169178160168166163158169172178171152176167171161176168181175159162165168164179157173166172167

現(xiàn)在我們用從某大學(xué)大一男同學(xué)中抽取出來的60人的身高資料來編制頻數(shù)分布表,60名男同學(xué)身高(以厘米計)的原始資料如右:60名男性青年的身高表1611791734

60名男性青年的身高表

(序列資料)單位:厘米

152160163165167169170171174177155161163165167169170172174178157161164166168169170172175178158161164166168169171173176179159162165166168169171173176179159162165167168169171173176181

很顯然,面對這一堆原始數(shù)據(jù),如果我們不作簡化處理,是不容易從中看出什么規(guī)律性的。為此,我們先將它們由低到高排成序列資料:

60名男性青年的身高表1521601635身高組(cm)人數(shù)()150―154154―158158―162162―166166―170170―174174―178178―18212710161275合計60

將原始資料編排成序列資料,實際上是在進(jìn)行統(tǒng)計匯總。由于身高(X)是連續(xù)變量,我們?nèi)绻x4cm為間距,我們可以直接把序列資料編制成為含有8個組的頻數(shù)分布表(頻數(shù)用f表示)。如此一來,原來無序的原始資料就變?yōu)楝F(xiàn)在有序的分組資料。與此同時,學(xué)生總體中身高的分布狀況也清晰地呈現(xiàn)出來。(注:由于身高是連續(xù)變量,匯總時使用了“上組限不包括在內(nèi)”的處理原則。)

某校大一60名男生身高頻數(shù)分布表

身高組(cm)人數(shù)()150―1541合計66身高組(cm)人數(shù)(%)150―154154―158158―162162―166166―170170―174174―178178―1821.73.311.716.726.620.011.78.3合計100.0二、頻率分布與總體內(nèi)部結(jié)構(gòu)分組資料雖然簡單明了,但不能直接看出各組人數(shù)占這60人的比重,從而顯示出總體內(nèi)部結(jié)構(gòu)。為了實現(xiàn)這個要求,就要在分組資料的基礎(chǔ)上派生出頻率分布表(頻率用P表示)。

頻率就是各組人數(shù)占總體人數(shù)的比重,即P=f/N。比重都小于1,經(jīng)常用百分?jǐn)?shù)來表達(dá),它反映了對象總體的內(nèi)部結(jié)構(gòu)。

某校大一60名男生身高頻率分布表

身高組(cm)人數(shù)(%)150―1541.7合計17累計頻數(shù)(F)向上累計——以變量數(shù)列首組的頻數(shù)為始點,逐個累計各組的頻數(shù),展示小于該組上限的頻數(shù)和。向下累計——以變量數(shù)列末組的頻數(shù)為始點,逐個累計各組的頻數(shù),展示大于該組下限的頻數(shù)和。累計頻數(shù)(F)向上累計——以變量數(shù)向下累計——以變量數(shù)8

以上我們看到了三種形式的資料:原始資料、次序資料和分組資料,這反映了對資料進(jìn)行整理和簡化的順序。這三種形式是依次逐步簡化和條理化的,使人們看起來越來越容易、越來越清楚。

以上我們看到了三種形式的資料:原始資料、次序9三、圖示法

把無序的原始資料整理成頻數(shù)分布表,是表示統(tǒng)計資料的一種有效方式,我們可以稱為列表法。其實,用圖示法來表示統(tǒng)計資料比列表法更能一目了然。我們可以根據(jù)整理好的頻數(shù)分布(或頻率分布和累積百分?jǐn)?shù)分布)繪制出相應(yīng)的統(tǒng)計圖。最常用的有直方圖、條形圖、折線圖、曲線圖等。三、圖示法10對于連續(xù)變量的分布,可以用矩形圖表示。矩形高度表示各組的頻數(shù)或頻率。在等距分組的條件下,很顯然,各矩形的面積與其高度成正比。因此,各矩形的面積同樣可以用來表示各組的頻數(shù)和頻率,而且更加形象

直觀(如前圖)。1.矩形圖對于連續(xù)變量的分布,可以用矩形圖表示。矩形高度表示各11

方條圖適用于表示離散變量的資料。方條圖與矩形圖基本相同,其高度表示各組的頻數(shù)(或頻率)。對于定類變量和定序變量的測量,它的寬度是沒有意義的,各方條之間要留有一定的距離。2.方條圖方條圖適用于表示離散變量的資料。方條圖與矩形圖基本相同123.折線圖

表示頻數(shù)(或頻率)分布的另一種相似的圖形是折線圖。直接把矩形圖各矩形頂部的中點用直線連接起來,并把原來的矩形抹掉,就得到了折線圖。

3.折線圖表示頻數(shù)(或頻率)分布的另一種相似13

在許多并非十分嚴(yán)格的場合,人們往往樂于把頻數(shù)分布的矩形圖和折線圖修勻成平滑曲線,這樣看起來更美觀。例如,1901年至1985年,全世界已有300多位科學(xué)家獲得過諾貝爾物理獎、化學(xué)獎和生物醫(yī)學(xué)獎。對這些科學(xué)家取得成果的年齡進(jìn)行統(tǒng)計,結(jié)果如下表。再以年齡為橫坐標(biāo),人數(shù)為縱坐標(biāo),使可制成“獲諾貝爾獎的年齡曲線”(見下圖9-3)。年齡獲獎人數(shù)25歲以下25~3030~3535~4040~4545~5050歲以上15347068533728合計3054.曲線圖在許多并非十分嚴(yán)格的場合,人們往往樂于把頻數(shù)14第二節(jié)統(tǒng)計分析一:描述統(tǒng)計

所謂描述統(tǒng)計就是討論范圍僅以搜集資料本身為限,而不予以擴(kuò)大。包括推論統(tǒng)計在內(nèi),沒有描述統(tǒng)計作為基礎(chǔ),想要運用好也是不可能的。描述統(tǒng)計所用數(shù)學(xué)較少,實用性又很強(qiáng),因此在社會調(diào)查研究中使用的機(jī)會很多。

調(diào)查數(shù)據(jù)資料經(jīng)分類整理后,已經(jīng)使雜亂無章的原始數(shù)據(jù)資料成為有系統(tǒng)、有條理的數(shù)據(jù)資料,這就為統(tǒng)計分析中提取各種有用信息打下了基礎(chǔ)。而在社會研究的定量分析中,描述統(tǒng)計是基礎(chǔ)。第二節(jié)統(tǒng)計分析一:描述統(tǒng)計所謂描述統(tǒng)計就是討論15一、集中趨勢統(tǒng)計量

統(tǒng)計分析首先要解決的第一個問題是,要用一統(tǒng)計指標(biāo)來代表一系列的數(shù)據(jù)。這個具有代表性的統(tǒng)計指標(biāo),能夠概括這一系列數(shù)據(jù)的特征,集中反映這一系列數(shù)據(jù)的一般水平。主要內(nèi)容算術(shù)平均數(shù)中位數(shù)眾數(shù)一、集中趨勢統(tǒng)計量

統(tǒng)計分析首先要解決的第一個問題是,要161.算術(shù)平均數(shù)()

簡單算術(shù)平均數(shù)(對于未分組資料)注意:對求和符號,此時流動腳標(biāo)的變動范圍是1,2,3,…,N,N是總體單位數(shù)。

[例]求74、85、69、9l、87、74、69這些數(shù)字的算術(shù)平均數(shù)。[解]

==78.4

1.算術(shù)平均數(shù)()17加權(quán)算術(shù)平均數(shù)(對于分組資料)

注意:對求和符號,此時流動腳標(biāo)的變動范圍是1,2,3…,n,n是組數(shù),而不是總體單位數(shù)。

很顯然,算術(shù)平均數(shù)不僅受各變量值(X)大小的影響,而且受各組單位數(shù)(頻數(shù))的影響。由于對于總體的影響要由頻數(shù)(f)大小所決定,所以f也被稱為權(quán)數(shù)。值得注意的是,在統(tǒng)計計算中,權(quán)數(shù)不僅用來衡量總體中各標(biāo)志值在總體中作用,同時反映了指標(biāo)的結(jié)構(gòu),所以它有兩種表現(xiàn)形式:絕對數(shù)(頻數(shù))和相對數(shù)(頻率)。這樣一來,在統(tǒng)計學(xué)中,凡對應(yīng)于分組資料的計算式,都被稱為加權(quán)式。加權(quán)算術(shù)平均數(shù)(對于分組資料)18注意:分組資料有單項式和組距式兩種。計算加權(quán)算術(shù)平均數(shù),只有對每個變量值可分為一組的離散變量的分組資料(即單項式分組資料,參見下表)才能得到精確的結(jié)果。[例]求下表(單項數(shù)列)所示數(shù)據(jù)的算術(shù)平均數(shù)。人口數(shù)(X)戶數(shù)(f)fX頻率(P)234567858161064110246450362880.100.160.320.200.120.080.02合計502201.00注意:分組資料有單項式和組距式兩種。計算加19

對于組距數(shù)列(參見下表)

,要用每一組的組中值權(quán)充該組統(tǒng)一的變量值。[例]求下表(組距數(shù)列)所示數(shù)據(jù)的算術(shù)平均數(shù)。間距頻數(shù)(f)組中值(X)PfXPX150―154154―158158―162162―166166―170170―174174―178178―182127101612751521561601641681721761800.0170.0330.1170.1670.2660.2000.1170.083152312112016402688206412329002.5845.18418.72027.38844.68834.40020.59214.940合計60——1.00010108168.496對于組距數(shù)列(參見下表),要用每一組的組中值20算術(shù)平均數(shù)的性質(zhì)各變量值與算術(shù)平均數(shù)的離差之和等于0。各變量值對算術(shù)平均數(shù)的平方和,小于它們對任何他數(shù)偏差的平方和算術(shù)平均數(shù)受抽樣變動影響較小。分組資料如遇有開放組距時,不經(jīng)特殊處理不能進(jìn)行算術(shù)平均數(shù)的計算。受極端值影響較大。算術(shù)平均數(shù)的性質(zhì)各變量值與算術(shù)平均數(shù)的離差之和等于0。212.中位數(shù)(Md)把總體單位某一數(shù)量標(biāo)志的各個數(shù)值按大小順序排列,位于正中處的變量值,即為中位數(shù),用Md表示。Md可用于定序、定距、定比資料。對未分組資料(1)、先把所有數(shù)據(jù)按大小順序排列,如果總體單位數(shù)為奇數(shù),則取第(N+1)/2位上的變量值為中位數(shù);(2)、如果總體單位數(shù)為偶數(shù)。因為居中的數(shù)值不存在,按慣例,取第N/2位和第(N+1)/2位上的兩個變量值的平均作為中位數(shù)。數(shù)。2.中位數(shù)(Md)把總體單位某一數(shù)量標(biāo)志的22[例]求54,65,78,66,43這些數(shù)字的中位數(shù)。[例]求54,65,78,66,43,38這些數(shù)字的中位數(shù)。你會嗎?[例]求72、81、86、69、57這些數(shù)字的中位數(shù)。[解]先將這幾個數(shù)字由小到大排序:57、69、72、81、86,然后把居中那個數(shù)拿出來,于是

Md=72[例]求54,65,78,66,43這些數(shù)字的中位數(shù)。你23(1)單項數(shù)列根據(jù)N/2在累計頻數(shù)分布中找到中位數(shù)所在組,該組變量值就是Md

。中位數(shù)對于分組資料(1)單項數(shù)列根據(jù)N/2在累計頻數(shù)分布中找到24(2)組距數(shù)列

按中位數(shù)所在組的下限:

按中位數(shù)所在組的上限:

當(dāng)根據(jù)組距數(shù)列求中位數(shù)時,要采用所謂的比例插值法:先根據(jù)N/2在累計頻數(shù)分布中找到中位數(shù)所在組,然后假定該組中各變量值是均勻分布的,再用以下任何一種方法求出中位數(shù)(注意:此處用的是向上累計)。(2)組距數(shù)列

按中位數(shù)所在組的下限:

按25[例]調(diào)查大一男生60人的身高如前表,求他們身高的中位數(shù)。

[解]第一種方法

=166+×4

=168.5(厘米)請你用第二種方法來做一下[例]調(diào)查大一男生60人的身高如前表,求他請你用第26中位數(shù)的性質(zhì)(1)各變量值對中位數(shù)之差的絕對值總和,小于它們對任何其他數(shù)的絕對值總和。(2)中位數(shù)不受極端值的影響。(3)分組資料有不確定組距時,仍可求得中位數(shù)。(4)中位數(shù)受抽樣變動的影響較算術(shù)平均數(shù)略大。中位數(shù)的性質(zhì)(1)各變量值對中位數(shù)273.眾數(shù)(Mo)

眾數(shù)是在一組資料中,出現(xiàn)次數(shù)(或頻數(shù))呈現(xiàn)出“峰”值的那些變量值,用Mo表示。眾數(shù)只與次數(shù)有關(guān),可以用于定類、定序、定距、定比資料。

對于未分組資料

直接觀察。首先,將所有數(shù)據(jù)順序排列;然后,只要觀察到某些變量值(與相鄰變量值相比較)出現(xiàn)的次數(shù)(或頻數(shù))呈現(xiàn)“峰”值,這些變量值就是眾數(shù)。3.眾數(shù)(Mo)眾數(shù)是在一組資料中,出現(xiàn)次數(shù)(28對于分組資料

單項式:觀察頻數(shù)分布(或頻率分布)

組距式:Lo為眾數(shù)組下限;Δ1為眾數(shù)組頻數(shù)與前一組頻數(shù)之差;Δ2為眾數(shù)組頻數(shù)與后一組頻數(shù)之差;

ho為眾數(shù)組組距。對于分組資料Lo為眾數(shù)組下限;29[例]就72、81、56、86、81、57這幾個數(shù)字求眾數(shù)。

[解]按照眾數(shù)的定義識別,眾數(shù)是81。

[例]調(diào)查大一男生60人的身高情況如前表,求他們身高的眾數(shù)。[解]因為是組距式分組資料,運用前式計算為什么眾數(shù)有時不存在,有時有兩個以上?[例]就72、81、56、86、81、5730二、離中趨勢統(tǒng)計量

主要內(nèi)容:(1)全距;(2)異眾比率

;(3)標(biāo)準(zhǔn)差。

二、離中趨勢統(tǒng)計量主要內(nèi)容:(1)全距;(231所謂離中趨勢,是指數(shù)列中各變量值之間的差距和離散程度。離勢小,平均數(shù)的代表性高;離勢大,平均數(shù)代表性低。

例如有A、B、C、D四組學(xué)生各5人的成績?nèi)缦拢?/p>

A組:60,60,60,60,60

B組:58,59,60,61,62

C組:40,50,60,70,80

D組:80,80,80,80,80

數(shù)據(jù)顯示,平均數(shù)相同,離勢可能不同;平均數(shù)不同,離勢可能相同。所謂離中趨勢,是指數(shù)列中各變量值例如有321.全距(R)

R=Xmax–Xmin[例]求74,84,69,91,87,74,69這些數(shù)字的全距。[解]把數(shù)字按順序重新排列:69,69,74,74,84,87,91,顯然有

R=Xmax–Xmin

=91–69=22全距(R):最大值和最小值之差。也叫極差。全距越大,表示變動越大。1.全距(R)33優(yōu)點:缺點:計算簡單、直觀。(1)受極端值影響大;(2)沒有量度中間各個單位間的差異性,數(shù)據(jù)利用率低,信息喪失嚴(yán)重;(3)受抽樣變動影響大,大樣本全距比小樣本全距大。計算簡單、(1)受極端值影響大;342.異眾比率(VR)

所謂異眾比率,是指非眾數(shù)的頻數(shù)與總體單位數(shù)的比值,用VR來表示

其中:為眾數(shù)的頻數(shù);是總體單位數(shù)

異眾比率能表明眾數(shù)所不能代表的那一部分變量值在總體中的比重。[例]調(diào)查某小區(qū)50戶家庭的人口情況如表9.5,求異眾比率。

[解]2.異眾比率(VR)異眾比率能表明眾數(shù)所不能代表的那一353.標(biāo)準(zhǔn)差(S)

在統(tǒng)計分析中,對于定距變量,用標(biāo)準(zhǔn)差來作為離中趨勢統(tǒng)計量是最基本的做法。這是指在一組數(shù)據(jù)中,各數(shù)值之間的差距是不相等的,有的差距大,有的差距小,以它們之間平均相差多少作為標(biāo)準(zhǔn)來衡量一組數(shù)據(jù)的離散程度,即標(biāo)準(zhǔn)差。更準(zhǔn)確地講,標(biāo)準(zhǔn)差用于衡量各數(shù)值相對于算術(shù)平均數(shù)的平均偏離程度。

3.標(biāo)準(zhǔn)差(S)在統(tǒng)計分析中,對于36對于未分組資科

一個數(shù)據(jù)與該組數(shù)據(jù)的算術(shù)平均數(shù)的差叫離差。當(dāng)一個數(shù)據(jù)大于時,離差是正值,反之則為負(fù)值。為了消除離差正負(fù)號的影響,可求所有離差平方的算術(shù)平均,這是所謂的均方差,簡稱方差(

)。將方差開平方后所得的值就是標(biāo)準(zhǔn)差。

方差:

標(biāo)準(zhǔn)差:對于未分組資科一個數(shù)據(jù)與該組數(shù)據(jù)的算術(shù)平均37[例]

求72、81、86、69、57這些數(shù)字的標(biāo)準(zhǔn)差。[例]求72、81、86、69、57這些數(shù)字的標(biāo)準(zhǔn)差。38對于分組資料

計算左邊數(shù)列的標(biāo)準(zhǔn)差對于分組資料計算左邊數(shù)列的標(biāo)準(zhǔn)差39

[例]調(diào)查大一男生60人的身高情況如前表所示,求他們身高的標(biāo)準(zhǔn)差。[解]因為是分組資料,運用(9.10)式,計算參見下表[例]調(diào)查大一男生60人的身高情況如前表所示40

值得注意的是,計算分組資料的標(biāo)準(zhǔn)差,也可以依據(jù)頻率分布來進(jìn)行計算式由此可以寫成:

或者值得注意的是,計算分組資料的標(biāo)準(zhǔn)差,也可以41第三節(jié)統(tǒng)計分析二:推論統(tǒng)計

所謂推論統(tǒng)計,主要是依據(jù)概率論,研究如何依據(jù)有限資料對總體性質(zhì)作推斷,從而使統(tǒng)計的功能大為擴(kuò)充。

在社會研究中,抽樣調(diào)查被公認(rèn)為是一種最完善、最有科學(xué)根據(jù)的調(diào)查方法。然而它在數(shù)學(xué)上要求比較高,一定要有推論統(tǒng)計。那種認(rèn)為樣本理所當(dāng)然能夠代表總體的看法是沒有根據(jù)的。第三節(jié)統(tǒng)計分析二:推論統(tǒng)計所謂推論統(tǒng)計,主要42

一、概率與概率分布隨機(jī)現(xiàn)象具有一定條件呈現(xiàn)多種可能結(jié)果的特性。人們把隨機(jī)現(xiàn)象的結(jié)果以及這些結(jié)果的集合體稱作隨機(jī)事件。

概率是與隨機(jī)現(xiàn)象相聯(lián)系的一個概念。所謂隨機(jī)現(xiàn)象,是指事先不能精確預(yù)言其結(jié)果的現(xiàn)象,如即將出生的嬰兒是男還是女?一枚硬幣落地后其正面是朝上還是朝下?等等。所有這些現(xiàn)象都有一個共同的特點,那就是在給定的條件下,觀察所得的結(jié)果不止一個。隨機(jī)現(xiàn)象具有非確定性,但內(nèi)中也有一定的規(guī)律性。例如,事先我們雖不能準(zhǔn)確預(yù)言一個嬰兒出生后的性別,但大量觀察,我們會發(fā)現(xiàn)婦女生男生女的可能性幾乎一樣大,都是0.5,這就是概率。

一、概率與概率分布隨機(jī)現(xiàn)象具有一定條件呈43在推論統(tǒng)計中,概率和概率分布有著如同在描述統(tǒng)計中頻率和頻率分布那樣的聯(lián)系?,F(xiàn)在我們了解了概率,但作為隨機(jī)現(xiàn)象的全面研究這還很不夠。概率僅僅告知了隨機(jī)現(xiàn)象某一局部結(jié)果發(fā)生的可能性有多大,概率分布則要在滿足完備性(窮舉)和互不相容性(互斥)的前提下,回答隨機(jī)現(xiàn)象一共會出現(xiàn)多少種結(jié)果,以及每種結(jié)果所伴隨的概率是多少。

在推論統(tǒng)計中,概率和概率分布有著如同在描述44

以拋擲十枚硬幣的試驗為例,概率分布不僅要回答一共會發(fā)生11種結(jié)果(從沒有一枚硬幣面朝上到所有十枚硬幣面全朝上),而且要回答全部11種結(jié)果發(fā)生的概率各是多少。解決了這兩個問題,我們的討論便從概率過渡到了概率分布。在推論統(tǒng)計中,我們是用先驗的方法就每種結(jié)果算出其發(fā)生概率的,將它們一一列入右表中,我們就得到了著名的二項分布。硬幣面朝上數(shù)x

概率P(X=x)

012345678910.001.010.044.117.205.246.205.117.044.010.001合計

1.000

以拋擲十枚硬幣的試驗為例,概率分布不僅要回答一共會發(fā)45X=

xi

x1

x2

x3…xi…xn

合計P(X=

xi)

P1P2P3…Pi…Pn

推而論之,在隨機(jī)變量的取值滿足“窮舉”和“互斥”這兩個原則的前提下,概率分布的一般形式如下表所示。

現(xiàn)在我們把這里所講的概率分布與前面所講的頻數(shù)分布、頻率分布作一比較,就會發(fā)現(xiàn)它們(特別是頻率分布與概率分布)非常相象。當(dāng)然概率分布與頻率分布也有重要區(qū)別:頻率分布是經(jīng)資料整理而來的,概率分布卻是先驗的;頻率分布隨樣本不同而有所不同,概率分布卻是唯一的;頻率分布有對應(yīng)的頻數(shù)分布,概率分布則沒有。因此頻率分布被稱為隨機(jī)變量的統(tǒng)計分布或經(jīng)驗分布,而概率分布則被稱為隨機(jī)變量的理論分布。

X=xix1x2x346二、分布函數(shù)

但是我們要特別注意,上表實際上只對離散型隨機(jī)變量適用。因為離散型隨機(jī)變量X的取值是可數(shù)的。如果對X的每個可能取值xi計算其實現(xiàn)的概率Pi,我們便得到了離散型隨機(jī)變量的概率分布,即

二、分布函數(shù)47像上面拋擲硬幣的試驗一樣,有許多隨機(jī)現(xiàn)象只包含兩個結(jié)果,如男與女、是與非、生與死、同意與不同意、贊成與反對等等。通常,我們把其中比較關(guān)注那個結(jié)果稱為“成功”,另一個結(jié)果則稱為“失敗”。每當(dāng)試驗如同拋擲硬幣,是在相同的條件下重復(fù)n次,考慮的是“成功”的概率p(“失敗”的概率q=1―p),且各次試驗相互獨立,我們都可以得到由二項分布所示的概率分布。二項分布是最著名的離散型隨機(jī)變量的概率分布,它的數(shù)學(xué)表達(dá)式是

像上面拋擲硬幣的試驗一樣,有許多隨機(jī)現(xiàn)象只包含48連續(xù)型隨機(jī)變量的取值充滿某一區(qū)間,因而取某一數(shù)值討論其概率是無意義的。為此,我們引進(jìn)概率密度的概念來表達(dá)連續(xù)型隨機(jī)變量的概率分布。以頻率密度為縱坐標(biāo),可以作出頻率分布直方圖。類似地,以概率密度為縱坐標(biāo),可以作出概率密度曲線。所不同的是,概率密度由于對組距求了Δx→0的極限,其圖形乃平滑曲線。(x)j連續(xù)型隨機(jī)變量的取值充滿某一區(qū)間,因而取某一49

這樣一來,隨機(jī)變量X取值在區(qū)間{x1,x2}上的概率等于概率密度曲線下面x1與x2兩點之間面積,即

所以有概率密度的性質(zhì)因為概率不可能是負(fù)的,且

這樣一來,隨機(jī)變量X取值在區(qū)間{x1,x250

為了從數(shù)學(xué)上能夠統(tǒng)一對隨機(jī)變量的概率進(jìn)行研究引入分布函數(shù)的概念,它被定義為

有了分布函數(shù),就可以很容易得到隨機(jī)變量X取值在任意區(qū)間{x1,x2}上的概率,即連續(xù)型隨機(jī)變量離散型隨機(jī)變量

為了從數(shù)學(xué)上能夠統(tǒng)一對隨機(jī)變量的概率進(jìn)行研51和

(離散變量)或(連續(xù)變量)的關(guān)系,就像向上累計頻率和頻率的關(guān)系一樣。不同之處在于,累計的是概率。但使用分布函數(shù)的好處是很明顯的,它不僅在數(shù)學(xué)上統(tǒng)一了對離散型隨機(jī)變量和連續(xù)型隨機(jī)變量概率的研究,而且由于它計算概率的起點都固定為―∞,因而可以把概率值換算成表,以易于求得任何區(qū)間的概率,從而達(dá)到計算快捷和應(yīng)用廣泛之目的。[例]求兩顆骰子點數(shù)的分布函數(shù)。

X23456789101112合計P(X)F(X)——和52

[例]某特定社區(qū)人口的10%是少數(shù)民族,現(xiàn)隨機(jī)抽取6人,問其中恰好2人是少數(shù)民族的概率是多少?[解]根據(jù)附表3求得

B(2;6,0.1)=F(2)―F(3

)=0.1143―0.0159=0.0984

[例]某特定社區(qū)人口的10%是少數(shù)民族,現(xiàn)隨機(jī)53三、數(shù)學(xué)期望與變異數(shù)

在前面統(tǒng)計分組的討論中,我們在得到頻數(shù)(或頻率)分布后,為了對變量有系統(tǒng)概括的認(rèn)識,分別研究了集中趨勢和離中趨勢。而對集中趨勢和離中趨勢量度,我們分別得到了平均指標(biāo)和變異指標(biāo),其中最有代表性的是算術(shù)平均數(shù)和標(biāo)準(zhǔn)差。很顯然,現(xiàn)在當(dāng)我們面對隨機(jī)變量的理論分布時,也要對隨機(jī)變量的集中趨勢和離中趨勢作概括性的描述,這就引出數(shù)學(xué)期望和變異數(shù)這兩個概念。所謂數(shù)學(xué)期望,是反映隨機(jī)變量X取值的集中趨勢的理論均值(算術(shù)平均),記作E(X)。離散型隨機(jī)變量

連續(xù)型隨機(jī)變量三、數(shù)學(xué)期望與變異數(shù)離散型隨機(jī)變量連續(xù)型隨機(jī)變量54

[例]一家保險公司在投保的50萬元人壽保險的保單中,估計每1000保單每年有15個理賠,若每一保單每年的營運成本及利潤的期望值為200元,試求每一保單的保費。

[解]依題意知,利潤的期望值

E(X)=200(元)設(shè)x1表示保費,x2為理賠費[x2=-(500000-x1)],則可得

所以,x1=7700(元)。即每一保單每年的保費應(yīng)定在7700元。[例]一家保險公司在投保的50萬元人壽保險55

數(shù)學(xué)期望也常常記為μ,在推論統(tǒng)計中同總體均值的記號,而則在推論統(tǒng)計中被作為樣本均值的記號。數(shù)學(xué)期望和總體均值一樣,都是唯一的,不過它是一個先驗的理論值。由于它是用隨機(jī)變量各取值分別乘以取值的概率來計算的,因此數(shù)學(xué)期望又可稱為隨機(jī)變量的加權(quán)算術(shù)平均數(shù)。樣本均值依據(jù)統(tǒng)計數(shù)據(jù)計算而來,但它具有隨機(jī)性。在統(tǒng)計推論中,E(X),是“估計”。和都是為μ服務(wù)的,E(X)是“期望”數(shù)學(xué)期望的幾個基本性質(zhì):(1)常數(shù)c的期望等于該常數(shù),即E(c)=c(2)常數(shù)c與隨機(jī)變量X之積的期望等于X的期望與c的積,即E(cX)=cE(X)(3)兩個隨機(jī)變量之和的期望等于它們的期望之和,即E(X+Y)=E(X)+E(Y)(4)兩個獨立隨機(jī)變量乘積的期望等于它們的期望之積,即E(XY)=E(X)·E(Y)數(shù)學(xué)期望也常常記為μ,在推論統(tǒng)計中同總體均56

數(shù)學(xué)期望反映了隨機(jī)變量的集中趨勢,但僅知道集中趨勢還不夠,還應(yīng)該知道隨機(jī)變量在均值周圍的離散程度,即離中趨勢。變異數(shù)是綜合反映隨機(jī)變量取值分散程度的指標(biāo),其功能相當(dāng)于描述統(tǒng)計中已討論過的方差及標(biāo)準(zhǔn)差,記用D(X)。

離散型隨機(jī)變量

連續(xù)型隨機(jī)變量

由于變異數(shù)的單位是隨機(jī)變量單位的平方。為了使隨機(jī)變量變異指標(biāo)的單位與其本身的單位相同,將D(X)開方(取正值)稱作隨機(jī)變量X的標(biāo)準(zhǔn)差σ;同時為了更明確的表示D(X)與標(biāo)準(zhǔn)差之間只是開方關(guān)系,索性把D(X)寫成σ2,并直接稱D(X)為隨機(jī)變量X的方差。于是有

數(shù)學(xué)期望反映了隨機(jī)變量的集中趨勢,但僅知57很顯然隨機(jī)變量X的變異數(shù)也可以寫成

簡化公式當(dāng)然不難理解,在推論統(tǒng)計中隨機(jī)變量變異數(shù)的記號常常同總體方差的記號,即用σ2表示之。而S2則被作為樣本方差的記號。變異數(shù)和總體方差一樣,都是唯一的,不過它是一個先驗的理論值。樣本方差S2依據(jù)統(tǒng)計數(shù)據(jù)計算而來,但它具有隨機(jī)性。試求兩顆骰子點數(shù)的變異數(shù)D(X)很顯然隨機(jī)變量X的變異數(shù)也可以寫成簡化公式58變異數(shù)的幾個基本性質(zhì):(1)常數(shù)c的方差等于0,即D(c)=0(2)常數(shù)c與隨機(jī)變量X之積的方差,等于隨機(jī)變量X的方差c2倍,即D(cX)=c2D(X)(3)隨機(jī)變量與常數(shù)之和的方差等于隨機(jī)變量的方差,即D(X+c)=D(X)(4)兩個獨立隨機(jī)變量之和的方差等于它們的方差和,即D(X+Y)=D(X)+D(Y)變異數(shù)的幾個基本性質(zhì):(1)常數(shù)c的方差等于59四、假設(shè)檢驗與二項分布的應(yīng)用

對于一枚硬幣被重復(fù)拋擲10次的二項試驗,經(jīng)驗告訴我們,一共有11種可能的結(jié)果,而且實現(xiàn)這些結(jié)果的機(jī)會是大不相同的。研究者實際上從來不用經(jīng)驗的方法求得概率分布,因為通常我們只對一項試驗進(jìn)行一次或幾次,抽取樣本也是一個或至多不過幾個。二項分布是用數(shù)學(xué)或演繹推理的方法求得的一種理論分布。既然如此,如果實際抽樣得到的結(jié)果偏巧就是概率分布預(yù)示的最不可能出現(xiàn)的結(jié)果,那么我們是認(rèn)定純屬巧合,還是開始對用數(shù)學(xué)或演繹推理方法求得的概率以及理想試驗的種種前提假設(shè)產(chǎn)生懷疑?更準(zhǔn)確地說,在一枚硬幣被重復(fù)拋擲10次的這個二項試驗中,究竟出現(xiàn)什么結(jié)果時,我們應(yīng)該對二項分布及其前提假設(shè)產(chǎn)生懷疑呢?是不是只要不是得到5次成功5次失敗(x=5)這個最大可能性結(jié)果時就開始懷疑,還是僅當(dāng)出現(xiàn)10次成功或一次也不成功(x=10或x=0)這兩個極端情況時才產(chǎn)生懷疑呢?這就是假設(shè)檢驗的核心問題。

四、假設(shè)檢驗與二項分布的應(yīng)用60(1)建立假設(shè)(2)求抽樣分布(4)計算檢驗統(tǒng)計量(3)選擇顯著性水平和否定域(5)判定所所包有

含統(tǒng)的計步檢驟驗

概率分布不是一種研究者從資料中看到的分布,我們討論它,不是出于對數(shù)學(xué)的愛好,而是因為統(tǒng)計推論的有關(guān)工作需要它?,F(xiàn)在,我們要進(jìn)入系統(tǒng)討論統(tǒng)計假設(shè)檢驗的實際步驟的階段。所有的統(tǒng)計檢驗都包含某些特定的步驟,這里先列示如下:

(1)建立假設(shè)(2)求抽樣分布(4)計算檢驗統(tǒng)計量(3)選擇61

1.建立假設(shè)

統(tǒng)計檢驗是將抽樣結(jié)果和抽樣分布相對照而作出判斷的工作。取得抽樣結(jié)果,依據(jù)描述性統(tǒng)計的方法就足夠了。抽樣分布則不然,它無法從資料中得到,非利用概率論不可。而不對待概括的總體和使用的抽樣程序做某種必要的假設(shè),這項工作將無法進(jìn)行。比如通過擲硬幣的實驗得到二項分布,必須假設(shè):①樣本是隨機(jī)的,試驗中各次拋擲相互獨立;②硬幣是無偏的(或稱是誠實的),即p=q=0.5。概括地說,必須首先就研究總體和抽樣方案都做出假設(shè),再加上概率論,我們就可以對各種可能結(jié)果做具體的概率陳述了。

1.建立假設(shè)62

2.求抽樣分布在做了必要的假設(shè)之后,我們就能用數(shù)學(xué)推理過程來求抽樣分布了。比如在這一章開頭,在硬幣重復(fù)拋擲n次的理想實驗中,我們計算了成功次數(shù)為x的宏觀結(jié)果所具有的概率,得到二項分布。如果前提假設(shè)變動了,還可以求出其他形式的概率分布,如正態(tài)分布、泊松分布、卡方分布等等,它們都有特定的方程式。由于數(shù)學(xué)上已經(jīng)取得的成果,實際上統(tǒng)計工作者要做的這項工作往往并不是真的去求抽樣分布的數(shù)學(xué)形式,而是根據(jù)具體需要,確定特定問題的統(tǒng)計檢驗應(yīng)該采用哪種分布的現(xiàn)成的數(shù)學(xué)用表。

2.求抽樣分布63

3.選擇顯著性水平和否定域

在統(tǒng)計檢驗中,那些不大可能的結(jié)果稱為否定域。如果這類結(jié)果真的發(fā)生了,我們將否定假設(shè);反之就不否定假設(shè)。

在統(tǒng)計檢驗中,通常把被檢驗的那個假設(shè)稱為零假設(shè)(用符號H0表示),并用它和其他備擇假設(shè)(用符號H1表示)相對比。零假設(shè)與備擇假設(shè)否定域3.選擇顯著性水平和否定域零假設(shè)與備擇假設(shè)否定域64

在統(tǒng)計檢驗中,無論是拒絕或者接受原假設(shè),都不可能做到百分之百的正確,都有一定的錯誤。第一類錯誤是,零假設(shè)H0實際上是正確的,卻被否定了。第二類錯誤則是,H0實際上是錯的,卻沒有被否定。遺憾的是,不管我們?nèi)绾芜x擇否定域,都不可能完全避免第一類錯誤和第二類錯誤,也不可能同時把犯兩類錯誤的危險壓縮到最小。對任何一個給定的檢驗而言,第一類錯誤的危險越小,第二類錯誤的概率就越大;反之亦然。一般來講,不可能具體估計出第二類錯誤的概率值。第一類錯誤則不然,犯第一類錯誤的概率是否定域內(nèi)各種結(jié)果的概率之和。兩類錯誤及其關(guān)系兩類錯誤及其關(guān)系65被我們事先選定的可以犯第一類錯誤的概率,叫做檢驗的顯著性水平(用α表示),它決定了否定域的大小。因此,有人也把第一類錯誤稱之α錯誤。相應(yīng)地第二類錯誤被人稱為錯誤。在原假設(shè)成立的條件下,統(tǒng)計檢驗中所規(guī)定的小概率標(biāo)準(zhǔn)一般取為α=0.05或α=0.01。由α所決定的否定域與接受域之間的分界值被稱為臨界值,如Zα。如果抽樣分布是連續(xù)的,否定域可以建立在想要建立的任何水平上,否定域的大小可以和顯著性水平的要求一致起來(后面的正態(tài)檢驗就如此)。如果抽樣分布是非連續(xù)的,就要用累計概率的方法找出一組構(gòu)成否定域的結(jié)果。顯著性水平α被我們事先選定的可以犯第一類錯誤的概率,顯著66根據(jù)否定域位置的不同,可以將假設(shè)檢驗分為雙側(cè)檢驗和單側(cè)檢驗。

在統(tǒng)計中,必須把否定域分配到抽樣分布的兩端的檢驗,被稱為雙側(cè)檢驗。

在統(tǒng)計中,可以事先能預(yù)測偏差方向,因而可以把否定域集中到抽樣分布更合適的一端的檢驗,被稱為單側(cè)檢驗。

雙側(cè)檢驗和單側(cè)檢驗根據(jù)否定域位置在統(tǒng)計中,必須把否定域674.計算檢驗統(tǒng)計量

在完成了上述工作之后,接下來就是做一次與理想試驗盡量相同的實際抽樣(比如實際做一次重復(fù)拋擲硬幣的試驗),并從獲取的樣本資料算出檢驗統(tǒng)計量。檢驗統(tǒng)計量是關(guān)于樣本的一個綜合指標(biāo),但與我們后面參數(shù)估計中將要討論的統(tǒng)計量有所不同,它不用作估測,而只用作檢驗。5.判定

假設(shè)檢驗系指拒絕或保留零假設(shè)的判斷,又稱顯著性檢定。在選擇否定域并計算檢驗統(tǒng)計量之后,我們完成最后一道手續(xù),即根據(jù)試驗或樣本結(jié)果決定假設(shè)的取與舍。如果結(jié)果落在否定域內(nèi),我們將在已知犯第一類錯誤概率的條件下,否定零假設(shè)。反之,如果結(jié)果落在否定域外,則不否定零假設(shè),與此同時,我們就有了犯第二類錯誤的危險。

4.計算檢驗統(tǒng)計量68[例]若想通過拋擲10次硬幣的實驗來檢驗這個硬幣無偏的零假設(shè),通過雙側(cè)檢驗0.10顯著性水平,請指出否定域。如果單側(cè)檢驗(p<0.5),又將如何?[例]某選區(qū)有選民10000人,其中屬于工貿(mào)系統(tǒng)的有4000人,要產(chǎn)生代表6名。假定各系統(tǒng)選民都有同等機(jī)會當(dāng)選代表,(1)代表是工貿(mào)系統(tǒng)人員的概率分布;(2)在6名代表中最可能是工貿(mào)系統(tǒng)人員占幾名;(3)如果6名代表中有4名是工貿(mào)系統(tǒng)的人員,可以否定隨機(jī)性的零假設(shè)嗎?(α=0.05,單側(cè)檢驗,p>0.4)[例]若想通過拋擲10次硬幣的實驗來檢驗這69五、正態(tài)分布與標(biāo)準(zhǔn)正態(tài)分布

如果說二項分布是離散型隨機(jī)變量最具典型意義的概率分布,那么連續(xù)型隨機(jī)變量最具典型意義的概率分布就是正態(tài)分布了。實踐中常見的一類連續(xù)型隨機(jī)變量,多數(shù)服從或近似服從正態(tài)分布。例如測量誤差、智商以及人體的身高體重、運動員的成績等等,都可以用正態(tài)分布進(jìn)行描述。一般地講,若影響某一變量的隨機(jī)因素很多,而每個因素所起的作用不太大且相互獨立,則這個變量服從正態(tài)分布。更為重要的是,正態(tài)分布還是抽樣理論和統(tǒng)計推斷的基礎(chǔ)。

五、正態(tài)分布與標(biāo)準(zhǔn)正態(tài)分布701.正態(tài)分布的數(shù)學(xué)形式正態(tài)分布性質(zhì):(1)正態(tài)曲線以x=μ呈鐘型對稱均值=中位數(shù)=眾數(shù)(2)在x=μ處,概率密度最大;當(dāng)區(qū)間離μ越遠(yuǎn),x落在這個區(qū)間的概率越小。1.正態(tài)分布的數(shù)學(xué)形式正態(tài)分布性質(zhì):71(3)正態(tài)曲線的外形由σ值確定。對于固定的σ值,不同均值μ的正態(tài)曲線的外形完全相同,差別只在于曲線在橫軸方向上整體平移了一個位置。(5)E(X)=μD(X)=σ2(4)對于固定的μ值,改變σ值,σ值越小,正態(tài)曲線越陡峭;σ值越大,正態(tài)曲線越低平。

(總之,正態(tài)分布曲線的位置是由μ決定的,而正態(tài)分布曲線的“高、矮、胖、瘦”由σ決定的。)

(3)正態(tài)曲線的外形由σ值確定。對于固定的72

2.標(biāo)準(zhǔn)正態(tài)分布Z分?jǐn)?shù)(標(biāo)準(zhǔn)正態(tài)變量)用Z分?jǐn)?shù)表達(dá)的標(biāo)準(zhǔn)正態(tài)分布,其概率密度為一般正態(tài)分布的表示標(biāo)準(zhǔn)正態(tài)分布的表示2.標(biāo)準(zhǔn)正態(tài)分布一般正態(tài)分布的表示標(biāo)準(zhǔn)正態(tài)分布的733.正態(tài)曲線下的面積

但積分畢竟太麻煩了,更何況許多人對積分運算不熟悉,為此須計算出現(xiàn)成的數(shù)值表供使用者查找。由于正態(tài)曲線的優(yōu)良性質(zhì),這項工作可以卓有成效地完成:①經(jīng)過X的標(biāo)準(zhǔn)分,可以將任何正態(tài)分布N(μ,σ2)轉(zhuǎn)換成標(biāo)準(zhǔn)正態(tài)分布N(0,1);②運用分布函數(shù)的定義,并利用正態(tài)曲線的對稱性,通過下式(分布函數(shù))可以計算編制出正態(tài)分布表(見附4)。

3.正態(tài)曲線下的面積但積分畢竟太麻煩了,74

采用標(biāo)準(zhǔn)正態(tài)變量表達(dá)正態(tài)分布,使標(biāo)準(zhǔn)差得到了進(jìn)一步闡明。我們看到,標(biāo)準(zhǔn)差是計算總體單位分布及其標(biāo)志值變異范圍的主要依據(jù),下圖說明了這一點。(1)變量值在【μ-σ,

μ+σ】之間的概率為0.6826。(2)變量值在【μ-2σ,

μ+2σ】之間的概率為0.9546。(3)變量值在【μ-3σ,

μ+3σ】之間的概率為0.9973。采用標(biāo)準(zhǔn)正態(tài)變量表達(dá)正態(tài)分布,使標(biāo)準(zhǔn)差得到了75

[例]設(shè)隨機(jī)變量X服從正態(tài)分布N(168,122),試求P(X≤143)。

總之,決定任意兩點間的面積都完全是可能的。比如向均值兩側(cè)移1.96個標(biāo)準(zhǔn)差,曲線下方便包含了大約95%的面積;如移動2.58個標(biāo)準(zhǔn)差,則面積幾乎是99%。附錄4已編制了關(guān)于Z和標(biāo)準(zhǔn)正態(tài)曲線所含面積之間關(guān)系的精確數(shù)值表,即Z從0到+∞變化,相應(yīng)區(qū)間含的面積從0變至0.5。[例]設(shè)隨機(jī)變總之,決定任76

[解]已知μ=168,σ=12

z是負(fù)值,表示X的取值處于均值左邊。由于曲線完全對稱,所以使用正態(tài)分布表時可以忽略z的正負(fù)號。查表可知,正態(tài)曲線在均值與z=2.08之間所含面積是0.4812。由于總面積的一半是0.5,因P(X≤143)可以由下面計算求得

P(X≤143)=0.5―P(0≤Z≤2.08)=0.5―0.4812=1.88%這說明,X的取值小于或等于143的概率大約是2%。由于即將討論的正態(tài)檢驗幾乎都要涉及概率分布的尾端,所以此例說明的是一個非常普遍的問題。

第九章資料的統(tǒng)計分析課件77六、中心極限定理與正態(tài)檢驗

一旦統(tǒng)計的學(xué)習(xí)進(jìn)入到推論統(tǒng)計,我們就必須同時與三種不同的分布概念打交道,即總體分布、樣本分布、抽樣分布。為了不產(chǎn)生混淆,視分布不同,將統(tǒng)計指標(biāo)的符號加以區(qū)別是完全必要的。對那些反映標(biāo)志值集中趨勢和離中趨勢的綜合指標(biāo),尤其對均值和標(biāo)準(zhǔn)差(或方差)。均值標(biāo)準(zhǔn)差總體分布樣本分布抽樣分布

抽樣分布特指樣本統(tǒng)計量作為隨機(jī)變量的概率分布。用數(shù)學(xué)語言來說,抽樣分布是運用數(shù)理統(tǒng)計的方法,把具體概率賦予樣本的所有可能結(jié)果的一種理論分布。

在一個總體中可以產(chǎn)生無數(shù)個樣本,所以樣本統(tǒng)計量(比如均值)必定是隨機(jī)變量。這樣就提出一個問題:如果樣本統(tǒng)計量作為隨機(jī)變量,它的概率分布是什么樣呢?六、中心極限定理與正態(tài)檢驗一旦統(tǒng)計的學(xué)習(xí)進(jìn)入到78

我們知道,概率論中用來闡明大量隨機(jī)現(xiàn)象平均結(jié)果的穩(wěn)定性的定理,是著名的大數(shù)定理。其具體內(nèi)容是:頻率穩(wěn)定于概率,平均值穩(wěn)定于期望值。但是,大量隨機(jī)現(xiàn)象的穩(wěn)定性不僅表現(xiàn)在平均結(jié)果上,同時也表現(xiàn)在分布上,這就是中心極限定理所要闡明的內(nèi)容。顯然,推論統(tǒng)計需要有一座能夠架通抽樣調(diào)查和抽樣分布的橋梁。中心極限定理告訴我們:如果從任何一個具有均值μ和方差σ2的總體(可以具有任何分布形式)中重復(fù)抽取容量為n的隨機(jī)樣本,那么當(dāng)n變得很大時,樣本均值的抽樣分布接近正態(tài),并具有均值μ和方差。

79(2)由于抽樣分布的標(biāo)準(zhǔn)差要比總體標(biāo)準(zhǔn)差小,并且,所以如右圖所示,樣本容量越大,抽樣分布的峰態(tài)愈陡峭,由樣本結(jié)果來推斷總體參數(shù)的可靠性也隨之提高。

無疑,中心極限定理大大拓展了正態(tài)分布的適用面,同時我們得到了以下重要信息:

(1)雖然樣本的均值可能和總體均值有差別,但我們可期望這些將聚集在μ的周圍。因此均值抽樣分布的算術(shù)平均數(shù)能和總體的均值很好地重合,這就是為什么總體均值和抽樣分布的均值用同一個μ來表示的緣故。(2)由于抽樣分布的標(biāo)準(zhǔn)無80

統(tǒng)計檢驗應(yīng)用正態(tài)分布和二項分布有兩點區(qū)別:①抽樣分布在這里是連續(xù)的而非離散的,否定域的大小可以和顯著性水平的要求精確地一致起來。②計算檢驗統(tǒng)計量不再像在應(yīng)用二項分布時那樣,可以不勞而獲了。很顯然,為了能使用現(xiàn)成的正態(tài)分布表,關(guān)鍵是要從樣本資料中計算出在N(0,1)形式下的統(tǒng)計量Z,再根據(jù)Z是否落在否定城內(nèi)而對被檢驗假設(shè)的取舍作出決定。在上一節(jié)我們曾引出。Z的這種形式適用于N(μ,σ2)的總體,但并不適用于取正態(tài)的抽樣分布。正如我們反復(fù)強(qiáng)調(diào)的那樣,統(tǒng)計檢驗單純依靠樣本自身是得不出結(jié)果的,必須首先在一系列假設(shè)的基礎(chǔ)上求出抽樣分布。如果這些假設(shè)實際上正確,那么抽樣分布將告訴我們得到一個給定的的可能性是多少。在抽樣分布中,隨機(jī)變量的取值是每個,均值是μ,標(biāo)準(zhǔn)差是。因此Z如果作為檢驗統(tǒng)計量,應(yīng)該用替換X,用替換σ,μ不動,因而有。統(tǒng)計檢驗應(yīng)用正態(tài)分布和二項分布有兩點區(qū)別:81

例]一位研究者試圖檢驗?zāi)骋簧鐣{(diào)查所運用的抽樣程序,該項調(diào)查是由一些缺乏經(jīng)驗的訪問員進(jìn)行的。研究者懷疑屬于干部和知識分子的家庭抽得過多。過去的統(tǒng)計資料表明,該街區(qū)的家庭收入是7500元,標(biāo)準(zhǔn)差是1500元;此次調(diào)查共抽取100個家庭,樣本平均收入是7900元。問:該研究人員是否有理由懷疑該樣本有偏估?(選用α=0.05)

現(xiàn)在我們來看中心極限定理在假設(shè)檢驗中的應(yīng)用。雖然不必每一次都明寫出來,但本章前面所述的檢驗程序的每一步都不能缺少。把從樣本調(diào)查中得到的檢驗統(tǒng)計量與假設(shè)的總體均值作比較,我們很快發(fā)現(xiàn)了正態(tài)分布的重要的實用價值。1.σ已知,對總體均值的檢驗實際上是要檢驗“隨機(jī)抽樣”這個零假設(shè)

例]一位研究者試圖檢驗?zāi)骋簧鐣{(diào)查所運用82[例]一位研究者試圖檢驗?zāi)骋簧鐣{(diào)查所運用的抽樣程序,該項調(diào)查是由一些缺乏經(jīng)驗的訪問員進(jìn)行的。研究者懷疑屬于干部和知識分子的家庭抽得過多。過去的統(tǒng)計資料表明,該街區(qū)的家庭收入是7500元,標(biāo)準(zhǔn)差是1500元;此次調(diào)查共抽取100個家庭,樣本平均收入是7900元。問:該研究人員是否有理由懷疑該樣本有偏估?(選用α=0.05)第五節(jié)總體均值和成數(shù)的單樣本檢驗1.σ已知,對總體均值的檢驗實際上是要檢驗“隨機(jī)抽樣”這個零假設(shè)

[例]一位研究者試圖檢驗?zāi)骋簧鐣{(diào)83[解]根據(jù)題意,可做如下假設(shè),并做單側(cè)檢驗

因α=0.05,查表得Z0.05=1.65,故否定域為根據(jù)中心極限定理,檢驗統(tǒng)計量計算得檢驗統(tǒng)計量Z的計算表明,樣本均值比總體均值大2.67個標(biāo)準(zhǔn)差(),超過了顯著性水平規(guī)定的臨界值,調(diào)查者應(yīng)該否定“隨機(jī)抽樣”的零假設(shè)。也就是說,由于抽樣在程序上不合要求,這項社會調(diào)查有必要重新組織。

[解]根據(jù)題意,可做如下假設(shè),并做單側(cè)檢驗84中心極限定理實際解決了大樣本均值的檢驗問題。假定樣本比較大(n>50,這在社會調(diào)查中一般都能得到滿足),樣本均值的抽樣分布就與總體分布無關(guān),而服從正態(tài)分布。當(dāng)H0成立時,樣本均值的觀察值比較集中地分布在總體均值μ周圍;當(dāng)H0不成立時,將對μ有明顯偏離的趨勢。因而,我們可以在選定的顯著性水平上,通過計算檢驗統(tǒng)計量Z,對零假設(shè)進(jìn)行檢定。注:當(dāng)σ未知時,只要樣本量很大,就可用S來代替σ。但對于小樣本,Z檢驗就要用t檢驗來替代了,而且還必須嚴(yán)格限于正態(tài)總體。中心極限定理實際解決了大樣本均值的檢驗問85

[解]根據(jù)題意,可作如下的假設(shè),并做雙側(cè)檢驗

H0:μ=2330元H1:μ≠2330元因α=0.05,查正態(tài)分布表得Zα/2=1.96,故否定域|Z|≥1.96計算檢驗統(tǒng)計量

Z=≈==1.20<1.96所以,不能認(rèn)為該單位人均月收入不是2330元,即不能認(rèn)為該統(tǒng)計報表有誤。五、正態(tài)分布與標(biāo)準(zhǔn)正態(tài)分布

[例]某單位統(tǒng)計報表顯示,人均月收入為2330元,為了驗證該統(tǒng)計報表的正確性,作了共81人的抽樣調(diào)查,樣本人均月收入為2350元,標(biāo)準(zhǔn)差為150元,問能否說明該統(tǒng)計報表顯示的人均收入的數(shù)字有誤(取顯著性水平α=0.05)。

此乃“總體均值”零假設(shè)的檢驗[解]根據(jù)題意,可作如下的假設(shè),并做雙側(cè)檢驗86七、點估計與區(qū)間估計在推論統(tǒng)計中,相對于假設(shè)檢驗,參數(shù)估計要容易理解得多。所謂參數(shù)估計,即由樣本的指標(biāo)數(shù)值推斷總體的相應(yīng)的指標(biāo)數(shù)值,它包括點估計和區(qū)間估計。例如,某高校大一60名男生如果是一個隨機(jī)產(chǎn)生的樣本,那么我們肯定是在做抽樣調(diào)查,即這個樣本是從該校全部大一男生這個總體中通過隨機(jī)抽樣產(chǎn)生的。這樣一來,那一組調(diào)查來的身高數(shù)據(jù)以及通過這一組數(shù)據(jù)計算出來的平均身高等就對總體有很好的代表性。換句話說,我們計算出這60個男生的平均身高是168.5厘米,那么根據(jù)大數(shù)定理我們可以用這個統(tǒng)計量來估計全校大一男生的平均身高。這體現(xiàn)出了抽樣調(diào)查的基本意義。七、點估計與區(qū)間估計87不過,這一參數(shù)估計只是點估計。所謂點估計,就是根據(jù)樣本數(shù)據(jù)算出一個單一的估計值,用來估計總體的參數(shù)值。點估計很方便,但當(dāng)我們要關(guān)心這一估計的可靠性時,問題就出來了。也就是說,我們根據(jù)樣本均值是不可能肯定該校大一男生的平均身高就是168.5厘米的。這樣一來,區(qū)間估計的重要性就顯現(xiàn)出來了。所謂區(qū)間估計,就是計算抽樣平均誤差,指出估計的可信程度,進(jìn)而在點估計的基礎(chǔ)上,確定總體參數(shù)的所在范圍或區(qū)間。很顯然,如果我們在168.5厘米上下加減一個(比如0.5厘米),現(xiàn)在估計全校大一男生的平均身高在168~169厘米之間,那么估計到的把握就會一下子提高許多。不過,這一參數(shù)估計只是點估計。所謂點估計,就88一、有關(guān)區(qū)間估計的幾個概念1.置信區(qū)間:區(qū)間估計是求所謂置信區(qū)間的方法。置信區(qū)間就是我們?yōu)榱嗽黾訁?shù)被估計到的信心而在點估計兩邊設(shè)置的估計區(qū)間。2.顯著性水平:用置信區(qū)間來估計的不可靠程度。區(qū)間估計的任務(wù)是,在點估計值的兩側(cè)設(shè)置一個區(qū)間,使得總體參數(shù)被估計到的概率大大增加。可靠性和精確性(即信度和效度)在區(qū)間估計中是相互矛盾的兩個方面。

區(qū)間估計的任務(wù)是,在點估計值的兩側(cè)設(shè)置一個區(qū)893.置信度(水平):用置信區(qū)間估計的可靠性(把握度)4.抽樣平均誤差與概率度Z抽樣平均誤差:樣本均值抽樣分布的標(biāo)準(zhǔn)差。反映在參數(shù)周圍抽樣平均值的平均變異程度。越大,樣本均值越分散。概率度:Z在參數(shù)估計中被稱為概率度,其大小由

決定.3.置信度(水平):用置信區(qū)間估計的可靠性90

顯著性水平、置信水平、概率度之間的關(guān)系:=0.10時,=0.90,Zα/2=1.65=0.05時,=0.95,Zα/2=1.96=0.01時,=0.99,Zα/2=2.58顯著性水平、置信水平、概率度之間91

區(qū)間估計的做法:從點估計值開始,向兩側(cè)展開一定倍數(shù)的抽樣平均誤差,并估計總體參數(shù)很可能就包含在這個區(qū)間之內(nèi)。區(qū)間估計的做法:從點估計值開始,向兩側(cè)展92對參數(shù)的區(qū)間估計的步驟:1.首先從總體抽取一個樣本,根據(jù)收集的樣本資料求出它的均值。2.根據(jù)合乎實際的置信水平查表求得概率度3.根據(jù)總體標(biāo)準(zhǔn)差和樣本容量求出抽樣平均誤差4.以均值為基準(zhǔn),向兩側(cè)展開倍抽樣平均誤差的區(qū)間。對參數(shù)的區(qū)間估計的步驟:93[例]從某校隨機(jī)地抽取100名男學(xué)生,測得平均身高為170厘米,標(biāo)準(zhǔn)差為7.5厘米,試求該校學(xué)生平均身高95%的置信區(qū)間。[解]按題意,此為大樣本,且總體方差未知,又=100,=170,=7.5,=0.95.查表得=1.96,代入公式有=170±1.96=170±1.47因此,有95%的把握,該校學(xué)生的平均身高在168.5~171.5厘米之間。[例]從某校隨機(jī)地抽取100名男學(xué)生,測得94第九章資料的統(tǒng)計分析

在調(diào)查結(jié)束后,我們必須對收集到的資料進(jìn)行認(rèn)真仔細(xì)的整理。而整理的目的是為了分析,沒有對資料的分析,我們就不可能有對研究對象的總體把握,也不可能寫出好的研究報告。當(dāng)然,作為社會調(diào)查研究對象的社會現(xiàn)象有其質(zhì)和量兩方面,我們對整理好的資料也必須展開定性和定量兩方面的分析,缺一不可。但是,定性分析是以研究者的理論功底為基礎(chǔ),主要靠個人的悟性。定量分析就不同了,它是我們每個人通過學(xué)習(xí)都可以統(tǒng)一掌握的技術(shù)。所以學(xué)習(xí)社會研究方法,課堂教學(xué)在資料分析方面重點講得是統(tǒng)計分析,而對定性分析,本書是以穿插于有關(guān)章節(jié)的方式并以情境啟發(fā)的方式來加以討論的。第九章資料的統(tǒng)計分析在調(diào)查結(jié)束后,我們必95第一節(jié)統(tǒng)計調(diào)查資料及其整理

一、統(tǒng)計分組和頻數(shù)分布

統(tǒng)計整理是與統(tǒng)計分組相聯(lián)系的。所謂統(tǒng)計分組,就是將情況相同或相近的數(shù)據(jù)資料加以分門別類的歸并,使之簡單明晰,以便為統(tǒng)計分析中提取各種有用信息打下基礎(chǔ)。

經(jīng)過調(diào)查收集上來的資料雖然是大量的,卻很可能是雜亂無章的,用它來直接做分析往往有困難。統(tǒng)計整理是對調(diào)查數(shù)據(jù)資料的條理化、系統(tǒng)化和有序化,通過它,社會調(diào)查研究才能進(jìn)入統(tǒng)計分析階段。

第一節(jié)統(tǒng)計調(diào)查資料及其整理一、統(tǒng)計分組和頻數(shù)分布96

統(tǒng)計分組有兩方面的含義,對總體(或樣本)而言是“分”,即將總體中各個單位按照它們的差異性(如身高的差異)區(qū)分為若干部分;對總體單位而言是“合”,即將相近似的單位組合起來。這樣,本來雜亂無章的數(shù)據(jù)便有序化了。

頻數(shù)分布是統(tǒng)計分組的結(jié)果,它是指眾多的調(diào)查數(shù)據(jù)在各個組(各類別、各等級或各區(qū)間)出現(xiàn)或發(fā)生的次數(shù)。頻數(shù)分布是對客觀事物自然形成的分布狀態(tài)的集中反映和描述。

統(tǒng)計分組有兩方面的含義,對總體(或樣本)而言是“97

60名男性青年的身高表

(原始資料)

單位:厘米

161179173162161169166155177165165171165168176174163173159170170169169170174169171167164169178160168166163158169172178171152176167171161176168181175159162165168164179157173166172167

現(xiàn)在我們用從某大學(xué)大一男同學(xué)中抽取出來的60人的身高資料來編制頻數(shù)分布表,60名男同學(xué)身高(以厘米計)的原始資料如右:60名男性青年的身高表16117917398

60名男性青年的身高表

(序列資料)單位:厘米

152160163165167169170171174177155161163165167169170172174178157161164166168169170172175178158161164166168169171173176179159162165166168169171173176179159162165167168169171173176181

很顯然,面對這一堆原始數(shù)據(jù),如果我們不作簡化處理,是不容易從中看出什么規(guī)律性的。為此,我們先將它們由低到高排成序列資料:

60名男性青年的身高高組(cm)人數(shù)()150―154154―158158―162162―166166―170170―174174―178178―18212710161275合計60

將原始資料編排成序列資料,實際上是在進(jìn)行統(tǒng)計匯總。由于身高(X)是連續(xù)變量,我們?nèi)绻x4cm為間距,我們可以直接把序列資料編制成為含有8個組的頻數(shù)分布表(頻數(shù)用f表示)。如此一來,原來無序的原始資料就變?yōu)楝F(xiàn)在有序的分組資料。與此同時,學(xué)生總體中身高的分布狀況也清晰地呈現(xiàn)出來。(注:由于身高是連續(xù)變量,匯總時使用了“上組限不包括在內(nèi)”的處理原則。)

某校大一60名男生身高頻數(shù)分布表

身高組(cm)人數(shù)()150―1541合計6100身高組(cm)人數(shù)(%)150―154154―158158―162162―166166―170170―174174―178178―1821.73.311.716.726.620.011.78.3合計100.0二、頻率分布與總體內(nèi)部結(jié)構(gòu)分組資料雖然簡單明了,但不能直接看出各組人數(shù)占這60人的比重,從而顯示出總體內(nèi)部結(jié)構(gòu)。為了實現(xiàn)這個要求,就要在分組資料的基礎(chǔ)上派生出頻率分布表(頻率用P表示)。

頻率就是各組人數(shù)占總體人數(shù)的比重,即P=f/N。比重都小于1,經(jīng)常用百分?jǐn)?shù)來表達(dá),它反映了對象總體的內(nèi)部結(jié)構(gòu)。

某校大一60名男生身高頻率分布表

身高組(cm)人數(shù)(%)150―1541.7合計1101累計頻數(shù)(F)向上累計——以變量數(shù)列首組的頻數(shù)為始點,逐個累計各組的頻數(shù),展示小于該組上限的頻數(shù)和。向下累計——以變量數(shù)列末組的頻數(shù)為始點,逐個累計各組的頻數(shù),展示大于該組下限的頻數(shù)和。累計頻數(shù)(F)向上累計——以變量數(shù)向下累計——以變量數(shù)102

以上我

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論