研究生統(tǒng)計(jì)學(xué)講義第2講第3章定量資料的統(tǒng)計(jì)描述課件_第1頁(yè)
研究生統(tǒng)計(jì)學(xué)講義第2講第3章定量資料的統(tǒng)計(jì)描述課件_第2頁(yè)
研究生統(tǒng)計(jì)學(xué)講義第2講第3章定量資料的統(tǒng)計(jì)描述課件_第3頁(yè)
研究生統(tǒng)計(jì)學(xué)講義第2講第3章定量資料的統(tǒng)計(jì)描述課件_第4頁(yè)
研究生統(tǒng)計(jì)學(xué)講義第2講第3章定量資料的統(tǒng)計(jì)描述課件_第5頁(yè)
已閱讀5頁(yè),還剩38頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第3章定量資料的統(tǒng)計(jì)描述一、正態(tài)分布

(P36)生物學(xué)中所關(guān)心的很多連續(xù)變量來(lái)自鐘形曲線,或者能夠轉(zhuǎn)換為這類曲線.見(jiàn)圖曲線族的特性是由AbrahamdeMoivre(1667-1754),PierreSimon,MarquisdeLaplace(1749-1827)和KarlFriedrichGauss(1777-1855)發(fā)展起來(lái)的.事實(shí)上,這個(gè)分布有時(shí)稱為高斯分布(Gaussiandistribution),盡管形容詞“正常的”(normal)首先由SirFrancisGalton在1877年創(chuàng)造,更多的是形式上使用.

1.正態(tài)隨機(jī)變量的概率密度函數(shù)的形式為

這個(gè)密度函數(shù)肯定不簡(jiǎn)單!是個(gè)壞消息.為求累積概率分布,需要對(duì)f(x)積分.但是不存在f(x)的不定積分.那就意味著人們不能利用微積分基本公式去計(jì)算所需要的積分.于是用一些精確值近似代替曲線下的實(shí)際面積,造出正態(tài)分布表.于是用一些精確值近似代替曲線下的實(shí)際面積,造出正態(tài)分布表.

下圖給出具有平均值μ和標(biāo)準(zhǔn)差σ正態(tài)密度函數(shù)圖,注意它有幾個(gè)特點(diǎn).這個(gè)正態(tài)密度函數(shù)f(x)關(guān)于平均值x=μ對(duì)稱(點(diǎn)劃垂線).μ稱為位置參數(shù),在曲線下μ-σ和μ+σ之間面積近似總面積的2/3(68%),簡(jiǎn)而言之,它在平均值μ的一個(gè)標(biāo)準(zhǔn)差內(nèi).這是在圖中點(diǎn)劃垂線之間的面積.在曲線下μ的兩個(gè)標(biāo)準(zhǔn)差內(nèi),即μ-2σ和μ+2σ之間面積近似為總的95%(這是在圖中實(shí)垂線之間的面積),在曲線下μ的三個(gè)標(biāo)準(zhǔn)差內(nèi),即μ-3σ和μ+3σ之間面積近似為總的99%.

幸運(yùn)的是,這個(gè)曲線族能夠轉(zhuǎn)換為標(biāo)準(zhǔn)正態(tài)曲線(standardnormalcurve),其平均值為0,標(biāo)準(zhǔn)差為1.曲線下的面積已經(jīng)被制成表格,通常稱為u表(utables),u表能用來(lái)確定任何正態(tài)分布的CDF值.(累積分布函數(shù)值即P224附表3)2.標(biāo)準(zhǔn)正態(tài)分布的概率密度函數(shù)和分布函數(shù)

(–∞<x<∞)(3.3)標(biāo)準(zhǔn)正態(tài)變量u與一般均數(shù)為μ,標(biāo)準(zhǔn)差為σ的正態(tài)變量x的關(guān)系是:標(biāo)準(zhǔn)正態(tài)變量u=(x-μ)/σ的值稱為標(biāo)準(zhǔn)正態(tài)(離)差。標(biāo)準(zhǔn)正態(tài)變量的分布函數(shù)記為Ф(u):因?yàn)槿魏握龖B(tài)隨機(jī)變量都能被標(biāo)準(zhǔn)化,標(biāo)準(zhǔn)正態(tài)的累積分布函數(shù)能用來(lái)求概率(正態(tài)曲線下的面積),參見(jiàn)附表3.補(bǔ)例1設(shè)智商測(cè)驗(yàn)得分是具有均數(shù)100,標(biāo)準(zhǔn)差為10的正態(tài)分布.(一些新穎的智商測(cè)驗(yàn)聲稱具有這些參數(shù)).問(wèn):1.隨機(jī)抽取一個(gè)在90以下得分的概率是多少?解:我們必須求P(X<90)=F(90),得分用下圖左邊陰影部分表示,沒(méi)有復(fù)雜的數(shù)學(xué)知識(shí)就無(wú)法計(jì)算F(90).左邊μ=100,σ=10,X<90右邊μ=0,σ=1,u<-1.0,注意刻度不同2.得分在90到115分之間的概率是多少?

解:我們希望找出下圖左圖陰影部分的面積

=0.9332-0.1587=0.77453.得分為125分或更高的概率是多少?

解:要求P(X≥125),見(jiàn)下圖.

=1-0.9938=0.0062只有0.62%的得分將是125或更高.

圖3.16左邊μ=100,σ=10,X≥125右邊μ=0,σ=1,u≥2.5,注意刻度不同補(bǔ)例2假設(shè)女高血壓患者舒張壓大約集中在100mmHg,標(biāo)準(zhǔn)差是16mmHg,血壓是正態(tài)分布.求:

1.P(X<90)2.P(X>124)3.P(96<X<104)4.求x,使P(X≤x)=0.95解1:使用

特別當(dāng)X=90時(shí),于是查表3有P(X<90)=P(u<-0.625)=F(0.625)≈0.2660解2:當(dāng)X=124時(shí),

P(X>124)=P(Z>1.5)=1-F(1.5)=1-0.9332=0.0668這意味著這些女高血壓患者舒張壓低于126.32mmHg大約有95%.

例3.1查標(biāo)準(zhǔn)正態(tài)分布u界值表,得雙側(cè)u0.05/2=1.96,它表示標(biāo)準(zhǔn)正態(tài)變量的取值小于-1.96的概率等于u值大于1.96的概率等于0.025,反之,u值大于-1.96而小于1.96的概率,即u的絕對(duì)值小于1.96的概率,等于1-2×0.025=0.95,記為:P(u<-1.96)=P(u>1.96)=0.025,P(-1.96<u<1.96)=0.95

以Ф(u)=α=0.05查附表3的橫標(biāo)目和縱標(biāo)目得出的數(shù)值取絕對(duì)值,得雙側(cè)0.10界值u0.10/2=單側(cè)0.05界值u0.05=1.65,它表示:P(u<-1.65)=P(u>1.65)=0.05,P(u>-1.65)=P(u<1.65)=0.95由正態(tài)分布的對(duì)稱性可知,標(biāo)準(zhǔn)正態(tài)曲線下對(duì)稱于0的區(qū)間面積相等:Ф(uα)=1-Ф(-uα),Ф(uα/2)=1-Ф(-uα/2),例3.2若已知健康女大學(xué)生血清總蛋白含量服從正態(tài)分布,均數(shù)μ=73.8g/L,標(biāo)準(zhǔn)差σ=3.9g/L,試估計(jì)168名健康女大學(xué)生血清總蛋白含量在72.0~78.6g/L范圍內(nèi)的人數(shù)。

x1=72.0g/L時(shí),u1=(72.0-73.8)/3.9=-0.46

x2=78.6g/L時(shí),u2=(78.6-73.8)/3.9=1.232.查標(biāo)準(zhǔn)正態(tài)曲線下面積表(附表3):u=-0.46時(shí),在表的左側(cè)找到-0.4,在表的上方找到0.06,二者相交處為0.3228,標(biāo)準(zhǔn)正態(tài)曲線下,橫軸上u值小于-0.46的面積為Ф(-0.46)=P(U<-0.46)=32.28%,即標(biāo)準(zhǔn)正態(tài)變量u值小于-0.46的概率為32.28%;同樣查得u=1.23時(shí),標(biāo)準(zhǔn)正態(tài)曲線下,橫軸上u值小于1.23的面積為Ф(1.23)=P(U<1.23)=0.8907,即u值小于1.23的概率為89.07%。4.統(tǒng)計(jì)推斷和計(jì)算公式的推導(dǎo)中經(jīng)常應(yīng)用到的正態(tài)變量性質(zhì)

(1)相互獨(dú)立的正態(tài)變量的代數(shù)和仍為正態(tài)變量;常數(shù)與正態(tài)變量的乘積仍為正態(tài)變量;正態(tài)變量的線性函數(shù)仍為正態(tài)變量。(2)正態(tài)變量的和(差)的均數(shù)等于正態(tài)變量均數(shù)的和(差);常數(shù)與正態(tài)變量乘積的均數(shù)等于常數(shù)與變量均數(shù)的乘積。(3)常數(shù)與正態(tài)變量乘積的方差等于常數(shù)的平方與正態(tài)變量方差的乘積;相互獨(dú)立的正態(tài)變量的和或差的方差都等于正態(tài)變量方差的和。5.對(duì)數(shù)正態(tài)分布若隨機(jī)變量X不服從正態(tài)分布,但X的對(duì)數(shù)(如lnX、lgX等)服從正態(tài)分布,則稱X服從對(duì)數(shù)正態(tài)分布。

二、頻數(shù)分布表和頻數(shù)分布圖(P29)將觀察值分組,統(tǒng)計(jì)各組段的頻數(shù),按一定的順序排列成表,稱為頻數(shù)分布表(frequencydistributiontable)。將頻數(shù)分布表繪制成圖,稱為頻數(shù)分布圖(frequencygraph)。編制頻數(shù)分布表,繪制頻數(shù)分布圖,都是整理資料的基本方法,可以提示資料的分布特征和分布類型,表達(dá)原始數(shù)據(jù)中所包含各種數(shù)量的分布規(guī)律,且便于發(fā)現(xiàn)特異值。有簡(jiǎn)捷方法計(jì)算平均值和標(biāo)準(zhǔn)差。例3.1測(cè)得148名正常人糖(mmol/L)結(jié)果如下,試求頻數(shù)分布圖。493488483490454435412437334495……………………417500517503534546416520用途:1.揭示資料的分布特征和分布類型。2.便于進(jìn)一步計(jì)算統(tǒng)計(jì)指標(biāo)和分析處理。3.便于發(fā)現(xiàn)某些特大或特小的特異值。圖像:對(duì)稱、左偏、右偏。特征:集中、離散三、集中趨勢(shì)的描述(P30)

1、均數(shù)公式1.2作為樣本平均數(shù)的代數(shù)縮寫式就是:從(1.1)所示總體1,6,4,5,6,3,8,7,可以抽出56種容量為3的樣本,但是只有四個(gè)樣本均數(shù)與總體均數(shù)相同,即:

樣本和X3,X6,X74+3+85X2,X3,X46+4+55X5,X3,X46+4+55X8,X6,X47+3+55要使每一個(gè)樣本均數(shù)是μ的無(wú)偏估計(jì).取決于樣本所含的值以及樣本容量的實(shí)際大?。覀兤谕靠赡芷骄档钠骄蹬c總體參數(shù)μ相等.事實(shí)上,這個(gè)定義就是總體均數(shù)的一個(gè)無(wú)偏估計(jì).如果把56種容量為3的樣本均數(shù)求出來(lái),再求平均數(shù)的平均數(shù),就得到平均值5,也即是總體均數(shù)μ,記得嗎?總體數(shù)量太大以至難以完全進(jìn)行調(diào)查,于是依靠單一樣本去估計(jì)或逼近總體特征2.中位數(shù)M(Median)中位數(shù)M是排序觀察值的中間值.當(dāng)一組數(shù)據(jù)按照從小到大的順序排列起來(lái)時(shí),值的深度d=(n+1)/2,是它相對(duì)于極端值(末端)所在的位置.它不是由全部觀察值綜合計(jì)算出來(lái)的,而是由居中位置的觀察值所決定,因此它不受個(gè)別特小或特大的觀察值的影響,應(yīng)用范圍較廣。例3.410例由傷寒桿菌引起傷寒的患者潛伏期為6,8,11,12,14,15,16,21,29,34天,求中位數(shù)。因n=10,為偶數(shù),居中的兩個(gè)位次為10/2=5,1+10/2=6,這兩個(gè)位次上的觀察值為14和15,(14+15)/2=14.5(天),即為所求的中位數(shù)。

例3.5治愈9名脾虛泄瀉患兒所用天數(shù)分別為2,3,3,3,4,5,6,9,16,求中位數(shù)。因n=9,是奇數(shù),居中的第(9+1)/2=5位次上的觀察值為4,即中位數(shù)為4天。3.百分位數(shù)Px(percentile)一種位置指標(biāo)。將n個(gè)觀察值從小到大依次排列,再把它分成100等份,對(duì)應(yīng)于第x%位次上的數(shù)值即第x百分位數(shù),記為Px。用途:1.可用百分位數(shù)求醫(yī)學(xué)參考值范圍(referenceranges)或個(gè)體容許區(qū)間等統(tǒng)計(jì)量的界限考慮例3.6,平均數(shù)為=16.6,而中位數(shù)=14.5cm.假如說(shuō)X7被錯(cuò)誤地記為160而不是16的話,平均數(shù)會(huì)變成30cm,而中位數(shù)仍然保持=14.5cm.四、離散趨勢(shì)的描述(P33)

例下表給出兩個(gè)金槍魚樣本的重量(kg)度量,怎樣表現(xiàn)樣本之間的差異呢?樣本18.99.611.29.49.910.910.411.09.7兩樣本還具有相同的眾數(shù):9.9樣本之間的差異是以觀測(cè)值的分散或離散來(lái)表示,第一個(gè)樣本比第二個(gè)樣本包含有更多的信息,較之第二個(gè)樣本,第一個(gè)樣本的觀測(cè)值更集中于平均值,因此我們需要描述分散或離差的度量來(lái)反映其差別.樣本23.117.09.95.118.03.810.02.921.2極差(range)一組資料中最大值與最小值之差就稱為極差:極差=Xn-X1總體極差=XN-X1這里Xn和X1稱為樣本極差限度(samplerangelimits).兩樣本的極差都反映出一些分散差別,但是極差是一個(gè)相當(dāng)粗略的估計(jì),因?yàn)樗皇褂昧藘蓚€(gè)數(shù)據(jù)點(diǎn),某些時(shí)候還取決于樣本容量.隨樣本容量的增大,我們會(huì)預(yù)料到最大的和最小的觀測(cè)值會(huì)變得更加極端,即便總體極差不變,但是樣本極差也會(huì)變大.樣本最大值最小值與總體最大最小值不同.所以樣本極差低估了總體極差,屬于有偏估計(jì).公式利用樣本平方和的計(jì)算公式計(jì)算樣本方差的公式是返回例中的樣本2,∑Xi=92,∑Xi2=1318.92,n=9,

所以標(biāo)準(zhǔn)差SD(StandardDeviation)公式更自然的公式是標(biāo)準(zhǔn)差,它是方差的正平方根:再考慮金槍魚的例,樣本1:s1=0.80kg,樣本2:s2=7.06kg,清楚反映了第2個(gè)樣本比第1個(gè)樣本變異較大五、容許區(qū)間與參考值范圍

1.容許區(qū)間(tolerancelimitofpopulation)指的是總體中絕大多數(shù)個(gè)體觀察值可能出現(xiàn)的范圍。嚴(yán)格說(shuō),總體中100(1-α)%個(gè)體某種指標(biāo)的所在范圍,稱為該指標(biāo)的100(1-α)%容許區(qū)間;(1-α)稱為個(gè)體某指標(biāo)值落入該范圍的可信度。1).雙側(cè)(1-α)容許區(qū)間按標(biāo)準(zhǔn)正態(tài)變量值的分布規(guī)律P(-uα/2<u<uα/2)=1-α有從而P(μ-uα/2σ<x<μ+uα/2σ)=1-α,(3.27)

(μ-uα/2σ,μ+uα/2σ),縮寫為μ±uα/2σ(uα/2表示雙側(cè)u界值)2).單側(cè)(1-α)容許區(qū)間按標(biāo)準(zhǔn)正態(tài)變量值的分布規(guī)律:P(u>-uα)=1-α,P(u<uα)=1-α

P(x>μ-uασ)=1-α,P(x<μ+uασ)=1-α(3.29)x>(μ-uασ),或x<(μ+uασ)(3.30)2.醫(yī)學(xué)參考值范圍

常用大樣本資料的和s分別作為μ和σ的估計(jì)值,所計(jì)算的容許區(qū)間常稱為參考值范圍。醫(yī)學(xué)參考值范圍通常是從對(duì)健康人的觀察中取得,故亦稱醫(yī)學(xué)正常值范圍,簡(jiǎn)稱正常值范圍。如95%正常值范圍的含義是指樣本中有95%的個(gè)體其測(cè)定值在所求的范圍之內(nèi)。雙側(cè)95%的界限值為:±1.96s。(3.32)單側(cè)95%的上限值為:+1.645s。(3.33)單側(cè)95%的下限值為:-1.645s。(3.34)例3.13若已知健康女大學(xué)生血清總蛋白含量服從正態(tài)分布,例3.3資料n=100,已算出=73.708g/L,s=3.8759g/L,求健康女大學(xué)生血清總蛋白含量的95%參考值范圍。因血清總蛋白含量不宜過(guò)高或過(guò)低,本例宜用雙側(cè)公式:

±1.96s=73.708±1.96×3.8759=(66.1,81.3)g/L0.012.3262.5760.051.6451.9600.101.2821.645表3-5常用uα界值表α單側(cè)uα雙側(cè)uα2.制定醫(yī)學(xué)參考值范圍的注意事項(xiàng)1)樣本含量;2)結(jié)合專業(yè);3)根據(jù)研究要求和資料的特點(diǎn);3)根據(jù)使用該參考值的目的考慮第七節(jié)離群值的取舍測(cè)量數(shù)據(jù)中有時(shí)會(huì)有個(gè)別過(guò)大或過(guò)小,遠(yuǎn)離均數(shù)的可疑數(shù)值,這種數(shù)值稱為極端值或離群值(outlier)。極端值有兩種可能:可能是測(cè)量值隨機(jī)波動(dòng)的極度表現(xiàn),即極值,它雖然與其余數(shù)據(jù)相差較遠(yuǎn),但仍然是處于統(tǒng)計(jì)上所允許的合理誤差范圍之內(nèi)。極端值也可能是與其余數(shù)據(jù)不屬于同一總體的離群值。如果在測(cè)量數(shù)據(jù)中混有離群值,必然會(huì)歪曲試驗(yàn)結(jié)果,此時(shí)若能將該值舍棄,將使結(jié)果更符合客觀實(shí)際情況。但若將本來(lái)不是離群的測(cè)量值主觀地作為離群值舍棄,雖然得到分散很小、精度很高的結(jié)果,而此結(jié)果實(shí)質(zhì)上是虛假的,并不是客觀情況的真實(shí)反映。所以怎樣正確取舍極端值,是實(shí)踐中經(jīng)常碰到的問(wèn)題。1.計(jì)量資料判斷離群值計(jì)量資料判斷極端值是否離群值,常用±3s法、格拉布斯法、Q檢驗(yàn)法、間距法。⑴.X±3s法X±3s法適用于正態(tài)分布資料,且樣本含量較大(n≥60)。以xj代表極端值,按正態(tài)分布理論,離群值與平均值差的絕對(duì)值大于2的概率為1/20,大于3的概率僅約為1/370。按小概率原理,小概率事件在一次測(cè)量中實(shí)際是不可能發(fā)生的,2與3可認(rèn)為統(tǒng)計(jì)上允許的合理誤差范圍,而超出此范圍的數(shù)據(jù)則為極端值。因此,有人將3作為界值,根據(jù)絕對(duì)值是否大于3作出判斷。也就是說(shuō),可以根據(jù) X-3s~X+3s范圍內(nèi)是否包括xj作出判斷:當(dāng)xj在X-3s~X+3s范圍之外時(shí)可舍棄,在此范圍之內(nèi)時(shí)保留。

⑵.格魯布斯法格拉布斯法(Grubbs)適用于正態(tài)分布資料。xj表示極端值,計(jì)算包括極端值xj在內(nèi)的測(cè)量值與s,總體均數(shù)μ及標(biāo)準(zhǔn)差σ已知或未知時(shí)計(jì)算統(tǒng)計(jì)量T的絕對(duì)值公式分別為

∣T∣=或∣T∣=

(3-38)

按第一類錯(cuò)誤概率α和樣本含量n,查如表3-6所示的格魯布斯Tα,n界值表,與T的絕對(duì)值比較。若∣T∣≤界值Tα,n,則不能判極端值xi為離群值。若∣T∣>Tα,n,則可判xj為離群值,應(yīng)舍去。

⑶.Q檢驗(yàn)法Q檢驗(yàn)法不要求資料服從正態(tài)分布。數(shù)據(jù)從小到大排列為x1,x2,x3,…,xn-1,xn。極差R=xn-x1,最小值x1或最大值xn為極端值時(shí)計(jì)算統(tǒng)計(jì)量Q的公式分別為表3-6檢驗(yàn)正態(tài)分布資料極端值用格拉布斯Tα,n界值表

Q=或Q=

若Q>1/3,則極端值是離群值,應(yīng)舍棄?!纠?.15】研究人工培植人參中M物質(zhì)的含量(μg),76次測(cè)得的結(jié)果為40.0,41.0,41.5,41.6,41.6,41.9,……,42.5,43.5,43.8,44.2,60.2。檢查無(wú)誤,對(duì)于最小值x1=40.0和最大值x76=60.2,找不出原因。在下面條件下,分別判斷是否為離群值。

①若已知M物質(zhì)的含量服從正態(tài)分布,計(jì)算得到X=42.16μg,S=2.150μg;解:若用X±3S法計(jì)算,則可以得到(X-3S,X+3S)=(35.7,48.6)最小值x1=40.0在此范圍內(nèi)不是局外值。最大值x76=60.2在范圍外是離群值,應(yīng)舍棄。若用格魯布斯法計(jì)算,對(duì)于最小值x1=40.0,計(jì)算得到

∣T∣===1.01查表3-6,μ和σ未知時(shí)T0.05,50=2.96,T0.05,60=3.03,|T|<T0.05,76,x1=40.0不是離群值。對(duì)最大值x76=60.2,類似計(jì)算得到∣T|=8.39>T0.05,

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論