定量統(tǒng)計(jì)學(xué)方法小結(jié)_第1頁
定量統(tǒng)計(jì)學(xué)方法小結(jié)_第2頁
定量統(tǒng)計(jì)學(xué)方法小結(jié)_第3頁
定量統(tǒng)計(jì)學(xué)方法小結(jié)_第4頁
定量統(tǒng)計(jì)學(xué)方法小結(jié)_第5頁
已閱讀5頁,還剩50頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、計(jì)量資料分析常用的統(tǒng)計(jì)學(xué)方法小結(jié)第二章、定量資料的統(tǒng)計(jì)描述頻率分布表與頻率分布圖:描述平均水平的統(tǒng)計(jì)指標(biāo)(描述集中趨勢(shì)):算數(shù)均數(shù)、幾何均數(shù)、中位數(shù)與百分位數(shù)、眾數(shù)描述變異程度的統(tǒng)計(jì)指標(biāo)(描述離散趨勢(shì)):極差、四分位數(shù)間距、方差、標(biāo)準(zhǔn)差、變異系數(shù) 描述分布形態(tài)的統(tǒng)計(jì)指標(biāo):偏度系數(shù)、峰度系數(shù)第1節(jié) 頻率分布表與頻率分布圖離散型定量變量和連續(xù)型定量變量的頻率分布離散型定量變量的取值是不連續(xù)的。直接清點(diǎn)各變量值出現(xiàn)的頻數(shù)計(jì)算相應(yīng)的頻率,即為頻率分布表。離散型定量變量的頻率分布圖可用直條圖表達(dá),以各等寬矩形直條的高度表示各組頻率的大小。連續(xù)型定量變量的取值是連續(xù)的。將數(shù)據(jù)適當(dāng)分組,清點(diǎn)各組頻數(shù),并計(jì)算

2、相應(yīng)頻率,即為頻率分布表。連續(xù)型定量變量的頻率分布圖可用直方圖表達(dá),縱坐標(biāo)為頻率密度,即頻率/組距,直方圖面積之和等于1.1、 離散型定量變量的頻率分布 步驟:(1)直接清點(diǎn)各變量值出現(xiàn)的頻數(shù) (2)計(jì)算各組頻率,累計(jì)頻數(shù),累計(jì)頻率2、 連續(xù)型定量變量的頻率分布 步驟:(1) 求極差(range):即最大值與最小值之差,又稱為全距。 (2)決定分組組數(shù)、組距:根據(jù)研究目的和樣本含量n確定分組組數(shù),通常分為1015個(gè)組。組距=極差/組數(shù),為方便計(jì),組距為極差的十分之一, 再略加調(diào)整。(3) 列出組段:第一組段的下限略小于最小值,最后一個(gè)組段上限必須包含最大值。(4) 劃記計(jì)數(shù):用劃記法將所有數(shù)據(jù)

3、歸納到各組段,得到各組段的頻數(shù)。編制頻率表的注意事項(xiàng): (1)分組不宜過粗,也不宜過細(xì)。通常分為1015個(gè)組。 (2)為計(jì)算方便,組段下限一般取較整齊的數(shù)值。確定各組段上下限時(shí),各組段要連續(xù)但不重疊。除去最后一個(gè)組段,其余組段應(yīng)包含下限值,不包含上限值。 (3)第一組段應(yīng)包含最小值,最后一組段應(yīng)包含最大值。3、 頻數(shù)表和頻數(shù)分布圖用途(1) 描述頻數(shù)分布的類型對(duì)稱分布 :若各組段的頻數(shù)以中心位置左右兩側(cè)大體對(duì)稱,就認(rèn)為該資料是對(duì)稱分布 正偏態(tài)分布:右側(cè)的組段數(shù)多于左側(cè)的組段數(shù), 頻數(shù)向右側(cè)拖尾。 偏態(tài)分布 : 負(fù)偏態(tài)分布:左側(cè)的組段數(shù)多于右側(cè)的組段數(shù),頻 數(shù)向左側(cè)拖尾。(2) 描述頻數(shù)分布的特

4、征 隨機(jī)變量的分布具有兩個(gè)特征集中趨勢(shì)與離散趨勢(shì)。 數(shù)據(jù)集中(平均):總體中的個(gè)體具有某些同性質(zhì),這些同性質(zhì)是的數(shù)據(jù)趨向同一數(shù)值,表現(xiàn)為變量值聚集在某個(gè)中心值的周圍,稱為集中趨勢(shì)。 數(shù)據(jù)變異(離散):同一總體中的個(gè)體之間又普遍存在各種差別,使得變量值向平均水平左右離散,稱為離散趨勢(shì)。(3) 便于發(fā)現(xiàn)某些離群值或極端值。(4)便于進(jìn)一步做統(tǒng)計(jì)分析和處理第2節(jié) 描述平均水平的統(tǒng)計(jì)指標(biāo)(描述集中趨勢(shì)的指標(biāo))統(tǒng)計(jì)上使用平均數(shù)(average)這一指標(biāo)體系來描述一組變量值的集中位置或平均水平。常用的平均數(shù)有三種算數(shù)均數(shù)、幾何均數(shù)、中位數(shù)。1、算術(shù)均數(shù):簡稱均數(shù)(mean)可用于反映一組呈對(duì)稱分布的變量值

5、在數(shù)量上的平均水平或者說是集中位置的特征值。常用表示總體均數(shù),用 表示樣本均數(shù)。均數(shù)適用于對(duì)稱分布,特別是正態(tài)分布資料。 直接計(jì)算法(利用原始數(shù)據(jù)): 加權(quán)法(利用頻數(shù)表): k:頻數(shù)表的組段數(shù), f :頻數(shù), X:組中值。2、 幾何均數(shù)(geometric mean G)可用于反映一組原始觀察值不對(duì)稱,但經(jīng)對(duì)數(shù)轉(zhuǎn)換后呈對(duì)稱分布或正態(tài)分布的變量值在數(shù)量上的平均水平。(1)直接法計(jì)算公式:例 有8份血清的抗體效價(jià)分別為1:5, 1:10, 1:20, 1:40, 1:80, 1:160,1:320,1:640,求平均抗體效價(jià)。根據(jù)G的倒數(shù)得到平均抗體效價(jià)為: 1:57(2)加權(quán)法公式(頻率表法)

6、: f:各組頻數(shù)之和,即n3、 中位數(shù)(median M)與百分位數(shù)(percentile Px)是將每個(gè)變量值從小到大排列,位置居于中間的那個(gè)變量值。理論上有一半的觀察值高于中位數(shù),一半的觀察值低于中位數(shù)。中位數(shù)適用于各種分布的變量,特別是偏峰分布的變量。只與位次居中的觀察值有關(guān),不受分布兩端特大或特小值的影響。因此,在末端無確定值資料,不能計(jì)算均數(shù)和幾何均數(shù)的時(shí)候,可計(jì)算中位數(shù)。(1) 直接法計(jì)算公式: n 為奇數(shù)時(shí):n 為偶數(shù)時(shí):(2) 頻率表法:對(duì)于頻率表資料,可以通過百分位數(shù)法近似計(jì)算中位數(shù)。 百分位數(shù):是指將n 個(gè)觀察值從小到大依次排序后,對(duì)于x%位的數(shù)值;表示將原始觀察值分為兩個(gè)

7、部分,理論上有x%的觀察值小于 有(1-x)%的觀察值大于。所以百分位數(shù)P50就是中位數(shù)。fL:為小于L所在組段的累計(jì)頻數(shù)(3) 百分位數(shù)(percentile)直接算法:設(shè)有n個(gè)原始數(shù)據(jù)從小到大排列,第X百分位數(shù)的計(jì)算公式為: 當(dāng) 為帶有小數(shù)位時(shí): Trunc(nx%)的意思是n和x%的結(jié)果取整數(shù) 當(dāng) 為 整數(shù)時(shí): 例 對(duì)某醫(yī)院細(xì)菌性痢疾治愈者的住院天數(shù)統(tǒng)計(jì),120名患者的住院天數(shù)從小到大排列如下,試求第5百分位數(shù)和第99百分位數(shù)?;?者:住院天數(shù):(1)n=120,120乘5%等于6 ,為整數(shù): (2) n=120,120乘99%等于118.8,帶有小數(shù),故取整 trunc(118.8)=

8、 118 頻數(shù)表算法: 當(dāng) 時(shí),公式(2-9)即為中位數(shù)的計(jì)算公式例:試分別求例21頻數(shù)表的第25、第75百分位數(shù) P2565+3x(130x25%19)/1565.90 P7574+3x(130x75%85)/1974.664、眾數(shù)(mode)眾數(shù)是一組觀察值中出現(xiàn)頻率最高的那個(gè)觀察值;若為分組資料,眾數(shù)則是出現(xiàn)頻率最高的那個(gè)組段的組中值。適用于大樣本;較粗糙。正態(tài)分布時(shí): 均數(shù)中位數(shù)眾數(shù)正偏態(tài)分布時(shí):均數(shù) > 中位數(shù) >眾數(shù)負(fù)偏態(tài)分布時(shí):均數(shù) < 中位數(shù) <眾數(shù)第3節(jié) 描述變異程度的統(tǒng)計(jì)指標(biāo)(描述離散程度的指標(biāo))同一總體中的不同個(gè)體之間存在差異稱為變異。不同的觀察指

9、標(biāo),其變異程度不同;即使是同一觀察指標(biāo),在不同總體中,其變異程度也會(huì)有所不同。常用的描述變異程度的指標(biāo)包括極差、四分位數(shù)間距、方差、標(biāo)準(zhǔn)差、變異系數(shù)。1、極差(Range)極差,也稱全距,用R表示:即一組變量值最大值與最小值之差。樣本接近的同類資料相比較,極差越大意味著數(shù)據(jù)越離散,或者說數(shù)據(jù)之間的變異程度越大。極差計(jì)算簡單,但僅利用了兩端點(diǎn)值,穩(wěn)定性差。R=最大值-最小值極差的特點(diǎn):極差只能粗略地說明變量的變動(dòng)范圍。 極差只用最大值和最小值計(jì)算,未考慮到中間的全部信息。 偏態(tài)資料時(shí)更不穩(wěn)定。2、 四分位數(shù)間距(quartile range) 四分位數(shù)間距,用Q表示 P75和P25分別稱為上四分

10、位數(shù)和下四分位數(shù)。四分位數(shù)間距定義為P75和P25之差。 即Q=P75-P25 0% () 25% () 75%() 100%()如上圖所示,理論上,有1/4個(gè)觀察值比P75大,有1/4個(gè)觀察值比P25小, P75和P25之間恰好包括總體中50%的個(gè)體觀察值。Q越大意味著數(shù)據(jù)間變異越大。四分位間距可用于各種分布的資料,特別對(duì)服從偏峰分布的變量。常把中位數(shù)和四分位間距結(jié)合起來描述變量的平均水平和變異程度。與極差相比,四分位間距更穩(wěn)定,但仍未考慮數(shù)據(jù)中的每個(gè)觀察值的離散程度。3、 方差(variance) 方差考慮了所有觀察值的變異程度??傮w方差用表示,定義為總離均差平方和,在總體所有個(gè)體中的平均

11、;樣本方差用表示。方差越大意味著數(shù)據(jù)間變異越大。(1) 平均偏差為利用每一個(gè)觀察值的信息,計(jì)算各觀察值偏離平均值的平均差距(即離均差,他們的和稱為離均差和)。為免于正負(fù)抵消,可將每個(gè)觀察值與均數(shù)的差值的絕對(duì)值相加再取平均,稱為平均偏差(mean difference)。 n(2)離均差平方和(sum of square,SS)為克服平均偏差使用絕對(duì)值不便運(yùn)算的缺點(diǎn),可以將“離均差”平方,即計(jì)算離均差平方和。其計(jì)算公式為: (3) 方差(mean of square,MS) 將離均差平方和取平均,即為方差(variance)。對(duì)于樣本資料,取平均值時(shí)分母用n-1 代替nMS其中n-1稱為自由度(

12、df),在n個(gè)離均差平方項(xiàng)中,只有n-1個(gè)是獨(dú)立的,稱為自由度(degree of freedom,df)其意義是當(dāng)給定時(shí),隨機(jī)變量X“自由”取值的個(gè)數(shù)??偤筒蛔?,自由度就少了一個(gè),所以用n-1任何統(tǒng)計(jì)量的自由度=n-限制條件的個(gè)數(shù)。 總體方差與樣本方差總體方差:樣本方差:4、 標(biāo)準(zhǔn)差(standard deviation,SD) (1) 方差的平方根為標(biāo)準(zhǔn)差,總體標(biāo)準(zhǔn)差用表示,樣本標(biāo)準(zhǔn)差用S表示 ,其度量單位與均數(shù)一致,所以最常用。標(biāo)準(zhǔn)差的公式還可以寫成 :利用頻數(shù)表計(jì)算標(biāo)準(zhǔn)差的公式為:(2) 標(biāo)準(zhǔn)差的意義和用途 說明資料的離散趨勢(shì)(或變異程度),標(biāo)準(zhǔn)差的值越大,說明變異程度越大,均數(shù)的代表

13、性越差 . 標(biāo)準(zhǔn)差與原始數(shù)據(jù)的單位一致,在科技論文報(bào)告中,均數(shù)與標(biāo)準(zhǔn)差經(jīng)常被同時(shí)用來描述資料的集中趨勢(shì)與離散趨勢(shì)。用于計(jì)算變異系數(shù)用于計(jì)算標(biāo)準(zhǔn)誤(見后)結(jié)合均值與正態(tài)分布的規(guī)律,估計(jì)參考值的范圍(見后)。5、 變異系數(shù)(coefficient of variation,CV) 變異系數(shù)(coefficient of variation,CV) 常用于比較度量單位不同或均數(shù)相差懸殊的兩組(或多組)資料的變異程度。 CV的意義是變異程度的大小,相對(duì)于平均水平的百分比。變異系數(shù)沒有單位。變異系數(shù)越大意味著相對(duì)于均數(shù)而言變異程度越大。其中S為樣本標(biāo)準(zhǔn)差, 為樣本均數(shù)。6、 分布形態(tài)對(duì)教學(xué)評(píng)價(jià)的指導(dǎo)意義

14、正態(tài)分布:說明學(xué)生考試成績分布比較正常。正偏態(tài)分布:說明低分段的學(xué)生人數(shù)比較多,可能是試題難度偏高或者是此次考查內(nèi)容學(xué)生掌握情況不好。負(fù)偏態(tài)分布:說明高分段的學(xué)生較多,可能是學(xué)生知識(shí)掌握較好,也可能是試題難度較低。平坡型分布:說明學(xué)生成績差距較大,分布不集中,降低整體成績的是分布在低分段的學(xué)生,所以應(yīng)對(duì)這些學(xué)生進(jìn)行個(gè)別輔導(dǎo)。陡峭型分布:說明學(xué)生成績分布比較集中,要提高學(xué)生成績,需要進(jìn)行集體輔導(dǎo)補(bǔ)課。第5節(jié) 統(tǒng)計(jì)表和統(tǒng)計(jì)圖1、 統(tǒng)計(jì)表 將統(tǒng)計(jì)分析的事物及其指標(biāo)用表的形式表示出來,就是統(tǒng)計(jì)表。結(jié)構(gòu)及要求標(biāo)題:概括表的主要內(nèi)容,包括研究的時(shí)間、地點(diǎn)和研究內(nèi)容,放在表的上方。標(biāo)目:分別用橫標(biāo)目和縱標(biāo)目

15、說明表格每行和每列數(shù)字的意義,注意標(biāo)明指標(biāo)的單位。線條:至少用三條線,表格的頂線和底線將表格與文章的其它部分分隔開來,縱標(biāo)目下橫線將標(biāo)目的文字區(qū)與表格的數(shù)字區(qū)分隔開來。部分表格可再用橫線將合計(jì)分隔開,或用橫線將兩重縱標(biāo)目分割開。其它豎線和斜線一概省去。數(shù)字:用阿拉伯?dāng)?shù)字表示。 無數(shù)字用“”表示,缺失數(shù)字用“¼”表示,數(shù)值為0者記為“0”,不要留空項(xiàng)。數(shù)字按小數(shù)位對(duì)齊。備注:表中數(shù)字區(qū)不要插入文字,也不列備注項(xiàng)。必須說明者標(biāo)“*”號(hào),在表下方說明。例:統(tǒng)計(jì)表由以下幾個(gè)部分組成:標(biāo)題、標(biāo)目、線條、數(shù)字、備注表 某省某工廠 1994、1998年四項(xiàng)檢測(cè)指標(biāo)異常檢出率2、 統(tǒng)計(jì)圖將統(tǒng)計(jì)分析的

16、事物及其指標(biāo)用圖的形式表示出來,就是統(tǒng)計(jì)圖。統(tǒng)計(jì)圖是用點(diǎn)的位置、線段的升降、直條的長短、面積的大小等表達(dá)統(tǒng)計(jì)數(shù)據(jù)的一種形式。繪制統(tǒng)計(jì)圖要根據(jù)資料性質(zhì)和分析目的選擇最合適的圖形。常用于定量的統(tǒng)計(jì)圖包括頻率直方圖、累積頻率分布圖、箱式圖、直條圖。(1)一般統(tǒng)計(jì)圖的制作要素與基本要求 圖號(hào)與標(biāo)題 圖號(hào):用阿拉伯?dāng)?shù)字 標(biāo)題:簡明扼要地概括整個(gè)圖的內(nèi)容 標(biāo)目 橫標(biāo)目(主語、橫軸) 縱標(biāo)目(謂語、縱軸) 尺度單位 圖例 圖域 橫:縱=7:5(2)統(tǒng)計(jì)圖的制作須根據(jù)資料性質(zhì)、分析目的選用適當(dāng)統(tǒng)計(jì)圖,由于統(tǒng)計(jì)圖不能精確顯示數(shù)據(jù)大小,所以經(jīng)常需與統(tǒng)計(jì)表一同使用。一個(gè)圖一般只表達(dá)一個(gè)中心內(nèi)容,表達(dá)一個(gè)主題,即一個(gè)

17、統(tǒng)計(jì)指標(biāo)。繪制圖形應(yīng)注意準(zhǔn)確、美觀,圖線粗細(xì)應(yīng)用適當(dāng),定點(diǎn)準(zhǔn)確,不同事物用不同線條(實(shí)線、虛線、點(diǎn)線)或顏色表示,給人以清晰的印象。(3)統(tǒng)計(jì)圖制作注意事項(xiàng)標(biāo)題:簡明扼要說明資料內(nèi)容、時(shí)間和地點(diǎn),一般位于圖下方中央位置并編號(hào)。圖域:即制圖空間,除圓圖外,一般用直角坐標(biāo)系第一象限表示圖域,或者用長方形框架表示。標(biāo)目:分縱標(biāo)目和橫標(biāo)目,表示縱軸和橫軸數(shù)字刻度的意義,一般有度量衡單位。圖例:對(duì)圖中不同顏色或圖案代表的指標(biāo)注釋。圖例通常放在橫標(biāo)目與標(biāo)題之間,如果圖域部分有較大空間,也可以放在圖域中。(4) 常用統(tǒng)計(jì)圖直方圖:主要用于描述連續(xù)變量的頻率分布。橫坐標(biāo):表示定量變量的組段,縱坐標(biāo)表示各組段變

18、量值所占的頻率密度(頻率/組距)。這時(shí)頻率直方圖總面積為1。圖6 140名正常男子紅細(xì)胞計(jì)數(shù)的直方圖累計(jì)頻率分布圖: 用于描述連續(xù)變量的累計(jì)頻率分布,橫坐標(biāo)為變量組段,縱坐標(biāo)為各組段累計(jì)頻率。 可以從累計(jì)頻率分布圖中看出不同總體間相同變量的頻率分布差別。其中縱坐標(biāo)為0.25/0.50/0.75、時(shí)所對(duì)應(yīng)的橫坐標(biāo)尺度為上四分位數(shù),中四分位數(shù),下四分位數(shù)。還可以看出變量在某指定值以上,或以下,或兩個(gè)指定值之間的觀察對(duì)象所占有觀測(cè)對(duì)象的比例。箱式圖: 描述定量變量的平均水平和變異程度,還可以顯示數(shù)據(jù)中的離群值或極端值。 箱式圖使用了5個(gè)指標(biāo):最小值、下四分位數(shù)、上四分位數(shù)、中位數(shù)、最大值。 上四分位

19、數(shù)(P25)和下四分位數(shù)(P75)構(gòu)成箱體部分,在箱體中標(biāo)出P50位置。 P25和最小值之間、P75和最大值之間分別構(gòu)成箱子的上下兩條觸須。觸須外可以標(biāo)出離群值。最小值中位數(shù)最大值上四分位數(shù)P75下四分位數(shù)P25箱子越長表示數(shù)據(jù)離散程度越大。中間橫線若在箱子中心位置,表示數(shù)據(jù)分布對(duì)稱,中間橫線偏離箱子正中心越遠(yuǎn),表示數(shù)據(jù)分布越偏離中位數(shù)。最小值中位數(shù)最大值箱圖用于比較兩組或多組資料的集中趨勢(shì)和離散趨勢(shì)。直條圖: 可描述離散型定量變量和定性變量的頻率分布。是用等寬直條的高度表示相互獨(dú)立的各項(xiàng)指標(biāo)數(shù)量的大小。包括單式條圖、復(fù)式條圖、分段條圖。單式條圖 圖1 某地區(qū)四個(gè)季度收治病人數(shù)趨勢(shì)圖 線圖 半

20、對(duì)數(shù)線圖:半對(duì)數(shù)線圖(semi-logarithmic linear chart)是線圖的一種特殊形式,適合于表示事物發(fā)展速度(相對(duì)比)。其縱軸為對(duì)數(shù)尺度,橫軸為算術(shù)尺度,使線圖上的數(shù)量關(guān)系變?yōu)閷?duì)數(shù)關(guān)系。小結(jié): 獨(dú)立資料用直條圖; 連續(xù)資料用線圖或直方圖; 構(gòu)成比資料用百分條圖或圓圖; 雙變量資料用散點(diǎn)圖; 地區(qū)性資料用統(tǒng)計(jì)地圖。第4章 常用概率分布第3節(jié) 正態(tài)分布1、 正態(tài)分布的概念1、 基本概念 (1)正態(tài)分布:是自然界最常見的一種分布,其特點(diǎn)是中間頻數(shù)最多,兩邊頻數(shù)逐漸減少且對(duì)稱。 直方圖的各長條面積代表各組頻率,其高度則代表頻率密度(頻率/組距),這張圖稱為頻率密度圖。如果觀察人數(shù)增多

21、,組段不斷細(xì)分,其頂端接近于一條光滑曲線,稱為頻率密度曲線,線下面積恒等于1。 (2)正態(tài)曲線:是一條高峰位于中央,兩側(cè)逐漸下降并完全對(duì)稱,曲線兩端永遠(yuǎn)不與橫軸相交的鐘形曲線。該曲線的函數(shù)表達(dá)式稱為正態(tài)分布密度函數(shù)。 則稱X服從正態(tài)分布,記作,為X的總體均數(shù),為總體方差。 2、正態(tài)概率密度曲線的位置與形狀的特點(diǎn) 曲線關(guān)于 曲線下面積恒為1 決定曲線的形狀,決定曲線在橫軸上的位置。 一定時(shí), 越大,數(shù)據(jù)越分散,曲線越矮胖; 越小,數(shù)據(jù)越集中,曲線越瘦高。 增大,曲線沿橫軸向右移動(dòng),反之曲線向左移動(dòng)。 正態(tài)分布特征要點(diǎn):曲線在均數(shù)處最高曲線以均數(shù)為中心,兩端對(duì)稱為永遠(yuǎn)不與x軸相交的鐘型曲線曲線有兩

22、個(gè)重要參數(shù):均數(shù)位置參數(shù), 標(biāo)準(zhǔn)差形狀(變異度)參數(shù)。正態(tài)曲線下的面積分布有一定規(guī)律正態(tài)分布具有可加性二、正態(tài)曲線下面積的計(jì)算正態(tài)曲線下面積的意義:正態(tài)曲線下一定區(qū)間內(nèi)的面積代表變量值落在該區(qū)間的概率。整個(gè)曲線下的面積為1,代表總概率為1。曲線下面積的求法:定積分法和標(biāo)準(zhǔn)正態(tài)分布法1、 一個(gè)共同的規(guī)律 任何正態(tài)分布,概率密度曲線下面積具有相同規(guī)律:這是由正態(tài)分布性質(zhì)決定的,與均數(shù)和標(biāo)準(zhǔn)差數(shù)值無關(guān)。2、 Z變換與標(biāo)準(zhǔn)正態(tài)分布 對(duì)任意一個(gè)服從正態(tài)分布的隨機(jī)變量,可作如下標(biāo)準(zhǔn)變換,也稱Z變換:經(jīng)此變換得到的變量Z的密度函數(shù)為例:X取值在區(qū)間求X取值在相應(yīng)區(qū)間的概率,要先確定區(qū)間兩端點(diǎn)對(duì)應(yīng)的Z值由 得

23、: 查附表,根據(jù)對(duì)稱性,(1.96,)的曲線下面積也為0.025,所以Z取值在(-1.96,1.96)的概率為1-20.025=0.95,即X取值在為0.095相同方法可計(jì)算出X取值在區(qū)間為0.99由于1.96 和2.58 這兩個(gè)數(shù)具有重要意義,要熟記!另外由標(biāo)準(zhǔn)正態(tài)分布概率密度圖形的對(duì)稱性易知:3、正態(tài)分布中幾個(gè)重要概念(1) 分位點(diǎn)的概念標(biāo)準(zhǔn)正態(tài)分布 N(0,1) 的“上 分位點(diǎn)”通常記成 O(2) 直接查常用標(biāo)準(zhǔn)正態(tài)分布的上分位點(diǎn)O(3) 由的對(duì)稱性易知實(shí)際例題計(jì)算:例2-1 130名健康成年男子脈搏資料的均數(shù)、標(biāo)準(zhǔn)差分別為:71.32與5.80 (次/分);問在正態(tài)分布假定下,脈搏在6

24、575(次/分)之間有多少人?3、 正態(tài)分布的應(yīng)用1、醫(yī)學(xué)參考值范圍的制定(1)重要概念: 醫(yī)學(xué)參考值(reference value)是指包括絕大多數(shù)正常人的人體形態(tài)、機(jī)能和代謝產(chǎn)物等各種生理及生化指標(biāo)常數(shù),也稱正常值。 由于存在個(gè)體差異,生物醫(yī)學(xué)數(shù)據(jù)并非常數(shù)而是在一定范圍內(nèi)波動(dòng),故采用醫(yī)學(xué)參考值范圍作為判定正常和異常的參考標(biāo)準(zhǔn),但不是“金標(biāo)準(zhǔn)”。 正常值范圍(或參考值范圍):醫(yī)學(xué)上常把絕大多數(shù)正常人的某指標(biāo)值的波動(dòng)范圍稱為該指標(biāo)的正常值范圍(或參考值范圍) 。 注意:正常人并非指沒有任何疾病的人,而指同質(zhì)前提下排除了足以影響所測(cè)指標(biāo)的因素的人。(2)正常值范圍的確定步驟1)選定正常人群,并

25、抽取一定的樣本含量(一般大樣本)。2)根據(jù)專業(yè)知識(shí)確定用單側(cè)或雙側(cè)范圍。3)根據(jù)需要確定可信度。 4)按資料特點(diǎn)選定不同方法計(jì)算正常值范圍上、下限。(3) 確定醫(yī)學(xué)參考值范圍的方法有兩種:1)正態(tài)分布法:適于正態(tài)分布資料。對(duì)數(shù)正態(tài)分布的資料取對(duì)數(shù)后可用正態(tài)分 布法估計(jì)。 2) 百分位數(shù)法: 適于偏態(tài)分布資料或分布不明類型的資料。所需樣本含量較大。 雙側(cè)95%醫(yī)學(xué)參考值范圍是(),單側(cè)范圍是以下(人體有害物質(zhì)如血鉛,發(fā)汞等),或以上(如肺活量)。雙側(cè)參考值范圍:單側(cè)參考值范圍:例 : 測(cè)得某年某地名正常人的尿汞值如下表,試制定正常人尿汞值的95%參考值范圍。表2-7 282名正常人尿汞值( )測(cè)

26、量結(jié)果尿 汞 值 頻 數(shù)f累計(jì)頻數(shù) 累計(jì)頻率(%)045 4516.08.06410938.616.09620572.724.03824386.232.02026393.340.01127497.248.0 527998.956.0 228199.664.072.0 1282100.0鑒于正常人的尿汞值為偏態(tài)分布,且過高為異常,故用百分位數(shù)法計(jì)算上側(cè)界值即第95百分位數(shù) 故該地正常人的尿汞值的95%醫(yī)學(xué)參考值范圍為43.6(g /L)。第六章第一節(jié) 假設(shè)檢驗(yàn)一假設(shè)檢驗(yàn)的原理與邏輯思維:1.背景:若兩個(gè)樣本來自同一總體,則它們的差異是由抽樣誤差引起的,則P>0.05,無統(tǒng)計(jì)學(xué)意義。若兩個(gè)樣

27、本分別來自不同的總體,則它們之間的差異則是由本質(zhì)不同引起的,P<0.05,有統(tǒng)計(jì)學(xué)意義。在統(tǒng)計(jì)分析的過程中,我們往往在一開始不知道所選的樣本是不是來自不同的總體,不知道它們之間的差異是由抽樣誤差引起的還是本質(zhì)不同引起的。為了確定它們的來源,我們需要找到證據(jù)來確定它們是來自不同的總體,但是這就像要證明一個(gè)人沒有罵過人一樣,我們不可能從正面來證明他沒罵過人,所以從正面證明樣本來自不同的總體是非常難的,這時(shí)候我們就要從反面來考慮,要證明一個(gè)人罵過人是很容易的,只要有一次被抓住就可以了,同樣,只要證明兩樣本是不是來自同一整體就可以了,我們可以用假設(shè)檢驗(yàn)來實(shí)現(xiàn)這一過程。在假設(shè)檢驗(yàn)中,一般設(shè)立一個(gè)原

28、假設(shè)與一個(gè)備擇假設(shè)。原假設(shè)一般與我們想得到的結(jié)果相反,我們需要利用所掌握的真實(shí)數(shù)據(jù)來找出假設(shè)與現(xiàn)實(shí)的矛盾,從而否定這個(gè)假設(shè),若否定不了,說明證據(jù)不足,無法否定原假設(shè),但不能說明原假設(shè)正確。2.原理:原理為反證法與概率論。概率論主要是指小概率,即如果一件事情發(fā)生的概率很?。ㄒ话阈∮?.05或小于0.01),事件是“不會(huì)發(fā)生的”,這句話在大多數(shù)情況下是正確的,但它也有錯(cuò)誤的時(shí)候,因?yàn)楦怕试傩∫彩强赡馨l(fā)生的。3.思路:先假設(shè)要比較的事物是相同的,再在這種假設(shè)成立的情況下,進(jìn)行邏輯推理。若推理出發(fā)生的事是一個(gè)小概率事件,一般情況下,一次抽樣中是不可能發(fā)生的,則反推到假設(shè)有誤,從而否定假設(shè),若推理出的不

29、是一個(gè)小概率事件,則在一次抽樣中是可能發(fā)生的,則證據(jù)不足,不能拒絕原假設(shè)。需要注意的是這種拒絕或不拒絕是有可能出錯(cuò)的,其出錯(cuò)可能性為0.05或0.01。二假設(shè)檢驗(yàn)的步驟:1.建立假設(shè),確定檢驗(yàn)水準(zhǔn):根據(jù)研究設(shè)計(jì)的類型和資料特點(diǎn)等因素選擇合適的檢驗(yàn)方法,并將需要推斷的問題表述為關(guān)于總體特征的一對(duì)假設(shè):原假設(shè)(零假設(shè))與備擇假設(shè)(對(duì)立假設(shè)),它們是相互對(duì)立的一對(duì)假設(shè)。原假設(shè):記為,一般是假設(shè)我們所得到的兩個(gè)樣本數(shù)據(jù)的總體均數(shù)相等,即。備擇假設(shè):記為,一般是假設(shè)我們所得到的兩個(gè)樣本數(shù)據(jù)的總體均數(shù)不相等,即。如果包括與兩種情形,則為雙側(cè)檢驗(yàn);如果憑借專業(yè)知識(shí)有充分把握可以排除某一側(cè),即包括或,則為單側(cè)

30、檢驗(yàn),例要檢驗(yàn)缺鈣地區(qū)兒童前囟門閉合月齡是否大于一般兒童的前囟門閉合的月齡時(shí),根據(jù)已知的知識(shí),缺鈣地區(qū)兒童前囟門閉合月齡不可能比一般兒童的前囟門閉合的月齡少,此時(shí)為單側(cè)檢驗(yàn)。2.計(jì)算檢驗(yàn)統(tǒng)計(jì)量:根據(jù)樣本數(shù)據(jù)計(jì)算相應(yīng)的統(tǒng)計(jì)量。統(tǒng)計(jì)量是隨機(jī)樣本的函數(shù),其計(jì)算公式不應(yīng)包含任何未知參數(shù)。計(jì)算出統(tǒng)計(jì)量后,再看這個(gè)統(tǒng)計(jì)量的數(shù)據(jù)實(shí)現(xiàn)值屬不屬于小概率事件。3.確定p值,作出推斷:P值是指:在零假設(shè)成立的條件下,出現(xiàn)統(tǒng)計(jì)量目前值及更不利于零假設(shè)數(shù)值的概率。根據(jù)所得到的統(tǒng)計(jì)量,在相應(yīng)表格里查找到統(tǒng)計(jì)量對(duì)應(yīng)的P值,按設(shè)計(jì)實(shí)驗(yàn)時(shí)決定的=0.05或=0.01的水準(zhǔn)決定拒絕或不拒絕。當(dāng)P,拒絕,接受,兩總體均數(shù)有差別,即

31、在成立的條件下,得到現(xiàn)在檢驗(yàn)結(jié)果的概率小于,因?yàn)樾「怕适录豢赡茉谝淮卧囼?yàn)中發(fā)生,所以拒絕,否則不拒絕。三:假設(shè)檢驗(yàn)的兩個(gè)錯(cuò)誤:從上面內(nèi)容可知,無論我們拒絕還是不拒絕,都可能犯錯(cuò)誤,其中,假陽性錯(cuò)誤稱為I型錯(cuò)誤,意義是“實(shí)際無差別,但下了有差別的結(jié)論”,犯這種錯(cuò)誤的概率是(其值等于檢驗(yàn)水準(zhǔn));假陰性錯(cuò)誤稱為II型錯(cuò)誤,意義是“實(shí)際有差別,但下了不拒絕的結(jié)論”,犯這種錯(cuò)誤的概率是(其值未知)。用表格來表示為:檢驗(yàn)水準(zhǔn)又稱顯著性水準(zhǔn),是預(yù)先規(guī)定的概率值,它確定了小概率事件的標(biāo)準(zhǔn)。一般常取0.05或0.01。(方差齊性檢驗(yàn)與正態(tài)性檢驗(yàn)時(shí)常取0.10或0.20)1為檢驗(yàn)效能,意義為當(dāng)兩總體確有差別,按

32、檢驗(yàn)水準(zhǔn)所能發(fā)現(xiàn)這種差別的能力。四:假設(shè)檢驗(yàn)的注意事項(xiàng):1. 檢驗(yàn)假設(shè)是針對(duì)總體,而非樣本。2. 和是互相對(duì)立,不是可有可無,而是缺一不可。3. 無效假設(shè),通常是某兩個(gè)或多個(gè)總體參數(shù)相相同,或總體參數(shù)之差為0,或某資料服從某一分布等等。4. 假設(shè)檢驗(yàn)主要是圍繞。5. 備擇假設(shè)應(yīng)該按照實(shí)際世界所代表的方向來確定,即它通常是被認(rèn)為可能比零假設(shè)更符合數(shù)據(jù)所代表的現(xiàn)實(shí)。6. 的內(nèi)容反映出是單側(cè)檢驗(yàn)還是雙側(cè)檢驗(yàn)。為了時(shí)結(jié)果具有真實(shí)性和可靠性,在建立假設(shè)前,先要根據(jù)分析目的和專業(yè)知識(shí)明確單側(cè)檢驗(yàn)還是雙側(cè)檢驗(yàn),以及檢驗(yàn)水準(zhǔn),不能在假設(shè)檢驗(yàn)結(jié)果得出后再加以選擇。7. 減少I型錯(cuò)誤的主要方法:假設(shè)檢驗(yàn)時(shí)設(shè)定值;

33、減少II型錯(cuò)誤的主要方法:提高檢驗(yàn)效能;提高檢驗(yàn)效能的最有效方法:增加樣本量;可以通過實(shí)驗(yàn)設(shè)計(jì)來選擇合適的樣本量。減少(增加)I型錯(cuò)誤,將會(huì)增加(減少)II型錯(cuò)誤。8. 假設(shè)檢驗(yàn)的結(jié)論是根據(jù)P值大小作出的,不是百分之百的正確。拒絕,可能產(chǎn)生I型錯(cuò)誤;不拒絕,可能產(chǎn)生II型錯(cuò)誤。另外,是否拒絕不僅決定于被研究事物有無本質(zhì)差異,還決定于抽樣誤差大小、檢驗(yàn)水準(zhǔn)a的高低以及單側(cè)、雙側(cè)檢驗(yàn)。因此,當(dāng)P與接近時(shí),下結(jié)論要慎重,不能絕對(duì)化。第二節(jié) t檢驗(yàn)一 t檢驗(yàn)的應(yīng)用條件:以t分布為基礎(chǔ)的檢驗(yàn)稱為t檢驗(yàn),分為單樣本資料的t檢驗(yàn)、配對(duì)設(shè)計(jì)資料的t檢驗(yàn)和兩獨(dú)立樣本資料的t檢驗(yàn)。其應(yīng)用條件是:1. 隨機(jī)樣本,兩

34、組劑量資料小樣本比較。2. 各觀察值間相互獨(dú)立,不互相影響。3. 來自正態(tài)分布總體。4. 均數(shù)比較時(shí),要求兩總體方差相等(方差齊性)。二 單樣本資料的t檢驗(yàn):1. 方法:將樣本均數(shù)與總體均數(shù)比較,其分析目的是推斷樣本所代表的未知總體均數(shù)與已知總體均數(shù)有無差別。2. 過程:原假設(shè)為:=,備擇假設(shè)為:。統(tǒng)計(jì)量為:t=,是樣本均數(shù),是樣本均數(shù)的標(biāo)準(zhǔn)誤。在成立時(shí),統(tǒng)計(jì)量t服從自由度為v=n-1的t分布。3. 注意事項(xiàng):其適用樣本均數(shù)與已知總體均數(shù)的比較,其比較目的是檢驗(yàn)樣本均數(shù)所代表的總體均數(shù)是否與已知總體均數(shù)有差別。已知總體均數(shù)一般為標(biāo)準(zhǔn)值、理論值或經(jīng)大量觀察得到的較穩(wěn)定的指標(biāo)值。應(yīng)用條件是總體標(biāo)準(zhǔn)

35、差未知的小樣本資料,且服從正態(tài)分布。4. 實(shí)例:據(jù)大量調(diào)查知,健康成年男子脈搏的均數(shù)為72次/分,某醫(yī)生在山區(qū)隨機(jī)調(diào)查了25名健康成年男子,其脈搏均數(shù)為74.2次/分,標(biāo)準(zhǔn)差為6.5次/分,能否認(rèn)為該山區(qū)成年男子的脈搏高于一般人群? (1)建立檢驗(yàn)假設(shè)及確定檢驗(yàn)水準(zhǔn): :=,山區(qū)成年男子平均脈搏數(shù)與一般人群相等。 :>,山區(qū)成年男子平均脈搏數(shù)高于一般人群 屬于單側(cè)檢驗(yàn),=0.05。 (2)計(jì)算統(tǒng)計(jì)量: n=25,=74.2次/分,s=6.5次/分,=72.0次/分。將其代入公式,得到t=1.692,已知v=n-1=25-1=24. (3)確定P值,作出推斷: 由t界值表=1.711,=1

36、.318,得0.10>P>0.05。 按=0.05水準(zhǔn)不拒絕,尚不能認(rèn)為該山區(qū)健康成年男子的脈搏均數(shù)高于一般健康成年男子的脈搏均數(shù)。三 配對(duì)設(shè)計(jì)資料的t檢驗(yàn)1. 配對(duì)設(shè)計(jì)是將受試對(duì)象按某些重要特征相近的原則配成對(duì)子,每對(duì)中的兩個(gè)個(gè)體隨機(jī)地給予兩種處理。它能夠很好地控制非實(shí)驗(yàn)因素對(duì)結(jié)果的影響。在醫(yī)學(xué)科學(xué)研究中的配對(duì)設(shè)計(jì)主要適用于以下情況:異體配對(duì)設(shè)計(jì)(包括同源配對(duì)設(shè)計(jì)和條件相近者配對(duì)設(shè)計(jì))和自身配對(duì)設(shè)計(jì)。2. 配對(duì)設(shè)計(jì)的三種方式: 兩個(gè)同質(zhì)受試對(duì)象分別接受兩種處理,如把同一窩出生 的、同性別和體重相近的動(dòng)物配成一對(duì),或把同性別、年齡相近及病情相同的病人配成一對(duì)。 同一受試對(duì)象或同一標(biāo)

37、本的兩部分,隨機(jī)分配接受兩種不同處理。 將同一受試對(duì)象處理(實(shí)驗(yàn)或治療)前后的結(jié)果進(jìn)行比較。3. 原理:假設(shè)兩種處理因素的作用相同,則兩因素結(jié)果差值的總體均數(shù)為0,則用兩樣本差值的均數(shù)與0進(jìn)行比較。用假設(shè)檢驗(yàn)的原理進(jìn)行判斷。4. 方法:即差數(shù)的總體均數(shù)為0 即差數(shù)的總體均數(shù)不為0當(dāng)成立時(shí),統(tǒng)計(jì)量為:t=,v=n-1 為差值的均數(shù),為差值的樣本標(biāo)準(zhǔn)差,n是對(duì)子數(shù)。同樣,給定一個(gè)小概率作為檢驗(yàn)水準(zhǔn),如果與t值相應(yīng)的P值小于給定的,拒絕,否則,不拒絕。5. 實(shí)例:為研究飲食中缺乏維生素E對(duì)肝中維生素A含量的影響,將同種屬的大白鼠按性別,年齡、體重相近配成8對(duì),并將每對(duì)中的兩只大白鼠隨機(jī)分到正常飼料組

38、和維生素E缺乏組,然后定期將大白鼠殺死,測(cè)得其肝中維生素A的含量如下表1。問不同飼料組的大白鼠肝中維生素A含量有無差別? (1) 建立檢驗(yàn)假設(shè),確定檢驗(yàn)水準(zhǔn):=0,不同飼料組的大白鼠肝中含量無差別。:0,不同飼料組的大白鼠肝中含量有差別。.05。(2) 選定檢驗(yàn)方法,計(jì)算檢驗(yàn)統(tǒng)計(jì)量n=8,=6.81,=8.0867,=6.81/8=0.851(mol/g)=0.572(mol/g)=4.208(3) 確定P值,作出推斷結(jié)論 v=n-1=7,查界值表,得=4.029,=4.785,得0.005>P>0.002,按=0.05水準(zhǔn),拒絕,接受,差異有統(tǒng)計(jì)學(xué)意義??烧J(rèn)為不同飼料的大白鼠肝中

39、含量有差別,正常飼料的較高。四 兩獨(dú)立樣本資料的t檢驗(yàn)1. 兩獨(dú)立樣本資料的t檢驗(yàn)是將受試對(duì)象隨機(jī)分配成兩個(gè)處理組,每一組接受一種處理,從而獲得兩組資料,它們代表兩個(gè)總體的兩個(gè)獨(dú)立樣本,據(jù)此推斷它們的總體均數(shù)是否相等。兩樣本含量可以相等也可以不相等,但在總例數(shù)不變的條件下,當(dāng)兩樣本含量相等時(shí),統(tǒng)計(jì)檢驗(yàn)的效率最高。2. 應(yīng)用條件:兩總體分布為正態(tài)分布,且方差齊 。若方差不齊,則用檢驗(yàn)。3. 兩樣本所屬總體方差相等(方差齊):方法:將兩個(gè)正態(tài)分布總體分別記為N()和N(),假設(shè)檢驗(yàn)為:=,即兩樣本所屬的兩個(gè)總體均數(shù)相等:,即兩樣本所屬的兩個(gè)總體均數(shù)不相等:t=,v=其中,是利用兩樣本聯(lián)合估計(jì)的方差

40、:若與t值相應(yīng)的P值小于給定的,拒絕,否則,不拒絕。實(shí)例:測(cè)得14名慢性支氣管炎患者與11名健康人的尿中17酮類固醇(mol/24h)排出量如下,試比較兩組人的尿中17酮類固醇的排出量有無差別。患者:10.05 18.75 18.99 15.94 13.96 17.67 20.51 17.22 14.69 15.10 9.42 8.21 7.24 24.60健康人:17.95 30.46 10.88 22.38 12.89 23.01 13.89 19.40 15.83 26.72 17.29l 建立檢驗(yàn)假設(shè),確定檢驗(yàn)水準(zhǔn) :=,即患者與健康人尿中17酮類固醇的排出量相同:,即患者與健康人的尿

41、中17酮類固醇的排出量不同.05l 計(jì)算統(tǒng)計(jì)量=14,=212.35,=3549.0919=11,=210.70,=4397.6486=15.17(mol/24h)=19.15(mol/24h)=29.9993,=2.2068,t=1.8035,v=23l 確定P值,作出推斷結(jié)論 查t界值表,推斷出0.10>P>0.05,按=0.05水準(zhǔn),不拒絕,差異無統(tǒng)計(jì)學(xué)意義。尚不能認(rèn)為慢性支氣管炎病人與健康人的尿中17酮類固醇的排出量不同。4. 兩樣本所屬總體方差不等(Satterthwaite近似法) 方法:對(duì)自由度進(jìn)行校正:檢驗(yàn)的公式:=, v= 兩正態(tài)總體分別記為N()和N(),檢驗(yàn)假

42、設(shè)如前。作為統(tǒng)計(jì)量。給定一個(gè)小概率作為檢驗(yàn)水準(zhǔn),如果與t值相應(yīng)的P值小于給定的,拒絕,否則,不拒絕。 實(shí)例:為了探討血清SIL-2R含量對(duì)白血病的診斷意義,隨機(jī)抽取正常對(duì)照11人和白血病患者13人,測(cè)得血清SIL-2R含量如下。比較兩組人群血清SIL-2R含量是否不同。白血病組:630.21 602.13 589.27 638.17 592.30 690.11 869.23 723.33 653.26 523.17 516.33 613.37 638.39對(duì)照組:179.21 180.22 183.30 160.17 187.23 185.26 165.31 185.21 178.33 191

43、.36 181.32l :=,即兩組人群血清SIL-2R含量相同:,即兩組人群血清SIL-2R含量不同。.05l =13,=210.70,=90.41=11,=179.72,=9.28l 查t界值表,得出P<0.001,按=0.05水準(zhǔn),拒絕,接受,差異有統(tǒng)計(jì)學(xué)意義,認(rèn)為兩組血清SIL-2R含量不同,白血病組高于對(duì)照組。五 兩獨(dú)立樣本資料的方差齊性檢驗(yàn)1.常用F檢驗(yàn),其計(jì)算公式為F=,=-1,=-1F值是兩個(gè)樣本方差之比,如僅是抽樣誤差的影響,它一般不會(huì)離1太遠(yuǎn),F(xiàn)分布就是反映此概率的分布。求得F值后,查表F界值表(方差齊性檢驗(yàn)用),得P值,按所取檢驗(yàn)水準(zhǔn)作出推斷結(jié)論。2.方法:設(shè)有兩個(gè)

44、隨機(jī)樣本分別獨(dú)立地取自兩個(gè)正態(tài)整體,判斷其總體方差和是否相等,可以做如下齊性檢驗(yàn):=,即兩獨(dú)立樣本資料的總體方差相等:,即兩獨(dú)立樣本資料的總體方差不相等F=,=-1,=-1給定一個(gè)小概率作為檢驗(yàn)水準(zhǔn),如果與F值相應(yīng)的P值小于給定的,拒絕,否則,不拒絕。3.實(shí)例:兩組小白鼠分別飼以高蛋白和低蛋白飼料,4周后記錄小白鼠體重增加量(g)如表5-3所示,問兩組動(dòng)物體重增加量的均數(shù)是否相等? 先進(jìn)行方差齊性檢驗(yàn) :=,即兩種飼料喂養(yǎng)后小白鼠體重增加量的總體方差相同:,即兩種飼料喂養(yǎng)后小白鼠體重增加量的總體方差不同.05=12,=45.75, =17.659=13,=36.538, =3.269=,F(xiàn)=5

45、.402,=11,=12,查表得3.34,推出P<0.05,差別有統(tǒng)計(jì)學(xué)意義,按=0.05水準(zhǔn),拒絕,接受,認(rèn)為兩組體重增加量的總體方差不等,不不可直接用兩獨(dú)立樣本均數(shù)t 檢驗(yàn) 。應(yīng)采用近似t檢驗(yàn)(),或采用數(shù)據(jù)變換,或采用非參數(shù)檢驗(yàn)。六補(bǔ)充:u檢驗(yàn)根據(jù)數(shù)理統(tǒng)計(jì)的中心極限定理,不論變量X的分布是否服從正態(tài)分布,當(dāng)隨機(jī)抽樣的樣本例數(shù)足夠大,樣本均數(shù)服從正態(tài)分布N(,),=為均數(shù)標(biāo)準(zhǔn)誤。標(biāo)準(zhǔn)正態(tài)變量為u=,1.單樣本U檢驗(yàn):U=(n較大時(shí)) U=()與=1.96,=2.58進(jìn)行比較 2.兩大樣本均數(shù)的比較 U=,與=1.96,=2.58進(jìn)行比較第七章 方差分析基礎(chǔ)目錄:一、方差分析的基本內(nèi)容

46、 P2二、完全隨機(jī)設(shè)計(jì)的方差分析總變異與自由度的分解 P3三、完全隨機(jī)設(shè)計(jì)資料方差分析 P4四、隨機(jī)區(qū)組設(shè)計(jì)的方差分析總變異與自由度的分解 P6五、隨機(jī)區(qū)組設(shè)計(jì)的方差分析 P7六、析因設(shè)計(jì)離均差平方和與自由度的分解 P9七、析因設(shè)計(jì) P10八、多個(gè)樣本均數(shù)的兩兩比較 P119、 方差齊性檢驗(yàn) P1310、 數(shù)據(jù)變換 P14十一、小結(jié) P15第七章 方差分析基礎(chǔ)一、方差分析的基本內(nèi)容1.基本思想:1.1根據(jù)資料的設(shè)計(jì)類型,即變異的不同來源,將全部觀察值總的離均差平方和 及自由度分解為兩個(gè)或多個(gè)部分,包括: 隨機(jī)誤差造成的變異 其他因素造成的變異(一個(gè)因素一種變異)1.2通過比較不同來源變異的均方

47、(MS),借助F分布做出統(tǒng)計(jì)推斷,從而了解 該因素對(duì)觀察指標(biāo)有無影響。1.3其他因素導(dǎo)致的變異“=”或“”隨機(jī)誤差造成的變異1.4推斷多個(gè)總體均數(shù)是否有差別(也可用于兩個(gè))2. 方差分析前提條件:2.1各樣本相互獨(dú)立隨機(jī)樣本2.2均來自正態(tài)分布總體:正態(tài)性檢驗(yàn)D、W或 2 檢驗(yàn)2.3各樣本總體方差相等,即方差齊性:Bartlett 2,Levene檢驗(yàn)3.選擇方差分析時(shí)需考慮的6個(gè)方面的問題:3.1看反應(yīng)變量是單變量、 雙變量還是多變量:單變量3.2看資料屬于3種資料類型(計(jì)量、 計(jì)數(shù)及等級(jí)資料)中的哪一種:計(jì)量資料3.3看單樣本、 兩樣本或多樣本:三組及以上樣本選擇方差分析,兩樣本也可用3.

48、4看影響因素是單因素還是多因素: 完全隨機(jī)設(shè)計(jì)資料是單因素,隨機(jī)區(qū)組設(shè)計(jì)資料是雙因素3.5看是否是配對(duì)或配伍設(shè)計(jì):是,隨機(jī)區(qū)組設(shè)計(jì)3.6看是否滿足檢驗(yàn)方法所需的前提條件, 必要時(shí)可進(jìn)行變量變換: 對(duì)數(shù)變換、平方根變換、平方根反正弦變換、倒數(shù)變換4. 統(tǒng)計(jì)分析的步驟: 正態(tài)性檢驗(yàn)(第四章,若滿足,繼續(xù)下列操作;不滿足,進(jìn)行數(shù)據(jù)變換) 方差齊性檢驗(yàn)(本章Bartlett 2,Levene檢驗(yàn),若滿足,繼續(xù)下列操作;不滿足,進(jìn)行軼和檢驗(yàn)或.) 分析數(shù)據(jù)類型,選擇方差分析類型(單因素:完全隨機(jī)設(shè)計(jì);雙因素:隨機(jī) 區(qū)組設(shè)計(jì);析因分析:2個(gè)或2個(gè)以上因素,分析之間有無相互作用) 多個(gè)樣本均數(shù)的兩兩比較2、 完全隨機(jī)設(shè)計(jì)的方差分析總變異與自由度的分解1. 總變異:為全部測(cè)量值大小不同,既包含了處理的效應(yīng),又包含了隨機(jī)誤差。 可以用離均差平方和(SS,即各測(cè)量值Xij與總均數(shù)差值的平方和, 記為SS總)和總均方

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論