衛(wèi)生統(tǒng)計學課件_第1頁
衛(wèi)生統(tǒng)計學課件_第2頁
衛(wèi)生統(tǒng)計學課件_第3頁
衛(wèi)生統(tǒng)計學課件_第4頁
衛(wèi)生統(tǒng)計學課件_第5頁
已閱讀5頁,還剩604頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1

第一章緒論一、什么是衛(wèi)生統(tǒng)計學二、統(tǒng)計工作的步驟

三、統(tǒng)計資料的類型

四、統(tǒng)計學的幾個基本概念

2一、什么是衛(wèi)生統(tǒng)計學世界是物質(zhì)的、物質(zhì)是運動、運動是有規(guī)律的,對規(guī)律的認識依靠一定的工具和手段----哲學和辯證法。科技的迅速發(fā)展,信息的大量產(chǎn)生。數(shù)據(jù)作為信息的主要載體廣泛存在。面對紛亂復雜的數(shù)據(jù)世界我們該如何去認識,這就要借助統(tǒng)計學這個工具,在混沌中發(fā)現(xiàn)規(guī)律。統(tǒng)計學就是研究數(shù)據(jù)及其存在規(guī)律的科學。3工作生活中常見的統(tǒng)計學問題如何判斷藥物的療效?(假設檢驗)明天是否下雨?體育彩票能否中獎?(概率論)子女為什么象父母,其強度有多大?(相關與回歸)美國的民意測驗是如何進行的?(設計,抽樣)中國的市場調(diào)查的可信性有多大?(現(xiàn)場調(diào)查)

統(tǒng)計學是對令人困惑費解的數(shù)字問題做出設想的藝術。4二、統(tǒng)計工作的步驟第一步設計:制定計劃,對整個過程進行安排。是整個工作的關鍵。如何進行設計?舉例。背景-目的-方法-內(nèi)容-經(jīng)費預算第二步收集資料(現(xiàn)場調(diào)查):根據(jù)計劃取得可靠、完整的資料。收集資料的方法有三種:統(tǒng)計報表、日常性工作、專題調(diào)查。注重資料的真實性。第三步整理資料:原始資料的整理、清理、核實、查對,使其條理化、系統(tǒng)化便于計算和分析。可借助于計算機(常用軟件:EPI、SPSS、SAS)。第四步分析資料(統(tǒng)計分析):統(tǒng)計學的關鍵所在。運用統(tǒng)計學的基本原理和方法,分析計算有關的指標和數(shù)據(jù),揭示事物內(nèi)部的規(guī)律。

5

三、統(tǒng)計資料的類型

有三種類型的資料:

計量資料,計數(shù)資料,等級資料

基本概念:變量及變量值,研究者對每個觀察單位的某項特征進行觀察和測量,這種特征稱為變量,變量的測得值叫變量值(也叫觀察值),稱為資料。按變量值的性質(zhì)可將資料分為定量資料和定性資料。61.計量資料定義:通過度量衡的方法,測量每一個觀察單位的某項研究指標的量的大小,得到的一系列數(shù)據(jù)資料。例如:體重與身高特點:有度量衡單位多為連續(xù)性資料(通過測量得到)7定義:將全體觀測單位按照某種性質(zhì)或特征分組,然后再分別清點各組觀察單位的個數(shù)。特點:沒有度量衡單位

多為間斷性資料

(通過枚舉或記數(shù)得來)

2.計數(shù)資料

8定義:介于計量資料和計數(shù)資料之間的一種資料,通過半定量方法測量得到。特點:每一個觀察單位沒有確切值各組之間有性質(zhì)上的差別或程度上的不同。3.等級資料

9四、統(tǒng)計學中的幾個基本概念1、變異2、總體與樣本3、抽樣方法4、誤差5、頻率與概率

101.變異

同質(zhì)事物個體間的差異。來源于一些未加控制或無法控制的甚至不明原因的因素。是統(tǒng)計學存在的基礎,從本質(zhì)上說,統(tǒng)計學就是研究變異的科學。

11總體:根據(jù)研究目的確定的研究對象的全體。當研究有具體而明確的指標時,總體是指該項變量植的全體。樣本:總體中有代表性的一部分。觀察單位(個體):最基本的研究單位分為有限總體和無限總體。由于調(diào)查總體的不可能性、巨大性和沒必要。對其中的一部分對象進行調(diào)查----樣本(總體與樣本的關系。舉例。)樣本選擇的原則--??樣本量(samplesize)2.總體與樣本(populationandsample)抽樣方法選擇樣本的方法:概率抽樣和非概率抽樣

等概率抽樣非等概率抽樣簡單隨機抽樣系統(tǒng)抽樣分層抽樣整群抽樣133.誤差

誤差:統(tǒng)計上所說的誤差泛指測量值與真值之差,樣本指標與總體指標之差。主要有以下二種:系統(tǒng)誤差和隨機誤差(隨機測量誤差,抽樣誤差)。

(1)系統(tǒng)誤差:指數(shù)據(jù)搜集和測量過程中由于儀器不準確、標準不規(guī)范等原因,造成觀察結(jié)果呈傾向性的偏大或偏小,這種誤差稱為系統(tǒng)誤差。

特點:具有累加性

(2)隨機誤差:由于一些非人為的偶然因素使得結(jié)果或大或小,是不確定、不可預知的。

特點:隨測量次數(shù)參加而減小。14

在消除了系統(tǒng)誤差的前提下,由于非人為的偶然因素,對于同一樣本多次測定結(jié)果不完全一樣,結(jié)果有時偏大有時偏小,沒有傾向性,這種誤差叫隨機測量誤差。特點:沒有傾向性,多次測量計算平均值可以減小甚至消除隨機測量誤差。A、隨機測量誤差15

由于抽樣原因造成的樣本指標與總體指標之間的差別。

特點:有抽樣抽樣誤差就不可避免。統(tǒng)計上可以計算并在一定范圍內(nèi)控制抽樣誤差。B、抽樣誤差16(1)改進抽樣方法,增加樣本的代表性。樣本量n相等的情況下:整群抽樣>單純隨機抽樣>系統(tǒng)抽樣>分層抽樣(2)增加樣本量n(3)選擇變異程度較小的研究指標減少抽樣誤差的方法:174.概率(probability)

拋一枚硬幣,是否國徽面一定向上?明天的股市升還是降?某患者痊愈的可能性?這些問題的答案都不可能絕對。概念:描述隨機事件發(fā)生的可能性大小的數(shù)值,常用P來表示。大?。篜的大小在0和1之間,越接近于1,說明發(fā)生的可能性越大,越接近于0,說明發(fā)生的可能性越小。統(tǒng)計學中的許多結(jié)論是帶有概率性質(zhì)的,通常一個事件的發(fā)生小于5%,就叫小概率事件。頻率:在實際工作中,當觀察單位的例數(shù)足夠多時,可以用頻率來代替概率。頻率是概率的估計值。小結(jié)習題:1.統(tǒng)計工作的基本步驟是什么?2.統(tǒng)計資料分為幾類?特點?判斷:大學教授的年收入,歐洲的國家數(shù),血紅蛋白含量,患病人數(shù)等。3.什么是總體?什么是樣本?4.基本的概率抽樣方法是什么?5.什么是抽樣誤差?如何減小?能否避免?

統(tǒng)計描述是統(tǒng)計分析的最基本內(nèi)容,也是統(tǒng)計分析的重要一部分.在統(tǒng)計學中經(jīng)常用統(tǒng)計指標和統(tǒng)計圖表來揭示和反映原始資料的數(shù)量特征和信息.第一節(jié)頻數(shù)分布表與頻數(shù)分布圖頻數(shù)分布表用于反映各變量(觀察單位的某種特征)值及其相應頻數(shù)之間關系的一類表格,我們稱之為頻數(shù)表.這里頻數(shù)指對一種變量在多個觀察單位中進行多次觀察,其中某一變量值重復出現(xiàn)的次數(shù).不同的資料類型編制頻數(shù)表難易程度不同,其中計數(shù)資料和等級資料比較簡單,而計量資料相對較繁雜些.計量資料頻數(shù)表的編制

一般情況下,樣本含量小于30的統(tǒng)計資料無須編制頻數(shù)表,但對于大樣本含量的資料,編制頻數(shù)表有利于進一步的統(tǒng)計分析、且頻數(shù)表本身也具有統(tǒng)計描述的作用.

編制頻數(shù)表的步驟編制頻數(shù)表步驟流程圖舉例說明計量資料頻數(shù)表的編制過程

步驟如下:R=160.8-129.4=31.4。組段數(shù)=10;組距=R/10=3.14≈30(cm);按要求確定每一組段上下限。分組統(tǒng)計每一組段的頻數(shù),編制頻數(shù)表。

計量資料頻數(shù)分布表

計量資料頻數(shù)分布圖

頻數(shù)分布表的用途揭示數(shù)值變量頻數(shù)分布的類型和特征作為陳述資料的形式便于發(fā)現(xiàn)一些特大或特小的可疑值便于進一步的統(tǒng)計分析計量資料頻數(shù)分布的類型和特征

3、百分位數(shù)(percentile)與中位數(shù)(median)百分位數(shù)是一種位置指標,用符號Px表示常用的百分位數(shù)有P2.5,P5,P25,P50,P75,P95,P97.5等,其中P25,P50,P75又稱為四分位數(shù)。百分位數(shù)常用于描述一組觀察值在某百分位置上的水平,多個百分位結(jié)合使用,可更全面地描述資料的分布特征。

中位數(shù)是一個特定的百分位數(shù)即P50,用符號M表示。把一組觀察值按從小到大(或從大到?。┑拇涡蚺帕校恢镁佑谧钪醒氲哪莻€數(shù)據(jù)就是中位數(shù)。中位數(shù)也是反映頻數(shù)分布集中位置的統(tǒng)計指標,但它只由所處中間位置的部分變量值計算所得,不能反映所有數(shù)值的變化,故中位數(shù)缺乏敏感性。中位數(shù)理論上可用于任何分布類型的資料,但實踐中常用于偏態(tài)分布資料和分布兩端無確定值的資料。其計算方法有直接法和頻數(shù)表法兩種。

(2)頻數(shù)表法當觀察例數(shù)n較多時,可先編制頻數(shù)表,再通過頻數(shù)表計算中位數(shù)。公式為:M=Lm+i/fm(n×50%-ΣfL)例現(xiàn)有187例某種沙門氏菌食物中毒病人的潛伏期(小時),見表第(1)欄、第(2)欄,求中位數(shù)。

M=12+12/70(187×50%-35

)=22.0(小時)

中位數(shù)M即第50百分位數(shù)P50,故百分位數(shù)Px的計算類似M,計算公式為:Px=Lx+i/fx(n×x%-ΣfL)

例求上表資料的P2.5,P25,P75。本例n=187,因187×2.5%=4.675,187×25%=46.75,187×75%=140.25,結(jié)合表第(3)欄累計頻數(shù)可知P2.5,P25,P75分別在“0--”,“12--”,“24--”組段內(nèi),P2.5=0+12/35(187×2.5%-0

)=1.6(小時)P25=12+12/70(187×25%-35

)=14.0(小時)P75=24+12/40(187×75%-105

)=34.6(小時)第三節(jié)離散趨勢的描述指標

1、全距(range)計算公式為:

R=Xmax–Xmin

全距越大,說明變量的變異程度越大。其度量單位與原變量單位相同。2、四分位數(shù)間距(quartile)是一組數(shù)值變量值中上四分數(shù)(即P75,記為Qu)與下四分數(shù)(即P25,記為QL)之差,用符號QR表示計算公式為:QR=P75-P25

它一般和中位數(shù)一起描述偏態(tài)分布資料的分布特征。3、方差(variance)離均差平方和的算術平均數(shù),即為方差??傮w方差用符號σ2(σ讀seigama)表示,樣本方差用S2表示。計算公式分別為:正態(tài)分布的通俗概念:如果把數(shù)值變量資料編制頻數(shù)表后繪制頻數(shù)分布圖(又稱直方圖,它用矩形面積表示數(shù)值變量資料的頻數(shù)分布,每條直條的寬表示組距,直條的面積表示頻數(shù)(或頻率)大小,直條與直條之間不留空隙。),若頻數(shù)分布呈現(xiàn)中間為最多,左右兩側(cè)基本對稱,越靠近中間頻數(shù)越多,離中間越遠,頻數(shù)越少,形成一個中間頻數(shù)多,兩側(cè)頻數(shù)逐漸減少且基本對稱的分布,那我們一般認為該數(shù)值變量服從或近似服從數(shù)學上的正態(tài)分布。正態(tài)分布的概念下面我們以第一節(jié)某地13歲女孩118人的身高(cm)資料,來說明身高變量服從正態(tài)分布。頻數(shù)分布表:頻數(shù)分布圖一(又稱直方圖)

從頻數(shù)表及頻數(shù)分布圖上可得知:

該數(shù)值變量資料頻數(shù)分布呈現(xiàn)中間頻數(shù)多,左右兩側(cè)基本對稱的分布。所以我們通俗地認為該資料服從正態(tài)分布。

頻數(shù)分布圖二頻數(shù)分布圖三正態(tài)分布圖四正態(tài)分布的數(shù)理統(tǒng)計學概念:

如果隨機變量(X)的概率密度函數(shù)為:

-∞<x<+∞則該隨機變量服從正態(tài)分布。式中σ為總體標準差;μ為總體均數(shù);π為圓周率,即3.14159···;e為自然對數(shù)的底,即2.71828···。若某一隨機變量的概率密度函數(shù)(頻率曲線方程)為上式,則稱該變量X服從參數(shù)為μ和σ的正態(tài)分布,記為:X~N(μ,σ2)。函數(shù)方程中μ為位置參數(shù),σ為形狀參數(shù)。在σ不變的情況下,函數(shù)曲線形狀不變,若μ變大時,曲線位置向右移;若μ變小時,曲線位置向左移。在μ不變的情況下,函數(shù)曲線位置不變,若σ變大時,曲線形狀變的越來越“胖”和“矮”;若σ變小時,曲線形狀變的越來越“瘦”和“高”。若某一隨機變量X,其總體均數(shù)μ=0,總體標準差σ=1,即X~N(0,1),則稱變量X服從標準正態(tài)分布。習慣把服從標準正態(tài)分布的變量用字母U或Z表示,此時,我們把U或Z稱為標準正態(tài)變量。標準正態(tài)分布是正態(tài)分布中的一個典型分布,數(shù)理統(tǒng)計上證明:對一服從正態(tài)分布的隨機變量(X),若進行特定的變量變換,可將任何一服從正態(tài)分布的隨機變量(X)轉(zhuǎn)變成服從標準正態(tài)分布的隨機變量(U或Z),這種變量變換過程稱為變量的標準化,也稱為U或Z變換。式中符號意義如前述。正態(tài)分布的特征及其面積規(guī)律正態(tài)分布曲線位于橫軸上方,呈鐘形。正態(tài)分布曲線以均數(shù)所在處最高,且以均數(shù)為中心左右對稱。正態(tài)分布曲線由兩個參數(shù)決定,即總體均數(shù)μ和總體標準差σ。在σ不變的情況下,函數(shù)曲線形狀不變,若μ變大時,曲線位置向右移;若變小時,曲線位置向左移,故稱μ為位置參數(shù)。在μ不變的情況下,函數(shù)曲線位置不變,若σ變大時,曲線形狀變的越來越“胖”和“矮”;若σ變小時,曲線形狀變的越來越“瘦”和“高”,故稱σ為形態(tài)參數(shù)或變異度參數(shù)。N(μ,0.52)、N(μ,12)、N(μ,22)

N(μ1,σ2)、N(μ2,σ2)

正態(tài)曲線下面積分布有一定的規(guī)律性。對于服從正態(tài)分布的隨機變量(X),隨機變量值出現(xiàn)在某一區(qū)間(x1,x2)的概率與正態(tài)分布概率密度曲線與橫軸在該區(qū)間所圍成的區(qū)域的面積大小相對應(相等)。正態(tài)分布概率密度曲線與橫軸圍成的區(qū)域的總面積恒等于1。正態(tài)分布概率密度曲線下橫軸上一定區(qū)間的面積可應用數(shù)學知識求出。在實際應用中,由于所有正態(tài)分布都可以通過變量變換轉(zhuǎn)變?yōu)闃藴收龖B(tài)分,為了省去積分計算不同正態(tài)分布曲線下橫軸上一定區(qū)間面積的繁瑣過程,所以數(shù)理統(tǒng)計學家專門編制了標準正態(tài)分布曲線下橫軸上一定區(qū)間面積分布表,供查表求標準正態(tài)分布曲線下一定區(qū)間面積。標準正態(tài)分布標準正態(tài)分布曲線下對稱于0的區(qū)間,面積相等,各占50%,即左右各為0.5。標準正態(tài)分布曲線的縱坐標與面積關系圖即縱坐標從-∞移到u所對應區(qū)域的面積為上圖紅色區(qū)域面積的大小,這樣一個區(qū)域的面積我們用Ф(u)表示,可通過查標準正態(tài)分布曲線面積分布表得到Ф(u)的大小。

u值查表所對應的面積是區(qū)間(-∞,u)所對應的面積,即Ф(u)。若u=-1.96,那么Ф(-1.96)則表示從-∞移到-1.96所對應區(qū)域的面積,通過查標準正態(tài)分布曲線面積分布表得到Ф(-1.96)=0.025。u

u

指單側(cè)U界值,也稱隨機變量U的上側(cè)α分位數(shù)。其意義為:從到+∞這一側(cè)的面積為α,也即在隨機變量U的所有取值中,有100α的值比大,有100(1-α)的值比小。

u/2當有一隨機變量X服從正態(tài)分布N(μ,σ2),若要求某一區(qū)間(x1,x2)的曲線與橫軸圍成的面積時,無須運用積分學知識求從x1移到x2所對應區(qū)域的面積大小來得到這一區(qū)間所對應的面積。此時,我們可以通過變量變換,把X轉(zhuǎn)變成u,即把一般的正態(tài)分布變換為標準正態(tài)分布,通過求標準正態(tài)分布區(qū)間(u1,u2)所對應的面積來間接求得一般正態(tài)分布區(qū)間(x1,x2)所對應的面積。當隨機變量的參數(shù)μ和σ未知時,若來自該總體的樣本含量n很大時,可分別用樣本均數(shù)和樣本標準差作為μ和σ的估計值來計算u值。正態(tài)分布的應用

參數(shù)估計

第一節(jié)抽樣誤差與標準誤第二節(jié)t分布第三節(jié)總體均數(shù)的估計第一節(jié)抽樣誤差與標準誤

一、抽樣研究醫(yī)學科學研究多為抽樣研究(samplingstudy),即從研究總體中隨機抽取一定數(shù)量觀察單位作為樣本進行研究,通過樣本的研究結(jié)果來推論總體。一個好的抽樣研究可用盡量少的人力、物力、經(jīng)費和時間獲得需要的、符合一定科學要求的結(jié)果,并可減少非抽樣誤差。

二、抽樣誤差樣本統(tǒng)計量(也稱估計值)與總體參數(shù)(也稱待估值)之間存在差異,這種差異稱抽樣誤差。其有兩個特點:1、它們互不相同,有些樣本統(tǒng)計量與總體參數(shù)之間差異大,有些差異??;有些為正值,有些為負值。2、這些差異雖然客觀存在,但卻未知,因為總體參數(shù)的具體值我們往往未知。樣本統(tǒng)計量的標準差稱為標準誤(standarderror)。

三、均數(shù)的分布及其標準誤

數(shù)理統(tǒng)計的中心極限定理和大數(shù)定理表明:①從正態(tài)總體N(μ,σ2)中隨機抽取含量為n的樣本,其樣本均數(shù)服從正態(tài)分布;即使從偏態(tài)總體中隨機抽樣,當n足夠大時(如n>30),樣本均數(shù)也近似正態(tài)分布;②從均數(shù)為μ,標準差為σ的總體中隨機抽取含量為n的樣本,則樣本均數(shù)的均數(shù)也為μ,樣本均數(shù)的標準差為。例4-1某地隨機抽取20歲健康男性20名,求得其血中葡萄糖樣本均數(shù)=39.5mg/100ml,標準差S=0.69mg/100ml,問其抽樣誤差是多少?本例:s=0.69mg/100ml,n=20,將其代入式(4-2),得

即該研究的抽樣誤差為0.15mg/100ml。第三節(jié)總體均數(shù)的估計1.點(值)估計

用樣本統(tǒng)計量直接作為總體參數(shù)的估計值。2.區(qū)間估計即按預先給定的概率(1-α)估計包含未知總體參數(shù)的范圍。該范圍通常稱為參數(shù)的可信區(qū)間(confidenceinternal,CI)。可信區(qū)間的確切含義是指:有1-α(如95%)的可能可信區(qū)間包含總體參數(shù)。可信區(qū)間通常由兩個數(shù)值即可信限(confidencelimit)構成。其中較小值稱為下限(lowerlimit),較大的值稱為上限(upperlimit)。假設檢驗一、假設檢驗的基本思想二、假設檢驗的基本步驟三、t檢驗四、u檢驗五、兩類錯誤

六、假設檢驗注意事項

一、基本思想假設檢驗(testofhypothesis)亦稱顯著性檢驗(testofstatisticalsignificance),就是先對總體的參數(shù)或分布作出某種假設,如兩個總體均數(shù)相等,總體服從正態(tài)分布或兩總體分布相同等,然后用適當?shù)慕y(tǒng)計方法計算某檢驗統(tǒng)計量,根據(jù)檢驗統(tǒng)計量的大小來推斷此假設應當被接受或拒絕,它是統(tǒng)計推斷的另一重要方面。二、假設檢驗的基本步驟1.建立檢驗假設、確定檢驗水準檢驗假設有兩種:一種是無效假設(nullhypothesis),符號為H0,即假設均數(shù)來自同一總體,它們的總體均數(shù)相同,樣本均數(shù)間無本質(zhì)的不同,差別僅由抽樣誤差引起;另一種是備擇假設(alternativehypothesis),符號為H1,即假設均數(shù)來自不同總體,它們之間的差別存在本質(zhì)的不同,并非僅由抽樣誤差引起。檢驗水準(sizeofatest)亦稱顯著性水準(significancelevel),符號為α,即判斷由H0所規(guī)定的總體中隨機抽樣,抽到與現(xiàn)有樣本具有相同的檢驗統(tǒng)計量的樣本及其更極端情況的樣本是否小概率事件的界值。2.選擇和計算統(tǒng)計量根據(jù)統(tǒng)計推斷的目的和資料的性質(zhì)、特點選擇合適的檢驗統(tǒng)計量。3.確定P值P值是指由H0所規(guī)定的總體中隨機抽樣,獲得等于及大于(或等于及小于)現(xiàn)有樣本所獲得的檢驗統(tǒng)計量值的概率。求得檢驗統(tǒng)計量后,一般可通過特別的統(tǒng)計表直接查出P值。例如t值可查t界值表,u值可查u界值表

4.判斷結(jié)果當P≤α時,結(jié)論為按所取檢驗水準拒絕H0,接受H1,兩均數(shù)差別有統(tǒng)計意義(或稱顯著性意義),即它們之間存在著本質(zhì)的不同(數(shù)學上認為小概率事件在一次實驗中不可能發(fā)生。P≤α,即被推斷為小概率事件);當P>α時,結(jié)論為按所取檢驗水準尚不能拒絕H0,可認為兩均數(shù)差別無統(tǒng)計意義,即它們之間無本質(zhì)的不同,差別僅由抽樣誤差引起。三、t檢驗概念:選用檢驗統(tǒng)計量t進行假設檢驗的方法,稱t檢驗。用途:①樣本均數(shù)與總體均數(shù)的比較②配對計量資料的比較③兩樣本均數(shù)的比較應用條件:①正態(tài)分布:當樣本含量較小時,要求樣本來自正態(tài)總體。②方差齊性:兩樣本均數(shù)比較時,要求兩總體方差相等。㈠、樣本均數(shù)與總體均數(shù)的比較

目的:推斷樣本所代表的未知總體均數(shù)μ與已知總體均數(shù)μ0是否相等。例1.1經(jīng)產(chǎn)科大量調(diào)查得知某市嬰兒體重均數(shù)為3.20kg,今隨機測得25名難產(chǎn)兒平均出生體重為3.42kg,標準差為0.42kg。問該市難產(chǎn)兒出生體重與一般嬰兒是否不同?㈡配對資料的比較

配對類型:①配在對子的同對受試對象分別給予兩種不同處理;②同一受試對象分別接受兩種不同處理;③同一受試對象處理前后的比較。目的:推斷某種處理有無作用或兩種處理效應有無差別,即推斷樣本差值的總體均數(shù)μd是否等于零。t檢驗條件不能滿足時的處理方法:①變量變換(對數(shù)變換、倒數(shù)變換、平方根變換、平方根反三角函數(shù)變換等)②

t’檢驗③非參數(shù)檢驗(秩和檢驗、Ridit分析等)四、u檢驗概念:選用檢驗統(tǒng)計量u值進行假設檢驗的方法稱u檢驗。用途:同t檢驗。應用條件:①大樣本(如n>30);②小樣本,σ已知且樣本來自正態(tài)總體。檢驗目的:同t檢驗。

五、兩類錯誤

假設檢驗是以樣本推斷總體,作出的結(jié)論是概率性的,并非絕對正確,可能發(fā)生兩類錯誤。如果無效假設H0為真,拒絕了它,稱第一類錯誤或Ⅰ型錯誤(typeⅠerror);如果無效假設H0不真,不拒絕它,稱第二類錯誤或Ⅱ型錯誤(typeⅡerror)。四組不同攝入方式病人的血漿游離嗎啡水平靜脈點滴肌肉注射皮下注射口服1212912101678715688911109714均數(shù)101389.5請大家用學過的統(tǒng)計學方法進行解決方差分析102主要內(nèi)容第一節(jié)方差分析的基本概念第二節(jié)完全隨機設計的單因素方差分析第三節(jié)隨機區(qū)組設計的兩因素方差分析第四節(jié)多個樣本均數(shù)間的多重比較方差分析104第一節(jié)方差分析的基本概念什么是方差?離均差離均差平方和SS方差(

2S2

)均方(MS)標準差:S自由度:

關系:MS=SS/

一、方差分析的幾個名詞方差分析105二、方差分析的含義

方差是描述變異的一種指標,方差分析是一種假設檢驗的方法。方差分析也就是對變異的分析。是對總變異進行分析??纯傋儺愂怯赡男┎糠纸M成的,這些部分間的關系如何。三、方差分析的基本思想根據(jù)變異的來源,將全部觀察值總的離均差平方和及自由度分解為兩個或多個部分,除隨機誤差外,其余每個部分的變異可由某些特定因素的作用加以解釋。通過比較不同來源變異的方差(也叫均方MS),借助F分布做出統(tǒng)計推斷,從而判斷某因素對觀察指標有無影響。

第二節(jié)成組設計的多個樣本均數(shù)比較

(單因素方差分析)

某社區(qū)隨機抽取糖尿病患者、IGT異常和正常人共30人進行載蛋白測定,結(jié)果如下,問3種人的載蛋白有無差別?各種符號的意義:Xij第i個組的第j個觀察值I=1,2,…kJ=1,2,…nini第i個處理組的例數(shù)∑ni=NXi=X=

列舉存在的變異及意義1、全部的30個實驗數(shù)據(jù)之間大小不等,存在變異(總變異)。2、各個組間存在變異(組間變異):反映處理因素之間的作用,以及隨機誤差。3、各個組內(nèi)個體間數(shù)據(jù)不同:反映了觀察值的隨機誤差(組內(nèi)變異)。各種變異的表示方法SS總

總MS總SS組內(nèi)

組內(nèi)MS組內(nèi)SS組間

組間MS組間三者之間的關系:SS總=SS組內(nèi)+SS組間

總=

組內(nèi)+組間計算:變異來源SS

MSFP組間2384.032組內(nèi)5497.84總7811.8729方差分析114四、方差分析的步驟1.建立假設

H0

1=2=

3=….H1

:??總體均數(shù)不全相等2.確定顯著性水平,用

表示,常取0.05。3.計算統(tǒng)計量F(見下張

)4.求概率值P:5.做出推論:統(tǒng)計學結(jié)論和專業(yè)結(jié)論。方差分析115F=MS組間/MS組內(nèi)

公式是在H0成立的條件下進行的,即MS組間與MS組內(nèi)差別應該很小,F(xiàn)值應該接近于1。那么要接近到什么程度呢?(Fisher計算出了F的分布規(guī)律,即標準的F値)

通過這個公式計算出統(tǒng)計量F,查表求出對應的P值,與

進行比較,以確定是否為小概率事件。計算統(tǒng)計量F

完整書寫方差檢驗的過程1.建立假設

H0

:3種載脂蛋白的總體均數(shù)相等

1=2=

3H1

:3種載脂蛋白的總體均數(shù)不全相等2.確定顯著性水平,用

表示,常取0.05。3.計算統(tǒng)計量F:F=MS組間/MS組內(nèi)=5.854

組間=組數(shù)-1=3-1=2

組內(nèi)=N-組數(shù)=30-3=274.計算概率值P:F0.05(2,27)=3.35

F=5.854,P是F所對應的概率値。P與

的大小進行比較,??5.做出推論:統(tǒng)計學結(jié)論??專業(yè)結(jié)論??方差分析119應用條件

各樣本是相互獨立的隨機樣本

各樣本來自正態(tài)分布

各樣本方差相等,即方差齊。方差分析120方差分析(二)方差分析121

給小白鼠喂A、B、C三種不同的營養(yǎng)素,了解不同營養(yǎng)素的增重效果?,F(xiàn)將體重基本相同的24只小白鼠隨機分為3組,每組8只。3周后測量增重結(jié)果,結(jié)果如下表,問3種不同營養(yǎng)素喂養(yǎng)后,體重增加有無差別?第三節(jié)隨機區(qū)組設計的兩因素方差分析

(RandomizedblockdesignTwo-wayANOVA)

將全部受試對象按某種或某些特性分為若干個區(qū)組,使每個區(qū)組內(nèi)的觀察對象與研究對象的水平盡可能相近,減少了個體間差異對研究結(jié)果的影響,比成組設計更容易檢驗出處理因素間的差別,提高了研究效率。(復習配對資料)是配對資料的擴充。方差分析124例題給小白鼠分別喂A、B、C三種不同的營養(yǎng)素,了解不同營養(yǎng)素的增重效果。以窩別作為區(qū)組特征,以消除遺傳因素對體重增長的影響?,F(xiàn)將同系同體重的24只小白鼠分為8個區(qū)組,每組3只。3周后測量增重結(jié)果,結(jié)果如下表,問3種不同營養(yǎng)素喂養(yǎng)后所增體重有無差別?方差分析126分析變異總變異:24只小白鼠的增重不等,與均數(shù)之間存在差別。處理間變異:喂不同營養(yǎng)素的小白鼠增重不同。區(qū)組間變異:不同窩別的小白鼠增重不同誤差:各組內(nèi)小白鼠增重不同SS總

總SS誤差

誤差MS誤差SS處理

處理MS處理變異之間的關系:SS總=SS處理+SS區(qū)組+SS誤差

總=

處理+區(qū)組+

誤差變異間的關系SS區(qū)組

區(qū)組MS區(qū)組方差分析128

統(tǒng)計量F的計算F1=MS處理/MS誤差

F2=MS區(qū)組/MS誤差自由度:

處理=組數(shù)-1=3-1=2

區(qū)組=區(qū)數(shù)-1=8-1=7

誤差=(組數(shù)-1)(區(qū)數(shù)-1)=14

變異來源SS

MSFP總2861.8423處理間144.922區(qū)組間2376.38誤差14方差分析結(jié)果

完整書寫方差分析的過程1.建立假設:

H0

:3種營養(yǎng)素喂養(yǎng)的小白鼠體重增量相等

1=2=

3H1

:3種營養(yǎng)素喂養(yǎng)的小白鼠體重增量不全相等2.確定顯著性水平,用

表示,常取0.05。3.計算統(tǒng)計量F:

F=MS處理/MS誤差4.求概率值P:5.做出推論:完整書寫方差分析的過程1.建立假設:

H0

:8窩小白鼠體重增量相等

1=2=

3。。。

H1

:8窩小白鼠體重增量不全相等2.確定顯著性水平,常取0.05。3.計算統(tǒng)計量F:

F2=MS區(qū)組/MS誤差4.求概率值P:5.做出推論:存在問題方差分析結(jié)果提供了各組均數(shù)間差別的總的信息,但尚未提供各組間差別的具體信息,即尚未指出哪幾個組均數(shù)間的差別具有或不具有統(tǒng)計學意義。為了得到這方面的信息,可進行多個樣本間的兩兩比較。第四節(jié)多個樣本均數(shù)間的多重比較

(Multiplecomparison)能否用t檢驗或μ檢驗?每次犯第一類錯誤的概率0.05,10次都犯的概率不是0.05,而是:??

遠大于0.05,不是小概率事件,會把本來無差別的兩個總體均數(shù)判斷為有差別。方差分析135一、最小有意義t(LSD-t)檢驗意義:檢驗K組中某一對或幾對在專業(yè)上有特殊意義的均數(shù)(dAB=XA-XB)的總體水平是否為0。公式:自由度:用誤差的自由度方差分析136例題:

對前面例題中,用糖尿病患者、正常人的載蛋白與IGT異常者進行比較。1.建立假設:H0

:糖尿病患者與IGT的載脂蛋白相等

1=2H1

:糖尿病患者與IGT的載脂蛋白不等

1

22.確定顯著性水平,用

表示,取0.05。3.計算統(tǒng)計量t:105.45,102.39,203.62,11,94.求概率值P:5.做出推論:方差分析137二、SNK-q檢驗也叫Student-Newman-Keuls(SNK-q)檢驗用于多個樣本均數(shù)間每兩個均數(shù)的比較。計算統(tǒng)計量q的公式:方差分析138計算q值1.將各組樣本均數(shù)從大到小排列組次123均數(shù)122.8105.45102.39組別正常人糖尿病IGT異常

2.根據(jù)公式計算q值,查q界值表(a,

)3.計算組間跨度a:中間涵蓋的均數(shù)個數(shù)4.誤差自由度

方差分析139變量變換目的:將原始資料變換成適用于檢驗方法的資料方法:對數(shù)變換、平方根變換、倒數(shù)變換等。統(tǒng)計描述和推斷的基本內(nèi)容

統(tǒng)計描述統(tǒng)計推斷應用計量資料頻數(shù)分布集中趨勢離散趨勢統(tǒng)計圖表抽樣誤差、標準誤

t,u檢驗

秩和檢驗方差分析正常值范圍可信區(qū)間計數(shù)資料相對數(shù)及其標準化統(tǒng)計圖表二項分Poisson分布u

2檢驗秩和檢驗

疾病統(tǒng)計人口統(tǒng)計壽命表

相關與回歸rb統(tǒng)計圖表t檢驗方差分析

2024/3/16141主要內(nèi)容第一節(jié)、相對數(shù)第二節(jié)、應用相對數(shù)的注意事項第三節(jié)、標準化法第四節(jié)、動態(tài)數(shù)列及其分析指標2024/3/16142閱讀要點種類分子、分母構成比與率的區(qū)別注意事項為什么引入相對數(shù)?第一節(jié)、相對數(shù)(Relativenumber)相對數(shù)的概念:

兩個有聯(lián)系的(數(shù)值)指標之比。相對數(shù)的種類:

比:1.構成比

2.相對比3.率重要區(qū)別:分子、分母1.構成比(Proportion)概念:也叫構成指標,是指一事物內(nèi)部某一組成部分的觀察單位數(shù)與該事物各組成部分的觀察單位總數(shù)之比,用以說明某一事物內(nèi)部各組成部分所占的比重或分布。計算公式:某一組成部分的觀察單位數(shù)/同一事物各組成部分的觀察單位總數(shù)100%例如:疾病和死亡順位等注意:各組成部分的構成比之和為100%某一部分比重增大,則其它部分相應減少。

學歷

人數(shù)構成比(%)本科990.14大專12481.74中專5352172.65無學歷1876325.47合計73667100.00某地1992年護理人員學歷構成2.相對比(Ratio)概念:是指兩個有聯(lián)系的指標之比,是對比的最簡單形式。計算公式:A、B兩個指標,A/B(或100%)若干倍或百分之幾。例如:性別比、CV、相對危險度(RR)等。注意:1.A、B可以相同,也可以不同

2.A、B可以是絕對數(shù),也可以是相對數(shù)3.率(Rate)概念:是指某種現(xiàn)象在一定條件下,實際發(fā)生的觀察單位數(shù)與可能發(fā)生該現(xiàn)象的總觀察單位數(shù)之比,用以說明某種現(xiàn)象發(fā)生的頻率大小或強度。計算公式:發(fā)生某種現(xiàn)象的觀察單位數(shù)可能發(fā)生某種現(xiàn)象的觀察單位數(shù)

100%(1000‰…)例如:發(fā)病率、患病率、死亡率、病死率等。注意:不受其它指標的影響;各率相互獨立,其之和不為1(如是則屬巧合);2024/3/16148病名平均人口數(shù)人數(shù)死亡率(1/10萬)高血壓1726654023.2冠心病172665116.4惱卒中172665253146.5風心病1726653822.0某地某年四種常見心血管病死亡率第二節(jié)、應用相對數(shù)時的注意事項

分析時不能以(構成)比代(替)率

計算相對數(shù)時分母不能太小

總率(平均率)的計算:不能直接相加求和

資料的可比性:兩個率要在相同的條件下進行.研究方法相同、研究對象同質(zhì)、觀察時間相等、地區(qū)、民族、年齡、性別等。

假設檢驗:遵循隨機抽樣原則,進行差別的顯著性檢驗.

例1.在進行某遺傳病的研究中,一研究人員發(fā)現(xiàn),在該病患者中,有90%是第一個孩子,由此可見該病的遺傳與出生順序有關---更容易遺傳給第一個孩子。這個結(jié)論是否正確,為什么?

例2.該縣為提高醫(yī)療衛(wèi)生的服務水平,對衛(wèi)生人員進行培訓,但是,經(jīng)過1年培訓,與培訓前相比,該縣孕產(chǎn)婦的死亡率卻升,統(tǒng)計學檢驗差異有顯著性。如何解釋?培訓前:2000孕產(chǎn)婦100/10萬(死亡2人)培訓后:2001孕產(chǎn)婦149/10萬(死亡3人)2024/3/16151第三節(jié)、標準化法什么是標準化?為什么要進行標(準)化?

內(nèi)部結(jié)構不同的兩組對象進行比較:例如A組病情嚴重者多,B組病情較輕的多,但要比較兩種不同方法的治療效果,結(jié)果會怎樣?

治療分組舊療法新療法治療人數(shù)痊愈人數(shù)治愈率%治療人數(shù)痊愈人數(shù)治愈率%成人組1005050.020010050.0兒童組2002010.01001010.0合計3007023.330011036.7兩種療法療效比較從表中的合計看,新療法的治愈率比舊療法高。但分別觀察成人組和兒童組的治愈率相同。其合計的差別之所以大,是由于兩種療法的選擇的樣本人群年齡構成不同。新療法成人所占比例高,而成人的治愈率高,造成總率較舊法高。要正確比較兩法的療效,需按照統(tǒng)一標準進行校正,然后進行比較。標準化的方法:按照統(tǒng)一標準進行校正,然后進行比較.標準化的原因:當兩組資料進行比較時,如果其內(nèi)部不同小組率有明顯差別,而且各小組內(nèi)部構成也明顯不同,直接比較不合理,需要進行標準化后再進行比較。標準化法(Standardizationmethod)標準化率的計算

(常用于人口年齡構成的標準化)1.選擇標準:任意一組、兩組之和、有代表性的人口2.計算標準化率p'

:直接法:

已知標準組年齡別人口數(shù)時:p'=

Nipi/N

已知標準組年齡別人口構成時:p'=

(Ni/N)pi

間接法:p'=P

r/nipi=P

SMR年齡組

標準組

被標化組人口數(shù)

死亡數(shù)

死亡率

人口數(shù)

死亡數(shù)死亡率1N1

R1

P1

n1

r1

p1

2N2

R2

P2

n2

r2

p2

3N3

R3

P3

n3

r3

p3

i

Ni

Ri

Pi

niri

pi

k

Nk

RkPk

nk

rk

pk

合計

NRPnrp計算標準化率的符號2024/3/16157例題計算表6.4,6.6,6.7,6.8計算結(jié)果有何不同?不同的標準會出現(xiàn)不同的標化率在相同的標準下,具有可比性2024/3/16158

治療分組標準治療人數(shù)舊療法新療法

原治預率%預期治預人數(shù)原治預率%預期治預人數(shù)成人組10050.05050.050兒童組20010.02010.020合計30023.37036.770新舊兩種療法的標準化治預率實際的率標準化率1.哪個能反映實際情況?2.標準化率的作用?3.實際率與標化率的比較:甲,乙兩個國家,2000年的心血管病死亡率12/10萬,年齡構成標化后,甲國的死亡率20/10萬,乙國的9/10萬,請問以下那種正確:

甲國的實際死亡率比乙國高

乙國的實際死亡率比甲國高

甲國的年齡較乙國輕

乙國的年齡較甲國輕2024/3/16160注意事項1.標準不同得到的標化值不同2.內(nèi)部各小組比較時,可不標化3.標化后的數(shù)值不再反映實際水平。第四節(jié)動態(tài)數(shù)列(自學)概念:按照一定的時間順序,將某事物的統(tǒng)計指標依次排列起來,以便于觀察和比較該事物在時間上的發(fā)展變化趨勢。常用指標:1.絕對增長量:說明事物在一定時期內(nèi)所增長的絕對數(shù)量(累計增長量、逐年增長量)。2.定基比發(fā)展速度:統(tǒng)一某個時間的指標作基數(shù),其它各時間的指標與之相比3.環(huán)比發(fā)展速度:以前一個時間的指標作基數(shù),相鄰的后一個指標與之相比。小結(jié)構成比相對比率標準化:標準化法的目的是消除混雜因素對結(jié)果的影響重點和難點:以比代率和標準化問題主要內(nèi)容二項分布的概念定義,概率,均數(shù)與標準差,圖形樣本率的均數(shù)和標準差二項分布的應用一、二項分布定義任意一次試驗中,只有事件A發(fā)生和不發(fā)生兩種結(jié)果,發(fā)生的概率分別是:

和1-

若在相同的條件下,進行n次獨立重復試驗,用X表示這n次試驗中事件A發(fā)生的次數(shù),那么X服從二項分布,記做XB(n,),也叫Bernolli分布。二、二項分布的概率假設小白鼠接受一定劑量的毒物時,其死亡概率是80%。對每只小白鼠來說,其死亡事件A發(fā)生的概率是0.8,生存事件A的發(fā)生概率是0.2。試驗用3只小白鼠,請列舉可能出現(xiàn)的試驗結(jié)果及發(fā)生的概率。例題那么事件A(死亡)發(fā)生的次數(shù)X(1,2,3….n)的概率P:各種符號的意義XB(n,):隨機變量X服從以n,為參數(shù)的二項分布。三、二項分布的均數(shù)與標準差通過總體中的取樣過程理解均數(shù)與標準差XB(n,):X的均數(shù)

X=

n

X的方差

X2=n(1-)X的標準差:四、二項分布的圖形圖形特點:兩個軸意義,對稱、偏態(tài)、與正態(tài)分布的關系決定圖形的兩個參數(shù):n,

五、樣本率的均數(shù)和標準差樣本率的總體均數(shù)

p:樣本率的總體標準差

p:樣本率的標準差(標準誤)Sp:二項分布的應用:統(tǒng)計推斷總體率區(qū)間估計樣本率與總體率的比較兩樣本率的比較六、總體率區(qū)間估計查表法正態(tài)分布法

公式:p

μ

Sp

七、樣本率與總體率的比較例題:新生兒染色體異常率為0.01,隨機抽取某地400名新生兒,發(fā)現(xiàn)1名染色體異常,請問當?shù)匦律鷥喝旧w異常是否低于一般?分析題意,選擇合適的計算統(tǒng)計量的方法。假設檢驗過程1.建立假設:

H0

1=0.01H1

1

<0.012.確定顯著性水平,

取0.05。3.計算統(tǒng)計量:P(0)+P(1)直接得到概率P。4.求概率值P:5.做出推論:八、兩樣本率的比較

為研究某地男女學生的肺吸蟲感染率是否存在差別,研究者隨機抽取該地80名男生和85名女生,查得感染人數(shù)男生23人,女生13人,請問男女之間的感染是否有差別?男生的患病率:女生的患病率:統(tǒng)計量u的計算公式:假設檢驗的過程1.建立假設:

H0

1=

2H1

1

2

2.確定顯著性水平,

取0.05。3.計算統(tǒng)計量u4.求概率值P:5.做出推論:Piosson分布泊松分布Piosson分布的意義盒子中裝有999個黑棋子,一個白棋子,在一次抽樣中,抽中白棋子的概率1/1000在100次抽樣中,抽中1,2,…10個白棋子的概率分別是……放射性物質(zhì)單位時間內(nèi)的放射次數(shù)單位體積內(nèi)粉塵的計數(shù)血細胞或微生物在顯微鏡下的計數(shù)單位面積內(nèi)細菌計數(shù)人群中患病率很低的非傳染性疾病的患病數(shù)特點:罕見事件發(fā)生數(shù)的分布規(guī)律主要內(nèi)容Piosson的概念Piosson分布的條件Piosson分布的特點Piosson分布的應用Piosson的概念常用于描述單位時間、單位平面或單位空間中罕見“質(zhì)點”總數(shù)的隨機分布規(guī)律。罕見事件的發(fā)生數(shù)為X,則X服從Piosson分布。記為:XP(

)。X的發(fā)生概率P(X):

Piosson分布的總體均數(shù)為

Piosson分布的均數(shù)和方差相等。

2Piosson分布的條件由于Piosson分布是二項分布的特例,所以,二項分布的三個條件也就是Piosson分布的適用條件。另外,單位時間、面積或容積、人群中觀察事件的分布應該均勻,才符合Piosson分布。Piosson分布的特點Piosson分布的圖形Piosson分布的可加性Piosson分布與正態(tài)分布及二項分布的關系。Piosson分布的可加性觀察某一現(xiàn)象的發(fā)生數(shù)時,如果它呈Piosson分布,那么把若干個小單位合并為一個大單位后,其總計數(shù)亦呈Piosson分布。如果X1P(

1),X2P(

2),…

XKP(

K),那么X=X1+X2+…+XK,

1

2

+…

k,則XP(

)。Piosson分布與

正態(tài)分布及二項分布的關系當

較小時,Piosson分布呈偏態(tài)分布,隨著

增大,迅速接近正態(tài)分布,當20時,可以認為近似正態(tài)分布。Piosson分布是二項分布的特例,某現(xiàn)象的發(fā)生率

很小,而樣本例數(shù)n很大時,則二項分布接近于Piosson分布。

=n

(應用:Piosson替代二項分布)XP(X)二項分布Piosson分布00.36600.367910.36970.367920.18490.183930.06100.061340.01490.015350.00290.003160.00050.000570.00010.000180.00000.00001.00001.0000例題:一般人群食管癌的發(fā)生率為8/10000。某研究者在當?shù)仉S機抽取500人,結(jié)果6人患食管癌。請問當?shù)厥彻馨┦欠窀哂谝话??分析題意,選擇合適的統(tǒng)計量計算方法。二項分布計算方法:

Piosson分布的計算方法:均數(shù)是?Piosson分布的應用用是否符合Piosson分布來判斷某些病是否具有傳染性、聚集性等??傮w均數(shù)的區(qū)間估計樣本均數(shù)與總體均數(shù)的比較兩樣本均數(shù)的比較總體均數(shù)的區(qū)間估計查表法:將一個面積為100cm2的培養(yǎng)皿置于某病房,1小時后取出,培養(yǎng)24小時,查得8個菌落,求該病房平均1小時100cm2細菌數(shù)的95%的可信區(qū)間。正態(tài)近似法:當樣本計數(shù)大于X(亦即

)較大時,Piosson分布近似正態(tài)分布,可用公式:樣本均數(shù)與總體均數(shù)的比較直接概率法:例7.15正態(tài)近似法:統(tǒng)計量

例題:某溶液原來平均每毫升有細菌80個,現(xiàn)想了解某低劑量輻射能的殺菌效果。研究者以此劑量照射該溶液后取1毫升,培養(yǎng)得細菌40個。請問該劑量的輻射能是否有效?假設檢驗過程1.建立假設:

H0

=80H1

<802.確定顯著性水平,

取0.05。3.計算統(tǒng)計量

:4.求概率值P:單側(cè)5.做出推論:兩樣本均數(shù)的比較兩個樣本觀察單位相同時:計算統(tǒng)計量兩個樣本觀察單位不同時:例題:為研究兩個水源被污染的情況是否相同,在每個水源各取10ml水坐細菌培養(yǎng),結(jié)果甲水源樣品中測得菌落890個,乙水源樣品測得菌落785個。請問兩個水源的污染情況是否不同?例題:某車間在生產(chǎn)工藝改革前測三次粉塵濃度,每次測1升空氣,分別測得38,29和36顆粉塵;改革后測取2次,分別有25,18顆粉塵。請問改革前后粉塵濃度是否相同。一、u檢驗

(一)樣本率與總體率比較

樣本率與總體率的假設檢驗的目的是推斷樣本率所代表的未知總體率π與已知總體率π0(一般指理論值、標準值或經(jīng)大量觀察得到的穩(wěn)定值)是否相等,其u檢驗公式為:

式中,p為樣本率,π0為已知總體率,為根據(jù)總體率求得的率的標準誤。

例5-6由臨床經(jīng)驗得知,一般潰瘍病患者的胃出血率為20%,現(xiàn)某醫(yī)師觀察65歲以上潰瘍病人250例,其中80例發(fā)生胃出血癥狀,問老年患者胃出血率與一般患者是否不同?

H0:=0

,即老年患者胃出血率與一

般患者相同;

H1:

0

,即老年患者胃出血率與一

般患者不同;

α=0.05本例

0=20%,n=250,x=80

將數(shù)據(jù)代入上式:用絕對值查u界值表(t界值表中v=∞欄):

4.743>3.29=u0.001/2

P<0.001

按α=0.05,拒絕H0,接受H1,可認為老年患者胃出血率與一般患者不同,老年潰瘍病患者更容易出現(xiàn)胃出血。(二)兩樣本率比較

兩樣本率比較的假設檢驗的目的是推斷兩樣本所來自的兩總體的總體率是否相等。

其u檢驗公式為:

例5-7為比較工人和農(nóng)民的高血壓患病率,分別調(diào)查了50—59歲男性工人和50—59歲男性農(nóng)民1281人和387人,其高血壓患者分別為386人(患病率30.13%)和65人(患病率16.80%)。問工人與農(nóng)民的高血壓患病率有無不同?

H0:

1=2,即工人和農(nóng)民高血壓患病

率相同;

H1:

1

2,即工人和農(nóng)民高血壓患病

率不同;

α=0.05

本例p1=30.13%,x1=386,n1=1281;p2=16.80%,x2=65,n2=387;

將有關數(shù)據(jù)代入u檢驗公式

查u界值表(雙側(cè),t界值表中=∞欄):

5.174>3.29=u0.001/2

P<0.001

按α=0.05,拒絕H0,接受H1,可認為50

59歲男性工人和50

59歲男性農(nóng)民高血壓患病率不同,工人患病率高于農(nóng)民。

二、χ2檢驗

χ2檢驗的基本公式為:

式中A為實際頻數(shù)(actualfrequency),

T為理論頻數(shù)(theoreticalfrequency).

(一)四格表資料的χ2檢驗

例5-8為觀察藥物A、B治療某病的療效,某醫(yī)師將100例該病病人隨機分為兩組,一組40人,服用A藥;另一組60人,服用B藥。結(jié)果發(fā)現(xiàn):服用A藥40人中有30人治愈;服用B藥的60人中有11人治愈。問A、B兩藥的療效有無差別?

χ2檢驗的基本步驟如下:

H0:

1=2,即A、B兩藥療效相同;

H1:

1

2,即A、B兩藥療效不同;

α=0.05

計算理論頻數(shù):理論頻數(shù)指的是在無效假設成立的前提下,理論上在實際頻數(shù)位置上的頻數(shù)。本例如無效假設成立,兩藥療效相同,則其合計的治愈率為41%。據(jù)此,A藥組理論治愈人數(shù)=40×41%=16.4,B藥組理論治愈人數(shù)=60×41%=24.6;同理,合計未愈率為59%,依此算得A藥組和B藥組未愈人數(shù)分別為23.6和35.4。各理論頻數(shù)計算見上表中括號內(nèi)的數(shù)字。理論頻數(shù)的計算過程可用下式表示:

上式中,R(row)表示行,C(column)表示列;表示第R行第C列的理論數(shù);nR和nC分別代表第R行和第C列的合計數(shù);N為總合計數(shù)。

例如:第一行第一列的理論數(shù)

T12、T21、T22也可仿此算出。

將表5-2中的理論數(shù)和實際數(shù)代入χ2檢驗公式:

χ2檢驗自由度的計算公式為:

v=(行數(shù)-1)(列數(shù)-1)=(R-1)(C-1)

本例:(2-1)(2-1)=1查附表4,χ2界值表:

31.86>7.88

χ2>χ2

0.005,1

P<0.005

P<0.005,按α=0.05,拒絕H0,接受H1,可認為兩藥療效不同,A藥療效優(yōu)于B藥。

對于四格表資料,可用四格表專用公式簡化計算,省去求理論頻數(shù)的過程.

式中,a、b、c、d為四格表的四個實際頻數(shù)據(jù),N為總合計數(shù),N=a+b+c+d。對四格表資料與χ2檢驗公式完全等價。仍以上表資料為例:

將上表數(shù)據(jù)代入上式

計算結(jié)果與χ2檢驗公式計算結(jié)果相同四格表χ2檢驗的條件:

1.最小的T≥5,N≥40,用普通χ2檢驗;

2.有1≤T<5,N≥40,用校正的χ2檢驗;

3.有T<1或N<40,用確切概率法。

校正χ2檢驗的計算公式:

例5-9某醫(yī)師比較甲、乙兩藥療效,甲藥治療患者31例,有效23例;乙藥治療同一種病患者48例,有效46例。試問兩藥療效是否相同?

H0:

1=2,即甲、乙兩藥療效相同;

H1:

1

2,即甲、乙兩藥療效不同;

α=0.05

由于,故四格表中有一格1<T〈5,且n=79>40,所以χ2值需校正。將上表數(shù)據(jù)代入校正檢驗公式

v=(R-1)(C-1)=(2-1)(2-1)=1查附表4,χ2界值表:

5.02<6.14<6.63

χ20.025,1<χ2<χ20.010,1

0.025>P>0.01

按α=0.05,拒絕H0,接受H1,可認為甲、乙兩藥療效不同,乙藥療效優(yōu)于甲藥。(二)行×列(R×C)表資料的χ2檢驗

檢驗統(tǒng)計量計算公式

本例為三個率的比較,3×2=6,為六格表,屬于行×列表,可用行×列表χ2檢驗。

H0:

1=2=3,即三種方案有效率相同;

H1:三種方案的有效率不同或不全同;

α=0.05。將上表數(shù)據(jù)代入行×列表卡方檢驗公式

v=(R-1)(C-1)=(3-1)(2-1)=2

查附表態(tài),χ2界值表:

22.80>10.60

χ2>χ20.005,2

P<0.005

P<0.005,按α=0.05,拒絕H0,接受H1,可認為三種方案治療病毒性肝炎有效率不同或不全同。

本例并非多個率的比較,而是兩組資料構成比的比較,2×4=8,為八格表,屬于行×列表,可用行×列表χ2檢驗。

H0:兩民族居民ABO血型構成相同;

H1:兩民族居民ABO血型構成不同;

α=0.05將上表數(shù)據(jù)代入行×列表卡方檢驗公式

v=(R-1)(C-1)=(2-1)(4-1)=3

查χ2界值表:

26.15>12.84

χ2>χ20.005,3

P<0.005

P<0.005,按α=0.05,拒絕H0,接受H1,可認為兩民族居民ABO血型構成不同,維吾爾族A、B型血者相對多些,回族O型者相對多些。

上表為同時按照兩個屬性進行交叉分類所形成的雙向有序表(A屬性分為有序的R類,B屬性分為有序的C類),稱之為R×C列聯(lián)表(contingencytable)。因其仍屬于R×C表,故χ2值的計算與普通R×C表χ2值計算無異。

H0:年齡與冠狀動脈粥樣硬化程度間

相互獨立(即兩者間無關聯(lián));

H1:年齡與冠狀動脈粥樣硬化程度間

有關聯(lián);

α=0.05

將上表數(shù)據(jù)代入行×列表卡方檢驗公式

v=(R-1)(C-1)=(4-1)(4-1)=9

查χ2界值表:

71.43>23.59

χ2>χ20.005,9

P<0.005

P<0.005,按α=0.05,拒絕H0,接受H1,可認為年齡與冠狀動脈粥樣硬化程度間有關聯(lián)。

若需進一步定量表達兩變量間關聯(lián)程度的大小,可選用列聯(lián)系數(shù)rp,其計算公式如下:

式中,χ2為統(tǒng)計量,n為樣本含量。rp的取值在0∽1之間,0表示完全獨立,1表示完全關聯(lián)。本例列聯(lián)系數(shù)為:

表明年齡與冠狀動脈粥樣硬化之間存在一定的關聯(lián)性。

行×列表χ2檢驗注意事項:1.χ2檢驗要求理論頻數(shù)不宜太小,否則將導致分析的偏性。R×C表資料不宜有1/5以上格子的理論頻數(shù)小于,或有一個格子的理論頻數(shù)小于1。對理論頻數(shù)太小的資料,有幾種處理方法:(1)增大樣本含量;

(2)刪去理論頻數(shù)太小的行與列;

(3)將太小的理論頻數(shù)所在的行或列的實際頻數(shù)與性質(zhì)相近的鄰行鄰列的實際頻數(shù)進行合并。三種方法中,后兩法可能會損失部分信息,也會損害樣本的隨機性。不同的合并方式有可能影響推斷結(jié)論,故不宜作為常規(guī)方法使用。

2.多個樣本率(或構成比)比較的χ2檢驗,結(jié)論為拒絕檢驗假設,只能認為至少兩個相差大的樣本率(或構成比)所代表的總體率(或構成比)之間有差別,還不能說明它們彼此之間都有差別。進一步的分析可作χ2分割。

(三)配對計數(shù)資料的χ2檢驗

1.兩種培養(yǎng)基培養(yǎng)結(jié)果之間有無聯(lián)系?

此時可將表5-8看成雙向有序列聯(lián)表,做關聯(lián)性分析。因此表只有四個格子,故用普通四格表χ2檢驗來分析。

H0:兩種培養(yǎng)基培養(yǎng)結(jié)果相互獨立

(無聯(lián)系);

H1:兩種培養(yǎng)基培養(yǎng)結(jié)果有關聯(lián)

(有聯(lián)系);

α=0.05

將上表數(shù)據(jù)代入四格表卡方檢驗公式

V=(R-1)(C-1)=(2-1)(2-1)=1

查χ2界值表:

3.84<4.77<5.02

χ2

0.05,1<χ2<χ2

0.025,1

0.05>P>0.025

P<0.05,按α=0.05,拒絕H0,接受H1,可認為甲、乙兩種培養(yǎng)基培養(yǎng)結(jié)果有關聯(lián)(聯(lián)系)。

本例還可用φ(phi)系數(shù)進一步定量表達兩變量關聯(lián)程度的大小,φ系數(shù)的計算公式如下:

式中,χ2為χ2統(tǒng)計量,n為樣本含量。φ的取值在-1與+1之間,其絕對值越大,關聯(lián)程度越高;而符號則表示相互關聯(lián)的方向,符號的正負與ad-bc的符號一致。

本例:

由于12×15>16×2,故φ取正值,因此兩種培養(yǎng)基培養(yǎng)結(jié)果之間存在正關聯(lián)性,即甲培養(yǎng)基培養(yǎng)結(jié)果陽性(或陰性),乙培養(yǎng)基培養(yǎng)結(jié)果也趨向于陽性(或陰性)。2.兩種培養(yǎng)基培養(yǎng)結(jié)果之間有無差別?

檢驗統(tǒng)計量計算公式為:

分子中的1為連續(xù)性校正數(shù),若b+c≥40是時,可省略。

H0:B=C,即兩種培養(yǎng)基培養(yǎng)結(jié)果

陰性數(shù)相同;

H1:B≠C,即兩種培養(yǎng)基培養(yǎng)結(jié)

果陰性數(shù)不同;

α=0.05

將上表數(shù)據(jù)代入上式

查χ2界值表:

9.39>7.88

χ2>χ20。005,1

P<0.005

P<0.005,按α=0.05,拒絕H0,接受H1,兩培養(yǎng)基結(jié)果之間有差別,乙培養(yǎng)基陽性數(shù)高于甲培養(yǎng)基。(四)行×列表的χ2分割

例5-14對例5-10三種方案治療急性無黃疸型病毒性肝炎的有效率作進一步的兩兩比較。

本例西藥組與中藥組兩組有效率差異最小,將它們分割出來,作χ2檢驗得χ2=0.936,v=1,P>0.05,差別無統(tǒng)計意義,可將兩有效率合并,資料重組為新的四格表,再作χ2檢驗得χ2=21.854,1,P<0.05。χ2

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論