人群健康研究的統(tǒng)計方法課件_第1頁
人群健康研究的統(tǒng)計方法課件_第2頁
人群健康研究的統(tǒng)計方法課件_第3頁
人群健康研究的統(tǒng)計方法課件_第4頁
人群健康研究的統(tǒng)計方法課件_第5頁
已閱讀5頁,還剩239頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、 人群健康研究的統(tǒng)計方法預防醫(yī)學系指導教師:方亞電話:2188682統(tǒng)計學醫(yī)學統(tǒng)計學的基本概念和步驟計量資料的統(tǒng)計描述計量資料的統(tǒng)計推斷計數(shù)資料的統(tǒng)計描述計數(shù)資料的統(tǒng)計推斷相關(guān)與回歸醫(yī)學統(tǒng)計學簡介一、醫(yī)學統(tǒng)計學的定義 統(tǒng)計學是一門研究數(shù)據(jù)的科學。它指導人們在科學實踐中如何有效地獲取數(shù)據(jù)、正確地分析數(shù)據(jù)以及合理地解釋所得到的結(jié)果。醫(yī)學統(tǒng)計學是統(tǒng)計學的一個分支。它是把概率論和數(shù)理統(tǒng)計學的基本原理和方法應用于醫(yī)學科學領(lǐng)域,涉及醫(yī)學研究設計、數(shù)據(jù)搜集、數(shù)據(jù)整理和數(shù)據(jù)分析的一門應用性學科。醫(yī)學研究的對象是人,而人既具有生物屬性,又具有社會屬性,其變異性大,影響因素錯綜復雜。例如:1)同樣是健康人,即使年

2、齡和性別相同,其身高、體重、血壓等數(shù)值有所不同;2)同一個人,即使在同一天中,其不同時間段的血壓等數(shù)值有所不同;3)采用同樣方案治療某病,即使年齡、性別、病情、病程均相同,其治療效果有所不同; 上述幾例都是由于個體存在變異的結(jié)果。變異是人群的特征,醫(yī)學統(tǒng)計學研究的對象就是來自人群的、具有變異特征的數(shù)據(jù)資料。 偶然現(xiàn)象合理的統(tǒng)計分析客觀規(guī)律性如:1948年,鏈霉素治療結(jié)核病的對照研究臨床試驗 隨機化原則 將病人分別分配到鏈霉素療效觀察組與對照組(不用鏈霉素)。6個月治療后 觀察組 55名結(jié)核病人 死亡4人 對照組 52名結(jié)核病人 死亡14人 X光檢查,觀察組病人的病情比對照組有更大的改善又如:孕

3、期補充維生素(葉酸)與嬰兒神經(jīng)管缺陷80年代初,有文章報道孕期補充維生素(葉酸)可以減少生育神經(jīng)管缺陷嬰兒的危險。 據(jù)報道,先服用維生素后懷孕的婦女比懷孕后才開始服用維生素的婦女和拒絕參加試驗的懷孕婦女所生的嬰兒神經(jīng)管缺陷的發(fā)生率要低。 參加服用維生素試驗和拒絕試驗的孕婦之間存在某些生理特征上的系統(tǒng)差別,致使在解釋試驗結(jié)果時發(fā)生困難。這不能不認為是因?qū)嶒炘O計缺乏周密考慮所造成的經(jīng)驗教訓。補救 隨機化分配受試者葉酸補充組 安慰劑組樣本人數(shù)過少 無法作出肯定的科學結(jié)論1991年 大樣本的隨機化試驗 獲得了肯定的科學結(jié)論 懷孕婦女 新生兒神經(jīng)管缺陷 安慰劑組 602名 21名 葉酸補充組 592名

4、6名 統(tǒng)計學分析證實,葉酸對預防新生兒神經(jīng)管缺陷確有明顯的效果 學習醫(yī)學統(tǒng)計學的重要性醫(yī)學統(tǒng)計學在醫(yī)學領(lǐng)域里具有不可低估的重要性, 是醫(yī)學科學工作者不可缺少的知識和技能。第一節(jié) 統(tǒng)計學中的幾個基本概念第一章 醫(yī)學統(tǒng)計學的基本概念和步驟一、總體和樣本 總體(population) 根據(jù)研究目的確定的同質(zhì)的全部研究對象。 有限總體:總體中個體的總數(shù)是有限的。 無限總體:總體的時間、空間未加以限制,總體中的個 體數(shù)可無限增加。 如研究糖尿病人的血壓測定值; 由于無時間和空間的限制,全部糖尿病人的血壓測定值 為無限總體。 樣本(sample) 根據(jù)隨機化的原則從總體中抽出有代表性的一部分觀察單位。 抽

5、樣:抽取樣本的過程。 統(tǒng)計推斷:對樣本進行觀察,用樣本的特征推斷總體的 特征。是研究人群健康經(jīng)常用到的方法。二、同質(zhì)和變異同質(zhì)(homogeneity)指被研究指標的非實驗因素相同.變異(variation) 指在同質(zhì)的基礎(chǔ)上各觀察單位(或個體)之間的差異。同性別、同年齡、同地區(qū)、同體重兒童的某項指標有高有低,稱為某項指標的變異。被研究指標:兒童身高影響較大、易控制的因素:性別、年齡、民族、地區(qū)(相同)三、參數(shù)和統(tǒng)計量 參數(shù)(parameter ) 描述總體的統(tǒng)計指標。 如研究中國12歲以上男性的吸煙率,觀察12歲以上的全部中國男性,登記他們的目前吸煙情況,計算出的吸煙率即為參數(shù)。 統(tǒng)計量(s

6、tatistic)描述樣本的統(tǒng)計指標。用隨機的方法從總體中抽出一部分12歲的男性,計算的吸煙率稱作統(tǒng)計量。四、誤差誤差(error):觀察值與實際值之差 。主要有3種:系統(tǒng)誤差,隨機測量誤差,抽樣誤差 1. 系統(tǒng)誤差 在資料的搜集過程中,因試劑未標定、儀器未校正、標 準未統(tǒng)一等而導致測量結(jié)果有傾向性的誤差。應嚴格控 制,它影響結(jié)果的準確度。2. 隨機測量誤差 在試劑、儀器已校正,操作方法已統(tǒng)一的情況下,由于 偶然因素的影響,導致同一研究對象在多次測定中結(jié)果 不一致的情況。應控制在允許范圍內(nèi)。3.抽樣誤差 由于抽樣而使某變量值的統(tǒng)計量與總體參數(shù)不相同。 抽樣誤差不可避免,但它可以用統(tǒng)計學方法處理

7、。五、概率 概率(probability)描述隨機事件發(fā)生可能性大小的數(shù)值,常用P表示。小數(shù)或百分數(shù)。 P值的范圍:介于0和1之間。 P值愈接近1,表示事件發(fā)生的可能性愈大; P=1,表示該事件一定會發(fā)生; P值愈接近0,表示事件發(fā)生的可能性愈??; P=0,表示該事件一定不會發(fā)生; 在醫(yī)學統(tǒng)計學中,主要是處理大概率和小概率的問題。大小概率的分界點為0.05(5%)。習慣上稱P0.05為小概率事件,表示在一次實驗或觀察中該事件發(fā)生的可能性很小。 統(tǒng)計分析中的很多結(jié)論都是帶有概率性的。六、變量及變量值變量(variable):觀察對象的特征或指標 如,性別,年齡,體重 變量值(value of v

8、ariable):測量的結(jié)果 如,性別男、女 年齡數(shù)值,體重測量值第二節(jié) 統(tǒng)計資料的類型定量計量資料 measurement data用定量的方法對觀察單位進行測量取得的資料。如身高、體重、血壓等。計數(shù)資料 enumeration data用定性的方法取得的資料。如性別,職業(yè)等等級資料 rank data將觀察對象按照某種屬性分為幾個等級的資料。如將貧血分為輕、中、重3個等級,治療效果分為顯效、好轉(zhuǎn)、有效和無效4個等級等。資料類型不同,選擇的統(tǒng)計分析方法也不同較常見的是計量資料和計數(shù)資料,區(qū)分方法:計量資料:(1)可以是任意數(shù),如整數(shù)、小數(shù)、正數(shù)、負數(shù);(2)有明確的計量單位,如 kg, cm

9、。計數(shù)資料: (1)只能是正整數(shù); (2)無計量單位。資料間的相互轉(zhuǎn)化: 血紅蛋白 正常與異常(計數(shù)資料) 正常否重度貧血,中度貧血,輕度貧血,正常,血紅蛋白增高(等級資料)含量多少血紅蛋白含量(g/L)(計量資料)第三節(jié) 統(tǒng)計工作的基本步驟 1.設計 2.搜集資料 3.整理資料 4.分析資料四個步驟相互聯(lián)系科學、周密、嚴謹?shù)脑O計是搜集準確可靠資料的保證;準確、完整、及時地搜集資料、恰當?shù)卣碣Y料是統(tǒng)計分析的基礎(chǔ);選擇正確的方法分析資料和表達資料可獲得科學的結(jié)論。一、設計(design) 調(diào)查設計實驗設計專業(yè)設計統(tǒng)計設計資料搜集資料整理資料分析三個原則 對照重復隨機二、資料搜集 (data c

10、ollection) 資料來源: 1. 統(tǒng)計報表 醫(yī)院工作報表、疫情報表 2. 報告卡傳染病、職業(yè)病、腫瘤、出生、死亡 3. 日常醫(yī)療衛(wèi)生工作記錄門診及住院病歷 4. 專題調(diào)查或?qū)嶒?要求:及時、完整、準確 參與搜集資料人員的選擇是關(guān)鍵。 高素質(zhì)、有相關(guān)專業(yè)基礎(chǔ)、以往曾有類似研究經(jīng)歷 嚴格培訓和管理三、資料整理(data sorting)目的:將搜集到的原始資料系統(tǒng)化、條理化,便于進一步計算統(tǒng)計指標和深入分析。整理前:要對資料再次檢查與核對,發(fā)現(xiàn)缺項或錯項較多的調(diào)查表,須補查或剔除。審查無誤后,設計分組 分組方式常用的有兩種:1. 質(zhì)量分組 將觀察單位按屬性和類別分組,如按性別、職業(yè)、病種等分

11、組。2. 數(shù)量分組 將觀察單位按數(shù)值大小分組,如劃分年齡組、身高組等。 手工匯總或計算機匯總四、資料分析(data analysis) 根據(jù)研究設計的目的、要求、資料的類型和分布特征選擇正確的統(tǒng)計方法進行統(tǒng)計分析:統(tǒng)計描述統(tǒng)計推斷第四節(jié) 醫(yī)學統(tǒng)計學的應用一、拓寬醫(yī)學研究思路二、醫(yī)學科研設計科學合理三、資料準確可靠四、選擇合適分析方法及正確解釋結(jié)果小結(jié) SUMMARY一、醫(yī)學統(tǒng)計學定義 運用概率論和數(shù)理統(tǒng)計的基本原理和方法,結(jié)合醫(yī)學實際,研究數(shù)據(jù)收集、整理和分析的一門應用性科學。二、幾個基本概念1.總體和樣本 總體:同質(zhì)的全部研究對象。有限總體,無限總體 樣本:總體中有代表性的一部分2.同質(zhì)和變

12、異 同質(zhì):被研究指標的非實驗因素相同 變異:在同質(zhì)的基礎(chǔ)上各觀察單位之間的差異3.參數(shù)和統(tǒng)計量 參數(shù):總體 統(tǒng)計量:樣本4.誤差觀察值 實際值 主要有3種:系統(tǒng)誤差,隨機測量誤差,抽樣誤差5. 概率 可能性大小,常用P表示。 P值的范圍:0-1 分界點為0.05(5%)。P0.05為小概率事件。6. 變量及變量值 變量:指標 變量值:觀察值三、統(tǒng)計資料類型 計量資料、計數(shù)資料、等級資料四、統(tǒng)計工作的基本步驟 1.設計:專業(yè)、統(tǒng)計 2.搜集資料:準確、完整、及時 3.整理資料:質(zhì)量分組,數(shù)量分組 4.分析資料:統(tǒng)計描述,統(tǒng)計推斷五、醫(yī)學統(tǒng)計學的應用返回目錄第二章 計量資料的統(tǒng)計描述第一節(jié) 計量資

13、料的頻數(shù)分布例 某農(nóng)村地區(qū)2001年14歲女孩的身高資料如下,請編制頻數(shù)表和觀察頻數(shù)分布情況。 表 某農(nóng)村地區(qū)2001年14歲女孩的身高資料(cm) 一、頻數(shù)分布表及其制作 1計算極差或全距(range) 常用R表示 R=最大值-最小值 即R162.6-125.9=36.7(cm) 2決定組段和組距 組段:10個左右 下限,上限 組距(class interval):相鄰兩組段下限值之差。 等距,“極差組段數(shù)”的整數(shù)值 本例:分10個組段 組距極差組段數(shù)=36.7/10=3.67(cm) 取整為4cm 第一個組段的下限應略小于最小值,即取124cm 最末組上限要略大于最大值,即取164cm。3

14、列表劃記 某農(nóng)村地區(qū)2001年14歲女孩的身高資料(cm) 頻數(shù)分布圖兩個重要的特征 集中趨勢(central tendency)身高的測量值雖然高低不等,但向中間集中,中等身材(140-144cm)的人數(shù)最多離散趨勢 (tendency of dispersion)隨著身高測量值逐漸變大或變小,人數(shù)越來越少,向兩端分散第二節(jié) 集中趨勢指標 一、均數(shù)(mean)-算術(shù)均數(shù) 描述一組計量資料集中趨勢(或平均水平)的指標。 總體均數(shù):(讀作mu) 樣本均數(shù): 適用條件:資料呈正態(tài)或近似正態(tài)分布。作用:描述數(shù)值變量資料的平均水平常用指標:算術(shù)均數(shù)、幾何均數(shù)、中位數(shù)1. 直接法 觀察例數(shù)不多(如樣本含

15、量n小于30) 公式: :求和,讀作sigma,xi:各觀察值, n:總例數(shù)例 有8名正常人的空腹血糖測定值(mmol/L)為6.2,5.4,5.7,5.3,6.1,6.0,5.8,5.9,求其均數(shù)。 5.8(mmol/L) 2. 加權(quán)法 觀察例數(shù)很多,先編制頻數(shù)表,再計算 (自 學)fi 每組的頻數(shù) xi 組中值- (下限+上限)/2二、幾何均數(shù)(geometric mean) 表示法:G 適用條件: 1.資料呈偏態(tài)分布,但經(jīng)對數(shù)變換后呈正態(tài)分布; 2.觀察值間呈倍數(shù)關(guān)系或近似倍數(shù)關(guān)系的資料。 如抗體的平均滴度、藥物的平均效價等。計算方法: 1.直接法 : 觀察例數(shù)不多(如樣本含量n30)

16、例 有8份血清的抗體效價分別為 1:5, 1:10, 1:20, 1:40, 1:80, 1:160, 1:320, 1:640, 求平均抗體效價。將各抗體效價的倒數(shù)代入公式,得: =lg-1(1.752575)=57即血清的抗體平均效價為1:572. 加權(quán)法:觀察例數(shù)很多時采用(自 學)三、中位數(shù)和百分位數(shù) (一)中位數(shù)(median)定義:一組由小到大排列的觀察值中位置居中的數(shù)值 中位數(shù)是一個位置指標,以中位數(shù)為界,將觀察值 分為左右兩半。表示法:M適用條件:資料呈明顯的偏態(tài)分布;開口資料; 資料分布不清楚計算方法: 1. 直接法 (n較小時) (1)將觀察值按大小順序排列; (2)n為奇

17、數(shù) n為偶數(shù) 例 (1)有7個人的血壓(收縮壓)測定值(mmHg)為: 120,123,125,127,128,130,132, 求中位數(shù)。 (2)若又觀察了一個人的血壓值為118(mmHg), 求中位數(shù)。(1)M=127 (mmHg)(2)M=(125+127)/2=126(mmHg)2. 頻數(shù)表法(n較大時) 參見百分位數(shù)計算公式(二)百分位數(shù)(percentile) 把一組數(shù)據(jù)從小到大排列,分成100等份,各等份含1%的觀察值,分割界限上的值就是百分位數(shù)。它是一個位置指標。 Px中位數(shù)是第50百分位數(shù),用P50表示。第25,第75,第95百分位數(shù)記為P25, P75, P95是統(tǒng)計學上常

18、用的指標。計算:(1)將觀察值編制成頻數(shù)表;(2)按所分組段由小到大計算累計頻數(shù)和累計頻率;(3)找出百分位數(shù)所在組(如P95所在組為累計頻率為 95%的所在組)L:Px 所在組段下限i:組距 n:總例數(shù)f:Px所在組段頻數(shù)fL:小于L的各組段累計頻數(shù)例 某傳染性疾病的潛伏期(天)見下表, 求潛伏期的第95百分位數(shù)P95 某傳染性疾病的潛伏期(天)的百分位數(shù)計算表18.4(天)求平均潛伏期M。10.33(天)對于任何分布的資料都可以用中位數(shù)反映平均水平。中位數(shù)不受個別特大或特小值的影響,只受位置居中的觀察值波動的影響。 若資料呈對稱或正態(tài)分布,中位數(shù)=均數(shù) 百分位數(shù)用于描述一組資料在某百分位置

19、上的水平,常常用于正常值范圍的估計。第三節(jié) 離散趨勢指標三組同齡男孩體重(kg)如下: 甲組 26 28 30 32 34 均數(shù)=30 (kg) 乙組 24 27 30 33 36 均數(shù)=30 (kg) 丙組 26 29 30 31 34 均數(shù)=30 (kg)平均水平指標僅描述一組數(shù)據(jù)的集中趨勢,可作為總體均數(shù)的一個估計值。由于變異的客觀存在,需要一類指標描述資料的離散趨勢。常用指標:全距,四分位數(shù)間距,方差,標準差,變異系數(shù)一、全距(range)定義:一組資料中最大值與最小值之差。表示法:R R最大值最小值意義:反映個體變異范圍的大小。 R越大,變異度(離散程度)越大。缺點:僅考慮兩端數(shù)據(jù)的

20、差異,未考慮其它數(shù)據(jù)的變異 情況,不能全面反映一組資料的離散程度,且不穩(wěn) 定,易受極端值的影響。二、四分位數(shù)間距(quartile interval)定義:上四分位數(shù)QU(P75)與下四分位數(shù)QL(P25)之差, 即包括了全部觀察值中間的一半。表示法: Q意義: Q值越大,說明變異程度越大。常用于描述偏態(tài) 分布資料的離散程度。缺點:該指標比全距稍穩(wěn)定,但仍未考慮每個觀察值。某傳染性疾病的潛伏期(天) QL(P25)所在組在潛伏期為8組,L=8, fx=48,i=4, fL=26;QU(P75)所在組為12組,L=12,fx=25,i=4,fL=74,分別代入公式得三、方差(variance)和

21、 標準差(standard deviation) 克服極差和四分位數(shù)間距不能反映每個觀察值之間的離散情況這一缺點 離均差總和=總體中每個觀察值xi與總體均數(shù)之差的 總和 =( xi - )=0 離均差平方和=( xi - )2 受觀察單位數(shù)的影響 取離均差平方和的均數(shù):方差方差(variance):離均差平方和的均數(shù)樣本方差用S2表示,公式總體方差用2表示,公式標準差(standard deviation):方差開平方,取平方 根的正值。(恢復原度量單位)總體標準差、樣本標準差的公式分別為:(n-1)和(fi-1)為自由度(degree of freedom)適用條件:對稱分布,特別是正態(tài)或近

22、似正態(tài)分布資料意義:說明資料的變異程度,其值越大,說明變異程度越大S甲=3.16(kg); S乙=4.74(kg); S丙=2.92 (kg)標準差的應用:1.表示觀察值的變異程度。 標準差愈小,說明觀察值的離散程度愈小,從而也反映了用平均數(shù)反映平均水平,其代表性愈好。 2. 估計醫(yī)學參考值范圍。 標準差在科技論文報告中經(jīng)常與算術(shù)均數(shù)一起使用。3. 計算標準誤。4. 計算變異系數(shù)。 四、變異系數(shù)(coefficient of variation) 表示法:CV 適用條件:比較度量單位不同或均數(shù)相差懸殊的兩組 (或多組)資料的變異程度。 公式:例 某地調(diào)查110名20歲男大學生,其身高均數(shù)為 1

23、72.73cm,標準差為4.09cm;其體重均數(shù)為 55.04kg, 標準差為4.10kg,試比較兩者變異度。身高 CV=(4.09/172.73)100%=2.37%體重 CV=(4.10/55.04) 100%=7.45%該地20歲男大學生體重的變異度大于身高的變異度第四節(jié) 正態(tài)分布和醫(yī)學參考值范圍 一、正態(tài)分布 正態(tài)分布(normal distribution) 高峰位于中央(均數(shù)所在處)、兩側(cè)逐漸降低且左右對稱、不與橫軸相交的光滑曲線。正態(tài)分布是一種重要的連續(xù)型分布。正態(tài)分布和標準正態(tài)分布的概率密度函數(shù)(probability density function) 正態(tài)分布的概率密度函數(shù)

24、為: 標準正態(tài)分布的概率密度函數(shù)為:正態(tài)分布u=(X- )/ 標準正態(tài)分布二、正態(tài)分布的特征正態(tài)曲線(normal curve)在橫軸上方均數(shù)處最高;正態(tài)分布以均數(shù)為中心,左右對稱;正態(tài)分布有兩個參數(shù),即均數(shù)與標準差,常用N(, 2)表示,用N(0,1)表示標準正態(tài)分布。其位置與均 數(shù)有關(guān),形狀與標準差有關(guān)。標準差大,離散程度大, 正態(tài)分布曲線則“胖”,反之,則“瘦”;正態(tài)分布的面積分布有一定的規(guī)律性。三、正態(tài)曲線下面積的分布規(guī)律四、醫(yī)學參考值范圍 (一)參考值(reference ranges)的意義 醫(yī)學參考值:正常人指標測定值的波動范圍。(二)制定參考值的基本步驟1從正常人總體中抽樣 按

25、隨機化原則和方法進行抽樣研究 抽取樣本含量要足夠大,最好在100例以上 2決定取單側(cè)還是雙側(cè) 3. 選定合適的百分界限 參考值范圍是指絕大多數(shù)正常人的測定值應該所在的范圍。 習慣上指80、90、95或994選定適當?shù)姆椒ㄟM行參考值范圍的估計 (三) 參考值范圍的估計方法利用某農(nóng)村地區(qū)2001年14歲女孩的身高資料(cm)求95%的參考值范圍。從圖可以看出該資料基本服從正態(tài)分布,因此采用正態(tài)分布法公式。本例的,S=6.58,雙側(cè)95%的參考值范圍為: =(130.18155.98)(cm)總 結(jié)一、集中趨勢指標(說明一組同質(zhì)資料的平均水平) 均數(shù),幾何均數(shù),中位數(shù)二、離散趨勢指標(說明一組同質(zhì)資

26、料的離散度大小) 全距,四分位數(shù)間距,方差,標準差,變異系數(shù)三、正態(tài)分布和醫(yī)學參考值范圍 1.正態(tài)分布 圖形,特征,面積分布規(guī)律 N(,2),N(0,1) 2.參考值范圍 參考值范圍的估計方法百分范圍 (%) 單 側(cè) 雙 側(cè) 95 99返回目錄第三章 計量資料的統(tǒng)計推斷統(tǒng)計分析統(tǒng)計描述統(tǒng)計推斷用統(tǒng)計指標、統(tǒng)計表和統(tǒng)計圖來描述資料的分析規(guī)律及其數(shù)量特征總體參數(shù)估計 假設檢驗統(tǒng)計推斷(statistical inference)通過樣本統(tǒng)計量信息推斷相應總體參數(shù)的方法。包括對總體參數(shù)的置信推斷及參數(shù)間差異的假設檢驗。 第一節(jié) 均數(shù)的抽樣誤差和總體均數(shù)的估計一、均數(shù)的抽樣誤差和標準誤1. 均數(shù)的抽樣

27、誤差( sampling error of mean ) 由抽樣而造成的樣本均數(shù)與總體均數(shù)的差異或各樣本均數(shù)的差異。2.標準誤 standard error( SE, SEM ) 樣本均數(shù)的標準差。反映均數(shù)抽樣誤差大小的指標。: 總體標準差 n:樣本含量S : 樣本標準差 計算公式標準誤越小,說明樣本均數(shù)與總體均數(shù)越接近,樣本均數(shù)的代表性越好意義用途(1)衡量抽樣誤差大?。?)估計總體均數(shù)的置信區(qū)間(3)用于假設檢驗例:對某地成年男性紅細胞數(shù)的抽樣調(diào)查中,隨機抽取了100名成年男性,調(diào)查得到其均數(shù)是5.381012/L,標準差為0.441012/L,求其標準誤。 n=100 s=0.44101

28、2/L(1012/L)二、 t 分布(t-distribution) X1,X2,X3, N ( , 2 ) N (0,1 )u 分布X1,X2,X3, N ( , 2x )N (0,1 )Sxt 分布xSx(nu)t分布形狀 N(0,1) =n-1n:樣本含量表示法:雙側(cè) 單側(cè) 用 途:1. 總體均數(shù)置信區(qū)間的估計 2. 用于t檢驗 自由度相同時,P值 , t值 P值相同時,自由度 , t值 自由度 時, t值=u值三、總體均數(shù)置信區(qū)間的估計 1、總體均數(shù)的點值估計 (point estimation) 2、總體均數(shù)的區(qū)間估計 (interval estimation) 置信度( confi

29、dence level):估計正確的概率(1-) 95%,99% :錯誤概率,0.05,0.01 置信區(qū)間 confidence interval(CI):按一定的置信度估計總體均數(shù)所在的區(qū)間按一定的置信度估計得到的區(qū)間n 較大時,總體均數(shù)的95%可信區(qū)間 n 較小時,總體均數(shù)的95%可信區(qū)間例 從某年某地20歲健康男大學生中抽得110名的一個樣本, 求得身高的均數(shù)為172.73cm, 標準差為4.09cm, 試估計該地20歲健康男大學生身高均數(shù)的95置信區(qū)間。 該地20歲健康男大學生身高均數(shù)的95置信區(qū)間為(171.97, 173.49) cm(172.731.960.39 , 172.73

30、1.960.39) =(171.97, 173.49) cm例 從某年某地20歲健康男大學生中抽得11名的一個樣本, 求得身高的均數(shù)為172.25cm, 標準差為3.31cm, 試估計該地20歲健康男大學生身高均數(shù)的95置信區(qū)間。 該地20歲健康男大學生身高均數(shù)的95置信區(qū)間為(170.03, 174.47) cm=11-1=10,查附表9-1得t0.05/2(10)=2.228(172.252.2280.996, 172.252.2280.996)=(170.03, 174.47)總體均數(shù)的95置信區(qū)間 100次抽樣,可得到100個置信區(qū)間,平均有95個置信區(qū)間包括客觀存在的總體均數(shù),只有5

31、個置信區(qū)間未包括總體均數(shù)第二節(jié) 假設檢驗的基本思想和基本步驟例 根據(jù)大量調(diào)查,已知健康成年男子脈搏均數(shù)為72次/分。某醫(yī)生在山區(qū)隨機抽查25名健康成年男子,獲得其脈搏均數(shù)為74.2次/分,標準差為6.5次/分,問該山區(qū)成年男子的脈搏是否不同于一般?一、假設檢驗的基本思想 引起兩個樣本均數(shù)不相等的原因有兩種可能 : 1、來自相同的總體,由于抽樣誤差所致; 2、來自不相同的總體,由于本質(zhì)差異所致。 假設檢驗就是在這兩者中作出決策的過程。二、假設檢驗的基本步驟 1、建立檢驗假設,確定檢驗水準 (1)兩種假設 H0: 無效假設(null hypothesis) 差異由抽樣誤差所致 H1: 備擇假設(a

32、lternative hypothesis)(2)兩側(cè)檢驗:單側(cè),雙側(cè)(3)檢驗水準(顯著性水平) =0.05 雙側(cè)檢驗: H0: H1: =0.05單側(cè)檢驗: H0: H1: (或 ) =0.05 2、計算統(tǒng)計量 3、確定P值,作出統(tǒng)計推斷結(jié)論 u 值 p值 結(jié)論0.05 不拒絕 H0,差異無統(tǒng)計學意義(1.645)1.96 0.05 拒絕 H0,差異有統(tǒng)計學意義(1.645)t檢驗單樣本t檢驗:樣本均數(shù)與總體均數(shù)的比較 成組t 檢驗:兩個樣本均數(shù)的比較配對 t 檢驗 :配對資料的比較 第三節(jié) t檢驗和u檢驗u檢驗 適用條件:正態(tài)分布,總體方差齊同一、樣本均數(shù)與總體均數(shù)的比較例 根據(jù)大量調(diào)查

33、,已知健康成年男子脈搏均數(shù)為72次/分。某醫(yī)生在山區(qū)隨機抽查25名健康成年男子,獲得其脈搏均數(shù)為74.2次/分,標準差為6.5次/分,問該山區(qū)成年男子的脈搏是否不同于一般?總體均數(shù):大量觀側(cè)得到的穩(wěn)定值或理論值。01、建立檢驗假設,確定檢驗水準2、計算檢驗統(tǒng)計量t3、確定概率 =n-1=25-1=24,查t界值表:t0.05/2(24)2.064 t=1.6920.054、判斷結(jié)果 按=0.05水準,不拒絕H0,尚不能認為該山區(qū)成年男 子的脈搏不同于一般。1、建立檢驗假設,確定檢驗水準2、計算檢驗統(tǒng)計量t3、確定概率 =n-1=25-1=24,查t界值表:t0.05(24)1.711 t=1.

34、6920.054、判斷結(jié)果 按=0.05水準,不拒絕H0,尚不能認為該山區(qū)成年男 子的脈搏高于一般。該山區(qū)成年男子的脈搏是否高于一般?二、配對資料的比較差數(shù)的均數(shù)差數(shù)的標準差差數(shù)均數(shù)的標準誤n 對子數(shù)【例】某醫(yī)院用某中藥治療高血壓病人10名,治療前后舒張壓的變化情況如下,試問此藥有無降壓作用?患者號 舒 張 壓 差值 d2 治療前治療后 1 115 116 -1 1 2 110 90 20400 3 129 108 21441 4 109 89 22484 5 110 92 18324 6 116 90 26676 7 116 110 6 36 8 116 120 -4 16 9 120 88

35、 321024 10 104 96 8 64 1483466 1.建立檢驗假設,確定檢驗水準 H0: H1:2.計算統(tǒng)計量t值 已知 則3.確定P值 由t界值表得 t0.05/2,9 = 2.262, t0.01/2,9 = 3.250本例t=3.936 t0.01/2,9 P0.014.判斷結(jié)果 在 概率水平下拒絕H0,可以認為該中草藥有降血壓的作用。三、兩個樣本均數(shù)的比較 的標準誤 合并方差【例】用兩組小白鼠分別給以高蛋白和低蛋白飼料,實驗期間自出生后28天至84天共8周,觀察各鼠所增體重(mg),結(jié)果如下。問兩組膳食對小白鼠增加體重有無不同? 高蛋白組 134 146 104 119 1

36、24 161 107 83 113 129 97 123 低蛋白組 70 118 101 85 107 132 94 1、建立假設,確定檢驗水準 2、計算統(tǒng)計量t值 已知 則3、確定概率 t=1.89150 and n250例:某地抽樣調(diào)查了部分健康成人的紅細胞數(shù),其中男性360人,均數(shù)為4.661012/L,標準差為0.5751012/L;女性255人,均數(shù)為4.1781012/L,標準差為0.2911012/L,試問該地男、女紅細胞數(shù)的均數(shù)有無差別?u檢驗正態(tài)近似檢驗用途:兩個或兩個以上樣本均數(shù)的比較使用條件:1.樣本來自正態(tài)總體 2.樣本相互獨立 3.總體方差齊同第四節(jié) 方差分析(Ana

37、lysis of variance,ANOVA)例:隨機抽取50-59歲男性正常者、冠心病人、脂肪肝患者各11人,測定空腹血糖值(見下表),試推斷這三類人群總體均值是否相同? 正常組 冠心病組 脂肪肝組 4.75 6.26 5.78 4.75 4.36 6.68 4.77 5.24 5.44 4.61 4.67 5.86 4.49 4.55 5.67 4.02 5.18 5.24 5.03 4.61 5.42 4.57 5.12 5.14 4.21 5.26 6.09 4.88 4.83 5.74 4.62 5.59 5.72 ANOVA t-test單因素方差分析(one-factor AN

38、OVA)單方向方差分析(one-way ANOVA)一、單因素方差分析變異 SS 與自由度 (1)總變異 SS總= 總=N-1 (N:總例數(shù)) 全部觀察值與總均數(shù)差異的平方和 (2)組內(nèi)變異 SS組內(nèi)= 組內(nèi)=N-k (k:組數(shù)) 全部組內(nèi)觀察值與組均數(shù)差異的平方和 (3)組間變異 SS組間= 組間= k-1 各組均數(shù)與總均數(shù)差異的平方和 SS總= SS組內(nèi)+ SS組間總= 組內(nèi)+ 組間2. 均方 MS (1)組內(nèi)均方 MS組內(nèi)= SS組內(nèi)/ 組內(nèi) (2)組間均方 MS組間= SS組間/ 組間3. F 值 F = MS組間/ MS組內(nèi)單因素方差分析步驟1. 建立檢驗假設,確定檢驗水準 H0:

39、1=2 = a H1: i j , =0.052. 計算統(tǒng)計量F (1)計算各部分離均差平方和: SS總= =SS組間= =SS組內(nèi)= SS總-SS組間(2)計算自由度:總=N-1 組間= k-1 組內(nèi)=N-k(3)計算均方:(4)計算統(tǒng)計量F:F = MS組間/ MS組內(nèi) MS組間= SS組間/ 組間 MS組內(nèi)= SS組內(nèi)/ 組內(nèi) 單因素分析的方差分析表3. 確定概率,判斷結(jié)果查F表,得到F0.05,(組間, 組內(nèi)) 的臨界值,如果FF0.05,(組間, 組內(nèi)) ,則p5.39,則 p0.01,拒絕H0 可認為三組人群的空腹血糖有顯著性差異3. 確定概率,判斷結(jié)果 方差分析表變異來源 SSM

40、SFP組間組內(nèi)總 6.70 2 3.35 17.63 則P ,拒絕H0。二、多個樣本均數(shù)間的兩兩比較 q-檢驗 樣本均數(shù)排序,編秩次a=3,組內(nèi) =30,q 0.01(30,3)=4.458.46,p0.01,拒絕H0。 Group 脂肪肝組 冠心病組 正常組 Mean 5.71 69.30 4.61 Rank (1) (2) (3) H0: A=B H1: A B , =0.05 1. 建立檢驗假設,確定檢驗水準 2. 計算統(tǒng)計量q:3. 確定概率,判斷結(jié)果 兩兩比較計算用表比較組組間跨度a統(tǒng)計量 qq(30,a)臨界值P值(1)(2)(3)=0.05=0.01(4)(5)(6)(1)與(3

41、)38.463.49 4.450.01(1)與(2)(2)與(3)25.0023.462.89 3.892.89 3.890.015一、樣本率與總體率的比較例:已知某地一般人群高血壓患病率為13.26%,某醫(yī)師在農(nóng)村隨機抽取460人進行觀察,有43 人確診為高血壓,問該人群高血壓患病率是否低于一般人群?1. H0:=0.1326 H1:u0.01 P0.01 拒絕H0 可認為該人群高血壓患病率低于一般人群。二、兩樣本率的比較例 為研究某職業(yè)人群頸椎病發(fā)病的性別差異,今隨機抽查了該職業(yè)人群男性120人和女性110人,發(fā)現(xiàn)男性中有36人患有頸椎病,女性中有22人患有頸椎病。試作統(tǒng)計推斷。 1. H

42、0:1= 2 H1:12 0.052. Sp1-p2=0.0573 u=1.7453. u=1.7451.96, p0.05尚不能認為該職業(yè)人群頸椎病發(fā)病有性別差異。第三節(jié) 2 檢 驗 1. 檢驗兩個或多個樣本率(或構(gòu)成比)之間差異是否有顯著性2. 說明兩種屬性或現(xiàn)象之間是否存在相關(guān)關(guān)系3. 擬合優(yōu)度檢驗 一、四格表資料的2 檢驗 例:為了解某中草藥預防流腦的效果,將410名觀察者隨機分為兩組,觀察結(jié)果如表, 問兩組流感發(fā)病率是否有差別? 兩組人群流感發(fā)病率比較 分組 例數(shù) 發(fā)病人數(shù) 未發(fā)病人數(shù) 發(fā)病率() 服藥組 230 40(50.49) 190(179.51) 17.39 對照組 180

43、 50(39.51) 130(140.49) 27.78 合 計 410 90 320 21.95(一)2 檢驗的基本思想 (實際頻數(shù)-理論頻數(shù))2 (A-T)2 2 = 理論頻數(shù) T nR nC TRC n=(行數(shù)-1)(列數(shù)-1)=(R-1)(C-1)1. 建立檢驗假設,確定檢驗水準 H0:1=2 H1:12 =0.052. 計算統(tǒng)計量2值 (A-T)2 nR nC 2 TRC T n3. 確定P值,判斷結(jié)果 =(R-1)(C-1) 3(二)2 檢驗的基本步驟 2 檢驗結(jié)果判斷 2 值 P 差別 H00.05 無統(tǒng)計學意義 不拒絕2 0.05() 0.05 有統(tǒng)計學意義 拒絕2 0.01(

44、) 0.01 有統(tǒng)計學意義 拒絕20.05(1)=3.84 P=0.0520.01(1)=6.63 P=0.01 兩組人群流感發(fā)病率比較 分組 例數(shù) 發(fā)病人數(shù) 未發(fā)病人數(shù) 發(fā)病率() 服藥組 230 40(50.49) 190(179.51) 17.39 對照組 180 50(39.51) 130(140.49) 27.78 合 計 410 90 320 21.951. 建立檢驗假設,確定檢驗水準 H0 : 1 2 H1 : 1 2 0.052. 計算2 值 (1)T (2)2 =公式=6.363. 確定概率, 判斷結(jié)果 (2-1)(2-1)1;2 6.363.84, P40, 且T5) 專用

45、公式 (n40, 且T5) 四格表形式 某情況 分組 合 計 是 否 甲 a b ab 乙 c d cd 合計 ac bd n (ad-bc)2 n 2 (ab)(cd)(ac)(bd) 四格表資料2 值計算表 發(fā)病數(shù) 未發(fā)病數(shù) 合 計 服藥組 40(a) 190(b) 230(ab) 對照組 50(c) 130(d) 180(cd) 合 計 90(ac) 320(bd) 410(n) (40 130- 190 50)2 410 2 6.36 230 180 90 320校正公式 (n40, 且1T2 0.05(1) , 故P0.05, 拒絕無效假設H0 , 認為甲乙兩種藥物治療某病的療效不同

46、, 乙藥的有效率 高于甲藥。 Fisher確切概率法 應用條件: T1 或 n40 配對四格表形式 乙 合 計 a b ab甲 c d cd 合計 ac bd n 二、配對資料的2 檢驗 例: 甲乙兩名醫(yī)師對120張X線片子的矽肺診斷結(jié)果如下表, 試分析兩名醫(yī)師診斷結(jié)果的差別有無顯著意義。 甲乙兩醫(yī)師X線矽肺診斷結(jié)果 乙 醫(yī) 師 合計 甲 48 12 60 醫(yī) 師 2 58 60 合 計 50 70 120 (b-c)2 2 bc40 bc 或 (b-c-1)2 2 bc40 bc 1 1. 建立檢驗假設,確定檢驗水準 H0 : 兩醫(yī)師診斷結(jié)果相同,bc H1 : 兩醫(yī)師診斷結(jié)果不同, bc

47、0.05 2. 計算2值: 因bc1440, 故 (12-2-1)2 2 5.786 1223. 確定P值,判斷結(jié)果 2 5.7862 0.05(1),則0.01P0.05,按0.05水準, 拒絕H0 , 接受H1 , 認為兩醫(yī)生診斷矽肺的結(jié)果不同, 甲醫(yī)師診斷陽性率高于乙醫(yī)師。三、R C表資料的2 檢驗適用:多個樣本率(或構(gòu)成比)比較 A2 2 n ( -1) =(R-1)(C-1) nR nc nR 行合計數(shù) nC 列合計數(shù) n 總例數(shù) A 實際觀察數(shù) 某年3個地區(qū)婚檢檢出疾病構(gòu)成 生殖S病 遺傳病 傳染病 內(nèi)科病 合計 甲 72 5 19 15 111 乙 51 6 31 9 97 丙

48、68 5 42 5 120合 計 191 16 92 29 328 例:某年3個地區(qū)婚檢檢出疾病分類如下表, 試分 析3個地區(qū)婚檢檢出疾病的構(gòu)成比有無差別? 1. 建立檢驗假設,確定檢驗水準 H0 : 3個地區(qū)婚檢疾病構(gòu)成比相同 H1 : 3個地區(qū)婚檢疾病構(gòu)成比不同或不全相同 0.05 2. 計算2值 2 14.970 3. 確定P值,判斷結(jié)果 (4-1) (3-1)6 查附表, 2 0.05(6) 12.59, 2 0.01(6) 16.81, 故P0.05, 按0.05水準拒絕H0 , 接受H1 , 可認為3個地區(qū)婚檢檢出疾病的構(gòu)成比不同, 有地區(qū)差異。應用R C表2 檢驗的注意事項 1.

49、T不宜太小,否則導致分析偏性。 一般不宜有1/5以上格子的T5, 或有一個T1。 對太小的T有三種處理辦法: (1)增加樣本含量; (2)將理論數(shù)太小的行或列與相鄰的行或列的觀察值合并,但應注意合并的合理性; (3)刪除理論數(shù)太小的行或列。 2.當檢驗結(jié)論為拒絕H0時只能認為所比較的各組間總的差異有顯著意義(或至少有兩組之間差異有顯著意義),但不能確定哪兩組之間的差異,或彼此間的差異有顯著意義。SUMMARY一、率的抽樣誤差和總體率的估計二、率的u檢驗三、2 檢驗 (一)四格表資料的2 檢驗 1.基本公式(n40, 且T5) 2.專用公式 (n40, 且T5) 3.校正公式 (n40, 且1T

50、5 )20.05(1)=3.84 P=0.0520.01(1)=6.63 P=0.01(二)配對資料的2 檢驗 (b-c)2 2 bc40 bc 或 (b-c-1)2 2 bc 40 bc(三)R C表資料的2 檢驗 1.計算 2.注意事項一、率的抽樣誤差和總體率的估計二、2 檢驗的原理和基本步驟 20.05(1)=3.84 P=0.05 20.01(1)=6.63 P=0.01三、四格表資料的2 檢驗(一)基本公式(n40, 且T5) (二)專用公式 (n40, 且T5) (三) 校正公式 (n40, 且1T5 ) 返回 目錄第六章 相關(guān)與回歸 變量間的關(guān)系: 年齡與血壓,身高與體重,胰島素

51、與血糖水平,藥物劑量與療效,污染物濃度與污染源的距離, 分析方法? 直線相關(guān)與直線回歸1. 研究變量間的相互關(guān)系及緊密程度 相關(guān)分析2. 研究變量間的數(shù)量依存關(guān)系 回歸分析最簡單的分析方法 直線相關(guān),直線回歸 (1)只涉及兩個變量 X,Y (2)X與Y之間呈直線關(guān)系 第一節(jié) 直 線 相 關(guān) linear correlation 一、概 念1.直線相關(guān):兩個變量之間的線性關(guān)系。 (1)正相關(guān),完全正相關(guān) (2)負相關(guān),完全負相關(guān) (3)零相關(guān)2. 判斷:作散點圖(scatter plot),是否呈直線。0r1-1r0 :正相關(guān) r0 :負相關(guān)0r1 : 正相關(guān)r=1 : 完全正相關(guān)1r0 : 負

52、相關(guān)r=-1 : 完全負相關(guān)注:r=0 零相關(guān) (無相關(guān))0r1-1rt 0.01(8) , 故P0.01, 表明紅細胞體積與紅細胞數(shù)之間的線性關(guān)系存在。 2. 查表法: 附表13-1:相關(guān)系數(shù)r界值表 r P 對r的判斷 0.05 無統(tǒng)計學意義 r0.05() 0.05 有統(tǒng)計學意義 r0.01() 0.01 有統(tǒng)計學意義 上例: 查附表, r0.01(8) 0.765, 本例r0.952, rr0.01(8) ,故P0, 直線與縱軸的交點在原點的上方; (2) b0 =0, 直線通過原點; (3) b0 0, 直線從左下方走向右上方,即Y隨X的增大而增大; (2) b=0, 直線與X軸平行

53、,即X與Y無線性關(guān)系; (3) b0, 直線從左上方走向右下方,即Y隨X的增大而減小求最適合直線的最普通的方法 最小二乘法(least square method)使得各實測點與直線的縱向距離平方和,即誤差平方和(y- )2為最小的方法。由此導出b,b0算式: blxy/lxx b0 b lxy=離均差積和 (x )(y )xy(x)(y)/n lxx=x的離均差平方和 (x )2x2(x)2/n (二)直線回歸方程的計算步驟例 用分光光度計測物質(zhì)含量, 其光密度讀數(shù)與物質(zhì)含量有關(guān), 現(xiàn)有丙酮酸鈉含量(mol/L)與光密度讀數(shù), 要求標準曲線。 丙酮酸鈉含量與光密度讀數(shù) 樣品號 丙酮酸鈉含量

54、光密度讀數(shù) 1 1 1.0 2 2 2.1 3 3 3.2 4 4 4.2 5 5 4.81. 繪制散點圖:以丙酮酸鈉含量為橫坐標, 光密度為縱坐標,散點呈直線趨勢。 5 4 3 2 1 0 1 2 3 4 5 2. 計算基本數(shù)據(jù):x、x2、y、y2、xy、 ,lxx、lxy。 x15 x255 y15.3 y256.33 xy55.6 x/n15/53 y/n15.3/53.06 lxxx2(x)2/n55(15)2/510.0 lxyxy(x)(y)/n55.6(1515.3)/5 9.703. 計算b、 b0 ,得回歸方程: blxy/lxx9.70/100.97 b0 b 3.060.9730.15 0.150.97x4. 畫回歸直線:以x1及x5代入回歸方程, 求相應的 。 x1時, 1.12; x5時, 5.0。 以(1, 1.12)、(5, 5.0)兩點作直線即是所求的回歸直線, 5 4 3 2 1 0 1 2 3 4 5(三)回歸系數(shù)的假設檢驗1. lyy與的分解 應變量y的平

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論