醫(yī)學統(tǒng)計學:第二章 統(tǒng)計資料的整理與描述_第1頁
醫(yī)學統(tǒng)計學:第二章 統(tǒng)計資料的整理與描述_第2頁
醫(yī)學統(tǒng)計學:第二章 統(tǒng)計資料的整理與描述_第3頁
醫(yī)學統(tǒng)計學:第二章 統(tǒng)計資料的整理與描述_第4頁
醫(yī)學統(tǒng)計學:第二章 統(tǒng)計資料的整理與描述_第5頁
已閱讀5頁,還剩94頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、1第二章 統(tǒng)計資料的整理與描述22StatisticalMethodsParameterEstimationHypothesisTestingInferentialStatisticsDescriptiveStatisticsThe Main Contents of the Statistical Analysis主要內(nèi)容 個體變異(Individual Variation)頻數(shù)分布(Frequency Distribution) 定量資料的統(tǒng)計指標(Statistics of Data) 總結 (Summary) 4個體變異個體變異(individual variation)是同質觀察對象間

2、表現(xiàn)出的差異。變異是生物體在一種或多種、已知或未知的不可控因素作用下所產(chǎn)生的綜合反映。就每個觀察單位而言,其觀察指標的變異是隨機的(random)。就總體而言,個體變異是有規(guī)律的。5個體變異是統(tǒng)計學應用的前提個體變異抽樣誤差統(tǒng)計推斷62.1 個體變異生物體的變異是普遍存在的,是客觀事實,無法準確預測。這種變異是有規(guī)律的, 是可以認識的。7主要內(nèi)容 個體變異(Individual Variation )頻數(shù)分布(Frequency Distribution) 頻數(shù)分布表的編制數(shù)據(jù)分布的類型頻數(shù)分布表的用途定量資料的統(tǒng)計指標(Statistics of Data) 總結 (Summary) 8一個

3、原始資料某市1997年12歲男童120人的身高(cm)資料如下。 142.3 156.6 142.7 145.7 138.2 141.6 142.5 130.5 134.5 148.8134.4 148.8 137.9 151.3 140.8 149.8 145.2 141.8 146.8 135.1150.3 133.1 142.7 143.9 151.1 144.0 145.4 146.2 143.3 156.3141.9 140.7 141.2 141.5 148.8 140.1 150.6 139.5 146.4 143.8143.5 139.2 144.7 139.3 141.9 1

4、47.8 140.5 138.9 134.7 147.3138.1 140.2 137.4 145.1 145.8 147.9 150.8 144.5 137.1 147.1142.9 134.9 143.6 142.3 125.9 132.7 152.9 147.9 141.8 141.4140.9 141.4 160.9 154.2 137.9 139.9 149.7 147.5 136.9 148.1134.7 138.5 138.9 137.7 138.5 139.6 143.5 142.9 129.4 142.5141.2 148.9 154.0 147.7 152.3 146.6

5、132.1 145.9 146.7 144.0135.5 144.4 143.4 137.4 143.6 150.0 143.3 146.5 149.0 142.1140.2 145.4 142.4 148.9 146.7 139.2 139.6 142.4 138.7 139.992.2 頻數(shù)分布現(xiàn)狀:原始數(shù)據(jù)(raw data)往往是龐大的、混亂的;原因:由于個體變異的存在,各個體上的觀察結果不是恒定不變的;特點:表面上雜亂無章,但分布(distribution)有一定規(guī)律!解決:頻數(shù)分布表,頻數(shù)分布圖。 10(一)頻數(shù)表的編制(frequency distribution drawing

6、s)2.2 頻數(shù)分布求極差(R)。 R=160.9-125.9 =35劃分組段。 定組數(shù)、組段、組距統(tǒng)計頻數(shù)。組 段 頻 數(shù)頻 率 12410.0083 12820.0167 132100.0833 136220.1834 140370.3083 144260.2167 148150.1250 15240.0333 15620.0167 16010.0083合 計1201.0000定量資料的頻數(shù)分布表12定量資料的頻數(shù)分布 x Freq. 124 1 * 128 2 * 132 10 * 136 22 * 140 37 * 144 26 * 148 15 * 152 4 * 156 2 * 1

7、60 1 * Total 120 13124 128 132 136 140 144 148 152 156 160定量資料的頻數(shù)分布定量資料的頻數(shù)分布圖15定性及等級資料的頻數(shù)分布血型頻數(shù)頻率(%)O20540.43A11222.09B15029.59AB407.89合計507100.00定性資料的整理:根據(jù)指標的自然屬性歸類,計數(shù)頻數(shù)。 等級資料的整理:根據(jù)指標的不同等級歸類,計數(shù)頻數(shù)。162.2 頻數(shù)分布總結定量資料的頻數(shù)分布:人為地劃分為若干個相連接的區(qū)間,計數(shù)頻數(shù)。 頻數(shù)分布用于表達指標的分布規(guī)律。分布規(guī)律:變異規(guī)律。 1717主要內(nèi)容 個體變異(Individual Variati

8、on )頻數(shù)分布(Frequency Distribution) 頻數(shù)分布表的編制數(shù)據(jù)分布的類型頻數(shù)分布表的用途定量資料的統(tǒng)計指標(Statistics of Data) 總結 (Summary) 1818(二)數(shù)據(jù)分布的類型 types of frequency distribution對稱分布 symmetric distribution 偏態(tài)分布 skewness distribution2.2 頻數(shù)分布單峰分布 Single Peak Distribution雙峰,多峰分布 Bimodal or Multi-peak Distribution 分布的對稱 峰的多少19124132140

9、148156164010203040人數(shù)身高(cm)對稱分布2.2 頻數(shù)分布20偏態(tài)分布正偏態(tài)(positive skew) 負偏態(tài)(negative skew) 2.2 頻數(shù)分布21偏態(tài)(skewness):Skewness means the lack of symmetry in a probability distribution. (The Cambridge Dictionary of Statistics in the Medical Sciences.)An asymmetric distribution is called skew. (Armitage: Statistic

10、al Methods in Medical Research.)2.2 頻數(shù)分布22非對稱分布稱為skewness;俗稱偏態(tài)分布,有人稱偏峰分布。“偏”是偏離的意思,表示個別觀察值偏離均數(shù)較遠,而不是“集中位置偏”;2.2 頻數(shù)分布23 “分布不對稱者稱為偏態(tài)分布。偏態(tài)分布又分為正偏分布和負偏分布。所謂正偏分布是指分布的長尾在峰的右側,又稱右偏分布;所謂負偏分布是指分布的長尾在峰的左側,又稱左偏分布。”2.2 頻數(shù)分布2470 3 5 7 9 11 13 15 17 19 21 10 20 30 40 50 60 0 1 人數(shù)大多數(shù)居民發(fā)汞含量在115mol/kg之間,少數(shù)人的發(fā)汞大于15mo

11、l/kg,分布呈正偏態(tài)。 發(fā)汞含量(mol/kg)(a) 239人發(fā)汞含量的頻數(shù)分布25圖 某城市892名老年人生存質量自評分的頻數(shù)分布0 10 20 30 40 50 60 70 80 90 100自評分400300200100 0人數(shù)260 5 10 15 20 25 30 35 40 45 0 10203040 (b) 102名黑色素瘤患者的生存時間頻數(shù)分布人數(shù)生存時間(月)患者生存時間大部份在30個月內(nèi),少數(shù)達45個月,分布呈極度偏態(tài),又稱L型分布 。27圖 某地19901992年男性死亡年齡分布 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 7

12、5 80 85死亡年齡(歲)2500200015001000 500 028主要內(nèi)容 個體變異(Individual Variation)頻數(shù)分布(Frequency Distribution) 頻數(shù)分布表的編制數(shù)據(jù)分布的類型頻數(shù)分布表的用途定量資料的統(tǒng)計指標(Statistics of Data) 總結 (Summary) 29 觀察有無可疑值; 便于進一步計算; 考察分布的類型; 考察分布的特征;2.2 頻數(shù)分布(三)頻數(shù)分布表的用途30The Importance of Graphs! 圖 數(shù)值變量頻率分布圖The Importance of Graphs! 1973年,統(tǒng)計學家F.J.

13、 Anscombe構造出了四組奇特的數(shù)據(jù)。31Anscombes QuartetIIIIIIIVxyxyxyxy10.08.0410.09.1410.07.468.06.588.06.958.08.148.06.778.05.7613.07.5813.08.7413.012.748.07.719.08.819.08.779.07.118.08.8411.08.3311.09.2611.07.818.08.4714.09.9614.08.1014.08.848.07.046.07.246.06.136.06.088.05.254.04.264.03.104.05.3919.012.5012.01

14、0.8412.09.1312.08.158.05.567.04.827.07.267.06.428.07.915.05.685.04.745.05.738.06.8932奇特之處:單從這些統(tǒng)計數(shù)字上看來,四組數(shù)據(jù)所反映出的實際情況非常相近;The Importance of Graphs! 33而事實上,這四組數(shù)據(jù)有著天壤之別!The Importance of Graphs! 34The Importance of Graphs! 35圖 拿破侖1812-1813年與俄國戰(zhàn)爭行軍路線圖. (C.J.Minard,1869)The Importance of Graphs! 3636主要內(nèi)容

15、個體變異(Individual Variation )頻數(shù)分布(Frequency Distribution) 定量資料的統(tǒng)計指標(Statistics of Data)集中趨勢的描述離散程度的描述正確應用總結 (Summary) 372.3 定量資料的描述圖形描述頻數(shù)分布圖 趨勢圖指標描述 集中位置:算術均數(shù)、幾何均數(shù)、中位數(shù)、百分位數(shù) 離散程度:極差、標準差、方差、四分位數(shù)間距38均數(shù) (arithmetic mean, mean) 幾何均數(shù) (geometric mean)中位數(shù) (median)百分位數(shù) (percentile)(一)集中趨勢的描述(average)39均數(shù)(arith

16、metic mean, mean)(一)集中趨勢的描述(average)40加權均數(shù)(weighted mean) 均數(shù)是加權均數(shù)的一個特例(一)集中趨勢的描述(average)41均數(shù)的應用:1.最適于對稱分布資料特別是正態(tài)分布資料;2.一組數(shù)據(jù)的均衡點所在;3.易受極端值的影響。對于偏態(tài)資料,均數(shù)不能較好地反映其集中趨勢。(一)集中趨勢的描述(average)42張村有個張千萬,隔壁九個窮光蛋平均起來算一算,人人都是張百萬這說明了什么?(一)集中趨勢的描述(average)43幾何均數(shù)(geometric mean) 加權法: f lgx fG = lg-1直接法:(一)集中趨勢的描述(a

17、verage)441:10, 1:20, 1:40, 1:80, 1:160(一)集中趨勢的描述(average)45幾何均數(shù)的應用:1. 等比資料,如抗體平均滴度2. 對數(shù)正態(tài)分布資料(一)集中趨勢的描述(average)46使用幾何均數(shù)時的注意點:1) 觀察值不能有0。2) 觀察值不能同時有正值和負值。若全為負值,在計算時先把負號去掉,得出結果再加上負號。(一)集中趨勢的描述(average)47中位數(shù)(median) 將一組數(shù)據(jù)按從小到大的順序排列,位置居中的數(shù)即是中位數(shù)。反映一組觀察值在位次上的平均水平。(一)集中趨勢的描述(average)M48中位數(shù)例9例正常人的發(fā)汞值: 1.1,

18、 1.8 3.5 4.2 4.8 5.6 5.9 7.1 10.5 M=4.8 9例正常人的發(fā)汞值: 1.1, 1.8 3.5 4.2 4.8 5.6 5.9 7.1 16 M=4.810例正常人的發(fā)汞值: 1.1, 1.8 3.5 4.2 4.8 5.6 5.9 7.1 10.5 16 M=(4.8+5.6)/2=5.2 中位數(shù)應用:1. 不易受極端值的影響;2.可用于任何分布的資料。常用于: 大樣本偏態(tài)分布資料; 有不確定值資料; 資料分布不明等;3. 中位數(shù)和均數(shù)在對稱分布上理論上是相同的。49(一)集中趨勢的描述(average)50百分位數(shù)(percentile) X% PX (10

19、0-X)%50%分位數(shù)就是中位數(shù)25%,75%分位數(shù)稱四分位數(shù)(quartile) (一)集中趨勢的描述(average)51均數(shù)幾何均數(shù)中位數(shù)百分位數(shù)適用資料單峰對稱分布等比資料、對數(shù)正態(tài)分布各種分布、偏態(tài)分布、不確定值各種分布、偏態(tài)分布、不確定值計算特點用到全部數(shù)據(jù)用到全部數(shù)據(jù)中間數(shù)據(jù)部分數(shù)據(jù)極端值的影響敏感敏感、不能同時有正負數(shù)不敏感不敏感集中趨勢的描述指標小結(一)集中趨勢的描述(average)52只用平均數(shù)描述資料的弊病 It has been said that a fellow with one leg frozen in ice and the other leg in bo

20、iling water is comfortable. ON AVERAGE !53主要內(nèi)容 個體變異(Individual Variation )頻數(shù)分布(Frequency Distribution) 定量資料的統(tǒng)計指標(Statistics of Data)集中趨勢的描述離散程度的描述正確應用總結 (Summary) 54例如,設有三組同年齡、同性別兒童體重(kg)數(shù)據(jù)如下:甲組 26 28 30 32 34 乙組 24 27 30 33 36 丙組 26 29 30 31 34 (二)離散程度的描述55(二)離散程度的描述56極差(range)四分位數(shù)間距(inter-quartile

21、 range) 方差 (variance) 標準差 (standard deviation)變異系數(shù) (coefficient of variation) (二)離散程度的描述57極差(range)極差(全距),用字母R表示,描述數(shù)據(jù)分布的范圍。極差大,說明數(shù)據(jù)分布較分散。(二)離散程度的描述58特點方法簡單明了;不靈敏,除了最大最小值外,不能反映組內(nèi)其他數(shù)據(jù)的變異;不穩(wěn)定,樣本較大時抽到較大值與較小值的可能性也較大,因而樣本極差也較大,故樣本含量相差較大時,不宜用極差來比較分布的離散度。 59如上述三組數(shù)據(jù)中:甲組數(shù)據(jù)的極差 R=34-26=8乙組數(shù)據(jù)的極差 R=36-24=12丙組數(shù)據(jù)的極

22、差 R=34-26=8甲組、丙組數(shù)據(jù)分布較乙組集中。甲組與丙組的離散程度相同?60四分位數(shù)間距 (inter-quartile range) (1)四分位數(shù) (quartile,Q)下四分位數(shù)即第25百分位數(shù),常用QL表示;上四分位數(shù)即第75百分位數(shù),常用QU表示。 (2)四分位數(shù)間距 指上、下四分位數(shù)的間距,既QL與QU間的差距,它是從小到大排列后中間一半數(shù)據(jù)所在的范圍。 (二)離散程度的描述QLQU61(三)方差與標準差 62(三)方差與標準差 63(三)方差與標準差 64(三)方差與標準差 65標準差的計算直接法 總體標準差:樣本標準差:(三)方差與標準差 66加權法 xi是各組段的組中

23、值,fi是相應的頻數(shù) (三)方差與標準差 67甲組: 26 28 30 32 34乙組: 24 27 30 33 36丙組: 26 29 30 31 34 極差方差 標準差甲組: 8 10.03.16 乙組: 1222.54.74丙組: 8 8.52.92(三)方差與標準差 68(四)變異系數(shù) 變異系數(shù)(coefficient of variation, CV)69由于度量單位不同,故不能直接比較兩者的標準差,而應比較變異系數(shù):身高 體重 由此可見,該地20歲男子體重的變異度大于身高的變異度。 例題 某地20歲男子100人,身高均數(shù)為166.06cm,標準差為4.98cm;體重均數(shù)為53.7k

24、g,標準差為4.96kg,試比較身高和體重的變異何者為大。70(二)離散程度的描述極差四分位數(shù)間距方差、標準差變異系數(shù)適用資料任何分布常用于偏態(tài)分布正態(tài)分布度量衡單位不同、均數(shù)相差懸殊計算特點用到兩端數(shù)據(jù)用到中間數(shù)據(jù)全部數(shù)據(jù)全部數(shù)據(jù)極端值的影響敏感不敏感敏感敏感離散程度的描述指標小結7171主要內(nèi)容 個體變異(Individual Variation )頻數(shù)分布(Frequency Distribution) 定量資料的統(tǒng)計指標(Statistics of Data) 總結 (Summary) 72總結(1)不同質的資料應考慮分別計算平均數(shù)。各個指標都有其適用范圍;中位數(shù)和百分位數(shù)在樣本含量較

25、少時不穩(wěn)定,越靠兩端越不穩(wěn)定;中位數(shù)在抗極端值的影響方面,比均數(shù)具有較好的穩(wěn)定性,但不如均數(shù)精確。因此,當資料適合計算均數(shù)或幾何均數(shù)時,不宜用中位數(shù)表示其平均水平。73標準差的基本內(nèi)容是離均差,它顯示一組變量值與其均數(shù)的間距,故標準差直接地、總結地、平均地描述了變量值的離散程度。在同質的前提下,標準差大表示變量值的離散程度大,即變量值的分布分散、不整齊、波動較大;反之,標準差小表示變量值的離散程度小,即變量值的分布集中、整齊、波動較小。變異系數(shù)派生于標準差,其應用價值在于排除了平均水平的影響,并消除了單位??偨Y(2)74均數(shù)標準差(min,max)中位數(shù)四分位數(shù)間距 (min,max)變異度小

26、,則均數(shù)代表性好!變異度大,數(shù)據(jù)分散,則均數(shù)代表性差!平均數(shù)所表示的集中性與變異度所表示的離散性,從兩個不同的角度闡明計量資料的特征!總結(3)平均數(shù)與變異度75總結(4)統(tǒng)計分析的起點是原始數(shù)據(jù),終點是探索出客觀現(xiàn)象內(nèi)在規(guī)律性。統(tǒng)計描述是要找到指標的數(shù)量及其分布的規(guī)律性;統(tǒng)計描述是整個統(tǒng)計學的基礎,統(tǒng)計推斷則是現(xiàn)代統(tǒng)計學的主要內(nèi)容。76每個觀察指標均有其特定的變異規(guī)律;描述變異:圖形描述統(tǒng)計量描述平均數(shù):均數(shù)、幾何均數(shù)、中位數(shù)變異度:標準差(方差)、四分位數(shù)間距、 變異系數(shù)、極差不同分布的指標,用不同的統(tǒng)計量描述;用平均數(shù)與變異度共同描述??偨Y7778謝謝!79Air Quality and

27、 Diabetes Prevalence in United States 2002-2006: a Time Series Cross-section Analysis. Honggang Yi1,2, Wei Yang1 1 Nevada Center for Health Statistics and Informatics, School of Community Health Sciences, University of Nevada, Reno, NV, USA.2 Department of Epidemiology and Biostatistics, School of P

28、ublic Health , Nanjing Medical University, Nanjing, Jiangsu, P.R.ChinaObjective: To study the association between diabetes mellitus in general population and annual mean levels of particulate matter (PM2.5) air quality index (AQI).80The relationship between PM2.5 and DM in the United Stated, 2002-20

29、06Methods: This paper presents a series of analysis of time-series cross-sectional data from 56 metropolitan areas of the U.S covering different periods between 2002 and 2006 . Results: A statistical association was found between the weighted prevalence of diabetes mellitus by the annual mean of PM2

30、.5 AQI value (P0.05).Conclusions: Our study suggested that exposure to relatively higher levels of average annual PM25 AQI may increase the likelihood of diabetes mellitus. 1979198019811982Cross-sectional 1Cross-sectional 2Cross-sectional 3Cross-sectional 4 Time Series Copyright Reserved Honggang Yi

31、82838485Data Structure:The relationship between PM2.5 and DM in the United Stated, 2002-20061.2 Statistical Description of Data1.2.1 Summary statistics for key study variables.1.2.2 Summary descriptions for dependent variable.1.2.3 Summary descriptions for independent variables.1.2.4 Summary descrip

32、tions for socioeconomic, demographic variables.86The relationship between PM2.5 and DM in the United Stated, 2002-2006The relationship between PM2.5 and DM in the United Stated, 2002-20061.2.1 Summary statistics for key study variables.88(1) The frequency distribution of dependent variable is showed

33、 in Figure 1; The P value of Skewness/Kurtosis tests for Normality is 0.0015.1.2.2 Summary descriptions for dependent variable.(2) The trend of dependent variable graphed by MSACode is showed in Figure 2.891.2.2 Summary descriptions for dependent variable.90(3) The trend of dependent variable and its predicted liner trend are showed in Figure 4.1.2.2 Summary descrip

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論