版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1
緒論
2第一節(jié)統(tǒng)計學(xué)與醫(yī)學(xué)統(tǒng)計方法
3一.統(tǒng)計與統(tǒng)計學(xué)的定義
一.統(tǒng)計與統(tǒng)計學(xué)的定義
4什麼是衛(wèi)生統(tǒng)計學(xué)科技的迅速發(fā)展,資訊的大量產(chǎn)生。數(shù)據(jù)作為資訊的主要載體廣泛存在。面對紛亂複雜的數(shù)據(jù)世界我們該如何去認(rèn)識,這就要借助統(tǒng)計學(xué)這個工具,在混沌中發(fā)現(xiàn)規(guī)律。統(tǒng)計學(xué)就是研究數(shù)據(jù)及其存在規(guī)律的科學(xué)。51.統(tǒng)計
是一種對客觀現(xiàn)象數(shù)量方面進(jìn)行的調(diào)查研究活動;是收集、整理、分析、推斷、判斷等認(rèn)識活動的總稱。數(shù)據(jù)匯總僅僅是統(tǒng)計工作的一小部分內(nèi)容。
62.統(tǒng)計學(xué)作為一門學(xué)科的定義是:關(guān)於數(shù)據(jù)收集、表達(dá)和分析的普遍原理和方法。
73.醫(yī)學(xué)統(tǒng)計學(xué)
是用統(tǒng)計學(xué)原理和方法研究生物醫(yī)學(xué)問題的一門學(xué)科。醫(yī)學(xué)統(tǒng)計方法在醫(yī)學(xué)研究中的運(yùn)用主要有三個方面:8工作生活中常見的統(tǒng)計學(xué)問題如何判斷藥物的療效?(假設(shè)檢驗)明天是否下雨?體育彩票能否中獎?(概率論)子女為什麼象父母,其強(qiáng)度有多大?(相關(guān)與回歸)美國的民意測驗是如何進(jìn)行的?(設(shè)計,抽樣)中國的市場調(diào)查的可信性有多大?(現(xiàn)場調(diào)查)
統(tǒng)計學(xué)是對令人困惑費解的數(shù)字問題做出設(shè)想的藝術(shù)。9①以正確的方式收集數(shù)據(jù),如實驗設(shè)計、調(diào)查設(shè)計等。②描述數(shù)據(jù)的統(tǒng)計特徵,如數(shù)據(jù)化簡、統(tǒng)計指標(biāo)的選擇與計算、統(tǒng)計結(jié)果的表達(dá)等。③統(tǒng)計分析及得出正確結(jié)論,如根據(jù)概率分佈,對實驗和觀察結(jié)果存在的差異和關(guān)聯(lián)作出統(tǒng)計推斷。
10二.統(tǒng)計學(xué)的發(fā)展簡史
11統(tǒng)計計算歷史:筆、紙、算盤、對數(shù)表、乘方表、計算尺、計算器等統(tǒng)計發(fā)展歷史:德國數(shù)學(xué)家GUASS(1777-1855)數(shù)字計算題,表現(xiàn)出極高的統(tǒng)計計算天賦。最先提出“相關(guān)與回歸”的英國人類學(xué)家Galton,在人類學(xué)和優(yōu)生學(xué)研究中萌發(fā)的統(tǒng)計思想,其中最重要的一個:wheneveryoucando,count。小樣本均數(shù)Student-t檢驗的發(fā)現(xiàn)者、英國生物統(tǒng)計學(xué)家Gosset(1876-1937)為了解決t檢驗的理論和應(yīng)用問題,通過使用卡片進(jìn)行抽樣試驗和計算統(tǒng)計量得出t分佈曲線,成為Monte-Carlo計算方法的先行者。12現(xiàn)代實驗設(shè)計方法和統(tǒng)計分析技術(shù)的奠基者、英國生物統(tǒng)計學(xué)家fisher(1890-1962)在20世紀(jì)20年代撰寫的實驗設(shè)計和統(tǒng)計方法專著時,因不可能計算出所有小概率對應(yīng)的t分佈和F分佈的臨界值,只好給出了a=0.05,0.01時對應(yīng)的t分佈和F分佈的臨界值表。令他未曾想到的是這種因統(tǒng)計計算方法的限制而人為i設(shè)定的兩個數(shù)字,至今仍然被許多人當(dāng)作小概率的唯一數(shù)量標(biāo)準(zhǔn)。因此,F(xiàn)isher的同事、卡方檢驗、“Yates校正”公式的提出者Yates(1902-1994)強(qiáng)烈主張統(tǒng)計學(xué)家使用電子電腦,並說:Tobeagoodtheoeticalstatisticianonemustalsocompute,andmustthereforehavethebestcomputingaids.20世紀(jì)20年代,英國統(tǒng)計學(xué)家R.A.Fisher爵士(1890-1962)創(chuàng)立了實驗設(shè)計方法和統(tǒng)計分析技術(shù),奠定現(xiàn)代生物統(tǒng)計的基礎(chǔ)。1948年,英國發(fā)表了評價鏈黴素治療肺結(jié)核療效的隨機(jī)對照的臨床試驗報告,第一次採用生物統(tǒng)計方法進(jìn)行臨床干預(yù)試驗。1948年,郭祖超教授(1912~1999)編著的《醫(yī)學(xué)與生物統(tǒng)計方法》,是我國第一部醫(yī)學(xué)統(tǒng)計方法的教科書。14將電腦用於統(tǒng)計計算,主要是通過統(tǒng)計軟體實現(xiàn);SASandSPSS1.實例
遺傳學(xué)家F.Galton爵士(1822-1911)對上千家庭父親身高和兒子身高的觀察發(fā)現(xiàn)遺傳的“回歸”現(xiàn)象1960年英國醫(yī)生Doll,Hill等發(fā)現(xiàn)吸煙與肺癌有關(guān)2.醫(yī)學(xué)論文中的統(tǒng)計學(xué)問題60年代到80年代,國外醫(yī)學(xué)雜誌調(diào)查結(jié)果:有統(tǒng)計錯誤的論文20%~72%。1996年對4586篇論文統(tǒng)計(中華醫(yī)學(xué)會系列雜誌占6.9%),數(shù)據(jù)分析方法誤用達(dá)55.7%。3.偽造統(tǒng)計數(shù)據(jù)違反科學(xué)道德1976年NewScience雜誌關(guān)於科研舞弊行為的調(diào)查(1)74%的調(diào)查表反映有不正當(dāng)修改數(shù)據(jù)的情況(2)17%拼湊實驗結(jié)果(3)7%憑空捏造數(shù)據(jù)(4)2%故意曲解結(jié)果FancystatisticalmethodscannotrescuegarbagedataFancystatisticalmethodscanhelpyougaininsightintoyourdata,overandabovewhatseemsobviousonitsfaceYoushouldalwaysworryaboutwhetherthesampledresultsarerepresentativeofthepopulation,andwhetheryoursampleallowsyoutomakeinferencesaboutthepopulation.AWarning!191.早期
西元前3050年古埃及人為修建金字塔籌集建築費,對全國的人口和財產(chǎn)進(jìn)行了普查。
歷史
20
2.近代
19世紀(jì),應(yīng)用數(shù)學(xué)家為解決賭徒們在博彩中出現(xiàn)的輸贏概率問題逐漸形成和發(fā)展了概率論,從而為統(tǒng)計學(xué)的發(fā)展奠定了堅實的基礎(chǔ)。21
3.現(xiàn)代
電腦和統(tǒng)計軟體如SAS、SPSS的出現(xiàn)使統(tǒng)計學(xué)得到了突飛猛進(jìn)的發(fā)展。22
統(tǒng)計方法是建立在現(xiàn)代科學(xué)方法之上,由統(tǒng)計學(xué)理論指導(dǎo)的數(shù)據(jù)收集、表達(dá)和分析的方法,現(xiàn)代科學(xué)方法可以概括為以下幾點:23問題的識別與表達(dá)(發(fā)現(xiàn)問題、提出問題)。搜集有關(guān)資料。通過歸納得出假說:因果聯(lián)繫及重要的模式。從假說作出演繹:進(jìn)行實驗或收集更多的資料。推理:結(jié)果與演繹相符,假說得到加強(qiáng),但不是被證明(例某地區(qū)食鹽與高血壓的關(guān)係)。24三.統(tǒng)計學(xué)的特點
醫(yī)學(xué)+數(shù)學(xué),側(cè)重醫(yī)學(xué),淡化數(shù)學(xué)。用數(shù)量反映品質(zhì),如平均期望壽命,解放前為35歲,現(xiàn)在70歲,可反映國家醫(yī)療衛(wèi)生服務(wù)總體水準(zhǔn)的提高。大量觀察+實驗數(shù)據(jù)分析→可以揭示醫(yī)學(xué)規(guī)律。
25
第二節(jié)
統(tǒng)計工作的基本步驟261.專業(yè)設(shè)計:選題、建立假說、確定研究對象和技術(shù)方法等→個性
2.統(tǒng)計設(shè)計:圍繞專業(yè)設(shè)計確定統(tǒng)計設(shè)類型、樣本大小、分組方法、統(tǒng)計分析指標(biāo)及統(tǒng)計分析方法。
一、設(shè)計
27二、收集資料
(一)資料來源第一手資料
①
經(jīng)常性:統(tǒng)計報表(死亡登記、疫情報告等),工作記錄(病歷、化驗);②一時性:專題調(diào)查、實驗或臨床試驗。第二手資料:已公佈的資料,如數(shù)據(jù)銀行、全國、全省衛(wèi)生統(tǒng)計資料。
28(二)資料要求
1.完整:觀察單位及觀察專案完整。
觀察單位:最基本的獲取數(shù)據(jù)的單元??梢允且粋€體,亦可以是一個單位、家庭、地區(qū),一批樣品,一個採樣點。
29
2.準(zhǔn)確:即真實、可靠。真實是統(tǒng)計學(xué)的靈魂。
3.及時:即時限性。如人口普查規(guī)定調(diào)查開始日期和截止日期。30三.整理資料
整理資料即原始數(shù)據(jù)的條理化、系統(tǒng)化的過程。所採取的手段→合理化分組,目的→實現(xiàn)專業(yè)目標(biāo)。質(zhì)分組:按事物的屬性或性質(zhì)分組→分類變數(shù);量分組:按數(shù)據(jù)的大小→數(shù)值變數(shù)。31四.分析資料
1.統(tǒng)計描述:用統(tǒng)計指標(biāo)、統(tǒng)計圖表對資料的數(shù)量特徵及分佈規(guī)律進(jìn)行測定和描述。
2.統(tǒng)計推斷:用樣本資訊推斷總體特徵:①參數(shù)估計,②假設(shè)檢驗。32
第三節(jié)統(tǒng)計資料的類型
有三種類型的資料:計量資料,計數(shù)資料,等級資料
基本概念:變數(shù)及變數(shù)值,研究者對每個觀察單位的某項特徵進(jìn)行觀察和測量,這種特徵稱為變數(shù),變數(shù)的測得值叫變數(shù)值(也叫觀察值),稱為資料。按變數(shù)值的性質(zhì)可將資料分為定量資料和定性資料。331.計量資料定義:通過度量衡的方法,測量每一個觀察單位的某項研究指標(biāo)的量的大小,得到的一系列數(shù)據(jù)資料。例如:體重與身高特點:有度量衡單位多為連續(xù)性資料(通過測量得到)34定義:將全體觀測單位按照某種性質(zhì)或特徵分組,然後再分別清點各組觀察單位的個數(shù)。特點:沒有度量衡單位
多為間斷性資料
(通過枚舉或記數(shù)得來)
2.計數(shù)資料35定義:介於計量資料和計數(shù)資料之間的一種資料,通過半定量方法測量得到。特點:每一個觀察單位沒有確切值各組之間有性質(zhì)上的差別或程度上的不同。3.等級資料36(三)資料的轉(zhuǎn)化(變數(shù)類型的轉(zhuǎn)化)
數(shù)值變數(shù)分類變數(shù)
37例如:測得5人的WBC(個/m3)數(shù)如下:
300060005000800012000數(shù)值變數(shù)過低正常正常正常異常分類變數(shù)若按正常3人,異常2人分組→二分類變數(shù)若按過低1人,正常3人,過高1人分組→等級資料38
*提示:
①多途徑;②儘量用定量指標(biāo),否則損失資訊量;③定性指標(biāo)可轉(zhuǎn)化為定量指標(biāo),但較粗糙。39第四節(jié)統(tǒng)計學(xué)中的幾個基本概念1、變異2、總體與樣本3、抽樣方法4、誤差5、頻率與概率
401.變異
同質(zhì)事物個體間的差異。來源於一些未加控制或無法控制的甚至不明原因的因素。是統(tǒng)計學(xué)存在的基礎(chǔ),從本質(zhì)上說,統(tǒng)計學(xué)就是研究變異的科學(xué)。
41對變異的認(rèn)識:
(1)自然變異的範(fàn)圍是有限的,可以度量;參差不齊的測量值,通過大量重複觀測可以顯現(xiàn)出統(tǒng)計分佈規(guī)律,如表1-1數(shù)據(jù)的變異特徵至少有以下兩點:42①變異的範(fàn)圍在3.2~6.2;②有明顯的統(tǒng)計分佈規(guī)律,4.7~5.0的人數(shù)最多。根據(jù)表1-1的數(shù)據(jù),統(tǒng)計上還可以進(jìn)一步推論出正常成年男子紅細(xì)胞計數(shù)的正常值參考範(fàn)圍。43表1-1120名正常成年男子紅細(xì)胞計數(shù)值
5.125.134.584.314.094.414.334.584.245.454.324.844.915.145.254.894.794.905.094.645.145.464.664.204.213.735.175.795.464.494.855.284.784.324.945.214.685.094.684.915.135.263.844.174.563.526.004.054.924.874.284.465.035.695.254.565.534.584.864.974.704.284.375.334.784.755.395.274.896.184.135.224.444.134.434.025.865.125.363.864.685.485.314.534.834.113.294.184.134.063.424.684.525.193.705.514.644.924.934.903.925.044.704.543.954.404.313.774.164.585.353.715.274.525.214.374.804.753.865.69最大值=6.18,最小值=3.29,極差=2.89。算術(shù)均數(shù)=4.72,標(biāo)準(zhǔn)差=0.5744
(2)用統(tǒng)計的方法可以確定出所有研究對象的變異範(fàn)圍,如正常成年男性的細(xì)胞數(shù)的範(fàn)圍。身高範(fàn)圍等等。
(3)沒有變異就沒有統(tǒng)計,變異使統(tǒng)計有了用武之地。4546總體:根據(jù)研究目的確定的研究對象的全體。當(dāng)研究有具體而明確的指標(biāo)時,總體是指該項變數(shù)植的全體。樣本:總體中有代表性的一部分。觀察單位(個體):最基本的研究單位分為有限總體和無限總體。由於調(diào)查總體的不可能性、巨大性和沒必要。對其中的一部分對象進(jìn)行調(diào)查----樣本(總體與樣本的關(guān)係。舉例。)樣本選擇的原則--??樣本量(samplesize)2.總體與樣本(populationandsample)populationandsample總體:根據(jù)研究目的確定的同質(zhì)研究對象的全體(集合)。分有限總體與無限總體樣本:從總體中隨機(jī)抽取的部分觀察單位
隨機(jī)抽樣randomsampling為了保證樣本的可靠性和代表性,需要採用隨機(jī)的抽樣方法(在總體中每個個體具有相同的機(jī)會被抽到)。503、抽樣方法選擇樣本的方法:概率抽樣和非概率抽樣
等概率抽樣非等概率抽樣簡單隨機(jī)抽樣系統(tǒng)抽樣分層抽樣整群抽樣514.誤差誤差:統(tǒng)計上所說的誤差泛指測量值與真值之差,樣本指標(biāo)與總體指標(biāo)之差。主要有以下二種:系統(tǒng)誤差和隨機(jī)誤差(隨機(jī)測量誤差,抽樣誤差)。
(1)系統(tǒng)誤差:指數(shù)據(jù)搜集和測量過程中由於儀器不準(zhǔn)確、標(biāo)準(zhǔn)不規(guī)範(fàn)等原因,造成觀察結(jié)果呈傾向性的偏大或偏小,這種誤差稱為系統(tǒng)誤差。特點:具有累加性(2).隨機(jī)誤差:由於一些非人為的偶然因素使得結(jié)果或大或小,是不確定、不可預(yù)知的。特點:隨測量次數(shù)參加而減小。52
在消除了系統(tǒng)誤差的前提下,由於非人為的偶然因素,對於同一樣本多次測定結(jié)果不完全一樣,結(jié)果有時偏大有時偏小,沒有傾向性,這種誤差叫隨機(jī)測量誤差。特點:沒有傾向性,多次測量計算平均值可以減小甚至消除隨機(jī)測量誤差。A、隨機(jī)測量誤差53
這類誤差可以通過實驗設(shè)計和技術(shù)措施來消除或使之減少。
觀察性研究由於組間不可比性產(chǎn)生的系統(tǒng)誤差稱為偏倚(bias),如吸煙組的平均年齡大於吸煙組,兩組死亡率的差異包含年齡偏倚。54
由於抽樣原因造成的樣本指標(biāo)與總體指標(biāo)之間的差別。特點:有抽樣抽樣誤差就不可避免。統(tǒng)計上可以計算並在一定範(fàn)圍內(nèi)控制抽樣誤差。B、抽樣誤差55
(1)改進(jìn)抽樣方法,增加樣本的代表性。樣本量n相等的情況下:整群抽樣>單純隨機(jī)抽樣>系統(tǒng)抽樣>分層抽樣(2)增加樣本量n(3)選擇變異程度較小的研究指標(biāo)減少抽樣誤差的方法:565.概率(probability)與頻率
拋一枚硬幣,是否國徽面一定向上?明天的股市升還是降?某患者痊癒的可能性?這些問題的答案都不可能絕對。概念:描述隨機(jī)事件發(fā)生的可能性大小的數(shù)值,常用P來表示。大?。篜的大小在0和1之間,越接近於1,說明發(fā)生的可能性越大,越接近於0,說明發(fā)生的可能性越小。統(tǒng)計學(xué)中的許多結(jié)論是帶有概率性質(zhì)的,通常一個事件的發(fā)生小於5%,就叫小概率事件。頻率:在實際工作中,當(dāng)觀察單位的例數(shù)足夠多時,可以用頻率來代替概率。頻率是概率的估計值。57
1.頻率(frequency),假設(shè)在相同條件下,獨立地重複做n次試驗,A在n次試驗中出現(xiàn)了m次,則比值m/n稱為隨機(jī)事件A在n次試驗中出現(xiàn)的頻率。當(dāng)試驗重複很多次時,有
P(A)≈m/n
(1-1)58
2.概率又稱為機(jī)率(probability),是度量某一隨機(jī)事件A發(fā)生可能性大小的一個數(shù)值,記作P(A),0<P(A)<1。
P(A)越大,A發(fā)生的可能性越大,反之亦然。當(dāng)時或時,A是必然發(fā)生或必然不發(fā)生的非隨機(jī)事件。59
頻率是就樣本而言的,而概率從總體的意義上說的,m/n是概率P(A)的估計值。試驗次數(shù)越多,估計越可靠。60
3.小概率事件,通常認(rèn)為是不可能發(fā)生的事件。61如何學(xué)習(xí)統(tǒng)計學(xué)
(特點:靈活、抽象)理解基本的統(tǒng)計原理培養(yǎng)統(tǒng)計思維能力:抽象的,邏輯推理多練習(xí):課堂練習(xí),課下做習(xí)題
聯(lián)繫實際:閱讀文獻(xiàn)工作和生活實際第一節(jié)頻數(shù)分佈表與頻數(shù)分佈圖
頻數(shù)表與頻數(shù)分佈平均指標(biāo)(算術(shù)均數(shù)、幾何均數(shù)、中位數(shù)、眾數(shù))變異指標(biāo)(極差、百分位數(shù)與四分位間距、方差、標(biāo)準(zhǔn)差、變異係數(shù))一、頻數(shù)表與頻數(shù)分佈
(frequencytableandfrequencydistribution)
表4-1160名正常成年女子的血清甘油三酯(mmol/L)
編號血清甘油三脂編號血清甘油三脂10.51……20.521531.6530.591541.6640.611551.6750.611561.6760.621571.6970.631581.780.641591.71……1601.771.頻數(shù)表的編制步驟(1)求極差(range):即最大值與最小值之差,又稱為全距。本例極差:R=1.77-0.51=1.26(mmol/L)(2)決定組數(shù)、組段和組距:根據(jù)研究目的和樣本含量n確定。組距=極差/組數(shù),通常分10-15個組,為方便計,組距參考極差的十分之一,再略加調(diào)整。本例i=R/10=1.26/10=0.126≈0.1。(3)列出組段:第一組段的下限略小於最小值,最後一個組段上限必須包含最大值,其他組段上限值忽略。(4)劃記計數(shù):用劃記法將所有數(shù)據(jù)歸納到各組段,得到各組段的頻數(shù)。
組段(1)
劃記(2)
頻數(shù),f(3)
組中值,X(4)fX(5)=(3)×(4)0.5~
30.551.650.6~正90.655.850.7~正正120.759.000.8~正正130.8511.050.9~正正正170.9516.151.0~正正正181.0518.901.1~正正正正201.1523.001.2~正正正181.2522.501.3~正正正171.3522.951.4~正正131.4518.851.5~正91.5512.401.6~正81.6514.851.7~1.8
合計
31.755.25160182.302.頻數(shù)表的分佈特徵①集中趨勢(centraltendency):變數(shù)值集中位置。本例在組段“1.1~”?!骄疁?zhǔn)指標(biāo)②離散趨勢(tendencyofdispersion):變數(shù)值圍繞集中位置的分佈情況。本例0.9~1.4,共有90人,占56%;離“中心”位置越遠(yuǎn),頻數(shù)越??;且圍繞“中心”左右對稱?!儺愃疁?zhǔn)指標(biāo)
3.頻數(shù)表的用途①揭示計量資料的分佈特徵②描述計量資料分佈的集中趨勢和離散趨勢③便於發(fā)現(xiàn)異常值第二節(jié)計量資料的常用統(tǒng)計指標(biāo)一、平均指標(biāo)總稱為平均數(shù)(average)反映了資料的集中趨勢(centraltendency
)。常用的有:
1.算術(shù)均數(shù)(arithmeticmean),簡稱均數(shù)(mean)
2.幾何均數(shù)(geometricmean)
3.中位數(shù)
(median)
4.眾數(shù)(mode)1.均數(shù)(mean)Σ為求和符號,讀成sigma適用條件:資料呈正態(tài)或近似正態(tài)。
組段(1)
劃記(2)
頻數(shù),f(3)
組中值,X(4)fX(5)=(3)×(4)0.5~
30.551.650.6~正90.655.850.7~正正120.759.000.8~正正130.8511.050.9~正正正170.9516.151.0~正正正181.0518.901.1~正正正正201.1523.001.2~正正正181.2522.501.3~正正正171.3522.951.4~正正131.4518.851.5~正91.5513.951.6~正81.6513.201.7~1.8
合計
31.755.25160182.30均數(shù)=182.3/160=1.142.幾何均數(shù)(geometricmean)幾何均數(shù):變數(shù)對數(shù)值的算術(shù)均數(shù)的反對數(shù)。
幾何均數(shù)的適用條件與實例適用條件:呈倍數(shù)關(guān)係的等比資料或?qū)?shù)正態(tài)分佈(正偏態(tài))資料;如抗體滴度資料
血清的抗體效價滴度的倒數(shù)分別為:10、100、1000、10000、100000,求幾何均數(shù)。此例的算術(shù)均數(shù)為22222,顯然不能代表滴度的平均水準(zhǔn)。同一資料,幾何均數(shù)<均數(shù)頻數(shù)表資料的幾何均數(shù)抗體滴度⑴
人數(shù),f⑵
滴度倒數(shù),X⑶lgX⑷
f·lgX⑸1:2.5
1:101:401:1601:640
合計141822126722.510.040.0160.0640.00.39791.00001.60212.20412.80625.570618.000035.246226.449216.8372102.10323.中位數(shù)(median)
中位數(shù)是將一批數(shù)據(jù)從小至大排列後位次居中的數(shù)據(jù)值,符號為Md,反映一批觀察值在位次上的平均水準(zhǔn)。
適用條件:適合各種類型的資料。尤其適合於①大樣本偏態(tài)分佈的資料;
②資料有不確定數(shù)值;③資料分佈不明等。
中位數(shù)計算公式與實例
先將觀察值按從小到大順序排列,再按以下公式計算:特點:僅僅利用了中間的1~2個數(shù)據(jù)頻數(shù)表資料的中位數(shù)下限值L上限值Ui;fm中位數(shù)Md
組段(1)
劃記(2)
頻數(shù),f(3)
累計頻數(shù)Sf(4)累計百分率0.5~
331.9(0~1.9)0.6~正9127.5(1.9~7.5)0.7~正正122415.0(7.5~15.0)0.8~正正133723.1(15.2~23.1)0.9~正正正175433.8(23.1~33.8)1.0~正正正187245.0(33.8~45.0)1.1~正正正正209257.5(45.0~57.5)1.2~正正正1811068.8(57.5~68.8)1.3~正正正1712779.4(68.8~79.4)1.4~正正1314087.5(79.4~87.5)1.5~正914993.1(87.5~93.1)1.6~正815798.1(93.1~98.1)1.7~1.8
合計
3160100.0(98.1~100)160中位數(shù)=1.1+0.1x[(160x50%-72)/20]=1.144.眾數(shù)(mode)
出現(xiàn)次數(shù)(或頻數(shù))最多的觀察值;在頻數(shù)分佈圖中對應(yīng)於高峰所在位置的觀察值。適用於大樣本;較粗糙。均數(shù)、中位數(shù)、眾數(shù)三者關(guān)係正態(tài)分佈時:均數(shù)=中位數(shù)=眾數(shù)正偏態(tài)分佈時:均數(shù)>中位數(shù)>眾數(shù)負(fù)偏態(tài)分佈時:均數(shù)<中位數(shù)<眾數(shù)二、變異(variation)指標(biāo)
反映數(shù)據(jù)的離散度(Dispersion
)。即個體觀察值的變異程度。常用的指標(biāo)有:
1.極差(Range)
(全距)
2.百分位數(shù)與四分位數(shù)間距
PercentileandQuartilerange
3.方差
Variance
4.標(biāo)準(zhǔn)差StandardDeviation
5.變異係數(shù)
CoefficientofVariation
盤編號甲乙丙14404804902460490495350050050045405105055560520510合計250025002500均數(shù)500500500
例:設(shè)甲、乙、丙三人,采每人的耳垂血,然後紅細(xì)胞計數(shù),每人數(shù)5個計數(shù)盤,得結(jié)果如下(萬/mm3)甲乙丙1.極差(Range)(全距)優(yōu)點:簡便缺點:1.只利用了兩個極端值
2.n大,R也會大
3.不穩(wěn)定12040202.百分位數(shù)與四分位數(shù)間距
Percentileandquartilerange百分位數(shù):數(shù)據(jù)從小到大排列;在百分尺度下,所占百分比對應(yīng)的值。記為Px。四分位間距:QR=P75-P25四分位半間距quartiledeviation:QD=QR/2P100(max)P75P50(中位數(shù))P25P0(min)Px頻數(shù)表資料的百分位數(shù)下限值L上限值Ui;fm百分位數(shù)Px
組段(1)
劃記(2)
頻數(shù),f(3)
累計頻數(shù)Sf(4)累計百分率0.5~
331.9(0~1.9)0.6~正9127.5(1.9~7.5)0.7~正正122415.0(7.5~15.0)0.8~正正133723.1(15.2~23.1)0.9~正正正175433.8(23.1~33.8)1.0~正正正187245.0(33.8~45.0)1.1~正正正正209257.5(45.0~57.5)1.2~正正正1811068.8(57.5~68.8)1.3~正正正1712779.4(68.8~79.4)1.4~正正1314087.5(79.4~87.5)1.5~正914993.1(87.5~93.1)1.6~正815798.1(93.1~98.1)1.7~1.8
合計
3160100.0(98.1~100)160P25=0.9+0.1x[(160x25%-37)/17]=0.92P75=1.3+0.1x[(160x75%-110)/17]=1.36QR=1.36-0.92=0.44;QD=0.22百分位數(shù)的應(yīng)用確定醫(yī)學(xué)參考值範(fàn)圍(referencerange):如95%參考值範(fàn)圍=P97.5-P2.5;表示有95%正常個體的測量值在此範(fàn)圍。中位數(shù)Md與四分位半間距QD一起使用,描述偏態(tài)分佈資料的特徵3.方差
方差(variance)也稱均方差(meansquaredeviation),樣本觀察值的離均差平方和的均值。表示一組數(shù)據(jù)的平均離散情況。樣本方差為什麼要除以(n-1)
與自由度(degreesoffreedom)有關(guān)。自由度是數(shù)學(xué)名詞,在統(tǒng)計學(xué)中,n個數(shù)據(jù)如不受任何條件的限制,則n個數(shù)據(jù)可取任意值,稱為有n個自由度。若受到k個條件的限制,就只有(n-k)個自由度了。計算標(biāo)準(zhǔn)差時,n個變數(shù)值本身有n個自由度。但受到樣本均數(shù)的限制,任何一個“離均差”均可以用另外的(n-1)個“離均差”表示,所以只有(n-1)個獨立的“離均差”。因此只有(n-1)個自由度。
離均差和Σ(X-m)=04.標(biāo)準(zhǔn)差
標(biāo)準(zhǔn)差(standarddeviation)即方差的正平方根;其單位與原變數(shù)X的單位相同。標(biāo)準(zhǔn)差的計算盤編號甲乙丙甲2乙2丙214404804901936002304002401002460490495211600240100245025350050050025000025000025000045405105052916002601002550255560520510313600270400260100合計250025002500126040012510001250250標(biāo)準(zhǔn)差50.9915.817.91
組段(1)
頻數(shù),f(3)
組中值,X(4)fX(5)=(3)×(4)fX2(5)=(3)×(4)20.5~30.551.650.910.6~90.655.853.800.7~120.759.006.750.8~130.8511.059.390.9~170.9516.1515.341.0~181.0518.9019.851.1~201.1523.0026.451.2~181.2522.5028.131.3~171.3522.9530.981.4~131.4518.8527.331.5~91.5513.9521.621.6~81.6513.2021.781.7~1.8
合計31.755.259.19160182.30221.52方差=(221.52-182.302/160)/(160-1)=0.0869標(biāo)準(zhǔn)差=0.295.變異係數(shù)變異係數(shù)(coefficientofvariation,CV)適用條件:①觀察指標(biāo)單位不同,如身高、體重②同單位資料,但均數(shù)相差懸殊均數(shù)
標(biāo)準(zhǔn)差變異係數(shù)青年男子身高170cm6cm3.5%體重60kg7kg11.7%變異指標(biāo)小結(jié)1.極差較粗,適合於任何分佈2.標(biāo)準(zhǔn)差與均數(shù)的單位相同,最常用,適合於近似正態(tài)分佈3.變異係數(shù)主要用於單位不同或均數(shù)相差懸殊資料4.平均指標(biāo)和變異指標(biāo)分別反映資料的不同特徵,常配套使用如正態(tài)分佈:均數(shù)、標(biāo)準(zhǔn)差;
偏態(tài)分佈:中位數(shù)、四分位半間距第三節(jié)計數(shù)資料的常用統(tǒng)計指標(biāo)計數(shù)資料(定性資料):將觀察單位按某種屬性或類別分組計數(shù),分組匯總各組觀察單位數(shù)後而得到的資料。一、常用相對數(shù)指標(biāo)
相對數(shù):兩個有聯(lián)繫的指標(biāo)之比。常用的相對數(shù)有:(一)比(二)比率與構(gòu)成比(三)速率
(一)率(rate)
說明某現(xiàn)象或某事物發(fā)生的頻率或強(qiáng)度??捎?00%(百分率)、1000‰(千分率)、10000(萬分率)、100000(十萬分率)來表示。
例1999年某幼稚園有36名兒童患了腮腺炎,該幼稚園共有200名兒童(其中25名兒童以前患過),求該幼稚園1999年腮腺炎的發(fā)病率。
腮腺炎發(fā)病率=
率的正確使用需要注意以下幾點:(1)分子為陽性數(shù),分母為(陽性+陰性數(shù))。(2)當(dāng)計算麻疹這樣具有終生免疫力的傳染病發(fā)病率時,分母不應(yīng)該包括已患過麻疹或腮腺炎的那部分人。(3)率只與本身的頻率或強(qiáng)度有關(guān),而不受其他數(shù)據(jù)的影響。如某地紅眼病的流行不會導(dǎo)致該地肝癌死亡率下降或上升。
(二)、構(gòu)成比(proportion)
表示某一事物內(nèi)部各組成部分在全體中所占的比重,又稱百分比。各組分所占比重之和必為100%。
設(shè)某事物個體數(shù)的合計由A1,A2,···,Ak個部分組成,構(gòu)成比的計算為:...
構(gòu)成比有兩個特點:(1)各部分構(gòu)成比之和為100%或1。(2)某一部分所占的比重增大,其他部分的比重會相應(yīng)減少。
(
三)相對比(relativeratio)
相對比簡稱比(ratio),是兩個有關(guān)指標(biāo)之比.
式中兩指標(biāo)可以是絕對數(shù)、相對數(shù)或平均數(shù)。
(四)速率(rate)
速率(rate)是反映單位時間內(nèi)某事件出現(xiàn)的可能性大小,多用於面向人群的出生、死亡和發(fā)病資料的統(tǒng)計.人口出生率=(某年中活產(chǎn)總數(shù)/該年平均人口數(shù))×100%
二、應(yīng)用相對數(shù)的注意事項
(1)正確區(qū)分率和構(gòu)成比。(2)分母過小不宜計算相對數(shù)。
如果例數(shù)較少會使相對數(shù)波動較大。如某種療法治療5例病人5例全部治癒,則計算治癒率為5/5×100%=100%,若4例治癒,則治癒率為4/5×100%=80%,由100%至80%波動幅度較大,但實際上只有1例的變化。
(3)用率或構(gòu)成比進(jìn)行組間比較時,要注意資料之間是否有可比性。
(4)分組資料計算合併率時,不能用各個率相加所得,而應(yīng)該用有關(guān)的合計數(shù)進(jìn)行計算。例:若P1=x1/n1P2=x2/n2P3=x3/n3P=(x1+x2+x3)/n1+n2+n3)(正確)
P=(P1+P2+P3)/3(錯誤)第四節(jié)統(tǒng)計表與統(tǒng)計圖
統(tǒng)計表(statisticaltable)——數(shù)據(jù)代替文字描述,便於統(tǒng)計結(jié)果的精確、簡潔的表達(dá)和對比分析
統(tǒng)計圖(statisticalchart)——用圖形代替數(shù)據(jù),獲得直觀、形象的效果一、統(tǒng)計表
1.統(tǒng)計表的結(jié)構(gòu)
2.統(tǒng)計表製作的基本要求
3.統(tǒng)計表的種類
4.不良統(tǒng)計表的修改舉例標(biāo)題:標(biāo)目:線條:數(shù)字:無數(shù)字用“—”表示,缺失數(shù)字用“
”表示,數(shù)值為0者記為“0”,不要留空項。備註:統(tǒng)計表的基本結(jié)構(gòu)
頂線底線表名標(biāo)題統(tǒng)計表製作的基本要求重點突出,簡單明瞭,即一張表一般表達(dá)一個中心內(nèi)容,不要包羅萬象。主次分明,條理清楚,統(tǒng)計表就如完整的一句話,包括描述對象/主語和內(nèi)容/謂語。通常主語放在表的左邊,作為橫標(biāo)目;謂語放在右邊,作為縱標(biāo)目。由左向右讀,構(gòu)成完整的一句話。數(shù)據(jù)準(zhǔn)確、可靠,這是統(tǒng)計工作的根本。表4-9某省某工廠1994、1998年四項檢測指標(biāo)異常檢出率檢測指標(biāo)1994年1998年受檢人數(shù)異常人數(shù)檢出率(%)
受檢人數(shù)異常人數(shù)檢出率(%)
血壓心率
TTT
GPT
5195195195195544362010.160.486.943.85582582582582383923166.526.703.952.75
:TTT(麝香草酚濁度試驗),
:GPT(穀丙轉(zhuǎn)氨酶)。
(丁建生等.中國衛(wèi)生統(tǒng)計1999;16(3):166)統(tǒng)計表的種類
根據(jù)分組標(biāo)目的複雜程度,統(tǒng)計表可大致分為簡單表和複合表。
簡單表(simpletable):只按一個特徵或標(biāo)誌分組。如表2-8。
複合表(combinativetable):按兩個或兩個以上特徵或標(biāo)誌結(jié)合起來分組。如表2-9。簡單表示例分組標(biāo)誌為矯治方法表4-9某省某工廠1994、1998年四項檢測指標(biāo)異常檢出率檢測指標(biāo)1994年1998年受檢人數(shù)異常人數(shù)檢出率(%)
受檢人數(shù)異常人數(shù)檢出率(%)
血壓心率
TTT
GPT
5195195195195544362010.160.486.943.85582582582582383923166.526.703.952.75
:TTT(麝香草酚濁度試驗),
:GPT(穀丙轉(zhuǎn)氨酶)。
(丁建生等.中國衛(wèi)生統(tǒng)計1999;16(3):166)複合表示例
分組標(biāo)誌:不同年份不同檢測指標(biāo)例下表是複方豬膽膠囊治療兩型老年性慢性支氣管炎的療效比較,請對該表的繪製進(jìn)行評價,並指出所存在的問題。表4-15複方豬膽膠囊治療兩型老年慢性支氣管炎患者的療效比較實例分析1.關(guān)於統(tǒng)計表的製作,不正確的敘述是()。A.統(tǒng)計表不用豎線和斜線分隔表、標(biāo)目和數(shù)據(jù)B.統(tǒng)計表的標(biāo)題放在表的上方C.統(tǒng)計表包含的內(nèi)容越多越好D.統(tǒng)計表中的數(shù)字按小數(shù)點位對齊E.統(tǒng)計表一般用縱標(biāo)目和橫標(biāo)目說明數(shù)字的意義和單位二、統(tǒng)計圖
統(tǒng)計圖(statisticalchart或statisticalgraph)是用點、線、面等幾何圖形,直觀形象地表達(dá)、描述數(shù)據(jù)或結(jié)果。
1.統(tǒng)計圖的結(jié)構(gòu)
2.統(tǒng)計圖的種類與繪製注意事項統(tǒng)計圖的結(jié)構(gòu)標(biāo)題:用於簡明扼要地說明資料的內(nèi)容,一般位於圖的下方中央位置。圖域:即製圖空間,是整個統(tǒng)計圖的視覺中心。除圓圖外,一般都是存在於特定的座標(biāo)體系下。標(biāo)目:分為縱標(biāo)目和橫標(biāo)目,表示坐標(biāo)系下縱軸與橫軸的含義。圖例:用於識別比較的統(tǒng)計圖中各種圖形所代表的含義??潭龋杭纯v軸和橫軸上的座標(biāo)??潭葦?shù)值按從小到大的順序,縱軸由下向上,橫軸由左向右排列。常用的統(tǒng)計圖直條圖百分條圖圓圖線圖與半對數(shù)線圖直方圖箱圖散點圖統(tǒng)計地圖
條圖(bargraph)
1.概念
條圖用等寬長條的高度表示按性質(zhì)分類資料各類別的數(shù)值大小,用於表示他們之間的對比關(guān)係。
2.適用資料:相互獨立的資料(資料有明確分
組,不連續(xù))。
3.分類
(1)單式條圖(圖2-8)具有一個統(tǒng)計指標(biāo),一個分組因素。
(2)複式條圖(圖2-9)具有一個統(tǒng)計指標(biāo),兩個分組因素。
條圖條圖表2-9某省某工廠1994、1998年四項檢測指標(biāo)異常檢出率檢測指標(biāo)1994年1998年受檢人數(shù)異常人數(shù)檢出率(%)
受檢人數(shù)異常人數(shù)檢出率(%)
血壓心率
TTT
GPT
5195195195195544362010.160.486.943.85582582582582383923166.526.703.952.75
:TTT(麝香草酚濁度試驗),
:GPT(穀丙轉(zhuǎn)氨酶)。
(丁建生等.中國衛(wèi)生統(tǒng)計1999;16(3):166)條圖條圖條圖圖2-10直條圖的縱軸尺度起點必須為零示意圓圖(piegraph)
1.概念
以圓形的總面積代表100%,把面積按比例分成若干部分,以角度大小來表示各部分所占的比重(圖2-11)。
2.適用資料:構(gòu)成比資料圓圖圓圖百分條圖1.概念百分條圖的意義及適用資料與圓形圖相同,不同的是表現(xiàn)形式不一樣。百分條圖亦稱構(gòu)成條圖,是以直條總長度作為100%,直條中各段表示事物各組成部分構(gòu)成情況。2.適用資料:構(gòu)成比資料百分條圖百分條圖
圖2-12上海市某區(qū)居民腦血管病死亡季節(jié)分佈
線圖一、普通線圖(線圖)1.概念線圖(linegraph)是用線段的升降來表示統(tǒng)計指標(biāo)的變化趨勢。如某事物隨時間的發(fā)展變化,或某現(xiàn)象隨另一現(xiàn)象變遷的情況。2.適用資料適用於隨時間變化的連續(xù)性資料。3.分析目的:用線段的升降表示某事物在時間上的發(fā)展變化趨勢。二、半對數(shù)線圖1.概念是一種特殊的線圖,其座標(biāo)縱軸是對數(shù)尺度,特別適宜作不同指標(biāo)變化速度的比較。
2.適用資料適用於隨時間變化的連續(xù)性資料,尤其比較數(shù)值相差懸殊的多組資料時採用。3.分析目的:半對數(shù)線圖中線段的升降是用來表示某事物發(fā)展速度(或者說是相對比)。普通線圖(線圖):縱橫軸均為算術(shù)尺度,半對數(shù)圖:縱軸為對數(shù)尺度,橫軸為算術(shù)尺度。注意:在普通線圖中,結(jié)核病死亡率線條的坡度比白喉死亡率線條下降的陡峭,只能說明兩種疾病的死亡率逐年變化幅度不同,不能錯認(rèn)為結(jié)核病死亡率的下降速度比白喉死亡率的下降速度快。在半對數(shù)線圖中就不會出現(xiàn)這種錯覺。在比較事物間的變化速度時,應(yīng)選擇半對數(shù)線圖。
為什麼半對數(shù)線圖中線段的升降可以表示事物發(fā)展的速度?絕對差與相對比的比較圖2-19絕對差示意圖(算術(shù)格紙)數(shù)值時間圖2-20相對比示意圖(半對數(shù)格紙)數(shù)值時間表2-13某市1949~1957年15歲以下兒童結(jié)核病和白喉死亡率(1/10萬)年份
結(jié)核病死亡率百喉死亡率194919501951195219531954195519561957150.2148.0141.0130.0110.498.272.668.054.820.116.614.011.810.76.53.92.41.3直方圖1.概念是以直方面積描述各組頻數(shù)的多少,面積的總和相當(dāng)於各組頻數(shù)之和。2.適用資料:直方圖用於表達(dá)連續(xù)性資料的頻數(shù)分佈。3.製圖要求:(1)一般縱軸表示被觀察現(xiàn)象的頻數(shù)(或頻率),橫軸表示連續(xù)變數(shù),以各矩形(寬為組距)的面積表示各組段頻數(shù)。(2)直方圖的各直條間不留空隙;各直條間可用直線分隔,但也可不用直線分隔。(3)組距不等時,橫軸仍表示連續(xù)變數(shù),但縱軸是每個橫軸單位的頻數(shù)。箱式圖箱式圖:使用5個統(tǒng)計量反映原始數(shù)據(jù)的分佈特徵,即數(shù)據(jù)分佈中心位置、分佈、偏度、變異範(fàn)圍和異常值。
箱式圖的箱子兩端分別是上四分位數(shù)(P75)和下四分位數(shù)(P25),中間橫線是中位數(shù)(P50)兩端連線分別是除異常值外的最小值和最大值。另外標(biāo)記可能的異常值。顯然箱子越長,數(shù)據(jù)變異程度越大。中間橫線在箱子中點表明分佈對稱,否則不對稱。例某地調(diào)查不同類型化妝品廠車間內(nèi)粉塵數(shù),結(jié)果繪製成圖2-20。圖中顯示粉塵數(shù)的分佈呈偏態(tài)分佈,淨(jìng)化廠粉塵數(shù)較少,非淨(jìng)化廠粉塵數(shù)較多。散點圖1.概念
散點圖以直角坐標(biāo)系中各點的密集程度和趨勢來表示兩現(xiàn)象間的關(guān)係。常在對資料進(jìn)行相關(guān)分析之前使用。
2.適用資料:雙變數(shù)資料。圖2-1512名女大學(xué)生身高與體重散點圖統(tǒng)計地圖統(tǒng)計地圖(statisticalmap):是用不同的顏色和花紋表示統(tǒng)計量的值在地理分佈上的變化,適宜描述研究指標(biāo)的地理分佈。例調(diào)查廣東省四會市鼻咽癌高發(fā)區(qū)1990-1999年十年間鼻咽癌的發(fā)病數(shù),按鎮(zhèn)區(qū)計算標(biāo)化發(fā)病比(SMR),標(biāo)誌在四會市行政地圖上。圖2-191990-1999年某市鼻咽癌標(biāo)化發(fā)病比的地區(qū)分佈1.欲比較兩地20年來冠心病和惡性腫瘤死亡率的上升速度,最好選用()。A.普通線圖B.半對數(shù)線圖C.條圖D.直方圖 E.圓圖2.調(diào)查某地6至16歲學(xué)生近視情況,需描述近視學(xué)生的年齡分佈可用()。A.普通線圖B.半對數(shù)線圖C.條圖D.直方圖E.圓圖實例分析3.比較某地在兩個年份幾種傳染病的發(fā)病率可用()。A.構(gòu)成比條圖B.複式條圖C.線圖D.直方圖E.圓圖4.圖示7歲男孩體重與胸圍的關(guān)係,宜繪製()。A.條圖B.百分條圖C.散點圖D.線圖E.直方圖
第一節(jié)正態(tài)分佈
正態(tài)分佈(normaldistribution)也叫高斯分佈(Gaussiandistribution),一種最常見、最重要的連續(xù)型對稱分佈。(正態(tài)分佈是對稱分佈,但對稱分佈不一定是正態(tài)分佈。)實際頻數(shù)分佈:中間頻數(shù)多,兩端越來越少,且左右大致對稱理論頻數(shù)分佈:正態(tài)分佈曲線。一、數(shù)學(xué)形式二、正態(tài)曲線(normalcurve
)圖形特點:鐘型中間高兩頭低左右對稱最高處對應(yīng)於X軸的值就是均數(shù)曲線下麵積為1標(biāo)準(zhǔn)差決定曲線的形狀Xf(X)mXf(X)m
三、標(biāo)準(zhǔn)正態(tài)分佈標(biāo)準(zhǔn)正態(tài)分佈(standardnormaldistribution)的兩個參數(shù)為:μ=0,σ=1記為
N(0,1)一般正態(tài)分佈為一個分佈族:N(m,s2)
;標(biāo)準(zhǔn)正態(tài)分佈只有一個
N(0,1)
;這樣簡化了應(yīng)用
四、曲線下麵積u-∞附表1(P225)就是根據(jù)此公式和圖形制定的
概率密度函數(shù)與累積分佈函數(shù)
概率密度函數(shù)與累積分佈函數(shù)曲線下麵積分布規(guī)律0-11-1.961.96-2.582.5868.27%95.00%99.00%μμ-σμ+σμ-1.96σμ+1.96σμ-2.58σμ+2.58σ68.27%95.00%99.00%計算正態(tài)曲線下麵積實例例6-1五、正態(tài)性檢驗六、正態(tài)分佈的應(yīng)用P93
第二節(jié)參考值範(fàn)圍定義:P93步驟:
1.從“正常人”總體中抽樣:明確研究總體
2.統(tǒng)一測定方法以控制系統(tǒng)誤差。
3.判斷是否需要分組(如性別、年齡)確定。
4.根據(jù)專業(yè)知識決定單側(cè)還是雙側(cè)。意義:P93
單側(cè)下限---過低異常單側(cè)上限---過高異常雙側(cè)---過高、過低均異常
單側(cè)下限異常正常單側(cè)上限異常正常異常正常雙側(cè)下限雙側(cè)上限異常1.正態(tài)分佈法方法:1.正態(tài)分佈法2.百分位數(shù)法雙側(cè)100(1-α)%正常值範(fàn)圍:單側(cè)100(1-α)%正常值範(fàn)圍:雙側(cè)95%正常值範(fàn)圍:單側(cè)95%正常值範(fàn)圍:P94例6-32.百分位數(shù)法雙側(cè)95%正常值範(fàn)圍:
P2.5~P97.5
單側(cè)95%正常值範(fàn)圍:<P95(上限)或>P5(下限)適用於偏態(tài)分佈資料
P100例6-4第三節(jié)與正態(tài)分佈有關(guān)的統(tǒng)計量分佈一、t分佈隨機(jī)變數(shù)XN(m,s2)標(biāo)準(zhǔn)正態(tài)分佈N(0,12)u變換均數(shù)標(biāo)準(zhǔn)正態(tài)分佈N(0,12)Studentt分佈自由度:n-1t分佈的概率密度函數(shù)式中為伽瑪函數(shù);圓周率(Excel函數(shù)為PI())為自由度(degreeoffreedom),是t分佈的唯一參數(shù);t為隨機(jī)變數(shù)。以t為橫軸,f(t)為縱軸,可繪製t分佈曲線。t分佈曲線
t分佈有如下性質(zhì):①單峰分佈,曲線在t=0處最高,並以t=0為中心左右對稱②與正態(tài)分佈相比,曲線最高處較矮,兩尾部翹得高(見綠線)③隨自由度增大,曲線逐漸接近正態(tài)分佈;分佈的極限為標(biāo)準(zhǔn)正態(tài)分佈。t分佈曲線下麵積(附表2)雙側(cè)t0.05/2,9=2.262
=單側(cè)t0.025,9單側(cè)t0.05,9=1.833雙側(cè)t0.01/2,9=3.250
=單側(cè)t0.005,9單側(cè)t0.01,9=2.821雙側(cè)t0.05/2,∞=1.96
=單側(cè)t0.025,∞單側(cè)t0.05,∞=1.64總體樣本抽取部分觀察單位
統(tǒng)計量
參數(shù)
統(tǒng)計推斷統(tǒng)計推斷statisticalinference如:樣本均數(shù)樣本標(biāo)準(zhǔn)差S
樣本率P如:總體均數(shù)總體標(biāo)準(zhǔn)差總體率內(nèi)容:參數(shù)估計(estimationofparameters)
包括:點估計與區(qū)間估計2.假設(shè)檢驗(testofhypothesis)第一節(jié)樣本均數(shù)的標(biāo)準(zhǔn)誤第二節(jié)率的標(biāo)準(zhǔn)誤第三節(jié)兩均數(shù)之差的可信區(qū)間第四節(jié)兩個率之差的可信區(qū)間第五節(jié)小樣本率的可信區(qū)間第六節(jié)中位數(shù)與其他分位數(shù)的可信區(qū)間總體樣本抽取部分觀察單位
統(tǒng)計量
參數(shù)
統(tǒng)計推斷第一節(jié)樣本均數(shù)的標(biāo)準(zhǔn)誤如:樣本均數(shù)樣本標(biāo)準(zhǔn)差S
樣本率P如:總體均數(shù)總體標(biāo)準(zhǔn)差總體率
抽樣誤差(samplingerror):由於個體差異導(dǎo)致的樣本統(tǒng)計量與總體參數(shù)間的差別。一、抽樣試驗
從正態(tài)分佈總體N(5.00,0.502)中,每次隨機(jī)抽取樣本含量n=5,並計算其均數(shù)與標(biāo)準(zhǔn)差;重複抽取1000次,獲得1000份樣本;計算1000份樣本的均數(shù)與標(biāo)準(zhǔn)差,並對1000份樣本的均數(shù)作直方圖。按上述方法再做樣本含量n=10、樣本含量n=30的抽樣實驗;比較計算結(jié)果。抽樣試驗(n=5)抽樣試驗(n=10)抽樣試驗(n=30)1000份樣本抽樣計算結(jié)果總體的均數(shù)總體標(biāo)準(zhǔn)差s均數(shù)的均數(shù)均數(shù)標(biāo)準(zhǔn)差n=55.000.504.990.22120.2236n=105.000.505.000.15800.1581n=305.000.505.000.09200.09133個抽樣實驗結(jié)果圖示例7-1假設(shè)正常男子紅細(xì)胞計數(shù)服從的正態(tài)分佈總體,從該總體中重複進(jìn)行100次抽樣,每個樣本的含量為10,結(jié)果見表7-1。(書本PP105)由表7-1可見,從同一總體中隨機(jī)抽取樣本含量n=10的若干樣本,各樣本算得的樣本均數(shù)並不等於相應(yīng)的總體均數(shù),且各樣本均數(shù)也不完全相同。這種由於隨機(jī)抽樣而造成的來自同一總體的樣本均數(shù)之間及樣本均數(shù)與相應(yīng)的總體均數(shù)之間的差異,稱之為均數(shù)的抽樣誤差。
由於樣本均數(shù)與相應(yīng)的總體均數(shù)之間存在著差異,由數(shù)理統(tǒng)計推理可知:從正態(tài)總體中隨機(jī)抽取樣本含量為n的樣本,每抽取一個樣本可計算一個樣本均數(shù),重複100次抽樣可得到100個樣本均數(shù)。
這些樣本均數(shù)服從均數(shù)為,方差為的正態(tài)分佈,記作,其中為樣本均數(shù)的總體標(biāo)準(zhǔn)差,計算公式為:
(7-1)
為了與反映個體差異的標(biāo)準(zhǔn)差(或)相區(qū)別,樣本均數(shù)的標(biāo)準(zhǔn)差用表示。
統(tǒng)計上通常將統(tǒng)計量(如樣本均數(shù)、樣本率p等)的標(biāo)準(zhǔn)差稱為標(biāo)準(zhǔn)誤(standarderror,SE)。所以,又稱為樣本均數(shù)的標(biāo)準(zhǔn)誤,是反映樣本均數(shù)抽樣誤差大小的指標(biāo)。
特點:
1.總體標(biāo)準(zhǔn)誤的大小與總體標(biāo)準(zhǔn)差成正比,與樣本含量的平方根成反比。即當(dāng)樣本含量n一定時,標(biāo)準(zhǔn)差越大,即樣本的個體差異越大,標(biāo)準(zhǔn)誤就越大,樣本均數(shù)的抽樣誤差就越大;標(biāo)準(zhǔn)差越小,標(biāo)準(zhǔn)誤就越小,即樣本均數(shù)抽樣誤差就越小。
2.當(dāng)一定時,n越大,就越??;n越小,就越大。故影響抽樣誤差大小的主要因素是樣本含量。作為總體參數(shù)(常數(shù))通常是未知的,因而,在實際工作中常用樣本標(biāo)準(zhǔn)差S來估計。樣本標(biāo)準(zhǔn)誤的計算公式為:
例7-2由例7.1的第二個樣本均數(shù)=5.03,S=0.52,n=10,計算均數(shù)的標(biāo)準(zhǔn)誤。
解:代入公式7-2計算,抽樣實驗小結(jié)
均數(shù)的均數(shù)圍繞總體均數(shù)上下波動。
均數(shù)的標(biāo)準(zhǔn)差即標(biāo)準(zhǔn)誤與總體標(biāo)準(zhǔn)差相差一個常數(shù)的倍數(shù),即
樣本均數(shù)的標(biāo)準(zhǔn)誤(StandardError)=樣本標(biāo)準(zhǔn)差/
從正態(tài)總體N(m,s2)中抽取樣本,獲得均數(shù)的分佈仍近似呈正態(tài)分佈N(m,s2/n)。二、中心極限定理centrallimittheorem①即使從非正態(tài)總體中抽取樣本,所得均數(shù)分佈仍近似呈正態(tài)。②隨著樣本量的增大,樣本均數(shù)的變異範(fàn)圍也逐漸變窄。一、t分佈隨機(jī)變數(shù)XN(m,s2)標(biāo)準(zhǔn)正態(tài)分佈N(0,12)u變換均數(shù)標(biāo)準(zhǔn)正態(tài)分佈N(0,12)Studentt分佈自由度:n-1t分佈的概率密度函數(shù)式中為伽瑪函數(shù);圓周率(Excel函數(shù)為PI())為自由度(degreeoffreedom),是t分佈的唯一參數(shù);t為隨機(jī)變數(shù)。以t為橫軸,f(t)為縱軸,可繪製t分佈曲線。t分佈曲線
t分佈有如下性質(zhì):①單峰分佈,曲線在t=0處最高,並以t=0為中心左右對稱②與正態(tài)分佈相比,曲線最高處較矮,兩尾部翹得高(見綠線)③隨自由度增大,曲線逐漸接近正態(tài)分佈;分佈的極限為標(biāo)準(zhǔn)正態(tài)分佈。t分佈曲線下麵積(附表2)雙側(cè)t0.05/2,9=2.262
=單側(cè)t0.025,9單側(cè)t0.05,9=1.833雙側(cè)t0.01/2,9=3.250
=單側(cè)t0.005,9單側(cè)t0.01,9=2.821雙側(cè)t0.05/2,∞=1.96
=單側(cè)t0.025,∞單側(cè)t0.05,∞=1.64二、總體均數(shù)的估計
1.總體均數(shù)的點估計(pointestimation)與區(qū)間估計參數(shù)的估計點估計:由樣本統(tǒng)計量直接估計總體參數(shù)區(qū)間估計:在一定可信度(Confidencelevel)下,同時考慮抽樣誤差均數(shù)的估計統(tǒng)計學(xué)中的統(tǒng)計推斷包括兩個重要的方面:一是利用樣本統(tǒng)計量的資訊對相應(yīng)總體參數(shù)值做出推斷,如用樣本均數(shù)估計總體均數(shù),用樣本標(biāo)準(zhǔn)差S估計總體標(biāo)準(zhǔn)差等,稱之為估計。另一個是利用樣本統(tǒng)計量來推斷我們是否接受一個事先的假設(shè),稱之為假設(shè)檢驗。本章只討論參數(shù)估計,假設(shè)檢驗將在下一章中討論。而參數(shù)估計又分為
點估計與區(qū)間估計。
1.點估計總體均數(shù)的點估計(pointestimation)就是用樣本均數(shù)來直接地估計總體均數(shù),即。這種方法比較簡單,由於沒有考慮到抽樣誤差,只適合大樣本資料的統(tǒng)計推斷。
2.區(qū)間估計總體均數(shù)的區(qū)間估計(intervalestimation)是利用樣本資訊給出一個區(qū)間,並同時給出重複試驗時該區(qū)間包含總體均數(shù)的概率。具體計算方法如下:
⑴總體標(biāo)準(zhǔn)差未知時用樣本標(biāo)準(zhǔn)差S作為的估計值計算標(biāo)準(zhǔn)誤,按t分佈原理
⑵總體標(biāo)準(zhǔn)差已知時,或總體標(biāo)準(zhǔn)差未知但n足夠大:如果總體標(biāo)準(zhǔn)差已知時,按正態(tài)分佈原理;當(dāng)n足夠大時用S作為估計值。
可信區(qū)間的涵義
從總體中作隨機(jī)抽樣,對於含量為n的每個樣本而言,都可以算得一個區(qū)間。以95%的可信區(qū)間為例,意味著在同一總體中作100次重複抽樣,可得100個可信區(qū)間,平均有95個可信區(qū)間包含總體均數(shù)(估計正確),只有5個可信區(qū)間不包含總體均數(shù)(估計不正確),或?qū)赌骋粋€區(qū)間而言,它包含總體均數(shù)的可能性為95%,而不包含總體均數(shù)的可能性僅為5%。因此在實際應(yīng)用中,以這種方法估計總體均數(shù)犯錯誤的概率僅為5%。
可信區(qū)間具有兩個要素
一、是準(zhǔn)確度(accuracy),即可信區(qū)間包含的概率的大小,一般而言概率越大越好。
二、是精密度(precision),反映區(qū)間的長度,區(qū)間的長度越窄,估計的精密度越好,反之越差。
在樣本含量一定的情況下,二者是相互矛盾的,若考慮提高準(zhǔn)確度(即減小
,增大或),則區(qū)間變寬,精密度下降。因而在實際中不能籠統(tǒng)地認(rèn)為99%的可信區(qū)間好於95%的可信區(qū)間,而是需要兼顧二個要素。在通常情況中,以95%的可信區(qū)間較為常用。在可信度固定的前提下,要提高精密度的唯一方法是擴(kuò)大樣本含量。
可信區(qū)間應(yīng)注意的問題:
①在進(jìn)行區(qū)間估計時,總體均數(shù)是一個固定參數(shù),而由樣本計算出的可信區(qū)間是變化的,即每次抽樣所算得的區(qū)間是不同的。因此,不能說總體均數(shù)以的可信度落在可信區(qū)間中,而是可信區(qū)間以的可信度包含總體均數(shù)。
②在可信區(qū)間未計算出來之前,可以說區(qū)間以95%的可能性包含了總體均數(shù);但可信區(qū)間一經(jīng)計算出來,它要麼包含,要麼不包含,不存在95%的概率問題。
可信度與可信區(qū)間
區(qū)間的可信度(如95%或99%)是重複抽樣(如1000次)時,樣本(如n=5)區(qū)間包含總體參數(shù)(m)的百分?jǐn)?shù)。常用100(1-α)%或(1-α)表示,α值一般取0.05或0.01??尚哦扰c可信區(qū)間
區(qū)間的可信度(如95%或99%)是重複抽樣(如1000次)時,樣本(如n=5)區(qū)間包含總體參數(shù)(m)的百分?jǐn)?shù)。常用100(1-α)%或(1-α)表示,α值一般取0.05或0.01??尚哦葘嶒?/p>
2.總體均數(shù)的可信區(qū)間
3.兩總體均數(shù)差的可信區(qū)間
4.大樣本總體均數(shù)的可信區(qū)間(1)
4.大樣本總體均數(shù)的可信區(qū)間(2)
5、中位數(shù)與其他分位數(shù)的可信區(qū)間在實際工作中,不僅需要估計均數(shù)和率的可信區(qū)間,有時也要估計中位數(shù)或百分位
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年教育機(jī)構(gòu)校園宣傳欄設(shè)施采購及安裝合同3篇
- 二零二五年度木材防腐處理木工班組承包合同樣本4篇
- 2025年食堂食材安全認(rèn)證與采購合同3篇
- 2025版家居建材行紀(jì)合同范本2篇
- 第八章生命體征的評估與護(hù)理護(hù)理學(xué)基礎(chǔ)88課件講解
- 2025年保潔防疫服務(wù)協(xié)議
- 2025年加盟連鎖店經(jīng)銷合作協(xié)議范例
- 2025年大型綜合市場用水電合同
- 2025年專利知識產(chǎn)權(quán)技術(shù)權(quán)利使用許可轉(zhuǎn)讓合同
- 二零二五版閉門會議知識產(chǎn)權(quán)授權(quán)與保密條款合同3篇
- 2024年萍鄉(xiāng)衛(wèi)生職業(yè)學(xué)院單招職業(yè)技能測試題庫標(biāo)準(zhǔn)卷
- 2024年高考數(shù)學(xué)(理)試卷(全國甲卷)(空白卷)
- DB32-T 4444-2023 單位消防安全管理規(guī)范
- 臨床三基考試題庫(附答案)
- 合同簽訂執(zhí)行風(fēng)險管控培訓(xùn)
- 九宮數(shù)獨200題(附答案全)
- 人員密集場所消防安全管理培訓(xùn)
- JCT587-2012 玻璃纖維纏繞增強(qiáng)熱固性樹脂耐腐蝕立式貯罐
- 典范英語2b課文電子書
- 員工信息登記表(標(biāo)準(zhǔn)版)
- 春節(jié)工地停工復(fù)工計劃安排( 共10篇)
評論
0/150
提交評論