數(shù)值變量統(tǒng)計描述_第1頁
數(shù)值變量統(tǒng)計描述_第2頁
數(shù)值變量統(tǒng)計描述_第3頁
數(shù)值變量統(tǒng)計描述_第4頁
數(shù)值變量統(tǒng)計描述_第5頁
已閱讀5頁,還剩77頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)值變量統(tǒng)計描述第一頁,共八十二頁,編輯于2023年,星期三

醫(yī)學(xué)統(tǒng)計學(xué)是運(yùn)用概率論和數(shù)理統(tǒng)計的原理、方法,結(jié)合醫(yī)學(xué)實踐,研究醫(yī)學(xué)數(shù)字資料的搜集、整理、推斷的一門學(xué)科。統(tǒng)計學(xué)思考與練習(xí).doc第二頁,共八十二頁,編輯于2023年,星期三醫(yī)學(xué)統(tǒng)計學(xué)在科研中的應(yīng)用一、統(tǒng)計設(shè)計:目的:確保專業(yè)設(shè)計布局合理、實驗結(jié)果可靠二、統(tǒng)計描述:對統(tǒng)計資料分布特征的描述表達(dá)(1)統(tǒng)計指標(biāo):(2)統(tǒng)計表、統(tǒng)計圖三、統(tǒng)計推斷:指根據(jù)樣本信息推斷總體信息

(1)參數(shù)估計、(2)假設(shè)檢驗、(3)相關(guān)回歸分析等第三頁,共八十二頁,編輯于2023年,星期三三種人群的血漿總皮質(zhì)醇測定值(102μmol/L)正常人單純性肥胖皮質(zhì)醇增多0.110.172.700.520.332.810.610.552.920.690.663.590.770.863.860.861.134.081.021.384.301.081.634.301.272.045.961.923.756.62

統(tǒng)計資料的類型一、數(shù)值變量資料(計量資料)用定量的方法(儀器、實驗)對觀察對象的某項指標(biāo)進(jìn)行測量所得到的數(shù)值(有度量單位、可以是小數(shù)、連續(xù)性資料)。第四頁,共八十二頁,編輯于2023年,星期三二、分類變量資料:是將觀察單位按某種屬性或類別分組,然后清點(diǎn)各組觀察單位的個數(shù)所得的數(shù)據(jù)(無度量單位、整數(shù)、離散性資料)第五頁,共八十二頁,編輯于2023年,星期三甲乙兩種療法治療肺癌的2年生存率比較療法生存死亡合計生存率(%)甲22244647.83乙35235860.34合計574710454.81分類變量又可分為有序分類和無序分類兩種情況:1、無序分類變量資料(計數(shù)資料)(1)二項分類:按屬性或類別分組時,分成對立的兩種屬性或類別;如陽性與陰性、有效與無效第六頁,共八十二頁,編輯于2023年,星期三維吾爾族與回族居民血型構(gòu)成比民族構(gòu)成比(%)調(diào)查例數(shù)ABOAB維吾爾族29.2131.9227.5011.371513回族27.2328.3435.948.491355(2)多項分類:按屬性或類別分組時,分成互不相容的幾種屬性或類別;如血型A型、B型、O型、AB型第七頁,共八十二頁,編輯于2023年,星期三兩種藥物治療慢性氣管炎的療效組別無效好轉(zhuǎn)顯效控制合計標(biāo)準(zhǔn)組(A藥)8001920680603460對比組(B藥)106026181142、有序分類變量資料(等級資料):將觀察單位按某種屬性的不同程度、檔次或等級分類,然后清點(diǎn)各等級類別所得的觀察單位數(shù)。第八頁,共八十二頁,編輯于2023年,星期三*有序分類變量資料與多項分類資料的區(qū)別:各等級類別有程度上的差別(這種差別按順序排列,任何兩類別的排序不能替換)*根據(jù)分析需要:各類變量資料之間可以互相轉(zhuǎn)化第九頁,共八十二頁,編輯于2023年,星期三第二章數(shù)值變量資料的統(tǒng)計描述第一節(jié)頻數(shù)表和頻數(shù)圖一、頻數(shù)表:頻數(shù)(f):相同觀察值(或觀察結(jié)果)出現(xiàn)的次數(shù)觀察值及其相應(yīng)的頻數(shù)按一定順序排列的表格.第十頁,共八十二頁,編輯于2023年,星期三頻數(shù)表9—2的編制步驟如下:1、找極值:即找出最大值(Xmax=19.84)和最小值(Xmin=9.23)2、求全距(R):本例R=Xmax-Xmin=10.613、定組段與組數(shù):組段指各組的起止范圍;組數(shù)指組段的個數(shù)(用k)表示;頻數(shù)表一般設(shè)10~15個組段,本例k=11較合適.4、求組距(i):等距分組時i=R/(k-1)本例i=10.61/(11-1)=1.061≈1第十一頁,共八十二頁,編輯于2023年,星期三5、列組限:(1)每個組段的起點(diǎn)為下限,終止點(diǎn)為上限(2)第一組段下限取等于或略小于Xmin的整數(shù)或方便數(shù),其余各個組段依次累加I作下限6、劃記歸組:二、頻數(shù)圖:在頻數(shù)表的基礎(chǔ)上,以直方的面積大小表示頻數(shù)的多少,以直方的面積占總面積的比例表示頻率大小的圖形(圖9—1)第十二頁,共八十二頁,編輯于2023年,星期三表9-2120例正常成年人血清銅含量頻數(shù)表(SPSS11.0)第十三頁,共八十二頁,編輯于2023年,星期三圖9-1某地120例正常成年人血清銅含量第十四頁,共八十二頁,編輯于2023年,星期三三、頻數(shù)分布特征(兩方面特征)1、集中趨勢:(圖9—1)14~組段(居中組段)頻數(shù)最多,其它組段的頻數(shù)分布向其靠攏.2、離散趨勢:居中組段兩側(cè)的頻數(shù)逐漸減少四、頻數(shù)分布的類型1、對稱分布:集中位置居中,兩側(cè)基本對稱的頻數(shù)分布第十五頁,共八十二頁,編輯于2023年,星期三第四節(jié)正態(tài)分布及其應(yīng)用一、正態(tài)分布的概念:是一種重要的連續(xù)型分布。如某地120例正常人血清銅含量直方圖(圖9-1)的特點(diǎn)是高峰位于中部,兩側(cè)逐漸減少且大致對稱;設(shè)想各組段觀察人數(shù)不斷增多、組距不斷分細(xì),圖中的直條將逐漸變窄,頂端將逐漸接近一條光滑曲線,該曲線即頻數(shù)曲線或頻率曲線,近似于數(shù)學(xué)上的正態(tài)分曲線。若指標(biāo)x的頻率曲線對應(yīng)于數(shù)學(xué)上的正態(tài)曲線,則稱該指標(biāo)服從正態(tài)分布。第十六頁,共八十二頁,編輯于2023年,星期三第十七頁,共八十二頁,編輯于2023年,星期三第十八頁,共八十二頁,編輯于2023年,星期三第十九頁,共八十二頁,編輯于2023年,星期三三、正態(tài)分布的特征1、具有集中性、對稱性和均勻變動性。表現(xiàn)為以均數(shù)為中心,高峰位于中央,兩側(cè)逐漸下降并完全對稱,曲線兩端永遠(yuǎn)不與橫軸相交;第二十頁,共八十二頁,編輯于2023年,星期三*標(biāo)準(zhǔn)正態(tài)分布曲線下的面積可用查表的方式求出;先求u值,查表可得-∞累計到u的面積第二十一頁,共八十二頁,編輯于2023年,星期三五、正態(tài)分布的應(yīng)用(1)正態(tài)分布是統(tǒng)計學(xué)原理和統(tǒng)計分析方法的基礎(chǔ),很多統(tǒng)計量的抽樣分布如t分布、卡方分布都是建立在正態(tài)分布基礎(chǔ)上的。(2)根據(jù)正態(tài)分布的規(guī)律概括估計觀察值的頻數(shù)分布范圍,控制檢測誤差,進(jìn)行參數(shù)估計、假設(shè)檢驗及醫(yī)學(xué)參考值范圍估計。(3)很多資料雖不服從正態(tài)分布,但經(jīng)變量變換后(如取對數(shù))則服從正態(tài)分布或近似正態(tài)分布,可按正態(tài)分布規(guī)律來處理。第二十二頁,共八十二頁,編輯于2023年,星期三2、偏態(tài)分布:

集中位置偏倚,兩側(cè)不對稱的頻數(shù)分布.又可分為正、負(fù)偏態(tài)分布.第二十三頁,共八十二頁,編輯于2023年,星期三(1)正偏態(tài):特點(diǎn)是峰偏左(頻數(shù)大多偏于數(shù)值小的左側(cè)),長尾向右側(cè)伸延;第二十四頁,共八十二頁,編輯于2023年,星期三(2)負(fù)偏態(tài):峰偏右(頻數(shù)大多偏于數(shù)值大的右側(cè)),長尾向左伸延;(與正偏態(tài)相反)第二十五頁,共八十二頁,編輯于2023年,星期三五、頻數(shù)表的用途1、揭示資料的分布類型

2、反映頻數(shù)的集中趨勢和離散趨勢3、便于發(fā)現(xiàn)某些特大或特小的可疑值4、便于進(jìn)一步計算統(tǒng)計指標(biāo)和作統(tǒng)計處理第二十六頁,共八十二頁,編輯于2023年,星期三第三節(jié)統(tǒng)計中的幾個基本概念一、總體與樣本1、總體:指同質(zhì)的觀察單位某種變量值的集合;(同質(zhì)是指被研究指標(biāo)的主要影響因素相同)總體根據(jù)有無時間和空間的限制又分為有限總體和無限總體2、樣本:從總體中按隨機(jī)抽樣的方式抽取一定數(shù)量的觀察單位所組成的集合第二十七頁,共八十二頁,編輯于2023年,星期三樣本要具備以下兩個條件:(1)可靠性:樣本中的每一個個體均來自既定的同一總體(2)代表性:樣本要由隨機(jī)抽樣獲得;并且要抽取一定的數(shù)量;分層抽樣總體和樣本的關(guān)系如下:總體抽樣研究過程統(tǒng)計推斷過程樣本第二十八頁,共八十二頁,編輯于2023年,星期三二、變異與抽樣誤差1、變異:指同質(zhì)事物間的差異。是客觀存在的現(xiàn)象,可分為以下兩類:(1)個體變異:指同一特征或同一條件下個體間的差異。(2)隨機(jī)測量變異:指同一個體重復(fù)觀測結(jié)果未必相等的現(xiàn)象。第二十九頁,共八十二頁,編輯于2023年,星期三2、抽樣誤差

定義:(1)從總體中隨機(jī)抽取樣本所產(chǎn)生的樣本指標(biāo)(統(tǒng)計量)與總體指標(biāo)(參數(shù))之間的差異。(2)從同一總體中隨機(jī)抽樣,樣本指標(biāo)(統(tǒng)計量)之間的差異。產(chǎn)生原因:總體中存在個體差異(生物的個體變異)特點(diǎn):客觀存在,不可避免;有一定范圍,可以控制并估計其大小。第三十頁,共八十二頁,編輯于2023年,星期三有關(guān)抽樣的概念隨機(jī)抽樣:在抽樣過程中,要使總體中的每一個觀察對象都有同等機(jī)會被抽中成為樣本。抽樣研究的目的:利用樣本信息估計或推斷總體特征。第三十一頁,共八十二頁,編輯于2023年,星期三統(tǒng)計的基本思想

總體樣本抽樣推斷樣本統(tǒng)計描述第三十二頁,共八十二頁,編輯于2023年,星期三

例1:假定正常成年男子的紅細(xì)胞計數(shù)服從正態(tài)分布,總體均數(shù)

=5.00(1012/L)、總體標(biāo)準(zhǔn)差

=0.50(1012/L)。我們借助計算機(jī)從該總體中作隨機(jī)抽樣,每次抽10名成年男子的紅細(xì)胞計數(shù)組成一個樣本,重復(fù)100次抽樣。求出每個樣本的樣本均數(shù)和標(biāo)準(zhǔn)差。第三十三頁,共八十二頁,編輯于2023年,星期三=5.00=0.50X2,S2X1,S1X3,S3n=10第三十四頁,共八十二頁,編輯于2023年,星期三表1:100次抽樣所得樣本均數(shù)與標(biāo)準(zhǔn)差樣本號個體值樣本均數(shù),X標(biāo)準(zhǔn)差,S15.59、5.11、4.26…5.555.040.4425.49、5.56、5.47…4.865.190.42194.56、4.87、5.21…4.234.710.33734.08、4.73、4.84…5.334.660.46………總體5.00

0.50第三十五頁,共八十二頁,編輯于2023年,星期三樣本均數(shù)的抽樣分布具有如下特點(diǎn):①各樣本均數(shù)未必等于總體均數(shù);②各樣本均數(shù)間存在差異;③樣本均數(shù)的分布為中間多,兩邊少,左右基本對稱。④樣本均數(shù)的變異范圍較之原變量的變異范圍大大縮小。第三十六頁,共八十二頁,編輯于2023年,星期三標(biāo)準(zhǔn)誤:是統(tǒng)計量(如樣本均數(shù)、樣本率)的標(biāo)準(zhǔn)差,描述的是樣本統(tǒng)計量的離散程度(即抽樣誤差的大?。?。第三十七頁,共八十二頁,編輯于2023年,星期三標(biāo)準(zhǔn)誤的意義:標(biāo)準(zhǔn)誤的值越大,反映樣本統(tǒng)計量的離散程度越大,通過一次抽樣得到的某個樣本統(tǒng)計量與總體參數(shù)(是個定值)相差也越大。第三十八頁,共八十二頁,編輯于2023年,星期三三、隨機(jī)現(xiàn)象、隨機(jī)事件與隨機(jī)變量1、隨機(jī)現(xiàn)象:某些現(xiàn)象發(fā)生的結(jié)果在一次觀察中具有不確定性,而在大量的重復(fù)觀察中表現(xiàn)出某種規(guī)律性。2、隨機(jī)事件:進(jìn)行隨機(jī)試驗時,某事件在一定條件下可能出現(xiàn)也可能不出現(xiàn),其結(jié)果事先不能肯定,該事件則是隨機(jī)事件。3、隨機(jī)變量:用來代表隨機(jī)事件的變量。第三十九頁,共八十二頁,編輯于2023年,星期三四、概率與頻率1、頻率:某變量值出現(xiàn)的次數(shù)(頻數(shù))/重復(fù)觀察的總次數(shù)。對一個隨機(jī)事件重復(fù)觀察時,盡管每進(jìn)行n次試驗,所得到的頻率可能各不相同,但隨著n的增大,頻率會逐漸穩(wěn)定在某個常數(shù)附近波動。頻率的穩(wěn)定性說明隨機(jī)事件發(fā)生的可能性大小是事件本身固有的一種客觀屬性。第四十頁,共八十二頁,編輯于2023年,星期三2、概率:表示隨機(jī)事件發(fā)生可能性大小的數(shù)值。(用P表示)通常由頻率的穩(wěn)定值反映。確定性事件:(1)必然事件P=1,(2)不可能事件P=0;隨機(jī)性事件:概率取值介于0~1之間。概率越接近1,表明事件發(fā)生的可能性越大。第四十一頁,共八十二頁,編輯于2023年,星期三概率和頻率有區(qū)別:

頻率是已經(jīng)進(jìn)行試驗的結(jié)果,描述的是樣本中事件出現(xiàn)的可能性大小,樣本不同,其值也不同,具有偶然性;

概率刻畫的則是總體中隨機(jī)事件出現(xiàn)的可能性大小,是一種客觀存在,是個確定數(shù)值,具有必然性。第四十二頁,共八十二頁,編輯于2023年,星期三小概率原理:概率很小的隨機(jī)事件在一次或少量實際觀察中是不可能發(fā)生的(盡管理論上有發(fā)生的可能)小概率:P≤0.05或P≤0.01第四十三頁,共八十二頁,編輯于2023年,星期三五、參數(shù)與統(tǒng)計量1、參數(shù):根據(jù)總體分布特征而計算的總體指標(biāo)。一般用小寫的希臘字母表示。2、統(tǒng)計量:根據(jù)樣本計算的相應(yīng)指標(biāo)(樣本指標(biāo))。用拉丁字母表示。第四十四頁,共八十二頁,編輯于2023年,星期三六、假設(shè)檢驗與兩類錯誤1、假設(shè)檢驗:先對總體的參數(shù)或分布作出某種假設(shè),然后用適當(dāng)?shù)姆椒ǜ鶕?jù)樣本對總體提供的信息,運(yùn)用“小概率原理”推斷假設(shè)是否成立。第四十五頁,共八十二頁,編輯于2023年,星期三2、兩類錯誤:Ⅰ型錯誤:拒絕實際成立的H0(棄真)Ⅱ型錯誤:不拒絕實際不成立的H0(存?zhèn)危?)由假設(shè)檢驗可知,假設(shè)檢驗實際是在假定H0(μ1=μ2成立)的前提下抽樣觀察,出現(xiàn)當(dāng)前樣本現(xiàn)象的可能性大?。ǜ怕蔖)來進(jìn)行推斷的第四十六頁,共八十二頁,編輯于2023年,星期三(2)假設(shè)檢驗的結(jié)論是概率性結(jié)論,無論是拒絕H0還是不拒絕H0,都有犯錯誤的可能;拒絕H0時可能犯Ⅰ型錯誤(當(dāng)H0成立時),這時犯錯誤的限制為通過假設(shè)檢驗下結(jié)論,平均100次抽樣推斷犯錯誤不超過5次;第四十七頁,共八十二頁,編輯于2023年,星期三不拒絕實際不成立的H0時;可能犯Ⅱ型錯誤,犯錯誤的概率用不易確定,

為把握度,即μ1和μ2確實有差別的話,通過假設(shè)檢驗發(fā)現(xiàn)這種差別的能力(檢驗效能)第四十八頁,共八十二頁,編輯于2023年,星期三(3)要同時降低犯兩類錯誤的概率,唯一的辦法就是增大樣本含量進(jìn)行觀察.第四十九頁,共八十二頁,編輯于2023年,星期三第二節(jié)數(shù)值變量資料的集中趨勢描述平均數(shù)指標(biāo)體系:反映一組觀察值的集中位置或平均水平;常用的有均數(shù)、幾何均數(shù)、中位數(shù)一、算術(shù)均數(shù)(均數(shù)):特點(diǎn):對觀察值進(jìn)行數(shù)量上的平均,適用于均勻分布或近似正態(tài)分布的資料第五十頁,共八十二頁,編輯于2023年,星期三1、直接法:適用于小樣本或未分組資料第五十一頁,共八十二頁,編輯于2023年,星期三第五十二頁,共八十二頁,編輯于2023年,星期三第五十三頁,共八十二頁,編輯于2023年,星期三第五十四頁,共八十二頁,編輯于2023年,星期三第五十五頁,共八十二頁,編輯于2023年,星期三表9-446例暑溫患者的血凝抑制抗體第五十六頁,共八十二頁,編輯于2023年,星期三計算G時:(1)觀察值不能有0,(2)不能同時有正值和負(fù)值。第五十七頁,共八十二頁,編輯于2023年,星期三三、中位數(shù)(M):將一組觀察值按大小順序排列,位次居中的數(shù)值;特點(diǎn):序數(shù)上的平均適用(1)偏態(tài)分布資料

(2)一端或兩端無確切界值的開口資料。第五十八頁,共八十二頁,編輯于2023年,星期三1、直接法:用于觀察值例數(shù)不多的未分組資料;第五十九頁,共八十二頁,編輯于2023年,星期三2、頻數(shù)表法:用于觀察值例數(shù)較多的頻數(shù)表資料例9—7某醫(yī)院905例銀屑病患者的發(fā)病年齡見表9—5第(1)第(2)欄,求M。第六十頁,共八十二頁,編輯于2023年,星期三表9-5905例男性銀屑病患者的發(fā)病年齡第六十一頁,共八十二頁,編輯于2023年,星期三第六十二頁,共八十二頁,編輯于2023年,星期三四、運(yùn)用平均數(shù)的注意事項1、了解各醫(yī)學(xué)專業(yè)平均數(shù)的習(xí)慣用法,如齲均(齲齒個數(shù)為偏態(tài)分布,但用均數(shù));2、選擇適宜的平均數(shù)指標(biāo);3、與變異指標(biāo)結(jié)合使用,才能全面反映資料特征(集中和離散趨勢);4、同質(zhì)(同類)事物方能計算平均數(shù)。第六十三頁,共八十二頁,編輯于2023年,星期三

隨機(jī)抽樣兩個班各3名同學(xué)的體重(Kg),測量結(jié)果分別為A班:596061均數(shù)=60(Kg)B班:306090均數(shù)=60(Kg)問兩組資料的分布特征是否相同?第六十四頁,共八十二頁,編輯于2023年,星期三第三節(jié)數(shù)值變量資料的離散趨勢描述

離散趨勢描述用以反映一組同質(zhì)觀察值的離散性或變異程度。一、極差(R):用于反映個體變異的范圍1、未顧及全部數(shù)據(jù)間的變異,2、例數(shù)越多,R可能越大。(不穩(wěn)定)第六十五頁,共八十二頁,編輯于2023年,星期三二、四分位數(shù)間距(Q,QR):上下四分位數(shù)之差;即Q=QU-QL;(四分位數(shù)間距可以看成一半變量值的極差)第六十六頁,共八十二頁,編輯于2023年,星期三1、未分組資料:(小樣本)例9-9求例9-6資料的四分位數(shù)間距Q第六十七頁,共八十二頁,編輯于2023年,星期三第六十八頁,共八十二頁,編輯于2023年,星期三Q的主要用途:(1)Q適用于任何分布的資料,結(jié)果比極差穩(wěn)定,尤其適用于大樣本偏態(tài)分布的資料。(2)與M共同描述偏態(tài)分布資料的分布特征,簡寫成M(Q);(3)計算參考值范圍(百分位數(shù)P2.5,P97.5的范圍)第六十九頁,共八十二頁,編輯于2023年,星期三第七十頁,共八十二頁,編輯于2023年,星期三從方差計算式可知,方差使觀察值的原變量單位變成相應(yīng)的平方單位,不便于進(jìn)行比較,故主要用于假設(shè)檢驗中的方差分析。第七十一頁,共八十二頁,編輯于2023年,星期三

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論