多因素方差分析_第1頁
多因素方差分析_第2頁
多因素方差分析_第3頁
多因素方差分析_第4頁
多因素方差分析_第5頁
已閱讀5頁,還剩124頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第二章多因素方差分析概述:單因素方差分析是檢驗(yàn)多個樣本均數(shù)間差別有無統(tǒng)計(jì)學(xué)意義的統(tǒng)計(jì)學(xué)方法。在醫(yī)學(xué)領(lǐng)域中,還經(jīng)常碰到研究多個因素對某個觀察指標(biāo)的作用的問題。多因素方差分析是分析兩個及兩個以上因素對觀察指標(biāo)影響的統(tǒng)計(jì)方法。,方差分析中,影響觀察指標(biāo)的因素稱為因子(factor);因子所處的狀態(tài)稱為因子的一個水平(leveloffactor);各因子水平的組合稱為處理(treatment).,一、二因子方差分析例:A、B兩藥治療缺鐵性貧血12例,試驗(yàn)結(jié)果如下:四種療法治療缺鐵性貧血后紅細(xì)胞增加數(shù)(1012/L),本例研究目的之一為A藥的使用是否會引起病人的紅細(xì)胞數(shù)變化。檢驗(yàn)H01:+=+研究目的之二為B藥的使用是否會引起病人的紅細(xì)胞數(shù)的變化。檢驗(yàn)H02:+=+,研究目的之三為A藥與B藥是否有交互作用。所謂有協(xié)同作用,是指同時用A、B兩藥起的作用大于單獨(dú)用A藥和B藥的作用之和。所謂有拮抗作用,是指同時用A、B兩藥起的作用小于單獨(dú)用A藥各B藥的作用之和。,不論協(xié)同或拮抗作用均意味著A、B藥同時使用的作用不等于單獨(dú)作用之和。兩藥有無協(xié)同作用或拮抗作用,只要檢驗(yàn)假設(shè):H03:-=-或H03:-=-,例題的統(tǒng)計(jì)量,方差分析表,注意:當(dāng)因子A與B間的交互作用有統(tǒng)計(jì)學(xué)意義時,對A(或B)的單獨(dú)作用的解釋須小心。本例,用B藥時,用A藥病人比不同時用A藥的病人的紅細(xì)胞數(shù)均數(shù)大,不用B藥時,用A藥病人比不同時用A藥的病人的紅細(xì)胞數(shù)均數(shù)也大,故可說明A藥有效。但有時可能出現(xiàn)這種情況,用B藥時,用A藥病人比不同時用A藥的病人的紅細(xì)胞數(shù)均數(shù)大,不用B藥時,用A藥病人比不同時用A藥的病人的紅細(xì)胞數(shù)均數(shù)小,此時就不能簡單地說A藥有利于病人紅細(xì)胞數(shù)增加,需分別就用B藥和不用B藥兩種情況說明A藥的作用。對B作用的作用的解釋也是如此。,方差分析變異來源:,各自的自由度分別為:,三因子方差分析例題某研究者以大白鼠作試驗(yàn),觀察指標(biāo)是肝重與體重之比(5%),主要想了解正氟醚對觀察指標(biāo)的作用,同時要考察用生理鹽水和用戊巴比妥作為誘導(dǎo)藥對正氟醚毒性作用有無影響,對不同性別大白鼠誘導(dǎo)的作用有何不同,以及對不同性別大白鼠正氟醚的作用是否相同。,方差分析的隨機(jī)效應(yīng)模型方差分析中的因子有選擇型與隨機(jī)型之分,若數(shù)據(jù)資料中涉及到因子水平是研究者關(guān)心的因子水平全體,則該因子屬于選擇型因子;相應(yīng)的模型稱為固定效應(yīng)模型。,若數(shù)據(jù)資料中涉及到因子水平只是研究者關(guān)心的因子水平總體的一個樣本,則該因子屬于隨機(jī)型因子;若你的研究中有某些因子是隨機(jī)型因子或全為隨機(jī)型因子時,方差分析的模型與固定效應(yīng)模型相同,但關(guān)于主效應(yīng)、和交互效應(yīng)的假定及F統(tǒng)計(jì)量的計(jì)算公式有些不同。,實(shí)例某醫(yī)院管理者欲了解血壓計(jì)與量血壓的醫(yī)生對血壓測定結(jié)果是否有影響。他在醫(yī)院中隨機(jī)抽取3臺血壓計(jì),4名醫(yī)生,對24名體檢者測量血壓,下面是舒張壓的觀察結(jié)果,請作分析。,用隨機(jī)效應(yīng)模型作為方差分析時,離均差平方和與自由度的計(jì)算與固定效應(yīng)相同,但無效假設(shè)與F統(tǒng)計(jì)量的計(jì)算有所不同。,它們的計(jì)算公式為:,方差分析的混合效應(yīng)模型例題:設(shè)某人研究圍產(chǎn)期窒息對新生兒中血中次黃嘌呤濃度是否有影響,同時還了解新生出生一小時內(nèi)次黃嘌呤濃度是否有變化。他隨機(jī)抽取圍產(chǎn)期窒息9名,不窒息的正常新生兒9名(作為對照)對每組的9名新生兒隨機(jī)安排三個不同時間,測定血中次黃嘌呤濃度如下:,用混合效應(yīng)作方差分析時,離均差平方和與自由度的計(jì)算與固定效應(yīng)相同,但無效假設(shè)與F統(tǒng)計(jì)量不同。它們的計(jì)算公式為:,幾點(diǎn)說明1、每個處理均有觀察且有相同觀察例數(shù)(n),這種設(shè)計(jì)稱為完全、平衡設(shè)計(jì)。若每個處理均有觀察,但觀察例數(shù)不等,則屬于完全、不平衡設(shè)計(jì)。2、方差分析要求觀察值獨(dú)立且服從正態(tài)分布,還要求各處理組有相同的方差。在這三個條件中,對獨(dú)立性要求最嚴(yán),對正態(tài)性要求最寬,當(dāng)各處理組有相同觀察例數(shù)時。對方差齊性的要求也不嚴(yán)。,3、本章僅介紹二因子、三因子方差分析,二因子方差模型中除了各因子的主效應(yīng)外,還有兩因子的一級交互作用項(xiàng);三因子模型中除了主效應(yīng),每兩因子的交互效應(yīng)外,還有三因子的二級交互效應(yīng);四因子模型中除主效應(yīng),每兩因子一級交互效應(yīng),三因子的二級交互效應(yīng);還有四因子的三級交互作用項(xiàng);五因子及五個以上的因子的模型以此類推。,協(xié)方差分析檢驗(yàn)兩個或兩個以上均數(shù)間差別的顯著性,可考慮用方差分析。方差分析要求各比較組除了所施加的處理因素不同外,其它對觀察指標(biāo)有影響因素的因素齊同或均衡,即要求控制對觀察指標(biāo)有影響的其它因素。在實(shí)際工作中,有時有些因素?zé)o法控制或由于實(shí)驗(yàn)設(shè)計(jì)的疏忽、實(shí)驗(yàn)條件的限制等原因造成對觀察指標(biāo)有影響的個別因素未加控制或難以控制。如降壓藥物療效考核的臨床試驗(yàn)中,病人的初始血壓水平對服藥一段時間后血壓下降量有相當(dāng)?shù)挠绊?,但病人初始血壓水平是難以控制的。如果不考慮病人初始血壓水平的差異,直接用方差分析的方法比較不同處理組病人的平均血壓下降量,以評價藥物的降壓效果是不恰當(dāng)。如何在比較兩組或多組均數(shù)間差別的同時扣除或均衡這些不可控因素的影響,可考慮采用協(xié)方差分析方法,協(xié)方差分析的基本思想和步驟一、基本思想?yún)f(xié)方差分析(analysisofcovariance,ANCOVA)是將線性回歸分析與方差分析結(jié)合起來的一種統(tǒng)計(jì)分析方法。在方差分析中,影響觀察指標(biāo)Y的因素往往是一些定性變量,而在線性回歸分析中,影響Y的都是定量變量。協(xié)方差基本思想就是將那些定量變量X(指未加控制或難以控制)對Y的影響看作協(xié)變量(convariate),建立應(yīng)變量Y隨協(xié)變量X變化的線性回歸關(guān)系,并利用這種回歸關(guān)系把X值化為相等后再進(jìn)行各組Y的修正均數(shù)(adjustedmean)間比較的假設(shè)檢驗(yàn),其實(shí)質(zhì)就是從Y的總離均差平方和中扣除協(xié)變量X對Y的回歸平方和,對殘差平方和作進(jìn)一步分解后再進(jìn)行方差分析,以更好的評價各種處理的效應(yīng)。,二、應(yīng)用條件協(xié)方差分析(analysisofcovariance,ANCOVA)有兩個重要的應(yīng)用條件:一是與方差分析的應(yīng)用條件相同;二是各總體客觀存在線性回歸關(guān)系且斜率相同(回歸線平行),即要求各樣本回歸系數(shù)b本身有統(tǒng)計(jì)學(xué)意義而各樣本回歸系數(shù)b間的差別無統(tǒng)計(jì)學(xué)意義。因此進(jìn)行協(xié)方差分析時,必須先對樣本資料進(jìn)行方差齊性檢驗(yàn)及回歸系數(shù)的假設(shè)檢驗(yàn),若滿足這兩個條件或經(jīng)變量變換后滿足這兩個條件,才可作協(xié)方差分析。,完全隨機(jī)設(shè)計(jì)資料的協(xié)方差分析例為研究A、B、C三種飼料對豬的催肥效果,用每種飼料喂8頭豬一段時間,測得每頭豬的初始重量(X)和增量(Y)數(shù)據(jù)見下表,試分析三種飼料對豬的催肥效果是否相同?,協(xié)方差分析表,隨機(jī)區(qū)組設(shè)計(jì)資料的協(xié)方差分析例為研究三種飼料對增加大白鼠體重的影響,有人按隨機(jī)區(qū)組設(shè)計(jì)將初始體重相等的36只大白鼠分為12個區(qū)組,再將每個區(qū)組的3只大白鼠隨機(jī)分入A、B、C三種飼料組,但在實(shí)驗(yàn)設(shè)計(jì)時未對大白鼠的進(jìn)食量加以控制。三組大白鼠的進(jìn)食量(X)和所增體重量(Y)數(shù)據(jù)見下表,試問扣除進(jìn)食量因素后,三種飼料對增加大白鼠體重有無差別?,四重復(fù)測量資料的方差分析,重復(fù)測量資料(repeatedmeasurementdata)是同一對象的同一觀察指標(biāo)在不同時間點(diǎn)上進(jìn)行多次測量所得的資料,常用來分析該指標(biāo)在不同時間點(diǎn)上的變化特點(diǎn)。這類資料在臨床試驗(yàn)和流行病學(xué)研究中常見。,例9-4為研究減肥新藥鹽酸西布曲明片和鹽酸西布曲明膠囊的減肥效果是否不同,以及肥胖患者服藥后不同時間的體重隨時間的變化情況。采用雙盲雙模擬隨機(jī)對照試驗(yàn),將體重指數(shù)BMIf27的肥胖患者40名隨機(jī)等分成兩組,一組給予鹽酸西布曲明片+模擬鹽酸西布曲明膠囊,另一組給予鹽酸西布曲明膠囊+模擬鹽酸西布曲明片。所有患者每天堅(jiān)持服藥,共服藥6個月,受試期間禁用任何影響體重的藥物,而且受試對象行為、飲食及運(yùn)動與服藥前的平衡期均保持一致。分別平衡于(0周)、服藥后的8周、16周、24周測定肥胖患者的體重(kg)見表9-13,隨機(jī)區(qū)組與重復(fù)測量資料的區(qū)別主要有二:,重復(fù)測量資料中同一受試對象的數(shù)據(jù)高度相關(guān)表9-14表9-13數(shù)據(jù)的簡單相關(guān)系數(shù)r(n=20)2)重復(fù)測量資料中的處理因素在受試對象間為隨機(jī)分配,但受試對象內(nèi)的各時間點(diǎn)往往是固定的,不能隨機(jī)分配;隨機(jī)區(qū)組設(shè)計(jì)資料中每個區(qū)組內(nèi)的受試對象彼此獨(dú)立,處理只在區(qū)組內(nèi)隨機(jī)分配,同一區(qū)組內(nèi)的受試對象接受處理各不相同,一、離均差平方和與自由度的分解:全部受試對象的結(jié)果用Xijk表示,其中i表示時間點(diǎn),j表示受試對象,k表示受試對象的處理因素。,二、重復(fù)測量資料方差分析的基本步驟,(1)建立假設(shè)并建立檢驗(yàn)水準(zhǔn)對于因素K:H0:不同劑型的減肥總體均數(shù)相等,即1=2H1:不同劑型的減肥的總體均數(shù)不等或不全相等對于時間因素I:H0:服用減肥藥前后不同時間體重的總體均數(shù)相等H1:服用減肥藥前后不同時間體重的總體均數(shù)不等或不全相等,對于交互作用KI:H0:服藥劑型K和時間I間無交互效應(yīng),即K因素與I因素?zé)o交互作用H1:服藥劑型K和時間I間有交互效應(yīng),即K因素與I因素有交互作用=0.05(2)計(jì)算檢驗(yàn)統(tǒng)計(jì)量F值:,(3)確定P值,做出推斷結(jié)論本例,按=0.05的水準(zhǔn),減肥藥劑型K、劑型K與時間I的交互應(yīng)KI均不拒絕H0,無統(tǒng)計(jì)學(xué)意義,還不能認(rèn)為鹽酸西布曲明不同劑型的減肥效果不同,也不能認(rèn)為鹽酸西布曲明不同劑型和不同時間的交互作用的減肥效果不同。而時間因素I拒絕H0接受H1有統(tǒng)計(jì)學(xué)意義,可認(rèn)為服用減肥藥鹽酸西布曲明前后不同時間的平均體重不全相等。,三、重復(fù)測量資料方差分析的前提條件進(jìn)行重復(fù)測量資料的方差分析,除需滿足一般方差分析的條件外,還需要特別滿足協(xié)方差陣(covariancematrix)的球形性(sphericity/circularity)或復(fù)合對稱性(compoundsymmetry)。若球形不對稱性質(zhì)不能滿足,則方差分析的F值是有偏的,因它增大了第一類錯誤的概率。球形對稱性通常采Mauchly檢驗(yàn)(Mauchlystest)來判斷。表9-16例9-4資料的Mauchly檢驗(yàn)和球?qū)ΨQ系數(shù),若按規(guī)定的檢驗(yàn)水準(zhǔn)=0.10,拒絕H0,接受H1,則理論上講應(yīng)對受試對象內(nèi)所有變異的自由度進(jìn)行校正,包括時間效應(yīng)、處理和時間的交互效應(yīng)以及個體誤差三者的自由度均進(jìn)行校正。表9-17例9-4資料經(jīng)球?qū)ΨQ系數(shù)計(jì)算機(jī)結(jié)果,多元線性回歸多元線性回歸,一、此型資料有一個應(yīng)變量與多個自變量(M個自變量)依存在關(guān)系,它的基本形式為Y=B0+B1X1+B2X2+BMXM。B0為回歸方程的常數(shù)項(xiàng),B1、B2.BM為偏回歸系數(shù)(PARTIALREGRESSIONCOEFFICIEBT)。如B1表示在X2、X3.XM固定條件下,X1每增減一個單位對Y的效應(yīng)。二、步驟。1、建立回歸方程。2、對總回歸方程檢驗(yàn)。3、B進(jìn)行檢驗(yàn)。,多元線性回歸方程的建立(利用最小二乘法的原理),例11-2現(xiàn)有20名糖尿病人的血糖(mmol/L)、胰島素(mU/L)及生長素(g/L)的數(shù)據(jù)如表11-9。試建立多元線性回歸方程分析血糖濃度與胰島素及生長素的數(shù)量依存關(guān)系。,三、應(yīng)用方程中幾個問題。使用注意的問題。(1)正態(tài)性問題。多元回歸模型的前提條件是當(dāng)前各自變量XI分別取不同值時,Y的分布是正態(tài)分布,Y的不同分布服從方差齊性。如稍偏離以上條件,一般影響不大;但如資料與以上條件偏離較大,則需尋資料作適當(dāng)?shù)臄?shù)據(jù)轉(zhuǎn)換,使之盡可能滿足以上條件,方可進(jìn)行多元回歸分析。(2)N直的大小一般是分析因素的5-10倍,3、對資料類型要求數(shù)值變量資料。如有少數(shù)自變量的觀測值為半定量資料,甚至是定性資料時,適當(dāng)?shù)臄?shù)據(jù)轉(zhuǎn)換也可應(yīng)用。4、多元共線性。在多元線回歸模型中,當(dāng)一個自變量幾乎是其他一些自變量的線性組合時,即自變量存在線性相關(guān)時,偏回歸系數(shù)的估計(jì)就不穩(wěn)定,并且會有較大的誤差。在醫(yī)學(xué)中經(jīng)常遇到這種問題。如果相關(guān)程度不大,一般影響不大,如相關(guān)程度大,則回歸方程就不能正確反映自變量和應(yīng)變量之間本來的數(shù)量關(guān)系。解決的辦法是采用嶺回歸分析或篩選自變量。,4、自變量的選擇:若自變量間存在多重共線,將引起偏回歸系數(shù)j的最小二乘估計(jì)bj的方差過大,從而引起bj失真。其實(shí)不僅在發(fā)生共線性時需篩選自變量,在一開始數(shù)據(jù)分析時就有自變量篩選的問題。如何選擇自變量呢?主要依賴專業(yè)知識,根據(jù)研究目的選擇盡量少的自變量。,被選自變量一般有這樣兩種:一是研究目的要弄清它對因變量的作用的影響因素,二是已知對自變量有作用,且觀察對象中有變異的,而且可能干擾影響因素x對y的作用因素。椐專業(yè)知識選擇自變量的基礎(chǔ)上,再借助統(tǒng)計(jì)方法進(jìn)一步篩選自變量。,用統(tǒng)計(jì)學(xué)方法篩選自變量,首先有準(zhǔn)則。一般有殘差平方和準(zhǔn)則和統(tǒng)計(jì)量檢驗(yàn)準(zhǔn)則。統(tǒng)計(jì)量顯著性檢驗(yàn)準(zhǔn)則是通過顯著性檢驗(yàn),選擇有統(tǒng)計(jì)學(xué)意義進(jìn)入自變量子集。常用的有三種:,向前法后退法逐步回歸法,5、指標(biāo)的數(shù)量化1)自變量為連續(xù)變量的情況:通常情況下連續(xù)變量是以原始觀察值的形式出現(xiàn)。當(dāng)某個自變量X與應(yīng)變量Y間不呈線性關(guān)系時,可考慮對X作某種變換,以改善回歸方程的擬合優(yōu)度。某種數(shù)據(jù)轉(zhuǎn)換是否為優(yōu),可用確定系數(shù)R2作為判斷尺度。一個好的數(shù)據(jù)轉(zhuǎn)換可使R2明顯增大。2)自變量為無序分類變量的情況:如病人的性別、治療方式等都可能是影響疾病預(yù)后的自變量。為了能將這類信息引入回歸方程中,必須對其數(shù)量化。數(shù)量化方式有多種,如是二分類指標(biāo),如對性別變量X的賦值方法為:,如果是多分類指標(biāo),假定有K類,則用K1個取值為0或?yàn)?的啞變量(dummyvariables)能完整地標(biāo)記出這些類別。如治療原發(fā)性高血壓有中醫(yī)、西醫(yī)及中西醫(yī)結(jié)合三種不同的療法,可用兩個啞變量X1,X1表示,賦值方法為:,3)自變量為有序變量:如果自變量是一個有序變量,如將病情分為“輕、中、重”,用X表示病情,賦值方法為:另一個方法是將X用兩個啞變量表示。,6、關(guān)于逐步回歸在自變量較多的情況下,使用逐步回歸分析常能使問題得到簡化,較快得到結(jié)果。但必須指出:對逐步回歸結(jié)果不要盲目信任,所謂的“最優(yōu)”回歸方程并不一定是最好,沒有選入方程的變量未必沒有統(tǒng)計(jì)學(xué)意義。事實(shí)上,方程上中引入什么變量,理想的做法應(yīng)該由研究者結(jié)合問題本身和專業(yè)知識以及經(jīng)驗(yàn)來確定,不加分析地使用逐步回歸難以取得好的應(yīng)用效果。7、變量間的交互作用當(dāng)某一自變量對應(yīng)變量Y的作用大小與另一個自變量的取值有關(guān)時,則兩個變量有交互作用?;貧w方程中是否要考慮交互作用主要靠專業(yè)知識。為檢驗(yàn)兩個變量是否有交互作用,普遍作法是在方程中加入它們的乘積項(xiàng)。,8、回歸方程的評價為評價回歸方程的擬合效果,應(yīng)分析回歸方程的殘差分布,利用殘差提供的信息可以檢驗(yàn)資料的正態(tài)性與方差齊性,并可分析所建立的回歸方程是否合適以及對哪些觀察點(diǎn)的預(yù)報(bào)效果較差。殘差是指觀察值與估計(jì)值之差,即。殘差分析中一個簡單的方法是以標(biāo)準(zhǔn)化殘差為縱坐標(biāo),以為橫坐標(biāo)作殘差圖分析。如果以0為中心,在恒定區(qū)內(nèi)較均勻地散布在一條直線的上下兩側(cè),可認(rèn)定同方差的假定成立,如果的分布隨的增大而擴(kuò)散或收斂,則說明同方差的假定不能成立。,LOGISTIC回歸(LOGISTICREGRESSION),在流行病學(xué)中通常是需要分析疾病與致病因素的定量關(guān)系,如食管癌的發(fā)生與吸煙、飲酒、不良飲食等危險(xiǎn)因素有關(guān),為正確說明這種關(guān)系,需要排除一些混雜因素的影響,傳統(tǒng)上常使用Mantel-Haenszel分層分析方法,但這種方法適用于樣本量大、分析因素較少的情況。如果用線性回歸方法,由于應(yīng)變量Y是一個二值變量(通常取值為1或0),不滿足應(yīng)用條件,尤其是當(dāng)各因素都處于低水平或高水平時,預(yù)測值可能超過它是一種用于多因素分析的曲線模型(即S型曲線模型,適用于應(yīng)變量為離散的分類資料)。01范圍,出現(xiàn)不合理現(xiàn)象。用logistic回歸分析則可較好地解決上述問題,當(dāng)前醫(yī)學(xué)常用的應(yīng)變量為兩項(xiàng)分類資料的LOGISTIC回歸。按設(shè)計(jì)類型分為條件LOGISTIC回歸,用于處理配對病例對照研究資料;非條件LOGISTIC回歸,用于對例研究與非配對病例對照研究資料。當(dāng)然也用于多項(xiàng)分類資料。,二分類模型一個受試單位或個體的分類變量Y取值為兩個可能數(shù)值之一,為方便起見用1和0表示(如,患病Y=1,否Y=0)。Y=出現(xiàn)陽性結(jié)果的概率記為P(Y=1);出現(xiàn)陰性結(jié)果的概率為1-P(Y=0),或簡記為1-P,用LOGISTIC回歸模型表示出現(xiàn)陽性結(jié)果的概率為:,P=EXP(+1X1+mXm)/(1+EXP(+1X1+mXm))出現(xiàn)陰性結(jié)果的概率為:1-P=1/EXP(+1X1+mXm)那么P/1-P=EXP(+1X1+mXm),兩邊取對數(shù)稱為:LOGIT(P)=+1X1+mXm,模型的基本性質(zhì):設(shè)為0,1為1,就得最簡單的LOGISTIC回歸P=1/1+e-x,實(shí)際上是它的截距,它越小曲線越左移。它越大曲線越右移。如果1為負(fù)值,就為X增加時P反而下降,這反映暴露因素是保護(hù)因素而不是危險(xiǎn)因素,如果1為正值時,暴露因素為危險(xiǎn)因素。,比數(shù)(Odds)、Logit(InOdds)與比值比(OddsRatio):以P為某事件發(fā)生的概率,1-P為不發(fā)生某事件的概率,兩者的比值為叫做比數(shù),也叫優(yōu)勢,比數(shù)若大于1說明發(fā)生的可能性大于不發(fā)生的可能性,也就是說發(fā)生占優(yōu)勢;反之,比值小于1說明不發(fā)生占優(yōu)勢。比數(shù)的自然對數(shù)值LnP/1-P,叫做Logit,即LogitP,它也可寫作為LogitP=+1X1也可用Odds=e+1X1,在流行病學(xué)中往往有兩個組,如暴露組與未暴露組,這兩個組的比數(shù)的比值,叫做比值比(OddsRatio也簡稱為OR)。如對比某一因素兩個不同暴露水平x1=cj,與xj=c0的發(fā)病情況,其優(yōu)勢比的自然對數(shù)為:,特殊地,如果Xj賦值為則暴露組與非暴露組發(fā)病的優(yōu)勢比為Orj=expj.對于發(fā)病率很低的慢性疾病如心腦血管病、惡性腫瘤等,由于p1,優(yōu)勢比可以作為相對危險(xiǎn)度的近似估計(jì),即:,參數(shù)估計(jì)根據(jù)一組實(shí)際觀察資料估計(jì)Logistic回歸模型的參數(shù)時,通常用最大似然估計(jì)(maximumlikelihoodestimate,MLE),即建立一個樣本函數(shù)根據(jù)最大似然原理,在一次抽樣中獲得現(xiàn)樣本的概率應(yīng)該最大,也即似然函數(shù)L應(yīng)該達(dá)到最大。為簡化計(jì)算,通常取函數(shù)的對數(shù)形式它所采用Newton-Raphson迭代方法使對數(shù)似然函數(shù)達(dá)最大,此時就可求出0、1、2。m的估計(jì)值b0、b1、b2。mm,及標(biāo)準(zhǔn)誤。,優(yōu)勢比估計(jì):由以下公式就可求出某個因素兩個不同水平(C0,C1)優(yōu)勢比的估計(jì)值為:ORj的可信區(qū)間可利用bj的抽樣分布來估計(jì),在樣本含量較大時,它近似正態(tài)分布。若自Xj只有暴露與非暴露兩個水平,則優(yōu)熱勢比的可信區(qū)間估計(jì)公式為:,例下表是一個研究吸煙、飲酒與食管癌關(guān)系的病例對照資料,試作Logistic回歸分析,隨訪資料的生存分析對生存資料的分析稱為生存分析。所謂生存資料就是描述壽命或者一個發(fā)生時間的數(shù)據(jù)。更詳細(xì)的說一個人的生存時間的長短與許多因素有聯(lián)系的,研究因素與生存時間的聯(lián)系有無及程度大小,稱為生存分析。,一、基本概念1、失效事件與起始時間在生存分析隨防研究過程中,一部分研究對象可觀察到死亡,可以得到準(zhǔn)確的生存時間,它提供的信息是完全;這種事件稱為失效事件(failureevent)也稱之為死亡事件、終點(diǎn)事件。起始事件(initialevent)是反映生存時間起始特征的事件,如疾病確診、某種疾病治療開始、接觸毒物等。,2、截尾數(shù)據(jù)(Censoreddata)但往往有一部分人或中途失防,或到觀察結(jié)束時仍存活,對這些人無法知道準(zhǔn)確的生存時間,對于這樣的觀測值,只知道其生存時間大于,而不知道其準(zhǔn)確的生存時間。這種數(shù)據(jù)稱為截尾數(shù)據(jù)(Censoreddata)。它提供不完全信息。生產(chǎn)截尾值的原因:1)病人失訪;2)病人的生存期超過了研究的終止期;3)在動物實(shí)驗(yàn)中,有時事先規(guī)定觀察期限或動物數(shù),3、生存時間生存時間(survivaltime)是指任何兩個有聯(lián)系事件之間的時間間隔,常用t表示。狹義的生存時間指患某疾病的病人從發(fā)病到死亡所經(jīng)歷的時間跨度,廣義的生存時間定義為從某種起始事件到終點(diǎn)事件所經(jīng)歷的時間跨度。如急性白血病病人從治療開始到復(fù)發(fā)為止之間的緩解期,冠心病病人兩次發(fā)作之間的時間間隔,戒煙開始到重新吸煙之間的時間間隔,接觸危險(xiǎn)因素到發(fā)病的時間間隔等。生存分析中最基本的問題就是計(jì)算生存時間,要明確規(guī)定事件的起點(diǎn)、終點(diǎn)及時間的測度單位,否則就無法分析比較。,生存分析這個統(tǒng)計(jì)技術(shù)可以同時分析有結(jié)局的生存數(shù)據(jù)和沒有結(jié)局的截尾數(shù)據(jù),能較充分地利用資料信息。如果改變出生/死亡的含義,可使生存分析得到更廣泛的應(yīng)用。如以開始暴露于某病的危險(xiǎn)因素代替出生,以發(fā)生此病代替死亡可用生存分析來研究暴露于危險(xiǎn)因子后在多少月或年內(nèi)發(fā)病概率。再比如,以某病治療代替出生,以死于該病作為死亡,生存分析來研究某病治療后的生存時間,如此等等。,二、資料收集一)隨訪內(nèi)容1、明確開始隨訪的時間如住院時間、確診時間、開始治療時間等。2、隨訪結(jié)局和終止隨防的時間3、記錄影響生存時間的有關(guān)因素二)隨訪方式1、全體觀察對象同時接受處理措施,觀察到最后一例出現(xiàn)結(jié)果,或事先規(guī)定的隨訪截止時間。2、全體觀察對象在不同時間接受治療,完成一定數(shù)量隨訪病例后決定隨訪截止時間,可按事先規(guī)定的時間停止隨訪。,隨訪資料常見形式示意圖,三)生存分析研究的主要內(nèi)容1、描述生存過程2、比較生存過程3、影響生存時間的因素分析,三、生存分析的基本方法1、非參數(shù)法非參數(shù)法的特點(diǎn)是不論是什么樣的分布形式,只根據(jù)樣本提供的順序統(tǒng)計(jì)量對生存率進(jìn)行估計(jì),常用的方法有乘法極限法和壽命表法。對于兩個及多個生存率的比較,其無效假設(shè)只是假定兩組或多組總體生存時間分布相同,而不對其具體的分布形式及參數(shù)進(jìn)行推斷。2、參數(shù)法參數(shù)的特點(diǎn)是假定生存時間服從特定的參數(shù)分布,然后根據(jù)已知分布特點(diǎn)對影響生存的時間進(jìn)行分析,常用的方法有指數(shù)分布法、Weibull分布法、對數(shù)正態(tài)回歸分布法和logistic回歸法3、半?yún)?shù)法,四、生存率的估計(jì)與生存曲線1、小樣本生存分析當(dāng)隨訪的病例數(shù)較少時,不需要根據(jù)病人的隨訪時間對病人分組,生存率的估計(jì)采用乘積極限法(product-limitmethod)。該方法由Kaplan-Meier提出,故又稱Kaplan-Meier法。例一組病人的存活時間(天數(shù))如下,試估計(jì)生存曲線(帶+的數(shù)據(jù)是截尾數(shù)據(jù))。90150210540150270+,1、生存率計(jì)算1)、將生存時間由小到大排列2)、計(jì)算條件死亡概率及生存概率3)生存率,2、生存率的標(biāo)準(zhǔn)誤的計(jì)算3、生存曲線以生存時間為橫軸、生存率為縱軸繪制一條生存曲線,用以描述其生存過程。并根據(jù)兩條生存曲線的高低,直觀比較不同治療方式之間的生存過程。,3、中位生存時間中位生存時間(mediansurvivaltime)又稱為生存時間的中位數(shù),表示剛好有50%的個體其存活期大于該時間。計(jì)算中位生存時間有兩種,即圖解法和線性內(nèi)插法。圖解法利用生存圖,從縱軸生存率為0.5處劃一條平行線與生存率曲線相交,然后自交點(diǎn)處劃垂線與橫軸相交,此交點(diǎn)即為中位生存時間。線性內(nèi)插法首先找出兩生存率S(ti-1)和S(ti),使得S(ti-1)0.5,S(ti)0.5,然后計(jì)算中位生存時間。,乘積極限法估計(jì)生存率計(jì)算表,生存曲線圖,2、大樣本資料的生存分析在樣本較大時,隨訪病例的生存時間常可按年、月、或日進(jìn)行分組,得出具有若干時間段生存時間數(shù)據(jù)的頻數(shù)表。對分組的生存數(shù)據(jù)可按壽命表法計(jì)算生存率。它的計(jì)算與小樣本的計(jì)算基本相同,稍有不同的是:若有截尾數(shù)據(jù),則計(jì)算條件概率分母用校正人口數(shù),如校正人口數(shù)期初人口數(shù)1/2*截尾例數(shù),壽命表法估計(jì)生存率計(jì)算表,五、生存率的比較(log-rank檢驗(yàn))各組的生存率是由樣本資料計(jì)算所得,必然有抽樣誤差,故需進(jìn)行假設(shè)檢驗(yàn)。對數(shù)秩和檢驗(yàn)是以生存時間的對數(shù)為基礎(chǔ)推導(dǎo)出來的,其基本相思是實(shí)際死亡數(shù)與期望死亡數(shù)間比較。它對各組生存率作整體比較,故應(yīng)用范圍廣。它適用于兩組及多組生存率間比較。這只介紹兩組生存率比較。,例兩組兒童橫紋肌肉治療后復(fù)發(fā)時間(月數(shù))如下,對照為“摘除+放療”,處理組為“摘除+放療+化療”,問在“摘除+放療”基礎(chǔ)上附加“化療”是否可提高緩解率?對照組復(fù)發(fā)時間(月)239101012+1515+1618+24+304045+處理組復(fù)發(fā)時間(月)912+16+1919+20+20+24+24+30+31+34+42+44+53+59+62+(帶+的數(shù)據(jù)均為截尾數(shù)據(jù))。,對于兩組生存率的比較有近似法和精確法兩種,上述法是近似法,其計(jì)算方法較為簡便,但結(jié)果較為保守。兩種方法的計(jì)算步驟相同,只是作統(tǒng)計(jì)量的方法不同,精確法計(jì)算卡方統(tǒng)計(jì)量的分母是對應(yīng)的方差估計(jì)量,統(tǒng)計(jì)軟件中常用精確法進(jìn)行計(jì)算。兩種方法在樣本例數(shù)較小時稍有不同。用log-rank檢驗(yàn)對樣本的生存率進(jìn)行比較時,要求各組生存曲線不能交叉,生存曲線的交叉提示存在某種混雜因素,因此應(yīng)采用分層的辦法或多因素方法來校正混雜因素。別外,當(dāng)假設(shè)檢驗(yàn)推斷有差別時,可以通過生存曲線、半數(shù)生存期及相對危險(xiǎn)度等指標(biāo)來評價其效果。,對于兩組生存率的比較有近似法和精確法兩種,上述法是近似法,其計(jì)算方法較為簡便,但結(jié)果較為保守。兩種方法的計(jì)算步驟相同,只是作統(tǒng)計(jì)量的方法不同,精確法計(jì)算卡方統(tǒng)計(jì)量的分母是對應(yīng)的方差估計(jì)量,統(tǒng)計(jì)軟件中常用精確法進(jìn)行計(jì)算。兩種方法在樣本例數(shù)較小時稍有不同。用log-rank檢驗(yàn)對樣本的生存率進(jìn)行比較時,要求各組生存曲線不能交叉,生存曲線的交叉提示存在某種混雜因素,因此應(yīng)采用分層的辦法或多因素方法來校正混雜因素。別外,當(dāng)假設(shè)檢驗(yàn)推斷有差別時,可以通過生存曲線、半數(shù)生存期及相對危險(xiǎn)度等指標(biāo)來評價其效果。,Cox模型英國統(tǒng)計(jì)學(xué)家D.R.Cox提出一種能處理多因素生存數(shù)據(jù)的回歸模型比例危險(xiǎn)度模型(Proportionalhazardmodel),也稱Cox回歸模型,簡稱Cox模型。,為風(fēng)險(xiǎn)函數(shù),又稱為風(fēng)險(xiǎn)率或瞬時死亡率,也就是說具有協(xié)變量X的個體在時刻t時的風(fēng)險(xiǎn)函數(shù)或瞬時死亡率,t表示生存時間,X表示與生存時間可能有關(guān)的協(xié)變量或交互項(xiàng)。為基準(zhǔn)風(fēng)險(xiǎn)函數(shù),是指所有危險(xiǎn)因素為0時的基礎(chǔ)風(fēng)險(xiǎn)率,它是未知,但假定它與是呈比例的。,1、比例危險(xiǎn)度:現(xiàn)舉例說明在Cox回歸中兩個危險(xiǎn)度的比值,即比例危險(xiǎn)度的計(jì)算。某疾病的發(fā)病,受吸煙X1與飲酒X2的影響,對有關(guān)資料作Cox回歸分析后,得回歸方程為X1與X2的回歸系數(shù)為0.8755與0.5108。,試求既吸煙又飲酒者發(fā)病與不吸煙不飲酒發(fā)病的危險(xiǎn)度。既吸煙又飲酒者危險(xiǎn)度為:不吸煙不飲酒者的危險(xiǎn)度為:二者的比值為:,二、參數(shù)估計(jì)與假設(shè)檢驗(yàn)1、參數(shù)估計(jì)Cox模型中的參數(shù)是采用偏似然函數(shù)估計(jì)。2、假設(shè)檢驗(yàn)1)最大似然比檢驗(yàn):它主要用于模型中原有不顯著變量的剔除和新變量引入,以及包含不同協(xié)變量數(shù)時模型間的比較。2)得分檢驗(yàn)用于新變量是否能選入模型??蓹z驗(yàn)一個新變量能否引入模型,也可以檢驗(yàn)多個新變量能否引入模型。3)wald檢驗(yàn):它用于模型中

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論