多因素分析(共15頁)_第1頁
多因素分析(共15頁)_第2頁
多因素分析(共15頁)_第3頁
多因素分析(共15頁)_第4頁
多因素分析(共15頁)_第5頁
已閱讀5頁,還剩10頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、多因素(yn s)分析研究多個(gè)因素間關(guān)系及具有這些因素的個(gè)體(gt)之間的一系列統(tǒng)計(jì)分析方法稱為多元(因素)分析。主要包括:多元(du yun)線性回歸(multiple linear regression)判別分析(disoriminant analysis)聚類分析(cluster analysis)主成分分析(principal component analysis)因子分析(factor analysis)典型相關(guān)(canonical correlation)logistic 回歸(logistic regression)Cox 回歸(COX regression)多元回歸分析(mul

2、tiple linear regression)回歸分析是定量研究因變量對(duì)自變量的依賴程度、分析變量之間的關(guān)聯(lián)性并進(jìn)行預(yù)測(cè)、預(yù)報(bào)的基本方法。研究一個(gè)因變量對(duì)幾個(gè)自變量的線性依存關(guān)系時(shí),其模型稱為多元線性回歸。函數(shù)方程建立有四種方法:全模型法、向前選擇法、向后選擇法、逐步選擇法。全模型法其數(shù)學(xué)模型為:式中 y 為因變量, 為p個(gè)自變量,為常數(shù)項(xiàng),為待定參數(shù),稱為偏回歸系數(shù)(partial regression coefficient)。表示在其它自變量固定不變的情況下,自變量Xi 每改變一個(gè)單位時(shí),單獨(dú)引起因變量Y的平均改變量。 為隨機(jī)誤差,又稱殘差(residual), 它是在Y的變化中不能為

3、自變量所解釋(jish)的部分 例如:1、現(xiàn)有20名糖尿病病人(bngrn)的血糖()、胰島素()及生長素()的數(shù)據(jù),討論血糖(xutng)濃度與胰島素、生長素的依存關(guān)系,建立其多元回歸方程。 逐步回歸分析(stepwise regression analysis)在預(yù)先選定的幾個(gè)自變量與一個(gè)因變量關(guān)系擬合的回歸中,每個(gè)自變量對(duì)因變量變化所起的作用進(jìn)行顯著性檢驗(yàn)的結(jié)果,可能有些有統(tǒng)計(jì)學(xué)意義,有些沒有統(tǒng)計(jì)學(xué)意義。有些研究者對(duì)所要研究的指標(biāo)僅具有初步知識(shí),并不知道哪些指標(biāo)會(huì)有顯著性作用,只想從眾多的變量中,挑選出對(duì)因變量有顯著性意義的因素。一個(gè)較理想的回歸方程,應(yīng)包括所有對(duì)因變量作用有統(tǒng)計(jì)學(xué)意義的

4、自變量,而不包括作用無統(tǒng)計(jì)學(xué)意義的自變量。建立這樣一個(gè)回歸方程較理想的方法之一是逐步回歸分析(stepwise regression analysis)基本原理:按這個(gè)自變量在方程中對(duì)因變量作用的大小,由大到小依次引入方程。每引入一個(gè)自變量都要對(duì)回歸方程中每一個(gè)已引入的(包括剛被引入的)自變量的作用作統(tǒng)計(jì)意義檢驗(yàn),若發(fā)現(xiàn)一個(gè)或幾個(gè)已被引入的自變量的作用無統(tǒng)計(jì)學(xué)意義時(shí),即行剔除。每剔除一個(gè)自變量后,也要對(duì)留在回歸方程中的自變量逐個(gè)作統(tǒng)計(jì)學(xué)意義檢驗(yàn)。如果發(fā)現(xiàn)方程中還存在作用無統(tǒng)計(jì)學(xué)意義的自變量時(shí),也予以剔除,直至沒有自變量可引入,也沒有自變量可從方程中剔除為止。最優(yōu)方程(fngchng)應(yīng)是:對(duì)y

5、有顯著性作用的自變量全部到回歸方程中。凡是(fnsh)對(duì)y沒有顯著性作用的自變量都不被引入方程。例如(lr):1、討論中學(xué)生的肺活量的影響因素,觀察了10名女中學(xué)生的體重(X1, kg)、胸圍(X2, cm)、胸圍之呼吸差(X3, cm)及肺活量(Y, ml)。2、某研究協(xié)作組調(diào)查煤礦工人II期高血壓患者40例,同時(shí)調(diào)查了工作面的污染程度(X1 )、井下工作時(shí)間(X2)、每人的體重(X3)、吸煙年限(X4)、飲酒年限(X5)和收縮壓(y),欲分析影響煤礦工人II期高血壓患者收縮壓高低的主要因素。3、為探討影響差等生學(xué)習(xí)成績(jī)的因素,某兒科醫(yī)生調(diào)查了某學(xué)校六年級(jí)各班倒數(shù)第五名以內(nèi)學(xué)生的平均成績(jī)(y

6、),并測(cè)定了智商(X1 )、血清鐵(X2)、血清酮(X3)、日均熱卡(X4)、日均食入蛋白量(X5)、頭圍(X6 )和月人均收入(X7) 判別分析(discriminant analysis)根據(jù)已掌握的一批分類(fn li)明確的樣品,制定出一個(gè)分類標(biāo)準(zhǔn)用以判斷以后新樣品的歸類。在醫(yī)學(xué)研究中經(jīng)常遇到根據(jù)某病人的各種癥狀、體征、化驗(yàn)結(jié)果等來判定病人患的什么疾病,如:根據(jù)骨科的X光片的各種特征判斷病人屬于何種骨瘤?體育選材中根據(jù)運(yùn)動(dòng)員的體形、運(yùn)動(dòng)成績(jī)、生理指標(biāo)、心理素質(zhì)指標(biāo)、遺傳因素判斷是否選入運(yùn)動(dòng)隊(duì)繼續(xù)培養(yǎng)等。判別分析在醫(yī)學(xué)(yxu)領(lǐng)域的主要用途是:1、疾病診斷: 用判別分析的方法診斷疾病又

7、稱為計(jì)量診斷。包括(boku)臨床診斷、X線診斷、心電圖診斷、超聲波診斷、腦電圖診斷等。2、疾病預(yù)報(bào): 流行病預(yù)報(bào)、某些疾病(心肌梗死、中風(fēng))的早期預(yù)報(bào)。3、預(yù)后估計(jì): 某些療法的療效估計(jì),某些惡性腫瘤患者的生存期估計(jì)等。4、疾病的病因?qū)W估計(jì): 研究引起疾病的原因,并分析其主要影響因素。判別分析:要求Y變量二分類或多分類的屬性變量。分別用Fisher和Bayes準(zhǔn)則進(jìn)行計(jì)算。同時(shí)根據(jù)樣本中個(gè)體的癥狀、體征選用多元逐步判別分析的方法,來判斷病人患的什么疾病。其判別函數(shù)為:Z b1x1 + b2x2 + b3x3 .+ bkxk 對(duì)判別函數(shù)在實(shí)際應(yīng)用中的判別能力要進(jìn)行檢驗(yàn)。 判別臨界值: 且: 所

8、以(suy):若 YY0 判為A類;若 YY0 判為B類。 可以計(jì)算(j sun)各指標(biāo)的貢獻(xiàn)率,進(jìn)行回代檢驗(yàn)其符合率。例如(lr): 1、有健康人10名,心肌梗死病人6名,分別進(jìn)行心電圖檢查得到三個(gè)指標(biāo)X1、X2、X3 。建立這兩類人的判別式,以次判別新的就診患者是否為心肌梗死病人。 2、對(duì)正常人和白血病人進(jìn)行血清學(xué)方面的研究,用高分辨核磁共振譜儀分析峰形,以峰的高度(X1)和峰腰(X2)的寬度作為觀察指標(biāo),采集了13名白血病人和11名獻(xiàn)血員作為健康人的血清的峰形。 3、現(xiàn)有已知分類的健康人11人,硬化癥患者7人,冠心病患者5人,這23人的心電圖的5個(gè)指標(biāo)測(cè)量數(shù)據(jù),建立判別方程。logist

9、ic 回歸分析多元線性回歸要求y是呈正態(tài)分布的連續(xù)型隨機(jī)變量。醫(yī)學(xué)中常見這樣的試驗(yàn):動(dòng)物服藥后是生(假設(shè)其值為1)還是死(假設(shè)其值為0),或是發(fā)?。?)還是未發(fā)?。?)等。當(dāng)因變量取值為(0,1),自變量可能是分類變量,也可能是連續(xù)變量時(shí),用線性回歸分析的方法進(jìn)行處理是不合適的,應(yīng)選用Logistic 回歸。Logistic 回歸屬于概率(gil)型回歸,用來分析某類事件發(fā)生的概率與自變量之間的關(guān)系。適用(shyng)于因變量為二值變量(或多分類)的情形?;靖拍睿阂蜃兞康念A(yù)測(cè)值在01之間。如根據(jù)冠心病病人的飲食特點(diǎn)、吸煙史、生活的方式、得病(d bn)的類型等數(shù)據(jù)資料,建立一個(gè)logisti

10、c 回歸方程來預(yù)測(cè)病人的冠心病的可能性。數(shù)學(xué)模型:y = 式中:是在條件下,某事件發(fā)生的概率, 是該事件不發(fā)生的概率。其中, m 是自變量的個(gè)數(shù)。a是截距,bi 是待估計(jì)的參數(shù)。 Logistic 回歸方程的曲線為S型,預(yù)測(cè)值最大值趨近1,最小值趨近0。 logistic 回歸方程的另一種表達(dá)形式: 通過變換可以得出P與多元變量Xi 間的數(shù)學(xué)表達(dá)式: 例如(lr):1、某醫(yī)生研究哪些指標(biāo)可以判斷糖尿病患者是否動(dòng)脈硬化,將臨床癥狀(zhngzhung)頸總動(dòng)脈中層厚度imt0.8mm或有斑塊定義為動(dòng)脈硬化,記為因變量type =1,非硬化imt 0.8mm且無斑塊,記為因變量type =0。選擇

11、自變量為年齡(age)、尿白蛋白(ALB)、體重指數(shù)(BMI)、胰島素敏感(mngn)指數(shù)(ISI)、收縮壓(SBP)、甘油三脂(TG)、膽固醇(CHO)、糖尿病病程(DURA)。 2、某醫(yī)院為研究醫(yī)院內(nèi)尿路感染的主要危險(xiǎn)因素,回顧調(diào)查了某年三個(gè)月份在住院期間實(shí)施保留導(dǎo)尿的200名患者,分別記錄了危險(xiǎn)因素 變量名 定義性別 X1 女=0,男=1年齡(歲) X2 30=0, 30 =1, 50=2, 70=3插管前住院時(shí)間(天) X3 3=0, 3 =1, 10=2, 20=3導(dǎo)尿方式 X4 閉式=0,開放式=1導(dǎo)尿期間無抗生素持續(xù)沖洗 X5 否=0,是=1留置導(dǎo)尿時(shí)間 X6 3=0, 3 =1

12、, 10=2, 20=3感染前有無輸血史 X7 無=0,有=1感染前有無應(yīng)用免疫抑制劑 X8 無=0,用=1插 插管前血漿肌酐水平 X9 80=0, 80 =1, 170=2有無糖尿病 X10 否=0,是=1尿路感染 Y 未感染=1,感染=0 分析可能在醫(yī)院內(nèi)尿路感染的危險(xiǎn)因素。4、比例(bl)風(fēng)險(xiǎn)模型COX回歸 常用統(tǒng)計(jì)描述和統(tǒng)計(jì)推斷的方法有:分位數(shù)、中數(shù)生存期、平均數(shù)、生存函數(shù)古跡、判斷生存時(shí)間分布(fnb)、非參數(shù)檢驗(yàn)、壽命表法、log-rank檢驗(yàn)(對(duì)數(shù)秩檢驗(yàn))等。這些方法已經(jīng)系統(tǒng)地應(yīng)用在醫(yī)學(xué)的醫(yī)療評(píng)價(jià)和預(yù)后的因素分析中。醫(yī)學(xué)臨床生存資料有別于其他資料,特別是醫(yī)學(xué)臨床隨訪資料很難用一般

13、統(tǒng)計(jì)方法來處理多種因素對(duì)生存時(shí)間序列(xli)的影響。資料的特點(diǎn)是:1、危險(xiǎn)度的變化規(guī)律種類多且難以確定。2、資料中存在失訪(截尾)數(shù)據(jù)。3、同是考慮多個(gè)變量(連續(xù)的或離散的)影響難以控制。非參數(shù)可以解決前兩個(gè)問題,參數(shù)法可以解決后兩個(gè)問題。所以實(shí)際應(yīng)用中有很大的局限性。Logistic模型中對(duì)任一個(gè)觀察對(duì)象的失效處理都是相同的,無論失效發(fā)生在隨訪期的開始或結(jié)束,所以當(dāng)分析變量與失效的關(guān)系時(shí)且需要考慮失效時(shí)間的作用時(shí),logistic 回歸模型就不完全適用了。而任一變量對(duì)失效的作用完全獨(dú)立于隨訪期的長短,直接影響結(jié)論的可靠性和穩(wěn)定性。1972年英國生物統(tǒng)計(jì)學(xué)家D.R.Cox提出半?yún)?shù)的比例風(fēng)險(xiǎn)

14、模型Cox回歸模型(Cox regression model),1975年由油料新的補(bǔ)充。Cox 模型是將生存時(shí)間和因素間的關(guān)系用回歸方式來表示,主要解決多因素(如年齡、職業(yè)(zhy)、吸煙、飲酒、病情、治療方法等)對(duì)生存期(恢復(fù)期)的影響。對(duì)于每一個(gè)研究的病人除去要考察的因素外,必須有生存時(shí)間變量(t)和結(jié)局變量(d)。風(fēng)險(xiǎn)(fngxin)函數(shù)為: 為風(fēng)險(xiǎn)(fngxin)函數(shù),又稱風(fēng)險(xiǎn)率或瞬間死亡率。為基準(zhǔn)風(fēng)險(xiǎn)函數(shù),是與時(shí)間有關(guān)的任意函數(shù)。例如:1、某省腫瘤醫(yī)院調(diào)查1991-1994年間經(jīng)手術(shù)治療的66例大腸癌患者的資料,對(duì)可能影響大腸癌術(shù)后的臨床病理因素進(jìn)行分析,以探討這些因素病理因素對(duì)大

15、腸癌術(shù)后的綜合影響。危險(xiǎn)因素 變量名 定義性別 Z1 女=0,男=1年齡(歲) Z2 40=1, 4059 =2, 60=3組織學(xué)分類 Z3 乳頭狀腺癌=0, 管狀腺癌=1腫瘤大?。╟m) Z4 6=0,其它=1Dures 分期 Z5 A=1,B=2, C=3, D=4細(xì)胞增殖抗原(PCNA) Z6 55% =0, 55%=1淋巴管侵潤 Z7 無=0,有=1血管侵潤 Z8 無=0,用=1手術(shù)到觀察結(jié)束 Y 實(shí)際天數(shù)結(jié)束時(shí)是否死亡 D 生存=0,死亡=12、研究天花粉注射治療絨癌療效的試驗(yàn),將16只體表接種成功的裸鼠分為4組,其中一組作為對(duì)照,其余三組(sn z)分別注射天花粉、甲藥和乙藥,得到

16、如下數(shù)據(jù):試作Cox分析。危險(xiǎn)因素 變量名 定義帶瘤天數(shù) X1 天數(shù)瘤體大小 X2 天花粉治療 X3 無=0,有=1甲藥治療 X4 無=0,有=1 乙藥治療 X5 無=0,有=1維生素 X6 不用=0,用=1生存天數(shù) day 實(shí)際天數(shù)結(jié)局 D 生存=0,死亡=1附例題(lt):文件名 “sars建立永久(yngji)數(shù)據(jù)集libname ld:;data a;set l.sars3;run;讀出數(shù)據(jù)(shj)集,選擇確診和發(fā)燒病人data a;set a1;if group= 2 the delete;run;逐步判別分析:proc stepdisc method=stepwise sle=0

17、.05 sls=0.05;class group;var cpnb entb h1n12 h5n1b infab infbb infb2bmpnb piv1b piv3b rsvnab rsvnbb sars1b sars1mtb sars2b sars3b;quit;將逐步判別篩選出的變量作回代:proc discrim ;class group;var h5n1b entb infb2b sars2b sars3b mpnb sars1b;*var infb2b cpnb h5n1b piv3b rsvnbb sars3b; quit;計(jì)算疑似與發(fā)燒病人的逐步logistic 回歸:dat

18、a b;set l.sars3;if group=1 the delete;run;data b1;set b;if group=2 then groupn=1;if group=3 then groupn=0;proc logistic descending;model groupn= cpnb entb h1n12 h5n1b infab infbb infb2bmpnb piv1b piv3b rsvnab rsvnbb sars1b sars1mtb sars2b sars3b/ selection=stepwise clodds=pl sle=0.15 sls=0.15;/*mode

19、l groupn= cpnb entb h1n12 h5n1b infab infbb infb2bmpnb piv1b piv3b rsvnab rsvnbb sars1b sars1mtb sars2b sars3b;*model groupn= cpnb entb h1n12 h5n1b infab infbb infb2bmpnb piv1b piv3b rsvnab rsvnbb / selection=stepwise clodds=pl sle=0.15 sls=0.15;*/quit;計(jì)算(j sun)確診和發(fā)燒病人的logistics回歸(hugu)分析:data c;set

20、 l.sars3;if group=3 then delete;run;data b1;set c;if group=1 then groupn=1;if group=2 then groupn=0;proc logistic descending;model groupn= cpnb entb h1n12 h5n1b infab infbb infb2bmpnb piv1b piv3b rsvnab rsvnbb sars1b sars1mtb sars2b sars3b/ selection=stepwise clodds=pl sle=0.15 sls=0.15;*model group

21、n= cpnb entb h1n12 h5n1b infab infbb infb2bmpnb piv1b piv3b rsvnab rsvnbb sars1b sars1mtb sars2b sars3b;*model groupn= cpnb entb h1n12 h5n1b infab infbb infb2bmpnb piv1b piv3b rsvnab rsvnbb / selection=stepwise clodds=pl sle=0.15 sls=0.15;quit;*/1BACKGROUND274.5140.514SAMPLE1疑似2961.0783241961.395018

22、25SAMPLE2疑似2961.0783242091.48754436SAMPLE3疑似2060.7504551951.387947SAMPLE4疑似2300.837887223.51.59074758SAMPLE5疑似240.50.876138245.51.74733169SAMPLE6疑似2510.914391781.266904710SAMPLE7疑似224.50.817851369.52.629893811SAMPLE8確診3901.4207652511.786477912SAMPLE9確診219.50.7996363642.5907471013SAMPLE10確診2280.83060

23、12932.085409Logistics (B類與C 類病人(bngrn)擬和)Classification TablePredictedTYPE%Observed01Step 1TYPE0454052.912210682.8Overall Percentage70.9Step 2TYPE0493657.612310582.0Overall Percentage72.3Step 3TYPE0523361.212210682.8Overall Percentage74.2Step 4TYPE0582768.211910985.2Overall Percentage78.4a The cut v

24、alue is .500Variables in the EquationBS.E.WalddfSig.Exp(B)Step 1INFB2B-3.673.58239.8351.000.025Constant4.451.66544.8591.00085.732Step 2INFBB-.775.2589.0561.003.461INFB2B-3.733.60138.5551.000.024Constant5.804.84047.7841.000331.537Step 3INFBB-1.153.30813.9981.000.316INFB2B-4.084.63840.9961.000.017PIV1

25、B2.589.69313.9381.00013.315Constant3.2391.0419.6861.00225.504Step 4INFBB-1.236.32114.8691.000.290INFB2B-4.524.69842.0311.000.011PIV1B2.961.73316.3301.00019.315RSVNAB2.355.71610.8121.00110.541Constant.9741.245.6121.4342.648a Variable(s) entered on step 1: INFB2B.b Variable(s) entered on step 2: INFBB

26、.c Variable(s) entered on step 3: PIV1B.d Variable(s) entered on step 4: RSVNAB.Logistics (疑似與發(fā)燒(f sho)病人擬和)包括SARS病毒Classification TablePredictedTYPEPercentage CorrectObserved01Step 1TYPE0301173.2178892.6Overall Percentage86.8Step 2TYPE036587.8139296.8Overall Percentage94.1Step 3TYPE038392.7129397.9

27、Overall Percentage96.3Step 4TYPE037490.2149195.8Overall Percentage94.1Step 5TYPE038392.7139296.8Overall Percentage95.6Step 6TYPE040197.6119498.9Overall Percentage98.5a The cut value is .500Variables in the EquationBS.E.WalddfSig.Exp(B)Step 1INFB2B-8.8101.52933.1791.000.000Constant10.4491.74635.8121.

28、00034524.092Step 2H5N1B8.7922.24115.3871.0006582.400INFB2B-12.3192.36027.2541.000.000Constant6.1682.1048.5961.003477.220Step 3H5N1B8.1212.41511.3071.0013364.195INFB2B-13.1392.86321.0651.000.000PIV3B5.5582.0557.3121.007259.262Constant1.7742.559.4801.4885.893Step 4H5N1B9.6572.92310.9141.00115629.817IN

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論