第九章 高級(jí)統(tǒng)計(jì)方法概論_第1頁(yè)
第九章 高級(jí)統(tǒng)計(jì)方法概論_第2頁(yè)
第九章 高級(jí)統(tǒng)計(jì)方法概論_第3頁(yè)
第九章 高級(jí)統(tǒng)計(jì)方法概論_第4頁(yè)
第九章 高級(jí)統(tǒng)計(jì)方法概論_第5頁(yè)
已閱讀5頁(yè),還剩105頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第九章第九章 高級(jí)統(tǒng)計(jì)方法概論高級(jí)統(tǒng)計(jì)方法概論本章內(nèi)容第一節(jié) 多重線性回歸第二節(jié) logistic回歸分析第三節(jié) 生存分析第四節(jié)第五節(jié) 主成分分析與因子分析主成分分析與因子分析第六節(jié)第六節(jié) 典型相關(guān)分析典型相關(guān)分析第一節(jié)第一節(jié) 多重線性回歸多重線性回歸一、應(yīng)用范圍:一、應(yīng)用范圍:生物醫(yī)學(xué)現(xiàn)象的發(fā)生、發(fā)展和變化是生物醫(yī)學(xué)現(xiàn)象的發(fā)生、發(fā)展和變化是多種因素在一定條件下相互影響、相互制約產(chǎn)生的結(jié)多種因素在一定條件下相互影響、相互制約產(chǎn)生的結(jié)果。例如,影響原發(fā)性高血壓發(fā)生的因素有年齡、性果。例如,影響原發(fā)性高血壓發(fā)生的因素有年齡、性別、精神緊張、勞動(dòng)強(qiáng)度、吸煙狀況、家族史等,這別、精神緊張、勞動(dòng)強(qiáng)度、吸

2、煙狀況、家族史等,這些因素中,哪些是主要因素,各因素的大小如何,往些因素中,哪些是主要因素,各因素的大小如何,往往是研究者關(guān)心的問(wèn)題。往是研究者關(guān)心的問(wèn)題。 多重線性回歸就是研究多個(gè)自變量與一個(gè)應(yīng)多重線性回歸就是研究多個(gè)自變量與一個(gè)應(yīng)變量間的線性依存關(guān)系的統(tǒng)計(jì)分析方法。變量間的線性依存關(guān)系的統(tǒng)計(jì)分析方法。 它可以從一組實(shí)際數(shù)據(jù)出發(fā),研究多個(gè)自變它可以從一組實(shí)際數(shù)據(jù)出發(fā),研究多個(gè)自變量和一個(gè)應(yīng)變量之間是否存在線性依存關(guān)系,若存在量和一個(gè)應(yīng)變量之間是否存在線性依存關(guān)系,若存在則找出適當(dāng)?shù)亩筷P(guān)系式,并對(duì)其進(jìn)行參數(shù)估計(jì)和假則找出適當(dāng)?shù)亩筷P(guān)系式,并對(duì)其進(jìn)行參數(shù)估計(jì)和假設(shè)檢驗(yàn),從而推斷哪些自變量對(duì)應(yīng)變

3、量的影響是主要設(shè)檢驗(yàn),從而推斷哪些自變量對(duì)應(yīng)變量的影響是主要的,哪些是次要的,哪些是沒(méi)有意義的;并可利用回的,哪些是次要的,哪些是沒(méi)有意義的;并可利用回歸方程對(duì)所研究的現(xiàn)象進(jìn)行預(yù)測(cè)和控制歸方程對(duì)所研究的現(xiàn)象進(jìn)行預(yù)測(cè)和控制二、應(yīng)用條件二、應(yīng)用條件01122kkYbb Xb Xb X建立回歸方程建立回歸方程( (樣本樣本) )(2)(2)對(duì)對(duì)回歸方程回歸方程及及各自變量各自變量做假設(shè)檢驗(yàn),并對(duì)方做假設(shè)檢驗(yàn),并對(duì)方程的程的擬合效果擬合效果及及各自變量的作用大小各自變量的作用大小做出評(píng)價(jià)。做出評(píng)價(jià)。(1)(1)求截距及偏回歸系數(shù)求截距及偏回歸系數(shù)012,kb b bb三、多重三、多重線性回歸線性回歸的

4、一般步的一般步驟驟標(biāo)準(zhǔn)化偏回歸系數(shù)標(biāo)準(zhǔn)化偏回歸系數(shù)R2,等,等方差分析和方差分析和t檢驗(yàn)檢驗(yàn)四、四、自變量篩選自變量篩選 前述方程中包括的自變量是研究者根據(jù)專業(yè)知識(shí)前述方程中包括的自變量是研究者根據(jù)專業(yè)知識(shí)和經(jīng)驗(yàn)事先選擇好的。然而在許多實(shí)際應(yīng)用中,由于沒(méi)有和經(jīng)驗(yàn)事先選擇好的。然而在許多實(shí)際應(yīng)用中,由于沒(méi)有清晰的理論依據(jù),回歸模型中包括的自變量難以預(yù)先確定,清晰的理論依據(jù),回歸模型中包括的自變量難以預(yù)先確定,為了避免由于引入一些不重要的自變量,而使模型的精度為了避免由于引入一些不重要的自變量,而使模型的精度降低,因此選擇有意義的自變量常常是回歸分析的第一步。降低,因此選擇有意義的自變量常常是回歸

5、分析的第一步。 基本思路:基本思路:盡可能將回歸效果顯著的自變量選入盡可能將回歸效果顯著的自變量選入回歸方程中,作用不顯著的自變量則排除在外?;貧w方程中,作用不顯著的自變量則排除在外。 模型的正確選擇:模型的正確選擇:根本依賴于所研究問(wèn)題本身專根本依賴于所研究問(wèn)題本身專業(yè)實(shí)踐業(yè)實(shí)踐自變量的篩選全局擇優(yōu)逐步選擇調(diào)整R2CP統(tǒng)計(jì)量前進(jìn)法后退法逐步回歸法編號(hào)總膽固醇X1甘油三酯X2胰島素X3糖化血X4血糖Y15.681.94.538.211.223.791.647.326.98.836.023.566.9510.812.344.851.075.888.311.654.62.324.057.513.4

6、273.841.26.459.610.427名糖尿病人的血糖及有關(guān)變量的測(cè)量結(jié)果五、實(shí)例分析五、實(shí)例分析ModelVariables EnteredVariables Removed1糖化血X4.2總膽固醇X1.3胰島素X3.4甘油三酯X2.5. 總膽固醇X10.10.15入出,ModelSummary(f)ModelRR SquareAdjusted R SquareStd. Error of the Estimate1.610(a).372.3472.365062.696(b).484.4412.186723.740(c).547.4882.093514.775(d).601.5282.0

7、09545.773(e).598.5461.97213a Predictors: (Constant), 糖化血b Predictors: (Constant), 糖化血, 總膽固醇c Predictors: (Constant), 糖化血, 總膽固醇, 胰島素d Predictors: (Constant), 糖化血, 總膽固醇, 胰島素, 甘油三酯e Predictors: (Constant), 糖化血, 胰島素, 甘油三酯f Dependent Variable: 血糖ANOVAModelSumofSquaresdfMeanSquareFSig.1Regression82.714182

8、.71414.788.001(a)Residual139.837255.593Total222.552262Regression107.790253.89511.271.000(b)Residual114.762244.782Total222.552263Regression121.748340.5839.260.000(c)Residual100.804234.383Total222.552264Regression133.711433.4288.278.000(d)Residual88.841224.038Total222.552265Regression133.098344.36611.

9、407.000(e)Residual89.454233.889Total222.55226Coefficients(a)Coefficients(a)a Dependent Variable: 血糖六、多重線性回歸的應(yīng)用六、多重線性回歸的應(yīng)用七、多重線性回歸應(yīng)用的注意事項(xiàng)七、多重線性回歸應(yīng)用的注意事項(xiàng)1 1、應(yīng)滿足、應(yīng)滿足LINELINE條件條件 指標(biāo)的數(shù)量化指標(biāo)的數(shù)量化3 3、樣本含量、樣本含量n =(5n =(510)m10)m。4 4、“最優(yōu)最優(yōu)”回歸方程的意義回歸方程的意義5 5、多重共線性、多重共線性高度相關(guān)高度相關(guān)(1 1)(2 2)(3 3)(4 4)6 6 、殘差分析、殘差分析

10、 殘差分析是檢查資料是否滿足回歸模型的前提假設(shè)殘差分析是檢查資料是否滿足回歸模型的前提假設(shè)殘MSeeii以標(biāo)準(zhǔn)化殘差為以標(biāo)準(zhǔn)化殘差為縱坐標(biāo),為橫坐縱坐標(biāo),為橫坐標(biāo)作殘差圖進(jìn)行標(biāo)作殘差圖進(jìn)行分析分析iY回歸分析的步驟模型前提假設(shè)第二節(jié)第二節(jié) logisticlogistic回歸分析回歸分析LogisticLogistic回歸屬于概率型非線性回歸,它回歸屬于概率型非線性回歸,它是研究二分類觀察結(jié)果(應(yīng)變量)與一些是研究二分類觀察結(jié)果(應(yīng)變量)與一些影響因素(自變量)之間關(guān)系的一種多變影響因素(自變量)之間關(guān)系的一種多變量分析方法。量分析方法。 如食管癌的發(fā)生與吸煙、飲酒、不良如食管癌的發(fā)生與吸煙、

11、飲酒、不良飲食習(xí)慣等危險(xiǎn)因素的關(guān)系。飲食習(xí)慣等危險(xiǎn)因素的關(guān)系。 由于應(yīng)變量為二分變量,因此不能用由于應(yīng)變量為二分變量,因此不能用多重線性回歸分析此類資料,但兩者的分多重線性回歸分析此類資料,但兩者的分析思路大致相同。析思路大致相同。什么情況下采用什么情況下采用LogisticLogistic回歸回歸傳統(tǒng)上常使用傳統(tǒng)上常使用Mantel-Mantel-HaenszelHaenszel分層分析方分層分析方法,但該方法主要適用于樣本含量大、分法,但該方法主要適用于樣本含量大、分析因素較少的情況。析因素較少的情況。一、一、logistic回歸模型回歸模型1 1、概率預(yù)報(bào)模型、概率預(yù)報(bào)模型 011011

12、011011()exp()1exp()11exp ()11ppmmmmmmXXXXPXXXXe2 2、logisticlogistic回歸模型的線性形式回歸模型的線性形式 011lnlogit1mmPPXXPP P的的logitlogit變換變換3 3、logisticlogistic回歸模型參數(shù)的意義回歸模型參數(shù)的意義 1. 1. 表示暴露劑量為表示暴露劑量為0 0時(shí)個(gè)體發(fā)病與不發(fā)病概時(shí)個(gè)體發(fā)病與不發(fā)病概率之比的自然對(duì)數(shù)。率之比的自然對(duì)數(shù)。2. 2. 表示某危險(xiǎn)因素表示某危險(xiǎn)因素Xi增加一個(gè)單位時(shí),即增加一個(gè)單位時(shí),即Xi=1=1與與Xi=0=0相比,發(fā)生結(jié)果(相比,發(fā)生結(jié)果(Y=1=1)優(yōu)

13、勢(shì)比的對(duì))優(yōu)勢(shì)比的對(duì)數(shù)值。數(shù)值。0i11001001 1001 1/(1)lnln/(1)loglog()()PPORPPitPitPxxxlnORexp( )ORP1(y=1/x=1)的概率)的概率P0(y=1/x=0)的概率)的概率ORe 反映了在其他變量固定后,反映了在其他變量固定后,X=1X=1與與X=0X=0相相比發(fā)生比發(fā)生Y Y事件的對(duì)數(shù)優(yōu)勢(shì)比。事件的對(duì)數(shù)優(yōu)勢(shì)比?;貧w系數(shù)回歸系數(shù)與與OR XOR X與與Y Y的關(guān)聯(lián)的關(guān)聯(lián)=0=0,OR=1 OR=1 無(wú)關(guān)無(wú)關(guān) 0 0,OROR1 1 有關(guān),危險(xiǎn)因素有關(guān),危險(xiǎn)因素0 0,OROR1 1 有關(guān),保護(hù)因子有關(guān),保護(hù)因子i二、二、logis

14、ticlogistic回歸模型的參數(shù)估計(jì)回歸模型的參數(shù)估計(jì)最大似然估計(jì)最大似然估計(jì)- -需借助統(tǒng)計(jì)軟件完成需借助統(tǒng)計(jì)軟件完成三、三、Logistic Logistic 回歸模型的假設(shè)檢驗(yàn)回歸模型的假設(shè)檢驗(yàn)1.1.檢驗(yàn)一:對(duì)建立的整個(gè)模型做檢驗(yàn)。檢驗(yàn)一:對(duì)建立的整個(gè)模型做檢驗(yàn)。 檢驗(yàn)方法檢驗(yàn)方法1 1)似然比檢驗(yàn))似然比檢驗(yàn) (likelihood ratio test)(likelihood ratio test)2 2)WaldWald檢驗(yàn)檢驗(yàn)3 3)計(jì)分檢驗(yàn))計(jì)分檢驗(yàn)(score test)(score test)0:210mH1:12)0jHjm各 (, , 不全為說(shuō)明自變量說(shuō)明自變量對(duì)

15、對(duì)Y的作用的作用是否有統(tǒng)計(jì)是否有統(tǒng)計(jì)意義。意義。mmXXXPP22110=1ln2.2.檢驗(yàn)二:檢驗(yàn)?zāi)P椭心硻z驗(yàn)二:檢驗(yàn)?zāi)P椭心呈欠駥?duì)是否對(duì)Y Y有作用。有作用。0:0jH1:0jH22)(jbjSb=1的的2四、四、LogisticLogistic回歸對(duì)變量做篩選回歸對(duì)變量做篩選選用的檢驗(yàn)統(tǒng)計(jì)量選用的檢驗(yàn)統(tǒng)計(jì)量1 1)似然比檢驗(yàn))似然比檢驗(yàn) (likelihood (likelihood ratio test)ratio test)2 2)WaldWald檢驗(yàn)檢驗(yàn)3 3)計(jì)分檢驗(yàn))計(jì)分檢驗(yàn)(score test)(score test)例:冠心病的例:冠心病的8 8個(gè)可能危險(xiǎn)因素與賦值個(gè)可能

16、危險(xiǎn)因素與賦值冠心病危險(xiǎn)因素的病例冠心病危險(xiǎn)因素的病例 對(duì)照調(diào)查資料對(duì)照調(diào)查資料 例:例: 逐步篩選進(jìn)入方程的自變量及參數(shù)估計(jì)逐步篩選進(jìn)入方程的自變量及參數(shù)估計(jì)/(/3)jjjbbs控制其他因素后,高脂攝入與低脂攝控制其他因素后,高脂攝入與低脂攝入相比,患冠心病的優(yōu)勢(shì)比為入相比,患冠心病的優(yōu)勢(shì)比為23.0623.06倍倍標(biāo)準(zhǔn)回歸系數(shù)(標(biāo)準(zhǔn)回歸系數(shù)(b b) 比較各自變比較各自變量對(duì)量對(duì)Y Y 的相對(duì)貢獻(xiàn)的相對(duì)貢獻(xiàn)logisticlogistic回歸的應(yīng)用及注意事項(xiàng)回歸的應(yīng)用及注意事項(xiàng)對(duì)對(duì)照照l(shuí)生存分析生存分析(survival analysissurvival analysis)是將)是將事件

17、的結(jié)果(終點(diǎn)事件)和出現(xiàn)這一事件的結(jié)果(終點(diǎn)事件)和出現(xiàn)這一結(jié)果所經(jīng)歷的時(shí)間結(jié)合起來(lái)分析的一結(jié)果所經(jīng)歷的時(shí)間結(jié)合起來(lái)分析的一種統(tǒng)計(jì)分析方法。種統(tǒng)計(jì)分析方法。l生存分析不同于其它多因素分析的主生存分析不同于其它多因素分析的主要區(qū)別點(diǎn)就是生存分析考慮了每個(gè)觀要區(qū)別點(diǎn)就是生存分析考慮了每個(gè)觀測(cè)出現(xiàn)某一結(jié)局的時(shí)間長(zhǎng)短。測(cè)出現(xiàn)某一結(jié)局的時(shí)間長(zhǎng)短。第三節(jié)第三節(jié) 生存分析生存分析第一節(jié)第一節(jié) 生存分析基本概念生存分析基本概念一、一、生存時(shí)間生存時(shí)間( survival timesurvival time,failure time failure time )l終點(diǎn)事件(失效時(shí)間)終點(diǎn)事件(失效時(shí)間)與與起始

18、事件起始事件之間的之間的時(shí)間間隔。時(shí)間間隔。l終點(diǎn)事件指研究者所關(guān)心的特定結(jié)局。終點(diǎn)事件指研究者所關(guān)心的特定結(jié)局。l起始事件是反映研究對(duì)象生存過(guò)程的起起始事件是反映研究對(duì)象生存過(guò)程的起 始特征的事件。始特征的事件。生存時(shí)間舉例生存時(shí)間舉例 起始事件起始事件 終點(diǎn)事件終點(diǎn)事件 服藥服藥 痊愈痊愈 手術(shù)切除手術(shù)切除 死亡死亡 染毒染毒 死亡死亡 化療化療 緩解緩解 緩解緩解 復(fù)發(fā)復(fù)發(fā)l終點(diǎn)事件和起始事件是相對(duì)而言的,終點(diǎn)事件和起始事件是相對(duì)而言的,它們都由研究目的決定,須在設(shè)計(jì)時(shí)它們都由研究目的決定,須在設(shè)計(jì)時(shí)明確規(guī)定,并在研究期間嚴(yán)格遵守,明確規(guī)定,并在研究期間嚴(yán)格遵守,不能隨意改變。不能隨意改

19、變。生存時(shí)間的類型生存時(shí)間的類型1. 1. 完全數(shù)據(jù)完全數(shù)據(jù)(complete datacomplete data)從起點(diǎn)至死亡(死于所研究疾?。┧?jīng)歷從起點(diǎn)至死亡(死于所研究疾?。┧?jīng)歷的時(shí)間。的時(shí)間。2. 2. 截尾數(shù)據(jù)截尾數(shù)據(jù)(刪失數(shù)據(jù),(刪失數(shù)據(jù),censored datacensored data)從起點(diǎn)至截尾點(diǎn)所經(jīng)歷的時(shí)間。從起點(diǎn)至截尾點(diǎn)所經(jīng)歷的時(shí)間。截尾原因:截尾原因:失訪、死于其它疾病、觀察結(jié)失訪、死于其它疾病、觀察結(jié)束時(shí)病人尚存活等。束時(shí)病人尚存活等。1. 1. 完全數(shù)據(jù)完全數(shù)據(jù)(complete datacomplete data)從起點(diǎn)至死亡(死于所研究疾病)所經(jīng)歷從起點(diǎn)

20、至死亡(死于所研究疾?。┧?jīng)歷的時(shí)間。的時(shí)間。2. 2. 截尾數(shù)據(jù)截尾數(shù)據(jù)(刪失數(shù)據(jù),(刪失數(shù)據(jù),censored datacensored data)從起點(diǎn)至截尾點(diǎn)所經(jīng)歷的時(shí)間。從起點(diǎn)至截尾點(diǎn)所經(jīng)歷的時(shí)間。截尾原因:截尾原因:失訪、死于其它疾病、觀察結(jié)失訪、死于其它疾病、觀察結(jié)束時(shí)病人尚存活等。束時(shí)病人尚存活等。大腸癌患者的隨訪記錄大腸癌患者的隨訪記錄 編號(hào)編號(hào) 性別性別 年齡年齡 手術(shù)日期手術(shù)日期 隨訪終止日期隨訪終止日期 隨訪結(jié)局隨訪結(jié)局 生存時(shí)間生存時(shí)間( (天天) )1 1 男男 45 45 1991.05.20 1995.06.04 1991.05.20 1995.06.04 死亡

21、死亡 1476 1476 2 2 男男 50 50 1992.01.12 1998.08.25 1992.01.12 1998.08.25 死亡死亡 2417 2417 3 3 女女 36 36 1991.10.24 1994.03.18 1991.10.24 1994.03.18 失訪失訪 876876+ + 4 4 男男 52 52 1994.11.02 2000.12.30 1994.11.02 2000.12.30 存活存活 22502250+ + 5 5 女女 56 56 1994.06.25 1995.03.17 1994.06.25 1995.03.17 死亡死亡 265 265

22、 6 6 女女 60 60 1993.12.05 1996.08.16 1993.12.05 1996.08.16 死于其它死于其它 985985+ + 生存時(shí)間生存時(shí)間l生存時(shí)間的度量單位可以是年、月、生存時(shí)間的度量單位可以是年、月、日、小時(shí)等。常用符號(hào)日、小時(shí)等。常用符號(hào)t t表示,截尾數(shù)據(jù)在表示,截尾數(shù)據(jù)在其右上角標(biāo)記其右上角標(biāo)記“+ +”。l生存資料的主要特點(diǎn):生存資料的主要特點(diǎn):l含有截尾數(shù)據(jù)。含有截尾數(shù)據(jù)。l截尾數(shù)據(jù)的特點(diǎn):真實(shí)的生存時(shí)間未知,只知道比截尾數(shù)據(jù)的特點(diǎn):真實(shí)的生存時(shí)間未知,只知道比觀察到的截尾生存時(shí)間要長(zhǎng)。觀察到的截尾生存時(shí)間要長(zhǎng)。l生存時(shí)間的分布一般不呈正態(tài)分布。生

23、存時(shí)間的分布一般不呈正態(tài)分布。生存時(shí)間三要素:生存時(shí)間三要素:起始時(shí)間、終點(diǎn)事件和時(shí)間度量起始時(shí)間、終點(diǎn)事件和時(shí)間度量二、條件生存概率、生存率、生存曲線二、條件生存概率、生存率、生存曲線l條件生存概率:條件生存概率:(conditional probability of survivalconditional probability of survival)表示某單位時(shí)段開(kāi)始時(shí)存活的個(gè)體,到該表示某單位時(shí)段開(kāi)始時(shí)存活的個(gè)體,到該時(shí)段結(jié)束時(shí)仍存活的可能性。時(shí)段結(jié)束時(shí)仍存活的可能性。年條件生存概率表示年初尚存人口存年條件生存概率表示年初尚存人口存活滿活滿1 1年的可能性。年的可能性。年初觀察例數(shù)活

24、滿一年例數(shù)p期初觀察例數(shù)年例數(shù)活滿年生存率33期初觀察例數(shù)年例數(shù)活滿年生存率55l生存曲線(生存曲線(survival curvesurvival curve)Survival Functions生存時(shí)間50403020100Cum Survival1.0.8.6.4.20.0組別乙療法組乙療法組-censored甲療法組甲療法組-censored三、中位生存期三、中位生存期l中位生存期(中位生存期(median survival timemedian survival time)又稱半數(shù)生存期,表示恰好有又稱半數(shù)生存期,表示恰好有5050的的個(gè)體尚存活的時(shí)間。個(gè)體尚存活的時(shí)間。l中位生存期越

25、長(zhǎng),表示疾病的預(yù)后越好;中位生存期越長(zhǎng),表示疾病的預(yù)后越好;中位生存期越短,預(yù)后越差。中位生存期越短,預(yù)后越差。l估計(jì)中位生存期常用圖解法或線性內(nèi)插法。估計(jì)中位生存期常用圖解法或線性內(nèi)插法。第二節(jié)第二節(jié) 生存率的估計(jì)與生存曲線生存率的估計(jì)與生存曲線l估計(jì):估計(jì): Kaplan- MeierKaplan- Meier法(小樣本),法(小樣本),壽命表法(大樣本)壽命表法(大樣本)l生存曲線:生存曲線:橫坐標(biāo)為時(shí)間,縱坐標(biāo)為生橫坐標(biāo)為時(shí)間,縱坐標(biāo)為生存率存率l生存曲線比較:生存曲線比較: log-ranklog-rank檢驗(yàn)檢驗(yàn)第四節(jié)第四節(jié) CoxCox比例風(fēng)險(xiǎn)回歸模型比例風(fēng)險(xiǎn)回歸模型lCoxCo

26、x比例風(fēng)險(xiǎn)回歸模型(比例風(fēng)險(xiǎn)回歸模型(CoxCoxs proportional s proportional hazards regression modelhazards regression model),簡(jiǎn)稱),簡(jiǎn)稱CoxCox回歸?;貧w模型。型。l 該模型由英國(guó)統(tǒng)計(jì)學(xué)家該模型由英國(guó)統(tǒng)計(jì)學(xué)家D.R.CoxD.R.Cox于于19721972年提出,年提出,主要用于腫瘤和其它慢性病的預(yù)后分析,也可用主要用于腫瘤和其它慢性病的預(yù)后分析,也可用于隊(duì)列研究的病因探索。其優(yōu)點(diǎn):于隊(duì)列研究的病因探索。其優(yōu)點(diǎn):l多因素分析方法多因素分析方法l不考慮生存時(shí)間分布不考慮生存時(shí)間分布l利用截尾數(shù)據(jù)利用截尾數(shù)據(jù)

27、一、一、CoxCox模型的基本形式模型的基本形式)exp()(),(22110ppXXXthXth二、參數(shù)估計(jì)與假設(shè)檢驗(yàn)二、參數(shù)估計(jì)與假設(shè)檢驗(yàn)三、因素篩選與最優(yōu)模型的建立三、因素篩選與最優(yōu)模型的建立分析結(jié)果(結(jié)果解釋)分析結(jié)果(結(jié)果解釋)01122mmXXXx4RR(x4RR(相對(duì)危險(xiǎn)度相對(duì)危險(xiǎn)度)=5.822,)=5.822,說(shuō)明傳統(tǒng)療法說(shuō)明傳統(tǒng)療法與新療法相比,病人死亡的風(fēng)險(xiǎn)為與新療法相比,病人死亡的風(fēng)險(xiǎn)為5.8225.822倍,倍,X5X5解釋同上。解釋同上。Variables in the EquationVariables in the Equation1.751.54610.265

28、1.0015.7581.762.54810.3371.0015.822.931.4454.3891.036.394x4Step 1x4x5Step 2BSEWalddfSig.Exp(B)第四節(jié)第四節(jié) 判別分析與聚類分析判別分析與聚類分析分類學(xué)是人類認(rèn)識(shí)世界的基礎(chǔ)科學(xué)。聚類分析和判別分類學(xué)是人類認(rèn)識(shí)世界的基礎(chǔ)科學(xué)。聚類分析和判別分析是研究分析是研究事物分類事物分類的基本方法,廣泛地應(yīng)用于自然科學(xué)、的基本方法,廣泛地應(yīng)用于自然科學(xué)、社會(huì)科學(xué)、工農(nóng)業(yè)生產(chǎn)的各個(gè)領(lǐng)域。社會(huì)科學(xué)、工農(nóng)業(yè)生產(chǎn)的各個(gè)領(lǐng)域。判別分析判別分析有一些昆蟲(chóng)的性別很難看出,只有通過(guò)解有一些昆蟲(chóng)的性別很難看出,只有通過(guò)解剖才能夠判別;

29、剖才能夠判別;但是雄性和雌性昆蟲(chóng)在若干體表度量上有但是雄性和雌性昆蟲(chóng)在若干體表度量上有些綜合的差異。于是統(tǒng)計(jì)學(xué)家就根據(jù)已知雌雄些綜合的差異。于是統(tǒng)計(jì)學(xué)家就根據(jù)已知雌雄的昆蟲(chóng)體表度量(這些用作度量的變量亦稱為的昆蟲(chóng)體表度量(這些用作度量的變量亦稱為預(yù)測(cè)變量)得到一個(gè)標(biāo)準(zhǔn),并且利用這個(gè)標(biāo)準(zhǔn)預(yù)測(cè)變量)得到一個(gè)標(biāo)準(zhǔn),并且利用這個(gè)標(biāo)準(zhǔn)來(lái)判別其他未知性別的昆蟲(chóng)。來(lái)判別其他未知性別的昆蟲(chóng)。這樣的判別雖然不能保證百分之百準(zhǔn)確,這樣的判別雖然不能保證百分之百準(zhǔn)確,但至少大部分判別都是對(duì)的,而且用不著殺死但至少大部分判別都是對(duì)的,而且用不著殺死昆蟲(chóng)來(lái)進(jìn)行判別了昆蟲(chóng)來(lái)進(jìn)行判別了一、概念一、概念判別分析是根據(jù)判別對(duì)象

30、若干個(gè)指標(biāo)的觀測(cè)結(jié)果判別分析是根據(jù)判別對(duì)象若干個(gè)指標(biāo)的觀測(cè)結(jié)果判定其應(yīng)屬于哪一類的統(tǒng)計(jì)學(xué)方法。判定其應(yīng)屬于哪一類的統(tǒng)計(jì)學(xué)方法。二、基本過(guò)程二、基本過(guò)程1.判別分析是根據(jù)表明事物特點(diǎn)的變判別分析是根據(jù)表明事物特點(diǎn)的變量值和它們所屬的類,求出量值和它們所屬的類,求出判別函數(shù)判別函數(shù)樣本的原始分類必須正確無(wú)誤,否樣本的原始分類必須正確無(wú)誤,否則得不到可靠判別函數(shù)則得不到可靠判別函數(shù)。2.根據(jù)判別函數(shù)依據(jù)相應(yīng)的根據(jù)判別函數(shù)依據(jù)相應(yīng)的判別規(guī)則判別規(guī)則對(duì)未知所屬類別的事物進(jìn)行分類。對(duì)未知所屬類別的事物進(jìn)行分類。三、常用方法三、常用方法Fisher判別、最大似然判別法、判別、最大似然判別法、Bayes公式判

31、別法、公式判別法、Bayes判別和逐步判別判別和逐步判別例例1Fisher判別判別1X2X3X收集了收集了2222例某病患者的三個(gè)指標(biāo)(例某病患者的三個(gè)指標(biāo)(X1 1, ,X2 2, ,X3 3 )的資料列于)的資料列于下表,其中前期患者(下表,其中前期患者(A A)類)類1212例,晚期患者(例,晚期患者(B B)類)類1010例。例。試作判別分析。試作判別分析。 1X2X3X判別函數(shù):Z=C1X1+C2X2+CmXm本例判別函數(shù)為:Z=-0.07X1+0.225X2-0.318X3判別規(guī)擇:Zi Zc,判為A類ZiF0.1907536810.4816232.82.00010.886074451.069187.550.39300.960958050.7841560.53690.998558630.111790.7365典型相關(guān)系數(shù)近似典型相關(guān)系數(shù)近似F檢驗(yàn)檢驗(yàn)上述結(jié)果顯示:只有第一典型相關(guān)系數(shù)在檢驗(yàn)水上述結(jié)果顯示:只有第一典型相關(guān)系數(shù)在檢驗(yàn)水準(zhǔn)準(zhǔn)0.05的水平下具有統(tǒng)計(jì)學(xué)意義,因此只取第一的水平下具有統(tǒng)計(jì)學(xué)意義,因此只取第一對(duì)典型相關(guān)變量,即對(duì)典型相關(guān)變量,即(U1,V1)原始的原始的U典型相關(guān)變量典型相關(guān)變量U1U2U3U4x10.0004798914-0.001781814-0.003714269-0.0027

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論