生物醫(yī)學(xué)數(shù)據(jù)挖掘:04-回歸分析_第1頁
生物醫(yī)學(xué)數(shù)據(jù)挖掘:04-回歸分析_第2頁
生物醫(yī)學(xué)數(shù)據(jù)挖掘:04-回歸分析_第3頁
生物醫(yī)學(xué)數(shù)據(jù)挖掘:04-回歸分析_第4頁
生物醫(yī)學(xué)數(shù)據(jù)挖掘:04-回歸分析_第5頁
已閱讀5頁,還剩55頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1第二章數(shù)據(jù)采集與準(zhǔn)備一.?dāng)?shù)據(jù)的采集和組織二.數(shù)據(jù)管理三.?dāng)?shù)據(jù)預(yù)處理1.目的2.數(shù)據(jù)的分布狀態(tài)3.數(shù)據(jù)清洗4.數(shù)據(jù)整合5.數(shù)據(jù)變換6.數(shù)據(jù)精簡回顧2第三章回歸分析一.功能目的二.方法/模型

1.線性回歸

2.Logistic回歸

3.ANN,人工神經(jīng)網(wǎng)絡(luò)

4.回歸樹/決策樹三.回歸分析應(yīng)用實(shí)例3一.功能目的揭示響應(yīng)變量隨一個(gè)或幾個(gè)自變量的變化而發(fā)生響應(yīng)的規(guī)律多種形式:線性/非線性、ANN、決策樹結(jié)果:模型作用:預(yù)測型第三章回歸分析4一般過程5第三章回歸分析一.功能目的二.方法/模型

1.線性回歸

2.Logistic回歸

3.ANN,人工神經(jīng)網(wǎng)絡(luò)

4.回歸樹/決策樹三.回歸分析應(yīng)用實(shí)例6一元線性回歸二.方法/模型線性回歸(用公式表示規(guī)律)樣本->變量間的定量關(guān)系性能:殘差最小變量系數(shù):影響的顯著性簡單明了、容易計(jì)算yxy=x+1X1Y1Y1’7一元線性回歸P36誤差8910幾種模型(1)線性函數(shù)形式(2)二次函數(shù)形式(3)高次方程形式(4)指數(shù)函數(shù)形式111213理解回歸輸出14X(劑量)Y(降壓幅度)5101013.51515.520172518非線性回歸轉(zhuǎn)換為線性原始數(shù)據(jù):轉(zhuǎn)換后:X’=lnXY(降壓幅度)1.609102.30313.52.70815.52.996173.2091815分類型變量在回歸方程中如何使用?啞變量分類型變量(二值、排序型除外)轉(zhuǎn)變?yōu)閿?shù)值型(增加變量)例:屬性”分布形式”有5個(gè)取值16第三章回歸分析一.功能目的二.方法/模型

1.線性回歸

2.Logistic回歸

3.ANN,人工神經(jīng)網(wǎng)絡(luò)

4.回歸樹/決策樹三.回歸分析應(yīng)用實(shí)例17Logistic回歸多元線性回歸

y=β0+β1X1+β2X2+…+βpXpy為數(shù)值變量若y為分類變量:發(fā)生/未發(fā)生,陽性/陰性等,則以上模型不適用用發(fā)生的概率P來代替yp=β0+β1X1+β2X2+…+βpXp18Logistic回歸Logistic回歸是一種非線性的模型適用于:應(yīng)變量為二值(1和0)如:發(fā)生/未發(fā)生、陽性/陰性、有效/無效計(jì)算P(事件發(fā)生/不發(fā)生的概率)19Logistic回歸Logistic回歸模型為:概率模型

ln[P/(1-P)]=β0+β1X1+…+βpXp或:

exp(β0+β1X1+…+βpXp)P=─────────────1+exp(β0+β1X1+…+βpXp)

其中:P為發(fā)生的概率

X1,X2,…,Xp為影響疾病發(fā)生的因素20Logistic回歸等式左邊

變化范圍P

發(fā)生的概率0≤P≤11-P

不發(fā)生概率0≤P≤1p/1-p比值(oddsratio)0≤p/1-p<+∞ln(p/1-p)對數(shù)比(ratio)-∞<ln(p/1-p)<+∞21Logistic回歸實(shí)例1:冠心病coronaryarterydisease(y/n):與年齡、體重、性別、吸煙史、血壓等因素的關(guān)系22Logistic回歸例實(shí)例2:糖尿病人數(shù)據(jù)血脂、血壓、血糖1異常0正常心血管終點(diǎn)事件(endpoint)1發(fā)生0未發(fā)生有何影響?如何影響?23討論(1)采集數(shù)據(jù):10524條記錄

15.47%1628例發(fā)生終點(diǎn)事件

84.53%8896例未…

原始數(shù)據(jù)24數(shù)據(jù)整理數(shù)據(jù)整理建立線性logistic回歸模型:

P39式3.725(2)Logistic回歸模型P39式3.7

得到式3.8Y=1的概率26討論(3)測試樣本的測試結(jié)果:(4)如何解釋上述回歸模型?血脂0.161,權(quán)重最小血壓0.992,…

最大血糖0.44427回歸方程優(yōu)點(diǎn):表達(dá)清晰,計(jì)算方便。問題:(1)假定各因素間無相互作用,是獨(dú)立的。

(2)不能反映因素間的相互作用(協(xié)同或拮抗)。28第三章回歸分析一.功能目的二.方法/模型

1.線性回歸

2.Logistic回歸

3.ANN,人工神經(jīng)網(wǎng)絡(luò)

4.回歸樹/決策樹三.回歸分析應(yīng)用實(shí)例29生物神經(jīng)元30人工神經(jīng)網(wǎng)絡(luò)ArtificialNeuralNetworks,ANN描述非線性依賴關(guān)系A(chǔ)NN的結(jié)構(gòu)輸入神經(jīng)元:自變量輸出神經(jīng)元:應(yīng)變量中間神經(jīng)元:由設(shè)計(jì)者決定性能激勵(lì)函數(shù)訓(xùn)練的結(jié)果:偶合系數(shù)或權(quán)重(weight)31人工神經(jīng)網(wǎng)絡(luò)32人工神經(jīng)網(wǎng)絡(luò)ANN的輸入通常輸入值限制在[0,1]數(shù)值型:數(shù)據(jù)歸一化(最小-最大歸一法P32,適合ANN)分類型:轉(zhuǎn)換為亞變量結(jié)果形式確定結(jié)構(gòu)的偶合系數(shù)或權(quán)重(weight)33三層ANN輸入層:一個(gè)神經(jīng)元對應(yīng)一個(gè)自變量輸出層:與應(yīng)變量對應(yīng)中間層:神經(jīng)元個(gè)數(shù)34ANN的優(yōu)點(diǎn)(1)能夠反映自變量間的相互作用(2)抗噪能力較強(qiáng)(3)適合反映非線性關(guān)系A(chǔ)NN的缺點(diǎn)(1)訓(xùn)練過程復(fù)雜(2)不可解釋性35討論若干因素對癌癥患者預(yù)后的影響自變量,2個(gè)1)陽性淋巴結(jié)個(gè)數(shù)X1:無,少量,大量2)原發(fā)腫瘤部位X2:1穿透漿膜,0未穿透應(yīng)變量:預(yù)后(如5年生存或死亡)采集數(shù)據(jù):學(xué)習(xí)樣本1514例,測試樣本787例設(shè)計(jì)模型,表達(dá)因素間關(guān)系36討論如何選擇模型?數(shù)據(jù)預(yù)處理?性能評價(jià)?37ANN結(jié)果分析問題:哪個(gè)模型更適合本項(xiàng)研究?AB101038第三章回歸分析一.功能目的二.方法/模型

1.線性回歸

2.Logistic回歸

3.ANN,人工神經(jīng)網(wǎng)絡(luò)

4.回歸樹/決策樹三.回歸分析應(yīng)用實(shí)例39回歸樹回歸樹用邏輯推理的方式完成預(yù)測輸出分類型的回歸預(yù)測值數(shù)值型=>分類型表達(dá)形式易理解當(dāng)回歸預(yù)測值為分類型時(shí),回歸和分類相似40回歸樹結(jié)構(gòu)樹形結(jié)構(gòu)根:包含全體數(shù)據(jù),歸納推理的起點(diǎn)內(nèi)部節(jié)點(diǎn):選用一個(gè)屬性進(jìn)行分割葉子節(jié)點(diǎn):表示一個(gè)終點(diǎn)事件分叉:分割的一個(gè)部分分叉原則:使各個(gè)分枝中分類的一致性最高終止原則:誤差符合預(yù)定要求41回歸樹結(jié)構(gòu)根節(jié)點(diǎn)root葉子節(jié)點(diǎn)leaf中間節(jié)點(diǎn)Intralnode分支branceChestpain胸部疼痛HR 心率Nausea反胃MI心梗42回歸樹性能正確性訓(xùn)練誤差測試誤差簡潔性:層次、分支結(jié)果的形式產(chǎn)生式規(guī)則:IFTHEN43例:回歸樹44IF天氣=晴朗THEN

IF濕度<=75THEN比賽

IF濕度>75THEN不比賽IF天氣=多云THEN比賽IF天氣=下雨THENIF刮風(fēng)=是THEN不比賽

IF刮風(fēng)=不是THEN比賽45回歸樹的生成樹的生成根節(jié)點(diǎn)分支樹的修剪去掉一些可能是噪聲或者異常的數(shù)據(jù)關(guān)鍵:分支節(jié)點(diǎn)的選擇46例:回歸樹創(chuàng)建問題:起始點(diǎn)如何選???47例:回歸樹創(chuàng)建根結(jié)點(diǎn)的選擇:正確、簡潔是否有發(fā)燒腺體腫大48例:回歸樹的建立(定量)例3.3根據(jù)受檢者的檢驗(yàn)結(jié)果,確定該受檢者是否可以戴隱形眼鏡,適合戴硬性的還是軟性的隱形眼鏡。P43,表3.149例:回歸樹的建立(定量)例3.3P43,表3.1根結(jié)點(diǎn)的選擇依據(jù):同類占樣本最多者分支中的樣本歸屬不是同一個(gè)類別,需要再分叉?不推薦:5硬性:8軟性:850?特征屬性不能重復(fù)使用有可能出現(xiàn)分到最后仍不能分的情況?51分支原則:以占同類樣本數(shù)的比例最高項(xiàng)作為分支依據(jù)層次、葉子不宜過多52最終形成的結(jié)果(產(chǎn)生式規(guī)則)IF淚流量=減少THEN不推薦ELSEIF散光=無THEN推薦軟性鏡片(誤差12.50%)ELSEIF視力=近視THEN推薦硬性鏡片(誤差14.29%)ELSEIF老視=未老視THEN推薦硬性鏡片(誤差0)ELSE不推薦(誤差0)53回歸樹使用:對未知數(shù)據(jù)進(jìn)行預(yù)測回歸樹的特點(diǎn)可解釋性好符合邏輯推理過程,易接受對學(xué)習(xí)樣本過于敏感54第三章回歸分析一.功能目的二.方法/模型

1.線性回歸

2.Logistic回歸

3.ANN,人工神經(jīng)網(wǎng)絡(luò)

4.回歸樹/決策樹三.回歸分析應(yīng)用實(shí)例55應(yīng)用一:子宮頸癌患者生存率,P44應(yīng)用二:乳腺癌患者預(yù)后分析,P48數(shù)據(jù)內(nèi)在特征及研究目的的需要56數(shù)據(jù)挖掘-建立模型logistic回歸人工神經(jīng)網(wǎng)絡(luò)決策樹57模型的性能比較一決策樹模型性能優(yōu)于其他兩種模型。人工神經(jīng)網(wǎng)絡(luò)模型的靈敏度和預(yù)測正確率均比logistic回歸模型好,其預(yù)測性能次之。logistic回歸模型的性能相對較差三種模型各指標(biāo)的標(biāo)準(zhǔn)差均不大,說明各模型的穩(wěn)定性較好58性能比較二

哪些因素對結(jié)果影響較大?

哪些因素對結(jié)果影響不大?59靈敏度(sensitivity)分析假設(shè):N個(gè)樣本,3個(gè)特征屬性F1/F2/F3(1)分別計(jì)算各個(gè)特征屬性的均值/標(biāo)準(zhǔn)差(2)將(m1,m

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論