醫(yī)學(xué)統(tǒng)計(jì)(10)PPT課件_第1頁
醫(yī)學(xué)統(tǒng)計(jì)(10)PPT課件_第2頁
醫(yī)學(xué)統(tǒng)計(jì)(10)PPT課件_第3頁
醫(yī)學(xué)統(tǒng)計(jì)(10)PPT課件_第4頁
醫(yī)學(xué)統(tǒng)計(jì)(10)PPT課件_第5頁
已閱讀5頁,還剩186頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、醫(yī)學(xué)統(tǒng)計(jì)學(xué)(醫(yī)學(xué)統(tǒng)計(jì)學(xué)(1010) 數(shù)據(jù)挖掘分析數(shù)據(jù)挖掘分析 第二部分第二部分 LogisticLogistic回歸回歸 第一部分第一部分 第一部分 回歸分析的分類 多個(gè)因變量多個(gè)因變量 (y1,y2,yk) 路徑分析路徑分析 結(jié)構(gòu)方程模型分析結(jié)構(gòu)方程模型分析 一個(gè)因一個(gè)因 變量變量 y 連續(xù)型因變量連續(xù)型因變量 (y) - 線性回歸分析線性回歸分析 分類型因變量分類型因變量 (y) -Logistic 回歸分析回歸分析 時(shí)間序列因變量時(shí)間序列因變量 (t) -時(shí)間序列分析時(shí)間序列分析 生存時(shí)間因變量生存時(shí)間因變量 (t) -生存風(fēng)險(xiǎn)回歸分析生存風(fēng)險(xiǎn)回歸分析 多重線性回歸多重線性回歸 logi

2、sticlogistic回歸回歸 logisticlogistic回歸(回歸(logistic regressionlogistic regression)是研究因變量為二分類或多分類觀察結(jié)果與影響因素(自變量)之間關(guān))是研究因變量為二分類或多分類觀察結(jié)果與影響因素(自變量)之間關(guān) 系的一種多變量分析方法,屬概率型非線性回歸。系的一種多變量分析方法,屬概率型非線性回歸。 logisticlogistic回歸的分類:回歸的分類: (1 1)二分類資料)二分類資料logisticlogistic回歸:回歸: 因變量因變量為兩分類變量的資料,可用為兩分類變量的資料,可用 非條件非條件logistic

3、logistic回歸和條件回歸和條件logisticlogistic回歸進(jìn)行分析。非條件回歸進(jìn)行分析。非條件logisticlogistic回回 歸多用于非配比病例歸多用于非配比病例- -對(duì)照研究或隊(duì)列研究資料,條件對(duì)照研究或隊(duì)列研究資料,條件logisticlogistic回歸回歸 多用于配對(duì)或配比資料。多用于配對(duì)或配比資料。 (2 2)多分類資料)多分類資料logisticlogistic回歸:回歸: 因變量因變量為多項(xiàng)分類的資料,可用多為多項(xiàng)分類的資料,可用多 項(xiàng)分類項(xiàng)分類logisticlogistic回歸模型或有序分類回歸模型或有序分類logisticlogistic回歸模型進(jìn)行分析

4、。回歸模型進(jìn)行分析。 隊(duì)列研究隊(duì)列研究(cohort study)(cohort study):也稱前瞻性研究、隨訪研究等。是一種由因及果的研究,在研究開也稱前瞻性研究、隨訪研究等。是一種由因及果的研究,在研究開 始時(shí),根據(jù)以往有無暴露經(jīng)歷,將研究人群分為暴露人群和非暴露人群,在一定時(shí)期內(nèi),隨訪始時(shí),根據(jù)以往有無暴露經(jīng)歷,將研究人群分為暴露人群和非暴露人群,在一定時(shí)期內(nèi),隨訪 觀察和比較兩組人群的發(fā)病率或死亡率。如果兩組人群發(fā)病率或死亡率差別有統(tǒng)計(jì)學(xué)意義,則觀察和比較兩組人群的發(fā)病率或死亡率。如果兩組人群發(fā)病率或死亡率差別有統(tǒng)計(jì)學(xué)意義,則 認(rèn)為暴露和疾病間存在聯(lián)系。認(rèn)為暴露和疾病間存在聯(lián)系。隊(duì)

5、列研究驗(yàn)證的暴露因素在研究開始前已存在,研究者知道每個(gè)隊(duì)列研究驗(yàn)證的暴露因素在研究開始前已存在,研究者知道每個(gè) 研究對(duì)象的暴露情況。研究對(duì)象的暴露情況。 研究人群 + - + + - - 調(diào)查方向:追蹤收集資料調(diào)查方向:追蹤收集資料 比較比較疾病疾病人數(shù)人數(shù)暴露暴露 a b c d a/(a+b) c/(c+d) 隊(duì)列研究原理示意圖隊(duì)列研究原理示意圖 RRRR(相對(duì)危險(xiǎn)度(相對(duì)危險(xiǎn)度relative riskrelative risk):表示暴露組與非暴露組發(fā)病率):表示暴露組與非暴露組發(fā)病率( (或死亡率或死亡率) )的的 比值。也稱為危險(xiǎn)比(比值。也稱為危險(xiǎn)比(risk ratiorisk

6、 ratio)。反映了暴露與疾病發(fā)生的關(guān)聯(lián)強(qiáng)度。)。反映了暴露與疾病發(fā)生的關(guān)聯(lián)強(qiáng)度。 RRRR表明暴露組發(fā)病或死亡的危險(xiǎn)是非暴露組的多少倍。表明暴露組發(fā)病或死亡的危險(xiǎn)是非暴露組的多少倍。 病例對(duì)照研究病例對(duì)照研究(case-control studies)(case-control studies):一種由果及因的回顧性研究,先按疾病一種由果及因的回顧性研究,先按疾病 狀態(tài)確定調(diào)查對(duì)象,分為病例狀態(tài)確定調(diào)查對(duì)象,分為病例(case)(case)和對(duì)照和對(duì)照(control)(control)兩組,然后利用已有的記錄、兩組,然后利用已有的記錄、 或采用詢問、填寫調(diào)查表等方式,了解其發(fā)病前的暴露情

7、況,并進(jìn)行比較,推測或采用詢問、填寫調(diào)查表等方式,了解其發(fā)病前的暴露情況,并進(jìn)行比較,推測 疾病與暴露間的關(guān)系。疾病與暴露間的關(guān)系。 + - 病例 + - 對(duì)照 調(diào)查方向:收集回顧性資料調(diào)查方向:收集回顧性資料 a b c d a/(a+b) c/(c+d) 比較比較人數(shù)人數(shù)暴露暴露疾病疾病 病例對(duì)照原理示意圖病例對(duì)照原理示意圖 病例對(duì)照研究的類型病例對(duì)照研究的類型 (一)病例與對(duì)照不匹配(一)病例與對(duì)照不匹配-非條件非條件logisticlogistic回歸回歸 在設(shè)計(jì)所規(guī)定的病例和對(duì)照人群中,分別抽取一定量的研究對(duì)象,一般對(duì)照應(yīng)等于在設(shè)計(jì)所規(guī)定的病例和對(duì)照人群中,分別抽取一定量的研究對(duì)象,

8、一般對(duì)照應(yīng)等于 或多于病例數(shù),此外無其他任何限制。或多于病例數(shù),此外無其他任何限制。 (二)病例與對(duì)照匹配(二)病例與對(duì)照匹配-條件條件logisticlogistic回歸回歸 匹配或稱配比(匹配或稱配比(matchingmatching),即要求對(duì)照在某些因素或特征上與病例保持一致,),即要求對(duì)照在某些因素或特征上與病例保持一致, 目的是對(duì)兩組比較時(shí)排除混雜因素的干擾。匹配分為成組匹配和個(gè)體匹配。目的是對(duì)兩組比較時(shí)排除混雜因素的干擾。匹配分為成組匹配和個(gè)體匹配。 非條件非條件logisticlogistic回歸回歸 應(yīng)變量為二分類資料應(yīng)變量為二分類資料 p一個(gè)二分類自變量一個(gè)二分類自變量 p

9、兩個(gè)(多個(gè))二分類自變量兩個(gè)(多個(gè))二分類自變量 p無序多分類自變量無序多分類自變量 p有序多分類自變量有序多分類自變量 p引入數(shù)值型自變量引入數(shù)值型自變量 應(yīng)變量為有序多分類資料應(yīng)變量為有序多分類資料 應(yīng)變量為無序多分類資料應(yīng)變量為無序多分類資料 二分類資料的二分類資料的logisticlogistic回歸回歸 二分類二分類 logistic logistic 回歸對(duì)自變量沒有特殊要求回歸對(duì)自變量沒有特殊要求,自變量可以是分類變量自變量可以是分類變量( (包括二分類和多分類變量包括二分類和多分類變量) )和數(shù)值變和數(shù)值變 量。量。 二分類資料的二分類資料的logisticlogistic回歸

10、通過回歸通過SPSSSPSS統(tǒng)計(jì)軟件的統(tǒng)計(jì)軟件的二元二元LogisticLogistic過程實(shí)現(xiàn)統(tǒng)計(jì)分析。過程實(shí)現(xiàn)統(tǒng)計(jì)分析。 【例例1 1】某某醫(yī)師為研究婦女服避孕藥與子代染色體異常的關(guān)系,醫(yī)師為研究婦女服避孕藥與子代染色體異常的關(guān)系, 分別調(diào)查了子代染色體異常和正常的同齡組兒童的母親分別調(diào)查了子代染色體異常和正常的同齡組兒童的母親5454名名 和和196196名,結(jié)果如表名,結(jié)果如表。試對(duì)此資料進(jìn)行分析,能否提出子代染試對(duì)此資料進(jìn)行分析,能否提出子代染 色體異常與其母在孕前色體異常與其母在孕前6 6個(gè)月內(nèi)服用避孕藥有關(guān)?個(gè)月內(nèi)服用避孕藥有關(guān)? SPSS軟件操作 第第1 1步:定義變量步:定義

11、變量 第第2 2步:輸入原始數(shù)據(jù)步:輸入原始數(shù)據(jù) 第第3 3步:加權(quán)設(shè)置步:加權(quán)設(shè)置 選擇選擇數(shù)據(jù)數(shù)據(jù)加權(quán)個(gè)案(加權(quán)個(gè)案(WW) 將將f f移入移入頻率變量頻率變量 第第4 4步:步:logisticlogistic回歸分析(回歸分析(1 1) 選擇選擇分析分析 回歸回歸 二元二元logisticlogistic 第第4 4步:步: logisticlogistic回歸分析(回歸分析(2 2) 將將a a和和b b分別移入分別移入?yún)f(xié)變量協(xié)變量和和因變量因變量 自變量全部進(jìn)入模型自變量全部進(jìn)入模型 向前逐步選擇法向前逐步選擇法 向后逐步剔除法向后逐步剔除法 條件:將變量剔除出模型的依據(jù)是條件參數(shù)

12、條件:將變量剔除出模型的依據(jù)是條件參數(shù) 估計(jì)的似然比統(tǒng)計(jì)量的概率值。估計(jì)的似然比統(tǒng)計(jì)量的概率值。 LRLR:將變量剔除出模型的依據(jù)是最大偏似然:將變量剔除出模型的依據(jù)是最大偏似然 估計(jì)的似然比統(tǒng)計(jì)量的概率值。估計(jì)的似然比統(tǒng)計(jì)量的概率值。 WaldWald:將變量剔除出模型的依據(jù)是:將變量剔除出模型的依據(jù)是WaldWald統(tǒng)計(jì)統(tǒng)計(jì) 量的概率值。量的概率值。 第第4 4步:步: logisticlogistic回歸分析(回歸分析(3 3) 設(shè)置設(shè)置選項(xiàng)選項(xiàng) 勾上勾上expexp(B B)的)的 95CI95CI。 第第4 4步:步: logisticlogistic回歸分析(回歸分析(4 4) 結(jié)

13、果解讀:結(jié)果解讀:OR=3.200OR=3.200,p=0.000p=0.000 OROR的的95%CI95%CI為(為(1.7125.9831.7125.983) ExpExp(B B)=e=eB B 值得注意的是病例值得注意的是病例- -對(duì)照研究中對(duì)照研究中,病例與對(duì)照兩組人數(shù)的比例是人為規(guī)定的病例與對(duì)照兩組人數(shù)的比例是人為規(guī)定的,不代表自然人群中真實(shí)的病人與不代表自然人群中真實(shí)的病人與 正常人的比值。因此正常人的比值。因此,根據(jù)病例一對(duì)照研究資料建立的根據(jù)病例一對(duì)照研究資料建立的 Logistic Logistic 回歸方程中回歸方程中,常數(shù)項(xiàng)意義不大常數(shù)項(xiàng)意義不大,主要針對(duì)結(jié)主要針對(duì)結(jié)

14、 果中自變量的回歸系數(shù)及其相應(yīng)的比數(shù)比果中自變量的回歸系數(shù)及其相應(yīng)的比數(shù)比OR OR 值的意義作解釋值的意義作解釋,不宜直接用于所研究事件發(fā)生概率的預(yù)測和不宜直接用于所研究事件發(fā)生概率的預(yù)測和 判別判別。 兩個(gè)二分類自變量兩個(gè)二分類自變量的的logisticlogistic回歸回歸 兩個(gè)自變量均為兩水平的二分類資料的兩個(gè)自變量均為兩水平的二分類資料的 Logistic Logistic 回歸分析與一個(gè)自變量為兩水平的二分類資料的回歸分析與一個(gè)自變量為兩水平的二分類資料的 Logistic Logistic 回歸分析在步驟方法上是相同的回歸分析在步驟方法上是相同的,只是增加了一個(gè)自變量只是增加了

15、一個(gè)自變量,在建立在建立 LogisticLogistic回歸方程時(shí)需要對(duì)兩個(gè)自變量回歸方程時(shí)需要對(duì)兩個(gè)自變量 對(duì)應(yīng)的參數(shù)進(jìn)行估計(jì)對(duì)應(yīng)的參數(shù)進(jìn)行估計(jì),計(jì)算兩個(gè)比數(shù)比。計(jì)算兩個(gè)比數(shù)比。 另外另外,兩個(gè)自變量均有意義時(shí)兩個(gè)自變量均有意義時(shí),看哪個(gè)影響作用更大些看哪個(gè)影響作用更大些,與多重線性回歸一樣與多重線性回歸一樣,也是比較標(biāo)準(zhǔn)偏回歸系數(shù)也是比較標(biāo)準(zhǔn)偏回歸系數(shù) 絕對(duì)值的大小。絕對(duì)值的大小。 無序多分類自變量的無序多分類自變量的Logistic Logistic 回歸回歸 自變量是一個(gè)或多個(gè)為無序多分類變量時(shí)自變量是一個(gè)或多個(gè)為無序多分類變量時(shí),其其 Logistic Logistic 回歸在方回

16、歸在方 法上同上述二分類資料的法上同上述二分類資料的 LogisticLogistic回歸回歸,只要對(duì)只要對(duì)自變量的不同水自變量的不同水 平構(gòu)造啞變量平構(gòu)造啞變量即可。某一多分類無序自變量可構(gòu)造的啞變量數(shù)等即可。某一多分類無序自變量可構(gòu)造的啞變量數(shù)等 于該自變量的分類數(shù)減于該自變量的分類數(shù)減 1 1。將啞變量引入模型。將啞變量引入模型,其結(jié)果無論有無其結(jié)果無論有無 統(tǒng)計(jì)學(xué)意義統(tǒng)計(jì)學(xué)意義,都是相對(duì)事先確定某一類為基準(zhǔn)對(duì)照而言的。都是相對(duì)事先確定某一類為基準(zhǔn)對(duì)照而言的。 SPSSSPSS對(duì)字符型多分類無序自變量對(duì)字符型多分類無序自變量,系統(tǒng)默認(rèn)以最后的那個(gè)分類為系統(tǒng)默認(rèn)以最后的那個(gè)分類為 對(duì)照。對(duì)

17、照。 有序多分類自變量的有序多分類自變量的Logistic Logistic 回歸回歸 Logistic Logistic 回歸中自變量為有序多分類變量回歸中自變量為有序多分類變量,即等級(jí)變量即等級(jí)變量,如文化程度可分為文盲、小學(xué)、中學(xué)、大學(xué)及以上等。如文化程度可分為文盲、小學(xué)、中學(xué)、大學(xué)及以上等。 這種資料的這種資料的 Logistic Logistic 回歸分兩種情況處理回歸分兩種情況處理:如果自變量的等級(jí)分組與如果自變量的等級(jí)分組與 logit ( P )logit ( P )呈線性關(guān)系呈線性關(guān)系,即等級(jí)效應(yīng)等比即等級(jí)效應(yīng)等比 例增加或減少例增加或減少,則該自變量可以則該自變量可以作為一

18、個(gè)數(shù)值型自變量引人模型作為一個(gè)數(shù)值型自變量引人模型;否則否則,將等級(jí)變量視為無序多分類自變量將等級(jí)變量視為無序多分類自變量, 以啞變量的形式以啞變量的形式引入模型進(jìn)行分析。引入模型進(jìn)行分析。 引入數(shù)值型自變量的引入數(shù)值型自變量的LogisticLogistic回歸回歸 數(shù)值變量直接引入模型數(shù)值變量直接引入模型,得到相應(yīng)的比數(shù)比得到相應(yīng)的比數(shù)比 OR OR 是指自變量增加是指自變量增加 一個(gè)單位一個(gè)單位( (如年齡增加如年齡增加 1 1 歲歲) )比數(shù)自然對(duì)數(shù)值的變化量。比數(shù)自然對(duì)數(shù)值的變化量。 若將數(shù)值自變量分成幾組若將數(shù)值自變量分成幾組,如自變量年齡按如自變量年齡按 10 10 歲間隔分組引

19、人模歲間隔分組引人模 型時(shí)型時(shí),其其OR OR 值是指年齡每增加值是指年齡每增加 10 10 歲比數(shù)自然對(duì)數(shù)值的變化量。歲比數(shù)自然對(duì)數(shù)值的變化量。 數(shù)值型變量轉(zhuǎn)換成分類變量的臨界點(diǎn)選擇,最佳的方法是采用數(shù)值型變量轉(zhuǎn)換成分類變量的臨界點(diǎn)選擇,最佳的方法是采用ROCROC分析。分析。 【例例2 2】為了探索有關(guān)危險(xiǎn)因素和保護(hù)因素,對(duì)為了探索有關(guān)危險(xiǎn)因素和保護(hù)因素,對(duì)3232例胃癌病人例胃癌病人 和和3232例對(duì)照者進(jìn)行病例對(duì)照研究,考察的危險(xiǎn)因素作為自變量,例對(duì)照者進(jìn)行病例對(duì)照研究,考察的危險(xiǎn)因素作為自變量, 分別為:分別為: x1x1(年齡)(年齡) x2x2(蛋白質(zhì)攝入量由低到高:(蛋白質(zhì)攝入

20、量由低到高:0 0,1 1,2 2,3 3,4 4) x3x3(新鮮蔬菜及水果食用情況:良好、一般、不足、嚴(yán)重不足為(新鮮蔬菜及水果食用情況:良好、一般、不足、嚴(yán)重不足為0 0,1 1,2 2,3 3),), x4x4(吃鹽量高食物由輕到重為:(吃鹽量高食物由輕到重為:0 0,1 1,2 2,3 3,4 4),), x5x5(飲食習(xí)慣,從良好,一般,不良,嚴(yán)重不良為:(飲食習(xí)慣,從良好,一般,不良,嚴(yán)重不良為:0 0,1 1,2 2,3 3),), x6x6(精神心理因素,從樂觀,較樂觀,一般,不良為(精神心理因素,從樂觀,較樂觀,一般,不良為0 0,1 1,2 2,3 3)。 Y Y(是否患

21、胃癌作為因變量。(是否患胃癌作為因變量。0 0未患,未患,1 1患者)患者) 。 SPSS軟件操作 第第1 1步:定義變量步:定義變量 第第2 2步:輸入原始數(shù)據(jù)步:輸入原始數(shù)據(jù) 第第3 3步:步:logisticlogistic回歸分析(回歸分析(1 1) 選擇選擇分析分析 回歸回歸 二元二元logisticlogistic 第第3 3步:步: logisticlogistic回歸分析(回歸分析(2 2) 將將x1-6x1-6和和y y分別移入分別移入?yún)f(xié)變量協(xié)變量和和因變量因變量 第第3 3步:步: logisticlogistic回歸分析(回歸分析(3 3) 設(shè)置設(shè)置選項(xiàng)選項(xiàng) 勾上勾上ex

22、pexp(B B)的)的 95CI95CI。 第第3 3步:步: logisticlogistic回歸分析(回歸分析(4 4) 結(jié)果解讀:結(jié)果解讀:給出各因素的給出各因素的OROR(95%CI95%CI)及相應(yīng)的)及相應(yīng)的p p值。值。 第第3 3步:步: logisticlogistic回歸分析(回歸分析(5 5) 第第3 3步:步: logisticlogistic回歸分析(回歸分析(6 6) 第第3 3步:步: logisticlogistic回歸分析(回歸分析(7 7) 結(jié)果解讀:結(jié)果解讀:給出入選各因素的給出入選各因素的OROR(95%CI95%CI)及相應(yīng)的)及相應(yīng)的p p值。值。

23、 【例例3 3】為了探討冠心病發(fā)生的有關(guān)危險(xiǎn)因素,對(duì)為了探討冠心病發(fā)生的有關(guān)危險(xiǎn)因素,對(duì)2626例冠心病例冠心病 病人和病人和2828例對(duì)照者進(jìn)行病例例對(duì)照者進(jìn)行病例- -對(duì)照研究,各因素的說明及資料對(duì)照研究,各因素的說明及資料如如 下下,試用,試用logisticlogistic回歸分析方法篩選危險(xiǎn)因素回歸分析方法篩選危險(xiǎn)因素 。 。 SPSS軟件操作 第第1 1步:定義變量步:定義變量 第第2 2步:輸入原始數(shù)據(jù)步:輸入原始數(shù)據(jù) 第第3 3步:步:logisticlogistic回歸分析(回歸分析(1 1) 選擇選擇分析分析 回歸回歸 二元二元logisticlogistic 第第3 3步

24、:步: logisticlogistic回歸分析(回歸分析(2 2) 將將x1-8x1-8和和y y分別移入分別移入?yún)f(xié)變量協(xié)變量和和因變量因變量 第第3 3步:步: logisticlogistic回歸分析(回歸分析(3 3) 設(shè)置設(shè)置選項(xiàng)選項(xiàng) 勾上勾上expexp(B B)的)的 95CI95CI。 第第3 3步:步: logisticlogistic回歸分析(回歸分析(4 4) 結(jié)果解讀:結(jié)果解讀:給出入選各因素的給出入選各因素的OROR(95%CI95%CI)及相應(yīng)的)及相應(yīng)的p p值。值。 多分類資料的多分類資料的logisticlogistic回歸回歸 應(yīng)變量為有序多分類資料的應(yīng)變量

25、為有序多分類資料的logisticlogistic回歸回歸 u應(yīng)變量的水平數(shù)大于應(yīng)變量的水平數(shù)大于2 2,且水平之間存在等級(jí)遞增或遞減關(guān)系的資料為有序多分類資料。,且水平之間存在等級(jí)遞增或遞減關(guān)系的資料為有序多分類資料。 uSPSSSPSS中通過有序中通過有序logisticlogistic過程實(shí)現(xiàn)。過程實(shí)現(xiàn)。 【例例4 4】研究性別和兩種治療方法對(duì)某病療效的影響,療效的評(píng)研究性別和兩種治療方法對(duì)某病療效的影響,療效的評(píng) 價(jià)分為三個(gè)有序等級(jí),數(shù)據(jù)如下,試做價(jià)分為三個(gè)有序等級(jí),數(shù)據(jù)如下,試做logisticlogistic回歸分析:回歸分析: SPSS軟件操作 第第1 1步:定義變量步:定義變量

26、 第第2 2步:輸入原始數(shù)據(jù)步:輸入原始數(shù)據(jù) 第第3 3步:加權(quán)設(shè)置步:加權(quán)設(shè)置 選擇選擇數(shù)據(jù)數(shù)據(jù)加權(quán)個(gè)案(加權(quán)個(gè)案(WW) 將將f f移入移入頻率變量頻率變量 第第4 4步:步:logisticlogistic回歸分析(回歸分析(1 1) 選擇選擇分析分析 回歸回歸有序有序 第第4 4步:步: logisticlogistic回歸分析(回歸分析(2 2) 將將A A和和B B移入移入?yún)f(xié)變量,協(xié)變量,C C移入移入因變量因變量 第第4 4步:步: logisticlogistic回歸分析(回歸分析(3 3) 設(shè)置設(shè)置輸出輸出 勾上勾上平行線檢驗(yàn)。平行線檢驗(yàn)。 第第4 4步:步: logisti

27、clogistic回歸分析(回歸分析(4 4) 結(jié)果解讀:結(jié)果解讀:性別(性別(A A)和療法()和療法(B B)的回歸系數(shù)大于)的回歸系數(shù)大于0 0, 具有統(tǒng)計(jì)學(xué)意義。具有統(tǒng)計(jì)學(xué)意義。OROR分別為分別為e e1.319 1.319=3.740 =3.740, e e1.797 1.797=6.302 =6.302 第第4 4步:步: logisticlogistic回歸分析(回歸分析(5 5) 結(jié)果解讀:結(jié)果解讀:平行線檢驗(yàn)平行線檢驗(yàn)p=0.480p=0.480,說明應(yīng)變量各水平與自,說明應(yīng)變量各水平與自 變量間的回歸方程平行。變量間的回歸方程平行。 應(yīng)變量為無序多分類資料的應(yīng)變量為無序多

28、分類資料的logisticlogistic回歸回歸 u應(yīng)變量的水平數(shù)大于應(yīng)變量的水平數(shù)大于2 2,且水平之間不存在等級(jí)遞增或遞減關(guān)系的資料為無序多分類資料。,且水平之間不存在等級(jí)遞增或遞減關(guān)系的資料為無序多分類資料。 uSPSSSPSS中通過多項(xiàng)中通過多項(xiàng)logisticlogistic過程實(shí)現(xiàn)。過程實(shí)現(xiàn)。 【例例5 5】為了研究胃癌及胃癌前病變核仁組織變化情況,分析核仁組成區(qū)嗜銀蛋白為了研究胃癌及胃癌前病變核仁組織變化情況,分析核仁組成區(qū)嗜銀蛋白 顆粒數(shù)量及大小在胃炎、胃組織不典型增生和胃癌三種胃疾病中的變化規(guī)律以及顆粒數(shù)量及大小在胃炎、胃組織不典型增生和胃癌三種胃疾病中的變化規(guī)律以及 臨床

29、的診斷意義,共檢測臨床的診斷意義,共檢測129129名患者,結(jié)果如下,試做名患者,結(jié)果如下,試做logisticlogistic回歸分析:回歸分析: SPSS軟件操作 第第1 1步:定義變量步:定義變量 第第2 2步:輸入原始數(shù)據(jù)步:輸入原始數(shù)據(jù) 第第3 3步:加權(quán)設(shè)置步:加權(quán)設(shè)置 選擇選擇數(shù)據(jù)數(shù)據(jù)加權(quán)個(gè)案(加權(quán)個(gè)案(WW) 將將f f移入移入頻率變量頻率變量 第第4 4步:步:logisticlogistic回歸分析(回歸分析(1 1) 選擇選擇分析分析 回歸回歸 多項(xiàng)多項(xiàng)logisticlogistic 第第4 4步:步: logisticlogistic回歸分析(回歸分析(2 2) 將將

30、a a、b b移入移入?yún)f(xié)變量,協(xié)變量,Y Y移入移入因變量因變量 第第4 4步:步: logisticlogistic回回 歸分析(歸分析(3 3) 設(shè)置設(shè)置選項(xiàng)選項(xiàng) 勾上勾上expexp(B B)的)的 95CI95CI。 第第4 4步:步: logisticlogistic回歸分析(回歸分析(4 4) 結(jié)果解讀:結(jié)果解讀:相對(duì)于胃炎的相對(duì)于胃炎的OROR值以及值以及OROR的的95%CI.95%CI. 第二部分 u數(shù)據(jù)挖掘研究設(shè)計(jì)數(shù)據(jù)挖掘研究設(shè)計(jì) 基本概念基本概念 基本步驟基本步驟 uClementine Clementine 軟件應(yīng)用軟件應(yīng)用 基本操作基本操作 關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則 決策樹決

31、策樹 聚類分析聚類分析 研究時(shí)有無設(shè)計(jì)干預(yù)因素? 實(shí)驗(yàn)性研究觀察性研究 是否隨機(jī) 有無對(duì)照組 分析性研究描述性研究 時(shí)間方向 隊(duì)列 研究 非隨機(jī) 對(duì)照 試驗(yàn) 隨機(jī) 對(duì)照 試驗(yàn) 病例 對(duì)照 研究 橫斷面 研究 有有無無 有有 無無 否否 是是 暴露暴露結(jié)局結(jié)局結(jié)局結(jié)局暴露暴露 觀察性研究觀察性研究 由于醫(yī)學(xué)研究對(duì)象的特殊性,在很多科研中,研究者不能主動(dòng)地控制研究因素。這種在自然狀態(tài)下,觀由于醫(yī)學(xué)研究對(duì)象的特殊性,在很多科研中,研究者不能主動(dòng)地控制研究因素。這種在自然狀態(tài)下,觀 察疾病發(fā)生、發(fā)展、診治過程中表現(xiàn)出來的特點(diǎn)和規(guī)律,以闡述疾病的分布特征,認(rèn)識(shí)病因和影響因素,分察疾病發(fā)生、發(fā)展、診治過程

32、中表現(xiàn)出來的特點(diǎn)和規(guī)律,以闡述疾病的分布特征,認(rèn)識(shí)病因和影響因素,分 析防治過程中相關(guān)規(guī)律和特征的研究方法,稱為觀察性研究。析防治過程中相關(guān)規(guī)律和特征的研究方法,稱為觀察性研究。 數(shù)據(jù)挖掘研究數(shù)據(jù)挖掘研究 u 基于數(shù)據(jù)分析方法角度的分類基于數(shù)據(jù)分析方法角度的分類 u本質(zhì)上屬于觀察性研究本質(zhì)上屬于觀察性研究 u研究資料來源日常診療工作資料研究資料來源日常診療工作資料 u應(yīng)用的技術(shù)較傳統(tǒng)研究更先進(jìn)應(yīng)用的技術(shù)較傳統(tǒng)研究更先進(jìn) u分析工具、理論模型與傳統(tǒng)研究區(qū)別較大分析工具、理論模型與傳統(tǒng)研究區(qū)別較大 數(shù)據(jù)挖掘從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),是統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫技術(shù)和人工智能技術(shù)的綜合。 數(shù)據(jù)挖掘從數(shù)據(jù)中自

33、動(dòng)地抽取模式、關(guān)聯(lián)、變化、異常和有意義的結(jié)構(gòu)。 數(shù)據(jù)挖掘利用已有的數(shù)據(jù),數(shù)據(jù)收集過程不經(jīng)過特意的科研設(shè)計(jì),目的是發(fā)現(xiàn)規(guī)律,而不是驗(yàn)證假設(shè)。 u數(shù)據(jù)挖掘研究設(shè)計(jì)數(shù)據(jù)挖掘研究設(shè)計(jì) 基本概念基本概念 基本步驟基本步驟 uClementine Clementine 軟件應(yīng)用軟件應(yīng)用 基本操作基本操作 關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則 決策樹決策樹 聚類分析聚類分析 第一步驟 選擇 第三步驟 挖掘 第二步驟 處理 第四步驟 分析 2021-4-27 數(shù)據(jù)挖掘步驟數(shù)據(jù)挖掘步驟 目標(biāo)數(shù)據(jù)目標(biāo)數(shù)據(jù) 預(yù)處理及預(yù)處理及 變換變換 變換后的數(shù)據(jù)變換后的數(shù)據(jù) 數(shù)據(jù)挖掘算法數(shù)據(jù)挖掘算法 解釋解釋/評(píng)估評(píng)估 清理篩選清理篩選 第一步:選

34、擇數(shù)據(jù)第一步:選擇數(shù)據(jù) 收集獲取原始數(shù)據(jù)收集獲取原始數(shù)據(jù) u 就是根據(jù)研究目的,進(jìn)行需要被挖掘分析的原始數(shù)據(jù)采集。就是根據(jù)研究目的,進(jìn)行需要被挖掘分析的原始數(shù)據(jù)采集。 u評(píng)估數(shù)據(jù)的可獲得性。可以采用較小規(guī)模的數(shù)據(jù)對(duì)問題的可行性進(jìn)行初步研究。評(píng)估數(shù)據(jù)的可獲得性??梢圆捎幂^小規(guī)模的數(shù)據(jù)對(duì)問題的可行性進(jìn)行初步研究。 u原始數(shù)據(jù)可能會(huì)分布于不同的信息系統(tǒng)中,需要對(duì)信息系統(tǒng)充分理解,并有相應(yīng)的技術(shù)實(shí)現(xiàn)數(shù)據(jù)的導(dǎo)出。原始數(shù)據(jù)可能會(huì)分布于不同的信息系統(tǒng)中,需要對(duì)信息系統(tǒng)充分理解,并有相應(yīng)的技術(shù)實(shí)現(xiàn)數(shù)據(jù)的導(dǎo)出。 u原始數(shù)據(jù)的采集非常費(fèi)時(shí)費(fèi)力,通常在研究工作中占相當(dāng)大的比重。原始數(shù)據(jù)的采集非常費(fèi)時(shí)費(fèi)力,通常在研究

35、工作中占相當(dāng)大的比重。 76 病人基本信息:HIS 病人檢驗(yàn)信息:LIS 病人檢查信息:PACS等醫(yī)技系統(tǒng) 病人診療過程信息:電子病歷 病人收費(fèi)信息:HIS 。 海量數(shù)據(jù),大量的業(yè)務(wù)數(shù)據(jù)。海量數(shù)據(jù),大量的業(yè)務(wù)數(shù)據(jù)。 問題也很多,標(biāo)準(zhǔn)不統(tǒng)一,很難分析。問題也很多,標(biāo)準(zhǔn)不統(tǒng)一,很難分析。 與臨床相關(guān)的電子病歷系統(tǒng)結(jié)構(gòu)化與臨床工作量之間的矛盾。與臨床相關(guān)的電子病歷系統(tǒng)結(jié)構(gòu)化與臨床工作量之間的矛盾。 中醫(yī)系統(tǒng)中醫(yī)系統(tǒng)醫(yī)療科研信息一體化系統(tǒng)醫(yī)療科研信息一體化系統(tǒng) 軍隊(duì)系統(tǒng)軍隊(duì)系統(tǒng)中國重大疾病臨床診療數(shù)據(jù)庫中國重大疾病臨床診療數(shù)據(jù)庫 第二步:處理數(shù)據(jù)第二步:處理數(shù)據(jù) 數(shù)據(jù)預(yù)處理部分,把數(shù)據(jù)轉(zhuǎn)換成比較容易被

36、數(shù)據(jù)挖掘的格式及內(nèi)容。 內(nèi)容處理:年齡 六十歲60 有個(gè)還分組:老年、青年、等 格式處理:年齡 出生日期1950年轉(zhuǎn)成63。 數(shù)據(jù) 不完整 含觀測噪聲 不一致 包含其它不希望的成分 數(shù)據(jù)清理通過填寫空缺值,平滑噪聲數(shù)據(jù),識(shí)別刪除孤立點(diǎn),并解決不一致來清理數(shù)據(jù)。 污染數(shù)據(jù)的普遍存在,使得在大型數(shù)據(jù)庫中維護(hù)數(shù)據(jù)的正確性和一致性成為一個(gè)及其困難的任務(wù)。垃圾 進(jìn)、垃圾出。 濫用縮寫詞 數(shù)據(jù)輸入錯(cuò)誤 數(shù)據(jù)中的內(nèi)嵌控制信息 不同的慣用語 重復(fù)記錄 丟失值 拼寫變化 不同的計(jì)量單位 過時(shí)的編碼 例:中藥、證型、癥狀的預(yù)處理例:中藥、證型、癥狀的預(yù)處理 預(yù)處理是最為關(guān)鍵的一步 正異名的處理:白頭翁、白術(shù)、白頭

37、公 錯(cuò)別字:青篙、青蒿 省略字:龍牡、龍骨,牡蠣 炮制預(yù)處理 建立一個(gè)中藥規(guī)范表建立一個(gè)中藥規(guī)范表 建立證型規(guī)范表建立證型規(guī)范表 建立癥狀規(guī)范表建立癥狀規(guī)范表 第三步:挖掘分析第三步:挖掘分析 運(yùn)用工具和算法,進(jìn)行數(shù)據(jù)挖掘分析,完成分類、關(guān)聯(lián)、聚類、估計(jì)、預(yù)測等功能,發(fā)現(xiàn)數(shù)據(jù)中的運(yùn)用工具和算法,進(jìn)行數(shù)據(jù)挖掘分析,完成分類、關(guān)聯(lián)、聚類、估計(jì)、預(yù)測等功能,發(fā)現(xiàn)數(shù)據(jù)中的 規(guī)律。規(guī)律。 Debt$40K Q Q Q Q Q Q Q Q I II I1 1 2 2 3 34 4 5 56 6 factor 1 factor 2 factor n 神經(jīng)網(wǎng)絡(luò) Neural NetworksNeural Ne

38、tworks 聚類分析 ClusteringClustering Open Accnt Add New Product Decrease Usage ? Time 序列分析 Sequence AnalysisSequence Analysis決策樹決策樹 Decision TreesDecision Trees 傾向性分析 關(guān)聯(lián)分析 AssociationAssociation SPSS Clementine WEKA 第四步:結(jié)果解釋第四步:結(jié)果解釋 結(jié)合專業(yè)知識(shí),進(jìn)行數(shù)據(jù)挖掘分析結(jié)果的解釋,闡明規(guī)律,以及規(guī)律的臨床價(jià)值。 結(jié)果解釋是數(shù)據(jù)挖掘研究的關(guān)鍵,從發(fā)現(xiàn)的規(guī)律進(jìn)一步延伸出其實(shí)際意義,是

39、整個(gè)研究工作的成果所在。 91 u數(shù)據(jù)挖掘研究設(shè)計(jì)數(shù)據(jù)挖掘研究設(shè)計(jì) 基本概念基本概念 基本步驟基本步驟 uClementine Clementine 軟件應(yīng)用軟件應(yīng)用 基本操作基本操作 關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則 決策樹決策樹 聚類分析聚類分析 Clementine Clementine 軟件應(yīng)用軟件應(yīng)用 Clementine 12.0安裝方法 1.下載,存放到D盤,重新命名為“Clementine V 12” 2. 打開 ClementineV12-點(diǎn)擊運(yùn)行setup.exe按提示完成安裝到默認(rèn) 目錄: C:Program FilesSPSSIncClementine12.0 3. D:CLE12.0

40、Clementine12Crack破解 復(fù)制該文件下 “l(fā)servrc” “PlatformSPSSLic7.dll”兩個(gè)文件,粘貼到 C:Program FilesSPSSIncClementine12.0bin 文件夾下,覆蓋原 來的同名字文件 u數(shù)據(jù)挖掘研究設(shè)計(jì)數(shù)據(jù)挖掘研究設(shè)計(jì) 基本概念基本概念 基本步驟基本步驟 uClementine Clementine 軟件應(yīng)用軟件應(yīng)用 基本操作基本操作 關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則 決策樹決策樹 聚類分析聚類分析 97 ClementineClementine用戶界面用戶界面 操作區(qū)操作區(qū) u節(jié)點(diǎn)一個(gè)圖標(biāo)代表在 Clementine 中進(jìn) 行的一個(gè)操作。 u

41、工作流一系列連接在一起的節(jié)點(diǎn)。 可視化編程可視化編程 選項(xiàng)板選項(xiàng)板 源節(jié)點(diǎn) 用來將數(shù)據(jù)讀入 Clementine 中 記錄選項(xiàng)節(jié)點(diǎn) 在記錄上進(jìn)行操作 一條記錄是一種“情形”或一“行”數(shù)據(jù) 字段選項(xiàng)節(jié)點(diǎn) 在字段上進(jìn)行操作 一個(gè)字段是一個(gè)變量 圖形節(jié)點(diǎn) 在建模之前和之后用來可視化數(shù)據(jù) 建模節(jié)點(diǎn)代表有效建模算法 注意:建模算法產(chǎn)生生成的模型 增加一個(gè)節(jié)點(diǎn)增加一個(gè)節(jié)點(diǎn) 在選項(xiàng)板上雙擊節(jié)點(diǎn),自動(dòng)放置節(jié)點(diǎn)到數(shù)據(jù)流區(qū)域. 將節(jié)點(diǎn)從選項(xiàng)板拖放到數(shù)據(jù)流區(qū)域中 在選項(xiàng)板上點(diǎn)擊一個(gè)節(jié)點(diǎn),然后在數(shù)據(jù)流區(qū)域中點(diǎn) 擊一下 編輯一個(gè)節(jié)點(diǎn)編輯一個(gè)節(jié)點(diǎn) 在節(jié)點(diǎn)上右擊,展開一個(gè)節(jié)點(diǎn) 點(diǎn)擊 “編輯” 在菜單上還可以選擇連接、斷開連

42、接、重命名、注釋、復(fù) 制、刪除、載入、保存等操作 連接節(jié)點(diǎn)連接節(jié)點(diǎn) 使用鼠標(biāo)中鍵來連接節(jié)點(diǎn)使用鼠標(biāo)中鍵來連接節(jié)點(diǎn) 在數(shù)據(jù)流區(qū)域上,把一個(gè)節(jié)點(diǎn)連接在數(shù)據(jù)流區(qū)域上,把一個(gè)節(jié)點(diǎn)連接 到另一個(gè)上,可以通過鼠標(biāo)中間鍵到另一個(gè)上,可以通過鼠標(biāo)中間鍵 點(diǎn)擊和拖放來完成(如果點(diǎn)擊和拖放來完成(如果您您的鼠標(biāo)的鼠標(biāo) 沒有中間鍵,可以通過按住沒有中間鍵,可以通過按住“Alt”“Alt” 鍵來模擬這個(gè)過程)鍵來模擬這個(gè)過程) 通過雙擊來連接節(jié)點(diǎn)通過雙擊來連接節(jié)點(diǎn) 雙擊選項(xiàng)板上的節(jié)點(diǎn),自動(dòng)把新節(jié)點(diǎn)雙擊選項(xiàng)板上的節(jié)點(diǎn),自動(dòng)把新節(jié)點(diǎn) 連接到數(shù)據(jù)流區(qū)域中的連接到數(shù)據(jù)流區(qū)域中的“中心中心”節(jié)點(diǎn)節(jié)點(diǎn) 上上 使用鼠標(biāo)中鍵使用鼠標(biāo)

43、中鍵 刪除節(jié)點(diǎn)之間的連接刪除節(jié)點(diǎn)之間的連接 在連接箭頭的頭部按住鼠標(biāo)右鍵 選擇“刪除連接” Clementine Clementine 中讀取數(shù)據(jù)格式中讀取數(shù)據(jù)格式 文本文件 EXCEL SPSS 數(shù)據(jù)文件 ODBC 兼容的數(shù)據(jù)庫 SAS 數(shù)據(jù)文件 用戶輸入文件 讀取原始文件讀取原始文件 添加變量文件節(jié)點(diǎn)到數(shù)據(jù)流區(qū)域 編輯節(jié)點(diǎn)指向文件 通過編輯進(jìn)行原始數(shù)據(jù)設(shè)置 讀取文本文件讀取文本文件 讀取讀取EXCELEXCEL文件文件 讀取其他數(shù)據(jù)文件讀取其他數(shù)據(jù)文件 原始數(shù)據(jù)是什么文件類型,則采用什么節(jié)點(diǎn)原始數(shù)據(jù)是什么文件類型,則采用什么節(jié)點(diǎn) 定義字段類型定義字段類型 類型節(jié)點(diǎn)指定字段的一系列重要屬性;

44、 指定字段類型、方向和缺失值; Clementine 可以自動(dòng)設(shè)置變量類型,用戶也可以強(qiáng)制指定類型; 為建立模型,指定字段的方向; 指定缺失值以及如何處理缺失值; 變量值檢查保證字段值滿足一定的設(shè)置; 字段類型幫助您理解正在使用的數(shù)據(jù),是一些數(shù)據(jù)準(zhǔn)備和所有建模程序所必需的. 連續(xù)型 用于描述數(shù)值,如0-100 或者0.75-1.25 內(nèi)的連續(xù)值一個(gè)連續(xù)值可以是整數(shù)、 實(shí)數(shù)或日期/時(shí)間 離散型用于當(dāng)一個(gè)具體值的精確數(shù)量未知時(shí)描述字符串,一旦數(shù)據(jù)被讀取,其類型就 會(huì)是標(biāo)記、集合或者無類型 集合型 用于描述帶有多個(gè)具體值的數(shù)據(jù)(黃、綠、藍(lán)) 標(biāo)記型 用于只取兩個(gè)具體值的數(shù)據(jù)(真、假) 無類型 用于不

45、符合上述任一種類型的數(shù)據(jù)或者含有太多元素的集合類型數(shù)據(jù) 字段方向字段方向 輸入:輸入或者預(yù)測字段 輸出:輸出或者被預(yù)測字段字段 兩者:既是輸入又是輸出,只在關(guān)聯(lián)規(guī)則中用到 無:建模過程中不使用該字段 分區(qū):將數(shù)據(jù)拆分為訓(xùn)練、測試(驗(yàn)證)部分 字段方向設(shè)置只有在建模時(shí)才起作用 字段實(shí)例化字段實(shí)例化 在讀取值前數(shù)據(jù)稱為未實(shí)例化,通過讀取值后數(shù)據(jù)完全實(shí)例化,字段的取值和類型都是可知的在讀取值前數(shù)據(jù)稱為未實(shí)例化,通過讀取值后數(shù)據(jù)完全實(shí)例化,字段的取值和類型都是可知的. . 數(shù)據(jù)挖掘分析的一般步驟數(shù)據(jù)挖掘分析的一般步驟 1 1、數(shù)據(jù)整理、數(shù)據(jù)整理 2 2、數(shù)據(jù)格式轉(zhuǎn)化、數(shù)據(jù)格式轉(zhuǎn)化 3 3、數(shù)據(jù)文件讀入

46、、數(shù)據(jù)文件讀入 4 4、數(shù)據(jù)類型設(shè)置、數(shù)據(jù)類型設(shè)置 5 5、模型選擇與參數(shù)設(shè)置、模型選擇與參數(shù)設(shè)置 6 6、結(jié)果輸出與解讀、結(jié)果輸出與解讀 1 1、數(shù)據(jù)整理、數(shù)據(jù)整理 整理成可分析的數(shù)據(jù) 一般為橫向數(shù)據(jù),即一個(gè)病人一條記錄。 IDID藥物藥物數(shù)量(克)數(shù)量(克) 1 1甘草甘草1010 1 1當(dāng)歸當(dāng)歸1010 1 1白術(shù)白術(shù)1010 2 2大黃大黃1010 2 2白術(shù)白術(shù)1010 2 2黃芩黃芩1010 3 3當(dāng)歸當(dāng)歸1010 3 3紅花紅花1010 3 3白術(shù)白術(shù)1010 IDID甘草甘草當(dāng)歸當(dāng)歸白術(shù)白術(shù)大黃大黃黃芩黃芩紅花紅花 1 11010101010100 00 00 0 2 20 0

47、0 01010101010100 0 3 30 0101010100 00 01010 2 2、數(shù)據(jù)格式轉(zhuǎn)換、數(shù)據(jù)格式轉(zhuǎn)換 轉(zhuǎn)化成軟件可以讀入的格式,常用TXT文件 3 3、數(shù)據(jù)文件讀入、數(shù)據(jù)文件讀入 查看讀入數(shù)據(jù)是否成功查看讀入數(shù)據(jù)是否成功 4 4、數(shù)據(jù)類型設(shè)置、數(shù)據(jù)類型設(shè)置 5 5、模型選擇與參數(shù)設(shè)置、模型選擇與參數(shù)設(shè)置 關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則 決策樹決策樹 類神經(jīng)網(wǎng)絡(luò)類神經(jīng)網(wǎng)絡(luò) 聚類分析聚類分析 判別分析判別分析 6 6、結(jié)果輸出與解讀、結(jié)果輸出與解讀 執(zhí)行模型后,輸出結(jié)果。 直接查看結(jié)果,也可以再次增加table節(jié)點(diǎn),查看新寫入的數(shù)據(jù)。 結(jié)合專業(yè)知識(shí)進(jìn)行解讀。 u數(shù)據(jù)挖掘研究設(shè)計(jì)數(shù)據(jù)挖掘研究

48、設(shè)計(jì) 基本概念基本概念 基本步驟基本步驟 uClementine Clementine 軟件應(yīng)用軟件應(yīng)用 基本操作基本操作 關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則 決策樹決策樹 聚類分析聚類分析 關(guān)聯(lián)規(guī)則基本概念關(guān)聯(lián)規(guī)則基本概念 是分析兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性的方法,是分析兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性的方法,包括簡單關(guān)聯(lián)規(guī)則和系列關(guān)聯(lián)規(guī)則。包括簡單關(guān)聯(lián)規(guī)則和系列關(guān)聯(lián)規(guī)則。 在在ClementineClementine中實(shí)現(xiàn)簡單關(guān)聯(lián)規(guī)則的算法有中實(shí)現(xiàn)簡單關(guān)聯(lián)規(guī)則的算法有AprioriApriori和和GRIGRI兩種,兩種,AprioriApriori只能處理分類變量,只能處理分類變量,GRI

49、GRI還可以處還可以處 理前項(xiàng)是數(shù)值型變量的情況。理前項(xiàng)是數(shù)值型變量的情況。 簡單關(guān)聯(lián)規(guī)則有效性的主要測度指標(biāo)包括兩個(gè):規(guī)則置信度和規(guī)則支持度。簡單關(guān)聯(lián)規(guī)則有效性的主要測度指標(biāo)包括兩個(gè):規(guī)則置信度和規(guī)則支持度。 規(guī)則置信度規(guī)則置信度是對(duì)簡單關(guān)聯(lián)規(guī)則準(zhǔn)確度的測量,描述了包含項(xiàng)目是對(duì)簡單關(guān)聯(lián)規(guī)則準(zhǔn)確度的測量,描述了包含項(xiàng)目X X的事務(wù)中同時(shí)也包含項(xiàng)目的事務(wù)中同時(shí)也包含項(xiàng)目Y Y的概率。的概率。 規(guī)則支持度規(guī)則支持度是對(duì)簡單關(guān)聯(lián)規(guī)則普遍性的測量,表示項(xiàng)目是對(duì)簡單關(guān)聯(lián)規(guī)則普遍性的測量,表示項(xiàng)目X X和項(xiàng)目和項(xiàng)目Y Y同時(shí)出現(xiàn)的概率。一個(gè)理想的簡單關(guān)聯(lián)規(guī)則同時(shí)出現(xiàn)的概率。一個(gè)理想的簡單關(guān)聯(lián)規(guī)則 應(yīng)具有較

50、高的置信度和較高的支持度。應(yīng)具有較高的置信度和較高的支持度。 關(guān)聯(lián)規(guī)則應(yīng)用實(shí)例關(guān)聯(lián)規(guī)則應(yīng)用實(shí)例 【例例6 6】收集了某一時(shí)間范圍內(nèi)治療某一疾病的中藥方收集了某一時(shí)間范圍內(nèi)治療某一疾病的中藥方31223122張,涉及藥物張,涉及藥物251251種。要分析處方中常用的藥對(duì)情種。要分析處方中常用的藥對(duì)情 況,現(xiàn)進(jìn)行關(guān)聯(lián)規(guī)則分析。況,現(xiàn)進(jìn)行關(guān)聯(lián)規(guī)則分析。 藥對(duì)的概念藥對(duì)的概念 置信度、支持度置信度、支持度 的概念的概念 設(shè)定 最小支持度50 最小置信度50 1 1、數(shù)據(jù)整理、數(shù)據(jù)整理 從醫(yī)院從醫(yī)院HISHIS系統(tǒng)中導(dǎo)出某一疾病在某一時(shí)間范圍內(nèi)的藥方信息。系統(tǒng)中導(dǎo)出某一疾病在某一時(shí)間范圍內(nèi)的藥方信息。

51、數(shù)據(jù)整理的目的是保證從日常運(yùn)行數(shù)據(jù)中獲得的數(shù)據(jù)的標(biāo)準(zhǔn)是統(tǒng)一的,規(guī)則是一致的,同類信息的表達(dá)是數(shù)據(jù)整理的目的是保證從日常運(yùn)行數(shù)據(jù)中獲得的數(shù)據(jù)的標(biāo)準(zhǔn)是統(tǒng)一的,規(guī)則是一致的,同類信息的表達(dá)是 無偏的。例如藥名信息有無偏的。例如藥名信息有“白頭翁白頭翁”、“白術(shù)白術(shù)”、“白頭公白頭公”,則統(tǒng)一為,則統(tǒng)一為“白術(shù)白術(shù)”。 2 2、數(shù)據(jù)格式轉(zhuǎn)化、數(shù)據(jù)格式轉(zhuǎn)化 橫縱向轉(zhuǎn)換橫縱向轉(zhuǎn)換 從業(yè)務(wù)數(shù)據(jù)庫獲得的原始數(shù)據(jù)表基本上都是縱向結(jié)構(gòu)的。為了便于數(shù)據(jù)挖掘分析,必須將其轉(zhuǎn)換成橫向數(shù)從業(yè)務(wù)數(shù)據(jù)庫獲得的原始數(shù)據(jù)表基本上都是縱向結(jié)構(gòu)的。為了便于數(shù)據(jù)挖掘分析,必須將其轉(zhuǎn)換成橫向數(shù) 據(jù)結(jié)構(gòu),即轉(zhuǎn)換成一個(gè)個(gè)案的信息由一條記錄全

52、部展示。據(jù)結(jié)構(gòu),即轉(zhuǎn)換成一個(gè)個(gè)案的信息由一條記錄全部展示。 2 2、數(shù)據(jù)格式轉(zhuǎn)化、數(shù)據(jù)格式轉(zhuǎn)化 文件類型轉(zhuǎn)換文件類型轉(zhuǎn)換 SPSS ClementineSPSS Clementine能讀取的文件類型包括文本文件、能讀取的文件類型包括文本文件、EXCELEXCEL文件、文件、SPSS SPSS 數(shù)據(jù)文件、數(shù)據(jù)文件、ODBC ODBC 兼容的數(shù)據(jù)庫、兼容的數(shù)據(jù)庫、 SAS SAS 數(shù)據(jù)文件和用戶輸入文件。數(shù)據(jù)文件和用戶輸入文件。 一般文本文件出現(xiàn)亂碼、錯(cuò)位等錯(cuò)誤的概率較小,占用資源也較少,可優(yōu)先轉(zhuǎn)換成一般文本文件出現(xiàn)亂碼、錯(cuò)位等錯(cuò)誤的概率較小,占用資源也較少,可優(yōu)先轉(zhuǎn)換成TXTTXT文件。文件。

53、3 3、數(shù)據(jù)文件讀入、數(shù)據(jù)文件讀入 數(shù)據(jù)文件讀入的第一步是構(gòu)建一個(gè)原始文件節(jié)點(diǎn),通過編輯原始文件節(jié)點(diǎn),選定文件路徑,讀取原始數(shù)據(jù)數(shù)據(jù)文件讀入的第一步是構(gòu)建一個(gè)原始文件節(jié)點(diǎn),通過編輯原始文件節(jié)點(diǎn),選定文件路徑,讀取原始數(shù)據(jù) 文件。點(diǎn)擊文件。點(diǎn)擊“確定確定”后,該數(shù)據(jù)節(jié)點(diǎn)就有了可分析的原始數(shù)據(jù)。后,該數(shù)據(jù)節(jié)點(diǎn)就有了可分析的原始數(shù)據(jù)。 為了查看原始數(shù)據(jù)是否正確讀入,可增加為了查看原始數(shù)據(jù)是否正確讀入,可增加tabletable節(jié)點(diǎn),查看原始數(shù)據(jù)是否已經(jīng)被讀入,格式是否準(zhǔn)確,有無節(jié)點(diǎn),查看原始數(shù)據(jù)是否已經(jīng)被讀入,格式是否準(zhǔn)確,有無 亂碼等情況。亂碼等情況。 4 4、數(shù)據(jù)類型設(shè)置、數(shù)據(jù)類型設(shè)置 兩分類變

54、量,設(shè)置文件類型為flag,關(guān)聯(lián)分析方向設(shè)置為“both” 全部設(shè)置完成后,讀取變量全部設(shè)置完成后,讀取變量( (字段實(shí)例化字段實(shí)例化) ) 5 5、模型選擇與參數(shù)設(shè)置、模型選擇與參數(shù)設(shè)置 在讀取原始數(shù)據(jù)和數(shù)據(jù)格式定義好以后,就可以根據(jù)數(shù)據(jù)挖掘分析的需要選擇相應(yīng)的模型,在簡單關(guān)聯(lián)分析 中可選擇Apriori或GRI兩種節(jié)點(diǎn)。 以Apriori為例,節(jié)點(diǎn)的相關(guān)參數(shù)設(shè)置主要包括兩部分:設(shè)置進(jìn)行兩兩關(guān)聯(lián)分析的變量和最小置信度、最小支 持度定義。 一般中藥藥對(duì)研究中,可選最小置信度和最小支持度均為50%。 兩兩關(guān)聯(lián)分析的變量定義兩兩關(guān)聯(lián)分析的變量定義 最小置信度、最小支持度定義最小置信度、最小支持度定

55、義 6 6、結(jié)果輸出與解讀、結(jié)果輸出與解讀 輸出了最小支持度和置信度均在輸出了最小支持度和置信度均在50%50% 以上的藥對(duì)。以上的藥對(duì)。 中藥與中藥之間中藥與中藥之間 癥狀與癥狀之間癥狀與癥狀之間 證型與證型之間證型與證型之間 中藥與癥狀之間中藥與癥狀之間 中藥與證型之間中藥與證型之間 癥狀與證型之間癥狀與證型之間 關(guān)聯(lián)分析完整數(shù)據(jù)流圖關(guān)聯(lián)分析完整數(shù)據(jù)流圖 u數(shù)據(jù)挖掘研究設(shè)計(jì)數(shù)據(jù)挖掘研究設(shè)計(jì) 基本概念基本概念 基本步驟基本步驟 uClementine Clementine 軟件應(yīng)用軟件應(yīng)用 基本操作基本操作 關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則 決策樹決策樹 聚類分析聚類分析 決策樹基本概念決策樹基本概念 在數(shù)

56、據(jù)挖掘中,決策樹是分類預(yù)測的經(jīng)典算法。決策樹算法的目的是通過向數(shù)據(jù)學(xué)習(xí),獲得輸入變量和輸出在數(shù)據(jù)挖掘中,決策樹是分類預(yù)測的經(jīng)典算法。決策樹算法的目的是通過向數(shù)據(jù)學(xué)習(xí),獲得輸入變量和輸出 變量不同取值下的數(shù)據(jù)分類和預(yù)測規(guī)律,并用于對(duì)新數(shù)據(jù)對(duì)象的分類預(yù)測。變量不同取值下的數(shù)據(jù)分類和預(yù)測規(guī)律,并用于對(duì)新數(shù)據(jù)對(duì)象的分類預(yù)測。 SPSS ClementineSPSS Clementine提供提供C5.0C5.0、CARTCART、CHAIDCHAID、QUESTQUEST在內(nèi)的決策樹經(jīng)典算法在內(nèi)的決策樹經(jīng)典算法。 決策樹應(yīng)用實(shí)例決策樹應(yīng)用實(shí)例 【例例7 7】收集了某一時(shí)間范圍內(nèi)治療應(yīng)用作用效果類似的收集

57、了某一時(shí)間范圍內(nèi)治療應(yīng)用作用效果類似的A A、B B、C C、X X、Y5Y5種藥物治療病人種藥物治療病人200200例,資料包括年例,資料包括年 齡、性別、膽固醇、血壓、血鉀、血鈉、使用藥物等齡、性別、膽固醇、血壓、血鉀、血鈉、使用藥物等7 7個(gè)變量。現(xiàn)進(jìn)行用藥決策規(guī)律的決策樹分析。個(gè)變量。現(xiàn)進(jìn)行用藥決策規(guī)律的決策樹分析。 1 1、數(shù)據(jù)整理、數(shù)據(jù)整理 從醫(yī)院從醫(yī)院HISHIS、LISLIS、電子病歷系統(tǒng)中導(dǎo)出某一疾病在某一時(shí)間范圍內(nèi)的相關(guān)信息。、電子病歷系統(tǒng)中導(dǎo)出某一疾病在某一時(shí)間范圍內(nèi)的相關(guān)信息。 數(shù)據(jù)整理的目的是保證從日常運(yùn)行數(shù)據(jù)中獲得的數(shù)據(jù)的標(biāo)準(zhǔn)是統(tǒng)一的,規(guī)則是一致的,同類信息的表達(dá)是

58、數(shù)據(jù)整理的目的是保證從日常運(yùn)行數(shù)據(jù)中獲得的數(shù)據(jù)的標(biāo)準(zhǔn)是統(tǒng)一的,規(guī)則是一致的,同類信息的表達(dá)是 無偏的。無偏的。 2 2、數(shù)據(jù)格式轉(zhuǎn)化、數(shù)據(jù)格式轉(zhuǎn)化 橫縱向轉(zhuǎn)換橫縱向轉(zhuǎn)換 從業(yè)務(wù)數(shù)據(jù)庫獲得的原始數(shù)據(jù)表基本上都是縱向結(jié)構(gòu)的。為了便于數(shù)據(jù)挖掘分析,必須將其轉(zhuǎn)換成橫向數(shù) 據(jù)結(jié)構(gòu),即轉(zhuǎn)換成一個(gè)個(gè)案的信息由一條記錄全部展示。 2 2、數(shù)據(jù)格式轉(zhuǎn)化、數(shù)據(jù)格式轉(zhuǎn)化 文件類型轉(zhuǎn)換文件類型轉(zhuǎn)換 SPSS Clementine能讀取的文件類型包括文本文件、EXCEL文件、SPSS 數(shù)據(jù)文件、ODBC 兼容的數(shù)據(jù)庫、 SAS 數(shù)據(jù)文件和用戶輸入文件。 一般文本文件出現(xiàn)亂碼、錯(cuò)位等錯(cuò)誤的概率較小,占用資源也較少,可優(yōu)先

59、轉(zhuǎn)換成TXT文件。 3 3、數(shù)據(jù)文件讀入、數(shù)據(jù)文件讀入 數(shù)據(jù)文件讀入的第一步是構(gòu)建一個(gè)原始文件節(jié)點(diǎn),通過編輯原始文件節(jié)點(diǎn),選定文件路徑,讀取原始數(shù)據(jù) 文件。點(diǎn)擊“確定”后,該數(shù)據(jù)節(jié)點(diǎn)就有了可分析的原始數(shù)據(jù)。 為了查看原始數(shù)據(jù)是否正確讀入,可增加table節(jié)點(diǎn),查看原始數(shù)據(jù)是否已經(jīng)被讀入,格式是否準(zhǔn)確,有無 亂碼等情況。 4 4、數(shù)據(jù)類型設(shè)置、數(shù)據(jù)類型設(shè)置 設(shè)置文件類型兩分類變量為flag,多分類為set,連續(xù)資料為 rang。 決策樹中,決策目標(biāo)設(shè)置方向?yàn)閛ut,其他作為決策依據(jù)的變 量設(shè)置為in。 5 5、模型選擇與參數(shù)設(shè)置、模型選擇與參數(shù)設(shè)置 在讀取原始數(shù)據(jù)和數(shù)據(jù)格式定義好以后,就可以根據(jù)

60、數(shù)據(jù)挖掘分析的需要選擇相應(yīng)的模型,在決策樹中可選 擇供C5.0、C&R Tree、CHAID、QUEST等4種節(jié)點(diǎn)。 以C5.0為例,節(jié)點(diǎn)的相關(guān)參數(shù)設(shè)置主要是設(shè)置決策目標(biāo)和輸入變量。 決策目標(biāo)和輸入變量決策目標(biāo)和輸入變量設(shè)置設(shè)置 6 6、結(jié)果輸出與解讀、結(jié)果輸出與解讀 決策樹分析完整數(shù)據(jù)流圖決策樹分析完整數(shù)據(jù)流圖 u數(shù)據(jù)挖掘研究設(shè)計(jì)數(shù)據(jù)挖掘研究設(shè)計(jì) 基本概念基本概念 基本步驟基本步驟 uClementine Clementine 軟件應(yīng)用軟件應(yīng)用 基本操作基本操作 關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則 決策樹決策樹 聚類分析聚類分析 聚類分析基本概念聚類分析基本概念 聚類分析是根據(jù)聚類分析是根據(jù)“物以類聚物以類聚

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論