




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、生物醫(yī)學(xué)數(shù)據(jù)挖掘生物醫(yī)學(xué)數(shù)據(jù)挖掘參考文獻(xiàn)參考文獻(xiàn)l1、生物醫(yī)學(xué)數(shù)據(jù)挖掘(第二版) 上??茖W(xué)技術(shù)出版社l2、生物醫(yī)學(xué)數(shù)據(jù)分析及其MATLAB實(shí)現(xiàn) 北京大學(xué)出版社l3、生物信息學(xué) 科學(xué)出版社第一章第一章 概論概論1.1 什么是數(shù)據(jù)挖掘什么是數(shù)據(jù)挖掘l1.1.1數(shù)據(jù)、信息和知識(shí)l 數(shù)據(jù)是對(duì)客觀事物特征狀態(tài)的記錄;數(shù)據(jù)也是信息及知識(shí)的載體。l如何從大量的數(shù)據(jù)中發(fā)現(xiàn)和找出以隱含方式存在于其中、有意義的信息和知識(shí)。l1.1.2 數(shù)據(jù)挖掘的定義l 數(shù)據(jù)挖掘是對(duì)大量觀察到的數(shù)據(jù)進(jìn)行分析,以便從中發(fā)現(xiàn)事先未知的聯(lián)系和規(guī)律的過程。l目的:讓數(shù)據(jù)擁有者得到非常清晰而有用的結(jié)果(即信息和知識(shí))8數(shù)據(jù)挖掘分類挖掘任務(wù)挖
2、掘任務(wù)挖掘?qū)ο笸诰驅(qū)ο笸诰蚍椒ㄍ诰蚍椒ǔS镁垲惥垲惙诸惙诸愱P(guān)聯(lián)關(guān)聯(lián)回歸與序列回歸與序列生物醫(yī)學(xué)數(shù)據(jù)來源生物醫(yī)學(xué)數(shù)據(jù)來源l人體生理信息的種類人體生理信息的種類形態(tài)形態(tài)身高、骨長、心臟、胃、腎等器官的幾何形狀、血管直徑等身高、骨長、心臟、胃、腎等器官的幾何形狀、血管直徑等振動(dòng)振動(dòng)心音、腸鳴音、呼吸音、血管音等心音、腸鳴音、呼吸音、血管音等壓力壓力血壓、心內(nèi)壓、顱內(nèi)壓、胸腔內(nèi)壓、眼內(nèi)壓等血壓、心內(nèi)壓、顱內(nèi)壓、胸腔內(nèi)壓、眼內(nèi)壓等速度速度血流速度、排尿速度、神經(jīng)傳導(dǎo)速度等血流速度、排尿速度、神經(jīng)傳導(dǎo)速度等流量流量血流量、呼吸流量、尿流量等血流量、呼吸流量、尿流量等溫度溫度體表溫度、口腔溫度、血液溫度、直
3、腸溫度、其他臟器溫度等體表溫度、口腔溫度、血液溫度、直腸溫度、其他臟器溫度等生物電生物電細(xì)胞電位、腦電、心電、胃電、肌電等細(xì)胞電位、腦電、心電、胃電、肌電等生物磁生物磁心磁、腦磁、胃磁等心磁、腦磁、胃磁等物理性質(zhì)參數(shù)物理性質(zhì)參數(shù)組織密度、對(duì)組織密度、對(duì)X射線的衰減系數(shù)、體內(nèi)氫核分布、對(duì)超聲波的聲阻抗射線的衰減系數(shù)、體內(nèi)氫核分布、對(duì)超聲波的聲阻抗等等化學(xué)成分化學(xué)成分O2、CO2、Na+等等生物量生物量酶、抗原、抗體、激素、神經(jīng)遞質(zhì)、酶、抗原、抗體、激素、神經(jīng)遞質(zhì)、DNA、RNA和蛋白質(zhì)等和蛋白質(zhì)等1.2數(shù)據(jù)挖掘的應(yīng)用及方法數(shù)據(jù)挖掘的應(yīng)用及方法l1.2.1應(yīng)用應(yīng)用l1.(分類應(yīng)用實(shí)例)乳腺疾病診斷
4、(分類應(yīng)用實(shí)例)乳腺疾病診斷l(xiāng)2.(回歸應(yīng)用實(shí)例)子宮頸癌患者存活率及其受各危險(xiǎn)因(回歸應(yīng)用實(shí)例)子宮頸癌患者存活率及其受各危險(xiǎn)因子影響模型子影響模型l3.(時(shí)間序列分析應(yīng)用實(shí)例)胰島素依賴性糖尿病變化趨(時(shí)間序列分析應(yīng)用實(shí)例)胰島素依賴性糖尿病變化趨勢(shì),變化周期勢(shì),變化周期l4.(預(yù)測(cè)應(yīng)用實(shí)例)腎透析提高患者生存率(預(yù)測(cè)應(yīng)用實(shí)例)腎透析提高患者生存率l5.(聚類應(yīng)用實(shí)例)流行病學(xué)因素對(duì)肺癌患者臨床醫(yī)學(xué)狀(聚類應(yīng)用實(shí)例)流行病學(xué)因素對(duì)肺癌患者臨床醫(yī)學(xué)狀況的影響況的影響l6.(關(guān)聯(lián)規(guī)則分析應(yīng)用實(shí)例)患者住院期間感染影響患者(關(guān)聯(lián)規(guī)則分析應(yīng)用實(shí)例)患者住院期間感染影響患者健康健康l7.(序列發(fā)現(xiàn),
5、序列分析應(yīng)用實(shí)例)基因比較(序列發(fā)現(xiàn),序列分析應(yīng)用實(shí)例)基因比較l1.2.2方法方法l從學(xué)習(xí)對(duì)象和過程的角度看分為有指導(dǎo)學(xué)習(xí)和從學(xué)習(xí)對(duì)象和過程的角度看分為有指導(dǎo)學(xué)習(xí)和無指導(dǎo)學(xué)習(xí)無指導(dǎo)學(xué)習(xí)l有指導(dǎo)學(xué)習(xí)指學(xué)習(xí)樣本的歸屬都是已知的,確有指導(dǎo)學(xué)習(xí)指學(xué)習(xí)樣本的歸屬都是已知的,確定的。例如分類定的。例如分類l無指導(dǎo)學(xué)習(xí)指學(xué)習(xí)樣本的歸屬事先并不確定或無指導(dǎo)學(xué)習(xí)指學(xué)習(xí)樣本的歸屬事先并不確定或已知。例如聚類已知。例如聚類l從學(xué)習(xí)方法的角度看,有多種數(shù)學(xué)工具可用:回歸分析學(xué)統(tǒng)計(jì)學(xué)方法,人工神經(jīng)網(wǎng)絡(luò),決策樹等l根據(jù)待解決問題的類型、要求,以及數(shù)據(jù)本身的特點(diǎn),確定最佳方法。數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘任務(wù)的完成需
6、要相應(yīng)的數(shù)據(jù)挖掘技術(shù)。目前的數(shù)據(jù)挖掘算法主要來自3個(gè)領(lǐng)域:統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)(人工智能)和數(shù)據(jù)庫。數(shù)據(jù)挖掘的焦點(diǎn)是自動(dòng)或半自動(dòng)的挖掘模式。有些機(jī)器算法應(yīng)用于數(shù)據(jù)挖掘,比如神經(jīng)網(wǎng)絡(luò)、遺傳算法等。數(shù)據(jù)庫技術(shù)是數(shù)據(jù)挖掘的第三種技術(shù)來源。因?yàn)閿?shù)據(jù)挖掘需要處理大量數(shù)據(jù),如何對(duì)大量數(shù)據(jù)進(jìn)行處理,需要數(shù)據(jù)庫技術(shù)。1.3生物醫(yī)學(xué)數(shù)據(jù)挖掘的特殊性生物醫(yī)學(xué)數(shù)據(jù)挖掘的特殊性l1.3.1醫(yī)學(xué)數(shù)據(jù)的特殊性l1.原始數(shù)據(jù)數(shù)量大,且呈多樣性或異質(zhì)性l2.有時(shí)很難以數(shù)學(xué)方式來表達(dá)其結(jié)構(gòu)及特征l3.醫(yī)學(xué)數(shù)據(jù)經(jīng)常需要更新l4.采集醫(yī)學(xué)數(shù)據(jù)很難完全避免噪聲干擾l5.生物醫(yī)學(xué)數(shù)據(jù)難免會(huì)發(fā)生丟失l6.醫(yī)學(xué)數(shù)據(jù)可能包含冗余的、沒有意義的或
7、不一致的屬性l1.3.2倫理、法律和社會(huì)等方面對(duì)隱私敏感的問題l1.3.3醫(yī)學(xué)的特殊性質(zhì)1.4數(shù)據(jù)挖掘的評(píng)價(jià)數(shù)據(jù)挖掘的評(píng)價(jià)l1.4.1樣本的組織l將原始樣本數(shù)據(jù)組織成學(xué)習(xí)樣本集和測(cè)試樣本集的原則:盡可能使學(xué)習(xí)樣本集和測(cè)試樣本集中的樣本分布和樣本總體的分布一致,盡可能使學(xué)習(xí)樣本集有足夠多的樣本。常用方法:l1.隨機(jī)分組法:將已知數(shù)據(jù)集合隨機(jī)的分為互不重疊的學(xué)習(xí)樣本集和測(cè)試樣本集。l2.交叉驗(yàn)證法:將原已知數(shù)據(jù)集隨機(jī)的分為K組,依次以其中的一組數(shù)據(jù)為測(cè)試樣本,而以其他數(shù)據(jù)為學(xué)習(xí)樣本進(jìn)行訓(xùn)練和測(cè)試。l3.留一法:是交叉驗(yàn)證法中當(dāng)K等于原始樣本數(shù)據(jù)量M時(shí)的特例。l1.4.2有指導(dǎo)學(xué)習(xí)的評(píng)價(jià)(分類)被分
8、類歸于C1類被分類歸于C2類被分類歸于C3類實(shí)際屬于C1類C11C12C13實(shí)際屬于C2類C21C22C23實(shí)際屬于C3類C31C32C333類分類的混淆矩陣被分類歸于陽性的樣本被分類歸于陰性的樣本總計(jì)實(shí)際屬于陽性的樣本a, Ntpb, Nfna+b實(shí)際屬于陰性的樣本c, Nfpd, Ntnc+d總計(jì)a+cb+da+b+c+d特異性和靈敏度的計(jì)算l1.4.3無指導(dǎo)學(xué)習(xí)的評(píng)價(jià)l無指導(dǎo)學(xué)習(xí)數(shù)據(jù)挖掘目標(biāo)往往不清晰,但有評(píng)價(jià)指導(dǎo)學(xué)習(xí)數(shù)據(jù)挖掘的一些原理,可沿用于評(píng)價(jià)無指導(dǎo)學(xué)習(xí)的性能。例如:聚類。開源數(shù)據(jù)挖掘工具(平臺(tái))開源數(shù)據(jù)挖掘工具(平臺(tái))lWekalRlTanagralYALElKNIMElOran
9、gelGGobi1.5數(shù)據(jù)挖掘的過程數(shù)據(jù)挖掘的過程l數(shù)據(jù)挖掘軟件lIntelligent Miner(IBM)lClementine(SPSS)lEnterprise Miner(SAS)lMicrosoft SQL Server2005(Microsoft)l1.明確分析目的l2.組織及預(yù)處理數(shù)據(jù)l3.探索性分析數(shù)據(jù)l4.實(shí)施數(shù)據(jù)挖掘方法,并以此分析數(shù)據(jù)l5.評(píng)價(jià)和比較各種方法的性能,確定最終的結(jié)果l6.解釋數(shù)據(jù)挖掘結(jié)果及其在本專業(yè)領(lǐng)域中的應(yīng)用Wekal統(tǒng)計(jì)分析方面較弱,在機(jī)器學(xué)習(xí)方面要強(qiáng)得多Rl用于統(tǒng)計(jì)分析和圖形化的計(jì)算機(jī)語言及分析工具,支持系列分析技術(shù),包括統(tǒng)計(jì)檢驗(yàn),預(yù)測(cè)建模,數(shù)據(jù)可視化
10、Tanagral使用圖形界面的數(shù)據(jù)挖掘軟件,強(qiáng)項(xiàng)是統(tǒng)計(jì)分析,提供了眾多的有參和無參的檢驗(yàn)方法,但缺乏高級(jí)的可視化能力YALEl提供圖形化界面,提供了大量的運(yùn)算符,包括數(shù)據(jù)處理,變換,探索,建模,評(píng)估等等環(huán)節(jié)。KNIMEl采用類似數(shù)據(jù)流的方式來建立分析挖掘過程Orangel提供大量的可視化方法,可對(duì)數(shù)據(jù)和模型進(jìn)行多種圖形化演示,并能智能搜索合適的可視化形式,支持對(duì)數(shù)據(jù)的交互式探索,弱項(xiàng)在于傳統(tǒng)統(tǒng)計(jì)分析能力不強(qiáng),不支持統(tǒng)計(jì)檢驗(yàn),報(bào)表能力也有限。GGobil用于交互式可視化的開源軟件第二章第二章 醫(yī)學(xué)數(shù)據(jù)采集醫(yī)學(xué)數(shù)據(jù)采集與準(zhǔn)備與準(zhǔn)備2.1數(shù)據(jù)的采集與組織數(shù)據(jù)的采集與組織l2.1.1數(shù)據(jù)的采集、存儲(chǔ)與
11、管理l數(shù)據(jù)庫系統(tǒng)(DBMS)是存儲(chǔ),組織和管理數(shù)據(jù)的有效工具,由一組含有內(nèi)部相關(guān)數(shù)據(jù)的數(shù)據(jù)文件和一組管理數(shù)據(jù)的軟件程序組成,有時(shí)也簡(jiǎn)稱為數(shù)據(jù)庫(DB)。l數(shù)據(jù)倉庫(DW)是一個(gè)面向特定研究目的、集成來自各個(gè)不同數(shù)據(jù)庫的數(shù)據(jù)并相對(duì)穩(wěn)定的數(shù)據(jù)集合,它是數(shù)據(jù)挖掘直接操作和處理的對(duì)象。醫(yī)院信息系統(tǒng)(HIS)藥物信息數(shù)據(jù)庫病房管理數(shù)據(jù)庫臨床檢驗(yàn)數(shù)據(jù)庫l2.1.2數(shù)據(jù)的組織數(shù)據(jù)的組織l1.數(shù)據(jù)的結(jié)構(gòu)數(shù)據(jù)的結(jié)構(gòu)住院號(hào)住院號(hào)姓名姓名性別性別手術(shù)年齡手術(shù)年齡診斷診斷治療方法治療方法療效療效1001孫寶英孫寶英男男3先天性多指先天性多指手術(shù)矯形手術(shù)矯形優(yōu)優(yōu)1002吳立生吳立生男男1先天性并指先天性并指手術(shù)矯形手術(shù)
12、矯形優(yōu)優(yōu)1003王啟勇王啟勇男男12肱骨骨折肱骨骨折手術(shù)復(fù)位手術(shù)復(fù)位良良1004何俊峰何俊峰女女3髖關(guān)節(jié)脫位髖關(guān)節(jié)脫位手術(shù)復(fù)位手術(shù)復(fù)位優(yōu)優(yōu)2005王春章王春章男男7斜頸斜頸手術(shù)手術(shù)良良l2.數(shù)據(jù)的類型l數(shù)值型:由有序數(shù)字構(gòu)成的數(shù)據(jù)l分類型:表示對(duì)象類別歸屬的數(shù)據(jù)l二值型:只有兩種取值的數(shù)據(jù)l布爾型:特殊的二值型數(shù)據(jù)l排序型:特殊的分類型數(shù)據(jù)胃癌TNM分期原發(fā)腫瘤的部位及大小(T)1腫瘤局限于粘膜或粘膜下層2腫瘤侵及肌層3腫瘤侵及漿膜4腫瘤已穿透漿膜淋巴轉(zhuǎn)移部位和數(shù)量(N)0無淋巴結(jié)轉(zhuǎn)移1離癌灶最近,貼近于胃壁的第1站淋巴結(jié)有轉(zhuǎn)移2遠(yuǎn)隔癌灶部位的第2站淋巴結(jié)有轉(zhuǎn)移3第3站淋巴結(jié)有轉(zhuǎn)移是否已有遠(yuǎn)處
13、轉(zhuǎn)移(M)0尚無遠(yuǎn)處轉(zhuǎn)移1已有遠(yuǎn)處轉(zhuǎn)移2.2數(shù)據(jù)管理及數(shù)據(jù)管理系統(tǒng)的基數(shù)據(jù)管理及數(shù)據(jù)管理系統(tǒng)的基本功能本功能l2.2.1數(shù)據(jù)管理l是指對(duì)各種數(shù)據(jù)進(jìn)行收集、分類、組織、編碼、存儲(chǔ)、查詢和維護(hù)。(Excel Access)l2.2.2Excel的基本功能l1.數(shù)據(jù)的存儲(chǔ)l2.數(shù)據(jù)的排序l3.數(shù)據(jù)的篩選l4.數(shù)據(jù)的統(tǒng)計(jì)分析l5.數(shù)據(jù)的分類匯總l2.2.3關(guān)系數(shù)據(jù)庫管理系統(tǒng)的基本功能l1.數(shù)據(jù)的定義和存儲(chǔ)l2.數(shù)據(jù)的排序、索引和篩選l排序是通過字段有序的排列記錄,以便更有效的進(jìn)行查詢;l索引的主要功能是用來加速記錄的存??;l篩選是讓數(shù)據(jù)表顯示符合條件的紀(jì)錄,隱藏不符合條件的紀(jì)錄。l3.數(shù)據(jù)的查詢與統(tǒng)計(jì)
14、l進(jìn)行數(shù)據(jù)挖掘的時(shí)候,首先要將實(shí)際問題轉(zhuǎn)化為數(shù)據(jù)挖掘問題,能否轉(zhuǎn)換為恰當(dāng)?shù)臄?shù)據(jù)挖掘問題是進(jìn)行數(shù)據(jù)挖掘的關(guān)鍵。2.3數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理l2.3.1數(shù)據(jù)預(yù)處理的目的l不完整性:指有些數(shù)據(jù)記錄的某些屬性或特征值缺少;l不一致性:指有些數(shù)據(jù)記錄的若干屬性或特征值在邏輯上互相矛盾因而可信度降低;l噪聲:指有些數(shù)據(jù)的值有誤差或表現(xiàn)出隨機(jī)性的波動(dòng)。l數(shù)據(jù)預(yù)處理一般包括數(shù)據(jù)清洗,數(shù)據(jù)整合,數(shù)據(jù)變換,數(shù)據(jù)精簡(jiǎn)等功能。l2.3.2數(shù)據(jù)的分布特性l反映數(shù)據(jù)分布主要趨勢(shì)的參數(shù):l均值:同類數(shù)據(jù)值的算術(shù)平均l中值:也稱中位數(shù)l眾數(shù):原始數(shù)據(jù)集合中某個(gè)值出現(xiàn)的頻數(shù)最多l(xiāng)半程位:原始數(shù)據(jù)集合中最大數(shù)值和最小數(shù)值的均數(shù)。l
15、反映數(shù)據(jù)分布散布性的參數(shù):l全程范圍:數(shù)據(jù)集合的最大數(shù)值和最小數(shù)值之和。l四分位數(shù):是k百分位數(shù)的特例l四分位范圍l標(biāo)準(zhǔn)差和變異系數(shù)l例:有一個(gè)數(shù)據(jù)集合為:100,120,120,110,130,132,132,133,133,131,132,130,138,129,132,140,140,121,125,計(jì)算得到該數(shù)據(jù)集合的分布特征參數(shù)。l2.3.3數(shù)據(jù)清洗l1.數(shù)據(jù)缺失l常用處理方法:l(1)忽略含有數(shù)據(jù)缺失的記錄;l(2)用一個(gè)常量或標(biāo)識(shí)符號(hào)來取代所有缺失的數(shù)據(jù)值;l(3)以全體數(shù)據(jù)相同屬性的均值取代某個(gè)記錄缺失的該屬性值;l(4)以最可能發(fā)生的值取代某個(gè)記錄缺失的屬性值。l2.數(shù)據(jù)噪聲
16、l分組平滑:分組是將某項(xiàng)數(shù)據(jù)值按一定的順序排成序列,然后將若干個(gè)連續(xù)排列的相鄰數(shù)據(jù)組成一個(gè)組。l回歸平滑:回歸是將原始數(shù)據(jù)擬合為某種回歸函數(shù),以該函數(shù)的的值取代相應(yīng)的原始數(shù)據(jù)。l聚類平滑:聚類是以原始數(shù)據(jù)各個(gè)相關(guān)特征屬性值構(gòu)成特征空間,根據(jù)原始數(shù)據(jù)在此空間中的分布狀態(tài)。l2.3.4數(shù)據(jù)整合l實(shí)體識(shí)別,也稱對(duì)象匹配或設(shè)計(jì)方案整合。在不同的數(shù)據(jù)庫中,可能采用不同的名稱、標(biāo)識(shí)符號(hào)或代碼來表示客觀世界中的同一事物,要識(shí)別這些事物是否相同。l消除冗余,若數(shù)據(jù)的某個(gè)特征屬性的值或狀態(tài),可從其他幾個(gè)特征屬性推導(dǎo)而得到,則產(chǎn)生信息冗余。l數(shù)據(jù)值沖突,在不同數(shù)據(jù)庫中,對(duì)同一參數(shù)采用不同的單位可引起。l2.3.5
17、數(shù)據(jù)變換l數(shù)據(jù)變換是將原始數(shù)據(jù)的類型或取值范圍變換到合適的形式,以便適應(yīng)不同數(shù)據(jù)挖掘算法的要求。l一方面,原始數(shù)據(jù)類型根據(jù)數(shù)據(jù)反映的客觀事物的性質(zhì)不同而各異;l另一方面,生物醫(yī)學(xué)數(shù)據(jù)反映的客觀事物的生理或生化性質(zhì)不同,量綱也各不相同,這導(dǎo)致了這些數(shù)據(jù)的數(shù)值變化范圍會(huì)有很大的差異。l一方面,生物醫(yī)學(xué)數(shù)據(jù)反映的客觀事物的生理或生化性質(zhì)不同,量綱也各不相同,這導(dǎo)致了這些數(shù)據(jù)的數(shù)值變化范圍會(huì)有很大的差異;l另一方面,數(shù)據(jù)的取值范圍對(duì)某些數(shù)據(jù)挖掘算法的性能也會(huì)有所影響。l將原始數(shù)據(jù)的變化范圍變換到另一個(gè)指定的取值范圍,以取得更好的數(shù)據(jù)挖掘效果,這種變換數(shù)據(jù)取值范圍的過程稱為數(shù)據(jù)的歸一化。常用的數(shù)據(jù)歸一化
18、方法:l十進(jìn)計(jì)數(shù)法l最小最大歸一法lZ分?jǐn)?shù)歸一法l對(duì)數(shù)歸一法l2.3.6數(shù)據(jù)精簡(jiǎn)l1.樣本數(shù)據(jù)的選擇l隨機(jī)選取l典型性分?jǐn)?shù)l2.數(shù)據(jù)特征屬性的選擇l逐一嘗試l涉企相關(guān)性高的特征l舍棄分類型特征l舍棄數(shù)值型特征l特征復(fù)合分組分組分組分組1分組分組2分組分組3均值均值方差方差原數(shù)據(jù)原數(shù)據(jù)129,131,124136,131,132138,134,139132.674.69均值均值平滑平滑128,128,128133,133,133137,137,137132.673.91中值中值平滑平滑129,129,129132,132,132138,138,138133.003.97邊界值邊界值平滑平滑131
19、,131,124136,131,131139,134,139132.894.73第三章第三章 回歸分析回歸分析3.1回歸分析的功能回歸分析的功能3.2常用的回歸分析方法常用的回歸分析方法l3.2.1線性回歸l3.2.2Logistic回歸l3.2.3人工神經(jīng)網(wǎng)絡(luò)l3.2.4回歸樹第四章第四章 分類分類第五章第五章 聚類分析聚類分析5.1聚類分析的功能聚類分析的功能l5.1.1聚類分析的定義與作用l聚類是一種數(shù)據(jù)分析方法,它面向一個(gè)數(shù)據(jù)集,將其中全體數(shù)據(jù)分別劃歸不同組別。l聚類依據(jù)原則:同一類別內(nèi)的各個(gè)數(shù)據(jù)相似性較高,不同類之間的數(shù)據(jù)相似性較低。l聚類作用:可根據(jù)其內(nèi)在屬性將數(shù)據(jù)歸納為不同的類別
20、,并借此了解數(shù)據(jù)屬性的分布規(guī)律;也可作為數(shù)據(jù)預(yù)處理的手段,為實(shí)施其他數(shù)據(jù)挖掘技術(shù)進(jìn)行數(shù)據(jù)準(zhǔn)備。l5.1.2聚類分析中的相似性度量l1、由特征屬性確定的相似性l2、數(shù)值型數(shù)據(jù)之間的相似性l3、二值型數(shù)據(jù)之間的相似性l4、分類型數(shù)據(jù)之間的相似性l5、排序型數(shù)據(jù)之間的相似性l6、混合型數(shù)據(jù)之間的相似性l例:現(xiàn)有若干個(gè)樣本根據(jù)由6個(gè)特征屬性構(gòu)成,特征屬性的名稱及各樣本數(shù)據(jù)的相應(yīng)特征值如表,計(jì)算各個(gè)樣本數(shù)據(jù)之間的相似程度。記錄性別年齡組收縮壓舒張壓 糖尿病類型 心絞痛112200120102031801052131111080005.2聚類分析的方法聚類分析的方法l5.2.1聚類分析方法l1、劃分法l第
21、一步:任選k個(gè)樣本數(shù)據(jù)l第二步:進(jìn)行第一輪聚類l第三步:進(jìn)行第二輪聚類l第四步:計(jì)算聚類誤差El2、分層l分層聚類法可分為兩種實(shí)施方案:凝聚性分層聚類,分裂型分層聚類l5.2.2高維特征空間中的聚類5.3聚類分析的應(yīng)用聚類分析的應(yīng)用住院患者住院患者人群分類人群分類l5.3.1研究目標(biāo)l根據(jù)某地區(qū)若干醫(yī)院住院患者的實(shí)際情況,將其劃分為若干類別,并分析這些類別患者的某些共性。l5.3.2數(shù)據(jù)采集與處理l劃分住院患者類別依據(jù)的特征:患者的年齡,主要診斷分類,住院時(shí)間,住院病區(qū)和收入水平等l5.3.3數(shù)據(jù)挖掘與分析第第1類類第第2類類第第3類類第第4類類第第5類類第第6類類合計(jì)合計(jì)第第1類類88130
22、54011080.0%11.8%0.0%4.5%3.6%0.0%100%第第2類類118402701040.0%第第3類類1063002661.5%0.0%95.5%0.0%0.0%3.0%100%第第4類類2006923762.6%0.0%0.0%90.8%2.6%3.9%100%第第5類類4640570715.6%8.5%5.6%0%80.3%0.0%100%第第6類類0001022230.0%0.0%0.0%4.3%0.0%95.7%100%合計(jì)合計(jì)1061036777702745023.6%22.9%14.9%17.1%15.6%6.0%100%住院患者分類的測(cè)試結(jié)果住院患者分類的測(cè)試結(jié)果
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2020-2021北京首都醫(yī)科大學(xué)附屬中學(xué)初中部小學(xué)三年級(jí)數(shù)學(xué)下期末一模試卷及答案
- 大修施工方案
- 2024年廣西地區(qū)中考滿分作文《給小廣的一封信》7
- 加強(qiáng)學(xué)生團(tuán)隊(duì)精神的培養(yǎng)計(jì)劃
- 建立臨床路徑的實(shí)施方案計(jì)劃
- 跌倒護(hù)理創(chuàng)新案例
- 年度創(chuàng)新項(xiàng)目管理與評(píng)估計(jì)劃
- 面部危險(xiǎn)與清潔護(hù)理
- 商場(chǎng)安全防范工作計(jì)劃
- 《金沙縣平壩尖山鐵礦有限公司金沙縣平壩鄉(xiāng)尖山鐵礦(延續(xù))礦產(chǎn)資源綠色開發(fā)利用方案(三合一)》評(píng)審意見
- 2025年江西江銅集團(tuán)招聘筆試參考題庫含答案解析
- 大學(xué)英語翻譯課件
- 薄膜電容項(xiàng)目立項(xiàng)申請(qǐng)報(bào)告
- 2023新修訂版《中華人民共和國公司法》學(xué)習(xí)解讀
- 2024年砂石洗沙廠廠安全生產(chǎn)管理制度及崗位責(zé)任(2篇)
- 教師師德師風(fēng)考核細(xì)則
- 聲帶腫物的護(hù)理教學(xué)查房
- 辦公場(chǎng)所修繕施工方案
- 物聯(lián)網(wǎng)在安全生產(chǎn)中的應(yīng)用
- 產(chǎn)科臨床診療指南及操作規(guī)范
- DB32T-網(wǎng)絡(luò)直播營銷管理規(guī)范編制說明
評(píng)論
0/150
提交評(píng)論