醫(yī)學信息獲取及利用_第1頁
醫(yī)學信息獲取及利用_第2頁
醫(yī)學信息獲取及利用_第3頁
醫(yī)學信息獲取及利用_第4頁
醫(yī)學信息獲取及利用_第5頁
已閱讀5頁,還剩57頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、 醫(yī)學信息獲取及利用12007-9-32.1 醫(yī)學信息獲取的基本概念醫(yī)學信息獲取的含義?醫(yī)學信息獲取的理解(1)醫(yī)學信息獲取的傳統(tǒng)理解借助某種換能器將醫(yī)學實體的非電信號轉(zhuǎn)換成醫(yī)學模擬電信號,再由A/D轉(zhuǎn)換器將模擬電信號轉(zhuǎn)換成醫(yī)學數(shù)字信號的過程定義為醫(yī)學信息獲取。(2)醫(yī)學信息獲取的廣義理解凡能夠采用某種方法得到所需醫(yī)學信息的過程都稱為醫(yī)學信息獲取22.1 醫(yī)學信息獲取的基本概念(續(xù))醫(yī)學信息表示的含義各種類型的醫(yī)學信息,由于獲取的方法不同,計算機直接識別的數(shù)字信息、須經(jīng)過某種變換或某種編碼才能為計算機所識別的信息。數(shù)字變換或編碼就是信息的一種表示形式32.1 醫(yī)學信息獲取的基本概念(續(xù))醫(yī)學信

2、息獲取的基本前提信息感知是對醫(yī)學實體信息的認識和感悟信息感知主要由人體的感覺器官實現(xiàn)聲波振動耳鼓膜和聽骨耳蝸管內(nèi)淋巴液纖毛細胞發(fā)生彎曲變形神經(jīng)生理電信號聽覺器官感知聲音信息感知總是具有局限性視覺器官只能感知16Hz20KHz的可見光聽覺器官只能感知20Hz20KHz的聲波獲取人體無法直接感知的信息,必須借助人工感知系統(tǒng)(醫(yī)學傳感器),擴展和延伸人體感知器官功能。42.1 醫(yī)學信息獲取的基本概念(續(xù))醫(yī)學信息獲取的信息來源信息源:組織或個人為滿足其信息需要而獲得信息的來源,稱為信息源。實體型、文獻型、電子型、網(wǎng)絡(luò)型信息源醫(yī)學信息獲取的基本途徑52.2 醫(yī)學常規(guī)數(shù)據(jù)信息的獲取及利用醫(yī)學常規(guī)數(shù)據(jù)信息

3、的界定什么是醫(yī)學常規(guī)數(shù)據(jù)信息?指在進行醫(yī)學臨床、醫(yī)學實驗、醫(yī)學教學、醫(yī)學預防和醫(yī)學管理等一般性的醫(yī)學實踐和科學實驗中,所得到的各種常見的醫(yī)學數(shù)據(jù)。特點是:多以數(shù)據(jù)形式直觀表現(xiàn),具有明顯的可測性;信息多種多樣;分為計量指標數(shù)據(jù)和計數(shù)指標數(shù)據(jù)兩類。計量指標數(shù)據(jù):各種物理和化學指標的數(shù)據(jù)信息計數(shù)指標數(shù)據(jù),則是指那些不能用數(shù)量描述的文本數(shù)據(jù)信息62.2 醫(yī)學常規(guī)數(shù)據(jù)信息的獲取及利用(續(xù))醫(yī)學常規(guī)數(shù)據(jù)信息的獲取方法傳統(tǒng)方法:文檔查閱法、實驗研究法、現(xiàn)場調(diào)查法網(wǎng)上搜索方法:從光盤數(shù)據(jù)庫系統(tǒng)、門戶網(wǎng)站、搜索引擎、網(wǎng)絡(luò)搜索軟件醫(yī)學常規(guī)數(shù)據(jù)信息獲取的基本原則數(shù)據(jù)信息的正確性、完整性、統(tǒng)一性、可操作性統(tǒng)一性:數(shù)據(jù)

4、信息的形式和名稱統(tǒng)一;遵循一定的標準。遵循標準的原則是:國內(nèi)標準優(yōu)先國際標準,國家標準優(yōu)先行業(yè)標準。倘若既無國際、國家標準,又無行業(yè)標準,也可以在一定約定下自己擬訂一個臨時性標準文本。72.2 醫(yī)學常規(guī)數(shù)據(jù)信息的獲取及利用(續(xù))醫(yī)學常規(guī)數(shù)據(jù)信息獲取的利用途徑統(tǒng)計處理、數(shù)據(jù)庫構(gòu)建、科學計算、大數(shù)據(jù)利用大數(shù)據(jù):指那些規(guī)模巨大到無法利用目前常用的數(shù)據(jù)處理技術(shù)和主流軟件工具,在合理的時空中實現(xiàn)獲取、存儲、處理的海量數(shù)據(jù)及其技術(shù)。4 V特征:Volume(巨量)、Variety(多樣)、Velocity(高速)和Value(價值)核心:海量數(shù)據(jù)進行存儲和分析處理82.3 醫(yī)學生理信息的獲取及利用醫(yī)學生理

5、信息的含義生命體在其生命活動過程中,無論是器官組織還是細微細胞都可能成為生理信息產(chǎn)生的信息源人體生理信號的類型:表2.1電信號:內(nèi)源性信號、外源性信號非電信號:機械性質(zhì)信號、化學性質(zhì)信號生理信號特點?幅值小,頻率低信噪比低,隨機性強,易受干擾而不易被識別一般需要換能器才能獲取92.3 醫(yī)學生理信息的獲取及利用(續(xù))醫(yī)學生理信息獲取的基本原理醫(yī)學生理信息獲取的基本過程圖2.210醫(yī)學生理信息獲取的基本原理(續(xù))醫(yī)學生理信息獲取的基本技術(shù)(1)人體生理信號的表征。是一個時間的函數(shù)對于具有連續(xù)重復特征的生理信號,通常采用準周期函數(shù)(如心電圖信號)或瞬時函數(shù)(如眼動圖信號、受刺激的細胞信號)進行描述。

6、例如心電圖中的P-QRS-T復合波就是以準周期或近似周期形式產(chǎn)生的波形信號來構(gòu)建的波形圖。對于具有隨機特性的生理信號,多數(shù)情況只能用統(tǒng)計學的方法進行描述 11醫(yī)學生理信息獲取的基本原理(續(xù))(2)醫(yī)學傳感器拾取信號的原理 醫(yī)學傳感器概念:傳感器又稱換能器,是醫(yī)學檢測儀器與人體直接耦合的一種設(shè)備,其作用是對人體生理信號進行感知和拾取,并轉(zhuǎn)換成模擬電信號。醫(yī)學傳感器分類(表2.3)工作原理分:物理型、化學型和生物型輸入信息分:有位移型、壓力型、速度型、流量型、溫度型和電位型用途分:脈搏傳感器、腦電傳感器、胃電傳感器傳感器組成:感受器:完成對人體溫度、壓力和流量等物理量的識別和拾取換能器:將拾取的物

7、理量轉(zhuǎn)換成大小不同的電信號形式12醫(yī)學生理信息獲取的基本原理(續(xù))(3)生理信號的ADC轉(zhuǎn)換概念:人體生理信號經(jīng)傳感器拾取后得到是模擬電信號,通過模/數(shù)轉(zhuǎn)換即A/D轉(zhuǎn)換或稱ADC(Analog to Digital Converter)轉(zhuǎn)換技術(shù),使其數(shù)字化。ADC轉(zhuǎn)換器組成:模擬多路選擇電路、采樣保持電路、A/D轉(zhuǎn)換及控制電路A/D轉(zhuǎn)換器有8位、12位、16位、24位或更高位的多種分辨形式ADC轉(zhuǎn)換的工作過程分兩步:一是采樣,二是量化。如圖2.313ADC轉(zhuǎn)換的工作過程采樣頻率的選擇采樣,就是將模擬信號的幅值被等分地間隔開來,即將一個連續(xù)時間函數(shù)的信號變成具有一定時間間隔T,使在每一個時間ti

8、 i=1,2,n時才有函數(shù)值的離散信號過程。香農(nóng)-奈奎斯特(Shannon-Nyquist)采樣定理:采樣頻率f至少應是原始信號x(t)中最高頻率的2倍量化階數(shù)的確定量化,就是在采樣所確定的時間間隔位置對信號進行量化處理即以有限的數(shù)字精度進行數(shù)字表示的過程。量化階數(shù)m,指幅值范圍對量化階值的比值,用2的乘冪形式表示,即m=2n,這里的n為二進制數(shù)的位數(shù)14 醫(yī)學生理信息獲取的方法及利用分析心電信號的數(shù)字化獲取方法及其分析常見心電信號的數(shù)字化采集和分析系統(tǒng)檢測心律失常的心電信號采集和分析系統(tǒng)動態(tài)心電信號采集和分析系統(tǒng)心電信號采集和分析系統(tǒng)心電圖機、心電生理檢則儀、運動平板心電檢測機、動態(tài)心電圖檢

9、測儀、心電監(jiān)護儀系統(tǒng)構(gòu)成測量程序:實現(xiàn)心電信號的數(shù)字化準確獲取分析程序:不同類型的心電系統(tǒng)差別較大15醫(yī)學生理信息獲取的方法及利用分析(續(xù))腦電信號的數(shù)字化獲取方法及其分析腦電圖EEG(Echoencephalography)是大腦神經(jīng)活動在頭皮上產(chǎn)生的電位分布數(shù)字化腦電圖設(shè)備:腦電功率譜分析設(shè)備動態(tài)腦電圖機腦電地形圖BEAM(Brain Electrical Activity Mapping)儀腦電信號分析和檢測系統(tǒng)測量程序:頭皮電極拾取腦電信號,ADC轉(zhuǎn)換數(shù)字信號分析程序:不同的腦電系統(tǒng)區(qū)別很大162.4 醫(yī)學圖像信息的獲取及利用醫(yī)學圖像信息概述醫(yī)學圖像信息的含義:一種用圖像表達醫(yī)學信息的

10、信息源,是醫(yī)學診斷的重要依據(jù)。醫(yī)學圖像種類:X射線圖像、超聲圖像、磁共振圖像、同位素圖像和顯微圖像醫(yī)學圖像信息的基本特征維數(shù)多、信息量大(表2.4)、生命性17表2.4 一些常見醫(yī)學圖像信息文件的大小圖像類型一幅圖像(位)圖像數(shù)/檢查文件/檢查核醫(yī)學圖像1281281230-601-2M磁共振圖像25625612608M超聲圖像512512820-2305-60M數(shù)字減影血管造影圖像5125121215-404-10M計算機斷層掃描圖像512512124020M計算機放射圖像2048204812216M數(shù)字化X線攝影圖像2048204812216M數(shù)字化X線乳腺攝影圖像409640961241

11、28M18醫(yī)學圖像信息獲取的基本原理醫(yī)學圖像信息獲取的過程(兩個階段)光電轉(zhuǎn)化:將反映不同光強度的醫(yī)學圖像信息轉(zhuǎn)化成模擬電信號,光電轉(zhuǎn)換設(shè)備:電荷藕荷器CCD(Charged Coupled Device)和互補型金屬氧化物半導體CMOS(Complementary Metal Oxide Semiconductor)模數(shù)轉(zhuǎn)化:把模擬圖像信號轉(zhuǎn)化為數(shù)字圖像信號,即實現(xiàn)圖像的采樣和量化。圖像采樣,是將空域或時域上的連續(xù)模擬圖像拾取和變換成離散的采樣點(像素)集合的過程。圖像的量化,就是將采樣得到的像素點上表示明亮程度的信息的連續(xù)量離散化后,用數(shù)值(一般用整數(shù))陣列表示的過程19醫(yī)學圖像信息獲取的

12、基本原理(續(xù))圖像信息的表示形式采用直觀的矩陣形式表示。將圖像離散化,離散后即可得到一個mn階矩陣形式。P40 (2.1)陣列中每個點(xi , yi)的函數(shù)值表示采樣點的灰度值,x和y分別表示在x, y方向的變化距離即采樣周期。為方便起見,通常取x=y=0,x=y=1。20醫(yī)學圖像信息獲取的基本原理(續(xù))象素點的灰度級別一幅圖像的清晰度和保真度除了與象素點的采樣周期有關(guān),還與表示該象素點的灰度級別有關(guān)灰度級別越高,效果越好,反之就越差。人眼對黑白程度只能分辨出20多個級別,常用1個字節(jié)256等級;用2個字節(jié)表示,灰度級別高了,有64k個等級,但存儲空間卻增加了1倍21醫(yī)學圖像信息獲取的基本原

13、理(續(xù))黑白圖像,亦稱二值圖像,其像素值只有0和1灰度圖像,每個像素的信息由一個量化的灰度級來描述彩色圖像:每個像素的信息是由RGB三種原色構(gòu)成,而RGB又由不同的灰度級來描述,因此彩色圖像是用三個矩陣共同來描述22醫(yī)學圖像信息獲取的基本原理(續(xù))醫(yī)學圖像信息的編碼方法什么是圖像信息的編碼?如何使圖像信息在計算機中占用較少的存儲空間,“數(shù)據(jù)壓縮”。圖像信息的編碼方法:無損壓縮,可逆壓縮。壓縮比2:1。有損壓縮,不可逆壓縮。高壓縮比,圖像質(zhì)量降低。23哈夫曼編碼算法基本思想和特點依據(jù)數(shù)據(jù)出現(xiàn)頻率來編碼,達到壓縮特點:是一棵加權(quán)二進制樹;頻繁元素在樹頂部;左分支分配1(或0),右分支分配0(或1)

14、。算法過程P41 構(gòu)造唯一的數(shù)據(jù)元素概率集合,各元素是節(jié)點;概率集合列表中數(shù)據(jù)元素以值遞增排序。最小的兩個概率值相加 形成二叉樹父節(jié)點,這兩個值為葉節(jié)點,并將值小的(左側(cè))賦1,并從列表中移除這兩個值,將新節(jié)點插入列表中,列表仍保持遞增。重復 直到列表中留下 1個元素 ,即為 整個 二叉樹的父節(jié)點 。從二叉樹樹根節(jié)點開始找到 每個葉節(jié)點 ,把沿途經(jīng)過的“1”和“0”串起來,即可得到每個葉節(jié)點的編碼24哈夫曼編碼算法(續(xù) )案例2.1 設(shè)一幅醫(yī)學圖像中出現(xiàn)有8種灰度級別s0,s1,s2,s7,且已知在該幅圖像的象素序列中,s0, s1, s2,s7分別出現(xiàn)的次數(shù)是:4,5,6,7,10,10,1

15、8,40,試用哈夫曼編碼方法對其進行編碼。先計算每種灰度級別出現(xiàn)的概率p(si)(i=0,1,2,7)并按從小到大進行排序,即:0.04,0.05,0.06,0.07,0.10,0.10,0.18,0.40再將最小的兩個概率節(jié)點值相加得到新的概率節(jié)點值,并構(gòu)建二叉樹和賦值“0”和“1”,之后再重新排序,即:0.06,0.07,0.09,0.10,0.10,0.18,0.40按算法構(gòu)造 二叉樹 25哈夫曼編碼算法(續(xù) )哈夫曼編碼二叉樹10.40.60.230.370.180.190.090.100.040.050.100.130.060.07S4S1S0S6S3S2S5S71110111000

16、0001最后從根節(jié)點開始沿著樹枝到葉節(jié)點將所有賦值串起來,得到了s0到s7的編碼結(jié)果依次是:00011,00010,0101,0100,0000,011,001,1。26教材P42 圖2.7糾錯 0.230.370.1327案例分析假設(shè)有一個字符列表“abcdefg”,它們在一個文件中出現(xiàn)的頻率依次分別是17、7、22、13、77、90、45。試用霍夫曼編碼算法為每個字母編碼。28哈夫曼編碼算法(續(xù) )編碼效率分析哈夫曼編碼:用 可變長碼子編碼,對出現(xiàn)概率大的符號賦短碼子,出現(xiàn)概率小的符號賦長碼子。信息編碼的效率由信源熵H(S)與信源符號的平均碼長L的比值決定。本例: =0.977其中, p(

17、si)為第i個級別灰度出現(xiàn)的概率值,li為信源第i個狀態(tài)si編碼長度的平均碼長。本例:29醫(yī)學圖像信息獲取的基本方法及利用從X射線成像系統(tǒng)中獲取圖像信息利用人體器官和組織對X線的衰減不同,透射的X線的強度也不同這一性質(zhì),檢測出相應的二維能量分布,并進行可視化轉(zhuǎn)換,從而可獲取人體內(nèi)部結(jié)構(gòu)的圖像。常規(guī)X線數(shù)字成像系統(tǒng)計算機X線攝影系統(tǒng)CR(Computed Radiography)數(shù)字化X線攝影系統(tǒng) DR數(shù)字減影血管造影系統(tǒng)DSA(Digital Subtraction Angiography)30計算機X線攝影(CR) CR系統(tǒng)是使用可記錄并由激光讀出X線成像信息的成像板(imaging pla

18、te ,IP)作為載體,先將X射線模擬影像保存下來,再對存儲在IP板上的模擬信息通過激光掃描器和光電轉(zhuǎn)換器將潛影轉(zhuǎn)換為光電信號,進而通過ADC轉(zhuǎn)換器轉(zhuǎn)換成數(shù)字X線的影像信息。31數(shù)字X線攝影(DR)是在X線影像增強器電視系統(tǒng)的基礎(chǔ)上,采用模/數(shù)轉(zhuǎn)換器將模擬視頻信號轉(zhuǎn)換成數(shù)字化X圖像信號后送入計算機系統(tǒng)中進行存儲。32數(shù)字減影血管造影(Digital Subtraction Angiography,DSA)解決傳統(tǒng)的X射線血管造影中血管與骨骼和軟組織的影像重疊、血管顯示不清原理:是利用數(shù)字圖像處理技術(shù)中的圖像幾何運算功能,將造影劑注入前后的數(shù)字化X線圖像進行相減操作,獲得兩幀圖像的差異部分被造影

19、劑充盈的血管圖像。DSA獲取影像的過程是一個動態(tài)過程33X線斷層掃描成像系統(tǒng)X線CT(Computerized Tomography,CT)是以測定X射線在人體內(nèi)的衰減系數(shù)為物理基礎(chǔ),采用投影圖像重建的數(shù)學原理,經(jīng)過計算機高速運算,求解出衰減系數(shù)數(shù)值在人體某斷面上的二維分布矩陣,然后應用圖像處理與顯示技術(shù)將該二維分布矩陣轉(zhuǎn)變?yōu)檎鎸崍D像的灰度分布,從而實現(xiàn)建立斷層圖像的現(xiàn)代醫(yī)學成像技術(shù)。34影像成像圖35螺旋CT 螺旋CT機是目前世界上最先進的CT設(shè)備之一,其掃描速度快,分辨率高,圖像質(zhì)量優(yōu)。用快速螺旋掃描能在15秒左右檢查完一個部位,能發(fā)現(xiàn)小于幾毫米的病變,如小肝癌、垂體微腺瘤及小動脈瘤等。通

20、過網(wǎng)絡(luò)信息,了解什么是螺旋CT,它有那些特點? 36從超聲成像系統(tǒng)中獲取圖像信息超聲波:是指高于人的聽覺范圍即頻率在20kHz的機械波,醫(yī)學應用中的超聲波是一種縱向壓力波,其頻率一般在1MHz到幾十MHz之間。臨床超聲系統(tǒng):超聲診斷系統(tǒng)即B超(B-scan or B-mode)超聲彩色多普勒血流成像系統(tǒng)(彩超)超聲諧波成像系統(tǒng)超聲計算機體層成像系統(tǒng)37超聲成像基本原理利用超聲波良好的指向性和他的反射、折射、衰減規(guī)律及多普勒效應等物理特性,借助超聲波換能器和各種數(shù)字聲束技術(shù),將設(shè)定工作頻率的超聲波導入被檢測的人體內(nèi),由于超聲波遇到不同組織或器官的界面時,將發(fā)生不同程度的反射和透射,當接受設(shè)備接受

21、到攜帶有相關(guān)信息的回波信號,經(jīng)數(shù)字掃描變換等處理最終形成一幅超聲圖像。38從磁共振成像系統(tǒng)中獲取圖像信息磁共振成像系統(tǒng)MRI(Magnetic Resonance Imaging):是利用人體內(nèi)氫原子核質(zhì)子(1H)在磁場內(nèi)共振的特性,通過不同的掃描脈沖序列形成橫斷面、冠狀面和任意切面的掃描成像。利用人體不同器官的正常組織與病理組織之間在馳豫時間上存在的差異.馳豫過程與馳豫時間:系統(tǒng)通過對處在靜磁場中的人體施加某種特定頻率的射頻脈沖,使人體組織中的氫原子受到激勵而發(fā)生磁共振,當中止后,氫原子核把吸收的能量逐步釋放,其相位和能級都恢復到激發(fā)前的狀態(tài),稱馳豫過程;而恢復到原來平衡狀態(tài)所需的時間稱馳豫

22、時間,經(jīng)過必要的前置放大,再由ADC轉(zhuǎn)換成數(shù)字信號。39從核醫(yī)學成像系統(tǒng)中獲取圖像信息核醫(yī)學(NM: Nuclein Medicine)即原子核醫(yī)學成像, 又稱放射性核素成像RNI(Radioisotope Nuclein Imaging)是通過人體內(nèi)注入能夠發(fā)射伽馬()射線放射性示蹤劑來成像,使帶有放射性核的示蹤原子進入要成像的組織,然后測量放射性核素在人體內(nèi)的分布來成像的一種技術(shù)。放射性核素成像技術(shù)可觀察放射性在人體內(nèi)的狀況與運動變化,反映人體內(nèi)的生理生化過程,能夠反映器官和組織的功能狀態(tài),可顯示動態(tài)圖像。構(gòu)成:由探測器、掃描床和計算機系統(tǒng)組成,在功能上都是通過探測器對光子的獲取,并經(jīng)光電

23、和模數(shù)轉(zhuǎn)換實現(xiàn)對人體圖像的處理。40從核醫(yī)學成像系統(tǒng)中獲取圖像信息(續(xù))分類 :單光子發(fā)射成像(Single Photon Emission Tomography,SPECT),早期診斷惡性腫瘤骨轉(zhuǎn)移的骨骼顯像、診斷心肌缺血的心臟灌注顯像和診斷異位甲狀腺的甲狀腺顯像。正電子發(fā)射成像(Positron Emission Tomography,PET)。對腫瘤的早期診斷、惡性腫瘤的分期和分級、原發(fā)病灶的尋找、放療生物靶區(qū)的定位因為SPECT和PET都是對從病人體內(nèi)發(fā)射的射線成像,所以統(tǒng)稱為ECT。412.5 醫(yī)學知識信息的獲取和利用醫(yī)學知識信息獲取的概念醫(yī)學知識信息的含義韋伯斯特(Webster)

24、詞典:“知識是通過實踐、研究、聯(lián)系或調(diào)查獲得的關(guān)于事物的事實和狀態(tài)的認識,是對科學、藝術(shù)或技術(shù)的理解,是人類獲得的關(guān)于真理和原理的認識的總和?!敝R工程的觀點,知識是人們在生活和工作實踐中所使用的事實、規(guī)則和方法,以及對他們的解釋、轉(zhuǎn)換和使用過程。醫(yī)學知識信息,就是人們對醫(yī)學科學和醫(yī)學實踐規(guī)律性認識的一種醫(yī)學知識的信息表達。42醫(yī)學知識信息的類型按照知識信息的基本形式劃分描述醫(yī)學對象及其屬性的知識、描述醫(yī)學對象之間關(guān)系的知識、描述醫(yī)學對象因果關(guān)系的知識、描述醫(yī)學對象行為、狀態(tài)和過程的知識等按照知識信息的基本功能劃分一階知識,指最基礎(chǔ)的知識,如醫(yī)學事實;二階知識,指關(guān)于事實利用的知識,如醫(yī)學概念

25、;三階知識是指關(guān)于對二階知識使用的知識。43醫(yī)學知識信息獲取的基本任務醫(yī)學知識信息的獲取是構(gòu)造醫(yī)學知識系統(tǒng)的前提和重要步驟。醫(yī)學知識系統(tǒng)就是專門研究醫(yī)學知識的獲取、存儲、表示、轉(zhuǎn)換、分類和利用等問題的應用系統(tǒng)1.知識信息的收集:從知識源中把各種經(jīng)過識別、理解、篩選、歸納、能為所用的信息抽取出來的過程。2.知識信息的表示:知識表示就是知識的機器表示;是一種自然語言的機器表示。知識表示是一種特殊的編碼形式,是將獲取的知識用一種方法構(gòu)造成一個知識模型的過程。44醫(yī)學知識信息獲取的基本任務(續(xù))產(chǎn)生式規(guī)則法ifthen;ifthen(可信度)。案例2.2 由美國斯坦福大學研制的醫(yī)學傳染病輔助診斷MYC

26、IN系統(tǒng),其知識模型就是主要采用了產(chǎn)生式規(guī)則法。下面就是MYCIN系統(tǒng)中的一條規(guī)則:前提:(1)細菌革氏染色陰性,(2)形態(tài)桿狀,(3)生長需氧結(jié)論:該細菌是腸桿菌屬,CF=0.845醫(yī)學知識信息獲取的基本任務(續(xù))案例2.3 下面是某個智能分析診斷系統(tǒng)中的規(guī)則形式,其編碼方法更是一目了然。規(guī)則的一般形式是: 如果:條件(X1)的可信度為(Y1),且 條件(X2)的可信度為(Y2),且 條件(Xn)的可信度為(Yn), 則有:結(jié)論(X),其可信度為(Y)。3. 醫(yī)學知識信息的存儲醫(yī)學知識信息輸入到專門用于存放知識信息的知識庫中保存起來,以便在知識系統(tǒng)的運行推理中使用46醫(yī)學知識信息獲取的方法1

27、知識信息的人工獲取常規(guī)醫(yī)學知識的獲取醫(yī)學領(lǐng)域?qū)<抑R的獲取2.知識信息的自動獲取自動獲取醫(yī)學知識信息是指利用專門的計算機系統(tǒng)獲取相關(guān)知識的方法通過編輯器自動獲取知識通過機器學習方法自動獲取知識機器學習(Machine Learning)就是要構(gòu)建一個知識系統(tǒng),使該系統(tǒng)能夠模擬人類學習的過程和行為,自動地通過學習、歸納,以獲取相關(guān)知識信息并不斷完善自身的性能47決策樹(Decision Tree)決策樹(Decision Tree)系統(tǒng)是通過對訓練示例的學習和訓練最后得到的一個離散新知識的信息系統(tǒng)。ID3算法,悉尼大學J.R.Quinlan1979年提出ID3算法核心思想:通過對給定的訓練示例進

28、行學習,從根節(jié)點開始,自頂向下對每個樹節(jié)點進行劃分成分支節(jié)點,并使其信息熵值不斷減少直至熵為0,即到達葉節(jié)點而生成決策樹。48復習信息熵(P10)香農(nóng)信息熵:計算離散型隨機事件信息量,P10條件熵和聯(lián)合熵:對于信源是兩個離散型隨機事件X和Y,則它們的聯(lián)合信息熵H(X,Y)和條件信息熵H(X|Y)可分別由式(1.3)和(1.4)平均互信息量:表示信號Y所能提供的關(guān)于X的信息量大小 I(X,Y)=H(X)-H(X/Y)49ID3學習算法算法步驟:1)把訓練示例看成是一個集合,并按照示例的某個屬性或劃分目標構(gòu)造一棵樹。如果其信息熵等于0,表明訓練示例不存在不確定性,決策樹就此生成;否則下一步。2)按

29、照劃分目標將集合劃分成若干子集以形成一棵由父節(jié)點和子節(jié)點形成的劃分樹,并標記指向父節(jié)點的指針。3)分別計算各子節(jié)點(樹枝節(jié)點)的信息熵值,若為0,則無需再劃分新的子節(jié)點;若否,則對該節(jié)點繼續(xù)劃分新子節(jié)點。4)重復2)和3)兩步,直到所有樹枝節(jié)點所形成的子集劃分成新的子節(jié)點的信息熵值等于0為止。5)從根節(jié)點開始,沿著指針將決策樹每條樹枝節(jié)點連接起來,最終得到通過學習而形成的新的知識規(guī)則。50ID3學習算法(續(xù))案例2.4 設(shè)某醫(yī)院眼科醫(yī)生在決策患者佩戴隱形眼鏡時已有一定經(jīng)驗,并總結(jié)出了如表2.5所示的決策表。如果將這個決策表作為一個訓練示例集合交給計算機系統(tǒng)用決策樹的方法去學習,那么系統(tǒng)將會獲取

30、什么樣的知識?首先把24個訓練示例當作一個集合S,如果上述決策表完全正確,每個訓練示例都能得到正確和唯一的診斷,這時集合S就沒有不確定性,這就說明了描述S的決策樹和規(guī)則集也就沒有不確定性,其熵值均等于0。本案每種決策的概率分別是:p(1)=4/24,p(2)=5/24,p(3)=15/24診斷集合S的信息熵為:H(S)=1.326bit存在一定的冗余信息, ID3的目的正是要盡量減少這種冗余信息。其方法是采用不斷減少熵值的方法將訓練集合劃分成較小的子集,直至信息熵等于0為止。51ID3學習算法(續(xù))子集劃分: 劃分的原則是通過選擇某個與訓練集合S具有最大互信息的屬性來劃分子集的,因為每一個決策

31、總是與相關(guān),就是說每一個屬性值必然會包含關(guān)于的某些信息。其中互信息I是由(式2.3)決定:只需計算計算屬性A、B、C、D的條件熵即可52ID3學習算法(續(xù))屬性A的決策的條件熵為決策屬性A的頻率如表2.6對于屬性B、C、D的決策的條件熵分別是:H(S|B)= 1.2867(bit),H(S|C)= 0.9491(bit),H(S|D) =0.7773(bit)屬性A、B、C、D與訓練集合S的互信息分別是:0.0394、0.0394、0.3770、 0.5488個比特53ID3學習算法(續(xù))根據(jù)決策屬性D的屬性值將集合S劃分成兩個子集D1和D2。仍需計算兩個子集的信息熵,如果某個子集的信息熵等于0,則該子集無須再進行劃分;否則,則要進一步進行計算所有屬性與該子集的互信息,然后再按選取互信息最大的屬性進行新的子集的劃分。這里的H(D1)=0,說明D1這個子集不需再劃分成新的子集了。但H(D2)為:54ID3學習算法(續(xù))553數(shù)據(jù)庫中的知識發(fā)現(xiàn)什么是數(shù)據(jù)庫中知識發(fā)現(xiàn)知識發(fā)現(xiàn)KDD(Knowledge Discovery

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論