【畢業(yè)學(xué)位論文】組織微陣列及其圖片聚類(lèi)分析系統(tǒng)的研究和制作-生物醫(yī)學(xué)工程_第1頁(yè)
【畢業(yè)學(xué)位論文】組織微陣列及其圖片聚類(lèi)分析系統(tǒng)的研究和制作-生物醫(yī)學(xué)工程_第2頁(yè)
【畢業(yè)學(xué)位論文】組織微陣列及其圖片聚類(lèi)分析系統(tǒng)的研究和制作-生物醫(yī)學(xué)工程_第3頁(yè)
【畢業(yè)學(xué)位論文】組織微陣列及其圖片聚類(lèi)分析系統(tǒng)的研究和制作-生物醫(yī)學(xué)工程_第4頁(yè)
【畢業(yè)學(xué)位論文】組織微陣列及其圖片聚類(lèi)分析系統(tǒng)的研究和制作-生物醫(yī)學(xué)工程_第5頁(yè)
已閱讀5頁(yè),還剩61頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

【畢業(yè)學(xué)位論文】組織微陣列及其圖片聚類(lèi)分析系統(tǒng)的研究和制作-生物醫(yī)學(xué)工程.pdf 免費(fèi)下載

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

分類(lèi)號(hào) 密 級(jí) U D C 編 號(hào) 論 文 題 目 組織微陣列及其圖片聚類(lèi)分析 系統(tǒng)的研究和制作 學(xué) 科 、 專(zhuān) 業(yè) 生物醫(yī)學(xué)工程 研 究 生 姓 名 王 飛 指導(dǎo)老師及 專(zhuān)業(yè)技術(shù)職務(wù) 何繼善(教授) 熊平(教授) 中南大學(xué)碩士學(xué)位論文 摘 要 要 聚類(lèi)分析是用數(shù)學(xué)的方法解決大量有 聯(lián)系的事物的分類(lèi)問(wèn)題的學(xué)科,已經(jīng)廣泛應(yīng)用在生物學(xué)、醫(yī)學(xué)、氣象學(xué)、經(jīng)濟(jì)學(xué)、社會(huì)學(xué)等需要做分類(lèi)的很多學(xué)科中, 特別是事物間的關(guān)系較為模糊時(shí)更顯它獨(dú)特的優(yōu)勢(shì)。 被稱(chēng)為生命科學(xué)中一大突破性發(fā)明的組織微陣列因?yàn)槠湫畔⒘康凝嫶?,挖掘有用信息的難度顯得特別大,所以在它誕生近八年的時(shí)間還未得到廣泛的應(yīng)用,甚至還在探討怎么去制作組織微陣列。針對(duì)這些情況,本文對(duì)組織微陣列做了詳細(xì)的論述,分析了它的應(yīng)用范圍, 并總結(jié)出一套詳盡的制作步驟, 這對(duì)它的普及將起著很大的作用。然后將聚類(lèi)分析引入組織微陣列的研究中, 以人們的具體研究目的讓它們進(jìn)行不同的歸類(lèi),使分析簡(jiǎn)單化。最后,又用軟件的形式實(shí)現(xiàn)了組織微陣列圖片聚類(lèi)的各個(gè)步驟,使對(duì)它的分析最大程度的簡(jiǎn)單化,也使得從海量數(shù)據(jù)中提取信息成變得容易。從而,可以將癌癥等疑難病實(shí)現(xiàn)各種統(tǒng)計(jì)學(xué)上的分類(lèi),找出它致病的各種因素所占的權(quán)重,最后實(shí)現(xiàn)對(duì)它的治療及預(yù)防。 關(guān)鍵詞 組織微陣列,組織芯片,生物微陣列,聚類(lèi)分析 中南大學(xué)碩士學(xué)位論文 is a to a of In to of it is in so it is is as a in It of to so a In to MA To in I a up a to a to to MA It At MA a MA we s to or a In to to is an 南大學(xué)碩士學(xué)位論文 目 錄 錄 第一章 緒 論 .言 .織微陣列 .類(lèi)分析 .文背景及主要工作 . 論文背景及研究意義 . 論文的主要工作 .文其他說(shuō)明 .二章 組織微陣列綜述 .念 . 生物芯片技術(shù) . 組織微陣列概念 .內(nèi)外研究概述 .織微陣列的特點(diǎn)及應(yīng)用范圍 . 特點(diǎn) . 應(yīng)用范圍 .織微陣列制作 .章小結(jié) .三章 聚類(lèi)分析研究 .類(lèi)分析概念 .類(lèi)分析的方法 .離 . 明氏距離 . 馬氏距離 . 蘭氏距離 .似系數(shù) .織微陣列圖片的系統(tǒng)聚類(lèi) . 最短距離法 . 最長(zhǎng)距離法及其它 . 聚類(lèi)結(jié)果的比較 .章小結(jié) .四章 程序?qū)崿F(xiàn)探討 .息快速提取模塊 .南大學(xué)碩士學(xué)位論文 目 錄 離陣生成模塊 .陣計(jì)算模塊 .類(lèi)圖生成模塊 .章小結(jié) .五章 總結(jié)與展望 .結(jié) .望 .考文獻(xiàn) . 錄 . 謝 .讀碩士學(xué)位期間主要研究成果 .南大學(xué)碩士學(xué)位論文 第一章 緒 論 1第一章 緒 論 言 “21 世紀(jì)是生命科學(xué)的世紀(jì)” ,隨著科學(xué)技術(shù)的發(fā)展,現(xiàn)代生命科學(xué)幾乎可以和所有的學(xué)科進(jìn)行交叉組成新的學(xué)科,出現(xiàn)了許多新的名詞生物物理學(xué)、生物化學(xué)、數(shù)學(xué)生物學(xué)、生物信息學(xué)、生物醫(yī)學(xué)等等,然后再次交叉,如生物信息物理學(xué)和生物醫(yī)學(xué)影像學(xué)。但從總的研究范圍看,它是同時(shí)向著宏觀和微觀兩邊發(fā)展, 而本文要論述的組織微陣列則是其中一座搭在宏觀生物學(xué)和微觀生物學(xué)之間的橋梁。對(duì)它進(jìn)行深入的研究便顯得意義重大,怎樣進(jìn)行研究卻又是擺在我們面前的一個(gè)難題。 織微陣列 組織微陣列是一個(gè)新鮮名詞, 最早是由 1987年在 了描述9, 直到 1998 年7美國(guó)國(guó)家人類(lèi)基因?qū)嶒?yàn)室 授和他的同事們將它實(shí)現(xiàn),并進(jìn)行了全面報(bào)道。 組織微陣列,顧名思義,就是將很小的組織排成陣列, “微”字更讓我們想象到它小的程度,目前,已經(jīng)有商業(yè)化的組織微陣列產(chǎn)品出現(xiàn),最常見(jiàn)的是把它制成玻片標(biāo)本,就是我們生物學(xué)實(shí)驗(yàn)中用的那種玻片,可是就是這么小小的一張玻片卻容納著 60 多個(gè)組織標(biāo)本,每個(gè)組織直徑僅約為 1 毫米,意為著只將它放在顯微鏡下便可以對(duì) 60 多個(gè)組織樣本進(jìn)行觀察和對(duì)比分析研究,容納的信息量令人驚訝,而更讓人驚訝的是,60 只是一個(gè)很小的數(shù)目,根據(jù)需要,幾百甚至上千也是可以做到的。同時(shí),因?yàn)橹谱鬟^(guò)程中,每個(gè)玻片上的陣列是同條件下生成的,克服了傳統(tǒng)病理學(xué)切片因切片厚度和染色等造成的差異。而且在制作時(shí)組織的取樣是有針對(duì)性的, 能夠做到所取組織定位準(zhǔn)確, 大大減少了無(wú)效組織數(shù)量。應(yīng)用前景廣闊。 組織微陣列一出現(xiàn),很快成為眾多相關(guān)學(xué)者研究的焦點(diǎn)。到了 2001 年,國(guó)內(nèi)相繼有人開(kāi)始對(duì)它進(jìn)行研究,但是不管是國(guó)外還是國(guó)內(nèi),對(duì)它的應(yīng)用仍然很有局限, 受傳統(tǒng)病理學(xué)切片的影響, 它一般是被認(rèn)為高通量化了的病理切片, 所以,大量的文章都是與癌癥25 53(如在某種癌癥的某個(gè)病例上的應(yīng)用)有關(guān),很少人能想著去利用好它的高信息量這個(gè)優(yōu)點(diǎn)去主動(dòng)地挖掘其他信息。究其原因,我認(rèn)為是組織微陣列包含信息太多,選不出合適的方法去把握更多信息。就拿上邊中南大學(xué)碩士學(xué)位論文 第一章 緒 論 2的一張 60 點(diǎn)陣的玻片來(lái)說(shuō),每個(gè)點(diǎn)陣又包含著許多信息,把它放在顯微鏡下一個(gè)一個(gè)的點(diǎn)陣進(jìn)行觀察,還沒(méi)看到一半,最先看的點(diǎn)陣的信息早就忘記了。如果看一個(gè)記錄一個(gè),最后進(jìn)行整理分析,效率又太低了。其實(shí)我們可以根據(jù)需要把它們分類(lèi),讓計(jì)算機(jī)代替我們做一些簡(jiǎn)單卻又繁重的工作,分類(lèi)后再進(jìn)行對(duì)比研究就簡(jiǎn)單的多了。這個(gè)按需要先進(jìn)行分類(lèi)再做分析研究的過(guò)程就是聚類(lèi)分析。 類(lèi)分析 聚類(lèi),簡(jiǎn)單的說(shuō)就是歸類(lèi),是專(zhuān)門(mén)解決龐大信息分類(lèi)問(wèn)題的一種數(shù)學(xué)方法。已經(jīng)廣泛應(yīng)用在生物學(xué)、醫(yī)學(xué)、氣象學(xué)、經(jīng)濟(jì)學(xué)、社會(huì)學(xué)等需要做分類(lèi)的很多學(xué)科中。 聚類(lèi)方法特別多,主要分成以下幾大類(lèi):聚合法、分裂法、調(diào)優(yōu)法、加入法、最優(yōu)分段法、圖論法、預(yù)報(bào)法、變量篩選法等。但是不管什么方法,我們都是要先選擇一個(gè)對(duì)比的標(biāo)準(zhǔn)來(lái)表示各個(gè)樣本或類(lèi)之間的相似程度進(jìn)而對(duì)它們進(jìn)行歸類(lèi),表征這個(gè)標(biāo)準(zhǔn)的量經(jīng)常是“距離” 。這里的距離是廣義的距離,計(jì)算的方法也是多種多樣,根據(jù)樣本性質(zhì),適當(dāng)?shù)倪x取“距離”直接關(guān)系到聚類(lèi)結(jié)果好壞。以聚合法中的一種方法系統(tǒng)聚類(lèi)法為例, 在聚類(lèi)過(guò)程中因距離計(jì)算方法的不同又常分成八種,即最短距離法、最長(zhǎng)距離法、中間距離法、重心法、類(lèi)平均法、可變類(lèi)平均法、 可變法、 離差平方和法, 在每種方法中又可以選取不同的距離表達(dá),如明氏距離、馬氏距離和蘭氏距離等。 文背景及主要工作 文背景及研究意義 作為生命科學(xué)中起著“橋梁”作用的組織微陣列自其誕生已經(jīng)有近 8 個(gè)年頭了,從各類(lèi)相關(guān)文獻(xiàn)看,對(duì)它的研究還可以說(shuō)是剛剛起步。文章主要涉及到三個(gè)方面:概念介紹、制作、應(yīng)用。直到 2004 年在很多核心期刊還有不少專(zhuān)門(mén)對(duì)它進(jìn)行概念介紹的文章62627,名字一般類(lèi)似為一種新的生物芯片、芯片家族的新成員、新興細(xì)胞生物學(xué)技術(shù)或直接就寫(xiě)成組織微陣列等。對(duì)于制作,這是現(xiàn)在文章的主要組成,大量文獻(xiàn)顯示,我們?nèi)栽谔接懺趺慈ブ谱鹘M織微陣列4052,而且這些文章中關(guān)于制作要么就是籠統(tǒng)的介紹一下, 要么就是在某個(gè)工藝上談作者的經(jīng)驗(yàn)。應(yīng)用研究上,始終不能發(fā)揮它高信息量的優(yōu)勢(shì),更為直接的說(shuō),就是對(duì)它研究時(shí),由于工作量大,往往對(duì)微陣列的點(diǎn)陣數(shù)量需求太少,這就是為什么商業(yè)化的微陣列一般只有 60 點(diǎn)陣左右,致使研究產(chǎn)生了很大的局限性28沒(méi)有足中南大學(xué)碩士學(xué)位論文 第一章 緒 論 3夠量的點(diǎn)陣信息怎么能保證研究成果的普遍性呢, 為了讓它真正實(shí)現(xiàn)高信息量的優(yōu)勢(shì),必然需要進(jìn)行合適的歸類(lèi),即后邊介紹的聚類(lèi)分析,經(jīng)過(guò)文獻(xiàn)論證,國(guó)內(nèi)尚無(wú)對(duì)組織微陣列以聚類(lèi)分析的方法進(jìn)行過(guò)系統(tǒng)研究。 如果組織微陣列能夠按照我們的要求容易地實(shí)現(xiàn)分類(lèi), 那將對(duì)組織微陣列以后的統(tǒng)計(jì)學(xué)研究起著巨大的推動(dòng)作用。 文的主要工作 因?yàn)閲?guó)內(nèi)組織微陣列的相關(guān)文章和報(bào)道總的來(lái)說(shuō)還是比較少, 所以本文選題為組織微陣列及其聚類(lèi)分析系統(tǒng)的研究和制作。 文中將對(duì)組織微陣列以綜述的形式,從概念到應(yīng)用,到怎樣制作,作了詳細(xì)的論述。然后針對(duì)它數(shù)據(jù)量大、分析難的問(wèn)題,引入聚類(lèi)分析的方法,主要用一個(gè)例子的實(shí)現(xiàn)來(lái)講述聚類(lèi)過(guò)程,通過(guò)走訪了許多病理學(xué)和血液方面的醫(yī)生,最后以一個(gè)醫(yī)生提出的分類(lèi)依據(jù),以十五張乳腺癌的微陣列照片為例進(jìn)行聚類(lèi)。最后證明分類(lèi)效果良好。論文最后則介紹了怎樣讓計(jì)算機(jī)代替我們從事繁重的聚類(lèi)計(jì)算,即用軟件實(shí)現(xiàn)了各個(gè)模塊。在以后的研究中,不斷獲取更多的可行性分類(lèi)依據(jù)后,逐步將他們?nèi)坑糜?jì)算機(jī)軟件實(shí)現(xiàn),最后整合成一個(gè)自動(dòng)化程度較高,操作簡(jiǎn)單的擁有龐大分析功能的組織微陣列的聚類(lèi)分析系統(tǒng)軟件。 論文各章的內(nèi)容簡(jiǎn)述如下: 第二章主要是通過(guò)大量文獻(xiàn)總結(jié)了組織微陣列的應(yīng)用, 結(jié)合自己的實(shí)際操作和文獻(xiàn)翻閱設(shè)計(jì)了一套組織微陣列制作的步驟, 并指出了各步需要注意的相關(guān)問(wèn)題。 第三章主要對(duì)實(shí)際例子進(jìn)行了完整的聚類(lèi), 證明了從組織形態(tài)上進(jìn)行聚類(lèi)的可行性。 第四章主要講述了怎樣用計(jì)算機(jī)實(shí)現(xiàn)聚類(lèi)中的四個(gè)步驟, 重點(diǎn)實(shí)現(xiàn)了提取數(shù)據(jù)和距離陣的計(jì)算這兩個(gè)涉及到龐大計(jì)算量工作的模塊。 第五章為全文的一個(gè)總結(jié), 談了對(duì)組織微陣列圖片進(jìn)行聚類(lèi)分析的可能性的突破點(diǎn),并指出了以后重點(diǎn)研究的目標(biāo)。 文其他說(shuō)明 由于條件有限,本論文中所有微陣列圖均是我用同一相機(jī)(每圖為 3145728像素點(diǎn)) 、同一顯微鏡下拍攝的不同人的經(jīng)過(guò) 色的乳腺癌微陣列照片,由于缺乏更廣泛的其它組織微陣列圖片,在考慮誤差方面定會(huì)有不周之處,歡迎給出意見(jiàn)和建議。 中南大學(xué)碩士學(xué)位論文 第一章 緒 論 4本論文中附錄 2 中的亮度分布圖是我用 到的,各分段數(shù)據(jù)是手工提取后一一讀取的。距離的計(jì)算則是將數(shù)據(jù)生成 格,然后進(jìn)行函數(shù)編輯計(jì)算出來(lái)的。人工做了聚類(lèi)的矩陣計(jì)算,并在 畫(huà)圖。以上工作費(fèi)了很長(zhǎng)的時(shí)間和精力,為的是盡量找出各步應(yīng)該注意到的情況,以使第四章中編寫(xiě)的各軟件模塊更合理,從而也得到了較為標(biāo)準(zhǔn)的數(shù)據(jù),可以作為驗(yàn)證計(jì)算機(jī)實(shí)現(xiàn)的各模塊效果的標(biāo)準(zhǔn)。 中南大學(xué)碩士學(xué)位論文 第二章 組織微陣列綜述 5第二章 組織微陣列綜述 念 物芯片技術(shù) 組織微陣列也許對(duì)大家還是個(gè)陌生的概念, 所以我在這里先介紹一個(gè)生物醫(yī)學(xué)界內(nèi)炒得很熱的東西,那就是生物芯片,該技術(shù) 20 世紀(jì) 80 年代興起的,它是物理學(xué)、微電子學(xué)和分子生物學(xué)綜合交叉形成的高新技術(shù)12。芯片這個(gè)稱(chēng)呼源于計(jì)算機(jī)芯片的概念,在計(jì)算機(jī)芯片上排列的是密集的電路,類(lèi)比下,生物芯片上則排列的是密集的探針陣列( 。所以在外文文獻(xiàn)中這類(lèi)芯片實(shí)際名字為微陣列( ,也就有了后來(lái)的組織微陣列。 生物芯片,或者叫生物微陣列,是指在面積不大的基片表面 (玻璃、硅片、聚丙烯酰胺凝膠、尼龍膜等 )上有序地排列上可尋址的識(shí) 別分子,使成千上萬(wàn)個(gè)與生命有關(guān)的信息集中在一塊芯片上,在特定條件下與目的分子進(jìn)行結(jié)合或反應(yīng),其反應(yīng)結(jié)果用同位素法、化學(xué)熒光法、化學(xué)發(fā)光法或酶標(biāo)法顯示,然后用精密掃描儀記錄,最后通過(guò)計(jì)算機(jī)計(jì)算軟件分析,綜合成可讀的信息3,達(dá)到對(duì)生物分子、細(xì)胞、組織的高通量檢測(cè)分析4。 目前最常見(jiàn)的生物芯片是基因芯片 ( 和蛋白質(zhì)芯片 ( 。其中以基因芯片發(fā)展最快, 已經(jīng)成功應(yīng)用于雜交測(cè)序、 基因表達(dá)分析、 突變檢測(cè)、多態(tài)性分析、基因分型、藥物篩選、微生物鑒定與檢測(cè)、疾病診斷、毒理學(xué)研究等方面45, 已經(jīng)有了很多商業(yè)化產(chǎn)品。 對(duì)于蛋白質(zhì)芯片, 出現(xiàn)的比較晚,但也取得了一些重大進(jìn)展,如活性保持等。繼它之后,又出現(xiàn)了組織芯片、細(xì)胞芯片、抗體芯片等,這其中,組織芯片,即組織微陣列,它可以一次對(duì) 1000 份以上30的組織樣品同時(shí)進(jìn)行分析研究,從而克服了傳統(tǒng)分析方法的諸多缺陷,因?yàn)槠錈o(wú)比的應(yīng)用前景,一下成為人們研究的焦點(diǎn)。 織微陣列概念 組織微陣列( ,因?yàn)樗巧镄酒囊环N,在中國(guó)很多人又叫它組織芯片, 組織微陣列一般是指將數(shù)十至上千個(gè)小組織整齊地排放在一張載玻片上而制成的組織切片67。 中南大學(xué)碩士學(xué)位論文 第二章 組織微陣列綜述 6圖 片式組織微陣列示意圖 同一套組織微陣列便可對(duì)上百種生物分子標(biāo)記(如抗原, 行分析、檢測(cè),因而倍受組織病理學(xué)家的重視8。作為芯片技術(shù)的新成員,組織微陣列具有經(jīng)濟(jì)、簡(jiǎn)便快捷的特點(diǎn),特別是將分子生物學(xué)和組織形態(tài)學(xué)結(jié)合的優(yōu)勢(shì),滿(mǎn)足基礎(chǔ)研究和臨床研究工作者的需要,具有廣泛的應(yīng)用前景。與傳統(tǒng)組織病理技術(shù)比較,具有信息量大、體積小的特點(diǎn),是傳統(tǒng)技術(shù)的革新6。已經(jīng)在生物學(xué)和醫(yī)學(xué)中有了應(yīng)用,而且取得了很大成績(jī)。在臨床教學(xué)上更顯示了它獨(dú)特的優(yōu)勢(shì)。 內(nèi)外研究概述 組織微陣列,最早是由 1987 年在 過(guò)描述9,而真正實(shí)現(xiàn)并且普及則是美國(guó)國(guó)家人類(lèi)基因?qū)嶒?yàn)室 授和他的同事們?cè)?1998 年7完成的,并進(jìn)行了全面報(bào)道。 因?yàn)閲?guó)內(nèi)較早的文章稱(chēng)它為“組織芯片” ,所以后來(lái)的研究者在發(fā)表文章時(shí)仍把“組織芯片”作為關(guān)鍵詞,本節(jié)也將暫時(shí)用這一名字進(jìn)行文獻(xiàn)檢索。從維普中文科技期刊全文數(shù)據(jù)庫(kù)中鍵入“組織芯片”進(jìn)行搜索,最早的文章是在 2001年發(fā)表的,其中華西醫(yī)學(xué)2 篇, 中國(guó)科學(xué)基金和癌癥各 1 篇,共 4篇,在其中一篇中有文字顯示該文作者于 1999 年便開(kāi)始這一技術(shù)的研究而且設(shè)計(jì)了一種制作組織微陣列的器具并獲國(guó)家專(zhuān)利2。 總的來(lái)說(shuō),在中國(guó),組織微陣列的研究?jī)H算的上剛剛起步。本人在維普中文科技期刊全文數(shù)據(jù)庫(kù)上的檢索情況:2000 年(含)以前文章 0(0)篇,2001 年文章 4(3)篇, 2002 年文章 30(25)篇,2003 年文章 46(38)篇,2004 年文章 71(51)篇,2005 年文章 116(73)篇。如圖 示。以上數(shù)據(jù)中帶括號(hào)的是直接介紹組織微陣列或其應(yīng)用的文章數(shù), 括號(hào)外的數(shù)據(jù)是總的有關(guān)組織微陣列的文章數(shù)。 信息標(biāo)注處 蓋玻片 載玻片 中南大學(xué)碩士學(xué)位論文 第二章 組織微陣列綜述 7043046711160325385173020406080100120140情況,這個(gè)距離有助于克服各指標(biāo)之間量綱的影響,但沒(méi)有考慮指標(biāo)之間的相關(guān)性。 計(jì)算任何兩個(gè)樣品間的距離 其值越小表示兩個(gè)樣品接近程度越大,越大表示兩個(gè)樣品接近程度越小。如 果把任何兩個(gè)樣品的距離都算出來(lái)后,可排成距離陣 D: =2211= 。 D 是一個(gè)實(shí)對(duì)稱(chēng)陣,所以只須計(jì)算上三角形部分或下三角形部分即可。根據(jù) D 可對(duì) n 個(gè)點(diǎn)進(jìn)行分類(lèi),距離近的點(diǎn)歸為一類(lèi),距離遠(yuǎn)的點(diǎn)歸為不同的類(lèi)。 以上三種距離的定義是適用于間隔尺度變量的,其實(shí),明氏距離在大多情況下會(huì)簡(jiǎn)單而且有效,有的時(shí)候,我們可以對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,以克服量綱等的影響。標(biāo)準(zhǔn)化的方法有兩個(gè): ( 1) 標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化 i1, 2, , n; j1, 2, , m ( 其中 =1這樣一來(lái),每個(gè)變量的子樣標(biāo)準(zhǔn)差都化為 1 了,標(biāo)準(zhǔn)化的數(shù)據(jù) x與變量的量綱沒(méi)關(guān)系了。 ( 2) 極差標(biāo)準(zhǔn)化 i1, 2, , n; j1, 2, , m ( 其中 =11里的每個(gè)變量的子樣極差都化為 1 了, x就與變量的量綱無(wú)中南大學(xué)碩士學(xué)位論文 第三章 聚類(lèi)分析研究 22關(guān)了。 似系數(shù) 相似系數(shù)就是描述變量間相似 程度的量。設(shè)有變量 有以下要求: (1)1 () Xia 為常數(shù),且 a0; (2)1 一切 i,j; (3)i,j。 接近 1,說(shuō)明它們相互關(guān)系越密切;如果接近 0,說(shuō)明它們關(guān)系很疏遠(yuǎn)。 常用的相關(guān)系數(shù)10有: 1. 夾角余弦 忽略變量各個(gè)絕對(duì)長(zhǎng)度,單從形狀上判斷相似性。如兩個(gè)正方形,雖然大小不一,但仍認(rèn)為一樣。定義為向量( ,( ,間的夾角余弦: )(12121= 2. 相關(guān)系數(shù) 是標(biāo)準(zhǔn)化了的夾角余弦。 =)()(( 3. 指數(shù)相似系數(shù) =(43221( 顯然 1,只有當(dāng) k1,2,m)時(shí),即相等時(shí),它才為 1。 中南大學(xué)碩士學(xué)位論文 第三章 聚類(lèi)分析研究 234. 非參數(shù)方法 令=, (i1,2,n; j1,2,m) =0x 00x 1)(若若記 =+=(=(即+n 為與符號(hào)相同的個(gè)數(shù),n 為與符號(hào)相異的個(gè)數(shù)。則有相似系數(shù): += 顯然 1。 若 1, 必有+n 0 或n 0,這時(shí)說(shuō)明兩個(gè)樣本的變化趨勢(shì)完全一致或完全相反;若 0, 必有+n n , 表明兩者的變化沒(méi)有必然的聯(lián)系。 5. 當(dāng) 負(fù)時(shí)常用以下相似系數(shù) =, =+=21), 中南大學(xué)碩士學(xué)位論文 第三章 聚類(lèi)分析研究 24= 除此之外還有很多類(lèi)型的相似系數(shù),如聯(lián)列系數(shù)、連關(guān)系數(shù)、點(diǎn)相關(guān)系數(shù)、四分相關(guān)系數(shù)、改進(jìn)的夾角余弦等,這里暫不詳細(xì)介紹。在實(shí)際問(wèn)題中,去有針對(duì)性地選擇最有效,最簡(jiǎn)單的即可。 織微陣列圖片的系統(tǒng)聚類(lèi) 系統(tǒng)聚類(lèi)(,是將很多樣本一層一層歸類(lèi),直到最后歸成一個(gè)類(lèi)。假設(shè)有 n 張組織微陣列圖片,現(xiàn)在要做系統(tǒng)聚類(lèi),步驟如下: 1. 開(kāi)始聚類(lèi)前,每張圖片自成一類(lèi),即有 n 個(gè)類(lèi); 2. 根據(jù)實(shí)際要求,選出合適的量,算出這 n 個(gè)類(lèi)兩兩間的距離,找出距離最?。醋钕嗨疲┑膬蓚€(gè)類(lèi),把它們合并,組成一個(gè)新類(lèi),這時(shí)就剩下 類(lèi)了; 3. 由上步得到的新類(lèi)按照某個(gè)(后邊詳細(xì)介 紹)規(guī)律確定對(duì)應(yīng)的量,確定它與其余各類(lèi)的距離,重復(fù)步驟 2,再次找出距離最小的類(lèi)合并,以此循環(huán),直到把它們最后歸成一類(lèi)為止。 從以上步驟中可以看出,系統(tǒng)聚類(lèi)無(wú)非是一個(gè)類(lèi)與類(lèi)的距離計(jì)算問(wèn)題。類(lèi)與類(lèi)之間用不同的方法定義距離,就產(chǎn)生了不同的系統(tǒng)聚類(lèi)方法。常用的系統(tǒng)聚類(lèi)方法有八種,即最短距離法、最長(zhǎng)距離法、中間距離法、重心法、類(lèi)平均法、可變類(lèi)平均法、可變法、離差平方和法。下邊將以不同距離的計(jì)算方法討論組織微陣列的系統(tǒng)聚類(lèi)。 短距離法 本章第三節(jié)的距離介紹中,以微陣列亮度圖像各段情況為例,算出了兩種表示下的歐氏距離,也看出了直接用像素量計(jì)算出來(lái)的歐氏距離太大,在后邊的成圖中將會(huì)很不便。本節(jié)中的舉例將繼續(xù)以表 模式,將各樣本假設(shè)為 13 維空間中的點(diǎn),以對(duì)應(yīng)段的像素百分比值為各維數(shù)值,算出它們間的歐氏距離(為了表格簡(jiǎn)潔,小數(shù)均保留兩位) ,再做系統(tǒng)聚類(lèi)。這里不用考慮量綱,數(shù)值上也不太大,根據(jù)前邊的分析,可以用歐氏距離。 本次再任意取出 13 張微陣列圖片,連同前邊的兩張共 15 張,進(jìn)行聚類(lèi)。原中南大學(xué)碩士學(xué)位論文 第三章 聚類(lèi)分析研究 25圖及對(duì)應(yīng)亮度分布圖詳見(jiàn)附錄 1 和附錄 2。 表 度分段百分比例表 分段 圖像 0505170 7190 91110 111120 121130 131140 141150 151160 161170 171180 181190 191225 總計(jì)1 80 0 100 5 100 7 100 8 50 0 0 0 0 0 0 0 00 12 0 00 13 0 00 中南大學(xué)碩士學(xué)位論文 第三章 聚類(lèi)分析研究 2614 0 0 00 15 0 8 100 完成圖像的數(shù)據(jù)提取以后,計(jì)算它們間的距離(以歐氏距離為例) ??偣彩?5 個(gè)樣本,每?jī)蓚€(gè)樣本間都有一個(gè)距離,這樣共有 105214152)1(=,不含自己和自己的距離(為 0) 。計(jì)算結(jié)果見(jiàn)表 表 氏距離表 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1 0 2 3 4 5 6 60 7 00 8 7 0 9 10 11 中南大學(xué)碩士學(xué)位論文 第三章 聚類(lèi)分析研究 2712 13 14 15 3 為方便后邊的計(jì)算和標(biāo)注,首先定義幾個(gè)概念:設(shè)樣本 類(lèi) =, 時(shí),也就是等于類(lèi) 這個(gè)距離進(jìn)行系統(tǒng)聚類(lèi),就是最短距離法。 按照本節(jié)開(kāi)始時(shí)提供的系統(tǒng)聚類(lèi)的一般步驟對(duì)此 15 個(gè)樣本用最短距離法進(jìn)行聚類(lèi)如下: 1. 將樣品各成一類(lèi),即有 15 個(gè)類(lèi),樣本間的距離見(jiàn)表 時(shí); 2. 將表 做一個(gè)矩陣,設(shè)為 D( 0),找出類(lèi)與類(lèi)(非對(duì)角元素)間的最小距離, 即 6的距離 將它們合并構(gòu)成第16個(gè)類(lèi) 有 6,記為 3. 帶入公式 新類(lèi) ,=( =, (設(shè) 在這個(gè)例子中,用最長(zhǎng)距離法好些。 章小結(jié) 本章指出了組織微陣列因數(shù)據(jù)量過(guò)于龐大,造成很多分析不便,對(duì)它做聚類(lèi)顯得尤為重要,隨后論述了對(duì)它做聚類(lèi)分析的可行性。本章中的例子是針對(duì)一個(gè)醫(yī)生的要求,對(duì)一些微陣列圖片所做的聚類(lèi),但根據(jù)論文編寫(xiě)期間進(jìn)一步的對(duì)組織微陣列的認(rèn)識(shí), 我個(gè)人認(rèn)為這個(gè)例子只是證明了對(duì)微陣列圖片在組織形態(tài)分布上可以進(jìn)行聚類(lèi),而且聚類(lèi)效果也很好,只是用途值得考慮,當(dāng)然了,它可以應(yīng)用在臨床教學(xué)上增強(qiáng)學(xué)生對(duì)各類(lèi)相似病理圖片的區(qū)分能力。 在組織微陣列和病理切片的制備中有個(gè)很重要的過(guò)程就是染色,如把細(xì)胞核染成藍(lán)色,而細(xì)胞核明顯變大或核仁(染色后與細(xì)胞核顏色也有明顯區(qū)別)增多又是癌癥的一些反映,我們何不在這個(gè)重點(diǎn)的區(qū)域內(nèi)提取出一些合適的條件對(duì)微陣列進(jìn)行聚類(lèi)呢?其次,每種病理論上都有它的病因,并且很多病又與性別、年齡、工作、地域等條件相關(guān),比如癌癥,它的致病原因至今還是人類(lèi)醫(yī)學(xué)上的一個(gè)迷,我們也可以把各種相關(guān)條件作為微陣列聚類(lèi)的條件進(jìn)行聚類(lèi)研究,以掌握各種因素在致癌中的權(quán)重,為以后預(yù)防和攻克癌癥打下基礎(chǔ)。由于各種條件的限制,這只能作為我以后繼續(xù)研究的內(nèi)容。 中南大學(xué)碩士學(xué)位論 第四章 程序?qū)崿F(xiàn)探討 35第四章 程序?qū)崿F(xiàn)探討 在前章的論述中,我們可以看到,除了在提取組織微陣列圖像信息如各段亮度分布等方面不得不用到計(jì)算機(jī)外,聚類(lèi)中還有大量的計(jì)算工作,如果用人工去計(jì)算,單對(duì)計(jì)算已提取亮度分布(或其它分布)信息的兩幅微陣列圖的歐氏距離就得花上半天的時(shí)間,更別說(shuō)將幾十張、幾千張這樣的圖像按照不同的要求進(jìn)行聚類(lèi)了。本章重點(diǎn)將探討在組織微陣列聚類(lèi)分析研究中,讓計(jì)算機(jī)代替人做繁重計(jì)算的一些模塊的實(shí)現(xiàn)問(wèn)題。 息快速提取模塊 這里主要是針對(duì)組織微陣列圖像中的組織形態(tài)分布特征的, 即從圖像的亮度和 布的直方圖里邊分段提取數(shù)據(jù)。 本模塊的實(shí)現(xiàn)以附錄 1 中的圖 13 為例介紹。 實(shí)現(xiàn)上主要分成以下三個(gè)步驟: 1. 圖象讀取 程序的實(shí)現(xiàn)和讀取形式和其他軟件一樣。 2. 四種直方圖的生成 選擇合適的分段提取各段數(shù)據(jù),因?yàn)椴痪鶆蚍侄坞y度很高,在第三章的例子中,查看了很多幅圖的柱狀圖以后才作出“ 13”段的分布,然而,在后邊其他圖像信息的提取中卻發(fā)現(xiàn)這個(gè)分類(lèi)還是漏掉了很多重要的信息。 所以在軟件的編寫(xiě)時(shí),特意先將它實(shí)現(xiàn)為均勻分段,即可以選擇分 2、 4、 8、 16、 32、 64、 128、256 段的八種情況。當(dāng)然了,為了照顧某些特殊需要,在柱狀圖中設(shè)置了可以自由選擇分段(分鼠標(biāo)拖動(dòng)和直接填寫(xiě)分段數(shù)字兩種)來(lái)讀取該段數(shù)據(jù)的功能。 圖 取直方圖 中南大學(xué)碩士學(xué)位論 第四章 程序?qū)崿F(xiàn)探討 36圖 13 的直方

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論