基因芯片數(shù)據(jù)薈萃—膠質(zhì)瘤預(yù)后分析本科畢業(yè)論文_第1頁
基因芯片數(shù)據(jù)薈萃—膠質(zhì)瘤預(yù)后分析本科畢業(yè)論文_第2頁
基因芯片數(shù)據(jù)薈萃—膠質(zhì)瘤預(yù)后分析本科畢業(yè)論文_第3頁
基因芯片數(shù)據(jù)薈萃—膠質(zhì)瘤預(yù)后分析本科畢業(yè)論文_第4頁
基因芯片數(shù)據(jù)薈萃—膠質(zhì)瘤預(yù)后分析本科畢業(yè)論文_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、單位代碼:10226 學(xué)號:2009156007本科畢業(yè)論文題目 基因芯片數(shù)據(jù)薈萃膠質(zhì)瘤預(yù)后分析 所在學(xué)院 生物信息科學(xué)與技術(shù)學(xué)院 專業(yè) 生物技術(shù) 學(xué)生姓名 指導(dǎo)教師 二一四年六月哈爾濱醫(yī)科大學(xué)本科畢業(yè)論文聲明本人鄭重聲明: 所呈交的畢業(yè)論文,是本人在指導(dǎo)教師的指導(dǎo)下進行研究工作所取得的成果,實驗數(shù)據(jù)與結(jié)果真實可靠。除文中已經(jīng)注明引用的內(nèi)容外,本文不含任何其他個人或集體已經(jīng)發(fā)表或撰寫過的研究成果。對本文研究做出重要貢獻的個人和集體,均已在文中以明確方式標明。本聲明的法律結(jié)果由本人承擔。論文作者簽名: 日 期: 年 月 日哈爾濱醫(yī)科大學(xué)本科畢業(yè)論文版權(quán)使用授權(quán)說明本人完全了解學(xué)校關(guān)于收集、保存和

2、使用本科畢業(yè)論文的規(guī)定,即:1、按照學(xué)校要求提交本科畢業(yè)論文的印刷本和電子版本;2、學(xué)校有權(quán)保存本科畢業(yè)論文論文的印刷本和電子版,可以將本論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進行檢索,并提供目錄檢索、借閱及查閱服務(wù);3、學(xué)??梢圆捎糜坝?、縮印、數(shù)字化或其它復(fù)制手段保存論文;4、本科畢業(yè)論文研究成果的責(zé)任作者或通訊作者為本人的指導(dǎo)教師,作者署名單位為哈爾濱醫(yī)科大學(xué);5、保密的論文在解密后遵守此規(guī)定。目 錄中文摘要1abstract21、文獻綜述41.1 膠質(zhì)瘤41.2 相關(guān)數(shù)據(jù)庫簡介41.2.1 geo數(shù)據(jù)庫41.2.2 kegg數(shù)據(jù)庫51.3 臨床預(yù)后簡介51.3.1 生存分析簡介61.4 目前

3、國內(nèi)外研究現(xiàn)狀61.5 課題研究目的及意義62、材料與方法82.1 實驗數(shù)據(jù)82.1.1 獲得膠質(zhì)瘤芯片表達數(shù)據(jù)82.1.2 膠質(zhì)瘤通路數(shù)據(jù)82.2 實驗方法82.2.1 技術(shù)路線82.2.2 數(shù)據(jù)預(yù)處理92.2.3 多平臺基因芯片數(shù)據(jù)整合92.2.4 鑒定風(fēng)險通路102.2.5 生存分析103、結(jié) 果123.1 膠質(zhì)瘤基因芯片整合數(shù)據(jù)123.2 膠質(zhì)瘤的kegg通路圖123.3 meta分析143.4 生存分析144、討 論175、結(jié) 論186、致 謝197、參考文獻20 中文摘要大量的基因組數(shù)據(jù)特別是微陣列數(shù)據(jù)都可以通過各種網(wǎng)絡(luò)資源獲得,例如從the gene expression omn

4、ibus (geo)中獲得?,F(xiàn)存的這些基因表達數(shù)據(jù)庫的數(shù)據(jù)庫接口,表達數(shù)據(jù)存儲方式和臨床meta數(shù)據(jù)注釋等方面在格式上都存在不相容的問題,而且從不同的數(shù)據(jù)庫得到的數(shù)據(jù)的注釋也會有不一致的情況。這些缺陷導(dǎo)致尋找疾病預(yù)后基因時存在很大的困難。原發(fā)性腦腫瘤中預(yù)后效果最差的就是腦膠質(zhì)瘤,其預(yù)后與生物學(xué)特征、生長發(fā)生部位、手術(shù)方式等醫(yī)療手段有關(guān),因為膠質(zhì)瘤具有浸潤生長的特征,對神經(jīng)組織破壞較大,手術(shù)難以完全切除,絕大多數(shù)膠質(zhì)瘤在手術(shù)和放化療后復(fù)發(fā)概率仍較大。膠質(zhì)瘤分為4個等級:i、ii、iii、iv。低等級的膠質(zhì)瘤是高度分化的,患者也往往具有比較良好的預(yù)后效果;高等級的膠質(zhì)瘤則預(yù)后效果較差。基于此,利用

5、經(jīng)過整合了的膠質(zhì)瘤的基因芯片表達數(shù)據(jù)作meta分析,這些數(shù)據(jù)都以統(tǒng)一的標準化來處理,并被映射到了hgnc的gene symbol上;繼而利用r軟件來進行meta分析;最后利用cox比例風(fēng)險回歸模型來尋找疾病預(yù)后的biomarker。本研究的一個重要的應(yīng)用就是利用多個獨立的研究來檢驗之前作為假設(shè)提出的膠質(zhì)瘤的預(yù)后基因,利用meta分析能對同一個課題的多項研究結(jié)果的一致性進行歸納概括,對同一課題的多項研究結(jié)果作系統(tǒng)性評價和總結(jié),meta分析能夠提高統(tǒng)計效能和效應(yīng)值估計的精確度。關(guān)鍵詞:生存分析;生物標記;meta分析;預(yù)后;膠質(zhì)瘤meta-analysis and survival analysi

6、s of the gene expression of gliomaabstracta wealth of genomic data, in particular microarray data, is publicly available through diverse online resources. major database of gene chip expression data, e.g. array express and the gene expression omnibus (geo).however, inconsistent formatting among data

7、base interfaces, expression data storage and clinical meta-data annotations present formidable obstacles to making efficient use of these resources. the database provides machine-rather than manually annotated data, resulting in reduced consistency of annotation across studies. these defects may cau

8、se great problems when we are searching for the disease biomarker. glioma is a primary brain tumor which has the worst prognosis of tumor, its prognosis is related with biological characteristics, growth related parts, operation mode and many other treatment measures, because of glioma with infiltra

9、tive growth characteristics, damaging the nervous system , difficult to complete excision operation, the vast majority of glioma after operation and chemotherapy will probably recur . glioma is divided into 4 grades: i, ii, iii, iv. low grade gliomas are highly differentiated, sufferers often have a

10、 relatively well prognosis; high grade gliomas usually have poor prognosis. based on that, i utilize 7 sets of data of the expression of the glioma gene chip to do meta-analysis. and gene expression data were collected from public databases and author websites, processed in a consistent manner and m

11、apped uniformly to official human gene nomenclature committee (hgnc) gene symbols. and then we execute the meta analysis using r software. finally, using cox proportional hazards regression model to the prognosis of the disease biomarker.an important application of my research is the use of multiple

12、 independent study to test the hypothesis before as glioma prognosis of biomarker, analysis of consistency can result a number of studies on the same topic was evaluated using meta, the results of several studies on the same topic for system evaluation and summary, meta analysis statistical efficien

13、cy and effect value estimation accuracy.key words: survival analysis; biomarker; meta-analysis; prognosis; glioma1、文獻綜述1.1 膠質(zhì)瘤膠質(zhì)瘤(glioma)是發(fā)生發(fā)展于神經(jīng)外胚層的腫瘤,故又稱神經(jīng)上皮腫瘤。大多數(shù)腫瘤起源于不同類型的神經(jīng)膠質(zhì),但按照組織發(fā)生學(xué)來源及生物學(xué)特性的相似,對發(fā)生于神經(jīng)外胚層的各種腫瘤,一般都稱為神經(jīng)膠質(zhì)瘤。病因多是因為驚嚇或大怒,或衰哭煩悶,使氣血運行受阻,抵抗力下降,病邪借此乘虛而入,發(fā)為癌瘤。癥狀主要有兩方面的表現(xiàn):一是顱內(nèi)壓增高以及一些其它癥狀,

14、如視力減退、復(fù)視、頭痛、嘔吐、癲癇發(fā)作和精神癥狀等。另一是腦組織受腫瘤的壓迫、浸潤、破壞所產(chǎn)生的局部癥狀,造成神經(jīng)功能缺失。 1.2 相關(guān)數(shù)據(jù)庫簡介 1.2.1 geo數(shù)據(jù)庫 geo (gene expression omnibus)數(shù)據(jù)庫ncbi(national center for biotechnology information)旗下的旨在支持基因表達數(shù)據(jù)公共使用和散布來自microarray,雜交膜(hybridization membrane),高密度的寡核苷酸微陣列(had)以及sage等很多其它類型的基因表達數(shù)據(jù)都被納入,登記和存檔。geo數(shù)據(jù)庫是高通量的基因表達數(shù)據(jù)庫,數(shù)據(jù)

15、庫里面包含高通量實驗數(shù)據(jù)的各種分類,有以單,雙通道微陣列為基礎(chǔ),對mrna豐度的進行測定;蛋白質(zhì)分子和基因組dna的實驗數(shù)據(jù),迄今為止,geo數(shù)據(jù)庫包括的數(shù)據(jù)已經(jīng)涵蓋了10000個來自雜交實驗以及30多種不同生物個體的sage庫。 geo數(shù)據(jù)庫包含四個基本實體:提交者(submitter),平臺(platform),系列(series)和樣本(sample),這四個實體都可以保存到獨立的相關(guān)數(shù)據(jù)庫中,獲得號前三個字母分別為“gpl”gsm”gse”。這三個都是靠提交者維護的;另外geo數(shù)據(jù)庫尚有一個作為輔助的數(shù)據(jù)分析工具,他能夠把提交者所提交的樣本綜合整理到geo數(shù)據(jù)集組(geo datase

16、ts,縮寫為gds),gds數(shù)據(jù)是由geo自身維護的,gds數(shù)據(jù)比gse數(shù)據(jù)更標準,并且數(shù)據(jù)具有生物學(xué)意義且在統(tǒng)計學(xué)上能夠相互比較。 1.2.2 kegg數(shù)據(jù)庫 kegg(kyoto encyclopedia of genes and genomes)是一個人工收集的關(guān)于基因組(genomes)、生物通路(biological pathways)、疾?。╠iseases)、藥物(drugs)和化學(xué)物質(zhì)( chemical substance)的數(shù)據(jù)庫。 kegg一般用于生物信息學(xué)研究和教育用途。kegg項目啟動于 2005年,當時在人類基因組計劃中工作的日本京都大學(xué)化工研究所(institut

17、e for chemical research, kyoto university)的minoru kanehisa教授意識到現(xiàn)在需要一種能夠幫助人類解釋基因組序列數(shù)據(jù)的計算機資源,于是他就開始和設(shè)計了kegg通路數(shù)據(jù)庫,當時的 kegg還只能夠為細胞和生物體的代謝繪制包含分子互作和分子之間的化學(xué)反應(yīng)的通路圖,設(shè)計的初衷是將一個通路內(nèi)的基因和基因產(chǎn)物(主要是蛋白質(zhì))連接起來。但是卻直接產(chǎn)生了一種叫做 kegg pathway mapping的分析,這類分析通過對比基因的序列與 kegg pathway數(shù)據(jù)庫做比較來注釋該段序列的功用。用 kegg數(shù)據(jù)庫的開發(fā)者來說“ kegg是計算機化的生物系

18、統(tǒng)”,它能將圖和塊一起來構(gòu)成一個生物系統(tǒng)。具體的說遺傳學(xué)上的塊是基因和蛋白質(zhì),化學(xué)的塊是小分子,至于圖則是這些塊之間的互作形成的網(wǎng)絡(luò)。這種觀念直到現(xiàn)在也在影響 kegg所有的數(shù)據(jù)庫:系統(tǒng)、基因組、化學(xué)和健康信息。1.3 臨床預(yù)后簡介預(yù)后是指憑據(jù)經(jīng)驗預(yù)測出疾病的可能病程和最終結(jié)局。它既包含判斷疾病的某種特定結(jié)果(例如病愈,復(fù)發(fā)以及死亡等),也包含了時間因素(例如預(yù)測特定時間內(nèi)的出現(xiàn)某種結(jié)局的可能性的大小等)。1.3.1 生存分析簡介生存分析是將事件的結(jié)果以及出現(xiàn)該結(jié)果所要經(jīng)歷的時間聯(lián)合起來分析的一種統(tǒng)計分析方法。由于生存分析方法可以分析包括截尾數(shù)據(jù)的事件,因此更充分的利用了信息。cox 比例風(fēng)險

19、回歸分析是生存分析中的一種半?yún)?shù)分析方法,同時也是一種多因素分析方法,它可以同時分析多個獨立因素對生存時間的影響。 1.4 目前國內(nèi)外研究現(xiàn)狀利用常規(guī)的治療方法來治療惡性膠質(zhì)瘤的效果還比較差,而近幾年在膠質(zhì)瘤的基因治療方面研究獲得了一定進展,當今膠質(zhì)瘤基因治療的分子手段主要包含調(diào)節(jié)細胞周期法 louis d, ohgaki h, wiestler o, cavenee w (2007) who classification of tumours of the central nervous system. iarc, lyon、自殺基因療法 lin y, jiang t, zhou k, xu

20、 l, chen b, li g, qiu x, jiang t, zhang w, song sw (2009) plasma igfbp-2 levels predict clinical outcomes of patients with high-grade gliomas. neuro oncol 11:476、免疫基因療法、抗血管生成的治療法、pkr途徑等,基因轉(zhuǎn)運體系包含逆轉(zhuǎn)錄病毒 jung cs, foerch c, schanzer a, heck a, plate kh, seifert v, steinmetz h, raabe a, sitzer m (2007) se

21、rum gfap is a diagnostic marker for glioblastoma multiforme. brain 130:33363341、腺病毒、腺相關(guān)病毒等病毒載體,對病毒的改造則主要是通過增加載體的靶向性和可控性 quan n, herkenham m (2002) connecting cytokines and brain: a review of current issues. histol histopathol 17:273288,此外還有一種新型載體是溶瘤病毒和非病毒載體 muller l, pawelec g (2003) cytokines and a

22、ntitumor immunity. technol cancer res treat 2:183194,而目前治療效果最好的是結(jié)合基因治療與傳統(tǒng)化療、放療。隨著基因組測序數(shù)據(jù)的快速增長,產(chǎn)生了大量的生物數(shù)據(jù),同時這些數(shù)據(jù)也隱藏了很多的生物學(xué)知識,利用生物信息學(xué)可以對這些數(shù)據(jù)進行分析,處理等,可以挖開這些生物數(shù)據(jù)的內(nèi)涵,進而指導(dǎo)臨床對膠質(zhì)瘤的治療,預(yù)后。1.5 課題研究目的及意義隨著大量的高通量表達數(shù)據(jù)的迅猛發(fā)展,出現(xiàn)了越來越多的基因表達數(shù)據(jù)庫,我們應(yīng)該充分利用這些數(shù)據(jù)來挖掘出隱藏在里面的信息。我查閱了大量的文獻并在geo和arrayexpress上下載了大量的數(shù)據(jù),剔除不符合研究條件的數(shù)據(jù),

23、共保留了7套膠質(zhì)瘤的芯片數(shù)據(jù) zeh hj, winikoff s, landsittel dp, gorelik e, marrangoni am, velikokhatnaya l, winans mt, lee k, moser a, bartlett d, lotze mt, siegfried jm, whitcomb d, papacristou g, slivka a, bigbee wl, lokshin ae (2005) multianalyte profiling of serum cytokines for detection of pancreatic cancer.

24、 cancer biomark 1:259269。通過利用meta分析來對這些獨立研究的結(jié)果進行匯總綜合,并把基因芯片表達數(shù)據(jù)同生物通路結(jié)合起來,來查找膠質(zhì)瘤的風(fēng)險通路,并使用單變量的cox比例風(fēng)險回歸分析根據(jù)膠質(zhì)瘤病人的生存信息來尋找膠質(zhì)瘤的預(yù)后基因,進而提高預(yù)后準確率,可以為臨床上提供一個指導(dǎo)意見,輔助膠質(zhì)瘤臨床診斷與治療。 2、材料與方法2.1 實驗數(shù)據(jù)2.1.1 獲得膠質(zhì)瘤芯片表達數(shù)據(jù)本課題以膠質(zhì)瘤為研究對象。檢索時間截至2013年11月。數(shù)據(jù)主要來自于基因表達公共數(shù)據(jù)庫:geo。檢索策略是在pubmed和geo等數(shù)據(jù)庫檢索符合納入標準的相關(guān)研究文獻和數(shù)據(jù),所用的關(guān)鍵詞是“glioma

25、”and“microarray”“survival”,并經(jīng)過手工檢索,剔除了不包含生存時間的數(shù)據(jù),以及沒有截尾狀態(tài)的數(shù)據(jù)經(jīng)刪選后一共保留了7套數(shù)據(jù),gse編號分別是gse427-gpl96 sica d, rayman p, stanley j, edinger m, tubbs rr, klein e, bukowski r, finke jh (1993) interleukin 7 enhances the proliferation and effector function of tumor-infiltrating lymphocytes from renal-cell carci

26、noma. int j cancer 53:941947,gse4271-gpl97 narazaki m, yasukawa k, saito t, ohsugi y, fukui h, koishihara y, yancopoulos gd, taga t, kishimoto t (1993) soluble forms of the interleukin-6 signal-transducing receptor component gp130 in human serum possessing a potential to inhibit signals through memb

27、rane-anchored gp130. blood 82:11201126,gse4412-gpl96 weiergraber o, hemmann u, kuster a, muller-newen g, schneider j, rose-john s, kurschat p, brakenhoff jp, hart mh, stabel s et al (1995) soluble human interleukin-6 receptor. expression in insect cells, purification and characterization. eurj bioch

28、em 234:661669.,gse4412-gpl97 narazaki m, yasukawa k, saito t, ohsugi y, fukui h, koishihara y, yancopoulos gd, taga t, kishimoto t (1993) soluble forms of the interleukin-6 signal-transducing receptor component gp130 in human serum possessing a potential to inhibit signals through membrane-anchored

29、gp130. blood 82:11201126,gse43114 rabe b, chalaris a, may u, waetzig gh, seegert d, williams as, jones sa, rose-john s, scheller j (2008) transgenic blockade of interleukin 6 transsignaling abrogates inflammation. blood 111:10211028,gse43115 schmitz j, owyang a, oldham e, song y, murphy e, mcclanaha

30、n tk, zurawski g, moshrefi m, qin j, li x, gorman dm, bazan jf, kastelein ra (2005) il-33, an interleukin-1-like cytokine that signals via the il-1 receptor-related protein st2,gse43116 ohgaki h, dessen p, jourde b, horstmann s, nishikawa t, di patre pl, burkhard c, schuler d, probst-hensch nm, maio

31、rka pc, et al: genetic pathways to glioblastoma: a population-based study. cancer res 2004, 64:68926899.,gse43353 verhaak rg, hoadley ka, purdom e, wang v, qi y, wilkerson md, miller cr,ding l, golub t, mesirov jp, et al: integrated genomic analysis identifies clinically relevant subtypes of gliobla

32、stoma characterized by abnormalities in pdgfra, idh1, egfr, and nf1. cancer cell 2010, 17:98110.,gse43388-gpl570 ketolainen jm, alarmo el, tuominen vj, kallioniemi a: parallel inhibition of cell growth and induction of cell migration and invasion in breast cancer cells by bone morphogenetic protein

33、4. breast cancer res treat 2010, 124:377386.和gse43388-gpl14951 zhou z, sun l, wang y, wu z, geng j, miu w, pu y, you y, yang z, liu n:bone morphogenetic protein 4 inhibits cell proliferation and inducesapoptosis in glioma stem cells. cancer biother radiopharm 2011, 26:7783.;每一套數(shù)據(jù)里面都包含生存時間。樣本量足夠大可以使實

34、驗結(jié)果更具有統(tǒng)計學(xué)意義。2.1.2 膠質(zhì)瘤通路數(shù)據(jù)從kegg(kyoto encyclopedia of genes and genomes)數(shù)據(jù)庫可以查看到膠質(zhì)母細胞瘤(glioma)的通路信息,檢索時輸入glioma和survival,可以看到我們想要的最符合我們要求的一個通路map05214。為了獲得通路上的基因,使用了一個名為org.hs.eg.db liu b, tian d, yi w, wu l, cai q, dong h, shen h, ji b, wang l, zhang s,et al: effect of bone morphogenetic protein 4 i

35、n the human brain glioma cell line u251. cell biochem biophys 2010, 58:9196.的r包,使用org.hs.eg.db這個r包可以提取出map05214這個通路上的基因。2.2 實驗方法2.2.1 技術(shù)路線我們采用篩選出來的7套芯片數(shù)據(jù)進行數(shù)據(jù)預(yù)處理,并利用geo數(shù)據(jù)庫找到了芯片數(shù)據(jù)上探針id對應(yīng)的基因symbol,進而得到基因和樣本的對應(yīng)關(guān)系。然后利用編寫的r程序取這7套芯片數(shù)據(jù)中共有的基因symbol,一共提取出4275個共有基因。最終得到的7個文件,其中每個文件的每一行是一個基因,每一列是一個樣本,矩陣數(shù)值表示該基因在

36、該樣本中的表達值;然后提取出表達數(shù)據(jù)中的生存時間(survival time)的數(shù)據(jù)和截尾狀態(tài)(censor status)的數(shù)據(jù),進而利用生存分析方法中的半?yún)?shù)方法cox比例風(fēng)險回歸分析來對生存數(shù)據(jù)和表達數(shù)據(jù)做生存分析,此步分別做了全套數(shù)據(jù)的生存分析和樣本量充分的單套數(shù)據(jù)的生存分析。2.2.2 數(shù)據(jù)預(yù)處理下載的基因芯片表達數(shù)據(jù)里面行是探針id,列是樣本的gsm編號,我們要根據(jù)geo數(shù)據(jù)庫里面的平臺注釋信息將探針id對應(yīng)的gene symbol找到,并進而得到行是gene symbol,列是樣本gsm編號的文件。發(fā)現(xiàn)文件里的表達值差別很大,小的數(shù)值是幾十,大的達到了上萬,所以又對數(shù)據(jù)取了以2為

37、底的對數(shù)轉(zhuǎn)換,轉(zhuǎn)換后發(fā)現(xiàn)表達值沒有那么大的差別了,但是發(fā)現(xiàn)有重復(fù)探針集并進而按照取平均值進行合并。2.2.3 多平臺基因芯片數(shù)據(jù)整合 要做meta分析,首先我們做的是膠質(zhì)瘤的生存時間的meta分析,r里面有一個r包可以完成這個工作,這個r包就是rankprod。rankprod這個r包可以做affymetrix芯片和cdna芯片的差異表達基因的鑒別;此外這個包里一個高級用處就是可以用來檢驗經(jīng)過藥物治療后上調(diào)和下調(diào)表達的基因。rankprod這個r包吸引人的一點就是他可以把從不同來源獲得到的數(shù)據(jù)集整合到一個分析中去,這樣可以提高統(tǒng)計檢驗的效能(power),這一點正是符合meta分析的思想。首先

38、安裝rankprod這個包,在r中分別輸入source(/bioclite.r和bioclite(rankprod);然后加載rankprod包library(rankprod),這樣就可以使用rankprod這個包里的函數(shù)了。我的數(shù)據(jù)是一個類別(one class data)的數(shù)據(jù),建立一個長度為n的向量,這里的n代表的是樣本的個數(shù),由于數(shù)據(jù)是一個類別的所以向量里面存放的是n個1;而且數(shù)據(jù)是來自不同的實驗的也就是多個來源(multiple origins)的,建立一個origin向量,向量里面的元素值是從1取到l,其中l(wèi)是數(shù)據(jù)來源的數(shù)目,由于我們的

39、是7套數(shù)據(jù),所以這里l等于7。利用rankprod這個包對膠質(zhì)瘤數(shù)據(jù)做meta分析時,主要用到了2個函數(shù)rpadvance()和topgene()。2.2.4 鑒定風(fēng)險通路通過kegg數(shù)據(jù)庫輸入關(guān)鍵詞glioma和survival得到符合要求的map05214這個通路,通過r里面的org.hs.eg.db這個包提取出通路上的基因和meta分析分析出來的上下調(diào)基因,我們可以找到風(fēng)險通路,可以進一步cox比例風(fēng)險回歸分析。 2.2.5 生存分析為了從我提取到的4275個基因中挖掘預(yù)后基因,我們采用了cox比例風(fēng)險回歸模型 fernandez-rozadilla c, palles c, carva

40、jal-carmona l, peterlongo p, nici c,veneroni s, pinheiro m, teixeira mr, moreno v, lamas mj, et al: bmp2/bmp4 colorectal cancer susceptibility loci in northern and southern european populations. carcinogenesis 2013, 34:3148.。每個基因作為一個協(xié)變量,每個樣本的生存時間作為因變量,所以一共有4275個協(xié)變量。對所有協(xié)變量做4275元的cox比例風(fēng)險回歸分析,每個協(xié)變量得到一個

41、概率值,這個概率值表示該協(xié)變量對樣本生存時間的影響是否顯著,取閾值為0.0001(如果閾值取0.01或0.001則挖掘出來的預(yù)后基因過多,沒有起到很好的篩選作用),其值小于該閾值的被認為是預(yù)后基因,大于該閾值的被認為是對生存時間的影響是統(tǒng)計學(xué)不顯著的。為了對每個樣本給予一個打分值,該分值代表該樣本的風(fēng)險值或風(fēng)險得分(risk score),構(gòu)建一個預(yù)后模型,利用該模型對篩選出來的預(yù)后基因的表達進行加權(quán)求和,并將求出來的結(jié)果作為每個樣本的風(fēng)險得分,風(fēng)險得分值則是通過cox比例風(fēng)險回歸分析得到的(對上一步篩選出來的預(yù)后基因做cox比例風(fēng)險回歸分析可以得到回歸系數(shù),利用回歸系數(shù)對表達值來加權(quán))獲取每

42、個樣本的風(fēng)險得分值(risk score)之后,欲進行生存分析還需將之前得到的樣本的連續(xù)的樣本風(fēng)險得分離散化(這里根據(jù)樣本風(fēng)險得分的大小進行了二分類化)。綜合考慮設(shè)定一個得分閾值,大于該閾值的樣本類別記為高風(fēng)險得分樣本(high risk score),而小于該閾值的樣本類別記為低風(fēng)險得分樣本(low risk score)為了確定這個閾值,我們采用時間依賴的受試者工作特征曲線(time-dependent receiver operating characteristic(roc)curve) gravendeel la, kouwenhoven mc, gevaert o, de rooi

43、 jj, stubbs ap, duijm je, daemen a, bleeker fe, bralten lb, kloosterhof nk, et al: intrinsic gene expression profiles of gliomas are a better predictor of survival than histology. cancer res 2009, 69:90659072.來得到樣本類別最適的二分類閾值,可以通過survivalroc這個r軟件包來進行此步驟。并進而可以利用乘積極限法來估計存活率,使用kaplan-meier來估計和繪制生存曲線,利用l

44、og rank檢驗來比較多組生存曲線的差別。生存分析這一步共利用不同的數(shù)據(jù)做了兩次生存分析:第一次是整套數(shù)據(jù)的生存分析;第二次是第一套大樣本數(shù)據(jù)(合并表1中g(shù)se4271的兩個不同平臺的樣本)做生存分析。 3、結(jié) 果 3.1 膠質(zhì)瘤基因芯片整合數(shù)據(jù)主要通過geo這個數(shù)據(jù)庫獲得膠質(zhì)瘤芯片數(shù)據(jù)和生存數(shù)據(jù),檢索日期截止2013年11月,經(jīng)過手動的篩選排除了不符合要求的數(shù)據(jù)一共得到了7套膠質(zhì)瘤生存時間的數(shù)據(jù),表1 表1.已獲得帶有生存數(shù)據(jù)的數(shù)據(jù)集列表 table 1picked data sets have survival data、data setplatformsamplesgse4271.gp

45、l96hg-u133a100gse4271.gpl97hg-u133b100gse4412.gpl96hg-u133a85gse4412.gpl97hg-u133b85gse43114hg-u133_plus_26gse43115hg-u133_plus_27gse43116hg-u133_plus_22gse43353illumina2gse43388.gpl570hg-u133_plus_215gse43388.gpl14951illumina2 3.2 膠質(zhì)瘤的kegg通路圖在kegg數(shù)據(jù)庫的kegg pathway中得到可以得到膠質(zhì)瘤相關(guān)基因的通路,圖1 圖1膠質(zhì)瘤的kegg通路 fi

46、gure 1 the kegg pathway of glioma 表2 通路上的基因 table 2 the genes in the pathway表2中列出來的是利用org.hs.eg.db這個r包從kegg pathway這個數(shù)據(jù)庫的map05214通路上提取出來的基因的entrez id3.3 meta分析利用r里面的rankprod soroceanu l, murase r, limbad c, singer el, allison j, et al. (2012) id-1 is akey transcriptional regulator of glioblastoma ag

47、gressiveness and a novel therapeutic target. cancer res.包對之前獲得的關(guān)于膠質(zhì)母細胞瘤芯片表達數(shù)據(jù)通過meta分析進行整合,共獲得4275個基因,如圖2 圖2 整合的基因(圖中只是一部分) figure 2 integrated genes(partly not all)通過編寫r程序整合了多套表達數(shù)據(jù)里的基因,增加結(jié)果的可信度,使結(jié)果更具說服力。3.4 生存分析將從geo獲得7套膠質(zhì)瘤相關(guān)的4275個基因合并到一起通過cox比例風(fēng)險回歸分析(p0.0001)得到了70個基因作為預(yù)后基因,利用這70個預(yù)后基因做多元cox比例風(fēng)險回歸分析可

48、以得到每個基因的權(quán)值,通過權(quán)值和基因在樣本中的表達值可以得到每個樣本的風(fēng)險得分。利用survivalroc這個包里面的生存時間依賴的受試者工作特征曲線分析來得到最佳的二分類閾值(optimal cutoff)。我的optimal cutoff=3.35,大于該閾值的記為高風(fēng)險得分樣本,小于該閾值的記為低風(fēng)險得分樣本。這樣,358個樣本就分為125個低風(fēng)險得分的樣本和233個高風(fēng)險得分樣本。進行l(wèi)og-rank檢驗得到的p值 1.91e-10,說明兩組曲線差異非常顯著,結(jié)果具有統(tǒng)計學(xué)意義,圖2:圖3 整套樣本的生存曲線 figure 3 survival curves of all sets s

49、amples接下來為了證明利用整套數(shù)據(jù)做的生存分析的效果,我們又單獨做了gse4271數(shù)據(jù)的生存分析曲線,見圖4:圖4 gse4271樣本的生存曲線 figure 4 survival curve of gse4271圖4是通過整合gse4271的兩個不同平臺的數(shù)據(jù)得出來的生存曲線圖,由圖中可以看到gse4271兩個不同平臺的數(shù)據(jù)整合后低風(fēng)險樣本有104個,高風(fēng)險樣本有50個,低風(fēng)險樣本的平均生存時間顯著的高于高風(fēng)險樣本的生存時間。4、討 論本研究中,我們從geo數(shù)據(jù)庫獲得的4275個基因經(jīng)過cox比例風(fēng)險回歸分析后篩選出了70個預(yù)后基因。由4275個基因降到70個預(yù)后基因,不僅降低了研究的復(fù)雜程度而且也保留了大部分的重要的信息。隨著大量的高通量表達數(shù)據(jù)的迅猛發(fā)展,出現(xiàn)了越來越多的基因表達數(shù)據(jù)庫,我們應(yīng)該充分利用這些數(shù)據(jù)來挖掘出隱藏在里面的信息。近年來對meta分析的研究越來越多,其結(jié)果也并不統(tǒng)一,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論