生物信息學(xué)的研究內(nèi)容、方法及意義課件_第1頁
生物信息學(xué)的研究內(nèi)容、方法及意義課件_第2頁
生物信息學(xué)的研究內(nèi)容、方法及意義課件_第3頁
生物信息學(xué)的研究內(nèi)容、方法及意義課件_第4頁
生物信息學(xué)的研究內(nèi)容、方法及意義課件_第5頁
已閱讀5頁,還剩79頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、生物信息學(xué)生物信息學(xué) 說文解字:生物 + 信息 + 學(xué)學(xué) (bioinformatics) biology + information + theory 廣義廣義 應(yīng)用信息科學(xué)的方法和技術(shù),研究生物體系和生物過程中信息的存貯、信息的內(nèi)涵和信息的傳遞,研究和分析生物體細胞、組織、器官的生理、病理、藥理過程中的各種生物信息,或者也可以說成是生命科學(xué)生命科學(xué)中的信息科學(xué)信息科學(xué)。 狹義狹義 應(yīng)用信息科學(xué)信息科學(xué)的理論、方法和技術(shù),管理、分析和利用生物分子生物分子數(shù)據(jù)。 生命信息系統(tǒng)生物所處的時空系統(tǒng) 物質(zhì)系統(tǒng),信息傳遞與控制,能量相關(guān)學(xué)科圖示廣義概念圖示狹義概念圖示總結(jié):生物信息學(xué) 生物信息學(xué)(Bi

2、oinformatics) 是一門新興的交叉學(xué)科,是生命科學(xué)領(lǐng)域中的新興學(xué)科,面對人類基因組計劃等各種項目所產(chǎn)生的龐大的分子生物學(xué)信息,生物信息學(xué)的重要性將越來越突出,它將會為生命科學(xué)的研究帶來革命性的變革。 生物信息學(xué)是在生命科學(xué)的研究中,以計算機為工具對生物信息進行儲存、檢索和分析的科學(xué)。 生物信息學(xué)是當今生命科學(xué)和自然科學(xué)的重大前沿領(lǐng)域之一,同時也將是21世紀自然科學(xué)的核心領(lǐng)域之一,其研究重點主要體現(xiàn)在基因組學(xué)(Genomics)和蛋白組學(xué)(Proteomics) 。 生物學(xué)基礎(chǔ)速遞 細胞(分子水平) 個體生命 生命之樹生命的分子基礎(chǔ) 細胞/分子水平 DNA/RNA 蛋白質(zhì) 糖 脂類 D

3、NA結(jié)構(gòu)和堿基互補原理中心法則生物信息學(xué)的歷史曼哈頓原子彈計劃曼哈頓原子彈計劃阿波羅登月計劃阿波羅登月計劃人類基因組計劃人類基因組計劃6060年代初,美國總統(tǒng)年代初,美國總統(tǒng)KennedyKennedy提出兩個科學(xué)計劃:提出兩個科學(xué)計劃:登月計劃登月計劃攻克腫瘤計劃攻克腫瘤計劃 人類遺傳信息的復(fù)雜性人類遺傳信息的復(fù)雜性人類基因組計劃人類基因組計劃(HGP,Human Genome Project)生命活動三要素:物質(zhì)、能量、信息生命活動三要素:物質(zhì)、能量、信息 DNA: 遺傳物質(zhì)遺傳物質(zhì)(遺傳信息的載體遺傳信息的載體) 雙螺旋結(jié)構(gòu)雙螺旋結(jié)構(gòu) A, C, G, T四種基本字符的復(fù)雜文本四種基本字

4、符的復(fù)雜文本 基因基因(Gene):具有遺傳效應(yīng)的:具有遺傳效應(yīng)的DNA分子片段分子片段 基因組基因組(Genome)(Genome):包含包含細胞或生物體細胞或生物體全套的遺傳信息的全部全套的遺傳信息的全部 遺傳物質(zhì)。遺傳物質(zhì)。原核生物原核生物( (細菌、病毒等細菌、病毒等) ) 真核生物真核生物( (真菌、植物、動物等真菌、植物、動物等) )人類基因組:人類基因組: 3.2109 bp 1984.12 猶他州阿爾塔組織會議,初步研討測定人類整個基 因組DNA序列的意義1985 Dulbecco在Science撰文 “腫瘤研究的轉(zhuǎn)折點:人 類基因組的測序” 美國能源部(DOE)提出“人類基因

5、組計劃”草案1987 美國能源部和國家衛(wèi)生研究院(NIH)聯(lián)合為“人類 基因組計劃”下?lián)軉咏?jīng)費約550萬美元1989 美國成立“國家人類基因組研究中心”,Watson擔任 第一任主任1990.10 經(jīng)美國國會批準,人類基因組計劃正式啟動19951995 第一個自由生物體流感嗜血菌第一個自由生物體流感嗜血菌( (H. infH. inf) )的全基因組測序完成的全基因組測序完成1996 1996 完成人類基因組計劃的遺傳作圖完成人類基因組計劃的遺傳作圖 啟動模式生物基因組計劃啟動模式生物基因組計劃H.inf全基因組全基因組Saccharomyces cerevisiae釀酒酵母釀酒酵母Caen

6、orhabditis elegans秀麗線蟲秀麗線蟲1997 1997 大腸桿菌大腸桿菌( (E.coliE.coli) )全基因組測序完成全基因組測序完成1998 1998 完成人類基因組計劃的物理作圖完成人類基因組計劃的物理作圖 開始人類基因組的大規(guī)模測序開始人類基因組的大規(guī)模測序 CeleraCelera公司加入,與公共領(lǐng)域競爭公司加入,與公共領(lǐng)域競爭 啟動水稻基因組計劃啟動水稻基因組計劃1999.7 1999.7 第第5 5屆國際公共領(lǐng)域人類基因組測序會議,加快測序速度屆國際公共領(lǐng)域人類基因組測序會議,加快測序速度大腸桿菌及其全基因組大腸桿菌及其全基因組水稻基因組計劃水稻基因組計劃19

7、99.7 第5屆國際公共領(lǐng)域人類基因組測序會議,加快測序速度2000 Celera公司宣布完成果蠅基因組測序 國際公共領(lǐng)域宣布完成第一個植物基因組擬南芥全基 因組的測序工作Drosophila melanogaster果蠅果蠅Arabidopsis thaliana擬南芥擬南芥2001年年2月月15日日Nature封面封面2001年年2月月16日日Science封面封面2000.6.26 公共領(lǐng)域和Celera公司同時宣布完成人類基因組工作草圖2001.2.15 Nature刊文發(fā)表國際公共領(lǐng)域結(jié)果2001.2.16 Science刊文發(fā)表Celera公司及其合作者結(jié)果我國對人類基因組計劃的貢

8、獻我國對人類基因組計劃的貢獻6/1-8/31/99NoCenterRegionSize(Mb)Actual KGenbank KrProjected Kr4/1-11/30/99Proj Accum.Mr. 4/99-3/001Sanger Centre1,6,9,10,13,20,22,X85013009414200122WIBR(Clones from Wash U)837296290083Wash U2,3,4,7,11,15,18,Y90086555923007.94JGI5,16,1925068746121006.45Baylor1,2,3,X2304622616603.16Rike

9、n21,18,11q1601361955202.17IMB8,21,X50180321801.58GenoscopeMost of 14851001183001.49U. Wash (Olson)10 Beijing3p3012.512.51000.511 GTC (Smith)105051500.4512 MPIMG17,21,X6.94012400.313 GBF21, reg of 96500.314 Stanford (Davis)8231370.2915 Keio2,6,8,22,213011751100.2316 U. Wash (Hood LAB) 14

10、17Total2671Mb4663Kr2950Kr13687Kr32.64Mr 隨著實驗數(shù)據(jù)和可利用信息急劇增加,信息的管理和隨著實驗數(shù)據(jù)和可利用信息急劇增加,信息的管理和分析成為分析成為HGP的一項重要的工作的一項重要的工作 發(fā)現(xiàn)生物學(xué)發(fā)現(xiàn)生物學(xué)規(guī)律規(guī)律解讀生物解讀生物遺傳密碼遺傳密碼認識生命的本質(zhì)認識生命的本質(zhì)研究基因組數(shù)據(jù)研究基因組數(shù)據(jù)之間的關(guān)系之間的關(guān)系分析現(xiàn)有的分析現(xiàn)有的基因組數(shù)據(jù)基因組數(shù)據(jù)利用數(shù)學(xué)模型利用數(shù)學(xué)模型和計算技術(shù)和計算技術(shù) 各學(xué)科參與、協(xié)作:生命科學(xué)、數(shù)學(xué)、物理學(xué)、化學(xué)、計算機 科學(xué)、材料科學(xué)以及倫理、法律等社會科學(xué) 首要科學(xué)問題首要科學(xué)問題 如何找到記載在基因組DNA一

11、維結(jié)構(gòu)上控制生命時間、空間 的調(diào)控信息的編碼方式和調(diào)節(jié)規(guī)律。 應(yīng)用數(shù)學(xué)、復(fù)雜系統(tǒng)理論、信息論、非線性科學(xué) 催生生物信息學(xué)生物信息學(xué)、計算生物學(xué)計算生物學(xué) 芯片技術(shù)芯片技術(shù) 交叉性技術(shù)領(lǐng)域:物理學(xué)、微電子信息技術(shù)、生化技術(shù)、信 息技術(shù)、自動化、材料科學(xué) 結(jié)構(gòu)生物學(xué)結(jié)構(gòu)生物學(xué) 前沿領(lǐng)域之一:生物物理學(xué)、生物化學(xué)、晶體學(xué)、波譜學(xué)、 光譜學(xué)以及X射線晶體衍射技術(shù)、核磁共振技術(shù)25生物信息學(xué)的發(fā)展歷史生物信息學(xué)的發(fā)展歷史生物信息學(xué)生物信息學(xué)基本思想的產(chǎn)生基本思想的產(chǎn)生 生物信息學(xué)生物信息學(xué) 的迅速發(fā)展的迅速發(fā)展二十世紀二十世紀50年代年代二十世紀二十世紀80-90年代年代生物科學(xué)和生物科學(xué)和技術(shù)的技術(shù)的

12、發(fā)展發(fā)展人類基因組人類基因組計劃的計劃的推動推動 26 2020世紀世紀5050年代,生物信息學(xué)開始孕育年代,生物信息學(xué)開始孕育 2020世紀世紀6060年代,生物分子信息在概念上將計算年代,生物分子信息在概念上將計算 生物學(xué)和計算機科學(xué)聯(lián)系起來生物學(xué)和計算機科學(xué)聯(lián)系起來 2020世紀世紀7070年代,生物信息學(xué)的真正開端年代,生物信息學(xué)的真正開端 2020世紀世紀7070年代到年代到8080年代初期年代初期 ,出現(xiàn)了一系列著,出現(xiàn)了一系列著 名的序列比較方法和生物信息分析方法名的序列比較方法和生物信息分析方法 2020世紀世紀8080年代以后,出現(xiàn)一批生物信息服務(wù)機年代以后,出現(xiàn)一批生物信息

13、服務(wù)機 構(gòu)和生物信息數(shù)據(jù)庫構(gòu)和生物信息數(shù)據(jù)庫 2020世紀世紀9090年代后年代后 ,HGPHGP促進生物信息學(xué)的迅速促進生物信息學(xué)的迅速 發(fā)展發(fā)展27關(guān)于生物信息學(xué)發(fā)展歷程中的重要大事,關(guān)于生物信息學(xué)發(fā)展歷程中的重要大事,請參見下面兩個網(wǎng)站的介紹:請參見下面兩個網(wǎng)站的介紹:/Education/BLASTinfo/milestones.html、/bioinformatics/。生物信息學(xué)的研究內(nèi)容生物信息學(xué)的研究內(nèi)容1、 生物分子數(shù)據(jù)的收集與管理生物分子數(shù)據(jù)的收集與管理2、 數(shù)據(jù)庫搜索及序列比較數(shù)

14、據(jù)庫搜索及序列比較 3、 基因組序列分析基因組序列分析 4、基因表達數(shù)據(jù)的分析與處理、基因表達數(shù)據(jù)的分析與處理 5、蛋白質(zhì)結(jié)構(gòu)與功能預(yù)測、蛋白質(zhì)結(jié)構(gòu)與功能預(yù)測6、基因、基因-蛋白相互作用網(wǎng)絡(luò)蛋白相互作用網(wǎng)絡(luò) 7、整個系統(tǒng)調(diào)控網(wǎng)絡(luò)、整個系統(tǒng)調(diào)控網(wǎng)絡(luò)基因組基因組數(shù)據(jù)庫數(shù)據(jù)庫 蛋白質(zhì)蛋白質(zhì)序列序列數(shù)據(jù)庫數(shù)據(jù)庫 蛋白質(zhì)蛋白質(zhì)結(jié)構(gòu)結(jié)構(gòu)數(shù)據(jù)庫數(shù)據(jù)庫 DDBJEMBLGenBankSWISS-PROT PDBPIR數(shù)據(jù)庫搜索及序列比較數(shù)據(jù)庫搜索及序列比較 搜索同源序列在一定程度上就是通過序列比較搜索同源序列在一定程度上就是通過序列比較尋找相似序列尋找相似序列 序列比較序列比較的一個基本操作就是的一個基本操作

15、就是比對比對(Alignment),即將兩個序列的各個字符),即將兩個序列的各個字符(代表核苷酸或者氨基酸殘基)按照對應(yīng)等同(代表核苷酸或者氨基酸殘基)按照對應(yīng)等同或者置換關(guān)系進行對比排列,其結(jié)果是兩個序或者置換關(guān)系進行對比排列,其結(jié)果是兩個序列共有的排列順序,這是序列相似程度的一種列共有的排列順序,這是序列相似程度的一種定性描述定性描述 多重序列比對多重序列比對研究的是多個序列的共性。序列研究的是多個序列的共性。序列的多重比對可用來搜索基因組序列的功能區(qū)域,的多重比對可用來搜索基因組序列的功能區(qū)域,也可用于研究一組蛋白質(zhì)之間的進化關(guān)系。也可用于研究一組蛋白質(zhì)之間的進化關(guān)系。 基因組序列分析基

16、因組序列分析 遺傳語言分析遺傳語言分析天書天書 基因組結(jié)構(gòu)分析基因組結(jié)構(gòu)分析 基因識別基因識別 基因功能注釋基因功能注釋 基因調(diào)控信息分析基因調(diào)控信息分析 基因組比較基因組比較基因表達數(shù)據(jù)的分析與處理基因表達數(shù)據(jù)的分析與處理 基因表達數(shù)據(jù)分析基因表達數(shù)據(jù)分析是目前生物信息學(xué)研究的熱是目前生物信息學(xué)研究的熱 點和重點點和重點 目前對基因表達數(shù)據(jù)的處理主要是進行目前對基因表達數(shù)據(jù)的處理主要是進行聚類分聚類分 析析,將表達模式相似的基因聚為一類,在此基,將表達模式相似的基因聚為一類,在此基 礎(chǔ)上尋找相關(guān)基因,分析基因的功能礎(chǔ)上尋找相關(guān)基因,分析基因的功能 所用方法所用方法主要有:相關(guān)分析方法、模式識

17、別技主要有:相關(guān)分析方法、模式識別技術(shù)中的層次式聚類方法、人工智能中的自組織術(shù)中的層次式聚類方法、人工智能中的自組織映射神經(jīng)網(wǎng)絡(luò)、主元分析方法映射神經(jīng)網(wǎng)絡(luò)、主元分析方法 等等 表達數(shù)據(jù)表達數(shù)據(jù)缺點缺點:僅反映:僅反映mRNA豐度,噪聲,豐度,噪聲,蛋白質(zhì)結(jié)構(gòu)預(yù)測蛋白質(zhì)結(jié)構(gòu)預(yù)測 蛋白質(zhì)的生物蛋白質(zhì)的生物功能功能由蛋白質(zhì)的由蛋白質(zhì)的結(jié)構(gòu)結(jié)構(gòu)所決定所決定 ,蛋,蛋白質(zhì)結(jié)構(gòu)預(yù)測成為了解蛋白質(zhì)功能的重要途徑白質(zhì)結(jié)構(gòu)預(yù)測成為了解蛋白質(zhì)功能的重要途徑 蛋白質(zhì)結(jié)構(gòu)預(yù)測分為蛋白質(zhì)結(jié)構(gòu)預(yù)測分為: 二級結(jié)構(gòu)預(yù)測二級結(jié)構(gòu)預(yù)測 空間結(jié)構(gòu)預(yù)測空間結(jié)構(gòu)預(yù)測 蛋白質(zhì)折疊蛋白質(zhì)折疊二級結(jié)構(gòu)預(yù)測二級結(jié)構(gòu)預(yù)測 在一定程度上二級結(jié)構(gòu)

18、的預(yù)測可以歸結(jié)為模式識別問題在一定程度上二級結(jié)構(gòu)的預(yù)測可以歸結(jié)為模式識別問題 在二級結(jié)構(gòu)預(yù)測方面主要方法有:在二級結(jié)構(gòu)預(yù)測方面主要方法有: 立體化學(xué)方法立體化學(xué)方法 圖論方法圖論方法 統(tǒng)計方法統(tǒng)計方法 最鄰近決策方法最鄰近決策方法 基于規(guī)則的專家系統(tǒng)方法基于規(guī)則的專家系統(tǒng)方法 分子動力學(xué)方法分子動力學(xué)方法 人工神經(jīng)網(wǎng)絡(luò)方法人工神經(jīng)網(wǎng)絡(luò)方法 預(yù)測準確率超過預(yù)測準確率超過70%的第一個軟件是基于神經(jīng)網(wǎng)絡(luò)的的第一個軟件是基于神經(jīng)網(wǎng)絡(luò)的PHD系統(tǒng)系統(tǒng)空間結(jié)構(gòu)預(yù)測空間結(jié)構(gòu)預(yù)測 在空間結(jié)構(gòu)預(yù)測方面,比較成功的理論在空間結(jié)構(gòu)預(yù)測方面,比較成功的理論方法是方法是同源模型法同源模型法 該方法的依據(jù)是:相似序列的

19、蛋白質(zhì)傾該方法的依據(jù)是:相似序列的蛋白質(zhì)傾向于折疊成相似的三維空間結(jié)構(gòu)向于折疊成相似的三維空間結(jié)構(gòu) 運用同源模型方法可以完成所有蛋白質(zhì)運用同源模型方法可以完成所有蛋白質(zhì)10-30%的空間結(jié)構(gòu)預(yù)測工作的空間結(jié)構(gòu)預(yù)測工作 生物信息學(xué)當前的主要任務(wù)生物信息學(xué)當前的主要任務(wù) 當今生物信息學(xué)界的大當今生物信息學(xué)界的大部分人都把注意力集中在部分人都把注意力集中在基基因組、蛋白質(zhì)組、蛋白質(zhì)結(jié)因組、蛋白質(zhì)組、蛋白質(zhì)結(jié)構(gòu)構(gòu)以及與之相結(jié)合的以及與之相結(jié)合的藥物設(shè)藥物設(shè)計計上,隨蛋白組學(xué)、代謝組上,隨蛋白組學(xué)、代謝組學(xué)進一步的發(fā)展,將在學(xué)進一步的發(fā)展,將在整體整體水平進行水平進行 基因組基因組 新基因的發(fā)現(xiàn)新基因的

20、發(fā)現(xiàn) 通過計算分析從EST(Expressed Sequence Tags)序列庫中拼接出完整的新基因編碼區(qū),也就是通俗所說的“電子克隆電子克隆”;通過計算分析從基因組DNA序列中確定新基因編碼區(qū),經(jīng)過多年的積累,已經(jīng)形成許多分析方法,如根據(jù)編碼區(qū)具有的獨特序列特征、根據(jù)編碼區(qū)與非編碼區(qū)在堿基組成上的差異、根據(jù)高維分布的統(tǒng)計方法、根據(jù)神經(jīng)網(wǎng)絡(luò)方法、根據(jù)分形方法和根據(jù)密碼學(xué)方法等。 非蛋白編碼區(qū)生物學(xué)意義的分析非蛋白編碼區(qū)生物學(xué)意義的分析 非蛋白編碼區(qū)約占人類基因組的95%,其生物學(xué)意義目前尚不是很清楚,但從演化觀點來看,其中必然蘊含著重要的生物學(xué)功能,由于它們并不編碼蛋白,一般認為,它們的生物

21、學(xué)功能可能體現(xiàn)在對基因表達的時空調(diào)控上。 對非蛋白編碼區(qū)進行生物學(xué)意義分析的策略有兩種,一種一種是基于已有的已經(jīng)為實驗證實的所有功能已知的DNA元件的序列特征,預(yù)測非蛋白編碼區(qū)中可能含有的功能已知的DNA元件,從而預(yù)測其可能的生物學(xué)功能,并通過實驗進行驗證;另一種另一種則是通過數(shù)理理論直接探索非蛋白編碼區(qū)的新的未知的序列特征,并從理論上預(yù)測其可能的信息含義,最后同樣通過實驗驗證。 基因組整體功能及其調(diào)節(jié)網(wǎng)絡(luò)的系統(tǒng)把握基因組整體功能及其調(diào)節(jié)網(wǎng)絡(luò)的系統(tǒng)把握 把握生命的本質(zhì),僅僅掌握基因組中部分基因的表達調(diào)控是遠遠不夠的,因為生命現(xiàn)象是基因組中所有功能單元相互作用共同制造出來的?;蛐酒蛐酒夹g(shù)

22、由于可以監(jiān)測基因組在各種時間斷面上的整體轉(zhuǎn)錄表達狀況,因此成為該領(lǐng)域中一項非常重要和關(guān)鍵的實驗技術(shù),對該技術(shù)所產(chǎn)生的大量實驗數(shù)據(jù)進行高效分析,從中獲得基因組運轉(zhuǎn)以及調(diào)控的整體系統(tǒng)的機制或者是網(wǎng)絡(luò)機制,便成了生物信息學(xué)在該領(lǐng)域中首先要解決的問題。 基因組演化與物種演化基因組演化與物種演化 (生命之樹) 盡管已經(jīng)在分子演化方面取得了許多重要的成就,但僅僅依靠某些基因或者分子的演化現(xiàn)象,就想闡明物種整體的演化歷史似乎不太可靠。例如,智人與黑猩猩之間有98%-99%的結(jié)構(gòu)基因和蛋白質(zhì)是相同的,然而表型上卻具有如此巨大的差異,這就不能不使我們聯(lián)想到形形色色千差萬別的建筑樓群,它們的外觀如此不同,但基礎(chǔ)的

23、部件組成卻是幾乎一樣的,差別就在于這些基礎(chǔ)部件的組織方式不同,這就提示我們基因組整體組織方式而不僅僅是個別基因在研究物種演化歷史中的重要作用。由于基因組是物種所有遺傳信息的儲藏庫,從根本上決定著物種個體的發(fā)育和生理,因此,從基因組整從基因組整體結(jié)構(gòu)組織和整體功能調(diào)節(jié)網(wǎng)絡(luò)方面,結(jié)合相應(yīng)的生體結(jié)構(gòu)組織和整體功能調(diào)節(jié)網(wǎng)絡(luò)方面,結(jié)合相應(yīng)的生理表征現(xiàn)象,進行基因組整體的演化研究,將是揭示理表征現(xiàn)象,進行基因組整體的演化研究,將是揭示物種真實演化歷史的最佳途徑。物種真實演化歷史的最佳途徑。 基因組對生命體的整體控制必須通過它所表達的全部蛋白質(zhì)來執(zhí)行,由于基因芯片技術(shù)只能反映從基因組到RNA的轉(zhuǎn)錄水平上的表

24、達情況,由于從RNA到蛋白質(zhì)還有許多中間環(huán)節(jié)的影響,因此僅憑基因芯片技術(shù)我們還不能最終掌握生物功能具體執(zhí)行者蛋白質(zhì)的整體表達狀況; 近幾年在發(fā)展基因芯片的同時,人們也發(fā)展了一套研究基因組所有蛋白質(zhì)產(chǎn)物表達情況蛋白質(zhì)組研究技術(shù),從技術(shù)上來講包括二維凝膠電泳技術(shù)二維凝膠電泳技術(shù)和質(zhì)譜質(zhì)譜測序技術(shù)。通過二維凝膠電泳技術(shù)可以獲得某一時間截面上蛋白質(zhì)組的表達情況,通過質(zhì)譜測序技術(shù)就可以得到所有這些蛋白質(zhì)的序列組成。這些都是技術(shù)實現(xiàn)問題,最重要的就是如何運用生物信息學(xué)理論方法去分析所得到的巨量數(shù)據(jù),從中還原出生命運轉(zhuǎn)和調(diào)控的整體系統(tǒng)的分子機制。 蛋白質(zhì)組蛋白質(zhì)組 基因組和蛋白質(zhì)組研究的迅猛發(fā)展,使許多新蛋

25、白序列涌現(xiàn)出來,然而要想了解它們的功能,只有氨基酸序列是遠遠不夠的,因為蛋白質(zhì)的功能是通過其三維高級結(jié)構(gòu)來執(zhí)行的,而且蛋白質(zhì)三維結(jié)構(gòu)也不蛋白質(zhì)三維結(jié)構(gòu)也不一定是靜態(tài)的,在行使功能的過程一定是靜態(tài)的,在行使功能的過程中其結(jié)構(gòu)也會相應(yīng)的有所改變中其結(jié)構(gòu)也會相應(yīng)的有所改變。因此,得到這些新蛋白的完整、精確和動態(tài)的三維結(jié)構(gòu)就成為擺在我們面前的緊迫任務(wù)。目前除了通過諸如X射線晶體結(jié)構(gòu)分析、多維核磁共振(NMR)波譜分析和電子顯微鏡二維晶體三維重構(gòu)(電子晶體學(xué),EC)等物理方法得到蛋白質(zhì)三維結(jié)構(gòu)蛋白質(zhì)結(jié)構(gòu)蛋白質(zhì)結(jié)構(gòu) 另外一種廣泛使用的方法就是通過計算機輔助預(yù)測的方法,目前,一般認為蛋白質(zhì)的折疊類型只有數(shù)百

26、到數(shù)千種,遠遠小于蛋白質(zhì)所具有的自由度數(shù)目,而且蛋白質(zhì)的折疊類型與其氨基酸序列具有相關(guān)性,這樣就有可能直接從蛋白質(zhì)的氨基酸序列通過計算機輔助方法預(yù)測出蛋白質(zhì)的三維結(jié)構(gòu) 新藥設(shè)計新藥設(shè)計 隨著結(jié)構(gòu)生物學(xué)的發(fā)展,相當數(shù)量的蛋白質(zhì)以及一些核酸、多糖的三維結(jié)構(gòu)獲得精確測定,基于生物大分子結(jié)構(gòu)知識的藥物設(shè)計成為當前的熱點。生物信息學(xué)的研究不僅可提供生物大分子空間結(jié)構(gòu)的信息,還能提供電子結(jié)構(gòu)的信息,如能級、表面電荷分布、分子軌道相互作用等以及動力學(xué)行為的信息,如生物化學(xué)反應(yīng)中的能量變化、電荷轉(zhuǎn)移、構(gòu)象變化等。理論模擬還可研究包括生物分子及其周圍環(huán)境的復(fù)雜體系和生物分子的量子效應(yīng)。結(jié)構(gòu)結(jié)構(gòu) 功能功能 行為行

27、為 但生物信息學(xué)的任務(wù)遠不止于此。在以上工作的基礎(chǔ)上,最重要的是如何運用數(shù)理理論成果對生物體進行完整系統(tǒng)的數(shù)理模型描述,使得人類能夠從一個更加明確的角度和一個更加易于操作的途徑來認識和控制自身以及所有其他的生命體生物信息學(xué)不僅僅是一門科學(xué)學(xué)科,生物信息學(xué)不僅僅是一門科學(xué)學(xué)科, 它更是一種重要的研究開發(fā)工具。它更是一種重要的研究開發(fā)工具。 從科學(xué)的角度來講,它是一門研究生物和生物相關(guān)系統(tǒng)中信息內(nèi)容物和信息流向的綜合系統(tǒng)科學(xué),只有通過生物信息學(xué)的計算處理,我們才能從眾多分散的生物學(xué)觀測數(shù)據(jù)中獲得對生命運行機制的詳細和系統(tǒng)的理解。 從工具的角度來講,它是今后幾乎進行所有生物(醫(yī)藥)研究開發(fā)所必需的舵

28、手和動力機,只有基于生物信息學(xué)通過對大量已有數(shù)據(jù)資料的分析處理所提供的理論指導(dǎo)和分析,我們才能選擇正確的研發(fā)方向,同樣,只有選擇正確的生物信息學(xué)分析方法和手段,我們才能正確處理和評價新的觀測數(shù)據(jù)并得到準確的結(jié)論。生物信息學(xué)的研究意義生物信息學(xué)的研究意義生物信息學(xué)將是生物信息學(xué)將是21世紀生物學(xué)的核心世紀生物學(xué)的核心 認識生物本質(zhì)認識生物本質(zhì) 了解生物分子信息的組織和結(jié)構(gòu),破譯基因了解生物分子信息的組織和結(jié)構(gòu),破譯基因組信息,闡明生物信息之間的關(guān)系組信息,闡明生物信息之間的關(guān)系 改變生物學(xué)的研究方式改變生物學(xué)的研究方式 改變傳統(tǒng)研究方式,引進現(xiàn)代信息學(xué)方法改變傳統(tǒng)研究方式,引進現(xiàn)代信息學(xué)方法 在

29、醫(yī)學(xué)上的重要意義在醫(yī)學(xué)上的重要意義 為疾病的診斷和治療提供依據(jù)為疾病的診斷和治療提供依據(jù) 為設(shè)計新藥提供依據(jù)為設(shè)計新藥提供依據(jù)生物信息學(xué)系統(tǒng)化概圖生物信息學(xué)所用的方法和技術(shù)生物信息學(xué)所用的方法和技術(shù) 1、數(shù)學(xué)統(tǒng)計方法數(shù)學(xué)統(tǒng)計方法 (高維、樣本量的問題高維、樣本量的問題)2、動態(tài)規(guī)劃方法、動態(tài)規(guī)劃方法 3、機器學(xué)習(xí)與模式識別技術(shù)、機器學(xué)習(xí)與模式識別技術(shù) (從數(shù)據(jù)中學(xué)習(xí))(從數(shù)據(jù)中學(xué)習(xí))4、數(shù)據(jù)庫技術(shù)及數(shù)據(jù)挖掘、數(shù)據(jù)庫技術(shù)及數(shù)據(jù)挖掘 5、人工神經(jīng)網(wǎng)絡(luò)技術(shù)、人工神經(jīng)網(wǎng)絡(luò)技術(shù)6、專家系統(tǒng)、專家系統(tǒng) 7、分子模型化技術(shù)、分子模型化技術(shù)8、量子力學(xué)和分子力學(xué)計算、量子力學(xué)和分子力學(xué)計算 9、生物分子的計算

30、機模擬、生物分子的計算機模擬10、因特網(wǎng)(、因特網(wǎng)(Internet)技術(shù))技術(shù)(Grid計算計算) 。目前進展 生物信息學(xué)與系統(tǒng)生物學(xué)(Systems Biology) 還原論 整體論 系統(tǒng)生物學(xué)的4個層次:【?】 系統(tǒng)的結(jié)構(gòu)系統(tǒng)的結(jié)構(gòu) 系統(tǒng)的動力學(xué)系統(tǒng)的動力學(xué) 系統(tǒng)的控制系統(tǒng)的控制 系統(tǒng)的設(shè)計系統(tǒng)的設(shè)計 生物系統(tǒng)的復(fù)雜性!一切從基因組開始 “基因組到生命”(Genomes to Life,GTL)計劃 國內(nèi)外狀況 國外 http:/ 國內(nèi) 北大、清華 上海生物信息中心 華大基因組信息中心(北京 杭州 深圳) 天大生物信息中心 中科院計算所生物信息中心 復(fù)旦理論生物中心 。 炎黃項目中基因與

31、疾病相關(guān)部分將實現(xiàn)以下四個大的目標: 1)選取一個代表中國人,建立覆蓋95%序列以上的全基因組精細圖譜; 2)選取包括漢族、少數(shù)民族、東亞地區(qū)不同國家人群在內(nèi)的100個個體;測序約400個覆蓋度,找到能夠覆蓋所有大于1%的突變的大約100萬個分子標記,建立東亞人種特異性的高密度、高分辨醫(yī)學(xué)遺傳圖譜; 3)利用醫(yī)學(xué)遺傳圖譜,建立包括可用于篩查疾病相關(guān)基因的分子標記集,大規(guī)模篩查中國(東亞)人群特異性疾病。初步選擇高血壓、高血糖、血脂異常、骨質(zhì)疏松四種高發(fā)多基因復(fù)雜疾病,通過疾病和正常個體的比較,識別出疾病表型強關(guān)聯(lián)性遺傳多態(tài)性位點組合,用于這些疾病的預(yù)測; 4)專利疾病關(guān)聯(lián)多態(tài)性位點(約100個

32、),與商業(yè)操作相結(jié)合,擴大樣本量,并結(jié)合個體所處的環(huán)境因素,驗證候選位點,合理進行疾病的預(yù)防和個性化診療; 5)對疾病相關(guān)位點進行功能分析,闡明疾病致病機理,從而加快基因研究成果進入臨床的步伐。 摘自華大深圳研究院網(wǎng)站機遇生物信息學(xué)人才需求 學(xué)校的人才培養(yǎng)(系統(tǒng)化訓(xùn)練) (深圳大學(xué)、大學(xué)城、南方科技大學(xué))公司/企業(yè)微芯生物微芯生物 是國內(nèi)研發(fā)小分子專利創(chuàng)新藥物的標志性企業(yè),其自行構(gòu)建的基于化學(xué)基因組學(xué)的集成式藥物創(chuàng)新與早期評價體系是當今國際新藥研發(fā)的最重要手段之一(2005年被批準成為“深圳市化學(xué)創(chuàng)新藥物工程技術(shù)中心”) 。 醫(yī)療機構(gòu)(北京大學(xué)深圳醫(yī)院)機遇個性化醫(yī)療(疾病的治療是一種藝術(shù))診

33、斷(家族歷史)治療(基因治療)制藥(中藥現(xiàn)代化)機遇芯片技術(shù)產(chǎn)業(yè)芯片技術(shù)產(chǎn)業(yè)與服務(wù) 第一種分類:微陣列芯片和微流控芯片 (第二種分類:主動式芯片與被動式芯片 )微陣列芯片基因芯片蛋白芯片組織芯片 由科技部主辦,清華大學(xué)、中國醫(yī)藥生物技術(shù)協(xié)會、中國醫(yī)藥生物技術(shù)協(xié)會生物芯片分會、中華醫(yī)學(xué)會健康管理學(xué)分會、生物芯片北京國家工程研究中心承辦的“生物芯片在醫(yī)學(xué)和食品安檢中的應(yīng)用大會”于2008年4月21日23日在北京中關(guān)村生命科學(xué)園內(nèi)召開。 會議就生物芯片在腫瘤研究、生殖發(fā)育研究、臨床診斷、個體化醫(yī)療、農(nóng)獸藥殘留檢測、致病微生物檢測和藥物研究及開發(fā)中的應(yīng)用等主題,還舉辦了生物芯片及相關(guān)設(shè)備試劑展覽。 機

34、遇生物數(shù)據(jù)挖掘與服務(wù) 基因篩選基因識別與發(fā)現(xiàn)基因功能預(yù)測蛋白結(jié)合位點預(yù)測蛋白組數(shù)據(jù)分析。挑戰(zhàn) 民間的合作 學(xué)校與學(xué)校 學(xué)校與企業(yè) 深圳、香港、珠三角產(chǎn)學(xué)研合作時刻銘記時刻銘記 實驗永遠起著決定作用實驗永遠起著決定作用 計算計算/理論生物學(xué)的發(fā)展離不開實理論生物學(xué)的發(fā)展離不開實驗生物學(xué)的貢獻驗生物學(xué)的貢獻 實驗生物學(xué)日益依賴計算實驗生物學(xué)日益依賴計算/理論生理論生物學(xué)的指導(dǎo)物學(xué)的指導(dǎo) 重視基礎(chǔ)研究,原創(chuàng)重視基礎(chǔ)研究,原創(chuàng)!2121世紀生命科學(xué)世紀生命科學(xué)理論理論計算計算實驗實驗數(shù)學(xué)與物理科學(xué)數(shù)學(xué)與物理科學(xué) 學(xué)習(xí)和超越 上海生物信息技術(shù)研究中心() 2002年8月,上海市

35、科學(xué)技術(shù)委員會依托中國科學(xué)院上海生命科學(xué)研究院、國家人類基因組南方研究中心、復(fù)旦大學(xué)、上海交通大學(xué)、上海第二醫(yī)科大學(xué)、上海醫(yī)藥工業(yè)研究院和中國科學(xué)院上海有機化學(xué)研究所等單位,整合上海生物信息學(xué)主要研究力量,正式組建了上海生物信息技術(shù)研究中心(以下簡稱“中心”)?!爸行摹弊鳛樯虾J芯幹频淖允兆灾У莫毩⑹聵I(yè)法人單位,是我國第一個以推動我國生物信息學(xué)數(shù)據(jù)共享為目的,完全從事生命科學(xué)數(shù)據(jù)庫建設(shè)、生物信息學(xué)軟件開發(fā)的地方政府支持的獨立事業(yè)法人單位。64生物信息學(xué)生物信息學(xué) 國際著名的生物信息中心國際著名的生物信息中心 NCBI National Center for Biotechnology Info

36、rmation (US) EBI European Bioinformatics Institute (EU) HGMP Human Genome Mapping Project Resource Centre (UK) ExPASy Expert of Protein Analysis System (Switzerland ) CMBI Centre of Molecular and Biomolecule (The Netherlands) ANGIS National Genome Information Service (Australia) NIG National Institu

37、te of Genetics (Japan) BIC National Bioinformatics Centre (Singapore)65分子生物學(xué)網(wǎng)站分子生物學(xué)網(wǎng)站 NCBI: EMBL: ExPASy: http:/www.expasy.ch UCSCUCSC: NIG: http:/www.nig.ac.jp66DNA 數(shù)據(jù)庫:數(shù)據(jù)庫: EMBL :歐洲分子生物學(xué)實驗室(歐洲的分子生物學(xué)實驗室)核酸序列數(shù)據(jù)庫

38、NCBI:美國國家生物技術(shù)情報中心,美國最主要的核酸序列數(shù)據(jù)庫,世界兩大核酸數(shù)據(jù)庫之一。 DDBJ :日本國立遺傳學(xué)研究所(日本國家的學(xué)會 DNA 數(shù)據(jù)庫為數(shù)據(jù)生物學(xué))維護集中。位于日本的核酸序列數(shù)據(jù)庫,為亞洲主要的核酸序列數(shù)據(jù)庫。67蛋白質(zhì)序列數(shù)據(jù)庫:蛋白質(zhì)序列數(shù)據(jù)庫: SWISS-PROT:1987年由日內(nèi)瓦大學(xué)醫(yī)學(xué)生物化學(xué)系和歐洲分子生物學(xué)實驗室共同維護;現(xiàn)在由EMBL分支機構(gòu)EBI維護。 PIR:(Protein Identification Resource)由美國國家生物醫(yī)學(xué)研究基金會所支持,德國馬普學(xué)會慕尼黑蛋白質(zhì)序列信息中心(MIPS)和日本國際蛋白質(zhì)序列數(shù)據(jù)庫(JIPID)共

39、同維護。 TrEMBL:(Translated EMBL, TrEMBL)。是從EMBL中翻譯出來的氨基酸序列。 PDB:(protein databank, PDB)蛋白序列三維立體結(jié)構(gòu)數(shù)據(jù)庫,由美國自然科學(xué)基金會、能源部和國立衛(wèi)生研究院共同投資建設(shè)。68基因組及其它數(shù)據(jù)庫基因組及其它數(shù)據(jù)庫 GDB:人類基因組數(shù)據(jù)庫。支持構(gòu)建人類基因圖譜和測序。其主節(jié)點移至加拿大多倫多兒童醫(yī)院生物信息超級計算中心。 GeneCards:基因及其產(chǎn)物以及生物醫(yī)學(xué)應(yīng)用的文獻庫。以色列魏茨曼科學(xué)研究所維護。 其它其它:UniGene(表達譜信息)、(表達譜信息)、RefSeq 、dbEST、dbSTS、dbSNP

40、、CDD(Conserved Domain Database,蛋白結(jié)構(gòu)域數(shù)據(jù)庫)、OMIM (online mendelian Inheritance in Man):是孟德爾人類遺傳學(xué)():是孟德爾人類遺傳學(xué)(MIM)的持續(xù))的持續(xù)更新的電子版等等。更新的電子版等等。 National Center for Biotecnology Information (NCBI)70NCBINCBI起源和任務(wù)起源和任務(wù) NCBI于1988年11月4日創(chuàng)立,由于參議員Claude Pepper意識到信息計算機化過程方法對指導(dǎo)生物醫(yī)學(xué)研究的重要性,于是提案立法設(shè)立N

41、CBI。其隸屬于NIH的國立醫(yī)學(xué)圖書館(NLM)的一個分支,NLM負責(zé)創(chuàng)立生物信息學(xué)數(shù)據(jù)庫。 NCBI的任務(wù)是發(fā)展新的信息學(xué)技術(shù)以提高對控制健康和疾病的基本分子和遺傳過程的理解。71NCBI的主要作用 建立關(guān)于分子生物學(xué),生物化學(xué)和遺傳學(xué)知識的存儲和分析的自動系統(tǒng) 實行關(guān)于用于分析生物學(xué)重要分子和復(fù)合物的結(jié)構(gòu)和功能的基于計算機的信息處理的先進方法的研究 加速生物技術(shù)研究者和醫(yī)藥治療人員對數(shù)據(jù)庫和軟件的使用。 全世界范圍內(nèi)的生物技術(shù)信息收集的合作努力。72NCBI的維護 NCBI有一個多學(xué)科的研究小組包括計算機科學(xué)家、分子生物學(xué)家、數(shù)學(xué)家、生物化學(xué)家、實驗物理學(xué)家和結(jié)構(gòu)生物學(xué)家,集中于計算分子生

42、物學(xué)的基本的和應(yīng)用的研究。 他們一起用數(shù)學(xué)和計算的方法研究在分子水平上的基本的生物醫(yī)學(xué)問題。這些問題主要包括基因的組織、序列的分析和結(jié)構(gòu)的預(yù)測。73NCBI所含的數(shù)據(jù)庫點擊74NCBI-DatabasesThere are three major public DNA databasesGenBankDDBJEMBLHousedat EBIEuropeanBioinformaticsInstituteHoused at NCBINationalCenter forBiotechnologyInformationHoused in J數(shù)據(jù)庫選擇

43、數(shù)據(jù)庫選擇76NCBI中一些常用的數(shù)據(jù)庫資源PubMed: The biomedical literature (PubMed)Nucleotide: sequence database (GenBank)Protein: sequence databaseStructure: three-dimensional macromolecular structuresGenome: complete genome assembliesSNP: single nucleotide polymorphismsOMIM:online Mendelian Inheritance in Man 77PubMed is 是美國國立醫(yī)學(xué)圖書館(是美國國立醫(yī)學(xué)圖書館(National Library of Medicine, NLM)的國家生物信息中心()的國家生物信息中心(National Center for Biotechnology Information, NCBI)開發(fā))開發(fā)的一個以網(wǎng)絡(luò)為基礎(chǔ)的檢索系統(tǒng),自的一個以網(wǎng)絡(luò)為基礎(chǔ)的檢索系統(tǒng),自1997年免費提年免費提供服務(wù)。供服務(wù)。78PubMed- MEDLINE 1879年編譯年編譯醫(yī)學(xué)索引醫(yī)學(xué)索引Index Medicus,即即 IM 1964開發(fā)開發(fā)醫(yī)學(xué)文獻分析與檢索系統(tǒng)醫(yī)學(xué)文獻分析與檢索系統(tǒng),Medical Literature

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論