生物信息學(xué)(第二版)

上傳人：1*** IP屬地：湖北上傳時間：2024-12-01 格式：DOC 頁數(shù)：6 大小：39KB 積分：4.8 舉報 版權(quán)申訴

已閱讀5頁，還剩1頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

《精要速覽系列-先鋒版生物信息學(xué)（第二版）》D.R.Westhead，J.H.Parish&R.M.Twyman科學(xué)出版社 2004A生物信息學(xué)概述相關(guān)學(xué)習(xí)網(wǎng)站 www.bios.co.uk/inbioinformaticsB數(shù)據(jù)采集DNA,RNA和蛋白質(zhì)測序DNA測序原理DNA中核苷酸的順序是通過鏈?zhǔn)浇K止測序【也稱為脫氧測序（dideoxysequencing）或以發(fā)明人命名的Sanger方法】來確定。DNA序列的類型基因組DNA，是直接從基因組中得到，包括自然狀態(tài)的基因復(fù)制DNA（copyDNA,cDNA），通過反轉(zhuǎn)錄ｍＲＮＡ得到的重組DNA，包括載體序列如質(zhì)粒，修飾過的病毒和在實驗室使用的其他遺傳元件等基因組測序策略散彈法測序（shotgunsequence）包括隨機(jī)DNA片段的生成，通過大量片段測序來覆蓋整個基因組克隆重疊群測序（clonecontig）DNA片段用推理的方法亞克隆，并且進(jìn)行系統(tǒng)的測序直到整個序列完成序列質(zhì)量控制通過在DNA雙鏈上進(jìn)行多次讀取完成高質(zhì)量序列數(shù)據(jù)的測定可使用如Phred等程序?qū)ψ畛醯母檾?shù)據(jù)（tracedata）進(jìn)行堿基識別和質(zhì)量判斷。載體序列和重復(fù)的DNA片段被屏蔽后，使用Phred等程序?qū)⑿蛄衅唇映芍丿B群（contigs），剩下的不一致部分通過人工修飾解決單遍測序低質(zhì)量的序列數(shù)據(jù)可以由單次讀段（read）產(chǎn)生（單遍測序，single-passsequencing）。盡管不很準(zhǔn)確，但單遍測序如ESTs和GSSs，可以低廉的價格快速大量的產(chǎn)生RNA測序因為有大量的小核苷酸（minornucleotide）（化學(xué)改變的核苷）存在于轉(zhuǎn)移RNA（tRNA）和核糖體RNA（rRNA）中，所以RNA測序不能像DNA測序那樣直接進(jìn)行。需要用特殊的方法來識別被改變的核苷，包括生化實驗，核磁共振譜（NRMspectroscopy）和質(zhì)譜（MS）技術(shù)蛋白質(zhì)測序蛋白質(zhì)序列可以通過DNA序列推斷得到，而RNA測序不能提供有關(guān)已改變殘基或其他類型的翻譯后蛋白質(zhì)修飾（比如剪接或二硫鍵的形成）大部分蛋白質(zhì)測序是通過質(zhì)譜（MS）技術(shù)進(jìn)行的基因和蛋白質(zhì)表達(dá)數(shù)據(jù)全局表達(dá)分析RNA水平的分析中有效的方法是從RNA群體或cDNA文庫中，甚至從序列數(shù)據(jù)庫中進(jìn)行序列采樣。一個簡單的方法是從cDNA文庫中隨機(jī)挑選5000個克隆進(jìn)行測序。含量很多的mRNAs在采樣的序列中出現(xiàn)的頻率很高，而含量較少的mRNA出現(xiàn)頻率則較低，通過這些數(shù)據(jù)的統(tǒng)計分析可以確定相對的表達(dá)水平。一個更高級的技術(shù)是基因表達(dá)的連續(xù)分析（serialanalysisofgeneexpreaaion,SAGE）該方法使每個cDNA產(chǎn)生很短的序列標(biāo)簽（通常8~15nt），并在測序前把數(shù)百個標(biāo)簽連接成連環(huán)分子（concatemer）。這樣一個測序反應(yīng)中可搜集到幾百條ｍＲＮＡ的豐富信息。每個SAGE標(biāo)簽可以特異性識別一個特定基因，通過對標(biāo)簽計數(shù)，可以確定每個基因的相對表達(dá)水平。然而，大部分全局RNA表達(dá)數(shù)據(jù)還需從微陣列實驗所測的信號強(qiáng)度中獲取。全局蛋白質(zhì)表達(dá)數(shù)據(jù)主要從雙向聚丙烯酰胺凝膠電泳（two-dimensionalpolyacrylamidegelelectrophoresis,2D）分離，產(chǎn)生點(diǎn)陣的唯一模式（每個點(diǎn)代表一個單獨(dú)的蛋白質(zhì)）。在2D實驗中，蛋白質(zhì)表達(dá)數(shù)據(jù)可以通過每個點(diǎn)的信號強(qiáng)度得到，每個二維凝膠上的蛋白信號必須通過質(zhì)譜（MS）技術(shù)來單個注釋。DNA微陣列一個微陣列有一系列的DNA元件（特征），以格子形式排列在載玻片等微型支撐物上，通過與復(fù)合RNA探針雜交可同時使很多基因的表達(dá)水平可視化。若使用兩個不同的熒光標(biāo)簽的探針，可以在同樣的陣列上直接測定不同樣本的不同基因的表達(dá)。微陣列中主要用到的兩個技術(shù)：機(jī)械點(diǎn)樣DNA微陣列（spottedDNAmicroarray）和寡聚核酸基因芯片(oligonucleotidegenechip)（由美國Affymetrix公司獨(dú)家制造），后者在制造芯片是通過固態(tài)化學(xué)合成把寡聚核苷酸印在芯片上。雙向蛋白質(zhì)凝膠2D-PAG技術(shù)的原理是蛋白質(zhì)可基于兩個不同的特性來分離：等電點(diǎn)（isoelectricpoint）和分子質(zhì)量（molecularmass）。該技術(shù)中，第一方向蛋白沿固相pH梯度(immobilizespHgradient)等電聚焦(isoelectricfocusing)分離；在垂直方向進(jìn)行分子量的分離。在凝膠染色后，染色斑點(diǎn)（spot）的模式可作為樣品中蛋白質(zhì)的可重復(fù)使用的指紋（fringerprint）。通過樣本間比較可以識別不同表達(dá)的蛋白質(zhì)，或被藥物誘導(dǎo)的蛋白質(zhì)等。離體的蛋白質(zhì)斑點(diǎn)（excisedspot）可以通過質(zhì)譜技術(shù)鑒定。蛋白質(zhì)互作數(shù)據(jù)蛋白質(zhì)互作的重要性蛋白質(zhì)-蛋白質(zhì)互作導(dǎo)致瞬時或穩(wěn)定多亞基復(fù)合物（multi-subunitcomplexes）的形成。了解這些復(fù)合物對于注釋蛋白質(zhì)功能是必需，也是解釋信號級聯(lián)和調(diào)控網(wǎng)絡(luò)等分子途徑的一個步驟。死效應(yīng)反映了兩個突變的蛋白質(zhì)遺傳方法抑制子突變體可以通過恢復(fù)被破壞的蛋白質(zhì)互作來補(bǔ)償有害的原始突變體。而合成致死效應(yīng)反映了兩個突變的蛋白質(zhì)不能相互作用，顯性負(fù)突變（dominantnegativemutation）顯示了一種起著多聚復(fù)合體作用的蛋白質(zhì)。親和性方法可通過幾種利用蛋白質(zhì)親和性（特異結(jié)合的傾向）分析的物理方法來為蛋白質(zhì)之間的相互關(guān)系提供直接的證據(jù)，比如親和性管柱層析法，免疫共沉淀。由Ciphergen公司使親和實驗格式更趨微型化，使得在蛋白質(zhì)芯片的發(fā)展中達(dá)到頂峰。分子和原子的方法X射線晶體學(xué)和核磁共振譜有助于在原子水平識別蛋白質(zhì)互作，其它的蛋白質(zhì)互作分析的分子方法包括熒光共振能量傳遞（FRET），表面基元共振譜（SPR）和表面增強(qiáng)激光接吸附/離子化技術(shù)（SELDL），其中的很多方法可通過質(zhì)譜技術(shù)直接集成到蛋白質(zhì)注釋中?；谖膸斓姆椒ɑ谖膸斓牡鞍踪|(zhì)互作實驗有兩個主要優(yōu)點(diǎn)：它是高度并行的實驗格式；候選互作蛋白質(zhì)及其cDNAs之間直接關(guān)聯(lián)。影響最大的方法是酵母雙雜交系統(tǒng)（yeasttwo-hybridsystem，Y2H），在這個系統(tǒng)中蛋白質(zhì)通過識別與之連接的一個功能轉(zhuǎn)錄因子進(jìn)行互作。C數(shù)據(jù)庫--內(nèi)容，結(jié)構(gòu)和注釋已注釋的序列數(shù)據(jù)庫初級序列數(shù)據(jù)庫GenBank（NCBI）、核酸序列數(shù)據(jù)庫（EMBL）和日本的DNA數(shù)據(jù)庫（DDBJ）SWISS-PROT和TrEMBLSWISS-PROT收集了確認(rèn)的蛋白質(zhì)序列及與結(jié)構(gòu)，功能和所屬蛋白質(zhì)家族有關(guān)的注釋信息。相關(guān)數(shù)據(jù)庫TrEMBL翻譯了初級核酸數(shù)據(jù)庫中的編碼序列。其他數(shù)據(jù)庫OMIMOMIM指人類孟德爾遺傳的聯(lián)機(jī)數(shù)據(jù)庫，用于研究人類遺傳學(xué)和人類分子生物學(xué)的強(qiáng)大資源。每個OMIM條目都有一個對特定基因或性狀的已知信息的全文總結(jié)，并有指向初級序列數(shù)據(jù)庫和其它遺傳學(xué)資源的鏈接。Incyte和UniGeneIncyte是商業(yè)數(shù)據(jù)庫，它提供了基因序列和專家注釋的記錄，這是專門為藥物研究開發(fā)服務(wù)的數(shù)據(jù)庫。UniGene是一種用來把GenBank序列聚類并與EST數(shù)據(jù)相關(guān)聯(lián)的實驗工具。結(jié)構(gòu)數(shù)據(jù)庫蛋白質(zhì)數(shù)據(jù)庫（PDB），核酸數(shù)據(jù)庫（NDB），大分子結(jié)構(gòu)數(shù)據(jù)庫（MSD）E通過序列相似性標(biāo)準(zhǔn)搜索序列數(shù)據(jù)庫序列相似性搜索序列聯(lián)配序列聯(lián)配是是相似度量化的第一步，用來區(qū)分偶然性的相似和真實的生物學(xué)關(guān)系。聯(lián)配結(jié)果以變化（突變）、插入或缺失（或空位indel）來顯示序列之間的差異，這些差異可以用進(jìn)化術(shù)語來說明。聯(lián)配算法動態(tài)規(guī)劃算法可以計算兩條之間的最佳聯(lián)配，其中廣泛使用的算法有Smith-Waterman算法（局部聯(lián)配）和Needleman-Wunsch算法（全局聯(lián)配）。聯(lián)配分支和空位罰分用簡單的聯(lián)配分值來測量相同匹配殘基的比例或數(shù)目。得從聯(lián)配分值中扣去空位罰分，以保證聯(lián)配算法能得出有生物學(xué)意義的結(jié)果而沒有太多的空位。數(shù)據(jù)庫搜索：FASTA和BLAST統(tǒng)計分值相似度記分的P值是指獲得至少與兩條無關(guān)序列間的偶然相似性一樣高的分值的概率。低P值表明重要的匹配，這些匹配可能會有真實生物學(xué)意義。相關(guān)的E值（期望值）是至少與所識別的相似性記同樣高分值的偶然事件的期望概率。兩序列見相似度的低P值對應(yīng)于大數(shù)據(jù)庫搜索的高E值。敏感性和特異性敏感性衡量數(shù)據(jù)庫中真實生物序列關(guān)系的比例，該關(guān)系表現(xiàn)為擊中項（有意義的相似序列）。特異性指的是對應(yīng)于真實生物學(xué)關(guān)系的擊中項的比例。改變E和P的默認(rèn)值會導(dǎo)致這些互補(bǔ)的優(yōu)良度測量方法之間的平衡。F多序列聯(lián)配：基因和蛋白質(zhì)家族多序列聯(lián)配和家族關(guān)系多序列聯(lián)配多序列聯(lián)配表明兩條或兩條以上序列之間的關(guān)系，可以解釋關(guān)于蛋白質(zhì)結(jié)構(gòu)和功能的許多線索。當(dāng)所考察的序列不同時，保守的殘基往往是維持穩(wěn)定結(jié)構(gòu)或生物學(xué)功能的關(guān)鍵殘基。漸進(jìn)聯(lián)配漸進(jìn)聯(lián)配方法以兩序列聯(lián)配來初步評價序列是如何相關(guān)的，并在這個基礎(chǔ)上構(gòu)建向?qū)?，然后使用向?qū)渲鸩教砑有蛄械铰?lián)配中，從最密切相關(guān)的序列開始到距離最遠(yuǎn)的序列結(jié)束。蛋白質(zhì)家族和模式數(shù)據(jù)庫蛋白質(zhì)家族把序列分配到蛋白質(zhì)家族中是預(yù)測蛋白質(zhì)功能是非常有價值的方法。多序列聯(lián)配信息的表示方法有很多種，包括聯(lián)配本身、一致序列、保守殘基和殘基模式、序列輪廓以及其他的序列家族的概率模型。這些根據(jù)不同的應(yīng)用都有不同的用途，其中大多數(shù)已經(jīng)被開發(fā)和存儲在數(shù)據(jù)庫中，里面含有大量不同蛋白質(zhì)家族的信息，這樣的數(shù)據(jù)庫稱為二級數(shù)據(jù)庫。一致序列這些序列把多序列聯(lián)配的信息壓縮至單條序列，主要的缺點(diǎn)是除了在特定位置最常見的殘基之外，它們不能表示任何概率信息。一致序列的產(chǎn)生說明了任何蛋白家族的表示都是有偏向的，這主要是由于來源的序列集是有偏向的。PROSITEPROSITE數(shù)據(jù)庫包括與蛋白質(zhì)家族成員、特定蛋白功能及翻譯后修飾有關(guān)的序列模式。PROSITE模式與一致序列的不同在于，它們往往比序列全長要短得多，并且給出了一種描述多序列聯(lián)配中一套可接受的殘基組合的方法。PROSITE模式中已知的假陽性（或假陰性）都已經(jīng)在數(shù)據(jù)庫中注明。PROSITE數(shù)據(jù)庫在某些條目含有序列輪廓，以嘗試描述比模式更長的序列片段（通常指整個結(jié)構(gòu)域）。PRINTS和BLOCKSPRINTS和BLOCKS是密切相關(guān)的，它們分別通過來自一組蛋白或蛋白家族中最高度保守區(qū)域的多序列聯(lián)配無空位片段的形式來表示蛋白質(zhì)家族。蛋白質(zhì)結(jié)構(gòu)域家族結(jié)構(gòu)域家族許多蛋白質(zhì)是由模式結(jié)構(gòu)的結(jié)構(gòu)域組建的，因此蛋白質(zhì)家族的研究其實是對蛋白質(zhì)結(jié)構(gòu)域家族的研究。序列輪廓序列輪廓（也成權(quán)重矩陣）是一種描繪蛋白質(zhì)結(jié)構(gòu)與家族相關(guān)序列的方法，其優(yōu)點(diǎn)是描述了結(jié)構(gòu)域序列的全長，包括觀察到每個氨基酸的可能性，以及序列每個位點(diǎn)插入和缺失的可能性。隱馬爾科夫模型隱馬爾科夫模型（HMMs）是蛋白質(zhì)結(jié)構(gòu)域家族序列的一種嚴(yán)格的統(tǒng)計模型，包括序列的匹配、插入和缺失狀態(tài)，并根據(jù)每種狀態(tài)的概率分布和狀態(tài)間的相互轉(zhuǎn)換來生成蛋白質(zhì)序列。代表某蛋白結(jié)構(gòu)域家族的模型從該家族中生成序列的概率較高，從其他家族中生成序列的概率較低。J微陣列數(shù)據(jù)分析微陣列數(shù)據(jù)：分析方法微陣列原始數(shù)據(jù)微陣列數(shù)據(jù)就是經(jīng)過雜交的陣列的掃描圖像，掃描圖像顯示每一個點(diǎn)的雜交信號強(qiáng)度。這些圖像可通過單通道、雙通道熒光標(biāo)記、同位素標(biāo)記或比色標(biāo)記等方法獲得，其記錄方式各不相同。數(shù)據(jù)質(zhì)量準(zhǔn)確記錄個點(diǎn)的信號強(qiáng)度是微陣列數(shù)據(jù)分析的基本要求，DNA陣列可包含數(shù)千個特征點(diǎn)，因此數(shù)據(jù)的獲取和分析必須自動進(jìn)行。陣列上必須包含對照點(diǎn)以衡量非特異雜交和不同陣列上雜交的多變性?；虮磉_(dá)矩陣從微陣列實驗得到的原始數(shù)據(jù)首先要轉(zhuǎn)換成表，即基因表達(dá)矩陣。表中的各行代表基因，各列代表不同的實驗條件，表中的數(shù)據(jù)為信號強(qiáng)度，代表各個基因的相對表達(dá)水平。表達(dá)數(shù)據(jù)分組基因表達(dá)矩陣中的每一個基因

人人文庫> 全部分類> 教育資料 > 備課教案

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

生物信息學(xué)(第二版)

文檔簡介

溫馨提示

最新文檔

評論

生物信息學(xué)(第二版)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔