




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、生物信息學(xué),核酸序列的一般分析,主講教師:王 莉,主要內(nèi)容:,一、基因組DNA簡(jiǎn)介 二、序列格式轉(zhuǎn)化 三、DNA序列分析 四、序列翻譯、ORF查找 五、限制性內(nèi)切酶分析 六、引物設(shè)計(jì) 七、RNA二級(jí)結(jié)構(gòu)分析,一、基因組DNA簡(jiǎn)介 遺傳信息存貯在4種字符組成的核酸序列中 “天書(shū)”用遺傳語(yǔ)言書(shū)寫(xiě)的人類遺傳藍(lán)本 包含的信息量巨大 更重要的是目前人類對(duì)它了解甚少 天書(shū)中只有4個(gè)字符(堿基A、T、G、C) 既沒(méi)有段落,也沒(méi)有標(biāo)點(diǎn)符號(hào) 是一個(gè)長(zhǎng)度為3109的一維序列。,科學(xué)家對(duì)這本天書(shū)了解最多的部分就是遺傳密碼 或者說(shuō)掌握了DNA對(duì)蛋白質(zhì)編碼的規(guī)律 關(guān)于密碼子 (1)密碼子的使用是非隨機(jī)的 如果密碼子的第
2、一、第二位堿基是A、U, 那么第三位將盡可能使用G、C;反之亦然。 如果三位都用G、C,則配對(duì)容易,分解難; 三位都用A、U,則相反。 一般地說(shuō),高表達(dá)的基因,要求翻譯速度快, 要求密碼子和反密碼子配對(duì)快、分開(kāi)也快。,(2)密碼子的使用有一定的統(tǒng)計(jì)規(guī)律 對(duì)同義密碼子的使用存在著偏愛(ài) 不同種屬偏愛(ài)的密碼子不同 人類基因組: 密碼子第三位取A、U的情況占90% 而第三位取G、C僅占10%,密碼子的使用偏性與基因功能、蛋白質(zhì)結(jié)構(gòu)相關(guān),(3)密碼子中的密碼 三個(gè)堿基的位置與所編碼的氨基酸性質(zhì)存在著聯(lián)系 例如: 芳香族氨基酸以U作為第一位堿基 中間位置堿基的性質(zhì)與氨基酸是親疏水性相關(guān) 疏水氨基酸的密碼子
3、,其第二位堿基是U 親水氨基酸的密碼子,其第二位堿基是A 第二位堿基是G、C的密碼子所編碼的氨基酸 親水性、疏水性居中。,人類基因組信息: 編碼區(qū)域只占1%-3% 對(duì)于非編碼序列,尚不清楚其含義或功能 非編碼區(qū)域?qū)τ谏顒?dòng)具有重要的意義 包括內(nèi)含子、簡(jiǎn)單重復(fù)序列、移動(dòng)元件、偽基因 重復(fù)序列: 衛(wèi)星(satellite)DNA 小衛(wèi)星(mini-satellite)DNA 微衛(wèi)星(micro-satellite) 順式調(diào)控元件: 啟動(dòng)子、增強(qiáng)子、沉默子,關(guān)于生物復(fù)雜性: 生物的復(fù)雜性不僅僅是基因的數(shù)目 人類基因約為30000個(gè) 線蟲(chóng)有20000個(gè)基因,230000/220000=2100001
4、03000,基因組計(jì)劃帶來(lái)的希望: 實(shí)驗(yàn)數(shù)據(jù)的積累速度在迅速地增加 計(jì)算機(jī)科學(xué)和技術(shù)也在不斷地發(fā)展,單個(gè)基因組分析: 基因序列 基因功能 基因的表達(dá)調(diào)控 基因產(chǎn)物 基因多態(tài)性,比較基因組分析: 物種關(guān)系 物種進(jìn)化 物種起源,二、序列格式轉(zhuǎn)化,各種軟件為了自己的需要,通常對(duì)序列格式有一定的要求,給我們的使用帶來(lái)了一定的困難。格式轉(zhuǎn)換軟件可以將不同格式數(shù)據(jù)轉(zhuǎn)換以方便使用。很多綜合性軟件可以進(jìn)行序列格式轉(zhuǎn)換,如DNAstar,seqverter等。,常見(jiàn)序列格式: (1)FASTA格式(又稱Pearson格式) 是比較簡(jiǎn)單而使用最多的序列格式。序列以號(hào)開(kāi)頭,其后是單行的關(guān)于序列的描述信息,最后是序列
5、。例子: 10KD_VIGUN P18646 vigna unguiculata 10 kda protein precursor MEKKSIAGLCFLFLVLFVAQEVVVQSEAKTCENLVDTYRGPCFTTGSCDDHCKNKEHLLS,(2)Genbank格式(GenBank flatfile,GBFF) 最廣泛地用于表示生物序列的格式之一,也是DDBJ/EMBL/GenBank交換數(shù)據(jù)時(shí)采用的格式。 例如: LOCUS AB094638_1 146 bp DNA 13-APR-2006 BASE COUNT 38 a 17 c 43 g 48 t 0 others ORIG
6、IN 1 gttttaatgt gttgccttgg ttgagtggtg aagctggtta gggtagcgtg taaaacatgg 61 tgggtagatt aatgctttgt gtcaccatgc cgtttggttc gattaatgta atcataagga 121 gagaccataa gttatgaata cgcaga,(3)EBML格式 與GBFF格式的主要區(qū)別是:每行左端均有由兩個(gè)大寫(xiě)字母組成的識(shí)別標(biāo)志,是GenBank識(shí)別標(biāo)志的縮寫(xiě)。另外,序列的序號(hào)在右側(cè)。 (4)GCG格式:是商業(yè)性的GCG軟件包的專用格式。,最新下載 *下載后直接安裝即可,Seqverter,
7、三、DNA序列分析 基因序列 基因表達(dá)調(diào)控信息 尋找基因涉及到兩個(gè)方面的工作 : 識(shí)別與基因相關(guān)的特殊序列信號(hào) 預(yù)測(cè)基因的編碼區(qū)域 結(jié)合兩個(gè)方面的結(jié)果確定基因的位置和結(jié)構(gòu) 基因表達(dá)調(diào)控信息隱藏在基因的上游區(qū)域,在組成上具有一定的特征,可以通過(guò)序列分析識(shí)別這些特征。,1. DNA序列分析步驟,在DNA序列中,除了基因之外,還包含許多其它信息,這些信息大部分與核酸的結(jié)構(gòu)特征相關(guān)聯(lián),通常決定了DNA與蛋白質(zhì)或者DNA與RNA的相互作用。 存放這些信息的DNA片段稱為功能位點(diǎn) 如啟動(dòng)子(Promoter)、基因終止序列(Terminator sequence)、剪切位點(diǎn)(Splice site)等。,
8、發(fā)現(xiàn)重復(fù)序列,數(shù)據(jù)庫(kù)搜索,分析功能位點(diǎn),序列組成統(tǒng)計(jì)分析,綜合分析,一個(gè)基本的DNA序列分析方案,2. 核苷酸關(guān)聯(lián)分析,對(duì)于一個(gè)給定的基因組,最簡(jiǎn)單的計(jì)算就是統(tǒng)計(jì)DNA序列中各類核苷酸出現(xiàn)的頻率 對(duì)于隨機(jī)分布的DNA序列,每種核苷酸的出現(xiàn)是均勻分布的 出現(xiàn)頻率各為0.25。 而真實(shí)基因組的核苷酸分布則是非均勻的,酵母基因組核苷酸出現(xiàn)頻率,在統(tǒng)計(jì)過(guò)程中,如果同時(shí)計(jì)算DNA的正反兩條鏈,則根據(jù)堿基配對(duì)原則,A和T、C和G的出現(xiàn)頻率相同。 如果僅統(tǒng)計(jì)一條鏈,則雖然A和T、C和G的出現(xiàn)頻率不同,但是非常接近。,兩聯(lián)核苷酸頻率:,不同基因組中兩個(gè)連續(xù)核苷酸出現(xiàn)的頻率也是不相同的 4種核苷酸可以組合成16
9、種兩聯(lián)核苷酸,酵母基因組兩聯(lián)核苷酸頻率表,對(duì)酵母基因組兩聯(lián)核苷酸的統(tǒng)計(jì)結(jié)果 其中核苷酸對(duì)出現(xiàn)頻率最高的達(dá)到0.119 而出現(xiàn)頻率最低的只有0.028,三聯(lián)核苷酸基因密碼子:,在進(jìn)行編碼區(qū)域識(shí)別時(shí),常常需要對(duì)三聯(lián)核苷酸進(jìn)行統(tǒng)計(jì)分析,這實(shí)際上是分析密碼子的使用偏性。 由于密碼子的簡(jiǎn)并性(degeneracy),每個(gè)氨基酸至少對(duì)應(yīng)1種密碼子,最多有6種對(duì)應(yīng)的密碼子。 在基因中,同義密碼子的使用并不是完全一致的。 不同物種、不同生物體的基因密碼子使用存在著很大的差異,基因密碼子的使用與基因編碼的蛋白的結(jié)構(gòu)和功能有關(guān),與基因表達(dá)的生理功能有著密切的聯(lián)系 蛋白的三級(jí)結(jié)構(gòu)與密碼子使用概率有密切的關(guān)系 通過(guò)對(duì)
10、密碼子的聚類分析,可以很清晰地將具有不同三級(jí)結(jié)構(gòu)蛋白質(zhì)的編碼基因分成不同的類,而具有相似三級(jí)結(jié)構(gòu)蛋白的編碼基因則大致聚在同一類中,從而證明基因密碼子的使用偏性與蛋白質(zhì)三級(jí)結(jié)構(gòu)具有密切的相關(guān)性。 在不同物種中,類型相同的基因具有相近的同義密碼子使用偏性 對(duì)于同一類型的基因由物種引起的同義密碼子使用偏性的差異較小,3. 功能位點(diǎn)分析,功能位點(diǎn)(functional site) 與特定功能相關(guān)的位點(diǎn),是生物分子序列上的一個(gè)功能單元,或者是生物分子序列上一個(gè)較短的片段。 功能位點(diǎn)又稱為功能序列(functional sequence)、序列模式(motif)、信號(hào)(signal)等。 核酸序列中的功能
11、位點(diǎn)包括轉(zhuǎn)錄因子結(jié)合位點(diǎn)、轉(zhuǎn)錄剪切位點(diǎn)、翻譯起始位點(diǎn)等。 在蛋白質(zhì)序列分析中,常使用序列模式這個(gè)名詞,蛋白質(zhì)的序列模式往往與蛋白質(zhì)結(jié)構(gòu)域或者作用部位有關(guān)。,功能位點(diǎn)示意,基因組序列中若干個(gè)相鄰的功能位點(diǎn)組合形成功能區(qū)域(functional region)。 功能位點(diǎn)分析的任務(wù) 發(fā)現(xiàn)功能位點(diǎn)特征 識(shí)別功能位點(diǎn),四、序列翻譯、ORF查找,對(duì)于一條新的核酸序列,除了對(duì)數(shù)據(jù)庫(kù)進(jìn)行類似性檢索和同源性比較外,還有許多其他分析內(nèi)容。例如:計(jì)算DNA的堿基組成、檢索內(nèi)部重復(fù)序列、檢索DNA的特殊位點(diǎn)或信號(hào)、開(kāi)放讀框的查找、鑒定DNA的編碼區(qū)和翻譯基因序列等。,基因編碼區(qū)是指可以由核糖體翻譯成蛋白質(zhì)的序列,它
12、的5端有轉(zhuǎn)錄和翻譯的起始位點(diǎn),3端有終止位點(diǎn)?;虻钠鹗嘉稽c(diǎn)通常是ATG,終止位點(diǎn)為TAA、TAG、TGA。 一個(gè)起始和終止密碼子之間的序列稱為一個(gè)開(kāi)放閱讀框(Open Reading Frame,簡(jiǎn)稱ORF),它是一個(gè)潛在的蛋白質(zhì)編碼區(qū)。,對(duì)于任何給定的核酸序列(單鏈DNA或mRNA),根據(jù)密碼子的起始位置,可以按照三種方式進(jìn)行閱讀。 例如,序列ATTCGATCGCAA 這三種閱讀順序稱為閱讀框(reading frames),CAA,A,ATT,CGA,TCG,A,TTC,GAT,CGC,AA,TCG,ATC,GCA,(1),(3),(2),AT,基因可變剪切示意圖,gene A,基因可變
13、剪切示意圖,序列翻譯、ORF查找,1. Generunner 2. 在線的ORF finder /gorf/gorf.html,功能: 序列編輯與類似序列查找、建立自己的序列數(shù)據(jù)庫(kù)進(jìn)行查找、序列比較、序列翻譯、蛋白序列分析等,還包括DNA分析常用到的一些功能,如堿基百分組成、分子量計(jì)算等。,Generunner,/gorf/gorf.html,ORF finder,輸入序列 在Enter GI or ACCESSION 后面的框中輸入公共序列的gi號(hào)或ACCESSION號(hào) 在or seque
14、nce in FASTA format 后面的框中輸入完整的序列 設(shè)置序列范圍 在FROM: TO: 后面的框中輸入進(jìn)行ORF查找的序列范圍 Genetic codes 可以選擇采用何種遺傳編碼 按OrfFind 按鈕即可執(zhí)行,限制性內(nèi)切酶是在許多細(xì)菌體內(nèi)發(fā)現(xiàn)的能識(shí)別和切割外源DNA的核酸酶。細(xì)菌自身的DNA因其限制型內(nèi)切酶的識(shí)別位點(diǎn)被相應(yīng)的DNA甲基化酶所甲基化,而不被內(nèi)切酶所水解。限制型內(nèi)切酶的這種作用使之成為遺傳工程實(shí)驗(yàn)的重要工具酶之一。,五、限制性內(nèi)切酶分析,每一種限制性內(nèi)切酶都有特定的DNA識(shí)別順序,并且呈回文排列。確定DNA酶切位點(diǎn)是基因操作的必不可少的步驟,因此DNA序列分析軟件
15、包大多整合有檢索酶切位點(diǎn)的程序。這些程序附帶一個(gè)酶切位點(diǎn)的數(shù)據(jù)庫(kù)文件,根據(jù)這個(gè)文件對(duì)序列作酶切位點(diǎn)的查找。,RESTRICTION ANALYSIS DNAssist 1.02 DFW 2.21 Generunner 下載地址: /dna.html,限制性內(nèi)切酶分析常用軟件,Dnastar,序列格式轉(zhuǎn)換 限制性內(nèi)切酶分析 序列拼接,下載網(wǎng)址:,從原理來(lái)說(shuō),引物的設(shè)計(jì)和分析并不是DNA序列分析的一個(gè)基本方法,但是在分子生物學(xué)研究中常常需要用到。我們主要介紹針對(duì)PCR的引物設(shè)計(jì)。,六、引物設(shè)計(jì),引物設(shè)計(jì)的標(biāo)準(zhǔn)有: 引物的長(zhǎng)度通常為20-30個(gè)堿基
16、引物避免有發(fā)卡結(jié)構(gòu) 引物避免有彼此之間的互補(bǔ)配對(duì) 兩個(gè)引物之間避免有類似序列,引物與核酸序列數(shù)據(jù)庫(kù)的其他序列無(wú)明顯類似 引物5端能加上合適的酶切位點(diǎn) 引物組成均勻,避免含有相同堿基的多聚體,兩個(gè)引物的GC含量近似,可見(jiàn),引物設(shè)計(jì)包含序列組成的計(jì)算、序列對(duì)DNA序列數(shù)據(jù)庫(kù)的類似性檢索、兩個(gè)序列的比較、堿基互補(bǔ)配對(duì)和發(fā)卡結(jié)構(gòu)分析以及酶切位點(diǎn)檢索等基本的DNA序列分析過(guò)程。事實(shí)上,許多PCR引物設(shè)計(jì)程序會(huì)略過(guò)或簡(jiǎn)化上述的某些過(guò)程。,Primer Premier 5.0,下載 安裝 執(zhí)行安裝程序即可 *下載的為demo版,只能對(duì)它的示例序列進(jìn)行操作 在C盤下找到WIN.INI,將vspace=DU改為
17、vspace=PU便可以使用全部功能。,功能 可以簡(jiǎn)單地通過(guò)手動(dòng)拖動(dòng)鼠標(biāo)以擴(kuò)增出相應(yīng)片段所需的引物,而在手動(dòng)的任何時(shí)候,下面顯示各種參數(shù)的改變和可能的二聚體、異二聚體、發(fā)夾結(jié)構(gòu)等。也可以給定條件,讓軟件自動(dòng)搜索引物,并將引物分析結(jié)果顯示出來(lái)。而且進(jìn)行這些操作非常簡(jiǎn)單。,Primer Premier 5.0,其他引物設(shè)計(jì)軟件:,Primer3 /genome_software/other/primer3.html DNAClub http:/www.bio-,引物長(zhǎng)度20-30個(gè),最好不要超過(guò)30個(gè); Tm=(A+T)X 2+(G+C)X 4
18、,退火溫度為Tm-7 G+C%=40-60% 5、3 引物退火溫度最好相等; 四個(gè)相同的堿基相連最好不要出現(xiàn); 引物的最后一個(gè)避免為T。,實(shí)際引物設(shè)計(jì)采用的幾條原則,無(wú)論是mRNA、rRNA還是tRNA,它們的功能最終是由它們的折疊結(jié)構(gòu)來(lái)決定的,盡管這種折疊的結(jié)構(gòu)依賴于它的序列,但是它不僅僅由序列來(lái)確定。當(dāng)前準(zhǔn)確測(cè)定RNA折疊結(jié)構(gòu)還有賴于X射線衍射技術(shù),但是很難獲得RNA分子晶體,所以測(cè)定的結(jié)構(gòu)非常少。因此,人們希望能通過(guò)RNA的序列來(lái)預(yù)測(cè)其結(jié)構(gòu),首先是二級(jí)結(jié)構(gòu)。,七、RNA二級(jí)結(jié)構(gòu)分析,RNA分子通過(guò)分子內(nèi)的堿基配對(duì)而折疊,堿基對(duì)的氫鍵以及它們形成的局部螺旋的堆積力起著穩(wěn)定的作用,即降低折疊結(jié)構(gòu)的自由能。RNA中能形成的堿基對(duì)包括GC,AU、GU,他們分別有3個(gè),2個(gè),和一個(gè)氫鍵。分子的螺旋區(qū)形成莖(stem),那些不構(gòu)成互補(bǔ)配對(duì)的單鏈堿基形成環(huán)(loop)。因此,預(yù)測(cè)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 湘藝版音樂(lè)八年級(jí)上冊(cè)第一單元國(guó)家 教案
- 2025年編輯加工軟件合作協(xié)議書(shū)
- 2025年醫(yī)用化驗(yàn)設(shè)備器具合作協(xié)議書(shū)
- 中職新教材數(shù)學(xué)課件
- 企業(yè)高效運(yùn)營(yíng)的關(guān)鍵如何運(yùn)用智能和區(qū)塊鏈進(jìn)行管理升級(jí)
- 大數(shù)據(jù)時(shí)代的教育評(píng)估與反饋機(jī)制研究
- 醫(yī)療教育改革中的教師法律地位
- 中職數(shù)學(xué)排列講課課件
- 教育大數(shù)據(jù)分析學(xué)習(xí)效果顯著提升的秘訣
- 中職教育旅游者課件
- 2025年山東省中考道德與法治試卷真題(含答案)
- (高清版)DB11∕T 2429-2025 補(bǔ)充耕地質(zhì)量調(diào)查與評(píng)價(jià)技術(shù)規(guī)范
- 湖北省襄陽(yáng)市2024-2025學(xué)年高一下學(xué)期7月期末統(tǒng)一調(diào)研測(cè)試地理試卷
- 2025年貴州省6月28日納雍事業(yè)單位教師崗考試真題及答案
- 機(jī)場(chǎng)行李安檢安全培訓(xùn)心得體會(huì)
- 睪丸扭轉(zhuǎn)超聲診斷
- 建筑施工企業(yè)2025年半年業(yè)績(jī)總結(jié)和下半年工作計(jì)劃
- 2025年天津市中考英語(yǔ)試卷(含標(biāo)準(zhǔn)答案及解析)
- 2025高考英語(yǔ)全國(guó)II卷試題分析及備考策略指導(dǎo)課件
- 提高冠脈介入手術(shù)術(shù)前準(zhǔn)備的合格率護(hù)理品管圈QCC成果匯報(bào)課件(完整內(nèi)容可編輯修改)
- GB∕T 386-2021 柴油十六烷值測(cè)定法
評(píng)論
0/150
提交評(píng)論