![5 基因組注釋_第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/3/f5812876-2925-4119-a5e3-a10448df9def/f5812876-2925-4119-a5e3-a10448df9def1.gif)
![5 基因組注釋_第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/3/f5812876-2925-4119-a5e3-a10448df9def/f5812876-2925-4119-a5e3-a10448df9def2.gif)
![5 基因組注釋_第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/3/f5812876-2925-4119-a5e3-a10448df9def/f5812876-2925-4119-a5e3-a10448df9def3.gif)
![5 基因組注釋_第4頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/3/f5812876-2925-4119-a5e3-a10448df9def/f5812876-2925-4119-a5e3-a10448df9def4.gif)
![5 基因組注釋_第5頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/3/f5812876-2925-4119-a5e3-a10448df9def/f5812876-2925-4119-a5e3-a10448df9def5.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、5 基因組注釋 基因組學課件word檔(請自行調整字號) 第5章基因組序列 注釋 學習重點: 1)基因注釋的方法 2)基因功能的研究方法 假如一段DNA序列中含有編碼基因,那么這段序列的堿基序列就不會是隨機排列的,一定存在某些可以辨別的特征。目前還沒有一個能適用于所 基因組學課件word檔(請自行調整字號) 有狀況的“基因序列”的標準,只能依據(jù)已知的某些規(guī)律來推想哪些序列可能是基因。 ORF掃描的關鍵是終止密碼在6種讀框中出現(xiàn)的頻率。假如DNA的堿基排列是隨機的,并且GC含量為50%,則三個終止密碼子:TAA、TAG和TGA出現(xiàn)的平均機 3率為每4=64bp一次。假如GC比大于50%,因終止密
2、碼中AT比例高,則每隔100-200bp才會出現(xiàn)一個終止密碼。隨機堿基排列的 基因組學課件word檔(請自行調整字號) ORF長度估計不超過50個密碼子,即150bp,以ATG起始計算長度更短。大多數(shù)基因的ORF均多于50個密碼子,因此最可能的選擇應當是ORF不少于100個密碼子的讀框。 2)外顯子內含子邊界 基因組學課件word檔(請自行調整字號) 外顯子與內含子的邊界區(qū)有一些明顯的特征,這是推斷編碼序列的依據(jù)之 一。由于外顯子-內含子邊界序列常有例外,編寫通用的判讀程序時有不少困難,上述規(guī)律僅適用一定范圍。 上述這三種ORF掃描的方法適合全部高等真核生物基因組,可綜合運用。 還有一種針對個
3、別生物的策略,主要依據(jù)這些生物基因組特有的組成。例如脊椎動物基因組很多基因的上游都有CpG島(islands)。CpG島的長度約1kb,其CG比例顯著高于基因組平均水平。約56%的人類基因與上游的CpG島相連,在基因組序列掃描時,如發(fā)覺CpG島有可能在其下游找到基因。 基因組學課件word檔(請自行調整字號) 5.1.2同源基因查 詢 同源查詢的依據(jù)是,現(xiàn)有生物的不同種屬之間具有功能或結構相似的直系基因成員,它們在起源上一脈相承,其間存在保守的序列組成。同一物種中因基因重復產生的基因家族也有保守的序列特征。當某一DNA序列含有這類基因時,通過與已報道的其他基因序列對比,可發(fā)覺其中的相似性。 以
4、上這些結果均可作為基因界定 基因組學課件word檔(請自行調整字號) 的指標,它們可單獨使用,亦可綜合考察。同源查詢還可供應基因功能的參考,目前這一技術已成為界定基因的主要工具之一。當某一序列從數(shù)據(jù)庫中無法找到同源序列,又無法排解其不是基因的可能性時,必需依靠試驗來進一步確認。在基因分類時這些缺少同源序列的ORF被稱為孤獨基因(orphangene)。 同源查詢 同源性,全都性和相似性 1)同源性指起源于同一祖先但序列已經 發(fā)生變異的序列之間的關聯(lián)性。 基因同源性只有“是”和“非”的 區(qū)分,無所謂百分比. 基因組學課件word檔(請自行調整字號) 相似性與全都性MFNMI PFAGAYAQAL
5、NQQQLMQGILTLL PFAGAYAQALNQQQVISG紅色藍色紅色紅色藍色基因注釋軟件 1)目前基因注釋程序的編寫主要依據(jù)兩種信息內涵: 1.signalterms(信號指令),如起始 基因組學課件word檔(請自行調整字號) 密碼,終止密碼,終止信號,剪接受體位與供體位序列,多聚嘧啶序列,分支點等保守的序列組成; 2.contentterms(內容指令),如密碼子使用偏好. 對結構緊湊的小基因組上述注釋軟件效果不錯,但對大基因組特殊是超長基因的注釋有很大困難。在一個長度數(shù)十或數(shù)百kb的內含子中,存在很多可能誤判的信號指令。 2)常用的注釋軟如GenScan主要偏重于內容指令,而Fg
6、enesh則著重于信號指令。由于每種生物都有種屬專一性的密碼子偏好,也存在某些非保守的信號指令,因此在超長基因注釋中常出現(xiàn)正向錯誤(false-positive,多注釋)或負向錯誤(false-negetive, 基因組學課件word檔(請自行調整字號) 少注釋)。 不同注釋軟件之間的效率178900exonsSensitivitySelectivityFGENESHisbyfarthemostaccurateofthreeprograms.人類基因注釋標準Knowngene:與人類已知cDNA和蛋白質順序同源的基因. Novelgene:與脊椎動物cDNA或其它物種蛋白質同源的基因. Nov
7、eltranscripts:與novel基因相似,但確少明確的ORF. 基因組學課件word檔(請自行調整字號) Putativegene:有同源EST支持,但缺少cDNA或ORF. Predictedgene:數(shù)據(jù)庫中至少有一個外顯子支持,但缺 少cDNA或明確的ORF. Pseudogene(假基因):與已知蛋白質有50%的同源性,但 cDNA殘缺,在其它位點存在正常的同源基因的順序. 引自:Nature414:865-871,20XX(人類22號染色體注釋) 人類基因總數(shù)的預估有三種方法: cDNA和ESTs序列 計算機注釋 比較基因組學(保守的ORF).人類基因總數(shù)可能是永久解不開的
8、基因組學課件word檔(請自行調整字號) 迷? 在20世紀60年月時,科學家就預估人類基因組至少含有200萬個編碼蛋白質的DNA序列。不過隨著科學的發(fā)展,這個預估的數(shù)字越來越小,最新的一份研究報告表明人類基因組里只有不到1.9萬編碼蛋白的基因,這一數(shù)字甚至比線蟲還要小。 在20XX年人類基因組工作草圖的發(fā)表時,國際人類基因組測序聯(lián)盟將預估的數(shù)字降低到3萬,而由CraigVenter領導 基因組學課件word檔(請自行調整字號) 的科研小組則預估只有2.6萬個。等到20XX年人類基因組完成圖公布時科學家預估人類基因數(shù)量在2.45萬左右,而到20XX年再進行進一步分析時發(fā)覺只有2.05萬個。而最新
9、的數(shù)據(jù)則發(fā)覺只有1.9萬。幾種模式生物注釋的基因 總數(shù) 大腸桿菌(E.coli):4800酵母(yeast):6200 線蟲(nematode):19000果蠅(fly):13600 擬南芥(Arabidopsis):25000水稻(rice):60000 基因組學課件word檔(請自行調整字號) 玉米(maize):59000老鼠(mouse):30000 功能域注釋 1)任何基因編碼的蛋白質都由一些在高級結構 水平具有特征性的功能域組成,如引導肽, 受體區(qū),激酶區(qū),DNA或RNA結合域等。 2)功能域具有很強的保守性,關鍵的氨基酸組 成及其排列位置是相當衡定的,是鑒定功能域 的主要標識。
10、3)功能域是目前確定基因功能的主要依據(jù)之一。 4)已由很多特地的功能域注釋軟件,可用于基因 組序列的注釋。 基因組學課件word檔(請自行調整字號) 同源功能域注釋 5.1.3試驗確認基因任何基因都可轉錄為RNA拷貝,這是試驗確證基因的依據(jù)。真核生物中很多編碼蛋白質的基因其轉錄的初級產物都有內含子,加工后成為mRNA。依據(jù)mRNA的序列可以找到外顯子的位置以及整個基因的組成。 動物園雜交(Zooblotting) 基因組學課件word檔(請自行調整字號) 3.獲取基因全長cDNA序 列 A.構建cDNA文庫,用目的基因DNA片段篩選 文庫。 B.依據(jù)已知片段設計引物,RACE技術得到基因的全長
11、cDNA序列。 4.確定DNA序列中基因的 位置 A.通過對全長cDNA序列的測序、對比,以及 與基因組DNA的比較,確定基因所在的區(qū)域; B.通過物種已建立遺傳圖和物理圖來確定基因的位置; 基因組學課件word檔(請自行調整字號) 5.2基因功能預估 一些已完成測序的基因組序列分析表明,我們所了解的基因組內容比真實的狀況少得多。如大腸桿菌與啤酒酵母,在未開頭基因組測序前已經完成了大量常規(guī)的遺傳學分析,當時遺傳學家認為這兩種生物的大多數(shù)基因已經通過突變鑒定,但實際上還有很多空白。大腸桿菌編碼蛋白質的4288個基因中,以往知道的只有1853個,僅占43%。至于啤酒酵母,所知更少,僅為30%。 基
12、因組學課件word檔(請自行調整字號) 依據(jù)同源性預估基因時必需留意以下幾點: 一般認為氨基酸的全都性或相似性在25%以上可視為同源基因; 同源性(homology)與相似性(similiarity)的含義不同,如氨基酸序列有80%的相似性不能稱為同源性,同源性只有“是”或“非”的差別; 全都性常指同一位置同一氨基酸在整個多肽序列中所占的比例,而相似性除全都性氨基酸外還包括可取代氨基酸的成員,因此相似性氨基酸的比例總是高于全都性氨基酸。 同源性分析可以給出整個基因或其中某一區(qū)段功能的信息同源查詢除了直接比較DNA序列外,還可將DNA序列翻譯為氨基酸序列。由于組成蛋白質的氨基酸有20種,而DNA
13、核苷酸只有4 基因組學課件word檔(請自行調整字號) 種,因此氨基酸序列的差異要比核苷酸的差異大得多(圖5.1)。以氨基酸序列進行同源性比較其結果更為精確,也更加可行。已有很多軟件可用于這項分析,常用的是BLAST。研究者只需將資料以正確格式的電子郵件發(fā)送到DNA資料庫BLAST服務站(BLASTserver),很快就會得到回音。 同源性分析在酵母基因組計劃中的應用 釀酒酵母的基因組大約含有6000個基因。 基因組學課件word檔(請自行調整字號) 蛋白質結構與功能分析 同源性分析并非萬靈藥方,對很多新基因的功能分析還必需依靠其他的試驗手段進行補充,并將同源性研究的結果進一步外延。如何確定一
14、個基因的功能是基因組計劃中最困難的問題之一。大多數(shù)分子生物學家認為,現(xiàn)有的技術與策略對于從基因組測序所獲得的大量未知基因的功能研究是遠遠不夠的。 (1)基因失活是功能分析的主要手段 基因組學課件word檔(請自行調整字號) 基因的功能是一個過程,是從基因到表 型的一系列生理生化反應過程。現(xiàn)在的基因功能研究與傳統(tǒng)的遺傳分析正好相反,傳統(tǒng)的遺傳分析是從表型動身最終到達基因(正向遺傳學),而在基因組計劃中研究基因功能則是從基因動身,最終到達表型(反向遺傳學)。因此必需查找一系列的試驗方法來鑒別與目標基因相關的表型 基因失活是基因功能分析的主要手段 基因失活 基因敲除(geneknock-out)基因
15、敲除(基因剔除)(gene 基因組學課件word檔(請自行調整字號) knockout):將細胞基因組中某基因去除或使基因失去活性的技術。廣義的基因敲除包括:某個或某些基因的完全敲除、部分敲除、基因調控序列的敲除以及成段基因組序列的敲除。 主要原理:用一段無關的核苷酸序列取代目標基因的中間序列,并將其導入生物體內或目的細胞內,假如該基因所掌握的表型變化了,就從反面驗證了目標基因的功能。例如:有一段"序列“1234567890”(原基因),敲除后為“1237890”,一般一個敲除載體還會在其中插入一段外源基因,如“ABC”,則新的基因 基因組學課件word檔(請自行調整字號) 為:“1
16、23ABC7890”;或者不插入基因直接連接,則為“1237890”。 剔 除 老 鼠 (1) 剔 除 老 基因組學課件word檔(請自行調整字號) 鼠(2) 反義RNA是指與mRNA互補的RNA分子,也包括與其它RNA互補的RNA分子。由于核糖體不能翻譯雙鏈的RNA,所以反義RNA與mRNA特異性的互補結合,即抑制了該mRNA的翻譯。將基因的編碼序列反向插入表達載體,轉化目標生物,獲得轉基因個體或品系后,進一步分析表達的反義RNA在生理生化或形態(tài)發(fā)生中所起的作用,由此判別目標基因的功能。 基因組學課件word檔(請自行調整字號) 將轉座子隨機插入功能基因內,使其失活,也可以用于基因功能研究。
17、 水稻rFCA基因編碼的兩個RRM結 構域的功能研究 5.4高通量基因功能的研 究方法 5.4.1突變體庫構建 基因組學課件word檔(請自行調整字號) 突變體是某個性狀發(fā)生可遺傳變異或某個基因發(fā)生突變的生物體材料。 突變體庫就是由某種方法產生的、包含各種不同基因突變的群體。 產生突變體的方法有物理和化學誘變、同源重組、基因沉思以及插入突變等。 插入突變是T-DNA或轉座標簽插入到基因組中后,相應位點基因 基因組學課件word檔(請自行調整字號) 的功能就可能受到抑制而產生基因敲除突變體,插入元件同時又可用作標簽從基因組中分別出相應的基因并鑒定其功能。T-DNA插入、逆轉座子標簽和轉座子標簽是
18、構建插入突變體庫的三種主要方法。 基因捕獲是一種將帶有報告基因的重組載體隨機整合到基因組中,使內源基因被激活或失活,然后通過檢測報告基因的表達和利用一些基于PCR的分子生物學 基因組學課件word檔(請自行調整字號) 技術來分別被插入基因的研究基因功能的新方法。目前,它已被廣泛應用于植物突變體庫的構建和基因分別。 基因捕獲包括3種系統(tǒng)類型:增加子捕獲(enhancertrap)、啟動子捕獲(promotertrap)和基因捕獲(genetrap),而基因捕獲實際上是這3種類型的統(tǒng)稱。 基因捕獲系統(tǒng)中,攜帶報告基因轉入到植物基因組中去的插入元 基因組學課件word檔(請自行調整字號) 表達。 外
19、顯子捕獲載體插入在基因的外顯子,因此不需要添加sA位點就可以產生融合mRNA,所以假如能檢測到融合轉錄物或融合蛋白,就可以證明插入位置四周有基因存在。 目前,玉米的AcDs系統(tǒng)就已廣泛應用于增加子捕獲和基因捕獲。利用這種雙元件轉座系統(tǒng)可以造成穩(wěn)定的插入,只要使自主轉座元件不被包含在插入序列中。然后可以通過雜交引入轉座酶,而使非自 基因組學課件word檔(請自行調整字號) 主轉座元件在后代中進行轉座。這時發(fā)生的轉座可以產生回復突變?;貜屯蛔兛梢詸z驗某種突變表型是否果真由轉座子的插入所引起。也可以驗證所分別基因的功能。 激活標簽載體 激活標簽載體是在TDNA的一端安置一個強啟動子或幾個連續(xù)的增加子
20、,TDNA攜帶的增加子元件可以在任何方向對插入位點四周基因的表達起作用,當這種TDNA插入宿主基因組中時,就會干擾插入位點基因的正常表達。 基因組學課件word檔(請自行調整字號) 轉移DNA(transferredDNA,T-DNA):農桿菌Ti(tumorinducing)或Ri(rootinducing)質粒中的一段DNA序列,可以從農桿菌中轉移并穩(wěn)定整合到植物核基因組中。因此,假如把外源基因插入T-DNA中,就有可能攜帶進入受體植物并整合到染色體上。 5.4.2RNAi與基因功能 檢測 酵母雙雜交(yeast two-hybridization) 基因組學課件word檔(請自行調整字號
21、) 將外源基因插入到噬菌體展示載體的信號肽基因和衣殼蛋白編碼基因之間,從而使外源基因編碼的多肽或蛋白質與外殼蛋白以融合蛋白質形式展示在噬菌體表面,被展示的外源肽或蛋白質可保持相對獨立的空間結構和生物活性。 利用靶分子,采用適當?shù)奶韵捶椒ǎㄓH和洗脫擴增親和的循環(huán)步驟),洗去非特異結合的噬菌體,最終從噬菌體文庫中篩選出能結合靶分子的目的噬菌 基因組學課件word檔(請自行調整字號) 體,而編碼該融合子的DNA則位于病毒粒子內。使大量多肽與其DNA編碼序列之間建立了直接聯(lián)系,使各種靶分子(抗體、酶、細胞表面受體等)的多肽配體通過淘選得以快速鑒定。 日本血吸蟲病是我國一種危害嚴重的人畜共患寄生蟲病。東
22、方田鼠是迄今在疫區(qū)發(fā)覺的唯一一種感染血吸蟲后不致病的哺乳類動物,但目前對其抗病的分子機制 基因組學課件word檔(請自行調整字號) 仍不清晰。本研究通過構建東方田鼠肝臟、肺臟T7噬菌體展示cDNA文庫,并用日本血吸蟲童蟲可溶性裂解產物進行篩選,以查找東方田鼠抗日本血吸蟲病相關因子。 酵母雙雜交 典型的真核生物轉錄因子,都含有二個不同的結構域:DNA結合結構域(BD)和轉錄激活結構域(AD)。前者可識別DNA上的特異序列,并使轉錄激活結構域定位于所調整的基因的上游,轉錄激活結構域可同轉錄復合體的其他成分作用,啟動它所調整的基因的轉錄。不同來源的 基因組學課件word檔(請自行調整字號) 與結合后
23、則特異地激活結合基因的表達。 酵母雜交系統(tǒng)中: 融合表達載體2融合表達載體1 人類巨細胞病毒(Humancytomegalovirus,HCMV)在世界人群中廣泛分布。UL23屬于HCMVUS22基因家族成員,對于UL23基因,目前知道它能編碼一個病毒皮層蛋白。本研究利用酵母雙雜系統(tǒng)來篩選與pUL23相互作用的宿主蛋白。用酵母雙雜交技術篩選人胚腎cDNA文庫中與人巨細胞病毒 基因組學課件word檔(請自行調整字號) pUL23相互作用的宿主蛋白分子。 5.5.2轉錄物組 表達芯片實例 蛋白質組定義: 指某種細胞或組織中基因組表達的全部蛋白質; 蛋白質組學定義: 研究蛋白質組結構和功能的領域稱為
24、蛋白質組學. 基因組學課件word檔(請自行調整字號) 蛋白質組學的研究內容: 分析全部蛋白質組全部成分以及它們的數(shù)量; 確定各種組分所在的空間位置、修飾方法、互作機制、生物活性和特定功能等 蛋白質組分析復雜性 蛋白質有很多加工方式,如磷酸化、糖基化、乙酰化、泛素化等;mRNA的可變剪接、程序性移碼和可控突變,1個基因可編碼很多不同的蛋白質,常常表現(xiàn)為組織特異性;蛋白質之間存在大量的相互作用,如形成同源或異源二聚體、三聚體或多聚體,不同的結合狀態(tài)有不同的活性; 1種蛋白質可參與多種反應,或多種蛋白質參與1種反應。 基因組學課件word檔(請自行調整字號) 蛋白質組研究技術蛋白質組主要研究技術:
25、雙向電泳 生物質譜技術蛋白質芯片 雙向凝膠電泳 樣品制備(包括蛋白質的溶解、變性及還原,從而去除非蛋白質雜質等)第一向等電聚焦(依據(jù)蛋白質電荷差異進行分別)第二向SDS-PAGE(以蛋白質分子量差異為基礎)蛋白質的檢測(用考馬斯亮藍、銀染、銅染等方法)圖譜數(shù)字化分析(圖象掃描、確定每個蛋白質點的等電點和分子量,查找差異蛋白) 蛋白質芯片 基因組學課件word檔(請自行調整字號) 蛋白芯片是以蛋白質代替DNA作為檢測對象,它直接在蛋白水平上檢測表達模式。 將各種蛋白質有序地固定于各種載體上,然后,用標記了特定熒光的蛋白質或其他成分與芯片作用,經漂洗將未能與芯片上的蛋白質互補結合的成分洗去,再利用熒光掃描儀或激光共聚焦掃
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 遼寧石油化工大學《市場調研》2023-2024學年第二學期期末試卷
- 贛南醫(yī)學院《資源環(huán)境分析系列實驗Ⅱ(植物營養(yǎng)學)》2023-2024學年第二學期期末試卷
- 云南林業(yè)職業(yè)技術學院《陶藝鑒賞》2023-2024學年第二學期期末試卷
- 西安音樂學院《建筑裝飾構造》2023-2024學年第二學期期末試卷
- 貴州農業(yè)職業(yè)學院《家具與陳設設計》2023-2024學年第二學期期末試卷
- 上海師范大學天華學院《經典與臨床-傷寒論》2023-2024學年第二學期期末試卷
- 浙江外國語學院《物理引擎應用技術》2023-2024學年第二學期期末試卷
- 吉林交通職業(yè)技術學院《電工及電子技術》2023-2024學年第二學期期末試卷
- 天津中德應用技術大學《工程機械及維修》2023-2024學年第二學期期末試卷
- 二零二五年度電子租房合同含租客責任保險條款
- (完整版)人教版三年級上冊100道口算題
- 2023年河北廊坊市三河市金創(chuàng)產業(yè)投資有限公司招聘筆試題庫含答案解析
- 印章管理辦法(公安部)
- 人教版高一數(shù)學上冊期末考試試卷及答案
- 振動振動測試基礎知識培訓課件
- 教學設計 分數(shù)的再認識 省賽一等獎
- DBJ51-T 151-2020 四川省海綿城市建設工程評價標準
- GB/T 3795-2006錳鐵
- GB/T 31329-2014循環(huán)冷卻水節(jié)水技術規(guī)范
- 京東1+X理論考試試題及答案
- 人教版四年級下冊數(shù)學應用題練習全
評論
0/150
提交評論