![中山大學生物信息學期末_第1頁](http://file4.renrendoc.com/view/5d813a23c710c12bbb4137edaa14d604/5d813a23c710c12bbb4137edaa14d6041.gif)
![中山大學生物信息學期末_第2頁](http://file4.renrendoc.com/view/5d813a23c710c12bbb4137edaa14d604/5d813a23c710c12bbb4137edaa14d6042.gif)
![中山大學生物信息學期末_第3頁](http://file4.renrendoc.com/view/5d813a23c710c12bbb4137edaa14d604/5d813a23c710c12bbb4137edaa14d6043.gif)
![中山大學生物信息學期末_第4頁](http://file4.renrendoc.com/view/5d813a23c710c12bbb4137edaa14d604/5d813a23c710c12bbb4137edaa14d6044.gif)
![中山大學生物信息學期末_第5頁](http://file4.renrendoc.com/view/5d813a23c710c12bbb4137edaa14d604/5d813a23c710c12bbb4137edaa14d6045.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
中山大學生物信息學期末一、名詞Bioinformatics:生物信息學——是一門綜合運用生物學、數(shù)學、物理學、信息科學以及計算機科學等諸多學科的理論方法,以互聯(lián)網(wǎng)為媒介、數(shù)據(jù)庫為載體、利用數(shù)學和計算機科學對生物學數(shù)據(jù)進行儲存、檢索和處理分析,并進一步挖掘和解讀生物學數(shù)據(jù)。Consensussequence:共有序列——決定啟動序列的轉(zhuǎn)錄活性大小。各種原核啟動序列特定區(qū)域內(nèi)(通常在轉(zhuǎn)錄起始點上游-10及-35區(qū)域)存在共有序列,是在兩個或多個同源序列的每一個位置上多數(shù)出現(xiàn)的核苷酸或氨基酸組成的序列。Datamining:數(shù)據(jù)挖掘——數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中自動搜索隱藏于其中的有著特殊關(guān)系性的信息的過程。數(shù)據(jù)挖掘通常是利用計算方法分析生物數(shù)據(jù),即根據(jù)核酸序列預測蛋白質(zhì)序列、結(jié)構(gòu)、功能的算法等,實現(xiàn)對現(xiàn)有數(shù)據(jù)庫中的數(shù)據(jù)進行發(fā)掘。EST:(ExpressedSequenceTag)表達序列標簽——是某個基因cDNA克隆測序所得的部分序列片段,長度大約為200~600bp。Similarity:相似性——是直接的連續(xù)的數(shù)量關(guān)系,是指序列比對過程中用來描述檢測序列和目標序列之間相同DNA堿基或氨基酸殘基順序所占比例的高低。Homology:同源性——是兩個對象間的肯定或者否定的關(guān)系。如兩個基因在進化上是否曾具有共同祖先。從足夠的相似性能夠判定二者之間的同源性。Alignment:比對——從核酸以及氨基酸的層次去分析序列的相同點和不同點,以期能夠推測它們的結(jié)構(gòu)、功能以及進化上的聯(lián)系?;蚴侵笧榇_定兩個或多個序列之間的相似性以至于同源性,而將它們按照一定的規(guī)律排列。BLOSUM:模塊替換矩陣——是指在對蛋白質(zhì)數(shù)據(jù)庫搜索時,采用不同的相似性分數(shù)矩陣進行檢索的相似性矩陣。以序列片段為基礎(chǔ),從蛋白質(zhì)模塊數(shù)據(jù)庫BLOCKS中找出一組替換矩陣,用于解決序列的遠距離相關(guān)。在構(gòu)建矩陣過程中,通過設(shè)置最小相同殘基數(shù)百分比將序列片段整合在一起,以避免由于同一個殘基對被重復計數(shù)而引入的任何潛在的偏差。在每一片段中,計算出每個殘基位置的平均貢獻,使得整個片段可以有效地被看作為單一序列。通過設(shè)置不同的百分比,產(chǎn)生了不同矩陣。PAM(PointAcceptedMutation):突變數(shù)據(jù)矩陣PAM即可接受點突變——指1個PAM表示100個殘基中發(fā)生一個殘基突變概率的進化距離。在序列比對中,能夠反映一個氨基酸發(fā)生改變的概率與兩個氨基酸隨機出現(xiàn)的概率的比值的矩陣。Contig:疊連群——是指一組相互兩兩頭尾拼接的可裝配成長片段的DNA序列克隆群,也指彼此間可通過重疊序列而連接成連續(xù)的、擴展的、不間斷的DNA序列的交疊片段產(chǎn)物。通過比對不同的序列,我們能夠發(fā)現(xiàn)片段的順序,并且contigs能被添加、刪除、重排列來形成新的序列。Phylogenetictree:系統(tǒng)發(fā)生樹又稱為演化樹(evolutionarytree)——是表明被認為具有共同祖先的各物種間演化關(guān)系的樹,是一種親緣分支分類方法。在樹中,每個節(jié)點代表其各分支的最近共同祖先,而節(jié)點間的線段長度對應演化距離(如估計的演化時間)。它用來表示系統(tǒng)發(fā)生研究的結(jié)果,用它描述物種之間的進化關(guān)系。InSilicoCloning:電子克隆——是近年來發(fā)展起來的一門基于表達序列標簽(ESTs)的快速克隆基因的新技術(shù),其利用種子序列從EST及UniGene數(shù)據(jù)庫中搜索相似性序列,進行拼裝、檢索、分析等,以此獲得目標基因的全長cDNA,在此基礎(chǔ)上也能夠?qū)崿F(xiàn)基因作圖定位。二、問題思考1、生物信息學這門學科是如何發(fā)展起來的?答:生物學數(shù)據(jù)爆炸式增長生物大分子數(shù)據(jù)庫相繼建立生物技術(shù)與計算機技術(shù)并行飛速發(fā)展Internet的廣泛應用人類基因組計劃(HGP)的推動生物信息學的產(chǎn)生是生命科學發(fā)展的必然。2、舉例說明生物信息學的主要應用?答:a.獲取各種生物的全基因組及其他數(shù)據(jù);b.新基因發(fā)現(xiàn);c.單核苷酸多態(tài)性分析;d.基因組中非編碼區(qū)域的結(jié)構(gòu)與功能;e.從基因組水平研究生物進化及其他遺傳語言的可能;f.全基因組的比較研究;g.基因功能預測;h.遺傳疾病的研究以及關(guān)鍵基因鑒定;i.蛋白質(zhì)組學研究;j.新藥設(shè)計和定向化酶;k.生物芯片.3、為什么說生物信息學是大規(guī)模研究生命科學的利器?答:生物信息學主要是一門研究生物學系統(tǒng)和生物學過程中信息流的綜合系統(tǒng)學科,是綜合運用生物學、數(shù)學、物理學、信息科學以及計算機科學等諸多學科的理論方法,以互聯(lián)網(wǎng)為媒介、數(shù)據(jù)庫為載體、利用數(shù)學和計算機科學對生物學數(shù)據(jù)進行儲存、檢索和處理分析,并進一步挖掘和解讀生物學數(shù)據(jù)。目前,其核心是基因組信息學,包括基因組信息的獲取、處理、存儲、分配和解讀。還包括:蛋白質(zhì)空間結(jié)構(gòu)模擬、預測和藥物分子設(shè)計;軟件開發(fā)和方法學研究。未來,生物信息學將進一步揭示生命系統(tǒng)的復雜性、遺傳語言、基因表達譜、基因組、蛋白質(zhì)組、代謝組、細胞信號組、系統(tǒng)生物學等等。因此,生物信息學是大規(guī)模研究生命科學的利器。4、生物信息學涉及的生物大分子信息有哪些?答:涉及的有:1)核算序列DNA包括:基因組序列、基因序列、cDNA、EST、堿基修飾、DNA功能模塊/位點(如啟動子、剪接體、表達調(diào)控位點等)。2)蛋白質(zhì)Protein包括:氨基酸組成、氨基酸序列、理化性質(zhì)、原子坐標、二級結(jié)構(gòu)、模體、結(jié)構(gòu)域、功能域/位點、3D結(jié)構(gòu)。5、在大分子序列分析中,為何局部比對比全局比對更有意義?答:全局比對(globalalignment)——指全長序列比對,用于相似性很高的序列間的分析。局部比對(localalignment)——指生物分子序列常常是局部具有較高的相似性,呈板塊分布。此法用于整體相似性較低的序列分析,靈敏度高。原因:1)全局比對是沿整個長度實現(xiàn)序列之間匹配的最大化,嘗試對齊整個序列。而局部比對是對動態(tài)規(guī)劃算法的修改,是給兩個序列之間得分最高的地方進行匹配,集中在尋找相似度高的序列的延伸。因此相比而言,在序列分析中將未知序列同已知序列進行相似性比較,局部比對的準確性比全局比對更高。因為要實現(xiàn)整個序列長度的相似性匹配,比起局部匹配分析帶來的誤差更大;2)另外,與局部序列比對算法相比,全序列比對算法會導致一些局部序列相似性較高而全序列相似性很小,因為全序列的平均效應而將兩者的相似性漏檢。一般對于2個未知關(guān)系的序列,使用局部序列比對工具要比用全序列比對工具好。而對于一個較長的序列和一個較短的序列的比對,也應該使用局部序列比對工具。3)再則全局比對的最高分是最后一個,而局部比對的任何一個地方都可能是最高分,即任何地方都可以是對位起始點,可見局部比對操作更為靈敏。4)應用范圍上,全局比對僅適用于相似性很高的序列間分析,而局部比對一般用于相似性較低的序列分析,但是也可以用于高相似性序列分析,這樣的分析結(jié)果會更加精準。所以局部比對比全局比對更加有意義。6、在大分子序列分析中,為何蛋白質(zhì)的取代矩陣比核酸的取代矩陣更復雜?答:取代矩陣(substitutionmatrix)的規(guī)則是“獎勵匹配位點,罰扣不匹配位點”,故又稱為計分矩陣(scoringmatrix)。核算序列分析利用堿基取代矩陣,通過相似性比對匹配與否進行打分,便可以分析出其大致的堿基組成,特異位點等。而蛋白質(zhì)序列利用其氨基酸殘基取代矩陣分析,由于蛋白質(zhì)的序列組成復制,而且蛋白質(zhì)的功能是通過其三維高級結(jié)構(gòu)來執(zhí)行的,該結(jié)構(gòu)又不一定處于靜態(tài),在行使功能的過程中,一般會發(fā)生相應的改變,所以氨基酸殘基的進化取代不能簡單地表述各種殘基在結(jié)構(gòu)和功能上的關(guān)系,所以要對蛋白質(zhì)序列進一步的分析就需要更加復雜的取代矩陣。7、多重比對的用途?BLAST的用途?答:多重比對的用途主要用于:1)系統(tǒng)演化分析,解釋物種之間的進化關(guān)系;2)基因預測;3)蛋白質(zhì)結(jié)構(gòu)域的三級結(jié)構(gòu)與二級結(jié)構(gòu),甚至是個別的氨基酸或核苷酸;4)研究一個家族中的相關(guān)蛋白質(zhì)序列中的保守區(qū)域,進而分析蛋白質(zhì)的結(jié)構(gòu)和功能。BLAST是現(xiàn)在應用最廣泛的序列相似性搜索工具,主要用于:1)新DNA序列的發(fā)現(xiàn)、定位與分析、結(jié)構(gòu)和功能預測;2)ESTs的分析;3)尋找分析遠源關(guān)系的蛋白質(zhì)序列;4)實驗設(shè)計如PCRPrimer,MutagenesisStudies,構(gòu)建Profile(--譜)等;5)揭示相似性和同源性,發(fā)現(xiàn)系統(tǒng)發(fā)育的信息;6)尋找數(shù)據(jù)庫中沒有標注的編碼區(qū)、發(fā)現(xiàn)保守區(qū)域、特定序列框等重要信息。8、聚類分析的策略?答:聚類分析(clusteranalysis)是一組將研究對象分為相對同質(zhì)的群組(clusters)的統(tǒng)計分析技術(shù)。其策略方法為:先將多個序列兩兩比對構(gòu)建距離矩陣,反應序列之間兩兩關(guān)系;然后根據(jù)距離矩陣計算產(chǎn)生系統(tǒng)進化指導樹,對關(guān)系密切的序列進行加權(quán);然后從最緊密的兩條序列開始,逐步引入臨近的序列并不斷重新構(gòu)建比對,直到所有序列都被加入為止。第一步:點擊File→LoadSequences輸入序列文件。第二步:點擊Alignment設(shè)定比對的一些參數(shù)。第三步:點擊Alignment→DoCompleteAlignment開始序列比對。第四步:點擊File→SaveSequenceas...比對完成,選擇保存結(jié)果文件的格式。9、電子克隆比傳統(tǒng)的實驗克隆有何優(yōu)勢?為何能實現(xiàn)電子克隆?答:電子克隆利用種子序列從EST及UniGene數(shù)據(jù)庫中搜索相似性序列,進行拼裝、檢索、分析等,以此獲得目標基因的全長cDNA,在此基礎(chǔ)上也能夠?qū)崿F(xiàn)基因作圖定位。其相比實驗克隆所具有的優(yōu)勢有:1)實驗進程短、快捷、設(shè)備簡單;2)成本低、得率高、針對性強等;3)對操作人員技術(shù)要求不高;4)另外運用電子克隆的方法延伸得到的cDNA幾乎囊括了所有疑似為目的基因的cDNA序列。能實現(xiàn)電子克隆是因為:EST數(shù)據(jù)庫的不斷完善,使得電子克隆策略已成為克隆新基因的重要方法。從GenBank的核酸(nr)數(shù)據(jù)庫中檢索已測序列生物的目的基因,獲得目的基因cDNA序列,以該序列為模板對另一種未測序列生物EST數(shù)據(jù)庫進行BLAST檢索,獲得與之部分同源的EST群,從中選取一條EST作為種子序列BLAST檢索該生物的EST數(shù)據(jù)庫,將檢出與種子序列同源性較高或有部分重疊的EST序列拼接組裝為重疊群(contig),再以此重疊群序列重復以上BLAST檢索過程,反復進行EST重疊群序列的拼接和比對,直至檢出所有的重疊EST或重疊群不能繼續(xù)延伸,最終獲得未測序列生物基因的cDNA全序列。10、蛋白質(zhì)分子結(jié)構(gòu)的層次?相應的分析工具?答:蛋白質(zhì)一級結(jié)構(gòu)分析:1)ProtParam:蛋白質(zhì)理化參數(shù)檢索;2)ProtScale:蛋白質(zhì)親疏水性分析;3)coiled-coil卷曲螺旋預測。蛋白質(zhì)二級結(jié)構(gòu)預測:二級結(jié)構(gòu)指α‐helix,β‐sheet,無規(guī)則卷曲(coil),motif等組件。預測方法:1)神經(jīng)網(wǎng)絡(luò)、遺傳算法、機器學習等;2)與已知二級模板建立序列譜矩陣(profilematrix)、PSI‐BLASTP;3)與同源蛋白多重比對。模式和序列譜分析:EBI:InterProScan整合出的部分數(shù)據(jù)庫有:Proside蛋白質(zhì)結(jié)構(gòu)域、家族和功能位點;Pfam蛋白質(zhì)家族比對;TMHMM跨膜區(qū)預測。蛋白質(zhì)三級結(jié)構(gòu)預測:實驗測定方法:X-ray、NMR、Cryo-EM;理論預測方法:同源建模、折疊識別、從頭計算。三、綜合分析1、DNA序列的鑒定策略答:鑒定三步驟:1)找到序列中的非編碼區(qū)編碼區(qū)與非編碼區(qū)顯著不同,重復序列和低復雜序列排除基因的可能性,首先屏蔽掉。屏蔽重復序列的分析程序有:RepeatMasker,XBLAST,CENSOR等。此外,確定待檢序列是否真實(載體污染,宿主序列污染,純度因素等),載體序列污染分析程序有:NCBI/VecScreen;EMBL/Blast2EVEC。2)找基因根據(jù)基因特征信號,如保守序列(啟動子,CpG島)、起始和終止密碼子、polyA,堿基頻率,密碼子偏好,EST。原核生物采用可讀框ORF檢測基因非常有效。CpG島的預測工具:EMBL-EBIK的在線工具CpGPlot;轉(zhuǎn)錄終止信號的預測方式:真核生物基因末端有終止子信號,在mRNA終止密碼子下游具有polyA加尾信號AATAAA,可用于基因終止位點的預測。在線預測工具:POLYAH;啟動子預測分析工具:TRES、Neuralnetwork、Dragonpromoterfinder、PromoterScan;可讀框ORF=起始密碼子ATG——終止密碼子TGA或TAG或TAA。開放讀框的識別分析程序有:ORFFinder(NCBI),GenScan,GenomeScan。采用mRNA序列預測基因:以公共數(shù)據(jù)庫獲得mRNA
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國軌道交通列控系統(tǒng)市場規(guī)?,F(xiàn)狀及投資規(guī)劃建議報告
- 2024年食品檢驗行業(yè)市場深度分析及投資戰(zhàn)略規(guī)劃建議報告
- 2025年度新能源公交車駕駛員聘用與績效管理協(xié)議
- 廢料回收相關(guān)行業(yè)投資規(guī)劃報告范文
- 2025年度酒店總經(jīng)理任期法律法規(guī)遵守與合規(guī)性合同
- 2024年再生資源回收市場全景評估及發(fā)展趨勢研究預測報告
- 2025年無刷爬坡王后轂剎電機行業(yè)深度研究分析報告
- 2025年度建筑電氣設(shè)計與施工合同范本-@-1
- 中國核電泵市場運營態(tài)勢分析及投資前景預測報告
- 2025-2031年中國口腔修復膜行業(yè)市場全景監(jiān)測及投資戰(zhàn)略咨詢報告
- 島津氣相色譜培訓
- 2024年03月四川農(nóng)村商業(yè)聯(lián)合銀行信息科技部2024年校園招考300名工作人員筆試歷年參考題庫附帶答案詳解
- 睡眠專業(yè)知識培訓課件
- 臨床思維能力培養(yǎng)
- 人教版高中物理必修第三冊第十章靜電場中的能量10-1電勢能和電勢練習含答案
- 《工程勘察設(shè)計收費標準》(2002年修訂本)
- 中國宗教文化 中國古代宗教文化的特點及現(xiàn)代意義
- 2024年四川省巴中市級事業(yè)單位選聘15人歷年高頻難、易錯點練習500題附帶答案詳解
- 演出經(jīng)紀人培訓
- 蓋房四鄰簽字協(xié)議書范文
- 2024年新人教版七年級上冊數(shù)學教學課件 第六章 幾何圖形初步 數(shù)學活動
評論
0/150
提交評論