生物信息學考試重點_第1頁
生物信息學考試重點_第2頁
生物信息學考試重點_第3頁
生物信息學考試重點_第4頁
生物信息學考試重點_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、1.生物信息學:生物信息學包含了生物信息的獲取、處理、分析、和解釋等在內的一門交叉學科;它綜合運用了數學、計算機學和生物學的各種工具來進行研究;目的在于闡明大量生物學數據所包含的生物學意義。2.BLAST 直譯:基本局部排比搜索工具意譯:基于局部序列排比的常用數據庫搜索工具含義:蛋白質和核酸序列數據庫搜索軟件系統(tǒng)及相關數據庫3.PSI-BLAST:是一種迭代的搜索方法,可以提高BLAST和FASTA的相似序列發(fā)現率。4.一致序列:這些序列是指把多序列聯(lián)配的信息壓縮至單條序列,主要的缺點是除了在特定位置最常見的殘基之外,它們不能表示任何概率信息。5.HMM隱馬爾可夫模型:是蛋白質結構域家族序列的

2、一種嚴格的統(tǒng)計模型,包括序列的匹配,插入和缺失狀態(tài),并根據每種狀態(tài)的概率分布和狀態(tài)間的相互轉換來生成蛋白質序列。6.信息位點:由位點產生的突變數目把其中的一課樹與其他樹區(qū)分開的位點。7.非信息位點:對于最大簡約法來說沒有意義的點。8.標度樹:分支長度與相鄰節(jié)點對的差異程度成正比的樹。9.非標度樹:只表示親緣關系無差異程度信息。10.有根樹:單一的節(jié)點能指派為共同的祖先,從祖先節(jié)點只有唯一的路徑歷經進化到達其他任何節(jié)點。11.無根樹:只表明節(jié)點間的關系,無進化發(fā)生方向的信息,通過引入外群或外部參考物種,可以在無根樹中指派根節(jié)點。12.注釋:指從原始序列數據中獲得有用的生物學信息。這主要是指在基因

3、組DNA中尋找基因和其他功能元件(結構注釋,并給出這些序列的功能(功能注釋。13.聚類分析:一種通過將相似的數據劃分到特定的組中以簡化大規(guī)模數據集的方法。14.ESI電噴霧離子化:一種適合大分子如蛋白質離子化沒有明顯降解的質譜技術。樣品溶解后從高電壓控制下的細針中噴出,形成的帶電荷微小液滴從一個小孔直接進入質譜儀的真空室中,在其鐘被一股惰性氣體干燥形成氣態(tài)離子,這些氣態(tài)離子從分析儀向探測器加速(飛行。15.機制輔助的激光解析/離子化(MAIDI:這一技術通過質譜產生離子,這適合于沒有降解的大蛋白質的分析?;驹硎菍⒎治鑫锓稚⒃跈C制分子中并形成晶體,當用激光照射晶體時,基質分子吸收激光能量,樣

4、品解吸附,基質-樣品之間發(fā)生電荷轉移使樣品電子分離。16.質譜(MS:是一種準確測定真空中離子的分子質量/電荷比(m/z的方法,從而使分子質量的準確確定成為可能?;驹?將分析物分散在基質分子中并形成晶體,當用激光照射晶體時,基質分子吸收激光能量,樣品解吸附,基質樣品之間發(fā)生電荷轉移使樣品分子電離。17.微陣列芯片:將探針有規(guī)律地排列固定于載體上,與標記熒光分子的樣品進行雜交,通過掃描儀掃描對熒光信號的強度進行檢測,從而迅速得出所要的信息。18.虛擬消化:是在已知蛋白質序列和蛋白外切酶之類切斷試劑的已知特異性的基礎上,由計算機進行的一種理論上的蛋白裂解反應。19.分子途徑是指一組連續(xù)起作用以

5、達到共同目標的蛋白質。20.虛擬細胞:一種建模手段,把細胞定義為許多結構,分子,反應和物質流的集合體。21.先導化合物:是指具有一定藥理活性的、可通過結構改造來優(yōu)化其藥理特性而可能導致藥物發(fā)現的特殊化合物。就是利用計算機在含有大量化合物三維結構的數據庫中,搜索能與生物大分子靶點匹配的化合物,或者搜索能與結合藥效團相符的化合物,又稱原型物,簡稱先導物,是通過各種途徑或方法得到的具有生物活性的化學結構22.權重矩陣(序列輪廓:是一種描繪蛋白質結構域家族相序列的方法。它們表示完全結構域序列,多序列聯(lián)配中每個位點的氨基酸都有分值,并且特定位置插入或缺失的可能性均有一定的衡量方法。(課件定義基礎上針對特

6、定的應用目標而建立的數據庫。23.系統(tǒng)發(fā)育學(phylogenetic:確定生物體間進化關系的科學分支。24.系統(tǒng)生物學(systems biology:是研究一個生物系統(tǒng)中所有組分成分(基因、mRNA、蛋白質等的構成以及在特定條件下這些組分間的相互關系,并分析生物系統(tǒng)在一定時間內的動力學過程25.蛋白質組(proteome:是指一個基因組、一種生物或一個細胞/組織的基因組所表達的全套蛋白質。26.進化樹:物種的進化被表現成為一系列的分叉,并符合分類理論,這些樹就叫做進化樹。27.DBGET/LinkDB:由日本的化學研究所和人類基因組中心所開發(fā)的在線數據檢索工具。也見Entrez,SRS。2

7、8.肽指紋圖譜:蛋白質注釋的一種方法,用質譜技術確定肽分子量(由蛋白酶消化產生并用來搜索蛋白質數據庫找到與“虛擬消化”蛋白質相匹配項。29.E值:對某個已識別出的相似度值S,E值是分值大于等于S的期望頻率,改值可以被理解為期望隨機得到等于S或大于S值的分值數目。30.相似度表和距離表:使顯示物種間一套選定字符的相關性的表格,采用匹配的百分比(相似度表或者差異的百分比(距離表來表示。31.無監(jiān)督分析法:這種方法沒有內建的分類標準,組的數目和類型只決定于所使用的算法和數據本身的分析方法。有監(jiān)督分析法:這種方法引入某些形式的分類系統(tǒng),從而將表達模式分配到一個或多個預定義的類目中。32.距離矩陣法:首

8、先通過各個物種之間的比較,根據一定的假設(進化距離模型推到得出分類群之間的進化距離,構建一個進化距離矩陣,其次基于這個矩陣中的進化距離關系構建進化樹;最大簡約法:該法依據在任何位置將一條序列轉變成另一條序列所需要突變的最少數量對序列進行比較和聚類;最大似然法:該模型可將一個給定替代發(fā)生在序列中任何位置的概率融合進算法,該方法計算序列中每個位置的一個給定序列變化的可能性,最可靠的樹為總的可能性最大的那棵。33.一級數據庫:數據庫中的數據直接來源于實驗獲得的原始數據,只經過簡單的歸類整理和注釋;二級數據庫:對原始生物分子數據進行整理、分類的結果,即非原始的實驗數據,是在一級數據庫、實驗數據和理論分

9、析的基礎上針對特定的應用目標而建立的。1. 常用的三種序列格式:NBRF/PIR,FASTA和GDE2. 三個核算序列數據庫:GenBank,EMBL和DDBJ3. 蛋白質序列數據庫:SWISS-PROT和TrEMBL4. 提供蛋白質功能注釋信息的數據庫:KEGG(京都基因和基因組百科全書和PIR(蛋白質信息資源 5. 目前由NCBI維護的大型文獻資源是PubMed6. 數據庫常用的數據檢索工具:Entrez,SRS,DBGET7. 常用的序列搜索方法:FASTA和BLAST8. 高分值局部聯(lián)配的BLAST術語是HSPs(高分值片段對,E(期望值9. 多序列聯(lián)配的常用軟件:Clustal 10

10、. 蛋白質結構域家族的數據庫有:Pfam,SMART11. 系統(tǒng)發(fā)育學的研究方法有:表現型分類法,遺傳分類法和進化分類法12. 系統(tǒng)發(fā)育樹的構建方法:距離矩陣法,最大簡約法和最大似然法13. 常用系統(tǒng)發(fā)育分析軟件:PHYLIP14. 檢測系統(tǒng)發(fā)育樹可靠性的技術:bootstrapping和Jack-knifing16. 查找簡單基因的程序:NCBI ORF finder17. 測試基因預測程序正確預測基因的能力的項目是GASP(基因預測評估項目18. 二級結構的三種狀態(tài):螺旋,折疊和轉角19. 用于蛋白質二級結構預測的基本神經網絡模型為三層的前饋網絡,包括輸入層,隱含層和輸出層20. 通過比較

11、建模預測蛋白質結構的軟件有SWISSMODEL網站21. 蛋白質質譜數據搜索工具:SEQUEST(原理:經試驗確定的肽或肽片段的質譜與數據庫中預測的質譜進行匹配。22. 分子途徑最廣泛數據庫:KEGG23.聚類分析方法,分為有監(jiān)督學習方法,無監(jiān)督學習方法Entrez搜索:PubMed的文獻數據庫MEDLINE。SRS搜索方式:標準搜索,擴展搜索。1. FASTA序列格式:第一行以“”開頭但并沒有指明是蛋白質還是核酸序列。后跟代碼,接著是注釋(在同一行,通常注釋要以“|”符號相隔,第一行沒有長度限制。值得注意的是FASTA文件允許以小寫字母表示氨基酸。文件擴展名為“.fasta”。NBIR/PI

12、R序列格式:第一行以“”開頭,后面緊跟兩字母編碼(P1代表蛋白質序列, N1代表核酸,再接一個分號,分號后緊跟序列標識號。后面是說明行,該行可長可短,沒有長度限制。接下來是序列本身,以“*”號終止。文件的擴展名為“.pir”或“.seq”。GDE序列格式:與FASTA的格式基本相同,但行首為“%”,文件擴展名為“.gde”。 2. BLAST的五個子程序(1Blastp,用蛋白質查詢蛋白質序列,可以找到具有遠源進化關系的匹配序列,方法是用待搜索蛋白序列與蛋白數據庫比較。(2Blastn,用核苷酸查詢核苷酸序列,適合尋找分值較高的匹配,不適合遠源關系,待搜索核酸序列與核酸數據庫比較(3Blast

13、x,用蛋白質查詢已翻譯核苷酸序列,適合新DNA序列和EST 序列的分析,將待搜索核酸序列按6個讀框翻譯成蛋白質序列,然后與數據庫中的蛋白質比較。(4Tblastn,用已翻譯核苷酸查詢蛋白質,適合尋找數據庫中尚未標注的編碼區(qū),將數據庫中核酸序列按6個讀框翻譯成蛋白序列,然后與待搜索蛋白序列對比。(5 Tblastx,用已翻譯核苷酸查詢已翻譯核苷酸序列。適合分析EST序列,無論是待搜索核酸序列還是數據庫中核酸序列,都按6個讀框翻譯成蛋白序列。4. PSI-Blast的原理:是一種將雙序列比對和多序列比對結合在一起的數據庫搜索方法。其主要思想是通過多次迭代找出最佳結果。每次迭代都發(fā)現一些中間序列,用

14、于在接下去的迭代中尋找查詢序列的更多疏遠相關序列(拓展了序列進化關系的覆蓋面積。具體做法是最初對查詢序列進行BLAST搜索。接著把這次查找得到的每一擊中項(高于選擇的E值的選項作為BLAST搜索第二次迭代的查詢序列。第二次迭代應該找到比最初查詢序列更多的進化關系,重復(迭代這個過程直到找不到有意義的相似序列為止。5.系統(tǒng)法發(fā)育樹有多可靠:第一,如果不同方法構建樹能得出同樣的結果,這可是很好證明該樹是可信的。第二,數據可以被重新取樣,來檢測他們系統(tǒng)上的重要性。在一種被稱為bootsrapping的技術中,數據被隨機從多序列聯(lián)配的任何位置取樣,接著被整合進入新的人工聯(lián)配,這些聯(lián)配之后通過構建樹來檢

15、測。由于取樣是隨機的,一些位置可能被多次取樣,而另一些則沒由被取樣過。Jack-knifing是一種和上述相似的過程,其中50%的原始數據被重新取樣構成一個新的矩陣,再從該矩陣重新構建系統(tǒng)發(fā)育關系。7.原核生物和真核生物基因組中的注釋所涉及的不同問題:在原核生物中,基因密度很高(也就是說,只有很少的基因組DNA并且絕大多數基因不含內含子。在真核生物中,基因密度下降并且由于物種自身復雜的增高而使基因復雜度也增高。因此,在高等真核生物基因組中尋找基因可能會非常困難。9. 預測蛋白質三級結構的三種方法 1同源建模法:依據蛋白質與已知結構蛋白比對信息構建3D模型; 2折疊識別法:尋找與未知蛋白最合適的

16、模板,進行序列與結構比對,最終建立結構模型; 3從頭預測法:根據序列本身從頭預測蛋白質結構。11. 先導化合物的來源有四種來源: 1通過偶然性觀察發(fā)現的先導化合物(這個方法最著名的例子就是亞歷山大.弗萊明發(fā)現的青霉素,今天所用的許多抗生素皆由其發(fā)展出來 2也可以通過替代療法的藥物開發(fā)中發(fā)現的藥物副作用來識別先導化合物(例如,鎮(zhèn)定劑氯化物丙嫀是在試驗中發(fā)現用在抗組胺劑時被發(fā)現的 3先導化合物也可以來自傳統(tǒng)醫(yī)藥學(如奎寧化合物就來自金雞納的樹皮 4先導化合物也可以來自天然的底物或是配體(比如說,腎上腺素作為舒喘寧的類似物用來治療哮喘12. 簡述DNA計算機的基本原理: 1以編碼生命信息的遺傳物質D

17、NA序列,作為信息編碼的載體,利用DNA分子的雙螺旋結構和堿基互補配對的性質,將所要處理的問題映射為特定的DNA分子;2在生物酶的作用下,通過可控的生化反應生成問題的解空間;最后利用各種現代分子生物技術如聚合酶鏈反應RCR、超聲波降解、親和層析、分子純化、電泳、磁珠分離等手段破獲運算結果。.DNA計算機優(yōu)點:低能耗、存儲容量高、運算速度快,可真正實現并行工作。13. 簡述DNA計算實現方式中,表面方式與試管方式相比具有哪些優(yōu)點?試管方式:就是在一個或多個試管的溶液里進行生化反應;表面方式:是將對應的解空間的DNA分子固定在一塊固體上,其次進行各種生化反應,或是在表面逐步形成解空間,然后根據具體

18、問題對所有可能的解進行篩選,最后得到運算結果。優(yōu)點:(1操作簡單,易于實現自動化操作;(2減少人為操作過程中造成的DNA分子的丟失及其它操作失誤;(3減少分子在表面上的相互作用,同時增強分子間的特異性結合;(4信息儲存密度大,據估計,10毫克DNA表面上的儲存密度是傳統(tǒng)計算姬的10的8次方倍,而在溶液中僅為10的5次方倍;(5結果易于純化。14. 簡述PCR引物設計的基本原則及其注意要點原則:首先引物與模板的序列要緊密互補,其次引物與引物之間避免形成穩(wěn)定的二聚體或發(fā)夾結構,再次引物不能再模板的非等位點引發(fā)DNA聚合反應(即錯配。注意要點:1、引物的長度一般為15-30bp,常用的是18-27b

19、p,但不應大于38,因為過長會導致其延伸溫度大于74,不適合于TaqDNA聚合酶進行反應。2、引物序列在模板內應當沒有相似性較高,尤其是3端相似性較高的序列,否則容易導致錯配。引物3端出現3個以上的連續(xù)堿基,如GGG或CCC,也會使錯誤引發(fā)幾率增加。3、引物3端的末位堿基對Taq酶的DNA合成效率有較大的影響。不同的末位堿基在錯配位置導致不同的擴增效率,末位堿基為A的錯配效率明顯高于其他3個堿基,因此應當避免在引物的3端使用堿基。另外,引物二聚體或發(fā)夾結構也可能導致PCR反應失敗。5端序列對PCR影響不太大,因此常用來引進修飾位點或標記物。4、引物序列的GC 含量一般為40-60%,過高或過低

20、都不利于引發(fā)反應。上下游引物的GC含量不能相差太大。5、引物所對應模板位置序列的Tm值在72左右可使復性條件最佳。Tm值的計算有很多種方法,如按公式Tm=4(G+C+2(A+T,在Oligo軟件中使用的是最鄰近法(thenearestneighbormethod。6、G值是指DNA雙鏈形成所需的自由能,該值反映了雙鏈結構內部堿基對的相對穩(wěn)定性。應當選用3端G值較低(絕對值不超過9,而在5端和中間G值相對較高的引物。引物的3端的G值過高,容易在錯配位點形成雙鏈結構并引發(fā)DNA聚合反應。7、引物二聚體及發(fā)夾結構的能值過高(超過4.5kcal/mol易導致產生引物二聚體帶,并且降低引物有效濃度而使P

21、CR反應不能正常進行。8、對引物的修飾一般是在5端增加酶切位點,應根據下一步實驗中要插入PCR產物的載體的相應序列而確定。15. 假設你得到一段未知基因的DNA序列,從你學習到的生物信息學分析方法和軟件,設計一個分析流程來分析該未知基因的功能和家族類別(包括系統(tǒng)發(fā)育樹構建1、得到未知基因的DNA序列,用Blast做序列比對,找出與其基因相似的核苷酸序列和蛋白質序列。2、接著,用搜索出來的較相似的序列用ClustW進行多序列比對,得到該序列的保守情況和突變情況。3、最后用距離法構建系統(tǒng)發(fā)育樹。16. 假設你得到一段未知蛋白的氨基酸序列,從你學習到的生物信息學分析方法和軟件,設計一個分析流程來分析該未知蛋白的功能和家族類別以及其結構預測。1、用該序列進行BLASTP搜索。2、再對其進行蛋白質結構域、功能域的搜索,可以用Znterproscan、Pfam,并對其進行結構分

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論