2021年生物信息學(xué)題庫精校整理_第1頁
2021年生物信息學(xué)題庫精校整理_第2頁
2021年生物信息學(xué)題庫精校整理_第3頁
2021年生物信息學(xué)題庫精校整理_第4頁
2021年生物信息學(xué)題庫精校整理_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

ADDINCNKISM.UserStyle生物信息學(xué)題庫一、名詞解釋1、生物信息學(xué):生物分子信息獲取、存貯、分析和運用;以數(shù)學(xué)為基本,應(yīng)用計算機技術(shù),研究生物學(xué)數(shù)據(jù)科學(xué)。2、相似性(similarity):相似性是指序列比對過程中用來描述檢測序列和目的序列之間相似DNA堿基或氨基酸殘基順序所占比例高低。3、同源性(homology):生物進化過程中源于同一祖先分支之間關(guān)系。4、BLAST(BasicLocalAlignmentSearchTool):基我局部比對搜索工具,用于相似性搜索工具,對需要進行檢索序列與數(shù)據(jù)庫中每個序列做相似性比較。5、HMM隱馬爾可夫模型:是蛋白質(zhì)構(gòu)造域家族序列一種嚴格記錄模型,涉及序列匹配,插入和缺失狀態(tài),并依照每種狀態(tài)概率分布和狀態(tài)間互相轉(zhuǎn)換來生成蛋白質(zhì)序列。6、一級數(shù)據(jù)庫:一級數(shù)據(jù)庫中數(shù)據(jù)直接來源于實驗獲得原始數(shù)據(jù),只通過簡樸歸類整頓和注釋(投稿文章一方面要將核苷酸序列或蛋白質(zhì)序列提交到相應(yīng)數(shù)據(jù)庫中)7、二級數(shù)據(jù)庫:對原始生物分子數(shù)據(jù)進行整頓、分類成果,是在一級數(shù)據(jù)庫、實驗數(shù)據(jù)和理論分析基本上針對特定應(yīng)用目的而建立。8、GenBank:是具備目錄和生物學(xué)注釋核酸序列綜合公共數(shù)據(jù)庫,由NCBI構(gòu)建和維護。9、EMBL:EMBL實驗室:歐洲分子生物學(xué)實驗室。EMBL數(shù)據(jù)庫:是非賺錢性學(xué)術(shù)組織EMBL建立綜合性數(shù)據(jù)庫,EMBL核酸數(shù)據(jù)庫是歐洲最重要核酸序列數(shù)據(jù)庫,它定期地與美國GenBank、日本DDBJ數(shù)據(jù)庫中數(shù)據(jù)進行互換,并同步更新。10、DDBJ:日本核酸序列數(shù)據(jù)庫,是亞洲唯一核酸序列數(shù)據(jù)庫。11、Entrez:是由NCBI主持一種數(shù)據(jù)庫檢索系統(tǒng),它涉及核酸,蛋白以及Medline文摘數(shù)據(jù)庫,在這三個數(shù)據(jù)庫中建立了非常完善聯(lián)系。12、SRS(sequenceretrievalsystem):序列查詢系統(tǒng),是EBI提供多數(shù)據(jù)庫查詢工具之一。有與Entrez類似功能,還提供一系列序列分析工具,可以直接進行在線序列分析解決。13、EST:收集大量cDAN或EST序列以及其她有關(guān)信息,當前最大公共表達序列數(shù)據(jù)庫。14、GSS:GeneBank數(shù)據(jù)庫一某些,收集基因組DNA克隆測序序列。15、GEO:基因表達精選集是一種儲存高通量功能基因組學(xué)數(shù)據(jù)數(shù)據(jù)庫。16、SCOP數(shù)據(jù)庫:提供關(guān)于已知構(gòu)造蛋白質(zhì)之間構(gòu)造和進化關(guān)系詳細描述,涉及蛋白質(zhì)構(gòu)造數(shù)據(jù)庫PDB中所有條目。17、PROSITE:是蛋白質(zhì)家族和構(gòu)造域數(shù)據(jù)庫,包括具備生物學(xué)意義位點、模式、可協(xié)助辨認蛋白質(zhì)家族記錄特性。18、RefSeq:是一種收錄注釋過非冗余轉(zhuǎn)錄本、蛋白質(zhì)和基因組序列數(shù)據(jù)庫。19、構(gòu)造域Structuredomain:構(gòu)造域,是在蛋白質(zhì)三級構(gòu)造中介于二級和三級構(gòu)造之間可以明顯區(qū)別但又相對獨立折疊單元。20、開放閱讀框ORF:開放閱讀框,位于DNA或RNA上起始密碼子與終結(jié)密碼子之間序列。21、啟動子Promoter:啟動子是基因一種構(gòu)成某些,是位于構(gòu)造基因5‘端上游區(qū)DNA序列,控制基因表達(轉(zhuǎn)錄)起始時間和表達限度。22、3’UTR:3’非翻譯區(qū)縮寫,真核生物轉(zhuǎn)錄終結(jié)信號是在3’非翻譯區(qū):polyA。23、CpGisland:是在哺乳動物基因組中一種500bp到300bp區(qū)域,富含GC。24、模體Motif:又稱模體,蛋白質(zhì)序列中短保守區(qū)域,它們是構(gòu)造域中保守性很高某些。25、PDB(ProteinDataBank):蛋白質(zhì)構(gòu)造數(shù)據(jù)庫,是國際上知名生物大分子構(gòu)造數(shù)據(jù)庫,由美國Brookhaven國家實驗室建立。26、打分矩陣(scoringmatrix):在相似性檢索中對序列兩兩比對質(zhì)量評估辦法。涉及基于理論(如考慮核酸和氨基酸之間類似性)和實際進化距離(如PAM)兩類辦法。27、遺傳連鎖圖:又叫遺傳圖譜(geneticmap)是以具備遺傳多態(tài)性遺傳標記為“路標”,以遺傳學(xué)距離為圖距基因組圖。28、蛋白質(zhì)組(proteom):是指一種基因組、一種生物或一種細胞/組織基因組所表達全套蛋白質(zhì)。29、基因組學(xué):研究生物基因組和如何運用基因一門學(xué)問。30、比較基因組學(xué):是在基因組圖譜和測序基本上,運用某個基因組研究獲得信息推測其她原核生物、真核生物類群中基因數(shù)目、位置、功能、表達機制和物種進化學(xué)科。31、FASTA序列格式:是將DNA或者蛋白質(zhì)序列表達為一種帶有某些標記核苷酸或者氨基酸字符串,不不大于號(>)表達一種新文獻開始,其她無特殊規(guī)定。32、genbank序列格式:是GenBank數(shù)據(jù)庫基本信息單位,是最為廣泛生物信息學(xué)序列格式之一。該文獻格式按域劃分為4個某些:第一某些包括整個記錄信息(描述符);第二某些包括注釋;第三某些是引文區(qū),提供了這個記錄科學(xué)根據(jù);第四某些是核苷酸序列自身,以“//”結(jié)尾。33、查詢序列(querysequence):也稱被檢索序列,用來在數(shù)據(jù)庫中檢索并進行相似性比較序列。34、空位(gap):在序列比對時,由于序列長度不同,需要插入一種或幾種位點以獲得最佳比對成果,這樣在其中一序列上產(chǎn)生中斷現(xiàn)象,這些中斷位點稱為空位。P2935、空位罰分:空位罰分是為了補償插入和缺失對序列相似性影響,序列中空位引入不代表真正進化事件,因此要對其進行罰分,空位罰分多少直接影響對比成果。P3736、E值:衡量序列之間相似性與否明顯盼望值。E值大小闡明了可以找到與查詢序列(query)相匹配隨機或無關(guān)序列概率,E值越接近零,越不也許找到其她匹配序列,E值越小意味著序列相似性偶爾發(fā)生機會越小,也即相似性越能反映真實生物學(xué)意義。P9537、低復(fù)雜度區(qū)域:BLAST搜索過濾選項。指序列中包括重復(fù)度高區(qū)域,如poly(A)。38、點矩陣(dotmatrix):構(gòu)建一種二維矩陣,其X軸是一條序列,Y軸是另一種序列,然后在2個序列相似堿基相應(yīng)位置(x,y)加點,如果兩條序列完全相似則會形成一條主對角線,如果兩條序列相似則會浮現(xiàn)一條或者幾條直線;如果完全沒有相似性則不能連成直線。39、多序列比對:通過序列相似性檢索得到許多相似性序列,將這些序列做一種總體比對,以觀測它們在構(gòu)造上異同,來回答大量生物學(xué)問題。40、分子鐘:以為分子進化速率是恒定或者幾乎恒定假說,從而可以通過度子進化推斷出物種來源時間。41、系統(tǒng)發(fā)育分析:通過一組有關(guān)基因或者蛋白質(zhì)多序列比對或其她性狀,可以研究推斷不同物種或基因之間進化關(guān)系。42、進化樹二歧分叉構(gòu)造:指在進化樹上任何一種分支節(jié)點,一種父分支都只能被提成兩個子分支。43、系統(tǒng)發(fā)育圖:用枝長表達進化時間系統(tǒng)樹稱為系統(tǒng)發(fā)育圖,是引入時間概念支序圖。44、直系同源:指由于物種形成事件來自一種共同祖先不同物種中同源序列,具備相似或不同功能。(書:在缺少任何基因復(fù)制證據(jù)狀況下,具備共同祖先和相似功能同源基因。)45、旁系(并系)同源:指同一種物種中具備共同祖先,通過基因重復(fù)產(chǎn)生一組基因,這些基因在功能上也許發(fā)生了變化。(書:由于基因重復(fù)事件產(chǎn)生相似序列。)46、外類群:是進化樹中處在一組被分析物種之外,具備相近親緣關(guān)系物種。47、除權(quán)配對算法(UPGMA):最初,每個序列歸為一類,然后找到距離近來兩類將其歸為一類,定義為一種節(jié)點,重復(fù)這個過程,直到所有聚類被加入,最后產(chǎn)生樹根。48、鄰接法(neighbor-joiningmethod):是一種不但僅計算兩兩比對距離,還對整個樹長度進行最小化,從而對樹拓撲構(gòu)造進行限制,可以克服UPGMA算法規(guī)定進化速率保持恒定缺陷。49、最大簡約法(MP):在一系列可以解釋序列差別進化樹中找到具備至少核酸或氨基酸替代進化樹。50、最大似然法(ML):它對每個也許進化位點分派一種概率,然后綜合所有位點,找到概率最大進化樹。最大似然法容許采用不同進化模型對變異進行分析評估,并在此基本上構(gòu)建系統(tǒng)發(fā)育樹。51、自舉法檢查(Bootstrap):放回式抽樣記錄法。通過對數(shù)據(jù)集多次重復(fù)取樣,構(gòu)建各種進化樹,用來檢查給定樹分枝可信度。52、密碼子偏好性(codonbias):氨基酸同義密碼子使用頻率與相應(yīng)同功tRNA水平相一致,大多數(shù)高效表達基因僅使用那些含量高同功tRNA所相應(yīng)密碼子,這種效應(yīng)稱為密碼子偏好性。53、基因預(yù)測從頭分析:根據(jù)綜合運用基因特性,如剪接位點,內(nèi)含子與外顯子邊界,調(diào)控區(qū),預(yù)測基因組序列中包括基因。54、超家族:進化上有關(guān),功能也許不同一類蛋白質(zhì)。55、序列表譜(profile):是一種特殊位點或模體序列,在多序列比較基本上,氨基酸權(quán)值和空位罰分表格。56、PAM矩陣:PAM指可接受突變百分率。一種氨基酸在進化中變成另一種氨基酸也許性,通過這種也許性可以鑒定蛋白質(zhì)之間相似性,并產(chǎn)生蛋白質(zhì)之間比對。一種PAM單位是蛋白質(zhì)序列平均發(fā)生1%代替量需要進化時間。57、BLOSUM矩陣:模塊代替矩陣。矩陣中每個位點分值來自蛋白比對局部塊中代替頻率觀測。每個矩陣適合特定進化距離。例如,在BLOSUM62矩陣中,比對分值來自不超過62%一致率一組序列。58、PSI-BLAST:位點特異性迭代比對。是一種專門化比對,通過調(diào)節(jié)序列打分矩陣(scoringmatrix)探測遠緣有關(guān)蛋白。59、RefSeq:給出了相應(yīng)于基因和蛋白質(zhì)索引號碼,相應(yīng)于最穩(wěn)定、最被人承認Genbank序列。60、有根樹:單一節(jié)點能指派為共同祖先,從祖先節(jié)點只有唯一途徑歷經(jīng)進化到達其她任何節(jié)點。61、無根樹:只表白節(jié)點間關(guān)系,無進化發(fā)生方向信息,通過引入外群或外部參照物種,可以在無根樹中指派根節(jié)點。62、一致樹(consensustree):在同一算法中產(chǎn)生各種最優(yōu)樹,合并這些最優(yōu)樹得到樹即一致樹。63、分子進化樹(molecularevolutionarytree):在研究生物進化和系統(tǒng)分類中,慣用一種類似樹狀分支圖形來概括各種(類)生物之間親緣關(guān)系,這種樹狀分支圖形成為系統(tǒng)發(fā)育樹(phylogenetictree)。二、填空1、1970年Needleman和Wunsch提出了知名序列比對算法,是生物信息學(xué)發(fā)展中最重要貢獻2、20世紀90年代后,HGP增進生物信息學(xué)迅速發(fā)展3、HGP選取作為研究人類四大“模式生物”有酵母、線蟲、果蠅、小鼠4、在人遺傳連鎖圖譜上,1cM物理距離大概為1000000核苷酸5、基因組測序基本方略有逐個克隆法和全基因組鳥槍法6、國際上三大生物信息學(xué)中心有:NCBI,EBI和CIB7、國際上最重要核酸初級序列數(shù)據(jù)庫有:GeneBank,EMBL和DDBJ8、國際上最重要蛋白質(zhì)序列數(shù)據(jù)庫:SWISS-PROT和PIR9、慣用序列搜索辦法:FASTA和BLAST10、當前由NCBI維護大型文獻資源是PubMed11、數(shù)據(jù)庫慣用數(shù)據(jù)檢索工具:Entrez,SRS12、多序列聯(lián)配慣用軟件:Clustal13、在生物學(xué)中慣用兩種動態(tài)規(guī)劃算法分別有:Needleman-Wunsch和Smith-Waterman14、在用BLAST進行核酸序列查詢時,查詢序列和數(shù)據(jù)庫中被比對上序列之間與否明顯性相似可用E值來度量,E值越大,相似性越小,E值越小,相似性越大。生物學(xué)意義上相似兩條序列,其E值遠不大于1.015、寫出如下標注含義:LOCUS是基因座位,DEFINITION是基因定義,ACCESSION是登錄號,VERSION是版本號,SOURCE是來源物種16、檢測原核生物ORF程序:NCBI-ORFfinder17、二級構(gòu)造狀態(tài)有:α螺旋,β折疊,β轉(zhuǎn)角,無規(guī)則卷曲18、對于任一DNA序列(或cDNA序列),也許存在6種不同閱讀框,其中3個為正向,3個為反向19、原核生物啟動子有兩段保守序列,即-10區(qū)左右TATAAT,以及-35區(qū)左右TTGACA,它們?yōu)镽NA聚合酶結(jié)合位點和辨認位點20、蛋白質(zhì)同源構(gòu)造建??梢允褂迷诰€免費預(yù)測工具swiss-model21.系統(tǒng)發(fā)育樹重要三種構(gòu)建辦法:距離矩陣法、最大簡約法、最大似然法。22、可使用Oligo6軟件進行引物設(shè)計。23.寫出如下pubmed檢索時慣用限制字段含義:[au]作者、[ti]標題、[dp]刊登日期、[affiliation]地址三、選取1、(C)是當前國際上最重要核酸序列數(shù)據(jù)庫A.EBIB.PDBC.GenBankD.NCBI2、基我局部比對搜素工具是(C)A.MegaB.ClustalWC.BLASTD.GCG3、單核苷酸標記是(B)A.RFLPB.SNPC.SSRD.RAPD4、提交序列到GenBank中,使用程序可以是(D)A.EntrezB.SRSC.MedlineD.BankIt5、人類基因組籌劃沒有籌劃完畢幾張圖譜分別是(D)A.物理圖譜B.遺傳圖譜C.序列圖譜D.生物圖譜6、最慣用序列相似性查詢工具是(B)A.PIRB.BLASTC.SWISS-PROTD.PDB7、下列哪些分子類型不屬于非蛋白質(zhì)編碼區(qū)(C)A.內(nèi)含子B.衛(wèi)星DNAC.外顯子D.啟動子8、衛(wèi)星DNA多態(tài)性是由(B)所決定。A.DNA點突變個數(shù)B.限制性內(nèi)切酶辨認序列個數(shù)不同C.DNA二級構(gòu)造不同D.重復(fù)單位不同9、真核基因組特點不涉及(B)A.基因組大,巨大非編碼序列,重復(fù)序列占了絕大某些B.基因構(gòu)造復(fù)雜,有明顯長度開放閱讀框C.存在可變剪接D.CpG島10、PDB是蛋白質(zhì)(B)A.分類數(shù)據(jù)庫B.構(gòu)造數(shù)據(jù)庫C.核酸數(shù)據(jù)庫D.模體數(shù)據(jù)庫11、依照研究發(fā)現(xiàn),人類基因組中真正編碼蛋白質(zhì)區(qū)域僅占DNA序列(A)A.1-2%B.3-5%C.5-10%D.10-20%12、在真核生物一種基因內(nèi)含子兩端,即外顯子/內(nèi)含子拼接邊界處,其符合(B)規(guī)則。A.KozakB.GT?AGC.SDD.Poly(A)13、PIR是(D)A.分類數(shù)據(jù)庫B.核酸數(shù)據(jù)庫C.mRNA數(shù)據(jù)庫D.蛋白質(zhì)數(shù)據(jù)庫14、alignment含義是(C)A.登錄號B.算法C.比對D.分類15、隱馬爾科夫模型代號是(A)A.HMMB.CDDC.HTGSD.GSS16、DNA中Tm值與(B)含量成正比A.G+AB.G+CC.T+CD.A+T17、OMIM是(A)A.在線人類孟德爾遺傳數(shù)據(jù)庫B.國家核酸數(shù)據(jù)庫C.人類基因組籌劃D.水稻基因組籌劃18、被譽為“生物信息學(xué)之父”科學(xué)家是(D)A.DulbeccoB.SangerC.吳瑞D.林華安19、下列Fasta格式對的是(B)A.seq1:agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactcccttaB.>seq1agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactcccttaC.seq1:agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactcccttaD.>seq1agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta20、國際三大核酸數(shù)據(jù)庫每間隔多長時間就互相互換數(shù)據(jù)庫里數(shù)據(jù)(A)A.每天B.7天C.10天D.一種月21、UTR含義是(B)A.編碼區(qū)B.非編碼區(qū)C.低復(fù)雜度區(qū)域D.開放閱讀框22、如下數(shù)據(jù)庫不能用于檢索核酸序列是(B)A.GenBankB.PDBC.EMBLD.DDBJ23、進行多序列比對常使用哪種軟件(C)A.DockB.ComputepI/MWC.ClustalD.Rasmol24、對于遠源蛋白質(zhì)序列,在進行多序列比對時候應(yīng)選用下面哪一種矩陣(B)A.BLOSUM62B.BLOSUM30C.PAM100D.結(jié)合基序打分矩陣25、對于蛋白質(zhì)同源構(gòu)造模建,普通規(guī)定待模建序列與模板序列一致性超過(D)A.60%B.50%C.40%D.30%26、對于搜索不到同源模板蛋白質(zhì),可嘗試用如下哪種辦法模建構(gòu)(A)A.Threading法B.SWISS-MODEL網(wǎng)絡(luò)服務(wù)器C.Homology法D.沒有辦法模建27、給定一段核酸序列,可通過什么辦法查找上面蛋白質(zhì)編碼區(qū)(A)A.ORFFinderB.CpGPlotC.SWISS-MODELD.Dock28、預(yù)測蛋白質(zhì)上跨膜區(qū),可使用如下哪種軟件或辦法(D)A.GeneSplicerB.Chou-Fasman算法C.GORD.TMHMM29、EMBL含義是(B)A.美國國家生物信息中心B.歐洲分子生物學(xué)實驗室C.日本DNA數(shù)據(jù)庫D.瑞士國家基因組研究中心30、NCBI含義是(A)A.美國國家生物信息中心B.歐洲分子生物學(xué)實驗室C.日本DNA數(shù)據(jù)庫D.瑞士國家基因組研究中心四、簡答1、生物信息學(xué)發(fā)展經(jīng)歷了哪幾種階段?答:生物信息學(xué)發(fā)展經(jīng)歷了3個階段。第一種階段是前基因組時代。這一階段重要是以各種算法法則建立、生物數(shù)據(jù)庫建立以及DNA和蛋白質(zhì)序列分析為重要工作;第二階段是基因組時代。這一階段以各種基因組籌劃測序、網(wǎng)絡(luò)數(shù)據(jù)庫系統(tǒng)建立和基因?qū)ふ覟橹匾ぷ?。第三階段是后基因組時代。這一階段重要工作是進行大規(guī)?;蚪M分析、蛋白質(zhì)組分析以及其她各種基因組學(xué)研究。2、生物信息學(xué)重要研究任務(wù)是什么,當前生物信息學(xué)重要研究內(nèi)容是什么?答:任務(wù):①收集和管理生物分子數(shù)據(jù);②數(shù)據(jù)分析和挖掘;③開發(fā)分析工具和實用軟件:生物分子序列比較工具、基因辨認工具、生物分子構(gòu)造預(yù)測工具、基因表達數(shù)據(jù)分析工具。內(nèi)容:(1)序列比對;(2)基因預(yù)測;(3)藥物設(shè)計;(4)蛋白質(zhì)構(gòu)造預(yù)測;(5)基因調(diào)控網(wǎng)絡(luò)預(yù)測;(6)蛋白質(zhì)互相作用預(yù)測;(7)分子進化分析3、人類基因組籌劃重要內(nèi)容和目是什么?答:人類基因組籌劃中,人們準備用時間,投入30億美元,完畢人類所有24條染色體中3×109個堿基對(bp,basepair)序列測定,其重要任務(wù)涉及作圖(遺傳圖譜、物理圖譜建立及轉(zhuǎn)錄圖譜繪制)、測序和基因辨認,還涉及模式生物(如大腸桿菌、酵母、線蟲、小鼠等)基因組作圖和測序,以及信息系統(tǒng)建立。目:是解碼生命、理解生命來源、理解生命體生長發(fā)育規(guī)律、結(jié)識種屬之間和個體之間存在差別起因、結(jié)識疾病產(chǎn)生機制以及長壽與衰老等生命現(xiàn)象、為疾病診治提供科學(xué)根據(jù)。4、什么是一級數(shù)據(jù)庫,哪些數(shù)據(jù)庫屬于一級數(shù)據(jù)庫,它與二級數(shù)據(jù)庫有什么區(qū)別?答:一級數(shù)據(jù)庫:數(shù)據(jù)庫中數(shù)據(jù)直接來源于實驗獲得原始數(shù)據(jù),只通過簡樸歸類整頓和注釋。國際上知名一級核酸數(shù)據(jù)庫有Genbank數(shù)據(jù)庫、EMBL核酸庫和DDBJ庫等;蛋白質(zhì)序列數(shù)據(jù)庫有SWISS-PROT、PIR等;蛋白質(zhì)構(gòu)造庫有PDB等。一級數(shù)據(jù)庫數(shù)據(jù)量大、更新速度快、顧客面廣,但存在過多冗余數(shù)據(jù);二級數(shù)據(jù)庫容量比較小,更新速度沒有一級數(shù)據(jù)庫快,但通過帥選后,避免了過多冗余數(shù)據(jù),其中與蛋白質(zhì)有關(guān)二級數(shù)據(jù)庫較多。5、向GeneBank數(shù)據(jù)庫提交序列軟件有幾種,各有什么特點?答:BankIt,SequinBankit特點:使用簡樸,每個環(huán)節(jié)有詳細闡明。但一次只能提交一種序列,長度不能太長。Sequin特點:安裝在顧客自己計算機上,可同步遞交若干序列和較長序列,并且整合了許多有用序列注釋工具。6、列舉5項DNA序列分析內(nèi)容及代表性分析工具?答:(1)核酸序列構(gòu)成成分分析:BioXM、BioEdit(2)基因構(gòu)造分析:NCBI-ORFfinder、CpGPlot、PromoterScan、POLYAH(3)重復(fù)序列分析:RepeatMasker(4)序列同源性:Blast(5)限制性內(nèi)切酶酶切位點分析:BioXM、Bioedit7、如何獲取訪問號為U49845genbank文獻,解釋如下genbank文獻LOCUS行提供信息:LOCUSSCU498455028bpDNAlinearPLN21-JUN-1999。答:(1)訪問NCBIEntrez檢索系統(tǒng),(2)選取核酸數(shù)據(jù)庫,(3)輸入U49845序列訪問號開始檢索。第一項是LOCUS名稱,前三個字母代表物種名第二項是序列長度第三項是序列分子類型第四項是分子為線性第五項是GenBank分類碼第六項是最后修訂日期8、BLAST算法搜索環(huán)節(jié)及其在數(shù)據(jù)庫搜索中重要作用,E值和P值分別是什么,它們有什么意義?答:1.登陸blast主頁;2.依照數(shù)據(jù)類型,選取適當程序;3.填寫表單信息;4.提交任務(wù);5.查看和分析成果BLAST中使用記錄值有概率p值和盼望e值。E盼望值(E-value)這個數(shù)值表達你僅僅由于隨機性導(dǎo)致獲得這一比對成果也許次數(shù)。這一數(shù)值越接近零,發(fā)生這一事件也許性越小。從搜索角度看,E值越小,比對成果越明顯。默認值為10,表達比對成果中將有10個匹配序列是由隨機產(chǎn)生,如果比對記錄明顯性值(E值)不大于該值(10),則該比對成果將被檢出,換句話說,比較低E值將使搜索匹配規(guī)定更嚴格,成果報告中隨機產(chǎn)生匹配序列減少。p值表達比對成果得到分數(shù)值可信度。普通說來,p值越接近于零,則比對成果可信度越大;相反,p值越大,則比對成果來自隨機匹配也許性越大。9、簡述NCBI中Entrez系統(tǒng)功能。答:高檔檢索系統(tǒng);查找核酸、蛋白、文獻、構(gòu)造、基因組序列、大分子三維構(gòu)造、突變數(shù)據(jù)、探針序列、單核苷酸多態(tài)性等數(shù)據(jù)。10、BLAST套件blastn、blastp、blastx、tblastn和tblastx子工具用途什么?答:Blastn是將給定核酸序列與核酸數(shù)據(jù)庫中序列進行比較;Blastp是使用蛋白質(zhì)序列與蛋白質(zhì)數(shù)據(jù)庫中序列進行比較,可以尋找較遠關(guān)系;Blastx將給定核酸序列按照六種閱讀框架將其翻譯成蛋白質(zhì)與蛋白質(zhì)數(shù)據(jù)庫中序列進行比對,對分析新序列和EST很有用;Tblastn將給定氨基酸序列與核酸數(shù)據(jù)庫中序列(雙鏈)按不同閱讀框進行比對,對于尋找數(shù)據(jù)庫中序列沒有標注新編碼區(qū)很有用;Tblastx只在特殊狀況下使用,它將DNA被檢索序列和核酸序列數(shù)據(jù)庫中序列按不同閱讀框所有翻譯成蛋白質(zhì)序列,然后進行蛋白質(zhì)序列比對。11、什么是序列比對中使用PAM矩陣和BLOSUM矩陣,它們作用是什么,普通如何選取適當評分矩陣?答:PAM矩陣(PointAcceptedMutation)基于進化點突變模型,如果兩種氨基酸替代頻繁,闡明自然界接受這種替代,那么這對氨基酸替代得分就高。一種PAM就是一種進化變異單位,即1%氨基酸變化,但這并不意味100次PAM后,每個氨基酸都發(fā)生變化,由于其中某些位置也許會通過多次突變,甚至也許會變回到本來氨基酸。模塊替代矩陣BLOSUM(BLOcksSubstitutionMatrix)一方面尋找氨基酸模式,即故意義一段氨基酸片斷(如一種構(gòu)造域及其相鄰兩小段氨基酸序列),分別比較相似氨基酸模式之間氨基酸保守性(某種氨基酸對另一種氨基酸取代數(shù)據(jù)),然后,以所有60,保守性氨基酸模式之間比較數(shù)據(jù)為依照,產(chǎn)生BLOSUM60;以所有80,保守性氨基酸模式之間比較數(shù)據(jù)為依照,產(chǎn)生BLOSUM80。PAM矩陣和BLOSUM矩陣都是用于序列相似性記分矩陣(scoringmatrix)。記分矩陣中具有對齊時詳細使用數(shù)值。普通FASTA和BLAST都提供BLOSUM或PAM系列矩陣供選取,若要進行突變性質(zhì)進化分析時可以使用PAM,F(xiàn)ASTA缺省推薦BLOSUM50矩陣。12、為下面序列比對擬定比對得分:匹配得分=+1,失配得分=0,空位得分=-1。答:X=TGTACGGCTATA;Y=TC--CGCCT-TATT1GC0T--1A--1CC1GG1GC0CC1TT1A--1TT1AA1最后得分1+0+(-1)+(-1)+1+1+0+1+1+(-1)+1+1=413、使用Needleman-Wunsch算法計算序列X和Y最佳比對(配對score=4,錯配score=-3,空位罰分score=-4)X=TTCGAGT;Y=ATTCCAAG。TTCGAGT0-4-8-12-16-20-24-28A-4-3-7-11-15-12-16-20T-801-3-7-11-15-12T-12-440-4-8-12-11C-16-80840-4-8C-20-12-4451-3-7A-24-16-801951A-28-20-12-4-3562G-32-24-16-8019514、掌握蛋白質(zhì)構(gòu)造有什么意義,為什么要進行蛋白質(zhì)構(gòu)造預(yù)測?答:(1)研究蛋白質(zhì)構(gòu)造意義重大,分析蛋白質(zhì)構(gòu)造、功能及其關(guān)系是蛋白質(zhì)組籌劃中一種重要構(gòu)成某些。研究蛋白質(zhì)構(gòu)造,有助于理解蛋白質(zhì)作用,理解蛋白質(zhì)如何行使其生物功能,結(jié)識蛋白質(zhì)與蛋白質(zhì)(或其他分子)之間互相作用,這無論是對于生物學(xué)還是對于醫(yī)學(xué)和藥學(xué),都是非常重要。(2)對于未知功能或者新發(fā)現(xiàn)蛋白質(zhì)分子,通過構(gòu)造分析,可以進行功能注釋,指引設(shè)計進行功能確認生物學(xué)實驗。通過度析蛋白質(zhì)構(gòu)造,確認功能單位或者構(gòu)造域,可覺得遺傳操作提供目的,為設(shè)計新蛋白質(zhì)或改造已有蛋白質(zhì)提供可靠根據(jù),同步為新藥物分子設(shè)計提供合理靶分子構(gòu)造。15、簡述BLAST搜索算法思想。答:BLAST是一種局部最優(yōu)比對搜索算法,將所查詢序列打斷成許多小序列片段,然后小序列逐漸與數(shù)據(jù)庫中序列進行比對,這些小片段被叫做字”word”;當一定長度字(W)與檢索序列比對達到一種指定最低分(T)后,初始比對就結(jié)束了;一種序列匹配度由各某些匹配分數(shù)總和決定,獲得高分序列叫做高分匹配片段(HSP),程序?qū)⒆罴袶SP雙向擴展進行比對,直到序列結(jié)束或者不再具備生物學(xué)明顯性,最后所得到序列是那些在整體上具備最高分序列,即,最高分匹配片段(MSP),這樣,BLAST既保持了整體運算速度,也維持了比對精度。16、試述PSI-BLAST搜索5個環(huán)節(jié)。答:①選取待查序列(query)和蛋白質(zhì)數(shù)據(jù)庫;②PSI-BLAST構(gòu)建一種多序列比對,然后創(chuàng)立一種序列表譜(profile)又稱特定位置打分矩陣(PSSM);③PSSM被用作query搜索數(shù)據(jù)庫④PSI-BLAST預(yù)計記錄學(xué)意義(Evalues)⑤重復(fù)③和④,直到?jīng)]有新序列發(fā)現(xiàn)。17、PSI-BLASTandPHI-BLAST答:PSI-BLAST:位點特異性重復(fù)比對,一方面進行普通blastp比對,從比對成果中構(gòu)建多序列比對搜索矩陣,然后用此矩陣在一次搜索本來數(shù)據(jù)庫,重復(fù)5次直到?jīng)]有新成果浮現(xiàn)為止。其是一種更加高敏捷度Blastp程序,對于發(fā)現(xiàn)遠親物種相似蛋白或某個蛋白家族新成員。PHI-Blast:模式辨認BLAST,是一種既能和查詢匹配又能和模式匹配蛋白序列比對程序,是一種高敏捷性blastp程序,普通通過一次搜索即可獲得較好效果,而當一次之后其與PSI-BLAST功能是一致。廣泛用于蛋白家族成員鑒定。18、全局比對與局部比對比較及生物學(xué)意義答:全局比對:對序列所有字符進行比對,試圖使盡量多字符實現(xiàn)匹配。其重要用于序列相似度很高且序列長度相近序列比對,用于進化研究和構(gòu)造預(yù)測。局部比對:尋找序列間相似度最高區(qū)域,也就是匹配密度最高某些。其重要應(yīng)用于某些部位相似度較高而其她部位差別較大序列比對,用于尋找保守核苷酸及蛋白質(zhì)序列中氨基酸模式19、簡述除權(quán)配對法(UPGMA)算法思想。答:通過兩兩比對聚類辦法進行,在開始時,每個序列分為一類,分別作為一種樹枝生長點,然后將近來兩序列合并,從而定義出一種節(jié)點,將這個過程不斷重復(fù),直到所有序列都被加入,最后得到一棵進化樹。P11911)20、簡述鄰接法(NJ)構(gòu)樹算法思想。答:鄰接法思想不但僅計算最小兩兩比對距離,還對整個樹長度進行最小化,從而對樹拓撲構(gòu)造進行限制。這種算法由一棵星狀樹開始,所有物種都從一種中心節(jié)點出發(fā),然后通過計算最小分支長度和相繼尋找到近鄰兩個序列,每一輪過程中考慮所有也許序列對,把能使樹整個分支長度最小序列對一組,從而產(chǎn)生新距離矩陣,直到尋找所有近鄰序列。P11721、簡述最大簡約法(MP)算法思想。P68答:是一種基于離散特性進化樹算法。生物演化應(yīng)當遵循簡約性原則,所需變異次數(shù)至少(演化步數(shù)至少)演化樹也許為最符合自然狀況系統(tǒng)樹。在詳細操作中,分為非加權(quán)最大簡約分析(或稱為同等加權(quán))和加權(quán)最大簡約分析,后者是依照性狀自身演化規(guī)律(例如DNA不同位點進化速率不同)而對其進行不同加權(quán)解決。P12013)22、簡述最大似然法(ML)算法思想。P69答:是一種基于離散特性進化樹算法。該法一方面選取一種適當進化模型,然后對所有也許進化樹進行評估,通過對每個進化位點代替分派一種概率,最后找出概率最大進化樹。P12223、UPGMA構(gòu)樹法不精準因素是什么?P69答:由個于UPGMA假設(shè)在進化過程中所有核苷酸/氨基酸均有相似變異率,也就是存在著一種分子鐘;這種算法當所構(gòu)建進化樹序列進化速率明顯不一致時,得到進化樹相對來說不精確。24、進化樹可靠性分析答:自展法(BootstrapMethod)1、從排列多序列中隨機有放回抽取某一列,構(gòu)成相似長度新排列序列;2、重復(fù)上面過程,得到多組新序列;3、對這些新序列進行建樹,再觀測這些樹與原始樹與否有差別,以此評價建樹可靠性。25、生物信息學(xué)數(shù)據(jù)庫構(gòu)成涉及哪些某些,數(shù)據(jù)庫有哪些類型?答:生物信息學(xué)數(shù)據(jù)庫構(gòu)成涉及一級數(shù)據(jù)庫和二級數(shù)據(jù)庫。數(shù)據(jù)庫類型涉及核算和蛋白質(zhì)一級構(gòu)造序列數(shù)據(jù)庫、基因組數(shù)據(jù)庫、生物大分子三維空間構(gòu)造數(shù)據(jù)庫、以上述3類數(shù)據(jù)庫和文獻資料為基本構(gòu)建二次數(shù)據(jù)庫。26、簡要簡介GenBank中DNA序列格式。答:GenBank中DNA序列格式可以提成三個某些,第一某些為描述符,從第一行LOCUS行到ORIGIN行,包括了關(guān)于整個記錄信息;第二某些為特性表,從FEATURES行開始,包括了注釋這一紀錄特性,是條目核心,中間使用一批核心字;第三某些是核苷酸序列自身。27、簡要簡介FASTA序列格式答:FASTA格式,又叫Pearson格式,是最簡樸,使用最多格式。它基本形式分為三個某些:第一行:不不大于號(,)表達一種新序列文獻開始,為標記符。背面可以加上文字闡明,gi號,GenBank檢索號,LOCUS名稱等信息。第二行:序列自身,為DNA原則符號,普通大小寫均可。結(jié)束:無特殊標志,但建議多留一種空行,以便將序列和其她內(nèi)容區(qū)別開。28、序列相似性與同源性有什么區(qū)別與聯(lián)系?答:(1)相似性是指序列之間有關(guān)一種記錄學(xué)量度,兩序列相似性可以基于序列一致性和相似度比例,也可以用相應(yīng)分數(shù)來衡量這種相似;而同源性是指序列所代表物種具備共同祖先,強調(diào)進化上親緣關(guān)系,不能用相應(yīng)數(shù)字去量化這種關(guān)系,咱們只能說序列具備高一致性比例也許是同源。(2)相似不一定是同源,同源則體現(xiàn)出一定相似性。由于在進化中來源于不同基因或序列由于不同獨立突變而趨同并不罕見。相反同源序列由于來源于共通過祖先則體現(xiàn)出一定相似性。五、思考題1、生物信息學(xué)含義是什么,舉一種例子闡明你對生物信息學(xué)哪方面感興趣。答:生物信息學(xué)含義:生物分子信息獲取、存貯、分析和運用;以數(shù)學(xué)為基本,應(yīng)用計算機技術(shù),研究生物學(xué)數(shù)據(jù)科學(xué)。生物信息技術(shù)在醫(yī)藥領(lǐng)域應(yīng)用涉及到新藥開發(fā)、新診斷技術(shù)、防止辦法及新治療技術(shù),如單克隆抗體、基因診斷、熒光檢測、基因芯片等。其中基因芯片技術(shù)可用于涉及遺傳性疾病、傳染性疾病及腫瘤等疾病診斷、DNA序列分析、藥物篩選、基因表達水平測定等領(lǐng)域。2、預(yù)測基因普通環(huán)節(jié)是什么?答:如下①獲取DNA目的序列②查找ORF并將目的序列翻譯成蛋白質(zhì)序列,運用相應(yīng)工具查找ORF并將DNA序列翻譯成蛋白質(zhì)序列③在數(shù)據(jù)庫中進行序列搜索,運用BLAST進行ORF核苷酸序列和ORF翻譯蛋白質(zhì)序列搜索④進行目的序列與搜索得到相似序列全局對比⑤查找基因家族進行多序列比對,獲得比對區(qū)段基因家族信息⑥查找目的序列中特定模序,分別在Prosite、BLOCK、Motif數(shù)據(jù)庫中進行profile、模塊(block)、模序(motif)檢索⑦預(yù)測目的序列蛋白質(zhì)構(gòu)造,運用PredictProtein(EMBL)、NNPREDICT等預(yù)測目的序列蛋白質(zhì)二級構(gòu)造。3、為什么蛋白質(zhì)空間構(gòu)造預(yù)測很重要,當前有哪幾條途徑用于從蛋白質(zhì)氨基酸序列預(yù)測其空間三維構(gòu)造?答:蛋白質(zhì)空間構(gòu)造預(yù)測很重要。研究蛋白質(zhì)構(gòu)造,有助于理解蛋白質(zhì)如何行使其生物功能,結(jié)識蛋白質(zhì)與蛋白質(zhì)(或其他分子)之間互相作用,通過度析蛋白質(zhì)構(gòu)造,確認功能單位或者構(gòu)造域,可覺得遺傳操作提供目的,為設(shè)計新蛋白質(zhì)或改造已有蛋白質(zhì)提供可靠根據(jù),同步為新藥物分子設(shè)計提供合理靶分子構(gòu)造。當前有三條途徑用于從蛋白質(zhì)一級序列預(yù)測其空間三維構(gòu)造:A、同源建模法。是蛋白質(zhì)三維構(gòu)造預(yù)測重要辦法。對于一種未知構(gòu)造蛋白質(zhì),一方面通過序列同源分析找到一種已知構(gòu)造同源蛋白質(zhì),然后,以該蛋白質(zhì)構(gòu)造為模板,為未知構(gòu)造蛋白質(zhì)建立構(gòu)造模型。前提是必要要有一種已知構(gòu)造同源蛋白質(zhì)。B、穿針引線法。需建立核心折疊

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論