




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、基礎知識匯報 在類的合并上,主要有三種算法來確定類間的距離:單一連 鎖(single-linkage)、完全連鎖(complete-linkage)和平均連 鎖(average-linkage)。這三種算法在定義類間的距離時分 別取兩類間的最小距離、最大距離和平均距離。前兩種算 法對邊緣值太過敏感,對于未知的元素分布,一般采用平 均連鎖算法。 完全連鎖(complete linkage),又稱最遠鄰(furthest neightbour)方法。同樣從相似度矩陣或距離矩陣出發(fā),但 定義距離為兩類之間數據的最大距離。同樣不考慮到類的 結構。傾向于找到一些緊湊的分類。 以最小近鄰法聚類為例 最短距
2、離聚類法具有空間壓縮性,而最遠距離聚類 法具有空間擴張性。最短距離為 dAB=da1b1,最遠 距離為 dAB=dap2。 表示了八種不同系統(tǒng)聚類方法計算類間距離的統(tǒng)一表達式 Composite Structural Motifs of Binding Sites for Delineating Biological Functions of Proteins 匯報人:劉言 簡介 在原子水平上,我們都是通過蛋白質之間或蛋白 質與其他分子之間相互作用來理解生物學過程的。 大部分蛋白質會同步或不同步的與很多分子相互 作用。 單原子離子,小分子到蛋白質、核酸和其他大分子 眾所周知,蛋白質相互作用的類
3、型和蛋白質是否 相互作用可以調節(jié)蛋白質的功能(血紅蛋白與氧結 合,與一氧化碳結合)。因此,我們不僅要確定個 體蛋白的相互作用,也要考慮潛在的蛋白質相互作 用,這些相互作用或許可以充分描述蛋白質的功 能,也能從同源蛋白中區(qū)分它們的不同功能。 Genome sequence technologies促使我們更加急迫 的去發(fā)掘從序列信息預測蛋白質功能的有效技術。迄 今為止,最常用于蛋白質功能預測的方法是 annotation transfer,它是基于一種蛋白質序列相似, 功能相似的假設基礎上的方法。然而,隨著研究的 逐步深入,這種方法在很多情況下卻是不可靠的。 蛋白質功能相似,并不僅僅是序列功能的
4、相似。蛋 白質序列折疊方式不同,會導致結構不同,從而影響 功能。所以我們要更加精細的檢查蛋白質功能的決定 因素,而不是只單純的考慮蛋白質序列相似性。 結構信息可以為蛋白質功能預測提供更加準確的信 息。 To date, there have been many methods for detecting potential ligand binding sites based on structural similarity of proteins 14,1622. Most of these methods are targeted at predicting protein functio
5、ns at the level of ligand binding and catalytic activity. There have also been many studies on protein-protein interaction interfaces to understand biological functions of proteins in cellular contexts 。 然而,大部分研究都是針對于一些特殊 的相互作用本身和不明確機理的相互作 用如何調控蛋白質的生物學功能的。 文中思想 為了明確原子水平上蛋白質相互作用的模式與其功能的 關系,在這里我們采用一個非
6、常詳盡的all-against-all structural comparisons of binding site structures at atomic level using all structures available in the Protein Data Bank (PDB) 。 1. Identification of elementary and composite motifs 首先,我們找到PDBML file 中所有有注釋的生物學單元,然 后從中提取出197690個蛋白質亞基(這些亞基均至少包 含一個配體結合位點) 這里,我們把一個亞基的配體結合位點定義為一個亞基的
7、原 子集(與配體原子的距離在5A之內)。然而我們不用已知 的基于序列相似性的非冗余數據庫,我們的冗余在相似結 構聚類之后再清理。通過這種方式,確定在后續(xù)的分析中 當結構冗余條件移除后高度相似的蛋白質結構差異或相同 的氨基酸序列是否能夠preserved。 Kinjo AR, Nakamura H (2007) Similarity search for local protein structures at atomic resolution by exploiting a database management system. All-against-all structure用GIRAF結
8、構搜索和排列程序比 對410254小分子結合位點,346288蛋白質結合位點和 20388核酸結合位點。完全連鎖聚類后各自輸出5869, 7678和398簇(至少有十個成員)。我們把這些簇看做 elementary motifs.一個蛋白質亞基中所包含的全部的 elementary motifs 的集稱為亞基的composite motif.因此 兩個亞基有共同的elementary motifs 可以推斷他們有共 同的composite motif。 2. Characterization of composite motifs 組成composite motif的elementary mo
9、tifs的數目由1-20不等。 To characterize the diversity of composite motifs, the average and minimum sequence identities were calculated for pairs of subunits sharing the same composite motifs. 我們通過把檢驗得到的兩個不同的composite motifs的相似 性和最小序列一致性做一個函數。 3. Association of composite motif similarity with function simila
10、rity when we used only the UniProt functions under the Biological process category which are less directly related to molecular functions 4. Examples of composite motifs sharing the same elementary motif and fold but with different functions 5. Meta-composite motifs for annotating functions 用一個compo
11、site motif描述一個蛋白質亞基的特殊狀態(tài),這 樣每一個生物學過程都可以看作是一系列的相互作用模型。 因此,composite motif僅僅只能作為整個生物學過程中的點。 為了對生物學過程有一個更加綜合性的感官,我們把所有 的與特殊功能有關系的composite motifs分類定義成 meta-composite motifs。 type-1 : based solely on BLAST E-value cutoff of 0.05 type-2 : based on sequence identity cutoff of 100% 6. Network structure of
12、meta-composite motifs in biological processes 我們把所有的composite motifs分類組合成meta-composite motifs,更有利于對蛋白質功能進行分析而不是最開始簡單 的預測。 通過UniProt keyword Transcription識別一個meta- composite motif,然后找到節(jié)點部分。 節(jié)點: based on relations such as common elementary motifs or common sequences. For example, there are PDB entrie
13、s of human cellular tumor antigen p53 with or without bound DNA(e.g., PDB 1UOL 58 and 2AC0 59) which share the same elementary motif for zinc binding but have different Composite motifs depending on the presence or absence of the elementary motif for DNA binding. To evaluate the properties of networ
14、ks of meta motifs Materials and Methods Data set We have used all the PDB entries as of December 29, 2010(70,231 entries),which contained at least one ligand binding site. A ligand binding site of a subunit is defined as a set of at least 10 atoms in the subunit that are in contact with some atoms o
15、f aligand within 5 A radius. 2. Similarity between binding site structures To compare binding site structures, we used the GIRAF structural search and alignment program with some modifications to enable faster database search and flexible alignments (unpublished). After all-against-all comparisons o
16、f binding sites, elementary motifs were defined as complete-linkage clusters with a cutoff GIRAF score of 15. The GIRAF score is defined as The results of all-against-all comparison of binding sites and classifications are made available for download at /giraf/cmotif/. NA and NB分別是A、B原
17、子中的結合位點數目。 NA,B是兩原子中配對比對結合的數目。 The weight w(xAa ,xBa ) for the aligned atom pairs xAa and xBa. d(xAa ,xBa ) is the distance between two atoms in a superimposed coordinate system. 閾值dc設定為2.5A。 結合位點的大小是影響GIRAF的初始值的主要因素。所 以,在進行結合位點相似性與功能相似性的比對中我們采 取了一個標準化的相似性測度使大小各異的結合位點能夠 以相同的比例尺進行測量。 normalized simil
18、arity S(A,B) between the binding sites A and B is defined as 3. Functions defined by UniProt keywords 我們從PDB數據庫中提取的每個亞基(均至少含有一個配 體結合位點)在Uniprot數據庫中均可找到注釋。因此,我們 要確定他們的關鍵詞從而確定其在Uniprot中的entries。 Two subunits whose associated sets of keywords are exactly identical are defined to have the same function.
19、 The similarity between two UniProt functions are defined by the Jaccard index between the sets of keywords associated with the functions . 4. Similarity between two sets Given the sets A and B, their similarity is defined by the Jaccard index J(A,B): composite motif elementary motifs function UniProt keywords meta-composite motif co
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二年級數學復習計劃與學習策略
- 城市更新與房地產項目開發(fā)流程
- 三年級環(huán)境保護主題勞動計劃
- 2025年化學陶瓷化學品項目發(fā)展計劃
- 2025年醫(yī)院文化建設及宣傳計劃
- 公共設施建設投標文件質量管理措施
- 2024-2025學年北師大版八年級數學在線學習計劃
- 城市污水管道施工的技術難點與解決措施
- 四年級下冊心理健康教育教學計劃
- 小學班主任工作培訓心得體會
- 膀胱癌部分切除護理查房
- 2025年北郵管理學試題及答案
- 2025人教版數學二年級下冊2.4 除法算式各部分的名稱課件
- 兒童心理健康與家庭教育關系
- 2025屆山東省臨沂市高三下學期一??荚囉⒄Z試卷(含解析)
- 2025年河南水利與環(huán)境職業(yè)學院單招職業(yè)傾向性測試題庫學生專用
- 七年級道法下冊 第一單元 綜合測試卷(人教海南版 2025年春)
- 《腕管綜合征》課件
- 施工方案編制要求做到
- YY/T 0109-2024醫(yī)用超聲霧化器
- 2024年涉密人員考試試題庫保密基本知識試題含答案
評論
0/150
提交評論