【基金標(biāo)書】2011CB809200-全基因組高分辨率中國(guó)(東亞)人群遺傳變異圖譜的繪制_第1頁(yè)
【基金標(biāo)書】2011CB809200-全基因組高分辨率中國(guó)(東亞)人群遺傳變異圖譜的繪制_第2頁(yè)
【基金標(biāo)書】2011CB809200-全基因組高分辨率中國(guó)(東亞)人群遺傳變異圖譜的繪制_第3頁(yè)
【基金標(biāo)書】2011CB809200-全基因組高分辨率中國(guó)(東亞)人群遺傳變異圖譜的繪制_第4頁(yè)
【基金標(biāo)書】2011CB809200-全基因組高分辨率中國(guó)(東亞)人群遺傳變異圖譜的繪制_第5頁(yè)
已閱讀5頁(yè),還剩10頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

項(xiàng)目名稱: 全基因組高分辨率中國(guó)(東亞)人群遺傳變異圖譜的繪制 首席科學(xué)家: 王俊 深圳華大基因研究院 起止年限: 托部門: 深圳市科技局 二、預(yù)期目標(biāo) 本項(xiàng)目的總體目標(biāo): 全基因組高分辨率中國(guó)(東亞)人群遺傳變異圖譜的繪制 項(xiàng)目 旨在集中頂尖基因組中心的測(cè)序和數(shù)據(jù)分析能力,基于新一代測(cè)序技術(shù)平臺(tái),通過(guò)對(duì) 400 個(gè)人類個(gè)體黃種人低深度全基因組重測(cè)序并結(jié)合少數(shù)個(gè)體和家系高深度測(cè)序的方法,繪制一張 黃種人 的人類遺傳變異圖譜,建立起一套基于重測(cè)序技術(shù)構(gòu)建重大疾病分 子標(biāo)記集的研究思路和技術(shù)路線,極大加速人類常見復(fù)雜疾病的研究。本計(jì)劃目標(biāo)包括檢測(cè)基因組非基因區(qū)內(nèi)幾乎所有在人群中的出現(xiàn)頻率不低于 1 %的單核苷酸變異,基因區(qū)內(nèi)幾乎所有出現(xiàn)頻率不低于 的單核苷酸變異,以及全基因組上的拷貝數(shù)變異、結(jié)構(gòu)性變異等大片段變異。這一數(shù)據(jù)資源將完全成為一個(gè)開放的公共資源,為各種疾病的關(guān)聯(lián)分析提供詳細(xì)的基礎(chǔ)數(shù)據(jù);為解釋人類重大疾病發(fā)病機(jī)理、開展個(gè)性化預(yù)測(cè)、預(yù)防和治療打下基礎(chǔ)。此外,該項(xiàng)目還將加深人類群體遺傳學(xué)的理解,促進(jìn)人類進(jìn)化歷史研究。 五年預(yù)期目標(biāo) : 在本項(xiàng)目中,我們將針 對(duì) 不少于 400 個(gè)亞洲個(gè)體,共計(jì) 不少于 3全基因組重測(cè)序數(shù)據(jù),完成東亞代表人群頻度低至 1的高分辨圖譜,同時(shí)繪制包括拷貝數(shù)變異、倒位變化的遺傳變異圖譜。設(shè)計(jì)可用于全基因組掃描的精細(xì)至 1頻度的基因分型芯片。建立起一套針對(duì)大規(guī)模重測(cè)序數(shù)據(jù)、低頻度變異分析和結(jié)構(gòu)性變異的分析流程和方法。預(yù)計(jì)將申請(qǐng) 5 個(gè)以上軟件著作權(quán),發(fā)表 10 篇以上 章,其中包括 別文章, 培養(yǎng) 20 名研究生 和一支年輕的、 國(guó)際 一流團(tuán)隊(duì)(百人以上), 其中 30 名技術(shù)骨干 。 樣品收集流程,表型定義清楚、收集方法規(guī)范統(tǒng)一、個(gè)人信息記錄完整且保密。為今后類似的大規(guī)模樣品收集工作提供典范。 夠以較高的產(chǎn)量和穩(wěn)定的質(zhì)量,日產(chǎn) 200據(jù),產(chǎn)出適用于不同研究目的的各類測(cè)序數(shù)據(jù)。 義規(guī)范的數(shù)據(jù)格式,提供針對(duì)超大規(guī)模數(shù)據(jù)采集、傳輸、存儲(chǔ)、分析的高性能計(jì)算解決方案。 括 貝數(shù)變異)、插入、刪除以及其它結(jié)構(gòu)性變異。由于在人類單體型計(jì)劃( 經(jīng)識(shí)別了許多常見的 計(jì)劃將重點(diǎn)挖掘在人群中發(fā)生頻率較低的稀有多態(tài)性和基因組的結(jié)構(gòu)變異, 并估計(jì)各種變異的等位基因型的頻率,確定穩(wěn)定遺傳的單體型結(jié)構(gòu),以及各變異之間的連鎖遺傳( 式,最終提供更有代表性、更全面的 合,供基因分型芯片的探針設(shè)計(jì)作參考。 善現(xiàn)有公共數(shù)據(jù)庫(kù)中人類基因組的參考序列。 體間的基因組變異研究提供支持。進(jìn)一步揭示人類基因組突變和遺傳重組發(fā)生的內(nèi)在機(jī)理。 因組重測(cè)序數(shù)據(jù)展示方案,構(gòu)建公眾可免費(fèi)訪問(wèn)的數(shù)據(jù)庫(kù),提出具有可擴(kuò)展性的大規(guī)模數(shù)據(jù)共享方案。 三、研究方案 1)總體思路: 人類基因組計(jì)劃和人類單體型計(jì)劃的完成,構(gòu)建了第一代人類基因組遺傳多態(tài)性圖譜, 并推動(dòng)了基因分型技術(shù)的發(fā)展,為全基因組關(guān)聯(lián)分析奠定了數(shù)據(jù)基礎(chǔ),極大地推動(dòng)了復(fù)雜常見疾病的基因組學(xué)研究。然而,由于當(dāng)前遺傳多態(tài)性標(biāo)記的密度較低,全基因組關(guān)聯(lián)性分析仍然只能解決一小部分與疾病相關(guān)聯(lián)的多態(tài)性位點(diǎn),且所找到的目標(biāo)區(qū)域范圍較大,需要大量額外驗(yàn)證工作。唯有通過(guò)對(duì)更大的樣本群體進(jìn)行大量全基因組測(cè)序工作 ,進(jìn)行科學(xué)探索,發(fā)現(xiàn)新的在人群中更加稀有的遺傳多態(tài)性標(biāo)記,構(gòu)建高密度人類基因組遺傳多態(tài)性精細(xì)圖譜,才能突破當(dāng)前復(fù)雜疾病研究的瓶頸。 自 2006 年開始的測(cè)序技術(shù)革命使得基因組測(cè)序成本大幅降低,使得對(duì)大量人類個(gè)體進(jìn)行測(cè)序并大規(guī)模發(fā)現(xiàn)遺傳多態(tài)性位點(diǎn)成為可能。通過(guò)模擬計(jì)算證明,對(duì)亞洲人隨機(jī)選取 不少于 400 個(gè)樣本,這樣的樣本容量可以保證 90%以上在人群中頻率為 1%的多態(tài)性位點(diǎn)的出現(xiàn)。如果對(duì)每個(gè)樣本進(jìn)行 4 倍基因組深度測(cè)序,在考慮測(cè)序錯(cuò)誤率,序列比對(duì)錯(cuò)誤率及分布均勻性等實(shí)際因素的情況下,仍然能夠準(zhǔn)確發(fā)現(xiàn)在人群 中頻率為 1%的多態(tài)性位點(diǎn);在基因區(qū)所能有效檢測(cè)到的最低頻率甚至可達(dá) 在基本的群體基因組學(xué)結(jié)構(gòu)的假定下,預(yù)期將發(fā)現(xiàn)至少 1500 萬(wàn)例以上的單核甘酸多態(tài)性位點(diǎn)和 100 萬(wàn)例以上的插入刪除多態(tài)性位點(diǎn)。這一精度可以大幅提高遺傳多態(tài)性標(biāo)記的密度,將當(dāng)前分子標(biāo)記密度從每一千堿基一個(gè)提高到每 200個(gè),從而發(fā)現(xiàn)與疾病關(guān)聯(lián)性更強(qiáng),風(fēng)險(xiǎn)更高的稀有位點(diǎn),極大降低了醫(yī)學(xué)基因組學(xué)研究的成本和技術(shù)門檻,對(duì)復(fù)雜疾病研究具有重大的推動(dòng)作用。 通過(guò)對(duì)多個(gè)個(gè)體大量測(cè)序,還將發(fā)現(xiàn)大量基因組結(jié)構(gòu)性變異,而這些結(jié)構(gòu)性變異的特征和 意義目前研究剛剛起步,屬于未知領(lǐng)域。利用當(dāng)前的測(cè)序技術(shù),可從預(yù)計(jì)在進(jìn)一步深入探索疾病關(guān)聯(lián)多態(tài)性位點(diǎn)的同時(shí),還將首次獲得基因組結(jié)構(gòu)性多態(tài)特征及其與疾病之間的關(guān)系。 此外,通過(guò)對(duì) 亞洲人 族群的群體基因組學(xué)研究,對(duì)人類進(jìn)化生物學(xué)和群體遺傳學(xué)的理解也有著重大的作用。 2)技術(shù)途徑: 3)可行性分析: 在測(cè)序技術(shù)獲得歷史性突破的 2008 年,國(guó)際千人基因組計(jì)劃順時(shí)而生,我國(guó)作為發(fā)起國(guó)之一,將在其中承擔(dān)黃種人的測(cè)序和數(shù)據(jù)分析工作。經(jīng)過(guò)本課題小組參與的前期先導(dǎo)實(shí)驗(yàn)的工作,證實(shí)了整個(gè)項(xiàng)目在數(shù)據(jù)產(chǎn)出,數(shù)據(jù)同步, 數(shù)據(jù)分析及實(shí)現(xiàn)最終目標(biāo)的可行性。另一方面, 2008 年 11 月,本課題小組在世界著名的 志上,以封面文章的形式發(fā)表了第一個(gè)亞洲人基因組的重測(cè)序和數(shù)據(jù)分析工作,發(fā)現(xiàn)了超過(guò) 300 萬(wàn) 點(diǎn) 13 萬(wàn)插入刪除位點(diǎn)及 2682 例結(jié)構(gòu)性變異位點(diǎn),也進(jìn)一步證實(shí)了使用這一技術(shù)對(duì)人類個(gè)體進(jìn)行測(cè)序并檢出多態(tài)性的可行性。通過(guò)第一個(gè)亞洲人基因組重測(cè)序項(xiàng)目(即“炎黃一號(hào)”)的順利開展,目前我們課題組已經(jīng)建立了一套針對(duì)新一代測(cè)序儀的數(shù)據(jù)產(chǎn)生、數(shù)據(jù)分析平臺(tái)。高通量的數(shù)據(jù)產(chǎn)出能力確保了該項(xiàng)目所需數(shù)據(jù)能夠順利 產(chǎn)生,強(qiáng)大的數(shù)據(jù)分析能力為 別的數(shù)據(jù)處理和分析提供了保障。先期發(fā)表的炎黃一號(hào)數(shù)據(jù)庫(kù)也將作為數(shù)據(jù)展示的模型,添加入新的數(shù)據(jù),成為一個(gè)中國(guó)人群基因組數(shù)據(jù)的展示平臺(tái),共各國(guó)科學(xué)家共享。 4) 創(chuàng)新點(diǎn): 本項(xiàng)目最大的創(chuàng)新之處在于利用新一代測(cè)序技術(shù)高速發(fā)展的契機(jī),推出了針對(duì)中國(guó)人群的全基因組重測(cè)序計(jì)劃,研究成果將極大的提升我國(guó)在國(guó)際基因組學(xué)研究領(lǐng)域的地位、深入理解和保護(hù)我國(guó)豐富的遺傳資源、并為針對(duì)中國(guó)人群的疾病相關(guān)研究提供基礎(chǔ)數(shù)據(jù)。這一重大研究從規(guī)模和深度上都是史無(wú)前例的,是科研工作者對(duì)人類基因組學(xué)研究最大 的一次努力 。 日產(chǎn) 200基的速度,產(chǎn)生 不少于 3000 400 個(gè)個(gè)體全基因組重測(cè)序數(shù)據(jù),這在整個(gè)基因組學(xué)歷史上都是前所未有的創(chuàng)舉。 主搭建專門的信息化管理系統(tǒng),用于所有測(cè)序數(shù)據(jù)的電子信息化管理和質(zhì)量控制。及時(shí)反饋測(cè)序質(zhì)量和結(jié)果,并記錄備查。 算平臺(tái)。針對(duì)大規(guī)模測(cè)序數(shù)據(jù),我們將專門定制一套解決方案,用于數(shù)據(jù)的傳輸、存儲(chǔ)、分析等。具有專業(yè)性、可擴(kuò)展性、可管理性等特點(diǎn)。 針對(duì)新的數(shù)據(jù)類型,我們將自主開發(fā)在數(shù)據(jù)處理和分析過(guò)程中所涉及到的所有分析方法和流程。包括質(zhì)量控制、序列比對(duì)、 出、 出、 出、 出等。 盡的新一代人類遺傳多態(tài)性圖譜。通過(guò)數(shù)據(jù)分析,預(yù)計(jì)將發(fā)現(xiàn)超過(guò) 1500 萬(wàn)例 點(diǎn), 500 萬(wàn)例插入刪除位點(diǎn), 100 萬(wàn)例結(jié)構(gòu)性變異多態(tài)性位點(diǎn)。這一遺傳多態(tài)性圖譜的密度較之前的人類單體型計(jì)劃提高了 10 倍,將極大促進(jìn)基因組醫(yī)學(xué)的研究。 課題設(shè)置 課題 1、中國(guó)(東亞)人群樣品收集和大規(guī)模數(shù)據(jù)產(chǎn)出 研究?jī)?nèi)容: 1、收集需要的樣本數(shù), 達(dá)到 不少于 400 份純正的黃種人樣品。 1)通過(guò)國(guó)際協(xié)商,制定統(tǒng)一的樣品采集標(biāo)準(zhǔn)與流程。 2)以規(guī)范化的操作采集樣品,保存?zhèn)€人信息并匿名處理,保存樣品。 2、共需產(chǎn)出 不少于 3000合質(zhì)量標(biāo)準(zhǔn)的測(cè)序數(shù)據(jù)。 1)文庫(kù)制備。根據(jù)需求,將分別構(gòu)建不同插入片段長(zhǎng)度的文庫(kù),包括 2005002 5。 2) 成及上機(jī)測(cè)序。根據(jù)需求,對(duì)不同樣品分別進(jìn)行從 35bp 序到 100bp 序。 預(yù)期目標(biāo): 完成 400 個(gè)樣品的收集工作。產(chǎn)出 3因組重測(cè)序數(shù)據(jù)。 承擔(dān)單位: 深圳華大基因研究院 課題負(fù)責(zé)人: 李瑞強(qiáng) 學(xué)術(shù)骨干: 田埂、趙姣、李卓 經(jīng)費(fèi)比例: 32% 課題 2、多個(gè)體全基因組重測(cè)序數(shù)據(jù)生物信息分析方法開發(fā) 研究?jī)?nèi)容: 1)全基因組短序列比對(duì)軟件開發(fā)。實(shí)現(xiàn)將不同長(zhǎng)度、不同插入片段的短序列比對(duì)到參考基因組上的功能。 2)全基因組序列組裝軟件開發(fā)。實(shí)現(xiàn)獨(dú)立于參考基因組,直接對(duì)特定數(shù)據(jù)進(jìn)行組裝的功能。 3)全基因組多態(tài)性檢出軟件開發(fā)?;诒葘?duì)和組裝結(jié)果,生成一致序列。綜合考慮測(cè)序深度、測(cè)序質(zhì)量、正反向信息等,實(shí)現(xiàn)多態(tài)性位點(diǎn)( 出。 預(yù)期目標(biāo): 開發(fā)多個(gè)體全基因組數(shù)據(jù)的比對(duì)軟件、多態(tài)性識(shí)別軟件、組裝軟件。 承擔(dān)單位: 深圳華大基因研究院 課題負(fù)責(zé)人: 李英睿 學(xué)術(shù)骨干: 高揚(yáng)、朱紅梅、秦楠 經(jīng)費(fèi)比例: 27% 課題 3、生物信息學(xué)和群體遺傳學(xué)分析 研究?jī)?nèi)容: 1、負(fù)責(zé) 3000上 個(gè)人基因組數(shù)據(jù)的處理和分析工作。包括利用自主開發(fā)完成的軟件實(shí)現(xiàn)比對(duì)、多態(tài)性位點(diǎn)檢出、相位分析、多態(tài)性位點(diǎn)注釋、群體遺傳學(xué)分析等。 2、針對(duì)生物信息學(xué)數(shù)據(jù)分析的特點(diǎn),定制高性能計(jì)算機(jī)解決方案,事先大規(guī)模重測(cè)序數(shù)據(jù)的管理、展示與共 享。 1)數(shù)據(jù)傳輸、存儲(chǔ)與分析。解決 1018數(shù)量級(jí)數(shù)據(jù)傳輸可能存在的高 I/O 問(wèn)題,設(shè)計(jì)高效的數(shù)據(jù)存儲(chǔ)、備份方案,便于數(shù)據(jù)分析和計(jì)算。 2)數(shù)據(jù)展示。將個(gè)人基因組數(shù)據(jù)以數(shù)據(jù)庫(kù)的形式存儲(chǔ)、以 面的方式展示給用戶,供用戶查詢和下載。 3)數(shù)據(jù)共享。制定適用于大型合作項(xiàng)目的數(shù)據(jù)質(zhì)控、共享、同步方案。 預(yù)期目標(biāo): 完成 不少于 3據(jù)的基因組比對(duì)、多態(tài)性檢出工作。完成群體遺傳學(xué)分析。提供超大規(guī)模數(shù)據(jù)的傳輸、展示與共享的解決方案。 承擔(dān)單位: 深圳華大基因研究院 課題負(fù)責(zé)人: 王俊 學(xué)術(shù)骨干: 楊國(guó)華 、樊偉、方林 經(jīng)費(fèi)比例: 41% 各課題間相互關(guān)系 本項(xiàng)目的開展將 完全 由深圳華大基因研究院的團(tuán)隊(duì)完成。課題設(shè)置分為三個(gè)主要部分:樣品收集和數(shù)據(jù)產(chǎn)出、生物信息方法開發(fā)、數(shù)據(jù)分析以及數(shù)據(jù)管理和展示??傌?fù)責(zé)人: 王俊 。 子課題一是整個(gè)課題的材料準(zhǔn)備和數(shù)據(jù)產(chǎn)出部分。產(chǎn)生的 不少于 3000個(gè)體全基因組重測(cè)序?qū)⒂糜跇?gòu)建高分辨率的中國(guó)(東亞)人群遺傳變異圖譜 。目前世界上沒(méi)有現(xiàn)成的軟件和流程可用于處理如此大規(guī)模的數(shù)據(jù), 子課題二的設(shè)置主要是針對(duì)本項(xiàng)目中所產(chǎn)生的數(shù)據(jù),開發(fā)相應(yīng)的軟件和分析方法,為子課題三提供分析流程。子課 題三是對(duì)子課題一、二所產(chǎn)生的數(shù)據(jù)和分析方法的綜合應(yīng)用。運(yùn)用子課題二中開發(fā)的分析流程分析子課題一產(chǎn)出的大規(guī)模數(shù)據(jù),并完成數(shù)據(jù)展示、共享工作。 四、年度計(jì)劃 研究?jī)?nèi)容 預(yù)期目標(biāo) 第 一 年 1) 開展樣品的收集和細(xì)胞系的構(gòu)建工作; 2) 基因分型親子鑒定; 3) 開展已構(gòu)建細(xì)胞系樣品的各種目標(biāo)插入片段長(zhǎng)度的基因組文庫(kù)構(gòu)建并測(cè)序; 4) 庫(kù)的構(gòu)建工作,并進(jìn)行重測(cè)序。 5) 構(gòu)建各種目標(biāo)插入片段長(zhǎng)度的文庫(kù),并產(chǎn)出開發(fā)基因組比對(duì)軟件所需的測(cè)試數(shù)據(jù); 6) 構(gòu)建 庫(kù),并產(chǎn)出測(cè)序數(shù)據(jù); 7) 開發(fā)基于全基因組重測(cè)序數(shù)據(jù)的比對(duì)軟件; 8) 全基因組鳥槍法組裝軟件的開發(fā); 9) 開發(fā) 裝軟件。 10) 計(jì)算機(jī)基礎(chǔ)設(shè)施的構(gòu)建和優(yōu)化,搭建與合作者之間的高速信息通道。 1) 完成不少于 400例樣品的收集和細(xì)胞系的構(gòu)建; 2) 完成基于基因分型的親子鑒定; 3) 完成大片段文庫(kù)制備技術(shù)的研發(fā)以及不少于 質(zhì)量基因組文庫(kù)重測(cè)序數(shù)據(jù)的產(chǎn)出; 4) 完成 5) 完成軟件測(cè)試所需的各種目標(biāo)插入長(zhǎng)度片段的文庫(kù)的構(gòu)建,完成不少于 350G 的測(cè)序數(shù)據(jù)的產(chǎn)出; 6) 完成 庫(kù)的構(gòu)建,以及不少于 庫(kù)測(cè)序數(shù)據(jù)的產(chǎn)出; 7) 完成基因組比對(duì)軟件的開發(fā); 8) 完成全基因組鳥槍法組裝軟件的原型; 9) 完成 裝軟件的原型; 10)完成計(jì)算集群基礎(chǔ)架構(gòu)和設(shè)施建設(shè); 11)完成網(wǎng)絡(luò)部署,搭建高速信息通道; 12)培養(yǎng) 6技術(shù)骨干 研究?jī)?nèi)容 預(yù)期目標(biāo) 第 二 年 1) 構(gòu)建基因組各種目標(biāo)插入片段長(zhǎng)度的基因組文庫(kù); 2) 庫(kù)建立并測(cè)序; 3) 全基因組鳥槍法組裝軟件的開發(fā); 4) 開發(fā) AC裝軟件。 5) 構(gòu)建基因組學(xué)綜合數(shù)據(jù)庫(kù),保證數(shù)據(jù)分析結(jié)果的持續(xù)性收集,形成基因組研究的重要數(shù)據(jù)參考 6) 400 個(gè)亞洲人基因組數(shù)據(jù)入庫(kù) 1) 完成不少于 質(zhì)量基因組文庫(kù)重測(cè)序數(shù)據(jù)的產(chǎn)出; 2) 完成不少于 100G 的 獲文庫(kù)測(cè)序數(shù)據(jù)的產(chǎn)出; 3) 完成全基因組鳥槍法組裝軟件的開發(fā); 4) 完成 AC裝軟件的開發(fā); 5) 初步形成綜合基因組數(shù)據(jù)庫(kù)框架; 6) 完成 400個(gè)亞洲個(gè)人基因組數(shù)據(jù)的入庫(kù); 7) 培養(yǎng) 5骨干人才; 8) 前兩年完成 2軟件 著作權(quán)的申請(qǐng)。 第 三 年 1) 構(gòu)建基因組各種目標(biāo)插入片段長(zhǎng)度的基因組文庫(kù) 2) 庫(kù)建立并測(cè)序; 3) 開發(fā) 出軟件 4) 開發(fā) 出軟件 5) 開發(fā) 出軟件 6) 數(shù)據(jù)優(yōu)化存儲(chǔ)、可視化分析平臺(tái)的建設(shè) 1) 完成不少于 質(zhì)量重測(cè)序數(shù)據(jù)的產(chǎn)出; 2) 不少于 200G 的 獲文庫(kù)測(cè)序數(shù)據(jù)的產(chǎn)出; 3) 完成 出軟件的開發(fā) 4) 完成 出軟件的開發(fā) 5) 完成 出軟件的開發(fā) 6) 優(yōu)化數(shù)據(jù)存儲(chǔ)方案; 7) 完成功能完備的基因組瀏覽器; 8) 完成個(gè)人基因組數(shù)據(jù)的在線管理和可視化分析平臺(tái); 9) 培養(yǎng) 7 骨干人才。 研究?jī)?nèi)容 預(yù)期目標(biāo) 第 四 年 1) 根據(jù)產(chǎn)出數(shù)據(jù),進(jìn)一步完善各種建庫(kù)技術(shù),并進(jìn)行流程化標(biāo)準(zhǔn)化; 2) 根據(jù)大規(guī)模數(shù)據(jù)分析結(jié)果,進(jìn)一步進(jìn)行多態(tài)性檢出軟件的優(yōu)化 3) 大規(guī)模多態(tài)性分析標(biāo)準(zhǔn)流程的建立 4) 對(duì)新發(fā)現(xiàn)的 5) 產(chǎn)出各種大規(guī)模多態(tài)性數(shù)據(jù),包括 及 6) 優(yōu)化查詢效率和任務(wù)調(diào)度; 7) 開展群體遺傳學(xué)分析 1) 完善大片段文庫(kù)制備與 2) 完善多態(tài)性數(shù)據(jù)檢出軟件與流程; 3) 完成大規(guī)模多態(tài)性分析標(biāo)準(zhǔn)流程的建立; 4) 完成新檢出 5) 完成大規(guī)模多態(tài)性數(shù)據(jù)的檢出 6) 完 成查詢效率和任務(wù)調(diào)度的優(yōu)化; 7) 初步完成亞洲人群連鎖遺傳圖譜的構(gòu)建; 8) 培養(yǎng) 7技術(shù)骨干。 第 五 年 1) 群體遺傳學(xué)分析; 2) 數(shù)據(jù)整理與總結(jié); 3) 技術(shù)總結(jié)、財(cái)務(wù)總結(jié); 4) 文章的撰寫與發(fā)表。 1) 完成大規(guī)模多態(tài)性數(shù)據(jù)的功能注釋和其它分析; 2) 完成多態(tài)性分析標(biāo)準(zhǔn)流程的建立; 3) 完善亞洲人群體遺傳學(xué)分析,完成進(jìn)化和選擇等生物學(xué)問(wèn)題的分析; 4) 完成課題技術(shù)總結(jié)和財(cái)務(wù)總結(jié); 5) 后三年完成 6及 3軟件著作權(quán)的申請(qǐng) 。 一、研究?jī)?nèi)容 擬解決的關(guān)鍵科學(xué)問(wèn)題包括: 規(guī)模樣品收集。 作為 大型國(guó)際合作項(xiàng)目,樣品收集的規(guī)范性奠定了后期所有研究的基礎(chǔ)。只有嚴(yán)格、統(tǒng)一、規(guī)范的樣品收集流程和標(biāo)準(zhǔn),才能保證最后分析結(jié)果的有效性,代表性和可靠性。為了保證數(shù)據(jù)分析的清晰, 全基因組高分辨率中國(guó)(東亞)人群遺傳變異圖譜的繪制 需要收集大量人類家系,通過(guò)家系回溯確保其遺傳背景對(duì)相應(yīng)族群的代表性( %)。如此大規(guī)模、高標(biāo)準(zhǔn)、多方協(xié)作的樣品收集工作,是前所未有的。 整個(gè) 全基因組高分辨率中國(guó)(東亞)人群遺傳變異圖譜的繪制 項(xiàng)目 預(yù)計(jì)將產(chǎn)生 至少 3基因組序列,對(duì)測(cè)序通量 和質(zhì)量提出了挑戰(zhàn)。由于多方面數(shù)據(jù)分析的不同需求,需要以最合理的測(cè)序策略進(jìn)行數(shù)據(jù)產(chǎn)出。 品將構(gòu)建成不同片段長(zhǎng)度的文庫(kù),從 200 5002 5等;不同的文庫(kù)將用于產(chǎn)生從 35 100等的測(cè)序片段,以滿足單核甘酸多態(tài)性檢出,結(jié)構(gòu)性變異檢出等各種類型數(shù)據(jù)分析的需要。 輸、處理、存儲(chǔ)、展示。 測(cè)序技術(shù)的突破帶來(lái)數(shù)據(jù)量的急速增長(zhǎng),使得多個(gè)體全基因組重測(cè)序成為可能,但同時(shí)也給數(shù)據(jù)的存儲(chǔ)、處理、分析、展示帶來(lái)了巨大的挑 戰(zhàn)。 全基因組高分辨率中國(guó)(東亞)人群遺傳變異圖譜的繪制 將產(chǎn)生的巨大生物學(xué)數(shù)據(jù)量對(duì)當(dāng)前計(jì)算機(jī)科學(xué)造成了重大挑戰(zhàn)。在先前的研究中,我們通過(guò)“炎黃計(jì)劃”,完成了對(duì)第一個(gè)亞洲人基因組的測(cè)序和分析,建立起一套針對(duì)新一代測(cè)序數(shù)據(jù)的全基因組重測(cè)序分析流程。在本項(xiàng)目中,我們將以這套流程為基礎(chǔ),從單個(gè)個(gè)體的數(shù)據(jù)擴(kuò)展到更大規(guī)模的多個(gè)體全基因組重測(cè)序數(shù)據(jù)。一方面,力圖解決每天 200輸、處理、存儲(chǔ)的問(wèn)題,另一方面,構(gòu)建用戶友好的展示界面。 群體中的檢出。 在群體中以全基因組重測(cè) 序?yàn)榧夹g(shù)手段檢測(cè)基因組多態(tài)性的重要目的之一就是檢出在群體中發(fā)生頻率不足 1%的 目前的測(cè)序手段,這與測(cè)序錯(cuò)誤在同一數(shù)量級(jí)。我們計(jì)劃通過(guò)最大似然估計(jì), 利用不同堿基類型測(cè)序深度以及測(cè)序質(zhì)量的分析來(lái)區(qū)分低頻 測(cè)序錯(cuò)誤,并通過(guò)基因組的連鎖不平衡信息( 計(jì) 基型頻率,進(jìn)一步優(yōu)化 析結(jié)果。 檢出。 目前的群體遺傳學(xué)分析方法,對(duì)于 利用并不十分充分,主要是由于基于之前的基因分 型數(shù)據(jù)無(wú)法開發(fā)出高效準(zhǔn)確的 出方法。 針對(duì)此項(xiàng)目中將產(chǎn)生的多個(gè)體全基因組重測(cè)序方法,我們預(yù)計(jì)將采用局部組裝的方法解決這一難題,建立起基于短序列比對(duì)的 出方法和流程。 檢出。 結(jié)構(gòu)多態(tài)性由于其發(fā)生機(jī)制復(fù)雜,難以重現(xiàn)等原因,成為多態(tài)性檢出的又一難點(diǎn),難以直接通過(guò)比對(duì)得到結(jié)論,目前尚無(wú)現(xiàn)成的方法、流程。與傳統(tǒng)的基因分型方法不同,針對(duì) 1012 級(jí)別的數(shù)據(jù)量,采用新一代大規(guī)模高通量測(cè)序技術(shù)的全基因組雙向重測(cè)序方法,原則上能夠檢出并確認(rèn)包括 段插入 /缺失、片段重復(fù)、倒位、易位等在內(nèi)的所有類型的復(fù)雜基因組結(jié)構(gòu)多態(tài)。然而人類基因組中存在諸多的不確定性,因此本子課題將重點(diǎn)解決此關(guān)鍵問(wèn)題,并在研究課題過(guò)程中探索理論基礎(chǔ)牢固、實(shí)用性強(qiáng)的生物信息學(xué)方法。 進(jìn)一步開發(fā)針對(duì)多個(gè)體重測(cè)序數(shù)據(jù)的群體遺傳學(xué)分析方法,探索能夠代表中國(guó)人群的遺傳多態(tài)性特征的變異位點(diǎn)。長(zhǎng)期以來(lái),人類的歷史發(fā)展一直是人們熱衷于討論的一個(gè)話題。由于技術(shù)的限制,先前關(guān)于群體結(jié)構(gòu)、進(jìn)化的討論,通常只能基于基因組的部分區(qū)域、小規(guī)模人群等小規(guī)模數(shù)據(jù)。但是在人類發(fā)展、進(jìn)化的長(zhǎng)河上,基因組 中處處在發(fā)生著變化,加之各類群體遷移等因素,使得研究群體結(jié)構(gòu)與進(jìn)化成為一項(xiàng)非常復(fù)雜的課題。通過(guò)本課題的研究,我們將從具有統(tǒng)計(jì)效力的大規(guī)模群體中得到代表黃種人基因組的全部多態(tài)性信息,加之同期開展的國(guó)際千人基因組項(xiàng)目還將產(chǎn)生其他種群的 800 個(gè)個(gè)體的全基因組多態(tài)性數(shù)據(jù),使人們第一次掌握了大量人類群體結(jié)構(gòu)變遷、進(jìn)化的數(shù)據(jù),必將為此類研究帶來(lái)新的突破。 研究個(gè)人基因組的最終目標(biāo)是造福于人類健康。在大規(guī)模測(cè)序出現(xiàn)之前,已經(jīng)有大量基于全基因組芯片和大規(guī)模群體的關(guān)聯(lián)分析,并產(chǎn)出了 許多重要研究成果,尋找到數(shù)百個(gè)與疾病的發(fā)生、發(fā)展密切相關(guān)的基因或者基因組區(qū)域?;蚪M與疾病息息相關(guān)已是一個(gè)不爭(zhēng)的事實(shí)。本課題產(chǎn)生的全基因組重測(cè)序數(shù)據(jù)、全基因組多態(tài)性數(shù)據(jù),將提供給人們一份最為豐富的遺傳圖譜,將人與人之間基因組種種細(xì)微差異盡收其中。一方面,將對(duì)之前基于芯片數(shù)據(jù)關(guān)聯(lián)分析得到的疾病相關(guān)位點(diǎn)做出驗(yàn)證。另一方面,全基因組測(cè)序的方法還將覆蓋到許多之前沒(méi)有檢出的多態(tài)性位點(diǎn)和多態(tài)性類型,而這類數(shù)據(jù)與疾病的關(guān)聯(lián),之前的研究幾乎是空白。由于 此項(xiàng)目 黃種

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論