下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、基因數(shù)據(jù)分析云上闖關(guān)成本降低與時(shí)間縮短,給基因在臨床醫(yī)療和健 康領(lǐng)域的進(jìn)一步深入應(yīng)用和普及帶來(lái)曙光。最近,第11屆國(guó)際基因組學(xué)大會(huì)(icg)公布了 歷時(shí)6個(gè)月的全球公開(kāi)競(jìng)賽結(jié)果。一家從2009年起開(kāi)展基因檢測(cè)臨床轉(zhuǎn)化研究的 初創(chuàng)企業(yè)在“數(shù)據(jù)壓縮”和“計(jì)算加速”兩個(gè)項(xiàng)目上 刷新世界紀(jì)錄。這家名為人和未來(lái)生物科技的公司從 全球300多家參賽團(tuán)隊(duì)中脫穎而出獲得冠軍,并保持 最低的計(jì)算成本。“數(shù)據(jù)壓縮”和“計(jì)算加速”是對(duì)基因數(shù)據(jù)進(jìn)行 處理分析過(guò)程中兩個(gè)根本性的難題。它們的突破,給 基因在臨床醫(yī)療和健康領(lǐng)域的進(jìn)一步深入應(yīng)用和普及 帶來(lái)曙光。上云的難處去年起,主流基因數(shù)據(jù)生產(chǎn)企業(yè)開(kāi)始面臨數(shù)據(jù)爆 發(fā)式增長(zhǎng)的
2、狀況。這些自建計(jì)算集群來(lái)存儲(chǔ)和處理數(shù) 據(jù)的企業(yè)開(kāi)始考慮數(shù)據(jù)上云,并且形成了行業(yè)趨勢(shì)?!霸频募軜?gòu)能保證我們獲得很高的數(shù)據(jù)安全性和 穩(wěn)定性。如果我們自己做本地存儲(chǔ),通常要把數(shù)據(jù)備 兩份甚至三份,肯定不如在云上做存儲(chǔ)好?!比撕臀磥?lái) 首席技術(shù)官宋卓說(shuō)。不過(guò),數(shù)據(jù)上云過(guò)程也遇到棘手問(wèn)題:龐大的基 因數(shù)據(jù)怎么搬上云?要耗多少時(shí)間和成本?上云后, 基因數(shù)據(jù)這類大規(guī)模分析項(xiàng)目,根本不是靠簡(jiǎn)簡(jiǎn)單單 地堆砌機(jī)器就能完成高效的計(jì)算分析?!霸粕嫌?jì)算節(jié)點(diǎn)之間有i/o。當(dāng)你布的節(jié)點(diǎn)越多, i/o之間的數(shù)據(jù)傳輸就越多。如果你不精細(xì)控制,就 會(huì)形成一大堵“i/o墻”,計(jì)算性能大幅下降。這正是 基因行業(yè)面臨的兩大難題,也是大賽
3、設(shè)定這個(gè)比賽題 目的根源。人和未來(lái)已經(jīng)花了兩年時(shí)間來(lái)突破這兩大難關(guān)。他們開(kāi)發(fā)了 “無(wú)損壓縮”基因數(shù)據(jù)的新方法,實(shí)現(xiàn)了 數(shù)據(jù)快速上云和存儲(chǔ)?!拔覀儼阉袎嚎s算法都重新梳 理了一遍,找到最好的壓縮方式,并在工程技術(shù)上做 了針對(duì)cpu指令集層面的優(yōu)化”。在這次大賽上,人和未來(lái)將200g測(cè)試數(shù)據(jù)無(wú)損 壓縮到原來(lái)的1/15大小,數(shù)據(jù)傳輸存儲(chǔ)效率自然會(huì)大 幅提升。針對(duì)數(shù)據(jù)上云后的計(jì)算難題,人和未來(lái)基于aws 公有云上的ec2和s3存儲(chǔ)和計(jì)算基礎(chǔ)服務(wù),自主研 發(fā)構(gòu)建了數(shù)據(jù)分發(fā)、調(diào)控和存儲(chǔ)體系,繞過(guò)i/o墻?!拔覀?8分鐘完成了對(duì)400gb人類全基因組數(shù) 據(jù)的處理。這個(gè)級(jí)別的數(shù)據(jù)在單臺(tái)高性能服務(wù)器上分 析計(jì)算
4、要花30個(gè)小時(shí)以上,目前世界范圍內(nèi)已報(bào)道的 云上分布式計(jì)算的最好成績(jī)是1小時(shí)50分鐘?!彼巫?說(shuō)。這是一個(gè)質(zhì)的變化,行業(yè)人士對(duì)此感到很振奮。人和未來(lái)也希望把在過(guò)去兩年所研發(fā)的計(jì)算加速 和數(shù)據(jù)挖掘的應(yīng)用工具和解決方案,提供給健康信息 領(lǐng)域的專業(yè)機(jī)構(gòu)?!斑@將是一個(gè)封裝好的,可以跑在任何云上的解 決方案。"宋卓說(shuō)。當(dāng)然,最先選擇基于aws公有云 研發(fā),是因?yàn)閍ws提供了目前市場(chǎng)上最穩(wěn)定、豐富 和靈活的云計(jì)算資源?!霸赼ws上能夠選擇的計(jì)算節(jié) 點(diǎn)類型是最多的,這讓我們可以根據(jù)不同任務(wù)類型, 選擇最高性價(jià)比的機(jī)器”。而當(dāng)分析項(xiàng)目從十幾臺(tái)機(jī)器 到幾百臺(tái),每上一個(gè)層次規(guī)模都會(huì)觸發(fā)不同問(wèn)題,需 要a
5、ws較為成熟的支持。巧用“競(jìng)價(jià)”這次參賽,人和未來(lái)的基因數(shù)據(jù)處理和分析費(fèi)用 為16美元,將全基因組計(jì)算帶入“百元時(shí)代”。對(duì)于降低成本的秘訣,宋卓介紹,通常購(gòu)買云服務(wù),付費(fèi)方式有兩種:一種是按需付費(fèi);一種是預(yù)付 費(fèi),一次性先購(gòu)買一年的服務(wù),成本約是按需付費(fèi)的六、七折。但是aws除此以外還提供了 spot instance競(jìng)價(jià)型實(shí)例。aws將閑置的資源用競(jìng)價(jià)方式釋放出來(lái),價(jià)格通常是按需服務(wù)的1/10,非常低?!拔覀円淮斡脦装賯€(gè)節(jié)點(diǎn),相對(duì)是規(guī)模比較大的。 我們與aws 線人員交流,他們會(huì)告訴我們,在全 球的范圍內(nèi),哪些區(qū)域的spot instance價(jià)格比較低, 在哪個(gè)時(shí)間段內(nèi)競(jìng)價(jià)不會(huì)大幅波動(dòng)?!彼?/p>
6、卓說(shuō)。人和未來(lái)在此次競(jìng)賽中巧用競(jìng)價(jià)模式,最終只花 t 16美元。成本降低與時(shí)間縮短推動(dòng)了基因檢測(cè)技術(shù)的實(shí)際 應(yīng)用,極具現(xiàn)實(shí)意義。2011年前后,基于基因檢測(cè)技 術(shù)的的無(wú)創(chuàng)唐篩(唐氏兒篩查)被引入臨床。與傳統(tǒng) 羊水穿刺相比,它準(zhǔn)確率高且無(wú)創(chuàng)?,F(xiàn)在,全國(guó)每年 有100萬(wàn)以上的孕婦選擇無(wú)創(chuàng)唐篩。它的終端價(jià)格是 2000元,基本為人們所接受。目前,人和未來(lái)與三甲醫(yī)院臨床疾病和腫瘤相關(guān) 科室、健康體檢和健康管理機(jī)構(gòu)以及保險(xiǎn)公司合作, 開(kāi)發(fā)相應(yīng)的檢測(cè)產(chǎn)品。不過(guò),基因技術(shù)要在臨床的各 種應(yīng)用中得到普及,需要成本的進(jìn)一步下降。宋卓透露,除了后端的分析計(jì)算成本外,前端通過(guò)基因測(cè)序儀生成數(shù)據(jù)的價(jià)格目前仍比較昂貴。如果 前端測(cè)序價(jià)格能進(jìn)一步降低,就會(huì)催生出更多數(shù)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度養(yǎng)老院食堂與便利店運(yùn)營(yíng)管理合同4篇
- 2025年度生態(tài)農(nóng)業(yè)大棚使用權(quán)轉(zhuǎn)讓合同模板4篇
- 2025年度文化產(chǎn)品代理采購(gòu)合同模板4篇
- 2024版英文技術(shù)服務(wù)合同范本規(guī)范
- 2024進(jìn)戶門銷售合同
- 2024訴訟代理委托合同范本
- 2025年度專業(yè)論壇會(huì)議組織合同范本4篇
- 2025年度數(shù)字音樂(lè)詞曲版權(quán)交易合作合同范本4篇
- 2025年度新能源汽車項(xiàng)目代理投標(biāo)合同樣本4篇
- 2024施工簡(jiǎn)易合同范本(橋梁檢測(cè)與維修)3篇
- 中國(guó)的世界遺產(chǎn)智慧樹(shù)知到期末考試答案2024年
- 2023年貴州省銅仁市中考數(shù)學(xué)真題試題含解析
- 世界衛(wèi)生組織生存質(zhì)量測(cè)量表(WHOQOL-BREF)
- 《葉圣陶先生二三事》第1第2課時(shí)示范公開(kāi)課教學(xué)PPT課件【統(tǒng)編人教版七年級(jí)語(yǔ)文下冊(cè)】
- 某送電線路安全健康環(huán)境與文明施工監(jiān)理細(xì)則
- GB/T 28885-2012燃?xì)夥?wù)導(dǎo)則
- PEP-3心理教育量表-評(píng)估報(bào)告
- 控制性詳細(xì)規(guī)劃編制項(xiàng)目競(jìng)爭(zhēng)性磋商招標(biāo)文件評(píng)標(biāo)辦法、采購(gòu)需求和技術(shù)參數(shù)
- 《增值稅及附加稅費(fèi)申報(bào)表(小規(guī)模納稅人適用)》 及其附列資料-江蘇稅務(wù)
- 中南民族大學(xué)中文成績(jī)單
- 危大工程安全管理措施方案
評(píng)論
0/150
提交評(píng)論