高能物理大數(shù)據(jù)管理系統(tǒng)課件_第1頁
高能物理大數(shù)據(jù)管理系統(tǒng)課件_第2頁
高能物理大數(shù)據(jù)管理系統(tǒng)課件_第3頁
高能物理大數(shù)據(jù)管理系統(tǒng)課件_第4頁
高能物理大數(shù)據(jù)管理系統(tǒng)課件_第5頁
已閱讀5頁,還剩33頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、高能物理科學(xué)大數(shù)據(jù)應(yīng)用系統(tǒng)主要內(nèi)容高能物理實(shí)驗(yàn)與數(shù)據(jù)處理需求高能物理計算平臺基于大數(shù)據(jù)技術(shù)的事例管理系統(tǒng)高能物理數(shù)據(jù)處理過程PP探測器產(chǎn)生事例數(shù)據(jù)獲取原始數(shù)據(jù)重建數(shù)據(jù)數(shù)據(jù)重建物理結(jié)果數(shù)據(jù)分析諾貝爾獎只需要三步,就可以獲得諾貝爾獎加速器與探測器計算環(huán)境與數(shù)據(jù)處理e+e-全球最大的粒子加速器 加速器 探測器周長27公里地下100米Atlas探測器重量7000余噸直徑25米,長46米1億路電子學(xué)信號3000公里的纜線3000物理學(xué)家LHC: 數(shù)據(jù)挑戰(zhàn)在線 40M Hz collisions 1PB/sec離線數(shù)據(jù) 30PB per year 全球分布處理過濾判選中國高能物理實(shí)驗(yàn)北京正負(fù)電子對撞機(jī)BE

2、CPII已經(jīng)積累5PB大亞灣中微子實(shí)驗(yàn)200TB/年已經(jīng)積累1PB以上數(shù)據(jù)江門中微子實(shí)驗(yàn)地下500米實(shí)驗(yàn)大廳2019年運(yùn)行,每年將產(chǎn)生2PB數(shù)據(jù)高海拔宇宙線實(shí)驗(yàn)LHAASO位于四川稻城海子山,海拔4400米2018年開始部分運(yùn)行,每年將產(chǎn)生2PB數(shù)據(jù)其它:HXMT(衛(wèi)星)、CSNS、北方光源等等高能物理實(shí)驗(yàn)計算大數(shù)據(jù):多次測量的隨機(jī)過程(多次獨(dú)立實(shí)驗(yàn))隨機(jī)變量空間很大:產(chǎn)生的末態(tài)粒子極其豐富;精確測量需要大樣本:大數(shù)據(jù)大計算:末態(tài)的模式復(fù)雜(隨機(jī)變量)物理圖像還原非常復(fù)雜:圖像處理、模式識別技術(shù);參數(shù)估計:擬合及誤差估計;等等高能物理領(lǐng)域在快速步入EB級的大數(shù)據(jù)時代數(shù)據(jù)分析挑戰(zhàn):海底撈針9 個

3、數(shù)量級的差別所有物理過程 HIGGS粒子稀有事例和巨量本底的混雜Run 1: six million billion proton-proton collisions (6千萬億)Higgs: 400 events15,000,000,000,000 : 1 (15萬億)比黃金還貴的上帝粒子:1000億RMB的投入找到 170站點(diǎn) 42國家 600,000 CPU 320 PB disk 300 PB tape 10,000 用戶 150 虛擬組織 每天運(yùn)行上百萬作業(yè)全球每秒交換10GB數(shù)據(jù)Beijing-LCG2計算集群或網(wǎng)格的不足CPU資源利用率不足物理服務(wù)器年平均利用率不足60%遺留程序

4、與操作系統(tǒng)不匹配調(diào)度不靈活運(yùn)維成本高引入虛擬化和云計算基于云計算的虛擬集群按需分配資源,提高資源利用率實(shí)現(xiàn)資源整合,共享不同實(shí)驗(yàn)/組織的計算資源滿足峰值需求VM Node Manager:可從外部控制虛擬機(jī)執(zhí)行作業(yè)的軟件VM Node Manager Server:服務(wù)器端,包括一個持久化存儲的后臺數(shù)據(jù)庫,獲取及更新虛擬機(jī)狀態(tài)的接口VM Node Agent:可自動升級的,內(nèi)置于虛擬機(jī)的客戶端,作業(yè)執(zhí)行環(huán)境檢查,Condor_startd打開與關(guān)閉,及其他操作提交作業(yè)VCondor, VPBSVMQuota申請資源資源池狀態(tài)當(dāng)前可用資源lhaaso分配算法資源預(yù)留juno啟停虛擬機(jī)作業(yè)排隊(duì)IH

5、EPCloud(CERNCloud, EC2, Aliyun, )CERN CloudCERN Cloud是世界最大的虛擬集群之一基于Openstack構(gòu)建,2013年開始運(yùn)行統(tǒng)一管理兩個數(shù)據(jù)中心(日內(nèi)瓦與布達(dá)佩斯)規(guī)模:7000多臺物理機(jī),20多萬顆CPU核,2萬多臺虛擬機(jī)平均10秒鐘創(chuàng)建/刪除一個虛擬機(jī)CERN團(tuán)隊(duì)獲得Openstack巴黎峰會SuperUser大獎IHEPCloud2014年11月上線服務(wù)基于OpenStack構(gòu)建,1700臺虛擬機(jī)面向用戶的自助服務(wù)IaaS服務(wù),個人虛擬機(jī)虛擬計算集群,動態(tài)資源調(diào)度基于物理作業(yè)動態(tài)啟動和注銷虛擬機(jī)針對作業(yè)調(diào)度適配的image,一個作業(yè)一臺

6、虛擬機(jī)靈活的網(wǎng)絡(luò)架構(gòu) 任意虛擬機(jī)可以調(diào)度到任意物理服務(wù)器,接入任意網(wǎng)絡(luò)基于用戶的記賬系統(tǒng)和資源互換 開發(fā)的用戶虛擬計算資源使用記賬系統(tǒng)基于“積分”的用戶資源提供和消費(fèi)機(jī)制基于大數(shù)據(jù)技術(shù)的事例管理系統(tǒng)數(shù)據(jù)處理過程事例:一次粒子對撞或者一次粒子間的相互作用粒子物理研究的基本對象探測器記錄事例,產(chǎn)生原始數(shù)據(jù)以二進(jìn)制格式記錄的探測器信號由計算機(jī)產(chǎn)生模擬實(shí)驗(yàn)的蒙特卡羅模擬數(shù)據(jù),數(shù)字化事例重建讀出Raw/MC Raw數(shù)據(jù),處理后產(chǎn)生相關(guān)物理信息,如動量、對撞頂點(diǎn)等;數(shù)據(jù)分析由上千個屬性組成的DST Event文件,提供物理學(xué)家進(jìn)行分析,并最后產(chǎn)生物理結(jié)果事例管理事例包含了一次物理過程,相互獨(dú)立不同的實(shí)驗(yàn)裝

7、置,事例大小不一樣從KB到GB不等不同的實(shí)驗(yàn),收集的事例數(shù)量不同BESIII: 十億級大亞灣中微子:百億級江門中微子:千億級LHC:萬億級事例結(jié)構(gòu)描述事例的組成事例組織文件存儲:自定義結(jié)構(gòu)數(shù)據(jù)庫:RDBMS/面向?qū)ο?NOSQL半結(jié)構(gòu)化存儲:ROOT Rene Brun 27ROOT file structure事例的行存儲Ntuple RWNE1(x1,y1,z1,t1)E2(x2,y2,z2,t2)E3(x3,y3,z3,t3)事例屬性1屬性2屬性3屬性4E1x1y1z1t1E2x2y2z2t2E3x3y3z3t3事例的列存儲Ntuple CWN示例E1(x1,y1,z1,t1)E2(x2

8、,y2,z2,t2)E3(x3,y3,z3,t3)事例E1E2E3屬性1x1x2x3屬性2y1y2y3屬性3z1z2z3舉例:BES事例分析在典型的BES數(shù)據(jù)分析中感興趣的事例:O(1/1000)典型的事例大?。篛(100) kB列式訪問A_1B_1X_1A_2B_2X_2A_nB_nX_n訪問所有列A的數(shù)據(jù)根據(jù)A_i的結(jié)果選擇性訪問列B的數(shù)據(jù)根據(jù)B_j的結(jié)果選擇性訪問列C的數(shù)據(jù)選擇性訪問列C的數(shù)據(jù)按行訪問:需要讀取所有數(shù)據(jù)列式訪問列 : 事例屬性行:事例造成較大的IO開銷建立事例索引TAG: 事例的元數(shù)據(jù)舉例: run 號、事例總數(shù)、徑跡數(shù)帶電不帶點(diǎn)徑跡數(shù)、 不帶電徑跡數(shù)、好的光子數(shù)、k-介

9、子數(shù)、可見光能量定義等每個事例均建立一個TAG (相對較小, 是重建后數(shù)據(jù)DST的1/400)訪問TAG時不需要打開DST文件僅僅訪問選中的DST events使用TAG的初步評測篩選條件:好的光子數(shù),即2nGam 10過濾掉85%保留了全部的目標(biāo)數(shù)據(jù)采用Hbase中存放Tag信息的方式,運(yùn)行時間節(jié)省45%技術(shù)框架傳統(tǒng)方式:基于文件的數(shù)據(jù)管理事例文件事例文件基于文件的事例過濾和篩選基于文件的事例讀取與分析基于單域的事例文件管理新方法:基于文件和NoSQL數(shù)據(jù)索引的融合數(shù)據(jù)管理事例文件事例文件基于數(shù)據(jù)庫的事例過濾和篩選基于事例的并行處理跨域的事例數(shù)據(jù)管理事例特征抽取事例索引、檢索、緩存萬億級事例

10、數(shù)據(jù)庫萬億級事例數(shù)據(jù)庫索引技術(shù)KeyValueMain-IndexFirst Sub IndexSecond Sub IndexInverted IndexClustered DataCompressedTimeCategoryProperty-IDProperty-ValueDetailed Data20120211筆記本尺寸13寸20120211筆記本定位商務(wù)思路構(gòu)建復(fù)合索引實(shí)現(xiàn)ROOT文件格式中“事例” 和“對象”的表達(dá)及組合查詢利用冗余數(shù)據(jù)加速查詢性能,如聚簇技術(shù)等將聚合計算下推到服務(wù)器端完成,如count、avg、sum、groupby、orderby等優(yōu)化索引的檢索技術(shù),如優(yōu)化行鍵

11、合并等淘寶網(wǎng)“數(shù)據(jù)魔方”產(chǎn)品支持百億級記錄的實(shí)時統(tǒng)計查詢?;贖Base采用TCPV索引結(jié)構(gòu)(Time Category -Property-Value)支持多屬性組合式查詢面向ROOT格式文件的多維特征索引結(jié)構(gòu)利用NoSQL數(shù)據(jù)庫在結(jié)構(gòu)和功能上的特點(diǎn),在兩級索引結(jié)構(gòu)中引入倒排索引思想,支持多維特征組合的區(qū)間查詢能力在通過統(tǒng)計事例數(shù)據(jù)的訪問頻次,可以將高訪頻的事例數(shù)據(jù)以聚簇的方式直接存儲在復(fù)合索引中,從而減少索引和事例數(shù)據(jù)文件之間的I/O開銷分布式NoSQL數(shù)據(jù)庫服務(wù)端聚合查詢與統(tǒng)計分布式NoSQL數(shù)據(jù)庫擴(kuò)展: 索引構(gòu)建和存儲、聚合計算和查詢Region Server 1: Data Stor

12、ageIndex+DataData Aggregation查詢引擎服務(wù)器高能物理數(shù)據(jù)分析類應(yīng)用HTTP協(xié)議Region Server 2: Data StorageIndex+DataData AggregationRegion Server 3: Data StorageIndex+DataData Aggregation查詢請求結(jié)果返回查詢結(jié)果緩存sumcountavgorderbygroupbyRegion Server N: Data StorageIndex+DataData Aggregation服務(wù)器端聚合計算算子聚合計算下推可以消除查詢引擎的瓶頸,有效降低查詢延遲利用局部性原理通過數(shù)據(jù)緩存的方式可以進(jìn)一步提高查詢性能跨域的事例數(shù)據(jù)訪問事例數(shù)據(jù)文件(PB-EB)事例索引(10億-萬億)存儲網(wǎng)關(guān)中心站點(diǎn)緩存服務(wù)事例訪問接口CPUCPU遠(yuǎn)程站點(diǎn)廣域網(wǎng)Streami

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論