曙光XData核心技術(shù)_第1頁
曙光XData核心技術(shù)_第2頁
曙光XData核心技術(shù)_第3頁
曙光XData核心技術(shù)_第4頁
曙光XData核心技術(shù)_第5頁
已閱讀5頁,還剩15頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

XData核心技術(shù)解決方案中心核心技術(shù)大數(shù)據(jù)系統(tǒng)管理并行任務(wù)流執(zhí)行控制計算定義和請求描述數(shù)據(jù)轉(zhuǎn)換和遷移數(shù)據(jù)關(guān)聯(lián)加載技術(shù)數(shù)據(jù)劃分和存儲組織Hadoop系統(tǒng)安裝、部署和配置Hadoop系統(tǒng)的高可用和故障處理任務(wù)流執(zhí)行同步控制技術(shù)

任務(wù)間數(shù)據(jù)劃分和傳輸控制

大表關(guān)聯(lián)和嵌套查詢數(shù)據(jù)劃分到文件的映射

數(shù)據(jù)模式定義和解釋計算語義的預(yù)定義技術(shù)SQL/MR作業(yè)的級聯(lián)和關(guān)聯(lián)

混合任務(wù)流描述和解析結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換技術(shù)

并行處理內(nèi)部隱式數(shù)據(jù)轉(zhuǎn)換

數(shù)據(jù)導(dǎo)入導(dǎo)出和數(shù)據(jù)遷移技術(shù)

DB/Hadoop數(shù)據(jù)模式映射

多源關(guān)聯(lián)數(shù)據(jù)導(dǎo)入HDFS*124356大數(shù)據(jù)系統(tǒng)管理大數(shù)據(jù)管理系統(tǒng)安裝部署服務(wù)管理與監(jiān)控,告警系統(tǒng)參數(shù)配置Mapreduce部署zookeeper部署HDFS監(jiān)控,告警Mapreduce監(jiān)控,告警HBase監(jiān)控,告警HDFS參數(shù)配置Mapreduce參數(shù)配置hive部署kerberos認(rèn)證部署,其他次要組件,sqoop,flume,pig部署

Zookeepr監(jiān)控,告警底層CPU,磁盤,網(wǎng)絡(luò)監(jiān)控,告警

遠(yuǎn)程shell,修改操作系統(tǒng)參數(shù)HBase參數(shù)配置Zookeeper參數(shù)配置Licence管理HBase部署HDFS部署Xdata4.2.1系統(tǒng)整體構(gòu)架對不同數(shù)據(jù)類型,提供統(tǒng)一的數(shù)據(jù)處理模式

類JDBC的接口

類MR執(zhí)行機制,支持復(fù)雜處理

服務(wù)配置和集群管理多級存儲管理

數(shù)據(jù)備份和恢復(fù)

完整的故障處理機制采用類SQL表達查詢和檢索需求

結(jié)構(gòu)化數(shù)據(jù):采用標(biāo)準(zhǔn)SQL語句文本數(shù)據(jù):采用lucene文本進行檢索

音視頻數(shù)據(jù):數(shù)據(jù)庫+文件系統(tǒng)其他:支持自定義數(shù)據(jù)處理任務(wù)結(jié)構(gòu)化數(shù)據(jù)Database非結(jié)構(gòu)化數(shù)據(jù)FileSystem通用海量數(shù)據(jù)處理平臺用戶請求通用的大數(shù)據(jù)處理平臺數(shù)據(jù)節(jié)點采用SN結(jié)構(gòu)+類MR的并行查詢執(zhí)行引擎向上:對用戶提供統(tǒng)一的數(shù)據(jù)處理接口向下:管理不同類型的數(shù)據(jù),提供通用的執(zhí)行框架XData設(shè)計原理和關(guān)鍵技術(shù)可擴展數(shù)據(jù)分布策略1大表關(guān)聯(lián)查詢技術(shù)通用并行查詢引擎23用戶自定義查詢處理4系統(tǒng)可靠性技術(shù)非結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一處理56系統(tǒng)訪問和管理工具71.數(shù)據(jù)分布策略支持多種數(shù)據(jù)分布策略

事實數(shù)據(jù)分片存儲hash,range,和round-robin分布支持系統(tǒng)規(guī)模動態(tài)伸縮配置數(shù)據(jù)全復(fù)制大量DML操作一致性控制提供數(shù)據(jù)雙寫的支持支持本地雙副本數(shù)據(jù)寫入異地容災(zāi)機制異地數(shù)據(jù)批量遷移的支持

節(jié)點故障和恢復(fù)數(shù)據(jù)不丟失不影響當(dāng)前執(zhí)行的任務(wù)A1BA2BA3BA4B大表分片小表復(fù)制存儲劃分四個級別:記錄,分區(qū),節(jié)點,節(jié)點組可擴展的虛分區(qū)技術(shù),分區(qū)數(shù)是節(jié)點數(shù)的4~8倍(建議為數(shù)據(jù)節(jié)點的核數(shù)),支持?jǐn)?shù)據(jù)節(jié)點規(guī)模的動態(tài)伸縮分區(qū)信息表示一個節(jié)點組包含多個節(jié)點<nodegroup1,node_list>一個節(jié)點包含多個分區(qū)<node1,part_list>元數(shù)據(jù)信息常駐內(nèi)存:各服務(wù)程序啟動時讀取P1P2P5P6P3P4P7P8節(jié)點1…節(jié)點組P9P10P13P14P11P12P15P16節(jié)點2存儲劃分:記錄分區(qū)節(jié)點節(jié)點組1.數(shù)據(jù)分區(qū)的存儲劃分分區(qū)重新映射最小化數(shù)據(jù)遷移,分區(qū)整體遷移遷移完成,修改分區(qū)節(jié)點映射表{<p1,p2,p3,p4>,<p5,p6,p7,p8>,<p9,p10,p11,p12>}=>{<p1,p2,p3>,<p5,p6,p7>,<p9,p10,p11>,<p4,p8,p12>}1.數(shù)據(jù)分區(qū)-系統(tǒng)規(guī)模擴展p1p2p3p4p5p6p7p8p9p10p11p12節(jié)點1節(jié)點2節(jié)點3新增節(jié)點2.通用的并行查詢引擎詞法分析采用LEX分解SQL語句語法分析將查詢語句按照關(guān)鍵字分成拆分成標(biāo)準(zhǔn)結(jié)構(gòu)數(shù)據(jù)分布分析語義分解按語義拆分成并行查詢算子流算子任務(wù)的執(zhí)行節(jié)點算子任務(wù)的數(shù)據(jù)流向查詢算子任務(wù)流查詢執(zhí)行計劃,表達了查詢處理的邏輯順序作為并行查詢執(zhí)行器的輸入詞法分析語法分析語義分解查詢算子任務(wù)流并行查詢執(zhí)行器用戶SQL查詢結(jié)果元數(shù)據(jù)信息大表關(guān)聯(lián)查詢是海量數(shù)據(jù)處理的難點,也是提高核心競爭力的關(guān)鍵大量數(shù)據(jù)交互,對磁盤讀寫和網(wǎng)絡(luò)傳輸性能要求高應(yīng)用廣泛:大量關(guān)聯(lián)分析類查詢和數(shù)據(jù)挖掘類應(yīng)用3.大表關(guān)聯(lián)查詢A1B1A2B2A3B3A4B4Node1Node2Node3Node4瓶頸:節(jié)點間數(shù)據(jù)傳輸原始查詢語句Select

姓名,號碼,sum(話費)

From 通話記錄表A,用戶信息表B

Where時間between(t1,t2)andA.號碼=B.號碼

Groupby姓名,號碼

查詢算子1,2算子1:Select姓名,號碼from用戶信息表算子2:Select話費,號碼from用戶行為表where時間between(t1,t2)數(shù)據(jù)分派方法Hash(號碼)=MPI_rank#關(guān)聯(lián)查詢算子3

算子3:Select姓名,號碼,sum(話費)fromA1,B1 whereA1.號碼=B1.號碼 groupby姓名,號碼…復(fù)雜的查詢,需要對關(guān)聯(lián)結(jié)果再統(tǒng)計或排序例:大表關(guān)聯(lián)的并行查詢?nèi)蝿?wù)流算子1算子2算子3算子44.用戶自定義查詢?nèi)蝿?wù)流支持用戶自定義查詢?nèi)蝿?wù)流,適合廣泛的應(yīng)用需求自定義查詢類任務(wù)SQL語句查詢?nèi)蝿?wù)節(jié)點支持任何復(fù)雜的關(guān)聯(lián)和嵌套查詢處理直接支持自定義任務(wù)節(jié)點自定義挖掘類任務(wù)自定義數(shù)據(jù)集操作函數(shù)支持嵌入各種數(shù)據(jù)挖掘算法需要操作函數(shù)或者挖掘算法的庫函數(shù)支持可利用開源算法SQL解析并行查詢?nèi)蝿?wù)流并行查詢執(zhí)行引擎PQE用戶自定義并行查詢?nèi)蝿?wù)流并行查詢執(zhí)行引擎PQE用戶修改用戶SQL結(jié)果輸出結(jié)果輸出修改查詢?nèi)蝿?wù),滿足定制處理5.非結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一處理

抽象數(shù)據(jù)訪問驅(qū)動層,支持加載不同類型數(shù)據(jù)的訪問文本檢索可采用文本索引開源軟件lucenelucene文本索引訪問接口關(guān)聯(lián)查詢和分析(先后順序)關(guān)鍵字檢索+數(shù)據(jù)庫查詢

如查找含有特殊內(nèi)容的數(shù)據(jù)庫記錄數(shù)據(jù)庫查詢+關(guān)鍵字檢索

如查找某些數(shù)據(jù)庫記錄的詳細(xì)文本內(nèi)容音視頻數(shù)據(jù)檢索通用的框架設(shè)計,可以裝載不同數(shù)據(jù)類型的訪問驅(qū)動實現(xiàn)對SQL/Mapreduce的統(tǒng)一處理支持MR任務(wù)預(yù)定義,簡化的用戶請求采用類SQL的方式,實現(xiàn)SQL/MR任務(wù)的級聯(lián)和關(guān)聯(lián)等復(fù)雜數(shù)據(jù)處理LuceneLuceneLuceneLuceneLucene訪問接口Oracle訪問接口抽象數(shù)據(jù)訪問驅(qū)動層其他數(shù)據(jù)訪問接口數(shù)據(jù)劃分和存儲組織數(shù)據(jù)對象的文件存儲邏輯到物理層的映射關(guān)系數(shù)據(jù)對象的內(nèi)部解釋邏輯到模式的映射關(guān)系數(shù)據(jù)劃分支持?jǐn)?shù)據(jù)按照key進行劃分分區(qū)=子目錄劃分策略Hash,Range,List三種存儲參數(shù)設(shè)定:并行度,塊大小等Data…HDFS文件系統(tǒng)F1F2F3…子目錄F1F2F3…子目錄F1F2F3…

子目錄

轉(zhuǎn)換/劃分并行入庫并行入庫并行入庫計算定義和請求描述計算語義計算語義到執(zhí)行命令的映射(含數(shù)據(jù)模式解析)基本操作類型MapReduce(MR),SQL,UDF任務(wù)級聯(lián)S(S),M(M),M(S),S(M)任務(wù)關(guān)聯(lián)SxS,MxM,SxM,MxS計算語義的形式化描述,用于請求分析OP={Φ,S,

M};OP=OP(OP);OP=OPxOP任務(wù)流圖可描述任意計算語義SQL/MRSQL/MRSQL/MRSQL/MRSQL/MR級聯(lián)關(guān)聯(lián)任務(wù)流計算語義舉例定義Mapreduce作業(yè)definewordcount($1)WordCount.jarinput[runtimeparameters];definesort($1)Sort.jarinput[runtimeparameters];Mapreduce作業(yè)級聯(lián)sort(wordcount(file1));Mapreduce和SQL級聯(lián)wordcount(selectname,agefromtable1);selectcount(key)from(wordcount(file1));selectsum(value)from(wordcount(file1));Mapreduce/SQL關(guān)聯(lián)selectname,agefromtable1Ajoinwordcount(dir1)BwhereA.name=B.keyandB.value>100;任務(wù)流執(zhí)行控制請求解析類SQL

=>任務(wù)流Lex&bison執(zhí)行引擎MR任務(wù):hadoop執(zhí)行SQL任務(wù):數(shù)據(jù)庫執(zhí)行HBase/Hive任務(wù)執(zhí)行同步控制MR+MPI的執(zhí)行方式查詢服務(wù)器:命令提交,執(zhí)行控制,結(jié)果采集數(shù)據(jù)節(jié)點:各任務(wù)的計算數(shù)據(jù)分發(fā)數(shù)據(jù)格式轉(zhuǎn)換數(shù)據(jù)劃分和分發(fā)

用戶類SQL請求

請求解析(詞法、語法、語義、優(yōu)化)查詢處理引擎,提交各任務(wù)執(zhí)行HadoopMREngineDBSQLEngineHBase(ColumnDB)HadoopHDFSBigDataQueryEngineDatabaseHive-QL結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換和遷移DB/HDFS數(shù)據(jù)轉(zhuǎn)換DB/HDFS間的ETL操作任務(wù)間的數(shù)據(jù)交互顯示轉(zhuǎn)換工具DB<=>HBase/Hive支持sqoop的數(shù)據(jù)導(dǎo)出導(dǎo)入實現(xiàn)帶條件的導(dǎo)出/導(dǎo)入數(shù)據(jù)備份和恢復(fù)內(nèi)部隱式轉(zhuǎn)換MR/SQL混合任務(wù)的級聯(lián)和關(guān)聯(lián)數(shù)據(jù)存儲組織的修改(DB+HDFS)MapReduceHDFSFileLocalFileSQLSQL轉(zhuǎn)換轉(zhuǎn)換Result數(shù)據(jù)關(guān)聯(lián)加載常見的應(yīng)用遷移方式DB=>HBase如農(nóng)行POC,建行測試技術(shù)難點Hadoop/HBase無法支持復(fù)雜數(shù)據(jù)訪問模式簡單,只能表示為<key,value>,實質(zhì)為按key的排序表操作簡單,只能根據(jù)key值和范圍進行訪問,以及全表掃描關(guān)聯(lián)合并引入大量的磁盤IO,網(wǎng)絡(luò)和計算開銷多表關(guān)聯(lián)合并時HBase中Key和列族的設(shè)計實現(xiàn)方案對數(shù)據(jù)進行Hash劃分,并發(fā)關(guān)聯(lián)加載,類似于XData4.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論