OnceDI中監(jiān)視系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第1頁(yè)
OnceDI中監(jiān)視系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第2頁(yè)
OnceDI中監(jiān)視系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第3頁(yè)
OnceDI中監(jiān)視系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第4頁(yè)
OnceDI中監(jiān)視系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第5頁(yè)
已閱讀5頁(yè),還剩16頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、OnceDI中監(jiān)視系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)報(bào)告人:吳輝導(dǎo)師:葉丹 高級(jí)工程師2011-1-1815 / 21文檔可自由編輯打印n選題依據(jù)及意義n國(guó)內(nèi)外研究現(xiàn)狀n研究?jī)?nèi)容與研究方案n工作進(jìn)展與工作計(jì)劃n數(shù)據(jù)集成q數(shù)據(jù)集成是將不同來(lái)源與格式的數(shù)據(jù)邏輯上或物理上進(jìn)行集 成的過(guò)程1。n ETL (Extract, Transform, Load)qETL完成跨數(shù)據(jù)源的數(shù)據(jù)抽取,并將數(shù)據(jù)經(jīng)過(guò)一定的轉(zhuǎn)換, 最終加載到目的端數(shù)據(jù)源,是數(shù)據(jù)集成系統(tǒng)的重要組成部分。抽取轉(zhuǎn)換加載1Wikipedian數(shù)據(jù)集成中間件OnceDIControl CenterExtractDBDI ServerInternetDI Serve

2、rLoad保證正確性和完整性XML網(wǎng)絡(luò)情況復(fù)雜分布式體系結(jié)構(gòu)從全局了解系統(tǒng)情況分布式ETL過(guò)程了解整個(gè)ETL過(guò)程的調(diào)度 執(zhí)行情況和數(shù)據(jù)遷移情況關(guān)心歷史數(shù)據(jù)統(tǒng)計(jì)分析 評(píng)估系統(tǒng)性能、輔助決策n ETL Monitoring2qETL過(guò)程相關(guān)指標(biāo)執(zhí)行狀態(tài)、執(zhí)行時(shí)間、抽取速率、加載速率、吞吐率等“You will want to monitor job status for all job runs initiated by the job scheduler including pending, running, completed, and suspended jobs”q系統(tǒng)基礎(chǔ)設(shè)施性能指標(biāo)CP

3、U使用、內(nèi)存使用、磁盤(pán)讀寫(xiě)速率、網(wǎng)絡(luò)傳輸速率等q數(shù)據(jù)統(tǒng)計(jì)“Users often want to know exactly when a table has been loaded or if any rows were rejected”“capturing the historical data to support trending performance over time. “Be sure to trigger alerts whenever an ETL job takes significantly more or less time to complete than indi

4、cated by the historical record.”2Ralph Kimball, Joe Caserta. The Data Warehouse ETL Toolkit, Practical Techniques for Extracting, Cleaning, Conforming, and Delivering Data.Wiley, 2004n主流ETL工具的監(jiān)控功能q ETL中間件Informatica PowerCenter, Talend, IBM DataStageq數(shù)據(jù)庫(kù)附帶ETL工具M(jìn)icrosoft SQL Server Integration Servic

5、e, Oracle Data Integratorq不足:統(tǒng)計(jì)分析功能簡(jiǎn)單,大多沒(méi)有提供監(jiān)視ETL過(guò)程 執(zhí)行進(jìn)度的功能。n其它q 低干擾(Low intrusion) q 可配置監(jiān)視信息流 OnceDI控制流 OnceDI數(shù)據(jù)流監(jiān)視系統(tǒng)的體系結(jié)構(gòu)StudioMonitor ClientMonitor CenterDI ServerMAgentDI ServerControl CenterMAgentRelational DBMAgentXMLMonitor ClientPresentation監(jiān)視系統(tǒng)的體系結(jié)構(gòu)Client.cfgConfigurationData InterfaceData

6、ManagerSessionClient InterfaceMonitor CenterMCenter.cfgData CashCentral ManageraccessDataMAgentAlarmAnalyzerMAgent.cfgHeart Beat CollectorData ProcessorMergerFilterModel HandlerManagerSessionPushPullModel Handler Agent RegisterSessionPreprocessorDispatcher1.監(jiān)視信息的收集和傳輸2.監(jiān)視信息的組織和存儲(chǔ)3.監(jiān)視信息的統(tǒng)計(jì)、分析和展示1.監(jiān)視信

7、息的收集和傳輸目的:通過(guò)收集各種監(jiān)視指標(biāo)來(lái)反映系統(tǒng)當(dāng)前的行為和狀態(tài)1. ETL indicatorsMeta datanameauthortypeETL過(guò)程的執(zhí)行進(jìn)度=C=re=a=te=ti=m=e=S=o=u=r=cetargetT3:開(kāi)始連接數(shù)據(jù)源;ProgressStart/End timeExtracted/loadedTro4w:s 連接數(shù)據(jù)Pr源oc成es功si;ng rateDetailsT5:開(kāi)始抽取數(shù)據(jù);Performance & resultsDurationProcessed rowsSTuc6c:es已s/抽fai取led10ro0w0s條;Read/ writeEr

8、rorsT8:關(guān)閉數(shù)據(jù)源;throughput2. Infrastructure indicatorsT9:關(guān)閉數(shù)據(jù)源成功;T10:開(kāi)始發(fā)送數(shù)據(jù);Meta data of serverCPU number and typeMemory sizeDisk sizePerformanceCPUusageMemory usageVirtual memory sizePage faultDisk read/write rate3. Distributed system:Heart Beatn由MAgent負(fù)責(zé)收集和過(guò)濾n傳輸q元數(shù)據(jù)n數(shù)據(jù)量比較小,而且不需要經(jīng)常更新,又有可靠性要求n方案:采用Pull

9、的方式,使用TCP協(xié)議q性能、心跳和進(jìn)度n數(shù)據(jù)量比較大,更新頻繁,不適合用TCP協(xié)議n 方案:Push到Monitor Center,使用UDP協(xié)議n存在的問(wèn)題高效&可靠?對(duì)于ETL的進(jìn)度和結(jié)果信息q是用戶最關(guān)心的指標(biāo),也是統(tǒng)計(jì)分 析的依據(jù)。網(wǎng)絡(luò)環(huán)境復(fù)雜,基于 UDP雖然高效但是不可靠。q數(shù)據(jù)量大,對(duì)OnceDI系統(tǒng)網(wǎng)絡(luò)產(chǎn)生 了影響。Monitor CenterUDPentMAgAgentMMAgent如何壓縮 數(shù)據(jù)量n基于模型的監(jiān)視信息還原技術(shù)nETL進(jìn)度信息可以抽象成為一個(gè)模型1. 連接數(shù)據(jù)源:T3;2. 連接數(shù)據(jù)源成功:T4;3. 開(kāi)始抽取數(shù)據(jù):T5;4. 已抽取1000條:T6;5.

10、關(guān)閉數(shù)據(jù)源:T8;6.(1)關(guān)閉數(shù)據(jù)源成功:T9;(2)關(guān)閉數(shù)據(jù)源失?。篢9;7. 開(kāi)始發(fā)送數(shù)據(jù):T10;123456(1)失敗6(2)執(zhí)行終止7不會(huì)導(dǎo)致終止執(zhí)行的錯(cuò)誤1. 保障可靠性:信息恢復(fù)、順序調(diào)整12131124334(1)4可確定15均已發(fā)生2 235失敗46(1)接收到了652. 壓縮數(shù)據(jù)量:只傳輸關(guān)鍵結(jié)點(diǎn)126(1)76(2)關(guān)鍵結(jié)點(diǎn)34接收方:可還原1556(1)發(fā)送方:只發(fā)送關(guān)鍵結(jié)點(diǎn)6(1) 用戶可根據(jù)需要進(jìn)行配置 n關(guān)鍵問(wèn)題q模型的構(gòu)建和關(guān)鍵結(jié)點(diǎn)的定義n 可由用戶提供配置文件,Monitor Manager和MAgent均解 析該文件構(gòu)建模型。1q中間結(jié)點(diǎn)的實(shí)例敏感信息的還

11、原策略2n發(fā)送方緩存機(jī)制+關(guān)鍵結(jié)點(diǎn)捎帶3q出現(xiàn)失敗n發(fā)送方緩存機(jī)制 + 動(dòng)態(tài)關(guān)鍵結(jié)點(diǎn)q關(guān)鍵結(jié)點(diǎn)丟失n超時(shí)重傳或使用TCP成為動(dòng)態(tài) 關(guān)鍵結(jié)點(diǎn)456(1)失敗6(2)72. 監(jiān)視信息的組織和存儲(chǔ)n將當(dāng)前系統(tǒng)的重要指標(biāo)數(shù)據(jù)進(jìn)行持久化,以支持 后續(xù)的統(tǒng)計(jì)分析。n池化的思想管理主存n初步計(jì)劃使用文本型關(guān)系數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)。n遺留問(wèn)題:還需要再考慮一下存儲(chǔ)模式設(shè)計(jì)n元數(shù)據(jù)和運(yùn)行時(shí)數(shù)據(jù)ETLJOBPKJOBIDname author typecreated_time source targetprocess_belonged sTaskId rTaskId sDIServer tDIServerETLJOB_R

12、UNTIMEPK PKjobid startend durationprocessedRows rejectRows throughput errorssuccessERRORPKidtaskId desc leveltimestampDI ServerPKGUIDname cpumem_size disk_size基于元數(shù)據(jù)的統(tǒng)與某數(shù)據(jù)源關(guān)聯(lián)的所有ETL任務(wù)。(計(jì)報(bào)表)某時(shí)段執(zhí)行的ETL任務(wù)。(報(bào)表)基于運(yùn)行結(jié)果的(a) 自T時(shí)間以來(lái),系統(tǒng)中所有ETL任統(tǒng)計(jì)務(wù)的活躍情況。(柱狀圖)(b) 某ETL任務(wù)自T時(shí)間以來(lái)(或最近N次執(zhí)行)產(chǎn)生的錯(cuò)誤類(lèi)型的比例。(餅圖)基于性能的統(tǒng)計(jì)(a) 流程/ET

13、L任務(wù)自T時(shí)間以來(lái)每次的執(zhí)行時(shí)間/CPU使用/內(nèi)存使用/缺頁(yè)中斷的變化情況。(折線圖/柱狀圖)(b) 某次流程/ETL任務(wù)執(zhí)行時(shí)階段的用時(shí)比例。(餅圖)(c) 某流程/ETL任務(wù)各次的執(zhí)行時(shí)間,結(jié)果,吞吐率等。(報(bào)表)3. 監(jiān)視信息的統(tǒng)計(jì)、分析 和展示n整合系統(tǒng)中的各種監(jiān)視信息,幫助用戶更直觀、更容易 的了解整個(gè)系統(tǒng)。n通過(guò)基于統(tǒng)計(jì)值的分析,查 找和定位可能存在的瓶頸或 問(wèn)題。 統(tǒng)計(jì)(2)基于統(tǒng)計(jì)結(jié)果的分析和報(bào)警機(jī)制n發(fā)現(xiàn)問(wèn)題:對(duì)于某個(gè)ETL任務(wù),統(tǒng)計(jì)T時(shí)刻以來(lái)的的 執(zhí)行時(shí)間/吞吐率的平均值,當(dāng)正在執(zhí)行的時(shí)間超出調(diào) 整范圍時(shí)時(shí),報(bào)警。n定位問(wèn)題:對(duì)比該ETL任務(wù)各階段(抽取、傳輸、加 載)和統(tǒng)計(jì)均值,確定問(wèn)題所在階段。n統(tǒng)計(jì)ETL任務(wù)執(zhí)行時(shí)各階段的耗時(shí)比例,有助于發(fā)現(xiàn) 系統(tǒng)瓶頸。(3)展

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論