2022金融數(shù)據(jù)集成產(chǎn)品文檔_第1頁
2022金融數(shù)據(jù)集成產(chǎn)品文檔_第2頁
2022金融數(shù)據(jù)集成產(chǎn)品文檔_第3頁
2022金融數(shù)據(jù)集成產(chǎn)品文檔_第4頁
2022金融數(shù)據(jù)集成產(chǎn)品文檔_第5頁
已閱讀5頁,還剩41頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)集成數(shù)據(jù)集成2022第PAGE2022第1頁共46頁建設(shè)銀行大數(shù)據(jù)云數(shù)產(chǎn)品文檔數(shù)產(chǎn)品文檔據(jù)集成文檔目錄產(chǎn)品簡(jiǎn)介產(chǎn)品概述產(chǎn)品價(jià)值產(chǎn)品定位產(chǎn)品優(yōu)勢(shì)應(yīng)用場(chǎng)景功能特性功能特性數(shù)據(jù)同步數(shù)據(jù)源和數(shù)據(jù)目標(biāo)支持表設(shè)置不同數(shù)據(jù)類型寫入方式不同數(shù)據(jù)加工數(shù)據(jù)整合快速入門快速入門子帳號(hào)登錄新建項(xiàng)目新建數(shù)據(jù)集成任務(wù)操作指南數(shù)據(jù)同步數(shù)據(jù)加工數(shù)據(jù)整合業(yè)務(wù)檢核最佳實(shí)踐常見問題詞匯表數(shù)據(jù)集成數(shù)據(jù)集成2022第PAGE2022第3頁共46頁產(chǎn)品簡(jiǎn)介產(chǎn)品概述最近更新時(shí)間:2019-10-2802:53:13數(shù)據(jù)集成是一套穩(wěn)定高效、彈性伸縮的數(shù)據(jù)接入、轉(zhuǎn)換、加工、檢核的可視化的數(shù)據(jù)套件,整個(gè)套件包括數(shù)據(jù)同步、數(shù)據(jù)加工、數(shù)據(jù)整合和業(yè)務(wù)檢核四大功能。極大地降低了用戶數(shù)據(jù)上云以及數(shù)據(jù)開發(fā)的門檻。數(shù)據(jù)集成主要包括四大功能組件:數(shù)據(jù)同步工具不僅能夠滿足傳統(tǒng)數(shù)據(jù)集成服務(wù)在復(fù)雜網(wǎng)絡(luò)環(huán)境下進(jìn)行多種異構(gòu)數(shù)據(jù)源的導(dǎo)入導(dǎo)出需求,同時(shí)在數(shù)據(jù)導(dǎo)入導(dǎo)出的過程中同步進(jìn)行數(shù)據(jù)清洗、去重、規(guī)范化等,提高數(shù)據(jù)質(zhì)量,防止臟數(shù)據(jù)、垃圾數(shù)據(jù)的傳播。數(shù)據(jù)加工工具采用可視化拖拽的方式進(jìn)行數(shù)據(jù)ETL開發(fā),降低開發(fā)門檻,使沒有SQL經(jīng)驗(yàn)的業(yè)務(wù)人員也能夠進(jìn)行快速的數(shù)據(jù)邏輯開發(fā)。數(shù)據(jù)整合工具結(jié)合行業(yè)經(jīng)驗(yàn),沉淀豐富的貼源數(shù)據(jù)處理算法,用戶只需要?jiǎng)?chuàng)建特定的表結(jié)構(gòu)后通過向?qū)降墓催x就可實(shí)現(xiàn)數(shù)據(jù)貼源層加工。業(yè)務(wù)檢核工具與數(shù)據(jù)質(zhì)量模塊相結(jié)合,對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)質(zhì)量,數(shù)據(jù)波動(dòng)的統(tǒng)計(jì)查詢,讓用戶了解數(shù)據(jù)質(zhì)量情況。2022第PAGE2022第4頁共46頁數(shù)據(jù)集成產(chǎn)品價(jià)值最近更新時(shí)間:2019-10-2802:54:16提供了復(fù)雜網(wǎng)絡(luò)環(huán)境下、異構(gòu)數(shù)據(jù)源的數(shù)據(jù)接入和批量同步服務(wù)。在向?qū)?,拖拽式的開發(fā)過程中通過數(shù)據(jù)清理、數(shù)據(jù)轉(zhuǎn)換等,加強(qiáng)數(shù)據(jù)質(zhì)量管理,最終實(shí)現(xiàn)分布在各個(gè)不同源中的數(shù)據(jù)高質(zhì)量的匯總。2022第PAGE2022第5頁共46頁數(shù)據(jù)集成產(chǎn)品定位最近更新時(shí)間:2019-10-2802:55:05數(shù)據(jù)集成是大數(shù)據(jù)云服務(wù)核心組件之一,定位于為大數(shù)據(jù)云項(xiàng)目中離線數(shù)據(jù)的處理,包括用戶線下數(shù)據(jù)的上云遷移,可視化的ETL加工,以及數(shù)據(jù)同步中的檢核等,是離線數(shù)據(jù)處理功能組件的一個(gè)重要部分。2022第PAGE2022第6頁共46頁數(shù)據(jù)集成產(chǎn)品優(yōu)勢(shì)最近更新時(shí)間:2019-11-2615:30:29多種不同類型數(shù)據(jù)源傳輸,有效整合分散的數(shù)據(jù)資產(chǎn),解決數(shù)據(jù)孤島問題向?qū)健⑼献降拈_發(fā)方式實(shí)現(xiàn)數(shù)據(jù)計(jì)算邏輯設(shè)計(jì),零代碼開發(fā),降低使用門檻,提升開發(fā)效率對(duì)無效數(shù)據(jù),異常數(shù)據(jù)等臟數(shù)據(jù)進(jìn)行清洗、規(guī)范化等,有效提成數(shù)據(jù)質(zhì)量豐富的數(shù)據(jù)脫敏,加密等轉(zhuǎn)換方式,提升數(shù)據(jù)安全合規(guī)靈活的技術(shù)檢核與業(yè)務(wù)檢核配置,數(shù)據(jù)傳輸過程中進(jìn)行數(shù)據(jù)質(zhì)量全程監(jiān)控并生成質(zhì)量報(bào)告2022第PAGE2022第7頁共46頁數(shù)據(jù)集成應(yīng)用場(chǎng)景最近更新時(shí)間:2019-11-2615:30:29本地?cái)?shù)據(jù)遷移上云:使用數(shù)據(jù)集成中的數(shù)據(jù)同步服務(wù),用戶可以快速、低成本的創(chuàng)建面向?qū)ο蟠鎯?chǔ)、標(biāo)準(zhǔn)數(shù)據(jù)接口服務(wù)(JDBC適配的數(shù)據(jù)庫)、NoSQL等多種數(shù)據(jù)源的數(shù)據(jù)同步任務(wù),通過調(diào)度的周期性任務(wù)設(shè)置,企業(yè)可輕松實(shí)現(xiàn)不同數(shù)據(jù)源的周期性數(shù)據(jù)接入,大大降低企業(yè)本地?cái)?shù)據(jù)上云門檻。貼源數(shù)據(jù)的邏輯加工使用數(shù)據(jù)集成中的數(shù)據(jù)整合功能,用戶可以將業(yè)務(wù)系統(tǒng)每日產(chǎn)生的數(shù)據(jù)快速的進(jìn)行邏輯整合,生成拉鏈表,切片表等。減少了復(fù)雜邏輯腳本的開發(fā),降低了數(shù)據(jù)整合處理門檻。2022第PAGE2022第8頁共46頁數(shù)據(jù)集成功能特性功能特性最近更新時(shí)間:2019-10-2803:02:54數(shù)據(jù)集成部分包括的功能有數(shù)據(jù)檢核、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)同步和數(shù)據(jù)整合。主要是完成Source到Sink之間同源、異源、文件到庫表以及庫表到文件等一系列數(shù)據(jù)操作。功能細(xì)節(jié)如下:數(shù)據(jù)檢核部分通常在數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)同步、數(shù)據(jù)整合或者數(shù)據(jù)加工之前進(jìn)行,分為業(yè)務(wù)檢核和技術(shù)檢核。數(shù)據(jù)同步部分是為了實(shí)現(xiàn)從源端到目標(biāo)端數(shù)據(jù)的加載、卸載、復(fù)制。數(shù)據(jù)整合部分使用增量切片算法、全量切片算法、拉鏈算法、時(shí)點(diǎn)快照算法及數(shù)據(jù)表拆分等方式實(shí)現(xiàn)。數(shù)據(jù)加工部分主要使用SQL對(duì)庫表或者非庫表數(shù)據(jù)進(jìn)行指標(biāo)、維度、統(tǒng)計(jì)等加工計(jì)算。2022第PAGE2022第9頁共46頁數(shù)據(jù)集成數(shù)據(jù)同步數(shù)據(jù)源和數(shù)據(jù)目標(biāo)支持表設(shè)置最近更新時(shí)間:2019-10-2803:08:54數(shù)據(jù)同步支持的數(shù)據(jù)源類型文件存儲(chǔ)(COS)數(shù)據(jù)庫(Oracle,MySQL)NoSQL(HBase)大數(shù)據(jù)類(HIVE)MPP數(shù)據(jù)庫(MPP)數(shù)據(jù)同步支持的數(shù)據(jù)目標(biāo)類型文件存儲(chǔ)(COS)數(shù)據(jù)庫(Oracle,MySQL)NoSQL(HBase,Redis)大數(shù)據(jù)類(HIVE,Elasticsearch)MPP數(shù)據(jù)庫(MPP)數(shù)據(jù)集成數(shù)據(jù)集成2022第PAGE2022第10頁共46頁不同數(shù)據(jù)類型寫入方式不同最近更新時(shí)間:2019-10-2803:10:11不同數(shù)據(jù)源的具有不同的寫入方式列表如下insertintoinsertoverwriteappend其他設(shè)置COS(文本類型)每次運(yùn)行是進(jìn)行文件覆蓋進(jìn)行數(shù)據(jù)的追加寫入1.是否寫入表頭選擇寫入的源是否有表頭,需要跳過HIVE每次運(yùn)行進(jìn)行數(shù)據(jù)追加分區(qū)數(shù)據(jù)進(jìn)行替再寫入MPP每次運(yùn)行進(jìn)行數(shù)據(jù)的追加Oracle每次運(yùn)行進(jìn)行數(shù)據(jù)追加每次運(yùn)行時(shí)將表清空再寫入MySQL每次運(yùn)行進(jìn)行數(shù)據(jù)追加每次運(yùn)行時(shí)將表清空再寫入HBase1.rowkey設(shè)置在數(shù)據(jù)管理設(shè)置rowkey,這里只進(jìn)行顯示Redis1.KeyIndex表名+選擇多列+列間隔符2.valuetype和modestring-》sethash-》hset、hmsetlist-》lpush、rpush、mpushset-》sadd3.寫入方式標(biāo)準(zhǔn)模式和value轉(zhuǎn)key模式兩種模式4.是否設(shè)置有效時(shí)間5.數(shù)據(jù)有效時(shí)間是否設(shè)置有效時(shí)間選【是】顯示ES1.docid生成方式拼接列--選擇多列和間隔符特定列--選擇一個(gè)列隨機(jī)UUID數(shù)據(jù)加工最近更新時(shí)間:2019-11-2615:30:28數(shù)據(jù)加工支持的算子簡(jiǎn)介Source算子作用:數(shù)據(jù)加工的數(shù)據(jù)來源,可以選擇多種數(shù)據(jù)源進(jìn)行數(shù)據(jù)操作方式:拖拽Source算子到畫板中,顯示庫表選擇框,選擇需要進(jìn)行加工的庫表點(diǎn)擊確定后,Source變?yōu)榭s略態(tài)。雙擊Source,顯示編輯態(tài),在編輯態(tài)中可以在過濾語句中添加過濾條件,將希望后續(xù)輸出的字段‘輸出’進(jìn)行勾選。算子作用:整個(gè)數(shù)據(jù)數(shù)據(jù)加工的數(shù)據(jù)目標(biāo)。操作方式:拖拽擇需要進(jìn)行加工的庫表點(diǎn)擊確定后,target變?yōu)榭s略態(tài)。將上游算子連接到target算子。雙擊顯示編輯態(tài),在編輯態(tài)中進(jìn)行上游算子字段和目標(biāo)表字段的映射關(guān)系設(shè)置,并根據(jù)不同的目標(biāo)源進(jìn)行寫入方式設(shè)置。Map算子作用:基于行級(jí)的數(shù)據(jù)項(xiàng)復(fù)制、修改、計(jì)算。在同行記錄中可新增、減少數(shù)據(jù)項(xiàng)操作方式:拖拽Map算子到畫板中,將上游算子連線到Map算子,上游算子勾選輸出的數(shù)據(jù)會(huì)同步到Map算子中,雙擊Map算子進(jìn)入Map編輯狀態(tài)??梢栽诿啃斜磉_(dá)式中可以進(jìn)行行級(jí)數(shù)據(jù)處理,如:數(shù)據(jù)類型轉(zhuǎn)換,例如新增變量,例如Port2=Port1+1等。將希望后續(xù)輸出的字段‘輸出’進(jìn)行勾選。Filter算子作用:按照條件過濾掉不符合條件的行。操作方式:拖拽Filter算子到畫板中,將上游算子連接到Filter算子,上游算子勾選輸出的數(shù)據(jù)會(huì)同步到Filter算子中,雙擊Filter算子進(jìn)入編輯狀態(tài)。在Filter條件中添加過濾條件。將希望后續(xù)輸出的字段‘輸出’進(jìn)行勾選。Sample算子作用:按照一定的規(guī)律抽取數(shù)據(jù),目前只支持按照百分比進(jìn)行數(shù)據(jù)抽取操作方式:拖拽Sample算子到畫板中,將上游算子連接到Sample算子,上游算子勾選輸出的數(shù)據(jù)會(huì)同步到Sample算子中,雙擊算子進(jìn)入編輯狀態(tài)。在Sample條件中添加采樣條件,按照百分比進(jìn)行數(shù)據(jù)抽樣。將希望后續(xù)輸出的字段‘輸出’進(jìn)行勾選。Sorter算子作用:對(duì)數(shù)據(jù)按照某些字段進(jìn)行升序/降序的排序。操作方式:拖拽Sorter算子到畫板中,將上游算子連接到Sorter算子,上游算子勾選輸出的數(shù)據(jù)會(huì)同步到Sorter算子中,雙擊算子進(jìn)入編輯態(tài)。在排序字段中添加需要進(jìn)行排序的字段,并選擇排序類型是升序還是降序。將希望后續(xù)輸出的字段‘輸出’進(jìn)行勾選。Join算子作用:對(duì)兩個(gè)數(shù)據(jù)源進(jìn)行連接操作。只支持等值連接。Join只支持連接兩個(gè)數(shù)據(jù)源,如果有多個(gè)數(shù)據(jù)源進(jìn)行連接,使用多個(gè)Join。操作方式:拖拽Join算子到畫板中,Join算子可以接收兩個(gè)輸入源,將一個(gè)上游算子拖拽到Join作為Join的master,將第二個(gè)上游算子拖拽到Join作為Join的detail。Union算子作用:合并兩個(gè)數(shù)據(jù)源到一個(gè)結(jié)果集。與執(zhí)行“UNIONALL”SQL語句結(jié)果相似,不會(huì)刪除重復(fù)行。Union只支持合并兩個(gè)數(shù)據(jù)源,如果有多個(gè)數(shù)據(jù)源進(jìn)行合并,使用多個(gè)Union。操作方式:拖拽Union數(shù)據(jù)集成數(shù)據(jù)集成2022第PAGE2022第13頁共46頁板中,Union算子可以接收兩個(gè)輸入源,將一個(gè)上游算子拖拽到Union作為Union游算子拖拽到Union中作為Union的第二個(gè)輸入組。第一個(gè)輸入組的字段信息會(huì)顯示在Union一輸入組,第二輸入組和Union輸出列表。需要字段類型一致。在Union輸出列表中,將希望后續(xù)輸出的字段‘輸出’進(jìn)行勾選。Aggregator算子作用:對(duì)多組記錄進(jìn)行聚合計(jì)算操作方式:拖拽Aggregator算子到畫板中,將上游算子連線到Aggregator算子,上游算子勾選輸出的數(shù)據(jù)會(huì)同步到Aggretator算子中,雙擊Aggregator算子進(jìn)入Aggregator算子編輯狀態(tài)。對(duì)于Aggregator算子需要至少有一個(gè)分組字段,增加分組字段后,再添加需要進(jìn)行聚合計(jì)算的字段,下拉勾選出對(duì)字段進(jìn)行sum、avg、max、min等聚合運(yùn)算。在分組字段和聚合字段上將希望后續(xù)輸出的字段‘輸出’進(jìn)行勾選。目前數(shù)據(jù)加工支持的算子數(shù)量。以及每個(gè)算子的輸入、輸出及數(shù)據(jù)來源。算子輸入輸出數(shù)據(jù)來源Source算子無多庫多表選擇Target算子1無庫表選擇和上游算子Map算子1多上游算子Filter算子1多上游算子Sample算子1多上游算子Sorter算子1多上游算子Join算子2多上游算子Union算子2多上游算子Aggregator算子1多上游算子數(shù)據(jù)整合最近更新時(shí)間:2019-10-2803:06:07數(shù)據(jù)整合最近更新時(shí)間:2019-10-2803:06:07結(jié)合多年數(shù)據(jù)處理行業(yè)經(jīng)驗(yàn),沉淀固化通用數(shù)據(jù)整合模型,將貼源數(shù)據(jù)的處理過程從繁復(fù)的代碼邏輯中解放,僅需簡(jiǎn)單配置既可完成復(fù)雜貼源數(shù)據(jù)整合。同時(shí)數(shù)據(jù)整合在應(yīng)用時(shí)不同算法對(duì)于源表和目標(biāo)表有一定的配置要求,一般來說目標(biāo)表比源表需要新增特定字段,具體新增字段如下。除了新增字段外其他字段需完全保持一致。數(shù)據(jù)整合全量切片業(yè)務(wù)日期字段ty_data_date批次號(hào)字段ty_batch_number來源標(biāo)識(shí)ty_src_flag運(yùn)行job字段ty_job_name增量切片業(yè)務(wù)日期字段ty_data_date批次號(hào)字段ty_batch_numbe刪除標(biāo)識(shí)ty_del_flag刪除日期ty_del_date刪除批次ty_del_batch運(yùn)行job字段ty_job_name拉鏈表開始業(yè)務(wù)日期ty_start_date開始批次號(hào)ty_start_batch結(jié)束業(yè)務(wù)日期ty_end_date結(jié)束批次號(hào)ty_end_batch刪除標(biāo)識(shí)ty_del_flag運(yùn)行job字段ty_job_name當(dāng)前表業(yè)務(wù)日期字段ty_data_date批次號(hào)字段ty_batch_number運(yùn)行job字段ty_job_name刪除標(biāo)識(shí)ty_del_flag刪除日期字段ty_del_date刪除批次字段ty_del_batch首次加載日期ty_rec_init_date當(dāng)前全量表業(yè)務(wù)日期字段ty_data_date批次號(hào)字段ty_batch_number運(yùn)行job字段ty_job_name刪除標(biāo)識(shí)ty_del_flag刪除日期字段ty_del_date刪除批次字段ty_del_batch首次加載日期ty_rec_init_date快速入門快速入門最近更新時(shí)間:2019-10-2803:14:27本章節(jié)將帶領(lǐng)用戶創(chuàng)建一個(gè)簡(jiǎn)單的集成任務(wù),并分別介紹進(jìn)行數(shù)據(jù)同步、數(shù)據(jù)加工、數(shù)據(jù)整合、業(yè)務(wù)核檢的具體步驟。通過這些步驟,用戶可以快速了解如何使用大數(shù)據(jù)開發(fā)套件功能完成各類數(shù)據(jù)集成任務(wù)。2022第PAGE2022第17頁共46頁數(shù)據(jù)集成子帳號(hào)登錄最近更新時(shí)間:2019-11-1210:21:54(1)進(jìn)入租戶控制臺(tái)登錄頁。點(diǎn)擊【子賬戶登錄】(2)顯示子賬號(hào)登錄頁面,填寫租戶名、子賬戶名、子賬戶密碼,點(diǎn)擊登錄,即進(jìn)入。2022第PAGE2022第18頁共46頁數(shù)據(jù)集成以子賬戶的身份進(jìn)入大數(shù)據(jù)開發(fā)平臺(tái)。數(shù)據(jù)集成數(shù)據(jù)集成2022第PAGE2022第19頁共46頁新建項(xiàng)目最近更新時(shí)間:2019-11-1210:21:54(1)選擇項(xiàng)目空間下【我的項(xiàng)目】展示當(dāng)前用戶參與了哪些項(xiàng)目,點(diǎn)擊【新建項(xiàng)目】創(chuàng)建一個(gè)新的項(xiàng)目。(2)輸入項(xiàng)目名稱,項(xiàng)目描述,點(diǎn)擊【下一步】。(3)勾選項(xiàng)目需要?jiǎng)?chuàng)建的服務(wù)。(4)為每個(gè)服務(wù)進(jìn)行資源選擇,每項(xiàng)服務(wù)都有項(xiàng)目資源后,點(diǎn)擊【下一步】。(5)確認(rèn)項(xiàng)目信息。如需修改,點(diǎn)擊“上一步”修改;如無需修改,點(diǎn)擊“確定”。(6)回到列表頁顯示,剛剛創(chuàng)建的項(xiàng)目空間。新建數(shù)據(jù)集成任務(wù)2019-11-1210:21:54點(diǎn)擊【項(xiàng)目空間-我的項(xiàng)目】顯示項(xiàng)目列表頁面,點(diǎn)擊一個(gè)有權(quán)限的項(xiàng)目。點(diǎn)擊【離線計(jì)算開發(fā)】,點(diǎn)擊新建作業(yè)流,進(jìn)行作業(yè)流創(chuàng)建。輸入作業(yè)流名稱,點(diǎn)擊確定生成新的作業(yè)流。在新建的作業(yè)中拖拽數(shù)據(jù)集成的某一個(gè)模塊。生成對(duì)應(yīng)的任務(wù)。在新建的作業(yè)中拖拽數(shù)據(jù)集成的某一個(gè)模塊。生成對(duì)應(yīng)的任務(wù)。點(diǎn)擊具體作業(yè)進(jìn)入編輯界面。具體作業(yè)編輯使用參考【第五節(jié)-操作指南】點(diǎn)擊具體作業(yè)進(jìn)入編輯界面。具體作業(yè)編輯使用參考【第五節(jié)-操作指南】操作指南數(shù)據(jù)同步最近更新時(shí)間:2019-11-1210:21:54數(shù)據(jù)同步工具不僅能夠滿足傳統(tǒng)數(shù)據(jù)集成服務(wù)在復(fù)雜網(wǎng)絡(luò)環(huán)境下進(jìn)行多種異構(gòu)數(shù)據(jù)源的導(dǎo)入導(dǎo)出需求,同時(shí)在數(shù)據(jù)導(dǎo)入導(dǎo)出的過程中的進(jìn)行數(shù)據(jù)清洗、去重、規(guī)范化等提高數(shù)據(jù)質(zhì)量。防止臟數(shù)據(jù)、垃圾數(shù)據(jù)的傳播。進(jìn)入【項(xiàng)目空間】->【我的項(xiàng)目】,點(diǎn)擊項(xiàng)目名稱進(jìn)入大數(shù)據(jù)開發(fā)套件點(diǎn)擊進(jìn)入【數(shù)據(jù)開發(fā)】->【離線作業(yè)開發(fā)】。選擇【任務(wù)開發(fā)】,在左側(cè)目錄點(diǎn)擊創(chuàng)建的作業(yè)流,新建一個(gè)作業(yè)流雙擊作業(yè)流,進(jìn)入作業(yè)流開發(fā)面板,拖拽數(shù)據(jù)同步插件,輸入節(jié)點(diǎn)名稱。雙擊打開新建的同步任務(wù),打開同步任務(wù)頁面后整個(gè)同步任務(wù)分成三步。第一步選擇數(shù)據(jù)源表:選擇數(shù)據(jù)源的過程中可以在【數(shù)據(jù)過濾】中添加過濾語句,進(jìn)行數(shù)據(jù)的增量同步。具體支持變量請(qǐng)參考。調(diào)度系統(tǒng)中變量設(shè)置章節(jié)。第二步選擇數(shù)據(jù)目標(biāo)表第三步設(shè)置數(shù)據(jù)源表和數(shù)據(jù)目標(biāo)表的映射管理。在映射過程中左邊字段信息來自源表,右邊字段信息來自目標(biāo)表。用戶可以在源表字段上進(jìn)行字段的行級(jí)信息轉(zhuǎn)換:進(jìn)行字段格式轉(zhuǎn)換、對(duì)字段應(yīng)用系統(tǒng)函數(shù)、常量設(shè)置等。也可以新增字段進(jìn)行字段轉(zhuǎn)換。在目標(biāo)表字段中可以設(shè)置默認(rèn)值,如有上游有數(shù)據(jù)傳輸下來使用上游字段,如果上游數(shù)據(jù)為空,使用默認(rèn)值設(shè)置。源和目標(biāo)之間的連線設(shè)置表示數(shù)據(jù)的流向關(guān)系。在數(shù)據(jù)同步開發(fā)過程中可以進(jìn)行參數(shù)設(shè)置如下。其中#{}為系統(tǒng)參數(shù),具體提供系統(tǒng)參數(shù)可參考【調(diào)度系統(tǒng)-功能特性-變量設(shè)置】章節(jié)。系統(tǒng)參數(shù)不需要用戶進(jìn)行賦值,只需要進(jìn)行格式設(shè)置既可。${}為用戶自定義變量,用戶自定2022第PAGE2022第28頁共46頁數(shù)據(jù)集成義變量需要用戶在作業(yè)【參數(shù)設(shè)置】中進(jìn)行參數(shù)賦值。數(shù)據(jù)集成數(shù)據(jù)集成2022第PAGE2022第29頁共46頁數(shù)據(jù)加工最近更新時(shí)間:2019-11-1210:21:54數(shù)據(jù)加工工具采用可視化拖拽的方式進(jìn)行數(shù)據(jù)開發(fā),降低開發(fā)門檻,使沒有SQL經(jīng)驗(yàn)的業(yè)務(wù)人員也能夠進(jìn)行快速的數(shù)據(jù)邏輯開發(fā)。進(jìn)入【項(xiàng)目空間】->【我的項(xiàng)目】,點(diǎn)擊項(xiàng)目名稱進(jìn)入大數(shù)據(jù)開發(fā)套件點(diǎn)擊進(jìn)入【數(shù)據(jù)開發(fā)】->【離線作業(yè)開發(fā)】。選擇【任務(wù)開發(fā)】,在左側(cè)目錄點(diǎn)擊創(chuàng)建的作業(yè)流,新建一個(gè)作業(yè)流雙擊作業(yè)流,進(jìn)入作業(yè)流開發(fā)面板,拖拽數(shù)據(jù)加工插件,輸入節(jié)點(diǎn)名稱。生成一個(gè)數(shù)據(jù)加工作業(yè)節(jié)點(diǎn)。雙擊打開新建的數(shù)據(jù)加工任務(wù),進(jìn)入數(shù)據(jù)加工的開發(fā)界面。數(shù)據(jù)加工是拖拽式的開發(fā)過程,左側(cè)顯示了用戶可拖拽的開發(fā)算子。雙擊進(jìn)入加工任務(wù),拖動(dòng)添加源表和目標(biāo)表依次選擇源類型-數(shù)據(jù)源-數(shù)據(jù)庫-數(shù)據(jù)表拖動(dòng)添加轉(zhuǎn)換算子,雙擊圖標(biāo)進(jìn)行添加字段和填寫功能備注拖動(dòng)連線確定關(guān)系點(diǎn)擊上方【運(yùn)行】按鈕進(jìn)行測(cè)試,點(diǎn)擊【停止】停止運(yùn)行,點(diǎn)擊【運(yùn)行實(shí)例】進(jìn)行查看完成后點(diǎn)擊【保存】保存當(dāng)前編輯,如果選擇了【偷鎖編輯】,那么在同一時(shí)間其他用戶不能進(jìn)行修改,點(diǎn)擊【保存解鎖】可以解除鎖定。數(shù)據(jù)整合最近更新時(shí)間:2019-11-1210:00:51結(jié)合多年數(shù)據(jù)處理行業(yè)經(jīng)驗(yàn),沉淀固化通用數(shù)據(jù)整合模型,將貼源數(shù)據(jù)的處理過程從繁復(fù)的代碼邏輯中解放,僅需簡(jiǎn)單配置既可完成復(fù)雜貼源數(shù)據(jù)整合。進(jìn)入【項(xiàng)目空間】->【我的項(xiàng)目】,點(diǎn)擊項(xiàng)目名稱進(jìn)入大數(shù)據(jù)開發(fā)套件點(diǎn)擊進(jìn)入【數(shù)據(jù)開發(fā)】->【離線作業(yè)開發(fā)】。選擇【任務(wù)開發(fā)】,在左側(cè)目錄點(diǎn)擊創(chuàng)建的作業(yè)流,新建一個(gè)作業(yè)流雙擊作業(yè)流,進(jìn)入作業(yè)流開發(fā)面板,拖拽【數(shù)據(jù)整合】插件,輸入節(jié)點(diǎn)名稱,生成一個(gè)數(shù)據(jù)整合作業(yè)。雙擊打開新建的數(shù)據(jù)整合作業(yè),進(jìn)入數(shù)據(jù)整合開發(fā)面板。確定好使用的拉鏈表后,選擇一個(gè)應(yīng)用數(shù)據(jù)源,目前數(shù)據(jù)整合算法僅支持MPP數(shù)據(jù)源。在數(shù)據(jù)整合面板中可以選擇需要應(yīng)用的數(shù)據(jù)整合算法,目前數(shù)據(jù)整合算法包括:全量切片、增量切片、拉鏈/指定字段拉鏈、當(dāng)前表、當(dāng)前全量表。用戶可根據(jù)需求選擇不同類型整合算法。確定好使用的拉鏈表后,選擇一個(gè)應(yīng)用數(shù)據(jù)源,目前數(shù)據(jù)整合算法僅支持MPP數(shù)據(jù)源。在數(shù)據(jù)整合面板中可以選擇需要應(yīng)用的數(shù)據(jù)整合算法,目前數(shù)據(jù)整合算法包括:全量切片、增量切片、拉鏈/指定字段拉鏈、當(dāng)前表、當(dāng)前全量表。用戶可根據(jù)需求選擇不同類型整合算法。確定好數(shù)據(jù)源后,選擇應(yīng)用算法的源表和目標(biāo)表,每種算法在應(yīng)用時(shí)目標(biāo)表會(huì)比源表多一定的特定字段,除了新增的特定字段外,其他字段需要完全保持一致。如果選取字段不一致界面將提示進(jìn)行表字段調(diào)整。數(shù)據(jù)集成數(shù)據(jù)集成2022第PAGE2022第40頁共46頁業(yè)務(wù)檢核最近更新時(shí)間:2019-11-1210:00:51和數(shù)據(jù)質(zhì)量中的業(yè)務(wù)規(guī)則無縫銜接,對(duì)數(shù)據(jù)進(jìn)行全方位的規(guī)則檢核。進(jìn)入【項(xiàng)目空間】->【我的項(xiàng)目】,點(diǎn)擊項(xiàng)目名稱進(jìn)入大數(shù)據(jù)開發(fā)套件點(diǎn)擊進(jìn)入【數(shù)據(jù)開發(fā)】->【離線作業(yè)開發(fā)】。選擇【任務(wù)開發(fā)】,在左側(cè)目錄點(diǎn)擊創(chuàng)建的作業(yè)流,新建一個(gè)作業(yè)流雙擊作業(yè)流,進(jìn)入作業(yè)流開發(fā)面板,拖拽數(shù)據(jù)同步插件,輸入節(jié)點(diǎn)名稱。雙擊打開新建的業(yè)務(wù)檢核作業(yè),顯示業(yè)務(wù)檢核操作界面。選擇一種數(shù)據(jù)源后,確定表,表上面的字段信息就會(huì)展開。如果某個(gè)字段上配置了業(yè)務(wù)檢核則會(huì)在標(biāo)簽字段上顯示檢核圖標(biāo)。點(diǎn)擊檢核圖標(biāo),彈出字段上的業(yè)務(wù)檢核設(shè)置,可以看到字段上配置了哪些檢核規(guī)則。也可以進(jìn)行勾選確定是否在作業(yè)運(yùn)行是應(yīng)用某個(gè)具體的檢核規(guī)則。應(yīng)用業(yè)務(wù)檢核后,對(duì)檢核結(jié)果查看可以去【數(shù)據(jù)管理-數(shù)據(jù)質(zhì)量】中查詢結(jié)果。2022第PAGE2022第44頁共46頁數(shù)據(jù)集成最佳實(shí)踐最近更新時(shí)間:2019-10-2803:13:45一定的切分?jǐn)?shù)量。目前切分鍵字段僅支持?jǐn)?shù)字類型,切分?jǐn)?shù)量按照表數(shù)據(jù)量大小來指定。變量${BizDate},在調(diào)度周期性運(yùn)行時(shí),調(diào)度系統(tǒng)的業(yè)務(wù)時(shí)間會(huì)對(duì)變量賦值,從而實(shí)現(xiàn)了數(shù)據(jù)過濾的效果。2022第PAGE2022第45頁共46頁數(shù)據(jù)集成常見問題最近更新時(shí)間:2021-09-1610:08:31創(chuàng)建的集成類作業(yè)在測(cè)試環(huán)境能夠正常運(yùn)行,發(fā)布到

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論