DATASTAGE的介紹及基本操作_第1頁
DATASTAGE的介紹及基本操作_第2頁
DATASTAGE的介紹及基本操作_第3頁
DATASTAGE的介紹及基本操作_第4頁
DATASTAGE的介紹及基本操作_第5頁
已閱讀5頁,還剩129頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

DATASTAGE介紹及基本操作DATASTAGE的介紹及基本操作內(nèi)容提要:一、datastage介紹二、如何安裝datastage三、配置datastage工程四、設(shè)計并運行datastage的job五、操作元數(shù)據(jù)六、操作關(guān)聯(lián)數(shù)據(jù)七、操作約束條件及數(shù)據(jù)來源八、定義查找使用的哈希文件九、聚合數(shù)據(jù)十、job的運行及調(diào)試十一、創(chuàng)建Basic表達式DATASTAGE的介紹及基本操作一,datastage的介紹

本章主要講解ETL的概念,datastage的介紹、組成及主要功能。

DATASTAGE的介紹及基本操作ETL概要

ETL包括數(shù)據(jù)抽?。‥xtract)、數(shù)據(jù)轉(zhuǎn)換(Transform)以及數(shù)據(jù)加載(Load)3個階段。一般而言,這三個過程中有二次落地(生成中間文件)。DATASTAGE的介紹及基本操作AscentialDataStage是一套專門對多種操作數(shù)據(jù)源的數(shù)據(jù)抽取、轉(zhuǎn)換和維護過程進行簡化和自動化,并將其輸入數(shù)據(jù)集市或數(shù)據(jù)倉庫目標數(shù)據(jù)庫的集成工具。DataStage能夠處理多種數(shù)據(jù)源的數(shù)據(jù),包括主機系統(tǒng)的大型數(shù)據(jù)庫、開放系統(tǒng)上的關(guān)系數(shù)據(jù)庫和普通的文件系統(tǒng)。包括Oracle,Sybase,DB2,SQLServer,Teradata,FTP文件系統(tǒng),文本文件等等。數(shù)據(jù)清洗、轉(zhuǎn)換、加載都可以在圖形化工具里完成,同樣可以靈活的被外部系統(tǒng)調(diào)度,提供專門的設(shè)計工具來設(shè)計轉(zhuǎn)換規(guī)則和清洗規(guī)則等,實現(xiàn)了增量抽取、任務(wù)調(diào)度等多種復(fù)雜而實用的功能。DS介紹:DATASTAGE的介紹及基本操作Datastage的組成:Datastage的服務(wù)器端和客戶端DATASTAGE的介紹及基本操作Datastage是C/S軟件,服務(wù)器端存儲所有的ds項目和元數(shù)據(jù),由關(guān)系型數(shù)據(jù)庫(RDBMS)組成??蛻舳司哂型?wù)端一樣的軟件接口。

客戶端運行于windows95或更高版本,服務(wù)端可運行于windowsNT4.0或windows2000版本,datastage的很多版本都支持unix。DATASTAGE的介紹及基本操作DSAdministrator

在服務(wù)端管理ds的項目和服務(wù)端操作。主要用于工程的參數(shù)調(diào)整,變量設(shè)置,及command操作。DSDesigner

建立ds的job并且編譯執(zhí)行的程序。主要用于job的開發(fā)及編譯。DSDirector

運行和監(jiān)控ds的job。主要用于job調(diào)試。DSManager

允許編輯和查看在ds中存儲的內(nèi)容。主要用于項目管理或job的導(dǎo)入、導(dǎo)出、備份。DATASTAGE的介紹及基本操作DataStage中的AdministratorDATASTAGE的介紹及基本操作

默認使用Administator來指定常規(guī)的服務(wù)端,用來增加或刪除DataStage工程,并且可以設(shè)置工程的屬性。Administator也對于總庫提供命令接口。 使用Administator的‘ProjectPropertities’

工程屬性的窗口,可以進行

1、在‘General’頁框中,設(shè)置Job監(jiān)控的一些限制信息和Director中的其他信息。

2、在‘Permission’頁框中,設(shè)置并分配開發(fā)人員組的權(quán)限。

3、在‘Tracing’

頁框中,設(shè)置或取消服務(wù)端進行跟蹤。

4、在‘Schedule’

頁框中,設(shè)置調(diào)度時運行Job所用到的用戶名和口令。

5、在‘Tunables’頁框中,指定Hash文件Stage的讀寫的緩存大小。 在DataStage中的Administrator設(shè)置常用服務(wù)器的默認值:

1、改變Licence信息。

2、設(shè)置服務(wù)端連接超時時間。DATASTAGE的介紹及基本操作DataStage中的ManagerDATASTAGE的介紹及基本操作使用DataStage中的Manager來存儲和管理Job的元數(shù)據(jù),使之可以在DataStage中的Designer中再度被使用。元數(shù)據(jù)包括表單和文件結(jié)構(gòu)和導(dǎo)出數(shù)據(jù)的Routines的轉(zhuǎn)換等等。Manager是DataStage存儲的一個重要的部分,可以用來加入表單和文件的結(jié)構(gòu),在左側(cè)分支樹中顯示Routines、Transforms和Jobs。自定義的Routines和Transforms也在DataStage中的Manager里創(chuàng)建。DATASTAGE的介紹及基本操作DataStage中的DesignerDATASTAGE的介紹及基本操作DataStage中的Designer允許使用熟練地拖拽圖標和連線的方式來表示數(shù)據(jù)抽取、清洗、轉(zhuǎn)換、整合和加載的過程,并將數(shù)據(jù)導(dǎo)入數(shù)據(jù)倉庫的表單之中。Designer提供一個數(shù)據(jù)流程的模式,輕松將設(shè)置和Job的設(shè)計有機的組成。使用Designer,可以:

1、指定數(shù)據(jù)如何抽取。2、指定數(shù)據(jù)的轉(zhuǎn)換規(guī)則和進行轉(zhuǎn)換。3、使用參考性質(zhì)的LookUp到數(shù)據(jù)集市中編輯數(shù)據(jù)。

a)例如,如果銷售的記錄集包括CustomerID,可以在CustomerMaster表中使用LookUp查找到Customer的名稱。

b)當需要連接數(shù)據(jù)集市并使用查詢,可以快速的進行訪問。4、對數(shù)據(jù)進行整合。5、在定義的約束條件中將基礎(chǔ)數(shù)據(jù)分割成為多個輸出的連接。在Tools菜單中可以輕松的于Director,Designer和Manager之間切換。DATASTAGE的介紹及基本操作DataStage中的DirectorDATASTAGE的介紹及基本操作使用Datastage的Director可以對設(shè)計的job進行驗證、運行、任務(wù)調(diào)度和監(jiān)控的工作。也可以針對job的運行查看運行的聚合統(tǒng)計情況。DATASTAGE的介紹及基本操作在Datastage中進行開發(fā)在Administrator中定義全局的和項目屬性。在Datastage中的Manager里導(dǎo)入定義源的元數(shù)據(jù)和目標的元數(shù)據(jù)。在Datastage中的Designer中驗證和編譯job。在Datastage中的Director中驗證、運行、和監(jiān)控job。DATASTAGE的介紹及基本操作1、定義工程的屬性——在Administrator中。2、打開工程。3、導(dǎo)入元數(shù)據(jù),在job中定義格式、讀入或?qū)懭搿贛anager中。4、設(shè)計job——在Designer中。

a)定義數(shù)據(jù)的抽?。ㄗx?。?/p>

b)定義數(shù)據(jù)流程。

c)定義數(shù)據(jù)的集合。

d)定義數(shù)據(jù)的轉(zhuǎn)換。

e)定義數(shù)據(jù)的約束條件。

f)定義數(shù)據(jù)的加載(寫入)。

g)定義數(shù)據(jù)的聚合。5、編譯和調(diào)試job——在Designer中。6、運行和監(jiān)控job——在Director中。DATASTAGE的介紹及基本操作Datastage的工程管理所有的工作都在一個工程中。在安裝過后,需要建立一個工程,這是安裝必選的項目。在使用它工作之前,要登錄這個工程??梢栽诠こ涕g進行導(dǎo)入和導(dǎo)出Datastage的項目內(nèi)容。多個用戶可以在同一時間使用同一工程,但是不能同時編輯同一個項目。DATASTAGE的介紹及基本操作

所有的工作都在Datastage的工程里進行。在做任何事之前,那些具有同樣管理權(quán)限的人,都要先打開一個工程,即進行登錄。 在安裝過程中,工程就要求創(chuàng)建,這是必須做的事情??梢栽诎惭b之后,在Administrator中的Project頁框中另增加其它工程。 一個工程關(guān)聯(lián)著一個目錄,這個工程目錄用來存儲jobs、Datastage項目和元數(shù)據(jù)。在做任何操作前都要先打開這個工程,即登錄這個工程。 工程是自包含的很多的工程可以在同一時間被打開,在各自單獨的環(huán)境打開。可以在它們之間導(dǎo)入或?qū)С鲰椖俊? 多用戶可以在同一時間使用一個工程中工作,但是Datastage禁止在同一時間由多個用戶訪問同一個job。DATASTAGE的介紹及基本操作Datastage測試問題一:

Datastage的Designer是用來建立和編譯job、用來進行數(shù)據(jù)的抽取、轉(zhuǎn)換和加載即ETL。(Yes/No) 答案一:

Yes,Designer使用拖拽的方式將設(shè)計元素(習慣上叫stage)拖拽到設(shè)計區(qū)域中,經(jīng)過建立和編譯,Job就可以執(zhí)行,用來進行數(shù)據(jù)的抽取、轉(zhuǎn)換和加載。問題二:

Datastage的Manager用來執(zhí)行編譯通過的Jobs。(Yes/No) 答案二:

No,Datastage的Manager是用來管理元數(shù)據(jù)的,如表單結(jié)構(gòu),內(nèi)置和自定義Routines等的,使Datastage用來管理資源存儲的。DATASTAGE的介紹及基本操作問題三:

Datastage的Director用來執(zhí)行編譯通過的Jobs。(Yes/No) 答案三:

Yes,使用Director來對編譯通過的job進行驗證或者運行,也可以在jobs運行過程中對其進行監(jiān)控。問題四: Datastage的Administrator是用來定義全局變量和設(shè)置工程屬性的。(Yes/No) 答案四:

Yes,可以在Administrator中設(shè)置工程中使用的全局變量和必要屬性,如連接數(shù)據(jù)庫超時,登錄者權(quán)限等等。DATASTAGE的介紹及基本操作第二章如何安裝Datastage下面的講解中,將可以了解到:在Windows系統(tǒng)中安裝Datastage服務(wù)端。建立一個Datastage的工程。安裝Datastage的客戶端。DATASTAGE的介紹及基本操作 Datastage的服務(wù)端要首先安裝,之后才可以安裝Datastage客戶端,服務(wù)端能都安裝在WinNT、Windows2000或者UNIX系統(tǒng)中,這個模塊將介紹在Windows環(huán)境下進行安裝。 系統(tǒng)的具體配置依賴于所要安裝的Datastage版本,在安裝盤上找到最接近的系統(tǒng)需求配置。 安裝Datastage服務(wù)端需要有哪些安裝盤和服務(wù)端的許可,這個許可包含以下信息:DATASTAGE的介紹及基本操作1,注冊號(序列號)。2,工程數(shù)量。 在Datastage服務(wù)端可以建立的最大工程數(shù)量。包括新建的工程,也包括對先前建立的工程進行加上升級。3,到期時間。4,授權(quán)代碼。 在許可信息中,這個信息必須被正確輸入的。DATASTAGE的介紹及基本操作安裝向?qū)笇?dǎo)通過以下步驟進行:1,輸入許可信息。2,指定服務(wù)器的路徑。3,選擇程序的文件夾。4,創(chuàng)建一個新的工程或升級已經(jīng)存在的工程。DATASTAGE的介紹及基本操作安裝DatastageDATASTAGE的介紹及基本操作

首先安裝DatastageServer端,鼠標點擊 軟件會自動安裝,安裝過程中系統(tǒng)提示使用者選擇安裝路徑和輸入產(chǎn)品序列號。 在DatastageServer安裝的過程中會提示用戶建立一個工程。 在安裝DatastageServer端以后,需要安裝DatastageClient端,鼠標點擊 軟件會自動進行安裝,安裝過程中系統(tǒng)提示使用者選擇安裝路徑和輸入產(chǎn)品序列號。DATASTAGE的介紹及基本操作安裝有Datastage服務(wù)端的機器,必須運行著。需要運行Datastage的客戶端。打開Datastage的控制面板,來停止或啟動服務(wù)端。當再次安裝Datastage的時候,會停止服務(wù)端。DATASTAGE的介紹及基本操作

為了保證Datastage客戶端程序的正常運行,必須保證Datastage的服務(wù)器保持運行狀態(tài)。 在Windows2000的控制面板中打開Datastage的控制面板,可以啟動或停止全部的Datastage服務(wù)。 點擊可以啟動全部的服務(wù)或者停止全部的服務(wù)。 在安裝或重新安裝Datastage的時候,這些服務(wù)一定要全部停止。DATASTAGE的介紹及基本操作安裝Datastage客戶端在安裝Datastage服務(wù)端之后??梢园惭b在WinNT,Windows2000以及WinXP上。Datastage產(chǎn)品的許可用于安裝Datastage的客戶端。Datastage的操作許可只能用于安裝Director和Administrator。DATASTAGE的介紹及基本操作 Datastage的客戶端必須在Datastage的服務(wù)端安裝過后才可以進行安裝,客戶端能夠安裝在Windows95、Windows98、WindowsNT、Windows2000以及WindowsXP操作系統(tǒng)上。 這里有倆個版本的Datastage:1,開發(fā)版本的Datastage,包含了解所有的客戶端應(yīng)用程序。2,操作員版本的Datastage只包含了需要用到的運行和監(jiān)控Job的應(yīng)用程序,即Director和Administrator。DATASTAGE的介紹及基本操作

安裝開發(fā)版本的Datastage,需要有Datastage開發(fā)版的許可。

安裝操作員版本的Datastage,需要有Datastage的Director的許可。

許可包括以下幾個信息:1,序列號2,用戶限制3,到期時間4,授權(quán)認可代碼 這些信息必須是正確的數(shù)據(jù)。DATASTAGE的介紹及基本操作第三章配置Datastage工程

下面的講解中,將可以了解到。在Datastage的Administrator中設(shè)置工程屬性。在Datastage的Administrator中設(shè)置用戶的權(quán)限。DATASTAGE的介紹及基本操作Datastage工程屬性建立或者刪除Datastage工程。設(shè)置Datastage工程的默認屬性。修改Datastage工程屬性的方法。 登錄Datastage的Administrator。 選擇要修改屬性的工程。DATASTAGE的介紹及基本操作 Datastage中所有的開發(fā)工作都在一個Datastage的工程中,在安裝Datastage服務(wù)端時,默認就已經(jīng)建立了一個工程,可以使用Administrator進行工程的控制。 每個工程都有其關(guān)聯(lián)的目錄,目錄存儲了在工程中建立的項目,如Jobs、元數(shù)據(jù)、自定義的Routines等等。 在一個工程中工作之前,必須要先打開它(即進行登錄)。 在使用Datastage的Administrator時,可以設(shè)置默認的工程屬性。DATASTAGE的介紹及基本操作設(shè)置Datastage工程屬性選擇要進行修改的工程,點擊“Properties”DATASTAGE的介紹及基本操作工程屬性的“General”頁框DATASTAGE的介紹及基本操作

點擊Datastage的Administrator的“Properties”按鈕,打開工程屬性的窗口,這里有5個頁框(“Mainframe”頁框只有在許可支持大型機的Jobs的時候可用),默認打開的“General”頁框。 如果選擇“EnablejobadministratorinDirector”的選擇項,那么在不打開Administrator的情況下在Datastage的Director中可以運行一些管理級別的函數(shù)。DATASTAGE的介紹及基本操作

在Director中運行一個Job的時候,事件被寫入Jobs的運行的日志,例如:記錄了何時開始運行Jobs,何時停止,何時終止。 日志記錄的事件增長量很大,“Auto-purpeofjoblog”選擇框可以讓指定用什么條件來篩選這些事件。 可以限制記錄時間的每天的數(shù)量或者運行Jobs運行的數(shù)量。DATASTAGE的介紹及基本操作工程屬性的“Permissions”頁框DATASTAGE的介紹及基本操作

使用這個頁框可以設(shè)置訪問和使用Datastage的用戶組權(quán)限。 所有的Datastage用戶中,在登錄Datastage之前,都必須擁有一個公認的,屬于自己的用戶角色,使之用來進行登錄,這樣可以用來防止匿名的方式使用Datastage工程。 這里有三種Datastage用戶角色:1,DatastageDeveloper,可以訪問Datastage工程 全部的范圍。2,DatastageOperator,可以運行、釋放、 Datastage的Jobs。3,DatastageProductionManager,可以管理Datastage產(chǎn)品組件。DATASTAGE的介紹及基本操作工程屬性的“Tracing”頁框DATASTAGE的介紹及基本操作

在這個頁面設(shè)置是否在Datastage服務(wù)端進行跟蹤處理。

Datastage服務(wù)端進行跟蹤處理默認是無效的。 當使其有效,Datastage客戶端運行項目的時候,所有的記錄信息都要在Datastage服務(wù)端進行監(jiān)控,并寫入監(jiān)控文件。使用這些底層系統(tǒng)知識可以幫助找到Datastage客戶端的問題所在,如果跟蹤設(shè)置為有效,當調(diào)用一個Datastage的客戶端的時候,用戶會收到一些警告的信息。 警告: 跟蹤會消耗Datastage服務(wù)器大量的系統(tǒng)資源,除非用戶需要診斷重大的問題,一般不建議設(shè)置跟蹤有效。DATASTAGE的介紹及基本操作

工程屬性的“Schedule”頁框

使用“Schedule”頁框,來指定在選擇的項目中運行計劃任務(wù)的jobs的用戶名和口令,如果沒有指定,Jobs會在當前系統(tǒng)的計劃任務(wù)的用戶名下運行。DATASTAGE的介紹及基本操作

工程屬性的“Tunables”頁框

在“Tunable”頁框中,可以指定當用來讀取Hash文件記錄時的緩存的大小,Hash文件大多數(shù)用于查找操作,這部分介紹會在下面的介紹中進行。DATASTAGE的介紹及基本操作第四章設(shè)計并運行Datastage的Job

下面的講解中,將可以了解到:描述什么是Datastage的Job。一步步講述如何建立DatastageJob。描述Link和Stage。識別不同類型的Stage。設(shè)計一個簡單抽取和加載的Job。編譯、驗證和運行Job。監(jiān)控Job的執(zhí)行。DATASTAGE的介紹及基本操作什么是JobDATASTAGE的介紹及基本操作Job開發(fā)的瀏覽在Manager——導(dǎo)入數(shù)據(jù)源和目標數(shù)據(jù)庫的數(shù)據(jù)結(jié)構(gòu)定義。在Designer——加入Stage定義數(shù)據(jù)的抽取和加載。加入Transformer和其它的Stage來定義轉(zhuǎn)換。從源數(shù)據(jù)到目的數(shù)據(jù),加入Link來定義數(shù)據(jù)的流向。編譯Job。在Director中,驗證、運行和監(jiān)控Job。

在這個講解中,將通過一個單一Job的過程第一步,著手定義元數(shù)據(jù)。DATASTAGE的介紹及基本操作Designer的工作區(qū)域DATASTAGE的介紹及基本操作

中間偏右是Datastage的設(shè)計區(qū)域,可以將Stage和Link從工具的板塊上拖動過來放在上面,左邊是“Repository”(存儲)窗口,顯示的是Manager中的分支。

Manager中的分支,就像Jobs和表定義一樣可以直接拖拽到設(shè)計區(qū)域,點擊“View——Repository”來顯示“Repository”窗口。 點擊“View——PropertyBrowser”來顯示“PropertyBrowser”窗口,顯示在設(shè)計區(qū)選擇的項目的屬性。DATASTAGE的介紹及基本操作Designer的工具欄

工具欄中的一些圖標可以快捷的調(diào)用一些Datastage的內(nèi)部函數(shù),更加方便進行Jobs的設(shè)計工作。DATASTAGE的介紹及基本操作Designer的Stage工具面板工具面板中包含描述的圖標,可以將其加入到Jobs設(shè)計當中。DATASTAGE的介紹及基本操作

當安裝Datastage的時候,很多的Stage都會自動地進行安裝,也可以根據(jù)特定的目的安裝另外的Stage,這些被叫做插件。 例如,那個叫做“Sort”的插件就是用來對數(shù)據(jù)排序的。 插件的介紹將在以后的講解來介紹。DATASTAGE的介紹及基本操作下面將部分的Stage進行簡單的說明(有些Stage在普通應(yīng)用中并不常用):

DATASTAGE的介紹及基本操作DATASTAGE的介紹及基本操作DATASTAGE的介紹及基本操作DATASTAGE的介紹及基本操作DATASTAGE的介紹及基本操作DATASTAGE的介紹及基本操作DATASTAGE的介紹及基本操作DATASTAGE的介紹及基本操作DATASTAGE的介紹及基本操作DATASTAGE的介紹及基本操作被動Stage和主動Stage被動Stage的定義是用來讀寫數(shù)據(jù)源的Stage。被動Stage包括:Sequential,Odbc,Hash文件的Stage。主動Stage的定義是用來數(shù)據(jù)的篩選和轉(zhuǎn)換部分的Stage。主動Stage包括:Transformer、Aggregator和Sort的插件。DATASTAGE的介紹及基本操作

這里有倆種類型的Stage: 被動Stage,是用來讀寫數(shù)據(jù)源的數(shù)據(jù)的,包括Sequential、Odbc、Hash文件的Stage,等等。 主動Stage:是用來篩選和轉(zhuǎn)換部分的Stage,包括Transformer、Aggregator和Sort的插件,等等。

Datastage測試: 問題一:SequentialStage是一個主動地Stage。(Yes/No) 答案一:No,由于SequentialStage可以用于讀取數(shù)據(jù)源和寫入數(shù)據(jù),但是又不能對數(shù)據(jù)進行轉(zhuǎn)換,所以不是主動的Stage,而是被動的Stage。DATASTAGE的介紹及基本操作SequentialStage導(dǎo)出數(shù)據(jù)或加載數(shù)據(jù)到一個Sequential文件。為Sequential指定完整的路徑。指定文件的格式:定義寬度或者分隔符。指定列的定義。指定寫的形式:覆蓋、追加。DATASTAGE的介紹及基本操作 Sequential文件時用來從一個Sequential文件導(dǎo)出或者加載到一個Sequential文件中。

在修改Sequential文件的時候需要指定一下內(nèi)容:1、文件的路徑和名稱。2、文件的格式。3、列的定義。4、如果SequentialStage被用作一個目標的話,指定寫入動作時選擇:覆蓋已存在的文件或者在文件基礎(chǔ)上進行追加。DATASTAGE的介紹及基本操作編輯目標端的一個Sequential文件StageDATASTAGE的介紹及基本操作

定義一個Sequential的目標Stage類似于定義一個源的SequentialStage。 在輸入的Link中,定義數(shù)據(jù)導(dǎo)入到Stage的數(shù)據(jù)格式。從“InputBox”中輸入Link的列表進行選擇。 定義一個文件的Job,定義文件被寫入,如果文件不存在,Datastage將會自動建立,在“Updateaction”中指定數(shù)據(jù)文件是否覆蓋或者追加。

“General”頁框中的“FilterCommand”,可以指定一個過濾程序,可以使用其在抽取數(shù)據(jù)的過程中進行數(shù)據(jù)的過濾。 舉例,在讀取數(shù)據(jù)之前要有一個解壓縮的過程。從中選擇類型或者瀏覽從過濾程序中,在輸入框中指定命令行,只有在“General”頁框中的Stage頁面中選擇了“Stageusesfiltercommands”的選擇框,這個輸入框變?yōu)榭捎?,如果指定了過濾命令,數(shù)據(jù)瀏覽沒有定義,那么“ViewData”按鈕不可用。DATASTAGE的介紹及基本操作

在“Format”頁框中,指定不同格式的目標文件,同指定源文件相同。 如果目標文件不存在,在Jobs運行之后,才可以瀏覽數(shù)據(jù)。如果這時點擊了“ViewData”按鈕,Datastage將會返回一個“FailedtoOpen….”的錯誤。 在源數(shù)據(jù)的Stage里定義輸出數(shù)據(jù)的列定義,同時定義目標Stage中的相應(yīng)的輸入Link。 可以將Link想象成為一個通道,從一頭流到另外一頭,所以輸入和輸出的格式要保持一致。DATASTAGE的介紹及基本操作TransformerStage很關(guān)鍵的主動Stage。使用TransformerStage可以定義條件、來源和字段的對應(yīng)關(guān)系。輸入的列和輸出的列進行對應(yīng)。在這個講解中,我們將定義列的對應(yīng)。DATASTAGE的介紹及基本操作 TransformerStage是一個重要的主動Stage,其它主動地Stage執(zhí)行很多指定類型的轉(zhuǎn)換。 在TransformerStage中可以指定:

1、列的對應(yīng)。

2、數(shù)據(jù)的來源。

3、過濾條件。 字段對應(yīng)是指輸入字段和輸出字段進行對應(yīng),從輸入列到輸出列數(shù)值直接通過。 數(shù)據(jù)來源的值經(jīng)過計算寫入到輸出的列,以輸入列為基礎(chǔ)。 在引入的行將被寫入到輸出的列,約束指定的條件將有效。DATASTAGE的介紹及基本操作TransformerStage元素DATASTAGE的介紹及基本操作 Transformer有以下元素: 在上方,左邊的區(qū)域顯示輸入Link的列信息,如果有很多的輸入Link,就會有許多的列顯示。 在上方,右邊的區(qū)域顯示的輸出Link的內(nèi)容,我們不能在這里定義字段,如果有很多的輸出Link,就會有很多的列顯示。 現(xiàn)在,忽略右上方的“StageVariables”窗口,我們將在以后的講解進行講述。 下方顯示元數(shù)據(jù)的列定義,輸入和輸出的Link。 如果有很多的輸入和輸出的Link,那么將出現(xiàn)很多的頁框。DATASTAGE的介紹及基本操作AnnotationStage使用它來在Job上增加文本注釋。輸入框有不同格式的設(shè)置。當Job打印的時候顯示。描述注釋的Stage將在下一節(jié)介紹。

增加一個或多個“Annotation”的Stage就像一個文本數(shù)據(jù)框一樣進行設(shè)置,可以通過在工具欄上的設(shè)置要求其是否進行顯示。 這里有倆個“Annotation”的Stage,“”DescriptionAnnotationStage”將在下面一個講解中進行講述。DATASTAGE的介紹及基本操作編輯AnnotationStage輸入框內(nèi)輸入的是文本類型,指定的設(shè)置有:1、文本的字體和顏色。2、輸入框的顏色。3、文字的橫縱位置。DATASTAGE的介紹及基本操作編譯Job

在運行Jobs之前,必須要對其進行編譯,在服務(wù)端的機器上產(chǎn)生可以運行的編碼,對于編譯Jobs,點擊“File——Compile”或者在工具欄上點擊“Compile”按鈕,編譯Jobs的窗口顯示Jobs編譯的情況。 編譯如果發(fā)生錯誤: 點擊“Showerror”來定位錯誤的位置。 點擊“More”來返回關(guān)于錯誤更多的信息。DATASTAGE的介紹及基本操作運行Job從Datastage的Designer切換到Director。在Director的列表中,選擇要運行的Job點擊運行。選擇運行的屬性。驗證這個Job。運行Job,并在日志瀏覽中監(jiān)控Job運行的過程。DATASTAGE的介紹及基本操作

就像知道的那樣,在Datastage的Director中運行Job,可以從Designer中的“Tools”菜單中啟動,Datastage的Director。 可以通過這個方法在Director、Manager和Designer之間進行切換。 這里有倆種方法運行一個Job:

1、直接運行。(可以在Designer運行,也可以切換 到Director中運行)

2、在以后的時間或日期里調(diào)用計劃任務(wù)執(zhí)行。 對于直接運行的Job:

1、在列表中選擇需要運行的Job,這個Job必須是經(jīng)過 編譯的。

2、點擊Job菜單中的運行,或者點擊工具欄中的運 行。這是Job運行時的設(shè)置窗口會顯示出來。DATASTAGE的介紹及基本操作DatastageDirector在Director中顯示Jobs狀況的列表,運行一個Job,選擇一個而后點擊Job菜單中的運行。其它查看內(nèi)容:1、Job的日志——從Job運行產(chǎn)生的數(shù)量。2、計劃任務(wù)——預(yù)覽在計劃的時間或日期運行Job。DATASTAGE的介紹及基本操作運行參數(shù)設(shè)置DATASTAGE的介紹及基本操作Director的日志瀏覽

在工具欄上點擊Log按鈕來查看Job的日志,Jobs日志集合了Jobs執(zhí)行期間的所有事件信息。 這些事件,包括:控制事件,如:開始、結(jié)束和中止、報告信息、警告信息、錯誤信息、和程序發(fā)生信息。DATASTAGE的介紹及基本操作

當點擊Job菜單中運行的時候,Job運行設(shè)置的窗口會顯示出來。 這個窗口允許用戶在以下情況下停止Job的運行。

1、指定行數(shù)。

2、指定警告消息的數(shù)量。 在運行Job之前可以將其驗證,驗證是保證Job運行成功地關(guān)鍵。包括:

1、驗證Link的數(shù)據(jù)源是否準備好。

2、驗證文件是否被打開。

3、驗證SQL是否可以查詢數(shù)據(jù)。 經(jīng)過驗證后點擊Run運行Job,在Job運行時列的狀況會顯示出來。DATASTAGE的介紹及基本操作第五章操作元數(shù)據(jù)下面的講解中,將可以了解到:介紹DataStage的Manager的構(gòu)成和功能。導(dǎo)入和導(dǎo)出Datastage的項目。從Sequential文件中導(dǎo)入元數(shù)據(jù)。加載元數(shù)據(jù)到SequentialStage中。DATASTAGE的介紹及基本操作什么是元數(shù)據(jù) Datastage和Manager是一個圖形化管理Datastage項目存儲的工具,包括元數(shù)據(jù)和Datastage的其它構(gòu)成,如Jobs和Routines等等。 元數(shù)據(jù)是數(shù)據(jù)源和目標數(shù)據(jù)的描述的標準化。它包括諸如記錄列和分割的通用信息,分割標志,還包括指定列的定義,等等。DATASTAGE的介紹及基本操作DATASTAGE的介紹及基本操作

左邊的包括工程的樹。分了八大分支,但是可以在其下創(chuàng)建下一級文件夾,在工程樹下選擇一個文件夾顯示它的組成。在這個例子中,在工程里一個命名為”WHBI”的文件夾下創(chuàng)建很多Job。

“DataElements”分支:列出內(nèi)置的和自定義的數(shù)據(jù)元素。(數(shù)據(jù)元素是數(shù)據(jù)類型的擴展,將在下面講述)

“Jobs”分支,顯示在當前工程的Jobs列表。

“Routines”分支:先是內(nèi)置和自定義的Routines,Routines是DatastageBasic代碼的一部分,可以引入到一個Job中。DATASTAGE的介紹及基本操作

“ShareContainers”分支:共享容器就是Datastage的一個單獨的Satage的組成。

“StageType”分支:列出在一個Jobs中可用的Stage的類型。內(nèi)置的Stage包括在Designer中的結(jié)果部分和轉(zhuǎn)換部分的Stage。

“TableDefinitions”分支:顯示加載到一個Job的有效的表結(jié)構(gòu)定義。

“Transformer”分支:先是內(nèi)置和自定義的Transformer。Transformer是可以用于Job的數(shù)據(jù)轉(zhuǎn)換函數(shù)。DATASTAGE的介紹及基本操作Manager內(nèi)容數(shù)據(jù)源和目標數(shù)據(jù)的元數(shù)據(jù)描述。Datastage項目。

Jobs。

Routines。 表單。DATASTAGE的介紹及基本操作 Datastage的Manager管理倆個不同類型的項目: 數(shù)據(jù)源和目標數(shù)據(jù)的元數(shù)據(jù)描述。 在Manager中叫做表單定義。Datastage表單定義用于描述各種類型源的列定義的格式:結(jié)果、有關(guān)的、Hash文件等等。 可以在Manager或者Designer中創(chuàng)建表單的定義,可以從源或者目的導(dǎo)入其結(jié)構(gòu)。DATASTAGE的介紹及基本操作 Datastage的構(gòu)成 在Datastage中任何一個項目(Jobs,Routines,表定義,等等)在Datastage中存儲Manager是接口用來存儲。

Datastage組成包括整個項目,都可以從導(dǎo)出的文件中導(dǎo)入到Manager中。DATASTAGE的介紹及基本操作Import和ExportManager中的所有項目,都可以導(dǎo)出成為一個文件。導(dǎo)出整個工程。用于備份用于版本控制。用于Datastage的項目從一個工程到其它工程的移動。對于其它開發(fā)者,用于共享Datastage的Job和項目。DATASTAGE的介紹及基本操作 Datastage中的項目包括整個工程,全部都在Manager進行存儲,可以將其導(dǎo)出成為一個文件。這個導(dǎo)出的文件能夠重新導(dǎo)入回Datastage。 導(dǎo)入和導(dǎo)出能用作很多的目的,包括: 備份Jobs和工程。 維持不同Jobs或者工程的版本。 從一個工程到另外一個工程,Datastage項目的移動。將導(dǎo)出的項目,移動到其它的工程,將其重新導(dǎo)入到新的工程里。 在開發(fā)者之間共享Jobs和工程。導(dǎo)出的文件,當被壓縮以后,變得很小,很容易從一個開發(fā)者到其他人之間傳遞。DATASTAGE的介紹及基本操作導(dǎo)出過程在Manager中,點擊“Export——DatastageComponents”。選擇Datastage需要到導(dǎo)出的項目。指定導(dǎo)出的類型:dsx,xml。在客戶端機器上指定導(dǎo)出文件的路徑。DATASTAGE的介紹及基本操作

在Manager中點擊“Export—DatastageComponents”開始導(dǎo)出的過程。 在Manager中任何的項目都可以將其導(dǎo)出成為一個文件。使用這個程序可以對工作進行備份或者將項目從一個工程移動到另一個工程中。 選擇導(dǎo)出文件的類型,可以選擇整個工程或者在一個工程中的一部分項目。 指定導(dǎo)出文件的類型,默認的,項目被導(dǎo)成一個文本格式的文件,默認的導(dǎo)出文件是“Dsx”格式的。也可以將項目導(dǎo)出成為“XML”格式的文檔。 導(dǎo)出的文件目錄是在Datastage的客戶端,而不是在服務(wù)器。DATASTAGE的介紹及基本操作Datastage測試問題一: 可以將Datastage工程中的Jobs導(dǎo)出來,但是卻不能將元數(shù)據(jù)導(dǎo)出,所以不能將元數(shù)據(jù)的定義導(dǎo)出成為一個文本。(Yes/No)答案一:

No,元數(shù)據(jù)的定義的結(jié)構(gòu),都存在于“TableDefinitions”中,而表單的定義是可以通過導(dǎo)入導(dǎo)出流通于各個工程之間。問題二:

Datastage工程導(dǎo)出的目的是存放在客戶端,而不是存放在服務(wù)器。(Yes/No)答案二:

Yes。DATASTAGE的介紹及基本操作導(dǎo)出Datastage的項目在Datastage的Manager的菜單上點擊“Export—DatastageComponents”。選擇“WholeProject”或根據(jù)需要進行選擇,而后進行導(dǎo)出。DATASTAGE的介紹及基本操作DATASTAGE的介紹及基本操作導(dǎo)入Datastage工程在Manager中,點擊“Import—DatastageComponents”。選擇要導(dǎo)入的Datastage項目文件。 選擇要導(dǎo)入的文件,點擊“ImportAll”開始導(dǎo)入或者“ImportSelect”從瀏覽的項目中選擇一個導(dǎo)入。選擇“OverwriteWithnotQuery”按鈕來覆蓋那些同名但沒有警告的項目。DATASTAGE的介紹及基本操作導(dǎo)入元數(shù)據(jù)從Sequential文件中導(dǎo)入格式和列的定義。導(dǎo)入關(guān)聯(lián)表的列的定義。導(dǎo)入Hash文件的列的定義。導(dǎo)入的信息在“TableDefinitions”。在Job中Stage可以將表定義進行加載進來。DATASTAGE的介紹及基本操作

表格定義對于一些變化的數(shù)據(jù)文件和表單進行格式的定義。這些定義可以重復(fù)的是用于設(shè)計的Jobs,來指定數(shù)據(jù)的格式。

舉例,可以導(dǎo)入“Customers.txt”文件的格式和列的定義,可以將其加載到源的“SequentialStage”中,表示Job是從“Customers.txt”中抽取數(shù)據(jù)。DATASTAGE的介紹及基本操作

可以加載這些相同的元數(shù)據(jù)到其它的Stage中,用來訪問同樣格式的數(shù)據(jù)??梢愿杏X到,元數(shù)據(jù)是可以再度使用的,它可以被用于格式相同的文件和數(shù)據(jù)上。 如果需要的列定義很相似,可以編輯定義并將其保存在一個新的名字下面。 也可以使用不同類型的數(shù)據(jù)相同的表單定義使用同樣的格式。舉例,可以導(dǎo)入一個表單定義從一個“Sequential”文件,并使其指定一個ODBC的表單的格式??梢郧宄乜吹皆獢?shù)據(jù)在格式定義上是寬松靈活的。 可以導(dǎo)入和定義幾個不同類型的表單定義,包括:“Sequential”文件、ODBC數(shù)據(jù)源、Hash文件和全部的表單。DATASTAGE的介紹及基本操作Sequential文件導(dǎo)入過程在DatastageManager中,點擊“Import—TableDefinitions—Sequential”選擇指定的“Sequential”文件的目錄和名稱。選擇Manager的分類。檢查格式和列定義和編輯必要的信息。DATASTAGE的介紹及基本操作

要開始導(dǎo)入,點擊“Import〉TableDefinitions〉Sequential”,“ImportMetaData(Sequential)”窗體會出現(xiàn)。 選擇目錄中包含的Sequential文件,在文件的列表中選擇需要導(dǎo)入的文件。 選擇文件進行導(dǎo)入。 選擇指定的類別(即文件夾)進行導(dǎo)入

1、格式為:<Category>\<Sub-Category>(類別/子類別)。

2、<Category>是在TableDefinitions下的第一級子目錄。

3、<Sub-Category>是在<Category>目錄下的另外一層。DATASTAGE的介紹及基本操作在Manager中定義結(jié)構(gòu)DATASTAGE的介紹及基本操作

在Manager中,選擇“TableDefinition”的包含的類別。 在“TableDefinition”上雙擊,打開“TableDefinition”的窗口。 單擊“Columns”的頁框瀏覽和編輯列的定義,選擇“Format”頁框來編輯文件的格式說明。DATASTAGE的介紹及基本操作導(dǎo)入Sequential元數(shù)據(jù)過程DATASTAGE的介紹及基本操作DATASTAGE的介紹及基本操作加載表結(jié)構(gòu)定義在導(dǎo)入了Sequential元數(shù)據(jù)結(jié)構(gòu)后,可以將元數(shù)據(jù)的結(jié)構(gòu)加載到“SequentialStage”中。DATASTAGE的介紹及基本操作第六章操作關(guān)聯(lián)數(shù)據(jù)下面的講解中,將可以了解到:設(shè)置ODBC連接來關(guān)聯(lián)數(shù)據(jù)庫。導(dǎo)入關(guān)聯(lián)的元數(shù)據(jù)。從關(guān)聯(lián)表中抽取數(shù)據(jù)。加載數(shù)據(jù)到關(guān)聯(lián)表。DATASTAGE的介紹及基本操作操作關(guān)聯(lián)數(shù)據(jù)

在關(guān)聯(lián)的源數(shù)據(jù)表單中抽取,過濾、轉(zhuǎn)換數(shù)據(jù)。加載數(shù)據(jù)到關(guān)聯(lián)表單中。通過ODBCStage來進行連接。支持用戶定義SQL。DATASTAGE的介紹及基本操作

可以對關(guān)系型數(shù)據(jù)執(zhí)行就像對Sequential數(shù)據(jù)那樣的任務(wù)??梢詫﹃P(guān)系型數(shù)據(jù)表進行抽取、過濾、轉(zhuǎn)換數(shù)據(jù),也可以向關(guān)系型表單中加載數(shù)據(jù)。雖然可以通過本機得到驅(qū)動來操作一些關(guān)系型數(shù)據(jù)庫,但Oracle等,也可以使用ODBC來訪問這些關(guān)系型數(shù)據(jù)庫。使用ODBCStage,既可以指定在一個或多個表的關(guān)聯(lián)查詢,也可以定義查詢,還可以粘貼已經(jīng)存在的查詢。DATASTAGE的介紹及基本操作設(shè)置一個ODBC連接DATASTAGE的介紹及基本操作

在通過ODBC來訪問數(shù)據(jù)之前,一定要先定義一個ODBC的數(shù)據(jù)源。在Windows中,在控制面板中定義并使用32位的ODBC數(shù)據(jù)源。

ODBC數(shù)據(jù)源控制,有好幾個頁框。對于DataStage,我們需要將數(shù)據(jù)源定義在‘系統(tǒng)DSN’中,而不是‘用戶DSN’中。可以從dataStage安裝盤中,安裝更多的通用的關(guān)系型數(shù)據(jù)庫系統(tǒng)的驅(qū)動。點擊‘添加’來定義一個數(shù)據(jù)源。點擊‘添加’后,會顯示出一系列的驅(qū)動列表。選擇適當?shù)尿?qū)動而點擊‘完成’。不同關(guān)系型數(shù)據(jù)庫有不同的意圖,在這個例子中,定義一個‘MicrodoftAccess’作為數(shù)據(jù)源:

1.在‘數(shù)據(jù)源名稱’輸入框中定義數(shù)據(jù)源的名稱。

2.點擊‘選擇’選擇一個存在的數(shù)據(jù)庫,定義一個連接。

3.點擊‘創(chuàng)建’,針對這個數(shù)據(jù)庫定義一個連接。DATASTAGE的介紹及基本操作導(dǎo)入ODBC元數(shù)據(jù)DATASTAGE的介紹及基本操作從ODBC數(shù)據(jù)中導(dǎo)入表單定義,類似于從‘Sequntial’

文件中導(dǎo)入結(jié)構(gòu)定義。在Manager中點擊菜單‘Import-〉TableDefinitions-〉ODBCTableDefinitions’,開始進行導(dǎo)入。

‘DSN’列表顯示出DataStage服務(wù)端定義的數(shù)據(jù)源。選擇需要導(dǎo)入的數(shù)據(jù)源,如果需要,需要數(shù)據(jù)用戶名和口令。這時‘ImportMetadata’

窗口顯示出來。列表顯示出數(shù)據(jù)庫中所有可以用到的表單,可供導(dǎo)入。選擇一個或多個表單核導(dǎo)入的列別,點擊‘OK’即可。DATASTAGE的介紹及基本操作抽取關(guān)系型數(shù)據(jù)

從關(guān)系型數(shù)據(jù)庫表單中抽取數(shù)據(jù),類似于從一個‘Sequential’文件中抽取數(shù)據(jù),除了使用ODBC的Stage代替了Sequential的Stage。在這個例子里,從一個關(guān)系型數(shù)據(jù)表單中抽取數(shù)據(jù),加載到一個‘Sequential’文件中。DATASTAGE的介紹及基本操作設(shè)置ODBC的Stage

在ODBCStage的‘General’

頁框中,在‘DataSourceName’

輸入框中指定ODBC數(shù)據(jù)源名稱,或輸入變量。 可以點擊‘GetSQLInfo’按鈕,重新從ODBC數(shù)據(jù)庫中獲得標志和分割符。DATASTAGE的介紹及基本操作顯示表單列表

在‘Outputs’

頁框中的‘General’

頁框中,指定表單的名稱。選擇‘GeneralQuery’

來定義SQL的聲明,在‘Columns’

和‘Selection’

頁框中選擇‘User-definedSQLQuery’來寫自定義的SQL來連接數(shù)據(jù)庫。DATASTAGE的介紹及基本操作加載列定義

在‘Columns’

頁框iuazhong加載在Manager中定義的表單結(jié)構(gòu)。這個過程和‘Seuential’文件

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論