![說明教案datastage常用_第1頁](http://file4.renrendoc.com/view/30c2022ec598f81768a66a6225e8a1c7/30c2022ec598f81768a66a6225e8a1c71.gif)
![說明教案datastage常用_第2頁](http://file4.renrendoc.com/view/30c2022ec598f81768a66a6225e8a1c7/30c2022ec598f81768a66a6225e8a1c72.gif)
![說明教案datastage常用_第3頁](http://file4.renrendoc.com/view/30c2022ec598f81768a66a6225e8a1c7/30c2022ec598f81768a66a6225e8a1c73.gif)
![說明教案datastage常用_第4頁](http://file4.renrendoc.com/view/30c2022ec598f81768a66a6225e8a1c7/30c2022ec598f81768a66a6225e8a1c74.gif)
![說明教案datastage常用_第5頁](http://file4.renrendoc.com/view/30c2022ec598f81768a66a6225e8a1c7/30c2022ec598f81768a66a6225e8a1c75.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
編寫說 引 編寫目 幫助使 產(chǎn)品概 安裝與初始 SERVER安 安 常規(guī)應(yīng) ChangeCapture Copy Filter Funnel Tansformer Sort LookUp Join LookUpStage和JoinStage的區(qū) Merge Modify DataSet FileSet LookupFileSet OracleEnterprise Aggregator RemoveDuplicates Compress Expand Difference Compare Switch ColumnImport ColumnExport DB2數(shù)據(jù)庫連 高級應(yīng) 自定義Stage Wrapped Build Customer 性能調(diào) 并行 其 引AscentialDataStage作為UDI項目所使用的主要開發(fā)工具,在項目中得到AscentialDataStageOnlineManuals;就是產(chǎn)品安裝后程序組中的DataStage 里面更加綜合、全面的對整個產(chǎn)品從普通到高級,從Server版到EnterpriseEdition版,從ForWindows到ForUnix等等方面的詳盡敘產(chǎn)品概DataStage企業(yè)版是AscentialSoftware企業(yè)整合系列產(chǎn)品中關(guān)鍵DataStage企業(yè)版發(fā)布了四個功能來成功實施企業(yè)數(shù)據(jù)整合:先進的開用,的時間是不斷的從中受益。DataStage企業(yè)版使用了-server架構(gòu),如下所示圖一、DataState企業(yè)版-Server架用戶通過各個客戶端工具DataStage企業(yè)版的開發(fā)、配置和功能。Designer中的“JobSequencer”控制作業(yè)的執(zhí)行,其他作業(yè)成功完成(或失敗,等)的立和刪除工程并且建立標準。Manager:用來編輯管理用戶工程的DataStageDirector:安裝與初Aix5.1/5.2Server (建議每個node2(建議每個node2G1.5GIBMAIX5.1,dstageADMINISTRATIVEUSERtrue,PrimaryGROUP,GroupSET,ADMINISTRATIVEGROUPS:均為dstagedsadm,dstage,ADMINISTRATIVEUSERdatastageserverServer安裝步確保以超級用戶root進入系統(tǒng)(非常重要進入 Tar如果是光盤包,則執(zhí)行命令:Mount/cdrom進入 執(zhí)行./install.sh,會出現(xiàn)下圖所示:每步安裝都附有,上rooty提示這是一個新的安裝過程,輸入yn輸入nlicenseagreement,輸入y 必須存在,dsadm用戶要有存取權(quán)限, 必須為空,輸入c改變臨時確認臨 路徑,輸入n繼serialnumber,CPUcount,expirationdate,enterpriseeditioncode,servercode,輸入n繼續(xù),MVSeditioncoden因為未RTIAgent,SASIntegration,IMSSource,所以不用輸入以下三個code,輸入n繼續(xù)nc5輸入na輸入nprojectnameUDIprojectUunprotectedproject輸入nDataStagen輸入n輸入n輸入 檢查Server是否啟動正常輸入Ps–ef|grep ServerdsrpcdServer以dsadmServer:$HOMEDIR/uv–admin-注意:啟動前,需要查看端口是否被釋放,通過‘netstat–af|grepds’查看,如果有連接,則需要等待操作系統(tǒng)自動釋放在啟動服務(wù)Server:$HOMEDIR/uv–adminds’查看,是否還存在連接,否則要通知相應(yīng)登錄的端徹底退出。DataStageAdministrator配進入到General1.設(shè)置Inactivity‘7200’。(待探討,依據(jù)實際需求設(shè)置進入到需要設(shè)置的General選中:EnablejobadministrationfeaturesintheDataStage選中:Enableruntimecolumnpropagationforparalleljobs(待探討,選中:Auto-purgeofjoblogOver:7daysold(待探討,依據(jù)實在General->Enviroment…GeneralTMPDIR=XXX(將其指向一個相對較大 不填寫就是指缺省的ParallelAPT_STRING_PADCHAR=0x0,Parallel->OperatorSpecificUserDefinedAPT_IMPEXP_ALLOW_ZERO_LENGTH_FIXED_NULL1(如果目前數(shù)據(jù)Null)Permissions1.此處建議將與平臺無關(guān)的操作用戶都設(shè)置為在Aix操作系統(tǒng)中的運行$lsps–a,PagingSpaceGroupSizeCPU數(shù)量少于20個的機器,最好整個PagingSpace500M×CPU數(shù),如機器配《InstallandUpgradeGuide》中,123頁左右在smit->SystemEnviroments->Change/ShowCharacteristicsofOperatingSystem->umnumberofPROCESSESallowedperuser中–E–lsys0|grepmaxuproc(具體可以參照《InstallandUpgradeGuide》中,119頁左右)議將里面的所有參數(shù),都設(shè)置為unlimit。具體可以參照《InstallandUpgradeGuide》中,120頁左右)其建議在建立好Project以后導(dǎo)入Project以前就先將以上的參數(shù)設(shè)置好。Job對于Aix操作系統(tǒng)的設(shè)置,由于不同的數(shù)據(jù)量和Job復(fù)雜程度Job安裝執(zhí)行datastage文件夾中執(zhí)行setup,選擇端安裝注意:需要安裝.NetFramework支持。如未安裝Framework安裝程序開始后會提示是否從安裝光盤安裝Framework,選擇是安裝Framework裝光盤中的setup,繼續(xù)安裝.依次輸入客戶端的輸入Serialnumber,UserLimit,EnterpriseCode,AuthorizationCode;選擇安裝文件夾,點擊Next常規(guī)應(yīng)Sequential點住文件,雙擊鼠標,在general說明此文件內(nèi)容,格式,修改文件屬性,文件名稱,reject功能特點一般用于注釋可利用其背景顏色在job中分顏別不同功ChangeCapture功能特點:ChangeCaptureStage有兩個輸入,分別標記為beforelinkafterlinkbeforelinkafterlink的區(qū)別我們稱作changesetChangeCaptureStage可以和ChangeApplyStageafterset。keyvaluechangemodeAllkeys,Explicit 需要指定value,ExplicitKeys&Values ExplicitKeys,AllValues DropOutputFor False:保留before及aftelink中keyTrue:刪除before及aftelink中key值相同的行DropOutputForDelete False:保留beforelink中有但是afterlink中沒有True:刪除beforelink中有但是aftelink中沒有DropOutputFor DropOutputFor False:保留beforelink中沒有但aftelinkCopy注意:當(dāng)只有一個輸入及一個輸出時最好將設(shè)置為True,這樣可以在Designer數(shù)據(jù)。Filter功能說明:FilterStageoutputlink。FunnelContinuousFunnel:從每一個inputlink中循環(huán)取一條記錄SortFunnel:按照Key值排序合并輸出Sequence:先輸出第一個inputlink的數(shù)據(jù),輸出完畢后再輸出第二個inputTansformerStageinputlink,多個outputlink,可以將字段進行轉(zhuǎn)換,也可以通過條件來指定數(shù)據(jù)輸outputlink。在開發(fā)過程中可以使用拖拽。ConstraintDerivationDerivation在Constraint及Derivation中可以使用Jobparameters及StageModifyStage,CopyStage,F(xiàn)ilterStageTransformerStage。SortOptionAllow 是否去除重復(fù)數(shù)據(jù)。為False條數(shù)據(jù),當(dāng)StableSort為True時,選取第一SortUnility為UNIX時此選項無效。Sort DataStage內(nèi)建令或者Unix的Sort命令OutputStatistics: StableSort: CreateClusterKeyChangeColumn字段:clusterKeyChange。當(dāng)SortKey為Don’tSort(PreviouslySorted)或Don’tSort(PreviouslyGrouped)時,對于第一條記錄該字段被設(shè)置為1,其余的記錄設(shè)置為0CreateKeyChangeColumn:是否為每一條記錄創(chuàng)建一個新的字段LookUp功能說明:LookUpStage把數(shù)據(jù)讀入內(nèi)存執(zhí)行查詢操作, JoinLookUpStageJoinStage的區(qū)LookUpStage將數(shù)據(jù)讀入到內(nèi)存中,所以效率很高,但是占用了較多referencedataLookUpStage;當(dāng)referencedata比較大的時候,我們推薦用JoinStage。MergeMergeKey定為Master,其余的為Update。把UpdateMergeKey相同的記Master。Modify功能說明:Modifystage只能有一個輸入及一個輸出,它可以修改表結(jié)構(gòu):刪除一個字段:DROPcolumnname[,columnname]保留一個字段:KEEPcolumnname[,columnname] new_columnname[:new_type]=可用的explicit_conversion_function請參看《ParallelJobDeveloper’sGuide》7DataSetStage類型:File功能說明:從dataset文件中數(shù)據(jù)或者寫數(shù)據(jù)到dataset文件中,一個DateSetStage只能有一個輸入連接(inputlink)或者一個輸出連接(output具體用法:包括StagePage,InputsPage,OutputsStagePage通常描述了stageInputsPage描述了即要寫入信息的dataset文件的詳細信息;Properties中配置了文件的存放路徑和更新策OutputsPage描述了信息的dataset文件的詳細信息;操作過程與InputsPage類似。FileSetStage類型:File功能說明:從fileset文件中數(shù)據(jù)或者寫數(shù)據(jù)到fileset文件中,一個FileSetStage只能有一個輸入連接(inputlink)、一個輸出連接(outputlink)和一個連接(rejectslink)。并且只能在并行模式下執(zhí)行。StagePage:對StageInputsPage:主要是Properties和Format的配說明的是Options下的RejectMode的選擇,當(dāng)stage有rejectlink的時候,必須選擇Output;沒有rejectlink時,可選擇其他兩個選項。Format的配置:定義了數(shù)據(jù)寫到文件中的格OutputsPage:對stage輸出的數(shù)據(jù)字段的描述,另外,rejectlink的輸出LookupFileSetStage類型:File況下,將參照數(shù)據(jù)生成專門的LookupFileSet文件,以便提高查找的效率StageInputsPage:主要定義了查找關(guān)鍵字和存放路徑等主要信息創(chuàng)建一個LookupFileSet文件:OutputsPage:當(dāng)作為參照數(shù)據(jù)進行查找操作時,因為文件是已經(jīng)生成OracleEnterpriseStage類型:Database功能說明:從Oracle數(shù)據(jù)庫中數(shù)據(jù)或者寫數(shù)據(jù)到Oracle數(shù)據(jù)庫中。使用INSERT或UPDATWE命令更新數(shù)據(jù)庫Inputs向數(shù)據(jù)庫中寫數(shù)據(jù),關(guān)鍵是對Properties的配OutputsPage:與InputsPage類似,只是完成的是從數(shù)據(jù)庫中數(shù)AggregatorStagePage:描述stage的一般信息以及字段的分組信息和選擇分組計算InputsPageOupputsPage:詳細描述輸出數(shù)據(jù)信息,即經(jīng)過分組計算后的數(shù)據(jù)字段RemoveDuplicates復(fù)的記錄,通常與sortstage配合使用StagePage:Properties中的key值與之前sortstage的分類keyStageInputsPageOupputsPageCompressdataset文件壓縮成二進制文件(與expenddatastage相對應(yīng)InputsPageOupputsPageExpand功能說明:將壓縮的二進制文件解壓縮(解壓縮compressstage生成的壓縮文InputsPageOupputsPageDifference功能說明:按字段比較兩個文件,找出不同的記錄。(兩個文件before和StageDropOutputFor False:保留before及aftelink中keyTrue:刪除before及aftelink中key值相同的行DropOutputForDelete False:保留beforelink中有但是aftelink中沒有True:刪除beforelink中有但是aftelink中沒有DropOutputFor DropOutputFor False:保留beforelink中沒有但aftelink調(diào)整before和afterInputsPageOupputsPageCompareStageInputsPageOupputsPageSwitch的輸出(SwitchStage有一個inputlink和多個outputlinkrejectlink,outputlink最多可達128個;此功能很類似與C函數(shù)中的switch函數(shù))。StageInputsPageOupputsPage:對輸出數(shù)據(jù)字段的描述,通過Map自定義各個輸出ColumnImport功能說明:將一個字段中的數(shù)據(jù)輸出到多個字段中。(也可以用這個tage可以被識別的可分割的界限,必須是Stringinary類型的,輸出數(shù)據(jù)可以是任何數(shù)據(jù)類型)StagePage:關(guān)鍵是對PropertiesInputsPageOupputsPage:對輸出數(shù)據(jù)字段的描述,在Column經(jīng)過stage的前后數(shù)據(jù)的對ColumnExportColumnImportStage相反,將多個類型不同的字段合并成一StagePage:關(guān)鍵是properties的配置,選擇將哪些字段合并,合并后的InputsPage:對輸入數(shù)據(jù)字段的描述,這里關(guān)鍵是Format的配置,決定OupputsPage經(jīng)過stage的前后數(shù)據(jù)的對Informix首先需要在用戶的環(huán)境變量中設(shè)置有關(guān)Informix數(shù)據(jù)庫的參數(shù)PATH中加入Informix的bin目錄,還有INFORMIXDIR,INFORMIXSERVER,CONFIGFILE等,確保該用戶能夠Informix -On-Line--Up6days00:16:12--377504Kbytes,則代表數(shù)據(jù)庫StageInformixInformixLoad,都需要通過Informix來連接數(shù)據(jù)庫,在$DSHOME/dsenvInformixINFORMIXDIR=/home/inf930FC5;exportPATH=$PATH:$INFORMIXDIR/bin;exportINFORMIXSERVER=udi_etl_kf_tcp;exportONCONFIG=onconfig.udi_etl_kf;export exportLIBPATHLANG=C;exportINFORMIXC=CC;exportTHREADLIB=POSIX;exportdsenvenvOracleDB2高級應(yīng)DataStageBASIC該功能主要應(yīng)用于Job屬性定義中的Jobcontrol中,該功能可用于在本中調(diào)用其它的Job,給Job賦參數(shù)、得到Job自定義Stage為了擴大并行Stagetype的應(yīng)用范圍,DataStage允許開發(fā)者定義自己的Stagetype,并將其應(yīng)用于ParallelJob中。目前有三種形式的Stage可以自己Wrapped可以通過定義Wrappedstage來實現(xiàn)Unix命令,并且可以定義相應(yīng)參數(shù)和輸以實現(xiàn)unix令ls為例來說明。實現(xiàn)ls 下的文件故不用定義輸入表格式。為Output項定義一個表,即為ls的輸出定義表定義好輸入輸出后,開始定義wrappedstage CreatorProperties頁面定義stage所需的propertiy組建:為命令lsWrapped頁面定義stage定義stage的Input:由于命令ls選擇StandardOutput最后點擊按鈕“Generate”使自定義的wrappedstage生效。生成的自定義Build個整型數(shù)據(jù)相除,輸出兩數(shù)相除的商和余數(shù);2、檢查除數(shù)是否為0,如果為0則將記錄輸出到rejectlink。在這個例子中,還定義了一個最小除數(shù),當(dāng)輸入數(shù)據(jù)的除數(shù)小于這個最小除數(shù)時,數(shù)據(jù)也會被,輸出到rejectlink。輸入數(shù)據(jù)為兩個準備相除的整型數(shù)據(jù),表dividein做完表定義的準備工作后,開始定義Buildstage,名稱為Divide CreatorProperties頁面,定義一個變量字段,在stageOutput定義:需要定義正常的結(jié)果輸出和reject輸出。如下圖示:正常結(jié)果輸出的TableName選擇預(yù)先定義好的表devideresult,AutoRead置為False;reject輸出TableName不需定義;TransferLogic頁面定義stage“Generate”使自定義buildstage生效。當(dāng)定義正確時,會提示“OperatorGenerationSucceeded”,如下圖:Custom針對熟悉Orchestrate的資深開發(fā)者,通過指定一個Orchestrate來作為一個新的Stagetype。使其能夠在ParallelJob對于大數(shù)據(jù)量的處理,DataStage優(yōu)化策提高讀寫效JobJob優(yōu)化的最基本也是最關(guān)鍵的一環(huán)。30918調(diào)整數(shù)據(jù)分部30918通道3091888206309189674230918149950增加讀如14488309184000046875unix外部命令(為了提高的速度,我們需要盡量避免讀入多余的字段,我們選擇了在SequentialStageFilterunixscut命令指定只讀所需的字段。這樣會明顯提高,cut到提高的目的。所以我們沒有進行大數(shù)據(jù)量的Cut測試。據(jù)是以分散的跨盤的方式。結(jié)果證明,數(shù)據(jù)的效果將有比較明顯的改善。大概是在一個磁盤上的2~3I/O通道的多少和在磁盤上的分布,需要有系統(tǒng)管理員由于引入了unixs命令以后,對于較大數(shù)據(jù)量的不能有較好的效果。所以,我SequentialFileStageCopyStage對不要處理的字段進的,所以的速度比過濾字段要快。droponinput過濾多余字段(CopyStagesequentialfile中不需要抽取的字段做如下設(shè)置:editrow->filedlevel->droponinput。這樣將只讀入需要抽取的字段。ComplexFileStage讀入數(shù)據(jù)(由于ComplexFileStage能夠并行數(shù)據(jù),而且能夠選擇性的讀入指定的字段,所在測試用該組件數(shù)據(jù)時,文件的讀入速度有了大幅的提升?;旧峡梢赃_到正常的SequentialFileStage4~5倍。如果其配置問題能夠得到解決,那么這將是我們今在讀入文件是采用多readers(SequentialFileStageComplesFileStage,都有一個可調(diào)的選項:NumberofReadersPerNode,其缺省值為1,它的功能是在每一個Node上,開N個數(shù)據(jù)的Instances。適當(dāng)調(diào)整這個參數(shù),提高數(shù)據(jù)的并行度,可以明顯提高的效率。通常,8~12個為宜,如果同時有幾個文件同時讀入,則希12個,這可以依據(jù)實際的情況進行調(diào)試。但該參數(shù)好像也要求數(shù)據(jù)文件是提高運行效本次測試的案例為 檔與VIP客戶檔做Lookup,找出其中屬VIP優(yōu)化前(秒優(yōu)化后(秒用LookUpFile我們通常會用LookupaeLooup的eeeceLin,(nagenageLookUpFileSetSequentialfile(SequentialFileStageLookupStagereferencelink的輸入,在數(shù)據(jù)DataStageLookupfile
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025國際貿(mào)易合同樣本參考
- Unit 3 My weekend plan Part A Let's talk Let's learn大單元整體說課稿表格式-2024-2025學(xué)年人教PEP版英語六年級上冊
- 9 生活離不開規(guī)則說課稿-2023-2024學(xué)年道德與法治三年級下冊統(tǒng)編版
- 3 《百合花》 (說課稿)-2024-2025學(xué)年高一語文同步說課稿與知識梳理(統(tǒng)編版必修上冊)
- Unit 4 My home PB Let's learn (說課稿)-2024-2025學(xué)年人教PEP版英語四年級上冊
- 農(nóng)民種菜合同范本
- 久久鴨加盟合同范例
- 代理運營項目合同范例
- 2024-2025學(xué)年新教材高中數(shù)學(xué) 第五章 三角函數(shù) 5.4 三角函數(shù)的圖象與性質(zhì)(1)說課稿 新人教A版必修第一冊
- 13萬里一線牽 第二課時 說課稿-2023-2024學(xué)年道德與法治三年級下冊統(tǒng)編版
- 簡易三方換地協(xié)議書范本
- 2025屆廣東省深圳羅湖區(qū)四校聯(lián)考九上數(shù)學(xué)期末綜合測試試題含解析
- 飛鼠養(yǎng)殖技術(shù)指導(dǎo)
- 2024年襄陽漢江檢測有限公司招聘筆試參考題庫附帶答案詳解
- 醫(yī)院檢驗科安全風(fēng)險評估報告表單
- 高一北師大版歷史必修一知識點總結(jié)9篇
- 2024輸血相關(guān)知識培訓(xùn)
- 2023年四川省綿陽市中考初中學(xué)業(yè)水平考試語文試題【含答案】
- 夏普LCD-46LX750A電視機使用說明書
- 正大天虹方矩管鍍鋅方矩管材質(zhì)書
- 2024年山東魯商集團有限公司招聘筆試參考題庫含答案解析
評論
0/150
提交評論