![kettle轉(zhuǎn)換步驟的類型功能_第1頁](http://file4.renrendoc.com/view/ffdc9af08df474d3b7d8bd67c2a30653/ffdc9af08df474d3b7d8bd67c2a306531.gif)
![kettle轉(zhuǎn)換步驟的類型功能_第2頁](http://file4.renrendoc.com/view/ffdc9af08df474d3b7d8bd67c2a30653/ffdc9af08df474d3b7d8bd67c2a306532.gif)
![kettle轉(zhuǎn)換步驟的類型功能_第3頁](http://file4.renrendoc.com/view/ffdc9af08df474d3b7d8bd67c2a30653/ffdc9af08df474d3b7d8bd67c2a306533.gif)
![kettle轉(zhuǎn)換步驟的類型功能_第4頁](http://file4.renrendoc.com/view/ffdc9af08df474d3b7d8bd67c2a30653/ffdc9af08df474d3b7d8bd67c2a306534.gif)
![kettle轉(zhuǎn)換步驟的類型功能_第5頁](http://file4.renrendoc.com/view/ffdc9af08df474d3b7d8bd67c2a30653/ffdc9af08df474d3b7d8bd67c2a306535.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
文本文件輸入(textinput):讀取大量不同的文本文件。大多是通過工具生成的CSV文件。表輸入(tableInput):常用來利用連接和SQL,從數(shù)據(jù)中讀取信息,自動生成基本的SQL語句。獲取系統(tǒng)信息(getsysteminfo):這個步驟從Kettle環(huán)境中獲取信息。生成行(GenerateRows):這個步驟輸出一定數(shù)量的行,缺省為空??蛇x包括一定數(shù)量的靜態(tài)字段。Cube輸入(文件反序列化)(De-serializefromfile):從二進制KettleCube文件中讀取數(shù)據(jù)行。備注:這個步驟僅僅用來存儲短期數(shù)據(jù)。不同版本之間不保證文件的格式一樣。XBase輸入:使用這一步可以讀取大多數(shù)被稱為XBasefamily派生的DBF文件。Excel輸入:利用這個步驟可以從Kettle支持的系統(tǒng)的Excel文件里面讀取數(shù)據(jù)。XML輸入:這個步驟允許你讀取存儲在XML文件中的數(shù)據(jù)。它也提供一個接口,你可以定義你想讀取的文件名、XML文件的數(shù)據(jù)重復(fù)部分、獲取的字段等。你可以指定元素或?qū)傩宰侄?。獲取文件名(GetFileNames):這個步驟可以獲取系統(tǒng)的文件名信息。文本文件輸出(TextFileOutput):表輸出(Tableoutput):這個步驟可以存儲信息到數(shù)據(jù)庫表中。插入/更新(Insert/Update):這個步驟利用查詢關(guān)鍵字在表中搜索行。如果行沒有找到,就插入行。如果能被找到U,并且要被更新的字段沒有任何改變,就什么也不做。如果有不同,行就會被更新。更新(Update):這個步驟類似于插入/更新步驟,除了對數(shù)據(jù)表不作插入操作之外。它僅僅執(zhí)行更新操作。刪除(Delete):這個步驟類似于上一步,除了不更新操作。所有的行均被刪除。Cubeoutput(序列化到文件"Serializetofile):這一步驟存儲數(shù)據(jù)到一個二進制文件。這個步驟有個優(yōu)勢就是回讀的時候,文本文件的內(nèi)容不需要解析。這是因為元數(shù)據(jù)也同時存儲在CUBE文件里面。XML輸出:這個步驟允許你從源中寫入行到一個或者多個XML文件。EXCEL輸出:利用這個步驟,在Kettle支持的系統(tǒng)中,你可以寫入數(shù)據(jù)到一個或者多個Excel文件中。Access輸出(MicrosoftAccessOutput):允許你在轉(zhuǎn)換中創(chuàng)建一個新的Access數(shù)據(jù)庫文件作為輸出。數(shù)據(jù)庫查詢(Databaselookup):這個步驟類型允許你在數(shù)據(jù)庫表中查找值。流查詢(Streamlookup):這個步驟類型允許你從其它步驟中查詢信息。首先,“源步驟”的數(shù)據(jù)被讀到內(nèi)存中,然后被用來從主要的流中查詢數(shù)據(jù)。調(diào)用數(shù)據(jù)庫存儲過程(CallDBProcedure):這個步驟允許你運行一個數(shù)據(jù)庫存儲過程,獲取返回結(jié)果。HTTP客戶端(HTTPCient):HTTP客戶端根據(jù)一個附帶條件的基準(zhǔn)URL,來調(diào)用一個簡單的調(diào)用。字段選擇(Selectvalues):這個步驟常常用來選擇字段重命名字段指定字段的長度或者精度下面是三個不同標(biāo)簽的功能:選擇和修改:指定需要流到輸出流中的字段的精確順序和名稱刪除:指定必須從輸出流中刪除的字段元數(shù)據(jù):修改元數(shù)據(jù)字段的名稱、類型、長度和精度過濾記錄(Filterrows):這個步驟允許你根據(jù)條件和比較符來過濾記錄。一旦這個步驟連接到先前的步驟中,你可以簡單的單擊“<field>”,"=”和“<value>”區(qū)域來構(gòu)建條件。排序記錄(Sortrows):這個步驟利用你指定的字段排序行,無論他們是按照升序還是降序。備注:當(dāng)行數(shù)超過5000行的時候,Kettle使用臨時文件來排序行。添加序列(Addsequence):這個步驟在流中增加一個序列。一個序列是在某個起始值和增量的基礎(chǔ)上,經(jīng)常改變的整數(shù)值。你可以使用數(shù)據(jù)庫的序列,也可以使用Kettle決定的序列。備注:Kettle序列在同一個轉(zhuǎn)換中是唯一使用的。每一次轉(zhuǎn)換運行的時候,序列的值又會重新循環(huán)一次(從開始值開始)空操作-什么都不做(Dummy-donothing):這個操作什么都不做。它的主要作用是,在你想測試什么的時候,充當(dāng)一個占位符。例如有一個轉(zhuǎn)換,你至少需要兩個彼此連接的步驟。如果你想測試文本文件輸入步驟,你可以將它連接到一個Dummy步驟。行轉(zhuǎn)歹列(RowNormaliser):這個步驟轉(zhuǎn)動表,標(biāo)準(zhǔn)化數(shù)據(jù)。拆分字段(SplitFields):這個步驟允許你根據(jù)分隔符來拆分字段。去除重復(fù)記錄(Uniquerows):這個步驟從輸入流中稱移除重復(fù)的記錄。分組(GroupBy):這個步驟允許你通過定義分組的字段來計算值。例如:計算產(chǎn)品的平均銷售額,獲取庫存的黃色襯衫的數(shù)量等等。設(shè)置為空值(Nullif):如果某個字符串的值等于指定的值,設(shè)置那個值為空。計算器(Calculator):這個步驟提供一個功能列表,可以在字段值上運行。計算器的一個重要優(yōu)勢是,它有著幾倍于常用的JavaScript腳本的速度。增加XML(XMLAdd):這個步驟允許你將在XML中的行字段內(nèi)容編碼,XML以字符串字段的形式添加到行中。增加常量(Addconstants):這個步驟很簡單,主要是添加常量到流中。它的使用也很容易:用字符串形式指定名稱,類型和值。利用選擇的數(shù)據(jù)類型指定轉(zhuǎn)換格式。行轉(zhuǎn)列(RowDenormaliser):這個步驟允許你通過查詢鍵值對來反向規(guī)格化數(shù)據(jù)。也可以立即轉(zhuǎn)換數(shù)據(jù)類型。行扁平化(Flattener):這個步驟允許你扁平化預(yù)備的數(shù)據(jù)。值映射(ValueMapper):這個步驟簡單的映射字符串,從一個值映射到另一個值。通常你想解中轉(zhuǎn)換表的問題,不管怎么說,這是一種可選的方案:簡單的將轉(zhuǎn)換表作一部分。例如:如果你想替換Languagecodes,你可以:使用的字段名:LanuguageCode目標(biāo)字段名:LanguageDesc源值/目標(biāo)值:EN/English,FR/French,NL/Dutch,ES/Spanish,DE/German,...被凍結(jié)的步驟(Blockingstep):它凍結(jié)所有的輸出,直到從上一步驟來的最后一行數(shù)據(jù)到達,最后一行數(shù)據(jù)將發(fā)送到下一步。你可以使用這個步驟觸發(fā)常用插件、存儲過程和JavaScript等等。記錄關(guān)聯(lián)(笛卡爾輸出)(JoinRows-CartesianProduct):這個步驟允許你組合輸入流中的所有行(笛卡爾輸出)。數(shù)據(jù)庫連接(DatabaseJoin):這個步驟允許你使用先前步驟的數(shù)據(jù),運行一個數(shù)據(jù)庫查詢。能夠指定查詢參數(shù):在SQL查詢中使用“?”;在SQL查詢中使用數(shù)據(jù)網(wǎng)格中的字段合并記錄(Mergerows):這個步驟允許你比較兩個行流。如果你想在兩個不同的時間比較比較數(shù)據(jù),這是非常有用的。它常被用于數(shù)據(jù)倉庫源系統(tǒng)沒有包含最后更新日期的情況。兩個行流被合并,一個是引用流(舊數(shù)據(jù))一個比較流(新數(shù)據(jù))。每次都是行的最后版本通過進入下一步驟。行有以下標(biāo)記:“identical^:關(guān)鍵字在兩個流中都存在,并且值相同“changed”:關(guān)鍵字在兩個流中都存在,但是一個或者更多的值不同“new”:引用流中沒有找到關(guān)鍵字“deleted”:比較流中沒有找到U關(guān)鍵字比較流中的數(shù)據(jù)進入下一步驟,除非在“刪除“的情況。存儲合并(StoredMerge):這個步驟合并來自多個輸入步驟的數(shù)據(jù)行,并且這些行用指定的關(guān)鍵字排序。合并連接(MergeJoin):這個步驟將來自兩個不同的步驟輸入的數(shù)據(jù)執(zhí)行一個高效的合并。合并選項包括INNER、LEFTOUTER、RIGHTOUTER、FULLOUTER。備注:這個步驟將輸入的行按指定的字段存儲JavaScript值(JavaScriptValue):這個步驟允許你用JavaScript語言做復(fù)雜的運算。使用的JavaScript引擎是Rhino1.5R5。改進的JavaScript值(ModifiedJavaScriptValue):這個步驟是“JavascriptValues,的進改版本,它可以提供更好的效率,也更容易使用。執(zhí)行SQL語句(ExecuteSQLscript):在這個步驟中你可以執(zhí)行SQL腳本,或者在轉(zhuǎn)換初始化的時候執(zhí)行,或者在步驟的每一個輸入行執(zhí)行。維度更新/查詢(Dimensionlookup/update):聯(lián)合更新/查詢(Combinationlookup/update):這個步驟允許你在一個junk-dimesion表里存儲信息。映射(Mapping):如果你希望某個轉(zhuǎn)換多次運行,你可以將重復(fù)的部分添加到一個映射中。映射是一個這樣的轉(zhuǎn)換:指定輸入如何從映射輸入中到達;指定輸入字段如何轉(zhuǎn)換:字段被添加或者刪除從結(jié)果獲取記錄(Getrowsfromresult):這個步驟返回在一個任務(wù)中先前步驟生成的行。你可以進入選擇先前步驟生成的元數(shù)據(jù)字段。復(fù)制記錄到結(jié)果(Copyrowstoresult):這個步驟允許你在一個任務(wù)中將行數(shù)據(jù)(內(nèi)存中的)傳遞到下一個步驟設(shè)置變量(SetVariable):這個步驟允許你在一個任務(wù)中或者虛擬機中設(shè)置變量。它僅僅可以用一行數(shù)據(jù)來設(shè)置變量值。獲取變量(GetVariable):這個步驟允許你獲取一個變量,它可以返回行或者附加值到輸入行。備注:你需要指定完整的變量格式${variable}或者%%variable%%。從以前的結(jié)果獲取文件(Getfilesfromresult):每次在轉(zhuǎn)換、任務(wù)、文件細節(jié)、任務(wù)條目、步驟等處理、使用或者創(chuàng)建一個文件時,文件被捕獲并且附加到結(jié)果中。你可以使用這個步驟訪問那些信息。復(fù)制文件名到結(jié)果(Setfilesinresult):在某種情況下,我們可以操縱輸出結(jié)果中的文件列表。例如mail任務(wù)條目可以使用文件列表來關(guān)聯(lián)郵件,可能你不需要發(fā)送所有的文件,你可以在此步驟中指定你想要發(fā)送的郵件。記錄注射器(Injector):注射器主要是針對以下人使用:想利用KettleAPI和JAVA來注射記錄到轉(zhuǎn)換中。套接字讀入器(SocketReader):套接字讀入器是通過TCP/IP協(xié)議將數(shù)據(jù)從一個服務(wù)器向另一個服務(wù)器傳輸。套接字輸寫器(SocketWriter):套接字輸寫器是通過TCP/IP協(xié)議將數(shù)據(jù)從一個服務(wù)器向另一個服務(wù)器傳輸。聚合行(AggregateRows):這個步驟允許你在所有行的基礎(chǔ)上快速的聚集行。流XML輸入(StreamingXMLInput):這個步驟主要提供值的解析,它信賴于SAX解析器,在大文件解析上能提供更好的性能。它與XML輸入非常相似,僅僅在內(nèi)容和字段制表符上略有不同。中止(Abort):這個步驟允許你在觀察輸入的時候中止步驟。它的主要用途是錯誤處理,在一定數(shù)量的行流過錯誤的連接時中止轉(zhuǎn)換。Oracle批量裝載(Oraclebulkloader):這個步驟允許你大批量加載數(shù)據(jù)到Oracle數(shù)據(jù)庫,它將用一個正確的裝載格式,然后調(diào)用Oracle的SQL*Loader數(shù)據(jù)加載工具加載到指定的表中。3.4:Transform轉(zhuǎn)換(嗯,重點)3.4.1:Selectvalues:對輸入的行記錄數(shù)據(jù)的字段進行更改(更改數(shù)據(jù)類型,史改字段名或刪除)數(shù)據(jù)類型變更時,數(shù)據(jù)的轉(zhuǎn)換有固定規(guī)則,可簡單定制參數(shù)??捎脕磉M行數(shù)據(jù)表的改裝-3.4.2:Filterrows:對輸入的行記錄進行指定復(fù)雜條件的過痣。用途可擴充sql語句現(xiàn)有的過德功能。但現(xiàn)有提供邏輯功能超出標(biāo)準(zhǔn)sql的不多。3.4.3:Sortrows:對指定的列以升序或降序排序,當(dāng)排序的行數(shù)超過SDDD時需要臨時表。3.4.4:Addsequence:為數(shù)據(jù)流增加一個序列,這個配合其它StepfGeneraterows,rowsjoin),可以生成序列表,如日期維度表(年、月、日)。3.4.5:Dummy:不做任何處理,主要用來作為分支節(jié)點。3.4.6:JoinRows:對所有輸入流做笛卡兒乘積口3.4.7:Aggregate:聚■合,分組處理,不推薦使用了,被Groupbyft替3.4.8:Groupby:分組用途可擴充sql語句現(xiàn)有的分組,聚合函數(shù)。但我想可能會有其它方式的sql語句能實現(xiàn)。3.4.9:JavaScriptvalue:使用mozilla的rhin□作為腳本語言,并提供了很多函數(shù),用戶可以在腳本中便F函數(shù)-RowNormaliser:該步驟可以從透視表中還原數(shù)據(jù)到事實表,通過指定維度字段及其分類值,度重字段,最終還原出事實表數(shù)據(jù)。Uniquerows:去掉輸入流中的重復(fù)行在使用該節(jié)點前要先排序,否則只能刪除連續(xù)的重復(fù)行。Calculator:提供了一組函數(shù)對列值進行運算,所介紹,使用該方式比用戶自定XJAVASCRIPT腳本速度更快。MergeRows:用于比較兩組輸入數(shù)據(jù),一般用于更新后的數(shù)據(jù)重新早入到數(shù)據(jù)倉庫中口Addconsta
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 人教版數(shù)學(xué)八年級下冊16.2《二次根式的乘除》聽評課記錄4
- 岳麓版歷史八年級下冊第16課《“一國兩制”與香港、澳門回歸祖國》聽課評課記錄
- 蘇教版三年級第五冊整百數(shù)乘一位數(shù)的口算教學(xué)設(shè)計
- 小學(xué)二年級語文教學(xué)計劃范文
- 廠房物業(yè)管理服務(wù)合同范本
- 五年級上冊數(shù)學(xué)聽評課記錄《第5單元:第3課時 用字母表示稍復(fù)雜的數(shù)量關(guān)系》人教新課標(biāo)
- 2025年度互聯(lián)網(wǎng)金融服務(wù)連帶責(zé)任保證擔(dān)保協(xié)議范文
- 2025年度蔬菜種植基地病蟲害防治合作協(xié)議
- 二零二五年度XX裝修公司員工崗位責(zé)任合同協(xié)議書
- 2025年度電商團隊數(shù)據(jù)安全合作協(xié)議
- 2023年上海青浦區(qū)區(qū)管企業(yè)統(tǒng)一招考聘用筆試題庫含答案解析
- 2023年高一物理期末考試卷(人教版)
- 2023版押品考試題庫必考點含答案
- 植物之歌觀后感
- 空氣能熱泵安裝示意圖
- 建筑工程施工質(zhì)量驗收規(guī)范檢驗批填寫全套表格示范填寫與說明
- 2020年中秋國慶假日文化旅游市場安全生產(chǎn)檢查表
- 辦公家具項目實施方案、供貨方案
- 七年級英語下冊閱讀理解10篇
- 節(jié)后開工收心會
- 設(shè)計質(zhì)量、進度保證措施
評論
0/150
提交評論