已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
開源ETL工具kettle系列之常見問題kettle, ETL, 工具, 開源1. Join 我得到A 數(shù)據(jù)流(不管是基于文件或數(shù)據(jù)庫),A包含field1 , field2 , field3 字段,然后我還有一個B數(shù)據(jù)流,B包含field4 , field5 , field6 , 我現(xiàn)在想把它們 加 起來, 應該怎么樣做.這是新手最容易犯錯的一個地方,A數(shù)據(jù)流跟B數(shù)據(jù)流能夠Join,肯定是它們包含join key ,join key 可以是一個字段也可以是多個字段。如果兩個數(shù)據(jù)流沒有join key ,那么它們就是在做笛卡爾積,一般很少會這樣。比如你現(xiàn)在需要列出一個員工的姓名和他所在部門的姓名,如果這是在同一個數(shù)據(jù)庫,大家都知道會在一個sql 里面加上where 限定條件,但是如果員工表和部門表在兩個不同的數(shù)據(jù)流里面,尤其是數(shù)據(jù)源的來源是多個數(shù)據(jù)庫的情況,我們一般是要使用Database Join 操作,然后用兩個database table input 來表示輸入流,一個輸入是部門表的姓名,另一個是員工表的姓名,然后我們認為這兩個表就可以 ”Join” 了,我們需要的輸出的確是這兩個字段,但是這兩個字段的輸出并不代表只需要這兩個字段的輸入,它們之間肯定是需要一個約束關系存在的。另外,無論是在做 Join , Merge , Update , Delete 這些常規(guī)操作的時候,都是先需要做一個compare 操作的,這個compare 操作都是針對compare key 的,無論兩個表結構是不是一樣的,比如employee 表和department 表,它們比較的依據(jù)就是employee 的外鍵department_id , 沒有這個compare key 這兩個表是不可能連接的起來的. 對于兩個表可能還有人知道是直接sql 來做連接,如果是多個輸入數(shù)據(jù)源,然后是三個表,有人就開始迷茫了,A表一個字段,B表一個字段,C表一個字段,然后就連Join操作都沒有,直接 database table output , 然后開始報錯,報完錯就到處找高手問,他們的數(shù)據(jù)庫原理老師已經在吐血了。如果是三個表連接,一個sql 不能搞定,就需要先兩個表兩個表的連接,通過兩次compare key 連接之后得到你的輸出,記住,你的輸出并不能代表你的輸入. 下面總結一下:1. 單數(shù)據(jù)源輸入,直接用sql 做連接2. 多數(shù)據(jù)源輸入,(可能是文本或是兩個以上源數(shù)據(jù)庫),用database join 操作.3. 三個表以上的多字段輸出.2. Kettle的數(shù)據(jù)庫連接模式Kettle的數(shù)據(jù)庫連接是一個步驟里面控制一個單數(shù)據(jù)庫連接,所以kettle的連接有數(shù)據(jù)庫連接池,你可以在指定的數(shù)據(jù)庫連接里面指定一開始連接池里面放多少個數(shù)據(jù)庫連接,在創(chuàng)建數(shù)據(jù)庫連接的時候就有Pooling 選項卡,里面可以指定最大連接數(shù)和初始連接數(shù),這可以一定程度上提高速度.3. transaction我想在步驟A執(zhí)行一個操作(更新或者插入),然后在經過若干個步驟之后,如果我發(fā)現(xiàn)某一個條件成立,我就提交所有的操作,如果失敗,我就回滾,kettle提供這種事務性的操作嗎?Kettle 里面是沒有所謂事務的概念的,每個步驟都是自己管理自己的連接的,在這個步驟開始的時候打開數(shù)據(jù)庫連接,在結束的時候關閉數(shù)據(jù)庫連接,一個步驟是肯定不會跨session的(數(shù)據(jù)庫里面的session), 另外,由于kettle是并行執(zhí)行的,所以不可能把一個數(shù)據(jù)庫連接打開很長時間不放,這樣可能會造成鎖出現(xiàn),雖然不一定是死鎖,但是對性能還是影響太大了。ETL中的事務對性能影響也很大,所以不應該設計一種依賴與事務方式的ETL執(zhí)行順序,畢竟這不是OLTP,因為你可能一次需要提交的數(shù)據(jù)量是幾百 GB都有可能,任何一種數(shù)據(jù)庫維持一個幾百GB的回滾段性能都是會不大幅下降的.4. 我真的需要transaction 但又不想要一個很復雜的設計,能不能提供一個簡單一點的方式Kettle 在3.0.2GA版中將推出一種新功能,在一個table output 步驟中有一個Miscellaneous 選項卡,其中有一個Use unique connections 的選項,如果你選中的話就可以得到一個transaction 的簡單版,由于是使用的單數(shù)據(jù)庫連接,所以可以有錯誤的時候回滾事務,不過要提醒一點是這種方式是以犧牲非常大的性能為前提條件的,對于太大的數(shù)據(jù)量是不適合的(個人仍然不建議使用這種方式)5. temporary 表如何使用我要在ETL過程中創(chuàng)建一個中間表,當某個條件成立的時候,我要把中間表的數(shù)據(jù)進行轉換,當另一條件成立的時候我要對中間表進行另一個操作,我想使用數(shù)據(jù)庫的臨時表來操作,應該用什么步驟。首先從temp 表的生命周期來分,temp分為事務臨時表和會話臨時表,前面已經解釋過了,kettle是沒有所謂事務的概念的,所以自然也沒有所謂的事務臨時表。Kettle的每個步驟管理自己的數(shù)據(jù)庫連接,連接一結束,kettle也就自然丟掉了這個連接的session 的handler , 沒有辦法可以在其他步驟拿回這個session 的handler , 所以也就不能使用所謂的會話臨時表,當你嘗試再開一個連接的時候,你可以連上這個臨時表,但是你想要的臨時表里面的數(shù)據(jù)都已經是空的(數(shù)據(jù)不一定被清除了,但是你連不上了),所以不要設計一個需要使用臨時表的轉換之所以會使用臨時表,其實跟需要 ”事務” 特性有一點類似,都是希望在ETL過程中提供一種緩沖。臨時表很多時候都不是某一個源表的全部數(shù)據(jù)的鏡像,很多時候臨時表都是很小一部分結果集,可能經過了某種計算過程,你需要臨時表無非是基于下面三個特性:1. 表結構固定,用一個固定的表來接受一部分數(shù)據(jù)。2. 每次連接的時候里面沒有數(shù)據(jù)。你希望它接受數(shù)據(jù),但是不保存,每次都好像執(zhí)行了truncate table 操作一樣3. 不同的時候連接臨時表用同一個名字,你不想使用多個連接的時候用類似與temp1 , temp2 , temp3 , temp4 這種名字,應為它們表結構一樣。既然臨時表不能用,應該如何設計ETL過程呢?(可以用某種詭異的操作搞出臨時表,不過不建議這樣做罷了)如果你的ETL過程比較的單線程性,也就是你清楚的知道同一時間只有一個這樣的表需要,你可以創(chuàng)建一個普通的表,每次連接的時候都執(zhí)行truncate 操作,不論是通過table output 的truncate table 選項,還是通過手工執(zhí)行truncate table sql 語句(在execute sql script 步驟)都可以達到目的(基于上面的1,2 特性)如果你的ETL操作比較的多線程性,同一時間可能需要多個表結構一樣并且里面都是為空的表(基于上面1,2,3特性),你可以創(chuàng)建一個 “字符串+序列”的模式,每次需要的時候,就創(chuàng)建這樣的表,用完之后就刪除,因為你自己不一定知道你需要多少個這種類型的表,所以刪除會比truncate 好一些。下面舉個例子怎么創(chuàng)建這種表:你可以使用某種約定的表名比如department_temp 作為department 的臨時表?;蛘甙補rgument 傳到表名,使用 department_$argument 的語法, 如果你需要多個這種表,使用一個sequence 操作+execute sql script 操作,execute sql script 就下面這種模式 Create table_?(.)在表的名字上加參數(shù),前面接受一個sequence 或類似的輸入操作.需要注意的是這種參數(shù)表名包括database table input 或者execute sql script ,只要是參數(shù)作為表名的情況前面的輸入不能是從數(shù)據(jù)庫來的,應為沒有辦法執(zhí)行這種preparedStatement語句,從數(shù)據(jù)庫來的值后面的操作是 “值操作” ,而不是字符串替換,只有argument 或者sequence 操作當作參數(shù)才是字符串替換. (這一點官方FAQ也有提到)6. update table 和execute sql script 里面執(zhí)行update 的區(qū)別執(zhí)行update table 操作是比較慢的,它會一條一條基于compare key 對比數(shù)據(jù),然后決定是不是要執(zhí)行update sql , 如果你知道你要怎么更新數(shù)據(jù)盡可能的使用execute sql script 操作,在里面手寫update sql (注意源數(shù)據(jù)庫和目標數(shù)據(jù)庫在哪),這種多行執(zhí)行方式(update sql)肯定比單行執(zhí)行方式(update table 操作)快的多。另一個區(qū)別是execute sql script 操作是可以接受參數(shù)的輸入的。它前面可以是一個跟它完全不關的表一個sql :select field1, field2 field3 from tableA 后面執(zhí)行另一個表的更新操作:update tableB set field4 = ? where field5=? And field6=? 然后選中execute sql script 的execute for each row .注意參數(shù)是一一對應的.(field4 對應field1 的值,field5 對應field2 的值, field6 對應field3 的值)7. kettle的性能kettle本身的性能絕對是能夠應對大型應用的,一般的基于平均行長150的一條記錄,假設源數(shù)據(jù)庫,目標數(shù)據(jù)庫以及kettle都分別在幾臺機器上(最常見的桌面工作模式,雙核,1G內存),速度大概都可以到5000 行每秒左右,如果把硬件提高一些,性能還可以提升 , 但是ETL 過程中難免遇到性能問題,下面一些通用的步驟也許能給你一些幫助.盡量使用數(shù)據(jù)庫連接池盡量提高批處理的commit size盡量使用緩存,緩存盡量大一些(主要是文本文件和數(shù)據(jù)流)Kettle 是Java 做的,盡量用大一點的內存參數(shù)啟動Kettle.可以使用sql 來做的一些操作盡量用sql Group , merge , stream lookup ,split field 這些操作都是比較慢的,想辦法避免他們.,能用sql 就用sql插入大量數(shù)據(jù)的時候盡量把索引刪掉盡量避免使用update , delete 操作,尤其是update , 如果可以把update 變成先delete ,后insert .能使用truncate table 的時候,就不要使用delete all row 這種類似sql合理的分區(qū)如果刪除操作是基于某一個分區(qū)的,就不要使用delete row 這種方式(不管是delete sql 還是delete 步驟),直接把分區(qū)drop 掉,再重新創(chuàng)建盡量縮小輸入的數(shù)據(jù)集的大?。ㄔ隽扛乱彩菫榱诉@個目的)盡量使用數(shù)據(jù)庫原生的方式裝載文本文件(Oracle 的sqlloader , mysql 的bulk loader 步驟)盡量不要用kettle 的calculate 計算步驟,能用數(shù)據(jù)庫本身的sql 就用sql ,不能用sql 就盡量想辦法用procedure , 實在不行才是calculate 步驟.要知道你的性能瓶頸在哪,可能有時候你使用了不恰當?shù)姆绞?,導致整個操作都變慢,觀察kettle log 生成的方式來了解你的ETL操作最慢的地方。遠程數(shù)據(jù)庫用文件+FTP 的方式來傳數(shù)據(jù) ,文件要壓縮。(只要不是局域網(wǎng)都可以認為是遠程連接)8. 描述物理環(huán)境源數(shù)據(jù)庫的操作系統(tǒng),硬件環(huán)境,是單數(shù)據(jù)源還是多數(shù)據(jù)源,數(shù)據(jù)庫怎么分布的,做ETL的那臺機器放在哪,操作系統(tǒng)和硬件環(huán)境是什么,目標數(shù)據(jù)倉庫的數(shù)據(jù)庫是什么,操作系統(tǒng),硬件環(huán)境,數(shù)據(jù)庫的字符集怎么選,數(shù)據(jù)傳輸方式是什么,開發(fā)環(huán)境,測試環(huán)境和實際的生產環(huán)境有什么區(qū)別,是不是需要一個中間數(shù)據(jù)庫(staging 數(shù)據(jù)庫) ,源數(shù)據(jù)庫的數(shù)據(jù)庫版本號是多少,測試數(shù)據(jù)庫的版本號是多少,真正的目標數(shù)據(jù)庫的版本號是多少. 這些信息也許很零散,但是都需要一份專門的文檔來描述這些信息,無論是你遇到問題需要別人幫助的時候描述問題本身,還是發(fā)現(xiàn)測試環(huán)境跟目標數(shù)據(jù)庫的版本號不一致,這份專門的文檔都能提供一些基本的信息9. procedure為什么我不能觸發(fā)procedure?這個問題在官方FAQ里面也有提到,觸發(fā)procedure 和 http client 都需要一個類似與觸發(fā)器的條件,你可以使用generate row 步驟產生一個空的row ,然后把這條記錄連上procedure 步驟,這樣就會使這條沒有記錄的空行觸發(fā)這個procedure (如果你打算使用無條件的單次觸發(fā)) ,當然procedure 也可以象table input 里面的步驟那樣傳參數(shù)并且多次執(zhí)行.另外一個建議是不要使用復雜的procedure 來完成本該ETL任務完成的任務,比如創(chuàng)建表,填充數(shù)據(jù),創(chuàng)建物化視圖等等.10. 字符集Kettle使用Java 通常使用的UTF8 來傳輸字符集,所以無論你使用何種數(shù)據(jù)庫,任何數(shù)據(jù)庫種類的字符集,kettle 都是支持的,如果你遇到了字符集問題,也許下面這些提示可以幫助你:1. 單數(shù)據(jù)庫到單數(shù)據(jù)庫是絕對不會出現(xiàn)亂碼問題的,不管原數(shù)據(jù)庫和目標數(shù)據(jù)庫是何種種類,何種字符集2. 多種不同字符集的原數(shù)據(jù)庫到一個目標數(shù)據(jù)庫,你首先需要確定多種源數(shù)據(jù)庫的字符集的最大兼容字符集是什么,如果你不清楚,最好的辦法就是使用UTF8來創(chuàng)建數(shù)據(jù)庫.3. 不要以你工作的環(huán)境來判斷字符集:現(xiàn)在某一個測試人員手上有一個oracle 的基于xxx 字符集的已經存在的數(shù)據(jù)庫,并且非常不幸的是xxx 字符集不是utf8 類型的,于是他把另一個基于yyy字符集的oracle 數(shù)據(jù)庫要經過某一個ETL過程轉換到oracle , 后來他發(fā)現(xiàn)無論怎么樣設置都會出現(xiàn)亂碼,這是因為你的數(shù)據(jù)庫本身的字符集不支持,無論你怎么設置都是沒用的. 測試的數(shù)據(jù)庫不代表最后產品運行的數(shù)據(jù)庫,尤其是有時候為了省事把多個不同的項目的不相關的數(shù)據(jù)庫裝在同一臺機器上,測試的時候又沒有分析清楚這種環(huán)境,所以也再次強調描述物理環(huán)境的重要性.4. 你所看到的不一定代表實際儲存的:mysql 處理字符集的時候是要在jdbc 連接的參數(shù)里面加上字符集參數(shù)的,而oracle 則是需要服務器端和客戶端使用同一種字符集才能正確顯示,所以你要明確你所看到的字符集亂碼不一定代表真的就是字符集亂碼,這需要你檢查在轉換之前的字符集是否會出現(xiàn)亂碼和轉換之后是否出現(xiàn)亂碼,你的桌面環(huán)境可能需要變動一些參數(shù)來適應這種變動5. 不要在一個轉換中使用多個字符集做為數(shù)據(jù)源.11. 預定義時間維Kettle提供了一個小工具幫助我們預填充時間維,這個工具在kettle_home / samples / transformations / General populate date dimension. 這個示例產生的數(shù)據(jù)不一定能滿足各種需要,不過你可以通過修改這個示例來滿足自己的需求.12. SQL tab 和 Options tab在你創(chuàng)建一個數(shù)據(jù)庫連接的時候除了可以指定你一次需要初始化的連接池參數(shù)之外(在 Pooling 選項卡下面),還包括一個Options 選項卡和一個 SQL 選項卡, Options 選項卡里面主要設置一些連接時的參數(shù),比如autocommit 是on 還是off , defaultFetchSize , useCursorFetch (mysql 默認支持的),oracle 還支持比如defaultExecuteBatch , oracle.jdbc.StreamBufferSize, oracle.jdbc.FreeMemoryOnEnterImplicitCache ,你可以查閱對應數(shù)據(jù)庫所支持的連接參數(shù),另外一個小提示:在創(chuàng)建數(shù)據(jù)庫連接的時候,選擇你的數(shù)據(jù)庫類型,然后選到Options 選項卡,下面有一個Show help text on options usage , 點擊這個按鈕會把你帶到對應各個數(shù)據(jù)庫的連接參數(shù)的官方的一個參數(shù)列表頁面,通過查詢這個列表頁面你就可以知道那種數(shù)據(jù)庫可以使用何種參數(shù)了.對于SQL 選項卡就是在你一連接這個Connection 之后,Kettle 會立刻執(zhí)行的sql 語句,個人比較推薦的一個sql 是執(zhí)行把所有日期格式統(tǒng)一成同一格式的sql ,比如在oracle 里面就是: alter session set nls_date_format = xxxxxxxxxxxxx alter session set nls_xxxxxxxxx = xxxxxxxxxxxx這樣可以避免你在轉換的時候大量使用to_date() , to_char 函數(shù)而僅僅只是為了統(tǒng)一日期格式,對于增量更新的時候尤其適用.13. 數(shù)據(jù)復制有的時候可能我們需要的是類似數(shù)據(jù)復制或者一個備份數(shù)據(jù)庫,這個時候你需要的是一種數(shù)據(jù)庫私有的解決方案,Kettle 也許并不是你的第一選擇,比如對于Oracle 來說,可能rman , oracle stream , oracle replication 等等, mysql 也有mysql rmaster / slave 模式的replication 等私有的解決方法,如果你確定你的需求不是數(shù)據(jù)集成這方面的,那么也許kettle 并不是一個很好的首選方案,你應該咨詢一下專業(yè)的DBA人士也會會更好.14. 如何控制版本變更Kettle 的每一個transformation 和job 都有一個version 字段(在你保存的時候), 不過這個功能還不實用,如果你需要版本控制的話,還是建議你將transformation 和job 轉換成文本文件保存,然后用svn 或cvs 或任意你熟悉的版本控制系統(tǒng)將其保存,kettle 將在下一個版本加入版本控制的功能(做的更易用).15. 支持的數(shù)據(jù)源Kettle 支持相當廣的數(shù)據(jù)源,比如在數(shù)據(jù)庫里面的一些不太常見的Access , MaxDB (SAP DB) , Hypersonic , SAP R/3 system , Borland Interbase , Oracle RDB , Teradata和3.0新加入的Sybase IQ .另外還包括Excel , CSV , LDAP ,以及OLAP Server Mondrian , 目前支持Web Service 不過暫時還不支持SOAP.16. 調試和測試當ETL轉換出現(xiàn)不可預知的問題時,或是你不清楚某個步驟的功能是什么的情況下,你可能需要創(chuàng)建一個模擬環(huán)境來調適程序,下面一些建議可能會有所幫助:盡量使用generate row 步驟或者固定的一個文本文件來創(chuàng)建一個模擬的數(shù)據(jù)源模擬的數(shù)據(jù)源一定要有代表性,數(shù)據(jù)集一定盡量?。榱诵阅芸紤])但是數(shù)據(jù)本身要足夠分散.創(chuàng)建了模擬的數(shù)據(jù)集后你應該清楚的知道你所要轉換之后的數(shù)據(jù)時什么樣的.17.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度建筑材料倉儲物流合同范本3篇
- 二零二五年度農民工勞動權益保護與維權服務合同
- 2025年度木材供應鏈金融服務合同3篇
- 2025年個人股權質押借款標準合同范本2篇
- 2025年度美發(fā)店互聯(lián)網(wǎng)營銷與新媒體推廣合同
- 二零二五年度養(yǎng)老護理員勞動合同規(guī)范管理協(xié)議
- 二零二五年度污水處理廠清運與設備更新合同
- 二零二五年度離職保密協(xié)議解除與競業(yè)限制合同范本
- 2025年度空調維修技師派遣與培訓服務合同
- 2024項目可行性研究合作合同版B版
- 湖北省黃石市陽新縣2024-2025學年八年級上學期數(shù)學期末考試題 含答案
- 硝化棉是天然纖維素硝化棉制造行業(yè)分析報告
- 央視網(wǎng)2025亞冬會營銷方案
- 《00541語言學概論》自考復習題庫(含答案)
- 《無砟軌道施工與組織》 課件 第十講雙塊式無砟軌道施工工藝
- 江蘇省南京市、鹽城市2023-2024學年高三上學期期末調研測試+英語+ 含答案
- 2024新版《藥品管理法》培訓課件
- 《阻燃材料與技術》課件 第7講 阻燃橡膠材料
- 爆炸物運輸安全保障方案
- 借名買車的協(xié)議書范文范本
- 江蘇省南京市2025屆高三學業(yè)水平調研考試數(shù)學試卷(解析版)
評論
0/150
提交評論