




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大魚競(jìng)技面試題什么是邏輯數(shù)據(jù)映射?它對(duì)ETL項(xiàng)目組的作用是什么?答:邏輯數(shù)據(jù)映射(LogicalDataMap)用來描述源系統(tǒng)的數(shù)據(jù)定義、目標(biāo)數(shù)據(jù)倉(cāng)庫(kù)的模型以及將源系統(tǒng)的數(shù)據(jù)轉(zhuǎn)換到數(shù)據(jù)倉(cāng)庫(kù)中需要做操作和處理方式的說明文檔,通常以表格或Excel的格式保存如下的信息:目標(biāo)表名:目標(biāo)列名:目標(biāo)表類型:注明是事實(shí)表、維度表或支架維度表。SCD類型:對(duì)于維度表而言。源數(shù)據(jù)庫(kù)名:源數(shù)據(jù)庫(kù)的實(shí)例名,或者連接字符串。源表名:源列名:轉(zhuǎn)換方法:需要對(duì)源數(shù)據(jù)做的操作,如Sum(amount)等。邏輯數(shù)據(jù)映射應(yīng)該貫穿數(shù)據(jù)遷移項(xiàng)目的始終,在其中說明了數(shù)據(jù)遷移中的ETL策略。在進(jìn)行物理數(shù)據(jù)映射前進(jìn)行邏輯數(shù)據(jù)映射對(duì)ETL項(xiàng)目組是重要的,它起著元數(shù)據(jù)的作用。項(xiàng)目中最好選擇能生成邏輯數(shù)據(jù)映射的數(shù)據(jù)遷移工具。在數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目中,數(shù)據(jù)探索階段的主要目的是什么?答:在邏輯數(shù)據(jù)映射進(jìn)行之前,需要首先對(duì)所有的源系統(tǒng)進(jìn)行分析。對(duì)源系統(tǒng)的分析通常包括兩個(gè)階段,一個(gè)是數(shù)據(jù)探索階段(DataDiscoveryPhase),另一個(gè)是異常數(shù)據(jù)檢測(cè)階段。數(shù)據(jù)探索階段包括以下內(nèi)容:收集所有的源系統(tǒng)的文檔、數(shù)據(jù)字典等內(nèi)容。收集源系統(tǒng)的使用情況,如誰在用、每天多少人用、占多少存儲(chǔ)空間等內(nèi)容。判斷出數(shù)據(jù)的起始來源(System-of-Record)。通過數(shù)據(jù)概況(DataProfiling)來對(duì)源系統(tǒng)的數(shù)據(jù)關(guān)系進(jìn)行分析。數(shù)據(jù)探索階段的主要目的是理解源系統(tǒng)的情況,為后續(xù)的數(shù)據(jù)建模和邏輯數(shù)據(jù)映射打下堅(jiān)實(shí)的基礎(chǔ)。如何確定起始來源數(shù)據(jù)?答:這個(gè)問題的關(guān)鍵是理解什么是System-of-Record。System-of-Record和數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域內(nèi)的其他很多概念一樣,不同的人對(duì)它有不同的定義。在Kimball的體系中,System-of-Record是指最初產(chǎn)生數(shù)據(jù)的地方,即數(shù)據(jù)的起始來源。在較大的企業(yè)內(nèi),數(shù)據(jù)會(huì)被冗余的保存在不同的地方,在數(shù)據(jù)的遷移過程中,會(huì)出現(xiàn)修改、清洗等操作,導(dǎo)致與數(shù)據(jù)的起始來源產(chǎn)生不同。起始來源數(shù)據(jù)對(duì)數(shù)據(jù)倉(cāng)庫(kù)的建立有著非常重要的作用,尤其是對(duì)產(chǎn)生一致性維度來說。我們從起始來源數(shù)據(jù)的越下游開始建立數(shù)據(jù)倉(cāng)庫(kù),我們遇到垃圾數(shù)據(jù)的風(fēng)險(xiǎn)就會(huì)越大。在ETL過程中四個(gè)基本的過程分別是什么?答:Kimball數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建方法中,ETL的過程和傳統(tǒng)的實(shí)現(xiàn)方法有一些不同,主要分為四個(gè)階段,分別是抽?。╡xtract)、清洗(clean)、一致性處理(comform)和交付(delivery),簡(jiǎn)稱為ECCD。1)抽取階段的主要任務(wù)是:讀取源系統(tǒng)的數(shù)據(jù)模型。連接并訪問源系統(tǒng)的數(shù)據(jù)。變化數(shù)據(jù)捕獲。抽取數(shù)據(jù)到數(shù)據(jù)準(zhǔn)備區(qū)。2)清洗階段的主要任務(wù)是:清洗并增補(bǔ)列的屬性。清洗并增補(bǔ)數(shù)據(jù)結(jié)構(gòu)。清洗并增補(bǔ)數(shù)據(jù)規(guī)則。增補(bǔ)復(fù)雜的業(yè)務(wù)規(guī)則。建立元數(shù)據(jù)庫(kù)描述數(shù)據(jù)質(zhì)量。將清洗后的數(shù)據(jù)保存到數(shù)據(jù)準(zhǔn)備區(qū)。3)一致性處理階段的主要任務(wù)是:一致性處理業(yè)務(wù)標(biāo)簽,即維度表中的描述屬性。一致性處理業(yè)務(wù)度量及性能指標(biāo),通常是事實(shí)表中的事實(shí)。去除重復(fù)數(shù)據(jù)。國(guó)際化處理。將一致性處理后的數(shù)據(jù)保存到數(shù)據(jù)準(zhǔn)備區(qū)。4)交付階段的主要任務(wù)是:加載星型的和經(jīng)過雪花處理的維度表數(shù)據(jù)。產(chǎn)生日期維度。加載退化維度。加載子維度。加載1、2、3型的緩慢變化維度。處理遲到的維度和遲到的事實(shí)。加載多值維度。加載有復(fù)雜層級(jí)結(jié)構(gòu)的維度。加載文本事實(shí)到維度表。處理事實(shí)表的代理鍵。加載三個(gè)基本類型的事實(shí)表數(shù)據(jù)。加載和更新聚集。將處理好的數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)。從這個(gè)任務(wù)列表中可以看出,ETL的過程和數(shù)據(jù)倉(cāng)庫(kù)建模的過程結(jié)合的非常緊密。換句話說,ETL系統(tǒng)的設(shè)計(jì)應(yīng)該和目標(biāo)表的設(shè)計(jì)同時(shí)開始。通常來說,數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)師和ETL系統(tǒng)設(shè)計(jì)師是同一個(gè)人。在數(shù)據(jù)準(zhǔn)備區(qū)中允許使用的數(shù)據(jù)結(jié)構(gòu)有哪些?各有什么優(yōu)缺點(diǎn)?答:1)固定格式的文本文件。(FlatFile)FlatFile指的是一種保存在系統(tǒng)上的一種文本文件格式,它
以類似數(shù)據(jù)庫(kù)的表的方式用行和列來保存數(shù)據(jù)。這種文件格式經(jīng)
常用來進(jìn)行數(shù)據(jù)交換。用于保存數(shù)據(jù)不太合適。2)XML數(shù)據(jù)集。多用于數(shù)據(jù)交換,用戶保存數(shù)據(jù)不太合適。3)關(guān)系數(shù)據(jù)庫(kù)的表。保存數(shù)據(jù)的較理想選擇。4)獨(dú)立的數(shù)據(jù)庫(kù)表。獨(dú)立的數(shù)據(jù)庫(kù)表一般指建立的表和其他表沒有外鍵約束關(guān)系。這樣的表多用于數(shù)據(jù)處理。5)三范式或者關(guān)系型模型。6)非關(guān)系型數(shù)據(jù)源。非關(guān)系型數(shù)據(jù)源一般包括COBOLcopybooks、VSAM文件、Flat文件、Spreadsheets等。7)維度模型。8)原子事實(shí)表和聚集事實(shí)表。9)代理鍵查找表。簡(jiǎn)述ETL過程中哪個(gè)步驟應(yīng)該出于安全的考慮將數(shù)據(jù)寫到磁盤上?答:Staging的意思就是將數(shù)據(jù)寫到磁盤上。出于安全及ETL能方便重新開始,在數(shù)據(jù)準(zhǔn)備區(qū)(StagingArea)中的每個(gè)步驟中都應(yīng)該將數(shù)據(jù)寫到磁盤上,即生成文本文件或者將建立關(guān)系表保存數(shù)據(jù),而不應(yīng)該以數(shù)據(jù)不落地方式直接進(jìn)行ETL。例如,在數(shù)據(jù)抽取階段,我們需要連接到源系統(tǒng),為了對(duì)源系統(tǒng)的影響盡量小,我們需要將抽取的數(shù)據(jù)保存成文本文件或者放入數(shù)據(jù)準(zhǔn)備區(qū)的表中,這樣,當(dāng)ETL過程出現(xiàn)錯(cuò)誤而失敗時(shí),我們就可以從這些文本文件開始ETL,而不需要再次影響源系統(tǒng)。簡(jiǎn)述異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)抽取技術(shù)。答:在數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目中,需要抽取的數(shù)據(jù)經(jīng)常來自不同的數(shù)據(jù)源,它們的邏輯結(jié)構(gòu)和物理結(jié)構(gòu)都可能不同,即稱之為異構(gòu)數(shù)據(jù)源。在對(duì)異構(gòu)數(shù)據(jù)源進(jìn)行整合抽取時(shí),我們需要做的事情依次是標(biāo)識(shí)出所有的源系統(tǒng),對(duì)源系統(tǒng)進(jìn)行概況分析,定義數(shù)據(jù)匹配邏輯,建立篩選規(guī)則,生成一致性維度。對(duì)于源數(shù)據(jù)的操作系統(tǒng)平臺(tái)和數(shù)據(jù)平臺(tái)各不相同的情況,我們需要根據(jù)實(shí)際情況來確定如何進(jìn)行數(shù)據(jù)抽取,通常的方法有建立ODBC連接、定義接口文件、建立DBLINK等方法。從ERP源系統(tǒng)中抽取數(shù)據(jù)最好的方法是什么?答:ERP系統(tǒng)的產(chǎn)生是為了解決企業(yè)內(nèi)異構(gòu)數(shù)據(jù)的整合。這個(gè)問題也是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)面臨的主要問題。ERP的解決方案是將企業(yè)內(nèi)的各個(gè)應(yīng)用(包括銷售、會(huì)計(jì)、人力資源、庫(kù)存和產(chǎn)品等)建立在相
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025內(nèi)蒙古森工集團(tuán)招聘高校畢業(yè)生50人(第一批)筆試參考題庫(kù)附帶答案詳解析
- 2025年農(nóng)村文化禮堂社區(qū)文化活動(dòng)效果評(píng)估與分析
- 消費(fèi)級(jí)電子產(chǎn)品市場(chǎng)推廣合作協(xié)議
- 四級(jí)軟件測(cè)試工程師考試全面提升法試題及答案
- java三五年經(jīng)驗(yàn)面試題及答案
- 理解2025年計(jì)算機(jī)四級(jí)數(shù)據(jù)庫(kù)工程師的考試試題及答案
- 2025企業(yè)借款合同協(xié)議如何編寫
- 文化和自然遺產(chǎn)數(shù)字化保護(hù)與利用的數(shù)字博物館建設(shè)策略研究
- 2025年生物質(zhì)能源在分布式能源系統(tǒng)中的分布式能源產(chǎn)業(yè)高質(zhì)量發(fā)展優(yōu)化
- 2025年教育產(chǎn)業(yè)并購(gòu)整合策略與教育投資并購(gòu)?fù)顿Y風(fēng)險(xiǎn)管理工具優(yōu)化報(bào)告
- 作文寫作(解析版)-2025年上海中考語文專項(xiàng)復(fù)習(xí)
- 2025年中國(guó)廣東省內(nèi)裝配式建筑行業(yè)市場(chǎng)發(fā)展監(jiān)測(cè)及投資戰(zhàn)略咨詢報(bào)告
- 2024年06月浙江浙江泰隆商業(yè)銀行社會(huì)招考筆試歷年參考題庫(kù)附帶答案詳解
- 勞動(dòng)爭(zhēng)議調(diào)解基礎(chǔ)知識(shí)
- 深度學(xué)習(xí)完整版本
- 農(nóng)業(yè)科技合資項(xiàng)目的成功要素探討
- 年產(chǎn)50萬噸水泥穩(wěn)定級(jí)配碎石及年產(chǎn)30萬噸瀝青混凝土拌合站項(xiàng)目環(huán)評(píng)資料環(huán)境影響
- 消防設(shè)施維護(hù)保養(yǎng)報(bào)價(jià)文件
- 【培訓(xùn)課件】管理溝通
- 餐廳新員工入職培訓(xùn)計(jì)劃
- 2024-2030年中國(guó)外資醫(yī)院行業(yè)發(fā)展現(xiàn)狀及投資管理模式分析報(bào)告
評(píng)論
0/150
提交評(píng)論