產(chǎn)品經(jīng)理-10分鐘帶你了解數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)中臺的區(qū)別與聯(lián)系(一)_第1頁
產(chǎn)品經(jīng)理-10分鐘帶你了解數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)中臺的區(qū)別與聯(lián)系(一)_第2頁
產(chǎn)品經(jīng)理-10分鐘帶你了解數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)中臺的區(qū)別與聯(lián)系(一)_第3頁
產(chǎn)品經(jīng)理-10分鐘帶你了解數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)中臺的區(qū)別與聯(lián)系(一)_第4頁
產(chǎn)品經(jīng)理-10分鐘帶你了解數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)中臺的區(qū)別與聯(lián)系(一)_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、10分鐘帶你了解數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)中臺的區(qū)別與聯(lián)系(一)作為一名數(shù)據(jù)小白,在日常講授和雜務(wù)工作中經(jīng)常會接觸到數(shù)據(jù)。隨著用戶數(shù)據(jù)與金融業(yè)務(wù)數(shù)據(jù)的不斷累加,數(shù)據(jù)管理與處理愈發(fā)重要。本篇文章中,無名氏將一文說明數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)中臺的區(qū)別與聯(lián)系。作為數(shù)據(jù)相關(guān)的產(chǎn)品小白,在日常學(xué)習(xí)工作中經(jīng)常能或者聽到大家在討論數(shù)據(jù)庫,數(shù)據(jù)倉庫,數(shù)據(jù)集市,數(shù)據(jù)庫數(shù)據(jù)湖還有最近比較火的數(shù)據(jù)中臺,似乎這些名詞都與數(shù)據(jù)存在著聯(lián)系,查閱各類相關(guān)書籍,大部分書籍中的內(nèi)容過于專業(yè)晦澀難懂。那么這結(jié)合我積累的相關(guān)方面知識,向大家介紹一下上述這些名詞的與聯(lián)系,以及在各類企業(yè)及業(yè)務(wù)范圍上的適用范圍,如有不準(zhǔn)確的地

2、方,希望大家進(jìn)行指正。相信大部分有些許技術(shù)背景的都對數(shù)據(jù)庫有一定的了解,數(shù)據(jù)庫是“按照數(shù)據(jù)結(jié)構(gòu)來組織、存儲和管理數(shù)據(jù)的倉庫”,一般分為“關(guān)系型數(shù)據(jù)庫”與“非關(guān)系型數(shù)據(jù)庫”。關(guān)系型數(shù)據(jù)庫實際上回顧過去的數(shù)據(jù)庫一共有三種模型,即層次模型,網(wǎng)狀模型,關(guān)系模型。(1)首先層次模型的數(shù)據(jù)結(jié)構(gòu)為樹狀結(jié)構(gòu),即是一種上下級的社團(tuán)組織層級關(guān)系組織數(shù)據(jù)的一種方式:(2)帶狀模型的數(shù)據(jù)結(jié)構(gòu)為網(wǎng)狀網(wǎng)狀結(jié)構(gòu),即將每個數(shù)據(jù)節(jié)點與其他很多節(jié)點都連接起來:(3)關(guān)系模型的數(shù)據(jù)結(jié)構(gòu)可以看做是一個二維表格,任何數(shù)據(jù)都可以通過行號與列號來唯一確定:最終基于關(guān)系型最后數(shù)據(jù)庫在各行各業(yè)應(yīng)用了起來。關(guān)系模型的數(shù)學(xué)方法第一卷涉及到關(guān)系,元

3、組,屬性,笛卡爾積域等等令人頭禿的高等數(shù)學(xué)術(shù)語,這里大家如果感興趣可以看看相關(guān)的文獻(xiàn),我就不放出來催眠大家了,盡管數(shù)學(xué)原理比較復(fù)雜,但如果用事務(wù)平時學(xué)習(xí)工作的具體事務(wù)舉例,就相對容易理解。我們以某公司的員工信息表為例,該公司的員工信息可以用一個表格存起來。并且定義如下:我們可以通過給定一個政府部門部門名稱,查到一條部門的記錄,根據(jù)部門ID,又可以記述查到該部門下的員工記錄,這樣三維的表格就通過ID映射建立了“一對多”的關(guān)系。常用的關(guān)系型數(shù)據(jù)庫有Oracle,MicrosoftSQLSever,MySQL,DB2。數(shù)據(jù)庫的語言基本上即便圍繞著“增刪改查”來進(jìn)行的,語法相對簡單,大家有興趣可以下載

4、MySQL自學(xué),網(wǎng)上有很多免費的資料。非關(guān)系型數(shù)據(jù)庫非關(guān)系型數(shù)據(jù)庫是以對象為單位的數(shù)據(jù)結(jié)構(gòu),非關(guān)系型數(shù)據(jù)庫通常指數(shù)據(jù)以對象的形式存儲在數(shù)據(jù)庫中,而對象之間的關(guān)系通過每個對象自身的屬性來決定。簡單來說非關(guān)系型數(shù)據(jù)庫與傳統(tǒng)的關(guān)系型數(shù)據(jù)庫的區(qū)別不同之處在于非關(guān)系型數(shù)據(jù)庫主要存儲沒有固定格式的超大規(guī)模數(shù)據(jù),例如鍵值對型,文檔型,列存儲類數(shù)據(jù),常見的由非關(guān)系型數(shù)據(jù)庫有Hbase,Redis,MongoDB,Neo4j等?,F(xiàn)在我們通常所說的數(shù)據(jù)庫指的是關(guān)系型數(shù)據(jù)庫,非關(guān)系型數(shù)據(jù)庫大家了解即可。例子隨著企業(yè)的發(fā)展,線上的業(yè)務(wù)系統(tǒng)隨著業(yè)務(wù)進(jìn)行會源源不斷的時會產(chǎn)生數(shù)據(jù),一般這些數(shù)據(jù)會存儲在我們企業(yè)的業(yè)務(wù)數(shù)據(jù)庫中

5、,也數(shù)據(jù)庫系統(tǒng)就是上面講到的關(guān)系型數(shù)據(jù)庫,當(dāng)然不同的企業(yè)使用的數(shù)據(jù)庫可能不盡相同例如上述的Oracle,MicrosoftSQLSever,MySQL等,但是底層的技術(shù)邏輯都大同小異,這些投資業(yè)務(wù)數(shù)據(jù)庫支撐著我們系統(tǒng)的正常運行。但是當(dāng)我們線上的業(yè)務(wù)系統(tǒng)運行一定時間后,最高層積壓的數(shù)據(jù)會越來越多,對知識庫我們的業(yè)務(wù)數(shù)據(jù)庫會產(chǎn)生一定的負(fù)載,導(dǎo)致我們業(yè)務(wù)管理系統(tǒng)的運行速度較慢,這些數(shù)據(jù)少部分中有很大一部分是冷數(shù)據(jù),因為業(yè)務(wù)系統(tǒng)一般對我們近期的一些數(shù)據(jù)比如當(dāng)天或一周內(nèi)這些數(shù)據(jù)調(diào)用比較頻繁,對極為早的數(shù)據(jù)調(diào)用的頻率就會須要很低。同時呢目前由于數(shù)據(jù)驅(qū)動業(yè)務(wù)概念的興起,各分析需要將業(yè)務(wù)系統(tǒng)的業(yè)務(wù)數(shù)據(jù)提取出來

6、進(jìn)行業(yè)務(wù)部門以便更好地進(jìn)行輔助決策,但各處室需求的數(shù)據(jù)種類千差萬別,接口錯綜復(fù)雜,過多的查詢腳本以及接口的接入導(dǎo)致業(yè)務(wù)數(shù)據(jù)庫的穩(wěn)定性降低。為了避免冷數(shù)據(jù)與歷史數(shù)據(jù)收集對我們業(yè)務(wù)數(shù)據(jù)庫產(chǎn)生的影響,妨礙我們業(yè)務(wù)的正常運行,企業(yè)需要定期將我們轉(zhuǎn)移數(shù)據(jù)從業(yè)務(wù)數(shù)據(jù)庫中冷出來存儲到一個專門存放歷史數(shù)據(jù)的倉庫里面,各單位可以根據(jù)需要進(jìn)行自身業(yè)務(wù)需要進(jìn)行數(shù)據(jù)抽取,這個倉庫就是數(shù)據(jù)倉庫。數(shù)據(jù)倉庫的特性結(jié)合上述例子,我們得出數(shù)據(jù)倉庫的以下特性:數(shù)據(jù)庫VS數(shù)據(jù)倉庫再深入一些,我們此時要引入兩個新的名詞OLTP(On-LineTransactionProcessing)聯(lián)機(jī)事務(wù)處理與OLAP(On-LineAnaly

7、ticalProcessing)聯(lián)機(jī)分析處理,乍聽兩個名詞感覺很高大上,我們此時要高度關(guān)注兩個六個單詞的區(qū)別,“Transaction”為事務(wù),業(yè)務(wù)。所以業(yè)務(wù)數(shù)據(jù)庫也就是我們之前講的關(guān)系型數(shù)據(jù)庫屬于OLTP類型,該類型側(cè)重于大體上的,日常的事務(wù)處理,是業(yè)務(wù)系統(tǒng)的“壓艙石”,維持正常運行,而“Analytical”則為分析,數(shù)據(jù)倉庫就屬于OLAP類型,該類型側(cè)重于繁復(fù)的分析,查詢操作,是業(yè)務(wù)系統(tǒng)的“船帆”,提供決策支撐。相信通過上述的案例,我們對數(shù)據(jù)倉庫有了大致的認(rèn)識,一個簡單的數(shù)據(jù)倉庫結(jié)構(gòu)如下圖示意圖所示,那么接下來我們講講數(shù)據(jù)倉庫的相關(guān)知識點:加載(1)extraction(抽?。┎皇撬谐?/p>

8、現(xiàn)在業(yè)務(wù)數(shù)據(jù)庫中的數(shù)據(jù)都需要抽取,抽取需要在調(diào)研發(fā)展階段做大量的工作,首先要搞清楚數(shù)據(jù)是從幾個業(yè)務(wù)系統(tǒng)中來,各個業(yè)務(wù)系統(tǒng)的數(shù)據(jù)庫服務(wù)器運行什么,是否存在手工數(shù)據(jù)且手工數(shù)據(jù)量多上大,是否存在但非結(jié)構(gòu)化的數(shù)據(jù),某些數(shù)據(jù)對于分析沒有任何不會價值,這類數(shù)據(jù)是否需要剔除,當(dāng)收集完這些信息之后才可以進(jìn)行數(shù)據(jù)抽取的設(shè)計。(2)Transformer(轉(zhuǎn)換)也就是數(shù)據(jù)的擦拭,數(shù)據(jù)倉庫分為兩部分,ODS(操作數(shù)據(jù)存儲)及DS(數(shù)據(jù)倉庫),通常的出自于做法是從業(yè)務(wù)系統(tǒng)到0DS做清洗,將臟數(shù)據(jù)與未必完整數(shù)據(jù)并不一定過濾掉,在從ODS到OW的過程中轉(zhuǎn)換,進(jìn)行一些管理業(yè)務(wù)規(guī)則的計算,聚合及數(shù)據(jù)轉(zhuǎn)換。a.數(shù)據(jù)清洗:業(yè)務(wù)系

9、統(tǒng)一ODS的過程,過濾那些不符合要求的數(shù)據(jù),將過濾行政主管的結(jié)果交給業(yè)務(wù)主管部門,確認(rèn)是否過濾掉還是由業(yè)務(wù)單位修正之后再進(jìn)行抽取。b.數(shù)據(jù)轉(zhuǎn)換:ODS-DS的過程,主要成功進(jìn)行不同維度的數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)顆粒度的延展,以及一些業(yè)務(wù)規(guī)則的計算結(jié)果。Load(加載)將清洗及轉(zhuǎn)換過的數(shù)據(jù)加載到數(shù)據(jù)倉庫,一般分為全量加載及增量加載。小結(jié):ETL是數(shù)據(jù)倉庫開發(fā)中最耗資源的一環(huán),因此該環(huán)節(jié)要整理各業(yè)務(wù)系統(tǒng)中雜亂無章的數(shù)據(jù),工作量很大,但也是搭建數(shù)據(jù)倉庫的最重要的環(huán)節(jié)。2.ODS操作數(shù)據(jù)存儲ODS(OperationDataStore)操作數(shù)據(jù)存儲在數(shù)據(jù)庫與數(shù)據(jù)倉庫之間形成一個隔離,其存在可以避免數(shù)據(jù)倉庫直接調(diào)

10、用業(yè)務(wù)數(shù)據(jù)庫的數(shù)據(jù),保持?jǐn)?shù)據(jù)在結(jié)構(gòu)上與業(yè)務(wù)數(shù)據(jù)庫一致,起到提高業(yè)務(wù)數(shù)據(jù)庫穩(wěn)定性,復(fù)雜性降低原始數(shù)據(jù)抽取復(fù)雜性的作用。鑒于ODS上述特點,數(shù)據(jù)會按照特定時間源源不斷源源不斷地載入ODS中,且一經(jīng)寫入的圖表不能被刪除,修改。所以為了提高ODS的運行效率,一般ODS會考慮使用分布式文件存儲系統(tǒng)。DM數(shù)據(jù)集市DM(DataMarket)數(shù)據(jù)集市是以某個業(yè)務(wù)應(yīng)用為出發(fā)點而建設(shè)的局部的數(shù)據(jù)倉庫,所以DM數(shù)據(jù)集市的特點在于結(jié)構(gòu)清晰,針對性強且可移植性良好,由于僅僅對某一個領(lǐng)域建立,容易維護(hù)修改。數(shù)據(jù)集市分為獨立數(shù)據(jù)集市與非獨立數(shù)字?jǐn)?shù)據(jù)集市,其中獨立數(shù)據(jù)集市有獨有的源與ETL架構(gòu)。而非獨立數(shù)據(jù)集市則沒有自己的

11、源數(shù)據(jù),全部數(shù)據(jù)位于數(shù)據(jù)倉庫,開發(fā)人員通過自主權(quán)的設(shè)置,為用戶提供面向其綜合型業(yè)務(wù)的數(shù)據(jù),該數(shù)據(jù)為數(shù)據(jù)倉庫的子集。對于管理上市公司的警務(wù)人員人員一般來說有兩種特征,開放性與有序性,創(chuàng)業(yè)公司的人思想往往極為開放,但運營管理大型公司的人更注重秩序,同理這個概念可以使用在如今的數(shù)據(jù)結(jié)構(gòu)中,開放意味著容易接受新信息以及接納新的觀點,創(chuàng)業(yè)開放性公司擁抱開放的原因他們必須學(xué)會打破常規(guī),在市場中創(chuàng)造新的價值。有序則指的業(yè)已是采取已證明是成功的模式,這通常意味著排除那些不太可能成功的想法和信息。1開放性f數(shù)據(jù)湖開放性的特征直接指向數(shù)據(jù)湖中的概念,數(shù)據(jù)湖是新數(shù)據(jù)可以不任何限制地進(jìn)入的地方,在這里,任何數(shù)據(jù)都可以存在,因此這里是察覺到新想法,用數(shù)據(jù)實驗絕妙來源,但同時因為其對任何數(shù)據(jù)的開放性,使得其缺乏有意義的構(gòu)造,對于數(shù)據(jù)量較大時,就顯得有些混亂了。2.有

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論