數(shù)據(jù)倉(cāng)庫(kù)技術(shù)及其演變_第1頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)技術(shù)及其演變_第2頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)技術(shù)及其演變_第3頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)技術(shù)及其演變_第4頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)技術(shù)及其演變_第5頁(yè)
已閱讀5頁(yè),還剩13頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)倉(cāng)庫(kù)技術(shù)及其演變第1頁(yè),共18頁(yè),2023年,2月20日,星期六原因精細(xì)化競(jìng)爭(zhēng)精準(zhǔn)用戶精準(zhǔn)定位資源分配、調(diào)度競(jìng)爭(zhēng)對(duì)手、外部情報(bào)速度客戶需求產(chǎn)品開發(fā)市場(chǎng)投放可用時(shí)間延長(zhǎng)不可用時(shí)間減少?gòu)?qiáng)度加大數(shù)據(jù)增長(zhǎng)來(lái)源的多樣化人工操作PC、手機(jī)生成機(jī)器生成數(shù)據(jù)的多樣化結(jié)構(gòu)化、半結(jié)構(gòu)、非結(jié)構(gòu)化數(shù)據(jù)第2頁(yè),共18頁(yè),2023年,2月20日,星期六原因數(shù)據(jù)量增長(zhǎng)每?jī)赡攴瑪?shù)據(jù)單位:G->T->P->E軟硬件技術(shù)進(jìn)步,價(jià)格降價(jià)需求帶來(lái)供給供給帶來(lái)新需求第3頁(yè),共18頁(yè),2023年,2月20日,星期六總體與OLTP共用到分離硬件使用方式不同處理能力有限從多處OLTP系統(tǒng)獲取數(shù)據(jù)未來(lái)會(huì)不會(huì)合?Hana等內(nèi)存數(shù)據(jù)庫(kù)云平臺(tái)OracleExaData一體機(jī)dw->dw2.0原因歷史數(shù)據(jù)管理企業(yè)精細(xì)化競(jìng)爭(zhēng)需求變化增加了半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)分交互層、集成層、近線層、離線層dw3.0什么樣?第4頁(yè),共18頁(yè),2023年,2月20日,星期六總體-DW架構(gòu)來(lái)自:/technetwork/cn/community/developer-day/1-edw-refer-architecture-case-454566-zhs.pdf第5頁(yè),共18頁(yè),2023年,2月20日,星期六總體-DW2.0來(lái)自:DW2.0–TheArchitecturefortheNextGenerationofDataWarehouse

第6頁(yè),共18頁(yè),2023年,2月20日,星期六總體集中式->分布式->云原因單機(jī)處理能力有限高可用應(yīng)用復(fù)雜挑戰(zhàn)多服務(wù)器協(xié)作跨服務(wù)器數(shù)據(jù)關(guān)聯(lián)單機(jī)不可靠云服務(wù)的遷移反向于集中式?云是否合適大數(shù)據(jù)?結(jié)構(gòu)化數(shù)據(jù)->半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)體量大(Volume)類型多樣化(Variety)*處理速度快(Velocity)價(jià)值密度低(Value)如何高效利用半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)?第7頁(yè),共18頁(yè),2023年,2月20日,星期六總體批處理->實(shí)時(shí)小時(shí)、天、周計(jì)算頻率到現(xiàn)在的分鐘、秒甚至毫秒主要用于決策到用于生產(chǎn)挑戰(zhàn)獲取數(shù)據(jù)與歷史數(shù)據(jù)集成、一致性、完整性異常處理提供高并發(fā)實(shí)時(shí)服務(wù)批處理、實(shí)時(shí)可不可以用一套框架處理?第8頁(yè),共18頁(yè),2023年,2月20日,星期六數(shù)據(jù)庫(kù)SMP->MPPSMP代表:oracle、db2、sqlserverMPP代表:teradata、greenplum、netezzaMPP->NoSQL集群擴(kuò)展能力有限對(duì)非結(jié)構(gòu)化數(shù)據(jù)支持不好引擎較單一NoSQL和MPP會(huì)不會(huì)融合到一起?RDBMS->專有數(shù)據(jù)庫(kù)圖數(shù)據(jù)庫(kù)、多維數(shù)據(jù)庫(kù)Hadoop優(yōu)點(diǎn)較早解決了利用PC服務(wù)器擴(kuò)展到上千臺(tái)服務(wù)器生態(tài)系統(tǒng)發(fā)展良好大量的使用第9頁(yè),共18頁(yè),2023年,2月20日,星期六數(shù)據(jù)庫(kù)缺點(diǎn)MR效率低復(fù)雜學(xué)習(xí)成本高穩(wěn)定性較差Spark優(yōu)點(diǎn)速度快高級(jí)API,開發(fā)效率高集成流式處理、數(shù)據(jù)挖掘、SQL缺點(diǎn)快速開發(fā)中復(fù)雜大數(shù)據(jù)框架的發(fā)展方向效率總體效率單機(jī)效率第10頁(yè),共18頁(yè),2023年,2月20日,星期六數(shù)據(jù)庫(kù)規(guī)范SQL事務(wù)JDBC、ODBC穩(wěn)定、易用降低安裝復(fù)雜度降低維護(hù)難度不可用時(shí)間減少大一統(tǒng)VS專業(yè)化大一統(tǒng)帶來(lái)易使用、易維護(hù)、規(guī)范化,同時(shí)特定應(yīng)用效率、成果會(huì)比較低專業(yè)化帶來(lái)更專業(yè)的處理方式,效率更高,同時(shí)部署、維護(hù)難度更大數(shù)據(jù)庫(kù)的發(fā)展方向大規(guī)模橫向擴(kuò)展半結(jié)構(gòu)、非結(jié)構(gòu)化數(shù)據(jù)支持與大數(shù)據(jù)架構(gòu)的配合數(shù)據(jù)庫(kù)配合使用第11頁(yè),共18頁(yè),2023年,2月20日,星期六數(shù)據(jù)庫(kù)-其他技術(shù)列式存儲(chǔ)只掃描相應(yīng)的列混合使用多種存儲(chǔ)介質(zhì)磁帶、光盤、HDD、SSD、內(nèi)存壓縮CPU換IO,大部分不是時(shí)間換空間分區(qū)LoadBitmap索引無(wú)主外鍵不記日志(弱日志)預(yù)統(tǒng)計(jì)(inforbrightknowledgegrid)部分信息統(tǒng)計(jì)后放入系統(tǒng)表,查詢直接走系統(tǒng)表還有哪些技術(shù)可以引入?第12頁(yè),共18頁(yè),2023年,2月20日,星期六Spark是未來(lái)嗎?第13頁(yè),共18頁(yè),2023年,2月20日,星期六ETL趨勢(shì)分析->生產(chǎn)應(yīng)用批處理->實(shí)時(shí)處理粗略->精準(zhǔn)單一類型->多種類型數(shù)據(jù)同時(shí)使用同時(shí)使用文本文件、專有格式文件、多種數(shù)據(jù)庫(kù)ETL工具專有工具,獨(dú)立服務(wù)器代表IBMDataStage、InformaticaPowerCenter、PentahoKettle優(yōu)點(diǎn)集成度高學(xué)習(xí)門檻低多種數(shù)據(jù)源協(xié)同工作缺點(diǎn)復(fù)雜問題靈活不夠單獨(dú)學(xué)習(xí)第14頁(yè),共18頁(yè),2023年,2月20日,星期六ETL演進(jìn)同數(shù)據(jù)庫(kù)路線類似SMP、MPPHA多種數(shù)據(jù)源混合使用ETL-數(shù)據(jù)倉(cāng)庫(kù)直接利用數(shù)據(jù)倉(cāng)庫(kù)的存儲(chǔ)與計(jì)算能力優(yōu)點(diǎn)學(xué)習(xí)成本低充分利用資源實(shí)現(xiàn)靈活缺點(diǎn)必須入庫(kù)才可操作調(diào)度等需要單獨(dú)開發(fā)與其他服務(wù)爭(zhēng)搶資源基于工具或數(shù)據(jù)倉(cāng)庫(kù),哪種方式在大數(shù)據(jù)處理方面占優(yōu)勢(shì)?第15頁(yè),共18頁(yè),2023年,2月20日,星期六BI第三方開發(fā)->自服務(wù)工具更容易使用用戶要求響應(yīng)時(shí)間更短PC->移動(dòng)一切前端應(yīng)用移動(dòng)化BI工具M(jìn)OLAP生成Cube文件,需要獨(dú)立服務(wù)器代表IBMcognos、SAPBO、oracleBIEE、tableau優(yōu)缺點(diǎn)同ETL工具自帶數(shù)據(jù)集市專有格式->通用格式專有服務(wù)器->通用服務(wù)器我們需要什么樣的BI?第16頁(yè),共18頁(yè),2023年,2月20日,星期六數(shù)據(jù)挖掘完整工具->類庫(kù)工具:SAS、SPSS類庫(kù):ApacheMahour、ApacheSparkMllib\GraphX專有語(yǔ)言->通用語(yǔ)言專有語(yǔ)言:SAS、R通用:Python我們?nèi)绾芜M(jìn)行數(shù)據(jù)挖掘?第17頁(yè),共18頁(yè),2023年,2月20日,星期六硬件小機(jī)+盤陣->PCServer->云SMP結(jié)構(gòu)是小型機(jī)+盤陣MPP也是多臺(tái)小型機(jī)+盤陣Hadoop、Spark等使用PC服務(wù)器、云CPU摩爾定律綠色化

HDD->SSD->MemoryHDD存儲(chǔ)在線;磁帶存儲(chǔ)離線數(shù)據(jù)HDD存儲(chǔ)順序訪問、速度慢;隨機(jī)訪問且要求高的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論