![the data warehouse in age of digital transformation數(shù)字化轉(zhuǎn)型時代的數(shù)據(jù)倉庫_第1頁](http://file4.renrendoc.com/view/2a24c703404b1057179974bb4a70a14d/2a24c703404b1057179974bb4a70a14d1.gif)
![the data warehouse in age of digital transformation數(shù)字化轉(zhuǎn)型時代的數(shù)據(jù)倉庫_第2頁](http://file4.renrendoc.com/view/2a24c703404b1057179974bb4a70a14d/2a24c703404b1057179974bb4a70a14d2.gif)
![the data warehouse in age of digital transformation數(shù)字化轉(zhuǎn)型時代的數(shù)據(jù)倉庫_第3頁](http://file4.renrendoc.com/view/2a24c703404b1057179974bb4a70a14d/2a24c703404b1057179974bb4a70a14d3.gif)
![the data warehouse in age of digital transformation數(shù)字化轉(zhuǎn)型時代的數(shù)據(jù)倉庫_第4頁](http://file4.renrendoc.com/view/2a24c703404b1057179974bb4a70a14d/2a24c703404b1057179974bb4a70a14d4.gif)
![the data warehouse in age of digital transformation數(shù)字化轉(zhuǎn)型時代的數(shù)據(jù)倉庫_第5頁](http://file4.renrendoc.com/view/2a24c703404b1057179974bb4a70a14d/2a24c703404b1057179974bb4a70a14d5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
觀點:過去幾大數(shù)據(jù),Hadoop和Spark,作為大規(guī)模數(shù)據(jù)管理和分析平臺,獲得了最多關(guān)注。而基于關(guān)系型數(shù)據(jù)庫技術(shù)的數(shù)據(jù)倉庫,則由于,經(jīng)受審視,如同或?qū)⒉辉傩枰?。但最近用戶開始,數(shù)據(jù)倉庫使命的重要性,一如既往。過往推定的數(shù)據(jù)倉庫在成本和運維方面的實時(技術(shù)角度而言,“近實時”)收集數(shù)據(jù)并作出響應,顯然在取代過往的分析節(jié)奏,這是一種更具互動性、臨時性、甚至思考性(“我看到的這些分析的背后,發(fā)生了什么?”)分析。這種對非常式處理模型(如Hadoop和Spark)的發(fā)展。數(shù)字化,將分析融入運營,嚴重依賴即刻法。在Hadoop之前,數(shù)據(jù)倉庫是唯一用于分析的數(shù)據(jù)匯集點,集成和治理了多數(shù)內(nèi)部數(shù)據(jù)源。一些數(shù)據(jù)倉庫的部署中,也集成了第數(shù)據(jù),特別是金融服務(wù)數(shù)據(jù)、制藥數(shù)據(jù)、零售數(shù)據(jù),甚至有關(guān)經(jīng)濟和人口普查信息的數(shù)據(jù)。但數(shù)據(jù)倉庫主要用于企業(yè)領(lǐng)域建模,并從“后”各個系統(tǒng)(如和ERP系統(tǒng))中獲取數(shù)據(jù)。其他科技都不具備如此有效的集成技術(shù)。數(shù)據(jù)倉庫不僅只數(shù)據(jù),還被用于支撐非常多種應用,包括將數(shù)據(jù)分發(fā)至其他系統(tǒng),其中主要是分析和BI工具。與關(guān)系型數(shù)據(jù)庫過去所做的一樣,Hadoop和Spark(嚴格來說不是Hadoop,而是一個獨立的Apache字化的獨特業(yè)務(wù)價值。即刻法(Instantology)是我們發(fā)明的詞匯,在此用于描述當前對實時流式數(shù)據(jù)和實時的關(guān)注例子,通用汽車公司在墨西哥銷售雪佛蘭(Nova)時察覺,西班牙語中“(Nova)”的意思是與,新臺起是Hp和k,些疑之來數(shù)PBcan)seane這些直存在爭議的問題。在本白皮書曾經(jīng),擁有一個由文員輸入新信息或修改信息的工資系統(tǒng),并無不妥?;蛟S工資報告可以每月提供一 數(shù)字化不是一個新詞。上世紀90年代,它被用于描述ERP和系統(tǒng)熱潮。今天,它的含義未變,只是技術(shù)已變。數(shù)字化,是一個隨應用不同而變化的含義廣范的詞匯。但整體而言,它意味或Excel,可將數(shù)據(jù)從數(shù)據(jù)倉庫提取出來。但現(xiàn)在事態(tài)已變:“即刻法”已興起。分析解決方案,主要是ETL、數(shù)據(jù)倉庫和BI工具,無法應對數(shù)字化伴生的數(shù)據(jù)流轉(zhuǎn)速度和容量要求。內(nèi)部運營系統(tǒng)數(shù)據(jù)的,整潔、治理良好的數(shù)據(jù)庫。這樣做的主要動機,是讓(IT部門內(nèi)部)開發(fā)人員更輕松地獲取報告數(shù)據(jù),進而減IT部門的報告請求積壓。這些早期嘗試,發(fā)生在八十年代末至九十可的,這造成了很。但不久之后,許多組織,數(shù)據(jù)倉庫應是按業(yè)務(wù)領(lǐng)域精心設(shè)計的企業(yè)數(shù)據(jù)倉庫主要參考架構(gòu)之一,是企業(yè)信息工廠(CorporateInformationFactory)。如您所見,它包含顯然,數(shù)據(jù)庫技術(shù)需得到增強,才可應對數(shù)據(jù)倉庫工作負載,其使用特征與OLTP系統(tǒng)完全不同。現(xiàn)考量必須放在首位。如今,200節(jié)點和2000多構(gòu)成的群集很常見。這意味著,必須具備無縫集成Hadoop、云數(shù)據(jù)庫和其他新興數(shù)據(jù)平臺的能力。這些數(shù)據(jù)源以滿足查詢的能力,現(xiàn)在是一項人類未能改變?nèi)魏挝锢矶梢匀菁{大數(shù)據(jù)。一個數(shù)據(jù)倉庫應無縫連接許多數(shù)據(jù)源(例如Hadoop和云數(shù)據(jù)庫)以數(shù)據(jù),來處理針對過整理和治理的非結(jié)構(gòu)化數(shù)據(jù)的查詢。例如,一個數(shù)據(jù)倉庫的模式(schema),可包含實際存于數(shù)據(jù)庫內(nèi)的數(shù)據(jù),但當中間件連接外部數(shù)據(jù)源時,一個針對此模式(schema)的查詢?nèi)钥杀粓?zhí)行。該數(shù)據(jù)倉庫可提供全部所需服務(wù),例如:/基于模型而不僅是sharding的大規(guī)模并行處理ANSISQL虛擬數(shù)據(jù)倉庫方案的一大優(yōu)勢,在于查詢對下游進程(如BI應用)是透明的。它為數(shù)據(jù)定位提供了靈據(jù)來BitYotaPoulomiDamany2,新數(shù)據(jù)倉庫必須支持異構(gòu)數(shù)據(jù)發(fā)現(xiàn)以供分析,而無需先對數(shù)據(jù)進行標準化、和建模。分析人員可以提出智能問題——使用多值、多條件和多范圍——對所有這些非標準化、未定義的數(shù)據(jù),以理解這些數(shù)據(jù)的真實性質(zhì)和價值。,才能設(shè)計模型/模式以生成KPI和相關(guān)報告。/business-inligence/5-ways-data-warehousing-is-行時。(若解決方案能應對受限的I/O和片狀網(wǎng)絡(luò),會額外加分。)換言之,數(shù)據(jù)倉庫既需修正其原始概念,也需攝取乍看之下似乎屬Hadoop/Spark世界的數(shù)據(jù)。數(shù)據(jù)似乎本應屬Hadoop的數(shù)據(jù),是一個不錯的設(shè)計方案。如果文件中數(shù)據(jù)是“熱的”,意味著必須及時滿足頻繁所需數(shù)據(jù),這種方案可能合適。其他數(shù)據(jù)倉庫部署雜糅了從未使用的數(shù)據(jù),則可將其移到Hadoop或云庫中的“冷”中。所有這些最佳實踐才剛剛出現(xiàn)。 數(shù)據(jù)庫內(nèi)分析和數(shù)據(jù)科學庫。替代方案是Hadoop或云庫上運行機器學習算法,但需將數(shù)字化并非僅僅事關(guān)“利用科技”的又一詞匯。是“”。數(shù)字科技如何改變了我們的生活方式,組織運作的方式,甚至如何讓教育機構(gòu)重塑自我?請容我:擁有大量數(shù)據(jù),包括流式和存好的數(shù)據(jù),并不能幫您了解您做得如何,什么有效,什么無效以及采取何種措施。人們的各種問題(查詢)很復雜,而一個指向一大堆無序數(shù)據(jù)的簡單SQL引擎,將是無濟于事的。產(chǎn)品演示通制定決策:Hadoop/SparkIO聽聞Hop,通常是過在室網(wǎng)分的臺子真引他注的成。起初,實施Hop把量便的務(wù)和一,軟則源“費的關(guān)型據(jù)通部Hop開,Hdop開供支的業(yè)”其與,庫商HopT)Hop/prk問題來了,為什么不在Hadoop中數(shù)據(jù)呢?事實上,數(shù)據(jù)倉庫還執(zhí)行許多更重要的功能。它是集復雜分析和模型處理。因其關(guān)系型特性,它在原子級別和處理數(shù)據(jù)。Hadoop文件系統(tǒng)(HDFS),和云數(shù)據(jù)庫將數(shù)據(jù)為文件,因此對這些文件的內(nèi)容進行操作,需執(zhí)行分解工作,進而將現(xiàn)今數(shù)據(jù)科學和人工智能獲得許多關(guān)注,同時組織依然必須為滿足和要求,為準備報稅,Hdoop的文件結(jié)構(gòu)不支持這種“單一版本”因其少成關(guān)系數(shù)庫的多特。我需評QL引擎,以及”QLHdopQL要回答“為什么不在Hadoop中數(shù)據(jù)倉庫數(shù)據(jù)”的問題,部分答案如下無公有云或混合云上運行。Hadoop的成本優(yōu)勢已然下降,因為企業(yè)不滿足于使用廉價硬件,而這恰是造就Hadoop價格優(yōu)勢的因一,并且Hadoop軟件和分銷商支持服務(wù)的成本超出“簡單T)例,一人壽公,據(jù)庫理來二不內(nèi)系的數(shù)。數(shù)倉中提數(shù)供估系,系基利假、和數(shù)生大現(xiàn)流息在一例中源數(shù)次值算精時序現(xiàn)流分后于成付力告其要的PivotalGreenplum組、房地產(chǎn)和項目財務(wù)以及企業(yè)。它還設(shè)有和固定收益部門。作為,關(guān)注風險是持計算風險會生成數(shù)十億個需整合的數(shù)據(jù)點,而其數(shù)據(jù)量每天可能超過1TB。所有這些數(shù)據(jù)都必須存儲10年,且收到方24小時內(nèi)需可恢復。風險報告既須準確,也要及時。若銀行向供了確報告,則方可作出直接影響業(yè)務(wù)的決策。例如,美聯(lián)儲可根據(jù)一家銀行的風險,控制極度波動,有時是正常量的兩到四倍。若此期間銀行的風險報告系統(tǒng),可危及銀行一整年的現(xiàn)存系統(tǒng)無力可靠應對和內(nèi)部分析需求,皆因受累于老舊系統(tǒng)失效,數(shù)據(jù)量近400億行,及每天數(shù)千復雜報告。因此,客戶決定更新架構(gòu)以降低基礎(chǔ)架構(gòu)成本,更好地滿足既定SLA,更高效率地滿在實施PivotalGreenplum數(shù)據(jù)庫后,他們能捕獲每筆,數(shù)據(jù)庫內(nèi)累積400億行數(shù)據(jù),且分析師可分析不同場景,最終做出更好的知情決策。先前的系統(tǒng),只有60%時間里能達到SLA。新系統(tǒng)則幾近使用Greenplum,此銀行可捕獲其多達數(shù)百的所有柜臺的每筆。他們能整合并對數(shù)十億行數(shù)據(jù)進行計算,每天生產(chǎn)2000億場景結(jié)果(輸出)。該銀行的風險管理人員切實受益。IT能更快地提供報告給風險管理人員:日報所需的小時數(shù)減少,周報所需的天數(shù)減少。Greenplum還支持數(shù)千使用各種工具的風險用戶,這些工具包括PL語言、Excel、Tableau和基于SQL的專有報告工具。人壽公司的方主要關(guān)注償付能力。由于壽險公司通常簽訂幾十年后才到期的合約,細監(jiān)督公司業(yè)務(wù)實踐、投資組合和行為,至關(guān)重要。這家人壽公司由于幾點原因,引起了監(jiān)10歲以許量行別。但要家面估 方要求每季度提供上述結(jié)果,直到來年底,共約18 專門負責滿足這些要求的精算部門,遇到了幾個問題。當前流程高度依賴手工操作,從20多個源系統(tǒng)提取數(shù)據(jù),其中很多系統(tǒng)數(shù)據(jù)質(zhì)量很差。該部門精算師費力地使用COBOL、Fortran、APL、Easytrieve等過時工具獲取數(shù)據(jù),然后嘗試手工整理為電子表格。完成一次非逐一估值耗費五個月,故而找到案,每三個月生成一次全面逐一估值,似乎不可能。因此類本不應由精通精算科?了一個ETL/數(shù)據(jù)倉庫/BI平臺。他們將數(shù)據(jù)倉庫與第估值工具緊密集成,實現(xiàn)了:所有關(guān)于經(jīng)驗、到期、利率風險等的高級研究,都可輕松使用BI工具生成,因為關(guān)系型數(shù)據(jù)庫模倉庫,在那里可以輕松執(zhí)行混合情景和假設(shè)(whatif)分析。對數(shù)據(jù)信心的提升,促使釋放了2000萬緊急關(guān)頭過后,該組織尋求應用技術(shù)和方法的其它方式。在實施階段偏安配角IT部門,接手了數(shù)據(jù)倉庫,并決意整合其他“數(shù)字化”方面的驅(qū)動力。他們決定將該數(shù)據(jù)倉庫改建為他們的“標準”數(shù)據(jù)庫,這暫時擾動了所有上游和下游工作進程,但一年內(nèi)他們就實現(xiàn)了與一個數(shù)據(jù)倉庫肩并肩的Hadoop系統(tǒng)。精算師可先前數(shù)據(jù)倉庫中不具備的大量外部數(shù)據(jù),能夠在產(chǎn)品設(shè)計、定價和承保數(shù)字化在兩方面讓該公司受益。其一,通過滿足方要求,真正挽救了公司。意料外的受益,是減少了精算部門的人員流動率。其二,建立了數(shù)據(jù)倉庫同Hadoop裝
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2030年中國SC型適配器數(shù)據(jù)監(jiān)測研究報告
- 英語借款合同
- 拆遷房屋租賃合同書
- 終止勞動合同的證明書
- 房地產(chǎn)借款合同書
- 二零二五年度爆破拆除施工現(xiàn)場管理包清工施工合同
- 處理房屋漏水協(xié)議書
- 債務(wù)擔保合同
- 二手房買賣合同標準
- 2025年濟南貨運資格證的答案
- 中國太陽能光電建筑行業(yè)現(xiàn)狀調(diào)研分析及市場前景預測報告(2024版)
- 關(guān)于防范遏制礦山領(lǐng)域重特大生產(chǎn)安全事故的硬措施課件
- 2025年中國成都餐飲業(yè)市場運營態(tài)勢分析及投資前景預測報告
- 2024年榆林職業(yè)技術(shù)學院高職單招職業(yè)適應性測試歷年參考題庫含答案解析
- 2025年春新外研版(三起)英語三年級下冊課件 Unit3第1課時startup
- (教研室)2023屆山東省德州市、煙臺市高考一模地理試題 附答案
- 《河南民俗文化》課件
- 康復健康小屋課件
- 八年級上冊英語完形填空、閱讀理解綜合訓練100題-含參考答案
- 項目合作備忘錄范文
- 2024年事業(yè)單位租車服務(wù)滿意度調(diào)查及改進協(xié)議3篇
評論
0/150
提交評論