




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
AllibabaGroup阿里巴巴集團(tuán)開篇4AI加持的阿里云飛天大數(shù)據(jù)平臺技術(shù)揭秘4計算存儲引擎飛天大數(shù)據(jù)平臺計算引擎MaxCompute最新特性飛天大數(shù)據(jù)平臺E-MapReduce4.0最新特性43大數(shù)據(jù)&AI開發(fā)平臺55飛天大數(shù)據(jù)平臺智能開發(fā)云平臺DataWorks最新特性55飛天大數(shù)據(jù)平臺機(jī)器學(xué)習(xí)PAI最新特性搜索與推薦88飛天大數(shù)據(jù)平臺OpenSearch最新特性88飛天大數(shù)據(jù)平臺Elasticsearch最新特性101飛天大數(shù)據(jù)平臺智能推薦AIRec最新特性110AI加持的阿里云飛天大數(shù)據(jù)平臺技術(shù)揭秘里云智能計算平臺事業(yè)部研究員關(guān)濤、資深專家徐晟來為我們分享《AI加持的阿里云飛天大數(shù)據(jù)平臺技術(shù)揭秘》。本文主要講了三大部分,一是原創(chuàng)技術(shù)優(yōu)化+系統(tǒng)融合,打破了數(shù)據(jù)增長和成本增長的線性關(guān)系,二是從云原生大數(shù)據(jù)平臺到全域云數(shù)倉,阿里開始從原生系統(tǒng)走入到全域系統(tǒng)模式,三是大數(shù)據(jù)與AI雙生系統(tǒng),講如何更好的支撐AI系統(tǒng)以及通過AI系腦、數(shù)字政府、電力、金融、新零售、智能制造、智慧農(nóng)業(yè)等各領(lǐng)域大家知道飛天大數(shù)據(jù)平臺是從2009年發(fā)展到今天的系統(tǒng)。飛天平臺從發(fā)展的角度來講經(jīng)歷了2個階段,第一個階段是從2009年到2015年,那個階段我們主要解決的是穩(wěn)定性問題、可用的問題和異用的問題,從這個角度,到2015年的時候我們完成了一個非常有名的項目叫登月,登月就是把阿里巴巴所有的數(shù)據(jù)都融合在一起放到那個平臺上,我們構(gòu)建了中臺體系,在那個時候阿里巴巴的數(shù)據(jù)進(jìn)入到騰飛的過程,每月大概是幾百個PB的數(shù)據(jù)涌入到這樣的平臺里來,那個時候的數(shù)據(jù)比較小,大概是數(shù)千臺的服務(wù)器、幾百個基架的狀態(tài)。當(dāng)時每個月就會有那么多的服務(wù)器開始擺進(jìn)來,從2015年開始,也就是從海量的數(shù)據(jù)爆炸開始,系統(tǒng)走過這個穩(wěn)定時期之在2015年的時候,我們開始關(guān)注到數(shù)據(jù)的海量增長對系統(tǒng)帶來了越來越高的要據(jù)在做支撐,阿里小蜜客服系統(tǒng)有20個PB,大家每天在淘寶上日常使薦系統(tǒng),后臺要超過100個PB的數(shù)據(jù)來支撐后臺的決策,10倍到100倍的數(shù)據(jù)增長是非常常見的。從這個角度上來講,10倍的數(shù)據(jù)增長通常意味著什么問題?可能需要30倍彈性要求;第二,實際上因為人工智能的興起,二維結(jié)構(gòu)性的關(guān)系型數(shù)據(jù)持續(xù)性增長的同時,帶來的是非結(jié)構(gòu)化數(shù)據(jù),這種持續(xù)的數(shù)據(jù)增長里面,一半的增長來自于這種非結(jié)構(gòu)化數(shù)據(jù),我們除了能夠處理好這種二維的數(shù)據(jù)化之后,我們?nèi)绾蝸碜龊枚喾N數(shù)據(jù)融合的計算?第三,阿里有一個龐大的中臺團(tuán)隊,如果說我們的數(shù)關(guān)系復(fù)雜度也超過了10倍,那么人工的成本是不是也超過了10倍以上,我們的飛 當(dāng)阿里巴巴的大數(shù)據(jù)走過10萬臺規(guī)模的時候,我們已經(jīng)走入到技術(shù)的無人區(qū),這樣的挑戰(zhàn)絕大多數(shù)公司不一定能遇到,但是對于阿里巴巴這樣的體量來講,這個挑大家可以看到,2015年的時候,我們整個的體系建立起來之后,就開始做各種各樣的Benchmark,比如2015年100TB的Sorting,2016年我們做Cloud-Sort,去看性價比,2017年我們選擇了Big2017、2018和2019年,每年都有一倍的性能提升,同時我們在30TB的規(guī)模上比第二名的產(chǎn)品有一倍的性能增長,并且有一半的成本節(jié)省,這是我們的計算力持續(xù)上那么,計算力持續(xù)升級是如何做到的?如圖是我們經(jīng)常用到的系統(tǒng)升級的三角理論,最底層的計算模型是高效的算子層和存儲層,這是非常底層的基礎(chǔ)優(yōu)化,往上面要找到最優(yōu)的執(zhí)行計劃,也就是算子組合,再往上是新的方向,即怎么做到動態(tài)調(diào)整我們先來看單一算子和引擎框架的極致優(yōu)化,我們用的是比較難寫難維護(hù)的框架,但是因為它比較貼近物理硬件,所以帶來了更極致的性能追求。對于很多系統(tǒng)來說可能5%的性能提升并不關(guān)鍵,但對于飛天技術(shù)平臺來講,5%的性能提升就是5千臺的規(guī)模,大概就是2~3億的成本。如圖做了一個簡單的小致優(yōu)化,在shuffle子場景中,利用Non-temporalStore優(yōu)化shuffling中的緩存的壓縮能力,數(shù)據(jù)增長最直接的成本就是存儲成本的上升,我們怎么做更好的壓縮和編碼以及indexing?這是一四象限做的相關(guān)工作;二三象限是在性能節(jié)省上做的相關(guān)工作,我們存儲層其實是基于開源ORC的標(biāo)準(zhǔn),我們在上面做了非常多的改進(jìn)和優(yōu)化,其中白框里面都有非常多的標(biāo)準(zhǔn)改動,我們讀取性能對比開源JavaORC均快50%,我們是ORC社區(qū)過去兩年最大貢獻(xiàn)者,貢獻(xiàn)了2W+行代碼,這是我們在 8>AI加持的阿里云飛天大數(shù)據(jù)平但是從另外一個層面上來講,單一的算子和部分的算子組合很難滿足部分的場景需求,所以我們就提到靈活的算子組合。舉幾個數(shù)字,我們在Join上有4種模式,有3種Shuffling模式提供,有3種作業(yè)運行模式,有多種硬件支持。圖右是怎樣去動態(tài)判別Join模式,使得運算效率更高。通過這種動態(tài)的算子考慮如何用人工智能及自學(xué)習(xí)技術(shù)來做大數(shù)據(jù)系統(tǒng),大家可以想象學(xué)騎自行車,剛開始騎得不好,速度比較慢甚至有的時候會摔倒,通過慢慢的學(xué)習(xí),人的能力會越來越好。對于一個系統(tǒng)而言,我們是否可以用同樣的方式來做?當(dāng)一個全新的作業(yè)提交到這個系統(tǒng)時,系統(tǒng)對作業(yè)的優(yōu)化是比較保守的,比如稍微多給一點資源,那么我選擇的執(zhí)行計劃會相對比較保守一點,使得至少能夠跑過去,當(dāng)跑過之后就能夠搜集到信息和經(jīng)驗,通過這些經(jīng)驗再反哺去優(yōu)化數(shù)據(jù),所以我們提出一個基于歷史信息的自學(xué)習(xí)回歸優(yōu)化,底層是如圖的架構(gòu)圖,我們把歷史信息放在OFFLINEsystem去做各種各樣的統(tǒng)計分析,當(dāng)作業(yè)來了之后我們把這些信息反哺到系統(tǒng)之中去,讓系統(tǒng)進(jìn)行自學(xué)習(xí)。通常情況下,一個相似的作業(yè)大概跑了3到較優(yōu)的過程,優(yōu)指的是作業(yè)運行時間和系統(tǒng)資源節(jié)省。這套系統(tǒng)大概在阿里內(nèi)部3年前上線的,我們通過這樣的系統(tǒng)把阿里的水位線從40%提升到70%以上。另外圖中右側(cè)也是一個自學(xué)習(xí)的例子,我們怎么區(qū)分熱數(shù)據(jù)和冷數(shù)據(jù),之前可以讓用戶自己去set,可以用一個普通的configuration去配置,后來發(fā)現(xiàn)我們采用動態(tài)的根據(jù)作業(yè)方式來做,效果會更好,這個技術(shù)是去年上線的,去年為阿里節(jié)約了1化又帶來了用戶成本的降低,在2019年9月1號,飛天大數(shù)據(jù)平臺的整體存儲成本降低了30%,同時我們發(fā)布了基于原生計算的新規(guī)格,可以實現(xiàn)最高70%的成以上都是在引擎層面的優(yōu)化,隨著AI的普惠優(yōu)化,AI的開發(fā)人員會越來越多,甚至很多人都不太具備代碼的能力,阿里內(nèi)部有10萬名員工,每天有超過1萬個員工在飛天大數(shù)據(jù)平臺上做開發(fā),從這個角度上來講,不僅系統(tǒng)的優(yōu)化是重要的,平臺 計算引擎對大家來說看不見摸不著,我們要去用它肯定希望用最簡單的方式,先來看一下Maxcompute計算引擎。首先我們需要有用戶,用戶怎么來使用?需要資源隔離,也就是說每個用戶在系統(tǒng)上面使用的時候會對應(yīng)著賬號,賬號會對應(yīng)著權(quán)限,這樣就把整套東西串聯(lián)起來。今天我的用戶怎么用?用哪些部分?這是第一部分。第二部分是開發(fā),開發(fā)有IDE,IDE用來寫代碼,寫完代碼之后提交,提交之后存在一個調(diào)度的問題,這么多的資源任務(wù)順序是什么?誰先誰后,出了問題要不要中斷,這些都由調(diào)度系統(tǒng)來管,我們的這些任務(wù)就有可能在不同的地方來運行,可以通過數(shù)據(jù)集成把它拉到不同的區(qū)域,讓這些數(shù)據(jù)能夠在整個的平臺上跑起來,我們所有的任務(wù)跑起來之后我們需要有一個監(jiān)控,同時我們的operation也需要自動化、運維化,再往下我們會進(jìn)行數(shù)據(jù)的分析或者BI報表之類的,我們也不能夠忘記machinelearning也是在我們的平臺上集成起來的。最后,最重要的就是數(shù)據(jù)安全,這一塊整個東西構(gòu)起一個大數(shù)據(jù)引擎的外沿+大數(shù)據(jù)引擎2018年的時候我們做什么?2018年我們在單引擎的基礎(chǔ)上對接到多引擎,我們整個開發(fā)鏈路要讓它閉環(huán)化,數(shù)據(jù)集成可以把數(shù)據(jù)在不同的數(shù)據(jù)源之間進(jìn)行拖動,我們把數(shù)據(jù)開發(fā)完之后,傳統(tǒng)的方式是再用數(shù)據(jù)引擎把它拖走,而我們做的事情是希望這個數(shù)據(jù)是云上的服務(wù),這個服務(wù)能夠直接對用戶提供想要的數(shù)據(jù),而不需要把數(shù)據(jù)整個拖走,因為數(shù)據(jù)在傳輸過程中有存儲的消耗、網(wǎng)絡(luò)的消耗和一致性消耗,所有的這些東西都在消耗用戶的成本,我們希望通過數(shù)據(jù)服務(wù)讓用戶拿到他想要的東西。再往下,如果數(shù)據(jù)服務(wù)之上還有自定義的應(yīng)用,用戶還需要去建一個機(jī)房,搭一個web服務(wù),然后把數(shù)據(jù)拿過來,這樣也很麻煩,所以我們提供一個托管的web應(yīng)用的云上開發(fā)平臺,能夠讓用戶直接看到所有的數(shù)據(jù)服務(wù),在這個方向上來說,我們就到2019年,我們會把理念再拓展一層,首先對于用戶來說是用戶交互層,但是用戶的交互層不僅僅是開發(fā),所以我們會把用戶分成兩類,一部分叫做數(shù)據(jù)的生產(chǎn)者,也就是寫任務(wù)、寫調(diào)度、運維等,這些是數(shù)據(jù)的生產(chǎn)者,數(shù)據(jù)的生產(chǎn)者做好的東西給誰呢?給數(shù)據(jù)的消費者,我們的數(shù)據(jù)分散在各個地方,所有的東西都會在治理的交互層對數(shù)據(jù)的消費者提供服務(wù),這樣我們就在一個新的角度來詮釋飛天大數(shù)據(jù)平臺。除了引擎存儲以外,我們有全域的數(shù)據(jù)集成進(jìn)行拉動,統(tǒng)一的調(diào)度可以在不同的引擎之間來切換協(xié)同工作,同時我們有統(tǒng)一的元數(shù)據(jù)管理,在這之上我們對數(shù)據(jù)的生產(chǎn)者和數(shù)據(jù)的消費者也都進(jìn)行了相應(yīng)的支持,那么這個整體就是全域的大數(shù)據(jù)平臺產(chǎn) 飛天大數(shù)據(jù)平臺在10年前就堅持云原生的數(shù)據(jù),云原生意味著三件事情,第一開箱即用、不用不花錢,這個和傳統(tǒng)的買硬件方式有非常大的不同;第二我們具備了秒級自適應(yīng)的彈性擴(kuò)展,用多少買多少;第三因為是云上的框架,我們很多運維和安全的東西由云自動來完成了,所以是安全免運維的。從系統(tǒng)架構(gòu)上講,飛天大數(shù)據(jù)包括傳統(tǒng)的CPU、GPU集群,以及平頭哥芯片集群,再往上是我們的伏羲智能調(diào)度系統(tǒng)和元數(shù)據(jù)系統(tǒng),再往上我們提供了多種計算能力,我們最重要的目標(biāo)就是通過云原生設(shè)計把10萬臺在物理上分布在不同地域的服務(wù)器讓用戶覺得像一臺計算機(jī)。我們我們充分利用云原生設(shè)計的理念,支持大數(shù)據(jù)和機(jī)器學(xué)習(xí)的快速大規(guī)模彈性負(fù)載需求。我們支撐0~100倍的彈性擴(kuò)容能力,去年開始,雙十一60%的數(shù)據(jù)處理量來自于大數(shù)據(jù)平臺的處理能力,當(dāng)雙11巔峰來的時候,我們把大數(shù)據(jù)的資源彈回來讓給在線系統(tǒng)去處理問題。從另外一個角度來講,我們具備彈性能力,相比物理的IDC模式,我們有80%成本的節(jié)省,按作業(yè)的計費模式,我們提供秒級彈性伸縮的同時,不使用不收費。相比自建IDC,綜合成本只有1/5。除了堅持原生之外,我們最近發(fā)現(xiàn),隨著人工智能的發(fā)展,語音視圖的數(shù)據(jù)越來越多了,處理的能力就要加如圖所示,業(yè)界有一個比較火的概念叫數(shù)據(jù)湖,我們要把客戶多種多樣的數(shù)據(jù)拿到一起來進(jìn)行統(tǒng)一的查詢和管理。但是對于真正的企業(yè)級服務(wù)實踐,我們看到一些問題,首先數(shù)據(jù)的來源對于客戶來說是不可控的,也是多種多樣的,而且很大程度上沒有辦法把所有的數(shù)據(jù)統(tǒng)一用一種系統(tǒng)和引擎來管理起來,在這種情況下我們需要更大的能力是什么呢?我們今天通過不同的數(shù)據(jù)源,可以進(jìn)行統(tǒng)一的計算和統(tǒng)一的查詢和分析,統(tǒng)一的管理,所以我們提出一個更新的概念叫邏輯數(shù)據(jù)湖,對于用戶來說,不需要把他的數(shù)據(jù)進(jìn)行物理上的搬遷,但是我們一樣能夠進(jìn)行聯(lián)邦計算和查詢,這就是為了支撐這件事情,我們會有統(tǒng)一的元數(shù)據(jù)管理系統(tǒng)和調(diào)度系統(tǒng),能夠讓不同的計算引擎協(xié)同起來工作,最后把所有的工作匯聚到全域數(shù)據(jù)治理上面,并且提供給數(shù)據(jù)開發(fā)者一個編程平臺,讓他能夠直接的產(chǎn)生數(shù)據(jù),或者是去定制自己的應(yīng)用。那么,通過這樣的方式,我們把原來的單維度大數(shù)據(jù)平臺去做大數(shù)據(jù)處理,拓展到一個全域的數(shù)據(jù)治理,這個數(shù)據(jù)其實可以包含簡單的大數(shù)據(jù)的,也可以包含數(shù)據(jù)庫的,甚至是一些OSS的file,這些我們在整個的平臺里面都會加以處理。 如圖為飛天大數(shù)據(jù)的產(chǎn)品架構(gòu),下面是存儲計算引擎,可以看到我們除了計算引擎自帶的存儲之外還有其它開放的OSS,還有IOT端采集的數(shù)據(jù)和數(shù)據(jù)庫的數(shù)據(jù),所有數(shù)據(jù)進(jìn)行全域數(shù)據(jù)集成,集成后進(jìn)行統(tǒng)一的元數(shù)據(jù)管理,統(tǒng)一的混合任務(wù)調(diào)度,再往上是開發(fā)層和數(shù)據(jù)綜合治理層,通過這種方式,我們立體化的把整個大數(shù)據(jù)圈起大數(shù)據(jù)與AI雙生系統(tǒng)提到了大數(shù)據(jù)我們肯定會想到AI,AI和大數(shù)據(jù)是雙生的,對于AI來說它是需要怎么來做這件事情。對于AI的開發(fā)工程師來說,他們比較常用的方式是用交互式的notebook來進(jìn)行AI的開發(fā),因為它比較直觀,但是如何把大數(shù)據(jù)也進(jìn)行交互式開如圖是我們DSW的平臺,我們可以直接的用一個magic命令,connect到現(xiàn)存的maxcompute集群,并且選擇project后,可以直接輸入sql語句,這些都是智能的。然后我們?nèi)?zhí)行,結(jié)果出來之后我們可以對feature進(jìn)行相應(yīng)的分析,包括可以去改變這些feature的橫縱坐標(biāo)做出不同的charts,同時我們甚至可以把生成的結(jié)果直接web到excel方式進(jìn)行編輯和處理,處理完之后我們再把數(shù)據(jù)拉回來,也可以切換到GPU或者CPU進(jìn)行深度學(xué)習(xí)和訓(xùn)練,訓(xùn)練完了之后,我們會把整個的代碼變成一個模型,我們會把這個模型導(dǎo)入到一個相應(yīng)的地方之后提供一個Web服務(wù),這個服務(wù)也就是我們的在線推理服務(wù)。整套流程做完之后,甚至我們可以再接數(shù)據(jù)應(yīng)用,可以在托管的WEB上構(gòu)建,這就是大數(shù)據(jù)平臺給AI提供數(shù) 大數(shù)據(jù)和AI是雙生系統(tǒng),AI是一個工具層,可以優(yōu)化所有的事情。我們希望飛夠面臨雙11的彈性負(fù)載仍然是可用的。通過這些年的努力,我們追求極致的性能,我們能夠打破數(shù)據(jù)的增長和成本增長的線性關(guān)系,我們也希望它是一個智能的,我們希望更多的數(shù)據(jù)開發(fā)工程師來支持它,我們需要更復(fù)雜的人力投入來理解他,我們希我們提出一個概念叫AutoDataWarehouse,我們希望通過智能化的方式第一階段是計算層面和效率層面,我們嘗試尋找計算的第一層原理,我們?nèi)フ野偃f到千萬級別里面的哪些作業(yè)是相似的,因此可以合并,通過這種方式來節(jié)省成本,還有當(dāng)你有千萬級別的表之后,究竟哪些表建索引全局是最優(yōu)的,以第二階段是資源規(guī)劃,AI和AutoDataWarehouse可以幫助我們做更好的資源優(yōu)化,包括我們有3種的執(zhí)行作業(yè)模式,哪一種模式更好,是可以通過學(xué)習(xí)的方式學(xué)出來的,還有包括作業(yè)的運行預(yù)測和自動預(yù)報警,這套系統(tǒng)保證了大家看得到或者看不到的阿里關(guān)鍵作業(yè)的核心,比如每過一段時間大家會刷一下芝麻信用分,每天早上九點阿里的商戶系統(tǒng)會和下游系統(tǒng)做結(jié)算,和央行做結(jié)算,這些基線是由千百個作業(yè)組成的一條線,從每天早上凌晨開始運行到早上八點跑完,系統(tǒng)因為各種各樣的原因會出現(xiàn)各種的狀況,可能個別的機(jī)器會宕機(jī)。我們做了一個自動預(yù)測系統(tǒng),去預(yù)測這個系統(tǒng)是否能夠在關(guān)鍵時間點上完成,如果不能夠完成,會把更多的資源加進(jìn)來,保證關(guān)鍵作業(yè)的完成。這些系統(tǒng)保證了我們大家日??床灰姷年P(guān)鍵數(shù)據(jù)的流轉(zhuǎn),以及雙十一等重要的資源第三階段是智能建模,當(dāng)數(shù)據(jù)進(jìn)來之后和里面已有的數(shù)據(jù)究竟有多少的重疊?這些數(shù)據(jù)有多少的關(guān)聯(lián)?當(dāng)數(shù)據(jù)是幾百張表時,搞DBA手工的方式可以調(diào)優(yōu)的,現(xiàn)在阿里內(nèi)部的系統(tǒng)有超過千萬級別的表,我們有非常好的開發(fā)人員理解表里面完全的邏輯關(guān)系。這些自動調(diào)優(yōu)和自動建模能夠幫助我們在這些方面做 這是AutoDataWarehouse系統(tǒng)架構(gòu)圖,從多集群的負(fù)載均衡到自動冷存,到中間的隱形作業(yè)優(yōu)化,再到上層的隱私數(shù)據(jù)自動識別,這是我們和螞蟻一起開發(fā)的技術(shù),當(dāng)隱私的數(shù)據(jù)自動顯示到屏幕上來,系統(tǒng)會自動檢測并打碼。我們其中的三項技術(shù),包括自動隱私保護(hù),包括重復(fù)子查詢自動合并優(yōu)化,包括多集群的自動容災(zāi),我摘要:距離上一次MaxCompute新功能的線上發(fā)布已經(jīng)過去了大約一個季度的時間,而在這一段時間里,MaxCompute不斷地在增加新的功能和特性,比如參數(shù)化視圖、UDF支持動態(tài)參數(shù)、支持分區(qū)裁剪、生成建表DDL語句功能等功能都已經(jīng)得到了廣大開發(fā)者的廣泛使用。那么,近期MaxCompute究竟還有哪MaxCompute與阿里云大數(shù)據(jù)產(chǎn)品解決方案在介紹MaxCompute新功能前,我們先快速對阿里云的大數(shù)據(jù)產(chǎn)品解決方案進(jìn)阿里云大數(shù)據(jù)解決方案中包含了數(shù)據(jù)接入、數(shù)據(jù)存儲及處理分析、數(shù)據(jù)服務(wù)以及在線應(yīng)用等這樣的幾個維度。通常的情況下,基于MaxCompute和阿里云大數(shù)據(jù)解決方案搭建的系統(tǒng)會通過DataWorks實現(xiàn)離線多源異構(gòu)數(shù)據(jù)的同步,并向MaxCompute大數(shù)據(jù)平臺加載數(shù)據(jù)。與此同時,借助于DTS日志服務(wù)、Kafka消息隊列服務(wù)實現(xiàn)對實時數(shù)據(jù)的收集。之后,通過流式計算服務(wù)實現(xiàn)對于數(shù)據(jù)的實時計算和分析,并將數(shù)據(jù)投遞到實時在線的服務(wù)或者回流到統(tǒng)一的數(shù)據(jù)倉庫服務(wù)中去。數(shù) 據(jù)落盤保留下來之后,將進(jìn)行數(shù)據(jù)倉庫相關(guān)的處理分析,加工成為可以被業(yè)務(wù)消費、高質(zhì)量的數(shù)據(jù)集。同時,利用機(jī)器學(xué)習(xí)平臺可以開展包含數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練、模型的QuickBI、DataV以及第三方客戶自行購買的BI等工具進(jìn)行結(jié)合。在云上大數(shù)據(jù)What’sNew?MaxCompute產(chǎn)品近期發(fā)布預(yù)覽本次分享面對的主要群體是對于阿里云MaxCompute產(chǎn)品有所了解并且有一定使用經(jīng)驗的客戶,因此所介紹的內(nèi)容會比較細(xì)致,但不會過多展開相關(guān)背景及原理介近期以來,MaxCompute大約每三個月就會迭代一個大版本發(fā)布到線上,而中間則會有很多個小版本。到8月份的時候,已經(jīng)距離上次Ma經(jīng)過了大約一個季度的時間,因此需要再做一次新特性的發(fā)布。所以本次分享不僅涵本次所要介紹的MaxCompute產(chǎn)品近期的發(fā)布情況主要包括三個部分,首先是近幾個月已經(jīng)陸續(xù)發(fā)布上線,并且產(chǎn)品文檔已經(jīng)完備的功能,希望希望通過本次介紹讓開發(fā)者能夠更好地了解這些新的功能;其次是目前MaxCompute在線上所正在做的大版本升級中已經(jīng)實現(xiàn)的一批灰度升級項目,本次也會對于其中一些比較成熟的功能進(jìn)行分享;最后就是一些即將面向更大規(guī)模的用戶進(jìn)行發(fā)布的功能,也就是目前還新Region開服:西南成都節(jié)點正式開服、國際Region提供Spark服務(wù)隨著阿里云西南成都節(jié)點的正式開服,大數(shù)據(jù)計算服務(wù)MaxCompute也正式在西南成都節(jié)點開服售賣。與此同時,MaxCompute也提供了很多國際的R阿里云根據(jù)用戶需求的強(qiáng)烈程度優(yōu)先在香港、德國、新加坡、印度和美西這五個國際Region推出了Spark服務(wù)。 新功能:SQL-參數(shù)化視圖MaxCompute近期發(fā)布上線的版本圍繞著SQL核心功能的一些細(xì)節(jié)做了大量的優(yōu)化和提升,其中一點就是參數(shù)化視圖。MaxCompute傳統(tǒng)的視圖(VIEW)中實現(xiàn)了一定的封裝與重用,但是并不接受調(diào)用者傳遞的任何參數(shù),例如:調(diào)用者無法對視圖讀取的底層表進(jìn)行數(shù)據(jù)過濾或傳遞其它參數(shù),導(dǎo)致代碼重用能力低下。MaxCompute近期發(fā)布上線的版本的SQL引擎支持帶參數(shù)的視圖,支持傳入任意新功能:SQL-UDTF/UDAF支持動態(tài)參數(shù)新發(fā)布的MaxCompute版本的SQL能夠支持UDF相關(guān)的動態(tài)參數(shù)。如下圖中的代碼所示,其中含有一個命名為JsonTuple的UDTF。這里JsonTuple的業(yè)務(wù)需求就是首先讀取一個JSON串,其中包含了一系列JSON內(nèi)容,并且需要解析其面對像JsonTuple這樣的函數(shù)設(shè)計,雖然給定了一個JSON,但是可能需要根節(jié)點的參數(shù),也可能需要根節(jié)點+子節(jié)點或者多個子節(jié)點的參數(shù)去提取并解析JSON字符串中的信息,此時就要求自定義函數(shù)可以支持動態(tài)數(shù)量參數(shù),因此函數(shù)最好能夠支持用戶動態(tài)的參數(shù)輸入,也就是可以根據(jù)用戶的動態(tài)參數(shù)輸入提取相應(yīng)的信息。MaxCompute的UTDF和UTAF在參數(shù)列表中支持使用*的模式,表示接受任意新功能:SQL-UDT支持資源(Resource)訪問UserDefinedType,簡稱UDT,它屬于最近幾個版本MaxCompute的SQL里面推出的比較新的功能,目前應(yīng)用也不是非常廣泛。UDT是MaxCompute2.0之后主張使用的NewSQL能力,其允許在SQL中直接引用第三方語言的類或者對象,獲取其數(shù)據(jù)內(nèi)容或者調(diào)用其方法。目前,MaxCompute的SQL中的UDT提供的是對于JavaUDT的支持。舉例而言,如果想要在MaxCompute中獲取整數(shù)中的最大值,通常需要自己寫一個UDF函數(shù)并通過其他語言實現(xiàn)出來,而其實在像Java這樣的高級語言中的一些內(nèi)置方法就能夠?qū)崿F(xiàn),因此可以簡單地使用SelectJava庫中的一個方法來獲得相應(yīng)的能力。這是之前所發(fā)布的UDT本身的能力,而今天要發(fā) 布的新特性則是UDT對于MaxCompute中資源訪問的支持。MaxCompute中有很多種對象,其中一種就是資源,比如一些數(shù)據(jù)文件。MaxCompute可以使用SQL通過Resource讀取文本文件,也可以通過Set參數(shù)的方式將自定義的JAR作為UDT能夠直接訪問的一個庫,并在UDT當(dāng)中使用用戶自定義的第三方庫。新功能:SQL-UDF支持分區(qū)裁剪MaxCompute本身有大量的分區(qū)表,在分區(qū)的使用中一個很重要的優(yōu)化點就是通過分區(qū)裁剪的方式在查詢中過濾分區(qū)。在過濾分區(qū)的時候,有時需要使用一些自定義的邏輯,通過一些自定義的功能來確定分區(qū)的范圍。當(dāng)增加一個UDF時往往會發(fā)生全表掃描,這是因為在提交查詢的時候還不能確定提交的分區(qū)到底是哪個,因此會新發(fā)布的MaxCompute版本中的SQL已經(jīng)能夠支持UDF分區(qū)裁剪的能力了。其邏輯是當(dāng)提交的SQL存在UDF的時候,會首先將UDF單獨提取出來執(zhí)行,將UDF的執(zhí)行結(jié)果拿到之后再和原來的查詢語句進(jìn)行拼裝再提交。這樣一來,當(dāng)存在動態(tài)不確定的信息時,首先會解析動態(tài)信息,再確定分區(qū)范圍,從而進(jìn)行分區(qū)裁剪,盡量減低數(shù)據(jù)掃描所產(chǎn)生的費用。其開發(fā)方式就是在UDF中加一些參數(shù),就能夠使得UDF支持分區(qū)裁剪。新功能:SQL-生成建表DDL語句功能很多開發(fā)者都有將項目中數(shù)據(jù)表的DDL導(dǎo)出來的需求,新版本的MaxCom-pute也提供了兼容Hive的SH看出,使用SHOWCreatetable+之后就能夠獲得該表的DDL的腳本,通過這種 新功能:SQL-支持指定表的列默認(rèn)值新版本的MaxCompute中也支持了指定表的列默認(rèn)值。其實熟悉大數(shù)據(jù)發(fā)展歷程的同學(xué)們都應(yīng)該有所了解,數(shù)據(jù)庫中存在很多比較完善技術(shù),比如在校驗機(jī)制、約束條件上都提供了各種默認(rèn)值可供開發(fā)者選擇。而大數(shù)據(jù)技術(shù)在這些方面所做的遠(yuǎn)遠(yuǎn)不夠,目前的發(fā)展趨勢是在數(shù)據(jù)的質(zhì)量和數(shù)據(jù)的校驗等方面工作中,大數(shù)據(jù)技術(shù)越來越靠近數(shù)據(jù)庫技術(shù)。在MaxCompute最新的版本發(fā)布中提供的DEFAULTVALUE在上圖的代碼示例中,創(chuàng)建了一個表T,表T中包含了a、b兩列,這兩列的數(shù)據(jù)類型都是bigint,并且a的默認(rèn)值設(shè)為10。當(dāng)向這個表中插入數(shù)據(jù)記錄并且只對于字段b進(jìn)行插數(shù)據(jù)的時候,MaxCompute會自動地在結(jié)果當(dāng)中將a的值按照默認(rèn)新功能:SQL-支持LIMITOFFSET之前的時候,很多用戶也有這樣的一個呼聲,就是希望在MaxCompute的SQL上面做到像MySQL、PG這些數(shù)據(jù)庫一樣的分頁功能,能夠定位到在多少行之后取多少行數(shù)據(jù),這樣的功能在數(shù)據(jù)庫中是非常通用的。以前,在MaxCompute的SQL里面通過為每一行數(shù)據(jù)打一個唯一標(biāo)示RowNumber,再用BetweenAnd這樣的方式來變相地實現(xiàn)分頁功能。而在新版本的MaxCompute中,SQL本身就已經(jīng)原生地支持了LIMITOFFSET的語法,可以更加容易地實現(xiàn)分頁的需求。新功能:SQL-新增內(nèi)置函數(shù)JSON_TUPLE、EXTRACT接下來介紹MaxCompute的SQL中兩個比較實用的函數(shù)——JSON_TUPLE 和EXTRACT。MaxCompute本身在之前對于字符串的處理只有一個getJsonOb-ject()內(nèi)建函數(shù),而只有這樣的一個函數(shù)是比較痛苦的,因為在提取JSON中多個節(jié)點值的時候往往需要多次調(diào)用這個內(nèi)建函數(shù)而新增的JSON_TUPLE函數(shù)則解決了這些問題。使用JSON_TUPLE首先可以獲得一個JSON字符串,該函數(shù)的參數(shù)則可以是多個動態(tài)的參數(shù),比如想要獲取10個節(jié)點的值就可以帶10個參數(shù),而且還適合使用嵌套式數(shù)據(jù),因此JSON_TUPLE將來也會成為開發(fā)者使用較多的內(nèi)建函數(shù)。此外,新版本MaxCompute的SQL中還支持了EXTRACT函數(shù),能夠按年、按月、按日、按小時、按分鐘來截取日期。因為對于日期的處理也屬于高頻操作,因此EXTRACT函數(shù)也將會被高頻地新功能-分區(qū)管理除了前面提到的MaxCompute在SQL中的一些增強(qiáng)功能之外,新版本的MaxCompute還提供了一些其他的能力,比如分區(qū)管理的能力。在分區(qū)管理部分,一個比較重要的場景就是由于開發(fā)者往往喜歡使用較多的分區(qū),而當(dāng)數(shù)據(jù)量大的時候可能會造成多級嵌套分區(qū),因此表的分區(qū)數(shù)量就會非常龐大。而MaxCompute本身對于分區(qū)數(shù)量存在一個上限,當(dāng)數(shù)據(jù)分區(qū)過多的時候就需要將歷史過往的分區(qū)進(jìn)行合分區(qū)管理的最佳實踐就是在數(shù)據(jù)比較“熱”的情況下,分區(qū)切分得可能會比較細(xì),當(dāng)數(shù)據(jù)沉淀時間比較長的時候,過往的歷史數(shù)據(jù)被訪問的頻率就會比較低,因此可以通過分區(qū)歸并的方式減少分區(qū)的數(shù)量。過去刪除分區(qū)的時候也是比較痛苦的,需要每次通過droppartition來刪除一個分區(qū),而現(xiàn)在MaxCompute在droppartition命令里面也支持了一次刪除多個分區(qū)的能力,可以通過一次操作刪除多個新功能-預(yù)付費資源監(jiān)控報警預(yù)付費資源監(jiān)控報警是MaxCompute近期發(fā)布的一個新功能。阿里云Max-Compute的很多用戶使用的都是預(yù)付費的固定CPU大小的資源組,在這種場景下,用戶往往會更加關(guān)注購買的資源是否過多,在業(yè)務(wù)高峰期能否將其充分地利用起來,是否需要需要擴(kuò)容或者縮容等。與此同時,用戶還需要對于一些關(guān)鍵任務(wù)進(jìn)行監(jiān)控, 比如在作業(yè)排隊比較嚴(yán)重,產(chǎn)生積壓的情況時,也希望能夠通過監(jiān)控報警系統(tǒng)獲得排隊積壓信息,并且及時告警,從而更加利于人工及時進(jìn)行干預(yù),保證當(dāng)核心業(yè)務(wù)出現(xiàn)MaxCompute所提供的預(yù)付費資源監(jiān)控報警能力基于阿里云所提供的云監(jiān)控服務(wù),并且結(jié)合了配額組CPU使用量、作業(yè)等待等待數(shù)、內(nèi)存使用量、整體CPU使用率等一些關(guān)鍵指標(biāo),通過對以上這些指標(biāo)進(jìn)行規(guī)則配置,就能實現(xiàn)對于關(guān)鍵事件的新功能-IP白名單支持IPV6目前,IPV6已經(jīng)成為阿里云整體都會支持的能力,而MaxCompute本身也支持了IPV6。對于IP白名單這個安全特性而言,過去MaxCompute支持IPV4,目前也擴(kuò)展支持了IPV6,使用方式與原本的IPV4差異不大,通過白名單列表的設(shè)置就能夠同時支持IPV4和IPV6。前面為大家介紹了MaxCompute在新版本的發(fā)布中的一些功能,接下來將為大家介紹MaxCompute的一種新規(guī)格。新版本的MaxCompute中推出了預(yù)付費套餐(計算資源+存儲資源)的規(guī)格。對于MaxCompute而言,主要有兩種付費形式,其中一種是按量付費,這種方式具有極致的彈性,并且能夠自動伸縮;另外一種是按 本次新發(fā)布的預(yù)付費打包套餐和之前的固定資源配額都屬于固定規(guī)格預(yù)付費方式。預(yù)付費套餐的售賣方式為混合付費,在開通時以包年包月方式購買計算資源(主要為CU)和存儲資源。使用時,公網(wǎng)下載流量和超出的存儲容量按使用量收費??傮w而言,預(yù)付費套餐實際是將一定大小計算資源和存儲資源打包銷售的優(yōu)惠套餐,相比于企業(yè)客戶在線下自行搭建的大數(shù)據(jù)常用配置的計算和存儲規(guī)模,阿里云本次所推出的預(yù)付費套餐將會提供一個十分具有競爭力的價格,這樣一來既能夠保證企業(yè)每月MaxCompute團(tuán)隊一直以來都非常注重產(chǎn)品文檔的質(zhì)量和體驗,也在進(jìn)行著持續(xù)地優(yōu)化,并在社區(qū)中也和廣大的開發(fā)者保持著密切的交流和互動,獲取了開發(fā)者在MaxCompute產(chǎn)品使用以及產(chǎn)品如何應(yīng)用到生產(chǎn)的過程中的一些需求。MaxCompute團(tuán)隊近期也將一些重點的、高頻的問題沉淀下來,形成了文檔化、案這些文檔包含了如何基于MaxCompute構(gòu)建和優(yōu)化數(shù)據(jù)倉庫,同時也提供了一些數(shù)字化運營的具體案例,比如如何基于MaxCompute搭建互聯(lián)網(wǎng)在線的運營分析平臺。此外,因為Python生態(tài)廣受歡迎,開發(fā)者也是人數(shù)眾多,因此PyODPS也受到了很多Python開發(fā)者的支持,通過前一個階段的反饋,MaxCompute團(tuán)隊也發(fā)現(xiàn)PyODPS在文檔方面存在一些不足之處,因此近期也做了專項整理。MaxCompute團(tuán)隊整理了PyODPS的一些指導(dǎo)文檔和具體示例,大家可以到官網(wǎng)新功能內(nèi)測:元數(shù)據(jù)服務(wù)Information__Schema前面分享的是MaxCompute新版本中的一些線上可用的功能,而在實際上還有一些功能目前處于內(nèi)部定向邀請測試階段,這些功能也是社區(qū)中很多開發(fā)者以及企業(yè)客戶所非??粗氐墓δ堋_@里為大家介紹兩個處于內(nèi)測階段的功能,其中第一個就是元數(shù)據(jù)服務(wù)。MaxCompute本身是一個多租戶的系統(tǒng),用戶使用的時候非常希望將更多的數(shù)據(jù)以更加友好的方式開放給使用者,能夠幫助使用者自助地了解項目中的一些信息,其中比較常見的就是元數(shù)據(jù)信息,比如Table、Partition、Column、UDF、Resource、User等信息。以往這些信息都是通過命令的方式獲取,但是當(dāng)元數(shù)據(jù)量非常大的時候,很難通過這種方式去獲得或者檢索和過濾信息。而在傳統(tǒng)的Schema這樣的一套服務(wù),在遵循規(guī)范的基礎(chǔ)之上也添加了一些MaxCompute特有的視圖和字段,既能夠滿足開發(fā)者原有的一些使用習(xí)慣,也能夠更好地結(jié)合 通過內(nèi)建服務(wù),MaxCompute首先會為用戶提供一個Information_Schema庫,用戶可以去自助地去訪問相關(guān)的元數(shù)據(jù)信息,比如項目中的表格、字段、視圖、創(chuàng)建人、創(chuàng)建時間以及表的大小和生命周期等。通過這種方式就能夠?qū)τ诒淼娜中畔⒂幸粋€很好的把控。與此同時,MaxCompute也會提供準(zhǔn)實時的作業(yè)歷史明細(xì)的查詢能力。作業(yè)歷史包含了日常的實例信息、SQL的作業(yè)明細(xì)等。以往是通過showinstance等命令獲取近期執(zhí)行作業(yè)的信息,而如今可以通過對于視圖的查詢方式來獲取本項目所有作業(yè)信息,并且能夠通過一些過濾條件篩選出自己所需要的作業(yè)信息。所查詢出來的信息則包括了項目類、項目名稱、作業(yè)提交時間、作業(yè)狀態(tài)、作業(yè)的SQL語句、數(shù)據(jù)的掃描量、復(fù)雜度以及資源消耗等信息,基于對于這些信息的統(tǒng)計就能夠?qū)崿F(xiàn)很多的性能優(yōu)化以及診斷等相關(guān)工作。元數(shù)據(jù)服務(wù)Information_Schema這樣的能力也會在近期面向全體云上用戶進(jìn)行公測。新功能內(nèi)測:基于ActionTrail的行為審計日志服務(wù)另一個要介紹的處于內(nèi)測階段的功能就是基于ActionTrail的行為審計日志服務(wù)。對于阿里云MaxCompute團(tuán)隊而言,經(jīng)常會有企業(yè)提交工單希望能夠幫助他們檢查一下某張表的數(shù)據(jù)被誰刪除了,或者某個賬號近期是否進(jìn)行了數(shù)據(jù)下載。因此,MaxCompute也將要推出基于ActionTrail的行為審計日志服務(wù),這款服務(wù)能夠完整地記錄項目內(nèi)的用戶操作行為,并通過接入阿里云ActionTrail服務(wù)將MaxCompute用戶行為日志實時推送給客戶,滿足客戶實時審計、問題回溯分析等需求。被審計的行為包含了對于表的創(chuàng)建、刪除以及對于表結(jié)構(gòu)的變更、寫入數(shù)據(jù)、下載數(shù)據(jù)等,而日志信息也包含了企業(yè)比較關(guān)心的客戶端信息、操作的具體SQL內(nèi)飛天大數(shù)據(jù)平臺實時計算FlinkonKubernetesFlink產(chǎn)品介紹目前實時計算的產(chǎn)品已經(jīng)有兩種模式,即共享模式和獨享模式。這兩種模式都是全托管方式,這種托管方式下用戶不需要關(guān)心整個集群的運維。其次,共享模式和獨享模式使用的2.開發(fā)使用的都是BlinkSQL,其中獨享模式由于進(jìn)入了用戶的VPC,部署在用戶的ECS上,因此可以使用很多底層的API,如UDX;5.最后,在收費模式上,共享模式和獨享模式用戶所承擔(dān)的都是硬件加軟件(獨享模式是軟件(VPC的費用。FlinkonKubernetes模式介紹及對比在共享和獨享這兩種模式的基礎(chǔ)上,阿里云實時計算團(tuán)隊于2019年9月中旬會托管模式:集群以半托管模式部署在用戶ECS和K8S上,用戶對該集群用完飛天大數(shù)據(jù)平臺實時計算FlinkonKubernetes最提供功能:提供開發(fā)控制臺支持用戶提交并控制作業(yè);支持Flink1.6/1.7/1.8引擎方面,Blink是由阿里云實時計算團(tuán)隊于2016年從Flink1.5.1拉出來的分支,在這之后的三年多的時間里,該分支被進(jìn)行了一系列的改造:1)SQL優(yōu)化器和執(zhí)行器的改造,目前有更完善的SQL支持,提供了UnifiedSQL;2)在Runtime上,提供了統(tǒng)一高效的算子框架、更加靈活的chaining策略和自定義調(diào)度插件;2019年1月份,阿里巴巴決定將Blink的所有優(yōu)化功能貢獻(xiàn)給社區(qū),經(jīng)過六個多月的改造,Blink的部分基本功能已經(jīng)合并到Flink1.9.0中,與此同時,阿里也收購了Flink創(chuàng)始團(tuán)隊成立的公司dataArtisans。在此之后,兩個團(tuán)隊將共同維護(hù)一個新的品牌Ververica,該品牌推出新的界面平臺VervericaPlatform來為用戶提供 38>飛天大數(shù)據(jù)平臺實時計算FlinkonKuberneWhyFlink+KubernetesFlink之所以選擇K8S來作為底層的資源管理來為用戶提供服務(wù)主要原因有以下Flink特性:首先Flink是大數(shù)據(jù)類應(yīng)用,與傳統(tǒng)大數(shù)據(jù)應(yīng)用如Spark、Hadoop、MapReduce以及Hive等不同的是,F(xiàn)link是常駐進(jìn)程,其類似于在線業(yè)務(wù)的App,作業(yè)發(fā)布后修改頻率比較低,這就要求執(zhí)行作業(yè)的worker長時間穩(wěn)定運行。另外,與其他批處理作業(yè)相比,流作業(yè)任務(wù)一般應(yīng)用于實時K8S優(yōu)勢:K8S設(shè)計的初衷是為在線應(yīng)用服務(wù),目標(biāo)是為了幫助在線應(yīng)用更好地發(fā)布和管理,實現(xiàn)資源隔離;其次,目前K8S具備一定的生態(tài)優(yōu)勢,目前很多用戶已經(jīng)開始或嘗試開始使用K8S來管理在線應(yīng)用;K8S可以很好地集成其他集群維護(hù)工具,如監(jiān)控工具普羅米修斯,同時在資源彈性方面,K8S飛天大數(shù)據(jù)平臺實時計算FlinkonKubernetes最新特性VervericaPlatform介紹K8S集群:需要用戶在阿里云上創(chuàng)建ACK集群(阿里云官網(wǎng)搜索ACK進(jìn)入進(jìn)行提交和管理;2)開箱即用的指標(biāo)收集、展示及報警組件,該組件集成了增值功能:在后續(xù)產(chǎn)品規(guī)劃中,產(chǎn)品會提供一些列增值功能。首先是Libra智能調(diào)優(yōu)系統(tǒng)。熟悉Flink的用戶可能都知道,目前Flink的調(diào)優(yōu)比較麻煩,尤其在開源Flink中,用戶需要多次預(yù)估波峰流量來設(shè)置Flink作業(yè)的資源,否則在波峰的時候可能會出現(xiàn)作業(yè)延時。而所推出的Libra智能調(diào)優(yōu)系統(tǒng)功能會根據(jù)波峰波谷的特點來自動調(diào)整Flink資源,在沒有人為干預(yù)的情況下提高資源利用率,同時降低波峰時的作業(yè)延時。除此之外,平臺還將提供Alink機(jī)器 40>飛天大數(shù)據(jù)平臺實時計算FlinkonKubernetes最總體而言,VervericaPlatform的特點是免費、開源、增值和易用。首先用戶只需要支付ECS的費用便可以使用VervericaPlatform平臺的所有功能;其次FlinkCore是開源的,用戶無需的擔(dān)心其兼容性和因為被某個平臺綁架而產(chǎn)生的問題,并且開源Flink的功能可以無縫遷移到該平臺上;此外,VervericaPlatform將提供一下圖是VervericaPlatform的平臺界面,通過該界面用戶可以創(chuàng)建并提交一個Flink作業(yè)。用戶可以設(shè)置Flink作業(yè)的名稱、初始化狀態(tài)、Flink版本(目前支持1.6/1.7/1.8)、Jar包地址以及開源資源配置(如并發(fā)度、JobManager的CPC內(nèi)存等點擊提交后可以很方便地在K8S上運行一個F飛天大數(shù)據(jù)平臺實時計算FlinkonKubernetes最新特性<41下圖展示了一個已經(jīng)在K8S上運行的作業(yè),用戶可以瀏覽整個作業(yè)的配置信息、拓?fù)鋱D、在K8S上的Events、Jobs、Savepoints的狀態(tài)。用戶還可以在界面上直觀地查看作業(yè)默認(rèn)的metrics和logs信息,從而簡化作業(yè)問題排查的復(fù)雜度。此外,該平臺還支持直接顯示FlinkWebUI。目前的平臺功 42>飛天大數(shù)據(jù)平臺實時計算FlinkonKubernete以上是阿里云FlinkonKubernetes產(chǎn)品形態(tài)的新功能,用流程:登陸阿里云實時計算詳情頁,點擊購買‘Flink云原生’產(chǎn)品即可申請公測飛天大數(shù)據(jù)平臺E-MapReduce4.0最新特性一、EMR產(chǎn)品概述二、EMR產(chǎn)品新特性三、EMRRoadMap1.E-MapReduce(EMR)是什么E-MapReduce是阿里云上云原生的開源大數(shù)據(jù)平臺,一款利用開源大數(shù)據(jù)解決用戶分析問題的大數(shù)據(jù)產(chǎn)品。在2016年6月,E-MapReduce開始公測,2016年9月開始商業(yè)化,目前為止E-MapReduce已經(jīng)商業(yè)化三年多的時間。在2019年8月,阿里發(fā)布了E-MapReduce(EMR)敏捷版。在2019年10月,阿里巴巴將發(fā)布EMR4.0版本。EMR4.0版本的Hadoop將會升級到3.1.x。 44>飛天大數(shù)據(jù)平臺E-MapReduce4.0最新特性2.EMR產(chǎn)品特性:EMR產(chǎn)品特性主要展現(xiàn)在以下三個方面。100%開源組件:EMR產(chǎn)品所使用的大數(shù)據(jù)組件為100%開源組件。對用戶來說,學(xué)習(xí)成本和遷移成本都相對較低。此外,EMR會根據(jù)社區(qū)的進(jìn)度和BugFix進(jìn)行升級,保證產(chǎn)品是根據(jù)社區(qū)持續(xù)升級,實現(xiàn)較好的用戶體驗。還有,EMR對Spark、Hadoop、Kafka等組件均有性能和應(yīng)用性的增強(qiáng)。以Spark為例,EMR比較早的集成了SparkAE,推測執(zhí)行的自動化和特性,同時包括基于Spark來進(jìn)行成本優(yōu)勢:EMR產(chǎn)品相對于用戶自建Hadoop更具有成本優(yōu)勢。首先,EMR集群支持彈性伸縮。此處的彈性伸縮指兩方面。比如可以根據(jù)一個時間點,大部分用戶在用開源大數(shù)據(jù)Hadoop時在每天晚上12點定時跑一個較大的日報任務(wù),而日報任務(wù)可能并不需要全天都跑,可能在早上就會跑完。此時使用彈性伸縮有利于節(jié)省計算資源。同時也可以采用按負(fù)載伸縮的方式,設(shè)置YARNRoot的隊列的某一個指標(biāo)進(jìn)行伸縮。用戶可以根據(jù)自己實際的application排隊情況及container分配的情況進(jìn)行伸縮。其次,EMR支持OSS作為數(shù)據(jù)存儲系統(tǒng)。除HDFS之外可以使飛天大數(shù)據(jù)平臺E-MapReduce飛天大數(shù)據(jù)平臺E-MapReduce用OSS,將HDFS的schema改為OSS路徑直接讀寫OSS。相對來說,可以實現(xiàn)用戶的數(shù)據(jù)分層存儲,當(dāng)用戶的熱數(shù)據(jù)放在HDFS里,冷數(shù)據(jù)則可以放在OSS中。同時實現(xiàn)OSS的生命周期的管理。比如說相對溫數(shù)據(jù)放在一個標(biāo)準(zhǔn)型里,但如果用戶的數(shù)據(jù)是一年前或者幾年前的數(shù)據(jù),則可以放到歸檔型或者低頻型的更便宜的OSS存儲中。第三個特性是EMR在彈性伸縮的基礎(chǔ)上同時支持競價實例。ECS提供了一種比較便宜的實例類型,即競價實例。用戶可以自己出一個價格來實現(xiàn)成本節(jié)省??紤]到數(shù)據(jù)可靠性的影響,競價實例只能用在計算節(jié)點上,若上面有HDFS的數(shù)據(jù)存儲,則不允許使用競價實例或者彈性伸縮。最后,EMR可以通過作業(yè)來拉起一個臨時集群。當(dāng)用戶只是想要跑一個大數(shù)據(jù)的任務(wù),可以通過集群模板設(shè)置集群的配置。當(dāng)作業(yè)被觸發(fā)時,EMR會先創(chuàng)建好臨時集群,作業(yè)執(zhí)行完畢,臨時集群會被企業(yè)級特性:EMR采用了MITKerberos和ApacheRanger實現(xiàn)用戶鑒權(quán)和用戶權(quán)限管理。同時提供了EMRAPM實現(xiàn)集群和作業(yè)的監(jiān)控。3.EMR開源軟件棧下圖是EMR目前支持的開源軟件棧。最底部是EMR的Docker和ECS。通過ECS是目前在公有云上的主要形態(tài),專有云可以通過Docker的方式,在ECS之上部署一個EMRAgent,主要負(fù)責(zé)集群管理和集群運行數(shù)據(jù)的采集,檢測集群端前是否出現(xiàn)問題。數(shù)據(jù)導(dǎo)入時EMR提供了Sqoop,使用開源的DataX組件、Flume組件或SLS將數(shù)據(jù)導(dǎo)入到EMR上。數(shù)據(jù)存儲這一塊EMR支持HDFS和OSS。在OSS之上又開發(fā)了jindoFS,jindoFS可以用OSS作為數(shù)據(jù)湖的概念,通過jindoFScatch的方式做數(shù)據(jù)加速,提升OSS讀取數(shù)據(jù)的效率。EMR最新版本支持Kudu和DeltaLake,幫助用戶有效的構(gòu)建實時數(shù)倉。用戶利用Kudu或DeltaLake+流式計算,如Spark或Flink實現(xiàn)實時用戶畫像、實時推薦等功源調(diào)度方面,EMR目前主要使用YARN。計算引擎方面,EMR提供了較多的計算引擎,如Spark、Flink、TensorFlow、Storm、Impala和Presto等。同時在應(yīng)用層面提供了開源的Jupyter、NoteBook、Zepplin以及Hue。EMR是一個半托管 46>飛天大數(shù)據(jù)平臺E-MapReduce4.0最新特性的形態(tài),用戶自建的系統(tǒng)也可以無縫遷移。阿里自研的EMR-Flow可實現(xiàn)工作流的4.EMR集群特性目前EMR支持五種集群類型。目前五種集群類型的購買是獨立的,在購買集群的首頁可以選擇一個集群類型,如Hadoop,Kafka,或者ZooKeeper集群。Hadoop大數(shù)據(jù)平臺:一般用戶都會購買一個Hadoop平臺,然后再實現(xiàn)批計算、流式計算、數(shù)據(jù)倉庫、Adhoc查詢、NoSQL和HBase等。Kafka:若用戶希望實現(xiàn)一個半托管的Kafka,可以購買EMRKafka系統(tǒng)實現(xiàn)TensorFlow:TensorFlow在深度學(xué)習(xí)、機(jī)器學(xué)習(xí)方面非常流行。EMR可以實現(xiàn)TensorFlowOnYARN或TensorFlowOnSpark執(zhí)行。Druid:EMR對于實時OLAP有一個獨立的集群類型druid。ZooKeeper:在集群功能較大的情況下,用戶可以購買獨立的ZooKeeper集飛天大數(shù)據(jù)平臺E-MapReduce4.0最新特性<47群實現(xiàn)分布式協(xié)調(diào)系統(tǒng)。如Kafka、Druid、HDFS、YARN或HBase等都需要ZooKeeper。5.EMR半托管形態(tài)如下圖,EMR目前是半托管形態(tài)。用戶可以通過sshlogin的方式登錄ECS節(jié)點,在ECS節(jié)點上部署EMR的服務(wù),如工作流調(diào)度、智能診斷、彈性伸縮、資源池等功能。EMR有更低的遷移成本。如果用戶是Hadoop基礎(chǔ)體系,可擁有更低的遷移成本和學(xué)習(xí)成本。在用戶人力資源不充沛的情況下可以通過EMR有效實現(xiàn)運維 48>飛天大數(shù)據(jù)平臺E-MapReduce4.0最新特性6.EMR集群節(jié)點類型EMR集群節(jié)點類型主要分以下四種。Master節(jié)點:Master節(jié)點部署了HDFSNameNode和YARNResourceCore節(jié)點:Core節(jié)點主要部署YARNNodeManager和DataNode。CoreTask節(jié)點:用戶可以使用Task進(jìn)行彈性伸縮或者使用競價實例的購買方式。如果用戶有深度學(xué)習(xí)需求,可以通過YARN調(diào)度GPU資源,同時也可以在Task節(jié)點選擇購買GPU實例。Gateway節(jié)點:Gateway節(jié)點部署Haddop、Spark、Flink等組件的客戶端,支持部署不同部門采用不同的參數(shù)和配置。因為用戶可能會在不同客戶端采用不同配置,從而實現(xiàn)用戶隔離,用戶可以購買Gateway節(jié)點實現(xiàn)資源配置上的隔離,同時飛天大數(shù)據(jù)平臺E-MapReduce4.0最新特性<491.EMR基礎(chǔ)能力升級計算能力升級:阿里云剛剛發(fā)布了第六代企業(yè)級實例,既CPU從Skylake升級到CascadeLake,睿頻從2.7GHz加速提升到3.2GHz。由下圖可發(fā)現(xiàn),相對于第五代企業(yè)級實例,第六代企業(yè)級實例CPU性能和內(nèi)存讀寫性能都有顯著提升。阿里云在2019年九月底上線第六代企業(yè)級實例,提供更高的計算性能和更低的產(chǎn)品價存儲能力升級:EMR已支持ESSD云盤。ESSD云盤全稱是企業(yè)級SSD云盤。ESSD云盤的單盤IOPS有較大提升,在EMRKudu,HBase等場景下有較好的表現(xiàn)和性能。ESSD云盤分為PL1、PL2、PL3三種,目前EMR支持PL1級的ESSD云盤,從性能上PL1級已經(jīng)基本滿足用戶需求。下圖右下對比圖分別是ESSD云盤和SSD云盤在塊存儲方面官網(wǎng)的標(biāo)稱的性能指標(biāo)。通過對比圖可以發(fā)現(xiàn)ESSD在單盤IOPS和單盤吞吐性能上都有較大幅度的提升。 50>飛天大數(shù)據(jù)平臺E-MapReduce4.0最新特性2.EMR軟件棧升級EMR3.0版本逐漸成熟之后EMR4.0會將版本升級到Hadoop3.1.2版本。同時,EMR4.0新增支持Kudu1.1.0和DeltaLake0.3。EMR4.0中ApacheFlink升級至1.8.1。在Apache社區(qū)Flink升級至1.9.0或1.9.1后,EMR會再考慮ApacheFlink升級。EMR4.0支持OpenLDAP。如果用戶使用的是OpenLDAP,則可以進(jìn)行平滑遷移。下圖右側(cè)是當(dāng)前EMR已經(jīng)支持的一些版本,這些版本在EMR4.0發(fā)飛天大數(shù)據(jù)平臺E-MapReduce4.0最新特性<513.EMR生態(tài)集成EMR+DataWorks:EMR作為一個云原生軟件,在云上有一系列生態(tài)集成,如OSS的集成和ES的集成。一部分用戶同時使用了EMR和ElasticResearch或云ElasticResearch。EMR已經(jīng)集成了ElasticResearch組件,可實現(xiàn)數(shù)據(jù)的打通。如下圖左側(cè),創(chuàng)建DataWorks項目時選擇計算引擎,之前只能選擇Maxcompute和實時計算,現(xiàn)在多了兩個選擇,一個是EMR,另一個是剛開始公測的交互式分析。用戶在創(chuàng)建DataWorks作業(yè)時,可以將作業(yè)運行在一個已經(jīng)存在的Hadoop集群上。在寫的時候只要相應(yīng)的輸入accessKey和accessID,輸入EMR的集群id,則可以將這個任務(wù)調(diào)度到EMR集群上。下圖右側(cè)展示了若用戶目前以EMR作為計算引擎,只要用戶購買了DataWorks相應(yīng)付費版軟件,就可以實現(xiàn)數(shù)據(jù)血緣跟蹤, 52>飛天大數(shù)據(jù)平臺E-MapReduce4.0最新特性EMR+PAI:生態(tài)集成的另外一方面是阿里云上非常受歡迎的深度學(xué)習(xí)平臺PAI。目前大數(shù)據(jù)+AI是一個非常重要的場景。EMR已經(jīng)能夠?qū)崿F(xiàn)TensorFlowOnYARN和TensorFlowOnSpark,可以通過YARN實現(xiàn)對TensorFlow作SparkRDD上進(jìn)行計算。EMR+PAI集成主要體現(xiàn)在將PAI這一個企業(yè)級分布式的深度學(xué)習(xí)計算框架部署在EMR上。因為PAITensorFlow完全兼容于開源的TensorFlow,同時在顯存和分布式通信方面有深度優(yōu)化。另一方面,PAI的計算模型PAI-FastNN集成了11種經(jīng)典的神經(jīng)網(wǎng)絡(luò)模型,能夠跑在EMR上,實現(xiàn)開箱即飛天大數(shù)據(jù)平臺E-MapReduce4.0最新特性<534.EMR數(shù)據(jù)遷移EMR正在與阿里云上另一款災(zāi)備產(chǎn)品HDR-BD進(jìn)行集成實現(xiàn)數(shù)據(jù)災(zāi)備和遷移。目前支持社區(qū)Hadoop2.7.x/3.1.x,HDP,CDH版本。Source和Target集群雙活,實現(xiàn)HDFS和Hive數(shù)據(jù)的遷移,同時支持遷移到OSS上。 54>飛天大數(shù)據(jù)平臺E-MapReduce4.0最新特性三、RoadMapEMR在未來幾個月的主要工作首先是在本地盤實例運維。大部分用戶會使用ECS的大數(shù)據(jù)實例。大數(shù)據(jù)實例最大的特點是存儲成本相對較低,對于數(shù)據(jù)量比較大的用戶是一種比較好的成本優(yōu)化方式。對于大數(shù)據(jù)來說,幾千或者幾萬塊盤在管理時如果出現(xiàn)單盤的損壞,對作業(yè)的穩(wěn)定性會產(chǎn)生比較大的影響。EMR的主動運維能力主要體現(xiàn)在用戶單鍵點擊便可實現(xiàn)對磁盤的隔離,確定對壞盤的較為安全的處理方式。此外,EMR與PAI和DataWorks會有比較深入的融合,構(gòu)建開源的大數(shù)據(jù)AI平臺以及開源大數(shù)據(jù)數(shù)據(jù)倉庫。在未來,EMR同時會基于Ku為流行的Flink,SparkStreaming等計算框架實現(xiàn)實時數(shù)倉的構(gòu)建。在2019年底或2020年初,EMR會推出第二代企業(yè)級大數(shù)據(jù)實例。第二代企業(yè)級大數(shù)據(jù)實例的計算性能會大幅提升,同時成本會持平或小幅節(jié)省,將更大的成本優(yōu)化的空間貢獻(xiàn)給大數(shù)據(jù)&AI開發(fā)平臺飛天大數(shù)據(jù)平臺智能開發(fā)云平臺DataWorks隨著阿里巴巴集團(tuán)登月計劃、公共云和專DataWorks已經(jīng)走過了十年的歷程。本文主要分享了DataWorks商業(yè)化增值版本中高級功能,分別介紹了DataWorks基礎(chǔ)版,標(biāo)準(zhǔn)版,專業(yè)版和企業(yè)版中具備的特色功能和每個功能點所適應(yīng)的場景,幫助用戶選擇適合的DataWorks版本,更好的解決所面臨一、DataWorks背景介紹1.DataWorks的發(fā)展歷史自2009年DataWorks立項,伴隨著阿里巴巴集團(tuán)登月計劃、公共云和專有云的發(fā)布,直到2018年V2.0的發(fā)布,DataWorks已經(jīng)走過了十年的歷程。整個過程經(jīng)歷了幾個關(guān)鍵的節(jié)點,2009年到2013年期間,DataWorks集群任務(wù)的能力。在此之后,由于數(shù)據(jù)量不斷的增加,Hadoop集群已無法支撐阿里巴巴集團(tuán)海量增長的數(shù)據(jù),阿里開始自研MaxCompute+DataWorks。2013年 56>飛天大數(shù)據(jù)平臺智能開發(fā)云平臺Da之后,DataWorks開始支持Maxcompute任務(wù)的調(diào)度。自此,阿里巴巴集團(tuán)基于2.DataWorks-一站式大數(shù)據(jù)研發(fā)+治理平臺作為阿里巴巴的一站式大數(shù)據(jù)的研發(fā)平臺,DataWorks具備的基礎(chǔ)能力可以分為兩大部分,數(shù)據(jù)研發(fā)和數(shù)據(jù)治理。在2018年上半年之前,大部分用戶使用DataWorks產(chǎn)品的目的是做數(shù)據(jù)研發(fā)工作,基于DataWorks的數(shù)據(jù)研發(fā)工作通常是將數(shù)據(jù)源通過數(shù)據(jù)集成傳到Maxcompute,再通過離線計算DataStudio任務(wù)進(jìn)行定時調(diào)度。從2018年下半年開始,發(fā)布的DataWorksV2.0將集團(tuán)內(nèi)部數(shù)據(jù)治理功能無縫部署到了公共云,使每位公共云用戶都能夠在DataWorks基礎(chǔ)版中具備較為完善的數(shù)據(jù)治理能力,包括數(shù)據(jù)血緣、數(shù)據(jù)質(zhì)量監(jiān)控、任務(wù)監(jiān)控、數(shù)據(jù)審計,以飛天大數(shù)據(jù)平臺智能開發(fā)云平臺DataWorks最新特性<為了讓用戶體驗到更好的商業(yè)級服務(wù),DataWorks在2019年6月份實行了商業(yè)化。DataWorks收費文檔中展示了整個收費模型,該模型將DataWorks劃分為兩種類型的商品,分別是:資源服務(wù)類商品和功能特性類商品。功能特性類商品提供給用戶的是DataWorks各模塊的功能點,如:用戶打開DataWorks界面便能看到數(shù)據(jù)開發(fā)-節(jié)點類型、運維中心-智能監(jiān)控等功能,這些界面都是基于DataWorks在此版本之上,如用戶使用到其中的某些特定功能點,則會按照按量付費的方式進(jìn)行(注意:任何用戶都必須開通DataWorks按量付費商品,開通后即可永久贈送 58>飛天大數(shù)據(jù)平臺智能開發(fā)云平臺Dat二、DataWorks高級功能場景化介紹1.DataWorks基礎(chǔ)版DataWorks基礎(chǔ)版具備較為實用的特性,可以幫助用戶快速構(gòu)建數(shù)據(jù)倉庫。DataWorks基礎(chǔ)版可以覆蓋大數(shù)據(jù)研發(fā)的全生命周期,包括數(shù)據(jù)接入、數(shù)據(jù)開發(fā)、調(diào)動生產(chǎn)、可視化運維、數(shù)據(jù)質(zhì)量監(jiān)控,表權(quán)限管理,數(shù)據(jù)服務(wù)API構(gòu)建,到數(shù)據(jù)最終呈現(xiàn)到某個應(yīng)用的開發(fā)等全部模塊。值得一提的是,在數(shù)據(jù)接入部分DataWorks新增了“批量上云”功能,如用戶的數(shù)據(jù)存在多個MySQL數(shù)據(jù)庫,每個數(shù)據(jù)庫包含多個DB,每個DB都有n多張表。此時用戶可以通過批量上云功能,上傳EXCEL形式的數(shù)據(jù),快速建立起多個數(shù)據(jù)同步任務(wù)進(jìn)行數(shù)據(jù)的快速上云。目前批量上云方式支持ORACLE,MySQL以及SQLserver?;A(chǔ)版目前也有數(shù)據(jù)質(zhì)量監(jiān)控功能,飛天大數(shù)據(jù)平臺智能開發(fā)云平臺DataWorks最新特性<2.DataWorks標(biāo)準(zhǔn)版針對基礎(chǔ)版,DataWorks標(biāo)準(zhǔn)版在研發(fā)方面增加了較多復(fù)雜且專業(yè)化的節(jié)點類型,同時對實時Flink引擎也有了更好的可視化支持。DataWorks標(biāo)準(zhǔn)版更多的是面向大數(shù)據(jù)體系發(fā)展比較快的企業(yè),企業(yè)在數(shù)據(jù)體系發(fā)展比較快時,數(shù)據(jù)質(zhì)量問題、安全問題通常會逐步暴露,出現(xiàn)相關(guān)質(zhì)量、安全隱患,因此在數(shù)據(jù)治理方面,DataWorks標(biāo)準(zhǔn)版提供了相應(yīng)的能力幫助用戶解決比如,用戶會提出訴求,既能否根據(jù)某個特殊的判斷決定任務(wù)工作流的下游是否要跑某個任務(wù)。如下圖,用戶要判斷今天是不是每個月最后一日,而每個月的最后一 60>飛天大數(shù)據(jù)平臺智能開發(fā)云平臺Data此時,如果通過DataWorks傳統(tǒng)的簡單場景的線性依賴,很難實現(xiàn)用戶訴求。DataWorks標(biāo)準(zhǔn)版提供了幾種負(fù)載類型的節(jié)點,包括循環(huán)、遍歷、賦值、分支和歸上述場景如何通過復(fù)雜節(jié)點實現(xiàn)?如下圖所示,案例中需要使用兩種節(jié)點,賦值節(jié)點和分支節(jié)點。賦值節(jié)點中用戶可以通過Python判斷今天是不是這個月的最后一飛天大數(shù)據(jù)平臺智能開發(fā)云平臺DataWorks最新特性<天,如果是,賦值節(jié)點負(fù)責(zé)將“1”作為一個傳參傳給下游,如果不是則傳“0”。分場景二、SQL代碼復(fù)用隨著用戶SQL代碼規(guī)模越來越大,某些代碼段會成為一個公用的代碼段。用戶需要將這些代碼做成公用代碼供其他人復(fù)用。傳統(tǒng)方法是復(fù)制代碼,而傳統(tǒng)的的做法存在較高的風(fēng)險。復(fù)制代碼一方面效率較低,另外很容易對代碼進(jìn)行剪切,原代碼會 62>飛天大數(shù)據(jù)平臺智能開發(fā)云平臺DDataWorks標(biāo)準(zhǔn)版提供了SQL組件功能,允許用戶定義一個公用的SQL代碼塊,并且在其中設(shè)置自己需要的變量。其他人需要這個SQL代碼塊,就將其作為一個節(jié)點投入到一個業(yè)務(wù)流程,同時對設(shè)置的參數(shù)進(jìn)行賦值,實現(xiàn)SQL代碼的復(fù)用。某些企業(yè)需要構(gòu)建實時的數(shù)據(jù)倉庫,而實際上,往往需要技術(shù)非常嫻熟的一批團(tuán)飛天大數(shù)據(jù)平臺智能開發(fā)云平臺DataWorks最新特性<DataWorks標(biāo)準(zhǔn)版提供了DAG開發(fā)以及SQL/DAG互轉(zhuǎn)功能。用戶可以對每個處理的數(shù)據(jù)和處理動作都拖入一個節(jié)點,將節(jié)點串聯(lián)成一個工作流,依次對數(shù)據(jù)進(jìn)行處理。如下圖,點開每個節(jié)點的結(jié)構(gòu),如第一個datahub是個數(shù)據(jù)源,輸入時會有一個字段,到第二個固定鏈被切分,切分為多個字段。用戶可以通過可視化的方式在線進(jìn)行配置字段。在配置完整個流程之后,點擊右上角切換SQL模式,將其轉(zhuǎn)化為FlinkSQL。DataWorks標(biāo)準(zhǔn)版除了支持圖形化的方式配置Flink流計算的處理流程,也支持用戶使用原生的SQL進(jìn)行任務(wù)的編寫。另外,DataWorks專業(yè)版中具備本地調(diào)試功能,在每個節(jié)點用戶可以點擊采樣看到采樣的時間點采樣數(shù)據(jù)。如果不符合預(yù)期,用戶可以及時做出調(diào)整。傳統(tǒng)Flink不具備此功能,只能等到所有任務(wù)都執(zhí)行結(jié)束,才可以查看結(jié)果數(shù)據(jù)是否符合預(yù)期。用戶在還沒有將整個任務(wù)上線時,本地調(diào)試功能便能夠檢查數(shù)據(jù)的生產(chǎn)是否符合預(yù)期。在快速構(gòu)建實時流計算體系時,DataWorks大大降低了用戶使用實時流計算引隨著用戶的工作量越來越龐大和越來越復(fù)雜,人肉維護(hù)每個任務(wù)監(jiān)控變得非常痛 64>飛天大數(shù)據(jù)平臺智能開發(fā)云平臺Data苦。下圖中展示的密密麻麻的節(jié)點,是阿里集團(tuán)內(nèi)在運營中心展開的DAG截圖。傳統(tǒng)監(jiān)控配置手段對每個任務(wù)之間配置的超時進(jìn)行報錯,但當(dāng)工作流的體量非常大時,傳統(tǒng)的配置手段不是很現(xiàn)實。由于每個任務(wù)的數(shù)據(jù)體量不固定,導(dǎo)致任務(wù)時間增長,用戶無法對每個任務(wù)的報警閾值做調(diào)整。這時需要一個既快捷又智能的方式,用戶只DataWorks標(biāo)準(zhǔn)版的智能監(jiān)控功能,允許用戶僅對產(chǎn)出數(shù)據(jù)的最后一個節(jié)點配置一個基線時間,之后DataWorks智能監(jiān)控系統(tǒng)在后端針對往常的每個任務(wù)的運行時間以及SQL語義進(jìn)行分析,規(guī)劃出關(guān)鍵路徑,分析每一個節(jié)點的最晚開始和結(jié)束時間。一旦上游的某一個中間任務(wù)出現(xiàn)變慢或者出錯的情況,智能監(jiān)控系統(tǒng)中報警的機(jī)制會通過郵件、短信或者釘釘推送給用戶。用戶在接收到中間任務(wù)出現(xiàn)的事件時就可以快速響應(yīng),快速處理任務(wù)所出現(xiàn)的問題。如果問題能夠得到及時解決,最終產(chǎn)出的任務(wù)就能夠保證在用戶定好的時間點產(chǎn)出。既對整個工作流設(shè)置基線,只要保證基飛天大數(shù)據(jù)平臺智能開發(fā)云平臺DataWorks最新特性<隨著用戶的數(shù)據(jù)量飛速增長,數(shù)據(jù)質(zhì)量問題也會凸顯。DataWorks標(biāo)準(zhǔn)版提供了讓用戶自己配置,自定義規(guī)則或者預(yù)設(shè)模板來監(jiān)控數(shù)據(jù)質(zhì)量的功能。如下圖,一張用戶消費表,以往每天用戶花費是100多萬,忽然有一天統(tǒng)計到的數(shù)據(jù)是2000,出 66>飛天大數(shù)據(jù)平臺智能開發(fā)云平臺DataDataWorks標(biāo)準(zhǔn)版中數(shù)據(jù)血緣功能能夠幫用戶很好的解決數(shù)據(jù)質(zhì)量的問題。數(shù)據(jù)血緣功能可以為用戶提供數(shù)據(jù)地圖,能夠識別每一張表的上游表和下游表,每一個字段的上游字段和下游字段,既以字段的形式呈現(xiàn)數(shù)據(jù)的歷史。數(shù)據(jù)地圖也有其它的戶都可以在數(shù)據(jù)地圖中搜索表,也可以在每張表的詳細(xì)信息中看得到當(dāng)天這張表的產(chǎn)出信息。數(shù)據(jù)地圖對于日常表的使用也是必不可少的一個功能,可以查看字段說明、在保證數(shù)據(jù)準(zhǔn)時產(chǎn)出、產(chǎn)出準(zhǔn)確之后,如何保證數(shù)據(jù)不丟失?為此企業(yè)管理者通常會推動企業(yè)構(gòu)建數(shù)據(jù)審計體系。DataWorks數(shù)據(jù)保護(hù)傘模塊幫助用戶對數(shù)據(jù)敏感級別進(jìn)行分級和分類,以可視化(圖形化)方式展示敏感數(shù)據(jù),并且審計內(nèi)部人員對飛天大數(shù)據(jù)平臺智能開發(fā)云平臺DataWorks最新特性<首先,DataWorks標(biāo)準(zhǔn)版提供了一個能夠讓用戶自己定義字段、進(jìn)行字段掃描的能力,對字段的敏感級別進(jìn)行分類。如下圖,用戶可以在頁面中創(chuàng)建幾個分級,包就將其定位為金額字段。設(shè)定的規(guī)則自第二天便開始生效,從零點開始進(jìn)行掃描,掃 68>飛天大數(shù)據(jù)平臺智能開發(fā)云平臺DataW敏感數(shù)據(jù)訪問行為審計功能將訪問的行為記錄下來,幫助管理者發(fā)現(xiàn)訪問敏感字段的用戶的行為,必要時管理者與相關(guān)人員進(jìn)行一定的溝通,建立內(nèi)部溝通的機(jī)制。數(shù)據(jù)脫敏目前有三種脫敏方式,包括HASH,假名和掩蓋脫敏。DataWorks標(biāo)準(zhǔn)版目前已經(jīng)覆蓋了大部分?jǐn)?shù)據(jù)研發(fā)和基本的數(shù)據(jù)治理的功能。對于數(shù)據(jù)業(yè)務(wù)發(fā)展非???,并且對數(shù)據(jù)治理有一定要求的企業(yè),在初期可以選擇3.DataWorks專業(yè)版DataWorks專業(yè)版提供可拓展數(shù)據(jù)服務(wù)的API,能夠提供更靈活、更高可用的第一個場景,企業(yè)有不同數(shù)據(jù)結(jié)構(gòu)的報表系統(tǒng),需要以可視化方式展示
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 人教版8 20以內(nèi)的進(jìn)位加法9加幾教學(xué)設(shè)計及反思
- 2024消費降級-現(xiàn)象洞察與破局之道-OI咨詢
- 人教部編版(五四學(xué)制)語文 八年級上冊 1.《消息二則》教學(xué)設(shè)計
- 九年級化學(xué)上冊 第六單元 碳和碳的氧化物 實驗活動2 二氧化碳的實驗室制取與性質(zhì)教學(xué)設(shè)計(新版)新人教版
- 防震演練會前培訓(xùn)
- 三年級上冊道德與法治教學(xué)設(shè)計-1.5合理消費勤儉節(jié)約 第一課時 桂師星球版
- 人音版八年級音樂下冊第一單元《我和你》、《奧林匹克頌》教學(xué)設(shè)計
- 人教八下地理 9.2 三江源地區(qū)教學(xué)設(shè)計
- 道德講堂培訓(xùn)
- 三年級下冊科學(xué)教學(xué)設(shè)計-2.4 植物和我們 蘇教版
- 機(jī)械原理課程設(shè)計-自動蓋章機(jī)
- 高中歷史選修二 第12課 水陸交通的變遷 課件(51張)
- JJF(紡織)062-2010 電子式織物強(qiáng)力機(jī)校準(zhǔn)規(guī)范-(高清現(xiàn)行)
- 最新北師大版小學(xué)六年級數(shù)學(xué)下冊第二次月考(3~4單元)檢測試卷附答案
- 《通過感官來發(fā)現(xiàn)》PPT
- 40篇短文搞定高考英語3500詞(共42頁)
- 非計劃再次手術(shù)管理制及流程
- 《口腔檢查》PPT課件(人衛(wèi)版)
- 生產(chǎn)線的平衡及優(yōu)化方法研究工業(yè)工程畢業(yè)設(shè)計
- 輪式挖掘機(jī)的驅(qū)動橋殼工藝設(shè)計1
- 關(guān)于大坦沙島地區(qū)更新改造規(guī)劃的批復(fù)
評論
0/150
提交評論