“1+X”(高級(jí))02-阿里云大數(shù)據(jù)體系架構(gòu)_第1頁
“1+X”(高級(jí))02-阿里云大數(shù)據(jù)體系架構(gòu)_第2頁
“1+X”(高級(jí))02-阿里云大數(shù)據(jù)體系架構(gòu)_第3頁
“1+X”(高級(jí))02-阿里云大數(shù)據(jù)體系架構(gòu)_第4頁
“1+X”(高級(jí))02-阿里云大數(shù)據(jù)體系架構(gòu)_第5頁
已閱讀5頁,還剩79頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

阿里云大數(shù)據(jù)體系架構(gòu)學(xué)習(xí)完本課程后,你將能夠:了解阿里云大數(shù)據(jù)產(chǎn)品體系了解阿里云數(shù)據(jù)存儲(chǔ)與計(jì)算工具了解阿里云數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)工具了解阿里云數(shù)據(jù)可視化工具課程目標(biāo)課程目錄阿里云大數(shù)據(jù)產(chǎn)品體系數(shù)據(jù)存儲(chǔ)計(jì)算工具數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)工具數(shù)據(jù)可視化工具阿里云大數(shù)據(jù)平臺(tái)一站式數(shù)據(jù)平臺(tái)提供多層服務(wù)行業(yè)解決方案阿里云大數(shù)據(jù)平臺(tái)定位阿里云大數(shù)據(jù)平臺(tái)產(chǎn)品架構(gòu)

交互式分析引擎

Hologres圖計(jì)算引擎GraphCompute大數(shù)據(jù)計(jì)算服務(wù)MaxCompute開源大數(shù)據(jù)計(jì)算服務(wù)E-MapReduce實(shí)時(shí)計(jì)算RealtimeComputeIOTDBHDFSOSS異構(gòu)數(shù)據(jù)源管理元數(shù)據(jù)采集與構(gòu)建元數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)服務(wù)跨引擎混合調(diào)度跨云混合調(diào)度跨地域混合調(diào)度流批混合調(diào)度調(diào)度流程邏輯控制離線開發(fā)實(shí)時(shí)開發(fā)機(jī)器學(xué)習(xí)圖計(jì)算分析交互式查詢數(shù)據(jù)服務(wù)應(yīng)用開發(fā)智能云上開發(fā)X-Studio(IDE插件對(duì)接各種引擎)數(shù)據(jù)資產(chǎn)數(shù)據(jù)質(zhì)量數(shù)據(jù)安全數(shù)據(jù)分析數(shù)據(jù)監(jiān)控

數(shù)據(jù)分享批量同步實(shí)時(shí)同步增量同步數(shù)據(jù)轉(zhuǎn)換IOT采集計(jì)算存儲(chǔ)引擎全域數(shù)據(jù)集成統(tǒng)一元數(shù)據(jù)中心統(tǒng)一任務(wù)調(diào)度智能數(shù)據(jù)開發(fā)數(shù)據(jù)綜合治理DataWorks全域智能大數(shù)據(jù)平臺(tái)阿里云大數(shù)據(jù)平臺(tái)優(yōu)勢(shì)平臺(tái)優(yōu)勢(shì)應(yīng)用廣泛的最佳實(shí)踐極致的性能與成本易用齊全的產(chǎn)品體系A(chǔ)I加持的雙生系統(tǒng)5阿里云大數(shù)據(jù)平臺(tái)VSHadoop大數(shù)據(jù)平臺(tái)數(shù)據(jù)采集與預(yù)處理:阿里云日志服務(wù)、數(shù)據(jù)集成、阿里云消息服務(wù)、DTS等數(shù)據(jù)同步工具數(shù)據(jù)存儲(chǔ):MaxCompute(盤古)、TS、OSS(HBASE、Redis)同樣支持?jǐn)?shù)據(jù)挖掘\分析:MaxComputeSQL、MaxComputeMR、PAI、ADB等數(shù)據(jù)應(yīng)用:QuickBI、DataV,同樣支持Tableau、Qlikview、PowrerBI等DataWorks(飛天系統(tǒng))課程目錄阿里云大數(shù)據(jù)產(chǎn)品體系數(shù)據(jù)存儲(chǔ)計(jì)算工具2.1阿里云大數(shù)據(jù)計(jì)算服務(wù)MaxCompute2.2一站式大數(shù)據(jù)開發(fā)平臺(tái)DataWorks2.3阿里云分析型數(shù)據(jù)庫(kù)AnalyticDB數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)工具數(shù)據(jù)可視化工具大數(shù)據(jù)計(jì)算服務(wù)-MaxCompute大數(shù)據(jù)計(jì)算服務(wù)MaxCompute,由阿里云自主研發(fā),提供針對(duì)TB/PB級(jí)數(shù)據(jù)、實(shí)時(shí)性要求不高的分布式處理能力,應(yīng)用于數(shù)據(jù)分析、挖掘、商業(yè)智能等領(lǐng)域。阿里巴巴的數(shù)據(jù)業(yè)務(wù)都運(yùn)行在MaxCompute。MaxComputeMaxCompute是一種快速、完全托管的EB級(jí)數(shù)據(jù)倉(cāng)庫(kù)解決方案。8MaxCompute系統(tǒng)架構(gòu)MaxCompute以數(shù)據(jù)為中心,內(nèi)建多種計(jì)算模型和服務(wù)接口,滿足廣泛的數(shù)據(jù)分析需求。一切服務(wù)“開通”即用,更好地賦能數(shù)據(jù)業(yè)務(wù)。以數(shù)據(jù)為中心統(tǒng)一的元數(shù)據(jù)及安全體系多計(jì)算模型,多種開發(fā)接口擴(kuò)展更豐富的應(yīng)用場(chǎng)景擁抱生態(tài)工具,降低用戶遷移風(fēng)險(xiǎn)與成本開箱即用的產(chǎn)品解決方案9MaxCompute產(chǎn)品特點(diǎn)易用標(biāo)準(zhǔn)API的方式提供服務(wù)高并發(fā)高吞吐量數(shù)據(jù)上傳下載全面支持基于SQL的數(shù)據(jù)處理管理與授權(quán)支持多用戶管理協(xié)同分析數(shù)據(jù)支持多種方式對(duì)用戶權(quán)限管理配置靈活的數(shù)據(jù)訪問控制策略分布式采用分布式集群架構(gòu)跨集群技術(shù)突破機(jī)群規(guī)??梢愿鶕?jù)需要靈活擴(kuò)展安全自動(dòng)存儲(chǔ)容錯(cuò)機(jī)制所有計(jì)算在沙箱中運(yùn)行保障數(shù)據(jù)高安全性、高可靠性10MaxCompute的主要功能及作用數(shù)據(jù)通道計(jì)算分析開發(fā)SDK安全服務(wù)MaxCompute致力于批量結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)和計(jì)算,提供海量數(shù)據(jù)倉(cāng)庫(kù)的解決方案及分析建模服務(wù)。通常和DataWorks一起構(gòu)建大數(shù)據(jù)分析平臺(tái)。11MaxCompute常見使用方式客戶端方式使用場(chǎng)景及優(yōu)勢(shì)API/SDK:以RESTfulAPI或JavaSDK、pythonSDK的方式提供離線數(shù)據(jù)處理服務(wù)。定制開發(fā),滿足個(gè)性化需求,與外部系統(tǒng)對(duì)接。CLT(CommandLineTool):運(yùn)行在Window/Linux下的客戶端工具,通過CLT可以提交命令完成Project管理、DDL、DML等操作。本地上傳下載數(shù)據(jù)、項(xiàng)目空間管理;靈活、易用。DataWorks:提供了上層可視化ETL/BI工具,用戶可以基于DataWorks完成數(shù)據(jù)同步、任務(wù)調(diào)度、報(bào)表生成等常見操作。團(tuán)隊(duì)分工協(xié)作數(shù)據(jù)開發(fā)全流程,高效、安全。IDE插件:eclipse插件、IDEA插件、RStudio插件,擴(kuò)展IDE對(duì)MaxCompute的支持。使用第三方IDE對(duì)接MaxCompute,提升本地開發(fā)、調(diào)試效率。MaxCompute的使用有以下幾種方式:12MaxCompute的客戶端MaxCompute客戶端是一個(gè)java程序,需要JRE環(huán)境才能運(yùn)行,請(qǐng)下載并安裝JRE1.6+版本(JRE1.7或以上版本,建議優(yōu)先使用JRE1.7/1.8,其中JRE1.9已經(jīng)支持,JRE1.10暫時(shí)還不支持)。1.官網(wǎng)下載客戶端壓縮文件2.解壓文件,可以看到如下4個(gè)文件夾:bin/conf/lib/plugins/客戶端工具CLT修改<ODPS_CLIENT>/conf/odps_conf.ini

project_name=[project_name]

access_id=****************

access_key=******************************end_point=/apitunnel_endpoint=log_view_host=https_check=<true|false>

13Java+eclipse的應(yīng)用JavaeclipseStep01官網(wǎng)導(dǎo)航中找到并下載MaxComputeforeclipse插件;Step02將插件解壓并復(fù)制到問eclipse安裝目錄下的plug-in子目錄下;Step03啟動(dòng)eclipse;Step04檢查Wizard選項(xiàng),確認(rèn)配置成功。14使用MaxComputStudioIntelliJIDEAMaxComputeStudio,是面向MaxCompute計(jì)算引擎開發(fā)的數(shù)據(jù)處理開發(fā)工具,是一套基于流行的集成開發(fā)平臺(tái)IntelliJIDEA的開發(fā)插件。安裝步驟:安裝JDK1.8安裝IntelliJIDEA,需要IntelliJIDEA14.1.4以上在IntelliJIDEA中打開File|Settings|Plugins,點(diǎn)擊Browserepositories...按鈕搜索“MaxComputeStudio",安裝MaxComputeStudio插件完成安裝,重新啟動(dòng)IntelliJIDEA創(chuàng)建MaxCompute項(xiàng)目鏈接15數(shù)據(jù)上傳/下載綜述DataHub實(shí)時(shí)數(shù)據(jù)通道OGG插件Flume插件LogStash插件Fluentd插件Tunnel批量數(shù)據(jù)通道DataWorksDTSSqoopKettle插件MaxCompute客戶端MaxCompute系統(tǒng)上傳/下載數(shù)據(jù)包括兩種方式:16MaxComputeSQLMaxComputeSQL是個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,Query解析后,計(jì)算和存儲(chǔ)交由底層的飛天實(shí)現(xiàn)。MaxComputeSQL支持常用的SQL語法,包括窗口函數(shù)MaxComputeSQL可以看做對(duì)標(biāo)準(zhǔn)SQL的支持,但是不能簡(jiǎn)單等同于數(shù)據(jù)庫(kù)MaxComputeSQL不支持事務(wù)、主外鍵約束、索引等MaxComputeSQL長(zhǎng)度有限制,目前是不能超過2MMaxComputeSQL適用于海量數(shù)據(jù)(TB/PB級(jí)別)的數(shù)據(jù)運(yùn)算MaxComputeSQL的每個(gè)作業(yè)的準(zhǔn)備,提交等階段要花費(fèi)較長(zhǎng)時(shí)間,實(shí)時(shí)性不高17MaxComputeSQL的函數(shù)內(nèi)置函數(shù)自定義函數(shù)MaxCompute中的函數(shù)18分布式離線計(jì)算框架-MapReduceMR的開發(fā)應(yīng)用流程123412341)安裝配置環(huán)境2)開發(fā)MR程序;3)本地模式測(cè)試腳本4)導(dǎo)出Jar包55)上傳至MaxCompute項(xiàng)目空間66)在MaxCompute中使用MR20MaxCompute

Graph編程模型Graph是MaxCompute提供的面向迭代的圖計(jì)算處理框架,為用戶提供類似Pregel的編程接口,用戶可以基于Graph框架提供的接口JavaSDK開發(fā)高效的機(jī)器學(xué)習(xí)或數(shù)據(jù)挖掘算法。圖計(jì)算編程模型(類似GooglePregel)數(shù)據(jù)裝載到內(nèi)存,在迭代次數(shù)較多時(shí)優(yōu)勢(shì)明顯可用于開發(fā)機(jī)器學(xué)習(xí)算法可以支持100億頂點(diǎn)和1500億邊的規(guī)模典型應(yīng)用:PagerankK-Means聚類一度、二度關(guān)系,最短路徑等Graph作業(yè)處理數(shù)據(jù)是一個(gè)圖原始數(shù)據(jù)存儲(chǔ)在Table中,用戶自定義的GraphLoader將Table中的數(shù)據(jù)加載為點(diǎn)和邊迭代計(jì)算21Graph的處理流程01加載圖02迭代計(jì)算03迭代終止圖加載:調(diào)用GraphLoader將表解析為點(diǎn)和邊分布化:調(diào)用Partitioner對(duì)點(diǎn)進(jìn)

行分片,分配到相應(yīng)的worker(如2個(gè)worker則0,2一組)執(zhí)行用戶實(shí)現(xiàn)的Compute:處理上一個(gè)超步發(fā)給當(dāng)前點(diǎn)的消息根據(jù)需要對(duì)圖進(jìn)行編輯

通過Aggregator匯總信息至全局設(shè)置當(dāng)前點(diǎn)的狀態(tài):結(jié)束或者非結(jié)束框架將消息異步方式發(fā)給下一個(gè)超步滿足以下三條之一:所有點(diǎn)均處于已結(jié)束狀態(tài)達(dá)到最大迭代次數(shù)某個(gè)Aggregator的terminate返回True22使用場(chǎng)景基于SQL構(gòu)建大規(guī)模數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)和BI系統(tǒng)基于DAG/Graph構(gòu)建大型分布式應(yīng)用系統(tǒng)基于統(tǒng)計(jì)和機(jī)器學(xué)習(xí)的大數(shù)據(jù)統(tǒng)計(jì)和數(shù)據(jù)挖掘23課程目錄阿里云大數(shù)據(jù)產(chǎn)品體系數(shù)據(jù)存儲(chǔ)計(jì)算工具2.1阿里云大數(shù)據(jù)計(jì)算服務(wù)MaxCompute

2.2一站式大數(shù)據(jù)開發(fā)平臺(tái)DataWorks2.3阿里云分析型數(shù)據(jù)庫(kù)AnalyticDB數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)工具數(shù)據(jù)可視化工具大數(shù)據(jù)開發(fā)平臺(tái)-DataWorksDataWorks(數(shù)據(jù)工場(chǎng),原大數(shù)據(jù)開發(fā)套件)是阿里云數(shù)加重要的PaaS平臺(tái)產(chǎn)品,它提供全面托管的工作流服務(wù),一站式開發(fā)管理的界面,幫助企業(yè)專注于數(shù)據(jù)價(jià)值的挖掘和探索。它是一套基于MaxCompute(原ODPS)的DW解決方案,它集成了阿里多年的DW實(shí)施經(jīng)驗(yàn),提供數(shù)據(jù)集成、處理、分析和管理功能,并為代碼開發(fā)、調(diào)試、發(fā)布、運(yùn)維、監(jiān)控和管理提供了一個(gè)高效、安全的離線數(shù)據(jù)開發(fā)環(huán)境。25DataWorks產(chǎn)品架構(gòu)DataWorks提供九個(gè)核心功能模塊:以數(shù)據(jù)為基礎(chǔ),以全鏈路加工為核心,提供數(shù)據(jù)匯聚、研發(fā)、治理、服務(wù)等多種功能。26DataWorks產(chǎn)品特點(diǎn)易用零成本構(gòu)建數(shù)據(jù)服務(wù)輕松構(gòu)建數(shù)據(jù)應(yīng)用一站式數(shù)據(jù)解決方案管理與授權(quán)支持多用戶管理協(xié)同處理數(shù)據(jù)支持多種方式對(duì)用戶權(quán)限管理配置靈活的數(shù)據(jù)訪問控制策略強(qiáng)大數(shù)據(jù)支撐復(fù)雜網(wǎng)絡(luò)數(shù)據(jù)源環(huán)境千萬級(jí)別的復(fù)雜任務(wù)調(diào)度多種數(shù)據(jù)類型同步處理安全多角色靈活控制開發(fā)、生產(chǎn)環(huán)境隔離智能監(jiān)控27DataWorks

的主要功能及作用全面托管的調(diào)度數(shù)據(jù)轉(zhuǎn)化與同步可視化開發(fā)監(jiān)控告警使用DataWorks,可以對(duì)數(shù)據(jù)進(jìn)行傳輸、轉(zhuǎn)換和集成等操作,從不同的數(shù)據(jù)存儲(chǔ)引入數(shù)據(jù),并進(jìn)行轉(zhuǎn)化和開發(fā),最后將處理好的數(shù)據(jù)同步至其它數(shù)據(jù)系統(tǒng)。DataWorks提供全鏈路智能大數(shù)據(jù)及AI開發(fā)和治理服務(wù)。通常情況下DataWorks和其他產(chǎn)品結(jié)合在一起尤其是MaxCompute搭建數(shù)據(jù)分析系統(tǒng)。28DataWorks的使用流程DataWorks的使用從主賬號(hào)(組織管理員)創(chuàng)建項(xiàng)目和子賬號(hào)開始并賦權(quán)開始。不同角色的賬號(hào)操作模塊不同。開通MaxCompute資源新建項(xiàng)目空間新建項(xiàng)目空間創(chuàng)建子賬號(hào)分配項(xiàng)目管理員添加項(xiàng)目成員數(shù)據(jù)開發(fā)生產(chǎn)運(yùn)維組織管理員(主賬號(hào))項(xiàng)目管理員(子賬號(hào))開發(fā)(子賬號(hào))部署+運(yùn)維(子賬號(hào))1234開通MaxCompute資源DataWorks29數(shù)據(jù)平臺(tái)開發(fā)流程數(shù)據(jù)產(chǎn)生數(shù)據(jù)提取數(shù)據(jù)收集與存儲(chǔ)數(shù)據(jù)分析與處理數(shù)據(jù)展現(xiàn)與分享大數(shù)據(jù)開發(fā)平臺(tái)數(shù)據(jù)產(chǎn)生:業(yè)務(wù)系統(tǒng)產(chǎn)生的結(jié)構(gòu)化的數(shù)據(jù),通常存儲(chǔ)的數(shù)據(jù)庫(kù)中,如MySQL、Oracle、RDS等類型。數(shù)據(jù)收集與存儲(chǔ):利用MaxCompute的海量數(shù)據(jù)存儲(chǔ)與處理能力來分析這些已有的數(shù)據(jù),首先需要將不同業(yè)務(wù)系統(tǒng)的數(shù)據(jù)同步至MaxCompute中。DataWorks提供數(shù)據(jù)集成服務(wù),可將多種數(shù)據(jù)源類型數(shù)據(jù)按照預(yù)設(shè)的調(diào)度周期同步到MaxCompute中。數(shù)據(jù)分析與處理:對(duì)MaxCompute上的數(shù)據(jù)進(jìn)行加工(MaxComputeSQL、MaxComputeMR)、分析與挖掘(數(shù)據(jù)分析、數(shù)據(jù)挖掘)等處理,從而發(fā)現(xiàn)其價(jià)值。數(shù)據(jù)提?。悍治雠c處理后的結(jié)果數(shù)據(jù),需同步導(dǎo)出至其他(業(yè)務(wù))系統(tǒng),供業(yè)務(wù)人員使用其分析的價(jià)值。數(shù)據(jù)展現(xiàn)和分享:最后可通過報(bào)表、地理信息系統(tǒng)等多種展現(xiàn)方式來展示與分享大數(shù)據(jù)分析、處理后的成果。30數(shù)據(jù)處理數(shù)據(jù)輸入數(shù)據(jù)加工代碼發(fā)布生產(chǎn)運(yùn)維數(shù)據(jù)輸出生產(chǎn)調(diào)度開發(fā)角色部署/運(yùn)維運(yùn)維角色涉及模塊:數(shù)據(jù)開發(fā)模塊發(fā)布管理模塊運(yùn)維中心模塊數(shù)據(jù)管理模塊注:在數(shù)據(jù)開發(fā)過程中,需由項(xiàng)目管理員在【項(xiàng)目管理>數(shù)據(jù)源配置】來新增數(shù)據(jù)源供開發(fā)使用。31本地?cái)?shù)據(jù)導(dǎo)入DataWorks支持以下兩種操作:將保存在本地的文本文件中的數(shù)據(jù)上傳到工作空間的表中。通過數(shù)據(jù)集成模塊將業(yè)務(wù)數(shù)據(jù)從多個(gè)不同的數(shù)據(jù)源導(dǎo)入到工作空間。本地文本文件上傳的限制如下:文件類型:僅支持.txt和.csv格式。文件大?。翰怀^10M。操作對(duì)象:導(dǎo)入分區(qū)表時(shí),分區(qū)不允許為中文。32數(shù)據(jù)節(jié)點(diǎn)開發(fā)選擇或新建業(yè)務(wù)流程新建或選擇已有的ODPSSQL節(jié)點(diǎn)編寫符合語法的SQL代碼當(dāng)前界面測(cè)試運(yùn)行、檢查語法邏輯錯(cuò)誤、輸出結(jié)果配置節(jié)點(diǎn)調(diào)度信息、依賴關(guān)系(非手工流程)保存、提交節(jié)點(diǎn)任務(wù)發(fā)布到生產(chǎn)、測(cè)試(非單一項(xiàng)目)DataWorks中,ODPSSQL節(jié)點(diǎn)、Shell節(jié)點(diǎn)、PyODPS節(jié)點(diǎn)等各類節(jié)點(diǎn)的開發(fā)過程大同小異,根本區(qū)別在于個(gè)不同類型節(jié)點(diǎn)的數(shù)據(jù)處理實(shí)現(xiàn)。ODPSSQL節(jié)點(diǎn)開發(fā)過程示例如下:33任務(wù)調(diào)度配置任務(wù)的時(shí)間屬性目前支持月、周、天、小時(shí)和分鐘5種配置方式,目前能支持的最短時(shí)間為5分鐘。說明:周期運(yùn)行的任務(wù)依賴關(guān)系的優(yōu)先級(jí)

大于

時(shí)間屬性,即在時(shí)間屬性決定的某個(gè)時(shí)間點(diǎn)到達(dá)時(shí),任務(wù)實(shí)例運(yùn)行的前提是上游依賴是否全部運(yùn)行成功。上游依賴的實(shí)例沒有全部運(yùn)行成功

并且

定時(shí)運(yùn)行時(shí)間已到,則實(shí)例仍為

未運(yùn)行狀態(tài)。上游依賴的實(shí)例全部運(yùn)行成功

并且

定時(shí)運(yùn)行時(shí)間還未到,則實(shí)例進(jìn)入

等待時(shí)間

狀態(tài)。上游依賴的實(shí)例全部運(yùn)行成功

并且

定時(shí)運(yùn)行時(shí)間已到,則實(shí)例進(jìn)入

等待資源

狀態(tài)準(zhǔn)備運(yùn)行。34DataWorks中的參數(shù)設(shè)置參數(shù)類型設(shè)置方式適用類型參數(shù)編輯框示例系統(tǒng)參數(shù)date和bdp.system.cyctime在調(diào)度系統(tǒng)中運(yùn)行時(shí),無須在編輯框設(shè)置,可直接在代碼中引用${date}和${bdp.system.cyctime},系統(tǒng)將自動(dòng)替換這兩個(gè)參數(shù)的取值全部節(jié)點(diǎn)類型無自定義參數(shù)在代碼中引用${key1},${key2},然后在“參數(shù)”編輯框以如下方式設(shè)置“key1=value1key2=value2”,除Shell外的其他節(jié)點(diǎn)類型常量參數(shù):param1=”abc”param2=1234;變量參數(shù):param1=$[yyyymmdd],結(jié)果將基于bdp.system.cyctime的取值計(jì)算在代碼中引用$1$2$3,然后在“參數(shù)”編輯框以如下方式設(shè)置:“value1value2value3”Shell類型常量參數(shù):”abc”1234;變量參數(shù):$[yyyymmdd],結(jié)果將基于bdp.system.cyctime的取值計(jì)算35數(shù)據(jù)管理數(shù)據(jù)管理為用戶提供組織內(nèi)全局?jǐn)?shù)據(jù)視圖、用戶可以對(duì)組織內(nèi)數(shù)據(jù)進(jìn)行分權(quán)管理、元數(shù)據(jù)信息詳情、數(shù)據(jù)生命周期管理、數(shù)據(jù)表/資源/函數(shù)權(quán)限管理審批等操作。具體功能以及管理模塊權(quán)限如圖:數(shù)據(jù)搜索數(shù)據(jù)權(quán)限申請(qǐng)新建表收藏表修改生命周期修改表結(jié)構(gòu)隱藏表修改表負(fù)責(zé)人刪除表查看表詳情類目導(dǎo)航配置功能模塊權(quán)限點(diǎn)組織管理員項(xiàng)目管理員開發(fā)權(quán)限管理權(quán)限審批與收回—√—管理配置類目導(dǎo)航配置√√√數(shù)據(jù)管理自己創(chuàng)建的表刪除√√√數(shù)據(jù)管理自己創(chuàng)建的表類目設(shè)置√√√數(shù)據(jù)管理自己收藏的表查看√√√數(shù)據(jù)管理新建表√√√數(shù)據(jù)管理自己創(chuàng)建的表取消隱藏√√√數(shù)據(jù)管理自己創(chuàng)建的表結(jié)構(gòu)變更√√√數(shù)據(jù)管理自己創(chuàng)建的表查看√√√數(shù)據(jù)管理自己申請(qǐng)的權(quán)限內(nèi)容查看√√√數(shù)據(jù)管理自己創(chuàng)建的表隱藏√√√數(shù)據(jù)管理自己創(chuàng)建的表生命周期設(shè)置√√√數(shù)據(jù)管理非自己創(chuàng)建的表數(shù)據(jù)權(quán)限申請(qǐng)√√√36運(yùn)維操作運(yùn)維中心僅對(duì)開發(fā)、運(yùn)維、項(xiàng)目管理員角色的人員開放:開發(fā):進(jìn)行單個(gè)工作流/節(jié)點(diǎn)測(cè)試、補(bǔ)數(shù)據(jù)、暫停、重跑任務(wù),查看任務(wù)運(yùn)行日志等操作,還可配置監(jiān)控報(bào)警;運(yùn)維:經(jīng)常處理任務(wù)異常,運(yùn)維任務(wù)包括:?jiǎn)蝹€(gè)工作流/節(jié)點(diǎn)測(cè)試、補(bǔ)數(shù)據(jù)、暫停、重跑任務(wù)等操作。同時(shí),還可進(jìn)行批量修改工作流/節(jié)點(diǎn)屬性、批量殺任務(wù)及批量重跑、配置監(jiān)控報(bào)警等干預(yù)性操作。項(xiàng)目管理員:在運(yùn)維中心模塊中擁有與運(yùn)維人員同等的操作權(quán)限。37智能監(jiān)控智能監(jiān)控模塊是DataWorks(數(shù)據(jù)工場(chǎng))任務(wù)運(yùn)行的監(jiān)控及分析系統(tǒng)。根據(jù)監(jiān)控規(guī)則和任務(wù)運(yùn)行情況,智能監(jiān)控決策是否報(bào)警、何時(shí)報(bào)警、如何報(bào)警以及給誰報(bào)警。智能監(jiān)控會(huì)自動(dòng)選擇最合理的報(bào)警時(shí)間,報(bào)警方式以及報(bào)警對(duì)象?;€預(yù)警和事件告警通過設(shè)定基線監(jiān)控任務(wù),即監(jiān)控范圍設(shè)定報(bào)警策略智能判定報(bào)警時(shí)機(jī)和對(duì)象、自動(dòng)升級(jí)報(bào)警自定義提醒輕量級(jí)監(jiān)控功能自行設(shè)定報(bào)警對(duì)象、條件、方式以及頻次觸發(fā)條件包括完成、出錯(cuò)、未完成、超時(shí)其他值班表功能,即可以設(shè)置某個(gè)值班表某個(gè)人在某個(gè)時(shí)間段內(nèi)接收?qǐng)?bào)警值班表支持循環(huán)規(guī)則配置38課程目錄阿里云大數(shù)據(jù)產(chǎn)品體系數(shù)據(jù)存儲(chǔ)計(jì)算工具2.1阿里云大數(shù)據(jù)計(jì)算服務(wù)MaxCompute2.2一站式大數(shù)據(jù)平臺(tái)DataWorks

2.3阿里云分析型數(shù)據(jù)庫(kù)AnalyticDB數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)工具數(shù)據(jù)可視化工具AnalyticDB是什么?

分析型數(shù)據(jù)庫(kù)(AnalyticDB,原ADS):是阿里巴巴自主研發(fā)的海量數(shù)據(jù)實(shí)時(shí)高并發(fā)在線分析(RealtimeOLAP)云計(jì)算服務(wù),使得您可以在毫秒級(jí)針對(duì)千億級(jí)數(shù)據(jù)進(jìn)行即時(shí)的多維分析透視和業(yè)務(wù)探索。分析型數(shù)據(jù)庫(kù)對(duì)海量數(shù)據(jù)的自由計(jì)算和極速響應(yīng)能力,能讓用戶在瞬息之間進(jìn)行靈活的數(shù)據(jù)探索,快速發(fā)現(xiàn)數(shù)據(jù)價(jià)值,并可直接嵌入業(yè)務(wù)系統(tǒng)為終端客戶提供分析服務(wù)。AnalyticDB產(chǎn)品架構(gòu)41AnalyticDB

產(chǎn)品特點(diǎn)高度的計(jì)算自由無需預(yù)先進(jìn)行數(shù)據(jù)建模海量數(shù)據(jù)靈活分析極速的響應(yīng)時(shí)間毫秒級(jí)千億數(shù)據(jù)多維透視毫秒級(jí)多個(gè)大表關(guān)聯(lián)計(jì)算使用簡(jiǎn)單支持標(biāo)準(zhǔn)SQL支持標(biāo)準(zhǔn)MySQL協(xié)議內(nèi)置數(shù)據(jù)接入和輸出豐富的特色功能高性能的自動(dòng)索引海量數(shù)據(jù)的極速導(dǎo)出內(nèi)置空間、分段等函數(shù)42AnalyticDB

的主要功能及作用實(shí)時(shí)分析急速查詢超大規(guī)模易用兼容ADBMySQL版是云端托管的大規(guī)模并行處理(MPP)的PB級(jí)數(shù)據(jù)倉(cāng)庫(kù),通常作為實(shí)時(shí)分析數(shù)據(jù)庫(kù)應(yīng)用,實(shí)時(shí)數(shù)據(jù)分析處理、在線數(shù)據(jù)運(yùn)營(yíng)。43AnalyticDB

的使用流程AnalyticDB云原生數(shù)據(jù)倉(cāng)庫(kù)MySQL版完全兼容MySQL協(xié)議,創(chuàng)建好數(shù)據(jù)后,就可以像使用MySQL一樣使用數(shù)據(jù)庫(kù)了。開通服務(wù)創(chuàng)建集群設(shè)置白名單創(chuàng)建數(shù)據(jù)庫(kù)賬號(hào)創(chuàng)建數(shù)據(jù)庫(kù)連接集群、登錄數(shù)據(jù)庫(kù)數(shù)據(jù)操作AnalyticDB44數(shù)據(jù)庫(kù)連接MySQL連接命令:mysql–h<adb_url>-P3306–u<adb_user>-p<adb_password>示例:mysql-ham-bp****.-P3306-utest-pTest123參數(shù)說明:adb_url:AnalyticDBforMySQL集群的連接地址,通過控制臺(tái)集群信息頁面中的網(wǎng)絡(luò)信息區(qū)域獲取連接地址。3306:端口為3306。adb_user:AnalyticDBforMySQL集群中的高權(quán)限賬號(hào)或者擁有相關(guān)權(quán)限的普通賬號(hào)。adb_password:賬號(hào)對(duì)應(yīng)的密碼。通過支持MySQL協(xié)議的客戶端連接數(shù)據(jù):45Java開發(fā)應(yīng)用首先下載并安裝mysql-connector-java-5.x.x-bin.jar接著在Eclipse中,選擇項(xiàng)目->屬性->Java構(gòu)建路徑,在“庫(kù)”選項(xiàng)卡中,選擇“添加外部JAR”,找到下載的mysql-connector-java-5.x.x-bin.jar文件,將其添加進(jìn)項(xiàng)目Connectionconnection=null;Statementstatement=null;ResultSetrs=null;try{Class.forName("com.mysql.jdbc.Driver");Stringurl="jdbc:mysql://adb_url:3306/db_name?useUnicode=true&characterEncoding=UTF-8";PropertiesconnectionProps=newProperties();connectionProps.put("user","account_name");connectionProps.put("password","account_password");

connection=DriverManager.getConnection(url,connectionProps);statement=connection.createStatement();Stringquery="selectcount(*)frominformation_schema.tables";rs=statement.executeQuery(query);while(rs.next()){System.out.println(rs.getObject(1));}}catch(ClassNotFoundExceptione){46數(shù)據(jù)導(dǎo)入導(dǎo)出數(shù)據(jù)管理DMS自帶功能DMLDataWorks數(shù)據(jù)同步支持CSV、ZIP、SQL文件上傳,普通版上傳文件大小限制為100M,高級(jí)版為1GB。分為兩類:其一通過外部表方式,此方式限于常見數(shù)據(jù)庫(kù)如RDS、DRDS之間、MaxCompute、OSS之間;其二使用客戶端通過Load命令方式。數(shù)據(jù)源類型支持DataWorks中定義的的數(shù)據(jù)源類型,包括:RDS、自建數(shù)據(jù)庫(kù)MySQL/SQLServer/postGreSQL、DRDS、OSS、Oracle、ftp等。實(shí)時(shí)數(shù)據(jù)傳輸工具其一支持通過DTS實(shí)時(shí)同步RDSforMySQL、DRDS數(shù)據(jù);其二通過Logstash實(shí)時(shí)采集日志數(shù)據(jù)或消息類數(shù)據(jù)到ADB。47課程目錄阿里云大數(shù)據(jù)產(chǎn)品體系數(shù)據(jù)存儲(chǔ)計(jì)算工具數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)工具3.1機(jī)器學(xué)習(xí)PAI數(shù)據(jù)可視化工具什么是機(jī)器學(xué)習(xí)PAI阿里云機(jī)器學(xué)習(xí)平臺(tái)PAI(PlatformofArtificialIntelligence):是構(gòu)建在阿里云MaxCompute計(jì)算平臺(tái)之上,集數(shù)據(jù)處理、建模、離線預(yù)測(cè)、在線預(yù)測(cè)為一體的機(jī)器學(xué)習(xí)平臺(tái)。為算法開發(fā)者提供了豐富的MPI、PS、BSP等編程框架和數(shù)據(jù)存儲(chǔ)接口,同時(shí)提供了基于WEB的可視化控制臺(tái),降低了使用門檻。PAI上手簡(jiǎn)單、算法豐富、一站式體驗(yàn)并支持深度學(xué)習(xí)。機(jī)器學(xué)習(xí)PAI49PAI產(chǎn)品架構(gòu)50PAI產(chǎn)品特點(diǎn)易用通過對(duì)底層分布式算法的封裝,提供拖、拉、拽的可視化操作環(huán)境。使機(jī)器學(xué)習(xí)的創(chuàng)建過程像堆積木一樣簡(jiǎn)單。算法豐富提供特征過程、數(shù)據(jù)預(yù)處理、統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)框架、預(yù)測(cè)評(píng)估等300多種算法組件一站式提供模型訓(xùn)練功能,還提供在線預(yù)測(cè)功能以及離線調(diào)度功能,讓機(jī)器學(xué)習(xí)訓(xùn)練結(jié)果和業(yè)務(wù)可以無縫銜接。深度學(xué)習(xí)支持目前Tensorflow、Caffe、MXNet、PyTorch主流的機(jī)器學(xué)習(xí)框架,底層提供GPU卡進(jìn)行訓(xùn)練。51PAI的功能及應(yīng)用可視化建模和分布式訓(xùn)練交互式AI研發(fā)自動(dòng)化建模在線預(yù)測(cè)服務(wù)PAI跟DataWorks是無縫打通的,實(shí)現(xiàn)SQL、UDF、UDAF、MR等多種數(shù)據(jù)處理,基于PAI平臺(tái)上訓(xùn)練模型,生成的模型可以通過EAS部署到線上環(huán)境,并支持周期性調(diào)度,也可以發(fā)布到DataWorks與其它上下游任務(wù)節(jié)點(diǎn)打通依賴關(guān)系。另外調(diào)度任務(wù)區(qū)分生產(chǎn)環(huán)境以及開發(fā)環(huán)境,可以做到數(shù)據(jù)安全隔離。即數(shù)據(jù)在MaxCompute或OSS上,PAI完成數(shù)據(jù)建模。52PAI的使用流程PAI的可視化建??梢曰谀0逡部梢孕陆āi_通服務(wù)選擇所屬項(xiàng)目空間創(chuàng)建模板或選擇模板配置數(shù)據(jù)源數(shù)據(jù)建模部署應(yīng)用PAI53PAI的數(shù)據(jù)建模數(shù)據(jù)預(yù)處理數(shù)據(jù)特征工程機(jī)器學(xué)習(xí)模型訓(xùn)練模型評(píng)估離線/在線服務(wù)學(xué)習(xí)在明確任務(wù)、目標(biāo)、并且掌握數(shù)據(jù)實(shí)際情況前提下,即完成商業(yè)理解任務(wù)、數(shù)據(jù)理解任務(wù)前提下,開始機(jī)器學(xué)習(xí)的數(shù)據(jù)建模過程:1)數(shù)據(jù)預(yù)處理2)選擇特征3)選擇模型進(jìn)行數(shù)據(jù)訓(xùn)練4)模型評(píng)估5)應(yīng)用部署及再學(xué)習(xí)、再訓(xùn)練54PAI建模支持的組件PAI提供最豐富的組件:包括特征工程、數(shù)據(jù)預(yù)處理組件、統(tǒng)計(jì)分析、常用機(jī)器學(xué)習(xí)算法、深度學(xué)習(xí)、垂直應(yīng)用相關(guān)的文本分析、探索推薦、圖像處理、網(wǎng)格分析等多種算法。數(shù)據(jù)預(yù)處理組件特征工程組件統(tǒng)計(jì)分析組件機(jī)器學(xué)習(xí)組件文本分析組件網(wǎng)絡(luò)分析組件深度學(xué)習(xí)組件PAI支持的組件55PAI三種建模方式–PAI-AutoLearningPAI-AutoLearning

支持在線標(biāo)注、自動(dòng)模型訓(xùn)練、超參優(yōu)化以及模型評(píng)估。只需少量標(biāo)注數(shù)據(jù)為輸入,無需人工智能基礎(chǔ)、無需寫代碼、無需調(diào)參,模型訓(xùn)練完整過程交給PAIAutoLearning,即可得到高可用的模型。數(shù)據(jù)標(biāo)注模型訓(xùn)練及評(píng)估模型試用56PAI三種建模方式–

PAI-StudioPAI-Studio提供可視化的機(jī)器學(xué)習(xí)實(shí)驗(yàn)開發(fā)環(huán)境,幫助用戶實(shí)現(xiàn)無代碼開發(fā)人工智能相關(guān)服務(wù)。內(nèi)置數(shù)百個(gè)成熟的機(jī)器學(xué)習(xí)算法,覆蓋商品推薦、金融風(fēng)控、廣告預(yù)測(cè)等場(chǎng)景,滿足用戶不同程度的需求,即開即用。57PAI三種建模方式–

PAI-Studio機(jī)器學(xué)習(xí)控制臺(tái)點(diǎn)擊進(jìn)入PAI-Studio點(diǎn)擊創(chuàng)建項(xiàng)目點(diǎn)擊進(jìn)入PAI算法平臺(tái)58PAI三種建模方式–

PAI-Studio點(diǎn)擊新建實(shí)驗(yàn)點(diǎn)擊查看實(shí)驗(yàn)列表點(diǎn)擊查看數(shù)據(jù)源點(diǎn)擊查看組件點(diǎn)擊查看模型點(diǎn)擊進(jìn)入設(shè)置59PAI三種建模方式–

PAI-Studio當(dāng)前進(jìn)入的實(shí)驗(yàn)點(diǎn)擊查看組件右擊組件,彈出菜單可進(jìn)行修改、運(yùn)行、查看數(shù)據(jù)和日志操作組件列表中,展開各類組件中的具體組件,選擇具體組件拖入實(shí)驗(yàn)畫布構(gòu)建實(shí)驗(yàn)60PAI三種建模方式–

PAI-DSWPAI-DSW通過DSW平臺(tái)完成數(shù)據(jù)預(yù)處理、算法開發(fā)、模型訓(xùn)練以及模型部署,無需多平臺(tái)切換。DSW內(nèi)置了PAI團(tuán)隊(duì)深度優(yōu)化過的Tensorflow框架,同時(shí)也支持通過打開Terminal自行安裝第三方庫(kù)。61PAI的在線預(yù)測(cè)、離線調(diào)度PAI除了提供模型訓(xùn)練功能,還提供了在線預(yù)測(cè)以及離線調(diào)度功能,讓機(jī)器學(xué)習(xí)訓(xùn)練結(jié)果和業(yè)務(wù)可以無縫銜接。62課程目錄阿里云大數(shù)據(jù)產(chǎn)品體系數(shù)據(jù)存儲(chǔ)計(jì)算工具數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)工具數(shù)據(jù)可視化工具4.1BI分析平臺(tái)QuickBI4.2數(shù)據(jù)大屏DataVQuickBI介紹QuickBI是一個(gè)基于云計(jì)算的靈活的輕量級(jí)的自助BI工具服務(wù)平臺(tái)。它提供海量數(shù)據(jù)實(shí)時(shí)在線分析,拖拽式操作、豐富的可視化效果,幫助您輕松自如地完成數(shù)據(jù)分析、業(yè)務(wù)數(shù)據(jù)探查。它不止是業(yè)務(wù)人員看數(shù)據(jù)的工具,更是數(shù)據(jù)化運(yùn)營(yíng)的助推器,解決大數(shù)據(jù)應(yīng)用“最后一公里”的問題,實(shí)現(xiàn)人人都是數(shù)據(jù)分析師。QuickBI64QuickBI產(chǎn)品架構(gòu)數(shù)據(jù)源Quick

BIDesign

Portal可視化組件庫(kù)智能洞察工作表模型設(shè)計(jì)器儀表板數(shù)據(jù)門戶安全管控組織管理智能引擎Super

EngineIn-MemoryIndexMPPCube智能路由算法庫(kù)語音識(shí)別機(jī)器學(xué)習(xí)文本挖掘65QuickBI產(chǎn)品特點(diǎn)多支持多種類型數(shù)據(jù)源支持多種可視化組件快海量數(shù)據(jù)的實(shí)時(shí)分析提供智能的一鍵加速好靈活的報(bào)表集成方案嚴(yán)密的安全權(quán)限管理省門檻低易上手省時(shí)間云計(jì)算費(fèi)用低省成本66QuickBI的功能及作用數(shù)據(jù)分析極速建模數(shù)據(jù)可視化多維數(shù)據(jù)分析數(shù)據(jù)報(bào)表集成多用戶協(xié)作QuickBI是在大數(shù)據(jù)構(gòu)建與管理之上,直接解決業(yè)務(wù)場(chǎng)景問題,支持全局?jǐn)?shù)據(jù)監(jiān)控和數(shù)據(jù)化運(yùn)營(yíng),QuickBI通常在大數(shù)據(jù)分析平臺(tái)實(shí)現(xiàn)數(shù)據(jù)分析、數(shù)據(jù)展現(xiàn)。常見應(yīng)用場(chǎng)景如:數(shù)據(jù)及時(shí)分析與決策、報(bào)表與自有系統(tǒng)集成、交易數(shù)據(jù)權(quán)限管控等。67QuickBI核心流程QuickBI是一個(gè)基于云計(jì)算的靈活的輕量級(jí)的自助BI工具服務(wù)平臺(tái)。新建數(shù)據(jù)源創(chuàng)建數(shù)據(jù)集制作工作表、電子表格和儀表板搭建數(shù)據(jù)門戶QuickBI68課程目錄阿里云大數(shù)據(jù)產(chǎn)品體系數(shù)據(jù)存儲(chǔ)計(jì)算工具數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)工具數(shù)據(jù)可視化工具

4.1BI分析平臺(tái)QuickBI

4.2數(shù)據(jù)大屏DataV什么是DataVDataV數(shù)據(jù)可視化:是阿里云研發(fā)的,使用可視化大屏的方式來分析并展示龐雜數(shù)據(jù)的產(chǎn)品。DataV旨讓更多的人看到數(shù)據(jù)可視化的魅力,幫助非專業(yè)的工程師通過圖形化的界面輕松搭建專業(yè)水準(zhǔn)的可視化應(yīng)用,滿足會(huì)議展覽、業(yè)務(wù)監(jiān)控、風(fēng)險(xiǎn)預(yù)警、地理信息分析等多種業(yè)務(wù)的展示需求。DataV70DataV的特點(diǎn)高性能的三維渲染引擎,游戲級(jí)渲染能力大量的炫酷圖表組件專業(yè)級(jí)地理信息可視化,地理數(shù)據(jù)多層疊加數(shù)十種行業(yè)數(shù)據(jù)模板多種數(shù)據(jù)源接入圖形

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論