大數(shù)據(jù)治理體系和大數(shù)據(jù)架構(gòu)技術(shù)方案_第1頁(yè)
大數(shù)據(jù)治理體系和大數(shù)據(jù)架構(gòu)技術(shù)方案_第2頁(yè)
大數(shù)據(jù)治理體系和大數(shù)據(jù)架構(gòu)技術(shù)方案_第3頁(yè)
大數(shù)據(jù)治理體系和大數(shù)據(jù)架構(gòu)技術(shù)方案_第4頁(yè)
大數(shù)據(jù)治理體系和大數(shù)據(jù)架構(gòu)技術(shù)方案_第5頁(yè)
已閱讀5頁(yè),還剩441頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第1章需求概述 8 8 1.5設(shè)計(jì)原則 第2章總體技術(shù)方案 2.2總體技術(shù)架構(gòu)設(shè)計(jì) 2.3功能組件完整性介紹 2.3.1、數(shù)據(jù)集成組件(DataHub) 、數(shù)據(jù)采集管理 2.3.2、大數(shù)據(jù)計(jì)算存儲(chǔ)平臺(tái)(HadoopDistribution) 、海量數(shù)據(jù)集中存儲(chǔ) 、高效數(shù)據(jù)處理 、分布式應(yīng)用協(xié)調(diào) 、計(jì)算資源分配控制 、存儲(chǔ)資源分配控制 、平臺(tái)高可用性 2.3.3、算法與分析工具(ArtificialIntelligence) 、數(shù)據(jù)挖掘工具 、R統(tǒng)計(jì)分析 、Python統(tǒng)計(jì)分析 2.3.4、數(shù)據(jù)資產(chǎn)管理(DataGovernor) 、元數(shù)據(jù)管理 、數(shù)據(jù)標(biāo)準(zhǔn)與質(zhì)量管理 、數(shù)據(jù)生命周期管理 2.3.5、數(shù)據(jù)可視化(Vision) 、數(shù)據(jù)源 、智能報(bào)表 、儀表板 、OFFICE插件 、移動(dòng)可視化 2.3.6、系統(tǒng)運(yùn)維監(jiān)控(Manager) 、集群監(jiān)控 、服務(wù)管理 、主機(jī)管理 、版本管理 82 、統(tǒng)計(jì)分析和精確查詢 、Spark計(jì)算引擎結(jié)合分布式內(nèi)存計(jì)算提供交互式統(tǒng)計(jì)分析能力 、多種索引支持與智能索引 、高并發(fā)、低延遲性能優(yōu)化 、計(jì)算資源有效管控 、API設(shè)計(jì)和開發(fā)工具支持 、接口開放性 、第三方工具生態(tài)圈整合 、擴(kuò)容、備份、恢復(fù)機(jī)制 、數(shù)據(jù)倉(cāng)庫(kù)集群 、歷史數(shù)據(jù)分析探索集群 、開發(fā)集群 、測(cè)試集群 、集群容量說(shuō)明 、硬件配置建議 、網(wǎng)絡(luò)拓?fù)浼軜?gòu) 2.4.1、的發(fā)展緊隨Apache社區(qū) 2.4.2、集群內(nèi)所有組件的管理節(jié)點(diǎn)均實(shí)現(xiàn)HA 2.4.3、提供完全基于WEB圖形化的集群服務(wù)器角色,配置和狀態(tài)管理 2.4.4、集群支持線性擴(kuò)展 2.4.5、100%兼容標(biāo)準(zhǔn)SQL92 2.4.6、支持分布式文件系統(tǒng)HDFS和HBase等主流數(shù)據(jù)庫(kù) 2.4.7、支持多種計(jì)算執(zhí)行引擎 、批量計(jì)算框架 、流式計(jì)算框架 、多維數(shù)據(jù)分析計(jì)算框架 2.4.8、支持異構(gòu)數(shù)據(jù)庫(kù)關(guān)聯(lián)查詢 2.4.9、支持大部分的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法 2.4.11、同時(shí)支持Solr和ElasticSearch 118ElasticSearch優(yōu)點(diǎn) ElasticSearch缺點(diǎn) 119Solr的優(yōu)點(diǎn) Solr的缺點(diǎn) 2.4.14、支持支持分布式存儲(chǔ)數(shù)據(jù)加密 2.4.15、支持記錄操作日志留存 2.4.16、支持自適應(yīng)壓縮算法 2.4.17、SQL支持各類函數(shù) 2.4.18、具備可視化分析能力 2.4.19、支持建立OLAPCube 2.4.21、支持多種數(shù)據(jù)類型的文件加載到大數(shù)據(jù)平臺(tái) 2.4.22、支持復(fù)雜模型建模 2.4.23、數(shù)據(jù)上載速度快 2.4.24、SQL性能好 139 139 2.5.2、SQL語(yǔ)法兼容性 2.5.3、生命周期管理功能 1462.5.4、表分區(qū)功能 2.5.5、表壓縮功能 150 150 152 2.5.12、在線擴(kuò)容 3.1項(xiàng)目組織管理 156 3.2項(xiàng)目管理計(jì)劃 3.2.1綜合管理計(jì)劃 160 1613.2.2綜合變更控制 3.3范圍控制計(jì)劃 3.3.1范圍定義及跟蹤 3.3.2變更管理 3.3.3變更控制工具 3.4.1項(xiàng)目進(jìn)度跟蹤 3.4.3項(xiàng)目進(jìn)度控制 164 3.5.1人力資源規(guī)劃 1653.6質(zhì)量保障計(jì)劃 1653.6.1質(zhì)量保證目標(biāo) 1653.6.3質(zhì)量保證流程 3.6.4質(zhì)量保證活動(dòng) 3.7溝通管理計(jì)劃 3.7.1溝通計(jì)劃 169 3.8.5配置管理活動(dòng) 3.9.2風(fēng)險(xiǎn)分析 3.9.3風(fēng)險(xiǎn)控制 3.10.1變革管理方法 178 1793.11.4項(xiàng)目里程碑 182 3.14.4質(zhì)量保證活動(dòng) 3.15.1背景介紹 3.15.2客戶管理 190 190 192 193 194 3.15.5服務(wù)實(shí)體設(shè)施 3.17.1風(fēng)險(xiǎn)計(jì)劃 3.17.2風(fēng)險(xiǎn)監(jiān)視 2063.17.3風(fēng)險(xiǎn)管理 第4章售后服務(wù)及培訓(xùn) 207 207 2124.2.2運(yùn)維風(fēng)險(xiǎn)預(yù)防措施 214 214 215 4.3.3運(yùn)維知識(shí)庫(kù)系統(tǒng) 216 4.3.6服務(wù)監(jiān)督機(jī)制 2194.3.9免費(fèi)質(zhì)保期后的運(yùn)維保障 220 2214.6.2人員培訓(xùn)計(jì)劃 第5章施工組織設(shè)計(jì)方案 225 228 229 5.1.5工程所用產(chǎn)品進(jìn)場(chǎng)計(jì)劃 231 231 5.3質(zhì)量及保修服務(wù) 5.3.1保修期與保修范圍 5.3.4售后維護(hù)服務(wù) 5.3.5接口對(duì)接服務(wù) 5.4組織管理 5.4.2項(xiàng)目質(zhì)量管理 質(zhì)量管理計(jì)劃 質(zhì)量管理過(guò)程 單元測(cè)試 集成測(cè)試 系統(tǒng)測(cè)試 用戶測(cè)試(試運(yùn)行測(cè)試) 測(cè)試組織 測(cè)試準(zhǔn)備 測(cè)試問(wèn)題跟蹤 文檔核查 測(cè)試技術(shù) 5.5.1主要風(fēng)險(xiǎn)列表 5.5.2風(fēng)險(xiǎn)影響分析 風(fēng)險(xiǎn)應(yīng)對(duì)措施 其他風(fēng)險(xiǎn)措施 5.5.6項(xiàng)目溝通管理 5.5.8問(wèn)題與爭(zhēng)議管理辦法 5.6上線后支持期 第1章需求概述1.1背景概述已經(jīng)有越來(lái)越多的企事業(yè)單位通過(guò)大數(shù)據(jù)技術(shù)為來(lái)創(chuàng)造更多的1.2建設(shè)目標(biāo)全市人口基礎(chǔ)數(shù)據(jù)庫(kù)大數(shù)據(jù)平臺(tái)系統(tǒng)需要建設(shè)成為一個(gè)是一√全市人口建設(shè)的大數(shù)據(jù)應(yīng)用平臺(tái)項(xiàng)目,要實(shí)現(xiàn)的具體業(yè)務(wù)支持各類結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化海量數(shù)據(jù)的低成本存術(shù)基礎(chǔ)設(shè)施。支持將人口、環(huán)境、教育等數(shù)據(jù)導(dǎo)入導(dǎo)數(shù)據(jù)平臺(tái)?!讨С忠苿?dòng)互聯(lián)渠道場(chǎng)景的高并發(fā)低延時(shí)數(shù)據(jù)服務(wù)需求銀行在移動(dòng)互聯(lián)渠道提供的客戶服務(wù)逐漸豐富,客戶點(diǎn)擊流√支持業(yè)務(wù)數(shù)據(jù)分析團(tuán)隊(duì)自主數(shù)據(jù)探索和業(yè)務(wù)建模通過(guò)良好可視化支持的集成工具軟件,業(yè)務(wù)數(shù)據(jù)分析團(tuán)隊(duì)可√軟件相關(guān)支持服務(wù)法。平臺(tái)需要提供對(duì)R語(yǔ)言和Python的支持,能夠使用R語(yǔ)言所提供的5千多種算法,可以通過(guò)算法靈活的對(duì)數(shù)據(jù)進(jìn)行分析和1.4面臨挑戰(zhàn)XXX醫(yī)院的數(shù)據(jù)增長(zhǎng)迅速,已經(jīng)達(dá)到TB級(jí)別,如果加上非結(jié)構(gòu)化數(shù)據(jù),未來(lái)幾年的數(shù)據(jù)存儲(chǔ)將達(dá)到幾十TB,甚至上百TB的XXX醫(yī)院項(xiàng)目基礎(chǔ)軟件及服務(wù)數(shù)據(jù)處理平臺(tái)也是面臨的挑戰(zhàn)。平1.5設(shè)計(jì)原則系統(tǒng)在設(shè)計(jì)過(guò)程中除考慮滿足當(dāng)前項(xiàng)目建設(shè)要求外,還應(yīng)當(dāng)?shù)?章總體技術(shù)方案2.1軟件架構(gòu)然而現(xiàn)有的Hadoop技術(shù)仍然面臨一些挑戰(zhàn):性能上,盡管據(jù)進(jìn)行高效的分析及利用才能將大數(shù)據(jù)中存在的巨大潛在價(jià)值企業(yè)級(jí)大數(shù)據(jù)分析平臺(tái)是業(yè)界領(lǐng)先的處理企業(yè)級(jí)大數(shù)據(jù)場(chǎng)景數(shù)據(jù)資產(chǎn)管理平臺(tái)系統(tǒng)運(yùn)維監(jiān)控中心支持SQL標(biāo)準(zhǔn),增強(qiáng)分布式事務(wù)處理能力,全面支持MPP場(chǎng)景;2.2總體技術(shù)架構(gòu)設(shè)計(jì)Hadoop/Spark框架進(jìn)行了大量的修復(fù)完善及深度優(yōu)化工作,并分布式文件系統(tǒng)HDFS通過(guò)FTPOverHDFS提供文件通過(guò)FTP傳和訓(xùn)練引擎平臺(tái)流計(jì)算引荸:支持Storm,庫(kù)HivekkeepeZoeZoo內(nèi)存數(shù)據(jù)庫(kù)多租戶與日志與審大數(shù)據(jù)分析平臺(tái)從功能架構(gòu)上分為數(shù)據(jù)集成套件、大數(shù)據(jù)計(jì)號(hào)名稱軟件說(shuō)明軟件來(lái)源數(shù)據(jù)集成套件提供對(duì)多種結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的靈活集成。支持不同系統(tǒng)和設(shè)備的開發(fā)工具套件,能夠根據(jù)企業(yè)的需求方便地快速擴(kuò)展,為企業(yè)自有號(hào)名稱軟件說(shuō)明軟件來(lái)源快速收集其信息系統(tǒng)之外的設(shè)備、用戶和社交數(shù)據(jù)。同時(shí)也提供網(wǎng)絡(luò)爬蟲模塊,以方便企業(yè)獲取外部網(wǎng)絡(luò)數(shù)據(jù)。大數(shù)據(jù)計(jì)算平臺(tái)基于開源Hadoop+Spark生態(tài)系統(tǒng),引入了多種核心功能和組件,對(duì)復(fù)雜開源技術(shù)進(jìn)行高度集成和性能優(yōu)化,面向基礎(chǔ)設(shè)施層進(jìn)行深度調(diào)優(yōu)。在分布式存儲(chǔ)系統(tǒng)的基礎(chǔ)上,建立了統(tǒng)一資源調(diào)度管理,高效地支持大規(guī)模批處理、交互式查詢計(jì)算、流式計(jì)算等多種計(jì)算引擎。自有算法與分析工具提供挖掘算法工具、人工智能工具實(shí)現(xiàn)數(shù)據(jù)深度挖掘能力;同時(shí)為各類客戶查詢分析、應(yīng)用開發(fā)等相關(guān)工具,方便人員使用。自有系統(tǒng)運(yùn)維管控系統(tǒng)運(yùn)維監(jiān)控中心可提供快速完成產(chǎn)品套件的安裝部署、節(jié)點(diǎn)監(jiān)控、訪問(wèn)權(quán)限管理、資源配額管理、系統(tǒng)告警分析、升級(jí)擴(kuò)容等計(jì)算平臺(tái)維護(hù)工作,通過(guò)統(tǒng)一的圖形化界自有號(hào)名稱軟件說(shuō)明軟件來(lái)源面實(shí)現(xiàn)對(duì)大數(shù)據(jù)平臺(tái)及運(yùn)行服務(wù)狀況的實(shí)時(shí)監(jiān)控和管理。數(shù)據(jù)資產(chǎn)管理將數(shù)據(jù)對(duì)象作為一種全新的資產(chǎn)形態(tài),圍繞數(shù)據(jù)資產(chǎn)本身建立一個(gè)可靠可信的管理機(jī)制,提供數(shù)據(jù)標(biāo)準(zhǔn)管理、數(shù)據(jù)資產(chǎn)管理、元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)安全等,以實(shí)現(xiàn)數(shù)據(jù)的可管、可控、可視,為實(shí)現(xiàn)數(shù)據(jù)價(jià)值增值奠定良好基礎(chǔ)。自有數(shù)據(jù)可視化Vision具有儀表盤(Dashboard)、靈活查詢(Query)、電子表格(Spreadsheet)、多維分析(Analysis)、移動(dòng)應(yīng)用(Mobile)、分析報(bào)告插件(OfficeAddin)、自助分析(xQuery)、數(shù)據(jù)采集(dataIn)、數(shù)據(jù)挖掘(Smart直觀便捷地獲取信息,并開創(chuàng)性地把各種技術(shù)整合到一個(gè)集成環(huán)境自有基于企業(yè)內(nèi)部多年的大數(shù)據(jù)建設(shè)實(shí)踐經(jīng)驗(yàn),針對(duì)開源ApacheHadoop/Spark框架進(jìn)行了大量的修復(fù)完善及深度優(yōu)化工作,并2.3功能組件完整性介紹Hadoop/Spark框架進(jìn)行了大量的修復(fù)完善及深度優(yōu)化工作,并產(chǎn)品功能說(shuō)明:功能數(shù)據(jù)庫(kù)導(dǎo)入支持MySql、Oracle、DB2等多種數(shù)據(jù)庫(kù)到Hive、HDFS的數(shù)據(jù)導(dǎo)入;支持常見數(shù)據(jù)庫(kù)互導(dǎo)以及導(dǎo)入到HDFS和本地文件導(dǎo)入支持本地文件、Excel、CSV到Hive、HDFS的導(dǎo)入;客戶端導(dǎo)本地路徑文件源、客戶端導(dǎo)數(shù)據(jù)庫(kù)數(shù)據(jù)源;Dump文件上傳到Hive、HDFS、公有云數(shù)據(jù)導(dǎo)入提供阿里云、亞馬遜云RDS到HIVE、HDFS、常見DB數(shù)據(jù)導(dǎo)入;大數(shù)據(jù)類數(shù)據(jù)庫(kù)導(dǎo)入支持Redis、HBase、Impala、MongoDB等數(shù)據(jù)導(dǎo)入Http流式上傳提供http流式上傳方式,開放上傳接口,上傳到kafka消息隊(duì)列服務(wù)提供Kafka消息隊(duì)列服務(wù)其他類型導(dǎo)入支持SAP、網(wǎng)絡(luò)數(shù)據(jù)爬取等功能;提供FTP上傳到HDFS遷移任務(wù)展示所創(chuàng)建的任務(wù)信息及任務(wù)運(yùn)行情況,并可對(duì)任務(wù)進(jìn)行管理查看所有數(shù)據(jù)遷移任務(wù)的執(zhí)行歷史和日志(比如某條任務(wù)是每小時(shí)執(zhí)行一次,就會(huì)產(chǎn)生多條執(zhí)行歷史)資源庫(kù)創(chuàng)建資源庫(kù)連接信息并保存,在之后的上傳過(guò)程中,可以選擇已經(jīng)保存過(guò)的數(shù)據(jù)庫(kù),自動(dòng)進(jìn)行連接選擇,不用再輸入信息,方便操作;對(duì)保存過(guò)的資源庫(kù)連接進(jìn)行列表展示,并可以對(duì)資源庫(kù)信息進(jìn)行管理操作;流程管理流程的新建、復(fù)制、刪除、修改、啟用、停止、查詢,定義任務(wù)調(diào)度策略;分布式文件存儲(chǔ)-HDFS分布式文件存儲(chǔ)、多副本備份與同步機(jī)制,提供容錯(cuò)機(jī)制,可修改副本策略,支持跨機(jī)房備大文件寫入、流式數(shù)據(jù)訪問(wèn)、高吞吐量數(shù)據(jù)訪支持?jǐn)?shù)據(jù)存儲(chǔ)分布策略,支持機(jī)架感知與負(fù)載均衡,支持高可用;分布式、列存儲(chǔ)、多維結(jié)構(gòu)存儲(chǔ),支持結(jié)構(gòu)化和非結(jié)構(gòu)化大數(shù)據(jù)量的高速讀寫操作;面向列表(簇)的存儲(chǔ)和權(quán)限控制,列(簇)獨(dú)立檢索,以及二級(jí)索引,支持?jǐn)?shù)據(jù)多版本;面向列的數(shù)據(jù)壓縮,高壓縮比,有效降低磁盤數(shù)據(jù)倉(cāng)庫(kù)工具海量結(jié)構(gòu)數(shù)據(jù)批量離線分析;提供基于HQL的數(shù)據(jù)查詢機(jī)制,支持UDF,自定義存儲(chǔ)格式,擴(kuò)展數(shù)據(jù)類型,函數(shù)和腳本;批量計(jì)算框架數(shù)據(jù)劃分和計(jì)算任務(wù)調(diào)度;內(nèi)存計(jì)算引框分布式內(nèi)存計(jì)算引擎;流數(shù)據(jù)計(jì)算引擎基于Storm與SparkStreaming的流式計(jì)算分布式數(shù)據(jù)庫(kù)支持基于Spark的MPP架構(gòu)數(shù)據(jù)庫(kù),基于Spark擴(kuò)展CRUD操作;多維分析引擎提供OLAP分析能力,支持SQL查詢分布式消息隊(duì)支持消息隊(duì)列的負(fù)載均衡、分區(qū)存儲(chǔ)、數(shù)據(jù)壓列服務(wù)縮等分布式協(xié)作服務(wù)配置管理、配置更新通知、節(jié)點(diǎn)主備容災(zāi)、節(jié)點(diǎn)心跳管理等;統(tǒng)一資源調(diào)度支持資源封裝、調(diào)度、隔離以及配額管理;支持Capacity(靜態(tài))、FIFO(先進(jìn)先出)、Fair(公平、動(dòng)態(tài))等調(diào)度模式;交互式分析引JDBC/ODBC的數(shù)據(jù)庫(kù)連接,支持BI可視化工具連接數(shù)據(jù)導(dǎo)入導(dǎo)出支持傳統(tǒng)數(shù)據(jù)庫(kù)到Hadoop;支持Hadoop到傳統(tǒng)數(shù)據(jù)庫(kù);全文搜索引擎-Solr基于Lucene的全文搜索服務(wù)器;日志采集服務(wù)-Flume分布式、可靠的日志采集服務(wù);日志分析服務(wù)提供一個(gè)分布式多用戶能力的全文搜索引擎;支持日志搜集處理框架、快速的日志綜合處理能力;支持日志搜索、可視化、分析能力緩存服務(wù)Redis基于Key-value的數(shù)據(jù)緩存庫(kù),支持?jǐn)?shù)據(jù)同安全保障支持Kerberos認(rèn)證和LDAP集成;實(shí)例管理快速檢索查詢當(dāng)前平臺(tái)的所有流程實(shí)例、流程執(zhí)行實(shí)例依賴關(guān)系圖形化、實(shí)例執(zhí)行流程圖查看;重跑、補(bǔ)跑、任務(wù)重試、終止;實(shí)例相關(guān)流程調(diào)度歷史時(shí)長(zhǎng)圖形化與列表兩種方式展示;配置管理數(shù)據(jù)庫(kù)等資源的連接配置;依賴的hadoop/hdfs等相關(guān)的配置;支持短信/郵箱告警服務(wù),如郵箱配置、SMS配置,告警短信配置;數(shù)據(jù)源管理獲取數(shù)據(jù)庫(kù)元數(shù)據(jù)信息,可以展開并快速檢索表信息;數(shù)據(jù)查詢提供SQL編輯器,支持語(yǔ)法補(bǔ)全、關(guān)鍵字補(bǔ)全、數(shù)據(jù)庫(kù)表提示、SQL格式化;支持SQL2003標(biāo)準(zhǔn),兼容SqlServer/Oracle語(yǔ)法,支持存儲(chǔ)過(guò)程、支持TPC-DS測(cè)試集99個(gè)SQL語(yǔ)句;查詢結(jié)果可以通過(guò)交叉表進(jìn)行進(jìn)過(guò)展示,默認(rèn)顯示前100行;腳本開發(fā)支持R、Python腳本運(yùn)行;定時(shí)任務(wù)展示當(dāng)前定時(shí)任務(wù)列表及執(zhí)行歷史;定時(shí)任務(wù)添加、修改、刪除、禁止,可以配置任務(wù)的調(diào)度周期用戶管理-操作用戶用戶及賬戶的添加、修改、刪除,用戶啟停用;項(xiàng)目管理-多租戶管理提供項(xiàng)目管理、人員分配、權(quán)限管理等功能費(fèi)用管理當(dāng)前計(jì)算、存儲(chǔ)資源消耗費(fèi)用計(jì)算,并可查看資源管理當(dāng)前租戶下各項(xiàng)目資源使用情況,對(duì)項(xiàng)目進(jìn)行資源池分配;個(gè)人中心密碼修改、用戶注銷;集群管理(Manager)安裝部署安裝文件拷貝、環(huán)境檢測(cè)與主機(jī)環(huán)境配置、組件自動(dòng)化部署;集群監(jiān)控指標(biāo)監(jiān)控、監(jiān)控?zé)釄D、歷史配置信息、版本信服務(wù)管理添加與刪除服務(wù)、服務(wù)啟停、部署與移動(dòng);參數(shù)配置、配置組、歷史版本;HA配置,支持全組件的HA配置,包括Manager管理節(jié)點(diǎn);主機(jī)管理添加與刪除主機(jī)節(jié)點(diǎn)、主機(jī)監(jiān)控指標(biāo)、主機(jī)及相關(guān)組件的告警信息;告警管理報(bào)警歷史記錄;告警組、告警通知;版本管理平臺(tái)及各個(gè)組件版本管理、版本升級(jí);平臺(tái)授權(quán)信息注冊(cè);維用戶用戶添加、修改、刪除;角色添加、修改、刪除;日志管理根據(jù)檢索內(nèi)容做簡(jiǎn)單的信息統(tǒng)計(jì),統(tǒng)計(jì)不同類型輸出信息數(shù)量;根據(jù)組件、關(guān)鍵字信息做信息搜索;元數(shù)據(jù)采集JDBC數(shù)據(jù)庫(kù)連接采集、DDL文件上傳解析、Excel模板上傳解析、API讀取系統(tǒng)數(shù)據(jù)元數(shù)據(jù)內(nèi)容展示支持?jǐn)?shù)據(jù)庫(kù)Oracle、MySQL、Postgresql、SqlSever的數(shù)據(jù)結(jié)構(gòu)、樣本數(shù)據(jù)、變更詳情、基本信息、存儲(chǔ)信息、分區(qū)信息、索引信息;主外鍵信息采集、視圖信息采集、分區(qū)信息采集及數(shù)據(jù)庫(kù)、表大小的信息采集;支持分布式數(shù)據(jù)架構(gòu)Hive、HDFS信息采集功支持內(nèi)部數(shù)據(jù)處理流程、0ozie、azkaban的信息采集元數(shù)據(jù)查詢支持模糊查詢和精確查詢的全局搜索;Hive和HDFS支持血緣分析功能,主要為表之間的關(guān)聯(lián)性;支持Ooize和Kettle等常見ETL開發(fā)工具的血緣關(guān)系;元數(shù)據(jù)變更記錄可查看系統(tǒng)元數(shù)據(jù)新增、修改、刪除的變更總可查看系統(tǒng)元數(shù)據(jù)新增、修改、刪除的詳情;結(jié)構(gòu)化數(shù)據(jù)管理提供視圖目錄的新增、修改和刪除;元數(shù)據(jù)添加業(yè)務(wù)類描述信息記錄查看表字段和分區(qū)的變更支持用戶對(duì)元數(shù)據(jù)添加:?jiǎn)栴}、描述、數(shù)據(jù)質(zhì)量等描述注釋問(wèn)題;用于團(tuán)隊(duì)分享協(xié)作使用數(shù)提供基于業(yè)務(wù)層級(jí)數(shù)據(jù)模型的管理非結(jié)構(gòu)化數(shù)據(jù)管理提供對(duì)象存儲(chǔ)系統(tǒng),對(duì)文檔、圖片、音頻視頻存儲(chǔ)管理;提供對(duì)非結(jié)構(gòu)化數(shù)據(jù)自動(dòng)打標(biāo)管理;提供通過(guò)標(biāo)簽搜索查詢;數(shù)據(jù)生命周期管理數(shù)據(jù)生命周期判定原則定義生命周期查詢/更改數(shù)據(jù)生命周期監(jiān)控過(guò)期數(shù)據(jù)銷毀元數(shù)據(jù)權(quán)限管理實(shí)體數(shù)據(jù)使用的權(quán)限分配功能元數(shù)據(jù)訪問(wèn)的權(quán)限控制基礎(chǔ)檢查按用戶選定模式統(tǒng)計(jì)"空白"數(shù)量和占比;驗(yàn)證字段的唯一性,統(tǒng)計(jì)不唯一id的占比,計(jì)算"孤值";類型檢查統(tǒng)計(jì)true/false(/nul1)各自占比統(tǒng)計(jì)字符集統(tǒng)計(jì)各自數(shù)量按用戶勾選項(xiàng)統(tǒng)計(jì)結(jié)果日期檢查統(tǒng)計(jì)日期缺失數(shù)量和占比;統(tǒng)計(jì)各種時(shí)間關(guān)鍵數(shù)據(jù);統(tǒng)計(jì)各部分時(shí)間分布;查找出當(dāng)中包含的工作日;其它檢查按用戶輸入統(tǒng)計(jì)各部分?jǐn)?shù)量和占比提取頂部(底部)topN的值統(tǒng)計(jì)用戶指定參數(shù)不匹配的值及數(shù)量比例模式搜索2.3.1、數(shù)據(jù)集成組件(DataHub)關(guān)系型數(shù)據(jù)庫(kù)關(guān)系型數(shù)據(jù)庫(kù)豐富靈活(1)數(shù)據(jù)抽取數(shù)據(jù)采集采用多樣性的接口方式,除了支持傳統(tǒng)的數(shù)據(jù)采集功能針對(duì)不同的使用場(chǎng)景訴求提供種類豐富的方運(yùn)用大規(guī)模并行計(jì)算特點(diǎn)來(lái)達(dá)到批量數(shù)據(jù)抽取目標(biāo),主要應(yīng)對(duì)數(shù)據(jù)抽取數(shù)據(jù)源以較大文件形式對(duì)外提供數(shù)據(jù)時(shí)可采用此多協(xié)議數(shù)據(jù)抽取提供了文件和數(shù)據(jù)庫(kù)等多種數(shù)據(jù)抽取方式包括支持:高性多格式數(shù)據(jù)解析高效率與控制多個(gè)抽取任務(wù)發(fā)布到集群中并行處理,內(nèi)部運(yùn)算使用二進(jìn)

流式(實(shí)時(shí))數(shù)據(jù)抽取流式數(shù)據(jù)采集主要應(yīng)對(duì)海量數(shù)據(jù)進(jìn)行高性能的實(shí)時(shí)數(shù)據(jù)采針對(duì)高頻度的事件流。每個(gè)獨(dú)立的事件都需要處理和分析。高聚合度,以至于數(shù)據(jù)的體積會(huì)大量的減少。數(shù)據(jù)采集內(nèi)置提供多種數(shù)據(jù)采集功能來(lái)滿足數(shù)據(jù)采集功能訴ETL產(chǎn)品在實(shí)現(xiàn)過(guò)程中通過(guò)批量數(shù)據(jù)采集與流式(實(shí)時(shí))數(shù)(2)數(shù)據(jù)轉(zhuǎn)換進(jìn)行統(tǒng)一處理;數(shù)據(jù)粒度轉(zhuǎn)換需要按照數(shù)據(jù)倉(cāng)庫(kù)粒度對(duì)數(shù)據(jù)進(jìn)行統(tǒng)一歸整;轉(zhuǎn)換規(guī)則計(jì)算按照設(shè)計(jì)的計(jì)算歸則對(duì)數(shù)據(jù)進(jìn)行重新計(jì)算。數(shù)據(jù)轉(zhuǎn)換功能說(shuō)明如下:序號(hào)功能功能描述1數(shù)據(jù)轉(zhuǎn)換規(guī)則配置提供圖形化的界面來(lái)實(shí)現(xiàn)靈活的數(shù)據(jù)處理規(guī)則配置,主要提供的數(shù)據(jù)轉(zhuǎn)換規(guī)則設(shè)置包括:對(duì)數(shù)據(jù)進(jìn)行計(jì)算、合并、拆分的規(guī)則配置、對(duì)空值替換規(guī)則的配置、對(duì)數(shù)據(jù)格式化規(guī)則的配置2數(shù)據(jù)處理過(guò)程記錄支持對(duì)數(shù)據(jù)處理過(guò)程的日志記錄,記錄的信息主要包括:元數(shù)據(jù)記錄、轉(zhuǎn)換后數(shù)據(jù)記錄、運(yùn)用的轉(zhuǎn)換規(guī)則、轉(zhuǎn)換的時(shí)間等內(nèi)容;3內(nèi)置豐富的數(shù)據(jù)處理組件支持任意合理的數(shù)據(jù)格式轉(zhuǎn)換,包括但不限于:時(shí)間類型的轉(zhuǎn)換、字符編碼轉(zhuǎn)換;支持任意合理的數(shù)據(jù)類型轉(zhuǎn)換;支持?jǐn)?shù)據(jù)內(nèi)容轉(zhuǎn)換,如通過(guò)關(guān)聯(lián)關(guān)系,將A數(shù)據(jù)源中的數(shù)據(jù)轉(zhuǎn)換為數(shù)據(jù)源B中的數(shù)據(jù);支持多字段的混合運(yùn)算,運(yùn)算規(guī)則可靈活配置,包括但不限于:sum、max、min、avg等;支持各種字符操作,包括但不限序號(hào)功能功能描述于:字符替換、字符截取、字符支持記錄和字段的抽取,支持對(duì)抽取的數(shù)據(jù)進(jìn)行字段擴(kuò)展;支持?jǐn)?shù)據(jù)粒度的轉(zhuǎn)換:將業(yè)務(wù)系統(tǒng)數(shù)據(jù)按照數(shù)據(jù)倉(cāng)庫(kù)粒度進(jìn)行聚合。保證轉(zhuǎn)換后的誤差在規(guī)定的支持空值處理:捕獲空值,根據(jù)規(guī)則替換為對(duì)應(yīng)數(shù)據(jù);支持?jǐn)?shù)據(jù)格式化:統(tǒng)一數(shù)據(jù)源中同類數(shù)據(jù)的格式,具體包括時(shí)間、數(shù)值、字符、計(jì)量單位等數(shù)支持?jǐn)?shù)據(jù)替換:根據(jù)規(guī)則用標(biāo)準(zhǔn)數(shù)據(jù)替換原來(lái)的數(shù)據(jù),支持各種碼表映射,例如用標(biāo)準(zhǔn)編碼替換業(yè)務(wù)系統(tǒng)自定的編碼;支持復(fù)雜條件過(guò)濾,過(guò)濾條件可靈活配置;支持環(huán)境變量動(dòng)態(tài)修改;序號(hào)功能支持?jǐn)?shù)據(jù)去重處理,可按照用戶定義的規(guī)則自動(dòng)判斷重復(fù)數(shù)據(jù),并按照用戶定義的規(guī)則處理重復(fù)支持記錄間合并、支持將一條記錄按照可配置的規(guī)則拆分為多條記錄,支持行、列變換;支持一個(gè)數(shù)據(jù)表中多個(gè)列的合支持跨異構(gòu)數(shù)據(jù)庫(kù)的關(guān)聯(lián);支持將多個(gè)異構(gòu)數(shù)據(jù)表合并為一個(gè)支持將一個(gè)數(shù)據(jù)表拆分為多個(gè)數(shù)支持多種規(guī)則排序;支持多種統(tǒng)計(jì)方式;具備度量衡等常用的轉(zhuǎn)換函數(shù);在轉(zhuǎn)換過(guò)程中支持?jǐn)?shù)據(jù)比較的功支持?jǐn)?shù)據(jù)預(yù)覽;支持?jǐn)?shù)據(jù)清洗及標(biāo)準(zhǔn)化;支持按行、按列的分組聚合;序號(hào)功能具備良好的參數(shù)處理機(jī)制等;ETL處理過(guò)程支持各種字符集的支持樣品數(shù)據(jù)抽取4數(shù)據(jù)轉(zhuǎn)換異常處理支持校驗(yàn)點(diǎn),當(dāng)外部數(shù)據(jù)記錄特別龐大時(shí),如果因?yàn)槟撤N原因發(fā)生故障中斷后,可以從最近的校驗(yàn)點(diǎn)開始恢復(fù)處理(3)數(shù)據(jù)加載同數(shù)據(jù)庫(kù)(RDBMS、MPP、HADOOP等)中。主要應(yīng)對(duì)數(shù)據(jù)加載數(shù)據(jù)源以較大文件形式對(duì)外提供數(shù)據(jù)時(shí)可采流式(實(shí)時(shí))數(shù)據(jù)加載(1)管理監(jiān)控可顯示系統(tǒng)總體運(yùn)行匯總分析報(bào)表。具備直觀的監(jiān)控界面,對(duì)ETL作業(yè)各個(gè)步驟的運(yùn)行情況等提供圖形界面的性能分析,包括分析運(yùn)行的ETL任務(wù)的行>支持直觀展示錯(cuò)誤與異常信息。(2)數(shù)據(jù)校驗(yàn)進(jìn)行對(duì)比分析,從而進(jìn)一步來(lái)分析、發(fā)現(xiàn)與解決在數(shù)據(jù)抽取過(guò)程可能產(chǎn)生的異常錯(cuò)誤信息。數(shù)據(jù)校驗(yàn)從校驗(yàn)對(duì)象細(xì)粒度維度分析,支持文件級(jí)校驗(yàn)與記錄級(jí)校驗(yàn)二大類。數(shù)據(jù)校驗(yàn)?zāi)K還內(nèi)置了部分的數(shù)據(jù)檢查功能,如數(shù)據(jù)唯一性檢查、外鍵完整性檢查。數(shù)據(jù)校驗(yàn)內(nèi)容有類型,長(zhǎng)度,是否為空,精度,范圍,格式等信息。如果數(shù)據(jù)不符合,會(huì)進(jìn)行過(guò)濾,只有正確的數(shù)據(jù)才能繼續(xù)使用。對(duì)于錯(cuò)誤的數(shù)據(jù),可以進(jìn)行輸出,包括錯(cuò)誤原因和錯(cuò)誤字段序號(hào)等信息。(3)調(diào)度策略時(shí)間調(diào)度是根據(jù)事先定義的執(zhí)行頻度,計(jì)算下次執(zhí)行時(shí)間,記錄執(zhí)行次數(shù),并進(jìn)行流程調(diào)度。提供等間隔時(shí)間調(diào)度和定時(shí)調(diào)度,具備自動(dòng)運(yùn)行和手工執(zhí)行兩種啟動(dòng)方式。秒”周期性的調(diào)度●定時(shí)調(diào)度是指確定在某個(gè)時(shí)間點(diǎn)觸發(fā),如每個(gè)月的1號(hào)和10號(hào)執(zhí)行,每天的9點(diǎn)和12點(diǎn)執(zhí)行。時(shí)間調(diào)度觸發(fā)分為定時(shí)一次性觸發(fā)和周期性時(shí)間觸發(fā),定時(shí)一次性觸發(fā)是設(shè)定具體的job調(diào)度時(shí)間執(zhí)行一次,周期性時(shí)間觸發(fā)是按設(shè)定的時(shí)間周期對(duì)job進(jìn)行執(zhí)行調(diào)度。提供臨時(shí)調(diào)度方式(用于測(cè)試、調(diào)優(yōu)、重新執(zhí)行),由用戶手工執(zhí)行。手工觸發(fā)是指需要維護(hù)人員在頁(yè)面上點(diǎn)擊觸發(fā)按鈕才能觸通過(guò)消息機(jī)制實(shí)現(xiàn)流程處理過(guò)程、調(diào)度過(guò)程中異常信息的推系統(tǒng)信息定制:系統(tǒng)信息通告類信息。數(shù)據(jù)集中存儲(chǔ)大數(shù)據(jù)平臺(tái)提供一站式商用大數(shù)據(jù)分析處理平臺(tái),集成分成一個(gè)或多個(gè)數(shù)據(jù)塊,這些塊存儲(chǔ)在一組Datanode上。它們。框架會(huì)對(duì)map的輸出先進(jìn)行排序,然后把結(jié)果輸入給(2)分布式數(shù)據(jù)倉(cāng)庫(kù)引擎(3)基于內(nèi)存的分布式計(jì)算引擎速計(jì)算。擁有HadoopMapReduce所具有的優(yōu)點(diǎn),但不同于rtionBy等多種Transformations操作類型。再像Hadoop那樣就是唯一的DataShuffle一種模式。用戶可以(4)實(shí)時(shí)數(shù)據(jù)處理?yè)?jù)分成小的時(shí)間片斷(一般是秒級(jí)),以類似batch批量處理的方式來(lái)處理這小部分?jǐn)?shù)據(jù)。這里的批處理引擎是Spark,也就是成Spark中的RDD(ResilientDistributedDataset),然后將RDD和HDFS上的數(shù)據(jù),對(duì)與hadoop造sq1,已經(jīng)實(shí)施的大數(shù)據(jù)項(xiàng)目也可以便捷的遷移到spark上,并且可以很好的將批處理與流處理結(jié)合起來(lái),因此成為onesizefirstall通用方案。具有以下特點(diǎn):一,能在Scala代碼里寫SQL,支持SQL語(yǔ)法檢查,能把RDD指定為Table存儲(chǔ)起來(lái)。此外支持部分SQL語(yǔ)法的DSL。二,支持Parquet(Parquet是一種供Hadoop使用的列式存效率壓縮的列式數(shù)據(jù)表達(dá),而且與數(shù)據(jù)處理框架、數(shù)據(jù)模型或編程語(yǔ)言都沒有關(guān)系)文件的讀寫,且保留Schema。三,能在Scala代碼里訪問(wèn)Hive元數(shù)據(jù),能執(zhí)行Hive語(yǔ)句,并且把結(jié)果取回作為RDD使用?!窀咝阅鼙U希撼浞掷肧park的高性能特性,支持大規(guī)模數(shù)據(jù)集下的數(shù)據(jù)更新操作;●高性能優(yōu)化:優(yōu)化的數(shù)據(jù)讀寫結(jié)構(gòu),減少IO操作;統(tǒng)一對(duì)租戶進(jìn)行計(jì)算資源的分配,分配完的參數(shù)部署到計(jì)算資源控制原理(1)分布式存儲(chǔ)的高可用采用QJM的方式實(shí)現(xiàn)HA,文件系統(tǒng)元數(shù)據(jù)存儲(chǔ)在由JournalNode到處理瓶頸時(shí),提供HDFSFederation功能,不同的NameNN(2)統(tǒng)一資源管理的高可用需信息。之所以這樣,是因?yàn)閅ARNResourceManager內(nèi)部保存(3)分布式數(shù)據(jù)倉(cāng)庫(kù)的高可用rac來(lái)hiveserverHAhivehiveserver(4)數(shù)據(jù)快速查詢系統(tǒng)的高可用的機(jī)器,同一時(shí)刻只會(huì)有一個(gè)HMaster對(duì)外提供服務(wù),稱為性協(xié)調(diào)服務(wù)集群Zookeeper將狀態(tài)同步到Standby狀態(tài)的HMaster宕機(jī)的情況,集群會(huì)從Standby狀態(tài)的HMaster中選出一個(gè)成為新的ActiveHMaster對(duì)外提供服務(wù),鎖,用來(lái)阻止其它master成為master;3)和2中的每個(gè)regionserver通信,獲得當(dāng)前已分配ZookeeperZookeeperZookeHbase高可用(5)分布式計(jì)算引擎的高可用Spark在standalone模式下利用zookeeper來(lái)實(shí)現(xiàn)了深度優(yōu)化,優(yōu)化后的性能比開源算法庫(kù)提速3-10倍。線性回歸、聚類、協(xié)同過(guò)濾、隱性反饋vs顯性反饋、梯度下于統(tǒng)計(jì)計(jì)算和統(tǒng)計(jì)制圖的優(yōu)秀編程語(yǔ)言,但是其交互式使用通家分析大規(guī)模的數(shù)據(jù)集,并通過(guò)Rshell交互式地在R統(tǒng)計(jì)分析R統(tǒng)計(jì)分析是一個(gè)R開發(fā)包,為高速內(nèi)存計(jì)算框架提供了輕優(yōu)化的算法庫(kù)機(jī)液林(andoe于被的屋類(dmutpbaddutarng)文本情感分析用戶群體挖掘、產(chǎn)品內(nèi)容標(biāo)簽構(gòu)建、文本主題聚類時(shí)間序列不僅提供傳統(tǒng)數(shù)據(jù)挖掘算法,還提供了自然語(yǔ)言處理、文本分析、水軍識(shí)別、信息傳播等原創(chuàng)前沿機(jī)器學(xué)習(xí)組件Network(1)數(shù)據(jù)挖掘建模提供B/S的圖形配置界面,用戶可以通過(guò)界面直接定義數(shù)據(jù)挖掘流程,并可在以流程配置過(guò)程中設(shè)置相關(guān)建模節(jié)點(diǎn)。可以通過(guò)工作組管理相關(guān)數(shù)據(jù)挖掘流程。平臺(tái)包含以下建模節(jié)點(diǎn):數(shù)據(jù)支持將訓(xùn)練完成的模型文件導(dǎo)出到指定路徑或部署到生產(chǎn)分析大規(guī)模的數(shù)據(jù)集,并通過(guò)Rshell交互式地在R統(tǒng)計(jì)分析上R統(tǒng)計(jì)分析是一個(gè)R開發(fā)包,為高速內(nèi)存計(jì)算框架提供了輕應(yīng)用數(shù)據(jù)質(zhì)量管理數(shù)據(jù)生命周期內(nèi)存數(shù)據(jù)庫(kù)(1)元數(shù)據(jù)采集元數(shù)據(jù)自動(dòng)采集>建模工具采集和管理>數(shù)據(jù)庫(kù)文件采集通過(guò)開發(fā)管理平臺(tái)開發(fā)配置信息錄入通過(guò)運(yùn)行日志sq1獲取通過(guò)上線表單錄入獲取(2)元數(shù)據(jù)查詢(3)元數(shù)據(jù)導(dǎo)出(4)元數(shù)據(jù)維護(hù)(5)元數(shù)據(jù)分析應(yīng)用滿Bc9G滿Bc9GTbt血緣分析a0aUU規(guī)范體系制定規(guī)范體系制定(1)數(shù)據(jù)標(biāo)準(zhǔn)化定義(2)標(biāo)準(zhǔn)化內(nèi)容制定基礎(chǔ)分類標(biāo)準(zhǔn)基礎(chǔ)分類標(biāo)準(zhǔn)元模型標(biāo)準(zhǔn)數(shù)據(jù)分類標(biāo)準(zhǔn)命帝規(guī)范要求布儲(chǔ)規(guī)則數(shù)據(jù)層次標(biāo)準(zhǔn)數(shù)據(jù)主題標(biāo)準(zhǔn)指標(biāo)定義標(biāo)準(zhǔn)口數(shù)據(jù)質(zhì)量規(guī)范規(guī)范檢查規(guī)則質(zhì)量檢查規(guī)則(3)數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)(4)數(shù)據(jù)安全標(biāo)準(zhǔn)字段器級(jí)別設(shè)置安安全權(quán)操作動(dòng)向日志查詢安全操作訪同敏感位原識(shí)別(5)數(shù)據(jù)質(zhì)量管理企業(yè)數(shù)據(jù)質(zhì)量通常存在如下問(wèn)題:●稽核規(guī)則沒有生效,數(shù)據(jù)質(zhì)量風(fēng)險(xiǎn)難以及時(shí)監(jiān)控發(fā)現(xiàn);●現(xiàn)有實(shí)際生效的稽核規(guī)則散落在各層的加工代碼中,未成體數(shù)據(jù)質(zhì)量管理針對(duì)該形勢(shì)提供波動(dòng)檢查,平衡性檢查,閾值勢(shì),比如郵件推送等。數(shù)據(jù)質(zhì)量管理的總體目標(biāo):常態(tài)化、體系化、標(biāo)準(zhǔn)化、自動(dòng)可度量性、可迅速定位和有效解決。通過(guò)流程制度建設(shè)、質(zhì)量評(píng)估體系建設(shè)、質(zhì)量檢測(cè)IT平臺(tái)建設(shè)實(shí)現(xiàn)TDQM(TotalDataQualityManage),即企業(yè)級(jí)全面數(shù)據(jù)質(zhì)量管理。提供數(shù)據(jù)質(zhì)量稽核規(guī)則統(tǒng)一配置,并支持對(duì)質(zhì)量規(guī)則的定義和任意節(jié)點(diǎn)的附加。事后歸納總結(jié),并能對(duì)各過(guò)程中所產(chǎn)生事件及信息形成告警信息,通過(guò)短信、彩信、郵件的形式進(jìn)行發(fā)送。、數(shù)據(jù)生命周期管理(1)數(shù)據(jù)重要性評(píng)估從表的在數(shù)據(jù)使用過(guò)程中和數(shù)據(jù)應(yīng)用中對(duì)表的重要性進(jìn)行評(píng)估,輸出表重要性級(jí)別。重通W--*wifTt(2)數(shù)據(jù)實(shí)效性評(píng)估用(3)數(shù)據(jù)冗余性評(píng)估翔表是否冗余輸出冗余表和合并記錄冗余表信息(4)數(shù)據(jù)下線系統(tǒng)根據(jù)元數(shù)據(jù)信息自動(dòng)分析給出,此表的獨(dú)有程序和輸入h根據(jù)這些表獨(dú)有的程序和輸入表,從后臺(tái)調(diào)度系統(tǒng)停止移除VBA宏進(jìn)行擴(kuò)展;小小智能報(bào)表實(shí)例1a產(chǎn)0條中付內(nèi)/重世黃*%單長(zhǎng)h0甘0比示01157是6635al6/0000上用000002015550000000事江小針040021四000060u04智能報(bào)表實(shí)例2+可平計(jì)117io口限4度73u0商9見!4時(shí)80a規(guī)aJ70431T1亂21范0i又a代間智能報(bào)表實(shí)例3單拖拽即可呈現(xiàn)結(jié)果,處理速度高效,比傳統(tǒng)報(bào)表快10到100表、查詢組成,或任意目標(biāo)URL地址;氣泡圖,散點(diǎn)圖,細(xì)分餅圖,子彈圖等,同時(shí)支持高德地圖API及地圖交互,默認(rèn)具備中國(guó)及各省區(qū)儀表板實(shí)例1√通過(guò)平臺(tái),這些工作都得到了極大的簡(jiǎn)化,采用類似t04Ns2sjs碼anmnK四maa8√簡(jiǎn)單操作實(shí)現(xiàn)時(shí)間智能分析:同期值,前期值,同比,環(huán)√在分析過(guò)程中形成多維分析報(bào)表,可對(duì)其數(shù)據(jù)進(jìn)行計(jì)算、√提供了一流、動(dòng)態(tài)、可管理的鉆取分析、關(guān)聯(lián)分析功能?!讨С志€圖、餅圖、氣泡圖、柱狀圖、橫條圖、面積圖、油同一儀表盤的集中展現(xiàn)、聯(lián)動(dòng)分析。所有圖形展現(xiàn)遵循√離線數(shù)據(jù)推送,隨身攜帶數(shù)據(jù);√手寫批注、微信分享,決策分享更加輕松;系統(tǒng)運(yùn)維監(jiān)控中心提供快速完成產(chǎn)品套件的安裝部署、集群理系統(tǒng)運(yùn)維監(jiān)控-功能結(jié)構(gòu)圖LEAPLEAP系統(tǒng)它理響認(rèn)生機(jī)LEAPLEAP系統(tǒng)管進(jìn)合NomeNodetn7(1)指標(biāo)握正常運(yùn)行時(shí)間、轉(zhuǎn)換的Region、ResourceManage堆、門0.4%NameNodem行的間化7(2)熱圖命命=(3)配置歷史a件=道肆師pitDcf?atTue,Ma21,2017.1219adnnLAPLapiLo(FeLEAPLEAP系統(tǒng)管進(jìn)/88auntianatwanLEAPSuoou14/2MB/14DBNamahadaCC量kamaNedsGCLNamaHadeGtEPCHanshedatNmNadsENanuuarM(1)概覽概覽匯總了各個(gè)服務(wù)的安裝和運(yùn)行情況概覽,當(dāng)前狀態(tài)及異組出列+組出列+96.1G8/144.668.16641)升吸狀態(tài)四構(gòu)中來(lái)線的升誤完塵植式狀志不在實(shí)全做式下NumuNodu#net*進(jìn)盤使用(ED使用)46.8G8/144.6<8(32-46%)設(shè)有齡期斷沒??删值臄?shù)煤,設(shè)有教果一相況有可用的數(shù)病。疫行數(shù)確興機(jī)獎(jiǎng)有可用的數(shù)成。沒有數(shù)端一相興有可用的數(shù)成。疫有數(shù)一解沒有可用的數(shù)錄,NameNiode(2)配置NameNodemaximumnewgenerationsizecCcc/madoop/madoophdtsnamosecondary√主機(jī)監(jiān)控:包括主機(jī)信息、網(wǎng)絡(luò)狀況、內(nèi)存、磁盤、均衡√主機(jī)管理:能夠添加、刪除任意一臺(tái)主機(jī),及主機(jī)上的服√組件信息:可以查看任意主機(jī)安裝的大數(shù)據(jù)組件、服務(wù)的式、添加組件等功能,如可以完成對(duì)DataNata、用1*cm(1)概覽主機(jī)需要1組件重新啟動(dòng)NFSGateway/LEAP-HDFS已啟動(dòng)打開雄護(hù)模式已啟動(dòng)已啟動(dòng)已啟動(dòng)干新廣動(dòng)已啟動(dòng)本MsQLSevw/UAP+eNrsosieaay/NP-lors道鄙不s41(2)組件操作啟動(dòng)所有組件章設(shè)置Rack打開維護(hù)模式4下載客戶端配置(3)主機(jī)告警年響其告警管理提供了整個(gè)集群范圍內(nèi)的主機(jī)和服務(wù)的實(shí)時(shí)運(yùn)行狀態(tài)s 心填填通過(guò)告警通知能夠?qū)崿F(xiàn)對(duì)大數(shù)據(jù)平臺(tái)系統(tǒng)運(yùn)行異常狀況的及時(shí)√告警默認(rèn)以數(shù)字圖標(biāo)的方式在消息通知或告警欄上進(jìn)行LEAPLEAP系統(tǒng)管理nCNTCAI,IINKNOWN,WAnN'NC,OKMALBNamcNodeLastonsckacint本h含單獨(dú)通過(guò)RPM包部署或升級(jí)的組件信息及版本。TNOA-WanosdierthamddssheandcenralsesavesfreanfaarsirmanagamytSryrchranlatanrnsivrnstisahp統(tǒng)為客戶機(jī)/服務(wù)器應(yīng)用程序提供強(qiáng)大的認(rèn)證服務(wù)。該認(rèn)證過(guò)器器圖學(xué)中:AmtankanSeytheyub√日志統(tǒng)計(jì):根據(jù)檢索內(nèi)容做簡(jiǎn)單的信息統(tǒng)計(jì),統(tǒng)計(jì)不同類√日志配置:提供在各個(gè)組件中配置日志的輸出級(jí)別、大小(1)用戶管理√對(duì)用戶進(jìn)行增、刪、該、查、啟用、停用操作;√可重置用戶密碼;√可查看用戶的庫(kù)資源和表資源權(quán)限。登錄名小項(xiàng)目管理員eapidmingemele.巨級(jí)管理員(2)多租戶權(quán)限管理√可新增創(chuàng)建項(xiàng)目,指定項(xiàng)目項(xiàng)目名稱,項(xiàng)目存儲(chǔ)資源,配√可查看項(xiàng)目列表信息,預(yù)覽配置資源信息,并對(duì)項(xiàng)目信息√可對(duì)項(xiàng)目信息進(jìn)行關(guān)鍵字檢索,模糊查詢。三三$朝中人號(hào)基于項(xiàng)目,為項(xiàng)目分配人力資源,人員分配后可再修改,擊luhar30luhand)√管理員可創(chuàng)建權(quán)限組,為權(quán)限組分配角色和人員,支持批√管理員可針對(duì)某一個(gè)項(xiàng)目,進(jìn)行角色創(chuàng)建,提供對(duì)角色查√管理員可為每一個(gè)角色分配庫(kù)和表,并指定庫(kù)表的讀寫權(quán)$數(shù)2計(jì)市不疫看a長(zhǎng)長(zhǎng)(3)費(fèi)用管理√提供自動(dòng)計(jì)算存儲(chǔ)資源消耗費(fèi)用,并可查看費(fèi)用詳情;√可按照項(xiàng)目、工具等不同維度分析費(fèi)用記錄,可支持餅(4)資源管理資形Yam資原也10wcr/10100ma/100mbfair擊朝性作而平臺(tái)修改了開源代碼的消息傳遞信號(hào)量機(jī)制,采用多個(gè)總線來(lái)代替原來(lái)的線程Wait()/Notify()機(jī)制,平臺(tái)總線按照功能類平臺(tái)同時(shí)實(shí)現(xiàn)了大量無(wú)鎖的數(shù)據(jù)結(jié)構(gòu),避免高并發(fā)場(chǎng)景下由YARN支持對(duì)計(jì)算資源和內(nèi)存資源的管理能力,避免占用內(nèi)存資平臺(tái)中不僅能通過(guò)YARN實(shí)現(xiàn)資源在不同計(jì)算集群證高優(yōu)先級(jí)的Pool優(yōu)先拿到閑置資源,同時(shí)每個(gè)Pool具有指定源各個(gè)組件API接口,REST訪問(wèn)接口包括WebHDFS以及以及R語(yǔ)言接口。通過(guò)接口,用戶可以直接使用R語(yǔ)言與SQLSQL中還包含了基礎(chǔ)的并行統(tǒng)計(jì)挖掘算法庫(kù)的JavaAPI,用戶可數(shù)據(jù)接口接口描述接口使用對(duì)象接口在應(yīng)用中可以通過(guò)ODBC/JDBC連接字連接到上層應(yīng)用開發(fā)人員BI報(bào)表工具接口提供REST的方式訪問(wèn)上層應(yīng)用開發(fā)人員接口提供REST的方式訪問(wèn)上層應(yīng)用開發(fā)人員核心組件API接口提供各個(gè)組件API編程接口上層應(yīng)用開發(fā)人員數(shù)據(jù)挖掘開發(fā)人員R接口提供RStudioWeb圖形化開發(fā)界面,通過(guò)R語(yǔ)通過(guò)并行化算子二次開發(fā)并行化算法。數(shù)據(jù)挖掘開發(fā)人員平臺(tái)非常重視與數(shù)據(jù)分析生態(tài)系統(tǒng)的整合以提高系統(tǒng)的可用與現(xiàn)有成熟系統(tǒng)的無(wú)縫整合涉及了數(shù)據(jù)獲取,數(shù)據(jù)分析以及但只有高性能的才真正使得交互式地探索大數(shù)據(jù)成為現(xiàn)生命期管理不僅僅能使用中提供的并行統(tǒng)計(jì)算法庫(kù)以及并行機(jī)器學(xué)習(xí)算法的同時(shí)還能將訪問(wèn)分布在集群中的各個(gè)服務(wù)器之上,默認(rèn)采用3恢復(fù)每個(gè)數(shù)據(jù)達(dá)到3副本的存儲(chǔ)。一致性容災(zāi)備份。對(duì)于重要敏感數(shù)據(jù),數(shù)據(jù)從客戶端寫入HDFS僅對(duì)重要敏感數(shù)據(jù)進(jìn)行強(qiáng)一致性備份。在數(shù)據(jù)的備份基礎(chǔ)上,而弱一致性的方案則是單位周期內(nèi)(每小時(shí)、每天),基于HDFS編號(hào)1完成數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集市功倉(cāng)庫(kù)集群節(jié)點(diǎn)能,涵蓋對(duì)數(shù)據(jù)的大范圍的清洗、轉(zhuǎn)換、加載、建模、報(bào)表生成等工作2數(shù)據(jù)分析探索集群6節(jié)點(diǎn)存儲(chǔ)結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的海量歷史數(shù)據(jù),并在海量歷史數(shù)據(jù)基礎(chǔ)之上進(jìn)行創(chuàng)新性的探索、分析3集群4節(jié)點(diǎn)用于應(yīng)用的開發(fā)4集群4節(jié)點(diǎn)用于應(yīng)用的測(cè)試RegionServerZookeeperHMasterStansoegerDataNodeJournalNodeNodeManager高可靠運(yùn)行,集群中部署2個(gè)元數(shù)據(jù)服務(wù)器,同時(shí)2個(gè)元數(shù)據(jù)服中部署2個(gè)元數(shù)據(jù)服務(wù)器,同時(shí)2個(gè)元數(shù)據(jù)服務(wù)器也部署為Hmaster中部署2個(gè)元數(shù)據(jù)服務(wù)器,同時(shí)2個(gè)元數(shù)據(jù)服務(wù)器也部署為開發(fā)環(huán)境數(shù)據(jù)庫(kù)服務(wù)器集群和4個(gè)節(jié)點(diǎn)的測(cè)試環(huán)境數(shù)據(jù)庫(kù)服務(wù)初期規(guī)劃10個(gè),未來(lái)規(guī)劃20個(gè)節(jié)點(diǎn)以上兩路10核處理器2*E5-2650v4或以上10個(gè)2TB的SATA硬盤,7200RPM,不使用RAID;2個(gè)300G的SAS硬盤,15000RPM,RAID1,作為系統(tǒng)盤最高可配24個(gè)2.5英寸熱插撥12Gb/6GbSAS硬盤或最多8個(gè)NVMe固態(tài)硬盤,PERCH330陣列卡雙電口萬(wàn)兆(10Gbps)以太網(wǎng)卡選)SeriesPCI-eSSD)推薦配置及說(shuō)明初期規(guī)劃6個(gè),未來(lái)規(guī)劃20個(gè)節(jié)點(diǎn)以上兩路10核處理器2*E5-2650v4或以上10個(gè)4TB的SATA硬盤,7200RPM,不使用RAID;2個(gè)300G的SAS硬盤,15000RPM,RAID1,作為系統(tǒng)盤雙電口萬(wàn)兆(10Gbps)以太網(wǎng)卡選)SeriesPCI-eSSD)推薦配置及說(shuō)明兩路10核處理器2*E5-2650v4或以上10個(gè)2TB的SATA硬盤,7200RPM,不使用RAID;2個(gè)300G的SAS硬盤,15000RPM,RAID1,作為系統(tǒng)盤最高可配24個(gè)2.5英寸熱插撥12Gb/6GbSAS硬盤或最多8個(gè)NVMe固態(tài)硬盤,PERCH330陣列卡雙電口千兆(1Gbps)以太網(wǎng)卡選)SeriesPCI-eSSD)推薦配置及說(shuō)明初期規(guī)劃4個(gè)兩路10核處理器2*E5-2650v4或以上10個(gè)2TB的SATA硬盤,7200RPM,不使用RAID;2個(gè)300G的SAS硬盤,15000RPM,RAID1,作為系統(tǒng)盤最高可配24個(gè)2.5英寸熱插撥12Gb/6GbSAS硬盤或最多8個(gè)NVMe固態(tài)硬盤,PERCH330陣列卡雙電口萬(wàn)兆(10Gbps)以太網(wǎng)卡選)SeriesPCI-eSSD)DMZ區(qū)域(隔離區(qū))放置應(yīng)用服務(wù)器以及登陸服務(wù)器,通過(guò)防火接入層Access2.4系統(tǒng)基本功能點(diǎn)Hadoop開源版本的數(shù)據(jù)、計(jì)算節(jié)點(diǎn)已經(jīng)是按照分布式系統(tǒng)用策略,目前支持FIFOScheduler、FairScheduler以及都基于標(biāo)準(zhǔn)SQL,對(duì)于可以支持標(biāo)準(zhǔn)SQL以及PL/SQL,支持復(fù)雜的數(shù)據(jù)倉(cāng)庫(kù)類分析應(yīng)用,使得從原有數(shù)據(jù)庫(kù)系統(tǒng)遷移到Hadoop>支持創(chuàng)建數(shù)據(jù)庫(kù)、刪除數(shù)據(jù)庫(kù)、配置數(shù)據(jù)庫(kù)的容量>支持創(chuàng)建表、刪除表、增加表字段支持創(chuàng)建、修改、刪除視圖CREATE/DROP/ALERTVIEW>支持表數(shù)據(jù)類型包括所有的結(jié)構(gòu)化數(shù)據(jù)類型如整形、字符串、JSON,BSON,以及針對(duì)圖片類文件的LOB類型>支持創(chuàng)建索引、刪除索引;支持所有類型的表的連接,支持表的集合運(yùn)算包括求并集、求交集、求差集,支持多層的SQL嵌套查詢,支持IN/Not>支持字符串、日期等常用操作函數(shù)>支持最大值、最小值、平均值等聚合函數(shù),支持常用Oracle支持完整的增刪改語(yǔ)法,具體包括支持單條或者多條插入,支持單條更新和用子查詢更新,支持從表中刪除數(shù)據(jù),支持>支持子查詢(sub-queryfactoring),包括非同步子查詢join>支持in、between以及運(yùn)算符(+-*)直接操作subquery具備較完整的事務(wù)處理支持(包括嵌套事務(wù)),支持BEGIN>支持基本數(shù)據(jù)類型、復(fù)雜數(shù)據(jù)類型、withas子句、同步子支持?jǐn)?shù)據(jù)累加、統(tǒng)計(jì)、關(guān)聯(lián)、比對(duì)、去重等各種常見的數(shù)據(jù)分>支持標(biāo)準(zhǔn)SQL的方式來(lái)訪問(wèn)Hadoop生態(tài)系統(tǒng)中的其他組件模>平臺(tái)全面支持HiveQL、SQL2003標(biāo)準(zhǔn)等,可以有效支持?jǐn)?shù)據(jù)嵌套(nested)/同步(correlated)子查詢、子表定義和操作,這些功能無(wú)法用HiveQL有效實(shí)現(xiàn)。>平臺(tái)提供了對(duì)SQL2003標(biāo)準(zhǔn)最全面的支持,最大程度方便用戶開發(fā)基于Hadoop平臺(tái)的應(yīng)用和現(xiàn)有應(yīng)用ODBC驅(qū)動(dòng)兼容linux、windows(32位或64位)。挖掘探索,同時(shí)可以通過(guò)平臺(tái)開放的API進(jìn)行二次開發(fā),通過(guò)數(shù)據(jù)接口接口描述接口使用對(duì)象接口在應(yīng)用中可以通過(guò)ODBC/JDBC連接字連接到SQL上層應(yīng)用開發(fā)人員BI報(bào)表工具口提供REST的方式訪問(wèn)HDFS上層應(yīng)用開發(fā)人員接口提供REST的方式訪問(wèn)HBase上層應(yīng)用開發(fā)人員核心組件API接口提供各個(gè)組件API編程接口上層應(yīng)用開發(fā)人員數(shù)據(jù)挖掘開發(fā)人員R接口提供RStudioWeb圖形化開發(fā)界面,通過(guò)R語(yǔ)言調(diào)用并行算法庫(kù),次開發(fā)并行化算法。數(shù)據(jù)挖掘開發(fā)人員Hadoop平臺(tái)最新版本是基于HDFS2.6,提供在統(tǒng)一的HDFS支持ApacheHBase的實(shí)時(shí)分布式數(shù)據(jù)庫(kù)。用來(lái)解決關(guān)系型數(shù)的表結(jié)構(gòu),可動(dòng)態(tài)改變和增加(包括行、列和時(shí)間戳)Column以HBase通過(guò)使用索引來(lái)加快數(shù)據(jù)的查詢速度。支持對(duì)歸檔數(shù)據(jù)糾刪碼(ErasureCode),以減少副本數(shù)量并據(jù)的副本數(shù)量至源數(shù)據(jù)的1.4倍,而不是HDFS缺省的3倍。同時(shí)保證系統(tǒng)的可靠性,14個(gè)數(shù)據(jù)塊中,可以同時(shí)容忍4個(gè)數(shù)據(jù)塊Spark能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的SparkStreamingSpark的生態(tài)框架圖基于源生的Spark計(jì)算能力進(jìn)行了優(yōu)化與改進(jìn),使其擁有更強(qiáng)的計(jì)算能力,Spark特點(diǎn)如下:√高性能保障:充分利用Spark的高性能特性,支持大規(guī)模數(shù)據(jù)集下的數(shù)據(jù)更新操作;√高性能優(yōu)化:優(yōu)化的數(shù)據(jù)讀寫結(jié)構(gòu),減少IO操作;√ACID支持:分布式環(huán)境下的數(shù)據(jù)ACID支持?!翊鎯?chǔ)過(guò)程支持√語(yǔ)法支持:在spark高性能執(zhí)行引擎下實(shí)現(xiàn)對(duì)傳統(tǒng)數(shù)據(jù)的存儲(chǔ)過(guò)程語(yǔ)法解析,支持√語(yǔ)法類型:支持大部分SQLServer、Oracle,MySQL等數(shù)據(jù)庫(kù)特有語(yǔ)法類型;√執(zhí)行優(yōu)化:存儲(chǔ)過(guò)程執(zhí)行時(shí)自動(dòng)優(yōu)化,自適應(yīng)采用優(yōu)化的執(zhí)行過(guò)程,無(wú)依賴關(guān)系的語(yǔ)句并行執(zhí)行,提升執(zhí)行速度。ProgramWorkerWorkerWorkerWorkerWorkerMap/Reduce框架和分布式文件系統(tǒng)是運(yùn)行在一組相同的節(jié)點(diǎn)它們??蚣軙?huì)對(duì)map的輸出先進(jìn)行排序,然后把結(jié)果輸入給Map/Reduce框架由一個(gè)單獨(dú)的masterJobTracker和每個(gè)集成一個(gè)作業(yè)的所有任務(wù),這些任務(wù)分布在不同的slave上,數(shù)據(jù)分成小的時(shí)間片斷(秒級(jí)),以類似batch批量處理的方式面是因?yàn)镾park的低延遲執(zhí)行引擎(100ms+),雖然比不上專門Record的其它處理框架(如Storm),一部分窄依賴的RDD數(shù)據(jù)√適合場(chǎng)景:允許延遲在2-5秒以上的業(yè)務(wù),對(duì)吞吐量要求較√流計(jì)算的優(yōu)勢(shì):可以直接寫SQL處理數(shù)據(jù),可以方便的使用關(guān)聯(lián)外部數(shù)據(jù)以批處理的方式進(jìn)行查詢和更新;外部數(shù)據(jù)很基于OLAP多維分析進(jìn)行了優(yōu)化與擴(kuò)展:延遲能的數(shù)據(jù)集上提供比Hive更好的性能,用戶能夠?yàn)榘賰|以上數(shù)據(jù)集定義數(shù)據(jù)模型并構(gòu)建立方體合能力,即將提供對(duì)其他工具的整合·友好的web界面以管理,監(jiān)控和使用立方體;業(yè)務(wù)應(yīng)用APP接入到集群中參與計(jì)算分析,目前已經(jīng)支持Oracle、DB2、·支持多種可視化及報(bào)表生成工具,包括Tableau、SAP工具也支持ApacheHadoop,但只有高性能的才真正使得交互系統(tǒng)支持最全的(50多種)分布式統(tǒng)計(jì)算法和機(jī)器學(xué)習(xí)算法;深度優(yōu)化,優(yōu)化后的性能比開源算法庫(kù)提速3-10倍。機(jī)器學(xué)習(xí)MLlib是高速內(nèi)存計(jì)算框架對(duì)常用的機(jī)器學(xué)習(xí)算線性回歸、聚類、協(xié)同過(guò)濾、隱性反饋vs顯性反饋、梯度下業(yè)的需求快速擴(kuò)展。對(duì)集采到的多種數(shù)據(jù)源進(jìn)行經(jīng)過(guò)抽取 同時(shí)支持將Flume導(dǎo)入到HDFS中。(1)只有一名開發(fā)者(當(dāng)前ElasticsearchGitHub組織已經(jīng)不只如此,已經(jīng)有了相當(dāng)活躍的維護(hù)者)(2)還不夠自動(dòng)(不適合當(dāng)前新的IndexWarmupAPI)Java搜索庫(kù)為核心的全文索引和搜索,并具有類似REST的行Java編碼,便可對(duì)其進(jìn)行調(diào)整以適應(yīng)多種類型的應(yīng)用程序。內(nèi)存資源的管理能力,避免占用內(nèi)存資源多的Spark或確保整個(gè)大數(shù)據(jù)處理系統(tǒng)的高可用性。在安全領(lǐng)域,與數(shù)據(jù)壓縮后支持查詢、修改、插入、刪除,此過(guò)程中無(wú)需解壓。支持的接口類型對(duì)外提供各種開發(fā)接口,包括完全兼容Hadoop生態(tài)圈開源各個(gè)組件API接口,REST訪問(wèn)接口包括WebHDFS以及SQL支持以下SQL要求:支持創(chuàng)建數(shù)據(jù)庫(kù)、刪除數(shù)據(jù)庫(kù)、配置數(shù)據(jù)庫(kù)的容量支持創(chuàng)建表、刪除表、增加表字段支持創(chuàng)建、修改、刪除視圖CREATE/DROP/ALERTVIEW支持創(chuàng)建索引、刪除索引;>支持字符串、日期等常用操作函數(shù)支持最大值、最小值、平均值等聚合函數(shù),支持常用Oracle持單條更新和用子查詢更新,支持從表中刪除數(shù)據(jù),支持>支持子查詢(sub-queryfactoring),包括非同步子查詢join>支持in、between以及運(yùn)算符(+-*)直接操作subquery具備較完整的事務(wù)處理支持(包括嵌套事務(wù)),支持BEGIN支持基本數(shù)據(jù)類型、復(fù)雜數(shù)據(jù)類型、withas子句、同步>支持標(biāo)準(zhǔn)SQL的方式來(lái)訪問(wèn)Hadoop生態(tài)系統(tǒng)中的其他組件模>全面支持HiveQL、SQL2003標(biāo)準(zhǔn)等,可以有效支持?jǐn)?shù)據(jù)倉(cāng)庫(kù)>提供了對(duì)SQL2003標(biāo)準(zhǔn)最全面的支持,最大程度平臺(tái)數(shù)據(jù)可視化智能報(bào)表提供功能如下:拽實(shí)現(xiàn)復(fù)雜報(bào)表格式輸出,支持預(yù)覽html2)報(bào)表格式:支持中國(guó)式復(fù)雜報(bào)表,支持橫向、縱向擴(kuò)展報(bào)表、交叉表,支持單元格合并、合計(jì)、小計(jì),自定義計(jì)算字段,支持復(fù)雜表頭設(shè)計(jì);3)報(bào)表類型:交叉統(tǒng)計(jì)報(bào)表、不規(guī)則報(bào)表、段落式報(bào)表、原數(shù)、邏輯函數(shù)、三角函數(shù)等;5)報(bào)表拓展:支持杜邦分析、時(shí)間序列預(yù)測(cè)等,并可以使用6)報(bào)表美化:支持使用第三方Excel模板,如美化大師,來(lái)對(duì)表格和圖形進(jìn)行美化;SQL支持在數(shù)據(jù)表中內(nèi)建CUBE,并在數(shù)據(jù)分析時(shí)有效的利用這些Cube信息來(lái)加速查詢。支持建立OLAPCube,使得數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集市類應(yīng)用的性能進(jìn)一步提升,靈活、快速的進(jìn)行模型旋轉(zhuǎn)、鉆取等操作。提供標(biāo)準(zhǔn)SQL能力,支持存儲(chǔ)過(guò)程和事務(wù),可以支持交互式Kylin是一個(gè)開源的分布式分析引擎,旨在為Hadoop提供以3個(gè)步驟以亞秒級(jí)延遲查詢大量數(shù)據(jù)。識(shí)別Hadoop上的星型功能采用深度優(yōu)化的Kafka加Storm計(jì)算引擎,實(shí)現(xiàn)500MB/SKafka通過(guò)副本來(lái)實(shí)現(xiàn)消息的可靠存儲(chǔ),,同時(shí)消息間通過(guò)Producer自動(dòng)通過(guò)Zookeeper獲取到Broker列表,通過(guò)ConsumerKafka使用Zookeeper實(shí)現(xiàn)集群動(dòng)態(tài)擴(kuò)容,不需要更改Producer和Consumer的配置。集群新增的Broker自動(dòng)向Zookeeper注冊(cè)自身,客戶端自動(dòng)感知節(jié)點(diǎn)變化,并調(diào)整負(fù)載均閱包括廣告、推薦),而后對(duì)網(wǎng)頁(yè)中的文本進(jìn)行分段抽取(標(biāo)題、時(shí)間、正文),網(wǎng)頁(yè)解析過(guò)程根據(jù)不同的目的和不同的用戶行為場(chǎng)描述邏輯回歸當(dāng)前業(yè)界比較常用的機(jī)器學(xué)習(xí)方法,用于估計(jì)某種事物的可能性。比如某用戶購(gòu)買某商品的可能性,某病人患有某種疾病的可能性,以及某廣告被用戶點(diǎn)擊的可能性等,常用于做分類。樸素貝葉斯ML中的一個(gè)分類算法,常用于做文本分類。該分類器基于一個(gè)簡(jiǎn)單的假定:給定目標(biāo)值時(shí)屬性之間相互條件獨(dú)立。該模型所需估計(jì)的參數(shù)很少,對(duì)缺失數(shù)據(jù)不太敏感,算法也比較簡(jiǎn)單實(shí)用。支持向量機(jī)支持向量機(jī)(SupportVectorMachine)是一種監(jiān)督式學(xué)習(xí)的方法,可廣泛地應(yīng)用于統(tǒng)計(jì)分類以及回歸分析,具有較高的魯棒性。聚類算法K-means算法是最為經(jīng)典的基于劃分的聚類方法,是十大經(jīng)典數(shù)據(jù)挖掘算法之一。K-means算法的基本思想是:以空間中k個(gè)點(diǎn)為中心進(jìn)行聚類,對(duì)最靠近他們的對(duì)象歸類。通過(guò)迭代的方法,逐次更新各聚類中心的值,直至得到最好的聚類結(jié)果。線性回歸線性回歸是利用數(shù)理統(tǒng)計(jì)中的回歸分析,來(lái)確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法,運(yùn)用十分廣泛。在線性回歸中,數(shù)據(jù)使用線性預(yù)測(cè)函數(shù)來(lái)建模,并且未知的模型參數(shù)也是通過(guò)數(shù)據(jù)來(lái)估計(jì)。廣義線性模型廣義線性模型是線性模型的擴(kuò)展,其特點(diǎn)是不強(qiáng)行改變數(shù)據(jù)的自然度量,數(shù)據(jù)可以具有非線性和非恒定方差結(jié)構(gòu),主function),建立響應(yīng)變量Y的數(shù)學(xué)期望值與線性組合的預(yù)測(cè)變量P之間的關(guān)系推薦算法基于內(nèi)容的推薦方法,根據(jù)用戶過(guò)去的瀏覽記錄來(lái)向用戶推薦用戶沒有接觸過(guò)的推薦項(xiàng)。協(xié)同過(guò)濾基于用戶的協(xié)同過(guò)濾算法:基于一個(gè)這樣的假設(shè)“跟你喜好相似的人喜歡的東西你也很有可能喜歡?!彼曰谟脩舻膮f(xié)同過(guò)濾主要的任務(wù)就是找出用戶的最近鄰居,從而根據(jù)最近鄰居的喜好做出未知項(xiàng)的評(píng)分預(yù)測(cè)。描述計(jì)算某列數(shù)據(jù)的最小值.計(jì)算某列數(shù)據(jù)的最大值.計(jì)算某列數(shù)據(jù)的平均值計(jì)算某列數(shù)據(jù)的方差歸一化方法是一種簡(jiǎn)化計(jì)算的方式,通過(guò)將原始數(shù)據(jù)轉(zhuǎn)換到某個(gè)范圍內(nèi)如(0,1),可以避免不同指標(biāo)因取值范圍的不同,對(duì)結(jié)果造成的偏差。將輸入數(shù)據(jù)按照Z(yǔ)-Score進(jìn)行歸一化.計(jì)算某列數(shù)據(jù)的中位數(shù)用來(lái)計(jì)算處于某個(gè)分位數(shù)上的值,如給定參數(shù)0.5,則返回中位數(shù)箱線圖是一種描述數(shù)據(jù)分布的統(tǒng)計(jì)圖,利用它可以從視覺的角度來(lái)觀察變量值的分布情況。箱線圖主要表示變量值的中位數(shù)、四分之一位數(shù)、四分之三位數(shù)等統(tǒng)計(jì)量。統(tǒng)計(jì)某列數(shù)據(jù)中每個(gè)值的頻數(shù)直方圖(Histogram)又稱質(zhì)量分布圖。是一種統(tǒng)計(jì)報(bào)告圖,由一系列高度不等的縱向條紋或線段表示數(shù)據(jù)分布的情通過(guò)指定區(qū)間數(shù),可以返回對(duì)數(shù)據(jù)進(jìn)行均勻分布后的每個(gè)區(qū)間的取值。AI支持回歸分析、關(guān)聯(lián)分析、個(gè)性推薦、中文分詞等機(jī)器TPC-DS測(cè)試是一個(gè)國(guó)際非贏利的標(biāo)準(zhǔn)化組織用于評(píng)測(cè)決策支持系統(tǒng)(或數(shù)據(jù)倉(cāng)庫(kù))的標(biāo)準(zhǔn)SQL測(cè)試集。這個(gè)測(cè)試集包含對(duì)大數(shù)據(jù)集的統(tǒng)計(jì)/報(bào)表生成/聯(lián)機(jī)查詢/數(shù)據(jù)挖掘等復(fù)雜應(yīng)用,是難度較大的一個(gè)測(cè)試集。TPC-DS已逐漸成為了業(yè)界公認(rèn)的Hadoop系統(tǒng)測(cè)試準(zhǔn)則。測(cè)試類型測(cè)試任務(wù):用例編號(hào)測(cè)試分類可用性測(cè)試測(cè)試目標(biāo)在100GB數(shù)據(jù)規(guī)模上測(cè)試TPC-DS預(yù)置條件:集群正常工作測(cè)試操作:1.執(zhí)行如下命令,使用TPC-DS自帶dsdgen生成100GB數(shù)據(jù)2.通過(guò)SparkSQL,手動(dòng)建測(cè)試庫(kù)和對(duì)應(yīng)的數(shù)據(jù)表,并將生成的100G數(shù)據(jù)導(dǎo)入測(cè)試表3.依次執(zhí)行TPC-DSv2.3的99條SQL,并獲取執(zhí)行時(shí)間測(cè)試結(jié)果:query1.sql->執(zhí)行狀態(tài):成功長(zhǎng):6秒252毫秒query2.sq1->執(zhí)行狀態(tài):成功長(zhǎng):7秒384毫秒query3.sql->執(zhí)行狀態(tài):成功長(zhǎng):4秒452毫秒query4.sql

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論