星環(huán)大數(shù)據(jù)方案介紹_第1頁(yè)
星環(huán)大數(shù)據(jù)方案介紹_第2頁(yè)
星環(huán)大數(shù)據(jù)方案介紹_第3頁(yè)
星環(huán)大數(shù)據(jù)方案介紹_第4頁(yè)
星環(huán)大數(shù)據(jù)方案介紹_第5頁(yè)
已閱讀5頁(yè),還剩87頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

星環(huán)大數(shù)據(jù)方案介紹TranswarpDataHub產(chǎn)品概述TranswarpDataHub架構(gòu)圖TranswarpProprietary最完整的SQL支持99%的SQL

2003支持,唯一支持PL/SQL的引擎(98%),唯一支持ACID分布式事務(wù)的SQL引擎;定位數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市市場(chǎng),可用于補(bǔ)充或替代Oracle、DB2等分析用數(shù)據(jù)庫(kù)。高效內(nèi)存/SSD計(jì)算第一個(gè)支持SSD的基于Hadoop的高效計(jì)算引擎,可比硬盤(pán)快一個(gè)數(shù)量級(jí);可用于建立各種數(shù)據(jù)集市,對(duì)接多種主流報(bào)表工具。最完整的分布式機(jī)器學(xué)習(xí)算法庫(kù)支持最全(超過(guò)50余種)的分布式統(tǒng)計(jì)算法和機(jī)器學(xué)習(xí)算法,同時(shí)整合超過(guò)5000個(gè)R語(yǔ)言算法包。適合金融業(yè)風(fēng)險(xiǎn)控制、反欺詐、文本分析、精準(zhǔn)營(yíng)銷(xiāo)等應(yīng)用。支持最完整SQL和索引的NoSQL數(shù)據(jù)庫(kù)支持SQL2003、索引、全文索引,支持圖數(shù)據(jù)庫(kù)和圖算法,支持非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)支持高并發(fā)查詢最健壯和功能豐富的流處理框架支持真正的Exactly

Once語(yǔ)義支持所有組件的高可用(HA)支持流式SQL和流式機(jī)器學(xué)習(xí)ApacheProjectsStream流處理引擎HyperbaseNoSQL數(shù)據(jù)庫(kù)搜索、圖計(jì)算TranswarpManagerInceptorPL/SQL批處理交互式分析資源管理

YARN(內(nèi)置TranswarpExtension)優(yōu)化存儲(chǔ)HDFS(內(nèi)置TranswarpErasureCode)批處理Pig批處理框架MapReduce2協(xié)作服務(wù)Zookeeper消息隊(duì)列Kafka工作流Oozie日志采集Flume全文搜索ElasticSearch數(shù)據(jù)集成SqoopDiscover數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)交互工具HUEGuardian安全管控實(shí)時(shí)同步DataAlive交互分析Zeppelin交互式分析引擎Inceptor-完整SQL支持DistributedExecutionEngine分布式執(zhí)行引擎Batch&InteractiveSQL

EngineJDBC4.0SHELLODBC3.5SQL2003Compiler語(yǔ)法解析器

SQLParser優(yōu)化器RBO&CBO代碼生成CODEGENERATORTransactionManager分布式增刪改

DistributedCRUD事務(wù)并發(fā)控制器ConcurrencyControllerStarGate數(shù)據(jù)源連接器SourceHDFSText,

ORC,

ORCTransactionSourceOracleSourceHyperbase分布式內(nèi)存/SSD列式存儲(chǔ)HolodeskSourceDB2HDFSDriverHolodeskDriverHyperdrive驅(qū)動(dòng)層實(shí)現(xiàn)數(shù)據(jù)訪問(wèn)計(jì)算算子下推以減少數(shù)據(jù)傳輸執(zhí)行計(jì)劃仍采用分布式計(jì)算……Connector中間件管理單元PL/SQLCompiler存儲(chǔ)過(guò)程解析器ProcedureParser控制流優(yōu)化器

CFGOptimizer并行優(yōu)化器

ParallelOptimizer多租戶管理Guardian計(jì)算資源配置ResourceManagement用戶安全授權(quán)管理Security&Authentication行級(jí)安全控制RowLevelSecurityDB2DriverOracleDriverApacheSpark基于內(nèi)存的Map/Reduce計(jì)算引擎,即將成為新一代主流計(jì)算框架。處理大數(shù)據(jù)像“光速”一樣快,比HadoopMap/Reduce快10x倍。Holodesk跨內(nèi)存/閃存/磁盤(pán)等介質(zhì)的分布式混合列式存儲(chǔ),常用于緩存數(shù)據(jù)供Spark高速訪問(wèn)。Holodesk內(nèi)建內(nèi)存索引,可提供比開(kāi)源Spark更高的交互式統(tǒng)計(jì)性能;結(jié)合使用低成本的內(nèi)存/SSD混合存儲(chǔ)方案,可接近全內(nèi)存存儲(chǔ)的分析性能。Most

complete

SQL

support兼容>95%

ANSISQL2003,HiveQL和>90%

PL/SQL語(yǔ)法,支持?jǐn)?shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集市等分析系統(tǒng)中常用的復(fù)雜分析型語(yǔ)法,方便應(yīng)用遷移。SQL引擎高度優(yōu)化的高速SQL引擎,可運(yùn)行在Spark或Map/Reduce上,可高速處理緩存在Holodesk上的列式數(shù)據(jù)。豐富的工具支持支持主流可視化和BI/挖掘工具,包括Tableau,IBMCognos,SAPBO,OracleBI,SAS等。支持Informatica,Pentaho/Kettle等ETL工具。DataFederation具備對(duì)多種關(guān)系數(shù)據(jù)庫(kù)和Hadoop數(shù)據(jù)源進(jìn)行交叉查詢,聚合,以及關(guān)聯(lián)操作等能力Inceptor不同版本功能描述標(biāo)準(zhǔn)版SQL2003,分布式事務(wù)專(zhuān)業(yè)版基礎(chǔ)版+內(nèi)存/SSD數(shù)據(jù)庫(kù)功能企業(yè)版專(zhuān)業(yè)版+PL/SQLTranswarp

DiscoverDistributedExecutionEngine分布式執(zhí)行引擎Association

Mining關(guān)聯(lián)/推薦Classification分類(lèi)算法Clustering聚類(lèi)算法Sequential

Analysis時(shí)序分析Regression回歸算法Deep

Learning深度機(jī)器學(xué)習(xí)DimensionReduction主成分分析Statistics統(tǒng)計(jì)算法R

Runtime

Library

R語(yǔ)言動(dòng)態(tài)運(yùn)行庫(kù)BeliefNetwork信念網(wǎng)絡(luò)DecisionMethods決策方法Sampling采樣算法Discriminate

Analysis判別分析Q-Learning增強(qiáng)學(xué)習(xí)GraphInference圖推理FactorAnalysis因子分析GeneticAlgorithm遺傳算法R

Language

Interface

R語(yǔ)言接口Java

Language

InterfaceJava語(yǔ)言接口R

StudioWeb

IDE開(kāi)發(fā)環(huán)境TranswarpInceptor高速SQL引擎TranswarpHadoop分布式系統(tǒng)推薦系統(tǒng)風(fēng)險(xiǎn)分析反欺詐文本分類(lèi)分布式機(jī)器學(xué)習(xí)算法MoreDistributedMachineLearningAlgorithms數(shù)據(jù)分析圖形化交互工具R

Runtime

Library

R語(yǔ)言動(dòng)態(tài)運(yùn)行庫(kù)BeliefNetwork信念網(wǎng)絡(luò)DecisionMethods決策方法Sampling采樣算法Discriminate

Analysis判別分析Q-Learning增強(qiáng)學(xué)習(xí)GraphInference圖推理FactorAnalysis因子分析GeneticAlgorithm遺傳算法TranswarpHadoop分布式系統(tǒng)TranswarpDiscoverDistributedAlgorithmLibraryAssociation

Mining關(guān)聯(lián)/推薦Classification分類(lèi)算法Clustering聚類(lèi)算法Sequential

Analysis時(shí)序分析Regression回歸算法Deep

Learning深度機(jī)器學(xué)習(xí)DimensionReduction主成分分析Statistics統(tǒng)計(jì)算法DataEngineersDataScientistsWorkflowToolstobuildpipelinesTranswarpInceptorSQLEngineDataFrameAbstractionDataTransformationusingPL/SQLFeatureExtractionusingdataframeandnativeRoperationsMachineLearningusingmoredistributedalgorithmsDataMiningusingnativeRalgorithms特征抽取FeatureEngineering:Extractvaluefromdarkdata易用的工具Graphicaltoolsfordatascientists,e.g.,workbook,notebook;andaworkflowtooltobuildthepipelineNotebook:ApacheZeppelin重要組成:實(shí)時(shí)NewSQL數(shù)據(jù)庫(kù)HyperbaseTranswarpHBase–HadoopDatabase分布式BigTableTranswarpHyperdrive

SQL

backend

engine

between

Inceptor

&

HyperbaseReal-timeOLTP+OLAP+BATCH+Search+GraphTraversalApplicationMixedWorkload混合負(fù)載業(yè)務(wù)GraphlanguageScalableGraphDatabase圖形數(shù)據(jù)庫(kù)TransactionSQL

&

APITransactionExecutionEngine分布式事務(wù)處理引擎IndexSQL

&

APIGlobal/LocalIndex全局/局部索引Elastic

Search分布式全文索引DocumentSQL

&

APIDocument

Storejson/bson文檔存儲(chǔ)ObjectSQL

&

APIObject

Storeimage/files,

etc對(duì)象存儲(chǔ)SearchSQL

&APIDistributedFull-textSearch全文搜索Transwarp

InceptorHyperbase不同版本功能描述標(biāo)準(zhǔn)版OLTP支持高并發(fā)毫秒級(jí)數(shù)據(jù)插入/修改/查詢/刪除(CRUD)。結(jié)合InceptorSQL引擎,可以支持通過(guò)SQL進(jìn)行高并發(fā)的CRUD。支持分布式事務(wù)處理。支持常見(jiàn)數(shù)據(jù)類(lèi)型,可更高效的存取數(shù)據(jù)OLAP支持多種索引(global/local/high-dimensionalindex)。結(jié)合Inceptor,可進(jìn)行行列存儲(chǔ)轉(zhuǎn)換,進(jìn)行秒級(jí)高效分析。支持復(fù)雜查詢條件,自動(dòng)利用索引加速數(shù)據(jù)檢索,無(wú)需指定索引。專(zhuān)業(yè)版基礎(chǔ)版+內(nèi)嵌搜索引擎實(shí)時(shí)同步創(chuàng)建索引實(shí)現(xiàn)秒級(jí)關(guān)鍵字搜索企業(yè)版專(zhuān)業(yè)版+圖數(shù)據(jù)庫(kù)支持高并發(fā)圖遍歷和檢索多類(lèi)型支持結(jié)構(gòu)化記錄半結(jié)構(gòu)化文檔(JSON/BSON)非結(jié)構(gòu)化數(shù)據(jù)(圖片、音頻、二進(jìn)制文檔等)支持混合結(jié)構(gòu)數(shù)據(jù)的存儲(chǔ)、搜索、統(tǒng)計(jì)、分析支持SQL訪問(wèn)關(guān)系表和層次化文檔實(shí)時(shí)數(shù)據(jù)研判處理TranswarpStream計(jì)算層SourceManager數(shù)據(jù)源管理DistributedExecutionEngine分布式執(zhí)行引擎ApplicationManager流式任務(wù)管理服務(wù)StorageManager存儲(chǔ)管理SinkerManager輸出管理

TranswarpHyperbase

分布式NoSQL數(shù)據(jù)庫(kù)高速查詢或搜索在線數(shù)據(jù)挖掘時(shí)間窗口統(tǒng)計(jì)實(shí)時(shí)比對(duì)告警實(shí)時(shí)判斷告警實(shí)時(shí)數(shù)據(jù)TranswarpDataMart分布式內(nèi)存/SSD緩存高速數(shù)據(jù)探索分析StreamSQLSQLCompiler編譯器ODBCJDBCShellDataMining并行算法APIR語(yǔ)言量化模型StreamSQL

99%的ANSISQL2003的支持率強(qiáng)大的優(yōu)化器提升性能支持按時(shí)間切分滑動(dòng)窗口和滑動(dòng)步長(zhǎng)多數(shù)據(jù)源支持Socket文件Kafka……多種輸出方式支持HyperbaseHolodeskHDFS……企業(yè)數(shù)據(jù)總線支持從一個(gè)流讀入數(shù)據(jù),再將其輸入另一個(gè)流,如常見(jiàn)的企業(yè)數(shù)據(jù)總線以Kafka為存儲(chǔ)中間件在線數(shù)據(jù)挖掘支持離線模型,在線預(yù)測(cè)時(shí)間窗口數(shù)據(jù)進(jìn)行實(shí)時(shí)挖掘分析Stream不同版本功能描述標(biāo)準(zhǔn)版基本流處理框架,支持流式聚合專(zhuān)業(yè)版基礎(chǔ)版+SQL企業(yè)版專(zhuān)業(yè)版+機(jī)器學(xué)習(xí)UserAUserB統(tǒng)一大數(shù)據(jù)存儲(chǔ)平臺(tái)HDFSRBAC支持Dir/FileaccesscontrolDir/FileACLStorageQuotaControlUser……統(tǒng)一權(quán)限管控TranswarpGuardianKerberosHAsupportedLDAPHAsupportedAccounting

賬戶管理Authentication

用戶認(rèn)證Audit&AlertAudit

審計(jì)統(tǒng)一計(jì)算資源管理調(diào)度YARNQueueUse/AdminControl內(nèi)部計(jì)算/存儲(chǔ)資源配置ResourceManagement用戶安全授權(quán)管理Grant/RevokeviaSQL行級(jí)安全控制RowLevelSecurityInceptor內(nèi)部計(jì)算資源配置ResourceManagement用戶安全授權(quán)管理Grant/RevokeviaSQL主題級(jí)安全控制KafkaTopicLevelSecurityStream用戶安全授權(quán)管理AuthenticationwithInceptorandHDFSDiscover數(shù)據(jù)交互安全控制DataTransfer&Communication用戶安全授權(quán)管理Grant/RevokeviaSQL(withInceptor)單元格安全控制CellLevelSecurityHyperbaseAuthorization

權(quán)限管理經(jīng)理RoleA普通職員RoleBRole……TranswarpOperatingSystem產(chǎn)品概述多租戶資源管理架構(gòu)演進(jìn)混合負(fù)載和多租戶SLA管理能力多租戶資源配額管理資源共享和搶占資源和數(shù)據(jù)的隔離性批處理任務(wù)和實(shí)時(shí)任務(wù)調(diào)度機(jī)制v.s.PigOozieHiveStormSparkStreamingElasticSearchHyper-baseHBaseInceptorSparkHDFSYARNKubernetesHDFSPigOozieHiveStormSparkStreamingElasticSearchHyper-baseHBaseInceptorSparkPaaSContainerManagersschedulerpluginKubernetes

or?2014~2015資源調(diào)度框架之爭(zhēng),mesos和kubernetes逐漸占據(jù)優(yōu)勢(shì),YARN被邊緣化2016年兩種競(jìng)爭(zhēng)的技術(shù)路線Apache

MesosBig

Data

SparkHadoop,&more…Databases

Redis,MongoDB,&more…Applications

Nginx,Tomcat,&more…通用性/標(biāo)準(zhǔn)化隔離性資源彈性調(diào)度KubernetesP.K.IaaSCloudVMsBaremetalIaaSCloudVMsBaremetalHDFSYARNInceptorStreamElasticSearchHyperbasePigOoizeFlumeSqoopPostgresSQLRedisServiceRepositoryTranswarpOperatingSystem架構(gòu)CPU/MEMpriority-basedschedulerTranswarp

Operating

SystemDiskstoragemanagerNetworkVLANmanagerSchedulercoordinationetcdorchestrationloadbalancerSystem

Serviceauto-scalingreplicatordiscoveryname

serviceTOS的組成部分:Ring0:Docker/ContainerRing1:ResourceschedulerRing2:Built-in

systemservicesRing3:Centralservicerepository(dockerimages)ContainerPluginsContainersTOS顯著優(yōu)勢(shì)自動(dòng)一鍵部署運(yùn)行任何docker鏡像完善的資源隔離性彈性計(jì)算自動(dòng)擴(kuò)容自我修復(fù)TOS

+

TDH=IaaS

+

PaaS可用于構(gòu)建企業(yè)大數(shù)據(jù)私有云或者在公有云上提供大數(shù)據(jù)平臺(tái)服務(wù)基于Docker的微服務(wù)架構(gòu)開(kāi)始涌現(xiàn)CPU/MEMpriority-basedschedulerTranswarp

Operating

System-elastic

micro-servicemanagementsystemDiskstoragemanagerNetworkVLANmanagerSchedulercoordinationetcdorchestrationloadbalancerSystem

Serviceauto-scalingreplicatordiscoveryname

serviceContainerPluginsContainersPlatform

Service

LayerSoftware

Service

LayerInfrastructure

LayerHadoopInceptorDiscoverHyperbaseStreamKafkaZookeeperRedisElasticSearchSqoop2GuardianOozieHUETerminalSpagoBIRstudioNginxTomcatZeppelin…………TDHwithTOSonCloud

IaaSPaaSHaaS公有云…私有云…物理服務(wù)器集群BasedonVMsDirectBasedonPhysicalServershadoopinceptordiscoverhyperbasestreamkafkaredis…16TOSApplication&PlatformServicesMarketTranswarpConfidentialTranswarpDataWarehouse產(chǎn)品概述Manager監(jiān)控管理審計(jì)告警OperationalDW實(shí)時(shí)數(shù)據(jù)分析Oozie統(tǒng)一作業(yè)調(diào)度HUEGuardian統(tǒng)一安全權(quán)限管控DataIntegration數(shù)據(jù)集成與質(zhì)量管理ServiceRepositoryTranswarpDataWarehouse架構(gòu)CPU/MEMpriority-basedschedulerTranswarp

Operating

System數(shù)倉(cāng)版DiskstoragemanagerNetworkVLANmanagerSchedulercoordinationetcdorchestrationloadbalancerSystem

Serviceauto-scalingreplicatordiscoveryname

serviceContainerPluginsContainers分布式存儲(chǔ)HDFSTraditionalDWPL/SQL批處理分布式事務(wù)Context-IndependentDW數(shù)據(jù)挖掘關(guān)聯(lián)分析DataMart交互式分析Holodesk分布式內(nèi)存列式存儲(chǔ)完整數(shù)據(jù)倉(cāng)庫(kù)支持實(shí)時(shí)處理數(shù)據(jù)倉(cāng)庫(kù)(OperationalDW),進(jìn)行實(shí)時(shí)數(shù)據(jù)采集,時(shí)間窗口內(nèi)數(shù)據(jù)進(jìn)行比對(duì)以及統(tǒng)計(jì)挖掘,通過(guò)流技術(shù)來(lái)構(gòu)造實(shí)時(shí)處理倉(cāng)庫(kù)。上下文無(wú)關(guān)聯(lián)數(shù)據(jù)倉(cāng)庫(kù)(ContextIndependentDW),在不知道數(shù)據(jù)之間的關(guān)聯(lián)模型的情況下,也可以通過(guò)數(shù)據(jù)挖掘的方式發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,隱藏的聯(lián)系和模式。傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)(TraditionalDW),主要是做批處理,做離線加工,加工基礎(chǔ)數(shù)據(jù),在基礎(chǔ)上做各種主題模型,以及固定報(bào)表。通過(guò)對(duì)于SQL2003、PL/SQL以及分布式事務(wù)的支持實(shí)現(xiàn)傳統(tǒng)數(shù)倉(cāng)向大數(shù)據(jù)的平滑遷移。數(shù)據(jù)集市(DataMart),把數(shù)據(jù)裝載到基于內(nèi)存或者SSD當(dāng)中的Holodesk做高速的數(shù)據(jù)交互式分析探索,同時(shí)也對(duì)接著報(bào)表工具。企業(yè)客戶不再需要混合架構(gòu),不需要孤立的多個(gè)集群,可以伴隨企業(yè)客戶的數(shù)據(jù)增長(zhǎng),動(dòng)態(tài)不停機(jī)擴(kuò)容,避免MPP或傳統(tǒng)架構(gòu)數(shù)據(jù)遷移的棘手問(wèn)題。多租戶管理平臺(tái)自動(dòng)一鍵部署,自我修復(fù),完善的資源隔離性彈性計(jì)算,自動(dòng)擴(kuò)容/縮容,多部門(mén)之間資源動(dòng)態(tài)共享,靈活支持多部門(mén)多應(yīng)用在統(tǒng)一平臺(tái)上平滑運(yùn)行。全平臺(tái)組件數(shù)據(jù)權(quán)限隔離,支持基于角色的訪問(wèn)權(quán)限控制,支持行級(jí)權(quán)限控制用戶友好的管理交互界面、提供了集群配置,監(jiān)控及預(yù)警等多方面支持,在可管理性方面優(yōu)勢(shì)顯著。RstudioSpagoBILogicalDW搜索查詢半/非結(jié)構(gòu)化數(shù)據(jù)支持基于大數(shù)據(jù)技術(shù)的數(shù)據(jù)倉(cāng)庫(kù)邏輯架構(gòu)CRM現(xiàn)有業(yè)務(wù)系統(tǒng)ETL調(diào)度Flume宏觀政策/經(jīng)濟(jì)社交網(wǎng)絡(luò)其他信息…非/半結(jié)構(gòu)化數(shù)據(jù)實(shí)時(shí)數(shù)據(jù)Kafka實(shí)時(shí)接收非結(jié)構(gòu)化處理日志處理影像存儲(chǔ)文本分析圖計(jì)算結(jié)構(gòu)化數(shù)據(jù)處理資源管理平臺(tái)

(TOS)(Virtualization,Multi-tenant

SLA,Audit)實(shí)時(shí)決策平臺(tái)(StreamSQL)流式處理實(shí)時(shí)研判自助分析平臺(tái)(SQL)自助報(bào)表交互探索數(shù)據(jù)探索平臺(tái)(R)統(tǒng)計(jì)預(yù)測(cè)模型發(fā)現(xiàn)離線批處理平臺(tái)(SQL)數(shù)據(jù)加工主題模型Operational

DW

Traditional

DW

Data

MartContext-independentDWERPHRFinance……貼源層輕度匯總層元數(shù)據(jù)管理明細(xì)層數(shù)據(jù)質(zhì)量管理主題模型層作業(yè)調(diào)度管理檢索平臺(tái)(SQL)明細(xì)查詢綜合搜索T+0~T+1DataMartCluster交互式數(shù)據(jù)探索Hyperbase明細(xì)查詢、影像檢索、文檔檢索TraditionalDWClusterContextIndependentDW數(shù)據(jù)關(guān)聯(lián)挖掘Rstudio圖形化挖掘工具Kafka實(shí)時(shí)數(shù)據(jù)實(shí)時(shí)數(shù)據(jù)…AgentAgent實(shí)時(shí)數(shù)據(jù)OperationalDWCluster時(shí)間窗口數(shù)據(jù)實(shí)時(shí)數(shù)據(jù)批量裝載入Holodesk準(zhǔn)實(shí)時(shí)分析OperationalDataWarehouseHolodesk分布式內(nèi)存/SSD列式存儲(chǔ)RDBSqoop實(shí)時(shí)同步CDC(IBM)OGG(Oracle)全量導(dǎo)入,定時(shí)增量,HUE/Zeppelin圖形化數(shù)據(jù)分析查看數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)流轉(zhuǎn)Multi-IndexFull-TextIndexObjectStore文件/日志/影像FlumeFTPInterface實(shí)時(shí)條件判斷實(shí)時(shí)比對(duì)實(shí)時(shí)時(shí)間窗口數(shù)據(jù)統(tǒng)計(jì)實(shí)時(shí)數(shù)據(jù)挖掘模型預(yù)測(cè)數(shù)據(jù)稽核元數(shù)據(jù)管理數(shù)據(jù)處理工作流調(diào)度分布式統(tǒng)計(jì)算法庫(kù)分布式挖掘算法庫(kù)SpagoBIBI報(bào)表工具ODS貼源層DWD基礎(chǔ)明細(xì)層公共主題模型層結(jié)果數(shù)據(jù)寫(xiě)入Hyperbase提供查詢TDARESTInterfaceTranswarpAppliance產(chǎn)品概述融合一體機(jī)大數(shù)據(jù)一體機(jī)星環(huán)技術(shù)核心優(yōu)勢(shì)優(yōu)勢(shì)一:完整的數(shù)據(jù)庫(kù)支持能力,包括SQL2003、PL/SQL支持和超強(qiáng)的性能混合架構(gòu)基于的假設(shè)100TB10TB1TB100GB~hours<1hourminutesseconds<1secondRDB可容忍的分析延時(shí)需要處理的數(shù)據(jù)量HadoopisthebestHadoopvsMPPMPPIn-MemDBLinearscalabilitySQL支持不完整2.Hadoop性能低于MPP混合架構(gòu)將逐漸消失MPP數(shù)據(jù)庫(kù)過(guò)去的優(yōu)勢(shì)高性能SQL支持完整(SQL92/SQL99)工具全主要弱點(diǎn)數(shù)據(jù)重分布容錯(cuò)性擴(kuò)展性Transwarp最新進(jìn)展總體性能超越MPP完整支持SQL2003,以及PL/SQL擴(kuò)展支持主流傳統(tǒng)BI/ETL工具,新興分析工具建立在Hadoop之上固有優(yōu)勢(shì)數(shù)據(jù)無(wú)需重分布,不易受數(shù)據(jù)傾斜影響Map/Reduce和Spark具備容錯(cuò)調(diào)度機(jī)制性能近乎線性擴(kuò)展(星環(huán)部署有600個(gè)節(jié)點(diǎn)集群)100TB10TB1TB100GB~hours<1hourminutesseconds<1secondRDB可容忍的分析延時(shí)需要處理的數(shù)據(jù)量HadoopHadoopvsMPPMPPIn-MemDBSQL

onHadoop

技術(shù)比較名稱(chēng)計(jì)算引擎ANSISQL支持程度PL/SQL第一個(gè)版本發(fā)布時(shí)間ClouderaImpala類(lèi)Dremel,類(lèi)MPP引擎SQL92子集+SQL2003擴(kuò)展(<30%)不支持2011/10HortonworksTez/StingerMap/Reduce改進(jìn)SQL92子集+SQL2003擴(kuò)展(<30%)不支持2012/5TranswarpInceptorSpark

VariantSQL2003(>99%)OracleCompatiblePL/SQL(>98%)2013/11DatabricksSparkSQLSparkHiveQL(SQL92子集,

<30%)不支持2014/6MapRDrill改進(jìn)自O(shè)penDremelSQL92子集(<30%)不支持2012/6立項(xiàng),2014/11發(fā)布IBM

BigSQLv4DB2/DPF

like

MPP

Engine

over

HDFSIncluding

ImpalaSQL

2003N/A2014/6Pivotal

HAWQGreenplum

like

MPP

Engine

over

HDFSSQL

2003(<90%)不支持2013/2Splice

MachineApache

Derby

+

HBaseSQL

1999不支持2015

GAActian

VortexMPP

Engine

over

HDFSSQL

2003不支持2014TranswarpInceptor是第一個(gè)支持PL/SQL的SQL

on

Hadoop引擎InceptorPL/SQLCompiler兼容Hive,

ANSI

SQL,

PL/SQL

SQLParserSQLStatementsAbstractSyntax

TreeConstant

FoldingConstant

FoldingConstant

FoldingAST

optimizerRDDDAGSQLNormalizerLogical

OptimizerCSEbyte

code

generationcolumn

pruneroperator

prunerpartitionprunerpredicatepushdownPL/SQLSQL2003CBOOptimizerJoinoptimizationsPL/SQLAnalyzerControlFlow

GraphCFG

Optimizerfunction

inliningdead

code

eliminationredundanteliminationCSEloopinvariantshoistingParallelOptimizercursor

parallelizationTableStatisticsDAGOptimizershufflereducerPhysicalPlanDAGSchedulersparktasksparktasksparktaskFirstPL/SQLCompileronHadoop;98%

Oracle

PL/SQL

Compatibility.唯一支持存儲(chǔ)過(guò)程的SQLonHadoop引擎串行執(zhí)行邏輯CURSORcISSELECT*fromscoreOPENcFORv_recINcLOOPIFv_rec.flag>0THENUPDATEfact1SET…ELSEUPDATEfact2SET…ENDIFENDLOOPCFG

on

Masterslave0Acursorcanbeparallelizedifthereisnoloop-carried

dependenceorthedependenceisinductive.優(yōu)化后等價(jià)于sql(“SELECT*from

score”).map(loop_cfg_func)并行度的來(lái)源和種類(lèi)partitionparallelismcontrolflowparallelismpipelineparallelismscoreflag>0YesNoMovecaheadYesupdatefact1updatefact2partition

0flag>0YesNoMovecaheadYesupdatefact1updatefact2partition

Nflag>0YesNoMovecaheadYesupdatefact1updatefact2slaveN游標(biāo)示例程序并行執(zhí)行邏輯兼容98%以上的Oracle

PL/SQL語(yǔ)法支持存儲(chǔ)過(guò)程、函數(shù)、控制流、游標(biāo)、異常處理等各類(lèi)語(yǔ)法基于代價(jià)的優(yōu)化器31Table

A1000

Recordskurtmaryjohnsmith622523454095243622550042034568622544334568763622534878982324v_nameCard_id12……999999910000000No.TableB1000

recordsJOINONA.card_id=B.card_idCostbasedoptimizerTablesizeImmediateresultsizeDataskewValuedistributionselectivityMapJoinLookupJoinHashJoin執(zhí)行計(jì)劃CommonJoinCo-GroupJoin穩(wěn)定高效的核心計(jì)算引擎Testenvironment:29

worker

nodes2CPUs,12Cores,E5-2620v296GBmemoryNetwork:2X1GbpsDisks:12X3TB星環(huán)Hadoop集群已經(jīng)可以在生產(chǎn)環(huán)境中處理20PB的數(shù)據(jù)ORC

FilesDataNodeORC

FilesDataNodeORC

FilesDataNodeORC

FilesDataNodemetastoreInceptormasterExecutorExecutorExecutorExecutorTransactionManagerZKCluster單機(jī)計(jì)算并行計(jì)算分布數(shù)據(jù)、計(jì)算均分布化星環(huán)SQL

on

Hadoop已經(jīng)能夠高效處理100TB數(shù)據(jù)的復(fù)雜分析TranswarpInceptor’sPhysicalDeploymentDiagramTPC-DS性能對(duì)比Testenvironment:Fournodes2CPUs,12Cores,E5-2620v2128GmemoryNetwork:2X1GbpsDisks:3X2TWorkload:TPC-DS1TBSingleuserInceptor4.1

vs

Open

Source

Hive

0.14和開(kāi)源的Hive執(zhí)行效率相比中,Inceptor4.0能夠帶來(lái)10x~100x的性能提升。下圖是TPC-DS的部分query在Inceptor和ApacheHive的性能提升倍數(shù),其中最大的提升倍數(shù)可達(dá)到123倍。Hive是目前國(guó)內(nèi)絕大部分友商采用的版本唯一支持全局分布式事務(wù)處理的分析引擎ORC

FilesDataNodeORC

FilesDataNodeORC

FilesDataNodeInceptorLock

ManagerInceptorLock

ManagerInceptorLock

ManagerORC

FilesDataNodeInceptormetastoreInceptorDriverZKClusterExecutorExecutorExecutorExecutor采用多版本兩階段封鎖協(xié)議實(shí)現(xiàn)可串行化快照隔離(Serializable

Snapshot

Isolation)Transaction1begin

transactionselectmax(price)fromorders

where

age

<

20readvalueintolocalvariablemaxorderupdate

ordersset

price

=

maxorder-1,…commitTransaction2begin

transaction…update

orders

set

price=200

where

id

=

“007”

commit優(yōu)點(diǎn):1.兩階段封鎖協(xié)議可保證事務(wù)的完全可序列化;2.多版本(快照)隔離可以保證只讀事務(wù)的高并發(fā)性Database

FederationInceptorBatch

SQLInteractive

AnalysisStarGateAccess

PlatformSourceText,

ORC,

Parquet

on

HDFSSourceOracleSourceHyperbaseSourceHolodesk需要具備對(duì)多種關(guān)系數(shù)據(jù)庫(kù)和Hadoop數(shù)據(jù)源進(jìn)行交叉查詢,聚合,以及關(guān)聯(lián)操作等能力。創(chuàng)建一個(gè)到oracle_server上Oracle數(shù)據(jù)庫(kù)oracle_db的dblink:CREATEDATABASELINKlink_to_oracleCONNECTTOuserIDENTIFIEDBY'password'USING'jdbc:oracle:thin:@oracle_server:1521:oracle_db';使用該dblink中的oracle_tab表與inceptor中的inceptor_tab表做join:SELECT*FROMoracle_tab@link_to_oracleaJOINorc_tablebONa.col=b.col;SourceDB2DB2DriverOracleDriverORC/ParquetDriverHolodeskDriverHyperdrive驅(qū)動(dòng)層實(shí)現(xiàn)數(shù)據(jù)訪問(wèn)計(jì)算算子下推以減少數(shù)據(jù)傳輸執(zhí)行計(jì)劃仍采用分布式計(jì)算StarGate

vs

QueryGrid

vs

ORCL

connectorHadoop為主v.s.關(guān)系數(shù)據(jù)庫(kù)為主兩種技術(shù)方案和路線:平安銀行:以Hadoop為基礎(chǔ)的風(fēng)險(xiǎn)分析平臺(tái)FlumeOracleMySQLDB2現(xiàn)有關(guān)系數(shù)據(jù)庫(kù)TDH統(tǒng)一存儲(chǔ)和計(jì)算平臺(tái)系統(tǒng)日志W(wǎng)eb日志SqoopPentaho賬單文件FTP定期ELT每天/每小時(shí)/每10分鐘Tableau數(shù)據(jù)實(shí)驗(yàn)室內(nèi)存/SSD緩存HolodeskRStudioSAS深度挖掘CognosOBIEEOozieWaterlineAzkaban數(shù)據(jù)匯總/治理/粗加工PL/SQL定制程序PL/SQL深度匯總OracleDB2前臺(tái)展現(xiàn)庫(kù)準(zhǔn)實(shí)時(shí)采集<5分鐘采用TDH后2015年3月上線,之前嘗試過(guò)Cloudera的CDH以及華為的FusionInsights,以及一些MPP數(shù)據(jù)庫(kù),都不能滿足要求湖北移動(dòng):運(yùn)營(yíng)商大數(shù)據(jù)分析平臺(tái)數(shù)據(jù)源8類(lèi)數(shù)據(jù)源,包括信令數(shù)據(jù)、充值數(shù)據(jù)、CRM、業(yè)務(wù)訂閱數(shù)據(jù)等每天4TB增量應(yīng)用13個(gè)分析應(yīng)用,包括:流量分析網(wǎng)優(yōu)基于位置實(shí)時(shí)營(yíng)銷(xiāo)用戶指標(biāo)庫(kù)…部署集群20x86服務(wù)器比4臺(tái)DB2小型機(jī)集群快5x內(nèi)部服務(wù)接口平臺(tái)數(shù)據(jù)O域BOSS系統(tǒng)Gn信令業(yè)務(wù)訂購(gòu)使用行為數(shù)據(jù)Mc信令通信詳單營(yíng)帳資料渠道數(shù)據(jù)政企數(shù)據(jù)網(wǎng)絡(luò)覆蓋數(shù)據(jù)GIS地圖服務(wù)LTE信令I(lǐng)nceptorSQL編譯解析器流量運(yùn)營(yíng)平臺(tái)SPARK集群自助分析平臺(tái)SPARK集群經(jīng)營(yíng)分析系統(tǒng)M/R集群渠道運(yùn)營(yíng)平臺(tái)M/R集群…客戶標(biāo)簽庫(kù)在線數(shù)據(jù)查詢服務(wù)Hyperbase基于位置的實(shí)時(shí)事件營(yíng)銷(xiāo)Stream集群八大數(shù)據(jù)源新增4TB/天FlumeFTPOverHDFS分布式消息隊(duì)列RabbitMQOrSocketCLI命令行接口外部服務(wù)接口PL/SQLJDBC/ODBCREST編程接口文件接口JAVA編程接口權(quán)限訪問(wèn)控制SSD數(shù)據(jù)流程統(tǒng)一資源調(diào)度和管理YARN統(tǒng)一的大數(shù)據(jù)存儲(chǔ)平臺(tái)HDFS流量經(jīng)營(yíng)平臺(tái)之前湖北移動(dòng)建有多個(gè)Hadoop集群,有亞信、華為等5家廠商各自建立的集群,目前采用TDH作為統(tǒng)一的數(shù)據(jù)分析平臺(tái)優(yōu)勢(shì)二:交互式數(shù)據(jù)分析和挖掘能力

MemoryvsSSDvsDisk物理性能DeviceTypeIOPSLatency(ms)Peakrate(MB/s)Interface7,200rpmSATAdrives~75-10010100SATA3Gbit/s10,000rpmSATAdrives~125-1507140SATA3Gbit/s10,000rpmSASdrives~1408140SAS15,000rpmSASdrives~175-2105210SASIntel?SSDDCP3700IOPSLatency(us)Peakrate(MB/s)InterfaceRead460,0002.22800NVMe*PCIe*3.0Write175,00061900NVMe*PCIe*3.0Read/Write250,0004n/aNVMe*PCIe*3.0StandardNameDatarate(MT/s)Latency(ns)Peakrate(MB/s)DDR3-800800106400DDR3-106610667.58500DDR3-13331333610666>10x3~5xSanDiskUltraDIMMIOPSLatency(us)Peakrate(MB/s)InterfaceRead140,000150880DDR3Write44,0005600DDR3為SSD設(shè)計(jì)專(zhuān)有格式1WA2XB3YC4ZD5OE6PF7QG8RHHolodesk–AColumnarStoreonSSDcachelayerSparkZKCluster1WAGLOBALINDEX2XBDictionaryBITMAPINDEXFILTERBITMAPINDEXFILTERBITMAPINDEXFILTER3YC4ZDBITMAPINDEXFILTERBITMAPINDEXFILTERBITMAPINDEXFILTERDictionary5OE6PFBITMAPINDEXFILTERBITMAPINDEXFILTERBITMAPINDEXFILTERDictionary7QG8RHBITMAPINDEXFILTERBITMAPINDEXFILTERBITMAPINDEXFILTERDictionaryHDFSStorageLayerHDFSTextorORCorParquetFilesMemoryTierSSDTierHDFSStorageTier–讓?xiě)?yīng)用程序來(lái)選擇存儲(chǔ)層MemoryasstoragetierSSDStorageTier但是,現(xiàn)有的Text以及行列混合(ORCorParquet)等文件格式都不足以利用SSD的高性能。ExecutorSparkContextExecutorExecutorExecutorColumnarStoreAPIColumnarStoreAPIColumnarStoreAPIColumnarStoreAPIFileSystemAPICREATETABLEt1TBLPROPERTIES("cache"=“SSD”

“holodesk_index”=“c1,c2…”)ASSELECT*FROMsrc;Off-HeapColumnarstoreSecondaryindexTableformatSSD

ascacheMemory與SSD在TPC-DS測(cè)試中性能接近geomean=9.6%gainoverssd不同格式在SSD上的性能對(duì)比測(cè)試項(xiàng)格式硬件介質(zhì)存儲(chǔ)引擎text(disk)SequenceFileHardDisk(x6)HDFStext(ssd)SequenceFilePCI-eSSDHDFSorc(ssd)ORC

FilePCI-e

SSDHDFSholodesk(ssd)ColumnarStorePCI-eSSDHolodesk結(jié)論:采用文本格式,PCI-eSSD帶來(lái)的性能提升僅1.5倍采用針對(duì)硬盤(pán)設(shè)計(jì)的行列混合ORC存儲(chǔ)格式,在SSD上可比文本格式提升2.7倍采用轉(zhuǎn)為內(nèi)存和SSD設(shè)計(jì)的Holodesk列式存儲(chǔ),在SSD上可進(jìn)一步比ORC提升2倍;比SSD上的文本格式提升6倍;比硬盤(pán)上的文本格式提升8倍以上。提升倍數(shù)TPC-DS中I/O密集的測(cè)試集SliceDiceRollupDrill

UpDrill

DownPivot交互式OLAP分析:DistributedCubeHolodesk–AColumnarStoreonSSDcachelayerExecutorInceptorServerExecutorExecutorExecutorColumnarStoreAPICube(D1,D2,D3)INDEXColumnD1INDEXColumnD2INDEXColumnD3INDEXColumnM1Cube(D1,D2),(D2,D3),(D1,D3)ColumnarStoreAPICube(D1,D2,D3)INDEXColumnD1INDEXColumnD2INDEXColumnD3INDEXColumnM1Cube(D1,D2),(D2,D3),(D1,D3)ColumnarStoreAPICube(D1,D2,D3)INDEXColumnD1INDEXColumnD2INDEXColumnD3INDEXColumnM1Cube(D1,D2),(D2,D3),(D1,D3)ColumnarStoreAPICube(D1,D2,D3)INDEXColumnD1INDEXColumnD2INDEXColumnD3INDEXColumnM1Cube(D1,D2),(D2,D3),(D1,D3)如何定義一個(gè)Cube?Cube

Size256KB固定大小ZKCluster

Cube

on

Transwarp

Holodesk

Cube是OLAP分析的常用技術(shù)createtablestore_sales

tblproperties(

‘cache’=‘ram’,

‘holodesk.dimensions’=‘product,cities,time’)asselect*fromstore_sales;計(jì)算下沉到存儲(chǔ)層Compute

and

filters

pushed

down

to

storage

layerHolodeskCube帶來(lái)的性能加速OperationSQLqueryq1countselectcount(*)fromstore_salesq2measureselectsum(ss_sales_price)fromstore_salesq3aggregationselectsum(ss_sales_price)fromstore_salesgroupbyss_customer_skq4drilldownselectsum(ss_sales_price)fromstore_salesgroupbyss_sold_date_skq5drilldownselectsum(ss_sales_price)fromstore_salesgroupbyss_customer_sk,ss_sold_date_skq6sliceselectsum(ss_sales_price)fromstore_sales_rwheress_customer_sk=5000groupbyss_customer_sk,ss_sold_date_skq7diceselectsum(ss_sales_price)fromstore_saleswheress_sold_date_skbetween2450629and2451816groupbyss_customer_skq8pivotselectsum(ss_sales_price)fromstore_saleswheress_customer_sk>5000andss_sold_date_skbetween2450629and2451816groupbyss_customer_sk,ss_sold_date_sk40億條記錄共500GB駐留內(nèi)存4臺(tái)兩路普通服務(wù)器每臺(tái)服務(wù)器256GB內(nèi)存CPU為E5-2620v2萬(wàn)兆網(wǎng)絡(luò)交互式探索分析交互式分析一直是數(shù)據(jù)分析的重點(diǎn),但是傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)或者基于MapReduce計(jì)算框架對(duì)臨時(shí)的實(shí)時(shí)性要求高的交互式分析無(wú)法快速響應(yīng),查詢效率低,無(wú)法進(jìn)行有效數(shù)據(jù)探索。數(shù)據(jù)存儲(chǔ)和分析能力的一站式平臺(tái),支持并行化多種統(tǒng)計(jì)分析算法,數(shù)據(jù)挖掘算法。為億級(jí)別的數(shù)據(jù)的關(guān)聯(lián)匯總,探索分析,模式變化,通過(guò)不斷改變維度或度量分析數(shù)據(jù)的分布以及趨勢(shì)。數(shù)據(jù)探索交互分析場(chǎng)景基于內(nèi)存的統(tǒng)計(jì)分析能力,效率成百倍提升提供JDBC/ODBC接口,報(bào)表工具連接快速展現(xiàn)反饋的分析結(jié)果。傳統(tǒng)數(shù)據(jù)庫(kù)-數(shù)據(jù)倉(cāng)庫(kù)-BI工具數(shù)據(jù)多次拷貝效率低通過(guò)一站式平臺(tái)解決所有問(wèn)題內(nèi)存分析R集成一站平臺(tái)與數(shù)據(jù)可視化工具良好對(duì)接在數(shù)據(jù)可視化的過(guò)程中Spark擴(kuò)展支持大量的可視化及報(bào)表生成工具,如Tableau,SAPBusinessObjects,OracleBusinessIntelligence等,使得基于大數(shù)據(jù)分析的商業(yè)決策更易被理解和接受,從而將大數(shù)據(jù)的潛在價(jià)值最大化。業(yè)務(wù)人員通過(guò)簡(jiǎn)單的拖拽既可定制個(gè)性化報(bào)表,跳過(guò)了數(shù)據(jù)準(zhǔn)備的工作環(huán)節(jié)。優(yōu)勢(shì)三:完整的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法MakeMachineLearningMoreAccessibleR

Runtime

Library

R語(yǔ)言動(dòng)態(tài)運(yùn)行庫(kù)BeliefNetwork信念網(wǎng)絡(luò)DecisionMethods決策方法Sampling采樣算法Discriminate

Analysis判別分析Q-Learning增強(qiáng)學(xué)習(xí)GraphInference圖推理FactorAnalysis因子分析GeneticAlgorithm遺傳算法TranswarpHadoop分布式系統(tǒng)TranswarpDiscoverDistributedAlgorithmLibraryAssociation

Mining關(guān)聯(lián)/推薦Classification分類(lèi)算法Clustering聚類(lèi)算法Sequential

Analysis時(shí)序分析Regression回歸算法Deep

Learning深度機(jī)器學(xué)習(xí)DimensionReduction主成分分析Statistics統(tǒng)計(jì)算法DataEngineersDataScientistsWorkflowToolstobuildpipelinesTranswarpInceptorSQLEngineDataFrameAbstractionDataTransformationusingPL/SQLFeatureExtractionusingdataframeandnativeRoperationsMachineLearningusingmoredistributedalgorithmsDataMiningusingnativeRalgorithms民生銀行持卡人行為分析訓(xùn)練數(shù)據(jù)采樣民生銀行2012年的04~09半年的交易流水,一共大約2億條記錄,506萬(wàn)個(gè)獨(dú)立持卡人,數(shù)據(jù)大小約80G。并行360度用戶畫(huà)像在2分鐘內(nèi)完成對(duì)506萬(wàn)獨(dú)立持卡人的畫(huà)像消費(fèi)頻繁度消費(fèi)水平美食愛(ài)好旅游愛(ài)好體育愛(ài)好電子愛(ài)好IT愛(ài)好年輕活力男性女性商人開(kāi)車(chē)一族電話達(dá)人差旅人士民生銀行用戶流失分析流失預(yù)測(cè)SVM迭代1000次,在15分鐘內(nèi)訓(xùn)練和預(yù)測(cè)出所有持卡人的流失情況。兩月前一月前當(dāng)前月當(dāng)月無(wú)消費(fèi)人數(shù)下個(gè)月預(yù)測(cè)值兩月前一月前當(dāng)前月下個(gè)月預(yù)測(cè)值持卡人流失數(shù)趨勢(shì)人數(shù)恒豐銀行商圈分析ID名稱(chēng)ID名稱(chēng)ID名稱(chēng)1五角場(chǎng)6徐家匯11大柏樹(shù)2浦東建材市場(chǎng)7靜安寺-南京路-人民廣場(chǎng)12婁山關(guān)路3金沙江路中環(huán)路口8虹莘路13新世界4漕河涇9金沙江路祁連山路14長(zhǎng)壽路5中山公園10陸家嘴實(shí)時(shí)刷卡信息(來(lái)自銀聯(lián))定義商圈商圈聚類(lèi)模型分析與選擇模型擬合動(dòng)態(tài)商圈區(qū)域即時(shí)呈現(xiàn),收縮變化一目了然二級(jí)商圈的挖掘人群密度趨勢(shì)研判上海移動(dòng):利用基站數(shù)據(jù)進(jìn)行人流分析通過(guò)基站數(shù)據(jù)定位用戶的活動(dòng)區(qū)域通過(guò)基站上網(wǎng)數(shù)據(jù)分析用戶的關(guān)注點(diǎn)、出行目的、出行時(shí)間通過(guò)人群密集度算法,算出時(shí)間、經(jīng)緯度、人群密度等關(guān)鍵指標(biāo),分析出人群遷移和密度變化趨勢(shì)民生銀行小微在線融資—大數(shù)據(jù)企業(yè)征信小微貸款服務(wù)平臺(tái)2014年下半年上線每家企業(yè)選取200個(gè)財(cái)務(wù)指標(biāo)采用分類(lèi)算法對(duì)企業(yè)進(jìn)行信用評(píng)估國(guó)家工商總局:企業(yè)投資任職關(guān)系分析

多家企業(yè)之間是否有關(guān)聯(lián)?如何關(guān)聯(lián)?關(guān)聯(lián)關(guān)系如何變化?供應(yīng)鏈管理?如何變化?企業(yè)信用分析?自然人E投資投資人企業(yè)C企業(yè)B企業(yè)A投資供應(yīng)商投資人企業(yè)D自然人F個(gè)體戶G配偶親屬投訴財(cái)報(bào)目前近百家銀行使用該服務(wù)Logistic

regressionDecisiontreeRandomforestCostsensitiveLRSVM恒豐銀行金融實(shí)時(shí)交易風(fēng)險(xiǎn)分析系統(tǒng)(試點(diǎn))交易數(shù)據(jù)交易數(shù)據(jù)交易數(shù)據(jù)聚類(lèi)/分類(lèi)檢測(cè)直接交易正??梢烧=灰桩惓=灰捉灰讜r(shí)間、地點(diǎn)、金額、商家等信息神經(jīng)網(wǎng)絡(luò)模型每筆交易恒豐銀行-異常交易檢測(cè)(試點(diǎn))無(wú)監(jiān)督異常交易檢測(cè)基本思路對(duì)原始數(shù)據(jù)進(jìn)行聚類(lèi)分析,得出聚類(lèi)中心計(jì)算出多數(shù)點(diǎn)至聚類(lèi)中心的距離范圍根據(jù)距離范圍鑒別出交易中的異常行為多維度的數(shù)據(jù)挖掘和精準(zhǔn)營(yíng)銷(xiāo)

–華數(shù)獲取用戶業(yè)務(wù)訪問(wèn)特征值構(gòu)建用戶個(gè)性化標(biāo)簽信息集合挖掘用戶的消費(fèi)屬性并對(duì)相應(yīng)的產(chǎn)品進(jìn)行包裝預(yù)測(cè)現(xiàn)有客戶購(gòu)買(mǎi)相關(guān)產(chǎn)品的可能性獲取客戶其他業(yè)務(wù)的訂購(gòu)信息,尋找業(yè)務(wù)之間的關(guān)聯(lián)性進(jìn)行產(chǎn)品的組合消費(fèi)和引導(dǎo)根據(jù)用戶訪問(wèn)數(shù)據(jù)提煉熱點(diǎn)信息、進(jìn)行排行根據(jù)熱點(diǎn)內(nèi)容進(jìn)行有針對(duì)性的廣告投放用戶消費(fèi)模型產(chǎn)品關(guān)聯(lián)模型內(nèi)容熱度模型用戶特征模型價(jià)值核算模型通過(guò)分析用戶行為,評(píng)估某一內(nèi)容的市場(chǎng)價(jià)值預(yù)測(cè)未來(lái)可能火爆的內(nèi)容預(yù)測(cè)(Prediction)數(shù)據(jù)分組(AffinityGrouping)聚類(lèi)(Clustering)描述(Description)復(fù)雜數(shù)據(jù)挖掘1.用戶為中心的面向主題的數(shù)據(jù)分析框架思想客戶為中心的業(yè)務(wù)規(guī)劃面向主題的業(yè)務(wù)模型自定2.數(shù)據(jù)分析框架的主要事件分類(lèi)(Classification)估計(jì)(Estimation)錦江旅游路線推薦系統(tǒng)錦江旅行家推薦系統(tǒng)----基于Inceptor&R優(yōu)勢(shì)四:高并發(fā)低延時(shí)的NewSQL分布式數(shù)據(jù)庫(kù)Hyperdrive

ProjectforHyperbaseTranswarpHyperdriveIndexable

Storage

Engine

implementedforHyperbase

HBaseElastic

SearchTransactionSQL

&

APITransactionExecutionEngine分布式事務(wù)處理引擎IndexSQL

&

APIGlobal/LocalIndex全局/局部索引SearchSQL

&APIDistributedFull-textSearch全文搜索InceptorStarGateProjectHyperbase

Native類(lèi)型支持全面兼容全文索引,支持正則表達(dá)式作為語(yǔ)法全面提升模塊易用性民生銀行卡部歷史工單查詢歷史數(shù)據(jù)量(4年)數(shù)據(jù)表行數(shù)大小dds_acct_acct181246212.7Gdds_acct_card3866529917.6Gdds_acct_stm8Gdds_trans_event716425258218.5Gdds_acct_quick_chng1070666344616.5Gtab_info_list3094239.4K合計(jì)925GB生產(chǎn)系統(tǒng)(SAS)TDH硬件2x

P750小型機(jī)(HA)8臺(tái)x86服務(wù)器工單查詢延時(shí)最快20分鐘平均4秒程序SAS

444行PL/SQL

108行民生銀行理財(cái)業(yè)務(wù)數(shù)據(jù)并發(fā)查詢單位:SQL查詢/秒DPF集群使用power7+處理器,共64個(gè)物理核;TDH集群使用x86E5處理器,共72個(gè)物理核,CPU性能DPF集群比TDH集群強(qiáng)3倍左右Hyperbase+Inceptor

-

兼顧統(tǒng)計(jì)分析和精確查詢兩種場(chǎng)景

單位:秒單位:秒十并發(fā)查詢測(cè)試批量統(tǒng)計(jì)測(cè)試HyperbaseClusterZookeeperTimeServerClientLockCleaner保證HA檢測(cè)沖突鎖獲取唯一遞增時(shí)間戳檢測(cè)沖突鎖告知鎖是否可以清除若鎖可以清除則清除鎖返回沖突鎖預(yù)寫(xiě)事務(wù)提交事務(wù)分布式事務(wù)基于SQL的分布式事務(wù)支持常用的事務(wù)操作BEGIN/ENDTRANSACTIONCOMMIT,ROLLBACK基于兩階段提交算法創(chuàng)建支持事務(wù)的表添加增刪改事務(wù)Commit事務(wù),寫(xiě)入Hyperbase中Rollback事務(wù),前面的插入事務(wù)都被取消插入多條記錄數(shù)據(jù)分布式事務(wù)的ODBC示例代碼索引+智能索引智能索引技術(shù)CostBasedIndexTechnology查詢計(jì)劃智能使用最快速的索引無(wú)需用戶在SQL中指定索引對(duì)指定查詢,根據(jù)該表有的多個(gè)索引創(chuàng)建不同的執(zhí)行計(jì)劃根據(jù)成本計(jì)算性能最佳的執(zhí)行計(jì)劃和索引支持精確查詢和模糊查詢查詢延時(shí)百毫秒級(jí)相對(duì)于普通索引技術(shù),CBI準(zhǔn)確率高,性能更好,滿足復(fù)雜場(chǎng)景需求優(yōu)勢(shì)五:半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)處理日志大數(shù)據(jù)分析平臺(tái)OnlineServicesWebServicesServersSecurityGPSLocationStorageDesktopsNetworksPackagedApplicationsCustomApplicationsMessagingTelecomsOnlineShoppingCartWebClickstreamsDatabasesEnergyMetersCallDetailRecordsSmartphonesandDevicesRFID數(shù)據(jù)中心私有云公有云完全真實(shí)可靠的系統(tǒng)運(yùn)行狀況1從系統(tǒng)消息,到傳感器數(shù)據(jù),事無(wú)巨細(xì)2業(yè)務(wù)實(shí)時(shí)運(yùn)行信息可以從日志中進(jìn)行挖掘3日志處理核心過(guò)程O(píng)ct1320:00:43.874401rule193/0(match):blockinonxl0:26.3859>:S1818630320:1818630320(0)win65535<mss1460,nop,nop,sackOK>(DF)Oct1320:00:43fwboxlocal4:warn|warningfw07%PIX-4-106023:Denytcpsrc

internet:26/3859dst8/135byaccess-group"internet_access_in"Oct1320:00:43fwboxkernel:DROPPEDIN=eth0OUT=MAC=ff:ff:ff:ff:ff:ff:00:0f:cc:

81:40:94:08:00SRC=26DST=8LEN=576TOS=0x00PREC=0x00

TTL=255ID=8624PROTO=TCPSPT=3859DPT=135LEN=556多來(lái)源多格式的日志網(wǎng)絡(luò)設(shè)備預(yù)處理Cisco/MaipuHuawei…

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論