最新大數(shù)據(jù)和大數(shù)據(jù)技術(shù)專業(yè)知識講座課件_第1頁
最新大數(shù)據(jù)和大數(shù)據(jù)技術(shù)專業(yè)知識講座課件_第2頁
最新大數(shù)據(jù)和大數(shù)據(jù)技術(shù)專業(yè)知識講座課件_第3頁
最新大數(shù)據(jù)和大數(shù)據(jù)技術(shù)專業(yè)知識講座課件_第4頁
最新大數(shù)據(jù)和大數(shù)據(jù)技術(shù)專業(yè)知識講座課件_第5頁
已閱讀5頁,還剩109頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

議程公司簡介大數(shù)據(jù)與大數(shù)據(jù)技術(shù)大數(shù)據(jù)技術(shù)應(yīng)用

大數(shù)據(jù)案例分享問題討論1AdvancedAnalyticServiceAllRightsReserved2016議程公司簡介1AdvancedAnalyticServi公司簡介公司概況&發(fā)展歷史主要客戶&大數(shù)據(jù)產(chǎn)品2AdvancedAnalyticServiceAllRightsReserved2016公司簡介公司概況&發(fā)展歷史2AdvancedAnalyti新加坡上海北京公司概況青島雅加達專注于分析預(yù)測與行業(yè)應(yīng)用的的大數(shù)據(jù)公司深圳業(yè)務(wù)1業(yè)務(wù)2業(yè)務(wù)3提供基于大數(shù)據(jù)技術(shù)的預(yù)測性分析及商務(wù)智能解決方案大數(shù)據(jù)平臺、數(shù)據(jù)集成與準備工具、開源開發(fā)技術(shù)自助式分析工具、數(shù)據(jù)可視化工具提供全球頂尖的大數(shù)據(jù)軟件產(chǎn)品300+技術(shù)服務(wù)人員端到端的大數(shù)據(jù)平臺數(shù)據(jù)集成、數(shù)據(jù)挖掘與預(yù)測性分析、高級分析企業(yè)級大數(shù)據(jù)倉庫、企業(yè)績效管理、商務(wù)智能大數(shù)據(jù)SaaS應(yīng)用和DaaS服務(wù)基于云平臺的軟件即服務(wù)大數(shù)據(jù)應(yīng)用為企業(yè)提供全面的數(shù)據(jù)服務(wù)

新加坡上海北京公司概況青島雅加達專注于分析預(yù)測與行業(yè)應(yīng)用的的發(fā)展歷史數(shù)據(jù)倉庫績效管理高級分析數(shù)據(jù)可視化看板管理商務(wù)智能2.0至今2005200720112002大數(shù)據(jù)技術(shù)大數(shù)據(jù)應(yīng)用分析預(yù)測數(shù)據(jù)挖掘數(shù)據(jù)即服務(wù)數(shù)據(jù)集市

14年來,我們與數(shù)俱進發(fā)展歷史數(shù)據(jù)倉庫高級分析至今2005200720112002汽車制造·電子產(chǎn)品及家電·快消零售·醫(yī)藥與生命科學(xué)·航空與物流·高科技制造業(yè)·金融及其他主要客戶汽車制造·電子產(chǎn)品及家電·快消零售·云以H

a

d

o

o

p為核心的大數(shù)據(jù)產(chǎn)品系列數(shù)據(jù)集成與準備SQLonHadoopTexthere流計算機器學(xué)習(xí)開源開發(fā)技術(shù)數(shù)據(jù)挖掘以H

a

d

o

o

p為核心的大數(shù)據(jù)產(chǎn)品大數(shù)據(jù)軟件產(chǎn)品Statistica數(shù)據(jù)可視化Vortex云以Hadoop為核心的大數(shù)據(jù)產(chǎn)品系列數(shù)據(jù)集成數(shù)據(jù)創(chuàng)新經(jīng)驗融合擁有多元化的數(shù)據(jù)科學(xué)家團隊和十余年的數(shù)據(jù)分析經(jīng)驗。經(jīng)十余年自主開發(fā)的IP打造數(shù)據(jù)行業(yè)領(lǐng)先的技術(shù)優(yōu)勢。

追蹤吸收和引進行業(yè)內(nèi)最先進的技術(shù),產(chǎn)品和應(yīng)用經(jīng)驗。世界頂尖數(shù)據(jù)技術(shù)公司在中國地區(qū)的首選合作伙伴。在一大批競爭行業(yè)(汽車、制藥、快消、家電、物流等)內(nèi)擁有深厚的客戶基礎(chǔ)和眾多行業(yè)成功案例。追求行業(yè)業(yè)務(wù)能力和技術(shù)能力的融合以及企業(yè)系統(tǒng)架構(gòu)與解決業(yè)務(wù)問題間的平衡,具有扎實的項目實施能力。HEADLINE

競爭優(yōu)勢數(shù)據(jù)創(chuàng)新經(jīng)驗融合擁有多元化的數(shù)據(jù)科學(xué)家團隊和十余年的數(shù)據(jù)分析大數(shù)據(jù)與大數(shù)據(jù)技術(shù)8AdvancedAnalyticServiceAllRightsReserved2016大數(shù)據(jù)與大數(shù)據(jù)技術(shù)8AdvancedAnalyticSeHadoop技術(shù)的發(fā)展物聯(lián)網(wǎng)應(yīng)用需要將Hadoop變?yōu)橐粋€高性能的分析平臺需要Hadoop不光能存儲數(shù)據(jù),更要能夠處理計算數(shù)據(jù)Hadoop技術(shù)的發(fā)展物聯(lián)網(wǎng)應(yīng)用需要將Hadoop變?yōu)橐粋€高SQL分析挖掘預(yù)測圖形化數(shù)據(jù)分析智能搜索時間、用戶、地理位置、事件等標簽輔助技術(shù):Kafka,HBase,Cassandra,Accumulo基于大數(shù)據(jù)技術(shù)的數(shù)據(jù)分析處理Hadoop核心層數(shù)據(jù)準備SQL分析挖掘預(yù)測圖形化數(shù)據(jù)分析智能搜索時間、用戶、地理位技術(shù)更迭過快開源產(chǎn)品成熟度開發(fā)效率與現(xiàn)有架構(gòu)的關(guān)系運維與安全大數(shù)據(jù)技術(shù)的顧慮?技術(shù)更迭過快大數(shù)據(jù)技術(shù)的顧慮?大數(shù)據(jù)平臺計算框架傳統(tǒng)數(shù)倉功能非結(jié)構(gòu)化流式挖掘分析大數(shù)據(jù)平臺計算框架傳統(tǒng)數(shù)倉功能非結(jié)構(gòu)化流式挖掘分析軟件架構(gòu)(舉例)DATAPLATFORM(HDFS)靈活數(shù)據(jù)準備SQL

inHadoop數(shù)據(jù)挖掘與預(yù)測SQL(ODBC、JDBC、、。NET)API:Java,C/++,Python前端應(yīng)用報表外部應(yīng)用下游系統(tǒng)管理控制臺(CloudEra、Talend、KNIME)數(shù)據(jù)安全以及認證(Portal集成)軟件架構(gòu)(舉例)DATAPLATFORM(HDFS)靈用工具取代代碼作坊MapReducePerformance(runsondisk)OneClickSparkPerformance(runsin-memory&ondisk)20XFaster用工具取代代碼作坊MapReduce(runsondis同時處理實時與批次流式處理批次處理轉(zhuǎn)換清洗治理轉(zhuǎn)換清洗治理推薦引擎SparkStreaming/KafkaSpark數(shù)據(jù)庫,文件,批次數(shù)據(jù)實時,流數(shù)據(jù)HDFS文件數(shù)據(jù)流輸出同時處理實時與批次流式處理批次處理轉(zhuǎn)換清洗治理轉(zhuǎn)換清洗治理推基于用戶數(shù)據(jù)理解地模型預(yù)測圖形化數(shù)據(jù)準備挖掘運用SparkMlib等進行計算結(jié)果回寫入Impala或者HIVE基于用戶數(shù)據(jù)理解地模型預(yù)測圖形化數(shù)據(jù)準備挖掘非結(jié)構(gòu)化數(shù)據(jù)為存儲的新型SQL

基于落地HDFS的文件或HBASE進行SQL建表解析提供工業(yè)MPP級別查詢性能線性可擴展標準JDBC

SQL界面,直連BO,Tableau,Qlikview,MSTR等報表工具非結(jié)構(gòu)化數(shù)據(jù)為存儲的新型SQL基于落地HDFS的文件或HB技術(shù)方案:特點小結(jié)基于開源系統(tǒng)的成熟商用插件方案部署簡便提高開發(fā)效率降低實施風險基于內(nèi)存的計算性能優(yōu)異全部基于唯一Hadoop集群內(nèi),統(tǒng)一存儲統(tǒng)一計算減少數(shù)據(jù)傳輸遷移的同步問題維護便捷:一套集群,維護簡單擴展性:無限擴展線性提升便捷的開發(fā)及報表展現(xiàn)工具圖形化ETL,數(shù)據(jù)挖掘開發(fā)便捷報表展現(xiàn)分析工具建模過程100%用戶參與

IT基礎(chǔ)架構(gòu)與用戶數(shù)據(jù)準備、探查、分析、預(yù)測分離18AdvancedAnalyticServiceAllRightsReserved2016技術(shù)方案:特點小結(jié)基于開源系統(tǒng)的成熟商用插件方案18Adv大數(shù)據(jù)團隊組織建設(shè)數(shù)據(jù)與業(yè)務(wù)的結(jié)合大數(shù)據(jù)開發(fā)團隊技術(shù)平臺支持業(yè)務(wù)人員咨詢團隊大數(shù)據(jù)管理員內(nèi)部團隊與專業(yè)伙伴緊密合作Evan數(shù)據(jù)科學(xué)家大數(shù)據(jù)團隊組織建設(shè)數(shù)據(jù)與業(yè)務(wù)的結(jié)合大數(shù)據(jù)開發(fā)團隊技術(shù)平臺支持大數(shù)據(jù)技術(shù)應(yīng)用20AdvancedAnalyticServiceAllRightsReserved2016大數(shù)據(jù)技術(shù)應(yīng)用20AdvancedAnalyticSerInternetofCustomers

andInternetofThingsIoTInvisibledevicesandWearabledevicesTrillionsofnetworkednodesLowbandwidthlast-mileconnection100kBit/secMostlyaddressedbylocalschemesMachine-centricSensing-focusTrillionsofcomputer-enableddeviceswhicharepartoftheIoTGlobaladdressingUser-centricCommunication-focusIoCLaptops/tablets/smartphonesBillionsofnetworkeddevicesHigh-bandwidthaccessCable:10Mbs+Fiber:50-100Mbs6+billionpeople1.5billionusenetUS:4.3devicesperadultInternetofCustomers

andIntBigDataonIoTBigDataonIoTPredictiveMaintenancethatenableyoutochangeyourbusiness…HadoopMachineLearningQueryandreportingIoT解決方案CommandandControlYouhavedevicesonthenetworkedge…PlantFloorThingsSupplyChainThingsBackOfficeThingsBasicSensorsIntelligentDevicesthatprovideyoudata…SQLDatabasesBlobStorageTableStorageExternalStorageDocumentDBthatyouunderstand,applyrules,modelsandmore…CommandandControlEventHub(ServiceBus)Predictivethatenableyouto本質(zhì)是基于“信息物理系統(tǒng)”實現(xiàn)“智能化…”二、工業(yè)4.0時代的智能制造IoT的本質(zhì)本質(zhì)是基于“信息物理系統(tǒng)”實現(xiàn)“智能化…二、工業(yè)4.0時代的智能制造IoT--智能工廠二、工業(yè)4.0時代的智能制造IoT--智能工廠BigDataonIoC360CustomerProfileMicro-SegmentationCustomerLifetimeValueNextBestActionCustomerSentimentCampaignOptimizationChurnMarketBasketAnalysisBigDataonIoC360CustomerPr關(guān)聯(lián)分析行動創(chuàng)建客戶檔案識別共同關(guān)鍵詞CRM賬戶信息及客戶特征EDW交易歷史社交媒體關(guān)鍵字整合數(shù)據(jù)并載入hadoop連接至文本挖掘應(yīng)用將數(shù)據(jù)庫連接至EDW連接至flatfileSalesLift

20%60%100%n%購買周期趨勢購買家庭信息購買人口特征通過API與CRM相連連接至flatfile連接至flatfile刪除重復(fù)客戶載入Hadoop在用戶ID間連接數(shù)據(jù)第一階段識別人口微簇客戶畫像關(guān)聯(lián)分析行動創(chuàng)建客戶檔案識別共同關(guān)鍵詞CRM賬戶信息及客戶特

刪除重復(fù)客戶在用戶ID間連接數(shù)據(jù)識別共同關(guān)鍵字創(chuàng)建客戶檔案數(shù)據(jù)流引擎人口分布客戶傾向HADOOP集群/YARN關(guān)聯(lián)分析行動數(shù)據(jù)庫分析查詢可視化報表分析工具及應(yīng)用HDFS/NFS低延遲查詢集成服務(wù)器BI服務(wù)器數(shù)據(jù)庫集群/服務(wù)器社交媒體鏈接數(shù)據(jù)庫鏈接文本分割鏈接API鏈接固定文本鏈接文本分割鏈接消費心理第一階段HDFSAPI數(shù)據(jù)混合與濃縮集成引擎ACTIAN分析平臺CRM賬戶信息及客戶特征EDW交易歷史社交媒體關(guān)鍵字購買周期趨勢購買家庭信息購買人口特征客戶畫像參考架構(gòu)創(chuàng)建客戶檔案數(shù)據(jù)流引擎人口分布客戶傾向HADOOP集群/Y360度客戶視圖360度客戶視圖案例分享車聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用30AdvancedAnalyticServiceAllRightsReserved2016案例分享車聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用30AdvancedAnalyti項目背景圍繞車輛全生命周期,數(shù)據(jù)驅(qū)動的車聯(lián)網(wǎng)與跨行業(yè)融合,可衍生出多樣的商業(yè)模式與創(chuàng)新服務(wù);基于豐富的車聯(lián)數(shù)據(jù)、多樣的服務(wù)平臺,可對行業(yè)、社會熱點展開洞見分析,同時挖掘更多的商業(yè)價值,拓展新的業(yè)務(wù)車輛全生命周期CarFullLifeCycle車輛防盜,財產(chǎn)保護

PropertyProtection保險車聯(lián)網(wǎng)

TelematicsInsurance車內(nèi)LBS服務(wù)

In-CarLBS車載4G熱點

Onboard4GWIFI預(yù)測性保養(yǎng)提醒

ProactiveReminder汽車延保

ExtendedWarranty預(yù)測性維修提醒

ProactiveReminder遠程在線升級

OTAUpgrade車隊管理

FleetMgmt.汽車共享

CarSharing車況分析報告

AssessReport二手車聯(lián)合鑒定

UnitedAssessment消費者畫像

UserPortrait新車銷售線索

SalesLeeds客制化服務(wù)

Customization產(chǎn)品規(guī)劃

Planning設(shè)計研發(fā)

R&D生產(chǎn)制造Production市場營銷

Marketing售后保障AfterSales持續(xù)改進KeepImprove新車銷售CarSales試駕TestDrive金融Finance維修Repair車生活I(lǐng)n-CarLife保險Insurance保養(yǎng)

Maintain租賃Leasing二手車UsedCar項目背景圍繞車輛全生命周期,數(shù)據(jù)驅(qū)動的車聯(lián)網(wǎng)與跨行業(yè)融合,可安吉星大數(shù)據(jù)項目目標與當前的問題目標:主數(shù)據(jù)(數(shù)據(jù)質(zhì)量)的升級主題模型落地,保持數(shù)據(jù)一致性提高運維的靈活性應(yīng)用數(shù)據(jù)緩存的改造用空間換時間的方法保護后臺核心應(yīng)用的正常運行企業(yè)經(jīng)營分析的改造提高運營速度和質(zhì)量,降低數(shù)據(jù)開發(fā)成本新業(yè)務(wù)的支持駕駛行為分析燃油分析二手車評估車況鑒定報告問題:缺少數(shù)據(jù)主題重復(fù)開發(fā)和浪費成本數(shù)據(jù)質(zhì)量不可控數(shù)據(jù)缺少管控BI開發(fā)成本高,周期長缺少業(yè)務(wù)分析平臺車輛數(shù)據(jù)采集能力有限業(yè)務(wù)數(shù)據(jù)無法有效支持安吉星大數(shù)據(jù)項目目標與當前的問題目標:問題:大數(shù)據(jù)平臺邏輯架構(gòu)報表/可視化數(shù)據(jù)集成區(qū)批量數(shù)據(jù)處理實時消息隊列數(shù)據(jù)湖泊區(qū)機器學(xué)習(xí)區(qū)NoSQL區(qū)流計算區(qū)數(shù)據(jù)暫存區(qū)數(shù)據(jù)倉庫區(qū)主題分析區(qū)MobileDAAPVehicleLVDSTrafficProbeHA/HBOVDACR其它數(shù)據(jù)源其它數(shù)據(jù)源系統(tǒng)管理數(shù)據(jù)管理搜索引擎區(qū)數(shù)據(jù)交換區(qū)數(shù)據(jù)源大數(shù)據(jù)平臺邏輯架構(gòu)報表/可視化數(shù)據(jù)集成區(qū)批量數(shù)據(jù)處理實時消息車輛行駛?cè)罩拒囕v行駛?cè)罩炯奔铀?、加速日志車載系統(tǒng)日志車輛行駛?cè)罩拒囕v行駛?cè)罩炯奔铀?、加速日志車載系統(tǒng)日志實時數(shù)據(jù)計算35實時數(shù)據(jù)計算35駕駛行為評分36第1步:建模變量的選擇從所有變量中,選取建模選定的變量

第2步:衍生建模變量計算基于TP類別的變量,進行用戶駕駛風險的初步計算第3步:用戶出險概率計算基于第2步計算結(jié)果,結(jié)合HAHB類別變量,進行用戶出險概率的計算第4步:駕駛風險評分計算將出險概率,轉(zhuǎn)化為對應(yīng)的駕駛風險評分第5步:駕駛行為評分計算將駕駛風險評分,轉(zhuǎn)化為對應(yīng)的駕駛行為評分駕駛行為評分36第1步:建模變量的選擇

第2步:衍生建模變量駕駛行為評分—閾值計算通過機器學(xué)習(xí)算法,實時的將所有用戶數(shù)據(jù)代入駕駛風險概率模型,動態(tài)計算相關(guān)閾值Setresponsevariable=uncomfortablemaneuverSetpredictorvariable=acceleration,speed,turnsCalculatethescore37駕駛行為評分—閾值計算通過機器學(xué)習(xí)算法,實時的將所有用戶數(shù)據(jù)駕駛行為評分駕駛行為評分用車軌跡--用戶畫像When何時Where何地Who是誰What做什么上班族Commuter商務(wù)人士BizMan家庭主婦Housewife夜晚活動族NightOwls用車軌跡--用戶畫像When何時上班族商務(wù)人士家庭主用車軌跡–交叉銷售售后維修保養(yǎng)機會點OpportunitiesforA/SMaintenance新車銷售機會點OpportunitiesforNewCarSalesMaintenanceOpportunities用車軌跡–交叉銷售售后維修保養(yǎng)機會點新車銷售機會點Mai車況報告車況報告車況報告車況報告案例分享智能生產(chǎn)預(yù)測43AdvancedAnalyticServiceAllRightsReserved2016案例分享智能生產(chǎn)預(yù)測43AdvancedAnalytic項目背景項目背景隨著業(yè)務(wù)的不斷發(fā)展,生產(chǎn)線不斷擴張,不同生產(chǎn)線、不同機臺、不同工序所產(chǎn)生的玻璃面板壞點數(shù)量參差不起,良品率總體呈現(xiàn)下降趨勢。為了提高玻璃面板的良品率,不斷優(yōu)化工藝流程,提升產(chǎn)品質(zhì)量,決定建立數(shù)據(jù)分析平臺,來預(yù)測壞點產(chǎn)生跟生產(chǎn)流程上的哪些因素有關(guān),來做有正對性的改進。項目實施收集生產(chǎn)Glass過程當中所有相關(guān)的因子信息,通過Dataflow工具對品質(zhì)異常的玻璃數(shù)據(jù)進行regression、correlation挖掘算法分析,計算各因子與產(chǎn)品異常之間的影響關(guān)系。同時針對正常品質(zhì)玻璃也做因子分析,計算得出正常品質(zhì)下各因子的正常范圍值,從而可以快速判定超出范圍的為異常值。項目背景項目背景品質(zhì)異常因子分析抽取源系統(tǒng)數(shù)據(jù)并通過數(shù)據(jù)的業(yè)務(wù)邏輯進行數(shù)據(jù)關(guān)聯(lián)進行數(shù)據(jù)準備,然后通過數(shù)據(jù)挖掘算法進行correlation、regression兩類數(shù)據(jù)挖掘,并將挖掘結(jié)果寫到HDFS文件系統(tǒng)中。品質(zhì)異常因子分析抽取源系統(tǒng)數(shù)據(jù)并通過數(shù)據(jù)的業(yè)務(wù)邏輯進行數(shù)據(jù)關(guān)通過針對defect_count、recipe、TC_C1_EV因子,經(jīng)過regression算法,從測試數(shù)據(jù)中挖掘出defect_count預(yù)測數(shù)據(jù)數(shù)據(jù)分析過程通過針對不同Product_ID下,defect_count因子和TC_PRESSS、TC_IP1_PRESS、TC_IP2_PRESS,車臺溫度等因子,經(jīng)過correlation算法,從測試數(shù)據(jù)中挖掘出相關(guān)性數(shù)據(jù)注:挖掘數(shù)據(jù)位于測試中轉(zhuǎn)機I:\To_Andy\correlation.txt、I:\To_Andy\regression.txt通過針對defect_count、recipe、TC_C1_關(guān)聯(lián)預(yù)測準確度(越靠近中線,預(yù)測偏差越?。╆P(guān)聯(lián)預(yù)測準確度(越靠近中線,預(yù)測偏差越?。┚€性回歸分析異常點部分需要進一步分析線性回歸分析異常點部分需要進一步分析分析結(jié)果分析結(jié)果案例分享傳統(tǒng)數(shù)倉轉(zhuǎn)大數(shù)據(jù)50AdvancedAnalyticServiceAllRightsReserved2016案例分享傳統(tǒng)數(shù)倉轉(zhuǎn)大數(shù)據(jù)50AdvancedAnalyti項目背景使用傳統(tǒng)的標準數(shù)倉建模,分ODS、DW、DM及DMAETL主要通過存儲過程實現(xiàn)存儲過程數(shù)據(jù)加工較多的使用臨時表、中間表使用傳統(tǒng)交易型DBMSORACLE作為數(shù)據(jù)倉庫平臺前端通過刷CUBE提升報表查詢速度支撐報表數(shù)量:目前150左右每日增量更新時長:1:00-12:50項目背景使用傳統(tǒng)的標準數(shù)倉建模,分ODS、DW、DM及DMA存在的問題數(shù)據(jù)冗余比較嚴重臨時表、中間表使用過多,對內(nèi)存及磁盤IO壓力較大層與層之間調(diào)度依賴嚴格數(shù)據(jù)加工性能不足數(shù)據(jù)查詢性能不足高并發(fā)查詢性能下降嚴重存在的問題數(shù)據(jù)冗余比較嚴重臨時表、中間表使用過多,對內(nèi)存及磁并發(fā)的計算架構(gòu)53SQL(JDBC/ODBC/.Net)JAVA/C/…

API加載入分布式存儲SQLonHadoop加載入SQLinHadoopSourceCDHCluster+HadoopETL分布式內(nèi)存數(shù)據(jù)整合數(shù)據(jù)抽取CDHNodes(Cloudera’sdistributiongincludingApacheHadoop)HadoopETLrunsnativelyoneverynodeSQLonHadoopSQLonHadoop基于標準SQL或者API界面輸出并發(fā)的計算架構(gòu)53SQL(JDBC/ODBC/.Net)加載新架構(gòu)解決的問題數(shù)據(jù)冗余比較嚴重臨時表、中間表使用過多,對內(nèi)存及磁盤IO壓力較大層與層之間調(diào)度依賴嚴格數(shù)據(jù)加工性能不足數(shù)據(jù)查詢性能不足高并發(fā)查詢性能下降嚴重Dataflow流式加工數(shù)據(jù),只將結(jié)果集回寫數(shù)據(jù)庫,大大避免減少數(shù)據(jù)冗余Dataflow中流式加工數(shù)據(jù),可以不用臨時表,節(jié)約大量磁盤IODataflow作業(yè)中直接實現(xiàn)業(yè)務(wù)邏輯,各報表相對獨立無依賴Dataflow流式并行加工數(shù)據(jù),且可通過擴展節(jié)點線性提升性能Impala特有向量計算技術(shù)及采用分布式并行計算架構(gòu)Impala向量計算、列存儲、并行計算等技術(shù)完美支持高并發(fā)查詢新架構(gòu)解決的問題數(shù)據(jù)冗余比較嚴重臨時表、中間表使用過多,對內(nèi)結(jié)果比較結(jié)果比較大數(shù)據(jù)創(chuàng)新實驗室BetterData,BetterDecision

大數(shù)據(jù)之路有我們,不再迷茫大數(shù)據(jù)創(chuàng)新實驗室BetterData,BetterDe總結(jié)問題與討論57AdvancedAnalyticServiceAllRightsReserved2016總結(jié)問題與討論57AdvancedAnalyticSer議程公司簡介大數(shù)據(jù)與大數(shù)據(jù)技術(shù)大數(shù)據(jù)技術(shù)應(yīng)用

大數(shù)據(jù)案例分享問題討論58AdvancedAnalyticServiceAllRightsReserved2016議程公司簡介1AdvancedAnalyticServi公司簡介公司概況&發(fā)展歷史主要客戶&大數(shù)據(jù)產(chǎn)品59AdvancedAnalyticServiceAllRightsReserved2016公司簡介公司概況&發(fā)展歷史2AdvancedAnalyti新加坡上海北京公司概況青島雅加達專注于分析預(yù)測與行業(yè)應(yīng)用的的大數(shù)據(jù)公司深圳業(yè)務(wù)1業(yè)務(wù)2業(yè)務(wù)3提供基于大數(shù)據(jù)技術(shù)的預(yù)測性分析及商務(wù)智能解決方案大數(shù)據(jù)平臺、數(shù)據(jù)集成與準備工具、開源開發(fā)技術(shù)自助式分析工具、數(shù)據(jù)可視化工具提供全球頂尖的大數(shù)據(jù)軟件產(chǎn)品300+技術(shù)服務(wù)人員端到端的大數(shù)據(jù)平臺數(shù)據(jù)集成、數(shù)據(jù)挖掘與預(yù)測性分析、高級分析企業(yè)級大數(shù)據(jù)倉庫、企業(yè)績效管理、商務(wù)智能大數(shù)據(jù)SaaS應(yīng)用和DaaS服務(wù)基于云平臺的軟件即服務(wù)大數(shù)據(jù)應(yīng)用為企業(yè)提供全面的數(shù)據(jù)服務(wù)

新加坡上海北京公司概況青島雅加達專注于分析預(yù)測與行業(yè)應(yīng)用的的發(fā)展歷史數(shù)據(jù)倉庫績效管理高級分析數(shù)據(jù)可視化看板管理商務(wù)智能2.0至今2005200720112002大數(shù)據(jù)技術(shù)大數(shù)據(jù)應(yīng)用分析預(yù)測數(shù)據(jù)挖掘數(shù)據(jù)即服務(wù)數(shù)據(jù)集市

14年來,我們與數(shù)俱進發(fā)展歷史數(shù)據(jù)倉庫高級分析至今2005200720112002汽車制造·電子產(chǎn)品及家電·快消零售·醫(yī)藥與生命科學(xué)·航空與物流·高科技制造業(yè)·金融及其他主要客戶汽車制造·電子產(chǎn)品及家電·快消零售·云以H

a

d

o

o

p為核心的大數(shù)據(jù)產(chǎn)品系列數(shù)據(jù)集成與準備SQLonHadoopTexthere流計算機器學(xué)習(xí)開源開發(fā)技術(shù)數(shù)據(jù)挖掘以H

a

d

o

o

p為核心的大數(shù)據(jù)產(chǎn)品大數(shù)據(jù)軟件產(chǎn)品Statistica數(shù)據(jù)可視化Vortex云以Hadoop為核心的大數(shù)據(jù)產(chǎn)品系列數(shù)據(jù)集成數(shù)據(jù)創(chuàng)新經(jīng)驗融合擁有多元化的數(shù)據(jù)科學(xué)家團隊和十余年的數(shù)據(jù)分析經(jīng)驗。經(jīng)十余年自主開發(fā)的IP打造數(shù)據(jù)行業(yè)領(lǐng)先的技術(shù)優(yōu)勢。

追蹤吸收和引進行業(yè)內(nèi)最先進的技術(shù),產(chǎn)品和應(yīng)用經(jīng)驗。世界頂尖數(shù)據(jù)技術(shù)公司在中國地區(qū)的首選合作伙伴。在一大批競爭行業(yè)(汽車、制藥、快消、家電、物流等)內(nèi)擁有深厚的客戶基礎(chǔ)和眾多行業(yè)成功案例。追求行業(yè)業(yè)務(wù)能力和技術(shù)能力的融合以及企業(yè)系統(tǒng)架構(gòu)與解決業(yè)務(wù)問題間的平衡,具有扎實的項目實施能力。HEADLINE

競爭優(yōu)勢數(shù)據(jù)創(chuàng)新經(jīng)驗融合擁有多元化的數(shù)據(jù)科學(xué)家團隊和十余年的數(shù)據(jù)分析大數(shù)據(jù)與大數(shù)據(jù)技術(shù)65AdvancedAnalyticServiceAllRightsReserved2016大數(shù)據(jù)與大數(shù)據(jù)技術(shù)8AdvancedAnalyticSeHadoop技術(shù)的發(fā)展物聯(lián)網(wǎng)應(yīng)用需要將Hadoop變?yōu)橐粋€高性能的分析平臺需要Hadoop不光能存儲數(shù)據(jù),更要能夠處理計算數(shù)據(jù)Hadoop技術(shù)的發(fā)展物聯(lián)網(wǎng)應(yīng)用需要將Hadoop變?yōu)橐粋€高SQL分析挖掘預(yù)測圖形化數(shù)據(jù)分析智能搜索時間、用戶、地理位置、事件等標簽輔助技術(shù):Kafka,HBase,Cassandra,Accumulo基于大數(shù)據(jù)技術(shù)的數(shù)據(jù)分析處理Hadoop核心層數(shù)據(jù)準備SQL分析挖掘預(yù)測圖形化數(shù)據(jù)分析智能搜索時間、用戶、地理位技術(shù)更迭過快開源產(chǎn)品成熟度開發(fā)效率與現(xiàn)有架構(gòu)的關(guān)系運維與安全大數(shù)據(jù)技術(shù)的顧慮?技術(shù)更迭過快大數(shù)據(jù)技術(shù)的顧慮?大數(shù)據(jù)平臺計算框架傳統(tǒng)數(shù)倉功能非結(jié)構(gòu)化流式挖掘分析大數(shù)據(jù)平臺計算框架傳統(tǒng)數(shù)倉功能非結(jié)構(gòu)化流式挖掘分析軟件架構(gòu)(舉例)DATAPLATFORM(HDFS)靈活數(shù)據(jù)準備SQL

inHadoop數(shù)據(jù)挖掘與預(yù)測SQL(ODBC、JDBC、、。NET)API:Java,C/++,Python前端應(yīng)用報表外部應(yīng)用下游系統(tǒng)管理控制臺(CloudEra、Talend、KNIME)數(shù)據(jù)安全以及認證(Portal集成)軟件架構(gòu)(舉例)DATAPLATFORM(HDFS)靈用工具取代代碼作坊MapReducePerformance(runsondisk)OneClickSparkPerformance(runsin-memory&ondisk)20XFaster用工具取代代碼作坊MapReduce(runsondis同時處理實時與批次流式處理批次處理轉(zhuǎn)換清洗治理轉(zhuǎn)換清洗治理推薦引擎SparkStreaming/KafkaSpark數(shù)據(jù)庫,文件,批次數(shù)據(jù)實時,流數(shù)據(jù)HDFS文件數(shù)據(jù)流輸出同時處理實時與批次流式處理批次處理轉(zhuǎn)換清洗治理轉(zhuǎn)換清洗治理推基于用戶數(shù)據(jù)理解地模型預(yù)測圖形化數(shù)據(jù)準備挖掘運用SparkMlib等進行計算結(jié)果回寫入Impala或者HIVE基于用戶數(shù)據(jù)理解地模型預(yù)測圖形化數(shù)據(jù)準備挖掘非結(jié)構(gòu)化數(shù)據(jù)為存儲的新型SQL

基于落地HDFS的文件或HBASE進行SQL建表解析提供工業(yè)MPP級別查詢性能線性可擴展標準JDBC

SQL界面,直連BO,Tableau,Qlikview,MSTR等報表工具非結(jié)構(gòu)化數(shù)據(jù)為存儲的新型SQL基于落地HDFS的文件或HB技術(shù)方案:特點小結(jié)基于開源系統(tǒng)的成熟商用插件方案部署簡便提高開發(fā)效率降低實施風險基于內(nèi)存的計算性能優(yōu)異全部基于唯一Hadoop集群內(nèi),統(tǒng)一存儲統(tǒng)一計算減少數(shù)據(jù)傳輸遷移的同步問題維護便捷:一套集群,維護簡單擴展性:無限擴展線性提升便捷的開發(fā)及報表展現(xiàn)工具圖形化ETL,數(shù)據(jù)挖掘開發(fā)便捷報表展現(xiàn)分析工具建模過程100%用戶參與

IT基礎(chǔ)架構(gòu)與用戶數(shù)據(jù)準備、探查、分析、預(yù)測分離75AdvancedAnalyticServiceAllRightsReserved2016技術(shù)方案:特點小結(jié)基于開源系統(tǒng)的成熟商用插件方案18Adv大數(shù)據(jù)團隊組織建設(shè)數(shù)據(jù)與業(yè)務(wù)的結(jié)合大數(shù)據(jù)開發(fā)團隊技術(shù)平臺支持業(yè)務(wù)人員咨詢團隊大數(shù)據(jù)管理員內(nèi)部團隊與專業(yè)伙伴緊密合作Evan數(shù)據(jù)科學(xué)家大數(shù)據(jù)團隊組織建設(shè)數(shù)據(jù)與業(yè)務(wù)的結(jié)合大數(shù)據(jù)開發(fā)團隊技術(shù)平臺支持大數(shù)據(jù)技術(shù)應(yīng)用77AdvancedAnalyticServiceAllRightsReserved2016大數(shù)據(jù)技術(shù)應(yīng)用20AdvancedAnalyticSerInternetofCustomers

andInternetofThingsIoTInvisibledevicesandWearabledevicesTrillionsofnetworkednodesLowbandwidthlast-mileconnection100kBit/secMostlyaddressedbylocalschemesMachine-centricSensing-focusTrillionsofcomputer-enableddeviceswhicharepartoftheIoTGlobaladdressingUser-centricCommunication-focusIoCLaptops/tablets/smartphonesBillionsofnetworkeddevicesHigh-bandwidthaccessCable:10Mbs+Fiber:50-100Mbs6+billionpeople1.5billionusenetUS:4.3devicesperadultInternetofCustomers

andIntBigDataonIoTBigDataonIoTPredictiveMaintenancethatenableyoutochangeyourbusiness…HadoopMachineLearningQueryandreportingIoT解決方案CommandandControlYouhavedevicesonthenetworkedge…PlantFloorThingsSupplyChainThingsBackOfficeThingsBasicSensorsIntelligentDevicesthatprovideyoudata…SQLDatabasesBlobStorageTableStorageExternalStorageDocumentDBthatyouunderstand,applyrules,modelsandmore…CommandandControlEventHub(ServiceBus)Predictivethatenableyouto本質(zhì)是基于“信息物理系統(tǒng)”實現(xiàn)“智能化…”二、工業(yè)4.0時代的智能制造IoT的本質(zhì)本質(zhì)是基于“信息物理系統(tǒng)”實現(xiàn)“智能化…二、工業(yè)4.0時代的智能制造IoT--智能工廠二、工業(yè)4.0時代的智能制造IoT--智能工廠BigDataonIoC360CustomerProfileMicro-SegmentationCustomerLifetimeValueNextBestActionCustomerSentimentCampaignOptimizationChurnMarketBasketAnalysisBigDataonIoC360CustomerPr關(guān)聯(lián)分析行動創(chuàng)建客戶檔案識別共同關(guān)鍵詞CRM賬戶信息及客戶特征EDW交易歷史社交媒體關(guān)鍵字整合數(shù)據(jù)并載入hadoop連接至文本挖掘應(yīng)用將數(shù)據(jù)庫連接至EDW連接至flatfileSalesLift

20%60%100%n%購買周期趨勢購買家庭信息購買人口特征通過API與CRM相連連接至flatfile連接至flatfile刪除重復(fù)客戶載入Hadoop在用戶ID間連接數(shù)據(jù)第一階段識別人口微簇客戶畫像關(guān)聯(lián)分析行動創(chuàng)建客戶檔案識別共同關(guān)鍵詞CRM賬戶信息及客戶特

刪除重復(fù)客戶在用戶ID間連接數(shù)據(jù)識別共同關(guān)鍵字創(chuàng)建客戶檔案數(shù)據(jù)流引擎人口分布客戶傾向HADOOP集群/YARN關(guān)聯(lián)分析行動數(shù)據(jù)庫分析查詢可視化報表分析工具及應(yīng)用HDFS/NFS低延遲查詢集成服務(wù)器BI服務(wù)器數(shù)據(jù)庫集群/服務(wù)器社交媒體鏈接數(shù)據(jù)庫鏈接文本分割鏈接API鏈接固定文本鏈接文本分割鏈接消費心理第一階段HDFSAPI數(shù)據(jù)混合與濃縮集成引擎ACTIAN分析平臺CRM賬戶信息及客戶特征EDW交易歷史社交媒體關(guān)鍵字購買周期趨勢購買家庭信息購買人口特征客戶畫像參考架構(gòu)創(chuàng)建客戶檔案數(shù)據(jù)流引擎人口分布客戶傾向HADOOP集群/Y360度客戶視圖360度客戶視圖案例分享車聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用87AdvancedAnalyticServiceAllRightsReserved2016案例分享車聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用30AdvancedAnalyti項目背景圍繞車輛全生命周期,數(shù)據(jù)驅(qū)動的車聯(lián)網(wǎng)與跨行業(yè)融合,可衍生出多樣的商業(yè)模式與創(chuàng)新服務(wù);基于豐富的車聯(lián)數(shù)據(jù)、多樣的服務(wù)平臺,可對行業(yè)、社會熱點展開洞見分析,同時挖掘更多的商業(yè)價值,拓展新的業(yè)務(wù)車輛全生命周期CarFullLifeCycle車輛防盜,財產(chǎn)保護

PropertyProtection保險車聯(lián)網(wǎng)

TelematicsInsurance車內(nèi)LBS服務(wù)

In-CarLBS車載4G熱點

Onboard4GWIFI預(yù)測性保養(yǎng)提醒

ProactiveReminder汽車延保

ExtendedWarranty預(yù)測性維修提醒

ProactiveReminder遠程在線升級

OTAUpgrade車隊管理

FleetMgmt.汽車共享

CarSharing車況分析報告

AssessReport二手車聯(lián)合鑒定

UnitedAssessment消費者畫像

UserPortrait新車銷售線索

SalesLeeds客制化服務(wù)

Customization產(chǎn)品規(guī)劃

Planning設(shè)計研發(fā)

R&D生產(chǎn)制造Production市場營銷

Marketing售后保障AfterSales持續(xù)改進KeepImprove新車銷售CarSales試駕TestDrive金融Finance維修Repair車生活I(lǐng)n-CarLife保險Insurance保養(yǎng)

Maintain租賃Leasing二手車UsedCar項目背景圍繞車輛全生命周期,數(shù)據(jù)驅(qū)動的車聯(lián)網(wǎng)與跨行業(yè)融合,可安吉星大數(shù)據(jù)項目目標與當前的問題目標:主數(shù)據(jù)(數(shù)據(jù)質(zhì)量)的升級主題模型落地,保持數(shù)據(jù)一致性提高運維的靈活性應(yīng)用數(shù)據(jù)緩存的改造用空間換時間的方法保護后臺核心應(yīng)用的正常運行企業(yè)經(jīng)營分析的改造提高運營速度和質(zhì)量,降低數(shù)據(jù)開發(fā)成本新業(yè)務(wù)的支持駕駛行為分析燃油分析二手車評估車況鑒定報告問題:缺少數(shù)據(jù)主題重復(fù)開發(fā)和浪費成本數(shù)據(jù)質(zhì)量不可控數(shù)據(jù)缺少管控BI開發(fā)成本高,周期長缺少業(yè)務(wù)分析平臺車輛數(shù)據(jù)采集能力有限業(yè)務(wù)數(shù)據(jù)無法有效支持安吉星大數(shù)據(jù)項目目標與當前的問題目標:問題:大數(shù)據(jù)平臺邏輯架構(gòu)報表/可視化數(shù)據(jù)集成區(qū)批量數(shù)據(jù)處理實時消息隊列數(shù)據(jù)湖泊區(qū)機器學(xué)習(xí)區(qū)NoSQL區(qū)流計算區(qū)數(shù)據(jù)暫存區(qū)數(shù)據(jù)倉庫區(qū)主題分析區(qū)MobileDAAPVehicleLVDSTrafficProbeHA/HBOVDACR其它數(shù)據(jù)源其它數(shù)據(jù)源系統(tǒng)管理數(shù)據(jù)管理搜索引擎區(qū)數(shù)據(jù)交換區(qū)數(shù)據(jù)源大數(shù)據(jù)平臺邏輯架構(gòu)報表/可視化數(shù)據(jù)集成區(qū)批量數(shù)據(jù)處理實時消息車輛行駛?cè)罩拒囕v行駛?cè)罩炯奔铀?、加速日志車載系統(tǒng)日志車輛行駛?cè)罩拒囕v行駛?cè)罩炯奔铀佟⒓铀偃罩拒囕d系統(tǒng)日志實時數(shù)據(jù)計算92實時數(shù)據(jù)計算35駕駛行為評分93第1步:建模變量的選擇從所有變量中,選取建模選定的變量

第2步:衍生建模變量計算基于TP類別的變量,進行用戶駕駛風險的初步計算第3步:用戶出險概率計算基于第2步計算結(jié)果,結(jié)合HAHB類別變量,進行用戶出險概率的計算第4步:駕駛風險評分計算將出險概率,轉(zhuǎn)化為對應(yīng)的駕駛風險評分第5步:駕駛行為評分計算將駕駛風險評分,轉(zhuǎn)化為對應(yīng)的駕駛行為評分駕駛行為評分36第1步:建模變量的選擇

第2步:衍生建模變量駕駛行為評分—閾值計算通過機器學(xué)習(xí)算法,實時的將所有用戶數(shù)據(jù)代入駕駛風險概率模型,動態(tài)計算相關(guān)閾值Setresponsevariable=uncomfortablemaneuverSetpredictorvariable=acceleration,speed,turnsCalculatethescore94駕駛行為評分—閾值計算通過機器學(xué)習(xí)算法,實時的將所有用戶數(shù)據(jù)駕駛行為評分駕駛行為評分用車軌跡--用戶畫像When何時Where何地Who是誰What做什么上班族Commuter商務(wù)人士BizMan家庭主婦Housewife夜晚活動族NightOwls用車軌跡--用戶畫像When何時上班族商務(wù)人士家庭主用車軌跡–交叉銷售售后維修保養(yǎng)機會點OpportunitiesforA/SMaintenance新車銷售機會點OpportunitiesforNewCarSalesMaintenanceOpportunities用車軌跡–交叉銷售售后維修保養(yǎng)機會點新車銷售機會點Mai車況報告車況報告車況報告車況報告案例分享智能生產(chǎn)預(yù)測100AdvancedAnalyticServiceAllRightsReserved2016案例分享智能生產(chǎn)預(yù)測43AdvancedAnalytic項目背景項目背景隨著業(yè)務(wù)的不斷發(fā)展,生產(chǎn)線不斷擴張,不同生產(chǎn)線、不同機臺、不同工序所產(chǎn)生的玻璃面板壞點數(shù)量參差不起,良品率總體呈現(xiàn)下降趨勢。為了提高玻璃面板的良品率,不斷優(yōu)化工藝流程,提升產(chǎn)品質(zhì)量,決定建立數(shù)據(jù)分析平臺,來預(yù)測壞點產(chǎn)生跟生產(chǎn)流程上的哪些因素有關(guān),來做有正對性的改進。項目實施收集生產(chǎn)Glass過程當中所有相關(guān)的因子信息,通過Dataflow工具對品質(zhì)異常的玻璃數(shù)據(jù)進行regression、correlati

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論