議題3電信場景下spark一站式分析平臺_第1頁
議題3電信場景下spark一站式分析平臺_第2頁
議題3電信場景下spark一站式分析平臺_第3頁
議題3電信場景下spark一站式分析平臺_第4頁
議題3電信場景下spark一站式分析平臺_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

電信場景下Spark一站式分析平臺夏命榛2014-08目錄Page2電信大數據場景與關鍵技術1.2.數字足跡案例3.平臺和關鍵技術Page3Page4Page5過濾生成詳單數據模型實時KPI計算/CEP探針周期上報儀表盤15min~sec~sec~msec詳單查詢~hour~min事件產生探針實時上報~msec事件產生…實時KPI15分鐘KPI報表(現狀)15分鐘KPI報表(優(yōu)化后)1小時KPI報表(現狀)天級KPI報表(現狀)15sec1min>2hour報表查詢15分鐘報表統(tǒng)計HDFS挑戰(zhàn):1、HDFS的入庫性能2、高性能實時流處理場景一:業(yè)務KPI統(tǒng)計分析Page6區(qū)域人數分布熱力圖直觀的顯示居住區(qū)、CBD、旅游點、軟件園等區(qū)域各時段人數變化情況。OD圖與算法(區(qū)域間人口流動)與地圖的結合,使用者可自由指定感興趣的區(qū)域,查詢指定功能區(qū)域間人口流動情況,如高檔住宅區(qū)及CBD間的人口流動情況,為城市規(guī)劃,廣告屏和店面選址等應用提供宏觀參考數據。區(qū)域流量分布熱力圖直觀的顯示出區(qū)域內用戶對視頻流量的使用,確定價值客戶挖掘區(qū)域范圍,同時也為后繼的網規(guī)網優(yōu)、路網規(guī)劃、廣告推廣等提供宏觀參考數據。用戶相似度計算分析和對應的數據套餐推薦:結合用戶上網的流量使用信息,挖掘出相似性用戶,把用戶使用套餐多的選擇推薦給其他相關類似用戶,期望擴大運營商的銷售收入。(基于個性化的協(xié)同推薦算法)場景二:用戶流量使用的關聯分析電信行業(yè)數據源及數據特征一覽領域類別項目數據源特征屬性M域企業(yè)管理ERP/供應鏈/財務/人力資源信息等人交易型(點操作)、符合3NF規(guī)范構筑數據模型、結構化存儲100TB級容量、響應速度10~100毫秒以人為核心的數據B域用戶數據定購業(yè)務信息交易型(點操作)、符合3NF規(guī)范構筑數據模型、結構化存儲TB-PB級容量、響應速度要求10~100毫秒用戶終端信息(型號、機型、模式、操作系統(tǒng)等)用戶信息(用戶消費習慣、開戶信息、ARPUGroup)業(yè)務數據業(yè)務基本信息交易型(點\批操作)、部分符合3NF規(guī)范構筑數據模型、結構化/非結構化存儲(如閱讀基地等)PB級容量、響應速度要求1~10毫秒業(yè)務定購關系業(yè)務使用記錄(計費、排行、定價等)O域網絡數據話單/清單/信令數據機器結構化數據、以文本或表格形式存儲,具備嵌套特征100TB-PB級容量、響應速度100毫秒工單數據人交易型(點\批操作)、符合3NF規(guī)范構筑數據模型、結構化GB級容量、響應速度秒級以網絡控制信息為核心的數據統(tǒng)計數據機器結構化數據、以表格形式存儲100TB-PB級容量、響應速度100毫秒性能數據故障/告警數據結構化數據、以文本或表格形式存儲,具備日志特征TB級容量、響應速度10~100毫秒位置信息網絡接入信令結構化數據、以文本或表格形式存儲,具備日志、時空特征PB級容量、響應速度要求1~10毫秒基站信息地圖/軌跡信息人/機器以人為核心的數據管道中流的數據互聯網數據以http協(xié)議數據為主,如網頁/點擊/URL/視頻等非結構化數據、以文本形式存儲,具備日志特征PB~10PB級容量、響應速度要求1~10毫秒

物聯網數據傳感器數據/空間位置信息/時間序列機器結構化數據、以文本形式存儲,具備日志、時空特征100PB級容量、響應速度要求1~10毫秒以物為核心的數據電信網絡的數據按人、按網絡、按負載目錄Page8數字足跡案例2.1.電信大數據場景與關鍵技術3.平臺和關鍵技術電信大數據電信網絡核心數據資產:ID、網絡交互、移動位置。實現用戶、網絡、社會的數字化映射,實現閉環(huán)優(yōu)化和能力開放。基于位置的應用是目前探索較少的領域。Page9CustomerInternetRNCxGSNPCRF音樂游戲大數據分析電商企業(yè)應用行業(yè)應用TelcoNetworkBSS,CRM,HLR,OCSControllerVAS21IP網絡NetworkOS探針閱讀視頻動漫…自營業(yè)務第三方應用運營探針數據互聯網數據運營數據M2M物聯網數據閉環(huán)優(yōu)化能力開放用戶網絡社會數字足跡Page10GSMUMTSLTE應用道路規(guī)劃精準營銷根據用戶的移動位置記錄,分析用戶的時空行為特征,支撐LocationInsightServiceDemo數據用戶數:18個RNC,125萬用戶每天位置記錄數:12億每天數據量:80GB數據采集數據分析BSCRNC位置聚合時空分析位置采集匿名化區(qū)域道路人全網用戶,廣覆蓋,全時段,連續(xù)性好數據處理Page11SparkRealtimeMRLocationcomputeHDFSCubebuildingMOLAPHDFSAPIDataMiningStream/GeoFencingMR

MD-modelPointmodelad-hocqueryLocationcomputeTrajectoryAnalysisad-hocqueryPage12數字足跡DemoPage13精準營銷實時監(jiān)控Page14道路規(guī)劃精準營銷災難救援店鋪選址平安城市智能交通節(jié)能減排廣告評估用戶洞察與數據面關聯分析與信令面關聯分析目錄Page15平臺關鍵技術3.1.電信大數據場景與關鍵技術2.數字足跡案例平臺架構-頂層Page16通用服務器PCServer2288數據探索數據挖掘可視化批處理流計算預處理預處理位置數據清洗地圖數據集成特征提取數據選擇數據探索SparkSQL統(tǒng)計分析OLAP時空查詢、行為分析數據挖掘道路匹配軌跡聚類頻繁軌跡挖掘可視化Google/Baidu地圖報表echarts“茶壺里的餃子”Page17平臺架構-細化平臺核心能力Page18通用服務器PCServer2288數據探索數據挖掘可視化批處理流計算預處理數據采集和組織追求信息完整,高效組織分布式計算追求Scaleout,性價比,多計算模式算法、模型追求智能,平臺化,平民化算法模型Page19點模型柵格時空模型語義時空模型數據預處理軌跡分段地圖語義標注道路、POI一系列時空點一系列軌跡一系列語義軌跡智能交通Zone統(tǒng)計分析,道路擁塞分析精準營銷人群屬性,職業(yè),購買力分析平安城市時空行為分析,異常軌跡分析數據挖掘語義時空模型1、針對位置的ST-Matching道路匹配算法2、時空聚類、頻繁軌跡挖掘、擁塞預測柵格時空模型1、100M*100M柵格2、數據量壓縮10倍以上3、后續(xù)分析加速5倍以上位置記錄地圖數據實時流計算Page20對實時數據流做即時分析,一般要求亞秒級處理時延獨特場景:不允許將數據存下來再分析的場景。將數據存儲下來再分析成本不可接受的場景。需要低時延輸出結果的場景,時延越小價值越高,如算法交易。華為自研流計算StreamSMART的體系架構流數據源StreamSMARTRuntime流數流輸出StreamSMARTStudioIDEReportOLAPDatamingMPPDBDWHRTD*Self-MonitoringAutomaticRecoveryTechnology華為自研流計算StreamSMART流應用開發(fā)Health&LifeSciencesStockmarketSourceSinkSourceSource算子算子算子算子算子算子算子算子算子算子算子API接口分布式運行環(huán)境集成開發(fā)環(huán)境工具包流處理語言IDE開發(fā)方式面向業(yè)務專家,系統(tǒng)提供IDE環(huán)境,根據業(yè)務需要快速構建大部分的業(yè)務應用。API開發(fā)方式面向軟件開發(fā)員,通過調用API構建應用通用服務器套餐實時推薦場景測試結果Page23組件EDR流量與XDR流量對比流速率(萬事件/秒)CPU使用(%)內存使用(GB)storm1:114510023storm1:10153100storm1:40146100StreamSMART1:13034016StreamSMART1:1032627StreamSMART1:4036327SparkStreaming1:134~46(1s,2s,5s,10s)80SparkStreaming1:1042~6575SparkStreaming1:4049~6560~90注:SparkStreaming的測試未經調優(yōu)SparkStreaming優(yōu)缺點理論分析優(yōu)點Exactlyonce語義,應用不易出錯(一致性)容錯恢復方式比連續(xù)計算模型的效率更高是Spark生態(tài)一部分,易于“Marketing”缺點每個小批量啟動都要聯系Master,帶來處理延遲應用需編程,無成熟CEP方案和CQL語言RDD不可變性帶來大量小Object,對GC沖擊較大適用場景準實時統(tǒng)計類應用,半分鐘級時延對容錯要求高,吞吐量要求高的場景必須和離線計算維護一份代碼的場景華為自研多維分析:SparkOLAPJDBCHDFS歷史詳單MOLAPMOLAPMOLAPRDDPartitionRDDPartitionRDDPartitionOLAPRDDCubeStoreAPILoadLoadLoadHDFS實時流處理NewDataRDDPartitionRDDPartitionJDBCRDDHDFSHDFSMPPDB詳單詳單詳單MPPDBNewDataConnectorLodadSparkOLAPPlanner(基于Catalyst擴展)Page25Page26SparkOLAPQueryProcessor

電信大數據關鍵技術點感知感知感知流并行文本視頻圖像軌跡時序圖數據管理計算分析數據挖掘數據探索大數據平民化E2E開發(fā)環(huán)境接口可視化數據開放關鍵技術點感知:1、針對文本、視頻、時空、社交等數據的感知和信息提??;如WebSensor探針和文本分析計算和管理:2、分布式文件系統(tǒng)提升IO吞吐;3、集中存儲,統(tǒng)一格式免轉換4、集中資源管理,統(tǒng)一調度多計算框架5、針對異構數據(時序、圖、軌跡、流數據)的新計算模式,支持多數據多

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論