基于分布式架構的大數(shù)據(jù)商業(yè)建模_第1頁
基于分布式架構的大數(shù)據(jù)商業(yè)建模_第2頁
基于分布式架構的大數(shù)據(jù)商業(yè)建模_第3頁
基于分布式架構的大數(shù)據(jù)商業(yè)建模_第4頁
基于分布式架構的大數(shù)據(jù)商業(yè)建模_第5頁
已閱讀5頁,還剩38頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、基于分布式架構的大數(shù)據(jù)商業(yè)建模Big Data Practitioner目錄1大數(shù)據(jù)戰(zhàn)略與應用創(chuàng)新2大數(shù)據(jù)建模技術架構3大數(shù)據(jù)建模應用場景4前言大數(shù)據(jù)的核心 預測數(shù)據(jù)多樣, 多數(shù)據(jù)源,且高質量模型統(tǒng)計模型、機器學習為主廣泛的交叉比對預測分析事件發(fā)生的可能性大量高質量數(shù)據(jù) + 模型預測廣泛的數(shù)據(jù)采集廣泛的交叉關聯(lián)大量的統(tǒng)計建模即時的模型應用大數(shù)據(jù) vs 小數(shù)據(jù)大數(shù)據(jù)小數(shù)據(jù)數(shù)據(jù)源多種數(shù)據(jù)源,打破數(shù)據(jù)孤島單一數(shù)據(jù)源數(shù)據(jù)結構非結構化數(shù)據(jù)為主結構化數(shù)據(jù)為主樣本篩選用全部數(shù)據(jù)作為樣本隨機抽樣關聯(lián)和因果更重視關聯(lián)關系更重視因果關系時效性實時性要求高實時性要求低應用重點洞察歷史,預測未來當前業(yè)務流轉數(shù)據(jù)應用演

2、進路線決策支持關系型數(shù)據(jù)庫數(shù)據(jù)倉庫聯(lián)機分析數(shù)據(jù)挖掘商務智能數(shù)據(jù)可視化數(shù)據(jù)開放1940197019881993大數(shù)據(jù)全球的大數(shù)據(jù)產(chǎn)業(yè)和生態(tài)系統(tǒng)已經(jīng)形成并初具規(guī)模全球大數(shù)據(jù)生態(tài)格局基礎Hadoop: Cloudera HortonWork MapRNoSQL: Cloudant Couchbase數(shù)據(jù)管理: Oceansync Datadog數(shù)據(jù)安全與存儲: Stormpath Nimblestorage分析平臺: databricks dataspora非結構化: Palantir Quid可視化: visual.ly actuate日志: splunk loggly應用廣告: eXelate

3、DataXu營銷: Lattice Gainsight金融: Zestfinance Lendup教育: Panorama Knewton數(shù)據(jù)數(shù)據(jù)市場: bluekai DataMarket factual Azure Marketplace數(shù)據(jù)源: quandl premise xignite plaid開源框架Hadoop, Yarn Storm, Spark開源數(shù)據(jù)庫HBase, MongoDBCouchBase, Neo4J開源計算Mahout, WabbitGraphLab, R開源其他Zookeeper, PentahoTalend中國大數(shù)據(jù)生態(tài)的六大趨勢應用化從投入基礎設施轉向可

4、執(zhí)行的分析與應用服務化一切皆服務 (SaaS, PaaS, IaaS, DaaS, MaaS)云端化一切服務皆為云 (所有企業(yè)數(shù)據(jù)和分析最終都會轉移到云端)實用化 描述性分析 預測性分析 診斷性分析低成本化降低“去IOE”運動的技術及成本門檻整體化大數(shù)據(jù)整體解決方案:獲取 存儲 整合 分析 可視化01020304構建消費者完整興趣圖譜打通互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)多維度數(shù)據(jù)處理與實時計算用戶隱私相關法律完善大數(shù)據(jù)商業(yè)建模與應用的挑戰(zhàn)目錄1大數(shù)據(jù)戰(zhàn)略與應用創(chuàng)新2大數(shù)據(jù)建模技術架構3大數(shù)據(jù)建模應用場景4前言技術架構概要大數(shù)據(jù)時代的到來,數(shù)據(jù)的量、源都發(fā)生了劇烈變化,這種變化引發(fā)了變革,開源運動的進一步發(fā)展

5、為這場變革提供了催化劑。下面重點探討商業(yè)模型技術架構如何應對這種變化:大數(shù)據(jù)應用大數(shù)據(jù)管理大數(shù)據(jù)技術電商互聯(lián)網(wǎng)媒體線下零售家電制造汽車廣電旅游金融運營商大數(shù)據(jù)解決方案統(tǒng)計模型最優(yōu)化模型營銷模型機器學習與數(shù)據(jù)挖掘模型可視化模型與可視化層RPythonScalaJavaC、C+SQLWekaSASProcessing分析工具層計算層提供的Java、C、C+、Python等的API,以及已知的對這些API的封裝的開源軟件,如:Rhadoop,Rhive,SparkR、Hadoop Streaming接口層模型層業(yè)務應用云需求層各種操作系統(tǒng)函數(shù)調度與封裝Redis等非結構化數(shù)據(jù)庫OracleMysql

6、等關系型數(shù)據(jù)庫GraphXGraphProcessingMlibMachineLearningSparkStreamingSparkSqlSpark流計算框架MahoutPigGiraphHiveHbaseMap-Reduce計算框架ZooKeeper計算層HDFS分布式文件系統(tǒng)消息隊列碰盤文件系統(tǒng)數(shù)據(jù)文件系統(tǒng)層Windows操作系統(tǒng)Linux、Unix操作系統(tǒng)操作系統(tǒng)層數(shù)據(jù)管理層HadoopSparkNimbus,Supervisor,WorkerStorm實時流計算框架GraphlabProcmodelGraphlabC+APIGraphlab圖處理并行框架GraphlabStorm數(shù)據(jù)庫

7、操作系統(tǒng)API大數(shù)據(jù)商業(yè)建模技術架構圖大數(shù)據(jù)應用大數(shù)據(jù)采集業(yè)務數(shù)據(jù)匯集系統(tǒng)用戶行為數(shù)據(jù)采集系統(tǒng)互聯(lián)網(wǎng)公開數(shù)據(jù)抓取系統(tǒng)大數(shù)據(jù)清洗業(yè)務數(shù)據(jù)清洗系統(tǒng)用戶行為數(shù)據(jù)清洗系統(tǒng)互聯(lián)網(wǎng)公開數(shù)據(jù)清洗系統(tǒng)大數(shù)據(jù)標準化用戶多重ID歸一化系統(tǒng)商品歸一化系統(tǒng)大數(shù)據(jù)結構化用戶標簽管理系統(tǒng)商品標簽管理系統(tǒng)大數(shù)據(jù)管理大數(shù)據(jù)技術可視化數(shù)據(jù)操作平臺百分點大數(shù)據(jù)底層技術平臺數(shù)據(jù)全生命周期管理業(yè)務流程全生命周期管理業(yè)務價值挖掘建模數(shù)據(jù)訪問資源管控(YARN/MESOS)分布式存儲(磁盤及內存)數(shù)據(jù)獲取安全( 認證 權限 ACL )監(jiān)控 配置及報警安裝及云服務電子商城個性化系統(tǒng)移動商城個性化系統(tǒng)媒體網(wǎng)站個性化系統(tǒng)在線營銷支持系統(tǒng)門店營

8、銷支持系統(tǒng)會員營銷支持系統(tǒng)全網(wǎng)市場監(jiān)控系統(tǒng)輿情管家商情管家用戶洞察系統(tǒng)個性化推薦引擎(BRE)自動化營銷引擎(BME)大數(shù)據(jù)分析引擎(BAE)微信商城個性化系統(tǒng)大數(shù)據(jù)產(chǎn)品全景圖數(shù)據(jù)管理層說明數(shù)據(jù)管理層計算層數(shù)據(jù)文件系統(tǒng)層操作系統(tǒng)層硬件之上第一層,Linux, Unix,Windows所有建模工具,數(shù)據(jù)管理與處理系統(tǒng)都依賴于此HDFS文件系統(tǒng),消息隊列,磁盤文件系統(tǒng)及數(shù)據(jù)庫文件系統(tǒng)提供數(shù)據(jù)處理、計算的框架和方式Hadoop, Spark, Storm等Oracle、Mysql等傳統(tǒng)數(shù)據(jù)庫提供了對結構化數(shù)據(jù)管理與處理的整套方法需求層模型層數(shù)據(jù)層模型層說明模型層模型與可視化層分析工具層接口層解決不同

9、業(yè)務應用場景的問題模型實現(xiàn)工具:R/PYTHON/JAVA等分析工具與數(shù)據(jù)管理層的API接口需求層模型層數(shù)據(jù)層R接口層交互方式總結工具基礎層交互方式RHiveRHiveRHdfsRhdfsRMap-ReduceRmrRSparkSparkRROracle、MysqlRODBCRRedisRredisR與Hadoop的交互,通過Rhive,Rhdfs實現(xiàn)從Hive或者HDFS中讀取/輸入數(shù)據(jù)Rmr實現(xiàn)了用R完成Map-Reduce任務R與Spark的交互通過SparkR包實現(xiàn)R與關系型數(shù)據(jù)庫的交互 通過RODBC實現(xiàn)R與Redis數(shù)據(jù)庫的交互通過Rredis實現(xiàn) 百分點商業(yè)模型用戶畫像模型基于用

10、戶興趣愛好、購買行為、媒體瀏覽行為進行用戶群體細分基于用戶消費行為、商品使用行為等確定種子人群,通過相似度計算等方法進行人群擴散預估消費者效用函數(shù),識別影響消費者購買的因素用戶管理模型會員價值分析會員營銷管理流失情況分析流失預警喚醒沉默用戶預測新品上市銷量和生命周期,描述擴散路徑分解客戶對某產(chǎn)品各種屬性的偏好,以及客戶對各屬性重要度的判別協(xié)同過濾模型進行商品推薦文本挖掘模型分析用戶對商品描述的偏好及用戶的評價用LR模型等對廣告點擊率進行預估建立完整的消費者轉化路徑,對路徑不同觸點的渠道進行歸因分析商品管理模型用戶關系模型廣告行業(yè)模型用戶群細分模型用戶群擴散模型消費者選擇模型客戶終身價值(CLV

11、)客戶關系管理(RFM)用戶流失預警點擊率預估模型渠道歸因模型聯(lián)合分析模型協(xié)同過濾模型文本挖掘模型新產(chǎn)品擴散模型識別用戶的關系網(wǎng)絡發(fā)展領導者和潛在用戶找到意見領袖擴展營銷范圍回歸分析貝葉斯估計神經(jīng)網(wǎng)絡決策樹時間序列分析Model Platform社會網(wǎng)絡分析(SNA)目錄1大數(shù)據(jù)戰(zhàn)略與應用創(chuàng)新2大數(shù)據(jù)建模技術架構3大數(shù)據(jù)建模應用場景4前言真實用戶的數(shù)字化(標簽化)描述,是在深刻理解業(yè)務需求和用戶特點的基礎上得到的標簽化用戶畫像的定義用戶畫像落地姓名、性別、聯(lián)系方式、居住地址、收貨地址、社交圖譜、家庭成員、朋友圈、線上行為數(shù)據(jù)、線下行為數(shù)據(jù)標簽是用戶特征的符號表示,用戶畫像可以用標簽的集合來表示

12、統(tǒng)計模型根據(jù)一定的業(yè)務規(guī)則生成用戶標簽算法模型利用機器學習算法(SVM、KNN等)生成用戶標簽商業(yè)模型利用商業(yè)模型(RFM、SNA等)生成用戶標簽數(shù)據(jù)用戶畫像建模用戶畫像標簽用戶基本信息用戶行為信息社交信息業(yè)務類高奢人群.易流失人群 有車一族高購買傾向人群折扣敏感人群事實人口屬性購物了什么品類會員信息瀏覽了幾次.機器學習建模原始輸入網(wǎng)站行為消費行為會員信息廣告上行為.清洗、結構化、統(tǒng)計建模業(yè)務規(guī)則建模用戶價值活躍度忠誠度影響力.商業(yè)模型預測模型預測人口屬性當下需求人群屬性消費能力潛在需求標簽+機器學習建模用戶畫像標簽層級自定義用戶標簽體系營銷特征消費偏好購買意圖內容偏好媒體興趣人口屬性上網(wǎng)特征

13、WEB站APP微信EDM年齡性別地域行業(yè)教育程度關健人生階段屌絲高富帥高端人群霧霾營銷人群營銷活動接受度消費周期消費能力消費金額上網(wǎng)時長上網(wǎng)時段上網(wǎng)頻次終端信息財經(jīng)汽車房產(chǎn)醫(yī)療健康商品品類商品品牌價格區(qū)間用戶畫像是從客戶實際業(yè)務需求出發(fā),通過不同維度將用戶標簽化,目前百分點用戶畫像體系按人口屬性、上網(wǎng)特征等5個維度將用戶標簽化,同時支持自定義標簽體系,以支撐業(yè)務應用場景以業(yè)務需求為導向的360全景畫像用戶微觀畫像 案例1:TCL么么噠手機新品上市營銷案例1:TCL么么噠手機新品上市營銷項目關鍵點老用戶營銷微博營銷甄別行業(yè)最有話語權的微博識別意見領袖找到想買手機的用戶找到目標人群項目關鍵點原始數(shù)

14、據(jù)清洗及預處理用戶行為特征提取協(xié)同過濾等用戶特征 過濾輸出酷友電商旗艦平臺用戶歷史交易數(shù)據(jù)度量手機與其它品類相似性依據(jù)用戶行為特征進一步過濾鎖定目標人群識別終端消費用戶消費頻次消費品類價格承受程度案例1:TCL么么噠手機新品上市營銷老用戶營銷模型篩選老用戶, 找到最有可能購買的老用戶,使用的算法為協(xié)同過濾、購買概率預測通過客音短信平臺發(fā)送博文內容微博TCL相關Keyword搜索爬取評論內容用戶信息想買么么噠手機人群ID想買競品手機人群ID網(wǎng)絡投入用戶運營組人工觸達(私信)甄別行業(yè)最有話語權的微博構建影響力指數(shù)模型識別意見領袖運用社會網(wǎng)絡模型(SNA)運用情感分析文本挖掘技術轉發(fā)內容轉發(fā)大家一起

15、么么噠信息新品推薦新品導購軟性文章案例1:TCL么么噠手機新品上市營銷微博營銷模型1影響力指數(shù)編制運用層次分析法(Analytic Hierarchy Process)確定指標權重。運用綜合遞階加權方法測算各行業(yè)微博影響力指數(shù)。基于分類下的藍V用戶的微博影響力數(shù)據(jù),綜合加權計算出不同行業(yè)在微博平臺影響力指標。影響力指數(shù)傳播力指數(shù)覆蓋度指數(shù)活躍度指數(shù)轉發(fā)博文點贊數(shù)原創(chuàng)博文轉發(fā)數(shù)粉絲數(shù)評論數(shù)案例1:TCL么么噠手機新品上市營銷微博營銷模型2社會網(wǎng)絡分析(Social Network Analysis)運用網(wǎng)絡理論(Network theory)分析社會網(wǎng)絡結構要素:節(jié)點(Nodes)連接(Link

16、s)衡量:聯(lián)結(Connections):同質性多重性相互性鄰近性分布(Distributions)橋接中心度密度距離關系強度派別(Segmentation)聚類系數(shù)接應LinkNode案例1:TCL么么噠手機新品上市營銷微博營銷通過網(wǎng)絡密度等指標衡量網(wǎng)絡交互情況好壞網(wǎng)絡中心性分析尋找意見領袖、活躍人物凝聚子群分析尋找有意義的小圈子SNA模型建模分析流程關系數(shù)據(jù)整合網(wǎng)絡整體結構分析網(wǎng)絡中心性分析凝聚子群分析結構洞分析SNA建模分析識別意見領袖模型2社會網(wǎng)絡分析(Social Network Analysis)案例1:TCL么么噠手機新品上市營銷微博營銷案例1:TCL么么噠手機新品上市營銷微博營

17、銷模型3 文本挖掘模型抓取微博“想買”規(guī)則過濾標注微博未知微博SVM模型訓練模型微博分類“想買”人群產(chǎn)品品類產(chǎn)品品牌規(guī)則集合1老用戶營銷通過協(xié)同過濾和購買概率預測建模后篩選出數(shù)據(jù)案例1:TCL么么噠手機新品上市營銷模型應用篩選出前3等級用戶進行客音短信推送等級一274人等級二3,612人等級三24,118人等級四19,197人等級五941,451人效果提升2微博營銷10,000+人案例1:TCL么么噠手機新品上市營銷模型應用微博有意向購買手機的用戶運營人員進行觸達購買手機的用戶100,000+人 案例2:華為用戶數(shù)據(jù)拉通與用戶畫像項目 案例2:華為用戶數(shù)據(jù)拉通與用戶畫像項目商業(yè)模型在本項目的位

18、置網(wǎng)站用戶行為商品數(shù)據(jù)用戶基本信息數(shù)據(jù)存儲標簽(十五大類)人口屬性服務領域花粉領域營銷特征上網(wǎng)特征宏觀畫像微觀畫像用戶行為統(tǒng)計模型人口屬性統(tǒng)計模型商品關聯(lián)度模型用戶流失預警模型分類標簽預測模型價值度模型商品推薦模型用戶價值分群模型潛在需求模型商業(yè)模型前端應用。華為觸點關注熱點產(chǎn)品情感移動應用社交圖譜用戶類型第三方帳號內容偏好興趣偏好。 案例2:華為用戶數(shù)據(jù)拉通與用戶畫像項目什么是模型本項目的用戶標簽模型專指用于為某一用戶生成具體業(yè)務標簽的數(shù)據(jù)處理過程明確某標簽定義后,盤點生成該標簽所需的數(shù)據(jù),設計用于該標簽生成的數(shù)據(jù)處理過程,即該標簽的標簽模型華為用戶畫像項目標簽模型統(tǒng)計模型算法模型商業(yè)模型業(yè)

19、務需求業(yè)務建模產(chǎn)出標簽需求標簽定義數(shù)據(jù)盤點模型設計模型優(yōu)化與評估確定模型數(shù)據(jù)標簽模型生成標簽 案例2:華為用戶數(shù)據(jù)拉通與用戶畫像項目以社交圖譜標簽為例數(shù)據(jù):花粉俱樂部抓取數(shù)據(jù)和部碼數(shù)據(jù)模型:SNA(社會網(wǎng)絡分析)工具:R語言、RHDFS包產(chǎn)出標簽:社交圖譜標簽,包括意見領袖、活躍分子、交際花社交圖譜標簽點數(shù): 1,241; 連接數(shù):5,803; 網(wǎng)絡密度: 0.0039, 剔除孤立點,剩余結點862,網(wǎng)絡密度:0.0056; 社交圖譜的網(wǎng)絡結構 案例2:華為用戶數(shù)據(jù)拉通與用戶畫像項目以社交圖譜標簽為例社交圖譜的網(wǎng)絡結構圖社交圖譜的網(wǎng)絡結構分析用戶ID入度中心度牛肉小丸36我叫丶肉妞妞25華為榮耀大管家24XXX20被罰站的樹817聽天丶由命丶丶16Enjoyme內心16泰山足球14我的名字好

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論