騰訊、大講堂59-數(shù)據(jù)蘊含商機挖掘決勝千里.ppt_第1頁
騰訊、大講堂59-數(shù)據(jù)蘊含商機挖掘決勝千里.ppt_第2頁
騰訊、大講堂59-數(shù)據(jù)蘊含商機挖掘決勝千里.ppt_第3頁
騰訊、大講堂59-數(shù)據(jù)蘊含商機挖掘決勝千里.ppt_第4頁
騰訊、大講堂59-數(shù)據(jù)蘊含商機挖掘決勝千里.ppt_第5頁
已閱讀5頁,還剩34頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

,騰 訊 大 講 堂,第五十九期,研發(fā)管理部,數(shù)據(jù)蘊含商機,挖掘決勝千里,騰訊研究院 數(shù)據(jù)分析研究室 simonjiang / 江宇聞 2009-02-24,agenda,數(shù)據(jù)挖掘是什么?,1,模型+算法,2,數(shù)據(jù)挖掘實踐分享,3,心得與總結,4,從運籌帷幄到決勝千里,舌戰(zhàn)群儒,草船借箭,巧借東風,火燒赤壁,赤壁懷古 蘇軾 羽扇綸巾 談笑間 檣櫓灰飛煙滅,觀日月之行,察天地之變,風,雷,電,雨,云,云多會下雨 刮風會下雨 下雨會閃電 閃電會打雷 ,數(shù)據(jù)爆炸的時代,data mining, circa 1963,ibm 7090,600 cases,“machine storage limitations restricted the total number of variables which could be considered at one time to 25.”,數(shù)據(jù)挖掘是,data,information,knowledge,wisdom,to find / discover / extract / dredge / harvest 、 interesting / novel / useful / implicit / actable / meaningful 、 information / knowledge / patterns / trends / rules / anomalies 、 in massive data / large data set / large database / data warehouse 、,data + context,information + rules,knowledge + experience,多學科的融合,databases,statistics,pattern recognition,kdd,machine learning,ai,neurocomputing,data mining,agenda,數(shù)據(jù)挖掘是什么?,1,模型+算法,2,數(shù)據(jù)挖掘實踐分享,3,心得與總結,4,幾個基本概念,模型(model) vs 模式(pattern) 數(shù)據(jù)挖掘的根本目的就是把樣本數(shù)據(jù)中隱含的結構泛化(generalize)到總體(population)上去 模型:對數(shù)據(jù)集的一種全局性的整體特征的描述或概括,適用于數(shù)據(jù)空間中的所有點,例如聚類分析 模式:對數(shù)據(jù)集的一種局部性的有限特征的描述或概括,適用于數(shù)據(jù)空間的一個子集,例如關聯(lián)分析 算法(algorithm):一個定義完備(well-defined)的過程,它以數(shù)據(jù)作為輸入并產生模型或模式形式的輸出 描述型挖掘(descriptive) vs 預測型挖掘(predictive) 描述型挖掘:對數(shù)據(jù)進行概括,以方便的形式呈現(xiàn)數(shù)據(jù)的重要特征 預測型挖掘:根據(jù)觀察到的對象特征值來預測它的其他特征值 描述型挖掘可以是目的,也可以是手段,數(shù)據(jù)挖掘是一個過程,“from data mining to knowledge discovery in database”. u. fayyad, g.p.shapiro and p.smyth (1996),數(shù)據(jù)挖掘方法論,crisp_dm (cross industry standard process for dm) 1998年,由ncr、clementine、ohra和daimler-benz的聯(lián)合項目組提出 semma sas公司提出的方法 sample, explore, modify, model, assess 在戰(zhàn)略上使用crisp_dm方法論,在戰(zhàn)術上應用semma方法論,工欲善其事必先利其器,數(shù)據(jù)清洗 填充缺失值, 修均噪聲數(shù)據(jù), 識別或刪除孤立點, 并解決數(shù)據(jù)不一致問題 主要分析方法:分箱(binning)、聚類、回歸 數(shù)據(jù)集成 多個數(shù)據(jù)庫、數(shù)據(jù)方或文件的集成 數(shù)據(jù)變換 規(guī)范化與匯總 數(shù)據(jù)簡化 減少數(shù)據(jù)量的同時, 還可以得到相同或相近的分析結果 主要分析方法:抽樣、主成分分析 數(shù)據(jù)離散化 數(shù)據(jù)簡化的一部分, 但非常重要 (尤其對于數(shù)值型數(shù)據(jù)來說),先來玩玩數(shù)據(jù)(eda),探索性數(shù)據(jù)分析(exploratory data analysis, eda) 探索性地查看數(shù)據(jù),概括數(shù)據(jù)集的結構和關系 對數(shù)據(jù)集沒有各種嚴格假定 主要任務 數(shù)據(jù)可視化(a picture is worth a thousand words) 殘差分析(數(shù)據(jù)擬合 + 殘差) 數(shù)據(jù)的重新表達(什么樣的尺度對數(shù)抑或平方根會簡化分析) 方法的耐抗性(對數(shù)據(jù)局部不良的不敏感性,如中位數(shù)耐抗甚于均值) 常見方法 統(tǒng)計量,如均值、方差、根方差、協(xié)方差、峰度、偏度、相關系數(shù)等 統(tǒng)計圖,如餅圖、直方圖、散點圖、箱尾圖等 模型,如聚類,數(shù)據(jù)挖掘 = 模型 + 算法,分類預測,關聯(lián)規(guī)則,孤立點探測,聚類,logistic regression 決策樹 神經網(wǎng)絡,k-means k-mode som(自組織圖),apriori fp-growth,基于統(tǒng)計 基于距離 基于偏差,你使用過信用卡嗎?,卡應該發(fā)給誰? 哪些持卡人會拖欠? 哪些拖欠的客戶會還款?,影響,資產組合 (portfolio),1、根據(jù)歷史,預測將來 2、目標是一個分類變量 3、預測結果是一個統(tǒng)計意義下的概率,1、哪些人可以發(fā)卡,額度是多少。 2、持卡人拖欠的概率是多少 3、該對誰催收,分類過程,訓練集,分類學習,訓練集,if rank = professor or years 6 then tenured = yes,jef is yes!,分類器,物以類聚,人以群分,人為地選取細分維度,客戶價值 地域 活躍程度 ,維度災難的發(fā)生,維度增長 細分數(shù)目指數(shù)增長 人腦僅能處理有限的維度,市場,聚類示意,基于歐氏距離的三維空間中的聚類 基于質心的聚類算法 (k-means),a1,a2,b1,x,y,z,發(fā)現(xiàn)商品間的關聯(lián)規(guī)則,buy(x,”diapers”) buy(x,”beers”),關聯(lián)規(guī)則的量度,支持度:support(a=b)=#ab/#n,表示a和b同時出現(xiàn)的概率 期望可信度:support(a)=#a/#n,表示a出現(xiàn)的概率 置信度:confidence(a=b)=support(a=b)/support(b) 改善度:lift(a=b)=confidence(a=b)/support(b),關聯(lián)規(guī)則的度量,發(fā)現(xiàn)具有最小置信度和支持度的全部規(guī)則 x y z 支持度(support), s, 事務中包含x & y & z的概率 置信度(confidence), c, 事務中包含x & y的條件下, 包含z的條件概率,令最小支持度為50%, 最小置信度為50%, 則有 a c (50%, 66.6%) c a (50%, 100%),顧客購買尿布,顧客購買兩者,顧客購買啤酒,從算法到應用,數(shù)據(jù)挖掘廠商,agenda,數(shù)據(jù)挖掘是什么?,1,模型+算法,2,數(shù)據(jù)挖掘實踐分享,3,心得與總結,4,看看qq的流失數(shù)據(jù),每個月5001000萬的老用戶流失,一年老用戶流失接近1億,實際自然人流失狀況雖然沒有這么嚴重,但是仍然是一個驚人的數(shù)據(jù)。,客戶流失是每個行業(yè)每天都在面對的問題,1、建立流失預測模型,回答客戶是否要流失,何時流失的問題 2、通過預測模型建立客戶流失管理機制,更為有效地管理流失,而不是去防止流失,一切從目標出發(fā),目標變量:即需要根據(jù)業(yè)務需求確定模型需要預測的對象,在qq客戶流失模型中即是在業(yè)務上對“流失”的定義。,沉默客戶數(shù)在4月后區(qū)域穩(wěn)定,模型選擇連續(xù)沉默2個月作為流失的定義,目標變量的定義: good:在表現(xiàn)窗口連續(xù)兩個月有登陸的客戶 bad: 在表現(xiàn)窗口連續(xù)兩個月都沒有登陸的客戶 intermediate: 在表現(xiàn)窗口其中一個月有登陸的客戶,打開觀測用戶的窗口,訓練樣本 測試樣本 觀察窗口: 2007年1月2007年3月 表現(xiàn)窗口: 2007年5月2007年6月 time lag: 2007年4月 交叉校驗樣本 觀察窗口: 2007年2月2007年4月 表現(xiàn)窗口: 2007年6月2007年7月 time lag: 2007年5月,觀察窗口,表現(xiàn)窗口,time lag,m,m-1,m-2,m-3,m-4,m-5,m+1,m+2,m+3,1,觀察窗口:形成自變量的時間段。,表現(xiàn)窗口:形成因變量的時間段。,2,3,time lag:預留給業(yè)務部門進行相應操作的時間段。,1,2,3,變化幅度特征變量 描述用戶使用量上的變化幅度,勾勒出用戶行為的特征,基本屬性變量 描述用戶的基本屬性,產品使用行為特征 描述用戶使用產品的情況,消息業(yè)務使用行為特征 描述用戶使用消息業(yè)務的情況,音頻業(yè)務使用行為特征 描述用戶使用音頻業(yè)務的情況,視頻業(yè)務使用行為特征 描述用戶使用視頻業(yè)務的情況,客戶在線的行為特征 從在線時長,登陸次數(shù),登陸頻率等角度研究用戶的使用行為,歸屬地變化的行為特征 描述用戶在某一時間周期內登陸所在地的變化情況,中間變量,比例特征變量 描述用戶業(yè)務使用占比,基礎變量,變量描述,行為趨勢特征變量 描述用戶的使用行為變化趨勢,變量描述,黃沙吹盡始到金,基礎變量和中間變量數(shù)目約為224個 經過變量變換后的變量數(shù)目約為1700個,變量篩選,使用logistic回歸的stepwise方法進行下一步擬合,卡方統(tǒng)計量 chi square,信息價值 information value,信息增益 gain index,單變量回歸,偏相關分析 partial correlation,lift曲線,roc曲線,50%,75%,建立

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論