騰訊、大講堂59-數(shù)據(jù)蘊含商機挖掘決勝千里.ppt_第1頁
騰訊、大講堂59-數(shù)據(jù)蘊含商機挖掘決勝千里.ppt_第2頁
騰訊、大講堂59-數(shù)據(jù)蘊含商機挖掘決勝千里.ppt_第3頁
騰訊、大講堂59-數(shù)據(jù)蘊含商機挖掘決勝千里.ppt_第4頁
騰訊、大講堂59-數(shù)據(jù)蘊含商機挖掘決勝千里.ppt_第5頁
已閱讀5頁,還剩34頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

,騰 訊 大 講 堂,第五十九期,研發(fā)管理部,數(shù)據(jù)蘊含商機,挖掘決勝千里,騰訊研究院 數(shù)據(jù)分析研究室 simonjiang / 江宇聞 2009-02-24,agenda,數(shù)據(jù)挖掘是什么?,1,模型+算法,2,數(shù)據(jù)挖掘?qū)嵺`分享,3,心得與總結(jié),4,從運籌帷幄到?jīng)Q勝千里,舌戰(zhàn)群儒,草船借箭,巧借東風,火燒赤壁,赤壁懷古 蘇軾 羽扇綸巾 談笑間 檣櫓灰飛煙滅,觀日月之行,察天地之變,風,雷,電,雨,云,云多會下雨 刮風會下雨 下雨會閃電 閃電會打雷 ,數(shù)據(jù)爆炸的時代,data mining, circa 1963,ibm 7090,600 cases,“machine storage limitations restricted the total number of variables which could be considered at one time to 25.”,數(shù)據(jù)挖掘是,data,information,knowledge,wisdom,to find / discover / extract / dredge / harvest 、 interesting / novel / useful / implicit / actable / meaningful 、 information / knowledge / patterns / trends / rules / anomalies 、 in massive data / large data set / large database / data warehouse 、,data + context,information + rules,knowledge + experience,多學科的融合,databases,statistics,pattern recognition,kdd,machine learning,ai,neurocomputing,data mining,agenda,數(shù)據(jù)挖掘是什么?,1,模型+算法,2,數(shù)據(jù)挖掘?qū)嵺`分享,3,心得與總結(jié),4,幾個基本概念,模型(model) vs 模式(pattern) 數(shù)據(jù)挖掘的根本目的就是把樣本數(shù)據(jù)中隱含的結(jié)構(gòu)泛化(generalize)到總體(population)上去 模型:對數(shù)據(jù)集的一種全局性的整體特征的描述或概括,適用于數(shù)據(jù)空間中的所有點,例如聚類分析 模式:對數(shù)據(jù)集的一種局部性的有限特征的描述或概括,適用于數(shù)據(jù)空間的一個子集,例如關(guān)聯(lián)分析 算法(algorithm):一個定義完備(well-defined)的過程,它以數(shù)據(jù)作為輸入并產(chǎn)生模型或模式形式的輸出 描述型挖掘(descriptive) vs 預(yù)測型挖掘(predictive) 描述型挖掘:對數(shù)據(jù)進行概括,以方便的形式呈現(xiàn)數(shù)據(jù)的重要特征 預(yù)測型挖掘:根據(jù)觀察到的對象特征值來預(yù)測它的其他特征值 描述型挖掘可以是目的,也可以是手段,數(shù)據(jù)挖掘是一個過程,“from data mining to knowledge discovery in database”. u. fayyad, g.p.shapiro and p.smyth (1996),數(shù)據(jù)挖掘方法論,crisp_dm (cross industry standard process for dm) 1998年,由ncr、clementine、ohra和daimler-benz的聯(lián)合項目組提出 semma sas公司提出的方法 sample, explore, modify, model, assess 在戰(zhàn)略上使用crisp_dm方法論,在戰(zhàn)術(shù)上應(yīng)用semma方法論,工欲善其事必先利其器,數(shù)據(jù)清洗 填充缺失值, 修均噪聲數(shù)據(jù), 識別或刪除孤立點, 并解決數(shù)據(jù)不一致問題 主要分析方法:分箱(binning)、聚類、回歸 數(shù)據(jù)集成 多個數(shù)據(jù)庫、數(shù)據(jù)方或文件的集成 數(shù)據(jù)變換 規(guī)范化與匯總 數(shù)據(jù)簡化 減少數(shù)據(jù)量的同時, 還可以得到相同或相近的分析結(jié)果 主要分析方法:抽樣、主成分分析 數(shù)據(jù)離散化 數(shù)據(jù)簡化的一部分, 但非常重要 (尤其對于數(shù)值型數(shù)據(jù)來說),先來玩玩數(shù)據(jù)(eda),探索性數(shù)據(jù)分析(exploratory data analysis, eda) 探索性地查看數(shù)據(jù),概括數(shù)據(jù)集的結(jié)構(gòu)和關(guān)系 對數(shù)據(jù)集沒有各種嚴格假定 主要任務(wù) 數(shù)據(jù)可視化(a picture is worth a thousand words) 殘差分析(數(shù)據(jù)擬合 + 殘差) 數(shù)據(jù)的重新表達(什么樣的尺度對數(shù)抑或平方根會簡化分析) 方法的耐抗性(對數(shù)據(jù)局部不良的不敏感性,如中位數(shù)耐抗甚于均值) 常見方法 統(tǒng)計量,如均值、方差、根方差、協(xié)方差、峰度、偏度、相關(guān)系數(shù)等 統(tǒng)計圖,如餅圖、直方圖、散點圖、箱尾圖等 模型,如聚類,數(shù)據(jù)挖掘 = 模型 + 算法,分類預(yù)測,關(guān)聯(lián)規(guī)則,孤立點探測,聚類,logistic regression 決策樹 神經(jīng)網(wǎng)絡(luò),k-means k-mode som(自組織圖),apriori fp-growth,基于統(tǒng)計 基于距離 基于偏差,你使用過信用卡嗎?,卡應(yīng)該發(fā)給誰? 哪些持卡人會拖欠? 哪些拖欠的客戶會還款?,影響,資產(chǎn)組合 (portfolio),1、根據(jù)歷史,預(yù)測將來 2、目標是一個分類變量 3、預(yù)測結(jié)果是一個統(tǒng)計意義下的概率,1、哪些人可以發(fā)卡,額度是多少。 2、持卡人拖欠的概率是多少 3、該對誰催收,分類過程,訓練集,分類學習,訓練集,if rank = professor or years 6 then tenured = yes,jef is yes!,分類器,物以類聚,人以群分,人為地選取細分維度,客戶價值 地域 活躍程度 ,維度災(zāi)難的發(fā)生,維度增長 細分數(shù)目指數(shù)增長 人腦僅能處理有限的維度,市場,聚類示意,基于歐氏距離的三維空間中的聚類 基于質(zhì)心的聚類算法 (k-means),a1,a2,b1,x,y,z,發(fā)現(xiàn)商品間的關(guān)聯(lián)規(guī)則,buy(x,”diapers”) buy(x,”beers”),關(guān)聯(lián)規(guī)則的量度,支持度:support(a=b)=#ab/#n,表示a和b同時出現(xiàn)的概率 期望可信度:support(a)=#a/#n,表示a出現(xiàn)的概率 置信度:confidence(a=b)=support(a=b)/support(b) 改善度:lift(a=b)=confidence(a=b)/support(b),關(guān)聯(lián)規(guī)則的度量,發(fā)現(xiàn)具有最小置信度和支持度的全部規(guī)則 x y z 支持度(support), s, 事務(wù)中包含x & y & z的概率 置信度(confidence), c, 事務(wù)中包含x & y的條件下, 包含z的條件概率,令最小支持度為50%, 最小置信度為50%, 則有 a c (50%, 66.6%) c a (50%, 100%),顧客購買尿布,顧客購買兩者,顧客購買啤酒,從算法到應(yīng)用,數(shù)據(jù)挖掘廠商,agenda,數(shù)據(jù)挖掘是什么?,1,模型+算法,2,數(shù)據(jù)挖掘?qū)嵺`分享,3,心得與總結(jié),4,看看qq的流失數(shù)據(jù),每個月5001000萬的老用戶流失,一年老用戶流失接近1億,實際自然人流失狀況雖然沒有這么嚴重,但是仍然是一個驚人的數(shù)據(jù)。,客戶流失是每個行業(yè)每天都在面對的問題,1、建立流失預(yù)測模型,回答客戶是否要流失,何時流失的問題 2、通過預(yù)測模型建立客戶流失管理機制,更為有效地管理流失,而不是去防止流失,一切從目標出發(fā),目標變量:即需要根據(jù)業(yè)務(wù)需求確定模型需要預(yù)測的對象,在qq客戶流失模型中即是在業(yè)務(wù)上對“流失”的定義。,沉默客戶數(shù)在4月后區(qū)域穩(wěn)定,模型選擇連續(xù)沉默2個月作為流失的定義,目標變量的定義: good:在表現(xiàn)窗口連續(xù)兩個月有登陸的客戶 bad: 在表現(xiàn)窗口連續(xù)兩個月都沒有登陸的客戶 intermediate: 在表現(xiàn)窗口其中一個月有登陸的客戶,打開觀測用戶的窗口,訓練樣本 測試樣本 觀察窗口: 2007年1月2007年3月 表現(xiàn)窗口: 2007年5月2007年6月 time lag: 2007年4月 交叉校驗樣本 觀察窗口: 2007年2月2007年4月 表現(xiàn)窗口: 2007年6月2007年7月 time lag: 2007年5月,觀察窗口,表現(xiàn)窗口,time lag,m,m-1,m-2,m-3,m-4,m-5,m+1,m+2,m+3,1,觀察窗口:形成自變量的時間段。,表現(xiàn)窗口:形成因變量的時間段。,2,3,time lag:預(yù)留給業(yè)務(wù)部門進行相應(yīng)操作的時間段。,1,2,3,變化幅度特征變量 描述用戶使用量上的變化幅度,勾勒出用戶行為的特征,基本屬性變量 描述用戶的基本屬性,產(chǎn)品使用行為特征 描述用戶使用產(chǎn)品的情況,消息業(yè)務(wù)使用行為特征 描述用戶使用消息業(yè)務(wù)的情況,音頻業(yè)務(wù)使用行為特征 描述用戶使用音頻業(yè)務(wù)的情況,視頻業(yè)務(wù)使用行為特征 描述用戶使用視頻業(yè)務(wù)的情況,客戶在線的行為特征 從在線時長,登陸次數(shù),登陸頻率等角度研究用戶的使用行為,歸屬地變化的行為特征 描述用戶在某一時間周期內(nèi)登陸所在地的變化情況,中間變量,比例特征變量 描述用戶業(yè)務(wù)使用占比,基礎(chǔ)變量,變量描述,行為趨勢特征變量 描述用戶的使用行為變化趨勢,變量描述,黃沙吹盡始到金,基礎(chǔ)變量和中間變量數(shù)目約為224個 經(jīng)過變量變換后的變量數(shù)目約為1700個,變量篩選,使用logistic回歸的stepwise方法進行下一步擬合,卡方統(tǒng)計量 chi square,信息價值 information value,信息增益 gain index,單變量回歸,偏相關(guān)分析 partial correlation,lift曲線,roc曲線,50%,75%,建立

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論