




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
O2O優(yōu)惠券個性化投放1分析方法與過程目錄背景與挖掘目標2模型評價3應(yīng)用4小結(jié)5隨著電子商務(wù)的發(fā)展和移動互聯(lián)網(wǎng)的到來,為了將線上用戶引流到線下消費,O2O電子商務(wù)模式應(yīng)運而生。據(jù)不完全統(tǒng)計,O2O行業(yè)估值上億的創(chuàng)業(yè)公司至少有10家,也不乏百億巨頭的身影。O2O行業(yè)天然關(guān)聯(lián)數(shù)億消費者,各類APP每天記錄了超過百億條用戶行為和位置記錄,因而成為大數(shù)據(jù)科研和商業(yè)化運營的最佳結(jié)合點之一。案例背景商戶發(fā)放優(yōu)惠券是O2O重要的銷售方式,用戶可通過持券消費獲得相比線下直接消費更為便宜的價格。但商戶隨意投放優(yōu)惠券可能降低平臺的品牌聲譽,導(dǎo)致用戶流失,從而影響到平臺吸引大量高粘性客戶。案例背景個性化投放是提高優(yōu)惠券核銷率的重要技術(shù),它可以讓具有一定偏好的消費者得到真正的實惠,同時賦予商家更強的營銷能力。本案例結(jié)合了O2O場景相關(guān)的豐富數(shù)據(jù),實現(xiàn)以下目標。借助O2O平臺數(shù)據(jù),結(jié)合業(yè)務(wù)邏輯和經(jīng)驗構(gòu)造用戶、商戶、優(yōu)惠券的相關(guān)指標,可多維度分析優(yōu)惠券投放規(guī)律。建立分類模型,實現(xiàn)精準預(yù)測用戶是否會在規(guī)定時間內(nèi)使用相應(yīng)優(yōu)惠券。對預(yù)測分類結(jié)果進行分析,并為商戶制定個性化投放優(yōu)惠券策略。案例背景1分析方法與過程目錄背景與挖掘目標2模型評價3應(yīng)用4小結(jié)5本案例的目標是預(yù)測用戶在領(lǐng)取優(yōu)惠券15天以內(nèi)的使用情況。為了將該問題轉(zhuǎn)化為二分類問題,將領(lǐng)取優(yōu)惠券后15天以內(nèi)使用的樣本標記為正類樣本,15天以內(nèi)沒使用的樣本標記為負樣本。確定此案例的問題是分類問題后,然后結(jié)合用戶使用優(yōu)惠券的情景和實際業(yè)務(wù)場景,主要需要建立用戶指標和商戶指標。使用這兩個指標衡量用戶使用優(yōu)惠券的情況。最后根據(jù)這些指標建立分類模型,預(yù)測用戶在領(lǐng)取優(yōu)惠券15天以內(nèi)的使用情況。主要流程研究O2O優(yōu)惠券個性化投放的流程O2O數(shù)據(jù)分析建??傮w流程如圖所示。數(shù)據(jù)樣本包括訓(xùn)練樣本和測試樣本。其中,訓(xùn)練樣本共有1648881條記錄,是用戶在2016年1月1日至2016年6月30日之間的真實線下消費行為信息。測試樣本為用戶在2016年7月領(lǐng)取商戶優(yōu)惠券信息,其中不包含消費日期??偟臄?shù)據(jù)屬性包含用戶ID、商品ID、優(yōu)惠券ID、用戶距門店距離、領(lǐng)取優(yōu)惠券日期、消費日期等6個屬性。數(shù)據(jù)獲取數(shù)據(jù)獲取字段名稱數(shù)據(jù)類型字段描述user_id整型用戶IDmerchant_id整型商戶IDcoupon_id浮點型優(yōu)惠券ID:null表示無優(yōu)惠券消費,此時discount_rate和date_received字段無意義discount_rate字符型優(yōu)惠率:x\in[0,1]代表折扣率;x:y表示滿x減y。單位是元distance整型用戶經(jīng)常活動的地點離該商家的最近門店距離是x*500m(如果是連鎖店,則取最近的一家門店),x\in[0,10];null表示無此信息,0表示低于500m,10表示大于等于5kmdate_received浮點型領(lǐng)取優(yōu)惠券日期date浮點型消費日期:如果date=null&coupon_id!=null,該記錄表示領(lǐng)取優(yōu)惠券但沒有使用;如果date!=null&coupon_id=null,則表示普通消費日期;如果date!=null&coupon_id!=null,則表示用優(yōu)惠券消費日期原始數(shù)據(jù)集中包括用戶ID、商戶ID、優(yōu)惠券ID、優(yōu)惠率、用戶經(jīng)?;顒拥牡攸c與商家最近的門店距離等信息,需要對原始數(shù)據(jù)從多個維度進行探索性分析,本案例主要包括數(shù)據(jù)描述性統(tǒng)計分析、分析用戶消費行為信息、分析商戶投放優(yōu)惠券信息等,了解用戶的消費行為及商戶投放優(yōu)惠券的情況。描述性統(tǒng)計分析。分析用戶消費行為信息。分析商戶投放優(yōu)惠券信息。探索性分析對訓(xùn)練樣本、測試樣本進行描述性統(tǒng)計分析,分別得到訓(xùn)練和測試樣本的屬性觀測值中的空值個數(shù)、最大值和最小值。探索性分析1.描述性統(tǒng)計分析屬性名稱空值記錄數(shù)最大值最小值user_id073610324merchant_id088561coupon_id701602140451discount_rate701602NanNandistance0100date_received7016022016061520160101date8801142016063020160101屬性名稱空值記錄數(shù)最大值最小值user_id07361024209merchant_id088566coupon_id0140453discount_rate0NanNandistance0100date_received02016073120160701選取用戶消費次數(shù)、用戶領(lǐng)取券數(shù)、領(lǐng)取消費數(shù)這幾個屬性繪制2016年各月份用戶消費次數(shù)折線圖。探索性分析2.分析用戶消費行為信息繪制2016年各月份用戶領(lǐng)優(yōu)惠券次數(shù)和領(lǐng)券消費次數(shù)柱形圖。探索性分析結(jié)果分析從折線圖可以看出,各月用戶消費次數(shù)呈現(xiàn)出先下降后上升的波動性,5月份用戶消費次數(shù)最多,有可能是五一節(jié)假日商戶發(fā)放優(yōu)惠券的優(yōu)惠率較多吸引用戶消費。2月份處于低谷,可能是春節(jié)長假店鋪休息導(dǎo)致。由柱形圖看出,1月份用戶領(lǐng)取用戶優(yōu)惠券次數(shù)達到最高峰,很可能是用戶領(lǐng)取優(yōu)惠券為春節(jié)囤年貨做準備。而5月份用戶領(lǐng)取數(shù)量次之。從用戶領(lǐng)券消費情況看,雖然商戶發(fā)放優(yōu)惠券很多,但相對于發(fā)放的優(yōu)惠券數(shù)量,用戶很少使用優(yōu)惠券到商戶進行消費,說明出現(xiàn)了商戶濫發(fā)優(yōu)惠券現(xiàn)象。探索性分析選取商戶投放優(yōu)惠券數(shù)量、用戶到門店消費的距離、用戶持券與未持券到門店消費的距離等屬性,分析商戶投放優(yōu)惠券信息。(1)繪制柱形圖分析商戶投放優(yōu)惠券數(shù)量探索性分析3.分析商戶投放優(yōu)惠券信息探索性分析(2)繪制餅圖分析用戶到門店消費距離探索性分析(3)繪制餅圖分析用戶持券、沒持券到門店消費的距離結(jié)果分析ID為3381的商戶發(fā)放數(shù)量高達117818張,其次是ID為760和450的商戶,其他商戶投放優(yōu)惠券數(shù)量都低于45000,說明大部分商戶的優(yōu)惠券發(fā)放數(shù)量在45000以內(nèi),只有少部分商戶超過45000。大部分用戶更偏向近距離消費,其中消費距離不足500m的用戶占到所有用戶中的68.3%,但出現(xiàn)4.7%的用戶卻選擇大于等于5km外門店進行消費,可以看出這部分用戶對該品牌門店的消費依賴性。兩個餅圖的分布情況類似,無論是否持券消費,大部分用戶都偏向去近距離的門店消費。而只有少部分用戶愿意選擇去5km外的門店進行消費,說明這些用戶對門店有一定的依賴性。探索性分析對原始數(shù)據(jù)進行探索性分析時,發(fā)現(xiàn)訓(xùn)練樣本存在缺失值、部分屬性的數(shù)據(jù)類型不統(tǒng)一、數(shù)據(jù)的屬性過少等問題。原始數(shù)據(jù)不能滿足建模輸入數(shù)據(jù)的要求,需要先將數(shù)據(jù)進行預(yù)處理后,才能用于進行構(gòu)建模型。本案例的預(yù)處理方法主要包括數(shù)據(jù)清洗和數(shù)據(jù)變換,使數(shù)據(jù)能夠滿足構(gòu)建優(yōu)惠券投放模型的輸入要求。樣本數(shù)據(jù)中的領(lǐng)取優(yōu)惠券日期屬性和消費日期屬性為浮點型,需要轉(zhuǎn)換為時間類型。優(yōu)惠券的優(yōu)惠率存在兩種形式:第一種為折扣率(小數(shù))形式的樣本;另一種是滿減優(yōu)惠(比值)形式的樣本。如果該字段沒有進行統(tǒng)一處理,可能會導(dǎo)致結(jié)果不準確,因此使用統(tǒng)一樣本形式,這里的處理方法是把滿減優(yōu)惠統(tǒng)一替換成折扣率。數(shù)據(jù)預(yù)處理1.數(shù)據(jù)清洗數(shù)據(jù)清洗具體處理方法如下:樣本中date_rececived和date屬性中的缺失值設(shè)置為日期類型的“None”,其他屬性的缺失值設(shè)置為字符串類型的“null”。date_rececived和date屬性的數(shù)據(jù)類型轉(zhuǎn)為datatime類型。Discount_rate屬性中的滿減優(yōu)惠統(tǒng)一替換成折扣率。如300:30或者300:30:00等價0.9折。數(shù)據(jù)預(yù)處理根據(jù)上述步驟對數(shù)據(jù)進行清洗,得到清洗后的數(shù)據(jù)。數(shù)據(jù)預(yù)處理user_idmerchant_idcoupon_iddiscount_ratedistancedate_receiveddatannan0NaT2016-02-1700:00:0014394084663110020.8712016-05-2800:00:00NaT1439408263285910.9502016-02-1700:00:00NaT1439408263210780.9502016-03-1900:00:00NaT1439408263285910.9502016-06-1300:00:00Naannan0NaT2016-05-1600:00:001439408263285910.9502016-05-1600:00:002016-06-1300:00:001832624338176100.902016-04-2900:00:00NaT20292323381119510.912016-01-2900:00:00NaT本章中的數(shù)據(jù)變換是根據(jù)給定的屬性構(gòu)造新的指標,用于在更多維度上衡量用戶會否使用優(yōu)惠券。(1)構(gòu)建指標由于本章數(shù)據(jù)的屬性過少,僅僅只能給出6個屬性,不足以精確地描述問題,需要根據(jù)業(yè)務(wù)邏輯和經(jīng)驗進行數(shù)據(jù)變換,從而構(gòu)造出新的更加有效的指標。結(jié)合O2O模式特點,通過對用戶行為、商戶、優(yōu)惠券特點進行深入分析,從統(tǒng)計、比率、時間維度3個角度,將指標擴展為13個,并提取出3個指標群。分析方法與過程數(shù)據(jù)預(yù)處理2.數(shù)據(jù)變換分析方法與過程數(shù)據(jù)預(yù)處理構(gòu)建的指標名稱及其說明,如表所示。類別指標名稱說明用戶優(yōu)惠券使用頻數(shù)用戶使用優(yōu)惠券消費次數(shù)消費頻數(shù)用戶總消費次數(shù)領(lǐng)取優(yōu)惠券率用戶使用優(yōu)惠券消費次數(shù)與總消費次數(shù)的比值領(lǐng)取優(yōu)惠券未使用率用戶領(lǐng)取優(yōu)惠券而未使用的數(shù)量領(lǐng)取、使用優(yōu)惠券間隔用戶使用優(yōu)惠券日期平均與領(lǐng)取日期相隔天數(shù)商戶優(yōu)惠券核銷頻數(shù)商戶發(fā)放的優(yōu)惠券被使用的數(shù)量優(yōu)惠券核銷率商戶發(fā)放的優(yōu)惠券被使用的占比投放優(yōu)惠券頻數(shù)商戶發(fā)放優(yōu)惠券的數(shù)量優(yōu)惠券未核銷頻數(shù)商戶發(fā)放優(yōu)惠券而未被使用的數(shù)量投放、使用優(yōu)惠券間隔商戶發(fā)放的優(yōu)惠券與被使用平均相隔天數(shù)位置距離distance字段優(yōu)惠券折扣率coupon_discount字段優(yōu)惠券流行度被使用優(yōu)惠券與發(fā)放優(yōu)惠券總數(shù)的比值以15天為閾值劃分樣本。對預(yù)處理后的數(shù)據(jù)集構(gòu)建用戶標簽,其中未領(lǐng)券進行消費的樣本不滿足構(gòu)建用戶標簽的要求,需進行剔除。數(shù)據(jù)預(yù)處理(2)構(gòu)建用戶標簽和剔除未領(lǐng)券進行消費的樣本類別標簽說明正樣本1領(lǐng)取優(yōu)惠券并在15天內(nèi)使用的樣本負樣本0領(lǐng)取優(yōu)惠券在15天后使用的樣本消費日期為“null”(即無消費日期,優(yōu)惠券未使用)決策樹分類模型XGBoost分類模型模型構(gòu)建一般的決策樹算法都是采用自頂向下遞歸的方式,從訓(xùn)練集和他們相關(guān)聯(lián)的類標號開始構(gòu)造決策樹。隨著樹的構(gòu)建,訓(xùn)練集遞歸地劃分成較小的子集。算法的重點是確定分裂準則,分裂準則通過把訓(xùn)練集劃分成個體類的“最好”方法,確定在節(jié)點上根據(jù)哪個屬性的哪個分裂點來劃分訓(xùn)練集。采用Python中sklearn模塊的決策樹分類器DecisionTreeClassifier,該分類器基于CART決策樹進行優(yōu)化,選擇基尼指數(shù)(Giniindex)最小的作為節(jié)點特征,它是二叉樹,即一個節(jié)點只分兩支。對訓(xùn)練樣本建立基于CART的決策樹分類模型,并進行預(yù)測。模型構(gòu)建1.決策樹分類模型模型構(gòu)建user_idmerchant_idcoupon_idclass300970524361318103009705243639920301258924363992130188092436131810302179724361194303024649243639920302593724363992030263522436106090303007124363992030307402436399203031229243639920303340824363992130363162436399203039768243639920決策樹分類模型預(yù)測結(jié)果如表示。XGBoost算法是集成學(xué)習(xí)中的序列化方法,該算法的目標函數(shù)是正則項,誤差函數(shù)為二階泰勒展開。由于XGBoost的目標函數(shù)中加入了正則項,能用于控制模型的復(fù)雜度,因此XGBoost算法訓(xùn)練出的模型不容易過擬合。使用xgboost庫下的分類子庫(xgb.XGBClassifier)實現(xiàn)XGBoost算法,使用訓(xùn)練樣本構(gòu)建XGBoost分類模型并預(yù)測測試樣本的結(jié)果模型構(gòu)建2.XGBoost分類模型模型構(gòu)建user_idmerchant_idcoupon_idclass300970524361318103009705243639920301258924363992030188092436131810302179724361194303024649243639920302593724363992030263522436106090303007124363992030307402436399203031229243639920303340824363992130363162436399203039768243639920得到模型預(yù)測結(jié)果如表所示。1分析方法與過程目錄背景與挖掘目標2模型評價3應(yīng)用4小結(jié)5
模型評價模型準確率精確率召回率F1值決策樹分類模型96.29%70.20%64.06%66.99%XGBoost分類模型96.89%78.22%66.22%71.72%由于XGBoost模型的預(yù)測效果要優(yōu)于決策樹模型,故使用xgboost庫下的plot_important子庫,選用XGBoost模型繪制屬性重要性評分圖。模型評價由上圖可以看出,優(yōu)惠券流行度(coupon_fifiteen_used_count)的重要性指標最高,說明該屬性最容易影響模型的預(yù)測結(jié)果。其次是領(lǐng)取、使用優(yōu)惠券間隔(user_mean_use_coupon_interval)和優(yōu)惠券流行度(user_use_coupon_rate)。而用戶到門店的距離(distance)重要性最弱,如有需要對模型進一步優(yōu)化,可以考慮去除distance屬性后重新訓(xùn)練模型,再查看新模型預(yù)測效果。模型評價1分析方法與過程目錄背景與挖掘目標2模型評價3應(yīng)用4小結(jié)5根據(jù)樣本預(yù)測分類結(jié)果,采取下面的一些營銷手段和策略,為O2O平臺、商家管理提供參考。用戶分級優(yōu)惠券分級商戶分級應(yīng)用用戶分級O2O平臺數(shù)據(jù)用戶數(shù)據(jù)在構(gòu)建用戶標簽過程中,數(shù)據(jù)分成正樣本、負樣本,同時將未領(lǐng)券的用戶剔除??筛鶕?jù)該構(gòu)建用戶標簽的劃分標準,將正樣本、負樣本、未領(lǐng)券用戶劃分為3個用戶等級。正樣本用戶在領(lǐng)券后15天內(nèi)進行消費,這類用戶是O2O平臺的高價值客戶,對O2O行業(yè)貢獻比較大,所占比例較小,屬于重要保持用戶。對于該類用戶應(yīng)將優(yōu)先將資源投放,提高用戶忠誠度。應(yīng)用負樣本用戶領(lǐng)券未在15天內(nèi)入門店消費,該類用戶所占比例較高,有可能出現(xiàn)用戶流失風(fēng)險,屬于挽留用戶。由于商戶投放優(yōu)惠券有限制消費時間、消費等級,用戶可能沒有過多關(guān)注優(yōu)惠券可使用時間,而錯過消費機會。需采取一些營銷手段,延長用戶對平臺依賴。如平臺發(fā)送給用戶消息提醒優(yōu)惠券的有效時間等。未領(lǐng)券優(yōu)惠券直接到門店進行消費,這類是屬于普通用戶。將普通用戶做為發(fā)展對象,引導(dǎo)這類用戶使用優(yōu)惠券進行消費,即發(fā)展為新的持券消費用戶。商戶可向用戶投放流行度較高、優(yōu)惠力度較高的優(yōu)惠券吸引更多用戶領(lǐng)取優(yōu)惠券入門店消費,從而發(fā)展為高粘性用戶。應(yīng)用2.優(yōu)惠券分級平臺發(fā)放優(yōu)惠券的目的無非是為了拉新或者促活。良好的優(yōu)惠券設(shè)計能擴大平臺知名度,降低用戶使用門檻,迅速吸引一批新用戶進入平
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年高純白銀行業(yè)深度研究分析報告-20241226-212310
- 2024-2030年中國食物垃圾處理器行業(yè)市場調(diào)查研究及投資前景展望報告
- 女裝線上銷售渠道發(fā)展趨勢
- 2024-2030年中國家庭財富管理行業(yè)發(fā)展?jié)摿︻A(yù)測及投資戰(zhàn)略研究報告
- 地塊平整項目背景與意義
- 變配電擴容施工技術(shù)方案
- 醫(yī)院周轉(zhuǎn)房可行性研究報告
- 中國漏電斷路器行業(yè)發(fā)展前景及行業(yè)投資策略研究報告
- 兼職物業(yè)合同范本
- 【可行性報告】2025年金項目可行性研究分析報告
- 九年級化學(xué)下冊 第12單元 化學(xué)與生活教案 (新版)新人教版
- 后腹腔鏡下輸尿管切開取石術(shù)
- 二手車購買收據(jù)合同范本
- 2022版義務(wù)教育英語課程標準整體解讀課件
- 2024精美復(fù)工復(fù)產(chǎn)安全培訓(xùn)
- 01 H5入門知識課件
- 民間借貸利息計算表
- 小學(xué)數(shù)學(xué)二年級《數(shù)圖形》練習(xí)題
- 初中語文八年級下冊 4《燈籠》公開課一等獎創(chuàng)新教案
- RBA商業(yè)道德程序文件(系列)
- 某山體滑坡綜合治理工程監(jiān)理規(guī)劃
評論
0/150
提交評論