![Python數(shù)據(jù)分析與應(yīng)用-第7章-航空公司客戶課件_第1頁](http://file4.renrendoc.com/view/9967d646e55244255ff908949102ba1c/9967d646e55244255ff908949102ba1c1.gif)
![Python數(shù)據(jù)分析與應(yīng)用-第7章-航空公司客戶課件_第2頁](http://file4.renrendoc.com/view/9967d646e55244255ff908949102ba1c/9967d646e55244255ff908949102ba1c2.gif)
![Python數(shù)據(jù)分析與應(yīng)用-第7章-航空公司客戶課件_第3頁](http://file4.renrendoc.com/view/9967d646e55244255ff908949102ba1c/9967d646e55244255ff908949102ba1c3.gif)
![Python數(shù)據(jù)分析與應(yīng)用-第7章-航空公司客戶課件_第4頁](http://file4.renrendoc.com/view/9967d646e55244255ff908949102ba1c/9967d646e55244255ff908949102ba1c4.gif)
![Python數(shù)據(jù)分析與應(yīng)用-第7章-航空公司客戶課件_第5頁](http://file4.renrendoc.com/view/9967d646e55244255ff908949102ba1c/9967d646e55244255ff908949102ba1c5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
航空公司客戶價值分析2023/1/3航空公司客戶價值分析2022/12/271預(yù)處理航空客戶數(shù)據(jù)目錄了解航空公司現(xiàn)狀與客戶價值分析2使用K-Means算法進行客戶分群3小結(jié)41預(yù)處理航空客戶數(shù)據(jù)目錄了解航空公司現(xiàn)狀與客戶價值分析2使用分析航空公司現(xiàn)狀1.行業(yè)內(nèi)競爭民航的競爭除了三大航空公司之間的競爭之外,還將加入新崛起的各類小型航空公司、民營航空公司,甚至國外航空巨頭。航空產(chǎn)品生產(chǎn)過剩,產(chǎn)品同質(zhì)化特征愈加明顯,于是航空公司從價格、服務(wù)間的競爭逐漸轉(zhuǎn)向?qū)蛻舻母偁?。分析航空公司現(xiàn)狀1.行業(yè)內(nèi)競爭民航的競爭除了三大航空公司之分析航空公司現(xiàn)狀2.行業(yè)外競爭隨著高鐵、動車等鐵路運輸?shù)呐d建,航空公司受到巨大沖擊。分析航空公司現(xiàn)狀2.行業(yè)外競爭隨著高鐵、動車等鐵路運輸?shù)呐d目前航空公司已積累了大量的會員檔案信息和其乘坐航班記錄。以2014-03-31為結(jié)束時間,選取寬度為兩年的時間段作為分析觀測窗口,抽取觀測窗口內(nèi)有乘機記錄的所有客戶的詳細數(shù)據(jù)形成歷史數(shù)據(jù),44個特征,總共62988條記錄。數(shù)據(jù)特征及其說明如右表所示。分析航空公司現(xiàn)狀航空公司數(shù)據(jù)特征說明
特征名稱特征說明客戶基本信息MEMBER_NO會員卡號FFP_DATE入會時間FIRST_FLIGHT_DATE第一次飛行日期GENDER性別FFP_TIER會員卡級別WORK_CITY工作地城市WORK_PROVINCE工作地所在省份WORK_COUNTRY工作地所在國家AGE年齡目前航空公司已積累了大量的會員檔案信息和其乘坐航班記錄。分析航空公司客戶數(shù)據(jù)說明表名特征名稱特征說明乘機信息FLIGHT_COUNT觀測窗口內(nèi)的飛行次數(shù)LOAD_TIME觀測窗口的結(jié)束時間LAST_TO_END最后一次乘機時間至觀測窗口結(jié)束時長AVG_DISCOUNT平均折扣率SUM_YR觀測窗口的票價收入SEG_KM_SUM觀測窗口的總飛行公里數(shù)LAST_FLIGHT_DATE末次飛行日期AVG_INTERVAL平均乘機時間間隔MAX_INTERVAL最大乘機間隔積分信息EXCHANGE_COUNT積分兌換次數(shù)EP_SUM總精英積分PROMOPTIVE_SUM促銷積分PARTNER_SUM合作伙伴積分POINTS_SUM總累計積分POINT_NOTFLIGHT非乘機的積分變動次數(shù)BP_SUM總基本積分續(xù)表航空公司客戶數(shù)據(jù)說明表名特征名稱特征說明乘機信息FLIG原始數(shù)據(jù)中包含40多個特征,利用這些特征做些什么呢?我們又該從哪些角度出發(fā)呢?思考原始數(shù)據(jù)中包含40多個特征,利用這些特征做些什么呢?我們又該借助航空公司客戶數(shù)據(jù),對客戶進行分類。對不同的客戶類別進行特征分析,比較不同類別客戶的客戶價值。對不同價值的客戶類別提供個性化服務(wù),制定相應(yīng)的營銷策略。項目目標結(jié)合目前航空公司的數(shù)據(jù)情況,可以實現(xiàn)以下目標。借助航空公司客戶數(shù)據(jù),對客戶進行分類。項目目標結(jié)合目前航空公公司收入的80%來自頂端的20%的客戶。20%的客戶其利潤率100%。90%以上的收入來自現(xiàn)有客戶。大部分的營銷預(yù)算經(jīng)常被用在非現(xiàn)有客戶上。5%至30%的客戶在客戶金字塔中具有升級潛力??蛻艚鹱炙锌蛻羯?%,意味著銷售收入增加10%,利潤增加50%。這些經(jīng)驗也許并不完全準確,但是它揭示了新時代客戶分化的趨勢,也說明了對客戶價值分析的迫切性和必要性。了解客戶價值分析客戶營銷戰(zhàn)略倡導(dǎo)者Jay&AdamCurry從國外數(shù)百家公司進行了客戶營銷實施的經(jīng)驗中提煉了如下經(jīng)驗。公司收入的80%來自頂端的20%的客戶。了解客戶價值分析客戶熟悉航空客戶價值分析的步驟與流程航空客戶價值分析項目的總體流程如圖所示。熟悉航空客戶價值分析的步驟與流程航空客戶價值分析項目的總體流1預(yù)處理航空客戶數(shù)據(jù)目錄了解航空公司現(xiàn)狀與客戶價值分析2使用K-Means算法進行客戶分群3小結(jié)41預(yù)處理航空客戶數(shù)據(jù)目錄了解航空公司現(xiàn)狀與客戶價值分析2使用通過對數(shù)據(jù)觀察發(fā)現(xiàn)原始數(shù)據(jù)中存在票價為空值,票價最小值為0,折扣率最小值為0,總飛行公里數(shù)大于0的記錄。票價為空值的數(shù)據(jù)可能是客戶不存在乘機記錄造成。處理方法:丟棄票價為空的記錄。其他的數(shù)據(jù)可能是客戶乘坐0折機票或者積分兌換造成。由于原始數(shù)據(jù)量大,這類數(shù)據(jù)所占比例較小,對于問題影響不大,因此對其進行丟棄處理。處理方法:丟棄票價為0,平均折扣率不為0,總飛行公里數(shù)大于0的記錄。處理數(shù)據(jù)缺失值與異常值航空公司客戶原始數(shù)據(jù)存在少量的缺失值和異常值,需要清洗后才能用于分析。通過對數(shù)據(jù)觀察發(fā)現(xiàn)原始數(shù)據(jù)中存在票價為空值,票價最小值為0,本項目的目標是客戶價值分析,即通過航空公司客戶數(shù)據(jù)識別不同價值的客戶,識別客戶價值應(yīng)用最廣泛的模型是RFM模型。R(Recency)指的是最近一次消費時間與截止時間的間隔。通常情況下,最近一次消費時間與截止時間的間隔越短,對即時提供的商品或是服務(wù)也最有可能感興趣。F(Frequency)指顧客在某段時間內(nèi)所消費的次數(shù)。可以說消費頻率越高的顧客,也是滿意度越高的顧客,其忠誠度也就越高,顧客價值也就越大。M(Monetary)指顧客在某段時間內(nèi)所消費的金額。消費金額越大的顧客,他們的消費能力自然也就越大,這就是所謂“20%的顧客貢獻了80%的銷售額”的二八法則。構(gòu)建航空客戶價值分析的關(guān)鍵特征1.RFM模型介紹本項目的目標是客戶價值分析,即通過航空公司客戶數(shù)據(jù)識別不同價RFM模型包括三個特征,使用三維坐標系進行展示,如圖所示。X軸表示Recency,Y軸表示Frequency,Z軸表示Monetary,每個軸一般會分成5級表示程度,1為最小,5為最大。構(gòu)建航空客戶價值分析的關(guān)鍵特征2.RFM模型結(jié)果解讀RFM模型包括三個特征,使用三維坐標系進行展示,如圖所示。X在RFM模型中,消費金額表示在一段時間內(nèi),客戶購買該企業(yè)產(chǎn)品金額的總和,由于航空票價受到運輸距離,艙位等級等多種因素影響,同樣消費金額的不同旅客對航空公司的價值是不同的,因此這個特征并不適合用于航空公司的客戶價值分析。構(gòu)建航空客戶價值分析的關(guān)鍵特征3.傳統(tǒng)RFM模型在航空行業(yè)的缺陷在RFM模型中,消費金額表示在一段時間內(nèi),客戶購買該企業(yè)產(chǎn)品本項目選擇客戶在一定時間內(nèi)累積的飛行里程M和客戶在一定時間內(nèi)乘坐艙位所對應(yīng)的折扣系數(shù)的平均值C兩個特征代替消費金額。此外,航空公司會員入會時間的長短在一定程度上能夠影響客戶價值,所以在模型中增加客戶關(guān)系長度L,作為區(qū)分客戶的另一特征。本項目將客戶關(guān)系長度L,消費時間間隔R,消費頻率F,飛行里程M和折扣系數(shù)的平均值C作為航空公司識別客戶價值的關(guān)鍵特征(如表32所示),記為LRFMC模型。構(gòu)建航空客戶價值分析的關(guān)鍵特征4.航空客戶價值分析的LRFMC模型模型LRFMC航空公司LRFMC模型會員入會時間距觀測窗口結(jié)束的月數(shù)客戶最近一次乘坐公司飛機距觀測窗口結(jié)束的月數(shù)客戶在觀測窗口內(nèi)乘坐公司飛機的次數(shù)客戶在觀測窗口內(nèi)累計的飛行里程客戶在觀測窗口內(nèi)乘坐艙位所對應(yīng)的折扣系數(shù)的平均值本項目選擇客戶在一定時間內(nèi)累積的飛行里程M和客戶在一定時間內(nèi)完成五個特征的構(gòu)建以后,對每個特征數(shù)據(jù)分布情況進行分析,其數(shù)據(jù)的取值范圍如表所示。從表中數(shù)據(jù)可以發(fā)現(xiàn),五個特征的取值范圍數(shù)據(jù)差異較大,為了消除數(shù)量級數(shù)據(jù)帶來的影響,需要對數(shù)據(jù)做標準化處理。標準化LRFMC五個特征特征名稱LRFMC最小值12.170.0323680.14最大值114.5724.372135807171.5完成五個特征的構(gòu)建以后,對每個特征數(shù)據(jù)分布情況進行分析,其數(shù)LOAD_TIMEFFP_DATELAST_TO_ENDFLIGHT_COUNTSEG_KM_SUMAVG_DISCOUNT2014/3/312013/3/1623141268501.022014/3/312012/6/266651847300.762014/3/312009/12/8233603871.272014/3/312009/12/101236622591.022014/3/312011/8/251422547301.36標準化LRFMC五個特征L、R、F、M和C五個特征的數(shù)據(jù)示例,上圖為原始數(shù)據(jù),下圖為標準差標準化處理后的數(shù)據(jù)。LRFMC1.44-0.9514.0326.761.301.31-0.919.0713.132.871.33-0.898.7212.652.880.66-0.420.7812.541.990.39-0.929.9213.901.34LOAD_TIMEFFP_DATELAST_FLIGHT_S1預(yù)處理航空客戶數(shù)據(jù)目錄了解航空公司現(xiàn)狀與客戶價值分析2使用K-Means算法進行客戶分群3小結(jié)41預(yù)處理航空客戶數(shù)據(jù)目錄了解航空公司現(xiàn)狀與客戶價值分析2使用K-Means聚類算法是一種基于質(zhì)心的劃分方法,輸入聚類個數(shù)k,以及包含n個數(shù)據(jù)對象的數(shù)據(jù)庫,輸出滿足誤差平方和最小標準的k個聚類。算法步驟如下。從n個樣本數(shù)據(jù)中隨機選取k個對象作為初始的聚類中心。分別計算每個樣本到各個聚類質(zhì)心的距離,將樣本分配到距離最近的那個聚類中心類別中。所有樣本分配完成后,重新計算k個聚類的中心。與前一次計算得到的k個聚類中心比較,如果聚類中心發(fā)生變化,轉(zhuǎn)(2),否則轉(zhuǎn)(5)。當質(zhì)心不發(fā)生變化時停止并輸出聚類結(jié)果。了解K-Means聚類算法1.基本概念K-Means聚類算法是一種基于質(zhì)心的劃分方法,輸入聚類個數(shù)K-Means聚類算法是在數(shù)值類型數(shù)據(jù)的基礎(chǔ)上進行研究,然而數(shù)據(jù)分析的樣本復(fù)雜多樣,因此要求不僅能夠?qū)μ卣鳛閿?shù)值類型的數(shù)據(jù)進行分析,還要適應(yīng)數(shù)據(jù)類型的變化,對不同特征做不同變換,以滿足算法的要求。了解K-Means聚類算法2.數(shù)據(jù)類型K-Means聚類算法是在數(shù)值類型數(shù)據(jù)的基礎(chǔ)上進行研究,然而K-Means算法在R語言中實現(xiàn)的核心函數(shù)為kmeans,來源于stats軟件包,其基本語法如下。kmeans(x,centers,iter.max=10,nstart=1,
algorithm=c("Hartigan-Wong","Lloyd","Forgy","MacQueen")常用參數(shù)及其說明如表所示。了解K-Means聚類算法3.kmeans函數(shù)及其參數(shù)介紹參數(shù)名稱說明x接收matrix或dataframe。表示進行聚類分析的數(shù)據(jù)集。無默認。centers接收int。表示初始類的個數(shù)或者初始類的中心。無默認。iter.max接收int。表示最大迭代次數(shù)。默認為10。nstart接收int。表示選擇隨機起始中心點的次數(shù)。默認為1。algorithm接收特定character("Hartigan-Wong","Lloyd","Forgy","MacQueen")。默認為Hartigan-Wong。K-Means算法在R語言中實現(xiàn)的核心函數(shù)為kmeans,來K-Means模型構(gòu)建完成后可以通過屬性查看不同的信息,如表所示。了解K-Means聚類算法3.kmeans函數(shù)及其參數(shù)介紹屬性說明cluster返回int。表示每個點被分配到的簇。centers返回num。表示聚類中心矩陣。totss返回int。表示所生成簇的總體距離平方和。withinss返回num。表示每個簇內(nèi)的距離平方和。betweenss返回num。表示每個簇之間的距離平方和。size返回int。表示每個簇內(nèi)的數(shù)量。K-Means模型構(gòu)建完成后可以通過屬性查看不同的信息,如表分析聚類結(jié)果對數(shù)據(jù)進行聚類分群的結(jié)果如表所示。聚類類別聚類個數(shù)聚類中心LRFMC客戶群153360.483-0.7992.4832.4250.309客戶群241710.056-0.003-0.226-0.2292.200客戶群3157421.160-0.377-0.087-0.095-0.156客戶群424663-0.700-0.415-0.161-0.161-0.254客戶群512132-0.3131.686-0.574-0.537-0.173分析聚類結(jié)果對數(shù)據(jù)進行聚類分群的結(jié)果如表所示。聚類聚類聚類中分析聚類結(jié)果針對聚類結(jié)果進行特征分析,如圖所示。分析聚類結(jié)果針對聚類結(jié)果進行特征分析,如圖所示。分析聚類結(jié)果結(jié)合業(yè)務(wù)分析,通過比較各個特征在群間的大小對某一個群的特征進行評價分析,從而總結(jié)出每個群的優(yōu)勢和弱勢特征,具體結(jié)果如表所示。群類別優(yōu)勢特征弱勢特征客戶群1FMR
客戶群2CRFM客戶群3FML
客戶群4
LC客戶群5
FMR分析聚類結(jié)果結(jié)合業(yè)務(wù)分析,通過比較各個特征在群間的大小對某一分析聚類結(jié)果基于特征描述,本項目定義五個等級的客戶類別:重要保持客戶,重要發(fā)展客戶,重要挽留客戶,一般客戶,低價值客戶。每種客戶類別的特征如圖所示。分析聚類結(jié)果基于特征描述,本項目定義五個等級的客戶類別:重要會員的升級與保級:航空公司可以在對會員升級或保級進行評價的時間點之前,對那些接近但尚未達到要求的較高消費客戶進行適當提醒甚至采取一些促銷活動,刺激他們通過消費達到相應(yīng)標準。這樣既可以獲得收益,同時也提高了客戶的滿意度,增加了公司的精英會員。首次兌換:采取的措施是從數(shù)據(jù)庫中提取出接近但尚未達到首次兌換標準的會員,對他們進行提醒或促銷,使他們通過消費達到標準。一旦實現(xiàn)了首次兌換,客戶在本公司進行再次消費兌換就比在其他公司進行兌換要容易許多,在一定程度上等于提高了轉(zhuǎn)移的成本。交叉銷售:通過發(fā)行聯(lián)名卡等與非航空類企業(yè)的合作,使客戶在其他企業(yè)的消費過程中獲得本公司的積分,增強與公司的聯(lián)系,提高他們的忠誠度。模型應(yīng)用根據(jù)對各個客戶群進行特征分析,采取下面的一些營銷手段和策略,為航空公司的價值客戶群管理提供參考。會員的升級與保級:航空公司可以在對會員升級或保級進行評價的時1分析方法與過程目錄了解航空公司現(xiàn)狀與客戶價值分析2使用K-Means算法進行客戶分群3小結(jié)41分析方法與過程目錄了解航空公司現(xiàn)狀與客戶價值分析2使用K-本項目結(jié)合航空公司客戶價值分析的案例,重點介紹了數(shù)據(jù)分析算法中K-Means聚類算法在客戶價值分析中的應(yīng)用。針對RFM客戶價值分析模型的不足,使用K-Means算法構(gòu)建了航空客戶價值分析LRFMC模型,詳細描述了數(shù)據(jù)分析的整個過程。小結(jié)本項目結(jié)合航空公司客戶價值分析的案例,重點介紹了數(shù)據(jù)分析算法Python數(shù)據(jù)分析與應(yīng)用-第7章-航空公司客戶課件知識回顧KnowledgeReview祝您成功!知識回顧KnowledgeReview祝您成功!航空公司客戶價值分析2023/1/3航空公司客戶價值分析2022/12/271預(yù)處理航空客戶數(shù)據(jù)目錄了解航空公司現(xiàn)狀與客戶價值分析2使用K-Means算法進行客戶分群3小結(jié)41預(yù)處理航空客戶數(shù)據(jù)目錄了解航空公司現(xiàn)狀與客戶價值分析2使用分析航空公司現(xiàn)狀1.行業(yè)內(nèi)競爭民航的競爭除了三大航空公司之間的競爭之外,還將加入新崛起的各類小型航空公司、民營航空公司,甚至國外航空巨頭。航空產(chǎn)品生產(chǎn)過剩,產(chǎn)品同質(zhì)化特征愈加明顯,于是航空公司從價格、服務(wù)間的競爭逐漸轉(zhuǎn)向?qū)蛻舻母偁帯7治龊娇展粳F(xiàn)狀1.行業(yè)內(nèi)競爭民航的競爭除了三大航空公司之分析航空公司現(xiàn)狀2.行業(yè)外競爭隨著高鐵、動車等鐵路運輸?shù)呐d建,航空公司受到巨大沖擊。分析航空公司現(xiàn)狀2.行業(yè)外競爭隨著高鐵、動車等鐵路運輸?shù)呐d目前航空公司已積累了大量的會員檔案信息和其乘坐航班記錄。以2014-03-31為結(jié)束時間,選取寬度為兩年的時間段作為分析觀測窗口,抽取觀測窗口內(nèi)有乘機記錄的所有客戶的詳細數(shù)據(jù)形成歷史數(shù)據(jù),44個特征,總共62988條記錄。數(shù)據(jù)特征及其說明如右表所示。分析航空公司現(xiàn)狀航空公司數(shù)據(jù)特征說明
特征名稱特征說明客戶基本信息MEMBER_NO會員卡號FFP_DATE入會時間FIRST_FLIGHT_DATE第一次飛行日期GENDER性別FFP_TIER會員卡級別WORK_CITY工作地城市WORK_PROVINCE工作地所在省份WORK_COUNTRY工作地所在國家AGE年齡目前航空公司已積累了大量的會員檔案信息和其乘坐航班記錄。分析航空公司客戶數(shù)據(jù)說明表名特征名稱特征說明乘機信息FLIGHT_COUNT觀測窗口內(nèi)的飛行次數(shù)LOAD_TIME觀測窗口的結(jié)束時間LAST_TO_END最后一次乘機時間至觀測窗口結(jié)束時長AVG_DISCOUNT平均折扣率SUM_YR觀測窗口的票價收入SEG_KM_SUM觀測窗口的總飛行公里數(shù)LAST_FLIGHT_DATE末次飛行日期AVG_INTERVAL平均乘機時間間隔MAX_INTERVAL最大乘機間隔積分信息EXCHANGE_COUNT積分兌換次數(shù)EP_SUM總精英積分PROMOPTIVE_SUM促銷積分PARTNER_SUM合作伙伴積分POINTS_SUM總累計積分POINT_NOTFLIGHT非乘機的積分變動次數(shù)BP_SUM總基本積分續(xù)表航空公司客戶數(shù)據(jù)說明表名特征名稱特征說明乘機信息FLIG原始數(shù)據(jù)中包含40多個特征,利用這些特征做些什么呢?我們又該從哪些角度出發(fā)呢?思考原始數(shù)據(jù)中包含40多個特征,利用這些特征做些什么呢?我們又該借助航空公司客戶數(shù)據(jù),對客戶進行分類。對不同的客戶類別進行特征分析,比較不同類別客戶的客戶價值。對不同價值的客戶類別提供個性化服務(wù),制定相應(yīng)的營銷策略。項目目標結(jié)合目前航空公司的數(shù)據(jù)情況,可以實現(xiàn)以下目標。借助航空公司客戶數(shù)據(jù),對客戶進行分類。項目目標結(jié)合目前航空公公司收入的80%來自頂端的20%的客戶。20%的客戶其利潤率100%。90%以上的收入來自現(xiàn)有客戶。大部分的營銷預(yù)算經(jīng)常被用在非現(xiàn)有客戶上。5%至30%的客戶在客戶金字塔中具有升級潛力。客戶金字塔中客戶升級2%,意味著銷售收入增加10%,利潤增加50%。這些經(jīng)驗也許并不完全準確,但是它揭示了新時代客戶分化的趨勢,也說明了對客戶價值分析的迫切性和必要性。了解客戶價值分析客戶營銷戰(zhàn)略倡導(dǎo)者Jay&AdamCurry從國外數(shù)百家公司進行了客戶營銷實施的經(jīng)驗中提煉了如下經(jīng)驗。公司收入的80%來自頂端的20%的客戶。了解客戶價值分析客戶熟悉航空客戶價值分析的步驟與流程航空客戶價值分析項目的總體流程如圖所示。熟悉航空客戶價值分析的步驟與流程航空客戶價值分析項目的總體流1預(yù)處理航空客戶數(shù)據(jù)目錄了解航空公司現(xiàn)狀與客戶價值分析2使用K-Means算法進行客戶分群3小結(jié)41預(yù)處理航空客戶數(shù)據(jù)目錄了解航空公司現(xiàn)狀與客戶價值分析2使用通過對數(shù)據(jù)觀察發(fā)現(xiàn)原始數(shù)據(jù)中存在票價為空值,票價最小值為0,折扣率最小值為0,總飛行公里數(shù)大于0的記錄。票價為空值的數(shù)據(jù)可能是客戶不存在乘機記錄造成。處理方法:丟棄票價為空的記錄。其他的數(shù)據(jù)可能是客戶乘坐0折機票或者積分兌換造成。由于原始數(shù)據(jù)量大,這類數(shù)據(jù)所占比例較小,對于問題影響不大,因此對其進行丟棄處理。處理方法:丟棄票價為0,平均折扣率不為0,總飛行公里數(shù)大于0的記錄。處理數(shù)據(jù)缺失值與異常值航空公司客戶原始數(shù)據(jù)存在少量的缺失值和異常值,需要清洗后才能用于分析。通過對數(shù)據(jù)觀察發(fā)現(xiàn)原始數(shù)據(jù)中存在票價為空值,票價最小值為0,本項目的目標是客戶價值分析,即通過航空公司客戶數(shù)據(jù)識別不同價值的客戶,識別客戶價值應(yīng)用最廣泛的模型是RFM模型。R(Recency)指的是最近一次消費時間與截止時間的間隔。通常情況下,最近一次消費時間與截止時間的間隔越短,對即時提供的商品或是服務(wù)也最有可能感興趣。F(Frequency)指顧客在某段時間內(nèi)所消費的次數(shù)??梢哉f消費頻率越高的顧客,也是滿意度越高的顧客,其忠誠度也就越高,顧客價值也就越大。M(Monetary)指顧客在某段時間內(nèi)所消費的金額。消費金額越大的顧客,他們的消費能力自然也就越大,這就是所謂“20%的顧客貢獻了80%的銷售額”的二八法則。構(gòu)建航空客戶價值分析的關(guān)鍵特征1.RFM模型介紹本項目的目標是客戶價值分析,即通過航空公司客戶數(shù)據(jù)識別不同價RFM模型包括三個特征,使用三維坐標系進行展示,如圖所示。X軸表示Recency,Y軸表示Frequency,Z軸表示Monetary,每個軸一般會分成5級表示程度,1為最小,5為最大。構(gòu)建航空客戶價值分析的關(guān)鍵特征2.RFM模型結(jié)果解讀RFM模型包括三個特征,使用三維坐標系進行展示,如圖所示。X在RFM模型中,消費金額表示在一段時間內(nèi),客戶購買該企業(yè)產(chǎn)品金額的總和,由于航空票價受到運輸距離,艙位等級等多種因素影響,同樣消費金額的不同旅客對航空公司的價值是不同的,因此這個特征并不適合用于航空公司的客戶價值分析。構(gòu)建航空客戶價值分析的關(guān)鍵特征3.傳統(tǒng)RFM模型在航空行業(yè)的缺陷在RFM模型中,消費金額表示在一段時間內(nèi),客戶購買該企業(yè)產(chǎn)品本項目選擇客戶在一定時間內(nèi)累積的飛行里程M和客戶在一定時間內(nèi)乘坐艙位所對應(yīng)的折扣系數(shù)的平均值C兩個特征代替消費金額。此外,航空公司會員入會時間的長短在一定程度上能夠影響客戶價值,所以在模型中增加客戶關(guān)系長度L,作為區(qū)分客戶的另一特征。本項目將客戶關(guān)系長度L,消費時間間隔R,消費頻率F,飛行里程M和折扣系數(shù)的平均值C作為航空公司識別客戶價值的關(guān)鍵特征(如表32所示),記為LRFMC模型。構(gòu)建航空客戶價值分析的關(guān)鍵特征4.航空客戶價值分析的LRFMC模型模型LRFMC航空公司LRFMC模型會員入會時間距觀測窗口結(jié)束的月數(shù)客戶最近一次乘坐公司飛機距觀測窗口結(jié)束的月數(shù)客戶在觀測窗口內(nèi)乘坐公司飛機的次數(shù)客戶在觀測窗口內(nèi)累計的飛行里程客戶在觀測窗口內(nèi)乘坐艙位所對應(yīng)的折扣系數(shù)的平均值本項目選擇客戶在一定時間內(nèi)累積的飛行里程M和客戶在一定時間內(nèi)完成五個特征的構(gòu)建以后,對每個特征數(shù)據(jù)分布情況進行分析,其數(shù)據(jù)的取值范圍如表所示。從表中數(shù)據(jù)可以發(fā)現(xiàn),五個特征的取值范圍數(shù)據(jù)差異較大,為了消除數(shù)量級數(shù)據(jù)帶來的影響,需要對數(shù)據(jù)做標準化處理。標準化LRFMC五個特征特征名稱LRFMC最小值12.170.0323680.14最大值114.5724.372135807171.5完成五個特征的構(gòu)建以后,對每個特征數(shù)據(jù)分布情況進行分析,其數(shù)LOAD_TIMEFFP_DATELAST_TO_ENDFLIGHT_COUNTSEG_KM_SUMAVG_DISCOUNT2014/3/312013/3/1623141268501.022014/3/312012/6/266651847300.762014/3/312009/12/8233603871.272014/3/312009/12/101236622591.022014/3/312011/8/251422547301.36標準化LRFMC五個特征L、R、F、M和C五個特征的數(shù)據(jù)示例,上圖為原始數(shù)據(jù),下圖為標準差標準化處理后的數(shù)據(jù)。LRFMC1.44-0.9514.0326.761.301.31-0.919.0713.132.871.33-0.898.7212.652.880.66-0.420.7812.541.990.39-0.929.9213.901.34LOAD_TIMEFFP_DATELAST_FLIGHT_S1預(yù)處理航空客戶數(shù)據(jù)目錄了解航空公司現(xiàn)狀與客戶價值分析2使用K-Means算法進行客戶分群3小結(jié)41預(yù)處理航空客戶數(shù)據(jù)目錄了解航空公司現(xiàn)狀與客戶價值分析2使用K-Means聚類算法是一種基于質(zhì)心的劃分方法,輸入聚類個數(shù)k,以及包含n個數(shù)據(jù)對象的數(shù)據(jù)庫,輸出滿足誤差平方和最小標準的k個聚類。算法步驟如下。從n個樣本數(shù)據(jù)中隨機選取k個對象作為初始的聚類中心。分別計算每個樣本到各個聚類質(zhì)心的距離,將樣本分配到距離最近的那個聚類中心類別中。所有樣本分配完成后,重新計算k個聚類的中心。與前一次計算得到的k個聚類中心比較,如果聚類中心發(fā)生變化,轉(zhuǎn)(2),否則轉(zhuǎn)(5)。當質(zhì)心不發(fā)生變化時停止并輸出聚類結(jié)果。了解K-Means聚類算法1.基本概念K-Means聚類算法是一種基于質(zhì)心的劃分方法,輸入聚類個數(shù)K-Means聚類算法是在數(shù)值類型數(shù)據(jù)的基礎(chǔ)上進行研究,然而數(shù)據(jù)分析的樣本復(fù)雜多樣,因此要求不僅能夠?qū)μ卣鳛閿?shù)值類型的數(shù)據(jù)進行分析,還要適應(yīng)數(shù)據(jù)類型的變化,對不同特征做不同變換,以滿足算法的要求。了解K-Means聚類算法2.數(shù)據(jù)類型K-Means聚類算法是在數(shù)值類型數(shù)據(jù)的基礎(chǔ)上進行研究,然而K-Means算法在R語言中實現(xiàn)的核心函數(shù)為kmeans,來源于stats軟件包,其基本語法如下。kmeans(x,centers,iter.max=10,nstart=1,
algorithm=c("Hartigan-Wong","Lloyd","Forgy","MacQueen")常用參數(shù)及其說明如表所示。了解K-Means聚類算法3.kmeans函數(shù)及其參數(shù)介紹參數(shù)名稱說明x接收matrix或dataframe。表示進行聚類分析的數(shù)據(jù)集。無默認。centers接收int。表示初始類的個數(shù)或者初始類的中心。無默認。iter.max接收int。表示最大迭代次數(shù)。默認為10。nstart接收int。表示選擇隨機起始中心點的次數(shù)。默認為1。algorithm接收特定character("Hartigan-Wong","Lloyd","Forgy","MacQueen")。默認為Hartigan-Wong。K-Means算法在R語言中實現(xiàn)的核心函數(shù)為kmeans,來K-Means模型構(gòu)建完成后可以通過屬性查看不同的信息,如表所示。了解K-Means聚類算法3.kmeans函數(shù)及其參數(shù)介紹屬性說明cluster返回int。表示每個點被分配到的簇。centers返回num。表示聚類中心矩陣。totss返回int。表示所生成簇的總體距離平方和。withinss返回num。表示每個簇內(nèi)的距離平方和。betweenss返回num。表示每個簇之間的距離平方和。size返回int。表示每個簇內(nèi)的數(shù)量。K-Means模型構(gòu)建完成后可以通過屬性查看不同的信息,如表分析聚類結(jié)果對數(shù)據(jù)進行聚類分群的結(jié)果如表所示。聚類類別聚類個數(shù)聚類中心LRFMC
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 蘇科版數(shù)學(xué)九年級上冊第1章《用一元二次方程解決問題一元二次方程的應(yīng)用》聽評課記錄
- 五年級下冊數(shù)學(xué)聽評課記錄《 找次品(一)》人教新課標
- 湘教版數(shù)學(xué)八年級下冊2.3《中心對稱圖形》聽評課記錄
- 人民版道德與法治九年級上冊第一課《新媒體新生活》聽課評課記錄
- 湘教版數(shù)學(xué)八年級上冊4.3《一元一次不等式的解法》聽評課記錄
- 北師大版歷史九年級下冊第17課《現(xiàn)代世界的科技與文化》聽課評課記錄
- 中圖版地理七年級上冊《第一節(jié) 地球和地球儀》聽課評課記錄8
- 八年級政治上冊第四課-第二框-交往講藝術(shù)聽課評課記錄魯教版
- 中圖版地理八年級下冊5.2《學(xué)習(xí)與探究 亞洲的人文環(huán)境》聽課評課記錄
- 浙教版數(shù)學(xué)七年級上冊5.3《一元一次方程的應(yīng)用》聽評課記錄
- 軸套類零件件的加工課件
- 北京市水務(wù)安全生產(chǎn)風(fēng)險評估指南
- 吸引器教學(xué)講解課件
- 醫(yī)學(xué)心理學(xué)人衛(wèi)八版66張課件
- 物業(yè)服務(wù)五級三類收費重點標準
- 工商注冊登記信息表
- 仿古建筑施工常見質(zhì)量通病及防治措施
- 普通沖床設(shè)備日常點檢標準作業(yè)指導(dǎo)書
- DB51∕T 2630-2019 珙桐扦插育苗技術(shù)規(guī)程
- 科技文獻檢索與利用PPT通用課件
- 《紅樓夢講稿》PPT課件
評論
0/150
提交評論