




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于TipDM數(shù)據(jù)挖掘建模平臺(tái)實(shí)現(xiàn)航空公司客戶價(jià)值分析1快速構(gòu)建航空公司客戶價(jià)值分析工程目錄平臺(tái)簡(jiǎn)介2TipDM數(shù)據(jù)挖掘建模平臺(tái)是由廣東泰迪智能科技股份有限公司自主研發(fā)、基于Python引擎、用于數(shù)據(jù)分析的開(kāi)源平臺(tái)。平臺(tái)提供數(shù)量豐富的數(shù)據(jù)分析組件,用戶可在沒(méi)有編程基礎(chǔ)的情況下,通過(guò)拖曳的方式進(jìn)行操作,將數(shù)據(jù)輸入輸出、數(shù)據(jù)預(yù)處理、挖掘建模、模型評(píng)估等環(huán)節(jié)通過(guò)流程化的方式進(jìn)行連接,幫助用戶快速建立數(shù)據(jù)分析工程,提升數(shù)據(jù)處理的效能。平臺(tái)簡(jiǎn)介平臺(tái)的界面如圖所示。平臺(tái)簡(jiǎn)介以航空公司客戶價(jià)值分析案例為例,介紹如何使用平臺(tái)實(shí)現(xiàn)案例的流程。在介紹之前,需要引入平臺(tái)的幾個(gè)概念。組件:將建模過(guò)程涉及的輸入/輸出、數(shù)據(jù)探索及預(yù)處理、建模、模型評(píng)估等算法分別進(jìn)行封裝,每一個(gè)封裝好的算法模塊稱之為組件。工程:為實(shí)現(xiàn)某一數(shù)據(jù)分析目標(biāo),將各組件通過(guò)流程化的方式進(jìn)行連接,整個(gè)數(shù)據(jù)分析流程稱為一個(gè)工程。模板:用戶可以將配置好的工程,通過(guò)模板的方式,分享給其他用戶,其他用戶可以使用該模板,創(chuàng)建一個(gè)無(wú)需配置組件便可運(yùn)行的工程。平臺(tái)簡(jiǎn)介TipDM數(shù)據(jù)挖掘建模平臺(tái)主要有以下幾個(gè)特點(diǎn)。平臺(tái)算法基于Python引擎,用于數(shù)據(jù)分析。Python是目前最為流行的用于數(shù)據(jù)分析的語(yǔ)言之一,高度契合行業(yè)需求。平臺(tái)已對(duì)所有用戶實(shí)現(xiàn)開(kāi)源,用戶可在本地部署平臺(tái),或?qū)ζ脚_(tái)進(jìn)行二次開(kāi)發(fā),滿足個(gè)人使用需求。用戶可在沒(méi)有Python編程基礎(chǔ)的情況下,使用直觀的拖曳式圖形界面構(gòu)建數(shù)據(jù)分析流程,無(wú)須編程。提供公開(kāi)可用的數(shù)據(jù)分析示例工程,一鍵創(chuàng)建,快速運(yùn)行。支持挖掘流程每個(gè)節(jié)點(diǎn)的結(jié)果在線預(yù)覽。提供十大類數(shù)十種算法組件,包括數(shù)據(jù)預(yù)處理、統(tǒng)計(jì)分析、分類、聚類、關(guān)聯(lián)、推薦等常用數(shù)據(jù)分析算法,支持查看算法組件源代碼(需本地化部署)。同時(shí)提供Python腳本與SQL腳本,快速粘貼代碼即可運(yùn)行。提供算法組件自定義功能(需本地化部署),用戶可將個(gè)人本地編寫的代碼配置到平臺(tái)當(dāng)中,成為算法組件。平臺(tái)簡(jiǎn)介登錄平臺(tái)后,用戶即可看到【首頁(yè)】模塊系統(tǒng)提供的示例工程(模板),如下圖所示。【模板】模塊主要用于常用數(shù)據(jù)分析與建模案例的快速創(chuàng)建和展示。通過(guò)【模板】模塊,用戶可以創(chuàng)建一個(gè)無(wú)須導(dǎo)入數(shù)據(jù)及配置參數(shù)就能夠快速運(yùn)行的工程。同時(shí),用戶可以將自己搭建的數(shù)據(jù)分析工程生成為模板,顯示在【首頁(yè)】模塊,供其他用戶一鍵創(chuàng)建。首頁(yè)【數(shù)據(jù)源】模塊主要用于數(shù)據(jù)分析工程的數(shù)據(jù)導(dǎo)入與管理,根據(jù)情況用戶可選擇【CSV文件】或者【SQL數(shù)據(jù)庫(kù)】。【CSV文件】支持從本地導(dǎo)入CSV類型的數(shù)據(jù),如圖所示。數(shù)據(jù)源【SQL數(shù)據(jù)庫(kù)】支持從DB2、SQLServer、MySQL、Oracle、PostgreSQL等關(guān)系型數(shù)據(jù)庫(kù)導(dǎo)入數(shù)據(jù),如圖所示。數(shù)據(jù)源數(shù)據(jù)上傳成功后,用戶可以使用數(shù)據(jù)分享功能,如下圖所示,將搭建工程涉及到的數(shù)據(jù)分享給其他用戶。數(shù)據(jù)源其他用戶可在【共享數(shù)據(jù)源】選項(xiàng)卡內(nèi)查看到分享給自己的數(shù)據(jù),如圖所示,并使用該數(shù)據(jù)進(jìn)行數(shù)據(jù)分析。數(shù)據(jù)源【工程】模塊主要用于數(shù)據(jù)分析流程化的創(chuàng)建與管理,如圖所示,通過(guò)【工程】模塊,用戶可以創(chuàng)建空白工程,進(jìn)行數(shù)據(jù)分析工程的配置,將數(shù)據(jù)輸入輸出、數(shù)據(jù)預(yù)處理、挖掘建模、模型評(píng)估等環(huán)節(jié)通過(guò)流程化的方式進(jìn)行連接,達(dá)到數(shù)據(jù)分析的目的。工程【系統(tǒng)組件】模塊主要用于數(shù)據(jù)分析常用算法組件的管理。組件包括輸入/輸出、腳本、數(shù)據(jù)預(yù)處理、統(tǒng)計(jì)分析、分類、回歸、聚類、時(shí)序模型、模型評(píng)估和模型預(yù)測(cè),共十大類,如圖所示。系統(tǒng)組件各個(gè)類組件的介紹如下?!据斎?輸出】類提供配置數(shù)據(jù)分析工程的輸入和輸出組件,包括輸入源、輸出源。【腳本】類提供一個(gè)代碼編輯框,用戶可以在代碼編輯框中粘貼已經(jīng)寫好的程序代碼,直接運(yùn)行,無(wú)須再額外配置成組件,包括Python腳本、SQL腳本?!緮?shù)據(jù)預(yù)處理】類提供對(duì)數(shù)據(jù)進(jìn)行清洗的組件,包括特征構(gòu)造、表堆疊、記錄選擇、表連接、新增序列、數(shù)據(jù)集劃分、類型轉(zhuǎn)換、缺失值處理、記錄去重、異常值處理、數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)學(xué)類函數(shù)、排序、分組聚合、修改列名。【統(tǒng)計(jì)分析】類提供對(duì)數(shù)據(jù)整體情況進(jìn)行統(tǒng)計(jì)的常用組件,包括數(shù)據(jù)探索、純隨機(jī)性檢驗(yàn)、相關(guān)性分析、單樣本T檢驗(yàn)、正態(tài)性檢驗(yàn)、雙樣本T檢驗(yàn)、主成分分析、頻數(shù)統(tǒng)計(jì)、全表統(tǒng)計(jì)、平穩(wěn)性檢驗(yàn)、因子分析、卡方檢驗(yàn)。系統(tǒng)組件【分類】類提供常用的分類算法組件,包括CART分類樹(shù)、ID3分類樹(shù)、最近鄰分類、樸素貝葉斯、支持向量機(jī)、邏輯回歸、多層感知神經(jīng)網(wǎng)絡(luò)?!净貧w】類提供常用的回歸算法組件,包括CART回歸樹(shù)、線性回歸、支持向量回歸、最近鄰回歸、LASSO回歸。【聚類】類提供常用的聚類算法組件,包括層次聚類、DBSCAN密度聚類、K-Means聚類?!緯r(shí)間模型】類提供常用的時(shí)間序列算法組件,包括ARIMA、GM(1,1)、差分?!灸P驮u(píng)估】類提供對(duì)通過(guò)分類算法或回歸算法訓(xùn)練得到的模型進(jìn)行評(píng)價(jià)的組件?!灸P皖A(yù)測(cè)】類提供對(duì)通過(guò)分類算法或回歸算法訓(xùn)練得到的模型進(jìn)行預(yù)測(cè)的組件。系統(tǒng)組件通過(guò)開(kāi)源TipDM數(shù)據(jù)挖掘建模平臺(tái)官網(wǎng),如圖所示。TipDM數(shù)據(jù)挖掘建模平臺(tái)的本地化部署進(jìn)入Github或碼云開(kāi)源網(wǎng)站,如圖所示,同步平臺(tái)程序代碼到本地,按照說(shuō)明文檔進(jìn)行配置部署。TipDM數(shù)據(jù)挖掘建模平臺(tái)的本地化部署平臺(tái)官網(wǎng)提供了數(shù)量豐富的不同行業(yè)的解決方案,主要介紹使用平臺(tái)搭建數(shù)據(jù)分析工程的不同行業(yè)的案例,包含【電子商務(wù)】【智能設(shè)備】【金融保險(xiǎn)】類等,如下圖所示,用戶可以根據(jù)步驟提示,動(dòng)手搭建數(shù)據(jù)分析工程。TipDM數(shù)據(jù)挖掘建模平臺(tái)的本地化部署TipDM數(shù)據(jù)挖掘建模平臺(tái)的本地化部署平臺(tái)官網(wǎng)還提供了詳細(xì)的幫助資料,包含【操作文檔】【常見(jiàn)問(wèn)題】【操作視頻】選項(xiàng)卡,如圖所示,用戶可以根據(jù)這些資料,輕松入門平臺(tái)的使用。TipDM數(shù)據(jù)挖掘建模平臺(tái)的本地化部署1快速構(gòu)建航空公司客戶價(jià)值分析工程目錄平臺(tái)簡(jiǎn)介2以航空公司客戶價(jià)值分析案例為例,在TipDM數(shù)據(jù)挖掘建模平臺(tái)上配置對(duì)應(yīng)工程,展示幾個(gè)主要流程的配置過(guò)程。案例主要包括以下4個(gè)步驟。導(dǎo)入航空公司2012年4月1日至2014年3月31日的數(shù)據(jù)到TipDM數(shù)據(jù)挖掘建模平臺(tái)。對(duì)數(shù)據(jù)進(jìn)行探索性分析、數(shù)據(jù)清洗和數(shù)據(jù)篩選。對(duì)數(shù)據(jù)進(jìn)行特征構(gòu)造和數(shù)據(jù)標(biāo)準(zhǔn)化等操作。使用K-Means算法構(gòu)建模型,進(jìn)行客戶分群??傮w流程在TipDM數(shù)據(jù)挖掘建模平臺(tái)上配置航空公司客戶價(jià)值分析案例的總體流程如圖所示??傮w流程得到的最終流程如圖所示??傮w流程本章的數(shù)據(jù)是CSV文件,使用TipDM數(shù)據(jù)挖掘建模平臺(tái)導(dǎo)入該數(shù)據(jù),步驟如下。單擊【數(shù)據(jù)源】模塊,在【新建數(shù)據(jù)源】下拉項(xiàng)中選擇【CSV文件】,如圖所示。獲取數(shù)據(jù)單擊選擇文件,選擇案例的數(shù)據(jù),在【新建目標(biāo)表名中】框中填入“air_data”,【預(yù)覽設(shè)置】項(xiàng)選擇【分頁(yè)顯示】,如圖所示,然后單擊【下一步】按鈕。獲取數(shù)據(jù)在【預(yù)覽數(shù)據(jù)】框中,觀察每個(gè)字段的類型及精度,然后單擊【下一步】按鈕。將【ffp_date】字段和【load_time】字段的類型選擇為【字符】,如圖所示。獲取數(shù)據(jù)字段【avg_discount】的【精度】設(shè)置為【6】,如圖所示,單擊【確定】按鈕,即可上傳獲取數(shù)據(jù)數(shù)據(jù)上傳完成后,新建一個(gè)命名為【航空公司客戶價(jià)值分析】的空白工程,配置一個(gè)【輸入源】組件,步驟如下在【工程】模塊左下方的【組件】欄中,找到【系統(tǒng)組件】類下的【輸入/輸出】類。拖曳【輸入/輸出】類中的【輸入源】組件至工程畫布中。獲取數(shù)據(jù)單擊畫布中的【輸入源】組件,然后單擊工程畫布右側(cè)【字段屬性】欄中的【數(shù)據(jù)表】框,輸入“air_data”,在彈出的下拉框中選擇【air_data】,如圖所示。獲取數(shù)據(jù)右鍵單擊【輸入源】組件,選擇【查看數(shù)據(jù)】,如圖所示。該數(shù)據(jù)共有62988條記錄。獲取數(shù)據(jù)航空公司的數(shù)據(jù)質(zhì)量可能尚未達(dá)到直接用于建模的程度,可能存在缺失值、異常值等問(wèn)題。這些問(wèn)題會(huì)導(dǎo)致建立的模型不夠精確,為盡可能地排除干擾因素、保證模型的可靠性,需要進(jìn)行必要的數(shù)據(jù)準(zhǔn)備。數(shù)據(jù)準(zhǔn)備探索性分析主要是對(duì)數(shù)據(jù)進(jìn)行描述性統(tǒng)計(jì)分析,計(jì)算每個(gè)屬性的記錄總數(shù)、均值、方差、最小值和最大值等指標(biāo),步驟如下。拖曳【統(tǒng)計(jì)分析】類中的【全表統(tǒng)計(jì)】組件至工程畫布中,并與【輸入源】組件相連接。數(shù)據(jù)準(zhǔn)備1.探索性統(tǒng)計(jì)單擊畫布中的【全表統(tǒng)計(jì)】組件,在工程畫布右側(cè)【字段屬性】欄中,單擊【特征】項(xiàng)下的【刷新】按鈕,勾選全部字段,如圖所示。數(shù)據(jù)準(zhǔn)備右鍵單擊【全表統(tǒng)計(jì)】組件,選擇【運(yùn)行該節(jié)點(diǎn)】。運(yùn)行完成后,右鍵單擊【全表統(tǒng)計(jì)】組件,選擇【查看數(shù)據(jù)】,如圖所示。數(shù)據(jù)準(zhǔn)備通過(guò)數(shù)據(jù)探索分析,發(fā)現(xiàn)數(shù)據(jù)中存在缺失值,需要進(jìn)行數(shù)據(jù)清洗,步驟如下。拖曳【數(shù)據(jù)預(yù)處理】類中的【缺失值處理】組件至工程畫布中,并與【輸入源】組件相連接。數(shù)據(jù)準(zhǔn)備2.數(shù)據(jù)清洗單擊畫布中的【缺失值處理】組件,在工程畫布右側(cè)【字段屬性】欄中,單擊【特征】項(xiàng)下的【刷新】按鈕,勾選全部字段,如圖所示。數(shù)據(jù)準(zhǔn)備單擊工程畫布右下方的【參數(shù)設(shè)置】欄,在【處理方法】項(xiàng)中選擇【刪除缺失值】,如圖所示。數(shù)據(jù)準(zhǔn)備右鍵單擊【缺失值處理】組件,選擇【運(yùn)行該節(jié)點(diǎn)】。運(yùn)行完成后,右鍵單擊【缺失值處理】組件,選擇【查看數(shù)據(jù)】,如圖所示。經(jīng)過(guò)缺失值處理后,該數(shù)據(jù)剩下62300條記錄,共有688條記錄被刪除.數(shù)據(jù)準(zhǔn)備通過(guò)數(shù)據(jù)探索性分析,發(fā)現(xiàn)數(shù)據(jù)中存在票價(jià)最小值為0、折扣率最小值為0、總飛行公里數(shù)大于0的記錄。由于原始數(shù)據(jù)量大,這類數(shù)據(jù)所占比例較小,對(duì)于問(wèn)題影響不大,因此進(jìn)行丟棄處理,步驟如下。拖曳【數(shù)據(jù)預(yù)處理】類中的【記錄選擇】組件至工程畫布中,并與【缺失值處理】組件相連接。單擊【特征】項(xiàng)下的【刷新】按鈕,勾選全部字段。數(shù)據(jù)準(zhǔn)備3.數(shù)據(jù)篩選單擊工程畫布右下方的【參數(shù)設(shè)置】欄,然后單擊3次【條件】項(xiàng)下方的【添加】按鈕,添加3個(gè)篩選條件。單擊【條件】項(xiàng)下方的【刷新】按鈕。在【條件】項(xiàng)第2列中,3個(gè)篩選條件的字段分別選擇【sum_yr_1】【sum_yr_2】和【seg_km_sum】;在【條件】項(xiàng)第3列中,3個(gè)篩選條件都選擇【>】;在【條件】項(xiàng)第4列中,3個(gè)篩選條件都填入【0】,如圖所示。數(shù)據(jù)準(zhǔn)備運(yùn)行【記錄選擇】組件右鍵單擊【記錄選擇】組件,選擇【查看數(shù)據(jù)】,如圖所示。經(jīng)過(guò)記錄選擇后,該數(shù)據(jù)剩下41516條記錄數(shù)據(jù)準(zhǔn)備由于航空公司會(huì)員入會(huì)時(shí)間的長(zhǎng)短在一定程度上能夠影響客戶價(jià)值,需要通過(guò)特征構(gòu)造得到航空公司會(huì)員入會(huì)時(shí)長(zhǎng),步驟如下.拖曳【數(shù)據(jù)預(yù)處理】類中的【類型轉(zhuǎn)換】組件至工程畫布中,與【記錄選擇】組件相連接,目的是將“ffp_date”字段和“l(fā)oad_time”字段的類型由文本類型轉(zhuǎn)換為日期類型。拖曳【數(shù)據(jù)預(yù)處理】類中的【特征構(gòu)造】組件至工程畫布中,并與【類型轉(zhuǎn)換】組件相連接.單擊【特征】項(xiàng)下的【刷新】按鈕,勾選全部字段。特征工程1.特征構(gòu)造單擊工程畫布右下方的【參數(shù)設(shè)置】欄,在【新特征名】框中輸入“new”,在【表達(dá)式】框中輸入“l(fā)oad_time-ffp_date”,如圖所示。特征工程運(yùn)行【特征構(gòu)造】組件,運(yùn)行完成后,右鍵單擊【特征構(gòu)造】組件,選擇【查看數(shù)據(jù)】查看組件數(shù)據(jù),如圖所示。字段new為航空公司會(huì)員入會(huì)時(shí)長(zhǎng)。特征工程由于屬性間的數(shù)據(jù)取值范圍差異較大,為了消除量級(jí)帶來(lái)的影響,需要進(jìn)行標(biāo)準(zhǔn)化處理,步驟如下。拖曳【數(shù)據(jù)預(yù)處理】類中的【修改列名】組件至工程畫布中,與【特征構(gòu)造】組件相連接,目的是將“flight_count”、“seg_km_sum”、“l(fā)ast_to_end”、“avg_discount”和“new”這五個(gè)字段的名稱分別改為“f”、“m”、“r”、“c”和“l(fā)”。拖曳【數(shù)據(jù)預(yù)處理】類中的【類型轉(zhuǎn)換】組件至工程畫布中,與【修改列名】組件相連接,目的是將“l(fā)”字段的類型由文本類型轉(zhuǎn)換為數(shù)值類型。拖曳【數(shù)據(jù)預(yù)處理】類中的【數(shù)據(jù)標(biāo)準(zhǔn)化】組件至工程畫布中,并與【類型轉(zhuǎn)換】組件相連接。單擊【特征】項(xiàng)下的【刷新】按鈕,勾選全部字段。特征工程2.數(shù)據(jù)標(biāo)準(zhǔn)化單擊工程畫布右下方的【參數(shù)設(shè)置】欄
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 3D打印在包裝應(yīng)用-洞察闡釋
- 3D打印生物制造的可持續(xù)未來(lái)-洞察及研究
- 無(wú)氧加有氧減肥計(jì)劃
- 南京師范大學(xué)《土壤植物肥料分析》2023-2024學(xué)年第二學(xué)期期末試卷
- 湖南國(guó)防工業(yè)職業(yè)技術(shù)學(xué)院《經(jīng)濟(jì)數(shù)學(xué)(一)》2023-2024學(xué)年第二學(xué)期期末試卷
- 四平職業(yè)大學(xué)《英語(yǔ)視聽(tīng)說(shuō)一》2023-2024學(xué)年第二學(xué)期期末試卷
- 青島理工大學(xué)《展館設(shè)計(jì)》2023-2024學(xué)年第二學(xué)期期末試卷
- 山西警官職業(yè)學(xué)院《體育(足球)》2023-2024學(xué)年第二學(xué)期期末試卷
- 鹽城幼兒師范高等專科學(xué)?!督?jīng)濟(jì)法學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 湖北中醫(yī)藥高等??茖W(xué)?!逗铣c指揮基礎(chǔ)(2)》2023-2024學(xué)年第二學(xué)期期末試卷
- 金蝶軟件上線總結(jié)匯報(bào)
- 感染病的預(yù)防和控制措施概述及實(shí)施
- 《大學(xué)生信息素養(yǎng)》課件
- 大學(xué)《電工學(xué)》期末考試試卷及參考答案(共九套)
- 企業(yè)安全風(fēng)險(xiǎn)智能化管控平臺(tái)建設(shè)指南解讀
- 物業(yè)管理畢業(yè)論文
- 人工智能導(dǎo)論智慧樹(shù)知到課后章節(jié)答案2023年下哈爾濱工程大學(xué)
- 營(yíng)養(yǎng)與食品衛(wèi)生學(xué)智慧樹(shù)知到課后章節(jié)答案2023年下廣西中醫(yī)藥大學(xué)
- 圖解電動(dòng)自行車充電器與控制器維修全流程
- X62W萬(wàn)能銑床電氣故障點(diǎn)
- QCT25-2023年汽車干摩擦式離合器總成技術(shù)條件
評(píng)論
0/150
提交評(píng)論