版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第5章物以類聚:發(fā)現(xiàn)新簇群課后習(xí)題答案一、考考你 1.關(guān)于聚類說(shuō)法正確是D。A.聚類樣本一定要有標(biāo)簽 B.應(yīng)該將所有特征數(shù)據(jù)作為聚類依據(jù)C.聚類的k值可以隨意指定 D.聚類質(zhì)心就是各簇群特征的平均值 2.下列C聚類性能評(píng)價(jià)指標(biāo)在[-1,1]之間,值越接近1說(shuō)明聚類效果越好。 A.CH分?jǐn)?shù) B.戴維森堡丁指數(shù)DBI C.輪廓系數(shù) D.inertia 3.k-means模型的A參數(shù)能保證聚類結(jié)果復(fù)現(xiàn)。 A.random_state B.init C.max_iter D.algorithm 4.衡量聚類效果好壞的主要依據(jù)是D。 A.各類之間的界限明顯 B.各樣本離各自質(zhì)心之和最小 C.類別之間的協(xié)方差越大越好 D.同類樣本緊促,不同類樣本相距遠(yuǎn) 5.關(guān)于RFM模型的應(yīng)用,說(shuō)法錯(cuò)誤的是D。 A.R、F、M是區(qū)分客戶的三個(gè)重要指標(biāo) B.這三個(gè)指標(biāo)是基于原始數(shù)據(jù)統(tǒng)計(jì)出來(lái)的 C.在具體場(chǎng)景應(yīng)用RFM模型時(shí),可以添加其它指標(biāo)D.訓(xùn)練模型前樣本不進(jìn)行標(biāo)準(zhǔn)化處理也是可以的 二、亮一亮 1.在案例1中用k-均值算法對(duì)鳶尾花進(jìn)行聚類時(shí),有哪些辦法能幫你找到最優(yōu)的k值?參考答案:(1)盡可能多的獲得鳶尾花的特征數(shù)據(jù)進(jìn)行初步分析,基于特征數(shù)據(jù)確定種類的有效值作為k的數(shù)值。(2)在運(yùn)行k-means聚類中根據(jù)聚類結(jié)果對(duì)比分析確定最優(yōu)的k值。 2.在案例2的電商用戶分類過(guò)程中,求各類客戶樣本的均值有何意義?請(qǐng)舉例說(shuō)明。 參考答案: 由于聚類前對(duì)原始數(shù)據(jù)進(jìn)行了標(biāo)準(zhǔn)化處理,所以需要聚類后對(duì)質(zhì)心進(jìn)行反標(biāo)準(zhǔn)化轉(zhuǎn)換,得到原始均值,方便觀察聚類結(jié)果和對(duì)業(yè)務(wù)場(chǎng)景的解釋。 三、幫幫我 1.Wholesalecustomersdata.csv文件保存有批發(fā)商客戶數(shù)據(jù),前5行數(shù)據(jù)如下圖5.20所示。數(shù)據(jù)集各屬性函數(shù)如下。圖5.20批發(fā)商客戶數(shù)據(jù)Channel:客戶渠道,1指酒店類,2指零售類。Region:客戶所在地區(qū),1指里斯本,2指波爾圖,3指其它地區(qū)。Fresh:在新鮮產(chǎn)品上的支出。Milk:在乳制品上的支出。Grocery:在雜貨上的支出。Frozen:在冷凍產(chǎn)品上的支出。Detergents_Paper:在清潔劑(紙)上的支出。Delicassen:在熟食上的支出。請(qǐng)運(yùn)用k-means聚類算法將這400名批發(fā)商客戶進(jìn)行聚類,并試圖解釋聚類結(jié)果。提示:聚類時(shí)只考慮后6個(gè)特征,因?yàn)檫@6個(gè)特征代表客戶的進(jìn)貨能力。參考答案:#數(shù)據(jù)預(yù)處理#1.處理異常值在處理異常值之前,先來(lái)通過(guò)箱線圖看看異常值.importseabornassnsimportpandasaspdimportmatplotlib.pyplotaspltdf=pd.read_csv(r'data\Wholesalecustomersdata.csv',sep=',')defget_boxplot(data,start,end):fig,ax=plt.subplots(1,end-start,figsize=(24,4))foriinrange(start,end):sns.boxplot(y=data[data.columns[i]],data=data,ax=ax[i-start])get_boxplot(df,2,8)解釋:可以看到以上6個(gè)連續(xù)型變量均有異常值,由于k-means算法對(duì)異常值較敏感,因此選擇剔除它。importnumpyasnpdefdrop_outlier(data,start,end):foriinrange(start,end):field=data.columns[i]Q1=np.quantile(data[field],0.25)Q3=np.quantile(data[field],0.75)deta=(Q3-Q1)*1.5data=data[(data[field]>=Q1-deta)&(data[field]<=Q3+deta)]returndatadel_df=drop_outlier(df,2,8)print("原有樣本容量:{0},剔除后樣本容量:{1}".format(df.shape[0],del_df.shape[0]))get_boxplot(del_df,2,8)#2.變量離散化、歸一化del_df['Channel']=del_df.Channel.astype(str)del_df['Region']=del_df.Region.astype(str)del_df=pd.get_dummies(del_df)foriinrange(6):field=del_df.columns[i]del_df[field]=del_df[field].apply(lambdax:(x-del_df[field].mean())/del_df[field].mean())#3.迭代評(píng)估聚類的k值fromsklearn.clusterimportKMeansK=range(1,10)sse=[]forkinK:km=KMeans(n_clusters=k,random_state=10)km.fit(del_df)sse.append(km.inertia_)plt.figure(figsize=(8,6))plt.plot(K,sse,'-o',alpha=0.7)plt.xlabel("K")plt.ylabel("SSE")plt.show()根據(jù)肘部法則,選擇K=2,也就是說(shuō)將客戶分成兩群.#4.客戶分群frompandas.plottingimportparallel_coordinates#訓(xùn)練模型km=KMeans(n_clusters=2,random_state=10)km.fit(del_df)centers=km.cluster_centers_labels=km.labels_customer=pd.DataFrame({'0':centers[0],"1":centers[1]}).Tcustomer.columns=del_df.keys()df_median=pd.DataFrame({'2':del_df.median()}).Tcustomer=pd.concat([customer,df_median])customer["category"]=["customer_1","customer_2",'median']#繪制圖像plt.figure(figsize=(12,6))parallel_coordinates(customer,"category",color=('red','blue','black'))plt.xticks(rotation=15)plt.show()從6種產(chǎn)品每年消費(fèi)支出來(lái)看,客戶群1在冷凍產(chǎn)品上最高,在洗滌劑和紙制品上最低,而客戶群2則在冷凍產(chǎn)品上最低,在洗滌劑和紙制品上最高,且客戶群2在6種產(chǎn)品的消費(fèi)支出均高于中位數(shù)水平,因此客戶群2為重要客戶,客戶群1則是一般客戶。#5.最終分群結(jié)果,將聚類后的標(biāo)簽加入數(shù)據(jù)集del_df['category']=labelsdel_df['category']=np.where(del_df.category==0,'customer_1','customer_2')customer=pd.DataFrame({'0':centers[0],"1":centers[1]}).Tcustomer["category"]=['customer_1_center',"customer_2_center"]customer.columns=del_df.keys()del_df=pd.concat([del_df,customer])#對(duì)6類產(chǎn)品每年消費(fèi)水平進(jìn)行繪制圖像df_new=del_df[['Fresh','Milk','Grocery','Frozen','Detergents_Paper','Delicassen','category']]plt.figure(figsize=(18,6))paralle
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年設(shè)備融資還款合同
- 2024版二人合伙協(xié)議書簡(jiǎn)單一點(diǎn)
- 2024年美甲店與美容師用工合同
- 2024年足浴店項(xiàng)目合作合同3篇
- 2024年門頭翻新施工合同
- 2025年度園林綠化工程鏟車租賃及生態(tài)保護(hù)協(xié)議2篇
- 2024年朋友間借款協(xié)議
- 2024年面料原材料批發(fā)與分銷合同3篇
- 2025年度智能停車設(shè)施施工合同示范文本3篇
- 2024年高端咖啡廳合伙經(jīng)營(yíng)及利潤(rùn)分配合同一
- 10以內(nèi)口算題每頁(yè)50道
- YBT 6273-2024《蘭炭機(jī)械強(qiáng)度測(cè)定方法》
- 【云南省中藥材出口現(xiàn)狀、問(wèn)題及對(duì)策11000字(論文)】
- 服裝板房管理制度
- 醫(yī)療技術(shù)臨床應(yīng)用管理檔案(姓名+工號(hào))
- 機(jī)加工工作計(jì)劃安排
- 習(xí)慣性違章培訓(xùn)
- 河北省石家莊市橋西區(qū)2022-2023學(xué)年七年級(jí)上學(xué)期期末地理試卷
- 河北省興隆縣盛嘉恒信礦業(yè)有限公司李杖子硅石礦礦山地質(zhì)環(huán)境保護(hù)與治理恢復(fù)方案
- 第七章力與運(yùn)動(dòng)第八章壓強(qiáng)第九章浮力綜合檢測(cè)題(一)-2023-2024學(xué)年滬科版物理八年級(jí)下學(xué)期
- 《工程造價(jià)管理 第2版》 課件 第一章 工程造價(jià)管理概論
評(píng)論
0/150
提交評(píng)論