




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第2章基于聚類算法的價格帶分析案例電商中的數(shù)據(jù)維度有很多,各方各面都會有數(shù)據(jù)存在,通過對這些數(shù)據(jù)進(jìn)行分析,我們就可以知道一些我們需要的信息。商品的定價對于電商銷售來說有著關(guān)鍵的影響。比如定價多少會直接影響所獲得的利益。定價太低也許銷量有了卻沒有利潤,定價太高有利潤可惜賣不出去。只有合適的價格,才能獲得市場中的一席之地。本篇以彩妝行業(yè)下三級類目“粉餅”類目為例,數(shù)據(jù)來源是淘寶搜索“粉餅”關(guān)鍵詞下,60%價格段銷量排序的TOP400個商品。引入庫實例網(wǎng)址:/qq_40195798/article/details/112625052代碼如下(示例):importnumpyasnpimportpandasaspdimportseabornassnsimportmatplotlib.pyplotaspltfromsklearn.clusterimportKMeansfromsklearn.externalsimportjoblibfromsklearn.preprocessingimportStandardScalerfromsklearn.preprocessingimportMinMaxScaler2.讀入數(shù)據(jù)代碼如下:data1=pd.read_csv(r'F:\燈具彩妝執(zhí)行\(zhòng)彩妝\行業(yè)分析報告\數(shù)據(jù)\價格\餅.csv',encoding='utf-8')3.數(shù)據(jù)檢查及處理data1.dtypesdata1["銷售價最低"]=data1["銷售價最低"].astype(64)data1["30天銷售額"]=data1["30天銷售額"].astype(64)查看數(shù)據(jù)類型,可得知我們的數(shù)據(jù)源中各個字段的數(shù)據(jù)類型,和共有多少個字段。將之后會用到的字段修改成方便數(shù)據(jù)處理的類型。()info函數(shù)同樣可以做到這一點,不僅如此,info()還可以讓我們知道這些字段中,哪些字段數(shù)據(jù)有缺失,從而讓我們可以將這些數(shù)據(jù)進(jìn)行處理(刪減/填充)。dt2=data1[["寶貝id","銷售價最低","30天銷量"]]dt2.describe()describe()函數(shù)可以為我們計算出數(shù)據(jù)的數(shù)量、標(biāo)準(zhǔn)層、均值、四分位數(shù)以及最大最小值??梢愿庇^看出我們的數(shù)據(jù)是否有異常。這里我們看到30天銷量為-1,顯然是不正確的。dt2=dt2[(dt2['銷售價最低']>0)&(dt2['30天銷量']>0)]dt2.describe()提取出所有銷量>0的數(shù)據(jù)然后查看。4.聚類分析在確認(rèn)數(shù)據(jù)沒有問題后便可以開始著手進(jìn)行聚類分析了。sns.distplot(dt2["銷售價最低"])通過畫核密度圖我們可以大致看出市場價格情況:“粉餅”這一關(guān)鍵詞下,銷量前400的商品中大部分商品價格在50元左右,高價格段商品集中在150元左右。(這里y軸代表數(shù)據(jù)密度,是在原數(shù)據(jù)基礎(chǔ)上數(shù)據(jù)歸一化的結(jié)果)x=dt2.iloc[:,1:3]x.head()s=StandardScaler()x_scale=s.fit_transform(x)x_scale=pd.DataFrame(x_scale,columns=x.columns,index=x.index)x_scale.head()一般情況下“數(shù)據(jù)標(biāo)準(zhǔn)化”是數(shù)據(jù)分析前數(shù)據(jù)處理的重要一部分,其作用是使數(shù)據(jù)處于同一數(shù)量級,免受量綱影響。未做數(shù)據(jù)標(biāo)準(zhǔn)化的數(shù)據(jù)會明顯突出數(shù)值過大的指標(biāo),削弱數(shù)值小指標(biāo)的影響。scope=range(1,10)sse=[]forkinscope:kmeans=KMeans(n_clusters=k)kmeans.fit(x_scale)sse.append(kmeans.inertia_)plt.xticks(scope)sns.lineplot(scope,sse,marker='o')Kmeans算法中,需要知道的一點是,Kmeans并不能自動的為我們決定將數(shù)據(jù)劃分為幾類,而是需要我們先決定將數(shù)據(jù)劃分為幾類,然后再去由Kmeans進(jìn)行劃分。但到底劃分為幾類雖然是由我們決定,卻也不能隨意決定。常用的方法是根據(jù)最小的SEE原則來決定最佳K值。根據(jù)圖像我們可以知道最合適的K值為3,即將我們的商品數(shù)據(jù)按價格分為三類。在確定了這個K=3后,我們就可以正式對數(shù)據(jù)進(jìn)行聚類。#正式定義模型model1=KMeans(n_clusters=3)#跑模型model1.fit(x_scale)#需要知道每個類別有哪些參數(shù)C_i=model1.predict(x_scale)#還需要知道聚類中心的坐標(biāo)Muk=model1.cluster_centers_X=x_scale.valuesprint('質(zhì)心:',model1.cluster_centers_)print('標(biāo)簽:',model1.labels_)print('SSE:',model1.inertia_)print('迭代次數(shù):',model1.n_iter_)print('分值:',model1.score(x_scale))#畫圖plt.scatter(X[:,0],X[:,1],c=C_i,cmap=plt.cm.Paired)#畫聚類中心plt.scatter(Muk[:,0],Muk[:,1],marker='*',s=60)foriinrange(3):plt.annotate('中心'+str(i+1),(Muk[i,0],Muk[i,1]))plt.show()很明顯可以看出我們已經(jīng)成功將商品數(shù)據(jù)根據(jù)價格劃分為了三類。一般的通過聚類做人群劃分時,我們可以在聚類后給原數(shù)據(jù)打標(biāo),將各數(shù)據(jù)處于哪一個分類中標(biāo)記出來。但我們這里的最終目的是給商品定價,也就是說我們需要知道,市場的價格行情。因此還是用標(biāo)準(zhǔn)化前的數(shù)據(jù)更為直觀。#正式定義模型model1=KMeans(n_clusters=3)#跑模型model1.fit(x)#需要知道每個類別有哪些參數(shù)C_i=model1.predict(x)#還需要知道聚類中心的坐標(biāo)Muk=model1.cluster_centers_X=x.values#畫圖plt.scatter(X[:,0],X[:,1],c=C_i,cmap=plt.cm.Paired)#畫聚類中心plt.scatter(Muk[:,0],Muk[:,1],marker='*',s=60)foriinrange(3):plt.annotate('中心'+str(i+1),(Muk[i,0],Muk[i,1]))plt.show()Muk這樣我們就可以直觀的得到我們的結(jié)果。從圖上可以清楚的看到結(jié)果將商品按價格和銷量分了3類。我們可以看出“粉餅”關(guān)鍵詞下,前400的商品絕大部,30天銷量低于50000,從聚類中心得知這部分商品的價格中心約為78元,銷量中心在1929左右。在商品銷量大于50000的第二類商品中,其價格中心為約54元,銷量中心約在86593。最后一類商品銷量超過350000極為稀少不做參考。在得到這些結(jié)果
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 農(nóng)業(yè)科技園區(qū)用地購置居間
- 項目立項和可行性研究報告順序
- 新能源汽車充電樁的公司
- 公司日常行為規(guī)范及管理辦法
- 心電監(jiān)護(hù)儀的使用與維護(hù)指南
- 游戲開發(fā)引擎跨平臺移植指南
- 智能倉儲物流項目
- 雨水如何收集系統(tǒng)
- MES系統(tǒng):制造業(yè)智能化管理與流程優(yōu)化的關(guān)鍵
- 美容師中級考試復(fù)習(xí)測試卷附答案
- 2024年新大象版四年級下冊科學(xué)全冊精編知識點總結(jié)
- 風(fēng)險管理組織架構(gòu)課件
- 社會主義核心價值觀和諧課件
- 新概念二-第24課課件
- 17、18世紀(jì)歐洲美術(shù)
- 明天版幼兒園大班語言領(lǐng)域《尖嘴巴和短尾巴》課件
- AC800M特點優(yōu)勢課件
- 腦出血完整分
- 電氣工程及其自動化的發(fā)展趨勢
- 人教版 七年級下冊 歷史 期中測試(一)
- 目視檢測工藝規(guī)程
評論
0/150
提交評論