版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、Python金融數(shù)據(jù)挖掘 高等教育出版第十一章K近鄰分類與K均值聚類算法Python金融數(shù)據(jù)挖掘 高等教育出版第十一章K近鄰分類【知識框架圖】K點分類聚類算法K近鄰分類算法應(yīng)用場景算法流程與實現(xiàn)K均值聚類算法應(yīng)用場景算法流程與實現(xiàn)【知識框架圖】K點分類聚類算法K近鄰分類算法應(yīng)用場景算法流程目錄Contents第一節(jié)K近鄰分類原理與實現(xiàn)第二節(jié)K均值聚類原理與實現(xiàn)第三節(jié)案例目錄Contents第一節(jié)K近鄰分類原理與實現(xiàn)第二節(jié)K均值聚本章學(xué)習(xí)目標(biāo)掌握K近鄰分類算法研究的對象、意義、應(yīng)用場景、算法原理及其實現(xiàn)。掌握K均值聚類算法研究的對象、意義、應(yīng)用場景、算法原理及其實現(xiàn)。本章學(xué)習(xí)目標(biāo)掌握K近鄰分類算
2、法研究的對象、意義、應(yīng)用場景、算需求背景K近鄰(KNN,K Nearest Neighbors)算法屬于分類算法。樣本數(shù)據(jù)集中除了數(shù)據(jù)點的坐標(biāo),每個點還有一個分類標(biāo)簽。如果現(xiàn)在新出現(xiàn)了一個待分類的數(shù)據(jù)點A,KNN算法是根據(jù)與A相鄰的K個樣本點分類歸屬情況,來決定A應(yīng)該歸屬到哪一類。前面章節(jié)介紹過的決策樹算法、貝葉斯算法和K近鄰算法都屬于分類算法。K均值(K-Means)算法屬于聚類算法。樣本數(shù)據(jù)集中只有數(shù)據(jù)點的坐標(biāo),并沒有其分類標(biāo)簽。但是這些點并不是均勻分布在整個坐標(biāo)空間中,而是相對密集地聚集在幾個較小的范圍內(nèi)。聚類算法的目標(biāo)是發(fā)現(xiàn)這些聚集的范圍,將所有那些沒有分類標(biāo)簽的點,劃分到某個聚集范圍
3、內(nèi)。聚類算法和分類算法的區(qū)別在于:聚類算法是無監(jiān)督的,樣本數(shù)據(jù)可以沒有貼標(biāo)簽;而分類算法是有監(jiān)督的,樣本數(shù)據(jù)需要有類別標(biāo)簽。通俗理解,分類算法是貼標(biāo)簽,而聚類算法是找朋友(物以類聚,人以群分)。需求背景K近鄰(KNN,K Nearest Neighbor01K近鄰分類原理與實現(xiàn)01K近鄰分類原理與實現(xiàn)K近鄰分類算法的邏輯非常直觀:待分類的這個數(shù)據(jù)點歸屬到哪一類,由它的K個近鄰樣本點的分類情況決定。每個樣本數(shù)據(jù)點都有若干個屬性,例如一個手機(jī)網(wǎng)銀用戶的信息構(gòu)成這樣一個屬性集合:年齡,學(xué)歷,收入,。通過某種規(guī)則,將這些屬性值轉(zhuǎn)換成坐標(biāo)值,即將用戶轉(zhuǎn)換成n維空間中的一個點。為了簡單起見,后文闡述以二維
4、空間的點為例。如圖 11-2所示,待分類的數(shù)據(jù)點為A,圖中用圓表示;其他的數(shù)據(jù)分類結(jié)果是已知的(所謂有監(jiān)督的學(xué)習(xí),表示監(jiān)督者已經(jīng)分好類,打好標(biāo)簽了),被分為1和2兩類,分別用三角形和矩形表示。K近鄰分類算法的邏輯非常直觀:待分類的這個數(shù)據(jù)點歸屬到哪一類Python金融數(shù)據(jù)挖掘-課件第11章圖 11-2 K近鄰算法示意圖:A點的分類結(jié)果可以簡單地選擇K近鄰中相對多數(shù)的分類標(biāo)簽,例如,圖 11-2中A的3個近鄰中有2個分類結(jié)果為2,占據(jù)多數(shù),因此A的分類結(jié)果為2。也可以相對復(fù)雜地按照距離遠(yuǎn)近進(jìn)行權(quán)重投票,圖 11 2中分類標(biāo)簽為1的近鄰雖然只有1個,但是它離A最近,如果權(quán)重比例足夠大,也有可能影響
5、到A的最終分類結(jié)果。圖 11-2 K近鄰算法示意圖:K近鄰分類算法的流程圖:K近鄰分類算法的流程圖:【例 11-1】下面代碼首先新建了兩個數(shù)據(jù)點testX和testY,再分別調(diào)用kNNClassify函數(shù)計算其分類歸屬。K近鄰算法有比較直觀的解釋(特別是在低維空間中),其歐氏距離的計算量也相對比較小,是一個應(yīng)用很廣的基礎(chǔ)分類算法?!纠?11-1】定義一個用于計算歐氏距離的函數(shù)euclDistance,使用numpy中的函數(shù)計算由列表形式存儲的兩個向量的歐式距離。定義一個用于計算歐氏距離的函數(shù)euclDistance,使用創(chuàng)建一個數(shù)據(jù)集,包含2個類別共8個樣本:創(chuàng)建一個數(shù)據(jù)集,包含2個類別共8個
6、樣本:KNN分類算法函數(shù)實現(xiàn):定義一個kNNClassify函數(shù)。根據(jù)dataSet和labels的輸入,選擇待分類點newInput的k個近鄰,決定其分類歸屬。KNN分類算法函數(shù)實現(xiàn):生成數(shù)據(jù)集和類別標(biāo)簽:生成數(shù)據(jù)集和類別標(biāo)簽:02K均值聚類原理與實現(xiàn)02K均值聚類原理與實現(xiàn)聚類算法不需要事先對樣本點的類別歸屬進(jìn)行判定和標(biāo)識,而是能夠挖掘出現(xiàn)有樣本點的分布聚集規(guī)律,對樣本點自動進(jìn)行歸屬劃分。聚類算法被廣泛應(yīng)用于客戶群體劃分、熱點區(qū)域發(fā)現(xiàn)等業(yè)務(wù)場景。例如:某證券公司一共有N個客戶,每個客戶的資金量、交易頻次等數(shù)據(jù)構(gòu)成一個樣本點?,F(xiàn)在希望能設(shè)計出一套手續(xù)費費率優(yōu)惠方案,既能夠較好地體現(xiàn)大客戶優(yōu)惠
7、,又可以保證本公司的總體收入。這時候就可以對這N個樣本點進(jìn)行聚類分析,找出客戶支付手續(xù)費的不同聚集群體,有針對性地設(shè)計費率方案。又如:某銀行要開展理財產(chǎn)品現(xiàn)場促銷活動,需要選擇熱點商圈(即客戶分布較密集的區(qū)域)來提升活動的潛在客戶數(shù)量。這時候就要對手機(jī)網(wǎng)銀APP所提供的位置信息進(jìn)行聚類,找出活動時間段內(nèi)潛在客戶的熱點活動區(qū)域,從而讓盡可能多的客戶了解促銷的信息。聚類算法不需要事先對樣本點的類別歸屬進(jìn)行判定和標(biāo)識,而是能夠假設(shè)現(xiàn)在采集到二維坐標(biāo)空間中的由80個坐標(biāo)點構(gòu)成的數(shù)據(jù)集(可以理解成是一個APP采集到的80個客戶的某時點位置坐標(biāo)),如表 11-1所示,將數(shù)據(jù)保存在Python工作目錄下,命
8、名為“testSet.txt”。:XYXYXYXY1.6589854.2851362.3364452.8751062.0967013.8860072.894222.489128-3.4536873.424321-1.7863452.554248-2.709032.923887-2.562542.8844384.838138-1.1515392.190101-1.906023.367037-3.184793.491078-3.94749-3.195883-2.283926-3.837877-3.253815-3.17118-3.57245-4.90557-2.91107表 111 80個點坐標(biāo)數(shù)
9、據(jù)假設(shè)現(xiàn)在采集到二維坐標(biāo)空間中的由80個坐標(biāo)點構(gòu)成的數(shù)據(jù)集(可應(yīng)用聚類算法前,通常需要根據(jù)數(shù)據(jù)集的分布情況確定一個合理的聚類數(shù)K,因此,事先探查數(shù)據(jù)集的空間分布情況有利于提高聚類的效果。在眾多的數(shù)據(jù)可視化工具中,Excel便是一個非常有效的探查樣本數(shù)據(jù)(樣本數(shù)據(jù)量太大時,可以先隨機(jī)抽取出少量樣本)空間分布特征的工具。針對表 11-1中的數(shù)據(jù)集,我們可以借助Excel來繪制散點圖,如圖 11-4所示。根據(jù)Excel散點圖展示的數(shù)據(jù)分布情況可以發(fā)現(xiàn),其主要聚集在四個區(qū)域:圖 11-4 80個點坐標(biāo)圖應(yīng)用聚類算法前,通常需要根據(jù)數(shù)據(jù)集的分布情況確定一個合理的聚K均值算法思想有直觀的幾何意義:將樣本點
10、聚集(歸屬)到距離它最近的那個聚類中心。找出數(shù)據(jù)集中的K個聚類中心是算法的目標(biāo)(簡單起見,這里使用歐式距離來度量樣本間的相似度)。K均值算法思想有直觀的幾何意義:將樣本點聚集(歸屬)到距離它K均值聚類算法流程圖:K均值聚類算法流程圖:【例 11-2】Python實現(xiàn):initCentroids函數(shù)根據(jù)當(dāng)前樣本數(shù)據(jù)集和指定的k,隨機(jī)生成k個中心點,用于聚類?!纠?11-2】Python實現(xiàn):initCentroidsK均值聚類:K均值聚類: 2維平面顯示聚類結(jié)果: 2維平面顯示聚類結(jié)果:調(diào)用以上函數(shù),對讀入數(shù)據(jù)進(jìn)行聚類:原始數(shù)據(jù)分布調(diào)用以上函數(shù),對讀入數(shù)據(jù)進(jìn)行聚類:原始數(shù)據(jù)分布輸出結(jié)果:根據(jù)聚類
11、結(jié)果用不同的樣式顯示不同聚類的數(shù)據(jù)點,并且突出顯示了算法求出的k=4個聚類中心點。K均值聚類結(jié)果輸出結(jié)果:K均值聚類結(jié)果03案例03案例銀行客戶群體劃分案例某銀行要根據(jù)客戶資料制定新的促銷方案,客戶資料信息如表 11 2所示。使用本章介紹的兩個聚類算法,對客戶進(jìn)行聚類分析,從而確定促銷的客戶群體劃分方案??蛻粜畔⑷缦拢篒D性別年齡年收入(萬元)消費評分(1-100)1Male1915392Male2115813Female201664Female2316775Female3117406Female2217767Female351868Female2318949Male64193Male3013
12、783銀行客戶群體劃分案例ID性別年齡年收入(萬元)消費評分(1-導(dǎo)入數(shù)據(jù):首先讀入數(shù)據(jù)文件,觀察數(shù)據(jù)結(jié)構(gòu)。為了便于后續(xù)數(shù)據(jù)規(guī)格化,將ID和性別列舍去,僅剩下年齡、年收入、消費評分三個屬性。導(dǎo)入數(shù)據(jù):為了能夠以合適的尺度在坐標(biāo)軸上展示數(shù)據(jù),調(diào)用了sklearn包 preprocessing中的scale函數(shù),將所有的數(shù)據(jù)值進(jìn)行規(guī)格化。Sklearn包將在后續(xù)章節(jié)中專門介紹。為了能夠以合適的尺度在坐標(biāo)軸上展示數(shù)據(jù),調(diào)用了sklearn繪制3維圖:第5行直接使用了sklearn.decomposition提供的pca.fit_transform函數(shù),將3維降低到2維。pca.fit_transfo
13、rm函數(shù)使用了PCA方法對數(shù)據(jù)集進(jìn)行降維操作,PCA(Principal Component Analysis,主成分分析方法)是一種將原來的高維特征映射到低維空間的數(shù)學(xué)方法,既能降低數(shù)據(jù)維度,又能盡可能地保留高維信息。繪制3維圖:第5行直接使用了sklearn.decompos數(shù)據(jù)降為2維,繪制2維圖:數(shù)據(jù)降為2維,繪制2維圖:K均值聚類K均值聚類將case_clusterAssment中的聚類結(jié)果寫回原始DataFrame將case_clusterAssment中的聚類結(jié)果寫回原始輸出結(jié)果:輸出結(jié)果:結(jié)論:將聚類得到的case_clusterAssment聚類結(jié)果寫回到原數(shù)據(jù)DataFra
14、me中,然后分別按照聚類結(jié)果對年齡、年收入、消費評分進(jìn)行均值統(tǒng)計??梢园l(fā)現(xiàn),不同聚類的客戶,在這三個屬性的平均值上都存在顯著的差異。例如,聚類結(jié)果為1的客戶,平均年齡45,平均收入82最高(年富力強(qiáng)階段,收入較高),平均消費評分24最低(社會階層穩(wěn)定,違約風(fēng)險最低)。聚類結(jié)果和我們按照社會生活經(jīng)驗判定的結(jié)果吻合地比較好。結(jié)論:本章小結(jié)本章介紹了K近鄰分類和K均值算法的基本概念和原理,學(xué)會了用Python代碼實現(xiàn)K近鄰分類和K均值算法。本章小結(jié)本章介紹了K近鄰分類和K均值算法的基本概念和原理,學(xué)重要概念1. 分類與聚類2. K近鄰分類3. K均值算法 重要概念1. 分類與聚類復(fù)習(xí)思考題1. 給出
15、一個數(shù)據(jù)集data_multivar.txt,里面有200個點坐標(biāo),在平面坐標(biāo)系下可以畫出它的散點圖,如圖 11-8所示:圖 118 數(shù)據(jù)集data_multivar.txt散點圖用K均值算法來訓(xùn)練模型,將該數(shù)據(jù)集的200個點分成4類,請運行Python代碼ch13-ex.ipynb。注意:運行之前,首先將給出的數(shù)據(jù)集data_multivar.txt和utilities.py拷貝到相應(yīng)的文件夾中。讀者可以在程序中設(shè)置k值為2,3,5等,運行代碼進(jìn)行比較。復(fù)習(xí)思考題1. 給出一個數(shù)據(jù)集data_multivar.t復(fù)習(xí)思考題2. 選取中華人民共和國第六次人口普查的各地區(qū)人口數(shù)以及男女比例進(jìn)行K
16、-means聚類分析,具體的數(shù)據(jù)如表 113。地區(qū)人口數(shù)男女比例(女=100)地區(qū)人口數(shù)男女比例(女=100)北京19612368106.75山東95792719102.33天津12938693114.52河南94029939102.05河北71854210102.84湖北57237727105.55山西35712101105.56湖南65700762105.8內(nèi)蒙古24706291108.17廣東104320459108.98遼寧43746323102.54廣西46023761108.26吉林27452815102.67海南8671485112.58黑龍江38313991102.85重慶28846170102.61上海23019196106.19四川80417528103
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 洗手護(hù)士保持手部清潔
- 2025-2030全球游戲QA和測試服務(wù)行業(yè)調(diào)研及趨勢分析報告
- 2025年全球及中國三維木質(zhì)墻板行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025年全球及中國電儲水熱水器行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025-2030全球加厚防爆高壓鍋行業(yè)調(diào)研及趨勢分析報告
- 2025年全球及中國鋁箔膠囊行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025年全球及中國工作站用橋式起重機(jī)行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025-2030全球法務(wù)技術(shù)服務(wù)行業(yè)調(diào)研及趨勢分析報告
- 2025合同模板房地產(chǎn)收購合同昆山某國際廣場整體購買協(xié)議
- 借款合同擔(dān)保書范本
- 青海省海北藏族自治州(2024年-2025年小學(xué)六年級語文)統(tǒng)編版隨堂測試(上學(xué)期)試卷及答案
- 外研版(三起)小學(xué)英語三年級下冊Unit 1 Animal friends Get ready start up 課件
- 江蘇省無錫市2023-2024學(xué)年高三上學(xué)期期終教學(xué)質(zhì)量調(diào)研測試語文試題(解析版)
- 銅礦隱蔽致災(zāi)普查治理工作計劃
- 《民航安全檢查(安檢技能實操)》課件-第一章 民航安全檢查員職業(yè)道德
- 學(xué)校食品安全教育學(xué)習(xí)活動食品安全講座課件
- DB34T4826-2024畜禽養(yǎng)殖業(yè)污染防治技術(shù)規(guī)范
- 腰麻課件教學(xué)課件
- 石油化工企業(yè)環(huán)境保護(hù)管理制度預(yù)案
- 2024年甘肅省高考?xì)v史試卷(含答案解析)
- 2024年山東省煙臺市初中學(xué)業(yè)水平考試地理試卷含答案
評論
0/150
提交評論