版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
機(jī)器學(xué)習(xí):基于Knn算法的用戶屬性判斷方案設(shè)計knn算法簡介K最近鄰(k-NearestNeighbor,KNN)分類算法,是一個理論上比較成熟的方法,也是最簡單的機(jī)器學(xué)習(xí)算法之一。knn的基本思路是:如果一個樣本在特征空間中的k個最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別。如下圖所示,如何判斷綠色圓應(yīng)該屬于哪一類,是屬于紅色三角形還是屬于藍(lán)色四方形?如果K=3,由于紅色三角形所占比例為2/3,綠色圓將被判定為屬于紅色三角形那個類如果K=5,由于藍(lán)色四方形比例為3/5,因此綠色圓將被判定為屬于藍(lán)色四方形類。由于KNN最鄰近分類算法在分類決策時只依據(jù)最鄰近的一個或者幾個樣本的類別來決定待分類樣本所屬的類別,而不是靠判別類域的方法來確定所屬類別的,因此對于類域的交叉或重疊較多的待分樣本集來說,KNN方法較其他方法更為適合。因此,k值的選擇、距離度量以及分類決策規(guī)則是k近鄰算法的三個基本要素。真實(shí)業(yè)務(wù)場景某公司存在有一些數(shù)據(jù)樣本(500*5矩陣),是關(guān)于人群屬性的一些特征,希望通過已知數(shù)據(jù)的特征,推測出部分目標(biāo)數(shù)據(jù)的性質(zhì),假如特征向量包含:平均每日游戲時長-gametime異性朋友數(shù)-femalefriends周末在家時長-stay-intime用戶接受類型-attr(attr是目標(biāo)判斷屬性,同時也是標(biāo)記屬性)問題:我們需要根據(jù)已知的這些屬性,判斷最后一個樣本的屬性是“Y”還是“N”數(shù)據(jù)特征分析我們所拿到的這批數(shù)據(jù)是500*5的矩陣,以平均每日游戲時長,異性朋友數(shù),周末在家時長為軸,將不同屬性的點(diǎn)用不同顏色區(qū)分,利用matplotlib繪制散點(diǎn)圖,最終效果如圖。由于這些測試數(shù)據(jù)在空間的分布非常集中,所以對于需要驗證的點(diǎn)(紅,綠兩點(diǎn)),我們很容易區(qū)分出這些點(diǎn)的屬性
結(jié)合本次的業(yè)務(wù)場景,我們將通過前三種特征的空間分布,對attr屬性進(jìn)行預(yù)測具體算法在三維空間中,我們可以直觀判斷,那在具體的算法實(shí)現(xiàn)中,可以考慮使用n維空間的歐氏距離:通過以上公式,我們能對多維度數(shù)據(jù)進(jìn)行分析,得到目標(biāo)與各點(diǎn)的距離。同時,細(xì)心的讀者肯定考慮到,我們已知的這些特征,存在量級之間的差異,所以我們通常需要通過歸一化特征值,對消除不同量級造成的影響。因此,我們選用0-1標(biāo)準(zhǔn)化(0-1normalization)對原始數(shù)據(jù)的線性變換。0-1標(biāo)準(zhǔn)化:在通過以上兩步對數(shù)據(jù)預(yù)處理完成后,我們將所得的距離進(jìn)行排序,并選取合適的K值對目標(biāo)數(shù)據(jù)進(jìn)行預(yù)測。在此選擇k=10(僅舉例),可以發(fā)現(xiàn),前10項中Y出現(xiàn)的次數(shù)最多,因此我們可以認(rèn)為目標(biāo)數(shù)據(jù)的值為Y。knn算法總結(jié)在數(shù)據(jù)分析團(tuán)隊確定好數(shù)據(jù)特征后,對相應(yīng)數(shù)據(jù)進(jìn)行收集及清洗,對各數(shù)據(jù)特征進(jìn)行歸一化處理(視具體業(yè)務(wù)場景定,或需特征考慮權(quán)重),完成以上流程后,進(jìn)行以下通用流程:計算測試數(shù)據(jù)與各個訓(xùn)練數(shù)據(jù)之間的距離;按照距離的遞增關(guān)系進(jìn)行排序;選取距離最小的K個點(diǎn);確定前K個點(diǎn)所在類別的出現(xiàn)頻率;返回前K個點(diǎn)中出現(xiàn)頻率最高的類別作為測試數(shù)據(jù)的預(yù)測分類。最后,我們簡單總結(jié)一下Knn的適用場景數(shù)據(jù)已存在標(biāo)記特征,Knn是監(jiān)督算法樣本數(shù)在100k以下,由于算法會對每個目標(biāo)值進(jìn)行多維度距離計算,所以樣本過大可能超負(fù)荷樣本非文本,或可轉(zhuǎn)化為數(shù)值以
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版生態(tài)物流綠色包裝合同3篇
- 二零二五年度環(huán)保產(chǎn)品商標(biāo)使用許可協(xié)議范本3篇
- 科創(chuàng)孵化器項目建設(shè)方案
- 音樂舞蹈培訓(xùn)委托合同三篇
- 二零二五年度個人挖機(jī)租賃合同解除條件合同4篇
- 二零二五年度個人與個人房產(chǎn)購置借款協(xié)議2篇
- 2025版高端車庫租賃及個性化定制服務(wù)合同范本3篇
- 二零二五年度智能家居裝修設(shè)計與施工一體化協(xié)議書2篇
- 酒店餐飲美工的工作總結(jié)
- 二零二五年度個人電動車轉(zhuǎn)讓與充電設(shè)施安裝合同3篇
- 2025年公司副總經(jīng)理述職報告范文
- 冬季道岔除雪作業(yè)
- 湖北省荊州市八縣市2023-2024學(xué)年高一上學(xué)期期末聯(lián)考數(shù)學(xué)試題 含解析
- 中小學(xué)校食品安全與膳食經(jīng)費(fèi)管理工作指引
- 電商平臺客服人員績效考核手冊
- 2024分布式光伏組件檢測標(biāo)準(zhǔn)
- 2024至2030年中國酒糟行業(yè)市場發(fā)展現(xiàn)狀及潛力分析研究報告
- 獅子王影視鑒賞
- 一年級數(shù)學(xué)加減法口算題每日一練(25套打印版)
- 2024年甘肅省武威市、嘉峪關(guān)市、臨夏州中考英語真題
評論
0/150
提交評論