




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
5-3項目1—探究企鵝物種的分類模塊?物以類聚:發(fā)現新簇群目錄CONTENTS提出問題01預備知識03解決方案02任務1—樣本數據的預處理04任務3—繪制企鵝聚類后的散點圖06任務2—確定企鵝物種數量k的最佳值05一.提出問題問題描述由于全球氣候變暖和人類活動的影響,企鵝的生存狀況并不樂觀。因此,我們應該采取行動來保護這些迷人的生物,以確保它們能夠正常繁衍、繼續(xù)生存。為此,一項必要的工作就是研究如何區(qū)分企鵝的種類、哪些特征決定了它們的差異。一眼看企鵝都很相似,如何區(qū)分不用物種的企鵝呢?弄清這些問題就能更好地保護不同的企鵝,使它們成為人類永遠的朋友。二.解決方案1.選擇聚類法k均值算法解決問題基本思想:基于企鵝的一些形態(tài)特征(如嘴的大小、體重等)反映了企鵝的獨特之處和一些重要信息,然后用聚類算法K-Means對樣本進行聚類,最后得到各樣本的類別。聚類0類1類0類二.解決方案2.具體方案三.預備知識1.企鵝常識已知地球上現存的企鵝共有20余種,它們的頭部顏色、個體大小、體型等不盡相同。其中喙的長度、深度,鰭肢的長度和重量等特征對企鵝的生存影響較大。這些特征之間是否存在強相關關系,這樣的關系是否會對企鵝的分類造成影響?可以通過后期的數據分析找到該問題的答案。三.預備知識2.數據降維點X與點Y之間的歐氏距離等于各特征值之差的平方和的平方根什么是降維?為什么要降維?前文已經談到,在衡量采用什么方法來分析數據之前最好能對數據的全貌有一個可視化的了解,能從中發(fā)現一些內在規(guī)律或啟示,以便更好地指導人們選擇相對合理的方法來解決問題。通常只在二維或三維的空間可視化數據,但原始數據的實際維度可能是四維甚至更高維度。采用數據降維的方法將原始數據的維度降為二維或三維,以便進行可視化處理,從而直觀了解數據的分布。除此之外,數據降維還有提高計算速度、提高模型擬合度等好處。三.預備知識2.數據降維點X與點Y之間的歐氏距離等于各特征值之差的平方和的平方根【引例5-1】分析企鵝數據集中可能存在的強相關特征,選取合適的特征集,采用PCA對企鵝數據集penguins進行降維,并繪制降維后的數據散點圖。(1)繪制出熱力圖,了解各特征之間的相關度。三.預備知識2.數據降維點X與點Y之間的歐氏距離等于各特征值之差的平方和的平方根【引例5-1】分析企鵝數據集中可能存在的強相關特征,選取合適的特征集,采用PCA對企鵝數據集penguins進行降維,并繪制降維后的數據散點圖。(1)繪制出熱力圖,了解各特征之間的相關度。運行結果三.預備知識2.數據降維(2)繪制散點圖,觀察數據樣本在三維空間中的分布情況。運行結果三.預備知識2.數據降維(2)繪制散點圖,觀察數據樣本在三維空間中的分布情況。運行結果企鵝是否劃分為4個物種比較合適三.預備知識3.認識k均值聚類點X與點Y之間的歐氏距離等于各特征值之差的平方和的平方根四.任務1——樣本數據的預處理1.查看數據的異常情況(1)觀察數據空值情況數據集空值分布統(tǒng)計:四.任務1——樣本數據的預處理1.查看數據的異常情況(2)異常值的統(tǒng)計四.任務1——樣本數據的預處理2.對數據進行預處理對數據進行空值刪除、異常值剔除和數據的標準化處理四.任務2——確定企鵝物種數量k的最佳值1.導入相關的第三方庫及模塊要對企鵝樣本數據進行聚類,在讀取樣本數據的基礎上,除進行聚類操作外,還要計算輪廓系數和慣性值,所以要通過以下代碼導入相關的第三方庫及模塊。四.任務2——構建及訓練KNN模型2.繪制k值與輪廓系數、慣性值的變化關系圖四.任務2——構建及訓練KNN模型2.繪制k值與輪廓系數、慣性值的變化關系圖代碼的運行結果四.任務3——繪制企鵝聚類后的散點圖1.按k=4對企鵝樣本數據進行聚類(1)算法訓練(2)觀察標簽值及質心四.任務3——繪制企鵝聚類后的散點圖1.按k=4對企鵝樣本數據進行聚類(1)算法訓練(2)觀察標簽值及質心四組質心四.任務3——繪制企鵝聚類后的散點圖2.繪制聚類后樣本的散點圖(1)實現代碼:四.任務3——繪制企鵝聚類后的散點圖2.繪制聚類后樣本的散點圖運行結果四.任務3——繪制企鵝聚類后的散點圖2.繪制
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 福州2025年福建福州市中醫(yī)院招聘9人筆試歷年參考題庫附帶答案詳解
- 2020年四級人力資源管理師考試《理論知識》真題及解析匯編
- 高級安保服務協議書(2篇)
- 三年級英語下冊-U6 課件 Unit 6Phonics
- 2025年關于小班體育標準教案
- 影像學對感染病的早期發(fā)現與處理
- 2025年環(huán)境影響評價工程師考試真題匯編(環(huán)境影響評價案例分析解析)
- 2025年征信考試題庫:征信行業(yè)發(fā)展趨勢與信用風險管理實踐案例研究方法試題
- 2025年危險化學品安全生產培訓教材試題庫
- 2025年成人高考《語文》邏輯思維訓練題庫及解析
- 水上拋石專項方案
- 你進步-我高興
- 勞務派遣具體服務方案
- 數據生命周期管理詳述
- 物理化學(下)智慧樹知到課后章節(jié)答案2023年下陜西師范大學
- ISO27001信息安全管理體系-信息安全管理手冊
- 班組標準化建設手冊(模板)
- 羽毛球英語版介紹PPT
- 受處分處罰情況登記表
- 農藥經營許可培訓考試題庫以及答案
- 預焊接工藝規(guī)程pWPS新編
評論
0/150
提交評論