《數(shù)據(jù)挖掘》課程大作業(yè)_第1頁
《數(shù)據(jù)挖掘》課程大作業(yè)_第2頁
《數(shù)據(jù)挖掘》課程大作業(yè)_第3頁
《數(shù)據(jù)挖掘》課程大作業(yè)_第4頁
免費預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、大良及上大寫網(wǎng)絡(luò)教育學(xué)院數(shù)據(jù)挖掘課程大作業(yè)題 目:姓 名:報名編號: 學(xué)習(xí)中心:層 次: 專升本專 業(yè):計算機科學(xué)與技術(shù)第一大題:講述自己在完成大作業(yè)過程中遇到的困難, 解決問題的思 路,以及相關(guān)感想,或者對這個項目的認(rèn)識,或者對 Python與數(shù)據(jù) 挖掘的認(rèn)識等等,300-500字。數(shù)據(jù)挖掘是一門重要的專業(yè)課。數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關(guān)注, 其主 要原因是存在大量數(shù)據(jù),可以廣泛使用,并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的 信息和知識。數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中,抽取出潛在的、有價值的知識、模 型或規(guī)則的過程。作為一類深層次的數(shù)據(jù)分析方法,它利用了數(shù)據(jù)庫、人工智能 和數(shù)理統(tǒng)計等多方面的技術(shù)。

2、要將龐大的數(shù)據(jù)轉(zhuǎn)換成為有用的信息, 必須先有效率地收集信息。隨著科技 的進(jìn)步,功能完善的數(shù)據(jù)庫系統(tǒng)就成了最好的收集數(shù)據(jù)的工具。數(shù)據(jù)倉庫,簡單地說,就是搜集來自其它系統(tǒng)的有用數(shù)據(jù), 存放在一整合的儲存區(qū)內(nèi)。所以其實 就是一個經(jīng)過處理整合,且容量特別大的關(guān)系型數(shù)據(jù)庫,用以儲存決策支持系統(tǒng) 所需的數(shù)據(jù),供決策支持或數(shù)據(jù)分析使用。數(shù)據(jù)挖掘的研究領(lǐng)域非常廣泛、主要包括數(shù)據(jù)庫系統(tǒng)、基于知識的系統(tǒng)、人 工智能、機器學(xué)習(xí)、知識獲取、統(tǒng)計學(xué)、空間數(shù)據(jù)庫和數(shù)據(jù)可視化等領(lǐng)域。主要 是可以做以下幾件事:分類、估計、預(yù)測、關(guān)聯(lián)分析、聚類分析、描述和可視化、 復(fù)雜數(shù)據(jù)類型挖掘第二大題:完成下面一項大作業(yè)題目2019秋數(shù)據(jù)

3、挖掘課程大作業(yè)題目一:Knn算法原理以及python實現(xiàn)要 求:文檔用使用word撰寫即可。主要內(nèi)容必須包括:(1)算法介紹。(2)算法流程。(3) python實現(xiàn)算法以及預(yù)測。(4)整個word文件名為姓名 奧鵬卡號 學(xué)習(xí)中心(如 戴衛(wèi)東101410013979浙江臺州奧鵬學(xué)習(xí)中心1VIP )答:一、knn算法介紹1 .介紹鄰近算法,或者說K最近鄰(kNN, k-NearestNeighbor)分類算法是數(shù)據(jù)挖掘 分類技術(shù)中最簡單的方法之一。所謂K最近鄰,就是k個最近的鄰居的意思,說 的是每個樣本都可以用它最接近的 k個鄰居來代表。kNN算法的核心思想是如果 一個樣本在特征空間中的k個最相

4、鄰的樣本中的大多數(shù)屬于某一個類別, 則該樣 本也屬于這個類別,并具有這個類別上樣本的特性。該方法在確定分類決策上只 依據(jù)最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。kNN方法在類別決策時,只與極少量的相鄰樣本有關(guān)。由于kNN方法主要靠周圍有限的鄰 近的樣本,而不是靠判別類域的方法來確定所屬類別的,因此對于類域的交叉或重疊較多的待分樣本集來說,kNN方法較其他方法更為適合。2 .核心概括主要的思想是計算待分類樣本與訓(xùn)練樣本之間的差異性,并將差異按照由小 到大排序,選出前面K個差異最小的類別,并統(tǒng)計在K個中類別出現(xiàn)次數(shù)最多的 類別為最相似的類,最終將待分類樣本分到最相似的訓(xùn)練樣本的類中

5、。與投票 (Vote)的機制類似。二、knn算法流程1 .準(zhǔn)備數(shù)據(jù),對數(shù)據(jù)進(jìn)行預(yù)處理2 .選用合適的數(shù)據(jù)結(jié)構(gòu)存儲訓(xùn)練數(shù)據(jù)和測試元組3 .設(shè)定參數(shù),如k4 .維護(hù)一個大小為k的的按距離由大到小的優(yōu)先級隊列,用于存儲最近鄰訓(xùn) 練元組。隨機從訓(xùn)練元組中選取k個元組作為初始的最近鄰元組,分別計算測試 元組到這k個元組的距離,將訓(xùn)練元組標(biāo)號和距離存入優(yōu)先級隊列5 .遍歷訓(xùn)練元組集,計算當(dāng)前訓(xùn)練元組與測試元組的距離,將所得距離 L 與優(yōu)先級隊列中的最大距離Lmax6 .進(jìn)行比較。若L>=Lmax則舍棄該元組,遍歷下一個元組。若 L < Lmax, 刪除優(yōu)先級隊列中最大距離的元組,將當(dāng)前訓(xùn)練元組

6、存入優(yōu)先級隊列。7 .遍歷完畢,計算優(yōu)先級隊列中k個元組的多數(shù)類,并將其作為測試元組 的類別。8 .測試元組集測試完畢后計算誤差率,繼續(xù)設(shè)定不同的k值重新進(jìn)行訓(xùn)練, 最后取誤差率最小的k值。三、代碼實現(xiàn)使用python程序模擬KNN#法Created on Sat Jun 22 18:38:22 2019author: zhenimport numpy as npimport collections as csdatanp.array( 203,1,126,1,89,1,70,1,196,2,211,2,221,2,311,3,271,3)特征feature = data:,0 # print

7、(feature)label = data:,-1 #結(jié)果分類print(label)predictPoint = 200 #預(yù)測數(shù)據(jù)print(" 預(yù)測輸入特征為: " + str(predictPoint)distance = list(map(lambda x : abs(predictPoint - x), feature) # 各 點到預(yù)測點的距離print(distance)sortIndex = np.argsort(distance) # 排序,返回排序后各數(shù)據(jù)的原始下標(biāo)print(sortIndex)sortLabel = labelsortIndex #

8、 根據(jù)下標(biāo)重新進(jìn)行排序print(sortLabel)# k = 3 # 設(shè)置k值大小為3for k in range(1,label.size+1):result = cs.Counter(sortLabel0:k).most_common(1)00 #根據(jù) k值計算前 k 個數(shù)據(jù)中出現(xiàn)次數(shù)最多的分類,即為預(yù)測的分類print(" 當(dāng) k=" + str(k) + " 時預(yù)測分類為: " + str(result)四、結(jié)果203 126 89 70 196 211 221 311 2711 1 1 1 2 2 2 3 3預(yù)測輸入特征為: 2003, 74, 111, 130, 4, 11, 21, 111, 710 4 5 6 8 1 2 7 31 2 2 2 3 1 1 3 1當(dāng) k=1 時預(yù)測分類為:1當(dāng) k=2 時預(yù)測分類為:1當(dāng) k=3 時預(yù)測分類為:2當(dāng) k=4 時預(yù)測分類為:2當(dāng) k=5 時預(yù)測分類為:2當(dāng) k=6 時預(yù)測分類為:2當(dāng) k=7 時預(yù)測分類為:1當(dāng) k=8 時預(yù)測分類為:1當(dāng) k=9 時預(yù)測分類為:1總結(jié)1. 根據(jù)訓(xùn)練數(shù)據(jù)和結(jié)果可知,當(dāng)k較小時【比如本次當(dāng)k=11 ,若訓(xùn)練數(shù)據(jù) 存在異常數(shù)據(jù)時容易出現(xiàn)預(yù)測錯誤的情況,因此一般K值都不能太小!2. 當(dāng) k 值較大時,某個分

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論