數(shù)據(jù)分析的特征選擇實例分析_第1頁
數(shù)據(jù)分析的特征選擇實例分析_第2頁
數(shù)據(jù)分析的特征選擇實例分析_第3頁
數(shù)據(jù)分析的特征選擇實例分析_第4頁
數(shù)據(jù)分析的特征選擇實例分析_第5頁
已閱讀5頁,還剩10頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)分析的特征選擇實例分析 1.數(shù)據(jù)挖掘與聚類分析概述數(shù)據(jù)挖掘一般由以下幾個步驟:(l)分析問題:源數(shù)據(jù)數(shù)據(jù)庫必須經(jīng)過評估確認(rèn)其是否符合數(shù)據(jù)挖掘標(biāo)準(zhǔn)。以決定預(yù)期結(jié)果,也就選擇了這項工作的最優(yōu)算法。(2)提取、清洗和校驗數(shù)據(jù):提取的數(shù)據(jù)放在一個結(jié)構(gòu)上與數(shù)據(jù)模型兼容的數(shù)據(jù)庫中。以統(tǒng)一的格式清洗那些不一致、不兼容的數(shù)據(jù)。一旦提取和清理數(shù)據(jù)后,瀏覽所創(chuàng)建的模型,以確保所有的數(shù)據(jù)都已經(jīng)存在并且完整。(3)創(chuàng)建和調(diào)試模型:將算法應(yīng)用于模型后產(chǎn)生一個結(jié)構(gòu)。瀏覽所產(chǎn)生的結(jié)構(gòu)中數(shù)據(jù),確認(rèn)它對于源數(shù)據(jù)中“事實”的準(zhǔn)確代表性,這是很重要的一點。雖然可能無法對每一個細節(jié)做到這一點,但是通過查看生成的模型,就可能發(fā)現(xiàn)重

2、要的特征。(4)查詢數(shù)據(jù)挖掘模型的數(shù)據(jù):一旦建立模型,該數(shù)據(jù)就可用于決策支持了。(5)維護數(shù)據(jù)挖掘模型:數(shù)據(jù)模型建立好后,初始數(shù)據(jù)的特征,如有效性,可能發(fā)生改變。一些信息的改變會對精度產(chǎn)生很大的影響,因為它的變化影響作為基礎(chǔ)的原始模型的性質(zhì)。因而,維護數(shù)據(jù)挖掘模型是非常重要的環(huán)節(jié)。聚類分析是數(shù)據(jù)挖掘采用的核心技術(shù),成為該研究領(lǐng)域中一個非?;钴S的研究課題。聚類分析基于”物以類聚”的樸素思想,根據(jù)事物的特征,對其進行聚類或分類。作為數(shù)據(jù)挖掘的一個重要研究方向,聚類分析越來越得到人們的關(guān)注。聚類的輸入是一組沒有類別標(biāo)注的數(shù)據(jù),事先可以知道這些數(shù)據(jù)聚成幾簇爪也可以不知道聚成幾簇。通過分析這些數(shù)據(jù),根據(jù)

3、一定的聚類準(zhǔn)則,合理劃分記錄集合,從而使相似的記錄被劃分到同一個簇中,不相似的數(shù)據(jù)劃分到不同的簇中。2.特征選擇與聚類分析算法Relief為一系列算法,它包括最早提出的Relief以及后來拓展的Relief和ReliefF,其中ReliefF算法是針對目標(biāo)屬性為連續(xù)值的回歸問題提出的,下面僅介紹一下針對分類問題的Relief和ReliefF算法。2.1Relief算法Relief算法最早由Kira提出,最初局限于兩類數(shù)據(jù)的分類問題。Relief算法是一種特征權(quán)重算法(Feature weighting algorithms),根據(jù)各個特征和類別的相關(guān)性賦予特征不同的權(quán)重,權(quán)重小于某個閾值的特征

4、將被移除。Relief算法中特征和類別的相關(guān)性是基于特征對近距離樣本的區(qū)分能力。算法從訓(xùn)練集D中隨機選擇一個樣本R,然后從和R同類的樣本中尋找最近鄰樣本H,稱為Near Hit,從和R不同類的樣本中尋找最近鄰樣本M,稱為NearMiss,然后根據(jù)以下規(guī)則更新每個特征的權(quán)重:如果R和Near Hit在某個特征上的距離小于R和Near Miss上的距離,則說明該特征對區(qū)分同類和不同類的最近鄰是有益的,則增加該特征的權(quán)重;反之,如果R和Near Hit在某個特征的距離大于R和Near Miss上的距離,說明該特征對區(qū)分同類和不同類的最近鄰起負(fù)面作用,則降低該特征的權(quán)重。以上過程重復(fù)m次,最后得到各特

5、征的平均權(quán)重。特征的權(quán)重越大,表示該特征的分類能力越強,反之,表示該特征分類能力越弱。Relief算法的運行時間隨著樣本的抽樣次數(shù)m和原始特征個數(shù)N的增加線性增加,因而運行效率非常高。具體算法如下所示:2.2 ReliefF算法由于Relief算法比較簡單,運行效率高,并且結(jié)果也比較令人滿意,因此得到廣泛應(yīng)用,但是其局限性在于只能處理兩類別數(shù)據(jù),因此1994年Kononeill對其進行了擴展,得到了ReliefF作算法,可以處理多類別問題。該算法用于處理目標(biāo)屬性為連續(xù)值的回歸問題。ReliefF算法在處理多類問題時,每次從訓(xùn)練樣本集中隨機取出一個樣本R,然后從和R同類的樣本集中找出R的k個近鄰

6、樣本(near Hits),從每個R的不同類的樣本集中均找出k個近鄰樣本(near Misses),然后更新每個特征的權(quán)重,如下式所示:Relief系列算法運行效率高,對數(shù)據(jù)類型沒有限制,屬于一種特征權(quán)重算法,算法會賦予所有和類別相關(guān)性高的特征較高的權(quán)重,所以算法的局限性在于不能有效的去除冗余特征。Matlab實現(xiàn)源碼:1.ReliefF特征提取算法Matlab主程序 1 %主函數(shù) 2 clear;clc; 3 load(matlab.mat) 4 D=data(:,2:size(data,2);% 5 m =80 ;%抽樣次數(shù) 6 k = 8; 7 N=20;%運行次數(shù) 8 for i =1

7、:N 9 W(i,:) = ReliefF (D,m,k) ;10 end11 for i = 1:N %將每次計算的權(quán)重進行繪圖,繪圖N次,看整體效果12 plot(1:size(W,2),W(i,:);13 hold on ;14 end15 for i = 1:size(W,2) %計算N次中,每個屬性的平均值16 result(1,i) = sum(W(:,i)/size(W,1) ;17 end18 xlabel(屬性編號);19 ylabel(特征權(quán)重);20 title(ReliefF算法計算乳腺癌數(shù)據(jù)的特征權(quán)重);21 axis(1 10 0 0.3)22 %- 繪制每一種的屬

8、性變化趨勢23 xlabel(計算次數(shù));24 ylabel(特征權(quán)重);25 name =char(塊厚度,細胞大小均勻性,細胞形態(tài)均勻性,邊緣粘附力,單上皮細胞尺寸,裸核,Bland染色質(zhì),正常核仁,核分裂);26 name=cellstr(name);27 28 for i = 1:size(W,2)29 figure30 plot(1:size(W,1),W(:,i);31 xlabel(計算次數(shù)) ;32 ylabel(特征權(quán)重) ;33 title(char(name(i) (屬性 num2Str(i) )的特征權(quán)重變化);34 end2.ReliefF函數(shù)程序 1 %Relief

9、函數(shù)實現(xiàn) 2 %D為輸入的訓(xùn)練集合,輸入集合去掉身份信息項目;k為最近鄰樣本個數(shù) 3 function W = ReliefF (D,m,k) 4 Rows = size(D,1) ;%樣本個數(shù) 5 Cols = size(D,2) ;%特征熟練,不包括分類列 6 type2 = sum(D(:,Cols)=2)/Rows ; 7 type4 = sum(D(:,Cols)=4)/Rows ; 8 %先將數(shù)據(jù)集分為2類,可以加快計算速度 9 D1 = zeros(0,Cols) ;%第一類10 D2 = zeros(0,Cols) ;%第二類11 for i = 1:Rows12 if D(i

10、,Cols)=213 D1(size(D1,1)+1,:) = D(i,:) ;14 elseif D(i,Cols)=415 D2(size(D2,1)+1,:) = D(i,:) ;16 end17 end18 W =zeros(1,Cols-1) ;%初始化特征權(quán)重,置019 for i = 1 : m %進行m次循環(huán)選擇操作20 %從D中隨機選擇一個樣本R21 R,Dh,Dm = GetRandSamples(D,D1,D2,k) ;22 %更新特征權(quán)重值23 for j = 1:length(W) %每個特征累計一次,循環(huán)24 W(1,j)=W(1,j)-sum(Dh(:,j)/(k

11、*m)+sum(Dm(:,j)/(k*m) ;%按照公式更新權(quán)重25 end26 endReliefF輔助函數(shù),尋找最近的樣本數(shù)K 1 %獲取隨機R 以及找出鄰近樣本 2 %D:訓(xùn)練集;D1:類別1數(shù)據(jù)集;D2:類別2數(shù)據(jù)集; 3 %Dh:與R同類相鄰的樣本距離;Dm:與R不同類的相鄰樣本距離 4 function R,Dh,Dm = GetRandSamples(D,D1,D2,k) 5 %先產(chǎn)生一個隨機數(shù),確定選定的樣本R 6 r = ceil(1 + (size(D,1)-1)*rand) ; 7 R=D(r,:); %將第r行選中,賦值給R 8 d1 = zeros(1,0) ;%先置

12、0,d1是與R的距離,是不是同類在下面判斷 9 d2 = zeros(1,0) ;%先置0,d2是與R的距離10 %D1,D2是先傳入的參數(shù),在ReliefF函數(shù)中已經(jīng)分類好了11 for i =1:size(D1,1) %計算R與D1的距離12 d1(1,i) = Distance(R,D1(i,:) ;13 end14 for j = 1:size(D2,1)%計算R與D2的距離15 d2(1,j) = Distance(R,D2(j,:) ;16 end17 v1,L1 = sort(d1) ;%d1排序,18 v2,L2 = sort(d2) ;%d2排序19 if R(1,size(

13、R,2)=2 %如果R樣本=2,是良性20 H = D1(L1(1,2:k+1),:) ; %L1中是與R最近的距離的編號,賦值給H。 21 M = D2(L2(1,1:k),:) ; %v2(1,1:k) ;22 else23 H = D1(L1(1,1:k),:);24 M = D2(L2(1,2:k+1),:) ;25 end26 %循環(huán)計算每2個樣本特征之間的特征距離:(特征1-特征2)/(max-min)27 for i = 1:size(H,1)28 for j =1 :size(H,2)29 Dh(i,j) = abs(H(i,j)-R(1,j)/9 ; % 本文數(shù)據(jù)范圍都是1-

14、10,所以max-min=9為固定30 Dm(i,j) = abs(M(i,j)-R(1,j)/9 ; 31 end32 end2.3 K-means聚類算法由于聚類算法是給予數(shù)據(jù)自然上的相似劃法,要求得到的聚類是每個聚類內(nèi)部數(shù)據(jù)盡可能的相似而聚類之間要盡可能的大差異。所以定義一種尺度來衡量相似度就顯得非常重要了。一般來說,有兩種定義相似度的方法。第一種方法是定義數(shù)據(jù)之間的距離,描述的是數(shù)據(jù)的差異。第二種方法是直接定義數(shù)據(jù)之間的相似度。下面是幾種常見的定義距離的方法:1.Euclidean距離,這是一種傳統(tǒng)的距離概念,適合于2、3維空間。2.Minkowski距離,是Euclidean距離的擴

15、展,可以理解為N維空間的距離。聚類算法有很多種,在需要時可以根據(jù)所涉及的數(shù)據(jù)類型、聚類的目的以及具的應(yīng)用要求來選擇合適的聚類算法。下面介紹 K-means聚類算法:K-means算法是一種常用的基于劃分的聚類算法。K-means算法是以k為參數(shù),把n個對象分成k個簇,使簇內(nèi)具有較高的相似度,而簇間的相似度較低。K-means的處理過程為:首先隨機選擇k個對象作為初始的k個簇的質(zhì)心;然后將余對象根據(jù)其與各個簇的質(zhì)心的距離分配到最近的簇;最后重新計算各個簇的質(zhì)心。不斷重復(fù)此過程,直到目標(biāo)函數(shù)最小為止。簇的質(zhì)心由公式下列式子求得:在具體實現(xiàn)時,為了防止步驟2中的條件不成立而出現(xiàn)無限循環(huán),往往定義一個

16、最大迭代次數(shù)。K-means嘗試找出使平方誤差函數(shù)值最小的k個劃分。當(dāng)數(shù)據(jù)分布較均勻,且簇與簇之間區(qū)別明顯時,它的效果較好。面對大規(guī)模數(shù)據(jù)集,該算法是相對可擴展的,并且具有較高的效率。其中,n為數(shù)據(jù)集中對象的數(shù)目,k為期望得到的簇的數(shù)目,t為迭代的次數(shù)。通常情況下,算法會終止于局部最優(yōu)解。但用,例如涉及有非數(shù)值屬性的數(shù)據(jù)。其次,這種算法要求事先給出要生成的簇的數(shù)目k,顯然這對用戶提出了過高的要求,并且由于算法的初始聚類中心是隨機選擇的,而不同的初始中心對聚類結(jié)果有很大的影響。另外,K-means算法不適用于發(fā)現(xiàn)非凸面形狀的簇,或者大小差別很大的簇,而且它對于噪音和孤立點數(shù)據(jù)是敏感的。K-mea

17、ns算法主程序matlab實現(xiàn): 1 clc;clear; 2 load(matlab.mat)%加載測試數(shù)據(jù) 3 N0 =1 ; %從多少列開始的數(shù)據(jù)進行預(yù)測分類 4 N1 = size(data,1);%所有數(shù)據(jù)的行數(shù) 5 data=data(N0:N1,:);%只選取需要測試的數(shù)據(jù) 6 data1=data(:,2,3,4,5,6,7,8,9);% 2,4,7,9 2:size(data,2)-1 7 opts = statset(Display,final);%控制選項 8 idx,ctrs,result,D = kmeans(data1,2,. %data1為要分類的數(shù)據(jù),2為分類的

18、類別數(shù),本文只有2類 9 Distance,city,. %選擇的距離的計算方式 10 Options,opts); % 控制選項,參考matlab幫助11 t=data(:,size(data,2),idx(:,1);%把測試數(shù)據(jù)最后一列,也就是分類屬性 和 分類結(jié)果取出來:列 + 列12 d2 = data(idx=1,11);%提取原始數(shù)據(jù)中屬于第1類的數(shù)據(jù)的最后一列13 a = sum(d2=2) ;14 b=a/length(d2) ;15 totalSum = 0 ;%總的正確率16 rate1 = 0 ;%第一類的判斷正確率.分類類別中數(shù)據(jù)的正確性17 rate2 = 0 ;%第

19、二類的判斷正確率.18 if(b0.5) %說明第1類屬于良性,則a的值就是良性中判斷正確的個數(shù)19 totalSum = totalSum + a ;20 rate1 = a/length(d2) ;21 %然后加上惡性中判斷正確的比例22 totalSum = totalSum + sum(data(idx=2,11)=4) ;23 rate2 = sum(data(idx=2,11)=4)/length(data(idx=2,11) ;24 else %說明第1類屬于惡性25 totalSum = totalSum + sum(data(idx=1,11)=4) ;26 totalSum

20、 = totalSum + sum(data(idx=2,11)=2) ;27 rate1 = sum(data(idx=2,11)=2)/length(data(idx=2,11) ;28 rate2 = sum(data(idx=1,11)=4)/length(data(idx=1,11) ;29 end30 x1 =1;%第x1個屬性31 x2 =1 ;%第x2個屬性32 plot(1:sum(idx=1),data1(idx=1,x1),r.,MarkerSize,12);33 hold on ;34 plot(sum(idx=1)+1:sum(idx=1)+sum(idx=2),da

21、ta1(idx=2,x1),b.,MarkerSize,12);35 xlabel(記錄數(shù));36 ylabel(屬性值);37 title(屬性9的值分布);38 legend(第一類,第二類);39 axis(0 640 0 10)40 rate = totalSum/size(t,1) %總的判斷準(zhǔn)確率3.一個醫(yī)學(xué)數(shù)據(jù)分析實例3.1 數(shù)據(jù)說明本文實驗數(shù)據(jù)來自著名的UCI機器學(xué)習(xí)數(shù)據(jù)庫,該數(shù)據(jù)庫有大量的人工智能數(shù)據(jù)挖掘數(shù)據(jù),網(wǎng)址為:/ml/。該數(shù)據(jù)庫是不斷更新的,也接受數(shù)據(jù)的捐贈。數(shù)據(jù)庫種類涉及生活、工程、科學(xué)各個領(lǐng)域,記錄數(shù)也是從少到多,

22、最多達幾十萬條。截止2010年底,數(shù)據(jù)庫共有199個數(shù)據(jù)集,每個數(shù)據(jù)集合中有不同類型、時間的相關(guān)數(shù)據(jù)??梢愿鶕?jù)實際情況進行選用。本文選用的數(shù)據(jù)來類型為:Breast Cancer Wisconsin (Original) Data Set,中文名稱為:威斯康星州乳腺癌數(shù)據(jù)集。這些數(shù)據(jù)來源美國威斯康星大學(xué)醫(yī)院的臨床病例報告,每條數(shù)據(jù)具有11個屬性。下載下來的數(shù)據(jù)文件格式為“breast-cancer-wisconsin.data”,通過使用Excel和Matlab工具將其轉(zhuǎn)換為Matlab默認(rèn)的數(shù)據(jù)集保存,方便程序進行調(diào)用。下表是該數(shù)據(jù)集的11個屬性名稱及說明:對上述數(shù)據(jù)進行轉(zhuǎn)換后,以及數(shù)據(jù)說明

23、可知,可以用于特征提取的有9個指標(biāo),樣品編號和分類只是用于確定分類。本文的數(shù)據(jù)處理思路是先采用ReliefF特征提取算法計算各個屬性的權(quán)重,剔除相關(guān)性最小的屬性,然后采用K-means聚類算法對剩下的屬性進行聚類分析。3.2 數(shù)據(jù)預(yù)處理與程序本文在轉(zhuǎn)換數(shù)據(jù)后,首先進行了預(yù)處理,由于本文的數(shù)據(jù)范圍都是1-10,因此不需要歸一化,但是數(shù)據(jù)樣本中存在一些不完整,會影響實際的程序運行,經(jīng)過程序處理,將這一部分?jǐn)?shù)據(jù)刪除。這些不完整的數(shù)據(jù)都是由于實際中一些原因沒有登記或者遺失的,以“?”的形式代表。本文采用Matlab軟件進行編程計算。根據(jù)第三章提到的ReliefF算法過程,先編寫ReliefF函數(shù)程序,

24、用來計算特征屬性,再編寫主程序,在主程序中調(diào)用該函數(shù)進行計算,并對結(jié)果進行分析,繪圖,得到有用的結(jié)論。程序統(tǒng)一在最后貼出。3.3 乳腺癌數(shù)據(jù)集特征提取本文采用3.1節(jié)中的ReliefF算法來計算各個特征的權(quán)重,權(quán)重小于某個閾值的特征將被移除,針對本文的實際情況,將對權(quán)重最小的2-3種剔除。由于算法在運行過程中,會選擇隨機樣本R,隨機數(shù)的不同將導(dǎo)致結(jié)果權(quán)重有一定的出入,因此本文采取平均的方法,將主程序運行20次,然后將結(jié)果匯總求出每種權(quán)重的平均值。如下所示,列為屬性編號,行為每一次的計算結(jié)果:下面是特征提取算法計算的特征權(quán)重趨勢圖,計算20次的結(jié)果趨勢相同:上述結(jié)果是否運行主程序所得的計算結(jié)果,

25、看起來不直觀,下面將其按照順序繪圖,可以直觀顯示各個屬性權(quán)重的大小分布,如下圖所示:按照從小到大順序排列,可知,各個屬性的權(quán)重關(guān)系如下:屬性9屬性5屬性7屬性4屬性2屬性3屬性8屬性1屬性6我們選定權(quán)重閥值為0.02,則屬性9、屬性4和屬性5剔除。從上面的特征權(quán)重可以看出,屬性6裸核大小是最主要的影響因素,說明乳腺癌患者的癥狀最先表現(xiàn)了裸核大小上,將直接導(dǎo)致裸核大小的變化,其次是屬性1和屬性8等,后幾個屬性權(quán)重大小接近,但是從多次計算規(guī)律來看,還是能夠說明其中不同的重要程度,下面是著重對幾個重要的屬性進行分析。下面是20次測試中,裸核大小(屬性6)的權(quán)重變化:從上圖中可以看到該屬性權(quán)重大部分在

26、0.22-0.26左右,是權(quán)重最大的一個屬性。下面看看屬性1的權(quán)重分布:塊厚度屬性的特征權(quán)重在0.19-25左右變動,也是權(quán)重極高的一個,說明該特征屬性在乳腺癌患者檢測指標(biāo)中是相當(dāng)重要的一個判斷依據(jù)。進一步分析顯示,在單獨對屬性6,和屬性1進行聚類分析,其成功率就可以達到91.8%。本文將在下節(jié)中的Kmeans算法中詳細介紹。3.4 乳腺癌數(shù)據(jù)集聚類分析上一節(jié)中通過ReliefF算法對數(shù)據(jù)集的分析,可以得到屬性權(quán)重的重要程度,這些可以對臨床診斷有一些參考價值,可以用來對實際案例進行分析,可以盡量的避免錯誤診斷,并提高診斷的速度和正確率。下面將通過K-menas聚類分析算法對數(shù)據(jù)進行分析。本小節(jié)

27、將分為幾個步驟來進行對比,確定聚類分析算法的結(jié)果以及與ReliefF算法結(jié)合的結(jié)果等。3.5.K-means算法單獨分析數(shù)據(jù)集下面將采用Kmeans算法單獨對數(shù)據(jù)集進行分析。Matlab中已經(jīng)包括了一些常規(guī)數(shù)據(jù)挖掘的算法,例如本文所用到的K-means算法。該函數(shù)名為kmeans,可以對數(shù)據(jù)集進行聚類分析。首先本文對乳腺癌數(shù)據(jù)集的所有屬性列(除去身份信息和分類列)直接進行分類,由于數(shù)據(jù)集結(jié)果只有2種類型,所以首先進行分2類的測試,結(jié)果如下:總體將683條數(shù)據(jù)分成了2類,總體的正確率為94.44%,其中第一類的正確率為93.56%,第二類的正確率為96.31%。下面是分類后對按照不同屬性的繪制的

28、屬性值分布圖:限于篇幅,只選擇了上述3個特征屬性進行圖像繪制,從結(jié)果來看, 可以很直觀的觀察到K-means算法分類后的情況,第一類與第一類的分類界限比較清晰。但是不容易觀察到正確和錯誤的情況。下表是分類結(jié)果中各個屬性的聚類中心:從K-means算法的效果來看,能夠很準(zhǔn)確的將數(shù)據(jù)集進行分類。一方面是由于該數(shù)據(jù)集,可能是該案例特征比較明顯,另一方面是由于K-menas算法對這種2類的作用較大。3.6.K-means結(jié)合ReliefF分析數(shù)據(jù)集單從分類正確率和結(jié)果方面來看,K-mens算法已經(jīng)完全可以對乳腺癌數(shù)據(jù)集做出非常準(zhǔn)確的判斷。但是考慮ReliefF算法對屬性權(quán)重的影響,本小節(jié)將結(jié)合Reli

29、efF算法和K-means算法來對該數(shù)據(jù)集進行分析,一方面得到處理該問題一些簡單的結(jié)論,另外一方面可以得到一些對醫(yī)學(xué)處理數(shù)據(jù)的方法研究方法。首先,本小節(jié)首先根據(jù)3.2節(jié)中的一些結(jié)論,根據(jù)不同屬性的權(quán)重來對k-menas分類數(shù)據(jù)進行預(yù)處理,以得到更精確的結(jié)論和對該數(shù)據(jù)更深度的特征規(guī)律。從3.2節(jié)中,得知屬性9屬性5屬性7屬性4屬性2屬性3屬性8屬性1屬性6,根據(jù)ReliefF算法原理本文可以認(rèn)為,對于這種屬性6和屬性1重要的特征屬性,應(yīng)該對分類起到更加到的作用。所以下面將單獨對各個屬性的數(shù)據(jù)進行分類測試,詳細結(jié)果如下表:總的分類正確率中,屬性9最低,屬性6最高,這與ReliefF算法測試的結(jié)果大

30、致相似,但是由于ReliefFar算法中間部分權(quán)重接近,所以也區(qū)分不明顯。說明特征屬性權(quán)重的判斷對分類是有影響的。上述單獨分類中,只將需要分類的列數(shù)據(jù)取出來,輸入到K-means算法中即可。由于輸入數(shù)據(jù)的變化,K-means分類時結(jié)果肯定是有差距的,所以單獨從一個屬性判斷其類型是不可靠的。下面選擇了單個分類時最高和最低的情況,繪制其分類屬性值分布圖,如下圖所示:下面將對特征權(quán)重按照從大到小的順序,選擇相應(yīng)的數(shù)據(jù),進行聚類分析,結(jié)論如下:1.直接選擇全部9種屬性,分類成功率為:94.44%;2.選擇屬性6,屬性1,分類成功率為:91.36%;3.選擇屬性6,1,8,3,分類成功率為:93.85%;4.選擇屬性6,1,8,3,2,4,分類成功率為:94.48%;5.選擇屬性6,1,8,3,2,4,5,7,分類成功率為:95.02%;從上面的測試可以看出,選擇特征權(quán)重最大的6個屬性,其正確

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論