【聚類(lèi)探析算法綜述小論文5500字】_第1頁(yè)
【聚類(lèi)探析算法綜述小論文5500字】_第2頁(yè)
【聚類(lèi)探析算法綜述小論文5500字】_第3頁(yè)
【聚類(lèi)探析算法綜述小論文5500字】_第4頁(yè)
【聚類(lèi)探析算法綜述小論文5500字】_第5頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

聚類(lèi)分析算法綜述小論文目錄TOC\o"1-2"\h\u14052聚類(lèi)分析算法綜述小論文 130323前言 112384一、聚類(lèi)分析算法發(fā)展歷程 110934(一)產(chǎn)生 119854(二)發(fā)展 220715(三)改進(jìn) 224282二、聚類(lèi)分析算法的種類(lèi) 36632(一)基于網(wǎng)格的方法 329529(二)基于層次的方法 423463(三)基于劃分的方法 418314(四)基于密度的方法 419817三、聚類(lèi)分析算法的應(yīng)用于影響 530565(一)應(yīng)用 515900(二)影響因素 530119參考文獻(xiàn) 6前言數(shù)據(jù)挖掘面臨著大量數(shù)據(jù),最重要的工作就是對(duì)數(shù)據(jù)集做出合理分類(lèi)。在數(shù)據(jù)挖掘中,聚類(lèi)分析被當(dāng)作一項(xiàng)十分有用的技術(shù)來(lái)使用,能使用資料的特性,對(duì)分類(lèi)對(duì)象按照一定規(guī)則合理分組。聚類(lèi)分析屬于非監(jiān)督學(xué)習(xí)算法,當(dāng)未給劃分類(lèi)別時(shí),基于數(shù)據(jù)相似度的樣本分組。當(dāng)前聚類(lèi)分析已在多個(gè)領(lǐng)域得到了廣泛應(yīng)用,商務(wù)領(lǐng)域中,聚類(lèi)算法依據(jù)購(gòu)買(mǎi)記錄劃分不同客戶(hù)群,對(duì)市場(chǎng)分析師識(shí)別不同客戶(hù)群體給予技術(shù)支持;就生物學(xué)而言,聚類(lèi)算法可以得到不同群體各自的內(nèi)在結(jié)構(gòu),進(jìn)一步劃分了動(dòng)物與植物的類(lèi)別;聚類(lèi)還可以在Web中整理和歸類(lèi)文檔,便于用戶(hù)進(jìn)行信息檢索。在天文學(xué)之上,聚類(lèi)分析可用作研宄天體有關(guān)知識(shí)的一門(mén)技術(shù);就機(jī)器學(xué)習(xí)而言,聚類(lèi)分析經(jīng)常被用于機(jī)器學(xué)習(xí)。一、聚類(lèi)分析算法發(fā)展歷程(一)產(chǎn)生信息時(shí)代的來(lái)臨,使得海量數(shù)據(jù)呈現(xiàn)爆發(fā)式增長(zhǎng),如何在大量的數(shù)據(jù)中挖掘出有用的信息,就成了首要的課題,數(shù)據(jù)挖掘的概念就這樣產(chǎn)生了。數(shù)據(jù)挖掘技術(shù)采用了準(zhǔn)確,可靠的方法,在大量數(shù)據(jù)中發(fā)現(xiàn)新知識(shí),為科學(xué)決策掌握方向,做為數(shù)據(jù)挖掘常用的數(shù)據(jù)處理方法,聚類(lèi)分析算法用于入侵檢測(cè)受到學(xué)者們的關(guān)注。聚類(lèi)屬于無(wú)監(jiān)督的學(xué)習(xí)方法,核心思想就是根據(jù)一定的相似度尺度,把無(wú)標(biāo)記數(shù)據(jù)劃分為不同的類(lèi)別,使類(lèi)內(nèi)對(duì)象的相似度更高,類(lèi)間對(duì)象相似度不高。(二)發(fā)展2012年,Yang等[1]提出了基于高斯混合模型的改進(jìn)聚類(lèi)算法,這種方法是直接以系統(tǒng)初始模型中有關(guān)參量為總原始樣本,同時(shí),將分量混合系數(shù)添加到信息熵懲罰因子,盡管這種方法不需要任意選擇初值,但是實(shí)驗(yàn)結(jié)果表明,該算法的聚類(lèi)準(zhǔn)確率較低,運(yùn)行時(shí)間也稍長(zhǎng)。Saravia等[2]采用分裂合并馬爾可夫鏈蒙特卡洛方法來(lái)確定聚類(lèi)個(gè)數(shù),盡管該方法能夠得到準(zhǔn)確的聚類(lèi)數(shù),但是實(shí)現(xiàn)的過(guò)程相對(duì)比較復(fù)雜。崔瑋等[3]把GMM算法應(yīng)用于無(wú)線傳感器網(wǎng)絡(luò)中室內(nèi)節(jié)點(diǎn)的定位問(wèn)題,利用粒子群算法優(yōu)化最大期望(ExpectationMaximization,EM)算法,同時(shí),結(jié)合優(yōu)選殘差加權(quán)算法估計(jì)距離值的位置,盡管此方法對(duì)節(jié)點(diǎn)定位有一定適用性,但是提出的GMM算法初始化階段使用了K-means算法,有一定的隨機(jī)性,所得聚類(lèi)效果不是很好。王垚等[4]將逆模擬退火算法與半監(jiān)督高斯混合模型中的EM算法結(jié)合起來(lái),與傳統(tǒng)的基于高斯混合模型的EM算法進(jìn)行了比較,它收斂速度很快,準(zhǔn)確率很高,但是對(duì)大規(guī)模數(shù)據(jù)集處理能力弱。Bar-Yosef在文獻(xiàn)[5]中根據(jù)最大互信息準(zhǔn)則和變量最大互信息準(zhǔn)則閉合表達(dá)式估計(jì)參數(shù),最后,利用兩種有效的算法對(duì)變量互信息最大準(zhǔn)則進(jìn)行優(yōu)化,其中之一是最陡下降型算法,另一類(lèi)是線性的搜索函數(shù)。Li等[6]用自適應(yīng)層次聚類(lèi)方法來(lái)確定GMM算法的初值,相對(duì)于經(jīng)典的GMM算法,它具有很強(qiáng)的聚類(lèi)能力,但是伴隨著數(shù)據(jù)量的不斷增加,該方法的尋優(yōu)迭代次數(shù)將隨之大大增加。在使用高斯混合模型進(jìn)行聚類(lèi)的時(shí)候,如果樣本是不完整的數(shù)據(jù),一般用EM算法來(lái)解決極大似然值問(wèn)題,但EM算法的收斂速度較慢,系統(tǒng)模型在計(jì)算時(shí),對(duì)于初始值比較敏感,因而容易陷入局部最優(yōu)。通過(guò)大量有關(guān)研究課題的文獻(xiàn)資料進(jìn)行分析和歸納,在一些文獻(xiàn)中,EM算法中的各種估算問(wèn)題,如混合模型,已被分析和研究過(guò),并且取得了一定的效果。Liu在文獻(xiàn)[7]中應(yīng)用GMM算法進(jìn)行基因聚類(lèi),針對(duì)EM算法的初始化,通過(guò)增刪EM算法初值,以類(lèi)數(shù)為已知參數(shù),利用準(zhǔn)赤池信息準(zhǔn)則,改進(jìn)算法對(duì)基因聚類(lèi)取得了一定成效。Li[8]通過(guò)KNN(K-NearestNeighbor)算法刪除異常值,再使用K-means初始化EM算法,但是聚類(lèi)個(gè)數(shù)是不定的,且設(shè)置流程復(fù)雜。(三)改進(jìn)K-means算法是一種簡(jiǎn)便,有效的聚類(lèi)算法,國(guó)內(nèi)外學(xué)者對(duì)此作過(guò)不少的改進(jìn)。為了解決傳統(tǒng)K-means算法對(duì)于初始中心較為敏感這一問(wèn)題,Duwairi在文獻(xiàn)[9]中提出了一種新算法,利用初始化球形思想,對(duì)K-means算法進(jìn)行了優(yōu)化,在初始化階段,此方法對(duì)未知解進(jìn)行隨機(jī)擾動(dòng),并且針對(duì)集群緊湊性,介紹了一種新型的評(píng)價(jià)度量方法,這種度量方法度量了矢量與聚類(lèi)中心相對(duì)應(yīng)的方向離散度,以及基于離散度的最終聚類(lèi)結(jié)果的判定。Zhang等用加權(quán)方法迭代尋優(yōu)[10],介紹了一種基于Karush-Kuhn-Tucker條件的全局變量最優(yōu)變權(quán)的求取算法,并給出了該算法的具體實(shí)現(xiàn)步驟,獲取聚類(lèi)數(shù)學(xué)表達(dá)式,導(dǎo)出了最優(yōu)變權(quán)構(gòu)造,并用遞歸算法算出最優(yōu)權(quán)值。黃曉輝等[11]最大化子空間中簇中心到其他簇對(duì)象之間的距離,以及融合簇類(lèi)與簇間距離的聚類(lèi)方法,在此基礎(chǔ)上,設(shè)計(jì)了目標(biāo)函數(shù),對(duì)所述目標(biāo)函數(shù)進(jìn)行迭代求解,獲得算法參數(shù)更新迭代公式。針對(duì)上述改進(jìn)后的方法的不足,許多學(xué)者采用群智能算法對(duì)K-means的初始聚類(lèi)中心進(jìn)行優(yōu)化。Hu等[12]將差分進(jìn)化算法中的差分向量代替果蠅算法的隨機(jī)搜索,并用于優(yōu)化K-means算法。Niu和其他學(xué)者[13]結(jié)合了粒子群算法和K-means的思想,通過(guò)試驗(yàn)比較分析了5種已有粒子群算法。于佐軍等[14]提出了一種改進(jìn)的人工蜂群算法,引入算術(shù)交叉操作,并采用最優(yōu)解引導(dǎo)搜索方向,提高了算法的收斂速度,結(jié)合K-means,對(duì)改進(jìn)算法進(jìn)行了研究,并且增加了自動(dòng)求取最佳聚類(lèi)數(shù)功能。在聚類(lèi)分析算法飛速發(fā)展的今天,國(guó)內(nèi)外的許多學(xué)者都考慮把它用于入侵檢測(cè),且收到良好效果,但是仍存在檢測(cè)精度不高的問(wèn)題、誤報(bào)率高的局限性。為此,深入研究并改進(jìn)了聚類(lèi)算法,使得對(duì)入侵的檢測(cè)更具針對(duì)性、適用范圍均有待研究者進(jìn)一步探討。二、聚類(lèi)分析算法的種類(lèi)聚類(lèi)分析被用作無(wú)監(jiān)督分類(lèi)方法,在數(shù)據(jù)分析,機(jī)器學(xué)習(xí)等領(lǐng)域得到廣泛應(yīng)用,聚類(lèi)分析可粗略劃分為:以劃分為依據(jù)、以層次為主線、以網(wǎng)格為單位,以密度為單位等等。(一)基于網(wǎng)格的方法基于網(wǎng)格,首先對(duì)數(shù)據(jù)對(duì)象數(shù)據(jù)空間進(jìn)行網(wǎng)格劃分,得到有限個(gè)網(wǎng)格,再將數(shù)據(jù)對(duì)象映射至對(duì)應(yīng)網(wǎng)格,然后對(duì)各網(wǎng)格數(shù)據(jù)信息進(jìn)行測(cè)量,例如,網(wǎng)格中每個(gè)數(shù)據(jù)對(duì)象之間的距離均值、最大值與標(biāo)準(zhǔn)差,數(shù)據(jù)對(duì)象在網(wǎng)格上的數(shù)量等等,最后,基于網(wǎng)格數(shù)據(jù)信息,直接進(jìn)行網(wǎng)格合并。由于網(wǎng)格的數(shù)據(jù)信息代表了整個(gè)網(wǎng)格的數(shù)據(jù),因此,算法速度與數(shù)據(jù)對(duì)象數(shù)量沒(méi)有太大關(guān)系,僅和網(wǎng)格個(gè)數(shù)有關(guān)。比較經(jīng)典的算法有STING[15],CLIQUE[16],但是聚類(lèi)結(jié)果卻受到網(wǎng)格劃分很大影響。(二)基于層次的方法以層次為主線,可按層次分解策略分凝聚與分裂兩種,凝聚采取自底向上戰(zhàn)略,以各數(shù)據(jù)對(duì)象為簇,依據(jù)相似性,把相似度最高的2個(gè)簇融合為1個(gè)大簇,直到所有的數(shù)據(jù)對(duì)象都?xì)w并為簇而分裂反之。相似度度量方式可以劃分為:?jiǎn)芜B接、全連接與平均連接等。較為經(jīng)典的層次聚類(lèi)分析算法包括:CURE[17],ROCK[18],BIRCH[19]等。存在兩大不足,聚類(lèi)個(gè)數(shù)很難確定,凝聚或分裂的過(guò)程也是無(wú)法還原的。為此,有學(xué)者根據(jù)CURE和ROCK提出了改進(jìn)層次聚類(lèi)分析算法CHAMELEON[20],算法利用k-近鄰圖把數(shù)據(jù)集分割為若干小簇,再利用小簇之間的互連性與相似性判斷是否歸并為大簇。(三)基于劃分的方法K-means[21]是一種較為經(jīng)典的以劃分為基礎(chǔ)進(jìn)行聚類(lèi)分析的算法,首先,隨意選擇k個(gè)數(shù)據(jù)對(duì)象為初始聚類(lèi)中心,其他數(shù)據(jù)對(duì)象被劃分到最近的聚類(lèi)中心,形成聚類(lèi);再計(jì)算各簇質(zhì)心,并以此為聚類(lèi)中心進(jìn)行下一次迭代,直到到達(dá)最大迭代次數(shù)或算法收斂為止。這種算法簡(jiǎn)單明了,便于理解,但是對(duì)噪聲比較敏感,與此同時(shí),聚類(lèi)個(gè)數(shù)需預(yù)先設(shè)定。以克服上述兩方面的不足,有學(xué)者[22]提出了K-medoids,PAM,CLARA和CLARANS[23]算法等改進(jìn)算法。然而,以距離為基礎(chǔ)的算法還將有很大的不足,無(wú)法確定非球形簇的存在。(四)基于密度的方法很多算法使用距離度量數(shù)據(jù)間相似度,這將使得該算法具有僅對(duì)球形簇有效的限制。所以基于密度聚類(lèi)分析算法已經(jīng)成為一個(gè)研究熱點(diǎn)。目前,密度度量通常采用兩種方法,一類(lèi)是ε-鄰域內(nèi)的鄰居數(shù)(簡(jiǎn)稱(chēng)ε-鄰域密度),如DBSCAN,DPC[24]等能有效地對(duì)非球形簇進(jìn)行鑒別,已被人們廣泛應(yīng)用。另一密度為k-近鄰平均距離高斯核密度(簡(jiǎn)稱(chēng)k-近鄰密度)如GDPC、CDPC、DPC-DLP。以密度為基礎(chǔ),可以辨識(shí)出任何形狀簇,但是這類(lèi)算法面臨著相同的難題:1)對(duì)于密度層次相差很大的數(shù)據(jù)集,易將密度較低的簇作為邊界點(diǎn)或噪聲點(diǎn),造成聚類(lèi)個(gè)數(shù)無(wú)法正確確定;2)針對(duì)存在重疊簇?cái)?shù)據(jù)集,不可能把這兩簇隔開(kāi)。三、聚類(lèi)分析算法的應(yīng)用于影響(一)應(yīng)用聚類(lèi)分析是數(shù)據(jù)挖掘中常用的工具,能解決不少實(shí)際問(wèn)題。聚類(lèi)分析使用頻率最高的就是劃分聚類(lèi),理由是十它簡(jiǎn)單易懂。以簇內(nèi)數(shù)據(jù)點(diǎn)各個(gè)屬性眾數(shù)為基準(zhǔn),傳統(tǒng)k-modes聚類(lèi)算法將其聚類(lèi),在分類(lèi)數(shù)據(jù)的聚類(lèi)中,它是使用最為廣泛的一種,日益受到各界學(xué)者們的高度重視,并得到空前發(fā)展。分類(lèi)數(shù)據(jù)與數(shù)值數(shù)據(jù)不同,缺少幾何特性,不能用普通的距離度量方式計(jì)算,k-modes聚類(lèi)分析算法中采用的簡(jiǎn)單匹配度量方式,為求解分類(lèi)數(shù)據(jù)之間距離的度量提供了一種新思路,但這種方法并不能完全反映數(shù)據(jù)集分布特點(diǎn),把一切屬性都看成是平等的,屬性間差異性被忽視,造成分類(lèi)數(shù)據(jù)之間差異性度量不精準(zhǔn)。針對(duì)這一問(wèn)題,許多學(xué)者都發(fā)表過(guò)各種看法,它的典型結(jié)果是:He等[25],Ng等[26]利用類(lèi)內(nèi)各種屬性值的出現(xiàn)頻率,給出了計(jì)算類(lèi)內(nèi)屬性間距離的新公式,根據(jù)兩屬性值共現(xiàn)概率的思想,Cao等[27]與Ahmad等[28]對(duì)k-mode進(jìn)行了研究:對(duì)算法中距離函數(shù)作了改進(jìn),但他們都沒(méi)有考慮各屬性間的差異性:Hsu[29]等采用概念層次的方法,計(jì)算屬性值間距離,但是這種方法對(duì)專(zhuān)家經(jīng)驗(yàn)的要求較高;賈彬[30]等用信息墑作為屬性加權(quán),以解決屬性間的差別,但這種方法在定義屬性權(quán)重的時(shí)候,僅考慮特定屬性的分配情況,未考慮相關(guān)屬性在權(quán)重中所起的作用:白亮[31]等人用粗集中上、在下近似中,我們提出一個(gè)新的相似性度量,提高聚類(lèi)效果,反而增加了計(jì)算復(fù)雜度;黃苑華[32]等根據(jù)相互依存冗余理論,提出了一個(gè)新的距離公式,利用內(nèi)部距離與外部距離聯(lián)合度量?jī)蓪?duì)象屬性值的距離,當(dāng)計(jì)算外部距離,僅從相關(guān)屬性的角度對(duì)屬性值在整個(gè)數(shù)據(jù)集上的分布情況進(jìn)行描述,造成差異性度量的不準(zhǔn),這些算法并不能精確地利用屬性空間內(nèi)數(shù)據(jù)之間的相互關(guān)系,從而損失了數(shù)據(jù)之間的相似關(guān)系。為解決傳統(tǒng)k-modes算法存在的模,賈彬[33]提出了多屬性值modes的相異度度量,每項(xiàng)屬性保留了所有屬性的值及其發(fā)生的頻率,但是這也使數(shù)據(jù)對(duì)象到modes距離的計(jì)算復(fù)雜化了。(二)影響因素k-modes算法性能受初始聚類(lèi)中心影響較大,隨機(jī)選取初始聚類(lèi)中心,往往會(huì)造成算法無(wú)法重復(fù),而不能規(guī)避集群結(jié)構(gòu)的不正確性風(fēng)險(xiǎn)。所以合適的初始聚類(lèi)中心點(diǎn)選擇是非常關(guān)鍵。Sun[34]等人提出了一種基于迭代初始點(diǎn)框架的初始聚類(lèi)方法,但是算法中的參數(shù)是要預(yù)先設(shè)定好的;Barbra[35]等用最人化墑?wù)页鰇種最不一樣的物體作初始中心點(diǎn),但是,這種方法僅考慮了數(shù)據(jù)對(duì)象間的間距,未考慮異常值;Wu[36]等提出了一種基于密度的k-modes聚類(lèi)的初始化算法;Khan[37]等采用基于密度的多尺度數(shù)據(jù)凝聚方法來(lái)選擇k模式聚類(lèi)的初始中心;Cao[38]等提出了一種結(jié)合距離測(cè)度和密度測(cè)度的初始聚類(lèi)算法。該算法以數(shù)據(jù)對(duì)象屬性值出現(xiàn)的頻度定義數(shù)據(jù)對(duì)象密度;Bai[39]等人提出了一種全局k-modes算法,算法中隨機(jī)選擇比簇?cái)?shù)k大得多的若干基尼初始中心,再采用迭代優(yōu)化方法去除冗余中心:Jiang[40]等提出了兩種k模式的初始化方法。當(dāng)初始集群中心被選定后,第一種方法是根據(jù)距離來(lái)檢測(cè)異常值,二是在分區(qū)墑基礎(chǔ)上采用離群值計(jì)算方法;Peng等[41]根據(jù)屬性權(quán)值測(cè)量數(shù)據(jù)對(duì)象之間的距離,再結(jié)合距離與密度度量選擇聚類(lèi)中心。若聚類(lèi)僅根據(jù)數(shù)據(jù)對(duì)象間的距離或者密度進(jìn)行,然后聚類(lèi)繞中心或者異常值轉(zhuǎn)動(dòng)。參考文獻(xiàn)YangMS,LaiCY.ArobustEMclusteringalgorithmforgaussianmixturemodels[J].PatternRecognition,2012,45(11):3950-3961.SaraviaEF,LouzadaF,MilanL.Mixturemodelswithanunknownnumberofcomponentsviaanewposteriorsplit-mergeMCMCalgorithm[J].AppliedMathematicsandComputation,2014,244(2):959-975.崔瑋,吳成東,張?jiān)浦?等.基于高斯混合模型的非視距定位算法[J].通信學(xué)報(bào),2014,35(1):99-106.王垚,柴變芳,李文斌,等.一種基于逆模擬退火和高斯混合模型的半監(jiān)督聚類(lèi)算法[J].南京師大學(xué)報(bào)(自然科學(xué)版),2017,40(3):67-73.Bar-YosefY,BistritzY.Gaussianmixturemodelsreductionbyvariationalmaximummutualinformation[J].IEEETransactionsonSignalProcessing,2015,63(6):1557-1569.LiJ,NehoraiA.Gaussianmixturelearningviaadaptivehierarchicalclustering[J].SignalProcessing,2018,150(1):116-121.LiuZ,SongYQ,XieCH,etal.ClusteringgeneexpressiondataanalysisusinganimprovedEMalgorithmbasedonmultivariateellipticalcontouredmixturemodels[J].Optik-InternationalJournalforLightandElectronOptics,2014,125(21):6388-6394.LiY,ChenYY.ResearchoninitializationonEMalgorithmbasedongaussianmixturemodel[J].JournalofAppliedMathematicsandPhysics,2018,6(1):11-17.DuwairiR,Abu-RahmehM.AnovelapproachforinitializingthesphericalK-meansclusteringalgorithm[J].SimulationModelingPracticeandTheory,2015,54(5):49-63.ZhangS,LiS,HuJ,etal.AniterativealgorithmforoptimalvariableweightinginK-meansclustering[J].CommunicationinStatistics-SimulationandComputation,2018,48(5):1-20.黃曉輝,王成,熊李艷,等.一種集成簇類(lèi)和簇間距離的加權(quán)k-means聚類(lèi)方法[J].計(jì)算機(jī)學(xué)報(bào),2018:42(59):1-15.HuJ,WangC,LiuC,etal.ImprovedK-meansalgorithmbasedonhybridfruitflyoptimizationanddifferentialevolution[C].201712thInternationalConferenceonComputerScienceandEducation.Houston:IEEE,2017:464-467.NiuB,DuanQ,LiuJ,etal.Apopulation-basedclusteringtechniqueusingparticleswarmoptimizationandk-means[J].NaturalComputing,2016,16(1):1-15.于佐軍,秦歡.基于改進(jìn)蜂群算法的K-means算法[J].控制與決策,2018,33(1):181-185.S.Guha,R.Rastogi,K.Shim.Cure:anefficientclusteringalgorithmforlargedatabases[J].InformationSystems,2001,26(1):35-58.S.Guha,R.Rastogi,K.Shim,Rock:arobustclusteringalgorithmforcategoricalattributes[J].InformationSystems,2000,25(5):345-366.T.Zhang,R.Ramakrishnan,M.Livny.BIRCH:anefficientdataclusteringmethodforverylargedatabases[C].ProceedingsofACMSIGMODInternationalConferenceonManagementofData.NewYork:AssociationforComputingMachinery,1999:103-114.G.Karypis,E.Han,V.Kumar.Chameleon:hierarchicalclusteringusingdynamicmodeling[J].IEEEComputer,1999,32(8):68-75.A.K.Jain.Dataclustering:50yearsbeyondK-means[J].PatternRecognitionLetters,2010,31(8):651-666.Z.Huang.ExtensionstotheK-meansalgorithmforclusteringlargedatasetswithcategoricalvalues[J].DataMiningandKnowledgeDiscovery,1998,2(3):283-304.W.R.Fox.Findinggroupsindata:anintroductiontoclusteranalysis[J].JournalofTheRoyalStatisticalSocietySeriesCappliedStatistics,1991,40(3):486-487.D.Xu,Y.Tian.Acomprehensivesurveyofclusteringalgorithms[J].AnnalsofDataScience,2015,2(2):165-193.R.T.Ng,J.Han.Efficientandeffectiveclusteringmethodsforspatialdatamining[C].InternationalConferenceonVeryLargeDataBases.SanFrancisco,California:MorganKaufmannPublishersInc,1994:144-155.A.Rodriguez,A.Laio.Clusteringbyfastsearchandfindofdensitypeaks[J].Science,2014,344(6191):1492-1496.Z.He,S.Deng,X.Xu.Improvingk-modesalgorithmconsideringfrequenciesofattributevaluesinmode[C].InternationalConferenceonComputationalIntelligenceandSecurity,LNAI3801,2005:157一162.M.K.Ng,M.J.Li,J.Z.Huang,etal.OntheImpactofDissimilarityMeasureink-ModesClusteringAlgorithm[J].IEEETransactionsonPatternAnalysis&MachineIntelligence,2007,29:503.F.Cao,J.Liang,D.Li,etal.Adissimilaritymeasureforthek-Modesclusteringalgorithm[J].Knowledge-BasedSystems,2012,26:120-127.A.Ahmad,L.Dey.Ak-meanclusteringalgorithmformixednumericandcategoricaldata[J].Data&KnowledgeEngineering,2007,63(2):503-527.C.C.Hsu,C.L.Chen,S.YWu.Hierarchicalclusteringofmixeddatabasedondistancehierarchy[J].InformationSciences,2007,177(20):4474-4492.賈彬,梁毅,蘇航.一種改進(jìn)的K-Modes聚類(lèi)算法[[J].軟件導(dǎo)刊,2019,18(06):60-64+69.白亮,梁吉業(yè),曹付元.基于粗糙集的改進(jìn)K-modes聚類(lèi)算法[[J].計(jì)算機(jī)科學(xué),2009,36(001):162-164.黃苑華,郝志峰,蔡瑞初,謝峰.基于相互依存冗余度量的k-modes算法【J].小型微型計(jì)算機(jī)系統(tǒng),2016,37}08}:1790-1793.YSun,Q.M.Zhu,Z.X.Chen,Aniterativeinitial-pointsrefifinementalgorithmforcategoricaldataclustering[J].PatternRecognitionLetters,2002,23(7):875-884.D.Barbara,J.Couto,YLi,COOLCAT:Anentropy-basedalgorithmforcategoricalclustering,in:Proc.oftheEleventhInt.Con#onInformationandKnowledgeManagement,2002,pp.582-589.S.Wu,

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論