數(shù)據(jù)挖掘中分類方法綜述_第1頁(yè)
數(shù)據(jù)挖掘中分類方法綜述_第2頁(yè)
數(shù)據(jù)挖掘中分類方法綜述_第3頁(yè)
數(shù)據(jù)挖掘中分類方法綜述_第4頁(yè)
數(shù)據(jù)挖掘中分類方法綜述_第5頁(yè)
已閱讀5頁(yè),還剩23頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、*本文系國(guó)家自然科學(xué)基金資助項(xiàng)目“用于數(shù)據(jù)挖掘的神經(jīng)網(wǎng)絡(luò)模型及其融合技 天津大學(xué)電氣與自動(dòng)化工程學(xué)院 天津 300072 統(tǒng)分類算法和基于軟計(jì)算的分類法兩類,主要包括 邏輯、遺傳算法、粗糙集和神經(jīng)網(wǎng)絡(luò)的分類算法。通過論述以上算法 PReviewonClassificationAlgorithmsinDataMiningQian 數(shù)據(jù)挖掘中分類方法綜述*1 前 言 學(xué)、數(shù)據(jù)庫(kù)、知識(shí)獲取與表達(dá)、專家系統(tǒng)、神經(jīng)網(wǎng)絡(luò)、模糊 是數(shù)據(jù)挖掘中最有應(yīng)用價(jià)值的技術(shù)之一,其 關(guān)鍵,是一 中的基礎(chǔ)和核心技術(shù)。其實(shí),該技 前,數(shù)據(jù)分類 2 傳統(tǒng)的數(shù)據(jù)挖掘分類方法2.1 數(shù)據(jù)分類中相似函數(shù)的研究 足距離三角不等式 使取

2、決于特征量,用于相似性判定函數(shù) 量特征,人們提出了簡(jiǎn)單匹配系 續(xù)半離散以及同質(zhì) 個(gè)類別之間 主要包括最近距離函數(shù)、質(zhì)2.2 傳統(tǒng)數(shù)據(jù)分類方法類別樣本賦予類別標(biāo)簽。在其學(xué) 法 該算法1的構(gòu)造分類器可分為兩步:第i若有多條 法 Apriori1,通過迭代檢索出數(shù)據(jù)集中所有的頻繁項(xiàng)集,即支持度的優(yōu)點(diǎn)是發(fā)現(xiàn)的規(guī)則相對(duì)較全面且分類準(zhǔn)確度 集合以及各項(xiàng)支持度,并按支持度大小降序排列 而在緊密性方面,它能剔除不相 2.2.2 K 近鄰(KNN 分類算法 KNN 方法基于類比學(xué)習(xí),是一種非參數(shù)的分類 較高的分 KNN索樣本空 KNN。首 別樣本需要分類時(shí),在計(jì)算所有存儲(chǔ)樣本和未 缺點(diǎn), 計(jì)算,可對(duì)樣本集進(jìn)行編

3、輯處 提高計(jì)算效率。截止目前,其中最主要的方法有2:近鄰規(guī)則濃縮法。其編輯處理 種方法包括建立一個(gè)原型和在原始訓(xùn)練樣本集中調(diào)整幾個(gè)有限的數(shù) 除均可能需要重新 2.2.3 決策樹分類算法 決策樹是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法。它是一種從 中推理出決策樹形式的分類規(guī)則。它采用自頂向下的遞 判斷該節(jié)點(diǎn)向下 保持決策樹的準(zhǔn) 有最大信息量屬性而建立決策樹 單、分類速。 Q 中尋找當(dāng)前結(jié)點(diǎn)的最優(yōu)分裂標(biāo) 2.2.4 貝葉斯分類算法 貝葉斯分類是統(tǒng)計(jì)學(xué)分類方法,它是一類利用概率統(tǒng) 設(shè)的貝葉斯改進(jìn)分類算法,如 TAN法中任意屬性 樸素貝葉斯網(wǎng)絡(luò)的基礎(chǔ)上增加屬性對(duì)之間的關(guān)聯(lián)來(lái)實(shí)現(xiàn) 系,把類別屬性作為 性都作為它的子

4、節(jié)點(diǎn)。屬性 Ai與Aj 之間的邊意味著屬性 AijTAN 算法考慮了n 個(gè)屬性中兩兩屬性間的關(guān)聯(lián)性,對(duì)屬性之間獨(dú)立性的假設(shè)有 3 基于軟計(jì)算的數(shù)據(jù)分類方法糊邏輯用于處理不完整、不精確 形決策、泛化學(xué)習(xí)、自適應(yīng)、自組織 效搜索、復(fù)雜目標(biāo)對(duì)象的自適應(yīng)和優(yōu)化; 遺傳算法述,能有效處理不精確、不一致、不完整等 表現(xiàn)出越來(lái)越多的無(wú)標(biāo)簽性、不確定性、不完整性、非 卻可為此提供 傳統(tǒng)數(shù)據(jù)挖掘方法的結(jié)合逐漸成為 種刻劃不完整和不確定性數(shù)據(jù)的數(shù)學(xué)工具6,不需要先驗(yàn)知識(shí), 分類技術(shù)相結(jié)合建立 粗糙集理論將分類能力和知識(shí)聯(lián)系在一起, 表示分類,知識(shí)因而表示為等價(jià)關(guān)系集 R 對(duì)離散空間U 的 不變集和最小規(guī)則集的理論

5、,即約簡(jiǎn)算法 要性并排序,在泛化關(guān) 表達(dá)形式;在保持信息表中決策屬 簡(jiǎn),但對(duì)每一個(gè) 的規(guī)則,常見的值 、啟發(fā)式值約簡(jiǎn)、基于決策矩陣的值約簡(jiǎn)算法等、增量式 統(tǒng)計(jì)信息對(duì)基本 型。高復(fù)雜度問題時(shí)具備獨(dú)特優(yōu)勢(shì), 來(lái)的高效隨機(jī)搜索與優(yōu)化方法。它以適應(yīng)值函數(shù)為依 ,在全局范圍 索的優(yōu)點(diǎn),避免了大多數(shù)經(jīng)典優(yōu) 部最優(yōu)的缺陷,可以取得較好的 在運(yùn)算時(shí)隨機(jī)的多樣性群體和交叉運(yùn)算利于擴(kuò)展搜索 解周圍探索。遺傳算法由于通過保 遺傳算法的應(yīng)用主要集中在分類算法7等方面。其基本思路如下:數(shù)據(jù)分類問 蓋,從而挖掘 數(shù)據(jù)分類,首先要對(duì)實(shí)際問題進(jìn) 模糊邏輯學(xué)最基本概念是隸屬函數(shù),即以一個(gè)值 程度,并以此為基礎(chǔ) 質(zhì)、分解和擴(kuò)展原

6、理、算子、模糊度、模糊集的近似程 分類操作也需要向量模糊相似系 余弦法、相關(guān)系數(shù) 最小法、絕對(duì)值指數(shù)法、指數(shù)相似系 模糊分類方法可以很好地處理客觀事務(wù)類別屬性的不明確性,主要包括8傳遞 糊方法等;但人們更多地將模糊方法和 神經(jīng)網(wǎng)絡(luò)在于:神經(jīng)網(wǎng)絡(luò)可以任意精度逼 本身屬于非線形模型,能夠適應(yīng)各種復(fù)雜的數(shù)據(jù)關(guān)系; 能夠比很多分類算法更好地適應(yīng)數(shù)據(jù)空間的變 的某些功能,具備“智能”的 網(wǎng)絡(luò)模型的不同而進(jìn)行區(qū)分, 學(xué)習(xí)矢量化神經(jīng)網(wǎng)絡(luò)。目前神經(jīng)網(wǎng)絡(luò)分類算法研究較多集中在以 BP其 于平穩(wěn)環(huán)境,學(xué)習(xí)算法計(jì) 及學(xué)習(xí)能力之間存在沖 絡(luò) 借鑒了人腦的物理結(jié)構(gòu),存儲(chǔ)在神經(jīng)網(wǎng)絡(luò)中的知識(shí)往往以連接權(quán)值的形式表現(xiàn)出來(lái),4 結(jié) 語(yǔ) 非線形變換,而輸出層則提供從隱含 。這種神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練模式的表示階數(shù)有較低的敏感性,但 幾何中心或者特征進(jìn)行聚合的獨(dú)特性質(zhì)。它由輸入層和競(jìng)爭(zhēng) 爭(zhēng)層之間實(shí)現(xiàn)全連 泡大小,該結(jié)構(gòu)具備拓?fù)浣Y(jié)構(gòu)保持、概率 極大地影響了其在實(shí)際中的使用。針對(duì) 學(xué)習(xí)矢量化神經(jīng)網(wǎng)絡(luò)由輸入層、競(jìng)爭(zhēng) 類別,競(jìng)爭(zhēng)層的每一個(gè)神經(jīng)元代表某個(gè)類 性層和競(jìng)爭(zhēng)層之間用矩陣實(shí)現(xiàn)子類和類之間的映射關(guān)系。競(jìng)爭(zhēng) 礎(chǔ)技術(shù)之一,本文對(duì)的常見數(shù)據(jù)分類算法進(jìn)行了綜述;從而便于研究者對(duì)已 。未來(lái)數(shù)據(jù)分類算法的研究則更多地集中在智 編碼、蟻群優(yōu)化等智能 c 組成的論文評(píng) 3.3.3 資源收

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論