




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第6章 數(shù)據(jù)預(yù)處理宋杰鯤宋杰鯤中國(guó)石油大學(xué)(華東)中國(guó)石油大學(xué)(華東)管理科學(xué)與工程系管理科學(xué)與工程系數(shù)據(jù)預(yù)處理n 由于數(shù)據(jù)庫(kù)系統(tǒng)所獲數(shù)據(jù)量的迅速膨脹由于數(shù)據(jù)庫(kù)系統(tǒng)所獲數(shù)據(jù)量的迅速膨脹(已達(dá)(已達(dá)GBGB或或TBTB數(shù)量級(jí)),從而導(dǎo)致了現(xiàn)實(shí)世數(shù)量級(jí)),從而導(dǎo)致了現(xiàn)實(shí)世界數(shù)據(jù)庫(kù)中常常包含許多含有噪聲、不完整、界數(shù)據(jù)庫(kù)中常常包含許多含有噪聲、不完整、甚至是不一致的數(shù)據(jù)。顯然對(duì)數(shù)據(jù)挖掘所涉及甚至是不一致的數(shù)據(jù)。顯然對(duì)數(shù)據(jù)挖掘所涉及的數(shù)據(jù)對(duì)象必須進(jìn)行預(yù)處理。數(shù)據(jù)預(yù)處理主要的數(shù)據(jù)對(duì)象必須進(jìn)行預(yù)處理。數(shù)據(jù)預(yù)處理主要包括:數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)包括:數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)歸
2、約等。變換、數(shù)據(jù)歸約等。數(shù)據(jù)預(yù)處理n本章目標(biāo):本章目標(biāo): 了解并掌握數(shù)據(jù)預(yù)處理的幾種方了解并掌握數(shù)據(jù)預(yù)處理的幾種方法,特別是分箱方法、數(shù)據(jù)規(guī)格化方法,特別是分箱方法、數(shù)據(jù)規(guī)格化方法。法。數(shù)據(jù)預(yù)處理n6.1數(shù)據(jù)預(yù)處理的必要性數(shù)據(jù)預(yù)處理的必要性n6.2數(shù)據(jù)清理數(shù)據(jù)清理n6.3數(shù)據(jù)集成數(shù)據(jù)集成n6.4數(shù)據(jù)變換數(shù)據(jù)變換n6.5數(shù)據(jù)歸約數(shù)據(jù)歸約6.1數(shù)據(jù)預(yù)處理的必要性n 數(shù)據(jù)挖掘的效果和數(shù)據(jù)質(zhì)量之間有著緊密的數(shù)據(jù)挖掘的效果和數(shù)據(jù)質(zhì)量之間有著緊密的聯(lián)系,所謂聯(lián)系,所謂“垃圾入,垃圾出垃圾入,垃圾出”,即數(shù)據(jù)的質(zhì)量,即數(shù)據(jù)的質(zhì)量越好,則挖掘的結(jié)果就越精確,反之則不可能取越好,則挖掘的結(jié)果就越精確,反之則不可
3、能取得好的挖掘結(jié)果。尤其是在對(duì)包含有噪聲、不完得好的挖掘結(jié)果。尤其是在對(duì)包含有噪聲、不完整、不一致數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘時(shí),更需要進(jìn)行數(shù)整、不一致數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘時(shí),更需要進(jìn)行數(shù)據(jù)的預(yù)處理,以提高數(shù)據(jù)挖掘?qū)ο蟮馁|(zhì)量,并最據(jù)的預(yù)處理,以提高數(shù)據(jù)挖掘?qū)ο蟮馁|(zhì)量,并最終提高數(shù)據(jù)挖掘所獲模式知識(shí)的質(zhì)量。終提高數(shù)據(jù)挖掘所獲模式知識(shí)的質(zhì)量。6.1數(shù)據(jù)預(yù)處理的必要性n 噪聲數(shù)據(jù):噪聲是指一個(gè)測(cè)量變量中的隨機(jī)錯(cuò)誤或噪聲數(shù)據(jù):噪聲是指一個(gè)測(cè)量變量中的隨機(jī)錯(cuò)誤或偏離期望的孤立點(diǎn)值,產(chǎn)生噪聲的原因很多,人為的、偏離期望的孤立點(diǎn)值,產(chǎn)生噪聲的原因很多,人為的、設(shè)備的和技術(shù)的等,如數(shù)據(jù)輸入時(shí)的人為錯(cuò)誤或計(jì)算機(jī)設(shè)備的和技術(shù)的等
4、,如數(shù)據(jù)輸入時(shí)的人為錯(cuò)誤或計(jì)算機(jī)錯(cuò)誤,網(wǎng)絡(luò)傳輸中的錯(cuò)誤,數(shù)據(jù)收集設(shè)備的故障等。錯(cuò)誤,網(wǎng)絡(luò)傳輸中的錯(cuò)誤,數(shù)據(jù)收集設(shè)備的故障等。n 不完整數(shù)據(jù):實(shí)際應(yīng)用系統(tǒng)中,由于系統(tǒng)設(shè)計(jì)的不不完整數(shù)據(jù):實(shí)際應(yīng)用系統(tǒng)中,由于系統(tǒng)設(shè)計(jì)的不合理或者使用過程中的某些因素,某些屬性值可能會(huì)缺合理或者使用過程中的某些因素,某些屬性值可能會(huì)缺失或者值不確定。失或者值不確定。6.1數(shù)據(jù)預(yù)處理的必要性n 不一致數(shù)據(jù):由于原始數(shù)據(jù)來(lái)源于多個(gè)不同的應(yīng)用不一致數(shù)據(jù):由于原始數(shù)據(jù)來(lái)源于多個(gè)不同的應(yīng)用系統(tǒng)或數(shù)據(jù)庫(kù),信息龐雜,采集和加工的方法有別,數(shù)系統(tǒng)或數(shù)據(jù)庫(kù),信息龐雜,采集和加工的方法有別,數(shù)據(jù)描述的格式也各不相同,缺乏統(tǒng)一的分類標(biāo)準(zhǔn)和
5、信息據(jù)描述的格式也各不相同,缺乏統(tǒng)一的分類標(biāo)準(zhǔn)和信息的編碼方案,難以實(shí)現(xiàn)信息的集成共享,很難直接用于的編碼方案,難以實(shí)現(xiàn)信息的集成共享,很難直接用于數(shù)據(jù)挖掘。數(shù)據(jù)挖掘。n 重復(fù)數(shù)據(jù):同一事物在數(shù)據(jù)庫(kù)中存在兩條或多條完重復(fù)數(shù)據(jù):同一事物在數(shù)據(jù)庫(kù)中存在兩條或多條完全相同的記錄,或者相同的信息冗余的存在于多個(gè)數(shù)據(jù)全相同的記錄,或者相同的信息冗余的存在于多個(gè)數(shù)據(jù)源中。源中。6.1數(shù)據(jù)預(yù)處理的必要性n 維度高數(shù)據(jù):原始數(shù)據(jù)中通常記錄事物的較為全面維度高數(shù)據(jù):原始數(shù)據(jù)中通常記錄事物的較為全面的屬性,而在一次挖掘中,這些屬性并不是都有用,只的屬性,而在一次挖掘中,這些屬性并不是都有用,只需要一部分屬性即可得
6、到希望知道的知識(shí),而且無(wú)用屬需要一部分屬性即可得到希望知道的知識(shí),而且無(wú)用屬性的增加還會(huì)導(dǎo)致無(wú)效歸納,把挖掘結(jié)果引向錯(cuò)誤的結(jié)性的增加還會(huì)導(dǎo)致無(wú)效歸納,把挖掘結(jié)果引向錯(cuò)誤的結(jié)論。論。6.2數(shù)據(jù)清理n 數(shù)據(jù)預(yù)處理的方法主要包括:數(shù)據(jù)清理(數(shù)據(jù)預(yù)處理的方法主要包括:數(shù)據(jù)清理(data cleaning)、數(shù)據(jù)集成()、數(shù)據(jù)集成(data integration)、數(shù)據(jù))、數(shù)據(jù)變換(變換(data transformation)、數(shù)據(jù)歸約()、數(shù)據(jù)歸約(data reduction)。)。 n 數(shù)據(jù)清理通過填補(bǔ)遺漏數(shù)據(jù)、消除異常數(shù)據(jù)、平數(shù)據(jù)清理通過填補(bǔ)遺漏數(shù)據(jù)、消除異常數(shù)據(jù)、平滑噪聲數(shù)據(jù),以及糾正不一
7、致的數(shù)據(jù)?;肼晹?shù)據(jù),以及糾正不一致的數(shù)據(jù)。6.2數(shù)據(jù)清理6.2.16.2.1遺漏數(shù)據(jù)處理遺漏數(shù)據(jù)處理n 假設(shè)在分析一個(gè)商場(chǎng)銷售數(shù)據(jù)時(shí),發(fā)現(xiàn)有多個(gè)記錄假設(shè)在分析一個(gè)商場(chǎng)銷售數(shù)據(jù)時(shí),發(fā)現(xiàn)有多個(gè)記錄中的屬性值為空,如:顧客的收入屬性,對(duì)于為空的屬中的屬性值為空,如:顧客的收入屬性,對(duì)于為空的屬性值,可以采用以下方法進(jìn)行遺漏數(shù)據(jù)處理:性值,可以采用以下方法進(jìn)行遺漏數(shù)據(jù)處理: (1)忽略該條記錄。當(dāng)一個(gè)記錄中有多個(gè)屬性值)忽略該條記錄。當(dāng)一個(gè)記錄中有多個(gè)屬性值空缺,特別是關(guān)鍵信息丟失時(shí),即使是采用某些方法把空缺,特別是關(guān)鍵信息丟失時(shí),即使是采用某些方法把所有缺失的屬性值填充好,該記錄也不能反映真實(shí)情況
8、,所有缺失的屬性值填充好,該記錄也不能反映真實(shí)情況,對(duì)于數(shù)據(jù)挖掘算法來(lái)說(shuō),這樣的數(shù)據(jù)性質(zhì)很差,應(yīng)該忽對(duì)于數(shù)據(jù)挖掘算法來(lái)說(shuō),這樣的數(shù)據(jù)性質(zhì)很差,應(yīng)該忽略該條記錄。略該條記錄。6.2數(shù)據(jù)清理6.2.16.2.1遺漏數(shù)據(jù)處理遺漏數(shù)據(jù)處理n (2)去掉屬性。如果所有記錄中的某一個(gè)屬性值)去掉屬性。如果所有記錄中的某一個(gè)屬性值缺失嚴(yán)重,可以認(rèn)為該屬性對(duì)知識(shí)發(fā)現(xiàn)來(lái)說(shuō)已經(jīng)沒有意缺失嚴(yán)重,可以認(rèn)為該屬性對(duì)知識(shí)發(fā)現(xiàn)來(lái)說(shuō)已經(jīng)沒有意義,將其直接去掉。義,將其直接去掉。n (3)手工填補(bǔ)遺漏值。以某些背景資料為依據(jù),)手工填補(bǔ)遺漏值。以某些背景資料為依據(jù),手工填寫空缺值,一般講這種方法比較耗時(shí),而且對(duì)于手工填寫空缺值
9、,一般講這種方法比較耗時(shí),而且對(duì)于存在許多遺漏情況的大規(guī)模數(shù)據(jù)集而言,顯然可行較差。存在許多遺漏情況的大規(guī)模數(shù)據(jù)集而言,顯然可行較差。6.2數(shù)據(jù)清理6.2.16.2.1遺漏數(shù)據(jù)處理遺漏數(shù)據(jù)處理n (4)利用缺省值填補(bǔ)遺漏值。對(duì)一個(gè)離散屬性的)利用缺省值填補(bǔ)遺漏值。對(duì)一個(gè)離散屬性的所有遺漏的值均利用一個(gè)事先確定好的值來(lái)填補(bǔ)。如:所有遺漏的值均利用一個(gè)事先確定好的值來(lái)填補(bǔ)。如:都用都用OK來(lái)填補(bǔ)。但當(dāng)一個(gè)屬性遺漏值較多值,若采用這來(lái)填補(bǔ)。但當(dāng)一個(gè)屬性遺漏值較多值,若采用這種方法,就可能誤導(dǎo)挖掘進(jìn)程。因此這種方法雖然簡(jiǎn)單,種方法,就可能誤導(dǎo)挖掘進(jìn)程。因此這種方法雖然簡(jiǎn)單,但并不推薦使用,或使用時(shí)需要
10、仔細(xì)分析填補(bǔ)后的情況,但并不推薦使用,或使用時(shí)需要仔細(xì)分析填補(bǔ)后的情況,以盡量避免對(duì)最終挖掘結(jié)果產(chǎn)生較大誤差。以盡量避免對(duì)最終挖掘結(jié)果產(chǎn)生較大誤差。n (5)利用均值填補(bǔ)遺漏值。計(jì)算一個(gè)屬性(值)利用均值填補(bǔ)遺漏值。計(jì)算一個(gè)屬性(值)的平均值,并用此值填補(bǔ)該屬性所有遺漏的值。如:若的平均值,并用此值填補(bǔ)該屬性所有遺漏的值。如:若一個(gè)顧客的平均收入一個(gè)顧客的平均收入(income)為為12000元,則用此值元,則用此值填補(bǔ)屬性中所有被遺漏的值。填補(bǔ)屬性中所有被遺漏的值。6.2數(shù)據(jù)清理6.2.16.2.1遺漏數(shù)據(jù)處理遺漏數(shù)據(jù)處理n (6)利用同類別均值填補(bǔ)遺漏值。計(jì)算同類樣本)利用同類別均值填補(bǔ)遺
11、漏值。計(jì)算同類樣本記錄的該屬性平均值,用來(lái)填充空缺值。如:若要對(duì)商記錄的該屬性平均值,用來(lái)填充空缺值。如:若要對(duì)商場(chǎng)顧客按信用風(fēng)險(xiǎn)進(jìn)行分類挖掘時(shí),就可以用在同一信場(chǎng)顧客按信用風(fēng)險(xiǎn)進(jìn)行分類挖掘時(shí),就可以用在同一信用風(fēng)險(xiǎn)類別下(如良好)的用風(fēng)險(xiǎn)類別下(如良好)的income屬性的平均值,來(lái)填屬性的平均值,來(lái)填補(bǔ)所有在同一信用風(fēng)險(xiǎn)類別下屬性補(bǔ)所有在同一信用風(fēng)險(xiǎn)類別下屬性income的遺漏值。的遺漏值。6.2數(shù)據(jù)清理6.2.16.2.1遺漏數(shù)據(jù)處理遺漏數(shù)據(jù)處理n (7)利用最可能的值填補(bǔ)遺漏值??梢岳没貧w)利用最可能的值填補(bǔ)遺漏值??梢岳没貧w分析、貝葉斯計(jì)算公式或決策樹推斷出該條記錄特定屬分析、貝
12、葉斯計(jì)算公式或決策樹推斷出該條記錄特定屬性的最大可能的取值。例如:利用數(shù)據(jù)集中其它顧客的性的最大可能的取值。例如:利用數(shù)據(jù)集中其它顧客的屬性值,可以構(gòu)造一個(gè)決策樹來(lái)預(yù)測(cè)屬性屬性值,可以構(gòu)造一個(gè)決策樹來(lái)預(yù)測(cè)屬性income的遺漏的遺漏值。與其他方法相比,該方法最大程度地利用了當(dāng)前數(shù)值。與其他方法相比,該方法最大程度地利用了當(dāng)前數(shù)據(jù)所包含的信息來(lái)幫助預(yù)測(cè)所遺漏的數(shù)據(jù),是目前最為據(jù)所包含的信息來(lái)幫助預(yù)測(cè)所遺漏的數(shù)據(jù),是目前最為常用的方法。常用的方法。n (1)分箱方法。通過考察相鄰數(shù)據(jù)來(lái)確定最終)分箱方法。通過考察相鄰數(shù)據(jù)來(lái)確定最終值。把待處理的數(shù)據(jù)(某列屬性值)按照一定的規(guī)則值。把待處理的數(shù)據(jù)(某
13、列屬性值)按照一定的規(guī)則放進(jìn)一些箱子中,考察每一個(gè)箱子的數(shù)據(jù),采用某種放進(jìn)一些箱子中,考察每一個(gè)箱子的數(shù)據(jù),采用某種方法分別對(duì)各個(gè)箱子中的數(shù)據(jù)進(jìn)行處理。常用的方法方法分別對(duì)各個(gè)箱子中的數(shù)據(jù)進(jìn)行處理。常用的方法包括等深分箱法、等寬分箱法以及自定義分箱法。包括等深分箱法、等寬分箱法以及自定義分箱法。n 完成分箱之后,就要選擇一種方法對(duì)數(shù)據(jù)進(jìn)行平完成分箱之后,就要選擇一種方法對(duì)數(shù)據(jù)進(jìn)行平滑,使得數(shù)據(jù)盡可能接近。常用的方法包括:滑,使得數(shù)據(jù)盡可能接近。常用的方法包括:6.2數(shù)據(jù)清理6.2.26.2.2噪聲數(shù)據(jù)處理噪聲數(shù)據(jù)處理n 按平均值平滑:對(duì)同一箱值中的數(shù)據(jù)求平均值,按平均值平滑:對(duì)同一箱值中的數(shù)據(jù)
14、求平均值,然后用這個(gè)平均值替代該箱子中的所有數(shù)據(jù)。然后用這個(gè)平均值替代該箱子中的所有數(shù)據(jù)。n 按邊界值平滑:對(duì)于箱子中的每一個(gè)數(shù)據(jù),觀察按邊界值平滑:對(duì)于箱子中的每一個(gè)數(shù)據(jù),觀察它和箱子兩個(gè)邊界值的距離,用距離較小的那個(gè)邊界值它和箱子兩個(gè)邊界值的距離,用距離較小的那個(gè)邊界值替代該數(shù)據(jù)。替代該數(shù)據(jù)。n 按中值平滑:取箱子的中值,用來(lái)替代箱子中的按中值平滑:取箱子的中值,用來(lái)替代箱子中的所有數(shù)據(jù)。中值也稱中數(shù),將數(shù)據(jù)排序之后,如果這些所有數(shù)據(jù)。中值也稱中數(shù),將數(shù)據(jù)排序之后,如果這些數(shù)據(jù)是奇數(shù)個(gè),中值就是最中間位置的那個(gè)數(shù);如果是數(shù)據(jù)是奇數(shù)個(gè),中值就是最中間位置的那個(gè)數(shù);如果是偶數(shù)個(gè),中值應(yīng)該是中間
15、兩個(gè)數(shù)的平均值。偶數(shù)個(gè),中值應(yīng)該是中間兩個(gè)數(shù)的平均值。6.2數(shù)據(jù)清理6.2.26.2.2噪聲數(shù)據(jù)處理噪聲數(shù)據(jù)處理price 的排序后數(shù)據(jù)(元):的排序后數(shù)據(jù)(元):4, 8, 15, 21, 21, 24, 25, 28, 34等深分箱(箱深為等深分箱(箱深為3):):箱箱1:4, 8, 15箱箱2:21, 21, 24箱箱3:25, 28, 34等寬分箱(箱寬為等寬分箱(箱寬為10):):箱箱1:4, 8箱箱2:15, 21, 21,24,25箱箱3:28, 34自定義分箱(自定義分箱(10以下,以下,1020,2030,3040):):箱箱1:4, 8 箱箱2:15 箱箱3:21, 21,
16、 24,25,28 箱箱4:34 6.2數(shù)據(jù)清理6.2.26.2.2噪聲數(shù)據(jù)處理噪聲數(shù)據(jù)處理price 的排序等深后數(shù)據(jù):的排序等深后數(shù)據(jù):4, 8, 15;21, 21, 24;25, 28, 34用平均值平滑:用平均值平滑:箱箱1:9, 9, 9箱箱2:22, 22, 22箱箱3:29, 29, 29用邊界平滑:用邊界平滑:箱箱1:4, 4, 15箱箱2:21, 21, 24箱箱3:25, 25, 34 用中值平滑:用中值平滑: 箱箱1:8, 8, 8箱箱2:21, 21, 21箱箱3:28, 28, 286.2數(shù)據(jù)清理6.2.26.2.2噪聲數(shù)據(jù)處理噪聲數(shù)據(jù)處理 課堂練習(xí):課堂練習(xí): 假
17、定用于分析的數(shù)據(jù)包含屬性假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)元組中。數(shù)據(jù)元組中age 的值的值如下(按遞增序):如下(按遞增序):13, 15, 16, 16, 19, 20, 20, 21, 22。 1)使用按箱平均值(保留整數(shù),四舍五入)平滑對(duì)以上)使用按箱平均值(保留整數(shù),四舍五入)平滑對(duì)以上數(shù)據(jù)進(jìn)行平滑,箱的深度為數(shù)據(jù)進(jìn)行平滑,箱的深度為3。說(shuō)明你的步驟。說(shuō)明你的步驟。 2)使用按箱邊界平滑對(duì)以上數(shù)據(jù)進(jìn)行平滑,箱的深度為)使用按箱邊界平滑對(duì)以上數(shù)據(jù)進(jìn)行平滑,箱的深度為3。說(shuō)明你的步驟。說(shuō)明你的步驟。6.2數(shù)據(jù)清理6.2.26.2.2噪聲數(shù)據(jù)處理噪聲數(shù)據(jù)處理n (2)聚類方法。通過聚類
18、分析可幫助發(fā)現(xiàn)異常數(shù))聚類方法。通過聚類分析可幫助發(fā)現(xiàn)異常數(shù)據(jù),相似或相鄰近的數(shù)據(jù)聚合在一起形成各個(gè)聚類集合,據(jù),相似或相鄰近的數(shù)據(jù)聚合在一起形成各個(gè)聚類集合,而那些位于這些聚類集合之外的數(shù)據(jù)對(duì)象被認(rèn)為是異常而那些位于這些聚類集合之外的數(shù)據(jù)對(duì)象被認(rèn)為是異常數(shù)據(jù)。聚類方法不需要任何先驗(yàn)知識(shí)。數(shù)據(jù)。聚類方法不需要任何先驗(yàn)知識(shí)。6.2數(shù)據(jù)清理6.2.26.2.2噪聲數(shù)據(jù)處理噪聲數(shù)據(jù)處理n (3)回歸方法。可以利用擬合函數(shù)對(duì)數(shù)據(jù)進(jìn)行)回歸方法??梢岳脭M合函數(shù)對(duì)數(shù)據(jù)進(jìn)行平滑。如:借助線性回歸(平滑。如:借助線性回歸(linear regression)方法,)方法,包括多變量回歸方法,就可以獲得的多個(gè)
19、變量之間的一包括多變量回歸方法,就可以獲得的多個(gè)變量之間的一個(gè)擬合關(guān)系,從而達(dá)到利用一個(gè)(或一組)變量值來(lái)幫個(gè)擬合關(guān)系,從而達(dá)到利用一個(gè)(或一組)變量值來(lái)幫助預(yù)測(cè)另一個(gè)變量取值的目的。利用回歸分析方法所獲助預(yù)測(cè)另一個(gè)變量取值的目的。利用回歸分析方法所獲得的擬合函數(shù),能夠幫助平滑數(shù)據(jù)及除去其中的噪聲。得的擬合函數(shù),能夠幫助平滑數(shù)據(jù)及除去其中的噪聲。 6.2數(shù)據(jù)清理6.2.26.2.2噪聲數(shù)據(jù)處理噪聲數(shù)據(jù)處理n (4)人機(jī)結(jié)合檢查方法。通過人與計(jì)算機(jī)檢查相結(jié))人機(jī)結(jié)合檢查方法。通過人與計(jì)算機(jī)檢查相結(jié)合方法,可以幫助發(fā)現(xiàn)異常數(shù)據(jù)。如:利用基于信息論合方法,可以幫助發(fā)現(xiàn)異常數(shù)據(jù)。如:利用基于信息論方法
20、可幫助識(shí)別用于分類識(shí)別手寫符號(hào)庫(kù)中的異常模式;方法可幫助識(shí)別用于分類識(shí)別手寫符號(hào)庫(kù)中的異常模式;所識(shí)別出的異常模式可輸出到一個(gè)列表中;然后由人對(duì)所識(shí)別出的異常模式可輸出到一個(gè)列表中;然后由人對(duì)這一列表中的各異常模式進(jìn)行檢查,并最終確認(rèn)無(wú)用的這一列表中的各異常模式進(jìn)行檢查,并最終確認(rèn)無(wú)用的模式(真正異常的模式)。這種人機(jī)結(jié)合檢查方法比單模式(真正異常的模式)。這種人機(jī)結(jié)合檢查方法比單純利用手工方法手寫符號(hào)庫(kù)進(jìn)行檢查要快許多。純利用手工方法手寫符號(hào)庫(kù)進(jìn)行檢查要快許多。6.2數(shù)據(jù)清理6.2.26.2.2噪聲數(shù)據(jù)處理噪聲數(shù)據(jù)處理n (1)多個(gè)取名或不規(guī)范取名的清理問題。數(shù)據(jù)清理)多個(gè)取名或不規(guī)范取名的
21、清理問題。數(shù)據(jù)清理將數(shù)據(jù)值進(jìn)行一致化,即相同含義的值應(yīng)具有統(tǒng)一的形將數(shù)據(jù)值進(jìn)行一致化,即相同含義的值應(yīng)具有統(tǒng)一的形式。如人員的出生地在不同的數(shù)據(jù)源中可能分別使用式。如人員的出生地在不同的數(shù)據(jù)源中可能分別使用“上海上?!?、“滬滬”、“上海市上海市”、“滬市、滬市、“申申”、“申城申城”、“Shanghai ”,、,、“SH”等表示上海市出生等表示上海市出生的人員,應(yīng)將這類值統(tǒng)一表示。在不同的數(shù)據(jù)源中,相的人員,應(yīng)將這類值統(tǒng)一表示。在不同的數(shù)據(jù)源中,相同類型的信息可能表現(xiàn)為不同的格式,例如,電話號(hào)碼同類型的信息可能表現(xiàn)為不同的格式,例如,電話號(hào)碼通常定義為字符型數(shù)據(jù),但在有些數(shù)據(jù)源中可能將其定通常
22、定義為字符型數(shù)據(jù),但在有些數(shù)據(jù)源中可能將其定義為數(shù)值型數(shù)據(jù),因此應(yīng)將其一致化。義為數(shù)值型數(shù)據(jù),因此應(yīng)將其一致化。6.2數(shù)據(jù)清理6.2.36.2.3不一致數(shù)據(jù)處理不一致數(shù)據(jù)處理n (2)錯(cuò)誤數(shù)據(jù)的清理問題。數(shù)據(jù)清洗包括數(shù)據(jù)的一)錯(cuò)誤數(shù)據(jù)的清理問題。數(shù)據(jù)清洗包括數(shù)據(jù)的一致性確認(rèn),如人員的聯(lián)系信息在地址域的值為致性確認(rèn),如人員的聯(lián)系信息在地址域的值為“中國(guó)石中國(guó)石油大學(xué)(華東)油大學(xué)(華東)”,而在相應(yīng)的郵政編碼域值為,而在相應(yīng)的郵政編碼域值為“257000”,則記錄的數(shù)據(jù)存在不一致。在本例中,假,則記錄的數(shù)據(jù)存在不一致。在本例中,假如存在一個(gè)標(biāo)準(zhǔn)的地址和郵政編碼的對(duì)應(yīng)表,則可對(duì)記如存在一個(gè)標(biāo)準(zhǔn)的地
23、址和郵政編碼的對(duì)應(yīng)表,則可對(duì)記錄中的郵政編碼值自動(dòng)更正。當(dāng)然,這需要結(jié)合一定的錄中的郵政編碼值自動(dòng)更正。當(dāng)然,這需要結(jié)合一定的業(yè)務(wù)規(guī)則,因?yàn)橐灿锌赡茑]政編碼的值正確,而地址域業(yè)務(wù)規(guī)則,因?yàn)橐灿锌赡茑]政編碼的值正確,而地址域的值不正確。的值不正確。6.2數(shù)據(jù)清理6.2.36.2.3不一致數(shù)據(jù)處理不一致數(shù)據(jù)處理n (3)失效數(shù)據(jù)或過期數(shù)據(jù)的清理問題。)失效數(shù)據(jù)或過期數(shù)據(jù)的清理問題。 地址是一個(gè)地址是一個(gè)經(jīng)常出現(xiàn)過時(shí)數(shù)據(jù)的典型例子。在當(dāng)今社會(huì)中,人們常經(jīng)常出現(xiàn)過時(shí)數(shù)據(jù)的典型例子。在當(dāng)今社會(huì)中,人們常常改變他們的地址,所以一年以上的住址變得不再可靠。常改變他們的地址,所以一年以上的住址變得不再可靠。體
24、現(xiàn)在有的客戶概況信息已超過兩年以上,而且客戶已體現(xiàn)在有的客戶概況信息已超過兩年以上,而且客戶已經(jīng)搬家,但新的地址并沒有在地址表中反映出來(lái)。郵寄經(jīng)搬家,但新的地址并沒有在地址表中反映出來(lái)。郵寄清單必須經(jīng)常更新,因?yàn)槿藗兊墓ぷ鲿?huì)發(fā)生變化,他們清單必須經(jīng)常更新,因?yàn)槿藗兊墓ぷ鲿?huì)發(fā)生變化,他們的住址也隨之改變。我們將這種不再正確的老地址稱為的住址也隨之改變。我們將這種不再正確的老地址稱為失效數(shù)據(jù)。失效數(shù)據(jù)。 6.2數(shù)據(jù)清理6.2.36.2.3不一致數(shù)據(jù)處理不一致數(shù)據(jù)處理n (4)印刷錯(cuò)誤的清理問題。英文單詞會(huì)經(jīng)常性地被印刷錯(cuò)誤的清理問題。英文單詞會(huì)經(jīng)常性地被誤拼或誤打,漢語(yǔ)詞組也同樣如此。誤拼或誤打,
25、漢語(yǔ)詞組也同樣如此。6.2數(shù)據(jù)清理6.2.36.2.3不一致數(shù)據(jù)處理不一致數(shù)據(jù)處理6.3數(shù)據(jù)集成n 數(shù)據(jù)挖掘任務(wù)常常涉及數(shù)據(jù)集成操作,即將來(lái)自多數(shù)據(jù)挖掘任務(wù)常常涉及數(shù)據(jù)集成操作,即將來(lái)自多個(gè)數(shù)據(jù)源的數(shù)據(jù),如:數(shù)據(jù)庫(kù)、數(shù)據(jù)立方、普通文件等,個(gè)數(shù)據(jù)源的數(shù)據(jù),如:數(shù)據(jù)庫(kù)、數(shù)據(jù)立方、普通文件等,結(jié)合在一起并形成一個(gè)統(tǒng)一數(shù)據(jù)集合,以便為數(shù)據(jù)挖掘結(jié)合在一起并形成一個(gè)統(tǒng)一數(shù)據(jù)集合,以便為數(shù)據(jù)挖掘工作的順利完成提供完整的數(shù)據(jù)基礎(chǔ)。數(shù)據(jù)集成(工作的順利完成提供完整的數(shù)據(jù)基礎(chǔ)。數(shù)據(jù)集成(data integration)將多數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行合并處理,解)將多數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行合并處理,解決語(yǔ)義模糊性并整合成一致
26、的數(shù)據(jù)存儲(chǔ)。數(shù)據(jù)集成涉及決語(yǔ)義模糊性并整合成一致的數(shù)據(jù)存儲(chǔ)。數(shù)據(jù)集成涉及模式集成、屬性冗余、數(shù)據(jù)值沖突檢測(cè)與消除這三個(gè)方模式集成、屬性冗余、數(shù)據(jù)值沖突檢測(cè)與消除這三個(gè)方面的問題。面的問題。n 模式集成從多個(gè)異構(gòu)數(shù)據(jù)庫(kù)、文件或遺留系統(tǒng)提取并模式集成從多個(gè)異構(gòu)數(shù)據(jù)庫(kù)、文件或遺留系統(tǒng)提取并集成數(shù)據(jù),解決語(yǔ)義二義性,統(tǒng)一不同格式的數(shù)據(jù)。因此,集成數(shù)據(jù),解決語(yǔ)義二義性,統(tǒng)一不同格式的數(shù)據(jù)。因此,模式集成涉及實(shí)體識(shí)別模式集成涉及實(shí)體識(shí)別(entity identification),即如何,即如何表示不同數(shù)據(jù)庫(kù)中的字段是同一個(gè)實(shí)體,如何將不同信息表示不同數(shù)據(jù)庫(kù)中的字段是同一個(gè)實(shí)體,如何將不同信息源中的實(shí)體
27、匹配來(lái)進(jìn)行模式集成。例如:如何確定一個(gè)數(shù)源中的實(shí)體匹配來(lái)進(jìn)行模式集成。例如:如何確定一個(gè)數(shù)據(jù)庫(kù)中的據(jù)庫(kù)中的“customer-id”與另一個(gè)數(shù)據(jù)庫(kù)中的與另一個(gè)數(shù)據(jù)庫(kù)中的“custom-id”是否表示同一實(shí)體。數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)通常是否表示同一實(shí)體。數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)通常包含元數(shù)據(jù),所謂元數(shù)據(jù)就是關(guān)于數(shù)據(jù)的數(shù)據(jù),這些元數(shù)包含元數(shù)據(jù),所謂元數(shù)據(jù)就是關(guān)于數(shù)據(jù)的數(shù)據(jù),這些元數(shù)據(jù)可以幫助避免在模式集成時(shí)發(fā)生錯(cuò)誤。據(jù)可以幫助避免在模式集成時(shí)發(fā)生錯(cuò)誤。 6.3數(shù)據(jù)集成6.3.16.3.1模式集成問題模式集成問題n 若一個(gè)屬性可以從其它屬性中推演出來(lái),那這個(gè)屬性若一個(gè)屬性可以從其它屬性中推演出來(lái),那這個(gè)屬性就是冗
28、余屬性。如:一個(gè)顧客數(shù)據(jù)表中的平均月收入屬性,就是冗余屬性。如:一個(gè)顧客數(shù)據(jù)表中的平均月收入屬性,就是冗余屬性,顯然它可以根據(jù)月收入屬性計(jì)算出來(lái)。利用就是冗余屬性,顯然它可以根據(jù)月收入屬性計(jì)算出來(lái)。利用相關(guān)分析可以幫助發(fā)現(xiàn)一些比較隱蔽的數(shù)據(jù)冗余情況。例如:相關(guān)分析可以幫助發(fā)現(xiàn)一些比較隱蔽的數(shù)據(jù)冗余情況。例如:給定兩個(gè)屬性,則根據(jù)這兩個(gè)屬性的數(shù)值分析出這兩個(gè)屬性給定兩個(gè)屬性,則根據(jù)這兩個(gè)屬性的數(shù)值分析出這兩個(gè)屬性間的相互關(guān)系。屬性間的相互關(guān)系。屬性A,B之間的相互關(guān)系可以根據(jù)以下計(jì)之間的相互關(guān)系可以根據(jù)以下計(jì)算公式分析獲得。算公式分析獲得。 6.3數(shù)據(jù)集成6.3.26.3.2冗余問題冗余問題n記
29、錄行冗余同步進(jìn)行。記錄行冗余同步進(jìn)行。n 對(duì)于一個(gè)現(xiàn)實(shí)世界實(shí)體,其來(lái)自不同數(shù)據(jù)源的屬性對(duì)于一個(gè)現(xiàn)實(shí)世界實(shí)體,其來(lái)自不同數(shù)據(jù)源的屬性值或許不同。產(chǎn)生這樣問題原因可能是表示的差異、比例值或許不同。產(chǎn)生這樣問題原因可能是表示的差異、比例尺度不同或編碼的差異等。例如:重量屬性在一個(gè)系統(tǒng)中尺度不同或編碼的差異等。例如:重量屬性在一個(gè)系統(tǒng)中采用公制,而在另一個(gè)系統(tǒng)中卻采用英制。同樣價(jià)格屬性采用公制,而在另一個(gè)系統(tǒng)中卻采用英制。同樣價(jià)格屬性在不同地點(diǎn)采用不同貨幣單位,而且可能涉及不同的服務(wù)在不同地點(diǎn)采用不同貨幣單位,而且可能涉及不同的服務(wù)(如免費(fèi)早餐)或稅。這些語(yǔ)義的差異為數(shù)據(jù)集成提出許(如免費(fèi)早餐)或稅。
30、這些語(yǔ)義的差異為數(shù)據(jù)集成提出許多問題。多問題。 6.3數(shù)據(jù)集成6.3.36.3.3數(shù)據(jù)值沖突檢測(cè)與消除問題數(shù)據(jù)值沖突檢測(cè)與消除問題6.4數(shù)據(jù)變換n 數(shù)據(jù)變換(數(shù)據(jù)變換(data transformation)就是將數(shù)據(jù)進(jìn)行)就是將數(shù)據(jù)進(jìn)行規(guī)范化和聚集。規(guī)范化和聚集。n (1)平滑。幫助除去數(shù)據(jù)中的噪聲,還可以將連續(xù)的)平滑。幫助除去數(shù)據(jù)中的噪聲,還可以將連續(xù)的數(shù)據(jù)離散化。主要技術(shù)方法有:分箱方法、聚類方法和回?cái)?shù)據(jù)離散化。主要技術(shù)方法有:分箱方法、聚類方法和回歸方法。歸方法。n (2)聚集。對(duì)數(shù)據(jù)進(jìn)行總結(jié)或合計(jì)操作。例如:每)聚集。對(duì)數(shù)據(jù)進(jìn)行總結(jié)或合計(jì)操作。例如:每天銷售額(數(shù)據(jù))可以進(jìn)行合計(jì)操
31、作以獲得每月或每年的天銷售額(數(shù)據(jù))可以進(jìn)行合計(jì)操作以獲得每月或每年的總額。這一操作常用于構(gòu)造數(shù)據(jù)立方或?qū)?shù)據(jù)進(jìn)行多維度總額。這一操作常用于構(gòu)造數(shù)據(jù)立方或?qū)?shù)據(jù)進(jìn)行多維度的分析。的分析。6.4數(shù)據(jù)變換n (3)數(shù)據(jù)泛化()數(shù)據(jù)泛化(generation)。所謂泛化處理就是)。所謂泛化處理就是用更抽象(更高層次)的概念來(lái)取代低層次或數(shù)據(jù)層的數(shù)用更抽象(更高層次)的概念來(lái)取代低層次或數(shù)據(jù)層的數(shù)據(jù)對(duì)象。例如:街道屬性,就可以泛化到更高層次的概念,據(jù)對(duì)象。例如:街道屬性,就可以泛化到更高層次的概念,諸如:城市、國(guó)家。同樣對(duì)于數(shù)值型的屬性,如年齡屬性,諸如:城市、國(guó)家。同樣對(duì)于數(shù)值型的屬性,如年齡屬性,
32、就可以映射到更高層次概念,如:年輕、中年和老年。就可以映射到更高層次概念,如:年輕、中年和老年。6.4數(shù)據(jù)變換n (4)規(guī)格化。規(guī)格化就是將有關(guān)屬性數(shù)據(jù)按比例投)規(guī)格化。規(guī)格化就是將有關(guān)屬性數(shù)據(jù)按比例投射到特定小范圍之中,如將工資收入屬性值映射到射到特定小范圍之中,如將工資收入屬性值映射到-1.0到到1.0范圍內(nèi),以消除數(shù)值型屬性因大小不一而造成挖范圍內(nèi),以消除數(shù)值型屬性因大小不一而造成挖掘結(jié)果的偏差。規(guī)格化處理常常用于神經(jīng)網(wǎng)絡(luò)、聚類挖掘結(jié)果的偏差。規(guī)格化處理常常用于神經(jīng)網(wǎng)絡(luò)、聚類挖掘的數(shù)據(jù)預(yù)處理等等。下面介紹三種規(guī)格化方法:掘的數(shù)據(jù)預(yù)處理等等。下面介紹三種規(guī)格化方法:最小最小-最大規(guī)范化、最
33、大規(guī)范化、z-score 規(guī)范化和按小數(shù)定標(biāo)規(guī)范化。規(guī)范化和按小數(shù)定標(biāo)規(guī)范化。6.4數(shù)據(jù)變換最小最小-最大規(guī)范化最大規(guī)范化 假定假定minA和和maxA分別為屬性分別為屬性A的最小和最大值。最的最小和最大值。最小小-最大規(guī)范化通過計(jì)算最大規(guī)范化通過計(jì)算:例例1 假定屬性假定屬性income的最小與最大值分別為的最小與最大值分別為$12,000和和$98,000。我們想映射。我們想映射income到區(qū)間到區(qū)間0.0,0.1。根據(jù)最小。根據(jù)最小-最最大規(guī)范化,大規(guī)范化,income值值$73,600將變換為:將變換為:6.4數(shù)據(jù)變換z-score規(guī)范化規(guī)范化 屬性屬性A的值基于的值基于A的平均值和
34、標(biāo)準(zhǔn)差規(guī)范化。的平均值和標(biāo)準(zhǔn)差規(guī)范化。A的值的值v被被規(guī)范化為規(guī)范化為v,由下式計(jì)算:,由下式計(jì)算:例例2 假定屬性假定屬性income的平均值和標(biāo)準(zhǔn)差分別為的平均值和標(biāo)準(zhǔn)差分別為$54,000和和$16,000。使用。使用z-score規(guī)范化,值規(guī)范化,值$73,600被轉(zhuǎn)換為被轉(zhuǎn)換為6.4數(shù)據(jù)變換小數(shù)定標(biāo)規(guī)范化小數(shù)定標(biāo)規(guī)范化 通過移動(dòng)屬性通過移動(dòng)屬性A的小數(shù)點(diǎn)位置進(jìn)行規(guī)范化。小數(shù)點(diǎn)的移的小數(shù)點(diǎn)位置進(jìn)行規(guī)范化。小數(shù)點(diǎn)的移動(dòng)位數(shù)依賴于動(dòng)位數(shù)依賴于A的最大絕對(duì)值。的最大絕對(duì)值。A的值的值v被規(guī)范化為被規(guī)范化為v,由,由下式計(jì)算。其中下式計(jì)算。其中j是使是使Max(|v|)1的最小整數(shù)。的最小整數(shù)
35、。例例3 假定假定A的值由的值由-986到到917。A的最大絕對(duì)值為的最大絕對(duì)值為986。為使。為使用小數(shù)定標(biāo)規(guī)范化,我們用用小數(shù)定標(biāo)規(guī)范化,我們用1,000(即(即j=3)除每個(gè)值。這)除每個(gè)值。這樣,樣,-986被規(guī)范化為被規(guī)范化為-0.986。6.4數(shù)據(jù)變換 注意,規(guī)范化將原來(lái)的數(shù)據(jù)改變很多,特注意,規(guī)范化將原來(lái)的數(shù)據(jù)改變很多,特別是上述的后兩種方法。有必要保留規(guī)范化參別是上述的后兩種方法。有必要保留規(guī)范化參數(shù)(如平均值和標(biāo)準(zhǔn)差,如果使用數(shù)(如平均值和標(biāo)準(zhǔn)差,如果使用z-score規(guī)范規(guī)范化),以便將來(lái)的數(shù)據(jù)可以用一致的方式規(guī)范化),以便將來(lái)的數(shù)據(jù)可以用一致的方式規(guī)范化?;?。6.4數(shù)據(jù)變
36、換課堂練習(xí):課堂練習(xí): 假定用于分析的數(shù)據(jù)包含屬性假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)元組中。數(shù)據(jù)元組中age 的值如的值如下(按遞增序):下(按遞增序):13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70(a) 使用使用min-max 規(guī)范化,將規(guī)范化,將age 值值35 轉(zhuǎn)換到轉(zhuǎn)換到0.0,1.0區(qū)間。區(qū)間。(b) 使用使用z-score 規(guī)范化轉(zhuǎn)換規(guī)范化轉(zhuǎn)換age 值值35,其中,其中,age 的標(biāo)準(zhǔn)偏的標(biāo)準(zhǔn)偏差為差為
37、12.94 年。年。(c) 使用小數(shù)定標(biāo)規(guī)范化轉(zhuǎn)換使用小數(shù)定標(biāo)規(guī)范化轉(zhuǎn)換age 值值35。6.4數(shù)據(jù)變換n (5)屬性構(gòu)造。根據(jù)已有屬性集構(gòu)造新的屬性,以)屬性構(gòu)造。根據(jù)已有屬性集構(gòu)造新的屬性,以幫助數(shù)據(jù)挖掘過程。對(duì)于屬性構(gòu)造方法,它可以利用已有幫助數(shù)據(jù)挖掘過程。對(duì)于屬性構(gòu)造方法,它可以利用已有屬性集構(gòu)造出新的屬性,并加入到現(xiàn)有屬性集合中以幫助屬性集構(gòu)造出新的屬性,并加入到現(xiàn)有屬性集合中以幫助挖掘更深層次的模式知識(shí),提高挖掘結(jié)果準(zhǔn)確性。例如,挖掘更深層次的模式知識(shí),提高挖掘結(jié)果準(zhǔn)確性。例如,在客戶背景數(shù)據(jù)表中,根據(jù)客戶月收入,構(gòu)造在客戶背景數(shù)據(jù)表中,根據(jù)客戶月收入,構(gòu)造“收入水平收入水平”屬性
38、,取值為低、中、高;再如:根據(jù)寬、高屬性,可以屬性,取值為低、中、高;再如:根據(jù)寬、高屬性,可以構(gòu)造一個(gè)新屬性:面積。構(gòu)造合適的屬性能夠幫助減少學(xué)構(gòu)造一個(gè)新屬性:面積。構(gòu)造合適的屬性能夠幫助減少學(xué)習(xí)構(gòu)造決策樹時(shí)所出現(xiàn)的碎塊情況。此外通過屬性結(jié)合可習(xí)構(gòu)造決策樹時(shí)所出現(xiàn)的碎塊情況。此外通過屬性結(jié)合可以幫助發(fā)現(xiàn)所遺漏的屬性間相互聯(lián)系,而這常常對(duì)于數(shù)據(jù)以幫助發(fā)現(xiàn)所遺漏的屬性間相互聯(lián)系,而這常常對(duì)于數(shù)據(jù)挖掘過程是十分重要的。挖掘過程是十分重要的。 6.5數(shù)據(jù)歸約n 對(duì)大規(guī)模數(shù)據(jù)庫(kù)內(nèi)容進(jìn)行復(fù)雜的數(shù)據(jù)分析通常需要耗對(duì)大規(guī)模數(shù)據(jù)庫(kù)內(nèi)容進(jìn)行復(fù)雜的數(shù)據(jù)分析通常需要耗費(fèi)大量的時(shí)間,這就常常使得這樣的分析變得不現(xiàn)實(shí)和
39、不費(fèi)大量的時(shí)間,這就常常使得這樣的分析變得不現(xiàn)實(shí)和不可行,尤其是需要交互式數(shù)據(jù)挖掘時(shí)。數(shù)據(jù)歸約技術(shù)正是可行,尤其是需要交互式數(shù)據(jù)挖掘時(shí)。數(shù)據(jù)歸約技術(shù)正是用于幫助從原有龐大數(shù)據(jù)集中獲得一個(gè)精簡(jiǎn)的數(shù)據(jù)集合,用于幫助從原有龐大數(shù)據(jù)集中獲得一個(gè)精簡(jiǎn)的數(shù)據(jù)集合,并使這一精簡(jiǎn)數(shù)據(jù)集保持原有數(shù)據(jù)集的完整性,這樣在精并使這一精簡(jiǎn)數(shù)據(jù)集保持原有數(shù)據(jù)集的完整性,這樣在精簡(jiǎn)數(shù)據(jù)集上進(jìn)行數(shù)據(jù)挖掘顯然效率更高,并且挖掘出來(lái)的簡(jiǎn)數(shù)據(jù)集上進(jìn)行數(shù)據(jù)挖掘顯然效率更高,并且挖掘出來(lái)的結(jié)果與使用原有數(shù)據(jù)集所獲得結(jié)果基本相同。結(jié)果與使用原有數(shù)據(jù)集所獲得結(jié)果基本相同。n 數(shù)據(jù)歸約的主要策略有數(shù)據(jù)立方合計(jì)、維歸約、數(shù)據(jù)數(shù)據(jù)歸約的主要策略
40、有數(shù)據(jù)立方合計(jì)、維歸約、數(shù)據(jù)壓縮、數(shù)值歸約、離散化和概念分層產(chǎn)生等。壓縮、數(shù)值歸約、離散化和概念分層產(chǎn)生等。 n 數(shù)據(jù)立方體是數(shù)據(jù)的多維建模和表示。數(shù)據(jù)立方體數(shù)據(jù)立方體是數(shù)據(jù)的多維建模和表示。數(shù)據(jù)立方體的維數(shù)可以是任意的的維數(shù)可以是任意的n維。維。n 在最低層次所建立的數(shù)據(jù)立方稱為基立方,而最高在最低層次所建立的數(shù)據(jù)立方稱為基立方,而最高抽象層次的數(shù)據(jù)立方稱為頂立方。抽象層次的數(shù)據(jù)立方稱為頂立方。6.5數(shù)據(jù)歸約6.5.16.5.1數(shù)據(jù)立方合計(jì)數(shù)據(jù)立方合計(jì)n 頂立方代表整個(gè)公司三年、所有分支、所有類型商品頂立方代表整個(gè)公司三年、所有分支、所有類型商品的銷售總額。顯然每一層次的數(shù)據(jù)立方都是對(duì)其低一
41、層數(shù)的銷售總額。顯然每一層次的數(shù)據(jù)立方都是對(duì)其低一層數(shù)據(jù)的進(jìn)一步抽象。據(jù)的進(jìn)一步抽象。 6.5數(shù)據(jù)歸約6.5.16.5.1數(shù)據(jù)立方合計(jì)數(shù)據(jù)立方合計(jì)n 維歸約主要用于檢測(cè)和消除無(wú)關(guān)、弱相關(guān)、或冗余維歸約主要用于檢測(cè)和消除無(wú)關(guān)、弱相關(guān)、或冗余的屬性或維。由于數(shù)據(jù)集或許包含成百上千的屬性,這的屬性或維。由于數(shù)據(jù)集或許包含成百上千的屬性,這些屬性中的許多屬性是與挖掘任務(wù)無(wú)關(guān)的或冗余的。例些屬性中的許多屬性是與挖掘任務(wù)無(wú)關(guān)的或冗余的。例如:挖掘顧客是否會(huì)在商場(chǎng)購(gòu)買如:挖掘顧客是否會(huì)在商場(chǎng)購(gòu)買CD播放機(jī)的分類規(guī)則時(shí),播放機(jī)的分類規(guī)則時(shí),顧客的電話號(hào)碼很可能與挖掘任務(wù)無(wú)關(guān)。但如果利用人顧客的電話號(hào)碼很可能與
42、挖掘任務(wù)無(wú)關(guān)。但如果利用人類專家來(lái)幫助挑選有用的屬性,則是一件困難和費(fèi)時(shí)費(fèi)類專家來(lái)幫助挑選有用的屬性,則是一件困難和費(fèi)時(shí)費(fèi)力的工作,特別是當(dāng)數(shù)據(jù)內(nèi)涵并十分清楚的時(shí)候。力的工作,特別是當(dāng)數(shù)據(jù)內(nèi)涵并十分清楚的時(shí)候。6.5數(shù)據(jù)歸約6.5.26.5.2維歸約維歸約n 維歸約就是通過消除多余和無(wú)關(guān)的屬性而有效消減維歸約就是通過消除多余和無(wú)關(guān)的屬性而有效消減數(shù)據(jù)集的規(guī)模。通常采用屬性子集的選擇方法。屬性子數(shù)據(jù)集的規(guī)模。通常采用屬性子集的選擇方法。屬性子集選擇方法的目標(biāo)就是尋找出最小的屬性子集并確保新集選擇方法的目標(biāo)就是尋找出最小的屬性子集并確保新數(shù)據(jù)子集的概率分布盡可能接近原來(lái)數(shù)據(jù)集的概率分布。數(shù)據(jù)子集的
43、概率分布盡可能接近原來(lái)數(shù)據(jù)集的概率分布。利用篩選后的屬性集進(jìn)行數(shù)據(jù)挖掘所獲結(jié)果,由于使用利用篩選后的屬性集進(jìn)行數(shù)據(jù)挖掘所獲結(jié)果,由于使用了較少的屬性,從而使得用戶更加容易理解挖掘結(jié)果。了較少的屬性,從而使得用戶更加容易理解挖掘結(jié)果。 6.5數(shù)據(jù)歸約6.5.26.5.2維歸約維歸約n 包含包含d個(gè)屬性的集合共有個(gè)屬性的集合共有2d個(gè)不同子集,從初始屬性個(gè)不同子集,從初始屬性集中發(fā)現(xiàn)較好的屬性子集的過程就是一個(gè)最優(yōu)窮盡搜索集中發(fā)現(xiàn)較好的屬性子集的過程就是一個(gè)最優(yōu)窮盡搜索的過程,顯然隨著的過程,顯然隨著d不斷增加,搜索的可能將會(huì)增加到難不斷增加,搜索的可能將會(huì)增加到難以實(shí)現(xiàn)的地步。因此一般利用啟發(fā)知
44、識(shí)來(lái)幫助有效縮小以實(shí)現(xiàn)的地步。因此一般利用啟發(fā)知識(shí)來(lái)幫助有效縮小搜索空間。這類啟發(fā)式搜索通常都是基于可能獲得全局搜索空間。這類啟發(fā)式搜索通常都是基于可能獲得全局最優(yōu)的局部最優(yōu)來(lái)指導(dǎo)并幫助獲得相應(yīng)的屬性子集。最優(yōu)的局部最優(yōu)來(lái)指導(dǎo)并幫助獲得相應(yīng)的屬性子集。n 構(gòu)造屬性子集的基本啟發(fā)式方法有以下幾種:逐步構(gòu)造屬性子集的基本啟發(fā)式方法有以下幾種:逐步向前選擇、逐步向后刪除、向前選擇和向后刪除結(jié)合、向前選擇、逐步向后刪除、向前選擇和向后刪除結(jié)合、決策樹歸納。決策樹歸納。6.5數(shù)據(jù)歸約6.5.26.5.2維歸約維歸約n (1)逐步向前選擇。從一個(gè)空屬性集(作為屬性子)逐步向前選擇。從一個(gè)空屬性集(作為屬性
45、子集初始值)開始,每次從原來(lái)屬性集合中選擇一個(gè)當(dāng)前集初始值)開始,每次從原來(lái)屬性集合中選擇一個(gè)當(dāng)前最優(yōu)的屬性添加到當(dāng)前屬性子集中。直到無(wú)法選擇出最最優(yōu)的屬性添加到當(dāng)前屬性子集中。直到無(wú)法選擇出最優(yōu)屬性或滿足一定閾值約束為止。優(yōu)屬性或滿足一定閾值約束為止。 (2)逐步向后刪除。從一個(gè)全屬性集(作為屬性子)逐步向后刪除。從一個(gè)全屬性集(作為屬性子集初始值)開始,每次從當(dāng)前屬性子集中選擇一個(gè)當(dāng)前集初始值)開始,每次從當(dāng)前屬性子集中選擇一個(gè)當(dāng)前最差的屬性并將其從當(dāng)前屬性子集中消去。直到無(wú)法選最差的屬性并將其從當(dāng)前屬性子集中消去。直到無(wú)法選擇出最差屬性為止或滿足一定閾值約束為止。擇出最差屬性為止或滿足一
46、定閾值約束為止。6.5數(shù)據(jù)歸約6.5.26.5.2維歸約維歸約n (3)向前選擇和向后刪除相結(jié)合。將逐步向前選擇)向前選擇和向后刪除相結(jié)合。將逐步向前選擇方法與逐步向后刪除結(jié)合在一起,每次從當(dāng)前屬性子集方法與逐步向后刪除結(jié)合在一起,每次從當(dāng)前屬性子集中選擇一個(gè)當(dāng)前最差的屬性并將其從當(dāng)前屬性子集中消中選擇一個(gè)當(dāng)前最差的屬性并將其從當(dāng)前屬性子集中消去,以及從原來(lái)屬性集合中選擇一個(gè)當(dāng)前最優(yōu)的屬性添去,以及從原來(lái)屬性集合中選擇一個(gè)當(dāng)前最優(yōu)的屬性添加到當(dāng)前屬性子集中。直到無(wú)法選擇出最優(yōu)屬性且無(wú)法加到當(dāng)前屬性子集中。直到無(wú)法選擇出最優(yōu)屬性且無(wú)法選擇出最差屬性為止,或滿足一定閾值約束為止。選擇出最差屬性為止
47、,或滿足一定閾值約束為止。6.5數(shù)據(jù)歸約6.5.26.5.2維歸約維歸約n (4)決策樹歸納方法。通常用于分類的決策樹算)決策樹歸納方法。通常用于分類的決策樹算法也可以用于構(gòu)造屬性子集。具體方法就是:利用決策法也可以用于構(gòu)造屬性子集。具體方法就是:利用決策樹的歸納方法對(duì)初始數(shù)據(jù)進(jìn)行分類歸納學(xué)習(xí),獲得一個(gè)樹的歸納方法對(duì)初始數(shù)據(jù)進(jìn)行分類歸納學(xué)習(xí),獲得一個(gè)初始決策樹,所有沒有出現(xiàn)這個(gè)決策樹上的屬性均認(rèn)為初始決策樹,所有沒有出現(xiàn)這個(gè)決策樹上的屬性均認(rèn)為是無(wú)關(guān)屬性,因此將這些屬性從初始屬性集合刪除掉,是無(wú)關(guān)屬性,因此將這些屬性從初始屬性集合刪除掉,就可以獲得一個(gè)較優(yōu)的屬性子集。就可以獲得一個(gè)較優(yōu)的屬性子
48、集。6.5數(shù)據(jù)歸約6.5.26.5.2維歸約維歸約6.5數(shù)據(jù)歸約6.5.26.5.2維歸約維歸約n 數(shù)據(jù)壓縮就是利用數(shù)據(jù)編碼或數(shù)據(jù)轉(zhuǎn)換將原來(lái)的數(shù)據(jù)數(shù)據(jù)壓縮就是利用數(shù)據(jù)編碼或數(shù)據(jù)轉(zhuǎn)換將原來(lái)的數(shù)據(jù)集合壓縮為一個(gè)較小規(guī)模的數(shù)據(jù)集合。若僅根據(jù)壓縮后的集合壓縮為一個(gè)較小規(guī)模的數(shù)據(jù)集合。若僅根據(jù)壓縮后的數(shù)據(jù)集就可以恢復(fù)原來(lái)的數(shù)據(jù)集,那么就認(rèn)為這一壓縮是數(shù)據(jù)集就可以恢復(fù)原來(lái)的數(shù)據(jù)集,那么就認(rèn)為這一壓縮是無(wú)損的,如基于熵的編碼方法;否則就稱為有損的。在數(shù)無(wú)損的,如基于熵的編碼方法;否則就稱為有損的。在數(shù)據(jù)挖掘領(lǐng)域通常使用的三種數(shù)據(jù)壓縮方法均是有損的,分據(jù)挖掘領(lǐng)域通常使用的三種數(shù)據(jù)壓縮方法均是有損的,分別是小波
49、轉(zhuǎn)換、分形技術(shù)和主成分分析。別是小波轉(zhuǎn)換、分形技術(shù)和主成分分析。6.5數(shù)據(jù)歸約6.5.36.5.3數(shù)據(jù)壓縮數(shù)據(jù)壓縮n 主成分分析法具有變差最優(yōu)性、信息損失最小性、主成分分析法具有變差最優(yōu)性、信息損失最小性、相關(guān)最優(yōu)性和回歸最優(yōu)性,是數(shù)據(jù)壓縮和多元降維的重相關(guān)最優(yōu)性和回歸最優(yōu)性,是數(shù)據(jù)壓縮和多元降維的重要工具。利用主成分分析法可以把多個(gè)相關(guān)的變量(指要工具。利用主成分分析法可以把多個(gè)相關(guān)的變量(指標(biāo))變換成少數(shù)幾個(gè)互相無(wú)關(guān)的綜合變量(主成分),標(biāo))變換成少數(shù)幾個(gè)互相無(wú)關(guān)的綜合變量(主成分),這些綜合變量中包含了原來(lái)所有變量的大部分信息,且這些綜合變量中包含了原來(lái)所有變量的大部分信息,且每個(gè)綜合變
50、量只反映了經(jīng)濟(jì)系統(tǒng)一個(gè)獨(dú)立方向上的信息。每個(gè)綜合變量只反映了經(jīng)濟(jì)系統(tǒng)一個(gè)獨(dú)立方向上的信息。 6.5數(shù)據(jù)歸約6.5.36.5.3數(shù)據(jù)壓縮數(shù)據(jù)壓縮n 數(shù)值或數(shù)據(jù)塊歸約是指通過選擇替代的、較小的數(shù)數(shù)值或數(shù)據(jù)塊歸約是指通過選擇替代的、較小的數(shù)據(jù)表示形式減少數(shù)量,主要包含參數(shù)與非參數(shù)兩種基本據(jù)表示形式減少數(shù)量,主要包含參數(shù)與非參數(shù)兩種基本方法。所謂參數(shù)方法就是利用一個(gè)模型來(lái)幫助通過計(jì)算方法。所謂參數(shù)方法就是利用一個(gè)模型來(lái)幫助通過計(jì)算獲得原來(lái)的數(shù)據(jù),因此只需要存儲(chǔ)模型的參數(shù)即可(當(dāng)獲得原來(lái)的數(shù)據(jù),因此只需要存儲(chǔ)模型的參數(shù)即可(當(dāng)然異常數(shù)據(jù)也需要存儲(chǔ))。例如:線性和非線性回歸模然異常數(shù)據(jù)也需要存儲(chǔ))。例如:
51、線性和非線性回歸模型就可以根據(jù)一組變量預(yù)測(cè)計(jì)算另一個(gè)變量。而非參數(shù)型就可以根據(jù)一組變量預(yù)測(cè)計(jì)算另一個(gè)變量。而非參數(shù)方法則是存儲(chǔ)利用直方圖、聚類或取樣而獲得的消減后方法則是存儲(chǔ)利用直方圖、聚類或取樣而獲得的消減后數(shù)據(jù)集。數(shù)據(jù)集。6.5數(shù)據(jù)歸約6.5.46.5.4數(shù)值歸約數(shù)值歸約n(1)直方圖)直方圖n 直方圖使用分箱近似數(shù)據(jù)分布,是一種流行的數(shù)據(jù)直方圖使用分箱近似數(shù)據(jù)分布,是一種流行的數(shù)據(jù)歸約形式。屬性歸約形式。屬性A的直方圖將的直方圖將A的數(shù)據(jù)分布劃分為不相的數(shù)據(jù)分布劃分為不相交的子集交的子集(buckets),或桶。桶安放在水平軸上,而桶的,或桶。桶安放在水平軸上,而桶的高度(和面積)是該桶
52、所代表的值的平均頻率。如果每高度(和面積)是該桶所代表的值的平均頻率。如果每個(gè)桶只代表單個(gè)屬性值個(gè)桶只代表單個(gè)屬性值/頻率對(duì),則該桶稱為單桶。通頻率對(duì),則該桶稱為單桶。通常,桶表示給定屬性的一個(gè)連續(xù)區(qū)間。常,桶表示給定屬性的一個(gè)連續(xù)區(qū)間。6.5數(shù)據(jù)歸約6.5.46.5.4數(shù)值歸約數(shù)值歸約n例例4 下面的數(shù)據(jù)是下面的數(shù)據(jù)是AllElectronics 通常銷售的商品的單價(jià)表通常銷售的商品的單價(jià)表(按(按$取整)。已對(duì)數(shù)據(jù)進(jìn)行了排序:取整)。已對(duì)數(shù)據(jù)進(jìn)行了排序:1(2)、)、5(5)、)、8(2)、)、10(4)、)、12、14(3)、)、15(5)、)、18(8)、)、20(7)、)、21(4)
53、、)、25(5)、)、28、30(3)6.5數(shù)據(jù)歸約6.5.46.5.4數(shù)值歸約數(shù)值歸約n等寬:在等寬的直方圖中,每個(gè)桶的寬度區(qū)間是一個(gè)常數(shù)。等寬:在等寬的直方圖中,每個(gè)桶的寬度區(qū)間是一個(gè)常數(shù)。n等深(或等高):每個(gè)桶的頻率粗略地為常數(shù)。等深(或等高):每個(gè)桶的頻率粗略地為常數(shù)。6.5數(shù)據(jù)歸約6.5.46.5.4數(shù)值歸約數(shù)值歸約n課堂練習(xí):課堂練習(xí):n 假定用于分析的數(shù)據(jù)包含屬性假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)元組中。數(shù)據(jù)元組中age 的值的值如下(按遞增序):如下(按遞增序):13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25,
54、 30, 33, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70。n畫一個(gè)長(zhǎng)度為畫一個(gè)長(zhǎng)度為10(按照年齡原本定義,最小值從(按照年齡原本定義,最小值從0開始,開始,一直到數(shù)據(jù)最大值一直到數(shù)據(jù)最大值70)的等寬直方圖。)的等寬直方圖。 6.5數(shù)據(jù)歸約6.5.46.5.4數(shù)值歸約數(shù)值歸約n(2)聚類聚類n 聚類技術(shù)將數(shù)據(jù)行視為對(duì)象。對(duì)于聚類分析所獲得聚類技術(shù)將數(shù)據(jù)行視為對(duì)象。對(duì)于聚類分析所獲得的組或類則有性質(zhì):同一組或類中的對(duì)象彼此相似而不的組或類則有性質(zhì):同一組或類中的對(duì)象彼此相似而不同組或類中的對(duì)象彼此不相似。同組或類中的對(duì)象彼此不相似。n 在數(shù)
55、據(jù)歸約中,數(shù)據(jù)的聚類表示用于替換原來(lái)的數(shù)據(jù)。在數(shù)據(jù)歸約中,數(shù)據(jù)的聚類表示用于替換原來(lái)的數(shù)據(jù)。當(dāng)然這一技術(shù)的有效性依賴于實(shí)際數(shù)據(jù)內(nèi)在規(guī)律。在處當(dāng)然這一技術(shù)的有效性依賴于實(shí)際數(shù)據(jù)內(nèi)在規(guī)律。在處理帶有較強(qiáng)噪聲數(shù)據(jù)采用數(shù)據(jù)聚類方法常常是非常有效理帶有較強(qiáng)噪聲數(shù)據(jù)采用數(shù)據(jù)聚類方法常常是非常有效的。的。 6.5數(shù)據(jù)歸約6.5.46.5.4數(shù)值歸約數(shù)值歸約n(3)數(shù)據(jù)抽樣數(shù)據(jù)抽樣n 數(shù)據(jù)抽樣用數(shù)據(jù)的較小的樣本表示大的數(shù)數(shù)據(jù)抽樣用數(shù)據(jù)的較小的樣本表示大的數(shù)據(jù)集。它主要利用統(tǒng)計(jì)學(xué)中的抽樣方法,如據(jù)集。它主要利用統(tǒng)計(jì)學(xué)中的抽樣方法,如不不放回簡(jiǎn)單隨機(jī)抽樣、放回簡(jiǎn)單隨機(jī)抽樣、聚類放回簡(jiǎn)單隨機(jī)抽樣、放回簡(jiǎn)單隨機(jī)抽樣、
56、聚類抽樣、分層抽樣等。抽樣、分層抽樣等。6.5數(shù)據(jù)歸約6.5.46.5.4數(shù)值歸約數(shù)值歸約不放回簡(jiǎn)單隨機(jī)抽樣:不放回簡(jiǎn)單隨機(jī)抽樣: 由由D 的的N 個(gè)元組中不回放抽取個(gè)元組中不回放抽取n 個(gè)樣本(個(gè)樣本(n N);其中,);其中, D中任何元組被抽取的概率中任何元組被抽取的概率均為均為1/N。即,所有元組是等可能的。即,所有元組是等可能的。 放回簡(jiǎn)單隨機(jī)抽樣:該方法類似于不放回簡(jiǎn)單隨機(jī)抽放回簡(jiǎn)單隨機(jī)抽樣:該方法類似于不放回簡(jiǎn)單隨機(jī)抽樣,不同在于當(dāng)一個(gè)元組被抽取后,記錄它,然后放回樣,不同在于當(dāng)一個(gè)元組被抽取后,記錄它,然后放回去。這樣,一個(gè)元組被抽取后,它又被放回去。這樣,一個(gè)元組被抽取后,它
57、又被放回D,以便它,以便它可以再次被抽取??梢栽俅伪怀槿?。 6.5數(shù)據(jù)歸約6.5.46.5.4數(shù)值歸約數(shù)值歸約6.5數(shù)據(jù)歸約6.5.46.5.4數(shù)值歸約數(shù)值歸約n聚類選樣:如果聚類選樣:如果D 中的元組被分組放入中的元組被分組放入M 個(gè)互不相交個(gè)互不相交的的“聚類聚類”,則可以得到聚類的,則可以得到聚類的m 個(gè)簡(jiǎn)單隨機(jī)選樣;這個(gè)簡(jiǎn)單隨機(jī)選樣;這里,里,m M。例如,數(shù)據(jù)庫(kù)中元組通常一次取一頁(yè),這樣。例如,數(shù)據(jù)庫(kù)中元組通常一次取一頁(yè),這樣每頁(yè)就可以視為一個(gè)聚類。每頁(yè)就可以視為一個(gè)聚類。 6.5數(shù)據(jù)歸約6.5.46.5.4數(shù)值歸約數(shù)值歸約n分層選樣:如果分層選樣:如果D 被劃分成互不相交的部分,稱
58、作被劃分成互不相交的部分,稱作“層層”,則通過對(duì)每一層的簡(jiǎn)單隨機(jī)選樣就可以得到,則通過對(duì)每一層的簡(jiǎn)單隨機(jī)選樣就可以得到D 的分層選樣。的分層選樣。6.5數(shù)據(jù)歸約6.5.46.5.4數(shù)值歸約數(shù)值歸約n(4)離散化和概念分層產(chǎn)生離散化和概念分層產(chǎn)生n 離散化技術(shù)方法可以通過將屬性(連續(xù)取值)域值離散化技術(shù)方法可以通過將屬性(連續(xù)取值)域值范圍分為若干區(qū)間,來(lái)幫助消減一個(gè)連續(xù)(取值)屬性范圍分為若干區(qū)間,來(lái)幫助消減一個(gè)連續(xù)(取值)屬性的取值個(gè)數(shù)??梢杂靡粋€(gè)標(biāo)簽來(lái)表示一個(gè)區(qū)間內(nèi)的實(shí)際的取值個(gè)數(shù)??梢杂靡粋€(gè)標(biāo)簽來(lái)表示一個(gè)區(qū)間內(nèi)的實(shí)際數(shù)據(jù)值,這樣就形成了數(shù)據(jù)集的概念分層。數(shù)據(jù)值,這樣就形成了數(shù)據(jù)集的概念分
59、層。n 如對(duì)數(shù)據(jù)集如對(duì)數(shù)據(jù)集D遞歸的使用等寬分箱技術(shù),形成概念分遞歸的使用等寬分箱技術(shù),形成概念分層。層。6.5數(shù)據(jù)歸約6.5.46.5.4數(shù)值歸約數(shù)值歸約6.5數(shù)據(jù)歸約6.5.46.5.4數(shù)值歸約數(shù)值歸約n1)數(shù)值數(shù)據(jù)的離散化與概念分層)數(shù)值數(shù)據(jù)的離散化與概念分層n 數(shù)值數(shù)據(jù)的概念分層可以通過數(shù)據(jù)分析自動(dòng)產(chǎn)生,這數(shù)值數(shù)據(jù)的概念分層可以通過數(shù)據(jù)分析自動(dòng)產(chǎn)生,這些方法包括前面介紹過的分箱、直方圖、聚類等。它們些方法包括前面介紹過的分箱、直方圖、聚類等。它們能夠無(wú)干預(yù)的完成對(duì)屬性的概念分層,但是這些方法劃能夠無(wú)干預(yù)的完成對(duì)屬性的概念分層,但是這些方法劃分出來(lái)的層并不考慮邊界值是否直觀或自然。分出來(lái)
60、的層并不考慮邊界值是否直觀或自然。n 通常,用戶更希望分層具有自然的,易于記憶的、符通常,用戶更希望分層具有自然的,易于記憶的、符合人類思維習(xí)慣的邊界。例如人們希望看到合人類思維習(xí)慣的邊界。例如人們希望看到20-30、30-40,而不愿意看到,而不愿意看到23.333-36.97之類的分層。之類的分層。 6.5數(shù)據(jù)歸約6.5.46.5.4數(shù)值歸約數(shù)值歸約n 介紹一種通過自然劃分分段的方法進(jìn)行概念分層的過程。介紹一種通過自然劃分分段的方法進(jìn)行概念分層的過程。該方法應(yīng)用該方法應(yīng)用3-4-5規(guī)則,遞歸地將給定數(shù)據(jù)區(qū)域劃分為規(guī)則,遞歸地將給定數(shù)據(jù)區(qū)域劃分為3、4、或、或5個(gè)等寬的區(qū)間,具體描述如下:個(gè)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024美容師考試的片面性和全面性及答案
- 寵物營(yíng)養(yǎng)相關(guān)法律法規(guī)試題及答案
- 2024年計(jì)算機(jī)基礎(chǔ)考試模擬演練試題及答案
- 2024-2025學(xué)年內(nèi)蒙古巴彥淖爾一中高一下學(xué)期第一次學(xué)業(yè)診斷英語(yǔ)及答案
- 二手車評(píng)估師考試專業(yè)術(shù)語(yǔ)試題及答案
- 安裝造價(jià)考試試題及答案
- 開門安全教育課件
- 網(wǎng)絡(luò)貨幣基礎(chǔ)知識(shí)考核及答案
- 小自考公共事業(yè)管理反饋機(jī)制試題及答案
- 文綜全國(guó)卷試題及答案
- 火龍罐技術(shù)課件
- 中國(guó)人工智能系列白皮書 - 大模型技術(shù)(2023 版)
- 精神科癥狀學(xué)理論知識(shí)考核試題
- 河湖水系連通演變過程
- 財(cái)務(wù)審計(jì)投標(biāo)方案(完整技術(shù)標(biāo))
- 圖 紙 會(huì) 審 簽 到 表
- 機(jī)器人技術(shù)概述-(課堂)課件
- 車聯(lián)網(wǎng)技術(shù)與應(yīng)用PPT完整全套教學(xué)課件
- 城鎮(zhèn)燃?xì)鈱I(yè)知識(shí)培訓(xùn)課件
- 腹內(nèi)壓的測(cè)定與腹內(nèi)高壓的處理
- 消毒產(chǎn)品生產(chǎn)企業(yè)衛(wèi)生管理規(guī)范
評(píng)論
0/150
提交評(píng)論