讀書(shū)報(bào)告數(shù)據(jù)挖掘_第1頁(yè)
讀書(shū)報(bào)告數(shù)據(jù)挖掘_第2頁(yè)
讀書(shū)報(bào)告數(shù)據(jù)挖掘_第3頁(yè)
讀書(shū)報(bào)告數(shù)據(jù)挖掘_第4頁(yè)
讀書(shū)報(bào)告數(shù)據(jù)挖掘_第5頁(yè)
已閱讀5頁(yè),還剩4頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

讀書(shū)報(bào)告數(shù)據(jù)挖掘可以看成是信息技術(shù)自然化的結(jié)果。數(shù)據(jù)挖掘(datamining),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)(knowledge-discoveryindatabases,簡(jiǎn)稱:kdd)中的一個(gè)步驟。數(shù)據(jù)挖掘普通是指從大量的數(shù)據(jù)中自動(dòng)搜索隱藏于其中的有著特殊關(guān)系性(屬于associationruleleaming)的信息的過(guò)程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過(guò)統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過(guò)去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)上述目標(biāo)。數(shù)據(jù)挖掘利用了來(lái)自如下一些領(lǐng)域的思想:(1)來(lái)自統(tǒng)計(jì)學(xué)的抽樣、估計(jì)和假設(shè)檢驗(yàn),⑵人工智能、模式識(shí)別和機(jī)器學(xué)習(xí)的搜索算法、建模技術(shù)和學(xué)習(xí)理論。數(shù)據(jù)挖掘也迅速地接納了來(lái)自其他領(lǐng)域的思想,這些領(lǐng)域包括最優(yōu)化、進(jìn)化計(jì)算、信息論、信號(hào)處理、可視化和信息檢索。一些其他領(lǐng)域也起到重要的支撐作用。特殊地,需要數(shù)據(jù)庫(kù)系統(tǒng)提供有效的存儲(chǔ)、索引和查詢處理支持。源于高性能(并行)計(jì)算的技術(shù)在處理海量數(shù)據(jù)集方面往往是重要的。分布式技術(shù)也能匡助處理海量數(shù)據(jù),并且當(dāng)數(shù)據(jù)不能集中到一起處理時(shí)更是至關(guān)重耍。 數(shù)據(jù)挖掘是一種決策支持過(guò)程,它主要基于人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)、可視化技術(shù)等,高度自動(dòng)化地分析企業(yè)的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,匡助決策者調(diào)整市場(chǎng)策略,減少風(fēng)險(xiǎn),做出正確的決策。知識(shí)發(fā)現(xiàn)過(guò)程由以下三個(gè)階段組成:(1)數(shù)據(jù)準(zhǔn)備(2)數(shù)據(jù)挖掘(3)結(jié)果表達(dá)和解釋。數(shù)據(jù)挖掘可以與用戶或者知識(shí)庫(kù)交互。數(shù)據(jù)挖掘的任務(wù)有關(guān)聯(lián)分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析,等等。數(shù)據(jù)挖掘完整的步驟如下:①理解數(shù)據(jù)和數(shù)據(jù)的來(lái)源(understanding)o②獲取相關(guān)知識(shí)與技術(shù)(acquisition)。③整合與檢查數(shù)據(jù)(integrationandchecking)o④去除錯(cuò)誤或者不一致的數(shù)據(jù)(datacleaning)o⑤建立模型和假設(shè)(modelandhypothesisdevelopment)o⑥實(shí)際數(shù)據(jù)挖掘工作(datamining)。⑦測(cè)試和驗(yàn)證挖掘結(jié)果(testingandverification)。⑧解釋和應(yīng)用(interpretationanduse)。數(shù)據(jù)挖掘應(yīng)用到生活的各個(gè)方面,數(shù)據(jù)挖掘的十大經(jīng)典算法也隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展而不斷的改進(jìn)和完善,其中apriori算法是十大經(jīng)典算法中最為經(jīng)典的一種算法,該算法是一種挖掘關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集算法,其核心思想是通過(guò)候選集生成和情節(jié)的向下封閉檢測(cè)兩個(gè)階段來(lái)挖掘頻繁項(xiàng)集。而且算法已經(jīng)被廣泛的應(yīng)用到商業(yè)、網(wǎng)絡(luò)安全等各個(gè)領(lǐng)域。關(guān)聯(lián)規(guī)則的目的在于在一個(gè)數(shù)據(jù)集中找出項(xiàng)之間的關(guān)系,也稱之為購(gòu)物藍(lán)分析(marketbasketanalysis)o例如,購(gòu)買(mǎi)鞋的顧客,有10%的可能也會(huì)買(mǎi)襪子,60%的買(mǎi)面包的顧客,也會(huì)買(mǎi)牛奶。這其中最有名的例子就是尿布和啤酒的故事了。關(guān)聯(lián)規(guī)則的應(yīng)用場(chǎng)合。在商業(yè)銷售上,關(guān)聯(lián)規(guī)則可用于交叉銷售,以得到更大的收入;在保險(xiǎn)業(yè)務(wù)方面,如果浮現(xiàn)了不常見(jiàn)的索賠要求組合,則可能為欺詐,需要作進(jìn)一步的調(diào)查。在醫(yī)療方面,可找出可能的治療組合:在銀行方面,對(duì)顧客進(jìn)行分析,可以推薦感興趣的服務(wù)等等。apriorialgorithm是關(guān)聯(lián)規(guī)則里一項(xiàng)基本算法。關(guān)聯(lián)算法的基本思想是:首先找出所有的頻集,這些項(xiàng)集浮現(xiàn)的頻繁性至少和預(yù)定義的最小支持度一樣。然后由頻集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度。然后使用第1步找到的頻集產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合的項(xiàng)的所有規(guī)則,其中每一條規(guī)則的右部惟獨(dú)一項(xiàng),這里采用的是中規(guī)則的定義。一旦這些規(guī)則被生成,那末惟獨(dú)那些大于用戶給定的最小可信度的規(guī)則才被留下來(lái)。為了生成所有頻集,使用了遞推的方法。apriori算法的兩大缺點(diǎn):可能產(chǎn)生大量的候選集,以及可能需要重復(fù)掃描數(shù)據(jù)庫(kù)。篇二:數(shù)據(jù)挖掘讀書(shū)報(bào)告讀書(shū)報(bào)告數(shù)據(jù)挖掘可以看成是信息技術(shù)自然化的結(jié)果。數(shù)據(jù)挖掘(datamining),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)(knowledge-discoveryindatabases,簡(jiǎn)稱:kdd)中的一個(gè)步驟。數(shù)據(jù)挖掘普通是指從大量的數(shù)據(jù)中自動(dòng)搜索隱藏于其中的有著特殊關(guān)系性(屬于associationrulelearning)的信息的過(guò)程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過(guò)統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過(guò)去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)上述目標(biāo)。數(shù)據(jù)挖掘利用了來(lái)自如下一些領(lǐng)域的思想:(1)來(lái)自統(tǒng)計(jì)學(xué)的抽樣、估計(jì)和假設(shè)檢驗(yàn),⑵人工智能、模式識(shí)別和機(jī)器學(xué)習(xí)的搜索算法、建模技術(shù)和學(xué)習(xí)理論。數(shù)據(jù)挖掘也迅速地接納了來(lái)自其他領(lǐng)域的思想,這些領(lǐng)域包括最優(yōu)化、進(jìn)化計(jì)算、信息論、信號(hào)處理、可視化和信息檢索。一些其他領(lǐng)域也起到重要的支撐作用。特殊地,需要數(shù)據(jù)庫(kù)系統(tǒng)提供有效的存儲(chǔ)、索引和查詢處理支持。源于高性能(并行)計(jì)算的技術(shù)在處理海量數(shù)據(jù)集方面往往是重要的。分布式技術(shù)也能匡助處理海量數(shù)據(jù),并且當(dāng)數(shù)據(jù)不能集中到一起處理時(shí)更是至關(guān)重要。 數(shù)據(jù)挖掘是一種決策支持過(guò)程,它主要基于人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)、可視化技術(shù)等,高度自動(dòng)化地分析企業(yè)的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,匡助決策者調(diào)整市場(chǎng)策略,減少風(fēng)險(xiǎn),做出正確的決策。知識(shí)發(fā)現(xiàn)過(guò)程由以下三個(gè)階段組成:(1)數(shù)據(jù)準(zhǔn)備(2)數(shù)據(jù)挖掘(3)結(jié)果表達(dá)和解釋。數(shù)據(jù)挖掘可以與用戶或者知識(shí)庫(kù)交互。數(shù)據(jù)挖掘的任務(wù)有關(guān)聯(lián)分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析,等等。數(shù)據(jù)挖掘完整的步驟如下:①理解數(shù)據(jù)和數(shù)據(jù)的來(lái)源(understanding)o②獲取相關(guān)知識(shí)與技術(shù)(acquisition)。③整合與檢查數(shù)據(jù)(integrationandchecking)o④去除錯(cuò)誤或者不一致的數(shù)據(jù)(datacleaning)o⑤建立模型和假設(shè)(modelandhypothesisdevelopment)o⑥實(shí)際數(shù)據(jù)挖掘工作(datamining)。⑦測(cè)試和驗(yàn)證挖掘結(jié)果(testingandverification)。⑧解釋和應(yīng)用(interpretationanduse)。數(shù)據(jù)挖掘應(yīng)用到生活的各個(gè)方面,數(shù)據(jù)挖掘的十大經(jīng)典算法也隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展而不斷的改進(jìn)和完善,其中apriori算法是十大經(jīng)典算法中最為經(jīng)典的一種算法,該算法是一種挖掘關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集算法,其核心思想是通過(guò)候選集生成和情節(jié)的向下封閉檢測(cè)兩個(gè)階段來(lái)挖掘頻繁項(xiàng)集。而且算法已經(jīng)被廣泛的應(yīng)用到商業(yè)、網(wǎng)絡(luò)安全等各個(gè)領(lǐng)域。關(guān)聯(lián)規(guī)則的目的在于在一個(gè)數(shù)據(jù)集中找出項(xiàng)之間的關(guān)系,也稱之為購(gòu)物藍(lán)分析(marketbasketanalysis)o例如,購(gòu)買(mǎi)鞋的顧客,有10%的可能也會(huì)買(mǎi)襪子,60%的買(mǎi)面包的顧客,也會(huì)買(mǎi)牛奶。這其中最有名的例子就是尿布和啤酒的故事了。關(guān)聯(lián)規(guī)則的應(yīng)用場(chǎng)合。在商業(yè)銷售上,關(guān)聯(lián)規(guī)則可用于交叉銷售,以得到更大的收入;在保險(xiǎn)業(yè)務(wù)方面,如果浮現(xiàn)了不常見(jiàn)的索賠要求組合,則可能為欺詐,需要作進(jìn)一步的調(diào)查。在醫(yī)療方面,可找出可能的治療組合;在銀行方面,對(duì)顧客進(jìn)行分析,可以推薦感興趣的服務(wù)等等。apriorialgorithm是關(guān)聯(lián)規(guī)則里一項(xiàng)基本算法。關(guān)聯(lián)算法的基本思想是:首先找出所有的頻集,這些項(xiàng)集浮現(xiàn)的頻繁性至少和預(yù)定義的最小支持度一樣。然后由頻集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度。然后使用第1步找到的頻集產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合的項(xiàng)的所有規(guī)則,其中每一條規(guī)則的右部惟獨(dú)一項(xiàng),這里采用的是中規(guī)則的定義。一旦這些規(guī)則被生成,那末惟獨(dú)那些大于用戶給定的最小可信度的規(guī)則才被留下來(lái)。為了生成所有頻集,使用了遞推的方法。11=findfrequentl-itemsets(d); //挖掘頻繁1-項(xiàng)集,比較容易for(k=2;lk-1;k++){ck=apriori_gen(lk-l,min_sup); //調(diào)用apriori_gen方法生成候選頻繁k-項(xiàng)集foreachtransactiont£d{ //掃描事務(wù)數(shù)據(jù)庫(kù)dct=subset(ck,t);foreachcandidatecWctc.count++; //統(tǒng)計(jì)候選頻繁k-項(xiàng)集的計(jì)數(shù)}Ik={ceck|c.count^min_sup}//滿足最小支持度的k-項(xiàng)集即為頻繁k-項(xiàng)集)return1=UkIk; //合并頻繁k-項(xiàng)集(k>0)apriori算法就是運(yùn)用了關(guān)聯(lián)規(guī)則的算法思想。以下是apriori算法的流程圖:apriori算法的兩大缺點(diǎn):可能產(chǎn)生大量的候選集,以及可能需要重復(fù)掃描數(shù)據(jù)庫(kù)。提高apriori算法的效率:基于散列的技術(shù)(散列項(xiàng)集到對(duì)應(yīng)的桶中)一種基于散列的技術(shù)可以用于壓縮候選k項(xiàng)集Ck(k>;l)o事務(wù)壓縮(壓縮未來(lái)迭代掃描的事務(wù)數(shù));不包含任何頻繁k項(xiàng)集的事務(wù)不可能包含任何頻繁(k+1)項(xiàng)集。因此,這種事務(wù)在其后的考慮時(shí),可以加之標(biāo)記或者刪除,因?yàn)楫a(chǎn)生j項(xiàng)集(j>k)的數(shù)據(jù)庫(kù)掃描再也不需要他們。劃分(為尋覓候選項(xiàng)集劃分?jǐn)?shù)據(jù))抽樣(對(duì)給定數(shù)據(jù)的子集挖掘)動(dòng)態(tài)項(xiàng)集技術(shù)(在掃描的不同點(diǎn)添加候選項(xiàng)集)關(guān)聯(lián)算法的C++簡(jiǎn)單實(shí)現(xiàn)(1)算法數(shù)據(jù):對(duì)給定數(shù)據(jù)集用apriori算法進(jìn)行挖掘,找出其中的頻繁集并生成關(guān)聯(lián)規(guī)則。對(duì)下面數(shù)據(jù)集進(jìn)行挖掘:(2)算法步驟:①首先單趟掃描數(shù)據(jù)集,計(jì)算各個(gè)一項(xiàng)集的支持度,根據(jù)給定的最小支持度閔值,得到一項(xiàng)頻繁集11。②然后通過(guò)連接運(yùn)算,得到二項(xiàng)候選集,對(duì)每一個(gè)候選集再次掃描數(shù)據(jù)集,得出每一個(gè)候選集的支持度,再與最小支持度比較。得到二項(xiàng)頻繁集12。 ③如此進(jìn)行下去,直到不能連接產(chǎn)生新的候選集為止。④對(duì)于找到的所有頻繁集,用規(guī)則提取算法進(jìn)行關(guān)聯(lián)規(guī)則的提取。(3)C++算法的簡(jiǎn)單實(shí)現(xiàn)①首先要在工程名文件夾里自己定義date.txt文檔存放數(shù)據(jù),然后在main函數(shù)中用file*fp=fopen(date.txt,r);將數(shù)據(jù)導(dǎo)入算法。②定義intcountll[10];找到各一維頻繁子集浮現(xiàn)的次數(shù)。定義charcurll[20][2];實(shí)現(xiàn)浮現(xiàn)的一維子集。由于給出的數(shù)據(jù)最多有4個(gè)數(shù),所以同樣的我們要定義到4維來(lái)放數(shù)據(jù)。intcountl2[10]; 〃各二維頻繁子集浮現(xiàn)的次數(shù)charcur12[20][3];〃浮現(xiàn)的二維子集intcountl3[10]; 〃各三維頻繁子集浮現(xiàn)的次數(shù)charcurl3[20][4];〃浮現(xiàn)的三維子集charcur[50][4];③定義intsizestr(char*m)得到字符串的長(zhǎng)度。實(shí)現(xiàn)代碼如下:intsizestr(char*m)(inti=0;while(*(m+i)!=0)(i++;}returni;)④比較兩個(gè)字符串,如果相等返回true,否則返回falseboolopd(char*x,char*y){篇三:《數(shù)據(jù)挖掘》讀書(shū)報(bào)告《數(shù)據(jù)挖掘?qū)д摗纷x書(shū)報(bào)告隨著網(wǎng)絡(luò)信息時(shí)代的到來(lái),數(shù)據(jù)采集和數(shù)據(jù)存儲(chǔ)技術(shù)也在飛速發(fā)展,使得各組織機(jī)構(gòu)可以積累海量數(shù)據(jù)。然而,提取實(shí)用的信息已經(jīng)成為巨大的挑戰(zhàn)。由于數(shù)據(jù)量太大,無(wú)法使用傳統(tǒng)的數(shù)據(jù)分析工具和技術(shù)處理它們。有時(shí),即使數(shù)據(jù)集相對(duì)較小,但由于數(shù)據(jù)本身具有的一些非傳統(tǒng)特點(diǎn),也不能使用傳統(tǒng)的方法進(jìn)行處理。數(shù)據(jù)挖掘正是為了解決傳統(tǒng)分析方法的不足,并針對(duì)大規(guī)模數(shù)據(jù)的分析處理而浮現(xiàn)的。它將傳統(tǒng)的數(shù)據(jù)分析方法與處理大量數(shù)據(jù)的復(fù)雜算法相結(jié)合,為探查和分析新的數(shù)據(jù)類型以及用新方法分析舊有數(shù)據(jù)類型提供了令人振奮的機(jī)會(huì)。我所閱讀的《數(shù)據(jù)挖掘?qū)д摗放c其他同類圖書(shū)不同的是,這本書(shū)將重點(diǎn)放在如何用數(shù)據(jù)挖掘知識(shí)解決各種實(shí)際問(wèn)題上。而且本書(shū)只要求很少的豫備知識(shí),即使沒(méi)有數(shù)據(jù)庫(kù)背景,只需要很少的統(tǒng)計(jì)學(xué)或者數(shù)學(xué)知識(shí)背景,就能讀懂其中的內(nèi)容?!稊?shù)據(jù)挖掘?qū)д摗饭卜譃槭?,主要涵蓋五個(gè)主題:數(shù)據(jù)、分類、關(guān)聯(lián)分析、聚類和異常檢測(cè)。除異常檢測(cè)外,每一個(gè)主題都分兩章講述。對(duì)于分類、關(guān)聯(lián)分析和聚類,前面一章講述基本概念、代表性算法和評(píng)估技術(shù),后面一章深入討論高級(jí)概念和算法。第一章的緒論主要對(duì)數(shù)據(jù)挖掘進(jìn)行了概述。什么是數(shù)據(jù)挖掘?用比較簡(jiǎn)潔的話說(shuō),數(shù)據(jù)挖掘就是在大型數(shù)據(jù)存儲(chǔ)庫(kù)中,自動(dòng)地發(fā)現(xiàn)實(shí)用信息的過(guò)程,它是數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)全過(guò)程的一個(gè)核心步驟。作為一類深層次的數(shù)據(jù)分析方法,它利用了數(shù)據(jù)庫(kù)、人工智能和數(shù)理統(tǒng)計(jì)等多方面的技術(shù),幫助人們對(duì)大規(guī)模數(shù)據(jù)進(jìn)行高效的分析處理,以節(jié)約時(shí)間,將更多的精力投入到更高層的研究中,從而提高科研工作的效率。相對(duì)于傳統(tǒng)數(shù)據(jù)分析方法,數(shù)據(jù)挖據(jù)技術(shù)需具備以下特征:(1)由于數(shù)據(jù)挖掘通常要處理的數(shù)據(jù)是海量的,它的算法必須是可伸縮的;(2)為低維數(shù)據(jù)開(kāi)辟的傳統(tǒng)數(shù)據(jù)分析技術(shù)通常不能很好地處理那些具有成千上百屬性的數(shù)據(jù)集,且隨著維度的增加,某些數(shù)據(jù)分析算法的計(jì)算復(fù)雜性也在迅速增加,這就要求數(shù)據(jù)挖掘技術(shù)具有高維性;(3)數(shù)據(jù)挖掘還需具備處理異種數(shù)據(jù)和復(fù)雜數(shù)據(jù)的能力;(4)需要開(kāi)辟分布式數(shù)據(jù)挖掘技術(shù)來(lái)處理在地理上分布在屬于多個(gè)機(jī)構(gòu)的資源中的數(shù)據(jù);(5)能自動(dòng)地產(chǎn)生和評(píng)估假設(shè)等。接著介紹了數(shù)據(jù)挖掘任務(wù):預(yù)測(cè)任務(wù)和描述任務(wù)。預(yù)測(cè)任務(wù)是通過(guò)分析數(shù)據(jù)建立一個(gè)或者一組模型,并試圖預(yù)測(cè)新數(shù)據(jù)集的行為,包括分類/預(yù)測(cè)分析、時(shí)間序列分析、離群點(diǎn)分析等。描述任務(wù)以簡(jiǎn)潔概要的方式描述數(shù)據(jù),并提供數(shù)據(jù)的普通性質(zhì)和規(guī)律,如聚類分析、關(guān)聯(lián)分析、數(shù)據(jù)匯總等。本章簡(jiǎn)單介紹了四種主要數(shù)據(jù)挖掘任務(wù):預(yù)測(cè)建模、關(guān)聯(lián)分析、聚類分析和異常檢測(cè)。預(yù)測(cè)建模旨在以說(shuō)明變量函數(shù)的方式為目標(biāo)變量建立模型。預(yù)測(cè)建模任務(wù)分為兩類:分類,用于預(yù)測(cè)離散的目標(biāo)變量;回歸,用于預(yù)測(cè)連續(xù)的目標(biāo)變量。兩項(xiàng)任務(wù)的目標(biāo)都是訓(xùn)練一個(gè)模型,使目標(biāo)預(yù)測(cè)值與實(shí)際之間的誤差達(dá)到最小。關(guān)聯(lián)分析用來(lái)發(fā)現(xiàn)描述數(shù)據(jù)中強(qiáng)關(guān)聯(lián)特征的模式,它的目標(biāo)是以有效的方式提取最有趣的模式。聚類分析旨在發(fā)現(xiàn)緊密相關(guān)的觀測(cè)值群組,使得與屬于不同簇的觀測(cè)值相比,屬于同一簇的觀測(cè)值相互之間盡可能類似,聚類分析通常用來(lái)對(duì)相關(guān)顧客分組等。異常檢測(cè)的任務(wù)則是識(shí)別其特征顯著不同于其他數(shù)據(jù)的觀測(cè)值,這樣的觀測(cè)值稱為離群點(diǎn)或者異常點(diǎn)。它的應(yīng)用包括檢測(cè)欺詐、網(wǎng)絡(luò)攻擊等。本書(shū)第二章討論了數(shù)據(jù)的基本類型、數(shù)據(jù)質(zhì)量、預(yù)處理技術(shù)以及相似性和相異性度量。數(shù)據(jù)挖掘是一種技術(shù),數(shù)據(jù)挖掘研究通常是為了適應(yīng)新的應(yīng)用領(lǐng)域和新的數(shù)據(jù)類型的需要而展開(kāi)的,而數(shù)據(jù)的類型決定我們應(yīng)使用哪種工具和技術(shù)來(lái)分析數(shù)據(jù)。因此了解數(shù)據(jù)對(duì)于數(shù)據(jù)挖掘的成敗來(lái)說(shuō)至關(guān)重要。數(shù)據(jù)對(duì)象用一組刻劃對(duì)象實(shí)體基本特性的屬性描述。屬性分為分類的(定性的)和數(shù)值的(定量的),分類屬性包括標(biāo)稱屬性和序數(shù)屬性,它們不具有數(shù)的大部份性質(zhì)。數(shù)值屬性包括區(qū)間屬性和比率屬性,它們用數(shù)表示,且具有數(shù)的大部份性質(zhì)。書(shū)中還介紹了三種比較常見(jiàn)的數(shù)據(jù)集類型:記錄數(shù)據(jù)(如購(gòu)物籃數(shù)據(jù))、基于圖形的數(shù)據(jù)、有序數(shù)據(jù)。而由于人的錯(cuò)誤、測(cè)量設(shè)備的限制或者數(shù)據(jù)采集過(guò)程的漏洞等因素,數(shù)據(jù)普通存在質(zhì)量問(wèn)題。數(shù)據(jù)質(zhì)量問(wèn)題主要是在數(shù)據(jù)測(cè)量和采集方面產(chǎn)生的。測(cè)量誤差主要有:噪聲和偽像、精度、偏倚和準(zhǔn)確率。數(shù)據(jù)采集錯(cuò)誤主要由離群點(diǎn)、遺漏和不一致的值、重復(fù)數(shù)據(jù)構(gòu)成。特別地,數(shù)據(jù)質(zhì)量問(wèn)題從應(yīng)用上考慮,存在時(shí)效性和相關(guān)性等問(wèn)題。為了提高數(shù)據(jù)質(zhì)量,數(shù)據(jù)挖掘主要著眼于兩個(gè)方面:(1)數(shù)據(jù)質(zhì)量問(wèn)題的檢測(cè)和糾正;(2)使用可以容忍低質(zhì)量數(shù)據(jù)的算法。而數(shù)據(jù)預(yù)處理過(guò)程則是為了改善數(shù)據(jù)挖掘分析工作,減少時(shí)間,降低成本和提高質(zhì)量,使數(shù)據(jù)更加適合挖掘。文中討論了一些數(shù)據(jù)預(yù)處理的思想和方法:會(huì)萃、抽樣、維歸約、特征子集選擇、特征創(chuàng)建、離散化和二元化、變量變換等。大致可以分為兩類:選擇分析所需要的數(shù)據(jù)對(duì)象和屬性以及創(chuàng)建或者改變屬性。其中,在數(shù)據(jù)屬性個(gè)數(shù)較低時(shí),維歸約可以刪除不相關(guān)特征并降低噪聲,還可以使模型更容易理解,更容易使數(shù)據(jù)可視化。在這種情況下,采用維歸約進(jìn)行數(shù)據(jù)預(yù)處理,數(shù)據(jù)挖掘算法的效果會(huì)更好。最后本書(shū)還講述了相似性度量和相異性度量的含義及相關(guān)計(jì)算方法。普通使用鄰近度來(lái)表示相似性或者相異性。相似度通常在0和1之間取值,兩個(gè)對(duì)象越相似,它們的相似度越高,相異度就越低。距離通常用來(lái)表示特定類型的相異度。為了直接了當(dāng)?shù)谋砻鲀蓚€(gè)對(duì)象之間的相似或者相異程度,鄰近度度量被定義為或者變換到區(qū)間[0,1]中的值,書(shū)中詳細(xì)介紹了鄰近度到[0,1]區(qū)間的變換方法。接下來(lái)首先介紹了包含簡(jiǎn)單屬性的對(duì)象之間的鄰近度計(jì)算方法,然后考慮具有多個(gè)屬性的對(duì)象的鄰近度的計(jì)算方法。在選取鄰近度度量的過(guò)程中,應(yīng)注意以下幾點(diǎn):(1)鄰近性度量的類型應(yīng)當(dāng)與數(shù)據(jù)類型相適應(yīng):(2)對(duì)于許多稠密的、連續(xù)的數(shù)據(jù),通常使用距離度量,如歐幾里得距離等;(3)連續(xù)屬性之間的鄰近度通常用屬性值的差來(lái)表示,且距離度量提供了一些將這些差組合到總鄰近性度量的良好方法。在許多情況下,一旦計(jì)算出數(shù)據(jù)對(duì)象之間的相似性或者相異性,就再也不需要原始數(shù)據(jù)了。第三章,探索數(shù)據(jù),本章對(duì)數(shù)據(jù)進(jìn)行初步的研究,以便更好地理解它的特殊性質(zhì)。以鶯尾花數(shù)據(jù)集為例,詳細(xì)介紹了匯總統(tǒng)計(jì)、可視化、聯(lián)機(jī)分析處理等用于數(shù)據(jù)探索的標(biāo)準(zhǔn)方法。數(shù)據(jù)探索有助于選擇合適的數(shù)據(jù)預(yù)處理和數(shù)據(jù)分析技術(shù),它甚至可以處理一些通常由數(shù)據(jù)挖掘解決的問(wèn)題。匯總統(tǒng)計(jì)是最常見(jiàn)的統(tǒng)計(jì)形式,本章集中討論了對(duì)單個(gè)屬性值的匯總統(tǒng)計(jì),同時(shí)簡(jiǎn)略介紹了某些多元匯總統(tǒng)計(jì)。對(duì)于分類屬性,往往考慮值的眾數(shù)和頻率;對(duì)于有序?qū)傩?,通??紤]值集的百分位數(shù);對(duì)于連續(xù)屬性,兩個(gè)使用最廣泛的匯總統(tǒng)計(jì)是均值和中位數(shù)。連續(xù)屬性另一組常用匯總統(tǒng)計(jì)是值集的彌散或者擴(kuò)散度量(極差和方差等)。對(duì)于多元數(shù)據(jù),每個(gè)屬性的擴(kuò)散可以獨(dú)立于其他屬性,可使用極差和方差等擴(kuò)散度量進(jìn)行匯總統(tǒng)計(jì)。而具有連續(xù)變量的數(shù)據(jù),數(shù)據(jù)的擴(kuò)散則更多的用協(xié)方差矩陣S表示。本章重點(diǎn)強(qiáng)調(diào)可視化技術(shù),數(shù)據(jù)可視化是指以圖形或者表格的形式顯示信息,數(shù)據(jù)探索中使用的可視化等技術(shù)可用于理解和解釋數(shù)據(jù)挖掘結(jié)果。可視化的第一步就是將信息映射成可視形式,也就是說(shuō),數(shù)據(jù)對(duì)象、它們的屬性、以及數(shù)據(jù)對(duì)象之間的聯(lián)系要轉(zhuǎn)換成諸如點(diǎn)、線、形狀和顏色等圖形元素。普通來(lái)說(shuō),很難確保將對(duì)象和屬性的映射表示成圖形元素之間易于觀察的聯(lián)系,因此可視化的主要難點(diǎn)就是選擇一種技術(shù),讓關(guān)注的聯(lián)系易于觀察。本書(shū)主要討論了三種類型的可視化技術(shù):少量屬性的可視化、具有時(shí)間和/或者空間屬性的數(shù)據(jù)可視化,以及高維數(shù)據(jù)可視化。少量屬性的可視化可以采用直方圖、盒狀圖、百分位數(shù)圖和經(jīng)驗(yàn)累計(jì)分布函數(shù)圖、餅圖、擴(kuò)散圖、二維直方圖等技術(shù)??梢暬瘯r(shí)間空間數(shù)據(jù)則可采用等高線圖、曲面圖、矢量場(chǎng)圖、低維切片、動(dòng)畫(huà)等技術(shù)??梢暬呔S數(shù)據(jù)可以采用平行坐標(biāo)系、星形坐標(biāo)和chernoff臉等技術(shù)。最后介紹了olap和多維數(shù)據(jù)分析。olap是一種新近開(kāi)辟的包含一系列考察多維數(shù)組數(shù)據(jù)的技術(shù),它的分析功能集中在從多維數(shù)組中創(chuàng)建匯總表的各種方法。在用多維數(shù)組表示數(shù)據(jù)的過(guò)程中,我們需要注意兩點(diǎn):維的識(shí)別和分析所關(guān)注的屬性的識(shí)別。本書(shū)主要討論數(shù)據(jù)立方體的創(chuàng)建和相關(guān)操作,如切片、切塊、維歸約、上卷和下鉆。其中,上卷和下鉆操作與會(huì)萃相關(guān)。但它們不同于迄今為止所討論的會(huì)萃操作,它們?cè)谝粋€(gè)維內(nèi)會(huì)萃單元,而不是在整個(gè)維上會(huì)萃。第四章和第五章涵蓋分類,第四章是基礎(chǔ),討論決策樹(shù)分類和一些重要的分類問(wèn)題:過(guò)分?jǐn)M合、性能評(píng)估和不同分類模型的比較。分類任務(wù)就是通過(guò)分析訓(xùn)練集中的數(shù)據(jù),為每一個(gè)類別建立分類分析模型,然后用這個(gè)分類分析模型對(duì)數(shù)據(jù)庫(kù)中的其他記錄進(jìn)行分類。分類模型可用于描述性建模和預(yù)測(cè)性建模。解決分類問(wèn)題的方法有不少,第四章重點(diǎn)介紹決策樹(shù)分類法,它采用樹(shù)狀分岔的架構(gòu)來(lái)產(chǎn)生規(guī)則,合用于所有分類的問(wèn)題。hunt算法是許多決策樹(shù)算法的基礎(chǔ),它采用貪心策略,在選擇劃分?jǐn)?shù)據(jù)的屬性時(shí),采取一系列局部最優(yōu)決策來(lái)構(gòu)造決策樹(shù)。在hunt算法中,通過(guò)將訓(xùn)練記錄相繼劃分為較純的子集,以遞歸方式建立決策樹(shù)。書(shū)中以預(yù)測(cè)貸款申請(qǐng)者是否會(huì)按時(shí)歸還貸款為例,詳細(xì)介紹了hunt算法的相關(guān)步驟。在構(gòu)建決策樹(shù)的同時(shí),決策樹(shù)歸納的學(xué)習(xí)算法必須解決下面兩個(gè)問(wèn)題即如何分裂訓(xùn)練記錄和如何住手分裂過(guò)程。為了實(shí)現(xiàn)分裂訓(xùn)練記錄,算法必須為不同類型的屬性指定測(cè)試條件的方法,并提供評(píng)估每種測(cè)試條件的客觀度量,如不純性度量。對(duì)于如何住手分裂過(guò)程,一個(gè)可能的策略是分裂結(jié)點(diǎn),直到所有的記錄都屬于同一個(gè)類,或者所有的記錄都具有相同的屬性值,還可以使用其他的標(biāo)準(zhǔn)提前終止樹(shù)的生長(zhǎng)過(guò)程。此外,一個(gè)好的分類模型必須具有低訓(xùn)練誤差和低泛化誤差。訓(xùn)練誤差就是在訓(xùn)練記錄上誤分類樣本比例,泛化誤差即模型在未知記錄上的期望誤差。所謂模型過(guò)分?jǐn)M合就是對(duì)訓(xùn)練數(shù)據(jù)擬合度過(guò)高的模型,其泛化誤差可能比具有較高訓(xùn)練誤差的模型高。造成模型過(guò)分?jǐn)M合的一些潛在因素:噪聲、缺乏代表性樣本、大量的候選屬性和少量的訓(xùn)練記錄等。我們可以使用以下兩種方法在決策樹(shù)歸納上避免過(guò)分?jǐn)M合:先剪枝(提前終止規(guī)則)和后剪枝。由于學(xué)習(xí)算法只能訪問(wèn)訓(xùn)練數(shù)據(jù)集,對(duì)檢驗(yàn)數(shù)據(jù)集,它一無(wú)所知,我們所能做的就是估計(jì)決策樹(shù)的泛化誤差。文中提供了一些估計(jì)泛化誤差的方法:使用訓(xùn)練誤差估計(jì)、結(jié)合模型復(fù)雜度估計(jì)、用訓(xùn)練誤差的統(tǒng)計(jì)修正來(lái)估計(jì)、使用確認(rèn)集估計(jì)。對(duì)于泛化誤差的可靠估計(jì)能讓學(xué)習(xí)算法搜索到準(zhǔn)確的模型,且不會(huì)對(duì)訓(xùn)練數(shù)據(jù)過(guò)分?jǐn)M合。然后介紹了評(píng)估分類器性能的四種方法:保持方法、隨機(jī)二次抽樣、交叉驗(yàn)證和自助法。最后詳細(xì)討論比較分類器的方法。在第四章基礎(chǔ)上,第五章介紹其他重要的分類技術(shù):基于規(guī)則的系統(tǒng)、最近鄰分類器、貝葉斯分類器、人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)以及組合分類器,還介紹了類失衡和多類問(wèn)題?;谝?guī)則的分類器是使用一組"if…then…”規(guī)則來(lái)對(duì)記錄進(jìn)行分類的技術(shù),相對(duì)其他分類技術(shù)而言,它和最近鄰分類器是最簡(jiǎn)單的。分類規(guī)則的質(zhì)量可以用覆蓋率和準(zhǔn)確率來(lái)度量?;谝?guī)則的分類器是根據(jù)測(cè)試記錄所觸發(fā)的規(guī)則來(lái)對(duì)記錄進(jìn)行分類的,書(shū)中以動(dòng)物分類為例,做了詳細(xì)的介紹。基于最近鄰的分類器是一類基于實(shí)例的學(xué)習(xí),它使用具體的訓(xùn)練實(shí)例進(jìn)行預(yù)測(cè),是一種消極學(xué)習(xí)方法,它不需要建立模型。貝葉斯分類方法是一種對(duì)屬性集和類變量的概率關(guān)系建模的方法。文中詳細(xì)介紹了貝葉斯分類器的兩種實(shí)現(xiàn):樸素貝葉斯和貝葉斯信念網(wǎng)絡(luò)。貝葉斯分類器從理論上講具有最小的出錯(cuò)率,還可以用來(lái)為不直接使用貝葉斯定理的其他分類算法提供理論判定。其缺點(diǎn)主要來(lái)自于貝葉斯分類的假定,當(dāng)假定成立時(shí),與其分類算法相比最精確的,然而,在實(shí)踐中,假定不一定總是成立的。人工神經(jīng)網(wǎng)絡(luò)是有一組相互連接的結(jié)點(diǎn)和有向鏈構(gòu)成。本章重點(diǎn)介紹了如下兩種ann模型:感知器、多層人工神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)技術(shù)的優(yōu)點(diǎn)是對(duì)其噪聲數(shù)據(jù)具有較高的承受能力,對(duì)未經(jīng)訓(xùn)練的數(shù)據(jù)具有分類識(shí)別的能力。但是它的主要缺點(diǎn)是可解釋性差,這影響了神經(jīng)網(wǎng)絡(luò)技術(shù)的使用。相對(duì)于神經(jīng)網(wǎng)絡(luò)技術(shù),決策樹(shù)技術(shù)的優(yōu)點(diǎn)比較易于理解和解釋,而它的主要缺點(diǎn)是由于遞歸劃分方式導(dǎo)致數(shù)據(jù)子集變小,失去了進(jìn)一步劃分的意義。支持向量機(jī)是一種更高級(jí)的分類技術(shù),它可以很好地應(yīng)用于高維數(shù)據(jù),避免了維災(zāi)難。它通過(guò)最大化決策邊界的邊緣來(lái)控制模型的能力。而組合方法則是通過(guò)會(huì)萃多個(gè)分類器的預(yù)測(cè)來(lái)提高分類的準(zhǔn)確率。組合方法由訓(xùn)練數(shù)據(jù)構(gòu)建一組基分類器,然后通過(guò)對(duì)每一個(gè)基分類器的預(yù)測(cè)進(jìn)行投票來(lái)進(jìn)行分類。文中主要介紹了構(gòu)建組合分類器的技術(shù)及組合方法比任意單分類器的效果好的原因。總之,書(shū)中介紹的分類算法雖多,但各有優(yōu)缺點(diǎn),因此在具體工作中,必須根據(jù)數(shù)據(jù)類型特點(diǎn)及數(shù)據(jù)集大小,選擇合適的算法,也可以通過(guò)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理來(lái)提高分類過(guò)程的準(zhǔn)確性、有效性和可伸縮性。最后文中還給出了一些為處理不平衡類問(wèn)題而開(kāi)辟的方法和擴(kuò)展二元分類器以處理多類問(wèn)題的方法。第六章詳細(xì)介紹了關(guān)聯(lián)分析的基礎(chǔ):頻繁項(xiàng)集、關(guān)聯(lián)規(guī)則以及產(chǎn)生它們的一些算法。關(guān)聯(lián)分析是當(dāng)前數(shù)據(jù)挖掘領(lǐng)域最常用的一種方法,主要用于發(fā)現(xiàn)隱藏在數(shù)據(jù)集中不同領(lǐng)域之間的聯(lián)系,它的目的在于在一個(gè)數(shù)據(jù)集中找出項(xiàng)的關(guān)系。書(shū)中介紹了一個(gè)很有名的例子:尿布和啤酒,表示成關(guān)聯(lián)規(guī)則的形式就是{尿布}一{啤酒}。這就是使用關(guān)聯(lián)分析方法所得到的結(jié)果,而關(guān)聯(lián)分析所得到的結(jié)果,我們可以用關(guān)聯(lián)規(guī)則或者頻繁項(xiàng)集的形式表示。關(guān)聯(lián)分析的挖掘分為兩步:(1)找出所有頻繁項(xiàng)集;(2)由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。而在搜索頻繁項(xiàng)集時(shí),最基本的算法就是apriori算法。該算法開(kāi)創(chuàng)性地使用了基于支持度的剪枝技術(shù),系統(tǒng)地控制候選項(xiàng)集指數(shù)增長(zhǎng)。它的核心思想是通過(guò)候選集生成和情節(jié)的向下封閉檢測(cè)兩個(gè)階段來(lái)挖掘頻繁項(xiàng)集。而且算法已經(jīng)被廣泛的應(yīng)用到商業(yè)、網(wǎng)絡(luò)安全等各個(gè)領(lǐng)域。盡管apriori算法十分簡(jiǎn)潔明了,但同時(shí)也存在一些難以克服的缺點(diǎn)。因此,書(shū)中還詳細(xì)介紹了一些替代方法,如頻繁樹(shù)算法等。此外,本章還介紹了一些特殊類型頻繁項(xiàng)集:極大頻繁項(xiàng)集和閉頻繁項(xiàng)集。最后討論了關(guān)聯(lián)分析的評(píng)估度量。在第六章中,主要針對(duì)的是非對(duì)稱的二元屬性,并且惟獨(dú)頻繁模式才被認(rèn)為是有趣的。第七章則是將這種表示擴(kuò)展到具有對(duì)稱二元屬性、分類屬性和連續(xù)屬性的數(shù)據(jù)集,并且詳細(xì)討論了三類對(duì)連續(xù)數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析的方法:(1)基于離散化的方法;(2)基于統(tǒng)計(jì)學(xué)的方法;(3)非離散化的方法。此外,還講述了概念分層的基本定義和處理方法及將它引入關(guān)聯(lián)規(guī)則的優(yōu)缺點(diǎn)。介紹了序列模式的基本概念和發(fā)現(xiàn)序列模式的算法,及頻繁子圖的挖掘問(wèn)題。最后,本章還簡(jiǎn)單概述了非頻繁模式的概念及相關(guān)算法。第八章主要講述聚類分析的基本概念和算法。首先介紹了不同的簇類型:明顯分離的、基于原型的、基于圖的、基于密度的、共同性質(zhì)的。然后給出三種特定的聚類技術(shù):k均值、凝結(jié)層次聚類和dbscan,最后討論驗(yàn)證聚類算法結(jié)果的技術(shù)。聚類分析是指根據(jù)在數(shù)據(jù)中發(fā)現(xiàn)的描述對(duì)象及其關(guān)系的信息將數(shù)據(jù)對(duì)象分組的分析過(guò)程。它與分類規(guī)則不同的是,聚類分析是一種探索性分析,進(jìn)行聚類前并不知道將要?jiǎng)澐譃閹讉€(gè)組和什么樣的組,也不確定根據(jù)哪些空間區(qū)分規(guī)則來(lái)定義組。聚類分析的目標(biāo)就是在相似的基礎(chǔ)上采集數(shù)據(jù)來(lái)分類。組內(nèi)的相似性越大,組間差別越大,聚類就越好。聚類分析是數(shù)據(jù)挖掘的主耍任務(wù)之一,它篇四:《數(shù)據(jù)挖掘?qū)д摗纷x書(shū)報(bào)告數(shù)據(jù)采集和數(shù)據(jù)存儲(chǔ)技術(shù)的快速進(jìn)步使得各組織機(jī)構(gòu)可以積累海量數(shù)據(jù)。然而,提取有用的信息已經(jīng)成為巨大的挑戰(zhàn)。通常,由于數(shù)據(jù)量太大,無(wú)法使用傳統(tǒng)的數(shù)據(jù)分析丁具和技術(shù)處理它們。有時(shí),即使數(shù)據(jù)集相對(duì)較小,但由于數(shù)據(jù)本身具有一些非傳統(tǒng)特點(diǎn),也不能使用傳統(tǒng)的方法處理。在此外一些情況下,面臨的問(wèn)題不能使用已有的數(shù)據(jù)分析技術(shù)來(lái)解決。這樣,就需要開(kāi)辟新的方法。數(shù)據(jù)挖掘是一種技術(shù),它將傳統(tǒng)的數(shù)據(jù)分析方法與處理大量數(shù)據(jù)的復(fù)雜算法相結(jié)合。數(shù)據(jù)挖掘?yàn)樘讲楹头治鲂碌臄?shù)據(jù)類型以及用新方法分析舊有數(shù)據(jù)類型提供了令人振奮的機(jī)會(huì)。本章,我們概述數(shù)據(jù)挖掘,并列舉本書(shū)所涵蓋的關(guān)鍵主題。數(shù)據(jù)挖掘技術(shù)可以用來(lái)支持廣泛的商務(wù)智能應(yīng)用,如顧客分析、定向營(yíng)銷、工作流管理、商店分布和欺詐檢測(cè)等。數(shù)據(jù)挖掘還能匡助零售商回答一些重要的商務(wù)問(wèn)題,如“誰(shuí)是最有價(jià)值的顧客?”“什么產(chǎn)品可以交叉銷售或者提升銷售?”“公司明年的收入前景如何?”這些問(wèn)題催生了一種新的數(shù)據(jù)分析技術(shù)。醫(yī)學(xué)、科學(xué)與工程醫(yī)學(xué)、科學(xué)與工程技術(shù)界的研究者正在快速積累大量數(shù)據(jù),這些數(shù)據(jù)對(duì)獲得有價(jià)值的新發(fā)現(xiàn)至關(guān)重要。例如,為了更深入地理解地球的氣候系統(tǒng),nasa己經(jīng)部署了一系列的地球軌道衛(wèi)星,不停地采集地表、海洋和大氣的全球觀測(cè)數(shù)據(jù)。然而,由于這些數(shù)據(jù)的規(guī)模和時(shí)空特性,傳統(tǒng)的方法往往不適合分析這些數(shù)據(jù)集。數(shù)據(jù)挖掘開(kāi)辟的技術(shù)可以匡助地球科學(xué)家回答如下問(wèn)題:“干旱和颶風(fēng)等生態(tài)系統(tǒng)擾動(dòng)的頻度和強(qiáng)度與全球變暖之間有何聯(lián)系?”“海洋表面溫度對(duì)地表降水量和溫度有何影響?”“如何準(zhǔn)確地預(yù)測(cè)一個(gè)地區(qū)的生長(zhǎng)季節(jié)的開(kāi)始和結(jié)束?”什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘是在大型數(shù)據(jù)存儲(chǔ)庫(kù)中,自動(dòng)地發(fā)現(xiàn)實(shí)用信息的過(guò)程。數(shù)據(jù)挖掘技術(shù)用來(lái)探查大型數(shù)據(jù)庫(kù),發(fā)現(xiàn)先前未知的實(shí)用模式。數(shù)據(jù)挖掘還可以預(yù)測(cè)未來(lái)觀測(cè)結(jié)果,例如,預(yù)測(cè)一位新的顧客是否會(huì)在一家百貨公司消費(fèi)100美元以上。并非所有的信息發(fā)現(xiàn)任務(wù)都被視為數(shù)據(jù)挖掘。例如,使用數(shù)據(jù)庫(kù)管理系統(tǒng)查找個(gè)別的記錄,或者通過(guò)因特網(wǎng)的搜索引擎查找特定的web頁(yè)面,則是信息檢索領(lǐng)域的任務(wù)。雖然這些任務(wù)非常重要,可能涉及使用復(fù)雜的算法和數(shù)據(jù)結(jié)構(gòu),但是它們主要依賴傳統(tǒng)的計(jì)算機(jī)科學(xué)技術(shù)和數(shù)據(jù)的明顯特征來(lái)創(chuàng)建索引結(jié)構(gòu),從而有效地組織和檢索信息。盡管如此,人們也在利用數(shù)據(jù)挖掘技術(shù)增強(qiáng)信息檢索系

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論