版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、2022年7月5日星期二DMKD Sides By MAO1數(shù)據(jù)挖掘原理與算法 By 毛國(guó)君,段立娟,王石,石云 Pub. 清華大學(xué)出版社,2004使用說(shuō)明:使用說(shuō)明: 本書(shū)是一本全面介紹數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)技術(shù)的本書(shū)是一本全面介紹數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)技術(shù)的專(zhuān)業(yè)書(shū)籍,專(zhuān)業(yè)書(shū)籍,可作為計(jì)算機(jī)專(zhuān)業(yè)研究生或高年級(jí)本科生可作為計(jì)算機(jī)專(zhuān)業(yè)研究生或高年級(jí)本科生教材。共分教材。共分8 8章,各章相對(duì)獨(dú)立成篇,以利于讀者選章,各章相對(duì)獨(dú)立成篇,以利于讀者選擇性學(xué)習(xí)。本課件供全書(shū)講解之用,為了取得好的教擇性學(xué)習(xí)。本課件供全書(shū)講解之用,為了取得好的教學(xué)效果,教師應(yīng)該根據(jù)學(xué)生層次、教學(xué)大綱或課時(shí)安學(xué)效果,教師應(yīng)該根據(jù)學(xué)
2、生層次、教學(xué)大綱或課時(shí)安排進(jìn)行必要裁減。排進(jìn)行必要裁減。2022年7月5日星期二DMKD Sides By MAO2第一章第一章 緒論緒論 內(nèi)容提要內(nèi)容提要n數(shù)據(jù)挖掘技術(shù)的產(chǎn)生與發(fā)展 n數(shù)據(jù)挖掘研究的發(fā)展趨勢(shì) n數(shù)據(jù)挖掘概念 n數(shù)據(jù)挖掘技術(shù)的分類(lèi)問(wèn)題n數(shù)據(jù)挖掘常用的知識(shí)表示模式與方法n不同數(shù)據(jù)存儲(chǔ)形式下的數(shù)據(jù)挖掘問(wèn)題 n粗糙集方法及其在數(shù)據(jù)挖掘中的應(yīng)用 n數(shù)據(jù)挖掘的應(yīng)用分析 2022年7月5日星期二DMKD Sides By MAO3數(shù)據(jù)挖掘技術(shù)的商業(yè)需求分析 n隨著信息技術(shù)的高速發(fā)展,數(shù)據(jù)庫(kù)應(yīng)用的規(guī)模、范圍和深度不斷擴(kuò)大,網(wǎng)絡(luò)環(huán)境成為主流等等。產(chǎn)生“數(shù)據(jù)豐富而信息貧乏(Data Rich &
3、 Information Poor)”現(xiàn)象。n在強(qiáng)大的商業(yè)需求的驅(qū)動(dòng)下,商家們開(kāi)始注意到有效地解決大容量數(shù)據(jù)的利用問(wèn)題具有巨大的商機(jī);學(xué)者們開(kāi)始思考如何從大容量數(shù)據(jù)集中獲取有用信息和知識(shí)的方法。n隨著信息技術(shù)的高速發(fā)展,人們希望能夠提供更高層次的數(shù)據(jù)處理功能。新的需求推動(dòng)新的技術(shù)的誕生。n數(shù)據(jù)(Data)、信息(Information)和知識(shí)(Knowledge)是廣義數(shù)據(jù)表現(xiàn)的不同形式。2022年7月5日星期二DMKD Sides By MAO4數(shù)據(jù)、信息和知識(shí)datainformationknowledge2022年7月5日星期二DMKD Sides By MAO5數(shù)據(jù)挖掘產(chǎn)生的技術(shù)背景n
4、 數(shù)據(jù)挖掘是相關(guān)學(xué)科充分發(fā)展的基礎(chǔ)上被提出和發(fā)展的。n 主要的相關(guān)技術(shù):n 數(shù)據(jù)庫(kù)等信息技術(shù)的發(fā)展n 統(tǒng)計(jì)學(xué)深入應(yīng)用n 人工智能技術(shù)的研究和應(yīng)用2022年7月5日星期二DMKD Sides By MAO6數(shù)據(jù)挖掘是一個(gè)多學(xué)科交叉技術(shù) Data MiningDatabase TechnologyStatisticsOtherDisciplinesInformationScienceAI /MachineLearningVisualization2022年7月5日星期二DMKD Sides By MAO7數(shù)據(jù)庫(kù)系統(tǒng)的發(fā)展n60年代:簡(jiǎn)單文件處理系統(tǒng)向數(shù)據(jù)庫(kù)系統(tǒng)變革 。n70年代:層次、網(wǎng)絡(luò)和關(guān)系型
5、數(shù)據(jù)庫(kù)普及。 n80年代:RDBS及其相關(guān)工具、數(shù)據(jù)索引及數(shù)據(jù)組織技術(shù)被廣泛采用;中期開(kāi)始,分布式數(shù)據(jù)庫(kù)廣發(fā)討論,關(guān)系數(shù)據(jù)庫(kù)技術(shù)和新型技術(shù)的結(jié)合。 n90年代:數(shù)據(jù)庫(kù)領(lǐng)域中的新內(nèi)容、新應(yīng)用、新技術(shù)層出不窮,形成了龐大的數(shù)據(jù)庫(kù)家族;人們期望分析預(yù)測(cè)、決策支持等高級(jí)應(yīng)用, Data mining and data warehousing等出現(xiàn)。n本世紀(jì)開(kāi)始: Data mining 得到理論/技術(shù)深化。2022年7月5日星期二DMKD Sides By MAO8統(tǒng)計(jì)學(xué)的深入應(yīng)用n強(qiáng)大有效的數(shù)理統(tǒng)計(jì)方法和工具,已成為信息咨詢(xún)業(yè)的基礎(chǔ) 。n統(tǒng)計(jì)分析技術(shù)是基于嚴(yán)格的數(shù)學(xué)理論和高超的應(yīng)用技巧的 。 n數(shù)據(jù)
6、挖掘技術(shù)是數(shù)理統(tǒng)計(jì)分析應(yīng)用的延伸和發(fā)展 。 n和數(shù)據(jù)庫(kù)技術(shù)的結(jié)合性研究2022年7月5日星期二DMKD Sides By MAO9人工智能技術(shù)的研究和應(yīng)用n人工智能是計(jì)算機(jī)科學(xué)研究中爭(zhēng)議最多而又仍始終保持強(qiáng)大生命的研究領(lǐng)域。n專(zhuān)家系統(tǒng)曾經(jīng)是人工智能研究工作者的驕傲,但是諸多難題限制了專(zhuān)家系統(tǒng)的應(yīng)用:n知識(shí)獲取成為專(zhuān)家系統(tǒng)研究中公認(rèn)的瓶頸問(wèn)題。n知識(shí)表示成為一大難題:知識(shí)工程師在整理表達(dá)從領(lǐng)域?qū)<夷抢铽@得的知識(shí)時(shí)勉強(qiáng)抽象出來(lái)的規(guī)則有很強(qiáng)的工藝色彩。n對(duì)常識(shí)和百科知識(shí)出奇地貧乏:人工智能學(xué)家Feigenbaum估計(jì),一般人擁有的常識(shí)存入計(jì)算機(jī)大約有100萬(wàn)條事實(shí)和抽象經(jīng)驗(yàn)法則,離開(kāi)常識(shí)的專(zhuān)家系統(tǒng)有
7、時(shí)會(huì)比傻子還傻。n數(shù)據(jù)挖掘繼承了專(zhuān)家系統(tǒng)的高度實(shí)用性特點(diǎn),并且以數(shù)據(jù)為基本出發(fā)點(diǎn),客觀(guān)地挖掘知識(shí)。n機(jī)器學(xué)習(xí)得到了充分的研究和發(fā)展:理論和算法。n數(shù)據(jù)挖掘研究在繼承已有的人工智能相關(guān)領(lǐng)域,特別是機(jī)器學(xué)習(xí)的研究成果的基礎(chǔ)上,成為新的研究分支。2022年7月5日星期二DMKD Sides By MAO10第一章第一章 緒論緒論 內(nèi)容提要內(nèi)容提要n數(shù)據(jù)挖掘技術(shù)的產(chǎn)生與發(fā)展 n數(shù)據(jù)挖掘研究的發(fā)展趨勢(shì) n數(shù)據(jù)挖掘概念 n數(shù)據(jù)挖掘技術(shù)的分類(lèi)問(wèn)題n數(shù)據(jù)挖掘常用的知識(shí)表示模式與方法n不同數(shù)據(jù)存儲(chǔ)形式下的數(shù)據(jù)挖掘問(wèn)題 n粗糙集方法及其在數(shù)據(jù)挖掘中的應(yīng)用 n數(shù)據(jù)挖掘的應(yīng)用分析 2022年7月5日星期二DMKD S
8、ides By MAO11數(shù)據(jù)挖掘處于研究和應(yīng)用探索階段n經(jīng)過(guò)十幾年的研究和實(shí)踐,數(shù)據(jù)挖掘技術(shù)已經(jīng)吸收了許多學(xué)科的最新研究成果而形成獨(dú)具特色的研究分支。n大部分學(xué)者認(rèn)為數(shù)據(jù)挖掘的研究仍然處于廣泛研究和探索階段:n一方面,數(shù)據(jù)挖掘的概念已經(jīng)被廣泛接受。n另一方面,數(shù)據(jù)挖掘的大面積應(yīng)用還有待時(shí)日。n隨著KDD在學(xué)術(shù)界和工業(yè)界的影響越來(lái)越大,數(shù)據(jù)挖掘的研究向著更深入和實(shí)用技術(shù)方向發(fā)展:n大學(xué)等研究機(jī)構(gòu)的大多數(shù)基礎(chǔ)性研究集中在數(shù)據(jù)挖掘理論、挖掘算法等的探討上。n公司的研究更注重和實(shí)際商業(yè)問(wèn)題結(jié)合。n數(shù)據(jù)挖掘的經(jīng)濟(jì)價(jià)值已經(jīng)顯現(xiàn)出來(lái):Gartner報(bào)告中列舉重要影響的五項(xiàng)關(guān)鍵技術(shù),其中KDD和人工智能排名
9、第一。2022年7月5日星期二DMKD Sides By MAO12數(shù)據(jù)挖掘研究聚焦點(diǎn)n數(shù)據(jù)挖掘在如下幾個(gè)方面需要重點(diǎn)開(kāi)展工作:n數(shù)據(jù)挖掘技術(shù)與特定商業(yè)邏輯的平滑集成問(wèn)題:數(shù)據(jù)挖掘技術(shù)與特定商業(yè)邏輯的平滑集成問(wèn)題:數(shù)據(jù)挖掘需要代表性的應(yīng)用實(shí)例來(lái)證明(像“啤酒與尿布” )。n數(shù)據(jù)挖掘技術(shù)與特定數(shù)據(jù)存儲(chǔ)類(lèi)型的適應(yīng)問(wèn)題:數(shù)據(jù)挖掘技術(shù)與特定數(shù)據(jù)存儲(chǔ)類(lèi)型的適應(yīng)問(wèn)題:不同的數(shù)據(jù)存儲(chǔ)方式會(huì)影響數(shù)據(jù)挖掘的具體實(shí)現(xiàn)機(jī)制、目標(biāo)定位、技術(shù)有效性等。n大型數(shù)據(jù)的選擇與規(guī)格化問(wèn)題:大型數(shù)據(jù)的選擇與規(guī)格化問(wèn)題:n數(shù)據(jù)的噪音、信息丟失等問(wèn)題的處理;n針對(duì)特定挖掘方法進(jìn)行數(shù)據(jù)規(guī)格化等問(wèn)題。n數(shù)據(jù)挖掘系統(tǒng)的構(gòu)架與交互式挖掘技術(shù)
10、:數(shù)據(jù)挖掘系統(tǒng)的構(gòu)架與交互式挖掘技術(shù):n在具體的實(shí)現(xiàn)機(jī)制、技術(shù)路線(xiàn)以及各階段的功能定位等方面仍需細(xì)化和深入研究。n良好的交互式挖掘(Interaction Mining)也是數(shù)據(jù)挖掘系統(tǒng)成功的前提。n數(shù)據(jù)挖掘語(yǔ)言與系統(tǒng)的可視化問(wèn)題:可視化挖掘除了要和良好的交互式技術(shù)結(jié)合外,還必須在挖掘結(jié)果或過(guò)程的可視化進(jìn)行探索和實(shí)踐。n數(shù)據(jù)挖掘理論與算法研究n一方面,在已有的理論框架下有許多面向?qū)嶋H應(yīng)用目標(biāo)的挖掘理論等待探索和創(chuàng)新。n另一方面,隨著數(shù)據(jù)挖掘技術(shù)本身和相關(guān)技術(shù)的發(fā)展,新的挖掘理論和算法的誕生是必然的。2022年7月5日星期二DMKD Sides By MAO13第一章第一章 緒論緒論 內(nèi)容提要內(nèi)
11、容提要n數(shù)據(jù)挖掘技術(shù)的產(chǎn)生與發(fā)展 n數(shù)據(jù)挖掘研究的發(fā)展趨勢(shì)n數(shù)據(jù)挖掘概念n數(shù)據(jù)挖掘技術(shù)的分類(lèi)問(wèn)題n數(shù)據(jù)挖掘常用的知識(shí)表示模式與方法n不同數(shù)據(jù)存儲(chǔ)形式下的數(shù)據(jù)挖掘問(wèn)題 n粗糙集方法及其在數(shù)據(jù)挖掘中的應(yīng)用 n數(shù)據(jù)挖掘的應(yīng)用分析 2022年7月5日星期二DMKD Sides By MAO14從商業(yè)角度看數(shù)據(jù)挖掘技術(shù) n數(shù)據(jù)挖掘從本質(zhì)上說(shuō)是一種新的商業(yè)信息處理技術(shù):n數(shù)據(jù)挖掘技術(shù)把人們對(duì)數(shù)據(jù)的應(yīng)用,從低層次的聯(lián)機(jī)查詢(xún)操作,提高到?jīng)Q策支持、分析預(yù)測(cè)等更高級(jí)應(yīng)用上。n通過(guò)對(duì)數(shù)據(jù)的統(tǒng)計(jì)、分析、綜合和推理,發(fā)現(xiàn)數(shù)據(jù)間的關(guān)聯(lián)性、未來(lái)趨勢(shì)以及一般性的概括知識(shí)等,這些知識(shí)性的信息可以用來(lái)指導(dǎo)高級(jí)商務(wù)活動(dòng)。n從決策、
12、分析和預(yù)測(cè)等高級(jí)商業(yè)目的看,原始數(shù)據(jù)只是未被開(kāi)采的礦山,需要挖掘和提煉才能獲得對(duì)商業(yè)目的有用的規(guī)律性知識(shí)。n從商業(yè)角度看,數(shù)據(jù)挖掘就是按企業(yè)的既定業(yè)務(wù)目標(biāo),對(duì)大量的企業(yè)數(shù)據(jù)進(jìn)行深層次分析以揭示隱藏的、未知的規(guī)律性并將其模型化,從而支持商業(yè)決策活動(dòng)。2022年7月5日星期二DMKD Sides By MAO15數(shù)據(jù)挖掘的技術(shù)含義 n數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(KDD: Knowledge Discovery in Databases)是比數(shù)據(jù)挖掘出現(xiàn)更早的一個(gè)名詞。 nKDD與Data Mining的關(guān)系,有不同的看法:nKDDKDD看成數(shù)據(jù)挖掘的一個(gè)特例:這是早期比較流行的觀(guān)點(diǎn),這種描看成數(shù)據(jù)挖掘的一
13、個(gè)特例:這是早期比較流行的觀(guān)點(diǎn),這種描述強(qiáng)調(diào)了數(shù)據(jù)挖掘在源數(shù)據(jù)形式上的多樣性。述強(qiáng)調(diào)了數(shù)據(jù)挖掘在源數(shù)據(jù)形式上的多樣性。n數(shù)據(jù)挖掘是數(shù)據(jù)挖掘是KDDKDD的一個(gè)關(guān)鍵步驟:這種觀(guān)點(diǎn)得到大多數(shù)學(xué)者認(rèn)同,的一個(gè)關(guān)鍵步驟:這種觀(guān)點(diǎn)得到大多數(shù)學(xué)者認(rèn)同,有它的合理性。有它的合理性。nKDDKDD與與Data MiningData Mining含義相同:事實(shí)上,在現(xiàn)今的許多場(chǎng)合,如技含義相同:事實(shí)上,在現(xiàn)今的許多場(chǎng)合,如技術(shù)綜述等,這兩個(gè)術(shù)語(yǔ)仍然不加區(qū)分地使用著。也有其他的說(shuō)法:術(shù)綜述等,這兩個(gè)術(shù)語(yǔ)仍然不加區(qū)分地使用著。也有其他的說(shuō)法:nKDDKDD在人工智能界更流行,而在人工智能界更流行,而Data Min
14、ingData Mining在數(shù)據(jù)庫(kù)界使用更多。在數(shù)據(jù)庫(kù)界使用更多。n在研究領(lǐng)域被稱(chēng)作在研究領(lǐng)域被稱(chēng)作KDDKDD,在工程領(lǐng)域則稱(chēng)之為數(shù)據(jù)挖掘。,在工程領(lǐng)域則稱(chēng)之為數(shù)據(jù)挖掘。 2022年7月5日星期二DMKD Sides By MAO16數(shù)據(jù)挖掘定義n數(shù)據(jù)挖掘定義有廣義和狹義之分。n從廣義的觀(guān)點(diǎn),數(shù)據(jù)挖掘是從大型數(shù)據(jù)集(可能是不完全的、有噪聲的、不確定性的、各種存儲(chǔ)形式的)中,挖掘隱含在其中的、人們事先不知道的、對(duì)決策有用的知識(shí)的過(guò)程。n從這種狹義的觀(guān)點(diǎn)上,我們可以定義數(shù)據(jù)挖掘是從特定形式的數(shù)據(jù)集中提煉知識(shí)的過(guò)程。n下列技術(shù)不是數(shù)據(jù)挖掘:nOLTP nExpert systems nSmall
15、 MLnStatistical programs 2022年7月5日星期二DMKD Sides By MAO17數(shù)據(jù)挖掘研究的理論基礎(chǔ) n數(shù)據(jù)挖掘方法可以是基于數(shù)學(xué)理論的,也可以是非數(shù)學(xué)的;可以是演繹的,也可以是歸納的。n從研究者可能是來(lái)自于數(shù)據(jù)庫(kù)、人工智能、數(shù)理統(tǒng)計(jì)、計(jì)算機(jī)科學(xué)以及其他方面的學(xué)者和工程技術(shù)人員,他們會(huì)從不同的視點(diǎn)進(jìn)行探討性研究。n有下面一些重要的理論視點(diǎn)值得關(guān)注:n模式發(fā)現(xiàn)(Pattern Discovery)架構(gòu)n規(guī)則發(fā)現(xiàn)(Rule Discovery)架構(gòu) n基于概率和統(tǒng)計(jì)理論n微觀(guān)經(jīng)濟(jì)學(xué)觀(guān)點(diǎn)(Microeconomic View)n基于數(shù)據(jù)壓縮(Data Compres
16、sion)理論n基于歸納數(shù)據(jù)庫(kù)(Inductive Database)理論n可視化數(shù)據(jù)挖掘(Visual Data Mining)n等等 2022年7月5日星期二DMKD Sides By MAO18第一章第一章 緒論緒論 內(nèi)容提要內(nèi)容提要n數(shù)據(jù)挖掘技術(shù)的產(chǎn)生與發(fā)展 n數(shù)據(jù)挖掘研究的發(fā)展趨勢(shì) n數(shù)據(jù)挖掘概念 n數(shù)據(jù)挖掘技術(shù)的分類(lèi)問(wèn)題n數(shù)據(jù)挖掘常用的知識(shí)表示模式與方法n不同數(shù)據(jù)存儲(chǔ)形式下的數(shù)據(jù)挖掘問(wèn)題 n粗糙集方法及其在數(shù)據(jù)挖掘中的應(yīng)用 n數(shù)據(jù)挖掘的應(yīng)用分析 2022年7月5日星期二DMKD Sides By MAO19根據(jù)挖掘任務(wù)n分類(lèi)或預(yù)測(cè)模型發(fā)現(xiàn)n數(shù)據(jù)總結(jié)與聚類(lèi)發(fā)現(xiàn)n關(guān)聯(lián)規(guī)則發(fā)現(xiàn)n序列模式
17、發(fā)現(xiàn)n相似模式發(fā)現(xiàn)n混沌模式發(fā)現(xiàn)n依賴(lài)關(guān)系或依賴(lài)模型發(fā)現(xiàn)n異常和趨勢(shì)發(fā)現(xiàn)等2022年7月5日星期二DMKD Sides By MAO20根據(jù)挖掘?qū)ο髇關(guān)系數(shù)據(jù)庫(kù)挖掘n面向?qū)ο髷?shù)據(jù)庫(kù)挖掘n空間數(shù)據(jù)庫(kù)挖掘n時(shí)態(tài)數(shù)據(jù)庫(kù)挖掘n文本數(shù)據(jù)源挖掘n多媒體數(shù)據(jù)庫(kù)挖掘n異質(zhì)數(shù)據(jù)庫(kù)挖掘n遺產(chǎn)數(shù)據(jù)庫(kù)挖掘nweb數(shù)據(jù)挖掘等2022年7月5日星期二DMKD Sides By MAO21根據(jù)挖掘方法n機(jī)器學(xué)習(xí)方法n統(tǒng)計(jì)方法n聚類(lèi)分析方法n神經(jīng)網(wǎng)絡(luò)(Neural Network)方法n遺傳算法(Genetic Algorithm)方法n數(shù)據(jù)庫(kù)方法n近似推理和不確定性推理方法n基于證據(jù)理論和元模式的方法n現(xiàn)代數(shù)學(xué)分析方法n粗
18、糙集(Rough Set)或模糊集方法n集成方法等2022年7月5日星期二DMKD Sides By MAO22根據(jù)知識(shí)類(lèi)型n挖掘廣義型知識(shí)n挖掘差異型知識(shí)n挖掘關(guān)聯(lián)型知識(shí)n挖掘預(yù)測(cè)型知識(shí)n挖掘偏離型(異常)知識(shí)n挖掘不確定性知識(shí)等2022年7月5日星期二DMKD Sides By MAO23第一章第一章 緒論緒論 內(nèi)容提要內(nèi)容提要n數(shù)據(jù)挖掘技術(shù)的產(chǎn)生與發(fā)展 n數(shù)據(jù)挖掘研究的發(fā)展趨勢(shì) n數(shù)據(jù)挖掘概念 n數(shù)據(jù)挖掘技術(shù)的分類(lèi)問(wèn)題n數(shù)據(jù)挖掘常用的知識(shí)表示模式與方法n不同數(shù)據(jù)存儲(chǔ)形式下的數(shù)據(jù)挖掘問(wèn)題 n粗糙集方法及其在數(shù)據(jù)挖掘中的應(yīng)用 n數(shù)據(jù)挖掘的應(yīng)用分析 2022年7月5日星期二DMKD Sides
19、 By MAO24知識(shí)表示模式分類(lèi)n數(shù)據(jù)挖掘的目的是發(fā)現(xiàn)知識(shí),知識(shí)要通過(guò)一定的模式給出。通過(guò)對(duì)數(shù)據(jù)挖掘中知識(shí)表示模式及其所采用方法的分析,可以更清楚地了解數(shù)據(jù)挖掘系統(tǒng)的特點(diǎn)。n主要知識(shí)模式類(lèi)型有:n廣義知識(shí)(Generalization)n關(guān)聯(lián)知識(shí)(Association)n類(lèi)知識(shí)(Class/Cluster)n預(yù)測(cè)型知識(shí)(Prediction)n特異型知識(shí)(Exception) 2022年7月5日星期二DMKD Sides By MAO25廣義知識(shí)挖掘 n廣義知識(shí)是指描述類(lèi)別特征的概括性知識(shí)。這類(lèi)數(shù)據(jù)挖掘系統(tǒng)是對(duì)細(xì)節(jié)數(shù)據(jù)的所蘊(yùn)涵的概念特征信息的概括和抽象的過(guò)程。n主要方法有:n概念描述(概念
20、描述(Concept DescriptionConcept Description)方法:)方法:概念描述本質(zhì)上就是對(duì)某類(lèi)對(duì)象的內(nèi)涵特征進(jìn)行概括:n特征性(Characterization)描述:描述某類(lèi)對(duì)象的共同特征。n區(qū)別性(Discrimination)描述:描述不同類(lèi)對(duì)象之間的區(qū)別。n多維數(shù)據(jù)分析可以看作是一種廣義知識(shí)挖掘的特例多維數(shù)據(jù)分析可以看作是一種廣義知識(shí)挖掘的特例n多層次概念描述問(wèn)題:多層次概念描述問(wèn)題:由數(shù)據(jù)歸納出的概念是有層次的,不同層次的概念是對(duì)原始數(shù)據(jù)的不同粒度上的概念抽象。例如,n“北京工業(yè)大學(xué)”能歸納出“北京市”、“中國(guó)”、“亞洲”等層次。n銷(xiāo)售表SALES(ENO
21、,ENAME,EAGE,VALUE,DEPT),它的每個(gè)屬性的定義域都可能存在蘊(yùn)涵于領(lǐng)域知識(shí)內(nèi)的概念延伸。例如,DEPT能歸納出公司COMPANY、城市CITY或國(guó)家COUNTRY等層次n概念分層(Concept Hierarchy)技術(shù):將低層概念集映射到高層概念集的方法,是一個(gè)常用的處理多層次概念描述的方法。2022年7月5日星期二DMKD Sides By MAO26主要的概念分層方法 n模式分層(模式分層(Schema HierarchySchema Hierarchy):):利用屬性在特定背景知識(shí)下的語(yǔ)義層次形成不同層次的模式關(guān)聯(lián)。n這種關(guān)聯(lián)是一種的全序或偏序關(guān)系。n例如,DEPT的
22、模式分層結(jié)構(gòu)可能是:DEPTCOMPANYCITYCOUNTRY。n集合分組分層(集合分組分層(Set-Grouping HierarchySet-Grouping Hierarchy):):將屬性在特定背景知識(shí)下的取值范圍合理分割,形成替代的離散值或區(qū)間集合。n例如,年齡EAGE可以抽象成20,29,30,39,40,49,50,59或者青年,中年,老年 。n操作導(dǎo)出分層(操作導(dǎo)出分層(Operation-Operation-DrivedDrived Hierarchy Hierarchy):):有些屬性可能包含多類(lèi)信息。n例如,一個(gè)跨國(guó)公司的雇員號(hào)可能包含這個(gè)雇員的所在的部門(mén)、城市、國(guó)家和
23、雇傭的時(shí)間等。對(duì)這類(lèi)對(duì)象可以作為背景知識(shí)定義它的結(jié)構(gòu),通過(guò)編碼解析等操作完成概念的抽象。n基于規(guī)則分層(基于規(guī)則分層(Rule-Based HierarchyRule-Based Hierarchy):):通過(guò)定義背景知識(shí)的抽象規(guī)則,形成不同層次上的概念的抽象。2022年7月5日星期二DMKD Sides By MAO27關(guān)聯(lián)知識(shí)挖掘 n關(guān)聯(lián)知識(shí)挖掘的目的就是找出數(shù)據(jù)庫(kù)中隱藏的關(guān)聯(lián)信息。n關(guān)聯(lián)知識(shí)反映一個(gè)事件和其他事件之間的依賴(lài)或關(guān)聯(lián)。n關(guān)聯(lián)可分為簡(jiǎn)單關(guān)聯(lián)、時(shí)序(Time Series)關(guān)聯(lián)、因果關(guān)聯(lián)、數(shù)量關(guān)聯(lián)等。n從廣義上講,關(guān)聯(lián)分析是數(shù)據(jù)挖掘的本質(zhì)。n關(guān)聯(lián)規(guī)則挖掘(Association
24、Rule Mining)是關(guān)聯(lián)知識(shí)發(fā)現(xiàn)的最常用方法:n關(guān)聯(lián)規(guī)則的研究最早的分支之一,最著名的Apriori算法。n是數(shù)據(jù)挖掘研究中比較深入的分支,許多關(guān)聯(lián)規(guī)則挖掘的理論和算法已經(jīng)被提出。2022年7月5日星期二DMKD Sides By MAO28類(lèi)知識(shí)挖掘類(lèi)知識(shí)挖掘n類(lèi)知識(shí)(Class)刻畫(huà)了一類(lèi)事物,這類(lèi)事物具有某種意義上的共同特征,并明顯和不同類(lèi)事物相區(qū)別。 n有兩個(gè)基本的方法來(lái)挖掘類(lèi)知識(shí):n分類(lèi):分類(lèi)是數(shù)據(jù)挖掘中的一個(gè)重要的目標(biāo)和任務(wù),是目前的研究和應(yīng)用最多的分支之一。n分類(lèi)的目的是學(xué)會(huì)一個(gè)分類(lèi)模型(稱(chēng)作分類(lèi)器),該模型能把數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)映射到給定類(lèi)別中。n分類(lèi)技術(shù)是一種有指導(dǎo)的學(xué)習(xí)
25、(Supervised Learning),即每個(gè)訓(xùn)練樣本的數(shù)據(jù)對(duì)象已經(jīng)有類(lèi)標(biāo)識(shí),通過(guò)學(xué)習(xí)可以形成表達(dá)數(shù)據(jù)對(duì)象與類(lèi)標(biāo)識(shí)間對(duì)應(yīng)的知識(shí)。n聚類(lèi):數(shù)據(jù)挖掘的目標(biāo)之一是進(jìn)行聚類(lèi)分析。n聚類(lèi)是把一組個(gè)體按照相似性歸成若干類(lèi)別,它的目的是使得屬于同一類(lèi)別的個(gè)體之間的差別盡可能的小,而不同類(lèi)別上的個(gè)體間的差別盡可能的大。n聚類(lèi)屬于無(wú)指導(dǎo)學(xué)習(xí)(Unsupervised Learning) ),當(dāng)一組數(shù)據(jù)對(duì)象可以由一個(gè)概念(區(qū)別于其他的概念)來(lái)描述時(shí),就形成一個(gè)簇(Cluster)??坍?huà)了數(shù)據(jù)所蘊(yùn)涵的類(lèi)知識(shí)。2022年7月5日星期二DMKD Sides By MAO29分類(lèi)中的基礎(chǔ)方法n決策樹(shù)方法:基本的分類(lèi)技
26、術(shù)之一,如ID3及其改進(jìn)算法ID4、ID5、C4.5、C5.0等;針對(duì)大訓(xùn)練樣本集的SLIQ、SPRINT、雨林(Rainforest)BOAT等算法。n貝葉斯分類(lèi) :具有堅(jiān)實(shí)的理論基礎(chǔ),理論上具有較小的出錯(cuò)率。但是,它的適應(yīng)性差。n神經(jīng)網(wǎng)絡(luò):作為一個(gè)相對(duì)獨(dú)立的研究分支已經(jīng)很早被提出,具有高度的抗干擾能力和可以對(duì)未訓(xùn)練數(shù)據(jù)進(jìn)行分類(lèi)等優(yōu)點(diǎn),因此產(chǎn)生了神經(jīng)網(wǎng)絡(luò)和數(shù)據(jù)挖掘技術(shù)的結(jié)合性研究。n遺傳算法:是基于進(jìn)化理論的機(jī)器學(xué)習(xí)方法。n類(lèi)比學(xué)習(xí) :最典型的方法是k-最臨近分類(lèi)(k-Nearest Neighbor Classification)方法,它屬于懶散學(xué)習(xí)法。n其他方法:如粗糙集(Rough S
27、et)、模糊集(Fuzzy Set)方法等 。 2022年7月5日星期二DMKD Sides By MAO30主要聚類(lèi)的技術(shù)n基于劃分的聚類(lèi)方法:基于劃分的聚類(lèi)方法:k-平均算法是統(tǒng)計(jì)學(xué)中的一個(gè)經(jīng)典聚類(lèi)方法,它以預(yù)先定義好的簇平均值,構(gòu)造劃分,評(píng)價(jià)和選擇他們。n基于層次的聚類(lèi)方法:基于層次的聚類(lèi)方法:通過(guò)對(duì)源數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行層次分解,達(dá)到目標(biāo)簇的逐步生成。n凝聚(Agglomeration):由小到大逐步合并、評(píng)價(jià)。n分裂(Division)由大到小逐步分裂、評(píng)價(jià)。n基于密度的聚類(lèi)方法:基于密度的聚類(lèi)方法:基于密度的聚類(lèi)方法是通過(guò)度量區(qū)域所包含的對(duì)象數(shù)目來(lái)形成最終目標(biāo)的。n如果一個(gè)區(qū)域的密度
28、超過(guò)指定的值,那么它就需要進(jìn)一步分解。n基于網(wǎng)格的聚類(lèi)方法:基于網(wǎng)格的聚類(lèi)方法:對(duì)象空間離散化成有限的網(wǎng)格單元,聚類(lèi)工作在這種網(wǎng)格結(jié)構(gòu)上進(jìn)行。n基于模型的聚類(lèi)方法:基于模型的聚類(lèi)方法:每個(gè)簇假定一個(gè)模型,尋找數(shù)據(jù)對(duì)給定模型的最佳擬和。2022年7月5日星期二DMKD Sides By MAO31預(yù)測(cè)型知識(shí)挖掘預(yù)測(cè)型知識(shí)挖掘n預(yù)測(cè)型知識(shí)(Prediction)是指由歷史的數(shù)據(jù)產(chǎn)生的并能推測(cè)未來(lái)數(shù)據(jù)趨勢(shì)的知識(shí)。n預(yù)測(cè)性挖掘主要是對(duì)未來(lái)數(shù)據(jù)的概念分類(lèi)和趨勢(shì)輸出。n分類(lèi)技術(shù)可以用于產(chǎn)生預(yù)測(cè)型的類(lèi)知識(shí)。n統(tǒng)計(jì)學(xué)中的回歸方法等可以通過(guò)歷史數(shù)據(jù)直接產(chǎn)生對(duì)未來(lái)數(shù)據(jù)預(yù)測(cè)的連續(xù)值,因而這些預(yù)測(cè)型知識(shí)已經(jīng)蘊(yùn)藏在諸如
29、趨勢(shì)曲線(xiàn)等輸出形式中。n預(yù)測(cè)型知識(shí)的挖掘可以結(jié)合經(jīng)典的統(tǒng)計(jì)方法、神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)等技術(shù)來(lái)研究。2022年7月5日星期二DMKD Sides By MAO32預(yù)測(cè)型知識(shí)挖掘中預(yù)測(cè)型知識(shí)挖掘中的典型方法 n趨勢(shì)預(yù)測(cè)模式:趨勢(shì)預(yù)測(cè)模式:主要是針對(duì)那些具有時(shí)序(Time Series)屬性的數(shù)據(jù),如股票價(jià)格等,或者是序列項(xiàng)目(Sequence Items)的數(shù)據(jù),如年齡和薪水對(duì)照等,發(fā)現(xiàn)長(zhǎng)期的趨勢(shì)變化等。n周期分析模式:周期分析模式:主要是針對(duì)那些數(shù)據(jù)分布和時(shí)間的依賴(lài)性很強(qiáng)的數(shù)據(jù)進(jìn)行周期模式的挖掘。例如,服裝在某季節(jié)或所有季節(jié)的銷(xiāo)售周期。n序列模式:序列模式:主要是針對(duì)歷史事件發(fā)生次序的分析形成預(yù)測(cè)
30、模式來(lái)對(duì)未來(lái)行為進(jìn)行預(yù)測(cè)。例如,預(yù)測(cè)“三年前購(gòu)買(mǎi)計(jì)算機(jī)的客戶(hù)有很大概率會(huì)買(mǎi)數(shù)字相機(jī)”。n神經(jīng)網(wǎng)絡(luò):神經(jīng)網(wǎng)絡(luò):在預(yù)測(cè)型知識(shí)挖掘中,神經(jīng)網(wǎng)絡(luò)也是很有用的模式結(jié)構(gòu)。2022年7月5日星期二DMKD Sides By MAO33特異型知識(shí)挖掘 n特異型知識(shí)(Exception)是源數(shù)據(jù)中所蘊(yùn)涵的極端特例或明顯區(qū)別于其他數(shù)據(jù)的知識(shí)描述,它揭示了事物偏離常規(guī)的異常規(guī)律。n特異知識(shí)挖掘的價(jià)值:n例如,在Web站點(diǎn)發(fā)現(xiàn)那些區(qū)別于正常登錄行為的用戶(hù)特點(diǎn)可以防止非法入侵。n金融、電信欺詐等n分類(lèi)中的反常實(shí)例、不滿(mǎn)足普通規(guī)則的特例、觀(guān)測(cè)結(jié)果與模型預(yù)測(cè)值的偏差、數(shù)據(jù)聚類(lèi)外的離群值等n許多技術(shù)可以擴(kuò)展到特異型知識(shí)挖掘中
31、,如:n孤立點(diǎn)孤立點(diǎn)(Outlier)分析:分析:孤立點(diǎn)是指不符合數(shù)據(jù)的一般模型的數(shù)據(jù)。在類(lèi)知識(shí)挖掘中,孤立點(diǎn)分析是不能歸入正常類(lèi)知識(shí)中的零散數(shù)據(jù)的再分析。n異常序列分析:異常序列分析:在一系列行為或事件對(duì)應(yīng)的序列中發(fā)現(xiàn)明顯不符合一般規(guī)律的特異型知識(shí)。n特異規(guī)則發(fā)現(xiàn):特異規(guī)則發(fā)現(xiàn):產(chǎn)生并評(píng)價(jià)雖然具有低支持度但可能很有價(jià)值的規(guī)則。 2022年7月5日星期二DMKD Sides By MAO34第一章第一章 緒論緒論 內(nèi)容提要內(nèi)容提要n數(shù)據(jù)挖掘技術(shù)的產(chǎn)生與發(fā)展 n數(shù)據(jù)挖掘研究的發(fā)展趨勢(shì) n數(shù)據(jù)挖掘概念 n數(shù)據(jù)挖掘技術(shù)的分類(lèi)問(wèn)題n數(shù)據(jù)挖掘常用的知識(shí)表示模式與方法n不同數(shù)據(jù)存儲(chǔ)形式下的數(shù)據(jù)挖掘問(wèn)題 n
32、粗糙集方法及其在數(shù)據(jù)挖掘中的應(yīng)用 n數(shù)據(jù)挖掘的應(yīng)用分析 2022年7月5日星期二DMKD Sides By MAO35數(shù)據(jù)挖掘方法與數(shù)據(jù)存儲(chǔ)類(lèi)型n數(shù)據(jù)挖掘技術(shù)應(yīng)該應(yīng)用到任何數(shù)據(jù)存儲(chǔ)方式的知識(shí)挖掘中,但是因?yàn)樵磾?shù)據(jù)的存儲(chǔ)類(lèi)型的不同,挖掘的挑戰(zhàn)性和技術(shù)會(huì)不同。n近年來(lái)的研究表明數(shù)據(jù)挖掘所涉及的數(shù)據(jù)存儲(chǔ)類(lèi)型越來(lái)越豐富,除了一些有通用價(jià)值的模型、構(gòu)架等研究外,也開(kāi)展了一些針對(duì)復(fù)雜或新型數(shù)據(jù)存儲(chǔ)方式下的挖掘技術(shù)或算法的研究。n主要的數(shù)據(jù)類(lèi)型:n事務(wù)數(shù)據(jù)庫(kù)(Transactional Database )n關(guān)系型數(shù)據(jù)庫(kù) (Related Database )n數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse )n在
33、關(guān)系模型基礎(chǔ)上發(fā)展的新型數(shù)據(jù)庫(kù) n面向應(yīng)用的新型數(shù)據(jù)源 nWeb數(shù)據(jù) 2022年7月5日星期二DMKD Sides By MAO36事務(wù)數(shù)據(jù)庫(kù)中的數(shù)據(jù)挖掘事務(wù)數(shù)據(jù)庫(kù)中的數(shù)據(jù)挖掘n一個(gè)事務(wù)數(shù)據(jù)庫(kù)是對(duì)事務(wù)型數(shù)據(jù)的收集。1993年,當(dāng)Agrawal等開(kāi)始討論數(shù)據(jù)挖掘問(wèn)題時(shí),是以購(gòu)物籃分析(Market Basket Analysis)作為商業(yè)應(yīng)用背景的。n從事務(wù)數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí)是數(shù)據(jù)挖掘中研究較早但至今仍然很活躍的問(wèn)題。通過(guò)特定的技術(shù)對(duì)事務(wù)數(shù)據(jù)庫(kù)進(jìn)行挖掘,可以獲得動(dòng)態(tài)行為所蘊(yùn)藏的關(guān)聯(lián)規(guī)則、分類(lèi)、聚類(lèi)以及預(yù)測(cè)等知識(shí)模式。n第三章將詳細(xì)講解2022年7月5日星期二DMKD Sides By MAO37關(guān)
34、系型數(shù)據(jù)庫(kù)中的數(shù)據(jù)挖掘關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù)挖掘n關(guān)系型數(shù)據(jù)庫(kù)是由一系列數(shù)據(jù)表組成的,相當(dāng)成熟:n成熟的語(yǔ)義模型(像實(shí)體-關(guān)系模型);成熟的DBMS(像Oracle)n成熟的查詢(xún)語(yǔ)言(像SQL語(yǔ)言;可視化的輔助工具和優(yōu)化軟件。n一些更深入和亟待解決的問(wèn)題:n多維知識(shí)挖掘:多維知識(shí)挖掘: 傳統(tǒng)的事務(wù)數(shù)據(jù)庫(kù)挖掘所研究的知識(shí)一般是單維(Single-Demension)的,但是,在關(guān)系型數(shù)據(jù)庫(kù)中,多維的知識(shí)更普遍和有應(yīng)用價(jià)值。n單維: “購(gòu)買(mǎi)計(jì)算機(jī)的人也購(gòu)買(mǎi)打印機(jī)”。n多維: “什么樣購(gòu)買(mǎi)計(jì)算機(jī)的人也購(gòu)買(mǎi)打印機(jī)的可能性更大?” 。n多表挖掘:多表挖掘:關(guān)系型數(shù)據(jù)庫(kù)是一系列表的集合。因此,多表挖掘是必然
35、的。n數(shù)量數(shù)據(jù)挖掘:數(shù)量數(shù)據(jù)挖掘: 關(guān)系型數(shù)據(jù)庫(kù)經(jīng)常包含非離散數(shù)量屬性(如工資)。n多層知識(shí)挖掘:多層知識(shí)挖掘:數(shù)據(jù)及其關(guān)聯(lián)總是可在多個(gè)不同的概念層上來(lái)理解它。n知識(shí)評(píng)價(jià)問(wèn)題:知識(shí)評(píng)價(jià)問(wèn)題:對(duì)傳統(tǒng)的數(shù)據(jù)挖掘框架的知識(shí)評(píng)價(jià)問(wèn)題,也是關(guān)系型數(shù)據(jù)庫(kù)中數(shù)據(jù)挖掘走向?qū)嶋H應(yīng)用必須要解決的問(wèn)題。n約束數(shù)據(jù)挖掘問(wèn)題:約束數(shù)據(jù)挖掘問(wèn)題:數(shù)據(jù)挖掘系統(tǒng)在用戶(hù)的約束指導(dǎo)下進(jìn)行,可以提高挖掘效率和準(zhǔn)確度。2022年7月5日星期二DMKD Sides By MAO38數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)挖掘數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)挖掘n數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是按著主題來(lái)組織的。存儲(chǔ)的數(shù)據(jù)可以從歷史的觀(guān)點(diǎn)提供信息。雖然目前的一些數(shù)據(jù)倉(cāng)庫(kù)輔助工具可以幫助完成
36、數(shù)據(jù)分析,但是發(fā)現(xiàn)蘊(yùn)藏在數(shù)據(jù)內(nèi)部的知識(shí)模式及其按知識(shí)工程方法來(lái)完成高層次的工作仍需要數(shù)據(jù)挖掘技術(shù)支持。n數(shù)據(jù)挖掘不僅伴隨數(shù)據(jù)倉(cāng)庫(kù)而產(chǎn)生,而且隨著應(yīng)用深入產(chǎn)生了許多新的課題。n如果我們把數(shù)據(jù)挖掘作為高級(jí)數(shù)據(jù)分析手段來(lái)看,那么它是伴隨數(shù)據(jù)倉(cāng)庫(kù)技術(shù)提出并發(fā)展起來(lái)的。nOLAP盡管在許多方面和數(shù)據(jù)挖掘是有區(qū)別的,但是它們?cè)趹?yīng)用目標(biāo)上有很大的重合度。n數(shù)據(jù)挖掘更看中數(shù)據(jù)分析后所形成的知識(shí)表示模式,而OLAP更注重利用多維等高級(jí)數(shù)據(jù)模型實(shí)現(xiàn)數(shù)據(jù)的聚合。從某種意義上講,我們可以把數(shù)據(jù)挖掘看作是OLAP的高級(jí)形式,與此更接近的名詞可能算是OLAM(聯(lián)機(jī)分析挖掘)。2022年7月5日星期二DMKD Sides
37、By MAO39新型數(shù)據(jù)庫(kù)中的數(shù)據(jù)挖掘 n對(duì)象關(guān)系型數(shù)據(jù)庫(kù)(Object-Ralational Database)挖掘;n面向?qū)ο髷?shù)據(jù)庫(kù)的挖掘;n空間數(shù)據(jù)庫(kù)的挖掘;n時(shí)態(tài)數(shù)據(jù)庫(kù)的挖掘;n工程數(shù)據(jù)庫(kù)(Engineering Database)的挖掘;n多媒體數(shù)據(jù)庫(kù)(Multimedia Database)的挖掘;n等等 2022年7月5日星期二DMKD Sides By MAO40WebWeb數(shù)據(jù)源中的數(shù)據(jù)挖掘數(shù)據(jù)源中的數(shù)據(jù)挖掘n隨著Internet的廣泛使用, WebWeb這一這一巨大的海洋中蘊(yùn)藏著極其豐富的有用信息。n面向Web的數(shù)據(jù)挖掘比面向數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)挖掘要復(fù)雜得多:n異構(gòu)數(shù)據(jù)
38、源環(huán)境:異構(gòu)數(shù)據(jù)源環(huán)境:Web網(wǎng)站上的信息是異構(gòu): 每個(gè)站點(diǎn)的信息和組織都不一樣;存在大量的無(wú)結(jié)構(gòu)的文本信息、復(fù)雜的多媒體信息;站點(diǎn)使用和安全性、私密性要求各異等等。n數(shù)據(jù)的是復(fù)雜性:數(shù)據(jù)的是復(fù)雜性:有些是無(wú)結(jié)構(gòu)的(如Web頁(yè)),通常都是用長(zhǎng)的句子或短語(yǔ)來(lái)表達(dá)文檔類(lèi)信息;有些可能是半結(jié)構(gòu)的(如Email,HTML頁(yè))。當(dāng)然有些具有很好的結(jié)構(gòu)(如電子表格)。揭開(kāi)這些復(fù)合對(duì)象蘊(yùn)涵的一般性描述特征成為數(shù)據(jù)挖掘的不可推卸的責(zé)任。n動(dòng)態(tài)變化的應(yīng)用環(huán)境:動(dòng)態(tài)變化的應(yīng)用環(huán)境:nWeb的信息是頻繁變化的,像新聞、股票等信息是實(shí)時(shí)更新的。n這種高變化也體現(xiàn)在頁(yè)面的動(dòng)態(tài)鏈接和隨機(jī)存取上。nWeb上的用戶(hù)是難以預(yù)測(cè)
39、的。nWeb上的數(shù)據(jù)環(huán)境是高噪音的。2022年7月5日星期二DMKD Sides By MAO41Web挖掘的研究主要流派 nWebWeb結(jié)構(gòu)挖掘:結(jié)構(gòu)挖掘:挖掘Web上的鏈接結(jié)構(gòu)。n通過(guò)Web頁(yè)面間的鏈接信息可以識(shí)別出權(quán)威頁(yè)面(Authoritative Page)、安全隱患(非法鏈接)等。nWebWeb使用挖掘使用挖掘?qū)eb上的Log日志記錄的挖掘nWeb上的Log日志記錄了包括URL請(qǐng)求、IP地址以及時(shí)間等的訪(fǎng)問(wèn)信息。n分析和發(fā)現(xiàn)Log日志中蘊(yùn)藏的規(guī)律可以幫助我們識(shí)別潛在的客戶(hù)、跟蹤Web服務(wù)的質(zhì)量以及偵探非法訪(fǎng)問(wèn)的隱患等。nWebWeb內(nèi)容挖掘:內(nèi)容挖掘: Web的內(nèi)容是豐富的,而且
40、構(gòu)成成分是復(fù)雜的(無(wú)結(jié)構(gòu)的、半結(jié)構(gòu)的等),對(duì)內(nèi)容的分析是重要而艱巨的工作。nWeb的內(nèi)容主要是包含文本、聲音、圖片等的文檔信息。n文本挖掘(Text Mining)和Web搜索引擎(Search Engine)等相關(guān)領(lǐng)域的研究。目n多媒體信息挖掘技術(shù)。2022年7月5日星期二DMKD Sides By MAO42第一章第一章 緒論緒論 內(nèi)容提要內(nèi)容提要n數(shù)據(jù)挖掘技術(shù)的產(chǎn)生與發(fā)展 n數(shù)據(jù)挖掘研究的發(fā)展趨勢(shì) n數(shù)據(jù)挖掘概念 n數(shù)據(jù)挖掘技術(shù)的分類(lèi)問(wèn)題n數(shù)據(jù)挖掘常用的知識(shí)表示模式與方法n不同數(shù)據(jù)存儲(chǔ)形式下的數(shù)據(jù)挖掘問(wèn)題 n粗糙集方法及其在數(shù)據(jù)挖掘中的應(yīng)用 n數(shù)據(jù)挖掘的應(yīng)用分析 2022年7月5日星期二
41、DMKD Sides By MAO43粗糙集理論簡(jiǎn)介n粗糙集理論是一種研究不精確、不確定性知識(shí)的數(shù)學(xué)工具,由波蘭科學(xué)家Z. Pawlak在1982年首先提出的。n粗糙集一經(jīng)提出就立刻引起數(shù)據(jù)挖掘研究人員的注意,并被廣泛討論。n粗糙集的知識(shí)形成思想可以概括為:一種類(lèi)別對(duì)應(yīng)于一個(gè)概念,知識(shí)由概念組成。n粗糙集對(duì)不精確概念的描述方法是通過(guò)下近似(Lower Approximation)和上近似(Upper Approximation)概念來(lái)表示:n一個(gè)概念(或集合)的下近似概念(或集合)中的元素肯定屬于該概念(或集合)n一個(gè)概念(或集合)的上近似概念(或集合)只是可能屬于該概念。 2022年7月5日
42、星期二DMKD Sides By MAO44信息系統(tǒng) n粗糙集把客觀(guān)世界抽象為一個(gè)信息系統(tǒng)。一個(gè)信息系統(tǒng)是一個(gè)四元組,:nU是對(duì)象(或事例)的有限集合,記為Ux1,x2,.,xn。nA是屬性的有限集合,記為AA1,A2,.Am。n屬性集A常常又劃分為兩個(gè)集合C和D,即ACD,CD,C表示條件屬性集,D表示決策屬性集。nV是屬性的值域集,記為VV1,V2,.,Vm,其中Vi是屬性Ai的值域;nf是信息函數(shù)(Information Function),即:,f(xi,Aj)Vj。nf(e,a)的值確定記錄e關(guān)于屬性a的取值。n基于某個(gè)屬性集A的所有等價(jià)記錄的集合,被定義為等價(jià)類(lèi)。屬于同一等價(jià)類(lèi)的記
43、錄稱(chēng)為基于屬性集A的劃分。2022年7月5日星期二DMKD Sides By MAO45近似空間(Approximation Space)n近似空間有一個(gè)二元組,()給出:nU是對(duì)象(或事例)的有限集合,記為U x1,x2,.,xn ;nB是A的屬性子集,R(B)是U上的二元等價(jià)關(guān)系,即R(B) = (x1,x2)|f(x1,b)=f(x2,b),b B。nR(B)也稱(chēng)無(wú)區(qū)別關(guān)系(Indiscernibility Relation)。 nR(B)把U劃分為k個(gè)等價(jià)類(lèi)R*(B) = X1,X2,.,Xk。即n對(duì)任意的x1,x2Xi,有(x1,x2) R(B) ;n對(duì)任意的x1Xi, x2Xj,
44、ij,有(x1,x2) R(B) 。2022年7月5日星期二DMKD Sides By MAO46下近似和上近似定義n對(duì)任意一個(gè)概念(或集合)O,B是U的一個(gè)子集,O的下近似定義為:n其中xR(B)表示x在R(B)上的等價(jià)類(lèi)。nO的上近似定義為:n設(shè)有兩個(gè)屬性集B1,B2,B1是B2的真子集,如果R(B1) = R(B2),則稱(chēng)B2可歸約為B1。如果屬性集B不可進(jìn)一步歸約,則稱(chēng)B是U的一個(gè)約簡(jiǎn)或歸約子。 |)(OxUxOBBRBOxU xOR B | ()2022年7月5日星期二DMKD Sides By MAO47粗糙集中的約簡(jiǎn)概念n極小屬性集:去掉任何一個(gè)屬性,都將使得該屬性集對(duì)應(yīng)的規(guī)則覆
45、蓋反例,即導(dǎo)致規(guī)則與例子的不一致。n極大屬性集:向它加入任何一個(gè)不屬于它的屬性,則會(huì)使得該屬性集對(duì)應(yīng)的規(guī)則覆蓋更少的正例。n粗糙集中的約簡(jiǎn)是極小屬性集,約簡(jiǎn)對(duì)應(yīng)的規(guī)則為極小規(guī)則,極大屬性集對(duì)應(yīng)的規(guī)則為極大規(guī)則。n挖掘的目標(biāo):獲得的極小規(guī)則的盡可能簡(jiǎn)潔形式(即極小屬性集盡可能的?。?。n基于極小規(guī)則和極大規(guī)則的概念,我們就可以實(shí)現(xiàn)極小規(guī)則和極大規(guī)則的生成。 2022年7月5日星期二DMKD Sides By MAO48粗糙集在KDD中的應(yīng)用舉例n規(guī)則學(xué)習(xí)和決策表推導(dǎo)。在保證簡(jiǎn)化后的決策系統(tǒng)具有與原先系統(tǒng)一樣的分類(lèi)能力的前提條件下,通過(guò)使用知識(shí)簡(jiǎn)約和范疇簡(jiǎn)約,將決策系統(tǒng)簡(jiǎn)化并且找到最?。ㄗ疃蹋Q策規(guī)
46、則集合,以達(dá)到最大限度泛化的目的。n知識(shí)簡(jiǎn)約。簡(jiǎn)約和相對(duì)簡(jiǎn)約在粗糙集中十分重要,它反應(yīng)了一個(gè)決策系統(tǒng)的本質(zhì)。通過(guò)對(duì)條件屬性集合的簡(jiǎn)約,可以保證簡(jiǎn)化后的決策系統(tǒng)具有與原先系統(tǒng)一樣的分類(lèi)能力。n屬性相關(guān)分析。粗糙集方法中的屬性重要程度可以用來(lái)衡量該屬性對(duì)分類(lèi)的影響程度,它與ID3中的信息增益類(lèi)似,可以證明兩者在一定條件下是等價(jià)的。n進(jìn)行數(shù)據(jù)預(yù)處理。粗糙集方法可以去掉多余屬性,可提高發(fā)現(xiàn)效率,降低錯(cuò)誤率等 2022年7月5日星期二DMKD Sides By MAO49第一章第一章 緒論緒論 內(nèi)容提要內(nèi)容提要n數(shù)據(jù)挖掘技術(shù)的產(chǎn)生與發(fā)展 n數(shù)據(jù)挖掘研究的發(fā)展趨勢(shì) n數(shù)據(jù)挖掘概念 n數(shù)據(jù)挖掘技術(shù)的分類(lèi)問(wèn)題
47、n數(shù)據(jù)挖掘常用的知識(shí)表示模式與方法n不同數(shù)據(jù)存儲(chǔ)形式下的數(shù)據(jù)挖掘問(wèn)題 n粗糙集方法及其在數(shù)據(jù)挖掘中的應(yīng)用 n數(shù)據(jù)挖掘的應(yīng)用分析 2022年7月5日星期二DMKD Sides By MAO50數(shù)據(jù)挖掘技術(shù)應(yīng)用廣泛n數(shù)據(jù)挖掘技術(shù)從一開(kāi)始就是面向應(yīng)用的。由于現(xiàn)在各行業(yè)的業(yè)務(wù)操作都向著流程自動(dòng)化的方向發(fā)展,企業(yè)內(nèi)產(chǎn)生了大量的業(yè)務(wù)數(shù)據(jù)。n數(shù)據(jù)挖掘技術(shù)應(yīng)用很廣,應(yīng)用較好的領(lǐng)域有:n金融保險(xiǎn)業(yè):Credit Scoring; Insurance Evaluationn電信: Detecting telephone fraudn零售(如超級(jí)市場(chǎng))等商業(yè)領(lǐng)域:Marketing Analysisn醫(yī)學(xué): Detecting inappropriate medical treatmentn體育: IBM Advanced Scout analyzed NBA game statistics n在天文學(xué)、分子生物學(xué)等科學(xué)研究方面n等等2022年7月5日星期二DMKD Sides By MAO51數(shù)據(jù)挖掘與數(shù)據(jù)挖掘與CRMCRMnCRM(客戶(hù)關(guān)系管理)是指對(duì)企業(yè)和客戶(hù)之間的交互活動(dòng)或行為進(jìn)行管理的過(guò)程。n數(shù)據(jù)挖掘能夠幫助企業(yè)確定客戶(hù)的特點(diǎn),使企業(yè)能夠?yàn)榭蛻?hù)提供有針對(duì)性的服務(wù)。因此,把數(shù)據(jù)挖掘和CRM結(jié)合起來(lái)進(jìn)行研究和實(shí)踐,是一個(gè)有很大應(yīng)用前景的工作。n所能解決的典型商業(yè)問(wèn)題包括:n數(shù)據(jù)庫(kù)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025陜西建筑安全員知識(shí)題庫(kù)及答案
- 2025年重慶市安全員-B證(項(xiàng)目經(jīng)理)考試題庫(kù)
- 2025年江西省建筑安全員《A證》考試題庫(kù)
- 【大學(xué)課件】工程倫理
- 【大學(xué)課件】工程建設(shè)監(jiān)理概論
- 《答謝中書(shū)書(shū)》課件1
- 物業(yè)客服培訓(xùn)課件
- 單位管理制度展示選集人員管理十篇
- 2025年中國(guó)航空貨物運(yùn)輸保險(xiǎn)行業(yè)市場(chǎng)發(fā)展現(xiàn)狀及投資方向研究報(bào)告
- 單位管理制度收錄大合集【職員管理篇】
- 人教版四年級(jí)上冊(cè)豎式計(jì)算300題及答案
- 鄉(xiāng)鎮(zhèn)權(quán)責(zé)清單
- 湖北省部分學(xué)校2023-2024學(xué)年高一上學(xué)期期末數(shù)學(xué)試題(解析版)
- 《活著》讀書(shū)分享課件
- 醫(yī)院醫(yī)療糾紛防范與處理實(shí)施辦法(試行)
- 《稀土礦石選礦》課件
- 家具行業(yè)招商方案
- 七年級(jí)第一學(xué)期地理知識(shí)點(diǎn)復(fù)習(xí)提綱(滬教版)
- 2023-2024年全球及中國(guó)藍(lán)莓產(chǎn)業(yè)研究報(bào)告
- 視頻監(jiān)控系統(tǒng)用戶(hù)操作手冊(cè)
- 關(guān)于化工企業(yè)崗位人才及職業(yè)能力需求的調(diào)研
評(píng)論
0/150
提交評(píng)論