




已閱讀5頁(yè),還剩637頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1 2008年 3月 數(shù)據(jù)挖掘概念與技術(shù) 2 第 1章 引言 本章要點(diǎn) 數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展 數(shù)據(jù)挖掘 數(shù)據(jù)挖掘的類型 數(shù)據(jù)挖掘常用技術(shù) 數(shù)據(jù)挖掘解決的典型商業(yè)問(wèn)題 3 數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展 自從 NCR公司為 Wal Mart建立了第一個(gè)數(shù)據(jù)倉(cāng)庫(kù)。 1996年,加拿大的 IDC公司調(diào)查了 62家實(shí)現(xiàn)了數(shù)據(jù)倉(cāng)庫(kù)的歐美企業(yè),結(jié)果表明:數(shù)據(jù)倉(cāng)庫(kù)為企業(yè)提供了巨大的收益。 早期的數(shù)據(jù)倉(cāng)庫(kù):大都 客戶 /服務(wù)器結(jié)構(gòu)。 近年來(lái):數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)從功能上劃分為若干個(gè)分布式對(duì)象,可以直接用于建立數(shù)據(jù)倉(cāng)庫(kù),還可以在應(yīng)用程序中向用戶提供調(diào)用的接口。 IBM的實(shí)驗(yàn)室在數(shù)據(jù)倉(cāng)庫(kù)方面已經(jīng)進(jìn)行了 10多年的研究,并將研究成果發(fā)展成為商用產(chǎn)品。 其他數(shù)據(jù)庫(kù)廠商在數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域也紛紛提出了各自的解決方案。 4 數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展 IBM: 在其 DB2UDB發(fā)布一年后的 1998年 9月發(fā)布 5.2版,并于 1998年 12月推向中國(guó)市場(chǎng),除了用于 OLAP(聯(lián)機(jī)分析處理)的后臺(tái)服務(wù)器 DB2 OLAP Server外,IBM還提供了一系列相關(guān)的產(chǎn)品,包括前端工具,形成一整套解決方案。 Informix公司 : 在其動(dòng)態(tài)服務(wù)器 IDS( Informix Dynamic Server)中提供一系列相關(guān)選件,如高級(jí)決策支持選件( Advanced Decision Support Option)、 OLAP選件( MetaCube ROLAP Option)、擴(kuò)展并行選件( Extended Parallel Option)等,這種體系結(jié)構(gòu)嚴(yán)謹(jǐn)、管理方便、索引機(jī)制完善,并行處理的效率更高,其中數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)庫(kù)查詢的 SQL語(yǔ)句的一致性使得用戶開發(fā)更加簡(jiǎn)便。 5 數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展 微軟公司 : 在其 SQL Server7.0以及 SQL Server2000中集成了代號(hào)為 Plato的 OLAP服務(wù)器。 Sybase: 提供了專門的 OLAP服務(wù)器 Sybase IQ,并將其與數(shù)據(jù)倉(cāng)庫(kù)相關(guān)工具打包成 Warehouse Studio 。 PLATINUM: 提出了由 InfoPump(數(shù)據(jù)倉(cāng)庫(kù)建模與數(shù)據(jù)加載工具)和 Forest&Trees(前端報(bào)表工具)構(gòu)成的一套較有特色的整體方案。 ; Oracle公司 : 則推出從數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建、 OLAP到數(shù)據(jù)集市管理等一系列產(chǎn)品包(如 Oracle Warehouse Builder、 Oracle Express、 DataMart Suit等)。 6 數(shù)據(jù)倉(cāng)庫(kù)的我國(guó)的發(fā)展 現(xiàn)狀:數(shù)據(jù)倉(cāng)庫(kù)的概念已經(jīng)被國(guó)內(nèi)用戶接受多年,但在應(yīng)用方面的收效不理想 原因: 現(xiàn)有的數(shù)據(jù)庫(kù)系統(tǒng)不健全,數(shù)據(jù)積累還不夠,無(wú)法提出決策支持需求; 缺乏能夠擔(dān)負(fù)規(guī)劃、設(shè)計(jì)、構(gòu)建和維護(hù)數(shù)據(jù)倉(cāng)庫(kù)的重任的復(fù)合型人才; 沒(méi)很好使用數(shù)據(jù)倉(cāng)庫(kù)前端工具(如 OLAP工具、數(shù)據(jù)挖掘工具等)。 7 數(shù)據(jù)倉(cāng)庫(kù)的我國(guó)的發(fā)展 前景:隨著計(jì)算機(jī)技術(shù)的發(fā)展,尤其是分布式技術(shù)的發(fā)展, 數(shù)據(jù)倉(cāng)庫(kù)在我國(guó)有著廣闊的發(fā)展空間和良好的發(fā)展前景。例如: 由于銀行商業(yè)化的步伐正在加大,各大中型銀行在入世的機(jī)遇和挑戰(zhàn)下,開始重新考慮自身的業(yè)務(wù),特別是信貸風(fēng)險(xiǎn)管理方面特別注意,因而有關(guān)信貸風(fēng)險(xiǎn)管理和風(fēng)險(xiǎn)規(guī)章的基于數(shù)據(jù)倉(cāng)庫(kù)的決策支持系統(tǒng)的需求逐漸增多; 由于電子商務(wù)的迅速發(fā)展,越來(lái)越多的電子商務(wù)網(wǎng)站,開始考慮如何將數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用于商品銷售分析、顧客的誠(chéng)信度分析等,為客戶提供更進(jìn)一步的個(gè)性化服務(wù); 如移動(dòng)通信等各大型企業(yè)也開始考慮著手進(jìn)行決策支持以及數(shù)據(jù)倉(cāng)庫(kù)規(guī)劃。 8 數(shù)據(jù)倉(cāng)庫(kù) (Data Warehouse)的定義 數(shù)據(jù)倉(cāng)庫(kù)用來(lái)保存從多個(gè)數(shù)據(jù)庫(kù)或其它信息源選取的數(shù)據(jù) , 并為上層應(yīng)用提供統(tǒng)一 用戶接口,完成數(shù)據(jù)查詢和分析。 數(shù)據(jù)倉(cāng)庫(kù)是作為 DSS服務(wù)基礎(chǔ)的分析型 DB, 用來(lái)存放大容量的只讀數(shù)據(jù),為制定決策提供所需要的信息。 數(shù)據(jù)倉(cāng)庫(kù)是與操作型系統(tǒng)相分離的、基于標(biāo)準(zhǔn)企業(yè)模型集成的、帶有時(shí)間屬性的、面向主題及不可更新的數(shù)據(jù)集合。 W.H.Inmon對(duì)數(shù)據(jù)倉(cāng)庫(kù)所下的定義:數(shù)據(jù)倉(cāng)庫(kù)是面向主題的、集成的、穩(wěn)定的、隨時(shí)間變化的數(shù)據(jù)集合,用以支持管理決策的過(guò)程。 9 數(shù)據(jù)倉(cāng)庫(kù)的適用范圍 信息源中的數(shù)據(jù)變化穩(wěn)定 或可預(yù)測(cè)應(yīng)用不需要最新的數(shù)據(jù) 或允許有延遲 應(yīng)用要求有較高的查詢性能 而降低精度要求 10 支持管理決策 數(shù)據(jù)倉(cāng)庫(kù)支持 OLAP(聯(lián)機(jī)分析處理)、數(shù)據(jù)挖掘和決策分析。 OLAP從數(shù)據(jù)倉(cāng)庫(kù)中的綜合數(shù)據(jù)出發(fā),提供面向分析的多維模型,并使用多維分析的方法從多個(gè)角度、多個(gè)層次對(duì)多維數(shù)據(jù)進(jìn)行分析,使決策者能夠以更加自然的方式來(lái)分析數(shù)據(jù)。 數(shù)據(jù)挖掘則以數(shù)據(jù)倉(cāng)庫(kù)和多維數(shù)據(jù)庫(kù)中的數(shù)據(jù)為基礎(chǔ),發(fā)現(xiàn)數(shù)據(jù)中的潛在模式和進(jìn)行預(yù)測(cè)。 因此,數(shù)據(jù)倉(cāng)庫(kù)的功能是支持管理層進(jìn)行科學(xué)決策,而不是事務(wù)處理。 11 數(shù)據(jù)倉(cāng)庫(kù)的技術(shù)要求 大量數(shù)據(jù)的組織和管理:包含了大量的歷史數(shù)據(jù),它是從數(shù)據(jù)庫(kù)中提取得來(lái)的,不必關(guān)心它的數(shù)據(jù)安全性和數(shù)據(jù)完整性。 復(fù)雜分析的高性能體現(xiàn):涉及大量數(shù)據(jù)的聚集、綜合等,在進(jìn)行復(fù)雜查詢時(shí)經(jīng)常會(huì)使用多表的聯(lián)接、累計(jì)、分類、排序等操作。 對(duì)提取出來(lái)的數(shù)據(jù)進(jìn)行集成:數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是從多個(gè)應(yīng)用領(lǐng)域中提取出來(lái)的,在不同的應(yīng)用領(lǐng)域和不同的數(shù)據(jù)庫(kù)系統(tǒng)中都有不同的結(jié)構(gòu)和形式,所以如何對(duì)數(shù)據(jù)進(jìn)行集成也是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)重要方面。 對(duì)進(jìn)行高層決策的最終用戶的界面支持:提供各種分析應(yīng)用工具。 12 隨著數(shù)據(jù)庫(kù)技術(shù)的不斷發(fā)展及數(shù)據(jù)庫(kù)管理系統(tǒng)的廣泛應(yīng)用,數(shù)據(jù)庫(kù)中存儲(chǔ)的數(shù)據(jù)量急劇增大,在大量的數(shù)據(jù)背后隱藏著許多重要的信息。 如何有效使用數(shù)據(jù)庫(kù)中存儲(chǔ)的海量數(shù)據(jù)? 13 如何有效使用數(shù)據(jù)庫(kù)中存儲(chǔ)的海量數(shù)據(jù)? 數(shù)據(jù)挖掘就是從大量的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的但又可能有用的信息和知識(shí)的過(guò)程。 數(shù)據(jù)挖掘的主要目的是提高市場(chǎng)決策能力,檢測(cè)異常模式,在過(guò)去的經(jīng)驗(yàn)基礎(chǔ)上預(yù)言未來(lái)趨勢(shì)等。 例如,通過(guò)對(duì)大量氣象資料和銷售資料的處理及分析,德國(guó)的啤酒商發(fā)現(xiàn),夏天氣溫每升高1 ,就會(huì)增加 230萬(wàn)瓶的啤酒銷量;而日本人則發(fā)現(xiàn),夏季 30 以上的天氣每增加一天,空調(diào)的銷量便增加 4萬(wàn)臺(tái)。 14 美國(guó)沃爾瑪超市 “ 啤酒與尿布 ” 的故事 沃爾瑪超市建立數(shù)據(jù)倉(cāng)庫(kù),按周期統(tǒng)計(jì)產(chǎn)品的銷售信息,經(jīng)過(guò)科學(xué)建模后提煉決策層數(shù)據(jù)。 發(fā)現(xiàn)每逢周末,位于某地區(qū)的沃爾瑪超市連鎖店的啤酒和尿布的銷售量很大,而且單張發(fā)票中同時(shí)購(gòu)買尿布和啤酒的記錄非常普遍。 分析人員認(rèn)為這并非偶然,經(jīng)過(guò)深入分析得知,通常周末購(gòu)買尿布的是男士,他們?cè)谕瓿闪颂唤o的任務(wù)后,經(jīng)常會(huì)順便買一些啤酒。 得出這樣的結(jié)果后,沃爾瑪超市的工作人員嘗試著將啤酒和尿布擺放在一起銷售,結(jié)果尿布與啤酒的銷售額雙雙增長(zhǎng)。 從上面的例子不難看出,數(shù)據(jù)管理的主要目的是獲取信息和分析信息以指導(dǎo)我們的行動(dòng)或幫助我們作決策。 15 數(shù)據(jù)挖掘 數(shù)據(jù)挖掘( ata Mining) :又稱為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),是基于、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等技術(shù),高度自動(dòng)化地分析原有的數(shù)據(jù),進(jìn)行歸納性推理,從數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)庫(kù)中提取可信的、新穎的、有效的、人們感興趣的、能別人理解的知識(shí)的高級(jí)處理過(guò)程。這些知識(shí)是隱含的、事先未知的有用信息,提取的知識(shí)表現(xiàn)為概念、規(guī)則、模式、規(guī)律等形式,以幫助管理者作出正確的決策。 模式:它給出了數(shù)據(jù)特性或數(shù)據(jù)之間的關(guān)系,是對(duì)數(shù)據(jù)所包含的信息更抽象的描述。模式按功能可以分為預(yù)測(cè)型模式和描述型模式。在實(shí)際應(yīng)用中,可以細(xì)分為關(guān)聯(lián)模式、分類模式、聚類模式和序列模式等。 16 數(shù)據(jù)挖掘 數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)是作為兩種獨(dú)立的信息技術(shù)出現(xiàn)的。它們都可以完成對(duì)決策過(guò)程的支持,并且相互間有一定的內(nèi)在聯(lián)系。因此,將數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘集成到一個(gè)系統(tǒng)中將能夠更有效地提高系統(tǒng)的決策支持能力。 數(shù)據(jù)挖掘是一門交叉性學(xué)科,它涉及到機(jī)器學(xué)習(xí)、模式識(shí)別、統(tǒng)計(jì)學(xué)、智能數(shù)據(jù)庫(kù)、知識(shí)獲取、數(shù)據(jù)可視化、高性能計(jì)算、專家系統(tǒng)等多個(gè)領(lǐng)域??蓮V泛地應(yīng)用于信息管理、過(guò)程控制、科學(xué)研究、決策支持等許多方面。 17 數(shù)據(jù)挖掘的發(fā)展 “從數(shù)據(jù)中發(fā)現(xiàn)有用模式 ” 歷來(lái)有很多稱法,如 : 數(shù)據(jù)挖掘 ( data mining) 知識(shí)提取 (knowledge extraction) 信息發(fā)現(xiàn) (information discovery) 信息收獲 (information harvesting) 數(shù)據(jù)考古 (data archaeology) 數(shù)據(jù)模式處理 (data pattern processing) “數(shù)據(jù)挖掘 ” 的稱法大部分是由統(tǒng)計(jì)學(xué)家,數(shù)據(jù)分析學(xué)家和 MIS團(tuán)體使用的,在數(shù)據(jù)庫(kù)領(lǐng)域也得到了廣泛接受。 18 數(shù)據(jù)挖掘的發(fā)展 70 80年代:知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘結(jié)合 1989年 6月:在美國(guó)底特律舉行了第一屆 “ 從數(shù)據(jù)庫(kù)中 知識(shí)發(fā)現(xiàn) ” 的國(guó)際學(xué)術(shù)會(huì)議,在這次會(huì)議中第一次使用了 KDD 這個(gè)詞來(lái)強(qiáng)調(diào) “ 知識(shí) ”是數(shù)據(jù)驅(qū)動(dòng) (data-driven)發(fā)現(xiàn)的最終結(jié)果。 1995:加拿大召開第一屆知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘國(guó)際學(xué)術(shù)會(huì)議 19 歷屆有關(guān) KDD的學(xué)術(shù)會(huì)議 時(shí)間 會(huì)議名稱 會(huì)議地點(diǎn) 接受論文數(shù) 提交 論文數(shù) Jun.1989 Workshop on KDD Detroit,Michigan,USA 29 69 Jul.1991 Workshop on KDD Anaheim,California, USA 25 46 Jul.1993 Workshop on KDD Washington,USA 28 40 1995 KDD95 Montreal,Canada 40 135 Aug.1996 KDD96 Portland,Oregon,USA 45 220 Feb.1997 PAKDD97 Singapore 35 97 Aug.1997 KDD97 California,USA Apr.1998 PAKDD98 Melbourne,Australia Aug.1998 KDD98 New York,USA 20 數(shù)據(jù)挖掘的發(fā)展 數(shù)據(jù)挖掘技術(shù)的應(yīng)用開發(fā)在國(guó)外已經(jīng)迅速發(fā)展,許多大公司(如 Informix, Oracle, IBM等)都投入了巨資對(duì)其進(jìn)行研究,并開發(fā)出了一些產(chǎn)品和原型,如 DBMiner、 Quest、 EXPLORA等。 第一本關(guān)于數(shù)據(jù)挖掘的國(guó)際學(xué)術(shù)雜志 Data Mining and Knowledge Discovery 于 1997年3月創(chuàng)刊。 國(guó)內(nèi)在這方面的研究起步比較晚,早期研究的方向多集中于關(guān)聯(lián)規(guī)則的挖掘,近來(lái)關(guān)于時(shí)序模式、分類、聚類、 WEB數(shù)據(jù)挖掘等的研究也日益受到重視,并取得了不少可喜的成果,一些原型系統(tǒng)或數(shù)據(jù)挖掘工具已經(jīng)研制成功并在不斷完善中。 21 DM系統(tǒng)的體系結(jié)構(gòu) ( 1) DW 的步驟: 數(shù)據(jù)準(zhǔn)備: 數(shù)據(jù)集成 數(shù)據(jù)選擇 預(yù)分析 挖掘 表述 評(píng)價(jià) ( 2) DW 系統(tǒng)的結(jié)構(gòu): 用戶界面 結(jié)果輸出 數(shù)據(jù)挖掘核心 知識(shí)庫(kù) 數(shù)據(jù)倉(cāng)庫(kù) 數(shù)據(jù)庫(kù) 文件系統(tǒng) 其他 數(shù)據(jù)源 ODBC或其他專用數(shù)據(jù)庫(kù)接口 22 數(shù)據(jù)準(zhǔn)備階段:經(jīng)過(guò)處理過(guò)的數(shù)據(jù)一般存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中。數(shù)據(jù)準(zhǔn)備是否做得充分將影響到數(shù)據(jù)挖掘的效率和準(zhǔn)確度以及最終模式的有效性。包括: 數(shù)據(jù)的選擇:選擇相關(guān)的數(shù)據(jù) 數(shù)據(jù)的凈化:消除噪音、冗余數(shù)據(jù) 數(shù)據(jù)的推測(cè):推算缺失數(shù)據(jù) 數(shù)據(jù)的轉(zhuǎn)化:離散值數(shù)據(jù)與連續(xù)值數(shù)據(jù)之間的相互轉(zhuǎn)換、數(shù)據(jù)值的分組分類、數(shù)據(jù)項(xiàng)之間的計(jì)算組合等 數(shù)據(jù)的縮減:減少數(shù)據(jù)量 數(shù)據(jù)挖掘的過(guò)程 23 數(shù)據(jù)挖掘的過(guò)程 挖掘階段:該階段是數(shù)據(jù)挖掘的核心步驟,也是技術(shù)難點(diǎn)所在。根據(jù)數(shù)據(jù)挖掘的目標(biāo),采用人工智能、集合論、統(tǒng)計(jì)學(xué)等方法,應(yīng)用相應(yīng)的數(shù)據(jù)挖掘算法,分析數(shù)據(jù)并通過(guò)可視化工具表述所獲得的模式或規(guī)則。 24 數(shù)據(jù)挖掘的過(guò)程 評(píng)價(jià)階段:在數(shù)據(jù)挖掘中得到的模式可能是沒(méi)有實(shí)際意義或沒(méi)有使用價(jià)值的,也有可能不能準(zhǔn)確反映數(shù)據(jù)的真實(shí)意義,甚至在某些情況下是與事實(shí)相反的,因此需要評(píng)估,確定哪些是有效的、有用的模式。評(píng)估可以根據(jù)用戶多年的經(jīng)驗(yàn),有些模式也可以直接用數(shù)據(jù)來(lái)檢驗(yàn)其準(zhǔn)確性。 25 數(shù)據(jù)挖掘的過(guò)程 鞏固和運(yùn)用階段:用戶理解的、并被認(rèn)為是符合實(shí)際和有價(jià)值的模式形成了知識(shí)。同時(shí)還要對(duì)知識(shí)進(jìn)行一致性檢查,解決與以前得到的知識(shí)互相沖突、矛盾的地方,使知識(shí)得到鞏固。 運(yùn)用知識(shí)有兩種方法:一種是只需看知識(shí)本身所描述的關(guān)系或結(jié)果,就可以對(duì)決策提供支持;另一種是要求運(yùn)用知識(shí)對(duì)新的數(shù)據(jù)進(jìn)行分析,由此可能產(chǎn)生新的問(wèn)題,而需要對(duì)知識(shí)作進(jìn)一步的優(yōu)化。 26 數(shù)據(jù)挖掘的類型 數(shù)據(jù)挖掘的任務(wù) : 是從大量的數(shù)據(jù)中發(fā)現(xiàn)模式。 比較典型的有: 預(yù)測(cè)模型 關(guān)聯(lián)分析 分類分析 聚類分析 序列分析 偏差檢測(cè) 模式相似性挖掘 Web數(shù)據(jù)挖掘 27 預(yù)測(cè)模型 預(yù)測(cè)模型( Predictive Modeling): 即從數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中已知的數(shù)據(jù)推測(cè)未知的數(shù)據(jù)或?qū)ο蠹心承傩缘闹捣植?建立預(yù)測(cè)模型的常用方法: 回歸分析 線性模型 關(guān)聯(lián)規(guī)則 決策樹預(yù)測(cè) 遺傳算法 神經(jīng)網(wǎng)絡(luò) 28 關(guān)聯(lián)分析 關(guān)聯(lián)( Association)分析:關(guān)聯(lián)規(guī)則描述了一組數(shù)據(jù)項(xiàng)之間的密切度或關(guān)系。關(guān)聯(lián)分析用于發(fā)現(xiàn)項(xiàng)目集之間的關(guān)聯(lián)。 在關(guān)聯(lián)規(guī)則挖掘算法中,通常給出了置信度和支持度兩個(gè)概念,對(duì)于置信度和支持度均大于給定閾值的規(guī)則稱為強(qiáng)規(guī)則,而關(guān)聯(lián)分析主要就是對(duì)強(qiáng)規(guī)則的挖掘。 近幾年研究較多?,F(xiàn)在,已經(jīng)從單一概念層次關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)發(fā)展到多概念層次的關(guān)聯(lián)規(guī)則的發(fā)現(xiàn),并把研究的重點(diǎn)放在提高算法的效率和規(guī)模可收縮性上。它廣泛地運(yùn)用于幫助市場(chǎng)導(dǎo)向、商品目錄設(shè)計(jì)客戶關(guān)系管理)( CRM)和其他各種商業(yè)決策過(guò)程中。 關(guān)聯(lián)分析算法: APRIORI算法、 DHP算法、 DIC算法、PARTITION算法及它們的各種改進(jìn)算法等。另外,對(duì)于大規(guī)模、分布在不同站點(diǎn)上的數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù),關(guān)聯(lián)規(guī)則的挖掘可以使用并行算法,如: Count分布算法、 Data分布算法、Candidate 分布算法、智能 Data分布算法( IDD)和 DMA分布算法等。 29 分類分析 分類( Classification)分析:根據(jù)數(shù)據(jù)的特征為每個(gè)類別建立一個(gè)模型,根據(jù)數(shù)據(jù)的屬性將數(shù)據(jù)分配到不同的組中。 在實(shí)際應(yīng)用過(guò)程中,分類規(guī)則可以分析分組中數(shù)據(jù)的各種屬性,并找出數(shù)據(jù)的屬性模型,從而確定哪些數(shù)據(jù)屬于哪些組。這樣就可以利用該模型來(lái)分析已有數(shù)據(jù),并預(yù)測(cè)新數(shù)據(jù)將屬于哪一個(gè)組。類的描述可以是顯式的,如用一組特征概念描述;也可以是隱式的,如用一個(gè)數(shù)學(xué)公式或數(shù)學(xué)模型描述。分類分析已經(jīng)成功地用于顧客分類、疾病分類、商業(yè)建模和信用卡分析等。 分類分析的常用方法: 約略( Rough)集 決策樹 神經(jīng)網(wǎng)絡(luò) 統(tǒng)計(jì)分析法 30 聚類分析 聚類 (Clustering)分析:聚類是指一組彼此間非常 “ 相似 ” 的數(shù)據(jù)對(duì)象的集合。相似的程度可以通過(guò)距離函數(shù)來(lái)表示,由用戶或?qū)<抑付ā?聚類分析是按照某種相近程度度量方法將數(shù)據(jù)分成互不相同的一些分組。每一個(gè)分組中的數(shù)據(jù)相近,不同分組之間的數(shù)據(jù)相差較大。 好的聚類方法可以產(chǎn)生高質(zhì)量的聚類,保證每一聚類內(nèi)部的相似性很高,而各聚類之間的相似性很低。聚類分析的核心是將某些定性的相近程度測(cè)量方法轉(zhuǎn)換成定量測(cè)試方法。 采用聚類分析,系統(tǒng)可以根據(jù)部分?jǐn)?shù)據(jù)發(fā)現(xiàn)規(guī)律,找出對(duì)全體數(shù)據(jù)的描述。 聚類分析的常用方法: 隨機(jī)搜索聚類法 特征聚類 CF樹 31 序列分析 序列( Sequence)分析:序列分析主要用于分析數(shù)據(jù)倉(cāng)庫(kù)中的某類與時(shí)間相關(guān)的數(shù)據(jù),搜索類似的序列或子序列,并挖掘時(shí)序模式、周期性、趨勢(shì)和偏離等。 例如,它可以導(dǎo)出類似 “ 若 AT&T股票連續(xù)上漲兩天且 DEC股票不下跌,則第三天 IBM股票上漲的可能性為 75%”的數(shù)據(jù)關(guān)系。序列模式可以看成是一種特定的關(guān)聯(lián)模型,它在關(guān)聯(lián)模型中增加了時(shí)間屬性。 32 偏差檢測(cè)與模式相似性挖掘 偏差檢測(cè)( Deviation Detection):用于檢測(cè)并解釋數(shù)據(jù)分類的偏差,它有助于濾掉知識(shí)發(fā)現(xiàn)引擎所抽取的無(wú)關(guān)信息,也可濾掉那些不合適的數(shù)據(jù),同時(shí)可產(chǎn)生新的關(guān)注性事實(shí)。 模式相似性挖掘:用于在時(shí)間數(shù)據(jù)庫(kù)或空間數(shù)據(jù)庫(kù)中搜索相似模式時(shí),從所有對(duì)象中找出用戶定義范圍內(nèi)的對(duì)象;或找出所有元素對(duì),元素對(duì)中兩者的距離小于用戶定義的距離范圍。模式相似性挖掘的方法有相似度測(cè)量法、遺傳算法等。 33 Web數(shù)據(jù)挖掘 Web數(shù)據(jù)挖掘:萬(wàn)維網(wǎng)是一個(gè)巨大的、分布廣泛的和全球性的信息服務(wù)中心,其中包含了豐富的超鏈接信息,為數(shù)據(jù)挖掘提供了豐富的資源。 Web使用模式挖掘:在 Web環(huán)境中,文檔和對(duì)象一般都是通過(guò)鏈接來(lái)便于用戶訪問(wèn)。捕捉用戶的存取模式或發(fā)現(xiàn)一個(gè) Web網(wǎng)站最頻繁的訪問(wèn)路徑稱為 Web使用模式挖掘或 Web路徑挖掘。 Web結(jié)構(gòu)挖掘:是挖掘 Web的鏈接結(jié)構(gòu),并找出關(guān)于某一主題的權(quán)威網(wǎng)站。 Web內(nèi)容挖掘:是指在大量訓(xùn)練樣本的基礎(chǔ)上,得到數(shù)據(jù)對(duì)象之間的內(nèi)在特征,并以此為依據(jù)進(jìn)行有目的的信息篩選,從而獲得指定內(nèi)容的信息。 基于 Web的研究:搜索引擎的設(shè)計(jì)、文件自動(dòng)分類技術(shù)、關(guān)鍵詞的自動(dòng)提取、半結(jié)構(gòu)化信息的提取及 Web上新型應(yīng)用的研究 34 數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu) 數(shù)據(jù)挖掘系統(tǒng)可以采用三層的 C/S結(jié)構(gòu): 第一層:為圖形用戶界面,位于系統(tǒng)的客戶端; 第二層:為數(shù)據(jù)挖掘引擎,它是數(shù)據(jù)挖掘系統(tǒng)的核心,位于系統(tǒng)的應(yīng)用服務(wù)器端; 第三層:為數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù),位于數(shù)據(jù)服務(wù)器端。 35 數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu) 圖形用戶界面 該模塊實(shí)現(xiàn)用戶與數(shù)據(jù)挖掘系統(tǒng)之間的通信,允許用戶與系統(tǒng)交互。 用戶可以通過(guò)圖形化界面指定數(shù)據(jù)挖掘任務(wù)、輸入有關(guān)信息,根據(jù)系統(tǒng)以可視化形式輸出的數(shù)據(jù)挖掘的中間結(jié)果進(jìn)行探索式的數(shù)據(jù)挖掘。 此外,該模塊還提供用戶瀏覽數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)模式或數(shù)據(jù)結(jié)構(gòu)、評(píng)價(jià)數(shù)據(jù)挖掘的模式等功能。 36 數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu) 數(shù)據(jù)挖掘引擎 數(shù)據(jù)挖掘引擎是數(shù)據(jù)挖掘系統(tǒng)最基本、最重要的部分,是數(shù)據(jù)挖掘系統(tǒng)的核心。 該部分由一系列功能模塊組成,分別用于關(guān)聯(lián)規(guī)則挖掘、分類規(guī)則挖掘、聚類規(guī)則挖掘、時(shí)序與序列數(shù)據(jù)挖掘和 WEB數(shù)據(jù)挖掘等。 37 數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu) 數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù) 該部分位于數(shù)據(jù)服務(wù)器端,包括數(shù)據(jù)庫(kù)、知識(shí)庫(kù)、文件系統(tǒng)、其他數(shù)據(jù)源以及存放經(jīng)過(guò)數(shù)據(jù)準(zhǔn)備提取和集成后數(shù)據(jù)的數(shù)據(jù)倉(cāng)庫(kù)。在知識(shí)庫(kù)中存放領(lǐng)域知識(shí),用于搜索和對(duì)模式進(jìn)行評(píng)價(jià)。 數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器的功能是根據(jù)用戶的數(shù)據(jù)挖掘請(qǐng)求,提取相應(yīng)的數(shù)據(jù)供數(shù)據(jù)挖掘引擎使用。 38 數(shù)據(jù)挖掘常用技術(shù) 生物學(xué)方法 人工神經(jīng)網(wǎng)絡(luò) 遺傳算法 信息論方法 決策樹 集合論方法 約略集 模糊集 最鄰近技術(shù) 統(tǒng)計(jì)學(xué)方法 可視化技術(shù) 39 生物學(xué)方法 神經(jīng)網(wǎng)絡(luò)方法 神經(jīng)網(wǎng)絡(luò)是人工智能領(lǐng)域的一個(gè)重要的分支。采用神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)的系統(tǒng)模擬人腦的結(jié)構(gòu),而與傳統(tǒng)的系統(tǒng)截然不同。由醫(yī)學(xué)可知,人的大腦中有幾十億個(gè)大腦細(xì)胞(稱為神經(jīng)元),這些神經(jīng)元通過(guò)神經(jīng)中樞的導(dǎo)電神經(jīng)纖維互相連接,從而形成一個(gè)復(fù)雜的腦神經(jīng)網(wǎng)絡(luò)。人在學(xué)習(xí)某一件事的時(shí)候,某些神經(jīng)元的連接得到強(qiáng)化。 在人工神經(jīng)網(wǎng)絡(luò)中,用計(jì)算機(jī)處理單元來(lái)模擬人腦的神經(jīng)元,并將這些處理單元象人腦的神經(jīng)元那樣互相連接起來(lái),構(gòu)成一個(gè)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)并非使用編程的方式讓計(jì)算機(jī)去做某項(xiàng)工作,而是采用所謂 “ 訓(xùn)練 ” 的方法讓神經(jīng)網(wǎng)絡(luò)進(jìn)行 “ 學(xué)習(xí) ” 。完成某項(xiàng)工作的正確動(dòng)作,使得神經(jīng)網(wǎng)絡(luò)的某些連接或模式得到強(qiáng)化;而錯(cuò)誤的動(dòng)作則使神經(jīng)網(wǎng)絡(luò)的相應(yīng)連接或模式不被強(qiáng)化。從而讓神經(jīng)網(wǎng)絡(luò) “ 學(xué)會(huì) ” 如何去做這項(xiàng)工作。 40 生物學(xué)方法 神經(jīng)網(wǎng)絡(luò)方法 神經(jīng)網(wǎng)絡(luò)通過(guò)學(xué)習(xí)待分析數(shù)據(jù)中的模式來(lái)構(gòu)造模型,一般可對(duì)隱類型進(jìn)行分類,用于非線性的,復(fù)雜的數(shù)據(jù)。它通過(guò)模擬人腦神經(jīng)元結(jié)構(gòu)進(jìn)行數(shù)據(jù)挖掘。 以 MP模型和 Hebb學(xué)習(xí)規(guī)則為基礎(chǔ),建立了三大類多種神經(jīng)網(wǎng)絡(luò)模型: 前饋式網(wǎng)絡(luò):以感知機(jī)、反向傳播模型、函數(shù)型網(wǎng)絡(luò)為代表,可用于預(yù)測(cè)、模式識(shí)別等方面。 反饋式網(wǎng)絡(luò):以 Hopfield的離散模型和連續(xù)模型為代表,分別用于聯(lián)想記憶和優(yōu)化計(jì)算。 自組織網(wǎng)絡(luò):以 ART模型、 Koholon模型為代表,用于聚類。 41 生物學(xué)方法 遺傳算法 遺傳算法( Genetic Algorithms,簡(jiǎn)記為 GI):是一種借鑒生物界自然選擇和進(jìn)化機(jī)制發(fā)展起來(lái)的高度并行、隨機(jī)、自適應(yīng)搜索算法。 遺傳算法的研究歷史比較短,是從 20世紀(jì) 60年代末期到 70年代初才開始的,當(dāng)時(shí)的一些學(xué)者從試圖解釋自然界中生物的復(fù)雜適應(yīng)過(guò)程入手,模擬生物進(jìn)化的機(jī)制來(lái)建立人工系統(tǒng)的模型。經(jīng)過(guò)近 30的發(fā)展,現(xiàn)已取得了理論研究的進(jìn)展和豐碩的應(yīng)用成果。 目前,以遺傳算法為核心的進(jìn)化算法已與模糊系統(tǒng)理論、人工神經(jīng)網(wǎng)絡(luò)等一起成為人工智能研究中的熱點(diǎn),受到許多學(xué)科的共同關(guān)注。 42 生物學(xué)方法 遺傳算法 遺傳算法的研究與生物進(jìn)化理論和遺傳學(xué)密切相關(guān)。生命的基本特征包括生長(zhǎng)、繁殖、新陳代謝和遺傳與變異。生命是進(jìn)化的產(chǎn)物,現(xiàn)代的生物是在長(zhǎng)期的進(jìn)化過(guò)程中發(fā)展起來(lái)的。 達(dá)爾文提出了用自然選擇來(lái)解釋生物的進(jìn)化過(guò)程,該學(xué)說(shuō)包括遺傳、變異、生存斗爭(zhēng)和適者生存三個(gè)方面。 生物進(jìn)化是非常復(fù)雜的,它將涉及諸如染色體、脫氧核糖核酸、遺傳因子、種群、基因、進(jìn)化、選擇、復(fù)制、交叉、變異、編碼與解碼等許多名詞術(shù)語(yǔ),而且許多現(xiàn)象尚無(wú)法用現(xiàn)有的進(jìn)化理論來(lái)解釋。 43 生物學(xué)方法遺傳算法 遺傳算法的基本思想:從代表問(wèn)題的可能潛在解集的一個(gè)種群開始,一個(gè)種群是由經(jīng)過(guò)基因編碼的一定數(shù)量的個(gè)體組成,每個(gè)個(gè)體是染色體帶有特征的實(shí)體,染色體是多個(gè)基因的集合,它決定了個(gè)體的形狀和外部表現(xiàn);通過(guò)模擬基因編碼形成初代種群,然后按照適者生存和優(yōu)勝劣汰的原則逐代演化產(chǎn)生出越來(lái)越好的近似解;在每一代,根據(jù)問(wèn)題域中個(gè)體的適應(yīng)度大小進(jìn)行選擇,并借助遺傳算子進(jìn)行組合交叉和變異,從而產(chǎn)生出代表新的解集的種群;以上過(guò)程將導(dǎo)致種群象自然進(jìn)化一樣的后代種群比前代種群更加適用于環(huán)境,末代種群中的最優(yōu)個(gè)體經(jīng)過(guò)解碼可以作為問(wèn)題的最優(yōu)近似解。 44 生物學(xué)方法 遺傳算法 遺傳算法中的三個(gè)基本操作: 選擇:即通過(guò)適應(yīng)度的計(jì)算確定重組或交叉的個(gè)體,并確定被選個(gè)體將產(chǎn)生多少個(gè)子代個(gè)體。 交叉:又稱為基因重組,即結(jié)合來(lái)自父代種群中的信息產(chǎn)生新的個(gè)體。 變異:即交叉之后子代的基因按小概率擾動(dòng)所產(chǎn)生的變化。 遺傳算法可起到產(chǎn)生優(yōu)良后代的作用。這些后代需滿足適應(yīng)值,經(jīng)過(guò)若干代的遺傳,將得到滿足要求的后代(問(wèn)題的解)。 遺傳算法提供了一種求解復(fù)雜系統(tǒng)優(yōu)化問(wèn)題的通用框架,它不依賴于問(wèn)題的具體領(lǐng)域,因此可以應(yīng)用于函數(shù)優(yōu)化、組合優(yōu)化、生產(chǎn)調(diào)度、自動(dòng)控制、機(jī)器人智能控制、圖像處理、模式識(shí)別、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等眾多領(lǐng)域。 45 信息論方法 信息論是研究信息的測(cè)度及其性質(zhì)、信息傳輸和信息處理系統(tǒng)的一般規(guī)律的學(xué)科分支。其研究?jī)?nèi)容主要包括:以編碼理論為中心的所謂狹義信息論,它研究信息的測(cè)度、信息的容量、信源特性、信源編碼、信道和信息系統(tǒng)模型等;信號(hào)處理技術(shù),它研究信號(hào)和噪音分析、信號(hào)的過(guò)濾與檢測(cè),以及有關(guān)理論;以計(jì)算機(jī)為中心的信息處理技術(shù)與理論,例如模式識(shí)別、自學(xué)習(xí)理論、自動(dòng)機(jī)器翻譯等。 在數(shù)據(jù)挖掘中,決策樹( decision tree)是一種廣泛使用的圖解法決策分析工具,它把影響各行動(dòng)的有關(guān)因素(自然狀態(tài)、概率、損益值等)用樹型圖表示,可直觀形象地表示出各條件和所允許的行動(dòng)以及各種結(jié)果中間的關(guān)系。 46 決策樹方法 決策樹:用樹結(jié)構(gòu)表示決策集,這些決策產(chǎn)生規(guī)則,用于對(duì)數(shù)據(jù)集進(jìn)行分類。 決策樹的建立:利用訓(xùn)練集生成一個(gè)測(cè)試函數(shù),根據(jù)不同取值建立樹的分支,再在每個(gè)分支子集中重復(fù)建樹的分支的過(guò)程,即可建立決策樹。然后對(duì)決策樹進(jìn)行剪枝處理,即可得到規(guī)則。 典型的決策樹方法: ID3、分類回歸樹( CART)、 C4.5等。 47 集合論方法約略集 約略集( Rough Set)又稱為粗糙集和粗集,是由波蘭華沙理工大學(xué) Z . Pawlak教授等提出的研究不完整數(shù)據(jù)、不精確知識(shí)的表達(dá)、學(xué)習(xí)和歸納的理論與方法。 約略集方法與使用統(tǒng)計(jì)學(xué)方法或模糊集合論方法處理不精確數(shù)據(jù)的方法不同,它是以對(duì)觀察和測(cè)量所得數(shù)據(jù)進(jìn)行分類的能力為基礎(chǔ)的,為智能信息處理提供了有效的理論基礎(chǔ)和處理技術(shù)。 48 集合論方法約略集 約略集理論是 Z.Pawlak于 1982年在 計(jì)算機(jī)與信息科學(xué) 國(guó)際雜志上發(fā)表的論文 “ Rough Sets”中首先提出的一個(gè)分析數(shù)據(jù)的數(shù)學(xué)理論。在分類的意義下,這個(gè)理論定義了模糊性與不確定性的概念,由于最初的研究大多是用波蘭文發(fā)表的,因此,這項(xiàng)研究在當(dāng)時(shí)并未引起國(guó)際計(jì)算機(jī)學(xué)界的重視,研究地域局限在東歐各國(guó)。 到了 80年代末,這個(gè)理論引起了世界各國(guó)學(xué)者的注意,人們對(duì)約略集理論的主要興趣在于它恰好反映了人們以不完全信息或知識(shí)去處理一些不分明現(xiàn)象的能力,或依據(jù)觀察、度量到的某些不精確的結(jié)果而進(jìn)行分類數(shù)據(jù)的能力。如醫(yī)學(xué)、藥學(xué)、工業(yè)、工程技術(shù)、控制系統(tǒng)、社會(huì)科學(xué)、地球科學(xué)、開關(guān)電路、圖象處理和其他許多方面都已經(jīng)成功地實(shí)現(xiàn)了它的應(yīng)用。 49 集合論方法約略集 國(guó)際上關(guān)于約略集理論和知識(shí)發(fā)現(xiàn)的會(huì)議: 1993年在 Banff, Alberta, Canada舉行的 The Intl Workshop on Rough Sets and Knowledge Discovery 1996年在 University of Tokyo舉行的 The Fourth Intl Workshop on Rough Sets, Fuzzy Sets, and Machine Discovery 研究集中在約略集理論的數(shù)學(xué)性質(zhì)、拓廣、與其他不確定方法的關(guān)系和互補(bǔ),以及有效算法等方面。 基于 Rough集方法的數(shù)據(jù)挖掘工具:如ProbRough、 TRANCE、 KDD-R、 LERS、DataLogic/R等。 50 精確集與約略集 令 U是全域, XU,若 X是任意基本集的并,則 X是 R(區(qū)分關(guān)系) 可定義的,否則是 R不可定義的; R可定義集也稱作 R精確集( R Exact Sets),它在 U的知識(shí)庫(kù)中可以被定義,而 R不可定義集不能在該知識(shí)庫(kù)中定義,稱為 R非精確集( R Inexact Sets)或 R約略集( R Rough Sets)。 51 約略集 上近似與下近似 約略集的基本觀點(diǎn):用一個(gè)二元關(guān)系來(lái)建構(gòu)集合的近似。信息系統(tǒng) S =( U, T, V, )的不可區(qū)分集合 RB(x)(在約略集理論中即等價(jià)類xB)是用來(lái)近似任何子集 XU的基石。 如果用屬性 B不能精確地定義集合 X,這時(shí)可以考慮用等價(jià)關(guān)系 B導(dǎo)出的等價(jià)類近似地定義集合 X,給出集合 X的下近似和上近似的定義。 根據(jù) X的上下近似,可以將 U分為三個(gè)區(qū)域:正區(qū)域,負(fù)區(qū)域和邊界區(qū)域。 52 概念 X的上下近似圖解 53 集合論方法 約略集 約略集理論用于分類規(guī)則挖掘:發(fā)現(xiàn)不精確數(shù)據(jù)或噪聲數(shù)據(jù)的內(nèi)在結(jié)構(gòu)聯(lián)系。其基本思想是建立樣本數(shù)據(jù)內(nèi)部的等價(jià)類,而這些等價(jià)類是按照下近似和上近似“ 約略地 ” 定義的。對(duì)于每一個(gè)等價(jià)類可以產(chǎn)生相應(yīng)的判定規(guī)則,對(duì)于下近似可建立確定性規(guī)則,對(duì)于上近似可建立不確定性規(guī)則(含可信度),并用判定表表示這些規(guī)則。 約略集理論用于特征歸約和相關(guān)分析:找出描述給定數(shù)據(jù)集中所有概念的最小屬性子集。 約略集理論用于屬性化簡(jiǎn)及其規(guī)則篩選:減少數(shù)據(jù)庫(kù)系統(tǒng)中的冗余屬性,提高數(shù)據(jù)庫(kù)中所隱含知識(shí)的可理解性。 54 集合論方法 模糊集方法 模糊性是客觀存在的,系統(tǒng)的復(fù)雜性越高,精確化能力就越低,也就意味著模糊性越強(qiáng)。 在進(jìn)行分類規(guī)則挖掘時(shí),如果采用精確值作為閾值或邊界是比較苛刻的,引入模糊集的隸屬函數(shù)后可以使分類更加接近于現(xiàn)實(shí)?;谀:碚摰姆诸惙椒ㄍǔP枰獙傩灾缔D(zhuǎn)換為模糊值,然后使用模糊規(guī)則對(duì)給定樣本數(shù)據(jù)進(jìn)行分類。 模糊集合理論還可以用于對(duì)實(shí)際問(wèn)題進(jìn)行模糊評(píng)判、模糊決策、模糊模式識(shí)別和模糊聚類分析等。 55 統(tǒng)計(jì)學(xué)分析方法 在數(shù)據(jù)挖掘中,統(tǒng)計(jì)學(xué)可應(yīng)用于預(yù)測(cè)、聚類規(guī)則挖掘和時(shí)序數(shù)據(jù)的趨勢(shì)分析等。 預(yù)測(cè)是數(shù)據(jù)分析的一種重要形式,通過(guò)建立連續(xù)值函數(shù)模型,可以預(yù)測(cè)數(shù)據(jù)的未來(lái)變化趨勢(shì)。連續(xù)值的預(yù)測(cè)可以使用統(tǒng)計(jì)學(xué)中的回歸統(tǒng)計(jì)技術(shù)建模,如線性回歸、多元回歸、非線性回歸、廣義線性回歸(對(duì)數(shù)回歸、泊松回歸等)。許多問(wèn)題可以用線性回歸方法解決,而更多的問(wèn)題則可以對(duì)變量進(jìn)行變換,使得非線性的問(wèn)題轉(zhuǎn)換為線性的問(wèn)題加以處理。 56 統(tǒng)計(jì)學(xué)分析方法 預(yù)測(cè) 在數(shù)據(jù)屬性之間存在兩種關(guān)系: 函數(shù)關(guān)系:能用函數(shù)公式表示的確定性關(guān)系,可以采用回歸分析的方法; 相關(guān)關(guān)系:不能用函數(shù)公式表示,但仍是相關(guān)確定的關(guān)系,可以采用相關(guān)分析和主成分分析等方法。 57 統(tǒng)計(jì)學(xué)分析方法 聚類分析 統(tǒng)計(jì)學(xué)方法還可以應(yīng)用于基于模型的聚類分析。例如,概念聚類是一種基于模型的聚類方法,它對(duì)于一組為標(biāo)記的對(duì)象,產(chǎn)生一個(gè)分類模式。這種聚類不僅能夠確定相似對(duì)象的分組,還可以發(fā)現(xiàn)每一個(gè)分組的特征描述,即每一個(gè)分組代表了一個(gè)概念或類。概念聚類的大多數(shù)方法采用了統(tǒng)計(jì)學(xué)的途徑,在決定概念或聚類時(shí)使用概率度量,用概率描述導(dǎo)出的概念。 58 可視化技術(shù) 可視化數(shù)據(jù)分析技術(shù)拓寬了傳統(tǒng)的圖表功能,使用戶對(duì)數(shù)據(jù)的剖析更清楚、更直觀。例如,把數(shù)據(jù)倉(cāng)庫(kù)中的多維數(shù)據(jù)或者把由數(shù)據(jù)挖掘獲得的模式和規(guī)則變成多種圖形,這對(duì)揭示數(shù)據(jù)的狀況、內(nèi)在本質(zhì)及規(guī)律性起到了重要的作用。 59 數(shù)據(jù)挖掘解決的典型商業(yè)問(wèn)題 數(shù)據(jù)挖掘技術(shù)從一開始就是面向應(yīng)用的,尤其是在如銀行、電信、保險(xiǎn)、交通、零售(如超級(jí)市場(chǎng))等商業(yè)領(lǐng)域。 解決的典型商業(yè)問(wèn)題包括:數(shù)據(jù)庫(kù)營(yíng)銷( Database Marketing)、客戶群體劃分( Customer Segmentation & Classification)、背景分析( Profile Analysis)、交叉銷售( Cross-selling)等市場(chǎng)分析行為,以及客戶流失性分析 (Churn Analysis)、客戶信用記分 (Credit Scoring)、欺詐發(fā)現(xiàn) (Fraud Detection)等等。 60 數(shù)據(jù)挖掘在市場(chǎng)營(yíng)銷的應(yīng)用 是以市場(chǎng)營(yíng)銷學(xué)的市場(chǎng)細(xì)分原理為基礎(chǔ), 其基本假定是 “ 消費(fèi)者過(guò)去的行為是其今后消費(fèi)傾向的最好說(shuō)明 ” 通過(guò)收集、加工和處理涉及消費(fèi)者消費(fèi)行為的大量信息,確定特定消費(fèi)群體或個(gè)體的興趣、消費(fèi)習(xí)慣、消費(fèi)傾向和消費(fèi)需求,進(jìn)而推斷出相應(yīng)消費(fèi)群體或個(gè)體下一步的消費(fèi)行為,然后以此為基礎(chǔ),對(duì)所識(shí)別出來(lái)的消費(fèi)群體進(jìn)行特定內(nèi)容的定向營(yíng)銷 61 數(shù)據(jù)挖掘在市場(chǎng)營(yíng)銷的應(yīng)用 與傳統(tǒng)的不區(qū)分消費(fèi)者對(duì)象特征的大規(guī)模營(yíng)銷手段相比,大大節(jié)省了營(yíng)銷成本,提高了營(yíng)銷效果,從而為企業(yè)帶來(lái)更多的利潤(rùn)。 基于數(shù)據(jù)挖掘的營(yíng)銷對(duì)我國(guó)當(dāng)前的市場(chǎng)競(jìng)爭(zhēng)中也很具有啟發(fā)意義,我們經(jīng)常可以看到繁華商業(yè)街上一些廠商對(duì)來(lái)往行人不分對(duì)象地散發(fā)大量商品宣傳廣告,其結(jié)果是不需要的人隨手丟棄資料,而需要的人并不一定能夠得到。 如果搞家電維修服務(wù)的公司向在商店中剛剛購(gòu)買家電的消費(fèi)者郵寄維修服務(wù)廣告,賣特效藥品的廠商向醫(yī)院特定門診就醫(yī)的病人郵寄廣告,肯定會(huì)比漫無(wú)目的的營(yíng)銷效果要好得多。 62 競(jìng)技運(yùn)動(dòng)中的數(shù)據(jù)挖掘 美國(guó)著名的國(guó)家籃球隊(duì) NBA的教練,利用 IBM公司提供的數(shù)據(jù)挖掘工具臨場(chǎng)決定替換隊(duì)員。大約 20個(gè) NBA球隊(duì)使用了 IBM公司開發(fā)的數(shù)據(jù)挖掘應(yīng)用軟件Advanced Scout系統(tǒng)來(lái)優(yōu)化他們的戰(zhàn)術(shù)組合。 - Advanced Scout是一個(gè)數(shù)據(jù)分析工具,教練可以用便攜式電腦在家里或在路上挖掘存儲(chǔ)在 NBA中心的服務(wù)器上的數(shù)據(jù)。 每一場(chǎng)比賽的事件都被統(tǒng)計(jì)分類,按得分、助攻、失誤等等。時(shí)間標(biāo)記讓教練非常容易地通過(guò)搜索 NBA比賽的錄像來(lái)理解統(tǒng)計(jì)發(fā)現(xiàn)的含義。 例如:教練通過(guò) Advanced Scout發(fā)現(xiàn)本隊(duì)的球員在與對(duì)方一個(gè)球星對(duì)抗時(shí)有犯規(guī)紀(jì)錄,他可以在對(duì)方球星與這個(gè)隊(duì)員 “ 頭碰頭 ” 的瞬間分解雙方接觸的動(dòng)作,進(jìn)而設(shè)計(jì)合理的防守策略。 第 3章 數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的 OLAP技術(shù) 本章要點(diǎn) 數(shù)據(jù)倉(cāng)庫(kù)的基本概念 多維數(shù)據(jù)模型 數(shù)據(jù)倉(cāng)庫(kù)的系統(tǒng)結(jié)構(gòu) 數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn) 數(shù)據(jù)立方體技術(shù)的近一步發(fā)展 從數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)挖掘 數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展 自從 NCR公司為 Wal Mart建立了第一個(gè)數(shù)據(jù)倉(cāng)庫(kù)。 1996年,加拿大的 IDC公司調(diào)查了 62家實(shí)現(xiàn)了數(shù)據(jù)倉(cāng)庫(kù)的歐美企業(yè),結(jié)果表明:數(shù)據(jù)倉(cāng)庫(kù)為企業(yè)提供了巨大的收益。 早期的數(shù)據(jù)倉(cāng)庫(kù)大都采用當(dāng)時(shí)流行的客戶 /服務(wù)器結(jié)構(gòu)。近年來(lái)分布式對(duì)象技術(shù)飛速發(fā)展,整個(gè)數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)從功能上劃分為若干個(gè)分布式對(duì)象,這些分布式對(duì)象不僅可以直接用于建立數(shù)據(jù)倉(cāng)庫(kù),還可以在應(yīng)用程序中向用戶提供調(diào)用的接口。 IBM的實(shí)驗(yàn)室在數(shù)據(jù)倉(cāng)庫(kù)方面已經(jīng)進(jìn)行了 10多年的研究,并將研究成果發(fā)展成為商用產(chǎn)品。 其他數(shù)據(jù)庫(kù)廠商在數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域也紛紛提出了各自的解決方案。 數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展 IBM: 在其 DB2UDB發(fā)布一年后的 1998年 9月發(fā)布 5.2版,并于 1998年 12月推向中國(guó)市場(chǎng),除了用于 OLAP(聯(lián)機(jī)分析處理)的后臺(tái)服務(wù)器 DB2 OLAP Server外,IBM還提供了一系列相關(guān)的產(chǎn)品,包括前端工具,形成一整套解決方案。 Informix公司 : 在其動(dòng)態(tài)服務(wù)器 IDS( Informix Dynamic Server)中提供一系列相關(guān)選件,如高級(jí)決策支持選件( Advanced Decision Support Option)、 OLAP選件( MetaCube ROLAP Option)、擴(kuò)展并行選件( Extended Parallel Option)等,這種體系結(jié)構(gòu)嚴(yán)謹(jǐn)、管理方便、索引機(jī)制完善,并行處理的效率更高,其中數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)庫(kù)查詢的 SQL語(yǔ)句的一致性使得用戶開發(fā)更加簡(jiǎn)便。 數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展 微軟公司 : 在其 SQL Server7.0以及 SQL Server2000中集成了代號(hào)為 Plato的 OLAP服務(wù)器。 Sybase: 提供了專門的 OLAP服務(wù)器 Sybase IQ,并將其與數(shù)據(jù)倉(cāng)庫(kù)相關(guān)工具打包成 Warehouse Studio 。 PLATINUM: 提出了由 InfoPump(數(shù)據(jù)倉(cāng)庫(kù)建模與數(shù)據(jù)加載工具)和 Forest&Trees(前端報(bào)表工具)構(gòu)成的一套較有特色的整體方案。 ; Oracle公司 : 則推出從數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建、 OLAP到數(shù)據(jù)集市管理等一系列產(chǎn)品包(如 Oracle Warehouse Builder、 Oracle Express、 DataMart Suit等)。 數(shù)據(jù)倉(cāng)庫(kù)的我國(guó)的發(fā)展 前景:隨著計(jì)算機(jī)技術(shù)的發(fā)展,尤其是分布式技術(shù)的發(fā)展, 數(shù)據(jù)倉(cāng)庫(kù)在我國(guó)有著廣闊的發(fā)展空間和良好的發(fā)展前景。例如: 由于銀行商業(yè)化的步伐正在加大,各大中型銀行在入世的機(jī)遇和挑戰(zhàn)下,開始重新考慮自身的業(yè)務(wù),特別是信貸風(fēng)險(xiǎn)管理方面特別注意,因而有關(guān)信貸風(fēng)險(xiǎn)管理和風(fēng)險(xiǎn)規(guī)章的基于數(shù)據(jù)倉(cāng)庫(kù)的決策支持系統(tǒng)的需求逐漸增多; 由于電子商務(wù)的迅速發(fā)展,越來(lái)越多的電子商務(wù)網(wǎng)站,開始考慮如何將數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用于商品銷售分析、顧客的誠(chéng)信度分析等,為客戶提供更進(jìn)一步的個(gè)性化服務(wù); 如移動(dòng)通信等各大型企業(yè)也開始考慮著手進(jìn)行決策支持以及數(shù)據(jù)倉(cāng)庫(kù)規(guī)劃。 數(shù)據(jù)挖掘的發(fā)展 數(shù)據(jù)挖掘是與數(shù)據(jù)倉(cāng)庫(kù)密切相關(guān)的一個(gè)信息技術(shù)新領(lǐng)域,它是信息技術(shù)自然演化的結(jié)果。 隨著數(shù)據(jù)庫(kù)技術(shù)的迅速發(fā)展以及數(shù)據(jù)庫(kù)管理系統(tǒng)的廣泛應(yīng)用,人們積累的數(shù)據(jù)越來(lái)越多,但缺乏挖掘數(shù)據(jù)中隱藏的知識(shí)的手段,導(dǎo)致了“ 數(shù)據(jù)爆炸但知識(shí)貧乏的 ” 現(xiàn)象。 自 80年代后期以來(lái),聯(lián)機(jī)分析處理( OLAP)和數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。 3.1數(shù)據(jù)倉(cāng)庫(kù) (Data Warehouse) 數(shù)據(jù)倉(cāng)庫(kù)用來(lái)保存從多個(gè)數(shù)據(jù)庫(kù)或其它信息源選取的數(shù)據(jù) , 并為上層應(yīng)用提供統(tǒng)一 用戶接口,完成數(shù)據(jù)查詢和分析。 數(shù)據(jù)倉(cāng)庫(kù)是作為 DSS服務(wù)基礎(chǔ)的分析型 DB, 用來(lái)存放大容量的只讀數(shù)據(jù),為制定決策提供所需要的信息。 數(shù)據(jù)倉(cāng)庫(kù)是與操作型系統(tǒng)相分離的、基于標(biāo)準(zhǔn)企業(yè)模型集成的、帶有時(shí)間屬性的、面向主題及不可更新的數(shù)據(jù)集合。 W.H.Inmon對(duì)數(shù)據(jù)倉(cāng)庫(kù)所下的定義:數(shù)據(jù)倉(cāng)庫(kù)是面向主題的、集成的、穩(wěn)定的、隨時(shí)間變化的數(shù)據(jù)集合,用以支持管理決策的過(guò)程。 數(shù)據(jù)倉(cāng)庫(kù)的適用范圍 信息源中的數(shù)據(jù)變化穩(wěn)定 或可預(yù)測(cè)應(yīng)用不需要最新的數(shù)據(jù) 或允許有延遲應(yīng)用要求 有較高的查詢性能 而降低精度要求 數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的特點(diǎn) 面向主題 集成性 穩(wěn)定性 時(shí)變性 面向主題 主題:是一個(gè)抽象的概念,是在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類并進(jìn)行分析利用的抽象。在邏輯上,它對(duì)應(yīng)于企業(yè)中某一宏觀分析領(lǐng)域所涉及的分析對(duì)象。 面向主題的數(shù)據(jù)組織方式可在較高層次上對(duì)分析對(duì)象的數(shù)據(jù)給出完整、一致的描述,能完整、統(tǒng)一的刻畫各個(gè)分析對(duì)象所涉及的企業(yè)的各項(xiàng)數(shù)據(jù)以及數(shù)據(jù)之間的聯(lián)系,從而適應(yīng)企業(yè)各個(gè)部門的業(yè)務(wù)活動(dòng)特點(diǎn)和企業(yè)數(shù)據(jù)的動(dòng)態(tài)特征,從根本上實(shí)現(xiàn)數(shù)據(jù)與應(yīng)用的分離。 集成性 數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是從原有分散的源數(shù)據(jù)庫(kù)中提取出來(lái)的,其每一個(gè)主題所對(duì)應(yīng)的源數(shù)據(jù)在原有的數(shù)據(jù)庫(kù)中有許多冗余和不一致,且與不同的應(yīng)用邏輯相關(guān)。為了創(chuàng)建一個(gè)有效的主題域,必須將這些來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)集成起來(lái),使之遵循統(tǒng)一的編碼規(guī)則。因此,數(shù)據(jù)倉(cāng)庫(kù)在提取數(shù)據(jù)時(shí)必須經(jīng)過(guò)數(shù)據(jù)集成,消除源數(shù)據(jù)中的矛盾,并進(jìn)行數(shù)據(jù)綜合和計(jì)算。經(jīng)過(guò)數(shù)據(jù)集成后,數(shù)據(jù)倉(cāng)庫(kù)所提供的信息比數(shù)據(jù)庫(kù)提供的信息更概括、更本質(zhì)。 穩(wěn)定性 數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)反映的是一段時(shí)間內(nèi)歷史數(shù)據(jù)的內(nèi)容,是不同時(shí)點(diǎn)的數(shù)據(jù)庫(kù)快照的集合,以及基于撰寫快照進(jìn)行統(tǒng)計(jì)、綜合和重組的導(dǎo)出數(shù)據(jù),而不是聯(lián)機(jī)處理的數(shù)據(jù)。主要供企業(yè)高層決策分析之用,所涉及的數(shù)據(jù)操作主要是查詢,一般情況下并不進(jìn)行修改操作,即數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是不可實(shí)時(shí)更新的,僅當(dāng)超過(guò)規(guī)定的存儲(chǔ)期限,才將其從數(shù)據(jù)倉(cāng)庫(kù)中刪除,提取新的數(shù)據(jù)經(jīng)集成后輸入數(shù)據(jù)倉(cāng)庫(kù)。 時(shí)變性 時(shí)變性:許多商業(yè)分析要求對(duì)發(fā)展趨勢(shì)做出預(yù)測(cè),對(duì)發(fā)展趨勢(shì)的分析需要訪問(wèn)歷史數(shù)據(jù)。因此數(shù)據(jù)倉(cāng)庫(kù)必須不斷捕捉 OLTP數(shù)據(jù)庫(kù)中變化的數(shù)據(jù),生成數(shù)據(jù)庫(kù)的快照,經(jīng)集成后增加到數(shù)據(jù)倉(cāng)庫(kù)中去;另外數(shù)據(jù)倉(cāng)庫(kù)還需要隨時(shí)間的變化刪去過(guò)期的、對(duì)分析沒(méi)有幫助的數(shù)據(jù),并且還需要按規(guī)定的時(shí)間段增加綜合數(shù)據(jù)。 支持管理決策 數(shù)據(jù)倉(cāng)庫(kù)支持 OLAP(聯(lián)機(jī)分析處理)、數(shù)據(jù)挖掘和決策分析。 OLAP從數(shù)據(jù)倉(cāng)庫(kù)中的綜合數(shù)據(jù)出發(fā),提供面向分析的多維模型,并使用多維分析的方法從多個(gè)角度、多個(gè)層次對(duì)多維數(shù)據(jù)進(jìn)行分析,使決策者能夠以更加自然的方式來(lái)分析數(shù)據(jù)。數(shù)據(jù)挖掘則以數(shù)據(jù)倉(cāng)庫(kù)和多維數(shù)據(jù)庫(kù)中的數(shù)據(jù)為基礎(chǔ),發(fā)現(xiàn)數(shù)據(jù)中的潛在模式和進(jìn)行預(yù)測(cè)。因此,數(shù)據(jù)倉(cāng)庫(kù)的功能是支持管理層進(jìn)行科學(xué)決策,而不是事務(wù)處理。 數(shù)據(jù)倉(cāng)庫(kù)的技術(shù)要求 大量數(shù)據(jù)的組織和管理:包含了大量的歷史數(shù)據(jù),它是從數(shù)據(jù)庫(kù)中提取得來(lái)的,不必關(guān)心它的數(shù)據(jù)安全性和數(shù)據(jù)完整性。 復(fù)雜分析的高性能體現(xiàn):涉及大量數(shù)據(jù)的聚集、綜合等,在進(jìn)行復(fù)雜查詢時(shí)經(jīng)常會(huì)使用多表的聯(lián)接、累計(jì)、分類、排序等操作。 對(duì)提取出來(lái)的數(shù)據(jù)進(jìn)行集成:數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是從多個(gè)應(yīng)用領(lǐng)域中提取出來(lái)的,在不同的應(yīng)用領(lǐng)域和不同的數(shù)據(jù)庫(kù)系統(tǒng)中都有不同的結(jié)構(gòu)和形式,所以如何對(duì)數(shù)據(jù)進(jìn)行集成也是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)重要方面。 對(duì)進(jìn)行高層決策的最終用戶的界面支持:提供各種分析應(yīng)用工具。 操作數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別 操作數(shù)據(jù)庫(kù)系統(tǒng)的主要任務(wù)是聯(lián)機(jī)事務(wù)處理 OLTP 數(shù)據(jù)倉(cāng)庫(kù)在數(shù)據(jù)分析和決策方面為用戶提供服務(wù) ,這種系統(tǒng)稱為聯(lián)機(jī)分析處理OLAP 事務(wù)型處理與分析型處理 事務(wù)型處理:即操作型處理,是指對(duì)數(shù)據(jù)庫(kù)的聯(lián)機(jī)操作處理。事務(wù)型處理是用來(lái)協(xié)助企業(yè)對(duì)響應(yīng)事件或事務(wù)的日常商務(wù)活動(dòng)進(jìn)行處理。它是事件驅(qū)動(dòng)、面向應(yīng)用的,通常是對(duì)一個(gè)或一組記錄的增、刪、改以及簡(jiǎn)單查詢等。事務(wù)型處理的應(yīng)用程序和數(shù)據(jù)是緊緊圍繞著所管理的事件來(lái)構(gòu)造的。在事務(wù)型處理環(huán)境中,數(shù)據(jù)庫(kù)要求能支持日常事務(wù)中的大量事務(wù),用戶對(duì)數(shù)據(jù)的存取操作頻率高而每次操作處理的時(shí)間短。 分析型處理 分析型處理:用于管理人員的決策分析,例如DSS、 EIS、和多維分析等。它幫助決策者分析數(shù)據(jù)以察看趨向、判斷問(wèn)題。分析型處理經(jīng)常要訪問(wèn)大量的歷史數(shù)據(jù),支持復(fù)雜的查詢。在分析型處理中,并不是對(duì)從事務(wù)型處理環(huán)境 中得到的細(xì)節(jié)數(shù)據(jù)進(jìn)行分析。細(xì)節(jié)數(shù)據(jù)量太
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- BI-1181181-MZ-生命科學(xué)試劑-MCE
- 寧夏大學(xué)新華學(xué)院《即興口語(yǔ)傳播一》2023-2024學(xué)年第一學(xué)期期末試卷
- 武漢生物工程學(xué)院《田徑運(yùn)動(dòng)會(huì)編排操作》2023-2024學(xué)年第一學(xué)期期末試卷
- 西京學(xué)院《全科醫(yī)療中的醫(yī)患關(guān)系與溝通技巧》2023-2024學(xué)年第一學(xué)期期末試卷
- 青島遠(yuǎn)洋船員職業(yè)學(xué)院《漫畫墨線繪制》2023-2024學(xué)年第一學(xué)期期末試卷
- 2024-2025學(xué)年江蘇省揚(yáng)大附中東部分學(xué)校九年級(jí)化學(xué)第一學(xué)期期末監(jiān)測(cè)模擬試題含解析
- 公路貨運(yùn)行業(yè)數(shù)字化轉(zhuǎn)型2025年與物流政策法規(guī)研究報(bào)告
- 公路貨運(yùn)行業(yè)數(shù)字化轉(zhuǎn)型與綠色物流發(fā)展報(bào)告
- 雁形板在節(jié)能建筑中的應(yīng)用及安裝技巧
- 美容整形手術(shù)室的感染控制體系
- 2025高等教育人工智能發(fā)展報(bào)告
- 自然拼讀教學(xué)培訓(xùn)
- 小學(xué)數(shù)學(xué)論文8篇
- 2025至2030中國(guó)網(wǎng)絡(luò)動(dòng)漫行業(yè)市場(chǎng)深度分析及前景趨勢(shì)與投資報(bào)告
- 2025至2030中國(guó)海洋工程防腐涂料行業(yè)市場(chǎng)發(fā)展分析及發(fā)展前景與風(fēng)險(xiǎn)報(bào)告
- 職業(yè)病防治計(jì)劃實(shí)施檢查表
- 小麥檢驗(yàn)培訓(xùn)課件
- 既有居住建筑節(jié)能改造實(shí)施方案
- 2025年湖南省高考物理試卷真題(含答案解析)
- 2025年中國(guó)東航旗下東方航空食品投資有限公司招聘筆試參考題庫(kù)含答案解析
- 2025年時(shí)事政治考試100題(含參考答案)
評(píng)論
0/150
提交評(píng)論