版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)倉(cāng)庫與數(shù)據(jù)挖掘習(xí)題答案 第1章 數(shù)據(jù)倉(cāng)庫的概念與體系結(jié)構(gòu) 1. 面向主題的,相對(duì)穩(wěn)定的。 2. 技術(shù)元數(shù)據(jù),業(yè)務(wù)元數(shù)據(jù)。 3. 聯(lián)機(jī)分析處理OLAP。 4. 切片(Slice),鉆?。―rill-down和Roll-up等)。 5. 基于關(guān)系數(shù)據(jù)庫。 6. 數(shù)據(jù)抽取,數(shù)據(jù)存儲(chǔ)與管理。 7. 兩層架構(gòu),獨(dú)立型數(shù)據(jù)集市,依賴型數(shù)據(jù)集市和操作型數(shù)據(jù)存儲(chǔ),邏輯型數(shù)據(jù)集市和實(shí)時(shí)數(shù)據(jù)倉(cāng)庫。 8. 可更新的,當(dāng)前值的。 9. 接近實(shí)時(shí)。 10. 以報(bào)表為主,以分析為主,以預(yù)測(cè)模型為主,以營(yíng)運(yùn)導(dǎo)向?yàn)橹鳌?11. 答: 數(shù)據(jù)倉(cāng)庫就是一個(gè)面向主題的(Subject Oriented)、集成的(Integrat
2、e)、相對(duì)穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,通常用于輔助決策支持。 數(shù)據(jù)倉(cāng)庫的特點(diǎn)包含以下幾個(gè)方面: (1) 面向主題。操作型數(shù)據(jù)庫的數(shù)據(jù)組織是面向事務(wù)處理任務(wù),各個(gè)業(yè)務(wù)系統(tǒng)之間各自分離;而數(shù)據(jù)倉(cāng)庫中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織。主題是一個(gè)抽象的概念,是指用戶使用數(shù)據(jù)倉(cāng)庫進(jìn)行決策時(shí)所關(guān)心的重點(diǎn)領(lǐng)域,一個(gè)主題通常與多個(gè)操作型業(yè)務(wù)系統(tǒng)或外部檔案數(shù)據(jù)相關(guān)。 (2)集成的。面向事務(wù)處理的操作型數(shù)據(jù)庫通常與某些特定的應(yīng)用相關(guān),數(shù)據(jù)庫之間相互獨(dú)立,并且往往是異構(gòu)的。而數(shù)據(jù)倉(cāng)庫中的數(shù)據(jù)是在對(duì)原有分散的數(shù)據(jù)庫數(shù)據(jù)作抽取、清理的基礎(chǔ)上經(jīng)過系統(tǒng)加工、匯總和
3、整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉(cāng)庫的信息是關(guān)于整個(gè)企事業(yè)單位一致的全局信息。也就是說存放在數(shù)據(jù)倉(cāng)庫中的數(shù)據(jù)應(yīng)使用一致的命名規(guī)則、格式、編碼結(jié)構(gòu)和相關(guān)特性來定義。 (3)相對(duì)穩(wěn)定的。操作型數(shù)據(jù)庫中的數(shù)據(jù)通常實(shí)時(shí)更新,數(shù)據(jù)根據(jù)需要與時(shí)發(fā)生變化。數(shù)據(jù)倉(cāng)庫的數(shù)據(jù)主要供單位決策分析之用,對(duì)所涉與的數(shù)據(jù)操作主要是數(shù)據(jù)查詢和加載,一旦某個(gè)數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫以后,一般情況下將作為數(shù)據(jù)檔案長(zhǎng)期保存,幾乎不再做修改和刪除操作,也就是說針對(duì)數(shù)據(jù)倉(cāng)庫,通常有大量的查詢操作與少量定期的加載(或刷新)操作。 (4)反映歷史變化。操作型數(shù)據(jù)庫(OLTP)主要關(guān)心當(dāng)前某一個(gè)時(shí)間段的數(shù)據(jù),而數(shù)據(jù)倉(cāng)庫中的數(shù)據(jù)
4、通常包含較久遠(yuǎn)的歷史數(shù)據(jù),因此總是包括一個(gè)時(shí)間維,以便可以研究趨勢(shì)和變化。數(shù)據(jù)倉(cāng)庫系統(tǒng)通常記錄了一個(gè)單位從過去某一時(shí)點(diǎn)(如開始啟用數(shù)據(jù)倉(cāng)庫系統(tǒng)的時(shí)點(diǎn))到目前的所有時(shí)期的信息,通過這些信息,可以對(duì)單位的發(fā)展歷程和未來趨勢(shì)做出定量分析和預(yù)測(cè)。 12. 答: (1)兩層架構(gòu)(Generic Two-Level Architecture)。 (2)獨(dú)立型數(shù)據(jù)集市(Independent Data Mart)。 (3)依賴型數(shù)據(jù)集市和操作型數(shù)據(jù)存儲(chǔ)(Dependent Data Mart and Operational Data Store)。 (4)邏輯型數(shù)據(jù)集市和實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(Logical Dat
5、a Mart and Real-Time Data Warehouse)。 13. 答: 數(shù)據(jù)倉(cāng)庫技術(shù)的發(fā)展包括數(shù)據(jù)抽取、存儲(chǔ)管理、數(shù)據(jù)表現(xiàn)和方法論等方面。在數(shù)據(jù)抽取方面,未來的技術(shù)發(fā)展將集中在系統(tǒng)集成化方面。它將互連、轉(zhuǎn)換、復(fù)制、調(diào)度、監(jiān)控納入標(biāo)準(zhǔn)化的統(tǒng)一管理,以適應(yīng)數(shù)據(jù)倉(cāng)庫本身或數(shù)據(jù)源可能的變化,使系統(tǒng)更便于管理和維護(hù)。在數(shù)據(jù)管理方面,未來的發(fā)展將使數(shù)據(jù)庫廠商明確推出數(shù)據(jù)倉(cāng)庫引擎,作為數(shù)據(jù)倉(cāng)庫服務(wù)器產(chǎn)品與數(shù)據(jù)庫服務(wù)器并駕齊驅(qū)。在這一方面,帶有決策支持?jǐn)U展的并行關(guān)系數(shù)據(jù)庫將最具發(fā)展?jié)摿?。在?shù)據(jù)表現(xiàn)方面,數(shù)理統(tǒng)計(jì)的算法和功能將普遍集成到聯(lián)機(jī)分析產(chǎn)品中,并與Internet/Web技術(shù)緊密結(jié)合。
6、按行業(yè)應(yīng)用特征細(xì)化的數(shù)據(jù)倉(cāng)庫用戶前端軟件將成為產(chǎn)品作為數(shù)據(jù)倉(cāng)庫解決方案的一部分。數(shù)據(jù)倉(cāng)庫實(shí)現(xiàn)過程的方法論將更加普與,將成為數(shù)據(jù)庫設(shè)計(jì)的一個(gè)明確分支,成為管理信息系統(tǒng)設(shè)計(jì)的必備。 14. 答: (1)IBM公司提供了一套基于可視化數(shù)據(jù)倉(cāng)庫的商業(yè)智能(BI)解決方案,包括:Visual Warehouse(VW)、Essbase/DB2 OLAP Server 5.0、IBM DB2 UDB,以與來自第三方的前端數(shù)據(jù)展現(xiàn)工具(如BO)和數(shù)據(jù)挖掘工具(如SAS)。其中,VW是一個(gè)功能很強(qiáng)的集成環(huán)境,既可用于數(shù)據(jù)倉(cāng)庫建模和元數(shù)據(jù)管理,又可用于數(shù)據(jù)抽取、轉(zhuǎn)換、裝載和調(diào)度。Essbase/DB2 OLAP
7、 Server支持“維”的定義和數(shù)據(jù)裝載。Essbase/DB2 OLAP Server不是ROLAP(Relational OLAP)服務(wù)器,而是一個(gè)(ROLAP和MOLAP)混合的HOLAP服務(wù)器,在Essbase完成數(shù)據(jù)裝載后,數(shù)據(jù)存放在系統(tǒng)指定的DB2 UDB數(shù)據(jù)庫中。它的前端數(shù)據(jù)展現(xiàn)工具可以選擇Business Objects的BO、Lotus的Approach、Cognos的Impromptu或IBM的Query Management Facility;多維分析工具支持Arbor Software的Essbase和IBM(與Arbor聯(lián)合開發(fā))的DB2 OLAP服務(wù)器;統(tǒng)計(jì)分析工具
8、采用SAS系統(tǒng)。 (2)Oracle數(shù)據(jù)倉(cāng)庫解決方案主要包括Oracle Express和Oracle Discoverer兩個(gè)部分。Oracle Express由四個(gè)工具組成:Oracle Express Server是一個(gè)MOLAP(多維OLAP)服務(wù)器,它利用多維模型,存儲(chǔ)和管理多維數(shù)據(jù)庫或多維高速緩存,同時(shí)也能夠訪問多種關(guān)系數(shù)據(jù)庫;Oracle Express Web Agent通過CGI或Web插件支持基于Web的動(dòng)態(tài)多維數(shù)據(jù)展現(xiàn);Oracle Express Objects前端數(shù)據(jù)分析工具(目前僅支持Windows平臺(tái))提供了圖形化建模和假設(shè)分析功能,支持可視化開發(fā)和事件驅(qū)動(dòng)編程技
9、術(shù),提供了兼容Visual Basic語法的語言,支持OCX和OLE;Oracle Express Analyzer是通用的、面向最終用戶的報(bào)告和分析工具(目前僅支持Windows平臺(tái))。Oracle Discoverer即席查詢工具是專門為最終用戶設(shè)計(jì)的,分為最終用戶版和管理員版。 在Oracle數(shù)據(jù)倉(cāng)庫解決方案的實(shí)施過程中,通常把匯總數(shù)據(jù)存儲(chǔ)在Express多維數(shù)據(jù)庫中,而將詳細(xì)數(shù)據(jù)存儲(chǔ)在Oracle關(guān)系數(shù)據(jù)庫中,當(dāng)需要詳細(xì)數(shù)據(jù)時(shí),Express Server通過構(gòu)造SQL語句訪問關(guān)系數(shù)據(jù)庫。 (3)Microsoft將OLAP功能集成到SQL Server數(shù)據(jù)庫中,其解決方案包括BI平臺(tái)
10、、BI終端工具、BI門戶和BI應(yīng)用四個(gè)部分,如圖1.1。 BI平臺(tái)是BI解決方案的基礎(chǔ),包括ETL平臺(tái)SQL Server 2005 Integration Service(SSIS)、數(shù)據(jù)倉(cāng)庫引擎SQL Server 2005 RDBMS以與多維分析和數(shù)據(jù)挖掘引擎SQL Server 2005 Analysis Service、報(bào)表管理引擎SQL Server 2005 Reporting Service。 BI終端用戶工具,用戶通過終端用戶工具和Analysis Service中的OLAP服務(wù)和數(shù)據(jù)挖掘服務(wù)進(jìn)行交互來使用多維數(shù)據(jù)集和數(shù)據(jù)挖掘模型,終端用戶通常可使用預(yù)定義報(bào)表、交互式多維分析
11、、即席查詢、數(shù)據(jù)可視化、數(shù)據(jù)挖掘等多種方法。 BI門戶提供了各種不同用戶訪問BI信息的統(tǒng)一入口。BI門戶是一個(gè)數(shù)據(jù)的匯集地,集成了來自不同系統(tǒng)的相關(guān)信息。用戶可以制定個(gè)性化的個(gè)人門戶,選擇和自己相關(guān)性最強(qiáng)的數(shù)據(jù),提高信息訪問和使用的效率。 BI應(yīng)用是建立在BI平臺(tái)、BI終端用戶工具和BI統(tǒng)一門戶這些公共技術(shù)手段之上的滿足某個(gè)特定業(yè)務(wù)需求的應(yīng)用,例如零售業(yè)務(wù)分析、企業(yè)項(xiàng)目管理組合分析等。 第2章 數(shù)據(jù)倉(cāng)庫的數(shù)據(jù)存儲(chǔ)與處理1. 企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(EDW)。 2. 單一的,詳細(xì)的。 3. 最初填充數(shù)據(jù)倉(cāng)庫。 4. 越高,越低,越多。 5. 提高,預(yù)處理,事實(shí)表。 6. 自然鍵(Natural Key)
12、,代理鍵(Surrogate Key)。 7. 星型模式。 8. 早期細(xì)節(jié)級(jí),輕度綜合級(jí)。 9. 答: 簡(jiǎn)單地說,數(shù)據(jù)是從企業(yè)外部的各業(yè)務(wù)處理系統(tǒng)(操作型數(shù)據(jù))流向企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(EDW)或操作型數(shù)據(jù)存儲(chǔ)區(qū)(ODS),在這個(gè)過程中,要根據(jù)企業(yè)(或其他組織)的數(shù)據(jù)模型和元數(shù)據(jù)庫對(duì)數(shù)據(jù)進(jìn)行調(diào)和處理,形成一個(gè)中間數(shù)據(jù)層,然后再根據(jù)分析需求,從調(diào)和數(shù)據(jù)層(EDW、ODS)將數(shù)據(jù)引入導(dǎo)出數(shù)據(jù)層,如形成滿足各類分析需求的數(shù)據(jù)集市。 10. 答: 數(shù)據(jù)的ETL過程就是負(fù)責(zé)將操作型數(shù)據(jù)轉(zhuǎn)換成調(diào)和數(shù)據(jù)的過程。如上面的2.3.1小節(jié)所述,這兩種數(shù)據(jù)具有明顯的區(qū)別,因此,數(shù)據(jù)調(diào)和是構(gòu)建一個(gè)數(shù)據(jù)倉(cāng)庫中最難的和最具技術(shù)
13、挑戰(zhàn)性的部分。在為企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫填充數(shù)據(jù)的過程中,數(shù)據(jù)調(diào)和可分為兩個(gè)階段:一是企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(EDW)首次創(chuàng)建時(shí)的原始加載;二是接下來的定期修改,以保持EDW的當(dāng)前有效性和擴(kuò)展性。 整個(gè)過程由四個(gè)步驟組成:抽取、清洗、轉(zhuǎn)換、加載和索引。事實(shí)上,這些步驟可以進(jìn)行不同的組合,如,可以將數(shù)據(jù)抽取與清洗組合為一個(gè)過程,或者將清洗和轉(zhuǎn)換組合在一起。通常,在清洗過程中發(fā)現(xiàn)的拒絕數(shù)據(jù)信息會(huì)送回到源操作型業(yè)務(wù)系統(tǒng)中,然后將數(shù)據(jù)在源系統(tǒng)中加以處理,以便在以后重新抽取。 11. 答: 在星模式中,事實(shí)表居中,多個(gè)維表呈輻射狀分布于其四周,并與事實(shí)表連接。位于星形中心的實(shí)體是事實(shí)表,是用戶最關(guān)心的基本實(shí)體和查詢活動(dòng)
14、的中心,為數(shù)據(jù)倉(cāng)庫的查詢活動(dòng)提供定量數(shù)據(jù)。位于星模式四周的實(shí)體是維度實(shí)體,其作用是限制和過濾用戶的查詢結(jié)果,縮小訪問圍。每個(gè)維表都有自己的屬性,維表和事實(shí)表通過關(guān)鍵字相關(guān)聯(lián)。 12. 答: 因?yàn)閿?shù)據(jù)倉(cāng)庫或數(shù)據(jù)集市的數(shù)據(jù)總是歷史的數(shù)據(jù),需要時(shí)間維來區(qū)別。 第3章 數(shù)據(jù)倉(cāng)庫系統(tǒng)的設(shè)計(jì)與開發(fā) 1. 在線分析處理(OLAP) 分析。 2. 信息包圖法,維度,類別,度量。 3. 邏輯模型。 4. 事務(wù)事實(shí),快照事實(shí),線性項(xiàng)目事實(shí)。 5. 聚合。 6. 時(shí)間,區(qū)域。 7. 退化維。 8. 無變化,緩慢變化,劇烈變化。 9. 索引。 10. 反向規(guī)化,引入冗余。 11. 答: 信息包圖法,也叫用戶信息需求表
15、,就是在一平面表格上描述元素的多維性,其中的每一個(gè)維度用平面表格的一列表示,通常的維度如時(shí)間、地點(diǎn)、產(chǎn)品和顧客等;而細(xì)化本列的對(duì)象就是類別,例如時(shí)間維度的類別可以細(xì)化到年、月、日,甚至小時(shí);平面表格的最后一行(代表超立方體中的單元格)即為指標(biāo)度量值,例如,某年在某銷售點(diǎn)的某類產(chǎn)品的實(shí)際銷售額。創(chuàng)建信息包圖時(shí)需要確定最高層和最低層的信息需求,以便最終設(shè)計(jì)出包含各個(gè)層次需要的數(shù)據(jù)倉(cāng)庫 總之,信息包圖法是一種自上而下的數(shù)據(jù)建模方法,即從用戶的觀點(diǎn)開始設(shè)計(jì)(用戶的觀點(diǎn)是通過與用戶交流得到的),站在管理者的角度把焦點(diǎn)集中在企業(yè)的一個(gè)或幾個(gè)主題上,著重分析主題所涉與數(shù)據(jù)的多維特性,這種自上而下的方法幾乎考
16、慮了所有的信息源,以與這些信息源影響業(yè)務(wù)活動(dòng)的方式。 12. 答: 收集、分析和確認(rèn)業(yè)務(wù)分析需求,分析和理解主題和元數(shù)據(jù)、事實(shí)與其量度、粒度和維度的選擇與設(shè)計(jì)、數(shù)據(jù)倉(cāng)庫的物理存儲(chǔ)方式的設(shè)計(jì)等。 13. 答: (1)收集和分析業(yè)務(wù)需求; (2)建立數(shù)據(jù)模型和數(shù)據(jù)倉(cāng)庫的物理設(shè)計(jì); (3)定義數(shù)據(jù)源; (4)選擇數(shù)據(jù)倉(cāng)庫技術(shù)和平臺(tái); (5)從操作型數(shù)據(jù)庫中抽取、清洗與轉(zhuǎn)換數(shù)據(jù)到數(shù)據(jù)倉(cāng)庫; (6)選擇訪問和報(bào)表工具,選擇數(shù)據(jù)庫連接軟件,選擇數(shù)據(jù)分析和數(shù)據(jù)展示軟件; (7)更新數(shù)據(jù)倉(cāng)庫。 14. 答:參考3.3節(jié)的過程。 第4章 關(guān)聯(lián)規(guī)則 1. apriori,fp-growth,fp-growth。
17、2. abcabdacd,abcabd。 3. abc,ac。 4. 答: 關(guān)聯(lián)規(guī)則挖掘最初由R.Agrawal等人提出,用來發(fā)現(xiàn)超級(jí)市場(chǎng)中用戶購(gòu)買的商品之間的隱含關(guān)聯(lián)關(guān)系,并用規(guī)則的形式表示出來,稱為關(guān)聯(lián)規(guī)則(Association Rule)。 關(guān)聯(lián)規(guī)則除了可以發(fā)現(xiàn)超市購(gòu)物中隱含的關(guān)聯(lián)關(guān)系之外,還可以應(yīng)用于其他很多領(lǐng)域。關(guān)聯(lián)規(guī)則的應(yīng)用還包括文本挖掘、商品廣告郵寄分析、網(wǎng)絡(luò)故障分析等。 5. 答: 關(guān)聯(lián)規(guī)則的分類: (1)基于規(guī)則中涉與到的數(shù)據(jù)的維數(shù),關(guān)聯(lián)規(guī)則可以分為單維的和多維的。 (2)基于規(guī)則中數(shù)據(jù)的抽象層次,可以分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則。 (3)基于規(guī)則中處理的變量的類型不同,
18、關(guān)聯(lián)規(guī)則可以分為布爾型和數(shù)值型。 關(guān)聯(lián)規(guī)則挖掘的步驟: (1)找出交易數(shù)據(jù)庫中所有大于或等于用戶指定的最小支持度的頻繁項(xiàng)集; (2)利用頻繁項(xiàng)集生成所需要的關(guān)聯(lián)規(guī)則,根據(jù)用戶設(shè)定的最小可信度進(jìn)行取舍,產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。 6. 答:規(guī)則:c=>a,a=>c。 7. 答: 第5章 數(shù)據(jù)分類 1. 獲取數(shù)據(jù),預(yù)處理,分類器設(shè)計(jì),分類決策。 2. 劃分?jǐn)?shù)據(jù)集,分類器構(gòu)造,分類器測(cè)試。 3. 精確度,查全率和查準(zhǔn)率,F(xiàn)-measure,幾何均值。 4. 多項(xiàng)式核函數(shù),徑向基核函數(shù),S型核函數(shù)。 5. 答: 分類是指把數(shù)據(jù)樣本映射到一個(gè)事先定義的類中的學(xué)習(xí)過程,即給定一組輸入的屬性向量與其對(duì)應(yīng)的
19、類,用基于歸納的學(xué)習(xí)算法得出分類。 分類問題是數(shù)據(jù)挖掘領(lǐng)域中研究和應(yīng)用最為廣泛的技術(shù)之一,許多分類算法被包含在統(tǒng)計(jì)分析工具的軟件包中,作為專門的分類工具來使用。分類問題在商業(yè)、銀行業(yè)、醫(yī)療診斷、生物學(xué)、文本挖掘、因特網(wǎng)篩選等領(lǐng)域都有廣泛應(yīng)用。例如,在銀行業(yè)中,分類方法可以輔助工作人員將正常信用卡用戶和欺詐信用卡用戶進(jìn)行分類,從而采取有效措施減小銀行的損失;在醫(yī)療診斷中,分類方法可以幫助醫(yī)療人員將正常細(xì)胞和癌變細(xì)胞進(jìn)行分類,從而與時(shí)制定救治方案,挽救病人的生命;在因特網(wǎng)篩選中,分類方法可以協(xié)助網(wǎng)絡(luò)工作人員將正常和垃圾進(jìn)行分類,從而制定有效的垃圾過濾機(jī)制,防止垃圾干擾人們的正常生活。 6. 答:求
20、解過程請(qǐng)參考例5.1。 7. 答: 計(jì)算x與x1x7的歐氏距離,可以知道x的最近鄰是x4,x的前3個(gè)近鄰是x4,x1,x2,所以,利用最近鄰分類方法對(duì)x進(jìn)行分類時(shí)x的類標(biāo)號(hào)是y=-1,利用k-近鄰分類方法(k=3)對(duì)x進(jìn)行分類時(shí)x的類標(biāo)號(hào)是y=+1。 第6章 數(shù)據(jù)聚類 1. 連續(xù)型,二值離散型,多值離散型,混合類型。 2. 歐氏距離,曼哈頓距離,明考斯基距離。 3. 選定某種距離作為數(shù)據(jù)樣本間的相似性度量,選擇評(píng)價(jià)聚類性能的準(zhǔn)則函數(shù),選擇某個(gè)初始分類,之后用迭代的方法得到聚類結(jié)果,使得評(píng)價(jià)聚類的準(zhǔn)則函數(shù)取得最優(yōu)值。 4. 凝聚型層次聚類,分解型層次聚類。 5. 答: 聚類分析是將物理的或者抽象
21、的數(shù)據(jù)集合劃分為多個(gè)類別的過程,聚類之后的每個(gè)類別中任意兩個(gè)數(shù)據(jù)樣本之間具有較高的相似度,而不同類別的數(shù)據(jù)樣本之間具有較低的相似度。 聚類分析是數(shù)據(jù)挖掘應(yīng)用的主要技術(shù)之一,它可以作為一個(gè)獨(dú)立的工具來使用,將未知類標(biāo)號(hào)的數(shù)據(jù)集劃分為多個(gè)類別之后,觀察每個(gè)類別中數(shù)據(jù)樣本的特點(diǎn),并且對(duì)某些特定的類別作進(jìn)一步的分析。此外,聚類分析還可以作為其他數(shù)據(jù)挖掘技術(shù)(例如分類學(xué)習(xí)、關(guān)聯(lián)規(guī)則挖掘等)的預(yù)處理工作。聚類分析在科學(xué)數(shù)據(jù)分析、商業(yè)、生物學(xué)、醫(yī)療診斷、文本挖掘、Web數(shù)據(jù)挖掘等領(lǐng)域都有廣泛應(yīng)用。在科學(xué)數(shù)據(jù)分析中,比如對(duì)于衛(wèi)星遙感照片,聚類可以將相似的區(qū)域歸類,有助于研究人員根據(jù)具體情況做進(jìn)一步分析;在商業(yè)
22、領(lǐng)域,聚類可以幫助市場(chǎng)分析人員對(duì)客戶的基本數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)購(gòu)買模式不同的客戶群,從而協(xié)助市場(chǎng)調(diào)整銷售計(jì)劃;在生物學(xué)方面,聚類可以幫助研究人員按照基因的相似度對(duì)動(dòng)物和植物的種群進(jìn)行劃分,從而獲得對(duì)種群中固有結(jié)構(gòu)的認(rèn)識(shí);在醫(yī)療診斷中,聚類可以對(duì)細(xì)胞進(jìn)行歸類,有助于醫(yī)療人員發(fā)現(xiàn)異常細(xì)胞的聚類,從而對(duì)病人與時(shí)采取措施;在文本挖掘和Web數(shù)據(jù)挖掘領(lǐng)域中,聚類可以將數(shù)據(jù)按照讀者的興趣度進(jìn)行劃分,從而有助于容的改進(jìn)。 6. 答:參考圖6.1。 7. 答:參考6.4.2節(jié)的步驟。 8. 答:根據(jù)給定的數(shù)據(jù)集,設(shè)定數(shù)據(jù)樣本之間的距離采用歐氏距離,聚類集合之間的相似性度量采用最小距離,聚類結(jié)果如下圖所示。 第7章 貝葉斯網(wǎng)絡(luò) 1. 答: 由SA發(fā)生得知,HO發(fā)生/不發(fā)生的概率
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年云南楚雄州雙柏縣國(guó)有資本投資管理有限公司招聘筆試參考題庫附帶答案詳解
- 2025年中石化蕪湖石油分公司招聘筆試參考題庫含答案解析
- 2025年蕪湖灣沚水務(wù)有限公司招聘筆試參考題庫含答案解析
- 2025年貴州彩翼科技有限公司招聘筆試參考題庫含答案解析
- 2025年鶴壁農(nóng)墾集團(tuán)有限公司招聘筆試參考題庫含答案解析
- 2025年臨沂水利集團(tuán)有限公司招聘筆試參考題庫含答案解析
- 2025年泉州供電服務(wù)有限公司招聘筆試參考題庫含答案解析
- 二零二五年度海滄區(qū)人民政府與廈門市科技局合作設(shè)立科技創(chuàng)新基金合同2篇
- 寒假分層作業(yè)2025年八年級(jí)物理寒假培優(yōu)練(人教版)專題13速度的測(cè)量和密度的測(cè)量含答案及解析
- 二零二五年度肥料委托加工與綠色認(rèn)證合作合同3篇
- 重癥醫(yī)學(xué)質(zhì)量控制中心督查評(píng)價(jià)標(biāo)準(zhǔn)及評(píng)分細(xì)則(2020版)
- 中建醫(yī)療工程交付指南
- 2024年甘肅省職業(yè)院校技能大賽養(yǎng)老照護(hù)(中職學(xué)生組)賽項(xiàng)樣題1
- 圓圈正義讀書分享課件
- 安平縣2024年小升初必考題數(shù)學(xué)檢測(cè)卷含解析
- 人教版數(shù)學(xué)二年級(jí)下冊(cè)全冊(cè)核心素養(yǎng)目標(biāo)教學(xué)設(shè)計(jì)
- 人教版PEP小學(xué)英語三年級(jí)下冊(cè)單詞表(帶音標(biāo))
- 康美藥業(yè)財(cái)務(wù)分析案例
- 《無人機(jī)駕駛航空試驗(yàn)基地(試驗(yàn)區(qū))基礎(chǔ)設(shè)施使用、管理規(guī)范(征求意見稿)》
- 寵物醫(yī)療行業(yè)人力資源管理戰(zhàn)略研究
- 《了凡四訓(xùn)》略說教學(xué)課件
評(píng)論
0/150
提交評(píng)論