版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘期末綜合復習第一章1、數(shù)據(jù)倉庫就是一個面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合。2、元數(shù)據(jù)是描述數(shù)據(jù)倉庫內數(shù)據(jù)的結構和建立方法的數(shù)據(jù),它為訪問數(shù)據(jù)倉庫提供了一個信息目錄,根據(jù)數(shù)據(jù)用途的不同可將數(shù)據(jù)倉庫的元數(shù)據(jù)分為技術元數(shù)據(jù)和業(yè)務元數(shù)據(jù)兩類。3、數(shù)據(jù)處理通常分成兩大類:聯(lián)機事務處理和聯(lián)機分析處理。4、多維分析是指以“維”形式組織起來的數(shù)據(jù)(多維數(shù)據(jù)集)采取切片、切塊、鉆取和旋轉等各種分析動作,以求剖析數(shù)據(jù),使擁護能從不同角度、不同側面觀察數(shù)據(jù)倉庫中的數(shù)據(jù),從而深入理解多維數(shù)據(jù)集中的信息。5、ROLAP是基于關系數(shù)據(jù)庫的OLAP實現(xiàn),而MOLAP是基于多維數(shù)據(jù)結構組
2、織的OLAP實現(xiàn)。OLAP技術的有關概念 :OLAP根據(jù)其存儲數(shù)據(jù)的方式可分為三類:ROLAP、MOLAP、HOLAP6、數(shù)據(jù)倉庫按照其開發(fā)過程,其關鍵環(huán)節(jié)包括數(shù)據(jù)抽取、數(shù)據(jù)存儲與管理和數(shù)據(jù)表現(xiàn)等。7、數(shù)據(jù)倉庫系統(tǒng)的體系結構根據(jù)應用需求的不同,可以分為以下4種類型:兩層架構、獨立型數(shù)據(jù)集合、以來型數(shù)據(jù)結合和操作型數(shù)據(jù)存儲和邏輯型數(shù)據(jù)集中和實時數(shù)據(jù)倉庫。8、操作型數(shù)據(jù)存儲實際上是一個集成的、面向主題的、可更新的、當前值的(但是可“揮發(fā)”的)、企業(yè)級的、詳細的數(shù)據(jù)庫,也叫運營數(shù)據(jù)存儲。9、“實時數(shù)據(jù)倉庫”以為著源數(shù)據(jù)系統(tǒng)、決策支持服務和倉庫倉庫之間以一個接近實時的速度交換數(shù)據(jù)和業(yè)務規(guī)則。10、從應
3、用的角度看,數(shù)據(jù)倉庫的發(fā)展演變可以歸納為5個階段:以報表為主、以分析為主、以預測模型為主、以運營導向為主和以實時數(shù)據(jù)倉庫和自動決策為主。11、什么是數(shù)據(jù)倉庫?數(shù)據(jù)倉庫的特點主要有哪些?數(shù)據(jù)倉庫通常是指一個數(shù)據(jù)庫環(huán)境,而不是支一件產品,它是提供用戶用于決策支持的當前和歷史數(shù)據(jù),這些數(shù)據(jù)在傳統(tǒng)的數(shù)據(jù)庫中通常不方便得到。數(shù)據(jù)倉庫就是一個面向主題的(Subject Oriented)、集成的(Integrate)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,通常用于輔助決策支持。數(shù)據(jù)倉庫的特點包含以下幾個方面:(1)面向主題。操作型數(shù)據(jù)庫的數(shù)據(jù)組織是面向
4、事務處理任務,各個業(yè)務系統(tǒng)之間各自分離;而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進行組織。(2)集成的。面向事務處理的操作型數(shù)據(jù)庫通常與某些特定的應用相關,數(shù)據(jù)庫之間相互獨立,并且往往是異構的。也就是說存放在數(shù)據(jù)倉庫中的數(shù)據(jù)應使用一致的命名規(guī)則、格式、編碼結構和相關特性來定義。(3)相對穩(wěn)定的。操作型數(shù)據(jù)庫中的數(shù)據(jù)通常實時更新,數(shù)據(jù)根據(jù)需要及時發(fā)生變化。數(shù)據(jù)倉庫的數(shù)據(jù)主要供單位決策分析之用,對所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢和加載,一旦某個數(shù)據(jù)加載到數(shù)據(jù)倉庫以后,一般情況下將作為數(shù)據(jù)檔案長期保存,幾乎不再做修改和刪除操作,也就是說針對數(shù)據(jù)倉庫,通常有大量的查詢操作及少量定期的加載(或刷新)操作。(4
5、)反映歷史變化。操作型數(shù)據(jù)庫(OLTP)主要關心當前某一個時間段內的數(shù)據(jù),而數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含較久遠的歷史數(shù)據(jù),因此總是包括一個時間維,以便可以研究趨勢和變化。數(shù)據(jù)倉庫系統(tǒng)通常記錄了一個單位從過去某一時點(如開始啟用數(shù)據(jù)倉庫系統(tǒng)的時點)到目前的所有時期的信息,通過這些信息,可以對單位的發(fā)展歷程和未來趨勢做出定量分析和預測。12、數(shù)據(jù)挖掘的概念數(shù)據(jù)挖掘,就是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程,簡單的說,數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或“挖掘”知識,又被稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)。 數(shù)據(jù)挖掘的方法:直接數(shù)據(jù)挖掘、間接數(shù)據(jù)挖掘。13、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的關系若將
6、數(shù)據(jù)倉庫比作礦井,那么數(shù)據(jù)挖掘就是深入礦井采礦的工作;數(shù)據(jù)挖掘是從數(shù)據(jù)倉庫中找出有用信息的一種過程與技術。14、數(shù)據(jù)倉庫系統(tǒng)的體系結構的分類(1)兩層架構(Generic Two-Level Architecture)。(2)獨立型數(shù)據(jù)集市(Independent Data Mart)。(3)依賴型數(shù)據(jù)集市和操作型數(shù)據(jù)存儲(Dependent Data Mart and Operational Data Store)。(4)邏輯型數(shù)據(jù)集市和實時數(shù)據(jù)倉庫(Logical Data Mart and Real-Time Data Warehouse)。15、數(shù)據(jù)倉庫的未來(1)在數(shù)據(jù)抽取方面,未來
7、的技術發(fā)展將集中在系統(tǒng)集成化方面。它將互連、轉換、復制、調度、監(jiān)控納入標準化的統(tǒng)一管理,以適應數(shù)據(jù)倉庫本身或數(shù)據(jù)源可能的變化,使系統(tǒng)更便于管理和維護。(2)在數(shù)據(jù)管理方面,未來的發(fā)展將使數(shù)據(jù)庫廠商明確推出數(shù)據(jù)倉庫引擎,作為數(shù)據(jù)倉庫服務器產品與數(shù)據(jù)庫服務器并駕齊驅。在這一方面,帶有決策支持擴展的并行關系數(shù)據(jù)庫將最具發(fā)展?jié)摿?。?)在數(shù)據(jù)表現(xiàn)方面,數(shù)理統(tǒng)計的算法和功能將普遍集成到聯(lián)機分析產品中,并與Internet/Web技術緊密結合。按行業(yè)應用特征細化的數(shù)據(jù)倉庫用戶前端軟件將成為產品作為數(shù)據(jù)倉庫解決方案的一部分。數(shù)據(jù)倉庫實現(xiàn)過程的方法論將更加普及,將成為數(shù)據(jù)庫設計的一個明確分支,成為管理信息系統(tǒng)
8、設計的必備16、請列出3種數(shù)據(jù)倉庫產品,并說明其優(yōu)缺點。(1)IBM 公司提供了一套基于可視化數(shù)據(jù)倉庫的商業(yè)智能(BI)解決方案,包括:Visual Warehouse(VW),Essbase/DB2 OLAP Server 5.0、IBM DB2 UDB,以及來自第三方的前端數(shù)據(jù)展現(xiàn)工具(如BO)和數(shù)據(jù)挖掘工具(如SAS)。其中,VW 是一個功能很強的集成環(huán)境,既可用于數(shù)據(jù)倉庫建模和元數(shù)據(jù)管理,又可用于數(shù)據(jù)抽取、轉換、裝載和調度。Essbase/DB2 OLAP Server 支持“維”的定義和數(shù)據(jù)裝載。Essbase/DB2 OLAP Server 不是ROLAP(Relational O
9、LAP)服務器,而是一個(ROLAP 和MOLAP)混合的HOLAP 服務器,在Essbase 完成數(shù)據(jù)裝載后,數(shù)據(jù)存放在系統(tǒng)指定的DB2 UDB 數(shù)據(jù)庫中。它的前端數(shù)據(jù)展現(xiàn)工具可以選擇Business Objects 的BO、Lotus 的Approach、Cognos 的Impromptu 或IBM 的Query Management Facility;多維分析工具支持Arbor Software 的Essbase 和IBM(與Arbor 聯(lián)合開發(fā))的DB2 OLAP 服務器;統(tǒng)計分析工具采用SAS 系統(tǒng)。(2)Oracle 數(shù)據(jù)倉庫解決方案主要包括Oracle Express 和Orac
10、le Discoverer 兩個部分。Oracle Express 由四個工具組成:Oracle Express Server 是一個MOLAP(多維OLAP)服務器,它利用多維模型,存儲和管理多維數(shù)據(jù)庫或多維高速緩存,同時也能夠訪問多種關系數(shù)據(jù)庫;Oracle Express Web Agent 通過CGI 或Web 插件支持基于Web 的動態(tài)多維數(shù)據(jù)展現(xiàn);Oracle Express Objects 前端數(shù)據(jù)分析工具(目前僅支持Windows 平臺)提供了圖形化建模和假設分析功能,支持可視化開發(fā)和事件驅動編程技術,提供了兼容Visual Basic 語法的語言,支持OCX 和OLE;Ora
11、cle Express Analyzer 是通用的、面向最終用戶的報告和分析工具(目前僅支持Windows 平臺)。Oracle Discoverer 即席查詢工具是專門為最終用戶設計的,分為最終用戶版和管理員版。在Oracle 數(shù)據(jù)倉庫解決方案的實施過程中,通常把匯總數(shù)據(jù)存儲在Express 多維數(shù)據(jù)庫中,而將詳細數(shù)據(jù)存儲在Oracle 關系數(shù)據(jù)庫中,當需要詳細數(shù)據(jù)時,Express Server 通過構造SQL 語句訪問關系數(shù)據(jù)庫。(3)Microsoft 將OLAP 功能集成到SQL Server 數(shù)據(jù)庫中,其解決方案包括BI 平臺、BI 終端工具、BI 門戶和BI 應用四個部分,如圖1
12、.1。 BI 平臺是BI 解決方案的基礎, 包括ETL 平臺SQL Server 2005 Integration Service(SSIS)、數(shù)據(jù)倉庫引擎SQL Server 2005 RDBMS 以及多維分析和數(shù)據(jù)挖掘引擎SQL Server 2005 Analysis Service、報表管理引擎SQL Server 2005 Reporting Service。 BI 終端用戶工具,用戶通過終端用戶工具和Analysis Service 中的OLAP 服務和數(shù)據(jù)挖掘服務進行交互來使用多維數(shù)據(jù)集和數(shù)據(jù)挖掘模型,終端用戶通??墒褂妙A定義報表、交互式多維分析、即席查詢、數(shù)據(jù)可視化、數(shù)據(jù)挖掘等
13、多種方法。 BI 門戶提供了各種不同用戶訪問BI 信息的統(tǒng)一入口。BI 門戶是一個數(shù)據(jù)的匯集地,集成了來自不同系統(tǒng)的相關信息。用戶可以制定個性化的個人門戶,選擇和自己相關性最強的數(shù)據(jù),提高信息訪問和使用的效率。 BI 應用是建立在BI 平臺、BI 終端用戶工具和BI 統(tǒng)一門戶這些公共技術手段之上的滿足某個特定業(yè)務需求的應用,例如零售業(yè)務分析、企業(yè)項目管理組合分析等 第二章1、調和數(shù)據(jù)是存儲在企業(yè)級數(shù)據(jù)倉庫和操作型數(shù)據(jù)存儲中的數(shù)據(jù)。2、抽取、轉換、加載過程的目的是為決策支持應用提供一個單一的、權威數(shù)據(jù)源。因此,我們要求ETL過程產生的數(shù)據(jù)(即調和數(shù)據(jù)層)是詳細的、歷史的、規(guī)范的、可理解的、即時的
14、和質量可控制的。3、數(shù)據(jù)抽取的兩個常見類型是靜態(tài)抽取和增量抽取。靜態(tài)抽取用于最初填充數(shù)據(jù)倉庫,增量抽取用于進行數(shù)據(jù)倉庫的維護。4、粒度是對數(shù)據(jù)倉庫中數(shù)據(jù)的綜合程度高低的一個衡量。粒度越小,細節(jié)程度越高,綜合程度越低,回答查詢的種類越多。5、使用星型模式可以從一定程度上提高查詢效率。因為星型模式中數(shù)據(jù)的組織已經經過預處理,主要數(shù)據(jù)都在龐大的事實表中。6、維度表一般由主鍵、分類層次和描述屬性組成。對于主鍵可以選擇兩種方式:自然鍵,代理鍵。7、雪花型模式是對星型模式維表的進一步層次化和規(guī)范化來消除冗余的數(shù)據(jù)。8、數(shù)據(jù)倉庫中存在不同綜合級別的數(shù)據(jù)。一般把數(shù)據(jù)分成4個級別:早期細節(jié)級、當前細節(jié)級、輕度綜
15、合級和高度綜合級。9、(1)狀態(tài)數(shù)據(jù)與事件數(shù)據(jù)前者描述對象的狀態(tài),后者描述對象發(fā)生的事件; (前象)狀態(tài)數(shù)據(jù)事件數(shù)據(jù)(后象)狀態(tài)數(shù)據(jù)(2)當前數(shù)據(jù)與周期數(shù)據(jù)當前數(shù)據(jù)只保留最新數(shù)據(jù),現(xiàn)存的最新記錄將改變以前中的數(shù)據(jù)。周期數(shù)據(jù)則相反,一旦保存物理上就不在改變或刪除數(shù)據(jù)。通常每個周期數(shù)據(jù)記錄都會包含一個時間戳來只是日期甚至時間。(3)數(shù)據(jù)倉庫中的元數(shù)據(jù)分技術元數(shù)據(jù)和業(yè)務元數(shù)據(jù)。技術元數(shù)據(jù)是描述關于數(shù)據(jù)倉庫技術細節(jié)的數(shù)據(jù),包括:數(shù)據(jù)倉庫結構的描述,業(yè)務系統(tǒng)、數(shù)據(jù)倉庫和數(shù)據(jù)集市的體系結構和模式,匯總算法,操作性業(yè)務環(huán)境導數(shù)據(jù)倉庫環(huán)境的映射等。10、業(yè)務元數(shù)據(jù)是從業(yè)務角度描述數(shù)據(jù)倉庫中的數(shù)據(jù),提供了使用者
16、和系統(tǒng)的語義層,使非專業(yè)人員能“讀懂”倉庫中的數(shù)據(jù)。包括:(1)使用者的業(yè)務屬于所表達的數(shù)據(jù)類型、對象名和屬性名;(2)訪問數(shù)據(jù)的原則和數(shù)據(jù)的來源;(3)系統(tǒng)所提供的分析方法及公式和報表的信息。簡言之,元數(shù)據(jù)是數(shù)據(jù)倉庫的幫助和導航圖11、什么是數(shù)據(jù)倉庫的3層數(shù)據(jù)結構?數(shù)據(jù)是從企業(yè)內外部的各業(yè)務處理系統(tǒng)(操作型數(shù)據(jù))流向企業(yè)級數(shù)據(jù)倉庫或操作型數(shù)據(jù)存儲區(qū),在這個過程中,要根據(jù)企業(yè)(或其他組織)的數(shù)據(jù)模型和元數(shù)據(jù)庫對數(shù)據(jù)進行調和處理,形成一個中間數(shù)據(jù)層,然后再根據(jù)分析需求,從調和數(shù)據(jù)層將數(shù)據(jù)引入導出數(shù)據(jù)層,如形成滿足各類分析需求的數(shù)據(jù)集市。12、什么是數(shù)據(jù)倉庫的數(shù)據(jù)ETL過程?數(shù)據(jù)的ETL 過程就是
17、負責將操作型數(shù)據(jù)轉換成調和數(shù)據(jù)的過程。這兩種數(shù)據(jù)具有明顯的區(qū)別,因此,數(shù)據(jù)調和是構建一個數(shù)據(jù)倉庫中最難的和最具技術挑戰(zhàn)性的部分。在為企業(yè)級數(shù)據(jù)倉庫填充數(shù)據(jù)的過程中,數(shù)據(jù)調和可分為兩個階段:一是企業(yè)級數(shù)據(jù)倉庫(EDW)首次創(chuàng)建時的原始加載;二是接下來的定期修改,以保持EDW 的當前有效性和擴展性。整個過程由四個步驟組成:抽取、清洗、轉換、加載和索引。事實上,這些步驟可以進行不同的組合,如,可以將數(shù)據(jù)抽取與清洗組合為一個過程,或者將清洗和轉換組合在一起。通常,在清洗過程中發(fā)現(xiàn)的拒絕數(shù)據(jù)信息會送回到源操作型業(yè)務系統(tǒng)中,然后將數(shù)據(jù)在源系統(tǒng)中加以處理,以便在以后重新抽取。13、什么是星型模式?它的特征是
18、什么?在星模式中,事實表居中,多個維表呈輻射狀分布于其四周,并與事實表連接。位于星形中心的實體是事實表,是用戶最關心的基本實體和查詢活動的中心,為數(shù)據(jù)倉庫的查詢活動提供定量數(shù)據(jù)。位于星模式四周的實體是維度實體,其作用是限制和過濾用戶的查詢結果,縮小訪問范圍。每個維表都有自己的屬性,維表和事實表通過關鍵字相關聯(lián)。14、為什么時間總是數(shù)據(jù)倉庫或數(shù)據(jù)集市的維?信息包圖法,也叫用戶信息需求表,就是在一張平面表格上描述元素的多維性,其中的每一個維度用平面表格的一列表示,通常的維度如時間、地點、產品和顧客等;而細化本列的對象就是類別,例如時間維度的類別可以細化到年、月、日,甚至小時;平面表格的最后一行(代
19、表超立方體中的單元格)即為指標度量值,例如,某年在某銷售點的某類產品的實際銷售額。創(chuàng)建信息包圖時需要確定最高層和最低層的信息需求,以便最終設計出包含各個層次需要的數(shù)據(jù)倉庫??傊?,信息包圖法是一種自上而下的數(shù)據(jù)建模方法,即從用戶的觀點開始設計(用戶的觀點是通過與用戶交流得到的),站在管理者的角度把焦點集中在企業(yè)的一個或幾個主題上,著重分析主題所涉及數(shù)據(jù)的多維特性,這種自上而下的方法幾乎考慮了所有的信息源,以及這些信息源影響業(yè)務活動的方式。12、簡述數(shù)據(jù)倉庫系統(tǒng)設計過程?收集、分析和確認業(yè)務分析需求,分析和理解主題和元數(shù)據(jù)、事實及其量度、粒度和維度的選擇與設計、數(shù)據(jù)倉庫的物理存儲方式的設計等。書p
20、4913、一個數(shù)據(jù)倉庫系統(tǒng)的建立通暢需要經過哪些步驟?(1)收集和分析業(yè)務需求;(2)建立數(shù)據(jù)模型和數(shù)據(jù)倉庫的物理設計;(3)定義數(shù)據(jù)源;(4)選擇數(shù)據(jù)倉庫技術和平臺;(5)從操作型數(shù)據(jù)庫中抽取、清洗及轉換數(shù)據(jù)到數(shù)據(jù)倉庫;(6)選擇訪問和報表工具,選擇數(shù)據(jù)庫連接軟件,選擇數(shù)據(jù)分析和數(shù)據(jù)展示軟件;(7)更新數(shù)據(jù)倉庫。14、建立一個數(shù)據(jù)倉庫系統(tǒng)的參考步驟(1)收集和分析業(yè)務需求步驟 (2)建立數(shù)據(jù)模型和數(shù)據(jù)倉庫的物理設計 (3)定義數(shù)據(jù)源 (4)選擇數(shù)據(jù)倉庫技術和平臺 (5)從操作型數(shù)據(jù)庫中抽取、清洗及轉換數(shù)據(jù)到數(shù)據(jù)倉庫 (6)選擇訪問和報表工具,選擇數(shù)據(jù)庫連接軟件,選擇數(shù)據(jù)分析和數(shù)據(jù)展示軟件 (
21、7)更新數(shù)據(jù)倉庫15、創(chuàng)建數(shù)據(jù)倉庫系統(tǒng)的兩種思維模式自頂向下(Top-down)OLTP數(shù)據(jù)通過ETL進入DW,再復制推進各個數(shù)據(jù)集市;自底向上(Bottom-Up)OLTP數(shù)據(jù)通過ETL進入數(shù)據(jù)集市,再復制提升到DW;16、數(shù)據(jù)倉庫數(shù)據(jù)庫的設計過程(1)分析組織的業(yè)務狀況及數(shù)據(jù)源結構 (2)組織需求調研,收集業(yè)務需求 (3)采用信息包圖法進行數(shù)據(jù)倉庫的概念模型設計 (4)利用星形圖進行數(shù)據(jù)倉庫的邏輯模型設計 (5)數(shù)據(jù)倉庫的物理模型設計17、利用星形圖進行數(shù)據(jù)倉庫的邏輯模型設計(1)根據(jù)分析需求與信息包圖制作星形圖或雪花圖 (2)確定主題的屬性組 (3)事實表及其特征、事實表的類型與設計 (
22、4)粒度的選擇與設計步驟 (5)關于數(shù)據(jù)倉庫的聚合模型與數(shù)據(jù)的分割處理 (6)星形圖中的維度表簡介 (7)常用維度的設計模式第四章1、關聯(lián)規(guī)則的經典算法包括Apriori算法和FP-growth算法,其中FP-grownth算法的效率更高。2、如果L2=a,b,a,c,a,d,b,c,b,d,則連接產生的C3=a,b,c,a,b,d,a,c,d,b,c,d 再經過修剪,C3=a,b,c,a,b,d3、設定supmin=50%,交易集如則L1=A,B,C L2=A,CT1 A B CT2 A CT3 A DT4 B E F4、什么是關聯(lián)規(guī)則?關聯(lián)規(guī)則的應用有哪些?關聯(lián)規(guī)則挖掘最初由R.Agraw
23、al 等人提出,用來發(fā)現(xiàn)超級市場中用戶購買的商品之間的隱含關聯(lián)關系,并用規(guī)則的形式表示出來,稱為關聯(lián)規(guī)則(Association Rule)。關聯(lián)規(guī)則除了可以發(fā)現(xiàn)超市購物中隱含的關聯(lián)關系之外,還可以應用于其他很多領域。關聯(lián)規(guī)則的應用還包括文本挖掘、商品廣告郵寄分析、網(wǎng)絡故障分析等。5、關聯(lián)規(guī)則的分類有哪些?關聯(lián)規(guī)則挖掘的步驟包括什么? 關聯(lián)規(guī)則的分類:(1)基于規(guī)則中涉及到的數(shù)據(jù)的維數(shù),關聯(lián)規(guī)則可以分為單維的和多維的。(2)基于規(guī)則中數(shù)據(jù)的抽象層次,可以分為單層關聯(lián)規(guī)則和多層關聯(lián)規(guī)則。(3)基于規(guī)則中處理的變量的類型不同,關聯(lián)規(guī)則可以分為布爾型和數(shù)值型。關聯(lián)規(guī)則挖掘的步驟:(1)找出交易數(shù)據(jù)庫
24、中所有大于或等于用戶指定的最小支持度的頻繁項集;(2)利用頻繁項集生成所需要的關聯(lián)規(guī)則,根據(jù)用戶設定的最小可信度進行取舍,產生強關聯(lián)規(guī)則。第五章1、分類的過程包括獲取數(shù)據(jù)、預處理、分類器設計和分類決策。2、分類器設計階段包含三個過程:劃分數(shù)據(jù)集、分類器構造和分類器測試。3、分類問題中常用的評價準則有精確度、查全率和查準率和集合均值。4、支持向量機中常用的核函數(shù)有多項式核函數(shù)、徑向基核函數(shù)和S型核函數(shù)。5、分類的定義:分類是指把數(shù)據(jù)樣本映射到一個事先定義的類中的學習過程,即給定一組輸入的屬性向量及其對應的類,用基于歸納的學習算法得出分類6、分類的應用領域有哪些?分類問題是數(shù)據(jù)挖掘領域中研究和應用
25、最為廣泛的技術之一,許多分類算法被包含在統(tǒng)計分析工具的軟件包中,作為專門的分類工具來使用。分類問題在商業(yè)、銀行業(yè)、醫(yī)療診斷、生物學、文本挖掘、因特網(wǎng)篩選等領域都有廣泛應用。例如,在銀行業(yè)中,分類方法可以輔助工作人員將正常信用卡用戶和欺詐信用卡用戶進行分類,從而采取有效措施減小銀行的損失;在醫(yī)療診斷中,分類方法可以幫助醫(yī)療人員將正常細胞和癌變細胞進行分類,從而及時制定救治方案,挽救病人的生命;在因特網(wǎng)篩選中,分類方法可以協(xié)助網(wǎng)絡工作人員將正常郵件和垃圾郵件進行分類,從而制定有效的垃圾郵件過濾機制,防止垃圾郵件干擾人們的正常生活。7、分類問題使用的數(shù)據(jù)集格式(1)描述屬性可以是連續(xù)型屬性,也可以是
26、離散型屬性;而類別屬性必須是離散型屬性。(2)連續(xù)型屬性是指在某一個區(qū)間或者無窮區(qū)間內該屬性的取值是連續(xù)的 ,例如屬性“Age”(3)離散型屬性是指該屬性的取值是不連續(xù)的 ,例如屬性“Salary”和“Class”8、分類的過程(1)獲取數(shù)據(jù):輸入數(shù)據(jù)、對數(shù)據(jù)進行量化(2)預處理:去除噪聲數(shù)據(jù)、對空缺值進行處理;數(shù)據(jù)集成或者變換(3)分類器設計:劃分數(shù)據(jù)集、分類器構造、分類器測試(4)分類決策:對未知類標號的數(shù)據(jù)樣本進行分類9、決策樹的優(yōu)點:進行分類器設計時,決策樹分類方法所需時間相對較少;決策樹的分類模型是樹狀結構,簡單直觀,比較符合人類的理解方式;可以將決策樹中到達每個葉節(jié)點的路徑轉換為I
27、FTHEN形式的分類規(guī)則,這種形式更有利于理解10、決策樹的基本概念:適用于離散值屬性、連續(xù)值屬性;采用自頂向下的遞歸方式產生一個類似于流程圖的樹結構;在根節(jié)點和各內部節(jié)點上選擇合適的描述屬性,并且根據(jù)該屬性的不同取值向下建立分枝11、決策樹剪枝:決策樹剪枝過程試圖檢測和去掉多余的分枝,以提高對未知類標號的數(shù)據(jù)進行分類時的準確性。a) 先剪枝方法:在生成決策樹的過程中對樹進行剪枝b) 后剪枝方法:在生成決策樹之后對樹進行剪枝第六章1、聚類分析包括連續(xù)型、二值離散型、多值離散型和混合類型4種類型描述屬性的相似度計算方法。2、連續(xù)型屬性的數(shù)據(jù)樣本之間的距離有歐氏距離、曼哈頓距離和明考斯基距離。3、
28、劃分聚類方法對數(shù)據(jù)集進行聚類時包含三個要點:選種某種距離作為數(shù)據(jù)樣本減的相似性度量、選擇評價聚類性能的準則函數(shù)和選擇某個初始分類,之后用迭代的方法得到聚類結果,使得評價聚類的準則函數(shù)取得最優(yōu)值。4、層次聚類方法包括凝聚型和分解型兩中層次聚類方法。5、什么是聚類分析?聚類分析的應用領域有哪些?書p131聚類分析是將物理的或者抽象的數(shù)據(jù)集合劃分為多個類別的過程,聚類之后的每個類別中任意兩個數(shù)據(jù)樣本之間具有較高的相似度,不同類別的數(shù)據(jù)樣本之間具有較低的相似度。6、數(shù)據(jù)挖掘技術對聚類分析的要求:(1)可伸縮性 (適用于增長的大數(shù)據(jù)集)(2)處理不同類型屬性的能力 (支持多種類型屬性的數(shù)據(jù)集)(3)發(fā)現(xiàn)
29、任意形狀聚類的能力 (除了球形聚類外,能劃分出任意形狀聚類)(4)減小對先驗知識和用戶自定義參數(shù)的依賴性 (5)處理噪聲數(shù)據(jù)的能力(對孤立點、缺失值、錯誤數(shù)據(jù)等噪聲數(shù)據(jù)的抗干擾性)(6)可解釋性和實用性 (降維,可視化顯示)7、通常聚類算法可以分為以下幾類:(1)劃分聚類方法選擇適當?shù)某跏即睃c將數(shù)據(jù)樣本進行初始聚類,之后通過迭代過程對聚類的結果進行不斷的調整,直到使評價性能的準則函數(shù)的值達到最優(yōu)為止。(2)層次聚類方法 (3)基于密度的聚類方法 (4)基于網(wǎng)格的聚類方法第十章1、遺傳算法(Genetic Algorithms,GA)是一種有效的全局搜索方法,是一種基于達爾文自然選擇和遺傳變異
30、等生物進化機制而發(fā)展起來的仿生算法。2、例1 利用遺傳算法求解區(qū)間0,31上的二次函數(shù)y=x2的最大值。解 (1) 設定種群規(guī)模,編碼染色體,產生初始種群。將種群規(guī)模設定為4;用5位二進制數(shù)編碼染色體;取下列個體組成初始種群S1:s1= 13 (01101), s2= 24 (11000)s3= 8 (01000), s4= 19 (10011)(2) 定義適應度函數(shù),取適應度函數(shù):f (x)=x2f (s1) = f(13) = 132 = 169 f (s2) = f(24) = 242 = 576f (s3) = f(8) = 82 = 64 f (s4) = f(19) = 192 =
31、 361由此可求得P(s1) = P(13) = 0.14 P(s2) = P(24) = 0.49P(s3) = P(8) = 0.06 P(s4) = P(19) = 0.31(3) 計算各代種群中的各個體的適應度, 并對其染色體進行遺傳操作,直到適應度最高的個體(即31(11111))出現(xiàn)為止。填空題20分,簡答題25分,計算題2個(25分),綜合題30分1、數(shù)據(jù)倉庫的組成?P2數(shù)據(jù)倉庫數(shù)據(jù)庫,數(shù)據(jù)抽取工具,元數(shù)據(jù),訪問工具,數(shù)據(jù)集市,數(shù)據(jù)倉庫管理,信息發(fā)布系統(tǒng)2、數(shù)據(jù)挖掘技術對聚類分析的要求有哪幾個方面?P131可伸縮性;處理不同類型屬性的能力;發(fā)現(xiàn)任意形狀聚類的能力;減小對先驗知識和
32、用戶自定義參數(shù)的依賴性;處理噪聲數(shù)據(jù)的能力;可解釋性和實用性3、數(shù)據(jù)倉庫在存儲和管理方面的特點與關鍵技術?P7(1)數(shù)據(jù)倉庫面對的是大量數(shù)據(jù)的存儲與管理(2)并行處理(3)針對決策支持查詢的優(yōu)化(4)支持多維分析的查詢模式4、常見的聚類算法可以分為幾類?P132基于劃分的聚類算法,基于層次的聚類算法,基于密度的聚類算法,基于網(wǎng)格的聚類算法,基于模型的聚類算法等。5、一個典型的數(shù)據(jù)倉庫系統(tǒng)的組成?P12數(shù)據(jù)源、數(shù)據(jù)存儲與管理、OLAP服務器、前端工具與應用6、 數(shù)據(jù)倉庫常見的存儲優(yōu)化方法?P71表的歸并與簇文件;反向規(guī)范化,引入冗余;表的物理分割。7、 數(shù)據(jù)倉庫發(fā)展演變的5個階段?P20以報表為
33、主 以分析為主 以預測模型為主 以運行向導為主以實時數(shù)據(jù)倉庫 自動決策應用為主8、 ID3算法主要存在的缺點?P116(1)ID3算法在選擇根結點和各內部結點中的分枝屬性時,使用信息增益作為評價標準。信息增益的缺點是傾向于選擇取值較多的屬性,在有些情況下這類屬性可能不會提供太多有價值的信息。(2)ID3算法只能對描述屬性為離散型屬性的數(shù)據(jù)集構造決策樹。9、 簡述數(shù)據(jù)倉庫ETL軟件的主要功能和對產生數(shù)據(jù)的目標要求。P30ETL軟件的主要功能:數(shù)據(jù)的抽取,數(shù)據(jù)的轉換,數(shù)據(jù)的加載對產生數(shù)據(jù)的目標要求:詳細的、歷史的、規(guī)范化的、可理解的、即時的、質量可控制的10、 簡述分類器設計階段包含的3個過程。劃分數(shù)據(jù)集,分類器構造,分類器測試11、 什么是數(shù)據(jù)清洗?P33數(shù)據(jù)清洗是一種使用模式識別和其他技術,在將原始數(shù)據(jù)轉換和移到數(shù)據(jù)倉庫之前來升級原始數(shù)據(jù)12、支持度和置信度的計算公式及數(shù)據(jù)計算(P90)找出所有的規(guī)則X à Y , 使支持度和置信度分別大于門限支持度: 事務中X和Y同時發(fā)生的比例,P(X Y)置信度:項集X發(fā)生時,Y同時發(fā)生的條件概率P(Y|X)Example:13、利用信息包圖設計數(shù)據(jù)倉庫概念模型需要確定的三方面內容。P57確定指標,確定維度,確定類別14、K-近鄰分類方法的操作步驟(包括算法的輸入和輸出)。P12815、什么是技術元數(shù)據(jù),主要包含的內
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《心臟解剖及血供》課件
- 2021年四川省雅安市公開招聘警務輔助人員輔警筆試自考題2卷含答案
- 2023年遼寧省遼陽市公開招聘警務輔助人員輔警筆試自考題1卷含答案
- 2022年遼寧省遼陽市公開招聘警務輔助人員輔警筆試自考題2卷含答案
- 2022年浙江省嘉興市公開招聘警務輔助人員輔警筆試自考題1卷含答案
- 《漢字拼音復習攻略》課件
- 2025年行政訴訟法知識競賽題庫與答案(完整版)
- 2024年PET改性及合金材料項目投資申請報告代可行性研究報告
- 2024年石油產品添加劑:燃料油添加劑項目資金申請報告
- 關于銀行實習日記范文錦集八篇
- 肺結核的護理個案
- 陜西省漢中市2024-2025學年高一上學期12月第二次月考地理試題(含答案)
- AutoCAD2024簡明教程資料
- 《中國傳統(tǒng)文化》課件模板(六套)
- 民航客艙服務管理Ⅱ學習通超星期末考試答案章節(jié)答案2024年
- 兒科主任年終總結
- 2023年上海市錄用公務員考試真題
- 期末 (試題) -2024-2025學年人教PEP版英語四年級上冊
- 第三單元 (單元測試)-2024-2025學年-四年級上冊語文統(tǒng)編版
- 浪潮銷售在線測評題
- 總經理年會發(fā)言稿模板怎么寫(8篇素材參考)
評論
0/150
提交評論