商務(wù)智能第11章數(shù)據(jù)挖掘工具_(dá)第1頁
商務(wù)智能第11章數(shù)據(jù)挖掘工具_(dá)第2頁
商務(wù)智能第11章數(shù)據(jù)挖掘工具_(dá)第3頁
商務(wù)智能第11章數(shù)據(jù)挖掘工具_(dá)第4頁
商務(wù)智能第11章數(shù)據(jù)挖掘工具_(dá)第5頁
已閱讀5頁,還剩95頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第11章 數(shù)據(jù)挖掘工具商務(wù)智能商務(wù)智能第11章 數(shù)據(jù)挖掘工具11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE DB for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的使用11.4 SQL Server數(shù)據(jù)挖掘編程 在SQL Server 2005中進(jìn)行數(shù)據(jù)挖掘的步驟包括:設(shè)置數(shù)據(jù)源、創(chuàng)建和編輯挖掘模型、訓(xùn)練模型、查看挖掘結(jié)果、評(píng)價(jià)模型和預(yù)測(cè)六個(gè)步驟,如圖11-1所示。 11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施設(shè)置數(shù)據(jù)源創(chuàng)建和編輯挖掘模型訓(xùn)練模型查看挖掘結(jié)果評(píng)價(jià)模型預(yù)測(cè)模型修改商務(wù)智能第11章 數(shù)據(jù)挖掘工具11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE

2、 DB for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的使用11.4 SQL Server數(shù)據(jù)挖掘編程(1)設(shè)置數(shù)據(jù)源 利用SQL Server 2005進(jìn)行數(shù)據(jù)挖掘操作時(shí),首先需要設(shè)置數(shù)據(jù)源,設(shè)置數(shù)據(jù)源主要包括創(chuàng)建數(shù)據(jù)源和使用數(shù)據(jù)源視圖兩個(gè)步驟。 (2)創(chuàng)建和編輯挖掘模型 當(dāng)用戶已經(jīng)對(duì)需要分析的數(shù)據(jù)進(jìn)行組織、選擇和理解后,就可以開始數(shù)據(jù)挖掘的建模工作了。在Analysis Services中有兩個(gè)主要的數(shù)據(jù)挖掘?qū)ο螅和诰蚪Y(jié)構(gòu)和挖掘模型。在SQL Server 2005中可以使用數(shù)據(jù)挖掘向?qū)Ш虳MX語句創(chuàng)建挖掘結(jié)構(gòu)和挖掘模型。(3)模型訓(xùn)練 當(dāng)用戶完成數(shù)據(jù)挖掘的建模工作后就可以開始模

3、型的訓(xùn)練過程了。在SQL Server 2005上可以通過相應(yīng)的“處理挖掘結(jié)構(gòu)”菜單或DMX語句進(jìn)行數(shù)據(jù)挖掘模型的訓(xùn)練。 商務(wù)智能第11章 數(shù)據(jù)挖掘工具11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE DB for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的使用11.4 SQL Server數(shù)據(jù)挖掘編程(4)查看挖掘結(jié)果 當(dāng)用戶創(chuàng)建并訓(xùn)練了模型之后,就需要查看、查詢挖掘結(jié)果以便能夠理解和應(yīng)用模型所提供的信息。Analysis Services為每個(gè)算法提供了相應(yīng)的模型查看器,可以以圖表和表格的形式進(jìn)行挖掘結(jié)果的查看。(5)評(píng)價(jià)模型 挖掘模型是否符合用戶的要求需要對(duì)挖掘模型

4、的準(zhǔn)確性進(jìn)行評(píng)估,如果效果不理想,則需要對(duì)模型的相關(guān)參數(shù)進(jìn)行調(diào)整或選擇新的數(shù)據(jù)挖掘算法重新訓(xùn)練模型,如此循環(huán),直到模型的準(zhǔn)確性達(dá)到用戶滿意為止。(6)預(yù)測(cè) 在得到滿意的模型后,就可以運(yùn)用此模型對(duì)新數(shù)據(jù)進(jìn)行預(yù)測(cè),最終將數(shù)據(jù)轉(zhuǎn)化成可以幫助企業(yè)或組織進(jìn)行決策的信息。在Analysis Services中可以使用挖掘模型預(yù)測(cè)或DMX語句進(jìn)行數(shù)據(jù)挖掘模型的預(yù)測(cè)。商務(wù)智能第11章 數(shù)據(jù)挖掘工具11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE DB for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的使用11.4 SQL Server數(shù)據(jù)挖掘編程 OLE DB for DM規(guī)范最初是由M

5、icrosoft公司在2000年提出,并且得到了許多數(shù)據(jù)挖掘廠商(包括Angoss、KXEN和Megaputer等)的支持。 OLE DB for DM規(guī)范沒有定義任何新的COM或OLE DB接口,而是定義了用于模型創(chuàng)建、模型訓(xùn)練和模型預(yù)測(cè)的強(qiáng)大的數(shù)據(jù)挖掘語言,也定義了一組模式行集,這些模式行集用于存儲(chǔ)挖掘模型和挖掘算法的元數(shù)據(jù)。11.2 OLE DB for DM規(guī)范商務(wù)智能第11章 數(shù)據(jù)挖掘工具11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE DB for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的使用11.4 SQL Server數(shù)據(jù)挖掘編程1. 事例 數(shù)據(jù)挖掘的主

6、要任務(wù)是分析事例事例是信息的基本實(shí)體。它包含一組屬性,例如Gender和Age。一組屬性可以有一組可能的值,這組可能的值稱為狀態(tài)。例如,Gender屬性有兩種狀態(tài):Male和Female。2.事例鍵 事例鍵是一個(gè)唯一確定每個(gè)事例的屬性。事例鍵通常是關(guān)系表的主鍵。11.2.1 OLE DB for DM規(guī)范中的基本概念商務(wù)智能第11章 數(shù)據(jù)挖掘工具11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE DB for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的使用11.4 SQL Server數(shù)據(jù)挖掘編程3.嵌套鍵 雖然事例鍵在關(guān)系術(shù)語中可以視為主鍵,但是嵌套鍵和外鍵是很不一樣的。

7、事例鍵僅僅是標(biāo)識(shí)符,并且不包含任何模式,然而嵌套鍵是事例嵌套部分最重要的屬性。在嵌套部分中的其他屬性用于描述嵌套鍵。 例如,如果一個(gè)模型被設(shè)計(jì)用來學(xué)習(xí)客戶購物行為的模式,其中的嵌套鍵是Product,Quantity等描述客戶的購物情況的信息,嵌套鍵不是一個(gè)標(biāo)識(shí)符,而是包含關(guān)于模式的有用信息。例如:我們能使用嵌套鍵Product作為輸入,來預(yù)測(cè)事例級(jí)屬性Gender的值。11.2.1 OLE DB for DM規(guī)范中的基本概念商務(wù)智能第11章 數(shù)據(jù)挖掘工具11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE DB for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的使用11.4

8、 SQL Server數(shù)據(jù)挖掘編程4.事例表和嵌套表 事例表是一個(gè)包含事例信息的表,這些信息與事例的平坦部分相關(guān)。嵌套表是一個(gè)包含與事例嵌套部分相關(guān)信息的表。嵌套表通常是一種事務(wù)表,比如購買歷史、Web導(dǎo)航日志等。通過使用事例鍵,嵌套表可以與事例表連接。5.標(biāo)量列和表列 挖掘模型中存在兩種類型的列結(jié)構(gòu):標(biāo)量列和表列。大部分的列是標(biāo)量列。一個(gè)記錄中的每一個(gè)標(biāo)量列的值是唯一的。例如:Gender和Age是標(biāo)量列。表列是一個(gè)特殊的列,一個(gè)表列就是在一個(gè)列中嵌入一個(gè)表。11.2.1 OLE DB for DM規(guī)范中的基本概念商務(wù)智能第11章 數(shù)據(jù)挖掘工具11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施1

9、1.2 OLE DB for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的使用11.4 SQL Server數(shù)據(jù)挖掘編程6.數(shù)據(jù)挖掘模型 數(shù)據(jù)挖掘模型包括鍵列、輸入列和可預(yù)測(cè)列。每一種模型都與一個(gè)數(shù)據(jù)挖掘算法相關(guān)聯(lián),這個(gè)模型由這個(gè)數(shù)據(jù)挖掘算法訓(xùn)練。通過指定數(shù)據(jù)挖掘算法相關(guān)的算法參數(shù)值,訓(xùn)練一個(gè)挖掘模型就是在訓(xùn)練數(shù)據(jù)集中發(fā)現(xiàn)模式。7.模型訓(xùn)練 模型創(chuàng)建的概念是創(chuàng)建一個(gè)空的數(shù)據(jù)挖掘模型,類似于我們創(chuàng)建一個(gè)新的表。11.2.1 OLE DB for DM規(guī)范中的基本概念商務(wù)智能第11章 數(shù)據(jù)挖掘工具11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE DB for DM規(guī)范11.3

10、Microsoft數(shù)據(jù)挖掘模型的使用11.4 SQL Server數(shù)據(jù)挖掘編程8. 模型訓(xùn)練 模型訓(xùn)練也稱為模型處理。它通常是調(diào)用數(shù)據(jù)挖掘算法來挖掘訓(xùn)練數(shù)據(jù)集里面的知識(shí)。在模型訓(xùn)練之后,模式被存儲(chǔ)在挖掘模型之中。9. 模型預(yù)測(cè) 模型預(yù)測(cè)是指將訓(xùn)練挖掘模型所得到的模式應(yīng)用于新的數(shù)據(jù)集,并且對(duì)每一個(gè)新事例的可預(yù)測(cè)列進(jìn)行預(yù)測(cè),以獲取這些可預(yù)測(cè)列可預(yù)測(cè)的值。11.2.1 OLE DB for DM規(guī)范中的基本概念商務(wù)智能第11章 數(shù)據(jù)挖掘工具11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE DB for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的使用11.4 SQL Server

11、數(shù)據(jù)挖掘編程 DMX(Data Mining Extensions)即數(shù)據(jù)挖掘擴(kuò)展插件,適用于SQL Server 2005的數(shù)據(jù)挖掘領(lǐng)域,也叫數(shù)據(jù)挖掘語言。在介紹這種語言之前,我們先來回顧一下數(shù)據(jù)挖掘的三個(gè)基本步驟.11.2.2 DMX(Data Mining Extensions)創(chuàng)建挖掘模型訓(xùn)練數(shù)據(jù)DM引擎挖掘模型挖掘模型 要進(jìn)行預(yù)測(cè)的數(shù)據(jù)DM引擎預(yù)測(cè)得到的數(shù)據(jù)商務(wù)智能第11章 數(shù)據(jù)挖掘工具11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE DB for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的使用11.4 SQL Server數(shù)據(jù)挖掘編程第一步是創(chuàng)建一個(gè)挖掘模型

12、挖掘模型的定義包括輸入列、可預(yù)測(cè)列的確定以及相關(guān)算法的選擇。挖掘模型是一個(gè)容器,類似于關(guān)系數(shù)據(jù)表,它用于存儲(chǔ)由數(shù)據(jù)挖掘算法所挖掘的模式。第二步是模型訓(xùn)練,也叫做模型處理 在這一步中,用戶需將歷史數(shù)據(jù)提供給數(shù)據(jù)挖掘引擎。 第三步是預(yù)測(cè) 為了預(yù)測(cè),我們需要一個(gè)經(jīng)過訓(xùn)練的挖掘模型和一個(gè)新的數(shù)據(jù)集。在預(yù)測(cè)的過程中,數(shù)據(jù)挖掘引擎將訓(xùn)練過程中發(fā)現(xiàn)的規(guī)則應(yīng)用到新的數(shù)據(jù)集,同時(shí)將預(yù)測(cè)結(jié)果賦給每個(gè)輸入事例。 11.2.2 DMX(Data Mining Extensions)商務(wù)智能第11章 數(shù)據(jù)挖掘工具11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE DB for DM規(guī)范11.3 Micros

13、oft數(shù)據(jù)挖掘模型的使用11.4 SQL Server數(shù)據(jù)挖掘編程 由于篇幅所限,在本節(jié)中,我們只介紹DMX語言用于數(shù)據(jù)挖掘模型的創(chuàng)建、模型訓(xùn)練以及模型預(yù)測(cè)的核心部分,關(guān)于DMX語言中相關(guān)的語法約定、函數(shù)使用、運(yùn)算符參考等一些具體內(nèi)容請(qǐng)讀者參考SQL Server 2005的聯(lián)機(jī)幫助。 1. 模型創(chuàng)建 因?yàn)閿?shù)據(jù)挖掘模型是一個(gè)類似于關(guān)系表的容器,所以模型創(chuàng)建語句類似于關(guān)系表的創(chuàng)建,并且使用Create命令。下面是創(chuàng)建挖掘模型的示例: 11.2.2 DMX(Data Mining Extensions)商務(wù)智能第11章 數(shù)據(jù)挖掘工具11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE D

14、B for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的使用11.4 SQL Server數(shù)據(jù)挖掘編程 11.2.2 DMX(Data Mining Extensions)下面是創(chuàng)建挖掘模型的示例:Create mining model MemberCard_Prediction(CustomerID long key,Gender text discrete,Age long continuous,Profession text discrete,Income long continuous,HouseOwner text discrete,MemberCard text discre

15、te predict)Using Microsoft_Decision_Tree商務(wù)智能第11章 數(shù)據(jù)挖掘工具11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE DB for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的使用11.4 SQL Server數(shù)據(jù)挖掘編程 2. 模型訓(xùn)練 模型訓(xùn)練也成為模型處理。在訓(xùn)練階段中,數(shù)據(jù)挖掘算法處理輸入事例并且分析屬性值之間的關(guān)系。模型訓(xùn)練完后,數(shù)據(jù)挖掘模型的內(nèi)容以模式的形式保存。數(shù)據(jù)挖掘模型訓(xùn)練語句的語法與關(guān)系表的Insert語句的語法一樣:11.2.2 DMX(Data Mining Extensions)Insert into 商務(wù)

16、智能第11章 數(shù)據(jù)挖掘工具11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE DB for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的使用11.4 SQL Server數(shù)據(jù)挖掘編程 11.2.2 DMX(Data Mining Extensions) 下面是MemberCard_Prediction模型的訓(xùn)練語句。數(shù)據(jù)源被存儲(chǔ)在機(jī)器名為myserver的SQL Server數(shù)據(jù)庫中。Insert into MemberCard_Prediction(CustomerID, Gender, Age, Profession, Income, HouseOwner, Member

17、Card)OpenSet(sqloledb, myserver; mylogin; mypwd,select CustomerID, Gender, Age, Profession, Income, HouseOwner, MemberCardFrom customers)商務(wù)智能第11章 數(shù)據(jù)挖掘工具11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE DB for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的使用11.4 SQL Server數(shù)據(jù)挖掘編程 3. 模型預(yù)測(cè) 預(yù)測(cè)是指利用從歷史數(shù)據(jù)中挖掘出來的模式來發(fā)現(xiàn)未知事例的信息。在DMX中,預(yù)測(cè)連接查詢的語法與SQL連接查

18、詢的語法一樣,共有3個(gè)部分:Select表達(dá)式、On條件和Where子句。Select表達(dá)式是一組用逗號(hào)分隔的表達(dá)式,每一表達(dá)式是來自輸入表中的列,或者是挖掘模型中的可預(yù)測(cè)列和可預(yù)測(cè)函數(shù)。11.2.2 DMX(Data Mining Extensions)Select From On MemberCard_Prediction.age=NewCustomer.ageAnd MemberCard_Prediction.gender=NewCustomer.gender商務(wù)智能第11章 數(shù)據(jù)挖掘工具11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE DB for DM規(guī)范11.3 Mi

19、crosoft數(shù)據(jù)挖掘模型的使用11.4 SQL Server數(shù)據(jù)挖掘編程 11.2.2 DMX(Data Mining Extensions)下面是一個(gè)預(yù)測(cè)查詢示例,用于預(yù)測(cè)客戶的會(huì)員卡類型:Select T.CustomerID, T.LastName, M.MemberCardFrom MemberCard_Prediction Predition JoinOpenRowset(Microoft.Jet.OLEDB.4.0 , data source=c:customer.mdb , select * from customers) as TOn MemberCard_Predictio

20、n.Gender = T.GenderAnd MemberCard_Prediction.Age = T.AgeAnd MemberCard_Prediction.Profession = T.ProfessionAnd MemberCard_Prediction.Income = T.IncomeAnd MemberCard_Prediction.HouseOwner = T.HouseOwnerWhere NewCustomer.age 30商務(wù)智能第11章 數(shù)據(jù)挖掘工具11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE DB for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖

21、掘模型的使用11.4 SQL Server數(shù)據(jù)挖掘編程 除了DMX語言之外,OLE DB for DM規(guī)范還定義了一組模式行集??偟膩碚f,模式行集是用來存放元數(shù)據(jù)的全局表。 在OLE DB for DM規(guī)范中,定義了7個(gè)模式行集:Mining_Services、Mining_Service_Parameters、Mining_Models、Mining_Columns、 Mining_Model_Content、Mining_Functions、Mining_Model_PMML。11.2.3 模式行集商務(wù)智能第11章 數(shù)據(jù)挖掘工具11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE

22、 DB for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的使用11.4 SQL Server數(shù)據(jù)挖掘編程1. Mining_Services模式行集 Mining_Services模式行集是對(duì)存儲(chǔ)算法的描述,這些算法是在服務(wù)器中注冊(cè)的。這些算法可能來自同一個(gè)數(shù)據(jù)挖掘提供程序,也可能來自不同的數(shù)據(jù)挖掘提供程序。 不同的算法能夠處理不同類型的數(shù)據(jù)挖掘任務(wù)。他們支持的數(shù)據(jù)類型可能有區(qū)別。這些算法的列表、用法、局限性以及它們的功能全部出現(xiàn)在Mining_Services模式行集中。11.2.3 模式行集商務(wù)智能第11章 數(shù)據(jù)挖掘工具11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE

23、 DB for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的使用11.4 SQL Server數(shù)據(jù)挖掘編程11.2.3 模式行集表11-1 Mining_Services模式行集列 名列類型描 述SERVICE_NAMEDBTYPE_WSTR算法的名稱。該名稱特定于提供程序。通常和Create Mining Model命令一起使用來制定特定的算法SERVICE_TYPE_IDDBTYPE_U14用于描述挖掘服務(wù)類型的標(biāo)志位,包含常用的挖掘服務(wù),例如:分類、聚類,關(guān)聯(lián)等PREDICTED_CONTENTDBTYPE_WSTR能夠被預(yù)測(cè)的屬性類型。SUPORTED_INPUT_CONTENT

24、_TYPESDBTYPE_WSTR下面列出了一個(gè)或多個(gè)用逗號(hào)分隔的類型:KEY、DISCRETE、CONTINUOUS、DISCRETIZED等SUPPORTED_PREDICTION_CONTENT_TYPESDBTYPE_WSTR同上TRAINING_COMPLEXITYDBTYPE_U14期望的訓(xùn)練時(shí)間(高、中、低)PREDICTION _COMPLEXITYDBTYPE_U14期望預(yù)測(cè)的時(shí)間(高、中、低)商務(wù)智能第11章 數(shù)據(jù)挖掘工具11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE DB for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的使用11.4 SQL Se

25、rver數(shù)據(jù)挖掘編程2. ServicesParameters模式行集 Service_Parameters模式行集是一種簡(jiǎn)單的模式行集,該模式行集為每一個(gè)已注冊(cè)的數(shù)據(jù)挖掘算法提供一些參數(shù)以及這些參數(shù)的默認(rèn)值。這些參數(shù)通常在模型創(chuàng)建語句中使用。表11-2列出了Service_Parameters模式行集中一些重要的列。11.2.3 模式行集列 名列類型描 述SERVICE_NAMEDBTYPE_WSTR算法的名稱。該名稱特定于提供程序PARAMETER_NAMEDBTYPE_WSTR參數(shù)名稱PARAMETER_TYPEDBTYPE_WSTR參數(shù)的數(shù)據(jù)類型IS_REQUIREDDBTYPE_WS

26、TR如果該值為true,則必須包含這個(gè)參數(shù)DESCRIPTIONDBTYPE_WSTR描述參數(shù)格式和作用的文本商務(wù)智能第11章 數(shù)據(jù)挖掘工具11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE DB for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的使用11.4 SQL Server數(shù)據(jù)挖掘編程3. Mining_Models模式行集 Mining_Models模式行集存儲(chǔ)數(shù)據(jù)挖掘模型。這個(gè)行集存儲(chǔ)挖掘模型的名稱、挖掘模型采用的算法、模型創(chuàng)建語句等信息。表11-3列出類Mining_Models模式行集中一些重要的列。11.2.3 模式行集列 名列類型描 述MODEL_NAM

27、EDBTYPE_WSTR模型的名稱,這個(gè)列不能為NullSERVICE_TYPE_IDDBTYPE_U14描述挖掘服務(wù)的標(biāo)志位SERVICE_NAMEDBTYPE_WSTR特定于提供程序的算法名稱,描述用來產(chǎn)生模型的算法CREATION_STATEMENTDBTYPE_WSTR可選項(xiàng)。用于創(chuàng)建原始的數(shù)據(jù)挖掘模型的語句IS_POPULATEDDBTYPE_BOOL指出模型是否經(jīng)過訓(xùn)練商務(wù)智能第11章 數(shù)據(jù)挖掘工具11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE DB for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的使用11.4 SQL Server數(shù)據(jù)挖掘編程4. Min

28、ing_Columns模式行集 Mining_Columns模式行集存儲(chǔ)挖掘模型每一列的信息。列的信息包括列的名稱、數(shù)據(jù)類型、分布標(biāo)志等,表11-4列出了Mining_Columns模式行集中一些重要的列11.2.3 模式行集列 名列類型描 述COLUMN_NAMEDBTYPE_WSTR列的名稱:這個(gè)值可能不唯一。如果列名不能確定,則返回NullDISTRIBUTION_FLAGDBTYPE_WSTR列值的分布類型,比如:normal、log_nomal、uniform、position等CONTENT_TYPEDBTYPE_WSTR內(nèi)容類型,可能的值有:KEY、DISCRETE、CONTIN

29、UOUS、DISCRETIZED等RELATED_TYPEDBTYPE_WSTR當(dāng)前列的目標(biāo)列名稱,該當(dāng)前列要么與目標(biāo)列相關(guān),要么是目標(biāo)列的一個(gè)特殊屬性商務(wù)智能第11章 數(shù)據(jù)挖掘工具11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE DB for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的使用11.4 SQL Server數(shù)據(jù)挖掘編程5. Mining_Model_Content模式行集Mining_Model_Content模式行集是最重要的模式行集。它存儲(chǔ)挖掘模型的內(nèi)容,也就是通過數(shù)據(jù)挖掘算法對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行挖掘而得到的模式。這些模式以表的形式重新構(gòu)造,以便存儲(chǔ)在這個(gè)行

30、集中。表11-5給出了Mining_Model_Content模式行集中一些重要的列。11.2.3 模式行集商務(wù)智能第11章 數(shù)據(jù)挖掘工具11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE DB for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的使用11.4 SQL Server數(shù)據(jù)挖掘編程11.2.3 模式行集表11-5 Mining_Model_Content模式行集列 名列類型描 述MODEL_NAMEDBTYPE_WSTR模型名稱ATTRIBUTE_NAMEDBTYPE_WSTR與這個(gè)節(jié)點(diǎn)相對(duì)應(yīng)的屬性名稱。對(duì)于一個(gè)模型節(jié)點(diǎn)來說,則是一系列可預(yù)測(cè)的屬性。對(duì)于一個(gè)分布葉

31、節(jié)點(diǎn)來說,則是該分布對(duì)應(yīng)的一個(gè)單一屬性NODE_NAMEDBTYPE_WSTR節(jié)點(diǎn)的名稱NODE_TYPEDBTYPE_WSTR節(jié)點(diǎn)的類型。例如:聚類節(jié)點(diǎn)、樹葉節(jié)點(diǎn)、模型根節(jié)點(diǎn)等。PARENT_UNIQUE_NAMEDBTYPE_WSTR節(jié)點(diǎn)的父節(jié)點(diǎn)名稱,這個(gè)值是唯一的。如果為Null,則表示該節(jié)點(diǎn)是根節(jié)點(diǎn)。對(duì)于產(chǎn)生唯一名稱的提供程序,這個(gè)名稱的每一個(gè)部分都進(jìn)行了界定NODE_DESCRIPTIONDBTYPE_WSTR節(jié)點(diǎn)的自然描述語言NODE_RULEDBTYPE_WSTR節(jié)點(diǎn)包含的規(guī)則,以XML形式描述商務(wù)智能第11章 數(shù)據(jù)挖掘工具11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2

32、OLE DB for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的使用11.4 SQL Server數(shù)據(jù)挖掘編程6. Mining_Functions模式行集有些預(yù)測(cè)函數(shù)是所有挖掘算法都支持的,而有些預(yù)測(cè)函數(shù)是針對(duì)某個(gè)特定算法的。例如,聚類算法支持Cluster()函數(shù)。在Microsoft Data Mining Provider中,有兩個(gè)算法支持Cluster()函數(shù):Microoft聚類算法和Microoft序列聚類算法。Mining_Functions模式行集常用于描述一系列預(yù)定義函數(shù),其中重要的列如表11-6所示。11.2.3 模式行集列 名列類型描 述SERVICE_NAME

33、DBTYPE_WSTR算法或服務(wù)的名詞FUNCTION_NAMEDBTYPE_WSTR函數(shù)的名詞RETURNS_TABLEDBTYPE_BOOL返回的值可能是表值也可能是標(biāo)量值。如果這個(gè)屬性設(shè)置為true,則返回一個(gè)表DESCRIPTIONDBTYPE_WSTR函數(shù)的描述商務(wù)智能第11章 數(shù)據(jù)挖掘工具11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE DB for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的使用11.4 SQL Server數(shù)據(jù)挖掘編程7. Model_PMML模式行集Model_PMML模式行集用來存儲(chǔ)每一個(gè)模型內(nèi)容的XML描述。XML字符串的格式遵循PM

34、ML標(biāo)準(zhǔn)。這個(gè)模式行集中最重要的列是Model_PMML,它是關(guān)于模型內(nèi)容的PMML文檔。表11-7列出了Model_PMML模式行集中一些重要的列。11.2.3 模式行集列 名列類型描 述MODEL_NAMEDBTYPE_WSTR模型的名稱。這一列不能為NullMODEL_TYPEDBTYPE_WSTR模型類型。特定于提供程序的一個(gè)字符串MODEL_GUIDDBTYPE_GUID模型的GUID,模型的唯一標(biāo)識(shí)符。在這個(gè)列中,如果沒有使用GUID指定表的提供程序,則應(yīng)該返回NullMODEL_PMMLDBTYPE_WSTR模型內(nèi)容的XML描述,使用PMML格式SIZEDBTYPE_WSTRXM

35、L字符串的長(zhǎng)度商務(wù)智能第11章 數(shù)據(jù)挖掘工具11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE DB for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的使用11.4 SQL Server數(shù)據(jù)挖掘編程 數(shù)據(jù)挖掘是一個(gè)過程,它從大量的數(shù)據(jù)中抽取出有價(jià)值的信息或知識(shí)以便為決策提供依據(jù)。數(shù)據(jù)挖掘的工具有很多,本書以MS SQL Server 2005為例對(duì)數(shù)據(jù)挖掘的過程進(jìn)行介紹,MS SQL Server 2005中的Analysis Services中提供了大量數(shù)據(jù)挖掘模型:決策樹、關(guān)聯(lián)規(guī)則、聚類分析、神經(jīng)網(wǎng)絡(luò)、邏輯回歸等,由于篇幅有限,本節(jié)將以Microsoft決策樹挖掘模型為

36、例介紹數(shù)據(jù)挖掘的整個(gè)過程,并介紹了不同模型在參數(shù)設(shè)置上的不同,讀者可結(jié)合本節(jié)和MS SQL Server 2005的聯(lián)機(jī)叢書進(jìn)行學(xué)習(xí)。11.3 Microsoft數(shù)據(jù)挖掘模型的使用商務(wù)智能第11章 數(shù)據(jù)挖掘工具 Microsoft決策樹是Microsoft研究院開發(fā)的混合型的決策樹算法,主要用來完成分類工作。Microsoft決策樹的英文名稱是Microsoft Decision Trees,而不是Microsoft Decision Tree,這是因?yàn)樵贛icrosoft決策樹算法中,可以通過不同的算法參數(shù)設(shè)置得到不同節(jié)點(diǎn)拆分條件與不同形狀的決策樹。 下面將在SQL Server 2005中

37、引入的一個(gè)新的示例數(shù)據(jù)庫AdventureWorksDW的基礎(chǔ)上,學(xué)習(xí)如何使用Microsoft決策樹算法。11.3.1 Microsoft決策樹挖掘模型的使用(以Microsoft Decision Trees為例)11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE DB for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的使用11.4 SQL Server數(shù)據(jù)挖掘編程商務(wù)智能第11章 數(shù)據(jù)挖掘工具1.理解算法參數(shù) Complexity_Penalty參數(shù)。主要用來控制決策樹的生長(zhǎng),Complexity_Penalty是一個(gè)定義在0,1區(qū)間上的浮點(diǎn)數(shù)。如果Complexit

38、y_Penalty被設(shè)置為接近0,則表示在模型訓(xùn)練中對(duì)于樹的生長(zhǎng)不做任何的限制,最終的結(jié)果將會(huì)得到一棵很大的樹;如果這個(gè)值的設(shè)置接近1,那么決策樹的每次生長(zhǎng)都會(huì)受到限制,最終會(huì)得到一棵很小的樹。 Minimum_Support參數(shù)。指定每個(gè)分類中的最小事例數(shù)。默認(rèn)值為1。11.3.1 Microsoft決策樹挖掘模型的使用(以Microsoft Decision Trees為例)11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE DB for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的使用11.4 SQL Server數(shù)據(jù)挖掘編程商務(wù)智能第11章 數(shù)據(jù)挖掘工具1.理解算法參

39、數(shù) Score_Method參數(shù)。它用來指定當(dāng)樹生長(zhǎng)時(shí)計(jì)算樹分裂指數(shù)的參數(shù)。如果采用信息熵來控制樹的增長(zhǎng)則Score_Method設(shè)為1.Microsoft決策樹提供了幾種拆分方法:Bayesian with K2 方法,Score_Method設(shè)為3、Bayesian Dirichlet Equivalent (BDE)方法,Score_Method設(shè)為4。 Split_Method是一個(gè)整型參數(shù)。該參數(shù)用來控制樹的形狀。 Maximum_Input_Attribute參數(shù)。這是一個(gè)特征選擇的閥值參數(shù)。當(dāng)輸入屬性的數(shù)量多于這個(gè)參數(shù)設(shè)置的值時(shí),該算法將會(huì)隱式調(diào)用特征選擇技術(shù)來選擇最重要的輸入屬

40、性。11.3.1 Microsoft決策樹挖掘模型的使用(以Microsoft Decision Trees為例)11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE DB for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的使用11.4 SQL Server數(shù)據(jù)挖掘編程商務(wù)智能第11章 數(shù)據(jù)挖掘工具1.理解算法參數(shù) Maximum_Onput_Attribute參數(shù)。這也是一個(gè)特征選擇的閥值參數(shù),當(dāng)可預(yù)測(cè)的屬性數(shù)量多于這個(gè)參數(shù)設(shè)置的值時(shí),該算法將會(huì)隱式調(diào)用特征選擇技術(shù)來選擇最重要的可預(yù)測(cè)屬性,針對(duì)所選的每一個(gè)可預(yù)測(cè)屬性來創(chuàng)建一棵樹。 Force_Regressor參數(shù)。它是用

41、來控制回歸樹的參數(shù)。使用這個(gè)參數(shù),可以強(qiáng)制使用回歸并使用指定的某一屬性作為回歸的量。此參數(shù)只用于預(yù)測(cè)連續(xù)屬性的決策樹。11.3.1 Microsoft決策樹挖掘模型的使用(以Microsoft Decision Trees為例)11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE DB for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的使用11.4 SQL Server數(shù)據(jù)挖掘編程商務(wù)智能第11章 數(shù)據(jù)挖掘工具2.挖掘操作流程 下面的例子我們將選擇SQL Server 2005中的示例數(shù)據(jù)庫AdventureWorksDW,讀者可以在安裝SQL Server 2005的過程中

42、選擇安裝該數(shù)據(jù)庫,也可以到微軟的網(wǎng)站上下載該數(shù)據(jù)庫然后進(jìn)行安裝,具體的安裝過程請(qǐng)讀者參見SQL Server 2005的聯(lián)機(jī)叢書。 下面將以AdventureWorksDW中的vTargetMail視圖為數(shù)據(jù)源,根據(jù)客戶的相關(guān)屬性來預(yù)測(cè)客戶是否是Bike Buyer。由于該數(shù)據(jù)庫沒有提供一些新客戶的數(shù)據(jù)使我們能夠根據(jù)得到的挖掘模型進(jìn)行預(yù)測(cè),我們將人為的把vTargetMail中的后2000條數(shù)據(jù)取出,放入新表NewCustomer中,并把BikeBuyer列的值清除(相關(guān)的步驟請(qǐng)讀者參閱相關(guān)資料后自行操作),以便使用通過訓(xùn)練得到挖掘模型進(jìn)行預(yù)測(cè)。11.3.1 Microsoft決策樹挖掘模型的

43、使用(以Microsoft Decision Trees為例)11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE DB for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的使用11.4 SQL Server數(shù)據(jù)挖掘編程商務(wù)智能第11章 數(shù)據(jù)挖掘工具2.挖掘操作流程 做好了準(zhǔn)備工作以后,即可開始數(shù)據(jù)挖掘工作,本部分將介紹使用Microsoft決策樹算法進(jìn)行數(shù)據(jù)挖掘的流程,整個(gè)流程分為數(shù)據(jù)源的設(shè)置、數(shù)據(jù)源視圖的設(shè)置和創(chuàng)建數(shù)據(jù)挖掘結(jié)構(gòu)三個(gè)步驟。(1)數(shù)據(jù)源的設(shè)置 設(shè)置數(shù)據(jù)源,有專門的向?qū)?duì)話框可以使用。根據(jù)對(duì)話框不同頁面的提示,可以輕松的完成數(shù)據(jù)源的設(shè)置。具體的操作過程如下:步驟1

44、 啟動(dòng)SQL Server BIDS,執(zhí)行【文件】/【新建】/【項(xiàng)目】命令,創(chuàng)建一個(gè)名為TargetMail的Analysis Services項(xiàng)目。然后在【解決方案資源管理器】窗口中,在TargetMail項(xiàng)目下的“數(shù)據(jù)源”文件夾上右擊,打開右鍵菜單,執(zhí)行【新建數(shù)據(jù)源】命令,打開【數(shù)據(jù)源向?qū)?duì)話框】。11.3.1 Microsoft決策樹挖掘模型的使用(以Microsoft Decision Trees為例)11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE DB for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的使用11.4 SQL Server數(shù)據(jù)挖掘編程商務(wù)智能第1

45、1章 數(shù)據(jù)挖掘工具2.挖掘操作流程 步驟2 單擊【下一步】按鈕,切換到【選擇如何定義連接】頁面,如下圖所示,選中“基于現(xiàn)有連接或新建連接創(chuàng)建數(shù)據(jù)源”,由于沒有現(xiàn)有連接,因此,單擊【新建】按鈕,打開【連接管理器】對(duì)話框,如圖所示。11.3.1 Microsoft決策樹挖掘模型的使用(以Microsoft Decision Trees為例)11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE DB for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的使用11.4 SQL Server數(shù)據(jù)挖掘編程商務(wù)智能第11章 數(shù)據(jù)挖掘工具2.挖掘操作流程11.3.1 Microsoft決策樹挖掘

46、模型的使用(以Microsoft Decision Trees為例)11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE DB for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的使用11.4 SQL Server數(shù)據(jù)挖掘編程商務(wù)智能第11章 數(shù)據(jù)挖掘工具2.挖掘操作流程 步驟3 如下圖所示,單擊左邊的【連接】按鈕,切換到【連接】頁面;在“提供程序”下拉列表中選擇合適的提供程序,本案例選擇默認(rèn)的提供程序“本機(jī)OLE DBSQL Native Client”;在“服務(wù)器”名下拉列表中選擇localhost,也可以在下拉列表中選擇在網(wǎng)絡(luò)中存在的SQL Server服務(wù);選中“使用W

47、indows身份驗(yàn)證”的單選按鈕,登錄到服務(wù)器,選中“選擇或輸入一個(gè)數(shù)據(jù)庫名”單選按鈕,在下面的下拉列表中選擇作為數(shù)據(jù)挖掘使用的數(shù)據(jù)庫AdventureWorksDW,單擊【確定】按鈕。11.3.1 Microsoft決策樹挖掘模型的使用(以Microsoft Decision Trees為例)11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE DB for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的使用11.4 SQL Server數(shù)據(jù)挖掘編程商務(wù)智能第11章 數(shù)據(jù)挖掘工具2.挖掘操作流程11.3.1 Microsoft決策樹挖掘模型的使用(以Microsoft Deci

48、sion Trees為例)11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE DB for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的使用11.4 SQL Server數(shù)據(jù)挖掘編程商務(wù)智能第11章 數(shù)據(jù)挖掘工具2.挖掘操作流程 步驟4 如圖11-5所示,單擊【下一步】按鈕,切換到【模擬信息】頁面,選中“默認(rèn)值”單選按鈕;單擊【下一步】按鈕,進(jìn)入下一個(gè)頁面,完成數(shù)據(jù)源的創(chuàng)建,如下圖所示。11.3.1 Microsoft決策樹挖掘模型的使用(以Microsoft Decision Trees為例)11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE DB for DM

49、規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的使用11.4 SQL Server數(shù)據(jù)挖掘編程商務(wù)智能第11章 數(shù)據(jù)挖掘工具2.挖掘操作流程11.3.1 Microsoft決策樹挖掘模型的使用(以Microsoft Decision Trees為例)11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE DB for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的使用11.4 SQL Server數(shù)據(jù)挖掘編程商務(wù)智能第11章 數(shù)據(jù)挖掘工具2.挖掘操作流程11.3.1 Microsoft決策樹挖掘模型的使用(以Microsoft Decision Trees為例)11.1 SQL Se

50、rver數(shù)據(jù)挖掘方案實(shí)施11.2 OLE DB for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的使用11.4 SQL Server數(shù)據(jù)挖掘編程商務(wù)智能第11章 數(shù)據(jù)挖掘工具2.挖掘操作流程(2)數(shù)據(jù)源視圖的設(shè)置數(shù)據(jù)源視圖的設(shè)置也是通過向?qū)?duì)話框上的提示逐步進(jìn)行,具體的操作如下: 步驟1 在【解決方案資源管理器】窗口中,在TargetMail項(xiàng)目下的“數(shù)據(jù)源視圖”文件夾上右擊,打開右鍵菜單,執(zhí)行【新建數(shù)據(jù)源視圖】命令,打開【數(shù)據(jù)源視圖向?qū)А繉?duì)話框。單擊下一步,切換到【選擇數(shù)據(jù)源】頁面,如下圖所示,選擇剛才建立的Adventure Works DW數(shù)據(jù)源,再單擊【下一步】按鈕,切換到下一

51、個(gè)頁面。若“關(guān)系數(shù)據(jù)源”列表框中無可選數(shù)據(jù)源,則單擊【新建數(shù)據(jù)源】按鈕,重復(fù)上面介紹的步驟。11.3.1 Microsoft決策樹挖掘模型的使用(以Microsoft Decision Trees為例)11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE DB for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的使用11.4 SQL Server數(shù)據(jù)挖掘編程商務(wù)智能第11章 數(shù)據(jù)挖掘工具2.挖掘操作流程11.3.1 Microsoft決策樹挖掘模型的使用(以Microsoft Decision Trees為例)11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE DB

52、 for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的使用11.4 SQL Server數(shù)據(jù)挖掘編程商務(wù)智能第11章 數(shù)據(jù)挖掘工具2.挖掘操作流程(2)數(shù)據(jù)源視圖的設(shè)置 步驟2 如圖11-8所示,在【選擇表和視圖】頁面中選擇左側(cè)的“可用對(duì)象”列表框中的dbo.vTargetMail選項(xiàng),將選中的選項(xiàng)加入右側(cè)“包含的對(duì)象”列表框中。11.3.1 Microsoft決策樹挖掘模型的使用(以Microsoft Decision Trees為例)11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE DB for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的使用11.4 SQL S

53、erver數(shù)據(jù)挖掘編程商務(wù)智能第11章 數(shù)據(jù)挖掘工具2.挖掘操作流程11.3.1 Microsoft決策樹挖掘模型的使用(以Microsoft Decision Trees為例)11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE DB for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的使用11.4 SQL Server數(shù)據(jù)挖掘編程商務(wù)智能第11章 數(shù)據(jù)挖掘工具2.挖掘操作流程(2)數(shù)據(jù)源視圖的設(shè)置 步驟3 單擊【下一步】按鈕,切換到【完成向?qū)А宽撁?;在“名稱”輸入框中輸入一個(gè)名稱;單擊【完成】按鈕,完成數(shù)據(jù)源視圖的設(shè)置。如下圖所示。11.3.1 Microsoft決策樹挖掘

54、模型的使用(以Microsoft Decision Trees為例)11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE DB for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的使用11.4 SQL Server數(shù)據(jù)挖掘編程商務(wù)智能第11章 數(shù)據(jù)挖掘工具2.挖掘操作流程11.3.1 Microsoft決策樹挖掘模型的使用(以Microsoft Decision Trees為例)11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE DB for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的使用11.4 SQL Server數(shù)據(jù)挖掘編程商務(wù)智能第11章 數(shù)據(jù)挖掘工

55、具2.挖掘操作流程(3)創(chuàng)建數(shù)據(jù)挖掘結(jié)構(gòu)同樣的,創(chuàng)建數(shù)據(jù)挖掘結(jié)構(gòu)也是在向?qū)?duì)話框中進(jìn)行的,具體的操作過程如下: 步驟1 右擊“挖掘結(jié)構(gòu)”文件夾,執(zhí)行【新建挖掘結(jié)構(gòu)】命令,打開數(shù)據(jù)挖掘向?qū)ы撁?。單擊【下一步】,切換到選擇定義方法頁面,選擇【從現(xiàn)有數(shù)據(jù)庫或數(shù)據(jù)倉庫】定義挖掘結(jié)構(gòu)的單選按鈕,如圖所示。11.3.1 Microsoft決策樹挖掘模型的使用(以Microsoft Decision Trees為例)11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE DB for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的使用11.4 SQL Server數(shù)據(jù)挖掘編程商務(wù)智能第11章 數(shù)

56、據(jù)挖掘工具2.挖掘操作流程11.3.1 Microsoft決策樹挖掘模型的使用(以Microsoft Decision Trees為例)11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE DB for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的使用11.4 SQL Server數(shù)據(jù)挖掘編程商務(wù)智能第11章 數(shù)據(jù)挖掘工具2.挖掘操作流程(3)創(chuàng)建數(shù)據(jù)挖掘結(jié)構(gòu) 步驟2 如圖11-11所示,在下拉列表中選擇“Microsoft決策樹”選項(xiàng),單擊【下一步】按鈕,切換到下一個(gè)頁面。11.3.1 Microsoft決策樹挖掘模型的使用(以Microsoft Decision Trees

57、為例)11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE DB for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的使用11.4 SQL Server數(shù)據(jù)挖掘編程商務(wù)智能第11章 數(shù)據(jù)挖掘工具2.挖掘操作流程11.3.1 Microsoft決策樹挖掘模型的使用(以Microsoft Decision Trees為例)11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE DB for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的使用11.4 SQL Server數(shù)據(jù)挖掘編程商務(wù)智能第11章 數(shù)據(jù)挖掘工具2.挖掘操作流程(3)創(chuàng)建數(shù)據(jù)挖掘結(jié)構(gòu) 步驟3 在【選擇數(shù)據(jù)

58、源視圖】頁面的“可用數(shù)據(jù)源視圖”列表中顯示了前面步驟創(chuàng)建的Adventure Works DW數(shù)據(jù)源視圖,選中該視圖選項(xiàng),單擊【下一步】按鈕,切換到下一個(gè)頁面。 步驟4 如圖11-12所示,在【指定列表類型】頁面可以Adventure Works DW數(shù)據(jù)源視圖包含的數(shù)據(jù)表,勾選選項(xiàng)右邊的“事例”復(fù)選框,可以將其定義為事例表,單擊【下一步】按鈕,切換到下一個(gè)頁面。11.3.1 Microsoft決策樹挖掘模型的使用(以Microsoft Decision Trees為例)11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE DB for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模

59、型的使用11.4 SQL Server數(shù)據(jù)挖掘編程商務(wù)智能第11章 數(shù)據(jù)挖掘工具2.挖掘操作流程11.3.1 Microsoft決策樹挖掘模型的使用(以Microsoft Decision Trees為例)11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE DB for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的使用11.4 SQL Server數(shù)據(jù)挖掘編程商務(wù)智能第11章 數(shù)據(jù)挖掘工具2.挖掘操作流程(3)創(chuàng)建數(shù)據(jù)挖掘結(jié)構(gòu) 步驟5 如圖11-13所示,【指定定型數(shù)據(jù)】頁面顯示了挖掘模型的結(jié)構(gòu),在各個(gè)選項(xiàng)右邊勾選不同的復(fù)選框,可以將不同的表和列設(shè)置為鍵表、鍵列、輸入列和預(yù)測(cè)

60、列等;例如,設(shè)置CustomerKey為鍵列,Age、CommuteDistance、Gender、HouseOwnerFlag、MaritalStatus、NumberCarsOwned、NumberChildrenAtHome、TotalChildren、YealyIncome為輸入列,BikeBuyer為預(yù)測(cè)列,然后單擊【下一步】按鈕,切換到下一個(gè)頁面。11.3.1 Microsoft決策樹挖掘模型的使用(以Microsoft Decision Trees為例)11.1 SQL Server數(shù)據(jù)挖掘方案實(shí)施11.2 OLE DB for DM規(guī)范11.3 Microsoft數(shù)據(jù)挖掘模型的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論