數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程設(shè)計(jì)_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程設(shè)計(jì)_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程設(shè)計(jì)_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程設(shè)計(jì)_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程設(shè)計(jì)_第5頁
已閱讀5頁,還剩50頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、通信與信息工程學(xué)院數(shù)據(jù)倉庫與數(shù)據(jù)挖掘分析課程設(shè)計(jì)班 級:XXXX姓 名:XXX學(xué) 號:XXXXXX指導(dǎo)教師:XXXXX設(shè)計(jì)時間:XXXXX成 績:評 語: 通信與信息工程學(xué)院 二一X年工作完成統(tǒng)計(jì)表:組員完成任務(wù)說明自評教師評定XX1、聚類分析和關(guān)聯(lián)分析建模2、相關(guān)圖表分析3、撰寫相關(guān)內(nèi)容報(bào)告2XX1、決策分析和聚類分析挖掘建模2、相關(guān)圖表分析3、撰寫相關(guān)內(nèi)容報(bào)告4XXX順序分析與聚類分析模型和目標(biāo)郵遞方案相關(guān)圖表分析處理撰寫相關(guān)內(nèi)容報(bào)告4XX聚類分析和決策分析模型撰寫相關(guān)內(nèi)容報(bào)告相關(guān)圖表分析處理 教師簽名:目錄 TOC o 1-3 h z HYPERLINK l _Toc282491289

2、1緒論1 HYPERLINK l _Toc282491290 1.1項(xiàng)目背景1 HYPERLINK l _Toc282491291 1.2提出問題1 HYPERLINK l _Toc282491292 2數(shù)據(jù)倉庫與數(shù)據(jù)集市的概念介紹1 HYPERLINK l _Toc282491293 2.1數(shù)據(jù)倉庫介紹1 HYPERLINK l _Toc282491294 2.2數(shù)據(jù)集市介紹2 HYPERLINK l _Toc282491295 3數(shù)據(jù)倉庫3 HYPERLINK l _Toc282491296 3.1數(shù)據(jù)倉庫的設(shè)計(jì)3 HYPERLINK l _Toc282491297 3.1.1數(shù)據(jù)倉庫的概

3、念模型設(shè)計(jì)4 HYPERLINK l _Toc282491298 3.1.2數(shù)據(jù)倉庫的邏輯模型設(shè)計(jì)5 HYPERLINK l _Toc282491299 3.2 數(shù)據(jù)倉庫的建立5 HYPERLINK l _Toc282491300 3.2.1數(shù)據(jù)倉庫數(shù)據(jù)集成5 HYPERLINK l _Toc282491301 3.2.2建立維表8 HYPERLINK l _Toc282491306 4.OLAP操作10 HYPERLINK l _Toc282491307 5.數(shù)據(jù)預(yù)處理12 HYPERLINK l _Toc282491308 5.1描述性數(shù)據(jù)匯總12 HYPERLINK l _Toc2824

4、91309 5.2數(shù)據(jù)清理與變換13 HYPERLINK l _Toc282491312 6.數(shù)據(jù)挖掘操作13 HYPERLINK l _Toc282491313 6.1關(guān)聯(lián)規(guī)則挖掘13 HYPERLINK l _Toc282491314 6.2 分類和預(yù)測17 HYPERLINK l _Toc282491314 6.3決策樹的建立18 HYPERLINK l _Toc282491314 6.4聚類分析22 HYPERLINK l _Toc282491319 7.總結(jié)25 HYPERLINK l _Toc282491320 8.任務(wù)分配26緒論 1.1項(xiàng)目背景 在現(xiàn)在大數(shù)據(jù)時代,各行各業(yè)需要對

5、商品及相關(guān)關(guān)節(jié)的數(shù)據(jù)進(jìn)行收集處理,尤其零售行業(yè),于企業(yè)對產(chǎn)品的市場需求進(jìn)行科學(xué)合理的分析,從而預(yù)測出將來的市場,制定出高效的決策,給企業(yè)帶來經(jīng)濟(jì)收益。1.2 提出問題對于超市的商品的購買時期和購買數(shù)量的如何決定,才可以使銷售量最大,不積壓商品,不缺貨,對不同時期季節(jié)和不同人群制定不同方案,使企業(yè)收益最大,通過數(shù)據(jù)挖掘?qū)?shù)據(jù)進(jìn)行決策樹分析,關(guān)聯(lián)分析,順序分析與決策分析等可以制定出最佳方案。2、數(shù)據(jù)庫倉庫與數(shù)據(jù)集的概念介紹2.1數(shù)據(jù)倉庫數(shù)據(jù)倉庫介紹: 數(shù)據(jù)倉庫是為企業(yè)所有級別的決策制定過程提供支持的所有類型數(shù)據(jù)的戰(zhàn)略集合。它是單個數(shù)據(jù)存儲,出于分析性報(bào)告和決策支持的目的而創(chuàng)建。 為企業(yè)提供需要業(yè)務(wù)

6、智能來指導(dǎo)業(yè)務(wù)流程改進(jìn)和監(jiān)視時間、成本、質(zhì)量和控制。 數(shù)據(jù)倉庫是決策系統(tǒng)支持(dss)和聯(lián)機(jī)分析應(yīng)用數(shù)據(jù)源的結(jié)構(gòu)化數(shù)據(jù)環(huán)境。數(shù)據(jù)倉庫研究和解決從數(shù)據(jù)庫中獲取信息的問題。數(shù)據(jù)倉庫的特征在于面向主題、集成性、穩(wěn)定性和時變性。數(shù)據(jù)集介紹: 數(shù)據(jù)集是指一種由數(shù)據(jù)所組成的集合。Data set(或dataset)是一個數(shù)據(jù)的集合,通常以表格形式出現(xiàn)。每一列代表一個特定變量。每一行都對應(yīng)于某一成員的數(shù)據(jù)集的問題。它列出的價值觀為每一個變量,如身高和體重的一個物體或價值的隨機(jī)數(shù)。每個數(shù)值被稱為數(shù)據(jù)資料。對應(yīng)于行數(shù),該數(shù)據(jù)集的數(shù)據(jù)可能包括一個或多個成員。數(shù)據(jù)倉庫3.1 數(shù)據(jù)倉庫的設(shè)計(jì) 3.1.1數(shù)據(jù)倉庫的概念

7、模型設(shè)計(jì)概念模型的設(shè)計(jì)是整個概念模型開發(fā)過程的三階段。設(shè)計(jì)階段依據(jù)概念模型分析以及分析過程中收集的任何數(shù)據(jù),完成星型模型和雪花型模型的設(shè)計(jì)。如果僅依賴ERD,那只能對商品、銷售、客戶主題設(shè)計(jì)成如圖所示的概念模型。這種模型適合于傳統(tǒng)的數(shù)據(jù)庫設(shè)計(jì),但不適合于數(shù)據(jù)倉庫的設(shè)計(jì)。 3.1.2數(shù)據(jù)倉庫的邏輯模型設(shè)計(jì) 邏輯建模是數(shù)據(jù)倉庫實(shí)施中的重要一環(huán),因?yàn)樗苤苯臃从吵龈鱾€業(yè)務(wù)的需求,同時對系統(tǒng)的物理實(shí)施有著重要的指導(dǎo)作用,它的作用在于可以通過實(shí)體和關(guān)系勾勒出企業(yè)的數(shù)據(jù)藍(lán)圖,數(shù)據(jù)倉庫的邏輯模型設(shè)計(jì)任務(wù)主要有:分析主題域,確定要裝載到數(shù)據(jù)倉庫的主題、確認(rèn)粒度層次劃分、確認(rèn)數(shù)據(jù)分割策略、關(guān)系模式的定義和記錄系

8、統(tǒng)定義、確認(rèn)數(shù)據(jù)抽取模型等。邏輯模型最終設(shè)計(jì)成果包括每個主題的邏輯定義,并將相關(guān)內(nèi)容記錄在數(shù)據(jù)倉庫的元數(shù)據(jù)中、粒度劃分、數(shù)據(jù)分割策略、表劃分和數(shù)據(jù)來源等。3.2 數(shù)據(jù)倉庫的建立 3.2.1數(shù)據(jù)倉庫數(shù)據(jù)集一般說來,一個數(shù)據(jù)集市是按照某一特定部門的決策支持需求而組織起來的、針對一組主題的應(yīng)用系統(tǒng)。例如,財(cái)務(wù)部擁有自己的數(shù)據(jù)集市,用來進(jìn)行財(cái)務(wù)方面的報(bào)表和分析,市場推廣部、銷售部等也擁有各自專用的數(shù)據(jù)集市,用來為本部門的決策支持提供輔助手段。數(shù)據(jù)集市大都采用多維數(shù)據(jù)庫技術(shù),這種技術(shù)對數(shù)據(jù)的分析而言也許是最優(yōu)的,但肯定不適合于大量數(shù)據(jù)的存儲,因?yàn)槎嗑S數(shù)據(jù)庫的數(shù)據(jù)冗余度很高。為了提高速度,對數(shù)據(jù)集市中的數(shù)

9、據(jù)一般都建立大量的索引。換言之,數(shù)據(jù)集市中往往靠對數(shù)據(jù)的預(yù)處理來換取運(yùn)行時的高速度,當(dāng)業(yè)務(wù)部門提出新的問題時,如果不在原來設(shè)計(jì)的范圍內(nèi),則需要數(shù)據(jù)庫管理員對數(shù)據(jù)庫作許多調(diào)整和優(yōu)化處理。3.2.2建立維表維是分析問題的角度,度量是要分析的問題。多維視圖:用包含度量和維的表的數(shù)據(jù)結(jié)構(gòu)可以創(chuàng)建一個多維視圖,用試題和維創(chuàng)建的多維模型稱為星型模型,星型模型生成的主要表格被稱為事實(shí)表。事實(shí)表的屬性值幾乎都有連續(xù)值。事實(shí)表是規(guī)范化的。與維表不同不是隨時間的推移變化,而是不斷變大。維表:星型模型也具有非常小的表,用來裝載描述信息。維表是逆規(guī)范化的。如果把維表置于第二范式中,這樣的表稱為雪花模型。維表包括主鍵,

10、通常對應(yīng)事實(shí)表的外部鍵。如果維表的主鍵不在實(shí)事表中,這個主鍵字便被稱作退化的維。維表的分類:(1)結(jié)構(gòu)維:表示在層內(nèi)組成中的信息量度。如客戶地理位置維、時間維、產(chǎn)品維等。結(jié)構(gòu)維包含一組相關(guān)的成員,組成結(jié)構(gòu)維的屬性之間有一對多的關(guān)系。加法度量:可以相加的屬性值(2)信息維:計(jì)算字段如利潤額、平均值等(每個商品的利潤)。(3) 分區(qū)維:以同一結(jié)構(gòu)生成兩個或多個維。如:按時間分區(qū),預(yù)測額度、實(shí)際額度等。(4)分類維:通過對一個維的屬性值分組而創(chuàng)建。如果工資收入500-2000;200-4000;5000-7000;等創(chuàng)建維表:有3種方法:星型模型、雪花模型和星暴模型。星暴模型含有兩張以上的事實(shí)表?;?/p>

11、本有些充當(dāng)維事實(shí)表。星型模型:所有信息維都放在同一個維表中。維表信息包含一個唯一的標(biāo)識符(ID)和通過這個維表建立的所有維所需的屬性。星型模型由小的維表與大的事實(shí)表組成,多稱為“小表和大表”。事實(shí)表一般是標(biāo)準(zhǔn)表。雪花模型:把信息分為3種標(biāo)準(zhǔn)格式。產(chǎn)品表、類別表、子類別表。把這些信息放到一起需要一定數(shù)據(jù)的連接。雪花模型比星型模型效率低,占空間少。所有的事實(shí)表都有一個與之相關(guān)的時間維表。OLAP操作聯(lián)機(jī)分析處理(OLAP)系統(tǒng)是數(shù)據(jù)倉庫系統(tǒng)最主要的應(yīng)用,專門設(shè)計(jì)用于支持復(fù)雜的分析操作,側(cè)重對決策人員和高層管理人員的決策支持,可以根據(jù)分析人員的要求快速、靈活地進(jìn)行大數(shù)據(jù)量的復(fù)雜查詢處理,并且以一種直

12、觀而易懂的形式將查詢結(jié)果提供給決策人員,以便他們準(zhǔn)確掌握企業(yè)(公司)的經(jīng)營狀況,了解對象的需求,制定正確的方案。OLAP展現(xiàn)在用戶面前的是一幅幅多維視圖。維(Dimension):是人們觀察數(shù)據(jù)的特定角度,是考慮問題時的一類屬性,屬性集合構(gòu)成一個維(時間維、地理維等)。維的層次(Level):人們觀察數(shù)據(jù)的某個特定角度(即某個維)還可以存在細(xì)節(jié)程度不同的各個描述方面(時間維:日期、月份、季度、年)。維的成員(Member):維的一個取值,是數(shù)據(jù)項(xiàng)在某維中位置的描述。(“某年某月某日”是在時間維上位置的描述)。度量(Measure):多維數(shù)組的取值。OLAP的基本多維分析操作有鉆取(Drill-

13、up和Drill-down)、切片(Slice)和切塊(Dice)、以及旋轉(zhuǎn)(Pivot)等。鉆取:是改變維的層次,變換分析的粒度。它包括向下鉆?。―rill-down)和向上鉆取(Drill-up)/上卷(Roll-up)。Drill-up是在某一維上將低層次的細(xì)節(jié)數(shù)據(jù)概括到高層次的匯總數(shù)據(jù),或者減少維數(shù);而Drill-down則相反,它從匯總數(shù)據(jù)深入到細(xì)節(jié)數(shù)據(jù)進(jìn)行觀察或增加新維。切片和切塊:是在一部分維上選定值后,關(guān)心度量數(shù)據(jù)在剩余維上的分布。如果剩余的維只有兩個,則是切片;如果有三個或以上,則是切塊。旋轉(zhuǎn):是變換維的方向,即在表格中重新安排維的放置(例如行列互換)數(shù)據(jù)預(yù)處理 5.1描述性

14、數(shù)據(jù)匯總對于許多數(shù)據(jù)預(yù)處理任務(wù),希望知道關(guān)于數(shù)據(jù)的中心趨勢和離中趨勢特征。中心趨勢度量包括均值(mean)、中位數(shù)(median)、眾數(shù)(mode)和中列數(shù)(midrange),而數(shù)據(jù)離中趨勢度量包括四分位數(shù)(quartiles)、四分位數(shù)極差(interquartile range, IQR)和方差(variance)。這些描述性統(tǒng)計(jì)量有助于理解數(shù)據(jù)的分布。5.2數(shù)據(jù)清理與變換數(shù)據(jù)清理例程通過填寫缺失的值、光滑噪聲數(shù)據(jù)、識別或刪除離群點(diǎn)并解決不一致性來“清理”數(shù)據(jù)。主要是達(dá)到如下目標(biāo):格式標(biāo)準(zhǔn)化,異常數(shù)據(jù)清除,錯誤糾正,重復(fù)數(shù)據(jù)的清除。 通過平滑聚集,數(shù)據(jù)概化,規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適用于

15、數(shù)據(jù)挖掘的形式。6.數(shù)據(jù)挖掘操作 個人的兩個作業(yè):6.1關(guān)聯(lián)規(guī)則挖掘 需求分析 關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘和知識發(fā)現(xiàn)中的一個重要問題,自提出以來得到了廣泛的研究.目前關(guān)聯(lián)規(guī)則挖掘算法可以分為廣度優(yōu)先算法和深度優(yōu)先算法兩大類,每類都有經(jīng)典高效的算法提出.但是,這些算法大都是從其自身的角度來描述的,缺乏系統(tǒng)的分類和比較.文章從關(guān)聯(lián)規(guī)則挖掘的形式化定義出發(fā),給出頻集挖掘的解空間,對兩大類算法中的幾種經(jīng)典算法進(jìn)行了概述,并分析了它們的優(yōu)缺點(diǎn).概要設(shè)計(jì)關(guān)聯(lián)規(guī)則挖掘過程主要包含兩個階段:第一階段必須先從資料集合中找出所有的高頻項(xiàng)目組(Frequent Itemsets),第二階段再由這些高頻項(xiàng)目組中產(chǎn)生關(guān)聯(lián)規(guī)

16、則(Association Rules)。關(guān)聯(lián)規(guī)則挖掘的第一階段必須從chaoshi集合中,找出所有高頻項(xiàng)目組。高頻的意思是指某一項(xiàng)目組出現(xiàn)的頻率相對于所有記錄而言,必須達(dá)到某一水平。一項(xiàng)目組出現(xiàn)的頻率稱為HYPERLINK /view/4335695.htm支持度,以一個包含A與B兩個項(xiàng)目的2-itemset為例,我們可以經(jīng)由HYPERLINK /view/645857.htm公式求得包含A,B項(xiàng)目組的支持度,若支持度大于等于所設(shè)定的最小支持度(Minimum Support)門檻值時,則A,B稱為高頻項(xiàng)目組。一個滿足最小支持度的k-itemset,則稱為高頻k-項(xiàng)目組(Frequent k

17、-itemset),一般表示為Large k或Frequent k。算法并從Large k的項(xiàng)目組中再產(chǎn)生Large k+1,直到無法再找到更長的高頻項(xiàng)目組為止。詳細(xì)設(shè)計(jì)在準(zhǔn)備用于關(guān)聯(lián)規(guī)則模型的數(shù)據(jù)時,應(yīng)理解特定算法的要求,其中包括所需要的數(shù)據(jù)量以及使用數(shù)據(jù)的方式。關(guān)聯(lián)規(guī)則模型的要求如下:單個key列每個模型都必須包含一個數(shù)值或文本列,用于唯一標(biāo)識每個記錄。不允許復(fù)合鍵。單個可預(yù)測列一個關(guān)聯(lián)模型只能有一個可預(yù)測列。通常它是嵌套表的鍵列,例如列出已購買的產(chǎn)品的字段。這些值必須是離散或離散化值。輸入列輸入列必須為離散列。關(guān)聯(lián)模型的輸入數(shù)據(jù)通常包含在兩個表中。例如,一個表可能包含客戶信息,而另一個表

18、可能包含客戶購物情況。您可以使用嵌套表將該數(shù)據(jù)輸入到模型中。有關(guān)嵌套表的詳細(xì)信息,請參閱嵌套表(Analysis Services 數(shù)據(jù)挖掘)。支持”(有時候?qū)⑵浞Q為“頻率”)表示包含目標(biāo)項(xiàng)目或項(xiàng)目組合的事例的數(shù)目。只有至少具有指定支持量的項(xiàng)目才可包含在模型中?!俺S庙?xiàng)集”指滿足以下條件的項(xiàng)目集合:該項(xiàng)目集合所具有的支持超過由 MINIMUM_SUPPORT 參數(shù)定義的閾值。例如,如果項(xiàng)集為 A,B,C而且每一個MINIMUM_SUPPORT 值為 10,則每個單個項(xiàng)目 A、B 和 C 必須均可在要包括在模型中的至少 10 個事例中找到,而且項(xiàng)目 A,B,C 的組合也必須可在至少 10 個事例

19、中找到。注意 通過指定項(xiàng)集的最大長度(這里長度指項(xiàng)目數(shù)目),還可控制挖掘模型中項(xiàng)集的數(shù)目。 默認(rèn)情況下,對任何特定項(xiàng)目或項(xiàng)集的支持均表示包含該項(xiàng)目或項(xiàng)集的事例的計(jì)數(shù)。不過,還可以將 MINIMUM_SUPPORT 表示為占數(shù)據(jù)集的總事例的百分比,方法是鍵入數(shù)字作為小于 1 的小數(shù)值。例如,如果指定 MINIMUM_SUPPORT 值為 0.03,就意味著至少有 3% 的數(shù)據(jù)集總事例必須包含該項(xiàng)目或項(xiàng)集以包含在模型中。應(yīng)當(dāng)試用模型,以確定是使用計(jì)數(shù)還是百分比更有意義。 恰恰相反,規(guī)則的閾值不用計(jì)數(shù)或百分比表示,而用概率(有時稱為“置信度”)表示。例如,如果項(xiàng)集 A,B,C 和項(xiàng)集 A,B,D 均

20、出現(xiàn)在 50 個事例中,而項(xiàng)集 A,B 出現(xiàn)在另外 50 個事例中,則很明顯,A,B 不是 C 的強(qiáng)預(yù)測因子。因此,為了將某個特定結(jié)果對所有已知結(jié)果加權(quán),Analysis Services 通過以下方法來計(jì)算單個規(guī)則(例如 If A,B Then C)的概率:用對項(xiàng)集 A,B,C的支持除以對所有相關(guān)項(xiàng)集的支持。 可以通過設(shè)置 MINIMUM_PROBABILITY 的值來限制模型生成的規(guī)則的數(shù)目。Analysis Services 為創(chuàng)建的每個規(guī)則輸出一個指示其“重要性”(也稱為“提升”)的分?jǐn)?shù)。項(xiàng)集和規(guī)則的提升重要性的計(jì)算方法不同。項(xiàng)集重要性的計(jì)算方法為項(xiàng)集概率除以項(xiàng)集中各個項(xiàng)的合成概率。例

21、如,如果項(xiàng)集包含 A,B,Analysis Services 首先計(jì)算包含此 A 和 B 組合的所有事例的數(shù)目,并用此事例數(shù)除以事例總數(shù),然后將得到的概率規(guī)范化。 規(guī)則重要性的計(jì)算方法為:在已知規(guī)則左側(cè)的情況下,求規(guī)則右側(cè)的對數(shù)可能性值。例如,如果規(guī)則為 If A Then B,則 Analysis Services 計(jì)算具有 A 和 B 的事例與具有 B 但不具有 A 的事例之比,然后使用對數(shù)刻度將該比率規(guī)范化。功能選擇 Microsoft 關(guān)聯(lián)規(guī)則算法不執(zhí)行任何一種自動功能選擇,而是提供參數(shù)來控制其自身使用的數(shù)據(jù)。上述情況可能包括對每個項(xiàng)集大小的限制,或?qū)㈨?xiàng)集添加到模型中所需的最大和最小

22、支持的設(shè)置。若要篩選出太常見因而不受關(guān)注的項(xiàng)目和事件,請減小 MAXIMUM_SUPPORT 的值以將常見項(xiàng)集從模型中刪除。若要篩選出罕見的項(xiàng)目和項(xiàng)集,請?jiān)龃?MINIMUM_SUPPORT 的值。若要篩選出規(guī)則,請?jiān)龃?MINIMUM_PROBABILITY 的值。主要步驟:(1)HYPERLINK /zh-cn/library/ms170228.aspx定義多維數(shù)據(jù)集在該任務(wù)中,將使用多維數(shù)據(jù)集向?qū)矶x一個初始 Analysis Services 多維數(shù)據(jù)集。(2)HYPERLINK /zh-cn/library/cc280642.aspx定義維度,HYPERLINK /zh-cn/li

23、brary/cc280660.aspx向維度中添加屬性,在該任務(wù)中,將使用維度向?qū)矶x維度。定義維度層次結(jié)構(gòu),(3)HYPERLINK /zh-cn/library/ms169946.aspx修改度量值,和增加新的度量值在此任務(wù)中,為多維數(shù)據(jù)創(chuàng)建新的命名計(jì)算定義操作,鉆取使用管理角色(7)HYPERLINK /zh-cn/library/ms166576.aspx部署 Analysis Services 項(xiàng)目結(jié)果分析關(guān)聯(lián)規(guī)則挖掘的第二階段是要產(chǎn)生關(guān)聯(lián)規(guī)則(Association Rules)。從高頻產(chǎn)生關(guān)聯(lián)規(guī)則,是利用前一步驟的高頻k-項(xiàng)目組來產(chǎn)生規(guī)則,在最小信賴度的條件門檻下,若一規(guī)則所求

24、得的信賴度滿足最小信賴度,稱此規(guī)則為關(guān)聯(lián)規(guī)則。例如:經(jīng)由高頻k-項(xiàng)目組A,B所產(chǎn)生的規(guī)則AB,其信賴度可經(jīng)由HYPERLINK /view/645857.htm公式求得,若賴度大于等于最小信賴度,則稱AB為關(guān)聯(lián)規(guī)則。就chaoshi而言,使用關(guān)聯(lián)規(guī)則挖掘技術(shù),對交易資料庫中的紀(jì)錄進(jìn)行資料挖掘,首先必須要設(shè)定最小支持度與最小信賴度兩個門檻值,在此假設(shè)最小支持度min_support=5% 且最小信賴度min_confidence=70%。因此符合此該超市需求的關(guān)聯(lián)規(guī)則將必須同時滿足以上兩個條件。若經(jīng)過挖掘過程所找到的關(guān)聯(lián)規(guī)則購買數(shù)量,購買商品序號,滿足下列條件,將可接受購買數(shù)量,購買商品序號的關(guān)

25、聯(lián)規(guī)則。從上面的介紹還可以看出,關(guān)聯(lián)規(guī)則挖掘通常比較適用與記錄中的指標(biāo)取HYPERLINK /view/1561635.htm離散值的情況。如果原始數(shù)據(jù)庫中的指標(biāo)值是取連續(xù)的數(shù)據(jù),則在關(guān)聯(lián)規(guī)則挖掘之前應(yīng)該進(jìn)行適當(dāng)?shù)臄?shù)據(jù)HYPERLINK /view/3392254.htm離散化(實(shí)際上就是將某個HYPERLINK /view/70334.htm區(qū)間的值對應(yīng)于某個值),數(shù)據(jù)的離散化是數(shù)據(jù)挖掘前的重要環(huán)節(jié),離散化的過程是否合理將直接影響關(guān)聯(lián)規(guī)則的挖掘結(jié)果。提交結(jié)論和執(zhí)行結(jié)果6.2 分類和預(yù)測 6.2聚類分析設(shè)計(jì)內(nèi)容:根據(jù)超市現(xiàn)有數(shù)據(jù),用決策樹、依賴性等分析方法分析出哪些條件對顧客會員卡的辦理起著決

26、定性的影響,哪些產(chǎn)品的銷量最好,哪些產(chǎn)品應(yīng)該擺放在一起提高銷售量,哪些產(chǎn)品應(yīng)該適當(dāng)促銷提高收入。同時還做了會員的丟失率和會員的貢獻(xiàn)度,平均交易間隔時間和次數(shù)等問題的分析, 設(shè)計(jì)思路: 將數(shù)據(jù)導(dǎo)入sqlserver2008中后,可以利用analysis servers對數(shù)據(jù)進(jìn)行操作,進(jìn)行多維數(shù)據(jù)集的創(chuàng)建及維度表等的相關(guān)操作,同時運(yùn)用MDX及sql語言來發(fā)掘數(shù)據(jù)的關(guān)聯(lián),得到相關(guān)問題的答案。工作流程:1.將chaoshi.xlx表格中的數(shù)據(jù)導(dǎo)入sqlserver 2008企業(yè)管理器中的chaoshi數(shù)據(jù)庫中;將chaoshi數(shù)據(jù)源在analysis里面更新;3.創(chuàng)建chaoshi多維數(shù)據(jù)集; 4.我

27、們采用星型結(jié)構(gòu)創(chuàng)建維度,因此要創(chuàng)建事實(shí)表和維度表;創(chuàng)建多維數(shù)據(jù)集成功后進(jìn)行存儲設(shè)計(jì)處理;處理完成之后,在“處理進(jìn)度”和“處理挖掘結(jié)構(gòu) - 順序分析和聚類分析”對話框中,單擊“關(guān)閉”。在,“順序分析和聚類分析”模型已經(jīng)生成,可以使用數(shù)據(jù)挖掘設(shè)計(jì)器的“挖掘模型查看器”選項(xiàng)卡中的 Microsoft 順序分析和聚類分析查看器瀏覽該模型了。Microsoft 順序分析和聚類分析查看器包括五個選項(xiàng)卡:“分類關(guān)系圖”、“分類剖面圖”、“分類特征”、“分類辨別”和“狀態(tài)轉(zhuǎn)換”。 “分類關(guān)系圖”選項(xiàng)卡 “分類關(guān)系圖”選項(xiàng)卡以圖形方式顯示在數(shù)據(jù)庫中發(fā)現(xiàn)的算法的分類。關(guān)系圖中的布局表示分類之間的關(guān)系,其中相似的分

28、類分在一起。默認(rèn)情況下,節(jié)點(diǎn)顏色的明暗度表示分類中所有事例的密度,節(jié)點(diǎn)越暗,包含的事例越多。可以更改節(jié)點(diǎn)明暗度代表的含義,使其表示屬性和狀態(tài)。例如,在“明暗度變量”列表中選擇“模型”,并在“狀態(tài)”列表中選擇“購買商品序號”。“分類剖面圖”選項(xiàng)卡 “分類剖面圖”選項(xiàng)卡顯示每個分類中存在的序列。分類列在“狀態(tài)”列右邊的單個列中。在查看器中,Model.samples 行表示序列數(shù)據(jù),Model 行說明了分類中各項(xiàng)的總體分布。Model.samples 行的每個單元中顏色序列的每個線條表示分類中隨機(jī)選中的用戶的行為。單個序列直方圖中的每個顏色代表一個模型。分類特征”選項(xiàng)卡 “分類特征”選項(xiàng)卡匯總了分

29、類中各狀態(tài)間的轉(zhuǎn)換,其中的各欄說明了所選分類屬性值的重要性。例如,在分類 4 中,其中一個最重要的特征是客戶傾向于先在4月進(jìn)行購物。分類辨別”選項(xiàng)卡 使用“分類辨別”選項(xiàng)卡,可以比較兩個分類,確定模型及其傾向的分類。該選項(xiàng)卡包括四個列:“變量”、“值”、“分類 1”和“分類 2”。如果分類傾向于特定模型,則在“變量”列中相應(yīng)模型行的“分類 1”或“分類 2”列中將出現(xiàn)一個藍(lán)條。藍(lán)條越長,模型越傾向于該分類。例如,在查看器中使用“分類辨別”選項(xiàng)卡,可以通過在“分類 1”中選擇分類 2 以及在“分類 2”中選擇分類 5,來比較分類 2 和分類 5。狀態(tài)轉(zhuǎn)換”選項(xiàng)卡 在“狀態(tài)轉(zhuǎn)換”選項(xiàng)卡上,可以選擇

30、分類并瀏覽其狀態(tài)轉(zhuǎn)換。每個節(jié)點(diǎn)都表示模型的一個狀態(tài)。線條表示狀態(tài)間的轉(zhuǎn)換,每個節(jié)點(diǎn)都基于轉(zhuǎn)換的可能性。背景色表示分類中節(jié)點(diǎn)的頻率。例如,從“分類”中選中“分類 3”,選中 商品ID節(jié)點(diǎn),然后將“所有鏈接”滑塊降低幾格。 6.3 聚類分析設(shè)計(jì)內(nèi)容:根據(jù)超市現(xiàn)有數(shù)據(jù),用決策樹、聚類分析等分析方法分析出哪些條件對顧客購買商品的影響,哪些產(chǎn)品的銷量最好,哪些產(chǎn)品應(yīng)該擺放在一起提高銷售量,哪些產(chǎn)品應(yīng)該適當(dāng)促銷提高收入。平均交易間隔時間和次數(shù)等問題的分析,設(shè)計(jì)思路: 將數(shù)據(jù)導(dǎo)入sqlserver2008中后,可以利用數(shù)據(jù)挖掘教材對數(shù)據(jù)進(jìn)行操作,進(jìn)行數(shù)據(jù)挖掘,數(shù)據(jù)模型設(shè)計(jì)等的相關(guān)操作,同時運(yùn)用它對數(shù)據(jù)的決策

31、樹設(shè)計(jì),聚類分析等分析數(shù)據(jù)間的關(guān)系。工作流程:1.將超市execel表格中的數(shù)據(jù)導(dǎo)入sqlserver 2008企業(yè)管理器中的sqlserver 2008數(shù)據(jù)庫中;2.將超市數(shù)據(jù)源在analysis里面更新;3.創(chuàng)建超市數(shù)據(jù)的挖掘模型。 4.首先是對兩個表銷售流水表和品牌表進(jìn)行模型設(shè)計(jì)。 5.創(chuàng)建多維數(shù)據(jù)集成功后進(jìn)行存儲設(shè)計(jì)處理; 6.瀏覽創(chuàng)建好的數(shù)據(jù)挖掘模型的下鉆; 7.創(chuàng)建決策樹、聚類分析的數(shù)據(jù)挖掘模型,分析超市如何運(yùn)用OLAP和依賴性分析來了解顧客購買習(xí)慣和商品之間的關(guān)聯(lián),正確的擺放商品位置以及如何運(yùn)用促銷手段對商品進(jìn)行銷售。1.銷售流水表(聚類分析)分類關(guān)系圖 從圖中可以看出只有分類5

32、和分類8只有最強(qiáng)的關(guān)聯(lián)性,無論兩個的關(guān)系如何變化,只要有5商品則必然有8商品,所有鏈接的關(guān)系越大,則他們的關(guān)系越復(fù)雜。各個商品的關(guān)系也越來越明確。分類剖面圖從分類剖面圖可以看出各個商品在總的商品中所占的比例,為我們分析數(shù)據(jù)提供一定的方便。分類特征該表展示了所有商品的屬性在所有類型中所占的比例,從而分析各個屬性的影響因素。分類對比6.4決策樹決策樹關(guān)系圖依賴關(guān)系網(wǎng)絡(luò)表示了商品id和購買數(shù)量的絕對的關(guān)系,及無論怎樣這兩個都從在一定的 關(guān)系。2.品牌表(聚類分析)分類關(guān)系圖分類剖面圖從圖中可以看出只有分類和分類3只有最強(qiáng)的關(guān)聯(lián)性,無論兩個的關(guān)系如何變化,只要有2商品則必然有3商品,所有鏈接的關(guān)系越大

33、,則他們的關(guān)系越復(fù)雜。各個商品的關(guān)系也越來越明確。分類特征從分類剖面圖可以看出各個品牌在總的商品中所占的比例,為我們分析數(shù)據(jù)提供一定的分類特征方便分類對比(2)(2)決策樹決策樹關(guān)系圖6.5 順序分析和聚類分析挖掘1.需求分析 分類和預(yù)測 是兩種數(shù)據(jù)分析形式,可以用于提取描述重要數(shù)據(jù)類的模型或預(yù)測未來的數(shù)據(jù)趨勢。然而,分類是預(yù)測分類標(biāo)號(或離散值),而預(yù)測建立連續(xù)值函數(shù)模型。2.概要設(shè)計(jì)相關(guān)性分析:數(shù)據(jù)中許多屬性可能與分類和預(yù)測任務(wù)不相關(guān)。此外,其它屬性可能是冗余的。因此,可以進(jìn)行相關(guān)分析,刪除學(xué)習(xí)過程中不相關(guān)或冗余屬性。理想地,用在相關(guān)分析上的時間,加上從“壓縮的”結(jié)果子集上學(xué)習(xí)的時間,應(yīng)當(dāng)

34、少于由原來的數(shù)據(jù)集合上學(xué)習(xí)所花的時間。因此,這種分析可以幫助提高分類的有效性和可規(guī)模性。預(yù)測的準(zhǔn)確率:這涉及模型正確地預(yù)測新的或先前未見過的數(shù)據(jù)的類標(biāo)號的能力。速度:這涉及產(chǎn)生和使用模型的計(jì)算花費(fèi)。強(qiáng)壯性:這涉及給定噪音數(shù)據(jù)或具有遺漏值的數(shù)據(jù),模型正確預(yù)測的能力??梢?guī)模性:這涉及給定大量數(shù)據(jù),有效地構(gòu)造模型的能力。可解釋性:這涉及學(xué)習(xí)模型提供的理解和洞察的層次。3.詳細(xì)設(shè)計(jì)數(shù)據(jù)分類是一個兩步過程。第一步,建立一個模型,描述預(yù)定的數(shù)據(jù)類或概念集。通過分析由屬性描述的數(shù)據(jù)庫元組來構(gòu)造模型。第二步使用模型進(jìn)行分類。首先評估模型(分類法)的預(yù)測準(zhǔn)確率,主要步驟:在 Business Intellige

35、nce Development Studio 的解決方案資源管理器中,右鍵單擊“挖掘結(jié)構(gòu)”,再選擇“新建挖掘結(jié)構(gòu)”。系統(tǒng)將打開數(shù)據(jù)挖掘向?qū)?。在“歡迎使用數(shù)據(jù)挖掘向?qū)А表撋?,單擊“下一步”。在“選擇定義方法”頁中,選擇“從現(xiàn)有關(guān)系數(shù)據(jù)庫或數(shù)據(jù)倉庫”,再單擊“下一步”。 4.在“選擇數(shù)據(jù)挖掘技術(shù)”頁的“您要使用何種數(shù)據(jù)挖掘技術(shù)?”下,選擇“Mi crosoft 順序分析和聚類分析”,再單擊“下一步”。 “選擇數(shù)據(jù)源視圖”頁隨即顯示。默認(rèn)情況下,“可用數(shù)據(jù)源視圖”下的 chaoshi為選中狀態(tài)。5在“指定表類型”頁上,選中 “商品分類表” 旁的“事例”復(fù)選框,選中“品牌表”表旁的“嵌套”復(fù)選框。單擊

36、“下一步”。6.在“指定定型數(shù)據(jù)”頁上,通過按如下所示復(fù)選框如下圖7.在“指定列的內(nèi)容和數(shù)據(jù)類型”頁上,驗(yàn)證已經(jīng)按如下所示為每個列設(shè)置了單擊下一步8.在“完成向?qū)А表摰摹巴诰蚪Y(jié)構(gòu)名稱”中,9.在“挖掘模型名稱”中,單擊“完成”。 此時將打開數(shù)據(jù)挖掘設(shè)計(jì)器,顯示剛創(chuàng)建的商品信息表 挖掘結(jié)構(gòu)。處理挖掘模型:在 Business Intelligence Development Studio 的“挖掘模型”菜單上,選擇“處理挖掘結(jié)構(gòu)和所有模型”。此時將打開“處理挖掘結(jié)構(gòu) - 順序分析和聚類分析”對話框。單擊“運(yùn)行”。系統(tǒng)將打開“處理進(jìn)度”對話框,以顯示有關(guān)模型處理的信息。模型處理可能需要一些時間,具

37、體取決于您的計(jì)算機(jī)。處理完成之后,在“處理進(jìn)度”和“處理挖掘結(jié)構(gòu) - 順序分析和聚類分析”對話框中,單擊“關(guān)閉”。瀏覽順序分析和聚類分析模型現(xiàn)在,“順序分析和聚類分析”模型已經(jīng)生成,可以使用數(shù)據(jù)挖掘設(shè)計(jì)器的“挖掘模型查看器”選項(xiàng)卡中的 Microsoft 順序分析和聚類分析查看器瀏覽該模型了。Microsoft 順序分析和聚類分析查看器包括五個選項(xiàng)卡:“分類關(guān)系圖”、“分類剖面圖”、“分類特征”、“分類辨別”和“狀態(tài)轉(zhuǎn)換”?!胺诸愱P(guān)系圖”選項(xiàng)卡 “分類關(guān)系圖”選項(xiàng)卡以圖形方式顯示在數(shù)據(jù)庫中發(fā)現(xiàn)的算法的分類。關(guān)系圖中的布局表示分類之間的關(guān)系,其中相似的分類分在一起。默認(rèn)情況下,節(jié)點(diǎn)顏色的明暗度表

38、示分類中所有事例的密度,節(jié)點(diǎn)越暗,包含的事例越多??梢愿墓?jié)點(diǎn)明暗度代表的含義,使其表示屬性和狀態(tài)?!?。分類關(guān)系圖顯示分類,明暗變量選購買數(shù)量,狀態(tài)選平均值,顯示如圖?!胺诸惼拭鎴D”選項(xiàng)卡 “分類剖面圖”選項(xiàng)卡顯示每個分類中存在的序列。分類列在“狀態(tài)”列右邊的單個列中。行的每個單元中顏色序列的每個線條表示分類中隨機(jī)選中的用戶的行為。單個序列直方圖中的每個顏色代表一個產(chǎn)品模型?!胺诸愄卣鳌边x項(xiàng)卡 “分類特征”選項(xiàng)卡匯總了分類中各狀態(tài)間的轉(zhuǎn)換,其中的各欄說明了所選分類屬性值的重要性。“分類對比”選項(xiàng)卡 使用“分類辨別”選項(xiàng)卡,可以比較兩個分類,確定模型及其傾向的分類。該選項(xiàng)卡包括四個列:“變量”、

39、“值”、“分類 1”和“分類 2”。如果分類傾向于特定模型,則在“變量”列中相應(yīng)模型行的“分類 1”或“分類 2”列中將出現(xiàn)一個藍(lán)條。藍(lán)條越長,模型越傾向于該分類?!盃顟B(tài)轉(zhuǎn)換”選項(xiàng)卡 在“狀態(tài)轉(zhuǎn)換”選項(xiàng)卡上,可以選擇分類并瀏覽其狀態(tài)轉(zhuǎn)換。每個節(jié)點(diǎn)都表示模型的一個狀態(tài)。線條表示狀態(tài)間的轉(zhuǎn)換,每個節(jié)點(diǎn)都基于轉(zhuǎn)換的可能性。背景色表示分類中節(jié)點(diǎn)的頻率。4.總結(jié):分類和預(yù)測據(jù)庫內(nèi)容豐富,蘊(yùn)藏大量信息,可以用來作出智能的商務(wù)決策。分類和預(yù)測是兩種數(shù)據(jù)分析形式,可以用于提取描述重要數(shù)據(jù)類的模型或預(yù)測未來的數(shù)據(jù)趨勢。然而,分類是預(yù)測分類標(biāo)號(或離散值),而預(yù)測建立連續(xù)值函數(shù)模型。數(shù)據(jù)分類是一個兩步過程。第一步

40、,建立一個模型,描述預(yù)定的數(shù)據(jù)類或概念集。通過分析由屬性描述的數(shù)據(jù)庫元組來構(gòu)造模型。或?qū)ο?。為建立模型而被分析的?shù)據(jù)元組形成訓(xùn)練數(shù)據(jù)集。訓(xùn)練數(shù)據(jù)集中的單個元組稱作訓(xùn)練樣本,并隨機(jī)地由樣本群選取。第二步使用模型進(jìn)行分類。首先評估模型(分類法)的預(yù)測準(zhǔn)確率評估分類準(zhǔn)確率的多種方法。從而對于超市的商品的購買時期和購買數(shù)量的如何決定,才可以使銷售量最大,不積壓商品,不缺貨,對不同時期季節(jié)和不同人群制定不同方案,使企業(yè)收益最大,通過數(shù)據(jù)挖掘?qū)?shù)據(jù)進(jìn)行決策樹分析,關(guān)聯(lián)分析,順序分析與決策分析等可以制定出最佳方案。6.6決策樹的建立 二、目標(biāo)郵遞分析1.需求分析以視圖方式建立數(shù)據(jù)模型可簡化聯(lián)機(jī)業(yè)務(wù)分析,提高

41、查詢性能。通過創(chuàng)建數(shù)據(jù)源視圖,Analysis Manager 可將存儲在關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)轉(zhuǎn)換為具有實(shí)際含義并且易于查詢的業(yè)務(wù)信息。2. 概要設(shè)計(jì)(1) 利用給定的數(shù)據(jù)庫,新建一個數(shù)據(jù)挖掘項(xiàng)目;(2) 依次建立數(shù)據(jù)源,數(shù)據(jù)源視圖,維度,多維度數(shù)據(jù)集,挖掘機(jī)構(gòu);(3) 選擇不同的算法對挖掘的結(jié)果進(jìn)行分析,預(yù)測.(4) 根據(jù)以上分析,提出可以執(zhí)行的決策3.詳細(xì)設(shè)計(jì)在analysis manager 的解決資源方案管理器中右擊“挖掘結(jié)構(gòu)”,在列表中選擇“新建挖掘結(jié)構(gòu)”;在使用數(shù)據(jù)挖掘頁面,單擊“下一步”;在“選擇定義方法”頁面,“使用何種方法定義挖掘結(jié)構(gòu)?”框中選擇“從現(xiàn)有關(guān)系數(shù)據(jù)庫或數(shù)據(jù)倉庫”,

42、單擊“下一步”;在“創(chuàng)建數(shù)據(jù)挖掘結(jié)構(gòu)”頁面,“你要使用何種數(shù)據(jù)挖掘技術(shù)”的下拉列表中選中“Microsoft決策樹”,單擊“下一步”;在“選擇數(shù)據(jù)源視圖”頁面確?!翱捎脭?shù)據(jù)源視圖”框中選中“超市數(shù)據(jù)”,單擊“下一步”;在“指定表類型”頁面,“輸入表”框:“事例”選擇“銷售流水表1019”,單擊“下一步”;在“指定數(shù)據(jù)類型”頁面,“挖掘模型結(jié)構(gòu)”框中,“鍵”選擇“流水號”,“輸入”選擇“購買商品序號、商品ID”,“可預(yù)測”選擇“購買數(shù)量、總額,單擊下一步:在“指定列的內(nèi)容和數(shù)據(jù)類型”頁面,單擊“檢測”,單擊“下一步”;在“創(chuàng)建測試集”頁面,單擊“下一步”;在“完成向?qū)А表撁?,設(shè)置“挖掘結(jié)構(gòu)名稱、

43、挖掘模型名稱”,“挖掘結(jié)構(gòu)名稱”后選擇“允許鉆取”,單擊“完成”;挖掘結(jié)構(gòu)挖掘模型:購買數(shù)量決策樹:購買數(shù)量的依賴關(guān)系圖:總結(jié): HYPERLINK /view/2770427.htm t _blank 決策樹分析法是常用的風(fēng)險(xiǎn)分析決策方法。該方法是一種用樹形圖來描述各方案在未來收益的計(jì)算。比較以及選擇的方法,其決策是以期望值為標(biāo)準(zhǔn)的。人們對未來可能會遇到好幾種不同的情況。每種情況均有出現(xiàn)的可能,人們目前無法確知,但是可以根據(jù)以前的資料來推斷各種自然狀態(tài)出現(xiàn)的概率。在這樣的條件下,人們計(jì)算的各種方案在未來的經(jīng)濟(jì)效果只能是考慮到各種自然狀態(tài)出現(xiàn)的概率的期望值,與未來的實(shí)際收益不會完全相等。6.7

44、決策樹實(shí)驗(yàn)分析:1. 實(shí)驗(yàn)?zāi)繕?biāo)使用SSAS進(jìn)行決策樹模型挖掘?qū)嶒?yàn)。2. 實(shí)驗(yàn)要求(1)按“實(shí)驗(yàn)內(nèi)容”完成操作,并記錄實(shí)驗(yàn)步驟;(2)回答“問題討論”中的思考題,并寫出本次實(shí)驗(yàn)的心得體會;(3)完成實(shí)驗(yàn)報(bào)告。3.實(shí)驗(yàn)內(nèi)容利用tomcat的表中銷售流水表分析顧客購買商品的特征分布4.實(shí)驗(yàn)步驟 (1)進(jìn)入項(xiàng)目的新增挖掘結(jié)構(gòu),使用數(shù)據(jù)挖掘向?qū)斫ⅲM(jìn)入“數(shù)據(jù)挖掘向?qū)А焙簏c(diǎn)擊“下一步”按鈕;(2)從現(xiàn)在的關(guān)系型數(shù)據(jù)庫或數(shù)據(jù)倉庫中讀取數(shù)據(jù),即為默認(rèn)值,故直接在這個頁面點(diǎn)擊“下一步”按鈕;(3)到選擇挖掘技術(shù)部分選擇“Microsoft決策樹”后,點(diǎn)擊“下一步”按鈕;(4)選取“tomcat”數(shù)據(jù)庫后,點(diǎn)

45、擊“下一步”按鈕;(5)選取“銷售流水表”表后,點(diǎn)擊“下一步”按鈕;(6)選擇所需輸入的變量與預(yù)測變量,以及索引鍵以商品ID為索引鍵,銷售總額為預(yù)測變量,并按下建議鍵以了解預(yù)測變量與其他變量之間的相關(guān)性,可找出較具影響力的輸入變量,之后點(diǎn)擊“完成”按鈕,這時回到原來的頁面,點(diǎn)擊“下一步”按鈕(7)此時程序會提出一些變量的相關(guān)系數(shù),用戶可自行選擇輸入與否;(8)顯示正確的數(shù)據(jù)屬性,此時修正了一個變量的數(shù)據(jù)屬性,完成后點(diǎn)擊“下一步”按鈕;(9)更改挖掘結(jié)婚夠的名稱,點(diǎn)擊“完成”按鈕;(10)選擇上方的挖掘模型查看器,程序問是否建立部署項(xiàng)目,選擇“是”;(11)接下來點(diǎn)擊“運(yùn)行”按鈕;(12)執(zhí)行完

46、以后點(diǎn)擊“關(guān)閉”;(13)建模完成。生成數(shù)據(jù)挖掘結(jié)構(gòu)接口包含挖掘結(jié)構(gòu),挖掘模型,挖掘模型查看器,挖掘準(zhǔn)確性圖表以及挖掘模型預(yù)測;其中在挖掘模型結(jié)構(gòu)中,主要是呈現(xiàn)數(shù)據(jù)間的關(guān)聯(lián)性以及分析的變量;(14)根據(jù)上面設(shè)置的參數(shù),在挖掘模型查看器則呈現(xiàn)此樹形結(jié)構(gòu);(16)對數(shù)據(jù)的分布進(jìn)一步加以了了解,從“依賴關(guān)系網(wǎng)絡(luò)”可以了解因變量與自變量間的關(guān)聯(lián)性強(qiáng)弱程度。6.8聚類分析實(shí)驗(yàn)分析:1. 實(shí)驗(yàn)?zāi)繕?biāo)使用聚類分析模型挖掘?qū)嶒?yàn)。2. 實(shí)驗(yàn)要求(1)按“實(shí)驗(yàn)內(nèi)容”完成操作,并記錄實(shí)驗(yàn)步驟;(2)回答“問題討論”中的思考題,并寫出本次實(shí)驗(yàn)的心得體會;(3)完成實(shí)驗(yàn)報(bào)告。3.實(shí)驗(yàn)內(nèi)容利用tomcat的表中銷售流水表分

47、析顧客購買商品的特征分布4.實(shí)驗(yàn)步驟 (1)進(jìn)入項(xiàng)目的新增挖掘結(jié)構(gòu),使用數(shù)據(jù)挖掘向?qū)斫?,進(jìn)入“數(shù)據(jù)挖掘向?qū)А焙簏c(diǎn)擊“下一步”按鈕;(2)從現(xiàn)在的關(guān)系型數(shù)據(jù)庫或數(shù)據(jù)倉庫中讀取數(shù)據(jù),即為默認(rèn)值,故直接在這個頁面點(diǎn)擊“下一步”按鈕;(3)到選擇挖掘技術(shù)部分選擇“Microsoft聚類分析”后,點(diǎn)擊“下一步”按鈕;(4)選取“tomcat”數(shù)據(jù)庫后,點(diǎn)擊“下一步”按鈕;(5)選取“銷售流水表”表后,點(diǎn)擊“下一步”按鈕;(6)選擇所需輸入的變量與預(yù)測變量,以及索引鍵以商品ID為索引鍵,銷售總額為預(yù)測變量,并按下建議鍵以了解預(yù)測變量與其他變量之間的相關(guān)性,可找出較具影響力的輸入變量,之后點(diǎn)擊“完成”按

48、鈕,這時回到原來的頁面,點(diǎn)擊“下一步”按鈕(7)此時程序會提出一些變量的相關(guān)系數(shù),用戶可自行選擇輸入與否;(8)顯示正確的數(shù)據(jù)屬性,此時修正了一個變量的數(shù)據(jù)屬性,完成后點(diǎn)擊“下一步”按鈕;更改挖掘結(jié)婚夠的名稱,點(diǎn)擊“完成”按鈕;(10)選擇上方的挖掘模型查看器,程序問是否建立部署項(xiàng)目,選擇“是”;(11)接下來點(diǎn)擊“運(yùn)行”按鈕;(12)執(zhí)行完以后點(diǎn)擊“關(guān)閉”;(13)建模完成。生成數(shù)據(jù)挖掘結(jié)構(gòu)接口包含挖掘結(jié)構(gòu),挖掘模型,挖掘模型查看器,挖掘準(zhǔn)確性圖表以及挖掘模型預(yù)測;其中在挖掘模型結(jié)構(gòu)中,主要是呈現(xiàn)數(shù)據(jù)間的關(guān)聯(lián)性以實(shí)驗(yàn)心得: 在本次實(shí)驗(yàn)中,從新建工作流一直到獲得最終結(jié)果,整個流程讓我對數(shù)據(jù)挖掘

49、中數(shù)據(jù)分析處理的基本方法有了深入的了解,特別是決策樹模型應(yīng)用的理解,同時,也學(xué)會了如何使用決策樹通過建模和直觀化顯示發(fā)現(xiàn)數(shù)據(jù)庫中的關(guān)系(即鏈接)以及利用這些鏈接與數(shù)據(jù)中的案例組相對應(yīng)關(guān)系可以通過建模可詳細(xì)研究這些組并描繪其特征,增強(qiáng)了運(yùn)用決策樹模型和聚類分析模型的能力。 通過這次學(xué)習(xí)讓我意識到,對于數(shù)據(jù)我們不僅要能利用統(tǒng)計(jì)來分析它的規(guī)律,也要能會通過數(shù)據(jù)挖掘軟件來挖掘數(shù)據(jù)當(dāng)中的潛在信息,并且利用數(shù)據(jù)挖掘所得到的有利信息更好的服務(wù)于數(shù)據(jù)使用者。7.大總結(jié) :堅(jiān)持好一段時間,終于把完成了任務(wù),通過這幾次實(shí)驗(yàn)報(bào)告的實(shí)踐操作,我收獲很大,不但學(xué)習(xí)相關(guān)數(shù)據(jù)挖掘的知識,關(guān)于Microsoft Visual

50、 Studio2008了解更多,操作也比原來熟練多了。雖然過程中有點(diǎn)折磨過,但當(dāng)你克服了,耐心去一步一步操作,那些煩躁的心情就會慢慢消失,還得要有耐心,認(rèn)真的態(tài)度去操作,才能有結(jié)果。關(guān)聯(lián)分析是一個很有用的數(shù)據(jù)挖掘模型,能夠幫助企業(yè)做很多很有用的產(chǎn)品組合推薦、優(yōu)惠促銷組合,同時也能指導(dǎo)貨架擺放是否合理,還能夠找到更多的潛在客戶,的確真正的把數(shù)據(jù)挖掘落到實(shí)處。關(guān)聯(lián)分析具體能用來做什么呢?可以一句話來概括:最大限度地從你口袋里面掏出更多的錢買我的產(chǎn)品。 1.通過關(guān)聯(lián)規(guī)則,推出相應(yīng)的促銷禮包或優(yōu)惠組合套裝,快速幫助提高銷售額。如自行車針對不同人群,來制定有效的銷售方案。2.零售超市或商場,可以通過產(chǎn)品

51、關(guān)聯(lián)程度大小,指導(dǎo)產(chǎn)品合理擺放,方便顧客最購買更多其所需要的產(chǎn)品。最常見的就是超市里面購買肉和購買蔬菜水果等貨架會擺放得很近,目前就是很多人會同時購買肉與蔬菜,產(chǎn)品的合理擺放也是提高銷售的一個關(guān)鍵。 3.進(jìn)行相關(guān)產(chǎn)品推薦或者挑選相應(yīng)的關(guān)聯(lián)產(chǎn)品進(jìn)行精準(zhǔn)營銷。最常見的是你在亞馬遜或京東購買產(chǎn)品的時候,旁邊會出現(xiàn)購買該商品的人,有百分之多少還會購買如下的產(chǎn)品,快速幫助顧客找到其共同愛好的產(chǎn)品。物以類聚,人以群分。例如,窮人一般和窮人在一起,富人也喜歡和富人在一起。還有數(shù)據(jù)挖掘的人喜歡和數(shù)據(jù)挖掘的人打交道,都離不開這些鳥道理。 4.尋找更多潛在的目標(biāo)客戶。例如:100人里面,購買A的有60人,購買B的

52、有40人,同時購買A和B的有30人,說明A里面有一半的顧客會購買B,反推而言。如果推出類似B的產(chǎn)品,除了向產(chǎn)品B的用戶推薦(因?yàn)樾庐a(chǎn)品與B的功能效果比較類似)之外,還可以向A的客戶進(jìn)行推薦,這樣就能最大限度地尋找更多的目標(biāo)客戶。決策樹分析法是常用的風(fēng)險(xiǎn)分析決策方法。該方法是一種用樹形圖來描述各方案在未來收益的計(jì)算。比較以及選擇的方法,其決策是以期望值為標(biāo)準(zhǔn)的。人們對未來可能會遇到好幾種不同的情況。每種情況均有出現(xiàn)的可能,人們目前無法確知,但是可以根據(jù)以前的資料來推斷各種自然狀態(tài)出現(xiàn)的概率。在這樣的條件下,人們計(jì)算的各種方案在未來的經(jīng)濟(jì)效果只能是考慮到各種自然狀態(tài)出現(xiàn)的概率的期望值,與未來的實(shí)際

53、收益不會完全相等。決策樹法是管理人員和決策分析人員經(jīng)常采用的一種行之有效的決策工具。它具有下列優(yōu)點(diǎn):1.決策樹列出了決策問題的全部可行方案和可能出現(xiàn)的各種自然狀態(tài),以及各可行方法在各種不同狀態(tài)下的期望值。2.能直觀地顯示整個決策問題在時間和決策順序上不同階段的決策過程。3.在應(yīng)用于復(fù)雜的多階段決策時,階段明顯,層次清楚,便于決策機(jī)構(gòu)集體研究,可以周密地思考各種因素,有利于作出正確的決策。當(dāng)然,決策樹法也不是十全十美的,它也有缺點(diǎn),如使用范圍有限,無法適用于一些不能用數(shù)量表示的決策;對各種方案的出現(xiàn)概率的確定有時主觀性較大,可能導(dǎo)致決策失誤;等等預(yù)測分析法是根據(jù)客觀對象的已知信息而對事物在將來的

54、某些特征、發(fā)展?fàn)顩r的一種估計(jì)、測算活動。運(yùn)用各種定性和定量的分析理論與方法,對事物未來發(fā)展的趨勢和水平進(jìn)行判斷和推測的一種活動。預(yù)測的實(shí)質(zhì) HYPERLINK /link?url=wtStZHBkRYzU3Lj7Z1ertp3oH9K_ojiEexexJ-WEgUiYnOiT78qO43Mor1ESHw53 o 編輯本段 是根據(jù)事物的過去和現(xiàn)在估計(jì)未來,根據(jù)已知預(yù)測未知,從而減少對未來事物認(rèn)識的不確定性,以指導(dǎo)我們的決策行動,減少決策的盲目性。預(yù)測學(xué)的出現(xiàn)不是孤立的、它是在人類社會生產(chǎn)力和科學(xué)技術(shù)日益發(fā)達(dá)的基礎(chǔ)上應(yīng)運(yùn)而生的,它與其它的學(xué)科諸如經(jīng)濟(jì)學(xué)、數(shù)學(xué)、系統(tǒng)工程學(xué)、統(tǒng)計(jì)學(xué)、電子計(jì)算機(jī)技術(shù)等都

55、有密切的關(guān)系。總而言之,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘這門課程很有學(xué)習(xí)的意思,以后的用處很大,隨著市場競爭的越來越激烈,商業(yè)環(huán)境中的信息越來越密集,企業(yè)必須能夠深入靈活利用積累的大量數(shù)據(jù)挖掘潛在的規(guī)律,提高決策質(zhì)量,把握和發(fā)現(xiàn)市場機(jī)遇,提升企業(yè)的競爭力。 8.任務(wù)分配XXX大學(xué)課程設(shè)計(jì)(論文)開題報(bào)告題 目數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程設(shè)計(jì)報(bào)告指導(dǎo)教 師 XX專業(yè) XXX日 期 XXX工作安排:1.XX 關(guān)聯(lián)規(guī)則挖掘模型 聚類分析模型2.XX 聚類分析模型 決策分析模型 3.XX 順序分析與聚類分析模型 目標(biāo)郵遞方案4.XX 決策樹分析模型 聚類分析分析模型 二、主要研究(設(shè)計(jì))內(nèi)容、研究(設(shè)計(jì))思路及工作方法或

56、工作流程設(shè)計(jì)內(nèi)容:根據(jù)chaoshi 現(xiàn)有數(shù)據(jù),用決策樹、聚類分析,關(guān)聯(lián)分析,順序分析與聚類分析,依賴性等分析方法分析出哪些條件對超市的收益起著決定性的影響,哪些產(chǎn)品的銷量最好,哪些產(chǎn)品應(yīng)該擺放在一起提高銷售量,哪些產(chǎn)品應(yīng)該適當(dāng)促銷提高收入,哪些商品最佳補(bǔ)貨期是多少,哪些商品對于不同的顧客比較喜愛。設(shè)計(jì)思路: 將數(shù)據(jù)chaoshi導(dǎo)入sqlserver2008中后,可以利用analysis servers對數(shù)據(jù)進(jìn)行操作,進(jìn)行多維數(shù)據(jù)集的創(chuàng)建,維度表及數(shù)據(jù)挖掘結(jié)構(gòu)等的相關(guān)操作,通過挖掘查看器,挖掘準(zhǔn)確性圖表,挖掘模型預(yù)測,得到相關(guān)問題的答案。工作流程:1.將chaoshi數(shù)據(jù)導(dǎo)入sqlserve

57、r 2008企業(yè)管理器中的chaoshi數(shù)據(jù)庫中;2.將chaoshi數(shù)據(jù)源在analysis里面更新;3.創(chuàng)建chaoshi的數(shù)據(jù)源和數(shù)據(jù)源視圖及多維數(shù)據(jù)集; 4.創(chuàng)建維度,因此要創(chuàng)建事實(shí)表和維度表; 5.創(chuàng)建多維數(shù)據(jù)集成功后進(jìn)行存儲設(shè)計(jì)處理; 6.瀏覽創(chuàng)建好的多維數(shù)據(jù)集的數(shù)據(jù),可以進(jìn)行上卷、下鉆、旋轉(zhuǎn); 7.創(chuàng)建決策樹、關(guān)聯(lián)挖掘模型,聚類分析模型等數(shù)據(jù)挖掘模型,分析超市如何運(yùn)用OLAP和依賴性分析來了解顧客購買習(xí)慣和商品之間的關(guān)聯(lián),正確的擺放商品位置以及如何運(yùn)用促銷手段對商品進(jìn)行銷售,顧客辦理會員卡主要是受什么影響,哪些商品的訂購比較頻繁,哪些商品最佳補(bǔ)貨期是多少,哪些商品對于不同的顧客比

58、較喜愛,從而制定出最有效的決策方案。附錄資料:不需要的可以自行刪除如何構(gòu)建銀行數(shù)據(jù)倉庫數(shù)據(jù)倉庫技術(shù)作為一項(xiàng)數(shù)據(jù)管理領(lǐng)域的新技術(shù),其精髓在于針對聯(lián)機(jī)分析處理(OLAP)提出了一種綜合的解決方案,與以往很多技術(shù)不同的是,它主要是一種概念,在此概念指導(dǎo)下完成系統(tǒng)的構(gòu)造。既沒有可以直接購買到的現(xiàn)成產(chǎn)品,也沒有具體的分析規(guī)范和實(shí)現(xiàn)方法,也就是說沒有成熟、可靠且被廣泛接受的數(shù)據(jù)倉庫標(biāo)準(zhǔn)。在以往關(guān)系數(shù)據(jù)庫的設(shè)計(jì)和實(shí)現(xiàn)中,不僅有詳細(xì)的理論推導(dǎo),還有無數(shù)的設(shè)計(jì)實(shí)例,無論你使用的是什么公司的數(shù)據(jù)庫產(chǎn)品、開發(fā)工具,只要按照規(guī)范做,那么實(shí)現(xiàn)同一業(yè)務(wù)需求的方案都會很相似。而現(xiàn)有數(shù)據(jù)倉庫的實(shí)現(xiàn)中,出現(xiàn)了MOLAP方案和R

59、OLAP方案的區(qū)別,出現(xiàn)了形形色色的數(shù)據(jù)倉庫建模工具、表現(xiàn)工具,而設(shè)計(jì)人員的個人經(jīng)驗(yàn)和素質(zhì)也會在其中扮演很重要的角色。 數(shù)據(jù)倉庫技術(shù)的實(shí)現(xiàn)方式 目前在數(shù)據(jù)倉庫技術(shù)的實(shí)際應(yīng)用中主要包括如下幾種具體實(shí)現(xiàn)方式。 1、在關(guān)系數(shù)據(jù)庫上建立數(shù)據(jù)倉庫(ROLAP) 2、在多維數(shù)據(jù)庫上建立數(shù)據(jù)倉庫(MOLAP) MOLAP方案是以多維方式來組織數(shù)據(jù),以多維方式來存儲數(shù)據(jù);ROLAP方案則以二維關(guān)系表為核心表達(dá)多維概念,通過將多維結(jié)構(gòu)劃分為兩類表:維表和事實(shí)表,使關(guān)系型結(jié)構(gòu)能較好地適應(yīng)多維數(shù)據(jù)的表示和存儲。在多維數(shù)據(jù)模型的表達(dá)方面,多維矩陣比關(guān)系表更清晰且占用的存儲更少,而通過關(guān)系表間的連接來查詢數(shù)據(jù)的ROLA

60、P系統(tǒng),系統(tǒng)性能成為最大問題。MOLAP方案比ROLAP方案要簡明,索引及數(shù)據(jù)聚合可以自動進(jìn)行并自動管理,但同時喪失了一定的靈活性。ROLAP方案的實(shí)現(xiàn)較為復(fù)雜,但靈活性較好,用戶可以動態(tài)定義統(tǒng)計(jì)和計(jì)算方式,另外能保護(hù)在已有關(guān)系數(shù)據(jù)庫上的投資。 由于兩種方案各有優(yōu)劣,因此在實(shí)際應(yīng)用中,往往將MOLAP和ROLAP結(jié)合使用,即所謂的混合模型。利用關(guān)系數(shù)據(jù)庫存儲歷史數(shù)據(jù)、細(xì)節(jié)數(shù)據(jù)或非數(shù)值型數(shù)據(jù),發(fā)揮關(guān)系數(shù)據(jù)庫技術(shù)成熟的優(yōu)勢,減少花費(fèi),而在多維數(shù)據(jù)庫中存儲當(dāng)前數(shù)據(jù)和常用統(tǒng)計(jì)數(shù)據(jù),以提高操作性能。 3、在原有關(guān)系庫上建立邏輯上的數(shù)據(jù)倉庫 由于目前正在運(yùn)行的OLTP系統(tǒng)中已經(jīng)積累了海量數(shù)據(jù),如何從中提取

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論