大數(shù)據(jù)與數(shù)據(jù)挖掘之?dāng)?shù)據(jù)倉庫_第1頁
大數(shù)據(jù)與數(shù)據(jù)挖掘之?dāng)?shù)據(jù)倉庫_第2頁
大數(shù)據(jù)與數(shù)據(jù)挖掘之?dāng)?shù)據(jù)倉庫_第3頁
大數(shù)據(jù)與數(shù)據(jù)挖掘之?dāng)?shù)據(jù)倉庫_第4頁
大數(shù)據(jù)與數(shù)據(jù)挖掘之?dāng)?shù)據(jù)倉庫_第5頁
已閱讀5頁,還剩42頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)與數(shù)據(jù)挖掘之?dāng)?shù)據(jù)倉庫大數(shù)據(jù)與數(shù)據(jù)挖掘-數(shù)據(jù)倉庫大數(shù)據(jù)分析一、決策支持系統(tǒng)大數(shù)據(jù)分析二、商務(wù)智能

人們對商務(wù)智能的理解如同那七個印度盲人對大象的理解:有人認(rèn)為它是高級管理人員信息系統(tǒng)(EIS),有人認(rèn)為它是管理信息系統(tǒng)(MIS),有人認(rèn)為它是決策支持系統(tǒng)(DSS);有人說它是數(shù)據(jù)庫技術(shù),有人說它是數(shù)據(jù)倉庫,有人說它是數(shù)據(jù)集市,有人說它是數(shù)據(jù)整合與清洗工具,有人說它是查詢和報告工具,有人說它是在線分析處理工具,有人說它是數(shù)據(jù)挖掘,有人說它是統(tǒng)計分析;有人把它當(dāng)做分析性ERP,有人把它當(dāng)做分析性CRM,有人把它當(dāng)做分析性SCM,有人把它當(dāng)做企業(yè)績效管理,有人把它當(dāng)作平衡記分卡……

商業(yè)智能技術(shù),它以數(shù)據(jù)倉庫(DataWarehousing)、在線分析處理(OLAP)、數(shù)據(jù)挖掘(DataMining)3種技術(shù)的整合為基礎(chǔ),建立企業(yè)數(shù)據(jù)中心和業(yè)務(wù)分析模型,以提高企業(yè)獲取經(jīng)營分析信息的能力,從而提高企業(yè)經(jīng)營和決策的質(zhì)量與速度。

大數(shù)據(jù)分析三、商務(wù)智能組成1、關(guān)系型數(shù)據(jù)庫2、數(shù)據(jù)倉庫

(數(shù)據(jù)系統(tǒng)整合,收集,清洗)3、多維分析

(不同維度之間的剖析,自定義)4、數(shù)據(jù)挖掘(靈魂,產(chǎn)生價值的地方)5、展示(可視化界面)在線分析處理技術(shù)(OLAP:OnlineAnalyticalProcessing)數(shù)據(jù)挖掘技術(shù)(DataMining)數(shù)據(jù)倉庫技術(shù)(DataWarehousing)數(shù)據(jù)整合集成各系統(tǒng)的歷史數(shù)據(jù),建立面向主題的企業(yè)數(shù)據(jù)中心數(shù)據(jù)分析靈活、動態(tài)、快速的多維分析、隨機(jī)查詢、即席報表知識發(fā)現(xiàn)通過數(shù)學(xué)模型發(fā)現(xiàn)隱藏的、潛在的規(guī)律,以輔助決策三、商務(wù)智能體系大數(shù)據(jù)分析大數(shù)據(jù)分析四、關(guān)系型數(shù)據(jù)庫關(guān)系型數(shù)據(jù)庫就是由二維表及其之間的聯(lián)系組成的一個數(shù)據(jù)組織,關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)結(jié)構(gòu)就是一張二維表,以表格(關(guān)系)的形式存放數(shù)據(jù)。比如:訂單數(shù)據(jù)庫包括一個用列表示的描述一個客戶信息的表格:名字、住址、號碼,等等。另外的一個表格會描述一個訂單:產(chǎn)品、客戶、日期、銷售價格,等等。報表:是關(guān)系型數(shù)據(jù)庫時代將數(shù)據(jù)轉(zhuǎn)化為信息的主要手段,但是報表是需要事先由開發(fā)人員定制的。比如:2013年5月份的廢單報表大數(shù)據(jù)分析五、數(shù)據(jù)倉庫我們可以從多個菜市場,挑選我們做需要的蔬菜,肉類等。當(dāng)然,我們處在一個選擇的過程。如果菜不新鮮,我們完全可以不要它.大數(shù)據(jù)分析六、多維分析OALP掌握數(shù)據(jù)倉庫先要了解OLAP多維數(shù)據(jù)分析OLAP是以海量數(shù)據(jù)為基礎(chǔ)的復(fù)雜數(shù)據(jù)分析技術(shù)。側(cè)重于對決策人員和高層管理人員的決策支持,可以快速、靈活地進(jìn)行大數(shù)據(jù)量的復(fù)雜處理,并且以一種直觀易懂的形式將結(jié)果提供給決策人員。OLAP的特性:快速性:系統(tǒng)能在數(shù)秒內(nèi)對用戶的多數(shù)分析要求做出反應(yīng)可分析性:用戶無需編程就可以定義新的專門計算,將其作為分析的一部分,并以用戶所希望的方式給出報告多維性:提供對數(shù)據(jù)分析的多維視圖和分析信息性:能及時獲得信息,并且管理大容量信息大家知道數(shù)據(jù)透視表嗎?對于數(shù)據(jù)的查詢,可以有以下兩種形式產(chǎn)品名稱銷售地區(qū)銷售數(shù)量電器電器電器電器服裝服裝服裝服裝匯總匯總匯總匯總江蘇上海北京匯總江蘇上海北京匯總江蘇上海北京匯總9404503401730830350270145017708006103180

關(guān)系數(shù)據(jù)庫的匯總查詢時除了查詢銷售量外,有時還查詢涉及多個數(shù)據(jù)項求和,若采取臨時進(jìn)行匯總計算,會使查詢效率大大降低。

多維數(shù)據(jù)庫的OLAP,多維數(shù)據(jù)庫(MDDB)是以多維方式組織數(shù)據(jù),即以維作為坐標(biāo)系,采用類似于數(shù)組形式存儲數(shù)據(jù)。多維數(shù)據(jù)庫中的元素具有形同類型的數(shù)值,如銷售量。例,多維數(shù)據(jù)庫存儲數(shù)據(jù)如表所示:反映不同產(chǎn)品在不同地區(qū)的銷售情況江蘇上海北京電器服裝940830450350340270

江蘇上海北京匯總電器服裝匯總9408301770450350800340270610173014503180

多維數(shù)據(jù)庫的匯總在多維數(shù)據(jù)庫中只需要按行或列進(jìn)行求和,增加匯總的維成員即可。2023/11/917假設(shè)以“產(chǎn)品、城市、時間”三維數(shù)據(jù)為例以上關(guān)系可簡單的抽象成多維數(shù)據(jù)分析模式

比較發(fā)現(xiàn)多維數(shù)據(jù)比關(guān)系數(shù)據(jù)庫表達(dá)的關(guān)系更加清晰明了,而且所消耗的存貯容量更少,查詢處理也格外簡單,若要查某地區(qū)的銷售量,只要按列統(tǒng)計一下即可,若要查某個產(chǎn)品的銷售量,則只要按行統(tǒng)計即可。多維數(shù)據(jù)的表示方法星型模式雪花型模式星型模式的關(guān)系數(shù)據(jù)庫表示產(chǎn)品ID銷售商ID地址ID時間ID銷售數(shù)量銷售成本總收入地理位置維表時間維表產(chǎn)品維表產(chǎn)品ID時間ID銷售商ID地址ID銷售商維度表雪花模式在關(guān)系數(shù)據(jù)庫中的表示

地理位置維表時間維表產(chǎn)品ID產(chǎn)品名稱公司ID公司名稱產(chǎn)品顏色I(xiàn)D產(chǎn)品顏色產(chǎn)品商標(biāo)ID商標(biāo)名稱產(chǎn)品類型ID產(chǎn)品類型名銷售商維度表產(chǎn)品ID銷售商ID地址ID時間ID銷售數(shù)量銷售成本總收入產(chǎn)品ID公司ID產(chǎn)品顏色I(xiàn)D產(chǎn)品商標(biāo)ID產(chǎn)品類型ID產(chǎn)品維表產(chǎn)品ID銷售商ID時間ID地址ID圖

雪花模式的關(guān)系數(shù)據(jù)庫表示大數(shù)據(jù)分析OLAP中的常用術(shù)語切片/切塊上卷/下鉆穿透賺取旋轉(zhuǎn)維度事實在多維分析過程中,如果對多維數(shù)據(jù)集的某個維選定一維成員,這種選擇操作就稱為切片。也即:如有(維1,維2,…,維i,…,維n,觀察變量)多維數(shù)據(jù)集,對維i選定了某個維成員,則(維1,維2,…,維i成員,…,維n,觀察變量)就是多維數(shù)據(jù)集(維1,維2,…,維i,…,維n,觀察變量)在維i上的一個切片。這種切片的數(shù)量完全取決于維i上的維成員個數(shù),如果維數(shù)越多,可以做的切片也就越多。例:對時間維的切片操作,它對中心數(shù)據(jù)立方體使用條件:時間=“Q1”選擇銷售數(shù)據(jù)。1、切片Q1Q2Q3Q4計算機(jī)安全家庭娛樂電話南京北京上海廣州605825144003951560440地區(qū)(城市)時間(季)類型切片廣州上海北京南京計算機(jī)安全家庭娛樂電話60582514400類型城市

在切片的概念中,有以下兩個重要的概念必須掌握:多維數(shù)據(jù)集的切片數(shù)量多少是由所選定的那個維的維成員數(shù)量的多少所決定的。進(jìn)行切片操作的目的是使人們能夠更好地了解多維數(shù)據(jù)集,通過切片的操作可以降低多維數(shù)數(shù)據(jù)集的維度,可使人們將注意力集中在較少的維度下進(jìn)行觀察。在一個多維數(shù)據(jù)集中對兩個(及其以上的)維選定維成員的操作可以稱為切塊。即在(維1,維2,…,維i,…,維k,…,維n,觀察變量)多維數(shù)據(jù)集上,對維i,…,維k,選定了維成員,則(維1,維2,…,維i成員,…,維k成員,…,維n,觀察變量)就是多維數(shù)據(jù)集(維1,維2,…,維i,…,維k,…,維n,觀察變量)在維i,…,維k上的一個切塊。顯然,當(dāng)i=k時,切塊操作就退化成切片操作。例:涉及三個維的切塊。條件為:(地點=“南京”

OR“北京”)AND(時間=“Q1”O(jiān)R“Q2”)AND(類型=“家庭娛樂”O(jiān)R“計算機(jī)”)2、切塊Q1Q2Q3Q4計算機(jī)安全家庭娛樂電話南京北京上海廣州608214403950156440地區(qū)(城市)時間(季)類型切塊計算機(jī)家庭娛樂Q1Q2南京北京605395

在對數(shù)據(jù)倉庫的多維數(shù)據(jù)集進(jìn)行顯示操作過程中,用戶常常希望能將多維數(shù)據(jù)集改變其顯示的維方向,也就是說進(jìn)行多維數(shù)據(jù)集的旋轉(zhuǎn)操作。旋轉(zhuǎn)操作可將多維數(shù)據(jù)集中的不同維進(jìn)行交換顯示,以使用戶更加直觀地觀察數(shù)據(jù)集中不同維之間的關(guān)系。例:類型和地區(qū)在一個2-D切片上轉(zhuǎn)動。3、旋轉(zhuǎn)

北京市上海市天津市

2002年1季度12313467

2季度5610373

3季度459859

4季度6687962003年1季度13410273

2季度5613969

3季度239762

4季度5582942002年2003年1季度2季度3季度4季度1季度2季度3季度4季度北京市123564566134562355上海市13410398871021399782天津市6773599673696294廣州上海北京南京計算機(jī)安全家庭娛樂電話60582514400類型城市廣州上海北京南京計算機(jī)安全家庭娛樂電話類型城市40014825605旋轉(zhuǎn)

通過一個維的概念分層向上攀升或者通過維歸約,在數(shù)據(jù)立方體上進(jìn)行聚集,稱為上卷操作。例:在地區(qū)維層次向上攀升,在中心數(shù)據(jù)立方體執(zhí)行上卷操作。(這個分層被定義為全序:縣<城市<州或省<國家)4、上卷Q1Q2Q3Q4計算機(jī)安全家庭娛樂電話南京北京上海廣州605825144003951560440地區(qū)(城市)Q1Q2Q3Q4計算機(jī)安全家庭娛樂電話江蘇省廣東省地區(qū)(?。┥暇韽某鞘械绞?/p>

下鉆是上卷的逆操作,它由不太詳細(xì)的數(shù)據(jù)到更詳細(xì)的數(shù)據(jù)。下鉆可以通過沿維的概念分層向下或引入新的維來實現(xiàn)。例:沿著年<季<月<天定義的時間維的概念分層向下,在中心數(shù)據(jù)立方體執(zhí)行下鉆操作的結(jié)果。5、下鉆150北京南京上海廣州1月2月3月4月5月6月7月8月9月10月11月12月時間(月)地區(qū)(城市)150100150計算機(jī)安全家庭娛樂電話下鉆從季到月OLAP的其它操作還有統(tǒng)計表中最高值和最低值的項數(shù),計算平均值、增長率、利潤、投資回報率等統(tǒng)計計算。OLAP提供了分析建模機(jī)制,包括推導(dǎo)比率、變差等以及跨越多維計算度量的計算引擎。它能在每一粒度級和在所有維的交叉產(chǎn)生匯總、聚集和分層。OLAP也支持預(yù)報、趨勢分析和統(tǒng)計分析的函數(shù)模型。在這種意義下,OLAP是一種強(qiáng)有力的數(shù)據(jù)分析工具。多維分析-維度維度在數(shù)據(jù)倉庫中主要對用戶要讀取的指標(biāo)進(jìn)行過濾和重新組織??梢詫⒂脩魧κ聦嵉牟樵兘Y(jié)果按照維度指標(biāo)進(jìn)行篩選,只允許與維度指標(biāo)相關(guān)的數(shù)據(jù)返回給用戶。維度層級用來描述維度的各個層級。根據(jù)維度細(xì)節(jié)程度的不同,劃分?jǐn)?shù)據(jù)在邏輯上的等級關(guān)系,例如,時間維度包括年、季度、月、日等層次,地區(qū)維度包括國家、省、市等層次。用維表來記錄多維數(shù)據(jù)庫中的維度,將多維數(shù)據(jù)立方體的坐標(biāo)軸上的各個取值記錄在一張維表中,這樣對于一個n維數(shù)據(jù)立方體就存在n張維表。多維分析—維度表事實是各個維度的交點,是對某個特定事件的度量。比如客戶打,可能選擇的度量有通話時長、通話次數(shù)和通話費(fèi)用等;客戶購買商品,可能選擇的度量有購買的次數(shù)、購買商品的金額和購買商品的數(shù)量等。六、多維分析—事實事實表用來記錄多維數(shù)據(jù)立方體各個維度的交點的度量值。這樣,多維數(shù)據(jù)立方體各個坐標(biāo)軸上的刻度以及立方體各個交點的取值都被記錄下來,因而多維數(shù)據(jù)立方體的全部信息就被記錄下來。多維數(shù)據(jù)立方體中所有的度量信息均可記錄在同一事

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論