




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
人工智能
——數(shù)據(jù)挖掘之?dāng)?shù)據(jù)倉(cāng)庫(kù)目錄一、什么是數(shù)據(jù)挖掘?二、什么是數(shù)據(jù)倉(cāng)庫(kù)?數(shù)據(jù)倉(cāng)庫(kù)的特征。三、數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)四、從數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)挖掘07十一月2022數(shù)據(jù)挖掘:概念與技術(shù)3什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘(數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)):
從大型數(shù)據(jù)庫(kù)中提取有趣的(非平凡的,蘊(yùn)涵的,先前未知的并且是潛在有用的)信息或模式數(shù)據(jù)挖掘:用詞不當(dāng)?其它名稱:數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)(Knowledgediscoveryindatabases,KDD)知識(shí)提取(knowledgeextraction)數(shù)據(jù)/模式分析(data/patternanalysis)數(shù)據(jù)考古(dataarcheology)數(shù)據(jù)捕撈(datadredging)信息收獲(informationharvesting)商務(wù)智能(businessintelligence),等.什么不是數(shù)據(jù)挖掘?(演繹)查詢處理.專家系統(tǒng)或小型機(jī)器學(xué)習(xí)(ML)/統(tǒng)計(jì)程序07十一月2022數(shù)據(jù)挖掘:概念與技術(shù)5數(shù)據(jù)挖掘過(guò)程數(shù)據(jù)庫(kù)文件數(shù)據(jù)倉(cāng)庫(kù)清理與集成選擇與變換數(shù)據(jù)挖掘模式評(píng)估知識(shí)什么是數(shù)據(jù)倉(cāng)庫(kù)用不同的方法定義,但不是嚴(yán)格的是一個(gè)決策支持?jǐn)?shù)據(jù)庫(kù),它與組織的操作數(shù)據(jù)庫(kù)分離地維護(hù)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)允許將各種應(yīng)用系統(tǒng)集成在一起,通過(guò)為統(tǒng)一的歷史數(shù)據(jù)分析提供堅(jiān)實(shí)的平臺(tái),支持信息處理.數(shù)據(jù)倉(cāng)庫(kù)是一種信息環(huán)境,它將各種應(yīng)用系統(tǒng)集成在一起,提供了企業(yè)信息的完整概括,為靈活的、交互的數(shù)據(jù)分析提供堅(jiān)實(shí)的平臺(tái),為決策提供支持.W.H.Inmon的定義:數(shù)據(jù)倉(cāng)庫(kù)是面向主題的(subject-oriented),集成的,時(shí)變的,和非易失的數(shù)據(jù)集合,支持管理決策過(guò)程建立數(shù)據(jù)倉(cāng)庫(kù)(Datawarehousing):構(gòu)造和使用數(shù)據(jù)倉(cāng)庫(kù)的過(guò)程2022/11/7數(shù)據(jù)倉(cāng)庫(kù)與OLAP技術(shù)6數(shù)據(jù)倉(cāng)庫(kù)的特征面向主題的(subject-oriented)數(shù)據(jù)倉(cāng)庫(kù)圍繞一些主題,如顧客、供應(yīng)商、產(chǎn)品和銷售組織數(shù)據(jù)倉(cāng)庫(kù)關(guān)注決策者的數(shù)據(jù)建模與分析,而不是集中于組織機(jī)構(gòu)的日常操作和事務(wù)處理.
數(shù)據(jù)倉(cāng)庫(kù)排除對(duì)于決策無(wú)用的數(shù)據(jù),提供特定主題的簡(jiǎn)明視圖集成的(integrated)通常,構(gòu)造數(shù)據(jù)倉(cāng)庫(kù)是將多個(gè)異種數(shù)據(jù)源,如關(guān)系數(shù)據(jù)庫(kù)、一般文件和聯(lián)機(jī)事務(wù)處理記錄,集成在一起使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù),確保命名約定、編關(guān)鍵字結(jié)構(gòu)、屬性度量等的一致性當(dāng)數(shù)據(jù)裝入數(shù)據(jù)倉(cāng)庫(kù)時(shí),數(shù)據(jù)將被轉(zhuǎn)換2022/11/7數(shù)據(jù)倉(cāng)庫(kù)與OLAP技術(shù)7數(shù)據(jù)倉(cāng)庫(kù)的特征(續(xù))時(shí)變的(time-variant)數(shù)據(jù)存儲(chǔ)從歷史的角度(例如過(guò)去5-10年)提供信息.操作數(shù)據(jù)庫(kù)數(shù)據(jù):當(dāng)前值數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)中的關(guān)鍵結(jié)構(gòu),隱式或顯式地包含時(shí)間元素非易失的(nonvolatile)數(shù)據(jù)倉(cāng)庫(kù)總是物理地分離存放數(shù)據(jù);這些數(shù)據(jù)源于操作環(huán)境下的應(yīng)用數(shù)據(jù)由于這種分離,數(shù)據(jù)倉(cāng)庫(kù)不需要事務(wù)處理、恢復(fù)和并發(fā)控制機(jī)制.通常,它只需要兩種數(shù)據(jù)訪問(wèn)操作:數(shù)據(jù)的初始化裝入和數(shù)據(jù)訪問(wèn)2022/11/7數(shù)據(jù)倉(cāng)庫(kù)與OLAP技術(shù)8數(shù)據(jù)倉(cāng)庫(kù)vs.操作數(shù)據(jù)庫(kù)OLTP(on-linetransactionprocessing,聯(lián)機(jī)事務(wù)處理)傳統(tǒng)關(guān)系DBMS的主要任務(wù)日常事務(wù)處理:購(gòu)買,庫(kù)存,銀行,制造,工資單,注冊(cè),記帳等.OLAP(on-lineanalyticalprocessing,聯(lián)機(jī)分析處理)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的主要任務(wù)數(shù)據(jù)分析和決策制定2022/11/7數(shù)據(jù)倉(cāng)庫(kù)與OLAP技術(shù)10數(shù)據(jù)倉(cāng)庫(kù)vs.操作數(shù)據(jù)庫(kù)(續(xù))2022/11/7數(shù)據(jù)倉(cāng)庫(kù)與OLAP技術(shù)12數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)(續(xù))四種視圖自頂向下視圖使得我們可以選擇數(shù)據(jù)倉(cāng)庫(kù)所需的相關(guān)信息.這些信息能夠滿足當(dāng)前和未來(lái)商務(wù)的需求數(shù)據(jù)源視圖揭示被操作數(shù)據(jù)庫(kù)系統(tǒng)捕獲、存儲(chǔ)和管理的信息通常,數(shù)據(jù)源用傳統(tǒng)的數(shù)據(jù)建模技術(shù),如實(shí)體-聯(lián)系模型或CASE工具建模數(shù)據(jù)倉(cāng)庫(kù)視圖包括事實(shí)表和維表.它們提供存放在數(shù)據(jù)倉(cāng)庫(kù)內(nèi)部的信息,包括預(yù)計(jì)算的總和與計(jì)數(shù),以及增加的提供歷史背景的關(guān)于源、原來(lái)的日期和時(shí)間等信息商務(wù)查詢視圖從最終用戶的角度透視數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)2022/11/7數(shù)據(jù)倉(cāng)庫(kù)與OLAP技術(shù)14數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)(續(xù))建立和使用數(shù)據(jù)倉(cāng)庫(kù)是一項(xiàng)復(fù)雜的任務(wù),需要商務(wù)技巧、技術(shù)技巧和程序管理技巧商務(wù)技巧建立數(shù)據(jù)倉(cāng)庫(kù)涉及理解系統(tǒng)如何存儲(chǔ)和管理數(shù)據(jù);如何構(gòu)造一個(gè)提取程序,將數(shù)據(jù)由操作數(shù)據(jù)庫(kù)轉(zhuǎn)換到數(shù)據(jù)倉(cāng)庫(kù);如何構(gòu)造一個(gè)倉(cāng)庫(kù)刷新軟件,合理地保持?jǐn)?shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)相對(duì)于操作數(shù)據(jù)庫(kù)中數(shù)據(jù)的當(dāng)前性使用數(shù)據(jù)倉(cāng)庫(kù)涉及理解它所包含的數(shù)據(jù)的含義理解商務(wù)需求并將它轉(zhuǎn)換成數(shù)據(jù)倉(cāng)庫(kù)查詢2022/11/7數(shù)據(jù)倉(cāng)庫(kù)與OLAP技術(shù)15數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)(續(xù))技術(shù)技巧數(shù)據(jù)分析需要理解如何由定量信息作出估價(jià)如何根據(jù)數(shù)據(jù)倉(cāng)庫(kù)中的歷史信息得到的結(jié)論推導(dǎo)事實(shí)這些技巧包括發(fā)現(xiàn)模式和趨勢(shì),根據(jù)歷史推斷趨勢(shì)和發(fā)現(xiàn)異?;蚰J狡?并根據(jù)這種分析提出相應(yīng)的管理建議的能力程序管理技巧涉及與許多技術(shù)人員、經(jīng)銷商和最終用戶交往,以便以及時(shí)和合算的方式提交結(jié)果2022/11/7數(shù)據(jù)倉(cāng)庫(kù)與OLAP技術(shù)16數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)(續(xù))數(shù)據(jù)倉(cāng)庫(kù)可以使用自頂向下方法、自底向上方法,或二者結(jié)合的混合方法設(shè)計(jì)自頂向下方法由總體設(shè)計(jì)和規(guī)劃開(kāi)始當(dāng)技術(shù)成熟并且已經(jīng)掌握,對(duì)必須解決的商務(wù)問(wèn)題清楚并且已經(jīng)很好理解時(shí),這種方法是有用的自底向上方法以實(shí)驗(yàn)和原型開(kāi)始在商務(wù)建模和技術(shù)開(kāi)發(fā)的早期階段,這種方法是有用的混合方法既能利用自頂向下方法的規(guī)劃和戰(zhàn)略特點(diǎn),又能保持象自底向上方法一樣快速實(shí)現(xiàn)和立即應(yīng)用2022/11/7數(shù)據(jù)倉(cāng)庫(kù)與OLAP技術(shù)17數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)(續(xù))典型的數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)過(guò)程選取待建模的商務(wù)處理例如,訂單、發(fā)票、出貨、庫(kù)存、記帳管理、銷售或一般分類帳選用數(shù)據(jù)倉(cāng)庫(kù)模型vs.選擇數(shù)據(jù)集市選取商務(wù)處理的粒度該粒度是基本的,在事實(shí)表中是數(shù)據(jù)的原子級(jí)例如,單個(gè)事務(wù)、一天的快照等選取用于每個(gè)事實(shí)表記錄的維典型的維是時(shí)間、商品、顧客、供應(yīng)商、倉(cāng)庫(kù)、事務(wù)類型和狀態(tài)選取將安放在事實(shí)表中的度量典型的度量是可加的數(shù)值量,如dollars_sold和units_sold
2022/11/7數(shù)據(jù)倉(cāng)庫(kù)與OLAP技術(shù)18三層數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)(續(xù))底層是倉(cāng)庫(kù)數(shù)據(jù)服務(wù)器一般是關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)使用后端工具和實(shí)用程序,由操作數(shù)據(jù)庫(kù)或其他外部數(shù)據(jù)源(如由外部咨詢者提供的顧客側(cè)面信息)提取數(shù)據(jù),放入底層這一層還包括元數(shù)據(jù)庫(kù),存放關(guān)于數(shù)據(jù)倉(cāng)庫(kù)和它的內(nèi)容的信息中間層是OLAP服務(wù)器關(guān)系OLAP(ROLAP)模型即擴(kuò)充的關(guān)系DBMS,它將多維數(shù)據(jù)上的操作映射為標(biāo)準(zhǔn)的關(guān)系操作多維OLAP(MOLAP)模型即專門的服務(wù)器,它直接實(shí)現(xiàn)多維數(shù)據(jù)和操作頂層是前端客戶層包括查詢和報(bào)告工具、分析工具和/或數(shù)據(jù)挖掘工具
2022/11/7數(shù)據(jù)倉(cāng)庫(kù)與OLAP技術(shù)20三種數(shù)據(jù)倉(cāng)庫(kù)
企業(yè)倉(cāng)庫(kù)(enterprisewarehouse)搜集了跨越整個(gè)組織的關(guān)于主題的所有信息提供企業(yè)范圍內(nèi)的數(shù)據(jù)集成數(shù)據(jù)集市(datamart)包含企業(yè)范圍數(shù)據(jù)的一個(gè)子集,對(duì)于特定的用戶是有用的根據(jù)數(shù)據(jù)的來(lái)源不同,數(shù)據(jù)集市分為獨(dú)立的和依賴的兩類獨(dú)立的數(shù)據(jù)集市:數(shù)據(jù)來(lái)自一個(gè)或多個(gè)操作的系統(tǒng)或外部信息提供者,或者來(lái)自在一個(gè)特定的部門或地域局部產(chǎn)生的數(shù)據(jù)依賴的數(shù)據(jù)集市中的數(shù)據(jù)直接來(lái)自企業(yè)數(shù)據(jù)倉(cāng)庫(kù)虛擬倉(cāng)庫(kù)(virtualwarehouse)是操作數(shù)據(jù)庫(kù)上視圖的集合.為了有效地處理查詢,只有一些可能的匯總視圖被物化虛擬倉(cāng)庫(kù)易于建立,但需要操作數(shù)據(jù)庫(kù)服務(wù)器具有剩余能力2022/11/7數(shù)據(jù)倉(cāng)庫(kù)與OLAP技術(shù)21數(shù)據(jù)倉(cāng)庫(kù)的使用通常,數(shù)據(jù)倉(cāng)庫(kù)使用時(shí)間越長(zhǎng),它進(jìn)化得越好數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用的三種類型信息處理支持查詢,基本統(tǒng)計(jì)分析,使用交叉表,表,圖表和圖進(jìn)行報(bào)告分析處理數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)的多維分析支持基本的OLAP操作,切片-切塊,上下鉆,轉(zhuǎn)軸數(shù)據(jù)挖掘隱藏模式的知識(shí)發(fā)現(xiàn)支持關(guān)聯(lián),構(gòu)造分析模型,進(jìn)行分類和預(yù)測(cè),并使用可視化工具提供挖掘結(jié)果.2022/11/7數(shù)據(jù)倉(cāng)庫(kù)與OLAP技術(shù)23OLAP與數(shù)據(jù)挖掘OLAP向數(shù)據(jù)挖掘走近了一步它可以由用戶選定的數(shù)據(jù)倉(cāng)庫(kù)子集,在多粒度上導(dǎo)出匯總的信息。這種描述等價(jià)于類/概念描述數(shù)據(jù)挖掘系統(tǒng)能挖掘更一般的類/概念描述數(shù)據(jù)挖掘比傳統(tǒng)的OLAP前進(jìn)了一步OLAP是數(shù)據(jù)匯總/聚集工具,幫助簡(jiǎn)化數(shù)據(jù)分析;而數(shù)據(jù)挖掘自動(dòng)地發(fā)現(xiàn)隱藏在大量數(shù)據(jù)中的隱含模式
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 火花線切割機(jī)床項(xiàng)目投資可行性研究分析報(bào)告(2024-2030版)
- 中國(guó)醫(yī)用純化水設(shè)備行業(yè)發(fā)展監(jiān)測(cè)及發(fā)展戰(zhàn)略規(guī)劃報(bào)告
- 中國(guó)汽車平衡塊行業(yè)市場(chǎng)全景評(píng)估及發(fā)展戰(zhàn)略規(guī)劃報(bào)告
- 中國(guó)電容器用薄膜市場(chǎng)調(diào)查報(bào)告
- 2025年中國(guó)氣瓶光面環(huán)規(guī)行業(yè)市場(chǎng)發(fā)展前景及發(fā)展趨勢(shì)與投資戰(zhàn)略研究報(bào)告
- 2025-2030年中國(guó)全鋼中央臺(tái)項(xiàng)目投資可行性研究分析報(bào)告
- 中國(guó)川烏頭行業(yè)市場(chǎng)深度評(píng)估及投資戰(zhàn)略規(guī)劃報(bào)告
- 中國(guó)回光燈市場(chǎng)發(fā)展前景預(yù)測(cè)及投資戰(zhàn)略咨詢報(bào)告
- 早教班老師培訓(xùn)課件
- 同城配送合同
- 高三家長(zhǎng)會(huì)班主任發(fā)言稿課件
- 學(xué)前幼兒園-《快樂(lè)的小鼴鼠》教學(xué)課件設(shè)計(jì)
- 3停止間轉(zhuǎn)法教案
- 2022-2023學(xué)年重慶市合川市三下數(shù)學(xué)期末學(xué)業(yè)質(zhì)量監(jiān)測(cè)模擬試題含解析
- 全過(guò)程造價(jià)咨詢服務(wù)實(shí)施方案
- 初二生地會(huì)考復(fù)習(xí)資料全
- 里氏硬度法檢測(cè)鋼材強(qiáng)度范圍記錄表、鋼材里氏硬度與抗拉強(qiáng)度范圍換算表
- 四川省宜賓市翠屏區(qū)中學(xué)2022-2023學(xué)年數(shù)學(xué)八年級(jí)第二學(xué)期期末檢測(cè)試題含解析
- 2020-2021成都石室聯(lián)合中學(xué)蜀華分校小學(xué)數(shù)學(xué)小升初模擬試卷附答案
- 某冶金機(jī)械廠供配電系統(tǒng)設(shè)計(jì)
- 《在中亞細(xì)亞草原上》賞析 課件
評(píng)論
0/150
提交評(píng)論