




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
《計(jì)算機(jī)網(wǎng)絡(luò)信息系統(tǒng)集成》課程研究匯報(bào)姓名:陽濤學(xué)院:湖北工業(yè)大學(xué)班級(jí):控制工程班學(xué)號(hào):50114時(shí)間:8月12日基于數(shù)據(jù)倉庫數(shù)據(jù)挖掘技術(shù)分析研究摘要基于數(shù)據(jù)倉庫數(shù)據(jù)挖掘技術(shù)是一個(gè)對(duì)數(shù)據(jù)倉庫中數(shù)據(jù)進(jìn)行深層次加工和處理過程,也是一個(gè)實(shí)現(xiàn)數(shù)據(jù)倉庫決議價(jià)值方法和工具。文中分析了數(shù)據(jù)倉庫、數(shù)據(jù)挖掘等概念,并結(jié)合數(shù)據(jù)挖掘在實(shí)際決議支持系統(tǒng)中應(yīng)用,說明了數(shù)據(jù)挖掘基本方法、主要過程以及發(fā)展方向。關(guān)鍵詞:倉庫,儲(chǔ)存,數(shù)據(jù)采集PAGE2PAGE2摘要 錯(cuò)誤!未定義書簽。目錄 3引言 41數(shù)據(jù)倉庫及其體系結(jié)構(gòu) 52基于數(shù)據(jù)倉庫數(shù)據(jù)挖掘技術(shù) 63數(shù)據(jù)挖掘在實(shí)際決議支持系統(tǒng)中應(yīng)用 84.結(jié)束語 9參考文件 10
引言
伴隨數(shù)據(jù)庫技術(shù)廣泛應(yīng)用,以及人們對(duì)當(dāng)今社會(huì)信息高層次需求,以事務(wù)處理為關(guān)鍵、支持業(yè)務(wù)操作環(huán)境與平臺(tái)數(shù)據(jù)庫技術(shù)已不能適應(yīng)人們?cè)诜治龊蜎Q議層次上需要。為了有效地為企業(yè)和政府管理與決議過程提供主要信息,需要依照決議需要搜集來自企業(yè)內(nèi)外關(guān)于數(shù)據(jù),并加以適當(dāng)組織處理,以形成一個(gè)綜合面向決議環(huán)境。1數(shù)據(jù)倉庫及其體系結(jié)構(gòu)
20世紀(jì)90年代早期,W.H.Inmon在5BuildingtheDataWarehouse6一書中第一次提出了數(shù)據(jù)倉庫(DataWarehouse,簡(jiǎn)稱DW)概念,并將它定義為:面向主題、集成、與時(shí)間相關(guān)、穩(wěn)定數(shù)據(jù)集合。所謂面向主題,是指按主題來組織數(shù)據(jù),按不一樣決議和分析來綜合和歸并數(shù)據(jù);所謂集成,是指未來自不一樣數(shù)據(jù)庫中數(shù)據(jù)進(jìn)行統(tǒng)一和綜合;所謂與時(shí)間相關(guān)是指能夠依照決議需要不停地添加一些新數(shù)據(jù),刪除一些舊數(shù)據(jù);所謂穩(wěn)定是指集成以后數(shù)據(jù)在內(nèi)容上保持較長(zhǎng)時(shí)間不變。
與傳統(tǒng)數(shù)據(jù)庫顯著不一樣是,數(shù)據(jù)倉庫是一個(gè)服務(wù)于高層決議數(shù)據(jù)庫,它不但采集、組織和\o"存放"存放大量來自地理位置分散、結(jié)構(gòu)各異信息源數(shù)據(jù),而且還經(jīng)過對(duì)這些歷史數(shù)據(jù)加工和變換,得到一系列用于決議分析數(shù)據(jù),利用這些數(shù)據(jù)能夠愈加好地為用戶提供決議支持。其次,數(shù)據(jù)倉庫是一個(gè)面向主題數(shù)據(jù)庫,它按主題來組織數(shù)據(jù),按決議和分析需要來提煉和凈化數(shù)據(jù)。另外,數(shù)據(jù)倉庫是一個(gè)包含歷史數(shù)據(jù)數(shù)據(jù)庫,其中數(shù)據(jù)不但用于檢索等基本操作,還用于分析整個(gè)組織運(yùn)行狀態(tài),以及未來發(fā)展趨勢(shì)。
構(gòu)建數(shù)據(jù)倉庫關(guān)鍵是ETL(Extract,Transform,Loading)技術(shù),即怎樣準(zhǔn)確、安全、可靠地從各種不一樣業(yè)務(wù)數(shù)據(jù)庫中抽取數(shù)據(jù),并經(jīng)轉(zhuǎn)換、清洗以及集成后載入數(shù)據(jù)倉庫。自數(shù)據(jù)倉庫概念提出以后,世界上不少著名計(jì)算機(jī)企業(yè)(如IBM,Oracle等)都紛紛對(duì)此展開深入研究,并相繼提出各自研究方案。即使這些方案各有特色,但基本框架通常都是經(jīng)過\o"數(shù)據(jù)采集"數(shù)據(jù)采集和處理工具將各數(shù)據(jù)源數(shù)據(jù)集成并載入數(shù)據(jù)倉庫(如圖1所表示)。
圖1.數(shù)據(jù)倉庫基本框架圖
(1)數(shù)據(jù)源。能夠?yàn)槠胀I(yè)務(wù)數(shù)據(jù)庫,也能夠是特定數(shù)據(jù)文件或其余數(shù)據(jù)源。
(2)\o"數(shù)據(jù)采集"數(shù)據(jù)采集和處理。負(fù)責(zé)從各數(shù)據(jù)源中抽取數(shù)據(jù),并經(jīng)轉(zhuǎn)換、集成后載入數(shù)據(jù)倉庫。
(3)數(shù)據(jù)倉庫。\o"存放"存放兩類數(shù)據(jù)。一類是元數(shù)據(jù),它是數(shù)據(jù)倉庫基本組成單元,主要用于統(tǒng)計(jì)數(shù)據(jù)結(jié)構(gòu)以及數(shù)據(jù)倉庫改變;另一類是實(shí)視圖,它是供決議人員分析處理用數(shù)據(jù)。
(4)應(yīng)用。主要是服務(wù)于決議在線分析(On-LineAnalyticalProcessing,簡(jiǎn)稱OLAP)和數(shù)據(jù)挖掘(DataMining,簡(jiǎn)稱DM)。
由上述基本框架圖能夠看出,數(shù)據(jù)倉庫不是一個(gè)軟件產(chǎn)品,而是一個(gè)綜合處理方案。它將原始數(shù)據(jù)處理并轉(zhuǎn)換成服務(wù)于決議綜合數(shù)據(jù),并提供一組功效強(qiáng)大分析工具對(duì)其進(jìn)行多層次、多方位分析處理。其次,數(shù)據(jù)倉庫要提供高質(zhì)量數(shù)據(jù)和服務(wù),必須注意數(shù)據(jù)一致性、完整性、準(zhǔn)確性以及可用性?,F(xiàn)有數(shù)據(jù)倉庫模型未能充分考慮到這一點(diǎn)。經(jīng)過擴(kuò)展元數(shù)據(jù)庫方式,在元數(shù)據(jù)庫中融入質(zhì)量維度質(zhì)量模型,建立系統(tǒng)化測(cè)量和提升數(shù)據(jù)質(zhì)量方法體系,能夠很好地處理數(shù)據(jù)倉庫質(zhì)量問題。2基于數(shù)據(jù)倉庫數(shù)據(jù)挖掘技術(shù)
構(gòu)建數(shù)據(jù)倉庫最終目標(biāo)是為了從各類海量數(shù)據(jù)中提取出對(duì)關(guān)于決議和管理活動(dòng)具備主要指導(dǎo)意義規(guī)律性知識(shí)。不過,因?yàn)楦黝悢?shù)據(jù)是分散于若干業(yè)務(wù)數(shù)據(jù)庫或其余數(shù)據(jù)源中,所以,要得到對(duì)各類決議分析有用知識(shí),必須具備對(duì)應(yīng)從海量數(shù)據(jù)中提取價(jià)值信息工具。數(shù)據(jù)挖掘就是用來挖掘價(jià)值信息工具。
數(shù)據(jù)挖掘這一概念是由G.Piatetsky-Shapior,W.J.Frawley等人在1989年8月召開第11屆國際人工智能學(xué)術(shù)會(huì)議上提出。它是數(shù)據(jù)庫技術(shù)和人工智能、數(shù)理統(tǒng)計(jì)等學(xué)科相結(jié)合產(chǎn)物,是一個(gè)多學(xué)科相互交叉具備廣泛應(yīng)用前景新興研究領(lǐng)域,并利用人工智能和數(shù)理統(tǒng)計(jì)中一些較成熟方法和技術(shù),如規(guī)則推理、人工神經(jīng)網(wǎng)絡(luò)、決議樹、鄰近搜索等。所以,也有些人把它稱為數(shù)據(jù)庫中知識(shí)發(fā)覺(KnowledgeDiscoveryinDatabase,簡(jiǎn)稱KDD)。對(duì)數(shù)據(jù)挖掘這一概念定義,通常認(rèn)為是一個(gè)從大量數(shù)據(jù)中獲取潛在規(guī)律和知識(shí)方法和技術(shù),是一個(gè)從大量數(shù)據(jù)中發(fā)掘潛在、新奇、可用以及最終可了解模式高級(jí)過程。
面向主題、數(shù)據(jù)集成、與時(shí)間相關(guān)以及穩(wěn)定是數(shù)據(jù)倉庫區(qū)分于數(shù)據(jù)庫顯著特點(diǎn),實(shí)現(xiàn)決議支持是數(shù)據(jù)倉庫最終應(yīng)用目標(biāo),而數(shù)據(jù)挖掘則是實(shí)現(xiàn)數(shù)據(jù)倉庫最終目標(biāo)有力工具。所以,在實(shí)際應(yīng)用中,數(shù)據(jù)挖掘和數(shù)據(jù)倉庫密不可分。數(shù)據(jù)倉庫是數(shù)據(jù)挖掘基礎(chǔ)和平臺(tái),為數(shù)據(jù)挖掘提供必要數(shù)據(jù)準(zhǔn)備,數(shù)據(jù)挖掘則是在數(shù)據(jù)倉庫基礎(chǔ)上深入發(fā)掘?qū)?shí)際決議過程有益知識(shí)和信息。
數(shù)據(jù)挖掘系統(tǒng)基本結(jié)構(gòu)圖如圖2所表示。
圖2.數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)圖
(1)數(shù)據(jù)采集與處理。依照數(shù)據(jù)挖掘目標(biāo),從數(shù)據(jù)倉庫中選取相關(guān)數(shù)據(jù)集合,并對(duì)其進(jìn)行數(shù)據(jù)一致性和數(shù)據(jù)完整性檢驗(yàn)。
(2)知識(shí)庫。主要用于數(shù)據(jù)挖掘和知識(shí)評(píng)價(jià)。利用知識(shí)庫中提供關(guān)于知識(shí),能夠指導(dǎo)數(shù)據(jù)挖掘過程中搜索操作,以及評(píng)價(jià)挖掘所得結(jié)果數(shù)據(jù)(這些數(shù)據(jù)能夠是概念,也能夠是規(guī)則或模式)興趣度。
(3)數(shù)據(jù)挖掘。主要是對(duì)數(shù)據(jù)倉庫中提取關(guān)于數(shù)據(jù)進(jìn)行聚類、估值、分類、預(yù)言、關(guān)聯(lián)和描述等分析處理。
a.聚類。將相同數(shù)據(jù)置于一類,目標(biāo)在于描述數(shù)據(jù)共同特征。
b.估值。處理未知連續(xù)變量輸出。
c.分類。描述離散變量輸出。經(jīng)典有線形回歸分類、決議樹分類、基于規(guī)則分類以及神經(jīng)網(wǎng)絡(luò)分類等。
d.預(yù)言。經(jīng)過估值或分類得到模型,以用于未來未知變量評(píng)定。
e.關(guān)聯(lián)。挖掘數(shù)據(jù)或特征間內(nèi)在聯(lián)絡(luò)。
f.描述。表示數(shù)據(jù)挖掘結(jié)果。
(4)知識(shí)評(píng)價(jià)。以興趣度作為衡量標(biāo)準(zhǔn)來查找和選擇對(duì)最終決議活動(dòng)有益知識(shí),并以概念、規(guī)則、規(guī)律、模式、約束或可視化形式來表示結(jié)果知識(shí)?;跀?shù)據(jù)倉庫數(shù)據(jù)挖掘是一個(gè)對(duì)數(shù)據(jù)倉庫中數(shù)據(jù)進(jìn)行深層次加工和處理過程,也是一個(gè)實(shí)現(xiàn)數(shù)據(jù)倉庫決議價(jià)值方法和工具。經(jīng)過對(duì)數(shù)據(jù)倉庫中大量歷史數(shù)據(jù)更高層次抽象,不但反應(yīng)了數(shù)據(jù)間內(nèi)在聯(lián)絡(luò)和特征,同時(shí)也取得了許多直接用于決議分析有用信息。3數(shù)據(jù)挖掘在實(shí)際決議支持系統(tǒng)中應(yīng)用
數(shù)據(jù)挖掘是在數(shù)據(jù)倉庫基礎(chǔ)上進(jìn)行深層數(shù)據(jù)分析過程,它能揭示大量數(shù)據(jù)中隱含、潛在、有用和感興趣信息,并為用戶提供很好決議支持。
自數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)出現(xiàn)至今,許多大企業(yè)、大企業(yè)紛紛構(gòu)建自己數(shù)據(jù)倉庫,并經(jīng)過對(duì)數(shù)據(jù)倉庫中大量歷史數(shù)據(jù)挖掘,得到許多有用信息,以支持企業(yè)內(nèi)部生產(chǎn)經(jīng)營(yíng)管理過程中決議控制。實(shí)際數(shù)據(jù)挖掘過程通常包含以下幾個(gè)步驟:
(1)了解行業(yè)背景,熟悉基本數(shù)據(jù);
(2)確定數(shù)據(jù)挖掘目標(biāo);
(3)選取數(shù)據(jù)倉庫中對(duì)應(yīng)數(shù)據(jù)集合;
(4)給出適宜挖掘算法;
(5)進(jìn)行實(shí)際數(shù)據(jù)挖掘;
(6)對(duì)所得結(jié)果知識(shí)進(jìn)行評(píng)價(jià)并輸出。
現(xiàn)在,數(shù)據(jù)挖掘主要應(yīng)用領(lǐng)域有:\o"市場(chǎng)分析"市場(chǎng)分析和預(yù)測(cè);生產(chǎn)過程優(yōu)化;股票分析和預(yù)測(cè);金融風(fēng)險(xiǎn)分析;氣象預(yù)報(bào)等。比如,針對(duì)本單位\o"人力資源管理"人力資源管理需要,構(gòu)建本單位人力資源數(shù)據(jù)倉庫,并利用選擇樹分類器對(duì)其進(jìn)行數(shù)據(jù)挖掘。針對(duì)旅游業(yè)管理需要,構(gòu)建旅游業(yè)數(shù)據(jù)倉庫,并利用決議樹分類器挖掘其中深層次規(guī)則。針對(duì)零售連鎖業(yè)發(fā)展需要,構(gòu)建連鎖超市數(shù)據(jù)倉庫,并經(jīng)過對(duì)其進(jìn)行數(shù)據(jù)挖掘?qū)崿F(xiàn)連鎖超市銷售分析與預(yù)測(cè)。
即使這些基于數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)實(shí)際決議支持系統(tǒng)設(shè)計(jì)各有特色,但其基本框架能夠用一個(gè)簡(jiǎn)單模型來刻畫,如圖3所表示。
圖3.決議支持系統(tǒng)模型圖
在實(shí)現(xiàn)實(shí)際決議支持系統(tǒng)時(shí),系統(tǒng)首先經(jīng)過數(shù)據(jù)采集與加工模塊將各數(shù)據(jù)源中數(shù)據(jù)載入數(shù)據(jù)倉庫,然后各用戶再經(jīng)過數(shù)據(jù)挖掘和在線分析來分析處理來自數(shù)據(jù)倉庫數(shù)據(jù),并得到一系列用于實(shí)際決議過程有用知識(shí)和信息。其中,數(shù)據(jù)挖掘是系統(tǒng)關(guān)鍵部件,是決定數(shù)據(jù)倉庫決議價(jià)值關(guān)鍵步驟。4結(jié)束語
數(shù)據(jù)挖掘是一個(gè)基于數(shù)據(jù)倉庫有效輔助決議支
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 上海工程技術(shù)大學(xué)《環(huán)境模型設(shè)計(jì)與制作》2023-2024學(xué)年第二學(xué)期期末試卷
- 云南農(nóng)業(yè)職業(yè)技術(shù)學(xué)院《醫(yī)學(xué)影像讀片訓(xùn)練》2023-2024學(xué)年第二學(xué)期期末試卷
- 哈爾濱科學(xué)技術(shù)職業(yè)學(xué)院《路基路面工程》2023-2024學(xué)年第二學(xué)期期末試卷
- 大連藝術(shù)學(xué)院《綜合大學(xué)英語》2023-2024學(xué)年第一學(xué)期期末試卷
- 臺(tái)州職業(yè)技術(shù)學(xué)院《中西醫(yī)結(jié)合急診醫(yī)學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 福建幼兒師范高等??茖W(xué)?!吨袊F(xiàn)代文學(xué)流派與思潮》2023-2024學(xué)年第二學(xué)期期末試卷
- 中山紅磚隔墻施工方案
- 高架柱子灌漿施工方案
- 玻鎂風(fēng)管施工方案
- 發(fā)泡砂漿施工方案范本
- 2025年兒科常見面試題及答案
- (一模)贛州市2025年高三年級(jí)摸底考試物理試卷(含標(biāo)準(zhǔn)答案)
- 九年級(jí)物理上冊(cè)22內(nèi)燃機(jī)省公開課一等獎(jiǎng)新課獲獎(jiǎng)?wù)n件
- 2025年個(gè)人向企業(yè)借款合同協(xié)議樣本
- (二調(diào))武漢市2025屆高中畢業(yè)生二月調(diào)研考試 英語試卷(含標(biāo)準(zhǔn)答案)+聽力音頻
- 數(shù)學(xué)-湖北省武漢市2025屆高中畢業(yè)生二月調(diào)研考試(武漢二調(diào))試題和解析
- 2025屆華潤(rùn)數(shù)科校園招聘正式啟動(dòng)筆試參考題庫附帶答案詳解
- 2025年湖南環(huán)境生物職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)傾向性測(cè)試題庫完整版
- 煤礦常用機(jī)電設(shè)備的日常管理-培訓(xùn)課件
- 2025年新執(zhí)業(yè)醫(yī)師定期考核真題庫附參考答案
- 第三單元第1課《廣而告之》課件-七年級(jí)美術(shù)下冊(cè)(人教版2024)
評(píng)論
0/150
提交評(píng)論