版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、1. 緒論.21.1項目背景.21.2 提出問題.22 數(shù)據(jù)庫倉庫與數(shù)據(jù)集的概念介紹.22.1數(shù)據(jù)倉庫 .22.2數(shù)據(jù)集.33 數(shù)據(jù)倉庫.33.1 數(shù)據(jù)倉庫的設(shè)計 .33.1.1數(shù)據(jù)倉庫的概念模型設(shè)計 .33.1.2數(shù)據(jù)倉庫的邏輯模型設(shè)計 .33.2 數(shù)據(jù)倉庫的建立 .43.2.1數(shù)據(jù)倉庫數(shù)據(jù)集.43.2.2建立維表 .44.數(shù)據(jù)挖掘操作.54.1數(shù)據(jù)預(yù)處理 .54.1.1描述性數(shù)據(jù)匯總.54.2決策樹.55、實(shí)驗(yàn)心得 . 136、大總結(jié) . 141. 緒論1.1 項目背景在現(xiàn)在大數(shù)據(jù)時代,各行各業(yè)需要對商品及相關(guān)關(guān)節(jié)的數(shù)據(jù)進(jìn)行收集處理,的市場,制定出高效的決策,給企業(yè)帶來經(jīng)濟(jì)收益。1.2 提
2、出問題對于超市的商品的購買時期和購買數(shù)量的如何決定,才可以使銷售量最大,以制定出最佳方案。2 數(shù)據(jù)庫倉庫與數(shù)據(jù)集的概念介紹2.1 數(shù)據(jù)倉庫數(shù)據(jù)倉庫是為企業(yè)所有級別的決策制定過程提供支持的所有類型數(shù)據(jù)的戰(zhàn)略集合。它是單個數(shù)據(jù)存儲,出于分析性報告和決策支持的目的而創(chuàng)建。 為企業(yè)提供需要業(yè)務(wù)智能來指導(dǎo)業(yè)務(wù)流程改進(jìn)和監(jiān)視時間、成本、質(zhì)量和控制。數(shù)據(jù)倉庫研究和解決從數(shù)據(jù)庫中獲取信息的問題。數(shù)據(jù)倉庫的特征在于面向主題、集成性、穩(wěn)定性和時變性。2.2數(shù)據(jù)集 dataset)是一個數(shù)據(jù)包括一個或多個成員。3 數(shù)據(jù)倉庫3.1 數(shù)據(jù)倉庫的設(shè)計僅依賴 ERD,那只能對商品、銷售、客戶主題設(shè)計成如圖所示的概念模型。這
3、種模型適合于傳統(tǒng)的數(shù)據(jù)庫設(shè)計,但不適合于數(shù)據(jù)倉庫的設(shè)計。邏輯建模是數(shù)據(jù)倉庫實(shí)施中的重要一環(huán),因?yàn)樗苤苯臃从吵龈鱾€業(yè)務(wù)的域,確定要裝載到數(shù)據(jù)倉庫的主題、確認(rèn)粒度層次劃分、確認(rèn)數(shù)據(jù)分割策略、關(guān)括每個主題的邏輯定義,并將相關(guān)內(nèi)容記錄在數(shù)據(jù)倉庫的元數(shù)據(jù)中、粒度劃分、數(shù)據(jù)分割策略、表劃分和數(shù)據(jù)來源等。3.2 數(shù)據(jù)倉庫的建立一般說來,一個數(shù)據(jù)集市是按照某一特定部門的決策支持需求而組織起來的、針對一組主題的應(yīng)用系統(tǒng)。例如,財務(wù)部擁有自己的數(shù)據(jù)集市,用來進(jìn)行財務(wù)方面的報表和分析,市場推廣部、銷售部等也擁有各自專用的數(shù)據(jù)集市,用來為本部門的決策支持提供輔助手段。數(shù)據(jù)集市大都采用多維數(shù)據(jù)庫技術(shù) ,這種技術(shù)對數(shù)據(jù)
4、的分析而言也許是最優(yōu)的 ,但肯定不適合于大量數(shù)據(jù)的存儲 ,因?yàn)槎嗑S數(shù)據(jù)庫的數(shù)據(jù)冗余度很高。為了提高速度,對數(shù)據(jù)集市中的數(shù)據(jù)一般都建立大量的索引。換言之,數(shù)據(jù)集市中往往靠對數(shù)據(jù)的預(yù)處理來換取運(yùn)行時的高速度,當(dāng)業(yè)務(wù)部門提出新的問題時,如果不在原來設(shè)計的范圍內(nèi) ,則需要數(shù)據(jù)庫管理員對數(shù)據(jù)庫作許多調(diào)整和優(yōu)化處理。維是分析問題的角度,度量是要分析的問題。多維視圖:用包含度量和維的表的數(shù)據(jù)結(jié)構(gòu)可以創(chuàng)建一個多維視圖,用試題和維創(chuàng)建的多維模型稱為星型模型,星型模型生成的主要表格被稱為事實(shí)表。事實(shí)表的屬性值幾乎都有連續(xù)值。事實(shí)表是規(guī)范化的。與維表不同不是隨時間的推移變化,而是不斷變大。如果把維表置于第二范式中,
5、這樣的表稱為雪花模型。維表包括主鍵,通常對應(yīng)事實(shí)表的外部鍵。如果維表的主鍵不在實(shí)事表中,這個主鍵字便被稱作退化的維。創(chuàng)建維表:有 3 種方法:星型模型、雪花模型和星暴模型。星暴模型含有兩張以上的事實(shí)表。基本有些充當(dāng)維事實(shí)表。星型模型:所有信息維都放在同一個維表中。維表信息包含一個唯一的標(biāo)識符(ID)和通過這個維表建立的所有維所需的屬性。星型模型由小的維表與大的事實(shí)表組成,多稱為“小表和大表”。事實(shí)表一般是標(biāo)準(zhǔn)表。雪花模型:把信息分為 3 種標(biāo)準(zhǔn)格式。產(chǎn)品表、類別表、子類別表。把這些信息放到一起需要一定數(shù)據(jù)的連接。雪花模型比星型模型效率低,占空間少。所有的事實(shí)表都有一個與之相關(guān)的時間維表。4.數(shù)
6、據(jù)挖掘操作4.1 數(shù)據(jù)預(yù)處理對于許多數(shù)據(jù)預(yù)處理任務(wù),希望知道關(guān)于數(shù)據(jù)的中心趨勢和離中趨勢特征。(interquartile range, 理解數(shù)據(jù)的分布。4.2 決策樹(1)讀取文本數(shù)據(jù)使用變量文件節(jié)點(diǎn)讀取定界文本數(shù)據(jù)??梢詮倪x項板中添加變量文件節(jié)點(diǎn), 1 所示。圖1Clementine 安裝目錄。打開目標(biāo)文件目錄,然后選擇名為 sales.xls 的文件。選擇從文件讀取字段名,并注意已載入此對話框中的字段和值。如圖 2 所示。圖2單擊過濾選項,可以把用不到的信息給過濾掉。如圖 3 所示。圖3個字段的實(shí)際值,具體取決于在值列中的選擇。此過程稱為實(shí)例化。如圖 4 所示。圖4(2)添加表將其拖放到
7、工作區(qū)。如圖 5 所示。圖5雙擊選項板中的某個節(jié)點(diǎn)后,該節(jié)點(diǎn)將自動與流工作區(qū)中的選定節(jié)點(diǎn)相連接。此外,如果尚未連接節(jié)點(diǎn),則可以使用鼠標(biāo)中鍵將源節(jié)點(diǎn)與表節(jié)點(diǎn)相連接。要模擬鼠標(biāo)中鍵操作,請在使用鼠標(biāo)時按下 Alt 鍵。如圖 6 所示。圖6要查看表,請單擊工具欄上的綠色箭頭按鈕執(zhí)行流,或者右鍵單擊表節(jié)點(diǎn),然后選擇執(zhí)行。如圖 7 所示。圖7(3)創(chuàng)建分布圖執(zhí)行。如圖 8 所示。圖8 300g 壺瓶棗和 400g沁州黃賣的最多。如圖 9 所示。圖9此外,還可以在“輸出”選項卡中找到數(shù)據(jù)審核節(jié)點(diǎn)。如圖 10 所示。圖11 所示。圖(4)創(chuàng)建散點(diǎn)圖相連接,然后雙擊該節(jié)點(diǎn)對其進(jìn)行編輯。如圖 12 所示。圖在“
8、散點(diǎn)圖”選項卡中,選擇商品名稱作為 X 字段,選擇銷售模式作為 Y字段,并選擇銷售金額作為交疊字段。然后單擊執(zhí)行。如圖 13 所示。圖的銷售模式下,銷售金額明顯高于零售模式下的銷售金額。如圖 14 所示。圖(5)創(chuàng)建直方圖顯示數(shù)據(jù)。首先,將網(wǎng)絡(luò)節(jié)點(diǎn)與您工作區(qū)中的源節(jié)點(diǎn)相連接。如圖 15 所示。圖在“直方圖”選項卡中,選擇商品序號作為 X 字段,選擇銷售數(shù)量作為交疊字段。然后單擊執(zhí)行。如圖 16 所示。圖 1的商品銷售數(shù)量最多,序號為 9 的商品銷售數(shù)量最少。如圖 17 所示。圖5、實(shí)驗(yàn)心得掘中數(shù)據(jù)分析處理的基本方法有了深入的了解,特別是決策樹模型應(yīng)用的理解,這些組并描繪其特征,增強(qiáng)了運(yùn)用決策樹
9、模型和聚類分析模型的能力。通過這次學(xué)習(xí)讓我意識到,對于數(shù)據(jù)我們不僅要能利用統(tǒng)計來分析它的規(guī)所得到的有利信息更好的服務(wù)于數(shù)據(jù)使用者。6、大總結(jié) SPSS 熟練多了。雖然過程中有點(diǎn)折磨過,但當(dāng)你克服了,耐心去一步一步操作,那些煩躁的心情就會慢慢消失,還得要有耐心,認(rèn)真的態(tài)度去操作,才能有結(jié)果。潛在客戶,的確真正的把數(shù)據(jù)挖掘落到實(shí)處。 關(guān)聯(lián)分析具體能用來做什么呢?可以一句話來概括:最大限度地從你口袋里面掏出更多的錢買我的產(chǎn)品。額。如自行車針對不同人群,來制定有效的銷售方案。2.零售超市或商場,可以通過產(chǎn)品關(guān)聯(lián)程度大小,指導(dǎo)產(chǎn)品合理擺放,方便是提高銷售的一個關(guān)鍵。3.進(jìn)行相關(guān)產(chǎn)品推薦或者挑選相應(yīng)的關(guān)聯(lián)
10、產(chǎn)品進(jìn)行精準(zhǔn)營銷。最常見的是分。例如,窮人一般和窮人在一起,富人也喜歡和富人在一起。還有數(shù)據(jù)挖掘的人喜歡和數(shù)據(jù)挖掘的人打交道,都離不開這些鳥道理。 人里面,購買A 的有 60 人,購買B 的有 40 A 和 B 的有 30 A 里面有一半的顧客會購買 B,反推而言。如果推出類似 B 的產(chǎn)品,除了向產(chǎn)品 B 的用戶推薦(因?yàn)樾庐a(chǎn)品與B 的功能效果比較類似)之外,還可以向 A 的客戶進(jìn)行推薦,這樣就能最大限度地尋找更多的目標(biāo)客戶。概率的期望值,與未來的實(shí)際收益不會完全相等。決策樹法是管理人員和決策分析人員經(jīng)常采用的一種行之有效的決策工具。它具有下列優(yōu)點(diǎn):各可行方法在各種不同狀態(tài)下的期望值。2.能直觀地顯示整個決策問題在時間和決策順序上不同階段的決策過程。3.在應(yīng)用于復(fù)雜的多階段決策時,階段明顯,層次清楚,便于決策機(jī)構(gòu)集體研究,可以周密地思考各種因素,有利于作出正確的決策。當(dāng)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年浙科版必修1歷史下冊階段測試試卷
- 2025年冀教版九年級歷史下冊階段測試試卷含答案
- 2025年新科版七年級物理上冊月考試卷含答案
- 2025年教科新版八年級地理上冊月考試卷
- 2025年牛津譯林版八年級地理下冊月考試卷含答案
- 2025年岳麓版九年級歷史上冊階段測試試卷含答案
- 2025年度煤炭行業(yè)安全生產(chǎn)責(zé)任保險合同7篇
- 二零二五版門衛(wèi)服務(wù)與社區(qū)治安管理合同3篇
- 二零二五版門衛(wèi)值班人員安全管理聘用合同4篇
- 二零二五年度城市更新項目泥水工施工合同4篇
- 兩辦意見八硬措施煤礦安全生產(chǎn)條例宣貫學(xué)習(xí)課件
- 40篇短文搞定高中英語3500單詞
- 人教版高中數(shù)學(xué)必修二《第九章 統(tǒng)計》同步練習(xí)及答案解析
- 重大危險源的風(fēng)險評估模型
- 兒科護(hù)理安全警示教育課件
- 三年級下冊口算天天100題
- 國家中英文名稱及代碼縮寫(三位)
- 人員密集場所消防安全培訓(xùn)
- 液晶高壓芯片去保護(hù)方法
- 使用AVF血液透析患者的護(hù)理查房
- 拜太歲科儀文檔
評論
0/150
提交評論