版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘設(shè)計(jì)指導(dǎo)書數(shù)據(jù)倉庫與數(shù)據(jù)挖掘設(shè)計(jì)指導(dǎo)書自編東華理工大學(xué)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程組目 錄實(shí)驗(yàn)一:數(shù)據(jù)倉庫的環(huán)境配置與構(gòu)建實(shí)驗(yàn)實(shí)驗(yàn)二:數(shù)據(jù)倉庫的OLAP技術(shù)實(shí)驗(yàn)實(shí)驗(yàn)三:數(shù)據(jù)挖掘方法實(shí)踐實(shí)驗(yàn)實(shí)驗(yàn)一、數(shù)據(jù)倉庫的環(huán)境配置與構(gòu)建實(shí)驗(yàn)實(shí)驗(yàn)?zāi)康模?)了解數(shù)據(jù)挖掘與商務(wù)智能之間的聯(lián)系與區(qū)別;2)分析數(shù)據(jù)挖掘倉庫的特性和構(gòu)架;3)掌握數(shù)據(jù)挖掘的功能和建模的標(biāo)準(zhǔn)CRISP-DM。4)掌握MSS的分析服務(wù)、報(bào)表服務(wù)和整合服務(wù),并能夠用以解決實(shí)際問題。實(shí)驗(yàn)結(jié)果分析與要求:完成實(shí)驗(yàn)?zāi)康闹械膬?nèi)容,記錄操作中的各個(gè)步驟,并進(jìn)行分析。實(shí)驗(yàn)內(nèi)容:1、將Excel數(shù)據(jù)表導(dǎo)入SQL數(shù)據(jù)庫中的數(shù)據(jù)表 材料:SQL范例資
2、料.xls中的三國表。 軟件:SQL Server 2008 R2基本步驟:1) 首先按照三國表中的屬性在數(shù)據(jù)口中建立對(duì)應(yīng)的表。2) 打開VS選擇項(xiàng)目中的“Integration Services”項(xiàng)目,并制定項(xiàng)目的保存位置,最后單擊“確定”按鈕即可新建一個(gè)SSIS項(xiàng)目。3) 在“控制流”選項(xiàng)卡中,從工具箱拖拽“數(shù)據(jù)挖掘查詢?nèi)蝿?wù)”的圖示到工作區(qū)中。4) 切換“數(shù)據(jù)流”選項(xiàng)卡,先制定數(shù)據(jù)的源,因?yàn)橐獙?dǎo)入的是Excel數(shù)據(jù),所以從工具箱拖拽Excel源的圖示到工作區(qū)中,然后再Excel源上右擊,選擇菜單上的“編輯”。5) 在Excel源編輯器中,單擊“新建”按鈕來制定Excel數(shù)據(jù)的源,在Exce
3、l連接管理器中,單擊“瀏覽”按鈕來選擇Excel文件,完成后單擊“確定”按鈕。6) 在“Excel工作表的名稱”下拉列表中選擇要導(dǎo)入的數(shù)據(jù)表,然后單擊“確定”按鈕,完成數(shù)據(jù)源的設(shè)置。7) 建立數(shù)據(jù)轉(zhuǎn)換,從工具箱中拖拽“數(shù)據(jù)轉(zhuǎn)換”到工作區(qū)中。8) 在Excel源上右擊,選擇“添加路徑”。9) 指定“Excel源”到“數(shù)據(jù)轉(zhuǎn)換”,最后單擊“確定”按鈕。10) 輸出指定“Excel源輸出”,輸入指定“數(shù)據(jù)轉(zhuǎn)換輸入”,單擊“確定”按鈕。11) 設(shè)置數(shù)據(jù)流的目標(biāo),要導(dǎo)入到SQL的數(shù)據(jù)庫中,從工具箱中拖拽“SQL Server目標(biāo)”到工作區(qū)。12) 然后在“數(shù)據(jù)轉(zhuǎn)換”上右擊,選擇添加路徑來建立與數(shù)據(jù)流目標(biāo)
4、的連接。13) 在“數(shù)據(jù)流”對(duì)話框中,指定從“數(shù)據(jù)轉(zhuǎn)換”到“SQL Server目標(biāo)”,單擊“確定”按鈕。在“選擇輸入輸出”對(duì)話框中,輸出指定“數(shù)據(jù)轉(zhuǎn)換輸出”,輸入指定“SQL Server目標(biāo)輸入”,單擊“確定”按鈕。14) 最后設(shè)置數(shù)據(jù)導(dǎo)入的位置,在“SQL Server目標(biāo)”上右擊,選擇“編輯”。15) 在“SQL 目標(biāo)編輯器”窗口中,單擊“新建”按鈕,然后在“配置 OLE DB連接管理器”窗口轉(zhuǎn)中,同樣單擊“新建”按鈕。16) 在“連接管理器”窗口中,“服務(wù)器名”選擇SQL數(shù)據(jù)庫的位置,在“登錄到服務(wù)器”中選擇“使用windows身份驗(yàn)證”,在“選擇或輸入一個(gè)數(shù)據(jù)庫名”指定數(shù)據(jù)要導(dǎo)入的
5、數(shù)據(jù)庫,單擊“確定”按鈕返回上一個(gè)窗口,再單擊“確定”按鈕。17) 最后要指定數(shù)據(jù)要導(dǎo)入哪一個(gè)數(shù)據(jù)表,選擇完成后單擊“確定”按鈕。18) 接下來選擇“映射”,接著單擊“確定”按鈕即可。19) 現(xiàn)在已經(jīng)完成配置,單擊“啟動(dòng)調(diào)用”按鈕,測試是否錯(cuò)誤,執(zhí)行完畢為綠色,執(zhí)行中為黃色,錯(cuò)誤為紅色。20) 可以到導(dǎo)入的SQL數(shù)據(jù)庫的數(shù)據(jù)表位置查看數(shù)據(jù)是否都已經(jīng)導(dǎo)入了。選擇SQL Server Management Studio打開后找到之前導(dǎo)出的數(shù)據(jù)表來查看。21) 選擇“選擇前1000行”后則可以看到結(jié)果。2、對(duì)數(shù)據(jù)進(jìn)行抽樣材料:SQL范例資料.xls中的三國表。 軟件:SQL Server 2008
6、R2 基本步驟:在“數(shù)據(jù)轉(zhuǎn)換”中選擇“百分比抽樣”,抽樣的百分比為20%。其他同“將Excel數(shù)據(jù)表導(dǎo)入SQL數(shù)據(jù)庫中的數(shù)據(jù)表”的操作步驟。實(shí)驗(yàn)二、交換機(jī)數(shù)據(jù)倉庫的OLAP技術(shù)實(shí)驗(yàn)實(shí)驗(yàn)?zāi)康模?)掌握決策樹模型的基本概念和計(jì)算方法,并用其預(yù)測三國表中“身份屬性”與其他屬性的關(guān)系;2)掌握貝葉斯分類器的基本概念,并用其預(yù)測三國表中“身份屬性”與其他屬性的關(guān)系;3)掌握關(guān)聯(lián)規(guī)則的基本概念和種類,并用其預(yù)測“腎細(xì)胞癌轉(zhuǎn)移情況”。4)對(duì)比以上三種模型,分析其聯(lián)系與區(qū)別。實(shí)驗(yàn)結(jié)果分析與要求:完成實(shí)驗(yàn)?zāi)康闹械膬?nèi)容,記錄操作中的各個(gè)步驟,并進(jìn)行分析。實(shí)驗(yàn)內(nèi)容:1、 使用決策樹模型預(yù)測三國表中“身份屬性”與其他
7、屬性間的關(guān)系;材料:SQL范例資料.xls中的三國表。軟件:SQL Server 2008 R2 基本步驟:1) 首先將三國表導(dǎo)入到SQL數(shù)據(jù)庫中。2) 新建Analysis Service 項(xiàng)目,進(jìn)入項(xiàng)目中的新建挖掘結(jié)構(gòu),使用數(shù)據(jù)挖掘向?qū)斫?,進(jìn)入數(shù)據(jù)挖掘向?qū)醉摵髥螕簟跋乱徊健卑粹o。3) 從現(xiàn)有關(guān)系數(shù)據(jù)庫或數(shù)據(jù)倉庫讀取數(shù)據(jù),即為默認(rèn)值,故直接在這個(gè)頁面單擊“下一步”按鈕。4) 到數(shù)據(jù)挖掘技術(shù)部分,選擇“Microsoft決策樹”后,單擊“下一步”按鈕。5) 選擇所要用數(shù)據(jù)的數(shù)據(jù)庫位置后,單擊“下一步”按鈕。6) 選擇要使用的數(shù)據(jù)表,單擊“下一步”按鈕。7) 選擇所需輸入變量與預(yù)測變量,以
8、及索引鍵;以序列號(hào)碼為索引,身份為預(yù)測變量,并單擊“建議”按鈕以了解預(yù)測變量與其他變量間的相關(guān)性,可找出較具影響力的輸入變量,完成后單擊“確定”按鈕,這時(shí)會(huì)回到原來的頁面,單擊“下一步”按鈕。8) 單擊“建議”按鈕,此時(shí)程序會(huì)提出一些變量的相關(guān)系數(shù),用戶可自行選擇輸入與否。9) 聲明正確的數(shù)據(jù)屬性,完成后單擊“下一步”按鈕。10) 在此可選擇測試數(shù)據(jù)的百分比,本實(shí)驗(yàn)中無測試數(shù)據(jù),百分比選擇“0”。11) 更改挖掘結(jié)構(gòu)名稱,單擊“完成”按鈕。12) 選擇上方的挖掘模型查看器后,程序詢問是否生成和部署項(xiàng)目,單擊“是”按鈕。13) 接下來單擊“運(yùn)行”按鈕。14) 運(yùn)行完成后單擊“關(guān)閉”按鈕。15)
9、建模完成,生成數(shù)據(jù)挖掘結(jié)構(gòu)接口包含數(shù)據(jù)挖掘結(jié)構(gòu)、挖掘模型、挖掘模型查看器、挖掘準(zhǔn)確度圖標(biāo)以及挖掘模型預(yù)測;其中在挖掘結(jié)構(gòu)中,主要是呈現(xiàn)數(shù)據(jù)間的關(guān)聯(lián)性以及分析的變量。而在挖掘模型中,主要是列出所建立的挖掘模型,也可以新建挖掘模型,并調(diào)整變量,變量使用狀況包含Ignore(忽略)、Input(輸入變量)、Predict(預(yù)測變量、輸入變量)以及PredictOnly(預(yù)測變量)。而在挖掘模型上右擊,選擇“設(shè)置算法參數(shù)”針對(duì)方法論的參數(shù)設(shè)置加以編輯。挖掘模型查看器則是呈現(xiàn)此樹狀結(jié)構(gòu),對(duì)于數(shù)據(jù)的分布進(jìn)一步的加以了解。而可以從“依賴關(guān)系網(wǎng)絡(luò)”了解因變量與自變量間的關(guān)聯(lián)性強(qiáng)弱程度。2、 使用貝葉斯模型預(yù)測
10、三國表中“身份屬性”與其他屬性間的關(guān)系;材料:SQL范例資料.xls中的三國表。軟件:SQL Server 2008 R2 基本步驟:除挖掘技術(shù)部分選擇合適的挖掘方法外,其他步驟同上。3、 使用關(guān)聯(lián)規(guī)則預(yù)測腎癌表中“腎細(xì)胞癌轉(zhuǎn)移情況”;材料:SQL范例資料.xls中的腎癌。軟件:SQL Server 2008 R2 基本步驟:除挖掘技術(shù)部分選擇合適的挖掘方法外,其他步驟同上。實(shí)驗(yàn)三、數(shù)據(jù)挖掘方法實(shí)踐實(shí)驗(yàn)實(shí)驗(yàn)?zāi)康模?)掌握邏輯回歸模型;2)使用邏輯回歸模型完成三個(gè)實(shí)例,并進(jìn)總結(jié)。3)使用神經(jīng)網(wǎng)絡(luò)模型對(duì)“腎癌”表中數(shù)據(jù)進(jìn)行分析。實(shí)驗(yàn)內(nèi)容:1、 使用邏輯回歸模型對(duì)“腎癌”表中數(shù)據(jù)進(jìn)行分析;材料:SQ
11、L范例資料.xls中的腎癌表。軟件:SQL Server 2008 R2 基本步驟:1) 首先將三國表導(dǎo)入到SQL數(shù)據(jù)庫中。2)新建Analysis Service 項(xiàng)目,進(jìn)入項(xiàng)目中的新建挖掘結(jié)構(gòu),使用數(shù)據(jù)挖掘向?qū)斫?,進(jìn)入數(shù)據(jù)挖掘向?qū)醉摵髥螕簟跋乱徊健卑粹o。3) 從現(xiàn)有關(guān)系數(shù)據(jù)庫或數(shù)據(jù)倉庫讀取數(shù)據(jù),即為默認(rèn)值,故直接在這個(gè)頁面單擊“下一步”按鈕。4) 到數(shù)據(jù)挖掘技術(shù)部分,選擇“Microsoft邏輯回歸”后,單擊“下一步”按鈕。5) 確認(rèn)數(shù)據(jù)庫中的數(shù)據(jù)表。6) 選擇“癌癥$”數(shù)據(jù)表進(jìn)行分析,選中“事例”復(fù)選框。7) 選擇變量,其中預(yù)測變量為“腎細(xì)胞癌轉(zhuǎn)移情況”,輸入變量為“患者的年齡(歲
12、)”、“腎細(xì)胞癌血管內(nèi)皮生長因子(VEGF)”、“腎細(xì)胞癌組織內(nèi)微血管數(shù)(MV)”、“腎癌細(xì)胞核組織學(xué)分級(jí)”與“腎細(xì)胞癌分期”。8) 要確定變量的數(shù)據(jù)內(nèi)容類型以及數(shù)據(jù)類型,其中輸入變量中“患者的年齡(歲)”、“腎細(xì)胞癌組織內(nèi)微血管數(shù)()”為Continuous,其他皆為Discrete。9) 在此可選擇測試數(shù)據(jù)的百分比,本實(shí)驗(yàn)中無測試數(shù)據(jù),百分比選擇“0”。10) 單擊“挖掘模型查看器”選項(xiàng)卡,所呈現(xiàn)的是概率值,在對(duì)應(yīng)的輸入變量條件下,其預(yù)測變量所發(fā)生的概率。11) 根據(jù)挖掘準(zhǔn)確度圖標(biāo),紅線越靠近藍(lán)色表示越準(zhǔn)確。本實(shí)驗(yàn)中原始模型(紅線)與理想模型(藍(lán)線)很接近,表示此模型準(zhǔn)確度較高。12) 再根據(jù)分類矩陣可以發(fā)現(xiàn),建立的邏輯回歸模型所預(yù)測結(jié)果與實(shí)際分類結(jié)果的預(yù)測正確率高達(dá)97.15%。13) 根據(jù)邏輯回歸模型,利用“挖掘模型預(yù)測”選項(xiàng)卡生成預(yù)測值。2、 使用邏輯回歸模型對(duì)“高中成績”表中數(shù)據(jù)進(jìn)行分析;材料:SQL范例資料.xls中的高中成績。軟件:SQL Server 2008 R2 基本步驟:同上。3、 使用邏輯回歸模型對(duì)“三
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年度人工智能實(shí)習(xí)生勞動(dòng)合同3篇
- 采購合同中的家具定制3篇
- 采購合同評(píng)審表的使用方法3篇
- 采購合同樣本示例3篇
- 2024年度二手房中介買賣合同范文:快速交易版3篇
- 采購合同范本操作實(shí)務(wù)3篇
- 采購合同的綠色采購與可持續(xù)發(fā)展3篇
- 2024年洗車場地租賃與洗車服務(wù)品牌合作合同3篇
- 采購合同中的供應(yīng)鏈在線協(xié)同管理平臺(tái)3篇
- 采購合同管理表格的使用心得3篇
- 2024-2030年中國企業(yè)大學(xué)行業(yè)運(yùn)作模式發(fā)展規(guī)劃分析報(bào)告
- 電動(dòng)力學(xué)-選擇題填空題判斷題和問答題2018
- 房地產(chǎn)激勵(lì)培訓(xùn)
- 山東省濟(jì)南市2023-2024學(xué)年高二上學(xué)期期末考試地理試題 附答案
- 【MOOC】微型計(jì)算機(jī)原理與接口技術(shù)-南京郵電大學(xué) 中國大學(xué)慕課MOOC答案
- 違章建筑舉報(bào)范文
- 糖尿病傷口護(hù)理
- 人教版(2024新版)八年級(jí)上冊物理期末必刷單項(xiàng)選擇題50題(含答案解析)
- 建筑師業(yè)務(wù)實(shí)習(xí)答辯
- 在編警察聘用合同范例
- “小城鎮(zhèn)建設(shè)”論文(六篇)
評(píng)論
0/150
提交評(píng)論