


下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
云南大學(xué)軟件學(xué)院實(shí)驗(yàn)報(bào)告課程:大數(shù)據(jù)分析及應(yīng)用任課教師:蔡莉?qū)嶒?yàn)指導(dǎo)教師〔簽名〕:學(xué)號(hào):20231120233姓名:王依專業(yè):軟件工程日期:成績(jī):實(shí)驗(yàn)八關(guān)聯(lián)和決策樹一、實(shí)驗(yàn)?zāi)康?.理解關(guān)聯(lián)分析和決策樹的相關(guān)知識(shí);2.掌握使用Modeler進(jìn)行關(guān)聯(lián)分析的根本過(guò)程;3.掌握利用關(guān)聯(lián)分析的數(shù)據(jù)建立一個(gè)決策樹的過(guò)程。二、實(shí)驗(yàn)內(nèi)容及步驟〔一〕使用Modeler進(jìn)行關(guān)聯(lián)分析實(shí)驗(yàn)內(nèi)容:對(duì)實(shí)驗(yàn)文件BASKETS1進(jìn)行分析,掌握購(gòu)置數(shù)據(jù)之間的關(guān)聯(lián)情況。實(shí)驗(yàn)步驟:翻開并查看數(shù)據(jù)文件。利用“可變文件〞節(jié)點(diǎn)將“BASKETS1n〞添加節(jié)點(diǎn)中。然后使用“輸出〞選項(xiàng)卡下的“表〞查看數(shù)據(jù),如圖1所示。這里的數(shù)據(jù)是某商場(chǎng)中的購(gòu)置記錄,共18個(gè)字段,1000條記錄,在后面的列中,值“T〞表示已購(gòu)置該商品,值“F〞表示沒(méi)有購(gòu)置該商品。圖1確定關(guān)聯(lián)分析字段。在這里中,需要對(duì)購(gòu)置商品之間進(jìn)行關(guān)聯(lián)分析,即確定客戶購(gòu)置商品之間是否存在關(guān)聯(lián)性,也就是說(shuō)客戶在購(gòu)置一種商品時(shí),購(gòu)置另一種商品的概率是多少。所以,在這里,將選擇記錄中能夠表達(dá)是否購(gòu)置某商品的字段進(jìn)行關(guān)聯(lián)分析,其中有fruitveg,freshmeat,dairy,cannedveg,cannedmeat,frozenmeal,beer,wine,softdrink,fish,confectionery,共11個(gè)字段。讀入分析字段的類型。在工作區(qū)生成“類型〞節(jié)點(diǎn),并雙擊編輯,將上一步驟選出的11個(gè)字段的角色設(shè)定為“兩者〞,如圖2。圖2添加模型節(jié)點(diǎn)。分別在“類型〞之后添加“Apriori〞模型節(jié)點(diǎn)和“Crama〞模型節(jié)點(diǎn),如圖3所示。其中,“Apriori〞模型是基于“最低支持度〞和“最小置信度〞進(jìn)行關(guān)聯(lián)性分析。圖3運(yùn)行并查看“Apriori〞關(guān)聯(lián)模型結(jié)果。運(yùn)行“Apriori〞模型的數(shù)據(jù)流,在右上側(cè)生成數(shù)據(jù)模型,右鍵查看,如圖4所示。表中可以看出,客戶同時(shí)購(gòu)置frozenmeal、beer、cannedveg的概率很高。因此,商家可以將這三種商品放在相鄰的位置,以促進(jìn)銷量。圖4運(yùn)行并查看“Carma〞關(guān)聯(lián)模型結(jié)果。運(yùn)行“Carma〞模型的數(shù)據(jù)流,在右上側(cè)生成數(shù)據(jù)模型,右鍵查看,如圖5所示。同樣可以看出,客戶同時(shí)購(gòu)置frozenmeal、beer、cannedveg的概率很高。圖5利用“網(wǎng)絡(luò)〞圖進(jìn)行定性關(guān)聯(lián)分析。選定“類型〞節(jié)點(diǎn),雙擊“圖形〞選項(xiàng)卡下的“網(wǎng)絡(luò)〞,既可添加“網(wǎng)絡(luò)節(jié)點(diǎn)〞。然后,需雙擊編輯“網(wǎng)絡(luò)〞節(jié)點(diǎn),將步驟〔5〕中選擇的11個(gè)字段選定為分析字段。運(yùn)行該“網(wǎng)絡(luò)〞節(jié)點(diǎn),那么右上區(qū)域生成關(guān)聯(lián)模型,查看該關(guān)聯(lián)模型,如圖6。從圖中說(shuō)明,兩點(diǎn)之間的線越粗,表示兩者間相關(guān)性越強(qiáng)。同時(shí)可以通過(guò)調(diào)節(jié)下面的滑動(dòng)點(diǎn),查看相關(guān)性。圖6〔二〕建立決策樹實(shí)驗(yàn)內(nèi)容:在上一步數(shù)據(jù)關(guān)聯(lián)的根底上,分析哪些顧客是“健康食品購(gòu)置者〞,即同時(shí)購(gòu)置fruitveg和fish。實(shí)驗(yàn)步驟:如何標(biāo)志健康食品購(gòu)置者。點(diǎn)擊“字段選項(xiàng)〞選項(xiàng)卡下的“導(dǎo)出〞增加一個(gè)屬性〔Healthy〕來(lái)標(biāo)識(shí)健康食品購(gòu)置者。編輯“導(dǎo)出〞節(jié)點(diǎn),將字段類型設(shè)為“標(biāo)志〞,并編輯“fruitveg='T'andfish='T'〞,該公式表示消費(fèi)者同時(shí)購(gòu)置fruitveg和fish這兩種商品,如圖7。圖7查看增加“Healthy〞之后的數(shù)據(jù)表。利用“表〞來(lái)查看數(shù)據(jù)表,如圖8,可以看到表中增加了一個(gè)“Healthy〞字段,描述是否為健康食品購(gòu)置者。圖8接入一個(gè)“類型〞節(jié)點(diǎn)。在這里,需要重新編輯字段的角色,如圖9所示。其中與用戶相關(guān)的信息字段〔除cardid外〕角色都設(shè)定為“輸入〞,而“Healthy〞變?yōu)椤拜敵雳?,其他的選擇“無(wú)〞。圖9接入C5.0決策樹模型。雙擊“建模〞選項(xiàng)卡下的“C5.0〞模型,既可以完成添加。如圖10。圖10運(yùn)行決策樹模型。分別運(yùn)行“決策樹〞和“規(guī)那么集〞兩種形式,查看兩者得到的結(jié)果分別如圖11和圖12所示。兩者都分別有不同的表示方式。圖中顯示哪些類型的顧客是健康食品購(gòu)置者。圖11圖12其他屬性的功能,如圖13?!敖M符號(hào)〞是指當(dāng)有多個(gè)字段在同一個(gè)分支時(shí),將這幾個(gè)字段放在一組;“使用boosting〞是指使用局部數(shù)據(jù)作為再次生成決策樹,最后綜合這些決策樹來(lái)提高決策樹的精度;“交互驗(yàn)證〞是指一局部數(shù)據(jù)用來(lái)生成決策樹,一局部作為測(cè)試;“簡(jiǎn)單〞是指生成決策樹的準(zhǔn)確度,但是精確度高的決策樹的移植性不高;“專家〞下的“修剪嚴(yán)重性〞是指修剪的程度。圖13將決策樹模型參加數(shù)據(jù)流。首先選擇“字段選項(xiàng)〞下的“類型〞節(jié)點(diǎn),然后分別雙擊右上側(cè)的“tree〞和“no-cut〞〔已重命名〕,在這之后,分別添加“分析〞節(jié)點(diǎn)作為輸出,得到如圖14的數(shù)據(jù)流。圖14分析“修剪嚴(yán)重性〞為75%的正確性。運(yùn)行“tree〞下“分析〞節(jié)點(diǎn),在圖15中可以看出,決策樹分支的正確率為93.8%。圖15分析“修剪嚴(yán)重性〞為75%的正確性分析“修剪嚴(yán)重性〞為0的正確性。運(yùn)行“no-cut〞下“分析〞節(jié)點(diǎn)后,得到圖16,圖中顯示決策樹分支的正確率為95.1%。由此說(shuō)明這兩者的正確率差異不是十分大,僅為1.3%。但是,一般情況下,會(huì)選擇簡(jiǎn)單的模型作為選擇對(duì)象,即“修剪嚴(yán)重性〞為75%的模型。圖16分析“修剪嚴(yán)重性〞為0的正確性決策樹的另外一個(gè)選項(xiàng)——本錢,如圖17顯示。此處的本錢主要指決策樹將T判為F,而將F判為T的過(guò)程需要本錢,同時(shí)這個(gè)本錢一般并不相同,SPSSModeler14.2的這兩個(gè)默認(rèn)值都是1。在這里,將F判為T的本錢改為0.3,將T判為F的本錢改為2.0,“修剪嚴(yán)重性〞設(shè)定為75%,運(yùn)行該決策樹模型,得到圖59,共有8層。接下來(lái),將這與原來(lái)生成的“tree〞模型〔F判為T的本錢為1.0,T判為F的本錢改為1.0,“修剪嚴(yán)重性〞為75%〕進(jìn)行比擬。圖17圖18添加“輸出〞選項(xiàng)卡下的“矩陣〞節(jié)點(diǎn)。將這個(gè)模型添加到數(shù)據(jù)流中,并在此根底上分別添加“矩陣〞節(jié)點(diǎn),如圖19所示。圖19分別運(yùn)行“矩陣〞節(jié)點(diǎn),并分析數(shù)據(jù)。在運(yùn)行這兩個(gè)節(jié)點(diǎn)之前,需要將這兩個(gè)“矩陣〞節(jié)點(diǎn)的“行〞設(shè)為“Healthy〞,“列
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 考前沖刺注冊(cè)土木工程師考試試題及答案
- 清華標(biāo)準(zhǔn)測(cè)試題及答案
- 護(hù)理類單招試題及答案
- 2025南航招聘面試英語(yǔ)題及答案
- 2025護(hù)士入職筆試題目及答案
- 新能源汽車核心技術(shù)測(cè)試試題及答案
- 小學(xué)教師教育教學(xué)反思與專業(yè)發(fā)展試題及答案
- 智能礦山無(wú)人化作業(yè)2025:關(guān)鍵技術(shù)突破與應(yīng)用案例剖析
- 幼兒園數(shù)學(xué)經(jīng)驗(yàn)反饋考試試題及答案
- 量子通信技術(shù)在工業(yè)互聯(lián)網(wǎng)平臺(tái)的工業(yè)生產(chǎn)數(shù)據(jù)采集預(yù)研報(bào)告
- 2025-2030海上風(fēng)電產(chǎn)業(yè)行業(yè)市場(chǎng)現(xiàn)狀供需分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- 玉器代銷合同協(xié)議書范本
- 正比例函數(shù)性質(zhì)課件
- T-CACM 1212-2019 中醫(yī)婦科臨床診療指南 產(chǎn)后小便不通
- 化學(xué)(三)-2024年中考考前20天終極沖刺攻略(原卷版)
- 高熱的中醫(yī)護(hù)理
- 影音室安裝協(xié)議合同
- 部門工作目標(biāo)管理制度
- 【大單元教學(xué)】第三單元《幸福一家人》單元整體設(shè)計(jì)(含教學(xué)評(píng)價(jià))
- 干部履歷表(中共中央組織部2015年制)
- 社會(huì)體育指導(dǎo)員職業(yè)技能培訓(xùn)大綱
評(píng)論
0/150
提交評(píng)論