數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嶒炛笇?dǎo)_圖文_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嶒炛笇?dǎo)_圖文_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嶒炛笇?dǎo)_圖文_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嶒炛笇?dǎo)_圖文_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嶒炛笇?dǎo)_圖文_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程實驗本實驗是數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程的驗證性實驗環(huán)節(jié)。課程共計8學(xué)時。實驗?zāi)繕?biāo):1、 掌握建立和配置數(shù)據(jù)倉庫的基本操作技能。主要包括數(shù)據(jù)倉庫系統(tǒng)的安裝。2、 掌握數(shù)據(jù)倉庫中數(shù)據(jù)的處理技術(shù)。主要包括數(shù)據(jù)倉庫的建模、事務(wù)數(shù)據(jù)的轉(zhuǎn)換、備份數(shù)據(jù)的恢復(fù)。3、 掌握基于數(shù)據(jù)倉庫的自動數(shù)據(jù)分析技術(shù)的基本操作技能。包括多維數(shù)據(jù)分析和數(shù)據(jù)挖掘。4、 掌握一種專用數(shù)據(jù)挖掘軟件,用以分析處理文本或電子表格的數(shù)據(jù)。實驗環(huán)境:l Microsoft SQLServer2000l Microsoft SQLServer2000 Analysis Servcel DBMiner2.0l Microso

2、ft SQLServer2000 PACK4l JAVA 運(yùn)行時環(huán)境:JRE5.0l WEKA3.55實驗項目:l 實驗1:安裝數(shù)據(jù)倉庫系統(tǒng)平臺 1.5學(xué)時l 實驗2:構(gòu)建數(shù)據(jù)倉庫數(shù)據(jù)環(huán)境 1.5學(xué)時l 實驗3:多維數(shù)據(jù)分析 1.5學(xué)時l 實驗4:基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘?qū)嶒?2.0學(xué)時l 實驗5:數(shù)據(jù)挖掘平臺應(yīng)用實驗 1.5學(xué)時實驗1:安裝數(shù)據(jù)倉庫系統(tǒng)平臺l 實驗任務(wù):1掌握Microsoft Server2000 數(shù)據(jù)倉庫系統(tǒng)的安裝與配置2安裝實驗分析環(huán)境:1)安裝 Microsoft Server2000 analysis Service2)安裝DBMiner2.03 安裝 Java 運(yùn)行

3、時環(huán)境 JRE5.04)安裝 WEKAl 實驗準(zhǔn)備:請從黑板或網(wǎng)上獲取安裝文件所在的網(wǎng)絡(luò)地址。并記在下面:網(wǎng)絡(luò)資料的地址是:_ 本實驗不得超過1.5學(xué)時。l 實驗指導(dǎo): Lab1.1 檢查并安裝Microsoft Server2000單元目標(biāo):確保完整正確的數(shù)據(jù)倉庫實驗環(huán)境工作步驟:1檢查你所使用的電腦上是否有Microsoft Server2000。如果有,啟動并檢查Microsoft Server2000 是否安裝了Server Pack3以上的補(bǔ)丁文件。2如果以上都沒問題,則本實驗結(jié)束。3下載相應(yīng)的系統(tǒng)文件安裝。先安裝Microsoft Server2000, 再安裝Server Pac

4、k3或Server Pack4。Lab1.2 檢查并安裝數(shù)據(jù)分析環(huán)境單元目標(biāo):確保安裝了相應(yīng)的數(shù)據(jù)分析軟件工作步驟:1 檢查你所使用的電腦是否安裝了Microsoft Server2000 analysisService ,DBMiner2.0, JRE5.0, WEKA3.5.5。如果都已安裝且能正常運(yùn)行,則本實驗結(jié)束。否則進(jìn)入以下步驟。2 如果沒有安裝以上軟件。請按以下次序從網(wǎng)絡(luò)資料地址上下載軟件完成安裝。完成Lab1.1 和Lab1,2后,本實驗結(jié)束。實驗2:構(gòu)建數(shù)據(jù)倉庫數(shù)據(jù)環(huán)境l 實驗任務(wù):本實驗主要驗證ETL 的數(shù)據(jù)處理過程。主要實驗任務(wù)有:1構(gòu)建數(shù)據(jù)倉庫模型,并在數(shù)據(jù)倉庫系統(tǒng)中生成

5、相應(yīng)的數(shù)據(jù)表。2將事務(wù)數(shù)據(jù)庫中的數(shù)據(jù)轉(zhuǎn)入數(shù)據(jù)倉庫中。3還原備份和還原的數(shù)據(jù)倉庫中的數(shù)據(jù)。l 實驗準(zhǔn)備:請從黑板或網(wǎng)上獲取數(shù)據(jù)文件所在的網(wǎng)絡(luò)地址。并記在下面:數(shù)據(jù)文件的地址是:_ 本實驗不得超過1.5學(xué)時。本實驗將使用Microsoft SQLserver 的示例數(shù)據(jù)庫:Northwind,這是一個商貿(mào)公司的銷售數(shù)據(jù)庫。我們將這個事務(wù)型的數(shù)據(jù)導(dǎo)入到分析型的數(shù)據(jù)倉庫中去。l 實驗指導(dǎo): Lab2.1 用caseStudio2.15 建立數(shù)據(jù)倉庫的星型模型單元目標(biāo):建立Northwind_DW的數(shù)據(jù)倉庫模型。如下圖所示。并根據(jù)該模型生成相應(yīng)的數(shù)據(jù)倉庫的維表和事實表的結(jié)構(gòu)。工作步驟:1. 按下圖樣式建

6、立Northwind_DW的昨型數(shù)據(jù)模 型,請根據(jù)原事務(wù)數(shù)據(jù)庫中相應(yīng)字段的數(shù)據(jù)類型和寬度,對應(yīng)地設(shè)計相應(yīng)字段的數(shù)據(jù)類型和寬度。2. 安裝并啟動CaseStudio2.15,設(shè)計以上模型。3. 運(yùn)行生成腳本(Generate script)生成相應(yīng)的SQL 代碼。Lab2.2 將事務(wù)型數(shù)據(jù)加載到分析數(shù)據(jù)環(huán)境中單元目標(biāo):根據(jù)以上實驗單元建立的數(shù)據(jù)模型,在MicrosoftSQL2000中建立相應(yīng)的物理數(shù)據(jù)倉庫。工作步驟:1. 請從教師課件中“數(shù)據(jù)倉庫與數(shù)據(jù)挖掘”目錄下的Lab2008中下載文檔“多維數(shù)據(jù)分析操作演練.pdf ”2. 用Adobe reader打開該文檔。3. 在數(shù)據(jù)倉庫創(chuàng)建部分,可

7、以使用Lab2.1中的模型進(jìn)行創(chuàng)建和轉(zhuǎn)化。4. 按照上面所列步驟進(jìn)行操作。最終完成事實表和維表的數(shù)據(jù)轉(zhuǎn)移。Lab2.3 數(shù)據(jù)倉庫中數(shù)據(jù)的備份與恢復(fù)單元目標(biāo):1將已生成的數(shù)據(jù)倉庫的數(shù)據(jù)進(jìn)行備份。2利用備份文件向新的數(shù)據(jù)庫中還原數(shù)據(jù)倉庫的數(shù)據(jù)。工作步驟:1、備份打開Sqlserver 企業(yè)管理器,在需要備份的數(shù)據(jù)庫上點(diǎn)鼠標(biāo)右鍵,所有任務(wù)中選備份數(shù)據(jù)庫。再從Sqlserver 安裝目錄中的Data 目錄下,拷貝出要備份的數(shù)據(jù)庫文件*.mdf,*.ldf,并備份這兩個文件2、還原將要還原的數(shù)據(jù)庫文件*.mdf,*.ldf拷貝到Sqlserver 安裝目錄下的Data 目錄下。打開Sqlserver 企

8、業(yè)管理器,新建一個數(shù)據(jù)庫,在數(shù)據(jù)庫這一項上點(diǎn)鼠標(biāo)右鍵,在所有任務(wù)中選導(dǎo)入數(shù)據(jù)庫,以拷貝到Data 目錄下的mdf 恢復(fù)數(shù)據(jù)庫。 還原過程中,如果有什么異常,請參考“數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)上機(jī)”目錄下的“數(shù)據(jù)倉庫實習(xí)指導(dǎo).pdf ”中的還原部分的內(nèi)容。實驗3:多維數(shù)據(jù)分析l 實驗任務(wù):本實驗主要驗證OLAP 多維分析的過程。主要包括完成OLAP 數(shù)據(jù)庫的創(chuàng)建,多維數(shù)據(jù)集的創(chuàng)建。存儲和處理多維數(shù)據(jù),瀏覽多維數(shù)據(jù)集等實驗任務(wù)。l 實驗準(zhǔn)備:本實驗使用的操作參考為Lab2.2中下載的文檔,“多維數(shù)據(jù)分析操作演練.pdf ”。 本實驗不得超過1.5學(xué)時。l 實驗指導(dǎo):Lab3.1 多維數(shù)據(jù)分析實驗單元目

9、標(biāo):1掌握Microsoft analysis Service的中對OALP 數(shù)據(jù)庫的操作步驟2在使用過程中熟悉和理解相應(yīng)的概念。工作步驟:1 在“多維數(shù)據(jù)分析操作演練.pdf ”中從P85開始進(jìn)行相應(yīng)的操作演練。2 在實驗過程中,如果對相應(yīng)的操作還不是很理解,請在” 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)上機(jī)”目錄下有“Sqlserver 數(shù)據(jù)分析.rar ”文檔,解壓后,有詳細(xì)的幫助和演練信息。實驗4:基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘?qū)嶒瀕 實驗任務(wù):1 基于Microsoft SQLserver2000 Analyses Service 的數(shù)據(jù)挖掘模型對數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行決策樹分析和聚類分析;2 使用DBMin

10、er2.0對數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行聚類、關(guān)聯(lián)分析;3 使用DBMiner2.0對數(shù)據(jù)倉庫的數(shù)據(jù)分析進(jìn)行可視化。l 實驗準(zhǔn)備:本實驗的實驗指導(dǎo)參考資料在網(wǎng)上,請下載參考。本實驗不得超過1.5學(xué)時。l 實驗指導(dǎo): Lab4.1 基于Microsoft SQLserver2000 Analyses Service的數(shù)據(jù)挖掘 單元目標(biāo):掌握Microsoft SQLserver2000 Analyses Service的數(shù)據(jù)挖掘模型的使用步驟 工作步驟:請在” 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)上機(jī) ”目錄下有“Sqlserver 數(shù)據(jù)分析.rar ”文檔,解壓后,按下圖所指,完成“數(shù)據(jù)挖掘”的演練。Lab4.2

11、基于DBMiner2.0的數(shù)據(jù)挖掘 (選做)單元目標(biāo):掌握DBminer2.0對數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行可視化分類、聚類、關(guān)聯(lián)分析 由于時間有限,指導(dǎo)教師將進(jìn)行一些現(xiàn)場的演練指導(dǎo)。工作步驟:1. 在” 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)Lab2008”目錄下下載相應(yīng)的操作手冊“DBMinerManual.pdf ”文檔,閱讀第一、二章。2. 對多維數(shù)據(jù)集進(jìn)行可視化分析。(chapter 4)3. 對多維數(shù)據(jù)集進(jìn)行關(guān)聯(lián)分析。(chapter 6)4. 對多維數(shù)據(jù)集進(jìn)行分類挖掘。(chapter 7)5. 對多維數(shù)據(jù)集進(jìn)行聚類分析。(chapter 8)實驗5:數(shù)據(jù)挖掘平臺應(yīng)用實驗l 實驗任務(wù):1 熟悉WEKA

12、數(shù)據(jù)挖掘平臺的基本功能。2能夠?qū)Υ嬗谖谋净螂娮颖砀裰械臄?shù)據(jù)進(jìn)行數(shù)據(jù)挖掘分析3本實驗為選做,對畢業(yè)論文分析數(shù)據(jù)有利用價值。l 實驗準(zhǔn)備:1. 下載Java 運(yùn)行時環(huán)境JRE1.5。2. 下載WEKA 并安裝運(yùn)行3. 在” 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)Lab2008”目錄下下載“WEKA 中文使用手冊.pdf ”,有較詳細(xì)的使用說明4所需要的數(shù)據(jù)存放在“數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)Lab2008WEKA_DATA”下。 l 實驗指導(dǎo):Lab5.1 用WEKA 進(jìn)行決策樹分析單元目標(biāo):掌握WEKA 進(jìn)行決策樹分析的步驟。工作步驟:WEKA 把分類(Classification和回歸(Regression都放在“

13、Classify ”選項卡中,這是有原因的。在這兩個任務(wù)中,都有一個目標(biāo)屬性(輸出變量)。我們希望根據(jù)一個樣本(WEKA中稱作實例 的一組特征(輸入變量),對目標(biāo)進(jìn)行預(yù)測。為了實現(xiàn)這一目的,我們需要有一個訓(xùn)練數(shù)據(jù)集,這個數(shù)據(jù)集中每個實例的輸入和輸出都是已知的。觀察訓(xùn)練集中的實例,可以建立起預(yù)測的模型。有了這個模型,我們就可以新的輸出未知的實例進(jìn)行預(yù)測了。衡量模型的好壞就在于預(yù)測的準(zhǔn)確程度。 在WEKA 中,待預(yù)測的目標(biāo)(輸出)被稱作Class 屬性,這應(yīng)該是來自分類任務(wù)的“類”。一般的,若Class 屬性是分類型時我們的任務(wù)才叫分類,Class 屬性是數(shù)值型時我們的任務(wù)叫回歸。 選擇算法我們使

14、用C4.5決策樹算法對bank-data 建立起分類模型。 我們來看原來的“bank-data.csv ”文件?!癐D ”屬性肯定是不需要的。由于C4.5算法可以處理數(shù)值型的屬性,我們不用像前面用關(guān)聯(lián)規(guī)則那樣把每個變量都離散化成分類型。 盡管如此,我們還是把“Children ”屬性轉(zhuǎn)換成分類型的兩個值“YES ”和“NO ”。另外,我們的訓(xùn)練集僅取原來數(shù)據(jù)集實例的一半;而從另外一半中抽出若干條作為待預(yù)測的實例,它們的“pep ”屬性都設(shè)為缺失值。經(jīng)過了這些處理的訓(xùn)練集數(shù)據(jù)在這里下載;待預(yù)測集數(shù)據(jù)在這里下載。我們用“Explorer ”打開訓(xùn)練集“bank.arff ”,觀察一下它是不是按照前

15、面的要求處理好了。切換到“Classify ”選項卡,點(diǎn)擊“Choose ”按鈕后可以看到很多分類或者回歸的算法分門別類的列在一個樹型框里。3.5版的WEKA 中,樹型框下方有一個“Filter. ”按鈕,點(diǎn)擊可以根據(jù)數(shù)據(jù)集的特性過濾掉不合適的算法。我們數(shù)據(jù)集的輸入屬性中有“Binary ”型(即只有兩個類的分類型)和數(shù)值型的屬性,而Class 變量是“Binary ”的;于是我們勾選“Binary attributes”“Numeric attributes”和“Binary class”。點(diǎn)“OK ”后回到樹形圖,可以發(fā)現(xiàn)一些算法名稱變紅了,說明它們不能用。選擇“trees ”下的“J48

16、”,這就是我們需要的C4.5算法,還好它沒有變紅。點(diǎn)擊“Choose ”右邊的文本框,彈出新窗口為該算法設(shè)置各種參數(shù)。點(diǎn)“More ”查看參數(shù)說明,點(diǎn)“Capabilities ”是查看算法適用范圍。這里我們把參數(shù)保持默認(rèn)。 現(xiàn)在來看左中的“Test Option ”。我們沒有專門設(shè)置檢驗數(shù)據(jù)集,為了保證生成的模型的準(zhǔn)確性而不至于出現(xiàn)過擬合(overfitting )的現(xiàn)象,我們有必要采用10折交叉驗證(10-fold cross validation)來選擇和評估模型。若不明白交叉驗證的含義可以Google 一下。 建模結(jié)果 OK ,選上“Cross-validation ”并在“Folds

17、 ”框填上“10”。點(diǎn)“Start ”按鈕開始讓算法生成決策樹模型。很快,用文本表示的一棵決策樹,以及對這個決策樹的誤差分析等等結(jié)果出現(xiàn)在右邊的“Classifier output ”中。同時左下的“Results list”出現(xiàn)了一個項目顯示剛才的時間和算法名稱。如果換一個模型或者換個參數(shù),重新“Start ”一次,則“Results list ”又會多出一項。我們看到“J48”算法交叉驗證的結(jié)果之一為 Correctly Classified Instances 206 68.6667 % 也就是說這個模型的準(zhǔn)確度只有69%左右。也許我們需要對原屬性進(jìn)行處理,或者修改算法的參數(shù)來提高準(zhǔn)確度

18、。但這里我們不管它,繼續(xù)用這個模型。右鍵點(diǎn)擊“Results list”剛才出現(xiàn)的那一項,彈出菜單中選擇“Visualize tree”,新窗口里可以看到圖形模式的決策樹。建議把這個新窗口最大化,然后點(diǎn)右鍵,選“Fit to screen”,可以把這個樹看清楚些??赐旰蠼貓D或者關(guān)掉。這里我們解釋一下“Confusion Matrix”的含義。= Confusion Matrix =a b R,我 們常用支持度(Support)和置信度(Confidence)來衡量它的重要性。規(guī)則的支 持度是用來估計在一個購物籃中同時觀察到 L 和 R 的概率 P(L,R,而規(guī)則的置信 度是估計購物欄中出現(xiàn)了

19、L 時也出會現(xiàn) R 的條件概率 P(R|L。關(guān)聯(lián)規(guī)則的目標(biāo)一 般是產(chǎn)生支持度和置信度都較高的規(guī)則。 有幾個類似的度量代替置信度來衡量規(guī)則的關(guān)聯(lián)程度,它們分別是 Lift(提升 度?) P(L,R/(P(LP(R Lift=1 時表示 L 和 R 獨(dú)立。這個數(shù)越大,越表明 L 和 : R 存 在 在 一 個 購 物 籃 中 不 是 偶 然 現(xiàn) 象 。 Leverage ( 不 知 道 怎 么 翻 譯 ) : P(L,R-P(LP(R 它和 Lift 的含義差不多。Leverage=0 時 L 和 R 獨(dú)立,Leverage 越大 L 和 R 的關(guān)系越密切。 Conviction (更不知道譯了)

20、 P(LP(!R/P(L,!R (!R : 表示 R 沒有發(fā)生) Conviction 也是用來衡量 L 和 R 的獨(dú)立性。從它和 lift 的關(guān)系 (對 R 取反,代入 Lift 公式后求倒數(shù))可以看出,我們也希望這個值越大越好。 值得注意的是,用 Lift 和 Leverage 作標(biāo)準(zhǔn)時,L 和 R 是對稱的,Confidence 和 Conviction 則不然。 參數(shù)設(shè)置 現(xiàn)在我們計劃挖掘出支持度在 10%到 100%之間, 并且 lift 值超過 1.5 且 lift 值排在前 100 位的那些關(guān)聯(lián)規(guī)則。 我們把“l(fā)owerBoundMinSupport”和“upperBoundMi

21、nSupport”分別設(shè)為 0.1 和 1, “metricType”設(shè)為 lift, “minMetric”設(shè)為 1.5, “numRules”設(shè)為 100。 其他選項保持默認(rèn)即可。 “OK” 之后在“Explorer”中點(diǎn)擊“Start”開始運(yùn)行算 法,在右邊窗口顯示數(shù)據(jù)集摘要和挖掘結(jié)果。 下面是挖掘出來的 lift 排前 5 的規(guī)則。 Best rules found: 1. age=52_max save_act=YES current_act=YES 113 = income=43759_max 61 conf:(0.54 lev:(0.0 45 conv:(1.85 2. inco

22、me=43759_max 80 = age=52_max save_act=YES current_act=YES 61 conf:(0.76 lev:(0.0 45 conv:(3.25 3. income=43759_max current_act=YES 63 = age=52_max save_act=YES 61 conf:(0.97 lev:(0.0 45 conv:(15.72 4. age=52_max save_act=YES 151 = income=43759_max current_act=YES 61 conf:(0.4 lev:(0.0 45 conv:(1.49

23、5. age=52_max save_act=YES 151 = income=43759_max 76 conf:(0.5 lev:(0.09 55 conv:(1.72 對于挖掘出的每條規(guī)則,WEKA 列出了它們關(guān)聯(lián)程度的四項指標(biāo)。 命令行方式 我們也可以利用命令行來完成挖掘任務(wù),在“Simlpe CLI”模塊中輸入如下格式 的命令: java weka.associations.Apriori options -t directory-pathbank-data-final.arff 即可完成 Apriori 算法。 注意, “-t”參數(shù)后的文件路徑中不能含有空格。 在前面我們使用的 o

24、ption 為 -N 100 -T 1 -C 1.5 -D 0.05 -U 1.0 -M 0.1 -S -1.0 命令行中使用這些參數(shù)得到的結(jié)果和前面利用 GUI 得到的一樣。 我們還可以加上 I” “- 參數(shù), 得到不同項數(shù)的頻繁項集。 我用的命令如下: java weka.associations.Apriori -N 100 -T 1 -C 1.5 -D 0.05 -U 1.0 -M 0.1 -S -1.0 -I -t d:wekabank-data-final.arff 挖掘結(jié)果在上方顯示。 Lab5.3 用 WEKA 進(jìn)行聚類分析 單元目標(biāo): 掌握 WEKA 進(jìn)行聚類分析的步驟。 工

25、作步驟: 聚類分析中的 “類” (cluster) 和前面分類的 “類” (class) 是不同的, cluster 對 更加準(zhǔn)確的翻譯應(yīng)該是“簇” 。聚類的任務(wù)是把所有的實例分配到若干的簇,使得 同一個簇的實例聚集在一個簇中心的周圍,它們之間距離的比較近;而不同簇實 例之間的距離比較遠(yuǎn)。對于由數(shù)值型屬性刻畫的實例來說,這個距離通常指歐氏 距離。 現(xiàn)在我們對前面的 “bank data” 作聚類分析, 使用最常見的 K 均值 (K-means) 算法。下面我們簡單描述一下 K 均值聚類的步驟。 K 均值算法首先隨機(jī)的指定 K 個簇中心。然后:1將每個實例分配到距它最近的簇中心,得到 K 個簇;

26、2計分 別計算各簇中所有實例的均值,把它們作為各簇新的簇中心。重復(fù) 1和 2,直到 K 個簇中心的位置都固定,簇的分配也固定。 上述 K 均值算法只能處理數(shù)值型的 屬性,遇到分類型的屬性時要把它變?yōu)槿舾蓚€取值 0 和 1 的屬性。WEKA 將自動 實施這個分類型到數(shù)值型的變換,而且 WEKA 會自動對數(shù)值型的數(shù)據(jù)作標(biāo)準(zhǔn)化。 因此,對于原始數(shù)據(jù)“bank-data.csv” ,我們所做的預(yù)處理只是刪去屬性“id” , 保存為 ARFF 格式后,修改屬性“children”為分類型。這樣得到的數(shù)據(jù)文件為 “bank.arff” ,含 600 條實例。 用 “Explorer” 打開剛才得到的 “bank.arff” 并切換到 , “Cluster” 點(diǎn) 。 “Choose” 按鈕選擇“SimpleKMeans” ,這是 WEKA 中實現(xiàn) K 均值的算法。 點(diǎn)擊旁邊的文本框,修改“numClusters”為 6,說明我們希望把這 600 條實 例聚成 6 類,即 K=6。下面的“seed”參數(shù)是要設(shè)置一個隨機(jī)種子,依此產(chǎn)生一 個隨機(jī)數(shù),用來得到 K 均值算法中第一次給出的 K 個簇中心的位置。我們不妨?xí)?時讓它就為 10。 選中“Cluster Mode”的“Use traini

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論