習(xí)題3(第三章-分類技術(shù))_第1頁
習(xí)題3(第三章-分類技術(shù))_第2頁
習(xí)題3(第三章-分類技術(shù))_第3頁
習(xí)題3(第三章-分類技術(shù))_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上習(xí)題3(第三章 分類技術(shù))1. 在決策樹歸納中,選項(xiàng)有:(a)將決策樹轉(zhuǎn)化為規(guī)則,然后對結(jié)果規(guī)則剪枝,或(b)對決策樹剪枝,然后將剪枝后的樹轉(zhuǎn)化為規(guī)則。相對于(b),(a)的優(yōu)點(diǎn)是什么?解答:如果剪掉子樹,我們可以用(b)將全部子樹移除掉,但是用方法(a)的話,我們可以將子樹的任何前提都移除掉。方法(a)約束更少。2. 在決策樹歸納中,為什么樹剪枝是有用的?使用分離的元組集評(píng)估剪枝有什么缺點(diǎn)?解答:決策樹的建立可能過度擬合訓(xùn)練數(shù)據(jù),這樣就會(huì)產(chǎn)生過多分支,有些分支就是因?yàn)橛?xùn)練數(shù)據(jù)中的噪聲或者離群點(diǎn)造成的。剪枝通過移除最不可能的分支(通過統(tǒng)計(jì)學(xué)方法),來排除這些過度擬合的

2、數(shù)據(jù)。這樣得到的決策樹就會(huì)變得更加簡單跟可靠,用它來對未知數(shù)據(jù)分類時(shí)也會(huì)變得更快、更精確。使用分離的元組集評(píng)估剪枝的缺點(diǎn)是,它可能不能代表那些構(gòu)建原始決策樹的訓(xùn)練元組。如果分離的元組集不能很好地代表,用它們來評(píng)估剪枝樹的分類精確度將不是一個(gè)很好的指示器。而且,用分離的元組集來評(píng)估剪枝意味著將使用更少的元組來構(gòu)建和測試樹。3. 畫出包含4個(gè)布爾屬性A,B,C,D的奇偶函數(shù)的決策樹。該樹有可能被簡化嗎?ABCDClassTTTTTTTTFFTTFTFTTFFTTFTTFTFTFTTFFTTTFFFFFTTTFFTTFTFTFTTFTFFFFFTTTFFTFFFFFTFFFFFT解答:決策樹如下,該

3、樹不可能被簡化。4. X是一個(gè)具有期望Np、方差Np(1-p)的二項(xiàng)隨機(jī)變量,證明X/N同樣具有二項(xiàng)分布且期望為p方差為p(1-p)/N。解答:令r=X/N,因?yàn)槭嵌?xiàng)分布,同樣具有二項(xiàng)分布。期望,Er = EX/N = EX/N = (Np)/N = p;方差,E = E= E/ = Np(1-p)/ = p(1-p)/N5. 當(dāng)一個(gè)數(shù)據(jù)對象同時(shí)屬于多個(gè)類時(shí),很難評(píng)估分類的準(zhǔn)確率。評(píng)述在這種情況下,你將使用何種標(biāo)準(zhǔn)比較對相同數(shù)據(jù)建立的不同分類器。解答:一個(gè)數(shù)據(jù)對象可能同時(shí)屬于多個(gè)類,然而,該數(shù)據(jù)對象可能屬于某個(gè)類的概率更高。因此,一個(gè)評(píng)估標(biāo)準(zhǔn)就是選擇正確預(yù)測出該數(shù)據(jù)對象通常屬于哪個(gè)類的分類器

4、。受此啟發(fā),一個(gè)分類預(yù)測如果滿足第一或第二最可能的類,那么就被認(rèn)為是正確的。其他的評(píng)估標(biāo)準(zhǔn)包括速度、魯棒性、可伸縮性和可解釋性。通常,我們選擇的分類器一般趨向于含有這樣的特征:最小化計(jì)算開銷,即使給予噪聲數(shù)據(jù)或不完整數(shù)據(jù)也能準(zhǔn)確預(yù)測,在大規(guī)模數(shù)據(jù)下仍然有效工作,提供簡明易懂的結(jié)果。6. 證明準(zhǔn)確率是靈敏性和特效性的函數(shù),即證明式accuracy = sensitivity+specificity解答:accuracy = = + = + = sensitivity+specificity7. 支持向量機(jī)是一種具有高準(zhǔn)確率的分類方法。然而,在使用大型數(shù)據(jù)元組集進(jìn)行訓(xùn)練時(shí),該方法的處理速度很慢。討

5、論如何克服這一困難,并未大型數(shù)據(jù)集有效的SVM分類開發(fā)一種可伸縮的SVM算法。解答:我們可以使用micro-clustering技術(shù)("Classifying large data sets using SVM with hierarchical clusters" by Yu, Yang, and Han, in Proc. 2003 ACM SIGKDD Int. Conf. Knowledge Discovery and Data Mining (KDD'03), pages 306-315, Aug. 2003 YYH03)來克服這一困難。一種基于簇的SVM

6、方法如下描述:(1) 使用CF樹構(gòu)建微簇;(2) 在微簇的中心訓(xùn)練SVM;(3) 打散邊界附近的條目;(4) 用其他的條目重復(fù)SVM訓(xùn)練;(5) 重復(fù)上面的步驟直到收斂。8. 通過對預(yù)測器變量變換,有些非線性回歸模型可以轉(zhuǎn)化成線性模型。指出如何將非線性回歸方程y=轉(zhuǎn)換成可以用最小二乘方求解的線性回歸方程。解答:運(yùn)用替換:,=,,可以獲得線性模型:。9. 什么是提升(Boosting)?陳述它為何能夠提決策樹歸納的準(zhǔn)確性?解答:提升(Boosting)是一種用來提高分類準(zhǔn)確度的技術(shù)?,F(xiàn)有一個(gè)包含s個(gè)元組的元組集S,訓(xùn)練集(t=1,2,T),給中的元組賦予一定的權(quán)值。在中創(chuàng)建一個(gè)分類器。當(dāng)創(chuàng)建好以后,更新中元組的權(quán)重,這樣如果元組造成分類錯(cuò)誤的話,在接下來的分類器創(chuàng)建時(shí),容易被發(fā)現(xiàn)。這樣就可以提高接下來的分類器的準(zhǔn)確性。運(yùn)用這種技術(shù),就可以保證每一個(gè)分類器都比之前的分類器具有更高的準(zhǔn)確度。最終的分類器組合每個(gè)個(gè)體分類器,其中每個(gè)分類器投票的權(quán)重是其準(zhǔn)確率的函數(shù)。10. 下表匯總了具有三個(gè)屬性A、B、C,以及兩個(gè)分類標(biāo)號(hào)+、-的數(shù)據(jù)集,請根據(jù)此建立一棵兩層的決策樹ABC實(shí)例數(shù)+-TTT50FTT020TFT200FFT05TTF00FTF250TFF00FFF025解答:ABCclass11000+1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論