![25基于特征區(qū)域劃分樹(shù)模型_第1頁(yè)](http://file4.renrendoc.com/view/a2b5a8efb8344cab5febafb275d72ecf/a2b5a8efb8344cab5febafb275d72ecf1.gif)
![25基于特征區(qū)域劃分樹(shù)模型_第2頁(yè)](http://file4.renrendoc.com/view/a2b5a8efb8344cab5febafb275d72ecf/a2b5a8efb8344cab5febafb275d72ecf2.gif)
![25基于特征區(qū)域劃分樹(shù)模型_第3頁(yè)](http://file4.renrendoc.com/view/a2b5a8efb8344cab5febafb275d72ecf/a2b5a8efb8344cab5febafb275d72ecf3.gif)
![25基于特征區(qū)域劃分樹(shù)模型_第4頁(yè)](http://file4.renrendoc.com/view/a2b5a8efb8344cab5febafb275d72ecf/a2b5a8efb8344cab5febafb275d72ecf4.gif)
![25基于特征區(qū)域劃分樹(shù)模型_第5頁(yè)](http://file4.renrendoc.com/view/a2b5a8efb8344cab5febafb275d72ecf/a2b5a8efb8344cab5febafb275d72ecf5.gif)
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
16:06 2018 國(guó)家的國(guó)境線(xiàn)都是規(guī)則的直線(xiàn)條組合。這種非自然的劃分背后隱藏著一段屈辱的歷史:19忘記搶占地盤(pán),這些橫平豎直的國(guó)境線(xiàn)就是對(duì)當(dāng)年殖民主義者瓜分非洲無(wú)聲的控訴。瓜分非洲(ScrambleforAfrica)(圖片來(lái)自維基百科中基于樹(shù)方法的分類(lèi)結(jié)果。樹(shù)模型(tree-basedmodel)遵循“分而治之”的思路,以遞決策樹(shù)的生成與對(duì)特征空間的劃分(PatternRecognitionandMachineLearning,圖14.5&14.6)顧名思義,(regressiontree)是用來(lái)完成回歸任務(wù)的樹(shù)模型。和全局的線(xiàn)性回歸區(qū)別在于回歸樹(shù)對(duì)特征空間執(zhí)行的是(recursvepartitioning)。遞歸的劃分的要求為止。這一點(diǎn)在上面的圖示中也有所體現(xiàn)。這樣看來(lái),回歸樹(shù)和原始線(xiàn)性回歸的區(qū)別僅僅在于全局和局部的差異嗎?非也!ion。當(dāng)用來(lái)預(yù)測(cè)輸出的特征有多個(gè)出了線(xiàn)性的范疇。假設(shè)輸入的特征有
x2y=a0+a1x1+a2x2+bx1x2+ x1x2(x1+δ1)(x2+δ2)=x1x2+δ2x1+δ1x2+δ1可以看出,原始的單個(gè)交互項(xiàng)在擾動(dòng)之后變成了四項(xiàng),其中的最后一項(xiàng)無(wú)疑會(huì)給線(xiàn)性模型的解釋造成困擾。而當(dāng)特征的數(shù)目增加時(shí),特征之間交互項(xiàng)的數(shù)目會(huì)以指數(shù)速度增加,從而給這些非線(xiàn)性的描述帶來(lái)嚴(yán)重的困難。和線(xiàn)性回歸“由因及果”的推理方式相比,回歸樹(shù)采用了更有彈性的“由果推因”的方式。它并不直接構(gòu)造從自變量到因變量明確的數(shù)量關(guān)系,而是通過(guò)對(duì)因變量進(jìn)行分組來(lái)確定自變量的影響方式。分組的依據(jù)有兩個(gè):一個(gè)是作為輸出的因變量的相似性,另一個(gè)是作為輸入的單個(gè)自變量的相異性。因變量的相似性決定了被劃分到同一組的數(shù)據(jù)在輸出上的差別較小,自變量的相異性則決定了被劃分到不同組的數(shù)據(jù)在某一個(gè)輸入屬性上的差別較大。對(duì)劃分好的數(shù)據(jù)集繼續(xù)迭代執(zhí)行這個(gè)過(guò)程,就可以完成對(duì)特征空間的遞歸式劃分。由于回歸樹(shù)采用樹(shù)狀結(jié)構(gòu)來(lái)建模,因此從樹(shù)結(jié)構(gòu)的角度看,對(duì)數(shù)據(jù)集的遞歸式劃分就是對(duì)樹(shù)模型的不斷分枝,每個(gè)分枝點(diǎn)都是讓因變量產(chǎn)生最大差異的那個(gè)自變量。在這個(gè)過(guò)程中,每個(gè)節(jié)點(diǎn)內(nèi)樣本的同質(zhì)性會(huì)不斷增強(qiáng),當(dāng)樣本完全同質(zhì)化或者數(shù)目過(guò)少時(shí),回歸樹(shù)的構(gòu)造就完成了。分枝點(diǎn)具體的選擇原則在上一季的專(zhuān)欄中我已經(jīng)做過(guò)介紹,你可以回憶一下。回歸樹(shù)和分類(lèi)樹(shù)的區(qū)別在于將信息增益的指標(biāo)替換成了方差,算法會(huì)選擇分類(lèi)后兩個(gè)類(lèi)別方差之和最小,也就是和原始方差相比下降最大的那個(gè)屬性進(jìn)行劃分,這種劃分方式被稱(chēng)為方(varanereduction)。下面這個(gè)對(duì)回歸樹(shù)劃分方式的說(shuō)明來(lái)自中文文獻(xiàn)《CART分類(lèi)與回歸樹(shù)介紹》,這篇文章發(fā)表在1997年《火山地質(zhì)與礦產(chǎn)》的第8卷第1期上,這從側(cè)面反映出統(tǒng)計(jì)學(xué)習(xí)的應(yīng)用范圍有多么廣泛。文章說(shuō)明劃分的優(yōu)劣取決于生成的結(jié)點(diǎn)中因變量的離散程度,劃分之后因變假設(shè)訓(xùn)練集中總共有300個(gè)數(shù)據(jù),方差為51.5。有一種劃分方式將數(shù)據(jù)集分為142和158兩組,兩組的方差分別是7和49.3。這表明左右兩個(gè)結(jié)點(diǎn)中因變量的離散程度和總體的離散程度相近,顯然,這一劃分的效果不佳。相比之下,另一個(gè)劃分可以讓左結(jié)點(diǎn)中的方差為0.3,右結(jié)點(diǎn)中的方差為.0。這種劃分減少了一半的方差,在每個(gè)結(jié)點(diǎn)里,因變量都更加接近它們的平均值,因而是個(gè)更好的劃分。這樣的過(guò)程體現(xiàn)出體現(xiàn)出一定的規(guī)律性,再對(duì)每個(gè)局部的規(guī)律做出擬合。劃分可以通過(guò)逐步選擇具有最大信息增益或者最大方差下降的特征來(lái)完成,那么在劃分出的局部上如何來(lái)擬合呢?回歸樹(shù)給出了一個(gè)非常簡(jiǎn)單的答案,那就是。這樣的決策樹(shù)輸出的就是像樓梯一樣高低錯(cuò)落的超平面的組合。下。實(shí)現(xiàn)回歸樹(shù)需要調(diào)用Scikit-learn庫(kù)中tree模塊的DecisionTreeRegressor類(lèi)。在擬合時(shí),回歸樹(shù)的最大深度被設(shè)置為3,這意味著對(duì)特征空間的劃分次數(shù)為3次,最多可以分成23=8個(gè)區(qū)域??梢钥吹剑谝痪S的情形下,回歸樹(shù)其實(shí)是分段的常數(shù)函數(shù),只不從回歸樹(shù)的結(jié)果可以看出,在不同的數(shù)據(jù)點(diǎn)上,兩個(gè)特征的交互方式是不同的。樹(shù)算法首先根據(jù)防守球員的得分將數(shù)據(jù)集一分為二。在防守水平前三分之一的隊(duì)伍中,進(jìn)攻水平并沒(méi)有產(chǎn)生太大的影響,一上一下兩個(gè)傲然不群的數(shù)據(jù)點(diǎn)更像是數(shù)據(jù)集中的異常點(diǎn)。而在防守較差的三分之二里,進(jìn)攻和防守之間的互動(dòng)就復(fù)雜了許多,形成的區(qū)域劃分也復(fù)雜了許多。無(wú)論是回歸樹(shù)還是分類(lèi)樹(shù),在生成時(shí)都遵循相同的流程,就是先劃分特征空間,再對(duì)每個(gè)特征空間去擬合。兩者的區(qū)別主要在于選擇劃分特征時(shí)采用的指標(biāo)不同。和線(xiàn)性回歸相比,決策樹(shù)更加符合人類(lèi)做出決策、尤其是像醫(yī)學(xué)診斷這類(lèi)決策的思維流程,它的描述性還要更好一些。但是決策樹(shù)對(duì)加性關(guān)系的表達(dá)能力不強(qiáng),如果因變量真的是自變量的線(xiàn)性組合的話(huà),使用決策樹(shù)恐怕就要弄巧成拙了。貪心策略(greedystrategy)是活在當(dāng)下的方法,在生成樹(shù)時(shí)每次只增加一個(gè)結(jié)點(diǎn),確定(pruning)數(shù)可以寫(xiě)成C(T)=∑∑(tn τ=1
tn)2+λ|Txn表示樣本的自變量,tn表示樣本的因變量,Rτ表示決策樹(shù)劃分出的區(qū)域,其中包含Nτ個(gè)樣本,T表示劃分區(qū)域的數(shù)目。顯然,T的作用是對(duì)目標(biāo)函數(shù)的正則化。決策樹(shù)一個(gè)主要的缺點(diǎn)是對(duì)數(shù)據(jù)點(diǎn)異常敏感,訓(xùn)練數(shù)據(jù)集一點(diǎn)不起眼的變動(dòng)就足以生成一棵完全不同的決策樹(shù),而數(shù)據(jù)集中的異常點(diǎn)也會(huì)對(duì)決策樹(shù)結(jié)果造成未知的影響。此外,在處理回歸任務(wù)時(shí),決策樹(shù)得到的是不連續(xù)的結(jié)果。這樣看來(lái),回歸樣條就可以視為決策樹(shù)的一個(gè)優(yōu)化。廣義來(lái)看,決策樹(shù)可以視為對(duì)基本線(xiàn)性模型的層次化集成,這里的基本模型就是數(shù)據(jù)在每個(gè)劃分區(qū)域上的回歸或分類(lèi)規(guī)則,這些規(guī)則一般是線(xiàn)性的。決
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 個(gè)人借款合同還款協(xié)議書(shū)樣本
- 個(gè)人林地承包合同基礎(chǔ)版
- 專(zhuān)業(yè)翻譯服務(wù)合同(3)風(fēng)險(xiǎn)防范
- 磚渣運(yùn)輸費(fèi)用合同
- 個(gè)人車(chē)輛入股合作合同2025
- 個(gè)人住房擔(dān)保借款合同樣本
- 個(gè)人合伙創(chuàng)業(yè)合同模板
- 中外能源領(lǐng)域合同(二)
- 業(yè)務(wù)合作框架合同樣本
- 個(gè)人設(shè)備抵押借款合同范本
- 《數(shù)學(xué)課程標(biāo)準(zhǔn)》義務(wù)教育2022年修訂版(原版)
- 各種標(biāo)本采集的技術(shù)-痰標(biāo)本的采集(護(hù)理技術(shù))
- 實(shí)驗(yàn)室的設(shè)計(jì)規(guī)劃
- 《新時(shí)代公民道德建設(shè)實(shí)施綱要》、《新時(shí)代愛(ài)國(guó)主義教育實(shí)施綱要》知識(shí)競(jìng)賽試題庫(kù)55題(含答案)
- 2024-2030年中國(guó)假睫毛行業(yè)市場(chǎng)發(fā)展趨勢(shì)與前景展望戰(zhàn)略分析報(bào)告
- 2019-2020學(xué)年七年級(jí)(上)期末數(shù)學(xué)試卷2附解析
- 第3篇 助跑 項(xiàng)目六 異形芯片分揀與安裝講解
- 傳統(tǒng)戲劇藝術(shù)與人工智能的創(chuàng)新傳播渠道
- 2024年越南天然食用香料與色素行業(yè)現(xiàn)狀及前景分析2024-2030
- 實(shí)體瘤療效評(píng)價(jià)標(biāo)準(zhǔn)(RECIST11)
評(píng)論
0/150
提交評(píng)論