大數(shù)據(jù)十大經(jīng)典算法SVM講解_第1頁(yè)
大數(shù)據(jù)十大經(jīng)典算法SVM講解_第2頁(yè)
大數(shù)據(jù)十大經(jīng)典算法SVM講解_第3頁(yè)
大數(shù)據(jù)十大經(jīng)典算法SVM講解_第4頁(yè)
大數(shù)據(jù)十大經(jīng)典算法SVM講解_第5頁(yè)
已閱讀5頁(yè),還剩28頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)挖掘十大算法之SVM程廣兵

2014.12.22分類(lèi)概念:通過(guò)構(gòu)造一個(gè)分類(lèi)函數(shù)或分類(lèi)器的方法,該方法能把數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)映射到給定類(lèi)別中的某一個(gè),從而可以用于預(yù)測(cè)未知數(shù)據(jù)。數(shù)據(jù):線性可分線性不可分什么是SVM全名:SupportVectorMachine(支持向量機(jī))支持向量:支持或支撐平面上把兩類(lèi)類(lèi)別劃分開(kāi)來(lái)的超平面的向量點(diǎn)。機(jī):一個(gè)算法基于統(tǒng)計(jì)學(xué)習(xí)理論的一種機(jī)器學(xué)習(xí)方法。簡(jiǎn)單的說(shuō),就是將數(shù)據(jù)單元表示在多維空間中,然后對(duì)這個(gè)空間做劃分的算法。SVM的特點(diǎn)SVM是建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上的,根據(jù)有限的樣本信息在模型的復(fù)雜性之間尋求最佳折衷,以期獲得最好的推廣能力(或泛化能力)。

核函數(shù)松弛變量線性分類(lèi)1線性分類(lèi)1線性分類(lèi)最優(yōu)標(biāo)準(zhǔn):分類(lèi)間隔對(duì)于給定的訓(xùn)練數(shù)據(jù)集T和超平面(w,b),定義超平面(w,b)關(guān)于樣本點(diǎn)(xi,yi)的函數(shù)間隔為對(duì)于給定的訓(xùn)練數(shù)據(jù)集T和超平面(w,b),定義超平面(w,b)關(guān)于樣本點(diǎn)(xi,yi)的幾何間隔為||w||叫做向量w的范數(shù),WX的p范數(shù)為||w||p=(X1^p+X2^p+...+Xn^p)^(1/p)函數(shù)間隔和幾何間隔的關(guān)系?=?/||w||(1)最優(yōu)標(biāo)準(zhǔn):分類(lèi)間隔H2與H之間的間隔便是幾何間隔。其中H1:wx+b=1;H2:wx+b=-1;定義超平面(w,b)關(guān)于訓(xùn)練數(shù)據(jù)集T的函數(shù)間隔為超平面(w,b)關(guān)于T中所有樣本點(diǎn)(xi,yi)的函數(shù)間隔之最小值,即同理最終問(wèn)題轉(zhuǎn)化成為求最大?值。(ps:我的理解在找到幾何間隔?后,就要使H1和H2盡可能的離H遠(yuǎn),這樣分類(lèi)就更有說(shuō)服力)在H1和H2上的點(diǎn)就叫做支持向量H1和H2之間的距離稱(chēng)為間隔,間隔依賴(lài)于法向量w,等于2/||w||,H1和H2稱(chēng)為間隔邊界由等式(1),可將問(wèn)題寫(xiě)為求最大的?由于函數(shù)間隔?不影響最優(yōu)化問(wèn)題的解,這樣可以取?=1,由于最大化1/||w||和最小化1/2*||w||*||w||問(wèn)題是等價(jià)的于是問(wèn)題便轉(zhuǎn)化成了求很容易看出當(dāng)||w||=0的時(shí)候就得到了目標(biāo)函數(shù)的最小值。反映在圖中,就是H1與H2兩條直線間的距離無(wú)限大,所有樣本點(diǎn)都進(jìn)入了無(wú)法分類(lèi)的灰色地帶解決方法:加一個(gè)約束條件求最大的?我們把所有樣本點(diǎn)中間隔最小的那一點(diǎn)的間隔定為1,也就意味著集合中的其他點(diǎn)間隔都不會(huì)小于1,于是不難得到有不等式:yi[<w,xi>+b]≥1(i=1,2,…,l)總成立。于是上面的問(wèn)題便轉(zhuǎn)化成了求條件最優(yōu)化問(wèn)題:約束條件這是一個(gè)凸二次規(guī)劃問(wèn)題,所以一定會(huì)存在全局的最優(yōu)解,但實(shí)際求解較為麻煩。實(shí)際的做法:將不等式約束轉(zhuǎn)化為等式約束,從而將問(wèn)題轉(zhuǎn)化為拉格朗日求極值的問(wèn)題。

(2)

(3)最優(yōu)問(wèn)題的求解為了求解線性可分支持向量機(jī)的最優(yōu)化問(wèn)題(2)~(3),將它作為原始最優(yōu)化問(wèn)題,應(yīng)用拉格朗日對(duì)偶性(參考李航的統(tǒng)計(jì)學(xué)習(xí)方法附錄C),通過(guò)求解對(duì)偶問(wèn)題得到原始問(wèn)題的最優(yōu)解,這是線性可分支持向量機(jī)的對(duì)偶算法。

最優(yōu)問(wèn)題的求解引入拉格朗日乘子(ps:之所以,>=0是因?yàn)槿绻蛔鱿薅?,因?yàn)橐髽O大值,而,那么可以取負(fù)無(wú)窮,這樣目標(biāo)值就會(huì)無(wú)窮大,其實(shí)當(dāng)點(diǎn)是支持向量時(shí)>0,其他的點(diǎn)=0)利用Lagrange乘子法:當(dāng)點(diǎn)是支持向量時(shí)y(wx+b)=1當(dāng)點(diǎn)不是支持向量時(shí)y(wx+b)>1這樣Lagrange函數(shù)的第二項(xiàng)始終為零凸二次規(guī)劃問(wèn)題求解代入L(外w,如b,慶a)仿:問(wèn)題嘩轉(zhuǎn)換夠?yàn)橥苟Z次規(guī)葵劃問(wèn)悶題求踏解凸二腎次規(guī)紙劃問(wèn)飲題求夾解更多戚細(xì)節(jié)尾請(qǐng)參名照李采航的板統(tǒng)計(jì)傅學(xué)習(xí)盒方法SV煙M這一遷章凸二局次規(guī)衛(wèi)劃問(wèn)秋題求費(fèi)解為了例題例題線性砍分類(lèi)目標(biāo)參函數(shù)加:梢約律束條氣件:目標(biāo)儲(chǔ)函數(shù)莖:爐約戰(zhàn)束條崖件:拉格惰朗日繼乘數(shù)伏法可按將問(wèn)壞題轉(zhuǎn)聲化為來(lái)對(duì)偶見(jiàn)問(wèn)題戒:目標(biāo)芹函數(shù)疫:字約捧束條鎮(zhèn)件:線性梅分類(lèi)巧妙渠之處新:原池問(wèn)題=>二次鬧凸優(yōu)狠化問(wèn)僅題=>對(duì)偶商問(wèn)題對(duì)偶檢問(wèn)題有求解?。焊扇饷畹耐У胤狡G:未知疏數(shù)據(jù)x的預(yù)握測(cè),碗只需坐要計(jì)拆算它隱與訓(xùn)像練數(shù)回?fù)?jù)點(diǎn)葵的內(nèi)癥積即腦可非線互性分致類(lèi)對(duì)于憐以上折所述鎮(zhèn)的SV窄M,處簽理能拜力還楊是很賊弱,貝僅僅羅能處繳理線拜性可艙分的源數(shù)據(jù)撇。如掏果數(shù)衫據(jù)線學(xué)性不朵可分據(jù)的時(shí)放候,號(hào)我們題就將章低維紐奉的數(shù)劉據(jù)映兇射向分更高掃的維鞋次,催以此君使數(shù)母據(jù)重掏新線出性可憤分。誼這轉(zhuǎn)攔化的唉關(guān)鍵江便是茫核函鋤數(shù)。非線倍性分擋類(lèi)找不蜘到一亮個(gè)超進(jìn)平面成(二考維空盆間:荷直線醒)將翅其分升割開(kāi)亞來(lái),茅而很獵自然奴的想猛到可惡以用販一個(gè)哀橢圓嗓將數(shù)左據(jù)分牌為兩眾類(lèi)Z1=X1,Z2=X12,Z3=X2,Z4=X22,Z5=X1X2(X1,X2)籠—贊—>(Z1,久Z2,葬Z3,誦Z4,摟Z5,)即將才:R2空間瘋映射露到R5空間蔥。此時(shí)界,總饑能找片到一昆個(gè)超隔平面wTZ統(tǒng)+鉆b闊=半0wT=絹{a1,a2,a3,a4,a5}T,b聽(tīng)=熊a6使得濫數(shù)據(jù)勞很好及的分勿類(lèi)。映射材過(guò)后土的空帆間:非線好性分狠類(lèi)令:Z1=X1,Z2=X12,Z3=X2,Z4=X22,Z5=X1X2(X1,X2)踐—悲Φ—勺>(Z1,弦Z2,氏Z3,量Z4,乳Z5,)則:首對(duì)于藝樣本x1=古(η1,η2),扇x2=勾(ξ1,ξ2)Φ(踩x1)避=稻[η1,η12,η2,η22,η1η2]TΦ(亡x2)美=邪[ξ1,ξ12,ξ2,ξ22,ξ1ξ2]T內(nèi)積:我們葛注意而到:非線下性分親類(lèi)我們擔(dān)注意樹(shù)到:若令Φ(衫x1)悲=寺[√2η1蘋(píng),η12,√2η2砍,η22,√2η1η2授,1]T則:那么崖區(qū)別攝在于天什么祥地方代呢?1.一個(gè)忽是將轉(zhuǎn)低維湯空間語(yǔ)數(shù)據(jù)撕映射碼到高稱(chēng)維空怖間中聾,然敞后再使根據(jù)動(dòng)內(nèi)積照的公給式進(jìn)喇行計(jì)場(chǎng)算;另一股個(gè)則惡直接衛(wèi)在原誓來(lái)的低維匪空間潑中進(jìn)傍行計(jì)夕算,而不需圓要顯狹式地寫(xiě)敞出映墨射后派的結(jié)掛果。當(dāng)樣嗽本空穩(wěn)間處寨于高鉤維度礎(chǔ)時(shí),竟第一特種方古法將圈引發(fā)維度勞災(zāi)難,第紀(jì)二種確方法絞仍然跨能夠速?gòu)娜菸鎏幚砗撕袛?shù)核函珠數(shù):概念捧:x,素z∈庭X,挽X屬于Rn空間,非線墊性函數(shù)數(shù)Φ實(shí)現(xiàn)薦輸入侵空間X到特巡壽征空晉間F的映少射,其中F屬于Rm,n<項(xiàng)<m。核與函數(shù)拼技術(shù)程接收2個(gè)低充維空面間的脹向量養(yǎng),能阻夠計(jì)紅算出和經(jīng)某焦變換霧后高盛維空哭間里祝的向車(chē)量?jī)?nèi)拳積值繞。根據(jù)蜓核函舊數(shù)技翻術(shù)有撕:K(廉x,停z)翁=他<氧Φ(際x)五,Φ甘(z芽)扁>其中鞋:<,惰>為內(nèi)身積,K追(x疊,z嚷)為核全函數(shù)奪。例如削:加入搖核函禽數(shù)以釣后的揪分類(lèi)踩函數(shù)外為:核函笛數(shù)核函貫數(shù)應(yīng)裝用廣嗽泛的更原因膛:核函塑數(shù)的物引入含避免橡了“維數(shù)嘩災(zāi)難”,大大減小樂(lè)了計(jì)舟算量。而心輸入賽空間詳?shù)木S圖數(shù)n對(duì)核爽函數(shù)器矩陣祥無(wú)影遣響,能因此缺,核留函數(shù)園方法早可以街有效散處理躁高維鋪輸入家。無(wú)需劉知道返非線毯性變湊換函嘆數(shù)Φ的形引式和香參數(shù)核函復(fù)數(shù)的大形式臨和參峰數(shù)的辯變化瞞會(huì)隱搶式地嚇改變滋從輸狹入空捷間到廈特征淘空間紡的映泛射,心進(jìn)而夏對(duì)特炊征空提間的星性質(zhì)唐產(chǎn)生爺影響教,最權(quán)終改論變各蓬種核汗函數(shù)旬方法賤的性星能。核函擋數(shù)方避法可驅(qū)以和條不同鋒的算兔法相賓結(jié)合增,形虛成多陵種不詠同的庸基于斃核函茶數(shù)技拖術(shù)的塔方法駁,且采這兩部的分的債設(shè)計(jì)祥可以斗單獨(dú)念進(jìn)行,并別可以項(xiàng)為不同于的應(yīng)濤用選落擇不旬同的邪核函牧數(shù)和算糖法。常用賺的核調(diào)函數(shù)多項(xiàng)彩式核陷:線性殼核:高斯孩核:總結(jié)線性阿可分胡:求解唉使得壯超平跨面具息有最獻(xiàn)大內(nèi)獸間間雕隔的wT,b參數(shù)兆。將問(wèn)洪題轉(zhuǎn)謀化為紋對(duì)偶?jí)K問(wèn)題嚷進(jìn)行宣快速舊求解液。改進(jìn)挽:加賣(mài)入松擋弛變?nèi)瘟拷砗蛻蛙壛P因開(kāi)子C的SV興M松弛繳變量舍允許步實(shí)際駱?lè)诸?lèi)古中一您定的托不準(zhǔn)爺確性宜的存侄在,臘引入茄松弛斯變量身后原掘先的書(shū)約束撲條件良變?yōu)榧妫簯土P豬因子漿C則仰是為星了避慌免系濱統(tǒng)輕扮易放卸棄一折些重剪要的瓜數(shù)據(jù)母,減呢小系繞統(tǒng)損拍失。霜引入比C后幫目標(biāo)長(zhǎng)函數(shù)旦變?yōu)槟辏嚎偨Y(jié)線性薪不可雹分:將數(shù)休據(jù)空仇間映也射到鮮高維握空間何,使鼻原本殃線性握不可毯分變猛為線求性可退分。引入鑼核函霧數(shù),縱簡(jiǎn)化霸映射殖空間訓(xùn)中的各內(nèi)積收運(yùn)算允。它避開(kāi)罷了直認(rèn)接在出高維乎空間孟中進(jìn)淡行計(jì)始算,而禮表現(xiàn)辭形式其卻等價(jià)筆于高拐維空山間。不同虹的樣配本結(jié)活構(gòu)與趁不同鑰的核凍函數(shù)喬結(jié)合丸,達(dá)怖到很窮好的涌分割鋒效果因時(shí)律間有嫁限,廳先介棚紹這連么多久,如艱果有硬興趣祥進(jìn)一蚊步學(xué)柏習(xí)的輩同學(xué)番,很扯開(kāi)心次找我拔們可齊以課像下討桐論參考雨資料1.哀《支持遲向量似機(jī)導(dǎo)住論》,[美]鋸Ne中l(wèi)l遺o葡Cr勁is魚(yú)ti斷an錘in蜘i敬/摟Jo版hn乞S幻玉ha麻we積-T工ay第lo阻r著;2.支持妹向量叨機(jī)導(dǎo)臭論一凱書(shū)的架支持奪網(wǎng)站背:ht拘tp廚:/朵/w威ww拒.s攝up盆po還rt已-v墨ec境to巾r.拔ne田t/;3.荒《數(shù)據(jù)貸挖掘輛導(dǎo)論》,[美]能Pa陣ng館-N傻in舍g旬Ta膊n爭(zhēng)/賺Mi霧ch先ae某l賊St栽ei歇nb光ac因h磁/擇Vi世pi能n澡Ku袋ma希r著;4.況《數(shù)據(jù)抵挖掘鉗:概陵念與旬技術(shù)》,(加)J躺ia沙we蛇i柔Ha朱n;襯Mi宵c(diǎn)h緩el積in培e覆Ka給mb襪er著;5.曠《數(shù)據(jù)禍挖掘資中的辛新方名法:吊支持?jǐn)R向量互機(jī)》,鄧辱乃揚(yáng)肥田臟英杰幼著疲;6.沈《支持怖向量廁機(jī)--理論產(chǎn)、算崇法和簡(jiǎn)擴(kuò)展》,鄧舌乃揚(yáng)額田悅英杰金著揚(yáng);7.蹈《模式暫識(shí)別忙支持控向量緊機(jī)指父南》,C.淹J.爬C劃Bu潑rg迎es著;8.漆《統(tǒng)計(jì)版自然眨語(yǔ)言詞處理》,宗尖成慶羽編著丟,第仇十二掠章、筍文本器分類(lèi)婦;9.跌S境VM入門(mén)蘭系列獎(jiǎng),Ja扔sp治er:ht躺tp動(dòng):/簽/w虛ww更.b撐lo憶gj終av因a.情ne殿t/突zh聞en晝an亭da要ci提/c專(zhuān)at臘eg愈or暮y/散31蔥86閘8.條ht應(yīng)ml;10池.數(shù)據(jù)陪挖掘城掘中棄所需急的概朋率論殿與數(shù)爭(zhēng)理統(tǒng)臥計(jì)知楚識(shí)、雜上;11

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論