




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、支持向量機(三)核函數(shù) 7 核函數(shù)(Kernels) 考慮我們最初在“線性回歸”中提出的問題,特征是房子的面積x,這里的x是實數(shù),結(jié)果y是房子的價格。假設(shè)我們從樣本點的分布中看到x和y符合3次曲線,那么我們希望使用x的三次多項式來逼近這些樣本點。那么首先需要將特征x擴展到三維,然后尋找特征和結(jié)果之間的模型。我們將這種特征變換稱作特征映射(feature mapping)。映射函數(shù)稱作,在這個例子中 我們希望將得到的特征映射后的特征應(yīng)用于SVM分類,而不是最初的特征。這樣,我們需要將前面公式中的內(nèi)積從,映射到。 至于為什么需要映射后的特征而不是最初的特征來參與計算,上面提到的(為了更好地擬合)是
2、其中一個原因,另外的一個重要原因是樣例可能存在線性不可分的情況,而將特征映射到高維空間后,往往就可分了。(在數(shù)據(jù)挖掘?qū)д揚ang-Ning Tan等人著的支持向量機那一章有個很好的例子說明) 將核函數(shù)形式化定義,如果原始特征內(nèi)積是,映射后為,那么定義核函數(shù)(Kernel)為 到這里,我們可以得出結(jié)論,如果要實現(xiàn)該節(jié)開頭的效果,只需先計算,然后計算即可,然而這種計算方式是非常低效的。比如最初的特征是n維的,我們將其映射到維,然后再計算,這樣需要的時間。那么我們能不能想辦法減少計算時間呢? 先看一個例子,假設(shè)x和z都是n維的, 展開后,得 這個時候發(fā)現(xiàn)我們可以只計算原始特征x和z內(nèi)積的平方(時間復(fù)
3、雜度是O(n)),就等價與計算映射后特征的內(nèi)積。也就是說我們不需要花時間了。 現(xiàn)在看一下映射函數(shù)(n=3時),根據(jù)上面的公式,得到 也就是說核函數(shù)只能在選擇這樣的作為映射函數(shù)時才能夠等價于映射后特征的內(nèi)積。 再看一個核函數(shù) 對應(yīng)的映射函數(shù)(n=3時)是 更一般地,核函數(shù)對應(yīng)的映射后特征維度為。(求解方法參見/question/16706714.html)。 由于計算的是內(nèi)積,我們可以想到IR中的余弦相似度,如果x和z向量夾角越小,那么核函數(shù)值越大,反之,越小。因此,核函數(shù)值是和的相似度。 再看另外一個核函數(shù) 這時,如果x和z很相近(),那么核函數(shù)值為
4、1,如果x和z相差很大(),那么核函數(shù)值約等于0。由于這個函數(shù)類似于高斯分布,因此稱為高斯核函數(shù),也叫做徑向基函數(shù)(Radial Basis Function 簡稱RBF)。它能夠把原始特征映射到無窮維。 既然高斯核函數(shù)能夠比較x和z的相似度,并映射到0到1,回想logistic回歸,sigmoid函數(shù)可以,因此還有sigmoid核函數(shù)等等。 下面有張圖說明在低維線性不可分時,映射到高維后就可分了,使用高斯核函數(shù)。 來自Eric Xing的slides 注意,使用核函數(shù)后,怎么分類新來的樣本呢?線性的時候我們使用SVM學(xué)習出w和b,新來樣本x的話,我們使用來判斷,如果值大于等于1,那么是正類,
5、小于等于是負類。在兩者之間,認為無法確定。如果使用了核函數(shù)后,就變成了,是否先要找到,然后再預(yù)測?答案肯定不是了,找很麻煩,回想我們之前說過的 只需將替換成,然后值的判斷同上。 8 核函數(shù)有效性判定 問題:給定一個函數(shù)K,我們能否使用K來替代計算,也就說,是否能夠找出一個,使得對于所有的x和z,都有? 比如給出了,是否能夠認為K是一個有效的核函數(shù)。 下面來解決這個問題,給定m個訓(xùn)練樣本,每一個對應(yīng)一個特征向量。那么,我們可以將任意兩個和帶入K中,計算得到。I可以從1到m,j可以從1到m,這樣可以計算出m*m的核函數(shù)矩陣(Kernel Matrix)。為了方便,我們將核函數(shù)矩陣和都使用K來表示。
6、 如果假設(shè)K是有效地核函數(shù),那么根據(jù)核函數(shù)定義 可見,矩陣K應(yīng)該是個對稱陣。讓我們得出一個更強的結(jié)論,首先使用符號來表示映射函數(shù)的第k維屬性值。那么對于任意向量z,得 最后一步和前面計算時類似。從這個公式我們可以看出,如果K是個有效的核函數(shù)(即和等價),那么,在訓(xùn)練集上得到的核函數(shù)矩陣K應(yīng)該是半正定的() 這樣我們得到一個核函數(shù)的必要條件: K是有效的核函數(shù) = 核函數(shù)矩陣K是對稱半正定的。 可幸的是,這個條件也是充分的,由Mercer定理來表達。 Mercer定理: 如果函數(shù)K是上的映射(也就是從兩個n維向量映射到實數(shù)域)。那么如果K是一個有效核函數(shù)(也稱為Mercer核函數(shù)),那么當且僅當對于訓(xùn)練樣例,其相應(yīng)的核函數(shù)矩陣是對稱半正定的。Mercer定理表明為了證明K是有效的核函數(shù),那么我們不用去尋找,而只需要在訓(xùn)練集上求出各個,然后判斷矩陣K是否是半正定(使用左上角主子式大于等于零等方法)即可。 許多其他的教科書在Mercer定理證明過
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)療器械認證的現(xiàn)場審查與審核流程考核試卷
- 隧道支護設(shè)計考核試卷
- 企業(yè)環(huán)境績效與社會責任報告編制規(guī)范考核試卷
- 兔舍建設(shè)成本控制與養(yǎng)殖行業(yè)標準化推進研究考核試卷
- 廢氣處理技術(shù)綠色化學(xué)與清潔生產(chǎn)理念融合研究考核試卷
- 交通基礎(chǔ)設(shè)施布局與城市居民出行公平性研究考核試卷
- 計劃生育練習試卷1(共388題)
- 做最好的員工演講稿
- 保安公司工作總結(jié)
- 畢業(yè)生創(chuàng)意線上活動方案
- 動物園野生動物馴養(yǎng)繁殖或馴養(yǎng)觀賞可行性研究報告
- 江蘇2024年江蘇省美術(shù)館招聘筆試歷年典型考題及考點附答案解析
- 2023-2024學(xué)年浙江省杭州市小升初考試數(shù)學(xué)試卷含解析
- DZ∕T 0215-2020 礦產(chǎn)地質(zhì)勘查規(guī)范 煤(正式版)
- GB/T 3428-2024架空導(dǎo)線用鍍鋅鋼線
- 中國特色社會主義民族發(fā)展理論研究
- 《責任勝于能力》課件
- GB/T 5465.2-2023電氣設(shè)備用圖形符號第2部分:圖形符號
- 廢氣治理設(shè)施運行管理規(guī)程制度
- 市政工程質(zhì)量通病防治措施
- 漢字的發(fā)展(英文版介紹)Chinese-character
評論
0/150
提交評論