支持向量機(jī)算法和軟件ChemSVM介紹_第1頁
支持向量機(jī)算法和軟件ChemSVM介紹_第2頁
支持向量機(jī)算法和軟件ChemSVM介紹_第3頁
支持向量機(jī)算法和軟件ChemSVM介紹_第4頁
支持向量機(jī)算法和軟件ChemSVM介紹_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

支持向量機(jī)算法和軟件ChemSVM介紹陸文聰1,陳念貽1,葉晨洲2,李國(guó)正2

(1.上海大學(xué)化學(xué)系計(jì)算機(jī)化學(xué)研究室,上海,200436)

(2.上海交通大學(xué)圖象及模式識(shí)別研究所,上海,200030)摘要VladimirN.Vapnik等提出的統(tǒng)計(jì)學(xué)習(xí)理論(statisticallearningtheory,簡(jiǎn)稱SLT)和支持向量機(jī)(supportvectormachine,簡(jiǎn)稱SVM)算法已取得令人鼓舞的研究成果。本文旨在對(duì)這一新理論和新算法的原理作一介紹,并展望這一計(jì)算機(jī)學(xué)界的新成果在化學(xué)化工領(lǐng)域的應(yīng)用前景。“ChemSVM”軟件提供了通用的支持向量機(jī)算法,并將其與數(shù)據(jù)庫、知識(shí)庫、原子參數(shù)及其它數(shù)據(jù)挖掘方法有機(jī)地集成起來。關(guān)鍵詞模式識(shí)別;支持向量機(jī);支持向量分類;支持向量回歸中圖分類號(hào):O06-04IntroductiontotheAlgorithmofSupportVectorMachineandtheSoftwareChemSVMLUWen-cong1,CHENNian-yi1,YEChen-zhou2,LIGuo-zheng2(1.LaboratoryofChemicalDataMining,DepartmentofChemistry,ShanghaiUniversity,Shanghai,200436,China)

(2.InstituteofImageandPatternRecognition,JiaotongUniversity,Shanghai,200030,China)Abstracts:Thegreatachievementshavebeenapproachedinthedevelopmentofstatisticallearningtheory(STL)andsupportvectormachine(SVM)aswellaskerneltechniques.ThispaperaimedatintroducingtheprincipleofSLTandSVMalgorithmandprospectingtheirapplicationsinthefieldsofchemistryandchemicalindustry..KeyWords:Statisticallearningtheory,Supportvectormachine,Supportvectorclassification,Supportvectorregression眾所周知,統(tǒng)計(jì)模式識(shí)別、線性或非線性回歸以及人工神經(jīng)網(wǎng)絡(luò)等方法是數(shù)據(jù)挖掘的有效工具,已隨著計(jì)算機(jī)硬件和軟件技術(shù)的發(fā)展得到了廣泛的應(yīng)用[1-4],我們亦曾將若干數(shù)據(jù)挖掘方法用于材料設(shè)計(jì)和藥物構(gòu)效關(guān)系的研究5-12]。但多年來我們也受制于一個(gè)難題:傳統(tǒng)的模式識(shí)別或人工神經(jīng)網(wǎng)絡(luò)方法都要求有較多的訓(xùn)練樣本,而許多實(shí)際課題中已知樣本較少。對(duì)于小樣本集,訓(xùn)練結(jié)果最好的模型不一定是預(yù)報(bào)能力最好的模型。因此,如何從小樣本集出發(fā),得到預(yù)報(bào)(推廣)能力較好的模型,遂成為模式識(shí)別研究領(lǐng)域內(nèi)的一個(gè)難點(diǎn),即所謂“小樣本難題”。最近我們注意到:數(shù)學(xué)家VladimirN.Vapnik等通過三十余年的嚴(yán)格的數(shù)學(xué)理論研究,提出來的統(tǒng)計(jì)學(xué)習(xí)理論statisticallearningtheory簡(jiǎn)稱SLT)[13]和支持向量機(jī)(supportvectormachine,簡(jiǎn)稱SVM)算法已得到國(guó)際數(shù)據(jù)挖掘?qū)W術(shù)界的重視,并在語音識(shí)別[14]、文字識(shí)別[15]、藥物設(shè)計(jì)[16]、組合化學(xué)[17]、時(shí)間序列預(yù)測(cè)[18]等研究領(lǐng)域得到成功應(yīng)用,該新方法從嚴(yán)格的數(shù)學(xué)理論出發(fā),論證和實(shí)現(xiàn)了在小樣本情況下能最大限度地提高預(yù)報(bào)可靠性的方法,其研究成果令人鼓舞。張學(xué)工、楊杰等率先將有關(guān)研究成果引入國(guó)內(nèi)計(jì)算機(jī)學(xué)界,并開展了SVM算法及其應(yīng)用研究[19],但國(guó)內(nèi)化學(xué)化工領(lǐng)域內(nèi)尚未見SVM的應(yīng)用報(bào)道。收稿日期:2002-06-10;修回日期:2002-09-10資金資助:國(guó)家自然科學(xué)基金委和美國(guó)福特公司聯(lián)合資助,批準(zhǔn)號(hào):9716214作者簡(jiǎn)介:陸文聰(1964一),男,教授。研究方向:計(jì)算機(jī)化學(xué)。

本文是本論文系列的第一篇,主要介紹Vapnik等在SLT基礎(chǔ)上提出的SVM算法,包括支持向量分類(supportvectorclassification,簡(jiǎn)稱SVC)算法和支持向量回歸(supportvectorregression,簡(jiǎn)稱SVR)算法,并展望這一計(jì)算機(jī)學(xué)界的新成果在化學(xué)化工領(lǐng)域的應(yīng)用前景。1統(tǒng)計(jì)學(xué)習(xí)理論(SLT)簡(jiǎn)介[13]1.1背景現(xiàn)實(shí)世界中存在大量我們尚無法準(zhǔn)確認(rèn)識(shí)但卻可以進(jìn)行觀測(cè)的事物,如何從一些觀測(cè)數(shù)據(jù)(樣本)出發(fā)得出目前尚不能通過原理分析得到的規(guī)律,進(jìn)而利用這些規(guī)律預(yù)測(cè)未來的數(shù)據(jù),這是統(tǒng)計(jì)模式識(shí)別(基于數(shù)據(jù)的機(jī)器學(xué)習(xí)的特例)需要解決的問題。統(tǒng)計(jì)是我們面對(duì)數(shù)據(jù)而又缺乏理論模型時(shí)最基本的(也是唯一的)分析手段。Vapnik等人早在20世紀(jì)60年代就開始研究有限樣本情況下的機(jī)器學(xué)習(xí)問題,但這些研究長(zhǎng)期沒有得到充分的重視。近十年來,有限樣本情況下的機(jī)器學(xué)習(xí)理論逐漸成熟起來,形成了一個(gè)較完善的SLT體系。而同時(shí),神經(jīng)網(wǎng)絡(luò)等較新興的機(jī)器學(xué)習(xí)方法的研究則遇到一些重要的困難,比如如何確定網(wǎng)絡(luò)結(jié)構(gòu)的問題、過擬合與欠擬合問題、局部極小點(diǎn)問題等。在這種情況下,試圖從更本質(zhì)上研究機(jī)器學(xué)習(xí)的 SLT體系逐步得到重視。1992—1995年,Vapnik等在SLT的基礎(chǔ)上發(fā)展了SVM算法,在解決小樣本、非線性及高維模式識(shí)別問題中表現(xiàn)出許多特有的優(yōu)勢(shì),并能夠推廣應(yīng)用到函數(shù)擬合等其它機(jī)器學(xué)習(xí)問題。很多學(xué)者認(rèn)為,它們正在成為繼模式識(shí)別和神經(jīng)網(wǎng)絡(luò)研究之后機(jī)器學(xué)習(xí)領(lǐng)域中新的研究熱點(diǎn),并將推動(dòng)機(jī)器學(xué)習(xí)理論和技術(shù)有重大的發(fā)展。神經(jīng)網(wǎng)絡(luò)研究容易出現(xiàn)過擬合問題,是由于學(xué)習(xí)樣本不充分和學(xué)習(xí)機(jī)器設(shè)計(jì)不合理的原因造成的,由于此矛盾的存在,所以造成在有限樣本情況下:1)經(jīng)驗(yàn)風(fēng)險(xiǎn)最小不一定意味著期望風(fēng)險(xiǎn)最?。?)學(xué)習(xí)機(jī)器的復(fù)雜性不但與所研究的系統(tǒng)有關(guān),而且要和有限的學(xué)習(xí)樣本相適應(yīng)。SLT體系及其SVM算法在解決“小樣本難題”過程中所取得的核函數(shù)應(yīng)用等方面的突出進(jìn)展令人鼓舞,已被認(rèn)為是目前針對(duì)小樣本統(tǒng)計(jì)估計(jì)和預(yù)測(cè)學(xué)習(xí)的最佳理論。1.2原理Vapnik的SLT的核心內(nèi)容包括下列四個(gè)方面:1)經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則下統(tǒng)計(jì)學(xué)習(xí)一致性的條件;2)在這些條件下關(guān)于統(tǒng)計(jì)學(xué)習(xí)方法推廣性的界的結(jié)論;3)在這些界的基礎(chǔ)上建立的小樣本歸納推理原則;4)實(shí)現(xiàn)這些新的原則的實(shí)際方法(算法)。設(shè)訓(xùn)練樣本集為(y,X),(y,X)XeRm,yeR,其擬合(建模)的數(shù)學(xué)實(shí)質(zhì)是從函數(shù)集中1 1 nn選出合適的函數(shù)f(x),使風(fēng)險(xiǎn)函數(shù):(1)更無法求其極小。傳統(tǒng)的統(tǒng)計(jì)(2)R[f]=j(y-f(X))2P(x,y)dxdy為最小。但因其中的幾率分布函數(shù)5P(x,y)為未知,上式無法計(jì)算,數(shù)學(xué)遂假定上述風(fēng)險(xiǎn)函數(shù)可用經(jīng)驗(yàn)風(fēng)險(xiǎn)函數(shù)R[(1)更無法求其極小。傳統(tǒng)的統(tǒng)計(jì)(2)Remp[f]=土"(y-f(I,))2

i=1根據(jù)大數(shù)定律,式(2)只有當(dāng)樣本數(shù)n趨于無窮大且函數(shù)集足夠小時(shí)才成立。這實(shí)際上是假定最小二乘意義的擬合誤差最小作為建模的最佳判據(jù),結(jié)果導(dǎo)致擬合能力過強(qiáng)的算法的預(yù)報(bào)能力反而降低。為此,slt用結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)Rh[f]代替Rmp[f],并證明了Rh[f]可用下列函數(shù)求極小而得:.[ h(ln2n/h+1)-ln(5/4)(3)min"emp[f]+V n (3)此處n為訓(xùn)練樣本數(shù)目,S.為VC維空間結(jié)構(gòu),力為VC維數(shù),即對(duì)函數(shù)集復(fù)雜性或者學(xué)習(xí)能力的度量。1-8為表征計(jì)算的可靠程度的參數(shù)。SLT要求在控制以VC維為標(biāo)志的擬合能力上界(以限制過擬合)的前提下追求擬合精度??刂芕C維的方法有三大類:1)拉大兩類樣本點(diǎn)集在特征空間中的間隔;2)縮小兩類樣本點(diǎn)各自在特征空間中的分布范圍;3[降低特征空間維數(shù)。一般認(rèn)為特征空間維數(shù)是控制過擬合的唯一手段,而新理論強(qiáng)調(diào)靠前兩種手段可以保證在高維特征空間的運(yùn)算仍有低的VC維,從而保證限制過擬合。對(duì)于分類學(xué)習(xí)問題,傳統(tǒng)的模式識(shí)別方法強(qiáng)調(diào)降維,而SVM與此相反。對(duì)于特征空間中兩類點(diǎn)不能靠超平面分開的非線性問題,SVM采用映照方法將其映照到更高維的空間,并求得最佳區(qū)分二類樣本點(diǎn)的超平面方程,作為判別未知樣本的判據(jù)。這樣,空間維數(shù)雖較高,但VC維仍可壓低,從而限制了過擬合。即使已知樣本較少,仍能有效地作統(tǒng)計(jì)預(yù)報(bào)。對(duì)于回歸建模問題,傳統(tǒng)的化學(xué)計(jì)量學(xué)算法在擬合訓(xùn)練樣本時(shí),將有限樣本數(shù)據(jù)中的誤差也擬合進(jìn)數(shù)學(xué)模型了。針對(duì)傳統(tǒng)方法這一缺點(diǎn),SVR采用七不敏感函數(shù)”,即對(duì)于用f(x)擬合目標(biāo)值y時(shí)/G)=WTX+b,目標(biāo)值y,擬合在七-wTx-b<£時(shí),即認(rèn)為進(jìn)一步擬合是無意義的。這樣擬合得到的不是唯一解,而是一組無限多個(gè)解。SVR方法是在一定約束條件下,以||w||2取極小的標(biāo)準(zhǔn)來選取數(shù)學(xué)模型的唯一解。這一求解策略使過擬合受到限制,顯著提高了數(shù)學(xué)模型的預(yù)報(bào)能力。2支持向量分類(SVC)算法2.1線性可分情形SVM算法是從線性可分情況下的最優(yōu)分類面(OptimalHyperplane)提出的。所謂最優(yōu)分類面就是要求分類面不但能將兩類樣本點(diǎn)無錯(cuò)誤地分開,而且要使兩類的分類空隙最大。d維空間中線性判別函數(shù)的一般形式為g[)=WTX+b,分類面方程是wTx+b=0,我們將判別函數(shù)進(jìn)行歸一化,使兩類所有樣本都滿足gG)x,此時(shí)離分類面最近的樣本的gG)T,而要求分類面對(duì)所有樣本都能正確分類,就是要求它滿足y.("x.+b)-1>0,i=1,2,,n。 (4)式(4)中使等號(hào)成立的那些樣本叫做支持向量(SupportVectors)。兩類樣本的分類空隙(Margin)的間隔大小:Margin=2/網(wǎng) (5)因此,最優(yōu)分類面問題可以表示成如下的約束優(yōu)化問題,即在條件(4)的約束下,求函數(shù)2-2(wTw)(6)4(w)=22-2(wTw)(6)的最小值。為此,可以定義如下的Lagrange函數(shù):L(w,b,以)=-2wtw-&■[yi(wtx+b)-1]i=1其中,ai>0為L(zhǎng)agrange系數(shù),我們的問題是對(duì)w和b求Lagrange函數(shù)的最小值。把式(7)分別對(duì)w、b、ai求偏微分并令它們等于0,得:i=1-=0nEay=0-b iii=1-—=0n以.[y.(wtx+b)-1]=0i以上三式加上原約束條件可以把原問題轉(zhuǎn)化為如下凸二次規(guī)劃的對(duì)偶問題:[max乙-1EEaayyLJi2 ijijiji=1 i=1j=1TOC\o"1-5"\h\z<s.t a>0,i=1,…,n (8)Eay.=0

i1

l i=1這是一個(gè)不等式約束下二次函數(shù)機(jī)制問題,存在唯一最優(yōu)解。若。*為最優(yōu)解,則iw*=Ea*yx (9)iiii=1a*不為零的樣本即為支持向量,因此,最優(yōu)分類面的權(quán)系數(shù)向量是支持向量的線性組合。b*可由約束條件ai[yi(WTX^+b)-1]=0求解,由此求得的最優(yōu)分類函數(shù)是:f(x)=sgn((w*)tx+b*)=sgn(Ea*yx*xb*) (10)" ,―廣ii+i=1sgn()為符號(hào)函數(shù)。2.2非線性可分情形當(dāng)用一個(gè)超平面不能把兩類點(diǎn)完全分開時(shí)(只有少數(shù)點(diǎn)被錯(cuò)分),可以引入松弛變量,(,30,i=1,n),使超平面wTx+b=0滿足:TOC\o"1-5"\h\zy(wtx+b)>1-& (11)當(dāng)0<。<1時(shí)樣本點(diǎn)了.仍舊被正確分類,而當(dāng)。31時(shí)樣本點(diǎn)x被錯(cuò)分。為此,引入以下目標(biāo)函數(shù):i i i iV(w,&)=—WTW+CE& (12)i=1其中C是一個(gè)正常數(shù),稱為懲罰因子,此時(shí)SVM可以通過二次規(guī)劃(對(duì)偶規(guī)劃)來實(shí)現(xiàn):[maxEa-1EEaayy(tx)i2ijijiji=1 i=1j=1<s.t 0<a<C,i=1,…,n (13)Eay.=0iil i=1

3支持向量機(jī)(SVM)的核函數(shù)若在原始空間中的簡(jiǎn)單超平面不能得到滿意的分類效果,則必須以復(fù)雜的超曲面作為分界面,SVM算法是如何求得這一復(fù)雜超曲面的呢?首先通過非線性變換①將輸入空間變換到一個(gè)高維空間,然后在這個(gè)新空間中求取最優(yōu)線性分類面,而這種非線性變換是通過定義適當(dāng)?shù)暮撕瘮?shù)(內(nèi)積函數(shù))實(shí)現(xiàn)的,令:K3,X.)=,::①3.)?①3.)) (14)用核函數(shù)K(x,X)代替最優(yōu)分類平面中的點(diǎn)積xtx,就相當(dāng)于把原特征空間變換到了某一新.j ij的特征空間,此時(shí)優(yōu)化函數(shù)變?yōu)椋?15)Q^)二乙-1££火yyK(x,x).2 ijijij(15)i=i i=1j=1而相應(yīng)的判別函數(shù)式則為:(16)f(x)=sgn[(w*)r4(x)+b*]=sgn(£na*yK(x,x)+b*)(16)i=1其中X.為支持向量,X為未知向量,(16)式就是SVM,在分類函數(shù)形式上類似于一個(gè)神經(jīng)網(wǎng)絡(luò),其輸出是若干中間層節(jié)點(diǎn)的線性組合,而每一個(gè)中間層節(jié)點(diǎn)對(duì)應(yīng)于輸入樣本與一個(gè)支持向量的內(nèi)積,因此也被叫做支持向量網(wǎng)絡(luò),如圖1y=y=sgnS個(gè)支撐向量機(jī)的非線性變換圖1支持向量網(wǎng)絡(luò)預(yù)報(bào)未知樣本類別的示意圖Fig.1Thesketchmapofsupportvectornetworktopredictanunknownsample由于最終的判別函數(shù)中實(shí)際只包含未知向量與支持向量的內(nèi)積的線性組合,因此識(shí)別時(shí)的計(jì)算復(fù)雜度取決于支持向量的個(gè)數(shù)。目前常用的核函數(shù)形式主要有以下三類,它們fK與已有的算法有對(duì)應(yīng)關(guān)系。⑴多項(xiàng)式形式的核函數(shù),即K(X,Xi)=ILxi)+J,對(duì)應(yīng)SVM是一個(gè)q階多項(xiàng)式分類器。(2)徑向基形式的核函數(shù),即K(x,xt)=exp{-與巡"j,對(duì)應(yīng)SVM是一種徑向基函數(shù)分類器。⑶S形核函數(shù),如K(x,xi)=tanh(v(xTx.)+c),則SVM實(shí)現(xiàn)的就是一個(gè)兩層的感知器神經(jīng)網(wǎng)絡(luò),只是在這里不但網(wǎng)絡(luò)的權(quán)值、而且網(wǎng)絡(luò)的隱層節(jié)點(diǎn)數(shù)目也是由算法自動(dòng)確定的。

4支持向量回歸(SVR)方法SVR算法的基礎(chǔ)主要是£不敏感函數(shù)(£-insensitivefunction)和核函數(shù)算法。若將擬合的數(shù)學(xué)模型表達(dá)為多維空間的某一曲線,則根據(jù)£不敏感函數(shù)所得的結(jié)果就是包絡(luò)該曲線和訓(xùn)練點(diǎn)的“£管道”。在所有樣本點(diǎn)中,只有分布在“管壁”上的那一部分樣本點(diǎn)決定管道的位置。這一部分訓(xùn)練樣本稱為“支持向量”(supportvectors)。為適應(yīng)訓(xùn)練樣本集的非線性,傳統(tǒng)的擬合方法通常是在線性方程后面加高階項(xiàng)。此法誠(chéng)然有效,但由此增加的可調(diào)參數(shù)未免增加了過擬合的風(fēng)險(xiǎn)°SVR采用核函數(shù)解決這一矛盾。用核函數(shù)代替線性方程中的線性項(xiàng)可以使原來的線性算法“非線性化”,即能作非線性回歸。與此同時(shí),引進(jìn)核函數(shù)達(dá)到了“升維”的目的,而增加的可調(diào)參數(shù)卻很少,于是過擬合仍能控制。4.1線性回歸情形TOC\o"1-5"\h\z設(shè)樣本集為:G,X),G,x)xwRn,yeR,回歸函數(shù)用下列線性方程來表示,1 1 llfG)=wtx+b (17)最佳回歸函數(shù)通過求以下函數(shù)的最小極值得出,山叫"ILI(18)-u=i.=i .其中C是設(shè)定的懲罰因子值,&、&*為松弛變量的上限與下限。Vapnik提出運(yùn)用下列不敏感損耗函數(shù):3)*:廣.(】9)|/\x\-y-£I'Uicr^ise通過下面的優(yōu)化方程:] 云云W-。:血-叫熾-七)|〕舊5血.〔廠)=m:L頊-歸尸 L(20)TOC\o"1-5"\h\zH.a- 寸/ X4/ 、+ U十劇在下列約束條件下:III<(<. i=<Ct*<<\/=I I土奴-〔,;)=11,■=1求解:a,a*=argmin<1a,a*=argmin<11!Z<—a*X—a*)S)2 iijjijl=1j=1—£a—a*)y+£a+a*)i-'- - -iii iii(21)由此可得拉格朗日方程的待定系數(shù)a,.和a*,從而得回歸系數(shù)和常數(shù)項(xiàng):—a*(22)i(22)i_rib=-2wu+x」4.2非線性回歸情形類似于分類問題,一個(gè)非線性模型通常需要足夠的模型數(shù)據(jù),與非線ftSVC方法相同,一個(gè)非線性映射可將數(shù)據(jù)映射到高維的特征空間中,在其中就可以進(jìn)行線性回歸。運(yùn)用核函數(shù)可以避免模式升維可能產(chǎn)生的”維數(shù)災(zāi)難”,即通過運(yùn)用一個(gè)非敏感性損耗函數(shù),非線性SVR的解即可通過下面方程求出:(23(23)其約束條件為:(24)(25)(24)(25)SVM模塊的應(yīng)用軟件?<(.\ ,■=I..…/.d=l由此可得拉格朗日待定系數(shù)七和a;,回歸函數(shù)fXJ則為:SVs5ChemSVM應(yīng)用軟件介紹以解決化學(xué)化工上問題為目的,我們參照國(guó)際文獻(xiàn)自編了包含“ChemSVM”,其中SVM算法涉及到凸二次規(guī)劃的求解,采用了序貫極小優(yōu)化(SequentialMinimalOptimization)算法[20]。由于SVM算法在應(yīng)用上不夠方便的地方主要是核函數(shù)及其參數(shù)如何選取的問題,為此,“ChmSVM”針對(duì)該問題上作了一些改進(jìn),即一方面在程序的操作界面上提供各種核函數(shù)及其參數(shù),給用戶自由選擇和研究的方便;另一方面,程序可用單純形優(yōu)化方法自動(dòng)選出待選的核函數(shù)及其參數(shù),并根據(jù)數(shù)據(jù)集留一法預(yù)報(bào)正確率最高的目標(biāo)來確定最終計(jì)算用核函數(shù)及其參數(shù),從而建立推廣能力強(qiáng)的數(shù)學(xué)模型。以軟件使用上的方便性、算法上的先進(jìn)性和解決具體問題的有效性為目的,“ChemSVM”軟件將不斷地發(fā)展和完善。“ChemSVM”軟件提供了通用的支持向量機(jī)算法。在具體應(yīng)用問題上,還可以將其與數(shù)據(jù)庫(含分門別類的數(shù)據(jù)表)、知識(shí)庫(含數(shù)據(jù)挖掘規(guī)則等)、原子參數(shù)(由系統(tǒng)自動(dòng)采集)及其它數(shù)據(jù)挖掘方法有機(jī)地集成起來。比如,“ChemSVM”已與熔鹽相圖智能數(shù)據(jù)庫相融合,使SVM算法成為熔鹽相圖智能數(shù)據(jù)庫的有效的數(shù)據(jù)挖掘手段。這方面應(yīng)用成果已另文報(bào)導(dǎo)在本刊有關(guān)SVM應(yīng)用的系列論文中I21,22】。6應(yīng)用前景SLT和SVM算法之所以從20世紀(jì)90年代以來受到很大的重視,在于它們對(duì)有限樣本情況下模式識(shí)別中的一些根本性問題進(jìn)行了系統(tǒng)的理論研究,并且在此基礎(chǔ)上建立了一種較好的通用學(xué)習(xí)算法。以往困擾很多機(jī)器學(xué)習(xí)方法的問題,比如模型選擇與過擬合問題、非線性和維數(shù)災(zāi)難問題、局部極小點(diǎn)問題等,在這里都得到了很大程度上的解決。而且,很多傳統(tǒng)的機(jī)器學(xué)習(xí)方法都可以看作是SVM算法的一種實(shí)現(xiàn),因而SLT和SVM被很多人視作研究機(jī)器學(xué)習(xí)問題的一個(gè)基本框架。一方面研究如何用這個(gè)新的理論框架解決過去遇到的很多問題;另一方面則重點(diǎn)研究以SVM為代表的新的學(xué)習(xí)方法,研究如何讓這些理論和方法在實(shí)際應(yīng)用中發(fā)揮作用。SLT有比較堅(jiān)實(shí)的理論基礎(chǔ)和嚴(yán)格的理論分析,但其中還有很多問題仍需人為決定。比如結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則中的函數(shù)子集結(jié)構(gòu)的設(shè)計(jì)、SVM中的內(nèi)積函數(shù)(包括參數(shù))的選擇等。尚沒有明確的理論結(jié)果指導(dǎo)我們?nèi)绾芜M(jìn)行這些選擇。另外,除了在監(jiān)督模式識(shí)別中的應(yīng)用外,SLT在函數(shù)擬合、概率密度估計(jì)等機(jī)器學(xué)習(xí)問題以及在非監(jiān)督模式識(shí)別問題中的應(yīng)用也是一個(gè)重要研究方向。我們認(rèn)為,SLT和SVM算法(包括SVC和SVR)有可能在化學(xué)化工領(lǐng)域得到深入和廣泛的應(yīng)用,以往用人工神經(jīng)網(wǎng)絡(luò)、傳統(tǒng)統(tǒng)計(jì)模式識(shí)別和線性及非線性回歸等數(shù)據(jù)挖掘算法研究和處理的化學(xué)化工數(shù)據(jù)都可能在應(yīng)用SVM算法后得到更好的處理結(jié)果[23]特別是樣本少、維數(shù)多的“小樣本難題”,應(yīng)用SVM算法建模會(huì)特別有效??梢灶A(yù)計(jì),將來在分析化學(xué)的數(shù)據(jù)處理、化學(xué)數(shù)據(jù)庫的智能化、有機(jī)分子的構(gòu)效關(guān)系(QSAR,QSPR)、分子和材料設(shè)計(jì)、試驗(yàn)設(shè)計(jì)、化工生產(chǎn)優(yōu)化、以及環(huán)境化學(xué)、臨床化學(xué)、地質(zhì)探礦等多方面都有可能展開SLT和SVM算法的應(yīng)用研究,并取得良好效果。參考文獻(xiàn)DomineD.,DevillersJ.,ChastretteM.,KarcherW..Non-linearmappingforstructure-activityandstructure-propertymodeling.JournalofChemomatrics1993,7:227-242WangZiyi,Jenq-Hwang,KowalskiBruceR.,ChemNets:TheoryandApplication,AnalyticalChemistry,1995,67(9):1497-1504RuffiniR.etal.,Usingneuralnetworkforspringbackminimizationinachannelformingprocess,SAETrans.J.Mater.Manufacture,1998,107,65FukunagaK..Introductiontostatisticalpatternrecognition.Academic.NewYork;1972ChenNianyi(陳念貽),QinPei(欽佩),ChenRuiliang(陳瑞亮),LuWencong(陸文聰),ApplicationofPatternRecognitioninChemistryandChemicalEngineering(模式識(shí)別在化學(xué)化工中的應(yīng)用),Peking(北京),SciencePublisher(科學(xué)出版社),2000ChenNianyi,LuWencong,ChemometricMethodsAppliedtoIndustrialOptimizationandMaterialsOptimalDesign,Chemometricsandintelligentlaboratorysystems,1999,45,329-333ChenNianyi,LuWencong,SoftwarePackage“MaterialsDesigner”anditsApplicationinMaterialsResearch,IPMM799,Hawaii,USA,July,1999LUWencong,YANLi-cheng,CHENNian-yi,PatternRecognitionandANNSAppliedtotheFormobilityofComplexIdide,JournalofMolecularScience,1995,11(1):33LiuLiang(劉亮),BaoXinhua(包新華),F(xiàn)engJianxing(馮建星),LuWencong(陸文聰),ChenNianyi(陳念貽),MolecularSievingofPinacolone(or1-Arylethanone)Containing1H-1,2,4-TriazoleGroupandTheirReducedProducts(a-唑基-a-芳氧烷基頻哪酮(芳乙酮)及其醇式衍生物抗真菌活性的分子篩選), ComputerandAppliedChemistry(計(jì)算機(jī)與應(yīng)用化學(xué)),2002,19(4):465LuWencong(陸文聰),BaoXinhua(包新華),WuLan(吳蘭),KongJie(孔杰),YanLicheng(閻立誠(chéng)),ChenNianyi(陳念貽),StudiesonHierarchicalProjectionMethodAppliedtoRegularitiesofFormationofBinaryComplexCompoundinMBr-M’Br2System(二兀漠化物系(MBr-M’Br2)中間化合物形成規(guī)律的逐級(jí)投影法研究), ComputerandAppliedChemistry(計(jì)算機(jī)與應(yīng)用化學(xué)),2002,19(4):474LuWencong(陸文聰),F(xiàn)engJianxing(馮建星),ChenNianyi(陳念貽),TernaryIntermetallicCompoundsbetweentwoTransitionandoneNontransitionElements(二種過渡元素和一種非過渡元素間形成三元金屬間化合物的規(guī)律), ComputerandAppliedChemistry(計(jì)算機(jī)與應(yīng)用化學(xué)),2000,17(1):43LUWencong(陸文聰),YanLicheng(閻立誠(chéng)),ChenNianyi(陳念貽),ExpertSystemPVPECforOptimizedDesignofPTCandV-PTCMaterials (PVPEC-PTC和V-PTC材料優(yōu)化設(shè)計(jì)專家系統(tǒng)),ComputerandAppliedChemistry(計(jì)算機(jī)與應(yīng)用化學(xué)),1996,13(1):39VapnikVladimirN.,TheNatureofStatisticalLearningTheory.Berlin,Springer,1995Wan,Vincent;Campbell,WilliamM.,Supportvectormachinesforspeakerverificationandidentification,NeuralNetworksforSignalProcessing-ProceedingsoftheIEEEWorkshop2,2000:775-784ThorstenJoachims,LearningtoClassifyTextUsingSupportVectorMachines.Dissertation,UniversitaetDortmund,February2001.BurbidgeR,TrotterM,BuxtonB,HoldenS,Drugdesignbymachinelearning:supportvectormachinesforpharmaceuticaldataanalysis,ComputerandChemistry,2001,26(1):5-14TrotterM.W.B.,Buxton,B.F.,Holden,S.B.,Supportvectormachinesincombinatorialchemistry,MeasurementandContro

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論