分子拓?fù)渲笖?shù)介紹_第1頁
分子拓?fù)渲笖?shù)介紹_第2頁
分子拓?fù)渲笖?shù)介紹_第3頁
分子拓?fù)渲笖?shù)介紹_第4頁
分子拓?fù)渲笖?shù)介紹_第5頁
已閱讀5頁,還剩68頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

許祿中國科學(xué)院長春應(yīng)用化學(xué)研究所分子拓?fù)渲笖?shù)的介紹一.圖論和化學(xué)圖

圖論為數(shù)學(xué)中的一個分支,它與拓?fù)鋵W(xué)和組合數(shù)學(xué)密切相關(guān)。圖論在化學(xué)中的應(yīng)用可粗略地歸為兩類:(1)結(jié)構(gòu)圖,即分子圖;(2)反應(yīng)圖——————————————————————————

圖論結(jié)構(gòu)圖反應(yīng)圖——————————————————————————

點原子化學(xué)試樣 線化學(xué)鍵化學(xué)反應(yīng) 路徑(path)化學(xué)子結(jié)構(gòu)反應(yīng)序列 環(huán)圖環(huán)狀化合物- 度原子價態(tài)- 樹非環(huán)結(jié)構(gòu)

-——————————————————————————二.拓?fù)渲笖?shù)的基本概念

1.拓?fù)渲笖?shù)的定義

拓?fù)渲笖?shù)是一種數(shù)學(xué)的量,這種數(shù)學(xué)的量是圖的不變量,它不隨圖中點的編序的改變而改變。準(zhǔn)確些,應(yīng)該稱為圖論指數(shù),但習(xí)慣上常稱為拓?fù)渲笖?shù)。由分子圖所衍生的拓?fù)渲笖?shù)稱為分子拓?fù)渲笖?shù)。

2.對一個新拓?fù)渲笖?shù)的要求

(1)具有好的選擇性,即,由不同的結(jié)構(gòu)所衍生的拓?fù)渲笖?shù)是不一樣的;(2)具有高的相關(guān)性,即,將之用于化合物性質(zhì)的預(yù)測,應(yīng)能得到好的數(shù)學(xué)模型。3.拓?fù)渲笖?shù)的優(yōu)點和不足(1)優(yōu)點

易于獲得

如:分子中碳原子的個數(shù),N;分子中單原子的個數(shù),B1;分子中雙鍵的個數(shù),B2;分子中環(huán)的個數(shù),C;……

通常能夠得到好的數(shù)學(xué)模型如:y:正烷烴分子的沸點;x:分子中碳原子的數(shù)目(2)拓?fù)渲笖?shù)的不足

它主要表征的是“圖”,即,拓?fù)渲笖?shù)由圖所衍生,因而,有時物理意義欠明確。但是,我們的目的是對未知化合物進(jìn)行預(yù)測,而拓?fù)渲笖?shù)常能得到好的結(jié)果,所以,迄今為止,在化合物結(jié)構(gòu)-性質(zhì)/活性相關(guān)性(QSPR/QSAR)研究中,拓?fù)渲笖?shù)是應(yīng)用最為廣泛的一類參數(shù)。三.拓?fù)渲笖?shù)的計算步驟(1)分子的化學(xué)圖表示(2)從化學(xué)圖得到分子的矩陣表示(3)對矩陣實施數(shù)學(xué)運算例子:世界上第一個拓?fù)渲笖?shù),Wiener指數(shù),W(1947)

四.幾個拓?fù)渲笖?shù)的介紹1.Randic

分子連接性指數(shù)(Connectivityindex)(1)分子支化度指數(shù)

此化合物的C-C鍵為:(1,4),(1,4),(1,4),(4,2),(2,1)由此(2)ID指數(shù)

同時考慮通道數(shù)和支化度兩個因素,以期更好地表征分子的特點。(3)分子連接性指數(shù)由Kier和Hall將支化度指數(shù)Con進(jìn)行擴展,用希臘字母表示。在的計算中,將化合物的結(jié)構(gòu)劈裂成如下結(jié)構(gòu):在圖論中,稱:(a)通道(路徑)(2階);(b)簇(3階);(c)通道/簇(4階);(d)鏈(5階)。其分子連接性指數(shù)分別表示為:

2

p,3

c,4

pc,5

ch分子連接性指數(shù)的通式:其中,m為階;

t為p,c,pc,ch;v為分子中原子的價態(tài)不同雜化狀態(tài)的一些原子的值示于下表:例1:例2:例3:2.拓?fù)渲笖?shù)Am如2-甲基戊烷

將A,B,C矩陣分別擴展兩列:列1:原子支化度開平方;列2:原子的

vander

Waals

半徑開平方令Z1=G1xG1’;Z2=G2xG2’;Z3=G3xG3’拓?fù)渲笖?shù)定義為:其中,

max1,max2,max3分別為Z1,Z2,Z3最大本征值。對于上述化合物:max1=10.455,

max2=14.5953

max3=14.8237五.應(yīng)用舉例1.化合物試樣集硝基苯類化合物

35nitrobenzenesandtheirtoxicactivities2.參數(shù)的計算

分子連接性指數(shù)mxt:0xp,1xp,2xp,3xp,4xp,5xp,6xp,3xch,6xch,3xc,4xc,5xc,6xc,4xpc,5xpc,6xpc,共計16個

Am指數(shù):Am1,Am2,Am3,共計3個

-Ehomo,-Elumo,偶極矩μ,分子生成熱Hform及離子化能

Eip,共計5個

指示變量綜合如上4類,本工作中對于每一化合物所計算的參數(shù)共計25個.

3.變量的選擇LeapsandBounds回歸分析結(jié)果No.VariablesRF1130.8912227,130.917239,12,130.925941,9,12,130.934851,5,9,12,130.944461,5,9,10,12,130.943671,2,5,7,9,10,130.953281,2,5,6,7,9,10,130.953091,2,3,5,6,7,9,10,130.9525

4.結(jié)果及討論

(1)

回歸分析結(jié)果

樣本容量為N;變量數(shù)為M,

經(jīng)驗規(guī)則:N/M

5.因為N=35,變量最多可選7個

-logLC50=-0.3017+0.1278*2xp-0.04654*3xp+0.04619*3xc+0.04592*Am1-0.2958*Ehomo+0.1164*Elumo+0.4237*IR=0.95,F=32,S=0.25,N=35

其中,R為相關(guān)系數(shù),F為顯著性檢驗,S為標(biāo)準(zhǔn)偏差,N為該類化合物數(shù)目(樣本容量).(2)人工神經(jīng)網(wǎng)絡(luò)法

算法:BFGS(Broyden-Fletcher-Goldfarb-Shanno)贗-Newton法

網(wǎng)絡(luò)結(jié)構(gòu):7:3:1

測試集:30

預(yù)測集:5

結(jié)果:R=0.993;S=0.092;F=2188;N=35

六.Methodsforvariableselection

Classicalmethods

a)Forwardselection

b)Backwardelimination

c)Stepwiseregression

Leaps-and-boundsregression

Orthogonaldescriptors

Geneticalgorithm

Sincethethreeclassicalmethodsareknownwellandmanypapersongeneticalgorithmhavebeenpublished,thus,nextIwouldwanttoonlyintroducethetwomethodsasabovementioned:

Leaps-and-boundsregression

Orthogonaldescriptors1.Leaps-and-boundsregression

Thismethodisbasedonthefundamentalinequality,RSS(A)

RSS(Ai)RSS:residualsumofsquares;A:anysetofindependentvariables;Ai:asubsetofA.e.g.:setA1contains3variables;RSS=596;setA2contains4variables;RSS=605.

Thus,allthesubsetsofA2willbeignored,becauseofthesesubsetswithRSSgreaterthanthatforA2,andalsoforA1.2.Orthogonalalgorithm

(cf.M.Randic,NewJ.Chem.,15(1991)517)

(Gram-Schmidt正交法)

若變量集X有N個變量按一定規(guī)則排序后為X1,X2,…XN,第一步,取X1為第一個正交基Ω1,使X2,…XN和X1正交.以X2為例,用X1作自變量,X2為因變量進(jìn)行一元回歸,得X21=X2(實際值)–X2(計算值),和X2一樣由其它變量得到Xi1.第二步,取X21為正交基Ω2,使其它變量Xi1和Ω2正交.重復(fù)如上過程直到得到N個正交變量Ω1,Ω2,…ΩN.由于變量相互間彼此正交,因而,各變量作用可以單獨測試,而不受其它變量的影響,只要對正交變量Ω1,Ω2,…ΩN和因變量Y進(jìn)行一元回歸計算出回歸系數(shù)Ri,即可以計算出它們之間相互組合后的回歸系數(shù)R,公式如下:式中Ri

為正交化的變量i與性質(zhì)間的相關(guān)系數(shù)。即,首先將原變量正交化,并按與性質(zhì)相關(guān)系數(shù)大小排序,然后,很易于進(jìn)行最優(yōu)變量子集的組合。Wehavedatax1,x2,x3andx4(therawdataarenotgivenhereindetail).Thefollowingaretheresultsofregressions.Ontheuphalf,theregressionsareperformedwithx1,x2,x3andx4.Onthedownhalf,theregressionsareperformedwiththeorthogonalvariables

1,2,,3,4.----------------------------------------------------------------------------------------------------------------Coefficientsofregressionequations----------------------------------------------------------------------------------------------------x1x2x3x4

constant17.966140.43496.2334-3.47056.461528.63143.05161.8745-85.378622.02040.93471.0786-0.5609-57.1671

1

2

3

4

constant17.966140.434917.9661-3.470540.434917.9661-3.47051.874540.434917.9661-3.47051.8745-0.560940.4349----------------------------------------------------------------------------------------------------------------

Oncethedescriptorsareorthogonalized(as

m)variableselectionwillbeverysimple,becausewehavethefollowingform:

Therefore,itiseasytoselectvariables(

m

)basedontheordered

m.

(cf.B.Lucicetal.,J.Chem.Inf.Comput.Sci.,39(1999)610)3.比較實例(1)

化合物試樣集硝基苯類化合物

35nitrobenzenesandtheirtoxicactivities(2)

Calculationofdescriptors.

Machine:WorkstationIndigo2.

Software:MOPAC:SYBYLversion6.1Multiplestatisticalprograms

Quantum-chemicalparameters:7;

Molecularconnectivityindicesmxt:

11;

TopologicalindicesAmi:3

IndicativevariableI:1Total:22

Order(1~22):I,Hform,Ete,Eip,Er,-Ehomo,

,-Elumo,0xp,1xp,2xp,3xp,4xp,5xp,6xp,3xch,5xc,6xc,4xpc,Am1,Am2,Am3.(3)

ResultsandDiscussion

Forsavingspace,weonlygiveout3~6variableconmbinations.Resultsofvariableselections________________________________________________________No.ofvari. Method VariableRRMS

_______________________________________________

3

Forwardselection

1,2,80.90980.316

Backwardelimination

1,10,120.88950.348

Stepwiseregression

1,2,80.90980.316

Geneticalgorithm

1,6,210.91500.307

Leaps-and-bonds

1,6,210.91500.307

Orthogonaldescriptor

1,2,200.92580.288

4

Forwardselection

1,2,6,80.91260.312

Backwardelimination

1,10,11,120.91640.305

Stepwiseregression

1,2,6,210.9156 0.306

Geneticalgorithm

1,10,11,170.9175 0.303

Leaps-and-bonds

1,10,11,170.91750.303

Orthogonaldescriptor

1,2,20,130.93670.267________________________________________________(Continued)__________________________________________________5

Forwardselection

1,2,6,8,210.91560.301

Backwardelimination

1,10,11,12,160.91880.301

Stepwiseregression1)

Geneticalgorithm

1,5,12,17,190.92130.296

Leaps-and-bonds

1,5,12,17,190.92130.296

Orthogonaldescriptor

1,2,20,13,80.94220.255

6

Forwardselection

1,2,6,78,210.91720.301

Backwardelimination

1,10,11,12,16,200.92190.295

Stepwiseregression1,2,6,7,8,210.91720.301

Geneticalgorithm

1,9,10,11,16,170.92790.284

Leaps-and-bonds

1,9,10,11,16,170.92790.284

Orthogonaldescriptor

1,2,20,13,8,30.94700.245

_______________________________________________

Fromabove,wecanseethat:(1)Theresultsobtainedbyusingthreeclassicalmethodsareveryclose;(2)Geneticalgorithmachievesthesamebestcombinationsasleapsandboundsregression;(3)Thebestresultsobtainedbyusingorthogonaldescriptors.

NextIwouldwanttodiscussthesethreepointsslightlyindetail.Result1:_______________________________________________

Thebestone:

orthogonalmethodWhy?Thepossiblereason:theinformationcontainedinsomedescriptorsis“condensed”._______________________________________________

Regressionofmolarrefraction(MR)inheptanesagainstmolecularconnectivityindicesmx.(cf.M.Randic,NewJ.Chem.,15(1991)517)

1x:R=0.0241;1:R=0.0241;

2x:R=0.1635;2:R=0.9640;

1x+2x:R=0.9646;1

+2:R=0.9646.

“…‘purified’2x,2,…,isnotduplicateby1x.”—M.RandicTheinformationcontainedin2xwas“condensed”.

NumberofvariablesMethodofordering R

RMS________________________________________________________

3

BasedonRi 0.9278 0.284Forwardselection 0.9256 0.288

Backwardelimination0.8896

0.348

4 BasedonRi 0.9373 0.265 Forwardselection0.9366 0.267 Backwardelimination0.9164 0.305

5 BasedonRi 0.9456 0.248 Forwardselection 0.9420 0.256 Backwardelimination0.9301

0.280

6 BasedonRi0.9538 0.230 Forwardselection 0.9469 0.245 Backwardelimination0.9413

0.257

Butorthogonalmethodisstronglybasedonthedescriptororderingfororthogonalisation.Result2_________________________________________

Geneticalgorithmachievedthesamecombinationsastheleaps-and-boundsregression._______________________________________

Geneticalgorithmisasanoptimizationproceduretosearchalargespaceandtocopewithlocalminima.

Butthismethodistimeconsuming.

Leaps-and-boundshasbeenusedsuccessfullyforvariableselection.

Thus,geneticalgorithmisanacceptedprocedureforvariableselection.

Result3_________________________________________________

Thebestsubsetsofdescriptorsobtainedusingthreeclassicalmethodsarenotsogoodastheothermethods._____________________________________

Forwardselection(FS):onceavariablehasbeenenteredintothemodel,itmaynotberemoved.Backwardelimination:onceavariablehasbeendeleted,itcannotbeincludedagain.StepwiseprocedureisessentialtheFS,thoughtheselectedvariablemayberemovedagain.

Thesemaycausetheresultstoclosethesub-optimalsolutions.

Inaddition,itshouldbepointedoutthatorthogonalmethodalsodependsonthestructureofdataset,i.e.,thebestresultscannotbealwaysobtainedbyusingorthogonaldescriptors.七.幾個問題的討論

1.關(guān)于相關(guān)性

對一個新拓?fù)渲笖?shù)的要求有兩點:(1)和化合物具有好的相關(guān)性(2)對于化合物具有好的選擇性

好的相關(guān)性不一定具有好的選擇性,如W指數(shù),它和化合物性質(zhì)的相關(guān)性通常較好,但選擇性較差;好的選擇性和化合物的性質(zhì)不一定好的相關(guān)性,如化合物在CAS的登錄號,其選擇性(唯一性)非常好,但和化合物的性質(zhì)不具有任何的相關(guān)性。

同時做到這兩點是比較困難的。

目前的拓?fù)渲笖?shù),以“無以數(shù)計”來說都不過分,但是,在構(gòu)效關(guān)系研究中,應(yīng)用最廣泛仍為分子連接性指數(shù)。此指數(shù)有如下特點:(1)根據(jù)需要,可以計算出不同“階”和子圖類型的一系列參數(shù),這為構(gòu)造預(yù)測數(shù)學(xué)模型提供了良好的基礎(chǔ)

t:

(2)它易于被“改造”。在算法中,其關(guān)鍵環(huán)節(jié)是的取值,改變的賦值方案,即可得到一套新的參數(shù)。(3)選擇性尚好

2.關(guān)于選擇性

早年的時候人們作的比較多,其目的主要是試圖證明世界上所有的化合物是否可用一個數(shù)學(xué)的量來表征。一般的做法是用飽和的鏈烷烴來進(jìn)行驗證,因為鏈烷烴的異構(gòu)體易于窮舉。后來,人們發(fā)現(xiàn)提出高選擇性拓?fù)渲笖?shù)是一非常困難的事情,于是,其注意力主要放到了相關(guān)性方面。然而,近年來,我們卻取得了突破性進(jìn)展。

目前世界上最好的拓?fù)渲笖?shù)BID(Balaban完成)可以唯一地表征到含20個碳原子的鏈烷烴,其異構(gòu)體為366319個

BID的不足:

對含環(huán)體系適應(yīng)能力較差

不能用于含雜原子體系我們的拓?fù)渲笖?shù)EAID可以唯一地表征含1-22個碳原子的全部380多萬個異構(gòu)體(含23個碳以上的鏈烷烴尚未驗)我們窮舉生成了一系列含8個原子的化合物共計40多萬個異構(gòu)體,這些結(jié)構(gòu)含環(huán)且高度相似,但EAID均能很好區(qū)分而不出現(xiàn)簡并。進(jìn)行高選擇性拓?fù)渲笖?shù)研究的基礎(chǔ)要有一個高效的“結(jié)構(gòu)生成器”;結(jié)構(gòu)產(chǎn)生器是結(jié)構(gòu)解析專家系統(tǒng)的核心。

結(jié)構(gòu)解析專家系統(tǒng)

實驗數(shù)據(jù)結(jié)構(gòu)片斷集結(jié)構(gòu)生成器結(jié)構(gòu)驗證結(jié)構(gòu)輸出約束關(guān)鍵環(huán)節(jié)

結(jié)構(gòu)生成器在結(jié)構(gòu)片斷集基的礎(chǔ)上進(jìn)行整體結(jié)(候選化合物)對接

對生成器的要求是:

(1)窮舉性如,含有2

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論