版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
許祿中國科學(xué)院長春應(yīng)用化學(xué)研究所分子拓?fù)渲笖?shù)的介紹一.圖論和化學(xué)圖
圖論為數(shù)學(xué)中的一個分支,它與拓?fù)鋵W(xué)和組合數(shù)學(xué)密切相關(guān)。圖論在化學(xué)中的應(yīng)用可粗略地歸為兩類:(1)結(jié)構(gòu)圖,即分子圖;(2)反應(yīng)圖——————————————————————————
圖論結(jié)構(gòu)圖反應(yīng)圖——————————————————————————
點原子化學(xué)試樣 線化學(xué)鍵化學(xué)反應(yīng) 路徑(path)化學(xué)子結(jié)構(gòu)反應(yīng)序列 環(huán)圖環(huán)狀化合物- 度原子價態(tài)- 樹非環(huán)結(jié)構(gòu)
-——————————————————————————二.拓?fù)渲笖?shù)的基本概念
1.拓?fù)渲笖?shù)的定義
拓?fù)渲笖?shù)是一種數(shù)學(xué)的量,這種數(shù)學(xué)的量是圖的不變量,它不隨圖中點的編序的改變而改變。準(zhǔn)確些,應(yīng)該稱為圖論指數(shù),但習(xí)慣上常稱為拓?fù)渲笖?shù)。由分子圖所衍生的拓?fù)渲笖?shù)稱為分子拓?fù)渲笖?shù)。
2.對一個新拓?fù)渲笖?shù)的要求
(1)具有好的選擇性,即,由不同的結(jié)構(gòu)所衍生的拓?fù)渲笖?shù)是不一樣的;(2)具有高的相關(guān)性,即,將之用于化合物性質(zhì)的預(yù)測,應(yīng)能得到好的數(shù)學(xué)模型。3.拓?fù)渲笖?shù)的優(yōu)點和不足(1)優(yōu)點
易于獲得
如:分子中碳原子的個數(shù),N;分子中單原子的個數(shù),B1;分子中雙鍵的個數(shù),B2;分子中環(huán)的個數(shù),C;……
通常能夠得到好的數(shù)學(xué)模型如:y:正烷烴分子的沸點;x:分子中碳原子的數(shù)目(2)拓?fù)渲笖?shù)的不足
它主要表征的是“圖”,即,拓?fù)渲笖?shù)由圖所衍生,因而,有時物理意義欠明確。但是,我們的目的是對未知化合物進(jìn)行預(yù)測,而拓?fù)渲笖?shù)常能得到好的結(jié)果,所以,迄今為止,在化合物結(jié)構(gòu)-性質(zhì)/活性相關(guān)性(QSPR/QSAR)研究中,拓?fù)渲笖?shù)是應(yīng)用最為廣泛的一類參數(shù)。三.拓?fù)渲笖?shù)的計算步驟(1)分子的化學(xué)圖表示(2)從化學(xué)圖得到分子的矩陣表示(3)對矩陣實施數(shù)學(xué)運算例子:世界上第一個拓?fù)渲笖?shù),Wiener指數(shù),W(1947)
四.幾個拓?fù)渲笖?shù)的介紹1.Randic
分子連接性指數(shù)(Connectivityindex)(1)分子支化度指數(shù)
此化合物的C-C鍵為:(1,4),(1,4),(1,4),(4,2),(2,1)由此(2)ID指數(shù)
同時考慮通道數(shù)和支化度兩個因素,以期更好地表征分子的特點。(3)分子連接性指數(shù)由Kier和Hall將支化度指數(shù)Con進(jìn)行擴展,用希臘字母表示。在的計算中,將化合物的結(jié)構(gòu)劈裂成如下結(jié)構(gòu):在圖論中,稱:(a)通道(路徑)(2階);(b)簇(3階);(c)通道/簇(4階);(d)鏈(5階)。其分子連接性指數(shù)分別表示為:
2
p,3
c,4
pc,5
ch分子連接性指數(shù)的通式:其中,m為階;
t為p,c,pc,ch;v為分子中原子的價態(tài)不同雜化狀態(tài)的一些原子的值示于下表:例1:例2:例3:2.拓?fù)渲笖?shù)Am如2-甲基戊烷
將A,B,C矩陣分別擴展兩列:列1:原子支化度開平方;列2:原子的
vander
Waals
半徑開平方令Z1=G1xG1’;Z2=G2xG2’;Z3=G3xG3’拓?fù)渲笖?shù)定義為:其中,
max1,max2,max3分別為Z1,Z2,Z3最大本征值。對于上述化合物:max1=10.455,
max2=14.5953
max3=14.8237五.應(yīng)用舉例1.化合物試樣集硝基苯類化合物
35nitrobenzenesandtheirtoxicactivities2.參數(shù)的計算
分子連接性指數(shù)mxt:0xp,1xp,2xp,3xp,4xp,5xp,6xp,3xch,6xch,3xc,4xc,5xc,6xc,4xpc,5xpc,6xpc,共計16個
Am指數(shù):Am1,Am2,Am3,共計3個
-Ehomo,-Elumo,偶極矩μ,分子生成熱Hform及離子化能
Eip,共計5個
指示變量綜合如上4類,本工作中對于每一化合物所計算的參數(shù)共計25個.
3.變量的選擇LeapsandBounds回歸分析結(jié)果No.VariablesRF1130.8912227,130.917239,12,130.925941,9,12,130.934851,5,9,12,130.944461,5,9,10,12,130.943671,2,5,7,9,10,130.953281,2,5,6,7,9,10,130.953091,2,3,5,6,7,9,10,130.9525
4.結(jié)果及討論
(1)
回歸分析結(jié)果
樣本容量為N;變量數(shù)為M,
經(jīng)驗規(guī)則:N/M
5.因為N=35,變量最多可選7個
-logLC50=-0.3017+0.1278*2xp-0.04654*3xp+0.04619*3xc+0.04592*Am1-0.2958*Ehomo+0.1164*Elumo+0.4237*IR=0.95,F=32,S=0.25,N=35
其中,R為相關(guān)系數(shù),F為顯著性檢驗,S為標(biāo)準(zhǔn)偏差,N為該類化合物數(shù)目(樣本容量).(2)人工神經(jīng)網(wǎng)絡(luò)法
算法:BFGS(Broyden-Fletcher-Goldfarb-Shanno)贗-Newton法
網(wǎng)絡(luò)結(jié)構(gòu):7:3:1
測試集:30
預(yù)測集:5
結(jié)果:R=0.993;S=0.092;F=2188;N=35
六.Methodsforvariableselection
Classicalmethods
a)Forwardselection
b)Backwardelimination
c)Stepwiseregression
Leaps-and-boundsregression
Orthogonaldescriptors
Geneticalgorithm
Sincethethreeclassicalmethodsareknownwellandmanypapersongeneticalgorithmhavebeenpublished,thus,nextIwouldwanttoonlyintroducethetwomethodsasabovementioned:
Leaps-and-boundsregression
Orthogonaldescriptors1.Leaps-and-boundsregression
Thismethodisbasedonthefundamentalinequality,RSS(A)
RSS(Ai)RSS:residualsumofsquares;A:anysetofindependentvariables;Ai:asubsetofA.e.g.:setA1contains3variables;RSS=596;setA2contains4variables;RSS=605.
Thus,allthesubsetsofA2willbeignored,becauseofthesesubsetswithRSSgreaterthanthatforA2,andalsoforA1.2.Orthogonalalgorithm
(cf.M.Randic,NewJ.Chem.,15(1991)517)
(Gram-Schmidt正交法)
若變量集X有N個變量按一定規(guī)則排序后為X1,X2,…XN,第一步,取X1為第一個正交基Ω1,使X2,…XN和X1正交.以X2為例,用X1作自變量,X2為因變量進(jìn)行一元回歸,得X21=X2(實際值)–X2(計算值),和X2一樣由其它變量得到Xi1.第二步,取X21為正交基Ω2,使其它變量Xi1和Ω2正交.重復(fù)如上過程直到得到N個正交變量Ω1,Ω2,…ΩN.由于變量相互間彼此正交,因而,各變量作用可以單獨測試,而不受其它變量的影響,只要對正交變量Ω1,Ω2,…ΩN和因變量Y進(jìn)行一元回歸計算出回歸系數(shù)Ri,即可以計算出它們之間相互組合后的回歸系數(shù)R,公式如下:式中Ri
為正交化的變量i與性質(zhì)間的相關(guān)系數(shù)。即,首先將原變量正交化,并按與性質(zhì)相關(guān)系數(shù)大小排序,然后,很易于進(jìn)行最優(yōu)變量子集的組合。Wehavedatax1,x2,x3andx4(therawdataarenotgivenhereindetail).Thefollowingaretheresultsofregressions.Ontheuphalf,theregressionsareperformedwithx1,x2,x3andx4.Onthedownhalf,theregressionsareperformedwiththeorthogonalvariables
1,2,,3,4.----------------------------------------------------------------------------------------------------------------Coefficientsofregressionequations----------------------------------------------------------------------------------------------------x1x2x3x4
constant17.966140.43496.2334-3.47056.461528.63143.05161.8745-85.378622.02040.93471.0786-0.5609-57.1671
1
2
3
4
constant17.966140.434917.9661-3.470540.434917.9661-3.47051.874540.434917.9661-3.47051.8745-0.560940.4349----------------------------------------------------------------------------------------------------------------
Oncethedescriptorsareorthogonalized(as
m)variableselectionwillbeverysimple,becausewehavethefollowingform:
Therefore,itiseasytoselectvariables(
m
)basedontheordered
m.
(cf.B.Lucicetal.,J.Chem.Inf.Comput.Sci.,39(1999)610)3.比較實例(1)
化合物試樣集硝基苯類化合物
35nitrobenzenesandtheirtoxicactivities(2)
Calculationofdescriptors.
Machine:WorkstationIndigo2.
Software:MOPAC:SYBYLversion6.1Multiplestatisticalprograms
Quantum-chemicalparameters:7;
Molecularconnectivityindicesmxt:
11;
TopologicalindicesAmi:3
IndicativevariableI:1Total:22
Order(1~22):I,Hform,Ete,Eip,Er,-Ehomo,
,-Elumo,0xp,1xp,2xp,3xp,4xp,5xp,6xp,3xch,5xc,6xc,4xpc,Am1,Am2,Am3.(3)
ResultsandDiscussion
Forsavingspace,weonlygiveout3~6variableconmbinations.Resultsofvariableselections________________________________________________________No.ofvari. Method VariableRRMS
_______________________________________________
3
Forwardselection
1,2,80.90980.316
Backwardelimination
1,10,120.88950.348
Stepwiseregression
1,2,80.90980.316
Geneticalgorithm
1,6,210.91500.307
Leaps-and-bonds
1,6,210.91500.307
Orthogonaldescriptor
1,2,200.92580.288
4
Forwardselection
1,2,6,80.91260.312
Backwardelimination
1,10,11,120.91640.305
Stepwiseregression
1,2,6,210.9156 0.306
Geneticalgorithm
1,10,11,170.9175 0.303
Leaps-and-bonds
1,10,11,170.91750.303
Orthogonaldescriptor
1,2,20,130.93670.267________________________________________________(Continued)__________________________________________________5
Forwardselection
1,2,6,8,210.91560.301
Backwardelimination
1,10,11,12,160.91880.301
Stepwiseregression1)
Geneticalgorithm
1,5,12,17,190.92130.296
Leaps-and-bonds
1,5,12,17,190.92130.296
Orthogonaldescriptor
1,2,20,13,80.94220.255
6
Forwardselection
1,2,6,78,210.91720.301
Backwardelimination
1,10,11,12,16,200.92190.295
Stepwiseregression1,2,6,7,8,210.91720.301
Geneticalgorithm
1,9,10,11,16,170.92790.284
Leaps-and-bonds
1,9,10,11,16,170.92790.284
Orthogonaldescriptor
1,2,20,13,8,30.94700.245
_______________________________________________
Fromabove,wecanseethat:(1)Theresultsobtainedbyusingthreeclassicalmethodsareveryclose;(2)Geneticalgorithmachievesthesamebestcombinationsasleapsandboundsregression;(3)Thebestresultsobtainedbyusingorthogonaldescriptors.
NextIwouldwanttodiscussthesethreepointsslightlyindetail.Result1:_______________________________________________
Thebestone:
orthogonalmethodWhy?Thepossiblereason:theinformationcontainedinsomedescriptorsis“condensed”._______________________________________________
Regressionofmolarrefraction(MR)inheptanesagainstmolecularconnectivityindicesmx.(cf.M.Randic,NewJ.Chem.,15(1991)517)
1x:R=0.0241;1:R=0.0241;
2x:R=0.1635;2:R=0.9640;
1x+2x:R=0.9646;1
+2:R=0.9646.
“…‘purified’2x,2,…,isnotduplicateby1x.”—M.RandicTheinformationcontainedin2xwas“condensed”.
NumberofvariablesMethodofordering R
RMS________________________________________________________
3
BasedonRi 0.9278 0.284Forwardselection 0.9256 0.288
Backwardelimination0.8896
0.348
4 BasedonRi 0.9373 0.265 Forwardselection0.9366 0.267 Backwardelimination0.9164 0.305
5 BasedonRi 0.9456 0.248 Forwardselection 0.9420 0.256 Backwardelimination0.9301
0.280
6 BasedonRi0.9538 0.230 Forwardselection 0.9469 0.245 Backwardelimination0.9413
0.257
Butorthogonalmethodisstronglybasedonthedescriptororderingfororthogonalisation.Result2_________________________________________
Geneticalgorithmachievedthesamecombinationsastheleaps-and-boundsregression._______________________________________
Geneticalgorithmisasanoptimizationproceduretosearchalargespaceandtocopewithlocalminima.
Butthismethodistimeconsuming.
Leaps-and-boundshasbeenusedsuccessfullyforvariableselection.
Thus,geneticalgorithmisanacceptedprocedureforvariableselection.
Result3_________________________________________________
Thebestsubsetsofdescriptorsobtainedusingthreeclassicalmethodsarenotsogoodastheothermethods._____________________________________
Forwardselection(FS):onceavariablehasbeenenteredintothemodel,itmaynotberemoved.Backwardelimination:onceavariablehasbeendeleted,itcannotbeincludedagain.StepwiseprocedureisessentialtheFS,thoughtheselectedvariablemayberemovedagain.
Thesemaycausetheresultstoclosethesub-optimalsolutions.
Inaddition,itshouldbepointedoutthatorthogonalmethodalsodependsonthestructureofdataset,i.e.,thebestresultscannotbealwaysobtainedbyusingorthogonaldescriptors.七.幾個問題的討論
1.關(guān)于相關(guān)性
對一個新拓?fù)渲笖?shù)的要求有兩點:(1)和化合物具有好的相關(guān)性(2)對于化合物具有好的選擇性
好的相關(guān)性不一定具有好的選擇性,如W指數(shù),它和化合物性質(zhì)的相關(guān)性通常較好,但選擇性較差;好的選擇性和化合物的性質(zhì)不一定好的相關(guān)性,如化合物在CAS的登錄號,其選擇性(唯一性)非常好,但和化合物的性質(zhì)不具有任何的相關(guān)性。
同時做到這兩點是比較困難的。
目前的拓?fù)渲笖?shù),以“無以數(shù)計”來說都不過分,但是,在構(gòu)效關(guān)系研究中,應(yīng)用最廣泛仍為分子連接性指數(shù)。此指數(shù)有如下特點:(1)根據(jù)需要,可以計算出不同“階”和子圖類型的一系列參數(shù),這為構(gòu)造預(yù)測數(shù)學(xué)模型提供了良好的基礎(chǔ)
t:
(2)它易于被“改造”。在算法中,其關(guān)鍵環(huán)節(jié)是的取值,改變的賦值方案,即可得到一套新的參數(shù)。(3)選擇性尚好
2.關(guān)于選擇性
早年的時候人們作的比較多,其目的主要是試圖證明世界上所有的化合物是否可用一個數(shù)學(xué)的量來表征。一般的做法是用飽和的鏈烷烴來進(jìn)行驗證,因為鏈烷烴的異構(gòu)體易于窮舉。后來,人們發(fā)現(xiàn)提出高選擇性拓?fù)渲笖?shù)是一非常困難的事情,于是,其注意力主要放到了相關(guān)性方面。然而,近年來,我們卻取得了突破性進(jìn)展。
目前世界上最好的拓?fù)渲笖?shù)BID(Balaban完成)可以唯一地表征到含20個碳原子的鏈烷烴,其異構(gòu)體為366319個
BID的不足:
對含環(huán)體系適應(yīng)能力較差
不能用于含雜原子體系我們的拓?fù)渲笖?shù)EAID可以唯一地表征含1-22個碳原子的全部380多萬個異構(gòu)體(含23個碳以上的鏈烷烴尚未驗)我們窮舉生成了一系列含8個原子的化合物共計40多萬個異構(gòu)體,這些結(jié)構(gòu)含環(huán)且高度相似,但EAID均能很好區(qū)分而不出現(xiàn)簡并。進(jìn)行高選擇性拓?fù)渲笖?shù)研究的基礎(chǔ)要有一個高效的“結(jié)構(gòu)生成器”;結(jié)構(gòu)產(chǎn)生器是結(jié)構(gòu)解析專家系統(tǒng)的核心。
結(jié)構(gòu)解析專家系統(tǒng)
實驗數(shù)據(jù)結(jié)構(gòu)片斷集結(jié)構(gòu)生成器結(jié)構(gòu)驗證結(jié)構(gòu)輸出約束關(guān)鍵環(huán)節(jié)
結(jié)構(gòu)生成器在結(jié)構(gòu)片斷集基的礎(chǔ)上進(jìn)行整體結(jié)(候選化合物)對接
對生成器的要求是:
(1)窮舉性如,含有2
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年廣西公務(wù)員申論考試真題及答案-A卷
- 2025年滬教版高二數(shù)學(xué)上冊月考試卷
- 2025年人教新起點選修1歷史上冊月考試卷含答案
- 2025年粵教新版九年級地理上冊月考試卷
- 2025年人教五四新版七年級生物上冊階段測試試卷
- 2025年蘇人新版七年級生物上冊月考試卷含答案
- 2025年粵人版選擇性必修1語文上冊階段測試試卷
- 2025年北師大版八年級生物下冊月考試卷含答案
- 二零二五年度木門及木飾面定制化生產(chǎn)與安裝服務(wù)合同4篇
- 二零二五版親子閱讀活動組織服務(wù)合同4篇
- 江蘇省蘇州市2024-2025學(xué)年高三上學(xué)期1月期末生物試題(有答案)
- 銷售與銷售目標(biāo)管理制度
- 人教版(2025新版)七年級下冊英語:寒假課內(nèi)預(yù)習(xí)重點知識默寫練習(xí)
- 2024年食品行業(yè)員工勞動合同標(biāo)準(zhǔn)文本
- 2025年第一次工地開工會議主要議程開工大吉模板
- 全屋整裝售后保修合同模板
- 高中生物學(xué)科學(xué)推理能力測試
- GB/T 44423-2024近紅外腦功能康復(fù)評估設(shè)備通用要求
- 2024-2030年中國減肥行業(yè)市場發(fā)展分析及發(fā)展趨勢與投資研究報告
- 運動技能學(xué)習(xí)
- 2024年中考英語專項復(fù)習(xí):傳統(tǒng)文化的魅力(閱讀理解+完型填空+書面表達(dá))(含答案)
評論
0/150
提交評論