面向生態(tài)風(fēng)險(xiǎn)評(píng)價(jià)的qsar技術(shù)研究進(jìn)展_第1頁(yè)
面向生態(tài)風(fēng)險(xiǎn)評(píng)價(jià)的qsar技術(shù)研究進(jìn)展_第2頁(yè)
面向生態(tài)風(fēng)險(xiǎn)評(píng)價(jià)的qsar技術(shù)研究進(jìn)展_第3頁(yè)
面向生態(tài)風(fēng)險(xiǎn)評(píng)價(jià)的qsar技術(shù)研究進(jìn)展_第4頁(yè)
面向生態(tài)風(fēng)險(xiǎn)評(píng)價(jià)的qsar技術(shù)研究進(jìn)展_第5頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

面向生態(tài)風(fēng)險(xiǎn)評(píng)價(jià)的qsar技術(shù)研究進(jìn)展

1不確定性美國(guó)環(huán)境管理局(uspea)將era劃分為三個(gè)主要階段:?jiǎn)栴}表現(xiàn)(評(píng)估、確定評(píng)估指標(biāo)、制定分析方案)、分析(暴露評(píng)價(jià)、影響評(píng)價(jià)及其相關(guān)性)、風(fēng)險(xiǎn)綜合征(風(fēng)險(xiǎn)評(píng)估、評(píng)估和報(bào)告)。顯然,有機(jī)化合物的物理和化學(xué)性質(zhì)、環(huán)境行為和生態(tài)廉正是進(jìn)行生態(tài)風(fēng)險(xiǎn)評(píng)估的基礎(chǔ)。然而,這些數(shù)據(jù)存在三個(gè)問(wèn)題。(1)數(shù)據(jù)缺失.例如,對(duì)于80%以上的日用合成有機(jī)化學(xué)品,人類尚缺乏其環(huán)境行為和生態(tài)毒理方面的信息.通過(guò)實(shí)驗(yàn)方法來(lái)測(cè)定這些數(shù)據(jù),在時(shí)間上是滯后的,不能滿足有毒有害化學(xué)品污染管理的“預(yù)先防范原則”.(2)測(cè)試費(fèi)用昂貴.例如,據(jù)歐盟于2007年6月開始全面實(shí)施的化學(xué)品管理新法規(guī)“化學(xué)品注冊(cè)、評(píng)估、授權(quán)和限制法規(guī)(簡(jiǎn)稱REACH法規(guī))”估算,每一種化學(xué)物質(zhì)的基本檢測(cè)費(fèi)用約需8.5萬(wàn)歐元(不含長(zhǎng)期環(huán)境影響的評(píng)估費(fèi)用),每一新物質(zhì)全面檢測(cè)費(fèi)用約需57萬(wàn)歐元,這意味著如果對(duì)每種化學(xué)品都開展實(shí)驗(yàn)測(cè)定,需要巨額的費(fèi)用.進(jìn)行全面的實(shí)驗(yàn)測(cè)試,也不符合化學(xué)品管理中的減少實(shí)驗(yàn)(尤其是動(dòng)物實(shí)驗(yàn))的原則和趨勢(shì).(3)數(shù)據(jù)存在不確定性.例如,美國(guó)地質(zhì)調(diào)查所的科學(xué)家發(fā)現(xiàn),被全世界科學(xué)家廣泛研究的農(nóng)藥DDT及其代謝產(chǎn)物DDE的辛醇/水分配系數(shù)(KOW)的實(shí)驗(yàn)測(cè)定值,不同實(shí)驗(yàn)室的測(cè)定結(jié)果,竟有幾個(gè)數(shù)量級(jí)大小的誤差.如此大的不確定性,很顯然會(huì)導(dǎo)致生態(tài)風(fēng)險(xiǎn)評(píng)價(jià)結(jié)果更大的不確定性.分子結(jié)構(gòu)是決定有機(jī)物的物理化學(xué)性質(zhì)在環(huán)境中遷移轉(zhuǎn)化行為和生態(tài)毒理學(xué)效應(yīng)的內(nèi)因.具有類似分子結(jié)構(gòu)的物質(zhì),也可能具有類似的物理化學(xué)性質(zhì)、環(huán)境歸趨和生態(tài)毒理學(xué)效應(yīng),即:有機(jī)物的物理化學(xué)性質(zhì)、環(huán)境行為和生態(tài)毒理學(xué)參數(shù),與其分子結(jié)構(gòu)之間存在內(nèi)在聯(lián)系;這種聯(lián)系是可以被認(rèn)識(shí)、表征和應(yīng)用的.這種內(nèi)在的聯(lián)系,以模型的方式表征出來(lái),就是結(jié)構(gòu)-活性關(guān)系(SAR)和定量結(jié)構(gòu)-活性關(guān)系(QSAR),統(tǒng)稱為(Q)SAR.因此,(Q)SAR可以彌補(bǔ)有機(jī)物環(huán)境行為與生態(tài)毒理數(shù)據(jù)的缺失,大幅度降低實(shí)驗(yàn)費(fèi)用,有助于減少和替代實(shí)驗(yàn)(尤其動(dòng)物實(shí)驗(yàn)).此外,由于這種內(nèi)在的可表征的關(guān)系,有機(jī)物尤其是系列化合物的物理化學(xué)性質(zhì)、環(huán)境行為和生態(tài)毒理學(xué)參數(shù)的大小及其變化趨勢(shì),必然與其分子結(jié)構(gòu)的變化相一致,所以(Q)SAR有助于評(píng)價(jià)實(shí)驗(yàn)數(shù)據(jù)的不確定性,這也是(Q)SAR技術(shù)在ERA中所發(fā)揮的重要作用之一.例如,多氯聯(lián)苯(PCB)系列物的物理化學(xué)性質(zhì)一致性,可以依據(jù)QSAR原理,采用分子量和鄰位氯取代基的數(shù)量進(jìn)行闡明.綜上所述,(Q)SAR技術(shù)對(duì)于有機(jī)污染物的生態(tài)風(fēng)險(xiǎn)性評(píng)價(jià)具有重要意義.2qsar的基本原則和發(fā)展過(guò)程2.1以模型方法表征人類很早就認(rèn)識(shí)到有機(jī)物的分子結(jié)構(gòu)與其物理化學(xué)性質(zhì)和生物活性之間存在內(nèi)在的聯(lián)系.20世紀(jì)30年代Hammett等人所建立的線性自由能關(guān)系(LFER)理論,為(Q)SAR奠定了熱力學(xué)理論基礎(chǔ).Hammett等人創(chuàng)造性地提出了表示取代基電子效應(yīng)的參數(shù)σ,Taft提出了表示取代基立體效應(yīng)的參數(shù)Es.LFER屬于超熱力學(xué)關(guān)系,即:盡管熱力學(xué)參數(shù)(分子結(jié)構(gòu)參數(shù))與活性之間的關(guān)系是客觀存在的,但熱力學(xué)理論并不能推導(dǎo)出這種關(guān)系.LFER在表征有機(jī)污染物在多介質(zhì)環(huán)境中的平衡分配系數(shù)和反應(yīng)速率常數(shù)中發(fā)揮了重要作用.如圖1所示,獲取和選取表征分子結(jié)構(gòu)的參數(shù)(亦稱為分子結(jié)構(gòu)描述符),是(Q)SAR模型構(gòu)建的基礎(chǔ)性工作.主要有兩種方法來(lái)選取分子結(jié)構(gòu)參數(shù),第一種是借助于經(jīng)驗(yàn)、分子的結(jié)構(gòu)特征和物理-化學(xué)過(guò)程的機(jī)理來(lái)選取.例如,光致水解是鹵代芳烴光解的主要途徑之一,因此建立鹵代芳烴光解量子產(chǎn)率的QSARs時(shí),選用了各種表征碳-鹵鍵性質(zhì)的量子化學(xué)描述符.第二種方法是借助于模型來(lái)選取,即所謂的模型方法.QSAR研究中經(jīng)常使用的模型主要包括Hansch模型、線性溶解能相關(guān)模型、Free-Wilson模型以及三維QSAR分析方法(例如CoMFA)等.(1)Hansch模型:在LFER基礎(chǔ)上,Hansch把QSAR的研究范圍擴(kuò)大到了生物活性領(lǐng)域,提出取代基對(duì)化合物生物活性(1/C)的影響主要是電性效應(yīng)(σ)、立體效應(yīng)(Es)以及疏水效應(yīng)(π),并且這些效應(yīng)可以彼此獨(dú)立加和[22~24].Hansch方程存在線性和非線性形式,在QSAR領(lǐng)域應(yīng)用廣泛.(2)線性溶解能相關(guān)(LSER)模型:Kamlet等人[28~31]發(fā)展的線性溶解能關(guān)系(LSER)是LFER的擴(kuò)展,LSER模型包含空穴項(xiàng)、偶極項(xiàng)和氫鍵項(xiàng),并采用分子體積和溶劑化變色參數(shù)來(lái)表征溶質(zhì)-溶劑相互作用.Abraham進(jìn)一步發(fā)展了新的LSER參數(shù).Wilson和Famini通過(guò)以理論計(jì)算的參數(shù)替代LSER模型中的經(jīng)驗(yàn)性參數(shù),衍生出了理論線性溶解能關(guān)系(TLSER)模型.LSER和TLSER模型在有機(jī)污染物的水溶解度(Sw),正辛醇/水分配系數(shù)(Kow)、高效液相色譜保留因子以及非反應(yīng)性毒性的QSAR構(gòu)建方面取得了很大成功.(3)Free-Wilson模型:由Free和Wilson于1964年提出,認(rèn)為系列化合物活性的變化取決于特定取代基在母體結(jié)構(gòu)上數(shù)量和位置變化.該方法計(jì)算簡(jiǎn)單,但只適合存在多取代的情況.(4)三維QSAR分析方法:最常見的是比較分子力場(chǎng)分析(CoMFA),其核心是作用于同一受體的一系列生物活性分子,與受體之間的各種作用力場(chǎng)應(yīng)該有一定的相似性.因此,在不了解受體三維結(jié)構(gòu)的情況下,研究生物活性分子周圍作用力場(chǎng)的分布,并與化合物分子的生物活性定量聯(lián)系起來(lái),既可以推測(cè)受體的某些性質(zhì),又可以設(shè)計(jì)新的化合物,并定量預(yù)測(cè)化合物活性.該方法在定量藥物設(shè)計(jì)中應(yīng)用廣泛;在生態(tài)毒理學(xué)中亦得到應(yīng)用,例如內(nèi)分泌干擾物的雌激素活性.2.2環(huán)境科學(xué)中qsar的研究及應(yīng)用早期(Q)SAR主要應(yīng)用于藥物設(shè)計(jì)領(lǐng)域.20世紀(jì)70年代以來(lái),出于對(duì)環(huán)境中大量的、不斷增長(zhǎng)的合成有機(jī)化學(xué)品的生態(tài)風(fēng)險(xiǎn)評(píng)價(jià)的需要,(Q)SAR在環(huán)境科學(xué)中得到廣泛應(yīng)用,并持續(xù)穩(wěn)定發(fā)展.縱觀(Q)SAR在過(guò)去幾十年的發(fā)展歷程,可以發(fā)現(xiàn)其呈現(xiàn)如下3個(gè)趨勢(shì)和特點(diǎn):(1)目標(biāo)導(dǎo)向性和應(yīng)用性.在環(huán)境科學(xué)技術(shù)領(lǐng)域,(Q)SAR研究一直主要圍繞有機(jī)污染物生態(tài)風(fēng)險(xiǎn)評(píng)價(jià)中的暴露評(píng)價(jià)(污染物在多介質(zhì)環(huán)境中的遷移和轉(zhuǎn)化)與效應(yīng)評(píng)價(jià)(污染物的生態(tài)毒理學(xué)效應(yīng))的目標(biāo)而展開,具有顯著的目標(biāo)導(dǎo)向性和應(yīng)用性特點(diǎn).從所模擬的對(duì)象來(lái)看,早期多針對(duì)有機(jī)污染物環(huán)境分配方面的參數(shù)(例如SW、KOW、生物富集因子(BCF)、辛醇-空氣分配系數(shù)(KOA)、土壤(沉積物)吸附系數(shù)(KOC)等)和對(duì)水生生物的急性毒性(半數(shù)致死濃度(LC50)或效應(yīng)濃度(EC50)).近期QSARs發(fā)展為模擬有機(jī)物污染物的環(huán)境內(nèi)分泌干擾效應(yīng)[50~52]以及反應(yīng)速率常數(shù)(例如生物降解能力、光解速率常數(shù)與量子產(chǎn)率、零價(jià)鐵催化反應(yīng)速率常數(shù)、羥基自由基氧化反應(yīng)速率常數(shù))等.1993年,期刊SARandQSARinEnvironmentalResearch在法國(guó)創(chuàng)刊.自1988年起,國(guó)際上每?jī)赡暾匍_一次環(huán)境科學(xué)中QSAR學(xué)術(shù)討論會(huì).2003年,國(guó)際知名期刊EnvironmentalToxicologyandChemistry的22卷第8期,集中刊出了23篇QSAR的綜述性文章,涵蓋有機(jī)化合物的物理化學(xué)性質(zhì)、環(huán)境歸趨、生物活性及生態(tài)效應(yīng)等方面的內(nèi)容,集中而詳細(xì)地介紹了QSAR在環(huán)境領(lǐng)域的發(fā)展和應(yīng)用.這些都標(biāo)志著環(huán)境科學(xué)中(Q)SAR的研究和應(yīng)用方興未艾.(2)多學(xué)科集成性.(Q)SAR是多學(xué)科交叉的研究領(lǐng)域,匯集化學(xué)信息學(xué)(化學(xué)計(jì)量學(xué)、計(jì)算化學(xué))、物理化學(xué)、生物化學(xué)、毒理學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)等多個(gè)學(xué)科的研究成果,日益體現(xiàn)多學(xué)科集成性的特點(diǎn).從分子結(jié)構(gòu)表征的角度看,從早期通過(guò)實(shí)驗(yàn)測(cè)得的疏水性常數(shù)(π)、電子效應(yīng)常數(shù)(σ)、立體效應(yīng)常數(shù)(ES)及溶劑化參數(shù)等經(jīng)驗(yàn)分子結(jié)構(gòu)描述符,發(fā)展到目前廣泛使用的拓樸學(xué)參數(shù)、量子化學(xué)參數(shù)等理論分子結(jié)構(gòu)描述符.例如,Dragon軟件可以計(jì)算出1000余種分子結(jié)構(gòu)描述符,代表0~3維分子空間結(jié)構(gòu)并且涵蓋原子、化學(xué)鍵類型、連接性、電荷分布、原子空間坐標(biāo)等信息.數(shù)學(xué)、分子拓?fù)鋵W(xué)、量子化學(xué)、計(jì)算機(jī)數(shù)值計(jì)算等學(xué)科的融合發(fā)展,使得對(duì)分子結(jié)構(gòu)的表征更加細(xì)致全面,為成功建立(Q)SAR模型奠定了良好基礎(chǔ).從模型建立的角度看,從最初的各種線性回歸分析技術(shù)[68~70],發(fā)展到綜合應(yīng)用各種多變量分析方法,如:因子分析與主成分分析(PCA)、判別分析、聚類分析、偏最小二乘(PLS)回歸分析.近年來(lái)還發(fā)展使用了一些非線性的建模技術(shù),如人工神經(jīng)網(wǎng)絡(luò)(ANN)、支持向量機(jī)(SVM)等.遺傳算法(GA)等優(yōu)選方法亦用于變量的篩選之中.同時(shí),產(chǎn)生了一系列的組合算法,例如GA-PLS,GA-SVM,GA-BP,SVM-PLS等.這些方法的應(yīng)用,促進(jìn)了模型建立技術(shù)的不斷完善.同時(shí),生物化學(xué)、毒理學(xué)等學(xué)科的發(fā)展,使得對(duì)毒性作用機(jī)制的認(rèn)識(shí)不斷深入,亦推動(dòng)了(Q)SAR技術(shù)的不斷發(fā)展.(3)智能性.近年來(lái),由于計(jì)算機(jī)技術(shù)的發(fā)展,一些政府部門、公司和研究機(jī)構(gòu)開發(fā)了智能性較強(qiáng)、界面友好、面向不同用戶、各具特色的(Q)SAR應(yīng)用軟件.經(jīng)濟(jì)合作與發(fā)展組織(OECD)統(tǒng)計(jì)了以有機(jī)化學(xué)品管理為宗旨的(Q)SAR軟件,其中美國(guó)具有著作權(quán)的有40個(gè),英國(guó)有3個(gè),法國(guó)有6個(gè),加拿大有8個(gè),保加利亞1個(gè).如果包括各種(Q)SAR軟件,保守估計(jì)有200個(gè)以上.(Q)SAR未來(lái)的發(fā)展方向之一是建立決策支持系統(tǒng).該系統(tǒng)應(yīng)該包含符合標(biāo)準(zhǔn)的模型,實(shí)驗(yàn)測(cè)定和模型預(yù)測(cè)值數(shù)據(jù)庫(kù),具有靈活的搜索引擎,界面友好,有合適的工具幫助進(jìn)行模型選擇,并且可以通過(guò)互聯(lián)網(wǎng)絡(luò)獲得.通過(guò)這樣體系的構(gòu)建,實(shí)現(xiàn)資源共享,幫助非(Q)SAR研究人員正確使用這些模型,在管理和決策領(lǐng)域發(fā)揮作用.3歐盟的研究項(xiàng)目由于(Q)SAR技術(shù)有助于實(shí)現(xiàn)有機(jī)化學(xué)品管理的“預(yù)先防范原則”,能夠替代相關(guān)的試驗(yàn)并可大幅降低測(cè)試費(fèi)用,因此,世界各國(guó)紛紛開發(fā)和應(yīng)用面向毒害有機(jī)物生態(tài)風(fēng)險(xiǎn)評(píng)價(jià)與管理的(Q)SAR技術(shù).截至2002年,美國(guó)、加拿大、澳大利亞、德國(guó)、丹麥、日本和荷蘭等國(guó)家,均不同程度地應(yīng)用(Q)SAR技術(shù)來(lái)預(yù)測(cè)有機(jī)化學(xué)品的物理化學(xué)性質(zhì)、環(huán)境歸趨和對(duì)水生生物的毒性,所涉及參數(shù)包括:KOW、KOC、SW、沸點(diǎn)(Bp)、熔點(diǎn)(Mp)、蒸氣壓(P)、亨利定律常數(shù)(KH)、在空氣中的氧化速率、水解速率常數(shù)、BCF、生物降解性等.REACH法規(guī)提出了化學(xué)品監(jiān)管的3條原則:①“無(wú)安全信息便無(wú)市場(chǎng)”原則,即:在產(chǎn)品投放市場(chǎng)之前,化學(xué)品公司必須提供產(chǎn)品安全信息;②減少實(shí)驗(yàn)尤其是動(dòng)物實(shí)驗(yàn)的原則.一方面為了降低實(shí)驗(yàn)的費(fèi)用,另一方面為了滿足西方國(guó)家所倡導(dǎo)的動(dòng)物保護(hù)理念;③應(yīng)用(Q)SAR技術(shù)的原則.REACH法規(guī)規(guī)定,如果(Q)SAR技術(shù)滿足如下4方面的條件,則(Q)SAR的預(yù)測(cè)結(jié)果就可以替代試驗(yàn)測(cè)試:1)(Q)SAR模型的科學(xué)有效性已經(jīng)得到證實(shí);2)所預(yù)測(cè)的物質(zhì)在(Q)SAR模型的應(yīng)用域之內(nèi);3)所預(yù)測(cè)的結(jié)果足夠用于化學(xué)品分類、標(biāo)記和風(fēng)險(xiǎn)評(píng)價(jià)的目的;4)提供了足夠和可靠的記錄來(lái)描述所使用的方法.歐盟的QSAR技術(shù)導(dǎo)則(TGD)中,給出了(Q)SAR在化學(xué)物質(zhì)生態(tài)效應(yīng)和環(huán)境歸趨預(yù)測(cè)方面的4個(gè)作用:評(píng)估實(shí)驗(yàn)數(shù)據(jù)、決定是否進(jìn)行進(jìn)一步的測(cè)試實(shí)驗(yàn)、估計(jì)特定參數(shù)、確定潛在的數(shù)據(jù)需求.歐洲化學(xué)品署(ECB)(http://ecb.jrc.it/)是歐盟負(fù)責(zé)有害化學(xué)品風(fēng)險(xiǎn)評(píng)價(jià)的核心官方機(jī)構(gòu),負(fù)責(zé)實(shí)施REACH法規(guī)的技術(shù)支持.近年來(lái),ECB圍繞(Q)SAR技術(shù)的開發(fā)和應(yīng)用,開展了大量的研究工作.主要涉及3方面:1)(Q)SAR模型的報(bào)告格式、驗(yàn)證與評(píng)估方法;2)化學(xué)品分類技術(shù);3)理化性質(zhì)、環(huán)境行為或毒理參數(shù)的類比(Analogue或Read-Across)技術(shù),涉及(Q)SAR技術(shù)在不同目標(biāo)層面上的應(yīng)用.OECD也圍繞化學(xué)品的安全性問(wèn)題,開展了(Q)SAR技術(shù)的應(yīng)用研究.2004年11月,OECD提出了驗(yàn)證(Q)SARs模型的一些原則.2007年2月,OECD發(fā)布了關(guān)于確認(rèn)和驗(yàn)證(Q)SAR模型的指導(dǎo)文件.OECD圍繞(Q)SARs在現(xiàn)有和新化學(xué)品管理中的應(yīng)用,組織開展了案例研究.涉及的國(guó)家包括澳大利亞、加拿大、捷克共和國(guó)、丹麥、德國(guó)、意大利、日本、荷蘭、美國(guó)、英國(guó)和歐盟委員會(huì).2006年8月,OECD發(fā)布了該案例研究的報(bào)告.美國(guó)有多個(gè)政府部門研發(fā)和應(yīng)用(Q)SAR技術(shù),包括:USEPA、空軍(theU.S.AirForce)、有毒物質(zhì)和疾病注冊(cè)管理局(theAgencyforToxicSubstancesandDiseaseRegistry,ATSDR)、有毒物質(zhì)控制法案內(nèi)部測(cè)試委員會(huì)(theToxicSubstanceControlActInteragencyTestingCommittee)、國(guó)家海洋大氣管理局(theNationalOceanicAtmosphericAdministration,NOAA)、消費(fèi)品安全委員會(huì)(ConsumerProductSafetyCommission,CPSC)、食品與藥品管理局(FoodandDrugAdministration,FDA)、國(guó)立癌癥研究所(NationalCancerInstitue,NCI)、國(guó)家毒理學(xué)計(jì)劃(NationalToxicologyProgram)等.USEPA開發(fā)了EPISuiteTMOW、KOC、H、SW、Bp、Mp、P、BCF、生物降解性、空氣中的氧化速率、水解速率、污水處理廠去除效率等的子程序.USEPA還應(yīng)用QSAR技術(shù)預(yù)測(cè)大批量生產(chǎn)的化學(xué)品(HPV)和需要生產(chǎn)前告知(PMN)化學(xué)品的生物效應(yīng),包括吸收、分配、代謝、排泄、急性效應(yīng)、刺激性、致敏性、慢性或亞慢性效應(yīng)、生殖效應(yīng)、發(fā)育毒性、致癌性、致突變性等.此外,USEPA還應(yīng)用QSAR預(yù)測(cè)化學(xué)品的雌激素效應(yīng).關(guān)于其他國(guó)家應(yīng)用QSAR技術(shù)的詳情,可以參閱文獻(xiàn)[86,88].(Q)SAR的相關(guān)研究成果,以論文形式發(fā)表的多于專利.2006年底,以“QSAR”為關(guān)鍵詞在標(biāo)題和摘要中檢索,歐洲專利局(EPO)的WorldwideDatabase中檢索到22個(gè)公開專利;世界知識(shí)產(chǎn)權(quán)組織(WIPO)的專利數(shù)據(jù)庫(kù)中檢索得到11個(gè)公開專利;美國(guó)專利商標(biāo)局(USPTO)的數(shù)據(jù)庫(kù)中,檢索到8個(gè)專利.綜上所述,發(fā)達(dá)國(guó)家(Q)SAR技術(shù)的發(fā)展趨勢(shì)可以概括為:已經(jīng)得到高度重視,并在有機(jī)物生態(tài)風(fēng)險(xiǎn)評(píng)價(jià)與管理中日益得到應(yīng)用.針對(duì)其應(yīng)用中的技術(shù)問(wèn)題,開展了大量的研究工作.在環(huán)境科學(xué)技術(shù)領(lǐng)域,在國(guó)家自然科學(xué)基金的資助下,我國(guó)也開展了(Q)SAR方面的一些基礎(chǔ)研究工作.代表性的研究單位有南京大學(xué)、大連理工大學(xué)、湖南大學(xué)、蘭州大學(xué)、長(zhǎng)春應(yīng)用化學(xué)研究所、東北師范大學(xué)等,但總的來(lái)說(shuō),開展的不系統(tǒng),也不深入,在(Q)SAR技術(shù)的應(yīng)用層面尚未開展實(shí)質(zhì)性研究工作,需要迎頭趕上.4面向era的qsar的環(huán)境分析(Q)SAR技術(shù)的應(yīng)用涉及多方面因素.2002年在Setubal召開的(Q)SAR研討會(huì)對(duì)其應(yīng)用和發(fā)展提出了初步指導(dǎo)意見,即:面向ERA的(Q)SAR應(yīng)該符合如下標(biāo)準(zhǔn):1)具有明確定義的環(huán)境指標(biāo);2)具有明確的算法;3)定義了模型的應(yīng)用域;4)有適當(dāng)?shù)臄M合度,穩(wěn)定性和預(yù)測(cè)能力;5)最好能夠進(jìn)行機(jī)理解釋.2004年,OECD正式確定上述準(zhǔn)則為(Q)SAR模型發(fā)展和使用的導(dǎo)則,符合這些條件的模型,可以應(yīng)用于化合物的ERA、化學(xué)品篩選以及優(yōu)先控制等管理工作.下面主要圍繞上述問(wèn)題,對(duì)相關(guān)工作進(jìn)行總結(jié).4.1預(yù)測(cè)值的確定(Q)SAR的環(huán)境指標(biāo)(變量)是指任何能被測(cè)量和預(yù)測(cè)的物理化學(xué)、環(huán)境行為與生態(tài)毒理學(xué)參數(shù).這些指標(biāo)可以在標(biāo)準(zhǔn)條件下,采用規(guī)范的方法,通過(guò)實(shí)驗(yàn)方法測(cè)定.明確(Q)SAR模型的環(huán)境指標(biāo),可以判斷模型的預(yù)測(cè)值是否適合于特定的ERA.研究表明,高質(zhì)量的實(shí)驗(yàn)數(shù)據(jù)是建立優(yōu)秀(Q)SAR模型的重要基礎(chǔ).最標(biāo)準(zhǔn)的數(shù)據(jù)應(yīng)該是相同實(shí)驗(yàn)室相同工作人員采用統(tǒng)一的標(biāo)準(zhǔn)方法測(cè)定的,不同來(lái)源的實(shí)驗(yàn)數(shù)據(jù)間的系統(tǒng)差異,會(huì)對(duì)(Q)SAR模型質(zhì)量產(chǎn)生不可預(yù)知的影響.同時(shí),應(yīng)盡可能確保建立模型的訓(xùn)練集化合物有較大的結(jié)構(gòu)差異性,擴(kuò)大訓(xùn)練集的物理化學(xué)空間,增強(qiáng)模型的穩(wěn)健性.然而由于實(shí)驗(yàn)數(shù)據(jù)的限制,實(shí)際工作中經(jīng)常采用來(lái)自于不同文獻(xiàn)的環(huán)境指標(biāo)數(shù)據(jù),這樣雖然會(huì)擴(kuò)大數(shù)據(jù)范圍,提高結(jié)構(gòu)差異,但容易導(dǎo)致不精確的預(yù)測(cè)結(jié)果.因此,模型的擬合結(jié)果必須考慮實(shí)驗(yàn)數(shù)據(jù)誤差,保證擬合度要在環(huán)境指標(biāo)數(shù)據(jù)的變化范圍之內(nèi);否則會(huì)不恰當(dāng)?shù)啬M誤差信息,造成模型過(guò)擬合.4.2數(shù)據(jù)分析方法應(yīng)用于有機(jī)化學(xué)品管理和生態(tài)風(fēng)險(xiǎn)評(píng)價(jià)的QSAR模型,最好具有簡(jiǎn)單、透明、容易解釋、易于移植的數(shù)學(xué)算法.所謂透明,是指模型應(yīng)基于基本的物理化學(xué)性質(zhì),并具有清晰明確的表達(dá)形式.一個(gè)透明的模型才有利于進(jìn)行機(jī)理解釋,便于不同研究和管理人員之間的交互使用,并且允許使用者查看和理解環(huán)境指標(biāo)被預(yù)測(cè)的全過(guò)程.這樣的模型品質(zhì)主要通過(guò)適當(dāng)?shù)慕y(tǒng)計(jì)數(shù)學(xué)方法來(lái)實(shí)現(xiàn).模型所使用的統(tǒng)計(jì)分析方法應(yīng)該具備一定的透明性,即通過(guò)該方法的實(shí)施,獲得相關(guān)的處理過(guò)程信息.研究表明[105~107],不同方法的透明性依次為:多元回歸分析(MLR)>主成份和偏最小二乘分析(PCA&PLS)>人工神經(jīng)網(wǎng)絡(luò)(ANN)>遺傳算法(GA).然而,模型的透明性又是與模型的穩(wěn)健性相關(guān)聯(lián)的,后者是指模型應(yīng)用范圍和條件的相對(duì)自由程度,且其順序剛好與透明性相反.所以,統(tǒng)計(jì)分析方法的選擇,應(yīng)該綜合模型的用途、考慮環(huán)境指標(biāo)的需求、模型透明性和穩(wěn)健性等相關(guān)指標(biāo).4.3模型的機(jī)理解釋性(Q)SAR模型的建立,應(yīng)該基于對(duì)機(jī)理的正確分析和解釋;反過(guò)來(lái),所建立的(Q)SAR模型,應(yīng)該進(jìn)一步有助于機(jī)理的解釋.機(jī)理解釋可以明確影響化合物生態(tài)風(fēng)險(xiǎn)指標(biāo)的分子結(jié)構(gòu)因素,進(jìn)而判斷是否可以用于新物質(zhì)的ERA.模型的機(jī)理解釋性,主要通過(guò)如下兩方面實(shí)現(xiàn):(1)建立模型所使用的分子結(jié)構(gòu)描述符,應(yīng)有利于模型的機(jī)理解釋.所以要盡可能選擇具有明確物理化學(xué)意義的分子結(jié)構(gòu)描述符.比較而言,一些基礎(chǔ)性質(zhì)描述符(如分子量)和量子化學(xué)描述符較以原子和碎片為基礎(chǔ)的結(jié)構(gòu)和拓樸指數(shù)更易于解釋.(2)與不斷發(fā)展的生物化學(xué)、毒理學(xué)相結(jié)合,深入對(duì)化合物毒性作用機(jī)理的認(rèn)識(shí),提高模型的機(jī)理解釋性.4.4模型應(yīng)用域和代謝作用(1)(Q)SAR模型應(yīng)用域的表征在ERA中應(yīng)用(Q)SAR技術(shù)需要克服的難點(diǎn)之一,就是表征模型的應(yīng)用域(AD).經(jīng)驗(yàn)的(Q)SAR模型僅在驗(yàn)證的域內(nèi)是有效的,應(yīng)用于域外的物質(zhì)會(huì)導(dǎo)致嚴(yán)重的預(yù)測(cè)錯(cuò)誤.模型的AD與模型的確認(rèn)和驗(yàn)證密切相關(guān).所謂模型的確認(rèn)與驗(yàn)證,就是針對(duì)模型的某個(gè)預(yù)測(cè)功能,證明在其AD內(nèi)具有令人滿意的預(yù)測(cè)準(zhǔn)確度.因此,AD可以定義為:經(jīng)確認(rèn)和驗(yàn)證,某模型所適用的化合物集合.在實(shí)踐中,需要一個(gè)可操作的、可用計(jì)算機(jī)程序執(zhí)行的方法來(lái)具體定義模型的應(yīng)用域.對(duì)應(yīng)用域的研究,首先可以從建立模型所使用描述符的角度來(lái)展開,即訓(xùn)練集化合物所覆蓋的描述符空間的組合,也稱之為描述符域.訓(xùn)練集的選擇會(huì)直接影響模型描述符的空間范圍.其次,考慮訓(xùn)練集和預(yù)測(cè)集化合物之間的結(jié)構(gòu)相似性,得到結(jié)構(gòu)域.結(jié)構(gòu)域是基于分子相似性概念的,對(duì)于預(yù)測(cè)來(lái)講,與訓(xùn)練集化合物分子相似性高的化合物會(huì)比相似性低的化合物得到更準(zhǔn)確的預(yù)測(cè)結(jié)果.有些情況下,模型的結(jié)構(gòu)相似性是基于經(jīng)驗(yàn)知識(shí)或假定的作用模式的.所以,基于不同的定義結(jié)構(gòu)相似性的方法,可能得到不同的結(jié)構(gòu)域.分子結(jié)構(gòu)描述符包含在模型的描述符空間中,并且結(jié)構(gòu)與訓(xùn)練集化合物的結(jié)構(gòu)相似,這兩個(gè)條件是判斷化合物是否處于模型應(yīng)用域之中的必要條件.然而滿足這兩個(gè)條件并不能確保預(yù)測(cè)的可靠性和正確性,還需要引入機(jī)理域的概念,即測(cè)試集化合物的化學(xué)反應(yīng)或毒性作用機(jī)理應(yīng)該與訓(xùn)練集化合物相一致.機(jī)理域的定義通常需要描述分子的亞結(jié)構(gòu),并認(rèn)為分子結(jié)構(gòu)類似的物質(zhì)具有類似的反應(yīng)或毒性機(jī)理.機(jī)理域是保證模型預(yù)測(cè)準(zhǔn)確度和精確度的最嚴(yán)格標(biāo)準(zhǔn).此外,如果在毒性作用過(guò)程中發(fā)生了新陳代謝,那么還應(yīng)該從模擬代謝的角度定義代謝域.忽略代謝作用會(huì)給毒理作用指標(biāo)的判斷帶來(lái)困難,這也是傳統(tǒng)的(Q)SAR模型中經(jīng)常出現(xiàn)的問(wèn)題.綜上,可從4方面來(lái)表征模型的應(yīng)用域:1)描述符變化范圍;2)結(jié)構(gòu)相似性;3)機(jī)理相似性;4)新陳代謝.這4方面的交集,構(gòu)成了(Q)SAR模型最保守的應(yīng)用域.在實(shí)際應(yīng)用中,可根據(jù)(Q)SAR模型的實(shí)驗(yàn)數(shù)據(jù)的質(zhì)量、所模擬的環(huán)境指標(biāo)與實(shí)際應(yīng)用目標(biāo),確定(Q)SAR應(yīng)用域的最佳表征方式.(2)(Q)SAR模型離群值的診斷模型離群值(離域點(diǎn))的診斷是十分重要的,因?yàn)殡x域點(diǎn)的存在會(huì)給模型帶來(lái)很多問(wèn)題.從模型的角度來(lái)講,典型離域點(diǎn)表現(xiàn)為:化合物對(duì)于數(shù)據(jù)集是非穩(wěn)定性的,或表現(xiàn)在生物學(xué)上的不同作用機(jī)制,或者表現(xiàn)為化學(xué)上的相異性,偶爾可能表現(xiàn)為錯(cuò)誤的數(shù)據(jù).從統(tǒng)計(jì)學(xué)角度講,離域點(diǎn)分為3類:1)X離域點(diǎn):物質(zhì)的分子結(jié)構(gòu)描述符不在其他物質(zhì)的描述符空間之內(nèi);2)Y離域點(diǎn),即實(shí)驗(yàn)數(shù)據(jù)的異常值;3)X/Y關(guān)系離域:描述符X與環(huán)境性質(zhì)Y的關(guān)系方面,與訓(xùn)練集中其他物質(zhì)不同,即呈現(xiàn)不同的作用機(jī)制.判斷模型的離域點(diǎn),對(duì)精確確定模型的應(yīng)用域具有重要意義.但三類離域點(diǎn)中,Y離域點(diǎn)只能根據(jù)經(jīng)驗(yàn)判斷,X/Y離域點(diǎn)也不能直接檢測(cè),所以研究重點(diǎn)是判斷X離域點(diǎn),主要有以下兩種方法:1)Hotelling’sT2:是Student’st-test的多變量形式.2)DModX:表示化合物在X方向上到模型超平面的距離.如果該距離大于模型設(shè)定的極限值,則認(rèn)為所代表的化合物為X離域點(diǎn).這兩種診斷方法經(jīng)常聯(lián)合使用.其主要區(qū)別在于:Hotelling’sT2方法來(lái)自于可解釋的變量信息,判斷結(jié)果為強(qiáng)烈離群的數(shù)據(jù)點(diǎn),而DModX方法來(lái)自于未解釋的變量信息,所判斷的離域點(diǎn)屬于中等程度離域.另外基于回歸分析的模型,也常采用標(biāo)準(zhǔn)殘差做為離域點(diǎn)的判斷標(biāo)準(zhǔn).值得注意的是,離域點(diǎn)廣泛存在于所有的環(huán)境指標(biāo)中,并對(duì)這些指標(biāo)模型的發(fā)展起到了重要的推動(dòng)作用.分析離域點(diǎn)會(huì)加強(qiáng)對(duì)模型的深入理解,促進(jìn)作用機(jī)理的認(rèn)識(shí).因此必須基于合理的原則和明確的算法來(lái)判斷離域點(diǎn).可以通過(guò)去除離域點(diǎn)前后模型性能的變化進(jìn)一步判斷其性質(zhì).如果離域點(diǎn)僅僅是由統(tǒng)計(jì)分析方法引起的,那么去除后,模型性能不會(huì)有顯著提高.4.5擬合不足及過(guò)度擬合問(wèn)題關(guān)于QSAR模型的表征,需要從三方面評(píng)價(jià)模型的性能.首先是擬合效果的統(tǒng)計(jì)分析,以表明模型解釋訓(xùn)練集變化的能力;然后通過(guò)交叉驗(yàn)證,評(píng)估模型穩(wěn)定性以及內(nèi)部預(yù)測(cè)能力;最后采用建立模型時(shí)未使用的數(shù)據(jù),進(jìn)行外部預(yù)測(cè)能力的評(píng)價(jià).(1)(Q)SAR模型擬合效果評(píng)價(jià)傳統(tǒng)使用的統(tǒng)計(jì)評(píng)價(jià)指標(biāo)主要有以下幾個(gè):1)決定系數(shù)(R2)/自由度調(diào)整后的決定系數(shù)(R2adj):R2是判定擬合優(yōu)度的重要指標(biāo).然而,如果引入多余的預(yù)測(cè)變量會(huì)導(dǎo)致較低的自由度,雖然R2較高,但是模型的預(yù)測(cè)能力較差.所以常采用經(jīng)自由度校正的決定系數(shù)R2adj.該值越大,擬合優(yōu)度越好.2)誤差平方和(SSE):反映了實(shí)測(cè)值與預(yù)測(cè)值之間的偏離,該值依賴于數(shù)據(jù)點(diǎn)個(gè)數(shù).3)表示隨機(jī)誤差分散程度的均方根誤差(RMSE)、表示實(shí)測(cè)值與擬合值之差的平均絕對(duì)殘差(MAR)以及擬合值的標(biāo)準(zhǔn)誤差(SE)/標(biāo)準(zhǔn)偏差(SD),是衡量模型精確度的常用參數(shù).這些參數(shù)依賴于環(huán)境指標(biāo)數(shù)據(jù)的范圍和分布,并受離域點(diǎn)的影響.4)F檢驗(yàn):是對(duì)回歸模型顯著性水平的方差檢驗(yàn)方法,適用于基于MLR方法建立的模型.上述擬合優(yōu)度參數(shù)常用于模型擬合效果的初步評(píng)價(jià),但不能鑒別模型的擬合不足或過(guò)度擬合問(wèn)題.所謂擬合不足,是指模型沒(méi)有充分揭示出訓(xùn)練集所包含的變量信息,這樣的問(wèn)題會(huì)導(dǎo)致模型的預(yù)測(cè)能力降低;過(guò)度擬合則是由于擬合了誤差信息,導(dǎo)致模型的擬合度高于環(huán)境指標(biāo)數(shù)據(jù)和描述符結(jié)合的變化性.后者是QSAR模型建立過(guò)程中經(jīng)常出現(xiàn)的問(wèn)題,尤其對(duì)于采用非線性建模方法所得到的模型.對(duì)于此類問(wèn)題的判斷,需要通過(guò)模型的穩(wěn)定性分析來(lái)解決.(2)QSAR模型的穩(wěn)定性分析及內(nèi)部驗(yàn)證模型的穩(wěn)定性分析是與模型擬合不足或過(guò)度擬合問(wèn)題緊密相連的.按照習(xí)慣,常使用“不穩(wěn)定性”這個(gè)概念,其含義是模型受訓(xùn)練集中某些個(gè)別化合物或化合物子集的影響比較大.如果化合物的預(yù)測(cè)值超出模型的置信區(qū)間,就會(huì)導(dǎo)致模型不穩(wěn)定.直接對(duì)模型的不穩(wěn)定性進(jìn)行定量分析的研究比較少.Kolossov和Stanforth從預(yù)測(cè)變量和預(yù)測(cè)值兩個(gè)角度,提出了模型不穩(wěn)定性系數(shù)(MIC)和模型預(yù)測(cè)值不穩(wěn)定性系數(shù)(MVIC).如果MIC和MVIC值小于100%,表明模型穩(wěn)定,反之則模型不穩(wěn)定.對(duì)于模型的不穩(wěn)定性分析,更常用的方法是通過(guò)內(nèi)部驗(yàn)證來(lái)進(jìn)行,因?yàn)槿魏蝺?nèi)部驗(yàn)證技術(shù)都能一定程度上評(píng)價(jià)模型的不穩(wěn)定性.內(nèi)部驗(yàn)證技術(shù)主要包括以下幾類:1)去多法(Leave-many-out):將初始訓(xùn)練集中的n個(gè)數(shù)據(jù)點(diǎn)平均分成大小為m(=n/G)的G個(gè)子集.然后每次去除m個(gè)數(shù)據(jù)點(diǎn),采用剩下的n-m個(gè)數(shù)據(jù)點(diǎn)作為訓(xùn)練集重新建模并驗(yàn)證由m個(gè)數(shù)據(jù)點(diǎn)構(gòu)成的驗(yàn)證集.經(jīng)G次計(jì)算,得到交叉驗(yàn)證系數(shù)Q2來(lái)表征模型的穩(wěn)定性和預(yù)測(cè)能力.一般認(rèn)為如果Q2大于0.5,模型比較穩(wěn)定;大于0.9,模型的穩(wěn)定性非常優(yōu)秀.2)去一法(Leave-one-out):具體過(guò)程與去多法相似,區(qū)別僅在于m=1.統(tǒng)計(jì)學(xué)理論證明,在變量選擇方面,去多法比去一法效果要好,主要是因?yàn)槿ヒ环ㄒ约癿值較小的去多法比m值較大的去多法容易包含更多的(潛在)變量信息,導(dǎo)致模型過(guò)擬合,對(duì)驗(yàn)證集的預(yù)測(cè)能力下降.3)Bootstrapping法:從原始數(shù)據(jù)中隨機(jī)選擇m個(gè)數(shù)據(jù)點(diǎn),建模,并預(yù)測(cè)其他未被選擇的化合物.重復(fù)G次,得到平均Q2.同樣,較高的Q2值也表明模型的穩(wěn)定性.4)Y的隨機(jī)性檢驗(yàn):這也是一種廣泛用于表征模型穩(wěn)健性的統(tǒng)計(jì)方法.隨機(jī)調(diào)整因變量Y形成新矩陣,然后采用原來(lái)的自變量矩陣建立模型,重復(fù)50~100次,得到基于隨機(jī)數(shù)據(jù)模型的R2adj和交叉驗(yàn)證系數(shù)Q2值.如果這些值都比較低,則證明原模型的穩(wěn)定性比較好,反之,表明依目前的建模方法得到的模型不能被接受.此外,需要注意的是:表示模型擬合能力的R2adj比表示模型穩(wěn)定性的交叉驗(yàn)證系數(shù)Q2值要高,R2adj-Q2的差值一般為0.2~0.3,如果超過(guò)0.3,表明模型可能存在如下問(wèn)題:模型過(guò)擬合、存在不相關(guān)的X變量或數(shù)據(jù)中存在離域點(diǎn).(

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論