二維化學(xué)分子結(jié)構(gòu)信息提取芻議_第1頁
二維化學(xué)分子結(jié)構(gòu)信息提取芻議_第2頁
二維化學(xué)分子結(jié)構(gòu)信息提取芻議_第3頁
二維化學(xué)分子結(jié)構(gòu)信息提取芻議_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

精品文檔-下載后可編輯二維化學(xué)分子結(jié)構(gòu)信息提取芻議1端點(diǎn)原子的提取

端點(diǎn)的原子是由若干個(gè)字母、數(shù)字組成,在圖中表現(xiàn)為若干個(gè)面積較小的連通區(qū)域,對(duì)于原子字符的提取,本文采用的是基于區(qū)域尺寸和彎曲度的藥物化學(xué)分子結(jié)構(gòu)圖分割算法[7]。首先,根據(jù)連通區(qū)域尺寸大小,將化學(xué)分子結(jié)構(gòu)圖分割成兩部分:一部分是由化學(xué)鍵組成的所有大尺寸連通區(qū)域的組合,另一部分是雜原子、基團(tuán)和單化學(xué)鍵等小尺寸區(qū)域的組合。然后,根據(jù)彎曲度將小尺寸組合圖中的表示化學(xué)鍵的單線段和類線段“I”,“l(fā)”,“-”提取出。最后根據(jù)位置等信息將“I”,“l(fā)”,“-”和單線段進(jìn)行區(qū)分,將單線段的化學(xué)鍵和大尺寸連通區(qū)組合,完成了化學(xué)鍵與端點(diǎn)原子的分離。圖2所示是一化學(xué)分子結(jié)構(gòu)圖的分割過程的效果圖。經(jīng)過分割,實(shí)現(xiàn)了對(duì)端點(diǎn)原子的提取。對(duì)收集的10635幅二維有機(jī)化學(xué)分子結(jié)構(gòu)圖中端點(diǎn)信息進(jìn)行統(tǒng)計(jì),出現(xiàn)在端點(diǎn)附近的原子或基團(tuán)見表1,一共有21種,共有35個(gè)字符。

2基于神經(jīng)網(wǎng)絡(luò)的端點(diǎn)原子識(shí)別

對(duì)端點(diǎn)的原子或基團(tuán)的識(shí)別就轉(zhuǎn)化成對(duì)字符、數(shù)字的識(shí)別。目前對(duì)字符的識(shí)別方法有很多種,主要有模板匹配、統(tǒng)計(jì)模式識(shí)別、結(jié)構(gòu)模式識(shí)別、智能模式識(shí)別等,其中智能模式識(shí)別中神經(jīng)網(wǎng)絡(luò)應(yīng)用于字符識(shí)別一直是神經(jīng)網(wǎng)絡(luò)研究中一個(gè)很活躍的應(yīng)用領(lǐng)域,最為廣泛的要屬BP網(wǎng)絡(luò)[8-10]。本文基于BP神經(jīng)網(wǎng)絡(luò)對(duì)化學(xué)分子結(jié)構(gòu)圖中端點(diǎn)字符進(jìn)行識(shí)別。基于神經(jīng)網(wǎng)絡(luò)的字符識(shí)別系統(tǒng)流程如圖3所示,流程中的圖像預(yù)處理主要包括歸一化和特征提取。因后續(xù)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和識(shí)別都需要統(tǒng)一尺寸的字符對(duì)象,本文將字符歸一化為24×16。比較常用的特征主要有穿越特征、特征、網(wǎng)格特征等,本文提取8維網(wǎng)格特征向量和20維的穿越特征組成28維字符特征向量。

3端點(diǎn)字符合并以及后處理操作

化學(xué)分子結(jié)構(gòu)圖端點(diǎn)處的原子或基團(tuán)通常是由多個(gè)字符構(gòu)成,基于BP神經(jīng)網(wǎng)絡(luò)完成的是對(duì)分割的單個(gè)字符的識(shí)別,后續(xù)還需將每個(gè)端點(diǎn)處的多個(gè)字符進(jìn)行組合?;瘜W(xué)分子結(jié)構(gòu)圖是用專業(yè)軟件繪制而成,一般圖中的字符字號(hào)統(tǒng)一,端點(diǎn)處的字符距離較近,不同端點(diǎn)處的字符之間距離較遠(yuǎn)。所以本文基于距離對(duì)端點(diǎn)字符組合,距離的閾值φ設(shè)定很重要。在進(jìn)行化學(xué)鍵識(shí)別過程中記錄下了每個(gè)端點(diǎn)的坐標(biāo):Pi=(xi,yi),(i=1,2,…,m),m為端點(diǎn)的個(gè)數(shù)。每個(gè)字符的重心坐標(biāo)記為:Zj=(x/j,y/j),(j=1,2,…,n),n為字符的個(gè)數(shù)。具體算法如下。(1)從第一個(gè)端點(diǎn)開始,尋找每個(gè)端點(diǎn)最近距離的那個(gè)字符,記為Ak;(2)從字符Ak開始,尋找φ距離內(nèi)的字符,如果有,則將其組合進(jìn)去,接下來繼續(xù)在已組合字符附近尋找,尋找結(jié)束,該端點(diǎn)的信息也就組合完成。由于化學(xué)分子結(jié)構(gòu)圖的大小不同,且不同圖中的字符大小也不一致,導(dǎo)致距離閾值φ不能是個(gè)固定的值,經(jīng)過若干實(shí)驗(yàn)發(fā)現(xiàn),φ取化學(xué)分子結(jié)構(gòu)圖中最高字符高度的5/4,基本可以獲得較好的效果。因化學(xué)分子結(jié)構(gòu)圖中端點(diǎn)的原子和基團(tuán)的種類是有限的,為了避免因個(gè)別字符識(shí)別錯(cuò)誤而降低端點(diǎn)信息正確率,本文制作一個(gè)端點(diǎn)原子參考表,該表收集了10635幅化學(xué)分子結(jié)構(gòu)圖中端點(diǎn)原子組合158個(gè)。將端點(diǎn)的識(shí)別結(jié)果與詞典中的每個(gè)詞進(jìn)行比對(duì),計(jì)算距離,選取與該結(jié)果距離最小的詞作為最終識(shí)別結(jié)果。如果匹配距離大于一定的閾值,則不進(jìn)行校正,將原識(shí)別結(jié)果作為最終結(jié)果輸出。這種基于參考表對(duì)端點(diǎn)信息進(jìn)行校正,也是對(duì)BP神經(jīng)網(wǎng)絡(luò)識(shí)別字符的校正。如化學(xué)分子結(jié)構(gòu)圖中的“I”與“Cl”中的“l(fā)”,非常類似,用神經(jīng)網(wǎng)絡(luò)很難分辨出,但是,可以通過詞典進(jìn)行區(qū)分,如果其左端的字符是“C”,可以肯定該字符是“l(fā)”。2實(shí)驗(yàn)與分析為了驗(yàn)證本文基于神經(jīng)網(wǎng)絡(luò)的二維化學(xué)分子結(jié)構(gòu)圖端點(diǎn)原子識(shí)別的效果,對(duì)隨機(jī)選取的100幅圖像做實(shí)驗(yàn)。實(shí)驗(yàn)編程用MatlabR2022a實(shí)現(xiàn),主要分4步。第1步:完成化學(xué)鍵與字符的分割操作,從字符圖中提取單個(gè)字符,并記下其重心坐標(biāo);第2步:將提取的字符用已訓(xùn)練過的神經(jīng)網(wǎng)絡(luò)進(jìn)行識(shí)別;第3步:基于距離對(duì)端點(diǎn)字符組合;第4步:基于參考表對(duì)組合的字符進(jìn)行糾正。識(shí)別效果如表2所示,分別用X,Y和Z表示。X表示基于神經(jīng)網(wǎng)絡(luò)字符識(shí)別準(zhǔn)確率,X=∑Ni=1X()i/N,Xi表示該類中第i個(gè)圖像中字符識(shí)別準(zhǔn)確率,N表示圖像的個(gè)數(shù)。Y表示基于距離的字符組合準(zhǔn)確率,這里的組合不考慮前期字符識(shí)別是否正確,只考慮端點(diǎn)的字符個(gè)數(shù)和字符對(duì)應(yīng)的位置是否準(zhǔn)確,Y=R/Q,R是組合正確的端點(diǎn)數(shù),Q是這100幅圖中的端點(diǎn)個(gè)數(shù)。Z是經(jīng)參考表比對(duì),糾正后的字符識(shí)別的準(zhǔn)確率,Z=∑Ni=1Z()i/N,Zi表示該類中第i個(gè)圖像中字符識(shí)別準(zhǔn)確率,N表示圖像的個(gè)數(shù)。表2100幅化學(xué)分子結(jié)構(gòu)圖像中端點(diǎn)原子識(shí)別的統(tǒng)計(jì)結(jié)果Table2Statisticalresultsofatomicendpointrecognitionin100chemicalmolecularstructureimages項(xiàng)目結(jié)果基于神經(jīng)網(wǎng)絡(luò)字符識(shí)別準(zhǔn)確率X=85%基于距離的字符組合準(zhǔn)確率Y=89%糾正后的字符識(shí)別的準(zhǔn)確率Z=93.6%從實(shí)驗(yàn)結(jié)果看,基于神經(jīng)網(wǎng)絡(luò)字符識(shí)別準(zhǔn)確率85%,經(jīng)過參考表比對(duì),糾正后的字符識(shí)別的準(zhǔn)確率可以達(dá)到93.6%,有較大的提升,分析基于距離的字符組合錯(cuò)誤的端點(diǎn),發(fā)現(xiàn)這些端點(diǎn)主要出現(xiàn)在端點(diǎn)密集區(qū),導(dǎo)致端點(diǎn)處的原子歸宿錯(cuò)誤。

4結(jié)論

本文重點(diǎn)從圖像角度研究化學(xué)分子結(jié)構(gòu)圖中端點(diǎn)信息的提取,端點(diǎn)信息主要由字符構(gòu)成,采用BP神經(jīng)網(wǎng)絡(luò)對(duì)字符進(jìn)行識(shí)別,將識(shí)別之后的字符進(jìn)行組合,為了提升端點(diǎn)信息提取的準(zhǔn)確度,制作一端點(diǎn)原子參考表,實(shí)現(xiàn)對(duì)提取的端點(diǎn)信息進(jìn)行校正。實(shí)驗(yàn)證明,本文提出的化學(xué)分子結(jié)構(gòu)圖端點(diǎn)信息的提取方法具有較高的準(zhǔn)確度,具有一定的實(shí)用價(jià)值,但也存在一些不足之處,如制作

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論