




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、DNA 序列分類摘要 本問題是一個(gè)“有人管理分類問題 ”。 首先分別列舉出 20 個(gè)學(xué)習(xí)樣本序列中 1 字符串、 2 字符串、 3 字符串出現(xiàn)的頻率, 構(gòu)成含 41 個(gè)變量的基本特征集,接著用主成分分 析法從中提取出 4 個(gè)特征。然后用 Fisher 線性判別法進(jìn)行分類,得出了所求 20 個(gè)人工制造 序列及 182 個(gè)自然序列的分類結(jié)果如下:1) 20 個(gè)人工序列:22, 23, 25, 27, 29, 34, 35, 36, 37 為 A 類,其余為 B 類。2) 182 個(gè)自然序列: 1, 4, 8, 10, 27, 29, 32, 41, 43, 48, 54, 63, 70, 72,
2、75, 76,81, 86, 90, 92, 102, 110, 116, 119, 126, 131, 144, 150, 157, 159, 160, 161, 162, 163, 164, 165, 166, 169, 170, 182 為 B 類,其余為 A 類。最后通過檢驗(yàn)證明所用的分類數(shù)學(xué)模型效率較高。一 . 問 題 重 述人類基因組計(jì)劃中 DNA全序列草圖是由4個(gè)字符A, T, C, G按一定順序排成的長約 30 億的序列,其中沒有“斷句”也沒有標(biāo)點(diǎn)符號(hào)。雖然人類對它知之甚少,但也發(fā)現(xiàn)了其中的 一些規(guī)律性和結(jié)構(gòu)。 例如, 在全序列中有一些是用于編碼蛋白質(zhì)的序列片段, 即由這 4個(gè)
3、字 符組成的 64 種不同的 3 字符串,其中大多數(shù)用于編碼構(gòu)成蛋白質(zhì)的 20 種氨基酸。又例如, 在不用于編碼蛋白質(zhì)的序列片段中,A和T的含量特別多些,于是以某些堿基特別豐富作為特征去研究DNA序列的結(jié)構(gòu)也取得了一些結(jié)果。此外,利用統(tǒng)計(jì)的方法還發(fā)現(xiàn)序列的某些片 段之間具有相關(guān)性,等等。這些發(fā)現(xiàn)讓人們相信,DNA序列中存在著局部的和全局性的結(jié)構(gòu), 充分發(fā)掘序列的結(jié)構(gòu)對理解DNA全序列是十分有意義的。 目前在這項(xiàng)研究中最普通的思想是省略序列的某些細(xì)節(jié),突出特征,然后將其表示成適當(dāng)?shù)臄?shù)學(xué)對象。作為研究DNA序列的結(jié)構(gòu)的嘗試,提出以下對序列集合進(jìn)行分類的問題:1 )請從20個(gè)已知類別的人工制造的序列
4、(其中序列標(biāo)號(hào)1 10為A類,11-20為B類)中提取特征,構(gòu)造分類方法,并用這些已知類別的序列,衡量你的方法是否足夠好。然 后用你認(rèn)為滿意的方法,對另外 20個(gè)未標(biāo)明類別的人工序列(標(biāo)號(hào)2140)進(jìn)行分類,把結(jié)果用序號(hào)(按從小到大的順序)標(biāo)明它們的類別(無法分類的不寫入)2)同樣方法對182個(gè)自然DNA序列(它們都較長)進(jìn)行分類,像1 )一樣地給出分類結(jié)果。二.模型的合理假設(shè)1 各序列中 DNA 堿基三聯(lián)組(即 3 字符串)的起始位置和基因表達(dá)不影響分類的結(jié) 果。2 64 種 3字符串壓縮為 20 組后不影響分類的結(jié)果。3 較長的 182個(gè)自然序列與已知類別的20 個(gè)樣本序列具有共同的特征。
5、三.模型建立與求解研究 DNA 序列具有什么結(jié)構(gòu),其 A ,T,C,G4 個(gè)堿基排成的看似隨機(jī)的序列中隱藏 著什么規(guī)律,是解讀人類基因組計(jì)劃中 DNA 全序列草圖的基礎(chǔ),也是生物信息學(xué) ( Bioinformaties )最重要的課題之一。題目給出了 20 個(gè)已知為兩個(gè)類別的人工制造的 DNA 序列,要求我們從中提取特征, 構(gòu)造分類方法, 從而對 20 個(gè)未標(biāo)明類別的人工 DNA 序列和 182 個(gè)自然 DNA 序列進(jìn)行分類。 這是模式識(shí)別中的 “有人管理分類” 問題, 即事先規(guī)定了分類的標(biāo)準(zhǔn)和種類的數(shù)目, 通過大 批已知樣本的信息處理找出規(guī)律, 再用計(jì)算機(jī)預(yù)報(bào)未知。 給出的已知類別的樣本稱為
6、學(xué)習(xí)樣 本。對于此類問題, 我們通過建立分類數(shù)學(xué)模型 (這包括形成和提取特征以及制定分類決策) 考查分類模型的效率、預(yù)報(bào)未知這幾個(gè)步驟來進(jìn)行。一 特征的形成和提取為了有效地實(shí)現(xiàn)分類識(shí)別, 首先要根據(jù)被識(shí)別的對象產(chǎn)生一組基本特征, 并對基本特征 進(jìn)行變換, 得到最能反映分類本質(zhì)的特征。 這就是特征形成和提取的過程。 在列舉了盡可能 完備的特征參數(shù)集之后, 就要借助于數(shù)學(xué)的方法, 使特征參數(shù)的數(shù)目 (在保證分類良好的前 提下)減到最小。這是因?yàn)椋?1.多余的特征參數(shù)不但沒有多少好處,而且會(huì)帶來噪音,干擾 分類和數(shù)學(xué)模型的建立。 2.為了保證樣本數(shù)和特征參數(shù)個(gè)數(shù)的比值足夠大,而又不必要用太多的樣本,
7、 最好使特征參數(shù)的個(gè)數(shù)降至最少。 模式識(shí)別計(jì)算一般要求樣本數(shù)至少為變量數(shù)的 3倍,否則結(jié)果不夠可靠。 本問題的學(xué)習(xí)樣本數(shù)為 20個(gè),故特征參數(shù)的個(gè)數(shù)以 68 個(gè)為宜。我們通過研究 4個(gè)字符 A,T,C,G 在 DNA 序列中的排列、組合特性,主要是研究字符和 字符串的排列在序列中出現(xiàn)的頻率,從中提取 DNA 序列的結(jié)構(gòu)特征參數(shù)。 (一)特征的形成分別列舉一個(gè)字符, 2個(gè)字符, 3個(gè)字符的排列在序列中出現(xiàn)的頻率, 構(gòu)成基本特征集。 i. 1 個(gè)字符的出現(xiàn)頻率表 1 列出了 20 個(gè)樣本中 A,T ,C,G 這 4 個(gè)字符出現(xiàn)的頻率。由于在不用于編碼 蛋白質(zhì)的序列片段中, A 和 T 的含量特別多
8、些,因此我們將 A 和 T 是否特別豐富作為一個(gè)特征。在表一中,列出了A和T出現(xiàn)的頻率之和。(程序見附錄一)表1ACTGA+T1.29.7317.1213.5139.6443.242.27.0316.2215.3241.4442.343.27.0321.626.3145.0533.334.42.3410.8128.8318.0271.175.23.4223.4210.8142.3434.236.35.1412.6112.6139.6447.757.35.149.9118.9236.0454.058.27.9316.2218.9236.9446.859.20.7220.7215.3243.243
9、6.0410. 18.18 27.27 13.64 40.91 31.8211. 35.454.5550.0010.0085.4512. 32.732.7350.0014.5582.7313. 25.4510.0051.8212.7377.2714. 30.008.1850.0011.8280.0015. 29.09.0064.556.3693.6416. 36.368.1846.369.0982.7317. 35.4524.5526.3613.6461.8218. 29.0911.8250.009.0979.0919. 21.8214.5556.367.2778.1820. 20.0017.
10、2756.366.3676.3622 字符串的排列出現(xiàn)的頻率A,T,C,G 這4個(gè)字符組成了 16 種不同的 2字符串。表 2列出了 20個(gè)樣本中各 2 字符串出現(xiàn)的頻率。 (用“滾動(dòng)”算法,如 attcg 有 at,tt,tc,cg 共 4 個(gè) 2 字符串) (程序與附錄表2AAACATAGTATCTGGG1.9.019.013.608.114.50.904.5018.922.9.917.213.605.412.701.805.41一類似 )TTCACTCCCGGAGTGC3.603.603.601.808.1111.7 12.705.415.414.501.80.909.019.914.5
11、05.4121.623.5.41 11.71 3.605.412.70 1.80.90.905.41.90 .9014.4113.51.90 7.21 23.424.18.92 5.4111.715.4110.81 1.805.4110.815.411.80 .902.706.314.50 2.70 4.505.6.31 8.111.807.211.80 2.702.703.605.414.50 2.70 10.819.91.90 9.01 21.626.15.32 2.706.319.913.60 1.801.805.414.50.00 .008.1110.81 .90 8.11 19.82
12、7.15.32 1.80 10.817.21 4.50 2.706.315.41.901.80 .906.3113.51 .90 4.50 16.228. 8.11 3.60 6.31 9.91 5.41 3.60 2.70 7.21 2.70 3.60 1.80 8.11 10.81 1.80 7.2116.229. 9.01 .90 4.50 6.31 .00 3.60 7.21 4.50 3.60 2.70 2.70 11.71 7.21 3.60 13.5118.0210.6.363.64 1.826.36 1.82 5.452.733.645.453.64 4.55 13.644.5
13、5 3.64 13.64 18.1811.15.452.73 14.55 2.73 16.36 .91 1.8230.00.91.91.91 1.822.734.55 .00 2.7312.13.64.91 10.91 6.36 15.45 1.82 1.8230.91.91.91.00 .912.737.27.00 4.5513.6.364.55 10.00 4.55 12.73 1.82 2.73 34.55 2.73 2.73 1.821.8 23.644.551.822.7314.8.18.91 12.73 7.27 13.64 6.36 1.8228.182.734.55.00 .9
14、15.454.55.919115.13.64.00 12.73 1.82 13.64 .00 2.7348.18.00.00.00 .001.823.64.00.9116.16.363.64 15.45 .9113.64 4.55 4.55 22.731.825.45 .00.91 4.552.73.001.8217.17.275.45 10.91 1.82 10.00 6.36 4.555.454.557.279.09 2.733.642.733.64 3.6418.8.187.27 11.82 1.82 15.45 1.82 .91 30.91 3.64 3.64 1.822.73 1.8
15、23.64.912.7319.2.732.73 13.64 1.82 14.55 9.09 .9131.821.828.181.82 2.73 2.732.73 .91.9120.6.366.36 6.36 .91 9.09 10.00 3.64 32.732.7313.64.91 .001.823.64.00.9133 字符串的排列出現(xiàn)的頻率A, T , C , G這4個(gè)字符組成了 64種不同的3字符串。這64種3字符串構(gòu)成生物蛋 白質(zhì)的 20 種氨基酸。在參考文獻(xiàn) 1的 Figur2 中,給出了這 20 種氨基酸的編碼(見圖 1)。 因此,在計(jì)算 3字符串的出現(xiàn)頻率時(shí), 我們根據(jù)圖 1將代
16、表同一種氨基酸的 3字符串合成一 類,只統(tǒng)計(jì) 20類 3字符串的出現(xiàn)頻率。 (不考慮字符串在序列片段中的起始位置, 也采用“滾動(dòng)”算法。如acgtcc中就有acg,cgt,gtc,tcc共4個(gè)3字符串)見表3。(程序與附錄一類似)A C A1 1AGAccc| _C G CX G*IG G GA ACA AGACCACGACUC AGC AUCCUA GUCUGCUUCGUGUUFigure 2. Symmetries of the diamond code sort the 64 codons into 20 classes,indicated here by 20 colors. All
17、the codons in each class specified the same amino acid.Brian Hayes 在論文The Invention of the Genetic Code中給出的圖形(注:圖中DNA被轉(zhuǎn)錄為RNA, “U”代表“ T”)表3b1b2b3b41 1.773.542.650.882 1.891.890.940.943 0.980.000.005.884 0.000.000.000.875 2.860.000.003.816 0.000.000.882.637 1.920.000.002.888 2.563.420.000.859 0.000.00
18、0.002.9710 1.870.933.742.8011 0.000.890.000.0012 2.730.000.912.7313 1.800.900.900.9014 2.940.000.005.8815 2.911.942.911.9416 2.860.950.00 11.4317 1.920.961.924.8118 1.710.851.710.8519 0.940.941.890.9420 0.860.860.001.72b5b6b7b80.000.007.960.880.000.941.890.940.988.822.940.000.000.8713.04 1.740.953.8
19、13.810.000.001.7513.160.880.964.812.880.000.850.8512.820.852.979.902.970.000.000.002.800.000.001.798.040.000.913.644.553.640.000.909.010.000.006.861.960.000.005.831.940.001.901.902.860.001.923.851.920.960.852.5616.240.850.940.941.890.940.860.8617.240.86b9b1C)b11b124.422.6517.70 10.624.7212.267.5511.
20、320.002.94 10.785.886.092.6111.30 13.043.813.819.529.524.391.7514.049.651.924.8112.506.731.710.8520.512.560.993.966.931.987.488.419.357.485.364.4615.188.043.641.829.095.453.607.2114.418.113.926.863.929.801.949.715.838.744.763.815.718.570.966.734.818.651.710.8516.245.1310.387.555.669.432.591.7215.527
21、.76b13b14b15b163.544.424.427.088.493.773.776.6013.730.004.903.923.485.223.488.7012.382.869.524.767.025.264.3911.4013.461.926.734.813.429.405.9811.1113.861.982.973.963.7414.95 12.150.008.934.463.578.043.645.456.367.277.216.317.214.5013.730.985.882.9410.681.943.883.888.576.679.524.7610.582.886.732.886
22、.845.983.4211.118.498.497.555.665.173.454.319.48b17b18b19b201.773.5413.277.089.436.607.552.8319.611.968.825.883.481.74 14.78 ,7.837.622.867.629.522.631.7510.53 6.1410.583.859.627.690.854.27 11.973.4223.762.978.916.932.804.677.487.484.466.25 13.395.368.185.45 10.919.091.807.2111.714.5010.780.981 0.78
23、 9.808.742.9111.65 10.685.712.867.627.629.626.738.657.691.715.1311.11 3.426.6011.326.600.945.175.179.485.17其中 b1 =aaa+atab2=aca+agab3=cac+ctcb4=ccc+cgcb5 =gag+gtg b6=gcg+ggg b9 =aac+caa+atc+cta b11=aat+taa+att+tta b13=acg+gac+ctg+gtc b15=cag+gac+ctt+ttc b17=ccg+gcc+cgg+ggc b19=gat+tag+gtt+ttgb7=tat+
24、ttt b8=tct+tgt b10=aag+gaa+atg+gta b12=acc+cca+agc+cga b14=act+tca+agt+tga b16=cat+tac+ctt+ttc b18=cct+tcc+cgt+tgc b20=gct+tcg+ggt+tgg綜合起來,形成了有 41個(gè)變量的基本特征集。(二)特征的提取上述基本特征集中有 41個(gè)變量,即樣本處于一個(gè)高維空間中。特征的提取就是通 過變換的方法用低維空間來表示樣本,使得X的大部分特性能由 Y來表達(dá),即將p維隨機(jī)向量X變換成q維隨機(jī)向量 Y (qvp )。我們用主成分分析法進(jìn)行特征的提取,其 步驟是:1. 求X的均方差矩陣 V
25、的特征根,記為:入1入2 ” 入k 0入k+1= ”=入P=02. 求入1,入2,入K對應(yīng)的標(biāo)準(zhǔn)正交的特征向量冷,2,rK得到第i個(gè)主成分為yi=riX, i=1,2 , Kk3. 求第i個(gè)主成分的貢獻(xiàn)率 Ui=入i/ 7入j, i=1,2, K及前m個(gè)主成分的累計(jì)貢i 二m獻(xiàn)率 Vm=7 Ui.i T4. 求得q,使得Vq V(V。一般在0.85到1之間),則取W=(r 1,r2,rq)Y=XW第3步所求的貢獻(xiàn)率,代表主成分表達(dá) X的能力,貢獻(xiàn)率越大,對應(yīng)的主成分表達(dá)X的能力越強(qiáng)。只要前 q個(gè)主成分的累計(jì)貢獻(xiàn)率超過給定的百分比V。就可以用低維特征 Y=(y1,y2, , yq)來反映高維特征
26、(X1,X2, Xp)的變化特性?,F(xiàn)將反映20個(gè)已知類別樣本的 41個(gè)特征的隨機(jī)向量 X進(jìn)行特征提取。 計(jì)算得前4個(gè)主成分的累計(jì)貢獻(xiàn)率為 96%,故提取特征為4個(gè)變量,取W=(門,“,),則Y=XW , 丫的4個(gè)分量就是從基本特征集提取所得的特征參數(shù)向 量。(程序及結(jié)果見附錄二)分類決策的制定前面已選取了特征參數(shù),把特征參數(shù)張成的多維空間稱為特征空間。分類決策就是在特征空間中用統(tǒng)計(jì)的方法把被識(shí)別對象歸為某一類別?;咀鞣ㄊ窃趯W(xué)習(xí)樣本集的基礎(chǔ)上確定某個(gè)判決規(guī)則,使按這種判決規(guī)則對被甄別對象進(jìn)行分類所造成的錯(cuò)誤識(shí)別率最小或引起的 損失最少。這里,我們的分類決策選取Fisher線性判別法。即選取線性
27、判別函數(shù)U(x),使得:U(x)=E iU(x)-E 2U(x) 2/D i U(x)+D 2U(x)=max(1)其中Ei與Di分別表示母體i的期望和方差運(yùn)算,i=1, 2。(1) 式的含義是:構(gòu)造一個(gè)線性判別函數(shù)U(x)對樣本進(jìn)行分類,使得平均出錯(cuò)概率最小。即應(yīng)在不同母體下,使U(x)的取值盡量分開。具體地說,要使母體 間的差異 (Ei(U(x)-E 2(U(x)2相對于母體內(nèi)的差異DiU(x)+D 2U(x)為最大。取U(x)=( X i-X 2)/ (刀 i+ 刀2)-1X就可滿足(1)。其中X i為第i類母體的均值矩陣的估計(jì),刀i為第i類母體的方差矩陣的估計(jì)。取分類門檻值為:Uo=U
28、( a * X 1+(1- a )* X 2)其中0 a Uo,U( X 2)U o.,就認(rèn)為X取自母體1;當(dāng)U(X)U o,就認(rèn)為X取自母體2。用上面得出的4個(gè)主成分構(gòu)成的特征組和此分類決策,對20個(gè)學(xué)習(xí)樣本進(jìn)行分類,能得出正確的結(jié)果。但是,若取 W=(門,心),求Y=XW,以Y的3個(gè)分量作為特征參數(shù)向 量,再用Fisher線性判別法對20個(gè)學(xué)習(xí)樣本進(jìn)行分類,則第四個(gè)樣本不能正確分類。因此,得出分類的數(shù)學(xué)模型為:(1) 特征選?。喝?W= ( r1,r2,r3,r4),求Y=XW,得出特征參數(shù)向量就是Y的4個(gè)列向量。其中 X是反映20個(gè)學(xué)習(xí)樣本的41個(gè)特征的隨機(jī)向量。(2) 分類決策:Fis
29、her線性判別法。三.分類模型的有效性考查前面建立的分類數(shù)學(xué)模型對 20個(gè)學(xué)習(xí)樣本進(jìn)行了正確分類。為了進(jìn)一步考查分類 模型的有效性和可靠性, 我們采用的方法是:預(yù)先留一部分學(xué)習(xí)樣本不參加訓(xùn)練,然后用分類決策模型對其作預(yù)報(bào),將預(yù)報(bào)成功率作為預(yù)報(bào)能力的指標(biāo)。每次取出一個(gè)學(xué)習(xí)樣本, 以其余學(xué)習(xí)樣本作訓(xùn)練集,用分類決策模型對取出的一個(gè)樣本作預(yù)報(bào),同時(shí)對給出的后20種樣本作預(yù)報(bào)。結(jié)果見表 4。表4取出樣品 序號(hào)取出樣本類別預(yù) 報(bào)后20組樣本中A類序號(hào)預(yù)報(bào)1A22, 23, 25, 27, 29, 34, 35, 36, 372A22, 23, 25, 27, 29, 34, 35, 36, 373A22
30、, 23, 25, 27, 29, 34, 35, 36, 374A23, 25, 27, 29, 34, 35, 36, 375A22, 23, 25, 27, 29, 34, 35, 36, 376A22, 23, 25, 27, 29, 34, 35, 36, 377A22, 23, 25, 27, 29, 34, 35, 36 , 378A22, 23, 25, 27, 29, 34, 35, 36 , 379A22, 23, 25, 27, 29, 34, 35, 36, 3710A22, 23, 25, 27, 29, 34, 35, 36, 3711B22, 23, 25, 27
31、, 29, 34, 35, 36 , 3712B22, 23, 25, 27, 29, 34, 35, 36, 3713B22, 23, 25, 27, 29, 34, 35, 36, 3714B22, 23, 25, 27, 29, 34, 35, 36, 3715B22, 23, 25, 27, 29, 34, 35, 36, 37, 3916B22, 23, 25, 27, 29, 34, 35, 36 , 3717B22, 23, 25, 27, 29, 34, 35, 36, 37, 30, 3918B22, 23, 25, 27, 29, 34, 35, 36 , 3719B22,
32、 23, 25, 27, 29, 34, 35, 36 , 3720B22, 23, 25, 27, 29, 34, 35,37從表 4 可以看出:1、 每次取出一個(gè)學(xué)習(xí)樣本,以其余學(xué)習(xí)樣本作訓(xùn)練集,用分類模型對該學(xué)習(xí)樣本的預(yù) 報(bào)的成功率是 100% 。2、 每次取出一個(gè)學(xué)習(xí)樣本,以其余學(xué)習(xí)樣本作訓(xùn)練集,用分類模型對未知類別的第2140 個(gè)樣本進(jìn)行預(yù)報(bào),其結(jié)果有以下特點(diǎn):(1) 除分別取出 4、 15、 17, 20 的預(yù)報(bào)結(jié)果不同外,分別取出其余16 中一個(gè),預(yù)報(bào)結(jié)果均為: 22,23,25,27,29,34,35,36,37,占 80% 。(2) 分別取出 4、15、 20 的預(yù)報(bào)結(jié)果,與
33、( 1)的結(jié)果相比,只有一個(gè)樣本的差 異,占 15% 。(3)取出 17 的預(yù)報(bào)結(jié)果,與( 1)的結(jié)果相比,有兩個(gè)樣本的差異,占5% 。第一種結(jié)果和第二種結(jié)果非常接近,合計(jì)占總數(shù)的95% 。只有第三組的這一個(gè)結(jié)果有較大差異,占總數(shù)的 5% 。由以上檢驗(yàn)得出結(jié)論:所建立的分類數(shù)學(xué)模型分類效果很好。四.未知樣本的預(yù)報(bào) 現(xiàn)在用前面建立的數(shù)學(xué)模型對題目所給的未知類型的 20 個(gè)人工序列和 182 個(gè)自然序列 進(jìn)行預(yù)報(bào)。(程序見附錄三)結(jié)果為:1)20 個(gè)人工序列的類別A類: 22, 23,25, 27,29,34,35,36,37B類: 21、 24、 26、 28、30、31、32、33、38、39
34、、402)182 個(gè)自然序列的類別A類:(共 142 個(gè)) 2,3,5,6,7,9,11,12,13,14,15, 16,17,18,19,20,21, 22,23,24,25,26,28,30, 31,33,34,35,36,37, 38, 39,40,42,44, 45,46,47,49,50,51,52, 53,55,56,57,58,59,60, 61,62,64,65, 66,67,68,69,71,73,74,77,78,79,80,82,83, 84, 85,87,88,89,91,93,94,95,96,97,98,99,100,101,103,104,105,106,107,
35、108,109,111,112,113,114,115,117,118,120,121,122,123,124,125,127,128,129,130,132,133,134,135,136,137,138,139,140,141,142,143,145,146,147,148,149,151,152,153,154,155,156,158,167,168,171,172,173, 174, 175, 176, 177, 178, 179, 180, 181B 類:(共 40 個(gè)) 1,4,8,10,27,29,32,41,43, 48,54,63,70,72,75, 76,81,86,90,
36、92,102,110,116,119,126,131,144,150,157,159,160, 161,162,163, 164, 165, 166, 169, 170, 182四 . 模型的優(yōu)缺點(diǎn)分析優(yōu)點(diǎn):1. 針對“有人管理分類”問題,成功地建立解決這類難題的數(shù)學(xué)模型,并可立即運(yùn) 用到實(shí)踐中去。2. 僅用 4 個(gè)特征參數(shù)即圓滿解決了較為復(fù)雜的分類問題。而且模型假設(shè)條件少,因而 能準(zhǔn)確地反映實(shí)際情況,可靠性高。3. 采用模塊化分析,逐漸深入,提高了準(zhǔn)確性。4. 突出特征,假設(shè)合理,避免了在一些細(xì)節(jié)問題上的糾纏。缺點(diǎn):由于只考慮了 DNA 樣本序列中 1 字符串、 2 字符串、 3 字符串出現(xiàn)
37、的頻率作為特征, DNA 序列的分類不一定與實(shí)際情況完全相符。 (可以由科學(xué)家用物理的或化學(xué)的方法測定, 作為補(bǔ)充)。五. 模型的改進(jìn)方向及推廣模型的改進(jìn):因?yàn)槟P蜎]考慮 DNA 序列的實(shí)際特性,當(dāng)序列變得很多很長很復(fù)雜時(shí), 分類的準(zhǔn)確性會(huì)降低而不可用,因此應(yīng)增加對 DNA 序列的生物特性的考慮。模型的推廣:該模型對一般的“有人管理分類”問題的求解有重要意義。對研究 DNA 序列的規(guī)律性和結(jié)構(gòu)提供了一種有效的分類模型。 對人類基因組的研究有現(xiàn)實(shí)意義, 有利于 加快科研步伐。六.參考文獻(xiàn)1The Invention of the Genetic Code ,Brain Hayes( 美 ), A
38、merican Scientist ComputingScience, Jan.-Feb., 19982 MATLAB 入門后勤工程學(xué)院19973數(shù)學(xué)實(shí)驗(yàn)蕭樹鐵主編高等教育出版社19994概率論第二冊數(shù)理統(tǒng)計(jì)復(fù)旦大學(xué)高等教育出版社19855生命科學(xué)模型William F. Lucas主編 國防科技大學(xué)出版社19966運(yùn)籌學(xué)基礎(chǔ)手冊徐光煇主編科學(xué)出版社19997數(shù)學(xué)模型姜啟源主編高等數(shù)學(xué)出版社1993七附錄附錄一 1 個(gè)字符出現(xiàn)頻率的計(jì)算程序 CHARACTER*121 LINE(40)integer a,c,t,g,at READ*,LINE DO 20 II=1,40 iii=ii+20 A
39、=0 C=0 T=0 G=0 DO 10 I=1,121IF(LINE(ii)(I:I).EQ. a )THEN A=A+1 else if(line(ii)(I:I).eq. c)then c=c+1 else if(line(ii)(I:I).eq. t )then t=t+1 else if(line(ii)(I:I).eq. g)then g=g+1 END IF10 continue at=a+t actg=a+c+t+g aa=a/actg*100. cc=c/actg*100. tt=t/actg*100. gg=g/actg*100. aatt=at/actg*100. ope
40、n(5,file=t1.dat,status=old) write(5,1)aa,cc,tt,gg1 format(1x,4f7.2)20 CONTINUE END附錄二 基本特征量的提取程序及結(jié)果 d= 27.43 19.47 36.28 16.81 63.72;28.8524.0422.1225.0050.96;17.6525.4918.6338.2436.27;20.8719.1340.8719.1361.74;24.7622.8621.9030.4846.67;21.9321.0538.6018.4260.53;23.0820.1923.0833.6546.15;25.6414.534
41、4.4415.3870.09;14.8521.7818.8144.5533.66;28.9724.3025.2321.5054.21;24.1117.8635.7122.3259.82;17.4322.9433.0326.6150.46;27.0318.9233.3320.7260.36;23.5323.5316.6736.2740.20;24.2721.3620.3933.9844.66;22.8630.4820.9525.7143.81;21.3625.2420.3933.0141.75;22.2217.0943.5917.0965.81;27.3628.3023.5820.7550.94
42、;19.8319.8343.1017.2462.93;dd= 5.31 4.42 7.96 8.85 9.73 6.19 1.77 18.58 6.19 4.424.424.426.194.424.421.77;7.699.623.857.699.62 3.85.966.73 2.881.927.6911.547.698.652.884.81;2.943.925.884.903.92 2.941.969.80.001.9612.759.8010.78 .984.9021.57;1.744.353.4811.3013.04 1.742.6122.612.619.574.352.613.484.3
43、58.702.61;6.673.813.819.525.71 1.904.769.527.624.767.622.864.763.819.5212.38;3.513.515.269.657.89 4.391.7524.567.896.141.754.392.632.6311.401.75;5.774.814.817.696.73 2.882.8810.582.882.887.696.737.694.814.8115.38;3.425.139.406.8411.97 5.133.4223.932.566.842.562.567.693.421.712.56;1.981.983.966.933.9
44、6 2.972.978.911.98.998.918.916.934.957.9224.75;9.355.612.8010.287.48 5.615.616.548.417.482.805.613.748.419.35.00;2.685.364.4611.6115.18 1.79.8916.963.576.253.574.462.687.147.145.36;5.502.752.756.426.42 7.344.5913.764.595.506.426.42.9210.096.428.26;5.417.217.217.2110.81 1.805.4115.323.604.502.707.217
45、.216.316.31.90;7.844.90.988.824.90.982.947.84 2.94 3.929.806.867.843.926.8617.65;5.834.853.889.717.773.881.946.803.882.913.889.716.806.808.7411.65;4.763.811.9012.388.575.71.006.675.713.8110.4810.48 3.818.57 9.52 2.86;3.882.912.9110.685.83.976.805.835.835.839.713.884.855.8311.6510.68;3.429.405.983.42
46、10.261.714.2727.355.133.424.273.422.566.841.715.98;8.495.664.728.494.728.492.836.6011.321.899.435.662.839.434.723.77;3.457.764.314.3110.34.863.4527.591.726.038.623.454.315.171.726.03;ddd= 1.77 3.54 2.65 .88 .00 .00 7.96 .88 4.42 2.6517.70 10.62 3.54 4.42 4.42 7.08 1.77 3.54 13.27 7.08;1.92 1.92 .96
47、.96 .00 .96 1.92 .96 4.81 12.50 7.69 11.54 8.65 3.85 3.85 6.73 9.62 6.73 7.69 2.88;.98 .00 .00 5.88 .98 8.82 2.94 .00 .00 2.94 10.78 5.88 13.73 .00 4.90 3.92 19.61 1.96 8.82 5.88;.00 .00 .00 .87 .00 .87 13.04 1.74 6.09 2.61 11.30 13.04 3.48 5.22 3.48 8.70 3.48 1.74 14.78 7.83;2.86 .00 .00 3.81 .95 3.81 3.81 .00 3.81 3.81 9.529.52 12.38 2.86 9.52 3.81 7.62 2.86 7.62 9.52;.00 .00 .88 2.63 .00 1.75 13.16 .88 4.39 1.75 14.04 9.65 7.02 5.26 4.39 11.40 2.63 1.75 10.53 6.14;1.92 .00 .00 2.88 .96 4.81 2.88 .00 1.92 4.81 12.506.73 13.46 1.92 6.73 4.81 10.58 3.85 9.62 7.69;2.56 3.42 .00 .85 .85
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 地毯購買協(xié)議書范本
- 承包河流養(yǎng)殖協(xié)議書
- 公司組織賣房協(xié)議書
- 房屋持續(xù)占有協(xié)議書
- 補(bǔ)交社保協(xié)議書模板
- 股東授權(quán)管理協(xié)議書
- 管理承包協(xié)議書范本
- xx學(xué)校安全協(xié)議書
- 華為商業(yè)服務(wù)協(xié)議書
- 房屋析產(chǎn)協(xié)議書范文
- 人教版七年級(jí)地理(下)全冊復(fù)習(xí)教案(含教學(xué)反思)
- JJF 1603-2016(0.1~2.5)THz太赫茲光譜儀校準(zhǔn)規(guī)范
- 醫(yī)藥衛(wèi)生病原微生物檢測技術(shù)知識(shí)與技能比武競賽題庫
- 《民法典》-第二編 物權(quán)編-案例分析,解讀-3
- 膜片鉗常見問題匯總(人人都會(huì)膜片鉗)
- 講故事技能培訓(xùn)
- 海岸動(dòng)力學(xué)全冊配套完整課件
- 工作面防飛矸封閉式管理規(guī)定
- 干部人事檔案管理崗位培訓(xùn)的講義課件
- 財(cái)務(wù)人員廉政談話記錄 財(cái)務(wù)個(gè)人談話記錄3篇
- 滬教牛津版小學(xué)三至六年級(jí)英語單詞表
評論
0/150
提交評論