數(shù)學(xué)建模_DNA序列分類(2000年競賽題)

上傳人：m*** IP屬地：天津上傳時間：2022-01-12 格式：DOCX 頁數(shù)：96 大小：141.42KB 積分：25 舉報 版權(quán)申訴

已閱讀5頁，還剩91頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、DNA序列分類摘要本問題是一個“有人管理分類”。首先分別列舉出20 個學(xué)習(xí)樣本序列中 1 字符串、2 字符串、3 字符串出現(xiàn)的頻率，構(gòu)成含41 個變量的基本特征集，接著用主成分分析法從中提取出4 個特征。然后用 Fisher 線性判別法進行分類，得出了所182 個自然序列的求 20 個人工制造序列及分類結(jié)果如下：1)20個人工序列：22, 23， 25， 27， 29，34， 35， 36， 37 為 A 類，其余為B 類。2)182個自然序列：1， 4，10， 27， 29，32， 41， 43，48，54， 63， 70， 72，75，76，1，6， 90， 92， 102， 11

2、0， 116， 119，126， 131， 144， 150， 157， 159， 160， 161， 162， 163， 164， 165， 166， 169， 170， 182B 類，其余為A 類。效率較高。最后通過檢驗證明所用的分類數(shù)學(xué)模型.問題重述人姜基因組計劃中*N喻產(chǎn)烈哀置若白4個字符 A， T， C， G 按一定順序排成的長約30 億的序列，其中沒有 “斷句” 也沒有標(biāo)點符號。雖然人類對它知之甚少，但也發(fā)現(xiàn)了中由這有一些是用于編碼蛋白質(zhì)的序列片段，4 個字符組成的其中大多數(shù)用于編碼構(gòu)成蛋白質(zhì)的其中的一些規(guī)律性和結(jié)構(gòu)。例如，在全序列即64 種不同的3 字符串，20 種氨基酸。又

3、例如，在不用于編碼蛋白質(zhì)的序列片段中，A 和 T 的含量特別多些，于是以某些夠輩片別豐富作為皆征考財究DN褥列的結(jié)構(gòu)也取得了一些結(jié)果。此外，利用統(tǒng)計的方法還發(fā)現(xiàn)序列的某些片段之間具有相關(guān)世等室這些發(fā)現(xiàn)讓人桁相自DNA序列中存在著局部的和全局性的結(jié)構(gòu)，充分發(fā)掘序列的結(jié)構(gòu)對理解 DNAir序列是十否有意義的。目前在這項研究中最普通的思想是省略序列的某些細(xì)節(jié)，突出特征，然后將其表示成適當(dāng)?shù)臄?shù)學(xué)對象。W研案人吆崎細(xì)影K的嘗試，提出以下對序列集合進行分類的問題：1 ）請從 20個已知類別的人工制造的序列（其中序列標(biāo)號1 10為A類，11-20為B 類）中提取特征，構(gòu)造分類方法，并用這些已知類別的

4、序列，衡量你的方法是否足夠好。然后用你認(rèn)為滿意的方法，對另外個未標(biāo)明類別的人工序列（標(biāo)號 21 40）進標(biāo)，明它（法行分類的不寫分入）類們的類別無把結(jié)果用序號（按從小到大的順序）2 ）都較長同樣方法對）進行分類，像182 個自然 1 ）一樣地給出分類結(jié)果。.模型的合理假設(shè)提出以的人工制造的序20錯的順序） 182個自Dn、品A& （0門 -桂如至山么聿1 各序列中DNA 堿基三聯(lián)組（即3 字符串）的起始位置和基因表達(dá)不影響分類的結(jié)果。264 種 3 字符串壓縮為20 組后不影響分類的結(jié)果。3 較長的 182個自然序列與已知類別的20 個樣本序列具有共同的特征。.模型建立與求解研

5、究 DNA 序列具有什么結(jié)構(gòu)，其A， T，C， G4 個堿基排成的看似隨機的序列中隱藏著什么規(guī)律，是解讀人類基因組計劃中DNA全序列草圖的基礎(chǔ)，也是生物信息學(xué)ioinformaties）最重要的課題之一題目給出了20 個已知為兩個類別的人工制造的 DNA 序列，要求我們從中提取特征，構(gòu)造分類方法，從而對20 個未標(biāo)明類別的人工 DNA 序列和 182個自然 DNA 序列進行分類。這是模式識別中的“有人管理分類” 問題，即事先規(guī)定了分類的標(biāo)準(zhǔn)和種類的數(shù)目，通過大批已知樣本的信息處理找出規(guī)律，再用計算機預(yù)報未知。給出的已知類別的樣本稱為學(xué)習(xí)樣本。對于此類問題，我們通過建立分類數(shù)學(xué)模型（這

6、包括形成和提取特征以及制定分類決策）、考查分類模型的效率、預(yù)報未知這幾個步驟來進行。一特征的形成和提取為了有效地實現(xiàn)分類識別，首先要根據(jù)被識別的對象產(chǎn)生一組基本特征，并對基本特征進行變換，得到最能反映分類本質(zhì)的特征。這就是特征形成和提取的過程。在列舉了盡可能完備的特征參數(shù)集之后，就要借助于數(shù)學(xué)的方法，使特征參數(shù)的數(shù)目（在保證分類良好的前提下）減到最小。這是因為：1 . 多余的特征參數(shù)不但沒有多少好處，而且會帶來噪音，干擾分類和數(shù)學(xué)模型的建立。2 .為了保證樣本數(shù)和特征參數(shù)個數(shù)的比值足夠大，而又不必要用太多的樣本，最好使特征參數(shù)的個數(shù)降至最少。模式識別計算一般要求樣本數(shù)至少為變量數(shù)的3 倍，

7、否則結(jié)果不夠可靠。本問題的學(xué)習(xí)樣本數(shù)為20 個，個為宜。故特征參數(shù)的個數(shù)以我們通過研究4 個字符 A,T,C,G 在 DNA序列中的排列、組合特性，主要是研究字符和字符串的排列在序列中出現(xiàn)的頻率，從中提取 DNA 序列的結(jié)構(gòu)特征參數(shù)。（一）特征的形成分別列舉一個字符，2 個字符，3 個字符的排列在序列中出現(xiàn)的頻率，構(gòu)成基本特征集。1. 1 個字符的出現(xiàn)頻率表 1 列出了 20 個樣本中A， T， C， G這 4 個字符出現(xiàn)的頻率。由于在不用于編碼蛋白質(zhì)的序列片段中，A 和 T 的含量特別多些，因此我們將A 和 T 是否特別豐富作為一個特征。在表一中，列出了A 和 T 出現(xiàn)的頻率之和。（程序見附

8、錄一）表1A+T1. 29.7317.1213.5139.6443.242. 27.0316.2215.3241.4442.343. 27.0321.626.3145.0533.334. 42.3410.8128.8318.0271.175. 23.4223.4210.8142.3434.236. 35.1412.6112.6139.6447.757. 35.149.9118.9236.0454.058. 27.9316.2218.9236.9446.859. 20.7220.7215.3243.2436.0410. 18.1827.2713.6440.9131.8211.35.454.555

9、0.0010.0085.4512. 32.732.7350.0014.5582.7313. 25.4510.0051.8212.7377.2714. 30.008.1850.0011.8280.0015. 29.09.0064.556.3693.6416. 36.368.1846.369.0982.7317. 35.4524.5526.3613.6461.8218. 29.0911.8250.009.0979.0919. 21.8214.5556.367.2778.1820. 20.0017.2756.366.3676.362 2 字符串的排列出現(xiàn)的頻率A， T，C，G 這 4個字符組成了16

10、種不同的 2 字符串。表 2 列出了 20 個樣本中各2字符串出現(xiàn)的頻率。（用“滾動”算法，如attcg 有 at,tt,tc,cg 共 4 個 2 字符串）（程序與附錄一類似）表213.51 .90 7.21 23.42AT AGCC CG3.608.113.603.60 1.808.11 11.7 1 2.705.4111.713.60.90.905.413.605.41.909.01AA ACTT CA CTGG1. 9.01 9.013.6018.922. 9.91 7.215.414.501.8021.623.1.80TA TC TGGA GT GC4.50.904.505.41

11、2.70 1.805.419.91 4.505.415.412.70.90.9014.414.18.92 5.41 11.715.41 10.81 1.805.417.2116.2210.815.411.80.902.706.314.502.704.505.6.318.111.807.211.802.702.703.605.414.502.7010.819.91.909.0121.626.15.322.706.319.913.601.801.805.414.50.00.008.1110.81.908.1119.827.15.321.80 10.817.214.502.706.315.41.90

12、1.80.906.3113.51 .904.5016.228.8.113.606.319.915.413.602.707.212.703.60 1.808.1110.811.809.9.01.904.506.31.00 3.607.212.734.503.602.70 2.7011.717.213.6013.5118.0210.6.363.641.826.361.825.452.733.645.453.644.55 13.644.553.6413.6418.1811.15.452.7314.552.7316.36.911.8230.00.91.91.911.822.734.55 .002.73

13、12.13.64.9110.916.3615.451.821.8230.91.91.91.00.912.737.27.004.5513.6.364.5510.004.5512.731.822.7334.55 2.732.731.821.82 3.644.551.8214. 8.18.9112.73 7.27 13.646.36 1.822.7328.182.734.55.00.915.454.55 .91.9115.13.64.0012.73 1.82 13.64.00 2.7348.18.00.00.00.001.823.64 .00 .9116. 16.363.6415.45.9113.6

14、44.55 4.5522.731.825.45.00.914.552.73.001.8217.17.275.45 10.91 1.82 10.006.36 4.555.4518.8.187.2711.82 1.82 15.451.82.914.55 7.27 9.09 2.73 3.64 2.73 3.643.643.64.9130.913.643.64 1.822.73 1.8219.2.732.73 13.64 1.8214.559.09.9131.821.828.181.822.732.732.73 .91 .9120. 6.366.36 6.36.919.0910.003.6432.7

15、32.7313.64.91.001.823.64.00 .913 3 字符串的排列出現(xiàn)的頻率A， T， C， G 這 4 個字符組成了64 種不同的 3 字符串。這64 種 3 字符串構(gòu)成生物蛋白質(zhì)的20 種氨基酸。在參考文獻1的Figur2 中，給出了這20 種氨基酸的編碼（見圖 1）。因此，在計算 3 字符串的出現(xiàn)頻率時，我們根據(jù)圖1 將代表同一種氨基酸的3 字符串合成一類，只統(tǒng)計20 類 3 字符串的出現(xiàn)頻率。（不考慮字符串在序列片段中的起始位置，也采用“滾動”算法。如 acgtcc中就有acg,cgt,gtc,tcc共4個3字符串）見表 3。（程序與附錄一類似）A C A c

16、cc G C GAAAC -GAGCi A ACUGGG UA G CA GGAS C G C G G G匚u uC S GC G UGUUA U CAUGAAC A AGACC*CG UC AGC AUccugTuCCA G C, 一 GX C U A CUCCU AGFigure 2. Symmetries of the diamondcode sort the 64 codons into 20 classes,indicated here by 20 colors. All the codonsin each class specified the same amino acid.ri

17、an Hayes 在論文 “ TheInvention of the Genetic Code” 中給出的圖（注：圖中DNA被轉(zhuǎn)錄為RNA,U"代表" T")b1 b121 1.77b2b133.54b3 b142.65b4 b15 0.88b5 b16 0.0010.623.54 4.42 4.42 7.082 1.89 1.89 0.94 0.94 0.0011.32 8.49 3.773.77 6.603 0.98 0.00 0.00 5.88 0.98b6 b17 0.00 1.77 0.94 9.43 8.82b7 b8 b9 b18b19b207.96

18、 0.88 4.42 3.54 13.27 7.08 1.89 0.94 4.72 6.60 7.55 2.83 2.94 0.00 0.00b102.6512.262.94b1117.707.5510.785.8813.730.004.90 3.9219.611.96 8.825.884 0.00 0.00 0.00 0.87 0.00 0.8713.04 1.74 6.092.61 11.3013.043.485.223.48 8.703.481.74 14.78， 7.835 2.86 0.00 0.00 3.81 0.95 3.813.81 0.00 3.813.81 9.529.52

19、12.38 2.86 9.52 4.767.622.86 7.62 9.5260.000.000.882.630.001.7513.160.884.391.7514.049.657.025.264.3911.402.631.7510.53 6.1471.920.000.002.880.964.812.880.001.924.8112.506.7313.461.926.734.8110.583.859.62 7.6982.563.420.000.850.850.8512.820.851.710.8520.512.563.429.405.9811.110.854.2711.97 3.429 0.0

20、00.000.002.972.979.902.970.000.993.966.931.9813.86 1.98 2.97 3.9623.76 2.97 8.91 6.9310 1.870.933.742.800.000.002.800.007.488.419.357.483.7414.95 12.15 0.002.804.67 7.48 7.4811 0.000.890.000.000.001.798.040.005.364.4615.188.048.934.463.578.044.466.2513.395.3612 2.730.000.91 2.730.913.644.553.643.641

21、.829.095.453.645.456.367.278.185.4510.919.0913 1.800.900.900.900.000.909.010.003.607.2114.418.117.216.317.214.501.807.2111.714.5014 2.940.000.005.880.006.861.960.003.926.863.929.8013.730.985.882.9410.780.98 1 0.78 9.8015 2.911.942.911.940.005.831.940.001.949.715.838.74 10.68 1.943.88 3.888.742.91 11

22、.65 10.6816 2.86 0.95 0.00 11.43 1.90 1.90 2.860.004.76 3.815.718.578.576.67 9.524.76 5.712.86 7.62 7.6217 1.92 0.96 1.92 4.81 1.92 3.85 1.920.96 0.966.73 4.818.6510.582.886.732.889.626.738.65 7.6918 1.71 0.85 1.71 0.85 0.85 2.56 16.24 0.85 1.710.85 16.245.136.845.983.4211.111.715.1311.11 3.4219 0.9

23、4 0.94 1.89 0.94 0.94 0.94 1.890.94 10.38 7.55 5.669.438.498.497.555.666.6011.326.600.9420 0.86 0.86 0.00 1.72 0.86 0.86 17.24 0.86 2.59 1.7215.527.765.173.454.319.485.175.179.485.17其中b1 =aaa+atab2=aca+agab3=cac+ctcb4=ccc+cgc b5=gag+gtgb6=gcg+gggb7=tat+tttb8=tct+tgt b9 =aac+caa+atc+ctab10=aag+gaa+a

24、tg+gta b11=aat+taa+att+ttab12=acc+cca+agc+cga b13=acg+gac+ctg+gtcb14=act+tca+agt+tga b15=cag+gac+ctt+ttcb16=cat+tac+ctt+ttc b17=ccg+gcc+cgg+ggcb18=cct+tcc+cgt+tgc b19=gat+tag+gtt+ttgb20=gct+tcg+ggt+tgg綜合起來，形成了有 41個變量的基本特征集。（二）特征的提取上述基本特征集中有 41個變量，即樣本處于一個高維空間中。特征的提取就是通過變換的方法用低維空間來表示樣本，使得X的大部分特性能由

25、Y來表達(dá)，即將p維隨機向量X變換成q維隨機向量 Y（q<p）。我們用主成分分析法進行特征的提取，其步驟是：1. 求X的均方差矩陣V的特征根，記為：入1入2，,學(xué)入卜>0 人k+1 =,=入 P=02. 求入1,入2,入K對應(yīng)的標(biāo)準(zhǔn)正交的特征向量門，2,K得到第i個主成分為yi=riX, i=1,2, K3. 求第i個主成分的貢獻率ui=入i/ £i 1入j, i=1,2, K及前m個主成分的累用殳在0.85計貢獻率Vm='" Ui. i 14. 求得q）使得Vq方V o（V o到1之間），則取W=(r 1,2,rq)Y=XW第 3 步所求的貢獻率，

26、代表主成分表達(dá)X的能力，貢獻率越大，對應(yīng)的主成分表達(dá)X的能力越強。只要前 q 個主成分的累計貢獻率超過給定的百分比 V。就可以用低維特征Y= (y1,y2, , , yq)來反映高維特征(Xl,X2,Xp)的變化特性?，F(xiàn)將反映20 個已知類別樣本的41 個特征的隨機向量X 進行特征提取。計算得前4 個主成分的累計貢獻率為96% ，故提取特征為4 個變量，取W=( r1,r2,r3,r4) ，則 Y=XW ， Y 的 4個分量就是從基本特征集提取所得的特征參數(shù)向量。(程序及結(jié)果見附錄二)二分類決策的制定前面已選取了特征參數(shù)，把特征參數(shù)張成的多維空間稱為特征空間。分類決策就是在特征空

27、間中用統(tǒng)計的方法把被識別對象歸為某一類別。基本作法是在學(xué)習(xí)樣本集的基礎(chǔ)上確定某個判決規(guī)則，使按這種判決規(guī)則對被甄別對象進行分類所造成的錯誤識別率最小或引起的損失最少。這里，我們的分類決策選取 Fisher線性判別法。即選取線性判別函數(shù)U(x),使得：U(x)=E iU(x)-E 2U(x)2/DiU(x)+D 2U(x)=max(1)其中日與Di分別表示母體i的期望和方差運算，i=1, 2。(1)式的含義是：構(gòu)造一個線性判別函數(shù)U(x)對樣本進行分類，使得平均出錯概率最小。即應(yīng)在不同母體下，使U(x)的取值盡量分開。具體地說，要使母體間的差異 (Ei(U(x)-E 2(U(x)

28、2相對于母體內(nèi)的差異 DiU(x)+D 2U(x)為最大。取U(x)=( X 1-X 2)/ (E 1+匯 2)-1X就可滿足(1)。其中Xi為第i類母體的均值矩陣的估計，ki為第i類母體的方差矩陣的估計。取分類門檻值為：Uo=U( a * X 1+(1- a )* X 2)其中0< a <1 ,本問題中兩類樣本的個數(shù)相等,可取 a =1/2。若 U( Xi)>U o,U( X2)<U o ,則當(dāng)U(X)>U o.,就認(rèn)為 X取自母體 1;當(dāng) U(X)<U 0,就認(rèn)為X取自母體2。用上面得出的4個主成分構(gòu)成的特征組和此分類決策，對 20個學(xué)習(xí)樣本進行分

29、類，能得出正確的結(jié)果。但是，若取W=(門,2心)，求Y=XW ,以Y的3個分量作為特征參數(shù)向量，再用Fisher線性判別法對 20個學(xué)習(xí)樣本進行分類，則第四個樣本不能正確分類。因此，得出分類的數(shù)學(xué)模型為：(1) 特征選取：取 W=(門,r印3/4), 求Y=XW ,得出特征參數(shù)向量就是 Y的4個列向量。其中X是反映20 個學(xué)習(xí)樣本的41個特征的隨機向量。(2)分類決策：Fisher線性判別法。三.分類模型的有效性考查前面建立的分類數(shù)學(xué)模型對20個學(xué)習(xí)樣本進行了正確分類。為了進一步考查分類模型的有效性和可靠性，我們采用的方法是：預(yù)先留一部分學(xué)習(xí)樣本不參加訓(xùn)練，然后用分類決策模型對其作預(yù)報，

30、將預(yù)報成功率作為預(yù)報能力的指標(biāo)。每次取出一個學(xué)習(xí)樣本，以其余學(xué)習(xí)樣本作訓(xùn)練集，用分類決策模型對取出的一個樣本作預(yù)報，同時對給出的后20 種樣本作預(yù)報。結(jié)果見表4。表4取出樣品序號取出樣本類另IJ 預(yù)報后20組樣本中A類序號預(yù)報1A22, 23, 25, 27, 29, 34, 35, 36, 372A22, 23, 25, 27, 29, 34, 35, 36, 373A22, 23, 25, 27, 29, 34, 35, 36, 374A23, 25, 27, 29, 34,35, 36, 375A22, 23, 25, 27, 29, 34, 35, 36, 376A22,

31、 23, 25, 27, 29, 34, 35, 36, 377A22, 23, 25, 27, 29, 34, 35, 36, 378A22, 23, 25, 27, 29, 34, 35, 36, 379A22, 23, 25, 27, 29, 34, 35, 36, 3710A22, 23, 25, 27, 29, 34, 35, 36, 3711B22, 23, 25, 27, 29, 34. 35. 36. 37B22, 23, 25, 27, 29,從表 4 可以看出：1、每次取出一個學(xué)習(xí)樣本，以其余學(xué)習(xí)樣本作訓(xùn)練集，用分類模型對該學(xué)習(xí)樣本的預(yù)報的成功率是100%。2、每次取出

32、一個學(xué)習(xí)樣本，以其余學(xué)習(xí)樣本作訓(xùn)練集，用分類模型對未知類別的第 2140 個樣本進行預(yù)報，其結(jié)果有以下特點：（ 1）除分別取出4、 15、 17， 20 的預(yù)報結(jié)果不同外，分別取出其余16 中一個，預(yù)報結(jié)果均為：22， 23， 25，27， 29， 34， 35， 36， 37，占0% 。2）分別取出4、 15、 20的預(yù)報結(jié)果，與（1）的結(jié)果相比，只有一個樣本的差異，占15%。3）取出 17 的預(yù)報結(jié)果，與（1）的結(jié)果相比，有兩個樣本的差異，占5% 。第一種結(jié)果和第二種結(jié)果非常接近，合計占總數(shù)的95% 。只有第三組的這一個結(jié)果有較大差異，占總數(shù)的5% 。由以上檢驗得出結(jié)論：所建立的分

33、類數(shù)學(xué)模型分類效果很好。.未知樣本的預(yù)報現(xiàn)在用前面建立的數(shù)學(xué)模型對題目所給20 個人工序列和182 個自然序列進行預(yù)報。（程序見附錄三）結(jié)果為：1） 20個人工序列的類別34， 35，A 類：22， 23， 25， 27， 29，36， 37類： 21、 24、 26、 28、 30、31、 32、33、 38、 39、 402） 182個自然序列的類別A 類：（共 142 個） 2，11，20，31，42，53，12，21，33，44，55，13， 14，22， 23，34， 35，45， 46，56， 57，15，24，36，3，16，25，37，5，17，26，38，47， 49，58

34、， 59，50，60，6， 7， 9，18，28，39，51，61，19，30，40，52，62，64，77，65， 66，78， 79，9， 91，67，0，93，68，2，94，69，3，71，4，73，5，74，7，99，107，115，124，133，140，100， 101， 103，108，109，148，117，125，134，141 ，149，118，111，120，95，104，112，121，96，97，98，156，174，158，175，127，135，142，151，167，176，128，136，143，152，168，177，1類：40 個）1， 4，32， 41

35、， 43， 48， 54，76，119，160，169，1，126，161，170，6， 90， 92，131， 144，162， 163，182129，137，145，153，171，178，105，113，122，130，138，146，154，172，179，106，114，123，132，139，147，155，173，180，10， 27， 29，63， 70， 72， 75，102，150，164，110，157，165，116，159，166，. 模型的優(yōu)缺點分析優(yōu)點：1 針對'“有人管理分類”問題，成功地建立解決這類難題的數(shù)學(xué)模型，并可立即運用到實踐中去。2 僅用

36、 4 個特征參數(shù)即圓滿解決了較為復(fù)雜的分類問題。而且模型假設(shè)條件少，因而能準(zhǔn)確地反映實際情況，可靠性高。3 采用模塊化分析，逐漸深入，提高了準(zhǔn)確性。4 突出特征，假設(shè)合理，避免了在一些細(xì)節(jié)問題上的糾纏。缺點：由于只考慮了DNA 樣本序列中1 字符串、 2 字符串、3 字符串出現(xiàn)的頻率作為特征， DNA 序列的分類不一定與實際情況完全相符。（可以由科學(xué)家用物理的或化學(xué)的方法測定，作為補充）。五 . 模型的改進方向及推廣模型的改進：因為模型沒考慮DNA 序列的實際特性，當(dāng)序列變得很多很長很復(fù)雜時，分類的準(zhǔn)確性會降低而不可用，因此應(yīng)增加對 DNA 序列的生物特性的考慮。模型的推廣：該模型對一般的

37、“有人管理分類” 問題的求解有重要意義。對研究 DNA序列的規(guī)律性和結(jié)構(gòu)提供了一種有效的分類模型。對人類基因組的研究有現(xiàn)實意義，有利于加快科研步伐。八.1The Invention of the Genetic Code，rain Hayes（美），American Scientist一Computing Science， Jan.-Feb., 1992 MATLAB 入門后勤工程學(xué)院1997蕭樹鐵3數(shù)學(xué)實驗1999復(fù)旦大主編高等教育出版社4概率論第二冊數(shù)理統(tǒng)計高等教育出版社19855 生命科學(xué)模型F. Lucas 主編國防科技大學(xué)出版社6運籌學(xué)基礎(chǔ)手冊主編7數(shù)學(xué)模型主編科學(xué)出版社高等數(shù)

38、學(xué)出版社William1996徐光瘴1999姜啟源1993七.附錄附錄一 1 個字符出現(xiàn)頻率的計算程序CHARACTER*121 LINE(40) integer a,c,t,g,atREAD*,LINEDO 20 II=1,40 iii=ii+20A=0C=0T=0G=0DO 10 I=1,121IF(LINE(ii)(I:I).EQ. a)THEN A=A+1else if(line(ii)(I:I).eq. c)then c=c+1else if(line(ii)(I:I).eq. t)then t=t+1else if(line(ii)(I:I).eq. g)then g=g+1END

39、 IF10 continueat=a+tactg=a+c+t+g aa=a/actg*100.cc=c/actg*100.tt=t/actg*100.gg=g/actg*100.aatt=at/actg*100.open(5,file='t1.dat',status='old')write(5,1)aa,cc,tt,gg1 format(1x,4f7.2)20 CONTINUEEND附錄二基本特征量的提取程序及結(jié)果d= 27.43 19.47 36.28 16.81 63.72;28.85 24.04 22.12 25.0050.96;17.65 25.49 1

40、8.63 38.2436.27;20.87 19.13 40.87 19.1361.74;24.76 22.86 21.90 30.4846.67;21.93 21.05 38.60 18.4260.53;23.08 20.19 23.08 33.6546.15;70.09;14.85 21.78 18.81 44.55 33.66;28.97 24.30 25.23 21.50 54.21;24.11 17.86 35.71 22.32 59.82;17.43 22.94 33.03 26.6150.46;27.03 18.92 33.33 20.72 60.36;23.53 23.53 1

41、6.67 36.27 40.20;24.27 21.36 20.39 33.98 44.66;22.86 30.48 20.95 25.7143.81;21.36 25.24 20.39 33.01 41.75;22.22 17.09 43.59 17.09 65.81;27.36 28.30 23.58 20.7550.94;19.83 19.83 43.10 17.2462.93;dd= 5.31 4.42 7.96 8.85 9.73 6.19 1.77 18.58 6.19 4.42 4.42 4.42 6.19 4.42 4.42 1.77;7.69 9.62 3.85 7.69 9

42、.623.85 .96 6.73 2.88 1.92 7.69 11.54 7.69 8.65 2.88 4.81;2.943.925.884.90 3.922.941.969.80.001.96 12.759.8010.78.984.9021.57;1.744.353.4811.3013.04 1.74 2.61 22.61 2.61 9.574.352.613.484.358.70 2.61;6.673.813.819.52 5.711.904.769.527.624.76 7.622.864.763.819.5212.38;3.513.515.269.65 7.894.391.7524.

43、567.896.14 1.754.392.632.6311.401.75;5.774.814.817.69 6.732.88 2.88 10.58 2.88 2.88 7.696.737.694.814.8115.38;3.425.139.406.8411.97 5.13 3.42 23.93 2.56 6.842.562.567.693.421.712.56;1.981.983.966.933.962.972.978.911.98.99 8.918.916.934.957.9224.75;9.355.612.8010.287.485.615.616.548.417.482.805.613.7

44、48.419.35.00;2.685.364.4611.6115.18 1.79 .89 16.96 3.57 6.253.57 4.46 2.68 7.14 7.14 5.36;5.50 2.75 2.75 6.42 6.427.34 4.59 13.76 4.59 5.50 6.426.42.92 10.096.428.26;5.417.217.217.2110.81 1.80 5.41 15.32 3.60 4.502.707.217.216.316.31 .90;7.844.90.988.829.806.867.843.926.8617.65;5.834.853.889.717.773

45、.881.946.803.882.913.889.716.806.808.7411.65;4.763.811.9012.388.57 5.71 .00 6.67 5.71 3.8110.48 10.48 3.81 8.57 9.522.86;3.882.912.9110.685.83 .97 6.80 5.83 5.83 5.839.713.884.855.8311.6510.68;3.429.405.983.4210.26 1.71 4.27 27.35 5.13 3.424.273.422.566.841.715.98;8.495.664.728.494.728.492.836.6011.

46、321.899.435.662.839.434.723.77;3.457.764.314.3110.34 .86 3.45 27.59 1.72 6.038.623.454.315.171.726.03;ddd= 1.77 3.542.65 .88 .00 .00 7.96 .884.42 2.65 17.70 10.62 3.54 4.424.42 7.08 1.77 3.54 13.27 7.08; 1.921.92 .96 .96 .00 .961.92 .96 4.81 12.50 7.69 11.548.65 3.85 3.85 6.73 9.62 6.737.69 2.88;.98

47、 .00 .00 5.88 .988.82 2.94 .00 .00 2.94 10.785.88 13.73 .00 4.90 3.92 19.61 1.96 8.82 5.88;.00 .00 .00 .87 .00.87 13.04 1.74 6.09 2.61 11.3013.04 3.48 5.22 3.48 8.70 3.48 1.7414.787.83;2.86 .00.003.81.953.813.81 .003.813.819.529.52 12.38 2.86 9.52 3.81 7.622.867.629.52;.00.00.882.63.001.75 13.16 .88

48、 4.39 1.75 14.049.657.025.264.3911.40 2.631.7510.536.14;1.92.00.002.88.964.812.88.001.924.8112.506.73 13.46 1.92 6.73 4.81 10.583.859.627.69;2.563.42 .00 .85 .85 .8512.82 .85 1.71 .85 20.51 2.563.42 9.40 5.98 11.11 .85 4.27 11.97 3.42;.00 .00 .00 2.97 2.979.902.97.00.993.966.931.9813.861.982.973.9623.762.978.916.93;1.87.933.742.80 .00 .00 2.80 .00 7.488.41 9.35 7.48 3.74 14.9512.15 .00 2.80 4.67 7.48 7.48; .00 .89 .00 .00 .001.79 8.04 .00 5.36 4.46 15.188.04 8.93 4.46 3.57 8.04 4.466.25 13.39 5.36;2.75 .00 .92 2.75 .923.67 4.59 3.67 3.67 1.83 9.175.50 3.67 5.50 6.42 7.34 8.265.50 11.01 9.

人人文庫> 全部分類> 應(yīng)用文書 > 作業(yè)報告

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

數(shù)學(xué)建模_DNA序列分類(2000年競賽題)

文檔簡介

溫馨提示

最新文檔

評論

數(shù)學(xué)建模_DNA序列分類(2000年競賽題)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔