基因四進(jìn)制的理論序列與實際序列的特性比對_第1頁
基因四進(jìn)制的理論序列與實際序列的特性比對_第2頁
基因四進(jìn)制的理論序列與實際序列的特性比對_第3頁
基因四進(jìn)制的理論序列與實際序列的特性比對_第4頁
基因四進(jìn)制的理論序列與實際序列的特性比對_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

基因四進(jìn)制的理論序列與實際序列的特性比對鄧宇(清華大學(xué)第一附屬醫(yī)院)基因組的試驗研究異常火熱,基因組的序列分析、算法、數(shù)據(jù)庫的擴(kuò)容如火如荼,理論基因組的發(fā)軔,星火正開始悄悄燃起。我們用類似語言學(xué)中對詞頻分布的研究方式,對基因堿基理論序列與實際序列進(jìn)行了初步比較,想看看基因這本大書中,不同堿基符、堿基詞組各有多少個?以及占總基因譜的比例,即分布。“基因四進(jìn)制”[1]可以為堿基詞的理論生成,及有規(guī)律的符號、詞組序列提供比較的理論基礎(chǔ)。比如,看看第一位堿基符A在基因組中有多少個,也可以看看二位基因詞,如TC,GA;三位堿基(詞)組CTG,AAG等各有多少,各占比例,從而揭示基因詞的存在及詞法,語法規(guī)律。為生命基因組的偉大探索加把油、吹鼓風(fēng),用“新信息理論”[2-8](信息守恒律,信息的運(yùn)算,信息的化學(xué)反應(yīng)等新廣義信息論,基因序列的正弦、余弦曲線擬合),理論基因?qū)W、理論生物信息學(xué)的基因數(shù)字實驗、計算機(jī)試驗,計算機(jī)數(shù)字模擬開辟基因-生命信息學(xué)研究的新天地?;虻睦碚搶嶒灁?shù)字、實驗計算,理論基因組與實際基因組的結(jié)合,以計算機(jī)為實驗儀器,堿基數(shù)字為實驗原料,基因進(jìn)位制為根基,將為基因的理論試驗探索和發(fā)展開拓新途徑。一、材料方法1、核酸序列的來源:從Genbank,ENBL的核苷酸序列數(shù)據(jù)庫EMBL-Bank下載:AY644963、BC011974等核酸序列,堿基合計6萬多個的實際序列作為比對的原始基因庫來源。2、方法的理論基礎(chǔ)——基因四進(jìn)制:根據(jù)我們建立的基因四進(jìn)制[1],利用堿基、核酸的四個基符A,G,T,C(個位、第一位)為元素,及“逢四進(jìn)一”規(guī)則,創(chuàng)造了基因,核酸的四進(jìn)位制符號系統(tǒng)。該基因的理論進(jìn)位系統(tǒng)的第一位、個位有4個符號元:A,G,T,C;第二位(相當(dāng)于十進(jìn)制的十位)有4×4=16個組員,AA,AG,AT,AC,GA,GG,GT,GC,TA,TG,TT,TC,CA,CG,CT,CC;第三位有43=64個成員,AAA,AAG,…,CCC;第四位有44=256個成員;…;第n位有4n個成員AA…A,AA…G,…,CC…C。構(gòu)造出了理論的或人工基因四進(jìn)制系統(tǒng),對基因?qū)嶒灪屠碚撗芯块_辟了一條新路。3、驗證思路策略:利用“基因四進(jìn)制”理論模型,尋找堿基排布規(guī)律,解讀基因密碼鎖匙。核酸生命的語言,遣詞造句的“全息規(guī)則”。4、驗證方法首先,用(數(shù)據(jù)庫)程序生成四進(jìn)制的基因符號系列,第一位,第二位,第三位,第四位,…,第n位。再將每位的每一個成員與基因數(shù)據(jù)庫的堿基序列作對比。如用“GTC”從基因序列AY644963、BC011974等的開頭開始,搜索“GTC”,在序列中若發(fā)現(xiàn)“GTC”就計個數(shù),定個位,一直搜到序列的結(jié)尾,合計包含“GTC”的總數(shù)量,待分析。其他組元,檢索統(tǒng)計類似,都做全程搜索,記數(shù)。手工搜索太慢幾乎不可能,故不適合。半手工半機(jī)器的搜索還是慢,自編程序的數(shù)字自動搜索計數(shù)才是上佳方法。二、結(jié)果1核酸A、G、T、C及其四進(jìn)位制系統(tǒng),各位頻度的分布與理論值相比是不均勻、非平均的,即非遍歷的,見表1及圖1-9。2隨著位數(shù)的增加,各基因符(類似數(shù)系的數(shù)字符號)差異(極差和極差度)逐漸增大。3基因四進(jìn)制系統(tǒng)中,各位的頻度分布,從大到小的排列分布多是橫“S”形的曲線,見圖1,4,7。4按“基因四進(jìn)制”每位的順序排布各位“基因詞(基因數(shù)字符號)”,其數(shù)量分布軌跡是“波浪形”運(yùn)動的,見圖3,6,8,9表1.基因四進(jìn)制第一位基因符的理論與實測分布比對AGTC數(shù)量%數(shù)量%數(shù)量%數(shù)量%理論平均值1575725.0%1575725.0%1575725.0%1575725.0%實測值1698026.9%1562124.8%1541224.5%1501623.8%差異12231.9%-136.3-0.2%-345.3-0.5%-741-1.2%差異率7.76%0.86%2.19%4.70%最大差異196412.5%圖1.基因四進(jìn)制第一位、“個位符(相當(dāng)于‘個位數(shù)’)”的實際分布狀態(tài)。A最多,C最少。圖2.“個位符”的百分分布。以4個堿基‘個位符’為X的值,“X軸”以基因四進(jìn)制的基因符為符系(數(shù)系)坐標(biāo)序列。圖3.基因四進(jìn)制第二位16個“二位堿基”基因符號序列的實際分布。X軸是基因“四進(jìn)制”轉(zhuǎn)換成“十進(jìn)制”的坐標(biāo)計量單位標(biāo)注。圖4.基因進(jìn)制系第二位,按其在實際基因序列中分布,從大到小的排序。圖5.四進(jìn)制基因系中,各個“二位符(數(shù))”在實際基因序列中的百分分布?!岸?lián)堿基詞”最多的是“AG”占8.15%,“CG”最少只有2.93%,理論序列平均6.25%,各試驗值是不均勻的。圖6.基因四進(jìn)制系統(tǒng)中,第三位的64個“三位符”在試驗基因組中的實際起伏,“波浪”分布。圖7.基因進(jìn)制第三位,“三聯(lián)核酸”按其在實驗基因序列中的分布,從大到小的“S”形次序。圖8.基因四進(jìn)制系統(tǒng),第三位的64個“三位符”在試驗基因組中,實際“波浪”百分分布。Max是“CTG”2.75%,Min是“CGT”0.52%,預(yù)示著某種規(guī)律。理論平均1.62%,不均勻性的差距拉大。圖9.“四進(jìn)制”基因系統(tǒng)中,前三位4+16+64=84個“符字(符號字(數(shù)字))”在試驗中的“L”形的漸進(jìn)分布。三、討論“進(jìn)位制”概念來源于算術(shù),數(shù)學(xué)。它歷史悠久,是很古老的智慧產(chǎn)品,大腦智能的創(chuàng)造,是數(shù)系構(gòu)成的基礎(chǔ)。其實“進(jìn)位制”大家并不陌生,日常常見的如“十進(jìn)制”、信息-計算機(jī)社會廣泛應(yīng)用的“二進(jìn)制”、時間鐘點(diǎn)的“十二進(jìn)制”“六十進(jìn)制”、五行的“五進(jìn)制”等,及現(xiàn)在基因的四進(jìn)制。但基因符號的四進(jìn)位制與傳統(tǒng)數(shù)學(xué)的進(jìn)位制是有區(qū)別的,一個是抽象的“數(shù)”,一個是“符號(+語義)”,可以抽象,也可以具象。此基因堿基的四進(jìn)位制只是初步嘗試,還有許多內(nèi)容可以深入探討。堿基在基因組中的分布就象物理學(xué)家普利高津遠(yuǎn)離平衡態(tài)的非平衡有序的熱力學(xué)系統(tǒng),堿基非均勻的分布是生命的特征。平均等概就是“熱寂”,就是死亡,熵增,生命的瓦解完結(jié)。遠(yuǎn)離平衡→自組織→有序→生命,熵減、負(fù)熵→生命誕生,存活。非等概率的基因堿基頻度,是生命存在的基礎(chǔ)和關(guān)鍵?!笆M(jìn)制”的基因組有N10=3×109個堿基,按照“基因四進(jìn)制”,四進(jìn)制的基因需要有N4=4x=109,x≈14.95=15,415≈109,415=1073741824,即有約15位“四進(jìn)制”數(shù)量級的基因四進(jìn)制系統(tǒng),才有414.9486764269931=1000000000=109?!八倪M(jìn)制”的堿基數(shù)欲達(dá)到“十進(jìn)制”的30億個堿基,需有N4=4x=3×109=415.7411576773537,即以4為底,指數(shù)為15.7411576773537次方個四進(jìn)制堿基詞。“四進(jìn)制基因系”從第一位到第十位,每位分別有4,16,64,256,1024,4096,16384,66536,262144,1048576個核酸組合,即每位有4n個堿基元。實際上,堿基在基因組中出現(xiàn)的頻率是有偏的,非遍歷的。堿基元A,G,T,C,創(chuàng)造的基因詞,即第一位,第二位,第三位,…,第n位的各位堿基詞(組)不是均勻等概率分布的,即它們在基因組中出現(xiàn)的機(jī)會、幾率不平均、不平等、“不公平”。它們距離基因詞的理論平均、等概率的分布越來越遠(yuǎn)。有的基因詞越來越多,有些卻越來越少,甚至減到0。依照我們的“信息守恒律(或狀態(tài)守恒定律、熵守恒律)N=∑ni[2-8]”,這種非遍歷的生命基因組是自組織有序的狀態(tài)信息,是有序信息。而不在基因組中的堿基序列,屬無序信息。有序基因信息+無序堿基序列=總堿基組合數(shù)=信息守恒。信息守恒定律(式):I=∑II,就象物質(zhì)守恒的M=∑mI,能量守恒律E=∑eI,愛因斯坦著名的質(zhì)能關(guān)系公式,都是數(shù)學(xué)“美”的統(tǒng)一。展示了組成世界三要素的“物質(zhì)、能量、信息”的大團(tuán)員、大統(tǒng)一、大對稱。“信息是‘事物屬性標(biāo)識的集合’——信息的新定義[1-9]”,即信息是物質(zhì)、事件、事體等屬性標(biāo)志、標(biāo)示的集合。它揭示了世界三要素間的差異,及三者的同一;也重新確認(rèn)了信息也可以象物質(zhì)和能量一樣了,具有“信息守恒定律”。正象理論物理學(xué)家霍金(Hawking)自我否定的“新黑洞說”Paradox(2004年7月),其新觀點(diǎn)的本質(zhì)就是承認(rèn)了黑洞中的“信息守恒”,改正了他30年前黑洞中“信息不守恒?”的“黑洞悖論”的錯誤。“如同19世紀(jì)的科學(xué)家斷定了能量守恒定律一樣,20世紀(jì)的許多科學(xué)家提出了信息守恒一說——假如這個說法成立,那么‘信息守恒定律’無疑將成為科學(xué)界最為重要的定律,也許比物質(zhì)、能量守恒定律的意義更為深遠(yuǎn)”《中國新聞周刊》?!盎蛩倪M(jìn)制”體系的創(chuàng)立,可以系統(tǒng),全面地從理論上研究分析基因堿基的組詞造句的規(guī)律,就象數(shù)學(xué)中數(shù)與數(shù)系的創(chuàng)造一樣,為世界,自然、社會的探索提供了一個完美的理論“工具”。通過“四進(jìn)制”的基因系可以容易地創(chuàng)造、編造、臆想理論或人工造的堿基詞與基因系列,并將這些理論基因與已經(jīng)發(fā)現(xiàn)的試驗基因組的序列進(jìn)行比較分析和演繹,進(jìn)而從新的視角發(fā)現(xiàn)和揭露堿基搭配的藝術(shù)和奧秘。為理論基因?qū)W、理論生物信息學(xué)(基因詞論)的開拓提供新礦藏。并為已發(fā)現(xiàn)的實驗基因組的實際自然序列尋找新的理論依據(jù),為揭示生命基因的奧妙開創(chuàng)新途徑。【點(diǎn)評】基因中N個順序堿基串的理論組合有4^N個可能性,對于基因中堿基組或堿基序列在特定基因庫的樣本中分布的實際統(tǒng)計是有意義的,可能揭示深層的規(guī)律。本文的工作顯示,基因一字詞、兩字詞、三字詞、四字詞的統(tǒng)計結(jié)果分布是不均勻的,詞愈長分布不均勻性愈大。這是非常具體的實證資料。但要得出結(jié)論,4字是太少,還應(yīng)該做下去。如果要探討每個堿基組的含義,更需要大量工作。從信息學(xué)的角度看,可以得到一些啟示,如基因是生物生命活動長期遺傳演化的結(jié)果,堿基的組合是簡單的,但生命面對的發(fā)展環(huán)境是復(fù)雜的,在復(fù)雜環(huán)境的考驗下,得以生存延續(xù)的可能就大為不同,因而出現(xiàn)巨大的分布不均勻。基于這種看法,可能出現(xiàn)某些與環(huán)境更適應(yīng)的組合,出現(xiàn)快速進(jìn)化的可能。但是,斷言信息守恒,有序基因信息+無序堿基序列=總堿基組合數(shù)=信息守恒,是用錯誤的方法推出的錯誤結(jié)論。請再檢查。(林建祥)參考文獻(xiàn)1.鄧宇,基因四進(jìn)位制與廣義信息進(jìn)位制定律,中華新醫(yī)學(xué),2005,6(7):832-8342.鄧宇,鄧海,生物-非生物界的信息守恒律與雙大超循環(huán)世界圖景,數(shù)理醫(yī)藥學(xué)雜志,2000,13(1):88-893.鄧宇,信息守恒的證明,中華醫(yī)藥雜志,2004,4(6),364.鄧宇,量子論新詮釋的(計算機(jī))數(shù)字實驗?zāi)M,中華醫(yī)學(xué)研究,2004,64(3),30-315.鄧宇,信息的化學(xué)變化,中華醫(yī)藥雜志,2004,4(6),5766.鄧宇,信息的數(shù)理新定義與廣義信息運(yùn)算,中

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論