數(shù)據(jù)挖掘在生物信息學(xué)中的應(yīng)用_第1頁(yè)
數(shù)據(jù)挖掘在生物信息學(xué)中的應(yīng)用_第2頁(yè)
數(shù)據(jù)挖掘在生物信息學(xué)中的應(yīng)用_第3頁(yè)
數(shù)據(jù)挖掘在生物信息學(xué)中的應(yīng)用_第4頁(yè)
數(shù)據(jù)挖掘在生物信息學(xué)中的應(yīng)用_第5頁(yè)
已閱讀5頁(yè),還剩9頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、收稿日期 :2003-09-14基金項(xiàng)目 :國(guó)家自然科學(xué) (青年 基金資助項(xiàng)目 (10001006作者簡(jiǎn)介 :方 艷 (1979 , 女 , 山東兗 州人 , 碩士 研究生 , 研 究方向 為計(jì)算機(jī)軟件與理論。數(shù)據(jù)挖掘在生物信息學(xué)中的應(yīng)用方 艷(北京師范大學(xué) 信息科學(xué)學(xué)院 , 北京 100875摘 要 :生物信息學(xué)是一門新興的交叉學(xué)科。人類基因組計(jì)劃的啟動(dòng)和實(shí)施使得核酸、 蛋白質(zhì)數(shù)據(jù)迅速增長(zhǎng) , 如何從海量 數(shù)據(jù)中獲取有效信息成為生物信息學(xué)迫切要解決的問(wèn)題。數(shù)據(jù)挖掘與生物信息學(xué)有很好的結(jié)合點(diǎn) , 在生物信息學(xué)領(lǐng)域的 應(yīng)用潛力日益受到人們的重視。文中介紹了數(shù)據(jù)挖掘的概念、 生物數(shù)據(jù)的挖掘步驟 ,

2、 初步探討了數(shù)據(jù)挖掘在生物信息領(lǐng)域 的應(yīng)用潛力及生物信息學(xué)挖掘工具的開發(fā)和應(yīng)用。研究證明數(shù)據(jù)挖掘技術(shù)是生物信息處理的強(qiáng)有力工具。數(shù)據(jù)挖掘在生 物信息學(xué)中的應(yīng)用將取得更大的進(jìn)展。關(guān)鍵詞 :數(shù)據(jù)挖掘 ; 生物信息學(xué) ; 人類基因組計(jì)劃 ; 數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)中圖分類號(hào) :TP311. 52 文獻(xiàn)標(biāo)識(shí)碼 :A 文章編號(hào) :1005-3751(2004 04-0001-03The Application of Data Mining in BioinformaticsFANG Yan(College of Information Science, Beijing Nor mal University, B

3、eijing 100875, ChinaAbstr act:Bioinformatics i s an emerging interdiscipline. With the startup and implementation of Human Genome Plan, nucleic acid and pro 2tein data has been increased rapidly. It is an urgent problem that how to gain useful information from plentiful data. T here is a good combi

4、2nation between data mining and bioi n formati cs. T he potential application of data mining in bioinformatics has been given more and more at 2tention. T his paper mainly generali zes the definition of data mining and introduces the steps of knowledge discovery in bio-data. Also di s 2cuss the pote

5、nti al application in bioinformatics and the development and application of data mining tools i n bi oinformatics. T he research has proved that data mining is a strongly tool in bio-data processing. The application of data mini ng i n bioinformatics will gai n more develop 2ment.Key wor ds:data min

6、ing; bioinformatics; human genome project; KDD(knowledge discovery in database0 引 言計(jì)算機(jī)技術(shù)的發(fā)展使分子生物學(xué)經(jīng)歷了信息革命時(shí) 代。生物信息學(xué) (Bioinformatics 是 20世紀(jì) 80年代末隨著 人類基因組計(jì)劃 (Human Genome Project, H GP 的啟動(dòng)而 興起的一門新的交叉學(xué)科 , 也常被稱為基因組信息學(xué)。廣 義上講生物信息學(xué)是指利用先進(jìn)的數(shù)據(jù)管理技術(shù)、 數(shù)據(jù)分 析模型、 計(jì)算軟件對(duì)各種生物信息數(shù)據(jù) (特別是分子生物 學(xué)數(shù)據(jù) 進(jìn)行提取、 儲(chǔ)存、 處理和分析 1。就基因分析角度 而

7、言 , 生物信息學(xué)主要是指核酸與蛋白質(zhì)序列數(shù)據(jù)、 蛋白 質(zhì)三維結(jié)構(gòu)數(shù)據(jù)的計(jì)算機(jī)處理和分析 2。生物信息學(xué)的 誕生及發(fā)展 , 使得核酸、 蛋白質(zhì)結(jié)構(gòu)和功能的數(shù)據(jù) , 各種疾 病相關(guān)數(shù)據(jù)及生物文獻(xiàn)數(shù)據(jù)都飛速增長(zhǎng)。但由此也帶來(lái) 一系列問(wèn)題 :一方面 , 日益增長(zhǎng)的數(shù)據(jù)對(duì)信息的采集和處 理提出了空前的要求 , 從各種圖譜的分析、 大量序列片段的聯(lián)配、 計(jì)算機(jī)克隆、 尋找基因、 預(yù)測(cè)結(jié)構(gòu)和功能 , 到數(shù)據(jù) 和研究結(jié)果的可視化 , 無(wú)不需要高效率的算法和程序 ; 另一方面 , 如何從已經(jīng)積累的海量數(shù)據(jù)和知識(shí)出發(fā) , 從 DNA 序列中識(shí)別編碼蛋白質(zhì)的基因 , 以及調(diào)控基因表達(dá)的各種 信號(hào) , 預(yù)測(cè)蛋白質(zhì)的

8、功能和結(jié)構(gòu) , 解讀生物的遺傳密碼 , 進(jìn) 行藥物設(shè)計(jì)等 , 是對(duì)計(jì)算機(jī)工作者和生物學(xué)家的巨大挑 戰(zhàn)。數(shù)據(jù)挖掘技術(shù)是解決上述問(wèn)題強(qiáng)有力的工具。數(shù)據(jù) 挖掘是近年來(lái)新興的一種科學(xué)計(jì)算技術(shù)與數(shù)據(jù)分析方法 , 它能夠有效地從大量數(shù)據(jù)中提取潛在的信息與知識(shí)。各 國(guó)研究者們也相繼提出并驗(yàn)證了多種有效的數(shù)據(jù)挖掘算 法。數(shù)據(jù)挖掘在科學(xué)發(fā)現(xiàn)、 商業(yè)零售及信用管理等領(lǐng)域得 到了越來(lái)越廣泛的應(yīng)用。在生物信息領(lǐng)域 , 計(jì)算機(jī)工作者 與生物學(xué)家合作 , 研究提出了一系列的挖掘算法和挖掘模 式 , 并應(yīng)用于生物數(shù)據(jù) , 取得了傳統(tǒng)生物計(jì)算技術(shù)無(wú)可比 擬的效果。1 數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘也稱為數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn) (Knowle

9、dge Disc ov 2第 14卷 第 4期 2004年 4月 微 機(jī) 發(fā) 展 Micr ocomputer Development Vol. 14 No. 4Apr. 2004ery in Database, KDD , 是從數(shù)據(jù)庫(kù)中識(shí)別出有效的、 新穎 的、 潛在有用的、 并且最終可理解的模式的非平凡過(guò)程 3。 (1 有效性。要求挖掘前要對(duì)被挖掘的數(shù)據(jù)進(jìn)行預(yù)處 理 , 具備該特性 , 才能保證挖掘出來(lái)的信息的可靠性 ; (2 新穎性。要求發(fā)現(xiàn)的模式應(yīng)該是未知的 , 靠直覺 無(wú)法發(fā)現(xiàn)的信息和知識(shí) ;(3 潛在有用性。發(fā)現(xiàn)的知識(shí)將來(lái)有實(shí)際效用 , 即這 些信息或知識(shí)對(duì)于所討論的業(yè)務(wù)或研究領(lǐng)域

10、是有效的、 是 有實(shí)用價(jià)值和可實(shí)現(xiàn)的。常識(shí)性的結(jié)論或已被人們掌握 的事實(shí)或無(wú)法實(shí)現(xiàn)的推測(cè)都是沒有意義的 ;(4 最終可理解性。要求發(fā)現(xiàn)的模式能被用戶理解 , 目前它主要是體現(xiàn)在簡(jiǎn)潔性上。發(fā)現(xiàn)的知識(shí)要可接受、 可 理解、 可運(yùn)用 , 最好能用自然語(yǔ)言表達(dá)所發(fā)現(xiàn)的結(jié)果 ; 并不 要求發(fā)現(xiàn)放之四海皆準(zhǔn)的知識(shí) , 也不是要去發(fā)現(xiàn)嶄新的自 然科學(xué)定理和純數(shù)學(xué)公式 , 更不是什么機(jī)器定理證明。任 何發(fā)現(xiàn)的知識(shí)都是相對(duì)的 , 是有特定前提和約束條件 , 面 向特定領(lǐng)域的。數(shù)據(jù)挖掘是在已有的大量數(shù)據(jù)中尋找模式的決策支 持過(guò)程 , 它從理論和技術(shù)上繼承了知識(shí)發(fā)現(xiàn)領(lǐng)域的成果 , 同時(shí)又借鑒了許多其他領(lǐng)域的理論和算

11、法 , 如機(jī)器學(xué)習(xí) (machinelearning 、 模式識(shí)別 (pattern re cognition 、 人工智 能 (a rtific ial-intelligent 以及統(tǒng)計(jì)學(xué) (stat ist ic s 等。因此 , 數(shù)據(jù)挖掘是一門交叉學(xué)科 , 它把人們對(duì)數(shù)據(jù)的應(yīng)用從低層 次的簡(jiǎn)單查詢 , 提升到從數(shù)據(jù)中挖掘知識(shí) , 提供決策支持。2數(shù)據(jù)挖掘的步驟數(shù)據(jù)挖掘過(guò)程是反復(fù)的、 不斷求精的過(guò)程 , 該過(guò)程要 求是非平凡的 , 要有一定的智能性和主動(dòng)性。同時(shí)在不同 的應(yīng)用領(lǐng)域也有不同的數(shù)據(jù)挖掘算法。因此迄今為止還 沒有一套完整、 統(tǒng)一的數(shù)據(jù)挖掘理論體系來(lái)指導(dǎo)如何獲取 有用信息。研究者們

12、提出了數(shù)據(jù)挖掘的一般步驟 , 以此指 導(dǎo)不同領(lǐng)域內(nèi)的數(shù)據(jù)挖掘。以下概括了生物信息數(shù)據(jù)挖 掘的一般步驟。(1 理解數(shù)據(jù)的生物學(xué)意義。在進(jìn)行數(shù)據(jù)挖掘之前 , 首先理解現(xiàn)有數(shù)據(jù)的生物學(xué)意 義、 定義問(wèn)題 , 確定數(shù)據(jù)挖掘的目標(biāo) , 制定數(shù)據(jù)挖掘的方法 與進(jìn)行計(jì)劃等 4。在該過(guò)程中 , 確定挖掘目標(biāo) , 了解要挖 掘的信息與知識(shí)是保證整個(gè)數(shù)據(jù)挖掘過(guò)程成功進(jìn)行的前 提和保證。(2 數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理通常包括數(shù)據(jù)清理與集成、 數(shù)據(jù)選擇與變 換兩部分。原始生物數(shù)據(jù)通常是有噪聲的 , 不完全的 , 不 一致的。因此要對(duì)現(xiàn)有的原始數(shù)據(jù)進(jìn)行凈化處理 , 包括矯 正、 去除或忽略噪聲 , 決定如何處理某些特殊值

13、 (例如 :空 值 等等。通過(guò)對(duì)分布廣泛的異構(gòu)數(shù)據(jù)庫(kù)進(jìn)行語(yǔ)義集成 , 可以從數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中檢索分析與挖掘任務(wù)相關(guān)的 數(shù)據(jù) , 并將這些數(shù)據(jù)轉(zhuǎn)換或統(tǒng)一成適合挖掘的形式 , 建立 適合挖掘算法的數(shù)據(jù)分析模型。(3 數(shù)據(jù)挖掘。該步針對(duì)已確定的數(shù)據(jù)分析模型實(shí)施特定的數(shù)據(jù)挖 掘方法。數(shù)據(jù)挖掘的算法繁多 , 對(duì)于生物數(shù)據(jù) , 常見的包 括 :人工神經(jīng)網(wǎng)絡(luò)、 動(dòng)態(tài)規(guī)劃、 決策樹、 遺傳算法、 最近鄰技 術(shù)、 馬爾可 夫鏈 模型、 隱馬 爾可夫 鏈模 型、 可 視化 技術(shù) 等 5。通常數(shù)據(jù)挖掘結(jié)果的效果在很大程度上取決于被 挖掘的數(shù)據(jù) , 方法的選擇很多時(shí)候也取決于專家積累的經(jīng) 驗(yàn)。不同的算法作用于同一數(shù)

14、據(jù)庫(kù) , 對(duì)數(shù)據(jù)的理解角度也 不同 , 因此挖掘獲得的模式或規(guī)則也具有多樣性。在此過(guò) 程中 , 不僅要強(qiáng)調(diào)不同方法的特征 , 而且還要注重與生物 學(xué)家之間建立廣泛的交流 , 將計(jì)算機(jī)獲得的實(shí)驗(yàn)結(jié)論與人 工分析的結(jié)果相比較 , 并根據(jù)專家的經(jīng)驗(yàn)進(jìn)行求證 , 以此 來(lái)檢驗(yàn)方法的合理性。(4 模式評(píng)估。數(shù)據(jù)挖掘可以產(chǎn)生大量的模式或規(guī)則 , 但其中只有少 量是生物學(xué)家真正感興趣的。模式評(píng)估即從已產(chǎn)生的模 式或規(guī)則發(fā)現(xiàn)有趣 (interesting 的模式。在評(píng)估過(guò)程中 , 首先要考察模式的可理解性 , 只有發(fā)現(xiàn)的信息可以被使用 者所理解 , 才能為使用者做出決策提供基礎(chǔ)。再次 , 在一 定程度上有趣模

15、式必須是新穎的、 有效的以及潛在有用 的。這要求該模式所發(fā)現(xiàn)的信息具有創(chuàng)新意義 , 對(duì)于新的 或測(cè)試用的生物數(shù)據(jù)同樣適用 , 并且生物學(xué)家可以從該模 式中獲取關(guān)鍵的信息。目前模式評(píng)估主要采用客觀度量 (評(píng)分函數(shù) , 支持度等 和反映特定用戶需要和興趣的主觀 度量相結(jié)合的方法。(5 知識(shí)表示。采用知識(shí)表示技術(shù)和可視化技術(shù)向用戶展示挖掘的 知識(shí)。運(yùn)用知識(shí)表示技術(shù)將數(shù)據(jù)挖掘得到的知識(shí)符號(hào)化 , 并用特定的數(shù)據(jù)結(jié)構(gòu) (邏輯與物理兩方面 進(jìn)行描述與存 儲(chǔ)。在此基礎(chǔ)上 , 充分利用可視化技術(shù) , 將單純的數(shù)字、 字 符表示轉(zhuǎn)化為圖形、 圖表等簡(jiǎn)單、 明了、 易于理解的形式。 只有通過(guò)直觀的表達(dá) , 用戶才

16、能理解模式 , 并采取相應(yīng)的 策略。3數(shù)據(jù)挖掘在生物信息學(xué)中的應(yīng)用潛力序列分析、 基因表達(dá)、 蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、 藥物發(fā)現(xiàn)及設(shè) 計(jì)是生物學(xué)領(lǐng)域的關(guān)注點(diǎn)。已有許多有意義的挖掘模式、 挖掘算法應(yīng)用在這些方面并取得相應(yīng)成果。研究證明數(shù) 據(jù)挖掘是生物信息處理的強(qiáng)有力工具。目前數(shù)據(jù)挖掘在 生物信息領(lǐng)域的研究重點(diǎn)主要表現(xiàn)在以下幾個(gè)方面 6: (1 數(shù)據(jù)清理 , 數(shù)據(jù)集成 , 異種、 分布式數(shù)據(jù)庫(kù)的語(yǔ)義 集成。許多國(guó)家和研究組織都建立了生物序列數(shù)據(jù)庫(kù)、 蛋白 質(zhì)結(jié)構(gòu)和功能數(shù)據(jù)庫(kù) , 為人們提供了豐富的信息。但是這 些數(shù)據(jù)分散 , 且存儲(chǔ)介質(zhì)多樣 , 在同一數(shù)據(jù)庫(kù)中存在著大 量具有重復(fù)信息的序列及一些高度相似的

17、數(shù)據(jù) , 造成數(shù)據(jù)冗余。因此對(duì)這種異構(gòu)的和廣泛分布的數(shù)據(jù)庫(kù)的語(yǔ)義集 成就成為一項(xiàng)重要任務(wù)。數(shù)據(jù)挖掘中的數(shù)據(jù)清理、 數(shù)據(jù)集 成方法有助于該問(wèn)題的解決。(2 DNA 序列相似搜索和比對(duì)。為識(shí)別一個(gè)新發(fā)現(xiàn)的基因和一個(gè)已知基因家族之間 的進(jìn)化關(guān)系 , 確定他們的同源性或相似性 , 通常需要序列 比對(duì) , 找出它們之間的最大匹配 , 從而定量給出其相似程 度。由于序列數(shù)據(jù)是非數(shù)字的 , 其內(nèi)部不同種類核苷酸之 間的精確交叉扮演著重要的角色。因此探索高效的搜索 和比對(duì)算法在序列分析中非常重要。(3 基因組特征及同時(shí)出現(xiàn)的基因序列的分析。 對(duì)于基因家族的成組序列來(lái)說(shuō) , 必須闡明多個(gè)序列之 間的關(guān)系 , 才

18、能揭示整個(gè)基因家族的特征。多序列比對(duì)在 識(shí)別一組相關(guān)序列中有重要生物意義。多比對(duì)算法的計(jì) 算量可觀 , 為降低算法復(fù)雜性 , 必須研究有實(shí)用價(jià)值的比 對(duì)算法。利用關(guān)聯(lián)規(guī)則、 聚類分析有助于發(fā)現(xiàn)一組序列之 間的差異以及相似性關(guān)系 , 以便對(duì)一個(gè)基因家族的特征有 基本了解。另外在生物醫(yī)學(xué)研究上 , 人們發(fā)現(xiàn)疾病的產(chǎn)生 大多數(shù)是由多基因決定的 , 利用關(guān)聯(lián)規(guī)則分析幫助確定在 目標(biāo) (疾病 樣本中同時(shí)出現(xiàn)的基因種類。(4 路徑分析 :發(fā)現(xiàn)在不同階段的致病因。引起一種疾病的基因不止一個(gè) , 不同基因在疾病的不 同階段發(fā)揮作用。利用路徑分析、 演變分析等找到在不同 階段的致病遺傳基因序列 , 可開發(fā)不同階

19、段的治療藥物 , 從而取得更有效的治療效果。(5 生物數(shù)據(jù)可視化和可視的數(shù)據(jù)挖掘。由于生物數(shù)據(jù)的復(fù)雜性和高維性 , 既不能以數(shù)字公式 表示 , 也不能以邏輯公式表示 , 可借助各種可視化工具以 圖、 樹、 方體、 鏈的形式展現(xiàn)其復(fù)雜結(jié)構(gòu)和序列模式。常用 的生物數(shù)據(jù)可視化工具有語(yǔ)義鏡技術(shù)、 信息壁技術(shù)、 基因 調(diào)控網(wǎng)格等 7。同時(shí) , 將經(jīng)過(guò)數(shù)據(jù)挖掘工具得到的數(shù)據(jù)結(jié) 果也以圖形、 圖像的形式展現(xiàn)給用戶 , 便于用戶尋找數(shù)據(jù) 間規(guī)律和關(guān)系。(6 生物文獻(xiàn)的挖掘。Internet 上生物文獻(xiàn)日益增多 , 人們通過(guò)搜索引擎獲 取相關(guān)信息 , 但檢索結(jié)果數(shù)目巨大 , 準(zhǔn)確率不高 , 而且一般 搜索結(jié)果只

20、能給出標(biāo)題和摘要 , 不能給出文章總的關(guān)鍵詞 句。特別是生物文獻(xiàn)數(shù)據(jù)中 , 大多數(shù)蛋白質(zhì)名稱都是復(fù)合 詞 , 比較復(fù)雜 , 有的卻采用普通的詞匯命名與其常用詞義 相混導(dǎo)致引擎搜索錯(cuò)誤 , 甚至在一篇文獻(xiàn)中同一種蛋白質(zhì) 有好幾種命名出現(xiàn) , 增加了搜索困難。利用路徑遍歷模 式、 鏈接分析、 自然語(yǔ)言處理等技術(shù)尋找文獻(xiàn)中關(guān)鍵詞如 蛋白質(zhì)名稱 , 或捕捉上下文關(guān)系 , 可提高檢索速度和準(zhǔn)確 率 8。(7 基于隱私保護(hù)的數(shù)據(jù)挖掘。數(shù)據(jù)挖掘技術(shù)為生物工作者提供了有效工具的同時(shí) 也引發(fā)了隱私保護(hù)問(wèn)題。比如研究單位的保密實(shí)驗(yàn)數(shù)據(jù) , 個(gè)人的醫(yī)療診斷記錄、 病史記錄都有可能被誤用。通過(guò)在 數(shù)據(jù)挖掘過(guò)程中使用限

21、制數(shù)據(jù)訪問(wèn) , 模糊數(shù)據(jù) , 減少不必 要分組 , 有目的增加噪聲數(shù)據(jù)等方法來(lái)達(dá)到保護(hù)隱私的目 的 9。目前在該領(lǐng)域的研究尚處于起步階段。4生物信息挖掘工具的開發(fā)與應(yīng)用隨著多年的研究與發(fā)展 , 已有很多數(shù)據(jù)挖掘、 機(jī)器學(xué) 習(xí)系統(tǒng)和工具用于生物信息處理。一般的數(shù)據(jù)挖掘分析 系統(tǒng)有 :SAS Enterprise Mine r, IB M Intelligent Miner, S GI MinS et 等。一些專用的綜合軟件包在生物信息處理中發(fā) 揮了巨大作用。 GCG(Genetic s Computer Group 主要用于 核酸序列分析和蛋白質(zhì)序列分析。 Stade n 是 DNA 和蛋白 質(zhì)

22、序列分析的軟件包。此外還有用于大規(guī)模測(cè)序的 Se 2 quencher, 用于快速克隆的 VectorNT I 等 2。 GeneMine 是 由 Molec ular Application Group 開發(fā)的生物信息學(xué)數(shù)據(jù)挖 掘系統(tǒng) , 該系統(tǒng)可以用于生物信息數(shù)據(jù)的過(guò)濾、 計(jì)算和聚 類操作 , 并支持進(jìn)一步的綜合分析和可視化。目前世界數(shù) 據(jù)庫(kù)巨頭 ORACLE, IB M 紛紛將生物信息挖掘工具分別 嵌入至 ORACLE 9i, DB 2中 , 大大提高了生物數(shù)據(jù)的安全 性和分析的準(zhǔn)確性。5結(jié)束語(yǔ)序列分析、 基因表達(dá)、 同源研究、 蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)以及 藥物設(shè)計(jì)為數(shù)據(jù)挖掘提供了廣闊的研究空間

23、 , 也顯示了數(shù) 據(jù)挖掘在這些方面的發(fā)展?jié)摿Α@脭?shù)據(jù)挖掘技術(shù) , 將幫 助人們認(rèn)識(shí)生物數(shù)據(jù)所蘊(yùn)涵的結(jié)構(gòu)和功能信息 , 進(jìn)而徹底 了解生物數(shù)據(jù)所代表的生物學(xué)意義 , 幫助人們認(rèn)識(shí)自然界 各種生物的遺傳信息 , 認(rèn)識(shí)病毒和細(xì)菌的真正面目 , 研制 與開發(fā)新藥物等等。相信在不久的將來(lái) , 數(shù)據(jù)挖掘在生物 信息學(xué)領(lǐng)域的應(yīng)用會(huì)取得突破性的進(jìn)展。參考文獻(xiàn) :1鐘 揚(yáng) , 張 亮 , 趙 瓊 . 簡(jiǎn)明生物信息學(xué) M.北京 :高等 教育出版社 , 2001.2Attword T K, Parry-Smith D J. 生物信息學(xué)概論 M. 羅靜 初等譯 . 北京 :北京大學(xué)出版社 , 2002.3Fayya

24、d U M, Piatetsky-Shapiro G, Smyth P, et al. Knowl 2 edge Discovery and Data mining:Toward a Unifying Frame-workM. ProKD D-96. Menlo Park, CA:AAAI -Press, 1996. 82-88.4胡文豐 , 張正國(guó) . 生物醫(yī)學(xué)數(shù)據(jù)挖掘 J.國(guó)外醫(yī)學(xué)生物醫(yī)學(xué) 工程分冊(cè) , 2003, 26(1 :11-15.5Baldi P, Brunak S. BIOINFORMATICS:The Machi ne Learn 2 ing Appro achM.北京 :中

25、信出版社 , 2002.6Han Jiawei, Kamber M. 數(shù)據(jù)挖掘概念與技術(shù) M.范 明 , 孟小峰譯 . 北京 :機(jī)械工業(yè)出版社 , 2001.7楊錫南 , 孫 嘯 . 生物信息學(xué)中基因數(shù)據(jù)可視化 J.計(jì)算機(jī) 與應(yīng)用化學(xué) , 2001, 18(5 :403-409. (下轉(zhuǎn)第 17頁(yè) 表 1Shell 控件的主要方法ReportShell1PageHeader 方法 打印報(bào)表頭ReportShell1PageFooter 方法 打印報(bào)表尾ReportShell1ReportBefore 方法 定位到主視圖第一個(gè)記錄ReportShell1RowPri nt 方法 打印主視圖一條記

26、錄Ma sterS hel l1BodyBefore 方法 打印子視圖前生成動(dòng)態(tài)查詢Ma sterS hel l1RowPrint 方法 打印子視圖一條記錄Ma sterS hel l1GroupAfter 方法 每打印子視圖 一條記 錄后移 到子 視 圖下一條記錄ReportShell1GroupAfter 方法 每打印主視圖 一個(gè)記 錄及子 表后 移 到主視圖下一條記錄/實(shí)現(xiàn)動(dòng)態(tài)數(shù)據(jù)連接With ReportPrinter, Qry Master do begin/新起一頁(yè)時(shí)打印表頭If ReportShell. Is NewPage then begin/設(shè)置表頭字段字體樣式SetFon

27、t(-宋體 . , 12 ;/繪制表頭表格SetTab(1. 0, pjCenter, 3, 1, BOX LINEALL, 10 ;SetTab(NA, pjCenter, 3, 1, BOXLINEALL, 10 ;Println(#9-字段名 1. #9-字段名 2. ;end;, /設(shè)置數(shù)據(jù)字體樣式, /繪制數(shù)據(jù)表格PrintTab(FieldByName(-字段 1. . AsStr i ng ;/輸出數(shù)據(jù)Print(#9+FieldByName(-字段 2. . AsString ;end;2 如果子視圖是動(dòng)態(tài)生成的 , 必須在打印子表前生成 動(dòng)態(tài)查詢 , 可在 MasterShe

28、ll1B odyB efore 方法中生成動(dòng)態(tài)查 詢 , 主要代碼如下 :/生成子視圖 QryDetail1with QryD etail1do begin, end;Open;/生成子視圖 QryDetai l2with Qry Detail2do begin, end;Open;Qry Detail1. first;Qry Detail2. first;3 打印子視圖記錄時(shí) , 注意判斷子視圖是否打印完 畢 , 然后動(dòng)態(tài)連接到子視圖執(zhí)行打印數(shù)據(jù)輸出。若是一對(duì) 多的主從報(bào)表 , 這里要打印兩個(gè)子視圖數(shù)據(jù) , 如下所示 : /打印子視圖 QryDetail1With ReportPrinter, QryD etail1do begi nif not EOF then begin/打印表頭和小標(biāo)題If ReportShell. IsNewPage then begin, end;/打印數(shù)據(jù),end;end/打印子視圖 QryDetail2With ReportPrinter, QryD etail2do begi nif not EOF then begin/打印表頭

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論