




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
數(shù)學建模培訓(xùn)第十章多元統(tǒng)計分析
第十章多元統(tǒng)計分析主講:孫中奎第1頁1.問題引入2.思緒點撥3.判別分析方法4.DNA序列分類問題求解5.參考文件目錄第2頁首先,我們來考慮一下“網(wǎng)易杯”全國大學生數(shù)學建模競賽A題是關(guān)于“DNA序列分類”問題1.問題引入第3頁
人類基因組中DNA全序列是由4個堿基A,T,C,G按一定次序排成長約30億序列,毫無疑問,這是一本統(tǒng)計著人類本身生老病死及遺傳進化全部信息“天書”。不過,除了這四種堿基外,人們對它所包含內(nèi)容知之甚少,怎樣破譯這部“天書”是二十一世紀最主要任務(wù)之一。在這個目標中,研究DNA全序列含有什么結(jié)構(gòu),由這4個字符排成看似隨機序列中隱藏著什么規(guī)律,又是解讀這部天書基礎(chǔ),是生物信息學(Bioinformatics)最主要課題之一。
第4頁即使人類對這部“天書”知之甚少,但也發(fā)覺了DNA序列中一些規(guī)律性和結(jié)構(gòu)。比如,在全序列中有一些是用于編碼蛋白質(zhì)序列片段,即由這4個字符組成64種不一樣3字符串,其中大多數(shù)用于編碼組成蛋白質(zhì)20種氨基酸。又比如,在不用于編碼蛋白質(zhì)序列片段中,A和T含量尤其多些,于是以一些堿基尤其豐富作為特征去研究DNA序列結(jié)構(gòu)也取得了一些結(jié)果。另外,利用統(tǒng)計方法還發(fā)覺序列一些片段之間含有相關(guān)性,等等。這些發(fā)覺讓人們相信,DNA序列中存在著局部和全局性結(jié)構(gòu),充分發(fā)掘序列結(jié)構(gòu)對了解DNA全序列是十分有意義。
第5頁作為研究DNA序列結(jié)構(gòu)嘗試,試對以下序列進行分類:問題一:下面有20個已知類別人工制造序列(見附件1),其中序列標號1—10為A類,11-20為B類。請從中提取特征,結(jié)構(gòu)分類方法,并用這些已知類別序列,衡量你方法是否足夠好。然后用你認為滿意方法,對另外20個未標明類別人工序列(標號21—40)進行分類,把結(jié)果用序號(按從小到大次序)標明它們類別(無法分類不寫入):A類
;B類
。第6頁問題二:請對182個自然DNA序列(/mcm00/problems.htm)進行分類。它們都較長。用你分類方法對它們進行分類,并給出分類結(jié)果。
看了這道題,我們應(yīng)該從何處入手呢,我們應(yīng)該怎樣進行分析呢……第7頁2.思緒點撥細讀全題對未知事物進行分類
問題本質(zhì)對另外20個未標明類別DNA序列進行分類依據(jù)所給20個已知類別DNA序列所提供信息
對182個自然DNA序列進行分類第8頁假如將每一個DNA序列都看作樣本,那么該問題就深入提煉成一個純粹數(shù)學問題:設(shè)有兩個總體(類)和,其分布特征(來自各個總體樣本)已知,對給定新品,我們需要判斷其屬于哪個總體(類)。對于上面數(shù)學問題,能夠用很多成熟方法來處理,比如:(1)BP神經(jīng)網(wǎng)絡(luò);(2)聚類分析;(3)判別分析;等等。
第9頁
怎樣選取方法是建模過程中需要處理另外一個問題:BP神經(jīng)網(wǎng)絡(luò)是人工神經(jīng)網(wǎng)絡(luò)一個,它經(jīng)過對訓(xùn)練樣本學習,提取樣本隱含信息,進而對新樣本類別進行預(yù)測。BP神經(jīng)網(wǎng)絡(luò)能夠用以處理上面DNA序列分類問題,不過,怎樣提取特征、怎樣提升網(wǎng)絡(luò)訓(xùn)練效率、怎樣提升網(wǎng)絡(luò)容錯能力、怎樣建立網(wǎng)絡(luò)結(jié)構(gòu)是能否成功處理DNA序列分類問題關(guān)鍵所在;聚類分析和判別分析都是多元統(tǒng)計分析中經(jīng)典方法,都能夠用來將對象(或觀察值)分成不一樣集合或類別,不過,聚類分析更側(cè)重于“探索”對象(或觀察值)自然分組方式,而判別分析則側(cè)重于將未知類別對象(或觀察值)“歸結(jié)”(或者說,分配)到已知類別中。顯然,判別分析更適適用來處理上面DNA序列分類問題。第10頁3.判別分析方法
判別分析是用于判別樣品所屬類別一個多元統(tǒng)計分析方法。判別分析問題都能夠這么描述:設(shè)有個維總體,其分布特征已知(如已知分布函數(shù)分別為或者已知來自各個總體樣本),對給定一個新樣品,我們需要判斷其屬于哪個總體。普通來說,依據(jù)判別規(guī)則不一樣,能夠得到不一樣判別方法,比如,距離判別、貝葉斯(Bayes)判別、費希爾(Fisher)判別、逐步判別、序貫判別等。這里,我們簡單介紹三個慣用判別方法:距離判別、貝葉斯(Bayes)判別和費希爾(Fisher)判別。
第11頁判別分析方法1.距離判別2.貝葉斯(Bayes)判別3.費希爾(Fisher)判別4.判別分析模型顯著性檢驗
第12頁3.1距離判別距離判別基本思想:樣品X離哪個總體距離最近,就判斷X屬于哪個總體。
這里“距離”是通常意義下距離(歐幾里得距離:在m維歐幾里得空間R中,兩點與歐幾里得距離,也就是通常我們所說距離為)嗎?帶著這個疑問,我們來考慮這么一個問題:第13頁設(shè)有兩個正態(tài)總體,和,現(xiàn)在有一個新樣品位于A處(參見圖1)從圖中不難看出:,是否A處樣品屬于總體呢?圖1第14頁顯然不是,因為從概率角度來看,總體樣本比較分散,而總體樣本則非常集中,所以處樣品屬于總體概率顯著大于屬于總體概率,也就是說,處樣品屬于總體“可能性”顯著大于屬于總體“可能性”!這也說明了用歐幾里得距離來度量樣品到總體距離不足。所以,需要引入新距離概念——這就是下面給出馬氏距離。第15頁定義1(馬氏距離):設(shè)總體G
為m
維總體(m個原因或指標),其均值向量為(這里T表示轉(zhuǎn)置),協(xié)方差陣為,則樣品到總體G馬氏距離定義為第16頁3.1.1兩總體距離判別先考慮兩個總體()情況。設(shè)有兩個總體和,和分別是和協(xié)方差陣,和分別是和均值。對于新樣品,需要判斷它來自那個總體。設(shè)來自()訓(xùn)練樣本為其中表示來自哪個總體,表示來自總體樣本量。第17頁要判斷新樣品來自哪個總體,普通想法是分別計算新樣品到兩個總體馬氏距離和:
假如則判定;反之,假如則判定:即
……(1)
A.時判別方法第18頁其中,,
記為了得到更簡單判別規(guī)則,我們下面計算新樣品到兩個總體馬氏距離和差第19頁顯然,判別規(guī)則(1)式等價于……
(2)通常,稱為判別系數(shù)向量稱為線性判別函數(shù)。注意判別準則(1)式或者(2)式將維空間劃分成兩部分:和也即。距離判別實質(zhì)就是:給出空間一個劃分和,假如樣品落入之中,則判定;假如樣品落入之中,則判定。第20頁當時,依據(jù)判別準則(1)式,我們一樣給出判別函數(shù)為對應(yīng)判別規(guī)則為……(3)B.時判別方法第21頁在實際應(yīng)用中,總體均值和協(xié)方差陣普通是未知,我們所知道僅僅是一組樣本或者觀察值,在這種情況下,就需要利用數(shù)理統(tǒng)計知識,對進行預(yù)計。利用已知樣本,易得無偏預(yù)計分別為C.預(yù)計
第22頁對于多個總體情況,能夠類似于兩個總體處理過程,我們給出以下步驟:
第一步:計算樣品到每個總體馬氏距離;第二步:比較大小,將樣品判為距離最小那個總體。假如均值為:和協(xié)方差:未知,能夠類似兩個總體情形利用訓(xùn)練樣原來進行預(yù)計。這里不再贅述。
3.1.2多總體距離判別第23頁3.1.3距離判別不足距離判別方法簡單實用,輕易實現(xiàn),而且結(jié)論意義明確。不過,距離判別沒有考慮:(1)各總體本身出現(xiàn)可能性在距離判別中沒有考慮;(2)錯判造成損失在距離判別中也沒有考慮。在很多情況下,不考慮上面兩種原因是不合理。貝葉斯(Bayes)判別方法克服了距離判別不足。第24頁與前面距離判別方法不一樣是:所謂貝葉斯(Bayes)判別,就是在考慮各總體先驗概率和錯判損失情況下,給出空間一個劃分:,使得利用此劃分來判別歸類時,所帶來平均錯判損失最小。3.2貝葉斯判別第25頁貝葉斯(Bayes)判別問題數(shù)學描述為:設(shè)有個維總體,其密度函數(shù)分別為,若已知這個總體各自出現(xiàn)概率(先驗概率)為(,且),假設(shè)已知將原來屬于總體樣品錯判為總體所造成損失為。在這么情形下,對于新樣品,需要判斷它來自那個總體。為了給出貝葉斯(Bayes)判別準則,我們從下面幾個方面來討論:第26頁先驗概率表示對各總體先知認識,或者說,事先對所研究問題所含有認識。普通來說,先驗概率并不輕易取得,其更多來自于長久累積經(jīng)驗。先驗概率能夠經(jīng)過下面幾個賦值方法得到:基于經(jīng)驗或者歷史資料進行預(yù)計;利用訓(xùn)練樣本中各種樣品所占百分比作為值。其中表示第類總體樣品數(shù),是總訓(xùn)練樣本數(shù),該方法要求訓(xùn)練樣本是經(jīng)過隨機抽樣得到;3.假定。A.確定先驗概率第27頁這里用表示將原來屬于總體樣品錯判為總體概率,即誤判概率,顯然,依據(jù)概率定義,易得:()……(4)實際上,(4)式幾何意義是很顯著,見圖2。
B.確定錯判概率
圖2表示是兩個正態(tài)總體誤判概率示意圖。第28頁誤判概率預(yù)計方法有以下幾個:(1)利用訓(xùn)練樣本為檢驗集,用判別方法對訓(xùn)練樣本進行判斷,統(tǒng)計誤判樣本個數(shù),計算誤判樣本占總樣本百分比,并作為誤判概率預(yù)計值;(2)當訓(xùn)練樣本足夠大時,從訓(xùn)練樣本中預(yù)留一部分作為檢驗集,并統(tǒng)計判錯比率,作為誤判概率預(yù)計值;(3)利用舍一法:每次預(yù)留一個樣原來檢驗,用剩下樣本建立判別準則,循環(huán)檢驗完全部訓(xùn)練樣本,統(tǒng)計判錯比率,以此作為誤判概率預(yù)計值。第29頁C.確定錯判損失錯判必定帶來損失?,F(xiàn)實中,錯判損失普通來說極難定量給出。不過能夠利用賦值法來確定:(1)依據(jù)經(jīng)驗或者實際問題特征人為確定;(2)假設(shè)各種誤判損失都相等。第30頁基于前面討論,利用概率知識:判別法將原來屬于總體樣本錯判給其它總體平均損失為那么,關(guān)于先驗概率平均錯判損失為……(5)假如能找到使得平均損失到達最小,那么就稱為貝葉斯(Bayes)判別解。
D.確定平均損失第31頁定理1:設(shè)有個總體:,已知聯(lián)合密度函數(shù)為,先驗概率為,錯判損失為,則貝葉斯(Bayes)判別解為
其中……(6)下面給出貝葉斯(Bayes)判別解主要結(jié)論
:第32頁3.3費希爾判別費希爾判別基本思想:借助于方差分析思想,利用投影將元數(shù)據(jù)投影到某一個方向,使得投影后組與組之間差異盡可能大,然后依據(jù)一定判別規(guī)則對新樣本類別進行判斷。首先結(jié)構(gòu)一個線性判別函數(shù)……(7)可見上面函數(shù)將元數(shù)據(jù)投影到了一個方向,系數(shù)確實定標準是使得總體間差異最大,總體內(nèi)部離差最小。第33頁A.確定線性判別函數(shù)設(shè)有個元總體:,它們均值為:;協(xié)方差為:。在條件下,有
令 這里確定,使得個總體間差異最大,總體內(nèi)部離差最小,則應(yīng)該到達最大。第34頁為了確保唯一性,不妨設(shè)。所以,問題轉(zhuǎn)化為:在條件約束下,求使得式到達最大——這是大家非常熟悉條件極值問題。依據(jù)拉格朗日乘子法:求解得……(8)由方程(8)第一式知,是特征根,是對應(yīng)特征向量。能夠證實(大小能夠衡量判別函數(shù)判別效果,故稱為判別效率)。設(shè)非零特征根為,對應(yīng)滿足約束條件特征向量為,顯然,取時到達最大。第35頁B.確定判別規(guī)則
假設(shè)系數(shù)已經(jīng)求出,那么線性判別函數(shù)就完全確定下來,對于一個新樣品,能夠結(jié)構(gòu)下面判別規(guī)則:
……(9)
第36頁3.4判別分析模型顯著性檢驗建立了判別分析模型以后還需要對模型進行評價,這就需要對判別分析模型顯著性進行檢驗,主要包含兩個方面:判別效果檢驗和各變量判別能力檢驗[1,2]。所謂判別效果檢驗就是檢驗k個總體均值是否有顯著差異,反應(yīng)了采取判別分析模型有效性問題;各變量判別能力檢驗反應(yīng)是各指標(原因)對判別分類所起作用時候顯著。詳細檢驗方法因為過于復(fù)雜,這里不再贅述。需要說明是,作為多元統(tǒng)計分析中經(jīng)典方法,判別分析在許多關(guān)于多元統(tǒng)計分析教材中都有詳細而深刻敘述。第37頁4.DNA序列分類問題求解關(guān)于DNA序列分類問題討論和分析,我們在第1部分和第2部分已經(jīng)作了詳細分析和討論。這里,我們將依據(jù)多元統(tǒng)計分析知識建立判別分析模型來求解DNA序列分類問題(這里只求解問題一)。首先,需要提取每條序列所蘊含特征——因為將序列全部信息都作為指標(原因)來建立判別模型是不可能。第38頁A.特征提取DNA序列中所蘊含信息是非常豐富,所以,怎樣提取特征、提取什么特征是一個非常困難問題——這個問題包括到生物學知識,此處將不深入展開討論。我們考慮采取序列中4個堿基A,T,C,G含量百分比作為DNA序列特征。為了便于討論,我們用表示堿基A在序列中所占百分比;表示堿基T在序列中所占百分比;表示堿基C在序列中所占百分比;表示堿基G在序列中所占百分比。因為,+++=1,所以、、和中只有三個變量是獨立,不失普通性,我們選取、和為指標,以表示第個DNA序列特征向量,換句話說,“完全”代表第個DNA序列。第39頁正如前面第2部分中所分析:在此DNA序列分類問題中,共有兩個已知總體(類)(A類)和(B類),而且,訓(xùn)練樣本共有個,其中,前10個樣本(記為)屬于總體(類);后10個樣本(記為)屬于總體(類)。需要處理問題是:對給定新樣品,我們需要判斷其屬于哪個總體(類)。第40頁B.建立判別模型
這里分別建立距離判別和費希爾(Fisher)判別模型。(1)距離判別模型在距離判別模型中,首先需要預(yù)計總體(類)和均值和協(xié)方差陣,利用前面3.1.1小節(jié)公式,能夠得到均值和協(xié)方差陣無偏預(yù)計。然后,計算樣本到總體(類)和馬氏距離;依據(jù)判別準則(1),可得:若,則判定為A類;若,則判定為B類。
第41頁(2)費希爾判別模型
首先,確定判別函數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 高效溝通協(xié)作機制建立方案
- 鄉(xiāng)村環(huán)境綜合整治技術(shù)作業(yè)指導(dǎo)書
- 電力行業(yè)供電安全告知書
- 房屋買賣按揭合同
- 商業(yè)場所租賃使用協(xié)議及設(shè)備設(shè)施管理細則協(xié)議
- 智能辦公系統(tǒng)集成方案簽署協(xié)議
- 高考語文復(fù)習-文言文重點字詞解析練習
- 高考英語整句翻譯漢譯英專題訓(xùn)練500題(含答案)
- 新品手機使用說明手冊
- 企業(yè)研發(fā)創(chuàng)新基金合作協(xié)議
- 2024年鄭州信息科技職業(yè)學院高職單招(英語/數(shù)學/語文)筆試歷年參考題庫含答案解析
- 藍牙基礎(chǔ)知識全解課件
- 運動損傷預(yù)防與處理的案例分析
- 第四次工業(yè)革命課件
- 2023-2024學年西安市高二數(shù)學第一學期期末考試卷附答案解析
- 企業(yè)2024年年度安全教育培訓(xùn)計劃
- 《微生物限度檢查法》課件
- Project-培訓(xùn)教學課件
- 秋風詞賞析課件古詩詞賞析
- 福特F-150猛禽說明書
- DB3402-T 59-2023 露天礦山無人駕駛礦車作業(yè)通用要求
評論
0/150
提交評論