數(shù)學(xué)建模數(shù)據(jù)分析題_第1頁
數(shù)學(xué)建模數(shù)據(jù)分析題_第2頁
數(shù)學(xué)建模數(shù)據(jù)分析題_第3頁
數(shù)學(xué)建模數(shù)據(jù)分析題_第4頁
數(shù)學(xué)建模數(shù)據(jù)分析題_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)學(xué)建模數(shù)據(jù)分析題數(shù)學(xué)建模數(shù)據(jù)分析題數(shù)學(xué)建模數(shù)據(jù)分析題資料僅供參考文件編號:2022年4月數(shù)學(xué)建模數(shù)據(jù)分析題版本號:A修改號:1頁次:1.0審核:批準(zhǔn):發(fā)布日期:中國礦業(yè)大學(xué)數(shù)學(xué)建模常規(guī)賽競賽承諾書我們仔細(xì)閱讀了中國礦業(yè)大學(xué)數(shù)學(xué)建模常規(guī)賽論文格式規(guī)范和2016年中國礦業(yè)大學(xué)數(shù)學(xué)建模常規(guī)賽通知。我們完全明白,在競賽開始后參賽隊員不能以任何方式(包括電話、電子郵件、網(wǎng)上咨詢等)與隊外的任何人(包括指導(dǎo)教師)研究、討論與賽題有關(guān)的問題。我們知道,抄襲別人的成果是違反競賽章程和參賽規(guī)則的,如果引用別人的成果或資料(包括網(wǎng)上資料),必須按照規(guī)定的參考文獻的表述方式列出,并在正文引用處予以標(biāo)注。在網(wǎng)上交流和下載他人的論文是嚴(yán)重違規(guī)違紀(jì)行為。我們以中國礦業(yè)大學(xué)大學(xué)生名譽和誠信鄭重承諾,嚴(yán)格遵守競賽章程和參賽規(guī)則,以保證競賽的公正、公平性。如有違反競賽章程和參賽規(guī)則的行為,我們將受到嚴(yán)肅處理。我們授權(quán)中國礦業(yè)大學(xué)數(shù)學(xué)建模協(xié)會,可將我們的論文以任何形式進行公開展示(包括進行網(wǎng)上公示,在書籍、期刊和其他媒體進行正式或非正式發(fā)表等)。我們的參賽隊號:25參賽隊員(打印并簽名):1.易陽俊2.令月霞3.劉景瑞日期:2016年10月日(請勿改動此頁內(nèi)容和格式。此承諾書打印簽名后作為紙質(zhì)論文的封面。以上內(nèi)容請仔細(xì)核對,如填寫錯誤,論文可能被取消評獎資格。)中國礦業(yè)大學(xué)數(shù)學(xué)建模常規(guī)賽競賽編號專用頁評閱記錄(可供評閱時使用):評閱人備注評閱統(tǒng)一編號(數(shù)學(xué)建模協(xié)會填寫):題目:數(shù)據(jù)的分析問題摘要本文需要解決的問題是如何根據(jù)就診人員體內(nèi)7種元素含量來判別某人是否患有疾病G和確定哪些指標(biāo)是影響人們患疾病G的主要因素。通過解讀題目可知,此類問題為典型的分析判別問題。我們先對數(shù)據(jù)進行了預(yù)處理,剔除了有異常數(shù)據(jù)的樣本,然后采用元素分布判別法、馬氏距離判別法和Fisher判別法,應(yīng)用Excel、SPSS和MATLAB等軟件來對某人是否患病進行判別,并通過繪制7種元素含量的折線圖等來確定患該疾病的主要因素,最后應(yīng)用綜合判別法對之前的結(jié)論進行了檢驗。對于問題一,在對數(shù)據(jù)預(yù)處理之后,我們刪除了序號為10這個高度異常數(shù)據(jù)樣本,然后我們分別采用元素分布判別法、馬氏距離判別法和Fisher判別法對49個已知病例進行判別。對于元素分布判別法,我們通過數(shù)據(jù)預(yù)處理知道7種元素含量分布均符合正態(tài)分布,然后我們確定了以均值為大致中心的元素正常含量范圍,得出其判別準(zhǔn)確度為96%;對于馬氏距離判別法,通過編寫MATLAB程序(見附錄)來進行判別,得出其判別準(zhǔn)確度為90%;對于Fisher判別法,通過SPSS軟件來進行判別,得到線性判別函數(shù),其判別準(zhǔn)確度為96%;針對問題二:我們運用問題一中建立的三個判別模型對25名就診人員(見附錄)的化驗結(jié)果進行檢驗,判別結(jié)果如下表1: 表1判別方法元素分布判別法馬氏距離判別法Fisher判別法健康人數(shù)151411患病人數(shù)101114對于問題三,我們運用Excel對健康人和患者的7種元素分別繪制折線圖進行對分析,我們初步判定元素4與元素5是影響人們患疾病G的主要因素,然后用方法一的三種判別方法進行檢驗,其準(zhǔn)確度在85%以上;對于問題四,我們根據(jù)問題三得出的主要因素,分別用三種判別方法對25名就診人員進行判別,再與問題二的判別結(jié)果進行對比,可知它們判斷結(jié)果之間的差異性最高為24%。對于問題五,由于三種判別法都有不足,所以我們采用了綜合判別法,將三種判別方法的結(jié)果進行綜合判斷,最終我們通過主要因素進行判別的差異性下降到了12%,與問題一的判斷結(jié)果的一致性達到了88%。關(guān)鍵詞:馬氏距離判別,F(xiàn)isher判別,綜合判別,MATLAB,SPSS一、問題重述.隨著大數(shù)據(jù)時代的到來,人們在處理問題時往往要借助一些實驗或檢測數(shù)據(jù)的分析;病人到醫(yī)院就診時,醫(yī)生通常要通過化驗和檢測得到的數(shù)據(jù)分析來協(xié)助診斷。在醫(yī)療診斷中,要診斷一個人是否患上疾病G時,通常要檢測人體內(nèi)7種元素的含量。表1是50個確診病例的檢測結(jié)果,其中1-25號病例是已經(jīng)確診為疾病G的病人的檢測結(jié)果;26-50號病例是已經(jīng)確定為健康人的檢測結(jié)果。表2是25個就診人員的檢測結(jié)果。試解決下列問題:問題1:根據(jù)表1中的數(shù)據(jù),提出一種或多種簡便的判別方法,判別屬于疾病G的病人或健康人的方法,并檢驗?zāi)闾岢龇椒ǖ恼_性。問題2:按照問題1提出的方法,對表2中的25名就診人員的檢測結(jié)果進行判別,判定他(她)們是疾病G的病人還是健康人。問題3:能否根據(jù)表1的數(shù)據(jù)特征,確定哪些指標(biāo)是影響人們患疾病G的關(guān)鍵或主要因素,以便減少化驗的指標(biāo)。問題4:根據(jù)問題3的結(jié)果,重復(fù)問題2的工作。問題5:對問題2和問題4的結(jié)果作進一步的分析。二、模型假設(shè)(1)假設(shè)題目中所給的數(shù)據(jù)絕大多數(shù)真實可靠,不排除出現(xiàn)少數(shù)異常數(shù)據(jù)的可能;(2)假設(shè)就診人員在化驗前不會采取增加體內(nèi)這7種元素的措施;(3)題目中所給的樣本只有因這7種元素含量而患G病的患者或者為健康人員,不會受到其他疾病和其他元素的干擾;(4)不考慮各種元素之間的相互作用對機體產(chǎn)生的影響;三、問題的分析對于此題,我們需要通過對已知病例數(shù)據(jù)進行分析,從而找到疾病確診方法。我們首先運用Excel對健康人的7種元素含量繪制散點圖進行分析和W檢驗,得知這7種元素的分布均符合正態(tài)分布,再通過拉依達準(zhǔn)則法排除了高度異常數(shù)據(jù)10號樣本。針對問題一,我們建立了元素分布判別、馬氏距離判別和Fisher判別三種模型。首先,已知7種元素含量分布均符合正態(tài)分布,于是我們以健康人員的7種元素含量的均值為大致中心值,確立了一個元素正常含量范圍,對于只要存在一個不在正常范圍內(nèi)的元素含量的待診人員,我們就判定為患者,從而建立了元素分布判別模型;其次,我們利用馬氏距離判別法,對原始數(shù)據(jù)直接進行分析歸類,并排除了元素之間的相關(guān)性的干擾,運用MATLAB編程中得到的判別函數(shù)來對患者和健康人員這兩組樣本進行馬氏判別分析,從而建立了馬氏距離判別模型;然后,我們運用SPSS軟件對患者和健康人員這兩組樣本進行Fisher判別,得到區(qū)分人員是否患病的線性判別函數(shù)和判斷準(zhǔn)確率,從而建立了Fisher判別模型。最后,我們用已知的49個病例數(shù)據(jù)對這三個模型分別進行了檢驗,得到的判別準(zhǔn)確率均在90%以上。針對問題二,我們利用問題一中建立的三個判別模型分別對25位就診人員是否患病進行判別,結(jié)果見表1: 表1判別方法元素分布判別法馬氏距離判別法Fisher判別法健康人數(shù)151411患病人數(shù)101114針對問題三,為了確定影響人們患病G的關(guān)鍵或主要因素,我們運用Excel圖表功能對7種元素分別繪制折線圖進行對比。通過分析,可知絕大多數(shù)健康人員的元素4和元素5含量均大于患者在這兩種元素含量的最大值,健康人員與患者含量呈現(xiàn)明顯數(shù)值差異;而健康人與患者在其他5種元素上的分布差距沒有元素4與元素5如此明顯,所以我們初步判定元素4與元素5是影響人們患疾病G的主要因素。然后我們用問題一中的三種判別模型對已知病例進行檢驗,得到的判別準(zhǔn)確率均在85%以上。針對問題四,雖然利用問題三中得到的主要元素來進行分析判別的準(zhǔn)確率在85%以上,但在與問題二的判別結(jié)果進行對比后,可知兩種判別結(jié)果的差異性(見下表2)。 表2判別方法差異性元素分布判別法16%馬氏距離判別法24%Fisher判別法12%由上表可知,問題二與問題四的判別結(jié)果的最大差異性有24%,表明此時利用這兩個主要因素進行判別結(jié)果無法較好達到問題二的判別效果。針對問題五,已知問題四中得到的兩個主要因素的判斷結(jié)果與問題二的判斷結(jié)果差異性大,而且這三種判別方法均有各自的缺點,于是我們建立了一個綜合判別模型,通過三種判別方法來得到最后的判別結(jié)果,最終使得兩個判別結(jié)果的差異性降到了12%,一致性達到了88%。四、符號及變量說明符號意義顯著性水平馬氏距離判別函數(shù)Fisher判別線性函數(shù)Fisher判別臨界值五、數(shù)據(jù)預(yù)處理 數(shù)據(jù)分析處理實驗數(shù)據(jù)的時候,我們常常會遇到個別數(shù)據(jù)值偏離預(yù)期或大量統(tǒng)計數(shù)據(jù)值結(jié)果的情況,如果我們把這些數(shù)據(jù)值和正常數(shù)據(jù)值放在一起進行統(tǒng)計,可能會影響實驗結(jié)果的正確性。我們首先通過Excel做出了26-50號健康人的7種元素的散點圖(如下圖):圖1圖2圖3圖4圖5圖6圖7由圖可知: 1、序號為10的健康人員的元素數(shù)據(jù)十分異常,我們暫且忽略這個樣本。。2、我們可以發(fā)現(xiàn)忽略掉少數(shù)幾個異常數(shù)據(jù)外,每種元素數(shù)值大都集中在中間某個數(shù)值附近,則我們可以初步判斷這7種元素的含量可能服從正態(tài)分布,于是我們認(rèn)為可以通過統(tǒng)計學(xué)知識中的W檢驗來對這些數(shù)據(jù)分別進行正態(tài)性檢驗。W檢驗W檢驗全稱Shapiro-Wilk檢驗,是一種基于相關(guān)性的算法,通過計算可得到一個相關(guān)系數(shù),它越接近1就越表明數(shù)據(jù)和正態(tài)分布擬合得越好。W檢驗是檢驗樣本容量8≤n≤50時,樣本是否符合正態(tài)分布的一種方法。我們已知25個病人數(shù)據(jù)和24個健康人員數(shù)據(jù),計算公式為:其檢驗步驟如下:正態(tài)性檢驗通過編寫MATLAB程序(見附錄),我們可以得到健康人員的7種元素的W值(見下表3): 表3元素j1234567W值通過進一步對元素2和元素3的散點圖(見表2和表3)的觀察可知,其中的一些異常數(shù)據(jù)可能干擾了判斷結(jié)果,在先忽略掉序號為19的健康人員的元素2數(shù)據(jù)和序號為11、21的健康人員的元素3的數(shù)據(jù)后,再對它們進行一次W檢驗(見下表3): 表4元素序號i23認(rèn)為它也應(yīng)該滿足正態(tài)分布。 數(shù)據(jù)檢測拉依達準(zhǔn)則法是最常用的異常值判定與剔除準(zhǔn)則,優(yōu)點是簡單,無需查表,測量次數(shù)較多或要求不高時用。在這種情況下,異常值是指一組測定值中與平均值的偏差超過兩倍標(biāo)準(zhǔn)差的測定值。與平均值的偏差超過三倍標(biāo)準(zhǔn)差的測定值,稱為高度異常的異常值。在處理數(shù)據(jù)時,應(yīng)剔除高度異常的異常值。異常值是否剔除,視具體情況而定。在統(tǒng)計檢驗時,指定為檢出異常值的顯著性水平α=,稱為檢出水平;指定為檢出高度異常的異常值的顯著性水平α=,稱為舍棄水平,又稱剔除水平(rejectlevel)。由于我們已知7種元素含量分布均符合正態(tài)分布,所以我們可以用以下計算公式來判斷異常值是否存在,公式如下:當(dāng)s>0時,為異常值;當(dāng)s<0時,為正常值;通過Excel的簡單編程計算,我們得到以下異常數(shù)據(jù)表(見表4):表5序號i元素j含量類型序號i元素j含量類型112高度異常102135高度異常193308高度異常103322高度異常91247異常1046747高度異常1245361異常1051090高度異常187899異常106228異常197874異常當(dāng)c=3時,序號為10的健康人員在4個元素檢測上均為高度異常值,故我們可以排除該樣本。當(dāng)c=2時,有6個健康人員也存在一些相對異常的數(shù)據(jù),我們可以在對這些健康人員進行數(shù)據(jù)分析處理時,選擇忽略掉這些異常數(shù)據(jù),以免對最終分析結(jié)果產(chǎn)生較大的影響。六、問題模型建立與求解問題一的模型建立元素分布判別模型的建立我們已知這7個元素分布符合正態(tài)分布,由正態(tài)分布關(guān)于平均值對稱的性質(zhì),于是我們以平均值為大致中心值,同時盡量保證兩端點值與均值的距離相差不大,以此來確定元素正常含量范圍,建立元素分布判別模型,從而判斷待診人員是否患??;只要待診人員的某一種元素含量在該范圍之外時,我們就判定他為病人。 根據(jù)元素的散點圖分布和拉依達準(zhǔn)則法得到的異常數(shù)據(jù)表(見上表5),我們得到元素正常含量范圍: 表6元素序號i1234567均值(取整數(shù))1851857226526793388最大值(不含異常值)235251553879432182739最小值MIN133102531正常含量范圍133-2351025-387999-43231-182然后我們用已知的49個病例來對模型進行檢驗,得到綜合準(zhǔn)確率為96%的判別模型,檢驗結(jié)果如下(見表7): 表7已知病例檢驗成功人數(shù)檢驗成功率健康人員23%患者2496%馬氏距離判別模型基本思想首先根據(jù)已知分類的數(shù)據(jù),分別計算各類中心即分組(類)的均值。判別準(zhǔn)則是對任意給的一次觀測,若它與第i類的中心距離最近,就認(rèn)為它來自第i類。建立過程 ,按照距離最近準(zhǔn)則判別歸類,則可以寫成:馬氏距離判別分析和檢驗我們通過MATLAB編程(程序見附錄)來對已知的49名數(shù)據(jù)樣本進行檢測,得到馬氏距離檢測法的綜合檢測準(zhǔn)確率為90%,檢測結(jié)果如下: 表8已知病例健康人員患者檢測成功人數(shù)2420總?cè)藬?shù)2425檢測成功率100%80% Fisher判別模型基本思想從k個總體中抽取p個指標(biāo)的樣品觀測數(shù)據(jù),借助方差分析的構(gòu)造一個線性斷函數(shù),其中系數(shù)確定的原則是使得總體之間區(qū)別最大,而是每個總體內(nèi)部的離差最小。有了線性判斷函數(shù)U后,對于一個新的樣品,將它的p個指標(biāo)值帶入以上線性判斷函數(shù)式子中求出U值,然后根據(jù)一定的判別規(guī)則,就可以判斷新的樣品屬于哪個總體了算法步驟、進行Fisher判別分析和檢驗我們運用SPSS軟件對已知病例數(shù)據(jù)進行Fisher判別分析,得到判別結(jié)果如下(詳細(xì)表格見附錄):表9分類結(jié)果a組別預(yù)測的群組成員資格總計原始計數(shù)2412512324%%個原始分組觀察值已正確地分類。表10標(biāo)準(zhǔn)化典型區(qū)別函數(shù)係數(shù)函數(shù)1元素1元素2元素3.521元素4.546元素5.724元素6.348元素7(1)由分類結(jié)果可知:通過對已知的49名病例樣本進行檢測,對健康人與患病者的檢測準(zhǔn)確率都達到了96%,故綜合檢測準(zhǔn)確率為96%。(2)由標(biāo)準(zhǔn)化典型區(qū)別函數(shù)系數(shù)表可知,線性判別函數(shù)D應(yīng)為: 雖然我們得到了Fisher判斷法的線性判斷函數(shù),但我們還需找到一個判定標(biāo)準(zhǔn)來對健康人員與患者進行區(qū)分,通過表9可知,分別有一名已知的健康人員與患者在運用Fisher進行判別時出現(xiàn)錯誤,所以我們可以根據(jù)這兩名病例的判斷得分來得到判定標(biāo)準(zhǔn)。我們運用Excel進行簡單編程,求出已知49名病例的Fisher判斷函數(shù)的得分,結(jié)果如下:圖8由圖可知:病例號為1-25的患者整體得分明顯少于病例號為26-50的健康人員整體得分,顯然病例號為23和38的得分情況是Fisher判別所出現(xiàn)的兩個判斷錯誤;所以病例號為23的病例在Fisher判別法認(rèn)為是健康人,而得分略低的病例號為18的病例被Fisher判別法認(rèn)為是患者,對于我們所設(shè)置的判別臨界值S,他應(yīng)該屬于~之間,不妨令問題二的求解綜述以上三種判別方法,我們得到了它們的判別準(zhǔn)確率,如下表:表11準(zhǔn)確度/種類元素分布判別馬氏距離判別Fisher判別法病人%100%%健康人員96%80%96%綜合96%90%96%我們采用問題一中的元素分布判別法、馬氏距離判別法和Fisher判別法三種方法,運用Excel和MATLAB軟件(代碼詳見附錄)分別這25名就診人員進行判別,再將結(jié)果整理如下:表12元素分布判別法馬氏距離判別法Fisher判別法患病人員51-59、61-63、66、73、7451-54、56、61-63、66、73、7551-56、58、59、61-63、66、73、75健康人員60、64、65、67-72、7555、57-60、62、64、65、67-72、7457、60、64、65、67-72、74患病與健康人員的人數(shù)之比15:1011:1414:11問題三的模型建立與問題四的模型求解主要元素的確定我們運用Excel分別對健康人與患者的7種元素含量進行了升序排列,然后對健康人和患者的7種元素分別繪制折線圖進行對比,通過對元素4與元素5的折線圖(見下圖,其他5種元素圖見附錄)觀察分析可知,絕大多數(shù)健康人的這兩種元素含量均大于患者在這兩種元素含量的最大值,呈現(xiàn)出明顯的數(shù)值大小差異,而健康人與患者在其他5種元素上的分布,他們之間的差距沒有元素4與元素5明顯,所以我們初步判定元素4與元素5是影響人們患疾病G的主要因素。 圖9 圖10 我們進一步通過對圖9的觀察可知,患者的元素4含量大多數(shù)在100-160之間,而健康人僅有兩名在160以下,于是我們對問題一中元素分布判別法進行修改,對于元素4,我們以162為新的邊界值來進行判別,即元素4的新范圍為162-432。利用主要元素進行判別和檢驗我們利用問題三的主要元素,通過問題一中三種判別法來重新對就診人員進行判別,經(jīng)過整理后,判別結(jié)果如下: 表13準(zhǔn)確度/種類元素分布判別馬氏距離判別Fisher判別法病人%%100%健康人%%%綜合%%% 表14元素分布判別法馬氏距離判別法Fisher判別法患病人員51、52、54-59、62、63、66、73、7551、52、54-56、59、63、66、69、73、7551-59、61-63、66、67、69、73、75健康人員53、61、64、65、67-72、7453、57、58、60-62、64、65、67、68、70-72、7460、64、65、68、70-72、74患病與人數(shù)之比14:1111:1417:8我們進一步將該判別結(jié)果與問題2的判別結(jié)果進行對比,如下表:表14判別差異病例號差異性元素分布判別法53、61、74、7516%馬氏距離判別法53、55、59、61、62、6924%Fisher判別法57、67、6912%由上表可知,雖然只利用主要因素的三種判別法的有效率仍然在85%以上,但是三種判別法的結(jié)果與問題二中的判別結(jié)果仍然有不小的差異,雖然Fisher判別法差異性最小只有12%,但馬氏距離判別法的差異性卻有24%,我們需要進一步降低差異率來確保只利用主要因素進行判別的判斷率。 問題五的分析雖然問題二與問題三的三種判別法的有效率都在85%以上,但是兩個問題中的三種判別法的結(jié)果仍然有不小的差異,由于三種判別法均存在各自的問題,于是我們建立了一個綜合判別模型,通過三種判別方法來得到最后的判別結(jié)果。我們先將問題二與問題四的判別結(jié)果進行整理,為了簡化表格,給出如下定義:當(dāng)某個判別方法判定就診人員為健康人員時,得分加1;當(dāng)某個判別方法判定就診人員為患者時,不得分。表15問題二問題四序號元素分布馬氏距離Fisher判別綜合得分元素分布馬氏距離Fisher判別綜合得分5100000000520000000053000011025400000000550101000056000000005701120101580101010159010100006011131112610000110262000001016300000000641113111365111311136600000000671113110268111311136911131001701113111371111311137211131113730000000074011211137510010000由上表可知:有一些就診人員在三種判別法中均被判定為患者,也有一些人在三種判別方法法中,均被判定為健康人員。所以我們根據(jù)得分的高低情況可以將上述就診人員分為以下四類水平:完全健康(3分)、大概率健康(2分)、大概率患病(1分)、完全患病(0分),見下表16。表16范圍完全健康大概率健康大概率患病安全患病問題二60、64、65、67-7257、7455、58、59、7551-54、56、61-63、66、73問題四64、65、68、70-72、7453、60、61、6757、58、62、6951、52、54-56、59、63、66、73、75由于我們必須判斷出就診人員是否患病,所以我們根據(jù)大概率原則,可以判斷完全健康、大概率健康這兩種水平的就診人員為健康,而完全患病、大概率患病這兩種水平的就診人員為患病,所以我們得到以下表格:表17問題二問題四差異病例號健康患病健康患病53、57、69(差異性為12%)57、60、64、65、67-72、7451-56、58、59、61-63、66、73、7553、60、61、64、65、67、68、70-72、7451-52、54-59、62、63、66、69、73、75所以通過綜合判別法,我們使問題二與問題四的差異性降到了12%,一致率達到了88%,所以此時元素4、元素5可以較好的作為主要元素來對就診人員進行檢測。七、模型評價及推廣模型評價優(yōu)點:針對問題一,為提出一種簡便的判別方法,我們提出元素分布判別法馬氏距離判別法和Fisher判別法,并進行了準(zhǔn)確度的檢驗,得出元素分布判別法和Fisher判別法均有96%的準(zhǔn)確度,馬氏距離判別法也有90%的準(zhǔn)確度,三種判別方法的準(zhǔn)確度很高,其大致符合醫(yī)院的實際情況,而且施行相對簡便準(zhǔn)確。針對問題二,在問題一的條件下可將就診人員的化驗結(jié)果用元素分布判別法馬氏距離判別法和Fisher判別法分別進行判別,從而得出結(jié)果,具有良好的通用性和實用性。針對問題三,我們運用Excel圖表功能對7種元素分別繪制折線圖進行對比,初步判定元素4與元素5是影響人們患疾病G的主要因素,然后三種判別模型進行檢驗,得到的判別準(zhǔn)確率均在85%以上,方法簡便且效率高。針對問題四和問題五,已知問題四中得到的兩個主要因素的判斷結(jié)果與問題二的判斷結(jié)果差異性大,而且這三種判別方法均有各自的缺點,于是我們建立了一個綜合判別模型,通過三種判別方法來得到最后的較好判別結(jié)果,判別方法進行組合,優(yōu)勢互補,判斷準(zhǔn)確性高缺點:由于題中所給數(shù)據(jù)相對較少,且化驗元素種類也較少,對有一定影響,以至元素分布判別法馬氏距離判別法和Fisher判別法所得結(jié)果與實際有差別。模型推廣多種判別方法相結(jié)合的綜合判別法不僅可以用于對某種疾病的診斷,而且可以用于在經(jīng)濟學(xué)中根據(jù)人均國民收入、人均工農(nóng)業(yè)產(chǎn)值、人均消費水平等指標(biāo)判斷一個國家的經(jīng)濟發(fā)展程度。多種判別方法相結(jié)合的綜合判別法的結(jié)合可以處理有較大量的數(shù)據(jù)資料,且機理不甚清楚的問題,并能夠進行有效的分析和提煉出關(guān)鍵因素,從而找到內(nèi)在規(guī)律,對問題做出科學(xué)判斷。八、參考文獻[1]卓金武,MATLAB在數(shù)學(xué)建模中的應(yīng)用,北京:北京航空航天大學(xué)出版社,2010[2]茆詩松 程依明 濮曉龍,概率論與數(shù)理統(tǒng)計,北京:高等教育出版社,2004[3]姜啟源謝金星數(shù)學(xué)模型,北京:高等教育出版社,2003[4]邰淑彩,應(yīng)用數(shù)理統(tǒng)計,武漢:武漢大學(xué)出版社,2005[5] 韓中庚,數(shù)學(xué)建模方法及其應(yīng)用,北京:高等教育出版社,2005九、附錄MATLAB代碼1:W檢驗程序%%健康人員的元素1數(shù)據(jù)A=[ 17 27 31 35 36 37 86 ];b=0;n=length(A);forp=1:nb=b+A(p);endb=b/n;%%另一組正態(tài)性檢驗統(tǒng)計量W的系數(shù)數(shù)值表,a=[];a=[];s=0;fork=1:n/2d(k)=A(n-k)-A(k);s=s+a(k)*(A(k)-A(n-k+1));endm=0;fori=1:nm=m+(A(i)-b)*(A(i)-b);end%%W檢驗的計算結(jié)果w=s*s/mMATLAB代碼2:馬氏距離判別法程序clcclear%%矩陣A、B是已知病例的數(shù)據(jù),X是就診人員的數(shù)據(jù)A=[166 700 112 179 513;185 701 125 184 427;193 541 163 128 642;159 896 239 726;226 606 152 218;171 307 187 257;201 551 101 141;147 659 102 154 680;172 551 318;156 639 107 103 552;132 578 1314 1372;182 767 111 264 672;186 958 233 347;162 625 108 465;150 627 140 179 639;159 612 190 390;117 988 136 572;181 1437 184 101 542;146 1232 128 150 1092; 629 439 888; 370 454 852;154 621 105 160 723;179 1139 150 218; 135 182;175 807 123 126;];B=[213 2220 249 168;170 1285 226 330;162 1521 166 133;203 1544 162 394;167 2278 212 134;164 2993 197 ;167 2056 260 237;158 1025 101 ;133 1633 401 180 899;156 135 322 6747 1090 228 810;169 308 1068 289;247 2554 241 373;166 1233 252 134 649;209 2157 288 219;182 3870 432 143 367;235 1806 166 188;173 2497 295 287;151 2031 403 182 874;191 5361 392 137 688;223 3603 353 479;221 155 3172 368 150 739;217 2343 373 110 494;164 2212 281 153 549;173 1624 216 103 257;202 3785 225 ;];X=[166 700 112 179 513;185 701 125 184 427;193 541 163 128 642;159 896 239 726;226 606 152 218;171 307 187 257;201 551 101 141;147 659 102 154 680;172 551 318;156 639 107 103 552;132 578 1314 1372;182 767 111 264 672;186 958 233 347;162 625 108 465;150 627 140 179 639;159 612 190 390;117 988 136 572;181 1437 184 101 542;146 1232 128 150 1092; 629 439 888; 370 454 852;154 621 105 160 723;179 1139 150 218; 135 182;175 807 123 126];Ca=cov(A);Cb=cov(B);CA=inv(Ca);CB=inv(Cb);Ua=sum(A)./25;Ub=sum(B)./24;fori=1:25Xa=X(i,:)-U

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論