




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、精品文檔精品文檔乳腺癌的數(shù)據(jù)處理摘要本文解決的是乳腺腫瘤的“良”“惡”性判別問題。現(xiàn)在是通過乳腺腫瘤的9項指標(biāo)來判定乳腺腫瘤患者是否患有乳腺癌,我們通過運用Logistic回歸分析 判定模型和費歇爾(Fisher)判別模型,對9項指標(biāo)進(jìn)行綜合判定、分析,最終 制定了一個科學(xué)的乳腺腫瘤的判別方法,以便人們能及早發(fā)現(xiàn)并且治療。對于問題一:我們建立了兩種模型一一Logistic回歸分析判定模型和費歇爾(Fisher)判別模型。對于Logistic回歸模型,我們對數(shù)據(jù)進(jìn)行分析并運用MATLAB軟件求出回歸系數(shù),再由Logistic回歸方程求出概率p,進(jìn)而與概率 值0.5進(jìn)行判斷,小于0.5則為良性,反
2、之,則為惡性,最終得出正確率為85%的判定方法。對于費歇爾(Fisher)判別模型,我們借助方差分析的思想構(gòu)造判 定函數(shù),通過樣本SPSS軟件對數(shù)據(jù)進(jìn)行分析得出判定系數(shù)Ci,接著求出臨界值y。,最終把要檢驗的樣本數(shù)據(jù)代入判定函數(shù)求出y值,將y值與臨界值y。進(jìn)行比較,從而確定腫瘤性質(zhì),最終得出正確率為95%的判別方法。對于問題二:由第一問得出模型二費歇爾(Fisher)判別模型正確率更高, 所以可以根據(jù)費歇爾(Fisher)判別方法來判斷所給組是良性還是惡性,先將各 組數(shù)據(jù)直接代入模型二中求出的判定公式中,求得各組相應(yīng)的y值,通過與yo進(jìn)行比較,來判斷腫瘤患者是為良性還是惡性。最終判定結(jié)果如下表
3、:編號12345678910檢測結(jié)果1011010101編號11121314151617181920檢測結(jié)果0100100000(注:檢測結(jié)果“T代表腫瘤為惡性,“0”代表腫瘤為良性)對于問題三:為區(qū)分腫瘤是良性還是惡性的主要指標(biāo),我們根據(jù)Fisher模型, 求出系數(shù) c 和良性、惡性腫瘤中各項指標(biāo)的均值 x、x,最終求出指標(biāo)剔除判(+、定數(shù)組 c.*ax),剔除當(dāng)中絕對值最小的一個,依次類推,得到剔除的先后 2順序,并求出相應(yīng)的檢驗準(zhǔn)確率,選擇高準(zhǔn)確率情況下指標(biāo)剔除較多的一組,最 終得出區(qū)分腫瘤是良性還是惡性的主要指標(biāo)為: 乳腺腫瘤腫塊的厚度、單層上皮 細(xì)胞的大小、裸核、正常的核仁。關(guān)鍵詞:
4、logisticlogistic 判別法費歇爾判別法BPBP 神經(jīng)網(wǎng)絡(luò)SPSSSPSS精品文檔精品文檔一、問題重述問題背景 : 如今,癌癥越來越多,發(fā)病率越來越高,不斷威脅著人們的生命安全,其中 乳腺癌就是其中一種嚴(yán)重威脅女性生命的癌癥之一, 全世界每年約有120萬婦女 患乳腺癌,50萬人死于乳腺癌,乳腺癌已經(jīng)成為全球女性發(fā)病率最高的惡性腫 瘤。下面是某醫(yī)院乳腺腫瘤患者的一組數(shù)據(jù)(具體數(shù)據(jù)見附錄) ,其中前面9個 指標(biāo)分別表示乳腺腫瘤腫塊的厚度、細(xì)胞大小的均勻性、 細(xì)胞形狀的均勻性、 邊緣的粘連、單層上皮細(xì)胞的大小、裸核、溫和的染色質(zhì)、正常的核仁、有絲分 裂,尾數(shù)0表示確診為“良性”,1表示確
5、診為“惡性”,數(shù)據(jù)已經(jīng)歸一化為0到10之間的自然數(shù)。所要解決的問題如下:問題一、通過以上數(shù)據(jù), 建立一種或多種判別方法, 用來判斷乳腺腫瘤是屬于 “良 性”還是 “惡性”,并檢驗這些方法的正確性。問題二、現(xiàn)有一組乳腺腫瘤患者的九個指標(biāo)數(shù)據(jù)如下, 根據(jù)問題一中提出的方法 分別判別屬于“良性”還是“惡性”1,1,1,1,1,1,1,3,13,4,4,10,5,1,3,3,14,2,3,5,3,8,7,6,15,1,1,3,2,1,1,1,1問題三、試確定區(qū)分乳腺腫瘤是“良性”還是“惡性”的主要指標(biāo),并采用主要 指標(biāo)建立區(qū)分“良性”和“惡性” 乳腺腫瘤的模型,以便用于乳腺腫 瘤的輔助診斷時可以減少化
6、驗的指標(biāo)。10, 4,7,2,2,8,6,1,15,2,2,2,2,1,2,2,18,6,7,3,3,10,3,4,26,5,5,8,4,10,3,4,11,1,1,1,1,1,2,1,110,3,3,1,2,10,7,6,12,1,1,1,2,1,1,1,17,6,4,8,10,10,9,5,35,1,1,1,2,1,3,1,2,5,4,6,6,4,10,4,3,11,1,1,1,2,1,1,1,11,1,1,1,2,1,3,1,18,5,5,5,2,10,4,3,11,1,1,1,2,1,3,1,11,1,1,1,2,1,1,1,11,1,1,1,2,1,1,1,1精品文檔精品文檔假設(shè)1:
7、各種指標(biāo)對腫瘤的影響是相對獨立的。假設(shè)2:9個指標(biāo)中的數(shù)據(jù)都是0-10之間的自然數(shù)。假設(shè)3:腫瘤只有良性和惡性兩種情況。假設(shè)4:每組數(shù)據(jù)獨立作用互不影響。假設(shè)5:數(shù)據(jù)缺失組對判定無影響。假設(shè)6:除了9中指標(biāo)的影響外,不考慮其他因素的影響三、符號說明符號符號說明p經(jīng)logistic轉(zhuǎn)換后腫瘤為惡性的判定概率q腫瘤為惡性的概率生回歸系數(shù)(k =1,2,39)Xk患者體內(nèi)第k種指標(biāo)的大小Ci判定系數(shù)(i =1,2,3.9)G良性患者的總體G2惡性患者的總體T)yi第i組良性的判定函數(shù)一yi第i組惡性的判定函數(shù)ycFisher判定臨界值四、問題分析本文研究的是乳腺癌是良性還是惡性的判定方法以及影響乳腺
8、腫瘤是良性 還是惡性的主要因素的問題。通過題中乳腺腫瘤腫塊的厚度、細(xì)胞大小的均勻性、 細(xì)胞形狀的均勻性、邊緣的粘連、單層上皮細(xì)胞的大小、裸核、溫和的染色質(zhì)、 正常的核仁、有絲分裂這9個指標(biāo)的數(shù)據(jù)分析,來判斷是良性還是惡性。針對問題一:為了更好的判定乳腺癌是良性還是惡性,我們建立了兩種模 型Logistic回歸分析判定模型和費歇爾(Fisher)判別模型。我們先運用模型假設(shè)精品文檔精品文檔Logistic回歸分析方法對數(shù)據(jù)進(jìn)行分析并求出回歸系數(shù),再由Logistic回歸方程求精品文檔精品文檔出概率p,進(jìn)而與概率值0.5進(jìn)行判斷,小于0.5則為良性,反之,則為惡性。接著, 我們運用費歇爾(Fish
9、er)判別模型,借助方差分析的思想構(gòu)造判定函數(shù):y =CiXiC2X2 -. CnjXn 1- CnXn,然后代入樣本數(shù)據(jù)對其進(jìn)行求解得出判定系數(shù)Ci,接著求出臨界值 yo,最終把要檢驗的樣本數(shù)據(jù)代入判定函數(shù)求出y值,將y值與臨界值 yo進(jìn)行比較,從而確定腫瘤性質(zhì)。針對問題二:因為模型二費歇爾(Fisher)判別模型正確率更高,所以可以 根據(jù)問題一中模型二費歇爾(Fisher)判別模型來判斷所給組是良性還是惡性, 先將各組數(shù)據(jù)直接代入模型二中求出的判定公式中,求得各組相應(yīng)的y值,通過與 yo進(jìn)行比較,來判斷腫瘤患者是為良性還是惡性。針對問題三:要區(qū)分腫瘤是良性還是惡性的主要指標(biāo), 可以先弄清楚
10、哪些指 標(biāo)可以剔除,剔除的先后順序,因此我們可以根據(jù)Fisher模型,求出系數(shù) c 和良 性、惡性腫瘤中各項指標(biāo)的均值 X、X,再求出 C.*住 D,進(jìn)而剔除出當(dāng)2中絕對值最小的一個,依次類推,得到剔除的先后順序,并求出相應(yīng)的檢驗準(zhǔn)確 率,從而得到區(qū)分腫瘤是良性還是惡性的主要指標(biāo)。五、模型的建立問題(一)1.模型一的建立1.1 Logistic回歸分析判定模型的建立1.1.1確定目標(biāo)函數(shù)在分析乳腺腫瘤患者體內(nèi)乳腺腫瘤腫塊的厚度、細(xì)胞大小的均勻性、細(xì)胞形 狀的均勻性、邊緣的粘連、單層上皮細(xì)胞的大小、裸核、溫和的染色質(zhì)、正常的 核仁、有絲分裂9個指標(biāo)的基礎(chǔ)上,將其腫瘤分為良性和惡性兩種情況。對任一
11、患者定義隨機(jī)變量丫。若該患者腫瘤為良性,則丫= 0;否則,丫= 1。并以q =PY=1表示該患者腫瘤屬惡性的概率。設(shè) Xk(k=1,2,3.9)為患者體內(nèi)第k種指標(biāo)的大小,則可將q看做自變量 Xk的線性函數(shù):q =PY = 1=Bo+ 0X 古 B X2t0kXk引入p的Logistic變換得:q7可得Logistic回歸方程為:eqe-X八乂?. (1)精品文檔精品文檔P(2)在知道乳腺腫瘤腫塊的厚度等9個指標(biāo)的大小之后,只要根據(jù)Logistic回歸分析 模型計算出其良性的概率,再與概率值0.5進(jìn)行判斷,以確定患者腫瘤是否良性。若 p ::: 0.5,則表示該患者腫瘤為良性;反之,則為惡性。
12、.2 確定約束條件i.i. 因為 q=PY“表示該患者腫瘤屬惡性的概率,所以有:q 二 PY (0,1)ii.ii. 因為p也是表示的概率,所以有:0:p : 11.1.3綜上所述,得到問題一的最優(yōu)化模型:q =PY =1=氏 + B X 郴 X .2+?kXkq =1 n(廠)1-pJ丿祁X祁X2.習(xí)Xkee、p=q二PY =1 (0,1)s.t0:p : 11.2 Logistic回歸分析判定模型的求解采用某醫(yī)院檢測的42組良性腫瘤患者和38組惡性腫瘤患者(見下表),選 取樣本60人(良性患者130號,惡性患者130號),將樣本60人的9個指 標(biāo)直接輸入matlab軟件,應(yīng)
13、用regress函數(shù)求出回歸系數(shù) 訂,、訂,如表三 所示。表一:良性患者指標(biāo)第 1 項第 2 項第 3 項第 4 項 第 5 項 第 6 項第 7項第 8 項第 9 項腫瘤性編號指標(biāo)指標(biāo)指標(biāo)指標(biāo)指標(biāo)指標(biāo)指標(biāo)指標(biāo)指標(biāo)質(zhì)1511121cV1/02311122c31/03411321cV1/04011412121/041311123cV1/04222211171/0精品文檔精品文檔表二:惡性患者指標(biāo)第 1 項第 2 項第 3 項第 4 項第 5 項第 6 項第 7 項第 8 項第 9 項腫瘤性編號指標(biāo)指標(biāo)指標(biāo)指標(biāo)指標(biāo)指標(biāo)指標(biāo)指標(biāo)指標(biāo)質(zhì)15333234412875107955J4 1310776410
14、412: 13691010110831378383498C8: 1381064134cV23i表三:各元素回歸系數(shù)指標(biāo)常數(shù)第 1 項第 2 項第 3 項第 4 項第 5 項第 6 項第 7 項第 8 項第 9 項系數(shù)-42.370.036-0.0230.0550.0300.0110.009-0.0340.0490.038將上表中的回歸系數(shù)代入Logistic回歸方程(2)得:4/2.37 0.036X1-0.023X2O055X30030X4:0.011X50009X6-0.034X7O049X80.038X9)將剩余樣本代入上式檢驗,同時與概率值0.5比較,結(jié)果如表四、表五所示:表四:良性患
15、者驗證編號313233343536P-195.33X10-195.34X10-195.24X10?-195.28X10-194.62X10良性VVVVV編號373839404142P-194.97X10-181.07X10-194.50X10-195.46X10-194.88X10-194.13X10良性VVVVVV注:表中“?”表示數(shù)據(jù)出現(xiàn)缺失,無法進(jìn)行判斷表五:惡性患者驗證編號3132333435363738P10.998?-181.07X100.9878111惡性VVXVVVV注:表中“?”表示數(shù)據(jù)出現(xiàn)缺失,無法進(jìn)行判斷1.3LogisticLogistic 回歸分析判定模型的結(jié)果分析通
16、過對表四與表五的觀察發(fā)現(xiàn):在對表四中良性患者的驗證中,包括未判斷 的數(shù)據(jù)缺失者,正確率高達(dá)91.67%;在對表五中惡性患者的驗證中,包括未判斷的數(shù)據(jù)缺失者,正確率達(dá)75%所以,在整體驗證中,包括未判斷的數(shù)據(jù)缺失 者,正確率達(dá)85%由此表明,本文中的Logistic回歸分析判定模型是可行的。精品文檔精品文檔2.模型二的建立2.12.1 費歇爾(FisherFisher)判別模型的建立.1 確定目標(biāo)函數(shù)費歇爾 (Fisher) 判別法的思想: 利用選取的30組“良性”指標(biāo)數(shù)據(jù)與30組“惡性”指標(biāo)數(shù)據(jù),借助方差分析的思想構(gòu)造判定函數(shù):其中,系數(shù) CC2,C9確定的原則是使兩組間的區(qū)別
17、最大,而使每個組內(nèi) 部的離差最小 將屬于不同總體的樣本代入判別函數(shù)得:%“人 C2X2|l( C9X9,(i =1,|1(,30)yi二CNC2X2QX9,(i =1,|1(,30).2 費歇爾(FisherFisher)判別模型的求解根據(jù)判定函數(shù),代入剩下的20組指標(biāo)數(shù)據(jù),將求得的y值與判定臨界值進(jìn)行比較,從而判定乳腺腫瘤是良性還是惡性。我們運用SPSS軟件:進(jìn)行Fisher判定求得判別式函數(shù)系數(shù)以及樣本數(shù)據(jù)各 項指標(biāo)的均值:表六:Fisher 判別式函數(shù)系數(shù)指標(biāo)第 1 指標(biāo) 第 2 指標(biāo) 第 3 指標(biāo) 第 4 指標(biāo) 第 5 指標(biāo) 第 6 指標(biāo) 第 7 指標(biāo) 第 8 指標(biāo) 第
18、 9 指標(biāo)系數(shù)0.527-0.4830.5830.2300.1970.2430.1000.4700.419所以將上述系數(shù)代入Fisher判別式得:y =0.527*x1-0.483*x2+0.583*x3+0.230*X4 0.197*X5+0.243*X6+0.100* X7 0.470* x8 0.419*x9表七:為惡性、良性腫瘤中各項指標(biāo)均值指標(biāo)-一一_ 二_k四r五六七八九惡性7.33 :5.575.534.53:5.435.67 1良性2.801.501.401.272.101.872.671.301.17通過對乳腺腫瘤患者中良性與惡性的各項指標(biāo)的平均值進(jìn)行
19、統(tǒng)計計算 (見上 表),求得良性腫瘤的“重心”y)和惡性腫瘤的“重心”y(2),利用SPSS軟 件對數(shù)據(jù)進(jìn)行處理后得:9第一組樣品的“重心”丁八c_x= 4.0 9 2 5kzfcy 7 人沁.Cn/Xnd訥(n - 9)(3)精品文檔精品文檔為建立判定準(zhǔn)則,確定判定臨界值y,我們?nèi)o為 y1與產(chǎn)加權(quán)平均值:n2通過計算得:y0=7.9819將檢測者的各項指標(biāo)的值x(劉,,xj,代入(3)式中,求得y的值(1)當(dāng) y f ) y(2)時,若 y yo,則判定 x 己 G?;若 y v yo,則判定 X 乏 G1(2)當(dāng) y0)c y ?)時,若 yy,貝 U 判定 x 乏 G1;若 y c
20、yo,貝 U 判定 x 乏 G?根據(jù)Fisher模型的判定函數(shù),代入剩下的20組指標(biāo)數(shù)據(jù),將求得的y值與 判定臨界值進(jìn)行比較,從而判定乳腺腫瘤是良性還是惡性。通過對Fisher判定模型的計算,得到結(jié)果如下:表 Fisher 判定模型結(jié)果顯示良性患者的判定樣本號313233343536y 值4.6913.6494.22(11.89,14.08)4.7242.583檢測正確YYYNYY樣本號373839404142y 值4.2645.8573.9834.3324.2233.513檢測正確YYYYYY注:表中“ Y ”表示檢測正確,“ N”表示檢測錯誤。 惡性患者的判定樣本號313233343536
21、3738y 值15.5212.26(8.35,10.54)8.6512.0912.0219.488.99檢測正確YYYYYYYY注:表中 y 值為區(qū)間的組為數(shù)據(jù)缺失組,其缺失項分別用0 到 10 來代替,以求出 y 值范圍,將范圍內(nèi)的極值與y比較,最終求得結(jié)果。.3 結(jié)果分析通過對上述兩表的觀察知:在良性患者的驗證中,包括數(shù)據(jù)缺失者,正確率 高達(dá)91.67%;在惡性患者的驗證中,包括數(shù)據(jù)缺失者,正確率達(dá)100%。所以,在整體驗證中,包括數(shù)據(jù)缺失者,正確率達(dá)95%。由此表明,本文中的費歇爾(Fisher)判別模型是可行的。通過對模型一和模型二最終結(jié)果的正確率進(jìn)行比較知:模型二的正
22、確率較 高,故應(yīng)選取模型二來進(jìn)行問題二和問題三的解答。第二組樣品的“重心”y(2=Z CkXk= 1 1 . 87 1 3k丄厲y(1)n2y(1)精品文檔精品文檔問題(二)經(jīng)過比較分析知模型二的正確率較高,故此處用模型二進(jìn)行解答。由模型二知判定函數(shù)為:y =0.527*x1-0.483*x2+0.583*x3+0.230* x4 0.197*x5+0.243*x6+0.100* x7 0.470* x8 0.419*x9則根據(jù)所給數(shù)據(jù)可求得各組數(shù)據(jù)相對應(yīng)的y值,再與臨界值7.9819進(jìn)行比較:若 y yo,則判定 x G!;若y .yo,則判定 x G?故通過Matlab軟件可得出對20組患
23、者檢測結(jié)果如下表:編號12345678910檢測結(jié)果1011010101編號11121314151617181920檢測結(jié)果0100100000注:檢測結(jié)果中“ T 表示惡性,“ 0”表示良性由上表知:第1、3、4、6、&10、12、15組為惡性腫瘤患者,其他的為良性患 者。問題(三)3.由Fisher模型知:c =0.527;-0.483;0.583;0.230;0.197;0.243;0.100;0.470;0.419良性、惡性腫瘤中各項指標(biāo)的均值分別為:x(1)=2.80;1.50;1.40;1.27;2.10;187;2.67;130;1.17x二7.33;5.57;5.53;
24、4.53;5.43;5.63;5.10;5.20;2.47由Matlab軟件處理得:(尹孑)C.*( 2.6693 -1.7074 2.0201 0.6670 0.7417 0.9113 0.3885 1.52752(.*是matlab中的符號,是對應(yīng)項相乘,結(jié)果仍然為向量),比較各項的大小,剔除絕對值最小的項(因為該項數(shù)據(jù)對總的結(jié)果的平均影響最?。梢阎獢?shù)據(jù)可知首先應(yīng)該剔除倒數(shù)第三項,即第七項指標(biāo)所對應(yīng)的所有數(shù)據(jù),再按照問題一 的求解方法求解得:c =0.519 -0.458 0.606 0.243 0.202 0.233 0.494 0.427良性、惡性腫瘤中各項指標(biāo)的均值分別為:x(1
25、)=2.80;1.50;140;1.27;2.10;187;1.30;1.17x二7.33;5.57;5.53;4.53;5.43;5.63;5.20;2.47同理:由Matlab軟件處理得:0.7626)精品文檔精品文檔故應(yīng)該剔除第四項指標(biāo)在此我將逐次減少化驗的指標(biāo)(方法同上),并將其求解結(jié)果列表如下:剔除指標(biāo)判別式 y=臨界值準(zhǔn)確率對原檢驗樣 本20 人的 判斷結(jié)果第七指標(biāo)0.519*x1-0.458*x2+0.606*x3+0.243*x4+0.202*x5+0.233*x6+0.494*x8+0.427*x97.7895%9 人惡性11 人良性第四指標(biāo)0.556*x1-0.369*x2
26、+0.497*x3+0.281*x5+0.330*x6+0.480*x8+0.408*x97.8395%9 人惡性11 人良性第九指標(biāo)0.646*x1-0.108*x2+0.188*x3+0.377*x5+0.325*x6+0.395*x87.4695%9 人惡性11 人良性第二指標(biāo)0.639*x1+0.115*x3+0.351*x5+0.328*x6+0.382*x87.4395%9 人惡性11 人良性第三指標(biāo)0.682*x1+0.372*x5+0.348*x6+0.412*x87.5095%9 人惡性11 人良性第八指標(biāo)0.667*x1+0.447*x5+0.491*x86.6690%10
27、 人惡性10 人良性第八指標(biāo)0.807*x1+0.603*x56.3690%11 人惡性9 人良性由表中結(jié)果可知:剔除第三項指標(biāo)之后,檢驗準(zhǔn)確率仍然在95%,而剔除第六項指標(biāo)后,檢驗準(zhǔn)確率降為90%,所以剔除的前四項均為次要指標(biāo),從第六項 開始是主要指標(biāo),所以區(qū)分腫瘤是良性還是惡性的主要指標(biāo)是第一、五、六、八 指標(biāo),即是乳腺腫瘤腫塊的厚度、 單層上皮細(xì)胞的大小、 裸核、 正常的核仁, 故 可由判斷式 y =0.667* x1 0.447*x5 0.491* x8 來判斷。六、誤差分析本文主要有三方面的誤差,分別為題中模型的誤差、數(shù)據(jù)的誤差、算法的誤 差。1.模型一的誤差:(1)logistic
28、模型中樣本僅有60組數(shù)據(jù),這對于求解模型中的回歸系數(shù)而 言,數(shù)據(jù)過少,可能會使回歸系數(shù)產(chǎn)生較大的誤差,從而影響最終的判定結(jié)果。(2)logistic模型檢驗時,是用所得概率值與0.5進(jìn)行比較,以判定腫瘤性 質(zhì),此處的0.5有一定的不合理性,可能會在最終判定結(jié)果時造成一定的誤差。(3)logistic模型對數(shù)據(jù)缺失項不能進(jìn)行有效的判定,這就降低了其檢驗的 準(zhǔn)確率,在進(jìn)行這種判定時會產(chǎn)生一定的誤差。2.模型二的誤差:(1)fisher模型是一系列判定變量的線性組合,它只適用于區(qū)分和判定線 性可分的總體。對于非線性判定模型有較大的誤差和局限性。(2)fisher模型要求有足夠多的樣本數(shù)據(jù)時,才能最大
29、限度的保證其算法 精度,c.*理亠72-1.61902.09980.70470.76050.87381.60550.7771)精品文檔精品文檔但是本題中只有六十組數(shù)據(jù), 這對于求解判定系數(shù)及臨界值時均會產(chǎn)生一 定的誤差。3數(shù)據(jù)的誤差: 主要是數(shù)據(jù)的準(zhǔn)確性以及有幾組數(shù)據(jù)的缺失,數(shù)據(jù)的缺失使在某些模型中這些組無法進(jìn)行計算,而總體又保持不變,這就相應(yīng)的產(chǎn)生了一些誤差。4算法的誤差: 本文雖然采用了兩個模型,但是兩個模型主要都是用來求解線性問題的,對于本題中指標(biāo)之間的交叉影響不能很好的處理,可能會對結(jié)果產(chǎn)生一定的誤 差。七、模型的評價模型的優(yōu)點:1.模型的實用性和通用性強(qiáng)并且與實際生活緊密相關(guān), 對醫(yī)
30、生的判斷具有很 大的指導(dǎo)意義。尤其在第三問中區(qū)分腫瘤是良性還是惡性的關(guān)鍵因素的方法比較 簡單易行。2.本文采用了兩種判別分析方法來檢查腫瘤是惡性還是良性,并得到了影響其的主要因素,為合理的診斷提供了一個很好的解決方案。3求解的過程中采用Matlab、Excel、SPSS數(shù)學(xué)軟件編程求解,計算過程方 便快捷,且結(jié)果準(zhǔn)確。4.由于建模過程中使用的六十組樣本數(shù)據(jù)與檢驗時所用的二十組數(shù)據(jù)不重 復(fù),有效地避免了數(shù)據(jù)間的相互影響, 彼此獨立, 因而檢驗結(jié)果具有很強(qiáng)的可靠 性。模型的缺點:1.在診斷過程中并沒有綜合考慮所有的因素共同的影響,這與現(xiàn)實生活不 符。如果綜合考慮,將會更具有實用價值。2.本文中模型
31、對就診者判斷的正確率沒有達(dá)到100%,存在誤差,這種誤差會導(dǎo)致誤判,而在現(xiàn)實中這是很危險的。3.在第一問中的模型中只考慮某一種元素單獨對結(jié)果的影響,其間存在著交叉項。八、模型的改進(jìn)和推廣模型的改進(jìn):1.本文中所用的兩個模型對就診者判斷的正確率都沒有達(dá)到100%,方法都 很傳統(tǒng),存在著誤差,我們可以采用BP神經(jīng)網(wǎng)絡(luò)模型。其思想是:通過輸入學(xué) 習(xí)樣本,使用反向傳播算法對網(wǎng)絡(luò)的權(quán)值和偏差進(jìn)行反復(fù)的調(diào)整訓(xùn)練,使 輸出的向量與期望向量盡可能地接近,當(dāng)網(wǎng)絡(luò)輸出層的誤差平方和小于指 定的誤差時訓(xùn)練完成,保存網(wǎng)絡(luò)的權(quán)值和偏差,從而使判斷的正確率提高。 其算法流程圖如下:精品文檔精品文檔初始化給定輸出向量和目標(biāo)
32、輸出求隱層,輸出層的各單元輸出求目標(biāo)值與輸出值得誤差 EE 滿足要求丫ES全部 E 滿足丫ES結(jié)束NO上計算隱層單元誤差*- NO1求誤差梯度權(quán)值學(xué)習(xí)圖一:學(xué)習(xí)算法框圖由于本題中有9項指標(biāo),故分析可得其指標(biāo)與各層之間的關(guān)系,作出具體BP神經(jīng)網(wǎng)絡(luò)示意圖如下所示:輸入層隱層輸出層圖二:BP 神經(jīng)網(wǎng)絡(luò)示意圖綜上,可得BP神經(jīng)網(wǎng)絡(luò)模型大致步驟如下:1)能量函數(shù)選取1n平方型誤差函數(shù)為 E 二丄 a (Yk-Y? )22 心2)隱層數(shù)取1,隱層單元數(shù)取93)傳輸函數(shù)選取logsig型函數(shù)通過matlab軟件應(yīng)用上述函數(shù),最終可對數(shù)據(jù)進(jìn)行判定檢驗。精品文檔精品文檔2.在診斷過程中這9個指標(biāo)的作用不是獨立的
33、,應(yīng)該存在著相互的影響, 有交叉項,而模型只考慮了各自單獨作用,所以模型中應(yīng)該添加交叉項的影響,即采用一次項和交叉項的回歸模型,具體的我們可以從模型總體中選取良性1-30號、惡性1-30號作為研究樣本,故可設(shè)多元線性回歸模型的一般形式為:9999?=氏+瓦?Xi+區(qū) c?x2+瓦無 xXj+si 4i 4i 4 j二建立相應(yīng)的模型,并將數(shù)據(jù)代入上式,用Matlab軟件求得各參數(shù)項的線性回歸系數(shù),得到多元回歸模型的表達(dá)式,再將良性中31-42號、惡性中31-38號代入模型中進(jìn)行檢驗,得到良性、惡性的相關(guān)情況。為此我們可以看出,我們所 運用的判別函數(shù)與所檢驗的結(jié)果和實際情況存在著一定的誤差,也就是
34、說運用原來的Logistic回歸分析判定模型(一次線性模型)存在一定的誤判,從而得到 誤判率。3.題中所給數(shù)據(jù)有幾個出現(xiàn)缺失,在我們模型建立與求解的過程中都將數(shù) 據(jù)缺失部分不考慮,認(rèn)為無此項,而實際上卻存在著此項的影響,觀察數(shù)據(jù)知缺 失項都為第六個指標(biāo),所以可以將第六個指標(biāo)項去掉,考慮剩下的其他指標(biāo)項。模型的推廣:在當(dāng)今經(jīng)濟(jì)科技社會,人們經(jīng)常對某一事物現(xiàn)象進(jìn)行觀察研究歸類,并用于合適的地方,例如,醫(yī)院里醫(yī)生對腎炎;非典時期對非典;還有肺炎等疾病進(jìn)行 類似的模型應(yīng)用;經(jīng)濟(jì)領(lǐng)域里某產(chǎn)品輸入與輸出是暢銷還是停滯;在科學(xué)領(lǐng)域, 某植物或動物的分類判別以及科研人員或地質(zhì)學(xué)家對某地質(zhì)土壤的判別;考古學(xué)家對
35、墓年代的判別等都用到了此類判別式分析法的模型,應(yīng)用十分的廣泛。九、參考文獻(xiàn)1宣明數(shù)學(xué)建模與數(shù)學(xué)實驗,浙江浙江大學(xué)出版社20102謝金星優(yōu)化建模與LINDO/LINGO軟件,北京清華大學(xué)出版社20053宋來忠數(shù)學(xué)建模與實驗,北京科學(xué)出版社20054朱道元數(shù)學(xué)建模案例精選,北京科學(xué)出版社2003彭祖贈數(shù)學(xué)模型與實驗方法,大連大連海事大學(xué)出版社1997劉愛玉SPSS基礎(chǔ)教程,上海上海人民出版社2007附錄附表一:良性患者指標(biāo)第 1 項第 2 項第 3 項第 4 項第 5 項第 6 項第 7 項第 8 項第 9 項腫瘤性編號指標(biāo)指標(biāo)指標(biāo)指標(biāo)指標(biāo)指標(biāo)指標(biāo)指標(biāo)指標(biāo)質(zhì)1511121cV10精品文檔精品文檔2
36、311122c1/03411321c1/04111121031/05211121115. 06111111c1/0741112121/0831112121/0911112131/01032111121/01121112121/01231111121/01321122131/01421112121/01562111171/016111121212: 01711112121/01811112221/019111121c321020112122彳2102153122121/02221113121/0235445710c321024688134c71025212121c1/02642112121/02
37、721112121/028111123c1/029411121c31/030611121c1/03151112121/03211312111/03331212121/03466696?78/03541132131/03611112121/03741112131/03851312121/03913322172104011412121/04131112331/04222211171/0附表二:惡性患者指標(biāo)精品文檔精品文檔編號項1標(biāo)第指第 2 項指標(biāo)第 3 項指標(biāo)第 4 項指標(biāo)第 5 項指標(biāo)第 6 項指標(biāo)第指第 8 項指標(biāo)第 9 項指標(biāo)腫瘤性質(zhì)1533323441287510795J5J413107
38、76410412:441525336775/16104313V65J2: 175656101c31/18787248cV82: 19533424cV411055581087371111066345cV61128241515j441139552225J1114634152cVcJ*11510421324J1011653418104cJ*11761028102781(1189451061048/119810108710cJ7112074646143/1211055367710/12281010136cVcJ*123523427cV612410773857i25101010
39、8618cJ23i問題二答案:精品文檔精品文檔編|第1|第2丨第3|第4|第5|第6|第7丨第8|第9丨腫編第1第2第3第4第5第6第7第8第9腫精品文檔精品文檔號項指標(biāo)項指標(biāo)項指標(biāo)項指標(biāo)項指標(biāo)項指標(biāo)項指標(biāo)項指標(biāo)項指標(biāo)瘤 性質(zhì)1。14722861112522221221O386733134115111111211O6O13312O176117211121111O87648O1O195319111111131OO142353876111511121312O254664O143113111121111O41111121311O5185552O143116111112131
40、1O71111121111O8111121111O9344O151331O22511321111O程序-一(Logistic回歸 分析判定) : x =511121 31 13111223114113213111111210311211121115111111311411121211311121211111121311321111211211121211311111211211221311211121211621111711111121212精品文檔精品文檔111121211111122211精品文檔精品文檔1111213211121224215312212112111312115445710
41、321688134371212121311421121211211121211111123311411121311611121311533323441875107955410 7764104127321051054425336775110 431336525656101311787248382533424341555810873710 6634536182415154495522251163415239110 42132431053418104916102810278 10945106104818101087 1097174646143110 5536771018101013639152342
42、736110 7738574310 101086189154492105616101028 1073310 10104818101377449481958123215; 0 ?0?0?0?00;0;0精品文檔精品文檔0;0;0;0;0;0;0;0;0;00;0;0;0;0;0;0;0;0;00;1;1;1;1;1;1;1;1;11;1;1;1;1;1;1;1;1;11;1;1;1;1;1;1;1;1;11;b=regress(y,x)%regress函數(shù)為回歸分析函數(shù),可直接求出回歸系數(shù)程序二 (Fisher檢驗)function tt=jiance(x)x=51112121113121111
43、312121211411321311111121211411121311513121211133221721114121211311123311222111711103623541021055688711523161051153553341019101011083318383498981064134323;c=0.527 -0.483 0.583 0.230 0.197 0.243 0.100 0.470 0.419;%Fisher判定函數(shù)系數(shù)值row,col=size(x);for i=1:rowy=sum(c*x(i,:);%求得的觀察比較值if y=7.9819%與臨界值比較tt(i)=1;else tt(i)=0;endenddisp( 1代表惡性腫瘤,0代表良性腫瘤 )精品文檔精品文檔第二問檢測程序functiontt=jiancex= 1047228611522221221867331034265584103411111112111033121076121112111176481010953111111131423538761511121312546641043111112111111112131185552104311111213111111211111111211113441051331511321111;c=0.527 -0.483 0.58
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)藥咨詢采購合同范本
- 倉儲貨架合同范本
- 勞動合同范本醫(yī)療
- 會計臨聘用合同范本
- 展廳工程合同范本
- 出貨協(xié)議合同范本
- 義賣贊助合同范本
- 北京和杭州租房合同范本
- 勞務(wù)用工勞務(wù)合同范本
- 出售高端養(yǎng)老房合同范例
- 電子商務(wù)數(shù)據(jù)分析基礎(chǔ)(第二版) 課件 模塊1、2 電子商務(wù)數(shù)據(jù)分析概述、基礎(chǔ)數(shù)據(jù)采集
- YB-T+4190-2018工程用機(jī)編鋼絲網(wǎng)及組合體
- 高大模板安全施工施工安全保證措施
- 比亞迪公司應(yīng)收賬款管理的問題及對策分析
- 【高考真題】2024年新課標(biāo)全國Ⅱ卷高考語文真題試卷(含答案)
- 委托辦理報廢汽車協(xié)議書
- 旅游服務(wù)質(zhì)量評價體系
- 義烏市建筑工程質(zhì)量通病防治措施100條(2022版本)
- 蘇教版(SJ)《四年級下冊數(shù)學(xué)》補充習(xí)題
- 體育足球籃球排球體操教案
- 統(tǒng)編版高中政治必修3必背主觀題
評論
0/150
提交評論