




已閱讀5頁,還剩29頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
“民生杯”數(shù)學建模與計算技術應用大賽承 諾 書我們仔細閱讀了“民生杯”數(shù)學建模與計算技術應用大賽的競賽規(guī)則。我們完全明白,在競賽開始后參賽隊員不能以任何方式(包括電話、電子郵件、網(wǎng)上咨詢等)與本隊以外的任何人(包括指導教師)研究、討論與賽題有關的問題。我們知道,抄襲別人的成果是違反競賽規(guī)則的, 如果引用別人的成果或其他公開的資料(包括網(wǎng)上查到的資料),必須按照規(guī)定的參考文獻的表述方式在正文引用處和參考文獻中明確列出。我們鄭重承諾,嚴格遵守競賽規(guī)則,以保證競賽的公正、公平性。如有違反競賽規(guī)則的行為,我們愿意承擔由此引起的一切后果。我們的參賽報名號為: 15參賽組別(本科、專科或研究生): 本科參賽隊員 (簽名) :隊員1:訾海隊員2:田凱強隊員3:周金輝獲獎證書郵寄地址:北京市海淀區(qū)清華東路17號中國農(nóng)業(yè)大學 “民生杯”數(shù)學建模與計算技術應用大賽編 號 專 用 頁參賽隊伍的參賽號碼:(請各個參賽隊提前填寫好):競賽統(tǒng)一編號(由競賽組委會送至評委團前編號):競賽評閱編號(由競賽評委團評閱前進行編號):“民生杯”數(shù)學建模與計算技術應用大賽目錄摘要4一、問題分析5二、模型假設和建立52.1 模型假設及變量說明52.2 缺失數(shù)據(jù)的補充52.3 模型的建立92.3.1 第類模型:逐步回歸法92.3.1.1 單指標逐步回歸模型:102.3.1.2 多指標逐步回歸模型:132.3.2 第類模型:聚類回歸法172.3.2.1單指標聚類回歸模型202.3.2.2多指標聚類回歸模型202.3.3.1主成分分析法介紹212.3.3.1.2主成分分析數(shù)學模型212.3.3.1.3主成分分析的求解原理222.3.3.1.4 主成分分析運用的判定條件222.3.3.1.5確定主成分個數(shù)的方法232.3.3.1.6確定權重計算綜合得分232.3.3.3.2主成分的確定242.3.3.3.3計算得分系數(shù)26三、模型的評價準則29四、模型的優(yōu)缺點29五、參考文獻30六、附錄30洗衣粉去污功效研究摘要本文通過對86種產(chǎn)品的21個溶液屬性數(shù)據(jù)和18中污漬的去污能力數(shù)據(jù)進行分析,建立了三大類反映溶液屬性和去污能力之間關系的模型:一、利用逐步回歸思想,選取單個及多個指標來代表所有指標,建立了單指標模型和多指標模型;二、利用聚類分析思想對龐大數(shù)據(jù)分類,再對各類數(shù)據(jù)利用逐步回歸法,選擇單個或者多個指標,建立單指標模型和多指標模型;三、利用主成分分析思想分別提取了21個溶液屬性指標的4個主成分和18個去污功效指標的4個主成分,再運用多元統(tǒng)計分析的思想建立兩類主成分之間的關系。其中,第二類模型是對第一類模型的改進和優(yōu)化。對于前兩類模型,本文使用MATLAB軟件以及C+計算機編程進行求解。本文還提出了模型評價機制,利用該評價準則,從前兩類模型的四個模型中選出了最優(yōu)的模型:基于聚類分析思想的多指標逐步回歸模型?;貧w的結(jié)果為: Y1=-2.34X2-0.93X3-0.21X9+1.11X17+29.73 Y2=-0.0063X1+2.98X2+0.7466X8+58.76 Y3=-0.11X9-0.5X16+25.809本文還利用剩余的10組數(shù)據(jù)對模型進行了檢驗,發(fā)現(xiàn)模型效果良好。對于缺失的數(shù)據(jù),本文以補充后數(shù)據(jù)的標準差盡可能小的辦法進行補充,有些選取的是均值,有些選取的是平方項,有些選取的是交互項。關鍵字: 去污功效 洗衣粉 聚類分析 主成分分析 逐步回歸一、問題分析通過對96組產(chǎn)品進行分析,文中提供了21個衡量水溶液屬性的因子和評價洗衣粉的去污效果的18個指標。題目要求我們通過這些數(shù)據(jù)設法得到最合理描述溶液屬性和去污效果之間關系的模型。于是,我們面臨著兩大難題: 如何從這么多的屬性因子中挑選出最重要最相關的因子? 怎樣選取最有價值的去污衡量指標?通過聚類思想、主成分提取思想以及計算機編程,這兩個問題被很好的解決。在此基礎上,我們的模型也建立了起來。二、模型假設和建立2.1 模型假設及變量說明在建立模型之前,我們將做出一些假設以使問題得到簡化,并將我們文中使用的變量和符號進行說明。(1) 以前86組數(shù)據(jù)為研究樣本,后10組數(shù)據(jù)為檢驗樣本不影響原始數(shù)據(jù)的分布規(guī)律;(2) 相近的數(shù)據(jù)可以并為一類;(3) 缺失的數(shù)據(jù)可以通過某種方式補齊(4) 題目所給數(shù)據(jù)完全正確,不考慮實驗誤差和記錄錯誤表格 1 變量說明表序號變量名含義1PP1PP21溶液屬性因子2O1O18去污評價指標3118去污指標的權重4X1X18Matlab程序中對應PP1PP18的自變量5O綜合的去污評價指標2.2 缺失數(shù)據(jù)的補充 經(jīng)分析,PP02 和PP03 的缺失數(shù)據(jù)總是成對出現(xiàn)且缺失程度相同,不妨考慮用相同的方法進行研究。根據(jù)逐步回歸的思想及matlab實現(xiàn),O07、O05、O17 是對PP02 影響顯的變量。建立PP02 關于O07、O05、O17 的多元線性回歸方程 = + + + (1)利用PP02、O07、O05、O17 均完整的80 組數(shù)據(jù)求解系數(shù),可得 = =11.1,-0.14,p2=-0.026,0.067對于PP02 缺失的6 組數(shù)據(jù),利用(1) 式,即可完成預測(具體數(shù)據(jù)見附表)。經(jīng)計算可知,對于預測前PP02 完整的80 組數(shù)據(jù),其均值和標準差分別為1 1 m = -0.3456,s =1.4845對于預測后PP02 完整的86 組數(shù)據(jù),其均值和標準差分別為2 2 m = -0.3983,s =1.4461所以,用上述方法對PP02 缺失的6 組數(shù)據(jù)的預測是比較合適的。同理,知17、O01、O18 是對PP03 影響顯著的變量。建立PP03 關于O17、O01、O18 的多元線性回歸方程 利用PP03、O17、O01、O18 均完整的80 組數(shù)據(jù)求解系數(shù),可得 對于預測前PP03 完整的80 組數(shù)據(jù),其均值和標準差分別為 = 4.621.99ms = =對于預測后PP03 完整的86 組數(shù)據(jù),其均值和標準差分別為 = 4.59,1.9 =近似相等,已經(jīng)很吻合了。以下對PP04 和PP05 進行分析研究:用matlab畫出PP4PP5數(shù)據(jù):觀察圖01 可知,PP04 和PP05 之間確實是存在較好的線性關系。利用此性質(zhì),可在PP04 與PP05 之間建立一個線性回歸方程: 可得 =0.4,=0.59如何對PP05 的缺失數(shù)據(jù)做出合理預測呢?設PP05表示PP04 與PP06 的線性組合:PP04+PP06。做出其散點圖:PP05 和PP05也存在較好的線性關系。利用此性質(zhì),可在PP05 和PP05 之間建立一個線性回歸方程:Xpp5=d0+d1c0+d1Xpp61-d1c1可推導出 經(jīng)計算可知, 對于預測后PP04 完整的86 組數(shù)據(jù),其均值和標準差分別為 81.9,13.9對于預測前PP05完整的86組數(shù)據(jù),其均值和標準差分別為 139.5,23.0所以,比較合適。2.3 模型的建立2.3.1 第類模型:逐步回歸法在這里,我們認為描述溶液屬性的18個因子中,僅有有限個因子對最終的去污效果有顯著的作用。因此我們需要從18個因子中挑選出重要變量和非重要變量,而在后續(xù)的最小二乘法回歸中,我們采用的自變量便是之前挑選出來的重要變量。雖然題中給出了21個自變量PP1PP21,但是不一定每一項都對洗衣粉去污功效Y有顯著影響,考慮到各項之間或許有很強的相關性,我們挑出那些對整體Y有顯著影響的來建立回歸模型。變量選擇的標準,應該是將所有對因變量影響顯著的自變量都選入模型,而影響不顯著的自變量都不選入模型,從便于應用的角度使模型中自變量的個數(shù)盡可能小。逐步回歸就是一種從眾多自變量中有效的選擇重要變量的方法。其基本思路是,先確定一個包含若干自變量得出試劑盒,然后每次從集合外的變量中引入一個對因變量影響最大的,在對集合中的變量進行檢驗,從變得不顯著的變量中移出一個影響最小的,以此進行,直到不能引入和移出為止。引入和移出都以給定的顯著性水平為標準。下面是逐步回歸法的原理流程圖:開始添加一個新自變量到初始集合設定包含若干自變量的初始集合移出不顯著的自變量重新回歸,檢驗自變量的顯著水平,存在不顯著的變量?YN得到重要自變量集合結(jié)束在去污效果的衡量指標中,在實際生活中,有的人希望用一個值來衡量去污好壞,太多的指標讓他們無所適從;有的人希望用幾個指標來描述去污效果,這樣顯得客觀。因此我們建立了兩個子模型:單指標模型和多指標模型。2.3.1.1 單指標逐步回歸模型:首先我們將O1到O18變量進行處理,新建變量O,代表綜合的唯一的去污衡量指標。而O的數(shù)據(jù),我們通過加權平均法得到。其中上式中的各權值通過下式得到:其中是第i個去污衡量指標的第j次抽樣值。 用matlab工具箱中的逐步回歸命令stepwise求解,可以得到Stepwise Table和Stepwise Plot,如下: 根據(jù)人機交互式畫面,我們在畫面上隨意的引入與移出變量,計算機協(xié)助我們找到最終結(jié)果:當模型中僅含X1、X2、X8、X9(對應原來數(shù)據(jù)的PP1、PP2、PP8、PP9)時,其回歸系數(shù)置信區(qū)間遠離零點,說明X1、X2、X8、X9對因變量的綜合性能有顯著影響。有圖為證: 圖五前四幅圖為正面論證,圖五為反面論證,任意選取一個(除X1、X2、X8、X9以外)因變量X11,其結(jié)果仍調(diào)整為關于X1、X2、X8、X9,足見X1、X2、X8、X9對因變量影響是顯著的。此時, Intercept=68.87 R-square=0.632 F=21.04 RMSE =6.145 Adj R-sq =0.602 p=3.81e-010易求得 = 67.75利用逐步回歸,最終結(jié)果為:Y=0.00325X1-1.65X2-0.41X8+0.302X9+67.75 2.3.1.2 多指標逐步回歸模型:觀察到去污效果的18組數(shù)據(jù)中有幾組數(shù)據(jù)很接近,我們有理由認為這些去污指標中存在相關關系,并非是相互獨立的。因此通過檢驗互相關系數(shù)矩陣,我們選取相關性最小的幾個去污指標作為模型的輸出變量。我們用matlab軟件求出18個輸出變量的相關系數(shù)(即每一 列向量的相關性),如下:1.0000 0.2073 0.3364 0.7961 0.7555 0.7930 0.1923 0.2478 0.7253 0.6517 0.6250 0.6649 0.3530 0.3057 0.2211 0.1931 0.1593 0.1415 0.2073 1.0000 0.8763 0.3538 0.3548 0.2636 0.8005 0.7498 0.2951 0.4003 0.3517 0.3105 0.4999 0.5025 0.2932 0.2506 0.4252 0.3724 0.3364 0.8763 1.0000 0.5509 0.5539 0.3471 0.9095 0.8793 0.5262 0.5633 0.5368 0.5255 0.7164 0.7218 0.3510 0.3160 0.6604 0.5614 0.7961 0.3538 0.5509 1.0000 0.8314 0.6723 0.4418 0.5492 0.8772 0.7343 0.6977 0.7690 0.6596 0.6163 0.3011 0.3851 0.4717 0.4482 0.7555 0.3548 0.5539 0.8314 1.0000 0.7250 0.4773 0.4873 0.8351 0.8096 0.8202 0.8212 0.6655 0.6457 0.2701 0.2410 0.4716 0.3827 0.7930 0.2636 0.3471 0.6723 0.7250 1.0000 0.2851 0.2080 0.6085 0.5449 0.5136 0.5297 0.2828 0.2441 0.2501 -0.1193 0.1099 -0.0425 0.1923 0.8005 0.9095 0.4418 0.4773 0.2851 1.0000 0.8616 0.4692 0.4864 0.4601 0.4645 0.7904 0.7942 0.4663 0.2955 0.7363 0.6223 0.2478 0.7498 0.8793 0.5492 0.4873 0.2080 0.8616 1.0000 0.5637 0.5270 0.4983 0.5167 0.7887 0.8078 0.4159 0.4736 0.7577 0.7224 0.7253 0.2951 0.5262 0.8772 0.8351 0.6085 0.4692 0.5637 1.0000 0.8089 0.7830 0.8305 0.7300 0.6931 0.2753 0.3789 0.5772 0.5297 0.6517 0.4003 0.5633 0.7343 0.8096 0.5449 0.4864 0.5270 0.8089 1.0000 0.9510 0.9547 0.6530 0.5982 0.1003 0.2924 0.3999 0.4637 0.6250 0.3517 0.5368 0.6977 0.8202 0.5136 0.4601 0.4983 0.7830 0.9510 1.0000 0.9562 0.6500 0.6075 0.0440 0.2712 0.3740 0.4423 0.6649 0.3105 0.5255 0.7690 0.8212 0.5297 0.4645 0.5167 0.8305 0.9547 0.9562 1.0000 0.6995 0.6446 0.1146 0.2975 0.4404 0.4814 0.3530 0.4999 0.7164 0.6596 0.6655 0.2828 0.7904 0.7887 0.7300 0.6530 0.6500 0.6995 1.0000 0.9769 0.4870 0.5297 0.8444 0.8059 0.3057 0.5025 0.7218 0.6163 0.6457 0.2441 0.7942 0.8078 0.6931 0.5982 0.6075 0.6446 0.9769 1.0000 0.4903 0.5105 0.8769 0.8139 0.2211 0.2932 0.3510 0.3011 0.2701 0.2501 0.4663 0.4159 0.2753 0.1003 0.0440 0.1146 0.4870 0.4903 1.0000 0.4034 0.5311 0.4375 0.1931 0.2506 0.3160 0.3851 0.2410 -0.1193 0.2955 0.4736 0.3789 0.2924 0.2712 0.2975 0.5297 0.5105 0.4034 1.0000 0.4107 0.6901 0.1593 0.4252 0.6604 0.4717 0.4716 0.1099 0.7363 0.7577 0.5772 0.3999 0.3740 0.4404 0.8444 0.8769 0.5311 0.4107 1.0000 0.7897 0.1415 0.3724 0.5614 0.4482 0.3827 -0.0425 0.6223 0.7224 0.5297 0.4637 0.4423 0.4814 0.8059 0.8139 0.4375 0.6901 0.7897 1.0000我們用計算機自動查找出 小的非常特殊的兩個量:0.0440、0.0425(圖中紅色數(shù)據(jù)),其坐標為(15,12)、(18,7),由此,我們可以充分選出能分別代表三組輸出變量的 列向量:r7代表第一組,r12代表第二組,r15代表第三組。(由下文第二類模型的結(jié)果知,我們在18組因變量中 選出最主要的三組)選Y1=r7,重新帶入上文的單指標逐步回歸模型,用matlab求解:同樣根據(jù)人機交互式畫面,我們在畫面上隨意的引入與移出變量,計算機協(xié)助我們找到最終結(jié)果:當模型中僅含X2、X3、X9、X17時,其回歸系數(shù)置信區(qū)間遠離零點,說明X2、X3、X9、X17對因變量的綜合性能有顯著影響。此時, Intercept=29.8165 R-square=0.682 F=26.2533 RMSE =4.04 Adj R-sq =0.6558 p=1.155e-011易求得 = 29.73利用逐步回歸,最終結(jié)果為: Y1=-2.34X2-0.93X3-0.21X9+1.11X17+29.73選Y2=r12,重新帶入,用matlab求解:我們在畫面上隨意的引入與移出變量,計算機協(xié)助我們找到最終結(jié)果:當模型中僅含X1、X2、X8時,其回歸系數(shù)置信區(qū)間遠離零點,X1、X2、X8對因變量的綜合性能有顯著影響。此時,Intercept=57.3137 R-square=0.429975 F=12.5718RMSE =14.7321 Adj R-sq =0.39577 p=3.03815e-006易求得 =58.76利用逐步回歸,最終結(jié)果為: Y2=-0.0063X1+2.98X2+0.7466X8+58.76選Y3=r15,重新帶入,用matlab求解:計算機找到最終結(jié)果: 當模型中僅含X9、X16時,其回歸系數(shù)置信區(qū)間遠離零點,X9、X16對因變量的綜合性能有顯著影響。此時, Intercept=25.7258 R-square=0.24317 F=8.19316 RMSE =3.01556 Adj R-sq =0.21349 p=8.21219e-004易求得 =25.809利用逐步回歸,最終結(jié)果為: Y3=-0.11X9-0.5X16+25.809故多指標逐步回歸模型的結(jié)果為:Y1=-2.34X2-0.93X3-0.21X9+1.11X17+29.73Y2=-0.0063X1+2.98X2+0.7466X8+58.76Y3=-0.11X9-0.5X16+25.8092.3.2 第類模型:聚類回歸法由于題目中的變量太多,如果直接由這么多的變量進行建模的話,非常耗費時間和精力,而且沒有這么做的必要。所以,為了精簡模型,我們對這些變量進行聚類操作,將作用相似的變量合并為一個變量,然后進行進一步的操作。聚類的算法大致如下,每一個變量可以看成是一個類,類與類之間的相似程度的測量使用類間距離,設Gp與Gq分別表示兩個類,它們分別含有np和nq個樣本。類Gp與Gq之間的距離記為Dpq,類平均距離。確定了樣本間及類間的距離之后,便可以對樣本進行分類。應用最廣泛的一種分類方法就是系統(tǒng)聚類法,其計算流程如下:將n個樣本分為n類,每類一個樣本,然后計算任意兩個樣本之間的距離,構成一個對稱距離矩陣(1) 選擇中的非對角線上的最小元素,設這個最小元素是。此時,與距離最近,將合并成一個新類。在中消去和所對應的行與列,并加入由新類與剩下的其他未聚合的類間的距離所組成的新的矩陣,它是一個n-1階方陣;(2) 從出發(fā)重復(2)的做法得,再由出發(fā)重復上述步驟,直到n個樣品聚為1個大類為止。(3) 在合并過程中記下合并樣品的編號及兩類合并時的水平(即距離)并繪制系統(tǒng)聚類譜系圖,按不同的分類標準或不同的分類原則,得出不同的分類結(jié)果。為了對這些變量進行分類,我們設計的程序進行求解。程序采用Visual Basic 6進行編寫,在Windows 7的環(huán)境下編譯通過。在程序中,為了處理Excel表格中的數(shù)據(jù),我們把Excel的格式轉(zhuǎn)換為CSV(逗號分隔文件)格式,然后導入到程序中進行求解。程序的設計算法如下:1、 加載原數(shù)據(jù)文件,利用二維表存儲各項指標以及數(shù)據(jù);2、 對每一列數(shù)據(jù)進行計算,求得數(shù)據(jù)的平均值;3、 將n個樣本分為n類,構造一個n*n的矩陣,矩陣中的元素dij代表指標j和指標i的距離;4、 這個矩陣為對稱矩陣,求得矩陣上三角形中的最小距離的值以及對應的i和j的值;5、 將指標i和指標j合并到i,用指標i和指標j的中值取代指標i的值;6、 輸出合并操作的對應參數(shù);7、 此時剩下n-1階矩陣,重新構造一個(n-1)*(n-1)階的矩陣,計算其中的兩兩指標之間的距離;8、 重復上述操作,每執(zhí)行完一次操作之后便將矩陣的階數(shù)減一,直到最后矩陣的階數(shù)為2,結(jié)束算法。程序的流程圖如下所示:加載數(shù)據(jù)計算每項指標重心構造max*max階矩陣計算兩兩樣本間距離獲得最小距離合并最小距離指標max=max-1max 2 ?分析結(jié)果是否程序在執(zhí)行完之后,產(chǎn)生了一個日志文件,根據(jù)這個日志文件,我們將輸入變量PP1至PP21劃分為6組,劃分情況如下:組別成員1PP12PP2、PP33PP44PP55PP6、PP7、PP8、PP10、PP11、PP12、PP13、PP14、PP15、PP16、PP17、PP18、PP19、PP20、PP216PP9根據(jù)我們選擇去污指標的是否唯一,我們建立兩個子模型:單指標聚類回歸模型和多指標聚類回歸模型。2.3.2.1單指標聚類回歸模型我們首先對題目的給出的18個去污指標進行加權處理,得到唯一的綜合指標:其中上式中的各權值通過下式得到:其中是第i個去污衡量指標的第j次抽樣值。然后通過對21個溶液屬性因子進行聚類,我們最終采用PP1、PP2、PP4、PP5 、PP6、PP9,這六組。進行多元線性回歸得到回歸方程如下:2.3.2.2多指標聚類回歸模型由于觀察到18個去污指標中,有些指標相似度比較高,因此我們?nèi)圆捎镁垲愃枷?。同樣的道理,我們又將輸出變量O1至O18劃分為3組,劃分情況如下:組別成員1O1、O2、O3、O4、O5、O6、O7、O82O9、O10、O11、O123O13、O14、O15、O16、O17、O18將最終去污指標歸結(jié)為三個:O1、O9、O13。然后我們利用聚類后的溶液屬性因子分別針對三個去污指標做回歸分析,利用stata11軟件最終得到回歸方程如下:2.3.3 第III類模型:結(jié)合主成分分析法的多元統(tǒng)計模型2.3.3.1主成分分析法介紹2.3.3.1.1 主成分分析法思想在許多社會和經(jīng)濟問題的研究中,為了獲取充分的信息對問題進行可靠的判斷,往往都會設置許多個統(tǒng)計指標,并盡可能詳細地搜集數(shù)據(jù)資料。但是,在做一項評價時,這些指標甚至會多到十幾個或幾十個,從而增加了問題分析的復雜性。另外,這些指標所反映的信息經(jīng)常是有重疊的。因此,人們希望選取的指標個數(shù)較少而得到的信息較多。由于在多數(shù)情況下,指標之間存在著一定的相關關系。當指標之間存在相關關系時,就可以利用少數(shù)綜合型指標來反映原有的多個指標所反映的信息。但是,這些綜合型指標需要滿足兩個條件:一是要求這幾個綜合指標能夠充分反映原來的變量所反映的信息;二是要求這幾個綜合指標之間互不相關。于是,主成分分析方法誕生了。主成分分析法就是把一些相關性較強的指標進行壓縮,得到幾個互不相關但卻能反映原有指標絕大部分信息的主成分,并且按其貢獻率為權數(shù)構造一個綜合評價函數(shù),從而對各個體進行綜合評價。綜合指標都叫做原來變量的主成分。主成分分析的主要目的在于簡化數(shù)據(jù)(降維)和揭示變量間的關系。與傳統(tǒng)的綜合評價方法相比,其優(yōu)點在于:(1)它所確定的權數(shù)是基于數(shù)據(jù)分析而得到的指標間的內(nèi)在結(jié)構關系,具有良好的客觀性。(2)它能有效地剔除不相關指標的影響,從而使單項指標的選擇余地更大。(3)它得到的綜合指標(即主成分)之間相互獨立,不僅使指標維數(shù)大大降低,還減少了信息交叉和冗余,對于分析極為有利。(4)它的實現(xiàn)方法可以借助于統(tǒng)計軟件SPSS、SAS等,而不需要過多專業(yè)知識,可操作性強。2.3.3.1.2主成分分析數(shù)學模型設Z1、Z2Zm為實際問題所涉及的q個隨機變量,含有p個獨立的公共因子X1、X2XP (mp),每個變量Z1,含有特殊因子Ui (i=1m),特殊因子間互不相關,且與公共因子不相關,每個Z1,可以由p個公共因子和自身對應的特殊因子Ui (i=1m)線性組合,如下:Z1=l11X1+l12X2+l1pXp+c1U1Z2=l21X1+l22X2+l2pXp+c2U2Zm=lm1X1+lm2X2+lmpXp+cmU1即:Z1Z2Zm=(lij)mpX1X2Xm+c1U1c2U2cmU1簡記為:Z=LX+CU2.3.3.1.3主成分分析的求解原理將式Z=LX+CU乘以轉(zhuǎn)置矩陣方程Z=XL+UC,再取數(shù)學期望可得:EZZ=E(LXXL+LXUC+CUXL+CUUC)又由于EZZ=R,為Z的相關矩陣,得到:R=LL+l2,令R*=R-l2,稱R*為約相關矩陣,有R=LL:R*=1-l12 r12 r1m r21 1-l12 r2m rm1 rm2 1-lm2當進行主成分分析求解時,用相關矩陣R取代約相關矩陣R*,即令有變量的公因子方差為l,此時:R*=R=1 r12 r1m r21 1 r2m rm1 rm2 1因為任意一個實對稱矩陣可用它的標準正交特征向量組成的矩陣Q進行變換。R是一個實對稱矩陣,因此可以分解為R=QQ,,其中Q是它的標準正交特征向量組成的矩陣,是對應的特征根。進一步推導可得:R=QQ=(Q)( Q),同時結(jié)合R=LL,可得因子載荷矩陣的解:A= Q。這樣求解因子載荷矩陣,可通過資料矩陣的相關陣R計算特征值和特征向量進行。2.3.3.1.4 主成分分析運用的判定條件不是所有的多變量數(shù)據(jù)都適合采用主成分分析的方法。只有變量之間彼此相關且絕對值較大并顯著時,才可進行主成分分析。若大部分變量之間的相關性很小,表明他們之間存在公共因子的可能性很小,不能使用主成分分析法。所以,在運用該方法前,可用如下方法進行判定:巴特利特球體檢驗。該檢驗的目的在于確定所要求的數(shù)據(jù)是否取自多元正態(tài)分布的總體。其虛無假設是“相關矩陣是一個單位矩陣”。若差異檢驗的F值顯著,表示該相關矩陣不是單位矩陣,所取數(shù)據(jù)來自正態(tài)分布總體,可以做進一步分析。2.3.3.1.5確定主成分個數(shù)的方法主成分分析簡單可以概括為在盡可能保存原有資料信息的前提下,用較少的維度,或是較少的新變量去表示原來的數(shù)據(jù)結(jié)構,從而便于發(fā)現(xiàn)規(guī)律和本質(zhì)。進行主成分分析保留主成分的方法如下:(1)一般取累計方差貢獻率達85%95%的主成分。(2)選用所有特征根大于等于1的主成分。(3)累積特征值乘積大于l的主成分。一旦確定主成分,就要利用主成分得分系數(shù)矩陣計算主成分的得分。2.3.3.1.6確定權重計算綜合得分在主成分分析中,權重是根據(jù)方差貢獻率來定的,即:wi=iipi換句話說,權重就是用每個主成分的方差百分比在最終選取的主成分方差累計貢獻率的累計數(shù)中所占的比重。如果研究的樣本包含n個樣本,則可根據(jù)以上確定的主成分和權重給各個樣本進行綜合打分。若yj(i)為樣本i在第j個主成分上的得分,則該樣本的綜合得分值用下式計算為:F(t)=w1y1(i)+w2y2(i)+wmym(i)2.3.3.2數(shù)據(jù)標準化原始數(shù)據(jù)的量綱不同,所以不能直接進行比較。為此,必須對選取的數(shù)值進行標準化處理。比較常見的標準化方法有小數(shù)縮放、最小最大、標準差方法。這些方法會使本來分散的數(shù)據(jù)人為的集中在某個很小的范圍之內(nèi)。本文利用最小-最大規(guī)范化方法對數(shù)據(jù)進行標準化處理,設minL和maxL分別為屬性L的最小和最大值,則利用公式:L=L-minLmaxL-minL對原樣本進行標準化處理,使得所有數(shù)據(jù)無量綱化,并且大小均在(0,1)之間。2.3.3.3用SPSS進行主成分分析本文主要應用EXCEL和SPSS兩個軟件,利用其強大的統(tǒng)計功能和數(shù)據(jù)分析能力,主要使用主成分分析的方法洗衣產(chǎn)品的21種溶液屬性進行分析,提取出主成分。實驗模型情況如下:實驗數(shù)據(jù)屬性數(shù)據(jù)21種溶液屬性實驗類別溶液的屬性關系分析指標數(shù)21模型參數(shù)群體規(guī)模86最大跌代數(shù)20綜合評價權重wi=iipi利用主成分分析法分析的有關操作結(jié)果和解釋如下文。2.3.3.3.1 KMO檢驗和Bartlett檢驗利用SPSS的命令AnalyzeData ReductionFactor,即可對數(shù)據(jù)進行KMO檢驗和Bartlett檢驗,以判斷該數(shù)據(jù)能否進行主成分分析,以及主成分分析的效果。有關分析結(jié)果如下表:KMO and Bartletts TestKaiser-Meyer-Olkin Measure of Sampling Adequacy.764Bartletts Test of SphericityApprox. Chi-Square864.186df91Sig.000本文中的Bartlett檢驗的F值小于0.001,表明所選用的數(shù)據(jù)來自正態(tài)分布總體,不存在人為特殊考慮的因素。KMO分析觀測變量之間簡單相關系數(shù)和偏相關系數(shù)的相對大小,得出KMO=0764,適合進行因子分析,效果很好。2.3.3.3.2主成分的確定用SPSS處理有關數(shù)據(jù),可以得到數(shù)據(jù)的總方差解釋表和初始因子載荷陣,具體值如下表:Total Variance ExplainedComponentInitial EigenvaluesExtraction Sums of Squared LoadingsTotal% of VarianceCumulative %Total% of VarianceCumulative %16.08443.45843.4586.08443.45843.45821.93913.84957.3071.93913.84957.30731.43710.26667.5731.43710.26667.57341.2899.20676.7791.2899.20676.7795.7375.26382.0416.6644.74186.7827.5063.61390.3958.3862.75993.1539.2581.84294.99510.2041.45496.44911.1911.36397.81212.1451.03898.85113.095.68099.53014.066.470100.000Extraction Method: Principal Component Analysis.上表是總方差解釋表,表中的Initial Eigenvalues(初始特征根)欄的的數(shù)值是按順序排列的主成分得分的方差(Total),它們在數(shù)值上等于相關系數(shù)矩陣的各個特征根。因此,可以直接根據(jù)特征根計算每一個主成分(特征根)的方差百分比(ofVariance),即特征根和變量數(shù)的比值的百分數(shù)。由于全部特征根的總和等于變量的數(shù)目,即m=ipi=14, 因此第一個特征根(主成分)的方差百分比為im=6.08414=43.458%,第二個特征根的方差百分比為57.307%以此類推。根據(jù)各主成分的方差百分比,可以計算出方差累計值(Cumulative)。根據(jù)主成分提取原則,即取累計貢獻率7595和特征根il兩條原則,提取主成分1、主成分2、主成分3和主成分4。據(jù)此,可以求出主成分方差貢獻率矩陣。主成分方差貢獻率矩陣主成分方差貢獻率特征根方差貢獻率方差貢獻率累計主成分16.08443.45843.458主成分21.93913.84957.307主成分31.43710.26667.573主成分41.2899.20676.779Component MatrixaComponent1234PP6.378.296.524-.341PP7.407.464.223-.228PP8.474.551.336-.011PP10.586-.519.232.413PP11.718.221-.436.279PP12.782.089-.309.041PP13.369-.561.473.418PP14.723.322-.146.405PP15.771.258.061.373PP16.712-.506.072-.349PP17.755-.226-.426-.271PP18.795-.226-.310-.357PP19.716-.297.296-.251PP20.778.272.204-.084上表是成分載荷矩陣,載荷值是各個變量與有關主成分的相關系數(shù)。以第一列為例,第一列的0.378是PPT6與第一個主成分的相關系數(shù)。從主成分載荷矩陣可以看出,PPT6在第二主成分上的載荷較大,也即與第二主成分的相關系數(shù)較高;而PPT7在第一主成分和第二主成分上的載荷較大,也即與第一和第二主成分相關程度高。2.3.3.3.3計算得分系數(shù)上表(初始因子載荷矩陣)中的每列除以相應的特征根的開方后,就得到各主成分得分系數(shù)矩陣,具體結(jié)果見下表。Component Score Coefficient MatrixComponent1234PP6.062.153.365-.265PP7.067.239.155-.177PP8.078.284.233-.009PP10.096-.267.162.321PP11.118.114-.303.216PP12.128.046-.215.032PP13.061-.290.329.325PP14.119.166-.101.314PP15.127.133.043.289PP16.117-.261.050-.270PP17.124-.117-.297-.210PP18.131-.116-.216-.277PP19.118-.153.206-.195PP20.128.140.142-.065設各指標標準化后的值用Xi(i的系數(shù)和上表指標的順序相同)表示,每個主成分的得分用yi(i的系數(shù)和主成分的系數(shù)相同)表示。根據(jù)主成分得分系數(shù)矩陣及變量的觀測值可以計算每個主成分的得分:第一主成分y1=0.062x1+0.067x2+0.078x3+0.096x4+1.422x5+1.273x6+4.093x7+1.233x8+0.127x9+0.117x10+0.124x11+0.131x12+0.118x13+0.128x14第二主成分y2=0.153x1+0.239x2+0.078x3+0.096x4+1.422x5+1.273x6+4.093x7+1.233x8+0.127x9+0.117x10+0.124x11-0.116x12-0.153x13+0.140x14第三主成分y3=0.365x1-0.117x2+0.078x3+0.096x4+1.422x5+1.273x6+4.093x7+1.233x8+0.127x9+0.117x10+0.124x11-0.206x12+0.206x13+0.142x14第四主成分y4=-0.265x1+0.067x2+0.078x3+0.096x4+1.422x5+1.273x6+4.093x7+1.233x8+0.127x9+0.117x10+0.124x11-0.277x12-0.195x13-0.065x14同理,可以提取18種污漬的去污功效指標.對這18種去污指標,通過主成分分析法提取出了4個主成分,各主成分的得分結(jié)果如下:第一主成分y1=0.052x1+0.063x2+0.080x3+0.080x4+0.076x5+0.050x6+0.078x7+1.233x8+0.094x9+0.093x10+0.045x11+0.052x12+0.083x13+0.075x14第二主成分y2=0.184x1-0.112x2-0.111x3+0.096x4+1.422x5+1.273x6+4.093x7+1.233x8+0.127x9+0.117x10+0.069x11-0.088x12-0.092x13-0.118x14第三主成分y3=0.088x1-0.330x2-0.286x3+0.096x4+1.422x5+1.273x6+4.093x7+1.233x8+0.127x9+0.057x10+0.451x11+0.471x12+0.098x13+0.212x14第四主成分y4=0.242x1+0.320x2+0.143x3+0.121x4+1.422x5+1.273x6+4.093x7+1.233x8+0.127x9+0.117x10+0.51
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年地方志編纂與管理考試相關知識試卷及答案
- 2025年中國冷凍儲物袋行業(yè)市場全景分析及前景機遇研判報告
- 市政管道進場安全教育
- 員工入場安全培訓
- 中醫(yī)護理相關知識
- 教育勞動的德性價值闡釋
- 高考歷史熱點難點押題預測 經(jīng)濟與社會生活(含解析)
- 幼兒園小班數(shù)學《幫幫小豬》教案
- 幼兒園小班美術版畫教案龍卷風
- java面試題及答案kafka篇
- 地下工程暗挖隧道施工質(zhì)量控制培訓課件
- 數(shù)學廣角-推理測試題
- 2024年矚目世界大事件
- 橋梁吊裝專項安全施工方案
- 2023年攀枝花市米易縣社區(qū)工作者招聘考試真題
- 敬老院工作經(jīng)驗交流發(fā)言稿
- 醫(yī)師多點執(zhí)業(yè)備案表-申請表-協(xié)議書-情況登記表
- 工程測量員四級理論知識考試試題題庫及答案
- 新員工入職健康體檢表
- 北師大版一年級數(shù)學下冊期末試卷(含答案)
- 國開作業(yè)《建筑測量》學習過程(含課程實驗)表現(xiàn)-參考(含答案)33
評論
0/150
提交評論