




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、利用主成分分析法對廢水污染物進行分析摘要:主成分分析法是統(tǒng)計學中常用的統(tǒng)計分析方法,主要是利用降維的思想,在損失很少信息的前提下把多個指標轉化為幾個綜合指標.此文中我們利用SPSS軟件對主要城市的廢水污染物的排放情況,通過主成分分析的方法進行統(tǒng)計分析,進而再通過聚類,根據主要城市的廢水污染物對城市進行分類.關鍵字:主成分分析,聚類,廢水污染物,SPSSAbstract: Principal component analysis is a statistical method commonly used in the statistical analysis, which makes many
2、indexes be less ones with a few information lost. In this paper, we use SPSS software for wastewater pollutant emissions in major cities, applying statistical analysis by using principal component analysis, and then clustering cities into several groups according to the city's main water polluta
3、nts.Key Words: Principal component analysis, Clustering, Wastewater pollutants, SPSS1引言主成分分析(principal component analysis)也稱主分量分析,由霍特林( Hotelling )于1933年首先提出.主成分分析是利用降維的思想,在損失很少信息的前提下把多個指標轉化為幾個綜合指標的多元統(tǒng)計方法.通常把轉化后的綜合指標稱之為主成分,其中每個主成分都是原始變量的線性組合,且各個主成分之間互不相關,這就使得主成分比原始變量具有某些更優(yōu)越的性能.這樣在研究復雜問題時就可以只考慮少數幾個主成
4、分而不至于損失太多信息,從而更容易抓住主要矛盾,揭示事物內部變量之間的規(guī)律性,同時使問題得到簡化,提高分析效率.由于主成分分析的這些優(yōu)勢,在實際問題中遇到指標較多且各指標相關關系較大時,人們??紤]應用主成分分析的方法.河流中污染物的含量一直是環(huán)境資源問題的研究熱點,本文正是通過多元統(tǒng)計學中的主成分分析的分析方法來對廢水中的污染物的排放情況進行分析,然后通過聚類分析對這些主要城市進行分類.2. 基本原理2.1主成分分析的基本原理在對某一事物進行實例研究中,為了更全面的、更準確地反應事物的特征及其發(fā)展規(guī)律,人們往往要考慮其有關系的多個指標,一方面人們?yōu)榱吮苊膺z漏重要的信息而考慮盡可能多的指標,而另
5、一方面隨著考慮指標的增多增加了問題的復雜性.由于各指標是對同一事物的反映,不可避免地造成信息地大量重疊,基于此,主成分分析研究通過原來變量地少數幾個線性組合來反應原理指標的信息,相互之間又盡可能不含重復信息. 主成分的求法設總體 現在尋求新的綜合指標.其基本思想是:找出個分量的一個線性組合,為使盡可能的反映的變化情況,就是要使具有最大的方差.繼而找出的各分量的第二個線性組合,為使和相互之間盡可能不含重復信息,又能盡可能多的反映的信息,就要是在與不相關的條件下具有最大的方差,如此繼續(xù)下去,直到的信息基本提取完畢為止.這些新的綜合指標,等就稱為的主成分.由協(xié)方差陣是一個非負定矩陣,現在尋求使得的方
6、差達到最大,且.這是一個條件極值問題:利用拉格朗日乘數法,令得,可見是長度為1的特征值.此時,所以應取為的最大特征根,且應取為相應于的單位化的特征向量,因此為的第一主成分.同樣要求達到最大,其中且,問題歸結為求解與前面類似,求得應取為相應于的第二大特征根所對應的單位特征向量,從而求得的第二主成分.以此類推,求得的k個主成分.2.1.2 主成分求解步驟(1) 求的協(xié)方差陣的特征根,記為(2) 求對應的單位特征向量(因為對稱陣,故不同特征根對應的特征向量比正交).(3) 取即為的第個主成分,.注意,若,則可得的個主成分,當有重根時,主成分不惟一.值得注意的是,的主成分是由的分量的特殊線性組合而得,
7、如果各分量的單位(即量綱)不同,那么這種線性組合要解釋其含義就很困難了,而且當某一個變量改變其計算單位后,協(xié)方差陣就會改變,自然相應的的特征根、特征向量也隨之改變,最后導致主成分的改變.為了清除變量間不同單位的影響,通常是先把各變量標準化,即坐如下變換,令其中,.注意到的協(xié)方差陣實際上是的相關矩陣,即,其中,為變量與的相關系數.對實行求主成分的步驟(1)(3),所得的主成分成為標準主成分.需要指出的是,從和分別算出的主成分有時有很大的不同,這意味著變量的標準化并不是無關緊要的.一般來說,當變量取值范圍彼此差異很大或度量單位不同時,應考慮標準化,不過當的主對角線上的各元素相差不大時,為了簡單,也
8、可以直接求的主成分進行分析.在實際問題中,所研究的總體的均值、協(xié)方差陣和相關矩陣大多是未知的,所以這時我們應以樣本觀測陣中的數據,求出它們的樣本均值、樣本協(xié)方差陣和樣本相關矩陣,再根據相應的計算運用主成分分析法求解出樣本主成分. 貢獻率和主成分的實際意義主成分分析的目的之一,是用可能少的不相關的主成分來代替?zhèn)€相關變量 ,且能描述的統(tǒng)計特征,并對的實際意義作出合理解釋.以下以表示的協(xié)方差陣,記那么中主對角線上的元素分別表示的各分量的方差,因而的“總方差”為對于非負定矩陣,有,而的“總方差”為,從而有,.上式說明的“總方差”等于的“總方差”,其中具有最大的方差,次之具有方差,具有最小的方差,為此表
9、明了主成分的方差在全部方差中的比值,則稱第個主成分的貢獻率.這個值越大,表明綜合反映的能力越強,反之越弱.則稱為前m個主成分的累計貢獻率.在實際應用中常略去那些貢獻率小的主成分.相關經驗指出,一般來說,若這m個主成分的方差已占“總方差”的85%以上,則只需這m個主成分就夠了.當然這并不是一個絕對不變的標準,要根據實際效果做取舍.2.2 聚類分析聚類分析是研究物以類聚的一種方法.分類問題在科學研究、生產實踐、社會生活中到處存在,人們可以依靠相關經驗和專業(yè)知識對事物實現分類,但當反映實物的性質、特性的指標較多,且對分類要求較高時,僅憑經驗和專業(yè)知識就不能達到確切的分類目的.用聚類分析解決實際問題時
10、,我們總把每個分類對象稱為樣品,并根據對象的性質和分類的目的選定若干指標,對每一個樣品測出所有的指標值,將得到的結果列成一個數據矩陣,這個樣本資料陣就是聚類分析的出發(fā)點,然后根據相應的聚類方法對樣本進行聚類分析.3. 實例分析3.1 數據選取本文所選取的數據來自中國統(tǒng)計年鑒2013中2012年主要城市廢水中主要污染物的排放情況.表1:2012年主要城市廢水中主要污染物的排放情況編號城市化學需氧量(萬噸)氨氮(萬噸)石油類(噸)鉛(千克)鎘(千克)砷(千克)六價鉻(千克)1北 京18.652.0551.46215.9117.9021.34325.842天 津22.942.54138.211004
11、.649.6419.37169.283石 家 莊22.911.57147.5815.170.911.523.694太 原2.580.4627.7791.2113.3332.48154.655呼和浩特13.240.481.517.542.006沈 陽26.052.2560.5239.531.091.4487.057長 春18.331.3926.3615.480.030.0888.468哈 爾 濱31.472.2838.4220.801.0141.489上 海24.264.74649.74321.2515.3499.861010.9710南 京10.891.75204.2720.328.9551.
12、79328.7111杭 州10.481.3840.6332.340.311.002318.1412合 肥12.531.0925.2120.032.702.856.6913福 州10.681.5926.0427.492.477.01454.4414南 昌8.871.1276.7751.638.585.1616869.5915濟 南11.580.9678.006.571.5443.2585.9916鄭 州9.811.30177.8220.726.1927.2944.0617武 漢15.911.86111.50122.894.30209.461193.8418長 沙12.301.3914.7863.
13、9911.571.98133.0919廣 州17.912.3994.71105.9815.4032.171669.5520南 寧12.371.326.3516.913.6624.0917.2521海 口1.690.463.320.280.110.470.0022重 慶40.285.34354.4888.432.651362.39204.8423成 都19.842.3034.9116.322.3197.70100.1724貴 陽4.360.5160.962.710.880.703.7925昆 明2.820.7276.364933.121063.343641.000.4526拉 薩0.990.12
14、0.272.570.5127西 安11.831.38273.3749.215.738.2493.5828蘭 州4.960.8669.028.741.242.972.0529西 寧4.290.4638.83291.5878.37209.627.2630銀 川5.100.6553.5711.030.3136.976.7431烏魯木齊3.130.6355.8428.2142.46122.08129.583.2 主成分分析在spss中的具體操作步驟運用SPSS統(tǒng)計軟件的分析過程,對31個主要城市廢水中主要的污染物的排放情況進行主成分分析,具體步驟為:1. 分析-描述-數據標準化,選中7個原始指標,并在
15、對話框中勾選將標準化后的數據存在變量;2. 分析-降維-因子分析,彈出因子分析對話框;3. 把標準化后的7個指標選入變量框里;4. 在描述里面的相關矩陣框組里選中 系數,然后點擊繼續(xù)返回因子分析對話框;5. 點擊確定.表2:KMO 和 Bartlett 的檢驗取樣足夠度的 Kaiser-Meyer-Olkin 度量.558Bartlett 的球形度檢驗近似卡方233.012df21Sig.000表3:相關矩陣Z化學需氧量(萬噸)Z氨氮(萬噸)Z石油類(噸)Z鉛(千克)Z 鎘(千克)Z 砷(千克)Z總鉻(千克)Z化學需氧量(萬噸)1.000.859.447-.152-.226-.015-.004
16、Z氨氮(萬噸).8591.000.743-.059-.138.099.063Z石油類(噸).447.7431.000.028-.028.115.105Z鉛(千克)-.152-.059.0281.000.979.916-.060Z鎘(千克)-.226-.138-.028.9791.000.933-.063Z砷(千克)-.015.099.115.916.9331.000-.075Z總鉻(千克)-.004.063.105-.060-.063-.0751.000表4:解釋的總方差成份初始特征值提取平方和載入旋轉平方和載入合計方差的 %累積 %合計方差的 %累積 %合計方差的 %累積 %12.94442
17、.06342.0632.94442.06342.0632.90641.51341.51322.37733.95176.0142.37733.95176.0142.40634.37975.89131.00614.37690.3901.00614.37690.3901.01514.49990.3904.5287.54397.9325.0831.18599.1176.051.72999.8467.011.154100.000提取方法:主成份分析.表5:成份矩陣a成份123Z化學需氧量(萬噸)-.338.807-.160Z氨氮(萬噸)-.255.947-.040Z石油類(噸)-.127.809.112
18、Z鉛(千克).963.199.031Z鎘(千克).987.125.037Z砷(千克).914.340-.007Z總鉻(千克)-.111.070.982提取方法:主成分分析.已提取3個主成分.表2中KMO值為0.558,Sig值為0可知選取的數據指標之間有高度的共線性,適合做主成分分析.由表3可知廢水中的化學需氧量排放物與氨氮和石油類有很大的關系,鉛與鎘、砷兩個指標有極其顯著的關系,所以我們可知許多變量之間直接的相關性比較強,在信息上有重疊,所以我們可以利用主成分分析法,利用降維把上述7個指標利用較少的幾個綜合指標來反映廢水中污染物的排放情況.主成分個數提取的原則為主成分的特征值大于1的前m個元
19、素,并且貢獻率最好達到85%以上,根據表4我們可以得知,在這個實例中,我們可以提取3個主成分.從表5可知鉛、鎘和砷在第一主成分中有較高的載荷,所以我們可以說第一主成分基本反映了這些指標的信息,由于這三個指標都是重金屬,故我們可以定義第一主成分反映了廢水中重金屬的排放情況.化學需氧量、氨氮和石油類在第二個主成分中占有較高的載荷,故第二主成反映了廢水中非重金屬排放物的情況.總鉻在第三主成分中占有比重最大,鉻是劇毒性物質,所以第三主成分反映了廢水污染物的強毒性.所以我們提取三個主成分是可以反應全部7個指標的信息的,故現用三個新變量代替原來的7個變量,但是這三個新變量的表達還不能從輸出窗口中直接得到,因為成分矩陣中,每一個載荷量表示主成分與對應變量的相關系數.用表4中的數據除以主成分相對應的特征值開平方便可得到三個主成分中每個指
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- T/CCASC 6002-2021氯堿工業(yè)綠色設計產品評價氯化石蠟
- T/CAR 10-2022食品速凍裝置隧道式速凍裝置
- r語言考試題及答案
- 廣告設計考試題庫及答案
- nginx面試題及答案
- 刁難類面試題及答案
- 大班模型考試題及答案
- 環(huán)保員面試題庫及答案
- 單位中層副職競聘演講稿
- 銀行客戶經理試用期工作總結
- 寵物血液庫市場營銷策劃
- 團播主持人協(xié)議
- 垃圾分類意識的培養(yǎng)與智能垃圾分類系統(tǒng)
- 《微生物學腸道菌》課件
- 急需學科專業(yè)引導發(fā)展清單
- 江蘇省無錫市2024年中考模擬數學試題附答案
- 美容科電療美容治療技術操作規(guī)范
- 第一節(jié)-接入互聯網-教案
- 第五課:郁達夫
- 綠色工廠評價指標及評分標準
- 南京醫(yī)科大學-畢業(yè)答辯PPT模板
評論
0/150
提交評論