計量地理學論文_第1頁
計量地理學論文_第2頁
計量地理學論文_第3頁
計量地理學論文_第4頁
計量地理學論文_第5頁
已閱讀5頁,還剩6頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、如何有效利用主成分分析進行綜合評價學生姓名: 指導老師:摘要 由于主成分分析在多元統(tǒng)計分析中的降維作用,使之在社會、經濟、醫(yī)療、生化等各領域運用越來越廣泛,但由于傳統(tǒng)主成分分析方法的局限性導致了一些問題的產生。這些問題吸引了許多領域專家的關注,并具有針對性的提出了一些不同的改進方法。本文介紹了主成分分析的基本和性質,并整理了近年來主成分分析在綜合評價應用中遇到的普遍問題并整理驗證了認同率較強的一些改進方法,以供大家研究學習。關鍵詞 主成分分析,綜合評價,均值化1引言1.1研究的背景和意義隨著生產力的不斷進步,生產方式由外延式擴張轉化為追求經濟效益的內涵式發(fā)展,以致在生產過程中必須考慮經濟效益的

2、各個方面,如生產力水平、技術進步、資源占用等情況,并需要就綜合各方面的因素進行綜合評價。評價是根據(jù)確定的目的來測定對象系統(tǒng)的屬性,并將這種屬性變?yōu)榭陀^定量的計值或者主觀效用行為,整個過程離不開評價者的參與,而綜合評價作為評價的一種也需要評價者做出相應反應或指示,而很多綜合評價過程易受到評價者的干預,使評價結果產生偏差。主成分分析能將高維空間的問題轉化到低維空間去處理【9】,使問題變得比較簡單、直觀,而且這些較少的綜合指標之間互不相關,又能提供原有指標的絕大部分信息。而且,伴隨主成分分析的過程,將會自動生成各主成分的權重,這就在很大程度上抵制了在評價過程中人為因素的干擾,因此以主成分為基礎的綜合

3、評價理論能夠較好地保證評價結果的客觀性,如實地反映實際問題。主成分綜合評價提供了科學而客觀的評價方法,完善了綜合評價理論體系,為管理和決策提供了客觀依據(jù),能在很大程度上減少了上述不良現(xiàn)象的產生。所以在社會經濟、管理、自然科學等眾多領域的多指標體系中,如節(jié)約型社會指標體系、生態(tài)環(huán)境可持續(xù)型指標體系、和諧社會指標體系、投資環(huán)境指標體系等,主成分分析法常被應用于綜合評價與監(jiān)控【6】。綜上所述,對綜合評價指標體系理論進行研究,既有理論上的必要性,更有實踐中的迫切性。1.2研究的發(fā)展史基于主成分分析的綜合評價以主成分分析為理論基礎,以綜合評價為主線,著眼于作出合理公正的綜合評價。以下從綜合評價和主成分分

4、析兩個方面來討論主成分綜合評價的發(fā)展史。綜合評價的發(fā)展史綜合評價是伴隨著人類文明的產生、發(fā)展而產生、發(fā)展的。其基本思想是將反映研究對象數(shù)量特征的多個指標轉化為一個綜合指標,并據(jù)以對各個具體評價對象進行排序比較,從而做出好壞優(yōu)劣的評價結論。1888年,艾奇沃斯(Edgeworth)發(fā)表了論文考試中的統(tǒng)計學,提出了對考生中的不同部分應如何加權。1913年,斯皮而曼(sPean)發(fā)表了和與差的相關性一文,討論了不同加權的作用。在20世紀30年代,瑟斯通(Thurstone)和利克特(Likert)又對定性記分方法的工作給予了新的推動。20世紀60年代,美國學者查德(L·A·zad

5、aen)模糊集合理論,為模糊綜合評價法奠定了基礎。20世紀70一80年代,是現(xiàn)代科學評價蓬勃興起的年代。在此期間,產生了多種應用廣泛的評價方法,諸如ELECTRE法(1971一1977,1983)、多維偏好分析的線性規(guī)劃法(LINMAP,1973)、層次分析法(AHP,1977)、數(shù)據(jù)包絡分析法(DEA,1978)、逼近于理想解的排序法(TOPSIS,1981)等【7】。主成分分析的發(fā)展史主成分分析,首先是由英國的皮爾生(Kar卜Pearson)對非隨機變量引入的,而后美國的數(shù)理統(tǒng)計學家赫特林(Harold.Hotelling)在1933年將此方法推廣到隨機向量的情形團【8】。主成分分析的降維

6、思想從一開始就很好地為綜合評價提供了有力的理論和技術支持。20世紀8090年代,是現(xiàn)代科學評價在我國向縱深發(fā)展的年代,人們對包括主成分綜合評價在內的評價理論、方法和應用開展了多方面的、卓有成效的研究,主要表現(xiàn)為:常規(guī)評價方法在國民經濟、生產控制和社會生活中的廣泛應用;多種評價方法的組合研究,綜合應用及比較;新評價方法的研究和應用;評價方法的深入研究,如:評價屬性集的設計、標準化變換、評價模型選擇等等。1.3主成分做綜合評價的研究現(xiàn)狀目前國內外關于綜合評價的方法很多,在根據(jù)各指標間相關關系或各指標值的變異程度來確定權重系數(shù)的方法中,主成分分析法是應用尤為廣泛。在使用該方法的早期,大多都是按照傳統(tǒng)

7、的主成分分析法做綜合評價的步驟來計算綜合得分來對樣品排序,即利用主成分F1,F(xiàn)2,F(xiàn)m做線性組合,并以每個主成分Fi的方差貢獻率i作為權重系數(shù)來構造一個綜合評價函數(shù):Y =1F1 +2F2 +m F m然而,隨著傳統(tǒng)主成分分析方法在綜合評價中的進一步應用,人們發(fā)現(xiàn)此方法時經不起實踐檢驗的。在實際應用中,經常發(fā)現(xiàn)運用此方法所得結果的解釋往往與實際情況不符。舉了一個簡單的例子,假定高考中考試科目有四門:數(shù)學(x1)、語文(x2)、外語(x3)和物理(x4),滿分都是相同的150分。考生的四門考試成績必須綜合成一個綜合評價函數(shù),一般取為總分。但從統(tǒng)計學的角度來看,可能取為更為合理,這里xi*是xi的

8、標準化數(shù)值(x1* 、x2* 、x3* 、x4*有相同的均值和標準差)。如果我們使用傳統(tǒng)的主成分分析法,根據(jù)上述綜合評價函數(shù)F的得分來對學生進行排名,那就釀成大錯了。就此,一些學者提出了一些改進的方法,其中具有代表性的方法有:Yan(1998)提出,當?shù)谝恢鞒煞值姆讲畋容^大時,即貢獻率較大時,用它做綜合評價指標。如果覺得用一個主成分解釋的方差不夠大時,綜合反映X1 ,X 2 ,Xp信息的能力不夠,而用多個主成分構造綜合評價函數(shù)又不合適時,可以像因子分析那樣對主成分進行旋轉。Hou(2006)也提出,當用第一主成分進行綜合評價達不到理想結果時,可用分組主成分評價法。即先用因子分析法將p個變量分成

9、k組,然后分別對各組變量進行主成分分析,只取每組的一主成分,求出各組第一主成分的得分Cj(j=1,2,k)以因子旋轉后各因子的放差貢獻率為權重建立綜合評價函數(shù):。最后根據(jù)各評價樣本綜合得分y來對樣品進行排序。但其可行性也受到了一些學者的質疑【4】。由此可見,主成分綜合評價法是一片有待進一步深耕細作的熱土。2關于主成分分析基本知識2.1主成分分析設要進行主成分分析的原指標有p個,記作x 1 ,x2 ,x p ?,F(xiàn)有n個樣品,相應的觀測值為x ik , i =1,2,n,而k =1,2,,p。作標準化變換后,將Xk變換為Xk*,即,k =1,2,,m.式中,及Sk分別是xk的均值及標準差,x k*

10、的均值為0、標準差為1.主成分分析的原理是:根據(jù)各樣品原指標的觀測值x ik或標準化變換后的觀測值x ik*求出系數(shù)a ik (k=1,2,p,j=1,2,m,m <p),建立用標準化變換后的指標x k*表示綜合指標Fj的方程,也可建立用原指標Xk表示綜合指標Fj的方程。對系數(shù)a ik由下列原則決定:(1)各個綜合指標Fj彼此獨立或不相關;(2)各個綜合指標Fj所反映的各個樣品的總信息等于原來p個指標Xk*所反映的各個樣品的總信息,即p個Fj的方差j之和等于p個Xk*的方差之和,也就是且12 P。稱上述彼此獨立或不相關又不損失或損失很少原有信息的各個綜合指標。yj為原指標的主成分.其中,

11、第一綜合指標F1的方差最大,吸收原來p個指標的總信息最多,稱第一主成分;第二綜合指標F2的方差次之,吸收原來p個指標的總信息次之,稱為第二主成分;同理,F(xiàn)3 F 4Fp分別稱為第三主成分、第四主成分第p主成分?!?】2.2 主成分分析能否旋轉 主成分分析與因子分析的聯(lián)系與區(qū)別相當數(shù)量的應用文章對主成分分析與因子分析不加嚴格區(qū)分,因而對分析結果的解釋非常模糊。文獻【1】認為主成分分析與因子分析兩者之間有聯(lián)系,但也存在著明顯的區(qū)別。從聯(lián)系上看,主成分分析和因子分析都是將多個相關變量(指標)轉化為少數(shù)幾個不相關變量的一種多元統(tǒng)計分析方法。其目的是使在高維空間中研究樣本分布規(guī)律的問題,通過降維得到簡化

12、,并盡量保留原變量的信息量。兩者都有消除相關、降維的功能。主成分分析是通過變量變換把注意力集中到具有最大變差的那些主成分上,而視變量不大的主成分為常數(shù)予以舍棄;因子分析是通過因子模型把注意力集中到少數(shù)不可觀測的公共因子上,而舍棄特殊因子。主成分個數(shù)與公共因子個數(shù)的選擇準則通常是相同的。主成分分析中主成分向量Y與原指標向量X的表達式為,式中;而因子分析中的因子模型為,其中為特殊因子,,當時,可采用主成分分析法估計A陣,則。對主成分分析中的主成分與因子分析中的公共因子的含義均需進行明確解釋,否則,會遇到應用上的困難。雖然主成分分析法與因子分析法有著密切的聯(lián)系,但從應用上更需關注的是它們之間的區(qū)別。

13、1、 主成分分析的實質是P維空間的坐標旋轉,并不改變樣本數(shù)據(jù)結構,不能作為模型來描述;因子分析的實質是P維空間到M維空間的一種映射,需構造模型。2、 主成分的個數(shù)與原變量個數(shù)相等,而公因子的個數(shù)小于原變量的個數(shù)。3、 主成分分析是把主成分表示為原變量的線性組合,因子分析是把原變量表示為公共因子和特殊因子的線性組合。4、 主成分分析由可觀測的變量X直接求的主成分Y,并可逆;因子分析只能通過可觀測的原變量去估計不可觀測的公共因子F,不能用X表示F。5、 主成分分析中的L陣是唯一的正交陣;因子分析中的A陣不唯一,也不一定是正交陣。6、 主成分分析主要應用在綜合評價和指標篩選上;因子分析除這兩個作用以

14、外,還可以應用于對樣本或變量的分類。 能否對主成分實施旋轉對于主成分能否進行旋轉這一問題,很多研究學者認為,當主成分不能很好解釋綜合評價結果時,可以像因子分析那樣進行正交旋轉,從而使主成分得到更好的解釋。關于主成分能否旋轉的問題,文獻【1】【4】【5】【7】【8】均做了論證,發(fā)現(xiàn)這種方法是不可行的。論證具體如下:主成分分析的實質是對原始指標變量進行線性變換,即F =XA,其中顯然A為正交矩陣,如果對主成分進行旋轉,則有:其中L是正交矩陣。由于X矩陣不變,其相關矩陣R對應的特征根和單位特征向量也不變,即說明矩陣A具有唯一性。由上式知:如果主成分能旋轉則說明矩陣A不是唯一的。從而我們可以得出:主成

15、分不能進行旋轉。3 主成分分析做綜合評價的局限性與改進方法3.1傳統(tǒng)主成分分析做綜合評價的一般步驟(1)將原始數(shù)據(jù)標準化。將各樣品指標值x i按式轉化成標準化指標Xi*,其中,E(Xi)和D(Xi)分別是Xi的均值和方差。Xi的均值是0,方差是1.(2)求各標準化指標Xi*的兩兩相關系數(shù)rij,并寫出相關系數(shù)矩陣。其中, (i,j=1,2,p) (3)求相關矩陣的特征根i*(i=1,2,,p),將其由大到小排序。1*2* P*0,稱為第i個主成分Fi的貢獻率;為前m個主成分F1 ,F2,,F(xiàn)m的累計貢獻率。由累積方差貢獻率確定主成分的個數(shù)m(mp),求出i* (i=1,2,,m)對應的貢獻率、

16、累計貢獻率。(4)求各個主成分Fi與標準化指標Xi*對應的系數(shù)關系。(5)求各例樣品在m個主成分的得分y1 ,y2,,y.m。(6)求各樣品綜合得分y,并排列名次。3.2 主成分分析的局限性3.2.1第一主成分未必能用于綜合評價文獻【8】通過論證指出,主成分貢獻率的大小反映的是該主成分包含原始數(shù)據(jù)的信息量的大小,這種信息不一定指的是綜合水平,也有可能指的是變量間的差異性。對于有些情況做綜合評價,如一個班同學的綜合排名,用于綜合評價的需是水平因子,但只考慮第一主成分的話,得到的會是一個形狀因子,所以在這種情況下,第一主成分貢獻率再高,用于綜合評價也是不合理的。3.2.2 主成分分析標準化的不足文

17、獻【2】【3】【7】等文獻指出,原始數(shù)據(jù)保含兩部分信息:一部分是個指標變異程度的差異信息;另一部分是個指標間相互影響程度上的相關信息。但在主成分分析過程中,為了消除指標綱量和數(shù)量級的影響往往對原始數(shù)據(jù)進行標準化: ,i =1,2, ,n;j =1,2,p其中,j=1,2,p。由此可以看出標準化使各指標的方差全為1,在消除量綱和數(shù)量級影響的同時,也消除了各指標變異程度上的差異信息。而從標準化后的數(shù)據(jù)提取的主成分,即從相關系數(shù)矩陣來計算主成分,實際上只包含了各指標間相互影響這一個方面的信息,所以不能準確反映原始數(shù)據(jù)所包含的全部信息。 “線性”相關度的不足文獻【3】指出,主成分分析只是一種“線性”降

18、維技術,之夢處理線性問題:一方面主成分是原始指標的線性組合,另一方面對原始數(shù)據(jù)進行標準化處理,是協(xié)方差矩陣變成相關系數(shù)矩陣,而相關系數(shù)矩陣矩陣只能反映指標間的“線性”相關程度。研究實際問題時,不僅指標見有非線性關系,有時主成分與原始數(shù)據(jù)之間也呈非線性關系,如果簡單地進行先行處理,必然導致評價結果的偏差。3.3關于主成分分析做綜合評價的改進 可用于綜合評價的主成分的條件在用主成分分析做綜合評價的改進時,對選擇第一主成分還是多個主成分現(xiàn)在任有一定的分歧,就此問題許多學者都做了研究探討【1】【7】【8】,過程如下:當(Xi1,Xi2 ,Xip)>( Xk1 ,Xk2 ,,Xkp)時,稱第i個樣

19、本點優(yōu)于第k個樣本點;當(Xi1,Xi2 ,Xip)( Xk1 ,Xk2 ,,Xkp)時,稱第i個樣本點不劣于第k個樣本點;若(Xi1,Xi2 ,Xip)( Xk1 ,Xk2 ,,Xkp)和( Xk1 ,Xk2 ,,Xkp)(Xi1,Xi2 ,Xip)同時成立,稱第i個樣本點無異于第k個樣本點。定義 若綜合評價得分y是有序的,當且僅當yi yk(其中yi是第i個樣本點的綜合得分 i =1,2,n)時,有(Xi1,Xi2 ,Xip)( Xk1 ,Xk2 ,,Xkp),否則稱y是無序的。將y改寫成一般形式如下:上式中tj可取-1,1或0(0表示不選擇第j個主成分),由上式得:綜合評價得分y對應于指

20、標Xi的權數(shù)為。由于各指標是正向指標,我們可以得到如下定理。定理 綜合評價得分y是有序的,當且僅當0,i=1,2,p。由上述推導可知,要想第一主成分能有效用于做綜合評價,則按第一主成分做綜合評價的得分值y必須是有序的,當且僅當aij0,j=1,2,p。即第一主成分的系數(shù)均為正值時,第一主成分做綜合評價的取值y才是有序的,此時才可以用第一主成分做綜合評價,否則不行。類似地,還可以令ti =1,其它為0的情況,可得到第i主成分有序的充要條件是aij0,j=1,2,p。均值法的應用由于傳統(tǒng)主成分分析無量綱化,即標準化處理會導致原始信息的丟失,許多學者就此思考了改進方法,并大多注意到了協(xié)方差舉證能夠完

21、整的反映原始數(shù)據(jù)的信息;協(xié)方差矩陣的主對角線上的元素恰好為個指標的方差,而非主對角線上的元素則包含了各指標間的相關系數(shù)的信息。所以對數(shù)據(jù)的均值化處理【1-8】是大家普遍認同的一個對主成分分析較好的改進方法。方法如下:設有n個被評價的對象,及p個指標,原始數(shù)據(jù)為,各指標的均值為xi 均值化就是用各指標的原始數(shù)據(jù)除以相應的均值,即,i =1,2,n;j =1,2,p其中,j =1,2,p,得到均值化數(shù)據(jù)矩陣設Y =(Y1 ,Y 2,Yp)的協(xié)方差矩陣為U =(uij )p ×p,因為Y中每個向量的均值為1,所以有: 其中sij為原始數(shù)據(jù)的協(xié)方差,i ,j =1,2,L,p.特別地,即均值

22、化數(shù)據(jù)的協(xié)方差矩陣主對角線元素為各指標見變異系數(shù)的平方。設均值化數(shù)據(jù)各指標的相關系數(shù)為,則, 其中為原始指標間的相關系數(shù),由上可以得到:均值化不改變各指標間的相關系數(shù),相關系數(shù)矩陣的所有信息都在相應的協(xié)方差矩陣中得到了反映。 對原始數(shù)據(jù)的非線性化根據(jù)主成分分析中“線性”相關度的缺點,文獻【2】【3】提出了非線性主成分分析方法的一種對數(shù)中心化,其基本方法是:1、 對原始數(shù)據(jù)作中心對數(shù)化變換:2、計算對數(shù)中心化的樣本協(xié)方差矩陣 3、從S出發(fā)求主成分設12 P是S的P個特征根,a1,a2 , ,aP是相應的標準化特征向量,則第i個非線性主成分為從上述分析可知,非線性主成分分析與傳統(tǒng)主成分分析相比有兩

23、處改進:一是通過對原始數(shù)據(jù)作對數(shù)中心化變換,將主成分表示為原始數(shù)據(jù)的非線性組合;二是分析的出發(fā)點是協(xié)方差矩陣,不再是相關系數(shù)矩陣。通過這兩處的的改進,會明顯提高降維效果,用更少的主成分更多的反映原始指標的信息。4 實例分析本文采用SPSS15.0為數(shù)據(jù)分析工具,以某高校學生在校期間的各科學習成績?yōu)闃颖荆\用改進的合理選取主成分的方法對每位學生的三項指標的原始數(shù)據(jù)進行分析比較。樣本如表1所示:表1學生成績學生高數(shù)成績外語成績專業(yè)課成績18011110327678104學生高數(shù)成績外語成績專業(yè)課成績36214078411012098510211167611584897678910288798110

24、989959910911391091115010011712140125831312378751410497109151059012716741996176586791889809619917710620100102110首先對原始數(shù)據(jù)進行均值化處理,再用優(yōu)化指標的協(xié)方差矩陣代替相關系數(shù)矩陣進行分析,計算結果如表2:表2:數(shù)據(jù)計算表原始主成分分析均值化主成分分析改進主成分分析特征值方差貢獻率累計貢獻率特征值方差貢獻率累計貢獻率特征值方差貢獻率累計貢獻率11.87720.37540.037540.06550.41140.41140.05580.38780.387821.21030.24210.61750.04440.27890.69030.03660.25430.642130.09860.19730.82480.00680.04271.00000.00790.04290.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論