建模的二十種方法與應用匯總_第1頁
建模的二十種方法與應用匯總_第2頁
建模的二十種方法與應用匯總_第3頁
建模的二十種方法與應用匯總_第4頁
建模的二十種方法與應用匯總_第5頁
已閱讀5頁,還剩23頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

一、統(tǒng)計學方法1.1多元回歸1、方法概述:在研究變量之間的相互影響關系模型時候,用到這類方法,具體地說:其可以定量地描述某一現(xiàn)象和某些因素之間的函數(shù)關系,將各變量的已知值帶入回歸方程可以求出因變量的估計值,從而可以進行預測等相關研究。2、分類分為兩類:多元線性回歸和非線性線性回歸;其中非線性回歸可以通過一定的變化轉化為線性回歸,比如:y=lnx可以轉化為y=uu=lnx來解決;所以這里主要說明多元線性回歸應該注意的問題。3、注意事項在做回歸的時候,一定要注意兩件事:(1)回歸方程的顯著性檢驗(可以通過sas和spss來解決)(2)回歸系數(shù)的顯著性檢驗(可以通過sas和spss來解決)檢驗是很多學生在建模中不注意的地方,好的檢驗結果可以體現(xiàn)出你模型的優(yōu)劣,是完整論文的體現(xiàn),所以這點大家一定要注意。4、使用步驟:(1)根據(jù)已知條件的數(shù)據(jù),通過預處理得出圖像的大致趨勢或者數(shù)據(jù)之間的大致關系;(2)選取適當?shù)幕貧w方程;(3)擬合回歸參數(shù);(4)回歸方程顯著性檢驗及回歸系數(shù)顯著性檢驗(5)進行后繼研究(如:預測等)1.2聚類分析1、方法概述該方法說的通俗一點就是,將n個樣本,通過適當?shù)姆椒ǎㄟx取方法很多,大家可以自行查找,可以在數(shù)據(jù)挖掘類的書籍中查找到,這里不再闡述)選取m聚類中心,通過研究各樣本和各個聚類中心的距離Xij,選擇適當?shù)木垲悩藴剩ǔ@米钚【嚯x法(一個樣本歸于一個類也就意味著,該樣本距離該類對應的中心距離最近)來聚類,從而可以得到聚類結果,如果利用sas軟件或者spss軟件來做聚類分析,就可以得到相應的動態(tài)聚類圖。這種模型的的特點是直觀,容易理解。2、分類聚類有兩種類型:(1)Q型聚類:即對樣本聚類;(2)R型聚類:即對變量聚類;通常聚類中衡量標準的選取有兩種:(1)相似系數(shù)法(2)距離法聚類方法:(1)最短距離法(2)最長距離法(3)中間距離法(4)重心法(5)類平均法(6)可變類平均法(7)可變法(8)利差平均和法在具體做題中,適當選區(qū)方法;3、注意事項在樣本量比較大時,要得到聚類結果就顯得不是很容易,這時需要根據(jù)背景知識和相關的其他方法輔助處理。4、方法步驟(1)首先把每個樣本自成一類;(2)選取適當?shù)暮饬繕藴?,得到衡量矩陣,比如說:距離矩陣或相似性矩陣,找到矩陣中最小的元素,將該元素對應的兩個類歸為一類,(3)重新計算類間距離,得到衡量矩陣(4)重復第2步,直到只剩下一個類;補充:聚類分析是一種無監(jiān)督的分類,下面將介紹有監(jiān)督的分類。1.3數(shù)據(jù)分類1、方法概述數(shù)據(jù)分類是一種典型的有監(jiān)督的機器學習方法,其目的是從一組已知類別的數(shù)據(jù)中發(fā)現(xiàn)分類模型,以預測新數(shù)據(jù)的未知類別。這里需要說明的是:預測和分類是有區(qū)別的,預測是對數(shù)據(jù)的預測,而分類是類別的預測。2、分類方法:(1)神經網(wǎng)路(2)決策樹(這里不再闡述,有興趣的同學,可以參考數(shù)據(jù)挖掘和數(shù)據(jù)倉庫相關書籍)3、注意事項神經網(wǎng)路適用于下列情況的分類:(1)數(shù)據(jù)量比較小,缺少足夠的樣本建立數(shù)學模型;(2)數(shù)據(jù)的結構難以用傳統(tǒng)的統(tǒng)計方法來描述(3)分類模型難以表示為傳統(tǒng)的統(tǒng)計模型神經網(wǎng)路的優(yōu)點:分類準確度高,并行分布處理能力強,對噪聲數(shù)據(jù)有較強的魯棒性和容錯能力,能夠充分逼近復雜的非線性關系,具備聯(lián)想記憶的功能等。神經網(wǎng)路缺點:需要大量的參數(shù),不能觀察中間學習過程,輸出結果較難解釋,會影響到結果的可信度,需要較長的學習時間,當數(shù)據(jù)量較大的時候,學習速度會制約其應用。4、步驟(1)初始化全系數(shù)(2)輸入訓練樣本(3)計算實際輸出值(4)計算實際輸出值和期望輸出值之間的誤差(5)用誤差去修改權系數(shù)(6)判斷是否滿足終止條件,如果滿足終止,否則進入第二步1.4判別分析1、概述其是基于已知類別的訓練樣本,對未知類別的樣本判別的一種統(tǒng)計方法,也是一種有監(jiān)督的學習方法,是分類的一個子方法!具體是:在研究已經過分類的樣本基礎上,根據(jù)某些判別分析方法建立判別式,然后對未知分類的樣本進行分類!2、分類根據(jù)判別分析方法的不同,可分為下面幾類:(1)距離判別法(2)Fisher判別法(3)Bayes判別法(4)逐步判別法關于這幾類的方法的介紹,大家可以參考《多元統(tǒng)計學》,其中比較常用的是bayes判別法和逐步判別法3、注意事項:判別分析主要針對的是有監(jiān)督學習的分類問題。共有四種方法,這里重點注意其優(yōu)缺點:(1)距離判別方法簡單容易理解,但是它將總體等概率看待,沒有差異性;(2)Bayes判別法有效地解決了距離判別法的不足,即:其考慮了先驗概率——所以通常這種方法在實際中應用比較多?。?)在進行判別分析之前,應首先檢驗各類均值是不是有差異(因為判別分析要求給定的樣本數(shù)據(jù)必須有明顯的差異),如果檢驗后某兩個總體的差異不明顯,應將這兩個總體合為一個總體,再由剩下的互不相同的總體重現(xiàn)建立判別分析函數(shù)。(4)這里說明下Fisher判別法和bayes判別法的使用要求:兩者對總體的數(shù)據(jù)的分布要求不同,具體的,F(xiàn)ishe要求對數(shù)據(jù)分布沒有特殊要求,而bayes則要求數(shù)據(jù)分布是多元正態(tài)分布,但實際中卻沒有這么嚴格?。?)可以利用spss,sas等軟件來輕松實現(xiàn)4、方法步驟這里以bayes判別法為例講述(1)計算各類中變量的均值xj及均值向量xh,各變量的總均值xi及均值向量x(2)計算類內協(xié)方差及其逆矩陣(3)計算bayes判別函數(shù)中,各個變量的系數(shù)及常數(shù)項并寫出判別函數(shù)(4)計算類內協(xié)方差矩陣及各總協(xié)方差矩陣做多個變量的全體判別效果的檢驗(5)做各個變量的判別能力檢驗(6)判別樣本應屬于的類別1.5主成分分析1、概述主成分分析是一種降維數(shù)的數(shù)學方法,具體就是,通過降維技術獎多個變量化為少數(shù)幾個主成分的統(tǒng)計分析方法。在建模中,主要用于降維,系統(tǒng)評估,回歸分析,加權分析等等。2、分類(無)3、注意事項在應用主成分分析時候,應該注意:(1)綜合指標彼此獨立或者不想關(2)每個綜合指標所反映的各個樣本的總信息量等于對應特征向量的特征值。通常要選取的綜合指標的特征值貢獻率之和應為80%以上(3)其在應用上側重于信息貢獻影響力的綜合評價(4)當主成分因子負荷的符號有正也有負的時候,綜合評價的函數(shù)意義就不明確!4、方法步驟大家可以參考《多元統(tǒng)計學》這本書籍,在這里就不做闡述1.6因子分析1、概述其是也是將變量總和為數(shù)量較少的幾個因子,是降維的一種數(shù)學技術!它和主成分分析的最大區(qū)別是:其是一種探索性分析方法,即:通過用最少個數(shù)的幾個不可觀察的變量來說明出現(xiàn)在可觀察變量中的相關模型(有點類似于前面講述的分類和聚類的區(qū)別)它提供了一種有效的利用數(shù)學模型來解釋事物之間的關系,體現(xiàn)出數(shù)據(jù)挖掘的一點精神!他可以用來解決降維,系統(tǒng)評估,加權分析等方法。2、分類因子分析是R型,即對變量研究3、注意事項(1)其不是對研究總體的變量的降維,而是根據(jù)原始變量信息構造新的變量,作為共同因子(2)它通過旋轉可以使得因子變量具有可解釋性(3)因子分析和主成分分析的區(qū)別和聯(lián)系<1>兩者都是降維數(shù)學技術,前者是后者的推廣和發(fā)展<2>主成分分析只是一般的變量替換,其始終是基于原始變量研究數(shù)據(jù)的模型規(guī)律;而因子分析則是通過挖掘出新的少數(shù)變量,來研究的一種方法,有點像數(shù)據(jù)挖掘中的關聯(lián)關則發(fā)現(xiàn)!4、方法步驟(略)大家可以去論壇上下載相關電子資源,也可以參考《多元統(tǒng)計學》1.7殘差分析1、概述在實際問題中,由于觀察人員的粗心或偶然因素的干擾。常會使我們所得到的數(shù)據(jù)不完全可靠,即出現(xiàn)異常數(shù)據(jù)。有時即使通過相關系數(shù)或F檢驗證實回歸方程可靠,也不能排除數(shù)據(jù)存在上述問題。殘差分析的目的就在于解決這一問題。所謂殘差是指實際觀察值與回歸估計值的差。2、分類無3、應用(1)通過殘差分析來排除異常數(shù)據(jù)(2)通過殘差分析來檢驗模型的可靠性還有很多應用,大家在使用過程中據(jù)情況選取,靈活應用!1.8典型相關分析1、概述前面介紹的方法主要是一個變量和多個變量之間的關系,而典型相關分析研究的是多個變量和多個變量之間的關系,或者是一組變量和一組變量之間關系!其可以揭示兩組變量之間的關系,從而供大家研究兩個現(xiàn)象之間的關系,例如:蔬菜的產出水平和影響產出水平的變量之間的關系!2、分類多對多的變量關系研究!3、注意事項(1)其可以很好地解決組合相關性的問題(2)其還局限于兩組變量的研究,而且要求這兩組變量都是連續(xù)變量且需服從多元正態(tài)分布1.9時間序列1、概述時間序列預測法是一種定量分析方法,它是在時間序列變量分析的基礎上,運用一定的數(shù)學方法建立預測模型,使時間趨勢向外延伸,從而預測未來市場的發(fā)展變化趨勢,確定變量預測值。其基本特點是:假定事物的過去趨勢會延伸到未來;預測所依據(jù)的數(shù)據(jù)具有不規(guī)則性;撇開市場發(fā)展之間的因果關系。2、分類時間序列的變動形態(tài)一般分為四種:長期趨勢變動,季節(jié)變動,循環(huán)變動,不規(guī)則變動。方法分類:(1)平均數(shù)預測(簡單算術平均法,加權算術平均法,幾何平均數(shù)法)(2)移動平均數(shù)預測(一次移動平均法,二次移動平均法)(3)指數(shù)平滑法預測(一次,二次,三次指數(shù)平滑法)(4)趨勢法預測(分割平均法,最小二乘法,三點法)(5)季節(jié)變動法(簡單平均法,季節(jié)比例法)3.注意事項(1)季節(jié)變動法預測需要籌集至少三年以上的資料(2)移動平均法在短期預測中較準確,長期預測中效果較差;(3)移動平均可以消除或減少時間序列數(shù)據(jù)受偶然性因素干擾而產生的隨機變動影響。(4)一次移動平均法適用于具有明顯線性趨勢的時間序列數(shù)據(jù)的預測;一次移動平均法只能用來對下一期進行預測,不能用于長期預測,必須選擇合理的移動跨期,跨期越大對預測的平滑影響也越大,移動平均數(shù)滯后于實際數(shù)據(jù)的偏差也越大??缙谔t又不能有效消除偶然因素的影響??缙谌≈悼稍?~20間選取。(5)二次移動平均法與一次移動平均法相比,其優(yōu)點是大大減少了滯后偏差,使預測準確性提高;二次移動平均只適用于短期預測。而且只用于的情形。(6)最小二乘法即適用于直線趨勢的預測,也適用于曲線趨勢的預測。還有一些注意事項,這里就不在意義羅列4.方法步驟統(tǒng)計學的分析方法到這先告一段落!下面進入優(yōu)化的方法介紹:二、優(yōu)化方法1、概述在一系列的條件限制下,尋求最優(yōu)方案,使得目標達到最優(yōu)的問題統(tǒng)稱為優(yōu)化問題。解決這類問題的方法,自然就稱之為優(yōu)化方法,又成為數(shù)學規(guī)劃!其是運籌學的一個重要分支!2、分類優(yōu)化問題可以歸結為優(yōu)化模型,按照優(yōu)化模型求解方法的不同,可以分為以下類別:(1)按照有無約束條件:無約束和約束最優(yōu)化問題(2)按照決策變量是否取之連續(xù)分為:a)數(shù)學規(guī)劃或連續(xù)規(guī)劃:LP,NLP,QPb)離散優(yōu)化或組合優(yōu)化:IP(3)單目標規(guī)劃和多目標規(guī)劃(4)確定性規(guī)劃和不確定性規(guī)劃(5)目標規(guī)劃,動態(tài)規(guī)劃,非線性規(guī)劃,多目標規(guī)劃等3、注意事項(1)約束優(yōu)化問題可以轉化為無約束優(yōu)化問題來解決(2)多目標規(guī)劃可以通過適當?shù)姆椒ㄞD化為但目標規(guī)劃來解決(3)非線性規(guī)劃,在一定的條件下,可以近似為線性規(guī)劃來解決(4)不確定性規(guī)劃可以通過適當?shù)募记赊D化為確定性方法解決這些轉化,大家可以參閱優(yōu)秀論文,注意學取人家的經驗,從而建立自己的能力提升!也可以參考相關優(yōu)化書籍和運籌學書籍來學習,書上都有介紹!4、步驟簡要概括(1)建立規(guī)劃模型(2)選擇方法(3)結果解釋三、排隊論1.概述在我們的生活中,經常會做和排隊想關的事情,比如:銀行等待取錢,醫(yī)院掛號排隊,理發(fā)排隊等等,都會涉及到排隊問題,并且2009年國賽B題第五小題就考了和排隊論相關的問題。排隊論是一門研究擁擠現(xiàn)象的學科,具體就是研究各種排隊系統(tǒng)概率基礎上,解決相應的排隊系統(tǒng)的最優(yōu)設計和最優(yōu)控制問題(注意:其實解決排隊最優(yōu)設計和最優(yōu)控制的問題)2、分類(1)泊松輸入-指數(shù)服務排隊模型(2)M/M/1等待排隊模型(3)M/M/S/inf模型(2009年B題的排隊就是一個這種模型)3、注意事項(1)排隊系統(tǒng)常見的優(yōu)化問題在于A)確定最優(yōu)服務率b)確定最佳服務臺數(shù)量c)選擇最為合適的服務規(guī)則d)確定上述幾個量的最優(yōu)組合(2)在使用時候,應該注意模型的選擇,模型選擇好后,注意顧客到達和服務時間分布的選擇和檢驗4、步驟(略)四:智能算法的優(yōu)化應用遺傳算法,蟻群算法,貪婪算法,模擬退火算法,回溯法,分支定界法,禁忌搜索算法,粒子群算法等啟發(fā)式算法這類算法在實際中應謹慎使用,固然這類算法有其好處,但是其不確定遠遠大于其確定性,所以大家在比賽中慎重使用,最好使用成熟的算法!五、微分建模1、使用背景介紹我們通常會在研究一些問題時候,涉及到某些變量的變化率或導數(shù),這樣所得到的變量之間的關系就是微分方程模型,其反映的是變量之間的間接關系,通過求解方程,就可以得到直接關系!2、分類按照求解方法的不同分為:精確求解,求數(shù)值解,定性分析方法3、注意事項(1)微分方程的集中建立方法:A、根據(jù)規(guī)律建立方程B、微元法C、模擬近似(2)幾種常見的微分方程模型:人口增長模型,傳染病模型,捕魚模型等4、步驟(略)六、差分方程1、使用背景的介紹它是研究離散變量的變化規(guī)律,具體就是:根據(jù)實際的規(guī)律性質,平衡關系等,建立離散變量所滿足的平很關系式,從而建立差分方程模型。通過求出和分析解,研究方程解的性質,比如,平穩(wěn)性,漸進性,振動性,周期性等等2、分類幾個重要的差分方程模型:商業(yè)貸款,離散形式的人口模型,汽車租賃,動物養(yǎng)殖問題等經典模型,大家可以參考,然后對差分方程模型有個全面的認識七、圖論由于圖論設計的內容比較多,系統(tǒng)龐雜,而且模型比較靈活,所以在這里不做介紹,大家可以自行研究。八、其他方法介紹灰色系統(tǒng)主要用來解決少數(shù)據(jù)的預測問題;層次分析法主要用來解決綜合分析類的問題;模糊數(shù)學可以用來做模糊綜合評判,模糊聚類分析和模糊線性規(guī)劃;蒙特卡洛方法主要是一種計算機仿真方法,通常在排隊論問題使用;神經網(wǎng)路可以用來分類,預測,建立模型等等;還有一些其他的方法,這里就不一一介紹了。九、主成分分析法一)、主成分分析法介紹:主成分分析(principalcomponentsanalysis,PCA)又稱:主分量分析,主成分回歸分析法。旨在利用降維的思想,把多指標轉化為少數(shù)幾個綜合指標。它是一個線性變換。這個變換把數(shù)據(jù)變換到一個新的坐標系統(tǒng)中,使得任何數(shù)據(jù)投影的第一大方差在第一個坐標(稱為第一主成分)上,第二大方差在第二個坐標(第二主成分)上,依次類推。主成分分析經常用減少數(shù)據(jù)集的維數(shù),同時保持數(shù)據(jù)集的對方差貢獻最大的特征。這是通過保留低階主成分,忽略高階主成分做到的。這樣低階成分往往能夠保留住數(shù)據(jù)的最重要方面。但是,這也不是一定的,要視具體應用而定。二)、主成分分析法的基本思想:在實證問題研究中,為了全面、系統(tǒng)地分析問題,我們必須考慮眾多影響因素。這些涉及的因素一般稱為指標,在多元統(tǒng)計分析中也稱為變量。因為每個變量都在不同程度上反映了所研究問題的某些信息,并且指標之間彼此有一定的相關性,因而所得的統(tǒng)計數(shù)據(jù)反映的信息在一定程度上有重疊。在用統(tǒng)計方法研究多變量問題時,變量太多會增加計算量和增加分析問題的復雜性,人們希望在進行定量分析的過程中,涉及的變量較少,得到的信息量較多。主成分分析正是適應這一要求產生的,是解決這類題的理想工具。同樣,在科普效果評估的過程中也存在著這樣的問題??破招Ч呛茈y具體量化的。在實際評估工作中,我們常常會選用幾個有代表性的綜合指標,采用打分的方法來進行評估,故綜合指標的選取是個重點和難點。如上所述,主成分分析法正是解決這一問題的理想工具。因為評估所涉及的眾多變量之間既然有一定的相關性,就必然存在著起支配作用的因素。根據(jù)這一點,通過對原始變量相關矩陣內部結構的關系研究,找出影響科普效果某一要素的幾個綜合指標,使綜合指標為原來變量的線性擬合。這樣,綜合指標不僅保留了原始變量的主要信息,且彼此間不相關,又比原始變量具有某些更優(yōu)越的性質,就使我們在研究復雜的科普效果評估問題時,容易抓住主要矛盾。上述想法可進一步概述為:設某科普效果評估要素涉及個指標,這指標構成的維隨機向量為。對作正交變換,令,其中為正交陣,的各分量是不相關的,使得的各分量在某個評估要素中的作用容易解釋,這就使得我們有可能從主分量中選擇主要成分,削除對這一要素影響微弱的部分,通過對主分量的重點分析,達到對原始變量進行分析的目的。的各分量是原始變量線性組合,不同的分量表示原始變量之間不同的影響關系。由于這些基本關系很可能與特定的作用過程相聯(lián)系,主成分分析使我們能從錯綜復雜的科普評估要素的眾多指標中,找出一些主要成分,以便有效地利用大量統(tǒng)計數(shù)據(jù),進行科普效果評估分析,使我們在研究科普效果評估問題中,可能得到深層次的一些啟發(fā),把科普效果評估研究引向深入。例如,在對科普產品開發(fā)和利用這一要素的評估中,涉及科普創(chuàng)作人數(shù)百萬人、科普作品發(fā)行量百萬人、科普產業(yè)化(科普示范基地數(shù)百萬人)等多項指標。經過主成分分析計算,最后確定個或個主成分作為綜合評價科普產品利用和開發(fā)的綜合指標,變量數(shù)減少,并達到一定的可信度,就容易進行科普效果的評估。三)、主成分分析法的數(shù)學模型:其中:為第j個指標對應于第個主成分的初始因子載荷,為第l個主成分對應的特征值根據(jù)主成分表達式得出綜合得分模型:四)、主成分分析法的基本原理:主成分分析法是一種降維的統(tǒng)計方法,它借助于一個正交變換,將其分量相關的原隨機向量轉化成其分量不相關的新隨機向量,這在代數(shù)上表現(xiàn)為將原隨機向量的協(xié)方差陣變換成對角形陣,在幾何上表現(xiàn)為將原坐標系變換成新的正交坐標系,使之指向樣本點散布最開的p個正交方向,然后對多維變量系統(tǒng)進行降維處理,使之能以一個較高的精度轉換成低維變量系統(tǒng),再通過構造適當?shù)膬r值函數(shù),進一步把低維系統(tǒng)轉化成一維系統(tǒng)。五)、主成分分析法的作用:概括起來說,主成分分析主要由以下幾個方面的作用。1.主成分分析能降低所研究的數(shù)據(jù)空間的維數(shù)。即用研究m維的Y空間代替p維的X空間(m<p),而低維的Y空間代替高維的x空間所損失的信息很少。即:使只有一個主成分Yl(即m=1)時,這個Yl仍是使用全部X變量(p個)得到的。例如要計算Yl的均值也得使用全部x的均值。在所選的前m個主成分中,如果某個Xi的系數(shù)全部近似于零的話,就可以把這個Xi刪除,這也是一種刪除多余變量的方法。2.有時可通過因子負荷aij的結論,弄清X變量間的某些關系。3.多維數(shù)據(jù)的一種圖形表示方法。我們知道當維數(shù)大于3時便不能畫出幾何圖形,多元統(tǒng)計研究的問題大都多于3個變量。要把研究的問題用圖形表示出來是不可能的。然而,經過主成分分析后,我們可以選取前兩個主成分或其中某兩個主成分,根據(jù)主成分的得分,畫出n個樣品在二維平面上的分布況,由圖形可直觀地看出各樣品在主分量中的地位,進而還可以對樣本進行分類處理,可以由圖形發(fā)現(xiàn)遠離大多數(shù)樣本點的離群點。4.由主成分分析法構造回歸模型。即把各主成分作為新自變量代替原來自變量x做回歸分析。5.用主成分分析篩選回歸變量?;貧w變量的選擇有著重的實際意義,為了使模型本身易于做結構分析、控制和預報,好從原始變量所構成的子集合中選擇最佳變量,構成最佳變量集合。用主成分分析篩選變量,可以用較少的計算量來選擇量,獲得選擇最佳變量子集合的效果。六)、主成分分析法的計算步驟:1、原始指標數(shù)據(jù)的標準化采集p維隨機向量x=(x1,X2,...,Up)T)n個樣品xi=(xi1,xi2,...,dip)T,I=1,2,…,n,n>p,構造樣本陣,對樣本陣元進行如下標準化變換:其中,得標準化陣Z。2、對標準化陣Z求相關系數(shù)矩陣其中,。3、解樣本相關矩陣R的特征方程得p個特征根,確定主成分按確定m值,使信息的利用率達85%以上,對每個job,j=1,2,...,m,解方程組Rib=job得單位特征向量。4、將標準化后的指標變量轉換為主成分U1稱為第一主成分,U2稱為第二主成分,…,Up稱為第p主成分。5、對m個主成分進行綜合評價對m個主成分進行加權求和,即得最終評價值,權數(shù)為每個主成分的方差貢獻率。PS另一種易于理解的步驟:1、數(shù)據(jù)標準化;2、求相關系數(shù)矩陣;3、一系列正交變換,使非對角線上的數(shù)置0,加到主對角上;得特征根xi(即相應那個主成分引起變異的方差),并按照從大到小的順序把特征根排列;4、求各個特征根對應的特征向量;用下式計算每個特征根的貢獻率Vi;VI=xi/(x1+x2+........)5、根據(jù)特征根及其特征向量解釋主成分物理意義七)、主成分分析法的案例:參見:基于主成分分析的力量結構指標的權重的計算、基于主成分析的江蘇省地方高校創(chuàng)新力研究十、因子分析法一)因子分析法介紹:主成分分析通過線性組合將原變量綜合成幾個主成分,用較少的綜合指標來代替原來較多的指標(變量)。在多變量分析中,某些變量間往往存在相關性。是什么原因使變量間有關聯(lián)呢?是否存在不能直接觀測到的、但影響可觀測變量變化的公共因子?因子分析法(FactorAnalysis)就是尋找這些公共因子的模型分析方法,它是在主成分的基礎上構筑若干意義較為明確的公因子,以它們?yōu)榭蚣芊纸庠兞?,以此考察原變量間的聯(lián)系與區(qū)別。例:隨著年齡的增長,兒童的身高、體重會隨著變化,具有一定的相關性,身高和體重之間為何會有相關性呢?因為存在著一個同時支配或影響著身高與體重的生長因子。那么,我們能否通過對多個變量的相關系數(shù)矩陣的研究,找出同時影響或支配所有變量的共性因子呢?因子分析就是從大量的數(shù)據(jù)中“由表及里”、“去粗取精”,尋找影響或支配變量的多變量統(tǒng)計方法。因此,可以說因子分析是主成分分析的推廣,也是一種把多個變量化為少數(shù)幾個綜合變量的多變量分析方法,其目的是用有限個不可觀測的隱變量來解釋原始變量之間的相關關系。因子分析主要用于:1、減少分析變量個數(shù);2、通過對變量間相關關系探測,將原始變量進行分類。即將相關性高的變量分為一組,用共性因子代替該組變量。二)、因子分析法的基本模型:因子分析法是從研究變量內部相關的依賴關系出發(fā),把一些具有錯綜復雜關系的變量歸結為少數(shù)幾個綜合因子的一種多變量統(tǒng)計分析方法。它的基本思想是將觀測變量進行分類,將相關性較高,即聯(lián)系比較緊密的分在同一類中,而不同類變量之間的相關性則較低,那么每一類變量實際上就代表了一個基本結構,即公共因子。對于所研究的問題就是試圖用最少個數(shù)的不可測的所謂公共因子的線性函數(shù)與特殊因子之和來描述原來觀測的每一分量。因子分析模型描述如下:1、X=(x1,x2,…,xp)是可觀測隨機向量,均值向量E(X)=0,協(xié)方差陣Cov(X)=∑,且協(xié)方差陣∑與相關矩陣R相等(只要將變量標準化即可實現(xiàn))。2、F=(F1,F(xiàn)2,…,F(xiàn)m)(m<p)是不可測的向量,其均值向量E(F)=0,協(xié)方差矩陣Cov(F)=I,即向量的各分量是相互獨立的。3、e=(e1,e2,…,ep)與F相互獨立,且E(e)=0,e的協(xié)方差陣∑是對角陣,即各分量e之間是相互獨立的,則模型:x1=a11F1+a12F2+…+a1mFm+e1x2=a21F1+a22F2+…+a2mFm+e2xp=ap1F1+ap2F2+…+apmFm+ep稱為因子分析模型,由于該模型是針對變量進行的,各因子又是正交的,所以也稱為R型正交因子模型。其矩陣形式為:x=AF+e其中:x=,A=,F(xiàn)=,e=這里(1)m£p;(2)Cov(F,e)=0,即F和e是不相關的;(3)D(F)=Im,即F1,F(xiàn)2,…,F(xiàn)m不相關且方差均為1;(4)D(e)=,即e1,e2,…,ep不相關,且方差不同。我們把F稱為X的公共因子或潛因子,矩陣A稱為因子載荷矩陣,e稱為X的特殊因子。A=(aij),aij為因子載荷。數(shù)學上可以證明,因子載荷aij就是第i變量與第j因子的相關系數(shù),反映了第i變量在第j因子上的重要性。三)、模型的統(tǒng)計意義:模型中F1,F(xiàn)2,…,F(xiàn)m叫做主因子或公共因子,它們是在各個原觀測變量的表達式中都共同出現(xiàn)的因子,是相互獨立的不可觀測的理論變量。公共因子的含義,必須結合具體問題的實際意義而定。e1,e2,…,ep叫做特殊因子,是向量x的分量xi(i=1,2,…,p)所特有的因子,各特殊因子之間以及特殊因子與所有公共因子之間都是相互獨立的。模型中載荷矩陣A中的元素(aij)是為因子載荷。因子載荷aij是xi與Fj的協(xié)方差,也是xi與Fj的相關系數(shù),它表示xi依賴Fj的程度。可將aij看作第i個變量在第j公共因子上的權,aij的絕對值越大(|aij|£1),表明xi與Fj的相依程度越大,或稱公共因子Fj對于xi的載荷量越大。為了得到因子分析結果的經濟解釋,因子載荷矩陣A中有兩個統(tǒng)計量十分重要,即變量共同度和公共因子的方差貢獻。因子載荷矩陣A中第i行元素之平方和記為hi2,稱為變量xi的共同度。它是全部公共因子對xi的方差所做出的貢獻,反映了全部公共因子對變量xi的影響。hi2大表明x的第i個分量xi對于F的每一分量F1,F(xiàn)2,…,F(xiàn)m的共同依賴程度大。將因子載荷矩陣A的第j列(j=1,2,…,m)的各元素的平方和記為gj2,稱為公共因子Fj對x的方差貢獻。gj2就表示第j個公共因子Fj對于x的每一分量xi(i=1,2,…,p)所提供方差的總和,它是衡量公共因子相對重要性的指標。gj2越大,表明公共因子Fj對x的貢獻越大,或者說對x的影響和作用就越大。如果將因子載荷矩陣A的所有gj2(j=1,2,…,m)都計算出來,使其按照大小排序,就可以依此提煉出最有影響力的公共因子。四)、因子旋轉:建立因子分析模型的目的不僅是找出主因子,更重要的是知道每個主因子的意義,以便對實際問題進行分析。如果求出主因子解后,各個主因子的典型代表變量不很突出,還需要進行因子旋轉,通過適當?shù)男D得到比較滿意的主因子。旋轉的方法有很多,正交旋轉(orthogonalrotation)和斜交旋轉(obliquerotation)是因子旋轉的兩類方法。最常用的方法是最大方差正交旋轉法(Varimax)。進行因子旋轉,就是要使因子載荷矩陣中因子載荷的平方值向0和1兩個方向分化,使大的載荷更大,小的載荷更小。因子旋轉過程中,如果因子對應軸相互正交,則稱為正交旋轉;如果因子對應軸相互間不是正交的,則稱為斜交旋轉。常用的斜交旋轉方法有Promax法等。五)、因子得分:因子分析模型建立后,還有一個重要的作用是應用因子分析模型去評價每個樣品在整個模型中的地位,即進行綜合評價。例如地區(qū)經濟發(fā)展的因子分析模型建立后,我們希望知道每個地區(qū)經濟發(fā)展的情況,把區(qū)域經濟劃分歸類,哪些地區(qū)發(fā)展較快,哪些中等發(fā)達,哪些較慢等。這時需要將公共因子用變量的線性組合來表示,也即由地區(qū)經濟的各項指標值來估計它的因子得分。設公共因子F由變量x表示的線性組合為:Fj=uj1xj1+uj2xj2+…+ujpxjpj=1,2,…,m該式稱為因子得分函數(shù),由它來計算每個樣品的公共因子得分。若取m=2,則將每個樣品的p個變量代入上式即可算出每個樣品的因子得分F1和F2,并將其在平面上做因子得分散點圖,進而對樣品進行分類或對原始數(shù)據(jù)進行更深入的研究。但因子得分函數(shù)中方程的個數(shù)m小于變量的個數(shù)p,所以并不能精確計算出因子得分,只能對因子得分進行估計。估計因子得分的方法較多,常用的有回歸估計法,Bartlett估計法,Thomson估計法。具體方法為:(1)回歸估計法F=Xb=X(X¢X)-1A¢=XR-1A(2)Bartlett估計法Bartlett估計因子得分可由最小二乘法或極大似然法導出。F=(W-1/2A)¢W-1/2A]-1(W-1/2A)¢W-1/2X=(A¢W-1A)-1A(3)Thomson估計法在回歸估計法中,實際上是忽略特殊因子的作用,取R=X¢X,若考慮特殊因子的作用,此時R=X¢X+W,于是有:F=XR-1A¢=X(X¢X+W)-1A這就是Thomson估計的因子得分,使用矩陣求逆算法(參考線性代數(shù)文獻)可以將其轉換為:F=XR-1A¢=X(I+A¢W-1A)-1W-1A¢六)、因子分析的步驟:因子分析的核心問題有兩個:一是如何構造因子變量;二是如何對因子變量進行命名解釋。因此,因子分析的基本步驟和解決思路就是圍繞這兩個核心問題展開的。因子分析常常有以下四個基本步驟:1、確認待分析的原變量是否適合作因子分析。2、構造因子變量。3、利用旋轉方

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論