




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、第七章 主成分分析(一)教學(xué)目的通過本章的學(xué)習(xí),對主成分分析從總體上有一個(gè)清晰地認(rèn)識,理解主成分分析的基本思想和數(shù)學(xué)模型,掌握用主成分分析方法解決實(shí)際問題的能力。(二)基本要求了解主成分分析的基本思想,幾何解釋,理解主成分分析的數(shù)學(xué)模型,掌握主成分分析方法的主要步驟。(三)教學(xué)要點(diǎn)1、主成分分析基本思想,數(shù)學(xué)模型,幾何解釋2、主成分分析的計(jì)算步驟及應(yīng)用(四)教學(xué)時(shí)數(shù)3課時(shí)(五)教學(xué)內(nèi)容1、主成分分析的原理及模型2、主成分的導(dǎo)出及主成分分析步驟 在實(shí)際問題中,我們經(jīng)常會遇到研究多個(gè)變量的問題,而且在多數(shù)情況下,多個(gè)變量之間常常存在一定的相關(guān)性。由于變量個(gè)數(shù)較多再加上變量之間的相關(guān)性,勢必增加了分
2、析問題的復(fù)雜性。如何從多個(gè)變量中綜合為少數(shù)幾個(gè)代表性變量,既能夠代表原始變量的絕大多數(shù)信息,又互不相關(guān),并且在新的綜合變量基礎(chǔ)上,可以進(jìn)一步的統(tǒng)計(jì)分析,這時(shí)就需要進(jìn)行主成分分析。第一節(jié) 主成分分析的原理及模型一、主成分分析的基本思想與數(shù)學(xué)模型(一)主成分分析的基本思想主成分分析是采取一種數(shù)學(xué)降維的方法,找出幾個(gè)綜合變量來代替原來眾多的變量,使這些綜合變量能盡可能地代表原來變量的信息量,而且彼此之間互不相關(guān)。這種將把多個(gè)變量化為少數(shù)幾個(gè)互相無關(guān)的綜合變量的統(tǒng)計(jì)分析方法就叫做主成分分析或主分量分析。主成分分析所要做的就是設(shè)法將原來眾多具有一定相關(guān)性的變量,重新組合為一組新的相互無關(guān)的綜合變量來代替
3、原來變量。通常,數(shù)學(xué)上的處理方法就是將原來的變量做線性組合,作為新的綜合變量,但是這種組合如果不加以限制,則可以有很多,應(yīng)該如何選擇呢?如果將選取的第一個(gè)線性組合即第一個(gè)綜合變量記為,自然希望它盡可能多地反映原來變量的信息,這里“信息”用方差來測量,即希望越大,表示包含的信息越多。因此在所有的線性組合中所選取的應(yīng)該是方差最大的,故稱為第一主成分。如果第一主成分不足以代表原來個(gè)變量的信息,再考慮選取即第二個(gè)線性組合,為了有效地反映原來信息,已有的信息就不需要再出現(xiàn)在中,用數(shù)學(xué)語言表達(dá)就是要求,稱為第二主成分,依此類推可以構(gòu)造出第三、四第個(gè)主成分。(二)主成分分析的數(shù)學(xué)模型對于一個(gè)樣本資料,觀測個(gè)
4、變量,個(gè)樣品的數(shù)據(jù)資料陣為:其中:主成分分析就是將個(gè)觀測變量綜合成為個(gè)新的變量(綜合變量),即簡寫為: 要求模型滿足以下條件:互不相關(guān)(,)的方差大于的方差大于的方差,依次類推 于是,稱為第一主成分,為第二主成分,依此類推,有第個(gè)主成分。主成分又叫主分量。這里我們稱為主成分系數(shù)。上述模型可用矩陣表示為:,其中 稱為主成分系數(shù)矩陣。二、主成分分析的幾何解釋假設(shè)有個(gè)樣品,每個(gè)樣品有二個(gè)變量,即在二維空間中討論主成分的幾何意義。設(shè)個(gè)樣品在二維空間中的分布大致為一個(gè)橢園,如下圖所示:圖7.1 主成分幾何解釋圖將坐標(biāo)系進(jìn)行正交旋轉(zhuǎn)一個(gè)角度,使其橢圓長軸方向取坐標(biāo),在橢圓短軸方向取坐標(biāo),旋轉(zhuǎn)公式為寫成矩陣
5、形式為:其中為坐標(biāo)旋轉(zhuǎn)變換矩陣,它是正交矩陣,即有,即滿足。經(jīng)過旋轉(zhuǎn)變換后,得到下圖的新坐標(biāo):圖7.2 主成分幾何解釋圖新坐標(biāo)有如下性質(zhì):(1)個(gè)點(diǎn)的坐標(biāo)和的相關(guān)幾乎為零。(2)二維平面上的個(gè)點(diǎn)的方差大部分都?xì)w結(jié)為軸上,而軸上的方差較小。和稱為原始變量和的綜合變量。由于個(gè)點(diǎn)在軸上的方差最大,因而將二維空間的點(diǎn)用在軸上的一維綜合變量來代替,所損失的信息量最小,由此稱軸為第一主成分,軸與軸正交,有較小的方差,稱它為第二主成分。三、主成分分析的應(yīng)用主成分概念首先是由Karl parson 在1901年引進(jìn),但當(dāng)時(shí)只對非隨機(jī)變量來討論的。1933年Hotelling將這個(gè)概念推廣到隨機(jī)變量。特別是近年
6、來,隨著計(jì)算機(jī)軟件的應(yīng)用,使得主成分分析的應(yīng)用也越來越廣泛。其中,主成分分析可以用于系統(tǒng)評估。系統(tǒng)評估是指對系統(tǒng)營運(yùn)狀態(tài)做出評估,而評估一個(gè)系統(tǒng)的營運(yùn)狀態(tài)往往需要綜合考察許多營運(yùn)變量,例如對某一類企業(yè)的經(jīng)濟(jì)效益作評估,影響經(jīng)濟(jì)效益的變量很多,很難直接比較其優(yōu)劣,所以解決評估問題的焦點(diǎn)是希望客觀、科學(xué)地將一個(gè)多變量問題綜合成一個(gè)單變量形式,也就是說只有在一維空間中才能使排序評估成為可能,這正符合主成分分析的基本思想。在經(jīng)濟(jì)統(tǒng)計(jì)研究中,除了經(jīng)濟(jì)效益的綜合評價(jià)研究外,對不同地區(qū)經(jīng)濟(jì)發(fā)展水平的評價(jià)研究,不同地區(qū)經(jīng)濟(jì)發(fā)展競爭力的評價(jià)研究,人民生活水平、生活質(zhì)量的評價(jià)研究,等等都可以用主成分分析方法進(jìn)行研
7、究。另外,主成分分析除了用于系統(tǒng)評估研究領(lǐng)域外,還可以與回歸分析結(jié)合,進(jìn)行主成分回歸分析,以及利用主成分分析進(jìn)行挑選變量,選擇變量子集合的研究。第二節(jié) 主成分的導(dǎo)出及主成分分析的步驟一、主成分的導(dǎo)出 根據(jù)主成分分析的數(shù)學(xué)模型的定義,要進(jìn)行主成分分析,就需要根據(jù)原始數(shù)據(jù),以及模型的三個(gè)條件的要求,如何求出主成分系數(shù),以便得到主成分模型。這就是導(dǎo)出主成分所要解決的問題。1、根據(jù)主成分?jǐn)?shù)學(xué)模型的條件要求主成分之間互不相關(guān),為此主成分之間的協(xié)差陣應(yīng)該是一個(gè)對角陣。即,對于主成分,其協(xié)差陣應(yīng)為,=2、設(shè)原始數(shù)據(jù)的協(xié)方差陣為,如果原始數(shù)據(jù)進(jìn)行了標(biāo)準(zhǔn)化處理后則協(xié)方差陣等于相關(guān)矩陣,即有,3、再由主成分?jǐn)?shù)學(xué)模
8、型條件和正交矩陣的性質(zhì),若能夠滿足條件最好要求為正交矩陣,即滿足于是,將原始數(shù)據(jù)的協(xié)方差代入主成分的協(xié)差陣公式得展開上式得展開等式兩邊,根據(jù)矩陣相等的性質(zhì),這里只根據(jù)第一列得出的方程為:為了得到該齊次方程的解,要求其系數(shù)矩陣行列式為0,即顯然,是相關(guān)系數(shù)矩陣的特征值,是相應(yīng)的特征向量。根據(jù)第二列、第三列等可以得到類似的方程,于是是方程的個(gè)根,為特征方程的特征根,是其特征向量的分量。4、下面再證明主成分的方差是依次遞減設(shè)相關(guān)系數(shù)矩陣的個(gè)特征根為,相應(yīng)的特征向量為相對于的方差為同樣有:,即主成分的方差依次遞減。并且協(xié)方差為:綜上所述,根據(jù)證明有,主成分分析中的主成分協(xié)方差應(yīng)該是對角矩陣,其對角線上
9、的元素恰好是原始數(shù)據(jù)相關(guān)矩陣的特征值,而主成分系數(shù)矩陣的元素則是原始數(shù)據(jù)相關(guān)矩陣特征值相應(yīng)的特征向量。矩陣是一個(gè)正交矩陣。于是,變量經(jīng)過變換后得到新的綜合變量新的隨機(jī)變量彼此不相關(guān),且方差依次遞減。二、主成分分析的計(jì)算步驟樣本觀測數(shù)據(jù)矩陣為:第一步:對原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。 其中 第二步:計(jì)算樣本相關(guān)系數(shù)矩陣。為方便,假定原始數(shù)據(jù)標(biāo)準(zhǔn)化后仍用表示,則經(jīng)標(biāo)準(zhǔn)化處理后的數(shù)據(jù)的相關(guān)系數(shù)為: 第三步:用雅克比方法求相關(guān)系數(shù)矩陣的特征值()和相應(yīng)的特征向量。第四步:選擇重要的主成分,并寫出主成分表達(dá)式。主成分分析可以得到個(gè)主成分,但是,由于各個(gè)主成分的方差是遞減的,包含的信息量也是遞減的,所以實(shí)際分析
10、時(shí),一般不是選取個(gè)主成分,而是根據(jù)各個(gè)主成分累計(jì)貢獻(xiàn)率的大小選取前個(gè)主成分,這里貢獻(xiàn)率就是指某個(gè)主成分的方差占全部方差的比重,實(shí)際也就是某個(gè)特征值占全部特征值合計(jì)的比重。即貢獻(xiàn)率=貢獻(xiàn)率越大,說明該主成分所包含的原始變量的信息越強(qiáng)。主成分個(gè)數(shù)的選取,主要根據(jù)主成分的累積貢獻(xiàn)率來決定,即一般要求累計(jì)貢獻(xiàn)率達(dá)到85%以上,這樣才能保證綜合變量能包括原始變量的絕大多數(shù)信息。另外,在實(shí)際應(yīng)用中,選擇了重要的主成分后,還要注意主成分實(shí)際含義解釋。主成分分析中一個(gè)很關(guān)鍵的問題是如何給主成分賦予新的意義,給出合理的解釋。一般而言,這個(gè)解釋是根據(jù)主成分表達(dá)式的系數(shù)結(jié)合定性分析來進(jìn)行的。主成分是原來變量的線性組合,在這個(gè)線性組合中個(gè)變量的系數(shù)有大有小,有正有負(fù),有的大小相當(dāng),因而不能簡單地認(rèn)為這個(gè)主成分是某個(gè)原變量的屬性的作用,線性組合中各變量系數(shù)的絕對值大者表明該主成分主要綜合了絕對值大的變量,有幾個(gè)變量系數(shù)大小相當(dāng)時(shí),應(yīng)認(rèn)為這一主成分是這幾個(gè)變量的總和,這幾個(gè)變量綜合在一起應(yīng)賦予怎樣的實(shí)際意義,這要結(jié)合具體實(shí)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年高考?xì)v史主觀題答題術(shù)語匯編
- DB36-T1673-2022-腳板薯田間越冬保種技術(shù)規(guī)程-江西省
- DB36-T1850-2023-水稻機(jī)械化收獲減損技術(shù)規(guī)范-江西省
- 護(hù)理年終考核總結(jié)
- 2025年人力資源管理師一級綜合評審試卷:勞動經(jīng)濟(jì)學(xué)與人力資源管理
- 電學(xué)思維訓(xùn)練與能力拓展-2025年八年級物理期末電學(xué)綜合能力測試卷
- 外護(hù)練習(xí)試題及答案
- HSK六級2025模擬試卷:高級語法與長文寫作實(shí)戰(zhàn)技巧
- 2025年消防安全設(shè)施維護(hù)與保養(yǎng)法規(guī)模擬考試題庫試卷
- 計(jì)算機(jī)二級Delphi項(xiàng)目實(shí)戰(zhàn)試題及答案
- 家務(wù)服務(wù)員理論考試試題題庫及答案
- 交通安全培訓(xùn)課件-道路交通事故十大典型案例-P
- 投標(biāo)報(bào)名登記表格式
- DB4211T12-2022醫(yī)療廢物暫存間衛(wèi)生管理規(guī)范
- 第二講公文語言及結(jié)構(gòu)(1語言)分析課件
- 氯氧鉍光催化劑的晶體結(jié)構(gòu)
- 低壓電氣裝置的設(shè)計(jì)安裝和檢驗(yàn)第三版
- 國際商務(wù)管理超星爾雅滿分答案
- 監(jiān)理人員考勤表
- 克麗緹娜直銷獎金制度
- 基本醫(yī)療保險(xiǎn)參保人員丟失醫(yī)療費(fèi)用票據(jù)補(bǔ)支申請
評論
0/150
提交評論