多元統(tǒng)計分析主成分分析法演示_第1頁
多元統(tǒng)計分析主成分分析法演示_第2頁
多元統(tǒng)計分析主成分分析法演示_第3頁
多元統(tǒng)計分析主成分分析法演示_第4頁
多元統(tǒng)計分析主成分分析法演示_第5頁
已閱讀5頁,還剩53頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

(優(yōu)選)多元統(tǒng)計分析主成分分析法目前一頁\總數(shù)五十八頁\編于十三點思考1反映地區(qū)社會經(jīng)濟發(fā)展的指標體系

X1:國內(nèi)生產(chǎn)總值(GDP)X2:人均GDPX3:第三產(chǎn)業(yè)產(chǎn)值占GDP比重X4:人均出口額

X5:工業(yè)企業(yè)勞動生產(chǎn)率X6:人均社會消費品零售額

X7:每萬人擁有衛(wèi)生技術(shù)人員數(shù)X8:每萬人高等學校在校生數(shù)

X9:教育經(jīng)費投入占GDP比重X10:人均貨運總量

X11:人均郵電業(yè)務(wù)總量X12:每萬人電話機裝機數(shù)

X13:人均固定資產(chǎn)投資X14:人均實際利用外資

X15:地方財政收入占GDP比重X16:每萬人科研機構(gòu)數(shù)

X17:科研經(jīng)費占GDP比重

分析全國31個地區(qū)的社會經(jīng)濟發(fā)展水平。目前二頁\總數(shù)五十八頁\編于十三點

為了對常用的100種食品的生產(chǎn)進行經(jīng)營決策,需要就消費者對食品的嗜好程度進行調(diào)查。要求每個消費者對食品進行評價,按對食品的喜好程度評分,最受歡迎的給予最高分9分,最不受歡迎的給予最低分1分。思考2目前三頁\總數(shù)五十八頁\編于十三點

為了較好地滿足市場的需要,服裝生產(chǎn)廠要了解所生產(chǎn)的一種服裝究竟設(shè)計幾種型號合適?這些型號的服裝應(yīng)按怎樣的比例分配生產(chǎn)計劃才能達到較好的經(jīng)濟效益?

思考3——服裝的定型分類問題目前四頁\總數(shù)五十八頁\編于十三點大綱1.基本思想2.定義3.主成分的性質(zhì)、計算等4.案例5.主成分回歸目前五頁\總數(shù)五十八頁\編于十三點E.g.Hotelling(1939)用兩個主成分反映入學考試成績:

文科能力

數(shù)理能力預(yù)備知識:方差為零的變量不能區(qū)分總體中的個體成員;可以用一個變量的方差來度量其所傳遞的信息量。目前六頁\總數(shù)五十八頁\編于十三點主成分分析的基本概念

一個假設(shè)的例子:N=100均數(shù)101.6350.71方差109.6355.40標準差10.477.44

的均數(shù)=0

的均數(shù)=0目前七頁\總數(shù)五十八頁\編于十三點x2X1預(yù)備知識:向量

等方向都是同一個方向ab2a2b目前八頁\總數(shù)五十八頁\編于十三點(1)創(chuàng)建

使得

盡可能大,即尋找一個方向,使得所有點在此方向上的投影的方差盡可能大目前九頁\總數(shù)五十八頁\編于十三點(2)創(chuàng)建

使得

不相關(guān)

盡可能大。即尋找另一個方向垂直于所有點在

上的投影方差最大。目前十頁\總數(shù)五十八頁\編于十三點?????????????????????????????????????目前十一頁\總數(shù)五十八頁\編于十三點

例1985年中國人口普查資料:各省漢族青年(19-22歲)形態(tài)學指標的平均值。

目前十二頁\總數(shù)五十八頁\編于十三點如何綜合多個隨機變量?

我們想要一個或幾個綜合變量,概括6個形態(tài)指標的大部分信息.

注意:若某指標在人群中方差較大,它就是一個好的指標。目前十三頁\總數(shù)五十八頁\編于十三點尋找綜合變量

標準化(1)找第1個最佳的綜合變量

找適宜的系數(shù)

,使得與其他線性組合相比,有最大的方差

最大我們關(guān)心的是

之間的比值故限定目前十四頁\總數(shù)五十八頁\編于十三點(2)找第2個最佳的綜合變量

找適宜的

使得

最大

限定(3)找第3個最佳的綜合變量

最大

限定原有6個變量,最多可找到6個獨立的綜合變量目前十五頁\總數(shù)五十八頁\編于十三點主成分的一般定義

一般地,樣本均數(shù)樣本標準差標準化(1)在所有線性組合中,限定使得

最大的便是第1主成分。目前十六頁\總數(shù)五十八頁\編于十三點(2)在所有線性組合

中,限定使得

最大的便是第2主成分.………………

類似地,我們可以定義第3,第4,直到第p個主成分。

目前十七頁\總數(shù)五十八頁\編于十三點主成分的性質(zhì)(1)主成分之間不相關(guān)Corr(Ci,Cj)=0(2)系數(shù)(ai1,ai2,…,aip)是單位向量ai12+ai22+…+aip2=1(3)方差遞降Var(C1)≥Var(C2)≥…≥Var(Cp)(4)主成分的方差之和等于原變量的方差之和信息總量不增不減Var(C1)+Var(C2)+…+Var(Cp)=Var(x1)+Var(x2)+…+Var(xp)=p目前十八頁\總數(shù)五十八頁\編于十三點主成分的計算和解釋

(1)計算

的相關(guān)矩陣(2)計算R的特征根(特征值)即求解方程目前十九頁\總數(shù)五十八頁\編于十三點(3)計算特征向量

即求解方程

…得到目前二十頁\總數(shù)五十八頁\編于十三點

表1例1的相關(guān)矩陣

只有前幾個才是名副其實的“主成分”表2例1的相關(guān)矩陣的主成分

目前二十一頁\總數(shù)五十八頁\編于十三點表4例1的特征向量目前二十二頁\總數(shù)五十八頁\編于十三點主成分的個數(shù)

實踐中,(1)粗略地決定欲保留的方差百分比;

——僅保留前幾個主成分或(2)若某個主成分的方差大于1,就保留它

——因為原變量的方差都是1究竟保留幾個?

——取決于課題本身的需要目前二十三頁\總數(shù)五十八頁\編于十三點碎石圖目前二十四頁\總數(shù)五十八頁\編于十三點主成分與原變量的相關(guān)性

的關(guān)系:………………:主要反映身體的大??;

身高、坐高、體重、胸圍:反映寬度

肩寬和骨盆寬度總之,(1)主成分有助于綜合多個變量(2)主成分的意義有時不易解釋目前二十五頁\總數(shù)五十八頁\編于十三點例:抑郁癥問卷的綜合得分

表1標準CESD問卷的主成分(抑郁癥數(shù)據(jù))

目前二十六頁\總數(shù)五十八頁\編于十三點C1:多數(shù)條目的加權(quán)和C2:反映懶散和精力狀況C3:有關(guān)“別人怎樣看待自己”的感覺目前二十七頁\總數(shù)五十八頁\編于十三點例2關(guān)于下顎6個前齒的結(jié)石

1.右犬齒2.右、側(cè)門牙3.右、中門牙4.左、側(cè)門牙5.左、中門牙6.左犬齒目前二十八頁\總數(shù)五十八頁\編于十三點PC1:加權(quán)和,總的結(jié)石狀況PC2:門牙與犬齒比較PC3:左右比較目前二十九頁\總數(shù)五十八頁\編于十三點主成分分析的應(yīng)用綜合評價市場研究定型分類問題目前三十頁\總數(shù)五十八頁\編于十三點反映地區(qū)社會經(jīng)濟發(fā)展的指標體系

X1:國內(nèi)生產(chǎn)總值(GDP)X2:人均GDPX3:第三產(chǎn)業(yè)產(chǎn)值占GDP比重X4:人均出口額

X5:工業(yè)企業(yè)勞動生產(chǎn)率X6:人均社會消費品零售額

X7:每萬人擁有衛(wèi)生技術(shù)人員數(shù)X8:每萬人高等學校在校生數(shù)

X9:教育經(jīng)費投入占GDP比重X10:人均貨運總量

X11:人均郵電業(yè)務(wù)總量X12:每萬人電話機裝機數(shù)

X13:人均固定資產(chǎn)投資X14:人均實際利用外資

X15:地方財政收入占GDP比重X16:每萬人科研機構(gòu)數(shù)

X17:科研經(jīng)費占GDP比重

對全國31個地區(qū)上述17項指標的數(shù)據(jù)進行主成分分析,應(yīng)用SAS軟件進行處理。例1、主成分分析用于綜合評價目前三十一頁\總數(shù)五十八頁\編于十三點1、

求相關(guān)系數(shù)矩陣R2、

計算R的特征值主成分Y1Y2Y3Y4特征根貢獻率(%)累計貢獻率11.113465.3765.372.665615.6881.050.91265.3786.420.70524.1590.57目前三十二頁\總數(shù)五十八頁\編于十三點3、

求特征根所對應(yīng)的單位特征向量0.5132250.203116-0.1828580.1936180.2172900.113642-0.164527-0.114637-0.509240-0.0258320.0834710.1325920.1054020.199407-0.181330-0.261367-0.2957560.0384660.2760200.2436540.2634870.1805460.2908340.2598420.2805230.0942330.2159460.2920160.2882680.2820160.2590060.2167930.2599620.212293X1X2

X3X4X5X6X7X8X9X10X11X12X13X14X15X16X17Y2Y1特征向量目前三十三頁\總數(shù)五十八頁\編于十三點第一主成分名次地區(qū)Y1得分Y2得分123456789101112131415北京上海天津廣東遼寧福建浙江江蘇海南新疆吉林黑龍江山西寧夏云南11.725710.17765.12352.74221.13250.55860.27180.18170.0795-0.3075-0.4873-0.6307-0.7467-0.7791-0.8203-3.943962.435050.125513.349070.619421.902482.315762.53147-0.79528-1.07448-1.094130.61915-1.13709-1.92281-0.483134、主成分的表達式及其含義解釋5、計算主成分得分目前三十四頁\總數(shù)五十八頁\編于十三點第一主成分名次地區(qū)Y1得分Y2得分16171819202122232425262728293031陜西山東青海湖北內(nèi)蒙古河北甘肅重慶湖南西藏廣西四川江西河南安徽貴州-0.9116-1.0207-1.1131-1.1943-1.2295-1.4456-1.8358-1.8603-1.8806-1.9085-1.9098-2.1979-2.3049-2.3383-2.4358-2.6347-2.064812.32993-1.471450.66326-0.871811.25757-1.40987-0.364390.04577-2.04139-0.420780.331260.076600.869090.45974-0.83575目前三十五頁\總數(shù)五十八頁\編于十三點目前三十六頁\總數(shù)五十八頁\編于十三點

為了對常用的100種食品的生產(chǎn)進行經(jīng)營決策,需要就消費者對食品的嗜好程度進行調(diào)查。對785名消費者進行調(diào)查,要求每個消費者對100種食品進行評價,按對食品的喜好程度評分,最受歡迎的給予最高分9分,最不受歡迎的給予最低分1分。例2市場研究中的應(yīng)用目前三十七頁\總數(shù)五十八頁\編于十三點將被調(diào)查者按性別與年齡分成10組假若你是該食品加工業(yè)決策部門的高級顧問,為了對食品生產(chǎn)作出合理決策,請你對調(diào)查資料進行分析,為決策者提供建議。目前三十八頁\總數(shù)五十八頁\編于十三點

以組為單位,在每組中每個成員都對100種食品給予評分,然后計算每組成員對每種食品評分的平均值。食品組號12345678910123..1007.85.43.93.53.08.16.05.43.81.62.84.44.03.56.27.27.57.0.........3.12.83.33.02.53.93.53.02.82.59.03.01——5組表示男性,6——10組表示女性1——5,6——10年齡從小到大排序目前三十九頁\總數(shù)五十八頁\編于十三點特征向量y1y2y3X1X2X3X4X5X6X7X8X9X100.2860.3310.3230.2990.2610.3090.3440.3480.3460.3030.4430.235-0.172-0.364-0.5090.4090.2560.036-0.164-0.2670.1940.3360.4420.3750.123-0.034-0.171-0.290-0.322-0.522特征根方差貢獻率累計方差貢獻率6.82668.26%68.26%1.76917.69%85.95%0.757.5%93.45%目前四十頁\總數(shù)五十八頁\編于十三點y1反映了公共平均嗜好程度,y1得分越大,表示大眾越喜歡吃此食品。y2反映了年齡的作用。y2得分為正時,表示孩子喜歡吃;y2得分為負時,表示孩子不喜歡吃。y3反映性別的作用。y3得分為正時,表示男性喜歡吃;y3得分為負時,表示女性喜歡吃。主成分的含義目前四十一頁\總數(shù)五十八頁\編于十三點用得分來表示食品嗜好程度可有七成把握。在充分注意到人們普遍的嗜好程度基礎(chǔ)上,進一步考慮到青少年和老年人的嗜好程度,對食品業(yè)的開發(fā)方針作出決策時,將有85%的把握。目前四十二頁\總數(shù)五十八頁\編于十三點

特別喜歡吃的

醋拌生魚片、冰激棱

一般喜歡

男性喜歡

女性喜歡孩子成人咖喱飯雞蛋燴飯、炸豬排炸肉餅、火腿面包酸湯、大頭魚

一般不喜歡孩子成人干咖喱、濃湯煮牛肉、生蛋餅干、帶餡面包醬面條、燒魚

特別不喜歡

菜粥、清湯目前四十三頁\總數(shù)五十八頁\編于十三點

為了較好地滿足市場的需要,服裝生產(chǎn)廠要了解所生產(chǎn)的一種服裝究竟設(shè)計幾種型號合適?這些型號的服裝應(yīng)按怎樣的比例分配生產(chǎn)計劃才能達到較好的經(jīng)濟效益?

例3服裝的定型分類問題目前四十四頁\總數(shù)五十八頁\編于十三點X1:身長X2:坐高X3:胸圍X4:頭高X5:褲長X6:下襠X7:手長X8:領(lǐng)圍X9:前胸X10:后背X11:肩厚X12:肩寬X13:袖長X14:肋圍X15:腰圍X16:腿肚

對128名成年男子按16項指標進行測量。目前四十五頁\總數(shù)五十八頁\編于十三點特征值貢獻率累計貢獻率7.032.611.630.840.770.640.580.460.360.310.240.220.170.140.070.0444%16%10%6%5%4%3%3%2%2%2%1%1%

1%0044%60%70%76%81%85%88%91%93%95%97%98%99%100%目前四十六頁\總數(shù)五十八頁\編于十三點特征向量y1y2y3X1身長X2坐高X3

胸圍X4頭高X5褲長X6下襠X7手長X8領(lǐng)圍X9前胸X10后背X11肩厚X12肩寬X13袖長X14肋圍X15腰圍X16腿肚0.340.270.230.340.330.290.290.190.090.150.100.240.320.180.270.160.200.14-0.330.180.200.270.19-0.370.07-0.17-0.35-0.020.11-0.37-0.27-0.360.01-0.060.140.030.03-0.030.02-0.150.63-0.53-0.20-0.31-0.020.250.140.24目前四十七頁\總數(shù)五十八頁\編于十三點y1是刻畫尺寸大小的因子。y2反映人的胖瘦情況,是一個體形因子。反映“長”的尺寸前面的系數(shù)為正;反映“圍”的尺寸前的系數(shù)為負。y3系數(shù)多數(shù)取值很小,接近于0。只有三個系數(shù)絕對值較大。

y3是反映特殊體形的因子,區(qū)分有無畸形。目前四十八頁\總數(shù)五十八頁\編于十三點

區(qū)分有幾種型號(分類)各種型號的生產(chǎn)量(比例)要解決的問題:目前四十九頁\總數(shù)五十八頁\編于十三點主成分回歸

數(shù)據(jù)分析過程中的一個工具

可應(yīng)用于下列分析的中間過程:多重回歸判別分析因子分析

聚類分析…目前五十頁\總數(shù)五十八頁\編于十三點回歸中的共線性

當自變量高度相關(guān)時,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論