多元統(tǒng)計分析期末復(fù)習(xí)_第1頁
多元統(tǒng)計分析期末復(fù)習(xí)_第2頁
多元統(tǒng)計分析期末復(fù)習(xí)_第3頁
多元統(tǒng)計分析期末復(fù)習(xí)_第4頁
多元統(tǒng)計分析期末復(fù)習(xí)_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第1章 :多元統(tǒng)計分析研究的內(nèi)容(5點)1、簡化數(shù)據(jù)結(jié)構(gòu)(主成分分析)2、分類與判別(聚類分析、判別分析)3、變量間的相互關(guān)系(典型相關(guān)分析、多元回歸分析)4、多維數(shù)據(jù)的統(tǒng)計推斷5、多元統(tǒng)計分析的理論基礎(chǔ) 第二三章:2、 多維隨機變量的數(shù)字特征1、隨機向量的數(shù)字特征隨機向量X均值向量:隨機向量X與Y的協(xié)方差矩陣:當(dāng)X=Y時Cov(X,Y)=D(X);當(dāng)Cov(X,Y)=0 ,稱X,Y不相關(guān)。隨機向量X與Y的相關(guān)系數(shù)矩陣:2、均值向量協(xié)方差矩陣的性質(zhì)(1).設(shè)X,Y為隨機向量,A,B 為常數(shù)矩陣 E(AX)=AE(X); E(AXB)=AE(X)B; D(AX)=AD(X)A; Cov(AX,B

2、Y)=ACov(X,Y)B;(2).若X,Y獨立,則Cov(X,Y),反之不成立(3).X的協(xié)方差陣D(X)是對稱非負定矩陣。例2.見黑板三、多元正態(tài)分布的參數(shù)估計2、多元正態(tài)分布的性質(zhì)(1).若 ,則E(X)= ,D(X)= .特別地,當(dāng) 為對角陣時, 相互獨立。(2) .若 ,為sxp階常數(shù)矩陣,d為s階向量,d . 即正態(tài)分布的線性函數(shù)仍是正態(tài)分布(3).多元正態(tài)分布的邊緣分布是正態(tài)分布,反之不成立(4).多元正態(tài)分布的不相關(guān)與獨立等價例見黑板三、多元正態(tài)分布的參數(shù)估計(1)“ 為來自p元總體X的(簡單)樣本”的理解-獨立同截面(2)多元分布樣本的數(shù)字特征-常見多元統(tǒng)計量樣本均值向量 樣

3、本離差陣 樣本協(xié)方差陣 S;樣本相關(guān)陣(3) ,分別是 和的最大似然估計;(4)估計的性質(zhì)是的無偏估計; ,分別是和的有效和一致估計; ; , 與相互獨立;第5章 聚類分析:一、什么是聚類分析 :聚類分析是根據(jù)“物以類聚”的道理,對樣品或指標(biāo)進行分類的一種多元統(tǒng)計分析方法。用于對事物類別不清楚,甚至事物總共可能有幾類都不能確定的情況下進行事物分類的場合。聚類方法:系統(tǒng)聚類法(直觀易懂)、動態(tài)聚類法(快)、有序聚類法(保序).Q-型聚類分析(樣品)R-型聚類分析(變量) 變量按照測量它們的尺度不同,可以分為三類:間隔尺度、有序尺度、名義尺度。二、常用數(shù)據(jù)的變換方法:中心化變換、標(biāo)準(zhǔn)化變換、極差正

4、規(guī)化變換、對數(shù)變換(優(yōu)缺點)1、中心化變換(平移變換):中心化變換是一種坐標(biāo)軸平移處理方法,它是先求出每個變量的樣本平均值,再從原始數(shù)據(jù)中減去該變量的均值,就得到中心化變換后的數(shù)據(jù)。不改變樣本間的相互位置,也不改變變量間的相關(guān)性。2、標(biāo)準(zhǔn)化變換:首先對每個變量進行中心化變換,然后用該變量的標(biāo)準(zhǔn)差進行標(biāo)準(zhǔn)化。經(jīng)過標(biāo)準(zhǔn)化變換處理后,每個變量即數(shù)據(jù)矩陣中每列數(shù)據(jù)的平均值為0,方差為1,且也不再具有量綱,同樣也便于不同變量之間的比較。3、 極差正規(guī)化變換(規(guī)格化變換):規(guī)格化變換是從數(shù)據(jù)矩陣的每一個變量中找出其最大值和最小值,這兩者之差稱為極差,然后從每個變量的每個原始數(shù)據(jù)中減去該變量中的最小值,再除

5、以極差。經(jīng)過規(guī)格化變換后,數(shù)據(jù)矩陣中每列即每個變量的最大數(shù)值為1,最小數(shù)值為0,其余數(shù)據(jù)取值均在01之間;且變換后的數(shù)據(jù)都不再具有量綱,便于不同的變量之間的比較。4、 對數(shù)變換:對數(shù)變換是將各個原始數(shù)據(jù)取對數(shù),將原始數(shù)據(jù)的對數(shù)值作為變換后的新值。它將具有指數(shù)特征的數(shù)據(jù)結(jié)構(gòu)變換為線性數(shù)據(jù)結(jié)構(gòu)。 三、樣品間相近性的度量 研究樣品或變量的親疏程度的數(shù)量指標(biāo)有兩種:距離,它是將每一個樣品看作p維空間的一個點,并用某種度量測量點與點之間的距離,距離較近的歸為一類,距離較遠的點應(yīng)屬于不同的類;相似系數(shù),性質(zhì)越接近的變量或樣品,它們的相似系數(shù)越接近于1或一l,而彼此無關(guān)的變量或樣品它們的相似系數(shù)則越接近于0

6、,相似的為一類,不相似的為不同類。樣品之間的聚類即Q型聚類分析,則常用距離(統(tǒng)計量)來測度樣品之間的親疏程度;而變量之間的聚類即R型聚類分析,常用相似系數(shù)(統(tǒng)計量)來測度變量之間的親疏程度。、 距離的算法:明氏距離 蘭氏距離 斜交空間距離 馬氏距離 、 相似系數(shù)的算法:夾角余弦 相似系數(shù)、 樣品分類和指標(biāo)分類:對樣品分類常用距離,對指標(biāo)分類常用相似系數(shù)、 明氏(Minkowski)距離的兩個缺點:明氏距離的值與各指標(biāo)的量綱有關(guān),而各指標(biāo)計量單位的選擇有一定的人為性和隨意性,各變量計量單位的不同不僅使此距離的實際意義難以說清,而且,任何一個變量計量單位的改變都會使此距離的數(shù)值改變從而使該距離的數(shù)

7、值依賴于各變量計量單位的選擇。明氏距離的定義沒有考慮各個變量之間的相關(guān)性和重要性。實際上,明考夫斯基距離是把各個變量都同等看待,將兩個樣品在各個變量上的離差簡單地進行了綜合、 相似系數(shù):通常所說相關(guān)系數(shù),一般指變量間的相關(guān)系數(shù),作為刻劃樣品間的相似關(guān)系也可類似給出定義,即第i個樣品與第j個樣品之間的相似系數(shù)定義為: 實際上,就是兩個向量中心化后的夾角余弦、 距離和相似系數(shù)選擇的原則:(1)所選擇的親疏測度指標(biāo)在實際應(yīng)用中應(yīng)有明確的意義。(2)親疏測度指標(biāo)的選擇要綜合考慮已對樣本觀測數(shù)據(jù)實施了的變換方法和將要采用的聚類分析方法。(3)適當(dāng)?shù)乜紤]計算工作量的大小。練習(xí):1聚類分析是建立一種分類方法

8、,它將一批樣品或變量按照它們在性質(zhì)上的_進行科學(xué)的分類. 2Q型聚類法是按_進行聚類,R型聚類法是按 _進行聚類。 3Q型聚類統(tǒng)計量是_,而R型聚類統(tǒng)計量通常 采用_。 4在聚類分析中需要對原始數(shù)據(jù)進行無量綱化處理,以消除不同量綱或數(shù)量級的影響,達到數(shù)據(jù)間可同度量的目的。常用的無量綱化方法有以下幾種:_、_、_。5Q型聚類方法有_、_、_、_等。第六章 判別分析:1.四種判別方法:距離判別法、費歇判別法、貝葉斯判別法、逐步判別法。2.貝葉斯Bayes判別法:距離判別方法簡單實用,但沒有考慮到每個總體出現(xiàn)的機會大小,即先驗概率,沒有考慮到錯判的損失;Fisher判別法隨著總體個數(shù)的增加,建立的判

9、別式也增加,計算量加大,如果考慮各總體的重要性,問題會突出而簡單許多。既要考慮到各個總體出現(xiàn)的先驗概率,又要考慮到錯判造成的損失,Bayes判別就具有這些優(yōu)點,其判別效果更加理想,應(yīng)用也更廣泛?;舅枷耄嚎偸羌俣▽λ芯康膶ο笠延幸欢ǖ恼J識,常用先驗分布來認識它,然后,基于抽取的樣本對先驗概率作修正,得到后驗概率,最后采用相應(yīng)的判別準(zhǔn)則(如誤判率最小準(zhǔn)則,后驗概率最大準(zhǔn)則等)進行判別。Bayes判別法,對各類(總體)的分布有特定的要求,即已知先驗概率和分布密度函數(shù)。3.4. 各判別法之間的聯(lián)系:在正態(tài)等協(xié)方差陣及先驗概率相等的條件下貝葉斯判別與距離判別等價;不加權(quán)的判別法等價于距離判別法練習(xí):

10、1判別分析是要解決在研究對象已_的情況下,確定新的觀測數(shù)據(jù)屬于已知類別中哪一類的多元統(tǒng)計方法。2用判別分析方法處理問題時,通常以_作為衡量新樣本點與各已知組別接近程度的指標(biāo)。3進行判別分析時,通常指定一種判別規(guī)則,用來判定新樣本的歸屬,常見的判別準(zhǔn)則有_、_。4在p維空間Rp中,點與點之間的接近和疏遠尺度用_來衡量,最簡單的就是_或_。5類內(nèi)樣本點接近,類間樣本點疏遠的性質(zhì),可以通過_與_的大小差異表現(xiàn)出來,而兩者的比值能把不同的類區(qū)別開來。這個比值越大,說明類與類間的差異越_,分類效果越_。6Fisher判別法是找一個由p個變量組成的_,使得各自組內(nèi)點的_盡可能接近,而不同組間點的盡可能疏遠

11、。簡答題:1判別分析的分類:距離判別法、費歇判別法、貝葉斯判別法、逐步判別法。2判別的基本思想:是根據(jù)已掌握的、歷史上若干樣本的p個指標(biāo)數(shù)據(jù)及所屬類別的信息,總結(jié)出該事物分類的規(guī)律性,建立判別公式和判別準(zhǔn)則。根據(jù)總結(jié)出來的判別公式和判別準(zhǔn)則,判別未知類別的樣本點所屬的類別。3簡述兩個總體的判別及判別準(zhǔn)則:基本思路:(1)統(tǒng)計模型:設(shè)G1,G2是兩個不同的P維已知總體,x=(x1,xp)T是一個待判樣品; (2)距離判別準(zhǔn)則: (3)判別函數(shù):4簡述Fisher判別法及具體判別步驟:Fisher判別的思想是投影,將k組p維數(shù)投影到某一個方向,使得他們的投影組與組之間盡可能的分開。5簡述逐步判別基

12、本原理: 逐步引入變量,每次把一個判別能力最強的變量引入,每引入一個新的變量,對老變量又逐個進行檢驗,如其判別能力因新變量的引入而變得不顯著,應(yīng)把它從判別式中剔除,最終建立的判別函數(shù)中僅保留判別能力顯著的變量。6簡述BAYES判別分析與其它判別方法的優(yōu)劣:(1)與距離判別的優(yōu)劣比較:距離判別優(yōu)于兩個總體情況下的判別,對兩個總體幾乎沒有任何要求,簡捷,實用,易懂;距離判別法在多個總體時,沒有考慮各總體出現(xiàn)的概率,對各個變量的重要性一視同仁,難免產(chǎn)生誤判。Bayes判別法對的理論與方法嚴密而完善,對研究對象的信息利用充分,誤判率大大降低,但計算較復(fù)雜。(2)與判別法的比較:判別與判別的比較:對總體

13、的分布要求不同;多個總體下,判別的計算量大,但均值向量共線性程度較好時,可以考慮用判別;各總體出現(xiàn)的重要性不同時應(yīng)使用是判別。第7章 、主成分分析1.主成分分析就是設(shè)法將原來變量重新組合成一組新的相互無關(guān)的綜合變量來代替原來的變量,并盡可能多地反映原來變量的信息。數(shù)學(xué)表現(xiàn)為:Var(Yj)最大;cov(Yi,Yj)=0;2.主成分就是以協(xié)方差陣的特征向量為系數(shù)的線性組合,它們互不相關(guān),其方差的特征根。主成分的名次是按特征根取值大小的順序排列的。3. 主成分模型中各統(tǒng)計量的意義: 1)貢獻率:第i個主成分的方差在全部方差中所占比重 ,稱為貢獻率 ,反映了原來P個指標(biāo)多大的信息,有多大的綜合能力

14、。2)累積貢獻率:前k個主成分共有多大的綜合能力,用這k個主成分的方差和在全部方差中所占比重 來描述,稱為累積貢獻率。 例 :設(shè) 的協(xié)方差矩陣為 解得特征根為 , , 第一個主成分的貢獻率為5.83/(5.83+2.00+0.17)=72.875%,盡管第一個主成分的貢獻率并不小,但在本題中第一主成分不含第三個原始變量的信息,所以應(yīng)該取兩個主成分。4. 1)從協(xié)方差陣和相關(guān)系數(shù)矩陣出發(fā)計算主成分一般是不同的。2)主成分是原始變量的線性組合,故而起著原始變量的綜合作用。3)對總體分布類型沒有特定要求。4)主成分個數(shù)的確定。5)主成分用于系統(tǒng)評估。6)除主成分分析之外,還有主成分回歸和加權(quán)主成分分

15、析。填空:1、對P元正態(tài)分布變量來說,找主成分的問題就是找P維空間中的橢球體的主軸問題。2、樣本主成分的總方差等于_。 3、原始變量協(xié)方差矩陣的特征根的統(tǒng)計含義是_。 4、主成分表達式的系數(shù)向量是_協(xié)方差陣 的特征向量。5、主成分分析就是通過適當(dāng)?shù)淖兞刻鎿Q,使新變量成為原變量的線性組合,并尋求主成分來分析事物的一種方法。第8章 、因子分析1.什么是因子分析及基本思想 多元數(shù)據(jù)常常包含大量的測量變量,有時這些變量是相互重疊,存在相關(guān)性。因子分析的目的就是從實驗所得的數(shù)據(jù)樣本中概括和提取出較少量的關(guān)鍵因素,它們能反映和解釋所得的大量觀測事實,從而建立最簡潔、最基本的概念系統(tǒng),揭示出事物之間最本質(zhì)的

16、聯(lián)系。因子分析的基本思想是通過變量(或樣品)的相關(guān)系數(shù)矩陣內(nèi)部結(jié)構(gòu)的研究,找出能控制所有變量的少數(shù)幾個隨機變量去描述多個變量(或樣品)之間的相關(guān)關(guān)系。2. 主成分分析與因子分析的聯(lián)系與區(qū)別?相同之處:都是多元數(shù)據(jù)處理降維的統(tǒng)計方法;求解過程的出發(fā)點是一樣的;不同之處:主成分分析是變量變換:原始變量的線性組合表示新的綜合變量,即主成分;而因子分析需要構(gòu)造因子模型:潛在的假想變量和隨機影響變量的線性組合表示原始變量;主成分的系數(shù)是唯一的;而因子分析的載荷系數(shù)是不唯一的;3. 因子載荷aij的統(tǒng)計意義: 因子載荷是第i個變量與第j個公共因子的相關(guān)系數(shù)載荷矩陣中第i行,第j列的元素)反映了第i個變量與

17、第j個公共因子的相關(guān)重要性。絕對值越大,相關(guān)的密切程度越高。例題:假定某地固定資產(chǎn)投資率 ,通貨膨脹率 ,失業(yè)率 ,相關(guān)系數(shù)矩陣為 試用主成分分析法求因子分析模型。特征根為: 可取前兩個因子F1和F2為公共因子,第一公因子F1物價就業(yè)因子,對X的貢獻為1.55。第一公因子F2為投資因子,對X的貢獻為0.85。共同度分別為1,0.706,0.706。4.為什么要旋轉(zhuǎn)因子:由于因子載荷陣是不惟一的,所以應(yīng)該對因子載荷陣進行旋轉(zhuǎn)。目的是使因子載荷陣的結(jié)構(gòu)簡化,使載荷矩陣每列或行的元素平方值向0和1兩極分化。有三種主要的正交旋轉(zhuǎn)法:四次方最大法、方差最大法和等量最大法。5.因子分析通常包括以下五個步驟

18、:選擇分析的變量; 計算所選原始變量的相關(guān)系數(shù)矩陣;提取公共因子;因子旋轉(zhuǎn); 計算因子得分。6.變量共同度的統(tǒng)計意義:變量 的共同度是因子載荷矩陣的第i行的元素的平方和。記為7.因子分析數(shù)學(xué)模型:填空:1因子分析是把每個原始變量分解為兩部分因素,一部分是_公共因子_,另一部分為_特殊因子_。2變量共同度是指因子載荷矩陣中_變量所在行元素平方和_。3公共因子方差與特殊因子方差之和為_1_。4因子分析和主成分分析在求解過程中都是從 出發(fā)簡答:1比較因子分析和主成分分析模型的關(guān)系,說明它們的相似和不同之處。 2能否將因子旋轉(zhuǎn)的技術(shù)用于主成分分析,使主成分有更鮮明的實際背景 :不能,用了就是因子分析,

19、旋轉(zhuǎn)之后不叫主成分(這一句就行),公因子的方差不等于特征值,因此不能旋轉(zhuǎn)。 3.因子分析中為什么要進行因子旋轉(zhuǎn)?通過因子旋轉(zhuǎn),可以使每個變量只在一個公共因子上有較大的載荷,因此因子分析模型是適用的。 4.什么是因子得分?因子得分有何作用?在因子分析中,得出公共因子后,可以根據(jù)原始變量計算出各個樣本(個體)在每個因子上的得分,稱為因子得分,因子得分可以有多種求解方法,計算出因子得分后,可以把各個因子作為新的變量用于其他分析,也可以來進行綜合評價等。第9章 、對應(yīng)分析1. 對應(yīng)分析:也稱關(guān)聯(lián)分析、R-Q型因子分析,通過分析由定性變量構(gòu)成的交互匯總表來揭示變量間聯(lián)系??梢越沂就蛔兞康母鱾€類別之間的

20、差異,以及不同變量各個類別之間的對應(yīng)關(guān)系。對應(yīng)分析的基本思想是將一個聯(lián)列表的行和列中各元素的比例結(jié)構(gòu)以點的形式在較低維的空間中表示出來。它最大特點是能把眾多的樣品和眾多的變量同時作到同一張圖解上,將樣品的大類及其屬性在圖上直觀而又明了地表示出來,具有直觀性。2. 對應(yīng)分析方法的優(yōu)缺點:(1)定性變量劃分的類別越多,這種方法的優(yōu)越性越明顯(2)揭示行變量類間與列變量類間的聯(lián)系(3)將類別的聯(lián)系直觀地表現(xiàn)在圖形中(4)不能用于相關(guān)關(guān)系的假設(shè)檢驗(5)維數(shù)有研究者自定(6)受極端值的影響第10章 :1.研究兩組隨機變量之間的相關(guān)性用典型相關(guān)分析。典型相關(guān)分析就是分別構(gòu)造各組變量的適當(dāng)線性組合,將兩組變量的相關(guān)性轉(zhuǎn)化為兩個變量的相關(guān)性。數(shù)學(xué)表現(xiàn)為: 最大;U和V分別來自兩組變量的線性組合。2. 課件P21頁例題。第11章 多重多元回歸分析一回歸分析的功能及涵義:回歸分析是研究一個(或多個)因變量對于一個或多個其他變量(即自變量)的依存關(guān)系,并用數(shù)學(xué)模型加以模擬,目的在于根據(jù)已知的或在多次重復(fù)抽樣中固定的解釋變量之值,估計、預(yù)測因變量的總體平均值。二回歸分析的研究思路和步驟:根據(jù)研究問題的性質(zhì)、要求建立回歸模型。根據(jù)樣本觀測值對回歸模型參數(shù)進行估計,求得回歸方程。對回歸方程、參數(shù)估計值進行顯著性檢驗。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論