廈門大學(xué)《應(yīng)用多元統(tǒng)計分析》第08章-相應(yīng)分析

上傳人：輔*** IP屬地：江蘇上傳時間：2023-03-10 格式：PPT 頁數(shù)：58 大?。?.03MB 積分：38 舉報 版權(quán)申訴

廈門大學(xué)《應(yīng)用多元統(tǒng)計分析》第08章-相應(yīng)分析_第2頁

廈門大學(xué)《應(yīng)用多元統(tǒng)計分析》第08章-相應(yīng)分析_第3頁

廈門大學(xué)《應(yīng)用多元統(tǒng)計分析》第08章-相應(yīng)分析_第4頁

廈門大學(xué)《應(yīng)用多元統(tǒng)計分析》第08章-相應(yīng)分析_第5頁

已閱讀5頁，還剩53頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

第八章相應(yīng)分析第一節(jié)引言

第二節(jié)列聯(lián)表

第三節(jié)相應(yīng)分析的基本理論

第四節(jié)相應(yīng)分析中應(yīng)注意的問題

第五節(jié)實例分析與計算機實現(xiàn)

第一節(jié)引言相應(yīng)分析(correspondenceanalysis)也叫對應(yīng)分析，其特點是它所研究的變量可以是定性的。通常意義下的相應(yīng)分析，是指對兩個定性變量（因素）的多種水平進行相應(yīng)性研究，因而它的應(yīng)用越來越廣泛，現(xiàn)在這種方法已經(jīng)成為常用的多元分析方法之一。在社會、經(jīng)濟以及其他領(lǐng)域中，進行數(shù)據(jù)分析時經(jīng)常要處理因素與因素之間的關(guān)系，及因素內(nèi)部各個水平之間的相互關(guān)系。例如，評價某一個行業(yè)所屬企業(yè)的經(jīng)濟效益，我們不僅要研究因素A，即企業(yè)按照經(jīng)濟效益好壞的分類情況，以及要研究因素B，即經(jīng)濟效益指標之間的關(guān)系，還要研究哪些企業(yè)與哪些經(jīng)濟效益指標更密切一些。這就需要相應(yīng)分析的方法，將經(jīng)濟效益指標和企業(yè)狀況放在一起進行分類、作圖，以便更好的描述兩者之間的關(guān)系，在經(jīng)濟意義上做出切合實際的解釋。相應(yīng)分析的思想首先由理查森（Richardson）和庫德（Kuder）于1933年提出，后來法國統(tǒng)計學(xué)家讓-保羅?貝內(nèi)澤（Jean-PaulBenzécri）等人對該方法進行了詳細的論述而使其得到了發(fā)展。為了把握相應(yīng)分析方法的實質(zhì)，本章將從列聯(lián)資料入手，介紹一些基本概念和相應(yīng)分析的基本理論，并讓讀者理解相應(yīng)分析與獨立性檢驗的關(guān)系，進一步明確對實際問題進行相應(yīng)分析研究的必要性所在。一、列聯(lián)表的概念在實際中經(jīng)常要了解兩組或多組因素(或變量)之間的關(guān)系。設(shè)有兩組因素A和B，其中因素A包含r個水平，即A1，A2，…，Ar；因素B包含c個水平，即B1，

B2，

…，Bc。又設(shè)有受制于這兩個因素的載體(或客體)的集合總體￥。我們希望通過對總體￥關(guān)于這兩組因素的有關(guān)資料(或抽樣資料)，來分析這兩組因素的關(guān)系。例如，要考查在某個人群中關(guān)于吸煙或不吸煙(因素A)與得肺癌或不得肺癌(因素B)兩組因素之間的關(guān)系。通常的作法是，隨機地從該人群中抽樣，對這兩種因素進行調(diào)查，設(shè)調(diào)查了k個人，得到一個二維列聯(lián)表，見表8.1。其中，kij為調(diào)查的k人中出現(xiàn)因素A的第i個水平和因素B的第j個水平的人數(shù)。這樣，我們就得到一個兩因素，即吸煙與是否得肺癌的22列聯(lián)表。表8.1二維列聯(lián)表

二、有關(guān)記號為了敘述方便，先引進一些基本概念和記號。設(shè)K=(kij)rc為一個rc的列聯(lián)表(表8.2)，稱元素kij為原始頻數(shù)。將列聯(lián)表K轉(zhuǎn)化為頻率矩陣，記為F=(fij)rc，見表8.3。表8.3一般的二維頻率表

第三節(jié)相應(yīng)分析的基本理論一原始資料的變換

二基于矩陣的分析過程

我們知道相應(yīng)分析的主要目的是尋求列聯(lián)表行因素A和列因素B的基本分析特征和它們的最優(yōu)聯(lián)立表示。為了實現(xiàn)行因素A與列因素B最優(yōu)聯(lián)立表示，進一步剖析行因素A內(nèi)部之間，列因素B內(nèi)部之間，以及因素A和列因素B之間的關(guān)系，這里將介紹原始的列聯(lián)資料K=(kij)rc變換成矩陣Z=(zij)rc的具體過程，這樣使得zij對因素A和列因素B具有對等性，在此基礎(chǔ)上進行相應(yīng)分析。

二、基于矩陣的分析過程

（8.14）式表明Zuj為相對于特征值λj的關(guān)于因素A各水平構(gòu) 成的協(xié)差陣∑r的特征向量。這樣我們就建立了相應(yīng)分析中R型因子分析和Q型因子分析的關(guān)系。也就是說，我們可以從R型因子分析出發(fā)而直接得到Q型因子分析的結(jié)果。這里需要強調(diào)的是，由于∑r和∑c有相同的特征根，而這些特征根又表示各個公共因子所提供的方差。那么，在因素B的c維空間Rc中的第一公共因子，第二公共因子直到第m個公共因子與因素A的r維空間Rr中相對于的各個主因子在總方差中所占的百分比就完全相同。這樣就可以用相同的因子軸同時描述兩個因素各個水平的情況，把兩個因素的各個水平的狀況同時反映到具有相同坐標軸的因子平面上。一般情形，我們?nèi)蓚€公共因子，這樣就可以在一張二維平面圖上繪出兩個因素各個水平的情況，即可以直觀地描述兩個因素A和因素B以及各個水平之間的相關(guān)關(guān)系。

一、利用SPSS進行相應(yīng)分析——

實例1數(shù)據(jù)來自SPSS軟件自帶數(shù)據(jù)集voter.sav，為1992年美國大選的部分數(shù)據(jù)。要求對選民的最高學(xué)歷水平（degree）和所支持的總統(tǒng)候選人（pres92）進行相應(yīng)分析。（一）操作步驟 1.正確打開數(shù)據(jù)集voter.sav后，由Analyze→DataReduction→CorrespondenceAnalysis可進入相應(yīng)分析的主對話框（圖8.1）。圖8.1相應(yīng)分析主界面 2.從左側(cè)變量列表中選擇兩個變量作為相應(yīng)分析的兩個維度。這里我們選擇pres92作為行維度，點擊Row左側(cè)的三角箭頭就可以看到在Row項下出現(xiàn)了pres92(??)，這時用鼠標選中該變量，其下方的DefineRange子對話框激活，點擊后出現(xiàn)變量水平設(shè)置窗口（圖8.2）。分為上下兩個部分：Categoryrangeforrowvariable:pres92和CategoryConstraints。這里要分析所有的三位總統(tǒng)候選人和選民的學(xué)歷水平的關(guān)系，所以在Minimumvalue中填入1，在Maximumvalue中填入3，之后點擊Update按鈕。就可以在下方的CategoryConstraints欄中看到，后續(xù)分析中的行變量僅包含3個類目，分別是1、2和3。圖8.2DefineRowRange子對話框在右側(cè)還有三個單選項：None表示沒有任何約束；Categoriesmustbeequal可用于指定某些類目的得分必須相同，最多可以設(shè)置有效類目的個數(shù)減1個得分相等的類目，如本例中最多可以設(shè)置2個類目得分相等；Categoryissupplemental表示某些類目不參加相應(yīng)分析但是會在圖形中標示。這里我們不對分類進行任何約束，點擊Continue按鈕后回到主對話框。類似的可以指定degree的有效類目最小值為0，最大值為4。 3.點擊Model按鈕，指定相應(yīng)分析結(jié)果的維數(shù)。（圖8.3）

（1）Dimensionsinsolution。默認為2，最大可以設(shè)置為各變量中的最少類目數(shù)減1。（2）選擇距離測度的方式DistanceMeasure。有Chisquare 和Euclidean兩種，定性變量應(yīng)該用Chisquare。（3）標準化方法StandardizationMethod。圖8.3Model子對話框（4）正態(tài)化方法NormalizationMethod。需要比較行列變量的類目差異時選擇Symmetrical，需要比較行列變量中任意兩個類目的差異時選擇Principal，比較行變量的類目差異時選擇Rowprincipal，而比較列變量的類目差異時選擇Columnprincipal，也可以在Customize中指定[-1,1]之間的任意實數(shù)，特別的，如果輸入-1則為Columnprincipal，輸入1為Rowprincipal，輸入0為Symmetrical。而一般該對話框中的選項無需改動。4.點擊Statistics按鈕，設(shè)定輸出的相應(yīng)分析統(tǒng)計量，如圖8.4?？梢灾付ㄝ敵鱿鄳?yīng)分析表Correspondencetable，行點總覽表Overviewofrowpoints，列點總覽表Overviewofcolumnpoints，行輪廓Rowprofiles，列輪廓Columnprofiles。默認只輸出前三項。而Permutationsofthecorrespondencetable是用于指定前n個維度的行列得分表。如果該項選中，下方的Maximumdimensionforpermutations被激活，用于指定維度n。此外，還可以在ConfidenceStatisticsfor復(fù)選項中選擇計算行點和列點的標準差以及相關(guān)系數(shù)。

圖8.4Statistics子對話框 5.點擊Plots按鈕，設(shè)定輸出的統(tǒng)計圖，如圖8.5?？梢灾付ㄝ敵鱿鄳?yīng)分析的散點圖Scatterplots，默認只輸出包含行列變量的雙變量散點圖Biplot。也可指定輸出行點圖Rowpoints和列點圖Columnpoints。而IDlabelwidthforScatterplots是指定散點標簽的長度，默認20。下方的Lineplots項中，可以輸出行/列點對應(yīng)于行/列得分的線圖，和散點圖類似。 6.我們在Model，Statistics，Plots三個子對話框中都使用默認設(shè)定，點擊主對話框的OK按鈕，即得到相應(yīng)分析的結(jié)果。圖8.5Plots子對話框（二）結(jié)果分析： SPSS運行相應(yīng)分析后會產(chǎn)生以下四張表（表8.4到表8.7）。 1.CorrespondenceTable（相應(yīng)分析表），如表8.4，即列聯(lián)表。ActiveMargin為邊際頻數(shù)。大致可以看出Clinton在各個學(xué)歷層次都有最高的票數(shù)。表8.4列聯(lián)表

2.Summary（總覽表），如表8.5。表中從左到右依次是維度編號、奇異值、慣量、卡方統(tǒng)計量、顯著性、慣量所占總慣量比例、每個維度的奇異值的標準差和相關(guān)系數(shù)。SingularValue為特征值的平方根，根據(jù)總慣量和特征值求和相等，有0.1392+0.0162=0.019+0.000=0.019。第一個維度慣量0.019，占總慣量的98.7%，第二個維度慣量接近0，僅占總慣量1.3%。因此可以認為只要用一個維度就可以解釋行列變量之間所有的關(guān)系，但為了說明分析過程，仍然保留兩個維度?？倯T量35.867÷1844=0.19，滿足總慣量和卡方統(tǒng)計量的關(guān)系式。同時卡方統(tǒng)計量的自由度8=(3-1)×(5-1)，數(shù)值為0.000，說明行列變量之間存在顯著的相關(guān)性，相應(yīng)分析是有意義的。表8.5總覽表 3.OverviewRowPoints與OverviewColumnPoints（行/列點總覽表），如表8.6，表8.7?，F(xiàn)以表8.6為例，Mass項表示行變量中每個類目的邊際概率。Scoreindimension下面則是行點在兩個維度的坐標（SPSS稱為得分），即有坐標點Bush（0.194,-0.156），Perot（0.663,0.198），Clinton（-0.346,0.053）。Inertia項為慣量，即每個行點與行重心的加權(quán)距離的平方。而行慣量為行點與行重心的加權(quán)距離平方和，即0.19=0.002+0.009+0.008。比較表8.6和表8.7的總慣量，可以發(fā)現(xiàn)行慣量與列慣量相等。Contribution項有兩個部分，分別是行變量的每個類目對維度（公共因子）特征值的貢獻，每一個維度對每個類目的特征值的貢獻。表8.6行點總覽表表8.7列點總覽表 4.相應(yīng)分析圖，如圖8.6?？梢园l(fā)現(xiàn)研究生層次的選民（Graduatedegree）傾向于具有實干精神的Clinton，而較Clinton更為激進的Bush更受highschool和Bachelor層次的選民歡迎，Perot僅和juniorcollege層次的選民較近。圖8.6相應(yīng)分析的二維圖 5.如果在Statistics子對話框中選中了Rowpropro還會輸出以下兩張表（表8.8，表8.9）。表8.8行輪廓表表8.9列輪廓表 6.行/列點圖（圖8.7，圖8.8）。如果要單獨考察行/列變量的各個水平在兩個公共因子維度上的分布情況，可在Plots子對話框中選中Rowpoints和Columnpoints。運行后即得下圖：圖8.7行點在兩個公共因子維度上的分布圖8.8列點在兩個公共因子維度上的分布二、利用SPSS進行相應(yīng)分析——

實例2

表8.104只股票的財務(wù)數(shù)據(jù) （一）操作步驟： 1.首先由SPSS的因子分析過程（詳細步驟參見因子分析一章），通過主成分法估計和最大方差旋轉(zhuǎn)法進行因子旋轉(zhuǎn)，發(fā)現(xiàn)需要3個公共因子才能解釋83%以上的方差?？傻靡蜃拥梅值挠嬎愎綖椋由?號的變量和因子表示都已經(jīng)標準化）：因此factor1可以稱為股票規(guī)模因子，factor2稱為股票收益因子，factor3稱為個股價值因子。將這三個因子劃分為5個等級：低于-0.5，-0.5~0，0~0.5，0.5~1，大于1，分別編碼為1,2,3,4,5。這樣就可以利用相應(yīng)分析

人人文庫> 全部分類> 行業(yè)資料 > 醫(yī)學(xué)制藥

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

廈門大學(xué)《應(yīng)用多元統(tǒng)計分析》第08章-相應(yīng)分析

文檔簡介

溫馨提示

最新文檔

評論

廈門大學(xué)《應(yīng)用多元統(tǒng)計分析》第08章-相應(yīng)分析

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔