![多元統(tǒng)計分析課件-杜子芳_第1頁](http://file4.renrendoc.com/view/3c8a5cb453dc68ed2d8679c6a4fecf63/3c8a5cb453dc68ed2d8679c6a4fecf631.gif)
![多元統(tǒng)計分析課件-杜子芳_第2頁](http://file4.renrendoc.com/view/3c8a5cb453dc68ed2d8679c6a4fecf63/3c8a5cb453dc68ed2d8679c6a4fecf632.gif)
![多元統(tǒng)計分析課件-杜子芳_第3頁](http://file4.renrendoc.com/view/3c8a5cb453dc68ed2d8679c6a4fecf63/3c8a5cb453dc68ed2d8679c6a4fecf633.gif)
![多元統(tǒng)計分析課件-杜子芳_第4頁](http://file4.renrendoc.com/view/3c8a5cb453dc68ed2d8679c6a4fecf63/3c8a5cb453dc68ed2d8679c6a4fecf634.gif)
![多元統(tǒng)計分析課件-杜子芳_第5頁](http://file4.renrendoc.com/view/3c8a5cb453dc68ed2d8679c6a4fecf63/3c8a5cb453dc68ed2d8679c6a4fecf635.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
多元統(tǒng)計分析
統(tǒng)計學(xué)院杜子芳課程內(nèi)容描述統(tǒng)計典型相關(guān)主成分和因子分析聚類分析判別和logistic回歸推薦參考書目張堯庭,方開泰,《多元統(tǒng)計分析引論》,北京:科學(xué)出版社,1982。高惠璇,《應(yīng)用多元統(tǒng)計分析》,北京:北京大學(xué)出版社,2005。陳峰,《醫(yī)用多元統(tǒng)計分析方法》,北京:中國統(tǒng)計出版社,2000。[美]RichardA.Johnson,DeanW.Wichern著,陸璇葉俊譯,《實(shí)用多元統(tǒng)計分析》(第6版),北京:清華大學(xué)出版社,2008。多元統(tǒng)計分析的數(shù)據(jù)結(jié)構(gòu)n個樣品p個變量的數(shù)據(jù)n個樣品(樣本點(diǎn)/case)p個變量(指標(biāo)/variable)多元統(tǒng)計分析的數(shù)據(jù)結(jié)構(gòu)(續(xù))
變量1變量2…
變量p樣品1樣品2……樣品n變量的分類性質(zhì)分類順序數(shù)值——定量(quantitative)功能自變量因變量定性(qualitative)三類變量三類變量的舉例分類:姓名,性別,民族,籍貫順序:學(xué)歷,“成份”,職稱數(shù)值:身高,收入,年齡變量對應(yīng)的數(shù)據(jù)容許的最高計算等級分類
順序
數(shù)值
三種數(shù)據(jù)的變化升級變化手段:編碼后果:計算高級化信息可能扭曲降級變化手段:分組后果:計算低級化信息可能減少一個降級的例子學(xué)生成績原本是數(shù)值數(shù)據(jù):0~100分分組后成順序數(shù)據(jù):優(yōu),良,中,及格,差后果:無法進(jìn)行加減計算了。信息減少,95與100分的差異不見了。課程框架自變量之間的關(guān)系聚類分析主成分分析因子分析自變量與因變量之間的關(guān)系
因變量自變量分類型數(shù)值型分類型列聯(lián)分析、對應(yīng)分析方差分析、聯(lián)合分析數(shù)值型判別分析、Logistic回歸分析回歸分析、結(jié)構(gòu)方程模型多元分析的描述統(tǒng)計描述統(tǒng)計量均值向量方差和協(xié)方差矩陣相關(guān)系數(shù)矩陣圖形散點(diǎn)矩陣圖三維曲面圖輪廓圖閃電圖雷達(dá)圖調(diào)和曲線圖切爾謝夫臉譜圖一元分析的描述統(tǒng)計量分類變量的數(shù)字特征集中性趨勢:眾數(shù)分散性趨勢:異眾比例順序變量的數(shù)字特征集中性趨勢:中位數(shù)分散性趨勢:四分位數(shù)數(shù)值變量的數(shù)字特征集中性趨勢:平均值分散性趨勢:標(biāo)準(zhǔn)差多元的描述統(tǒng)計量——均值向量集中趨勢,平均水平第一個變量的平均值第k個變量的平均值p個變量的均值向量多元的描述統(tǒng)計量——方差和協(xié)方差矩陣方差表示變量離散程度,協(xié)方差變量間的協(xié)同關(guān)系變量k的方差變量i和變量k的協(xié)方差變量i越大,變量k越大,則協(xié)方差為正數(shù);變量i越大,變量k越小,則協(xié)方差為負(fù)數(shù);若兩個變量關(guān)系不大,則協(xié)方差接近0當(dāng)i=k時多元的描述統(tǒng)計量——方差和協(xié)方差矩陣多元的描述統(tǒng)計量——相關(guān)系數(shù)矩陣第i個和第k個變量的相關(guān)系數(shù)為相關(guān)系數(shù)是協(xié)方差的標(biāo)準(zhǔn)化形式;相關(guān)系數(shù)的取值在-1到+1之間;相關(guān)系數(shù)衡量的是變量間線性關(guān)系的強(qiáng)度多元的描述統(tǒng)計量——相關(guān)系數(shù)矩陣圖形散點(diǎn)矩陣圖——多個變量之間的關(guān)系三維曲面圖——兩個變量的聯(lián)合分布輪廓圖閃電圖雷達(dá)圖調(diào)和曲線圖切爾謝夫臉譜圖n很小,p比較大可以很直觀進(jìn)行樣品間的比較,并且可以用于樣品的初步分組和驗(yàn)證聚類分析的結(jié)果散點(diǎn)圖矩陣——多個變量間的關(guān)系p=2時,可以用散點(diǎn)圖表示兩個變量之間的關(guān)系p>2時,對p個變量兩兩配對生成散點(diǎn)圖矩陣散點(diǎn)圖矩陣——多個變量間的關(guān)系三維曲面圖輪廓圖橫坐標(biāo)取p個點(diǎn),表示p個變量;對于某一樣品,縱坐標(biāo)表示每個變量的取值,將p個點(diǎn)用直線連起來;依次畫n個樣品的圖。輪廓圖閃電圖類似于輪廓圖旋轉(zhuǎn)90度直觀上便于各樣品之間的比較柱形圖vs條形圖12345購票方便準(zhǔn)時等待時間短舒適物有所值方便安全可靠性高配套設(shè)施齊全座位寬敞有空調(diào)注:紅線代表地鐵,藍(lán)線代表公交車。購票不方便不準(zhǔn)時等待時間長不舒適物非所值不方便安全可靠性低配套設(shè)施不齊全座位擁擠無空調(diào)地鐵公交服務(wù)優(yōu)劣比較生均占地面積生均建筑面積百生均計算機(jī)數(shù)生均設(shè)備價值師生比生均圖書冊數(shù)生均占地面積生均建筑面積百生均計算機(jī)數(shù)生均設(shè)備價值師生比生均圖書冊數(shù)國家標(biāo)準(zhǔn)60㎡50㎡70㎡16.5㎡18㎡15㎡10臺5臺15臺5000元4500元5500元1:161:201:2580冊,35元/冊70冊,30元/冊80冊,40元/冊推薦方案投資方案雷達(dá)圖作一圓,將圓周p等分;連接圓心和各分點(diǎn),這p條半徑即為p個坐標(biāo)軸;將每一個樣品的p個變量取值分別標(biāo)注在p個坐標(biāo)軸上,用直線連接成p邊形;n個樣品即有n個p邊形。調(diào)和曲線圖Andrews,1972提出用二維空間的一條曲線表示多維空間的點(diǎn)各變量數(shù)值懸殊時,要先標(biāo)準(zhǔn)化同類的曲線擰在一起,不同類擰成不同的束切爾諾夫臉譜圖每個樣品用一個臉譜表示用臉部特征如臉的長度、高度、眼睛大小、發(fā)型等表示各變量的值可以根據(jù)臉的相似程度,將樣品分組無法在同一框架下進(jìn)行比較Chernoff,H.“UsingFacestoRepresentPointsinK-DimensionalSpaceGraphically.”(1973)多元統(tǒng)計學(xué)的應(yīng)用——文學(xué)《紅樓夢》作者研究(文本挖掘)選定數(shù)十個與情節(jié)無關(guān)的虛詞,把《紅樓夢》120回作為120個樣品,統(tǒng)計每一回選定的這些虛詞出現(xiàn)的頻數(shù)作為變量方法:聚類分析李賢平,“紅樓夢成書新說”,《復(fù)旦學(xué)報》社會科學(xué)版,1987年第5期多元統(tǒng)計學(xué)的應(yīng)用——營銷消費(fèi)者偏好研究消費(fèi)者對具有不同屬性的各種產(chǎn)品進(jìn)行打分,用聯(lián)合分析確定具有哪種屬性組合的產(chǎn)品最受歡迎,消費(fèi)者最看重哪種屬性……屬性水平系統(tǒng)(system)WindowsXPWindowsVista顏色(color)黑紅CPUAMD羿龍Intel酷睿雙核多元統(tǒng)計學(xué)的應(yīng)用——醫(yī)學(xué)胃癌的鑒別事先有一些經(jīng)手術(shù)后病理化驗(yàn)確診的病理資料,如三個總體,胃癌患者、萎縮性胃炎患者、非胃炎患者,每人化驗(yàn)了4項(xiàng)生化指標(biāo)(血清銅蛋白、藍(lán)色反應(yīng)、尿吲哚乙酸、中性硫化物),根據(jù)這些資料可以建立診斷準(zhǔn)則。以后對來就診的病人,就可以根據(jù)這幾項(xiàng)生化指標(biāo)的結(jié)果以及之前建立的準(zhǔn)則判斷病人的疾病種類。方法:判別分析多元統(tǒng)計學(xué)的應(yīng)用——工業(yè)設(shè)計服裝定型問題服裝公司希望生產(chǎn)的成衣能適應(yīng)大多數(shù)顧客的要求。首先做抽樣調(diào)查,測量身體身高、坐高、胸圍、腰圍、褲長、袖長等指標(biāo),確定服裝的每種型號是由身體的哪幾個主要尺寸決定的方法:主成分分析典型相關(guān)---統(tǒng)計相關(guān)的集大成有兩組變量(x1,x2,…xp),(y1,y2,…,yq),我們對兩組變量之間的關(guān)系感興趣。兩組共p+q個變量,如果進(jìn)行兩兩相關(guān)分析可以得到p×q或(p+q)(p+q-1)/2個相關(guān)系數(shù)。但是這兩組變量或兩個隨機(jī)向量之間的“整體”相關(guān)關(guān)系是什么呢?典型相關(guān)分析的思想兩組隨機(jī)變量的相關(guān)系數(shù)我們并未接觸,以前接觸的是一對一的:分類之間,順序之間,數(shù)值之間一對多的:數(shù)值對分類(方差),數(shù)值對數(shù)值(回歸)多對多的:數(shù)值對數(shù)值如何反映多對多的相關(guān)呢?多元統(tǒng)計分析最重要的框架更細(xì)的分類典型相關(guān)分析的思想每組變量都進(jìn)行線性組合,生成代表性變量;計算不同組任意兩個代表性變量的相關(guān)系數(shù);找到相關(guān)系數(shù)最大對應(yīng)的兩個代表性變量作為一對“典型”,將“典型”之間的相關(guān)系數(shù)用來代表兩組變量的線性相關(guān)程度,乘為典型相關(guān)系數(shù),又稱廣義相關(guān)系數(shù)。廣義相關(guān)系數(shù)典型相關(guān)系數(shù)的檢驗(yàn)廣義相關(guān)系數(shù)的性質(zhì)所有廣義相關(guān)系數(shù)除滿足對稱性外還具有以下性質(zhì):時,代表U和V不相關(guān),從而任一與任一中的隨機(jī)變量都不相關(guān)時,代表U和V可以相互線性表出時,等于Pearson相關(guān)系數(shù)的平方時,等于復(fù)相關(guān)系數(shù)的平方或決定系數(shù)。典型相關(guān)分析的數(shù)學(xué)表達(dá)對于兩組變量和,尋找系數(shù)向量和使得新的綜合變量(稱典型變量)
有盡可能大的相關(guān)關(guān)系。令典型相關(guān)分析的數(shù)學(xué)表達(dá)典型相關(guān)分析的數(shù)學(xué)表達(dá)典型變量的性質(zhì):1.X的典型變量U1,U2,…Up不相關(guān),Y的典型變量W1,W2,…Wq不相關(guān);2.X和Y的同一對典型變量Ui和Wi之間的相關(guān)系數(shù)為,不同對的Ui和Wi之間不相關(guān)。典型相關(guān)(續(xù)5)
注意點(diǎn):
在實(shí)際例子中一般并不知道。因此在只有樣本數(shù)據(jù)的情況下,只要把用樣本協(xié)差陣或樣本相關(guān)陣代替就行了。但是這時的特征根可能不在0和1的范圍,因此會出現(xiàn)軟件輸出中的特征根(比如大于1)不等于相關(guān)系數(shù)的平方的情況,這時,各種軟件會給出調(diào)整后的相關(guān)系數(shù)。證明(1)證明(2)分類對分類相關(guān)的例子:
受訪者性別與種族的相關(guān)關(guān)系的測度不相關(guān)
完全相關(guān)完全相關(guān)的另一種情形列聯(lián)表的結(jié)構(gòu)行合計列合計合計列標(biāo)題行標(biāo)題分類對分類相關(guān)的原理事件相關(guān)程度事件相關(guān)程度?變量相關(guān)程度?變量相關(guān)程度?最終的類類相關(guān)系數(shù)分類對數(shù)值相關(guān)的例子:
受訪者性別與姊妹數(shù)的相關(guān)關(guān)系的測度普通情形線性無關(guān)情形完全線性相關(guān)情形分類對數(shù)值的相關(guān)關(guān)系總平方和=組間平方和+組內(nèi)平方和
證明兩種組間平方和的關(guān)系兩種證明證明1證明21對1之?dāng)?shù)值與數(shù)值的線性相關(guān)原理
1對1之?dāng)?shù)值與數(shù)值的線性相關(guān)原理典型相關(guān)分析的程序INCLUDE'C:\ProgramFiles\SPSS\Canonicalcorrelation.sps'.CANCORRSET1=salarysalbegin/SET2=jobtimeprevexpeduc.因子與主成分分析—簡化之至因子與主成分分析的思想在多元條件下,一些變量彼此存在很高的相關(guān)關(guān)系,其本質(zhì)是所含信息具有重疊性。在回歸分析里,對這些相關(guān)程度很高(多重共線性)的變量其處置方式之一是去除一部分變量,只保留極少的變量做代表;另一種處置思路是用這些變量的線性組合替代原有變量(同時認(rèn)為這些組合表征的是深層的原因—稱為因子),而盡量不減少它們所包含的信息。不僅如此,在不怎么減少原來變量所含信息的前提下,還要達(dá)成三個目標(biāo):減少變量個數(shù);新變量彼此之間不再線性相關(guān),最好正交;新變量與原變量之間的關(guān)系清晰容易判斷。三個關(guān)鍵問題以何表示原來變量所含信息?如何尋找達(dá)成上述目標(biāo)的線性組合(即新變量)?此處線性組合與回歸分析和判別分析里的組合有何區(qū)別?第一節(jié)主成份分析回歸分析
判別分析主成份分析主成份分析主成份分析(續(xù))類似判別分析那樣,應(yīng)用拉格朗日方法求極值將所有特征根降序排隊,條件極值求法主成份分析(續(xù))將最大特征根代入方程,求得,然后求得稱為的第一主成份(實(shí)際上是變換后的第一個新變量),而類似得到的稱為第i個主成份,最多有r個主成份。。主成份的個數(shù)通常有兩種取法(1)取為(2)特征根>1主成份的性質(zhì)主成份(新變量)是原變量的線性變換彼此獨(dú)立(源于何種原因?)方差遞減(是什么原因?)方差總和守恒(又是什么原因?)主成分分析(續(xù)1)找出…向量ai主成分分析(續(xù)2)因此,
一般情況下,取使得總方差中累積的解釋比例達(dá)到85%的前幾個主成分。因子分析基本思想
很多變量間存在著某種相似性(彼此之間相關(guān)系數(shù)較高),本質(zhì)上影響這些變量觀測值結(jié)果的可能是其背后看不到的共同原因所致。因子分析就是要從彼此相關(guān)的變量中找出這些原因。作法用較少數(shù)個公共因子的線性組合與特殊因子的之和來表示原觀察變量,以便達(dá)到降維的目的,并清楚暴露新變量與原變量間的相關(guān)關(guān)系。主成份分析是尋求因子的一種方法。因子分析(續(xù)1)因子分析(續(xù)2)共性方差
因子載荷aik是Xi與fk的協(xié)方差特殊方差表示m個公共因子對Xi的方差貢獻(xiàn)相當(dāng)于回歸中的什么指標(biāo)?因子分析(續(xù)3)
雖然該式表示的很精確,但后面p-m個特征值較小的并不是很有用,可以近似略去因子分析(續(xù)4)因子分析的參數(shù)估計極大似然法主成分估計法(迭代)主因子估計法因子旋轉(zhuǎn)原理因子得分加權(quán)最小二乘法巴特萊特極大似然法最小二乘法湯普森回歸法聚類分析分布的兩種表達(dá)方式給定的、整齊數(shù)表達(dá)的組限配以非整齊的頻數(shù)(率)給定的、整齊數(shù)表達(dá)的頻數(shù)(率)配以非整齊的組限(分位點(diǎn))分類的常規(guī)作法依據(jù)先驗(yàn)的、專業(yè)的給定標(biāo)準(zhǔn)(界限)分類聚類的作法根據(jù)后驗(yàn)的、統(tǒng)計的邏輯上的標(biāo)準(zhǔn)劃定類別譜系聚類的步驟定義點(diǎn)間距;定義類間距;所有樣品看成n類;計算點(diǎn)間距并將距離最小者歸為一類,其余不變;確定各類之間的類間距,并將距離最小者歸為一類,其余不變;以此類推,直至所有樣品歸為一類。點(diǎn)間距絕對值距離歐式距離歐式平方距離馬氏(標(biāo)準(zhǔn)歐式平方)距離契氏距離蘭氏距離明氏距離組間距最短距離法最遠(yuǎn)距離法中間距離法重心距離法類平均距離法可變類平均距離法可變距離法Wa
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年五牌校園防欺凌工作總結(jié)范例(三篇)
- 2025年中外合資企業(yè)勞動合同參考模板(2篇)
- 2025年二年級體育教師工作總結(jié)模版(2篇)
- 2025年產(chǎn)品經(jīng)理試用期轉(zhuǎn)正工作總結(jié)(二篇)
- 2025年中山市臨時工勞動合同標(biāo)準(zhǔn)版本(三篇)
- 2025年度教育培訓(xùn)機(jī)構(gòu)代理合作合同
- 2025年度工地電工電氣設(shè)備采購與安裝施工合同
- 2025年度跨境電商物流服務(wù)合同終止條件及時效保障條款
- 2025年度光纖網(wǎng)絡(luò)信息安全保障合同正本
- 2025年度國際貿(mào)易合同簽訂與履行全程操作手冊
- 工程設(shè)計方案定案表
- 第一章-天氣圖基本分析方法課件
- 虛位移原理PPT
- 暖氣管道安裝施工計劃
- 初二物理彈力知識要點(diǎn)及練習(xí)
- QE工程師簡歷
- 復(fù)合材料成型工藝及特點(diǎn)
- 輔音和輔音字母組合發(fā)音規(guī)則
- 2021年酒店餐飲傳菜員崗位職責(zé)與獎罰制度
- 最新船廠機(jī)艙綜合布置及生產(chǎn)設(shè)計指南
- 可降解塑料制品項(xiàng)目可行性研究報告-完整可修改版
評論
0/150
提交評論