Pearson相關(guān)系數(shù)和Spearman秩相關(guān)系數(shù)介紹_第1頁(yè)
Pearson相關(guān)系數(shù)和Spearman秩相關(guān)系數(shù)介紹_第2頁(yè)
Pearson相關(guān)系數(shù)和Spearman秩相關(guān)系數(shù)介紹_第3頁(yè)
Pearson相關(guān)系數(shù)和Spearman秩相關(guān)系數(shù)介紹_第4頁(yè)
Pearson相關(guān)系數(shù)和Spearman秩相關(guān)系數(shù)介紹_第5頁(yè)
已閱讀5頁(yè),還剩4頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、皮爾遜積矩相關(guān)系數(shù)(Pearsonproduct-momentcorrelationcoefficient)1定義在統(tǒng)計(jì)學(xué)中,皮爾遜積矩相關(guān)系數(shù)(Pearsonproduct-momentcorrelationcoefficient),有時(shí)也簡(jiǎn)稱為PMCC,通常用r或是p表示,是用來度量?jī)蓚€(gè)變量X和Y之間的相互關(guān)系(線性相關(guān))的,取值范圍在-1,+1之間。皮爾遜積矩相關(guān)系數(shù)在學(xué)術(shù)研究中被廣泛應(yīng)用來度量?jī)蓚€(gè)變量線性相關(guān)性的強(qiáng)弱,它是由KarlPearson在19世紀(jì)80年代從FrancisGalton介紹的想法基礎(chǔ)發(fā)展起來的,但是發(fā)展后原想法相似但略有不同的,這種相關(guān)系數(shù)常被稱為“Pearson

2、的r”兩個(gè)變量之間的皮爾遜積矩相關(guān)系數(shù)定義為這兩個(gè)變量的協(xié)方差與二者標(biāo)準(zhǔn)差積的商,即cov(X,Y)E(X一卩)(Y一卩)XLXY上式定義了總體相關(guān)系數(shù),一般用希臘字母p(rho)表示。若用樣本計(jì)算的協(xié)方差和標(biāo)準(zhǔn)差代替總體的協(xié)方差和標(biāo)準(zhǔn)差,則為樣本相關(guān)系數(shù),一般用r表示:(X-X)(Y-Y)iii=1另外一個(gè)與上式等效的定義相關(guān)系數(shù)的公式是通過標(biāo)準(zhǔn)化以后變量均值的積定義的。假設(shè)樣本可以記為(X,Y),貝9樣本Pearson相關(guān)系數(shù)為iir=1XXiYYin11s丿1s丿i=1XY其中冬二工,X和s分別為標(biāo)準(zhǔn)化變量,樣本均值和樣本標(biāo)準(zhǔn)差。sX2皮爾遜積矩相關(guān)系數(shù)的數(shù)學(xué)特性不論是樣本的還是總體的P

3、earson相關(guān)系數(shù)絕對(duì)值均小于等于1,相關(guān)系數(shù)等于1或-1時(shí),所有數(shù)據(jù)的點(diǎn)都精確地落在一條直線上(為樣本相關(guān)系數(shù)的情況),或是兩變量的分布完全由一條直線支撐(為總體相關(guān)系數(shù)的情況)。Pearson相關(guān)系數(shù)具有對(duì)稱性,即:corrcorr(X,Y)=corr(Y,X)。Pearson相關(guān)系數(shù)的一個(gè)關(guān)鍵的特性就是它并不隨著變量的位置或是大小的變化而變化。也就是說,我們可以把X變?yōu)閍+bX,把Y變?yōu)閏+dY,其中a,b,c和d都是常數(shù),而并不會(huì)改變相互之間的相關(guān)系數(shù)(這點(diǎn)對(duì)總體和樣本Pearson相關(guān)系數(shù)都成立)。Pearson相關(guān)系數(shù)可以用原點(diǎn)矩的形式表示。因?yàn)橼?E(X),2=E(X)X2=E

4、(X2)E2(X),XX對(duì)于Y也有相似的表達(dá)式。又E(XE(X)E(YE(Y)=E(XY)E(X)E(Y)于是式(1)可寫為E(XY)E(X)E(Y)E(X2)E2(X)E(Y2)E2(Y)上述形式對(duì)于樣本的Pearson相關(guān)系數(shù)同樣是可用的,有工xynxyr,iixy(n1)ssxyn工xy工x工、zIn乙x2一(乙xx)2yJin乙y2ii上式提供了一個(gè)非常簡(jiǎn)單的計(jì)算樣本相關(guān)系數(shù)的算法,但是有時(shí)受數(shù)據(jù)的影響,可上式可能存在數(shù)值上的不穩(wěn)定性。相關(guān)系數(shù)取值范圍為-1,1。取1時(shí)表示變量X和Y之間具有線性變化的關(guān)系,即Y隨著X的增加而增加,而且所有的點(diǎn)都落在一條直線上。取-1時(shí)則是所有點(diǎn)落在一條

5、直線上,但是變量Y隨著X的增加而減小。相關(guān)系數(shù)值為0是表示變量之間沒有線性相關(guān)關(guān)系。更一般地,應(yīng)該注意到,只要X和Y落在各自均值的同一側(cè),那么(X-X)(Y-Y)就是大于0iiii的。也就是說,只要X和Y同時(shí)趨近于大于或是同時(shí)趨近于小于他們各自的均值,那么它們的相關(guān)ii系數(shù)為正。反之,當(dāng)二者區(qū)于在相反的一邊時(shí),二者相關(guān)系數(shù)為負(fù)。幾種的(x,y)點(diǎn)即相應(yīng)的x、y的相關(guān)系數(shù)??梢钥闯觯嚓P(guān)反映線性關(guān)系分散程度和方向(第一行),但是不能反映線性關(guān)系時(shí)的斜率(第二行),也不能反映出非線性關(guān)系的許多方面(最底下一行)。注:圖中第二行第四個(gè)小圖的直線斜率是0,在這種情況下,相關(guān)系數(shù)是沒有意義的,因?yàn)閅的方

6、差是零。3幾何解釋對(duì)于相對(duì)中心性的數(shù)據(jù)(例如,一組已經(jīng)通過樣本均值轉(zhuǎn)換為均值為0的數(shù)據(jù)),相關(guān)系數(shù)可以看做是由兩隨機(jī)變量樣本繪出的兩個(gè)向量之間夾角的余弦值。有些學(xué)者則比較傾向于非中心性(費(fèi)皮爾遜兼容)的相關(guān)系數(shù)。以下通過一個(gè)例子比較二者之間的差異。假設(shè)有5個(gè)國(guó)家,國(guó)民生產(chǎn)總值分別為10億美元、20億美元、30億美元、50億美元和80億美元,而貧困人數(shù)占總?cè)丝诘谋壤謩e為11%、12%、13%、15%和18%。則可令X=(10,20,30,50,80),Y=(0.11,0.12,0.13,0.15,0.18)。有一般的計(jì)算兩個(gè)向量之間的角度的過程(點(diǎn)乘)可得非中心性相關(guān)系數(shù)為cos0,xyxy2

7、.93而P0.0983,0.920814711應(yīng)該注意到,上述數(shù)據(jù)是特意從完全線性相關(guān)的線性函數(shù)Y=0.10+0.001X中挑選出來的,所以Pearson相關(guān)系數(shù)應(yīng)該精確地為1。將數(shù)據(jù)中心化(將X減去E(X)=38,Y減去E(Y)=0.138),可得X=(-28,-18,-0.8,12,42),Y=(-0.028,-0.018,-0.08,0.012,0.042),并有cos0,xy,3.08,1,pxy(3080J0.00308xy跟期望的一樣。相關(guān)系數(shù)大小與相關(guān)性大小的關(guān)系許多學(xué)者都提出了通過相關(guān)系數(shù)大小判斷變量相關(guān)性的標(biāo)準(zhǔn)。但是正如Cohen(1988)所指出的一樣,這些標(biāo)準(zhǔn)或多或少的有

8、些武斷,不應(yīng)該過于嚴(yán)格地遵守。相同相關(guān)系數(shù)對(duì)相關(guān)性大小的判斷取決于不同的背景和目的。同樣是0.9的相關(guān)系數(shù),在使用很精確的儀器驗(yàn)證物理定律的時(shí)候可能被認(rèn)為是很低的,但是社會(huì)科學(xué)中,在評(píng)定許多復(fù)雜因素的貢獻(xiàn)時(shí),卻可能被認(rèn)為是很高的相關(guān)性。相關(guān)系數(shù)與相關(guān)性的關(guān)系相關(guān)性負(fù)值正值不相關(guān)-0.090.00.00.09低相關(guān)0.30.10.10.3中等相關(guān)0.50.30.30.5顯著相關(guān)1.00.50.51.04對(duì)數(shù)據(jù)分布的敏感性存在性總體的Pearson相關(guān)系數(shù)是通過原點(diǎn)矩來定義的,所以二元概率分布的總體協(xié)方差以及變量邊緣總體反差必須是有意義且是非零的。一些概率分布例如柯西(Cauchy)分布的反差就是

9、無意義的,因此在X或Y服從這種分布時(shí),p也是沒有意義的。在一些實(shí)際應(yīng)用中,例如那些涉及數(shù)據(jù)在尾部比較集中的情況,考慮這點(diǎn)就是很重要的。但是,相關(guān)系數(shù)的存在性通常不是我們關(guān)注的焦點(diǎn),因?yàn)橐话阒灰植际怯薪绲?,那么p就可以被定義。大樣本性在二元正態(tài)分布中,若已知變量的邊緣分布的均值和標(biāo)準(zhǔn)差,那么由Pearson相關(guān)系數(shù)就可以完全確定該分布的特性。但是對(duì)于其它的二元分布,情況就有所不同。然而,不論變量之間的聯(lián)合概率密度函數(shù)是不是正態(tài)的,Pearson相關(guān)系數(shù)都是用來衡量?jī)蓚€(gè)隨機(jī)變量之間的線性相關(guān)程度的。對(duì)于二元正態(tài)數(shù)據(jù),樣本的相關(guān)系數(shù)是總體相關(guān)系數(shù)的極大似然估計(jì),并且具有漸進(jìn)無偏性和有效性,也即是說

10、在數(shù)據(jù)來自正態(tài)分布,且樣本大小適中或是足夠大的時(shí)候,不可能構(gòu)造一個(gè)比樣本相關(guān)相關(guān)系數(shù)更加精確的量來估計(jì)變量之間的相關(guān)性。對(duì)于非正態(tài)總體,樣本相關(guān)系數(shù)依然是漸進(jìn)無偏的,但是可能不是有效的估計(jì)。只要樣本均值、方差、協(xié)方差是一致的(可以通過應(yīng)用大數(shù)定律來保證),樣本相關(guān)系數(shù)是總體相關(guān)系數(shù)的一個(gè)一致估計(jì)量。0.7Samplesize匚0匸常-aj匕00匚oSJIrced圖中顯示了在給定的樣本大小時(shí),在置信水平為0.05時(shí),具有顯著非零Pearson相關(guān)系數(shù)的的最小值。AgraphshowingtheminimumvalueofPearsonscorrelationcoefficientthatissi

11、gnificantlydifferentfromzeroatthe0.05level,foragivensamplesize.5魯棒性(Robustness)與其他一些廣泛應(yīng)用的統(tǒng)計(jì)量相同,樣本統(tǒng)計(jì)量r是不可靠的,在存在異常值的時(shí)候,r的值可能會(huì)誤導(dǎo)我們。也就是說,PMCC不僅受變量分布的影響,還隨異常值非常敏感。觀察X、Y之間的散點(diǎn)圖,就可以看出,缺少魯棒性確實(shí)是一個(gè)很大的問題,在這種情況下,就需要采用更加穩(wěn)健的參量來度量變量的相關(guān)性。但是值得一提的是,無論采用多么穩(wěn)健的參量來度量變量之間的相關(guān)性,都與Pearson相關(guān)系數(shù)在數(shù)值大小保持很好的一致性?;赑earson相關(guān)系數(shù)的統(tǒng)計(jì)推斷對(duì)數(shù)

12、據(jù)的分布類型是很敏感的。所以只有在數(shù)據(jù)是近似正態(tài)分布的時(shí)候,基于Fisher變換的精確檢驗(yàn)和近似檢驗(yàn)才能被采用,否則就可能導(dǎo)致錯(cuò)誤的結(jié)論。在某些情況下,引導(dǎo)可用于構(gòu)造置信區(qū)間,并置換測(cè)試可用于進(jìn)行假設(shè)檢驗(yàn)。在二元正態(tài)不成立時(shí),非參數(shù)的方法在某些情況下可能會(huì)得到更有意義的結(jié)果。但這些方法的標(biāo)準(zhǔn)版本依賴于數(shù)據(jù)的互換性,也就是說,在沒有特定的順序或是數(shù)據(jù)可供分析時(shí),可能影響相關(guān)估計(jì)的行為。Spearman秩相關(guān)系數(shù)(Spearmansrankcorrelationcoefficient)Pearson線性相關(guān)系數(shù)只是許多可能中的一種情況,為了使用Pearson線性相關(guān)系數(shù)必須假設(shè)數(shù)據(jù)是成對(duì)地從正態(tài)分

13、布中取得的,并且數(shù)據(jù)至少在邏輯范疇內(nèi)必須是等間距的數(shù)據(jù)。如果這兩條件不符合,一種可能就是采用Spearman秩相關(guān)系數(shù)來代替Pearson線性相關(guān)系數(shù)。Spearman秩相關(guān)系數(shù)是一個(gè)非參數(shù)性質(zhì)(與分布無關(guān))的秩統(tǒng)計(jì)參數(shù),由Spearman在1904年提出,用來度量?jī)蓚€(gè)變量之間聯(lián)系的強(qiáng)弱(LehmannandDAbrera1998)。Spearman秩相關(guān)系數(shù)可以用于R檢驗(yàn),同樣可以在數(shù)據(jù)的分布使得Pearson線性相關(guān)系數(shù)不能用來描述或是用來描述或?qū)е洛e(cuò)誤的結(jié)論時(shí),作為變量之間單調(diào)聯(lián)系強(qiáng)弱的度量。在統(tǒng)計(jì)學(xué)中,Spearman秩相關(guān)系數(shù)或稱為Spearman的p,是由CharlesSpearm

14、an命名的,一般用希臘字母ps(rho)或是rs表示。Spearman秩相關(guān)系數(shù)是一個(gè)非參數(shù)的度量?jī)蓚€(gè)變量之間的統(tǒng)計(jì)相關(guān)性的指標(biāo),用來評(píng)估當(dāng)用單調(diào)函數(shù)來描述是兩個(gè)變量之間的關(guān)系有多好。在沒有重復(fù)的數(shù)據(jù)的情況下,如果一個(gè)變量是兩外一個(gè)變量的嚴(yán)格單調(diào)的函數(shù),則二者之間的Spearman秩相關(guān)系數(shù)就是+1或-1,稱變量完全Spearman相關(guān)。Spearman秩相關(guān)系數(shù)通常被認(rèn)為是排列后的變量之間的Pearson線性相關(guān)系數(shù),在實(shí)際計(jì)算中,有更簡(jiǎn)單的計(jì)算Ps的方法。假設(shè)原始的數(shù)據(jù)xi,yi已經(jīng)按從大到小的順序排列,記xi,yi為原xi,yi在排列后數(shù)據(jù)所在的位置,則xi,yi稱為變量xi,yi的秩次

15、,則di=xi-yi為xi,yi的秩次之差。如果沒有相同的秩次,則ps可由下式計(jì)算6工d2p=1isn(n2,1)如果有相同的秩次存在,那么就需要計(jì)算秩次之間的Pearson的線性相關(guān)系數(shù)工(x-x)(y-y)iiii2一個(gè)相同的值在一列數(shù)據(jù)中必須有相同的秩次,那么在計(jì)算中采用的秩次就是數(shù)值在按從大到小排列時(shí)所在位置的平均值。表1為一個(gè)球平均秩次的例子。注意在秩次相同時(shí),用他們?cè)谂帕泻蟮臄?shù)據(jù)中所在的位置的平均值作為秩次。表1有相同數(shù)值時(shí)秩次的計(jì)算變量X.從大到小排列時(shí)的位置秩次x,i0.8551.24(4+3)/2=3.51.23(4+3)/2=3.52.3221811Spearman秩相關(guān)系

16、數(shù)的符號(hào)表示X和Y之間聯(lián)系的方向。如果Y隨著X的增加而增加,那么Spearman秩相關(guān)系數(shù)是正的,反之,若果Y隨著X的增加而減小,Spearman秩相關(guān)系數(shù)就是負(fù)的。Spearman秩相關(guān)系數(shù)為0表示隨著X的增加,Y沒有增大或減小的趨勢(shì)。隨著X和Y越來越接近嚴(yán)格單調(diào)的函數(shù)關(guān)系,Spearman秩相關(guān)系數(shù)在數(shù)值上越來越大。當(dāng)X、Y有嚴(yán)格單增的關(guān)系是,它們之間的Spearman秩相關(guān)系數(shù)為1,反之,在X、Y有嚴(yán)格單減的關(guān)系時(shí),Spearman秩相關(guān)系數(shù)為-1。嚴(yán)格單增的關(guān)系為對(duì)于任意的兩對(duì)數(shù)據(jù)值Xi,Yi和Xj,Yj,Xi-Yi和Xj-Yj都具有相同的符號(hào)。嚴(yán)格單減則上述差值在任何時(shí)候都具有相反的符號(hào)。Spearman秩相關(guān)系數(shù)經(jīng)常被稱為非參數(shù)相關(guān)系數(shù),這具有兩層含義:第一,只要在X和Y具有單調(diào)的函數(shù)關(guān)系的關(guān)系,那么X和Y就是完全Spearman相關(guān)的,這與Pearson相關(guān)性不同,后者只有在變量之間具有線性關(guān)系時(shí)才是完全相關(guān)的。另外一個(gè)關(guān)于Spearman秩相關(guān)系數(shù)的非參數(shù)性的理解就是樣本之間精確的分布可以在不知道X和Y的聯(lián)合概率密度函數(shù)時(shí)獲得。Spearmancorrelational不管變量之間的關(guān)系是不是線性的,只要變量之間具有嚴(yán)格的單調(diào)增加的函數(shù)關(guān)系,變量之間的Spearman秩相關(guān)系數(shù)就是1,相同情況

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論