SAS講義 第三十課Spearman等級相關(guān)分析_第1頁
SAS講義 第三十課Spearman等級相關(guān)分析_第2頁
SAS講義 第三十課Spearman等級相關(guān)分析_第3頁
SAS講義 第三十課Spearman等級相關(guān)分析_第4頁
SAS講義 第三十課Spearman等級相關(guān)分析_第5頁
已閱讀5頁,還剩3頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、第三十課Spearman等級相關(guān)分析、秩相關(guān)的Spearman等級相關(guān)分析前面介紹了使用非參數(shù)方法比較總體的位置或刻度參數(shù),我們同樣也可以用非參數(shù)方法 比較兩總體之間相關(guān)問題。秩相關(guān)(rank correlation)又稱等級相關(guān),它是一種分析七和七等 級間是否相關(guān)的方法。適用于某些不能準(zhǔn)確地測量指標(biāo)值而只能以嚴(yán)重程度、名次先后、反 映大小等定出的等級資料,也適用于某些不呈正態(tài)分布或難于判斷分布的資料。設(shè)R和Q分別為%和七各自在變量X和變量7中的秩,如果變量X與變量7之間存在 著正相關(guān),那么X與7應(yīng)當(dāng)是同時增加或減少,這種現(xiàn)象當(dāng)然會反映在(,七)相應(yīng)的秩(R,Q)上。反之,若(R,Q)具有同步

2、性,那么(,y)的變化也具有同步性。 i ii ii i因此(30.1)d = X (R Q )2i=1i =1具有較小的數(shù)值。如果變量X與變量7之間存在著負(fù)相關(guān),那么X與7中一個增加時,另 個在減小,d具有較大的數(shù)值。既然由(,七)構(gòu)成的樣本相關(guān)系數(shù)反映了X與7之間相 關(guān)與否的信息,那么在參數(shù)相關(guān)系數(shù)的公式,(X, 7)中以R和Q,分別代替%和七,不是同樣地反映了這種信息嗎?基于這種想法,Charles Spearman秩相關(guān)系數(shù)r (R, Q)應(yīng)運而生:(30.2) (R-1 &)(Q上 W) 2(R住R )2(Q: 1 & )2 / i n i i n ir (R,Q)與r(X,7)形式

3、上完全一致,但在r (R, Q)中的秩,不管X與7取值如何,總是只 取1到n之間的數(shù)值,因此它不涉及X與7總體其他的內(nèi)在性質(zhì),例如秩相關(guān)不需要總體具 有有限兩階矩的要求。由于,1 =如=1 + 2 + + =粉 TOC o 1-5 h z i=1i=1r 2 =q 2 = 12+ 22+ . + n 2 = n(n +1)(2n + Di i6i=1i=1因此公式(30.2)可以化簡為 TOC o 1-5 h z HYPERLINK l bookmark19 o Current Document 16 (R - Q )216d2sn(n2 -1)n(n2 -1)顯然在r = q,時,秩相關(guān)系數(shù)

4、匚到達(dá)最大值+1。又因為(R Q )2 =R2 +Q2 2RQ = n(n +1)(2n + 1) 2RQi iiii i3/ /而RQ在每對R + Q = n +1時到達(dá)最小值,最小值求法為 i ii i (n +1)2 =r: +q;+2rQ,所以最小的RQ為i in(n +1)2 n(n +1)( 2n +1)26最大的 (R 一 Q )2為i i2n(n + 1)(2n +1).、n(n 2 1)n(n +1)2 =33故秩相關(guān)系數(shù)氣的最小值為12=1。在原假設(shè)r,和q,不相關(guān)的情況為真時,即秩相關(guān)系數(shù)為0時,r的期望值u ,為0,樣本的方差為1 r2s 2 =s(30.4)rsn 2

5、自由度為n 2且分布關(guān)于零點對稱。當(dāng)n 10時,氣的樣本分布可以標(biāo)準(zhǔn)化為近似的t分布t = r = r 一0 = r e t (n - 2)s,1 r 2s: 1 r2(30.5)nis例30.1某公司想要知道是否職工期望成為好的銷售員而實際上就能有好的銷售記錄。為 了調(diào)查這個問題,公司的副總裁仔細(xì)地查看和評價了公司10個職工的初始面試摘要、學(xué)科成 績、推薦信等材料,最后副總裁根據(jù)他們成功的潛能給出了單獨的等級評分。二年后獲得了 實際的銷售記錄,得到了第二份等級評分,見表30.1中的第1到4列所示。統(tǒng)計問題為是否 職工的銷售潛能與開始二年的實際銷售成績一致。表30.1職工的銷售潛能與銷售成績的

6、秩相關(guān)分析職工編號潛能等級R i銷售成績成績等級Q id = R - Qd 2124001112436031137300524412956-525562807-11633504-11710200100089260811982209-11105385239Z d 2 =i44Spearman秩相關(guān)系數(shù)(R,Q)的計算過程見表4.10中的第5到6列所示,最后計算結(jié)果r = 1 - 6 di = 1 - 6(44) = 0.7333sn(n2 -1)10(100 -1)表明潛能與成績之間是較強的正相關(guān),高的潛能趨向于好的成績。秩相關(guān)系數(shù)r (R,Q)原假 設(shè)為0的t檢驗統(tǒng)計量為t = 0.7333

7、= 3.051 - (0.7333)2查表自由度為8, t=3.05的雙側(cè)尸0.0158。在0.05顯著水平上,t分布的上臨界點為2.30,由 于3.052.30,所以拒絕秩相關(guān)系數(shù)為0的原假設(shè),接受潛能與成績之間存在秩相關(guān)。二、Corr相關(guān)過程Corr相關(guān)過程用于計算變量之間的相關(guān)系數(shù),包括Pearson(皮爾遜)的乘積矩相關(guān)和加 權(quán)乘積矩相關(guān)。還能產(chǎn)生三個非參數(shù)的關(guān)聯(lián)測量:Spearman的秩相關(guān),Kendall的tau-b和 Hoeffding的相關(guān)性度量D。該過程也可以計算偏相關(guān)等一些單變量的描述性統(tǒng)計量。1. Corr過程說明proc corr過程一般由下列語句控制:proc cor

8、r data=數(shù)據(jù)集選項;var變量列表;with變量列表;partial變量列表;weight變量;freq變量;By變量列表;run ;proc corr語句調(diào)用corr過程,且是唯一必須的語句。如果只使用proc corr這一條的語句, 過程計算輸入數(shù)據(jù)集中所有數(shù)值變量之間的相關(guān)系數(shù)。其余語句是供選擇的。proc corr語句的選項。伊=數(shù)據(jù)集名產(chǎn)生含有Pearson相關(guān)系數(shù)的一個新數(shù)據(jù)集。“旃=數(shù)據(jù)集名產(chǎn)生含有Spearman等級相關(guān)系數(shù)的一個新數(shù)據(jù)集。以叱=數(shù)據(jù)集名產(chǎn)生含有Kendall Tb相關(guān)系數(shù)的一個新數(shù)據(jù)集。“功=數(shù)據(jù)集名產(chǎn)生含有Hoeffding D統(tǒng)計量的一個新數(shù)據(jù)集。p

9、earson 求計算通常的pearson乘積矩相關(guān)系數(shù),是缺省值。hoeffding 求計算并輸出Hoeffding的D統(tǒng)計量。kendall 求計算并輸出Kendall t b相關(guān)系數(shù)。spearman求計算并輸出Spearman等級相關(guān)系數(shù)。vardef=df I weight I wgt I wdf 定計算方差時的除數(shù):df (自由度 n-1), weight或wgt (權(quán)重之和),n (觀察數(shù)),wdf (權(quán)重之和一1)。缺省值為 fcov計算協(xié)方差-方差矩陣。sscp 一求輸出平方和與交叉積和。csscp 一求輸出偏差平方和與交叉積和。阮$4數(shù)值一一對每個變量輸出指定個數(shù)的絕對值最大

10、的相關(guān)系數(shù)。noprint止所有打印輸出。noprob 止輸出同這些相關(guān)有聯(lián)系的顯著性概率。nosimple對原始數(shù)據(jù)執(zhí)行標(biāo)準(zhǔn)方差分析。rank 求按絕對值從高到低的次序?qū)γ總€變量輸出相關(guān)系數(shù)。nocorr制Pearson相關(guān)的計算及輸出。nomiss 帶有某一變量缺失值的觀測值從所有計算中除去。nosimple不輸出每個變量的簡單描述性統(tǒng)計量。var語句該語句列出要計算相關(guān)系數(shù)的變量。例如var a b c;則計算a和b, a和c, b和c三對變 量之間的相關(guān)系數(shù)。with語句為了得到變量間的特殊組合的相關(guān)系數(shù),該語句和var語句聯(lián)合使用。用var語句列出的 變量在輸出相關(guān)陣的上方,而用wi

11、th語句列出的變量豎在相關(guān)陣左邊。例如var a b;with x y z; 則生成x和a,y和a, z和a, x和b,y和b,z和b。partial 語句為了計算Pearson偏相關(guān),Spearman偏秩相關(guān),Kendall偏tau-b,用該語句給出偏出去(即 固定)的變量名。weight 語句為了計算加權(quán)的乘積矩相關(guān)系數(shù),用該語句給出權(quán)數(shù)變量名。該語句僅用于Pearson相關(guān)。freq語句當(dāng)規(guī)定freq語句時,輸入數(shù)據(jù)集中的每個觀察假定代表n個觀察,其中n是該觀察中freq 變量中的值。觀察的總數(shù)規(guī)定為freq變量值的和。by語句使用by語句能夠獲得用by變量定義的分組觀察的獨立分析結(jié)果。

12、實例分析、例30.1的SAS程序如下:data study.persons ;input x y ;y=400-y;cards;400 43607 3001 2956 280350 102009 2608 2205 385;proc corr data=study.persons spearman;var x;with y;run;程序說明:建立輸入數(shù)據(jù)集persons,要注意實際數(shù)據(jù)所表示的等級次序大小與SAS系 統(tǒng)中自動給出的等級次序大小的不同。輸入變量X,獲得從1到10的數(shù)據(jù),表示潛能等級從 最高到最低,而輸入變量y,獲得從最大銷售額400到最小銷售額220,轉(zhuǎn)換銷售成績等級應(yīng) 該是從高

13、到低,即從1到10。但在SAS系統(tǒng)中把銷售成績數(shù)值從小到大按等級值從1到10 給予。因此需要顛倒變量x或變量y中數(shù)值大小的次序,本程序用最大銷售額400減去原來 的銷售額實現(xiàn)次序顛倒,即語句y=400y。等級相關(guān)與一般參數(shù)相關(guān)一樣仍然調(diào)用corr過程, 只需要在選擇項中指定為何種等級相關(guān),我們選擇計算spearman秩相關(guān)系數(shù)。var語句列出 要計算相關(guān)系數(shù)的第一個變量X,with語句必須要與var語句聯(lián)合使用,列出的要計算相關(guān)系 數(shù)的第二變量y。主要結(jié)果見表30.2所示。Correlation Analysis1 WITH Variables: Y1 VAR Variables: XVariableYXN1010Simple StatisticsMeanStd DevMedian95.00000067.905163102.5000005.5000003.0276505.500000Minimum 0 1.000000Maximum200.00000010.000000Spearman Correlation Coeffici

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論