有序分類數(shù)據(jù)的最簡格相關(guān)系數(shù)估計_第1頁
有序分類數(shù)據(jù)的最簡格相關(guān)系數(shù)估計_第2頁
有序分類數(shù)據(jù)的最簡格相關(guān)系數(shù)估計_第3頁
有序分類數(shù)據(jù)的最簡格相關(guān)系數(shù)估計_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

有序分類數(shù)據(jù)的最簡格相關(guān)系數(shù)估計

在科學(xué)研究中,尤其是在心理學(xué)和心理學(xué)的研究中,由于難以準(zhǔn)確測量連續(xù)軸,但很容易將其定位為具有等級關(guān)系的分散變量。這些分散數(shù)據(jù)被稱為有序分類數(shù)據(jù)。100多年前,皮爾森注意到了這些數(shù)據(jù)的存在,并提出使用皮爾森積分布依數(shù)(pelsonchain)計算連續(xù)數(shù)據(jù)之間的線性依存關(guān)系,并使用通用域名格式數(shù)據(jù)來估計有序數(shù)據(jù)之間的關(guān)系。然而,由于計算的限制,對這個問題的研究在很大程度上是停滯的。在計算和應(yīng)用于數(shù)學(xué)的支持下,直至70年代,才開始發(fā)展基于通用域名格式的數(shù)據(jù)的理論和估計方法。在數(shù)學(xué)專家仔細(xì)研究之前,皮爾森川西南的相關(guān)性應(yīng)用于各種研究。雖然它被認(rèn)為是有序分類數(shù)據(jù)之間的關(guān)系,但它是不可避免的。本文將用蒙特卡羅仿真法(MonteCarlomethod)考察在不同條件下,皮爾遜相關(guān)和多分格相關(guān)估計有序分類數(shù)據(jù)間相關(guān)的情況,并對兩種方法估計值的偏差進(jìn)行比較,以驗證多分格相關(guān)系數(shù)的優(yōu)勢,確定其適用范圍,并考察樣本量、分類數(shù)、相關(guān)程度和樣本分布等因素的影響程度.1y和的關(guān)系及分類原理多分格相關(guān)系數(shù)的理論假設(shè)認(rèn)為,觀察到的不連續(xù)的有序分類變量的背后,是連續(xù)的潛變量.假設(shè)觀察到兩個變量x和y,這兩個變量都是有序分類變量,且分別生成自兩個不可觀察到的連續(xù)變量ξ和η.ξ和η服從二元正態(tài)分布,x和y分別有r個和s個分類.x和ξ的關(guān)系可用式(1)表示:x={1a0<ξ<a12a1≤ξ<a2??rar-1≤ξ<ar(1)式(1)表示潛變量ξ落在某一范圍內(nèi)時,就可以觀察到相應(yīng)的觀測值.y和η的關(guān)系也可以用類似的方程表示,并使用b0,b1,…,bs替換ai作為η變量的邊界值.這里,ai和bi被稱為“臨界點”,且a0=b0=-∞,ar=bs=+∞.如果直接對變量x和y求皮爾遜相關(guān),得到的是兩個觀察變量間的相關(guān)ρxy,但實際上希望獲得的是兩個潛變量間的相關(guān)ρξη(下面直接用ρ表示).現(xiàn)在,假設(shè)變量x和y分別被兩個臨界點切分為3個分類,且背后的潛變量服從二元正態(tài)分布,就可以用圖1來描述這一關(guān)系.95%的數(shù)據(jù)會落在圖中的橢圓之內(nèi),整個坐標(biāo)空間被4個“臨界點”分為了9個區(qū)域,每個區(qū)域內(nèi)有nij個觀察到的數(shù)據(jù),比如,觀察值x=2和y=3的樣本數(shù)量為n23.推廣到一般情況,對于兩個變量的有序分類數(shù)據(jù),可以把樣本總結(jié)為一張r行×s列的列連表,表格中每個單元格的值是對應(yīng)取值的樣本數(shù)量.由于無法獲知ξ和η的真實度量刻度,只能假設(shè)它們服從μξ=μη=0,σ2ξ=σ2η=1的標(biāo)準(zhǔn)二元正態(tài)分布,其概率密度函數(shù)?(ξ,η;ρ)可用如下方程表示:?(ξ,η;ρ)=12π(1-ρ2)1/2exp[-12(1-ρ2)(ξ2-2ρξη+η2)](2)那么,觀察到x=xi,y=yi的可能性就為πij=∫aiai-1∫bibi-1?(ξ,η;ρ)dηdξ(3)2用一階導(dǎo)數(shù)法求解下面的問題就是如何利用方程(2)和(3)以及觀察到的樣本分布來估計相關(guān)系數(shù)ρξη.一種方法是聯(lián)合極大似然(jointmaximumlikelihood)估計法,這也是最常見的參數(shù)估計方法;另一種是在聯(lián)合極大似然法基礎(chǔ)上發(fā)展出來的兩步法(two-stepestimator).如果用nij表示實際觀察到x=xi,y=yj的樣本數(shù),則總樣本數(shù)為Ν=r∑i=1s∑j=1nij,那么樣本的對數(shù)似然函數(shù)為l=lnL=r∑i=1s∑j=1nijlnπij(4)要想獲得相關(guān)系數(shù)ρ的極大似然估計值,就需要對l求ρ的一階導(dǎo)數(shù)并使其等于零.對l求一階導(dǎo)數(shù)得到的表達(dá)式為dldρ=r∑i=1s∑j=1nijπij[?(ai,bj;ρ)-?(ai-1,bj;ρ)-?(ai,bj-1;ρ)+?(ai-1,bj-1;ρ)](5)需要注意的是,方程(5)中不僅相關(guān)系數(shù)ρ是未知參數(shù),臨界點ai和bj也同樣未知.所以,在估計ρ時,ai和bj需要同時被估計.文獻(xiàn)分別詳細(xì)描述過如何利用牛頓-拉夫遜迭代(Newton-Raphsommethod)進(jìn)行極大似然估計.從仿真的結(jié)果看,聯(lián)合極大似然估計法獲得的估計值非常接近真實值,但由于它需要同時對相關(guān)系數(shù)和臨界點進(jìn)行估計,當(dāng)變量的分類較多時,計算開銷明顯增大.為了減少計算,文獻(xiàn)建議使用臨界點的邊際累積比率(cumulativemarginalproportion)來取代其估計值,然后只對相關(guān)系數(shù)ρ進(jìn)行迭代估計,該方法被稱為“兩步法”.本仿真中將采用這種估計方法.觀察變量x和y間皮爾遜相關(guān)系數(shù)rxy的計算方法已為大家所熟知,其公式為rxy=∑(X-ˉX)(X-ˉY)√∑(X-ˉX)2∑(Y-ˉY)2(6)3模擬實驗為了驗證多分格相關(guān)系數(shù)在有序分類數(shù)據(jù)上的估值準(zhǔn)確性,本文進(jìn)行了兩個仿真實驗.3.1估計偏差的分析實驗1考察在正態(tài)分布條件下,分類數(shù)目和樣本量對兩種相關(guān)系數(shù)估計的影響.該實驗中,選擇3個相關(guān)系數(shù)0.20,0.50和0.80作為真實值,分別代表低、中、高3種不同程度的相關(guān);分類數(shù)據(jù)的分類數(shù)目選擇了常見的2點、3點、5點和7點4種;樣本量N選擇了從100到500,每100為一個間隔,共5種樣本量;這樣一共存在3×4×5=60種情況.對于每種情況,首先在正態(tài)分布下生成N個連續(xù)潛變量向量[ξ,η],然后根據(jù)分類數(shù)目設(shè)置等間隔(為保證數(shù)據(jù)呈正態(tài)分布)的臨界值切分連續(xù)潛變量,從而生成N個有序分類變量向量[x,y],接下來對樣本求皮爾遜相關(guān)系數(shù)和多分格相關(guān)系數(shù).為了減小隨機誤差的影響,對于每種條件重復(fù)進(jìn)行100次實驗.最后求兩種相關(guān)系數(shù)100次估計值的平均數(shù),并計算平均值與預(yù)先設(shè)定的真實值之差的絕對值,這個差被稱為偏差(bias).仿真結(jié)果見表1,其中列出了60種實驗條件下,兩種相關(guān)系數(shù)100次重復(fù)估值的平均數(shù),還給出了估計值的偏差.可以發(fā)現(xiàn),除兩種個別情況外(表1中,這兩種情況的數(shù)據(jù)用粗體字突出顯示),皮爾遜相關(guān)系數(shù)估計值的偏差都高于多分格相關(guān)的偏差,也就是說多分格相關(guān)系數(shù)估計值更為準(zhǔn)確.而且,除了低度相關(guān)且分類數(shù)為2的情況外,其它條件下,多分格相關(guān)的偏差基本都比皮爾遜相關(guān)的偏差小一個數(shù)量級以上.當(dāng)分類數(shù)小于等于5個的時候,皮爾遜相關(guān)系數(shù)的偏差占到了真實值的10%左右或以上,這樣的偏差應(yīng)該說是比較明顯的.而同樣情況下,多分格相關(guān)估計值的偏差則較小,一般只占到真實值的10%以下,最小的不足1%.表1中兩種相關(guān)系數(shù)的偏差也可以轉(zhuǎn)換為折線圖,限于篇幅,這里只給出中度相關(guān)(ρ=0.50)的情況,如圖2所示.圖2a表示皮爾遜相關(guān)系數(shù)的偏差,對應(yīng)的圖2b為多分格相關(guān)的偏差.非常明顯,皮爾遜相關(guān)估計值的偏差隨著分類數(shù)目的增多而下降,4條折線在圖2a中明確的分為4個層次;但圖中的折線并沒有隨樣本量的增大而明顯的減小或擴大,這說明樣本量對皮爾遜相關(guān)系數(shù)估計的影響并不顯著.在圖2b中,4條折線沒有出現(xiàn)如圖2a那樣明確的層次,而是在很多地方有交叉.大體上2個分類的折線在上,3個分類的折線在中間,5個和7個分類的折線在最下面,但這種趨勢并不嚴(yán)格.這可能是因為在3個及以上分類的情況下,多分格相關(guān)系數(shù)估計值的偏差本身就比較小(圖2a和圖2b縱坐標(biāo)的單位量級并不相同),此時的誤差很可能更多的來自于隨機誤差而不是方法引起的系統(tǒng)性誤差,因此出現(xiàn)了折線交錯的狀態(tài).與皮爾遜相關(guān)類似,多分格相關(guān)系數(shù)受樣本量的影響也不明顯,這兩者間的關(guān)系變得毫無規(guī)律可循.3.2偏態(tài)分布對總體估計的影響實驗1是在數(shù)據(jù)正態(tài)分布的條件下進(jìn)行的,相關(guān)系數(shù)估計的準(zhǔn)確性實際上還會受到樣本分布形態(tài)的影響.尤其是多分格相關(guān)系數(shù)的理論假設(shè)就是潛變量服從二元正態(tài)分布,那么非正態(tài)分布的有序分類數(shù)據(jù)會對多分格相關(guān)系數(shù)估計準(zhǔn)確性的影響就必須被研究.下面設(shè)計了實驗2來考察這一影響.由于實驗1已經(jīng)發(fā)現(xiàn)樣本量對相關(guān)系數(shù)估計的影響不明顯,實驗2就只選擇樣本量等于400.另外,分類數(shù)多少的影響在本實驗里也不是考察重點,所以只選擇了較為常用的5個和7個分類的形式.兩個觀測變量x和y被設(shè)定為4種分布條件:①同為正態(tài);②偏度同為-1;③偏度同為1;④一個變量的偏度為1,另一個的偏度為-1.實驗2的結(jié)果列于表2.表2的數(shù)據(jù)顯示,無論在5個分類,還是在7個分類的情況下,偏態(tài)分布對多分格相關(guān)的估計都沒有很大影響.雖然在個別的分布條件下,其偏差有所增大;但最大偏差也只有0.01,不超過低度相關(guān)真實值0.20的5%.反觀皮爾遜相關(guān)系數(shù),在數(shù)據(jù)呈偏態(tài)分布時,偏差的增加非常明顯;特別是當(dāng)兩個變量朝著不同方向偏斜,即偏度為1/-1時,其誤差急劇增大,估計值與真實值間相距甚遠(yuǎn).即使將分類數(shù)目增大到7個,皮爾遜相關(guān)系數(shù)的偏差也沒有明顯的減小.4估計的準(zhǔn)確性綜合2個仿真實驗的結(jié)果,可以對皮爾遜和多分格兩種相關(guān)系數(shù)得出以下4點結(jié)論:1)對于有序分類數(shù)據(jù),多分格相關(guān)的估計值在絕大多數(shù)情況下都比皮爾遜相關(guān)準(zhǔn)確很多,但在分類數(shù)目少(等于2時)且低度相關(guān)的條件下,多分格相關(guān)系數(shù)也存在較大的誤差;2)無論哪種相關(guān)系數(shù),分類數(shù)越多,相關(guān)系數(shù)的估計值就越準(zhǔn)確,皮爾遜相關(guān)系數(shù)的這種趨勢比多分格相關(guān)系數(shù)更為明顯;3)兩種相關(guān)系數(shù)估計的準(zhǔn)確性受樣本量大小的影響都較小,很難對影響趨勢給予總結(jié),這一點是在前人研究中沒有被關(guān)注到的現(xiàn)象;4)總的來看,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論