




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、基于CTT的錨測驗非等組設計中四種等值方法的比較研究 基于CTT的錨測驗非等組設計中四種等值方法的比較研究焦麗亞/辛濤1問題提出許多大型測驗項目,出于保密性或者多次施測的需求等原因,常常要求對同一測驗構建不同的測驗版本,盡管編制者總是盡量保持不同版本的難度相同,但難以避免會存在一些差異。為使這些不同測驗版本上的分數(shù)具有可比性,必須將其置于一個統(tǒng)一的尺度上,這個過程就是等值(equating)。在大型正規(guī)考試中,為使參加同一考試的不同試卷形式的考生之間的分數(shù)具有可比性,保證測驗的公平性,也必須進行等值處理。當前,隨著項目反應理論的普及應用,以及計算
2、機技術的飛速發(fā)展,計算機自適應考試日趨成為一種重要的考試手段,計算機自適應考試的核心問題之一就是實現(xiàn)不同考生所測不同題目之間的等值。另外,題庫建設也需要以等值為前提。如今,等值研究在國外已經(jīng)非常深入,但在我國相關的介紹和研究還很少,等值研究迄今是我國測驗研究中最薄弱的一個環(huán)節(jié)1。所有的等值方法都包括兩部分:數(shù)據(jù)收集設計和用于分析數(shù)據(jù)的統(tǒng)計模型。等值數(shù)據(jù)收集設計中,由于錨測驗設計的眾多優(yōu)點,在實踐中應用最為廣泛。等值數(shù)據(jù)分析依據(jù)的測量模型有兩種:經(jīng)典測量理論和項目反應理論,分別對應于傳統(tǒng)等值方法和IRT等值方法。 這些不同等值方法的比較研究是等值研究領域的熱點問題之一。關于不同等值方法的比較,存
3、在著兩種類型的研究2。一種是使用不同的等值群體來比較某一等值方法的充分性,另一種是對不同等值方法的最終結果進行比較。本研究屬于第二種。早在1977年,Lord3,Marco4,Woods和Wiley5 等人就對基于CTT和IRT的不同等值方法進行了比較研究,這些研究發(fā)現(xiàn),不同的等值方案產(chǎn)生了不同的結果。Marco , Petersen 和Stewart6 比較了傳統(tǒng)等值方法和IRT等值方法對SAT(Scholastic Aptitude Test)的口語部分等值的充分性,結果發(fā)現(xiàn)當使用和某一測驗具有相同難度的錨測驗將該測驗等值到自身時,除了等百分位方法中的一種變體外,所有方法的結果都較好,其中
4、線性等值的結果最精確。Lord3 從理論角度出發(fā), 認為傳統(tǒng)等值方法不適合等值不同難度的測驗。Slinde和Linn7 的研究也發(fā)現(xiàn),等百分位方法在等值不同難度的測驗時效果不好。Kolen2 在Lord等人觀點的基礎上提出了平行測驗等值和非平行測驗等值的區(qū)分,認為非平行測驗等值只要求參加兩等值測驗的同一考生所得分數(shù)相同,而平行測驗等值除要求參加兩等值測驗的同一考生所得分數(shù)相同之外,還要求考生在等值之后的兩測驗上所得分數(shù)的分布情況(測量標準誤和高階動差)也相同。Kolen認為2,為使傳統(tǒng)等值方法精確,必須進行平行測驗等值。這不難理解,因為傳統(tǒng)等值方法通常要求構建共同的分數(shù)尺度,以使期望頻數(shù)分布在
5、考生組的所有子群體中都相同。在我國測驗研究領域,有關等值問題的系統(tǒng)性文獻十分罕見1。關于不同等值方法的比較,只有謝小慶1 對此進行了較為全面的研究,這是等值方法比較中的一個開創(chuàng)性研究,具有參考和借鑒價值。但是,我們認為,該研究存在以下問題。第一,沒有在平行測驗的前提下考慮傳統(tǒng)等值方法的比較,而只是得出了兩測驗相關較高的結論,但由于兩測驗中包含部分共同題目,相關較高是在意料之中,因此并不能說明問題。第二,樣本容量不夠大(關于樣本容量對等值結果的影響見后文論述)。這兩個問題都將使傳統(tǒng)等值方法的精確度降低。然而該研究在等值方法的比較標準中又以傳統(tǒng)等值方法的結果作為操作性檢驗標準,以精確度不是足夠高的
6、等值結果作為總誤差計算時的標準等值分數(shù),所得結論令人質(zhì)疑。而且,僅以一個單一的指標來衡量各等值方法的優(yōu)劣,顯得不夠充分。該研究對于傳統(tǒng)等值方法比較所得結論是,Tucker線性方法最好,等百分位方法其次,再次是Levine線性方法1。但是,Petersen8 的研究卻表明,對于嚴格的平行測驗,線性等值較為合適,其中,Levine線性方法的結果(對于其研究所選用的等值情境)更穩(wěn)健。那么,利用傳統(tǒng)等值方法對平行測驗進行等值時,線性等值是否最為精確?在線形等值中,Tucker方法好還是Levine方法更好?本研究選用實踐中應用較多的錨測驗非等組設計,基于平行測驗等值,依據(jù)多種評價指標,對基于經(jīng)典測量理
7、論的等值方法進行比較,以期對上述問題得出有效的結論,同時為實踐中等值方法的選擇提供理論依據(jù)。2研究方法2.1等值數(shù)據(jù)收集設計采用錨測驗非等組設計,錨題內(nèi)置。錨測驗設計要求對兩組考生(組1和組2)實施不同的測驗版本(X,Y),這兩個測驗版本包含共同的題目(錨題V)。錨題得分既可以包含在總測驗得分中(錨題內(nèi)置),也可以不包含在總測驗得分中,而采取單獨施測的形式(錨題外置)9。借助錨測驗對兩測驗版本上的分數(shù)進行等值。2.2實驗數(shù)據(jù)選自TIMMS1999數(shù)據(jù)庫。TIMMS是由國際性評價組織所組建的數(shù)據(jù)庫,用來測量不同國家不同年級學生的數(shù)學成績。其測驗共有8個測驗副本,題目分別選自從A到Z的26個部分中
8、的個別部分。本研究選取的是TIMMS1999的第1和第3個測驗副本,為使測驗更接近嚴格意義的平行測驗,將測驗1刪掉3題,實施等值時兩測驗長度均為42題。錨題數(shù)量均為17個。題目為多擇一型選擇題,采用0、1記分。施測對象是七(或八)年級學生。被試來自美國,測驗X的被試(組1)數(shù)目是1132個,測驗Y的被試(組2)數(shù)目是1144個。2.3所比較的等值方法。本研究比較了四種傳統(tǒng)等值方法9:(1)Tucker線性方法:該方法有兩個前提假設,假設一為線性回歸假設, 即假設測驗X(Y)對錨測驗V的回歸在兩被試組中有相同的線性函數(shù)形式。假設二為條件方差假設,即假設對于給定的錨測驗V,測驗X(Y)的條件方差在
9、兩被試組中相等。基于這兩個前提假設,得出兩考生組的合成組(S)在兩測驗中的均數(shù)和方差,進而依據(jù)線性等值公式進行等值。(2)Levine觀察分數(shù)線性方法:該方法有三個假設, 這三個假設均是基于真分數(shù)所做的假設。假設一為相關假設,即假設測驗X、測驗Y與錨測驗V 的真分數(shù)在兩被試組中的相關都是1。假設二為線性回歸假設,即假設測驗X(Y)的真分數(shù)對錨測驗V的真分數(shù)的回歸在兩被試組中有相同的線性函數(shù)形式。假設三為誤差方差假設,即假設測驗X、測驗Y和錨測驗V的測量誤差方差在兩被試組中都相同。 基于這三個前提假設,得出兩考生組的合成組(S)在兩測驗中的均數(shù)和方差, 進而依據(jù)線性等值公式進行等值。(3)Bra
10、un-Holland線性方法:它也是一種線性方法,但其均數(shù)和標準差的估計都用到了頻數(shù)估計中的假設。Braun-Holland線性方法可以看作是Tucker 線性方法的一般化拓展,由于其計算方法比Tucker線性方法復雜,所以在實踐中很少使用,但它可用于Tucker線性方法的線性回歸假設不被滿足的情況。(4)頻數(shù)估計等百分位方法:該方法有一個前提假設條件概率假設, 即假設兩被試組中測驗X(Y)的頻數(shù)分布在給定錨測驗V條件下的概率相等?;谶@一前提假設,得出合成組(S)在兩測驗中的頻數(shù)分布, 進而依據(jù)等百分位方法的等值公式進行等值。2.4等值比較的評價標準本研究兼用兩個指標對四種等值方法進行比較。
11、首先,使用等值標準誤作為衡量各等值方法優(yōu)劣的指標。等值標準誤是描述等值隨機誤差的指標,其定義為,通過從總體中重復抽樣,以一個完全擬合數(shù)據(jù)條件的等值方法進行等值,那么,等值結果分布的平均數(shù)即是真正的等值分數(shù),而分布的標準差即是等值標準誤10。其次,使用交叉驗證(cross-validation)分析方法來評價不同等值方法。具體做法為:從大樣本(參加測驗X,Y的兩考生組)中抽取約10的小樣本(100人)作為交叉驗證樣本,以大樣本所得等值結果為檢驗標準,衡量各等值方法在跨樣本比較中所得結果的穩(wěn)定性。我們生成了一個計算指標T 作為各方法所得等值結果比較的統(tǒng)計指標,這個指標是在跨樣本比較時,不同等值方法
12、在交叉驗證樣本中所得結果差異量或誤差(YY)的均方差根。其計算公式為:附圖。其中,Y,i是在交叉驗證樣本中,測驗X上總分排在第i位的考生采用各等值方法所對應于測驗Y上的實際等值分數(shù),n是獲得該分數(shù)的人數(shù),Y 是依據(jù)大樣本的等值結果,該分數(shù)所對應的測驗Y的等值分數(shù),N是交叉驗證樣本的總人數(shù)。該統(tǒng)計指標的值越小,表明各等值方法所得結果的一致性越高。2.5所采用的計算機程序采用Kolen和Brennan等人(Kolen和Brennan,2004)開發(fā)的CIPE程序, 使用windows console 1.0版本。3結果3.1兩測驗的主要統(tǒng)計量匯總兩等值測驗X和Y及錨測驗V在考生組1和組2上的統(tǒng)計量
13、見表1。表1兩測驗和錨測驗的統(tǒng)計量匯總組別分數(shù)平均數(shù) 標準差 偏度峰度相關系數(shù)1 X 21.1538468.838627 0.2244592.206325,1(X,V)1 V 8.136163 3.996797 0.2396472.189007=0.942 Y 21.5144368.990396 0.1876962.104102,2(X,V)2 V 8.449694 4.105654 0.0483362.116774=0.94 從表中可以看出,組1在測驗X和錨測驗V上的相關及組2在測驗Y和錨測驗V上的相關均高達0.93以上。說明錨測驗V和測驗X和Y的難度非常近似。另外,從錨測驗V上的
14、得分可見組2的水平略高于組1。 3.2三種線性等值方法的比較結果首先,對三種線性方法進行比較。表2列出了三種線性方法等值的斜率和截距,從表中可見,三種方法的斜率和截距值較為接近,這表明,它們所估計出的等值結果較為相似,這從表3中可以看出,表3列舉了三種線性方法所得測驗X對應的測驗Y的等值分數(shù)。表2三種線性方法等值的斜率和截距方法 斜率截距Tucker 0.993614-0.146522Levine 0.986288-0.083325Braun-Holland1.000325-0.364191 表3三種線性方法所得測驗X對應的測驗Y的等
15、值分數(shù)(例舉)XTucker Levine Braun-Holland0-0.15-0.08-0.3610 9.79 9.78 9.6420 19.7319.6419.6430 29.6629.5129.6540 39.6039.3739.6542 41.5941.3441.65 3.3Tucker方法線性回歸假設的檢驗結果對于每一個給定的錨測驗V上的分數(shù),我們可以分別計算出考生組1和考生組2在給定V條件下在測驗X和測驗Y上所得實際分數(shù)的平均值,同時也可以根據(jù)Tucker方法的線性回歸假設,利用回歸方程計算出給定V條件下估計的測驗X和Y的均數(shù),估計均數(shù)和實際均數(shù)的差值為均數(shù)殘差,對給
16、定V條件下的測驗X和Y上的均數(shù)進行檢驗,如果均數(shù)殘差的值在0附近隨機變化,那么說明線性回歸假設是正確的。 檢驗結果如圖1所示。附圖圖1測驗X和測驗Y總分對錨測驗V線性回歸的殘差分析結果圖由圖1可見,除末端極端值外,測驗X和Y的均數(shù)殘差基本在0附近上下波動,說明測驗X(Y)對錨測驗V的線性回歸假設滿足。那么,在這種情況下,Braun-Holland方法不如Tucker方法合適。因此,在3.5的各等值方法的比較結果中不再涉及該方法。3.4線性方法和等百分位方法的等值關系圖圖2列出了不同等值方法將測驗X上的分數(shù)轉化為測驗Y上分數(shù)的比較結果。從圖2可以明顯看出,等百分位方法的結果非常不規(guī)則, 而且與其
17、他方法相差較大。線性方法中,Tucker和Levien方法的結果較為接近,Braun-Holland方法的結果則與其他兩種線形方法有一定差距,這與上面的線性回歸假設檢驗結果基本一致。附圖圖2各等值方法的關系圖3.5三種等值方法的比較結果圖3列出了三種等值方法的等值標準誤比較結果。從圖3可見,等百分位方法的等值標準誤較大,Tucker線性方法的等值標準誤最小,而Levine線性方法介于二者之間,與Tucker方法的結果較為接近。因此,依據(jù)等值標準誤指標,可以初步得出三種方法的一個優(yōu)劣比較結果。等百分位方法不足取,線性方法中,Tucker方法結果更精確。附圖圖3三種方法的等值標準誤表4列出了依據(jù)第
18、二個比較標準交叉驗證分析方法所得指標T的結果。結果顯示,Tucker方法的跨樣本穩(wěn)定性最好,等百分位方法穩(wěn)定性最差,而Levine方法略次于Tucker方法。這與前面依據(jù)等值標準誤指標的比較結果一致。表4交叉驗證比較結果方法T 名次Tucker1.3547581Levine1.3933672Unsmoothed EQ%1.4736853 【參考文獻】 1謝小慶對15種測驗等值方法的比較研究心理學報,2000.32.(2):2172232Kolen M J. Comparsion of traditional and item response theory methods for e
19、quating tests. Journal of educational measurement, 1981,18:1113Lord F M. Practical applications of item characteristic curve theory. Journal of educational measurement, 1977, 14:1171384Marco G L. Item characteristic curve solutions to three intractable testing problems. Journal of educational measur
20、ement, 1977,14:1391605Woods E M, Wiley D E. An application of item characteristic curve equating to single form tests. Paper presented at the Annual Meeting of the Psychometric Society, Chapel Hill, NC, 1977American educational research association, Toronto, Canada, 19786Marco G L, Petersen N S, Stewart E E. A test of
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 南京財經(jīng)大學論文答辯模版
- 高中生涯規(guī)劃課程
- 四川省南充市西充縣義興片區(qū)2025年小升初科學模擬試卷(含答案)
- 臨床基礎測試試題及答案
- 船舶消防考試題庫及答案
- 教育學概率試題及答案
- 手機變遷-改革開放
- 安徽信訪考試題及答案
- 廣告設計師考點與試題及答案曝光
- 中考試題分式及答案
- 農(nóng)業(yè)文化創(chuàng)意產(chǎn)業(yè)園項目可行性研究報告
- 2025年郵政社招筆試試題及答案
- 2025年保密觀知識測試題及答案
- 【MOOC】天文探秘-南京大學 中國大學慕課MOOC答案
- 三年級數(shù)學下冊《面積》練習試卷及答案
- 《現(xiàn)代漢語語法》PPT課件(完整版)
- 柜式氣體滅火系統(tǒng)培訓
- 用人單位常見用工風險防范與應對培訓講義(PPT42張)課件
- 135調(diào)速器操縱手柄設計工藝卡片
- 《山東省消防條例》(2022年最新版)[1]
- GB T 197-2018 普通螺紋 公差(高清版)
評論
0/150
提交評論