版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、教育測量的4個“度”n教育測量的教育測量的4 4個度是指信度、效度、難度、個度是指信度、效度、難度、區(qū)分度。區(qū)分度。n信度、效度是鑒別教育測驗的整體測量信度、效度是鑒別教育測驗的整體測量學屬性的指標。學屬性的指標。n難度、區(qū)分度是檢驗教育測驗各項目的難度、區(qū)分度是檢驗教育測驗各項目的質量好壞的指標。質量好壞的指標。第二章 教育測量與評價的信度學習目標:1 1、理解信度的概念和統(tǒng)計學含義。、理解信度的概念和統(tǒng)計學含義。2 2、掌握五種信度的定義。、掌握五種信度的定義。3 3、掌握影響信度的主要因素和提高方法。、掌握影響信度的主要因素和提高方法。4 4、能計算同質性信度、評分者信度,以及新、能計算
2、同質性信度、評分者信度,以及新 增題目長度與新測驗信度的關系。增題目長度與新測驗信度的關系。第一節(jié) 誤差的理論v一、誤差的定義和種類v二、誤差的來源v三、真分數(shù) 一、誤差的定義和種類一、誤差的定義和種類 教育測量中所指的誤差就是在測量中與目的無關的因素所產(chǎn)生的不準確或不一致的效應。此定義包含兩層意思:一是誤差是由與測驗目的無關的因素引起的;二是誤差是不準確或不一致的測量結果。v例如:我們?nèi)バ傎I水果,若攤主偷換了稱砣,其實測結果一定不準;或者 他的秤是符合要求的,但操作時故意使些手段,其實測結果也是不準確的,這就是誤差,其產(chǎn)生是由那些與測量目的無關的變因所致。(修改測量工具、不正確的使用測量工
3、具)v 誤差主要有兩種類型:系統(tǒng)誤差、隨機誤差。系統(tǒng)誤差 是由與測驗目的無關的因子所引起的恒定的、系統(tǒng)的、有規(guī)律的變化,存在于每次測量中,故又稱常定誤差。它直接影響著測量的準確性,與效度有關。因為它們在測驗中不引起測量結果的不一致性,所以與信度無關。如圖所示: v從圖可看出,所有的射擊幾乎都落在靶心的同一外側,射擊的偏差具有一致性、系統(tǒng)性。v如射擊過程中,盡管射手非常優(yōu)秀,每次結果都很一致,但若槍的準心有點毛病,則其射擊結果將會產(chǎn)生穩(wěn)定的偏差;又如,數(shù)學測驗中,如有一道10分題的標準答案給錯,則全體正確作答該題的考生成績將普遍下降10分,這也是系統(tǒng)誤差。v若是老師評分標準寬嚴不一,甚至隨心所欲
4、,則考生成績就會出現(xiàn)隨機誤差。 隨機誤差 是使用測量工具進行心理測量所造成的誤差,又稱測量誤差、觀察誤差、偶然誤差。它是由與測驗目的無關的偶然因素引起,使得幾次測量結果不一致,且這種不一致是無系統(tǒng)的、隨機的。隨機誤差與信度及效度都有關系,信度則完全受隨機誤差影響。 如圖所示: v由圖可看出,所有的射擊幾乎是隨機地散落在靶心的四周,不具有一致性和規(guī)律性。v比如,在射擊中,新手往往很難控制手臂的輕微擺動,結果多次射擊成績很不一致,這種誤差就是隨機誤差。 二、誤差的來源v(一)測驗內(nèi)部引起的誤差v(二)由施測過程引起的誤差v(三)由受測者本身引起的誤差 在教育測量中,常見的誤差來源于三個方面:測驗內(nèi)
5、部、施測過程、受測者本身。 (一)測驗內(nèi)部引起的誤差 測驗內(nèi)部引起的誤差主要來源于題目取樣: 當測驗題目較少或取樣缺乏代表性時,被試的反應受機遇影響較大; 當幾個測驗復本不等值時,接受不同的題目,就會獲得不同的分數(shù); 測驗題目格式不妥; 測驗的難度過高或過低; 測題或指導語用詞不當; 測驗時限過短。 (二)由施測過程引起的誤差 三種誤差來源中,此種誤差可能是最容易控制和檢驗的。與施測過程有關的誤差主要有以下幾種: 1.物理環(huán)境 施測現(xiàn)場的溫度、光線、聲音、桌面好壞、空間闊窄等皆有影響。 2.主試者方面 主試者的年齡、性別、外表,施測時的言談舉止、表情動作等均能影響測驗結果。 3.意外干擾 在測
6、驗環(huán)境復雜,特別是當受試人數(shù)較多時,容易發(fā)生意外情況,這會導致測驗成績不準確。 4.評分記分 評分不客觀、計分、登記分數(shù)出錯等也是常見的誤差。 (三)由受測者本身引起的誤差 即使一個測驗經(jīng)過精心編制,題目取樣具有代表性,又有標準化的施測程序,由于受測者本身的變化,仍然會給測驗分數(shù)帶來誤差,這種誤差是最難控制的。主要有以下幾種: 1.應試動機 受測者對測驗的動機不同,會影響其作答態(tài)度、注意力、持久性、反應速度等,從而影響測驗成績。 2.測驗焦慮 一般來說 ,適度的焦慮會使人的興奮性提高,注意力增強,提高反應速度,從而對測驗成績產(chǎn)生積極的影響。過高的焦慮卻會使工作能力下降,注意分散,記憶中儲存的東
7、西不能提取,影響測驗成績。 3.生理因素 生病、疲勞、失眠等生理因素會影響測驗成績而帶來誤差。 4.學習、發(fā)展和教育 由一般學習經(jīng)驗或發(fā)展變化所引起的測驗分數(shù)上的差異,在大多情況下,只構成恒定誤差,但有時也構成隨機誤差。 5.測驗經(jīng)驗 受測者對測驗的經(jīng)驗也會影響測驗成績,對測驗的程序和技能熟悉程度不同,所得分數(shù)便不能直接比較。 6.練習效應 任何一個測驗在第二次應用時,都會有練習效應而使成績提高。 三、真分數(shù) 所謂真分數(shù)就是一個測量工具在測量沒有誤差時,所得到的純正值。其操作定義是:經(jīng)過無數(shù)次測量所得到的平均值。 真分數(shù)的定義表明,一個人在一個測驗上所得的分數(shù),即是它的真分數(shù)的函數(shù),也是測量誤
8、差的函數(shù),用公式表示如下: X=T+E 這里 X為實得分數(shù)或觀測分數(shù),T是假設的真分數(shù),E是測量誤差。 真分數(shù)是一個在理論上構想出來的抽象概念,在實際測量中是很難得到的。 在上述公式中E可能是正的,也可能是負的。即一個人的實得分數(shù)可能大于真實量,也可能小于真實量,總是圍繞真值上下波動。真分數(shù)理論的三個基本假設: 誤差分數(shù)的平均數(shù)是零(由于測量誤差具有隨機性); 誤差分數(shù)與真分數(shù)相互獨立,即相關為零; 兩次測量的誤差分數(shù)之間的相關為零。 根據(jù)上述假設,可以推導出實測分數(shù)、真分數(shù)和測量誤差之間有如下關系: SX 2 =S T2+SE2 即實得分數(shù)的方差等于真分數(shù)的方差誤差的方差之和。一般地,一般地
9、,設一組樣本數(shù)據(jù)設一組樣本數(shù)據(jù) ,其平均,其平均數(shù)為數(shù)為x,x,則稱則稱nxxx,21 nxxx,21212)(1niixxns為這個樣本的為這個樣本的方差方差,其算術平方根,其算術平方根niixxns12)(1為樣本的為樣本的標準差標準差。方差越小,數(shù)據(jù)的波動越小。方差越小,數(shù)據(jù)的波動越小。第二節(jié) 信度的定義一、什么是信度n信度指測量結果的穩(wěn)定性、一致性程度。一個好的信度指測量結果的穩(wěn)定性、一致性程度。一個好的測量工具必須具備好的信度,也就是說它多次測量測量工具必須具備好的信度,也就是說它多次測量的結果應該相對的穩(wěn)定、一致。的結果應該相對的穩(wěn)定、一致。 n信度反映的是測量中隨機誤差的大小信度
10、反映的是測量中隨機誤差的大小。隨機誤差小,。隨機誤差小,則信度高;反之,則信度低。則信度高;反之,則信度低。n測驗題目本身并不能提供信度的估計值,信度統(tǒng)計測驗題目本身并不能提供信度的估計值,信度統(tǒng)計來自于測驗分數(shù)。也就是說,在檢驗信度之前必須來自于測驗分數(shù)。也就是說,在檢驗信度之前必須要實施教育測驗,以獲得測驗分數(shù)。要實施教育測驗,以獲得測驗分數(shù)。1 1、信度可定義為一個被測團體的真分數(shù)方、信度可定義為一個被測團體的真分數(shù)方差與觀測分數(shù)方差之比?;蛘哒f,真分數(shù)變異差與觀測分數(shù)方差之比?;蛘哒f,真分數(shù)變異能夠解釋觀測分數(shù)變異的比例(能夠解釋觀測分數(shù)變異的比例(理論定義理論定義) r rxxxx
11、= = s s2 2T T / s/ s2 2x x ( (r rxxxx為信度系數(shù)為信度系數(shù)) )觀測觀測分數(shù)分數(shù)方差方差真分數(shù)方差二、用統(tǒng)計術語談信度2 2、信度系數(shù)等于一個測驗、信度系數(shù)等于一個測驗X X與它的任意一個平與它的任意一個平行測驗行測驗X X 的相關系數(shù)(的相關系數(shù)(操作定義操作定義) r rxxxx = = r rxxxx ( (r rxxxx為信度系數(shù)為信度系數(shù)) ) n考察信度系數(shù)時,常常采用考察信度系數(shù)時,常常采用相關系數(shù)相關系數(shù)作為信作為信度指標。采用不同的方式計算相關系數(shù),就度指標。采用不同的方式計算相關系數(shù),就得到不同類型的信度系數(shù)。得到不同類型的信度系數(shù)。n信
12、度值在信度值在0 01.001.00之間,當信度系數(shù)等于之間,當信度系數(shù)等于1.001.00時,表示測驗完全可靠;當信度系數(shù)等于時,表示測驗完全可靠;當信度系數(shù)等于0 0時,時,則表示測驗根本不可靠。則表示測驗根本不可靠。問題n一個能力測驗用于人才招聘,經(jīng)檢驗它的信一個能力測驗用于人才招聘,經(jīng)檢驗它的信度為度為0.700.70 ,如何理解這個信度系數(shù)的含義?,如何理解這個信度系數(shù)的含義?n0.700.70的信度系數(shù)表明,在不同的招聘候選人的信度系數(shù)表明,在不同的招聘候選人之間進行比較,候選人測驗分數(shù)的之間進行比較,候選人測驗分數(shù)的70%70%差別是差別是由于個體之間真實的能力差異所導致的,而由
13、于個體之間真實的能力差異所導致的,而30%30%差別是由于隨機誤差所導致。差別是由于隨機誤差所導致。第二節(jié)第二節(jié) 信度的種類及其估計方法信度的種類及其估計方法n采用不同的方法來計算相關系數(shù),就會得到采用不同的方法來計算相關系數(shù),就會得到不同類型的信度指標:重測信度、復本信度、不同類型的信度指標:重測信度、復本信度、分半信度、同質性信度、評分者信度。分半信度、同質性信度、評分者信度。n五種信度的含義和計算方法各異,我們在使五種信度的含義和計算方法各異,我們在使用時要特別注意每一種信度的特定內(nèi)涵和適用時要特別注意每一種信度的特定內(nèi)涵和適用范圍。用范圍。一、重測信度u重測信度重測信度(Test-re
14、test Reliability)(Test-retest Reliability)指的是用指的是用同一個量表對同一組被試施測兩次所得結果的同一個量表對同一組被試施測兩次所得結果的一致性程度,其大小等于同一組被試在兩次測一致性程度,其大小等于同一組被試在兩次測驗上所得分數(shù)的皮爾遜積差相關系數(shù)。驗上所得分數(shù)的皮爾遜積差相關系數(shù)。u重測信度又叫再測信度,重測信度又叫再測信度,它反映的是教育測驗它反映的是教育測驗跨時間的一致性,是穩(wěn)定性系數(shù)??鐣r間的一致性,是穩(wěn)定性系數(shù)。相關系數(shù)施測再施測時間間隔重測信度的計算公式與使用前提 采用重測信度作為信度指標時,必須滿足以下前采用重測信度作為信度指標時,必須
15、滿足以下前提:(提:(1 1)測驗所測的教育特質必須是穩(wěn)定的;()測驗所測的教育特質必須是穩(wěn)定的;(2 2)遺忘和練習的效果基本相互抵消;(遺忘和練習的效果基本相互抵消;(3 3)在兩次施測)在兩次施測的間隔期內(nèi),被試所要測查的教育特質沒有獲得更多的間隔期內(nèi),被試所要測查的教育特質沒有獲得更多的學習和訓練;(的學習和訓練;(4 4)被試有條件接受兩次相同的測)被試有條件接受兩次相同的測驗,取決于時間、經(jīng)費等因素。驗,取決于時間、經(jīng)費等因素。22)()(/)(yyxxyyxxrxx重測信度與時間間隔n間隔時間不同,重測信度也不同。一般而言,間隔時間不同,重測信度也不同。一般而言,時間間隔越長,信
16、度系數(shù)越低。時間間隔越長,信度系數(shù)越低。n適宜的間隔時間因測驗性質、被試特點而異。適宜的間隔時間因測驗性質、被試特點而異。一般以一般以2 2周到周到4 4周較宜,最好不超過周較宜,最好不超過6 6個月。個月。n報告重測信度時要明確說明兩次測驗之間的時報告重測信度時要明確說明兩次測驗之間的時間間隔。并且,一個經(jīng)過良好評估的測驗應當間間隔。并且,一個經(jīng)過良好評估的測驗應當具有多個時間間隔的重測信度。具有多個時間間隔的重測信度。二、復本信度 n復本信度復本信度(Alternate-form Reliability)(Alternate-form Reliability) 指用兩個平行測驗測量同一批被
17、試所得結果指用兩個平行測驗測量同一批被試所得結果的一致性程度。其大小等于同一批被試在兩個的一致性程度。其大小等于同一批被試在兩個復本測驗上所得分數(shù)的皮爾遜積差相關系數(shù)。復本測驗上所得分數(shù)的皮爾遜積差相關系數(shù)。n復本信度又叫平行性信度,復本信度又叫平行性信度,它反映的是跨型式它反映的是跨型式的一致性的一致性 。施測型施測型 相關系數(shù)連續(xù)施測或間隔施測平行測驗的概念n平行測驗(平行測驗(A A、B B卷)必須是真正等值的,它們卷)必須是真正等值的,它們測量的是同一特質,具有大致相當?shù)膬?nèi)容范圍、測量的是同一特質,具有大致相當?shù)膬?nèi)容范圍、題型、長度、難度、區(qū)分度、指導語、時限等,題型、長度、難度、區(qū)分
18、度、指導語、時限等,只是具體的題目不同。只是具體的題目不同。n在統(tǒng)計學上,真正的平行測驗在測量同一批被在統(tǒng)計學上,真正的平行測驗在測量同一批被試時,應具有相同的平均數(shù)和標準差,并且被試時,應具有相同的平均數(shù)和標準差,并且被試在分數(shù)分布形態(tài)上相似。試在分數(shù)分布形態(tài)上相似。n由于平行測驗的題目不相同,所以不存在記憶由于平行測驗的題目不相同,所以不存在記憶效應。效應。兩種復本信度u等值性系數(shù)等值性系數(shù):如果兩個平行測驗連續(xù)施測,如果兩個平行測驗連續(xù)施測,則這種復本信度為等值性系數(shù)。它反映的是則這種復本信度為等值性系數(shù)。它反映的是兩個平行測驗的題目差異所帶來的變異情況。兩個平行測驗的題目差異所帶來的變
19、異情況。u穩(wěn)定性與等值性系數(shù)穩(wěn)定性與等值性系數(shù):如果兩個平行測驗是如果兩個平行測驗是間隔一段時間后施測,則這種復本信度為穩(wěn)間隔一段時間后施測,則這種復本信度為穩(wěn)定性與等值性系數(shù)。它反映題目差異與時間定性與等值性系數(shù)。它反映題目差異與時間間隔兩方面所帶來的變異情況,影響因素更間隔兩方面所帶來的變異情況,影響因素更多。一般而言,穩(wěn)定性與等值性系數(shù)最為嚴多。一般而言,穩(wěn)定性與等值性系數(shù)最為嚴格,它的值也最低。格,它的值也最低。 采用復本信度的條件n要構造出要構造出2 2份或份或2 2份以上真正平行的測驗。份以上真正平行的測驗。n被試有條件接受兩次以上的測驗。被試有條件接受兩次以上的測驗。 復本信度的
20、優(yōu)缺點優(yōu)點:優(yōu)點:1、減少了記憶效應和練習效應。、減少了記憶效應和練習效應。2、適用于追蹤研究的多次測量。、適用于追蹤研究的多次測量。3、減少了輔導的可能性。、減少了輔導的可能性。缺點:缺點:1、編制復本測驗的難度較大。、編制復本測驗的難度較大。2、被試要有接受兩次以上測驗的條件和意愿。、被試要有接受兩次以上測驗的條件和意愿。三、分半信度n分半信度分半信度(Split-half Reliability)(Split-half Reliability)指將一指將一個測驗分成個測驗分成對等對等的兩半后,所有被試在這兩的兩半后,所有被試在這兩半上所得分數(shù)的一致性程度。半上所得分數(shù)的一致性程度。n最常
21、用的分半方法是奇、偶分半,即奇號題最常用的分半方法是奇、偶分半,即奇號題組成組成“半個測驗半個測驗”,偶號題組成另外的,偶號題組成另外的“半半個測驗個測驗” ” ,計算被試團體在這兩個,計算被試團體在這兩個“半個半個測驗測驗”上得分的相關系數(shù),上得分的相關系數(shù),經(jīng)校正后得到分經(jīng)校正后得到分半信度系數(shù)。半信度系數(shù)。 n分半信度所描述的是分半信度所描述的是兩半測驗兩半測驗能夠測量相同教能夠測量相同教育特質的程度,育特質的程度,它是內(nèi)部一致性系數(shù)的一種它是內(nèi)部一致性系數(shù)的一種(同質性信度是內(nèi)部一致性系數(shù)的另一種)。(同質性信度是內(nèi)部一致性系數(shù)的另一種)。n分半信度只需要一種測驗形式,實施一次測驗,分
22、半信度只需要一種測驗形式,實施一次測驗,操作起來更簡便。操作起來更簡便。n當一個測驗無法分成對等的兩半時,不宜使用當一個測驗無法分成對等的兩半時,不宜使用分半信度。分半信度。分半信度的計算方法 1 1、當兩個半測驗分數(shù)的方差(當兩個半測驗分數(shù)的方差(S S2 2a a 和和S S2 2b b)相等時,)相等時,計計算兩個算兩個“半測驗半測驗”之間的皮爾遜積差相關系數(shù),然之間的皮爾遜積差相關系數(shù),然后用斯皮爾曼后用斯皮爾曼- -布朗公式校正。布朗公式校正。為何要校正?因為只為何要校正?因為只是半個測量的信度。是半個測量的信度。 r rxxxx = 2r= 2rhh hh / (1+r/ (1+r
23、hhhh) () (斯皮爾曼斯皮爾曼- -布朗公式布朗公式) ) 其中其中r rxxxx是整個測驗的分半信度,是整個測驗的分半信度,r rhhhh是兩個半測驗是兩個半測驗之間的相關系數(shù)。之間的相關系數(shù)。 練習題 假設一個測驗中,奇數(shù)項題目得分與偶數(shù)項題假設一個測驗中,奇數(shù)項題目得分與偶數(shù)項題目得分的方差相等,它們之間的相關系數(shù)是目得分的方差相等,它們之間的相關系數(shù)是0.80,0.80,請請問該測驗的分半信度是多少?問該測驗的分半信度是多少? r rxxxx = 2r= 2rhh hh / (1+r/ (1+rhhhh) ) = 2 = 20.800.80(1+ 0.801+ 0.80) =0.
24、89 =0.892 2、當兩個半測驗分數(shù)的方差(當兩個半測驗分數(shù)的方差(S S2 2a a 和和S S2 2b b)不相等時,)不相等時,采用弗朗那根公式和盧侖公式。采用弗朗那根公式和盧侖公式。 弗朗那根公式:弗朗那根公式:r rxxxx = 2 1- = 2 1-( S S2 2a a + S + S2 2b b )/ S/ S2 2x x 盧侖公式盧侖公式: : r rxxxx = 1- S = 1- S2 2d d / S / S2 2x x 其中其中r rxxxx是測驗的分半信度,是測驗的分半信度, S S2 2a a 、 S S2 2b b表示被試表示被試在兩半測驗上得分的方差,在兩
25、半測驗上得分的方差,S S2 2x x表示被試在整個測驗表示被試在整個測驗上得分的方差,上得分的方差, S S2 2d d表示被試在兩半測驗上得分之差表示被試在兩半測驗上得分之差的方差。的方差。v使用條件:使用條件:v 分半信度通常只能在施測一次或沒有復本的情況下使用。而且,在使用斯皮爾曼-布朗公式時,要求全體被試在兩半測驗中得分的變異數(shù)要相等。當一個測驗無法分成對等兩半時,分半信度不宜使用。此外,由于將一個測驗分成兩半的方法很多(如題號的奇偶分半,按題目的內(nèi)容分半等),所以同一個測驗會有多個分半信度值。四、同質性信度四、同質性信度 u同質性信度(同質性信度(Homogeneity Relia
26、bilityHomogeneity Reliability)指)指測驗內(nèi)部所有題目之間的一致性程度。測驗內(nèi)部所有題目之間的一致性程度。u與分半信度一樣,同質性信度也是內(nèi)部一致性與分半信度一樣,同質性信度也是內(nèi)部一致性系數(shù)。分半信度是求系數(shù)。分半信度是求兩半測驗之間兩半測驗之間的一致性程的一致性程度,而同質性信度是求度,而同質性信度是求所有題目之間所有題目之間的一致性的一致性程度。程度。 同質性信度的計算方法同質性信度的計算方法1、庫德-理查德遜信度系數(shù)(僅用于0、1記分的測驗) )1 (12XiiKKSqpKKr (KR20公式) )1 (12XKKSqpKKKr(KR21公式,各項目難度相當
27、) 其中pi表示答對第i題的人數(shù)比例,qi為答錯第i題的人數(shù)比例; 為題目的平均通過率, 為題目的平均失敗率。K為題目數(shù)。pq 某測驗由某測驗由1010道選擇題組成,施測于道選擇題組成,施測于1010名學生,所得結名學生,所得結果如下表所示,果如下表所示,S SX X2 2=3.0=3.0。計算該測驗的信度。計算該測驗的信度。被試被試 題題 目目1 2 3 4 5 6 7 8 9 10總總分分ABCDEFGHIJ1 1 1 1 1 1 1 1 1 11 1 1 1 1 1 1 1 1 01 1 1 1 1 1 1 0 1 01 1 1 1 1 1 1 1 0 01 1 1 1 1 0 1 0
28、0 11 1 1 1 1 1 0 1 0 01 1 1 1 1 0 0 1 0 01 1 1 1 1 0 0 0 1 01 1 1 1 0 1 0 0 0 01 1 1 0 0 1 0 0 0 010988776654答案 解:根據(jù)題目所給條件,采用解:根據(jù)題目所給條件,采用KR20公式公式計算同質性信度。計算同質性信度。36. 18 . 02 . 06 . 04 . 05 . 05 . 05 . 05 . 03 . 07 . 02 . 08 . 01 . 09 . 0010101iiqp61.0)336.11(910112xiixxsqpkkr2、克龍巴赫、克龍巴赫系數(shù)(系數(shù)(可用于多重記分
29、的測驗可用于多重記分的測驗) = k / ( k-1) 1- s2i / s2x 其中其中k是題目數(shù),是題目數(shù), s2i表示所有被試在第表示所有被試在第i題上題上得分的方差,得分的方差, s2x是被試測驗總分的方差。是被試測驗總分的方差。練習題 已知某分測驗有已知某分測驗有5道題,所有被試在各個題道題,所有被試在各個題目上得分的方差分別是目上得分的方差分別是0.75、0.80、0.73、 0.84、0.78,測驗總分的方差為,測驗總分的方差為13,求這個分,求這個分測驗的測驗的系數(shù)。系數(shù)。= 5/(5-1) 1-(0.75 + 0.80 + 0.73 + 0.84 + 0.78)/13 = 5
30、/4(1-0.3) =0.875五、評分者信度u評分者信度(評分者信度(Scorer ReliabilityScorer Reliability)指的是)指的是多個評分者給同一批被試作答情況進行評分多個評分者給同一批被試作答情況進行評分的一致性程度。它主要用于主觀性作品的評的一致性程度。它主要用于主觀性作品的評價過程中,如論述題評分、作文題評分、歌價過程中,如論述題評分、作文題評分、歌唱比賽的評分、設計作品的評分等。唱比賽的評分、設計作品的評分等。 評分者信度的計算方法1、當評分者人數(shù)為、當評分者人數(shù)為2時,評分者信度等于兩者時,評分者信度等于兩者評分的相關系數(shù)(積差相關或等級相關)。評分的相
31、關系數(shù)(積差相關或等級相關)。2、當評分者人數(shù)大于、當評分者人數(shù)大于2時,評分者信度采用肯時,評分者信度采用肯德爾和諧系數(shù)計算。(一般在等級評定時用)德爾和諧系數(shù)計算。(一般在等級評定時用) W = 12 R2i (Ri)2 / N / K2 ( N3N ) 其中其中K是評分者人數(shù),是評分者人數(shù),N是被評的對象數(shù),是被評的對象數(shù),Ri是第是第i個被評對象的被評等級之和。個被評對象的被評等級之和。53學生n=6評價者 K=41234134212431332134465655124265656v例:4位教師對6位學生作文競賽的名次排列次序如表4-12。問4位教師評定的一致性程度如何?4 4位教師對
32、位教師對6 6位學生作文競賽的名次排列位學生作文競賽的名次排列54學生n=6評價者 K=4Ri1234134211010024313111213213410100465652248451242 9 8165656224848413704位教師對位教師對6位學生作文名次排列的肯德爾和諧系數(shù)計算表位學生作文名次排列的肯德爾和諧系數(shù)計算表 2iR肯德爾和諧系數(shù)肯德爾和諧系數(shù)552222137084 /6194iRiiRSSRnRR ()23231941940.11111*4 *(66)*16*1290121212RWSSrKnn總結與比較:五種信度的誤差來源u重測信度重測信度時間取樣,穩(wěn)定性系數(shù)。時
33、間取樣,穩(wěn)定性系數(shù)。u復本信度復本信度(連續(xù)測驗)內(nèi)容取樣,等值性(連續(xù)測驗)內(nèi)容取樣,等值性系數(shù);(間隔測驗)時間與內(nèi)容取樣,穩(wěn)定性系數(shù);(間隔測驗)時間與內(nèi)容取樣,穩(wěn)定性與等值性系數(shù);與等值性系數(shù);u分半信度分半信度內(nèi)容取樣,內(nèi)部一致性系數(shù);內(nèi)容取樣,內(nèi)部一致性系數(shù);u同質性信度同質性信度內(nèi)容取樣,內(nèi)部一致性系數(shù);內(nèi)容取樣,內(nèi)部一致性系數(shù);u評分者信度評分者信度評分者之間的一致性。評分者之間的一致性。第三節(jié) 影響信度的因素與提高方法一、影響測量信度的主要因素(一)測量工具的可能影響1 1、題目樣本的選擇不當、題目樣本的選擇不當 題目樣本不具代表性(偏題怪題),題目涵蓋面過于題目樣本不具代表
34、性(偏題怪題),題目涵蓋面過于狹窄,狹窄,題目具有社會稱許性題目具有社會稱許性等。等。2 2、題目含義及表達的模棱兩可、題目含義及表達的模棱兩可 題目含義不明確,語言表達模棱兩可,會造成被試的題目含義不明確,語言表達模棱兩可,會造成被試的理解歧義,從而難以測查到被試的真實情況。理解歧義,從而難以測查到被試的真實情況。3 3、要求的步驟不明確、要求的步驟不明確 指導語對于答題要求或步驟的指示不明確,使指導語對于答題要求或步驟的指示不明確,使被試按照各自的理解作答,增加隨機誤差。被試按照各自的理解作答,增加隨機誤差。4 4、題目難度過大或過小、題目難度過大或過小 難度通過影響被試的分數(shù)分布從而間接
35、影響測難度通過影響被試的分數(shù)分布從而間接影響測驗信度。難度過大或過小驗信度。難度過大或過小分數(shù)分布窄分數(shù)分布窄信度信度低,難度適中低,難度適中分數(shù)分布范圍寬分數(shù)分布范圍寬信度高。同信度高。同時,太難的題目也增加被試猜測的機率,從而時,太難的題目也增加被試猜測的機率,從而制造出隨機誤差。制造出隨機誤差。 5 5、測驗長度偏短、測驗長度偏短 測驗長度偏短,難以全面考察被試的特質,測驗長度偏短,難以全面考察被試的特質,增加回答問題的隨機性,從而降低信度。增加回答問題的隨機性,從而降低信度。 6 6、特殊題型中靠猜測答題的可能性較大、特殊題型中靠猜測答題的可能性較大 猜測性將增加測驗得分的隨機性,從而
36、降低猜測性將增加測驗得分的隨機性,從而降低測驗信度。測驗信度。(二)施測過程的可能影響(二)施測過程的可能影響1、沒有嚴格按照標準化程序施測、沒有嚴格按照標準化程序施測2、測量的準備工作不充分、測量的準備工作不充分3、故意制造緊張氣氛、故意制造緊張氣氛4、給予特別協(xié)助、給予特別協(xié)助5、測量時間把握不恰當、測量時間把握不恰當6、評分不客觀、評分不客觀(三)被試方面的可能影響1、動機作用、動機作用2、測驗經(jīng)驗、測驗經(jīng)驗3、測驗焦慮、測驗焦慮4、生理變因(身心健康、疲勞等)、生理變因(身心健康、疲勞等)5、被試團體的異質性程度、被試團體的異質性程度被試團體的異質性程度l被測團體越異質,其信度系數(shù)則會
37、偏高,因為被測團體越異質,其信度系數(shù)則會偏高,因為多次測試,排名變化??;被測團體越同質,其多次測試,排名變化小;被測團體越同質,其信度系數(shù)則會偏低,信度系數(shù)則會偏低,因為多次測驗的排名變化因為多次測驗的排名變化大。大。l如同一個智力測驗,在天才班與普通班施測。如同一個智力測驗,在天才班與普通班施測。問題排除其他影響因素,如果要檢驗一個能力測驗排除其他影響因素,如果要檢驗一個能力測驗的信度,選擇的信度,選擇4 4、5 5、6 6年級的學生作為測量被年級的學生作為測量被試,與選擇試,與選擇4 4年級的學生作為測量被試,哪一種年級的學生作為測量被試,哪一種測量結果的信度水平更高?測量結果的信度水平更
38、高?(四)間隔時間 間隔時間對于重測信度和復本信度(穩(wěn)定性間隔時間對于重測信度和復本信度(穩(wěn)定性與等值性系數(shù))的大小而言都是重要的。對于與等值性系數(shù))的大小而言都是重要的。對于其他三種信度來說不存在時間間隔問題。其他三種信度來說不存在時間間隔問題。(五)估計信度的方法 采用不同的信度估算方法,得到的信度系數(shù)采用不同的信度估算方法,得到的信度系數(shù)大小也會不同。大小也會不同。二、提高測量信度的常用方法1、適當增加測驗的長度(最直接的方法)。2、使測驗中所有試題的難度接近正態(tài)分布,并將難度的平均值控制在中等水平。 一般比例為容易:中等:難一般比例為容易:中等:難=3=3:5 5:2 2,并,并且測驗
39、的平均難度值保持在且測驗的平均難度值保持在0.500.50左右。左右。 3、努力提高測驗試題的區(qū)分度。 提高所有題目的區(qū)分度,可以有效提高測提高所有題目的區(qū)分度,可以有效提高測驗的信度。驗的信度。 4、選擇恰當?shù)谋辉噲F體。 被試團體的異質性程度會影響信度,因此檢被試團體的異質性程度會影響信度,因此檢驗信度時,一定要根據(jù)測驗的使用目的來選驗信度時,一定要根據(jù)測驗的使用目的來選擇被試團體,一般選取一個與常模樣本性質擇被試團體,一般選取一個與常模樣本性質相同的被試團體施測。相同的被試團體施測。5、嚴格實行測驗的標準化。 標準化可以最大程度地減少與測驗目的無關標準化可以最大程度地減少與測驗目的無關的隨
40、機誤差。的隨機誤差。新增題目數(shù)量與新測驗信度之間的關系:xxxxxxrkkrr)1(1 其中rxx為增加題目后新測驗的信度,rxx為原有測驗的信度,k為新測驗長度與原測驗長度之比。 此公式與斯皮爾曼此公式與斯皮爾曼- -布朗公式有何關系?布朗公式有何關系?練習題練習題 已知某測驗含有已知某測驗含有4040個題目,信度系數(shù)為個題目,信度系數(shù)為0.800.80,請問這個測驗必須增加多少個題目,才能使該測請問這個測驗必須增加多少個題目,才能使該測驗的信度系數(shù)達到驗的信度系數(shù)達到0.900.90?r r xxxx = k = k r rxxxx / 1+ ( k-1 ) / 1+ ( k-1 ) r
41、rxxxx 0.90 =k0.90 =k0.80 / 1+0.80 / 1+(k-1k-1)0.80 0.80 求出求出k=2.25k=2.25,新測驗的長度為,新測驗的長度為2.252.2540 = 9040 = 90。也就是說,必須增加的題目數(shù)是也就是說,必須增加的題目數(shù)是90-40=5090-40=50(題)。(題)。注意的問題1 1、增加測驗的題目數(shù)量可有效提高測驗信度,、增加測驗的題目數(shù)量可有效提高測驗信度,但所增加的項目必須滿足兩個條件:(但所增加的項目必須滿足兩個條件:(1 1)在)在性質上與原有項目同質,即測量的是同一種特性質上與原有項目同質,即測量的是同一種特質。如果不同質反
42、而會降低信度;(質。如果不同質反而會降低信度;(2 2)在數(shù))在數(shù)量上必須適度,并非增加的題目越多越好。報量上必須適度,并非增加的題目越多越好。報酬遞減效應與可能的疲勞、厭倦效應。酬遞減效應與可能的疲勞、厭倦效應。2 2、初始測驗的信度越低,增加項目數(shù)對提高信、初始測驗的信度越低,增加項目數(shù)對提高信度越顯著。如果初始測驗的信度本來就很高,度越顯著。如果初始測驗的信度本來就很高,那么測驗題目的增加對提高信度的影響往往比那么測驗題目的增加對提高信度的影響往往比較小。較小。第四節(jié) 信度的作用一、信度系數(shù)的作用 1 1、 信度是確定測驗工具好壞的指標之一。信度是確定測驗工具好壞的指標之一。2 2、 信
43、度是測量過程中控制隨機誤差大小能力的反映。信度是測量過程中控制隨機誤差大小能力的反映。3 3、 信度可以解釋真分數(shù)與實得分數(shù)間的關系,明確告知測驗信度可以解釋真分數(shù)與實得分數(shù)間的關系,明確告知測驗 誤差的大?。y量標準誤是測量誤差大小的客觀指標)。誤差的大?。y量標準誤是測量誤差大小的客觀指標)。4 4、下結論說某測驗比較可靠,必須依據(jù)情境,并經(jīng)多次證實。、下結論說某測驗比較可靠,必須依據(jù)情境,并經(jīng)多次證實。5 5、 信度可以解釋、預測個人分數(shù)的意義。信度可以解釋、預測個人分數(shù)的意義。 一般的原則是:當一般的原則是:當0.70r0.70rxxxx0.850.85時,測驗結果可用于團時,測驗結果
44、可用于團體比較;當體比較;當r rxxxx 0.85 0.85時,測驗結果才可用來鑒別或預測個人。時,測驗結果才可用來鑒別或預測個人。測量標準誤的計算n所謂測量標準誤,指的是同一批被試兩次測所謂測量標準誤,指的是同一批被試兩次測量結果的分數(shù)之差的標準差,它可以作為測量結果的分數(shù)之差的標準差,它可以作為測量誤差大小的客觀指標。量誤差大小的客觀指標。n計算公式略計算公式略二、多大的信度系數(shù)可以接受u智力測驗、能力測驗、成就測驗等認知測驗智力測驗、能力測驗、成就測驗等認知測驗的信度要求高一些,應在的信度要求高一些,應在0.900.90以上。以上。u人格測驗、興趣測驗、態(tài)度測驗的信度要求人格測驗、興趣
45、測驗、態(tài)度測驗的信度要求低一些,低一些,0.800.80以上即可。以上即可。u教師自編的學績測驗的信度達到教師自編的學績測驗的信度達到0.600.60即可。即可。u創(chuàng)造力測驗的信度一般在創(chuàng)造力測驗的信度一般在0.500.50左右,人格投左右,人格投射測驗的信度在射測驗的信度在0.200.20左右。左右。思考問題信度是否只是教育測驗工信度是否只是教育測驗工具本身的特征?一個測具本身的特征?一個測驗是否只有一個特定的驗是否只有一個特定的信度值?信度值?nThompsonThompson :“嚴格地說,與其說信度是測驗嚴格地說,與其說信度是測驗的一個特征,不如說它是在一個特定場合及特的一個特征,不如
46、說它是在一個特定場合及特定條件下,對特定群體施測而獲得的分數(shù)的一定條件下,對特定群體施測而獲得的分數(shù)的一種屬性。種屬性?!保?9941994)n也就是說,信度不僅僅是教育測驗本身的特征,也就是說,信度不僅僅是教育測驗本身的特征,它還受主試、測量情境、施測過程、被試群體它還受主試、測量情境、施測過程、被試群體等因素的影響,信度是這些因素的綜合反映。等因素的影響,信度是這些因素的綜合反映?;蛘哒f,信度反映的是教育測量中控制隨機誤或者說,信度反映的是教育測量中控制隨機誤差的能力。差的能力。n我們平時習慣講我們平時習慣講“測量信度測量信度”,這實際是一種,這實際是一種簡略的表示方法,準確的表達應為簡略
47、的表示方法,準確的表達應為“測量結果測量結果的信度的信度”。課后作業(yè) 查閱一篇有關查閱一篇有關“心理測驗編制或修訂心理測驗編制或修訂”的的研究報告,討論該研究報告所采用的信度統(tǒng)計研究報告,討論該研究報告所采用的信度統(tǒng)計方法,評價它的信度是否符合測量學要求。方法,評價它的信度是否符合測量學要求。本章練習一、選擇題一、選擇題1. 1. 心理測驗的信度是測量過程中(心理測驗的信度是測量過程中( )大小的反映。)大小的反映。 A. A. 誤差誤差 B. B. 系統(tǒng)誤差系統(tǒng)誤差 C. C. 隨機誤差隨機誤差 D. D. 真分數(shù)真分數(shù)2 2、下列對信度的描述中,正確的是(、下列對信度的描述中,正確的是(
48、)。)。 A A、信度既受測量中隨機誤差的影響,也受系統(tǒng)誤差、信度既受測量中隨機誤差的影響,也受系統(tǒng)誤差 的影響。的影響。 B B、信度是被試團體的真分數(shù)方差與實得分、信度是被試團體的真分數(shù)方差與實得分 數(shù)方差之比。數(shù)方差之比。 C C、一個測驗只可能有一個信度系數(shù)。、一個測驗只可能有一個信度系數(shù)。 D D、測驗的長度越大,信度越高。、測驗的長度越大,信度越高。3、測驗內(nèi)部所有題目間的一致性程度,這、測驗內(nèi)部所有題目間的一致性程度,這種信度稱為(種信度稱為( )。)。 A、重測信度、重測信度 B、復本信度、復本信度 C、分半信度、分半信度 D、同質性信度、同質性信度4、下列屬于重測信度使用前提
49、的是(、下列屬于重測信度使用前提的是( )。)。 A、遺忘和練習的效果基本相互抵消。、遺忘和練習的效果基本相互抵消。 B、能構造出兩份以上的平行測驗。、能構造出兩份以上的平行測驗。 C、測驗可以分成對等的兩半。、測驗可以分成對等的兩半。 D、被試的數(shù)量規(guī)模達到、被試的數(shù)量規(guī)模達到80-100人。人。二、計算題二、計算題1、某測驗有、某測驗有20道測題,其信度僅為道測題,其信度僅為0.55,若把,若把測題增加到測題增加到60題,信度能達到多少?增加到題,信度能達到多少?增加到120題呢?題呢?2、某興趣測驗共有、某興趣測驗共有6道題,道題,6個被試在各題上得個被試在各題上得分的方差分別是分的方差
50、分別是0.80、0.81、0.79、0.78、0.80、0.82,測驗總分的方差是,測驗總分的方差是16.00。計算。計算該興趣測驗的該興趣測驗的a系數(shù)。系數(shù)。 3、已知某量表兩個半測驗的相關系數(shù)為、已知某量表兩個半測驗的相關系數(shù)為0.63,請問分半信度為多少?請問分半信度為多少?4 4、在一次作文比賽中,、在一次作文比賽中,3 3位老師給位老師給6 6篇作文的評篇作文的評分如下表所示,計算這次比賽的評分者信度。分如下表所示,計算這次比賽的評分者信度。評委評委選手選手123456A423545342832B453840413237C3842354330325 5、5050個學生參加一個智力測驗
51、,共有個學生參加一個智力測驗,共有6 6道選擇題,答道選擇題,答題情況如下表所示。所有學生測驗得分的方差為題情況如下表所示。所有學生測驗得分的方差為2.82.8。求該測驗的信度系數(shù)。求該測驗的信度系數(shù)。項目項目答對被試數(shù)答對被試數(shù)1 12 23 34 45 56 6121241411818292930304747本章練習題答案一、選擇題答案一、選擇題答案1、C 2、B 3、D 4、A二、計算題答案二、計算題答案1、rxx=krxx / 1+(k-1)rxx =30.55 / 1+(3-1) 0.55 =0.79 rxx=0.882、= k / ( k-1) 1- (s2i ) / s2x =6
52、51-(0.80+0.81+0.79 +0.78 +0.80+0.82) 16 =1.2 (1-0.3)=0.843、 rxx = 2rhh / (1+rhh) =20.63 (1+0.63 ) =0.774、(、(1)將評分轉化為得分等級)將評分轉化為得分等級評委評委選手選手123456A231465B143265C324165Ri6987181563779iR2iRW = 12 R2i (Ri)2 / N / K2 ( N3N ) =12(779-6326)32 (63 -6) =0.755、)(122XiiXKKSqpSKKr pqpq = 0.24 = 0.240.76 + 0.820.76 + 0.820.18 + 0.360.18 + 0.360.64 + 0.580.64 + 0.580.42 +0.42 + 0.60 0.600.40 +0.9
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度綠色環(huán)保廠房裝飾裝修工程承包合同4篇
- 2024水庫魚塘承包養(yǎng)殖與市場拓展合作協(xié)議2篇
- 2025年度產(chǎn)權房屋買賣定金合同產(chǎn)權過戶范本3篇
- 2025年度廠房買賣合同范本(新能源產(chǎn)業(yè)適用)4篇
- 二零二五年度網(wǎng)絡安全服務提供商保密及數(shù)據(jù)處理協(xié)議3篇
- 二零二五年度船舶氣象預報船員聘用合同范本3篇
- 個人IT崗位保密條款合同(2024版)版B版
- 2025年度XX地區(qū)水資源綜合利用項目合作協(xié)議3篇
- 2025年度智能自動化廠房車間租賃合同4篇
- 2025年度嬰幼兒用品配送與安全監(jiān)管合同4篇
- 貨運企業(yè)2025年度安全檢查計劃
- 以發(fā)展為導向共創(chuàng)教育新篇章-2024年期末校長總結講話稿
- 2025年焊工安全生產(chǎn)操作規(guī)程(2篇)
- 廣東省廣州越秀區(qū)2023-2024學年八年級上學期期末數(shù)學試卷(含答案)
- 臨床經(jīng)鼻高流量濕化氧療患者護理查房
- 學校6S管理制度
- 肽的健康作用及應用課件
- T.C--M-ONE效果器使用手冊
- 8小時等效A聲級計算工具
- 人教版七年級下冊數(shù)學計算題300道
- 社會實踐登記表
評論
0/150
提交評論