版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
第三章教育測量與評價的質(zhì)量特性內(nèi)蒙古師范大學(xué)教育科學(xué)學(xué)院2012年11月12日296957701第三章教育測量與評價的質(zhì)量特性內(nèi)蒙古師范大學(xué)教育科學(xué)學(xué)院1第一節(jié)教育測量與評價中常用的統(tǒng)計參數(shù)一、平均數(shù)和標(biāo)準(zhǔn)差平均數(shù)表示原始分?jǐn)?shù)的總和N表示分?jǐn)?shù)的個數(shù)第一節(jié)教育測量與評價中常用的統(tǒng)計參數(shù)一、平均數(shù)和標(biāo)準(zhǔn)差表示2平均數(shù)和標(biāo)準(zhǔn)差方差:也稱變異數(shù)、均方。用符號表示標(biāo)準(zhǔn)差:即方差的平方根,用S或SD表示。平均數(shù)和標(biāo)準(zhǔn)差方差:也稱變異數(shù)、均方。用符號表示3二、相關(guān)及相關(guān)系數(shù)(一)什么是相關(guān)1.事物之間的相互關(guān)系因果關(guān)系共變關(guān)系相關(guān)關(guān)系二、相關(guān)及相關(guān)系數(shù)(一)什么是相關(guān)42.相關(guān)的類別正相關(guān)負(fù)相關(guān)零相關(guān),即無相關(guān)2.相關(guān)的類別5(二)相關(guān)系數(shù)是兩例變量間相關(guān)程度的數(shù)字表現(xiàn)形式,或者說是用來表示相關(guān)關(guān)系強度的指標(biāo)。常用r表示。相關(guān)系數(shù)的取值范圍:-1≤r≤1(二)相關(guān)系數(shù)是兩例變量間相關(guān)程度的數(shù)字表現(xiàn)形式,或者說是用6(三)積差相關(guān)簡稱皮爾遜相關(guān),又稱為積距相關(guān)。揭示兩個變量線性相關(guān)方向和程度最常用和最基本的方法。需要滿足一下條件:要求成對的數(shù)據(jù)。兩例變量各自總體的分布都是正態(tài)。兩個相關(guān)的變量是連續(xù)變量。兩例變量之間的關(guān)系是直線性的。(三)積差相關(guān)簡稱皮爾遜相關(guān),又稱為積距相關(guān)。揭示兩個變量線7利用原始數(shù)據(jù)計算積差相關(guān)的公式利用原始數(shù)據(jù)計算積差相關(guān)的公式8例:10名中學(xué)生身高與體重的測量結(jié)果,問身高與體重的關(guān)系如何?被試編號身高(X)體重(Y)X2 Y2 XY 1 170 50 28900 2500 8500 2 173 45 29929 2025 7785 3 160 47 25600 2209 7520 4 155 44 24025 1936 6820 5 173 50 29929 2500 8650 6 188 53 35344 2809 9964 7 178 50 31684 2500 8900 8 183 49 33489 2401 8967 9 180 52 32400 2704 9360 10 165 45 27225 2025 7425 Σ 1725 485 298525 23609 83891
例:10名中學(xué)生身高與體重的測量結(jié)果,問身高與體重的關(guān)系如何9(四)斯皮爾曼等級相關(guān)則是皮爾遜相關(guān)系數(shù)的延伸。是等級相關(guān)的一種。常用符號rR或rs表示。主要用于解決名稱數(shù)據(jù)和順序數(shù)據(jù)的相關(guān)問題。對于屬于等距或等比性質(zhì)的連續(xù)變量數(shù)據(jù),若按其取值大小,賦以等級順序,轉(zhuǎn)化為順序變量數(shù)據(jù),亦可計算等級相關(guān),此時不必考慮是否正態(tài)。適用于連續(xù)變量數(shù)據(jù)小于30,精確度稍差于積差相關(guān)(四)斯皮爾曼等級相關(guān)則是皮爾遜相關(guān)系數(shù)的延伸。是等級相關(guān)的10斯皮爾曼等級相關(guān)的計算公式斯皮爾曼等級相關(guān)的計算公式11例:現(xiàn)有10人的視、聽兩種感覺通道的反應(yīng)時,問視聽反應(yīng)時是否具有一致性被試編號 身高(X)體重(Y)Rx RYD=Rx-RY D2 RxRY
1 172 179 7 5 2 4 35 2 140 162 2 2 0 0 4 3 152 153 5 1 4 16 5 4 187 189 8 8 0 0 64 5 139 181 1 6 -5 25 6 6 195 220 9 10 -1 1 90 7 212 210 19 1 1 90 8 164 182 6 7 -1 1 42 9 149 178 4 4 0 0 16 10 146 170 3 3 0 0 9 Σ 55 55 48 361 例:現(xiàn)有10人的視、聽兩種感覺通道的反應(yīng)時,問視聽反應(yīng)時是否12第二章教育測量的質(zhì)量指標(biāo)衡量教育測量的質(zhì)量,可采用四個指標(biāo):信度主要對整個測量而言。效度
難度主要對測量的項目而言。區(qū)分度第二章教育測量的質(zhì)量指標(biāo)衡量教育測量的質(zhì)量,可采用四個指13一、信度概述(一)什么是信度信度是指測量結(jié)果的穩(wěn)定性或可靠性程度。必須從以下兩個方面去理解測量的信度:
信度指實測值(X)真值(T)相差的程度信度指同一個測驗(或相等的兩個、多個測驗)對同一組被試施測兩次或多次,所得結(jié)果的一致性程度,也即測驗的可靠性。兩次重復(fù)測量或等值測量之間的關(guān)聯(lián)程度。一、信度概述(一)什么是信度14(二)信度的估計方法1、重復(fù)信度(再測信度)指的是同一個量表對同一組被試施測兩次所得結(jié)果的一致性程度。其大小等于同一組被試在兩次測驗上所得分?jǐn)?shù)的相關(guān)系數(shù),一般采用皮爾遜積差相關(guān)的公式來計算。(二)信度的估計方法1、重復(fù)信度(再測信度)15例一用一個算術(shù)四則的速度測驗12個小學(xué)生,得分記為X,為了考察測量結(jié)果的可靠性,于3個月后再測一次,得分記為Y,問測驗結(jié)果是否可靠?序號123456789101112X202021222323232425262627Y202121202323252526262729例一用一個算術(shù)四則的速度測驗12個小學(xué)生,得分記為X,為了考16在使用重測法計算穩(wěn)定性系數(shù)時,應(yīng)注意以下問題:1、信度的取值范圍為[0,1],當(dāng)信度值較大時,說明前后兩次測量結(jié)果比較一致;2、兩次測驗之間的時間間隔要適宜。應(yīng)由測驗的性質(zhì)、測題類型、測題數(shù)量和被試特點所決定;3、重測法適用于速度測驗而不適用于難度測驗;4、應(yīng)注意提高被試者的積極性。在使用重測法計算穩(wěn)定性系數(shù)時,應(yīng)注意以下問題:1、信度的取值17再測信度的優(yōu)缺點優(yōu)點:(1)它最符合重復(fù)測驗的涵義(2)比編制兩套等值測驗題目要省力、省時(3)所測量的屬性是完全相同的。缺點:(1)使第二次測驗分?jǐn)?shù)有系統(tǒng)地增加(2)如果兩次施測時間太長,被試身心的發(fā)展、新知識的獲得,導(dǎo)致兩次測驗結(jié)果的不相同(3)容易失去被試的興趣(4)收到被試在兩次施測時的主觀狀態(tài)(5)兩次施測的環(huán)境不同而產(chǎn)生測量誤差。再測信度的優(yōu)缺點優(yōu)點:(1)它最符合重復(fù)測驗的涵義(2)比編18再測信度的適用范圍適用于異質(zhì)性測驗適用于速度測驗而不適用于難度測驗還適用于運動技能的測驗,如跑、跳、擲等項目測驗。再測信度的適用范圍適用于異質(zhì)性測驗192、復(fù)本信度指的是兩個平等的測驗測量同一批被試所得結(jié)果的一致性程度。其大小等于同一批被試在兩個復(fù)本測驗上所得分?jǐn)?shù)的相關(guān)系數(shù)。所謂復(fù)本測驗是指在性質(zhì)、內(nèi)容、題型、題數(shù)、難度等方面都一致(或相等)的兩份或多份測驗。2、復(fù)本信度指的是兩個平等的測驗測量同一批被試所得結(jié)果的一致20例二以A、B兩型英語復(fù)本測驗對初中三年級10個學(xué)生施測,為避免由測驗施測順序所造成的誤差,其中5個學(xué)生先做A型測驗,休息15分鐘后,再做B型測驗;而另5個學(xué)生先做B型測驗,休息15分鐘后,再做A型測驗。10個學(xué)生A型測驗結(jié)果記為X,B型測驗結(jié)果記為Y,其測驗的復(fù)本信度如何?學(xué)生序號12345678910X19191817161515141312Y20171818171513151212例二以A、B兩型英語復(fù)本測驗對初中三年級10個學(xué)生施測,為避21復(fù)本信度的優(yōu)缺點表現(xiàn):優(yōu)點:1、一個測驗有兩個或幾個復(fù)本,這意味著對于測驗同一種屬性具有兩個或幾個行為樣本。2、測驗的兩個復(fù)本,如果在不同的時間使用,其信度既可以反映在不同時間的穩(wěn)定性,又可以反映對于不同測題的一致性;3、兩個復(fù)本在同時使用時,可以避免再測信息的一些缺點,如首測時再測在記憶、練習(xí)、效果的影響,間隔期間獲得新知識的影響,兩次施測的環(huán)境不同和被試主觀狀態(tài)不同的影響,以及為了應(yīng)付測驗所作訓(xùn)練的影響等。復(fù)本信度的優(yōu)缺點表現(xiàn):優(yōu)點:22缺點:1、編制兩個完全相等的測驗是很困難的,如果兩個復(fù)本過分相似,則變成再測形式,而過分不相似,又使等值的條件不存在;2、兩個復(fù)本測驗有可能在某種程度上測量了不同的性質(zhì),這就會低估測驗的信度;3、被試同時接受性質(zhì)相似的兩個測驗,可能減少完成測驗的積極性;4、雖然兩個復(fù)本測驗的題目材料不同,但被試一旦掌握了解題的某一模式,就能觸類旁通,有可能失去復(fù)本的意義。缺點:1、編制兩個完全相等的測驗是很困難的,如果兩個復(fù)本過分23復(fù)本信度的適用范圍不僅適用于難度測驗,也是估計速度測驗信度的最好方法。在作追蹤研究或探討某些影響測驗成績的因素時,大多使用復(fù)本測驗。復(fù)本信度的適用范圍不僅適用于難度測驗,也是估計速度測驗信度的24(三)內(nèi)在一致性信度內(nèi)在一致性信度主要是指測驗內(nèi)部(即測題之間)的一致性程度,主要包括分半信度和同質(zhì)性信度。(三)內(nèi)在一致性信度內(nèi)在一致性信度主要是指測驗內(nèi)部(即測題之251、折半信度(分半信度)就是將一個測驗分成對等的兩半后,再求被試在每一半測驗上所得分?jǐn)?shù)的一致性程度(相關(guān)系數(shù))。首先根據(jù)內(nèi)容、形式、題數(shù)、平均數(shù)、標(biāo)準(zhǔn)差、難度、測題間相關(guān)以及分布形態(tài)相等的原則,將試題分成兩半,或者將從易到難排列的測題,按照測題序號,奇數(shù)測題為一組,偶數(shù)測題為一組,分成兩半;然后計算每個被試在兩個分半測驗分?jǐn)?shù)的積差相關(guān)系數(shù),再用斯皮爾曼—布朗公式加以校正。斯皮爾曼—布朗公式為1、折半信度(分半信度)就是將一個測驗分成對等的兩半后,再求26斯皮爾曼—布朗公式為整個測驗的信度系數(shù)為兩個“半測驗”上得分的相關(guān)系數(shù)斯皮爾曼—布朗公式27例:一個測驗向15名被試施測,被試在奇偶數(shù)分半測驗上的得分如表所示,計算該測驗的分半信度系數(shù)。被試123456789101112131415奇數(shù)題2018232117182017161314131288偶數(shù)題2022192218151417151614121076計算兩個“半測驗”得分的積差相關(guān)系數(shù)為0.86
=0.92例:一個測驗向15名被試施測,被試在奇偶數(shù)分半測驗上的得分如282.同質(zhì)性信度同質(zhì)性信度是指測驗內(nèi)部所有題目間的一致性程度。所有題目測的是同一種心理特質(zhì)所有題目得分之間都具有較高的正相關(guān)也就是說,同質(zhì)性信度就是一個測驗所測內(nèi)容或特質(zhì)的相同程度。2.同質(zhì)性信度同質(zhì)性信度是指測驗內(nèi)部所有題目間的一致性程度。29(1)二分法計分測驗的同質(zhì)性信度庫德—理查遜信度KR20為測驗信度;K為題目數(shù);Pi和qi分別表示答對和打錯第i題的被試人數(shù)比例;為測驗總分的方差。測驗的信度;是全體被試測驗總分的平均數(shù)。(1)二分法計分測驗的同質(zhì)性信度庫德—理查遜信度30例:三對初中一年級學(xué)生進行地理成績測驗,每答對1題得1分,答錯得0分,其測驗結(jié)果如下表,試估計該測驗的折半信度學(xué)生序號題序123456總分110000012100100230110002411001035100100261110115711110158110110490110013101111116P0.80.70.50.50.40.4q0.20.30.50.50.60.6pq0.160.210.250.250.240.24∑=1.35例:三對初中一年級學(xué)生進行地理成績測驗,每答對1題得1分,答31(2)非二分法記分測驗的同質(zhì)性信度克龍巴赫a系數(shù),計算公式為:
表示所有被試在第i題上的方差;表示所有被試各自總分的方差,K為題目數(shù)。(2)非二分法記分測驗的同質(zhì)性信度克龍巴赫a系數(shù),計算公式為323.內(nèi)在一致性信度的優(yōu)缺點優(yōu)點(1)應(yīng)用方便,避免再測信度的缺點;(2)具有同時性復(fù)本信度的優(yōu)點;(3)在使用K-R20時,對測題的假定或前提條件,要求相對較少,它不僅是信度的近似值,而且是決定測驗信度非常正確的方法。缺點:(1)將一個測驗分成內(nèi)容、形式、題數(shù)、平均數(shù)、標(biāo)準(zhǔn)差、分布形態(tài)都相等的兩部分,實際上是很困難的;(2)分半的方法不同,估計出的信度系數(shù)也有所不同;(3)若用斯皮爾曼—布朗公式對分半信度進行校正,會高估了測驗的信度。3.內(nèi)在一致性信度的優(yōu)缺點優(yōu)點(1)應(yīng)用方便,避免再測信度的334.內(nèi)在一致性信度的適用范圍適用于同質(zhì)性測驗,而不適用與異質(zhì)性測驗適用于難度測驗,而不適用于速度測驗。4.內(nèi)在一致性信度的適用范圍適用于同質(zhì)性測驗,而不適用與異質(zhì)34(四)評分者的信度是指多位評分者對同一組被試作答反應(yīng)評分的一致性程度。兩位評分者時,采用積差相關(guān)或等級相關(guān)的方法來進行計算。三人以上,而且等級記分時,采用肯德爾和諧系數(shù)來求評分者信度。(四)評分者的信度是指多位評分者對同一組被試作答反應(yīng)評分的一35(五)標(biāo)準(zhǔn)參照測驗的信度分析百分比一致性指標(biāo)是指同一測驗或兩平行測驗先后兩次施測,其對被試的分類結(jié)果一致的比例。(五)標(biāo)準(zhǔn)參照測驗的信度分析百分比一致性指標(biāo)是指同一測驗或兩36(六)提高信度的方法1、影響測量信度的主要因素(1)被試方面(2)主試方面(3)施測情境方面(4)測量工具方面(5)兩次施測的間隔時間方面(六)提高信度的方法1、影響測量信度的主要因素372、提高測量信度的常用方法(1)適當(dāng)增加測驗的長度(2)測驗的難度要適中(3)測驗的內(nèi)容應(yīng)盡量同質(zhì)(4)測驗的程序應(yīng)統(tǒng)一(5)測驗的時間要充分(6)測驗的評分要盡量做到客觀化,減少評分誤差2、提高測量信度的常用方法(1)適當(dāng)增加測驗的長度38二、效度的概念(一)什么是效度效度是指測量結(jié)果的準(zhǔn)確性和有效性的程度。也可以說是測量是否達到了預(yù)期的目的。1、效度是一個相對的概念。(1)測量的效度是相對一定的測量目的而言的(2)測量的效度是相對測量的結(jié)果而言的2、一種測量的效度只是高或低的問題測量結(jié)果總是有一定效度的,只是效度高低不同罷了。二、效度的概念(一)什么是效度39(二)效度的估計效度估計就是多方尋找證據(jù)來證明一個測驗的有效性程度的過程。1、內(nèi)容效度就是指測驗內(nèi)容對所要測量的內(nèi)容的代表性程度。也就是說,測驗的內(nèi)容范圍、材料與所要測量的內(nèi)容范圍、教育目標(biāo)是否相符合;測驗中測題所引起的行為是否是所要測量的屬性的明確反應(yīng);測驗的結(jié)果是否是一個有代表性的行為樣本。為了使測驗的內(nèi)容具有有效性,成為所欲測量內(nèi)容的一個具有代表性的行為樣本,在編制測驗時,就要考慮建立內(nèi)容效度的問題。(二)效度的估計效度估計就是多方尋找證據(jù)來證明一個測驗的有效402、內(nèi)容效度的估計(1)邏輯分析法其工作思路是請有關(guān)專家對測驗題目與原定內(nèi)容范圍的吻合程度作出判斷。(2)統(tǒng)計分析法從同一個教學(xué)內(nèi)容總體中抽取兩套獨立的平行測驗,用這兩個測驗來測同一批被試,求其相關(guān)。若相關(guān)高,表明測驗內(nèi)容效度較高;若相關(guān)低,表示測驗的內(nèi)容效度較低。2、內(nèi)容效度的估計(1)邏輯分析法41例一在《社會發(fā)展史》某一單元教學(xué)之前,對學(xué)生進行有關(guān)這一單元內(nèi)容的測驗。教學(xué)之后,再以復(fù)本測驗施測,兩次測驗分?jǐn)?shù)如下,試檢定測驗的內(nèi)容效度?學(xué)生序號12345678910教學(xué)前X34403230313544334236教學(xué)后Y52645054586372626250例一在《社會發(fā)展史》某一單元教學(xué)之前,對學(xué)生進行有關(guān)這一單元42結(jié)論然后根據(jù)自由度df=N-1=9,查t值表,尋得0.01顯著性水平t的雙側(cè)臨界值為t(9)0.01=4.781,而實際計算出的[t]=13.9>4.781=t(9)0.01,于是可以說,教學(xué)前后學(xué)生在兩個復(fù)本測驗上得分的平均數(shù)有極顯著性差異,從而可以作出判斷,《社會發(fā)展史》中該單元測驗的內(nèi)容具有有效性,或內(nèi)容效度較高。結(jié)論然后根據(jù)自由度df=N-1=9,查t值表,尋得0.01顯43內(nèi)容效度的適用范圍內(nèi)容效度主要應(yīng)用于成就測驗、學(xué)科測驗、選拔和分類職業(yè)測驗。內(nèi)容效度不適合用于能力傾向和人格測驗。內(nèi)容效度的適用范圍內(nèi)容效度主要應(yīng)用于成就測驗、學(xué)科測驗、選拔442、結(jié)構(gòu)效度是指測驗對于人的心理特性或理論概念測量到的程度。通常用某種操作來定義,并用測驗來測量。例如:人的創(chuàng)造力可以分解為人的思維流暢性、靈活性和創(chuàng)造性三大特性,并根據(jù)這三大特性編制測驗,若有足夠的證據(jù)來證明該測驗確實可以測到這些特性,則認(rèn)為該測驗是個結(jié)構(gòu)效度較高的創(chuàng)造力測驗。2、結(jié)構(gòu)效度是指測驗對于人的心理特性或理論概念測量到的程度。45(2)建立結(jié)構(gòu)效度的步驟A、提出理論假設(shè);B、根據(jù)假定結(jié)構(gòu)擬定測題,編制測驗;C、以測驗結(jié)果為根據(jù)來驗證假設(shè)結(jié)構(gòu)中的各種因素是否成立。(2)建立結(jié)構(gòu)效度的步驟46(3)結(jié)構(gòu)效度的估計A、因素分析法其目的是把一些具有復(fù)雜關(guān)系的因素歸結(jié)為數(shù)量較少的幾個綜合因素或稱共同因素,并以此測驗所測之特質(zhì)對測驗分?jǐn)?shù)作出解釋。B、多元特質(zhì)多重方法矩陣法是由肯貝爾和菲斯克1959年提出的最受歡迎的一種結(jié)構(gòu)效度的評估方法。這種方法的設(shè)想:若采用兩種方法以上的方法去測量兩種以上的特質(zhì),那么這些測量結(jié)果之間可以形成一個多元特質(zhì)多重方法矩陣。(3)結(jié)構(gòu)效度的估計A、因素分析法47結(jié)構(gòu)效度的估計從理論上說,以不同方法測量同一特質(zhì)的相關(guān)應(yīng)當(dāng)為最高;以相同方法測量不同特質(zhì)的相關(guān)次之;以不同方法測量不同特質(zhì)的相關(guān)為最低。與內(nèi)容效度不同,結(jié)構(gòu)效度主要用于智力測驗、人格測驗等一些心理測驗方面。結(jié)構(gòu)效度的估計從理論上說,以不同方法測量同一特質(zhì)的相關(guān)應(yīng)當(dāng)為483、效標(biāo)關(guān)聯(lián)效度是以測驗分?jǐn)?shù)和效標(biāo)之間的相關(guān)系數(shù)來表示測驗效度高低的方法。例如:某年全國高考物理學(xué)科的測驗效度,可用高三物理學(xué)科的會考分?jǐn)?shù)為效標(biāo),然后求同一組學(xué)生高考物理得分與高三會考物理得分之間的相關(guān),此相關(guān)系數(shù)就是該年高考物理測驗的效標(biāo)關(guān)聯(lián)效度系數(shù)。當(dāng)這個相關(guān)系數(shù)與總體零相關(guān)有顯著性差異時,相關(guān)系數(shù)的值(正值)越大,效度就越高;相關(guān)系數(shù)的值越小,效度就越低。3、效標(biāo)關(guān)聯(lián)效度是以測驗分?jǐn)?shù)和效標(biāo)之間的相關(guān)系數(shù)來表示測驗效49效標(biāo)關(guān)聯(lián)效度效標(biāo)不僅隨測驗的種類不同而不同,而且可能隨時間而改變,現(xiàn)在是一個好的成功的效標(biāo),將來就不一定是。所以,為某個測驗選擇一個最有效的效標(biāo),這是最重要的事情。教育測驗的效標(biāo),可采用各學(xué)科成績和教師評定的結(jié)果;智力測驗的效標(biāo),可采用學(xué)科成績、教師評判的結(jié)果、學(xué)生總成績、受教育年限、年齡以及其他事物;能力傾向測驗的效標(biāo),可采用特殊課程或特殊訓(xùn)練的成績;職業(yè)興趣測驗的效標(biāo),可采用從業(yè)人員實際服務(wù)成績或記錄;人格測驗的效標(biāo),可采用編制者的主觀標(biāo)準(zhǔn),或以被試以后行為或臨床資料。效標(biāo)關(guān)聯(lián)效度效標(biāo)不僅隨測驗的種類不同而不同,而且可能隨時間而50效標(biāo)關(guān)聯(lián)效度的估計方法(1)相關(guān)法由于測驗分?jǐn)?shù)和效標(biāo)分?jǐn)?shù)這兩個變量的類型不同,二者相關(guān)系數(shù)的計算方法也就不同。積差相關(guān)法:適用于兩個變量為連續(xù)變量進行顯著性檢驗:自由度df=N-2,檢驗的是兩個變量,都減去2;置信度取0.05,查相關(guān)系數(shù)界值表,尋找臨界值;結(jié)論:r>臨界值,說明顯著相關(guān),效度高;r<臨界值,說明無相關(guān),效度低。效標(biāo)關(guān)聯(lián)效度的估計方法(1)相關(guān)法51(三)提高測量效度的方法1、影響測量效度的因素測驗的構(gòu)成(要素)測驗實施方面(過程)被試主觀狀態(tài)方面估計效度所依循的效標(biāo)樣本方面(三)提高測量效度的方法1、影響測量效度的因素522、提高測量效度的方法控制系統(tǒng)誤差精心編制測驗量表擴充樣本的容量和代表性合理處理效度和信度的關(guān)系妥善組織測驗適當(dāng)增加測驗長度2、提高測量效度的方法控制系統(tǒng)誤差53第三章教育測量與評價的質(zhì)量特性課件54測量誤差及其來源(一)測量誤差的含義測量誤差指的是在測量過程中由那些與測量目的無關(guān)的變化因素所產(chǎn)生的一種不準(zhǔn)確或不一致的測量效應(yīng)。測量誤差及其來源(一)測量誤差的含義55(二)測量誤差的種類1、隨機誤差:由與測量目的無關(guān)的、偶然因素引起的、而又不易控制的誤差。2、系統(tǒng)誤差:那種由與測量目的無關(guān)的變因引起的一種恒定而有規(guī)律的效應(yīng)。(二)測量誤差的種類56
系統(tǒng)誤差:只影響測量的準(zhǔn)確性,不影響穩(wěn)定性。隨機誤差:既影響穩(wěn)定性,又影響準(zhǔn)確性。系統(tǒng)誤差:只影響測量的準(zhǔn)確性,不影響穩(wěn)定性。57(三)測量誤差的來源測量工具、被測對象、施測過程1、測量工具:所編制的測驗是否穩(wěn)定、是否真正測到了我們所要測的東西,是測量工具造成誤差的兩種主要原因。(三)測量誤差的來源582、測量對象:受測者真正水平是否得到正常發(fā)揮。
3、測量過程:主要是一些偶然因素。2、測量對象:受測者真正水平是否得到正常發(fā)揮。59三、難度難度是指試題的難易程度。一道試題,如果大部分被試都能答對,則該題的難度就?。蝗绻蟛糠直辉嚩疾荒艽饘?,則該題的難度就大。一個題目的難度大小,除了所測的內(nèi)容本身的難易程度有關(guān)以外,還與測驗的編制技術(shù)和被試的知識經(jīng)驗有關(guān),由于學(xué)得不清楚或者因被試沒學(xué)過,一個本來容易的題可能變難。這就是說測驗的難度具有相對性,正因為此,必須讓試題通過實踐來對難度作出檢驗。三、難度難度是指試題的難易程度。60難度的計算(一)基本公式1、客觀題難度的計算P=R/NR為答對該試題人數(shù),N為參加測驗總?cè)藬?shù)例1:在100個學(xué)生中,答對第一題的30人,答對第二題的60人,求第一、二道題的難度?比較這兩道題誰比誰難?難度的計算(一)基本公式612、主觀題難度的計算P=X/XmaxX為所有被試在該項目上的平均得分;Xmax為該項目的滿分。例2:某道論述題滿分12分,所有考生在這道題上的平均得分為3.6分,求該題的難度?例3:語文測驗第五題最高得分為12分,這道題考生的平均得分是8.5分,求該題難度?例4:60人參加考試,某題滿分為12分,正確得分累積是480分,求該題難度?2、主觀題難度的計算P=X/Xmax62(2)極端分組法步驟:將測驗總分進行高低排序(由高到低)進行高低分組(各取27%),并計算某題的得分率求兩組的平均值公式:P=(PH+PL)/2PH為高分組答對該題的百分比;PL為低分組答對該題的百分比。(2)極端分組法步驟:63例5某區(qū)域1000人參加考試,試卷第一題高分組180人答對,低分組60人答對,求該題難度?如果該題滿分為10分,高分組得分總數(shù)為2100分,低分組得分總數(shù)為830分,求該題難度?例5某區(qū)域1000人參加考試,試卷第一題高分組180人答對,642、難度的分析與控制(1)難度分析進行難度分析的主要目的是為了篩選題目。A、測驗題目難度水平的確定測驗題目難度水平的適當(dāng)與否,取決于測驗的目的、性質(zhì)和題目的形成。當(dāng)P值接近于0或接近于1時,即被試在該題上全部答對或全部答錯,則該題無法提供個體的信息。而只當(dāng)P值接近于0.50時,題目才能把被試做最大的程度的區(qū)分。但在實際工作中,若每一題的難度值均為0.50,那么此測驗很可能只能區(qū)分出好與差兩種極端被試的差異,卻不能對各種被試作更精確的區(qū)分。因此,一般各題的難度可在0.50+20之間。2、難度的分析與控制(1)難度分析65B、測驗難度對分?jǐn)?shù)分布的影響測驗的難度直接依賴于組成測驗的題目的難度,通過考察測驗分?jǐn)?shù)的分布,可以對測驗的難度做出直觀檢查。由于多數(shù)人的心理特性多數(shù)呈正態(tài)分布,因此當(dāng)測驗?zāi)康脑谟跍y量個體差異時,若被試樣本具有代表性,則其結(jié)果應(yīng)呈正態(tài)分布。測驗分?jǐn)?shù)背離正態(tài)分布有兩種情況:其一是題目難度普遍較大,被試得分普遍較低,使得低分端出現(xiàn)高峰,呈正偏態(tài);其二是題目難度普遍較小,被試的得分普遍較高,使得高分端出現(xiàn)高峰,呈負(fù)偏態(tài)。B、測驗難度對分?jǐn)?shù)分布的影響測驗的難度直接依賴于組成測驗的題662、難度的控制一般說來,影響題目難度的主要因素有:考察知識點的多少;考察能力的復(fù)雜程度或?qū)哟蔚母叩停豢忌鷮︻}目的熟悉態(tài)度;命題的技巧。難度控制:正確估計考生水平;弄清弄懂各知識點;掌握命題技巧。2、難度的控制一般說來,影響題目難度的主要因素有:67四、區(qū)分度(一)區(qū)分度的含義指測驗題目對考生實際水平的區(qū)分程度或鑒別能力。如一道題,學(xué)業(yè)水平、實際能力都較高的考生都答對了;而學(xué)業(yè)水平、實際能力都較低的考生都答錯了,則可認(rèn)為該題目有好的區(qū)分度。區(qū)分度分析主要以效能為依據(jù),考察考生在每個題目上反應(yīng)與其在效標(biāo)上的表現(xiàn)之間的相關(guān)程度。區(qū)分度(D)的取值范圍介于-1.00—+1.00之間,值越大,區(qū)分度的效果越佳。區(qū)分度D>0為正區(qū)分,D<0為負(fù)區(qū)分,D=0為零區(qū)分四、區(qū)分度(一)區(qū)分度的含義68(二)區(qū)分度的計算1、極端分組法(1)客觀性試題D=PH-PLPH為高分組的難度,PL為低分組的難度例6:有道試題,高分組有70%學(xué)生通過,低分組有30%的學(xué)生通過;而另一道題,高分組有40%學(xué)生通過,低分組有70%學(xué)生通過,求兩題的各自區(qū)分度?(二)區(qū)分度的計算1、極端分組法69(2)主觀題D=(XH-XL)/N(H-L)XH為高分組得分總數(shù)XL為低分組得分總數(shù)H為該道題的最高分L為該道題的最低分N為應(yīng)試總?cè)藬?shù)的27%。(2)主觀題D=(XH-XL)/N(H-L)70(三)提高區(qū)分度的方法1、使題目的難度適中,使整個考試難度適中題目的難度適中可使區(qū)分度達到最大值,因此,使難度適中是提高區(qū)分度的重要方法。2、著重考察復(fù)雜的學(xué)習(xí)結(jié)果使高能學(xué)生得高分或低能學(xué)生得低分,使分?jǐn)?shù)盡量分布在整個分?jǐn)?shù)量尺上。3、掌握區(qū)分度的評價標(biāo)準(zhǔn)。(三)提高區(qū)分度的方法1、使題目的難度適中,使整個考試難度適71作業(yè)1、用某量表測驗10名學(xué)生,得分記為X,為了考察結(jié)果的可靠性,于15天后用原量表對這10個學(xué)生重測一次,得分記為Y,問測驗結(jié)果是否可靠?學(xué)生序號12345678910X810961075794Y9101061084894作業(yè)1、用某量表測驗10名學(xué)生,得分記為X,為了考察結(jié)果的可72第三章教育測量與評價的質(zhì)量特性內(nèi)蒙古師范大學(xué)教育科學(xué)學(xué)院2012年11月12日296957701第三章教育測量與評價的質(zhì)量特性內(nèi)蒙古師范大學(xué)教育科學(xué)學(xué)院73第一節(jié)教育測量與評價中常用的統(tǒng)計參數(shù)一、平均數(shù)和標(biāo)準(zhǔn)差平均數(shù)表示原始分?jǐn)?shù)的總和N表示分?jǐn)?shù)的個數(shù)第一節(jié)教育測量與評價中常用的統(tǒng)計參數(shù)一、平均數(shù)和標(biāo)準(zhǔn)差表示74平均數(shù)和標(biāo)準(zhǔn)差方差:也稱變異數(shù)、均方。用符號表示標(biāo)準(zhǔn)差:即方差的平方根,用S或SD表示。平均數(shù)和標(biāo)準(zhǔn)差方差:也稱變異數(shù)、均方。用符號表示75二、相關(guān)及相關(guān)系數(shù)(一)什么是相關(guān)1.事物之間的相互關(guān)系因果關(guān)系共變關(guān)系相關(guān)關(guān)系二、相關(guān)及相關(guān)系數(shù)(一)什么是相關(guān)762.相關(guān)的類別正相關(guān)負(fù)相關(guān)零相關(guān),即無相關(guān)2.相關(guān)的類別77(二)相關(guān)系數(shù)是兩例變量間相關(guān)程度的數(shù)字表現(xiàn)形式,或者說是用來表示相關(guān)關(guān)系強度的指標(biāo)。常用r表示。相關(guān)系數(shù)的取值范圍:-1≤r≤1(二)相關(guān)系數(shù)是兩例變量間相關(guān)程度的數(shù)字表現(xiàn)形式,或者說是用78(三)積差相關(guān)簡稱皮爾遜相關(guān),又稱為積距相關(guān)。揭示兩個變量線性相關(guān)方向和程度最常用和最基本的方法。需要滿足一下條件:要求成對的數(shù)據(jù)。兩例變量各自總體的分布都是正態(tài)。兩個相關(guān)的變量是連續(xù)變量。兩例變量之間的關(guān)系是直線性的。(三)積差相關(guān)簡稱皮爾遜相關(guān),又稱為積距相關(guān)。揭示兩個變量線79利用原始數(shù)據(jù)計算積差相關(guān)的公式利用原始數(shù)據(jù)計算積差相關(guān)的公式80例:10名中學(xué)生身高與體重的測量結(jié)果,問身高與體重的關(guān)系如何?被試編號身高(X)體重(Y)X2 Y2 XY 1 170 50 28900 2500 8500 2 173 45 29929 2025 7785 3 160 47 25600 2209 7520 4 155 44 24025 1936 6820 5 173 50 29929 2500 8650 6 188 53 35344 2809 9964 7 178 50 31684 2500 8900 8 183 49 33489 2401 8967 9 180 52 32400 2704 9360 10 165 45 27225 2025 7425 Σ 1725 485 298525 23609 83891
例:10名中學(xué)生身高與體重的測量結(jié)果,問身高與體重的關(guān)系如何81(四)斯皮爾曼等級相關(guān)則是皮爾遜相關(guān)系數(shù)的延伸。是等級相關(guān)的一種。常用符號rR或rs表示。主要用于解決名稱數(shù)據(jù)和順序數(shù)據(jù)的相關(guān)問題。對于屬于等距或等比性質(zhì)的連續(xù)變量數(shù)據(jù),若按其取值大小,賦以等級順序,轉(zhuǎn)化為順序變量數(shù)據(jù),亦可計算等級相關(guān),此時不必考慮是否正態(tài)。適用于連續(xù)變量數(shù)據(jù)小于30,精確度稍差于積差相關(guān)(四)斯皮爾曼等級相關(guān)則是皮爾遜相關(guān)系數(shù)的延伸。是等級相關(guān)的82斯皮爾曼等級相關(guān)的計算公式斯皮爾曼等級相關(guān)的計算公式83例:現(xiàn)有10人的視、聽兩種感覺通道的反應(yīng)時,問視聽反應(yīng)時是否具有一致性被試編號 身高(X)體重(Y)Rx RYD=Rx-RY D2 RxRY
1 172 179 7 5 2 4 35 2 140 162 2 2 0 0 4 3 152 153 5 1 4 16 5 4 187 189 8 8 0 0 64 5 139 181 1 6 -5 25 6 6 195 220 9 10 -1 1 90 7 212 210 19 1 1 90 8 164 182 6 7 -1 1 42 9 149 178 4 4 0 0 16 10 146 170 3 3 0 0 9 Σ 55 55 48 361 例:現(xiàn)有10人的視、聽兩種感覺通道的反應(yīng)時,問視聽反應(yīng)時是否84第二章教育測量的質(zhì)量指標(biāo)衡量教育測量的質(zhì)量,可采用四個指標(biāo):信度主要對整個測量而言。效度
難度主要對測量的項目而言。區(qū)分度第二章教育測量的質(zhì)量指標(biāo)衡量教育測量的質(zhì)量,可采用四個指85一、信度概述(一)什么是信度信度是指測量結(jié)果的穩(wěn)定性或可靠性程度。必須從以下兩個方面去理解測量的信度:
信度指實測值(X)真值(T)相差的程度信度指同一個測驗(或相等的兩個、多個測驗)對同一組被試施測兩次或多次,所得結(jié)果的一致性程度,也即測驗的可靠性。兩次重復(fù)測量或等值測量之間的關(guān)聯(lián)程度。一、信度概述(一)什么是信度86(二)信度的估計方法1、重復(fù)信度(再測信度)指的是同一個量表對同一組被試施測兩次所得結(jié)果的一致性程度。其大小等于同一組被試在兩次測驗上所得分?jǐn)?shù)的相關(guān)系數(shù),一般采用皮爾遜積差相關(guān)的公式來計算。(二)信度的估計方法1、重復(fù)信度(再測信度)87例一用一個算術(shù)四則的速度測驗12個小學(xué)生,得分記為X,為了考察測量結(jié)果的可靠性,于3個月后再測一次,得分記為Y,問測驗結(jié)果是否可靠?序號123456789101112X202021222323232425262627Y202121202323252526262729例一用一個算術(shù)四則的速度測驗12個小學(xué)生,得分記為X,為了考88在使用重測法計算穩(wěn)定性系數(shù)時,應(yīng)注意以下問題:1、信度的取值范圍為[0,1],當(dāng)信度值較大時,說明前后兩次測量結(jié)果比較一致;2、兩次測驗之間的時間間隔要適宜。應(yīng)由測驗的性質(zhì)、測題類型、測題數(shù)量和被試特點所決定;3、重測法適用于速度測驗而不適用于難度測驗;4、應(yīng)注意提高被試者的積極性。在使用重測法計算穩(wěn)定性系數(shù)時,應(yīng)注意以下問題:1、信度的取值89再測信度的優(yōu)缺點優(yōu)點:(1)它最符合重復(fù)測驗的涵義(2)比編制兩套等值測驗題目要省力、省時(3)所測量的屬性是完全相同的。缺點:(1)使第二次測驗分?jǐn)?shù)有系統(tǒng)地增加(2)如果兩次施測時間太長,被試身心的發(fā)展、新知識的獲得,導(dǎo)致兩次測驗結(jié)果的不相同(3)容易失去被試的興趣(4)收到被試在兩次施測時的主觀狀態(tài)(5)兩次施測的環(huán)境不同而產(chǎn)生測量誤差。再測信度的優(yōu)缺點優(yōu)點:(1)它最符合重復(fù)測驗的涵義(2)比編90再測信度的適用范圍適用于異質(zhì)性測驗適用于速度測驗而不適用于難度測驗還適用于運動技能的測驗,如跑、跳、擲等項目測驗。再測信度的適用范圍適用于異質(zhì)性測驗912、復(fù)本信度指的是兩個平等的測驗測量同一批被試所得結(jié)果的一致性程度。其大小等于同一批被試在兩個復(fù)本測驗上所得分?jǐn)?shù)的相關(guān)系數(shù)。所謂復(fù)本測驗是指在性質(zhì)、內(nèi)容、題型、題數(shù)、難度等方面都一致(或相等)的兩份或多份測驗。2、復(fù)本信度指的是兩個平等的測驗測量同一批被試所得結(jié)果的一致92例二以A、B兩型英語復(fù)本測驗對初中三年級10個學(xué)生施測,為避免由測驗施測順序所造成的誤差,其中5個學(xué)生先做A型測驗,休息15分鐘后,再做B型測驗;而另5個學(xué)生先做B型測驗,休息15分鐘后,再做A型測驗。10個學(xué)生A型測驗結(jié)果記為X,B型測驗結(jié)果記為Y,其測驗的復(fù)本信度如何?學(xué)生序號12345678910X19191817161515141312Y20171818171513151212例二以A、B兩型英語復(fù)本測驗對初中三年級10個學(xué)生施測,為避93復(fù)本信度的優(yōu)缺點表現(xiàn):優(yōu)點:1、一個測驗有兩個或幾個復(fù)本,這意味著對于測驗同一種屬性具有兩個或幾個行為樣本。2、測驗的兩個復(fù)本,如果在不同的時間使用,其信度既可以反映在不同時間的穩(wěn)定性,又可以反映對于不同測題的一致性;3、兩個復(fù)本在同時使用時,可以避免再測信息的一些缺點,如首測時再測在記憶、練習(xí)、效果的影響,間隔期間獲得新知識的影響,兩次施測的環(huán)境不同和被試主觀狀態(tài)不同的影響,以及為了應(yīng)付測驗所作訓(xùn)練的影響等。復(fù)本信度的優(yōu)缺點表現(xiàn):優(yōu)點:94缺點:1、編制兩個完全相等的測驗是很困難的,如果兩個復(fù)本過分相似,則變成再測形式,而過分不相似,又使等值的條件不存在;2、兩個復(fù)本測驗有可能在某種程度上測量了不同的性質(zhì),這就會低估測驗的信度;3、被試同時接受性質(zhì)相似的兩個測驗,可能減少完成測驗的積極性;4、雖然兩個復(fù)本測驗的題目材料不同,但被試一旦掌握了解題的某一模式,就能觸類旁通,有可能失去復(fù)本的意義。缺點:1、編制兩個完全相等的測驗是很困難的,如果兩個復(fù)本過分95復(fù)本信度的適用范圍不僅適用于難度測驗,也是估計速度測驗信度的最好方法。在作追蹤研究或探討某些影響測驗成績的因素時,大多使用復(fù)本測驗。復(fù)本信度的適用范圍不僅適用于難度測驗,也是估計速度測驗信度的96(三)內(nèi)在一致性信度內(nèi)在一致性信度主要是指測驗內(nèi)部(即測題之間)的一致性程度,主要包括分半信度和同質(zhì)性信度。(三)內(nèi)在一致性信度內(nèi)在一致性信度主要是指測驗內(nèi)部(即測題之971、折半信度(分半信度)就是將一個測驗分成對等的兩半后,再求被試在每一半測驗上所得分?jǐn)?shù)的一致性程度(相關(guān)系數(shù))。首先根據(jù)內(nèi)容、形式、題數(shù)、平均數(shù)、標(biāo)準(zhǔn)差、難度、測題間相關(guān)以及分布形態(tài)相等的原則,將試題分成兩半,或者將從易到難排列的測題,按照測題序號,奇數(shù)測題為一組,偶數(shù)測題為一組,分成兩半;然后計算每個被試在兩個分半測驗分?jǐn)?shù)的積差相關(guān)系數(shù),再用斯皮爾曼—布朗公式加以校正。斯皮爾曼—布朗公式為1、折半信度(分半信度)就是將一個測驗分成對等的兩半后,再求98斯皮爾曼—布朗公式為整個測驗的信度系數(shù)為兩個“半測驗”上得分的相關(guān)系數(shù)斯皮爾曼—布朗公式99例:一個測驗向15名被試施測,被試在奇偶數(shù)分半測驗上的得分如表所示,計算該測驗的分半信度系數(shù)。被試123456789101112131415奇數(shù)題2018232117182017161314131288偶數(shù)題2022192218151417151614121076計算兩個“半測驗”得分的積差相關(guān)系數(shù)為0.86
=0.92例:一個測驗向15名被試施測,被試在奇偶數(shù)分半測驗上的得分如1002.同質(zhì)性信度同質(zhì)性信度是指測驗內(nèi)部所有題目間的一致性程度。所有題目測的是同一種心理特質(zhì)所有題目得分之間都具有較高的正相關(guān)也就是說,同質(zhì)性信度就是一個測驗所測內(nèi)容或特質(zhì)的相同程度。2.同質(zhì)性信度同質(zhì)性信度是指測驗內(nèi)部所有題目間的一致性程度。101(1)二分法計分測驗的同質(zhì)性信度庫德—理查遜信度KR20為測驗信度;K為題目數(shù);Pi和qi分別表示答對和打錯第i題的被試人數(shù)比例;為測驗總分的方差。測驗的信度;是全體被試測驗總分的平均數(shù)。(1)二分法計分測驗的同質(zhì)性信度庫德—理查遜信度102例:三對初中一年級學(xué)生進行地理成績測驗,每答對1題得1分,答錯得0分,其測驗結(jié)果如下表,試估計該測驗的折半信度學(xué)生序號題序123456總分110000012100100230110002411001035100100261110115711110158110110490110013101111116P0.80.70.50.50.40.4q0.20.30.50.50.60.6pq0.160.210.250.250.240.24∑=1.35例:三對初中一年級學(xué)生進行地理成績測驗,每答對1題得1分,答103(2)非二分法記分測驗的同質(zhì)性信度克龍巴赫a系數(shù),計算公式為:
表示所有被試在第i題上的方差;表示所有被試各自總分的方差,K為題目數(shù)。(2)非二分法記分測驗的同質(zhì)性信度克龍巴赫a系數(shù),計算公式為1043.內(nèi)在一致性信度的優(yōu)缺點優(yōu)點(1)應(yīng)用方便,避免再測信度的缺點;(2)具有同時性復(fù)本信度的優(yōu)點;(3)在使用K-R20時,對測題的假定或前提條件,要求相對較少,它不僅是信度的近似值,而且是決定測驗信度非常正確的方法。缺點:(1)將一個測驗分成內(nèi)容、形式、題數(shù)、平均數(shù)、標(biāo)準(zhǔn)差、分布形態(tài)都相等的兩部分,實際上是很困難的;(2)分半的方法不同,估計出的信度系數(shù)也有所不同;(3)若用斯皮爾曼—布朗公式對分半信度進行校正,會高估了測驗的信度。3.內(nèi)在一致性信度的優(yōu)缺點優(yōu)點(1)應(yīng)用方便,避免再測信度的1054.內(nèi)在一致性信度的適用范圍適用于同質(zhì)性測驗,而不適用與異質(zhì)性測驗適用于難度測驗,而不適用于速度測驗。4.內(nèi)在一致性信度的適用范圍適用于同質(zhì)性測驗,而不適用與異質(zhì)106(四)評分者的信度是指多位評分者對同一組被試作答反應(yīng)評分的一致性程度。兩位評分者時,采用積差相關(guān)或等級相關(guān)的方法來進行計算。三人以上,而且等級記分時,采用肯德爾和諧系數(shù)來求評分者信度。(四)評分者的信度是指多位評分者對同一組被試作答反應(yīng)評分的一107(五)標(biāo)準(zhǔn)參照測驗的信度分析百分比一致性指標(biāo)是指同一測驗或兩平行測驗先后兩次施測,其對被試的分類結(jié)果一致的比例。(五)標(biāo)準(zhǔn)參照測驗的信度分析百分比一致性指標(biāo)是指同一測驗或兩108(六)提高信度的方法1、影響測量信度的主要因素(1)被試方面(2)主試方面(3)施測情境方面(4)測量工具方面(5)兩次施測的間隔時間方面(六)提高信度的方法1、影響測量信度的主要因素1092、提高測量信度的常用方法(1)適當(dāng)增加測驗的長度(2)測驗的難度要適中(3)測驗的內(nèi)容應(yīng)盡量同質(zhì)(4)測驗的程序應(yīng)統(tǒng)一(5)測驗的時間要充分(6)測驗的評分要盡量做到客觀化,減少評分誤差2、提高測量信度的常用方法(1)適當(dāng)增加測驗的長度110二、效度的概念(一)什么是效度效度是指測量結(jié)果的準(zhǔn)確性和有效性的程度。也可以說是測量是否達到了預(yù)期的目的。1、效度是一個相對的概念。(1)測量的效度是相對一定的測量目的而言的(2)測量的效度是相對測量的結(jié)果而言的2、一種測量的效度只是高或低的問題測量結(jié)果總是有一定效度的,只是效度高低不同罷了。二、效度的概念(一)什么是效度111(二)效度的估計效度估計就是多方尋找證據(jù)來證明一個測驗的有效性程度的過程。1、內(nèi)容效度就是指測驗內(nèi)容對所要測量的內(nèi)容的代表性程度。也就是說,測驗的內(nèi)容范圍、材料與所要測量的內(nèi)容范圍、教育目標(biāo)是否相符合;測驗中測題所引起的行為是否是所要測量的屬性的明確反應(yīng);測驗的結(jié)果是否是一個有代表性的行為樣本。為了使測驗的內(nèi)容具有有效性,成為所欲測量內(nèi)容的一個具有代表性的行為樣本,在編制測驗時,就要考慮建立內(nèi)容效度的問題。(二)效度的估計效度估計就是多方尋找證據(jù)來證明一個測驗的有效1122、內(nèi)容效度的估計(1)邏輯分析法其工作思路是請有關(guān)專家對測驗題目與原定內(nèi)容范圍的吻合程度作出判斷。(2)統(tǒng)計分析法從同一個教學(xué)內(nèi)容總體中抽取兩套獨立的平行測驗,用這兩個測驗來測同一批被試,求其相關(guān)。若相關(guān)高,表明測驗內(nèi)容效度較高;若相關(guān)低,表示測驗的內(nèi)容效度較低。2、內(nèi)容效度的估計(1)邏輯分析法113例一在《社會發(fā)展史》某一單元教學(xué)之前,對學(xué)生進行有關(guān)這一單元內(nèi)容的測驗。教學(xué)之后,再以復(fù)本測驗施測,兩次測驗分?jǐn)?shù)如下,試檢定測驗的內(nèi)容效度?學(xué)生序號12345678910教學(xué)前X34403230313544334236教學(xué)后Y52645054586372626250例一在《社會發(fā)展史》某一單元教學(xué)之前,對學(xué)生進行有關(guān)這一單元114結(jié)論然后根據(jù)自由度df=N-1=9,查t值表,尋得0.01顯著性水平t的雙側(cè)臨界值為t(9)0.01=4.781,而實際計算出的[t]=13.9>4.781=t(9)0.01,于是可以說,教學(xué)前后學(xué)生在兩個復(fù)本測驗上得分的平均數(shù)有極顯著性差異,從而可以作出判斷,《社會發(fā)展史》中該單元測驗的內(nèi)容具有有效性,或內(nèi)容效度較高。結(jié)論然后根據(jù)自由度df=N-1=9,查t值表,尋得0.01顯115內(nèi)容效度的適用范圍內(nèi)容效度主要應(yīng)用于成就測驗、學(xué)科測驗、選拔和分類職業(yè)測驗。內(nèi)容效度不適合用于能力傾向和人格測驗。內(nèi)容效度的適用范圍內(nèi)容效度主要應(yīng)用于成就測驗、學(xué)科測驗、選拔1162、結(jié)構(gòu)效度是指測驗對于人的心理特性或理論概念測量到的程度。通常用某種操作來定義,并用測驗來測量。例如:人的創(chuàng)造力可以分解為人的思維流暢性、靈活性和創(chuàng)造性三大特性,并根據(jù)這三大特性編制測驗,若有足夠的證據(jù)來證明該測驗確實可以測到這些特性,則認(rèn)為該測驗是個結(jié)構(gòu)效度較高的創(chuàng)造力測驗。2、結(jié)構(gòu)效度是指測驗對于人的心理特性或理論概念測量到的程度。117(2)建立結(jié)構(gòu)效度的步驟A、提出理論假設(shè);B、根據(jù)假定結(jié)構(gòu)擬定測題,編制測驗;C、以測驗結(jié)果為根據(jù)來驗證假設(shè)結(jié)構(gòu)中的各種因素是否成立。(2)建立結(jié)構(gòu)效度的步驟118(3)結(jié)構(gòu)效度的估計A、因素分析法其目的是把一些具有復(fù)雜關(guān)系的因素歸結(jié)為數(shù)量較少的幾個綜合因素或稱共同因素,并以此測驗所測之特質(zhì)對測驗分?jǐn)?shù)作出解釋。B、多元特質(zhì)多重方法矩陣法是由肯貝爾和菲斯克1959年提出的最受歡迎的一種結(jié)構(gòu)效度的評估方法。這種方法的設(shè)想:若采用兩種方法以上的方法去測量兩種以上的特質(zhì),那么這些測量結(jié)果之間可以形成一個多元特質(zhì)多重方法矩陣。(3)結(jié)構(gòu)效度的估計A、因素分析法119結(jié)構(gòu)效度的估計從理論上說,以不同方法測量同一特質(zhì)的相關(guān)應(yīng)當(dāng)為最高;以相同方法測量不同特質(zhì)的相關(guān)次之;以不同方法測量不同特質(zhì)的相關(guān)為最低。與內(nèi)容效度不同,結(jié)構(gòu)效度主要用于智力測驗、人格測驗等一些心理測驗方面。結(jié)構(gòu)效度的估計從理論上說,以不同方法測量同一特質(zhì)的相關(guān)應(yīng)當(dāng)為1203、效標(biāo)關(guān)聯(lián)效度是以測驗分?jǐn)?shù)和效標(biāo)之間的相關(guān)系數(shù)來表示測驗效度高低的方法。例如:某年全國高考物理學(xué)科的測驗效度,可用高三物理學(xué)科的會考分?jǐn)?shù)為效標(biāo),然后求同一組學(xué)生高考物理得分與高三會考物理得分之間的相關(guān),此相關(guān)系數(shù)就是該年高考物理測驗的效標(biāo)關(guān)聯(lián)效度系數(shù)。當(dāng)這個相關(guān)系數(shù)與總體零相關(guān)有顯著性差異時,相關(guān)系數(shù)的值(正值)越大,效度就越高;相關(guān)系數(shù)的值越小,效度就越低。3、效標(biāo)關(guān)聯(lián)效度是以測驗分?jǐn)?shù)和效標(biāo)之間的相關(guān)系數(shù)來表示測驗效121效標(biāo)關(guān)聯(lián)效度效標(biāo)不僅隨測驗的種類不同而不同,而且可能隨時間而改變,現(xiàn)在是一個好的成功的效標(biāo),將來就不一定是。所以,為某個測驗選擇一個最有效的效標(biāo),這是最重要的事情。教育測驗的效標(biāo),可采用各學(xué)科成績和教師評定的結(jié)果;智力測驗的效標(biāo),可采用學(xué)科成績、教師評判的結(jié)果、學(xué)生總成績、受教育年限、年齡以及其他事物;能力傾向測驗的效標(biāo),可采用特殊課程或特殊訓(xùn)練的成績;職業(yè)興趣測驗的效標(biāo),可采用從業(yè)人員實際服務(wù)成績或記錄;人格測驗的效標(biāo),可采用編制者的主觀標(biāo)準(zhǔn),或以被試以后行為或臨床資料。效標(biāo)關(guān)聯(lián)效度效標(biāo)不僅隨測驗的種類不同而不同,而且可能隨時間而122效標(biāo)關(guān)聯(lián)效度的估計方法(1)相關(guān)法由于測驗分?jǐn)?shù)和效標(biāo)分?jǐn)?shù)這兩個變量的類型不同,二者相關(guān)系數(shù)的計算方法也就不同。積差相關(guān)法:適用于兩個變量為連續(xù)變量進行顯著性檢驗:自由度df=N-2,檢驗的是兩個變量,都減去2;置信度取0.05,查相關(guān)系數(shù)界值表,尋找臨界值;結(jié)論:r>臨界值,說明顯著相關(guān),效度高;r<臨界值,說明無相關(guān),效度低。效標(biāo)關(guān)聯(lián)效度的估計方法(1)相關(guān)法123(三)提高測量效度的方法1、影響測量效度的因素測驗的構(gòu)成(要素)測驗實施方面(過程)被試主觀狀態(tài)方面估計效度所依循的效標(biāo)樣本方面(三)提高測量效度的方法1、影響測量效度的因素1242、提高測量效度的方法控制系統(tǒng)誤差精心編制測驗量表擴充樣本的容量和代表性合理處理效度和信度的關(guān)系妥善組織測驗適當(dāng)增加測驗長度2、提高測量效度的方法控制系統(tǒng)誤差125第三章教育測量與評價的質(zhì)量特性課件126測量誤差及其來源(一)測量誤差的含義測量誤差指的是在測量過程中由那些與測量目的無關(guān)的變化因素所產(chǎn)生的一種不準(zhǔn)確或不一致的測量效應(yīng)。測量誤差及其來源(一)測量誤差的含義127(二)測量誤差的種類1、隨機誤差:由與測量目的無關(guān)的、偶然因素引起的、而又不易控制的誤差。2、系統(tǒng)誤差:那種由與測量目的無關(guān)的變因引起的一種恒定而有規(guī)律的效應(yīng)。(二)測量誤差的種類128
系統(tǒng)誤差:只影響測量的準(zhǔn)確性,不影響穩(wěn)定性。隨機誤差:既影響穩(wěn)定性,又影響準(zhǔn)確性。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)療美容招投標(biāo)服務(wù)質(zhì)量表
- 2024年羊毛收購合同3篇
- 高鐵項目招投標(biāo)文件模板
- 工業(yè)自動化系統(tǒng)工程委托施工合同
- 傳媒團副總經(jīng)理招聘合同范例
- 旅游景區(qū)宣傳舞蹈演員聘請合同
- 辦公大樓建設(shè)項目合同樣本
- 2025年度鋁合金門窗產(chǎn)品研發(fā)、生產(chǎn)與安裝一體化合同3篇
- 員工心理健康輔導(dǎo)
- 醫(yī)療急救通道建設(shè)打路施工合同
- 售后服務(wù)方案及運維方案
- 直通法國-閱讀與文化智慧樹知到期末考試答案章節(jié)答案2024年青島大學(xué)
- 2024年巴西手游市場市場前景及投資研究報告
- 2024年云南昆明市公安局直屬部門缺勤務(wù)輔警招聘筆試參考題庫附帶答案詳解
- 碼頭建設(shè)報批程序
- (正式版)JBT 11517-2024 刮板取料機
- 商務(wù)數(shù)據(jù)分析智慧樹知到期末考試答案2024年
- 2019年10月廣東省自考00850廣告設(shè)計基礎(chǔ)試題及答案含解析
- DG-TJ08-2425-2023 道路隧道養(yǎng)護運行評價技術(shù)標(biāo)準(zhǔn)
- 膠囊內(nèi)鏡知識課件
- 體育教師生涯發(fā)展展示
評論
0/150
提交評論