版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第四章測(cè)量信度1第一節(jié)信度概述什么是信度?信度(reliability)是指測(cè)量結(jié)果的穩(wěn)定性程度,也叫測(cè)量的可靠性。操作定義:rxx=ST2/Sx2
rXX=ρTX2
rXX=ρXX’注意:信度指的是一組測(cè)驗(yàn)分?jǐn)?shù)或一系列測(cè)量的特性,而不是個(gè)人分?jǐn)?shù)的特性;真分?jǐn)?shù)的變異數(shù)是不能直接測(cè)量的,因此信度是一個(gè)理論上構(gòu)想的概念,只能根據(jù)一組實(shí)得分?jǐn)?shù)作出估計(jì)。2信度系數(shù)與信度指數(shù)信度指數(shù):相關(guān)系數(shù)信度系數(shù):相關(guān)系數(shù)的平方注意:信度系數(shù)有多種。同一種信度系數(shù)也會(huì)因樣本、測(cè)查時(shí)間不同而有多個(gè)。信度系數(shù)只是對(duì)測(cè)量分?jǐn)?shù)一致性的估計(jì),但并沒有指出不一致的原因。獲得較高的信度只是測(cè)驗(yàn)有效的必要條件。3三、信度的作用信度是測(cè)量過程中所存在的隨機(jī)誤差大小的反映
信度可以用來解釋個(gè)人測(cè)驗(yàn)分?jǐn)?shù)的意義SE=SX√1-rXX真分?jǐn)?shù)的置信區(qū)間(95%)=X±1.96SE信度可以幫助進(jìn)行不同測(cè)驗(yàn)分?jǐn)?shù)的比較4假設(shè)在一個(gè)智力測(cè)驗(yàn)中,某個(gè)被試的IQ為100,這是否反映了他的真實(shí)水平?如果再測(cè)一次他的分?jǐn)?shù)將改變多少?已知該測(cè)驗(yàn)的標(biāo)準(zhǔn)差為15,信度系數(shù)為0.84、某被試在韋氏成人智力測(cè)驗(yàn)中言語智商為102,操作智商為110.已知兩個(gè)分?jǐn)?shù)都是以100為平均數(shù),15為標(biāo)準(zhǔn)差的標(biāo)準(zhǔn)分?jǐn)?shù)。假設(shè)言語測(cè)驗(yàn)和操作測(cè)驗(yàn)的分半信度分別是0.87和0.88.問其操作智商是否顯著高于言語智商呢?5一個(gè)測(cè)驗(yàn)可以有多個(gè)信度估計(jì)值,因而其誤差估計(jì)值也會(huì)有多個(gè),在實(shí)際工作者要注意選擇。本理論假定同一個(gè)團(tuán)體中所有人的測(cè)量誤差都是相同的,但實(shí)際上水平高的人與水平低的人在做測(cè)量時(shí)會(huì)有不同的隨機(jī)誤差。測(cè)量的結(jié)果不能僵硬地看成一個(gè)點(diǎn),而應(yīng)看成是一個(gè)以該點(diǎn)為中心,以SE的某個(gè)倍數(shù)為半徑上下波動(dòng)的一個(gè)范圍(區(qū)間估計(jì))6第二節(jié)信度的估計(jì)方法一、重測(cè)信度含義和計(jì)算重測(cè)信度(test-retestreliability)是指用同一量表對(duì)同一組被試施測(cè)兩次所得結(jié)果的一致性程度。皮爾遜積差相關(guān)系數(shù)(教材p48)使用的前提條件
所測(cè)量的心理特質(zhì)必須是穩(wěn)定的;練習(xí)和遺忘的效果基本上相互抵消;在兩次施測(cè)的間隔時(shí)期內(nèi),被試在所要測(cè)查的心理特質(zhì)方面沒有獲得更多的學(xué)習(xí)和訓(xùn)練。7使用重測(cè)信度時(shí)應(yīng)注意兩次測(cè)驗(yàn)的時(shí)間間隔要適當(dāng)(研究報(bào)告中需要說明)。再測(cè)信度適用于速度測(cè)驗(yàn)或人格測(cè)驗(yàn),不適用于難度測(cè)驗(yàn)。重測(cè)時(shí)應(yīng)注意提高被試的積極性。優(yōu)缺點(diǎn)用再測(cè)法估計(jì)信度的優(yōu)點(diǎn)是能提供測(cè)驗(yàn)結(jié)果是否隨時(shí)間而變化的資料,可作為預(yù)測(cè)被試將來行為的依據(jù)。其缺點(diǎn)是易受練習(xí)和記憶的影響。8SPSS計(jì)算求出兩次測(cè)量的總分Analyze-Correlate-Bivariate9二、復(fù)本信度1.含義和計(jì)算復(fù)本信度(Alternate-formreliability)指的是兩個(gè)平行的測(cè)驗(yàn)測(cè)量同一批被試所得結(jié)果的一致性程度,其值等于同一批被試在兩個(gè)復(fù)本測(cè)驗(yàn)上所得分?jǐn)?shù)的積差相關(guān)系數(shù)。復(fù)本信度又稱為等值性系數(shù)。
測(cè)驗(yàn)實(shí)施的時(shí)間不同,復(fù)本信度所表達(dá)的含義略有不同。如果兩個(gè)復(fù)本測(cè)驗(yàn)是同時(shí)連續(xù)施測(cè)的,則稱這種復(fù)本信度為等值性系數(shù)。如果兩個(gè)復(fù)本測(cè)驗(yàn)是相距一段時(shí)間分兩次施測(cè)的,則稱這種復(fù)本信度為穩(wěn)定性與等值性系數(shù)。10使用的前提條件兩測(cè)驗(yàn)真正平行;被試要有條件接受兩個(gè)測(cè)驗(yàn)。優(yōu)點(diǎn)避免記憶效果和學(xué)習(xí)效應(yīng)11復(fù)本信度的局限性如果所考慮的行為機(jī)能受到練習(xí)的影響很大,那么使用復(fù)本只能減少但不能消除這種影響。測(cè)驗(yàn)的性質(zhì)會(huì)由于重復(fù)而有所改變,比如遷移的影響編制真正的等值測(cè)驗(yàn)實(shí)際困難重重,因此許多測(cè)驗(yàn)沒有復(fù)本。12內(nèi)部一致性信度(1)三、分半信度含義和計(jì)算分半信度(split-halfreliability)是指將一個(gè)測(cè)驗(yàn)分成對(duì)等的兩半后,所有被試在這兩半上所得分?jǐn)?shù)的一致性程度。由于分半信度描述的是兩半題目間的一致性,所以有時(shí)也被稱作內(nèi)部一致性系數(shù)。計(jì)算方法:皮爾遜積差相關(guān)校正公式:斯皮爾曼-布朗公式rxx=2rhh/(1+rhh)13斯-布公式只有在兩半測(cè)驗(yàn)分?jǐn)?shù)的方差相等時(shí)才能使用,否則,應(yīng)選擇下面兩個(gè)等價(jià)的公式之一:弗郎那根(Flanagan)公式:rxx=2[1-(Sa2+Sb2)/Sx2],
Sa2
,Sb2
,Sx2
分別為分半測(cè)驗(yàn)的方差和總分的方差盧侖(Rulon)公式rxx=1-Sd2/Sx2
,
Sd2
是兩分半測(cè)驗(yàn)之差的方差14應(yīng)用前提及范圍分半信度通常是在只能施測(cè)一次或沒有復(fù)本的情況下使用。試卷存在任選題或試卷為速度測(cè)驗(yàn)時(shí),不宜采用分半法。15常見的分半方法是按測(cè)題序號(hào)奇偶分半:測(cè)驗(yàn)題目按某種順序(如難度)排列;如果是隨機(jī)排列的題目,則必須是所有題目是平等的(要么難度相等,要么性質(zhì)一致,是測(cè)同一個(gè)心理特質(zhì)的);如果測(cè)驗(yàn)有多個(gè)分量表,應(yīng)在分量表內(nèi)部排好順序,再把各分量表的兩半組合起來求相關(guān)。16SPSS計(jì)算第一種算法題目排序,分半求積差相關(guān)
進(jìn)行斯-布公式校正第二章算法直接求分半系數(shù)17內(nèi)部一致性信度(2)四、同質(zhì)性信度含義同質(zhì)性信度(homogeneityreliability)也叫內(nèi)部一致性系數(shù),它是指測(cè)驗(yàn)內(nèi)部所有題目間的一致性程度。同質(zhì)性信度是指一個(gè)測(cè)驗(yàn)所測(cè)內(nèi)容或特質(zhì)的相同程度。18題目間的一致性含有兩層意思:其一是指所有題目都測(cè)的是同一種心理特質(zhì),其二是指所有題目得分之間都具有較高的正相關(guān)。值得注意的是,一些表面上看起來是測(cè)量同一種心理特質(zhì)的題目,如果其題目間不具有較高的正相關(guān),則不能認(rèn)為它們具有同質(zhì)性。19計(jì)算及適用范圍rxx=Krij/[1+(K-1)rij],其中K為一個(gè)測(cè)驗(yàn)的題目個(gè)數(shù),rij
為項(xiàng)目間相關(guān)系數(shù)的平均數(shù)(1)KR20公式:
rxx=[K/(K-1)][1-(Σpiqi)/Sx2]pi為答對(duì)第i題的人數(shù)的比例;qi為答錯(cuò)第i題的人數(shù)的比例。K為題目數(shù),Sx2為測(cè)驗(yàn)總分的變異。僅適用于(0,1)記分的測(cè)驗(yàn)。(2)KR21公式:
rxx=[K/(K-1)][1-(Kpq)/Sx2]只有當(dāng)所有題目的難度接近時(shí)才適用20(3)克龍巴赫α系數(shù):
α=[K/(K-1)][1-(ΣSi2)/Sx2]克倫巴赫系數(shù)可以處理任何測(cè)驗(yàn)的內(nèi)部一致性系數(shù)的計(jì)算問題。實(shí)際上,K-R
20和K-R
21只是α系數(shù)的特例。α系數(shù)是所有可能的分半信度的平均值。α是測(cè)量信度的下界的一個(gè)估計(jì)值。即α值大,必有測(cè)量信度高,但α值小時(shí),卻不能斷定測(cè)量信度不高。21計(jì)算步驟:按一定要求抽取n個(gè)被試的試卷,計(jì)算幾個(gè)人測(cè)驗(yàn)總分的方差這幾個(gè)人在每一個(gè)題上都會(huì)有一個(gè)得分,分別求出這幾個(gè)人在每道題上得分的方差。代入公式,最后求出α。22SPSS計(jì)算Analyze-Scale-ReliabilityAnalysis單擊“Statistics”出現(xiàn)reliabilityAnalysis:Statistics在Descriptivesfor方框中選取“item”、“scale”、“scaleifitemdeleted”在“inter-item”,單擊“correlations”,單擊“continue”按鈕回到“reliabilityAnalysis”對(duì)話框,單擊“ok”按鈕。23當(dāng)研究者采用試題的標(biāo)準(zhǔn)分?jǐn)?shù)總和作為量表分?jǐn)?shù)時(shí),此情況應(yīng)該選用標(biāo)準(zhǔn)化α系數(shù);當(dāng)研究者采用試題的標(biāo)準(zhǔn)分?jǐn)?shù)總和作為量表分?jǐn)?shù)時(shí),則不選用標(biāo)準(zhǔn)化α系數(shù)24(4)荷伊特信度測(cè)試分?jǐn)?shù)的總變異可分解為被試間變異、項(xiàng)目間變異和人與試題交互作用三部分。荷伊特認(rèn)為可用MS人作為被試方差估計(jì)值,用MS人×題作為誤差方差估計(jì)值。Rxx=1-MS人×題/MS人一般用于預(yù)測(cè)的測(cè)驗(yàn)或?qū)W績(jī)測(cè)驗(yàn)可不考慮同質(zhì)性。而驗(yàn)證理論構(gòu)想時(shí)必須考慮同質(zhì)性。因此,同質(zhì)性不但與信度有關(guān),還與效度有關(guān)。25五、評(píng)分者信度含義評(píng)分者信度(scorerreliability)是指多個(gè)評(píng)分者給同一批人的答卷進(jìn)行評(píng)分的一致性程度。
計(jì)算2人時(shí):相關(guān)系數(shù)多人時(shí):肯德爾和諧系數(shù)W=12[ΣRi2-(ΣRi)2/N]/[K2(N3-N)](K=3~20;N=3~7時(shí),查W表檢驗(yàn))
K是評(píng)分者人數(shù),N是被評(píng)的對(duì)象數(shù),RI為第i個(gè)被試被評(píng)的水平等級(jí)之和26將數(shù)據(jù)導(dǎo)入到SPSS中,點(diǎn)擊:analyse--nonparametricstests--Krelatedsamples把所有變量選中(所有作品的列)再選中Kendall'sW,Ok結(jié)果出來了,主要看最下面一個(gè)表的數(shù)據(jù),一個(gè)是Kendall'sWa,這個(gè)數(shù)字應(yīng)該在0.7以上,另一個(gè)是Asymp,這個(gè)數(shù)字應(yīng)該小于0.05,如果結(jié)果不是符合這兩個(gè)規(guī)則的話,一致辭性檢驗(yàn)不通過,成績(jī)要重新打分。27重測(cè)信度在兩個(gè)時(shí)間點(diǎn)上對(duì)同一群人實(shí)施測(cè)驗(yàn)皮爾遜積差相關(guān)復(fù)本信度對(duì)同一群人實(shí)施一個(gè)測(cè)驗(yàn)的兩個(gè)版本皮爾遜積差相關(guān)內(nèi)部一致性(分半)一次性施測(cè),然后分為兩半計(jì)分皮爾遜積差相關(guān),用斯皮爾曼-布朗公式校正內(nèi)部一致性(同質(zhì)性)一次施測(cè),然后比較所有可能的分半法а系數(shù)或KR-20評(píng)判間信度一次施測(cè),由兩個(gè)評(píng)分者或兩種方法評(píng)分皮爾遜積差相關(guān)評(píng)判間信度一次施測(cè),由多個(gè)評(píng)分者或兩種方法評(píng)分肯德爾和諧系數(shù)28評(píng)判間一致性系數(shù)給出一個(gè)評(píng)分說明,讓兩個(gè)或更多人來打分,分?jǐn)?shù)是順序或者稱名(等級(jí)或者是/否)公式Cohen‘skappa參考《心理測(cè)量》駱方孫曉敏譯中國輕工業(yè)出版社評(píng)分者內(nèi)部一致性系數(shù)計(jì)算一個(gè)評(píng)分者在給不同測(cè)驗(yàn)打分時(shí)分?jǐn)?shù)的一致性α系數(shù)或KR-2029各種信度系數(shù)相應(yīng)誤差變異的來源信度誤差變異來源重測(cè)信度時(shí)間取樣復(fù)本信度(連續(xù)施測(cè))內(nèi)容取樣復(fù)本信度(間隔施測(cè))時(shí)間與內(nèi)容取樣分半信度內(nèi)容取樣同質(zhì)性信度內(nèi)容取樣和內(nèi)容的異質(zhì)性評(píng)分者信度評(píng)分者間的差異30幾種心理測(cè)驗(yàn)的信度系數(shù)測(cè)驗(yàn)類型低信度中信度高信度成套成就測(cè)驗(yàn)0.660.920.98學(xué)術(shù)能力測(cè)驗(yàn)0.560.900.97成套傾向性測(cè)驗(yàn)0.260.880.96客觀人格測(cè)驗(yàn)0.460.850.97興趣測(cè)驗(yàn)0.420.840.93態(tài)度量表0.470.790.9831第三節(jié)提高測(cè)量信度的方法影響測(cè)量信度的主要因素被試方面被試團(tuán)體同質(zhì)性越高(個(gè)體差異越?。?,所得相關(guān)系數(shù)(信度)就越低。被試團(tuán)體異質(zhì)性越高(個(gè)體差異越大),所得相關(guān)系數(shù)(信度)就越高。主試方面
指導(dǎo)語、態(tài)度、期望等施測(cè)情境32四)測(cè)量工具測(cè)驗(yàn)長(zhǎng)度:測(cè)驗(yàn)越長(zhǎng),信度越高。測(cè)驗(yàn)難度:過難或過易都會(huì)使個(gè)體間得分差異減小,降低信度。顯然只有當(dāng)測(cè)驗(yàn)難度水平可以使測(cè)驗(yàn)分?jǐn)?shù)的分布范圍最大時(shí),測(cè)驗(yàn)的信度才會(huì)最高。通常這個(gè)難度水平為0.50。
測(cè)驗(yàn)內(nèi)容:試題取樣不當(dāng),內(nèi)部一致性低,題意模糊,信度則低。(五)兩次施測(cè)的間隔時(shí)間間隔時(shí)間越短,信度越高;間隔時(shí)間越長(zhǎng),信度越低。33斯皮爾曼-布郎公式
公式中,K為改變后長(zhǎng)度與原長(zhǎng)度之比
rxx為原測(cè)驗(yàn)的信度
rkk為測(cè)驗(yàn)長(zhǎng)度是原來K倍時(shí)的信度估計(jì)
34例:某一測(cè)驗(yàn)有10個(gè)項(xiàng)目,信度是0.60,問測(cè)驗(yàn)應(yīng)增加到多少個(gè)項(xiàng)目,才能使信度達(dá)到0.90?35解:即,應(yīng)擴(kuò)大為原來的6倍,才能滿足要求。調(diào)整后的測(cè)驗(yàn)長(zhǎng)度應(yīng)是60個(gè)項(xiàng)目。36提高測(cè)量信度的常用方法適當(dāng)增加測(cè)驗(yàn)的長(zhǎng)度使測(cè)驗(yàn)中所有試題的難度接近正態(tài)分布,并控制在中等水平努力提高測(cè)驗(yàn)試題的區(qū)分度選取恰當(dāng)?shù)谋辉噲F(tuán)體,提高測(cè)驗(yàn)在各同質(zhì)性較強(qiáng)的亞團(tuán)體上的信度主試者嚴(yán)格執(zhí)行施測(cè)規(guī)程,評(píng)分者嚴(yán)格按照標(biāo)準(zhǔn)給分,施測(cè)場(chǎng)地按測(cè)驗(yàn)手冊(cè)的要求進(jìn)行布置,減少無關(guān)因素的干擾37洛德(Lord)提出學(xué)績(jī)測(cè)驗(yàn)難度題型難度五選一0.70四選一0.74三選一0.77是非題0.85簡(jiǎn)答題0.538幾點(diǎn)說明提高測(cè)量信度的方法還有很多。本章所討論的各種信度計(jì)算方法僅適用于常模參照性測(cè)驗(yàn)。目標(biāo)參照性測(cè)驗(yàn)的信度必須以測(cè)量的概化理論為基礎(chǔ)才能進(jìn)行很好的處理。信度的標(biāo)準(zhǔn)信度高低的標(biāo)準(zhǔn):標(biāo)準(zhǔn)化能力或?qū)W績(jī)測(cè)驗(yàn):>0.90;人格測(cè)驗(yàn):>0.80;教師自編學(xué)績(jī)測(cè)驗(yàn):>0.60測(cè)驗(yàn)解釋的標(biāo)準(zhǔn):一般來說,當(dāng)信度<0.70,測(cè)驗(yàn)不能用于對(duì)個(gè)人作出評(píng)價(jià)與預(yù)測(cè),而且不能作團(tuán)體間比較;當(dāng)0.70≤信度<0.85時(shí),可用于團(tuán)體比較;當(dāng)信度≥0.85時(shí),才能用來鑒別或預(yù)測(cè)個(gè)人成績(jī)。39速度測(cè)驗(yàn)的信度對(duì)于速度測(cè)驗(yàn),不存在評(píng)分者信度,也無法計(jì)算同質(zhì)性信度,而重測(cè)信度和復(fù)本信度均可按傳統(tǒng)的方法求得,只有分半信度不能按傳統(tǒng)方法估計(jì)要估計(jì)速度測(cè)驗(yàn)的分半信度,不能按題目的奇偶項(xiàng)來劃分測(cè)驗(yàn),而應(yīng)按測(cè)驗(yàn)時(shí)間劃分相等的兩部分,再求出兩部分測(cè)驗(yàn)的相關(guān),才是分半信度。將測(cè)驗(yàn)分成兩部分,然后以總測(cè)驗(yàn)的一半時(shí)間分別進(jìn)行施測(cè),計(jì)算兩部分得分的相關(guān)系數(shù)。整個(gè)時(shí)限分為四部分,并求出在每個(gè)時(shí)限內(nèi)的得分。計(jì)算第一部分和第四部分的總分?jǐn)?shù);第二部分和第三部分的總分?jǐn)?shù),然后計(jì)算相關(guān)。40第五章測(cè)量效度41效度
效度(validity)是指一個(gè)測(cè)驗(yàn)或量表實(shí)際能測(cè)出其所要測(cè)的心理特質(zhì)的程度。在測(cè)驗(yàn)的眾多質(zhì)量指標(biāo)中,效度是一個(gè)最重要的指標(biāo)。測(cè)驗(yàn)測(cè)量的是什么東西?或者說,測(cè)驗(yàn)測(cè)到了它要測(cè)的東西嗎?測(cè)驗(yàn)對(duì)它所測(cè)量的東西測(cè)量到什么程度?42效度是一個(gè)相對(duì)的概念:每個(gè)測(cè)量工具都有自己的目的;內(nèi)隱特質(zhì)是通過外顯行為間接測(cè)得的。效度是測(cè)量的隨機(jī)誤差和系統(tǒng)誤差的綜合反映。判斷一個(gè)測(cè)量是否有效要從多方面收集證據(jù)效度只有程度上的差異43
在測(cè)量理論中,效度被定義為:在一列測(cè)量中,與測(cè)量目的有關(guān)的真實(shí)變異數(shù)(由所要測(cè)量的變因引起的有效變異)與總變異數(shù)(實(shí)得變異數(shù))的比率。即:公式中,rxy表示測(cè)量的效度系數(shù);SV2表示有效變異數(shù),SX2
表示總變異數(shù)44效度與信度的關(guān)系信度高是效度高的必要而非充分的條件測(cè)驗(yàn)的效度受它的信度制約
信度高,效度未必高,信度低,效度必然低;效度高,信度必然高,效度低,信度未必低。45第二節(jié)效度的估計(jì)測(cè)量效度是就測(cè)量結(jié)果達(dá)到測(cè)量目的的程度而言的,所以測(cè)量效度的估計(jì)在很大程度上取決于人們對(duì)測(cè)量目的的解釋。常見的解釋角度主要有三種:測(cè)驗(yàn)內(nèi)容——內(nèi)容效度理論結(jié)構(gòu)——構(gòu)想效度工作實(shí)效——實(shí)證效度46高中化學(xué)標(biāo)準(zhǔn)測(cè)驗(yàn)雙向細(xì)目表識(shí)記了解應(yīng)用分析綜合評(píng)價(jià)合計(jì)第一章8210第二章10621028第三章3624722第四章291265640合計(jì)525281422610047內(nèi)容效度1.含義及應(yīng)用范圍內(nèi)容效度(contentvalidity)是指測(cè)驗(yàn)題目對(duì)有關(guān)內(nèi)容或行為取樣的適當(dāng)程度,即一個(gè)測(cè)驗(yàn)實(shí)際測(cè)到的內(nèi)容與所要測(cè)量的內(nèi)容之間的吻合程度。因此,一個(gè)測(cè)驗(yàn)要有內(nèi)容效度必須具備兩個(gè)條件:(1)要有定義完好的內(nèi)容范圍(2)測(cè)驗(yàn)題目應(yīng)是所界定的內(nèi)容范圍的代表性取樣。48內(nèi)容效度主要應(yīng)用于成就測(cè)驗(yàn)。因?yàn)槌删蜏y(cè)驗(yàn)主要是測(cè)量被試掌握某種技能或?qū)W習(xí)某門課程所達(dá)到的程度。在這種測(cè)驗(yàn)中,題目取樣的代表性問題是內(nèi)容效度的主要考察方面。
編制雙向細(xì)目表就是為了提高內(nèi)容效度。49內(nèi)容效度也適合于某些用于選拔和分類的職業(yè)測(cè)驗(yàn)。這種測(cè)驗(yàn)所要測(cè)的內(nèi)容就是實(shí)際工作中所需的知識(shí)和技能,編制這種測(cè)驗(yàn)應(yīng)首先對(duì)實(shí)際工作做較細(xì)的分析,否則,題目取樣的代表性就難以令人滿意。50內(nèi)容效度不適合用于能力傾向測(cè)驗(yàn)和人格測(cè)驗(yàn)。此外,在使用內(nèi)容效度時(shí),要避免與表面效度(surfacevalidity)相混淆。表面效度是外行人對(duì)某個(gè)測(cè)驗(yàn)從表面上看好像是測(cè)某種心理特質(zhì)的一種現(xiàn)象。512.內(nèi)容效度的確定方法(1)邏輯分析法:專家判斷根據(jù)自己的知識(shí)經(jīng)驗(yàn)對(duì)量表的有效性(邏輯性)作出判斷,也稱邏輯效度。為使內(nèi)容效度的判斷過程更客觀,一般采用下列步驟:①確定測(cè)驗(yàn)內(nèi)容的總體范圍;②編制雙向細(xì)目表;③編制評(píng)定量表,從測(cè)驗(yàn)內(nèi)容所測(cè)的技能、題目對(duì)所定義的范圍的覆蓋率、各種題目數(shù)量和分?jǐn)?shù)的比例以及題目形式的適當(dāng)性等方面,對(duì)測(cè)驗(yàn)作出總的評(píng)價(jià)。52(2)統(tǒng)計(jì)方法:用兩個(gè)測(cè)驗(yàn)復(fù)本來測(cè)同一批被試,若相關(guān)高,則內(nèi)容效度可能高,但若相關(guān)低,則說明必有一個(gè)測(cè)驗(yàn)缺乏內(nèi)容效度。
(3)再測(cè)法:前測(cè)→教學(xué)→后測(cè)如果后測(cè)成績(jī)優(yōu)于前測(cè)成績(jī),說明該測(cè)驗(yàn)具有一定的內(nèi)容效度。53內(nèi)容效度的優(yōu)缺點(diǎn)內(nèi)容效度既具有一定的優(yōu)點(diǎn),也有一定的局限。其主要缺點(diǎn)是缺乏可靠的數(shù)量指標(biāo),因而妨礙了各測(cè)驗(yàn)間的相互比較。54結(jié)構(gòu)效度含義、特點(diǎn)與應(yīng)用范圍結(jié)構(gòu)效度(structurevalidity)是指一個(gè)測(cè)驗(yàn)實(shí)際測(cè)到所要測(cè)量的理論結(jié)構(gòu)或特質(zhì)的程度,或者說測(cè)驗(yàn)分?jǐn)?shù)能夠說明心理學(xué)理論的某種結(jié)構(gòu)或特質(zhì)的程度。
特點(diǎn):構(gòu)想效度的大小首先取決于事先假定的心理特質(zhì)理論。當(dāng)實(shí)際測(cè)量的資料無法證實(shí)我們的理論假設(shè)時(shí),并不一定就表明該測(cè)驗(yàn)構(gòu)想效度不高。不可能有單一的數(shù)量指標(biāo)來描述構(gòu)想效度。構(gòu)想效度主要用于智力測(cè)驗(yàn)、人格測(cè)驗(yàn)等。55結(jié)構(gòu)效度的確定方法(1)提出理論框架;(2)依據(jù)理論框架推演出有關(guān)測(cè)驗(yàn)成績(jī)的假設(shè);(3)用邏輯或?qū)嵶C的方法來證明假設(shè)。56確定構(gòu)想效度的基本方法(1)測(cè)驗(yàn)內(nèi)部尋找證據(jù)法分析測(cè)驗(yàn)的內(nèi)容效度:若內(nèi)容效度高,說明其結(jié)構(gòu)效度也高;分析被試對(duì)題目反應(yīng)的特點(diǎn):有無社會(huì)稱許性的題目,如“當(dāng)事情不順我意時(shí),我時(shí)常動(dòng)怒。”對(duì)該題的回答,也許反映不了要測(cè)的性格。計(jì)算測(cè)驗(yàn)的同質(zhì)性信度:分半信度、α系數(shù)、KR20、KR2157(2)測(cè)驗(yàn)之間尋找證據(jù)法相容效度:新老測(cè)驗(yàn)之間的相關(guān)(兩測(cè)驗(yàn)測(cè)的是同一心理特質(zhì))。若相關(guān)高,則說明新測(cè)驗(yàn)可能有較高的效度。區(qū)分效度:新老測(cè)驗(yàn)之間的相關(guān)(兩測(cè)驗(yàn)測(cè)的不是同一心理特質(zhì)),若相關(guān)低,則說明新測(cè)驗(yàn)可能有較高的效度。58(3)考察測(cè)驗(yàn)的實(shí)證效度法根據(jù)效標(biāo)把被試分組,考察其得分差異。根據(jù)測(cè)驗(yàn)得分差異把被試分組,考察其所測(cè)特質(zhì)(行為表現(xiàn))的差異。成就測(cè)驗(yàn):分為高分組和低分組人格測(cè)驗(yàn):分為不同類型的效標(biāo)組59(4)多種特質(zhì)-多種方法矩陣法方法:1、2、3特質(zhì):A、B、C60A1B1C1A2B2C2A3B3C3A10.90B10.500.89C10.350.410.81A20.580.250.100.95B20.210.590.090.630.91C20.140.130.500.570.530.85A30.550.200.130.690.320.300.93B30.110.600.190.200.680.290.500.96C30.150.200.700.210.190.670.530.510.9261(5)驗(yàn)證性因素分析
(confirmatoryfactoranalysis)驗(yàn)證性因素分析是目前心理學(xué)研究中應(yīng)用的一種重要統(tǒng)計(jì)分析方法,是在研究的范圍內(nèi),對(duì)已有的理論結(jié)構(gòu)進(jìn)行驗(yàn)證性分析的方法。在研究中,這一方法可以幫助我們討論測(cè)驗(yàn)研究是否具有構(gòu)想效度。
62對(duì)構(gòu)想效度的評(píng)價(jià)總的來說,構(gòu)想效度促使研究者把著眼點(diǎn)放在提出假設(shè)、檢驗(yàn)假設(shè)上,使得測(cè)驗(yàn)成為理論研究的重要工具,而不再只是實(shí)際決策的輔助工具,從而使測(cè)驗(yàn)有了更廣闊的發(fā)展前景。63三、實(shí)證效度1.含義、種類及作用實(shí)證效度是指一個(gè)測(cè)驗(yàn)對(duì)處于特定情境中的個(gè)體的行為進(jìn)行估計(jì)的有效性。被估計(jì)的行為是檢驗(yàn)測(cè)驗(yàn)效度的標(biāo)準(zhǔn),簡(jiǎn)稱效標(biāo)。所以,實(shí)證效度又稱效標(biāo)關(guān)聯(lián)效度(criterion-relatedvalidity)。同時(shí)效度:測(cè)驗(yàn)分?jǐn)?shù)與效標(biāo)資料是同時(shí)收集的。預(yù)測(cè)效度:先獲得測(cè)驗(yàn)分?jǐn)?shù),隔一段時(shí)間后,再收集效標(biāo)資料。64例:某大學(xué)研究生入學(xué)考試要求達(dá)到一定的分?jǐn)?shù)線,但偶爾也會(huì)錄取一名沒有達(dá)到分?jǐn)?shù)線的學(xué)生,但要求這名學(xué)生在獲得學(xué)位之前必須達(dá)到研究生入學(xué)的最低分?jǐn)?shù)線。你怎樣看這個(gè)問題?652.效標(biāo)(1)效標(biāo)與效標(biāo)測(cè)量效標(biāo)(criterion)就是衡量一個(gè)測(cè)驗(yàn)是否有效的外在標(biāo)準(zhǔn),獨(dú)立于測(cè)驗(yàn)并可以從實(shí)踐中直接獲得我們所感興趣的行為。
常用的效標(biāo):學(xué)業(yè)成就、臨床診斷、實(shí)際工作表現(xiàn)、特殊訓(xùn)練成績(jī)、不同團(tuán)體的總體表現(xiàn)、先前有效的測(cè)驗(yàn)、等級(jí)評(píng)定。
觀念效標(biāo):理論定義,如“大學(xué)的成功”效標(biāo)測(cè)量:操作定義,如“大學(xué)成績(jī)”
66(2)效標(biāo)的特性a.多樣性:一個(gè)測(cè)驗(yàn)可能有不同的觀念效標(biāo),同一個(gè)觀念效標(biāo)又可能有不同的效標(biāo)測(cè)量。b.復(fù)雜性:幾乎每一種效標(biāo)行為都由多種特質(zhì)構(gòu)成,包含復(fù)雜的成分。c.時(shí)間性:近期效標(biāo)與最后效標(biāo)67(3)效標(biāo)測(cè)量的條件a.有效性:效標(biāo)測(cè)量能真正反映觀念效標(biāo)。b.可靠性:有較高的信度c.客觀性:效標(biāo)測(cè)量必須能真正反映觀念效標(biāo),防止效標(biāo)污染。
效標(biāo)污染(criterioncontamination)是指評(píng)定者知道被試的測(cè)驗(yàn)分?jǐn)?shù),因而影響到對(duì)效標(biāo)的客觀評(píng)定。d.實(shí)用性:經(jīng)濟(jì)實(shí)用68確定效標(biāo)效度的基本步驟明確觀念效標(biāo)確定效標(biāo)測(cè)量考察測(cè)驗(yàn)分?jǐn)?shù)與效標(biāo)測(cè)量的關(guān)系69(1)相關(guān)法測(cè)驗(yàn)分?jǐn)?shù)與效標(biāo)測(cè)量之間的相關(guān)系數(shù)。
(2)區(qū)分法測(cè)驗(yàn)→工作→效標(biāo)測(cè)量(工作成績(jī))按工作成績(jī)分高低兩組,如工作成績(jī)高,測(cè)驗(yàn)得分也高;工作成績(jī)低,測(cè)驗(yàn)得分也低,說明該測(cè)驗(yàn)是有一定效度的70(3)命中率當(dāng)用測(cè)驗(yàn)作取舍決策時(shí),決策的正命中率和總命中率是測(cè)驗(yàn)有效性的較好指標(biāo)??偯新适侵父鶕?jù)測(cè)驗(yàn)選出的人當(dāng)中工作合格的人數(shù),以及根據(jù)測(cè)驗(yàn)淘汰的人當(dāng)中工作不合格的人數(shù)之和與總?cè)藬?shù)之比。若總命中率高,則說明測(cè)驗(yàn)的效度高。正命中率是指用測(cè)驗(yàn)選出的人中合格者所占的比例。這個(gè)比例越高,測(cè)驗(yàn)越有效。71在總命中率和正命中率之間,究竟采用哪一種指標(biāo)要根據(jù)測(cè)驗(yàn)?zāi)康膩矶?。a.當(dāng)測(cè)驗(yàn)用于提高工作或?qū)W習(xí)效率時(shí),應(yīng)重視正命中率;b.當(dāng)強(qiáng)調(diào)維護(hù)社會(huì)公平時(shí),則應(yīng)重視總命中率。
72命中表效標(biāo)成績(jī)失敗(-)成功(+)測(cè)驗(yàn)預(yù)測(cè)成功(+)A(失誤)B(命中)失?。?)C(命中)D(失誤)73總命中率正命中率74效標(biāo)成績(jī)失敗(-)成功(+)測(cè)驗(yàn)預(yù)測(cè)錄取75A(失誤15)B(命中60)不錄取175C(命中152)D(失誤23)命中率計(jì)算實(shí)例75一、影響測(cè)量效度的因素1.測(cè)驗(yàn)本身的因素(1)測(cè)驗(yàn)長(zhǎng)度
測(cè)驗(yàn)長(zhǎng)度與效度的關(guān)系:
r(Kx)y=Krxy/√K(1-rxx+Krxx)(2)測(cè)題中所用詞匯和句型不能過于困難(3)試題的意思應(yīng)該清楚(4)所編制的測(cè)題應(yīng)該適合所測(cè)量的學(xué)習(xí)結(jié)果第三節(jié)提高測(cè)量效度的方法76(5)測(cè)題中不能提供額外線索(6)測(cè)題的編制要合理(7)選擇題的正確答案不能有明顯的組型(8)測(cè)題的難度要適當(dāng)常模參照測(cè)驗(yàn)的難度在0.5標(biāo)準(zhǔn)參照測(cè)驗(yàn)與教學(xué)目標(biāo)要求相一致2、測(cè)驗(yàn)的實(shí)施過程773.接受測(cè)驗(yàn)的被試常模團(tuán)體的同質(zhì)性影響到對(duì)被試測(cè)驗(yàn)得分的解釋,進(jìn)而影響到測(cè)驗(yàn)的效度。樣本代表性樣本規(guī)模測(cè)驗(yàn)偏倚(testbias)是指用不適用于被試的標(biāo)準(zhǔn)來解釋被試的測(cè)驗(yàn)得分,因而造成解釋的偏差。
4.所選效標(biāo)的性質(zhì)測(cè)量行為與所選效標(biāo)的相似性越高,效度越高。測(cè)驗(yàn)分?jǐn)?shù)與效標(biāo)行為之間是否是線性關(guān)系,如果不是線性關(guān)系,求皮爾遜相關(guān)就會(huì)低估效度。效標(biāo)本身的測(cè)量越可靠,效度就可能越高。78常用效標(biāo)測(cè)驗(yàn)?zāi)康某S眯?biāo)學(xué)業(yè)成就1.學(xué)業(yè)成績(jī)2.標(biāo)準(zhǔn)化成就測(cè)驗(yàn)3.教育程度性向測(cè)量1.專業(yè)能力表現(xiàn)2.學(xué)業(yè)成績(jī)3.特殊訓(xùn)練表現(xiàn)4.標(biāo)準(zhǔn)化性向測(cè)驗(yàn)79測(cè)驗(yàn)?zāi)康某S眯?biāo)工作能力1.工作成績(jī)(質(zhì)與量)2.主管評(píng)分3.工作記錄4.訓(xùn)練表現(xiàn)教育或心理診斷1.性向及成就測(cè)驗(yàn)2.人格測(cè)驗(yàn)3.心理診斷類別4.特殊教育類別805.信度測(cè)驗(yàn)的信度是測(cè)量的隨機(jī)誤差的反映,而任何誤差的增加都會(huì)降低測(cè)量的效度,所以在考察測(cè)驗(yàn)的信度時(shí),一定要注意測(cè)驗(yàn)的信度。信度不高的測(cè)驗(yàn)不可能具有很高的測(cè)量效度。總之,所有與測(cè)量目的無關(guān)而又能帶來誤差的因素都會(huì)降低測(cè)驗(yàn)的效度。81二、提高測(cè)量效度的方法(1)精心編制測(cè)驗(yàn)量表,避免出現(xiàn)較大的系統(tǒng)誤差(2)妥善組織測(cè)驗(yàn),控制隨機(jī)誤差(3)創(chuàng)設(shè)標(biāo)準(zhǔn)的應(yīng)試情境,讓每個(gè)被試都能發(fā)揮正常的水平(4)選好正確的效標(biāo),定好恰當(dāng)?shù)男?biāo)測(cè)量,正確地使用有關(guān)公式82第六章測(cè)驗(yàn)的項(xiàng)目分析83項(xiàng)目分析包括定性分析和定量分析。定性分析包括考慮內(nèi)容效度、題目編寫的恰當(dāng)性和有效性等;定量分析主要是指題目難度和區(qū)分度的測(cè)量。
對(duì)項(xiàng)目進(jìn)行篩選和修訂,可以提高測(cè)驗(yàn)的信度和效度。84第一節(jié)測(cè)驗(yàn)的難度難度(difficulty)的意義難度,指項(xiàng)目的難易程度。在最高作為測(cè)驗(yàn)中,稱為“難度”,而在典型作為測(cè)驗(yàn)中,則指“通俗性”。兩者都是指在總體中,能夠正確或確切回答某項(xiàng)目的人數(shù)。85二、難度的計(jì)算(一)二分法記分項(xiàng)目的難度1.通過率
P=R/N
2.極端分組法(上下27%)
P=(PH+PL)/2
(二)非二分法記分項(xiàng)目的難度
P=X/XmaxX為所有被試在該項(xiàng)目上的平均得分,Xmax為該項(xiàng)目的滿分。86三、測(cè)驗(yàn)難度水平的確定效標(biāo)參照測(cè)驗(yàn)、掌握測(cè)驗(yàn):不考慮難度;選拔測(cè)驗(yàn):難度=錄取率;
對(duì)于選擇題來說,難度一般應(yīng)大于猜測(cè)概率;無論是速度測(cè)驗(yàn),還是難度測(cè)驗(yàn),一般都應(yīng)防止被試得滿分,因?yàn)闈M分的意義是不明確的。大體而言,難度為0.50時(shí)最理想,此時(shí)項(xiàng)目具有最大的鑒別力。但在實(shí)際操作中,讓所有項(xiàng)目難度都到達(dá)0.50困難很大,而且也不必要,一般只需使項(xiàng)目的平均難度接近0.50,而各個(gè)項(xiàng)目的難度在0.50±0.20之間變化。87四、難度的等距變換根據(jù)正態(tài)分布表,將難度P作為正態(tài)曲線下的面積,轉(zhuǎn)換成相應(yīng)的Z分?jǐn)?shù),這就是等距量表。(P75)88美國教育服務(wù)中心以Δ作為
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度倉儲(chǔ)物流倉單質(zhì)押信用擔(dān)保合作協(xié)議范本3篇
- 2025年度智能交通系統(tǒng)建設(shè)項(xiàng)目承包協(xié)議書模板4篇
- 2024版規(guī)范化技術(shù)服務(wù)協(xié)議樣本版
- 2025年度磚廠節(jié)能減排技術(shù)承包合同4篇
- 2025年度智能標(biāo)識(shí)技術(shù)采購合同范本匯編3篇
- 2025年棕櫚油項(xiàng)目可行性研究報(bào)告
- 《高頻波機(jī)培訓(xùn)教材》課件
- 2025年春季花卉展銷會(huì)鮮花采購合同3篇
- 2025年智能家居設(shè)備合作意向協(xié)議書3篇
- 2025年物業(yè)管理責(zé)任服務(wù)協(xié)議書(含垃圾分類)3篇
- 全國醫(yī)學(xué)博士英語統(tǒng)一考試詞匯表(10000詞全) - 打印版
- 最新《會(huì)計(jì)職業(yè)道德》課件
- 廣東省湛江市各縣區(qū)鄉(xiāng)鎮(zhèn)行政村村莊村名明細(xì)
- DB64∕T 1776-2021 水土保持生態(tài)監(jiān)測(cè)站點(diǎn)建設(shè)與監(jiān)測(cè)技術(shù)規(guī)范
- ?中醫(yī)院醫(yī)院等級(jí)復(fù)評(píng)實(shí)施方案
- 數(shù)學(xué)-九宮數(shù)獨(dú)100題(附答案)
- 理正深基坑之鋼板樁受力計(jì)算
- 學(xué)校年級(jí)組管理經(jīng)驗(yàn)
- 10KV高壓環(huán)網(wǎng)柜(交接)試驗(yàn)
- 未來水電工程建設(shè)抽水蓄能電站BIM項(xiàng)目解決方案
- 房屋出租家具電器清單
評(píng)論
0/150
提交評(píng)論