素質(zhì)測(cè)評(píng)的質(zhì)量分析

上傳人：1*** IP屬地：廣西上傳時(shí)間：2024-01-25 格式：PPT 頁(yè)數(shù)：54 大?。?33.50KB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩49頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

素質(zhì)測(cè)評(píng)的質(zhì)量分析一項(xiàng)測(cè)評(píng)是否可靠、可信？一項(xiàng)測(cè)評(píng)是否準(zhǔn)確、有用？一項(xiàng)測(cè)評(píng)是否公正、公平？一項(xiàng)測(cè)評(píng)是否經(jīng)濟(jì)、合理？第九章素質(zhì)測(cè)評(píng)的質(zhì)量分析教學(xué)內(nèi)容10-1測(cè)評(píng)的信度10-1-1信度及其影響因素10-1-2信度的評(píng)估方法10-2測(cè)評(píng)的效度10-2-1效度及其影響因素10-2-2效度的評(píng)估方法10-3工程分析10-3-1測(cè)評(píng)的難度分析10-3-2測(cè)評(píng)的鑒別度分析10-3-3測(cè)評(píng)的公平性分析10-3-4測(cè)評(píng)的經(jīng)濟(jì)效益分析10-1測(cè)評(píng)的信度信度是標(biāo)準(zhǔn)化素質(zhì)測(cè)評(píng)的根本要求之一，如果測(cè)評(píng)工具的信度不理想，測(cè)量結(jié)果就無(wú)法被認(rèn)為能代表應(yīng)試者的一致、穩(wěn)定和可靠的行為表現(xiàn)，就可能誤導(dǎo)對(duì)應(yīng)試者的評(píng)價(jià)。10-1-1信度及其影響因素如果我們用一個(gè)游標(biāo)卡尺來(lái)測(cè)量一個(gè)鋼管的外直徑，每次測(cè)量時(shí)都難免會(huì)有一定的誤差。首先，游標(biāo)卡尺作為一種測(cè)量工具是有一定精度限制的，也就是說(shuō)，測(cè)量工具本身存在誤差。當(dāng)然這種誤差是必然存在的，而且誤差是在一定范圍中有規(guī)律的變動(dòng)的，這種誤差在測(cè)量工作中被稱(chēng)之為系統(tǒng)誤差〔systematicerror〕。其次，我們每一次測(cè)量都可能出現(xiàn)操作上的差異，或者由于不可預(yù)見(jiàn)的外界因素的影響，產(chǎn)生測(cè)量誤差。這些誤差是很難控制的，而且無(wú)規(guī)律可循，有時(shí)大有時(shí)小，這種誤差被稱(chēng)為隨機(jī)誤差〔randomerror〕。前者在一定程度上可以控制，而后者很難控制，一個(gè)好的測(cè)量工具應(yīng)該不僅要有盡可能高的精確度〔與系統(tǒng)誤差相關(guān)〕，還能夠把誤差控制在一個(gè)有規(guī)律的范圍以?xún)?nèi)，這樣才能夠得到穩(wěn)定可信的測(cè)量結(jié)果。信度實(shí)際上就是對(duì)隨機(jī)誤差的一種度量。1、信度的概念信度〔reliability〕是指測(cè)驗(yàn)結(jié)果的可靠性、穩(wěn)定性和一致性，即指測(cè)驗(yàn)結(jié)果是否反響了被試的穩(wěn)定的、一貫的真實(shí)特征。隨機(jī)誤差越大，信度就越低。反之，信度就越高。通常任何測(cè)驗(yàn)都存在某種程度的不一致性〔同一受試者在不同時(shí)間或在不同的測(cè)驗(yàn)條件下做同一測(cè)驗(yàn)〕因?yàn)檎`差的存在，我們永遠(yuǎn)不可能完全揭示人的心理特點(diǎn)，只能無(wú)限接近真實(shí)分?jǐn)?shù)。例如：所有測(cè)驗(yàn)都有誤差，心理測(cè)驗(yàn)分?jǐn)?shù)也不例外。如果一個(gè)人連續(xù)兩天接受同一測(cè)驗(yàn)，或者完成同一測(cè)驗(yàn)被認(rèn)為是等值的兩個(gè)版本，如果得分相同會(huì)讓人感到驚訝，如果分?jǐn)?shù)有相當(dāng)大的變化可能讓人吃驚，但是有一點(diǎn)可以肯定，這是由于偶然或隨機(jī)因素影響了每次測(cè)驗(yàn)的成績(jī)。然而，對(duì)于兒童，如果同一測(cè)驗(yàn)在半年或一年之后測(cè)第二遍，分?jǐn)?shù)有很大的差異是缺乏為奇的，因?yàn)樗麄兊某砷L(zhǎng)導(dǎo)致測(cè)驗(yàn)成績(jī)的變化非常自然。問(wèn)題將是確定有多少變化是由于成績(jī)的隨機(jī)變化引起的，又有多少可以歸因于個(gè)人在這段時(shí)間內(nèi)所發(fā)生的變化。測(cè)量結(jié)果的穩(wěn)定性：測(cè)驗(yàn)分?jǐn)?shù)一致性的程度〔不同時(shí)間、測(cè)驗(yàn)條件下所得分?jǐn)?shù)之間的一致性〕一個(gè)人獲得分?jǐn)?shù)與“真實(shí)分?jǐn)?shù)〞之間的接近程度測(cè)量結(jié)果的一致性是否到達(dá)實(shí)際應(yīng)用的程度影響穩(wěn)定性的原因：什么因素造成了這種差異〔誤差的來(lái)源〕這些效應(yīng)的相對(duì)作用如何〔分?jǐn)?shù)的實(shí)際含意〕在研究信度時(shí)，主要應(yīng)考慮兩方面的問(wèn)題：信度的計(jì)算：信度系數(shù)測(cè)驗(yàn)的結(jié)果：測(cè)驗(yàn)分?jǐn)?shù)〔觀察值〕=真實(shí)分?jǐn)?shù)〔要測(cè)量的特質(zhì)〕+測(cè)量誤差〔不一致〕或者：Xt=T∞+Xe信度的上下通常以相關(guān)系數(shù)表示，稱(chēng)為信度系數(shù)〔reliabilitycoefficient〕。信度系數(shù)一般是同一樣本所得的兩組資料的相關(guān)性，假設(shè)：誤差與真分?jǐn)?shù)相互獨(dú)立；測(cè)量誤差是隨機(jī)的，即誤差的平均值為0，這是信度理論的核心假設(shè)；不同測(cè)量產(chǎn)生的誤差是獨(dú)立的，因此有：測(cè)驗(yàn)分?jǐn)?shù)方差=真實(shí)分?jǐn)?shù)方差+誤差分?jǐn)?shù)方差X2=T2+e2信度系數(shù)：rxx=T2/X2=T2/〔T2+e2〕信度系數(shù)即是真實(shí)分?jǐn)?shù)方差〔變異數(shù)〕與測(cè)驗(yàn)分?jǐn)?shù)總方差〔變異數(shù)〕之比。2、信度的作用測(cè)驗(yàn)信度要能夠區(qū)分出：導(dǎo)致一致性的因素：個(gè)體穩(wěn)定的特性〔測(cè)量對(duì)象〕導(dǎo)致不一致性的因素：可能影響測(cè)驗(yàn)，但又與測(cè)驗(yàn)對(duì)象沒(méi)有關(guān)系的個(gè)體和環(huán)境的特性在素質(zhì)測(cè)評(píng)中，對(duì)信度系數(shù)進(jìn)行確定通常有以下作用：解釋真實(shí)分?jǐn)?shù)與實(shí)得分?jǐn)?shù)之間的相關(guān)說(shuō)明可以接受的信度水平解釋真實(shí)分?jǐn)?shù)與實(shí)得分?jǐn)?shù)之間的相關(guān)信度可以解釋為總的方差〔標(biāo)準(zhǔn)差的平方的縮略語(yǔ)〕中有多少比例是由真實(shí)分?jǐn)?shù)的方差決定的，即測(cè)量分?jǐn)?shù)的變化中有多少是真正反映了被測(cè)者分?jǐn)?shù)的變化。例如：當(dāng)rxy=0.100時(shí)，我們可以說(shuō)，實(shí)得分?jǐn)?shù)中有100%的方差是來(lái)自真實(shí)分?jǐn)?shù)的變化，僅有10%是來(lái)自測(cè)量的誤差。信度系數(shù)的分布是從的正數(shù)范圍，代表了從缺乏信度到完全可信的所有狀況。思考：如果rxy=1.00表示什么？rxy=0.00表示什么？答案：rxy=1.00表示完全沒(méi)有測(cè)量誤差，所有的變異〔即分?jǐn)?shù)的變化〕均來(lái)自真實(shí)分?jǐn)?shù)；rxy=0.00表示所有的變異和差異都反映的是測(cè)量誤差。說(shuō)明可以接受的信度水平信度的理想水平是1.00，但是實(shí)際上是達(dá)不到的。一般能力與成就測(cè)驗(yàn)的信度系數(shù)在0.100以上；人格、興趣等測(cè)驗(yàn)的信度通常在之間。一般來(lái)說(shuō)，當(dāng)rxx<0.70時(shí)，不能用測(cè)驗(yàn)對(duì)個(gè)人進(jìn)行評(píng)價(jià)，也不能在團(tuán)體間作比較；當(dāng)rxx>0.70時(shí)，可用于團(tuán)體間比較；當(dāng)rxx>0.85時(shí)，可用于鑒別個(gè)人。3、信度的影響因素受試者個(gè)體持久而泛化的特性：進(jìn)行測(cè)驗(yàn)的一般技能水平理解測(cè)驗(yàn)指示語(yǔ)的一般能力水平進(jìn)行類(lèi)似測(cè)驗(yàn)的一般的人格特質(zhì)受試者個(gè)體持久而特殊的特性：進(jìn)行某項(xiàng)測(cè)驗(yàn)〔或其形式〕需要的特殊的技能、能力和特質(zhì)；以及穩(wěn)定的反映定勢(shì)；對(duì)某個(gè)測(cè)驗(yàn)工程內(nèi)容的熟悉程度受試者個(gè)體短時(shí)而泛化的特性：健康、疲勞、動(dòng)機(jī)、情緒狀態(tài)、測(cè)驗(yàn)自如性；溫度、光亮、通風(fēng)等測(cè)驗(yàn)外部條件受試者個(gè)體短時(shí)而特殊的特性對(duì)特殊測(cè)驗(yàn)的理解，測(cè)驗(yàn)所需要的特殊技巧；為做測(cè)驗(yàn)所進(jìn)行的練習(xí)；對(duì)測(cè)驗(yàn)工程內(nèi)容的注意、記憶等的飄忽不定。影響測(cè)驗(yàn)過(guò)程和解釋的外部因素系統(tǒng)改變測(cè)驗(yàn)條件；對(duì)測(cè)驗(yàn)的各種限制；干擾程度；指示語(yǔ)的清晰度；受試者在個(gè)性、性別、種族等與測(cè)驗(yàn)主試的交互作用；對(duì)測(cè)驗(yàn)結(jié)果的不一致或有偏差的評(píng)判。無(wú)法解釋的變化〔隨機(jī)因素〕猜測(cè)、運(yùn)氣，以及暫時(shí)的干擾10-1-2信度的評(píng)估方法針對(duì)不同的誤差來(lái)源，信度可以有不同確實(shí)定方法。信度系數(shù)類(lèi)型誤差來(lái)源重測(cè)信度時(shí)間取樣復(fù)本信度（連續(xù)施測(cè)）內(nèi)容取樣重測(cè)復(fù)本信度時(shí)間和內(nèi)容取樣分半信度內(nèi)容取樣同質(zhì)性信度內(nèi)容的異質(zhì)性評(píng)分者信度評(píng)分者間差異1、重測(cè)信度(test-retestreliability)又稱(chēng)為穩(wěn)定性系數(shù)，是采用重測(cè)法計(jì)算信度的方法，即用同一測(cè)驗(yàn)在不同時(shí)間對(duì)同一對(duì)象施測(cè)兩次，兩次測(cè)量分?jǐn)?shù)的相關(guān)系數(shù)即為重測(cè)系數(shù)。也即測(cè)評(píng)結(jié)果與以同樣的測(cè)評(píng)工具、測(cè)評(píng)方式與測(cè)評(píng)對(duì)象再次測(cè)評(píng)的結(jié)果間的差異程度。r=√N(yùn)∑xy-∑x?∑y[N∑x2-(∑x)2][N∑y2-(∑y)2]式中：N表示兩次測(cè)評(píng)結(jié)果數(shù)據(jù)配對(duì)總數(shù)；

x表示被分析的測(cè)評(píng)結(jié)果（分?jǐn)?shù)）；

y表示重復(fù)測(cè)評(píng)得到的測(cè)評(píng)結(jié)果（分?jǐn)?shù)）。r越接近1，那么說(shuō)明測(cè)評(píng)結(jié)果〔x〕越準(zhǔn)確可靠，否那么就說(shuō)明測(cè)評(píng)結(jié)果越不準(zhǔn)確、不可信。人事測(cè)量所測(cè)查的特質(zhì)中，有相當(dāng)多的內(nèi)容具有一定的穩(wěn)定性，如人格、能力傾向等，因此，對(duì)于這些內(nèi)容而言，重測(cè)信度對(duì)于衡量測(cè)量工具的質(zhì)量是很重要的指標(biāo)。例如：如果用一個(gè)智力測(cè)驗(yàn)測(cè)量某人的智力，第一天測(cè)量得到100分，表示智力中等；第二天測(cè)量卻變成了150分，這個(gè)分?jǐn)?shù)意味著這個(gè)人在一夜之間變成了天才，如果沒(méi)有特殊原因，這種事絕對(duì)是小概率事件，不太可能發(fā)生，可信度極低。不能用這個(gè)結(jié)果幫助決策。在日常生活中，你也許常常到市場(chǎng)上去買(mǎi)東西。如果你買(mǎi)了5斤瘦肉后覺(jué)得比上次少了點(diǎn)，沒(méi)有那么重，那么你可以自己再用秤稱(chēng)一下。如果也是5斤，那么你可能就會(huì)覺(jué)得確實(shí)有5斤。這是因?yàn)閮纱畏Q(chēng)得的結(jié)果完全一致，變異度為0。人的素質(zhì)測(cè)評(píng)沒(méi)有這么簡(jiǎn)單，因?yàn)樗刭|(zhì)本身又是無(wú)法精確定義，因而我們常常把對(duì)個(gè)體測(cè)評(píng)結(jié)果的準(zhǔn)確性檢驗(yàn)，置于群體測(cè)評(píng)結(jié)果的相互關(guān)系之中，轉(zhuǎn)化為兩次位置關(guān)系的一致性分析。當(dāng)同一對(duì)象的測(cè)評(píng)結(jié)果以同樣的測(cè)評(píng)方式再次獲得后，其順序位置關(guān)系變異很小時(shí)，那么說(shuō)明測(cè)評(píng)結(jié)果比較準(zhǔn)確。例如：在技能測(cè)評(píng)中A分?jǐn)?shù)88，在全體被測(cè)者中排名第一。這是否可靠可信？我們可以再測(cè)一次，結(jié)果A分?jǐn)?shù)105，還是排名第一，而且其他被測(cè)的位置順序變化很小。這時(shí)我們可以說(shuō)第一次的技能測(cè)評(píng)結(jié)果是可靠的〔信度高〕。重測(cè)信度的考察對(duì)象重測(cè)信度所考察的誤差來(lái)源是時(shí)間的變化所帶來(lái)的隨機(jī)影響〔氣候、噪音的干擾、疾病、疲勞、情緒的影響等〕，根據(jù)重測(cè)相關(guān)系數(shù)的上下，可以得知測(cè)量結(jié)果在經(jīng)過(guò)一段時(shí)間之后的穩(wěn)定程度。重測(cè)信度表示測(cè)量能夠應(yīng)用于不同時(shí)間的程度，信度越高說(shuō)明測(cè)量結(jié)果受環(huán)境中日常的隨機(jī)因素影響越小，測(cè)量結(jié)果越穩(wěn)定、可靠。評(píng)估重測(cè)信度時(shí)，要注意重測(cè)間隔的時(shí)間，時(shí)間太短被試對(duì)測(cè)試題記憶猶新，必然會(huì)造成假性相關(guān)；時(shí)間太長(zhǎng)，測(cè)驗(yàn)結(jié)果又會(huì)受應(yīng)試者的身心特質(zhì)改變的影響，使相關(guān)系數(shù)降低。間隔時(shí)間的長(zhǎng)短必須根據(jù)測(cè)驗(yàn)的性質(zhì)和目的來(lái)確定。如果希望測(cè)量結(jié)果能預(yù)測(cè)較長(zhǎng)時(shí)間的變化，那么重測(cè)間隔時(shí)間應(yīng)該長(zhǎng)一些。例如人格測(cè)驗(yàn)一般間隔2-6個(gè)月比較適宜。重測(cè)信度的評(píng)估1.在進(jìn)行重測(cè)信度評(píng)估時(shí)要注意：〔1〕重測(cè)信度一般只反映由隨機(jī)因素導(dǎo)致的變化，而不反映被試行為的長(zhǎng)久變化；〔2〕不同行為受隨機(jī)誤差的影響不同。2.重測(cè)信度的假設(shè)前提〔1〕每一被試對(duì)前一次測(cè)驗(yàn)的遺忘程度相同；〔2〕每一被試在重測(cè)的間隔期內(nèi)沒(méi)有學(xué)習(xí)與測(cè)驗(yàn)有關(guān)的其他材料。3.注意：解決問(wèn)題型的測(cè)驗(yàn)不適合采用重測(cè)的方式來(lái)考察其信度；而感覺(jué)-運(yùn)動(dòng)型測(cè)驗(yàn)或人格測(cè)驗(yàn)較適合采用重測(cè)的方式來(lái)考察其信度。例如被測(cè)者智力的開(kāi)展與能力的提高，不是重測(cè)信度考察的因素。這些因素導(dǎo)致的重測(cè)相關(guān)系數(shù)的降低，不能說(shuō)明測(cè)驗(yàn)的重測(cè)信度低。例如手指敏捷性就比言語(yǔ)理解力更容易受疲勞、環(huán)境等因素的影響。因此必須分析測(cè)量目的和了解所預(yù)測(cè)的行為。當(dāng)測(cè)量的行為或特質(zhì)較為穩(wěn)定時(shí)，重測(cè)信度的解釋才有效。應(yīng)用重測(cè)信度應(yīng)注意：重測(cè)信度一般只反映由隨機(jī)因素導(dǎo)致的變化，而不反映被測(cè)者行為的長(zhǎng)久變化。例如被測(cè)者智力的開(kāi)展與能力的提高，不是重測(cè)信度考察的因素。這些因素導(dǎo)致的重測(cè)相關(guān)系數(shù)的降低，不能說(shuō)明測(cè)驗(yàn)的重測(cè)信度低。不同行為受隨機(jī)誤差影響不同。例如手指敏捷性就比言語(yǔ)理解力更容易受疲勞、環(huán)境等因素的影響。因此必須分析測(cè)量目的和了解所預(yù)測(cè)的行為。當(dāng)測(cè)量的行為或特質(zhì)較為穩(wěn)定時(shí)，重測(cè)信度的解釋才有效。只有不大容易受重復(fù)影響的測(cè)驗(yàn)，如感覺(jué)-運(yùn)動(dòng)測(cè)驗(yàn)或人格測(cè)驗(yàn)，才比較適合用重測(cè)法計(jì)算信度系數(shù)。因?yàn)楸粶y(cè)者一旦知道答案就不容易忘記，從而造成假性相關(guān)。2、復(fù)本信度(alternative-formreliability)又稱(chēng)為等值性系數(shù)，它是以?xún)蓚€(gè)測(cè)驗(yàn)復(fù)本〔功能等值但題目?jī)?nèi)容不同〕來(lái)測(cè)量同一對(duì)象，然后求得被測(cè)者在這兩個(gè)測(cè)驗(yàn)上得分的相關(guān)系數(shù)。復(fù)本信度反映了兩個(gè)測(cè)驗(yàn)復(fù)本在內(nèi)容上的等值性程度。也即測(cè)評(píng)結(jié)果相對(duì)另一個(gè)非常相同的測(cè)評(píng)的結(jié)果的變異程度。r=6∑D2式中：N表示測(cè)評(píng)結(jié)果的總個(gè)數(shù)（被測(cè)人數(shù)）；

D表示對(duì)應(yīng)同一個(gè)被測(cè)兩次評(píng)定等級(jí)（名次）的差，一般以被檢驗(yàn)的測(cè)評(píng)結(jié)果為被減數(shù)。1-N（N2-1）復(fù)本信度考慮的是內(nèi)容取樣誤差的影響問(wèn)題，計(jì)算復(fù)本信度的主要目的在于考察兩個(gè)測(cè)驗(yàn)復(fù)本的題目取樣或內(nèi)容取樣是否等值。例如同樣是測(cè)量數(shù)學(xué)運(yùn)算能力的測(cè)驗(yàn)，如果一個(gè)測(cè)驗(yàn)復(fù)本側(cè)重于考核加減法的運(yùn)算，而另一個(gè)復(fù)本側(cè)重乘除法的運(yùn)算，兩者之間的相關(guān)必定不會(huì)抬高，即復(fù)本信度低，說(shuō)明必定有一項(xiàng)測(cè)驗(yàn)復(fù)本的取樣有問(wèn)題。優(yōu)點(diǎn)：能夠防止重測(cè)信度的一些問(wèn)題，如記憶效果、練習(xí)效應(yīng)等；適用于進(jìn)行長(zhǎng)期追蹤研究或調(diào)查某些干預(yù)變量對(duì)測(cè)驗(yàn)成績(jī)的影響；減少了輔導(dǎo)或作弊的可能性。缺點(diǎn)：如果測(cè)量的行為受練習(xí)的影響，復(fù)本信度只能減少而不能消除這種影響；有些測(cè)驗(yàn)的性質(zhì)會(huì)由于重復(fù)測(cè)量而發(fā)生改變，例如某些問(wèn)題解決型的測(cè)驗(yàn)，如果掌握了解題原那么就有可能產(chǎn)生遷移，尤其當(dāng)復(fù)本只是在題目具體內(nèi)容上有改變時(shí)，這種正遷移的作用會(huì)很強(qiáng)；有些測(cè)驗(yàn)很難找到復(fù)本。3、一致性信度ConsistencyReliability一致性信度是指所測(cè)素質(zhì)相同的各測(cè)評(píng)工程分?jǐn)?shù)間的一致性程度。同質(zhì)性是保證測(cè)評(píng)只測(cè)量同一特質(zhì)的必要條件。也就是說(shuō)，評(píng)估一組測(cè)驗(yàn)題目?jī)?nèi)部一致性程度，對(duì)于確定測(cè)驗(yàn)題目是否測(cè)量了同一事物很重要。如果同質(zhì)性差，那么表示測(cè)評(píng)混淆了不同的測(cè)評(píng)內(nèi)容，其結(jié)果就無(wú)從判斷究竟是否反映了被測(cè)者的某一特質(zhì)。如果被測(cè)者在第一個(gè)工程上比其他人分?jǐn)?shù)高，在第二個(gè)工程上又比其他人高，在第三個(gè)工程上也比其他人高……相反另一個(gè)人在第一個(gè)工程上比其他人分?jǐn)?shù)低，在第二個(gè)工程上又比其他人分?jǐn)?shù)低，在第三個(gè)工程上也比其他人分?jǐn)?shù)低……那么毫無(wú)疑問(wèn)，我們會(huì)認(rèn)為測(cè)評(píng)結(jié)果比較可靠。一致性信度的作用重測(cè)信度和復(fù)本信度分別注重考慮測(cè)量跨時(shí)間的一致性〔穩(wěn)定性〕和跨形式的一致性〔等值性〕，而內(nèi)部一致性信度用內(nèi)部一致性系數(shù)表示，主要反映的是測(cè)驗(yàn)內(nèi)部題目之間的關(guān)系，考察測(cè)驗(yàn)的各個(gè)題目是否測(cè)量了相同的內(nèi)容或特質(zhì)。同質(zhì)性的測(cè)驗(yàn)，其結(jié)果的解釋較為明確。例如：在一個(gè)同質(zhì)性的語(yǔ)言邏輯推理能力測(cè)驗(yàn)中，應(yīng)試者的得分可以反映其語(yǔ)言邏輯推理能力的上下；而如果一個(gè)測(cè)驗(yàn)既包含有測(cè)查邏輯推理能力的試題，又含有測(cè)查數(shù)量分析能力的試題，那么在應(yīng)試者得分低的情況下，就無(wú)法說(shuō)明被測(cè)者到底哪種能力缺乏。一致性信度應(yīng)用實(shí)例例如：在人格測(cè)評(píng)中，樂(lè)觀情緒特質(zhì)和外向特質(zhì)是兩個(gè)容易混淆的內(nèi)容，這就要求測(cè)評(píng)設(shè)計(jì)時(shí)能夠找到相應(yīng)的題目把二者區(qū)分開(kāi)來(lái)。再例如：在考察管理技能時(shí)，預(yù)測(cè)和決策、監(jiān)督和控制等都是不太容易區(qū)分的，對(duì)題目設(shè)計(jì)的要求就相當(dāng)高，否那么就會(huì)把不同技能混淆，導(dǎo)致結(jié)論錯(cuò)誤和用人失誤。在設(shè)計(jì)測(cè)評(píng)題目時(shí)，所有測(cè)評(píng)題目都要保證只測(cè)量一種特質(zhì)或內(nèi)容，如果需要在一個(gè)測(cè)評(píng)中測(cè)量不同內(nèi)容，就應(yīng)該將測(cè)評(píng)設(shè)計(jì)為幾個(gè)分測(cè)評(píng)進(jìn)行分別測(cè)評(píng)。例如16PF人格測(cè)評(píng)就包括16個(gè)分測(cè)評(píng)，每個(gè)分測(cè)評(píng)量表只對(duì)一種人格特質(zhì)進(jìn)行測(cè)評(píng)。一致性信度的計(jì)算方法分半信度——工程折半分析，是通過(guò)將測(cè)驗(yàn)分成兩半，計(jì)算這兩半測(cè)驗(yàn)之間的相關(guān)性而獲得的信度系數(shù)。通常的方法是在測(cè)驗(yàn)實(shí)施后將測(cè)驗(yàn)分為等值的兩半，并分別計(jì)算每位被測(cè)者在兩半測(cè)驗(yàn)上的得分，再求出這兩個(gè)分?jǐn)?shù)的相關(guān)系數(shù)。這個(gè)相關(guān)系數(shù)就代表了兩半側(cè)眼內(nèi)容取樣的一致性程度。同質(zhì)性信度——α系數(shù)分析，是指測(cè)驗(yàn)內(nèi)部的各題目在多大程度上考察了同一內(nèi)容，即所有測(cè)驗(yàn)題目測(cè)量的只是單一特質(zhì)或內(nèi)容，表現(xiàn)為所有測(cè)驗(yàn)題目得分的一致性。rt=2r1+r式中：r表示兩半項(xiàng)目分?jǐn)?shù)相關(guān)系數(shù)；

rt越大，則說(shuō)明測(cè)評(píng)結(jié)果越可靠。式中：n表示測(cè)評(píng)項(xiàng)目數(shù)；

st2表示測(cè)評(píng)結(jié)果的方差；

vi2表示第i個(gè)項(xiàng)目得分的方差。rt=nn-1St2-∑vi2St2·4、評(píng)分者信度〔ratersreliability〕在有些測(cè)量情形中，評(píng)分者的評(píng)判也是誤差的來(lái)源之一。例如投射測(cè)驗(yàn)、創(chuàng)造力測(cè)驗(yàn)、無(wú)領(lǐng)導(dǎo)小組討論、管理者情境模擬等，都依賴(lài)于評(píng)分者的判斷，這種判斷的主觀性往往造成不同評(píng)分者的評(píng)分很不一致，因此有必要考慮評(píng)分者信度。評(píng)分者信度是指不同評(píng)分者對(duì)同一對(duì)象進(jìn)行評(píng)定時(shí)的一致性。最簡(jiǎn)單的估計(jì)方法就是隨機(jī)抽取假設(shè)干份答卷，由兩個(gè)獨(dú)立的評(píng)分者打分，再求每份答卷兩個(gè)評(píng)判分?jǐn)?shù)的相關(guān)系數(shù)。評(píng)分者的評(píng)分越一致，評(píng)分者信度越高。〔等級(jí)相關(guān)〕式中：n表示測(cè)評(píng)者人數(shù)；

m表示測(cè)評(píng)項(xiàng)目個(gè)數(shù)；

Ri表示第i個(gè)項(xiàng)目上所有被測(cè)者等級(jí)之和或分?jǐn)?shù)之和（這里分?jǐn)?shù)只限正整數(shù)）112W=(∑Ri)2[∑Ri2-m]n2(m3-m)W越大，說(shuō)明測(cè)評(píng)結(jié)果越可靠。信度小結(jié)：各種信度評(píng)估的適用情景：重測(cè)信度評(píng)估側(cè)重考察測(cè)評(píng)跨時(shí)間的一致性和穩(wěn)定性；復(fù)本信度評(píng)估側(cè)重考察測(cè)評(píng)跨形式的一致性和等值性；內(nèi)部一致性信度評(píng)估主要反映的是一個(gè)測(cè)評(píng)內(nèi)部題目之間的關(guān)系，揭示測(cè)評(píng)的各個(gè)題目是否測(cè)量了相同的內(nèi)容或特質(zhì)。評(píng)分者信度評(píng)估主要是考察評(píng)分者的主觀誤差。思考題：與對(duì)某人品德測(cè)評(píng)分?jǐn)?shù)的可靠性進(jìn)行考察，隨機(jī)抽取其中10個(gè)被試的分?jǐn)?shù)，分別是：74、71、80、85、76、77、77、68、74、74，再次測(cè)評(píng)后10個(gè)被試的分?jǐn)?shù)分別是：82、75、81、810、82、810、88、84、80、87。請(qǐng)問(wèn)可以用什么方法評(píng)價(jià)測(cè)評(píng)的可靠性？如果一個(gè)部門(mén)的三個(gè)經(jīng)理分別給部門(mén)的幾十位員工考核，你認(rèn)為應(yīng)當(dāng)怎樣檢查三位評(píng)分者評(píng)定的可靠性？某面試考官對(duì)被試的7項(xiàng)素質(zhì)進(jìn)行測(cè)評(píng)，總共面試了8位被測(cè)者，其評(píng)定等級(jí)如下表，請(qǐng)考評(píng)一下這位面試考官的面試結(jié)果是否可靠

測(cè)評(píng)項(xiàng)目被測(cè)者1234567A3651427B5641327C2751436D3672415E4762315F4562317G3742516H2741635Ri2651411232144810-2測(cè)量的效度效度是評(píng)價(jià)測(cè)量工具好壞的重要標(biāo)準(zhǔn)之一。較高的效度是一個(gè)良好的測(cè)量工具最重要的特性，是必要條件，也是選擇和評(píng)價(jià)測(cè)量工具質(zhì)量的重要依據(jù)。一般來(lái)說(shuō)。效度的作用比信度的作用更為重要。如果一個(gè)測(cè)驗(yàn)效度很低，無(wú)論它的信度有多高，這項(xiàng)測(cè)驗(yàn)都沒(méi)有應(yīng)用價(jià)值。效度高的測(cè)量工具往往信度也高。通過(guò)對(duì)效度的分析，可以了解對(duì)所要測(cè)量的心理學(xué)變量的測(cè)量準(zhǔn)確程度如何，以及對(duì)外在標(biāo)準(zhǔn)的預(yù)測(cè)能力怎樣。效度高的測(cè)量工具，既能夠準(zhǔn)確的測(cè)量出目標(biāo)心理特質(zhì)，又能夠根據(jù)測(cè)量結(jié)果做出正確的推論。10-2-1效度及其影響因素1、效度的概念測(cè)量結(jié)果的效度就是指測(cè)量的有效性，即能夠測(cè)量到所要測(cè)量目標(biāo)的程度，反映了測(cè)量結(jié)果對(duì)測(cè)量目標(biāo)的表達(dá)程度。效度是針對(duì)某種特定的測(cè)評(píng)目的而存在的；效度是一個(gè)關(guān)于程度的估計(jì)。效度的上下只有程度上的差異，不存在完全沒(méi)有或完全有的情況。效度可以看作為對(duì)有用性和準(zhǔn)確性的測(cè)量，答復(fù)的是“對(duì)什么有用？〞或“我怎么知道這個(gè)測(cè)驗(yàn)是否值得用？〞的問(wèn)題，一般被定義為測(cè)驗(yàn)?zāi)軠y(cè)量到所要測(cè)量東西的程度。在評(píng)價(jià)任何測(cè)驗(yàn)時(shí)這都是最重要的考慮。Sco2Ssp2Se2St2S∞2

Sco2：由所測(cè)量的心理特性引起的主要變差，或與所測(cè)量的心理特性有關(guān)的共同因素所引起的變差〔這局部變差是我們真正希望了解和測(cè)量的〕；Ssp2:由與所測(cè)量的特性無(wú)關(guān)的其他個(gè)別特性所造成的變差〔系統(tǒng)誤差引起的變差〕；Se2:誤差變差，是測(cè)量誤差分布的變差St2Val=Sco2效度與信度的關(guān)系二者的區(qū)別：信度與效度的差異在于所考慮的誤差不同。信度考慮的是隨機(jī)誤差的影響；效度考慮的誤差包括隨機(jī)誤差和對(duì)測(cè)驗(yàn)?zāi)康臒o(wú)關(guān)的變量引起的系統(tǒng)誤差。例如游標(biāo)卡尺的精度，可能由于設(shè)計(jì)原因或者工具制作工藝、刻度刻畫(huà)、金屬材料的溫度特性等因素的影響，卡尺對(duì)長(zhǎng)度的反映會(huì)出現(xiàn)誤差。這些誤差現(xiàn)象是由于測(cè)量工具本身的原因造成的，具有穩(wěn)定性，不管什么人、什么時(shí)間使用都會(huì)出現(xiàn)。而另一方面，每次使用卡尺，不同的人造成的誤差不同，這種誤差是隨機(jī)誤差，是偶然性的不穩(wěn)定的，屬于信度考察的內(nèi)容，指的是測(cè)量結(jié)果的一致性如何。二者的聯(lián)系：信度是效度的必要條件，但不是充分條件。換句話說(shuō)，信度高不一定效度必然高。但效度高通常信度高。信度系數(shù)的平方根是效度系數(shù)的最高限度2、效度的作用就好似用磅秤測(cè)量身高，每次測(cè)量的結(jié)果都很一直穩(wěn)定〔信度很高〕，但它并不能代表身高，也就是說(shuō)其測(cè)量值并不反映身高這一屬性〔效度很低〕，所以說(shuō)，磅秤不是身高這一測(cè)量對(duì)象的適宜測(cè)量工具。例如,一個(gè)數(shù)學(xué)測(cè)驗(yàn)可能對(duì)學(xué)生的數(shù)學(xué)成績(jī)的預(yù)測(cè)效度很好，但對(duì)學(xué)生整體智力的預(yù)測(cè)效度就沒(méi)有那么好，對(duì)學(xué)生的性格可能根本就沒(méi)有預(yù)測(cè)效度。3、效度的影響因素一個(gè)測(cè)驗(yàn)效度的上下，很大程度上取決于該測(cè)驗(yàn)受無(wú)關(guān)因素影響的程度。但凡能造成測(cè)驗(yàn)結(jié)果誤差的因素，都會(huì)影響測(cè)驗(yàn)效度?！?〕測(cè)驗(yàn)的因素測(cè)驗(yàn)題目的質(zhì)量：難易程度、暗示性、題意表達(dá)、試題內(nèi)容取樣的代表性實(shí)施測(cè)驗(yàn)時(shí)的干擾因素：指導(dǎo)語(yǔ)、計(jì)分錯(cuò)誤被試的影響因素：反響定勢(shì)、測(cè)驗(yàn)動(dòng)機(jī)、情緒測(cè)驗(yàn)的長(zhǎng)度：增加測(cè)驗(yàn)題目往往能增加測(cè)驗(yàn)的信度和效度?！?〕樣本團(tuán)體的性質(zhì)同一測(cè)驗(yàn)對(duì)不同團(tuán)體所測(cè)量的功能可能不同；同一測(cè)驗(yàn)，樣本團(tuán)體的性質(zhì)不同，效度就可能不同；樣本團(tuán)體的異質(zhì)性對(duì)效度也會(huì)有影響。10-2-2效度的評(píng)估方法對(duì)測(cè)量效度的考察反映在下面兩個(gè)問(wèn)題之中：該測(cè)驗(yàn)?zāi)軌蚝芎玫念A(yù)測(cè)我們感興趣的成績(jī)嗎？該測(cè)驗(yàn)真正測(cè)量的是什么？第一個(gè)問(wèn)題集中于效標(biāo)，也就是判斷一個(gè)測(cè)驗(yàn)預(yù)測(cè)的成功性的標(biāo)準(zhǔn)。這就要求建立測(cè)驗(yàn)成績(jī)與那個(gè)標(biāo)準(zhǔn)之間的關(guān)系。〔預(yù)測(cè)效度〕第二個(gè)問(wèn)題集中于測(cè)驗(yàn)，要求明確關(guān)于測(cè)驗(yàn)所測(cè)量目標(biāo)的內(nèi)在理論或心理設(shè)想。〔內(nèi)容效度〕測(cè)驗(yàn)效度不能按籠統(tǒng)的方式去測(cè)量，而只能根據(jù)測(cè)驗(yàn)所考慮的特定用途去測(cè)量，在決定是否使用測(cè)驗(yàn)時(shí)，我們需要了解從測(cè)驗(yàn)結(jié)果做出某種推論的有效性，也就是說(shuō)，我們是證實(shí)測(cè)驗(yàn)的有效性，還是證實(shí)我們希望對(duì)測(cè)驗(yàn)結(jié)果進(jìn)行推論的有效性。對(duì)于一個(gè)特定問(wèn)題，測(cè)量目的決定了所用的效度評(píng)定方法，問(wèn)題是關(guān)于使用測(cè)驗(yàn)成績(jī)來(lái)預(yù)測(cè)在效標(biāo)上的成績(jī)，還是關(guān)于研究測(cè)驗(yàn)實(shí)際測(cè)量的內(nèi)容或設(shè)想。1、內(nèi)容效度contentvalidity內(nèi)容效度是一個(gè)測(cè)驗(yàn)實(shí)際測(cè)到的內(nèi)容與所要測(cè)量的內(nèi)容之間的吻合程度，是檢查測(cè)驗(yàn)內(nèi)容是否是所預(yù)測(cè)量的行為領(lǐng)域的代表性取樣的指標(biāo)。當(dāng)實(shí)際測(cè)評(píng)到的內(nèi)容與我們事先所相測(cè)評(píng)的內(nèi)容越一致時(shí)，那么說(shuō)明測(cè)評(píng)結(jié)果的內(nèi)容效度越高，測(cè)評(píng)結(jié)果就越有效。在實(shí)際工作中我們編制的測(cè)驗(yàn)不可能包含所要測(cè)量的行為領(lǐng)域的全部可能的材料或情境，只能選擇一個(gè)有代表性的樣本，通過(guò)觀察被試對(duì)個(gè)別題目的反響，來(lái)推測(cè)他的總體行為表現(xiàn)。通常用內(nèi)容范圍來(lái)對(duì)內(nèi)容效度加以說(shuō)明。內(nèi)容范圍特點(diǎn)：邊界：它包含了一些內(nèi)容，同時(shí)也要將另外一些不相關(guān)的東西排除在外。只有具備明確的邊界，才能確保測(cè)驗(yàn)測(cè)量了要測(cè)量的特性。結(jié)構(gòu)：內(nèi)容范圍是結(jié)構(gòu)化的。通常內(nèi)容范圍中的內(nèi)容總是被歸為幾個(gè)類(lèi)別，對(duì)于每個(gè)類(lèi)別，又有詳細(xì)的說(shuō)明。應(yīng)用范圍：內(nèi)容效度適合于選拔和分類(lèi)人事測(cè)驗(yàn)，因?yàn)檫@類(lèi)測(cè)驗(yàn)內(nèi)容是實(shí)際工作的一個(gè)樣本，應(yīng)包含實(shí)際工作所需要的技能和知識(shí)，通過(guò)內(nèi)容效度的分析來(lái)確定測(cè)驗(yàn)是否測(cè)量了實(shí)際工作中需要的知識(shí)和技能。內(nèi)容效度一般不適用于能力傾向測(cè)驗(yàn)和人格測(cè)驗(yàn)，因?yàn)檫@類(lèi)測(cè)驗(yàn)不太要求與所取樣的行為領(lǐng)域的內(nèi)在相似性，其測(cè)驗(yàn)題目的選擇更多的受某種假設(shè)的指導(dǎo)。此外，能力傾向和人格測(cè)驗(yàn)與成就測(cè)驗(yàn)不同，他們不是建立在某種課程或知識(shí)根底上，在對(duì)相同的題目做出反響時(shí)，每個(gè)被試使用的方法和心理過(guò)程是很不相同的，同一測(cè)驗(yàn)對(duì)不同被試來(lái)說(shuō)測(cè)量的是不同的心理過(guò)程。在這種情況下，不可能從檢查測(cè)驗(yàn)的內(nèi)容來(lái)確定測(cè)驗(yàn)測(cè)量的功能。內(nèi)容效度的評(píng)價(jià)可以答復(fù)：該測(cè)驗(yàn)是否是應(yīng)考察的某種技能和知識(shí)的代表性樣本測(cè)驗(yàn)成績(jī)是否不受無(wú)關(guān)因素的影響內(nèi)容效度對(duì)效標(biāo)參照測(cè)驗(yàn)尤為重要，因?yàn)樵谛?biāo)參照測(cè)驗(yàn)中，被試的表現(xiàn)往往以測(cè)驗(yàn)內(nèi)容來(lái)解釋。確定內(nèi)容效度的方法藍(lán)圖對(duì)照分析法：××××年全國(guó)碩士研究生入學(xué)考試英語(yǔ)試卷結(jié)構(gòu)框架專(zhuān)家比較判斷法：C＝(n－N÷2)／N÷2〔N為專(zhuān)家總數(shù)，n為肯定人數(shù)〕部分節(jié)考試內(nèi)容試題形式試題量分值權(quán)重考試時(shí)間語(yǔ)法結(jié)構(gòu)與詞匯A語(yǔ)法填空（單句）四選一1052020%35B語(yǔ)法辨錯(cuò)（單句）四選一105C詞語(yǔ)填空（單句）四選一2010完形填空完形填空（1篇短文）四選一101010%15閱讀理解閱讀理解（5篇短文）四選一204040%60英譯漢正確理解英語(yǔ)原文并用漢語(yǔ)表達(dá)原文所述內(nèi)容五段譯文51515%30短文寫(xiě)作根據(jù)所給題目或素材寫(xiě)出敘述、說(shuō)明或議論性的短文一篇作文11515%40總計(jì)76100100%1802、效標(biāo)關(guān)聯(lián)效度criterion-relatedvalidity效標(biāo)關(guān)聯(lián)效度又稱(chēng)為準(zhǔn)那么關(guān)聯(lián)效度，指測(cè)評(píng)結(jié)果與某種標(biāo)準(zhǔn)結(jié)果的一致性程度，反映的是測(cè)驗(yàn)分?jǐn)?shù)與外在標(biāo)準(zhǔn)〔效標(biāo)〕的相關(guān)程度，即測(cè)驗(yàn)分?jǐn)?shù)對(duì)個(gè)體的效標(biāo)行為表現(xiàn)進(jìn)行預(yù)測(cè)的有效性程度。〔效標(biāo)是考察測(cè)驗(yàn)效用的外在參照標(biāo)準(zhǔn)。〕例如一個(gè)機(jī)械能力傾向測(cè)驗(yàn)，其效度的標(biāo)準(zhǔn)〔效標(biāo)〕可以是成為機(jī)械師之后的表現(xiàn)；對(duì)于一個(gè)管理能力測(cè)驗(yàn)而言，其效標(biāo)可以是將來(lái)從事管理工作的績(jī)效。效標(biāo)關(guān)聯(lián)效度往往用于預(yù)測(cè)性測(cè)驗(yàn)，在這些測(cè)驗(yàn)中，測(cè)驗(yàn)分?jǐn)?shù)一般用于甄選決策，只有當(dāng)證明測(cè)驗(yàn)分?jǐn)?shù)確實(shí)能夠預(yù)測(cè)所研究的行為時(shí)，這種決策才可能正確。效標(biāo)效度的種類(lèi)根據(jù)效標(biāo)結(jié)果與測(cè)評(píng)分?jǐn)?shù)獲得的時(shí)間是否相同可分為預(yù)測(cè)效度和同時(shí)效度。同時(shí)效度的效標(biāo)材料可以和測(cè)驗(yàn)分?jǐn)?shù)差不多同時(shí)收集。把一組人的測(cè)評(píng)分?jǐn)?shù)和其績(jī)效分?jǐn)?shù)求相關(guān)系數(shù)就得到同時(shí)效度；預(yù)測(cè)效度的目的是決定決策前得到的測(cè)評(píng)分?jǐn)?shù)和決策后得到的準(zhǔn)那么分?jǐn)?shù)之間相關(guān)性。其效標(biāo)資料是在測(cè)量結(jié)束后相隔一段時(shí)間才取得的，它反映的是由測(cè)驗(yàn)分?jǐn)?shù)對(duì)任一段時(shí)間間隔后被試行為表現(xiàn)的預(yù)測(cè)程度。適用于對(duì)人員進(jìn)行選拔、分類(lèi)、安置的人事測(cè)量，這些測(cè)量需要對(duì)應(yīng)試者將來(lái)的工作績(jī)效進(jìn)行可靠的預(yù)測(cè)。二者的差異根源不在于收集效標(biāo)的時(shí)間，而是在于預(yù)測(cè)目的的不同，預(yù)測(cè)效度多用于預(yù)測(cè)未來(lái)的結(jié)果，同時(shí)效度多用于診斷現(xiàn)在的狀態(tài)?！澳橙顺晒α藛幔卡暬颉澳橙嘶疾×藛?？〞“某人會(huì)成功嗎？〞或“某人會(huì)患病嗎？〞常見(jiàn)效標(biāo)種類(lèi)學(xué)術(shù)成就——前提是“智力高的人，學(xué)術(shù)成就應(yīng)該越大〞。如：在校成績(jī)、學(xué)歷、研究成果等。特殊訓(xùn)練成績(jī)——能力傾向測(cè)驗(yàn)成績(jī)常用某種特殊訓(xùn)練中取得的成績(jī)做效標(biāo)。如：言語(yǔ)智商用語(yǔ)文成績(jī)做效標(biāo)；機(jī)械能力用技術(shù)培訓(xùn)成績(jī)做效標(biāo)等。實(shí)際工作表現(xiàn)與成績(jī)。如產(chǎn)品量、晉升速度、勞模表?yè)P(yáng)情況等。團(tuán)體特征——用兩個(gè)在效標(biāo)表現(xiàn)上有差異的團(tuán)體比較他們?cè)陬A(yù)測(cè)源分?jǐn)?shù)上的差異。如：一個(gè)音樂(lè)傾向測(cè)驗(yàn)的效度，可以由比較音樂(lè)學(xué)院學(xué)生的分?jǐn)?shù)與一般大學(xué)生分?jǐn)?shù)獲得。等級(jí)評(píng)定結(jié)果——必須是由權(quán)威的專(zhuān)家或主管人員作出的，或者是廣闊群眾作出的。先前被證明是有效的測(cè)評(píng)結(jié)果。如用明尼蘇打機(jī)械性向測(cè)驗(yàn)得到的結(jié)果。3、設(shè)想效度constructvalidity設(shè)想效度也稱(chēng)結(jié)構(gòu)效度、建構(gòu)效度，是指實(shí)際所測(cè)評(píng)的結(jié)果與所想測(cè)評(píng)素質(zhì)的同構(gòu)程度，是測(cè)驗(yàn)?zāi)軌驕y(cè)量到理論上的設(shè)想或特質(zhì)的程度，它說(shuō)明了在多大程度上，實(shí)際的測(cè)評(píng)結(jié)果能夠被看作是所要測(cè)評(píng)的素質(zhì)在結(jié)構(gòu)上的替代物。所謂設(shè)想通常指一些抽象的、假設(shè)性的概念或特質(zhì)，如智力、創(chuàng)造力、言語(yǔ)流暢性、焦慮等。這些設(shè)想無(wú)法直接測(cè)量，具有抽象性。但是每個(gè)設(shè)想都有其心理上的理論根底和客觀現(xiàn)實(shí)性，都和具體的可觀察的事件相聯(lián)系，可以通過(guò)各種可觀察的材料加以確定。例如言語(yǔ)流暢性可以通過(guò)語(yǔ)速、語(yǔ)句間的邏輯性、口誤的數(shù)量等可觀察的指標(biāo)進(jìn)行確定。適用范圍：適用于智力測(cè)驗(yàn)、人格測(cè)驗(yàn)等。確定設(shè)想效度的方法1、提出理論假設(shè)，并將其分解成細(xì)目；2、依據(jù)理論框架，推演出有關(guān)測(cè)驗(yàn)成績(jī)的假設(shè)〔操作化定義〕；3、用邏輯的和實(shí)證的方法來(lái)驗(yàn)證假設(shè)〔排除法、咨詢(xún)法、相關(guān)法、邏輯分析法、多元分析法〕。例如：韋克斯勒首先假設(shè)“智力是一個(gè)人去理解和應(yīng)付他周?chē)澜绲目偟牟拍塄?，然后，他依?jù)這一定義，編制11個(gè)分測(cè)驗(yàn)從十幾個(gè)方面來(lái)說(shuō)明智力，編好測(cè)驗(yàn)又從多個(gè)角度加以驗(yàn)證，最后，用因素分析法驗(yàn)證，該測(cè)驗(yàn)實(shí)際測(cè)量了三類(lèi)共同因素，即A因素〔言語(yǔ)理解〕、B因素〔知覺(jué)組織〕、C因素〔記憶和注意集中〕。10-3工程分析測(cè)評(píng)結(jié)果〔分?jǐn)?shù)〕幾乎都是由各個(gè)工程得分直接累加而成的，因此工程質(zhì)量的好壞直接影響到測(cè)評(píng)結(jié)果的真實(shí)性、正確性和準(zhǔn)確性。工程分析是指根據(jù)試測(cè)結(jié)果對(duì)組成測(cè)驗(yàn)的各個(gè)題目〔工程〕進(jìn)行分析，從而評(píng)價(jià)題目好壞、對(duì)題目進(jìn)行篩選的程序和方法。效度與信度分析是直接對(duì)測(cè)評(píng)結(jié)果質(zhì)量的考評(píng)，而工程分析那么是間接地對(duì)測(cè)評(píng)結(jié)果作微觀性的解剖。通過(guò)工程分析，對(duì)測(cè)驗(yàn)題目進(jìn)行選擇和修改，可以提高測(cè)驗(yàn)的信度和效度。了解工程分析的概念和方法，能夠幫助測(cè)驗(yàn)使用者評(píng)價(jià)現(xiàn)有的各種測(cè)驗(yàn)。定性分析：主要考慮內(nèi)容效度，即題目表達(dá)的恰當(dāng)性和有效性等方面。定量分析：主要考察題目難度和鑒別度是否適當(dāng)。10-3-1測(cè)量的難度分析難度分析就是對(duì)題目的難度進(jìn)行估計(jì)以確定適宜的難度，難度的指標(biāo)通常以“通過(guò)率〞表示，即答對(duì)或通過(guò)該題目的人數(shù)百分比。通過(guò)人數(shù)越多題目越容易。測(cè)驗(yàn)難度確實(shí)定，要依據(jù)測(cè)驗(yàn)的目的、性質(zhì)和題目的形式而定。測(cè)驗(yàn)?zāi)康模弘y度極大或難度極小時(shí)，都不容易區(qū)分個(gè)體差異。難度中等的題目比較適合區(qū)分個(gè)體差異。測(cè)驗(yàn)作用：選拔性測(cè)驗(yàn)應(yīng)使難度接近錄取率。題目形式：選擇題的難度一般應(yīng)大于概率水平〔如四選一題目難度0.63最適宜〕；是非題難度應(yīng)該為0.75最適宜。10-3-2測(cè)量的鑒別度分析工程鑒別度是指測(cè)驗(yàn)工程對(duì)于所測(cè)查的心理特性的鑒別能力和區(qū)分程度，可以從工程效度和內(nèi)部一致性方面進(jìn)行考慮。工程效度分析——主要以效標(biāo)為依據(jù)，考察被試在每個(gè)試題上的反響與其在效標(biāo)上表現(xiàn)的相關(guān)程度，即每個(gè)試題所測(cè)查的行為是否反映了被試在效標(biāo)上的表現(xiàn)。內(nèi)部一致性分析——有時(shí)進(jìn)行工程分析難以找到適宜的效標(biāo)，這是就用測(cè)驗(yàn)總分代替效標(biāo)，考察每個(gè)試題與總分的一致性。10-3-3測(cè)驗(yàn)的公平性分析擲色子或扔硬幣幫助做決策你認(rèn)為公平嗎？結(jié)果的公平性：在職業(yè)選拔中，結(jié)果公平指選用了“最好〞的人。如何定義“最好〞以及怎樣確?！白詈猫暷軌虮粶y(cè)量決定結(jié)果的公平性，這主要由測(cè)驗(yàn)的技術(shù)性方面來(lái)確定，是測(cè)驗(yàn)過(guò)程和測(cè)量效標(biāo)過(guò)程二者的函數(shù)。過(guò)程的公平性：指的是某些人的測(cè)驗(yàn)分?jǐn)?shù)受到誤差的影響不會(huì)與其他人顯著不同。因?yàn)槭軠y(cè)者的表現(xiàn)總是發(fā)生在一定情境中，測(cè)驗(yàn)成績(jī)必然反映一定情境的作用。測(cè)驗(yàn)選擇時(shí)要考慮文化、語(yǔ)言因素測(cè)驗(yàn)實(shí)施時(shí)要公平對(duì)待每個(gè)受測(cè)者監(jiān)測(cè)不同群體的成績(jī)分布是否存在顯著差異，是合理原因造成的還是另有隱情。10-3-4測(cè)驗(yàn)的經(jīng)濟(jì)效益分析效用分析在選拔性測(cè)評(píng)中，需要計(jì)算因錄取率提升和生產(chǎn)效率上升而帶來(lái)的價(jià)值。在招聘測(cè)評(píng)中要計(jì)算通過(guò)測(cè)評(píng)技術(shù)提高的工作效率和錄用準(zhǔn)確性帶來(lái)的價(jià)值。各種測(cè)評(píng)方法在四項(xiàng)指標(biāo)上的比較：測(cè)評(píng)方法效度公平性可用性本錢(qián)智力測(cè)驗(yàn)中等0.410中等高低性向與能力測(cè)定中等0.27高中等低個(gè)性與興趣測(cè)定中等高低中等面談低0.010中等高

人人文庫(kù)> 全部分類(lèi)> 行業(yè)資料 > 管理策劃

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

素質(zhì)測(cè)評(píng)的質(zhì)量分析

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

素質(zhì)測(cè)評(píng)的質(zhì)量分析

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔