常模及測驗(yàn)標(biāo)準(zhǔn)化_第1頁
常模及測驗(yàn)標(biāo)準(zhǔn)化_第2頁
常模及測驗(yàn)標(biāo)準(zhǔn)化_第3頁
常模及測驗(yàn)標(biāo)準(zhǔn)化_第4頁
常模及測驗(yàn)標(biāo)準(zhǔn)化_第5頁
已閱讀5頁,還剩85頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

常模及測驗(yàn)標(biāo)準(zhǔn)化第一頁,共九十頁,2022年,8月28日(五)心理測驗(yàn)

教學(xué)進(jìn)度:單元週日期

內(nèi)容Topic-2A19月09日Introduction、TheOriginsofPsychologicalTestingTopic-2B29月16日EarlyTestingintheUnitedStatesTopic-1A39月23日TheNatureandUseofPsychologicalTestsTopic-1B49月30日EthicalandSocialIssuesinTestingTopic-2B510月7日考試一、TheTestingProcessTopic-3A610月14日NormsandTestStandardizationTopic-3B710月21日ConceptsofReliability810月28日考試二Topic-4A911月4日BasicConceptsofValidityTopic-4A1011月11日Validity-Application

1111月18日考試三第二頁,共九十頁,2022年,8月28日Topic3A常模及測驗(yàn)標(biāo)準(zhǔn)化

NormsandTestStandardizationCaseExhibit3.1OutmodedTestsandOutdatedNormsRawScoresEssentialStatisticalConceptsRawScoreTransformationsSelectingaNormGroupCriterion-ReferencedTestsSummary第三頁,共九十頁,2022年,8月28日KeyTermsandConceptsnormgroup常模團(tuán)體Rawscore原始分?jǐn)?shù)frequencydistribution次數(shù)分配Mean平均數(shù),median中位數(shù),mode眾數(shù)percentcorrect正確(答對(duì))百分比percentilerank百分等級(jí)normaldistribution常態(tài)分配curve曲線standarddeviation標(biāo)準(zhǔn)差variance變異數(shù)expectancytable期望(預(yù)期)表normalizedstandardscore常態(tài)化標(biāo)準(zhǔn)分?jǐn)?shù)skewness偏態(tài)staninescale標(biāo)準(zhǔn)九stenscale標(biāo)準(zhǔn)十第四頁,共九十頁,2022年,8月28日

名詞解釋percentile百分位數(shù)受試者在標(biāo)準(zhǔn)化樣本的百分比,是由原始分?jǐn)?shù)轉(zhuǎn)化而來的,可表各受試者在測驗(yàn)分?jǐn)?shù)上的相對(duì)地位,其數(shù)值介於是0到100之間。

Thepercentageofpersonsinthestandardizationsamplewhoscoredbelowaspecificrawscore;percentilesvaryfrom0to100.standardscore標(biāo)準(zhǔn)分?jǐn)?shù)是將原始分?jǐn)?shù)轉(zhuǎn)換後的分?jǐn)?shù),可說明原始分?jǐn)?shù)距離算數(shù)平均數(shù)一個(gè)標(biāo)準(zhǔn)差單位是多少。Atransformedscoreinwheretheoriginalscoreisexpressedasthedistancefromthemeaninstandarddeviationunits.

TscoreT分?jǐn)?shù)是一種轉(zhuǎn)換分?jǐn)?shù),其平均數(shù)是50,標(biāo)準(zhǔn)差為10。

atransformedscorewithmeanof50andstandarddeviationof10.normalizedstandardscore常態(tài)標(biāo)準(zhǔn)分?jǐn)?shù)是用非直線轉(zhuǎn)換方式將偏態(tài)分配轉(zhuǎn)換成常態(tài)分配的一種轉(zhuǎn)換分?jǐn)?shù)Ascoreobtainedbyatransformationthatrendersaskeweddistributionintoanormaldistribution。staninescale標(biāo)準(zhǔn)九為一種量尺,將原始分?jǐn)?shù)分成九個(gè)等分,從1到9。ascaleinwhichallrawscoresareconvertedtoasingle-digitsystemofscoresrangingfrom1to9.stenscale標(biāo)準(zhǔn)十量表將分?jǐn)?shù)分成10個(gè)單位,在平均數(shù)上、下兩邊各包含5個(gè)單位的常態(tài)標(biāo)準(zhǔn)分?jǐn)?shù)。a10-unitscalewithfiveunitsaboveandfiveunitsbelowthemean.CscaleC量尺將標(biāo)準(zhǔn)九兩端各加一個(gè)單位,故有11個(gè)單位。

avariantonthestaninescalewith11units.

第五頁,共九十頁,2022年,8月28日randomsampling隨機(jī)取樣

Aselectionstrategyinwhicheverysubjecthasanequalchanceofbeingchosen.

是種篩選的策略,目的是讓每位受試者被選到的機(jī)率是相等的。stratifiedrandomsampling分層隨機(jī)抽樣Aselectionstrategyinwhichsubjectsarechosenrandomly,withtheconstraintthatthesamplematchesthepopulationonrelevantbackgroundvariablessuchasrace,sex,occupation,andsoon.

是種篩選策略,受試者被隨機(jī)選擇,而且樣本被限制需與母群背景,如種族、性別、職業(yè)等配合。agenorm年齡常模Atypeofstandardizationthatdepictstheleveloftestperformanceforeachseparateagegroupinthenormativesample.是種標(biāo)準(zhǔn)化類型,在一常態(tài)樣本下,描述各年齡群組在測驗(yàn)表現(xiàn)的水準(zhǔn)(層次)。gradenorm年級(jí)常模Atypeofstandardizationthatdepictstheleveloftestperformanceforeachseparateschoolgradeinthenormativesample.是種標(biāo)準(zhǔn)化類型,在一常態(tài)樣本下,描述各學(xué)校年級(jí)在測驗(yàn)表現(xiàn)的水準(zhǔn)(層次)。localnorms地區(qū)(區(qū)域)常模

Normsderivedfromarepresentativelocalsample,asopposedtoanationalsample.

常模是由具代表性的區(qū)域樣本而來,是相對(duì)於全國樣本。

名詞解釋第六頁,共九十頁,2022年,8月28日描述次數(shù)分配的四個(gè)統(tǒng)計(jì)量數(shù)集中量數(shù)

centraltendency

.

平均數(shù)M2.

中位數(shù)Mdn3.

眾數(shù)Mo變異量數(shù)

variability

.

變異數(shù)σ2.

四分差Q3.

全距偏態(tài)

skewness

.

常態(tài).

正偏態(tài)positive.

負(fù)偏態(tài)negative峰度

kurtosis

1

高狹峰leptokurtic低闊峰platykurtic第七頁,共九十頁,2022年,8月28日第八頁,共九十頁,2022年,8月28日原始分?jǐn)?shù)轉(zhuǎn)換percentiles百分位數(shù)percentilerank百分等級(jí)standardscores標(biāo)準(zhǔn)分?jǐn)?shù)standardscore標(biāo)準(zhǔn)z分?jǐn)?shù)TscoreT分?jǐn)?shù)(直線轉(zhuǎn)換)TscaledscoreT量表分?jǐn)?shù)(非直線轉(zhuǎn)換)(normalizedstandardscore常態(tài)化標(biāo)準(zhǔn)分?jǐn)?shù))staninescale標(biāo)準(zhǔn)九(USAF,WWⅡ)stenscale標(biāo)準(zhǔn)十(Canfield,1951)CscaleC量尺(Guilford&Fruchter,1978)

分11級(jí)第九頁,共九十頁,2022年,8月28日

累積百分比0.1%2.3%15.9%50%84.1%97.7%99.9%

T分?jǐn)?shù)20304050607080

百分等級(jí)PR1215405060859899

標(biāo)準(zhǔn)九的百分比4%7%

12%

17%

20%17%12%7%4%STANINE123456789

CEEB分?jǐn)?shù)200300400500600700800

AGCT分?jǐn)?shù)406080100120140160

斯比離差智商526884100116132148

魏氏離差智商557085100115130145

圖二各種衍生分?jǐn)?shù)間的關(guān)係第十頁,共九十頁,2022年,8月28日第十一頁,共九十頁,2022年,8月28日標(biāo)準(zhǔn)九的百分比STANINE1234567894%7%12%17%20%17%12%7%4%-2.25

-1.75-1.25-.75-.25.25.751.251.75

~~~~~~~~~-1.75-1.25-.75

-.25.25.751.251.752.25

4%

11%23%40%60%77%89%96%第十二頁,共九十頁,2022年,8月28日TOPIC3A

常模以及測驗(yàn)分?jǐn)?shù)的解釋常模norm的定義:是一具有代表性的樣本團(tuán)體在測驗(yàn)上的表現(xiàn)或分?jǐn)?shù)分布,其可作為心理測驗(yàn)中原始資料轉(zhuǎn)換的依據(jù),可表示個(gè)體在標(biāo)準(zhǔn)化常態(tài)樣本下的相對(duì)測驗(yàn)表現(xiàn)。使用常模的目的:可知個(gè)體在群體中所處的相對(duì)位置??勺鳛榛ハ啾容^及評(píng)估之用。第十三頁,共九十頁,2022年,8月28日常模的類別一、發(fā)展性常模年齡常模年級(jí)常模順序量表ordinalscales二、組內(nèi)常模百分位數(shù)(百分等級(jí))標(biāo)準(zhǔn)分?jǐn)?shù)(1)T分?jǐn)?shù)(2)離差智商(3)其他量尺三、全國性常模與特定的團(tuán)體常模第十四頁,共九十頁,2022年,8月28日發(fā)展性常模developmentalnorm1.mentalage以心理年齡來取樣。例如智力測驗(yàn)的常模。以相同心智年齡的人來作常模,而不管其生理年齡為何。缺點(diǎn):心理年齡的單位大小不恆為一致,有隨著生理年齡的增加,單位逐漸縮小的現(xiàn)象。智力隨時(shí)在變。2.gradeequivalents以實(shí)際年級(jí)來區(qū)分的,是使用最普遍的一種。缺點(diǎn):教材的內(nèi)容每個(gè)年級(jí)並不相同,且在主題、重點(diǎn)以及進(jìn)度上都不一定相同,所以在比較上可能產(chǎn)生問題。容易造成錯(cuò)誤的解釋。例如一位四年級(jí)的學(xué)生在算術(shù)測驗(yàn)上得到年級(jí)等級(jí)值為6.9,這只代表他的算術(shù)能力高出同年級(jí)的人,但並不代表他已經(jīng)熟悉六年級(jí)的算術(shù)歷程,同時(shí)也不應(yīng)該將年級(jí)常模視為學(xué)業(yè)成就的標(biāo)準(zhǔn)。3.ordinalscales將每個(gè)年齡層中,具代表性的各種功能性的行為發(fā)展描述出來,再用實(shí)徵的方法來取得各階層的年齡。此法為發(fā)展心理學(xué)家常用。最早的研究是Gesell及同事列出一系列行為的模式,陳述出嬰兒每個(gè)月在動(dòng)作、適應(yīng)、語言及個(gè)體—社會(huì)四個(gè)層面可能發(fā)展出來的各項(xiàng)行為。後來根據(jù)Piaget的發(fā)展理論,設(shè)計(jì)出一套測量工具,這套測量工具即是一種順序量表,亦即必須等到前一個(gè)階段的概念發(fā)展完整之後,才到達(dá)下一個(gè)階段。第十五頁,共九十頁,2022年,8月28日組內(nèi)常模Within-groupnorms定義:指個(gè)體的行為表現(xiàn)與同等的團(tuán)體做比較,提供特定“量”方面的意義。種類:1.百分分?jǐn)?shù)percentile2.標(biāo)準(zhǔn)分?jǐn)?shù)standardscore3.離差智商deviationIQ。百分位數(shù)是用標(biāo)準(zhǔn)化樣本在某一特定原始分?jǐn)?shù)以下所佔(zhàn)的人數(shù)百分比來表示,可看出受試者在團(tuán)體中的相對(duì)位置。優(yōu)點(diǎn):1.易計(jì)算、易了解。2.能做比較,故使用廣泛。缺點(diǎn):單位大小不一,越靠近分配的兩端,單位的不等性越明顯。所以它只能指出某人在常態(tài)樣本下的相對(duì)位置,並不能說出兩個(gè)百分位數(shù)的差距。標(biāo)準(zhǔn)分?jǐn)?shù)是以該分配的標(biāo)準(zhǔn)差來表達(dá)個(gè)體與平均數(shù)的差距。將個(gè)體的分?jǐn)?shù)與常模團(tuán)體平均數(shù)的差距,除以該分配的標(biāo)準(zhǔn)差,即是z分?jǐn)?shù)。常態(tài)化標(biāo)準(zhǔn)分?jǐn)?shù)(normallystandardscores)是指已經(jīng)轉(zhuǎn)成合乎常態(tài)曲線的分配N(0,1)的標(biāo)準(zhǔn)分?jǐn)?shù),而這些分?jǐn)?shù)可以根據(jù)常態(tài)分配表查出落於平均數(shù)某一標(biāo)準(zhǔn)差間的人數(shù)百分比而計(jì)算出來。離差智商早期的智力測驗(yàn)指的是採用了比率智商,此智商是將心理年齡與生理年齡的比值乘以100。而目前的趨勢皆以離差智商所取代N(100,15)。它是以100為平均值,以魏氏智力量表的標(biāo)準(zhǔn)差為其標(biāo)準(zhǔn)差。若選用15為標(biāo)準(zhǔn)差,其得到的分?jǐn)?shù)便可依照解釋斯比量表的比率智商的方式加以解釋,或是我們也可用任何已熟悉的量表分配來互相對(duì)照。第十六頁,共九十頁,2022年,8月28日第十七頁,共九十頁,2022年,8月28日第十八頁,共九十頁,2022年,8月28日第十九頁,共九十頁,2022年,8月28日第二十頁,共九十頁,2022年,8月28日標(biāo)準(zhǔn)化常態(tài)樣本

normativesample用以建立常模的標(biāo)準(zhǔn)化常態(tài)樣本的特質(zhì):particular:每份測驗(yàn)都有其限制使用的對(duì)象representative:此樣本必須代表它的母群。largeenough:取樣的個(gè)數(shù)要夠大。selectivefactor:避免有針對(duì)某些特殊對(duì)象的因素。常模的特性:notabsolute:不是絕對(duì)的,只是做參考,因常模中的樣本只是母群中的一部份。notuniversal:不是普遍性的,常模的樣本是有特定範(fàn)圍的。notpermanent:不是永久的,會(huì)因時(shí)間的不同而使常模失去效用。第二十一頁,共九十頁,2022年,8月28日常模團(tuán)體的選取NationalAnchorNorms:全國性標(biāo)準(zhǔn)定錨常模

ETS在1973年建立了一個(gè)NationalAnchorNorms,即是建立一個(gè)標(biāo)準(zhǔn)定錨常模,使得兩個(gè)不同測驗(yàn)的結(jié)果可以相互比較。為美國國小學(xué)生常用的七個(gè)閱讀成就測驗(yàn),提供了真正可以比較且具代表性的全國性常模。SpecificNorms特定的常模有兩種形式:subgroupnorm:對(duì)不同的次級(jí)團(tuán)體做不同的常模。localnorm:對(duì)不同地區(qū)做不同常模。FixedReferenceGroup:固定參照常??梢哉f是沒有所謂的常模,或說是每年都在做常模。它只跟當(dāng)時(shí)的人做比較,以當(dāng)時(shí)的人為參照標(biāo)準(zhǔn),用他們來作常模,以計(jì)算某人在當(dāng)時(shí)的團(tuán)體中的相對(duì)位置。目的:1.comparative:可使分?jǐn)?shù)能做比較;

2.continuity:有連續(xù)性,其常模不因時(shí)間的不同而失去效用。第二十二頁,共九十頁,2022年,8月28日expectancytable期望表Atablethatportraystheestablishedrelationshipbetweentestscoresandexpectedoutcomeonarelevanttask.

精確地描述測驗(yàn)分?jǐn)?shù)與期望結(jié)果間的關(guān)係的對(duì)照表是常模的一種實(shí)用形式,可預(yù)測受試者在效標(biāo)criterion上表現(xiàn)良好的可能性。第二十三頁,共九十頁,2022年,8月28日第二十四頁,共九十頁,2022年,8月28日第二十五頁,共九十頁,2022年,8月28日Criterion-ReferencedTests

和Norm-ReferencedTests的比較Dimension效標(biāo)參照測驗(yàn)常模參照測驗(yàn)用途受試表現(xiàn)和標(biāo)準(zhǔn)比較受試表現(xiàn)彼此比較試題內(nèi)容與實(shí)務(wù)相近較扁狹的技能非直接相近較寬闊的技能試題選取多數(shù)題目難度相似難度水準(zhǔn)變異大分?jǐn)?shù)解釋用百分比或事先訂定的通過標(biāo)準(zhǔn)解釋用標(biāo)準(zhǔn)分?jǐn)?shù)、百分等級(jí)或年級(jí)等值gradeequivalent第二十六頁,共九十頁,2022年,8月28日10/14隨堂考1.X=75M=50SD=20z=(75-50)/20=1.25PR=89.44T=1.25*10+50=62.52.X=45M=50SD=20z=(45-50)/20=-0.25PR=40.13T=-0.25*10+50=47.53.X=75標(biāo)準(zhǔn)九等級(jí)為8X=45標(biāo)準(zhǔn)九等級(jí)為54.甲生IQ=110,乙生T=60,丙生PR=75

甲z=.67乙z=1.0丙z=.68故乙>丙>甲第二十七頁,共九十頁,2022年,8月28日第一次考試試題

填空題:22%(每格2分)1.developedthe"thought

"tomeasuretheessentialspeedofthought.2.Thehypothesisthatweinadvertentlydiscloseourinner-most

,fantasies,and

whenrespondingtoambiguousor

stimuliisknownasthe

hypothesis.3.Intesting,

isacomfortable,warm

thatservestomotivateexamineesandelicitcooperation.4.Atestisas

procedurefors

behavioranddescribingitwithcategoriesorscores.5.Thefirstpersontowriteaboutthedifferencebetweenmentalillnessandmentalretardationwas

.(a.Binetb.Esquirolc.Freudd.Seguin)第二十八頁,共九十頁,2022年,8月28日名詞解釋:30%(每題6分)informedconsentETSMMPI&KMHQArmyα&ArmyβPersonalDataSheet問答題:48%(每題12分)OscarBuros和L.M.Terman對(duì)心理測驗(yàn)各有何貢獻(xiàn)?舉例說明常模參照測驗(yàn)和效標(biāo)參照測驗(yàn)criterion-referencedtest。心理測驗(yàn)有哪些主要功能(各舉一例說明之)。影響測驗(yàn)結(jié)果主要有那些來源?第二十九頁,共九十頁,2022年,8月28日Topic3B信度的概念

ConceptsofReliabilityCaseExhibit3.2:TestReliabilityandCourtroomTestimonyClassicalTheoryandtheSourcesofMeasurementErrorSourcesofMeasurementErrorMeasurementErrorandReliabilityTheReliabilityCoefficientTheCorrelationCoefficientTheCorrelationCoefficientasaReliabilityCoefficientReliabilityasTemporalStabilityReliabilityasInternalConsistencyItemResponseTheoryandtheNewRulesofMeasurementSpecialCircumstancesintheEstimationofReliabilityTheInterpretationofReliabilityCoefficientsReliabilityandtheStandardErrorofMeasurement第三十頁,共九十頁,2022年,8月28日KeyTermsandConceptsClassicalTheoryofMeasurement古典測量理論Reliability信度/asTemporalStability;asInternalConsistency內(nèi)部一致性

1.inter-scorer評(píng)分者間2.test-retest再測

3.alternateforms複本(parallelforms平行版本)

4.Split-half折半Spearman-Brown斯布校正公式

5.Kuder-Richardsonformula庫李公式

6.Coefficientalphaα係數(shù)MeasurementError測量誤差SystematicMeasurementError系統(tǒng)性測量誤差&truescore真分?jǐn)?shù)Generalizabilitytheory概化理論CorrelationCoefficient相關(guān)係數(shù),ReliabilityCoefficient信度係數(shù)ItemResponseTheory試題反應(yīng)理論LatenttraitTheory潛在特質(zhì)理論RaschModelRasch模型Speedtest速度測驗(yàn)powertest難度測驗(yàn)EstimationofReliability信度估計(jì)Confidenceinterval信賴區(qū)間StandardErrorofMeasurement測量標(biāo)準(zhǔn)誤StandardErrorofthedifference差異分?jǐn)?shù)標(biāo)準(zhǔn)誤第三十一頁,共九十頁,2022年,8月28日古典測量理論

(classicalmeasurementtheory)ObservedScore(OS)受三個(gè)影響:(1)真實(shí)得分(TrueScore;TS)(2)獨(dú)特得分(UniqueScore;US)(3)誤差得分(ErrorScore;ES)「離職意向」的例子:OS1=TS+US1+ES1(第一題)OS2=TS+US2+ES2(第二題)OS3=TS+US3+ES3(第三題)第三十二頁,共九十頁,2022年,8月28日變異量(Variance)及

共變量(Covariance)--以變異量及共變量驗(yàn)證構(gòu)念間之關(guān)係--樣本整體變異量(ObservedVariances;O),

包括:(1)真實(shí)差異(TrueVariance;T)(2)獨(dú)有因素帶來的差異(UniqueVariance;U)(3)隨機(jī)誤差帶來的差異(ErrorVariance;E)

O=T+U+E第三十三頁,共九十頁,2022年,8月28日信度(reliability)

(1)E佔(zhàn)O的比重(2)因?yàn)镋是隨機(jī)的,信度為測量的工具免於 隨機(jī)誤差的程度(3)測量結(jié)果的一致性或穩(wěn)定性第三十四頁,共九十頁,2022年,8月28日信度係數(shù)的估計(jì):

為了與統(tǒng)計(jì)上的相關(guān)係數(shù)看齊,我們一般會(huì)取兩次測量的共變量比例的平方根,來合計(jì)信度,稱之為信度係數(shù)(reliabilitycoefficient)。E1E2T+U第三十五頁,共九十頁,2022年,8月28日信度係數(shù)的方程式信度係數(shù)=第三十六頁,共九十頁,2022年,8月28日信度(reliability)的估計(jì)--兩次測量的相關(guān)係數(shù):(a)再測信度(test-retestreliability)(b)複本信度(alternativeformsreliability)(c)折半信度(split-halfreliability)(d)項(xiàng)目間的一致性(internalconsistency reliability):Coefficientalpha;α (SPSS“reliability”的指令)--一般來說信度係數(shù)要在0.7以上

第三十七頁,共九十頁,2022年,8月28日測量工具的信度係數(shù)

第三十八頁,共九十頁,2022年,8月28日把R0除以r1及r2的平方根,

便可求得Rt

第三十九頁,共九十頁,2022年,8月28日Rt

與Ro的關(guān)係

(CorrectionforAttenuation)

削弱校正

IninvestigatingtestvaliditythetestscorestobevalidatedarecalledXandtheyarevalidatedagainstacriterioncalledY.Forexample,XmightbeSATverbalscoresandYcouldbegradepointaverageinfreshmanyearincollege.ThenthecorrelationbetweenXandYisavaliditycoefficient.Spearmanderivedanequationwhichdisplaystheeffectsofalteringthelengthofboththetestandthecriteriononvalidity.ThenthevalidityofaperfecttestforpredictingaperfectcriterioniscalledSpearman’s

Correction

for

Attenuation.Ityieldsanestimateofthetruescorecorrelation.ConditionsunderwhichthisformulaisusefulhavebeenpresentedbyZimmermanandWilliams(1997)第四十頁,共九十頁,2022年,8月28日影響信度的主要因素受測量者方面(動(dòng)機(jī)、情緒等)主持測量者方面測量內(nèi)容方面itemselection測量情境方面testadministration時(shí)間影響方面測量誤差MeasurementError的來源1.itemselection2.testadministration3.Testscoring4.SystematicMeasurementError

系統(tǒng)性測量誤差第四十一頁,共九十頁,2022年,8月28日共同因子(commonfactor)的概念CommonFactor=CFEF1+UF1EF2+UF2EF3+UF3OS1OS2OS3CF第四十二頁,共九十頁,2022年,8月28日共同因子(commonfactor):共變量T=共同因子的變異量

(各項(xiàng)目的共變量:沒有測量誤差的變異量)C13C12U1+E1C23U2+E2TU3+E3第四十三頁,共九十頁,2022年,8月28日傳統(tǒng)測驗(yàn)主要以古典真分?jǐn)?shù)(truescore)理論為基礎(chǔ),古典測驗(yàn)理論的假設(shè)較少,且容易滿足,有時(shí)又被稱為弱勢理論(weaktheory);相反的,適性測驗(yàn)則以試題作答理論(itemresponsetheory;IRT)為理論根據(jù),IRT係晚近從數(shù)學(xué)發(fā)展出來的測量理論,理論較嚴(yán)謹(jǐn),假設(shè)也較難滿足,因此也被稱為強(qiáng)勢理論(strongtheory)。第四十四頁,共九十頁,2022年,8月28日一般而言,題庫會(huì)因測驗(yàn)評(píng)量方式之不同而有不同程序之建立方法。例如,以古典測量理論(classicalmeasurementtheory)為基礎(chǔ)所編製的傳統(tǒng)式測驗(yàn)(conventionaltest),常以團(tuán)體為基礎(chǔ)的試題統(tǒng)計(jì)量數(shù)(group-baseditemstatistics)(如p值)來建立結(jié)構(gòu)化的試題組合。以此種方式建立的題庫有其難以克服的缺點(diǎn)(何榮桂,民80)。在教學(xué)活動(dòng)中,測驗(yàn)評(píng)量是獲得學(xué)生學(xué)習(xí)情況的主要訊息來源,測驗(yàn)結(jié)果的量化分析隨著資訊科技的進(jìn)步,近年來已產(chǎn)生了相當(dāng)大的變革,其中較重要且有效的方法就是所謂的試題反應(yīng)理論(ItemResponseTheory,簡作IRT)(簡茂發(fā)、劉湘川、許天維與郭伯臣,民83)。由於許多學(xué)者對(duì)這方面的投入,新的理論與應(yīng)用方法愈來愈精進(jìn),愈來愈實(shí)用。第四十五頁,共九十頁,2022年,8月28日電腦化適性測驗(yàn)(computerizedadaptivetests;CAT)是測驗(yàn)理論(主要以itemresponsetheory,IRT,為理論基礎(chǔ))與實(shí)務(wù)伴隨電腦科技的發(fā)展而形成的產(chǎn)物。至目前為止,CAT的理論與技術(shù)均已十分成熟,一些常見的測驗(yàn)工具(如ETS的托福測驗(yàn)等)也以CAT的方式施測;適性(adaptive)測驗(yàn)是量身訂製(tailored)的測驗(yàn),是個(gè)別測驗(yàn)(individualtest),也是真正的個(gè)別化測驗(yàn)(individualizedtest)。量身訂製或個(gè)別化的測驗(yàn),意指給受試者做符合她/他能力(或特質(zhì))水準(zhǔn)的題目最能反映她/他的能力或特質(zhì)。對(duì)某一受試者而言,太難或太簡單的題目都沒有必要;也就是說,對(duì)某一受試者而言,題目太難或太簡單,即使此受試者答了這些題目,也無法從這些題目獲得此受試者之特質(zhì),或是說,這些題目並無法回饋受試者的訊息給主試者,這樣的測量就失去意義。第四十六頁,共九十頁,2022年,8月28日一、信度的意義測驗(yàn)信度:一測驗(yàn)在某持久性心理特質(zhì)的一致性或穩(wěn)定性影響測驗(yàn)信度主要有三個(gè)因素:1.測驗(yàn)長度、2.受試的變異性、3.間隔時(shí)間的長短。表各種信度估計(jì)法的誤差變異量主要來源信度估計(jì)法誤差變異量來源1.折半法

2.複本法(立即)3.重測法

4.複本重測法

5.庫李法或α係數(shù)

6.多人主觀評(píng)分法

試題內(nèi)容的取樣試題內(nèi)容的取樣時(shí)間上的取樣時(shí)間取樣+內(nèi)容取樣試題內(nèi)容取樣和內(nèi)容同質(zhì)性評(píng)分者之間的差異

第四十七頁,共九十頁,2022年,8月28日分?jǐn)?shù)的變異來源第四十八頁,共九十頁,2022年,8月28日估計(jì)信度方法與測驗(yàn)版本及施測次數(shù)的關(guān)係測驗(yàn)版本一種二種施測次數(shù)一次折半法庫李法或α係數(shù)(內(nèi)部一致性係數(shù))複本法(立即)(等值係數(shù))二次重測法

(穩(wěn)定係數(shù))複本重測法(延宕)(穩(wěn)定等值係數(shù))第四十九頁,共九十頁,2022年,8月28日求評(píng)分者信度可用的統(tǒng)計(jì)方法評(píng)分者人數(shù)二名二名以上評(píng)分方式名次法斯比爾曼等級(jí)相關(guān)係數(shù)肯德爾和諧係數(shù)分?jǐn)?shù)法皮爾遜積差相關(guān)係數(shù)變異數(shù)分析(Hoyt法)第五十頁,共九十頁,2022年,8月28日二、信度的類別及其求法(1)內(nèi)部一致法,為一種內(nèi)部一致性量數(shù),其高低受到內(nèi)容取樣和樣本異質(zhì)性兩種誤差變異量的影響。(2)複本法alternative-formreliability。同一測驗(yàn)有兩種以上複本,將兩種複本分別實(shí)施於同一群受試者,再以其分?jǐn)?shù)計(jì)算相關(guān)係數(shù),即得複本信度,如兩者同時(shí)連續(xù)實(shí)施,其複本信度又稱等值係數(shù);如隔一段時(shí)間或分兩次實(shí)施,其複本信度又稱穩(wěn)定與等值係數(shù)(3)重測法,同一測驗(yàn),同一群受試者,前後測兩次,再計(jì)算其相關(guān)係數(shù),或稱再測信度retestreliability(又稱穩(wěn)定係數(shù))(4)評(píng)分者信度,指不同的評(píng)分者或同一個(gè)評(píng)分者在不同的時(shí)間,在測驗(yàn)過程中觀察、記錄、記分等一致性而言,方法為隨機(jī)抽權(quán)相當(dāng)份數(shù)的測驗(yàn)卷,由兩位評(píng)分者按記分要點(diǎn)評(píng)分,然後依兩個(gè)分?jǐn)?shù)計(jì)算其相關(guān)係數(shù)。第五十一頁,共九十頁,2022年,8月28日內(nèi)部一致法1.折半信度(split-halfreliability),依正常程序施測,將全部試題分為相等的兩半(大多依單、雙數(shù)題),計(jì)算每位受試者在兩半測驗(yàn)的總得分,再以這兩半分?jǐn)?shù)計(jì)算其相關(guān)係數(shù)。因僅計(jì)算測驗(yàn)兩半之相關(guān),故需用公式校正,其中常用的是斯布校正公式(Spearman-BrownProphecyFormula),如下頁右;但若兩半變異數(shù)不等,則宜用范氏公式(如下頁左)。2.庫李信度〈Kuder-RichardsonReliability,1937〉僅適用二分法測驗(yàn)。3.Cronbach’sα係數(shù)(1951)適用各種計(jì)分法之測驗(yàn)。4.Hoyt信度係數(shù)

(C.Hoyt,1941)信度乃真正分?jǐn)?shù)變異數(shù)在實(shí)得分?jǐn)?shù)總變異數(shù)中所佔(zhàn)之比率。rH=1-MSerrors/MSindividuals【附註:上述公式中之k為題數(shù),p為某題答對(duì)率,q為答錯(cuò)率,M為測驗(yàn)總分X的平均數(shù),SD為測驗(yàn)總分X的變異數(shù),SDi為某題分?jǐn)?shù)的標(biāo)準(zhǔn)差?!康谖迨?,共九十頁,2022年,8月28日第五十三頁,共九十頁,2022年,8月28日內(nèi)部一致性信度係數(shù)的求法舉例I1I2I3I4I5I6XXX奇數(shù)偶數(shù)乘積A011111525236B111010416313C00110024111D111111636339E01000011010SUM2443321882991941616994324平方和244332822321SD0.4898990.490.48991.85471.16620.9798V43.441.360.96pq41.28KR20=0.7535rH=Hoyt信度係數(shù)rF=0.651范氏公式α=0.75350.7535=1-0.1767/0.7167rF=2*(1-(1.36+0.96)/3.44)第五十四頁,共九十頁,2022年,8月28日折半相關(guān)變異來源SSdfMSFPr=(19/5-1.8*1.8)/(1.1662*0.9798)受試間2.866740.71674.057r=0.4901試題0.850.160.906斯布校正誤差3.5333200.1767rSB=2*0.4901/(1+0.4901)總數(shù)7.229r=0.6578利用變異數(shù)求Hoyt信度係數(shù)1.斯布校正公式(Spearman-BrownProphecyFormula)SSt=18-18*18/30=7.2SSb=(82-18*18/5)/6=2.8667SSitem=(58-18*18/6)/5=0.8[用IA程式計(jì)算所得]Coe.ofKuder-Richardsonformula:0.7535Coe.ofSplit-halfreliability:0.4901Coe.ofSpearman-Brownformula:0.6578Coe.ofRulonformula:0.6512rH=1-MSerrors/MSindividuals= 1-0.1767/0.7167= 0.7535 第五十五頁,共九十頁,2022年,8月28日相關(guān)係數(shù)的解釋相關(guān)係數(shù)求得後,可根據(jù)樣本人數(shù)N的大小,查「相關(guān)係數(shù)顯著性臨界值」表,以決定該相關(guān)值是否由機(jī)遇造成。不能僅憑其數(shù)值大小而斷言其相關(guān)的高低。相關(guān)是共變關(guān)係,僅表示兩個(gè)變項(xiàng)相互關(guān)係而已,不表示具有因果關(guān)係。相關(guān)係數(shù)的值介於+1至-1之間。+1稱為完全正相關(guān),-1稱為完全負(fù)相關(guān),相關(guān)係數(shù)為0時(shí)稱為完全零相關(guān)。Pearson積差相關(guān)為直線相關(guān),若兩變項(xiàng)為非直線關(guān)係則不適用。相關(guān)係數(shù)的平方稱為決定係數(shù),乃表示X變項(xiàng)解釋Y變項(xiàng)變異量的百分比。第五十六頁,共九十頁,2022年,8月28日測量標(biāo)準(zhǔn)誤

standarderrorofmeasurement在測量中,對(duì)同一受試者測無限多次的平均數(shù)為真正分?jǐn)?shù),但每次測量的實(shí)得分?jǐn)?shù)與真正分?jǐn)?shù)間不一定一致,而有誤差,稱為「測量誤差」,而無限多次的測量誤差將形成一常態(tài)分配,測量誤差分配的標(biāo)準(zhǔn)差,特稱為「測量標(biāo)準(zhǔn)誤」。

(個(gè)人真正分?jǐn)?shù)的推定。測量標(biāo)準(zhǔn)誤是由信度係數(shù)衍生而來的一個(gè)統(tǒng)計(jì)數(shù)值,對(duì)測驗(yàn)分?jǐn)?shù)的解釋有重要的用途,測量標(biāo)準(zhǔn)誤最大的功能便是協(xié)助我們?nèi)?duì)測驗(yàn)各層面上誤差的大小有所了解。其公式如下:SEM=SD

(√1-rxx)confidenceinterval信賴區(qū)間較理想的測量分?jǐn)?shù)解釋是同時(shí)使用實(shí)得分?jǐn)?shù)和測量標(biāo)準(zhǔn)誤,來估計(jì)真正分?jǐn)?shù),通常用區(qū)間估計(jì)來呈現(xiàn);例如某人在魏氏智力測驗(yàn)智商為108,該測驗(yàn)之信度係數(shù)為.91,則其真正智商的信賴區(qū)間如下:測量標(biāo)準(zhǔn)誤=15(√1-.91)=4.595%信賴區(qū)間=108±2(4.5)=99~11799%信賴區(qū)間=108±2.58(4.5)=96.4~119.6[註:上式中2為概率95%的z值的近似值;2.58為概率99%的z值]第五十七頁,共九十頁,2022年,8月28日測量標(biāo)準(zhǔn)誤SEM

(StandardErrorofMeasurement)信度表示測量分?jǐn)?shù)的穩(wěn)定與可靠性,亦表示測量受到測量誤差的影響程度測量分?jǐn)?shù)的變異量,受到測量誤差影響的部分,稱為測量誤差變異量,開方後稱為測量標(biāo)準(zhǔn)誤(σe)測量誤差被假設(shè)呈常態(tài)分配,因此測量標(biāo)準(zhǔn)誤配合常態(tài)化機(jī)率可以用來進(jìn)行測量分?jǐn)?shù)的區(qū)間估計(jì)rxx

X特質(zhì)的測驗(yàn)信度X分?jǐn)?shù)的95%的信心區(qū)間Ex.某測驗(yàn)變異數(shù)100,信度.80,測量標(biāo)準(zhǔn)誤為何?某生得分80分,95%信心估計(jì)為何?第五十八頁,共九十頁,2022年,8月28日差異分?jǐn)?shù)標(biāo)準(zhǔn)誤

standarderrorofthedifferenceAstatisticalindexthatcanhelpatestuserdeterminewhether,foranindividualexaminee,thedifferencebetweenscoresontwotestsorsubtestsissignificant.用於個(gè)人測驗(yàn)分?jǐn)?shù)的解釋,可幫助受試者了解其在兩測驗(yàn)或分測驗(yàn)所得分?jǐn)?shù)間,是否達(dá)顯著差異。兩項(xiàng)測驗(yàn)分?jǐn)?shù)的比較。應(yīng)用差異分?jǐn)?shù)的標(biāo)準(zhǔn)誤,其公式如下:SEdiff=SD(√2-rxx-ryy)例如小華在語文測驗(yàn)得T分?jǐn)?shù)56,空間關(guān)係測驗(yàn)得T分?jǐn)?shù)48,已知語文測驗(yàn)信度係數(shù)為.84,空間關(guān)係測驗(yàn)信度係數(shù)為.91,則其差異分?jǐn)?shù)的標(biāo)準(zhǔn)誤=10*0.5=5。當(dāng)α=.05,其臨界值=1.96*5=9.8,而兩測驗(yàn)分?jǐn)?shù)差異為八分(56-48=8),小於臨界值,故差異不顯著。第五十九頁,共九十頁,2022年,8月28日信度係數(shù)的樣本依賴性:信度係數(shù)會(huì)因樣本的變異性而受到影響,其依變項(xiàng)可分為:個(gè)別差異:當(dāng)樣本的個(gè)別差異範(fàn)圍越小時(shí),所得的信度係數(shù)會(huì)偏低。能力水準(zhǔn):當(dāng)樣本的能力水準(zhǔn)越接近時(shí),所得的信度亦會(huì)偏低。測量標(biāo)準(zhǔn)誤SEM:所謂的測量標(biāo)準(zhǔn)誤是指因各種隨機(jī)誤差的影響,所測量的分?jǐn)?shù)會(huì)在真實(shí)分?jǐn)?shù)附近變動(dòng)而形成一個(gè)常態(tài)分配,而此常態(tài)分配的標(biāo)準(zhǔn)差,即是測量標(biāo)準(zhǔn)誤。SEM可被用來估計(jì)個(gè)體真實(shí)分?jǐn)?shù)的合理範(fàn)圍。兩分?jǐn)?shù)差異的SEM必大於任一分?jǐn)?shù)的SEM,故效標(biāo)參照測驗(yàn)的信度:可利用複本信度及折半信度來計(jì)算,以避免試題重複。用一般測mastery,減低了個(gè)別差異,故所得信度偏高。不適用於對(duì)preestablishedmastery的人做信度分析。第六十頁,共九十頁,2022年,8月28日generalizabilitytheory概化理論

或譯作概推度理論Adomainsamplingmodelofreliabilitythatrecognizesseveralalternativesofgeneralizationfortestresults.是Cronbach發(fā)展出的一套辨識(shí)測量誤差來源的統(tǒng)計(jì)模型。逐漸取代古典測驗(yàn)理論來定義及估計(jì)測驗(yàn)的信度。它與古典測驗(yàn)理論的不同在於,認(rèn)為測量誤差除了隨機(jī)誤差之外,尚有系統(tǒng)性誤差,例如主試者的施測或評(píng)分習(xí)性,或施測地點(diǎn)、季節(jié)等。概化理論是運(yùn)用變異數(shù)分析的方法以瞭解測驗(yàn)誤差的來源,測驗(yàn)信度及測量標(biāo)準(zhǔn)誤的一種理論。第六十一頁,共九十頁,2022年,8月28日概化理論研究及應(yīng)用前景作者:

劉桔,<<心理科學(xué)>>2003年第26卷第03期

期刊-核心期刊

QCode:xlkx2003030141972年,Cronbach和他的同事們提出概化理論之後,概化理論在行為與心理測量領(lǐng)域得到了廣泛的應(yīng)用,較之經(jīng)典測量理論,它的優(yōu)勢逐漸地顯露:(1)測量的多種誤差來源可以在同一個(gè)分析中分別估計(jì);(2)可以指導(dǎo)決策者選擇最優(yōu)測量方案;(3)提供可靠性係數(shù):概化係數(shù)(G係數(shù))和依存性指標(biāo)(ψ係數(shù))用於不同的決策任務(wù);(4)排除了嚴(yán)格平行測驗(yàn)的假設(shè).概化理論以它的精確性和可靠性受到了信度測量領(lǐng)域研究者們的青睞,本文旨在對(duì)概化理論的基本框架、產(chǎn)生、發(fā)展及應(yīng)用前景進(jìn)行詳細(xì)論述StudiesandApplicationProspectsofGeneralizabilityTheory第六十二頁,共九十頁,2022年,8月28日測驗(yàn)理論主要可以分為兩大類:古典測驗(yàn)理論(classicaltesttheory,CTT)與試題反應(yīng)理論(itemresponsetheory,IRT)。古典測驗(yàn)理論的名稱確立於Gullikson(1950)的經(jīng)典之作「心理測驗(yàn)理論」(TheoryofMentalTest),但是有學(xué)者認(rèn)為古典測驗(yàn)理論的基礎(chǔ)可以追溯到Spearman早在1913就已經(jīng)提出相關(guān)的理論(Embretson&Reuse,2000)。該理論簡單易行,在20世紀(jì)引領(lǐng)著測驗(yàn)編製發(fā)展。試題反應(yīng)理論又稱為潛在特質(zhì)理論(latenttraittheory,LTT),該理論的名稱的確立主要是由Lord&Novick(1968)的經(jīng)典作品(Statisticaltheoriesofmentaltestscores),引發(fā)學(xué)者對(duì)「潛在特質(zhì)」概念的重視與研究。試題反應(yīng)理論背後之?dāng)?shù)學(xué)模式較為複雜,而且受限於早期電腦的運(yùn)算速度,以致於理論推展較緩慢。近年來由於學(xué)者學(xué)者們持續(xù)的重視與推展,再加上電腦運(yùn)算速度大幅提升,大有後來居上,凌駕古典測驗(yàn)理論之趨勢(余民寧,2002)。目前許多重要的入學(xué)考試與證照測驗(yàn),例如國內(nèi)的國中基本學(xué)力測驗(yàn)、美國的托福測驗(yàn)(TOEFL,TestofEnglishasaForeignLanguage)、多益測驗(yàn)(TOEIC,TestofEnglishforInternationalCommunication)、臺(tái)灣理財(cái)規(guī)劃顧問認(rèn)證測驗(yàn)等,其測驗(yàn)編製與考生能力估計(jì)都是採用試題反應(yīng)理論來進(jìn)行。第六十三頁,共九十頁,2022年,8月28日試題反應(yīng)理論

試題反應(yīng)理論(ItemResponseTheory,IRT)以試題目特徵函數(shù)(ItemCharacteristicFunction,ICF)表達(dá)受試者能力和測驗(yàn)反應(yīng)間之關(guān)係,因函數(shù)中所採用的參數(shù)個(gè)數(shù)不同,通常被分成單參數(shù)、雙參數(shù)以及三參數(shù)等三種模式。在受試能力和反應(yīng)的關(guān)係上,IRT以機(jī)率概念的數(shù)學(xué)模式來表達(dá),較古典測驗(yàn)理論以線性關(guān)係來說明,更能契合受試特質(zhì)測量的意義[DowningSM,2003;McHorneyCA.,2003;王文中,1997)。

第六十四頁,共九十頁,2022年,8月28日試題反應(yīng)理論IRT

概要第六十五頁,共九十頁,2022年,8月28日試題反應(yīng)理論IRT

CAT理論基礎(chǔ)主要是源自於試題反應(yīng)理論(itemresponsetheory,

IRT)?;禝RT的單向度(unidimensionality)假定,以及受試者的能力估計(jì)的不變性(invariance),使接受不同試題的受試者能力可以被放在同一個(gè)尺度上互相比較(Hambleton&Swaminathan,1985;Waineretal.,1990)。第六十六頁,共九十頁,2022年,8月28日試題反應(yīng)理論Itemresponsetheory至於最近發(fā)展的試題反應(yīng)理論則對(duì)試題分析提供更豐富的訊息,並使測驗(yàn)的應(yīng)用有更多的發(fā)展。以下概略說明試題反應(yīng)理論的意義與特色:1.試題特徵曲線ICC(ItemCharacteristicCurve,參看圖三)是現(xiàn)代心理計(jì)量學(xué)最強(qiáng)有力的理論之一—試題反應(yīng)理論(Itemresponsetheory)或稱潛在特質(zhì)理論(Latenttraittheory)的基礎(chǔ)。2.某個(gè)試題的試題特徵曲線就是該題答對(duì)機(jī)率對(duì)考生能力的迴歸線。3.試題反應(yīng)理論的基本假設(shè)是:單一維度uni-dimensionality指測驗(yàn)只測一個(gè)特質(zhì)或能力。試題局部獨(dú)立localindependence,就某一受試能力而言,試題間無相關(guān),也就是統(tǒng)計(jì)獨(dú)立。第六十七頁,共九十頁,2022年,8月28日IRT三參數(shù)模式ICC

:ci是試題猜測的程度,ai及bi分別為試題的鑑別度及難度,D值設(shè)在1.7。

P(θ)

轉(zhuǎn)折點(diǎn)

圖三試題特徵曲線ICC第六十八頁,共九十頁,2022年,8月28日試題反應(yīng)理論

Itemresponsetheory4.IRT三參數(shù)模式:ci是試題猜測的程度,ai及bi分別為試題的鑑別度及難度,D值設(shè)在1.7。5.試題反應(yīng)理論的三個(gè)優(yōu)點(diǎn):(1)對(duì)考生能力的估計(jì)不受試題難度的影響;(2)試題之間相對(duì)的難度及鑑別度是根據(jù)考生得分情形來估計(jì);(3)每個(gè)試題對(duì)測量某種能力的精確度可藉由統(tǒng)計(jì)方法估計(jì)出來。第六十九頁,共九十頁,2022年,8月28日試題反應(yīng)理論

Itemresponsetheory6.IRT的實(shí)際應(yīng)用(1)誘答項(xiàng)訊息GettingInformationaboutAbilityfromDistracters。(2)編製電腦適性測驗(yàn)ComputerizedTailoredTesting。簡稱CAT,乃指利用電腦進(jìn)行施測,處理選題,計(jì)分及能力估計(jì)等問題的一種測驗(yàn)方式。(3)特殊測驗(yàn)的試題分析,如篩選測驗(yàn)(screeningtest)或關(guān)鍵計(jì)分法測驗(yàn)(criterion-keyedtests)—MMPI(4)偵測試題偏誤detecttestbias。(5)分?jǐn)?shù)等化。測驗(yàn)的連結(jié)(linking)與等化(equating)是現(xiàn)代測驗(yàn)理論再實(shí)際應(yīng)用的一大領(lǐng)域。第七十頁,共九十頁,2022年,8月28日Item-test-regression

第七十一頁,共九十頁,2022年,8月28日試題特徵曲線ICC

第七十二頁,共九十頁,2022年,8月28日item-characteristiccurve

試題特徵曲線ICCAgraphicaldisplayoftherelationshipbetweentheprobabilityofacorrectresponseandtheexaminee’spositionontheunderlyingtraitmeasuredbythetest.可表示受試在測驗(yàn)中所測到特質(zhì)與正確反應(yīng)百分比的關(guān)係的曲線。IRF試題反應(yīng)函數(shù)第七十三頁,共九十頁,2022年,8月28日一、IRT的概念與發(fā)展j為考生j的能力,bi

是試題i的難度,Pij是受測者答對(duì)某個(gè)題目的機(jī)率試題反應(yīng)理論(itemresponsetheory;IRT)的基本概念第七十四頁,共九十頁,2022年,8月28日試題反應(yīng)理論(IRT)與古典測驗(yàn)理論(CTT)比較試題反應(yīng)理論傳統(tǒng)測驗(yàn)理論模式特性試題的作答反應(yīng)模式。不同IRT模式適用不同測驗(yàn)。

測驗(yàn)總分的模式。各種測驗(yàn)都使用同一套模式。試題參數(shù)題目參數(shù)估計(jì)不變性。題目參數(shù)會(huì)受到受試者能力影響能力量尺能力估計(jì)不變性。根據(jù)概似函數(shù)估計(jì)程度,理論基礎(chǔ)強(qiáng)??芍苯訁⒄疹}目或發(fā)展參照標(biāo)準(zhǔn)來解釋分?jǐn)?shù)可算出等距量尺。受試者能力受到題目特性影響。各題目配分直接加總,缺乏理論基礎(chǔ)需發(fā)展參照標(biāo)準(zhǔn)才能解釋分?jǐn)?shù)。群體為常態(tài)分布才能算出等距量尺。第七十五頁,共九十頁,2022年,8月28日信度測量精確度(訊息量)隨著受試者能力以及所接受的題目特性而不同。接受同一測驗(yàn)的所有受試者其測量精確度(信度)都相同。應(yīng)用編製測驗(yàn)(量表)、分?jǐn)?shù)等化,編製題庫、電腦化適性測驗(yàn)、組合測驗(yàn)編製測驗(yàn)(量表)整體評(píng)估優(yōu)點(diǎn):能力估計(jì)不變性、具有題目參數(shù)估計(jì)不變性、測量精準(zhǔn)度的概念較合理、應(yīng)用層面較廣。缺點(diǎn):不易理解、能力估計(jì)與試題參數(shù)估計(jì)較麻煩,須仰賴電腦軟體來分析優(yōu)點(diǎn):模式簡單易理解,能力與試題參數(shù)容易計(jì)算。缺點(diǎn):等測量標(biāo)準(zhǔn)誤假設(shè)不合理、應(yīng)用較狹隘,受試者程度受題目特性影響、題目參數(shù)受受試者特性影響。試題反應(yīng)理論(IRT)與古典測驗(yàn)理論(CTT)比較(續(xù))第七十六頁,共九十頁,2022年,8月28日評(píng)量系統(tǒng)公司

當(dāng)代IRT的發(fā)展向度數(shù)量計(jì)分方式參數(shù)個(gè)數(shù)模式提出者適用軟體單向度二元計(jì)分單參數(shù)模式(Rasch模式)Rasch(1960)Bigstep,BILOG,BILOG-MG二參數(shù)模式Lord(1952)三參數(shù)模式Birnbaum(1968)多元計(jì)分類別反應(yīng)模式(nominalresponsemodel)Bock(1972)MULTILOG,ConQuest等級(jí)反應(yīng)模式(graderesponsemodel)Samejima(1969)部份給分模式(partialcreditmodel)Wright&Masters(1982)評(píng)定量尺模式(ratingscalemodel)Andrich(1978)多向度二元計(jì)分多向度二參數(shù)模式Mckinley&R

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論