![IRT在量表(測驗)編制上的應(yīng)用_第1頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/2/066c61d4-c30b-40ef-984f-6070548ece38/066c61d4-c30b-40ef-984f-6070548ece381.gif)
![IRT在量表(測驗)編制上的應(yīng)用_第2頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/2/066c61d4-c30b-40ef-984f-6070548ece38/066c61d4-c30b-40ef-984f-6070548ece382.gif)
![IRT在量表(測驗)編制上的應(yīng)用_第3頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/2/066c61d4-c30b-40ef-984f-6070548ece38/066c61d4-c30b-40ef-984f-6070548ece383.gif)
![IRT在量表(測驗)編制上的應(yīng)用_第4頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/2/066c61d4-c30b-40ef-984f-6070548ece38/066c61d4-c30b-40ef-984f-6070548ece384.gif)
![IRT在量表(測驗)編制上的應(yīng)用_第5頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/2/066c61d4-c30b-40ef-984f-6070548ece38/066c61d4-c30b-40ef-984f-6070548ece385.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、目錄前言-1第一章 試題反應(yīng)理論的概念與發(fā)展-2第一節(jié) 試題反應(yīng)理論的基本概念-2第二節(jié) 試題反應(yīng)理論與古典測驗理論的比較-2第三節(jié) 常見的irt模式-6第四節(jié) irt的基本假設(shè)-13第五節(jié) 當(dāng)代irt的發(fā)展-14第六節(jié) irt的應(yīng)用-15第二章 irt在測驗編制上的應(yīng)用-19第一節(jié) 測驗(量表)設(shè)計原理-19第二節(jié) 選擇模式-21第三節(jié) 估計受試者程度值-22第四節(jié) 試題分析-25第五節(jié) 測驗訊息量與測量標(biāo)準(zhǔn)誤-28第六節(jié) 檢視資料的符合性-29第七節(jié) 以irt編制測驗的實例-32前言試題反應(yīng)理論(irt)是測驗領(lǐng)域中較新的技術(shù),它已經(jīng)被應(yīng)用在教育、心理、醫(yī)療等相關(guān)領(lǐng)域中,如國中基本學(xué)力測驗
2、、托福、gre、gmat考試,以及國外的一些人格量表與醫(yī)學(xué)相關(guān)量表的編制。當(dāng)代著名的計算機化適性測驗(cat)也必須仰賴irt的理論與技術(shù)才能運作。本次工作坊的主要內(nèi)容是以介紹irt的概念與實務(wù)應(yīng)用為主,上午的課程是先對irt做基礎(chǔ)概念的介紹,接著以生活品質(zhì)量表與國中基本學(xué)力測驗的發(fā)展為例,介紹irt的基礎(chǔ)應(yīng)用,并有實際數(shù)據(jù)讓學(xué)員上機操作,對于有量表發(fā)展需求者而言相當(dāng)實用。下午是irt的進(jìn)階課程,介紹irt在多向度測驗及計算機化適性測驗上的應(yīng)用,對于有興趣發(fā)展人格量表、多元性向測驗等多向度測驗,或是想發(fā)展計算機化適性測驗的人而言是很適合的課程。第一章、試題反應(yīng)理論的概念與發(fā)展第一節(jié) 試題反應(yīng)理
3、論的基本概念試題反應(yīng)理論(item response theory; irt)主要是用來描述試題特性(難度、鑒別度、猜測度)與受測者的能力(潛在特質(zhì))如何影響其答題反應(yīng)的一種數(shù)學(xué)模式。最簡單的irt模式如下列公式(1)所示(rasch, 1960):, (1)其中qj為考生j的能力,bi是試題i的難度,而pij是受測者答對某個題目標(biāo)機率。在irt的模式中,受試者在某個題目上的答對機率是同時受到受試者能力與試題難易度所影響;而受試者在測驗上的整體表現(xiàn)就是各題目答對機率的聯(lián)合機率。藉由這個數(shù)學(xué)模式與聯(lián)合機率的概念,我們就能根據(jù)受試者在各個題目上的答題反應(yīng)來估計受試者的能力以及題目的難易度,并且讓接
4、受不同題目的受試者其能力可以互相比較。irt其實是許多試題反應(yīng)模式的總稱,當(dāng)代已經(jīng)有許多irt模式分別適用在許多不同的測驗情境中。常見的 irt模式可以根據(jù)其所包含的試題參數(shù)數(shù)目來分,分為單參數(shù)的rasch模式、二參數(shù)模式與三參數(shù)模式(birnbaum, 1968)。也可以依據(jù)計分型態(tài)來分,分成二元計分(dicotomous)與多元計分(polytomous)模式;或是依據(jù)適用的作答方式來分,分成評定量尺(rating scale)模式、部分計分(partial credit)模式、名義量尺(nominal scale)模式等。第二節(jié) 試題反應(yīng)理論與古典測驗理論的比較試題反應(yīng)理論與傳統(tǒng)測驗理論
5、(classical test theory; ctt)的比較見表1-1所示(embretson & reise, 2000; hambleton & swaminathan, 1986)。大致可以從模式特性、試題參數(shù)特性、能力與分?jǐn)?shù)量尺特性、測量精準(zhǔn)度與應(yīng)用等幾個層面來看。1.模式特性:irt的模式是針對單一試題的作答反應(yīng)所提出的數(shù)學(xué)模式,在其模式中同時考量了受試者能力與試題特性對答對機率的影響,所以它是一種直接描述作答行為的模式。此外,irt其實是許多試題反應(yīng)模式的總稱,這些irt模式是分別依據(jù)各種不同計分方式與不同作答方式的測驗情境所發(fā)展出來的。表1-1 試題反應(yīng)理論與傳
6、統(tǒng)測驗理論的比較試題反應(yīng)理論傳統(tǒng)測驗理論模式特性1.針對單一試題的作答反應(yīng)所提出的數(shù)學(xué)模式。2.現(xiàn)有各種不同的irt模式,適用于不同計分方式與作答方式的測驗中。1.針對測驗總分所提出的數(shù)學(xué)模式。2.各種不同計分方式與作答方式的測驗都使用同一套模式。試題參數(shù)特性題目特性(參數(shù))的估計不會受到試者能力所影響。題目特性(參數(shù))的估計會受到試者能力所影響。能力與分?jǐn)?shù)量尺特性1.對受試者的能力估計不會受到題目特性所影響。2.根據(jù)irt模式與概似函數(shù)估計受試者最有可能的程度值,有比較強的數(shù)學(xué)理論基礎(chǔ)。3.可以直接參照題目的特性來解釋分?jǐn)?shù),也可發(fā)展出一套參照標(biāo)準(zhǔn)(常模參照或標(biāo)準(zhǔn)參照)來解釋分?jǐn)?shù)。4.用某些i
7、rt模式可算出等距量尺。1.對受試者的能力估計會受到題目特性所影響。2.根據(jù)各題目的配分直接加總所得的分?jǐn)?shù),間接推測出受試者的程度值,較缺乏數(shù)學(xué)理論基礎(chǔ)。3.通常需要額外發(fā)展出一套參照標(biāo)準(zhǔn)(常模參照或標(biāo)準(zhǔn)參照),才能解釋測驗分?jǐn)?shù)的意義。4.當(dāng)群體的分?jǐn)?shù)完全符合常態(tài)分布時,才能轉(zhuǎn)換出等距量尺。測量精準(zhǔn)度(信度)測量精確度的評估是以題目為單位來計算再加總起來,因此受試者的測量精確度(訊息量)是隨著受試者的能力以及所接受的題目特性而有所不同。測量精確度的評估是以測驗為單位,因此接受同一測驗的所有受試者其測量精確度(信度)都相同。應(yīng)用編制測驗(量表)、分?jǐn)?shù)等化,編制題庫、計算機化適性測驗、組合測驗編制
8、測驗(量表)整體評估優(yōu)點:具有能力估計不變性、具有題目參數(shù)估計不變性、測量精準(zhǔn)度的概念較合理、應(yīng)用層面較廣。缺點:模式不易理解、能力估計與試題參數(shù)估計較麻煩,須仰賴計算機軟件來分析。優(yōu)點:模式簡單易理解,能力與試題參數(shù)容易計算。缺點:不合理地假設(shè)不同人的測量精準(zhǔn)度相同、應(yīng)用層面較狹隘,受試者程度值會受題目特性所影響、題目參數(shù)值會被受試者特性所影響。傳統(tǒng)測驗理論則是一種針對測驗總分所提出的數(shù)學(xué)模式。在傳統(tǒng)測驗理論中假設(shè)測驗所得的分?jǐn)?shù)是包含了真實分?jǐn)?shù)與誤差兩個部份。如公式(2)所示:x(測得分?jǐn)?shù))=t(真實分?jǐn)?shù))+e(誤差), (2)不過這個模式并未說明測驗總分是如何得到的(一般都是直接對各試題的
9、得分加總),也不知道受試者答題反應(yīng)與題目難易度或受試者能力關(guān)系。在傳統(tǒng)測驗理論中,不論是使用何種題型、何種計分方式或作答方式,都是使用公式(2)來描述測得分?jǐn)?shù)的特性,所以是一種與作答行為無關(guān)的數(shù)學(xué)模式。2.試題參數(shù)特性試題參數(shù)是指試題的難易度、鑒別度、猜對率等用來描述試題特性的指標(biāo)。在irt中,題目參數(shù)的估計不會受到試者能力所影響。這主要是因為在irt中已經(jīng)將試題參數(shù)與受試者能力同時納進(jìn)其模式里,因此在估計其試題參數(shù)時已經(jīng)考量了受試者能力的影響,因此所估計出來的試題參數(shù)不會受到受試者能力所影響。所以在irt中估計試題參數(shù)時,受試者是否具有代表性并不是很重要,只要受試者的人數(shù)夠多(單參數(shù)模式至少
10、200人,三參數(shù)模式至少1000人),程度值不會過度集中,就能夠估計出穩(wěn)定的試題參數(shù)。在傳統(tǒng)測驗理論中,試題參數(shù)幾乎是完全決定于受試群體的能力。以難易度為例,如果受試群體的能力較高,則計算出來的試題難易度值(答對率)就變高,亦即題目變簡單;如果受試群體的能力較低,則計算出來的試題難易度值(答對率)就變低,亦即題目變難。所以試題是難還是簡單,完全取決于抽樣時所選到的受試群體能力高低,因此樣本的代表性對試題參數(shù)的估計有很重要的影響力。同樣地,試題鑒別度也會明顯地受到受試群體的能力分散程度所影響。3.能力與分?jǐn)?shù)量尺特性在irt中,對受試者的能力估計值也不會受到試題特性所影響,這也是因為irt模式已經(jīng)
11、將試題參數(shù)與受試者能力同時納進(jìn)其模式里,因此在估計受試者能力時已經(jīng)考量了試題參數(shù)的影響,因此所估計出來的試題參數(shù)不會受到受試者能力所影響。此外,irt的程度值是根據(jù)irt模式與概似函數(shù)(likelihood)所估計出來的,有比較強的數(shù)學(xué)理論基礎(chǔ)。而irt的程度值與試題難易度值是共享同一個量尺,也就是說一個人的能力高低可以直接參照題目的難易度以及題目的描述句來解釋,因此不需要參照群體就能詳細(xì)地解釋受試者的能力特性。最特別的是,如果使用irt中的rasch模式(單參數(shù)模式),則所估計出來的受試者能力值具有等距量尺的特性,亦即其能力量尺的單位距離是相同的,這可以由rasch模式的推估證明出來(王文中
12、,民86)。在傳統(tǒng)測驗理論中,受試者的能力值是直接加總測驗中各題目的得分所得。當(dāng)測驗的題目較難,則受試者的得分通常會比較低;當(dāng)測驗的題目較簡單,則受試者的得分通常會比較高,意即受試者的能力高低完全決定于他所接受到的題目難易度。而這種直接將各題目的得分加總形成能力值的做法也缺乏數(shù)學(xué)理論依據(jù),因為人的能力并不是如此單純的根據(jù)題目的答對情形來加總,否則只要重復(fù)地讓一個人作同樣的題目10次,能力豈不變成10倍。此外,傳統(tǒng)測驗理論所得到的分?jǐn)?shù)無法直接依題目特性來解釋,需要另外建立一套參照標(biāo)準(zhǔn)(常模參照或標(biāo)準(zhǔn)參照)才有辦法解釋測驗分?jǐn)?shù)的意義。而且傳統(tǒng)測驗理論所得的分?jǐn)?shù)也不具備等距量尺的特性,因此其分?jǐn)?shù)嚴(yán)格
13、說來并不適合進(jìn)行四則運算,也不適合直接拿來做t檢定或因素分析等統(tǒng)計運算。4.測量精準(zhǔn)度irt的測量精準(zhǔn)度是以訊息量(information)的概念來表示。訊息量是指某種難度的題目對某種能力的受試者的測量誤差平方根的倒數(shù)。如公式(3)所示:, (3)其中i為訊息量,為測量誤差。測量誤差愈低,對此人的測量就愈精準(zhǔn),因此該題所提供的訊息量就愈高。相同題目對不同能力者而言其訊息量并不相同,因此即使是接受相同的測驗,對不同能力者而言,他們的訊息量或測量誤差應(yīng)該是不相同的。這種測量精準(zhǔn)度的特性較符合實際的測驗情況,因為測驗題目的難易度很難同時適用于各種不同能力的受試者,對高能力者而言,題目可能過于簡單而測
14、不出其能力;對低能力者而言,題目可能過難而也測不出其能力;只有對中等能力者而言,題目的難易度較適當(dāng),較能精確地測出其能力。irt的訊息量概念恰可以反映出測驗對不同能力者有不同測量精準(zhǔn)度的現(xiàn)象。反觀傳統(tǒng)測驗理論,其測量精確度的評估是以測驗為單位所計算出來的,也就是測量標(biāo)準(zhǔn)誤(standard error of measurement; sem)。我們可以經(jīng)由x=t+e的概念算出測驗的信度(reliability),再經(jīng)由下列公式轉(zhuǎn)換得來:其中為群體分?jǐn)?shù)標(biāo)準(zhǔn)差,為r測驗信度。由于在傳統(tǒng)測驗理論中,接受相同測驗的受試者其信度都相同,因此測量標(biāo)準(zhǔn)誤也被視為相同。而這樣的假設(shè)顯然與實際的測驗情況是不符合
15、的,因為測驗中的題目不見得對各種不同能力的受試者而言都適用。5.應(yīng)用irt是促進(jìn)現(xiàn)代測驗進(jìn)步的重要關(guān)鍵,尤其是計算機化適性測驗?;趇rt的單向度假定與受試者能力估計的不變性,接受不同題目的受試者其能力就可以比較,因此就能讓受試者都接受適合于自己能力的題目,達(dá)到適性測驗的目的。除此之外,irt的試題參數(shù)較不受樣本所影響,因此很適合用來發(fā)展題庫;而irt的能力也較不受試題參數(shù)所影響,所以也很適合用來進(jìn)行能力分?jǐn)?shù)的等化。另外,irt也明確地建構(gòu)出試題與測驗之間的關(guān)系,因此可以直接根據(jù)測驗的目的(例如希望對不同能力者的測量誤差要低于多少)來選擇測驗題目,組成各種形式的測驗。而傳統(tǒng)測驗理論的應(yīng)用就比較
16、局限在測驗編制或量表編制上,很難應(yīng)用在上述各層面中。整體而言,irt是屬于理論架構(gòu)較嚴(yán)謹(jǐn)、應(yīng)用層面較廣的測驗理論,irt所提來的諸多測量特性都較符合實際的測驗情況;但是由于其模式較復(fù)雜不易讓人理解,計算過程也較繁瑣,因此尚未廣泛地被大眾所接受。不過隨著計算機科技的進(jìn)步,進(jìn)行irt分析時所需要的計算已經(jīng)都可以用計算機來執(zhí)行,因此也已經(jīng)漸漸被應(yīng)用在一些著名的大型測驗中,例如國外的toefl、gre測驗,以及國內(nèi)的國中基本學(xué)力測驗等。而傳統(tǒng)測驗理論由于已經(jīng)被使用許久,而且其理論概念較簡單,目前現(xiàn)有的測驗也大多以它為基礎(chǔ)所發(fā)展出來的,因此短期內(nèi)還不太容易被irt所取代;然而它在測量特性上的一些問題以及
17、應(yīng)用層面的局限性,已經(jīng)讓某些領(lǐng)域的測驗(量表)編制者漸漸轉(zhuǎn)向以irt為理論基礎(chǔ)來發(fā)展測驗。相信未來irt在測驗評量領(lǐng)域的普及率應(yīng)該會愈來愈廣。第三節(jié) 常見的irt模式由于irt是許多試題反應(yīng)模式的總稱,直到現(xiàn)在irt模式還在發(fā)展中。以下僅以計分的方式來分,分別介紹常見的幾種irt模式。(一)二元計分模式二元計分模式是指受試者在題目上的答題反應(yīng)只有答對或答錯兩種。這類模式又可以根據(jù)模式中所考慮到的試題參數(shù)個數(shù)來分,分為單參數(shù)的rasch模式(rasch, 1986)、二參數(shù)模式與三參數(shù)模式(birnbaum ,1968; lord , 1952)。1. rasch模式rasch模式如公式(1)所
18、示,先前已經(jīng)介紹過了。在rasch模式中認(rèn)為,影響受試者答對機率的試題特性主要是難易度,因此只要了解人的能力與題目的難易度,就能知道該人在某題目上的答對機率是多少。而在rasch模式中,所有試題都被要求要具有高鑒別度(都是1.0),而受試者猜對題目標(biāo)機率已經(jīng)被納入受試者能力中,而不是試題特性,因此猜對率為0。該模式最大的特色是它對試題的特性與受試者的作答反應(yīng)有較嚴(yán)格的要求,如果都能符合這些要求,則所估計出來的能力值就能反映出受試者的真實能力,而且是等距量尺。根據(jù)rasch模式,我們可以畫出各試題的特征曲線(item characteristic curve; icc),如圖1-1所示。對同一試
19、題而言,一個人的能力愈高其答對該題的機率應(yīng)該也愈高,因此這個曲線是單調(diào)遞增(monotonically increasing)曲線。由于每個試題都被要求需要有相同的高鑒別度,因此每條曲線在中段的部分看起來都很接近平行,整份測驗的試題特征曲線放在一起就好像是一把尺上面有許多刻度一般。其中以答對率為0.5向右劃一條橫線,與各試題特征曲線的交叉點,對應(yīng)到能力軸上的值,被定義為該題的難易度。由此也可以看出在irt中,能力與試題難易度被視為是被放在同一個量尺上的相對概念,因為模式中兩者的數(shù)值是可以直接相減的。圖1-1 rasch模式中不同試題的特征曲線圖2.二參數(shù)模式二參數(shù)模式最早是由lord (195
20、2)所提出,當(dāng)時所提出來的是常態(tài)肩型模式,之后再經(jīng)birnbaum (1968)修改成較間單的對數(shù)模式,如公式(4)所示。, (4)其中是試題i的鑒別度,其它的符號意義與公式(1)相同。在二參數(shù)模式中,與rasch最大的不同點是題目可以被允許有不同的鑒別度,而這些不同的鑒別度會對受試者答對題目標(biāo)機率有不同程度的調(diào)節(jié)性影響。這種模式與實際數(shù)據(jù)的分析結(jié)果較為接近,因為命題者所設(shè)計出來的試題很難都具有相同的高鑒別度,有些題目的鑒別度總是不符合預(yù)期,但是依然能發(fā)揮部份的測量功能。二參數(shù)模式所畫出來的試題反應(yīng)曲線如圖1-2所示。在圖1-2中,有的曲線的中段是比較陡峭的(例如a1),有的則是比較平緩的(例
21、如a2),這些題目雖然具有相同的難易度,但是隨著受試者能力的提升,他們答對這兩題的機率變化情形卻不相同。在a1中段的區(qū)域,能力只要有些微的改變其答對率就有顯著的提升;而在a2中,同樣的能力改變量,其答對率的提升情形明顯不如a1。圖1-2 二參數(shù)模式中不同試題的特征曲線圖3.三參數(shù)模式三參數(shù)模式的概念也是源自于lord (1952)與birnbaum (1968)。這種模式主要是針對那些可以經(jīng)由猜測來答對試題的測驗情況,例如選擇題、是非題等。如公式(6)所示。,(5)其中是試題i的猜對率,這里要特別注意的是此猜對率是指能力極低者猜對該題的機率,隨著能力的提高,答對該題的機率仍然會提升,但可以提升
22、的機率范圍僅有。由于在模式中,每個題目除了有難易度與鑒別度的特征外,還有可以被猜對的可能性,因此這種模式比二參數(shù)模式更能符合實際的數(shù)據(jù)。三參數(shù)模式的試題特征曲線如圖1-3所示,從圖1-3可以看出試題特征曲線更具有多樣性。在圖形左方,各試題特征曲線與縱軸的交叉點即為該題的猜對率,也就是能力很低者答對該題的機率。在以選擇題為主的測驗情境中,我們經(jīng)常可以發(fā)現(xiàn)有些試題因為誘答選項設(shè)計不佳,或是題目中有些暗示答案的線索,造成即使能力很低者也容易猜對該題(例如c1),此時就需要這類模式來找出那些題目。而三參數(shù)模式在估計受試者能力時也已經(jīng)考慮了不同題目的猜對率對受試者答對機率的影響,因此所得到的能力值應(yīng)該會
23、比較符合其實際能力水準(zhǔn)。圖1-4 三參數(shù)模式中不同試題的特征曲線圖(二)多元計分模式多元計分是指受試者在題目上的答題結(jié)果不只有一種,而是有很多種可能性,例如:在成就測驗中,經(jīng)常有計算題、簡答題或申論題等開放式反應(yīng)的題型,根據(jù)受試者回答題目的完整性,分別給予不同的分?jǐn)?shù)或等級?;蚴窃趹B(tài)度量表中常見的likert量表,將受試者在量表題目上的答題反應(yīng)分成非常同意、大致同意、沒意見、不太同意、非常不同意等,并分別給予15分。關(guān)于這些多元計分題的irt模式相當(dāng)多,在此僅介紹兩種較常見的模式。1.部份給分模式部份計分模式(partial credit model, pcm) 是由masters(1982)所
24、提出來的,由于這是他歸納各種適用于次序反應(yīng)數(shù)據(jù)的模式所得,因此pcm的適用層面較廣。只要是題目的評分點有次序的概念,得到低分比較簡單,得到高分比較難時,就能適用于這種模式。pcm的概念如公式(6)所示:, (6)其中,是第i題的最高得分,而是第i題的第j個得分的難度階(step difficult)。因此可以解釋成在第i題所有可能的得分類別中,得到x分的機率有多高。例如,某個計算題的計分方式是03(即)分,受試者得到1分的機率是: 而、就是分別從0分要變成1分、從1分要變成2分,或是從2分要變成3分所需跨越的難度階(或是能力點)。這可以用圖1-4來說明較清楚。在圖1-4中,依各種能力者得到不同
25、分?jǐn)?shù)類別的機率所畫出來的曲線稱為類別反應(yīng)曲線(category response curve)。其中,曲線0與曲線1的交叉點即為,此即為從0分要變成1所需跨越的難度階,或是當(dāng)受試者的能力值高于時,則他得到0分的機率將會高于他得到1分的機率。藉由這種多元計分模式,我們可以知道受試者要在某個題目上得到某個分?jǐn)?shù)時(例如:得到1分),其能力的可能范圍所在(例如:圖中的之間),因此就能夠?qū)κ茉囌叩哪芰ψ鞲_的測量。但是要達(dá)到這個目標(biāo),需要有客觀的評分結(jié)果。從另一個觀點來看,也可以看成是評分者把受試者評為某種分?jǐn)?shù)點的嚴(yán)苛程度,愈高,表示評分者對于該題要得到某個分?jǐn)?shù)點的要求愈高,意即愈嚴(yán)苛。圖1-4 多元
26、計分模式中,在某試題得m分的類別反應(yīng)曲線圖2.評定量尺模式評定量表模式(rating scale model, rsm)是由andrich (1978)所提出來的,主要是適用在量表中所有的題目都有相同的計分方式時。例如:在自陳式人格或態(tài)度量表中常使用五點式或四點式的likert量表來讓受試者回答,每個題目都使用相同的評分點數(shù),其基本假設(shè)是受試者在各評分點上的差異,對所有題目而言都是相同的。如公式(7)所示:, (7)其中為第i題的平均難度,是量表中各評分點的難度階與平均難度之差距,而。由于rcm假定所有題目的都相同,因此不需像在pcm中樣要估計出每個題目的難度階,而是整份量表只需要估計出m個難
27、度階即可。rsm所畫出來的類別反應(yīng)曲線與pcm很像,在此不再重復(fù),讀者可自行參考圖1-4。唯一不同的是,在pcm中,不同題目的類別反應(yīng)曲線中,各類別的相對位置都不太相同,如圖1-5所示;但是在rsm中,不同題目的類別反應(yīng)曲線中,各類別的相對位置都一樣,只是平均難度不同,所以看起來只是整個圖形向左或向右平移而已,如圖1-6所示。 圖1-5 在多元計分模式,不同試題的類別反應(yīng)曲線圖圖1-6 在評定量尺模式,不同試題的類別反應(yīng)曲線圖第四節(jié) irt的基本假設(shè)irt有兩項重要的基本假設(shè),數(shù)據(jù)必須符合這些假設(shè)才能具備第二節(jié)所述的各項特性,否則就不適合用irt模式來進(jìn)行分析,當(dāng)然也無法具備其良好的測量特性。
28、此兩項重要的假設(shè)是單向度(unidimensionality)與局部獨立性(local independency)。1.單向度單向度是指同一份測驗中的所有題目主要都是測量相同的某一項能力,或是受試者在測驗題目上的答題反應(yīng)主要是受到單一項能力所影響。其實這是大部分測驗的必備條件,只有當(dāng)測驗中所有題目都測到相同的能力,我們才適合將受試者在這些題目上的得分經(jīng)由某種組合得到一個分?jǐn)?shù),用此分?jǐn)?shù)來表示受試者在這項能力上的程度。例如,我們必須檢驗數(shù)學(xué)科測驗中的所有題目是否都是在測量數(shù)學(xué)能力,而不是測到了其它能力,這樣受試者的測驗分?jǐn)?shù)才能代表他的數(shù)學(xué)程度。如果其中有些題目因為語匯表達(dá)太艱深或題意不清,使語文能
29、力較差的受試者看不懂題目而答錯,此時就表示這份數(shù)學(xué)測驗不只測量到數(shù)學(xué)能力,還測量到語文能力,因此就不是單向度測驗,不適合用irt來進(jìn)行分析。有些智力測驗或綜合能力測驗(自然科、社會科)經(jīng)常將許多測量不同能力的分測驗放在一起,就整份測驗而言即是違反單向度假定,因此不適合進(jìn)行irt分析,也不適合形成單一分?jǐn)?shù)來解釋受試者的能力。不過如果測驗結(jié)果是將這些分測驗分開來呈現(xiàn),就能夠用irt模式來針對每個分測驗進(jìn)行分析。另外,當(dāng)題目本身就是設(shè)計用來同時測量兩種能力,受試者必須同時具備這兩種能力才能答對時,也是違反單向度假定。幸好目前已經(jīng)發(fā)展出多向度試題反應(yīng)模式(multidimensional item r
30、esponse theory; mirt)可以用來處里這些測驗(adams, wilson & wang, 1997; hattie, 1981; mckinley & reckase, 1983)。2.局部獨立性局部獨立性則是指相同能力水準(zhǔn)的受試者,在各個題目上的答對機率是互相獨立的。也就是說,受試者的潛在特質(zhì)(能力)是影響答題反應(yīng)的唯一因素,當(dāng)排除這個因素的影響后,不同題目間的答題反應(yīng)不會有任何關(guān)系。此假設(shè)其實是奠基于單向度假設(shè)上,當(dāng)測驗題目為單向度時,此假設(shè)才有可能成立;如果不是單向度,則不同試題的答對機率可能受到其它能力的共同影響,因此就無法符合局部獨立性的假設(shè)。在成就
31、測驗中,常有一些試題會使用同一組閱讀材料或圖片,稱為題組(testlet)。例如:英語或國文能力測驗中的閱讀測驗。受試者必須讀完這些測驗后再回答若干試題。如果這篇閱讀材料是某些受試者事前閱讀過或是特別熟悉的,則他們就比較容易答對這幾題;而那些具有相同能力卻對這類題材比較不熟悉的人就比較容易答錯這幾題,因此這些題目間的答題反應(yīng)就會有相關(guān),而違反局部獨立性假定。像這類測驗就不適合用irt模式來進(jìn)行分析,所幸現(xiàn)在已經(jīng)發(fā)展出題組反應(yīng)模式(testlet response theory; trt)來解決這種問題(wainer, bradlow & du, 2000)。第五節(jié) 當(dāng)代irt
32、的發(fā)展當(dāng)代的irt模式已經(jīng)有數(shù)十種之多,分別應(yīng)用在許多不同的測驗情境里。表1-2分別依據(jù)向度數(shù)量、計分方式、參數(shù)數(shù)量來分類,列舉幾種比較常見的irt模式,以及幾種常見的irt軟件。這些軟件的價格并不高,且有些軟件有免費的試用版本可供下載。在由評量系統(tǒng)公司中販?zhǔn)塾性S多關(guān)于類irt模式的書籍以及軟件,也有些試用版本供下載,詳情請洽。在眾多模式與軟件中,如果研究者沒有特殊的考量,作者比較建議采用包容性較廣的模式與軟件。例如:相較于二元計分模式而言,多元計分模式顯然比二元計分模式好,因為二元計分模式僅是多元計分模式的其中個特例,因此多元計分模式當(dāng)然也可以用來分析二元計分的數(shù)據(jù)。同樣地,采用多向度模式也
33、比單向度模式好,因為單向度模式也是多向度模式中的特例。至于參數(shù)個數(shù),雖然rasch模式也是三參數(shù)模式的特例,但由于rasch模式是比較符合測量觀點的模式,而且可以得到等距量尺,因此如果對測量特性的要求較高者可以考慮采用rasch模式;不過如果測驗題目的品質(zhì)或?qū)嶋H數(shù)據(jù)不容易符合rasch模式,則三參數(shù)模式也是不錯的選擇。表1-2 常見的irt模式與相關(guān)軟件向度數(shù)量計分方式參數(shù)個數(shù)模式提出者適用軟件單向度二元計分單參數(shù)模式(rasch模式)rasch(1960)bigstep,bilog,bilog-mg二參數(shù)模式lord(1952)三參數(shù)模式birnbaum(1968)多元計分類別反應(yīng)模式(no
34、minal response model)bock(1972)multilog, conquest等級反應(yīng)模式(grade response model)samejima(1969)部份給分模式 (partial credit model)wright & masters(1982)評定量尺模式(rating scale model)andrich (1978)多向度二元計分多向度二參數(shù)模式mckinley & reckase(1983)noharm,conquest多向度三參數(shù)模式hattie(1981)多元計分多元計分模式adams, wilson & wang,
35、(1997)第六節(jié) irt的應(yīng)用先前曾提到當(dāng)代irt可以應(yīng)用在許多層面,包括編制測驗(量表)、分?jǐn)?shù)等化,編制題庫、計算機化適性測驗、組合測驗等,以下分別對這些應(yīng)用做簡單說明。1.編制測驗(量表) 編制測驗(量表)是irt最基本的功能,許多irt模式就是分別為了要因應(yīng)各種不同的測驗或量表類型所提出來的。測驗編制者可以根據(jù)所發(fā)展出來的測驗類型與評分方式,選擇合適的irt模式。如果成就測驗中都是采用是非題、選擇題等客觀測驗題型,就很適合用二元計分的irt模式;如果包含計算題、簡答題、申論題等開放式題型時,就可采用部份給分模式;也有專為語文類科的閱讀測驗或克漏字測驗等相依題所設(shè)計的題組反應(yīng)模式。如果是
36、態(tài)度量表中采用likert式的多點計分量表,就可以采用等級反應(yīng)模式或評定量尺模式。如果希望借著不同向度間的相關(guān)性來提高多元性向測驗、人格測驗或綜合能力測驗的測量精準(zhǔn)度,還可以采用多向度irt模式。irt在測驗(量表)分析上的功能主要有下列幾項:(1)了解試題特征:估計試題的難易度、鑒別度、猜對率、計分點的難度階等。(2)估計受試者潛在特質(zhì)(能力):估計出不受試題難易度所影響的受試者程度值。(3)篩選試題與修改試題:根據(jù)的模式符合程度來篩選題目;或根據(jù)題目特征選擇難易度適當(dāng)?shù)母哞b別度試題,或修改猜對率較高的試題。(4)了解測驗對不同程度特質(zhì)(能力)者的誤差:計算測驗在不同能力點的訊息量以及測量誤
37、差。(5)發(fā)展測驗的量尺:建立等距量尺;或在考量測量誤差后將受試者能力值轉(zhuǎn)成所需的量尺分?jǐn)?shù)。有關(guān)這些步驟的做法,將留待以后的章節(jié)中再作詳細(xì)介紹。2.測驗等化(equating)測驗等化是指將受試者程度值(或題目參數(shù))轉(zhuǎn)換成相同量尺,以方便進(jìn)行比較。由于irt所估計出來的受試者程度值具有不受題目難易度影響的特性。因此,只要受試者能力符合irt的模式與基本假設(shè),即使受試者接受不同難度的試題,其所估計出來的能力值不需經(jīng)過等化就可以放在同一個量尺上互相比較。不過其先備條件是題目參數(shù)必須先估計出來。irt所估計出來的題目參數(shù)也具有不受受試者影響的特性,只要受試者的程度值不要過度集中,人數(shù)不要太少,作答行
38、為符合irt基本假設(shè),就能得到穩(wěn)定的題目參數(shù)值。不過估計題目參數(shù)所采取的預(yù)試樣本通常是在不同群體、在不同時間點作答不同組試題所得(因為讓受試者同時作答太多試題容易因疲勞而干擾作答),因此最好對這些試題進(jìn)行試題參數(shù)等化(又稱試題連結(jié))。試題等化的過程需要從安排預(yù)試題目開始,例如要安插共同題到各題本中,并依同時估計法、平均數(shù)標(biāo)準(zhǔn)差法或特征曲線法來調(diào)整試題參數(shù)值。有關(guān)等化的問題需要有較多說明,將留待以后再述。3.建立題庫題庫是指將題目以及其相關(guān)的試題特性與試題參數(shù)建立在同一個數(shù)據(jù)庫中,以便未來能夠方便地從此數(shù)據(jù)庫中依據(jù)測驗?zāi)康某檫x出所適當(dāng)?shù)脑囶}來進(jìn)行測驗。題庫中必須包含許多試題特征(命題者、字?jǐn)?shù)、附
39、圖表等),以及事先估計與等化過的試題參數(shù),否則未來在選取試題來組合測驗時就不知要如何進(jìn)行了。為了達(dá)到這個目的,建立題庫通常需要花費相當(dāng)龐大的人力、物力與時間。因此,只有在需要經(jīng)常性施測(例如每隔一段時間就要施測一次),或需要根據(jù)不同對象來組合測驗,或需要進(jìn)行計算機化適性測驗時才值得建立題庫。建立題庫的大致步驟如下陳柏熹,;wainer et al., 1990:(1)確定題庫的目標(biāo)(測驗?zāi)繕?biāo))(2)建立題庫的雙向細(xì)目表(3)甄選與訓(xùn)練大量的命題者與修(審)題者(4)根據(jù)命題原則設(shè)計試題(5)將試題內(nèi)容與試題參數(shù)輸入計算機數(shù)據(jù)庫(6)修(審)試題 (7)預(yù)試與試題分析(8)分級、整理與補充試題有
40、關(guān)題庫編制的實際作法,將留待以后再作詳細(xì)討論。4.組合測驗由于irt的能力估計不受試題參數(shù)影響;試題參數(shù)的估計也不受受試者能力所影響。因此我們可以根據(jù)不同程度者來發(fā)展出適合他們的測驗,而且還能讓接受不同測驗的受試者能力可以放在相同的量尺上進(jìn)行比較。組合測驗通常是根據(jù)測驗的目標(biāo)或受試者的程度值來決定。最常見的受測驗?zāi)繕?biāo)是希望達(dá)到的測量精準(zhǔn)度有多高,就是測驗信度水準(zhǔn)。當(dāng)然測驗中各項內(nèi)容的題數(shù)比例也需要符合測驗的目標(biāo),此即為內(nèi)容效度。只要該測驗事先建立出完整的題庫,就能根據(jù)一些測驗組合策略,從題庫中選取符合條件的題目來組成所需的測驗。常見的組合測驗的策略有程序選題法、0-1線性規(guī)劃法,類神經(jīng)網(wǎng)絡(luò)法等
41、。應(yīng)用心理測量期刊(applied psychological measurement)第22卷第3期中特別針對這項議題有詳細(xì)介紹,有興趣的讀者可以自行參閱。5.發(fā)展計算機化適性測驗irt最吸引人的應(yīng)用價值莫過于計算機化適性測驗了。計算機化適性測驗主要是利用計算機的快速運算速度,根據(jù)受試者的答題反應(yīng)實時估算出其程度值,并立刻選出符合受試者程度值的題目讓受試者作答。由于所選出來的題目都很適合受試者的程度,因此只需要少數(shù)題目(約傳統(tǒng)非適性測驗的1/21/3)就能達(dá)到與傳統(tǒng)非適性測驗相當(dāng)?shù)臏y量精準(zhǔn)度。除了測量精準(zhǔn)度之外,計算機制式的接口還可以幫助達(dá)到測驗情境標(biāo)準(zhǔn)化,而其多媒體特性也能讓測驗試題更逼真
42、,以彩色、動畫、語音或互動操作的方式來進(jìn)行測驗,提升測驗的效度。有關(guān)計算機化適性測驗的發(fā)展程序?qū)⒘舸罄m(xù)章節(jié)再作詳細(xì)介紹。第二章、irt在測驗編制上的應(yīng)用第節(jié) 測驗(量表)設(shè)計原理有關(guān)irt的測驗設(shè)計原理,讀者可以參考wright與stone(1979)所出版的經(jīng)典讀物優(yōu)良測驗設(shè)計(best test design)。在該書中介紹了幾項與irt有關(guān)的測驗設(shè)計原理,以下提出幾點供參考。1.測量模式的概念測驗所使用的模式必須符合測量的原理,此即為測量模式。些原理包括:a.要具有可以測量的潛在特質(zhì) 可以直接觀察到或用客觀物理工具直接測量的特質(zhì)是不太適合用測驗來測量的;例如高矮胖瘦。而特質(zhì)本身若只有性
43、質(zhì)上的不同而無程度上的差異也不適合用測驗來測量,例如問題解決流程、做事風(fēng)格。只有那些觀察不到的潛在特質(zhì),而且不同人在該特質(zhì)上會有程度上的高低差異時,才是適合用測驗來測量的特質(zhì)。例如:數(shù)學(xué)能力、情緒穩(wěn)定性、焦慮程度等。b.欲測量的特質(zhì)必須是單向度 當(dāng)要測量的特質(zhì)是單向度時,我們就能夠劃出一條線來描述該項特質(zhì),并且設(shè)計出一些能夠測量不同特質(zhì)的題目,用受試者在這些題目上的作答反應(yīng)來估計受試者在該特質(zhì)上的程度值,如圖2-1所示。如果不是單向度,我們就無法畫出一條線來描述這個特質(zhì)的高低程度,即使設(shè)計出一些題目讓受試者去作答,我們也不知道要如何將這些作答結(jié)果來描繪出受試者的程度值。也就是說,測量國文的題目
44、與測量數(shù)學(xué)的題目不應(yīng)該被放在一起或相加成為一項分?jǐn)?shù),因為其不具意義。c.要根據(jù)測驗?zāi)康脑O(shè)計出能測量到不同程度特質(zhì)的題目 測量的目的就是要了解受試者在某種特質(zhì)上的程度。如果許多題目所測量到的程度值都很接近,則受試者在該特質(zhì)上的程度高低就無法被測量開來(如圖2-2上);此外,若題目所測到的程度值安排不恰當(dāng),也無法有效的測出受試者在該特質(zhì)上的差異(如圖2-2中)。當(dāng)題目所測到的程度值能符合測驗的目的均等地分散時,才能較真實地呈現(xiàn)出受試者的程度高低與差異(如圖2-2下)。每天都有用不完的能量常做激烈運動還能活力十足身體功能正常,不影響日常生活從事簡單的活動(散步)後不會累沒有臥病在床休息與睡眠功能正常
45、有辦法從事簡單的運動,如慢跑甲受試者乙受試者圖2-1 單向度的測量概念甲受試者乙受試者甲受試者乙受試者甲受試者乙受試者低程度題目高程度題目高程度題目高程度題目低程度題目低程度題目0分8分4分5分2分5分圖2-2 不同程度題目的安排對測驗結(jié)果的影響d.受測者的答題反應(yīng)必須是合理的 測量品質(zhì)的好壞不只與測驗題目的品質(zhì)有關(guān),也與受試者有關(guān)。如果受試者的作答反應(yīng)很不合理,表示測量的過程有瑕疵,則測驗結(jié)果將無法反映出受試者的程度高低。例如:在圖2-1中,當(dāng)甲受試者對于從事簡單的活動(散步)后不會累右方的題目都覺得他做不到,而對于身體功能正常,不影響日常生活左方的題目都覺得蠻符合他的身體感受,此時我們就能
46、說他對自己身體功能的感受是介于這兩個題目之間。 在圖2-1中,如果受試者對右半部的題目都覺得描述的非常像他對自己的身體感受,而在左半部的題目都認(rèn)為很不像他,這就是不合理的反應(yīng)。則我們將很難判斷出受試者對自己身體感受的評估是高還是低。因為一個做完激烈運動還能活力十足的人,怎么可能無法做到從事簡單的活動(散步)而不覺得累呢?e.分?jǐn)?shù)量尺應(yīng)該要符合等距的特性等距量尺是分?jǐn)?shù)的重要特性,在數(shù)學(xué)上,數(shù)字應(yīng)該要具有單位大小相同的特性的,此即為等距。意即3分與2分之間的差異,應(yīng)該要等于2分與1分之間的差異。符合等距特性的分?jǐn)?shù)才能夠進(jìn)行四則運算。但是在社會科學(xué)的領(lǐng)域里,我們卻經(jīng)常使用不具有等距特性的分?jǐn)?shù)來進(jìn)行四
47、則運算,例如,相加形成總分、相減來比較差異大小等。這些運算其實都不符合數(shù)學(xué)上的要求,當(dāng)然也無法符合統(tǒng)計運算的基本要求。如果測驗所得的分?jǐn)?shù)不僅是描述受試者的程度值,還要進(jìn)行后續(xù)的比較、分析時,就應(yīng)該將測驗分?jǐn)?shù)轉(zhuǎn)成等距量尺。rasch模式所建立出來的量尺恰能符合等距的要求,這也是為何在眾多irt模式發(fā)展出來后,仍然有許多學(xué)者一直獨鐘于rasch模式的主要原因。第二節(jié) 選擇模式使用irt來發(fā)展測驗時,第一個會面臨到的問題就是應(yīng)該要選擇何種模式來進(jìn)行分析,其中又以要選擇單參數(shù)模式、二參數(shù)模式還是三參數(shù)模式來分析的問題最具爭議性。根據(jù)embretson與reise(2000)的建議與作者的經(jīng)驗,選擇ir
48、t模式時應(yīng)考量幾項因素:1.計分或估計能力時,是否要對題目進(jìn)行加權(quán)?如果認(rèn)為各題目對于能力估計都同等重要時,就表示不需要加權(quán),此時可以選單參數(shù)模式;如果不是,就要選二參數(shù)或三參數(shù)模式。2.對量尺特性的要求。如果研究者希望分?jǐn)?shù)量尺要符合等距的特性,就要使用單參數(shù)模式;如果分?jǐn)?shù)量尺不一定要完全符合等距特性,則使用二參數(shù)或三參數(shù)模式即可。3.希望獲得的試題參數(shù)類型。如果編制者想要得到較多的試題參數(shù),以便能得到較完整的試題信息,則可以使用二參數(shù)或三參數(shù)模式;如果只需要知道題目所測量到的程度值,則使用單參數(shù)模式即可。4.根據(jù)量尺特性或測驗分析的目的來決定。如果量尺是屬于多元計分,且允許每個題目有不同的計
49、分方法,則可以使用部分給分模式;如果計分方式都相同(例如:都是五點計分),則可以采用評定量尺模式。此外,有些特殊的irt模式可以滿足測驗分析的目的。例如:linacre(1989)的多面向模式(many-facet model)可以幫助了解評分者嚴(yán)苛程度,并在估計能力時將之因素考量進(jìn)去;fischer(1973)的邏輯斯地潛在特質(zhì)模式(logistic latent trait model; lltm)可以幫助我們了解試題特征(例如:字?jǐn)?shù)、圖形、數(shù)字)與試題參數(shù)的關(guān)系。5.數(shù)據(jù)與模式的符合度的比較。當(dāng)無法決定要使用何種irt模式時,可以試著使用幾種不同的模式分別進(jìn)行分析,算出不同模式的符合度指
50、針(多數(shù)軟件會提供 -2 log likelihood值作為模式符合度指針),然后再使用概率比法(likelihood ratio comparison)來比較何種模式較好。有關(guān)數(shù)據(jù)與模式符合度的比較,將在本章稍后做介紹。第三節(jié) 估計受試者程度值估計受試者在某項特質(zhì)上的程度高低是所有測驗(或量表)的主要目的,對irt而言當(dāng)然也不例外。先前曾提到irt所估計出來的受試者程度值不會受到題目參數(shù)所影響,其主要的作法是不直接用受試者的答題反應(yīng)來計算程度值,而是先根據(jù)答題反應(yīng)以及irt的模式建立反應(yīng)概似函數(shù)(likelihood function),再找出最有可能產(chǎn)生此種概似函數(shù)的受試者程度值。藉由ir
51、t的模式與局部獨立性的假設(shè),可以計算出受測者在整份測驗上的反應(yīng)概似函數(shù),并藉此估計出每個受試者在接受測驗試題后的能力值。其概似函數(shù)如公式(8)所示, (8)其中ui表示受測者答對(u=1)或答錯(u=0)某個題目;pi如公式(1)所示 ,這要依所選取的irt模式而定。而。舉例來說,如果有一位受試者分別做了5個題目,這5個題目的難度分別是(-1.0, 0, 0.5, 1.0, 2.0),而受試者的作答結(jié)果是1,1,0,1,0;其中1代表答對,而0代表答錯。若選擇rasch模式,則受試者的反應(yīng)概似函數(shù)為:此時,我們就可以設(shè)法找出最有可能產(chǎn)生這種反應(yīng)概似函數(shù)的程度值。我們可以試著以-3.0
52、、-2.5、-2.02.5、3.0等不同的程度值代入此概似函數(shù),看看何種程度值代入后會使此概似函數(shù)值最大,則該值就是該受試者最有可能的程度值。從表2-1可以看出,受試者最有可能的程度值應(yīng)該是1.0。 實際上irt軟題在進(jìn)行能力估計時,是以所有受試者在所有題目上的答題反應(yīng)矩陣所形成的概似函數(shù)來進(jìn)行估計,也就是同時估計所有受試者的程度。由于此反應(yīng)概似函數(shù)是個相當(dāng)大的矩陣所建立出來的,通常沒有封閉解,只能求出近似解或最佳解。受測者的能力估計值就是此能使此概似函數(shù)得到最佳解的能力值。最常見的尋找最佳能力解的方法有三種:最大概似法(maximum likelihood; ml)、貝氏最大后驗法(maxi
53、mum a posteriori, map)與貝氏期望后驗法(expected a posteriori, eap)。表2-1 受試者能力的最大概似估計第1題第2題第3題第4題第5題難度-1.000.51.02.0答題反應(yīng)答對答對答錯答對答錯機率pp1-p11-p概似函數(shù)值程度值-3.00.120.050.970.020.990.000程度值-2.50.180.080.950.030.990.000程度值-2.00.270.120.920.050.980.001程度值-1.50.380.180.880.080.970.004程度值-1.00.500.270.820.120.950.012程度值
54、-0.50.620.380.730.180.920.029程度值0.00.730.500.620.270.880.054程度值0.50.820.620.500.380.820.079程度值1.00.880.730.380.500.730.089程度值1.50.920.820.270.620.620.079程度值2.00.950.880.180.730.500.056程度值2.50.970.920.120.820.380.033程度值3.00.980.950.080.880.270.0171.最大概似估計法 最大概似估計法是直接找出能使受試者的反應(yīng)概似函數(shù)最佳化的能力值。就像是表2-1的作法。為
55、了加速找到能使概似函數(shù)為最大值的程度值,通常是先對反應(yīng)概似函數(shù)取對數(shù),再以牛頓-約佛森(newton-raphson)法來進(jìn)行迭代。迭代方式是: , (9)其中,q(j)為受試者在第j次迭代的能力估計值,的計算方式為:, (10)與分別是反應(yīng)概似函數(shù)之對數(shù)值的一階微分與二階微分。使用牛頓-約佛森法來進(jìn)行迭代的優(yōu)點是可以很快地找的受試者的程度值,而且較為精確。如果都使用表2-1的作法會很麻煩,且比較不精準(zhǔn)。2.最大后驗估計法第二種是以受試者的事前能力分布作為加權(quán)值,形成事后機率密度函數(shù),并找出能使此事后機率密度函數(shù)最大化的程度值,稱為貝氏最大后驗法(maximum a posteriori, m
56、ap)。事后機率密度函數(shù)計算方式如公式(11)所示:, (11)map法也可以比照ml法,先求出反應(yīng)概似函數(shù)的對數(shù),再以牛頓-約佛森法來進(jìn)行迭代。map法的概念就好像是當(dāng)我們已經(jīng)知道受試者是來自于資賦優(yōu)異的群體時,我們在估計他的程度值時就可以參考他所屬的群體的能力分布情形,如此我們在估計他的程度值時會有比較準(zhǔn)確的估計。3.期望后驗估計法第三種與第二種方法類似,只是所尋找的能力值是事后機率密度函數(shù)的期望值(相當(dāng)于平均數(shù)),而不是最大值(相當(dāng)于眾數(shù)),此稱為期望后驗法(expected a posteriori, eap)。如公式(12)所示:, (12)其中q是計算能力的期望值時所切割成的量化點,q點愈多,計算得愈精確。不過這種估計方法無法使用牛頓-約佛森法來進(jìn)行迭代,而且隨著所選取的量化點數(shù)愈多,所需的計算量較龐大,計算時間也比較久。在各種能力估計方法的比較上洪碧霞,吳
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年高效照明電器產(chǎn)品項目提案報告
- 2025年住宅用地購買與建設(shè)合同
- 2025年汽車尾氣凈化三效催化劑項目規(guī)劃申請報告
- 2025年個人對公商業(yè)租賃協(xié)議分析與
- 2025年債轉(zhuǎn)股增資擴(kuò)股項目協(xié)議書
- 2025年離婚雙方權(quán)益平衡協(xié)議策劃
- 2025年住宅消防設(shè)施建設(shè)協(xié)議范本
- 2025年企業(yè)投資策劃合作合同協(xié)議范本
- 職業(yè)技能培訓(xùn)管理協(xié)議書
- 2025年終止軟件工程師職業(yè)勞動合同協(xié)議
- 施工現(xiàn)場臨時水電布置操作手冊(永臨結(jié)合做法示意圖)
- 2024年廣西事業(yè)單位D類招聘考試真題
- 公文寫作與常見病例分析
- 2025年國家電投集團(tuán)有限公司招聘筆試參考題庫含答案解析
- 2025年山東菏投建設(shè)集團(tuán)招聘筆試參考題庫含答案解析
- 市政質(zhì)量員繼續(xù)教育考試題庫集(含答案)
- 2025年中國南方航空招聘筆試參考題庫含答案解析
- 2024-2030年中國蠔肉市場發(fā)展前景調(diào)研及投資戰(zhàn)略分析報告
- 售后工程師述職報告
- 《公司法完整版》課件2024
- 江蘇省南京市聯(lián)合體2024-2025學(xué)年八年級上學(xué)期物理期末練習(xí)卷(含答案)
評論
0/150
提交評論