版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
angoff方法有效性的檢驗(yàn)研究
一、總結(jié)(一)標(biāo)準(zhǔn)參照測驗(yàn)中的核心問題教育測量的目的是進(jìn)行比較,例如,對于小學(xué)畢業(yè)生,為了進(jìn)行絕對評估,例如,對于小學(xué)的最終考試,教育測試被劃分為通用模型測試(nrt)和標(biāo)準(zhǔn)測試(crt)。迄今為止,人們對于NRT的研究比較深入,而對于CRT的研究還比較薄弱。但是,標(biāo)準(zhǔn)參照測驗(yàn)的應(yīng)用在當(dāng)今社會越來越廣泛,例如,高等教育自學(xué)考試、大學(xué)英語四六級考試、全國公共英語等級考試、全國計(jì)算機(jī)等級考試、教師資格考試、江蘇省的高中學(xué)業(yè)水平考試等都是標(biāo)準(zhǔn)參照測驗(yàn),它們在我國社會生活中的影響越來越大,因此有必要對標(biāo)準(zhǔn)參照測驗(yàn)的有關(guān)問題進(jìn)行深入研究。Glaser(1971)曾經(jīng)說過:“標(biāo)準(zhǔn)參照測驗(yàn)是依據(jù)某種特定操作標(biāo)準(zhǔn)可以直接解釋測量結(jié)果的測驗(yàn)?!痹摱x提出了標(biāo)準(zhǔn)參照測驗(yàn)中的關(guān)鍵問題是“特定操作標(biāo)準(zhǔn)”的制定,如果沒有這個(gè)操作性的標(biāo)準(zhǔn),人們對測驗(yàn)的編制就無從入手,對于測驗(yàn)分?jǐn)?shù)的解釋也將缺乏依據(jù),因此對于操作標(biāo)準(zhǔn)的制定就是標(biāo)準(zhǔn)參照測驗(yàn)中的核心問題之一。在長達(dá)幾十年的研究中,人們提出了“標(biāo)準(zhǔn)設(shè)置”、“標(biāo)準(zhǔn)確定”、“合格分?jǐn)?shù)線制定”等術(shù)語,討論的都是相同的問題,即如何得到Glaser所說“特定操作標(biāo)準(zhǔn)”。(二)以測驗(yàn)為中心的方法標(biāo)準(zhǔn)設(shè)置的目的是確定一個(gè)科學(xué)的劃界分?jǐn)?shù),以區(qū)別應(yīng)試者中的合格者和不合格者。這是一個(gè)非常困難的問題,教育和心理測量學(xué)家已經(jīng)提出了數(shù)十種標(biāo)準(zhǔn)設(shè)置的方法,但至今仍然沒有一種可以被認(rèn)為是唯一合適的最佳方法。人們通常將其中比較流行的方法歸納為兩大類:以被試為中心的方法和以測驗(yàn)為中心的方法。以被試為中心的方法主要有邊界組法和對照組法,這兩種方法是Livingston提出來的,邊界組法是將臨界水平應(yīng)試者的期望分?jǐn)?shù)作為合格分?jǐn)?shù)線,對照組法是將應(yīng)試者分成掌握組和未掌握組,讓他們參加同一個(gè)測驗(yàn),然后找出使掌握組未通過且使未掌握組通過人數(shù)相等的那個(gè)分?jǐn)?shù)作為合格分?jǐn)?shù)。以測驗(yàn)為中心的方法包括Nedelsky方法、Angoff方法和Ebel方法,Nedelsky方法是針對全部由多項(xiàng)選擇題組成的測驗(yàn),Angoff方法要求評判者們直接判斷處于臨界水平的應(yīng)試者對測驗(yàn)的各題目正確作答的概率,Ebel方法要求評判者先將測驗(yàn)題目按照一定的標(biāo)準(zhǔn)分類,然后估計(jì)臨界應(yīng)試者在每一類上各題目的答對概率。也有文獻(xiàn)將標(biāo)準(zhǔn)設(shè)置的方法歸納為三大類:以測驗(yàn)或題庫的整體印象為基礎(chǔ)的判斷;以個(gè)別題目的內(nèi)容分析為基礎(chǔ)的判斷;以受試者的測驗(yàn)成績?yōu)榛A(chǔ)的判斷。在上述各種方法中,由于Angoff方法易于理解,在發(fā)展過程中還出現(xiàn)了許多便于操作的變式,是目前國內(nèi)外運(yùn)用最為廣泛的進(jìn)行標(biāo)準(zhǔn)設(shè)置的方法。它不僅被應(yīng)用于各種資格考試和水平考試中,例如執(zhí)業(yè)醫(yī)師資格考試、中國漢語水平考試、民族漢考、全國統(tǒng)一命題英語水平考試等,而且還被運(yùn)用在心理量表的編制中。但是人們對于該方法本身的研究還不夠深入,目前的工作主要集中在各種設(shè)置方法的比較和對影響評判者有關(guān)因素的分析方面,例如Angoff方法和Nedelsky方法的比較P151~165,Angoff方法和它的變式的比較P1~14.P59~88,以被試為中心方法和以測驗(yàn)為中心方法的比較,專業(yè)知識的掌握水平對于評判結(jié)果的影響P151~165。面對眾多的標(biāo)準(zhǔn)設(shè)置方法及其相關(guān)研究,Berk從技術(shù)的充分性和實(shí)用性兩大方面對23種方法進(jìn)行了評價(jià)P137~172,雖然Berk的評價(jià)至今已有多年,但仍然是迄今為止最系統(tǒng)和最全面的評價(jià)。他認(rèn)為在最常用的以測驗(yàn)為中心的三種方法中,Angoff方法要優(yōu)于Nedelsky方法和Ebel方法,事實(shí)也正是這樣,Angoff方法是目前使用最為廣泛的標(biāo)準(zhǔn)設(shè)置方法。(三)基于主觀判斷的方法Angoff于1971年提出的合格分?jǐn)?shù)線確定方法被認(rèn)為是標(biāo)準(zhǔn)設(shè)置研究中的一個(gè)里程碑,它條理清楚,統(tǒng)計(jì)方法簡單且易于理解,它是通過以下的3個(gè)步驟來進(jìn)行的:1.按照一定的要求選取一組領(lǐng)域評判者,對他們進(jìn)行培訓(xùn),使其對于最低能力應(yīng)試者的概念有較為清楚而統(tǒng)一的看法,并將這組應(yīng)試者稱為邊界組考生,他們是達(dá)到某一標(biāo)準(zhǔn)最低水平的考生。2.要求每一個(gè)評判者對于每一個(gè)題目做出這樣的判斷:邊界組考生正確回答該題目的概率是多少。3.將某個(gè)評判者對該測驗(yàn)中所有題目的判斷值相加,就是該評判者認(rèn)為邊界組考生應(yīng)該得到的分?jǐn)?shù)。計(jì)算所有評判者評分的平均值,就得到合格分?jǐn)?shù)線。由于標(biāo)準(zhǔn)的設(shè)置是依賴于評判者主觀判斷的,因此在其發(fā)展的歷史上曾經(jīng)受到人們的懷疑,Glass就稱這些方法是“武斷和錯誤的”P237~261,對此研究者們進(jìn)行了多年的爭論?,F(xiàn)在人們已經(jīng)認(rèn)識到:沒有一種完全客觀的標(biāo)準(zhǔn)設(shè)置方法,它確實(shí)無法脫離人的主觀判斷,但是這并不意味著標(biāo)準(zhǔn)設(shè)置過程就是武斷的,因?yàn)檫@是一個(gè)精心組織的過程,所得到的標(biāo)準(zhǔn)應(yīng)該是可信和有效的。但是,由于評判者評判的主觀性,仍然讓人們心存疑惑,在使用Angoff方法時(shí)就有這樣的問題:1.由于分?jǐn)?shù)線是根據(jù)評判者的主觀經(jīng)驗(yàn)得到的,這種建立在主觀判斷基礎(chǔ)上的方法能夠讓人放心嗎?我們把各評判者對難度的主觀估計(jì)值之間的一致性稱作可信性,把評判者對難度的主觀估計(jì)值和題目難度的客觀值之間的一致性稱作有效性。在以往的研究中,人們通常計(jì)算評判者主觀估計(jì)值的標(biāo)準(zhǔn)差和標(biāo)準(zhǔn)誤P151~165但是這些指標(biāo)只能對可信性進(jìn)行度量,而對于該方法有效性的度量,則還沒有合適的方法。另外,各個(gè)評判者的評判質(zhì)量如何,也沒有合適的評價(jià)方法。2.由于各個(gè)評判者背景知識的差異,不同評判者對于題目難度的分辨能力和評判標(biāo)準(zhǔn)是不可能相同的,那么這種差異是否也會顯著地影響到他們的評判質(zhì)量呢?3.任何評判者都有其不同的人格特征,有些比較固執(zhí)、有些比較寬容;有些比較外向,有些比較內(nèi)向;有些容易焦慮,有些情緒穩(wěn)定,這些人格特點(diǎn)是否會影響該方法的有效性呢?本文的目的就是嘗試對這些問題進(jìn)行研究。二、方法(一)主客觀參數(shù)的質(zhì)量系數(shù)1.為了考察評判者的主觀估計(jì)值和題目的客觀難度之間的一致性,本研究用經(jīng)典測驗(yàn)理論計(jì)算了各題目的難度p值(答對概率),然后計(jì)算各評判者的主觀估計(jì)值和客觀難度p值之間的歐氏距離,將其轉(zhuǎn)化為“質(zhì)量系數(shù)”,并據(jù)此來衡量評判者所給出主觀估計(jì)值的質(zhì)量。2.為了考察評判者的分辨能力和評判標(biāo)準(zhǔn)是否會顯著地影響到他們對于題目難度的主觀估計(jì)值,本研究采用了信號檢測理論(SDT)中的d’和β分別作為評判者的分辨能力和評判標(biāo)準(zhǔn)的指標(biāo)。3.為了考察評判者的人格特點(diǎn)對于主觀估計(jì)值的影響,本研究運(yùn)用艾森克人格測量問卷對評判者進(jìn)行了測量。(二)熟悉的在校學(xué)生在運(yùn)用Angoff方法時(shí),可以選用某個(gè)學(xué)科的專家作為評判者,也可以用對測驗(yàn)內(nèi)容熟悉的在校學(xué)生作為評判者,國外的許多研究都是以大學(xué)的學(xué)生作為評判者的P151~165,本研究也是用某大學(xué)心理專業(yè)的41位學(xué)生作為評判者,這些學(xué)生剛完成SPSS的學(xué)習(xí)并即將參加考試,對該課程比較熟悉。(三)材料表面SPSS題目80題。(四)測評過程及過程1.運(yùn)用Angoff方法得到評判者對于題目的主觀估計(jì)值,具體步驟如下:(1)培訓(xùn)。組織評判者對邊界組考生這一概念進(jìn)行討論,對照教學(xué)內(nèi)容,明確和統(tǒng)一了邊界組考生應(yīng)該掌握的知識和技能,這一過程持續(xù)了40分鐘。(2)試評。從所需評判的題目中選取3道難度和題型各不相同的題目進(jìn)行試評,先取其中一道題目,要求評判者在頭腦中想象有100個(gè)邊界組考生,并判斷在這群人中有多少人會答對該題目。首先由每人獨(dú)立進(jìn)行評判,然后進(jìn)行交流,再對原來的評判進(jìn)行修改;并對修改過的評判結(jié)果再進(jìn)行交流和修改,直到各人的評判結(jié)果較為一致。運(yùn)用上述方法對3道題目進(jìn)行了試評,耗費(fèi)時(shí)間20分鐘,在這一過程中評判者們熟悉和掌握了評判的方法,進(jìn)一步統(tǒng)一了評判的標(biāo)準(zhǔn)。(3)正式評判。對80道題目進(jìn)行正式評判,每人獨(dú)立進(jìn)行評判,不進(jìn)行相互交流,共花費(fèi)時(shí)間80分鐘。上述評判在2007年6月的某天上午進(jìn)行。2.對評判者進(jìn)行人格測量。對于運(yùn)用Angoff方法進(jìn)行題目評判的41名學(xué)生,采用艾森克人格測量問卷對他們進(jìn)行測量。3.獲取各題目的客觀難度p值。在進(jìn)行上述實(shí)驗(yàn)的同一天下午,讓同一年級的另一班的43名學(xué)生進(jìn)行SPSS考試,所采用的題目就是上述實(shí)驗(yàn)中的80道題目,測驗(yàn)時(shí)間為2小時(shí),并且根據(jù)測驗(yàn)結(jié)果運(yùn)用經(jīng)典測驗(yàn)理論得到這些題目的難度p值。三、研究結(jié)果(一)第1個(gè)評判者對第i個(gè)題的主觀估計(jì)根據(jù)Angoff方法的計(jì)算公式:式中:X1是合格分?jǐn)?shù)線,pij是第j個(gè)評判者對第i個(gè)題目的主觀估計(jì),n為題目數(shù),k為評判者人數(shù)。根據(jù)本研究的數(shù)據(jù)得到合格分?jǐn)?shù)線X1=59.3561,近似看作為59分。(二)第三階段:概率的主觀估計(jì)值計(jì)算評判者的主觀估計(jì)值和題目難度客觀值之間的歐氏距離D,式中,Dj:第j個(gè)評判者的歐氏距離,pij:第j個(gè)評判者關(guān)于邊界組考生答對i個(gè)題目概率的主觀估計(jì)值,簡稱“難度的主觀估計(jì)值”,pi:根據(jù)經(jīng)典測驗(yàn)理論得到的第i個(gè)題目的難度,簡稱“難度的客觀值”。計(jì)算評判者歐氏距離D的目的是考察各個(gè)評判者所做主觀估計(jì)的質(zhì)量如何,D越大表示評判者所做主觀估計(jì)的質(zhì)量越差,反之,則表示評判者所做主觀估計(jì)的質(zhì)量越好。因此可以定義質(zhì)量系數(shù)Q,Qj=1-Dj式中,Qj:第j個(gè)評判者的質(zhì)量系數(shù)。根據(jù)該系數(shù)的大小,可以對評判者的工作質(zhì)量進(jìn)行評價(jià)。(三)校正的angoff比在運(yùn)用Angoff方法得到合格分?jǐn)?shù)線時(shí),人們是將各個(gè)評判者的分?jǐn)?shù)進(jìn)行算術(shù)平均得到的,而沒有考慮到各個(gè)評判者工作的質(zhì)量是有差異的,因此很難保證所得到分?jǐn)?shù)線的合理性。本研究在提出了質(zhì)量系數(shù)以后,就可以給予質(zhì)量較高評判者的主觀估計(jì)值以較大的權(quán)重,反之則給予較小的權(quán)重,這個(gè)權(quán)重就是將質(zhì)量系數(shù)Qj歸一化以后的值Qjg,然后運(yùn)用加權(quán)求和的方法得到新的Angoff分?jǐn)?shù)線,并稱為校正的Angoff分?jǐn)?shù)線,其計(jì)算公式為:顯然,在得到X2的過程中由于考慮了各個(gè)評判者的質(zhì)量系數(shù),所得到的結(jié)果比X1要更加可靠。同時(shí),還可以通過考察X1和X2之間的差距,來檢驗(yàn)通常采用的Angoff方法所得到分?jǐn)?shù)線的有效性,如果兩個(gè)分?jǐn)?shù)的差距較大,就可以懷疑采用未經(jīng)校正的Angoff方法所得到分?jǐn)?shù)線的有效程度。在本研究中,計(jì)算得到校正的Angoff分?jǐn)?shù)線X2=59.3967,這和未經(jīng)校正的Angoff分?jǐn)?shù)線X1非常接近,這說明雖然Angoff方法是依靠專家的主觀估計(jì)來進(jìn)行的,但其結(jié)果還是很有效的,因此可以放心使用。(四)sdt中的刺激問題的分析評判者在對題目難度進(jìn)行主觀估計(jì)時(shí),他們必須對于不同難度的題目有一定的分辨能力,而且這種主觀估計(jì)和各人的評判標(biāo)準(zhǔn)也有關(guān)系。由于在這一過程中涉及到分辨能力和評判標(biāo)準(zhǔn),因此可以采用實(shí)驗(yàn)心理學(xué)中的信號檢測論(SDT)來進(jìn)行分析。在本研究中,SDT中的刺激就是題目的客觀難度pi,我們將其依大小順序排列,得到其中位數(shù)為0.685,并以該數(shù)字為分界線,pi小于0.685的題目是較難的,不易答對,記做0,其他較容易答對的題目記做1。同樣,對于評判者的主觀估計(jì),也以0.685為分界線,將其轉(zhuǎn)化為(0,1)變量。在此基礎(chǔ)上就可以計(jì)算得到每個(gè)評判者的“擊中”和“虛報(bào)”的頻數(shù),并計(jì)算得到各自的分辨能力d’和評判標(biāo)準(zhǔn)β。最后計(jì)算得到d’和歸一化質(zhì)量系數(shù)Qjg的相關(guān)系數(shù)為0.111,β和Qjg的相關(guān)系數(shù)為-0.077,這兩個(gè)數(shù)值都沒有達(dá)到顯著相關(guān)的水平。這說明用Angoff方法來劃定分?jǐn)?shù)線的過程,并不會顯著受到評判者分辨能力和評判標(biāo)準(zhǔn)的影響。(五)g相關(guān)的相關(guān)計(jì)算評判者的EPQ的P、E、N維度分?jǐn)?shù)和歸一化質(zhì)量系數(shù)Qjg的相關(guān),所得到的相關(guān)系數(shù)分別為-0.051、-0.273、和0.184,都沒有達(dá)到顯著相關(guān)的水平。這說明用Angoff方法來劃定分?jǐn)?shù)線的過程,并不會顯著受到評判者人格特征的影響。四、評價(jià)者各因素對評分的影響1.本研究提出了一種對Angoff分?jǐn)?shù)線有效性的檢驗(yàn)方法,包括了質(zhì)量系數(shù)、校正的Angoff分?jǐn)?shù)線的計(jì)算方法等。2.雖然Angoff方法依賴于專家的主觀評價(jià),但是由于在實(shí)施過
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024離婚協(xié)議要點(diǎn)及范本
- 2024石材礦山荒料資源整合與開發(fā)合同3篇
- 2025年度鴨苗繁育基地建設(shè)與運(yùn)營管理合同3篇
- 2025年度船舶船員體檢與健康保險(xiǎn)合同3篇
- 二零二五年搬家物流運(yùn)輸合同樣本6篇
- 2024版建設(shè)工程施工合同ef0203
- 二零二五年度房地產(chǎn)項(xiàng)目土地置換合同3篇
- 2025年草原生態(tài)保護(hù)與草原旅游開發(fā)一體化合同3篇
- 2024版深圳股權(quán)轉(zhuǎn)讓合同協(xié)議書范本
- 2025年度高空樓頂廣告設(shè)計(jì)與施工一體化服務(wù)合同4篇
- 深圳2024-2025學(xué)年度四年級第一學(xué)期期末數(shù)學(xué)試題
- 中考語文復(fù)習(xí)說話要得體
- 《工商業(yè)儲能柜技術(shù)規(guī)范》
- 華中師范大學(xué)教育技術(shù)學(xué)碩士研究生培養(yǎng)方案
- 醫(yī)院醫(yī)學(xué)倫理委員會章程
- xx單位政務(wù)云商用密碼應(yīng)用方案V2.0
- 風(fēng)浪流耦合作用下錨泊式海上試驗(yàn)平臺的水動力特性試驗(yàn)
- 高考英語語法專練定語從句含答案
- 有機(jī)農(nóng)業(yè)種植技術(shù)操作手冊
- 【教案】Unit+5+Fun+Clubs+大單元整體教學(xué)設(shè)計(jì)人教版(2024)七年級英語上冊
- 2020年的中國海外工程示范營地申報(bào)材料及評分標(biāo)準(zhǔn)
評論
0/150
提交評論