義務教育學校紙筆考試等第化評價的緣由、技術與意義_第1頁
義務教育學校紙筆考試等第化評價的緣由、技術與意義_第2頁
義務教育學校紙筆考試等第化評價的緣由、技術與意義_第3頁
義務教育學校紙筆考試等第化評價的緣由、技術與意義_第4頁
義務教育學校紙筆考試等第化評價的緣由、技術與意義_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

摘要:義務教育學??荚嚪謹?shù)評價誤差較大,并被廣泛用于排名排序,違背了素質教育的初衷。順應新時代教育評價改革和“雙減”政策要求,在全面實施2022年版義務教育課程方案及各學科課程標準的背景下,義務教育學校應努力破除傳統(tǒng)的考試分數(shù)評價,對總分實施等第化評價,有效促進學生學業(yè)與身心健康協(xié)同發(fā)展。等第劃分必須科學合規(guī)、合情合理,可通過吸納Angoff法和Bookmark法的優(yōu)點,改良傳統(tǒng)的固定分數(shù)法和百分位分數(shù)法,應用比較科學、可操作的簡約型等第劃分技術,提高等第化評價的準確性。關鍵詞:學??荚?;等第評價;等第劃分;Angoff法;Bookmark法鑒于義務教育學校紙筆考試采用傳統(tǒng)的分數(shù)評價、排名排序評價存在諸多弊端,為切實扭轉這種不科學的教育評價導向,全面深化義務教育教學改革,促進義務教育內(nèi)涵發(fā)展和質量提升,有效減輕學生作業(yè)負擔和校外培訓負擔,中共中央、國務院在2020年印發(fā)了《深化新時代教育評價改革總體方案》,中共中央辦公廳、國務院辦公廳在2021年印發(fā)了《關于進一步減輕義務教育階段學生作業(yè)負擔和校外培訓負擔的意見》,教育部在2021年印發(fā)了《義務教育質量評價指南》和《義務教育學??荚嚬芾淼耐ㄖ?、在2022年印發(fā)了2022年版義務教育課程方案及各學科課程標準,以上政策文件均要求義務教育學校提高教育評價的科學性、專業(yè)性、客觀性,克服“唯分數(shù)”的傾向,取消分數(shù)評價,實施考試成績等第化評價。2022年8月,浙江省教育廳發(fā)布了《關于小學生綜合評價改革的指導意見》,在地方上率先開展了小學生綜合評價改革,著力推行“等級加評語”的評價方式。面對國家和地方層面對義務教育學校提出的等第化評價改革要求,很多校長和學科教師思想上轉不過彎來,不知道如何科學實施等第化評價。為此,筆者進行了相關的理論探析。一、義務教育學校紙筆考試等第化評價的緣由必要的考試是教學工作的重要環(huán)節(jié)。針對義務教育學??荚?,教育部發(fā)布的《義務教育學??荚嚬芾淼耐ㄖ诽岢隽嗽S多明確的要求,如:小學一二年級不進行紙筆考試,義務教育其他年級由學校每學期組織一次期末考試,初中年級從不同學科的實際出發(fā),可適當安排一次期中考試;各地不得面向小學各年級和初中非畢業(yè)年級組織區(qū)域性或跨校際的考試;學校和班級不得組織周考、月考、單元考試等其他各類考試,也不得以測試、測驗、限時練習、學情調(diào)研等各種名義變相組織考試;等等。義務教育學校采用紙筆考試的做法由來已久,問題客觀存在;改用等第化評價方式不僅有政策依據(jù),而且有其不得不改的理由。(一)學校分數(shù)評價的專業(yè)性不強當前義務教育學校分數(shù)評價專業(yè)性不強,主要表現(xiàn)在以下三個方面。首先,教師命題能力低下,導致義務教育學校很難研制出高質量的試卷。目前,大部分義務教育學校教師沒有經(jīng)過系統(tǒng)的命題技術培訓,也沒有參與過區(qū)域性統(tǒng)考命題工作,甚至不知道什么樣的試題是合格的試題、什么樣的試卷是合格的試卷。教學實踐中,一些教師只能簡單地模仿或套用區(qū)域統(tǒng)考試卷或者其他名校試卷,依樣畫葫蘆地參考這些試卷的題型結構、試題排序、題量分布和分數(shù)結構進行學??荚嚸},而很少研究一份試卷對所考查的知識、能力和素養(yǎng)的內(nèi)容結構效度,很少研究試題的難度及其區(qū)分度的結構,很少研究試題賦分技術和評分細則,等等。其次,試卷研制流程不規(guī)范,導致義務教育學校的試卷整體質量低下。一份優(yōu)質試卷的產(chǎn)生,須經(jīng)歷命題方案研制、雙向細目表研制、試題挑選與研制、組卷磨卷、審核定稿五個基本環(huán)節(jié)。雖然學校和教師都很重視考試,但是重視的是考試的安排及其分數(shù)評價,而不是命題流程的規(guī)范和命題的質量。由于學??荚嚧螖?shù)較多,且各備課組人力有限,通常情況下各備課組每次命題只有一兩人參與;即便有審核者,審核者常常也只是做一遍試卷,對試題中的學科性錯誤、答案是否正確進行把關。由于教師日常工作量都比較大,命題者常常會省去制訂命題方案和雙向細目表這兩個流程,直接模仿他人試卷進行挑題組卷。在命題流程和試卷質量缺乏監(jiān)管的背景下,學??荚嚨脑囶}難度常常參差不齊,一些中學甚至常常出現(xiàn)學??荚囯y度高于中考的現(xiàn)象,有時還會出現(xiàn)一些不合格試題等命題的信效度問題。最后,試卷批改過程不嚴謹,會加大義務教育學??荚嚨脑u分誤差。一道標準的試題由題干(或情境)、設問、答案和評分標準構成。學校教師在命題的時候,常常會忽略了評分標準的設置。在沒有評分標準的情況下,極易產(chǎn)生不同閱卷者扣分尺寸不統(tǒng)一的問題。在批改計算題、問答題等題目時,閱卷教師的主觀性、隨意性更大。此外,學校教師的閱卷任務較重。他們不像中考那樣只改一道小題,而常常需要批改一大組試題,因此通常不能保障試卷批改的精度。加上一般學校沒有像中考那樣設計雙評機制,可以對個別閱卷教師的評分誤差進行及時糾偏,這便進一步導致了這些學校試卷批改精度的下降。作為學科教學質量的測量工具,義務教育學??荚嚤仨毦邆漭^高的信效度。然而,教師命題能力低下、命題過程粗放,勢必導致試卷質量低劣,加上批改過程不嚴謹,有可能會加大考試分數(shù)的誤差,因此,這樣的學??荚嚦32荒芫珳史从硨W生的學科水平高低。比如,學??荚嚦煽?4分的學生的學科水平未必高于92分的學生的學科水平;排序為第50名的學生的學科水平未必高于第55名學生的學科水平。(二)等第化評價更加有利于學生的全面發(fā)展教育部辦公廳印發(fā)的《關于加強義務教育學校考試管理的通知》明確規(guī)定:“義務教育學??荚嚸鎸Φ氖俏闯赡陮W生,主要發(fā)揮診斷學情教情、改進加強教學、評價教學質量等方面功能,除初中畢業(yè)生升高中考試(學業(yè)水平考試)外,其他考試不具有甄別、選拔功能?!保?]義務教育學校組織的各學科考試都是過程性考試,不是終結性考試;是低利害的考試,不是高利害的考試;是標準參照考試,不是常模參照考試;是過關性考試,不是選拔性考試。高利害考試、常模參照考試、選拔性考試、甄別性考試采用分數(shù)評價方式,需要使用考試分數(shù)給學生排名排序;低利害考試、標準參照考試、過關性考試、非選拔性和非甄別性考試沒有必要采取分數(shù)評價的方式。教育部《關于加強義務教育學??荚嚬芾淼耐ㄖ芬罅x務教育階段學校期中期末考試實行等級評價,一般分4至5個等級。國家義務教育質量監(jiān)測將小學評價分為優(yōu)秀、合格、待合格3個等級,初中分為優(yōu)秀、良好、合格、待合格4個等級。參考國家義務教育質量監(jiān)測的做法和《關于加強義務教育學??荚嚬芾淼耐ㄖ芬?,筆者以為,小學階段的學??荚囋u價可以分為3至4個等級,初中可以分為4至5個等級。各學??梢愿鶕?jù)本校的學生規(guī)模確定考試的等第層級數(shù):學生規(guī)模較大的,考試等第的層級可以多一些;學生規(guī)模較小的,考試等第的層級可以少一些。國家義務教育質量監(jiān)測學科考試的性質和功能與義務教育學校組織的各學科期中、期末考試相似。根據(jù)義務教育學校期中、期末考試的性質和功能,采取等第化評價不僅可以有效評價學校的教學質量,而且更加有利于學生的全面發(fā)展。二、兩種需要改良的學??荚嚨鹊趧澐址x務教育學校采用等第化評價方式,存在兩種較為常見的等第劃分法,一種是傳統(tǒng)的固定分數(shù)法,另一種是百分位分數(shù)法。目前來看,兩種等第劃分法都有待改良。(一)傳統(tǒng)的固定分數(shù)劃分法很多學校傳統(tǒng)上以60分、70分、80分和90分作為學生成績合格、一般、良好和優(yōu)秀的劃界分數(shù),而不管試卷中考了什么、試題的難度如何。事實證明:60分并不能成為判斷學生合格與否的“金”標準,它較適用于預先設置通過率(常模參照測驗)的以選拔為目的的測驗類型。而將60分作為標準參照測驗的劃界分數(shù)是一種主觀性的劃定,在許多情形下并不適合對學生進行科學的評價[2]。同理,用70分、80分、90分劃線來區(qū)分一般、良好和優(yōu)秀也不夠科學、合理。根據(jù)這種等第劃分方法,如果整卷試題難度較大,評定為優(yōu)秀和良好的學生人數(shù)就會比較少,評定為合格和待合格的學生人數(shù)就會比較多;如果整卷試題難度較小,就會出現(xiàn)相反的現(xiàn)象。從橫向比較來看,同一次考試(如期末考試)不同學科考試的等第比例結構差異較大,有可能會出現(xiàn)語文A很多、英語A很少等學科不均衡、不合理的現(xiàn)象。從縱向比較來看,也很容易出現(xiàn)同一個學生同一個學科前后兩次考試成績等第的異常變化現(xiàn)象,而變化的歸因很有可能是整卷試題的難度發(fā)生了變化,而不是學生學業(yè)真實的進步或退步。因此,用傳統(tǒng)的固定分數(shù)劃分等第不足以真實反映學生學業(yè)的進步或退步。盡管這種傳統(tǒng)的固定分數(shù)劃分法操作簡便,但因為缺乏科學依據(jù)而嚴重損害了考試的效度和信度,所以必須改良。(二)百分位分數(shù)劃分法當前各?。ㄗ灾螀^(qū)、直轄市)統(tǒng)一實施的學業(yè)水平考試大多將百分位分數(shù)作為分類的依據(jù),縣級學科考試也常常采用百分位分數(shù)等第劃分法。一種情況為各等第比率一樣,如A(優(yōu)秀)、B(良好)、C(中等)、D(合格)、E(待合格)各占20%。另一種情況為各等第比率不一樣,如A(優(yōu)秀)占10%、B(良好)占20%、C(中等)占30%、D(合格)占35%或以上、E(待合格)占5%或以下。這兩種百分位分數(shù)劃分法,劃出的等第結果與試卷難度無關,與考試內(nèi)容無關,具有縱向、橫向可比性,可用于增值性評價。但是,按照以上等第劃分法,不管試卷難度及學生課程目標達成度,各等第整齊劃一,依然存在很大的弊端。簡單來說,即便全體學生實際上都達到了課標的要求,也會有20%或5%的學生被評定為E(待合格);即便全體學生實際上都沒有達到課標要求,也有80%或95%的學生被評定為合格及以上等第,甚至還有20%的學生可能被評定為優(yōu)秀。百分位分數(shù)劃分法實際上采用的是常模參照考試的做法,本質上是將學生的表現(xiàn)與其他學生進行比較,而這并不符合當下基于課程標準的學??荚囋u價要求。可以說,它完全違背了基于標準的教育考試的初衷。因此,用百分位分數(shù)劃分法劃分考試等第的做法,同樣必須改良。三、義務教育學校考試等第劃分的三種技術(一)Angoff法劃分技術美國心理學家威廉·安戈夫(WilliamAngoff)于1971年提出的Angoff法,是目前教育測量學中應用十分廣泛的一種等第標準設置方法。該方法可根據(jù)各學科專家任務的不同進一步細分為概率法和對錯法兩種。“概率法”要求學科專家判斷各等第表現(xiàn)考生能夠正確解答某題的概率值,概率值在0—1之間;“對錯法”要求學科專家判斷各等第表現(xiàn)考生能否做對某題,能正確回答的題目賦值1,不能正確回答的賦值0,沒有中間值[3]。Angoff法的操作步驟有三個:(1)形成最低能力(各等第)表現(xiàn)考生的概念;(2)學科專家判定測驗的每一個題目并賦值(“概率法”賦值范圍為0—1之間的某一個數(shù)值,“對錯法”賦值為0或1);(3)求出各學科專家對各等第最低能力表現(xiàn)考生判斷的總分,其平均值即各等第劃界分數(shù)[4]。Angoff法常用于大型考試的劃界分數(shù)設置,但該法側重0、1計分題目的劃界分數(shù)設置,并不適用于多級計分的題目類型。Angoff法最大的優(yōu)點是直觀,且相對容易理解,評判結果數(shù)據(jù)的收集和分析也比較容易,但是對學科專家的學科教育測量能力要求很高,包括專家對學科課程標準的把握能力、對教學目標的理解能力、對教與學效果的預測能力等。大部分一線教師很難對試題不同等第學生的得分率進行精準判斷,導致題目賦值誤差較大。因此,義務教育學??荚囋u價不建議直接采用這種等第劃分技術。(二)Bookmark法劃分技術Bookmark法最早是由Mitzel等在2001年進行系統(tǒng)描述的基于項目反應理論的設置標準等第劃界分數(shù)的方法[5]10,是一種比較新的重要的標準設置方法[5]16,是近年來特別是在美國的K-12教育評價中得到廣泛應用[5]11的一種標準設置方法。Bookmark法一般分為4個操作步驟。(1)采用項目反應理論(IRT)對試題進行項目反應分析,將試題按照項目反應理論難度從易到難進行排列,每道試題放置一頁,組成像書一樣的題冊。(2)有關學科專家以考試題目材料的難度參數(shù)值為基礎,按照試題冊的順序討論每道題目,判斷等第中最低能力的考生答對所討論題目的概率是否在2/3以上:如果低于2/3,則評判專家在相應的題目上放置書簽,以此作為設置劃界分數(shù)的依據(jù)。(3)專家們反饋并討論第一次書簽放置結果,再次放置書簽。(4)向所有學科專家呈現(xiàn)所有書簽放置結果,參照前兩輪步驟開展第三次討論,放置書簽,結束Bookmark程序,或者視情況再進行第四輪、第五輪討論。此外,若加以延伸,可按照相同的步驟設置良好、優(yōu)秀等多重分數(shù)線[5]11。在國內(nèi)的考試機構中,掌握Bookmark法的人不多,相關研究文獻和實際應用也較少。需要說明的是,要想采用Bookmark法,必須利用項目反應理論(IRT)對試題進行項目反應分析[5]11,而這是大部分學校教師難以做到的。因此,義務教育學??荚囋u價不建議采用這種等第劃分技術。(三)簡約型等第劃分技術學科成績等第具有一定程度的標簽效應,合適的等第評價對學生學習具有激勵和促進作用。等第評價相對于分數(shù)評價而言,雖然具有明顯的模糊性,但是仍然不能隨意化和主觀化,必須講究科學性、專業(yè)性和客觀性。面對常態(tài)化的期中、期末紙筆考試等第劃分工作,在各備課組教師普遍缺乏學科教育評價專業(yè)技能的情況下,義務教育學校不能簡單模仿國家教育質量監(jiān)測、省級教育質量監(jiān)測和市級教育質量監(jiān)測的做法采取Angoff法、Bookmark法等專業(yè)性很強的等第劃分技術,必須找到一種更簡易且更具可操作性的等第劃分技術。筆者團隊基于Angoff法和Bookmark法,結合義務教育學校一線教師考試評價能力和評價工作的特點,研制出了一種具有一定程度科學性和可操作性的簡約型等第劃分技術,該技術有下面三個操作步驟。第一步,構建校本化等第結構模型。校本化等第結構模型有兩類。第一類模型側重客觀性評估功能。學校可根據(jù)多年來市級教育質量監(jiān)測、省市中考、縣域期末統(tǒng)考中本校學生各等第占比數(shù)據(jù)和本校學生生源實際,擬建本校不同學段學生各等第比率結構模型。平時學??荚嚫鞯鹊谇闆r分布可以與該模型相近。例如,若模型中A占34%、B占41%、C占22%、E占3%,則平??荚囍锌砂碅占35%、B占40%、C占20%、E占5%的比率結構進行設置。鑒于義務教育學校實行的是“劃片招生,就近入學”的政策,生源情況相對穩(wěn)定,這種基于大規(guī)??荚嚁?shù)據(jù)的模型也就相對可靠。第二類模型側重考試評價的促進功能和激勵功能[6]。如:小學階段待合格比例約在5%以下,一二年級優(yōu)秀率約在70%及以上,三四年級優(yōu)秀率約在60%及以上,五六年級優(yōu)秀率約在50%及以上;初中階段待合格率比例約在10%以下、建議5%以下,七年級優(yōu)秀率約在50%以上,八年級優(yōu)秀率約在40%以上,九年級優(yōu)秀率約在30%以上。顯然,第二類模型的優(yōu)秀率和良好率比較高,待合格率很低,具有顯著的標簽功能,會發(fā)生皮格馬利翁效應。第二步,參考Angoff法、Bookmark法初擬劃線分。這一步,需要做好以下幾項工作。(1)統(tǒng)計難度值??荚囬喚砗?,統(tǒng)計每一道試題的得分率和得分值,同時按照校本化等第結構模型計算不同等第學生的每一道試題的得分率和得分值,并按全體學生的難度大小由易到難排序,形成excel電子表;這些數(shù)據(jù)將成為學科專家的重要參考。(2)組建學科專家組。人數(shù)3—7個,以本備課組教師為主,其他備課組教師為輔。如果都是本備課組教師,容易出現(xiàn)自我利益化傾向,從而影響劃線的公正性和客觀性。學科專家盡量選用有三年及以上教齡的比較優(yōu)秀的教師,優(yōu)先選用參與過命題、具有一定命題能力的教師。(3)作答試卷。統(tǒng)一時間、統(tǒng)一場所,組織學科專家作答試卷,并預測不同等級學生每一道試題的最低得分率。(4)研讀標準。當場組織專家研讀本學科課程標準中的學業(yè)質量水平描述和教學要求,微調(diào)自己對試題的預測值。(5)初擬劃線分。匯總統(tǒng)計各專家各試題的評價得分率、平均分和等第劃線分。組織學科專家討論交流,分析大家的預測數(shù)據(jù)和實考數(shù)據(jù),研討交流,初擬各等第劃線分。第三步,折中擬定各等第劃線分。先按校本化等第結構模型,計算各等第的劃線分。再將專家組的預測劃線分和等第結構模型進行比較,取兩者平均值。例如,專家組劃線結果A占27%,等第結構模型中A占31%,則本次考試可初擬A為29%。然后根據(jù)試卷難度、區(qū)分度、信效度、分數(shù)分布和傳統(tǒng)習慣等因素,將各等第劃線分調(diào)整到最佳狀態(tài)。例如,把初擬的A占29%微調(diào)為占30%,根據(jù)30%的比率逆向劃定分數(shù)線;同理,重新確定各等第劃線分,評定所有學生的等第。在這個環(huán)節(jié),要合理微調(diào)A(優(yōu)秀)和E(待合格)的劃線分。如果試卷難度很小,沒有60分以下的學生,則E(待合格)可以沒有;若96分以上學生很多,比率明顯超過等第結構模型值,也可以都認定為A(優(yōu)秀)。四、義務教育學??荚嚨鹊诨u價的意義(一)有利于學生的身心健康根據(jù)考試分數(shù)排名排序,異化分數(shù)橫向比較,已經(jīng)成為當下教學評價的頑疾。義務教育學校存在考試結果使用不當?shù)韧怀鰡栴},違背素質教育導向,造成學生應考壓力過大、心理負擔過重,損害了學生的身心健康?!翱伎伎迹蠋煹姆▽?;分分分,學生的命根?!边@種落后的考試觀和評價觀已經(jīng)嚴重影響了學生的身心健康。尤其是小學生,他們對數(shù)據(jù)差異特別敏感,相差一分,就感覺相差很大,會誤以為自己水平顯著低于別人,以為自己的學習成效不如他人,從而產(chǎn)生學習焦慮。又因為同分現(xiàn)象比較多,差異一兩分,位次排名有可能相差幾十名,會在無形中增加學生的心理負擔。再說,學校考試成績相差兩三分,都在誤差范圍以內(nèi)。消除分數(shù)化評價是應對“甄別與選拔功能”釜底抽薪的重要舉措,是“減負”最有效的手段之一。為了嚴格遵守評價的倫理規(guī)范,尊重學生人格,保護學生自尊心,學校對學生必須采取等第化評價。采取等第化評價,沒有了排名排序,則有利于學生消除“與他人比較”“分分計較”的思想;也會大幅度減少考試作弊現(xiàn)象,有利于學生“誠實”品格的養(yǎng)成;還會大幅度降低學生之間的學業(yè)競爭,有利于學生之間的合作學習。(二)有利于教師面向全體學生因材施教傳統(tǒng)的分數(shù)評價,導致教師普遍存在“第一名”“前三名”“前十名”的升學思想。如果班級中出現(xiàn)了“第一名”,就會標榜出了“狀元”;如果班級中出現(xiàn)了“第二名”,就會鼓勵并大力支持“第二名”在下次考試中爭當“狀元”;如果班級中出現(xiàn)了“第三名”,就會自我標榜進入了“前三甲”;如果班級中出現(xiàn)了“第四名”,就會鼓勵并大力支持“第四名”在下次考試中力爭進入“前三甲”;如果班級中出現(xiàn)了“第十名”,就會標榜進入了“前十名”;如果班級中出現(xiàn)了“第十一名、第十二名”,就會鼓勵并大力支持他們在下次考試中力爭進入“前十名”。通常情況下,前十幾名學生的學科水平都處于同一個水平層次,沒有必要鼓勵和支持他們開展過度的學業(yè)競爭。在這種傳統(tǒng)的升學思想指引下,分數(shù)評價誤導了一線教師格外關注優(yōu)等生的培育,而忽略了大量中等生和部分后進生的培育。采取等第化評價以后,教師的關注對象將不再

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論