版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、第一節(jié)教學(xué)測量與評價的含義和作用 一、教學(xué)測量與評價的含義 (一)教學(xué)測量與教學(xué)測驗教學(xué)測量(instructional measurement)是考核教學(xué)成效的一種方法。這是借助于一定的心理量表及其操作,對學(xué)生的學(xué)習(xí)成績(簡稱學(xué)績)進行探察,并以一定的數(shù)量來表示的考核辦法。對此,我們應(yīng)注意以下幾點。 (1)教學(xué)測量的目的在于考核教學(xué)成效,也就是考察教學(xué)目標的完成情況,即學(xué)生內(nèi)在的能力與品德等的形成狀況。因此,教學(xué)測量的目標應(yīng)以教學(xué)目標為依據(jù),測量目標應(yīng)與教學(xué)目標一致,而不能偏離教學(xué)目標。 (2)教學(xué)測量的對象是學(xué)生內(nèi)在的能力與品德等的形成狀況,它不可能
2、像物理測量那樣直接進行,只能借助于一定的心理量表及其操作間接測量。因此,測驗量表的科學(xué)性是有效教學(xué)測量的必要前提。這一點,我們將在本章第二節(jié)闡述。 (3)教學(xué)成效是通過量化的學(xué)績進行考察的。也就是說,教學(xué)成效是以學(xué)生的學(xué)習(xí)成績?yōu)橹苯涌疾煲罁?jù)的,而學(xué)績是以一定的數(shù)量來表示的,因此命題的合理性與評分的客觀性是有效教學(xué)測量的一個重要影響因素。這一點,我們將在本章第三節(jié)說明。 在分析教學(xué)測量的實質(zhì)時,還必須注意它和教學(xué)測驗(instructional test)之間的區(qū)別和聯(lián)系。由于教學(xué)成效是以學(xué)績來表示的,因此教學(xué)測驗又稱學(xué)績測驗。所謂學(xué)績測驗就是用以測量學(xué)績的量表及其操作。用測
3、量學(xué)的術(shù)語講,學(xué)績測驗就是選擇能代表學(xué)績的一些行為樣本進行考核并作出數(shù)量分析。也就是說,學(xué)績測驗所包含的只是測量目標的一個樣組而不是全部。這個樣組必須具有代表性,能有效地測量學(xué)績。因此,可以說學(xué)績測驗是教學(xué)測量的工具和手段,教學(xué)測量是對學(xué)績測驗所得結(jié)果的客觀描述。也可以說,教學(xué)測量就是借助于學(xué)績測驗來對教學(xué)成效進行定量考核的一種方法。 (二)教學(xué)評價 教學(xué)評價(instructional evaluation)就是依據(jù)教學(xué)目標,對學(xué)績測驗所得測量結(jié)果進行分析及解釋。它主要包含以下兩個方面的工作。 (1)教學(xué)評價必須對學(xué)績測驗數(shù)據(jù)所表明的教學(xué)成效作出確切的診斷。診斷
4、教學(xué)成效即依據(jù)教學(xué)目標,運用學(xué)績測驗數(shù)據(jù),判明學(xué)生知識、技能、規(guī)范的掌握程度及能力與品德的形成狀況。 (2)教學(xué)評價必須對教學(xué)的成敗原因進行分析,并對今后教學(xué)工作的改進方面作出明確的規(guī)定。教學(xué)評價不僅要了解學(xué)生能力與品德的形成狀況,而且更重要的是要找出以往學(xué)習(xí)中的斷裂點和斷裂帶,分析其成功與失敗的原因,并提出改進措施。 (三)教學(xué)測量與評價的關(guān)系教學(xué)測量與評價兩者既有區(qū)別,又有密切的聯(lián)系。一方面,教學(xué)測量是對學(xué)績測驗所得結(jié)果的客觀描述(將結(jié)果予以數(shù)量化),并不考慮結(jié)果的實際意義,而教學(xué)評價則是對學(xué)績測驗所得結(jié)果的主觀判斷(對結(jié)果進行分析解釋),以了解結(jié)果的實際意義。另一方面
5、,雖然教學(xué)評價是一種主觀判斷,但是這種主觀判斷必須以教學(xué)測量所得的客觀描述為依據(jù)。否則,就是主觀主義的判斷。同樣,教學(xué)測量也不能脫離教學(xué)評價,因為教學(xué)測量只是對學(xué)績測驗結(jié)果的客觀描述,只有通過教學(xué)評價,才能判斷這種客觀描述的實際意義。不通過評價,測量所獲得的結(jié)果也就毫無實際價值。 從以上的闡述可以看到,教學(xué)測量與教學(xué)評價是兩個不同的概念,但在實際工作中常被混淆和誤用。例如,有些教師對學(xué)生的學(xué)習(xí)成績不作具體分析,不聯(lián)系教學(xué)內(nèi)容來確定成績的實際意義,而只是進行測驗和記分,并自以為這就是對教學(xué)進行評價。也有些教師忽視嚴密的測量,未經(jīng)任何客觀數(shù)據(jù)的證實,就試圖對學(xué)生知識、技能、規(guī)范的掌握程度
6、及能力、品德的形式狀況進行評價。可以說,正確地進行教學(xué)測量與評價,是完整教育教學(xué)過程中的重要一環(huán)。 二、教學(xué)測量與評價的作用 教學(xué)測量與評價是檢驗教學(xué)成效、確定學(xué)生學(xué)習(xí)結(jié)果和教師教學(xué)效果的有效手段,是有效教學(xué)不可缺少的環(huán)節(jié)。雖然通過日常調(diào)查和觀察可以得到有關(guān)教學(xué)成效的某些信息,但是這些信息往往是很表面的、粗糙的,有的甚至是虛假的。要想確切地檢驗教學(xué)成效,確定教學(xué)雙方的水平,就必須進行科學(xué)的教學(xué)測量與評價。這也是教學(xué)測量與評價最普遍和最一般的功能。而它的根本作用則在于了解學(xué)生的學(xué)習(xí)狀況,改進教師的教學(xué),從而促進學(xué)習(xí)效果的提高。 1反饋調(diào)節(jié)功能 通過教學(xué)測量
7、與評價所提供的反饋信息,對教師而言,不僅可以了解學(xué)生能力與品格的形成狀況,而且還可以了解影響學(xué)生學(xué)習(xí)的各種因素,從而更明確地調(diào)整教學(xué)目標、教學(xué)內(nèi)容和教學(xué)方法,以提高學(xué)生的學(xué)習(xí)成效,加速學(xué)生心理結(jié)構(gòu)的形成。對學(xué)生而言,反饋信息能使他們明確自己對有關(guān)知識、技能的掌握情況,找出學(xué)習(xí)中的薄弱環(huán)節(jié),從而調(diào)節(jié)自己的學(xué)習(xí)行為,把時間和精力集中在需要加強的那些方面,以構(gòu)建完整的能力與品格結(jié)構(gòu)。 2激勵動機功能教學(xué)測量與評價所提供的反饋信息不僅可以調(diào)節(jié)教學(xué)活動,而且可以激勵學(xué)生的學(xué)習(xí),起到進一步激發(fā)學(xué)習(xí)動機的作用。當(dāng)學(xué)生知道自己的學(xué)習(xí)效果是好的,則可以滿足其“獲得成功”的需要,從而帶來愉快的情緒體驗,
8、進一步增強其學(xué)習(xí)動機。如果反饋的結(jié)果說明學(xué)習(xí)效果不好,往往會引起不愉快的情緒體驗,為了“避免失敗”,也可以促使學(xué)生把壓力變成動力,從反面來增進學(xué)生的學(xué)習(xí)動機??傊?,通過教學(xué)測量與評價所提供的反饋信息,可以了解學(xué)生的學(xué)習(xí),改進教學(xué)。第二節(jié)有效教學(xué)測驗的基本要求既然教學(xué)測量與評價是有效教學(xué)活動的一個必要環(huán)節(jié),而教學(xué)測量是以科學(xué)的教學(xué)測驗為工具施行的,那么有效教學(xué)測驗有哪些基本要求呢? 一、測驗的效度 (一)效度的含義 測驗的效度指的是測量的正確性和有效性,即它能夠測出所要測量的心理特質(zhì)與行為特征的程度。換言之,效度指測驗?zāi)茉诙啻蟪潭壬线_到測量目的。它是科學(xué)測量工具最重
9、要的質(zhì)量指標。一個測驗若無效度,則其他任何優(yōu)點都無法發(fā)揮其真正的功能。因此,在編制教學(xué)測驗時首先必須考慮其效度。當(dāng)然,效度也不是絕對的,而是相對的。任何一種測驗只是對一定的目的來說是有效的,對其他目的和用途卻不一定有效。另外,由于測驗是根據(jù)行為樣本對所要測量的目標作間接推斷,因此效度只能達到某種程度,不可能全有或全無。 (二)效度的類型 考察效度的方法很多,根據(jù)其側(cè)重的問題不同,可將測驗的效度分為三類,即內(nèi)容效度、構(gòu)想效度、實證效度。 1內(nèi)容效度 內(nèi)容效度指測驗題目對有關(guān)內(nèi)容或行為范圍取樣的適當(dāng)性,也就是測驗所選的項目是否符合所要測量的東西,其代表性是否
10、適當(dāng)。要編制內(nèi)容效度高的測驗,必須注意兩點。 第一,要有一個定義完好的內(nèi)容范圍,即對測量目標應(yīng)有一明確的界定。對學(xué)績測驗而言,它所要測量的是學(xué)生能力的形成狀況,而能力是概括化和系統(tǒng)化了的知識和技能。因此,在編制學(xué)績測驗時,應(yīng)依據(jù)教學(xué)內(nèi)容和教學(xué)目標,對能力結(jié)構(gòu)中的知識因素和技能因素進行綜合測量。 第二,測題對所界定的內(nèi)容范圍應(yīng)是代表性取樣。也就是說,要根據(jù)教學(xué)內(nèi)容和教學(xué)要求的重要性來選擇題目,而非隨機取樣,以便使選出的題目能包含所測內(nèi)容范圍的主要方面,并使各方面題目比例適當(dāng)。學(xué)績測驗尤其強調(diào)取樣的適當(dāng)性。但是有的教師編制測驗的隨意性很大,不注意取樣的策略,他們或者對什么感興趣
11、就出什么題,或者覺得怎么方便就怎么出題,或者為難倒學(xué)生而出一些偏題、怪題。這樣編出來的測驗內(nèi)容缺乏代表性,其內(nèi)容效度必然很低。為了防止這種情況發(fā)生,必須對內(nèi)容范圍進行系統(tǒng)分析,將該范圍區(qū)分為細目,并對每個細目作適當(dāng)加權(quán),然后再根據(jù)權(quán)數(shù)從每個細目中隨機取樣,直至得到所需要的題目。 鑒定學(xué)績測驗的內(nèi)容效度最常用的方法是,請有關(guān)學(xué)科專家和有經(jīng)驗的教師對課程標準和教科書作全面考察,并與測驗題目作系統(tǒng)比較,看測驗題目是否適當(dāng)?shù)卮砹怂?guī)定的內(nèi)容。如果測驗題目具有較好的代表性,說明該學(xué)績測驗具有較好的內(nèi)容效度。 2構(gòu)想效度 構(gòu)想效度指測驗對某種理論的符合程度,其目的在于用心理
12、學(xué)的理論觀點對測驗的結(jié)果加以解釋及探討。當(dāng)測驗的目的是用來測量能力、創(chuàng)造力、人格等抽象而帶有假定性的特質(zhì)或結(jié)構(gòu)時,我們就應(yīng)重點考慮測驗的構(gòu)想效度。要建立具有構(gòu)想效度的測驗,必須先從某一理論出發(fā),導(dǎo)出與這一理論構(gòu)想有關(guān)的基本假設(shè);據(jù)此設(shè)計和編制測驗;然后由果溯因,審查測驗結(jié)果是否符合心理學(xué)的理論見解。例如,能力的類化經(jīng)驗說認為能力是一種概括化與系統(tǒng)化了的知識和技能,根據(jù)這一理論,可以提出下面三項假設(shè):(1)能力隨學(xué)習(xí)的進程(年級)而增長;(2)能力不由年齡決定;(3)能力和學(xué)習(xí)成績密切相關(guān)。如果我們據(jù)此編制學(xué)績測驗,并對測驗結(jié)果分析后發(fā)現(xiàn),測驗分數(shù)隨年級的上升而提高,同一年級不同年齡的學(xué)生無顯著
13、差異,測驗得分高的學(xué)生平時學(xué)習(xí)成績好,那么我們就可以說該學(xué)績測驗具有良好的構(gòu)想效度。 檢驗構(gòu)想效度的方法很多,比較簡單和常用的方法有以下幾種。一是利用測驗的內(nèi)容效度。根據(jù)某種理論構(gòu)想所編制的測驗如果有內(nèi)容效度,也就證明了該測驗有一定的構(gòu)想效度。二是利用相容效度,將測驗結(jié)果與另一個效度已知的同類測驗結(jié)果進行相關(guān)檢驗。如果相關(guān)高,說明所編制的測驗具有一定構(gòu)想效度。三是利用預(yù)測效度。如果用來測量某一理論構(gòu)想的測驗可以有效地預(yù)測某一行為,那么可以說該測驗具有一定的構(gòu)想效度。 3實證效度 實證效度又稱效標關(guān)聯(lián)效度,指測驗對處于特定情境中的個體行為進行預(yù)測的有效程度。一個測驗
14、預(yù)測得越準確,就越有效。其中被預(yù)測的行為是檢驗效度的標準,簡稱效標。 根據(jù)效標資料搜集的時間,實證效度可分為同時效度和預(yù)測效度。前者與用來診斷現(xiàn)狀的測驗有關(guān),后者與預(yù)測將來結(jié)果的測驗有關(guān)。例如,用大學(xué)入學(xué)考試來預(yù)測學(xué)生進入大學(xué)的學(xué)習(xí)成績,用職業(yè)測驗來預(yù)測個體在一定工作崗位的工作能力等。 檢驗測驗的實證效度,最主要的難點在于找到合適的效標。因為有些效標無意義,有些效標有種種缺點。好的效標應(yīng)該是有效的、可靠的、客觀的。實證效度一般可通過考察測驗分數(shù)與效標的關(guān)系來確定。常用的方法是求兩者之間的相關(guān)系數(shù)。相關(guān)系數(shù)高,說明該測驗實證效度高。 通過上面的介紹,我們明確了三種效
15、度之間的差異。但實際上它們之間有著一定的內(nèi)在聯(lián)系:內(nèi)容效度和構(gòu)想效度既是實證效度的保證,又需要實證效度的支持;考察內(nèi)容效度和實證效度可以幫助確定構(gòu)想效度;用于測量某種構(gòu)想的測驗可以作為實證效度的預(yù)測源來使用??傊?,內(nèi)容效度、構(gòu)想效度和實證效度既相互區(qū)別,又相互聯(lián)系。根據(jù)不同的需要,一個測驗可以采用不同的效度。對教學(xué)測驗而言,我們感興趣的主要是取樣的適當(dāng)性,也就是內(nèi)容效度,有時也需要考慮構(gòu)想效度和實證效度。二、測驗的信度 (一)信度與信度系數(shù) 測驗的信度又叫測驗的可靠性,指的是測量的一致性程度。一個好的測量工具必須穩(wěn)定可靠,即多次測量結(jié)果要保持一致,否則便不可信。但是,高信度
16、并不是測驗追求的最終目的,它只是使測驗有效的一個必要條件。 信度指標通常以相關(guān)系數(shù)表示,即用同一被試樣本所得的兩組資料的相關(guān)系數(shù)作為測量一致性的指標,稱為信度系數(shù)。估計信度系數(shù)的方法很多,常見的有以下幾種:(1)再測法。用同一種測驗前后兩次施測同一組被試的測驗得分的相關(guān)系數(shù)表示信度。它反映測驗分數(shù)的穩(wěn)定程度,其相關(guān)系數(shù)又稱穩(wěn)定性系數(shù)。(2)復(fù)本法。用兩個等值(復(fù)本)測驗施測同一組被試的測驗得分的相關(guān)系數(shù)表示信度。這種相關(guān)系數(shù)反映兩個復(fù)本測驗的等值程度,所以又叫等值性系數(shù)。(3)分半法。將同一測驗分成對等的兩半并施測同一組被試,用得到的測驗分數(shù)的相關(guān)系數(shù)表示信度。它是復(fù)本法的特例,還可
17、用來估計測驗內(nèi)部的一致性。這種相關(guān)系數(shù)又叫內(nèi)部一致性系數(shù)。(4)同質(zhì)法。用測驗內(nèi)部(測量同一特質(zhì)或?qū)傩裕┎煌譁y驗(異質(zhì)而有關(guān)聯(lián)的測驗題目)之間的得分的相關(guān)系數(shù)表示信度,估計的是測驗題目的同質(zhì)性或普遍性,其相關(guān)系數(shù)也叫普遍性系數(shù)。對于教學(xué)測驗而言,由于兩次測驗之間的學(xué)習(xí)和遺忘不同,所以用穩(wěn)定性系數(shù)來估計其信度是不適當(dāng)?shù)摹3顺商诇y驗的分測驗外,一般學(xué)績測驗所測量的均不止一種能力,因此用同質(zhì)性來估計信度也不適當(dāng)。估計學(xué)績測驗的信度最常用的是復(fù)本法,如果沒有復(fù)本,也可用分半法。 (二)信度的影響因素 要想提高測驗的信度,了解并掌握影響它的因素是十分必要的。信度的影響因素,主要來
18、源于四個方面,即測題數(shù)量、測題難度、施測對象和施測過程。 1測題數(shù)量 由于測驗是測量的一個樣本,因此取樣的適當(dāng)性必然影響到測驗的信度。如果測題數(shù)量太少,不能代表整個學(xué)習(xí)內(nèi)容的全域,這樣的測試必然帶有偶然性,其信度不可能很高。要提高信度,一般來說,增加測題數(shù)量是一個有效的方法。但必須注意,只有當(dāng)新增加的題目和原來的題目取自同一總體,即與原題目具有同質(zhì)性時,增加題目數(shù)量才能提高信度。 雖然增加題目數(shù)量可以提高信度,但并不是題目越多越好。增加題目數(shù)量的效果是遵循報酬遞減律的,即當(dāng)題目達到一定數(shù)量后,再增加題目數(shù)量往往得不償失,有時會引起學(xué)生的疲勞和反感而降低可靠性。為了
19、節(jié)省經(jīng)費和時間,有時還需要把過多的題目適當(dāng)刪減,而不使其對信度有大的損害。 總之,增加測題數(shù)量可以提高信度,但是測題數(shù)量須有一定限制,并非越多越好。 2測題難度 測題的難度和信度沒有直接的關(guān)系。然而,如果測題對某團體過難或太易,則分數(shù)范圍將縮小,信度也將降低。這表明,要使信度達到最高,能產(chǎn)生最廣分數(shù)分布的難度水平方為合格。 當(dāng)測題難度過大,遠遠超出被試能力水平時,被試對許多項目作隨機反應(yīng)即瞎猜,則所有被試的總分接近隨機分布,因此其信度極低。反之,測題太易,幾乎所有被試均能正確作答,則分數(shù)分布很集中,因此信度也很低。有關(guān)測題難度及區(qū)分度的問題,我們下面還將
20、討論。 3施測對象 即使一個測驗經(jīng)過精心編制,題目取樣具有代表性,由于受測者動機和焦慮的變化,也會給測驗信度帶來影響,這是最難控制的因素。 由于學(xué)生的應(yīng)試動機不同,他們的注意力、情緒狀態(tài)、焦慮水平也不同,從而影響測驗成績,使信度受到影響。一般來說,恰當(dāng)?shù)膭訖C、適度的焦慮水平會使人的興奮性提高,注意力增強,提高反應(yīng)速度,從而對測驗成績產(chǎn)生積極影響。動機過強、焦慮水平過高都會使工作能力降低,注意力分散,思維變得狹窄而刻板,從而對測驗成績產(chǎn)生消極的影響;反之,動機過弱、焦慮水平過低的被試往往采取滿不在乎的態(tài)度,從而測驗成績大多較低??梢哉f,適當(dāng)?shù)膭訖C和焦慮水平是保證測驗
21、信度的必要條件,過強或過弱的動機和焦慮水平都不利于測驗信度的提高。 4施測過程 測驗的環(huán)境條件如通風(fēng)、室溫、采光等條件會影響到測驗的穩(wěn)定性,室內(nèi)燥熱、考場周圍嘈雜、座位擁擠、考試秩序混亂等都會導(dǎo)致測驗信度下降。主試錯誤理解指導(dǎo)語,不按規(guī)定嚴格施測,或故意制造緊張氣氛等也會影響測驗的信度。 應(yīng)該說明的是,雖然信度和效度都是鑒定測驗質(zhì)量的指標,但兩者并不是完全一致的。一般而言,效度高的測驗,其信度也一定高;信度高的測驗,其效度卻不一定高。也就是說,高信度是高效度的必要但非充分條件。 三、項目的難度與區(qū)分度 信度和效度是就整個測驗而言的,難度和區(qū)分度
22、則是就測驗題目(簡稱項目)而言的。每個測驗都包含有許多項目,每個項目都有它的難度和區(qū)分度。 (一)項目難度 項目難度指測驗題目的難易程度,通常以答對或通過該項目的人數(shù)占應(yīng)試總?cè)藬?shù)的百分比來表示。也就是用通過率來表示難度,通過率越高,難度越小。但對于不同的測驗題型,其計算有所不同。 對于是非題,當(dāng)只有正確或錯誤兩種答案時,可以用通過該題人數(shù)的百分比代表難度,公式為P=R/N(P,難度;N,受測總?cè)藬?shù);R,通過該題的人數(shù)),也可以用極端組的方法計算難度,公式為P=(PH+PL)/2PH,高分組(總分最高的27的學(xué)生)答對該題的人數(shù)占高分組學(xué)生總數(shù)的百分比;PL,低分組
23、(總分最低的27的學(xué)生)答對該題的人數(shù)占低分組學(xué)生總數(shù)的百分比。 對于選擇題,如在K個選項中(K>2)只有一個正確答案,則其難度可以在該項目的通過率P的基礎(chǔ)上進行矯正,計算公式為CP=(KP1)/(K1)(CP,矯正后的難度;P,未矯正的難度;K,選項的數(shù)量)。這是因為對單選題學(xué)生可能隨機猜測,用此公式則能排除這種影響。 對于論文型題目,可以用某題的平均分數(shù)為依據(jù)計算難度,公式為P=M/W(M,全體考生某題的平均得分;W,某題規(guī)定的最高得分),也可以用極端組的方法計算難度,公式為P=(MH+ML2Nl)/2N(hl)MH,高分組(總分最高的27的學(xué)生)考生該題得分之和
24、;ML,低分組(總分最低的27的學(xué)生)考生該題得分之和;N,所有考生總?cè)藬?shù)的27;h,該題最高得分;l,該題最低得分。 至于項目的難度多高合適,則取決于測驗?zāi)康?。如果測驗是為了考察學(xué)生對某些方面的知識、技能是否掌握(掌握性測驗),可不考慮項目難度,只要是教學(xué)目標中重要的內(nèi)容就可以,甚至通過率100%或0%的測題也不必淘汰,可以繼續(xù)使用。當(dāng)測驗主要用于選拔時(選拔性測驗),就應(yīng)比較多地采用那些難度值接近錄取率的項目。如果我們要把全體受測者作最大程度的區(qū)分,則050左右的難度最合適??傊?,對項目的難度特征進行分析時,應(yīng)考慮到測驗的目的,不能一概而論,一般在030070為宜。 (
25、二)項目區(qū)分度 區(qū)分度又稱鑒別力,是指試題對所要測量的心理特性的識別程度,也就是項目的效度。項目效度越高,其區(qū)分度越大,鑒別力越強。但對于不同的測驗題型,其計算也有所區(qū)別。 對于客觀題,項目區(qū)分度的簡便計算公式是D=PHPL(D,區(qū)分度;PH,高分組通過該題的人數(shù)占高分組總?cè)藬?shù)百分比;PL,低分組通過該題的人數(shù)占低分組總?cè)藬?shù)百分比)。 對于論文型題目,項目區(qū)分度可以這樣計算,D=(MHML)/N(hl)D,區(qū)分度;MH,高分組(總分最高的27的學(xué)生)考生該題得分之和;ML,低分組(總分最低的27的學(xué)生)考生該題得分之和;N,所有考生總?cè)藬?shù)的27;h,該題最高得分;
26、l,該題最低得分。 項目區(qū)分度多高合適也和測驗?zāi)康拿芮邢嚓P(guān)。就學(xué)績測驗而言,一般要求項目與總分的相關(guān)達到020以上,高分組與低分組通過率之差達到015020。一般認為D>040,該題非常優(yōu)良;D<019,該題必須淘汰。但是這一標準也不是絕對的。一個測驗用于選拔,其區(qū)分度應(yīng)該高一些;如果一個測驗只是用于考察學(xué)生對知識、技能的掌握情況,可不考慮區(qū)分度,即使區(qū)分度為0,只要該項內(nèi)容是重要的,今后仍可繼續(xù)使用。 總之,信度、效度、難度和區(qū)分度是鑒定測驗質(zhì)量的客觀指標。一個良好的測驗必須既有較高的信度,又有較高的效度,并且每個項目都有一定的難度和區(qū)分度。廣大教師在編制教學(xué)
27、測驗時,應(yīng)該綜合考慮這些要求。第三節(jié)教學(xué)測驗的類型及其應(yīng)用 一、教學(xué)測驗的類型 (一)常模參照測驗和標準參照測驗 在學(xué)校教學(xué)過程中,教學(xué)測驗可以用來測量和評價學(xué)生在一定群體中的等級,也可以用來測量和評價學(xué)生是否有效地完成了教學(xué)目標。前者即常模參照測驗,后者即標準參照測驗。 1常模參照測驗 常模參照測驗(norm-referenced test)是以學(xué)生團體的平均成績作為參照標準,就某學(xué)生得分的高低來說明其在學(xué)生團體中的相對位置(或名次),將學(xué)生分類排隊。其特點是學(xué)生成績的高低是相對的。它著重學(xué)生個人之間的比較,適于區(qū)分學(xué)生的成績水準,可供選
28、拔、編班、編組之用。這種測驗要求測得的分數(shù)變異性要大,得分的范圍要廣,充分顯示個別差異;要求試題有很強的鑒別力。這種測驗重視名次排列,鼓勵競爭,對學(xué)生的學(xué)習(xí)起考核和監(jiān)督的作用,但缺少診斷的效用,且易引起學(xué)生過度的緊張與焦慮。 2標準參照測驗 在學(xué)校里,凡是參照規(guī)定的作業(yè)標準,核對學(xué)生的測驗得分,評定其是否達到標準以及達標的程度如何的測驗,都屬于標準參照測驗(criterion-referenced test)。其特點是學(xué)生成績的高低是絕對的,不是表示他在同輩集體中的相對位置。這種測驗在課程和教學(xué)改革的推動下產(chǎn)生,從20世紀60年代起頗受重視。學(xué)生的學(xué)業(yè)成績宜用學(xué)習(xí)的數(shù)量和程
29、度來表示,而且只有與預(yù)先規(guī)定的某種標準加以比較才具有確定的意義。這種測驗的試題必須正確地反映教學(xué)目標,方可作為評價的標準,所以要求試題在數(shù)量上和質(zhì)量上同要測定的內(nèi)容和范圍一致,而不必關(guān)心題目的難易和區(qū)分度。在測驗中如果發(fā)現(xiàn)多數(shù)學(xué)生不能正確回答某些題目,那么就要檢驗這些題目是否體現(xiàn)了教學(xué)目標,要考慮教學(xué)方法是否恰當(dāng),而不是簡單地剔除它。標準參照測驗?zāi)苡脕砜疾閷W(xué)生的基礎(chǔ)知識與技能的學(xué)習(xí)情況,哪些學(xué)得較好,哪些沒有學(xué)好,需要補救。因此,標準參照測驗主要用于基本知識、基本技能的測量,用于診斷及個別指導(dǎo)。 (二)準備性測驗、形成性測驗和終結(jié)性測驗 測量與評價貫穿于教學(xué)過程的始終,從教
30、學(xué)開始至教學(xué)結(jié)束。教師必須根據(jù)教學(xué)過程的不同階段,靈活選用不同的測驗。 1準備性測驗 準備性測驗(preparatory test)一般在教學(xué)活動開始之前施行,目的在于了解學(xué)生對未來的教學(xué)活動的準備狀態(tài),即是否具有完成新的教學(xué)任務(wù)所必需的基本知識和基本技能,從而有效地安排教學(xué)。準備性測驗一般屬于掌握性測驗,試題難度較低,考核內(nèi)容主要是有關(guān)基本知識和基本技能,目的在于為制訂教學(xué)目標和教學(xué)計劃提供依據(jù)。這種測驗往往在教師不了解學(xué)生的知識和能力時,或者所預(yù)測的學(xué)習(xí)結(jié)果非常具體并有明顯的順序的情況下采用。 2形成性測驗 形成性測驗(formative test)
31、一般在教學(xué)過程中進行,目的在于了解學(xué)生在教學(xué)過程中達到教學(xué)目標要求的程度,探究教學(xué)中存在的問題或缺陷,以便及時調(diào)整教學(xué),提高教學(xué)的自覺性和主動性。形成性測驗一般要根據(jù)情況進行多次,它應(yīng)成為教學(xué)過程的一個有機組成部分。它通常也屬于掌握性測驗,試題根據(jù)教學(xué)內(nèi)容和教學(xué)要求編制,可難可易,一般由任課教師本人根據(jù)教學(xué)進度和實際教學(xué)情況實施。但它一般不以區(qū)分學(xué)生的優(yōu)良程度為目的,不重視對學(xué)生分等鑒定,以及學(xué)生之間成績的比較。教學(xué)測量與評價的反饋調(diào)節(jié)功能主要是通過形成性測驗來實現(xiàn)的。 3終結(jié)性測驗 終結(jié)性測驗(summative test)一般在教學(xué)活動結(jié)束后進行,目的在于考察教學(xué)目標達
32、到何種程度,判明是否有必要修訂教學(xué)目標,重新進行補救教學(xué),同時,檢查教學(xué)活動的組織是否得當(dāng),教材的安排是否合理并確定學(xué)生的學(xué)習(xí)成績。其目的在于對整個教育活動所取得的較大成果作更為全面的評價。它與形成性測驗有明顯的區(qū)別。形成性測驗比終結(jié)性測驗頻繁。通常當(dāng)一種新觀念或新技能的初步教學(xué)完成時,都應(yīng)進行形成性測驗。終結(jié)性測驗則著眼于較大范圍內(nèi)教學(xué)內(nèi)容的掌握,往往是在形成性測驗的基礎(chǔ)上進行的。終結(jié)性測驗因其涉及的范圍廣,所以測驗的內(nèi)容須注意代表性,各種試題的比例應(yīng)與整個課程各類學(xué)習(xí)結(jié)果所占的比例相當(dāng)。 然而,準備性測驗、形成性測驗和終結(jié)性測驗三者之間并沒有不可逾越的鴻溝。某一教學(xué)單元的終結(jié)性測
33、驗,往往可以作為下一教學(xué)單元的準備性測驗;某一小的教學(xué)單元的終結(jié)性測驗,往往是某一大的教學(xué)單元的形成性測驗。在實際教學(xué)中,我們應(yīng)該綜合運用三種測驗形式。 (三)標準化學(xué)績測驗和教師自編測驗 標準化測驗指經(jīng)過標準化程序編制的心理與教育測驗,教師自編測驗則指教師根據(jù)教學(xué)需要自行設(shè)計與編制的測驗。 1標準化學(xué)績測驗 標準化學(xué)績測驗(standardized achievement test)是指由學(xué)科專家和測驗編制專家共同按照標準化程序為受過某種教學(xué)或訓(xùn)練的人員編制的測驗,目的在于評價經(jīng)教學(xué)或訓(xùn)練后的實際工作表現(xiàn)。 所謂標準化程序,包括:選取有代表性
34、的材料編成測驗的試題;選取有代表性的被試,從而得到有代表性的一組分數(shù);根據(jù)測得分數(shù)的統(tǒng)計分析,求出常模;按照規(guī)定程序建立效度與信度;明確規(guī)定施測步驟和記分方法。簡言之,標準化測驗即是已經(jīng)具備常模、效度、信度、施測程序和記分方法等基本條件的心理教育測驗。智力測驗和人格測驗都可以是標準化測驗,而標準化學(xué)績測驗則是標準化測驗的一種。 由于標準化學(xué)績測驗具有客觀性和可比性的優(yōu)點,所以它是評價學(xué)生學(xué)業(yè)成績的重要工具之一。這種測驗在國外使用比較普遍。例如,美國教育測驗中心舉辦的托??荚嚕═OEFL)考核非英語國家學(xué)生的英語水平,決定是否錄取留學(xué)和授予獎學(xué)金。目前,我國的標準化測驗工作也正在進行。
35、高考的標準化工作已取得一定進展,并在逐步推行。對外漢語水平考試(HSK)則是其中的典型代表,外國學(xué)生通過四級才能進入中國的大學(xué)學(xué)習(xí),通過六級才可申請攻讀碩士學(xué)位。 2教師自編測驗 教師自編測驗(teacher-made achievement test)是指教師根據(jù)自己的教學(xué)經(jīng)驗和教學(xué)風(fēng)格,自行設(shè)計和編制的用來考察學(xué)生學(xué)習(xí)進步情況的測驗。由于學(xué)校科目繁多,教學(xué)檢查需經(jīng)常進行,而教師自編測驗操作過程簡單,施測手續(xù)方便,應(yīng)用范圍一般限于自己所任教的學(xué)科,在實際教學(xué)中頗為有用,所以是應(yīng)用得最多和教師最愿意用的測驗。雖然這種測驗未經(jīng)標準化,但其編制也需要遵循一定的原則。例如,測驗應(yīng)
36、能測量明確規(guī)定的學(xué)習(xí)結(jié)果,忠實反映教學(xué)目標;測驗應(yīng)能測出預(yù)期的學(xué)習(xí)結(jié)果和教材的代表樣本;測驗應(yīng)按預(yù)期的學(xué)習(xí)結(jié)果選擇試題類型;測驗要有效、可靠等。教師只有掌握教學(xué)目標,并熟悉各種形式的試題的特點與性能,方能編制出恰當(dāng)?shù)臏y驗,從而保證評價工作順利進行。 二、學(xué)績測驗的命題 編制學(xué)績測驗的核心是命題。要編制良好的學(xué)績測驗,最重要的是要掌握命題的方法和技巧。 (一)試題的類型 試題的類型(題目的形式)在學(xué)績測驗中占有很重要的地位。如果題型不適當(dāng),測驗就要浪費時間,評分時就會發(fā)生種種困難。因此,在編制學(xué)績測驗前,必須慎重選擇適宜的題型。 人們在長期的測驗
37、實踐中,發(fā)展出了多種多樣的題目形式,根據(jù)應(yīng)答方式的不同可以分成兩大類:客觀題和主觀題。 1客觀題 客觀題具有良好的結(jié)構(gòu),對學(xué)生的反應(yīng)限制較多。學(xué)生的回答只有對錯之分,因此教師評分也只能是得分或失分。這類題目包括選擇題、填空題、匹配題和是非題等。 (1)選擇題,由題干和兩個或更多的選項組成。題干可以是直接提問或者以不完整的句子的形式出現(xiàn),目的是為了設(shè)置問題情境。而選項則提供可供選擇的答案,包括一個或多個正確答案和若干具有干擾性的錯誤項或迷惑項。學(xué)生的任務(wù)就是閱讀題目,再從一系列選項中挑選出正確的項目。 教師在出題時,要綜合考慮題干和選項,使整個題目清楚明了
38、。選項的數(shù)量一般沒有統(tǒng)一的規(guī)定,教師可以隨意確定選項的個數(shù),大多是45個,這樣可以避免學(xué)生猜測答案。所有的題目也可以安排各自不同數(shù)量的選項。良好的選擇題的題干應(yīng)該明確簡單,選項具有迷惑性。 經(jīng)過精心設(shè)計的題干和選項,可以有效地測查學(xué)生知識的掌握水平。此外,選擇題還有一種常用變式,選項中有一至多個正確答案,即通常稱為多選題。這種題型的難度大大高于常規(guī)的選擇題(單選題),可以有效地檢查學(xué)生學(xué)習(xí)的深度,在測驗中也廣泛使用。 總之,由于選擇題可適用于文字、數(shù)字和圖形等不同性質(zhì)的材料,可以考察記憶、分析、鑒別、推理、理解和應(yīng)用知識的能力,再加上它的評分客觀、省時,學(xué)生猜測的可能性相對
39、小些,因此在標準化的學(xué)績測驗中被廣泛采用。其缺點是:答案固定,測不出學(xué)生組織材料的能力和創(chuàng)造力;題量大,要為每個題目編寫迷惑答案,任務(wù)比較繁重。(2)是非題,又稱正誤題,可以看做具有兩個備選答案的選擇題。它常用的形式是,陳述一句話,要求學(xué)生判斷對錯或是非。是非題主要適于考察學(xué)生對簡單觀念或知識的了解。 是非題形式簡單,能夠在一份試卷內(nèi)覆蓋大量的內(nèi)容。教師在評判時也較客觀,記分簡便省時。但是由于答案非對即錯,即使在完全猜測的情況下,學(xué)生也有50%的機會選擇到正確答案,因此其可靠性較差。一種改進的辦法是,增加題目的數(shù)量。由于題量大,對題目總體的取樣較全面,學(xué)生很難只憑猜測獲得高分。
40、60;(3)匹配題,是另一種可提供多種選擇的考試形式。通常,匹配題包括兩列詞句,一列是問題選項,一列是反應(yīng)選項。學(xué)生根據(jù)題意按照某種關(guān)系將左右的項目連接起來。匹配題形式簡單,能夠有效地測量學(xué)生對知識聯(lián)系的掌握情況,且易于記分。但是,它只能用于測查彼此存在著簡單關(guān)系的知識。 (4)填空題,呈現(xiàn)給學(xué)生一句或一段不完整的話,要求學(xué)生簡要作答。當(dāng)教師的目的是考察學(xué)生對知識的回憶時,填空題十分有用,它可將學(xué)生猜測的可能性降到最小。如果經(jīng)過精心設(shè)計,也可以通過填空題來考察學(xué)生對知識的理解、推理和判斷能力。填空題的問題在于,學(xué)生的答案各不相同甚至還會出現(xiàn)出人意料的答案,學(xué)生的答案還會受筆跡、用詞等
41、無關(guān)因素的影響。 2主觀題 主觀題要求學(xué)生自己組織材料,并采用合適的方式表達出來。這類題型包括論文題、問題解決題等。教師在評分時,對學(xué)生的回答需要給出不同量的分值,而不僅僅是滿分或零分。 (1)論文題,指要求學(xué)生用文字論述方式闡述相關(guān)觀點的題目,回答字數(shù)可以從幾段到幾頁不等。一般較常使用的有兩種類型:有限制的問答題和開放式論文。有限制的問答題是指教師對回答的內(nèi)容和長度都有規(guī)定,如平時測驗中的簡答題等。例如,說明戊戌變法中的重要人物、事情經(jīng)過以及結(jié)果。簡答題適合于考察學(xué)生對知識的記憶和理解程度,還可以測量學(xué)生對材料的概括能力。開放式論文則允許學(xué)生在內(nèi)容上可以自由選材
42、,自由發(fā)揮,而且篇幅較長,如平時測驗中的論述題等。論述題有利于學(xué)生清楚地表達自己的思想,可以考察學(xué)生對材料的理解深度和對材料的組織能力、綜合能力,有時還可以測量評價能力和創(chuàng)造能力。 不過,使用論文題也有許多不便之處。首先,學(xué)生回答論文題需要花費很多時間。因此,在一份試卷里只能出現(xiàn)少量的題目,對課程內(nèi)容的取樣也就非常有限。一般可以通過增加小的論文題(即簡答題或問答題)來盡量避免這個問題。其次,對于熟悉自己學(xué)生的教師,在判卷時很難做到客觀,教師對學(xué)生的總體印象往往會影響到對論文的評價,導(dǎo)致信度較低。 (2)問題解決題,是向?qū)W生提供一定的問題情境和目標情境,要求學(xué)生通過對知識進行
43、組織、選擇和運用等復(fù)雜的程序來解決問題。通常有兩種形式。一種是間接測驗,與前面提到的幾種測驗形式一樣,采用紙筆測驗來評價學(xué)生的學(xué)業(yè)成就或能力。學(xué)生通常必須寫出若干步驟或過程,以展現(xiàn)他的思路。評分時,按照步驟記分,如果缺少某些步驟就不能得分。平時的物理、化學(xué)、生物等學(xué)科的考試經(jīng)常會出現(xiàn)這種類型的題目。另一種則是直接測驗。例如,為了考察學(xué)生學(xué)習(xí)本節(jié)內(nèi)容的情況,讓學(xué)生編制一份測驗兩步應(yīng)用題的試卷。由于它考察了學(xué)生處理實際問題的能力,所以有時我們又把這種形式叫做操作測驗。在實際考核過程中,教師可以要求學(xué)生設(shè)想一個可以解決本市垃圾處理問題的方案,或者要求學(xué)生測量學(xué)校操場的面積等。操作測驗對于考察高級思維
44、技能十分有效,但是往往費時費錢,而且主觀性較大,其效度也經(jīng)常受到質(zhì)疑。 當(dāng)然,主觀題和客觀題并不是彼此對立的,而是各有短長,各有自己的獨特的功能。在實際教學(xué)中,應(yīng)根據(jù)不同情況,靈活選擇題目形式,以提高測驗的信度和效度。 (二)命題的一般原則 雖然學(xué)績測驗的試題形式繁多,性質(zhì)不同,功能各異,但在編制時還是有規(guī)律可循的。 (1)試題要符合測驗的目的。學(xué)績測驗的目的有多種,是作為選拔、診斷之用,抑或作為評價或分類之用?這一點是命題時必須明確的。測驗?zāi)康牟煌?,編制測驗的取材范圍及試題難度也就有所不同。 (2)試題內(nèi)容的取樣要有代表性。由于學(xué)績測驗只是測
45、量目標的一個樣本而不是全部,因此試題內(nèi)容的取樣應(yīng)有代表性,能代表該學(xué)科的全部內(nèi)容,而不能只偏重某一方面的內(nèi)容而忽視其他方面的材料;否則,這個測驗的效度就不可能高。 (3)題目格式應(yīng)多種多樣。在同一份試題中,應(yīng)依據(jù)測驗的目的與要求的不同,選用各種不同的題形式,不宜“單打一”。如果要考察學(xué)生對概念的記憶,宜用簡答題;要考察對事物的辨別和判斷,宜用多選題;要考察學(xué)生綜合運用知識的能力,宜用論述題。此外,題目格式應(yīng)明確,不要使學(xué)生誤解。 (4)文句要簡明扼要。測驗題目的文字應(yīng)力求淺顯簡短,不要使用艱深的字詞,要排除與題目無關(guān)的多余信息;同時又不能遺漏解題所必需的條件,否則試題便無法
46、解答。 (5)答案應(yīng)正確可靠。對于標準化學(xué)績測驗,應(yīng)有不致引起爭論的正確答案,即測題的答案應(yīng)是沒有疑義的,是可靠的。 (6)測題應(yīng)彼此獨立。各測題不能含有暗示本題或他題的正確答案的線索。如果一個題目的命題或答案的內(nèi)容為另一個題目的解答提供了線索,那么這后一個題目就失去了測驗的意義,得分也就不能準確地反映學(xué)生的成績。 以上是編制學(xué)績測驗時命題所應(yīng)遵守的一般原則。只有遵守這些原則,學(xué)績測驗才有可能達到較高的信度和效度。 (三)命題的準備和搜集 要編制良好的學(xué)績測驗,僅明確命題的類型和一般原則是不夠的,還必須了解如何制訂編題計劃以及如何進行命題準備等
47、問題。 1制訂編題計劃 編制測驗就如建筑房屋,必須事先設(shè)計周詳?shù)乃{圖,以作為命題的依據(jù)。這樣,測題的內(nèi)容才能具有適當(dāng)?shù)拇硇裕瑥亩l(fā)揮測量的功能,實現(xiàn)測量的目標。對于學(xué)績測驗而言,在命題前,應(yīng)根據(jù)課程標準,列出教學(xué)內(nèi)容和行為目標的雙向細目表;并依據(jù)本次測驗的性質(zhì)、目的,確定題目的取材范圍、形式與數(shù)量。 命題前,測驗藍圖的制訂通常就是編制一張雙向細目表。它能有效指出測驗所包含的內(nèi)容和要測定的各種目標以及對每個內(nèi)容目標的相對重視程度。所謂內(nèi)容就是能力與品格的構(gòu)成要素,即有關(guān)的知識、技能、態(tài)度等;所謂目標就是教學(xué)中所要達到的要求,即有關(guān)知識、技能、策略的掌握層次及態(tài)度的
48、內(nèi)化水平等。 但是,根據(jù)課程標準編制的教學(xué)內(nèi)容和教學(xué)目標的雙向細目表,只是學(xué)績測驗的一個總的藍圖。在具體編制測驗時,還必須根據(jù)本次考試的性質(zhì)、目的,將它具體化,即:要依據(jù)本次考試的教材內(nèi)容,確定題目的取材范圍;依據(jù)本次考試的教學(xué)目標和目的,確定題目形式;依據(jù)內(nèi)容目標的相對重要性,確定題目數(shù)量。例如,本單元包括哪些要點,在這些要點中,哪些屬于知識因素,哪些屬于技能因素;在知識因素中,哪些屬于概念,哪些屬于命題在具體編制測驗時,要把相應(yīng)的題目和它們一一對應(yīng)。 2進行命題準備和搜集 測驗計劃編好后,就要搜集有關(guān)資料作為命題取材的依據(jù)。一個測驗的好壞和測驗材料的選擇適當(dāng)與
49、否有密切關(guān)系。為此,教師在平時教學(xué)中,要隨時把教材中重要的地方做好標記;在批閱作業(yè)或日??荚嚨脑嚲頃r,要記載學(xué)生常見的錯誤;經(jīng)常搜集其他教師編擬的現(xiàn)成試題,并隨時把搜集到的或自編的試題記在卡片上,分科分類儲存,以建立試題庫。 前已闡明,學(xué)績測驗只是所要測量的能力與品德結(jié)構(gòu)的一個有代表性的樣本,不可能顧及所有的構(gòu)成要素與層次,而樣本的代表性和教材的重點與難點、資料的豐富性與普遍性密切相關(guān)。教師只有在平時留意教材的重點與難點,注意搜集現(xiàn)成試題并分類儲存,才有可能使試題的內(nèi)容更有針對性,從而編制出可信和有效的學(xué)績測驗。反之,如果教師在平時教學(xué)中不做扎扎實實的工作,則所編試題可能沒有代表性,
50、不能達到測驗的信度和效度要求。 (四)命題難度梯級的建立 為了考核學(xué)生對教材的掌握程度,可以對同類試題的難度列成一個梯級。難度是命題時要考慮的一個重要問題。教師在建立試題庫時,不僅要把搜集或自編的試題分類儲存,而且應(yīng)該根據(jù)自己的主觀經(jīng)驗,將同類試題進行分類。可先將其分為難、中、易三部分,然后按照由易至難的順序排列,形成一個同類試題的難度序列,以便考察學(xué)生的知識掌握程度。 三、測驗的評分及結(jié)果分析 (一)學(xué)績測驗的評分 一套好的命題并不等于一個好的測驗,即使測驗的內(nèi)容和施測等方面都進行了標準化,測驗的評分也會影響其信度和效度,從而影響測驗的質(zhì)量。
51、就學(xué)績測驗而言,特別是對于教師自編的學(xué)績測驗,其評分應(yīng)注意以下幾點。 1評分要客觀公正 客觀評分是學(xué)績測驗的基本要求。對于客觀題,客觀評分比較容易做到。但是對于主觀題,由于評分標準很難把握,各個評閱者的偏好各不相同,即使是同一位教師一次評閱多份試卷,受情緒、疲勞、試卷前后位置引起的對比效應(yīng)以及對學(xué)生成見的影響,標準也可能不統(tǒng)一,因此其評分的客觀性較差。為了使評分盡可能客觀,一般可采取多人評閱求平均和每人負責(zé)評閱一題的辦法。 2評分標準要規(guī)定答案要點及可接受的變式 對于客觀題,只要提供正確答案即可。對于主觀題,則應(yīng)詳細規(guī)定答案要點,并對評分規(guī)則作詳細的說明
52、。評分時將每個人的反應(yīng)和評分說明書上所提供的樣例相比較,然后按最接近的答案樣例給分。同時,由于同一問題可以從不同角度用不同方法進行解答,因此評分標準不僅要規(guī)定一般的答案要點,而且應(yīng)有可接受的變式。 3評分標準要依據(jù)題目的難易及要點的主次配給分數(shù) 為了科學(xué)地給每個題目配給分數(shù),應(yīng)該對所要測量的心理活動進行系統(tǒng)的結(jié)構(gòu)分析和功能分析,確定其內(nèi)容目標的相對重要性。并在此基礎(chǔ)上,依據(jù)題目的難度,合理配給分數(shù)。 4評分時要注意分析評分和綜合評分相結(jié)合 分析評分即按各要點給分。分析評分便于診斷以往學(xué)習(xí)中的斷裂點和斷裂帶,明確學(xué)生個體內(nèi)部的差異以進行針對性教學(xué)。綜合評分
53、即從整體上考察,分別為不同等級確定樣本。綜合評分可以了解學(xué)生的一般狀況,便于總體了解和把握。因此,在對學(xué)績測驗進行評分時,應(yīng)注意二者的有機結(jié)合,以實現(xiàn)教學(xué)測量與評價的目的。 5評分標準應(yīng)注重內(nèi)容,不宜注重形式 學(xué)績測驗所要測量的是學(xué)生對有關(guān)知識、技能、策略的掌握程度,因此評分時注重的應(yīng)是考生回答的內(nèi)容,而不應(yīng)是作答的形式。除中文科目之外,其他科目試卷的評閱不應(yīng)受錯別字、書法、句法以及卷面整潔等因素的影響。 (二)測驗結(jié)果的分析 運用科學(xué)的測量工具得到一個精確的分數(shù),并不是學(xué)績測驗的最終目的,還必須對學(xué)績測驗的結(jié)果進行分析和解釋。這主要包括對測驗本身(每個
54、測題、整個測驗)的分析和對教學(xué)活動的分析兩個方面。 1對測驗本身的分析 對每個測題而言,測驗結(jié)果的分析可以了解每個測題的性能,提高測驗編制技術(shù),積累好的試題。主要應(yīng)分析的是其難度和區(qū)分度(前已闡述)。對于多選題,還要分析備選答案的合適度,考察標準答案是否正確、是否唯一、是否過于明顯,錯誤答案是否具有迷惑性等。對于備選答案不合適的題目,今后不應(yīng)再用或經(jīng)過修改后再用。 就整個測驗而言,應(yīng)分析其信度和效度(前已闡述),并確定其分數(shù)分布。分數(shù)分布反映的是整個測驗的難度,它直接依賴于組成測驗的項目的難度。如果被試樣本具有代表性,一般來說分數(shù)是常態(tài)分布的。當(dāng)分數(shù)不是常態(tài)而是偏
55、態(tài)時,有兩種情況:一是正偏態(tài),分數(shù)集中在低分端,表明缺少難度低的題目,應(yīng)加入一些較易的項目;一是負偏態(tài),分數(shù)堆積在高分端,說明缺少足夠數(shù)量的難題,應(yīng)加入較難的項目。當(dāng)然,并不是任何測驗都要求分數(shù)呈常態(tài)分布。掌握性測驗如用于教學(xué)前的摸底,出現(xiàn)正偏態(tài)是正常的;如用于終結(jié)性評價,出現(xiàn)負偏態(tài)說明教學(xué)是有成效的,否則說明教學(xué)是失敗的。 2對教學(xué)活動的分析對教學(xué)活動而言,測驗結(jié)果的分析可以對教與學(xué)提供反饋信息,從而改進教學(xué),促進學(xué)習(xí)。為實現(xiàn)這一目的,首先就要對測驗中發(fā)生的錯誤進行登記和分析。其次,對學(xué)生發(fā)生的錯誤進行分析,以說明教學(xué)中存在的問題。是基本概念不明確,還是基本技能不熟練?是教師闡述不
56、清楚,還是學(xué)生理解不透徹?如此等等。最后,應(yīng)針對教學(xué)中存在的問題提出改進措施,以促進學(xué)習(xí)。第四節(jié)教學(xué)成效的質(zhì)性評價根據(jù)教學(xué)評價中所使用的工具不同,教學(xué)評價可分為質(zhì)性評價和量化評價兩種。上文介紹的測驗法主要運用數(shù)學(xué)工具進行測評,屬于量化評價方法。質(zhì)性評價則更多地使用自然工具,強調(diào)在自然的教學(xué)情境中收集關(guān)于評價對象發(fā)展狀況的豐富資料,通過對資料的整理分析,用描述性、情感性語言對評價對象的進步作出評定。從現(xiàn)狀來看,質(zhì)性評價方法似乎是隨著我國新課程改革的興起而逐漸受到關(guān)注的。實際上,質(zhì)性評價方法存在于量化評價方法誕生之前,只是后來人們認為質(zhì)性方法不夠科學(xué)客觀,轉(zhuǎn)而研究和開發(fā)客觀精確的教學(xué)測量方法。然而
57、,當(dāng)教學(xué)測量發(fā)展到一定程度后,鑒于教育現(xiàn)象的綜合性和復(fù)雜性,人們又開始逐漸認識到量化評價的局限性,如過于簡單化,脫離真實的教學(xué)情境等。因此在我國的新課程改革中,質(zhì)性評價方法重新受到重視。綜合使用量化和質(zhì)性的方法,可以實現(xiàn)二者的優(yōu)勢互補,從而更能全面地反映教學(xué)活動的進展和學(xué)生的學(xué)習(xí)狀況。大致而言,質(zhì)性評價的基本形式有觀察法、檔案袋評價、評語法、訪談法等。在此,我們只介紹前兩種較為典型的形式。 一、觀察法 觀察法是指對被評價者在自然狀態(tài)下的特定行為表現(xiàn)進行觀察、考察和分析,從而獲得第一手事實材料的方法(金娣,2007)。觀察法適用范圍廣,操作靈活,在教學(xué)評價活動中有著廣泛的應(yīng)用
58、。用于教學(xué)評價的觀察,通??砂凑詹煌姆诸悩藴蕜澐譃橐韵聨追N。 1按觀察的結(jié)構(gòu)化程度可分為有結(jié)構(gòu)觀察和無結(jié)構(gòu)觀察 有結(jié)構(gòu)觀察是指在觀察開始之前就已制訂好詳細的、結(jié)構(gòu)化的、可操作的觀察計劃和記錄表,觀察者在現(xiàn)場依據(jù)觀察計劃和記錄表收集數(shù)據(jù),在觀察結(jié)束后對數(shù)據(jù)進行合并整理,使用定量分析的方法得到觀察對象各種特定行為發(fā)生的頻次或持續(xù)時間。有結(jié)構(gòu)觀察法需要觀察者事先設(shè)計好觀察行為的分類系統(tǒng),并對每類行為給出明確的操作定義,而且要設(shè)計好觀察程序,適用于觀察者對評價場所較為了解的情境。 無結(jié)構(gòu)觀察是沒有事先預(yù)設(shè)觀察計劃而開展的非系統(tǒng)的、開放式的觀察。無結(jié)構(gòu)觀察要求觀察者敏銳把
59、握環(huán)境中的關(guān)鍵信息,對觀察者的經(jīng)驗和能力有較高的要求。這種觀察適用于探索新環(huán)境的情況或了解個案的初期。 2按觀察者角色不同可分為參與式觀察和非參與式觀察 參與式觀察是指教師作為教學(xué)的主體之一,深入到學(xué)生群體中,觀察學(xué)生的學(xué)習(xí)和生活中的行為,如學(xué)生做作業(yè)的習(xí)慣、學(xué)習(xí)方法、犯錯原因等。教師首先要確定觀察的目的和對象;然后選擇觀察項目,通常教師會使用一個觀察核查表以方便記錄;最后教師依據(jù)觀察所得結(jié)果給出建議性評價。參與式觀察簡便易行,適用范圍大,由于它具有一定的隱蔽性,所以能反映教學(xué)的真實情境。 在非參與式觀察中,觀察者作為旁觀者的身份進行觀察。與參與式觀察相比,非參與
60、式觀察更為客觀,周期更短,省時省力,但容易只了解到表面現(xiàn)象,獲得的信息缺乏深度。借助科技進步的力量,教學(xué)評價的方法在不斷地豐富。近年來興起的課堂錄像分析的方法就是非參與式觀察的一種,并克服了非參與式觀察缺乏深度的不足。錄像分析法就是借助錄像技術(shù)將課堂教學(xué)過程記錄下來,事后讓教師和學(xué)生通過觀看和分析課堂錄像來反思和評價自己的教學(xué)與學(xué)習(xí)過程。課堂錄像法為教師提供了更為原始、豐富的信息,有利于開展深入的分析,但其過程費時費力,且需要具備相應(yīng)條件,因此推廣度不如參與式觀察。此外,課堂中的教師和學(xué)生難免受到攝像機的影響,因此需要一個逐步適應(yīng)的過程。 3按觀察范圍可分為完全觀察和取樣觀察
61、0;完全觀察是指對與評價有關(guān)的活動進行全面的觀察。優(yōu)點在于資料完整翔實,缺點是耗時費力,適用于小樣本或個案評價。取樣觀察是指選擇有代表性的樣本進行觀察。按照樣本類型不同又可分為時間取樣觀察和事件取樣觀察。前者是以觀察對象的日常行為表現(xiàn)為總體,觀察者選擇若干相等的時間段為樣本進行觀察;后者是以觀察的行為事件本身作為取樣依據(jù),只對某種特定的行為和活動進行觀察和記錄。 二、檔案袋評價 (一)檔案袋的起源 檔案袋(portfolio),也被譯做成長記錄袋、學(xué)習(xí)檔案等。這一概念最初來源于美術(shù)領(lǐng)域,畫家使用檔案袋收集他們有代表性的作品,以供自己反思和他人評價。后來人們將它運用于教育情境中由教師和學(xué)生一起有組織、有系統(tǒng)地收集學(xué)生的作品和參與活動的材料,匯總教師、家長、同伴的評價及學(xué)生自我反思的相關(guān)材料并進行分類歸檔,以展示學(xué)生的知識、技能和態(tài)度的成長過程,促進學(xué)生自主發(fā)展。 (
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度國際文化交流項目志愿者聘用合同
- 2025版民宿民宿餐飲服務(wù)合同示范4篇
- 2025年度房地產(chǎn)公司股權(quán)轉(zhuǎn)讓與市場推廣合同
- 2025年度個人車位租賃服務(wù)合同范本2篇
- 2025年度沐足行業(yè)員工勞動合同模板(含保密協(xié)議)4篇
- 林綿綿《韓娛離婚協(xié)議》2025年度網(wǎng)絡(luò)劇改編權(quán)轉(zhuǎn)讓合同8篇
- 二零二五年度個人現(xiàn)金借款合同標準版2篇
- 二零二五年度農(nóng)產(chǎn)品品牌授權(quán)使用合同8篇
- 二零二五年度農(nóng)家樂鄉(xiāng)村旅游扶貧項目合作合同4篇
- 二零二五年度文化旅游產(chǎn)業(yè)投資借款合同大全4篇
- 2022年中國電信維護崗位認證動力專業(yè)考試題庫大全-上(單選、多選題)
- 紀委辦案安全培訓(xùn)課件
- 超市連鎖行業(yè)招商策劃
- 醫(yī)藥高等數(shù)學(xué)智慧樹知到課后章節(jié)答案2023年下浙江中醫(yī)藥大學(xué)
- 城市道路智慧路燈項目 投標方案(技術(shù)標)
- 初中英語-Unit2 My dream job(writing)教學(xué)設(shè)計學(xué)情分析教材分析課后反思
- 【公司利潤質(zhì)量研究國內(nèi)外文獻綜述3400字】
- 工行全國地區(qū)碼
- 新疆2022年中考物理試卷及答案
- 地暖工程監(jiān)理實施細則
- 頂部板式吊耳計算HGT-20574-2018
評論
0/150
提交評論