教學(xué)測量與評價

上傳人：露*** IP屬地：上海上傳時間：2022-05-05 格式：DOCX 頁數(shù)：15 大小：34.60KB 積分：12 舉報 版權(quán)申訴

已閱讀5頁，還剩10頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、第一節(jié)教學(xué)測量與評價的含義和作用一、教學(xué)測量與評價的含義（一）教學(xué)測量與教學(xué)測驗教學(xué)測量（instructional measurement）是考核教學(xué)成效的一種方法。這是借助于一定的心理量表及其操作，對學(xué)生的學(xué)習(xí)成績（簡稱學(xué)績）進行探察，并以一定的數(shù)量來表示的考核辦法。對此，我們應(yīng)注意以下幾點。（1）教學(xué)測量的目的在于考核教學(xué)成效，也就是考察教學(xué)目標的完成情況，即學(xué)生內(nèi)在的能力與品德等的形成狀況。因此，教學(xué)測量的目標應(yīng)以教學(xué)目標為依據(jù)，測量目標應(yīng)與教學(xué)目標一致，而不能偏離教學(xué)目標。（2）教學(xué)測量的對象是學(xué)生內(nèi)在的能力與品德等的形成狀況，它不可能

2、像物理測量那樣直接進行，只能借助于一定的心理量表及其操作間接測量。因此，測驗量表的科學(xué)性是有效教學(xué)測量的必要前提。這一點，我們將在本章第二節(jié)闡述。（3）教學(xué)成效是通過量化的學(xué)績進行考察的。也就是說，教學(xué)成效是以學(xué)生的學(xué)習(xí)成績?yōu)橹苯涌疾煲罁?jù)的，而學(xué)績是以一定的數(shù)量來表示的，因此命題的合理性與評分的客觀性是有效教學(xué)測量的一個重要影響因素。這一點，我們將在本章第三節(jié)說明。在分析教學(xué)測量的實質(zhì)時，還必須注意它和教學(xué)測驗（instructional test）之間的區(qū)別和聯(lián)系。由于教學(xué)成效是以學(xué)績來表示的，因此教學(xué)測驗又稱學(xué)績測驗。所謂學(xué)績測驗就是用以測量學(xué)績的量表及其操作。用測

3、量學(xué)的術(shù)語講，學(xué)績測驗就是選擇能代表學(xué)績的一些行為樣本進行考核并作出數(shù)量分析。也就是說，學(xué)績測驗所包含的只是測量目標的一個樣組而不是全部。這個樣組必須具有代表性，能有效地測量學(xué)績。因此，可以說學(xué)績測驗是教學(xué)測量的工具和手段，教學(xué)測量是對學(xué)績測驗所得結(jié)果的客觀描述。也可以說，教學(xué)測量就是借助于學(xué)績測驗來對教學(xué)成效進行定量考核的一種方法。（二）教學(xué)評價教學(xué)評價（instructional evaluation）就是依據(jù)教學(xué)目標，對學(xué)績測驗所得測量結(jié)果進行分析及解釋。它主要包含以下兩個方面的工作。（1）教學(xué)評價必須對學(xué)績測驗數(shù)據(jù)所表明的教學(xué)成效作出確切的診斷。診斷

4、教學(xué)成效即依據(jù)教學(xué)目標，運用學(xué)績測驗數(shù)據(jù)，判明學(xué)生知識、技能、規(guī)范的掌握程度及能力與品德的形成狀況。（2）教學(xué)評價必須對教學(xué)的成敗原因進行分析，并對今后教學(xué)工作的改進方面作出明確的規(guī)定。教學(xué)評價不僅要了解學(xué)生能力與品德的形成狀況，而且更重要的是要找出以往學(xué)習(xí)中的斷裂點和斷裂帶，分析其成功與失敗的原因，并提出改進措施。（三）教學(xué)測量與評價的關(guān)系教學(xué)測量與評價兩者既有區(qū)別，又有密切的聯(lián)系。一方面，教學(xué)測量是對學(xué)績測驗所得結(jié)果的客觀描述（將結(jié)果予以數(shù)量化），并不考慮結(jié)果的實際意義，而教學(xué)評價則是對學(xué)績測驗所得結(jié)果的主觀判斷（對結(jié)果進行分析解釋），以了解結(jié)果的實際意義。另一方面

5、，雖然教學(xué)評價是一種主觀判斷，但是這種主觀判斷必須以教學(xué)測量所得的客觀描述為依據(jù)。否則，就是主觀主義的判斷。同樣，教學(xué)測量也不能脫離教學(xué)評價，因為教學(xué)測量只是對學(xué)績測驗結(jié)果的客觀描述，只有通過教學(xué)評價，才能判斷這種客觀描述的實際意義。不通過評價，測量所獲得的結(jié)果也就毫無實際價值。從以上的闡述可以看到，教學(xué)測量與教學(xué)評價是兩個不同的概念，但在實際工作中常被混淆和誤用。例如，有些教師對學(xué)生的學(xué)習(xí)成績不作具體分析，不聯(lián)系教學(xué)內(nèi)容來確定成績的實際意義，而只是進行測驗和記分，并自以為這就是對教學(xué)進行評價。也有些教師忽視嚴密的測量，未經(jīng)任何客觀數(shù)據(jù)的證實，就試圖對學(xué)生知識、技能、規(guī)范的掌握程度

6、及能力、品德的形式狀況進行評價。可以說，正確地進行教學(xué)測量與評價，是完整教育教學(xué)過程中的重要一環(huán)。二、教學(xué)測量與評價的作用教學(xué)測量與評價是檢驗教學(xué)成效、確定學(xué)生學(xué)習(xí)結(jié)果和教師教學(xué)效果的有效手段，是有效教學(xué)不可缺少的環(huán)節(jié)。雖然通過日常調(diào)查和觀察可以得到有關(guān)教學(xué)成效的某些信息，但是這些信息往往是很表面的、粗糙的，有的甚至是虛假的。要想確切地檢驗教學(xué)成效，確定教學(xué)雙方的水平，就必須進行科學(xué)的教學(xué)測量與評價。這也是教學(xué)測量與評價最普遍和最一般的功能。而它的根本作用則在于了解學(xué)生的學(xué)習(xí)狀況，改進教師的教學(xué)，從而促進學(xué)習(xí)效果的提高。 1反饋調(diào)節(jié)功能通過教學(xué)測量

7、與評價所提供的反饋信息，對教師而言，不僅可以了解學(xué)生能力與品格的形成狀況，而且還可以了解影響學(xué)生學(xué)習(xí)的各種因素，從而更明確地調(diào)整教學(xué)目標、教學(xué)內(nèi)容和教學(xué)方法，以提高學(xué)生的學(xué)習(xí)成效，加速學(xué)生心理結(jié)構(gòu)的形成。對學(xué)生而言，反饋信息能使他們明確自己對有關(guān)知識、技能的掌握情況，找出學(xué)習(xí)中的薄弱環(huán)節(jié)，從而調(diào)節(jié)自己的學(xué)習(xí)行為，把時間和精力集中在需要加強的那些方面，以構(gòu)建完整的能力與品格結(jié)構(gòu)。 2激勵動機功能教學(xué)測量與評價所提供的反饋信息不僅可以調(diào)節(jié)教學(xué)活動，而且可以激勵學(xué)生的學(xué)習(xí)，起到進一步激發(fā)學(xué)習(xí)動機的作用。當(dāng)學(xué)生知道自己的學(xué)習(xí)效果是好的，則可以滿足其“獲得成功”的需要，從而帶來愉快的情緒體驗，

8、進一步增強其學(xué)習(xí)動機。如果反饋的結(jié)果說明學(xué)習(xí)效果不好，往往會引起不愉快的情緒體驗，為了“避免失敗”，也可以促使學(xué)生把壓力變成動力，從反面來增進學(xué)生的學(xué)習(xí)動機?？傊?，通過教學(xué)測量與評價所提供的反饋信息，可以了解學(xué)生的學(xué)習(xí)，改進教學(xué)。第二節(jié)有效教學(xué)測驗的基本要求既然教學(xué)測量與評價是有效教學(xué)活動的一個必要環(huán)節(jié)，而教學(xué)測量是以科學(xué)的教學(xué)測驗為工具施行的，那么有效教學(xué)測驗有哪些基本要求呢？一、測驗的效度（一）效度的含義測驗的效度指的是測量的正確性和有效性，即它能夠測出所要測量的心理特質(zhì)與行為特征的程度。換言之，效度指測驗?zāi)茉诙啻蟪潭壬线_到測量目的。它是科學(xué)測量工具最重

9、要的質(zhì)量指標。一個測驗若無效度，則其他任何優(yōu)點都無法發(fā)揮其真正的功能。因此，在編制教學(xué)測驗時首先必須考慮其效度。當(dāng)然，效度也不是絕對的，而是相對的。任何一種測驗只是對一定的目的來說是有效的，對其他目的和用途卻不一定有效。另外，由于測驗是根據(jù)行為樣本對所要測量的目標作間接推斷，因此效度只能達到某種程度，不可能全有或全無。（二）效度的類型考察效度的方法很多，根據(jù)其側(cè)重的問題不同，可將測驗的效度分為三類，即內(nèi)容效度、構(gòu)想效度、實證效度。 1內(nèi)容效度內(nèi)容效度指測驗題目對有關(guān)內(nèi)容或行為范圍取樣的適當(dāng)性，也就是測驗所選的項目是否符合所要測量的東西，其代表性是否

10、適當(dāng)。要編制內(nèi)容效度高的測驗，必須注意兩點。第一，要有一個定義完好的內(nèi)容范圍，即對測量目標應(yīng)有一明確的界定。對學(xué)績測驗而言，它所要測量的是學(xué)生能力的形成狀況，而能力是概括化和系統(tǒng)化了的知識和技能。因此，在編制學(xué)績測驗時，應(yīng)依據(jù)教學(xué)內(nèi)容和教學(xué)目標，對能力結(jié)構(gòu)中的知識因素和技能因素進行綜合測量。第二，測題對所界定的內(nèi)容范圍應(yīng)是代表性取樣。也就是說，要根據(jù)教學(xué)內(nèi)容和教學(xué)要求的重要性來選擇題目，而非隨機取樣，以便使選出的題目能包含所測內(nèi)容范圍的主要方面，并使各方面題目比例適當(dāng)。學(xué)績測驗尤其強調(diào)取樣的適當(dāng)性。但是有的教師編制測驗的隨意性很大，不注意取樣的策略，他們或者對什么感興趣

11、就出什么題，或者覺得怎么方便就怎么出題，或者為難倒學(xué)生而出一些偏題、怪題。這樣編出來的測驗內(nèi)容缺乏代表性，其內(nèi)容效度必然很低。為了防止這種情況發(fā)生，必須對內(nèi)容范圍進行系統(tǒng)分析，將該范圍區(qū)分為細目，并對每個細目作適當(dāng)加權(quán)，然后再根據(jù)權(quán)數(shù)從每個細目中隨機取樣，直至得到所需要的題目。鑒定學(xué)績測驗的內(nèi)容效度最常用的方法是，請有關(guān)學(xué)科專家和有經(jīng)驗的教師對課程標準和教科書作全面考察，并與測驗題目作系統(tǒng)比較，看測驗題目是否適當(dāng)?shù)卮砹怂?guī)定的內(nèi)容。如果測驗題目具有較好的代表性，說明該學(xué)績測驗具有較好的內(nèi)容效度。 2構(gòu)想效度構(gòu)想效度指測驗對某種理論的符合程度，其目的在于用心理

12、學(xué)的理論觀點對測驗的結(jié)果加以解釋及探討。當(dāng)測驗的目的是用來測量能力、創(chuàng)造力、人格等抽象而帶有假定性的特質(zhì)或結(jié)構(gòu)時，我們就應(yīng)重點考慮測驗的構(gòu)想效度。要建立具有構(gòu)想效度的測驗，必須先從某一理論出發(fā)，導(dǎo)出與這一理論構(gòu)想有關(guān)的基本假設(shè)；據(jù)此設(shè)計和編制測驗；然后由果溯因，審查測驗結(jié)果是否符合心理學(xué)的理論見解。例如，能力的類化經(jīng)驗說認為能力是一種概括化與系統(tǒng)化了的知識和技能，根據(jù)這一理論，可以提出下面三項假設(shè)：（1）能力隨學(xué)習(xí)的進程（年級）而增長；（2）能力不由年齡決定；（3）能力和學(xué)習(xí)成績密切相關(guān)。如果我們據(jù)此編制學(xué)績測驗，并對測驗結(jié)果分析后發(fā)現(xiàn)，測驗分數(shù)隨年級的上升而提高，同一年級不同年齡的學(xué)生無顯著

13、差異，測驗得分高的學(xué)生平時學(xué)習(xí)成績好，那么我們就可以說該學(xué)績測驗具有良好的構(gòu)想效度。檢驗構(gòu)想效度的方法很多，比較簡單和常用的方法有以下幾種。一是利用測驗的內(nèi)容效度。根據(jù)某種理論構(gòu)想所編制的測驗如果有內(nèi)容效度，也就證明了該測驗有一定的構(gòu)想效度。二是利用相容效度，將測驗結(jié)果與另一個效度已知的同類測驗結(jié)果進行相關(guān)檢驗。如果相關(guān)高，說明所編制的測驗具有一定構(gòu)想效度。三是利用預(yù)測效度。如果用來測量某一理論構(gòu)想的測驗可以有效地預(yù)測某一行為，那么可以說該測驗具有一定的構(gòu)想效度。 3實證效度實證效度又稱效標關(guān)聯(lián)效度，指測驗對處于特定情境中的個體行為進行預(yù)測的有效程度。一個測驗

14、預(yù)測得越準確，就越有效。其中被預(yù)測的行為是檢驗效度的標準，簡稱效標。根據(jù)效標資料搜集的時間，實證效度可分為同時效度和預(yù)測效度。前者與用來診斷現(xiàn)狀的測驗有關(guān)，后者與預(yù)測將來結(jié)果的測驗有關(guān)。例如，用大學(xué)入學(xué)考試來預(yù)測學(xué)生進入大學(xué)的學(xué)習(xí)成績，用職業(yè)測驗來預(yù)測個體在一定工作崗位的工作能力等。檢驗測驗的實證效度，最主要的難點在于找到合適的效標。因為有些效標無意義，有些效標有種種缺點。好的效標應(yīng)該是有效的、可靠的、客觀的。實證效度一般可通過考察測驗分數(shù)與效標的關(guān)系來確定。常用的方法是求兩者之間的相關(guān)系數(shù)。相關(guān)系數(shù)高，說明該測驗實證效度高。通過上面的介紹，我們明確了三種效

15、度之間的差異。但實際上它們之間有著一定的內(nèi)在聯(lián)系：內(nèi)容效度和構(gòu)想效度既是實證效度的保證，又需要實證效度的支持；考察內(nèi)容效度和實證效度可以幫助確定構(gòu)想效度；用于測量某種構(gòu)想的測驗可以作為實證效度的預(yù)測源來使用?？傊?，內(nèi)容效度、構(gòu)想效度和實證效度既相互區(qū)別，又相互聯(lián)系。根據(jù)不同的需要，一個測驗可以采用不同的效度。對教學(xué)測驗而言，我們感興趣的主要是取樣的適當(dāng)性，也就是內(nèi)容效度，有時也需要考慮構(gòu)想效度和實證效度。二、測驗的信度（一）信度與信度系數(shù) 測驗的信度又叫測驗的可靠性，指的是測量的一致性程度。一個好的測量工具必須穩(wěn)定可靠，即多次測量結(jié)果要保持一致，否則便不可信。但是，高信度

16、并不是測驗追求的最終目的，它只是使測驗有效的一個必要條件。信度指標通常以相關(guān)系數(shù)表示，即用同一被試樣本所得的兩組資料的相關(guān)系數(shù)作為測量一致性的指標，稱為信度系數(shù)。估計信度系數(shù)的方法很多，常見的有以下幾種：（1）再測法。用同一種測驗前后兩次施測同一組被試的測驗得分的相關(guān)系數(shù)表示信度。它反映測驗分數(shù)的穩(wěn)定程度，其相關(guān)系數(shù)又稱穩(wěn)定性系數(shù)。（2）復(fù)本法。用兩個等值（復(fù)本）測驗施測同一組被試的測驗得分的相關(guān)系數(shù)表示信度。這種相關(guān)系數(shù)反映兩個復(fù)本測驗的等值程度，所以又叫等值性系數(shù)。（3）分半法。將同一測驗分成對等的兩半并施測同一組被試，用得到的測驗分數(shù)的相關(guān)系數(shù)表示信度。它是復(fù)本法的特例，還可

17、用來估計測驗內(nèi)部的一致性。這種相關(guān)系數(shù)又叫內(nèi)部一致性系數(shù)。（4）同質(zhì)法。用測驗內(nèi)部（測量同一特質(zhì)或?qū)傩裕┎煌譁y驗（異質(zhì)而有關(guān)聯(lián)的測驗題目）之間的得分的相關(guān)系數(shù)表示信度，估計的是測驗題目的同質(zhì)性或普遍性，其相關(guān)系數(shù)也叫普遍性系數(shù)。對于教學(xué)測驗而言，由于兩次測驗之間的學(xué)習(xí)和遺忘不同，所以用穩(wěn)定性系數(shù)來估計其信度是不適當(dāng)?shù)摹３顺商诇y驗的分測驗外，一般學(xué)績測驗所測量的均不止一種能力，因此用同質(zhì)性來估計信度也不適當(dāng)。估計學(xué)績測驗的信度最常用的是復(fù)本法，如果沒有復(fù)本，也可用分半法。（二）信度的影響因素要想提高測驗的信度，了解并掌握影響它的因素是十分必要的。信度的影響因素，主要來

18、源于四個方面，即測題數(shù)量、測題難度、施測對象和施測過程。 1測題數(shù)量由于測驗是測量的一個樣本，因此取樣的適當(dāng)性必然影響到測驗的信度。如果測題數(shù)量太少，不能代表整個學(xué)習(xí)內(nèi)容的全域，這樣的測試必然帶有偶然性，其信度不可能很高。要提高信度，一般來說，增加測題數(shù)量是一個有效的方法。但必須注意，只有當(dāng)新增加的題目和原來的題目取自同一總體，即與原題目具有同質(zhì)性時，增加題目數(shù)量才能提高信度。雖然增加題目數(shù)量可以提高信度，但并不是題目越多越好。增加題目數(shù)量的效果是遵循報酬遞減律的，即當(dāng)題目達到一定數(shù)量后，再增加題目數(shù)量往往得不償失，有時會引起學(xué)生的疲勞和反感而降低可靠性。為了

19、節(jié)省經(jīng)費和時間，有時還需要把過多的題目適當(dāng)刪減，而不使其對信度有大的損害。總之，增加測題數(shù)量可以提高信度，但是測題數(shù)量須有一定限制，并非越多越好。 2測題難度測題的難度和信度沒有直接的關(guān)系。然而，如果測題對某團體過難或太易，則分數(shù)范圍將縮小，信度也將降低。這表明，要使信度達到最高，能產(chǎn)生最廣分數(shù)分布的難度水平方為合格。當(dāng)測題難度過大，遠遠超出被試能力水平時，被試對許多項目作隨機反應(yīng)即瞎猜，則所有被試的總分接近隨機分布，因此其信度極低。反之，測題太易，幾乎所有被試均能正確作答，則分數(shù)分布很集中，因此信度也很低。有關(guān)測題難度及區(qū)分度的問題，我們下面還將

20、討論。 3施測對象即使一個測驗經(jīng)過精心編制，題目取樣具有代表性，由于受測者動機和焦慮的變化，也會給測驗信度帶來影響，這是最難控制的因素。由于學(xué)生的應(yīng)試動機不同，他們的注意力、情緒狀態(tài)、焦慮水平也不同，從而影響測驗成績，使信度受到影響。一般來說，恰當(dāng)?shù)膭訖C、適度的焦慮水平會使人的興奮性提高，注意力增強，提高反應(yīng)速度，從而對測驗成績產(chǎn)生積極影響。動機過強、焦慮水平過高都會使工作能力降低，注意力分散，思維變得狹窄而刻板，從而對測驗成績產(chǎn)生消極的影響；反之，動機過弱、焦慮水平過低的被試往往采取滿不在乎的態(tài)度，從而測驗成績大多較低?？梢哉f，適當(dāng)?shù)膭訖C和焦慮水平是保證測驗

21、信度的必要條件，過強或過弱的動機和焦慮水平都不利于測驗信度的提高。 4施測過程測驗的環(huán)境條件如通風(fēng)、室溫、采光等條件會影響到測驗的穩(wěn)定性，室內(nèi)燥熱、考場周圍嘈雜、座位擁擠、考試秩序混亂等都會導(dǎo)致測驗信度下降。主試錯誤理解指導(dǎo)語，不按規(guī)定嚴格施測，或故意制造緊張氣氛等也會影響測驗的信度。應(yīng)該說明的是，雖然信度和效度都是鑒定測驗質(zhì)量的指標，但兩者并不是完全一致的。一般而言，效度高的測驗，其信度也一定高；信度高的測驗，其效度卻不一定高。也就是說，高信度是高效度的必要但非充分條件。三、項目的難度與區(qū)分度信度和效度是就整個測驗而言的，難度和區(qū)分度

22、則是就測驗題目（簡稱項目）而言的。每個測驗都包含有許多項目，每個項目都有它的難度和區(qū)分度。（一）項目難度項目難度指測驗題目的難易程度，通常以答對或通過該項目的人數(shù)占應(yīng)試總?cè)藬?shù)的百分比來表示。也就是用通過率來表示難度，通過率越高，難度越小。但對于不同的測驗題型，其計算有所不同。對于是非題，當(dāng)只有正確或錯誤兩種答案時，可以用通過該題人數(shù)的百分比代表難度，公式為P=R/N（P，難度；N，受測總?cè)藬?shù)；R，通過該題的人數(shù)），也可以用極端組的方法計算難度，公式為P=（PH+PL）/2PH，高分組（總分最高的27的學(xué)生）答對該題的人數(shù)占高分組學(xué)生總數(shù)的百分比；PL，低分組

23、（總分最低的27的學(xué)生）答對該題的人數(shù)占低分組學(xué)生總數(shù)的百分比。對于選擇題，如在K個選項中（K>2）只有一個正確答案，則其難度可以在該項目的通過率P的基礎(chǔ)上進行矯正，計算公式為CP=（KP1）/（K1）（CP，矯正后的難度；P，未矯正的難度；K，選項的數(shù)量）。這是因為對單選題學(xué)生可能隨機猜測，用此公式則能排除這種影響。對于論文型題目，可以用某題的平均分數(shù)為依據(jù)計算難度，公式為P=M/W（M，全體考生某題的平均得分；W，某題規(guī)定的最高得分），也可以用極端組的方法計算難度，公式為P=（MH+ML2Nl）/2N（hl）MH，高分組（總分最高的27的學(xué)生）考生該題得分之和

24、；ML，低分組（總分最低的27的學(xué)生）考生該題得分之和；N，所有考生總?cè)藬?shù)的27；h，該題最高得分；l，該題最低得分。至于項目的難度多高合適，則取決于測驗?zāi)康?。如果測驗是為了考察學(xué)生對某些方面的知識、技能是否掌握（掌握性測驗），可不考慮項目難度，只要是教學(xué)目標中重要的內(nèi)容就可以，甚至通過率100%或0%的測題也不必淘汰，可以繼續(xù)使用。當(dāng)測驗主要用于選拔時（選拔性測驗），就應(yīng)比較多地采用那些難度值接近錄取率的項目。如果我們要把全體受測者作最大程度的區(qū)分，則050左右的難度最合適?？傊?，對項目的難度特征進行分析時，應(yīng)考慮到測驗的目的，不能一概而論，一般在030070為宜。（

25、二）項目區(qū)分度區(qū)分度又稱鑒別力，是指試題對所要測量的心理特性的識別程度，也就是項目的效度。項目效度越高，其區(qū)分度越大，鑒別力越強。但對于不同的測驗題型，其計算也有所區(qū)別。對于客觀題，項目區(qū)分度的簡便計算公式是D=PHPL（D，區(qū)分度；PH，高分組通過該題的人數(shù)占高分組總?cè)藬?shù)百分比；PL，低分組通過該題的人數(shù)占低分組總?cè)藬?shù)百分比）。對于論文型題目，項目區(qū)分度可以這樣計算，D=（MHML）/N（hl）D，區(qū)分度；MH，高分組（總分最高的27的學(xué)生）考生該題得分之和；ML，低分組（總分最低的27的學(xué)生）考生該題得分之和；N，所有考生總?cè)藬?shù)的27；h，該題最高得分；

26、l，該題最低得分。項目區(qū)分度多高合適也和測驗?zāi)康拿芮邢嚓P(guān)。就學(xué)績測驗而言，一般要求項目與總分的相關(guān)達到020以上，高分組與低分組通過率之差達到015020。一般認為D>040，該題非常優(yōu)良；D<019，該題必須淘汰。但是這一標準也不是絕對的。一個測驗用于選拔，其區(qū)分度應(yīng)該高一些；如果一個測驗只是用于考察學(xué)生對知識、技能的掌握情況，可不考慮區(qū)分度，即使區(qū)分度為0，只要該項內(nèi)容是重要的，今后仍可繼續(xù)使用。總之，信度、效度、難度和區(qū)分度是鑒定測驗質(zhì)量的客觀指標。一個良好的測驗必須既有較高的信度，又有較高的效度，并且每個項目都有一定的難度和區(qū)分度。廣大教師在編制教學(xué)

27、測驗時，應(yīng)該綜合考慮這些要求。第三節(jié)教學(xué)測驗的類型及其應(yīng)用一、教學(xué)測驗的類型（一）常模參照測驗和標準參照測驗在學(xué)校教學(xué)過程中，教學(xué)測驗可以用來測量和評價學(xué)生在一定群體中的等級，也可以用來測量和評價學(xué)生是否有效地完成了教學(xué)目標。前者即常模參照測驗，后者即標準參照測驗。 1常模參照測驗常模參照測驗（norm-referenced test）是以學(xué)生團體的平均成績作為參照標準，就某學(xué)生得分的高低來說明其在學(xué)生團體中的相對位置（或名次），將學(xué)生分類排隊。其特點是學(xué)生成績的高低是相對的。它著重學(xué)生個人之間的比較，適于區(qū)分學(xué)生的成績水準，可供選

28、拔、編班、編組之用。這種測驗要求測得的分數(shù)變異性要大，得分的范圍要廣，充分顯示個別差異；要求試題有很強的鑒別力。這種測驗重視名次排列，鼓勵競爭，對學(xué)生的學(xué)習(xí)起考核和監(jiān)督的作用，但缺少診斷的效用，且易引起學(xué)生過度的緊張與焦慮。 2標準參照測驗在學(xué)校里，凡是參照規(guī)定的作業(yè)標準，核對學(xué)生的測驗得分，評定其是否達到標準以及達標的程度如何的測驗，都屬于標準參照測驗（criterion-referenced test）。其特點是學(xué)生成績的高低是絕對的，不是表示他在同輩集體中的相對位置。這種測驗在課程和教學(xué)改革的推動下產(chǎn)生，從20世紀60年代起頗受重視。學(xué)生的學(xué)業(yè)成績宜用學(xué)習(xí)的數(shù)量和程

29、度來表示，而且只有與預(yù)先規(guī)定的某種標準加以比較才具有確定的意義。這種測驗的試題必須正確地反映教學(xué)目標，方可作為評價的標準，所以要求試題在數(shù)量上和質(zhì)量上同要測定的內(nèi)容和范圍一致，而不必關(guān)心題目的難易和區(qū)分度。在測驗中如果發(fā)現(xiàn)多數(shù)學(xué)生不能正確回答某些題目，那么就要檢驗這些題目是否體現(xiàn)了教學(xué)目標，要考慮教學(xué)方法是否恰當(dāng)，而不是簡單地剔除它。標準參照測驗?zāi)苡脕砜疾閷W(xué)生的基礎(chǔ)知識與技能的學(xué)習(xí)情況，哪些學(xué)得較好，哪些沒有學(xué)好，需要補救。因此，標準參照測驗主要用于基本知識、基本技能的測量，用于診斷及個別指導(dǎo)。（二）準備性測驗、形成性測驗和終結(jié)性測驗測量與評價貫穿于教學(xué)過程的始終，從教

30、學(xué)開始至教學(xué)結(jié)束。教師必須根據(jù)教學(xué)過程的不同階段，靈活選用不同的測驗。 1準備性測驗準備性測驗（preparatory test）一般在教學(xué)活動開始之前施行，目的在于了解學(xué)生對未來的教學(xué)活動的準備狀態(tài)，即是否具有完成新的教學(xué)任務(wù)所必需的基本知識和基本技能，從而有效地安排教學(xué)。準備性測驗一般屬于掌握性測驗，試題難度較低，考核內(nèi)容主要是有關(guān)基本知識和基本技能，目的在于為制訂教學(xué)目標和教學(xué)計劃提供依據(jù)。這種測驗往往在教師不了解學(xué)生的知識和能力時，或者所預(yù)測的學(xué)習(xí)結(jié)果非常具體并有明顯的順序的情況下采用。 2形成性測驗形成性測驗（formative test）

31、一般在教學(xué)過程中進行，目的在于了解學(xué)生在教學(xué)過程中達到教學(xué)目標要求的程度，探究教學(xué)中存在的問題或缺陷，以便及時調(diào)整教學(xué)，提高教學(xué)的自覺性和主動性。形成性測驗一般要根據(jù)情況進行多次，它應(yīng)成為教學(xué)過程的一個有機組成部分。它通常也屬于掌握性測驗，試題根據(jù)教學(xué)內(nèi)容和教學(xué)要求編制，可難可易，一般由任課教師本人根據(jù)教學(xué)進度和實際教學(xué)情況實施。但它一般不以區(qū)分學(xué)生的優(yōu)良程度為目的，不重視對學(xué)生分等鑒定，以及學(xué)生之間成績的比較。教學(xué)測量與評價的反饋調(diào)節(jié)功能主要是通過形成性測驗來實現(xiàn)的。 3終結(jié)性測驗終結(jié)性測驗（summative test）一般在教學(xué)活動結(jié)束后進行，目的在于考察教學(xué)目標達

32、到何種程度，判明是否有必要修訂教學(xué)目標，重新進行補救教學(xué)，同時，檢查教學(xué)活動的組織是否得當(dāng)，教材的安排是否合理并確定學(xué)生的學(xué)習(xí)成績。其目的在于對整個教育活動所取得的較大成果作更為全面的評價。它與形成性測驗有明顯的區(qū)別。形成性測驗比終結(jié)性測驗頻繁。通常當(dāng)一種新觀念或新技能的初步教學(xué)完成時，都應(yīng)進行形成性測驗。終結(jié)性測驗則著眼于較大范圍內(nèi)教學(xué)內(nèi)容的掌握，往往是在形成性測驗的基礎(chǔ)上進行的。終結(jié)性測驗因其涉及的范圍廣，所以測驗的內(nèi)容須注意代表性，各種試題的比例應(yīng)與整個課程各類學(xué)習(xí)結(jié)果所占的比例相當(dāng)。然而，準備性測驗、形成性測驗和終結(jié)性測驗三者之間并沒有不可逾越的鴻溝。某一教學(xué)單元的終結(jié)性測

33、驗，往往可以作為下一教學(xué)單元的準備性測驗；某一小的教學(xué)單元的終結(jié)性測驗，往往是某一大的教學(xué)單元的形成性測驗。在實際教學(xué)中，我們應(yīng)該綜合運用三種測驗形式。（三）標準化學(xué)績測驗和教師自編測驗標準化測驗指經(jīng)過標準化程序編制的心理與教育測驗，教師自編測驗則指教師根據(jù)教學(xué)需要自行設(shè)計與編制的測驗。 1標準化學(xué)績測驗標準化學(xué)績測驗（standardized achievement test）是指由學(xué)科專家和測驗編制專家共同按照標準化程序為受過某種教學(xué)或訓(xùn)練的人員編制的測驗，目的在于評價經(jīng)教學(xué)或訓(xùn)練后的實際工作表現(xiàn)。所謂標準化程序，包括：選取有代表性

34、的材料編成測驗的試題；選取有代表性的被試，從而得到有代表性的一組分數(shù)；根據(jù)測得分數(shù)的統(tǒng)計分析，求出常模；按照規(guī)定程序建立效度與信度；明確規(guī)定施測步驟和記分方法。簡言之，標準化測驗即是已經(jīng)具備常模、效度、信度、施測程序和記分方法等基本條件的心理教育測驗。智力測驗和人格測驗都可以是標準化測驗，而標準化學(xué)績測驗則是標準化測驗的一種。由于標準化學(xué)績測驗具有客觀性和可比性的優(yōu)點，所以它是評價學(xué)生學(xué)業(yè)成績的重要工具之一。這種測驗在國外使用比較普遍。例如，美國教育測驗中心舉辦的托?？荚嚕═OEFL）考核非英語國家學(xué)生的英語水平，決定是否錄取留學(xué)和授予獎學(xué)金。目前，我國的標準化測驗工作也正在進行。

35、高考的標準化工作已取得一定進展，并在逐步推行。對外漢語水平考試（HSK）則是其中的典型代表，外國學(xué)生通過四級才能進入中國的大學(xué)學(xué)習(xí)，通過六級才可申請攻讀碩士學(xué)位。 2教師自編測驗教師自編測驗（teacher-made achievement test）是指教師根據(jù)自己的教學(xué)經(jīng)驗和教學(xué)風(fēng)格，自行設(shè)計和編制的用來考察學(xué)生學(xué)習(xí)進步情況的測驗。由于學(xué)校科目繁多，教學(xué)檢查需經(jīng)常進行，而教師自編測驗操作過程簡單，施測手續(xù)方便，應(yīng)用范圍一般限于自己所任教的學(xué)科，在實際教學(xué)中頗為有用，所以是應(yīng)用得最多和教師最愿意用的測驗。雖然這種測驗未經(jīng)標準化，但其編制也需要遵循一定的原則。例如，測驗應(yīng)

36、能測量明確規(guī)定的學(xué)習(xí)結(jié)果，忠實反映教學(xué)目標；測驗應(yīng)能測出預(yù)期的學(xué)習(xí)結(jié)果和教材的代表樣本；測驗應(yīng)按預(yù)期的學(xué)習(xí)結(jié)果選擇試題類型；測驗要有效、可靠等。教師只有掌握教學(xué)目標，并熟悉各種形式的試題的特點與性能，方能編制出恰當(dāng)?shù)臏y驗，從而保證評價工作順利進行。二、學(xué)績測驗的命題編制學(xué)績測驗的核心是命題。要編制良好的學(xué)績測驗，最重要的是要掌握命題的方法和技巧。（一）試題的類型試題的類型（題目的形式）在學(xué)績測驗中占有很重要的地位。如果題型不適當(dāng)，測驗就要浪費時間，評分時就會發(fā)生種種困難。因此，在編制學(xué)績測驗前，必須慎重選擇適宜的題型。人們在長期的測驗

37、實踐中，發(fā)展出了多種多樣的題目形式，根據(jù)應(yīng)答方式的不同可以分成兩大類：客觀題和主觀題。 1客觀題客觀題具有良好的結(jié)構(gòu)，對學(xué)生的反應(yīng)限制較多。學(xué)生的回答只有對錯之分，因此教師評分也只能是得分或失分。這類題目包括選擇題、填空題、匹配題和是非題等。（1）選擇題，由題干和兩個或更多的選項組成。題干可以是直接提問或者以不完整的句子的形式出現(xiàn)，目的是為了設(shè)置問題情境。而選項則提供可供選擇的答案，包括一個或多個正確答案和若干具有干擾性的錯誤項或迷惑項。學(xué)生的任務(wù)就是閱讀題目，再從一系列選項中挑選出正確的項目。教師在出題時，要綜合考慮題干和選項，使整個題目清楚明了

38、。選項的數(shù)量一般沒有統(tǒng)一的規(guī)定，教師可以隨意確定選項的個數(shù)，大多是45個，這樣可以避免學(xué)生猜測答案。所有的題目也可以安排各自不同數(shù)量的選項。良好的選擇題的題干應(yīng)該明確簡單，選項具有迷惑性。經(jīng)過精心設(shè)計的題干和選項，可以有效地測查學(xué)生知識的掌握水平。此外，選擇題還有一種常用變式，選項中有一至多個正確答案，即通常稱為多選題。這種題型的難度大大高于常規(guī)的選擇題（單選題），可以有效地檢查學(xué)生學(xué)習(xí)的深度，在測驗中也廣泛使用。總之，由于選擇題可適用于文字、數(shù)字和圖形等不同性質(zhì)的材料，可以考察記憶、分析、鑒別、推理、理解和應(yīng)用知識的能力，再加上它的評分客觀、省時，學(xué)生猜測的可能性相對

39、小些，因此在標準化的學(xué)績測驗中被廣泛采用。其缺點是：答案固定，測不出學(xué)生組織材料的能力和創(chuàng)造力；題量大，要為每個題目編寫迷惑答案，任務(wù)比較繁重。（2）是非題，又稱正誤題，可以看做具有兩個備選答案的選擇題。它常用的形式是，陳述一句話，要求學(xué)生判斷對錯或是非。是非題主要適于考察學(xué)生對簡單觀念或知識的了解。是非題形式簡單，能夠在一份試卷內(nèi)覆蓋大量的內(nèi)容。教師在評判時也較客觀，記分簡便省時。但是由于答案非對即錯，即使在完全猜測的情況下，學(xué)生也有50%的機會選擇到正確答案，因此其可靠性較差。一種改進的辦法是，增加題目的數(shù)量。由于題量大，對題目總體的取樣較全面，學(xué)生很難只憑猜測獲得高分。

40、60;（3）匹配題，是另一種可提供多種選擇的考試形式。通常，匹配題包括兩列詞句，一列是問題選項，一列是反應(yīng)選項。學(xué)生根據(jù)題意按照某種關(guān)系將左右的項目連接起來。匹配題形式簡單，能夠有效地測量學(xué)生對知識聯(lián)系的掌握情況，且易于記分。但是，它只能用于測查彼此存在著簡單關(guān)系的知識。（4）填空題，呈現(xiàn)給學(xué)生一句或一段不完整的話，要求學(xué)生簡要作答。當(dāng)教師的目的是考察學(xué)生對知識的回憶時，填空題十分有用，它可將學(xué)生猜測的可能性降到最小。如果經(jīng)過精心設(shè)計，也可以通過填空題來考察學(xué)生對知識的理解、推理和判斷能力。填空題的問題在于，學(xué)生的答案各不相同甚至還會出現(xiàn)出人意料的答案，學(xué)生的答案還會受筆跡、用詞等

41、無關(guān)因素的影響。 2主觀題主觀題要求學(xué)生自己組織材料，并采用合適的方式表達出來。這類題型包括論文題、問題解決題等。教師在評分時，對學(xué)生的回答需要給出不同量的分值，而不僅僅是滿分或零分。（1）論文題，指要求學(xué)生用文字論述方式闡述相關(guān)觀點的題目，回答字數(shù)可以從幾段到幾頁不等。一般較常使用的有兩種類型：有限制的問答題和開放式論文。有限制的問答題是指教師對回答的內(nèi)容和長度都有規(guī)定，如平時測驗中的簡答題等。例如，說明戊戌變法中的重要人物、事情經(jīng)過以及結(jié)果。簡答題適合于考察學(xué)生對知識的記憶和理解程度，還可以測量學(xué)生對材料的概括能力。開放式論文則允許學(xué)生在內(nèi)容上可以自由選材

42、，自由發(fā)揮，而且篇幅較長，如平時測驗中的論述題等。論述題有利于學(xué)生清楚地表達自己的思想，可以考察學(xué)生對材料的理解深度和對材料的組織能力、綜合能力，有時還可以測量評價能力和創(chuàng)造能力。不過，使用論文題也有許多不便之處。首先，學(xué)生回答論文題需要花費很多時間。因此，在一份試卷里只能出現(xiàn)少量的題目，對課程內(nèi)容的取樣也就非常有限。一般可以通過增加小的論文題（即簡答題或問答題）來盡量避免這個問題。其次，對于熟悉自己學(xué)生的教師，在判卷時很難做到客觀，教師對學(xué)生的總體印象往往會影響到對論文的評價，導(dǎo)致信度較低。（2）問題解決題，是向?qū)W生提供一定的問題情境和目標情境，要求學(xué)生通過對知識進行

43、組織、選擇和運用等復(fù)雜的程序來解決問題。通常有兩種形式。一種是間接測驗，與前面提到的幾種測驗形式一樣，采用紙筆測驗來評價學(xué)生的學(xué)業(yè)成就或能力。學(xué)生通常必須寫出若干步驟或過程，以展現(xiàn)他的思路。評分時，按照步驟記分，如果缺少某些步驟就不能得分。平時的物理、化學(xué)、生物等學(xué)科的考試經(jīng)常會出現(xiàn)這種類型的題目。另一種則是直接測驗。例如，為了考察學(xué)生學(xué)習(xí)本節(jié)內(nèi)容的情況，讓學(xué)生編制一份測驗兩步應(yīng)用題的試卷。由于它考察了學(xué)生處理實際問題的能力，所以有時我們又把這種形式叫做操作測驗。在實際考核過程中，教師可以要求學(xué)生設(shè)想一個可以解決本市垃圾處理問題的方案，或者要求學(xué)生測量學(xué)校操場的面積等。操作測驗對于考察高級思維

44、技能十分有效，但是往往費時費錢，而且主觀性較大，其效度也經(jīng)常受到質(zhì)疑。當(dāng)然，主觀題和客觀題并不是彼此對立的，而是各有短長，各有自己的獨特的功能。在實際教學(xué)中，應(yīng)根據(jù)不同情況，靈活選擇題目形式，以提高測驗的信度和效度。（二）命題的一般原則雖然學(xué)績測驗的試題形式繁多，性質(zhì)不同，功能各異，但在編制時還是有規(guī)律可循的。（1）試題要符合測驗的目的。學(xué)績測驗的目的有多種，是作為選拔、診斷之用，抑或作為評價或分類之用？這一點是命題時必須明確的。測驗?zāi)康牟煌?，編制測驗的取材范圍及試題難度也就有所不同。（2）試題內(nèi)容的取樣要有代表性。由于學(xué)績測驗只是測

45、量目標的一個樣本而不是全部，因此試題內(nèi)容的取樣應(yīng)有代表性，能代表該學(xué)科的全部內(nèi)容，而不能只偏重某一方面的內(nèi)容而忽視其他方面的材料；否則，這個測驗的效度就不可能高。（3）題目格式應(yīng)多種多樣。在同一份試題中，應(yīng)依據(jù)測驗的目的與要求的不同，選用各種不同的題形式，不宜“單打一”。如果要考察學(xué)生對概念的記憶，宜用簡答題；要考察對事物的辨別和判斷，宜用多選題；要考察學(xué)生綜合運用知識的能力，宜用論述題。此外，題目格式應(yīng)明確，不要使學(xué)生誤解。（4）文句要簡明扼要。測驗題目的文字應(yīng)力求淺顯簡短，不要使用艱深的字詞，要排除與題目無關(guān)的多余信息；同時又不能遺漏解題所必需的條件，否則試題便無法

46、解答。（5）答案應(yīng)正確可靠。對于標準化學(xué)績測驗，應(yīng)有不致引起爭論的正確答案，即測題的答案應(yīng)是沒有疑義的，是可靠的。（6）測題應(yīng)彼此獨立。各測題不能含有暗示本題或他題的正確答案的線索。如果一個題目的命題或答案的內(nèi)容為另一個題目的解答提供了線索，那么這后一個題目就失去了測驗的意義，得分也就不能準確地反映學(xué)生的成績。以上是編制學(xué)績測驗時命題所應(yīng)遵守的一般原則。只有遵守這些原則，學(xué)績測驗才有可能達到較高的信度和效度。（三）命題的準備和搜集要編制良好的學(xué)績測驗，僅明確命題的類型和一般原則是不夠的，還必須了解如何制訂編題計劃以及如何進行命題準備等

47、問題。 1制訂編題計劃編制測驗就如建筑房屋，必須事先設(shè)計周詳?shù)乃{圖，以作為命題的依據(jù)。這樣，測題的內(nèi)容才能具有適當(dāng)?shù)拇硇裕瑥亩l(fā)揮測量的功能，實現(xiàn)測量的目標。對于學(xué)績測驗而言，在命題前，應(yīng)根據(jù)課程標準，列出教學(xué)內(nèi)容和行為目標的雙向細目表；并依據(jù)本次測驗的性質(zhì)、目的，確定題目的取材范圍、形式與數(shù)量。命題前，測驗藍圖的制訂通常就是編制一張雙向細目表。它能有效指出測驗所包含的內(nèi)容和要測定的各種目標以及對每個內(nèi)容目標的相對重視程度。所謂內(nèi)容就是能力與品格的構(gòu)成要素，即有關(guān)的知識、技能、態(tài)度等；所謂目標就是教學(xué)中所要達到的要求，即有關(guān)知識、技能、策略的掌握層次及態(tài)度的

48、內(nèi)化水平等。但是，根據(jù)課程標準編制的教學(xué)內(nèi)容和教學(xué)目標的雙向細目表，只是學(xué)績測驗的一個總的藍圖。在具體編制測驗時，還必須根據(jù)本次考試的性質(zhì)、目的，將它具體化，即：要依據(jù)本次考試的教材內(nèi)容，確定題目的取材范圍；依據(jù)本次考試的教學(xué)目標和目的，確定題目形式；依據(jù)內(nèi)容目標的相對重要性，確定題目數(shù)量。例如，本單元包括哪些要點，在這些要點中，哪些屬于知識因素，哪些屬于技能因素；在知識因素中，哪些屬于概念，哪些屬于命題在具體編制測驗時，要把相應(yīng)的題目和它們一一對應(yīng)。 2進行命題準備和搜集測驗計劃編好后，就要搜集有關(guān)資料作為命題取材的依據(jù)。一個測驗的好壞和測驗材料的選擇適當(dāng)與

49、否有密切關(guān)系。為此，教師在平時教學(xué)中，要隨時把教材中重要的地方做好標記；在批閱作業(yè)或日?？荚嚨脑嚲頃r，要記載學(xué)生常見的錯誤；經(jīng)常搜集其他教師編擬的現(xiàn)成試題，并隨時把搜集到的或自編的試題記在卡片上，分科分類儲存，以建立試題庫。前已闡明，學(xué)績測驗只是所要測量的能力與品德結(jié)構(gòu)的一個有代表性的樣本，不可能顧及所有的構(gòu)成要素與層次，而樣本的代表性和教材的重點與難點、資料的豐富性與普遍性密切相關(guān)。教師只有在平時留意教材的重點與難點，注意搜集現(xiàn)成試題并分類儲存，才有可能使試題的內(nèi)容更有針對性，從而編制出可信和有效的學(xué)績測驗。反之，如果教師在平時教學(xué)中不做扎扎實實的工作，則所編試題可能沒有代表性，

50、不能達到測驗的信度和效度要求。（四）命題難度梯級的建立為了考核學(xué)生對教材的掌握程度，可以對同類試題的難度列成一個梯級。難度是命題時要考慮的一個重要問題。教師在建立試題庫時，不僅要把搜集或自編的試題分類儲存，而且應(yīng)該根據(jù)自己的主觀經(jīng)驗，將同類試題進行分類。可先將其分為難、中、易三部分，然后按照由易至難的順序排列，形成一個同類試題的難度序列，以便考察學(xué)生的知識掌握程度。三、測驗的評分及結(jié)果分析（一）學(xué)績測驗的評分一套好的命題并不等于一個好的測驗，即使測驗的內(nèi)容和施測等方面都進行了標準化，測驗的評分也會影響其信度和效度，從而影響測驗的質(zhì)量。

51、就學(xué)績測驗而言，特別是對于教師自編的學(xué)績測驗，其評分應(yīng)注意以下幾點。 1評分要客觀公正客觀評分是學(xué)績測驗的基本要求。對于客觀題，客觀評分比較容易做到。但是對于主觀題，由于評分標準很難把握，各個評閱者的偏好各不相同，即使是同一位教師一次評閱多份試卷，受情緒、疲勞、試卷前后位置引起的對比效應(yīng)以及對學(xué)生成見的影響，標準也可能不統(tǒng)一，因此其評分的客觀性較差。為了使評分盡可能客觀，一般可采取多人評閱求平均和每人負責(zé)評閱一題的辦法。 2評分標準要規(guī)定答案要點及可接受的變式對于客觀題，只要提供正確答案即可。對于主觀題，則應(yīng)詳細規(guī)定答案要點，并對評分規(guī)則作詳細的說明

52、。評分時將每個人的反應(yīng)和評分說明書上所提供的樣例相比較，然后按最接近的答案樣例給分。同時，由于同一問題可以從不同角度用不同方法進行解答，因此評分標準不僅要規(guī)定一般的答案要點，而且應(yīng)有可接受的變式。 3評分標準要依據(jù)題目的難易及要點的主次配給分數(shù) 為了科學(xué)地給每個題目配給分數(shù)，應(yīng)該對所要測量的心理活動進行系統(tǒng)的結(jié)構(gòu)分析和功能分析，確定其內(nèi)容目標的相對重要性。并在此基礎(chǔ)上，依據(jù)題目的難度，合理配給分數(shù)。 4評分時要注意分析評分和綜合評分相結(jié)合分析評分即按各要點給分。分析評分便于診斷以往學(xué)習(xí)中的斷裂點和斷裂帶，明確學(xué)生個體內(nèi)部的差異以進行針對性教學(xué)。綜合評分

53、即從整體上考察，分別為不同等級確定樣本。綜合評分可以了解學(xué)生的一般狀況，便于總體了解和把握。因此，在對學(xué)績測驗進行評分時，應(yīng)注意二者的有機結(jié)合，以實現(xiàn)教學(xué)測量與評價的目的。 5評分標準應(yīng)注重內(nèi)容，不宜注重形式學(xué)績測驗所要測量的是學(xué)生對有關(guān)知識、技能、策略的掌握程度，因此評分時注重的應(yīng)是考生回答的內(nèi)容，而不應(yīng)是作答的形式。除中文科目之外，其他科目試卷的評閱不應(yīng)受錯別字、書法、句法以及卷面整潔等因素的影響。（二）測驗結(jié)果的分析運用科學(xué)的測量工具得到一個精確的分數(shù)，并不是學(xué)績測驗的最終目的，還必須對學(xué)績測驗的結(jié)果進行分析和解釋。這主要包括對測驗本身（每個

54、測題、整個測驗）的分析和對教學(xué)活動的分析兩個方面。 1對測驗本身的分析對每個測題而言，測驗結(jié)果的分析可以了解每個測題的性能，提高測驗編制技術(shù)，積累好的試題。主要應(yīng)分析的是其難度和區(qū)分度（前已闡述）。對于多選題，還要分析備選答案的合適度，考察標準答案是否正確、是否唯一、是否過于明顯，錯誤答案是否具有迷惑性等。對于備選答案不合適的題目，今后不應(yīng)再用或經(jīng)過修改后再用。就整個測驗而言，應(yīng)分析其信度和效度（前已闡述），并確定其分數(shù)分布。分數(shù)分布反映的是整個測驗的難度，它直接依賴于組成測驗的項目的難度。如果被試樣本具有代表性，一般來說分數(shù)是常態(tài)分布的。當(dāng)分數(shù)不是常態(tài)而是偏

55、態(tài)時，有兩種情況：一是正偏態(tài)，分數(shù)集中在低分端，表明缺少難度低的題目，應(yīng)加入一些較易的項目；一是負偏態(tài)，分數(shù)堆積在高分端，說明缺少足夠數(shù)量的難題，應(yīng)加入較難的項目。當(dāng)然，并不是任何測驗都要求分數(shù)呈常態(tài)分布。掌握性測驗如用于教學(xué)前的摸底，出現(xiàn)正偏態(tài)是正常的；如用于終結(jié)性評價，出現(xiàn)負偏態(tài)說明教學(xué)是有成效的，否則說明教學(xué)是失敗的。 2對教學(xué)活動的分析對教學(xué)活動而言，測驗結(jié)果的分析可以對教與學(xué)提供反饋信息，從而改進教學(xué)，促進學(xué)習(xí)。為實現(xiàn)這一目的，首先就要對測驗中發(fā)生的錯誤進行登記和分析。其次，對學(xué)生發(fā)生的錯誤進行分析，以說明教學(xué)中存在的問題。是基本概念不明確，還是基本技能不熟練？是教師闡述不

56、清楚，還是學(xué)生理解不透徹？如此等等。最后，應(yīng)針對教學(xué)中存在的問題提出改進措施，以促進學(xué)習(xí)。第四節(jié)教學(xué)成效的質(zhì)性評價根據(jù)教學(xué)評價中所使用的工具不同，教學(xué)評價可分為質(zhì)性評價和量化評價兩種。上文介紹的測驗法主要運用數(shù)學(xué)工具進行測評，屬于量化評價方法。質(zhì)性評價則更多地使用自然工具，強調(diào)在自然的教學(xué)情境中收集關(guān)于評價對象發(fā)展狀況的豐富資料，通過對資料的整理分析，用描述性、情感性語言對評價對象的進步作出評定。從現(xiàn)狀來看，質(zhì)性評價方法似乎是隨著我國新課程改革的興起而逐漸受到關(guān)注的。實際上，質(zhì)性評價方法存在于量化評價方法誕生之前，只是后來人們認為質(zhì)性方法不夠科學(xué)客觀，轉(zhuǎn)而研究和開發(fā)客觀精確的教學(xué)測量方法。然而

57、，當(dāng)教學(xué)測量發(fā)展到一定程度后，鑒于教育現(xiàn)象的綜合性和復(fù)雜性，人們又開始逐漸認識到量化評價的局限性，如過于簡單化，脫離真實的教學(xué)情境等。因此在我國的新課程改革中，質(zhì)性評價方法重新受到重視。綜合使用量化和質(zhì)性的方法，可以實現(xiàn)二者的優(yōu)勢互補，從而更能全面地反映教學(xué)活動的進展和學(xué)生的學(xué)習(xí)狀況。大致而言，質(zhì)性評價的基本形式有觀察法、檔案袋評價、評語法、訪談法等。在此，我們只介紹前兩種較為典型的形式。一、觀察法觀察法是指對被評價者在自然狀態(tài)下的特定行為表現(xiàn)進行觀察、考察和分析，從而獲得第一手事實材料的方法（金娣，2007）。觀察法適用范圍廣，操作靈活，在教學(xué)評價活動中有著廣泛的應(yīng)用

58、。用于教學(xué)評價的觀察，通?？砂凑詹煌姆诸悩藴蕜澐譃橐韵聨追N。 1按觀察的結(jié)構(gòu)化程度可分為有結(jié)構(gòu)觀察和無結(jié)構(gòu)觀察有結(jié)構(gòu)觀察是指在觀察開始之前就已制訂好詳細的、結(jié)構(gòu)化的、可操作的觀察計劃和記錄表，觀察者在現(xiàn)場依據(jù)觀察計劃和記錄表收集數(shù)據(jù)，在觀察結(jié)束后對數(shù)據(jù)進行合并整理，使用定量分析的方法得到觀察對象各種特定行為發(fā)生的頻次或持續(xù)時間。有結(jié)構(gòu)觀察法需要觀察者事先設(shè)計好觀察行為的分類系統(tǒng)，并對每類行為給出明確的操作定義，而且要設(shè)計好觀察程序，適用于觀察者對評價場所較為了解的情境。無結(jié)構(gòu)觀察是沒有事先預(yù)設(shè)觀察計劃而開展的非系統(tǒng)的、開放式的觀察。無結(jié)構(gòu)觀察要求觀察者敏銳把

59、握環(huán)境中的關(guān)鍵信息，對觀察者的經(jīng)驗和能力有較高的要求。這種觀察適用于探索新環(huán)境的情況或了解個案的初期。 2按觀察者角色不同可分為參與式觀察和非參與式觀察參與式觀察是指教師作為教學(xué)的主體之一，深入到學(xué)生群體中，觀察學(xué)生的學(xué)習(xí)和生活中的行為，如學(xué)生做作業(yè)的習(xí)慣、學(xué)習(xí)方法、犯錯原因等。教師首先要確定觀察的目的和對象；然后選擇觀察項目，通常教師會使用一個觀察核查表以方便記錄；最后教師依據(jù)觀察所得結(jié)果給出建議性評價。參與式觀察簡便易行，適用范圍大，由于它具有一定的隱蔽性，所以能反映教學(xué)的真實情境。在非參與式觀察中，觀察者作為旁觀者的身份進行觀察。與參與式觀察相比，非參與

60、式觀察更為客觀，周期更短，省時省力，但容易只了解到表面現(xiàn)象，獲得的信息缺乏深度。借助科技進步的力量，教學(xué)評價的方法在不斷地豐富。近年來興起的課堂錄像分析的方法就是非參與式觀察的一種，并克服了非參與式觀察缺乏深度的不足。錄像分析法就是借助錄像技術(shù)將課堂教學(xué)過程記錄下來，事后讓教師和學(xué)生通過觀看和分析課堂錄像來反思和評價自己的教學(xué)與學(xué)習(xí)過程。課堂錄像法為教師提供了更為原始、豐富的信息，有利于開展深入的分析，但其過程費時費力，且需要具備相應(yīng)條件，因此推廣度不如參與式觀察。此外，課堂中的教師和學(xué)生難免受到攝像機的影響，因此需要一個逐步適應(yīng)的過程。 3按觀察范圍可分為完全觀察和取樣觀察

61、0;完全觀察是指對與評價有關(guān)的活動進行全面的觀察。優(yōu)點在于資料完整翔實，缺點是耗時費力，適用于小樣本或個案評價。取樣觀察是指選擇有代表性的樣本進行觀察。按照樣本類型不同又可分為時間取樣觀察和事件取樣觀察。前者是以觀察對象的日常行為表現(xiàn)為總體，觀察者選擇若干相等的時間段為樣本進行觀察；后者是以觀察的行為事件本身作為取樣依據(jù)，只對某種特定的行為和活動進行觀察和記錄。二、檔案袋評價（一）檔案袋的起源檔案袋（portfolio），也被譯做成長記錄袋、學(xué)習(xí)檔案等。這一概念最初來源于美術(shù)領(lǐng)域，畫家使用檔案袋收集他們有代表性的作品，以供自己反思和他人評價。后來人們將它運用于教育情境中由教師和學(xué)生一起有組織、有系統(tǒng)地收集學(xué)生的作品和參與活動的材料，匯總教師、家長、同伴的評價及學(xué)生自我反思的相關(guān)材料并進行分類歸檔，以展示學(xué)生的知識、技能和態(tài)度的成長過程，促進學(xué)生自主發(fā)展。（

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

教學(xué)測量與評價

文檔簡介

溫馨提示

最新文檔

評論

教學(xué)測量與評價

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔