教育測量與評價課件

上傳人：子*** IP屬地：未知上傳時間：2024-01-27 格式：PPTX 頁數(shù)：108 大?。?21.23KB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩103頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

第一章

緒論第一節(jié)教育測量與評價的基本概念第二節(jié)教育測量與評價的發(fā)展歷史第三節(jié)學習教育測量與評價的意義第一節(jié)教育測量與評價的概念一、教育測量（Ｅducationalmeasurement)教育測量就是根據(jù)一定的法則用數(shù)字對教育現(xiàn)象加以描述。法則是指測量所依據(jù)的規(guī)則和方法。數(shù)字就是代表某一事物屬性的量，數(shù)字也是作為事物的符號，有時有確定的意義。數(shù)字具有一定意義時就是數(shù)值，數(shù)值具有區(qū)分性，如：１是１、２是２；具有序列性，如：１＜２＜３；具有等距性即有可加性．教育測量具有兩個基本的要素，即參照點和單位．二、教育測驗（Educationaltesting)測驗就是對行為樣本進行測量的系統(tǒng)程式。行為是指被試對測題所作的反應(yīng)。行為樣本是指一組有代表性的行為。系統(tǒng)程式是指測驗在編制、實施、評分、解釋方面都依據(jù)確定的規(guī)則。測驗的類型：標準化與非標準化測驗個別測驗與團體測驗速度測驗與難度測驗客觀測驗與非客觀測驗文字測驗與非文字測驗最高作為測驗與典型作為測驗構(gòu)造性測驗與投射性測驗按測驗的功能可分為：１、智力測驗２、能力傾向測驗３、成就測驗４、人格測驗

按測驗的目的分類１、描述性測驗２、診斷性測驗３、預(yù)測性測驗三、教育評價（Educationalevaluation)

教育評價就是按照一定的價值標準，對教育現(xiàn)象及其變化的主因素進行的價值判斷。對教育評價可從三個方面來理解：１、教育評價的本質(zhì)在於“價值判斷”，必然要涉及教育價值問題。所謂教育價值是指作為客體的教育現(xiàn)象的屬性與主體需要的關(guān)係。教育價值包括個體價值與社會價值。２、教育評價的對象是教育現(xiàn)象，特別是受教育者，因而評價的重點是學生。３、教育評價的出發(fā)點是價值準則。價值準則是指評價主體對評價對象進行評價的依據(jù)四、教育評估（Educationalassessment)

教育評估是對教育現(xiàn)象進行評論估計，不含有價值的意義。但漢語中特別是口語評價與評估交替使用。教育評價中的概念理解誤區(qū)１、把測量當評價。即以事實當判斷。２、把評比當評價。即把評定優(yōu)劣當作評定價值。第二節(jié)教育測量與評價的發(fā)展歷史一、教育測量的發(fā)展歷史

(一）、教育測量運動產(chǎn)生的背景

1、工業(yè)革命的發(fā)展需要專門的職業(yè)訓練和職業(yè)輔導。

2、十九世紀西方社會開始重視智力落後者和精神失常者，並對其進行診斷和訓練。

3、心理學家開始重視個別差異的研究。

4、中國的科舉制度傳入西方，西方各國建立了現(xiàn)代考試制度。（二）、教育測量運動的先驅(qū)

1、心理學史家波林指出：“在測驗領(lǐng)域中，十九世紀八十年代是高爾頓的十年，九十年代是卡特爾的十年，二十世紀頭十年則是比奈的十年。高爾頓是英國的生物學家和心理學家，高爾頓首先用進化論的理論研究個體差異，對977個歷史上著名人物的家譜、生活史進行了研究。1889年出版了《遺傳的天才》一書，設(shè)計了多種感覺、運動強度、反映速度的測驗，採用自由聯(lián)想法、問卷法、等級評定法，分析個性差異。

2、卡特兒將實驗心理學與測驗運動結(jié)合起來，在自己的實驗室內(nèi)編制了五十多個測驗，對美國大批兒童和學生進行了測量研究，1890年他發(fā)表了《心理測驗與測量》一文，描述了這些測驗，並在該文中首創(chuàng)心理測驗這一術(shù)語。3、智力測量的鼻祖是法國心理學家比奈，他1889年建立了第一個法國心理學實驗室，創(chuàng)辦了第一種法文心理學雜誌。1903年他以自己的兩個女兒為被試，用填字、圖片解釋來測驗其智力，發(fā)表了《智力的實驗研究》一書。1904年比奈作為法國公立學校中低能班管理委員會的委員，極力主張用測驗法去辯別心理缺陷兒童。1905年他與助手西蒙發(fā)表了題為“診斷異常兒童智力的新方法”一文，介紹了第一個智力量表。比西量表有30個難易不同的專案組成。（三）、教育測量運動的發(fā)展教育測量運動自本世紀初興起，二十年代進入狂熱，四十年代達到高峰，五十年代轉(zhuǎn)入穩(wěn)步發(fā)展時期。這期間的發(fā)展主要有以下特點：

1、編制了一批操作測驗，以彌補語言文字量表的缺陷。可用於文盲和有語言障礙的人，並進行跨文化研究。

2、編制了一批團體測驗，擴大了測驗的應(yīng)用範圍，如軍隊甲種、乙種測驗。3、編制了多維度標準化測量，如韋科斯勒兒童智力量表（WISC)、成人智力量表(WICS)、學前智力量表(WPPSI)。

4、編制了標準化的教育成就測量。在美國於1944年成立了教育測驗中心（ETS),該中心為目前世界上最大的測驗編制了研究機構(gòu)。5、發(fā)展了性向測驗、興趣測驗、性格測驗、人格測驗等。（四）、教育測量的發(fā)展趨勢

1、統(tǒng)計與計算技術(shù)為教育測量的發(fā)展提供了廣闊的前景。

2、新的測量理論提高了測量的精確性和有效性。

3、心理學理論的發(fā)展特別是認知心理學的發(fā)展為教育測量提供了堅實的理論基礎(chǔ)。

4、實驗與測量的關(guān)係更加緊密，相互吸收，相互補充，共同發(fā)展。二、教育評價的發(fā)展歷史（一）教育評價的萌動階段二十世紀初，教育測量運動對教育評價產(chǎn)生了直接的影響，其中影響廣泛的評價包括1910年Flexner對美國醫(yī)學教育評價所進行的研究，Carttler對大學研究生院所進行的教育評價研究，1913年美國大學制定了大學認定評價體系。

（二）教育評價的探索階段從三十年至四十年代，美國出現(xiàn)了新教育運動，積極推行教育改革，最著名的是“八年研究”。三十年代美國進步主義教育協(xié)會組織了一個“中學與大學關(guān)係委員會”。經(jīng)過充分討論，達成了一致意見，提出了一個實驗方案。挑選了7所大學和30多所中學聯(lián)合實驗，要求用八年的時間完成，時間為1933年到1940年，故稱“八年研究”。“八年研究”形成了Tyler評價體系。

（三）教育評價的發(fā)展時期

50年代至60年代，標準化測驗取得了飛速的發(fā)展，促進了教育評價的進一步發(fā)展，1956年出版了Bloom的《教育目標分類學：認知領(lǐng)域》，1964年出版了Krathwohl的《教育目標分類學：情感領(lǐng)域》，教育評價進一步用於課程研製、課程開發(fā)。

（四）教育評價的新生時期

70年代至80年代，一些國家通過法律、檔形式規(guī)定了教育評價工作，使教育評價得到了蓬勃發(fā)展，教育評價的研究機構(gòu)增多，國際教育評價學會的會員國逐年增多，教育評價理論的研究向縱深發(fā)展，不僅注重宏觀研究，而且注重各學科的專業(yè)性評價。教育行政機構(gòu)更加關(guān)心教育評價，並作為教育管理工作的一個基本環(huán)節(jié)，重視發(fā)揮評價的多種功能。（五）後現(xiàn)代時期後現(xiàn)代教育評價興起於80年代後期，其特徵有二：一是增加了教師在評價領(lǐng)域中的權(quán)威，以教師評價取代專業(yè)評價，二是對某些測量原則的適切性提出了質(zhì)疑，以開放性的結(jié)論和評定取代以前的評價。第一節(jié)教育測驗編制的一般程式教育測驗的編制一般包括：確定測驗的目的，分析測量目標，制定編題藍圖或計畫，編輯題目，決定測驗時間和測題數(shù)量，確定計分方法，實施試測，題目分析，鑒定測驗測量標準，編制測驗量表及說明書，拼題並建立題庫。一、確定測驗的目的

1、確定測量對象

2、確定測量目標（一般要將目標轉(zhuǎn)化成可操作的術(shù)語）

3、確定測量的功用（常與評價目標結(jié)合在一起）如是診斷性測驗還是選拔性測驗。

二、分析測量目標並制定編題計畫美國心理學家布魯姆（Bloom)最早提出教育目標的分類問題。他把學習的心理活動過程分成認知、情感二個領(lǐng)域。又把認知領(lǐng)域具體分為知識（記憶事實、條件、方法、原理等的能力）、理解、應(yīng)用、分析、綜合、評價六個層次。布魯姆教育目標分類體系詳細結(jié)構(gòu)如下：1、知識

1.1具體知識

1.2處理具體事物方式方法的知識

1.3學科領(lǐng)域中的普遍原理和抽象概念的知識2、理解

2.1轉(zhuǎn)化

2.2解釋

2.3推斷3、應(yīng)用

4.分析

4.1要素分析

4.2關(guān)係分析

4.3組織原理分析

5.綜合

5.1進行獨特的交流

5.1制定計畫或操作步驟

5.3推導出一套抽象關(guān)係

6.評價

6.1依據(jù)內(nèi)在的證據(jù)來判斷

6.2依據(jù)外部準則來判斷情感領(lǐng)域的目標分類1.接受(注意)：探討學習者是否願意接受或注意學習內(nèi)容

1.1覺察是指在提供適當機會時學生對某些客觀刺激的意識.1.2願意承受特定刺激的行為

1.3控制或選擇的注意,是指有意識或半意識的從內(nèi)容或情境中辯別某種特定的刺激.2反應(yīng)所關(guān)心的是學生受到動機的充分驅(qū)動,積極地注意學習內(nèi)容

2.1默認的反應(yīng),這種反應(yīng)強調(diào)行為的被動性,一般產(chǎn)生遵從或順從.2.2願意的反應(yīng),學生完全致力於表現(xiàn)自己的行為,是自己想做或自願去做.2.3滿意的反應(yīng),它關(guān)心的是伴隨著行為有一種滿意的感覺或一種情緒反應(yīng),即愉快、興奮或快樂。3價值判斷，它一般是指學習者對某事物、某現(xiàn)象或行動所產(chǎn)生的意義或價值。包括個人的價值判斷和社會的價值判斷。

3.1價值的接受,它所關(guān)心的是把價值歸結(jié)為與某種現(xiàn)象、行為、客體等相聯(lián)的東西。

3.2價值的偏愛,是指對某價值的單純接受和參與某一領(lǐng)域的傾向.3.3價值的信奉,是指毫不懷疑的確信.4組織化:反映相關(guān)的價值狀態(tài)的價值體系,它是價值內(nèi)化的結(jié)果.4.1價值的概念化,是指價值的一貫的穩(wěn)定的價值傾向.4.2價值體系的組織化,是指把各種價值組成一個複合體,形成了一種和諧的內(nèi)在的統(tǒng)一.5價值或價值複合體的個性化,是指各種社會價值體系在個體價值結(jié)構(gòu)中的位置,並控制著個體的行為.5.1泛化心向,是指在任何特定的時候都對態(tài)度和價值體系有一種內(nèi)在的一致的心向.5.2個性化,是內(nèi)化過程的最高水準,它包括隱蔽的現(xiàn)象和外顯的行為的更加廣泛的目標,是人的宇宙觀、人生觀和世界觀的反應(yīng)。它是一種生活哲學。動作技能領(lǐng)域的教育目標分類該目標分類是Simpson提出的試驗方案，它是通過身體的活動來掌握教育目標。1知覺：是通過聽覺、視覺、觸覺、味覺、嗅覺的作用，尋求實現(xiàn)教育目標的有效手段。2精神準備：是指做好完成目標的準備狀態(tài)或進行調(diào)整的能力。3接受指導的反應(yīng)：是指學生在接受教師指導時能模仿典型動作的行為，並具有做出適當反應(yīng)的能力。4作用過程：是指必要時形成反應(yīng)所自動產(chǎn)生的行為過程。如心理定勢。5複合動作：是指通過複雜的示範動作來實現(xiàn)運動技能的目標。6適應(yīng)：是指把以學會的運動技能應(yīng)用於新的目標之中的能力，即遷移能力。7創(chuàng)作：是指實行新的動作或形成新的動作能力的表現(xiàn)。小學自然常識測驗編題細目表

目標內(nèi)容識記理解應(yīng)用分析綜合評價合計生物世界35632120資源利用23311010動力機械23420112物質(zhì)能量56832125氣象24322013宇宙25410012地球2221108合計1828301383100三、編輯題目（類型、數(shù)量、記分方法）

1、搜集有關(guān)資料（1）材料要豐富（2）材料要有普遍性

2、選擇測驗形式（1）測驗的目的和材料的性質(zhì)（2）接受測驗的團體的特點（3）各種實際因素

3、編定和修訂專案應(yīng)注意：（1）題目的範圍要有測驗的計畫所列內(nèi)容與目標相一致。（2）題目的難度符合測驗的目的。（3）題目的說明要清楚明白。四、題目的試用、分析、篩選

1、預(yù)測（1）預(yù)測對象要取自將來正式測驗準備應(yīng)用的群體。（2）預(yù)試的實施過程與情境應(yīng)與正試測驗相近似。（3）預(yù)試的時限可稍寬，儘量使每個被試答完。（4）預(yù)試過程中被試的反應(yīng)應(yīng)隨時記錄。

2、專案分析主要包括：確定題目的難度、區(qū)分度、被選答案的合適度。

五、集合成測驗（拼題）（一）試題的選擇最好的題目，就是只測定所需要的特徵，並能對該特徵加以有效區(qū)分的難度合適的題目。（二）試題的編排最常見的編排方式是：

1、並列直進式

2、混合螺旋式（三）編造複本複本的等值需具備以下幾個條件：

1、各份測驗測量的是同一種心理特徵。

2、各份測驗具有相同的內(nèi)容和形式。

3、各份測驗的題目不應(yīng)有重複的地方。

4、各份測驗題目數(shù)量相等，並且有大體相同的難度和區(qū)分度。

5、各份測驗的分數(shù)分佈（平均數(shù)和差異度）大致相等。

六將測驗標準化測驗標準化包括以下幾個方面：（一）內(nèi)容的標準化，即對所有受測者施測相同的或等值的題目。（二）施測的標準化，即測驗實施過程要有相同的指導語、時限和客觀的物理情境。（三）評分的標準化（四）常模，是測驗使用者解釋測驗分數(shù)的依據(jù)。測驗分數(shù)必須與常模比較才能顯示出它所代表的意義。建立常模的方法是：它將來要使用測驗的全體對象中，選擇有代表性的一部分人（稱標準化樣本），對此樣本施測並將所得的分數(shù)加以統(tǒng)計整理，得出一個具有代表性的分數(shù)分配，標準化樣本的平均數(shù)，即為該測驗的常模。常見的常模有：年齡常模、年級常模、地域常模、民族常模、職業(yè)常模等。

七測驗的信、效度分析（一）信度指的是測驗的可靠性或一致性。（二）效度就是測驗的有效程度。衡量測驗的有效程度是看測驗所測量的是不是它所要測的東西。八編寫測驗說明書一份說明書主要包括：（一）本測驗的目的和功用（二）編制測驗的理論背景以及選擇題目的根據(jù)。（三）測驗的實施方法、時限及注意事項。（四）測驗的標準答案和評分方法（五）常模資料，包括常模表、常模適用的團體及對分數(shù)如何做解釋。（六）測驗的信度、效度資料，包括信度係數(shù)、效度係數(shù)以及這些數(shù)據(jù)是什麼情境下得到的。第二節(jié)測題的編制技術(shù)一、命題的一般原則命題應(yīng)遵循以下原則：1、試題要符合測驗的目的。2、內(nèi)容取樣要有代表性。3、題目格式不要使被試發(fā)生誤解。4、文字要簡明扼要，即排除與解題無關(guān)的因素，又不可遺漏解題所依據(jù)的必要條件，要避免使用艱深的字詞。5、應(yīng)有不致引起爭論的確定答案（創(chuàng)造力測驗、人格測驗除外。6、各個試題必須彼此獨立，不可互相牽連，不要使一個題目的回答影響另一個題目的回答。7、題目中不可含有暗示題或其他題正確答案之線索。8、題目內(nèi)容不要超出受測題體的知識和能力。9、所提問題應(yīng)避免涉及社會禁忌與隱私。10、施測與評分省時。二、測題的種類及編制要領(lǐng)根據(jù)應(yīng)答方式，測題的種類分為兩大類，即自由應(yīng)答型和固定應(yīng)答型。自由應(yīng)答型題目是讓受測者用自己的語言或行動來對某一問題做出回答，包括填充題、簡答題、應(yīng)用題、論文題、聯(lián)想題、操作題等。固定應(yīng)答型題目又稱客觀性題目，是讓受測者從測驗編制者事先定好的答案中辯認出一個正確答案，包括了多選題、是非題、匹配題等。（一）多選題多選題在結(jié)構(gòu)上包含兩部分，一為題幹，由直接問句或不完全的陳述句所構(gòu)成，另一為選項，包含一個正確答案及若干個錯誤答案。多選題可適用於文字、數(shù)字和圖形等不同性質(zhì)的材料，可以考察記憶、分析、鑒別、推型、理解和應(yīng)用知識的能力。下邊是幾種常見的變式。1、計算：例：小明給了弟弟2支鉛筆，自己還剩8支，，小明原來有幾支？（A）4（B）6（C）8（D）102、類比：已知甲和乙的關(guān)係，推出丙和丁的關(guān)係。例：船------水，飛機------？（A）大地（B）白雲(yún)（C）天空（D）海洋3、找不同類：每一題內(nèi)有幾項屬於同一類事物，只有一項不屬於這一類，要劃去。例：（A）狗（B）鳥（C）樹（D）魚4、最好理由：幾個備選答案都是對的，但其中一個最好，要把它找出來。例：偷東西的人應(yīng)該受懲罰，因為：（A）罰款可使他不敢再犯。（B）偷竊為法律所不容。（C）偷東西的人不是好人。（D）偷竊擾亂社會治安。多選題的優(yōu)點是：1、單位時間內(nèi)可以施測很多專案，從而有保證取樣的廣泛性，使測驗更有效。2、評分客觀，加上題目數(shù)量多，可以減少隨機因素的影響，從而能保證測驗的可靠性。3、便於對題目進行分析，易於調(diào)整題目的難度。4、閱卷方便迅速，並可用機器評分，被試多時比較經(jīng)濟。5、好的題目可存入題庫，重複使用。多選題的缺點是：1、有固定答案，測不出組織材料的能力、文字表達能力和創(chuàng)造力。2、題量大，並要為每個題目考慮幾個似是而非的答案，因而編寫困難費時，需要一定技巧。編擬多選題的要領(lǐng)及原則如下：1、根據(jù)測驗的目的和內(nèi)容來選擇最適當?shù)念}型。2、備選答案要簡略，必要的敘述或相當?shù)男揎椪Z應(yīng)全部置於題幹中。3、每題只能環(huán)繞一個中心，並只有一個正確答案，該答案在內(nèi)容和形式上不可特別突出，但其正確性必須確鑿無疑。4、題幹應(yīng)當包括解題所必須的共同要素，並盡可能做到精煉、準確、清楚，不要把選項夾在題幹中間。5、錯誤答案對被試具有迷惑性，不要錯得太明顯。這種答案可以是人們經(jīng)常出現(xiàn)的錯誤，也可以是一般性的誤解和似是而非的內(nèi)容。6、各個選項在形式上應(yīng)該協(xié)調(diào)一致，或為數(shù)字，或為圖形，或為人名，應(yīng)該一律，文字長短也應(yīng)大體相當，以免對正確回答提供線索。7、選項之間不應(yīng)相互重迭，相互包括，相互依賴。8、幾個選項最好按邏輯順列或隨機排列。正確答案在每個位置上出現(xiàn)的次數(shù)要大致相等，且不要形成固定的格式。9、所有選項在邏輯上和語法上都能與題幹相接，否則本來正確的答案，會因為邏輯上或語法上與題幹不一致而放棄。反之，如果干擾答案在邏輯上或語法上與題幹不吻合，被試就會根據(jù)常識，發(fā)覺它們之間的矛盾而加以排除。10、題幹要儘量創(chuàng)新的情境，文字要自己擬定，避免重複書本上的現(xiàn)成實例或措詞。（二）是非題是非題是指出一個論點要被試判斷是否正確，或從是非兩個答案中做出選擇。是非題回答方便，適於考查學生對簡單觀念或知識的瞭解，其缺點是易受猜測因素的影響，重要的材料有時不能用對和錯簡單回答，缺乏教育診斷作用，故在能力測驗中應(yīng)用不如多選題廣泛。編擬是非題應(yīng)注意下麵幾點：1、內(nèi)容應(yīng)以有意義的事實、概念或原理為基礎(chǔ)，避免無關(guān)重要的問題或瑣碎的細節(jié)。2、每題應(yīng)只包含一個觀念，避免兩個以上的觀念在同一題中出現(xiàn)，而造成題目“似是而非”或“半對半錯”。3、論點要簡明扼要，意義明確，不要有艱深難懂的詞句或含糊不確定的文字敘述。4、對論點的陳述要重新組織，不要照搬教科書上的詞句或僅僅加上否定詞就構(gòu)成錯誤專案。5、避免使用具有暗示性的特殊字詞，如“絕不”“完全”等。6、儘量採用正面肯定的敘述，避免反面陳述或雙重否定的文句。7、“是”與“非”的題數(shù)應(yīng)大致相等，且隨機排列。8、題數(shù)不能太少。（三）匹配題匹配題包括並列的兩行，一行為刺激專案，另一行為反應(yīng)專案，被試的任務(wù)是由後者中選出與前者相適合的專案，可以是完全匹配，也可以是不完全匹配。匹配題是選擇題的一種變式，一個匹配題實際上就是一套多選題，適用於測量概念與事實之間的關(guān)係，其優(yōu)缺點與多選題相同。編制匹配題的要領(lǐng)是：1、一個題目的各個刺激專案及各個反應(yīng)專案應(yīng)在內(nèi)容上同質(zhì)，若涉及年代都為年代，涉及地點都為地點，涉及符號都為符號。2、在指導語中要講匹配依據(jù)，告訴被試每個反應(yīng)可用幾次。3、配對專案不可過多或過少，如在十對以下，最好應(yīng)用不完全配合，使反應(yīng)專案比題專案多出一兩個。以增加其可靠性。4、每個刺激專案應(yīng)有一個而且只有一個反應(yīng)專案相匹配。5、按一定邏輯次序安排反應(yīng)專案，同時要避免答案的固定格式。6、同一組專案應(yīng)印在同一頁上，以免造成作答時的困擾。（四）填空題與簡答題填空題與簡答題要求的是對正確答案的回憶，即由被試自己寫出答案。填空題和簡答題的編寫原則如下：1、填空題目所空出的應(yīng)該是關(guān)鍵字句，並且要和上下文有密切聯(lián)繫，不要空出無關(guān)緊要的字詞。2、一句內(nèi)不要有太多的空白，空白太多，不容易明瞭題意。3、空白最好放在句子的尾部，免得空格多少為答案提供線索。4、測題句子避免直接引用教科書的措詞。5、問題要具體，範圍要確定，要使受測者知道答案的類型、長度和確切程度。6、準備一個正確答案和可接受的變式的標準，如果部分正確也適當給分，則要做出更具體的規(guī)定。（五）論文題論文題適合測驗組織能力、綜合能力、文字表達能力，同時還可測量評價能力和創(chuàng)造能力。編擬論文題目要注意以下幾點：1、要讓被試知道答案的範圍和方向。2、最好要求被試在新的情境下，應(yīng)用知識去解決新的問題。3、題目不要少或大，數(shù)量要適當多些，內(nèi)容要適當具體些。4、要選用具有可接受的正確答案的題目，不用那些僅測量意見和態(tài)度的問題。5、在測驗前，對每一個題目編制幾個“理想”的答案，並對部分正確的問答如何評分做出盡可能具體的規(guī)定。6、一般不要有任選題，因為兩個論文題目很難做到等值。（六）應(yīng)用題應(yīng)用題是敘述一個具體的情境並提出一些有關(guān)的數(shù)據(jù)，讓被試解決所提出的問題。應(yīng)用題適合測驗計算技能、數(shù)學和科學推理，以及運用知識到新情境中的能力。編寫應(yīng)用題要遵循以下原則1、題目的陳述要使被試明白讓他幹什麼，答案應(yīng)以什麼形式出現(xiàn)。2、題目中應(yīng)包括對解題所需要的一切數(shù)據(jù)和資訊，也可包含一些無關(guān)數(shù)據(jù)和資訊。3、採用新的情境和例子，不要重複過去已用過的。4、應(yīng)向被試指明是否要求寫出解答步驟，以及對各個步驟詳細到什麼程度等。5、對一個問題的答案不論正確與否，都不影響另一個問題的解答。6、文字要通俗易懂，不要變成閱讀理解測驗。（七）操作題在測驗中有些專案是讓被試實際操作，如畫圖、拼配物體等。制定操作專案的主要原則是：使被試明確知道要他們幹什麼和在什麼條件下幹，如何使用工具以及時間限制。操作專案可以根據(jù)完成的數(shù)量和錯誤次數(shù)客觀記分，有些專案則需要給出評分標準，把整個操作分成許多部分技能，分別定出評分標準。第一節(jié)教育評價模式的變革

教育評價專家古巴和林肯將教育評價模式劃分為四代：一、第一代評價第一代評價興起於19世紀末至20世紀30年代，評價在本質(zhì)上以測驗或測量的方式，測定學生對知識的記憶狀況或某項特質(zhì)。其基本特點是：認為評價就是測量，評價者的工作就是測量技術(shù)員的工作——選擇測量工具、組織測量、提供測量數(shù)據(jù)。二、第二代評價第二代評價興起於20世紀30年代，這代評價認為，評價在本質(zhì)上是描述——描述教育結(jié)果與教育目標相一致的程度。其基本特點：認為評價過程是將教育結(jié)果與預(yù)定的教育目標相對照的過程，是根據(jù)預(yù)定教育目標對教育結(jié)果進行客觀描述的過程，評價的關(guān)鍵是確定清晰的、可操作的行為目標；評價不等於“考試”和“測驗”，儘管考試和測驗可以成為評價的一部分。同第一代相比，評價已走上的科學化的歷程。三、第三代評價第三代評價萌生於1957年以後，持續(xù)到80年代，其基本特點是：把評價視為價值判斷的過程，評價不只是根據(jù)預(yù)定目標對結(jié)果的描述，預(yù)定目標本身也需要進行價值判斷；既然目標並非評價的固定不變的鐵的標準，那麼評價就應(yīng)當走出預(yù)定目標的限制，過程本身的價值也應(yīng)當是評價的有機構(gòu)成。

上述三代評價的嚴重缺陷表現(xiàn)在以下方面：

1、管理主義傾向，造成四種不合理的後果。（1）管理者無過失。（2）管理者與評價者的關(guān)係有失公平。（3）評價者無法在評價中維護自己的利益，闡述自己的見解。（4）管理者用各種辦法保護自己不受損害，評價者則保證使用管理者認可的方法。

2、忽視價值的多元性。

3、過分依賴實證科學範式。四、第四代評價第四代評價的中心思想是，認為評價在本質(zhì)上是一種通過協(xié)商而形成的心理建構(gòu)，堅持價值多元性的信念，反對管理主義傾向。其基本特點是：把評價視為評價者和被評價者“協(xié)商”進行的共同心理建構(gòu)過程，評價是受“多元主義”價值觀所支配的；評價是一種民主協(xié)商、主體參與的過程，而非評價者對被評價者的控制過程，學生（被評價者）也是評價評價的參與者、評價的主體；評價的基本方法是“質(zhì)的研究”方法。第二節(jié)教育評價的類型一、根據(jù)評價機能分類

1、診斷性評價，是指在活動開始之前，為使其計畫更加有效的實施而進行的評價。也稱為事前評價。要求把握被評價事物的兩種狀態(tài)：一是癥狀診斷；二是原因診斷。

2、形成性評價，是指在活動運行的過程中，為使活動效果更好而修正本身發(fā)展的進程而進行的評價，其目的為了明確活動中存在的問題，並加以改進。布盧姆認為形成性評價的任務(wù)是（1）調(diào)整學習活動，（2）強化學生的學習，（3）發(fā)現(xiàn)存在的問題，（4）提供學習的矯正處方。

3、總結(jié)性評價，又稱作事後評價。是指在活動後為判斷其效果而進行的評價。二、根據(jù)價值標準分類

1、相對評價，是指在團體內(nèi)以自己所處的地位同他人相比較而進行的評價。

2、絕對評價，是指以完成既定目標的程度而進行的評價。3、自我評價，是指在個人內(nèi)部就其自身的狀態(tài)進行縱橫比較所做的價值判斷。三、根據(jù)評價內(nèi)容分類

1、狀況評價，是指通過現(xiàn)狀分析為選擇目標提供依據(jù)而進行的評價。

2、選擇評價，是指為完成目標而選擇有效途徑所進行的評價。

3、過程評價，是指判斷實施方案有無需要改善的地方所進行的評價。

4、成果評價，是指為判斷計畫實施所取得的成果而進行的評價。第三節(jié)教育評價模式一、教育評價模式的含義模式是指內(nèi)涵在一定的思想取向，並表現(xiàn)為一定的操作規(guī)則和方法步驟的體系。教育評價模式是指描述評價客體中同一類實體的共同特徵的示範方法。是評價主體建立的評價參照框架。二、教育評價的主要模式（1）資格認定模式。資格認定模式是對從事某種活動應(yīng)具備的條件或身份等的認可方式。這種評價模式的著眼點在於判斷條件是否得到滿足，同時對可能產(chǎn)生的後果做出必要的預(yù)測和判斷。（2）品質(zhì)判斷模式。是對評價對象物的品質(zhì)優(yōu)劣的判斷方式。這種評價模式的任務(wù)是判斷教育計畫實施所帶來的變化。（3）目標成達模式。是對既定目標到達程度的判斷方式。這種評價模式所要解決的問題，是判斷行為結(jié)果與既定目標的距離，以及達到何種程度。（4）目標游離模式。要求脫離預(yù)定目標，以活動的全部實際結(jié)果為評價對象，盡可能全面客觀的展現(xiàn)這些結(jié)果。（5）優(yōu)秀遴選模式。優(yōu)秀遴選模式是通過評價活動選拔優(yōu)秀的方式。（6）回應(yīng)模式。以所有與方案有利害關(guān)係或切身利益的人所關(guān)心的問題為中心的一種評價。其評價問題可以包括：新舊方案哪個更優(yōu)越？哪個方案是否更可行？哪些方案容易達到目的？三、教育評價與教育價值觀（1）目標取向評價的教育價值觀，其本質(zhì)是受“科技理性”或“工具理性”的支配，核心是追求對被評價對象的有效控制和改進。第一節(jié)測驗的實施標準化心理測驗實施的最基本要求是使所有的被測者都在相同的條件下去表現(xiàn)自己的真正行為，這就要求使用預(yù)先規(guī)定的施測批示語，標準的時間限制，合適的測施環(huán)境和條件以及實施過程中可能影響測試結(jié)果的任何其他因素。一、測驗實施的程式1、標準化指示語指示語有兩種：一種是對被試的，一種是對主試的。2、標準時限時限的確定最重要的考慮是測量目標的要求，一般採用嘗試法，即通過預(yù)測來確定。3、測驗的環(huán)境條件指施測的周圍環(huán)境，如安靜而寬敞和地點，適當?shù)墓饩€等等。二、測驗實施時，主試的職責

1、測驗前的準備工作

2、測驗中主試的職責三、測驗施測中，被試的反應(yīng)及其影響因素在測驗標準化過程必須考慮被試可能的反應(yīng)和可能的影響因素。

1、測驗的技巧及練習因素（1）測驗的技巧（2）練習的效應(yīng)

（3）教學與輔導因素

2、焦慮和動機因素（1）應(yīng)試動機（2）測驗焦慮

3、反應(yīng)定勢反應(yīng)定勢即反應(yīng)的方式或反應(yīng)風格，是指獨立於測驗內(nèi)容的反應(yīng)傾向，即由於每個人回答問題習慣的不同，而使得有相同能力的被試獲得不同的分數(shù)。第二節(jié)測驗的計分

一、計分的一般程式1、計分的基本步驟和要求基本步驟歸納起來有三步：（1）記錄反應(yīng)，即及時和清楚地記錄被試的反應(yīng)。（2）標準答案，有時又稱計分鍵。（3）反應(yīng)和計分鍵的比較，也就是將反應(yīng)歸類或賦予分數(shù)值。2、論文題計分論文題主要缺點是評分不夠客觀，計分經(jīng)常受到評分者的情感、態(tài)度的影響。常見的誤差有：寬容定勢和目暈效應(yīng)。寬容定勢指主試的計分過於寬鬆，目暈效應(yīng)指給予被試某道題較高的分數(shù)僅僅是由於他們在另一些試題上也獲得了高分，即對被試的一般印象影響到具體某個問題的評價。主觀題計分的原則是：（1）與測量目標無關(guān)的回答不予計分，或單獨給分數(shù)。（2）確定標準答案（3）評分時最好按題目順序進行（4）最好在評閱時不知道被試的名字，以減少個人偏見。（5）可能的話，由兩個以上的主試來給論文題計分取其平均值。（6）計分時可以給予分數(shù)也可以給予等級評定。3、客觀題計分客觀題計分採用計分套板以節(jié)省時間。二、猜測的較正在客觀題中有一個重要的問題是：測驗分數(shù)確定反映了被試的真實狀況，還是因為猜測而獲得的成功？因此，有必要對猜測進行校正。

1、猜測修正的性質(zhì)常用的猜測修正公式為：

S=R-[W/(h-1)]

其中S是正確分數(shù)，R為被試答對的題目數(shù)，W為被試答錯的題目數(shù)，h為選項題目。此公式的基本假設(shè)是：被試不知道正確答案時，完全憑藉猜測作答，所能猜對的題數(shù)完全依賴隨機原則。2、猜測修正的優(yōu)缺點實際生活中，很少符合上述假設(shè)基礎(chǔ)，因此對公式的應(yīng)用存在很大分歧。第一節(jié)參照常模的分數(shù)解釋

參照常模解釋分數(shù)通常是將被試的分數(shù)直接或間接地以在某個團體中的相對等級或相對位置來表示。這個用來比較的參照團體，稱為常模團體。一、常模團體

1、常模團體的性質(zhì)常模團體是具有某種共同特徵的人所組成的一個群體，它用一個標準的、規(guī)範的分數(shù)表示出來，以提供比較的基礎(chǔ)。

對測驗編制者來說，常模的選擇是基於對測驗將要施測的總體的認識。其工作包括：確定一般總體、確定目標總體、確定樣本。對於測驗的使用者的主要問題是：現(xiàn)有的常模團體中哪一個最為合適。

2、在確定和選擇常模時，要注意常模的要求：（1）群體必須明確；（2）常模團體必須是所測群體的代表性樣本；（3）樣本大小要適當；（4）注意常模的時間性；（5）注意一般常模與特殊常模的結(jié)合。3、常模團體的取樣的要求在確定常模時常用的取樣方法有：（1）簡單隨機抽樣；（2）系統(tǒng)抽樣；（3）分組抽樣；（4）分層抽樣；（5）題目取樣。二、參照常模的類型及解釋常模的類型也就是常模參考分數(shù)的類型，通常有：全國常模、區(qū)域常模和特殊群體常模；另一種方法是：年齡和年級常模、百分位常模和標準分數(shù)常模等。1、發(fā)展常模（1）智力年齡；（2）年級當量（3）發(fā)展順序量表，以行為發(fā)展的次序為常模。

2、百分等級（1）未分組資料的百分等級計算。

PR=100–[（100R-50）/N]R指排名順序，N指總?cè)藬?shù)。

（2）分組資料的百分等級求法

PR=（100/N）[（X–L）fp/h+Cf]

其中X指任意原始分數(shù)，L指原始分數(shù)所在組的精確下限，fp是該分數(shù)所在組的次數(shù)，Cf是指L以下的累積次數(shù)，h為組距。（3）標準分數(shù)常模標準分數(shù)是一種有相等單位的量表。標準分數(shù)常模包括許多所需的平均數(shù)與標準差的轉(zhuǎn)換分數(shù)。

三、常模的表示方法常模的表示方法有兩種：轉(zhuǎn)化表和剖析圖。

1、轉(zhuǎn)化表。它由原始分數(shù)表、相對應(yīng)的導出分數(shù)表和對常模團體的具體描述三個要素組成。

2、剖析圖。它是將測驗分數(shù)的轉(zhuǎn)換關(guān)係用圖形表示出來。從剖析圖上可以直觀地看出被試在各個分測驗上的表現(xiàn)及其對應(yīng)的位置。第二節(jié)參照效標的分數(shù)解釋

一、內(nèi)容參照分數(shù)內(nèi)容參照分數(shù)是依據(jù)被試確定材料內(nèi)容的掌握程度來表示和解釋。

1、掌握分數(shù)

2、正確百分數(shù)二、信度的作用

1、解釋真實分數(shù)與實得分數(shù)的相關(guān)

2、比較信度可以接受的水準

3、解釋個人分數(shù)的意義第二節(jié)信度的類型及估計方法一、重測信度和複本信度

1、重測信度，又稱穩(wěn)定性係數(shù)，它的計量方法是採用重測法，即使用同一測驗，在不同時間對同一群體施測兩次，此兩次測驗分數(shù)的相關(guān)係數(shù)，即為穩(wěn)定性係數(shù)。2、複本信度，它是以兩個等值但題目不同的測驗來測量同一個群體，然後求得被試在這兩個測驗上得分的相關(guān)係數(shù)。二、內(nèi)部一致性信度內(nèi)部一致性信度係數(shù)主要反映的是題目之間的關(guān)係，表示測驗?zāi)軌驕y量相同內(nèi)容或特性的程度。

1、分半信度分半信度是指採用分半法估計所得到的信度係數(shù)。通常是在測驗實施後將測驗分為等值的兩半，並分別計算每位被試在兩半測驗上的得分，求出這兩半分數(shù)的相關(guān)係數(shù)。這個相關(guān)係數(shù)就代表了兩半測驗內(nèi)容取樣的一致性程度。（1）分半法中的斯皮爾曼-布朗修正公式為：

rxx=2rnn/(1+rnn)其中，rnn

為兩半測驗的相關(guān)係數(shù)，rxx為測驗在原長度時的估計值。它的假設(shè)條件為：兩半測驗的方差相等。（2）蘆倫公式只要求將被試在兩半測驗的分數(shù)之差的方差（Sd2)和測驗總分的方差（Sx2)代入如下公式即可直接計算分半信度。

rxx=1-Sd2/Sx2(3)費拉那根公式也可直接計算分半信度

rxx=2[1-(Sa2+Sb2)/Sx2]

其中，Sa2

與Sb2

是兩個分測驗分數(shù)的方差，Sx2

為總分方差。2、同質(zhì)性信度同質(zhì)性主要代表所有測驗題目得分的一致性。同質(zhì)性是測量單一特質(zhì)的必要非充分條件。（1）庫德—理查遜估計方法

rtt=(k/(k-1))(1-∑pq/σt2))(2)柯龍巴赫α係數(shù)法

rtt=(k/(k-1))（1-∑σi2/σt2)

三、評分者信度

1、兩評分者估計法：可採用積差相關(guān)或等級相關(guān)來計算

2、柯龍巴赫估計法

3、肯德爾和諧係數(shù)法

rtt=ssr/[(1/12)k2(n3-n)]

第三節(jié)影響信度的因素一、樣本團體的性質(zhì)影響信度係數(shù)一個重要因素是所測樣本團體的性質(zhì)。這是因為：1、任何相關(guān)係數(shù)都要受到團體中分數(shù)分佈的影響。2、信度係數(shù)也受到樣本團體異質(zhì)性的影響。3、測驗的信度不僅受取樣團體中個別差異範圍的影響，也會由於不同團體間平均能力水準的不同而有所不同。二、測驗的長度測驗越長，信度值越高，這種影響主要來自兩個方面：第一，測驗越長，則試題取樣或內(nèi)容取樣越恰到好處當。第二，較長的測驗也不易受到猜測的影響。三、測驗的難度測驗難度與信度沒有簡單的對應(yīng)關(guān)係。但是，當測驗分數(shù)分佈範圍縮小時，測驗的信度降低。只有當測驗的難度水準可以使測驗分數(shù)分佈範圍最大時，測驗的信度才可能最高。四、測驗的速度測驗中的速度成份會影響信度係數(shù)的高低，若測驗的速度因素影響較大時，不宜採用分半信度法求。五、測驗專案的同質(zhì)性測驗專案越具有同質(zhì)性，越有對其信度估計偏高的可能性，因為越是同質(zhì)，專案間的一致性程度就越高。六、測驗的客觀性越具有客觀性，評分的結(jié)果越具有一致性，其信度就不受評分者的影響。的肯定是長度。但是在教育和心理的測量中，由於被測試的對象非常複雜，只能採用間接測量的方法，由此就產(chǎn)生了效度的問題。測量的有效性是良好測驗的最基本條件，一個缺乏效度的測量是毫無價值的。效度的形式化定義是指與測驗?zāi)康挠嘘P(guān)的真實變異數(shù)Sv2

和實得分數(shù)變異數(shù)Sx2

之比，即效度。

rxy=Sv2/Sx2二、效度的種類美國心理學會1974年發(fā)行的《教育和心理測驗的標準》一書中將效度區(qū)分為內(nèi)容效度、效標關(guān)聯(lián)效度和結(jié)構(gòu)效度。

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

教育測量與評價課件

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔