教育測量學(xué)課件

上傳人：子*** IP屬地：山東上傳時間：2024-01-27 格式：PPTX 頁數(shù)：237 大?。?.25MB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩232頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

教育測量的基本概念1教育測量的特徵與功能2教育測量的要素與種類3

教育測量的基本原理教育測量的基本理論401教育測量的基本概念PartOne一、什麼是測量史蒂文斯（S.S.

Stevens）在1946年提出，測量“是根據(jù)法則給客體或事物指派數(shù)字”。洛德（Lord）和諾維克（Novick）則在1968年修正了史蒂文斯的定義，他們提出，測量指的是客體的屬性而非客體本身。結(jié)合這兩個定義可以看出，測量應(yīng)當(dāng)包含三個基本要素，即法則、事物及其屬性、指派數(shù)字。一、什麼是測量法則是指導(dǎo)測量進(jìn)行的一種準(zhǔn)則或方法，即人們依據(jù)什么來進(jìn)行測量。法則是一個測量所具備的最重要的特性。事物及其屬性事物及其屬性是測量的對象或目標(biāo)。指派數(shù)字就是用數(shù)字或符號來代表某一事物或事物的某一屬性的量。這是測量結(jié)果的表現(xiàn)形式。測量的結(jié)果以數(shù)字或符號的形式呈現(xiàn)出來，這是區(qū)別測量與定性評價的重要標(biāo)志之一。二、什麼是教育測量根據(jù)對測量定義的解析，可以初步描述出教育測量的定義，即按照一定的規(guī)則對教育領(lǐng)域內(nèi)的事物或?qū)傩约右詳?shù)量化測定的過程。教育測量有廣義和狹義之分。從廣義上說，教育測量泛指運用測量手段對教育活動所進(jìn)行的量的測定。廣義的教育測量所涉及的範(fàn)圍很廣，凡是需要並能夠測量的、與教育有關(guān)的活動均在研究之列。從狹義上講，教育測量專指按一定規(guī)則對學(xué)生的知識、智能、個性發(fā)展、思想品德等所進(jìn)行的量的測定。通常所提及的多是狹義上的教育測量。02教育測量的特徵與功能PartTwo一、教育測量的特徵測量目的的針對性和嚴(yán)肅性測量對象的模糊性和復(fù)雜性測量工具的多元性和不確定性測量結(jié)果的間接性和推斷性二、教育測量的功能一般而言，教育活動是社會、心理和控制三個向度的統(tǒng)一，而這三個層面的要素可以構(gòu)成教育系統(tǒng)的三個最基本的子系統(tǒng)，即目標(biāo)系統(tǒng)、行為系統(tǒng)和控制系統(tǒng)。因此，教育測量的功能可以表徵為目標(biāo)導(dǎo)向、行為改進(jìn)和控制管理三大類。二、教育測量的功能教育測量的目標(biāo)導(dǎo)向功能教師和學(xué)生在進(jìn)行教育活動時，必須以教育目標(biāo)為準(zhǔn)繩，保證教育過程朝著目標(biāo)指引的方向發(fā)展。教育測量的行為改進(jìn)功能教育測量的行為改進(jìn)功能具體表現(xiàn)為對學(xué)生學(xué)習(xí)行為的改進(jìn)和對教師教學(xué)行為的改進(jìn)。教育測量的控制管理功能教育測量作為教育評價的基礎(chǔ)，是控制教育過程的主要手段，可以為改進(jìn)教育過程提供必要的反饋信息，這是教育測量最直接的、主要的功能。03教育測量的要素與種類PartThree一、教育測量的要素不管是物理屬性的測量，還是精神屬性的測量，都必須具備三個基本條件或三個基本要素，即測量的量具、測量的單位和測量的參照點。測量結(jié)果是否科學(xué)精確，取決於是否具備科學(xué)有效的測量工具、意義明確的測量單位和參照點。（一）教育測量的量具量表是教育測量的工具。所謂量表，即任何可以使事物數(shù)量化的值或量的漸進(jìn)系列。就教育測量而言，量表主要是以文字試題、圖形、符號、操作等方式來呈現(xiàn)。量表具有四個基本特徵，即描述性、比較性、程度和起點。描述性是指用某一特定的詞或標(biāo)識來代表劃分的每個等級；比較性指的是描述的相對規(guī)模；當(dāng)比較了所有的不同點並且分級表示以後，量表還有另外的特徵———程度；如果某個量表有一特定的起點或零點，則量表還有起點這個特徵。量表的每個特徵都是建立在前一個特徵之上的，如果一個量表有高一級的特性，那麼，它一定有低一級的特性；反之則不成立。（一）教育測量的量具從對客觀事物、現(xiàn)象測度的程度或精確水準(zhǔn)來看，可將所採用的計量尺度按低級到高級、粗略到精確分為四個層次，即類別量表、順序量表、等距量表和比率量表。量表名概念功能局限應(yīng)用例子類別量表把物、人或事件分成不連續(xù)的類別的量表將數(shù)據(jù)分成互相排斥、互不相容的各種類別數(shù)字沒有序列的意義，不能說明類別的數(shù)量差別用“１”和“０”分別表示男女學(xué)生在標(biāo)識上的區(qū)別順序量表表示事物相對關(guān)係的數(shù)值特徵的量表不僅具有類別量表用數(shù)字代表特徵的功能，而且具有對數(shù)據(jù)排序的能力不考慮差異的絕對量，只考慮相對差別用優(yōu)、良、中、差四個等級評定學(xué)生學(xué)業(yè)成就等距量表連續(xù)的類別之間有相等差額的量表在以上量表功能基礎(chǔ)上，增加了量表範(fàn)圍內(nèi)各點之間的間距相等這一維度比率是無意義的，零點是任意規(guī)定的，所表示的數(shù)值只能進(jìn)行加減運算將原始測驗分?jǐn)?shù)轉(zhuǎn)化為標(biāo)準(zhǔn)分?jǐn)?shù)，進(jìn)而將測驗得到的不同單位的分?jǐn)?shù)轉(zhuǎn)換到同一等距量表上進(jìn)行分析比較比率量表有絕對零點和相等間距的量表最高水準(zhǔn)的量表。綜合了前三種量表的功能，並又增加了絕對零點或原點的概念大多數(shù)教育測量往往沒有絕對的零點體重80公斤是體重40公斤的2倍；身高9英尺是身高3英尺的3倍（二）教育測量的單位測量單位就是測量所得數(shù)據(jù)的單位。任何測量都必須有單位，這是測量的基本要求，因為沒有單位就無法解釋測量結(jié)果的性質(zhì)。符合測量意義要求的單位，必須是標(biāo)準(zhǔn)化了的單位。這就要求測量單位符合兩個條件：一是具有相對穩(wěn)定的確定意義，二是有相等的價值。所謂相對穩(wěn)定的確定意義，是指相同的單位對所有人都是公認(rèn)的，即相同的測量數(shù)值，任何人對它的解釋都是一致的。（三）教育測量的參照點所謂參照點，就是計算事物數(shù)量的起點，也就是零點。標(biāo)準(zhǔn)化的測量單位必須伴有標(biāo)準(zhǔn)化的測量條件，即要有相同的計算事物數(shù)量的起點。唯有如此，測量所得的相同結(jié)果才有同樣的意義。絕對參照點以絕對的零點作為測量的起點。比如長度、重量、氣溫等物理屬性的測量都是建立在以絕對的零點作為參照點的基礎(chǔ)上的測量。相對參照點以人為確定的零點作為測量的起點。比如地勢高度的測量，就是以海平面為測量的起點。二、教育測量的種類基于測量目標(biāo)的分類學(xué)業(yè)成就測驗智力測驗?zāi)芰A向測驗人格測驗基于測量對象的分類個別測驗團(tuán)體測驗基于測量時機的分類準(zhǔn)備性測驗形成性測驗總結(jié)性測驗基于測量參照標(biāo)準(zhǔn)的分類常模參照性測驗?zāi)繕?biāo)參照性測驗二、教育測量的種類基于測量材料的分類文字測驗非文字測驗基于測量形式的分類客觀性測驗論文式測驗投射測驗情景測驗基于測量標(biāo)準(zhǔn)化程度的分類標(biāo)準(zhǔn)化測驗自編測驗（一）基於測量目標(biāo)的分類測驗名稱概念描述應(yīng)用範(fàn)疇實例舉樣學(xué)業(yè)成就測驗關(guān)於教學(xué)目標(biāo)的考試，旨在對學(xué)生學(xué)習(xí)效果進(jìn)行檢驗不僅是對知識的測量，也包括技能的測量；既可以是學(xué)科測驗，也可以是綜合測驗學(xué)校平時組織的課堂考試，如期中、期末考試等智力測驗又稱智慧測驗，在於測量智力的高低用於測量學(xué)生的觀察、識記、分析、判斷、推理等思維活動的能力常用的工具有比內(nèi)西蒙智力量表、斯坦福量表、韋克斯勒兒童／成人智力量表等能力傾向測驗又稱特殊能力傾向測驗，旨在深入瞭解學(xué)生某方面的特長和發(fā)展傾向用於測量學(xué)生的特殊才能，如美術(shù)、音樂、體育等如美國勞工就業(yè)保障局編制的“一般能力傾向成套測驗”（GATB）人格測驗也稱個性測驗，測量個體行為獨特性和傾向性等特徵用於測量性格、氣質(zhì)、興趣、情緒、動機等方面的個性心理特徵和個性傾向性常用人格測驗有艾森克人格問卷（EPQ）、明尼蘇達(dá)多項人格測驗（MMPI）和卡特爾16種人格因素測驗（16PF）（二）基於測量對象的分類測驗名稱概念描述應(yīng)用範(fàn)疇實例舉樣個別測驗在同一時間內(nèi)只測試一個被試者的測驗適用於小範(fàn)圍的測驗如外語口語測試、音樂表演測驗等團(tuán)體測驗在同一時間內(nèi)測試多個被試者的測驗適用於大規(guī)模的測驗如統(tǒng)一入學(xué)考試（三）基於測量時機的分類測驗名稱概念描述應(yīng)用範(fàn)疇實例舉樣準(zhǔn)備性測驗指在進(jìn)行某一學(xué)習(xí)活動之前進(jìn)行的、用來測量學(xué)生對於完成某一學(xué)習(xí)任務(wù)或勝任某一工作的準(zhǔn)備情況的測驗用於測量學(xué)生是否具有完成某一學(xué)習(xí)或工作任務(wù)的最低知識和能力在講授新知識之前對學(xué)生應(yīng)具有的先行知識和能力進(jìn)行測驗，如在進(jìn)行乘法教學(xué)之前，先進(jìn)行加法測驗形成性測驗又叫進(jìn)展性測驗，指在教學(xué)過程中實施的測驗用於測驗學(xué)生在教育過程中知識、技能、思想、品德等方面的形成情況如教學(xué)中進(jìn)行的單元測驗總結(jié)性測驗指在一門學(xué)科或一項教育活動結(jié)束時所舉行的測驗用於測驗學(xué)生在學(xué)習(xí)活動後的知識、技能、思想、體力和心理等方面的發(fā)展情況如期末測驗、畢業(yè)考試等（四）基於測量參照標(biāo)準(zhǔn)的分類測驗名稱概念描述應(yīng)用範(fàn)疇實例舉樣常模參照性測驗以被測團(tuán)體的常模（平均數(shù)）為參照標(biāo)準(zhǔn)來衡量個體成績的測驗主要用於區(qū)分學(xué)生的個別差異和相對水準(zhǔn)如各類升學(xué)考試目標(biāo)參照性測驗以預(yù)定的目標(biāo)（大綱）為參照標(biāo)準(zhǔn)來衡量測驗成績的測驗用於確定測試者達(dá)到目標(biāo)的程度，多用於合格性、達(dá)標(biāo)性活動如單元教學(xué)之前、中間或結(jié)束時進(jìn)行的測驗（五）基於測量材料的分類測驗名稱概念描述應(yīng)用範(fàn)疇實例舉樣文字測驗指以文字材料編制測試內(nèi)容，並以文字作答的測驗應(yīng)用範(fàn)圍較大，團(tuán)體測驗多採用此形式絕大多數(shù)的教育測驗和大多數(shù)智力測驗都屬於文字測驗非文字測驗指以非文字材料（如圖形、儀器等）編制測驗內(nèi)容，並以非文字方式（如操作、記號等）作答的測驗適用於語言有困難或語言文化背景不同的被試者，一般適用於個別施測如托尼非文字智力測驗（TONI2）（六）基於測量形式的分類測驗名稱概念描述應(yīng)用範(fàn)疇實例舉樣客觀性測驗指完全採用客觀性試題的測驗適用於測量學(xué)生知識的廣度和記憶能力、判斷能力以及性格特點常見形式有：是非題、填空題、選擇題、簡答題等，如艾森克人格問卷（EPQ）論文式測驗以論述題、作文題的形式出現(xiàn)的測驗適用於測驗學(xué)生掌握知識的深度和對問題的分析、綜合和評價能力如中國古代科舉考試的“策論”（按問題作答）投射測驗指向被試者提供一些意義比較含糊的刺激情景，讓他在不受限制的情景下，自由表現(xiàn)出他的反應(yīng)，分析反應(yīng)的結(jié)果，從而推斷他的人格結(jié)構(gòu)的測驗適用於人格測驗如著名的羅夏克墨蹟測驗（RorschachInk-BlotTest）情景測驗是將被試者置於一種近似於實際的情境中，根據(jù)其行為表現(xiàn)來歸納、推論其個性的測驗適用於測試被試者的真實性、公正性、興趣愛好、認(rèn)識能力和道德判斷能力等如行政人員測評中的無領(lǐng)導(dǎo)小組討論、公文筐測驗等（七）基於測量標(biāo)準(zhǔn)化程度的分類測驗名稱概念描述應(yīng)用範(fàn)疇實例舉樣標(biāo)準(zhǔn)化測驗由訓(xùn)練有素的專業(yè)人員慎重編制、按統(tǒng)一的步驟實施的、測量誤差受到嚴(yán)格控制的一種測驗適用於對測驗結(jié)果有嚴(yán)格要求的測試如比內(nèi)西蒙量表、魏氏成人量表、高考等自編測驗由教師自己編制的測驗適用於學(xué)校在較小範(fàn)圍內(nèi)考查學(xué)生學(xué)習(xí)成績的測試如班級的單元測驗、期中測驗、期末測驗等04教育測量的基本理論PartFour一、經(jīng)典測驗理論20世紀(jì)前半葉迅速發(fā)展起來的，在20世紀(jì)前期與中期占主導(dǎo)地位的真分?jǐn)?shù)理論，又被稱為經(jīng)典測驗理論。經(jīng)典測驗理論在心理與教育測驗發(fā)展歷程中有著特殊的地位，它既是歷史上第一個測驗理論，也是測驗的最一般、最基本的理論，目前仍具有鮮活的生命力，應(yīng)用極為廣泛?？梢哉f，現(xiàn)代測驗理論大多是在經(jīng)典測驗理論的研究基礎(chǔ)上，針對它在某方面存在的問題而發(fā)展起來的。（一）經(jīng)典測驗理論概述經(jīng)典測驗理論起源於斯皮爾曼（Spearman）有關(guān)智力和智力測驗的著名研究，並由諾維克給出了最終的公理化形式。斯皮爾曼認(rèn)為任何心理測驗所得到的分?jǐn)?shù)X都是由反映被試者穩(wěn)定心理特徵的真分?jǐn)?shù)T（例如在教育考試中考生的真實能力水準(zhǔn)）和誤差分?jǐn)?shù)e（由隨機因素例如考試中考生的情緒、考場的因素等所造成的實際成績與其真正能力水準(zhǔn)的差）所組成的，即X=T+e。在這裏，X

表示觀測所得的測驗分?jǐn)?shù)，T表示個體的真分?jǐn)?shù)，e表示隨機誤差。（一）經(jīng)典測驗理論概述真分?jǐn)?shù)理論的數(shù)學(xué)模型包含三個基本假設(shè)：第一，由於測量誤差的隨機性，誤差分?jǐn)?shù)e的平均數(shù)為零。第二，誤差分?jǐn)?shù)e與真分?jǐn)?shù)T相互獨立，即二者的相關(guān)為零。第三，兩次測量的誤差分?jǐn)?shù)之間的相關(guān)為零。誤差是隨機出現(xiàn)的，每次測量所產(chǎn)生的誤差是獨立的，所以兩次測量所產(chǎn)生的誤差之間不存在統(tǒng)計意義上的相關(guān)。在上述三個基本假設(shè)的基礎(chǔ)上，真分?jǐn)?shù)理論作出了如下兩個重要推論：其一，真分?jǐn)?shù)等於實得分?jǐn)?shù)的平均數(shù)，即T=E(X)；其二，在一組測量分?jǐn)?shù)中，實得分?jǐn)?shù)的變異數(shù)（方差）等於真分?jǐn)?shù)的變異數(shù)（方差）與誤差分?jǐn)?shù)的變異數(shù)（方差）之和，即S2X=S2T+S2e。經(jīng)典測驗理論在真分?jǐn)?shù)理論假設(shè)的基石上構(gòu)建起了它的理論大廈，主要包括信度、效度、專案分析、常模、標(biāo)準(zhǔn)化等基本概念。（二）經(jīng)典測驗理論的應(yīng)用價值易于被人理解和接受經(jīng)典測驗理論經(jīng)過了幾十年的發(fā)展，形成了一套以真分?jǐn)?shù)理論為基礎(chǔ)的、較為完善的測驗理論以及對題目和測驗進(jìn)行統(tǒng)計分析的方法。相比之下，這些統(tǒng)計分析方法在計算上較為簡單，意義也直觀明了，因此容易被教育工作者所理解和掌握，這就促進(jìn)了該理論實踐應(yīng)用的普遍性。事實上，經(jīng)典測驗理論中的信度、測量標(biāo)準(zhǔn)誤等概念幾十年來一直被運用著，幾乎每一個編制良好的測驗都有效度指標(biāo)。具有較強的適用性經(jīng)典測驗理論以真分?jǐn)?shù)理論為基礎(chǔ)，建立在實得分?jǐn)?shù)Ｘ與真分?jǐn)?shù)Ｔ和誤差分?jǐn)?shù)ｅ的關(guān)系上。而在此基礎(chǔ)上推導(dǎo)出來的一系列假設(shè)都容易得到滿足，所以屬于弱假設(shè)。這些弱假設(shè)條件容易被絕大多數(shù)測驗數(shù)據(jù)資料所滿足，所以從實際的應(yīng)用來說，假設(shè)條件容易滿足，其應(yīng)用具有廣泛性。（三）經(jīng)典測驗理論的缺陷真分?jǐn)?shù)模型的若干假定不符合事實測驗的項目統(tǒng)計量受樣本的抽樣變動影響大進(jìn)行不同測驗的被試者難以進(jìn)行比較信度指標(biāo)在實踐應(yīng)用中難以起到應(yīng)有的指導(dǎo)作用參數(shù)指標(biāo)對測驗活動的指導(dǎo)價值相當(dāng)有限二、概化理論眾所周知，但凡測量總會出現(xiàn)誤差，而產(chǎn)生測量誤差的原因也是多種多樣的。鑒於經(jīng)典測驗理論不能具體指明哪種誤差或在總誤差中各種誤差的相對大小如何的問題，20世紀(jì)60年代至70年代初，克龍巴赫（Cronbach）等人提出了概化理論。概化理論又稱概括力理論或拓廣理論，是經(jīng)典測驗理論和誤差分析相結(jié)合的產(chǎn)物。概化理論的基本思想是：任何測量都處在一定的情境關(guān)係之中，應(yīng)該從測量的情境關(guān)係中具體地考察測量工作?；洞?，概化理論提出了多種真分?jǐn)?shù)與多種不同的信度係數(shù)的觀念，並設(shè)計了一套方法去系統(tǒng)辨明與實驗性研究多種誤差方差的來源。同時用全域分?jǐn)?shù)代替真分?jǐn)?shù)，用概括化係數(shù)（即G係數(shù)）代替信度。（一）概化理論概述概化理論主要運用方差分析的方法對測驗情境中誤差的各種來源進(jìn)行區(qū)分，把誤差方差分解成相應(yīng)的各方差分量，從而選擇合理的測驗設(shè)計方案以減少誤差，提高測量的精確度。概化理論的基本框架主要表徵為以下若干概念：1.測量目標(biāo)和測量側(cè)面2.可靠性3.測量設(shè)計4.概化G研究和決策D研究1、測量目標(biāo)和測量側(cè)面“測什麼”和“怎麼測”構(gòu)成了測量情境關(guān)係的總和。“測什麼”即測量目標(biāo)（objectofmeasurement），是指測量者希望描述的事物屬性?！霸觞N測”在概化理論中稱為測量側(cè)面（faceofmeasurement），是指影響測量目標(biāo)觀測值的各種因素。測量側(cè)面可以分為不同的水準(zhǔn)，它們都是測量的面，這些面的變化都可能導(dǎo)致不同的測量結(jié)果。某一側(cè)面的所有可能水準(zhǔn)的全體稱為可接受的觀察全域，而測量對象在觀察全域上的觀察均分稱為全域分?jǐn)?shù)，概化理論中的全域分?jǐn)?shù)類似於經(jīng)典測驗理論中的真分?jǐn)?shù)。2、可靠性在經(jīng)典測驗理論中，信度是指一致性的指標(biāo)，其注重的是兩次測驗的兩個部分或評分者間的一致性。概化理論用可靠性（dependability）的概念替代了傳統(tǒng)信度的概念，指的是從一個測驗的被測者得分到施測者同等程度接受的所有可能條件下被測者均分的概化的精確性，即從測量對象在樣例測量上的得分到全域分?jǐn)?shù)的概化精確性，或者說是樣例到可接受的觀察全域的概化程度。概化理論認(rèn)為，概化越精確，就越能從一個測驗的情況來推斷觀察全域的情況。3、測量設(shè)計概化理論的研究首先要按照一定的測量設(shè)計（類似於實驗設(shè)計）方案安排測驗，並對收集到的資料進(jìn)行方差分析，分解出各種誤差成分。測量設(shè)計主要可以從側(cè)面的個數(shù)、側(cè)面間的關(guān)係、側(cè)面和觀察全域的關(guān)係三個維度進(jìn)行分類。根據(jù)側(cè)面的個數(shù)，可以將測量設(shè)計分為單側(cè)面設(shè)計、雙側(cè)面設(shè)計和多側(cè)面設(shè)計三種；根據(jù)側(cè)面間的關(guān)係，可以將測量設(shè)計分為交叉設(shè)計、嵌套設(shè)計和混合設(shè)計三種；根據(jù)側(cè)面和觀察全域的關(guān)係，可以將測量設(shè)計分為固定側(cè)面設(shè)計和隨機側(cè)面設(shè)計兩種。4、概化Ｇ研究和決策Ｄ研究概化理論的理論研究包括Ｇ研究（generalizabilitystudy）和Ｄ研究（decisionstudy）兩種。簡單地說，Ｇ研究是測量程式的開發(fā)過程，Ｄ研究則是測量工具的應(yīng)用過程。前者旨在盡可能多地挖掘出各種潛在的測量誤差來源，並估計出它們的變異分量大小。後者主要是根據(jù)決策的需要，以概化研究的方差分量估計值為基礎(chǔ)，改變測量情境關(guān)係的某些方面，使得測量誤差趨於最小，從而提高測量的信度和效度。（二）概化理論的應(yīng)用價值在檢驗測評工具效度中的應(yīng)用概化理論可以用于測評工具效度的檢驗，幫助研究者在設(shè)計測評工具時，細(xì)致考慮可能影響測評分?jǐn)?shù)的各種變異來源，估計各變異來源的方差分量，最大優(yōu)點是能對設(shè)計中的某些側(cè)面及側(cè)面水平進(jìn)行調(diào)整。在確定評分誤差中的應(yīng)用測量側(cè)面是測量誤差的重要來源，可以分為評價者側(cè)面和測評要素側(cè)面。首先，與傳統(tǒng)的評分者一致性計算方法相比，概化理論在處理評分者一致性問題上表現(xiàn)更靈活。評分者效應(yīng)反映了評分者對不同測評維度和評定標(biāo)準(zhǔn)的理解的一致性程度，方差分量越小，一致性程度越高。其次，測評要素側(cè)面的全域不是無限的，且測評要素的全域中不存在與該側(cè)面樣本長度相等的其他可替代的樣本，通常將某個側(cè)面固定之后，概化系數(shù)會比完全隨機模式時的概化系數(shù)高，但其推論全域會變小。在這種情況下，當(dāng)對測評要素側(cè)面的各個水平進(jìn)行隨機單側(cè)面交叉設(shè)計，并估計相應(yīng)的方差分量時，單個能力維度在總變異中所占的比率越高，說明評分者對被試者的評分越能較好地反映被試者的真實水平。維度在總變異中所占的比率過低，說明對該維度的測量不準(zhǔn)確。在優(yōu)化測評工具中的應(yīng)用完成了對各方差分量的估計和解釋后（概化理論中的Ｇ研究），可通過Ｄ研究進(jìn)一步改進(jìn)測驗設(shè)計，即以Ｇ研究所得到的變異分量估計值為基礎(chǔ)，通過調(diào)整測量過程中各方面的關(guān)系，使測量誤差最小。（三）概化理論的缺陷在心理特質(zhì)多維性測量的研究上仍力不從心對誤差來源的估計還不夠精確測驗可靠性過于依賴實測數(shù)據(jù)的完備性三、專案反應(yīng)理論專案反應(yīng)理論，又稱潛在特質(zhì)理論（latenttraittheory），是20世紀(jì)中後期以美國測量專家洛德為代表的測量學(xué)者們?yōu)榱丝朔?jīng)典測驗理論的局限性而提出的現(xiàn)代測驗理論。專案反應(yīng)理論作為一種以試題參數(shù)為前提條件的理論，研究的主要內(nèi)容是被試者在測驗專案上的反應(yīng)行為與被試者潛在特性之間的關(guān)係。（一）專案反應(yīng)理論概述與經(jīng)典測驗理論不同，專案反應(yīng)理論是建立在強假設(shè)基礎(chǔ)之上的。其基本假設(shè)主要有四條。單一維度假設(shè)在項目反應(yīng)理論的應(yīng)用中，通常假定影響被試者對項目作出反應(yīng)行為的只有一種心理特質(zhì)，正是這種特質(zhì)決定了被試者在所有項目上的回答，而沒有其他特質(zhì)的干擾。這種假設(shè)非常有利于測驗的編制和對測驗結(jié)果的解釋。局部獨立性假設(shè)局部獨立性假設(shè)是指被試者對測驗中任何一個項目的反應(yīng)都只受其特質(zhì)水平的影響，獨立于對其他項目的反應(yīng)。也就是說，被試者對測驗中任一項目作出正確應(yīng)答的概率不受其對其他項目應(yīng)答的影響。單調(diào)性假定單調(diào)性假定，也叫項目特征曲線假定，指被試者對項目正確反應(yīng)的概率隨其能力水平的增加而單調(diào)遞增。該假定描述了被試者對某一測驗項目的正確反應(yīng)概率與該項目所對應(yīng)的被試者的潛在特質(zhì)水平之間的一種函數(shù)關(guān)系。非限時性假設(shè)項目反應(yīng)理論要求測驗在不限時的條件下進(jìn)行。在這種情況下，如果被試者對某些測驗的項目未作反應(yīng)，則可認(rèn)為這是由于他的能力不夠，從而把該項目作打錯處理。非限時測驗實質(zhì)上是一種理想測驗，而現(xiàn)實中幾乎所有的測驗都是限時的，否則測驗就無法正常運行。當(dāng)然，如果限時合理的話，仍然可以獲得與非限時同樣的效果。（二）專案反應(yīng)理論的應(yīng)用價值編制自適應(yīng)測驗對測驗成績進(jìn)行等值處理題庫建設(shè)（三）專案反應(yīng)理論的缺陷單一維度假設(shè)難以滿足推廣性較差測驗精確度不易保證對多級評分模型的探索不夠四、新一代測量理論新一代測量理論又稱認(rèn)知診斷理論，是當(dāng)今心理和教育測量學(xué)研究中一個受人關(guān)注的研究方向。該理論由弗雷德裏克森等人在1993年出版的《新一代測量理論》一書中正式提出。密斯萊維曾經(jīng)明確指出，教育與心理測量理論的發(fā)展經(jīng)歷了標(biāo)準(zhǔn)測驗理論與新一代測量理論兩個階段，前一階段的代表理論為經(jīng)典測驗理論、概化理論、專案反應(yīng)理論，後一階段的代表理論為認(rèn)知診斷理論。（一）新一代測量理論概述廣義的認(rèn)知診斷指建立起觀察分?jǐn)?shù)和被試者的內(nèi)部認(rèn)知特徵之間的關(guān)係。狹義的認(rèn)知診斷指在教育教學(xué)領(lǐng)域中，按被試者有沒有掌握測驗所測的技能或特質(zhì)來對被試者加以分類。當(dāng)前，人們已經(jīng)不滿足於單純給學(xué)生一個簡單的測驗分?jǐn)?shù)，而是更希望測驗?zāi)軌蛱峁┰\斷資訊，能夠報告學(xué)生的認(rèn)知結(jié)構(gòu)（即學(xué)生掌握了哪些知識點，哪些知識點未掌握而需要補救），這就是認(rèn)知診斷。把認(rèn)知與測量結(jié)合起來，不僅對學(xué)生的整體水準(zhǔn)作出評估，同時將學(xué)生的認(rèn)知結(jié)構(gòu)模式化，利用合適的計量模型進(jìn)行診斷，定量地考察學(xué)生的認(rèn)知結(jié)構(gòu)和個體差異，這種對認(rèn)知結(jié)構(gòu)有診斷功能的計量模型被稱為認(rèn)知診斷模型。（二）新一代測量理論的應(yīng)用價值認(rèn)知診斷理論的價值意義主要體現(xiàn)為“三個有利於”。認(rèn)知診斷有利于實現(xiàn)測驗的促進(jìn)發(fā)展功能認(rèn)知診斷有利于對學(xué)科能力進(jìn)行深入闡釋認(rèn)知診斷有利于提高測驗的內(nèi)容效度（三）新一代測量理論的缺陷缺乏操作性認(rèn)知診斷的實施主要以認(rèn)知心理學(xué)模型為基礎(chǔ)和核心，而心理學(xué)理論建構(gòu)中的認(rèn)知診斷，需要內(nèi)在心理加工的假設(shè)模型。限于科學(xué)技術(shù)的發(fā)展水平，當(dāng)前大多數(shù)的認(rèn)知診斷理論研究者主要用計算機來類比、模擬人的大腦的內(nèi)部加工機制，由這種研究范式得出的研究結(jié)果必然大多是解釋性、描述性的。但是，教育領(lǐng)域中的認(rèn)知診斷測量，則需要已經(jīng)被證實的理論模型。因此，認(rèn)知診斷理論在教育領(lǐng)域?qū)嶋H應(yīng)用時可操作性不強。高度復(fù)雜性人的認(rèn)知結(jié)構(gòu)較為復(fù)雜、易變，很難用模型去描述、刻畫，因此從測量學(xué)研究來看，開發(fā)出合適的可實用的統(tǒng)計模型的工作是非常艱巨的。另外，當(dāng)前的認(rèn)知診斷理論的發(fā)展還存在這樣的尷尬境地，即認(rèn)知心理學(xué)和測量學(xué)兩學(xué)科的溝通與結(jié)合并不是很順暢。這直接導(dǎo)致的局面是：復(fù)雜的數(shù)學(xué)模型令認(rèn)知心理學(xué)家望而卻步，而測量學(xué)家常常不能很好地駕馭認(rèn)知心理學(xué)必備的知識。由此可見，在當(dāng)前條件下，認(rèn)知診斷理論要在教育測量領(lǐng)域大面積應(yīng)用還是相當(dāng)困難的。教育測量分?jǐn)?shù)的特徵與種類1教育測量分?jǐn)?shù)的整理2教育測量分?jǐn)?shù)的轉(zhuǎn)換3

教育測量分?jǐn)?shù)的統(tǒng)計處理教育測量分?jǐn)?shù)的組合4SPSS在教育測量分?jǐn)?shù)統(tǒng)計處理中的應(yīng)用501教育測量分?jǐn)?shù)的特徵與種類PartOne一、教育測量分?jǐn)?shù)的特徵測量數(shù)據(jù)的特徵一般而言，測量數(shù)據(jù)主要具有兩大共性特徵：一是數(shù)據(jù)的波動性。一方面表現(xiàn)為不同的事物在同一量性特徵方面往往具有不同的測量數(shù)值。另一方面表現(xiàn)為同一事物的同一量性特徵在不同的時間、空間、條件下也會具有不同的測量數(shù)值。二是數(shù)據(jù)的規(guī)律性。主要是指數(shù)據(jù)的分佈、變化情況必然遵循一定規(guī)律，也就是說大量原始數(shù)據(jù)背後必然存在一定規(guī)律。教育測量分?jǐn)?shù)的特徵主觀性隨機性模糊性二、教育測量分?jǐn)?shù)的種類根據(jù)數(shù)據(jù)的獲取方法點計數(shù)據(jù)度量數(shù)據(jù)根據(jù)數(shù)據(jù)的連續(xù)性間斷型數(shù)據(jù)連續(xù)型數(shù)據(jù)根據(jù)數(shù)據(jù)的精確程度類別數(shù)據(jù)等級數(shù)據(jù)等距數(shù)據(jù)比率數(shù)據(jù)02教育測量分?jǐn)?shù)的整理PartTwo一、檢查分?jǐn)?shù)檢查分?jǐn)?shù)是分?jǐn)?shù)整理工作的第一步，也是分?jǐn)?shù)統(tǒng)計處理和分析的基礎(chǔ)，主要是對分?jǐn)?shù)的完整性和準(zhǔn)確性進(jìn)行檢查。檢查分?jǐn)?shù)的完整性是將統(tǒng)計所得數(shù)據(jù)與原始記錄進(jìn)行比對，檢查是否存在遺漏、錯誤或重複情況。檢查分?jǐn)?shù)的準(zhǔn)確性是對數(shù)據(jù)統(tǒng)計方法、度量標(biāo)準(zhǔn)、誤差處理和統(tǒng)計結(jié)果進(jìn)行檢查，控制無關(guān)變數(shù)。如果統(tǒng)計到的數(shù)據(jù)不完整、不準(zhǔn)確、不系統(tǒng)，那麼這批數(shù)據(jù)就不能反映測量對象的真實客觀情況，數(shù)據(jù)本身就沒有應(yīng)用價值，而且以這批數(shù)據(jù)為依據(jù)的統(tǒng)計處理結(jié)論往往也是錯誤的。二、整理分?jǐn)?shù)分?jǐn)?shù)排列順序排列順序排列就是將測量分?jǐn)?shù)按照數(shù)值大小進(jìn)行排序。等級排列等級排列就是將等級數(shù)據(jù)按照一定準(zhǔn)則進(jìn)行排列。統(tǒng)計表的編制標(biāo)題標(biāo)目線條數(shù)字表注編制統(tǒng)計表的基本原則表格的結(jié)構(gòu)簡單明了，表格的層次清晰明朗，表格的主題突出明確，表格的內(nèi)容合理排列。二、整理分?jǐn)?shù)頻數(shù)分佈表的編制求出全距全距，又叫做極差，是全體分?jǐn)?shù)中的最大數(shù)值與最小數(shù)值之間的距離差。全距計算公式：全距＝最大值－最小值。確定組數(shù)組數(shù)就是分組的數(shù)量，即分成多少組。組數(shù)是由測量分?jǐn)?shù)的性質(zhì)和數(shù)量多少所決定的。求出組距組距是指每一組占據(jù)的距離。一般情況下，頻數(shù)分布表中各組組距應(yīng)該保持相等。組距計算公式：組距＝（全距+1）/組數(shù)。確定組限組限就是每一組的起止位置，類似于區(qū)間的端點值。組中值計算公式：組中值=（組上限+組下限）/2。計算制表按照組限將分?jǐn)?shù)進(jìn)行分組，登記每一組分?jǐn)?shù)的頻數(shù)，求出累計頻數(shù)、累計百分比，編制成頻數(shù)分布表。03教育測量分?jǐn)?shù)的轉(zhuǎn)換PartThree一、百分等級分?jǐn)?shù)百分等級分?jǐn)?shù)簡稱百分等級，是一種描述測量分?jǐn)?shù)相對位置的量數(shù)，能夠反映出某個測量分?jǐn)?shù)在全體測量分?jǐn)?shù)中的相對位置，常用PR表示。“百分等級分?jǐn)?shù)”一詞中的“百分”是指將全體測量分?jǐn)?shù)的個數(shù)換算成“100份”來計算，“等級分?jǐn)?shù)”是“百分等級分?jǐn)?shù)”的類別。百分等級分?jǐn)?shù)的轉(zhuǎn)換原理，就是計算得出某一特定分?jǐn)?shù)（又稱目標(biāo)分?jǐn)?shù)或常模樣本分?jǐn)?shù)）在全體分?jǐn)?shù)中的位置量數(shù)，通常是用百分比來表示的。百分比的分子是“全體分?jǐn)?shù)中低於目標(biāo)分?jǐn)?shù)的分?jǐn)?shù)個數(shù)”，分母是“全體分?jǐn)?shù)的個數(shù)”。具體操作是將原始分?jǐn)?shù)進(jìn)行順序排列，確定目標(biāo)分?jǐn)?shù)在全體分?jǐn)?shù)排列中的位置，計算得出“小於目標(biāo)分?jǐn)?shù)的分?jǐn)?shù)個數(shù)”作為分子，“全體分?jǐn)?shù)的個數(shù)”作為分母，計算得出百分比，就是目標(biāo)分?jǐn)?shù)的百分等級分?jǐn)?shù)。簡單而言，百分等級分?jǐn)?shù)就是指在全體樣本中低於常模樣本分?jǐn)?shù)的樣本個數(shù)的百分比。百分等級分?jǐn)?shù)越小，目標(biāo)分?jǐn)?shù)個體在全體分?jǐn)?shù)排列中所處的位置越低；反之，百分等級分?jǐn)?shù)越大，說明位置越高。一、百分等級分?jǐn)?shù)

一、百分等級分?jǐn)?shù)

二、標(biāo)準(zhǔn)分?jǐn)?shù)標(biāo)準(zhǔn)分?jǐn)?shù)也叫Z分?jǐn)?shù)，是指將原始分?jǐn)?shù)與其平均數(shù)的差值除以原始分?jǐn)?shù)標(biāo)準(zhǔn)差所得的商數(shù)。標(biāo)準(zhǔn)分?jǐn)?shù)的轉(zhuǎn)換原理，是以原始分?jǐn)?shù)標(biāo)準(zhǔn)差作為度量單位，用來衡量原始分?jǐn)?shù)偏離平均數(shù)的程度。通俗而言，就是計算得出原始分?jǐn)?shù)超過、相等或低於其平均數(shù)多少個標(biāo)準(zhǔn)差，以此評定某一特定原始分?jǐn)?shù)在全體原始分?jǐn)?shù)排列中的位置。二、標(biāo)準(zhǔn)分?jǐn)?shù)

1、標(biāo)準(zhǔn)分?jǐn)?shù)的性質(zhì)

1、標(biāo)準(zhǔn)分?jǐn)?shù)的性質(zhì)（4）Z分?jǐn)?shù)是對原始分?jǐn)?shù)進(jìn)行的線性轉(zhuǎn)換，它不改變原始分?jǐn)?shù)的分佈情況，即Z分?jǐn)?shù)的分佈形態(tài)與原始分?jǐn)?shù)的分佈形態(tài)相似。也就是說，如果原始分?jǐn)?shù)呈正態(tài)分佈的話，標(biāo)準(zhǔn)分?jǐn)?shù)也呈正態(tài)分佈；如果原始分?jǐn)?shù)呈正偏態(tài)（負(fù)偏態(tài)）分佈的話，標(biāo)準(zhǔn)分?jǐn)?shù)也呈正偏態(tài)（負(fù)偏態(tài)）分佈。（5）Z分?jǐn)?shù)以標(biāo)準(zhǔn)差作為度量單位，具有零點。單位是等值的，零點是相對的。因此，Z分?jǐn)?shù)可以進(jìn)行順序排列、大小比較和加減運算。2、標(biāo)準(zhǔn)分?jǐn)?shù)的應(yīng)用標(biāo)準(zhǔn)分?jǐn)?shù)是一種位置量數(shù)，可以用來確定某一特定原始分?jǐn)?shù)在全體分?jǐn)?shù)中的相對位置。標(biāo)準(zhǔn)分?jǐn)?shù)是一種比較量數(shù)，可以用來比較兩種教育測量獲得的原始成績的高低。標(biāo)準(zhǔn)分?jǐn)?shù)是一種等距量數(shù)，可以用來評價不同學(xué)生多門課程考試總成績的高低。標(biāo)準(zhǔn)分?jǐn)?shù)可以用來求解百分等級分?jǐn)?shù)。三、標(biāo)準(zhǔn)分?jǐn)?shù)的轉(zhuǎn)換

三、標(biāo)準(zhǔn)分?jǐn)?shù)的轉(zhuǎn)換

04教育測量分?jǐn)?shù)的組合PartFour一、直覺判斷直覺判斷是研究者常用的一種分?jǐn)?shù)組合方法，其精確度與研究者的學(xué)術(shù)水準(zhǔn)、實踐經(jīng)驗、意識形態(tài)等因素直接相關(guān)。直覺判斷是指研究者憑藉直覺經(jīng)驗，從教育測量整體的角度出發(fā)，對各種因素進(jìn)行綜合考慮，主觀地將各種因素（或測量專案）進(jìn)行權(quán)重評定，從而作出研究結(jié)論或教育決策。直覺判斷的關(guān)鍵，是從整體上對各個因素進(jìn)行綜合考慮，既要研究各個因素之間的相互作用，又要思考各個因素在整個教育測量中的重要性。直覺判斷往往應(yīng)用到教育測量影響因素過多、測量分?jǐn)?shù)難以獲取、數(shù)量分析要求不高的測量專案中。直覺判斷這種分?jǐn)?shù)組合方法具有明顯的缺陷：一是對評價者綜合素質(zhì)要求非常高，測量結(jié)論容易受評價者主觀偏見、學(xué)術(shù)水準(zhǔn)、實踐經(jīng)驗等影響，客觀性、準(zhǔn)確性難以保障；二是直覺判斷大體可以歸入質(zhì)性判斷，沒有精確的數(shù)量指標(biāo)作支撐，缺乏系統(tǒng)、嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)分析。二、加權(quán)組合單位加權(quán)是將不同單位的分?jǐn)?shù)直接相加得出合成分?jǐn)?shù)。組合分?jǐn)?shù)計算公式：X=X1+X2+…+Xn

（6.16）式中，X是單位加權(quán)後的合成分?jǐn)?shù)；Xi(i=1，2，…，n)是不同單位的分?jǐn)?shù)。這種方法適用於各個分?jǐn)?shù)具有同等重要性的情況，即價值、作用、影響相同，權(quán)重相等。單位加權(quán)是將各個分?jǐn)?shù)的權(quán)重默認(rèn)為1。二、加權(quán)組合比重加權(quán)是將各個分?jǐn)?shù)分別乘以其在合成分?jǐn)?shù)中佔據(jù)的權(quán)重，然後累加求總和，得出合成分?jǐn)?shù)。組合分?jǐn)?shù)計算公式：X=X1ω1+X2ω2+…+Xnωn

（6.17）式中，Ｘ是比重加權(quán)後的合成分?jǐn)?shù)；Xi(i=1，2，…，n)是原始分?jǐn)?shù)；ωi(i=1，2，…，n)是各個原始分?jǐn)?shù)在合成分?jǐn)?shù)中佔據(jù)的權(quán)重。二、加權(quán)組合

三、線性回歸

三、線性回歸多重線性回歸的計算相當(dāng)複雜，通常由電腦來完成。也可以通過階梯式線性回歸方法，實現(xiàn)多重線性回歸。階梯式線性回歸方法的操作步驟大體包括：首先選出與效標(biāo)分?jǐn)?shù)相關(guān)程度最高的兩個預(yù)測源分?jǐn)?shù)，進(jìn)行分?jǐn)?shù)組合；其次選出第三個預(yù)測源分?jǐn)?shù)與前兩個預(yù)測源組合後的分?jǐn)?shù)進(jìn)行線性回歸組合，依次逐步進(jìn)行。一般情況下，對2~4個預(yù)測源分?jǐn)?shù)進(jìn)行線性回歸組合就可以達(dá)到最高的預(yù)測正確性了。三、線性回歸

三、線性回歸偏回歸係數(shù)的計算公式：三、線性回歸四、多重選擇多重選擇是對若干個不具有互償性的測量分?jǐn)?shù)進(jìn)行組合的常用方法。不具有互償性的測量分?jǐn)?shù)，是指一個測量分?jǐn)?shù)的大小，不能由另一個測量分?jǐn)?shù)來補償。多重選擇具有無序與有序兩種模式。無序模式是指不同測量分?jǐn)?shù)之間相互獨立，沒有充分或必要的邏輯關(guān)聯(lián)，測量分?jǐn)?shù)的選擇沒有先後之分。有序模式是指前邊測量分?jǐn)?shù)的選擇結(jié)果直接決定後邊測量分?jǐn)?shù)的選擇，即選擇Xi(i≥2)的前提條件是Xj[j=1，2，…，(i-1)]均被選擇。05SPSS在教育測量分?jǐn)?shù)統(tǒng)計處理中的應(yīng)用PartFive教育測驗的一般編制程式1教育測驗的專案編制技術(shù)2

教育測驗的編制程式與技術(shù)01教育測量的一般編制程式PartOne一、測驗?zāi)繕?biāo)的確立測驗?zāi)繕?biāo)是測驗編制者通過測驗所要實現(xiàn)的某種具體目的，它明確規(guī)定測驗所要達(dá)到的預(yù)期結(jié)果或標(biāo)準(zhǔn)。測驗?zāi)繕?biāo)的確立，就是要編制者明確所要測量的是什麼人，指向的心理特質(zhì)是什麼，測驗結(jié)果的功用是什麼。教育測驗是對教育效果或過程情況進(jìn)行測量的工具。因此，教育測驗?zāi)繕?biāo)首先應(yīng)該與教育目標(biāo)一致，並且要促進(jìn)教育目標(biāo)的達(dá)成。測驗?zāi)繕?biāo)的確立以目標(biāo)分類理論為指導(dǎo)，自20世紀(jì)以來，許多心理學(xué)家和教育學(xué)家都對教育領(lǐng)域中的目標(biāo)分類問題進(jìn)行了深入研究，提出了不同的主張或觀點，形成了各具特色的理論體系。其中，布盧姆（B.S.Bloom）等人的教育目標(biāo)分類理論、加涅（Gagne）的學(xué)習(xí)結(jié)果分類理論等產(chǎn)生了較大影響，是測驗編制者確立測驗?zāi)繕?biāo)的主要理論基礎(chǔ)。1、布盧姆等人的教育目標(biāo)分類理論布盧姆於1956年出版《教育目標(biāo)分類學(xué)》（第一分冊：認(rèn)知領(lǐng)域），提出認(rèn)知領(lǐng)域目標(biāo)分類的理論和方法；1964年，他與克拉斯沃爾（D.R.Krathwohl）等人撰寫出版了《教育目標(biāo)分類學(xué)》（第二分冊：情感領(lǐng)域），提出情感領(lǐng)域目標(biāo)分類的原則；1972年，哈羅（A.J.Harrow）和辛普森（E.J.Simpson）合作出版了《教育目標(biāo)分類學(xué)》（第三分冊：動作技能領(lǐng)域），提出動作技能領(lǐng)域目標(biāo)分類的原則。這樣就共同構(gòu)建了一個完整的教育目標(biāo)分類體系。（1）認(rèn)知領(lǐng)域布盧姆把認(rèn)知領(lǐng)域的教育目標(biāo)，從低級到高級分為知道（knowledge）、理解（comprehension）、應(yīng)用（application）、分析（analysis）、綜合（synthesis）、評價（evaluation）六個層次。這些層次具有遞進(jìn)關(guān)係，即較高層次目標(biāo)包含且基於較低層次目標(biāo)。（1）認(rèn)知領(lǐng)域知道是指認(rèn)識并記憶，這是最低層次的認(rèn)知目標(biāo)。這是對具體事物和普通原理的回憶，對方法和過程的回憶，或者對一種模式、結(jié)構(gòu)或框架的回憶。理解是指一種低層次的領(lǐng)會或領(lǐng)悟，是較低水平處理各種材料和問題的理智操作方式，或把握知識材料意義和趨勢的能力。領(lǐng)會超越了單純的記憶，即便它可能是初步的或是膚淺的。應(yīng)用是指在某些特定或具體的情境里，正確地使用抽象概念、法則、原理等。這是初步的直接應(yīng)用，而不是通過分析全面地、綜合地運用。分析是指把材料分解成各種組成要素或組成部分，以便弄清各種要素或部分的相互關(guān)系或組成原理，從而使概念更加明確，使材料的系統(tǒng)、組織、結(jié)構(gòu)更為清晰。綜合是指以分析為基礎(chǔ)，全面加工各種要素或組成部分，把它們重新組合成新的整體，從而創(chuàng)造性地解決問題。它涉及具有特色的表達(dá)、制定計劃或操作步驟、推導(dǎo)出一套抽象關(guān)系等活動，強調(diào)獨特性與首創(chuàng)性，是高層次的目標(biāo)要求。評價是認(rèn)知領(lǐng)域里教育目標(biāo)的最高層次。它針對特定目的對材料和方法的價值及符合準(zhǔn)則的程度作出定量或定性的判斷。它要求理性地、深刻地對事物本質(zhì)的價值作出有說服力的判斷，并綜合內(nèi)在與外在的資料、信息，作出符合客觀事實的推斷。（1）認(rèn)知領(lǐng)域我國在布盧姆認(rèn)知領(lǐng)域教育目標(biāo)分類法的基礎(chǔ)上，經(jīng)過本土化的理論研究和實踐探索，形成了我國認(rèn)知目標(biāo)的分類，常見為五分法（知識、理解、應(yīng)用、分析與綜合、創(chuàng)造）和四分法（識記、理解、簡單運用、綜合運用）。（2）情感領(lǐng)域接受指人感受到某些現(xiàn)象或刺激的存在，并愿意接受或注意它。接受是最低級的價值內(nèi)化水平，包括覺察、愿意接受和有控制或有選擇地注意三個方面的內(nèi)容。反應(yīng)指人不僅注意某種現(xiàn)象或刺激，而且以某種方式對它作出反應(yīng)，這是一種較低程度的積極注意，包括默認(rèn)的反應(yīng)、愿意的反應(yīng)和滿意的反應(yīng)。價值化指人將特殊的對象、現(xiàn)象或行為與一定的價值標(biāo)準(zhǔn)相聯(lián)系，進(jìn)而愛好相應(yīng)的有價值的事物，包括價值的接受和對某一價值的偏好、信奉。組織指人將許多不同的價值標(biāo)準(zhǔn)整理歸類，克服它們之間的矛盾、沖突，并開始建立內(nèi)在一致的價值體系，包括價值的概念化和價值體系的組織兩個方面。品格形成指外在價值內(nèi)化于人的性格之中，構(gòu)成人的世界觀、人生觀等價值體系，從而長時期控制人的行為。這是情感領(lǐng)域教育目標(biāo)的最高層次，包括泛化心向和性格化兩方面的內(nèi)容。（3）動作技能領(lǐng)域布盧姆本人並沒有編寫出動作技能領(lǐng)域的目標(biāo)分類，目前出現(xiàn)的幾種分類方法中，尚無公認(rèn)的最好分類。其中，辛普森把動作技能領(lǐng)域的教育目標(biāo)分為知覺、定向、指導(dǎo)下的反應(yīng)、機制、複雜的外顯行為、適應(yīng)、創(chuàng)新七個層次。知覺指通過感覺器官覺察客體或關(guān)系的過程，它是動作活動的必要非充分條件，是動作的“情景—解釋—動作”連鎖中基本的一環(huán)，具體包括感覺刺激、線索選擇和轉(zhuǎn)化三個不同水平。定向指為某種穩(wěn)定的行動或經(jīng)驗而作出的預(yù)備性調(diào)整或準(zhǔn)備狀態(tài)，包括心理定向、生理定向和情緒定向三個方面。指導(dǎo)下的反應(yīng)指在復(fù)雜動作技能形成的早期階段，通過教師指導(dǎo)或根據(jù)自我評價表現(xiàn)出來的外顯行動，包括模仿和試錯兩個方面。機制指已成為習(xí)慣的習(xí)得性反應(yīng)，是以某種熟練和自信的水平從事某種行動。這一反應(yīng)比前一層次的反應(yīng)更復(fù)雜，對刺激和情境更具有適當(dāng)性。復(fù)雜的外顯行為是指有了所需要的動作模式，能夠從事相當(dāng)復(fù)雜的動作行動。在這一層次上，技能已被掌握，能進(jìn)行得穩(wěn)定而有效。它包括消除不確定性和自動化的操作兩個方面。適應(yīng)指改變動作活動以符合新的問題情境，這是技能的高度發(fā)展水平，能體現(xiàn)新的具體情境的要求。創(chuàng)新指根據(jù)在動作技能領(lǐng)域中形成的理解力、能力和技能，創(chuàng)造新的動作行動或操作方式。2、加涅的學(xué)習(xí)結(jié)果分類理論加涅吸收了資訊加工心理學(xué)和建構(gòu)主義認(rèn)知心理學(xué)的思想，形成了有理論也有技術(shù)操作支持的學(xué)習(xí)理論。他把學(xué)習(xí)區(qū)分為不同層次，以代表不同種類的認(rèn)知能力，同時提出了五種學(xué)習(xí)結(jié)果，分別為言語資訊（verbalinformation）、智力技能（intellectualskills）、認(rèn)知策略（cognitivestrategies）、動作技能（motorskills）和態(tài)度（attitude）。言語信息是指陳述事實或觀點的能力，這是進(jìn)一步學(xué)習(xí)的先決條件，是培養(yǎng)智慧技能的基礎(chǔ)。智力技能是指學(xué)會使用符號與外界環(huán)境相互作用的能力。智慧技能是人類習(xí)得性能力中最重要的一種，它可以分為由簡單到復(fù)雜四個層次：辨別、概念、規(guī)則、高級規(guī)則。認(rèn)知策略是指用來控制注意、學(xué)習(xí)、記憶與思考方式等內(nèi)部過程的技能。它通過影響學(xué)習(xí)的內(nèi)部加工方式來對學(xué)習(xí)者的活動作出調(diào)節(jié)，在某種程度上也是一種特殊的調(diào)控認(rèn)知過程的智慧技能。動作技能是指學(xué)習(xí)由許多有組織的肌肉運動所形成的綜合活動的能力。它不是指個別的動作，而是強調(diào)動作的完整性和統(tǒng)一性，其行為結(jié)果表現(xiàn)為身體動作的敏捷、準(zhǔn)確、協(xié)調(diào)和連貫。態(tài)度是指一種能夠影響人對某一類事、物或人作出個人選擇的內(nèi)部狀態(tài)。人的行動是受態(tài)度影響的，但態(tài)度又是人的動作結(jié)果。二、測驗設(shè)計1、測驗內(nèi)容的設(shè)計測驗內(nèi)容的選擇，實際上是對與測驗?zāi)繕?biāo)相關(guān)的教育內(nèi)容進(jìn)行抽樣並賦予權(quán)重的過程。為保證這一過程的科學(xué)性，測驗編制者應(yīng)該充分考慮：測驗內(nèi)容應(yīng)該覆蓋哪部分教育內(nèi)容；各部分教育內(nèi)容之間是怎樣的關(guān)係，應(yīng)占內(nèi)容總量的多大比例；每一部分教育內(nèi)容應(yīng)該達(dá)成何種預(yù)期。測驗編制者要厘清上述問題的思路，命題雙向細(xì)目表是行之有效的工具之一。命題雙向細(xì)目表是一個由測驗的內(nèi)容維度和目標(biāo)水準(zhǔn)構(gòu)成的表格，它能夠幫助測驗編制者決定應(yīng)該選擇哪些方面的內(nèi)容、各部分內(nèi)容應(yīng)實現(xiàn)的目標(biāo)水準(zhǔn)和所占的比例。一般來說，表的縱向列出的是測量內(nèi)容維度，橫向列出的是測量目標(biāo)所要求的表現(xiàn)水準(zhǔn)，縱橫交匯處即是該內(nèi)容維度在某一目標(biāo)層次上的測量權(quán)重。以上三者，也構(gòu)成了命題雙向細(xì)目表的基本要素。一份設(shè)計科學(xué)的雙向細(xì)目表，每一項內(nèi)容維度的權(quán)重合計與該內(nèi)容維度和測量目標(biāo)的關(guān)聯(lián)性應(yīng)該成正比。也就是說，權(quán)重大的內(nèi)容維度，其對實現(xiàn)測量目標(biāo)的重要性就越大；同樣地，每一個目標(biāo)水準(zhǔn)的權(quán)重合計也應(yīng)該體現(xiàn)這種一致性。2、測驗形式的設(shè)計命題雙向細(xì)目表為測驗編制提供了依據(jù)，在此基礎(chǔ)上，測驗編制者需要對測驗的方式、專案類型、時限和題量等要素進(jìn)行設(shè)計。設(shè)計時遵循以下幾條原則：使用測驗對象容易明瞭的測驗方式；測驗對象在完成測驗時不會因測驗專案的類型不當(dāng)而提供不真實資訊；測驗過程易於操作，省時省力且經(jīng)濟(jì)；測驗結(jié)果易於統(tǒng)計分析。（1）測驗方式的確定一份測驗以何種方式呈現(xiàn)給測驗對象，是測驗編制者在這一環(huán)節(jié)首先應(yīng)該考慮的問題。測驗按照組織方式，可以分為個體測驗和團(tuán)體測驗；按照呈現(xiàn)方式，可以分為紙筆測驗、口頭測驗、操作測驗等。測驗方式的確定一般取決於測驗對象的年齡、行為能力等特點或特殊需要。例如，對閱讀能力較低的人（幼兒、盲人、文化水準(zhǔn)較低者等）不宜採用紙筆測驗；對有語言障礙的人（如聾啞人）不宜採用口頭測驗等。目前，教育測量中使用最為廣泛的仍然是紙筆測驗。此外，測驗方式的確定還應(yīng)當(dāng)結(jié)合各種實際因素加以考慮。例如，當(dāng)測驗對象眾多且時間和經(jīng)費有限時，宜採用團(tuán)體紙筆測驗；當(dāng)人數(shù)少，時間充裕，又具備相應(yīng)實驗儀器和設(shè)備條件時，則可採用操作測驗。（2）專案類型的確定專案是組成測驗的每一個具體題目。專案類型通常分為主觀題和客觀題（也可分為開放式和封閉式）。主客觀題的劃分依據(jù)是在評分時是否受評分者主觀因素的影響，二者皆是具有某種共同特徵的題目類型的總稱。具體說來，主觀題包括論述題、證明題、作文題、操作題等，客觀題包括選擇題、是非題、匹配題、排列題、填空題、簡答題等。主觀題答案開放，易於全面、真實地收集測驗對象的思維過程等資訊，可以用來測量較高層次的教育目標(biāo)，可能會得到測驗編制者意料之外的資訊和材料。但是由於主觀題答案不明確，回答耗時相對較長，在測驗時限內(nèi)能夠達(dá)到的對測驗內(nèi)容的覆蓋率較小，因而無法保證內(nèi)容效度；同時，主觀題評分困難，易受無關(guān)因素的影響。客觀題答案明確，回答簡便，因而在測驗時限內(nèi)能夠達(dá)到更高的對測驗內(nèi)容的覆蓋率；同時，客觀題有明確的標(biāo)準(zhǔn)答案，評分簡單可靠，易於使用現(xiàn)代化、資訊化的統(tǒng)計手段。但是，編制較高目標(biāo)層次或綜合性較強的客觀題的難度更大，花費時間更長，且難以排除測驗對象的推斷猜測。（3）測驗區(qū)分度的確定測驗區(qū)分度是指各個專案的區(qū)分度集合，這一要素的確定應(yīng)該依據(jù)測驗?zāi)繕?biāo)而設(shè)計。比如，如果是能力測驗或?qū)W業(yè)成就測驗，就應(yīng)當(dāng)包括各種不同難度的測驗專案，以鑒別各種不同能力或不同知識水準(zhǔn)的對象；如果是人格測驗，就應(yīng)當(dāng)使得各個專案在不同方向的備選答案上都有一定人數(shù)分佈，以鑒別具有不同人格特徵的對象；如果測驗具備選拔功能，區(qū)分度應(yīng)該相對較高；如果測驗具備診斷性功能，區(qū)分度應(yīng)該相對偏低（4）測驗容量與時間的確定測驗容量和時間是一對相互影響、相互制約的要素，需要測驗編制者統(tǒng)籌考慮。理論上講，測驗時間越長，測驗容量越大，測驗內(nèi)容的覆蓋面就能夠儘量廣，內(nèi)容效度就能得到盡可能的保證。然而，受測驗類型、測驗方式、測驗編制和實施成本等因素的影響，測驗時間和容量通常有一定的限制。例如，純粹速度測驗的時間應(yīng)該嚴(yán)格限制，使作答最快的被試者也不能在規(guī)定時間內(nèi)完成所有題目；難度測驗理論上不該有時間限制，而實際應(yīng)用中通常以能夠發(fā)揮被試者水準(zhǔn)而不致出現(xiàn)作答疲勞為原則規(guī)定時限；常模參照測驗應(yīng)保證規(guī)定時間內(nèi)75％以上的測驗對象能完成所有題目，標(biāo)準(zhǔn)參照測驗應(yīng)保證90％以上的測驗對象完成所有題目等。一般情況下，測驗編制者可用嘗試法，根據(jù)經(jīng)驗合理估計並確定測驗容量和時間。三、專案編制與編排項目編制項目編制是對測驗的微觀設(shè)計，即對構(gòu)成測驗的每一個題目的設(shè)計。項目編制是對命題雙向細(xì)目表的具體落實，它將把每一個維度的內(nèi)容材料，按照不同測驗?zāi)繕?biāo)水平的要求，用不同的項目類型呈現(xiàn)出來。測驗編制者在編制項目之前，應(yīng)該充分收集相關(guān)的測驗資料，資料盡可能齊全豐富，具有普遍性、趣味性，能夠為項目的科學(xué)編制建立基礎(chǔ)。項目編制應(yīng)該是一個群策群力、反復(fù)論證的過程。在這個過程中，測驗編制者要遵循一定的原則，使用科學(xué)的技術(shù)對測驗項目進(jìn)行編寫和反復(fù)修改，直至項目完全符合測驗要求。項目編制用語必須正確明了，無歧義；初編項目的數(shù)量要多于實際所需，便于篩選或編制復(fù)本。項目編排項目編制完成以后，就需要根據(jù)測驗的目標(biāo)和性質(zhì)，以及測驗對象的特點，尤其是作答時的心理反應(yīng)，對項目加以合理編排，形成一份科學(xué)的測驗。項目編排的基本原則包括：按照項目類型，同屬一類的項目集中編排；按照項目內(nèi)容，從易到難排列（這里對題目難度的判斷，主要依據(jù)試題編制者的主觀經(jīng)驗），或從一般到特殊，從具體到抽象；按照項目形式，把反應(yīng)方式相似的集中編排；按照重要性，重要的項目盡可能靠前編排；按照敏感性和開放性，將此類項目盡可能靠后編排，避免測驗對象的反感和畏難情緒。在實際應(yīng)用中，有時為了避免測驗對象形成反應(yīng)傾向或反應(yīng)定式，在項目編排時也會出現(xiàn)在一定程度上打亂順序或者混合螺旋式編排項目的情況。四、測驗的技術(shù)分析與鑒定預(yù)測預(yù)測的目的在於獲得測驗對象在各個測驗專案上形成的回饋資訊。它既能提供哪些專案表述不清、不易理解或容易誤解等質(zhì)的資訊，又能提供測驗專案優(yōu)劣等量的指標(biāo)。專案分析測驗專案分析就是依據(jù)預(yù)測所得的數(shù)據(jù)資料，運用科學(xué)統(tǒng)計技術(shù)，對測驗專案的難度、區(qū)分度以及測驗的信度、效度等所作的客觀分析。依據(jù)專案分析的結(jié)果，測驗編制者對達(dá)不到測驗要求的專案進(jìn)行修訂或者淘汰，對測驗專案的呈現(xiàn)形式和順序、測驗容量和時限等要素進(jìn)行調(diào)整，以提高測驗的科學(xué)性和適應(yīng)性。技術(shù)分析與鑒定是測驗標(biāo)準(zhǔn)化中一個必不可少的程式。四、測驗的技術(shù)分析與鑒定在預(yù)測過程中，應(yīng)注意以下問題：預(yù)測對象應(yīng)取自將來正式被試者總體中的一個代表性樣本，樣本量不宜過大，也不宜過??；為減小取樣誤差，可以選擇總體中的兩個樣本同時進(jìn)行施測，分別進(jìn)行測驗項目分析，比較結(jié)果的一致性。預(yù)測的實施程序與情境應(yīng)力求與正式測驗近似。預(yù)測的時限可以適當(dāng)延長，以便每一個被試者都能完成測驗，從而收集更全面的信息。預(yù)測過程中，被試者的反應(yīng)情況須全面及時記錄，如被試者完成測驗的最短時間、最長時間和一般時間，被試者參與測驗的情緒或態(tài)度，被試者的疑問等。五、測驗的標(biāo)準(zhǔn)化標(biāo)準(zhǔn)化測驗，也稱標(biāo)準(zhǔn)化考試，於20世紀(jì)40年代首先出現(xiàn)於美國，現(xiàn)已在國際上廣泛流行。20世紀(jì)80年代，廣東省開始進(jìn)行標(biāo)準(zhǔn)化考試的試驗，並對以高考為核心的考試各環(huán)節(jié)進(jìn)行標(biāo)準(zhǔn)化管理。整體而言，標(biāo)準(zhǔn)化測驗通常具有權(quán)威性、穩(wěn)定性、社會性、廣泛性、科學(xué)性、建有常模和系統(tǒng)性等特徵。1、測驗內(nèi)容的標(biāo)準(zhǔn)化標(biāo)準(zhǔn)化的首要前提是對所有被試者施測相同或等值的題目，若測驗內(nèi)容不同，所測得的結(jié)果就無法進(jìn)行比較。測驗等值應(yīng)具備六個條件。同質(zhì)性被等值的不同測驗形式所測的必須是同一范疇的知識或能力。等信度被等值的不同測驗形式必須具有相等的測驗信度。公平性如果兩個測驗是等值的，則被試者參加其中任何一個測驗，等值后的結(jié)果應(yīng)該是一樣的?？蛇f推性如果測驗Ｘ與測驗Ｙ等值，測驗Ｙ與測驗Ｚ也等值，那么測驗Ｘ與測驗Ｚ一定存在等值關(guān)系。對稱性測驗間的等值轉(zhuǎn)換關(guān)系是雙向的，可以將測驗Ｘ上的分?jǐn)?shù)轉(zhuǎn)換為測驗Ｙ上的分?jǐn)?shù)，反之亦然。樣本不變性Ｘ與Ｙ測驗之間的等值關(guān)系不隨被試者樣本和施測情境的變化而變化，它完全由本身的內(nèi)在一致性所決定。2、施測過程的標(biāo)準(zhǔn)化標(biāo)準(zhǔn)化的第二個條件是所有被試者必須在相同的條件下受測。相同的測驗情境相同的指導(dǎo)語指導(dǎo)語一般包括兩部分，一是向被試者說明測驗?zāi)康?，解除其顧慮；二是向被試者說明如何對測驗項目作出反應(yīng)。指導(dǎo)語必須事先擬好，印在測驗項目的前面，力求簡潔明了，不致引起誤解。如果被試者對測驗不熟悉，應(yīng)當(dāng)提供1-2個例題。相同的測驗時限測驗的時間限制是測驗程序中的重要方面，不過，不同的測驗對時限要求也不相同。一般來說，人格測驗對時限的要求不太嚴(yán)格，甚至不要求時間限制，但能力測驗和學(xué)業(yè)成就測驗必須考慮時限問題。3、測驗評分的標(biāo)準(zhǔn)化評分或計分是導(dǎo)致測驗結(jié)果誤差的一個極其重要的因素，因此，評分的客觀性是標(biāo)準(zhǔn)化測驗的第三個條件。評分的客觀性意味著兩個或兩個以上的評分者對同一份測驗的評定是一致的，只有當(dāng)評分客觀時，才能將分?jǐn)?shù)的差異歸於被試者本身的差異。但要做到完全客觀（一致）地評分是困難的，一般來說，不同評分者之間的一致性達(dá)到90％以上，便可認(rèn)為評分客觀。3、測驗評分的標(biāo)準(zhǔn)化客觀性評分要求如下：對反應(yīng)要及時清楚地記錄，以免由于記憶模糊造成混亂，尤其是在口頭測驗和操作測驗中更是如此。要有一張標(biāo)準(zhǔn)答案或正確反應(yīng)的表格，即記分鍵。選擇題測驗的記分鍵包括每一測驗項目正確反應(yīng)的號碼或字母；問答題的記分鍵包括一系列的正確答案和容許變化的范圍；論文題的記分鍵包括一致可接受答案的要點；人格測驗沒有正確答案，記分鍵上指明的是具有或缺少某種人格特征者的典型反應(yīng)。將被試者的反應(yīng)與記分鍵比較，確定反應(yīng)的應(yīng)得分?jǐn)?shù)。4、測驗分?jǐn)?shù)解釋的標(biāo)準(zhǔn)化一個標(biāo)準(zhǔn)化的測驗，不僅指測驗內(nèi)容、施測過程和評分程式的標(biāo)準(zhǔn)化，還包括對測驗結(jié)果解釋的標(biāo)準(zhǔn)化。如果對同一測驗結(jié)果可作出不同的解釋，那麼測驗便失去了客觀性。某一測驗分?jǐn)?shù)只有與一定的參照標(biāo)準(zhǔn)相比較，才能顯現(xiàn)出它所代表的意義。在教育測驗中，建立參照標(biāo)準(zhǔn)的過程通常是建立常模的過程。常模是指被試者在測驗所測內(nèi)容上的普遍水準(zhǔn)或總體分佈狀況。對某一測驗結(jié)果的解釋要與這一被試者所屬團(tuán)體的常模作比較，才能說明這一測驗結(jié)果所代表的意義。02教育測驗的專案編制技術(shù)PartTwo一、專案編制的基本原則項目的表達(dá)（無論是口頭還是書面）要意義完整、簡潔通順，并能表達(dá)一個明確的問題，避免產(chǎn)生歧義或晦澀難懂；文字、圖標(biāo)和符號等的使用應(yīng)正確規(guī)范。項目的表述應(yīng)使用恰當(dāng)?shù)恼Z言結(jié)構(gòu)，避免句型或句式復(fù)雜給被試者造成無關(guān)測驗?zāi)繕?biāo)的閱讀障礙，影響測驗效度。項目內(nèi)容和難度應(yīng)能從命題雙向細(xì)目表中找到依據(jù)，應(yīng)能反映測驗內(nèi)容的重點，而不是瑣碎或無意義的內(nèi)容。項目的內(nèi)容要正確、無異議，不宜涉及低俗、消極或與被試者的發(fā)展水平不相適應(yīng)的材料。項目編制盡量選用新材料，以免被試者憑機械記憶作答。項目的正確答案應(yīng)是沒有爭議的，答案的復(fù)雜程度應(yīng)與被試者的發(fā)展水平相符。各個項目之間必須彼此獨立，不出現(xiàn)相同或近似的題目，不要有相互暗示或相互啟發(fā)的現(xiàn)象。二、客觀題的編制客觀題主要包括選擇題、匹配題、是非題、排列題等，而填空題、簡答題等限制性題型，由於其評分也相對客觀，因此也歸類於客觀題之中。1、選擇題選擇題要求被試者根據(jù)題意在所提供的幾個選項中選出符合要求的答案。根據(jù)正確或最佳答案的數(shù)量，又分為單項選擇題、多項選擇題和不定項選擇題。就其結(jié)構(gòu)而言，選擇題包括題幹和選項兩部分。題幹是題目的主幹，可用疑問句、陳述句或片語來表示；選項是備選答案，可用短句、片語或詞表示。備選答案中，除正確答案之外，其他是錯誤答案，又稱干擾答案或迷惑答案。選擇題適用於各種性質(zhì)和各種目標(biāo)層次的測驗，測驗內(nèi)容的覆蓋率較大，被試者作答方便，測試結(jié)果便於統(tǒng)計，但選擇題不易收集被試者的思維過程資訊，單項選擇題作答受推斷猜測的影響較大，多項選擇題猜測機會相對較少，然而編制難度相對較大。1、選擇題題干應(yīng)避免濫用否定結(jié)構(gòu)，尤其是雙重否定。如果與選項直接相關(guān)的題干內(nèi)容是否定結(jié)構(gòu)，可能給被試者造成無關(guān)的閱讀障礙，影響測驗效度。如需使用否定詞，可用著重號加以提示，避免被被試者忽略。題干或選項不能對正確答案有任何暗示。選項中不要泛用“以上皆錯”或“以上皆對”，否則容易掩飾被試者的真實水平。特別是“以上皆錯”作為最佳式多選題中的一個選項，可能引起較大爭議。選項之間應(yīng)該相互獨立，避免實質(zhì)意義相同或相互包含、相互重疊的現(xiàn)象。所有錯誤選項應(yīng)該是似是而非的，具有一定的迷惑性。選項個數(shù)越多，猜測正確的可能性就越小，但編制難度就越大。因此，一個項目通常設(shè)置4-5個選項。為計分方便，同一個測驗中，選擇題的選項個數(shù)最好一致。正確答案必須是一個唯一的選項或者選擇組合，無任何爭議。選擇題應(yīng)避免正確答案的位置呈現(xiàn)某種規(guī)律，以防增加被試者猜測機會。2、匹配題從某種程度上說，匹配題也是一種特殊的選擇題或選擇題的變式，它要求被試者從供選答案中為每一個問題選擇一個最匹配的答案。就其結(jié)構(gòu)而言，匹配題應(yīng)該包括一組題幹、一組或一組以上的備選答案。每個備選答案可以選用一次，也可以選用多次或者一次也不選用。備選答案數(shù)目與題幹?jǐn)?shù)目相等，稱為完全匹配；備選答案數(shù)目比題幹?jǐn)?shù)目多或少，稱為不完全匹配。匹配題的編制比較容易，被試者作答也較為簡單，測驗的效率較高，測驗內(nèi)容的覆蓋率較大，但這類題目僅適合於測量較低層次的教育目標(biāo)，且作答無法避免受推斷猜測的影響。2、匹配題同一組題干必須具有同質(zhì)性，同一組的備選答案也必須具有同質(zhì)性，避免增加被試者先分類再猜測的機會，影響測驗效度。題干和選項的數(shù)目要適當(dāng)。匹配的題干或選項不宜過多，否則被試者難以尋找正確答案。不完全匹配優(yōu)于完全匹配，因為后者在各項匹配關(guān)系明確以后，最后一個題干和選項也就自然匹配，選項形同虛設(shè)。作答要求應(yīng)在題目的指導(dǎo)語中明確出來，比如匹配依據(jù)、同一選項能否多次被選或不被選等，避免被試者不能領(lǐng)會題目意圖。題目的形式與結(jié)構(gòu)應(yīng)該簡潔明了，題干和選項應(yīng)排布整齊，各選項盡量按邏輯或時間順序排列。同一個題目中的題干和選項應(yīng)避免跨頁排版。3、是非題是非題是指要求被試者對一個陳述句或疑問句作出是或非（對或錯、肯定或否定）判定的題目類型，又稱正誤題。無論何種形式的是非題，被試者只能作出是或非兩種反應(yīng)。有時候，也可以在是非判斷之後，要求被試者將錯處改正。是非題的編制相對容易，被試者作答也較為簡單，測驗的效率較高，應(yīng)用的範(fàn)圍也比較廣泛。但這類題目只能用於測量較低層次的教育目標(biāo)，且作答受隨機猜測的影響較大。3、是非題是非題要求對具有明確是非界限的內(nèi)容進(jìn)行判斷，正確判定應(yīng)該是確信無疑的。每一項目只能包括一個重要概念或問題，針對性明確，不在細(xì)枝末節(jié)上設(shè)置障礙，避免實質(zhì)上似是而非、半對半錯的情況。慎重使用暗示性的特殊限定詞語，避免增加被試者的猜測機會。例如，當(dāng)題意正確時，應(yīng)慎重使用“一般說來”、“有時”、“有些”、“可能”、“大多數(shù)”這類特殊限定詞語；當(dāng)題意錯誤時，應(yīng)慎重使用“每個”、“所有”、“總是”、“任何”、“決不”這類特殊限定詞語。項目的表述應(yīng)慎用否定，尤其是雙重否定，避免給被試者造成無關(guān)的閱讀障礙，影響測驗效度。如需使用否定詞，可用著重號加以提示，避免被試者忽略。4、填空題填空題是指要求被試者將一個陳述句裏面的空缺處補充完整的題目類型，也稱填充題?？杖笨梢允且惶?，也可以是幾處。填空題的編制比較容易，應(yīng)用的範(fàn)圍也比較廣泛，且作答受推斷猜測的影響較小。但這類題目只能用於測量較低層次的教育目標(biāo)，無法獲取被試者的思維過程資訊。4、填空題題目留空要恰當(dāng)，空缺處應(yīng)當(dāng)是重要或關(guān)鍵的內(nèi)容，且與上下文有密切聯(lián)系，而非無關(guān)緊要的東西。每個空缺處應(yīng)當(dāng)有明確且唯一的正確答案。空缺處答案如果是數(shù)字，應(yīng)指明單位和數(shù)字的精確程度。一個題目的空缺處不能太多，以免使句子變得支離破碎，不易于理解題意。避免對答案形式或內(nèi)容的暗示?？杖碧幱镁€段表示，應(yīng)該保持長度一致，以免對答案的長短形成暗示；空缺處的答案或內(nèi)涵關(guān)聯(lián)性較強的字詞等不宜在題目中出現(xiàn)，以免對答案的內(nèi)容形成暗示。5、簡答題簡答題是指簡單問答題，它要求被試者用簡短的字詞或句子對問題進(jìn)行回答。從某種程度上說，簡答題也是填空題的一種變式。簡答題的編制比較容易，且作答受推斷猜測的影響較小。這類題目更適用於基本概念、原理或程式的認(rèn)知水準(zhǔn)測量，作答有一定的自由性，評分不能完全客觀，在一定程度上受主觀因素影響，且耗費的時間稍長。5、簡答題題意要明確，問題要具體。題目本身要對答案范圍有明確限定，避免被試者產(chǎn)生多種理解或有多種答案。要使被試者能夠用簡短的句子進(jìn)行回答，且答案數(shù)量或條目不宜過多。應(yīng)把問題與實際情景結(jié)合起來，強調(diào)知識的實際應(yīng)用，避免單純的記憶再現(xiàn)。三、主觀題的編制主觀題主要包括論述題、作文題、證明題、操作題等，被試者可以自由應(yīng)答，評分也相對主觀。1、論文題論文題是論述題與作文題的統(tǒng)稱，這類題目通常要求被試者用自己的話寫成較長的答案來回答問題、陳述觀點或思想。論文題可以用來測量較高層次的教育目標(biāo)，且作答有較大的自由性，受推斷猜測的影響很小。但論文題對測驗內(nèi)容的覆蓋率較小，作答和評閱耗費的時間較長，缺乏標(biāo)準(zhǔn)答案，評分比較主觀。因此，要編制一個既有內(nèi)容效度，又使評分誤差較小的論文題，也不是那麼容易的事情。通常在標(biāo)準(zhǔn)化測驗裏，論文題是不宜採用的。1、論文題題目要盡量與所測量的高層次教育目標(biāo)有關(guān)，充分發(fā)揮論文題的優(yōu)勢。要明確題意，避免題目籠統(tǒng)、空洞，可以將一個大題目轉(zhuǎn)化成幾個小題目；明確被試者的作答任務(wù)和條件，避免對作答無要求、無限制，作答范圍太寬太廣。通常情況下，不應(yīng)允許學(xué)生隨意選擇題目作答，避免評分失去可比性。2、操作題操作題介於紙筆測驗和未來真實情境的實際活動之間，具有真實情境的模擬性。按測驗情境的真實性程度可將操作測驗分為四種。紙筆操作測驗利用紙筆測驗?zāi)M真實情境來測量被試者對知識和技能的應(yīng)用。辨認(rèn)測驗包括各種不同真實性程度的測驗情境。有時只要求被試者簡單地辨認(rèn)某具體事物，有時要求被試者辨認(rèn)完成某件任務(wù)的工具或程序，有時則要求辨認(rèn)事物的問題或故障之所在并提出解決方法。這類測驗是實際操作技能的直接測量。模擬操作測驗要求被試者在模擬情境下完成和真實活動相同的動作，其特點是強調(diào)程序的正確性。工作樣本操作測驗要求被試者在標(biāo)準(zhǔn)的真實情境中實際操作。這類測驗真實性程度最高，包含了真實作業(yè)的全部要素，但需在有控制的條件下完成。2、操作題明確測量目標(biāo)，將測驗內(nèi)容操作化，即對整個操作進(jìn)行工作分析，找出具有代表性的工作樣本，并為每一操作建立一個評分標(biāo)準(zhǔn)，包括對操作速度、精確性、步驟的正確性等設(shè)定最低標(biāo)準(zhǔn)。選擇合適的真實性程度。依據(jù)測驗?zāi)繕?biāo)的要求、客觀條件的限制、操作行為本身的性質(zhì)等，確定題目的情境真實性程度。編寫簡潔明確的指導(dǎo)語，使被試者知道操作的資源、條件和要求，以及評價的標(biāo)準(zhǔn)是什么。確定計分的方法。通常有兩種評定法。一是作品量表法。用一系列質(zhì)量層次不同的作品作為樣本，將被試作品與預(yù)設(shè)的各層次樣本作比較而評定。二是檢核表和評定量表。如果操作活動可以分為許多技能或幾個步驟，則采用檢核表，可以考查被試者是否每一個步驟都做到了；評定量表則可以進(jìn)一步評定被試者的每一個步驟的操作符合理想特征的程度。難度分析1區(qū)分度分析2專案分析的特殊問題3

教育測驗的專案分析SPSS在教育測驗專案分析中的應(yīng)用401難度分析PartOne一、專案難度及其估算方法顧名思義，專案難度（itemdifficulty）是指測驗專案的難易程度，它是專案對於被試者知識和能力水準(zhǔn)的適合程度的指標(biāo)。一般用難度係數(shù)（也稱為難度值，即P值）來定量刻畫被試者回答一個專案所遇到的困難程度的量數(shù)。專案難度的定義通常有兩種方法。一種是以全體被試者在某一專案上的通過率為難度係數(shù)，此時Ｐ值表徵為容易度。專案通過率越大，專案越容易，P值越高。另一種是以全體被試者在某一專案上的失分率為難度係數(shù)，此時P值表徵為困難度。P值越大專案越困難，P值越小試題越容易。由此可見，難度係數(shù)有不同的定義方法，因此在報告專案難度時應(yīng)指明是哪種難度係數(shù)，否則容易造成認(rèn)識上的混亂。專案難度的估算方法因?qū)０阜謹(jǐn)?shù)的性質(zhì)不同以及被試者規(guī)模的大小不同而有所差異。（一）專案分?jǐn)?shù)為二分變數(shù)的難度計算方法

（一）專案分?jǐn)?shù)為二分變數(shù)的難度計算方法

（二）專案分?jǐn)?shù)為連續(xù)變數(shù)的難度計算方法

（三）大規(guī)模被試團(tuán)體受測專案難度的計算方法不管是分?jǐn)?shù)為二分變數(shù)的專案，還是分?jǐn)?shù)為連續(xù)變數(shù)的專案，當(dāng)被試團(tuán)體人數(shù)眾多時，用基本公式計算專案難度則比較煩瑣，此時可以採用極端分組法計算難度。以下分別介紹運用極端分組法計算客觀性試題（專案分?jǐn)?shù)為二分變數(shù)）和主觀性試題（專案分?jǐn)?shù)為連續(xù)變數(shù)）難度的方法。1、用極端分組法計算客觀性試題的難度按測驗總分的高低，從高到低進(jìn)行排序從最高分開始依次向下選出全部試卷的27％作為高分組從最低分開始依次向上選出全部試卷的27％作為低分組按公式計算難度

1、用極端分組法計算客觀性試題的難度以上是用極端分組法計算客觀性試題的難度的基本步驟和方法。需要指出的是，27％作為劃分高分組、低分組的臨界值並非是恒定的。一般而言，在確定高分組和低分組時，如果測驗總分的分佈符合正態(tài)分佈，則劃分高分組和低分組的最佳臨界值為27％；如果測驗總分的分佈較平坦，高、低分組可各占總測驗人數(shù)的33％。此外，各類標(biāo)準(zhǔn)化測驗通常取27％作為劃分高、低分組的臨界值，而一般測驗在25％~33％均可。2、用極端分組法計算主觀性試題的難度按測驗總分的高低，從高到低進(jìn)行排序從最高分開始依次向下選出全部試卷的25％作為高分組從最低分開始依次向上選出全部試卷的25％作為低分組按公式計算難度

二、專案難度的等距轉(zhuǎn)換由專案難度的估算方法可以看出，專案難度具有通俗易懂、計算簡便的優(yōu)點。但是，專案難度同樣具有不足之處，主要表現(xiàn)在兩點。第一，專案難度P

作為一種反序量表，與常規(guī)理解易衝突。P值介於0~1，P值越大，專案越容易；P值越小，專案越難。這顯然和常規(guī)理解不相符合。第二，不管以通過率還是未通過率作為難度指標(biāo)，都屬於順序量表，不具有相等的單位，指出的僅僅是專案的相對難度。因此，P值只能表示專案的等級關(guān)係即相對難度，而不能表示專案之間的難度差異。二、專案難度的等距轉(zhuǎn)換為了解決以上問題，可以假設(shè)每個專案所測量的潛在特質(zhì)或能力是呈正態(tài)分佈的，之後根據(jù)正態(tài)分佈曲線，將專案的難度值P作為正態(tài)曲線下的（概率）面積，轉(zhuǎn)換成具有相等單位的等距量表，即標(biāo)準(zhǔn)分?jǐn)?shù)（Z分?jǐn)?shù)）。因為Z分?jǐn)?shù)具有相等單位，屬於等距量表，所以，用Z值作為專案難度的指標(biāo)，則為專案難度的進(jìn)一步分析提供了可能。將專案難度P值轉(zhuǎn)換為Z值的具體操作方法是：設(shè)難度值為P，則在正態(tài)分佈表中查（1-P）所對應(yīng)的Z值，這個標(biāo)準(zhǔn)分?jǐn)?shù)就是該難度在等距量表中的位置。三、專案的難度分佈對於常模參照測驗而言，其目的在於盡可能地區(qū)分被試者的個別差異，因此測驗結(jié)果就應(yīng)盡可能拉開距離。此時測驗專案的恰當(dāng)難度，就應(yīng)該使P值儘量接近0.50。如果專案的通過率為1.00或0.00，即所有被試者全部通過或全部不能通過，則無法區(qū)分不同水準(zhǔn)的被試者。經(jīng)驗與研究均表明，倘若整個測驗所有專案的難度係數(shù)分佈在0.30~0.70，並且整個測驗的難度係數(shù)在0.50左右時，測驗對被試者有較大的鑒別力，測驗分?jǐn)?shù)也接近正態(tài)分佈。三、專案的難度分佈對於標(biāo)準(zhǔn)參照測驗而言，其目的在於檢驗學(xué)生是否已經(jīng)達(dá)到教學(xué)目標(biāo)規(guī)定的掌握程度，學(xué)生在試題上的表現(xiàn)應(yīng)該是百分之百答對，通過率達(dá)到1.00。因此，標(biāo)準(zhǔn)參照測驗的難度值應(yīng)儘量接近錄取率。此時，如果教師的教學(xué)是有效的，多數(shù)試題的難度係數(shù)P值都會很大，難度係數(shù)反映的是教學(xué)品質(zhì)的好壞，教學(xué)品質(zhì)和學(xué)習(xí)效果是影響標(biāo)準(zhǔn)參照測驗難度係數(shù)的最直接因素。難度對測驗的影響表現(xiàn)在兩個方面：（１）測驗難度影響測驗分?jǐn)?shù)的分佈形態(tài)，難度過大或過小都會造成測驗分?jǐn)?shù)偏離正態(tài)分佈。（２）測驗難度影響測驗分?jǐn)?shù)的離散程度，過難或過易的測驗，會使測驗分?jǐn)?shù)相對集中在低分段或高分段，分?jǐn)?shù)分佈的全距會縮小。專案難度以集中在0.50左右為最好。02區(qū)分度分析PartTwo區(qū)分度是測驗專案分析的又一重要內(nèi)容，是篩選測驗專案的主要指標(biāo)和依據(jù)。所謂專案區(qū)分度（itemdiscrimination），是指測驗專案對不同考生實際學(xué)業(yè)水準(zhǔn)的區(qū)分程度或鑒別能力。專案區(qū)分度通常用符號D表示。專案區(qū)分度的取值範(fàn)圍在-1.00~+1.00。當(dāng)D為正值時，表示正區(qū)分，說明在一道測驗專案上，高水準(zhǔn)被試者能得高分，低水準(zhǔn)被試者只能得低分；當(dāng)D為負(fù)值時

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

教育測量學(xué)課件

文檔簡介

溫馨提示

最新文檔

評論

教育測量學(xué)課件

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔