![心理測量課件_第1頁](http://file4.renrendoc.com/view11/M03/15/19/wKhkGWX5MeaAQRjGAAC7TaTsZ3c153.jpg)
![心理測量課件_第2頁](http://file4.renrendoc.com/view11/M03/15/19/wKhkGWX5MeaAQRjGAAC7TaTsZ3c1532.jpg)
![心理測量課件_第3頁](http://file4.renrendoc.com/view11/M03/15/19/wKhkGWX5MeaAQRjGAAC7TaTsZ3c1533.jpg)
![心理測量課件_第4頁](http://file4.renrendoc.com/view11/M03/15/19/wKhkGWX5MeaAQRjGAAC7TaTsZ3c1534.jpg)
![心理測量課件_第5頁](http://file4.renrendoc.com/view11/M03/15/19/wKhkGWX5MeaAQRjGAAC7TaTsZ3c1535.jpg)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
心理測量總論
第一節(jié)
心理測量的歷史
第二節(jié)心理測量的性質
第三節(jié)心理測驗的種類
第四節(jié)心理測驗的用途
一、心理測量在中國的發(fā)展
二、西方心理測量發(fā)展的歷史
back1.中國古代對心理測量的貢獻
中國古代的醫(yī)書《皇帝內經(jīng)》
孔子
孟子中國古代最值得稱道的心理測量的實踐活動是初萌于商周,興盛于隋唐的科舉取士制度
2.中國現(xiàn)代心理測量的發(fā)展
1915年,克雷頓在中國南方的廣州曾對500名兒童進行心理測驗
1916年樊炳清首次向國人介紹比奈-西蒙量表
我國測驗運動,從“五四”前后至1928年是發(fā)展極為昌盛的時期,中國測驗史上的一些著名學者也正是在這一時期開展了他們的首創(chuàng)性的工作
在艾偉、陸志偉、陳鶴琴、肖孝嶸等的倡議下,中國測驗學會于1931年6月在南京正式成立,在第一次年會上,通過了《中國測驗學會簡章》,產(chǎn)生了理事會
從五四時期開始到40年代末,除抗日戰(zhàn)爭期間,中國的心理測驗工作從未間斷過,并涉及廣泛的領域。
從1949年至1978年近三十年間,心理測驗處于停止發(fā)展時期
1979年春,心理學家林傳鼎、吳天敏和張厚餐教授在武漢舉辦了第一個全國性的心理測驗培訓班,這是測驗工作恢復的開始。
back
1.心理測驗的先驅
在西方,對人的個別差異的重視起因于18世紀天文學上的一個偶然事件。
著名美國學者波林(E.G.boring)指出:“在測驗領域,19世紀80年代是高爾頓的10年,90年代是卡特爾的10年,20世紀的頭10年則是比奈的10年。高爾頓(FrancisGalton)1884年,高爾頓在倫敦的國際博覽會上設立了一個“人體測量實驗室”,參觀者只要付三個便士就可以有關自己身體素質的信息高爾頓在他的實驗室里發(fā)明了許多測量儀器
高爾頓最重要的貢獻之一,就是把統(tǒng)計方法應用到對個別差異的資料的分析之中,他創(chuàng)造了一種簡單的計算相關系數(shù)的方法,后來被他的學生皮爾遜繼承和發(fā)展,創(chuàng)立了積差相關公式
卡特爾(J.M.Cattell)在1890年,在《心理》雜志上發(fā)表《心理測驗和測量》一文,首創(chuàng)了“心理測驗”(mentaltest)這個術語,并報導了他所編制的一套能力測驗在大學生身上的應用結果。
比奈(A.Binet)1903年,比奈的《智力的實驗研究》問世。比奈與其助手西蒙(T.Simon)合作完成了世界上第一個智力測驗量表――比奈-西蒙量表(Binet-SimonScale)。1905年,他們在《心理學年報》上發(fā)表了《診斷異常兒童的新方法》一文,介紹了該量表,史稱1905年量表。比西量表的問世,吸引了全世界心理學家的注意,在短時期內迅速傳播到世界許多國家。僅在美國,就有好幾種修訂版本相繼問世,其中最著名的首推斯坦福大學的推孟(Terman)教授在1916年修訂的S-B量表(Stanford-Binet)量表。
2.心理測驗的發(fā)展
(1)編制出一批操作測驗(2)編制出團體智力測驗(3)多重能力傾向測驗逐漸受到重視(4)卡特爾的學生桑代克等人利用心理測驗原理,編制了第一批標準化的教育測驗(5)心理測驗發(fā)展的另一領域涉及情感適應、人際關系、動機、興趣、態(tài)度、性格等人格特點的測量。(6)60年代后,由于認知心理學的崛起,將實驗法與測驗法結合,產(chǎn)生了信息加工測驗
back一、心理測量的定義
依據(jù)一定的心理學和教育學理論,使用一定的操作過程,對人的心理特質和教育成就進行定量描述的過程。二、心理測量的特性
間接性相對性客觀性測量的客觀性:實際上就是測量的標準化問題
測驗內容的標準化施測條件的標準化評分標準的標準化分數(shù)的轉換和解釋的標準化,要制定測驗常模
back一、根據(jù)測量的對象分類
二、根據(jù)測驗的人數(shù)來分
三、根據(jù)測驗的材料來分
四、以測量的目的不同,對教育測量進行分類
五、根據(jù)測驗的難度對測驗進行分類
六、根據(jù)測驗結果的解釋模式來分
back能力測驗智力測驗和特殊能力測驗實際能力測驗和能力傾向測驗成就測驗人格測驗
back個別測驗優(yōu)點:精確度高適用于一些特殊對象缺點:效率低主試需要嚴格的訓練和素養(yǎng),一般人不易掌握團體測驗優(yōu)點:效率高缺點:精確度受到影響,某些特殊的群體不適合用團體測驗
back語言或文字測驗
測驗材料以語言或文字的形式呈現(xiàn),被試也用語言或文字做答。
效率高。但這種測驗不能應用于有語言困難的人。還有,對不同語言背景條件下的個體的心理特質進行比較時,也存在者局限性。
操作性測驗
此類測驗題目不是用文字來呈現(xiàn),而是用圖畫、符號或實物(如積木、工具)等作為測驗材料,無需使用文字作答。優(yōu)點:不受文化因素的限制,適用于文盲和聾啞人等特殊群體。但不易團體實施,費時較多,效率不高。
back預測測驗也稱安置測驗。測驗的目的是測量受測者在某方面將來可能達到的水平和成就
形成性測驗目的在于了解受測者在教育過程中知識、技能等方面的形成情況總結性測驗在一門學科或一項教育活動結束后舉行的測驗,目的是為了了解學生對這門學科知識和技能的掌握情況
診斷性測驗目的是為了發(fā)現(xiàn)受測者在學習、思想上存在的問題,以便對癥下藥,改進教學,提高教育質量
back速度測驗
這種測驗的題目比較容易,一般都不超過受測者的能力和知識水平,目的在于測量學生完成某種作業(yè)的速度、掌握知識技能的熟練程度、反應速度等。
難度測驗
這類測驗由許多難度不同的題目組成,考題中既有考生會作的題目,也有考生不可能或很少可能做好的題目,目的在于鑒定考生可能達到的最高水平
back常模參照測驗將受測者的測驗分數(shù)與他所在的群體的平均分數(shù)進行比較,看其在這個團體中所處的位置。
標準參照測驗將受測者的測驗分數(shù)與某種標準來進行比較,看受測者有沒有達到這個標準。
back一、用于心理診斷二、選拔人才和人員安置三、為心理輔導和心理咨詢服務四、改進教學、管理的輔助手段五、心理與教育科研的重要手段總之,心理測驗可以應用于多個領域,除了心理學界和教育界,心理測驗已逐漸深入我國的醫(yī)學界、企業(yè)界、組織人事部門、司法部門等許多應用領域,對社會產(chǎn)生了重大影響。
(一)明確測驗目標
(二)明確測驗對象
年齡教育水平文化背景
(三)明確測驗用途
back電視對于顯微鏡就象電話對于——a放大器
b微加工器c電報符號d麥克風e擴音器
back一個測量推理能力的題目:數(shù)學是工具就如同計算機是——a機器b工具c科學d鍵盤e程序
back例,請同學們看書P16。表2-1小學自然常識測驗編制計劃
獲得基本知識理解原理原則應用原理原則分析因果關系綜合成系統(tǒng)見解建立評價標準合計生物世界35632120資源利用23321010動力和機械23410112物質、物性與能量56832125氣象24322013宇宙25410012地球2221108合計1828301383100編制計劃有兩個用途:1.在測驗的編制階段,可以知道每個項目應該編多少題目,編哪些種類的題目2.題目編好后,可以用來核對,測題是否全面,是否真正代表了所要測量的領域,核對重要的方面有沒有遺漏3.根據(jù)表中百分比確定每類項目的分數(shù)
back(一)搜集有關資料(二)選擇項目形式(三)編寫和修訂項目
back(一)搜集有關資料
1.資料要豐富
有關所要測量的心理特質的理論同行已經(jīng)編制的有關測量這種心理特質的國內外量表
訪問專家、教師、在一線工作的有關人員,征求他們的意見,收集與測題有關的資料
了解受測群體的實際情況
2.資料要有普遍性所選擇的材料應該具有文化公平性。如,對于智力測驗來講,所收集的資料對于不同文化背景、不同經(jīng)濟地位、不同地區(qū)的個人和團體應該是公平的。
back
(二)選擇項目形式
鮑勃海姆(Popham)曾將語言(文字)測驗的項目形式分成兩種類型:要求被試選擇的和要求被試回答的,也有人稱之為選擇型和供應型。在成就測驗中,也分成客觀性試題和非客觀性試題。這兩種項目形式的最大區(qū)別是,前者提供被選答案,后者讓被試自己寫出答案。前者的常用形式有,選擇題和判斷題,匹配題也屬于這一種。后者的常用形式有簡答題和論述題,作文題也是屬于這一種。
幾種常用的項目形式介紹
判斷題選擇題簡答題論述題
back判斷題喜歡在大庭廣眾之下發(fā)表自己的見解。是否
學習是一種苦差事。同意介于兩者之間不同意
非常同意比較同意一般比較不同意非常不同意等級評定項目
優(yōu)點:出題容易;回答方便。缺點:對于教育測驗來講,只適合考察學生對簡單知識的理解;易受猜測因素的影響。編制判斷題應注意以下幾點:(1)內容應以有意義的事實、概念或原理為基礎,避免無關緊要的問題或瑣碎的細節(jié)。(2)每題只應包含一個觀念,避免兩個以上的觀念在同一題中出現(xiàn),從而造成似是而非或半對半錯。如,我怕見生人,但有時也參加聚會。(3)論點要簡明扼要,意義明確,不要有艱深難懂的詞句或含糊不確定的文字描述。(4)避免使用具有暗示性的特殊詞句。(5)盡量采用正面肯定的敘述。(6)肯定和否定的題數(shù)應大致相等,且隨機排列。(7)題數(shù)不能太少。
back七點量表,就是將行為程度分成七個等級。如,給小朋友講了一個故事:有個小朋友叫小林。校長到小林的班上點名要小林和其他三名同學代表班級參加學校的一個唱歌比賽。凡是參加唱歌比賽的同學都可以得到一份精美的紀念品。但是小林的歌唱得并不好。小林想:如果我去參加唱歌比賽,我們班肯定會輸。如果我說我病了,就不必參加比賽了,這樣就會有唱得更好的同學頂替我,班級就能得到好名次。但是如果我不參加,就得不到那份精美的紀念品。于是,當校長要小林準備參加唱歌比賽時,小林決定為班級考慮。雖然小林沒有生病,但他告訴校長:“我今天病了,不能參加唱歌比賽?!眴栴}:小林這樣說好不好?××××××O★★★★★★
back請你選擇一種喜歡的顏色?綠色茶色紫色藍色紅色橘色白色黃色智力測驗(主要是測量推理能力)編制中使用的選擇題(1)貓頭鷹是鳥正如白鯊是——
a動物b魚類c鳥類d爬行動物(2)平地與土丘的關系就如同峽谷與——的關系。a溝壑b山谷c叢林d河流e高山優(yōu)點:適用范圍廣,既可以適用于文字和數(shù)字的材料,也可以適用于圖形的材料;評分簡單、省時、客觀;相比于判斷題更少受猜測因素的影響。缺點:編擬迷惑答案比較困難;無法測量出被試的言語表達能力和概括、組織能力,這與簡答題、論述題相比是不足的;盡管選擇題減少了機遇的影響,但猜測的影響仍然不能完全排除。編制選擇題時要注意以下幾點:(1)題干的陳述要簡單明確,避免出現(xiàn)不切題的內容(2)題干后面的選項或答案的數(shù)目愈多,被試愈不易猜對,普遍采用四個或五個答案(3)
一個測驗中每個題干后面,答案的數(shù)目要一律,如,每題都是四個或五個答案(4)
錯的答案不要錯得太明顯,要有一定的似真性(5)一個題干后面的答案,不管是正確的還是迷惑的,要么都是簡單的,要么都是詳細的,務求長度大致相等,不要在簡單的答案中參雜一兩個詳細的答案。(6)答案以簡短為宜,相同的字詞宜置于題干中,這樣不但可以使題意清楚,而且可以減少被試的閱讀時間(7)
少用“以上皆非”和“以上皆是”的答案(8)
各題之間不能提供正確或錯誤的線索(9)對的答案和錯的答案要隨機排列,使被試無法猜測,減少系統(tǒng)誤差
back簡答題:簡答題要求被試用一段文字來完成測題。優(yōu)點:編制簡單;不易受猜測因素的影響;在教育測驗中能測量多種認知目標,如對知識的記憶、理解、應用。缺點:評分沒有客觀題方便,不夠客觀;不能測量對知識的組織能力、綜合應用知識的能力、評介能力和創(chuàng)造能力等。
back論述題:簡答題若對其范圍不加限定就變成了論述題。這兩者的區(qū)別不僅在于長度,還在于它們所起的作用。簡答題最適合測量對實際知識的記憶和理解,而論述題最適合測量組織能力、綜合能力和文字表達能力、評介能力和創(chuàng)造能力,對于論述題來講,光憑記憶是不能完成的。優(yōu)點:編制容易;不允許猜測和簡單背誦,能測量復雜的能力。缺點:評分難度大,不夠客觀;題目少,取樣缺乏代表性。
back測驗編制經(jīng)驗豐富者在編制測題時,往往會考慮以下幾個測題的來源:直接選自國內外優(yōu)秀的相關的測驗;修改前人的測驗中的有關的測題;自己編寫1.編寫測驗項目時應注意以下幾點(1)測驗項目的取樣應當具有代表性(2)測驗項目的取材范圍要同編題計劃所列項目范圍一致。(3)測驗項目的難度應該有一定的分布范圍(4)編寫測驗項目的用語要力求精練簡短,淺顯明了。(5)初編題目的數(shù)量要多于最終所需要的數(shù)量,以便篩選和編制復本2.智力測驗的簡單介紹(1)智力測驗項目編寫
A類比推理項目優(yōu)點難度水平易控制,在實際關系上,這類項目既可以和顯而易見的事物構成簡單關系,又可以和不明顯的事物,甚至初看起來沒有關系,然而卻反映著某一規(guī)律的抽象對象構成復雜關系。由于客觀事物存在著普遍聯(lián)系,所有能夠用來編制類比推理項目的材料幾乎是無窮的。
go例1,和的關系就如同和——的關系abcde例2英語字母G和J的關系就象M和——的關系aP
bOcNdLeK例3D相對于W就像L相對于——aObNcTdReH例425對于10相當于53對于——a2b8c31d15e24
backB排除性項目排除性項目是指在項目編寫過程中,將很多同類事物,如詞匯、形狀、數(shù)字、物體等排列在一起,讓被試挑出不符合同類的那一個干擾項目。例1麻雀烏鴉鵝蝙蝠燕子例22463104835
例3C順序項目順序項目是以事物的前后順序、復雜程度、遞增或遞減關系為標準而設計的項目,要求被試根據(jù)關系填上相應的項目。例1
12,15,17,20,22,_____
back
(一)預測測題初步確定以后,在小樣本范圍內試測,以得到有關測題優(yōu)劣的質的信息和量的指標,為增刪項目提供依據(jù)。預測時應注意以下幾點:(1)預測對象應取自將來準備應用的群體,要有代表性。在教育測驗上,通常以370人為宜,智力測驗至少要30人。如果測題的項目過多,在保證樣本代表性的前提下,可以考慮對不同樣組的被試實施不同的分測驗。(2)預測力求按正規(guī)的要求進行,使其與將來正式的情況相近似。(3)預測的時限可適當放寬,最好使每個實驗者都能將項目做完。(4)在預測過程中,應隨時記錄被試的反應情況(二)項目分析項目分析包括質的分析和量的分析兩個方面。質的分析是主要是看內容取樣是否適當,具有代表性;是否有題意不清之處等。量的分析是對預測結果進行統(tǒng)計分析,確定項目的難度和區(qū)分度以及被選答案的適宜性。復核。
back(一)項目的選擇項目的選擇的標準首先是鑒別力要高。埃貝爾(I.Ebel)提出的標準在根據(jù)鑒別力所選出的一系列的項目的基礎上,再依據(jù)難度指數(shù)選擇合適的項目。因為中等難度的項目能產(chǎn)生最大的變差,故最好應選擇難度介于0.35-0.65之間的測題,而后還需要選出少數(shù)較難和較易的測題,這樣使整個難度分布近似常態(tài)分布。
如果是人格測驗、態(tài)度測驗和心理健康測驗等,所需的不是難度,則對難度的要求不高,一般為0.1-0.3
根據(jù)鑒別力和難度選出合適的項目后,應該再次對照編制計劃,看看比例有無失調
考慮測驗的長度問題,一個測驗應該包括多少測題才比較合適,要考慮測驗的時限、受測者的年齡、測驗的性質等
go表2-1測題的鑒別指數(shù)與優(yōu)劣評鑒鑒別力D測題評鑒0.40以上優(yōu)良0.30-0.39良好,如能修改則更好0.20-0.29尚可,仍需修改0.19以下劣,必須淘汰(二)項目的編排
測驗一般有二種編排方式:并列直進式:這種方式按照測驗的性質將測題組成若干分測驗,同一分測驗中的測題按其難度由易到難排列混合螺旋式:將各類測題依照難度或年齡分成若干層次,再將不同性質的測題加以組合,作交叉式排列,難度則漸次上升。(三)編造復本編造復本就是編制幾個等值的測驗。復本等值必須符合以下幾個條件:(1)
各份測驗測量的是同一種心理特質。(2)
各份測驗包含相同的內容范圍,但題目不應有重復。(3)
各份測驗題型相同,題目數(shù)量相等,并且有大體相同的難度分布。只要有足夠數(shù)量的題目,編造復本的手續(xù)是很簡單的。先將所有選出的項目按難度由大到小或從小到大排列,次序為1、2、3、4、5、6、7、8、9……,如果要分成兩個等值的復本,則A本:1、4、5、8、9……B本:2、3、6、7、10……如果要分成三個等值的復本,則A本:1、6、7、12、13……B本:2、5、8、11、14……C本:3、4、9、10、15……
back測驗內容的標準化施測條件的標準化評分標準的標準化分數(shù)的轉換和解釋的標準化,要制定測驗常模
back測驗編好后,要對其測驗的可靠性和有效性加以評估,這就是測驗的信度和效度問題。信度是指測驗的可靠性效度是指測驗的有效性,即有沒有測量到所要測量的心理特質。
back一、難度的意義二、難度的計算三、難度與測驗分數(shù)的分布四、項目難度分布與信度的關系
back一、項目難度的意義項目難度(ItemDifficulty)指測驗項目的難易程度。
back
(一)計算難度的基本公式(二)用極端分組法計算難度
(三)項目難度受機遇影響的校正(四)項目難度的等距量表
back(一)計算難度的基本公式1.以答對的百分比(或稱通過率)來計算難度對0、1兩級記分的測題:(公式3-1)
P為項目的難度;R為通過該項目的人數(shù);N為參加測驗的總人數(shù)。例1,100人參加某一測驗,其中第2題和第6題通過的人數(shù)分別為20人和30人,求第2題和第6題的難度。2.當測題不是兩級記分時,計算難度的公式為(公式3-2)其中,
為全體被試在該項目上的平均得分;表示該項目的滿分。例2,某語文測驗第五題的滿分為12分,這道題考生的平均得分為8.5分,問該題的難度是多少?
back(二)用極端分組法計算難度
具體步驟如下:第一步:先依測驗總分的高低,按由高到低的順序,依次排列試卷;第二步:從得分最高的一份試卷開始依次向下選出全部試卷的27%,作為高分組第三步:從得分最低的一份試卷開始依次向上選出全部試卷的27%,作為低分組第四步:按下列公式計算難度(公式3-3)式中,P為難度;PH為高分組在該項目上的通過率;
PL為低分組在該項目上的通過率。
例3,某一次數(shù)學測驗,100名學生中,高分組和低分組各有27人。其中高分組答對第一題的共有20人,低分組答對第一題的共有10人。請計算第一題的難度。
back(三)項目難度受機遇影響的校正在是非題和選擇題中,由于允許猜測,被選答案的數(shù)目越少,機遇的作用越大,就越不能反映項目的真實難度。為平衡機遇對難度的影響,可用下面的公式校正:(公式3-4)其中,CP:校正后的難度;P:未校正時的難度;K:為是非題和選擇題選項的數(shù)目。例4,一個五擇一的測題,未校正前的難度指數(shù)為0.50,一個四擇一的測題,未校正前的難度指數(shù)為0.53,請問校正后哪一題的難度大?
back(四)項目難度的等距量表(難度轉換)1.使用項目難度等距量表的理由百分量表是等級量表,不是等距量表,缺乏相等的單位,也不能由各項目的難度來計算整份試卷的平均難度。例如,1、2、3三個項目的難度指數(shù)分別為0.50、0.40、0.302.方法先將某題的通過率視作正態(tài)曲線下的面積,然后查正態(tài)分布表找出正態(tài)曲線右側的面積所對應的Z分數(shù)。這一Z分數(shù)就可視為該題的標準難度。
16%84%-3320-2-1134%例5,某題的通過率為84%,求該題的標準難度。練習:請同學們計算一下上述三個項目的標準難度
Δ(delta)量表標準難度(美國教育測驗服務中心(ETS))。Δ值可以用以下公式計算:
Δ=13+4Z(公式3-5)希臘字母Δ表示標準化難度指數(shù),Z為標準分數(shù)。Δ值是一個均數(shù)為13,標準差為4的正態(tài)分布。例6求難度指數(shù)為0.50、0.40、0.30的標準難度指數(shù)(Δ值)Δ的取值范圍:標準正態(tài)分布的全距一般包括6個標準差的距離,即從-3到+3,當Z=-3時,表明通過率達到99.87%,這種情況極少發(fā)生,此時Δ=1;當Z=3時,表明通過率為0.13%,也是不大可能出現(xiàn)的情況,此時Δ=25。Δ的取值范圍是1~25。
back
測驗的難度直接依賴于組成測驗的項目的難度。通過考察測驗分數(shù)的分布,可以對測驗的難度作出直觀的分析。若測驗項目的難度普遍較大,被試的得分普遍較低,使測驗分數(shù)集中在低分段,其分數(shù)的分布呈正偏態(tài);若測驗項目的難度普遍較低,被試的得分普遍較高,使測驗分數(shù)集中在高分段,其分數(shù)的分布呈負偏態(tài)。圖3-2測驗分數(shù)的正偏態(tài)分布圖3-3測驗分數(shù)的負偏態(tài)分布當測驗的分數(shù)(預試結果)呈偏態(tài)分布時,可以通過改變項目難度的比例對測驗的難度加以調整,通常,如果被試的取樣具有代表性,對于中等難度的測驗,其分數(shù)的分布呈現(xiàn)正態(tài)分布。
back四、項目難度分布與信度的關系過難和過易的測驗,會使測驗分數(shù)的分布相對集中于高分段和低分段,從而縮小分數(shù)的分布范圍。分數(shù)分布范圍影響信度,范圍越廣,信度越高,分數(shù)分布范圍越小,信度越小。1965年,艾伯爾用三套測驗進行研究,發(fā)現(xiàn)當難度集中在0.50附近時,分數(shù)分布的范圍較廣??偨Y:一般能力測驗和成就測驗的平均難度在0.50左右為宜。出現(xiàn)偏態(tài)情況時,宜對項目進行調整,以使測驗分數(shù)的分布接近正態(tài)。但項目難度還與測驗的目的有關,正偏態(tài)分布適合于篩選性測驗(如選拔性測驗、競爭性測驗),達標考試屬于負偏態(tài)分布。
back一、項目區(qū)分度的意義二、項目區(qū)分度的計算
back一、項目區(qū)分度的意義項目區(qū)分度(ItemDiscrimination),又稱項目的鑒別力,指項目得分對被試心理特質水平的區(qū)分能力或稱鑒別能力。
back
(一)項目鑒別指數(shù)法(二)相關分析法1.點二列相關(Pointbiserialcorrelation)2.二列相關(biserialcorrelation)3.積差相關練習
back(一)項目鑒別指數(shù)法這是項目區(qū)分度分析的一種簡便方法,比較測驗總分高分組和低分組在某一項目上的通過率的差異,作為項目鑒別指數(shù)。計算公式為:(公式3-5)其中,D為鑒別指數(shù),PH為高分組在該項目上的通過率,PL為低分組在該項目上的通過率。D值越大,項目的區(qū)分度越大,反之也然。例6,某高中物理測驗,被試共18人,高分組和低分組各取總人數(shù)的27%,則兩組各為5人,第五題高分組5人全部答對,低分組只有1人答對,計算該題的鑒別指數(shù)。
back1.點二列相關(Pointbiserialcorrelation)適用資料:兩列變量中,有一列為等距或等比的數(shù)據(jù)而且其總體分布為正態(tài),另一列變量只是名義上的變量,按事物的性質劃分為兩類;有時一個變量是雙峰分布也可以劃分為二分名義變量。計算點二列相關的公式是:(公式3-6)rpb:點二列相關系數(shù);
:答對該題的被試在總分上(或效標分數(shù)上)的平均得分;
:答錯該題的被試在總分上(或效標分數(shù)上)的平均得分;St:全體被試的總分(或效標分數(shù))的標準差;P:為答對該題的人數(shù)百分比;q:答錯該題的人數(shù)百分比,q=1-p。點二列相關系數(shù)的顯著性檢驗:對與進行差異的t檢驗,如果差異顯著,表明相關系數(shù)顯著;如果差異不顯著,表明相關系數(shù)不顯著。如果樣本容量較大(n>50),也可以用下面的近似方法:時,認為在.05水平上顯著;時,認為在.01水平上顯著。例6,下表是某學校的15名學生在一次數(shù)學測驗中的總分和第一題的得分情況,請計算第一題的區(qū)分度。
表3-115名學生的數(shù)學測驗成績
back學生123456789101112131415測驗總分908180787770696555504942353110第一題得分1011111000101002.二列相關(biserialcorrelation)兩個變量都是正態(tài)連續(xù)變量,其中一個變量被人為地分成兩類。測驗總分或效標分數(shù)、某個測驗項目的分數(shù)都是連續(xù)變量,其中一個變量被人為地分成兩類,可以是測驗總分或效標分數(shù)被人為地分成兩類,也可以是某個項目的分數(shù)被人為地分成兩類。點二列相關和二列相關的區(qū)分是,二分的變量總體是否為正態(tài),正態(tài)則用二列相關,非正態(tài)則用點二列相關。計算二列相關的公式是:(公式3-7)
rb:二列相關系數(shù);
:答對該題的被試在總分上(或效標分數(shù)上)的平均得分;
:答錯該題的被試在總分上(或效標分數(shù)上)的平均得分;St全體被試的總分(或效標分數(shù)的標準差);p為答對該題的人數(shù)百分比;q答錯該題的人數(shù)百分比,q=1-p;y為正態(tài)分布下答對百分比所在位置的曲線高度。
二列相關的顯著性檢驗:用Z檢驗。
(公式3-8)
例7,下表是某學校的15名學生在一次語文測驗中的總分和作文題的得分情況,作文題被人為地分成兩種情況,37以上算通過,37分以下算沒有通過。請計算作文題的區(qū)分度。表3-215名學生的語文測驗成績
back學生123456789101112131415測驗總分908180787770696555504942353110作文題得分1011111000101003.積差相關適用資料:兩列數(shù)據(jù)都是測量的數(shù)據(jù);兩列變量各自總體的分布都呈正態(tài),即正態(tài)雙變量。
例8:下表是30個學生一次語文測驗的分數(shù),試計算作文題的區(qū)分度。
學生12345678910測驗總分78656681554882798388作文題得分41343038262043444142學生11121314151617181920測驗總分55578768554667777273作文題得分23264131302526313233學生21222324252627282930測驗總分78777484426145636661作文題得分39363243193318333530練習1:下表是30個學生一次測驗的分數(shù),試計算第三題的難度;若第三題是是非題,答案分對和錯,請計算其區(qū)分度;若第三題是作文題,人為地將其分成通過和不通過,請計算其區(qū)分度。
學生12345678910測驗總分85736298763542768485第3題得分1001110011學生11121314151617181920測驗總分96945382796453844765第3題得分1101011101學生21222324252627282930測驗總分51649732468881765332第3題得分0111011011練習2:下表是某大學學生的一次普通心理學期末考試的成績總分和某一論述題的得分(滿分為15分),請計算這一論述題的難度和區(qū)分度。學生12345678910測驗總分88868581776254535662論述題得分1211109876555學生11121314151617181920測驗總分68915268646378777479論述題得分61256667777學生21222324252627282930測驗總分71586536566984858788論述題得分7554568888練習3:某一心理測驗1、2、3、4四個項目的難度分別為0.73、0.25、0.67、0.19,請分別計算這幾個項目的標準難度Δ值。答案:-0.62(-0.61)——10.52左右;0.68——15.72;-0.44——11.24,0.88——16.52
back一、區(qū)分度與難度的關系
二、項目的選擇
back表3-3D的最大值與項目難度的關系項目通過率1.000.900.700.600.500.400.300.100D的最大值00.200.600.801.000.800.600.200從此表我們可以看出,難度越接近于0.50,項目潛在的區(qū)分度越大,而難度越接近1.00或0時,項目的潛在區(qū)分度越小。因此,在常模參照測驗中,要提高區(qū)分度,最好讓項目保持中等程度的難度。如果我們想使我們的所測驗到的心理特質的分數(shù)分布呈正態(tài),我們考慮難度選擇項目時,應使項目的難度分布也呈正態(tài)分布,特別難和特別容易的題目少一些,中等難度的項目多一些,而所有項目的平均難度要保持在0.50左右。
back
1.根據(jù)難度挑選項目
項目的難度分布也呈正態(tài)分布,特別難和特別容易的題目少一些,中等難度的項目多一些,在編制測驗時一般要求項目的難度在0.20~0.80之間,而所有項目的平均難度要保持在0.50左右。當題目之間正相關時,題目難度值應分布得廣些但平均難度應以0.50為好。當題目有猜測可能時,題目的P值應適當加大。一般能力測驗和成就測驗的平均難度在0.50左右為宜。出現(xiàn)偏態(tài)情況時,宜對項目進行調整,以使測驗分數(shù)的分布接近正態(tài)。但項目難度還與測驗的目的有關,正偏態(tài)分布適合于篩選性測驗。此時項目的難度和整個測驗的難度應該偏高。選拔性測驗還要考慮錄取率。達標考試屬于負偏態(tài)分布,此時項目的難度和整個測驗的難度應該偏低。標準參照能力測驗P=1.0或P=0有可能也是好題。人格測驗
P≧0.95或P≦0.05的題目考慮刪除2.根據(jù)區(qū)分度挑選項目
表2-1測題的鑒別指數(shù)與優(yōu)劣評鑒
鑒別力D測題評鑒0.40以上優(yōu)良0.30-0.39良好,如能修改則更好0.20-0.29尚可,仍需修改0.19以下劣,必須淘汰埃貝爾(I.Ebel)的標準是針對鑒別指數(shù)的,如果區(qū)分度是用相關系數(shù)計算得來的,則挑選項目的最低標準是不低于相應的臨界值。
3.對選擇題的選項進行分析
(1)如果正確的被選答案被所有被試選擇,則說明該題目太容易或者題目中可能提供了某種暗示。(2)如果某個錯誤答案沒有一個被試選擇,說明該項目不具迷惑性,錯得過于明顯,一般來說,除非有2%以上的人選擇,否則這個被選答案應該修改。(3)如果所有被試都選擇了同一個錯誤答案,可能是編制測驗時把答案定錯了,也可能是教學中發(fā)生了錯誤。(4)如果高分組被試的選擇集中在兩個答案上,二者選擇率相近,說明該題可能有兩個正確答案或另一個答案也有一定的道理。(5)如果高分組對正確答案的選擇與低分組相等或低于后者,說明考察的東西與水平無關。(6)如果一個題目被試未答人數(shù)過多或選擇各個被選答案的人數(shù)相等,則說明題目過難或題意不清,使得被試無法做答或憑猜測作答。
例8,表3-4是一張2道4重選擇題的項目分析表。被試共100人,高低分組共有27人。表中兩道題的正確答案都是B。表3-42道4重選擇題的項目分析表題號分組選項A選項B選項C選項D未答PD
1高分組224040
0.72
0.26低分組1160812高分組9124050.56-0.04低分組318405一、誤差(error)的定義和種類
誤差是在測量中與目的無關的因素所產(chǎn)生的不準確的或不一致的結果。
定義的后半部分從準確性和一致性兩方面對誤差做了區(qū)分。準確性和一致性的關系可以用射擊靶環(huán)來說明。假設有A、B、C三支槍,對準靶面中心固定位置后各放9槍,所得結果見圖4-1。
ABC圖4-1準確性和一致性的關系
隨機誤差:由與測量目的無關的偶然因素引起的變化無規(guī)律的誤差。大小和方向的變化完全是隨機的,無規(guī)律可循。系統(tǒng)誤差:由與測量目的無關的因素引起的恒定的有規(guī)律的誤差。穩(wěn)定地存在于每一次測量中。二、真分數(shù)(truescore)
真分數(shù):指一種測量工具在測量沒有誤差時得到的純正值。
操作定義:無數(shù)次測量所得結果的平均值。
經(jīng)典測量理論(ClassicalTestTheory,CTT)的數(shù)學模型:經(jīng)典測量理論假定:實得分數(shù)、真分數(shù)、測量誤差存在下述線性關系,用公式表示如下:
X=T+E
(公式4-1)式中X為實得分數(shù)或觀測分數(shù),T為假設的真分數(shù),E為測量誤差。
關于測量誤差還有如下假設:(1)如果對一個人測量無數(shù)次,其誤差之和為0,平均誤差為0,即(2)
誤差與真分數(shù)相互獨立,即(3)一個團體的平均真分數(shù)等于該團體中所有被試實得分數(shù)的平均值。(4)對于一個團體來說,實得分數(shù)、真分數(shù)、和測量誤差之間有如下關系:(公式4-2)
真分數(shù)的變異可以分成兩個部分:與測驗目的有關的變異(有效的變異數(shù)ValidVariance)和與測驗目的無關的變異(無效的變異數(shù)InvalidVariance),即(公式4-3)式中,是與測量目的有關的變異數(shù),即有效的變異數(shù);是與測量目的無關的變異數(shù),即無效的變異數(shù)。將公式4-3代入公式4-2得下列公式:(公式4-4)
back
(一)測量工具引起的誤差
(二)施測過程引起的誤差
(三)被測對象引起的誤差
back心理測量工具往往是一套量表。當量表在測出人的某種心理特質時,若項目所測的東西與我們所欲測的目的之間出現(xiàn)偏差,則測量會出現(xiàn)誤差。
back
1.施測環(huán)境:施測現(xiàn)場的溫度、光線、聲音、桌面的好壞、空間的寬窄都可能產(chǎn)生影響。
2.施測時限:時限沒有嚴格控制,過寬或過緊都會使測驗結果存在誤差。
3.主試因素:主試的年齡、性別、外表、言談舉止、表情動作、對測驗過程的熟悉程度都可能會對測驗結果產(chǎn)生一定的影響。
4.意外干擾:在施測環(huán)境復雜,特別是受測者較多時,容易發(fā)生意外情況。
5.評分記分
back1.應試動機受測者對測驗的動機不同,會導致不同的作答態(tài)度、注意力、持久性和反應速度,從而影響測驗成績。動機效應在人格測驗中也有表現(xiàn)。2.測驗焦慮測驗焦慮是指受測者在應試前和測試過程中出現(xiàn)的一種緊張的、不愉快的情緒體驗。一般出現(xiàn)在能力和成就測驗對于人格測驗如果主試沒有講清測驗目的和出現(xiàn)不合適的表情動作,也會使受測者產(chǎn)生焦慮,尤其對于年齡較小的兒童和本身有焦慮特質的個體。焦慮和作業(yè)成績的關系呈倒形的V字曲線,適度的焦慮可以提高作業(yè)成績,焦慮水平太高和太低都不利于受測者水平的發(fā)揮。圖4-2焦慮對測驗成績的影響
3.測驗經(jīng)驗當使用一種新的測驗形式的時候,由于被測者不熟悉,缺乏測驗經(jīng)驗可能會影響測驗成績。4.練習效應有些測驗需要第二次應用,甚至多次應用。比如,在開始一項教學改革前對學生的能力和學習成績進行前測,過半個學期后進行后測,看看成績或能力有沒有提高。這時就會存在練習效應。在能力測驗方面,練習效果的研究大體獲得了以下結論:(1)
練習對于智力較高者,效果較為顯著。(2)
著重速度的測驗,練習效果較明顯。(3)再做同一個測驗要比做復本的練習效果顯著。(4)兩次測驗之間的時距越大,練習效果越小,相距三個月以上,練習效果可以忽略不計。(5)一般的平均練習效果,約在個標準差以下,但第二次再測時,練習效果即接近于零。一、信度的意義二、信度系數(shù)的作用
back一、信度的意義信度即測驗的可靠性,指的是測量的一致性程度。
信度受隨機誤差的影響,隨機誤差越大,信度越低。
在測量學中,信度被定義為:一組測量分數(shù)的真變異數(shù)與總變異數(shù)(實得變異數(shù))的比率。即(公式5-1)式中代表信度系數(shù),代表真分數(shù)的變異數(shù),代表實得分數(shù)的變異數(shù),即總變異數(shù)。根據(jù)公式5-1,信度還可以表示為:(公式5-2)
這個定義有兩點要注意:(1)信度是一組測量分數(shù)的特性,不是某個測量分數(shù)的特性。是對一個人測量多次或對一個群體進行測量得到一組測量分數(shù)的特性(2)真分數(shù)的變異數(shù)不能直接測量,因此信度是一個理論上構想的概念,只能根據(jù)一組實得分數(shù)進行估計。
對于信度系數(shù),還應該注意以下幾點:(1)在不同的情況下,對于不同的樣本,采用不同的方法會得到不同的信度系數(shù),因此一個測驗可能不止一個信度系數(shù)。(2)信度系數(shù)只是對測量分數(shù)不一致程度的估計,并沒有指出不一致的原因。(3)獲得較高的信度系數(shù)并不是心理測量有效的充分條件,只是一個必要條件。back1.評價測驗信度系數(shù)是衡量測驗好壞的一個重要的技術指標。
一般能力與學績測驗的信度系數(shù)為0.90以上,有的可以達到0.95;標準智力測驗的信度系數(shù)應達到0.85以上,個性和興趣測驗的信度系數(shù)可稍低,一般應達到0.70~0.80,(也有人認為興趣、性格、價值觀等人格測驗的信度系數(shù),通常在0.80~0.85或更高些)。當信度系數(shù)小于0.70時,不能用測驗來對個人進行評價,也不能用來進行團體間的比較;當信度系數(shù)大于0.70時,可用來進行團體間的比較;大于0.85時,可以用來鑒別個人。
2.用來估計個人的測驗分數(shù)(真分數(shù))由于誤差的存在,一個人通過測量得到的分數(shù)很難等于真分數(shù)。理論上,我們可以對一個人施測無數(shù)次,然后求得所得分數(shù)的平均數(shù)和標準差。在這個假設的分布里,平均數(shù)就是這個人的真分數(shù),標準差則為誤差大小的指標。
在實際工作中,我們用一組被試(人數(shù)足夠多)兩次施測的結果來代替對同一個人反復施測,以估計測量誤差的變異數(shù)。此時,個人在兩次測驗中的分數(shù)差異就是測量誤差。據(jù)此可制成誤差分數(shù)的分布。這個分布的標準差(誤差分布的標準差)我們稱之為測量的標準誤,是表示測量誤差的大小的指標,其計算公式為:(公式5-4)式中SE表示測量的標準誤,即誤差分布的標準差;Sx表示一次測量分數(shù)的標準差;rxx表示信度系數(shù)。我們可以用測量的標準誤來估計個人測驗的真分數(shù)的大小。
如果選用95%的可靠性水平(置信水平),即顯著性水平(a值)為.05,,真分數(shù)有95%的可能落入X±SE,即X±1.96SE的范圍之內,也可以寫成X-1.96SE
T
X+1.96SE,SE則用公式5-4代入?;蛴?%的可能落入這范圍之外。這實際上也表明了再測時分數(shù)改變的可能范圍。
例1,已知WISC-R的標準差為15,信度系數(shù)為0.95,對一名12歲的兒童實施該測驗后,IQ為110,那么他的真分數(shù)在95%的可靠度要求下,變動范圍應是多大?
注意幾點:(1)SE對真分數(shù)做的是區(qū)間估計,不可能由此得到一個確切的點。這就是說,測驗分數(shù)不是一個定點,而是具有一定的分布范圍。因此,兩次測驗分數(shù)之間存在差異是很正常的。(2)置信水平確定后,估計的精度主要取決于SE,SE越小,范圍越小,估計就越精確,反之也然。(3)真分數(shù)不能等同于真正能力或心理特質,真分數(shù)中包括了系統(tǒng)誤差。
3.用來對兩種測驗分數(shù)進行比較來自不同測驗的原始分數(shù)是無法直接進行比較的,只有將它們轉換成相同尺度的標準分數(shù)才能進行比較。如,某班期末考試,小明的數(shù)學成績是80分,語文成績是70分。另外,已知小明所在班級的數(shù)學平均成績是70分,標準差是10分,語文平均成績是60分,標準差是7分。我們可以用“差異的標準誤”來檢驗差異的顯著性。差異的標準誤的公式為:(公式5-5)為差異的標準誤,S為相同尺度的標準分數(shù)的標準差,Z分數(shù)為1,T分數(shù)為10。、分別為兩個測驗的信度系數(shù)。先將原始分數(shù)化成標準分數(shù),然后將兩個標準分數(shù)的差異與1.96SEd(0.05顯著性水平)進行比較,如果其絕對值大于此值,則差異顯著,否則差異不顯著。例2,某校五年級進行了兩次數(shù)學測驗,小張第一次考了85分,此次數(shù)學測驗年級平均分是77分,標準差是8分,此次測驗的信度系數(shù)是0.84;第二次考了95分,此次數(shù)學測驗年級平均分是81分,標準差是10分,此次測驗的信度系數(shù)是0.91;問小張這兩次數(shù)學測驗的成績是否有顯著差異?
back一、再測信度二、復本信度三、等值穩(wěn)定性系數(shù)四、內部一致性系數(shù)
五、評分者信度
總結練習
back再測信度(Test-RetestReliability)
,也叫重測信度,也叫穩(wěn)定性系數(shù)。用同一個測驗,對同一組被試前后施測兩次,對兩次測驗分數(shù)求相關,其相關系數(shù)就叫再測信度。其計算公式(皮爾遜積差相關公式的變式)為:(公式5-6)式中X1、X2為同一被試的兩次測驗分數(shù),、為全體被試兩次測驗的平均數(shù),S1、S2為兩次測驗的標準差,N為被試人數(shù)。再測法的模式是:施測適當時距再施測例2:假設有一份主觀幸福感調查表,先后兩次施測于10名學生,時間間隔為半年,結果如表所示,求該測驗的重測信度。(為了便于理解和計算,本章估計信度的例子都是小樣組,實際應用時應采用大樣組。)表5-1某幸福感調查表的兩次測試結果
測驗被試12345678910X1
16151313111010987X21616141211911867計算再測信度必須注意幾個問題:(1)所測量的特性必須是穩(wěn)定的。當然絕對的穩(wěn)定是不可能的,但應該是比較穩(wěn)定的。(2)遺忘和練習的效果基本上相互抵消。在做第一次測驗時,被試可能會獲得某種技巧,但只要間隔時間適度,這種練習的效果會基本上被遺忘掉。再測信度要考慮時間間隔的問題。到底多長合適呢?一般來說,無論對于那種被試,初測與再測的間隔最好不要超過六個月。
(3)再測法適用于速度測驗而不適用于難度測驗。
(4)應注意提高被試者的積極性。back
復本信度(AlternateFormReliability),也稱等值性系數(shù)(CoefficientofEquivalence)用兩個平行(等值)的測驗對同一組被試施測,得到兩組測驗分數(shù),求這兩組測驗分數(shù)的相關系數(shù),這就是復本信度。因為這反應了兩個測驗的等值程度,因此又稱等值性系數(shù)。計算方法與再測法是一樣的。復本信度的模式是:復本A最短時距復本B
例3:假設用A、B兩型創(chuàng)造力復本測驗對初中一年級10個學生施測。結果見表5-2。表5-2某創(chuàng)造力復本測驗測試結果
測驗被試12345678910X1
20191918171614131210X22020181615171211139復本信度應用時應注意以下幾點:(1)復本信度的關鍵在于兩個量表必須等值,即必須具有相同的難度、區(qū)分度、長度、題型等。
(2)兩次測驗的時距應盡可能短促,以便避免知識的積累、練習效應等因素的影響。
(3)由于量表的兩個復份在許多方面近似,所以信度系數(shù)有稍稍偏高的傾向。
(4)被試易出現(xiàn)疲勞、失去積極性等反應,還會出現(xiàn)遷移。這些稱為順序效應,為了抵消順序效應,可隨機分配一半被試先做復本A再做復本B,另一半被試先做復本B再做復本A,以平衡順序效應。(5)復本法只能減少而不能完全排除練習和記憶的影響。(6)對于許多測驗來說,建立復本是相當困難的。
back三、等值穩(wěn)定性系數(shù)等值穩(wěn)定性系數(shù)是用兩個平行的(等值的)測驗,間隔適當時距施測于同一組被試得到兩組測驗分數(shù),求這兩組測驗分數(shù)的相關,其相關系數(shù)就是等值穩(wěn)定性系數(shù)。等值穩(wěn)定性系數(shù)的模式是:測驗A適當時距測驗B計算方法同穩(wěn)定性系數(shù)和等值性系數(shù)。等值穩(wěn)定性系數(shù)也是采用復本對被試施測,但等值性系數(shù)的測驗要求兩次測驗的時間間隔盡可能短,而計算等值穩(wěn)定性系數(shù)的兩次測驗卻要求有一個適當?shù)臅r距。
優(yōu)點:(1)因兩次測試有適當?shù)臅r間間隔,減少了復本法中的練習、疲勞效應。(2)只要時間間隔適當,可用于計算穩(wěn)定性不高的心理特質的測驗的信度。注意:等值穩(wěn)定性信度系數(shù)的值一般要比等值性系數(shù)和穩(wěn)定性系數(shù)要低。等值穩(wěn)定性系數(shù)是測驗信度的最嚴格的考察,得到的是信度系數(shù)的下限。
back利用一次測驗所獲得的資料來計算信度系數(shù)。這樣計算出來的信度系數(shù)反應的是測驗內部的一致性,即測驗項目的同質性,叫做內部一致性系數(shù)或同質性系數(shù)。(一)分半法(分半信度)
(二)其它計算內部一致性系數(shù)的方法
back
分半信度(Split-halfreliability):分半信度就是將測驗題目分成等值的兩半,分半求出量表題目的總分,再計算兩部分總分的相關系數(shù)。
分半的方法很多,常見的方法是把一個量表按題目番號分為兩半,一半是奇數(shù)題,另一半數(shù)偶數(shù)題。求出每個人的奇數(shù)題的總得分和偶數(shù)題的總得分,然后求出奇數(shù)題總得分和偶數(shù)題總得分的相關系數(shù),最后對相關系數(shù)進行校正。
校正公式有:(1)斯皮爾曼-布朗(Spearman-Brown)公式(公式5-7)式中,是兩半測驗分數(shù)的相關系數(shù),為整個測驗的信度估計值。
采用斯皮爾曼-布朗(Spearman-Brown)公式進行校正時,假定兩半測驗等值,亦即兩半測驗具有相同的平均數(shù)和標準差。當假定不能滿足時,可以采用下面兩個公式來估計信度。弗朗那根公式:(公式5-8)式中,、分別為兩半測驗分數(shù)的變異數(shù),為測驗總分的變異數(shù)。r為信度值。
盧倫公式:(公式5-9)式中,為兩半測驗分數(shù)之差的變異數(shù),為測驗總分的變異數(shù)。r為信度值。
例4:有一個由100題構成的量表施測于10個高三學生。測驗一次后,應試者即畢業(yè)離?!,F(xiàn)在怎樣評介測驗結果的信度?
(1)計算出每個應試者的奇數(shù)題總分(X1)和偶數(shù)題總分(X2),見表5-3。
得分被試12345678910X1
38373841403638394035X237373639393438393936采用分半信度應注意以下幾個問題:(1)若用分半法時,以按奇數(shù)題和偶數(shù)題分半為宜。(2)在使用斯皮爾曼-布朗公式時要求全體被試在兩半測驗上的得分的變異數(shù)相等。當一個測驗不宜分成對等的兩半時分半信度不宜采用。(2)當試卷中存在任選題時,不宜采用分半法。速度測驗也不宜采用分半法。因為速度測驗中試題的難度低,被試得分的多少主要是看答題的多少,分半法易使得分相同,從而夸大分半法的信度估計。(3)如遇到有牽連的項目或一組解決同一問題的項目時,這些項目應放在同一半,否則會高估信度的值。(4)將一個測驗分成兩半的方法很多(如,按題號的奇偶性分半、按題目的難度分半、按題目的內容分半等),因此,一個測驗可以有多個分半信度值。提供分半信度值時,要說明分半的方法。
back分半法實際上是對測驗內部一致性的一個粗略估計。但對于同一個測驗分半的方法是很多的,而且用不同的分半方法求出的分半信度都不一樣,因此分半信度不是最好的內部一致性的估計。為了彌補分半法的不足,可以采用其它的方法。1.庫德-理查遜公式(K-R20公式)庫德(Kuder)、理查遜(Richardson)針對分半法的不足,提出以項目統(tǒng)計量為轉移,利用項目統(tǒng)計量來計算信度。稱為K-R20公式。(公式5-10)式中k表示構成測驗的題目數(shù),pi為通過第i題的人數(shù)比例,qi為未通過第i題的人數(shù)比例,為測驗總分的變異數(shù)。
例5:有一種包含6個問題的測驗,10個應試者的得分如表5-4(答對得1分,答錯得0分),試估計應試者反應的一致性程度。
2.庫德-理查遜另一公式(K-R21公式)當測驗項目難度接近時可以采用庫德-理查遜提出的簡便公式,稱為K-R21公式。K-R21公式為:
(公式5-11)式中k表示構成測驗的題目數(shù),為測驗總分的平均數(shù),為測驗總分的變異數(shù)。3.克倫巴赫(Cronbach)的α系數(shù)庫德-理查遜公式只適用于兩級記分的測驗,而對多級記分的測驗,則可以采用克倫巴赫(Cronbach)的α系數(shù),克倫巴赫的α系數(shù)對兩級記分的測驗也是適用的。其計算公式為:(公式5-11)式中,K為測驗的題目數(shù),為某一測驗題目分數(shù)的變異數(shù),
為測驗總分的變異數(shù)。例6:有一種包含6個論文式題目的測驗,對5個應試者施行,得分見下表5-5,試求該測驗的信度。
表5-5被試在測驗上的得分
題號被試ABCDE17118111126978936106894811683571181111671181111五、評分者信度(ScorerReliability)評分者信度:隨機抽取部分試卷,由兩個或多個評分者獨立按評分標準打分,然后求其間的相關,所得的相關系數(shù)即為評分者信度。
評分者信度的計算:1.評分者為兩個人時若是連續(xù)變量的評分,且分布是正態(tài)則計算皮爾遜積差相關系數(shù)(可用計算機直接計算)。若是等級評定或雖是等距或等比的數(shù)據(jù)但分布非正態(tài),則計算斯皮爾曼等級相關。斯皮爾曼等級相關公式:(公式5-12)式中D為各對偶等級之差,是各D平方之和,N為等級數(shù)目。當有相同的等級出現(xiàn)時,計算斯皮爾曼等級相關的公式為:(公式5-13),;,式中,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 五年級數(shù)學上冊蘇教版《釘子板上的多邊形》聽評課記錄
- 八年級數(shù)學上冊 14.3 因式分解 14.3.1 提公因式法聽評課記錄 新人教版
- 湘教版數(shù)學七年級上冊2.4《整式》聽評課記錄
- 青島版數(shù)學七年級下冊12.1《平方差公式》聽評課記錄
- 魯教版地理六年級下冊7.4《俄羅斯》聽課評課記錄1
- 人民版九年級政治全冊第三單元第八課依法治國第3-4喜中有憂我們共同的責任聽課評課記錄
- 中圖版地理八年級下冊7.4《巴西》聽課評課記錄
- 鋁合金窗產(chǎn)品質量監(jiān)督抽查實施細則
- 小學二年級數(shù)學口算練習題
- 一年級英語聽評課記錄
- 商務星球版地理八年級下冊全冊教案
- 天津市河西區(qū)2024-2025學年四年級(上)期末語文試卷(含答案)
- 2025年空白離婚協(xié)議書
- 校長在行政會上總結講話結合新課標精神給學校管理提出3點建議
- 北京市北京四中2025屆高三第四次模擬考試英語試卷含解析
- 2024年快遞行業(yè)無人機物流運輸合同范本及法規(guī)遵循3篇
- T-CSUS 69-2024 智慧水務技術標準
- 2025年護理質量與安全管理工作計劃
- 地下商業(yè)街的規(guī)劃設計
- 2024-2030年全球及中國低密度聚乙烯(LDPE)行業(yè)需求動態(tài)及未來發(fā)展趨勢預測報告
- 傷殘撫恤管理辦法實施細則
評論
0/150
提交評論