教育統(tǒng)計與測量測量質量

上傳人：f*** IP屬地：貴州上傳時間：2023-01-08 格式：PPTX 頁數(shù)：52 大?。?23KB 積分：50 舉報 版權申訴

已閱讀5頁，還剩47頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權，請進行舉報或認領

文檔簡介

測量質量分析難度與區(qū)分度信度與效度為了使測驗得到的分數(shù)準確可靠，我們要求使用的測驗是高質量的，因此必須對分析測驗的質量，而測驗又是由一個個題目或者說測試項目所組成，整個測驗質量要高，必然要求各個題目的質量要高。因此分析一個測驗的質量，一般就要從兩個方面來進行：一是考察整個測驗的質量指標，即考察測驗效度與信度；二是考察所含項目的質量指標，即考察測驗項目的難度和區(qū)分度。測驗項目的難度測驗項目的難度，就是被試完成項目作答任務時所遇到的困難程度。有的項目很容易，幾乎所有初試都能正確完成作答任務；有的項目卻很難，只有少數(shù)高水平被試能正確完成任務。困難的項目，被試在其上得分的可能性就小，失分的可能性就大；容易的項目，被試在其上得分的可能性就大，失分的可能性就小?？傊?，每一個測驗項目都有自己的難度；不同項目間其難度常常是不同的。定量刻畫一個測驗項目的被試作答困難程度的量數(shù)就叫項目的難度指數(shù)或難度系數(shù)。難度系數(shù)的求法最通用的項目難度系數(shù)的求法就是計算被試在項目上的得分率或者說通過率。像選擇題這種測驗項目，評分采取“全或無”的方式，答對給滿分，答錯給零分，難度指數(shù)就可以求通過人數(shù)比例或稱通過率。對于不采用“全或無”的方式給分的測驗項目，難度系數(shù)的求取方法是先求所有被試在該項目上的平均得分值，可記為；再用它去對測驗項目總分（滿分），可記為K，求比值，這個比值就是全體被試在該測驗項目上的得分率即難度指數(shù)p了。R通過人數(shù)n接受測試的總人數(shù)P難度指數(shù)例如，有一滿分值K=5的試題，測試10名被試，實得成績?yōu)?,3,4.5,2,5,0,3.5,1,3,4要求其難度指數(shù)p。先求平均得分然后用平均得分值對滿分值求比整體試卷的難度，就是全體被試測驗的總分平均值與全卷滿分的比值。有人覺得用得分率p來表示難度別扭，主張用失分率q來作為難度指數(shù)。得分率p是可以與失分率q相互轉換的，q=1-p。我們一般用得分率p來表示難度，但也有人用失分率q來表示難度，所以當我們聽取人家報告難度系數(shù)時，一定要弄清是指p還是q值不同目的的測試，測驗難度系數(shù)要求也不相同。一般的標準化測試，目的是要盡可以把握住被試的個別差異，因此希望測驗后所有被試的分數(shù)“盡可能拉開距離”。這樣，測驗項目的恰當難度，就應該是p值盡量接近0.5.如果一個測驗對某一被試團體來說，難度相對顯得大，那么，被試團體中大多數(shù)人就會得低分，被試總分分布就會形成正偏態(tài)分布；如果相反，難度相對顯得小，被試團體中就會有很多人得高分，總分分布就會形成負偏態(tài)。區(qū)分度項目區(qū)分度就是項目區(qū)別被試水平高低的能力的量度。項目是用來測試被試水平高低的；在所測特質上，被試水平也不會人人相等，總是會有高低水平差異的。倘若，高水平被試，在測驗項目上能利市中分，而低水平被試則只能得低分，測驗項目區(qū)分被試高低的能力就強；如果高水平被試和低水平被試在測驗項目上所得分數(shù)并無差別，項目提供不出被試水平差異的信息，它的區(qū)分能力就弱，更糟糕的是，高水平被試在測驗項目上反而得低分，低水平被試在測驗項目上所得分數(shù)卻不低，這種項目的性能就跟測驗目的相違背，只會起破壞作用。所以，項目區(qū)分度是測驗性能的一個重要指標，說明的正是項目對測驗目的來說的有效性程度區(qū)分度度指數(shù)數(shù)的求求法計算被被試在在該項項目上上的得得分與與其測測驗總總分的的相關關系數(shù)數(shù)。如如相關關一致致性高高就認認定該該項目目區(qū)分分力強強；如如果相相關低低，甚甚至負負相關關，就就認定定為區(qū)區(qū)分力力弱整整形無無效的的項目目。這里，，確定定項目目區(qū)分分度的的標準準就是是測驗驗總分分，要要考察察總分分高的的被試試在該該項目目上是是否也也得高高分，，總分分低的的被試試在該該項目目上是是否也也得低低分。。顯然然，這這種標標準就就是測測驗內(nèi)內(nèi)部而而非測測驗外外部標標準。。假定有有30名被被試在在兩個個項目目上的的題分分以及及全卷卷總分分情況況如下下表，，請計計算項項目①與項項目②②的區(qū)區(qū)分度度項目①計算項項目①①的區(qū)區(qū)分度度指數(shù)數(shù)，也也就是是計算算被試試在該該項目目上的的得分分與總總分的的相關關系數(shù)數(shù)。項目①①為二二分稱稱名變變量，，總分分為連連續(xù)變變量，，該用用哪種種相關關法？？需要用用點雙雙列相相關，，點雙雙列相相關公公式為為：答對被被試的的比率率為：：p=18/30＝＝0.6答錯被被試的的比率率為：：q=0.4答對被被試的的總分分平均均成績績:(100+100+98+……+)÷÷18=69.94答錯被被試的的總分分平均均成績績：(90+79+89+……+0)÷÷12=59.42所有被被試總總分標標準差差：29.23項目②項目2與總總分都都為連連續(xù)變變量，，應該該采用用哪種種相關關方法法呢？？積差相相關的的公式式為：：采用軟軟件分分析，，得到到結果果為高低分分組法法求取項項目區(qū)區(qū)分度度指數(shù)數(shù)的主主要辦辦法，，是求求題分分與總總分的的相關關系數(shù)數(shù)。但但是，，還有有一種種“高高低分分組求求得分分率差差”的的辦法法。方法：：將全全體被被試按按總分分寡加加以排排隊，，然后后取得得分最最多的的27%的的被試試作為為“高高分組組”，，得分分最少少的27%的被被試作作為““低分分組””，最最后求求這兩兩個組組上項項目得得分率率（通通過率率）的的差來來作為為區(qū)分分度指指數(shù)的的取值值。D＝PH––PL以上面面的30名名被試試為例例先將30名名被試的總總分從高至至低排序30人的27%：30*27%＝8.1＝8（（人）計算高分組組8人的得得分率PH：PH1＝0.63；PH2＝4.44/5=0.89計算低分組組8人的得得分率PL：PL1＝0.50；Pl2＝2.06/5=0.41D1＝PH1–PL1＝0.13;D2＝PH2–PL2＝0.48用高低分組組法丟棄了了中部的數(shù)數(shù)據(jù)，因此此只能是較較為粗糙的的估計值，，當被試總總人數(shù)夠多多，高分組組與低分組組容量都相相當大時，，這種估計計值還是可可以滿足實實用要求的的。所以高高、低分組組法，是一一種常用的的項目區(qū)分分度指數(shù)求求取方法。。項目區(qū)分度度指數(shù)的取取值范圍，，跟一般的的相關系數(shù)數(shù)的取值范范圍一樣，，在-1.00至+1.00之間。如果項目區(qū)區(qū)分度指數(shù)數(shù)D≤0.20,項項目應該被被淘汰如果0.2＜D＜＜0.3,需要修改改如果0.3≤D＜＜0.4,合格如果0.4≤D,性能優(yōu)優(yōu)良測驗信度測驗信度，，就是測驗驗在測量它它所測特質質時得到的的分數(shù)的一一致性（穩(wěn)穩(wěn)定性）。。它是反映映測驗性能能的一個重重要的質量量指標。各種類型的的測量，無無論是物理理測量還是是教育與心心理測量，，先后對同同一對象施施測，所得得測量值都都很難做到到絕對一致致。同一教育與與心理測驗驗先后向同同一被試對對象施測，，所得測值值會系統(tǒng)地地起伏變化化，原因是是多方面的的。這可以以是由于測測驗項目抽抽樣不妥，，或語言表表達引起誤誤解，也可可以是施測測環(huán)境影響響，施測時時指導語、、完成時限限、主被試試關系的影影響或者是是評分過程程的偏向與與誤差，還還可以是被被試的動機機和情緒等等因素所造造成的。測驗信度，，就是指對對這種無系系統(tǒng)的隨機機誤差的控控制。測驗驗本身抗干干擾能力強強，測驗實實施過程各各方面誤差差因素都控控制得好，，多次施測測時所得分分數(shù)的一致致性程度就就會好，這這就叫測驗驗信度高，，人們在使使用所得測測值時就會會感覺可靠靠。改進測驗信信度，就是是要努力從從各個方面面控制測量量誤差，使使所得分數(shù)數(shù)（測值））盡量接近近被試在所所測特質上上的真值。。如果從測驗驗實施過程程中實際得得到的被試試分數(shù)，叫叫做觀察分分數(shù)，這可可記為X；；被試在所所測特質上上客觀具有有的水平值值，叫真分分數(shù)，這可可記為T，，那么，觀觀察分數(shù)與與真分數(shù)的的差就是測測量誤差，，它可記為為E。X＝T＋E信度的測量量方法與種種類重測相關法法（重測信信度）平行相關法法（復本信信度）內(nèi)部一致性性系數(shù)法（（折半系數(shù)數(shù)，a-系系數(shù)）重測信度同一測驗向向同一批被被試重測兩兩次，將得得到的兩批批獨立測值值進行相關關分析，求求出相關系系數(shù)，就可可為測驗信信度的估計計值。這樣的相關關系數(shù)，就就叫信度系系數(shù)，一般般記為rxx。例如，編制制了一個詞詞匯理解測測驗，測試試一批被試試共15人人，頭一次次測驗與第第二次測驗驗分開獨立立進行，間間隔時間兩兩周。所獲獲資料如下下表：計算兩次測測驗的相關關系數(shù)———積差相關關Rxx＝0.94由于重測法法十分強調(diào)調(diào)特質的穩(wěn)穩(wěn)定性，所所以，用這這種方法求求取的信度度系數(shù)就叫叫做穩(wěn)定性性系數(shù)大家討論一一下重測信信度的局限限性復本信度復本信度是是指通過使使用兩個平平行形式的的測驗來測測查同一批批被試，這這樣也可獲獲得同一批批被試的兩兩批獨立值值，從而通通過求相關關系數(shù)，估估出測驗的的信度。這要求兩個個測驗所測測的東西實實質完全相相同，只是是使用的具具體測驗項項目不同。。這種用平行行形式相關關求得的信信度系數(shù)，，因為特別別強調(diào)兩測測驗形式的的等值關系系，所以又又叫等值性性系數(shù)。內(nèi)部一致性性系數(shù)利用單一測測驗內(nèi)的項項目之間的的一致性關關系來估出出測驗信度度。常用的有折折半相關系系數(shù)，a系系數(shù)折半相關系系數(shù)“折半”是是指將一個個測驗拆成成兩個半測測驗，再計計算兩個半半測驗的相相關系數(shù)，，通過此相相關系數(shù)來來估計整個個測驗的信信度。拆分測驗，，可以采用用項目序號號拆分，奇奇數(shù)項目構構成半個測測驗，偶數(shù)數(shù)項目構成成另外半個個測驗，例例如：rxx=0.86由“半測驗驗”得來的的相關系數(shù)數(shù)，還需要要進行校正正，才能得得到估計““全測驗””的信度系系數(shù)，校正正公式是：：ru是經(jīng)校正后后的“全測測驗”信度度系數(shù)值rxx是“半測驗驗”上的信信度系數(shù)值值a一致性系系數(shù)用折半法求求測驗信度度系數(shù)，可可以利用單單一測驗形形式作施測測所得數(shù)據(jù)據(jù)來進行，，顯得簡單單有效。但但問題是要要把一個現(xiàn)現(xiàn)成的測驗驗分拆成真真正平行等等值的兩半半，卻并不不容易。那那能否不作作分拆而直直接利用單單一形式作作一次施測測所獲資料料來估計測測驗信度呢呢？于是就有人人研究提出出了求a-系數(shù)的辦辦法，公式式是：a就是是測驗信度度系數(shù)n是測測驗所含項項目個數(shù)是被試在第第i個項目目上得分的的方差是被試總分分的方差折半法（經(jīng)經(jīng)校正）求求信度系數(shù)數(shù)，可以看看成在測驗驗內(nèi)部求項項目間的相相關；研究究說明，求求a-系數(shù)數(shù)，也可看看成在測驗驗內(nèi)部求項項目間的相相關。因此此，折半相相關系數(shù)和和a-系數(shù)數(shù)都被叫做做測驗的內(nèi)內(nèi)部一致性性系數(shù)。測驗的內(nèi)部部一致性系系數(shù)取值高高，說明測測驗項目同同質性好，，都在有效效測查同一一特質。信度系數(shù)的的應用信度系數(shù)取取值大，所所得測值偏偏離真分數(shù)數(shù)值的幅度度就小，誤誤差就得到到了較好控控制。而實實際測驗中中所得測值值偏離真分分數(shù)的程度度，被叫做做測量標準準誤差?？煽捎洖镾EM，它跟跟信度系數(shù)數(shù)之間顯然然存在著必必然的聯(lián)系系。這種關關系可定量量地表示為為：rxx是測測驗驗的的信信度度系系數(shù)數(shù)；；SX是被被試試在在該該測測驗驗上上所所得得觀觀察察分分數(shù)數(shù)的的標標準準差差。。假設設52名名被被試試在在拼拼寫寫測測驗驗中中，，所所得得分分數(shù)數(shù)的的標標準準差差SX=9.48,已已知知拼拼寫寫測測驗驗的的信信度度系系數(shù)數(shù)rxx=0.92，，按按照照上上述述公公式式，，該該測測驗驗的的測測量量標標準準誤誤為為：：也就就是是說說，，該該拼拼寫寫測測驗驗所所測測52名名被被試試的的真真分分數(shù)數(shù)，，并并不不恰恰好好就就是是所所測測到到的的觀觀察察值值。。觀觀察察分分數(shù)數(shù)與與真真分分數(shù)數(shù)有有一一定定程程度度的的偏偏離離，，大大約約偏偏離離2.68分分。。就就最最高高分分59分分的的被被試試來來說說，，其其真真分分數(shù)數(shù)值值應應為為59+2.68＝＝61.68（（分分）），，或或59-2.68＝＝56.32（（分分）），，或或其其間間的的任任何何一一個個值值。。從以以上上公公式式可可以以看看出出，，測測量量標標準準誤誤的的大大小小，，取取決決于于測測驗驗值值信信度度系系數(shù)數(shù)rxx取值值的的高高低低。。rxx值越越高高，，則則觀觀察察分分數(shù)數(shù)偏偏離離真真分分數(shù)數(shù)越越小小。。假設設上上述述例例子子中中測測驗驗的的信信度度為為0.82，，則則其其SEM＝＝4.02；；如如果果信信度度為為0.98,則則其其SEM＝＝1.34.一個個測測驗驗其其信信度度系系數(shù)數(shù)rxx的取取值值處處在在0.00和和1.00之之間間；；當當然然值值越越高高越越好好。。一一般般來來說說，，公公開開大大規(guī)規(guī)模模使使用用的的標標準準化化測測驗驗，，其其信信度度系系數(shù)數(shù)的的取取值值不不應應小小于于0.90；；主主要要用用來來起起預預測測作作用用的的標標準準化化測測驗驗，，希希望望能能更更大大一一點點，，最最好好能能接接近近或或大大于于0.95；；當當然然，，教教師師自自編編的的課課堂堂測測驗驗，，對對其其信信度度系系數(shù)數(shù)值值的的要要求求就就不不能能過過高高測驗效度測驗效度，就就是測驗實際際上測到它打打算要測的東東西的程度。。真正測到了要要測的東西，，就是有效、、效度高；否否則，就是無無效或不十分分有效，就是是效度低。顯顯然，測驗只只有真正測到到了要測的特特性、特質、、結構，測驗驗結果即測驗驗分數(shù)的應用用與解釋，才才能起到它應應起的作用，，才能發(fā)揮出出有效性。因此，測驗效效度就是測驗驗工具的正確確性問題，是是測驗分數(shù)的的真實有效性性問題，是測測驗質量高低低的根本表現(xiàn)現(xiàn)所在，是測測驗性能的最最重要的指標標。心理與教育測測量具有間接接性特點，所所測對象是被被試的內(nèi)部心心理特性、特特質或結構，，測量工具是是否真正測到到了它，絕非非一目了然，，而且，這種種特性、特質質、結構本身身到底什么樣樣，許多都沒沒有公認的定定義，甚至還還存在嚴重的的分歧。如語言能力和和水平，就是是一個不很清清楚概念，它它的內(nèi)涵與外外延是什么，，存在著分歧歧，那測量語語言能力就存存在著很大的的困難。也許許目的是測量量語言能力但但是實際測到到的是語言知知識。效度的種類根據(jù)驗證測驗驗效度的角度度與方法的差差異，可以把把效度驗證工工作大體分為為三類，即內(nèi)內(nèi)容效度、效效標關聯(lián)效度度和結構效度度。三種效度度說明的都是是測驗的正確確性，不過是是從三個不同同的方面來說說明而已。內(nèi)容效度———通過對測所所含項目作內(nèi)內(nèi)容的系統(tǒng)考考察，以確定定由這些項目目所構成的測測驗，是否是是測驗應測特特質行為領域域的代表性樣樣本。代表性程度高高，就是內(nèi)容容效度好；代代表性程度低低，就是內(nèi)容容效度差；根根本不具任何何代表性，就就是全無內(nèi)容容效度。內(nèi)容效度內(nèi)容效度的分分析首先就要要求測驗所測測特質涵蓋的的整個行為領領域有明確的的范圍，有比比較清楚的組組織結構。但但許多心理特特質，如“智智力”、“創(chuàng)創(chuàng)造力”等，，都是外延范范圍不明、內(nèi)內(nèi)部結構復雜雜，人們對其其看法很不統(tǒng)統(tǒng)一、無法滿滿足上述要求求的測量對象象。所以，內(nèi)內(nèi)容效度主要要適應于對學學業(yè)成就測驗驗的正確有效效性的分析。。主要分析測測驗項目所考考核的知識技技能覆蓋面、、能力水平的的考核情況、、以及各部分分內(nèi)容的深度度廣度與結構構比例等。分析的辦法一一般是請學科科專家作出系系統(tǒng)評判；側側重定性分析析，也輔之以以定量評價；；還可以采用用恰當辦法把把不同遙意見見綜合起來。。有一個跟內(nèi)容容效度有關的的概念叫表面效度，指的是從被被試或非專業(yè)業(yè)人員看來，，測驗表現(xiàn)得得是否在有效效地測驗著應應測的東西。。在那些需要被被試盡其所能能對所測問題題正確作答的的測驗中，比比如學業(yè)成就就與智力測驗驗中，它有改改善與被試合合作關系的作作用。由于合合作改進，測測驗質量也就就更有保證。。這樣的測驗驗，應力爭有有高的表面效效度。而人格格測驗和態(tài)度度測量等，有有時被試并不不愿意直陳自自己內(nèi)心想法法，所以就不不必明白在測測查什么，不不必追求高的的表面效度。。效標關聯(lián)效度度效標關聯(lián)效度度就是指測驗驗預測個體在在類似或某種種特定情境下下行為表現(xiàn)的的有效性。這這里的“預測測”既指同時時性的類似情情境下的行為為的“預測””，也指間隔隔一段時間特特定情境下的的行為的“預預測”。因此，效標關關聯(lián)效度又包包含“并存””效度和“預預測”效度這這兩個小類別別。效標關聯(lián)效度度是可以測量量的，可以通通過求取有待待驗證的測驗驗的測值與效效標測驗所得得的測值之間間的相關系數(shù)數(shù)獲得。得到到的相關系數(shù)數(shù)，就叫效度度系數(shù)結構效度結構效度指的的是測驗測行行心理學理論論所定義的某某一心理結構構或特質的程程度。這種結結構或特質的的例子有智力力、學術能力力傾向、人格格結構以及焦焦慮等。這種結構或特特質都是理論論上定義的，，其內(nèi)涵與外外延并不十分分確定，人們們之間的看法法也可能有分分歧；但又的的確反映了客客觀存在著的的心理現(xiàn)象與與事實，所以以又是可測的的。通過分析析這些結構與與特質的性質質，可以推論論出一些假設設，然后使用用測驗來檢驗驗這些假設。。倘若測驗結結果能證實這這些假設，那那么這就從一一個方面驗證證了測驗的結結構效度。比如，我們知知道，智力在在人們兒童和和青少年時期期，會隨年齡齡增長而發(fā)展展提高，因此此，智力測驗驗的分數(shù)也應應隨年齡增大大而增加，直直到個人成熟熟為止。如果果所編出的智智力測驗，施施測結果說明明情況果真如如此，能證實實這種看法，，我們就說從從發(fā)展成熟的的角度看，所所編智力測驗驗確具有較好好的結構效度度。效度系數(shù)與估估計標準誤驗證測驗實測測值與效標測測量值之間的的相關系數(shù)，，就是效度系系數(shù)。一般為為符號rxy表示。一般來說，測測驗即使相當當有效，效度度系數(shù)的取值值也很少能超超過0.70,一般取值值能達到0.40就

人人文庫> 全部分類> 行業(yè)資料 > 管理策劃

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

教育統(tǒng)計與測量測量質量

文檔簡介

溫馨提示

最新文檔

評論

教育統(tǒng)計與測量測量質量

文檔簡介

溫馨提示

最新文檔

評論

相關文檔