【世界銀行】從黑板到聊天機器人_第1頁
【世界銀行】從黑板到聊天機器人_第2頁
【世界銀行】從黑板到聊天機器人_第3頁
【世界銀行】從黑板到聊天機器人_第4頁
【世界銀行】從黑板到聊天機器人_第5頁
已閱讀5頁,還剩85頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

WORLDBANKGROUP ,以支持學生在六周內進行英語語言學習。干預措及初始學業(yè)成績較高的學生身上。研究結果人工智能輔助教學,在設計和使用得當?shù)那?。本文是教育全球部門的成果。這是世界銀行更大范圍提供研究開放獲取并促進全球從粉筆到聊天機器人:評估生成式人工智能對尼日利亞′?關鍵詞:大型語言模型、自適應學習、人工智能、教育技術、中學教育、因材施教。JEL分類:C93,I21,J24,O15,O33.*團隊感謝世界銀行的謝爾扎達·拉蒂夫和哈里勒·敦達爾教育實踐經理。團隊對喬恩·奧薩·奧維韋博士和詹妮弗·艾蘇安的協(xié)作表示感謝。在整個試點實施期間,以及感謝AlexTwinomugisha、RobertHawkins和CristobalCobo對干預措施提供的支持。該團隊感謝為該論文的先前版本提供評論的人員,包括DavidEvans、HalseyRogers、CarolinaLoRodriguez-Segura、NoahYarrow、JuanBaron和LucasGortazar。該團隊承認獲得了MastercardFound2全球教育領域正面臨學習危機。根據(jù)學習貧困指數(shù),低收入和中等收入國家的約70%的10歲兒童無法閱讀和理解適齡文本。世界銀行,2022).這些學習上的差距不斷累積,并在中學階段變得尤為突出,這一點有大量的國際、區(qū)域和國家評估作為佐證。在他具有里程碑意義的1984年研究中,Bloom證明接受一對一輔導的學生平均比在傳統(tǒng)課堂環(huán)境中的同齡人表現(xiàn)優(yōu)異兩個標準差。Bloom,1984).后續(xù)研究一致證實了一對一輔導的顯著益處(Nickow等人,2020然而,挑戰(zhàn)在于大規(guī)模實施一對一輔導既成本高昂,大多數(shù)教育系統(tǒng)也難以負擔。布魯姆將這一挑戰(zhàn)稱為“兩西格瑪問題”:如何在具有成本效益的方式下,大規(guī)模復制個性化輔導的收益。本文探討了生成式人工智能,特別是大型語言模型(LLM),是否能夠幫助解決該問題。我們評估了尼日利亞一項為期六周的課外輔導項目,該項目使用公開可用的LLM(ChatGPT-4)來支持學生學習英語。來自貝寧城九所公立學校的一年級中學生被邀請參加;在這批學生中,52%的合格學生表達了興趣,參與者從中隨機選取。被分配到干預組的參加者在計算機實驗室參加了十二次90分鐘的課程,并在教師的指導下參與與課程相關的活動。我們采用隨機對照試驗(RCT)設計來估計該項目對學習成果的因果影響。我們呈現(xiàn)了三組主要結果。首先,我們發(fā)現(xiàn)被選入?yún)⑴c該項目的學生的最終評估成績比干預結束后交付的評估高出0.31個標準差。我們發(fā)現(xiàn)該評估的所有部分都存在強烈的統(tǒng)計顯著意向治療(ITT)效應:英語技能(其中包含大部分問題,0.24σ),數(shù)字技能(0.14σ),人工智能技能(0.31σ)和每位學生考試的項目反應理論(IRT)復合分數(shù)(0.26σ)。我們還證明,干預措施在第三學期的常規(guī)英語課程考試中產生了強有力的積極結果。這個結果很重要,因為考試中評估的內容比干預期間所涵蓋的內容更廣泛,并且包括了全年的內容。我們計算了入選該項目的干預效應(ITT效應)對第三學期考試成績的影響為0.21個標準差。其次,我們檢驗了由某些預處理特征引起的效應異質性。3處理效應在所有基線績效水平上均為正且具有統(tǒng)計顯著性,但在先前表現(xiàn)較好的學生中更為顯著。類似地,處理效應在整個社會經濟地位代理指標分布上均為正且具有統(tǒng)計顯著性,但在社會經濟地位較高學生中更為顯著。最后,處理效應在女學生中更為顯著,彌補了她們基線績效的不足。第三,我們開展劑量反應分析。我們估計局部平均處理效應(LATE)估計值,重點關注實際參與干預課程的影響,治療組平均參與率為72%。利用參與數(shù)據(jù),我們估計劑量反應關系,發(fā)現(xiàn)參與天數(shù)與學習成果改善之間存在強烈的線性關聯(lián),每增加額外一天參與的效果量約為0.031個標準差。進一步分析預測,延長項目時長將帶來顯著收益,估計參與一整學年(取決于參與率)可使效果提升1.2至2.2個標準差。研究結果結合成本分析表明,該計劃具有很高的成本效益。為期六周的試點項目產生了相當于常規(guī)情況下1.5至2年學習收益的提升。該計劃每投入100美元可產生3.2個等效學習年(EYOS),超越了眾多可比干預措施。以學習調整學習年(LAYS)作為分析指標 ,該計劃可產生高達0.9年的高性能教育年。與來自低收入和中等收入國家的證據(jù)進行基準比較時,該試點計劃位列解決學習危機最具成本效益的解決方案之中。我們的研究為旨在識別試圖根據(jù)學生水平定制教學(無論使用技術與否)的項目的效果的文獻的不同分支做出了貢獻。為應對這一挑戰(zhàn)所做的努力包括開發(fā)“適切教學水平”(TaRL)方法,該方法已證明在印度、肯尼亞、加納和贊比亞等環(huán)境中能夠提高學習成果(Banerjee等人,2016).TaRL的實施方式varied,從將學生從課堂中帶出(Banerje于TaRL項目具有勞動密集型的特點,擴大這些項目仍然具有挑戰(zhàn)性。這一挑戰(zhàn)在全球教anerjee等人,2016),以及雇用志愿者而不是教師(Banerjee等人,2008).然而,于TaRL項目具有勞動密集型的特點,擴大這些項目仍然具有挑戰(zhàn)性。這一挑戰(zhàn)在全球教師短缺的情況下尤為突出,尤其是在撒哈拉以南非洲地區(qū)。最近估計表明,到2040年,該地區(qū)的國家每年將需要增加21%的中學教師(EvansandMendezAcosta,即將到來).教師短缺是 4進一步加劇了高離職率問題,并且二級水平所需的專業(yè)知識需求使得TaRL項目實施更加近年來,適應性學習軟件通過利用技術模擬一對一輔導,已成為解決輔導項目可擴展性問題的潛在方案。研究表明,計算機適應性學習系統(tǒng)可以提升學習成果。例如,一項針對印度中學生個性化技術輔助課后教學的研究報告稱,在4.5個月期間,數(shù)學成績提升了0.37個標準差,哈里語成績提升了0.23個標準差(Muralidharan等人,2019一個埔寨針對小學生數(shù)學教學的研究發(fā)現(xiàn),由于學生每小時的學習效率提高,對認知技能產2021).在薩爾瓦多,用于適應性學習的軟件被證明是有效的。環(huán)境具有異構類別和資質較差的教師(Buchel等人,2022).中國的實驗也發(fā)現(xiàn)對標準規(guī)學校時間內實施的情況(Mo等,2014).在厄瓜多爾,使用適應性學習軟件四個月的可能性導致了數(shù)學標準化考試成績的顯著正面影響(Angel-Urdinola等人,2023).其他沒有采用實驗方法的研究也估計了類似軟件程序的正效應,例如烏拉圭的一個項目顯示數(shù)學測試分數(shù)提高了0.2個標準差(Perera和Aboal,2019). 盡管取得了這些成功,適應性學習項目仍面臨若干挑戰(zhàn)。首先,大多數(shù)項目并未部署在世界最具挑戰(zhàn)性的教育環(huán)境中,特別是在撒哈拉以南非洲地區(qū),這引發(fā)了對外部效度的疑問。其次,這些項目通常依賴專有軟件,其中既包括固定成本也包含按學生計算的成本,這使得它們在資源受限的環(huán)境中難以規(guī)?;茝V。一些自適應學習方案利用人工智能(AI)來調整以適應學生的水平,但它們主要依賴于模式識別和預測算法,根據(jù)包含數(shù)千個項目的題庫為學生提供與其水平相符的練習。生成式人工智能的最新進展為使用軟件教學提供了一個有前景的途徑,同時通過使用自然語言與學生保持更類人的互動。大多數(shù)考察教育領域中生成式AI的研究都已在發(fā)達國家和實驗室環(huán)境中進行,評估了短期互動的影響(Kumaretal.,2023).在意大利,研究發(fā)現(xiàn)大型語言模型(LLMs)通過作業(yè)支持對學習成果有積極影響(Vanzo等人,2024).In 5美國,一種人類-AI方法,通過語言模型提供專家指導來支持導師,而不是直接為學生提供幫助,發(fā)現(xiàn)隨機分配獲得導師副駕駛服務的數(shù)學學生更有可能掌握課題(Wangetal.,2024).一項在哈佛大學本科生中開展的研究顯示,在家使用AI輔導工具的學生表現(xiàn)優(yōu)于僅接受主動學習課程的學生(Kestin等人,2024). 僅有少數(shù)研究評估了生成式AI在輔導學生方面的效果。在加納,每周獲得一小時手機訪問權限并被允許通過短信應用使用AI驅動的數(shù)學輔導工具進行獨立數(shù)學學習的學生,其成績提升幅度遠超未獲得訪問權限的學生,其效應量為¨0.36(Henkeletal.,2024).一項最近在土耳其進行的研究表明,包含僅四次的干預措施顯示,雖然大型語言模型(LLMs)可以改善數(shù)學學習成果,但如果它們被用作“拐杖”而非導師,則可能在長期內對學習產生不利影響(Bastani等人,2024).在實驗室環(huán)境下進行編碼課程時,也發(fā)現(xiàn)了類似的效果。Lehmannetal.,202,在使用旨在保護學習的提示來配合大型語言模型時,產生了更積極的影響。Bastani 因此,本文通過在南撒哈拉地區(qū)采用真實實驗設計,考察了在發(fā)展中國家背景下運用大型語言模型(LLMs)進行教育目的的早期項目之一的影響,從而為近期相關文獻做出了貢獻。本文旨在解決近期關于LLMs對學習效果影響新興研究綜述中識別出的一些挑戰(zhàn):缺乏客觀指標來補充主觀評估的影響,以及控制組和實驗組定義的不足(Weidlichetal.,2025),以及缺乏功率分析來確定適當?shù)臉颖玖浚―engetal.2024).此外,所使用的干預措施是一個免費的現(xiàn)成模型,僅需最少的定制化,并且沒有預構建的題庫,這可能有助于其可擴展性。此項干預措施的調查結果強調了針對發(fā)展中國家,特別是撒哈拉以南非洲地區(qū)學習危機所包含的若干關鍵政策啟示。該計劃在學習成果方面展現(xiàn)出顯著影響,即使面臨互聯(lián)網中斷和停電等挑戰(zhàn),突顯其在師資嚴重短缺和資源受限環(huán)境下的潛力。采用大型語言模型的AI輔導項目可通過提升教師生產力和提供個性化學習體驗來補充傳統(tǒng)教學,尤其在與指導性提示、教師監(jiān)督及課程內容相協(xié)調時更顯有效。該干預措施的成本效益和可擴展性前景可觀,通過利用本地員工和免費工具實現(xiàn)。6以最小化成本為前提,同時消除傳統(tǒng)自適應軟件所需的大量題庫。然而,政策制定者必須解決因數(shù)字素養(yǎng)差異和技術獲取不均而產生的潛在不平等問題。在基礎設施、教師培訓和包容性數(shù)字教育方面的投資對于確保公平獲取和降低加劇不平等風險至關重要。鑒于大型語言模型在教育領域的應用尚處萌芽階段,仍有諸多問題懸而未決,這也突顯了復制本研究(包括進行微小變體)的重要性。4討論成本效益,提出未來研究方向,并闡述政策啟示。本文其余部分的結構安排如下。第2描述了干預措施和實驗設計,包括所使用的數(shù)據(jù)。第34討論成本效益,提出未來研究方向,并闡述政策啟示。該研究分析了在遵循國家課程、每周兩次與大型語言模型互動以提升英語技能的課后項目的影響。該干預措施在尼日利亞的貝寧城實施,當時使用的是由GPT-4模型驅動的Copilot(一種LLM)。1該計劃于2024年6月至7月期間,歷時六周實施,目標群體為通常為15歲的一年級高中生。2干預旨在利用AI聊天機器人為虛擬導師,提升英語課堂的學習效果。所選工具為MicrosoftCopilot,由ChatGPT-4驅動,免費提供且僅需學生注冊。該項目在九所學校開展,學生根據(jù)各校電腦實驗室的數(shù)量分組,每場平均30名學生。每位學生每周最多允許參加兩次1.5小時的課后活動。學校的選擇基于計算機實驗室的可用性。這些實驗室在使用的設備類型上有所不同,從筆記本電腦到臺式計算機不等?;ヂ?lián)網接入,對于與大型語言模型進行實時交互至關重要,是通過路由器提供的。1GPT-4在各種專業(yè)和學術基準測試中表現(xiàn)出人類水平的表現(xiàn),包括以約前10%考生的分數(shù)通過模擬律師2在表格中可以找到詳細的實施時間線。 和移動電話信號。然而,互聯(lián)網中斷和停電是在干預期間面臨的常見挑戰(zhàn)。盡管存在這些問題,學生能夠在大多數(shù)課程中與聊天機器人進行互動。所有學生的監(jiān)護人簽署了知情同意書,同意其子女參與試點項目。學生們兩人一組,共用一臺電腦,并通過與AI工具進行對話來增強學習。教師在其中扮演了關鍵角色,負責指導學生但并不直接授課,他們參與了為期三天的單次培訓課程。該培訓向教師介紹了大語言模型的功能,并使他們掌握教學方法,以確保其負責任地使用大語言模型并監(jiān)督課堂活動。同時,培訓也使教師意識到大語言模型可能存在的潛在風險,如幻覺和偏見。在第一次課上,教師向學生介紹了MicrosoftCopilot,強調了其教育益處和潛在風險,例如過度依賴模型以及出現(xiàn)幻覺和帶有偏見輸出的可能性。其目的是培養(yǎng)負責任的用法,鼓勵學生在使用AI工具的同時補充學習,并保留批判性思維能力。每次后續(xù)課程聚焦于第一學年英語課程中的某個主題,與學生在常規(guī)課堂所學內容保持一致。課程以教師提供的提示開始,隨后是學生與AI工具之間的自由互動。教師穿梭于課堂,確保學生的互動內容相關且專注。每位教師均獲得一個三部分組成的實施工具包 ,包括:a)關于Copilot和LLMs使用的精選在線學習資源;b)關注人工智能素養(yǎng)及其潛在風險與益處的手冊;以及c)課程指南,內含建議初始提示和可能需要的后續(xù)問題,以協(xié)助學生。教師若在課程實施過程中遇到任何問題,還可獲得相關聯(lián)系人支持,并建立了一個群聊以簡化溝通。學生也獲得了一份定制指南,其中包含初始提示。該教學指南及其提示經過精心設計,旨在將大語言模型定位為導師,重點在于促進學習 ,而非僅僅提供直接答案。這些提示基于學習科學的原則,并根據(jù)尼日利亞南部地區(qū)的文化背景進行了調整,融入了學生熟悉的姓名和習俗,以使其產生共鳴。3部分提示結 3在通過提示增強學習所采用的策略之一是鼓勵大語言模型利用\"理想的困難\",而不是僅僅提供直接答案 。這些是條件,8Mollick(2023a).該設計旨在鼓勵大型語言模型適應每位學生的學習水平,通過情境相關的示例和多樣化的教學技巧提供教學支持。學生通過與大型語言模型提問、完成練習和接收個性化反饋進行互動。在每個會話結束時,鼓勵學生反思和討論會話期間所學到的知識和遇到的挑戰(zhàn),以促進小組成員間的知識共享。為確保項目實施的準確性,首先對監(jiān)控員進行培訓,并提供監(jiān)控指南,然后指派他們使用KoboToolbox跟蹤學生出勤情況,并收集每次課程的相關信息。4該系統(tǒng)實現(xiàn)了實時數(shù)據(jù)收集,確保干預措施在各所學校按預期執(zhí)行,并提供了及時應對任何挑戰(zhàn)的機會。52.2樣本與隨機化試點項目的隨機化在九所選定學校的學生層面進行。這些學校中所有的一年級高中學生通過信息會了解到該計劃,并被給予十天的時間表達參與興趣。只有在該期間自愿表達興趣的學生才被納入隨機化池。為評估對課后項目表示興趣的學生是否系統(tǒng)性地不同于那些沒有表示興趣的學生,我們將參與抽簽資格(即后來表示興趣)的學生與不參與抽簽資格的學生在項目前的考試成績進行比較。表12報道了基于基準學術成果對資格狀況進行回歸分析所得的估計值。在第一項中,后來表達興趣的學生比他們的同伴高出0.085個標準差(p<0.1見圖).然而,在第二學期——仍然在彩票之前——這種關系逆轉:學生雖然看似充滿挑戰(zhàn),但要促進更具持久性和靈活性的學習(Bjork,1994).例如,最初的和建議的提示中包含了基于證據(jù)的原則,例如檢索練習——當通過選擇題和簡答題測驗實施時,已被證明對高中學生是einetal.,2018).然而,我們相信未來干預措施的迭代具有巨大潛力,能夠更充分地利用基于證據(jù)的策略來改善學習成果。例如,雖然在我們的項目中,每一節(jié)課程都專注于單一的課程主題,但未來的項目可以嘗試各種變化,例如結合交錯訓練(Weinsteinetal.,2018)和間距規(guī)范(Kang,2016).這些方法將允許在單次會議中涵蓋多個主題,隨著時間的推移回顧和強化它們,以增強長期記憶和理解。5監(jiān)測數(shù)據(jù)包括教師和學生的出勤率、準時性、電源和互聯(lián)網狀況,以及參與者的參與度等因素。4關于此工具的詳細信息,請參見Das(2024).5監(jiān)測數(shù)據(jù)包括教師和學生的出勤率、準時性、電源和互聯(lián)網狀況,以及參與者的參與度等因素。 9未表示興趣的得分高出0.147個標準差(p<0.01見圖)7).各項指標缺乏一致的定向模式表明,被選入該項目的選擇與學術表現(xiàn)并非具有很強的或系統(tǒng)性的相關性。盡管我們的分析集中于對表示興趣的群體的處理效應,但由于缺乏明確的學術選擇標準,研究結果可能推廣到這一群體之外。然而,我們缺乏對未表示興趣學生的人口統(tǒng)計數(shù)據(jù),這限制了我們在其他維度上評估其代表性的能力。一旦表達興趣的期限屆滿,采用不放回簡單隨機抽樣進行隨機分組。6在感興趣的學生中,將他們分配到治療組(參與項目)或對照組(未接受任何干預,但繼續(xù)在教室進行常規(guī)學習)。學生們完成了一份基線調查和一份終期調查,其中包含社會人口統(tǒng)計信息。最初,657名學生被分配到治療組,671名學生被分配到對照組。然而,只有422名治療組學生和337名對照組學生完成了最終評估,這構成了用于分析的最終樣本。表1提供兩組關鍵可觀察特征的綜合統(tǒng)計數(shù)據(jù)和平衡性檢驗。人口統(tǒng)計變量包括性別、年齡和社會經濟地位(SES)指數(shù)。該指數(shù)是從家庭特征的主成分分析中推導得出的,例如獲得商品(電腦、手機)、服務(互聯(lián)網連接)、學習空間和父母教育程度等。7SES指數(shù)以及其他變量,例如女生比例和年齡,顯示樣本在處理組和控制組之間是平衡的 ,差異較小且不具有統(tǒng)計顯著性。這些結果證實隨機化過程在關鍵特征上實現(xiàn)了平衡,支持后續(xù)處理組和控制組之間比較的有效性。除社會人口統(tǒng)計信息外,干預前的第一次和第二次考試成績用于衡量基線學業(yè)表現(xiàn)。治療組和控制組學生在第一次考試的平均基線分數(shù)之間的差異為0.131(SE=0.073),在第二次考試中,6隨機化過程未采用分層,而是使用計算機化系統(tǒng)進行。盡管隨機化過程未包含固定的隨機種子,但分配結果已記錄并保存,以確保分配的可重復性和透明性,這符合建議要求。Bruhn和McKenzie(2009).7參見關于使用主成分分析法構建SES指數(shù)的討論。Vyas和Kumaranyake(2006). 0.096(SE=0.073)。這些差異在統(tǒng)計上也不顯著,表明在項目開始前,兩組學生的學業(yè)表現(xiàn)是相當?shù)摹?.3學習數(shù)據(jù)作為因變量在六周干預結束時,參與和非參與學生完成了一項標準化評估,旨在測量三個關鍵結果:(a)與尼日利亞相應時期課程相一致的英語語言能力(我們的主要關注結果),(b)對人工智能的知識,以及(c)對基本數(shù)字概念的理解(從現(xiàn)在起為方便起見,簡稱“數(shù)字技能”)。多數(shù)問題旨在評估英語能力。為最大限度降低作弊風險,創(chuàng)建了該評估的多個版本,每個版本都包含隨機順序的問題。此外,在學校設置了監(jiān)控人員以監(jiān)督評估的實施并確保符合測試規(guī)程。該評估采用傳統(tǒng)的紙筆格式進行,由專家根據(jù)尼日利亞課程設計 ,包含多項選擇題。對于每位學生,基于其在所有主題上的正確答案百分比,生成了一個簡單的分數(shù),同時為三個領域(英語語言、AI知識和數(shù)字技能)分別生成了單獨的分數(shù)。除了這些未加權的分數(shù)外,還針對每個領域和整體評估計算了加權分數(shù)。這些權重基于每個測試項目的預先估計難度,該難度由測試設計者在實施前確定。使用項目反應理論(IRT)為每個主題計算了額外的熟練度分數(shù)。8這種方法通過將學現(xiàn)了跨學生的可比性?;贗RT(項目反應理論)的分數(shù)通過綜合考慮學生的回答以及評生的表現(xiàn)置于一個共同的尺度上,并考慮到每道題目的現(xiàn)了跨學生的可比性?;贗RT(項目反應理論)的分數(shù)通過綜合考慮學生的回答以及評估項目的不同難度水平,為英語語言能力——以及人工智能和數(shù)字技能知識——提供了一個更細致的衡量方式。除了針對干預措施的評估外,還從學生的期末英語考試成績中推導出了一個附加的因變量。該考試由學校獨立進行,涵蓋了整個學期的內容,其時間范圍超出了課后項目的六8對于IRT模型的更詳細解釋,請參見范德林登和哈姆布爾頓(2015).關于在教育學隨機對照試驗中使用IRT的重要性之討論,參見Muralidharan(2017).3.1模型與主要結果我們使用以下回歸估計干預措施的意向治療(ITT)效果:sss第二任期(),andatermβ作為我們主要感興趣的一個變量——一個指標s盡ik管干預前治療組與對照組的學術表現(xiàn)差異未達到統(tǒng)計學意義,但治療組的表現(xiàn)仍略占 k 表2該報告旨在評估干預措施在三個主要結果上的意向性治療效應:最終評估總分(加權和IRT量表)以及第三學期考試成績。第二學期考試的系數(shù)在所有模型中均顯著,反映了先前表現(xiàn)的預測效度。所有模型均包含學校固定效應,觀測值數(shù)量根據(jù)結果的不同在636至654之間變化??偡郑訖啵┑闹委熜獮?.31個標準差(SE=0.068),并在使用項目反應理論(IRT )進行標準化后,仍然為正且顯著(0.263個標準差,SE=0.068)。這些結果表明,干預措施顯著提升了學生在與項目直接相關的評估中的表現(xiàn)。重要的是,干預措施對第三學期考試分數(shù)也產生了積極且顯著的影響,效應量為0.206個標準差(SE=0.067),盡管該考試并未局限于干預措施的具體內容。這表明干預措施可能培養(yǎng)了可推廣的技能或改善了超出目標內容的學習成果。表3通過將總分分解為英語技能、數(shù)字技能和人工智能技能,它提供了更細致的分析。結果表明,干預對人工智能知識的影響最大,系數(shù)為0.309個標準差(SE=0.077),其次是英語技能(0.238σ:,SE=0.068)和數(shù)字技能(0.139σ,SE=0.076).對英語技能(我們主要關注的結局指標)和AI技能的影響在1%水平上具有統(tǒng)計學顯著性。對數(shù)字技能的影響在10%水平上具有統(tǒng)計學顯著性。對AI和數(shù)字技能的積極且顯著的影響進一步表明,這些技能領域可能對其他技能領域產生潛在的溢出效應,盡管這些技能領域并非該項目的首要目標。與表2,第二學期考試成績是結果的重要預測指標,且包含了學校固定效應以解釋學校層面的不可觀測因素。這項試點研究的結果尤為顯著,因為若干因素可能削弱了估計的治療效應。首先,隨機化是在學生層面而非學校層面進行的,這一設計特征可能導致溢出效應,因為對照組學生在常規(guī)授課時間內可能與治療組學生互動,從而可能稀釋干預措施的影響。其次,監(jiān)控與評估數(shù)據(jù)顯示,由于部分教師缺乏執(zhí)行區(qū)別的意愿,尤其是在最初幾周,一些對照組學生無意中獲得了課后課程的參與機會。此外,在項目啟動的第一幾周發(fā)生了顯著的實施挑戰(zhàn),許多學生在創(chuàng)建賬戶以及與大型語言模型互動時遇到了困難。盡管存在這些挑戰(zhàn),干預措施產生了積極且顯著的結果,表明觀察到的效應應被視為干預影響保守的一項針對低收入和中等收入國家學前教育、小學和中學教育領域隨機對照試驗的最新綜述發(fā)現(xiàn),在整體測試分數(shù)方面,中位效應為0.10個標準差,在閱讀方面為0.14(EvansandYuan,2022).因此,本研究的結果至少處于所有隨機對照試驗的80%百分位數(shù),與人數(shù)在500至1000人之間的隨機對照試驗,結果仍高于其他80%的研究。當僅考慮對語言結果的影響時,結果接近所有研究的70%百分位數(shù)。作為第一步,我們進行了分位數(shù)回歸,以檢驗在不同結果分布點上處理效應。分析表明 ,該處理對所有分位數(shù)均有正向且統(tǒng)計顯著的效應,表明無論學生的初始表現(xiàn)水平如何 ,都能從中獲得廣泛益處。表4考察了性別、社會經濟地位和基線學業(yè)表現(xiàn)對處理效應的異質性。第(1)列通過處理指標與女性虛擬變量的交互項探索性別異質性。盡管在該設定下處理效應的主效應在統(tǒng)計上不顯著,但處理與身為女性的交互項在5%的水平上為正值且顯著(0.420),表明干預對女性學生產生的積極影響大于男性學生。該結果應謹慎解讀,因為其似乎受到樣本中一所僅收女生的學校的影響,該校在干預前表現(xiàn)劣于其第(2)列通過基線學業(yè)表現(xiàn)(以第二學期考試成績衡量)考慮異質性。治療組與第二學期考試成績的交互項為正且在5%水平上顯著,表明學業(yè)基礎較好的學生從干預中獲益更多。第(3)列通過社會經濟地位(SES)考察異質性,使用治療組與SES指數(shù)的交互項。該交互項為正(0.113)且在5%水平上顯著,表明來自較高社會經濟背景的學生體驗到更大的干預效應。這一發(fā)現(xiàn)與軼事證據(jù)一致,表明來自貧困家庭的學生通常是他們第一次接觸計算機。盡管這些學生在未參與干預的對照情況下仍取得顯著進步,但對技術的初始不熟悉可能削弱了干預的影響程度。迄今為止所有呈現(xiàn)的結果均為ITT估計,該估計基于治療組參與者平均參與率約為72%。在本節(jié)中,我們呈現(xiàn)LATE和OLS估計,這些估計衡量了實際參與課程的影響。這些估計利用了作為項目監(jiān)測和評估工作一部分收集的參與數(shù)據(jù)(見圖表)。5).此外,在進一步假設下,我們提供了在不同項目接觸水平上的預測治療效果。我們估計出出席天數(shù)與附加值之間的劑量反應關系,采用以下模型:得分(),andatermμ對于我們感興趣的主要變量——天數(shù)提供了證據(jù)表明存在劑量反應效應ik,每個額外一天的出席估計效應大小約為d=0.033。這一發(fā)現(xiàn)強調了持續(xù)參與的重要性 ,因為更多地接觸項目導致學生成果產生有意義的改進。這些估計值捕捉了處理的平均因果反應(ACR),它表示受工具影響的那些個體中,處理狀態(tài)發(fā)生單位變化(在本例中,為額外一天出席)的加權平均因果效應(instrument )AngristandImbens,1995).但是,如前所述,使用這些工具變量(IV)估計來預測不同出席水平的影響需要額外的假設。Muralidharan等人在不同學生之間如何變化的假設,因為平均處理效應(ACR)僅被識別于子集的執(zhí)行者(至少參加一次課程的學生)而非整個樣本,且(ii)關于天數(shù)參與與治療效果之間關系函數(shù)形式的假設,因為平均處理效應反映了不同處理強度水平的平均值。對于第一個假設,我們不能假設對非遵守者的影響與遵守者相同。這是因為我們有證據(jù)表明,表現(xiàn)不佳的學生從項目中受益較少(表4),以及先前考試中的較好表現(xiàn)與出勤率呈正相關(表9).因此,我們采取保守做法,假設那些被分配至治療組但未參加任何課程的非遵守者——若他們參加了該項目——將完全不會受益。在此假設下,并且考慮到非遵守者僅占被分配至治療組人數(shù)的3.5%,則每增加一天出席的估計效應量為0.031。盡管遵循Muralidharan等人的做法,(2019),另外兩方面的證據(jù)則與預期ACR適用于非依從者相符。第一,我們無法拒絕方程(3)的工具變量(IV)估計值與使用增值(VA)規(guī)范進行的最小二乘法(OLS)估計值相等,這表明平均處理效應和局部平均處理效應(ATE和LATE)可能相似。第二,在使用全樣本和使用僅限于處理組的數(shù)據(jù)來估計OLSVA規(guī)范中的常數(shù)項(對應于0出勤)時,該常數(shù)項相似。這表明不同依從率學生的潛在結果相等。關于天數(shù)與治療效果之間關系的功能形式,圖形表示表明存在線性關系(圖4).此外,雖然分數(shù)的增值在線性規(guī)定中與出勤天數(shù)高度相關,但添加二次項并不能提高擬合度,且二次項不顯著,如表所示。7從更理論的角度來看,鑒于大語言模型的適應性,線性效應也是可以預料的。因此,似乎可以合理地假設,雖然效應在不同學生之間存在差異,但每個學生的效應并不會隨著項目接觸的增多而遞減。來自干預的定性證據(jù)與這些結果一致,表明該項目的最初幾天對學習成果幾乎沒有或沒有可衡量的影響。這種滯后可能反映了學生熟悉技術和適應新的教學格式所需的時間。在此初始適應期之后,參加額外天數(shù)的效應保持持續(xù)積極,沒有出現(xiàn)平臺期的跡象。這表明,將干預實施期延長至六周之外可能會進一步放大學習收益。同時,鑒于參與最初幾天的無效效應,這也表明LATE估計值可能被低估了。在假設治療效應因對非依從者無效果而減弱,且存在線性劑量反應關系(這兩種情況在本語境中均顯得合理)的前提下,并遵循文獻(Muralidharan等人,2019),我們的工具變量分析預測,參加該計劃36周(相當于一個學年)將帶來約2.23個標準差的增益?;?2%的出席率(我們樣本中的經驗值)的更保守估計預測,參加該計劃21周(超過理論總時長36周)將帶來約1.55個標準差的增益。在50%出席率的更悲觀情況下,估計值仍為1.2個標準差。這些發(fā)現(xiàn)突出了持續(xù)實施所帶來的潛在效益。學習成果的變革性影響。為檢驗結果的穩(wěn)健性,我們進行了一系列檢驗,逐步調整基準模型以提升穩(wěn)健性并考慮潛在的偏誤來源。首先,對于所有展示的模型,我們采用穩(wěn)健標準誤來處理數(shù)據(jù)中的異方差性問題。其次,我們所有展示的模型中均包含了學校固定效應,并使用穩(wěn)健標準誤 ,以控制可能影響學生結果的不可觀測的學校層面特征。第三,我們將干預實施前的第二學期考試成績納入控制變量。盡管治療組與對照組之間的表現(xiàn)差異在統(tǒng)計上不顯著,但治療組學生的得分略高。如前所述,加入該變量使我們能夠采取保守方法,減輕任何潛在的(盡管不太可能)選擇偏誤風險。包含所有這些設定的模型是我們主要結果的依據(jù),見表2.此外,我們使用因變量的替代規(guī)格對模型進行了估計,以評估我們結果的穩(wěn)健性。對于感興趣的每個結果——總分、英語能力、數(shù)字技能和人工智能知識——我們分析了包含或不包含專家問題加權難度的模型規(guī)格。此外,我們還將項目反應理論(IRT)作為評分評估的替代方法。這種方法確保了估計結果不會受到測試設計或組成的過度影響。我們展示了加權總分的主要結果(表格第(1)欄)。2),均為0.31個標準差,以及項目反應理論(IRT)的量表結果(表2第(2)列)表8進行敏感性分析以測試處理效應的穩(wěn)健性,通過每次從樣本中迭代排除一所學校進行。所顯示的因變量是最終學習評估的加權總分,但使用其他設定也得到了相似結果。估計的處理效應范圍從排除IdiaCollege時的0.156(標準誤=0.085)到排除ImagueroCollege時的0.360(標準誤=0.072)。盡管在大多數(shù)情況下效應在1%水平上仍然具有統(tǒng)計顯著性,但排除IdiaCollege將效應大小和顯著性降低至10%水平。然而,考慮到IdiaCollege規(guī)模巨大(657所中的219所,或樣本的33%),其排除會削弱計算效力,這一結果是可以理解的。對于所有其他學校,估計系數(shù)穩(wěn)定在0.30左右并保持統(tǒng)計顯著性。 在1%的水平上??傮w而言,結果表明處理效應在大多數(shù)規(guī)格中保持一致且具有統(tǒng)計學上的顯著性,這表明研究結果并非由任何單一學校的影響所驅動。最后,由于處理組和對照組的流失率差異顯著,我們首先提供Lee邊界估計處理效應(ITTeffects)對結果變量的影響。這些邊界表明使用估計方法所得到的處理效應的范圍。Lee(2005)的邊界方法。該方法考慮了由于流失或被選入項目而可能產生的偏差。分析表明,即使采用這種保守的方法(表10此外,為評估我們的研究發(fā)現(xiàn)的穩(wěn)健性以應對參與者流失問題,我們基于觀察到的特征對最終評估階段參與的似然性進行建模。隨后,我們計算了逆概率加權處理效應,發(fā)現(xiàn)估計的ITT效應基本未發(fā)生變化(見表)。11).因此,即使在結項時存在非隨機流失,我們的主要結論仍然成立。本節(jié)對試點項目進行成本效益分析,與其他高劑量項目進行比較,并探討其可規(guī)?;囊恍┨魬?zhàn)與機遇。我們利用規(guī)劃與預算數(shù)據(jù)測算項目的名義成本,并根據(jù)比例(ValdiviaTeixeira,2019為657名學生實施為期6周的試點項目,每位學生的成本約為48美元,邊際成本估計為9美元。此外,將試點項目擴展到四個學季度將每位學生的成本增至124美元,這對于在沒有進一步改善學習成果的情況下(考慮到我們劑量效應結果的保守性)構建關于長期干預投資回報的政策討論尤為有用。表13提供試點成本明細以及我們針對四季度的項目估算。在試點實施過程中,固定成本占總體成本的43%(在假設的四季度項目中為39%),這為第二輪項目中的潛在成本降低提供了參考。9為了分析試點項目的有效性,我們遵循了Evans所使用的方法論。 9考慮到內容開發(fā)占所有固定成本的72%,并且對于年度實施來說將達到80%,這一點尤其相關。Yuan(2019).為了評估有效性,規(guī)模效應被轉化為EYOS(預期年數(shù)),它以給定干預措施所提供的學習成果來表示“常規(guī)業(yè)務”學校的年數(shù)。我們在英語方面的IT效應為0.238個標準差。108個標準差。10相當于尼日利亞增加了1.5年的常規(guī)教育時長,而0.31標準差的總得分提措施,例如結構化教學法,后者通常在整個學年持續(xù)實施。在本節(jié)余下部分,我們使用英語方面的效果數(shù)據(jù),因為這是我們主要關注的成果。該干預措施的成本效益,以每參與者投入100美元(理論上)所產生的預期有效學習年數(shù)(EYOS)來衡量,在假設規(guī)模報酬不變的情況下,預計可產生3.2EYOS。我們將測試分數(shù)的增長轉化為工資的增加EvansandYuan,2019)).我們估計英語水平的提高將導致工資增加14%。11額外年收入范圍在392至630美元之間。12在其工作生涯中,每位參與者的收入增長的現(xiàn)值介于7,767至12,517美元之間。13在考慮長期工資效應和我們的試點成本時,我們的試點項目的收益成本比是161至260。作為參考點,我們計算得出,即使在學習成果方面沒有進一步改進,運行該試點一年也能產生62至100的高收益成本比。為進行比較,該項目的投資回報率與美國近期的高劑量個性化輔導項目(包括使用技術,FryerandHoward-Noveck(2020)產生2.4至8的成本效益比。然家(LICs)和下中等收入國家(LMICs)的證據(jù)顯示,成本效益比在8至156之間變化(Glewweetal.(2010),杜弗洛等人。(2011),Banerjee等人(2007),EvansandYuan(2019)).與我們的研究結果一致,最近一項對全球150項教育干預措施的回顧(Angristetal.,2023)發(fā)現(xiàn),在合適水平教授并包含技術元素的課程能產生最大的效益成本。10本部分重點探討英語方面的結果,因為大多數(shù)使用EYOS和LAYS的文獻主要關注語言或數(shù)學技能。如果我們使用總體分數(shù),估計值將會更大。,肯尼亞是人均收入與尼日利亞最接近的國家(($6,200versus$6,020inPPP,current2023)。11FollowingEvans,肯尼亞是人均收入與尼日利亞最接近的國家(($6,200versus$6,020inPPP,current2023)。12這些值取決于所應用的勞動收入份額。世界銀行表估計其值為0.465。()Feenstra等人,2015),和國際勞工組織的估計值為0.748。盡管我們更傾向于國際勞工組織的方法,因為它對自雇收入進行了調整,但我們同時提供了這兩個數(shù)值。13我們采用3%的折現(xiàn)率,假設代表性代理人在20歲時進入勞動力市場,并擁有40年的工作壽命。我們還假設在一個人的一生中,工資對技能的回報是恒定的。LICs和LMICs之間的比率,加權平均值為65。如同任何其他中低收入國家一樣,尼日利亞學校中“按常規(guī)”一天的生產力低于表現(xiàn)優(yōu)異的國家。為了促進跨國比較,我們計算了LAYS(Angristetal.,2025;2020),該模型根據(jù)尼日利亞的學習質量調整了我們的項目在年受教育年限方面的學習收益。使用英語技能的學習收益(0.24σ),我們估計在兩種情況下LAYS的情況。如果影響僅持續(xù)一年,干預措施會產生0.3LAYS。相反,如果影響持續(xù)到剩余的學校預期壽命,該計劃將為每個參與者創(chuàng)造額外0.9年的優(yōu)質教育。14換句話說,我們的尼日利亞參與者平均獲得了(最高表現(xiàn)國家)0.9年的教育資源。最后,我們的項目每100美元產出0.6至1.9LAYS。如果我們將6周項目基于的估計替換為英語在劑量效應部分計算的估計,則考慮到觀察到的出席率,該項目一年的LAYS將應為1.25。超越比較微小的數(shù)量差異,鑒于各研究的潛在假設、估計不精確性和情境條件各不相同 ,評估結果時應關注其序數(shù)而非基數(shù)。通過這一視角,分析可為政策制定、預算分配和項目設計中的重大權衡提供依據(jù)。因此,試點項目的成本效益比和其他成本效率指標均處于基準線以上或更高水平,凸顯其在解決資源匱乏環(huán)境下的學習危機方面的潛在成本4.2未來研究方向本研究結果為未來研究提供了若干潛在方向。首先,將項目持續(xù)時間延長至六周以上,可探究更長時間的干預是否能帶來更顯著或持續(xù)的學業(yè)成果改進,以及隨著時間推移學習曲線的形態(tài)。更長的項目可能允許學生與聊天機器人進行更復雜的互動,從而進一步增強其教育效益。這些延伸研究應輔以對學生在與人工智能工具互動過程中的定性評估 ,以理解推動學業(yè)改善的因果機制,以及學生具體如何從虛擬輔導中獲益??紤]到我們的參與者處于十年級,我們使用3作為剩余的預期在校年數(shù)。其次,擴大研究范圍以納入更多樣化的學校群體,特別是農村地區(qū)的學校,將提高研究結果的推廣效度。通過調查該項目在不同教育環(huán)境中的有效性,有可能評估其在不同情境下的可擴展性和適應性。干預時間的延長以及學校群體的擴大都能提供有關其作用機技干預措施推出后可能出現(xiàn),可能包括教師態(tài)度、努力程度和行為等方面的潛在變化,即使作為常規(guī)教學的一部分。另一個值得探索的途徑是增加一個額外的治療組,該組由教師提供一對一輔導,且不使用技術。這將允許直接比較LLM驅動輔導與傳統(tǒng)教師主導輔導的有效性,為成本效益和教學效能提供有價值的見解,并有助于計算技術在教師生產力提升方面可能產生的影響。類似地,額外的治療組還可以幫助分離可能驅動該效果的多種因果機制,包括額外的教學時間和與教師支持的聊天機器人互動。理解干預措施的長期影響也至關重要。未來的研究應調查短期內觀察到的積極效果是否能夠持續(xù),從而對學生學術軌跡產生持久的改善。同樣,從政策角度來看,評估此類課后項目是否會導致長期內學生從有生產力的校內活動中投入的努力或時間發(fā)生轉變,以及校內項目是否可能作為替代方案提供更高的有效性,這將具有重要價值。15最后,進一步的研究可以探討學生是否會將其使用AI工具的技能——在沒有明確指導的情況下——從一個學科領域轉移到另一個學科領域。例如,未來的研究可以考察英語課中AI工具的熟悉程度是否提升了學生在其他學科(如數(shù)學或科學)的學習表現(xiàn)。這種跨學科應用AI將為LLMs在教育領域更廣泛的學習潛力提供見解。15關于課后項目與計算機輔助自適應學習的優(yōu)缺點討論,請參見Mo等人(2014). 這項試點干預措施的研究結果突出了若干對解決發(fā)展中國家,尤其是撒哈拉以南非洲地區(qū)學習危機具有前景的政策啟示。首先,盡管存在一些實施挑戰(zhàn),例如網絡中斷和停電,干預措施對學習成果產生了實質性的影響。這對于面臨嚴重教師短缺、高人口增長和教師流失率不斷上升的國家來說尤其令人鼓舞。政策制定者可以得出的一個關鍵啟示是,投資于由大型語言模型(LLMs)支持的人工智能輔導項目,可以顯著提高教師的生產力,這與最近的一些定性證據(jù)一致。Keppler等人,2024).通過將傳統(tǒng)課堂教學與基于人工智能的支持相結合,教育系統(tǒng)可以提供個性化學習體驗,尤其是在人力資源緊張的環(huán)境中。其次,該程序表明,LLMs在正確使用時可以提高學習效果。近期文獻中的一項辯論似乎表明,當LLMs被用作捷徑時,即在不鼓勵學生思考的情況下,用來快速解答學生的問題時,它們可能會損害學習效果。這些是例如以下研究所發(fā)現(xiàn)的結果Bastani等人(2024).一些研究也表明,當學生使用LLMs搜索信息時,可能導致推理和論證質量降低(Stad2024).相反,我們所評估的干預措施似乎表明,當通過提示(prompting)將其專門用作適應特定用例和上下文的導師時,大型語言模型(LLMs)可以改善學習效果。因此,這些發(fā)現(xiàn)與所強調的觀點一致。Gerlich(2025)教育策略應促進對人工智能技術的批判性參與,以避免認知卸載,這可能降低批判性思維能力。本文評估的干預措施利用了三個關鍵機制來實現(xiàn)有效的輔導。首先,提示被有意設計為引導大型語言模型提供基于學習科學原理的解釋和支持,而不是簡單地提供直接答案。其次,教師在監(jiān)控和引導學生使用大型語言模型方面發(fā)揮了重要作用,以確保其得到恰當和富有成效地使用。第三,每次課程的內容與官方課程大綱保持一致。16換句話說,我們認為整體干預措施——包括與LLM的交互以及教師通過具體提示提供的指導——正在推動結果。我們有理由相信,這些效果并非完全由額外的時間驅動16在這種情況下,雖然我們的干預在使用LLMs方面有所不同,但它更緊密地符合“計算機輔助教學”——融入教師的授課和課程——而不是“獨立運作的計算機輔助學習”。這一區(qū)別由Ba 種解釋表明,教師與技術之間可能存在互補性,而技術如何被使用和部署對于理解其影one-on-oneorinsmallgroups(Nickow等人,2020;KraftandLovison,2024).17種解釋表明,教師與技術之間可能存在互補性,而技術如何被使用和部署對于理解其影響至關重要。Muralidharan等人(2019),我們的結果也可以被解釋為表明在教育中使用技術——尤其是LLMs——可以提高講師的生產力。18第三,盡管這項干預是在試點規(guī)模下進行的,但其成本效益使其成為大規(guī)模實施的有希望的候選方案。盡管干預的效果隨著樣本量的增大通常會降低(EvansandYuan,2022),大型語言模型的快速發(fā)展以及實施過程的改進潛力表明,該項目的未來迭代可能具有更大的影響力。此外,該干預措施由本地員工(包括教師和監(jiān)控人員)實施,這可能有助于其可擴展性。類似地,使用免費工具,而非傳統(tǒng)的基于訂閱的計算機自適應軟件,可以顯著降低邊際成本。此外,大型語言模型在自適應學習方面具有獨特優(yōu)勢:它們消除了開發(fā)包含不同難度級別的大量題庫以準確將學生分類到不同表現(xiàn)層級的需要,這一要求Rodriguez-Segura(2022)強調對于傳統(tǒng)自適應軟件至關重要。這種可擴展性潛力對于尋求在資源受限環(huán)境中以經濟高效方式解決學習差距的政策制定者尤為重要。第四,雖然人工智能干預有潛力縮小學習差距,但政策制定者必須警惕此類項目可能無意中加劇不平等的地區(qū)。盡管干預措施可能提供帕累托最優(yōu)效益,但數(shù)字素養(yǎng)和技術接入方面的差異可能會加劇現(xiàn)有不平等。確保所有學生都能受益于人工智能助教、數(shù)字技能和人工智能素養(yǎng)課程的前提是,這些課程應在課程早期以實用和包容的方式引入,教師應接受培訓,利用數(shù)字技能改進其教學實踐并支持學生成為數(shù)字和人工智能素養(yǎng)者。此外,需要在基礎設施和設備上進行重大投資,以在區(qū)域間提供公平的技術接入。政策制定者必須確保將人工智能整合到此外,Rodriguez-Segura(2022)比較Bucheletal.(2022),一個來自薩爾瓦多的研究Ma等人(2024來自中國的這項研究表明,在傳統(tǒng)計算機輔助自適應學習中,對于國家能力相對較低的國家(如尼日利亞),額外的教學時間不太可能是提高成果的主要驅動因素。教育伴隨著解決數(shù)字鴻溝的舉措,尤其是在低收入和農村地區(qū)。這可能需要跨部門重新調整優(yōu)先事項,因為教育預算通常嚴重傾向于經常性支出,如工資。最后,生成式人工智能的迅速發(fā)展提供了一個獨特的機會來解決全球學習危機。通過利用負責任的人工智能應用,以大規(guī)模提供個性化、自適應的學習,各國政府可以采取果斷措施,改善那些傳統(tǒng)上面臨重大教育挑戰(zhàn)的背景下的學習成果。參考文獻技術報告,.ANGRIST,J.D.ANDG.W.IMBENS(1995變量處理強度模型中的因果效應,ageANGRIST,N.,D.K.EVANS,D.FILMER,R.GLENNERSTER,H.ROGERS,ANDS.SABAR-WAL(2025):“如何最有效地提高教育成果?——一項綜述?!奔夹g與教學的沖擊:來自農村隨機對照試驗的證據(jù)”BANERJEE,A.,R.BANERJI,J.BERRY,E.DUFLO,H.KANNAN,S.MUKHERJI,M.BANERJEE,A.,R.BANERJI,E.DUFLO,R.GLENNERSTER,ANDS.KHEMANI(2008):“參與式項目的陷阱:來自印度教育隨機評估的證據(jù),”工作論文14311,美國國家經濟BANERJEE,A.V.,S.COLE,E.DUFLO,ANDL.LINDEN(2007):“補救教育:“印度兩項隨機實驗的證據(jù),”經濟學24):A(2024):“技術能否促進規(guī)模?來自對高劑量輔導的隨機評估的證據(jù),”工作論文32510 ,美國國家經濟研究局。BJORK,R.A.(1994):“記憶與元記憶考慮因素在人類培訓中的應用,”.(2009):“追求平衡:隨機化的實踐BUCHEL,K.,M.JAKOB,C.KUHNHANSS,D.STEFFEN,ANDA.BRUNETTI(2022):“教師與學習軟件的相對有效性:來自實地實驗的證據(jù)”,由A.Pundhir、A.K.Mehto和A.Jaiswal編輯,學術生的學習能力”“學習?一項關于實驗研究的系統(tǒng)性綜述與元分析,”“追蹤的影響:肯尼亞一項隨機評估的證據(jù)”(2013):“通過有效的學習技巧提升學生學習效果:充滿希望的研究方向?!眮碜哉J知和教育心理學的指導,EVANS,D.ANDF.YUAN(與挑戰(zhàn),”全球發(fā)展中心工作論文,全球發(fā)展FEENSTRA,R.C.,R.INKLAAR,ANDFILMER,D.,H.ROGERS,N.ANGRIST“受教育年限(LAYS):定義教育的新宏觀衡量標準”GLEWWE,P.,N.ILIAS,ANDGURYAN,J.,J.LUDWIG,M.P.BHATT,P.J.COOK,J.M.V.DAVIS,K.DODGE,G.FARKAS,J.FRYER,ROLANDG.,S.MAYER,H.POLLACK,L.STEINBERG,ANDG.STODDARD(2023):“為時未晚:提升青少年學業(yè)表現(xiàn)”.學支持:關于人工智能影響的實驗證據(jù)?!盨pringer,373–381.d“如何提升兒童的認知和非認知能力?”KEPPLER,S.,W.P.SINCHAISRI,ANDC.SNYDER(2024):“逆向規(guī)劃與**”“關鍵人工智能:來自美國K12教師的案例研究證據(jù),”.”數(shù)學輔導項目的實驗證據(jù)。教育工作論文編號。習是否提高學習成果?來自一項隨機實驗的證據(jù)?”“對北京移民學校的調查”,47,34–48.LAI,F.,L.ZHANG,Q.Q5b):“教授更廣泛交流的語言、少數(shù)民族學生和整體教育表現(xiàn):來自青海省一項隨機實驗的證據(jù)LEE,D.S.(2005):“培訓、工資和樣本選擇:估計處理效應的嚴格界限,”.LEHMANN,M.,P.B.CORNELIUS,ANDF.J.STING(2024):“人工智能走進課堂:MA,Y.,R.FArlie,P.LOYALKA,ANDS.ROZELLE教育科技:關于中國計算機輔助學習的實驗證據(jù)中學和高中課堂的考試成績?!盓LLAND,S.ROZELLE(2014):“將計算機輔助學習整合到常規(guī)課程中:,來自陜西農村學校的隨機試驗的證據(jù),”MOLLICK,E.R.ANDL.MOLLICK(2023b)課堂教學中的策略:五種策略,包括提示。關于印度技術輔助教學的實驗證據(jù),影響:一項對實驗證據(jù)的系統(tǒng)綜述和元分析,”工作論文,美國國家經濟研究局。PERERA,M.ANDD.ABOAL(2019):“一個數(shù)學計算機輔助學習平臺對學生數(shù)學考試成績的影響,”MERIT工作論文2019-007,聯(lián)合國大學-馬斯特里赫特創(chuàng)新與技術經濟與社會研究學院(MERIT).Ev-“認知便利的代價:大語言模型“減少認知負擔但在學生科學探究中犧牲深度”CRCPress.VANZO,C.A.,S.P.CHOWDHURY,ANDM.SACHAN“導師可以提升學生參與度和學習成果,”WANG,R.E.,A.T.RIBEIRO,C.D.ROBINSON,S.LOEB,ANDD.DEMSZKY(2024):“T“torCoPilot:一種人類-人工智能方法,用于擴展實時專業(yè)知識,”WEIDLICH,J.,D.GASEVIC,ANDP.A.KIRSCHNER(2025):“ChatGPT在教育領域:尋找原因的影響,”《全球學習貧困狀況報告:2022年更新》,技術報告,世界銀表1:樣本描述性特征和觀測余額均值(處理組)均值(對照組)差值標準誤95%置信區(qū)間人口統(tǒng)計特征人口統(tǒng)計特征SES指數(shù)0.059-0.0750.1330.105[-0.073,0.339]基準測試分數(shù)第二次考試0.045-0.050基準測試分數(shù)學校學校處理組和控制組指的是被隨機分配參加Copilot的學生。注意sessions.用于評估本表中協(xié)變量平衡的人口統(tǒng)計學變量是在注意基線調查。SES指數(shù)使用主成分分析中的第一個因子進行估計。:(連接),家中的學習空間,以及父母的教育程度?;€測試分數(shù)為通過觀察學生在常規(guī)課程學??荚囍械谋憩F(xiàn)來衡量。干預前的條款。表2:主要結局的意向治療(ITT)效應總分總分第三學期考試(加權)(IRT量表)第二次考試0.470******學校固定效應√√√:?<<<p0.1;??p0.05???p<0.01。括號內為異方差穩(wěn)健標準誤。處理變量是一個虛擬變量,表示學生是否被分配參加Copilot課程。模型1中的結果為干預期期末學習評估的總分,如前所述。Section4.1模型2的結果是相同的評估分數(shù),但使用項目反應理論模型進行了縮放。模型3的結果是在干預之后進行的第三學期常規(guī)課程考試中獲得的分數(shù),該考試內容與干預材料無關。所有結果都標準化,使其均值為零,標準差為一。表3:意向治療(ITT)對特定領域的影響英語技能數(shù)字技能人工智能技能ScoreScoreScore第二次考試0.401***學校固定效應√√√:?<<<p0.1;??p0.05???p0.01.魯棒異方差性標準誤括號內。處理變量是一個虛擬變量,指示學生是否被分配參加Copilot課程。模型1中的結果是在干預中的最終學習評估總得分,如描述。Section4.1模型2的結果是相同的評估分數(shù),但使用項目反應理論模型進行了縮放。模型3的結果是在第三學期的常規(guī)課程考試中獲得的分數(shù),該考試在干預之后進行,其內容與干預材料無關。所有結果均標準化,使其均值為零,標準差為一。表4:按性別、社會經濟地位和既往學生表現(xiàn)分解的處理效應異質性女性第二任期高級管理人員指數(shù)考試成績治療-0.039第二次考試0.477***治療*第二學期考試0.151**-0.293**SES指數(shù)-0.054**學校固定效應√√√p0.1;??p0.05???p0.01.異方差穩(wěn)健標準誤置于括號內。所有模型均使用干預組最終學習評估中的總分作為因變量,如前所述。Section4.1模型1中的交互項包含一個女性學生的虛擬變量。模型2中的交互項包含學生在第二學期常規(guī)課程學??荚囍蝎@得的分數(shù)。模型3中的交互項包含社會經濟地位指數(shù)(SES),該指數(shù)是通過主成分分析(PCA)的第一主成分估計得出的,該分析包括對某些商品(電腦、手機 )的獲取、服務(互聯(lián)網連接)、家庭學習空間以及父母教育程度的表5:參與項目場次的活動劑量反應分析:工具變量估計DependDepend人工智能技能英語技能ent人工智能技能英語技能entvariable:總分總分第三季度數(shù)字技能(加權)(IRT量表)考試分數(shù)分數(shù)分數(shù)出勤天數(shù)0.033***0.028***-0.372**學校固定效應√√√√√√R2

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論