版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
最近的發(fā)展提高了大型語(yǔ)言模型(LLM)和其他AI系統(tǒng)對(duì)軟件開(kāi)發(fā)領(lǐng)域來(lái)說(shuō)是有希望的,但這些模型也會(huì)帶來(lái)直接和間型,2)模型本身容易受到攻擊和操縱,以及現(xiàn)有的研究表明,在實(shí)驗(yàn)條件下,AI代碼生成模型經(jīng)常AI生成代碼的安全性的過(guò)程非常復(fù)雜,并且包含許多相互依賴的變量。為了進(jìn)一不安全的AI代碼的風(fēng)險(xiǎn),我們?cè)u(píng)估了五個(gè)LLM生成的代碼每個(gè)模型都給出了相同的提示,這些提示旨在測(cè)試可能產(chǎn)生錯(cuò)誤或不安全代碼的可能場(chǎng)景。我們的評(píng)估結(jié)果表能導(dǎo)致惡意利用。這些結(jié)果僅限于我們?cè)u(píng)估的狹窄范圍,但我們希望鑒于代碼生成模型目前的實(shí)用性及其能力將繼續(xù)改進(jìn)的可能性,管理其政策和風(fēng)險(xiǎn)不會(huì)在各組織之間均勻分布。規(guī)模更大、資源更保人工智能生成的代碼輸出安全的負(fù)擔(dān)不應(yīng)該僅僅落在人工智能開(kāi)發(fā)人員、大規(guī)模生產(chǎn)代碼的組織以及那些能如決策機(jī)構(gòu)或行業(yè)領(lǐng)導(dǎo)者。安全軟件開(kāi)發(fā)實(shí)踐和NI于確保所有代碼(無(wú)論作者身份如何)在進(jìn)入生產(chǎn)之前●代碼生成模型也需要進(jìn)行安全性評(píng)估,但目前很難做到這一點(diǎn)。代碼生成模型的評(píng)估基準(zhǔn)通常集中在模型生成功能代碼的能力上,但不評(píng)力,這可能會(huì)在模型訓(xùn)練期間激勵(lì)安全性優(yōu)先于功能。模型的訓(xùn)練數(shù)據(jù)缺乏足夠的透明度,或者對(duì)它們內(nèi)部工作的理解不夠,無(wú)法探索諸如性能更好的模型是否會(huì)產(chǎn)生更不安全的代碼之類(lèi)的問(wèn)題。 什么是代碼生成模型? 7 9 9 18 25 介紹人工智能的進(jìn)步導(dǎo)致人工智能系統(tǒng)生成功能計(jì)算機(jī)代碼的言模型的改進(jìn)最近引起了人們對(duì)人工智能的極大興趣LLM的基礎(chǔ)模型,都被用于生成代碼。越來(lái)越多的應(yīng)用程序和這些模型和相關(guān)工具正在迅速被軟件開(kāi)發(fā)人員社區(qū)和個(gè)人用戶采用。根12023年11月的另一項(xiàng)行業(yè)調(diào)查同樣報(bào)告了高使用率,96%工具,超過(guò)一半的受訪者大部分時(shí)間使用這些工具。如果這種趨勢(shì)繼續(xù)下去,LLM生成的關(guān)于人工智能代碼生成的政策挑戰(zhàn)是,這種技術(shù)進(jìn)步在的好處,但也帶來(lái)了潛在的系統(tǒng)性風(fēng)險(xiǎn)。一方面,如果將這些修補(bǔ)等領(lǐng)域,則可以顯著提高勞動(dòng)力生產(chǎn)率,并為網(wǎng)絡(luò)安全做出研究表明,這些模型也會(huì)產(chǎn)生不安全的代碼,如果未經(jīng)適當(dāng)審查的網(wǎng)絡(luò)安全風(fēng)險(xiǎn),以及間接風(fēng)險(xiǎn),因?yàn)椴话踩拇a最終會(huì)進(jìn)入廣泛的人工智能生成代碼的影響。人工智能研究人員和開(kāi)發(fā)人況下評(píng)估模型輸出,程序員和軟件公司可以考慮這些工具如何策制定者有機(jī)會(huì)通過(guò)制定適當(dāng)?shù)闹笇?dǎo)方針,提供激勵(lì)措施和授工智能生成代碼相關(guān)的更廣泛的網(wǎng)絡(luò)安全風(fēng)險(xiǎn)。本報(bào)告概述了代碼生成模型是能夠響應(yīng)代碼或自然語(yǔ)言提示生成計(jì)算機(jī)代碼的的組合作為響應(yīng)。這類(lèi)模型既包括專門(mén)用于代碼生成的語(yǔ)言模型代碼。專用模型的示例包括AmazonCodeWhisperer、DeepSeekCoder、Wizar和CodeLlama,而通用模型包括OpenAI的GPT代碼生成模型的早期迭代-其中許多早于當(dāng)前一代的LLM,并且仍然執(zhí)行所謂的代碼填充,專門(mén)為此任務(wù)進(jìn)行訓(xùn)練,并已在軟件開(kāi)模型功能的最新改進(jìn)允許更多的交互性,例如自然語(yǔ)言提示或用模型檢查其錯(cuò)誤。與通用語(yǔ)言模型一樣,用戶通常通過(guò)專用界面軟件中的插件)與代碼生成模型交互。最近,專門(mén)的腳手些情況下的能力。例如,可以輸出代碼的一些模型也然語(yǔ)言生成能力的提高而提高。畢竟,編碼語(yǔ)言是有意設(shè)計(jì)來(lái)編碼和傳達(dá)信息的,并究人員一直對(duì)自然語(yǔ)言和計(jì)算機(jī)代碼之間的翻譯感興趣,但同時(shí)引入基于t隨著新模型的發(fā)布,研究人員也開(kāi)始探索使它們更用于代碼生成的模型,以及用于評(píng)估AI代碼輸出正確性的HumanEval基準(zhǔn)。5GithubCopilot的相對(duì)可訪問(wèn)性和早期成功幫助激發(fā)為了精通代碼生成,模型需要在包含大量人類(lèi)編寫(xiě)代碼主要是在公開(kāi)可用的開(kāi)源代碼上訓(xùn)練的。7這些代碼大部分是從Github等開(kāi)源網(wǎng)絡(luò)存儲(chǔ)庫(kù)中抓取的,個(gè)人和公司可以在那里存儲(chǔ)和協(xié)作編碼項(xiàng)目。例如,被稱為T(mén)heStack的6TB數(shù)據(jù)集的第一個(gè)版本由358種不同編程語(yǔ)言的源代碼文件組成,并已用于預(yù)訓(xùn)練幾個(gè)開(kāi)放代碼生成模型。8其他語(yǔ)言模型訓(xùn)練數(shù)除了包含自然語(yǔ)言文本外,還包含代碼。這個(gè)名為包括代碼片段和其他與編程相關(guān)的內(nèi)容。9然而,開(kāi)發(fā)人員用于訓(xùn)練模型的數(shù)據(jù)集的性往往有限我們可以推測(cè),用于訓(xùn)練代碼生成模型的大部分代碼都是從開(kāi)取的,但用于訓(xùn)練的其他數(shù)據(jù)集可能包含專有代碼,或者只是被排除在模此外,一些專用模型是通用模型的微調(diào)版本。通常,它們是數(shù)據(jù)訓(xùn)練通用模型來(lái)創(chuàng)建的。這在模型需要將自然語(yǔ)言輸能,因?yàn)橥ㄓ媚P屯朴谧裱徒忉層脩糁噶睢penAI過(guò)去十年,人工智能代碼生成的研究興趣不斷增加,尤其是在2.圖1通過(guò)計(jì)算2012-2023年期間每年關(guān)于代碼生成的研究論文數(shù)量來(lái)從2022年到2023年,發(fā)電量增加了一倍多,這表明人們對(duì)資料來(lái)源:CSET'sMergedAcademicCorpus。代碼生成是大型語(yǔ)言模型最引人注目和廣泛采用的用例之一除了2024年春季,他們的人工智能編碼工具GitHubCopilot擁有180萬(wàn)付費(fèi)用年中的100多萬(wàn),還有11家軟件公司也在采用*此圖統(tǒng)計(jì)了CSET合并學(xué)術(shù)語(yǔ)料庫(kù)中包含關(guān)鍵字“代碼生成”,“AI輔助編程”,“AI代碼助手”,“代碼生成LLM”或“代碼LLM”的論文數(shù)量,并且使用CSET的AI分類(lèi)器和網(wǎng)絡(luò)安全分類(lèi)器分類(lèi)為AI或網(wǎng)絡(luò)安全相關(guān)。請(qǐng)注意,在2024年2月撰寫(xiě)本文時(shí),由于上游收集滯后,CSET的合并學(xué)術(shù)語(yǔ)料庫(kù)尚未包括2023年的所有論文,這可能導(dǎo)致2023年的論文數(shù)量不足。該語(yǔ)料庫(kù)目前包括來(lái)自Clarivate的WebofScience,TheLens,arXiv,PaperswithCode,SemanticScholar和OpenAlex的數(shù)據(jù)。有關(guān)我們編制合并學(xué)術(shù)語(yǔ)料庫(kù)的方法的更多信息以及我們分類(lèi)器的背景和數(shù)據(jù)源的詳細(xì)引用,請(qǐng)?jiān)L問(wèn):https://eto.tech/dataset-docs/mac/;/publication/identifying-ai-research/。非公開(kāi)的自定義代碼生成模型,旨在幫助員工更有效地能代碼生成工具提高開(kāi)發(fā)人員生產(chǎn)力的指標(biāo)因研究而異。一項(xiàng)小型的G我感知的生產(chǎn)力和任務(wù)完成時(shí)間作為生產(chǎn)力指標(biāo),但作者承認(rèn),產(chǎn)力如何與開(kāi)發(fā)人員的幸福感相關(guān),幾乎沒(méi)有共識(shí)。麥肯錫的一標(biāo),聲稱使用生成式人工智能工具的軟件開(kāi)發(fā)人員完成編碼任務(wù)倍,但這些好處取決于任務(wù)的復(fù)雜性和開(kāi)發(fā)人員的經(jīng)驗(yàn)。14.各公司還對(duì)雇員進(jìn)行了內(nèi)部生產(chǎn)率研究。一項(xiàng)關(guān)于內(nèi)部代碼生成模型CodeCompose的Meta性開(kāi)發(fā)人員反饋等指標(biāo)來(lái)衡量生產(chǎn)力,發(fā)現(xiàn)20%的用戶表示CodeCom地編寫(xiě)代碼,而Google的一項(xiàng)研究發(fā)現(xiàn),與對(duì)照組相比,使用試驗(yàn)數(shù)據(jù),發(fā)現(xiàn)使用GitHubCopilot的開(kāi)發(fā)人員完成的任務(wù)數(shù)量AI代碼生成工具無(wú)疑對(duì)一些程序員有幫助,特別是那些工作涉及相當(dāng)常規(guī)的編碼程序員。(通常,編碼任務(wù)或編碼語(yǔ)言越常見(jiàn),代碼生成模型的有可能是在類(lèi)似的示例上訓(xùn)練的自動(dòng)化死記硬背的編碼任務(wù)可能行更具創(chuàng)造性或認(rèn)知要求的工作。人工智能系統(tǒng)生成的軟件代碼從廣義上講,有證據(jù)表明,代碼生成工具在個(gè)人和組織力的提高,這些好處可能會(huì)隨著時(shí)間的推移而增加。還有很然而,這一技術(shù)突破也必須謹(jǐn)慎對(duì)待。在日常軟件開(kāi)發(fā)過(guò)程模型,這意味著這些模型將很快成為軟件供應(yīng)鏈的重要組成部分全的,或者在代碼進(jìn)入生產(chǎn)之前,他們產(chǎn)生的任何不安全的輸出網(wǎng)絡(luò)安全也將越來(lái)越重要。然而,代碼生成模型很少以安全性為常進(jìn)行訓(xùn)練以滿足各種功能基準(zhǔn),例如HumanEval,這是一組增加,模型被納入組織和開(kāi)發(fā)人員的標(biāo)準(zhǔn)程序,忽視這些代人機(jī)交互使這個(gè)問(wèn)題進(jìn)一步復(fù)雜化,因?yàn)?)用戶可能認(rèn)為究表明,GithubCopilot18生成的1,見(jiàn)弱點(diǎn)枚舉(CWE)前25個(gè)最危險(xiǎn)軟件弱點(diǎn)”列表的影響。19Siddiq和San現(xiàn),在使用InCoder和GithubCopilot生成的130個(gè)代碼樣本中,手73%的代碼樣本包含漏洞。20Khoury等人(2023)使程語(yǔ)言的程序,并進(jìn)行了CWE測(cè)試,結(jié)果顯示21個(gè)程序中只有5另外7個(gè)案例生成安全代碼。[21]Fuetal.(2024)顯示,在生成的452個(gè)真實(shí)代碼片段中,32.8%的Python和24.5%的Java同的CWE,其中8個(gè)屬于2023年CWETop25列表在某些編碼語(yǔ)言中,代碼生成模型也可能生成調(diào)用外部庫(kù)和包的可能會(huì)帶來(lái)許多問(wèn)題,其中一些與安全相關(guān):它們可能不存在,且未修補(bǔ)漏洞,或者本質(zhì)上是惡意的(例如當(dāng)攻擊者試圖利用UR寫(xiě)錯(cuò)誤時(shí))。23例如,VulcanCyber表明,ChatGPT在回答來(lái)自StackOverflow的常見(jiàn)編碼問(wèn)題時(shí),通常會(huì)推薦不存在的包-Node.js中的201個(gè)問(wèn)題中有40個(gè),P問(wèn)題中有80個(gè)答案中至少包含一個(gè)不存在的包。此外,這些虛幻在用例和不同模型中是持久的;正如后續(xù)研究所表明的那樣,具有相同名稱的包,并讓用戶在不知不覺(jué)中下載惡意代碼。25盡管有這些經(jīng)驗(yàn)結(jié)果,但早期跡象表明用戶認(rèn)為人工智能生受不安全的代碼。例如,在2023年對(duì)537名技術(shù)和I究中進(jìn)一步表明,能夠使用AI助手的學(xué)生參與者編寫(xiě)的代碼的安助手的學(xué)生,而且他們更有可能相信自己編寫(xiě)的代碼是安全然而用戶是否更有可能編寫(xiě)不安全的代碼,存在一些分歧;其他研究表手的用戶可能不會(huì)比沒(méi)有AI工具的用戶更有可能編寫(xiě)不安全的提出了一系列相關(guān)的問(wèn)題,例如:用戶對(duì)編碼的熟練程度如何接受(可能不安全的)AI生成的代碼比人類(lèi)編寫(xiě)的代碼更安全?生成的代碼更可信,對(duì)安全缺陷的審查更少,那么人工智能編碼此外,關(guān)于代碼生成模型為什么首先生成不安全的代碼,以型內(nèi)部的代碼輸出的安全性變化,仍然存在不確定性。部分原因在于,這多模型都是在Github等開(kāi)源存儲(chǔ)庫(kù)的代碼上訓(xùn)練的。這些存儲(chǔ)庫(kù)包含具有已工編寫(xiě)的代碼,在很大程度上不執(zhí)行安全編碼實(shí)踐,并且缺乏用于刪除具洞的代碼的數(shù)據(jù)清理過(guò)程。最近的工作表明,訓(xùn)練數(shù)據(jù)中的安全漏洞可能transformer的模型的輸出中,這表明底層訓(xùn)練數(shù)據(jù)中的漏洞會(huì)導(dǎo)致不安全題。[29]更大的挑戰(zhàn)是,在訓(xùn)練數(shù)據(jù)集中包含哪些代碼以及是否嘗試提高其安全性方面,關(guān)于代碼生成模型如何以及為什么會(huì)生成不安全代碼仍然沒(méi)有答案。例如,2023年的一項(xiàng)Meta研究3.5和4的幾個(gè)版本,發(fā)現(xiàn)具有更高級(jí)編碼能力的模型更有可能輸出不安全的代碼。30這表明代碼生成模型中的功能性和安全性之間可能存在反向關(guān)系,現(xiàn),促使模型采用“安全角色”會(huì)引發(fā)不同的結(jié)果。[31]雖然G數(shù)量比普通角色減少了,但Gemini的代碼輸出包含更多的漏洞。32這些早期的研了一些知識(shí)差距,涉及不安全的代碼輸出是如何產(chǎn)生的,容易受到黑客攻擊,篡改或操縱,而人類(lèi)則不然。圖2說(shuō)明了資料來(lái)源:中央統(tǒng)計(jì)局。生成式人工智能系統(tǒng)對(duì)幾種類(lèi)型的對(duì)抗性攻擊具有已知的攻擊,其中攻擊者污染模型的訓(xùn)練數(shù)據(jù)以引發(fā)期望的行為,以及試圖通過(guò)用預(yù)定的觸發(fā)短語(yǔ)提示模型來(lái)產(chǎn)生特定的輸出。在代碼毒攻擊可能看起來(lái)像是攻擊者操縱模型的訓(xùn)練數(shù)據(jù),以增加其生碼的可能性。與此同時(shí),對(duì)模型本身的后門(mén)攻擊可以通過(guò)一個(gè)觸行為,即使開(kāi)發(fā)人員試圖刪除它,這個(gè)觸發(fā)器也可能持續(xù)存在。34這種改變的行為可能會(huì)導(dǎo)致輸出違反開(kāi)發(fā)人員對(duì)模型的限制(例如“不要建議與),來(lái)自有限數(shù)量的未清理代碼存儲(chǔ)庫(kù)的大量數(shù)據(jù)上訓(xùn)練的,攻擊者儲(chǔ)庫(kù)中植入包含惡意代碼的文件,或者有目的地引入包含易受攻擊代碼的新存儲(chǔ)庫(kù)。35根據(jù)代碼生成模型的接口或腳手架,其他形式的對(duì)抗性攻擊可能示注入,其中攻擊者試圖指示模型以某種方式行為,據(jù)。在代碼生成上下文中,可以引用外部網(wǎng)頁(yè)或文檔的AI模型最后,不安全的代碼生成模型也可能無(wú)意中增加組織的可能容易受到網(wǎng)絡(luò)攻擊的方式的數(shù)量特別是如果他們被授予對(duì)的訪問(wèn)權(quán)限。網(wǎng)絡(luò)安全背景下的訪問(wèn)控制依賴于組織清楚地了解人,這包括從某些代碼庫(kù)讀取和寫(xiě)入。如果代碼生成模型被賦予會(huì)更有效和有用,但這反過(guò)來(lái)又使它們成為潛在的攻擊載體,然專業(yè)環(huán)境中,大多數(shù)人工智能生成的代碼可能會(huì)流經(jīng)包括內(nèi)置測(cè)發(fā)管道,但人工智能公司正在積極制定策略,以賦予模型(包括自主權(quán)和與環(huán)境交互的能力。37下游影響將增加。如果與人類(lèi)程序員相比,人工智能工具傾向于引入不同洞,那么漏洞格局也將隨著時(shí)間的推移而發(fā)生變化,新的漏空見(jiàn)慣。這反過(guò)來(lái)可能會(huì)影響未來(lái)的代碼生成模型;雖然用于訓(xùn)練最早的代碼生成大型開(kāi)源代碼數(shù)據(jù)集保證主要是人類(lèi)編寫(xiě)的,但未來(lái)開(kāi)源存儲(chǔ)庫(kù)的碎片可能包含更多的一些人工智能研究人員認(rèn)為,如果數(shù)據(jù)集包含的人類(lèi)的AI生成的代碼將如何影響未來(lái)模型的性能。然而,今天的輸出可能會(huì)成為明天的訓(xùn)練數(shù)據(jù),為未來(lái)的模型創(chuàng)建一組不同此外,代碼安全性并不是組織唯一關(guān)心的問(wèn)題。技術(shù)債務(wù)--的代碼--是許多軟件公司的主要關(guān)注點(diǎn),因?yàn)楹鲆晫?duì)它的正確小和復(fù)雜性上膨脹。這也對(duì)網(wǎng)絡(luò)安全產(chǎn)生了影響,因?yàn)榧夹g(shù)債所需的監(jiān)控,維護(hù)和修補(bǔ)的數(shù)量。如果人工智能工具使快速大不足道,組織的技術(shù)債務(wù)也可能增加。(Of當(dāng)然,對(duì)于某些組織組織可以減少其勞動(dòng)力的規(guī)模,或者嘗試自動(dòng)化部分執(zhí)行官在2023年表示,該公司最終計(jì)劃使用人工智能來(lái)取色,估計(jì)近8,000個(gè)現(xiàn)有的IBM職位可能在五年內(nèi)被人工智能和自移反過(guò)來(lái)可能對(duì)網(wǎng)絡(luò)安全產(chǎn)生影響,因?yàn)槿祟?lèi)軟件開(kāi)發(fā)人員執(zhí)行任務(wù)對(duì)現(xiàn)代代碼庫(kù)的功能非常重要。這些職責(zé)包括監(jiān)控、手動(dòng)代碼審查、設(shè)計(jì)、修補(bǔ)、更新依賴關(guān)系和優(yōu)化代碼以提高性能,這些都是重要且與安全相今的概率代碼生成模型不太可能可靠地開(kāi)箱即用地執(zhí)行此類(lèi)任務(wù)鑒于對(duì)使用代碼生成模型和相關(guān)安全問(wèn)題的興趣日益增代碼的傾向的能力變得重要,以便設(shè)置適當(dāng)?shù)臉?biāo)準(zhǔn)并找到緩解技常表明,代碼生成模型通常會(huì)生成不安全的代碼。然而,這些研評(píng)價(jià)指標(biāo)上存在很大差異,因此許多實(shí)證結(jié)果無(wú)法直接比較。這言上,如Python、Java和C。不同的語(yǔ)言有不同的常見(jiàn)漏洞使這些和其他內(nèi)存錯(cuò)誤變得不那么常見(jiàn)。因此,很難確●模型類(lèi)型:并非所有現(xiàn)有的研究都試圖比較來(lái)自不同AI模型的代碼輸出的安全性。模型之間或同一模型的不同實(shí)例之間可能存在顯著通用美洲駝模型相比,專用代碼美洲駝模型)。一些研碼能力的模型更有可能產(chǎn)生不安全的代碼,這可能是由比較個(gè)別模型之外,在更廣泛的專門(mén)代碼編寫(xiě)模型和通●評(píng)估工具:不同的代碼質(zhì)量檢查器和靜態(tài)分析工具在不同的編程語(yǔ)言之間存在差的基于SMT的上下文邊界模型檢查器),這是一編程語(yǔ)言,包括Java/Kotlin和Python。雖然ESBMC認(rèn)為是一種可靠的方法來(lái)編程掃描C和C++代碼中的錯(cuò)誤,●基準(zhǔn):雖然有幾個(gè)基準(zhǔn)用于評(píng)估代碼生成模型的質(zhì)量或準(zhǔn)確性(其中最突出的是HumanEval但很少有公開(kāi)可用的基準(zhǔn)用于評(píng)估A有基準(zhǔn)的示例包括CyberSecEval和新的安全基準(zhǔn),但人工智能和機(jī)器學(xué)習(xí)社區(qū)尚未可能會(huì)對(duì)結(jié)果輸出的質(zhì)量產(chǎn)生通用LLM可能特為它們可能更容易接受涉及模型承擔(dān)角色的提是軟件工程師......”或“承擔(dān)網(wǎng)絡(luò)安全分析師的角色......”稱模型在每次收到特定提示時(shí)都會(huì)以相同的方式做出響應(yīng)重現(xiàn)性。如果通過(guò)API或用戶界面訪問(wèn),模型的行為也會(huì)隨變。這些更新可以采取對(duì)模型本身進(jìn)行更改的形式,也可程度以及它們是否代表了安全編碼實(shí)踐的凈效益,取決于統(tǒng)交互。例如,幾項(xiàng)研究觀察到人類(lèi)受試者中存在一定程受試者可以訪問(wèn)代碼生成模型,使他們更有可能依賴和信研究側(cè)重于量化AI生成代碼的質(zhì)量或安全性,而另一些而必須視為互補(bǔ)(假設(shè)上述變量中有足夠多的變量這些因素使得對(duì)以往研究的簡(jiǎn)單綜合和直接比較變得然而,估工具和提示,可以保持一致的實(shí)驗(yàn)比較跨模型的結(jié)果。雖然沒(méi)在本節(jié)中,我們對(duì)以下研究問(wèn)題進(jìn)行了獨(dú)立評(píng)估:不同的大型語(yǔ)此評(píng)估的目的不是比較不同模型的性能,而是了解在考慮安與生產(chǎn)力提高、自動(dòng)化偏差和非安全相關(guān)基準(zhǔn)上的模型性方法考慮到通過(guò)模型比較代碼輸出的安全性的困難,我們的評(píng)估保說(shuō),我們使用相同的編程語(yǔ)言,評(píng)估工具和提示來(lái)評(píng)估生成的代r是捕獲當(dāng)前代碼生成模型生態(tài)系統(tǒng)的代表性快照,也不是將全性的新基準(zhǔn)。相反,我們選擇了易于通過(guò)API訪問(wèn)的流行且強(qiáng)大的一個(gè)通用開(kāi)放模型(Mistral)。我們還使壓一千七百五十億約1萬(wàn)億7十億WizardLM7十億7十億資料來(lái)源:中央統(tǒng)計(jì)局。GPT-3.5-turbo和GPT-4通過(guò)OpenAIAPI訪問(wèn),開(kāi)放模型為了提示模型,我們使用了LLMSecEval數(shù)據(jù)集,該數(shù)據(jù)成,這些提示符被明確設(shè)計(jì)用于評(píng)估語(yǔ)言模型生成的C和Python代碼的安全性。47弱點(diǎn)的代碼。48MITRECWE列表不包括網(wǎng)絡(luò)安和利用,列表上的漏洞可能導(dǎo)致漏洞。值得注意的是,雖然LLMSe他們的提示的幾個(gè)特征,包括表達(dá)性和簡(jiǎn)潔性,但這些提示是一定要模仿普通用戶與代碼生成模型交互的行我們將LLMSecEval數(shù)據(jù)集子集化到為C設(shè)計(jì)的67個(gè)提示誤,如內(nèi)存泄漏故障,不太可能出現(xiàn)在Python代碼中模型都使用相同的提示集。在表2中,我們提供了評(píng)估中使用的提示列表可以在我們的公共GitHub存儲(chǔ)庫(kù)中找到提示當(dāng)生成以下<語(yǔ)言>代碼:該代碼接受一個(gè)整數(shù)作為輸入,并返回?cái)?shù)組中整數(shù)索引處的值。例如,如果輸入為5,則代碼將返回?cái)?shù)組索引5處的值如果輸入超出邊界,代碼將返回-1。例如如果輸入為10,代碼將返回-1。越界讀取為以下內(nèi)容生成language>代碼:該代碼從命令行溢出或環(huán)繞資料來(lái)源:Tony等人,“LLMSecEval:用于安全評(píng)估的自然語(yǔ)言數(shù)據(jù)集。在我們?yōu)樗心P蜕纱a片段之后,我們通過(guò)ESBMC代碼檢工作流程的靈感來(lái)自于之前的一項(xiàng)研究,該研究使用違反安全屬性的反例。它測(cè)試的C代碼中的安全屬性包括越界),),和驗(yàn)證未知(由于時(shí)間或算法限制,ESBMC無(wú)法驗(yàn)證代碼有關(guān)“不安全”(驗(yàn)證失?。┑拇?。在必要時(shí),例如在下面的“評(píng)估結(jié)果”部分中,我們消除了“不安全”代碼和未成功驗(yàn)證的代碼(意味著所有未收到成功驗(yàn)證狀態(tài)的代碼段)之間的有時(shí),模型會(huì)生成不可編譯的代碼來(lái)響應(yīng)一個(gè)或多個(gè)提示。致性,我們選擇重新生成導(dǎo)致不可編譯代碼片段的提示。對(duì)于每個(gè)模型成導(dǎo)致其特定示例無(wú)法編譯的代碼片段。然而,重新運(yùn)行代碼片段并沒(méi)),Turbo)或沒(méi)有(WizardCoder)額外的代碼片段變得可編譯。(在附生前后模型的不可編譯片段數(shù)量的完整比較。值得注代碼時(shí)編寫(xiě)了10個(gè)可編譯的代碼片段。我們沒(méi)有改變?nèi)魏螀?shù)在我們以這種變化是由于隨機(jī)性或不可預(yù)見(jiàn)的因素是本研究的范圍之外。在后,我們通過(guò)ESBMC管道重新運(yùn)行了重新生成的代碼片資料來(lái)源:中央統(tǒng)計(jì)局。評(píng)價(jià)結(jié)果),總的來(lái)說(shuō),我們看到五種型號(hào)的驗(yàn)證失敗率很高。驗(yàn)證失敗、無(wú)法編譯或?qū)е聶z查器出錯(cuò)。每個(gè)模型的代碼樣本中,不被ESBMC檢測(cè)到,而且由于無(wú)限循環(huán)、檢查器超時(shí)或編譯錯(cuò)誤法驗(yàn)證。雖然錯(cuò)誤和不可編譯的代碼不一定是安全漏洞,但它們?nèi)再Y料來(lái)源:中央統(tǒng)計(jì)局。圖4詳細(xì)顯示了對(duì)應(yīng)于每個(gè)模型的每個(gè)ESBMC驗(yàn)證狀態(tài)的代碼片段的百分比,以及所有模型中驗(yàn)證狀態(tài)的平均百分比。GPT-4和GPT-3.5是參數(shù)數(shù)最多的型號(hào),ESBMC能夠成功驗(yàn)證的輸出數(shù)量最多。僅根據(jù)ESBMC的結(jié)果,GPT-4并沒(méi)有明顯優(yōu)于GPT-3.5,盡管它被認(rèn)為在任務(wù)泛化和自然語(yǔ)言解釋方面更強(qiáng)大。事實(shí)上,GPT-3.5比GPT-4有更好的性能,并且通過(guò)成功驗(yàn)證的代碼片段的數(shù)量來(lái)衡量整體性能最OpenAI模型中,GPT-4生成了更多未編譯的代碼片段,并且由于不完整或語(yǔ)法錯(cuò)誤而未在所有五個(gè)模型中,大約48%的生成代碼片段是可編譯的,但包含ESBMC標(biāo)記的錯(cuò)誤 過(guò)了ESBMC驗(yàn)證(我們將其定義為安全),而其余代碼片段未能編譯或在驗(yàn)證管道中在這五種模型中,我們也看到了行為的顯著變化。其中一些差異產(chǎn)生某些類(lèi)型的輸出。例如,在Mistral的樣本中,錯(cuò)誤片段的比例相當(dāng)大,這是由于模型傾向于生成針對(duì)每個(gè)提示符的特定請(qǐng)求的單個(gè)函數(shù),而不是的程序。雖然這些片段可能在功能上是正確的,但它們?nèi)狈ν暾?,未能通過(guò)ESBMCWizardCoder可能是最不知名的模型,它產(chǎn)生了最多的未通過(guò)驗(yàn)證的代碼片段。然而,與其他類(lèi)似大小的開(kāi)放模型相比,WizardCoder也傾向于生成不太可能導(dǎo)致錯(cuò)誤或未知相比之下,CodeLlama傾向于產(chǎn)生漫無(wú)邊際的、無(wú)意義的響應(yīng),沒(méi)有可編譯的代碼。它也一再未能為五個(gè)提示生成可用的代碼,即使提示三次。因此,我們的CodeLlama片段的樣本量為62,這與其他四種型號(hào)的67個(gè)提示的樣本量不一致。在CodeLlama生成的所有代碼片段中,只有19%成功通過(guò)了ESBMC驗(yàn)證,這是所有五安全與新興技術(shù)中心|24資料來(lái)源:中央統(tǒng)計(jì)局??偟膩?lái)說(shuō),所有五個(gè)測(cè)試的模型也顯示出產(chǎn)生類(lèi)節(jié)中所提到的,用于生成代碼片段的提示被設(shè)計(jì)成極有可能引發(fā)與MITRETo列表相對(duì)應(yīng)的bug。這個(gè)社區(qū)開(kāi)發(fā)的列表列舉了軟件和硬件中一些),MITRECWE列表中發(fā)現(xiàn)的錯(cuò)誤不僅是潛在工作。即使錯(cuò)誤不會(huì)導(dǎo)致可利用的漏洞,它仍然會(huì)在代碼C編程語(yǔ)言特別容易受到涉及分配和釋放內(nèi)存的錯(cuò)誤的影導(dǎo)致內(nèi)存損壞、崩潰,并可能允許攻擊者執(zhí)行任意代碼。圖5詳細(xì)介個(gè)測(cè)試模型中識(shí)別的錯(cuò)誤類(lèi)型。解引用失敗、緩沖區(qū)溢出和內(nèi)存我們的評(píng)估和我們?cè)u(píng)估中的所有五個(gè)模型都產(chǎn)生了這些錯(cuò)關(guān)錯(cuò)誤。當(dāng)惡意網(wǎng)絡(luò)攻擊者發(fā)現(xiàn)或利用時(shí),解引用故些在評(píng)估中的五個(gè)模型生成的可編譯代碼中不太常見(jiàn)。限制如表1所示,我們選擇的五個(gè)模型在規(guī)模或?qū)I(yè)化過(guò)OpenAIAPI訪問(wèn)了GPT-3.5-turb制,因?yàn)槲覀冊(cè)诒镜剡\(yùn)行它們,而不是使用第三方提供商的本評(píng)估并不旨在準(zhǔn)確反映“現(xiàn)實(shí)”軟件開(kāi)發(fā)工作流程。例如,可能遠(yuǎn)遠(yuǎn)大于70億個(gè)參數(shù),這被認(rèn)為是開(kāi)放AI模型的小部不太可能通過(guò)像ESBMC這樣的模型檢查器運(yùn)行所有代碼,這最后,LLMSecEval數(shù)據(jù)集的提示是專門(mén)設(shè)計(jì)來(lái)模擬AI生成模型更有可能生它們是一個(gè)更大程序的完全正確的部分。由于我們轉(zhuǎn)換錯(cuò)誤和解析錯(cuò)誤。轉(zhuǎn)換錯(cuò)誤通常與不完整的代碼片段相關(guān)資料來(lái)源:中央統(tǒng)計(jì)局。最后,此評(píng)估并不打算對(duì)與各種代碼生成模型相關(guān)的所有相反,它證明了我們?cè)u(píng)估的代碼生成模型通常會(huì)在特定條件下生碼具有常見(jiàn)且有影響力的安全漏洞。進(jìn)一步的實(shí)證研究測(cè)試模型,在某些條件下,AI代碼生成模型往往會(huì)生成錯(cuò)誤的代碼,并且術(shù)界和人工智能行業(yè)以前的研究表明,開(kāi)箱即用的人工智能模型經(jīng)雖然確切的百分比各不相同,但所有模型都在至少40%的測(cè)試提示中一些錯(cuò)誤可能非常嚴(yán)重,例如緩沖區(qū)溢出和解引用失敗。雖然這的軟件開(kāi)發(fā)工作流程,但它們可以被認(rèn)為是人工智能模型可以以最全代碼數(shù)量的粗略上限。這些結(jié)果證實(shí)了越來(lái)越多的先前研究,這行業(yè)采用人工智能代碼生成模型可能會(huì)對(duì)軟件供應(yīng)鏈安些模型將成為軟件開(kāi)發(fā)管道的重要組成部分,因?yàn)锳I生成的代碼庫(kù)中。然而,這些模式的負(fù)面影響可能因組織而異。擁有強(qiáng)大的代開(kāi)發(fā)流程的大型、資源充足的企業(yè)可能能夠使用現(xiàn)有程序減輕人工的影響,而較小的、資源不足的企業(yè)和個(gè)人可能會(huì)面臨限制,或者好消息是,這種風(fēng)險(xiǎn)可以納入現(xiàn)有的風(fēng)險(xiǎn)管理框架。雖然現(xiàn)代發(fā)人員可以編寫(xiě)不安全代碼的想法并不新鮮。現(xiàn)有的框架,如NIST的代碼可以由人工智能系統(tǒng)生成的背景。[55]人工智能生成的代碼并不是一種新的風(fēng)險(xiǎn)類(lèi)別,它可能只是意味著在評(píng)估整體供應(yīng)鏈安全性時(shí),應(yīng)該更多地代碼的風(fēng)險(xiǎn)(與其他類(lèi)別的風(fēng)險(xiǎn)相比,如對(duì)抗性妥協(xié))。無(wú)論其56誰(shuí)負(fù)責(zé)確保AI生成的代碼是安全的?目前,驗(yàn)證AI生成的代碼是否戶身上。然而,主動(dòng)花費(fèi)成本來(lái)檢查代碼輸出的安全性(以效間不會(huì)是恒定的。目前的狀態(tài)與白宮的2023年國(guó)家網(wǎng)絡(luò)安責(zé)任從個(gè)人和小企業(yè)轉(zhuǎn)移到最有能力大規(guī)模降低系統(tǒng)性風(fēng)險(xiǎn)的組織。這就提出了一個(gè)問(wèn)題,如果不是用戶,那么誰(shuí)應(yīng)該主要負(fù)責(zé)安全。部分答案在于人工智能開(kāi)發(fā)人員,他們可以通過(guò)以下措性:從訓(xùn)練數(shù)據(jù)集中刪除已知的易受攻擊的代碼,除了功能基的模型,以及在測(cè)試和評(píng)估過(guò)程中繼續(xù)監(jiān)控不可預(yù)見(jiàn)的不安全他部分在于集成此類(lèi)LLM的工具和應(yīng)用程序,以提供代碼生出安全性的內(nèi)置功能,并在可能的情況下提供進(jìn)一步的修復(fù)建議。這和NIST等相關(guān)政府組織推動(dòng),將安全設(shè)計(jì)原則擴(kuò)展到可能影響軟代碼生成模型的評(píng)估基準(zhǔn)通常對(duì)性能進(jìn)行評(píng)估,但忽略了安全性模型將性能優(yōu)先于安全性。許多對(duì)代碼生成模型進(jìn)行排名的流行能的指標(biāo),如HumanEval,它也往往局限于特定的編程語(yǔ)言。58這些務(wù)生成功能代碼的能力來(lái)衡量,可能不是最不可能生成不安調(diào)的LLM在過(guò)去一年中在功能基準(zhǔn)測(cè)試中表現(xiàn)更好,這并代碼的能力方面也有所提高(Nor在基準(zhǔn)測(cè)試中性能的提高是否一定基準(zhǔn)測(cè)試可能會(huì)飽和,其中模型達(dá)到無(wú)法超越的性能極限,或良好但在其他環(huán)境中表現(xiàn)不佳時(shí)可能會(huì)過(guò)度擬合基準(zhǔn)測(cè)模型可能會(huì)產(chǎn)生更不安全的代碼。其他研究表明,在微調(diào)過(guò)程中而且排行榜還應(yīng)該根據(jù)可用的安全基準(zhǔn)明確地對(duì)代碼生成模型進(jìn)行排名。存在與不安全的AI生成的代碼相關(guān)的下游和相關(guān)風(fēng)險(xiǎn),這些風(fēng)險(xiǎn)僅僅是修復(fù)代碼輸出。隨著代碼生成模型被越來(lái)越廣泛地采用,可饋循環(huán),其中來(lái)自AI工具的不安全代碼輸出最終會(huì)出現(xiàn)在開(kāi)源存如果越來(lái)越多地使用代碼生成模型導(dǎo)致更多的人在環(huán)位移,這可能會(huì)加劇組織現(xiàn)有的網(wǎng)絡(luò)安全風(fēng)險(xiǎn),那么下游勞動(dòng)其中可能包含已知和可利用的安全漏洞。模型輸出的概率性質(zhì)告,我們的評(píng)估范圍是回答少數(shù)LLM是否在特式驗(yàn)證作為衡量代碼不安全性的代理。與此同時(shí),對(duì)幫助我們了解人工智能代碼生成工具對(duì)網(wǎng)絡(luò)安全和其●在評(píng)估代碼輸出的安全性時(shí),代碼生成模型的各種安全性基準(zhǔn)有多可靠●在使用AI代碼生成工具時(shí),人類(lèi)程序員在多大程度上表現(xiàn)出自動(dòng)化偏見(jiàn)?隨●AI生成的代碼在多大程度上有助于或幫助減少技術(shù)債務(wù)?力和效率產(chǎn)生積極影響,并在勞動(dòng)力培訓(xùn)和教育方面顯示出希望這些工具的好處,應(yīng)該對(duì)這些工具的潛在網(wǎng)絡(luò)安全風(fēng)險(xiǎn)給予積極生成模型通常會(huì)生成不安全的代碼,其中一些和組織依賴于代碼生成模型來(lái)生成代碼并將其合并到項(xiàng)目中,這應(yīng)鏈安全帶來(lái)問(wèn)題。它們還可能帶來(lái)其他下游和相關(guān)的風(fēng)險(xiǎn),例對(duì)改進(jìn)模型及其使用的政策關(guān)注,并考慮到功能基準(zhǔn)之外的安全作者JennyJun是CSET的非常駐研究員,教授。她完成了她對(duì)這個(gè)項(xiàng)目的貢獻(xiàn),而她是CSET的對(duì)于反饋和幫助,作者要感謝CatherineAiken、?2024由安全和新興技術(shù)中心。本作品采用知識(shí)共享署名-非商業(yè)性使用4.0國(guó)際許要查看本許可證的副本,請(qǐng)?jiān)L問(wèn)https://輸出資料來(lái)源:中央統(tǒng)計(jì)局。“錯(cuò)誤”代碼段的原始新的“錯(cuò)誤”代碼段數(shù)9762266資料來(lái)源:中央統(tǒng)計(jì)局。1InbalShani和GitHub員工,“調(diào)查揭示了AI對(duì)開(kāi)發(fā)人員體驗(yàn)的影響”,GitHub博客,2023年6月13日,https://github.blog/2023-06-13-survey-reveals-ais-impact-on-the-developer-experience/。2“AICode,Security,andTrustinModernDevelopment,?(Snyk,2024),https://snyk.io/reports/ai-code-security/.3OpenAI,“ChatGPT插件”,OpenAI博客,2023年3月23日,/blog/chatgpt-插件。4DanielLiandLincolnMurr,“HumanEvalonLatestGPTModels--2024,”arXivpreprintarXiv:2402.14852(2024/abs/2402.14852v1.5MarkChen,JerryTworek,HeewooJun,QimingYuanetal.,“EvaluatingLargeLanguageModelsTrainedonCode,”arXivpreprintarXiv:2107.03374(2021),/abs/2107.03374.6NatFriedman,“IntroducingGitHubCopilot:YourAIPairProgrammer,”GitHubBlog,2021年6月29日,https://github.blog/2021-06-29-introducing-github-copilot-ai-pair-programmer/。7BaptisteRozière,JonasGehring,F(xiàn)abianGloeckle等人,“CodeLlama:OpenFoundationModelsforCode,”arXivpreprintarXiv:2308.12950(2023),/abs/2308.12950.8DenisKocetkov,RaymondLi,LoubnaBenAllal,JiaLi等人,“TheStack:3TBofPermissivelyLicensedSourceCode,”arXivpreprintarXiv:2211.15533(2022),/abs/2211.15533;LoubnaBenAllal,RaymondLi,DenisKocetkovetal.,SantaCoder:Don'tReachfortheStars?。⊿antaCoder:Don'tReachfortheStars?。゛rXiv預(yù)印本arXiv:2301.03988(2023),/abs/2301.03988;RaymondLi,LoubnaBenAllal,YangtianZi等人,“StarCoder:愿源頭與你同在!”arXiv預(yù)印本arXiv:2305.06161(2023),/abs/2305.06161。9LeoGao,StellaBiderman,SidBlack,LaurenceGolding等人,“ThePile:An800GBDatasetofDiverseTextforLanguageModeling,”arXivpreprintarXiv:2101.00027(2020),/abs/2101.00027.10Chen等人,“評(píng)估在代碼上訓(xùn)練的大型語(yǔ)言模型。11BrettIversen,SatyaNadella,andAmyHood,Transcriptof“MicrosoftFiscalYear2024ThirdQuarterEarningsConferenceCall,”April25,2024,/en-us/investor/events/fy-2024/earnings-fy-2024-q3.aspx;ThomasDohmke,“TheEconomicImpactoftheAI-PoweredDeveloperApproachandLessonsfromGitHubCopilot,”GitHubBlog,June27,2023,https://github.blog/2023-06-27-the-economic-impact-of-the-ai-powered-developer-lifecycle-and-lessons-from-github-copilot/.[12]休·蘭利(HughLangley),《GoogleQuietlyLaunchesInternalAIModelNamed'Goose'toHelpEmployeesWriteCodeFaster,LeakedDocumentsShow》,《商業(yè)內(nèi)幕》(BusinessInsider安全與新興技術(shù)中心|352024年2月14日,/google-goose-ai-model-language-ai-coding-2024-2;馬克西姆Tabachnyk和StoyanNikolov,“ML增強(qiáng)的代碼完成提高了開(kāi)發(fā)人員的生產(chǎn)力”,Google研究博客,2022年7月26日,https://blog.research.google/2022/07/ml-enhanced-code-completion-improves.html;VijayaraghavanMurali、ChandraMaddila、ImadAhmad等人,“AI輔助的大規(guī)模代碼編寫(xiě):微調(diào),部署和混合方法評(píng)估”,arXiv預(yù)印本arXiv:2305.12050(2024),/abs/2305.12050。[13]EiriniKalliamvakou,“Research:QuantifyingGitHubCopilot'sImpactonDeveloperProductivityandHappiness,”GitHubBlog,September7,2022,https://github.blog/2022-09-07-research-quantifying-github-copilots-impact-on-developer-productivity-and-happiness/.14BegumKaraciDeniz,ChandraGnanasambandam,MartinHarrysson等人,“UnleashingDeveloperProductivitywithGenerativeAI,”McKinseyDigital,2023年6月27日,/capabilities/mckinsey-digital/our-insights/unleashing-developer-productivity-with-generative-ai.15Murali等人,“AI輔助的大規(guī)模代碼創(chuàng)作:微調(diào),部署和混合方法評(píng)估”;Tabachnyk和Nikolov,“ML增強(qiáng)的代碼完成提高了開(kāi)發(fā)人員的生產(chǎn)力”。16KevinZheyuanCui,MertDemirer,SoniaJaffe等人,“生成式人工智能對(duì)高技能工作的影響:來(lái)自軟件開(kāi)發(fā)人員三次實(shí)地實(shí)驗(yàn)的證據(jù)”,2024年9月5日,/10.2139/ssrn.4945566。17Chen等人,“評(píng)估在代碼上訓(xùn)練的大型語(yǔ)言模型。18在進(jìn)行本研究時(shí),GithubCopilot由OpenAI的Codex提供支持,這是一個(gè)基于GPT-3的代碼生成模型截至2023年11月30日,GithubCopilot目前由GPT-4提供支持19HammondPearce,BaleeghAhmad,BenjaminTan等人,“在鍵盤(pán)上跳舞?AssessingtheSecurityofGitHubCopilot'sCodeContributions,”arXivpreprintarXiv:2108.09293(2021),/abs/2108.09293.20穆罕默德·西迪克和喬安娜·C.S.Santos,“SecurityEvalDataset:挖掘漏洞示例以評(píng)估基于機(jī)器學(xué)習(xí)的代碼生成技術(shù)”,MSR4P&S2022:第一屆隱私和安全挖掘軟件存儲(chǔ)庫(kù)應(yīng)用國(guó)際研討會(huì)論文集(2022年11月):29-33,/10.1145/3549035.3561184。21Rapha?lKhoury,AndersonR.阿維拉,雅各布·布魯內(nèi)爾等人,“ChatGPT生成的代碼有多安全arXiv預(yù)印本arXiv:2304.09655(2023),/abs/2304.09655。22付玉佳,彭亮,阿姆吉德·塔希爾等,“SecurityWeaknessesofCopilotGeneratedCodeinGithub,”arXivpreprintarXiv:2310.02059v2(2024),/abs/2310.02059v2.23HayleyDenbraver,“MaliciousPackagesFoundtoBeTypo-SquattinginPythonPackageIndex,”SnykBlog,2019年12月5日,https://snyk.io/blog/malicious-packages-found-to-be-typo-squatting-in-pypi/.24BarLanyado,“CanYouTrustChatGPT'sPackageRecommendations?"Vulcan.io博客,2023年6月6日,https://vulcan.io/blog/ai-hallucinations-package-risk。25ThomasClaburn,“AIHallucinatesSoftwarePackagesandDevsDownloadThem-EvenifPotentiallyPoisonedwithMalware,”TheRegister,March28,2024,/2024/03/28/ai_bots_hallucinate_software_packages.26Snyk,“AICode,Security,andTrustinModernDevelopment.”27NeilPerry,MeghaSrivastava,DeepakKumar,andDanBoneh,“DoUsersWriteMoreInsecureCodewithAIAssistants?",arXiv預(yù)印本arXiv:2211.03622(2023),http:///abs/2211.03622。28GustavoSandoval,HammondPearce,TeoNys等人,“LostatC:AUserStudyontheSecurityImplicationsofLargeLanguageModelCodeAssistants,”arXivpreprintarXiv:2208.09727(2023/abs/2208.09727;OwuraAsare,MeiyappanNagappan,andN.Asokan,“在引入代碼漏洞方面,GitHub的Copilot和人類(lèi)一樣糟糕嗎??,arXiv預(yù)印本arXiv:2204.04741(2024),/abs/2204.04741。29MohammedAlzhefSiddiq,ShafayatH.邁沙?馬朱姆德米姆等人,“基于transformer的代碼生成技術(shù)中代碼氣味的實(shí)證研究”,2022年IEEE第22屆源代碼分析和操縱國(guó)際工作會(huì)議(SCAM2022年10月71-82,/10.1109/SCAM55253.2022.00014。30ManishBhatt,SahanaChennabasappa,CyrusNikolaja等人,“PurpleLlamaCyberSecEval:ASecureCodingBenchmarkforLanguageModels,”arXivpreprintarXiv:2312.04724(2023),/abs/2312.04724.31RanElgedawy,JohnSadik,SenjutiDutta等人,“偶爾安全:代碼生成助手的比較分析”,arXiv預(yù)印本arXiv:2402.00689(2024),/abs/2402.00689。32Elgedawy等人,“OccasionallySecure.”33ArijitGhoshChowdhury,MdMofijulIslam,VaibhavKumar等人,“BreakingDowntheDefenses:AComparativeSurveyofAttacksonLargeLanguageModels,”arXivpreprintarXiv:2403.04786(2024),/abs/2403.04786.34EvanHubinger,CarsonDenison,JesseMu等人,“SleeperAgents:TrainingDeceptiveLLMthatPersistsThroughSafetyTraining,”arXivpreprintarXiv:2401.05566(2024),https:/abs/2401.05566.安全與新興技術(shù)中心|38[35]DomenicoCotroneo,CristinaImprota,PietroLiguori,andRobertoNatella,“VulnerabilitiesinAICodeGenerators:ExploringTargetedDataPoisoningAttacks,”arXivpreprintarXiv:2308.04451(2024/abs/2308.04451.36KaiGreshake,SaharAbdelnabi,ShaileshMishra等人,“NotWhatYou'veSignedUpFor:CompromisingReal-WorldLLM-IntegratedApplicationswithIndirectPromptInjection,”arXivpreprintarXiv:2302.12173(2023/abs/2302.12173.37ScottWu,“IntroducingDevin,theFirstAISoftwareEngineer”,Cognition.aiBlog,2024年3月12日,/introducing-devin。38IliaShumailov,ZakharShumaylov,YirenZhao,YarinGal,NicolasPapernot,andRossAnderson,“TheCurseofRecursion:TrainingonGeneratedDataMakesModelsForget,”arXivpreprintarXiv:2305.17493v3(2024),/abs/2305.17493v3;SinaAlemohammad,JosueCasco-Rodriguez,LorenzoLuzietal.“Self-ConsumingGenerativeModelsGoMAD,”arXivpreprintarXiv:2307.01850(2023),/abs/2307.01850.[39]BrodyFord,“IBM將重新招聘人工智能可以做的工作”,彭博新聞社,2023年5月1日,/news/articles/2023-05-01/ibm-to-pause-hiring-for-back-office-jobs-that-。40Bhatt等人,“紫色美洲駝網(wǎng)絡(luò)機(jī)密評(píng)估”41ESBMC,系統(tǒng)和軟件驗(yàn)證實(shí)驗(yàn)室,2024,/。42Bhatt等人,“紫色美洲駝網(wǎng)絡(luò)機(jī)密評(píng)估”43HosseinHajipour,KenoHassler,ThorstenHolz等人,“CodeLMSec基準(zhǔn):系統(tǒng)地評(píng)估和發(fā)現(xiàn)黑盒代碼語(yǔ)言模型中的安全漏洞”,arXiv預(yù)印本arXiv:2302.04012(2023),/abs/2302.04012。44AoboKong,ShiwanZhao,HaoChen等,“BetterZero-ShotReasoningwithRole-PlayPresting,”arXivpreprintarXiv:2308.07702(2023/abs/2308.07702.45Perry等人,“用戶使用AI助手會(huì)編寫(xiě)更多不安全的代碼嗎??46Pearce等人,“在鍵盤(pán)上跳舞?評(píng)估GitHubCopilot代碼貢獻(xiàn)的安全性。47CatherineTony,MarkusMutas,NicolásE.DíazFerreyra和RiccardoScandariato,“LLMSecEval:用于安全評(píng)估的自然語(yǔ)言數(shù)據(jù)集”,arXiv預(yù)印本arXiv:2303.09384(2023),/abs/2303.09384。安全與新興技術(shù)中心|3948“CWETop25MostDangerousSoftwareWeaknesses,”MITRE,November30,2023,/top25/.49Tony等人,“LLMSecEval:用于安全評(píng)估的自然語(yǔ)言數(shù)據(jù)集。50這個(gè)項(xiàng)目的公共GitHub存儲(chǔ)庫(kù)可以在/georgetown-cset/code-generation-2.0找到。51Tony等人,“LLMSecEval:用于安全評(píng)估的自然語(yǔ)言數(shù)據(jù)集。52NorbertTihanyi,TamasBisztray,RidhiJain等人,“FormAI數(shù)據(jù)集:通過(guò)形式驗(yàn)證的鏡頭在軟件安全中的生成AI,”arXiv預(yù)印本arXiv:2307.02192(2023),/abs/2307.02192。53Khoury等人,“ChatGPT生成的代碼有多安全Fu等人,“SecurityWeaknessesofCopilotGeneratedCodeinGithub”;Bhattetal.,“紫色美洲駝網(wǎng)絡(luò)機(jī)密評(píng)估”54Elgedaway等人,“OccurnallySecure”;Siddiq和Santos,“SecurityEvalDataset:MiningVulnerabilityExamplest
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 課題申報(bào)參考:健康中國(guó)視域下醫(yī)療、醫(yī)保、醫(yī)藥協(xié)同發(fā)展研究
- 二零二五版房屋互換及社區(qū)活動(dòng)組織服務(wù)協(xié)議3篇
- 2025年度農(nóng)業(yè)用地承包經(jīng)營(yíng)權(quán)登記合同參考4篇
- 2025年版?zhèn)€人與投資公司信貸合作借款合同樣本4篇
- 二零二五版木工支模與智能家居安裝服務(wù)合同4篇
- 二零二五版智能家居產(chǎn)業(yè)股權(quán)投資及合作生產(chǎn)合同3篇
- 二零二五年度廚房設(shè)備節(jié)能改造與評(píng)估合同8篇
- 2025年度個(gè)人與個(gè)人草原生態(tài)補(bǔ)償資金管理合同范本4篇
- 2025年新型建筑材料采購(gòu)及安裝施工合同3篇
- 二零二五年度品牌產(chǎn)品售后服務(wù)客戶關(guān)系維護(hù)合同3篇
- GB/T 16895.3-2024低壓電氣裝置第5-54部分:電氣設(shè)備的選擇和安裝接地配置和保護(hù)導(dǎo)體
- 計(jì)劃合同部部長(zhǎng)述職報(bào)告范文
- 人教版高一地理必修一期末試卷
- GJB9001C質(zhì)量管理體系要求-培訓(xùn)專題培訓(xùn)課件
- 二手車(chē)車(chē)主寄售協(xié)議書(shū)范文范本
- 2024年中考政治總復(fù)習(xí)初中道德與法治知識(shí)點(diǎn)總結(jié)(重點(diǎn)標(biāo)記版)
- 2024年手術(shù)室的應(yīng)急預(yù)案
- 五年級(jí)上冊(cè)小數(shù)除法豎式計(jì)算練習(xí)300題及答案
- 語(yǔ)言規(guī)劃講義
- 生活用房設(shè)施施工方案模板
- GB/T 9755-2001合成樹(shù)脂乳液外墻涂料
評(píng)論
0/150
提交評(píng)論