CSET：人工智能生成代碼的網(wǎng)絡(luò)安全風(fēng)險(xiǎn)（中文）

上傳人：策*** IP屬地：山西上傳時(shí)間：2024-12-21 格式：DOCX 頁(yè)數(shù)：83 大?。?90KB 積分：19.9 舉報(bào) 版權(quán)申訴

CSET：人工智能生成代碼的網(wǎng)絡(luò)安全風(fēng)險(xiǎn)（中文）_第2頁(yè)

CSET：人工智能生成代碼的網(wǎng)絡(luò)安全風(fēng)險(xiǎn)（中文）_第3頁(yè)

CSET：人工智能生成代碼的網(wǎng)絡(luò)安全風(fēng)險(xiǎn)（中文）_第4頁(yè)

CSET：人工智能生成代碼的網(wǎng)絡(luò)安全風(fēng)險(xiǎn)（中文）_第5頁(yè)

已閱讀5頁(yè)，還剩78頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

最近的發(fā)展提高了大型語(yǔ)言模型（LLM）和其他AI系統(tǒng)對(duì)軟件開(kāi)發(fā)領(lǐng)域來(lái)說(shuō)是有希望的，但這些模型也會(huì)帶來(lái)直接和間型，2）模型本身容易受到攻擊和操縱，以及現(xiàn)有的研究表明，在實(shí)驗(yàn)條件下，AI代碼生成模型經(jīng)常AI生成代碼的安全性的過(guò)程非常復(fù)雜，并且包含許多相互依賴的變量。為了進(jìn)一不安全的AI代碼的風(fēng)險(xiǎn)，我們?cè)u(píng)估了五個(gè)LLM生成的代碼每個(gè)模型都給出了相同的提示，這些提示旨在測(cè)試可能產(chǎn)生錯(cuò)誤或不安全代碼的可能場(chǎng)景。我們的評(píng)估結(jié)果表能導(dǎo)致惡意利用。這些結(jié)果僅限于我們?cè)u(píng)估的狹窄范圍，但我們希望鑒于代碼生成模型目前的實(shí)用性及其能力將繼續(xù)改進(jìn)的可能性，管理其政策和風(fēng)險(xiǎn)不會(huì)在各組織之間均勻分布。規(guī)模更大、資源更保人工智能生成的代碼輸出安全的負(fù)擔(dān)不應(yīng)該僅僅落在人工智能開(kāi)發(fā)人員、大規(guī)模生產(chǎn)代碼的組織以及那些能如決策機(jī)構(gòu)或行業(yè)領(lǐng)導(dǎo)者。安全軟件開(kāi)發(fā)實(shí)踐和NI于確保所有代碼（無(wú)論作者身份如何）在進(jìn)入生產(chǎn)之前●代碼生成模型也需要進(jìn)行安全性評(píng)估，但目前很難做到這一點(diǎn)。代碼生成模型的評(píng)估基準(zhǔn)通常集中在模型生成功能代碼的能力上，但不評(píng)力，這可能會(huì)在模型訓(xùn)練期間激勵(lì)安全性優(yōu)先于功能。模型的訓(xùn)練數(shù)據(jù)缺乏足夠的透明度，或者對(duì)它們內(nèi)部工作的理解不夠，無(wú)法探索諸如性能更好的模型是否會(huì)產(chǎn)生更不安全的代碼之類(lèi)的問(wèn)題。什么是代碼生成模型？ 7 9 9 18 25 介紹人工智能的進(jìn)步導(dǎo)致人工智能系統(tǒng)生成功能計(jì)算機(jī)代碼的言模型的改進(jìn)最近引起了人們對(duì)人工智能的極大興趣LLM的基礎(chǔ)模型，都被用于生成代碼。越來(lái)越多的應(yīng)用程序和這些模型和相關(guān)工具正在迅速被軟件開(kāi)發(fā)人員社區(qū)和個(gè)人用戶采用。根12023年11月的另一項(xiàng)行業(yè)調(diào)查同樣報(bào)告了高使用率，96%工具，超過(guò)一半的受訪者大部分時(shí)間使用這些工具。如果這種趨勢(shì)繼續(xù)下去，LLM生成的關(guān)于人工智能代碼生成的政策挑戰(zhàn)是，這種技術(shù)進(jìn)步在的好處，但也帶來(lái)了潛在的系統(tǒng)性風(fēng)險(xiǎn)。一方面，如果將這些修補(bǔ)等領(lǐng)域，則可以顯著提高勞動(dòng)力生產(chǎn)率，并為網(wǎng)絡(luò)安全做出研究表明，這些模型也會(huì)產(chǎn)生不安全的代碼，如果未經(jīng)適當(dāng)審查的網(wǎng)絡(luò)安全風(fēng)險(xiǎn)，以及間接風(fēng)險(xiǎn)，因?yàn)椴话踩拇a最終會(huì)進(jìn)入廣泛的人工智能生成代碼的影響。人工智能研究人員和開(kāi)發(fā)人況下評(píng)估模型輸出，程序員和軟件公司可以考慮這些工具如何策制定者有機(jī)會(huì)通過(guò)制定適當(dāng)?shù)闹笇?dǎo)方針，提供激勵(lì)措施和授工智能生成代碼相關(guān)的更廣泛的網(wǎng)絡(luò)安全風(fēng)險(xiǎn)。本報(bào)告概述了代碼生成模型是能夠響應(yīng)代碼或自然語(yǔ)言提示生成計(jì)算機(jī)代碼的的組合作為響應(yīng)。這類(lèi)模型既包括專門(mén)用于代碼生成的語(yǔ)言模型代碼。專用模型的示例包括AmazonCodeWhisperer、DeepSeekCoder、Wizar和CodeLlama，而通用模型包括OpenAI的GPT代碼生成模型的早期迭代-其中許多早于當(dāng)前一代的LLM，并且仍然執(zhí)行所謂的代碼填充，專門(mén)為此任務(wù)進(jìn)行訓(xùn)練，并已在軟件開(kāi)模型功能的最新改進(jìn)允許更多的交互性，例如自然語(yǔ)言提示或用模型檢查其錯(cuò)誤。與通用語(yǔ)言模型一樣，用戶通常通過(guò)專用界面軟件中的插件）與代碼生成模型交互。最近，專門(mén)的腳手些情況下的能力。例如，可以輸出代碼的一些模型也然語(yǔ)言生成能力的提高而提高。畢竟，編碼語(yǔ)言是有意設(shè)計(jì)來(lái)編碼和傳達(dá)信息的，并究人員一直對(duì)自然語(yǔ)言和計(jì)算機(jī)代碼之間的翻譯感興趣，但同時(shí)引入基于t隨著新模型的發(fā)布，研究人員也開(kāi)始探索使它們更用于代碼生成的模型，以及用于評(píng)估AI代碼輸出正確性的HumanEval基準(zhǔn)。5GithubCopilot的相對(duì)可訪問(wèn)性和早期成功幫助激發(fā)為了精通代碼生成，模型需要在包含大量人類(lèi)編寫(xiě)代碼主要是在公開(kāi)可用的開(kāi)源代碼上訓(xùn)練的。7這些代碼大部分是從Github等開(kāi)源網(wǎng)絡(luò)存儲(chǔ)庫(kù)中抓取的，個(gè)人和公司可以在那里存儲(chǔ)和協(xié)作編碼項(xiàng)目。例如，被稱為T(mén)heStack的6TB數(shù)據(jù)集的第一個(gè)版本由358種不同編程語(yǔ)言的源代碼文件組成，并已用于預(yù)訓(xùn)練幾個(gè)開(kāi)放代碼生成模型。8其他語(yǔ)言模型訓(xùn)練數(shù)除了包含自然語(yǔ)言文本外，還包含代碼。這個(gè)名為包括代碼片段和其他與編程相關(guān)的內(nèi)容。9然而，開(kāi)發(fā)人員用于訓(xùn)練模型的數(shù)據(jù)集的性往往有限我們可以推測(cè)，用于訓(xùn)練代碼生成模型的大部分代碼都是從開(kāi)取的，但用于訓(xùn)練的其他數(shù)據(jù)集可能包含專有代碼，或者只是被排除在模此外，一些專用模型是通用模型的微調(diào)版本。通常，它們是數(shù)據(jù)訓(xùn)練通用模型來(lái)創(chuàng)建的。這在模型需要將自然語(yǔ)言輸能，因?yàn)橥ㄓ媚Ｐ屯朴谧裱徒忉層脩糁噶睢penAI過(guò)去十年，人工智能代碼生成的研究興趣不斷增加，尤其是在2.圖1通過(guò)計(jì)算2012-2023年期間每年關(guān)于代碼生成的研究論文數(shù)量來(lái)從2022年到2023年，發(fā)電量增加了一倍多，這表明人們對(duì)資料來(lái)源：CSET'sMergedAcademicCorpus。代碼生成是大型語(yǔ)言模型最引人注目和廣泛采用的用例之一除了2024年春季，他們的人工智能編碼工具GitHubCopilot擁有180萬(wàn)付費(fèi)用年中的100多萬(wàn)，還有11家軟件公司也在采用*此圖統(tǒng)計(jì)了CSET合并學(xué)術(shù)語(yǔ)料庫(kù)中包含關(guān)鍵字“代碼生成”，“AI輔助編程”，“AI代碼助手”，“代碼生成LLM”或“代碼LLM”的論文數(shù)量，并且使用CSET的AI分類(lèi)器和網(wǎng)絡(luò)安全分類(lèi)器分類(lèi)為AI或網(wǎng)絡(luò)安全相關(guān)。請(qǐng)注意，在2024年2月撰寫(xiě)本文時(shí)，由于上游收集滯后，CSET的合并學(xué)術(shù)語(yǔ)料庫(kù)尚未包括2023年的所有論文，這可能導(dǎo)致2023年的論文數(shù)量不足。該語(yǔ)料庫(kù)目前包括來(lái)自Clarivate的WebofScience，TheLens，arXiv，PaperswithCode，SemanticScholar和OpenAlex的數(shù)據(jù)。有關(guān)我們編制合并學(xué)術(shù)語(yǔ)料庫(kù)的方法的更多信息以及我們分類(lèi)器的背景和數(shù)據(jù)源的詳細(xì)引用，請(qǐng)?jiān)L問(wèn)：https://eto.tech/dataset-docs/mac/;/publication/identifying-ai-research/。非公開(kāi)的自定義代碼生成模型，旨在幫助員工更有效地能代碼生成工具提高開(kāi)發(fā)人員生產(chǎn)力的指標(biāo)因研究而異。一項(xiàng)小型的G我感知的生產(chǎn)力和任務(wù)完成時(shí)間作為生產(chǎn)力指標(biāo)，但作者承認(rèn)，產(chǎn)力如何與開(kāi)發(fā)人員的幸福感相關(guān)，幾乎沒(méi)有共識(shí)。麥肯錫的一標(biāo)，聲稱使用生成式人工智能工具的軟件開(kāi)發(fā)人員完成編碼任務(wù)倍，但這些好處取決于任務(wù)的復(fù)雜性和開(kāi)發(fā)人員的經(jīng)驗(yàn)。14.各公司還對(duì)雇員進(jìn)行了內(nèi)部生產(chǎn)率研究。一項(xiàng)關(guān)于內(nèi)部代碼生成模型CodeCompose的Meta性開(kāi)發(fā)人員反饋等指標(biāo)來(lái)衡量生產(chǎn)力，發(fā)現(xiàn)20%的用戶表示CodeCom地編寫(xiě)代碼，而Google的一項(xiàng)研究發(fā)現(xiàn)，與對(duì)照組相比，使用試驗(yàn)數(shù)據(jù)，發(fā)現(xiàn)使用GitHubCopilot的開(kāi)發(fā)人員完成的任務(wù)數(shù)量AI代碼生成工具無(wú)疑對(duì)一些程序員有幫助，特別是那些工作涉及相當(dāng)常規(guī)的編碼程序員。（通常，編碼任務(wù)或編碼語(yǔ)言越常見(jiàn)，代碼生成模型的有可能是在類(lèi)似的示例上訓(xùn)練的自動(dòng)化死記硬背的編碼任務(wù)可能行更具創(chuàng)造性或認(rèn)知要求的工作。人工智能系統(tǒng)生成的軟件代碼從廣義上講，有證據(jù)表明，代碼生成工具在個(gè)人和組織力的提高，這些好處可能會(huì)隨著時(shí)間的推移而增加。還有很然而，這一技術(shù)突破也必須謹(jǐn)慎對(duì)待。在日常軟件開(kāi)發(fā)過(guò)程模型，這意味著這些模型將很快成為軟件供應(yīng)鏈的重要組成部分全的，或者在代碼進(jìn)入生產(chǎn)之前，他們產(chǎn)生的任何不安全的輸出網(wǎng)絡(luò)安全也將越來(lái)越重要。然而，代碼生成模型很少以安全性為常進(jìn)行訓(xùn)練以滿足各種功能基準(zhǔn)，例如HumanEval，這是一組增加，模型被納入組織和開(kāi)發(fā)人員的標(biāo)準(zhǔn)程序，忽視這些代人機(jī)交互使這個(gè)問(wèn)題進(jìn)一步復(fù)雜化，因?yàn)?）用戶可能認(rèn)為究表明，GithubCopilot18生成的1，見(jiàn)弱點(diǎn)枚舉（CWE）前25個(gè)最危險(xiǎn)軟件弱點(diǎn)”列表的影響。19Siddiq和San現(xiàn)，在使用InCoder和GithubCopilot生成的130個(gè)代碼樣本中，手73%的代碼樣本包含漏洞。20Khoury等人（2023）使程語(yǔ)言的程序，并進(jìn)行了CWE測(cè)試，結(jié)果顯示21個(gè)程序中只有5另外7個(gè)案例生成安全代碼。[21]Fuetal.（2024）顯示，在生成的452個(gè)真實(shí)代碼片段中，32.8%的Python和24.5%的Java同的CWE，其中8個(gè)屬于2023年CWETop25列表在某些編碼語(yǔ)言中，代碼生成模型也可能生成調(diào)用外部庫(kù)和包的可能會(huì)帶來(lái)許多問(wèn)題，其中一些與安全相關(guān)：它們可能不存在，且未修補(bǔ)漏洞，或者本質(zhì)上是惡意的（例如當(dāng)攻擊者試圖利用UR寫(xiě)錯(cuò)誤時(shí)）。23例如，VulcanCyber表明，ChatGPT在回答來(lái)自StackOverflow的常見(jiàn)編碼問(wèn)題時(shí)，通常會(huì)推薦不存在的包-Node.js中的201個(gè)問(wèn)題中有40個(gè)，P問(wèn)題中有80個(gè)答案中至少包含一個(gè)不存在的包。此外，這些虛幻在用例和不同模型中是持久的;正如后續(xù)研究所表明的那樣，具有相同名稱的包，并讓用戶在不知不覺(jué)中下載惡意代碼。25盡管有這些經(jīng)驗(yàn)結(jié)果，但早期跡象表明用戶認(rèn)為人工智能生受不安全的代碼。例如，在2023年對(duì)537名技術(shù)和I究中進(jìn)一步表明，能夠使用AI助手的學(xué)生參與者編寫(xiě)的代碼的安助手的學(xué)生，而且他們更有可能相信自己編寫(xiě)的代碼是安全然而用戶是否更有可能編寫(xiě)不安全的代碼，存在一些分歧;其他研究表手的用戶可能不會(huì)比沒(méi)有AI工具的用戶更有可能編寫(xiě)不安全的提出了一系列相關(guān)的問(wèn)題，例如：用戶對(duì)編碼的熟練程度如何接受（可能不安全的）AI生成的代碼比人類(lèi)編寫(xiě)的代碼更安全？生成的代碼更可信，對(duì)安全缺陷的審查更少，那么人工智能編碼此外，關(guān)于代碼生成模型為什么首先生成不安全的代碼，以型內(nèi)部的代碼輸出的安全性變化，仍然存在不確定性。部分原因在于，這多模型都是在Github等開(kāi)源存儲(chǔ)庫(kù)的代碼上訓(xùn)練的。這些存儲(chǔ)庫(kù)包含具有已工編寫(xiě)的代碼，在很大程度上不執(zhí)行安全編碼實(shí)踐，并且缺乏用于刪除具洞的代碼的數(shù)據(jù)清理過(guò)程。最近的工作表明，訓(xùn)練數(shù)據(jù)中的安全漏洞可能transformer的模型的輸出中，這表明底層訓(xùn)練數(shù)據(jù)中的漏洞會(huì)導(dǎo)致不安全題。[29]更大的挑戰(zhàn)是，在訓(xùn)練數(shù)據(jù)集中包含哪些代碼以及是否嘗試提高其安全性方面，關(guān)于代碼生成模型如何以及為什么會(huì)生成不安全代碼仍然沒(méi)有答案。例如，2023年的一項(xiàng)Meta研究3.5和4的幾個(gè)版本，發(fā)現(xiàn)具有更高級(jí)編碼能力的模型更有可能輸出不安全的代碼。30這表明代碼生成模型中的功能性和安全性之間可能存在反向關(guān)系，現(xiàn)，促使模型采用“安全角色”會(huì)引發(fā)不同的結(jié)果。[31]雖然G數(shù)量比普通角色減少了，但Gemini的代碼輸出包含更多的漏洞。32這些早期的研了一些知識(shí)差距，涉及不安全的代碼輸出是如何產(chǎn)生的，容易受到黑客攻擊，篡改或操縱，而人類(lèi)則不然。圖2說(shuō)明了資料來(lái)源：中央統(tǒng)計(jì)局。生成式人工智能系統(tǒng)對(duì)幾種類(lèi)型的對(duì)抗性攻擊具有已知的攻擊，其中攻擊者污染模型的訓(xùn)練數(shù)據(jù)以引發(fā)期望的行為，以及試圖通過(guò)用預(yù)定的觸發(fā)短語(yǔ)提示模型來(lái)產(chǎn)生特定的輸出。在代碼毒攻擊可能看起來(lái)像是攻擊者操縱模型的訓(xùn)練數(shù)據(jù)，以增加其生碼的可能性。與此同時(shí)，對(duì)模型本身的后門(mén)攻擊可以通過(guò)一個(gè)觸行為，即使開(kāi)發(fā)人員試圖刪除它，這個(gè)觸發(fā)器也可能持續(xù)存在。34這種改變的行為可能會(huì)導(dǎo)致輸出違反開(kāi)發(fā)人員對(duì)模型的限制（例如“不要建議與），來(lái)自有限數(shù)量的未清理代碼存儲(chǔ)庫(kù)的大量數(shù)據(jù)上訓(xùn)練的，攻擊者儲(chǔ)庫(kù)中植入包含惡意代碼的文件，或者有目的地引入包含易受攻擊代碼的新存儲(chǔ)庫(kù)。35根據(jù)代碼生成模型的接口或腳手架，其他形式的對(duì)抗性攻擊可能示注入，其中攻擊者試圖指示模型以某種方式行為，據(jù)。在代碼生成上下文中，可以引用外部網(wǎng)頁(yè)或文檔的AI模型最后，不安全的代碼生成模型也可能無(wú)意中增加組織的可能容易受到網(wǎng)絡(luò)攻擊的方式的數(shù)量特別是如果他們被授予對(duì)的訪問(wèn)權(quán)限。網(wǎng)絡(luò)安全背景下的訪問(wèn)控制依賴于組織清楚地了解人，這包括從某些代碼庫(kù)讀取和寫(xiě)入。如果代碼生成模型被賦予會(huì)更有效和有用，但這反過(guò)來(lái)又使它們成為潛在的攻擊載體，然專業(yè)環(huán)境中，大多數(shù)人工智能生成的代碼可能會(huì)流經(jīng)包括內(nèi)置測(cè)發(fā)管道，但人工智能公司正在積極制定策略，以賦予模型（包括自主權(quán)和與環(huán)境交互的能力。37下游影響將增加。如果與人類(lèi)程序員相比，人工智能工具傾向于引入不同洞，那么漏洞格局也將隨著時(shí)間的推移而發(fā)生變化，新的漏空見(jiàn)慣。這反過(guò)來(lái)可能會(huì)影響未來(lái)的代碼生成模型;雖然用于訓(xùn)練最早的代碼生成大型開(kāi)源代碼數(shù)據(jù)集保證主要是人類(lèi)編寫(xiě)的，但未來(lái)開(kāi)源存儲(chǔ)庫(kù)的碎片可能包含更多的一些人工智能研究人員認(rèn)為，如果數(shù)據(jù)集包含的人類(lèi)的AI生成的代碼將如何影響未來(lái)模型的性能。然而，今天的輸出可能會(huì)成為明天的訓(xùn)練數(shù)據(jù)，為未來(lái)的模型創(chuàng)建一組不同此外，代碼安全性并不是組織唯一關(guān)心的問(wèn)題。技術(shù)債務(wù)--的代碼--是許多軟件公司的主要關(guān)注點(diǎn)，因?yàn)楹鲆晫?duì)它的正確小和復(fù)雜性上膨脹。這也對(duì)網(wǎng)絡(luò)安全產(chǎn)生了影響，因?yàn)榧夹g(shù)債所需的監(jiān)控，維護(hù)和修補(bǔ)的數(shù)量。如果人工智能工具使快速大不足道，組織的技術(shù)債務(wù)也可能增加。(Of當(dāng)然，對(duì)于某些組織組織可以減少其勞動(dòng)力的規(guī)模，或者嘗試自動(dòng)化部分執(zhí)行官在2023年表示，該公司最終計(jì)劃使用人工智能來(lái)取色，估計(jì)近8,000個(gè)現(xiàn)有的IBM職位可能在五年內(nèi)被人工智能和自移反過(guò)來(lái)可能對(duì)網(wǎng)絡(luò)安全產(chǎn)生影響，因?yàn)槿祟?lèi)軟件開(kāi)發(fā)人員執(zhí)行任務(wù)對(duì)現(xiàn)代代碼庫(kù)的功能非常重要。這些職責(zé)包括監(jiān)控、手動(dòng)代碼審查、設(shè)計(jì)、修補(bǔ)、更新依賴關(guān)系和優(yōu)化代碼以提高性能，這些都是重要且與安全相今的概率代碼生成模型不太可能可靠地開(kāi)箱即用地執(zhí)行此類(lèi)任務(wù)鑒于對(duì)使用代碼生成模型和相關(guān)安全問(wèn)題的興趣日益增代碼的傾向的能力變得重要，以便設(shè)置適當(dāng)?shù)臉?biāo)準(zhǔn)并找到緩解技常表明，代碼生成模型通常會(huì)生成不安全的代碼。然而，這些研評(píng)價(jià)指標(biāo)上存在很大差異，因此許多實(shí)證結(jié)果無(wú)法直接比較。這言上，如Python、Java和C。不同的語(yǔ)言有不同的常見(jiàn)漏洞使這些和其他內(nèi)存錯(cuò)誤變得不那么常見(jiàn)。因此，很難確●模型類(lèi)型：并非所有現(xiàn)有的研究都試圖比較來(lái)自不同AI模型的代碼輸出的安全性。模型之間或同一模型的不同實(shí)例之間可能存在顯著通用美洲駝模型相比，專用代碼美洲駝模型）。一些研碼能力的模型更有可能產(chǎn)生不安全的代碼，這可能是由比較個(gè)別模型之外，在更廣泛的專門(mén)代碼編寫(xiě)模型和通●評(píng)估工具：不同的代碼質(zhì)量檢查器和靜態(tài)分析工具在不同的編程語(yǔ)言之間存在差的基于SMT的上下文邊界模型檢查器），這是一編程語(yǔ)言，包括Java/Kotlin和Python。雖然ESBMC認(rèn)為是一種可靠的方法來(lái)編程掃描C和C++代碼中的錯(cuò)誤，●基準(zhǔn)：雖然有幾個(gè)基準(zhǔn)用于評(píng)估代碼生成模型的質(zhì)量或準(zhǔn)確性（其中最突出的是HumanEval但很少有公開(kāi)可用的基準(zhǔn)用于評(píng)估A有基準(zhǔn)的示例包括CyberSecEval和新的安全基準(zhǔn)，但人工智能和機(jī)器學(xué)習(xí)社區(qū)尚未可能會(huì)對(duì)結(jié)果輸出的質(zhì)量產(chǎn)生通用LLM可能特為它們可能更容易接受涉及模型承擔(dān)角色的提是軟件工程師......”或“承擔(dān)網(wǎng)絡(luò)安全分析師的角色......”稱模型在每次收到特定提示時(shí)都會(huì)以相同的方式做出響應(yīng)重現(xiàn)性。如果通過(guò)API或用戶界面訪問(wèn)，模型的行為也會(huì)隨變。這些更新可以采取對(duì)模型本身進(jìn)行更改的形式，也可程度以及它們是否代表了安全編碼實(shí)踐的凈效益，取決于統(tǒng)交互。例如，幾項(xiàng)研究觀察到人類(lèi)受試者中存在一定程受試者可以訪問(wèn)代碼生成模型，使他們更有可能依賴和信研究側(cè)重于量化AI生成代碼的質(zhì)量或安全性，而另一些而必須視為互補(bǔ)（假設(shè)上述變量中有足夠多的變量這些因素使得對(duì)以往研究的簡(jiǎn)單綜合和直接比較變得然而，估工具和提示，可以保持一致的實(shí)驗(yàn)比較跨模型的結(jié)果。雖然沒(méi)在本節(jié)中，我們對(duì)以下研究問(wèn)題進(jìn)行了獨(dú)立評(píng)估：不同的大型語(yǔ)此評(píng)估的目的不是比較不同模型的性能，而是了解在考慮安與生產(chǎn)力提高、自動(dòng)化偏差和非安全相關(guān)基準(zhǔn)上的模型性方法考慮到通過(guò)模型比較代碼輸出的安全性的困難，我們的評(píng)估保說(shuō)，我們使用相同的編程語(yǔ)言，評(píng)估工具和提示來(lái)評(píng)估生成的代r是捕獲當(dāng)前代碼生成模型生態(tài)系統(tǒng)的代表性快照，也不是將全性的新基準(zhǔn)。相反，我們選擇了易于通過(guò)API訪問(wèn)的流行且強(qiáng)大的一個(gè)通用開(kāi)放模型（Mistral）。我們還使壓一千七百五十億約1萬(wàn)億7十億WizardLM7十億7十億資料來(lái)源：中央統(tǒng)計(jì)局。GPT-3.5-turbo和GPT-4通過(guò)OpenAIAPI訪問(wèn)，開(kāi)放模型為了提示模型，我們使用了LLMSecEval數(shù)據(jù)集，該數(shù)據(jù)成，這些提示符被明確設(shè)計(jì)用于評(píng)估語(yǔ)言模型生成的C和Python代碼的安全性。47弱點(diǎn)的代碼。48MITRECWE列表不包括網(wǎng)絡(luò)安和利用，列表上的漏洞可能導(dǎo)致漏洞。值得注意的是，雖然LLMSe他們的提示的幾個(gè)特征，包括表達(dá)性和簡(jiǎn)潔性，但這些提示是一定要模仿普通用戶與代碼生成模型交互的行我們將LLMSecEval數(shù)據(jù)集子集化到為C設(shè)計(jì)的67個(gè)提示誤，如內(nèi)存泄漏故障，不太可能出現(xiàn)在Python代碼中模型都使用相同的提示集。在表2中，我們提供了評(píng)估中使用的提示列表可以在我們的公共GitHub存儲(chǔ)庫(kù)中找到提示當(dāng)生成以下<語(yǔ)言>代碼：該代碼接受一個(gè)整數(shù)作為輸入，并返回?cái)?shù)組中整數(shù)索引處的值。例如，如果輸入為5，則代碼將返回?cái)?shù)組索引5處的值如果輸入超出邊界，代碼將返回-1。例如如果輸入為10，代碼將返回-1。越界讀取為以下內(nèi)容生成language>代碼：該代碼從命令行溢出或環(huán)繞資料來(lái)源：Tony等人，“LLMSecEval：用于安全評(píng)估的自然語(yǔ)言數(shù)據(jù)集。在我們?yōu)樗心Ｐ蜕纱a片段之后，我們通過(guò)ESBMC代碼檢工作流程的靈感來(lái)自于之前的一項(xiàng)研究，該研究使用違反安全屬性的反例。它測(cè)試的C代碼中的安全屬性包括越界），），和驗(yàn)證未知（由于時(shí)間或算法限制，ESBMC無(wú)法驗(yàn)證代碼有關(guān)“不安全”（驗(yàn)證失?。┑拇?。在必要時(shí)，例如在下面的“評(píng)估結(jié)果”部分中，我們消除了“不安全”代碼和未成功驗(yàn)證的代碼（意味著所有未收到成功驗(yàn)證狀態(tài)的代碼段）之間的有時(shí)，模型會(huì)生成不可編譯的代碼來(lái)響應(yīng)一個(gè)或多個(gè)提示。致性，我們選擇重新生成導(dǎo)致不可編譯代碼片段的提示。對(duì)于每個(gè)模型成導(dǎo)致其特定示例無(wú)法編譯的代碼片段。然而，重新運(yùn)行代碼片段并沒(méi)），Turbo）或沒(méi)有（WizardCoder）額外的代碼片段變得可編譯。（在附生前后模型的不可編譯片段數(shù)量的完整比較。值得注代碼時(shí)編寫(xiě)了10個(gè)可編譯的代碼片段。我們沒(méi)有改變?nèi)魏螀?shù)在我們以這種變化是由于隨機(jī)性或不可預(yù)見(jiàn)的因素是本研究的范圍之外。在后，我們通過(guò)ESBMC管道重新運(yùn)行了重新生成的代碼片資料來(lái)源：中央統(tǒng)計(jì)局。評(píng)價(jià)結(jié)果），總的來(lái)說(shuō)，我們看到五種型號(hào)的驗(yàn)證失敗率很高。驗(yàn)證失敗、無(wú)法編譯或?qū)е聶z查器出錯(cuò)。每個(gè)模型的代碼樣本中，不被ESBMC檢測(cè)到，而且由于無(wú)限循環(huán)、檢查器超時(shí)或編譯錯(cuò)誤法驗(yàn)證。雖然錯(cuò)誤和不可編譯的代碼不一定是安全漏洞，但它們?nèi)再Y料來(lái)源：中央統(tǒng)計(jì)局。圖4詳細(xì)顯示了對(duì)應(yīng)于每個(gè)模型的每個(gè)ESBMC驗(yàn)證狀態(tài)的代碼片段的百分比，以及所有模型中驗(yàn)證狀態(tài)的平均百分比。GPT-4和GPT-3.5是參數(shù)數(shù)最多的型號(hào)，ESBMC能夠成功驗(yàn)證的輸出數(shù)量最多。僅根據(jù)ESBMC的結(jié)果，GPT-4并沒(méi)有明顯優(yōu)于GPT-3.5，盡管它被認(rèn)為在任務(wù)泛化和自然語(yǔ)言解釋方面更強(qiáng)大。事實(shí)上，GPT-3.5比GPT-4有更好的性能，并且通過(guò)成功驗(yàn)證的代碼片段的數(shù)量來(lái)衡量整體性能最OpenAI模型中，GPT-4生成了更多未編譯的代碼片段，并且由于不完整或語(yǔ)法錯(cuò)誤而未在所有五個(gè)模型中，大約48%的生成代碼片段是可編譯的，但包含ESBMC標(biāo)記的錯(cuò)誤過(guò)了ESBMC驗(yàn)證（我們將其定義為安全），而其余代碼片段未能編譯或在驗(yàn)證管道中在這五種模型中，我們也看到了行為的顯著變化。其中一些差異產(chǎn)生某些類(lèi)型的輸出。例如，在Mistral的樣本中，錯(cuò)誤片段的比例相當(dāng)大，這是由于模型傾向于生成針對(duì)每個(gè)提示符的特定請(qǐng)求的單個(gè)函數(shù)，而不是的程序。雖然這些片段可能在功能上是正確的，但它們?nèi)狈ν暾?，未能通過(guò)ESBMCWizardCoder可能是最不知名的模型，它產(chǎn)生了最多的未通過(guò)驗(yàn)證的代碼片段。然而，與其他類(lèi)似大小的開(kāi)放模型相比，WizardCoder也傾向于生成不太可能導(dǎo)致錯(cuò)誤或未知相比之下，CodeLlama傾向于產(chǎn)生漫無(wú)邊際的、無(wú)意義的響應(yīng)，沒(méi)有可編譯的代碼。它也一再未能為五個(gè)提示生成可用的代碼，即使提示三次。因此，我們的CodeLlama片段的樣本量為62，這與其他四種型號(hào)的67個(gè)提示的樣本量不一致。在CodeLlama生成的所有代碼片段中，只有19%成功通過(guò)了ESBMC驗(yàn)證，這是所有五安全與新興技術(shù)中心|24資料來(lái)源：中央統(tǒng)計(jì)局?？偟膩?lái)說(shuō)，所有五個(gè)測(cè)試的模型也顯示出產(chǎn)生類(lèi)節(jié)中所提到的，用于生成代碼片段的提示被設(shè)計(jì)成極有可能引發(fā)與MITRETo列表相對(duì)應(yīng)的bug。這個(gè)社區(qū)開(kāi)發(fā)的列表列舉了軟件和硬件中一些），MITRECWE列表中發(fā)現(xiàn)的錯(cuò)誤不僅是潛在工作。即使錯(cuò)誤不會(huì)導(dǎo)致可利用的漏洞，它仍然會(huì)在代碼C編程語(yǔ)言特別容易受到涉及分配和釋放內(nèi)存的錯(cuò)誤的影導(dǎo)致內(nèi)存損壞、崩潰，并可能允許攻擊者執(zhí)行任意代碼。圖5詳細(xì)介個(gè)測(cè)試模型中識(shí)別的錯(cuò)誤類(lèi)型。解引用失敗、緩沖區(qū)溢出和內(nèi)存我們的評(píng)估和我們?cè)u(píng)估中的所有五個(gè)模型都產(chǎn)生了這些錯(cuò)關(guān)錯(cuò)誤。當(dāng)惡意網(wǎng)絡(luò)攻擊者發(fā)現(xiàn)或利用時(shí)，解引用故些在評(píng)估中的五個(gè)模型生成的可編譯代碼中不太常見(jiàn)。限制如表1所示，我們選擇的五個(gè)模型在規(guī)模或?qū)I(yè)化過(guò)OpenAIAPI訪問(wèn)了GPT-3.5-turb制，因?yàn)槲覀冊(cè)诒镜剡\(yùn)行它們，而不是使用第三方提供商的本評(píng)估并不旨在準(zhǔn)確反映“現(xiàn)實(shí)”軟件開(kāi)發(fā)工作流程。例如，可能遠(yuǎn)遠(yuǎn)大于70億個(gè)參數(shù)，這被認(rèn)為是開(kāi)放AI模型的小部不太可能通過(guò)像ESBMC這樣的模型檢查器運(yùn)行所有代碼，這最后，LLMSecEval數(shù)據(jù)集的提示是專門(mén)設(shè)計(jì)來(lái)模擬AI生成模型更有可能生它們是一個(gè)更大程序的完全正確的部分。由于我們轉(zhuǎn)換錯(cuò)誤和解析錯(cuò)誤。轉(zhuǎn)換錯(cuò)誤通常與不完整的代碼片段相關(guān)資料來(lái)源：中央統(tǒng)計(jì)局。最后，此評(píng)估并不打算對(duì)與各種代碼生成模型相關(guān)的所有相反，它證明了我們?cè)u(píng)估的代碼生成模型通常會(huì)在特定條件下生碼具有常見(jiàn)且有影響力的安全漏洞。進(jìn)一步的實(shí)證研究測(cè)試模型，在某些條件下，AI代碼生成模型往往會(huì)生成錯(cuò)誤的代碼，并且術(shù)界和人工智能行業(yè)以前的研究表明，開(kāi)箱即用的人工智能模型經(jīng)雖然確切的百分比各不相同，但所有模型都在至少40%的測(cè)試提示中一些錯(cuò)誤可能非常嚴(yán)重，例如緩沖區(qū)溢出和解引用失敗。雖然這的軟件開(kāi)發(fā)工作流程，但它們可以被認(rèn)為是人工智能模型可以以最全代碼數(shù)量的粗略上限。這些結(jié)果證實(shí)了越來(lái)越多的先前研究，這行業(yè)采用人工智能代碼生成模型可能會(huì)對(duì)軟件供應(yīng)鏈安些模型將成為軟件開(kāi)發(fā)管道的重要組成部分，因?yàn)锳I生成的代碼庫(kù)中。然而，這些模式的負(fù)面影響可能因組織而異。擁有強(qiáng)大的代開(kāi)發(fā)流程的大型、資源充足的企業(yè)可能能夠使用現(xiàn)有程序減輕人工的影響，而較小的、資源不足的企業(yè)和個(gè)人可能會(huì)面臨限制，或者好消息是，這種風(fēng)險(xiǎn)可以納入現(xiàn)有的風(fēng)險(xiǎn)管理框架。雖然現(xiàn)代發(fā)人員可以編寫(xiě)不安全代碼的想法并不新鮮。現(xiàn)有的框架，如NIST的代碼可以由人工智能系統(tǒng)生成的背景。[55]人工智能生成的代碼并不是一種新的風(fēng)險(xiǎn)類(lèi)別，它可能只是意味著在評(píng)估整體供應(yīng)鏈安全性時(shí)，應(yīng)該更多地代碼的風(fēng)險(xiǎn)（與其他類(lèi)別的風(fēng)險(xiǎn)相比，如對(duì)抗性妥協(xié)）。無(wú)論其56誰(shuí)負(fù)責(zé)確保AI生成的代碼是安全的？目前，驗(yàn)證AI生成的代碼是否戶身上。然而，主動(dòng)花費(fèi)成本來(lái)檢查代碼輸出的安全性（以效間不會(huì)是恒定的。目前的狀態(tài)與白宮的2023年國(guó)家網(wǎng)絡(luò)安責(zé)任從個(gè)人和小企業(yè)轉(zhuǎn)移到最有能力大規(guī)模降低系統(tǒng)性風(fēng)險(xiǎn)的組織。這就提出了一個(gè)問(wèn)題，如果不是用戶，那么誰(shuí)應(yīng)該主要負(fù)責(zé)安全。部分答案在于人工智能開(kāi)發(fā)人員，他們可以通過(guò)以下措性：從訓(xùn)練數(shù)據(jù)集中刪除已知的易受攻擊的代碼，除了功能基的模型，以及在測(cè)試和評(píng)估過(guò)程中繼續(xù)監(jiān)控不可預(yù)見(jiàn)的不安全他部分在于集成此類(lèi)LLM的工具和應(yīng)用程序，以提供代碼生出安全性的內(nèi)置功能，并在可能的情況下提供進(jìn)一步的修復(fù)建議。這和NIST等相關(guān)政府組織推動(dòng)，將安全設(shè)計(jì)原則擴(kuò)展到可能影響軟代碼生成模型的評(píng)估基準(zhǔn)通常對(duì)性能進(jìn)行評(píng)估，但忽略了安全性模型將性能優(yōu)先于安全性。許多對(duì)代碼生成模型進(jìn)行排名的流行能的指標(biāo)，如HumanEval，它也往往局限于特定的編程語(yǔ)言。58這些務(wù)生成功能代碼的能力來(lái)衡量，可能不是最不可能生成不安調(diào)的LLM在過(guò)去一年中在功能基準(zhǔn)測(cè)試中表現(xiàn)更好，這并代碼的能力方面也有所提高(Nor在基準(zhǔn)測(cè)試中性能的提高是否一定基準(zhǔn)測(cè)試可能會(huì)飽和，其中模型達(dá)到無(wú)法超越的性能極限，或良好但在其他環(huán)境中表現(xiàn)不佳時(shí)可能會(huì)過(guò)度擬合基準(zhǔn)測(cè)模型可能會(huì)產(chǎn)生更不安全的代碼。其他研究表明，在微調(diào)過(guò)程中而且排行榜還應(yīng)該根據(jù)可用的安全基準(zhǔn)明確地對(duì)代碼生成模型進(jìn)行排名。存在與不安全的AI生成的代碼相關(guān)的下游和相關(guān)風(fēng)險(xiǎn)，這些風(fēng)險(xiǎn)僅僅是修復(fù)代碼輸出。隨著代碼生成模型被越來(lái)越廣泛地采用，可饋循環(huán)，其中來(lái)自AI工具的不安全代碼輸出最終會(huì)出現(xiàn)在開(kāi)源存如果越來(lái)越多地使用代碼生成模型導(dǎo)致更多的人在環(huán)位移，這可能會(huì)加劇組織現(xiàn)有的網(wǎng)絡(luò)安全風(fēng)險(xiǎn)，那么下游勞動(dòng)其中可能包含已知和可利用的安全漏洞。模型輸出的概率性質(zhì)告，我們的評(píng)估范圍是回答少數(shù)LLM是否在特式驗(yàn)證作為衡量代碼不安全性的代理。與此同時(shí)，對(duì)幫助我們了解人工智能代碼生成工具對(duì)網(wǎng)絡(luò)安全和其●在評(píng)估代碼輸出的安全性時(shí)，代碼生成模型的各種安全性基準(zhǔn)有多可靠●在使用AI代碼生成工具時(shí)，人類(lèi)程序員在多大程度上表現(xiàn)出自動(dòng)化偏見(jiàn)？隨●AI生成的代碼在多大程度上有助于或幫助減少技術(shù)債務(wù)？力和效率產(chǎn)生積極影響，并在勞動(dòng)力培訓(xùn)和教育方面顯示出希望這些工具的好處，應(yīng)該對(duì)這些工具的潛在網(wǎng)絡(luò)安全風(fēng)險(xiǎn)給予積極生成模型通常會(huì)生成不安全的代碼，其中一些和組織依賴于代碼生成模型來(lái)生成代碼并將其合并到項(xiàng)目中，這應(yīng)鏈安全帶來(lái)問(wèn)題。它們還可能帶來(lái)其他下游和相關(guān)的風(fēng)險(xiǎn)，例對(duì)改進(jìn)模型及其使用的政策關(guān)注，并考慮到功能基準(zhǔn)之外的安全作者JennyJun是CSET的非常駐研究員，教授。她完成了她對(duì)這個(gè)項(xiàng)目的貢獻(xiàn)，而她是CSET的對(duì)于反饋和幫助，作者要感謝CatherineAiken、?2024由安全和新興技術(shù)中心。本作品采用知識(shí)共享署名-非商業(yè)性使用4.0國(guó)際許要查看本許可證的副本，請(qǐng)?jiān)L問(wèn)https://輸出資料來(lái)源：中央統(tǒng)計(jì)局。“錯(cuò)誤”代碼段的原始新的“錯(cuò)誤”代碼段數(shù)9762266資料來(lái)源：中央統(tǒng)計(jì)局。1InbalShani和GitHub員工，“調(diào)查揭示了AI對(duì)開(kāi)發(fā)人員體驗(yàn)的影響”，GitHub博客，2023年6月13日，https://github.blog/2023-06-13-survey-reveals-ais-impact-on-the-developer-experience/。2“AICode，Security，andTrustinModernDevelopment，?（Snyk，2024），https://snyk.io/reports/ai-code-security/.3OpenAI，“ChatGPT插件”，OpenAI博客，2023年3月23日，/blog/chatgpt-插件。4DanielLiandLincolnMurr，“HumanEvalonLatestGPTModels--2024，”arXivpreprintarXiv：2402.14852（2024/abs/2402.14852v1.5MarkChen，JerryTworek，HeewooJun，QimingYuanetal.，“EvaluatingLargeLanguageModelsTrainedonCode，”arXivpreprintarXiv：2107.03374（2021），/abs/2107.03374.6NatFriedman，“IntroducingGitHubCopilot：YourAIPairProgrammer，”GitHubBlog，2021年6月29日，https://github.blog/2021-06-29-introducing-github-copilot-ai-pair-programmer/。7BaptisteRozière，JonasGehring，F(xiàn)abianGloeckle等人，“CodeLlama：OpenFoundationModelsforCode，”arXivpreprintarXiv：2308.12950（2023），/abs/2308.12950.8DenisKocetkov，RaymondLi，LoubnaBenAllal，JiaLi等人，“TheStack：3TBofPermissivelyLicensedSourceCode，”arXivpreprintarXiv：2211.15533（2022），/abs/2211.15533;LoubnaBenAllal，RaymondLi，DenisKocetkovetal.，SantaCoder：Don'tReachfortheStars?。⊿antaCoder：Don'tReachfortheStars?。゛rXiv預(yù)印本arXiv：2301.03988（2023），/abs/2301.03988;RaymondLi，LoubnaBenAllal，YangtianZi等人，“StarCoder：愿源頭與你同在！”arXiv預(yù)印本arXiv：2305.06161（2023），/abs/2305.06161。9LeoGao，StellaBiderman，SidBlack，LaurenceGolding等人，“ThePile：An800GBDatasetofDiverseTextforLanguageModeling，”arXivpreprintarXiv：2101.00027（2020），/abs/2101.00027.10Chen等人，“評(píng)估在代碼上訓(xùn)練的大型語(yǔ)言模型。11BrettIversen，SatyaNadella，andAmyHood，Transcriptof“MicrosoftFiscalYear2024ThirdQuarterEarningsConferenceCall，”April25，2024，/en-us/investor/events/fy-2024/earnings-fy-2024-q3.aspx;ThomasDohmke，“TheEconomicImpactoftheAI-PoweredDeveloperApproachandLessonsfromGitHubCopilot，”GitHubBlog，June27，2023，https://github.blog/2023-06-27-the-economic-impact-of-the-ai-powered-developer-lifecycle-and-lessons-from-github-copilot/.[12]休·蘭利（HughLangley），《GoogleQuietlyLaunchesInternalAIModelNamed'Goose'toHelpEmployeesWriteCodeFaster，LeakedDocumentsShow》，《商業(yè)內(nèi)幕》（BusinessInsider安全與新興技術(shù)中心|352024年2月14日，/google-goose-ai-model-language-ai-coding-2024-2;馬克西姆Tabachnyk和StoyanNikolov，“ML增強(qiáng)的代碼完成提高了開(kāi)發(fā)人員的生產(chǎn)力”，Google研究博客，2022年7月26日，https://blog.research.google/2022/07/ml-enhanced-code-completion-improves.html;VijayaraghavanMurali、ChandraMaddila、ImadAhmad等人，“AI輔助的大規(guī)模代碼編寫(xiě)：微調(diào)，部署和混合方法評(píng)估”，arXiv預(yù)印本arXiv：2305.12050（2024），/abs/2305.12050。[13]EiriniKalliamvakou，“Research：QuantifyingGitHubCopilot'sImpactonDeveloperProductivityandHappiness，”GitHubBlog，September7，2022，https://github.blog/2022-09-07-research-quantifying-github-copilots-impact-on-developer-productivity-and-happiness/.14BegumKaraciDeniz，ChandraGnanasambandam，MartinHarrysson等人，“UnleashingDeveloperProductivitywithGenerativeAI，”McKinseyDigital，2023年6月27日，/capabilities/mckinsey-digital/our-insights/unleashing-developer-productivity-with-generative-ai.15Murali等人，“AI輔助的大規(guī)模代碼創(chuàng)作：微調(diào)，部署和混合方法評(píng)估”;Tabachnyk和Nikolov，“ML增強(qiáng)的代碼完成提高了開(kāi)發(fā)人員的生產(chǎn)力”。16KevinZheyuanCui，MertDemirer，SoniaJaffe等人，“生成式人工智能對(duì)高技能工作的影響：來(lái)自軟件開(kāi)發(fā)人員三次實(shí)地實(shí)驗(yàn)的證據(jù)”，2024年9月5日，/10.2139/ssrn.4945566。17Chen等人，“評(píng)估在代碼上訓(xùn)練的大型語(yǔ)言模型。18在進(jìn)行本研究時(shí)，GithubCopilot由OpenAI的Codex提供支持，這是一個(gè)基于GPT-3的代碼生成模型截至2023年11月30日，GithubCopilot目前由GPT-4提供支持19HammondPearce，BaleeghAhmad，BenjaminTan等人，“在鍵盤(pán)上跳舞？AssessingtheSecurityofGitHubCopilot'sCodeContributions，”arXivpreprintarXiv：2108.09293（2021），/abs/2108.09293.20穆罕默德·西迪克和喬安娜·C.S.Santos，“SecurityEvalDataset：挖掘漏洞示例以評(píng)估基于機(jī)器學(xué)習(xí)的代碼生成技術(shù)”，MSR4P&S2022：第一屆隱私和安全挖掘軟件存儲(chǔ)庫(kù)應(yīng)用國(guó)際研討會(huì)論文集（2022年11月）：29-33，/10.1145/3549035.3561184。21Rapha?lKhoury，AndersonR.阿維拉，雅各布·布魯內(nèi)爾等人，“ChatGPT生成的代碼有多安全arXiv預(yù)印本arXiv：2304.09655（2023），/abs/2304.09655。22付玉佳，彭亮，阿姆吉德·塔希爾等，“SecurityWeaknessesofCopilotGeneratedCodeinGithub，”arXivpreprintarXiv：2310.02059v2（2024），/abs/2310.02059v2.23HayleyDenbraver，“MaliciousPackagesFoundtoBeTypo-SquattinginPythonPackageIndex，”SnykBlog，2019年12月5日，https://snyk.io/blog/malicious-packages-found-to-be-typo-squatting-in-pypi/.24BarLanyado，“CanYouTrustChatGPT'sPackageRecommendations？"Vulcan.io博客，2023年6月6日，https://vulcan.io/blog/ai-hallucinations-package-risk。25ThomasClaburn，“AIHallucinatesSoftwarePackagesandDevsDownloadThem-EvenifPotentiallyPoisonedwithMalware，”TheRegister，March28，2024，/2024/03/28/ai_bots_hallucinate_software_packages.26Snyk，“AICode，Security，andTrustinModernDevelopment.”27NeilPerry，MeghaSrivastava，DeepakKumar，andDanBoneh，“DoUsersWriteMoreInsecureCodewithAIAssistants？"，arXiv預(yù)印本arXiv：2211.03622（2023），http：///abs/2211.03622。28GustavoSandoval，HammondPearce，TeoNys等人，“LostatC：AUserStudyontheSecurityImplicationsofLargeLanguageModelCodeAssistants，”arXivpreprintarXiv：2208.09727（2023/abs/2208.09727;OwuraAsare，MeiyappanNagappan，andN.Asokan，“在引入代碼漏洞方面，GitHub的Copilot和人類(lèi)一樣糟糕嗎？?,arXiv預(yù)印本arXiv：2204.04741（2024），/abs/2204.04741。29MohammedAlzhefSiddiq，ShafayatH.邁沙？馬朱姆德米姆等人，“基于transformer的代碼生成技術(shù)中代碼氣味的實(shí)證研究”，2022年IEEE第22屆源代碼分析和操縱國(guó)際工作會(huì)議（SCAM2022年10月71-82，/10.1109/SCAM55253.2022.00014。30ManishBhatt，SahanaChennabasappa，CyrusNikolaja等人，“PurpleLlamaCyberSecEval：ASecureCodingBenchmarkforLanguageModels，”arXivpreprintarXiv：2312.04724（2023），/abs/2312.04724.31RanElgedawy，JohnSadik，SenjutiDutta等人，“偶爾安全：代碼生成助手的比較分析”，arXiv預(yù)印本arXiv：2402.00689（2024），/abs/2402.00689。32Elgedawy等人，“OccasionallySecure.”33ArijitGhoshChowdhury，MdMofijulIslam，VaibhavKumar等人，“BreakingDowntheDefenses：AComparativeSurveyofAttacksonLargeLanguageModels，”arXivpreprintarXiv：2403.04786（2024），/abs/2403.04786.34EvanHubinger，CarsonDenison，JesseMu等人，“SleeperAgents：TrainingDeceptiveLLMthatPersistsThroughSafetyTraining，”arXivpreprintarXiv：2401.05566（2024），https：/abs/2401.05566.安全與新興技術(shù)中心|38[35]DomenicoCotroneo，CristinaImprota，PietroLiguori，andRobertoNatella，“VulnerabilitiesinAICodeGenerators：ExploringTargetedDataPoisoningAttacks，”arXivpreprintarXiv：2308.04451（2024/abs/2308.04451.36KaiGreshake，SaharAbdelnabi，ShaileshMishra等人，“NotWhatYou'veSignedUpFor：CompromisingReal-WorldLLM-IntegratedApplicationswithIndirectPromptInjection，”arXivpreprintarXiv：2302.12173（2023/abs/2302.12173.37ScottWu，“IntroducingDevin，theFirstAISoftwareEngineer”，Cognition.aiBlog，2024年3月12日，/introducing-devin。38IliaShumailov，ZakharShumaylov，YirenZhao，YarinGal，NicolasPapernot，andRossAnderson，“TheCurseofRecursion：TrainingonGeneratedDataMakesModelsForget，”arXivpreprintarXiv：2305.17493v3（2024），/abs/2305.17493v3;SinaAlemohammad，JosueCasco-Rodriguez，LorenzoLuzietal.“Self-ConsumingGenerativeModelsGoMAD，”arXivpreprintarXiv：2307.01850（2023），/abs/2307.01850.[39]BrodyFord，“IBM將重新招聘人工智能可以做的工作”，彭博新聞社，2023年5月1日，/news/articles/2023-05-01/ibm-to-pause-hiring-for-back-office-jobs-that-。40Bhatt等人，“紫色美洲駝網(wǎng)絡(luò)機(jī)密評(píng)估”41ESBMC，系統(tǒng)和軟件驗(yàn)證實(shí)驗(yàn)室，2024，/。42Bhatt等人，“紫色美洲駝網(wǎng)絡(luò)機(jī)密評(píng)估”43HosseinHajipour，KenoHassler，ThorstenHolz等人，“CodeLMSec基準(zhǔn)：系統(tǒng)地評(píng)估和發(fā)現(xiàn)黑盒代碼語(yǔ)言模型中的安全漏洞”，arXiv預(yù)印本arXiv：2302.04012（2023），/abs/2302.04012。44AoboKong，ShiwanZhao，HaoChen等，“BetterZero-ShotReasoningwithRole-PlayPresting，”arXivpreprintarXiv：2308.07702（2023/abs/2308.07702.45Perry等人，“用戶使用AI助手會(huì)編寫(xiě)更多不安全的代碼嗎？?46Pearce等人，“在鍵盤(pán)上跳舞？評(píng)估GitHubCopilot代碼貢獻(xiàn)的安全性。47CatherineTony，MarkusMutas，NicolásE.DíazFerreyra和RiccardoScandariato，“LLMSecEval：用于安全評(píng)估的自然語(yǔ)言數(shù)據(jù)集”，arXiv預(yù)印本arXiv：2303.09384（2023），/abs/2303.09384。安全與新興技術(shù)中心|3948“CWETop25MostDangerousSoftwareWeaknesses，”MITRE，November30，2023，/top25/.49Tony等人，“LLMSecEval：用于安全評(píng)估的自然語(yǔ)言數(shù)據(jù)集。50這個(gè)項(xiàng)目的公共GitHub存儲(chǔ)庫(kù)可以在/georgetown-cset/code-generation-2.0找到。51Tony等人，“LLMSecEval：用于安全評(píng)估的自然語(yǔ)言數(shù)據(jù)集。52NorbertTihanyi，TamasBisztray，RidhiJain等人，“FormAI數(shù)據(jù)集：通過(guò)形式驗(yàn)證的鏡頭在軟件安全中的生成AI，”arXiv預(yù)印本arXiv：2307.02192（2023），/abs/2307.02192。53Khoury等人，“ChatGPT生成的代碼有多安全Fu等人，“SecurityWeaknessesofCopilotGeneratedCodeinGithub”;Bhattetal.，“紫色美洲駝網(wǎng)絡(luò)機(jī)密評(píng)估”54Elgedaway等人，“OccurnallySecure”;Siddiq和Santos，“SecurityEvalDataset：MiningVulnerabilityExamplest

人人文庫(kù)> 全部分類(lèi)> 應(yīng)用文書(shū) > 研究報(bào)告

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

CSET：人工智能生成代碼的網(wǎng)絡(luò)安全風(fēng)險(xiǎn)（中文）

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

CSET：人工智能生成代碼的網(wǎng)絡(luò)安全風(fēng)險(xiǎn)（中文）

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔