2024大模型安全解決方案白皮書_第1頁
2024大模型安全解決方案白皮書_第2頁
2024大模型安全解決方案白皮書_第3頁
2024大模型安全解決方案白皮書_第4頁
2024大模型安全解決方案白皮書_第5頁
已閱讀5頁,還剩52頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

大模型安全解決方案白皮書2024 1大模型安全解決方案白皮書大模型安全解決方案白皮書目錄前言 2大模型安全的重要性 4安全風(fēng)險(xiǎn)引發(fā)的重要性 4安全方案服務(wù)的使命與目標(biāo) 5大模型應(yīng)用面臨的安全挑戰(zhàn)與潛在威脅 7數(shù)據(jù)安全與隱私問題 7模型流轉(zhuǎn)/部署過程中的安全問題 8AIGC的內(nèi)容合規(guī)問題 9大模型運(yùn)營的業(yè)務(wù)安全問題 15大模型安全解決方案 19大模型數(shù)據(jù)安全與隱私保護(hù)方案 19模型保護(hù)方案 33AIGC內(nèi)容合規(guī) 36大模型業(yè)務(wù)運(yùn)營與安全風(fēng)控 41大模型藍(lán)軍安全評測解決方案 44建立大模型藍(lán)軍所面臨困難 44百度安全面向大模型藍(lán)軍的解決方案 47總結(jié)與展望 54總結(jié)成果與貢獻(xiàn) 54展望未來發(fā)展 556.3結(jié)語 55大模型安全解決方案白皮書大模型安全解決方案白皮書PAGEPAGE10前言在當(dāng)今迅速發(fā)展的數(shù)字化時代,人工智能技術(shù)正引領(lǐng)著科技創(chuàng)新的浪潮,能力強(qiáng)大的人工神經(jīng)網(wǎng)絡(luò)模型,以其卓越的表現(xiàn)在自然語言處理、計(jì)算機(jī)視度學(xué)習(xí)模型,尤其是基于Transformer架構(gòu)的模型,如BERT、GPT和T5,通過在海量數(shù)據(jù)上進(jìn)行訓(xùn)練,學(xué)習(xí)到了豐富的語義和特征表示,使得其在多項(xiàng)人工智能任務(wù)中展現(xiàn)出遠(yuǎn)超以往的性能。例如,在自然語言處理領(lǐng)域,這些大模型能夠?qū)崿F(xiàn)更準(zhǔn)確、更流暢的語言生成、機(jī)器翻譯和情感分析等任務(wù),大大提升了人機(jī)交互和信息處理的能力。伴隨著大模型的不斷演進(jìn)和不斷優(yōu)化,其在商業(yè)領(lǐng)域的應(yīng)用也愈發(fā)廣泛,金融行業(yè)可以利用大模型進(jìn)行風(fēng)險(xiǎn)評估和市場預(yù)測,醫(yī)療領(lǐng)域可以通過大模型實(shí)現(xiàn)圖像識別和疾病診斷,而廣告、營銷等領(lǐng)域也能夠通過大模型實(shí)現(xiàn)更精準(zhǔn)的用戶推薦和個性化服務(wù)。同時,大模型還在科學(xué)研究、文化創(chuàng)意和娛樂產(chǎn)業(yè)中發(fā)揮著積極作用,為人類創(chuàng)造了更多可能性。但伴隨著大模型技術(shù)的迅猛發(fā)展,一系列安全風(fēng)險(xiǎn)和倫理挑戰(zhàn)也開始浮現(xiàn)。大規(guī)模數(shù)據(jù)的采集和存儲,可能導(dǎo)致個人隱私的泄露和濫用。模型的強(qiáng)大能力也可能被惡意利用,用于虛假信息生成、社會工程和網(wǎng)絡(luò)攻擊。對抗樣本攻擊則可能使得模型產(chǎn)生誤導(dǎo)性結(jié)果,嚴(yán)重影響決策的準(zhǔn)確性。在社會倫理層面,大模型的使用引發(fā)了關(guān)于人工智能責(zé)任、算法歧視等諸多爭議??尚哦?。通過深入剖析大模型領(lǐng)域的安全挑戰(zhàn),我們可以制定切實(shí)可行的措信息安全。大模型安全的重要性安全風(fēng)險(xiǎn)引發(fā)的重要性隨著大模型技術(shù)的高速發(fā)展,其在各個領(lǐng)域的應(yīng)用日益廣泛,從科研到商業(yè),再到日常生活、辦公等方方面面。但隨之而來的是一系列潛在的安全風(fēng)社會的穩(wěn)定。正因如此,深入了解和應(yīng)對這些安全風(fēng)險(xiǎn)變得至關(guān)重要。首先,大模型在許多應(yīng)用場景中處理大量敏感數(shù)據(jù)和個人信息,如用戶的搜索記錄、社交媒體互動和金融交易等。這使得數(shù)據(jù)泄露和隱私侵犯的風(fēng)險(xiǎn)不容忽視。一旦這些敏感信息遭受泄露,個人隱私權(quán)益可能會受到嚴(yán)重?fù)p害,甚至被用于惡意行為,如身份盜竊、詐騙和社會工程攻擊。這不僅會對受害者造成經(jīng)濟(jì)損失,還可能導(dǎo)致社會的恐慌和不信任。其次,大模型的強(qiáng)大能力也可能被用于進(jìn)行各種形式的惡意攻擊。模型的對抗性樣本攻擊,即針對模型的輸入進(jìn)行微小改動,從而欺騙模型產(chǎn)生錯誤預(yù)測,已成為一種常見的威脅。惡意使用者可以通過這種方式制造虛假信息,影響決策結(jié)果,如將誤導(dǎo)性的信息傳播到社交媒體平臺,從而擾亂社會秩序。此外,大模型的生成能力也可能被用于生成虛假的內(nèi)容,威脅到媒體的可信度和新聞的真實(shí)性。另外,模型本身也可能成為攻擊者的目標(biāo)。模型參數(shù)和權(quán)重的泄露可能導(dǎo)致知識產(chǎn)權(quán)的損失,甚至使惡意使用者能夠復(fù)制或修改模型,進(jìn)一步惡化風(fēng)而影響到正常的業(yè)務(wù)運(yùn)行。這些威脅可能在不經(jīng)意間對企業(yè)和社會造成巨大的損失。此外,大模型的使用往往涉及到社會倫理和法律問題。例如,算法的歧視性問題,即模型在處理數(shù)據(jù)時產(chǎn)生的不公平或偏見,可能引發(fā)社會的不滿和爭議。此外,大模型可能會被用于傳播虛假信息、仇恨言論或不當(dāng)內(nèi)容,從而引發(fā)社會不安定和文化沖突。最后,國家網(wǎng)信辦聯(lián)合國家發(fā)展改革委、教育部、科技部、工業(yè)和信息化部、公安部、廣電總局公布《生成式人工智能服務(wù)管理暫行辦法》,自2023年8月15日起施行,旨在促進(jìn)生成式人工智能健康發(fā)展和規(guī)范應(yīng)用,維護(hù)國家安全和社會公共利益,保護(hù)公民、法人和其他組織的合法權(quán)益。這既是促進(jìn)生成式人工智能健康發(fā)展的重要要求,也是防范生成式人工智能服務(wù)風(fēng)險(xiǎn)的現(xiàn)實(shí)需要。因此,確保大模型的安全性和可信度是一個緊迫的任務(wù)。需要綜合運(yùn)用技術(shù)手段、政策法規(guī)以及社會共識,建立起一套全面的大模型安全風(fēng)險(xiǎn)管理體這也是本白皮書所要探討的核心議題之一。安全方案服務(wù)的使命與目標(biāo)本白皮書的使命在于為大模型領(lǐng)域的各方利益相關(guān)者提供指導(dǎo),以確保大模型技術(shù)的安全應(yīng)用。我們致力于建立一個安全、穩(wěn)定且可信賴的大模型生態(tài)系統(tǒng),旨在維護(hù)用戶的數(shù)據(jù)隱私、保護(hù)企業(yè)的商業(yè)機(jī)密,并提供有效的對抗措施來應(yīng)對潛在的安全威脅。我們的目標(biāo)包括但不限于:力。建立規(guī)范和標(biāo)準(zhǔn),指導(dǎo)大模型的安全設(shè)計(jì)、開發(fā)、部署和監(jiān)測。促進(jìn)安全意識的提高,使所有相關(guān)方能夠更好地理解和應(yīng)對安全挑戰(zhàn)。推動研究和創(chuàng)新,以增強(qiáng)大模型的魯棒性和防御能力,應(yīng)對新型攻擊。本白皮書將按照不同的維度深入探討大模型安全的關(guān)鍵問題,以提供全面的指導(dǎo)和建議。大模型應(yīng)用面臨的安全挑戰(zhàn)與潛在威脅ChatGPT引爆的生成式人工智能熱潮,讓AI安全問題、AIGC數(shù)據(jù)安全與隱私問題1、傳輸截獲風(fēng)險(xiǎn):在進(jìn)行大模型非私有化的預(yù)訓(xùn)練、精調(diào)、推理服務(wù)時,數(shù)據(jù)需要在不同的主體或部門之間進(jìn)行傳輸。這些數(shù)據(jù)通常包括各種敏感信息和隱私,如個人身份信息、金融數(shù)據(jù)等。在數(shù)據(jù)傳輸過程中,如果沒有采取足夠的安全措施,攻擊者可能會截獲這些數(shù)據(jù),從而獲取敏感信息,給用戶和組織帶來安全和隱私問題。因此,在使用大模型服務(wù)時,必須采取適當(dāng)?shù)陌踩胧﹣肀Wo(hù)數(shù)據(jù)的機(jī)密性和完整性,以防止傳輸截獲風(fēng)險(xiǎn)。2、運(yùn)營方窺探風(fēng)險(xiǎn):在精調(diào)與推理階段,通常需要使用個人身份信息、企業(yè)數(shù)據(jù)等敏感數(shù)據(jù)來提高模型的準(zhǔn)確性和性能。然而,如果這些數(shù)據(jù)被大模型運(yùn)營機(jī)構(gòu)窺視或收集,就可能存在被濫用的風(fēng)險(xiǎn)。運(yùn)營方可能會利用這些數(shù)據(jù)來了解用戶的隱私信息,例如個人偏好、行為習(xí)慣、社交網(wǎng)絡(luò)等,從而進(jìn)行有針對性的廣告投放或者推銷策略。此外,運(yùn)營方還可能將數(shù)據(jù)泄露給第三方,這些第三方可能是合作伙伴、數(shù)據(jù)分析公司、廣告公司等,從而獲取不正當(dāng)?shù)睦妗?、模型記憶風(fēng)險(xiǎn):經(jīng)過模型的訓(xùn)練和推理后,模型會形成記憶。這些記憶包括各種歷史數(shù)據(jù)和相關(guān)信息,如果這些模型被泄露或共享使用,則可能存在模型記憶甚至記憶內(nèi)容泄密的風(fēng)險(xiǎn)。攻擊者可能會利用這些記憶信息來實(shí)施惡意行為,例如針對性攻擊、詐騙等。此外,如果記憶內(nèi)容被泄露,也會對用戶的隱私和安全造成威脅。因此,在使用大模型服務(wù)時,必須采取適當(dāng)?shù)陌踩胧﹣肀Wo(hù)模型的機(jī)密性和隱私性,例如加密和訪問控制等。同時,應(yīng)該定期對模型進(jìn)行評估和更新,以減少模型記憶風(fēng)險(xiǎn)。模型流轉(zhuǎn)/大模型本身也是一種重要的資產(chǎn),它包含了大量的知識和技能,如果沒有合理的管理和控制,就可能被盜取、復(fù)制或篡改,導(dǎo)致模型的性能下降或功能失效。此外,大模型也可能受到對抗攻擊的威脅,如對抗樣本、對抗訓(xùn)練等,這些攻擊可以使模型產(chǎn)生錯誤的輸出;本白皮書圍繞數(shù)據(jù)、模型、網(wǎng)絡(luò)通信等多個方面所面臨的安全問題做一下介紹:1、模型知識泄漏:在將模型部署到生產(chǎn)環(huán)境中,模型的輸出可能會暴露訓(xùn)練數(shù)據(jù)的一些信息。攻擊者可以通過分析模型的輸出,推斷出訓(xùn)練數(shù)據(jù)的特征和分布,進(jìn)而構(gòu)建類似的數(shù)據(jù)集,甚至還原部分原始數(shù)據(jù)。2、模型逆向工程:攻擊者可能嘗試通過逆向工程技術(shù)還原部署模型的架構(gòu)、權(quán)重和訓(xùn)練數(shù)據(jù)。這可能導(dǎo)致知識產(chǎn)權(quán)盜竊、模型盜用和安全漏洞的暴露。逆向工程可能通過模型推理結(jié)果、輸入輸出分析以及梯度攻擊等方式進(jìn)行。3、輸入數(shù)據(jù)的合法性和安全性:在模型部署階段,惡意用戶可能試圖通過提供惡意輸入來攻擊系統(tǒng)。例如,輸入中可能包含惡意代碼、命令執(zhí)行、注入語句或文件包含路徑,從而導(dǎo)致安全漏洞。4、模型更新和演化:模型需要定期更新以保持性能和適應(yīng)新的數(shù)據(jù)分布。然而,模型更新可能引入新的漏洞和問題。安全地更新模型需要考慮版本控制、驗(yàn)證新模型的安全性和穩(wěn)定性,以及備份機(jī)制以防產(chǎn)生不良影響。AIGC自2023年4月11日,國家互聯(lián)網(wǎng)信息辦公室為促進(jìn)生成式人工智能技術(shù)健康發(fā)展和規(guī)范應(yīng)用,根據(jù)《中華人民共和國網(wǎng)絡(luò)安全法》等法律法規(guī),國家互聯(lián)網(wǎng)信息辦公室起草了《生成式人工智能服務(wù)管理辦法(征求意見稿)》,再到國家網(wǎng)信辦聯(lián)合國家發(fā)展改革委、教育部、科技部、工業(yè)和信息化部、公安部、廣電總局共同公布的《生成式人工智能服務(wù)管理暫行辦法》的正式施行,在國家層面不斷指導(dǎo)和促進(jìn)生成式人工智能健康發(fā)展和規(guī)范應(yīng)用,也是防范生成式人工智能服務(wù)風(fēng)險(xiǎn)的現(xiàn)實(shí)需要,現(xiàn)以在百度安全在生成式人工智能服務(wù)的安全實(shí)踐和業(yè)務(wù)理解,總結(jié)了如下幾個方面的安全挑戰(zhàn):個人隱私問題:隱私問題涉及到生成式人工智能技術(shù)在使用用戶個人數(shù)據(jù)時可能引發(fā)的隱私泄露和濫用問題。生成技術(shù)通常需要大量的數(shù)據(jù)來提供更準(zhǔn)確的內(nèi)容生成,這可能包括用戶的文本、圖像、音頻等信息。然而,當(dāng)個人數(shù)據(jù)被用于生成內(nèi)容時,可能導(dǎo)致用戶的隱私權(quán)受到侵犯。此外,生成的內(nèi)容可能會反映用戶的個人喜好、興趣等,從而進(jìn)一步加劇隱私問題,例如:SmartCompose隱私問題:SmartCompose郵件內(nèi)容,引發(fā)了用戶隱私泄露的擔(dān)憂。語音助手隱私問題:Siri、Alexa語音指令,以提供更個性化的服務(wù)。但這也涉及對用戶的語音數(shù)據(jù)進(jìn)行收集和存儲,引發(fā)了關(guān)于隱私和數(shù)據(jù)安全的問題。個性化內(nèi)容生成隱私問題:生成技術(shù)可能會根據(jù)用戶的瀏覽歷史、社用戶感到他們的隱私受到了侵犯。虛假信息和誤導(dǎo)性內(nèi)容:虛假信息和誤導(dǎo)性內(nèi)容是指生成技術(shù)產(chǎn)生的信息在形式或內(nèi)容上誤導(dǎo)受信息也可能對政治、商業(yè)和社會產(chǎn)生重大影響,導(dǎo)致不穩(wěn)定和不確定性。例如:Deepfake虛假視頻:Deepfake技術(shù)將名人的臉部特征添加到不實(shí)的視頻中,以制造虛假事件。虛假新聞和評論:生成技術(shù)可以產(chǎn)生看似真實(shí)的新聞報(bào)道、評論和社輿論、政策制定和個人信任產(chǎn)生負(fù)面影響。制造虛假證據(jù):用虛假的文件或錄音。這可能導(dǎo)致司法領(lǐng)域的不公正判決。民族仇恨言論和不當(dāng)內(nèi)容:這一問題指的是生成的內(nèi)容可能涉及針對特定民族、種族、宗教或文化群體的仇恨性、甚至挑釁性言辭。這種民族仇恨言論和不當(dāng)內(nèi)容的存在可能導(dǎo)致仇恨情緒加劇,引發(fā)潛在的沖突和社會爭議,甚至導(dǎo)致社會的分裂,這對社會和諧、文化多元性以及人們之間的相互理解產(chǎn)生負(fù)面影響。偏見和歧視問題:這一問題涉及到生成的內(nèi)容可能帶有種族、性別、性取向、宗教、地域、年齡、健康、職業(yè)、國別等方面的偏見和歧視,進(jìn)而對個體、群體和社會造成不公平和傷害;產(chǎn)生這一問題的原因主要是指生成技術(shù)產(chǎn)生的內(nèi)容可能反映出技術(shù)模型所學(xué)習(xí)的數(shù)據(jù)中存在的偏見和歧視。這些偏見可能是源自原始數(shù)據(jù)中的社會偏見,也可能是因?yàn)槟P驮诖笠?guī)模訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到的不平衡。例如:2018AIGoogleDuplex”。這個助手被設(shè)計(jì)成能夠與人類自然對話,例如預(yù)訂餐廳的電話。然而,有用戶發(fā)現(xiàn)當(dāng)助手模仿不同的人物時,它可能會展現(xiàn)出性別偏見,例如模仿女性聲音時表現(xiàn)出過于順從的態(tài)度,而模仿男性聲音時則更自信;這個案例揭示了生成技術(shù)可能內(nèi)在地反映出社會中已經(jīng)存在的偏見和歧視。雖然這些模型并不是有意的,但大模型在學(xué)習(xí)過程中繼承了這些偏見和歧視,并在未來的內(nèi)容生成中可能不受控制的接受并發(fā)揮這些傾向。淫穢色情內(nèi)容:文化價(jià)值產(chǎn)生負(fù)面影響,可能引發(fā)道德爭議、社會不安以及對技術(shù)應(yīng)用的擔(dān)憂。例如:DeepNude造淫穢色情內(nèi)容,甚至可能損害個人形象和社會道德。6、政治/軍事敏感內(nèi)容:針對大模型生成的內(nèi)容,可能因訓(xùn)練數(shù)據(jù)污染、用戶惡意引導(dǎo)等導(dǎo)致生成有關(guān)國家領(lǐng)導(dǎo)人、國家制度/法律法規(guī)、政治事件等嚴(yán)重錯誤的內(nèi)容,以及可能涉及軍事等領(lǐng)域的敏感信息,可能對國家安全、國際關(guān)系和社會穩(wěn)定產(chǎn)生影響。7、恐怖/暴力內(nèi)容:生成式人工智能技術(shù)能夠模仿并創(chuàng)造包括文字、圖像和音頻在內(nèi)的多模態(tài)內(nèi)容,這使得恐怖和暴力內(nèi)容的創(chuàng)造變得更容易。雖然生成技術(shù)可以用于創(chuàng)作娛樂作品、藝術(shù)創(chuàng)作等領(lǐng)域,但它也可能被濫用,創(chuàng)造具有恐怖和暴力元素的內(nèi)容,對社會產(chǎn)生負(fù)面影響。例如前兩年一款名為"NightCafeStudio"在社交媒體平臺上引起了爭議。該應(yīng)用可以根據(jù)用戶提供的文字描述生成有關(guān)恐怖和暴力場景的圖像。雖然該應(yīng)用聲稱是用于娛樂目的,但這種技術(shù)可能被濫用,用于創(chuàng)造恐怖主義、暴力行為等不良內(nèi)容,對用戶造成精神和情感傷害。8、版權(quán)和知識產(chǎn)權(quán)問題:大模型在生成過程中,模型可能會從大量的原始數(shù)據(jù)中提取靈感,導(dǎo)致生2020NVIDIA大量藝術(shù)作品生成了一系列類似的圖像。這引發(fā)了關(guān)于生成技術(shù)是否侵犯了原創(chuàng)藝術(shù)家的知識產(chǎn)權(quán)的討論。此外,生成的文本內(nèi)容也可能受到版權(quán)保護(hù)。例如,一些新聞機(jī)構(gòu)和出版商可能會使用生成技術(shù)自動創(chuàng)作新聞報(bào)道,這可能引發(fā)與原創(chuàng)性和知識產(chǎn)權(quán)相關(guān)的問題。9.濫用和惡意使用:生成技術(shù)可能被用于制造虛假信息、網(wǎng)絡(luò)爬蟲、網(wǎng)絡(luò)釣魚、欺詐行為、網(wǎng)絡(luò)攻擊等惡意目的。濫用技術(shù)可能會造成社會混亂、信任危機(jī)和人身安全問題,需FraudGPT(GPT),WormGPTAI10責(zé)任和透明度:生成技術(shù)的邏輯和決策過程往往難以解釋,造成責(zé)任追溯困難,同時缺乏明確的責(zé)任歸屬:責(zé)任歸屬:在生成式人工智能的系統(tǒng)中,往往難以確定具體的責(zé)任主能來自于多個來源,難以追蹤其原始來源。透明度和解釋性缺乏透明度和解釋性的問題可能導(dǎo)致人們對人工智能系統(tǒng)的信任降低,同時也使得在出現(xiàn)錯誤或爭議時難以進(jìn)行責(zé)任評估和追究。大模型運(yùn)營的業(yè)務(wù)安全問題大模型服務(wù)在投入實(shí)際業(yè)務(wù)運(yùn)營與應(yīng)用時,同樣面臨諸多業(yè)務(wù)安全挑戰(zhàn),本節(jié)將如下幾個業(yè)務(wù)環(huán)節(jié)來介紹大模型應(yīng)用的安全問題::前置業(yè)務(wù)環(huán)節(jié):本環(huán)節(jié)主要涵蓋企業(yè)在構(gòu)建大模型服務(wù)時,與大模型交互前的各類業(yè)務(wù)階段,如賬號注冊、登錄、權(quán)益申請等業(yè)務(wù)運(yùn)營的諸多環(huán)節(jié),存在的業(yè)務(wù)安全風(fēng)險(xiǎn)主要包含:企業(yè)自有賬號體系的批量注冊、盜號、撞庫、掃庫、拖庫等賬號攻擊風(fēng)險(xiǎn),以及包含薅羊毛、權(quán)益侵占、機(jī)器作弊、審核資源浪費(fèi)等諸多的業(yè)務(wù)運(yùn)營風(fēng)險(xiǎn)。如下圖所示ChatGPT推出僅兩個月,注冊用戶就突破1個億,隨著用戶規(guī)模的不斷增長,各類違規(guī)賬號也在不斷的活躍,于是在2023年4月初開始,大規(guī)模封禁各類違規(guī)注冊賬號;同樣以百度文心一言大模型服務(wù)上線為例,再面向全國用戶開放了服務(wù)試用申請后,短時間內(nèi)收到了大量新注冊用戶的提交,其中不乏一些違規(guī)賬號的存在。因此,大模型在投入運(yùn)營階段,其前置的業(yè)務(wù)環(huán)節(jié)的安全風(fēng)控能力建設(shè)也會直接影響服務(wù)上線后的運(yùn)營效果與服務(wù)質(zhì)量。大模型交互環(huán)節(jié):在大模型交互環(huán)節(jié),本節(jié)將分別從用戶的“提問行為“和”提問內(nèi)容“兩個維度展開”。首先是提問行為,在針對大模型發(fā)起提問時,黑產(chǎn)等不發(fā)分子圍繞提問接AIGC盜爬/垃圾提問/接口攻擊/頻控突破/資源侵占等攻擊行為;針對大模型輸出結(jié)果,黑灰產(chǎn)可以發(fā)起投毒反饋、惡意反饋等攻擊行為。如下圖所示,今年北京某公司起訴其多年的合作的伙伴某知名網(wǎng)校品牌,指其近期推出的數(shù)學(xué)大模型MathGPTAIAIGCpromptUGC安全范疇,例如需要針對用戶輸入內(nèi)容進(jìn)行包含“涉黃、涉賭、涉毒、涉政治、涉恐、涉爆、低俗、辱罵”等內(nèi)容審核;同時還需要進(jìn)行“惡意代碼、網(wǎng)prompt模型,誘導(dǎo)生成不合規(guī)的內(nèi)容,如下圖所示:大模精調(diào)/推理環(huán)節(jié):在大模型服務(wù)上線后,還需要持續(xù)的對模型進(jìn)行精調(diào)、推理;因此在運(yùn)營階段數(shù)據(jù)安全與隱私問題同樣不能忽視,相關(guān)風(fēng)險(xiǎn)不在此章節(jié)進(jìn)行贅述,可以參考3.1數(shù)據(jù)安全與隱私問題。大模型安全解決方案百度二十余年安全對抗的總結(jié)與提煉,圍繞百度【文心大模型】安全實(shí)踐經(jīng)驗(yàn),推出以AI安全為核心的大模型安全風(fēng)控解決方案,從大模型全生命周期視角出發(fā),方案涵蓋大模型訓(xùn)練/精調(diào)/推理、大模型部署、大模型業(yè)務(wù)運(yùn)營等關(guān)鍵階段所面臨的安全風(fēng)險(xiǎn)與業(yè)務(wù)挑戰(zhàn),提供全套安全產(chǎn)品與服務(wù),助力企業(yè)構(gòu)建平穩(wěn)健康、可信、可靠的大模型服務(wù)。如上圖所示,本方案針對大模型訓(xùn)練階段、部署階段和業(yè)務(wù)運(yùn)營階段所面臨的安全挑戰(zhàn),給出了完整的應(yīng)對方案,本章節(jié)將會圍繞數(shù)據(jù)安全與隱私保護(hù)方案、模型保護(hù)方案、AIGC內(nèi)容合規(guī)方案、以及業(yè)務(wù)運(yùn)營風(fēng)控方案四個維度詳細(xì)闡述大模型安全能力建設(shè);同時結(jié)合以攻促防的思路詳細(xì)闡述如何建立AIGC內(nèi)容安全藍(lán)軍評測能力,對大模型實(shí)現(xiàn)例行化的安全評估。大模型數(shù)據(jù)安全與隱私保護(hù)方案橫向聯(lián)邦大模型解決方案百度安全支持公有云、私有化兩種場景下的橫向聯(lián)邦軟件方案,使得數(shù)據(jù)不出域的情況下,完成大模型的預(yù)訓(xùn)練、精調(diào),解決數(shù)據(jù)傳輸過程中被截獲的風(fēng)險(xiǎn)。在聯(lián)邦學(xué)習(xí)的橫向技術(shù)基礎(chǔ)上,又針對大模型的訓(xùn)練中遇到的特性做了優(yōu)化。首先,大模型的訓(xùn)練較傳統(tǒng)的訓(xùn)練階段,又細(xì)分為預(yù)訓(xùn)練和精調(diào)兩個階peft其次,大模型的模型參數(shù)量較傳統(tǒng)機(jī)器學(xué)習(xí)模型要多出幾個數(shù)量級,并且在訓(xùn)練過程中有著計(jì)算量大和計(jì)算節(jié)點(diǎn)的算力不均衡等問題。最后,較傳統(tǒng)的橫向聯(lián)邦,安全模型也是不相同的,傳統(tǒng)上需要保護(hù)的是用戶數(shù)據(jù),而不是模型。而對于大模型的場景,除了用戶數(shù)據(jù)是隱私的,其中訓(xùn)練的模型也是廠家投入了大量資本產(chǎn)生的,所以在大模型場景下模型安全也是需要考慮的。我們依照大模型所特有的特性,對現(xiàn)有的橫向聯(lián)邦技術(shù)做了演進(jìn)。采用中心化的CS架構(gòu),中心節(jié)點(diǎn)為匯聚服務(wù)器,用于將不同參與方的結(jié)果數(shù)據(jù)進(jìn)行匯聚,平衡各參與方的計(jì)算節(jié)奏,保持和管理最終的合并后的模型。每個參與方,采取弱侵入式的接入方式,部署參與方插件,用于和現(xiàn)有的算力平臺進(jìn)行結(jié)合,收集和管理本方的計(jì)算集群?;诓罘蛛[私的軟件精調(diào)/差分隱私(differentialprivacy)是一個\h數(shù)據(jù)保護(hù)手段,通過使用隨機(jī)噪聲來確保請求信息的可見結(jié)果時,不會因?yàn)閭€體的變化而變化,實(shí)現(xiàn)僅分享可以描述\h數(shù)據(jù)庫的一些統(tǒng)計(jì)特征、而不公開具體到個人的信息。這一特性可以被用來保護(hù)大模型在精調(diào)和推理時與云端服務(wù)端交互的用戶數(shù)據(jù)隱私?;诓罘蛛[私的云上精調(diào)方案,主要是利用差分隱私算法,通過添加噪聲去保護(hù)用戶與模型之間交互的數(shù)據(jù)。部署上會分成客戶端和一個服務(wù)提供端。根據(jù)目前的研究ChenQu[1],依據(jù)大模型保護(hù)的位置的不同,可以分成四種類型:沒有隱私保護(hù)(NullPrivacy),(a),不應(yīng)用何隱私限制,因此也不提供任何隱私保護(hù)方式。這種方式為模型提供了最大的可用性。序列表征隱私保護(hù)(SequenceRepresentationPrivation),(圖b),嵌入層(Embeddinglayer)和編碼層(Encoderlayer)是部署在用戶側(cè)。用戶在本地打亂序列的內(nèi)容,后再傳輸給部署在服務(wù)端的特定的任務(wù)層,最后在服務(wù)端完成結(jié)果的計(jì)算。符號表征隱私保護(hù)(TokenRepresentationPrivatization),(圖c),只有符號嵌入層(embeddinglayer)是部署在用戶側(cè)。用戶本地完成符號化和嵌入表查詢后,完成文本到符號表征表示。這里可以將隱私保護(hù)的手段應(yīng)用在符號表征上,然后再發(fā)送給服務(wù)提供者。服務(wù)提供者將收到的符號表征,再加上必須的符號表征和位置特征,然后再作為編碼層的輸入(EncoderLayer)文字串到文字串隱私保護(hù)(Text-to-textPrivatization),(圖d),用戶在本地完成了字符串到字符串的轉(zhuǎn)換,并且在過程中完成隱私化的自然語言模型,來處理這些隱私保護(hù)后的文字串。我們的差分隱私方案,主要應(yīng)用在大模型的精調(diào)和推理階段,特別是對于性能高于精度的場景。其部署是包含一個客戶端和一個服務(wù)端??蛻舳耍瑢⒂脩舻拿魑臄?shù)據(jù)添加噪聲混淆,并進(jìn)行初步輸入層的計(jì)算,完成對用戶的輸入數(shù)據(jù)進(jìn)行保護(hù),并發(fā)送給服務(wù)端。服務(wù)端收到用戶的隱秘?cái)?shù)據(jù),并將數(shù)據(jù)通過大模型的輸入代理層傳遞給大模型進(jìn)行計(jì)算。計(jì)算后,未解密的結(jié)果通過輸出代理,發(fā)送給客戶端。客戶端收到后,先進(jìn)行輸出的解碼等輸出層操作后,再經(jīng)過差分解調(diào),強(qiáng)化輸出結(jié)果,消除噪聲對結(jié)果的影響,得到計(jì)算的明文結(jié)果,并返回給客戶。由于在整個計(jì)算過程中,傳遞的數(shù)據(jù)均為添加噪聲后的中間計(jì)算結(jié)果,在保證計(jì)算性能的基礎(chǔ)上,通過差分隱私增加數(shù)據(jù)還原的難度,在一定程度上能夠保護(hù)用戶數(shù)據(jù)的安全?;谕瑧B(tài)密碼學(xué)的軟件精調(diào)/推理方案計(jì)算和處理的能力,從而保護(hù)數(shù)據(jù)的隱私和安全。對于大模型的數(shù)據(jù)保護(hù)思有計(jì)算過程由云端外包完成,但是云端服務(wù),不能獲取到計(jì)算的內(nèi)容。對于同態(tài)密碼學(xué)方案,核心是如何通過同態(tài)密碼學(xué)實(shí)現(xiàn)大模型的核心計(jì)算邏輯,其中主要包括,Embedding,Transformer(Attention)和Header等大模型基礎(chǔ)組件結(jié)構(gòu)。由于同態(tài)密碼學(xué)計(jì)算復(fù)雜性和支持的計(jì)算有限,如何合理的利用同態(tài)密碼學(xué)算法能達(dá)到可用性和精度的要求,實(shí)現(xiàn)精調(diào)和推理階段隱私保護(hù)的方案。目前基于同態(tài)密碼學(xué)方面的大模型研究,公開研究主要集中在推理階段,也有少量的精調(diào)方面。根據(jù)所采用的同態(tài)密碼學(xué)算法的實(shí)現(xiàn)不同,大致可以分成基于全同態(tài)密碼學(xué)FHE實(shí)現(xiàn)和基于MPC(SecureShare)實(shí)現(xiàn)兩大方向。在FHE方向,有基于CKKS的THE-X[3],以及基于BGV的Liu,Xuanqi[7],基于HGS的Primer[4];在MPC方向有基于2PC的MPCFormer[2]和Iron[5],基于3PC的Puma[6]。除了底層實(shí)現(xiàn)方法的不同之外,對于如何通過同態(tài)密碼學(xué)中有限的計(jì)算方式去實(shí)現(xiàn)和逼近大模型的基礎(chǔ)算子也是目前研究的熱點(diǎn)。在降低計(jì)算量的同時,如何平衡計(jì)算量和網(wǎng)絡(luò)傳輸量之間的關(guān)系,以達(dá)到在實(shí)際應(yīng)用中能最大化的降低耗時,將算法可用性能進(jìn)一步接近可用,也是研究所追求的目標(biāo)。對用戶數(shù)據(jù)進(jìn)行密態(tài)計(jì)算的方案,并將此技術(shù)運(yùn)用在大模型的精調(diào)和推理階竊取到用戶在使用大模型中交互的數(shù)據(jù),從而保護(hù)了用戶數(shù)據(jù)的隱私。可信執(zhí)行環(huán)境解決方案可信執(zhí)行環(huán)境(trustedexecutionenvironment,TEE)是處理器中的安全區(qū)域,TEEatrest)和通信過程中(intransit)TEEuseTEETEE還可以通過遠(yuǎn)程證明和負(fù)載度量值的結(jié)合,使公有云達(dá)到私有云的安全等級。對于私有化的場景,TEE調(diào)產(chǎn)出模型的隱私在第三方部署大模型服務(wù)時,保護(hù)模型的隱私TEE通過安全的設(shè)計(jì)與配置,可以運(yùn)行復(fù)雜的分布式系統(tǒng);算法,具備高性能處理海量數(shù)據(jù)的能力;NLPTEE受到側(cè)信道攻擊,需要構(gòu)建縱深防御安全體系,抵抗不同方向的攻擊,并加強(qiáng)安全測試來主動發(fā)現(xiàn)問題,還需要及時更新系統(tǒng)中所有組件的安全補(bǔ)丁。目前,Intel,AMD和海光提供虛擬機(jī)TEE(機(jī)密虛擬機(jī)),可以保護(hù)虛擬機(jī)內(nèi)的應(yīng)用、操作系統(tǒng)和外設(shè)不被宿主機(jī)和虛擬機(jī)管理器訪問:TDX(TrustedDomianExtension)domain,TD)TDXTDXIaaSCPUEncryptedAMD其推出時間較TDX早,因此軟件生態(tài)較好,upstreamlinuxkernel,openstack,kubevirtlibvirtCSV(ChineseSecureAMDSEV百度提供的可信執(zhí)行環(huán)境解決方案(MesaTEE)TEEIntelSGX,IntelTDX,AMDSEV-SNPCSVTEEPCIe(passthrough)的方式訪問NvidiaH系列GPU和海光集成DCU等具備機(jī)密計(jì)算能力的外部加速設(shè)備,MesaTEE能夠獲得與非機(jī)密計(jì)算相當(dāng)?shù)拇竽P陀?jì)算性能,擁有良好的模型效率和用戶體驗(yàn)。MesaTEE將傳統(tǒng)虛擬機(jī)安全與TEE相結(jié)合,將可信啟動過程記錄到遠(yuǎn)程認(rèn)證的度量值中,保證啟動過程的安全,提高遠(yuǎn)程認(rèn)證的真實(shí)性。機(jī)密虛擬機(jī)中運(yùn)行的容器啟動前,其數(shù)字簽名會被校驗(yàn),確保程序來源的合法性。隱私數(shù)據(jù)以透明加解密的方式落盤,保護(hù)數(shù)據(jù)隱私和安全的同時,提高應(yīng)用的兼容性;非秘密的程序,通過建立哈希樹(Hashtree)的方式,保證其完整性的同時,兼顧訪問性能。機(jī)密虛擬機(jī)之間使用基于遠(yuǎn)程認(rèn)證的透明加解密技術(shù),確保通信過程中的數(shù)據(jù)隱私安全。MesaTEE深耕大模型使用場景,支持分布式訓(xùn)練、精調(diào)和推理,通過基于身份的訪問控制,具備多租戶數(shù)據(jù)及模型隔離管理和保護(hù),多方數(shù)據(jù)訓(xùn)練和推理等數(shù)據(jù)融合功能??尚艌?zhí)行環(huán)境是云計(jì)算中不可或缺的一部分,它從硬件層面解決了軟件根本的信任問題,是云計(jì)算的“根”。機(jī)密計(jì)算是大趨勢,英特爾、AMD和英偉達(dá)等硬件提供商均提供了機(jī)密計(jì)算硬件解決方案。微軟、亞馬遜云、谷歌云和阿里云等均提供機(jī)密計(jì)算的設(shè)備和解決方案。百度、螞蟻金服和字節(jié)跳動等均在使用機(jī)密計(jì)算為業(yè)務(wù)提供隱私及安全能力。基于安全沙箱的解決方案安全沙箱技術(shù)是一種通過構(gòu)建隔離的可供調(diào)試、運(yùn)行的安全環(huán)境,來分離模型、數(shù)據(jù)使用權(quán)和所有權(quán)的技術(shù),同時提供模型精調(diào)計(jì)算所需的算力管理和通信等功能,保證模型擁有方的預(yù)訓(xùn)練模型在不出其定義的私有邊界的前提下,數(shù)據(jù)擁有方可以完成模型精調(diào)任務(wù)。安全沙箱產(chǎn)品是提供給模型開放共享過程中各參與方使用,提供模型安全開放共享所需的算力管理和通信等功能,并滿足計(jì)算任務(wù)需求的軟件系統(tǒng)或軟硬件一體化系統(tǒng)。安全沙箱通過界面隔離、環(huán)境隔離、網(wǎng)絡(luò)隔離、執(zhí)行隔離、數(shù)據(jù)隔離五大隔離技術(shù)達(dá)到模型和數(shù)據(jù)的可用不可見。界面隔離:為抵抗來自站點(diǎn)外對平臺調(diào)試環(huán)境的竊取數(shù)據(jù)的攻擊,通過界面渲染的手段,使用戶僅可以看到調(diào)試環(huán)境中的內(nèi)容,可以向環(huán)境中提交操作和數(shù)據(jù),但是無法直接從環(huán)境中獲取到操作的內(nèi)容,實(shí)現(xiàn)指令到環(huán)境的操作是單向的效果。環(huán)境隔離:為抵抗來自調(diào)試環(huán)境中對于運(yùn)行環(huán)境的滲透攻擊,通過將使用環(huán)境劃分的手段,根據(jù)操作對象的不同,將調(diào)整邏輯代碼的區(qū)域劃分為調(diào)試環(huán)境,將對真實(shí)全量數(shù)據(jù)進(jìn)行操作的區(qū)域劃分為運(yùn)行環(huán)境,兩個區(qū)域完全隔離不存在直接的訪問介質(zhì)。從而達(dá)到:在調(diào)試環(huán)境中改動程序邏輯,僅可通過脫敏數(shù)據(jù)了解格式,但不可觸碰真實(shí)全量數(shù)據(jù);在運(yùn)行環(huán)境中要操作真實(shí)全量數(shù)據(jù),其所提交的程序邏輯為固定的,操作的內(nèi)容經(jīng)過審查,其最終運(yùn)行的結(jié)果為確定的,操作過程也是可回溯和可追責(zé)的。網(wǎng)絡(luò)隔離:為抵抗來自組件陷落后,形成跳板對內(nèi)部其它組件發(fā)起的攻制影響范圍的作用。執(zhí)行隔離:為抵抗來自執(zhí)行環(huán)境內(nèi),運(yùn)行邏輯對執(zhí)行環(huán)境的滲透攻擊,通過虛擬化技術(shù),將用戶直接操作的調(diào)試,以及間接使用的運(yùn)行環(huán)境的執(zhí)行體,與真實(shí)執(zhí)行的物理機(jī)環(huán)境相互隔離,去除運(yùn)行環(huán)境之間的物理機(jī)的差異,保護(hù)物理環(huán)境的不被穿透,消除運(yùn)行殘留,阻斷租戶間的相互影響。數(shù)據(jù)隔離:為了防護(hù)對數(shù)據(jù)的直接竊取的攻擊出現(xiàn),通過對數(shù)據(jù)的訪問進(jìn)行控制,在調(diào)試環(huán)境和運(yùn)行環(huán)境所訪問的數(shù)據(jù):物理策略上限定,使用者上限定,使用方式上限定。在大模型精調(diào)領(lǐng)域,基于以上五大隔離技術(shù),再結(jié)合訪問控制策略,可將安全沙箱技術(shù)應(yīng)用在單方保護(hù)模型的場景及保護(hù)模型和數(shù)據(jù)的場景。對于單方保護(hù)模型的場景,安全沙箱部署在模型擁有方,模型擁有方在沙箱中上傳預(yù)訓(xùn)練模型和精調(diào)程序,數(shù)據(jù)擁有方在安全沙箱中上傳精調(diào)數(shù)據(jù)集,在沙箱中完成精調(diào)工作,產(chǎn)出精調(diào)模型。對于同時保護(hù)模型和數(shù)據(jù)的場景,模型擁有方和數(shù)據(jù)擁有方角色相同,但是其不了解精調(diào)相關(guān)領(lǐng)域知識,無法自主完成精調(diào),只能雇傭外部人員,但是又不能讓外部人員觸碰到需要保護(hù)的模型和數(shù)據(jù)。此時便可以利用安全沙箱可用不可見的特性,使得外部人員可以在不觸碰原始數(shù)據(jù)的情況下,對數(shù)據(jù)進(jìn)行清洗、治理,使其符合精調(diào)數(shù)據(jù)的格式要求,能夠?qū)⑻幚砗蟮臄?shù)據(jù)集應(yīng)用于模型精調(diào)工作,產(chǎn)出精調(diào)模型。KMSKMSKMS在大模型推理領(lǐng)域,安全沙箱可提供在線推理服務(wù)用于一鍵部署精調(diào)后的APIAPI網(wǎng)關(guān)、負(fù)載均衡、安全訪問認(rèn)證、動態(tài)脫敏等功能。模型支持多實(shí)例部署方式API在線推理服務(wù)的高可用性;對請求進(jìn)行安全訪問認(rèn)證,確保請求來源的合法性;對推理服務(wù)返回的內(nèi)容實(shí)時動態(tài)脫敏,確保推理結(jié)果不包含敏感數(shù)據(jù)。模型保護(hù)方案在模型訓(xùn)練、管理、部署等環(huán)節(jié),主要有如下兩個方向的業(yè)務(wù)痛點(diǎn):1、語料數(shù)據(jù)管理:面對多渠道收集珍貴語料數(shù)據(jù),如何實(shí)現(xiàn)高效的數(shù)據(jù)管理,防范模型原始語料數(shù)據(jù)泄漏,提高語料數(shù)據(jù)加工效率2、模型資產(chǎn)保護(hù):大模型文件是企業(yè)核心數(shù)字資產(chǎn),如何防范大模型文件在訓(xùn)練、推理、微調(diào)等環(huán)節(jié)的模型文件泄漏風(fēng)險(xiǎn)為了解決上述模型安全相關(guān)問題,構(gòu)建行之有效的模型保護(hù)方案,如下圖所示,分大模型語料數(shù)據(jù)安全管理與大模型資產(chǎn)全流程保護(hù)兩套管理方案:大模型語料數(shù)據(jù)安全管理方案在大模型的語料數(shù)據(jù)安全管理中,保護(hù)敏感數(shù)據(jù)、確保數(shù)據(jù)的完整性和合規(guī)性是至關(guān)重要的。以下是一套綜合的語料數(shù)據(jù)安全管理方案:元數(shù)據(jù)管理:類、權(quán)限等信息,以便對數(shù)據(jù)進(jìn)行跟蹤和監(jiān)控。分類分級:分為不同等級,以便進(jìn)行適當(dāng)?shù)谋Wo(hù)和控制。流轉(zhuǎn)審批:遞經(jīng)過合法的授權(quán)和審批。數(shù)據(jù)鑒權(quán):定等級的數(shù)據(jù),確保數(shù)據(jù)不被未授權(quán)的人員獲取。加密保護(hù):性。采用合適的加密算法,確保數(shù)據(jù)的保密性和完整性。行為審計(jì):以便跟蹤數(shù)據(jù)的使用情況,及時發(fā)現(xiàn)異常行為。數(shù)據(jù)脫敏:和敏感信息的安全。訪問控制:能進(jìn)入數(shù)據(jù)存儲區(qū)域。數(shù)據(jù)備份與恢復(fù):同時,測試數(shù)據(jù)恢復(fù)流程,確保在緊急情況下能夠快速恢復(fù)數(shù)據(jù)。敏感信息檢測:如個人身份證號、銀行賬號等。大模型資產(chǎn)全流程保護(hù)方案針對大模型的全生命周期,從模型訓(xùn)練到部署,采用多方位的安全防護(hù)措施是關(guān)鍵。以下是大模型資產(chǎn)全流程保護(hù)的方案:模型訓(xùn)練安全:據(jù)和代碼不受未授權(quán)訪問。引入訓(xùn)練數(shù)據(jù)的加密和隱私保護(hù)措施,防止敏感信息泄露。模型流轉(zhuǎn)安全:篡改或惡意替換。可以使用數(shù)字簽名等方式驗(yàn)證模型的完整性。模型推理安全:運(yùn)行在受控環(huán)境中,避免惡意代碼注入和攻擊。模型微調(diào)安全:據(jù)的隱私性和保密性。私有化部署安全:性。建立私有化部署的權(quán)限控制和監(jiān)控機(jī)制。模型演化與更新:引入漏洞或不安全的元素。模型審計(jì)與跟蹤:為和風(fēng)險(xiǎn)。安全修復(fù)與更新:復(fù)和更新,防止?jié)撛诘耐{擴(kuò)散。通過上述方案,可以在大模型的整個生命周期中,確保模型資產(chǎn)的安全,保護(hù)敏感信息,防范惡意攻擊,維護(hù)業(yè)務(wù)的正常運(yùn)行。這些方案涵蓋了模型的各個階段,從數(shù)據(jù)安全到部署安全,都為大模型業(yè)務(wù)的安全運(yùn)營提供了強(qiáng)大的保障。AIGC內(nèi)容合規(guī)能力建設(shè)在實(shí)踐中面臨著多個難點(diǎn)與挑戰(zhàn),這些挑戰(zhàn)需要企業(yè)、技術(shù)團(tuán)隊(duì)和監(jiān)管機(jī)構(gòu)共同努力克服,以下是百度安全在實(shí)踐中總結(jié)的當(dāng)前AIGC合規(guī)能力建設(shè)過程中所面臨的主要的難點(diǎn)和挑戰(zhàn):復(fù)雜多樣的內(nèi)容:AIGC包括文字、圖像、音頻、視頻等。針對不同類型的內(nèi)容制定合適的合規(guī)標(biāo)準(zhǔn)和規(guī)則是復(fù)雜的任務(wù)。監(jiān)管法規(guī)不斷變化:適應(yīng)不同國家和地區(qū)的法律法規(guī)。因此,跟上法規(guī)變化,確保合規(guī)性是一個挑戰(zhàn)。技術(shù)與人工判定的平衡:AIGC術(shù)和人工判定。技術(shù)雖然可以自動檢測一部分問題,但對于某些復(fù)雜情況,人工判斷仍然是必要的,平衡二者需要技術(shù)和人員的投入。多語言與文化差異:容不涉及不當(dāng)言論、歧視性語言等,需要深入了解不同語言和文化的特點(diǎn)。隱蔽性的風(fēng)險(xiǎn):內(nèi)容分析和理解。例如,某些內(nèi)容可能含有隱喻、諷刺等,難以簡單地依賴技術(shù)檢測。合規(guī)規(guī)則的標(biāo)準(zhǔn)化:知識。但是,在不同領(lǐng)域和業(yè)務(wù)中,合規(guī)標(biāo)準(zhǔn)可能存在差異,制定一套通用的標(biāo)準(zhǔn)是具有挑戰(zhàn)性的。時間敏感性:這種情況下,需要在短時間內(nèi)判斷內(nèi)容的合規(guī)性,需要高效的合規(guī)審核機(jī)制。平衡安全與隱私:信息。確保安全合規(guī)的同時,避免不必要的數(shù)據(jù)收集和使用。技術(shù)局限性:存在誤報(bào)和漏報(bào)的問題。技術(shù)的局限性需要考慮如何提高準(zhǔn)確性和效率。本方案基于《生成式人工智能服務(wù)管理辦法》,以及百度在人工智能技術(shù)的沉淀與總結(jié),構(gòu)建了五道安全防線,確保大模型生成內(nèi)容的安全與合規(guī):預(yù)訓(xùn)練數(shù)據(jù)過濾方案在構(gòu)建大語言模型之前,需要對訓(xùn)練數(shù)據(jù)進(jìn)行有效的篩選和清洗,保留高質(zhì)量的語料數(shù)據(jù)用于訓(xùn)練對大模型安全性有著至關(guān)重要的影響。通過預(yù)訓(xùn)練數(shù)據(jù)過濾方案減少訓(xùn)練數(shù)據(jù)中的偏見、不準(zhǔn)確性和不適當(dāng)內(nèi)容,從而從根本上提高模型生成內(nèi)容的質(zhì)量和安全性。ERNIE內(nèi)容理解能力,構(gòu)建了通用的內(nèi)容安全召回模型,能夠高效檢出訓(xùn)練語料中的有害內(nèi)容;同時通過業(yè)務(wù)風(fēng)控富集的敏感詞詞庫過濾數(shù)據(jù)中的臟話和不適出現(xiàn)詞匯,提供召回模型之外的快速更新能力。除了過濾有害內(nèi)容,預(yù)訓(xùn)練數(shù)據(jù)過濾方案也能夠刪除可能包含個人身份信息、隱私敏感信息的內(nèi)容,用以嚴(yán)格保護(hù)用戶的隱私。內(nèi)容干預(yù)系統(tǒng)大模型的內(nèi)容干預(yù)是指通過人工審核、過濾技術(shù)或其他方式,干預(yù)模型輸入的內(nèi)容,以確保其符合特定的標(biāo)準(zhǔn)、規(guī)范和價(jià)值觀。這種干預(yù)可以幫助減少有害、不準(zhǔn)確或不恰當(dāng)?shù)膬?nèi)容,并提高生成內(nèi)容的質(zhì)量和安全性。Query紅線必答能夠很好回答常見的紅線問題,確?;貜?fù)內(nèi)容高度安全合規(guī),維護(hù)社會主義核心價(jià)值觀;QueryQuery(模版),Query量和安全性之間的關(guān)系。過于嚴(yán)格的內(nèi)容干預(yù)可能會大幅抑制大模型的創(chuàng)造兼顧大模型創(chuàng)新能力和回復(fù)內(nèi)容的安全性。安全分類算子大模型輸入的安全分類是指將用戶輸入內(nèi)容進(jìn)行分類,以判斷其安全性和合適性。這種分類能夠幫助防止不良內(nèi)容的生成,保護(hù)用戶免受有害、不準(zhǔn)確或不適當(dāng)?shù)膬?nèi)容影響。通過有效的輸入內(nèi)容安全過濾,能夠極大程度地減少大模型生成不安全或者負(fù)面的回復(fù)內(nèi)容,同時結(jié)合高精準(zhǔn)的分類標(biāo)簽,通過改寫技術(shù)可以構(gòu)造出更適于大模型輸出合規(guī)回復(fù)的提示詞模版。百度結(jié)合多年的業(yè)務(wù)內(nèi)容安全分類實(shí)踐,將輸入內(nèi)容劃分為不同的主題類ERNIE模型,提供覆蓋涉政、涉黃、違法等不同主題和惡意、攻擊、中立、正常等不同語義的內(nèi)容分類能力,能夠高效檢出涉政、涉黃、違法、歧視、辱罵、負(fù)面價(jià)值觀等類別的不安全輸入,同時提供高質(zhì)量的提示詞改寫模版,協(xié)助大模型更好地理解問題并正確回答。大模型微調(diào)安全策略RLHF百度基于數(shù)據(jù)標(biāo)注和數(shù)據(jù)質(zhì)量管理的既往工作,依賴多樣性的內(nèi)容標(biāo)注語料庫和人類反饋的偏好標(biāo)注,提供多類別的安全調(diào)優(yōu)語料和多維度的預(yù)置獎勵模型,能夠有效地將大模型的生成能力與人類偏好相對齊,從根本上讓大模型遵循安全有用的原則與用戶進(jìn)行信息交互。輸出內(nèi)容安全過濾大模型輸出內(nèi)容安全過濾是指對大模型生成的文本內(nèi)容進(jìn)行檢測和篩選,以識別并過濾掉有害、不準(zhǔn)確、不適當(dāng)或不合規(guī)的回復(fù)內(nèi)容,這有助于確保大模型生成內(nèi)容的質(zhì)量和安全性。百度使用業(yè)務(wù)風(fēng)控中積累的高危詞典對輸出內(nèi)容進(jìn)行安全過濾,在濾除有害敏感詞后通過語義改寫將安全回復(fù)內(nèi)容作為最終的大模型輸出,確保輸出環(huán)節(jié)安全合規(guī)。此外,在面對第三方自建大模型的服務(wù)廠商,百度安全同樣構(gòu)建了如下圖prompt內(nèi)容提供專業(yè)的內(nèi)容審核能力,其核心服務(wù)包含如下PromptPrompt紅線知識庫query的內(nèi)容,基于紅線知識庫參與第三方大模型的精調(diào)與推理,保障內(nèi)容客觀、準(zhǔn)確、全面以及政治中立。AIGC價(jià)值觀、存在偏見歧視、內(nèi)容侵權(quán)等風(fēng)險(xiǎn)內(nèi)容過濾服務(wù);整體業(yè)務(wù)流轉(zhuǎn)如下圖所示大模型業(yè)務(wù)運(yùn)營與安全風(fēng)控業(yè)務(wù)運(yùn)營的安全風(fēng)控防護(hù)體系,可以在大模型前置云運(yùn)營階段(如:用戶注冊、登錄、權(quán)益申請等環(huán)節(jié))、以及大模型交互環(huán)節(jié)(答內(nèi)容反饋等環(huán)節(jié)),結(jié)合用戶行為、終端環(huán)境、網(wǎng)絡(luò)特征等信息建立有效的安全防護(hù)體系,針對異常請求做實(shí)時風(fēng)險(xiǎn)檢測,保障大模型處于一個安全、可靠的運(yùn)營狀態(tài),如下圖所示:大模型在交互場景中的業(yè)務(wù)運(yùn)營中,面臨著多重安全威脅和風(fēng)險(xiǎn),本方案結(jié)合當(dāng)前場景,依托百度安全昊天鏡智能風(fēng)控服務(wù),構(gòu)建了包含賬號安全、接口防刷、人機(jī)識別、AIGC盜爬識別、設(shè)備風(fēng)控以及風(fēng)險(xiǎn)情報(bào)等方面的能力:賬號安全:問系統(tǒng),防止惡意登錄和盜號行為。此外,采用安全令牌、會話管理等方式,加強(qiáng)對用戶身份的驗(yàn)證和保護(hù)。接口防刷:接口被惡意刷取的風(fēng)險(xiǎn),確保正常的業(yè)務(wù)運(yùn)行。人機(jī)識別:批量注冊、刷單等。引入人機(jī)識別技術(shù),如驗(yàn)證碼、滑動驗(yàn)證碼、人臉識別等,可以辨別真實(shí)用戶和機(jī)器人,防止自動化攻擊。AIGC盜爬:IPUser-Agent等,可以減少非法爬取行為,保護(hù)生成內(nèi)容的安全性。設(shè)備風(fēng)控:風(fēng)險(xiǎn)情報(bào):也可以基于內(nèi)部的訪問日志和異常行為分析。在大模型業(yè)務(wù)運(yùn)營中,上述安全措施和風(fēng)險(xiǎn)情報(bào)的作用是不可忽視的。綜合運(yùn)用這些措施,可以減輕大模型交互場景中的各種安全風(fēng)險(xiǎn),保護(hù)用戶隱私和數(shù)據(jù)安全,維護(hù)業(yè)務(wù)的穩(wěn)定運(yùn)行。同時,持續(xù)的監(jiān)控、分析和改進(jìn)也是確保業(yè)務(wù)安全的重要環(huán)節(jié),以適應(yīng)不斷變化的安全威脅。大模型藍(lán)軍安全評測解決方案視的內(nèi)容,有可能輸出非常不正確的價(jià)值觀,也可能被用于惡意活動,如欺詐、虛假信息傳播;因此對大模型的內(nèi)容安全性進(jìn)行評估和改進(jìn)顯得尤為重要。本檢測方案以網(wǎng)信辦《生成式人工智能服務(wù)管理辦法(征求意見稿)》為指導(dǎo)基礎(chǔ)劃分安全分類,通過在該安全分類體系中設(shè)定的不安全對話場景,針對性的生成了對應(yīng)的評測內(nèi)容,供大模型進(jìn)行內(nèi)容安全評測評估,以達(dá)到幫助大模型內(nèi)容風(fēng)控系統(tǒng)升級,促進(jìn)大模型生態(tài)健康發(fā)展的目的。建立大模型藍(lán)軍所面臨困難大型語言模型(LLM化,高質(zhì)量的樣本將大幅提升安全防御開發(fā)人員的研發(fā)效率。大模型發(fā)展的初期,大模型藍(lán)軍測試主要依賴人工編寫測試語料,并人工標(biāo)注危險(xiǎn)回復(fù)。這種完全基于人工的藍(lán)軍測試流程限制了發(fā)現(xiàn)威脅的數(shù)量和多樣性。因此,建立基于自然語言處理技術(shù),機(jī)器學(xué)習(xí)技術(shù),大語言模型技術(shù)的自動化大模型藍(lán)軍測試框架來代替人工測試體系顯得尤為重要。建立自動化大模型藍(lán)軍測試體系面臨以下的挑戰(zhàn):風(fēng)險(xiǎn)語料生成的自動化實(shí)現(xiàn)生成大量對大模型具有潛在風(fēng)險(xiǎn)的語料存在巨大的挑戰(zhàn):首先需要生成通順且符合人類表達(dá)邏輯的語料,其次生成的語料需要滿足具有潛在的風(fēng)險(xiǎn)的條件。業(yè)界常規(guī)的方法是通過人工撰寫收集的方式獲取這一部分的內(nèi)容數(shù)據(jù),然而這種方法存在以下缺點(diǎn):格的監(jiān)督和審核,增加了運(yùn)營成本和人力投入。估和發(fā)現(xiàn)大模型的潛在安全漏洞和問題。的輸入時表現(xiàn)不佳。性有限。綜上所述,傳統(tǒng)的依賴志愿者招募和人工手寫生成攻擊測試數(shù)據(jù)的方法在成本、規(guī)模、多樣性和可擴(kuò)展性方面存在一些不足之處。為了克服這些問題,可以考慮結(jié)合自動化的方法,利用更強(qiáng)大的大模型語言生成能力來進(jìn)行攻擊測試和安全評估。針對該訴求,我們建立了風(fēng)險(xiǎn)內(nèi)容評測數(shù)據(jù)自動生成框架。通過模型的語料生成方法同樣面臨諸多挑戰(zhàn),包括:人類所理解。測試語料在語義上聚集,降低測試的整體范圍。的能力,較低的攻擊成功率將降低攻擊樣本的采集效率。建立大模型回答內(nèi)容的自動評測能力對于海量的測試問題和大模型回答的風(fēng)險(xiǎn)性評測,全部依靠人工審核將耗費(fèi)大量人力資源。需要建立自動化模塊,快速準(zhǔn)確地完成海量風(fēng)險(xiǎn)內(nèi)容的自動評測。需要通過大量算法優(yōu)化和提示詞工程研究提升模型判斷的準(zhǔn)確性,逼近人工審核的能力。自動評測能力面臨以下挑戰(zhàn):測準(zhǔn)確性將影響攻擊樣本采集的質(zhì)量和效率。低的計(jì)算效率將影響攻擊樣本采集效率。大模型藍(lán)軍評測是一種主動的安全測試方法,旨在模擬攻擊者的行為,評估大模型系統(tǒng)在真實(shí)威脅面前的安全性能與內(nèi)容合規(guī)問題。藍(lán)軍安全評測的意義在于為大模型的業(yè)務(wù)運(yùn)營提供全面的安全保障,增強(qiáng)系統(tǒng)的內(nèi)容抗對抗能力,從而確保生成內(nèi)容的安全性、完整性和可用性,大模型藍(lán)軍建設(shè)的整體目標(biāo)是:建立自動化的攻擊語料生成能力提升威脅攻擊語料的輸出數(shù)量提升威脅攻擊語料的輸出多樣性提升威脅攻擊語料的攻擊成功率建立自動化大模型回復(fù)風(fēng)險(xiǎn)標(biāo)注能力優(yōu)化自動化大模型回復(fù)風(fēng)險(xiǎn)標(biāo)注的效率優(yōu)化自動化大模型回復(fù)風(fēng)險(xiǎn)標(biāo)注的準(zhǔn)確性建立大模型安全評測框架設(shè)計(jì)全面權(quán)威的評測標(biāo)準(zhǔn),量化指標(biāo)自動化的攻擊語料生成通過參考互聯(lián)網(wǎng)安全領(lǐng)域中紅藍(lán)攻防的思路,建立大模型安全藍(lán)軍體系,通過自建提示詞數(shù)據(jù)集主動引起大模型的不安全回復(fù)來發(fā)現(xiàn)潛在的風(fēng)險(xiǎn)。建立的風(fēng)險(xiǎn)內(nèi)容評測數(shù)據(jù)自動生成框架包括以下詳細(xì)部分:風(fēng)險(xiǎn)內(nèi)容語料生成:我們利用開源的大型語言模型藍(lán)軍(紅隊(duì))數(shù)據(jù)集stochasticfew-shot可以利用已有的藍(lán)軍數(shù)據(jù)集中的關(guān)鍵信息,并借助外部模型的生成能力來擴(kuò)充語料庫,增加測試數(shù)據(jù)的多樣性和覆蓋范圍。Stochasticfew-shotstochasticfew-shot成新的樣本。該方法的優(yōu)勢在于,它能夠利用有限的示例來生成更多樣的數(shù)擴(kuò)充語料庫等任務(wù)非常有用。此外,stochasticfew-shot方法還可以用于探索模型在不同條件下的生成能力,幫助發(fā)現(xiàn)模型的潛在弱點(diǎn)和漏洞。的時效性和多樣性

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論