2023大模型可信賴研究報(bào)告

上傳人：b*** IP屬地：北京上傳時(shí)間：2024-01-17 格式：DOCX 頁數(shù)：55 大?。?.54MB 積分：25 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩50頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

版權(quán)聲明版權(quán)聲明本報(bào)告版權(quán)屬于上海商湯智能科技有限公司與中國信息通信研究院，并受法律保護(hù)。轉(zhuǎn)載、摘編或利用其它方式使用本報(bào)告文字或者觀點(diǎn)的，應(yīng)注明“來源：上海商湯智能科技有限公司和中國信息通信研究院”。違反上述聲明者，編者將追究其相關(guān)法律責(zé)任。編制說明編制說明202309本報(bào)告由上海商湯智能科技有限公司和中國信息通信研究院云計(jì)算與大數(shù)據(jù)研究所共同撰寫，撰寫過程得到了人工智能關(guān)鍵技術(shù)和應(yīng)用評測工業(yè)和信息化部重點(diǎn)實(shí)驗(yàn)室的大力支持。本報(bào)告主要貢獻(xiàn)單位(排名不分先后)包括:螞蟻科技集團(tuán)股份有限公司、阿里巴巴集團(tuán)、阿里云計(jì)算有限公司、北京百度網(wǎng)訊科技有限公司。前言近年來，深度學(xué)習(xí)技術(shù)取得了突破性進(jìn)展，大模型作為其中的典型代表，已經(jīng)在自然語言處理、圖像處理、多模態(tài)應(yīng)用等領(lǐng)域取得了令人矚目的成果，為經(jīng)濟(jì)社會(huì)發(fā)展帶來新機(jī)遇。但隨著大模型應(yīng)用規(guī)模擴(kuò)大、應(yīng)用場景拓展，其風(fēng)險(xiǎn)問題也逐漸凸顯，如安全漏洞、隱私泄露、易受攻擊、偏見歧視、侵權(quán)濫用等，如何有效防范治理大模型風(fēng)險(xiǎn)、推動(dòng)大模型可信落地引起社會(huì)各界高度關(guān)注。全球各界對大模型的可信賴問題展開了廣泛的探索研究。在國際層面，政府間國際組織從人工智能倫理準(zhǔn)則等基本共識出發(fā)，逐本報(bào)告重點(diǎn)針對產(chǎn)業(yè)界大模型可信賴實(shí)踐開展研究。首先，重點(diǎn)梳理了大模型發(fā)展現(xiàn)狀，點(diǎn)明大模型的風(fēng)險(xiǎn)來源。其次，從大模型涉及的關(guān)鍵要素和可信維度出發(fā)，全面分析大模型面臨的各項(xiàng)風(fēng)險(xiǎn)并進(jìn)行整理歸納，形成大模型風(fēng)險(xiǎn)全景視圖。再次，針對大模型在框架、數(shù)據(jù)、模型和生成內(nèi)容等層面的風(fēng)險(xiǎn)，系統(tǒng)梳理了產(chǎn)業(yè)界保障大模型可信賴的關(guān)鍵舉措。最后，本報(bào)告指出了當(dāng)前大模型可信賴發(fā)展面臨的問題及挑戰(zhàn)，從多個(gè)維度提出了參考建議。大模型與行業(yè)融合正不斷加深，風(fēng)險(xiǎn)問題仍在不斷暴露，相應(yīng)的可信賴實(shí)踐也在持續(xù)涌現(xiàn)。本研究報(bào)告對大模型可信賴實(shí)踐的認(rèn)識和理解還有待加強(qiáng)，報(bào)告中如有不足之處，還請各方專家讀者不吝指正。目錄一、大模型發(fā)展現(xiàn)狀 1（一）大模型驅(qū)動(dòng)新一輪科技革命 1（二）大模型加速賦能產(chǎn)業(yè)應(yīng)用 1（三）大模型可信賴備受關(guān)注 3二、大模型風(fēng)險(xiǎn)分析 7（一）大模型風(fēng)險(xiǎn)視圖 7（二）框架層面，軟件漏洞是現(xiàn)有深度學(xué)習(xí)框架短板 8（三）數(shù)據(jù)層面，隱私風(fēng)險(xiǎn)與有害數(shù)據(jù)導(dǎo)致模型不可靠 9（四）模型層面，提示詞攻擊誘發(fā)模型脆弱性風(fēng)險(xiǎn) 11（五）生成內(nèi)容層面，安全風(fēng)險(xiǎn)和不可追溯是重點(diǎn)難題 14三、大模型可信賴實(shí)踐 17（一）框架層面，可信框架與執(zhí)行環(huán)境保障運(yùn)行安全 17（二）數(shù)據(jù)層面，安全檢測及處理助力大模型可靠 19（三）模型層面，全流程防控增強(qiáng)大模型可信 21（四）生成內(nèi)容層面，過濾與標(biāo)識實(shí)現(xiàn)內(nèi)容可控可問責(zé) 25四、總結(jié)與展望 27（一）總結(jié) 27（二）展望 28附錄 31可信賴實(shí)踐案例1：商湯科技SenseTrust可信AI基礎(chǔ)設(shè)施 31可信賴實(shí)踐案例2：螞蟻集團(tuán)蟻鑒2.0-AI安全檢測平臺(tái) 35可信賴實(shí)踐案例3：阿里巴巴生成式人工智能發(fā)展與治理探索 37可信賴實(shí)踐案例4：百度大模型安全解決方案 40圖目錄圖12023年企業(yè)大模型可信賴實(shí)踐匯總 7圖2大模型可信賴實(shí)踐方案 8圖3微軟“BingChat”提示泄露事件 12圖4大模型健壯性風(fēng)險(xiǎn) 13圖5大模型預(yù)訓(xùn)練階段的長尾問題 14圖6數(shù)據(jù)安全沙箱技術(shù) 20圖7商湯倫理風(fēng)險(xiǎn)分類分級管理評估 22圖8思維鏈技術(shù) 24圖9大模型“機(jī)器+人工”內(nèi)容審核機(jī)制 27圖10數(shù)字水印技術(shù)流程圖 27圖11“SenseTrust”——商湯可信AI基礎(chǔ)設(shè)施 31圖12蟻鑒2.0-AI安全檢測平臺(tái) 35圖13阿里巴巴生成式AI治理實(shí)踐及探索概覽 37圖14百度大模型安全解決方案 40圖15百度大模型內(nèi)容安全與評測體系 41一、大模型發(fā)展現(xiàn)狀（一）大模型驅(qū)動(dòng)新一輪科技革命近十余年間，人工智能技術(shù)泛化能力、創(chuàng)新能力及應(yīng)用效能不斷提升，成為了推動(dòng)經(jīng)濟(jì)及社會(huì)發(fā)展的重要引擎。2015年前后，人臉識別算法達(dá)到接近人眼的識別能力，被視為人工智能技術(shù)工業(yè)級應(yīng)用水平的代表性事件。2022年，以ChatGPT為代表的大模型為用戶帶來了全新交互體驗(yàn)。通過其在內(nèi)容生成、文本轉(zhuǎn)化和邏輯推理等任務(wù)下的高效、易操作表現(xiàn)，大模型正逐步成為當(dāng)前主流應(yīng)用程序的重要組成部分。隨著數(shù)據(jù)、算法和算力的不斷突破，大模型將不斷優(yōu)化演進(jìn)。在數(shù)據(jù)方面，海量、多模態(tài)數(shù)據(jù)將持續(xù)應(yīng)用于大模型預(yù)訓(xùn)練，提升大模型的知識、理解和推理能力。在算法方面，將轉(zhuǎn)向跨知識領(lǐng)域、跨語種、多模態(tài)特征的海量知識挖掘及執(zhí)行等復(fù)雜任務(wù)的處理。在算力方面，智算中心及算力網(wǎng)絡(luò)等基礎(chǔ)設(shè)施加速建設(shè)，為大模型的開發(fā)和服務(wù)提供充足性能支持。到2026年，Gartner預(yù)測超過80%的企業(yè)將使用生成式人工智能的API或模型，或在生產(chǎn)環(huán)境中部署支持大模型應(yīng)用。以通用智能體、具身智能和類腦智能等為代表的大模型應(yīng)用可能會(huì)帶來新一輪的科技革命和產(chǎn)業(yè)變革。（二）大模型加速賦能產(chǎn)業(yè)應(yīng)用“大模型+”模式加速應(yīng)用賦能，助推人工智能產(chǎn)業(yè)升級。當(dāng)前，人工智能已經(jīng)成為全球新興技術(shù)領(lǐng)域的核心競爭力，各國政府加快研發(fā)、部署人工智能技術(shù)，推動(dòng)產(chǎn)業(yè)高速發(fā)展。據(jù)統(tǒng)計(jì)1，我國人工智能核心產(chǎn)業(yè)規(guī)模已達(dá)5000億美元，企業(yè)數(shù)量超過4300家。2023年始，我國大模型市場火爆，百度、商湯科技、科大訊飛、阿里巴巴等單位先后發(fā)布自研大模型，并于2023年下半年逐步面向用戶提供服務(wù)。大模型廣泛應(yīng)用于能源、金融、教育、醫(yī)療、交通、政務(wù)等領(lǐng)域，主要應(yīng)用場景聚焦數(shù)據(jù)分析、客服、營銷、辦公等。其中，以能源、金融為首的兩大行業(yè)結(jié)合行業(yè)數(shù)據(jù)建設(shè)基礎(chǔ)，積極布局大模型應(yīng)用落地，加速行業(yè)智能化轉(zhuǎn)型。大模型技術(shù)生態(tài)逐步完善，大幅降低行業(yè)應(yīng)用門檻。一方面，開源大模型加速大模型應(yīng)用滲透，打通預(yù)訓(xùn)練、微調(diào)、部署、評測等開發(fā)階段，進(jìn)一步降低大模型研發(fā)應(yīng)用成本。20237月，上海人工智能實(shí)驗(yàn)室正式開源了書生·70億參數(shù)的輕量級版本InternLM-7B系，同時(shí)提供免費(fèi)商用，受到了學(xué)術(shù)和產(chǎn)業(yè)界的廣泛關(guān)注。同年月，OpenAICodeInterpreter，使得ChatGPT可以根據(jù)用戶問題來編寫和執(zhí)行代碼，從而拓展了模型在數(shù)據(jù)分析、復(fù)雜計(jì)算與功能調(diào)用方面的能力。另一方面，大模型正在逐步向智能體方向進(jìn)化，從理解生成邁向復(fù)雜任務(wù)處理能力。通過將大模型與動(dòng)作執(zhí)行器結(jié)合，智能體可以在接受用戶輸入后，通過大模型進(jìn)行規(guī)劃和決策，并對第三方插件或工具進(jìn)行調(diào)1https:///yaowen/liebiao/202307/content_6890391.htm（三）大模型可信賴備受關(guān)注大模型在快速發(fā)展的同時(shí)也帶來了一系列潛在的風(fēng)險(xiǎn)和挑戰(zhàn)。一方面，大模型所需的海量數(shù)據(jù)、復(fù)雜參數(shù)以及工程難度放大了人工智能固有的技術(shù)風(fēng)險(xiǎn)，如數(shù)據(jù)竊取、泄露等安全問題，模型黑盒導(dǎo)致決策結(jié)果難預(yù)測和難解釋問題，以及模型面對隨機(jī)擾動(dòng)和惡意攻擊的魯棒性問題。另一方面，大模型的多場景通用性也放大了隱私風(fēng)險(xiǎn)、歧視風(fēng)險(xiǎn)和濫用風(fēng)險(xiǎn)等應(yīng)用風(fēng)險(xiǎn)。這些問題引發(fā)了全球范圍的關(guān)注，對人工智能治理能力與治理水平提出了新的挑戰(zhàn)。目前，全球大模型治理正處于探索階段，從人工智能倫理準(zhǔn)則等基本共識出發(fā)，逐步深入推動(dòng)大模型監(jiān)管政策法規(guī)和企業(yè)治理落地實(shí)踐。國際組織積極制定人工智能治理原則及倡議，重點(diǎn)關(guān)注大模型的治理和監(jiān)管問題。2021通過了《人工智能倫理問題建議書》，旨在促使人工智能系統(tǒng)造福人類、社會(huì)、環(huán)境和生態(tài)系統(tǒng)、防止危害，同時(shí)促進(jìn)和平利用人工智能系統(tǒng)。20236月，聯(lián)合國秘書長安東尼奧·古特雷斯明確提出計(jì)劃在今年年底建立一個(gè)國際人工智能監(jiān)管機(jī)構(gòu)，定期審查人工智能治理工作。202328確保人工智能以人為本、值得信賴并負(fù)責(zé)任，通過國際倫理和其他相關(guān)倡議促進(jìn)合作，應(yīng)用人工智能帶來的廣泛風(fēng)險(xiǎn)。同年月，世界互聯(lián)網(wǎng)大會(huì)發(fā)布了《發(fā)展負(fù)責(zé)任的生成式人工智能研究報(bào)告及共識文件》，就發(fā)展負(fù)責(zé)任的生成式人工智能提出十條共識。在標(biāo)準(zhǔn)方面，ISO/IECJTC1/SC42人工智能分委會(huì)正在開展人工智能可信賴國際標(biāo)準(zhǔn)研制工作，為指導(dǎo)利益相關(guān)方研發(fā)、使用可信賴人工智能相關(guān)技術(shù)和系統(tǒng)提供參考，主要標(biāo)準(zhǔn)包括ISO/IECTR24028:2020《人工智能的可信賴概述》、ISO/IEC38507:2022《組織使用人工智能的治理影響》等。全球主要經(jīng)濟(jì)體加快推進(jìn)大模型治理和監(jiān)管相關(guān)政策制定步伐。中國在人工智能監(jiān)管方面主張“包容審慎的分類分級監(jiān)管”原2023710日頒布了首部面向大模型監(jiān)管的《生成式人工智能服務(wù)管理暫行辦法》，后續(xù)將進(jìn)一步針對生成式人工智能技術(shù)特點(diǎn)及其在有關(guān)行業(yè)和領(lǐng)域的服務(wù)應(yīng)用，制定相應(yīng)的分類分級監(jiān)管規(guī)則或指引。2023108日，中國科技部發(fā)布《科技倫理審查辦法（試行）》，提出從事人工智能科技活動(dòng)的單位，研究內(nèi)容涉及科技倫理敏感領(lǐng)域的，應(yīng)設(shè)立科技倫理（審查）委員會(huì)，并建立倫理高風(fēng)險(xiǎn)科技活動(dòng)的清單制度，對可能產(chǎn)生較大倫理風(fēng)險(xiǎn)挑戰(zhàn)的新興科技活動(dòng)實(shí)施清單管理。20231018日，國家網(wǎng)信辦發(fā)布《全球人工智能治理倡議》，提出發(fā)展人工智能應(yīng)堅(jiān)持相互尊重、平等互利的原則，各國無論大小、強(qiáng)弱，無論社會(huì)制度如何，都有平等發(fā)展和利用人工智能的權(quán)利。在標(biāo)準(zhǔn)方面，中國信息通信研究院已經(jīng)啟動(dòng)《大規(guī)模預(yù)訓(xùn)練模型技術(shù)和應(yīng)用評估方法》系列標(biāo)準(zhǔn)研制的工作，全面覆蓋大模型的開發(fā)、部署和應(yīng)用環(huán)節(jié)，其中第四部分可信要求是目前國內(nèi)首項(xiàng)針對大模型領(lǐng)域的可信賴標(biāo)準(zhǔn)。與此同時(shí)，全國信息安全標(biāo)準(zhǔn)化技術(shù)委員會(huì)已經(jīng)啟動(dòng)包括《信息安全技術(shù)生成式人工智能服務(wù)安全基本要求》在內(nèi)的三項(xiàng)生成式人工智能安全國家標(biāo)準(zhǔn)編制工作，以支撐大模型的監(jiān)管落地。歐盟現(xiàn)行人工智能立法仍主要集中在傳統(tǒng)人工智能，但已經(jīng)開始關(guān)注通用人工智能以及生成式人工智能的問題，主張尊重人格尊嚴(yán)、個(gè)人自由和保護(hù)數(shù)據(jù)及隱私安全。2023614日，歐洲議會(huì)投票通過《人工智能法案》，該法案基于風(fēng)險(xiǎn)等級將人工智能系統(tǒng)分成四類，并制定了不同程度的監(jiān)管要求。該法案提出生成式人工智能系統(tǒng)通常屬于有限風(fēng)險(xiǎn)的人工智能系統(tǒng)，需遵守最低限度的透明度義務(wù)，但可能會(huì)因其適用的領(lǐng)域和生成的內(nèi)容而落入高風(fēng)險(xiǎn)人工智能系統(tǒng)的范疇，并明確了通用人工智能、生成式人工智能以及基礎(chǔ)模型提供者等不同主體的合規(guī)義務(wù)。為配合法案落地，歐洲電信標(biāo)準(zhǔn)化協(xié)會(huì)（ETSI）正在計(jì)劃將人工智能安全工作組重組為人工美國主張監(jiān)管需以促進(jìn)人工智能負(fù)責(zé)任的創(chuàng)新為目標(biāo)，應(yīng)通過監(jiān)管和非監(jiān)管措施減少人工智能開發(fā)和部署的不必要障礙，同時(shí)保護(hù)美國的技術(shù)、經(jīng)濟(jì)和國家安全、公民自由、人權(quán)、法治、隱私和尊重知識產(chǎn)權(quán)等核心價(jià)值觀。2023513顧問委員會(huì)（PCAST）成立生成式人工智能工作組，以幫助評估關(guān)鍵機(jī)遇和風(fēng)險(xiǎn)，并就如何更好地確保這些技術(shù)的開發(fā)和部署盡可能公平、負(fù)責(zé)任和安全提供意見。20231030日，美國總統(tǒng)拜登簽署人工智能行政令，旨在加強(qiáng)對人工智能潛在風(fēng)險(xiǎn)的監(jiān)管，發(fā)展安全、可靠和值得信賴的人工智能，促進(jìn)人工智能創(chuàng)新，確保美國在人工智能領(lǐng)域繼續(xù)領(lǐng)跑全球。同時(shí)行政令在標(biāo)準(zhǔn)方面，提出美國國家標(biāo)準(zhǔn)與技術(shù)研究所（NIST）將制定嚴(yán)格的人工智能安全測試標(biāo)準(zhǔn)，人工智能系統(tǒng)在公開發(fā)布前需根據(jù)這些標(biāo)準(zhǔn)進(jìn)行廣泛的測試以確保安全。業(yè)界人士積極呼吁加強(qiáng)人工智能監(jiān)管，企業(yè)加速大模型可信賴技術(shù)落地。2023年3月，特斯拉首席執(zhí)行官埃隆·馬斯克、蘋果聯(lián)合創(chuàng)始人史蒂夫·沃茲尼亞克以及其他上千名AI研究人員簽署公開信，呼吁暫停研究比GPT-4更先進(jìn)的AI技術(shù)，提醒更多的用戶關(guān)注大模型的潛在危險(xiǎn)。由微軟等企業(yè)發(fā)起的商業(yè)軟件聯(lián)盟（BSA）公開發(fā)文，呼吁在國家隱私立法基礎(chǔ)上制定管理人工智能使用的規(guī)則。2023年7月21日，亞馬遜、Anthropic、谷歌、Inflection、Meta、微軟和OpenAI七家企業(yè)自愿向美國政府做出圍繞安全、保障和信任等原則的自愿性承諾，主要內(nèi)容包括開發(fā)部署面向生成內(nèi)容的數(shù)字水印技術(shù)，公開披露模型或系統(tǒng)的功能、局限性和適用領(lǐng)域，以及優(yōu)先研究人工智能系統(tǒng)帶來的社會(huì)風(fēng)險(xiǎn)等。目前，微軟、谷歌、OpenAI、百度、商湯科技、螞蟻等企業(yè)都發(fā)布了面向大模型的可信賴工具或平臺(tái)，例如商湯科技的可信AI基礎(chǔ)設(shè)施平臺(tái)SenseTrust包含完整覆蓋數(shù)據(jù)、模型、應(yīng)用治理環(huán)節(jié)的可信AI治理工具，助力打造可信賴的大模型服務(wù)。圖12023年企業(yè)大模型可信賴實(shí)踐匯總大模型治理和監(jiān)管已經(jīng)成為全球國際組織和主要經(jīng)濟(jì)體的首要目標(biāo)，各國的監(jiān)管機(jī)構(gòu)正在嘗試通過法律法規(guī)以及標(biāo)準(zhǔn)文件對大模型進(jìn)行治理和監(jiān)管，行業(yè)各界也積極推動(dòng)人工智能治理工作。但與傳統(tǒng)人工智能的風(fēng)險(xiǎn)相比，大模型的風(fēng)險(xiǎn)來源涉及框架、數(shù)據(jù)、模型、生成內(nèi)容等多種因素，因此更加具有不確定性，亟需通過技術(shù)、管理和監(jiān)管等手段進(jìn)行協(xié)同治理。二、大模型風(fēng)險(xiǎn)分析（一）大模型風(fēng)險(xiǎn)視圖大模型快速部署和廣泛應(yīng)用的同時(shí)，也誘發(fā)了更多的風(fēng)險(xiǎn)隱患：一是框架風(fēng)險(xiǎn)，深度學(xué)習(xí)框架面臨物理、網(wǎng)絡(luò)層面的惡意攻擊，導(dǎo)致大模型所依賴的基礎(chǔ)設(shè)施穩(wěn)定性和安全性難以保障；二是數(shù)據(jù)風(fēng)險(xiǎn)，采集及處理海量、多模態(tài)的訓(xùn)練數(shù)據(jù)可能會(huì)引入更多的有害數(shù)據(jù)，容易引發(fā)個(gè)人隱私泄露、知識產(chǎn)權(quán)侵權(quán)、數(shù)據(jù)偏見等問題；三是模型風(fēng)險(xiǎn)，現(xiàn)階段，大模型抗干擾能力相對較弱，存在遭受惡意攻擊、決策偏見以及模型運(yùn)營風(fēng)險(xiǎn)等問題；四是生成內(nèi)容風(fēng)險(xiǎn)，大模型存在“幻覺”現(xiàn)象，答非所問、違規(guī)不良信息生成等問題成為大模型最受關(guān)注的風(fēng)險(xiǎn)。大模型高效、便捷的內(nèi)容生成能力大幅降低了詐騙、釣魚郵件等惡意行為的門檻，而針對生成內(nèi)容的追溯保障機(jī)制目前尚未完善，使得惡意內(nèi)容生成的監(jiān)管更加困難。本報(bào)告以可靠性、健壯性、安全性、公平性、可問責(zé)、可解釋等大模型可信賴目標(biāo)為重點(diǎn)方向，從框架、數(shù)據(jù)、模型、生成內(nèi)容等大模型風(fēng)險(xiǎn)要素角度分析，并結(jié)合數(shù)據(jù)采集、模型預(yù)訓(xùn)練、模型微調(diào)、部署運(yùn)行、優(yōu)化更新等大模型全生命周期治理理念，提出大模型可信賴實(shí)踐方案，全面提升大模型的可信賴表現(xiàn)。圖2大模型可信賴實(shí)踐方案（二）框架層面，軟件漏洞是現(xiàn)有深度學(xué)習(xí)框架短板大模型領(lǐng)域的基礎(chǔ)設(shè)施風(fēng)險(xiǎn)主要包括深度學(xué)習(xí)框架和開發(fā)套件等軟件層面的漏洞，以及運(yùn)行環(huán)境的不穩(wěn)定性?？赡艿娘L(fēng)險(xiǎn)涵蓋物理攻擊、網(wǎng)絡(luò)攻擊、運(yùn)行環(huán)境篡改、運(yùn)維故障等多個(gè)方面。在大模型訓(xùn)練階段，深度學(xué)習(xí)框架、開發(fā)組件以及第三方依賴庫存在潛在漏洞，增加了受到外部惡意攻擊的風(fēng)險(xiǎn)。在這個(gè)階段，攻擊者有可能通過惡意程序入侵等手段，竊取模型、訓(xùn)練數(shù)據(jù)以及訓(xùn)練腳本等核心資產(chǎn)，從而導(dǎo)致大模型的訓(xùn)練數(shù)據(jù)和模型參數(shù)文件20209就被曝出多項(xiàng)安全漏洞，其2812個(gè)，低危2個(gè)。這些漏洞可能導(dǎo)致任意代碼執(zhí)行、信息泄露以及拒絕服深度學(xué)習(xí)框架的運(yùn)行環(huán)境容錯(cuò)性低，核心資產(chǎn)保護(hù)面臨挑戰(zhàn)。大模型的運(yùn)行環(huán)境不穩(wěn)定性風(fēng)險(xiǎn)主要來自大模型服務(wù)的運(yùn)維以及模型迭代更新時(shí)穩(wěn)健性較差所導(dǎo)致的服務(wù)等級協(xié)議（SLA）服務(wù)水平不足，從而可能影響大模型服務(wù)可用性。在訓(xùn)練和推理過程中，由于設(shè)備、網(wǎng)絡(luò)或通信故障，可能導(dǎo)致模型訓(xùn)練或推理任務(wù)中斷。此外，大模型的運(yùn)行環(huán)境同樣面臨安全性風(fēng)險(xiǎn)。一方面，缺乏基礎(chǔ)設(shè)施與其他系統(tǒng)的嚴(yán)格網(wǎng)絡(luò)隔離可能導(dǎo)致來自內(nèi)部其他系統(tǒng)的橫向滲透風(fēng)險(xiǎn)。如果攻擊者成功侵入基礎(chǔ)設(shè)施系統(tǒng)并注入后門、木馬等惡意程序，整個(gè)系統(tǒng)將面臨嚴(yán)重的安全風(fēng)險(xiǎn)。另一方面，大模型的運(yùn)行環(huán)境缺乏面向訓(xùn)練數(shù)據(jù)、模型和網(wǎng)絡(luò)通信的安全防護(hù)措施，使得訓(xùn)練數(shù)據(jù)、模型參數(shù)文件等核心資產(chǎn)容易受到泄露、篡改和竊取等威脅。（三）數(shù)據(jù)層面，隱私風(fēng)險(xiǎn)與有害數(shù)據(jù)導(dǎo)致模型不可靠大模型的訓(xùn)練依賴于大規(guī)模、多樣化且高質(zhì)量的數(shù)據(jù)集。這些訓(xùn)練數(shù)據(jù)通常涵蓋各類網(wǎng)頁、公共語料庫、社交媒體、書籍、期刊等公開數(shù)據(jù)來源，其中未經(jīng)篩選和審核的數(shù)據(jù)成為大模型不可忽視的潛在風(fēng)險(xiǎn)。因此，在大模型的全新范式下，數(shù)據(jù)來源不可信、數(shù)據(jù)違規(guī)處理、投毒攻擊、數(shù)據(jù)內(nèi)容有害、數(shù)據(jù)偏見、數(shù)據(jù)樣本不足正逐步成為大模型在數(shù)據(jù)方面的主要風(fēng)險(xiǎn)。大模型訓(xùn)練數(shù)據(jù)的采集、預(yù)處理等數(shù)據(jù)處理活動(dòng)可能涉及數(shù)據(jù)來源管理困難、隱私泄露等相關(guān)風(fēng)險(xiǎn)。在數(shù)據(jù)來源管理方面，主要問題集中在數(shù)據(jù)來源的不可靠性和不可追溯性。大模型訓(xùn)練數(shù)據(jù)通常涵蓋圖像、視頻、文本、音頻等多種數(shù)據(jù)類型，涉及自采集、商業(yè)采購、公開數(shù)據(jù)集等多種渠道。然而，部分公開數(shù)據(jù)集的來源缺乏充分的驗(yàn)證和審核，導(dǎo)致預(yù)訓(xùn)練數(shù)據(jù)集中存在來源不清、被惡意投毒的數(shù)據(jù)。大量訓(xùn)練數(shù)據(jù)采集的同時(shí)難以避免帶毒數(shù)據(jù)的引入，增加了數(shù)據(jù)來源管理的難度。在隱私泄露方面，數(shù)據(jù)采集階段可能會(huì)由于采集方式、采集工具的不合規(guī)，導(dǎo)致未獲取個(gè)人信息授權(quán)，使得預(yù)訓(xùn)練數(shù)據(jù)集含有未授權(quán)個(gè)人信息。在數(shù)據(jù)預(yù)處理階段，由于數(shù)據(jù)脫敏機(jī)制的不完善，個(gè)人信息未完全去標(biāo)識化，致使預(yù)訓(xùn)練模型學(xué)習(xí)、理解到含有個(gè)人信息的知識，其生成內(nèi)容可能會(huì)含有個(gè)人信息或關(guān)聯(lián)個(gè)人信息，存在個(gè)人信息泄露的風(fēng)險(xiǎn)。有害內(nèi)容、低質(zhì)量數(shù)據(jù)導(dǎo)致模型生成違規(guī)內(nèi)容。大模型通過學(xué)習(xí)海量數(shù)據(jù)中的知識、理解常識并生成內(nèi)容，數(shù)據(jù)中存在有害內(nèi)容和數(shù)據(jù)偏見等質(zhì)量問題可能導(dǎo)致模型生成內(nèi)容存在違規(guī)信息或決策偏見等問題。在數(shù)據(jù)內(nèi)容有害性風(fēng)險(xiǎn)方面，模型預(yù)訓(xùn)練階段使用大量無監(jiān)督學(xué)習(xí)預(yù)訓(xùn)練數(shù)據(jù)集，如果其中存在一定量的有害內(nèi)容，將影響預(yù)訓(xùn)練模型的理解和生成能力。同時(shí)，在模型微調(diào)階段，微調(diào)數(shù)據(jù)若包含不準(zhǔn)確、虛假信息等內(nèi)容，可能導(dǎo)致模型無法正確對下游任務(wù)模型進(jìn)行價(jià)值對齊。數(shù)據(jù)偏見風(fēng)險(xiǎn)主要源自大模型的預(yù)訓(xùn)練和微調(diào)階段。一方面，模型預(yù)訓(xùn)練所使用的數(shù)據(jù)集樣本分布可能缺乏均衡性，包括性別、民族、宗教、教育等相關(guān)樣本比例關(guān)系不當(dāng)。另一方面，模型微調(diào)階段可能由于人工標(biāo)注員的主觀意識形態(tài)偏差，引入對微調(diào)數(shù)據(jù)的構(gòu)建和價(jià)值排序的偏見，從而導(dǎo)致微調(diào)數(shù)據(jù)存在價(jià)值觀上的偏見歧視問題。（四）模型層面，提示詞攻擊誘發(fā)模型脆弱性風(fēng)險(xiǎn)大模型在模型開發(fā)和運(yùn)營階段都會(huì)面臨多種模型內(nèi)外部的風(fēng)險(xiǎn)，主要包括提示注入攻擊等安全性問題、健壯性不足、偏見歧視以及模型運(yùn)營風(fēng)險(xiǎn)等問題。提示注入攻擊成為大模型安全性首要風(fēng)險(xiǎn)。提示注入攻擊是一類以輸入提示詞作為攻擊手段的惡意攻擊。攻擊者精心構(gòu)造和設(shè)計(jì)特定的提示詞，達(dá)到繞過大模型過濾策略的目的。根據(jù)竊取目標(biāo)和攻擊手段不同，可將提示注入攻擊細(xì)分為以下三類。一是目標(biāo)劫持，攻擊者通過輸入惡意示例的方式劫持模型的輸出結(jié)果，并要求模型輸出與其原輸出內(nèi)容不同的特定結(jié)果，從而惡意篡改生成內(nèi)容。二是提示泄露，攻擊者通過一些誘導(dǎo)性的上下文提示，竊取大模型預(yù)制的初始化提示內(nèi)容，包括模型應(yīng)該遵循的規(guī)則和特定敏感話題。攻擊者可以通過該類攻擊手段了解大模型的行為模式或者過濾策略。三是越獄攻擊，攻擊者通過模擬對話、角色扮演等虛構(gòu)場景和行為方式，設(shè)定一系列特定的問答規(guī)則，嘗試分散大模型的注意力，規(guī)避過濾策略，生成帶有惡意目的的特定輸出結(jié)果。除直接對大模型的輸入內(nèi)容進(jìn)行提示注入攻擊，攻擊者也可以通過文件中內(nèi)嵌惡意代碼等形式間接進(jìn)行提示注入攻擊。以微軟NewBingChat為代表的大模型，其結(jié)合檢索和API調(diào)用功能的新組件引入了間接提示注入的風(fēng)險(xiǎn)。攻擊者有可能通過在提示詞中嵌入含有惡意代碼或有害內(nèi)容的網(wǎng)頁鏈接或文件等手段，試圖規(guī)避輸入和輸出端的過濾機(jī)制，以生成特定的惡意內(nèi)容。圖3微軟“BingChat”提示泄露事件大模型在健壯性和泛化性方面仍然面臨挑戰(zhàn)。與傳統(tǒng)的小參數(shù)量機(jī)器學(xué)習(xí)模型相比，雖然大模型通過使用億級參數(shù)的訓(xùn)練數(shù)據(jù)進(jìn)行無監(jiān)督學(xué)習(xí)表現(xiàn)出對抗樣本攻擊和外部干擾的相對強(qiáng)健性，但仍存在健壯性和泛化性不足的潛在風(fēng)險(xiǎn)。例如，在大模型的輸入提示詞中引入一定程度的錯(cuò)別字符或文字、邏輯錯(cuò)誤的詞句以及段落等內(nèi)容，會(huì)導(dǎo)致大模型理解偏差以及生成內(nèi)容錯(cuò)誤。圖4大模型健壯性風(fēng)險(xiǎn)大模型的決策偏見歧視問題愈發(fā)突出。大模型的算法決策公平性是可信賴能力的重要指標(biāo)，尤其在金融、醫(yī)療、教育等特殊行業(yè)中，這一指標(biāo)對于處理關(guān)鍵問題的理解和生成任務(wù)至關(guān)重要。首先，預(yù)訓(xùn)練數(shù)據(jù)自帶的偏見歧視會(huì)導(dǎo)致預(yù)訓(xùn)練模型進(jìn)一步放大偏見問題，長尾問題仍然是潛在偏見之一。其次，大模型本身可能根據(jù)數(shù)據(jù)樣本的分布和屬性，進(jìn)一步提升對某類樣本的敏感度，從而間接放大對這些偏見性知識的感知，進(jìn)而導(dǎo)致更為嚴(yán)重的歧視性內(nèi)容生成。圖5大模型預(yù)訓(xùn)練階段的長尾問題大模型運(yùn)營面臨多方面挑戰(zhàn)，API安全問題至關(guān)重要。當(dāng)前，模型即服務(wù)（MaaS）等高效而敏捷的部署方式正逐步成為現(xiàn)有大模型系統(tǒng)與服務(wù)的主流形式。一方面，在大模型服務(wù)實(shí)際運(yùn)營環(huán)節(jié)，存在諸多服務(wù)運(yùn)營相關(guān)的風(fēng)險(xiǎn)，包括但不限于批量注冊、盜號、撞庫等賬號安全性問題，以及惡意使用、機(jī)器作弊、審核資源浪費(fèi)等運(yùn)營安全性問題。以ChatGPT為例，該服務(wù)推出僅兩個(gè)月，注冊用戶已超過1億。隨著用戶規(guī)模不斷增長，各類違規(guī)賬號也在不斷活20234OpenAIAPI提供對外服務(wù)。在服務(wù)運(yùn)營階段，攻擊者可能通過注入漏洞利用攻擊、未授權(quán)漏洞利用攻擊、越權(quán)訪問漏洞利用攻擊、代碼設(shè)計(jì)漏洞攻擊以及第三方組件漏洞利用攻擊等方法，引發(fā)APIPython代碼的模板函數(shù)可以利用大模型應(yīng)用框架LangChain的接口遠(yuǎn)程執(zhí)行任意Python（五）生成內(nèi)容層面，安全風(fēng)險(xiǎn)和不可追溯是重點(diǎn)難題當(dāng)前，大模型的生成內(nèi)容中仍然存在一定程度的內(nèi)容安全和不可追溯風(fēng)險(xiǎn)，主要包括虛假有害內(nèi)容、上下文邏輯性錯(cuò)誤、問答與提問的相關(guān)性較差、與社會(huì)主流價(jià)值觀沖突等風(fēng)險(xiǎn)，進(jìn)一步降低了以大模型為生產(chǎn)工具的惡意行為的門檻，對個(gè)人、組織以及社會(huì)的穩(wěn)定發(fā)展造成嚴(yán)重影響。其主要風(fēng)險(xiǎn)包括以下幾方面：生成內(nèi)容“幻覺”現(xiàn)象頻發(fā)。大模型對輸入的問題生成不真實(shí)、與現(xiàn)實(shí)世界常識相違背的虛假有害信息的現(xiàn)象，被稱為“幻覺”問題。大模型常見的幻覺主要有三類：第一是和用戶輸入沖突的幻覺，大模型的理解能力極大依賴于訓(xùn)練數(shù)據(jù)集的規(guī)模、種類、樣本的豐富度，理解能力的不足將會(huì)導(dǎo)致大模型無法準(zhǔn)確生成用戶輸入的問題答案，影響大模型的生成內(nèi)容可信度。第二是和已生成的上下文沖突的幻覺，盡管目前大模型具備廣泛的世界知識，但其仍是一個(gè)黑盒、邏輯推理不夠精確的系統(tǒng)。大模型通過理解輸入內(nèi)容的token，預(yù)測并逐字逐句生成輸出結(jié)果，其生成的內(nèi)容雖符合訓(xùn)練數(shù)據(jù)中語句的表達(dá)連貫性，卻可能缺乏合理、清晰的邏輯性，與上下文內(nèi)容沖突或生成重復(fù)性內(nèi)容。第三是和事實(shí)知識沖突的幻覺，這一類幻覺的研究難度更大，對用戶實(shí)際使用體驗(yàn)的干擾也最大。例如，大模型在生成醫(yī)療建議時(shí)可能會(huì)捏造錯(cuò)誤的藥品劑量，誤導(dǎo)缺少專業(yè)醫(yī)學(xué)知識的用戶，直接危及用戶健康。生成內(nèi)容與社會(huì)主流價(jià)值觀沖突。大模型的生成內(nèi)容的安全性問題至關(guān)重要，如果大模型生成民族仇視、偏見和歧視、政治和軍事敏感、淫穢色情以及恐怖暴力等惡意內(nèi)容，會(huì)對傳統(tǒng)道德和社會(huì)核心價(jià)值觀造成沖擊，對個(gè)人、組織和社會(huì)都具有極其嚴(yán)重的負(fù)面影響。生成內(nèi)容欠缺合理、科學(xué)的推理過程。目前大模型的可解釋性問題仍然研究學(xué)者重點(diǎn)關(guān)注的方向，針對大模型的可解釋性研究主要分為事前解釋和事后解釋，其中事前解釋是通過研究不同特征對預(yù)測結(jié)果的影響程度進(jìn)行解釋說明，事后解釋更加側(cè)重利用規(guī)則以及可解釋性強(qiáng)的算法評估原有大模型的可解釋性。然而，大模型所使用的訓(xùn)練數(shù)據(jù)和算法結(jié)構(gòu)仍然是黑盒，難以完全解釋目前大模型的內(nèi)在機(jī)理和決策依據(jù)。生成內(nèi)容不易追溯和保護(hù)。大模型由于具備通過學(xué)習(xí)海量的世界知識生成內(nèi)容的能力，因此在訓(xùn)練數(shù)據(jù)和生成內(nèi)容方面會(huì)產(chǎn)生一系列的版權(quán)歸屬和保護(hù)難題。目前大模型服務(wù)通常會(huì)采用數(shù)字水印技術(shù)在生成內(nèi)容中嵌入不可見、具備可追溯能力的標(biāo)識，該類標(biāo)識一般內(nèi)含用戶ID信息、大模型服務(wù)信息以及時(shí)間戳等信息，用于追溯不良違規(guī)生成內(nèi)容，但目前仍然面臨生成內(nèi)容被二次創(chuàng)作、剪輯和裁切之后，標(biāo)識內(nèi)容可能會(huì)無法讀取等問題，導(dǎo)致無法正確追溯到原始的大模型服務(wù)，難以明確界定責(zé)任歸屬。在知識產(chǎn)權(quán)的溯源方面，由于現(xiàn)有大模型的學(xué)習(xí)機(jī)制，其生成的內(nèi)容有可能與原始的訓(xùn)練數(shù)據(jù)具有一定相似度，難以界定生成的內(nèi)容是否對原始作品產(chǎn)生侵權(quán)行為。生成內(nèi)容誤用濫用現(xiàn)象對個(gè)人、團(tuán)體以及社會(huì)造成不良影響。由于目前仍然缺乏對于使用大模型生成能力的有效監(jiān)督手段，部分用戶在未充分進(jìn)行培訓(xùn)和教育的前提下，可能將隱私信息誤輸入到大模型中，導(dǎo)致個(gè)人信息泄露。例如，2023年3月，三星半導(dǎo)體部門員工因三起利用ChatGPT處理辦公文件和修復(fù)程序源代碼等事件，導(dǎo)致公司機(jī)密泄露。部分惡意使用者利用FraudGPT等惡意大模型作為違法活動(dòng)的工具生成詐騙短信和釣魚郵件，通過代碼生成工具開發(fā)惡意程序、腳本等，竊取他人敏感個(gè)人信息。三、大模型可信賴實(shí)踐（一）框架層面，可信框架與執(zhí)行環(huán)境保障運(yùn)行安全針對深度學(xué)習(xí)框架面臨的軟件漏洞風(fēng)險(xiǎn)與運(yùn)行環(huán)境不可靠問題，一方面通過采用漏洞管理、惡意程序檢測以及訪問控制等技術(shù)措施，降低深度學(xué)習(xí)框架受惡意訪問和攻擊的可能性，另一方面通過構(gòu)建AI核心資產(chǎn)保護(hù)機(jī)制，保障深度學(xué)習(xí)框架運(yùn)行環(huán)境的安全可信?？尚刨嚳蚣芙档蛺阂庠L問與攻擊風(fēng)險(xiǎn)可信賴框架的實(shí)現(xiàn)需要從框架自身管理層面、框架外的平臺(tái)層面以及用戶管理層面進(jìn)行安全保障。安全漏洞管理機(jī)制通過對AI框架進(jìn)行定期的漏洞掃描，識別并記錄框架漏洞信息，定時(shí)更新安全補(bǔ)丁修復(fù)漏洞，提升框架安全能力。惡意程序檢測機(jī)制通過將檢測模塊直接集成在深度學(xué)習(xí)框架或者基礎(chǔ)設(shè)施中，實(shí)現(xiàn)檢測在訓(xùn)練或者推理任務(wù)執(zhí)行的容器或虛擬機(jī)是否存在惡意攻擊宿主機(jī)、宿主機(jī)上其他容器或者執(zhí)行越權(quán)訪問等容器逃逸行為。判別是否存在勒索病毒以及惡意程序，并產(chǎn)生告警信息。訪問控制和身份鑒別機(jī)制有效管理并核驗(yàn)登錄用戶的真實(shí)身份，對于多次登錄失敗的用戶，應(yīng)啟用結(jié)束會(huì)話、限制非法登錄次數(shù)等措施，以降低未授權(quán)操作所引發(fā)的風(fēng)險(xiǎn)。核心資產(chǎn)保護(hù)機(jī)制保障運(yùn)行環(huán)境安全可信為保障深度學(xué)習(xí)框架的運(yùn)行環(huán)境安全可信，通過構(gòu)建加解密機(jī)制、完整性校驗(yàn)機(jī)制、訓(xùn)練任務(wù)中斷恢復(fù)機(jī)制以及運(yùn)行環(huán)境隔離機(jī)制等方式保障運(yùn)行過程中AI核心資產(chǎn)的安全。加解密機(jī)制通過在深度學(xué)習(xí)框架和人工智能基礎(chǔ)設(shè)施中添加加解密模塊，實(shí)現(xiàn)對訓(xùn)練和推理過程中的數(shù)據(jù)和模型參數(shù)文件等AI核心資產(chǎn)進(jìn)行保護(hù)，防止未授權(quán)人員進(jìn)行非法訪問、篡改數(shù)據(jù)。完整性校驗(yàn)機(jī)制通過對數(shù)據(jù)和模型相關(guān)文件進(jìn)行完整性校驗(yàn)，提升大模型在預(yù)訓(xùn)練、微調(diào)以及后續(xù)部署運(yùn)行階段的可靠性，通過密碼算法或者完整性校驗(yàn)機(jī)制對數(shù)據(jù)和模型參數(shù)文件進(jìn)行加解密處理，核驗(yàn)各階段的文件完整性。訓(xùn)練任務(wù)中斷恢復(fù)機(jī)制可以在故障發(fā)生后及時(shí)保存訓(xùn)練任務(wù)上下文及模型參數(shù)等信息，并且可支持在新的訓(xùn)練節(jié)點(diǎn)加載訓(xùn)練任務(wù)上下文及模型參數(shù)等信息，正?；謴?fù)原始訓(xùn)練任務(wù)，大幅提升大模型在訓(xùn)練階段的可靠性。運(yùn)行環(huán)境隔離機(jī)制通過設(shè)置獨(dú)立的安全區(qū)域保障AI資產(chǎn)在訓(xùn)練和推理過程中的安全性。以可信執(zhí)行環(huán)境技術(shù)（TEE）為例，TEE是處理器中一個(gè)獨(dú)立的安全區(qū)域，用于保護(hù)程序與數(shù)據(jù)的機(jī)密性和完整性不被外部竊取和破壞。與存儲(chǔ)加密和網(wǎng)絡(luò)通信加密一起，TEE可以保護(hù)落盤和通信過程中的數(shù)據(jù)隱私和安全。隨著TEE技術(shù)的發(fā)展，在計(jì)算核心與內(nèi)存之間增加安全處理器，以保護(hù)被計(jì)算核心使用的數(shù)據(jù)安全和隱私的機(jī)密計(jì)算技術(shù)出現(xiàn)。（二）數(shù)據(jù)層面，安全檢測及處理助力大模型可靠數(shù)據(jù)的使用貫穿大模型全生命周期，安全保障與有效處理是保障大模型可靠的關(guān)鍵舉措。在數(shù)據(jù)層面，可信賴實(shí)踐主要涉及數(shù)據(jù)全流程的安全合規(guī)處理、數(shù)據(jù)安全沙箱技術(shù)、投毒檢測以及數(shù)據(jù)分析等措施。安全合規(guī)的數(shù)據(jù)處理機(jī)制降低數(shù)據(jù)處理風(fēng)險(xiǎn)大模型的數(shù)據(jù)處理活動(dòng)主要包含數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理及模型訓(xùn)練等環(huán)節(jié)。在數(shù)據(jù)采集環(huán)節(jié)，通常會(huì)建立數(shù)據(jù)采集來源管理、數(shù)據(jù)采集業(yè)務(wù)評估、數(shù)據(jù)采集審批流程、采集合規(guī)審批等管理機(jī)制，確保數(shù)據(jù)采集的合規(guī)性、正當(dāng)性和執(zhí)行上的一致性。針對數(shù)據(jù)來源問題，知識產(chǎn)權(quán)部門和信息安全部門協(xié)助業(yè)務(wù)部門對數(shù)據(jù)來源信息的合理性、正當(dāng)性進(jìn)行審查，去除含有大量不良違法信息的有害數(shù)據(jù)來源，并對數(shù)據(jù)來源信息進(jìn)行備案管理。在數(shù)據(jù)預(yù)處理環(huán)節(jié)，數(shù)據(jù)處理人員會(huì)將收集到的原始數(shù)據(jù)進(jìn)行清洗、去重、格式化等多步驟的預(yù)處理以確保數(shù)據(jù)質(zhì)量。在該過程中，數(shù)據(jù)處理人員會(huì)嚴(yán)格篩查，去除那些不完整、錯(cuò)誤、帶毒或含有敏感信息的數(shù)據(jù)。隨后數(shù)據(jù)處理人員通過自動(dòng)化工具和人工相結(jié)合的方式，對預(yù)處理后的數(shù)據(jù)進(jìn)行標(biāo)注和篩選，以識別訓(xùn)練數(shù)據(jù)中是否包含敏感信息。此外，業(yè)務(wù)部門通過構(gòu)建敏感內(nèi)容反饋機(jī)制，利用生成內(nèi)容自身特性，將敏感內(nèi)容作為負(fù)面樣本訓(xùn)練敏感信息鑒別模型，持續(xù)提升模型性能。在大模型訓(xùn)練階段，通常會(huì)首先進(jìn)行個(gè)人信息安全影響評估，確保大模型的研發(fā)和運(yùn)營過程滿足現(xiàn)有個(gè)人信息保護(hù)的合規(guī)要求。通過核對個(gè)人信息保護(hù)評估清單，推動(dòng)面向個(gè)人信息保護(hù)的產(chǎn)品功能設(shè)計(jì)，確保人工智能產(chǎn)品設(shè)計(jì)流程合規(guī)，保障數(shù)據(jù)收集和處理（包括使用、披露、保留、傳輸和處置）限于所確定的必須的目的。數(shù)據(jù)安全沙箱技術(shù)實(shí)現(xiàn)數(shù)據(jù)可用不可見數(shù)據(jù)安全沙箱是一項(xiàng)通過構(gòu)建可隔離、可調(diào)試、運(yùn)行環(huán)境安全等功能來分離數(shù)據(jù)、模型使用權(quán)和所有權(quán)的技術(shù)。在大模型微調(diào)場景中，數(shù)據(jù)擁有方可通過沙箱客戶端將數(shù)據(jù)通過加密信道上傳到沙箱中，隨后通過數(shù)據(jù)安全沙箱對加密數(shù)據(jù)進(jìn)行預(yù)處理和模型微調(diào)，并通過安全信道反饋微調(diào)后的模型，保證了模型擁有方的預(yù)訓(xùn)練模型不出私有域的前提下，數(shù)據(jù)擁有方可以安全的完成模型微調(diào)任務(wù)。圖6數(shù)據(jù)安全沙箱技術(shù)投毒檢測與數(shù)據(jù)分析識別有害內(nèi)容在數(shù)據(jù)投毒檢測方面，通過數(shù)據(jù)去毒工具在數(shù)據(jù)預(yù)處理環(huán)節(jié)檢測訓(xùn)練數(shù)據(jù)是否存在異常。數(shù)據(jù)投毒檢測可采用多種不同的檢測手段?；谝?guī)則、關(guān)鍵詞進(jìn)行檢測是一種常見但有效的方式，可在豐富完善檢測規(guī)則的基礎(chǔ)上，以較高的效率將被投毒的、危害安全的訓(xùn)練數(shù)據(jù)進(jìn)行截獲去除。也可采用傳統(tǒng)語言模型或大語言模型的手段，針對數(shù)據(jù)投毒問題進(jìn)行相應(yīng)的設(shè)計(jì)和優(yōu)化，通過語義相似度等指標(biāo)進(jìn)行檢測，從而判定出更隱蔽、更難以察覺的數(shù)據(jù)安全問題。在數(shù)據(jù)分析工具方面，可采用分類統(tǒng)計(jì)、向量聚類、大模型識別等方法，對數(shù)據(jù)內(nèi)容門類、語料形式、語料來源、作者等數(shù)據(jù)分布進(jìn)行統(tǒng)計(jì)和分析，使參與到模型預(yù)訓(xùn)練中的訓(xùn)練數(shù)據(jù)配比均勻、優(yōu)質(zhì)來源和優(yōu)質(zhì)形式的數(shù)據(jù)占比較高，修正性別、民族、宗教、教育等統(tǒng)計(jì)偏見，使模型在運(yùn)營階段避免可能存在的安全性、公平性等問題。（三）模型層面，全流程防控增強(qiáng)大模型可信在模型層面，可信賴實(shí)踐可從設(shè)計(jì)開發(fā)、模型訓(xùn)練和部署運(yùn)行三個(gè)階段展開。設(shè)計(jì)開發(fā)階段主要涉及大模型研發(fā)前期的安全和倫理設(shè)計(jì)評估；在模型訓(xùn)練階段，主要涉及大模型預(yù)訓(xùn)練、微調(diào)過程的可信賴能力檢測、加固措施；在部署運(yùn)行階段，主要涉及大模型在運(yùn)營過程中的運(yùn)維能力，以增強(qiáng)用戶對于模型運(yùn)營的信任度。安全和倫理設(shè)計(jì)評估為大模型研發(fā)提供全方位保障大模型的安全性設(shè)計(jì)評估是面向大模型設(shè)計(jì)初期的一項(xiàng)安全性評審工作，主要涉及安全審核和安全功能設(shè)計(jì)兩方面。在安全審核方面，通常會(huì)根據(jù)大模型設(shè)計(jì)需求構(gòu)建威脅模型，并生成安全設(shè)計(jì)核查表對大模型安全性設(shè)計(jì)進(jìn)行評審，保障大模型的設(shè)計(jì)需求滿足安全合規(guī)要求。在安全功能設(shè)計(jì)方面，大模型研發(fā)人員會(huì)根據(jù)安全審核結(jié)果，對大模型進(jìn)行安全功能設(shè)計(jì)，包括但不限于生成內(nèi)容過濾機(jī)制、生成內(nèi)容標(biāo)識、投訴反饋功能等。大模型的倫理設(shè)計(jì)評估主要依據(jù)人工智能倫理治理相關(guān)法律法規(guī)和標(biāo)準(zhǔn)文件，面向數(shù)據(jù)、算法以及應(yīng)用管理風(fēng)險(xiǎn)三方面，圍繞產(chǎn)品設(shè)計(jì)、開發(fā)、部署、運(yùn)營的全生命周期，分階段、分目標(biāo)的對大模型倫理風(fēng)險(xiǎn)進(jìn)行分類分級管理，并根據(jù)風(fēng)險(xiǎn)的等級進(jìn)行內(nèi)部自評估以及外部專家評審，以確保大模型的訓(xùn)練數(shù)據(jù)、決策機(jī)制以及生成內(nèi)容符合倫理道德。目前，針對大模型倫理評估工作，商湯建立了覆蓋產(chǎn)品全生命周期的風(fēng)險(xiǎn)控制機(jī)制，初步形成了大模型的倫理治理閉環(huán)。通過建立數(shù)據(jù)風(fēng)險(xiǎn)、算法風(fēng)險(xiǎn)以及應(yīng)用風(fēng)險(xiǎn)三方面的倫理評估機(jī)制，對產(chǎn)品設(shè)計(jì)、開發(fā)、部署、運(yùn)營的全生命周期實(shí)施分階段、分目標(biāo)的倫理風(fēng)險(xiǎn)分類分級管理，并建立了配套的風(fēng)險(xiǎn)自查、評估、審查和跟蹤審查流程。圖7商湯倫理風(fēng)險(xiǎn)分類分級管理評估評測與對齊是模型訓(xùn)練可信賴的關(guān)鍵技術(shù)措施大模型的模型評測和對齊技術(shù)是目前解決模型安全性、健壯性、公平性不足的主流方法，通過將評測結(jié)果作為獎(jiǎng)勵(lì)模型的反饋優(yōu)化數(shù)據(jù)，對模型進(jìn)行針對性的微調(diào)與對齊，大模型能夠在模型層面更可靠、可信。大模型可信賴評測是提升模型抵抗外部惡意攻擊、干擾信息以及決策偏見的重要手段。大模型可信賴的重點(diǎn)評測對象是安全性、健壯性以及公平性。在安全性測試方面，評測人員通常采用對抗性提示的方式對大模型進(jìn)行目標(biāo)劫持、提示泄露以及越獄等安全性評測。在健壯性測試方面，評測人員通常會(huì)采用錯(cuò)別字、同義替換、無關(guān)提示、修改語義等方式，對生成內(nèi)容的一致性、穩(wěn)定性進(jìn)行評測。在公平性測試方面，評測人員會(huì)根據(jù)模型業(yè)務(wù)特性，針對年齡、國家、性別、種族等敏感屬性進(jìn)行公平性評測，通過比對輸入內(nèi)容中是否含有敏感屬性的輸出結(jié)果差異，統(tǒng)計(jì)模型的公平性表現(xiàn)。在評測完成后，評測人員會(huì)協(xié)同研發(fā)人員共同構(gòu)建面向安全性、健壯性和公平性的模型加固方案，包括但不限于增量學(xué)習(xí)、設(shè)計(jì)針對性的微調(diào)提示問答對、增強(qiáng)獎(jiǎng)勵(lì)模型的針對性訓(xùn)練等。思維鏈技術(shù)有效提升模型邏輯表達(dá)能力。為保障大模型的生成內(nèi)容具備更加合理的推理性邏輯表達(dá)，微調(diào)階段的標(biāo)注人員可通過思維鏈技術(shù)，在同一提示詞中引入多項(xiàng)解釋性示例，引導(dǎo)模型生成具備一定推理邏輯的回答。比如，在數(shù)理邏輯任務(wù)中，可在示例部分編寫步驟分解形式的解釋說明內(nèi)容，指導(dǎo)模型更容易生成推理步驟清晰，準(zhǔn)確性高的回答內(nèi)容。圖8思維鏈技術(shù)人類反饋強(qiáng)化學(xué)習(xí)（RLHF）是現(xiàn)階段大模型對齊研究的主要方法。RLHF是一項(xiàng)通過人工反饋回答內(nèi)容的好壞順序指引大模型的價(jià)值觀與人類對齊的技術(shù)。目前，包括OpenAI、谷歌、百度、商湯科技等主流大模型均采用了RLHF技術(shù)對大模型進(jìn)行價(jià)值對齊調(diào)優(yōu)。比如，商湯科技已經(jīng)將模型評估測試與RLHF技術(shù)結(jié)合，將相關(guān)測試結(jié)果反饋于模型強(qiáng)化學(xué)習(xí)的過程之中，幫助進(jìn)一步提升大模型風(fēng)險(xiǎn)防御能力。投訴反饋、風(fēng)險(xiǎn)監(jiān)控以及應(yīng)急處置構(gòu)建模型運(yùn)營能力投訴反饋機(jī)制是針對大模型生成內(nèi)容優(yōu)化更新的重要手段。目前投訴反饋機(jī)制主要是通過成立投訴反饋監(jiān)管治理機(jī)構(gòu)，對所有的不良違法生成內(nèi)容進(jìn)行處理。為了更好的推動(dòng)模型的持續(xù)優(yōu)化，模型更新的研發(fā)人員會(huì)定期對生成內(nèi)容的投訴和舉報(bào)進(jìn)行分析和總結(jié)，以便發(fā)現(xiàn)問題的根源，并采取措施防止類似問題再次發(fā)生。風(fēng)險(xiǎn)監(jiān)控有效助力大模型良性運(yùn)營。在模型運(yùn)營能力建設(shè)方面，運(yùn)營人員會(huì)持續(xù)對大模型的運(yùn)營情況進(jìn)行風(fēng)險(xiǎn)監(jiān)控并對有害內(nèi)容進(jìn)行溯源，通過對大模型記錄的用戶上傳內(nèi)容、用戶上傳時(shí)間、IP地址、設(shè)備信息等信息進(jìn)行核查，可實(shí)現(xiàn)對該內(nèi)容的制作者和使用者進(jìn)行追溯。應(yīng)急處置用戶惡意行為抑制有害內(nèi)容生成與傳播。大模型運(yùn)營期間運(yùn)營人員會(huì)對用戶異常行為、違規(guī)用戶帳號進(jìn)行監(jiān)控處置。針對用戶異常行為，運(yùn)營人員通過對用戶行為進(jìn)行分析，根據(jù)異常活躍度、登錄情況以及輸入內(nèi)容進(jìn)行判斷處置。針對違規(guī)用戶帳號，運(yùn)營人員通過帳號管理功能實(shí)現(xiàn)對惡意用戶的限期改正、暫停使用、終止帳號等措施，防止有害內(nèi)容的進(jìn)一步生成和二次傳播。（四）生成內(nèi)容層面，過濾與標(biāo)識實(shí)現(xiàn)內(nèi)容可控可問責(zé)在生成內(nèi)容方面，可信賴實(shí)踐主要涉及生成內(nèi)容評測、內(nèi)容審核機(jī)制以及內(nèi)容可追溯能力的建設(shè)，實(shí)現(xiàn)內(nèi)容安全可控并具備一定程度的可追溯能力。為緩解大模型“幻覺”現(xiàn)象，生成內(nèi)容評測主要聚焦真實(shí)性、準(zhǔn)確性以及安全性。為降低生成內(nèi)容的安全性風(fēng)險(xiǎn)，內(nèi)容審核機(jī)制通常會(huì)采取機(jī)器審核和人工復(fù)審結(jié)合的形式。為進(jìn)一步提升二次編輯導(dǎo)致生成內(nèi)容難以追溯的問題，數(shù)字水印技術(shù)正在逐漸提升健壯性能力。生成內(nèi)容評測為模型優(yōu)化更新提供反饋樣本生成內(nèi)容真實(shí)性測試抑制深度合成圖像等惡意攻擊。評測人員可通過內(nèi)容真實(shí)性測試檢測圖像中面部表情一致性與動(dòng)作序列連貫性，并結(jié)合頻譜、聲音和文字等多模態(tài)信息，準(zhǔn)確鑒別包括圖像編輯、換臉、活化以及各種先進(jìn)擴(kuò)散模型合成的人像圖像。生成內(nèi)容準(zhǔn)確性測試客觀反饋大模型“幻覺”水平。在生成內(nèi)容準(zhǔn)確性測試方面，評測人員可采用人工打分或自動(dòng)化評估等形式，對生成內(nèi)容的質(zhì)量進(jìn)行評估，目前商湯科技主要采用整體評價(jià)、相關(guān)性、可讀性、擬人性、專業(yè)性等五個(gè)指標(biāo)對文本生成質(zhì)量進(jìn)行評價(jià)，并從生成內(nèi)容事實(shí)性錯(cuò)誤，生成內(nèi)容邏輯性錯(cuò)誤，生成內(nèi)容和問題相關(guān)性錯(cuò)誤等三個(gè)方面對文本生成準(zhǔn)確性進(jìn)行評價(jià)。生成內(nèi)容安全性評測守衛(wèi)大模型生成內(nèi)容紅線。在生成內(nèi)容安全性測試方面，評測人員可采用“紅隊(duì)測試”的方法，通過構(gòu)建惡意問題數(shù)據(jù)集對生成內(nèi)容安全性進(jìn)行評測，其評測的維度包括但不限于身心健康、隱私財(cái)產(chǎn)、倫理道德、偏見歧視、違法犯罪、政治敏感等話題。內(nèi)容審核機(jī)制有效過濾有害輸入及輸出內(nèi)容大模型的生成內(nèi)容審核機(jī)制主要由機(jī)器審核和人工復(fù)審構(gòu)成。機(jī)器審核是一種對大模型有害輸入、輸出內(nèi)容進(jìn)行檢測、識別的機(jī)制，可以有效識別并過濾有害、不準(zhǔn)確、不恰當(dāng)?shù)膬?nèi)容，通常采用關(guān)鍵詞和語義分析等技術(shù)。人工復(fù)審機(jī)制是目前實(shí)現(xiàn)大模型生成內(nèi)容安全的重要保障。通過人工復(fù)審的方式，對大模型輸入、輸出的內(nèi)容進(jìn)行再次核驗(yàn)。人工復(fù)審需記錄審核時(shí)間、審核覆蓋度、抽檢方式、審核處置結(jié)論等信息。除人工復(fù)審機(jī)制外，還可以采用巡查審查等方式，定期對經(jīng)過了機(jī)器審核、人工復(fù)審的內(nèi)容進(jìn)行整體巡查，并及時(shí)根據(jù)巡查結(jié)果優(yōu)化調(diào)整審核規(guī)則及策略。巡查審核需記錄審核時(shí)間、審核覆蓋度、抽檢方式、審核處置結(jié)論等信息。圖9大模型“機(jī)器+人工”內(nèi)容審核機(jī)制健壯性數(shù)字水印助力實(shí)現(xiàn)內(nèi)容可追溯可問責(zé)數(shù)字水印技術(shù)是一種將信息嵌入到數(shù)字媒體（如圖像、音頻和視頻）中的技術(shù)，以便在不改變原始媒體質(zhì)量的前提下，對其進(jìn)行標(biāo)識或保護(hù)。這種技術(shù)目前被廣泛應(yīng)用于版權(quán)保護(hù)、內(nèi)容認(rèn)證和數(shù)據(jù)管理等領(lǐng)域。數(shù)字水印的健壯性是指其在面對壓縮、濾波、剪切、旋轉(zhuǎn)、縮放等攻擊時(shí)仍能被正確檢測的能力。為保障生成內(nèi)容的可追溯性，通常會(huì)采用糾錯(cuò)編碼、多重水印、深度學(xué)習(xí)等水印嵌入方案進(jìn)一步提升數(shù)字水印的健壯性。圖10數(shù)字水印技術(shù)流程圖四、總結(jié)與展望（一）總結(jié)大模型的發(fā)展雖然仍處于初期階段，但大模型顯現(xiàn)的風(fēng)險(xiǎn)問題使大模型治理已經(jīng)成為社會(huì)關(guān)注焦點(diǎn)。隨著業(yè)界紛紛發(fā)布大模型服務(wù)，大模型產(chǎn)業(yè)正在逐步邁向百家爭鳴的時(shí)代，但伴隨著大模型參數(shù)量、上下文理解能力、生成任務(wù)能力以及多模態(tài)支持能力的不斷更新?lián)Q代，其引發(fā)的相關(guān)風(fēng)險(xiǎn)日益突出。與傳統(tǒng)判別式模型相比，目前大模型的風(fēng)險(xiǎn)主要集中在低質(zhì)量訓(xùn)練數(shù)據(jù)、提示注入攻擊以及生成內(nèi)容的“幻覺”現(xiàn)象，導(dǎo)致用戶對于大模型的使用仍然保持謹(jǐn)慎態(tài)度。因此，大模型治理的呼聲也隨之而出，甚至部分業(yè)界人士呼吁暫停先進(jìn)大模型的研發(fā)工作，社會(huì)各界對于大模型可信賴的實(shí)踐訴求日益強(qiáng)烈。本研究報(bào)告對如何實(shí)現(xiàn)大模型的可信賴目標(biāo)給出了一系列的實(shí)踐方案，基于可靠性、安全性、公平性、健壯性以及可解釋性等可信賴屬性，從技術(shù)、管理、監(jiān)管等維度對大模型的可信賴目標(biāo)實(shí)現(xiàn)進(jìn)行了分析研究，并初步梳理了現(xiàn)有產(chǎn)業(yè)的可信賴實(shí)踐案例。但大模型的可信賴目標(biāo)仍然需要產(chǎn)業(yè)各界人士達(dá)成共識，采用包容審慎、敏捷治理的態(tài)度，通過技術(shù)、管理相互協(xié)同的治理手段，共同構(gòu)建安全、可靠、可信的大模型產(chǎn)業(yè)生態(tài)。（二）展望技術(shù)維度聚焦大模型的可解釋性、價(jià)值對齊研究。一方面，大模型由于算法“黑箱”問題，目前仍然存在可解釋性問題，需要加強(qiáng)事前、事后可解釋的技術(shù)措施和監(jiān)督，探索生成個(gè)體預(yù)測的局部解釋和總體模型推理邏輯的全局解釋。比如，部分研究學(xué)者正在通過指令微調(diào)的方式解釋單個(gè)生成內(nèi)容的預(yù)測結(jié)果，以及OpenAI正在嘗試采GPT4.0GPT2.0的神經(jīng)元激活過程了解大模型內(nèi)部的工作機(jī)理。另一方面，由于大模型的生成內(nèi)容具有價(jià)值屬性，其價(jià)值觀需要符合主流社會(huì)價(jià)值觀念，但現(xiàn)有的對齊技術(shù)主要是基于人類反饋強(qiáng)化學(xué)習(xí)技術(shù)，同樣也受制于人類反饋的數(shù)據(jù)質(zhì)量和時(shí)效性，以及現(xiàn)有部分對齊手段很可能被獎(jiǎng)勵(lì)模型通過學(xué)習(xí)欺騙式的獎(jiǎng)勵(lì)策略實(shí)現(xiàn)“欺騙式”對齊，因此需要探索與人類水平媲美的、同時(shí)具備高可靠性的自動(dòng)對齊機(jī)器，使對齊工作從人工反饋逐漸轉(zhuǎn)向具備可擴(kuò)展監(jiān)督能力的自動(dòng)化對齊系統(tǒng)，進(jìn)一步提升大模型的更新迭代效率與生成內(nèi)容的質(zhì)量。鼓勵(lì)大模型可信賴技術(shù)多方協(xié)同。大模型可信賴目標(biāo)的實(shí)現(xiàn)需要面向框架、數(shù)據(jù)和算法多項(xiàng)要素，綜合開發(fā)、測試、運(yùn)營等多種技術(shù)人員的協(xié)調(diào)配合，通過數(shù)據(jù)來源管理、預(yù)訓(xùn)練處理、指令微調(diào)、人類反饋強(qiáng)化學(xué)習(xí)、內(nèi)容審核等技術(shù)進(jìn)一步降低大模型風(fēng)險(xiǎn)。與此同時(shí)，需要加強(qiáng)技術(shù)人員與監(jiān)管方的溝通，共同建立可信賴大模型監(jiān)管體系，遵循大模型治理思路，從技術(shù)、管理、監(jiān)管多方面根本性提升用戶對于大模型的信任度。生態(tài)維度構(gòu)建評測標(biāo)準(zhǔn)生態(tài)，推動(dòng)大模型測評體系建立。目前多家大模型企業(yè)、研究機(jī)構(gòu)和高校正在積極構(gòu)建大模型的可信賴技術(shù)能力，并積極參與可信賴標(biāo)準(zhǔn)的研制工作，加快推動(dòng)大模型可信賴標(biāo)準(zhǔn)文件出臺(tái)。但當(dāng)前針對大模型測評的標(biāo)準(zhǔn)項(xiàng)目仍然比較欠缺，同時(shí)也缺乏科學(xué)有效的測評工具和測評方法，難以科學(xué)、高效評估大模型的生成內(nèi)容質(zhì)量。因此，需要加強(qiáng)構(gòu)建大模型測評體系，研制大模型測評標(biāo)準(zhǔn)，打造權(quán)威大模型測評工具與平臺(tái)，保障大模型的安全、可靠、可信。構(gòu)建可信產(chǎn)業(yè)共識，細(xì)化行業(yè)大模型可信賴能力建設(shè)。當(dāng)前大模型的發(fā)展重心已經(jīng)從通用大模型面向行業(yè)進(jìn)行細(xì)化發(fā)展，多家企業(yè)紛紛發(fā)布針對金融、醫(yī)療等領(lǐng)域的行業(yè)大模型，比如商湯科技醫(yī)療健康大模型“大醫(yī)”。但目前針對大模型可信賴的研究仍然比較初期，需要產(chǎn)業(yè)形成可信賴共識，并將可信賴?yán)砟钆c行業(yè)特性結(jié)合，從行業(yè)大模型全生命周期的維度考慮如何實(shí)現(xiàn)可信賴目標(biāo)，探索打磨行業(yè)領(lǐng)域的可信賴風(fēng)險(xiǎn)與對策。治理維度遵循“包容審慎、分類分級”監(jiān)管原則，探索大模型分類分級治理模式。一方面，大模型治理的落地需要遵循“包容審慎”原則，兼顧技術(shù)多樣性發(fā)展與可信賴目標(biāo)的實(shí)現(xiàn)。另一方面，目前特定行業(yè)大模型用戶對于風(fēng)險(xiǎn)的敏感度不同，加強(qiáng)探索大模型風(fēng)險(xiǎn)分類分級治理，通過沙箱、自動(dòng)化評測、MLOps等工程化技術(shù)手段推動(dòng)大模型治理的體系化發(fā)展，共同構(gòu)建可信賴大模型產(chǎn)業(yè)生態(tài)。附錄可信賴實(shí)踐案例1：商湯科技SenseTrust可信AI基礎(chǔ)設(shè)施為迎接大模型的全新挑戰(zhàn)，加強(qiáng)全行業(yè)、全社會(huì)的人工智能風(fēng)險(xiǎn)治理能力已成為全球各方亟待解決的緊迫命題。我們正式推出“SenseTrust”——商湯可信人工智能基礎(chǔ)設(shè)施，并將持續(xù)通過“商湯AI安全治理開放平臺(tái)”等多種形式，為行業(yè)提供AI治理公益技術(shù)服務(wù)，推動(dòng)建設(shè)安全可信的人工智能產(chǎn)業(yè)生態(tài)。圖11“SenseTrust”——商湯可信AI基礎(chǔ)設(shè)施在數(shù)據(jù)層面，商湯“SenseTrust”能夠提供數(shù)據(jù)脫敏、數(shù)據(jù)去毒、數(shù)據(jù)合規(guī)審查及偏見評估等治理工具。數(shù)據(jù)脫敏工具能夠面向活體檢測、車牌檢測、文字文檔信息檢測等廣泛應(yīng)用場景，提供高水平的數(shù)據(jù)脫敏技術(shù)，并且具備接口靈活，平臺(tái)覆蓋面廣，實(shí)時(shí)脫敏等優(yōu)勢。數(shù)據(jù)脫敏服務(wù)還可根據(jù)實(shí)際業(yè)務(wù)需求實(shí)現(xiàn)是否具備重標(biāo)識的能力，在特定場景下可還原已去標(biāo)識化的敏感數(shù)據(jù)。數(shù)據(jù)去毒工具能夠在數(shù)據(jù)預(yù)處理環(huán)節(jié)對訓(xùn)練數(shù)據(jù)進(jìn)行帶毒性檢測，判定數(shù)據(jù)是否存在異常，對毒性進(jìn)行判斷并提出去毒方案，同時(shí)進(jìn)行溯源調(diào)查。此外，面向數(shù)據(jù)要素可信流通，商湯創(chuàng)新打造了“數(shù)據(jù)沙箱”工具。通過沙箱包裝后，結(jié)合隱私計(jì)算集群協(xié)同調(diào)度，實(shí)現(xiàn)數(shù)據(jù)可用不可見，在保證數(shù)據(jù)隱私安全的前期下實(shí)現(xiàn)數(shù)據(jù)價(jià)值轉(zhuǎn)化，促進(jìn)數(shù)據(jù)要素流程利用。目前數(shù)據(jù)沙箱可面向兩個(gè)應(yīng)用場景：一是多用戶擁有不同場景分布的數(shù)據(jù)，提供聯(lián)合訓(xùn)練方案，并且具有攜帶離線模型可以完成不泄露數(shù)據(jù)的反演；二是針對用戶端擁有大量數(shù)據(jù)的場景，可使用數(shù)據(jù)加密訓(xùn)練方案，可以在保護(hù)隱私的前提下完成數(shù)據(jù)回流。在模型層面，商湯“SenseTrust”基于自研的模型體檢系列平臺(tái)，能夠針對傳統(tǒng)“小模型”、生成式“大模型”，以及基礎(chǔ)模型提供標(biāo)準(zhǔn)化和定制化的模型評測能力。我們針對傳統(tǒng)“小模型”開發(fā)的模型體檢平臺(tái)，能夠面向活體識別、圖像分類、目標(biāo)檢測等商業(yè)化需求提供一鍵式評測，用戶只需提供模型和評測數(shù)據(jù)即可進(jìn)行。目前已在商湯的大量商業(yè)化模型檢測方面獲得驗(yàn)證。模型體檢內(nèi)容包括對抗安全、魯棒安全、后門安全、可解釋性和公平性評測。同時(shí)，我們針對生成式“大模型”和基礎(chǔ)模型測評建構(gòu)了百萬體量的測試數(shù)據(jù)集，能夠?qū)崿F(xiàn)對大模型的倫理屬性、安全屬性，以及模型能力的評測評估。針對模型體檢出的問題，商湯“SenseTrust”還能夠進(jìn)一步提供模型加固解決方案，主要包括魯棒性訓(xùn)練和AI防火墻兩個(gè)部分。魯棒性訓(xùn)練模塊可以在不損失精度的情況下強(qiáng)化模型的安全性和魯棒性，當(dāng)前主要包括對抗訓(xùn)練和針對性的數(shù)據(jù)增強(qiáng)。魯棒性訓(xùn)練模塊是模型開發(fā)的代碼插件，已融入商湯目前的模型開發(fā)流程。AI防火墻模塊主要用于過濾可疑攻擊樣本，可以在不重新訓(xùn)練模型的情況AI防火墻可以有效抵御主流的黑盒攻擊和物理攻擊方式。AI防火墻和部署的質(zhì)量模型相結(jié)合，在提升在應(yīng)用層面，我們在涉及數(shù)據(jù)保護(hù)、數(shù)字取證及偽造檢測等技術(shù)領(lǐng)域有著深厚的積累，并逐步開發(fā)了基于生成、鑒偽和溯源三位一體的綜合解決方案。在深偽鑒別方面，商湯“SenseTrust”提供包括數(shù)十種先進(jìn)攻擊手段的偽造生成平臺(tái)，為鑒偽檢測和溯源提供豐富多樣的攻擊案例和海量數(shù)據(jù)支持。并可通過持續(xù)集成先進(jìn)偽造算法，在zero/few-shot場景下快速響應(yīng)難例樣本和長尾類型，幫助提升鑒偽算法的泛化性。商湯“SenseTrust”偽造檢測大模型，可充分利用面部表情一致性、動(dòng)作序列連貫性，并結(jié)合頻譜、聲音和文字等多模態(tài)信息，準(zhǔn)確鑒別包括圖像編輯、換臉、活化以及各種先進(jìn)擴(kuò)散模型（如：StableDiffusion）合成的高清人像。主流評測數(shù)據(jù)集上算法檢

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

2023大模型可信賴研究報(bào)告

文檔簡介

溫馨提示

最新文檔

評論

2023大模型可信賴研究報(bào)告

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔