版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
版權(quán)聲明版權(quán)聲明本報(bào)告版權(quán)屬于上海商湯智能科技有限公司與中國信息通信研究院,并受法律保護(hù)。轉(zhuǎn)載、摘編或利用其它方式使用本報(bào)告文字或者觀點(diǎn)的,應(yīng)注明“來源:上海商湯智能科技有限公司和中國信息通信研究院”。違反上述聲明者,編者將追究其相關(guān)法律責(zé)任。編制說明編制說明202309本報(bào)告由上海商湯智能科技有限公司和中國信息通信研究院云計(jì)算與大數(shù)據(jù)研究所共同撰寫,撰寫過程得到了人工智能關(guān)鍵技術(shù)和應(yīng)用評測工業(yè)和信息化部重點(diǎn)實(shí)驗(yàn)室的大力支持。本報(bào)告主要貢獻(xiàn)單位(排名不分先后)包括:螞蟻科技集團(tuán)股份有限公司、阿里巴巴集團(tuán)、阿里云計(jì)算有限公司、北京百度網(wǎng)訊科技有限公司。前 言近年來,深度學(xué)習(xí)技術(shù)取得了突破性進(jìn)展,大模型作為其中的典型代表,已經(jīng)在自然語言處理、圖像處理、多模態(tài)應(yīng)用等領(lǐng)域取得了令人矚目的成果,為經(jīng)濟(jì)社會(huì)發(fā)展帶來新機(jī)遇。但隨著大模型應(yīng)用規(guī)模擴(kuò)大、應(yīng)用場景拓展,其風(fēng)險(xiǎn)問題也逐漸凸顯,如安全漏洞、隱私泄露、易受攻擊、偏見歧視、侵權(quán)濫用等,如何有效防范治理大模型風(fēng)險(xiǎn)、推動(dòng)大模型可信落地引起社會(huì)各界高度關(guān)注。全球各界對大模型的可信賴問題展開了廣泛的探索研究。在國際層面,政府間國際組織從人工智能倫理準(zhǔn)則等基本共識出發(fā),逐本報(bào)告重點(diǎn)針對產(chǎn)業(yè)界大模型可信賴實(shí)踐開展研究。首先,重點(diǎn)梳理了大模型發(fā)展現(xiàn)狀,點(diǎn)明大模型的風(fēng)險(xiǎn)來源。其次,從大模型涉及的關(guān)鍵要素和可信維度出發(fā),全面分析大模型面臨的各項(xiàng)風(fēng)險(xiǎn)并進(jìn)行整理歸納,形成大模型風(fēng)險(xiǎn)全景視圖。再次,針對大模型在框架、數(shù)據(jù)、模型和生成內(nèi)容等層面的風(fēng)險(xiǎn),系統(tǒng)梳理了產(chǎn)業(yè)界保障大模型可信賴的關(guān)鍵舉措。最后,本報(bào)告指出了當(dāng)前大模型可信賴發(fā)展面臨的問題及挑戰(zhàn),從多個(gè)維度提出了參考建議。大模型與行業(yè)融合正不斷加深,風(fēng)險(xiǎn)問題仍在不斷暴露,相應(yīng)的可信賴實(shí)踐也在持續(xù)涌現(xiàn)。本研究報(bào)告對大模型可信賴實(shí)踐的認(rèn)識和理解還有待加強(qiáng),報(bào)告中如有不足之處,還請各方專家讀者不吝指正。目 錄一、大模型發(fā)展現(xiàn)狀 1(一)大模型驅(qū)動(dòng)新一輪科技革命 1(二)大模型加速賦能產(chǎn)業(yè)應(yīng)用 1(三)大模型可信賴備受關(guān)注 3二、大模型風(fēng)險(xiǎn)分析 7(一)大模型風(fēng)險(xiǎn)視圖 7(二)框架層面,軟件漏洞是現(xiàn)有深度學(xué)習(xí)框架短板 8(三)數(shù)據(jù)層面,隱私風(fēng)險(xiǎn)與有害數(shù)據(jù)導(dǎo)致模型不可靠 9(四)模型層面,提示詞攻擊誘發(fā)模型脆弱性風(fēng)險(xiǎn) 11(五)生成內(nèi)容層面,安全風(fēng)險(xiǎn)和不可追溯是重點(diǎn)難題 14三、大模型可信賴實(shí)踐 17(一)框架層面,可信框架與執(zhí)行環(huán)境保障運(yùn)行安全 17(二)數(shù)據(jù)層面,安全檢測及處理助力大模型可靠 19(三)模型層面,全流程防控增強(qiáng)大模型可信 21(四)生成內(nèi)容層面,過濾與標(biāo)識實(shí)現(xiàn)內(nèi)容可控可問責(zé) 25四、總結(jié)與展望 27(一)總結(jié) 27(二)展望 28附錄 31可信賴實(shí)踐案例1:商湯科技SenseTrust可信AI基礎(chǔ)設(shè)施 31可信賴實(shí)踐案例2:螞蟻集團(tuán)蟻鑒2.0-AI安全檢測平臺(tái) 35可信賴實(shí)踐案例3:阿里巴巴生成式人工智能發(fā)展與治理探索 37可信賴實(shí)踐案例4:百度大模型安全解決方案 40圖目錄圖12023年企業(yè)大模型可信賴實(shí)踐匯總 7圖2大模型可信賴實(shí)踐方案 8圖3微軟“BingChat”提示泄露事件 12圖4大模型健壯性風(fēng)險(xiǎn) 13圖5大模型預(yù)訓(xùn)練階段的長尾問題 14圖6數(shù)據(jù)安全沙箱技術(shù) 20圖7商湯倫理風(fēng)險(xiǎn)分類分級管理評估 22圖8思維鏈技術(shù) 24圖9大模型“機(jī)器+人工”內(nèi)容審核機(jī)制 27圖10數(shù)字水印技術(shù)流程圖 27圖11“SenseTrust”——商湯可信AI基礎(chǔ)設(shè)施 31圖12蟻鑒2.0-AI安全檢測平臺(tái) 35圖13阿里巴巴生成式AI治理實(shí)踐及探索概覽 37圖14百度大模型安全解決方案 40圖15百度大模型內(nèi)容安全與評測體系 41一、大模型發(fā)展現(xiàn)狀(一) 大模型驅(qū)動(dòng)新一輪科技革命近十余年間,人工智能技術(shù)泛化能力、創(chuàng)新能力及應(yīng)用效能不斷提升,成為了推動(dòng)經(jīng)濟(jì)及社會(huì)發(fā)展的重要引擎。2015年前后,人臉識別算法達(dá)到接近人眼的識別能力,被視為人工智能技術(shù)工業(yè)級應(yīng)用水平的代表性事件。2022年,以ChatGPT為代表的大模型為用戶帶來了全新交互體驗(yàn)。通過其在內(nèi)容生成、文本轉(zhuǎn)化和邏輯推理等任務(wù)下的高效、易操作表現(xiàn),大模型正逐步成為當(dāng)前主流應(yīng)用程序的重要組成部分。隨著數(shù)據(jù)、算法和算力的不斷突破,大模型將不斷優(yōu)化演進(jìn)。在數(shù)據(jù)方面,海量、多模態(tài)數(shù)據(jù)將持續(xù)應(yīng)用于大模型預(yù)訓(xùn)練,提升大模型的知識、理解和推理能力。在算法方面,將轉(zhuǎn)向跨知識領(lǐng)域、跨語種、多模態(tài)特征的海量知識挖掘及執(zhí)行等復(fù)雜任務(wù)的處理。在算力方面,智算中心及算力網(wǎng)絡(luò)等基礎(chǔ)設(shè)施加速建設(shè),為大模型的開發(fā)和服務(wù)提供充足性能支持。到2026年,Gartner預(yù)測超過80%的企業(yè)將使用生成式人工智能的API或模型,或在生產(chǎn)環(huán)境中部署支持大模型應(yīng)用。以通用智能體、具身智能和類腦智能等為代表的大模型應(yīng)用可能會(huì)帶來新一輪的科技革命和產(chǎn)業(yè)變革。(二) 大模型加速賦能產(chǎn)業(yè)應(yīng)用“大模型+”模式加速應(yīng)用賦能,助推人工智能產(chǎn)業(yè)升級。當(dāng)前,人工智能已經(jīng)成為全球新興技術(shù)領(lǐng)域的核心競爭力,各國政府加快研發(fā)、部署人工智能技術(shù),推動(dòng)產(chǎn)業(yè)高速發(fā)展。據(jù)統(tǒng)計(jì)1,我國人工智能核心產(chǎn)業(yè)規(guī)模已達(dá)5000億美元,企業(yè)數(shù)量超過4300家。2023年始,我國大模型市場火爆,百度、商湯科技、科大訊飛、阿里巴巴等單位先后發(fā)布自研大模型,并于2023年下半年逐步面向用戶提供服務(wù)。大模型廣泛應(yīng)用于能源、金融、教育、醫(yī)療、交通、政務(wù)等領(lǐng)域,主要應(yīng)用場景聚焦數(shù)據(jù)分析、客服、營銷、辦公等。其中,以能源、金融為首的兩大行業(yè)結(jié)合行業(yè)數(shù)據(jù)建設(shè)基礎(chǔ),積極布局大模型應(yīng)用落地,加速行業(yè)智能化轉(zhuǎn)型。大模型技術(shù)生態(tài)逐步完善,大幅降低行業(yè)應(yīng)用門檻。一方面,開源大模型加速大模型應(yīng)用滲透,打通預(yù)訓(xùn)練、微調(diào)、部署、評測等開發(fā)階段,進(jìn)一步降低大模型研發(fā)應(yīng)用成本。20237月,上海人工智能實(shí)驗(yàn)室正式開源了書生·70億參數(shù)的輕量級版本InternLM-7B系,同時(shí)提供免費(fèi)商用,受到了學(xué)術(shù)和產(chǎn)業(yè)界的廣泛關(guān)注。同年月,OpenAICodeInterpreter,使得ChatGPT可以根據(jù)用戶問題來編寫和執(zhí)行代碼,從而拓展了模型在數(shù)據(jù)分析、復(fù)雜計(jì)算與功能調(diào)用方面的能力。另一方面,大模型正在逐步向智能體方向進(jìn)化,從理解生成邁向復(fù)雜任務(wù)處理能力。通過將大模型與動(dòng)作執(zhí)行器結(jié)合,智能體可以在接受用戶輸入后,通過大模型進(jìn)行規(guī)劃和決策,并對第三方插件或工具進(jìn)行調(diào)1https:///yaowen/liebiao/202307/content_6890391.htm(三) 大模型可信賴備受關(guān)注大模型在快速發(fā)展的同時(shí)也帶來了一系列潛在的風(fēng)險(xiǎn)和挑戰(zhàn)。一方面,大模型所需的海量數(shù)據(jù)、復(fù)雜參數(shù)以及工程難度放大了人工智能固有的技術(shù)風(fēng)險(xiǎn),如數(shù)據(jù)竊取、泄露等安全問題,模型黑盒導(dǎo)致決策結(jié)果難預(yù)測和難解釋問題,以及模型面對隨機(jī)擾動(dòng)和惡意攻擊的魯棒性問題。另一方面,大模型的多場景通用性也放大了隱私風(fēng)險(xiǎn)、歧視風(fēng)險(xiǎn)和濫用風(fēng)險(xiǎn)等應(yīng)用風(fēng)險(xiǎn)。這些問題引發(fā)了全球范圍的關(guān)注,對人工智能治理能力與治理水平提出了新的挑戰(zhàn)。目前,全球大模型治理正處于探索階段,從人工智能倫理準(zhǔn)則等基本共識出發(fā),逐步深入推動(dòng)大模型監(jiān)管政策法規(guī)和企業(yè)治理落地實(shí)踐。國際組織積極制定人工智能治理原則及倡議,重點(diǎn)關(guān)注大模型的治理和監(jiān)管問題。2021通過了《人工智能倫理問題建議書》,旨在促使人工智能系統(tǒng)造福人類、社會(huì)、環(huán)境和生態(tài)系統(tǒng)、防止危害,同時(shí)促進(jìn)和平利用人工智能系統(tǒng)。20236月,聯(lián)合國秘書長安東尼奧·古特雷斯明確提出計(jì)劃在今年年底建立一個(gè)國際人工智能監(jiān)管機(jī)構(gòu),定期審查人工智能治理工作。202328確保人工智能以人為本、值得信賴并負(fù)責(zé)任,通過國際倫理和其他相關(guān)倡議促進(jìn)合作,應(yīng)用人工智能帶來的廣泛風(fēng)險(xiǎn)。同年月,世界互聯(lián)網(wǎng)大會(huì)發(fā)布了《發(fā)展負(fù)責(zé)任的生成式人工智能研究報(bào)告及共識文件》,就發(fā)展負(fù)責(zé)任的生成式人工智能提出十條共識。在標(biāo)準(zhǔn)方面,ISO/IECJTC1/SC42人工智能分委會(huì)正在開展人工智能可信賴國際標(biāo)準(zhǔn)研制工作,為指導(dǎo)利益相關(guān)方研發(fā)、使用可信賴人工智能相關(guān)技術(shù)和系統(tǒng)提供參考,主要標(biāo)準(zhǔn)包括ISO/IECTR24028:2020《人工智能的可信賴概述》、ISO/IEC38507:2022《組織使用人工智能的治理影響》等。全球主要經(jīng)濟(jì)體加快推進(jìn)大模型治理和監(jiān)管相關(guān)政策制定步伐。中國在人工智能監(jiān)管方面主張“包容審慎的分類分級監(jiān)管”原2023710日頒布了首部面向大模型監(jiān)管的《生成式人工智能服務(wù)管理暫行辦法》,后續(xù)將進(jìn)一步針對生成式人工智能技術(shù)特點(diǎn)及其在有關(guān)行業(yè)和領(lǐng)域的服務(wù)應(yīng)用,制定相應(yīng)的分類分級監(jiān)管規(guī)則或指引。2023108日,中國科技部發(fā)布《科技倫理審查辦法(試行)》,提出從事人工智能科技活動(dòng)的單位,研究內(nèi)容涉及科技倫理敏感領(lǐng)域的,應(yīng)設(shè)立科技倫理(審查)委員會(huì),并建立倫理高風(fēng)險(xiǎn)科技活動(dòng)的清單制度,對可能產(chǎn)生較大倫理風(fēng)險(xiǎn)挑戰(zhàn)的新興科技活動(dòng)實(shí)施清單管理。20231018日,國家網(wǎng)信辦發(fā)布《全球人工智能治理倡議》,提出發(fā)展人工智能應(yīng)堅(jiān)持相互尊重、平等互利的原則,各國無論大小、強(qiáng)弱,無論社會(huì)制度如何,都有平等發(fā)展和利用人工智能的權(quán)利。在標(biāo)準(zhǔn)方面,中國信息通信研究院已經(jīng)啟動(dòng)《大規(guī)模預(yù)訓(xùn)練模型技術(shù)和應(yīng)用評估方法》系列標(biāo)準(zhǔn)研制的工作,全面覆蓋大模型的開發(fā)、部署和應(yīng)用環(huán)節(jié),其中第四部分可信要求是目前國內(nèi)首項(xiàng)針對大模型領(lǐng)域的可信賴標(biāo)準(zhǔn)。與此同時(shí),全國信息安全標(biāo)準(zhǔn)化技術(shù)委員會(huì)已經(jīng)啟動(dòng)包括《信息安全技術(shù)生成式人工智能服務(wù)安全基本要求》在內(nèi)的三項(xiàng)生成式人工智能安全國家標(biāo)準(zhǔn)編制工作,以支撐大模型的監(jiān)管落地。歐盟現(xiàn)行人工智能立法仍主要集中在傳統(tǒng)人工智能,但已經(jīng)開始關(guān)注通用人工智能以及生成式人工智能的問題,主張尊重人格尊嚴(yán)、個(gè)人自由和保護(hù)數(shù)據(jù)及隱私安全。2023614日,歐洲議會(huì)投票通過《人工智能法案》,該法案基于風(fēng)險(xiǎn)等級將人工智能系統(tǒng)分成四類,并制定了不同程度的監(jiān)管要求。該法案提出生成式人工智能系統(tǒng)通常屬于有限風(fēng)險(xiǎn)的人工智能系統(tǒng),需遵守最低限度的透明度義務(wù),但可能會(huì)因其適用的領(lǐng)域和生成的內(nèi)容而落入高風(fēng)險(xiǎn)人工智能系統(tǒng)的范疇,并明確了通用人工智能、生成式人工智能以及基礎(chǔ)模型提供者等不同主體的合規(guī)義務(wù)。為配合法案落地,歐洲電信標(biāo)準(zhǔn)化協(xié)會(huì)(ETSI)正在計(jì)劃將人工智能安全工作組重組為人工美國主張監(jiān)管需以促進(jìn)人工智能負(fù)責(zé)任的創(chuàng)新為目標(biāo),應(yīng)通過監(jiān)管和非監(jiān)管措施減少人工智能開發(fā)和部署的不必要障礙,同時(shí)保護(hù)美國的技術(shù)、經(jīng)濟(jì)和國家安全、公民自由、人權(quán)、法治、隱私和尊重知識產(chǎn)權(quán)等核心價(jià)值觀。2023513顧問委員會(huì)(PCAST)成立生成式人工智能工作組,以幫助評估關(guān)鍵機(jī)遇和風(fēng)險(xiǎn),并就如何更好地確保這些技術(shù)的開發(fā)和部署盡可能公平、負(fù)責(zé)任和安全提供意見。20231030日,美國總統(tǒng)拜登簽署人工智能行政令,旨在加強(qiáng)對人工智能潛在風(fēng)險(xiǎn)的監(jiān)管,發(fā)展安全、可靠和值得信賴的人工智能,促進(jìn)人工智能創(chuàng)新,確保美國在人工智能領(lǐng)域繼續(xù)領(lǐng)跑全球。同時(shí)行政令在標(biāo)準(zhǔn)方面,提出美國國家標(biāo)準(zhǔn)與技術(shù)研究所(NIST)將制定嚴(yán)格的人工智能安全測試標(biāo)準(zhǔn),人工智能系統(tǒng)在公開發(fā)布前需根據(jù)這些標(biāo)準(zhǔn)進(jìn)行廣泛的測試以確保安全。業(yè)界人士積極呼吁加強(qiáng)人工智能監(jiān)管,企業(yè)加速大模型可信賴技術(shù)落地。2023年3月,特斯拉首席執(zhí)行官埃隆·馬斯克、蘋果聯(lián)合創(chuàng)始人史蒂夫·沃茲尼亞克以及其他上千名AI研究人員簽署公開信,呼吁暫停研究比GPT-4更先進(jìn)的AI技術(shù),提醒更多的用戶關(guān)注大模型的潛在危險(xiǎn)。由微軟等企業(yè)發(fā)起的商業(yè)軟件聯(lián)盟(BSA)公開發(fā)文,呼吁在國家隱私立法基礎(chǔ)上制定管理人工智能使用的規(guī)則。2023年7月21日,亞馬遜、Anthropic、谷歌、Inflection、Meta、微軟和OpenAI七家企業(yè)自愿向美國政府做出圍繞安全、保障和信任等原則的自愿性承諾,主要內(nèi)容包括開發(fā)部署面向生成內(nèi)容的數(shù)字水印技術(shù),公開披露模型或系統(tǒng)的功能、局限性和適用領(lǐng)域,以及優(yōu)先研究人工智能系統(tǒng)帶來的社會(huì)風(fēng)險(xiǎn)等。目前,微軟、谷歌、OpenAI、百度、商湯科技、螞蟻等企業(yè)都發(fā)布了面向大模型的可信賴工具或平臺(tái),例如商湯科技的可信AI基礎(chǔ)設(shè)施平臺(tái)SenseTrust包含完整覆蓋數(shù)據(jù)、模型、應(yīng)用治理環(huán)節(jié)的可信AI治理工具,助力打造可信賴的大模型服務(wù)。圖12023年企業(yè)大模型可信賴實(shí)踐匯總大模型治理和監(jiān)管已經(jīng)成為全球國際組織和主要經(jīng)濟(jì)體的首要目標(biāo),各國的監(jiān)管機(jī)構(gòu)正在嘗試通過法律法規(guī)以及標(biāo)準(zhǔn)文件對大模型進(jìn)行治理和監(jiān)管,行業(yè)各界也積極推動(dòng)人工智能治理工作。但與傳統(tǒng)人工智能的風(fēng)險(xiǎn)相比,大模型的風(fēng)險(xiǎn)來源涉及框架、數(shù)據(jù)、模型、生成內(nèi)容等多種因素,因此更加具有不確定性,亟需通過技術(shù)、管理和監(jiān)管等手段進(jìn)行協(xié)同治理。二、大模型風(fēng)險(xiǎn)分析(一) 大模型風(fēng)險(xiǎn)視圖大模型快速部署和廣泛應(yīng)用的同時(shí),也誘發(fā)了更多的風(fēng)險(xiǎn)隱患:一是框架風(fēng)險(xiǎn),深度學(xué)習(xí)框架面臨物理、網(wǎng)絡(luò)層面的惡意攻擊,導(dǎo)致大模型所依賴的基礎(chǔ)設(shè)施穩(wěn)定性和安全性難以保障;二是數(shù)據(jù)風(fēng)險(xiǎn),采集及處理海量、多模態(tài)的訓(xùn)練數(shù)據(jù)可能會(huì)引入更多的有害數(shù)據(jù),容易引發(fā)個(gè)人隱私泄露、知識產(chǎn)權(quán)侵權(quán)、數(shù)據(jù)偏見等問題;三是模型風(fēng)險(xiǎn),現(xiàn)階段,大模型抗干擾能力相對較弱,存在遭受惡意攻擊、決策偏見以及模型運(yùn)營風(fēng)險(xiǎn)等問題;四是生成內(nèi)容風(fēng)險(xiǎn),大模型存在“幻覺”現(xiàn)象,答非所問、違規(guī)不良信息生成等問題成為大模型最受關(guān)注的風(fēng)險(xiǎn)。大模型高效、便捷的內(nèi)容生成能力大幅降低了詐騙、釣魚郵件等惡意行為的門檻,而針對生成內(nèi)容的追溯保障機(jī)制目前尚未完善,使得惡意內(nèi)容生成的監(jiān)管更加困難。本報(bào)告以可靠性、健壯性、安全性、公平性、可問責(zé)、可解釋等大模型可信賴目標(biāo)為重點(diǎn)方向,從框架、數(shù)據(jù)、模型、生成內(nèi)容等大模型風(fēng)險(xiǎn)要素角度分析,并結(jié)合數(shù)據(jù)采集、模型預(yù)訓(xùn)練、模型微調(diào)、部署運(yùn)行、優(yōu)化更新等大模型全生命周期治理理念,提出大模型可信賴實(shí)踐方案,全面提升大模型的可信賴表現(xiàn)。圖2大模型可信賴實(shí)踐方案(二) 框架層面,軟件漏洞是現(xiàn)有深度學(xué)習(xí)框架短板大模型領(lǐng)域的基礎(chǔ)設(shè)施風(fēng)險(xiǎn)主要包括深度學(xué)習(xí)框架和開發(fā)套件等軟件層面的漏洞,以及運(yùn)行環(huán)境的不穩(wěn)定性??赡艿娘L(fēng)險(xiǎn)涵蓋物理攻擊、網(wǎng)絡(luò)攻擊、運(yùn)行環(huán)境篡改、運(yùn)維故障等多個(gè)方面。在大模型訓(xùn)練階段,深度學(xué)習(xí)框架、開發(fā)組件以及第三方依賴庫存在潛在漏洞,增加了受到外部惡意攻擊的風(fēng)險(xiǎn)。在這個(gè)階段,攻擊者有可能通過惡意程序入侵等手段,竊取模型、訓(xùn)練數(shù)據(jù)以及訓(xùn)練腳本等核心資產(chǎn),從而導(dǎo)致大模型的訓(xùn)練數(shù)據(jù)和模型參數(shù)文件20209就被曝出多項(xiàng)安全漏洞,其2812個(gè),低危2個(gè)。這些漏洞可能導(dǎo)致任意代碼執(zhí)行、信息泄露以及拒絕服深度學(xué)習(xí)框架的運(yùn)行環(huán)境容錯(cuò)性低,核心資產(chǎn)保護(hù)面臨挑戰(zhàn)。大模型的運(yùn)行環(huán)境不穩(wěn)定性風(fēng)險(xiǎn)主要來自大模型服務(wù)的運(yùn)維以及模型迭代更新時(shí)穩(wěn)健性較差所導(dǎo)致的服務(wù)等級協(xié)議(SLA)服務(wù)水平不足,從而可能影響大模型服務(wù)可用性。在訓(xùn)練和推理過程中,由于設(shè)備、網(wǎng)絡(luò)或通信故障,可能導(dǎo)致模型訓(xùn)練或推理任務(wù)中斷。此外,大模型的運(yùn)行環(huán)境同樣面臨安全性風(fēng)險(xiǎn)。一方面,缺乏基礎(chǔ)設(shè)施與其他系統(tǒng)的嚴(yán)格網(wǎng)絡(luò)隔離可能導(dǎo)致來自內(nèi)部其他系統(tǒng)的橫向滲透風(fēng)險(xiǎn)。如果攻擊者成功侵入基礎(chǔ)設(shè)施系統(tǒng)并注入后門、木馬等惡意程序,整個(gè)系統(tǒng)將面臨嚴(yán)重的安全風(fēng)險(xiǎn)。另一方面,大模型的運(yùn)行環(huán)境缺乏面向訓(xùn)練數(shù)據(jù)、模型和網(wǎng)絡(luò)通信的安全防護(hù)措施,使得訓(xùn)練數(shù)據(jù)、模型參數(shù)文件等核心資產(chǎn)容易受到泄露、篡改和竊取等威脅。(三)數(shù)據(jù)層面,隱私風(fēng)險(xiǎn)與有害數(shù)據(jù)導(dǎo)致模型不可靠大模型的訓(xùn)練依賴于大規(guī)模、多樣化且高質(zhì)量的數(shù)據(jù)集。這些訓(xùn)練數(shù)據(jù)通常涵蓋各類網(wǎng)頁、公共語料庫、社交媒體、書籍、期刊等公開數(shù)據(jù)來源,其中未經(jīng)篩選和審核的數(shù)據(jù)成為大模型不可忽視的潛在風(fēng)險(xiǎn)。因此,在大模型的全新范式下,數(shù)據(jù)來源不可信、數(shù)據(jù)違規(guī)處理、投毒攻擊、數(shù)據(jù)內(nèi)容有害、數(shù)據(jù)偏見、數(shù)據(jù)樣本不足正逐步成為大模型在數(shù)據(jù)方面的主要風(fēng)險(xiǎn)。大模型訓(xùn)練數(shù)據(jù)的采集、預(yù)處理等數(shù)據(jù)處理活動(dòng)可能涉及數(shù)據(jù)來源管理困難、隱私泄露等相關(guān)風(fēng)險(xiǎn)。在數(shù)據(jù)來源管理方面,主要問題集中在數(shù)據(jù)來源的不可靠性和不可追溯性。大模型訓(xùn)練數(shù)據(jù)通常涵蓋圖像、視頻、文本、音頻等多種數(shù)據(jù)類型,涉及自采集、商業(yè)采購、公開數(shù)據(jù)集等多種渠道。然而,部分公開數(shù)據(jù)集的來源缺乏充分的驗(yàn)證和審核,導(dǎo)致預(yù)訓(xùn)練數(shù)據(jù)集中存在來源不清、被惡意投毒的數(shù)據(jù)。大量訓(xùn)練數(shù)據(jù)采集的同時(shí)難以避免帶毒數(shù)據(jù)的引入,增加了數(shù)據(jù)來源管理的難度。在隱私泄露方面,數(shù)據(jù)采集階段可能會(huì)由于采集方式、采集工具的不合規(guī),導(dǎo)致未獲取個(gè)人信息授權(quán),使得預(yù)訓(xùn)練數(shù)據(jù)集含有未授權(quán)個(gè)人信息。在數(shù)據(jù)預(yù)處理階段,由于數(shù)據(jù)脫敏機(jī)制的不完善,個(gè)人信息未完全去標(biāo)識化,致使預(yù)訓(xùn)練模型學(xué)習(xí)、理解到含有個(gè)人信息的知識,其生成內(nèi)容可能會(huì)含有個(gè)人信息或關(guān)聯(lián)個(gè)人信息,存在個(gè)人信息泄露的風(fēng)險(xiǎn)。有害內(nèi)容、低質(zhì)量數(shù)據(jù)導(dǎo)致模型生成違規(guī)內(nèi)容。大模型通過學(xué)習(xí)海量數(shù)據(jù)中的知識、理解常識并生成內(nèi)容,數(shù)據(jù)中存在有害內(nèi)容和數(shù)據(jù)偏見等質(zhì)量問題可能導(dǎo)致模型生成內(nèi)容存在違規(guī)信息或決策偏見等問題。在數(shù)據(jù)內(nèi)容有害性風(fēng)險(xiǎn)方面,模型預(yù)訓(xùn)練階段使用大量無監(jiān)督學(xué)習(xí)預(yù)訓(xùn)練數(shù)據(jù)集,如果其中存在一定量的有害內(nèi)容,將影響預(yù)訓(xùn)練模型的理解和生成能力。同時(shí),在模型微調(diào)階段,微調(diào)數(shù)據(jù)若包含不準(zhǔn)確、虛假信息等內(nèi)容,可能導(dǎo)致模型無法正確對下游任務(wù)模型進(jìn)行價(jià)值對齊。數(shù)據(jù)偏見風(fēng)險(xiǎn)主要源自大模型的預(yù)訓(xùn)練和微調(diào)階段。一方面,模型預(yù)訓(xùn)練所使用的數(shù)據(jù)集樣本分布可能缺乏均衡性,包括性別、民族、宗教、教育等相關(guān)樣本比例關(guān)系不當(dāng)。另一方面,模型微調(diào)階段可能由于人工標(biāo)注員的主觀意識形態(tài)偏差,引入對微調(diào)數(shù)據(jù)的構(gòu)建和價(jià)值排序的偏見,從而導(dǎo)致微調(diào)數(shù)據(jù)存在價(jià)值觀上的偏見歧視問題。(四) 模型層面,提示詞攻擊誘發(fā)模型脆弱性風(fēng)險(xiǎn)大模型在模型開發(fā)和運(yùn)營階段都會(huì)面臨多種模型內(nèi)外部的風(fēng)險(xiǎn),主要包括提示注入攻擊等安全性問題、健壯性不足、偏見歧視以及模型運(yùn)營風(fēng)險(xiǎn)等問題。提示注入攻擊成為大模型安全性首要風(fēng)險(xiǎn)。提示注入攻擊是一類以輸入提示詞作為攻擊手段的惡意攻擊。攻擊者精心構(gòu)造和設(shè)計(jì)特定的提示詞,達(dá)到繞過大模型過濾策略的目的。根據(jù)竊取目標(biāo)和攻擊手段不同,可將提示注入攻擊細(xì)分為以下三類。一是目標(biāo)劫持,攻擊者通過輸入惡意示例的方式劫持模型的輸出結(jié)果,并要求模型輸出與其原輸出內(nèi)容不同的特定結(jié)果,從而惡意篡改生成內(nèi)容。二是提示泄露,攻擊者通過一些誘導(dǎo)性的上下文提示,竊取大模型預(yù)制的初始化提示內(nèi)容,包括模型應(yīng)該遵循的規(guī)則和特定敏感話題。攻擊者可以通過該類攻擊手段了解大模型的行為模式或者過濾策略。三是越獄攻擊,攻擊者通過模擬對話、角色扮演等虛構(gòu)場景和行為方式,設(shè)定一系列特定的問答規(guī)則,嘗試分散大模型的注意力,規(guī)避過濾策略,生成帶有惡意目的的特定輸出結(jié)果。除直接對大模型的輸入內(nèi)容進(jìn)行提示注入攻擊,攻擊者也可以通過文件中內(nèi)嵌惡意代碼等形式間接進(jìn)行提示注入攻擊。以微軟NewBingChat為代表的大模型,其結(jié)合檢索和API調(diào)用功能的新組件引入了間接提示注入的風(fēng)險(xiǎn)。攻擊者有可能通過在提示詞中嵌入含有惡意代碼或有害內(nèi)容的網(wǎng)頁鏈接或文件等手段,試圖規(guī)避輸入和輸出端的過濾機(jī)制,以生成特定的惡意內(nèi)容。圖3微軟“BingChat”提示泄露事件大模型在健壯性和泛化性方面仍然面臨挑戰(zhàn)。與傳統(tǒng)的小參數(shù)量機(jī)器學(xué)習(xí)模型相比,雖然大模型通過使用億級參數(shù)的訓(xùn)練數(shù)據(jù)進(jìn)行無監(jiān)督學(xué)習(xí)表現(xiàn)出對抗樣本攻擊和外部干擾的相對強(qiáng)健性,但仍存在健壯性和泛化性不足的潛在風(fēng)險(xiǎn)。例如,在大模型的輸入提示詞中引入一定程度的錯(cuò)別字符或文字、邏輯錯(cuò)誤的詞句以及段落等內(nèi)容,會(huì)導(dǎo)致大模型理解偏差以及生成內(nèi)容錯(cuò)誤。圖4大模型健壯性風(fēng)險(xiǎn)大模型的決策偏見歧視問題愈發(fā)突出。大模型的算法決策公平性是可信賴能力的重要指標(biāo),尤其在金融、醫(yī)療、教育等特殊行業(yè)中,這一指標(biāo)對于處理關(guān)鍵問題的理解和生成任務(wù)至關(guān)重要。首先,預(yù)訓(xùn)練數(shù)據(jù)自帶的偏見歧視會(huì)導(dǎo)致預(yù)訓(xùn)練模型進(jìn)一步放大偏見問題,長尾問題仍然是潛在偏見之一。其次,大模型本身可能根據(jù)數(shù)據(jù)樣本的分布和屬性,進(jìn)一步提升對某類樣本的敏感度,從而間接放大對這些偏見性知識的感知,進(jìn)而導(dǎo)致更為嚴(yán)重的歧視性內(nèi)容生成。圖5大模型預(yù)訓(xùn)練階段的長尾問題大模型運(yùn)營面臨多方面挑戰(zhàn),API安全問題至關(guān)重要。當(dāng)前,模型即服務(wù)(MaaS)等高效而敏捷的部署方式正逐步成為現(xiàn)有大模型系統(tǒng)與服務(wù)的主流形式。一方面,在大模型服務(wù)實(shí)際運(yùn)營環(huán)節(jié),存在諸多服務(wù)運(yùn)營相關(guān)的風(fēng)險(xiǎn),包括但不限于批量注冊、盜號、撞庫等賬號安全性問題,以及惡意使用、機(jī)器作弊、審核資源浪費(fèi)等運(yùn)營安全性問題。以ChatGPT為例,該服務(wù)推出僅兩個(gè)月,注冊用戶已超過1億。隨著用戶規(guī)模不斷增長,各類違規(guī)賬號也在不斷活20234OpenAIAPI提供對外服務(wù)。在服務(wù)運(yùn)營階段,攻擊者可能通過注入漏洞利用攻擊、未授權(quán)漏洞利用攻擊、越權(quán)訪問漏洞利用攻擊、代碼設(shè)計(jì)漏洞攻擊以及第三方組件漏洞利用攻擊等方法,引發(fā)APIPython代碼的模板函數(shù)可以利用大模型應(yīng)用框架LangChain的接口遠(yuǎn)程執(zhí)行任意Python(五) 生成內(nèi)容層面,安全風(fēng)險(xiǎn)和不可追溯是重點(diǎn)難題當(dāng)前,大模型的生成內(nèi)容中仍然存在一定程度的內(nèi)容安全和不可追溯風(fēng)險(xiǎn),主要包括虛假有害內(nèi)容、上下文邏輯性錯(cuò)誤、問答與提問的相關(guān)性較差、與社會(huì)主流價(jià)值觀沖突等風(fēng)險(xiǎn),進(jìn)一步降低了以大模型為生產(chǎn)工具的惡意行為的門檻,對個(gè)人、組織以及社會(huì)的穩(wěn)定發(fā)展造成嚴(yán)重影響。其主要風(fēng)險(xiǎn)包括以下幾方面:生成內(nèi)容“幻覺”現(xiàn)象頻發(fā)。大模型對輸入的問題生成不真實(shí)、與現(xiàn)實(shí)世界常識相違背的虛假有害信息的現(xiàn)象,被稱為“幻覺”問題。大模型常見的幻覺主要有三類:第一是和用戶輸入沖突的幻覺,大模型的理解能力極大依賴于訓(xùn)練數(shù)據(jù)集的規(guī)模、種類、樣本的豐富度,理解能力的不足將會(huì)導(dǎo)致大模型無法準(zhǔn)確生成用戶輸入的問題答案,影響大模型的生成內(nèi)容可信度。第二是和已生成的上下文沖突的幻覺,盡管目前大模型具備廣泛的世界知識,但其仍是一個(gè)黑盒、邏輯推理不夠精確的系統(tǒng)。大模型通過理解輸入內(nèi)容的token,預(yù)測并逐字逐句生成輸出結(jié)果,其生成的內(nèi)容雖符合訓(xùn)練數(shù)據(jù)中語句的表達(dá)連貫性,卻可能缺乏合理、清晰的邏輯性,與上下文內(nèi)容沖突或生成重復(fù)性內(nèi)容。第三是和事實(shí)知識沖突的幻覺,這一類幻覺的研究難度更大,對用戶實(shí)際使用體驗(yàn)的干擾也最大。例如,大模型在生成醫(yī)療建議時(shí)可能會(huì)捏造錯(cuò)誤的藥品劑量,誤導(dǎo)缺少專業(yè)醫(yī)學(xué)知識的用戶,直接危及用戶健康。生成內(nèi)容與社會(huì)主流價(jià)值觀沖突。大模型的生成內(nèi)容的安全性問題至關(guān)重要,如果大模型生成民族仇視、偏見和歧視、政治和軍事敏感、淫穢色情以及恐怖暴力等惡意內(nèi)容,會(huì)對傳統(tǒng)道德和社會(huì)核心價(jià)值觀造成沖擊,對個(gè)人、組織和社會(huì)都具有極其嚴(yán)重的負(fù)面影響。生成內(nèi)容欠缺合理、科學(xué)的推理過程。目前大模型的可解釋性問題仍然研究學(xué)者重點(diǎn)關(guān)注的方向,針對大模型的可解釋性研究主要分為事前解釋和事后解釋,其中事前解釋是通過研究不同特征對預(yù)測結(jié)果的影響程度進(jìn)行解釋說明,事后解釋更加側(cè)重利用規(guī)則以及可解釋性強(qiáng)的算法評估原有大模型的可解釋性。然而,大模型所使用的訓(xùn)練數(shù)據(jù)和算法結(jié)構(gòu)仍然是黑盒,難以完全解釋目前大模型的內(nèi)在機(jī)理和決策依據(jù)。生成內(nèi)容不易追溯和保護(hù)。大模型由于具備通過學(xué)習(xí)海量的世界知識生成內(nèi)容的能力,因此在訓(xùn)練數(shù)據(jù)和生成內(nèi)容方面會(huì)產(chǎn)生一系列的版權(quán)歸屬和保護(hù)難題。目前大模型服務(wù)通常會(huì)采用數(shù)字水印技術(shù)在生成內(nèi)容中嵌入不可見、具備可追溯能力的標(biāo)識,該類標(biāo)識一般內(nèi)含用戶ID信息、大模型服務(wù)信息以及時(shí)間戳等信息,用于追溯不良違規(guī)生成內(nèi)容,但目前仍然面臨生成內(nèi)容被二次創(chuàng)作、剪輯和裁切之后,標(biāo)識內(nèi)容可能會(huì)無法讀取等問題,導(dǎo)致無法正確追溯到原始的大模型服務(wù),難以明確界定責(zé)任歸屬。在知識產(chǎn)權(quán)的溯源方面,由于現(xiàn)有大模型的學(xué)習(xí)機(jī)制,其生成的內(nèi)容有可能與原始的訓(xùn)練數(shù)據(jù)具有一定相似度,難以界定生成的內(nèi)容是否對原始作品產(chǎn)生侵權(quán)行為。生成內(nèi)容誤用濫用現(xiàn)象對個(gè)人、團(tuán)體以及社會(huì)造成不良影響。由于目前仍然缺乏對于使用大模型生成能力的有效監(jiān)督手段,部分用戶在未充分進(jìn)行培訓(xùn)和教育的前提下,可能將隱私信息誤輸入到大模型中,導(dǎo)致個(gè)人信息泄露。例如,2023年3月,三星半導(dǎo)體部門員工因三起利用ChatGPT處理辦公文件和修復(fù)程序源代碼等事件,導(dǎo)致公司機(jī)密泄露。部分惡意使用者利用FraudGPT等惡意大模型作為違法活動(dòng)的工具生成詐騙短信和釣魚郵件,通過代碼生成工具開發(fā)惡意程序、腳本等,竊取他人敏感個(gè)人信息。三、大模型可信賴實(shí)踐(一) 框架層面,可信框架與執(zhí)行環(huán)境保障運(yùn)行安全針對深度學(xué)習(xí)框架面臨的軟件漏洞風(fēng)險(xiǎn)與運(yùn)行環(huán)境不可靠問題,一方面通過采用漏洞管理、惡意程序檢測以及訪問控制等技術(shù)措施,降低深度學(xué)習(xí)框架受惡意訪問和攻擊的可能性,另一方面通過構(gòu)建AI核心資產(chǎn)保護(hù)機(jī)制,保障深度學(xué)習(xí)框架運(yùn)行環(huán)境的安全可信??尚刨嚳蚣芙档蛺阂庠L問與攻擊風(fēng)險(xiǎn)可信賴框架的實(shí)現(xiàn)需要從框架自身管理層面、框架外的平臺(tái)層面以及用戶管理層面進(jìn)行安全保障。安全漏洞管理機(jī)制通過對AI框架進(jìn)行定期的漏洞掃描,識別并記錄框架漏洞信息,定時(shí)更新安全補(bǔ)丁修復(fù)漏洞,提升框架安全能力。惡意程序檢測機(jī)制通過將檢測模塊直接集成在深度學(xué)習(xí)框架或者基礎(chǔ)設(shè)施中,實(shí)現(xiàn)檢測在訓(xùn)練或者推理任務(wù)執(zhí)行的容器或虛擬機(jī)是否存在惡意攻擊宿主機(jī)、宿主機(jī)上其他容器或者執(zhí)行越權(quán)訪問等容器逃逸行為。判別是否存在勒索病毒以及惡意程序,并產(chǎn)生告警信息。訪問控制和身份鑒別機(jī)制有效管理并核驗(yàn)登錄用戶的真實(shí)身份,對于多次登錄失敗的用戶,應(yīng)啟用結(jié)束會(huì)話、限制非法登錄次數(shù)等措施,以降低未授權(quán)操作所引發(fā)的風(fēng)險(xiǎn)。核心資產(chǎn)保護(hù)機(jī)制保障運(yùn)行環(huán)境安全可信為保障深度學(xué)習(xí)框架的運(yùn)行環(huán)境安全可信,通過構(gòu)建加解密機(jī)制、完整性校驗(yàn)機(jī)制、訓(xùn)練任務(wù)中斷恢復(fù)機(jī)制以及運(yùn)行環(huán)境隔離機(jī)制等方式保障運(yùn)行過程中AI核心資產(chǎn)的安全。加解密機(jī)制通過在深度學(xué)習(xí)框架和人工智能基礎(chǔ)設(shè)施中添加加解密模塊,實(shí)現(xiàn)對訓(xùn)練和推理過程中的數(shù)據(jù)和模型參數(shù)文件等AI核心資產(chǎn)進(jìn)行保護(hù),防止未授權(quán)人員進(jìn)行非法訪問、篡改數(shù)據(jù)。完整性校驗(yàn)機(jī)制通過對數(shù)據(jù)和模型相關(guān)文件進(jìn)行完整性校驗(yàn),提升大模型在預(yù)訓(xùn)練、微調(diào)以及后續(xù)部署運(yùn)行階段的可靠性,通過密碼算法或者完整性校驗(yàn)機(jī)制對數(shù)據(jù)和模型參數(shù)文件進(jìn)行加解密處理,核驗(yàn)各階段的文件完整性。訓(xùn)練任務(wù)中斷恢復(fù)機(jī)制可以在故障發(fā)生后及時(shí)保存訓(xùn)練任務(wù)上下文及模型參數(shù)等信息,并且可支持在新的訓(xùn)練節(jié)點(diǎn)加載訓(xùn)練任務(wù)上下文及模型參數(shù)等信息,正?;謴?fù)原始訓(xùn)練任務(wù),大幅提升大模型在訓(xùn)練階段的可靠性。運(yùn)行環(huán)境隔離機(jī)制通過設(shè)置獨(dú)立的安全區(qū)域保障AI資產(chǎn)在訓(xùn)練和推理過程中的安全性。以可信執(zhí)行環(huán)境技術(shù)(TEE)為例,TEE是處理器中一個(gè)獨(dú)立的安全區(qū)域,用于保護(hù)程序與數(shù)據(jù)的機(jī)密性和完整性不被外部竊取和破壞。與存儲(chǔ)加密和網(wǎng)絡(luò)通信加密一起,TEE可以保護(hù)落盤和通信過程中的數(shù)據(jù)隱私和安全。隨著TEE技術(shù)的發(fā)展,在計(jì)算核心與內(nèi)存之間增加安全處理器,以保護(hù)被計(jì)算核心使用的數(shù)據(jù)安全和隱私的機(jī)密計(jì)算技術(shù)出現(xiàn)。(二) 數(shù)據(jù)層面,安全檢測及處理助力大模型可靠數(shù)據(jù)的使用貫穿大模型全生命周期,安全保障與有效處理是保障大模型可靠的關(guān)鍵舉措。在數(shù)據(jù)層面,可信賴實(shí)踐主要涉及數(shù)據(jù)全流程的安全合規(guī)處理、數(shù)據(jù)安全沙箱技術(shù)、投毒檢測以及數(shù)據(jù)分析等措施。安全合規(guī)的數(shù)據(jù)處理機(jī)制降低數(shù)據(jù)處理風(fēng)險(xiǎn)大模型的數(shù)據(jù)處理活動(dòng)主要包含數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理及模型訓(xùn)練等環(huán)節(jié)。在數(shù)據(jù)采集環(huán)節(jié),通常會(huì)建立數(shù)據(jù)采集來源管理、數(shù)據(jù)采集業(yè)務(wù)評估、數(shù)據(jù)采集審批流程、采集合規(guī)審批等管理機(jī)制,確保數(shù)據(jù)采集的合規(guī)性、正當(dāng)性和執(zhí)行上的一致性。針對數(shù)據(jù)來源問題,知識產(chǎn)權(quán)部門和信息安全部門協(xié)助業(yè)務(wù)部門對數(shù)據(jù)來源信息的合理性、正當(dāng)性進(jìn)行審查,去除含有大量不良違法信息的有害數(shù)據(jù)來源,并對數(shù)據(jù)來源信息進(jìn)行備案管理。在數(shù)據(jù)預(yù)處理環(huán)節(jié),數(shù)據(jù)處理人員會(huì)將收集到的原始數(shù)據(jù)進(jìn)行清洗、去重、格式化等多步驟的預(yù)處理以確保數(shù)據(jù)質(zhì)量。在該過程中,數(shù)據(jù)處理人員會(huì)嚴(yán)格篩查,去除那些不完整、錯(cuò)誤、帶毒或含有敏感信息的數(shù)據(jù)。隨后數(shù)據(jù)處理人員通過自動(dòng)化工具和人工相結(jié)合的方式,對預(yù)處理后的數(shù)據(jù)進(jìn)行標(biāo)注和篩選,以識別訓(xùn)練數(shù)據(jù)中是否包含敏感信息。此外,業(yè)務(wù)部門通過構(gòu)建敏感內(nèi)容反饋機(jī)制,利用生成內(nèi)容自身特性,將敏感內(nèi)容作為負(fù)面樣本訓(xùn)練敏感信息鑒別模型,持續(xù)提升模型性能。在大模型訓(xùn)練階段,通常會(huì)首先進(jìn)行個(gè)人信息安全影響評估,確保大模型的研發(fā)和運(yùn)營過程滿足現(xiàn)有個(gè)人信息保護(hù)的合規(guī)要求。通過核對個(gè)人信息保護(hù)評估清單,推動(dòng)面向個(gè)人信息保護(hù)的產(chǎn)品功能設(shè)計(jì),確保人工智能產(chǎn)品設(shè)計(jì)流程合規(guī),保障數(shù)據(jù)收集和處理(包括使用、披露、保留、傳輸和處置)限于所確定的必須的目的。數(shù)據(jù)安全沙箱技術(shù)實(shí)現(xiàn)數(shù)據(jù)可用不可見數(shù)據(jù)安全沙箱是一項(xiàng)通過構(gòu)建可隔離、可調(diào)試、運(yùn)行環(huán)境安全等功能來分離數(shù)據(jù)、模型使用權(quán)和所有權(quán)的技術(shù)。在大模型微調(diào)場景中,數(shù)據(jù)擁有方可通過沙箱客戶端將數(shù)據(jù)通過加密信道上傳到沙箱中,隨后通過數(shù)據(jù)安全沙箱對加密數(shù)據(jù)進(jìn)行預(yù)處理和模型微調(diào),并通過安全信道反饋微調(diào)后的模型,保證了模型擁有方的預(yù)訓(xùn)練模型不出私有域的前提下,數(shù)據(jù)擁有方可以安全的完成模型微調(diào)任務(wù)。圖6數(shù)據(jù)安全沙箱技術(shù)投毒檢測與數(shù)據(jù)分析識別有害內(nèi)容在數(shù)據(jù)投毒檢測方面,通過數(shù)據(jù)去毒工具在數(shù)據(jù)預(yù)處理環(huán)節(jié)檢測訓(xùn)練數(shù)據(jù)是否存在異常。數(shù)據(jù)投毒檢測可采用多種不同的檢測手段?;谝?guī)則、關(guān)鍵詞進(jìn)行檢測是一種常見但有效的方式,可在豐富完善檢測規(guī)則的基礎(chǔ)上,以較高的效率將被投毒的、危害安全的訓(xùn)練數(shù)據(jù)進(jìn)行截獲去除。也可采用傳統(tǒng)語言模型或大語言模型的手段,針對數(shù)據(jù)投毒問題進(jìn)行相應(yīng)的設(shè)計(jì)和優(yōu)化,通過語義相似度等指標(biāo)進(jìn)行檢測,從而判定出更隱蔽、更難以察覺的數(shù)據(jù)安全問題。在數(shù)據(jù)分析工具方面,可采用分類統(tǒng)計(jì)、向量聚類、大模型識別等方法,對數(shù)據(jù)內(nèi)容門類、語料形式、語料來源、作者等數(shù)據(jù)分布進(jìn)行統(tǒng)計(jì)和分析,使參與到模型預(yù)訓(xùn)練中的訓(xùn)練數(shù)據(jù)配比均勻、優(yōu)質(zhì)來源和優(yōu)質(zhì)形式的數(shù)據(jù)占比較高,修正性別、民族、宗教、教育等統(tǒng)計(jì)偏見,使模型在運(yùn)營階段避免可能存在的安全性、公平性等問題。(三)模型層面,全流程防控增強(qiáng)大模型可信在模型層面,可信賴實(shí)踐可從設(shè)計(jì)開發(fā)、模型訓(xùn)練和部署運(yùn)行三個(gè)階段展開。設(shè)計(jì)開發(fā)階段主要涉及大模型研發(fā)前期的安全和倫理設(shè)計(jì)評估;在模型訓(xùn)練階段,主要涉及大模型預(yù)訓(xùn)練、微調(diào)過程的可信賴能力檢測、加固措施;在部署運(yùn)行階段,主要涉及大模型在運(yùn)營過程中的運(yùn)維能力,以增強(qiáng)用戶對于模型運(yùn)營的信任度。安全和倫理設(shè)計(jì)評估為大模型研發(fā)提供全方位保障大模型的安全性設(shè)計(jì)評估是面向大模型設(shè)計(jì)初期的一項(xiàng)安全性評審工作,主要涉及安全審核和安全功能設(shè)計(jì)兩方面。在安全審核方面,通常會(huì)根據(jù)大模型設(shè)計(jì)需求構(gòu)建威脅模型,并生成安全設(shè)計(jì)核查表對大模型安全性設(shè)計(jì)進(jìn)行評審,保障大模型的設(shè)計(jì)需求滿足安全合規(guī)要求。在安全功能設(shè)計(jì)方面,大模型研發(fā)人員會(huì)根據(jù)安全審核結(jié)果,對大模型進(jìn)行安全功能設(shè)計(jì),包括但不限于生成內(nèi)容過濾機(jī)制、生成內(nèi)容標(biāo)識、投訴反饋功能等。大模型的倫理設(shè)計(jì)評估主要依據(jù)人工智能倫理治理相關(guān)法律法規(guī)和標(biāo)準(zhǔn)文件,面向數(shù)據(jù)、算法以及應(yīng)用管理風(fēng)險(xiǎn)三方面,圍繞產(chǎn)品設(shè)計(jì)、開發(fā)、部署、運(yùn)營的全生命周期,分階段、分目標(biāo)的對大模型倫理風(fēng)險(xiǎn)進(jìn)行分類分級管理,并根據(jù)風(fēng)險(xiǎn)的等級進(jìn)行內(nèi)部自評估以及外部專家評審,以確保大模型的訓(xùn)練數(shù)據(jù)、決策機(jī)制以及生成內(nèi)容符合倫理道德。目前,針對大模型倫理評估工作,商湯建立了覆蓋產(chǎn)品全生命周期的風(fēng)險(xiǎn)控制機(jī)制,初步形成了大模型的倫理治理閉環(huán)。通過建立數(shù)據(jù)風(fēng)險(xiǎn)、算法風(fēng)險(xiǎn)以及應(yīng)用風(fēng)險(xiǎn)三方面的倫理評估機(jī)制,對產(chǎn)品設(shè)計(jì)、開發(fā)、部署、運(yùn)營的全生命周期實(shí)施分階段、分目標(biāo)的倫理風(fēng)險(xiǎn)分類分級管理,并建立了配套的風(fēng)險(xiǎn)自查、評估、審查和跟蹤審查流程。圖7商湯倫理風(fēng)險(xiǎn)分類分級管理評估評測與對齊是模型訓(xùn)練可信賴的關(guān)鍵技術(shù)措施大模型的模型評測和對齊技術(shù)是目前解決模型安全性、健壯性、公平性不足的主流方法,通過將評測結(jié)果作為獎(jiǎng)勵(lì)模型的反饋優(yōu)化數(shù)據(jù),對模型進(jìn)行針對性的微調(diào)與對齊,大模型能夠在模型層面更可靠、可信。大模型可信賴評測是提升模型抵抗外部惡意攻擊、干擾信息以及決策偏見的重要手段。大模型可信賴的重點(diǎn)評測對象是安全性、健壯性以及公平性。在安全性測試方面,評測人員通常采用對抗性提示的方式對大模型進(jìn)行目標(biāo)劫持、提示泄露以及越獄等安全性評測。在健壯性測試方面,評測人員通常會(huì)采用錯(cuò)別字、同義替換、無關(guān)提示、修改語義等方式,對生成內(nèi)容的一致性、穩(wěn)定性進(jìn)行評測。在公平性測試方面,評測人員會(huì)根據(jù)模型業(yè)務(wù)特性,針對年齡、國家、性別、種族等敏感屬性進(jìn)行公平性評測,通過比對輸入內(nèi)容中是否含有敏感屬性的輸出結(jié)果差異,統(tǒng)計(jì)模型的公平性表現(xiàn)。在評測完成后,評測人員會(huì)協(xié)同研發(fā)人員共同構(gòu)建面向安全性、健壯性和公平性的模型加固方案,包括但不限于增量學(xué)習(xí)、設(shè)計(jì)針對性的微調(diào)提示問答對、增強(qiáng)獎(jiǎng)勵(lì)模型的針對性訓(xùn)練等。思維鏈技術(shù)有效提升模型邏輯表達(dá)能力。為保障大模型的生成內(nèi)容具備更加合理的推理性邏輯表達(dá),微調(diào)階段的標(biāo)注人員可通過思維鏈技術(shù),在同一提示詞中引入多項(xiàng)解釋性示例,引導(dǎo)模型生成具備一定推理邏輯的回答。比如,在數(shù)理邏輯任務(wù)中,可在示例部分編寫步驟分解形式的解釋說明內(nèi)容,指導(dǎo)模型更容易生成推理步驟清晰,準(zhǔn)確性高的回答內(nèi)容。圖8思維鏈技術(shù)人類反饋強(qiáng)化學(xué)習(xí)(RLHF)是現(xiàn)階段大模型對齊研究的主要方法。RLHF是一項(xiàng)通過人工反饋回答內(nèi)容的好壞順序指引大模型的價(jià)值觀與人類對齊的技術(shù)。目前,包括OpenAI、谷歌、百度、商湯科技等主流大模型均采用了RLHF技術(shù)對大模型進(jìn)行價(jià)值對齊調(diào)優(yōu)。比如,商湯科技已經(jīng)將模型評估測試與RLHF技術(shù)結(jié)合,將相關(guān)測試結(jié)果反饋于模型強(qiáng)化學(xué)習(xí)的過程之中,幫助進(jìn)一步提升大模型風(fēng)險(xiǎn)防御能力。投訴反饋、風(fēng)險(xiǎn)監(jiān)控以及應(yīng)急處置構(gòu)建模型運(yùn)營能力投訴反饋機(jī)制是針對大模型生成內(nèi)容優(yōu)化更新的重要手段。目前投訴反饋機(jī)制主要是通過成立投訴反饋監(jiān)管治理機(jī)構(gòu),對所有的不良違法生成內(nèi)容進(jìn)行處理。為了更好的推動(dòng)模型的持續(xù)優(yōu)化,模型更新的研發(fā)人員會(huì)定期對生成內(nèi)容的投訴和舉報(bào)進(jìn)行分析和總結(jié),以便發(fā)現(xiàn)問題的根源,并采取措施防止類似問題再次發(fā)生。風(fēng)險(xiǎn)監(jiān)控有效助力大模型良性運(yùn)營。在模型運(yùn)營能力建設(shè)方面,運(yùn)營人員會(huì)持續(xù)對大模型的運(yùn)營情況進(jìn)行風(fēng)險(xiǎn)監(jiān)控并對有害內(nèi)容進(jìn)行溯源,通過對大模型記錄的用戶上傳內(nèi)容、用戶上傳時(shí)間、IP地址、設(shè)備信息等信息進(jìn)行核查,可實(shí)現(xiàn)對該內(nèi)容的制作者和使用者進(jìn)行追溯。應(yīng)急處置用戶惡意行為抑制有害內(nèi)容生成與傳播。大模型運(yùn)營期間運(yùn)營人員會(huì)對用戶異常行為、違規(guī)用戶帳號進(jìn)行監(jiān)控處置。針對用戶異常行為,運(yùn)營人員通過對用戶行為進(jìn)行分析,根據(jù)異常活躍度、登錄情況以及輸入內(nèi)容進(jìn)行判斷處置。針對違規(guī)用戶帳號,運(yùn)營人員通過帳號管理功能實(shí)現(xiàn)對惡意用戶的限期改正、暫停使用、終止帳號等措施,防止有害內(nèi)容的進(jìn)一步生成和二次傳播。(四)生成內(nèi)容層面,過濾與標(biāo)識實(shí)現(xiàn)內(nèi)容可控可問責(zé)在生成內(nèi)容方面,可信賴實(shí)踐主要涉及生成內(nèi)容評測、內(nèi)容審核機(jī)制以及內(nèi)容可追溯能力的建設(shè),實(shí)現(xiàn)內(nèi)容安全可控并具備一定程度的可追溯能力。為緩解大模型“幻覺”現(xiàn)象,生成內(nèi)容評測主要聚焦真實(shí)性、準(zhǔn)確性以及安全性。為降低生成內(nèi)容的安全性風(fēng)險(xiǎn),內(nèi)容審核機(jī)制通常會(huì)采取機(jī)器審核和人工復(fù)審結(jié)合的形式。為進(jìn)一步提升二次編輯導(dǎo)致生成內(nèi)容難以追溯的問題,數(shù)字水印技術(shù)正在逐漸提升健壯性能力。生成內(nèi)容評測為模型優(yōu)化更新提供反饋樣本生成內(nèi)容真實(shí)性測試抑制深度合成圖像等惡意攻擊。評測人員可通過內(nèi)容真實(shí)性測試檢測圖像中面部表情一致性與動(dòng)作序列連貫性,并結(jié)合頻譜、聲音和文字等多模態(tài)信息,準(zhǔn)確鑒別包括圖像編輯、換臉、活化以及各種先進(jìn)擴(kuò)散模型合成的人像圖像。生成內(nèi)容準(zhǔn)確性測試客觀反饋大模型“幻覺”水平。在生成內(nèi)容準(zhǔn)確性測試方面,評測人員可采用人工打分或自動(dòng)化評估等形式,對生成內(nèi)容的質(zhì)量進(jìn)行評估,目前商湯科技主要采用整體評價(jià)、相關(guān)性、可讀性、擬人性、專業(yè)性等五個(gè)指標(biāo)對文本生成質(zhì)量進(jìn)行評價(jià),并從生成內(nèi)容事實(shí)性錯(cuò)誤,生成內(nèi)容邏輯性錯(cuò)誤,生成內(nèi)容和問題相關(guān)性錯(cuò)誤等三個(gè)方面對文本生成準(zhǔn)確性進(jìn)行評價(jià)。生成內(nèi)容安全性評測守衛(wèi)大模型生成內(nèi)容紅線。在生成內(nèi)容安全性測試方面,評測人員可采用“紅隊(duì)測試”的方法,通過構(gòu)建惡意問題數(shù)據(jù)集對生成內(nèi)容安全性進(jìn)行評測,其評測的維度包括但不限于身心健康、隱私財(cái)產(chǎn)、倫理道德、偏見歧視、違法犯罪、政治敏感等話題。內(nèi)容審核機(jī)制有效過濾有害輸入及輸出內(nèi)容大模型的生成內(nèi)容審核機(jī)制主要由機(jī)器審核和人工復(fù)審構(gòu)成。機(jī)器審核是一種對大模型有害輸入、輸出內(nèi)容進(jìn)行檢測、識別的機(jī)制,可以有效識別并過濾有害、不準(zhǔn)確、不恰當(dāng)?shù)膬?nèi)容,通常采用關(guān)鍵詞和語義分析等技術(shù)。人工復(fù)審機(jī)制是目前實(shí)現(xiàn)大模型生成內(nèi)容安全的重要保障。通過人工復(fù)審的方式,對大模型輸入、輸出的內(nèi)容進(jìn)行再次核驗(yàn)。人工復(fù)審需記錄審核時(shí)間、審核覆蓋度、抽檢方式、審核處置結(jié)論等信息。除人工復(fù)審機(jī)制外,還可以采用巡查審查等方式,定期對經(jīng)過了機(jī)器審核、人工復(fù)審的內(nèi)容進(jìn)行整體巡查,并及時(shí)根據(jù)巡查結(jié)果優(yōu)化調(diào)整審核規(guī)則及策略。巡查審核需記錄審核時(shí)間、審核覆蓋度、抽檢方式、審核處置結(jié)論等信息。圖9大模型“機(jī)器+人工”內(nèi)容審核機(jī)制健壯性數(shù)字水印助力實(shí)現(xiàn)內(nèi)容可追溯可問責(zé)數(shù)字水印技術(shù)是一種將信息嵌入到數(shù)字媒體(如圖像、音頻和視頻)中的技術(shù),以便在不改變原始媒體質(zhì)量的前提下,對其進(jìn)行標(biāo)識或保護(hù)。這種技術(shù)目前被廣泛應(yīng)用于版權(quán)保護(hù)、內(nèi)容認(rèn)證和數(shù)據(jù)管理等領(lǐng)域。數(shù)字水印的健壯性是指其在面對壓縮、濾波、剪切、旋轉(zhuǎn)、縮放等攻擊時(shí)仍能被正確檢測的能力。為保障生成內(nèi)容的可追溯性,通常會(huì)采用糾錯(cuò)編碼、多重水印、深度學(xué)習(xí)等水印嵌入方案進(jìn)一步提升數(shù)字水印的健壯性。圖10數(shù)字水印技術(shù)流程圖四、總結(jié)與展望(一) 總結(jié)大模型的發(fā)展雖然仍處于初期階段,但大模型顯現(xiàn)的風(fēng)險(xiǎn)問題使大模型治理已經(jīng)成為社會(huì)關(guān)注焦點(diǎn)。隨著業(yè)界紛紛發(fā)布大模型服務(wù),大模型產(chǎn)業(yè)正在逐步邁向百家爭鳴的時(shí)代,但伴隨著大模型參數(shù)量、上下文理解能力、生成任務(wù)能力以及多模態(tài)支持能力的不斷更新?lián)Q代,其引發(fā)的相關(guān)風(fēng)險(xiǎn)日益突出。與傳統(tǒng)判別式模型相比,目前大模型的風(fēng)險(xiǎn)主要集中在低質(zhì)量訓(xùn)練數(shù)據(jù)、提示注入攻擊以及生成內(nèi)容的“幻覺”現(xiàn)象,導(dǎo)致用戶對于大模型的使用仍然保持謹(jǐn)慎態(tài)度。因此,大模型治理的呼聲也隨之而出,甚至部分業(yè)界人士呼吁暫停先進(jìn)大模型的研發(fā)工作,社會(huì)各界對于大模型可信賴的實(shí)踐訴求日益強(qiáng)烈。本研究報(bào)告對如何實(shí)現(xiàn)大模型的可信賴目標(biāo)給出了一系列的實(shí)踐方案,基于可靠性、安全性、公平性、健壯性以及可解釋性等可信賴屬性,從技術(shù)、管理、監(jiān)管等維度對大模型的可信賴目標(biāo)實(shí)現(xiàn)進(jìn)行了分析研究,并初步梳理了現(xiàn)有產(chǎn)業(yè)的可信賴實(shí)踐案例。但大模型的可信賴目標(biāo)仍然需要產(chǎn)業(yè)各界人士達(dá)成共識,采用包容審慎、敏捷治理的態(tài)度,通過技術(shù)、管理相互協(xié)同的治理手段,共同構(gòu)建安全、可靠、可信的大模型產(chǎn)業(yè)生態(tài)。(二)展望技術(shù)維度聚焦大模型的可解釋性、價(jià)值對齊研究。一方面,大模型由于算法“黑箱”問題,目前仍然存在可解釋性問題,需要加強(qiáng)事前、事后可解釋的技術(shù)措施和監(jiān)督,探索生成個(gè)體預(yù)測的局部解釋和總體模型推理邏輯的全局解釋。比如,部分研究學(xué)者正在通過指令微調(diào)的方式解釋單個(gè)生成內(nèi)容的預(yù)測結(jié)果,以及OpenAI正在嘗試采GPT4.0GPT2.0的神經(jīng)元激活過程了解大模型內(nèi)部的工作機(jī)理。另一方面,由于大模型的生成內(nèi)容具有價(jià)值屬性,其價(jià)值觀需要符合主流社會(huì)價(jià)值觀念,但現(xiàn)有的對齊技術(shù)主要是基于人類反饋強(qiáng)化學(xué)習(xí)技術(shù),同樣也受制于人類反饋的數(shù)據(jù)質(zhì)量和時(shí)效性,以及現(xiàn)有部分對齊手段很可能被獎(jiǎng)勵(lì)模型通過學(xué)習(xí)欺騙式的獎(jiǎng)勵(lì)策略實(shí)現(xiàn)“欺騙式”對齊,因此需要探索與人類水平媲美的、同時(shí)具備高可靠性的自動(dòng)對齊機(jī)器,使對齊工作從人工反饋逐漸轉(zhuǎn)向具備可擴(kuò)展監(jiān)督能力的自動(dòng)化對齊系統(tǒng),進(jìn)一步提升大模型的更新迭代效率與生成內(nèi)容的質(zhì)量。鼓勵(lì)大模型可信賴技術(shù)多方協(xié)同。大模型可信賴目標(biāo)的實(shí)現(xiàn)需要面向框架、數(shù)據(jù)和算法多項(xiàng)要素,綜合開發(fā)、測試、運(yùn)營等多種技術(shù)人員的協(xié)調(diào)配合,通過數(shù)據(jù)來源管理、預(yù)訓(xùn)練處理、指令微調(diào)、人類反饋強(qiáng)化學(xué)習(xí)、內(nèi)容審核等技術(shù)進(jìn)一步降低大模型風(fēng)險(xiǎn)。與此同時(shí),需要加強(qiáng)技術(shù)人員與監(jiān)管方的溝通,共同建立可信賴大模型監(jiān)管體系,遵循大模型治理思路,從技術(shù)、管理、監(jiān)管多方面根本性提升用戶對于大模型的信任度。生態(tài)維度構(gòu)建評測標(biāo)準(zhǔn)生態(tài),推動(dòng)大模型測評體系建立。目前多家大模型企業(yè)、研究機(jī)構(gòu)和高校正在積極構(gòu)建大模型的可信賴技術(shù)能力,并積極參與可信賴標(biāo)準(zhǔn)的研制工作,加快推動(dòng)大模型可信賴標(biāo)準(zhǔn)文件出臺(tái)。但當(dāng)前針對大模型測評的標(biāo)準(zhǔn)項(xiàng)目仍然比較欠缺,同時(shí)也缺乏科學(xué)有效的測評工具和測評方法,難以科學(xué)、高效評估大模型的生成內(nèi)容質(zhì)量。因此,需要加強(qiáng)構(gòu)建大模型測評體系,研制大模型測評標(biāo)準(zhǔn),打造權(quán)威大模型測評工具與平臺(tái),保障大模型的安全、可靠、可信。構(gòu)建可信產(chǎn)業(yè)共識,細(xì)化行業(yè)大模型可信賴能力建設(shè)。當(dāng)前大模型的發(fā)展重心已經(jīng)從通用大模型面向行業(yè)進(jìn)行細(xì)化發(fā)展,多家企業(yè)紛紛發(fā)布針對金融、醫(yī)療等領(lǐng)域的行業(yè)大模型,比如商湯科技醫(yī)療健康大模型“大醫(yī)”。但目前針對大模型可信賴的研究仍然比較初期,需要產(chǎn)業(yè)形成可信賴共識,并將可信賴?yán)砟钆c行業(yè)特性結(jié)合,從行業(yè)大模型全生命周期的維度考慮如何實(shí)現(xiàn)可信賴目標(biāo),探索打磨行業(yè)領(lǐng)域的可信賴風(fēng)險(xiǎn)與對策。治理維度遵循“包容審慎、分類分級”監(jiān)管原則,探索大模型分類分級治理模式。一方面,大模型治理的落地需要遵循“包容審慎”原則,兼顧技術(shù)多樣性發(fā)展與可信賴目標(biāo)的實(shí)現(xiàn)。另一方面,目前特定行業(yè)大模型用戶對于風(fēng)險(xiǎn)的敏感度不同,加強(qiáng)探索大模型風(fēng)險(xiǎn)分類分級治理,通過沙箱、自動(dòng)化評測、MLOps等工程化技術(shù)手段推動(dòng)大模型治理的體系化發(fā)展,共同構(gòu)建可信賴大模型產(chǎn)業(yè)生態(tài)。附錄可信賴實(shí)踐案例1:商湯科技SenseTrust可信AI基礎(chǔ)設(shè)施為迎接大模型的全新挑戰(zhàn),加強(qiáng)全行業(yè)、全社會(huì)的人工智能風(fēng)險(xiǎn)治理能力已成為全球各方亟待解決的緊迫命題。我們正式推出“SenseTrust”——商湯可信人工智能基礎(chǔ)設(shè)施,并將持續(xù)通過“商湯AI安全治理開放平臺(tái)”等多種形式,為行業(yè)提供AI治理公益技術(shù)服務(wù),推動(dòng)建設(shè)安全可信的人工智能產(chǎn)業(yè)生態(tài)。圖11“SenseTrust”——商湯可信AI基礎(chǔ)設(shè)施在數(shù)據(jù)層面,商湯“SenseTrust”能夠提供數(shù)據(jù)脫敏、數(shù)據(jù)去毒、數(shù)據(jù)合規(guī)審查及偏見評估等治理工具。數(shù)據(jù)脫敏工具能夠面向活體檢測、車牌檢測、文字文檔信息檢測等廣泛應(yīng)用場景,提供高水平的數(shù)據(jù)脫敏技術(shù),并且具備接口靈活,平臺(tái)覆蓋面廣,實(shí)時(shí)脫敏等優(yōu)勢。數(shù)據(jù)脫敏服務(wù)還可根據(jù)實(shí)際業(yè)務(wù)需求實(shí)現(xiàn)是否具備重標(biāo)識的能力,在特定場景下可還原已去標(biāo)識化的敏感數(shù)據(jù)。數(shù)據(jù)去毒工具能夠在數(shù)據(jù)預(yù)處理環(huán)節(jié)對訓(xùn)練數(shù)據(jù)進(jìn)行帶毒性檢測,判定數(shù)據(jù)是否存在異常,對毒性進(jìn)行判斷并提出去毒方案,同時(shí)進(jìn)行溯源調(diào)查。此外,面向數(shù)據(jù)要素可信流通,商湯創(chuàng)新打造了“數(shù)據(jù)沙箱”工具。通過沙箱包裝后,結(jié)合隱私計(jì)算集群協(xié)同調(diào)度,實(shí)現(xiàn)數(shù)據(jù)可用不可見,在保證數(shù)據(jù)隱私安全的前期下實(shí)現(xiàn)數(shù)據(jù)價(jià)值轉(zhuǎn)化,促進(jìn)數(shù)據(jù)要素流程利用。目前數(shù)據(jù)沙箱可面向兩個(gè)應(yīng)用場景:一是多用戶擁有不同場景分布的數(shù)據(jù),提供聯(lián)合訓(xùn)練方案,并且具有攜帶離線模型可以完成不泄露數(shù)據(jù)的反演;二是針對用戶端擁有大量數(shù)據(jù)的場景,可使用數(shù)據(jù)加密訓(xùn)練方案,可以在保護(hù)隱私的前提下完成數(shù)據(jù)回流。在模型層面,商湯“SenseTrust”基于自研的模型體檢系列平臺(tái),能夠針對傳統(tǒng)“小模型”、生成式“大模型”,以及基礎(chǔ)模型提供標(biāo)準(zhǔn)化和定制化的模型評測能力。我們針對傳統(tǒng)“小模型”開發(fā)的模型體檢平臺(tái),能夠面向活體識別、圖像分類、目標(biāo)檢測等商業(yè)化需求提供一鍵式評測,用戶只需提供模型和評測數(shù)據(jù)即可進(jìn)行。目前已在商湯的大量商業(yè)化模型檢測方面獲得驗(yàn)證。模型體檢內(nèi)容包括對抗安全、魯棒安全、后門安全、可解釋性和公平性評測。同時(shí),我們針對生成式“大模型”和基礎(chǔ)模型測評建構(gòu)了百萬體量的測試數(shù)據(jù)集,能夠?qū)崿F(xiàn)對大模型的倫理屬性、安全屬性,以及模型能力的評測評估。針對模型體檢出的問題,商湯“SenseTrust”還能夠進(jìn)一步提供模型加固解決方案,主要包括魯棒性訓(xùn)練和AI防火墻兩個(gè)部分。魯棒性訓(xùn)練模塊可以在不損失精度的情況下強(qiáng)化模型的安全性和魯棒性,當(dāng)前主要包括對抗訓(xùn)練和針對性的數(shù)據(jù)增強(qiáng)。魯棒性訓(xùn)練模塊是模型開發(fā)的代碼插件,已融入商湯目前的模型開發(fā)流程。AI防火墻模塊主要用于過濾可疑攻擊樣本,可以在不重新訓(xùn)練模型的情況AI防火墻可以有效抵御主流的黑盒攻擊和物理攻擊方式。AI防火墻和部署的質(zhì)量模型相結(jié)合,在提升在應(yīng)用層面,我們在涉及數(shù)據(jù)保護(hù)、數(shù)字取證及偽造檢測等技術(shù)領(lǐng)域有著深厚的積累,并逐步開發(fā)了基于生成、鑒偽和溯源三位一體的綜合解決方案。在深偽鑒別方面,商湯“SenseTrust”提供包括數(shù)十種先進(jìn)攻擊手段的偽造生成平臺(tái),為鑒偽檢測和溯源提供豐富多樣的攻擊案例和海量數(shù)據(jù)支持。并可通過持續(xù)集成先進(jìn)偽造算法,在zero/few-shot場景下快速響應(yīng)難例樣本和長尾類型,幫助提升鑒偽算法的泛化性。商湯“SenseTrust”偽造檢測大模型,可充分利用面部表情一致性、動(dòng)作序列連貫性,并結(jié)合頻譜、聲音和文字等多模態(tài)信息,準(zhǔn)確鑒別包括圖像編輯、換臉、活化以及各種先進(jìn)擴(kuò)散模型(如:StableDiffusion)合成的高清人像。主流評測數(shù)據(jù)集上算法檢
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 單位管理制度分享匯編【人事管理篇】十篇
- 單位管理制度范例選集【人事管理】十篇
- 《學(xué)校組織結(jié)構(gòu)》課件
- 《建筑環(huán)境管理技術(shù)》課件
- 《紙板的創(chuàng)想-坐椅設(shè)計(jì)》課件
- 2024年公務(wù)員個(gè)人年終總結(jié)
- 2014年高考語文試卷(福建)(空白卷)
- 稅務(wù)稽查事項(xiàng)總結(jié)
- 雙十二旅游狂歡節(jié)
- 樂器銷售工作總結(jié)
- 2025中國地震應(yīng)急搜救中心公開招聘應(yīng)屆畢業(yè)生5人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 部編版八年級初二語文上冊第六單元《寫作表達(dá)要得體》說課稿
- 遼寧沈陽市文體旅產(chǎn)業(yè)發(fā)展集團(tuán)有限公司招聘筆試沖刺題2024
- 政治-2025年八省適應(yīng)性聯(lián)考模擬演練考試暨2025年四川省新高考教研聯(lián)盟高三年級統(tǒng)一監(jiān)測試題和答案
- 2024年中國醫(yī)藥研發(fā)藍(lán)皮書
- 坍塌、垮塌事故專項(xiàng)應(yīng)急預(yù)案(3篇)
- 2024年融媒體中心事業(yè)單位考試工作人員另選錄用55人內(nèi)部選題庫及參考答案(研優(yōu)卷)
- 陜西省安康市2023-2024學(xué)年高一上學(xué)期期末考試 生物 含解析
- WPS Office辦公軟件應(yīng)用教學(xué)教案
- 2024年時(shí)政熱點(diǎn)知識競賽試卷及答案(共四套)
- 幼兒園后勤主任年終總結(jié)
評論
0/150
提交評論