版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
日日新,思無邪商湯大模型倫理原則與實踐白皮書商湯人工智能倫理與治理委員會人工智能倫理治理年度報告(2023)1商湯智能產業(yè)研究院、上海交通大學計算法學與
AI
倫理研究中心聯合出品目錄致大模型從業(yè)者的一封信:人類普適價值觀,驅動
AI倫理“三維對齊”
.............................................................................................................3【關于商湯】................................................................................................6【關于本報告】............................................................................................8一、生成式人工智能浪潮下的范式變革...............................................9二、生成式人工智能風險管理——一項緊迫的議程
......................11三、生成式人工智能治理原則——基于現實的考量
......................13四、生成式人工智能治理實踐——“商湯日日新
SenseNova”治理案例
...........................................................................................................18五、生成式人工智能治理基礎設施——商湯“SenseTrust”工具體系
....................................................................................................................24六、生成式人工智能治理的發(fā)展——避免陷入“失控的競賽”282致大模型從業(yè)者的一封信:人類普適價值觀,驅動
AI倫理“三維對齊”圖
1:
“三維對齊”科技倫理模式人類經濟文明之樹上“低垂的果實”已被采摘一空,新一代創(chuàng)新科技猶如“新的進化梯子”,幫助人類采摘到“更高的果實”。聯合國常務副秘書長阿明娜·穆罕默德女士在
2022
年聯合國可持續(xù)發(fā)展高級別政治論壇上說:“新冠疫情、沖突以及環(huán)境危機造成的挑戰(zhàn)已經影響到教育、醫(yī)療保健、性別平等以及經濟發(fā)展。她指出,2030年議程的時間表已經過半,但“我們還沒有完成一半的任務”。為此,全球需要在可再生能源、糧食體系和數字連接領域進行轉型,加快“人力資本投資,為機遇融資”的步伐,進而化危為機?!倍匀斯ぶ悄転榇淼男乱淮萍?,即能為人類持續(xù)提升環(huán)境治理能力,帶來新能源、新農業(yè)、新制造與新商業(yè),又能通過科技倫理在一定程度上彌補“數字鴻溝”,創(chuàng)造新興就業(yè)市場,實現各國經濟結構的轉型升級,3正如丘吉爾的名言:“決不要浪費一場好的危機(Never
waste
a
goodcrisis)”。人機對齊,以保障
AI任務目標與人類用戶意圖對齊、AI倫理與人類價值觀、社會風序良俗、法律政策對齊。麥肯錫全球研究院(McKinsey
Global
Institute)說,人工智能正在促進社會發(fā)生轉變,這種轉變比工業(yè)革命“發(fā)生的速度快
10
倍,規(guī)模大
300
倍,影響幾乎大
3000
倍。”為了保證
AI大模型產品全生命周期的人機對齊,應持續(xù)識別發(fā)現訓練數據集、應用場景的偏差風險,并設計風險內控檢查表與管理流程,并在
RLHF(基于人類反饋的增強學習)的測試、使用過程中,形成反饋閉環(huán),修正問題、增補風險項、完善高階倫理原則。正如人類的價值觀是經過歷史、文化、社會活動、產業(yè)革命逐步變化形成,從
AIGC到
AGI
的倫理秩序同樣需要持續(xù)改進與發(fā)展。人人對齊,是充分考慮世界不同種族文化差異、區(qū)域經濟差異、國家社會發(fā)展階段的不同,跨越文明形態(tài)、地緣分歧,形成普惠全人類的互相尊重、包容、理解的統(tǒng)一價值觀體系。哈佛大學教授塞繆爾?亨廷頓在《文明的沖突》一書中,根據歷史發(fā)展將世界分為八大文明板塊,分別擁有不同的文化價值觀。農業(yè)時代、工業(yè)時代、信息時代,人類價值觀的分歧長期存在、并變化演進,伴隨人工智能技術進入千行百業(yè)、擁有了數億用戶群體,跨洲際
AI2.0服務、跨國科研合作形成了很好的生態(tài)產業(yè)鏈、開放開源社群,急需一種普適全人類的價值觀指引。聯合國秘書長古特雷斯于
2021年
9月發(fā)布了《我們的4共同議程》報告,面向政府、聯合國系統(tǒng)、私營部門(含科技公司)、民間社會、基層組織、學術界和個人,提出《全球數字契約》,
該契約將成為“所有人共享開放、自由和安全的數字未來的共同原則”,涵蓋的領域包括:數字連接、避免互聯網碎片化、為人們提供將如何使用其數據的選擇、網絡人權,以及通過引入對歧視和誤導信息問責標準促進可靠的互聯網內容。該契約有望在
2024
年形成全球初步共識,并為人人對齊形成統(tǒng)一框架。人類、科技與環(huán)境對齊,為避免環(huán)境惡化、災難性氣候為人類帶來社會崩潰等惡劣影響,科技企業(yè)應注重并遵循環(huán)境倫理。1972年,羅馬俱樂部在《增長的極限》報告中提出:“一旦人口與經濟超越了地球的物理極限,那么只有兩條路可以返回正常:通過日益升級的短缺與危機而導致的非自愿崩潰;或者通過精心的社會選擇而帶來的生態(tài)足跡有控制的縮減?!辈㈩A測人類將在
21世紀因資源瓶頸、環(huán)境惡化等客觀因素帶來經濟衰退、社會崩潰等嚴重影響?;谌?/p>
ESG理念、碳達峰碳中和目標,AI產業(yè)鏈、科研機構、私營機構應肩負起環(huán)境生態(tài)保護、能源可持續(xù)發(fā)展的社會責任,重新思考在滿足了人類生存需求之后,人類該如何滿足地球家園環(huán)境的保護要求與自然資源良性開發(fā),為子孫后代留住流水青山。新興科技來自全人類,更應該造福全人類,所以對人類命運共同體負責、對全球環(huán)境負責的
AI倫理風控、AI治理機制,將成為大模型技術、生成式人工智能技術、通用人工智能技術的核心指引?!虦萍贾悄墚a業(yè)研究院院長
田豐5【關于商湯】作為行業(yè)領先的人工智能軟件公司,商湯集團以“堅持原創(chuàng),讓AI引領人類進步”為使命,“以人工智能實現物理世界和數字世界的連接,促進社會生產力可持續(xù)發(fā)展,并為人們帶來更好的虛實結合生活體驗”為愿景,旨在持續(xù)引領人工智能前沿研究,持續(xù)打造更具拓展性更普惠的人工智能軟件平臺,推動經濟、社會和人類的發(fā)展,并持續(xù)吸引及培養(yǎng)頂尖人才,共同塑造未來。商湯擁有深厚的學術積累,并長期投入于原創(chuàng)技術研究,不斷增強行業(yè)領先的全棧式人工智能能力,涵蓋感知智能、決策智能、智能內容生成和智能內容增強等關鍵技術領域,同時包含
AI芯片、AI傳感器及
AI
算力基礎設施在內的關鍵能力。此外,商湯前瞻性打造新型人工智能基礎設施——SenseCore
商湯
AI
大裝置,打通算力、算法和平臺,大幅降低人工智能生產要素價格,實現高效率、低成本、6規(guī)?;?/p>
AI
創(chuàng)新和落地,進而打通商業(yè)價值閉環(huán),解決長尾應用問題,推動人工智能進入工業(yè)化發(fā)展階段。商湯業(yè)務涵蓋智慧商業(yè)、智慧城市、智慧生活、智能汽車四大板塊,相關產品與解決方案深受客戶與合作伙伴好評。商湯堅持“平衡發(fā)展”的倫理觀,倡導“可持續(xù)發(fā)展、以人為本、技術可控”的倫理原則,實行嚴格的產品倫理風險審查機制,建設全面的
AI
倫理治理體系,并積極探索數據治理、算法治理相關的檢測工具和技術手段,致力于將倫理原則嵌入到產品設計、開發(fā)、部署的全生命周期,發(fā)展負責任且可評估的人工智能。目前,商湯集團(股票代碼:0020.HK)已于香港交易所主板掛牌上市。商湯現已在香港、上海、北京、深圳、成都、杭州、南平、青島、三亞、西安、臺北、澳門、京都、東京、新加坡、利雅得、阿布扎比、迪拜、吉隆坡、首爾等地設立辦公室。另外,商湯在泰國、印度尼西亞、菲律賓等國家均有業(yè)務。7【關于本報告】商湯集團(以下簡稱“商湯”、“公司”或“我們”)主動向社會公眾報告公司的人工智能倫理與治理情況,讓全社會了解、監(jiān)督商湯的人工智能倫理與治理工作。商湯面向社會各界發(fā)布人工智能倫理與治理報告,旨在通過及時披露商湯的人工智能倫理治理理念和實踐,促進商湯與利益相關方以及社會公眾之間的了解、溝通與互動,推動發(fā)展負責任且可評估的人工智能。作為商湯人工智能倫理與治理的年度報告,本報告于
2023
年
7月以中文版本率先發(fā)布,英文版本將另行擇期發(fā)布,如對本報告有任何建議和意見,請通過以下方式與商湯聯系:商湯
AI倫理與治理委員會:AImittee@8一、生成式人工智能浪潮下的范式變革2022
年,是人工智能發(fā)展歷程中極具里程碑意義的一年。以ChatGPT為代表的生成式人工智能工具迅速火爆全球,成為人類邁向通用人工智能(Artificial
General
Intelligence)時代的歷史性節(jié)點之一。ChatGPT基于
NLP基礎模型(NLP即自然語言處理),體現出跨知識領域、跨語種、多模態(tài)為特征的海量知識挖掘、人機自然交流,能實現撰寫代碼、回答問題、書寫論文、詩歌、劇本等指令,可以讓
AI生產力從重復性體力生產環(huán)節(jié)向認知和創(chuàng)造性生產環(huán)節(jié)延伸。上線僅兩個月,ChatGPT
活躍用戶便突破
1億大關,一舉成為人類科技史上消費者增長速度最快的應用程序。ChatGPT
這一現象級應用的成功,標志著人工智能正式進入以“基礎模型+微調”為主要特征的生產范式,推動人工智能進入
2.0階段。2012
年,后來被譽為“人工智能教父”的
Geoffrey
Hinton
帶領團隊憑借卷積神經網絡(Convolutional
Neural
Networks,
CNN)在ImageNet
的比賽中獲得冠軍,標志著機器的視覺識別能力能夠超越人眼識別準確率,開啟了人工智能工業(yè)化的進程。由此,人工智能開始走進一個個應用場景。這一階段,人工智能的生產范式屬于典型的“手工作坊”模式,即人工智能廠商需要針對每個細分場景開發(fā)專屬的模型,進而導致人工智能開發(fā)周期長,落地成本高,成為人工智能規(guī)模化應用亟待突破的制約。ChatGPT
等預訓練大模型應用的成功打破了“手工定制”的生產范式,通過“基礎模型+微調”的方式,使得一個基礎模型能夠快速適配海量的下游應用,為人工智能的規(guī)?;?地提供了一條可行的路徑。如果以生產模式的差異作為分界線,我們大致可以將
2022
年之前的人工智能發(fā)展階段定義為人工智能
1.0
階段(AI1.0
階段),將2022
年之后的人工智能發(fā)展階段定義為人工智能
2.0階段(AI2.0階段)。AI2.0
階段相比
AI1.0
階段有以下幾點顯著變化:一是任務類型由封閉場景轉向開放任務;二是數據處理模態(tài)由單一模態(tài)轉向多模態(tài);三是模型類型由判別式模型轉向生成式模型;四是生產模式由“手工作坊”轉向“基礎模型+微調”。圖
2:
人工智能領域的范式變革進入
AI2.0階段,人工智能生產范式的變革同樣引起了人工智能風險范式的轉變。具體來說,一方面任務場景的開放性導致風險的潛在邊界理論上被無限放大,風險來源防不勝防,而且風險評估標準更加難以界定;同時,跨模態(tài)數據交互能力的實現,在大幅降低
AI
工具應用門檻的同時,也使得
AI
濫用的風險呈指數上升。另一方面,10由于生產范式的轉變,基礎模型內含的風險也會隨著下游應用的規(guī)模推廣而被規(guī)?;瘮U散,風險的外溢性顯著提升
。此外,諸多安全機制的嵌入也會影響模型自身的表現,如何實現安全能力與模型性能之間的平衡,也成為業(yè)界持續(xù)面臨的巨大挑戰(zhàn)。二、生成式人工智能風險管理——一項緊迫的議程自
ChatGPT發(fā)布以來,全球主要國家、國際組織、企業(yè)和研究機構紛紛提出人工智能治理舉措和呼吁,強調加強人工智能風險管理,規(guī)范人工智能技術發(fā)展。圖
3:ChatGPT之后,全球
AI治理步伐加快一方面,各國政府加快推進人工智能相關政策制定步伐。2023年4月
3日,中國科技部發(fā)布《科技倫理審查辦法(試行)》(征求意見稿),提出涉及科技倫理敏感領域的,應設立科技倫理(審查)委員會,并建立倫理高風險科技活動的清單制度,對可能產生較大倫理風險挑戰(zhàn)的新興科技活動實施清單管理。4
月
11
日,中國網信辦發(fā)布11《生成式人工智能服務管理辦法(征求意見稿)》,旨在對生成式人工智能帶來的風險做出及時應對。5
月
13
日,美國白宮總統(tǒng)科技顧問委員會(PCAST)成立生成式人工智能工作組,以幫助評估關鍵機遇和風險,并就如何更好地確保這些技術的開發(fā)和部署盡可能公平、負責任和安全提供意見。5月
16日,美國國會召開聽證會,OpenAI
CEOSam
Altman應邀出席,討論
“AI
監(jiān)管:人工智能的規(guī)則”,并建議政府組建新機構、創(chuàng)建安全標準和指派第三方專家對
AI
系統(tǒng)進行審計等。5月
16日,法國
CNIL發(fā)布行動計劃,提出審計和監(jiān)控人工智能系統(tǒng)。5
月
20日,G7領導人表示,“需要立即評估生成式人工智能技術的機會和挑戰(zhàn)”,同意對人工智能采取“基于風險”的監(jiān)管。日本政府召開“AI戰(zhàn)略會議”,討論制定人工智能使用規(guī)則。6月
1日,澳大利亞官員表示,正計劃加強對人工智能的監(jiān)管,包括可能禁止深度造假和看似過于真實的虛假內容。6月
6日,國務院辦公廳發(fā)布《國務院
2023年度立法工作計劃》顯示,《人工智能法》已列入立法計劃,草案預備年內提請全國人大審議。6月
14日,歐洲議會投票通過《人工智能法案》,標志著該法案朝著成為法律邁出關鍵一步;其中,法案增加了對生成式人工智能工具提出新的透明度要求。與此同時,聯合國教科文組織呼吁各國應立即實施全球倫理框架,以應對人工智能挑戰(zhàn)。世界衛(wèi)生組織(WHO)也呼吁謹慎使用人工智能生成的大型語言模型工具。另一方面,業(yè)界積極呼吁加強人工智能監(jiān)管。2023
年
3
月,特斯拉首席執(zhí)行官埃隆·馬斯克(Elon
Musk)、蘋果聯合創(chuàng)始人史蒂12夫·沃茲尼亞克(Steve
Wozniak)以及其他上千名
AI研究人員日前簽署公開信,呼吁暫停研究比
GPT-4更先進的
AI
技術。由微軟等企業(yè)發(fā)起的商業(yè)軟件聯盟(BSA)公開發(fā)文,呼吁在國家隱私立法基礎上制定管理人工智能使用的規(guī)則。同時,包括
OpenAI
在內的企業(yè)管理者認為需要建立國際人工智能監(jiān)管機構,并且要盡快建立起來。對此,聯合國秘書長安東尼奧·古特雷斯明確表示支持,并提出,計劃在今年年底建立一個國際人工智能監(jiān)管機構,定期審查人工智能治理工作,并對如何與人權、法治和公共利益保持一致提出建議。英國首相里?!ぬK納克也對此積極回應,并表示希望英國成為全球人工智能安全監(jiān)管的發(fā)源地。非營利組織人工智能安全中心呼吁將減輕人工智能帶來的滅絕風險作為全球優(yōu)先事項推進??傮w來看,以生成式人工智能治理為焦點的人工智能治理已經成為一項全球共同的緊迫議程。與一般性技術風險相比,生成式人工智能是一種能力強大、影響深遠的變革性技術,并且許多潛在風險和問題的嚴重性已經需要引起足夠重視。三、生成式人工智能治理原則——基于現實的考量當前,生成式
AI
正處于規(guī)?;涞氐奶剿髌?,全球創(chuàng)新創(chuàng)業(yè)活躍、市場日新月異。然而,隨著生成式人工智能的應用持續(xù)推進,一些具有現實意義的風險挑戰(zhàn)也陸續(xù)顯現,比如:?
“幻覺”現象,即一本正經的胡說八道,比如生成不真實存在的內容,已成為生成式人工智能應用進一步發(fā)展面臨的重13點問題。?
數據投毒風險,即通過對訓練數據加入惡意數據的方式,在模型中植入后門,并通過特定輸入觸發(fā)后門,使模型輸出錯誤的結果。?
混淆攻擊風險,即通過輸入邏輯混淆的問題,使模型在回答時出現邏輯混亂。?
誘導攻擊風險,即通過情景對話、思維鏈引導等方式,繞過模型內置安全機制,進而使模型輸出危險內容。?
數據泄露風險,即通過特定的輸入,誘導大模型輸出訓練數據集中個人身份識別信息、商業(yè)秘密等敏感數據。?
用于網絡詐騙和網絡攻擊等不法目的,不法分子可能利用自動生成詐騙話術、虛假語音、合成“虛擬角色”等實施電信詐騙。同時,ChatGPT等工具降低攻擊者的技術門檻。有機構表示,ChatGPT
將為網絡釣魚、虛假信息和網絡犯罪提供便利。?
版權保護、就業(yè)替代等社會性風險,例如,AI
利用
32
張圖片便成功習得迪士尼畫師的風格,以及好萊塢編劇抗議
AI創(chuàng)作工具使其喪失就業(yè)機會等。14面對上述現實挑戰(zhàn),我們結合自身實踐,認為生成式人工智能治理應當重點關注以下幾項原則:圖
4:生成式人工智能治理的核心原則?
保障數據質量和隱私安全生成式人工智能需要大量的數據進行學習,然而,數據可能存在質量問題,例如數據缺失、數據噪聲、數據偏見等。此外,數據獲取也可能存在法律和道德問題,例如隱私泄露等。因此,為了確保生成式人工智能的質量和可靠性,我們建議采取以下治理措施:一是保障數據質量。應通過數據清洗、數據標注、數據增強等方式,確保用于訓練生成式人工智能的數據是高質量、全面且準確的。二是保護數據安全與個人隱私。應通過加密技術、訪問控制等技術方法,保護隱私數據、商業(yè)秘密,并確保隱私數據的使用合規(guī)、合乎道德規(guī)范。15?
防止虛假信息和不良內容生成式人工智能可以生成類似人類創(chuàng)作的虛假信息、不良內容等,這些信息可能誤導公眾或造成不良影響,并且也會對后續(xù)模型的優(yōu)化訓練帶來潛在危害。因此,我們建議采取以下治理措施:一是審核和動態(tài)監(jiān)測。應當建立健全生成內容質量評估體系和審核機制,對生成的內容進行審核和動態(tài)監(jiān)測,確保其符合事實或預期。二是識別虛假信息。應當采用技術手段和人工力量,例如通過訓練模型、建立審核團隊等方式,對生成的信息進行虛假識別和過濾。?
尊重版權和知識產權生成式人工智能可以生成類似人類創(chuàng)作的作品,例如音樂、圖片、文本等,這些作品可能會涉及到版權問題。因此,我們
建議采取以下治理措施:一是加強版權保護。通過利用數字水印等相關技術,加強內容版權保護能力建設,保護生成作品的版權權益,并為版權溯源提供技術支撐。二是建立許可和授權機制。對于生成的作品,應建立使用許可和授權機制,確保其符合知識產權法律和道德規(guī)范。?
保障系統(tǒng)安全和魯棒生成式人工智能的應用會涉及處理大量敏感數據和任務,因此,確保人工智能系統(tǒng)的安全和魯棒至關重要。為此,我們建議采取以下治理措施:一是提升安全性。通過加強訪問控制、加密通信、增量學習等方16式,建立完善的安全保障機制,保障生成式人工智能算法和系統(tǒng)的安全性。二是提升魯棒性和可靠性。通過容錯機制、增量學習等方式,保證生成式人工智能的穩(wěn)定性和可靠性,并建立健全監(jiān)測和告警機制,及時發(fā)現和處理風險事件。?
增強可解釋性和透明性生成式人工智能的算法模型結構復雜、參數龐大,因此,天然的具有黑盒屬性。這可能導致人們對生成式人工智能的結果和決策產生疑慮和不信任。因此,我們建議采取以下治理措施:一是提升可解釋性。應通過設計更可解釋的算法、可視化模型結構等方式使生成式人工智能的算法和模型更易于理解。二是提升透明性。生成式人工智能的決策和結果應該透明、公開,例如通過記錄模型訓練和生成的日志、提供用戶反饋機制等方式,讓相關方能夠了解其原理和過程。?
合乎道德倫理對于生成式人工智能的應用涉及到的偏見、歧視等道德和倫理問題,我們建議采取以下治理措施:一是制定符合道德和倫理準則。制定道德和倫理準則,并通過建立倫理委員會和倫理審查機制等方式,規(guī)范生成式人工智能的研究和應用行為。二是確保公平、公正。應當通過采取數據集偏見評估、標注人員管理、數據增強、公平性學習等方式,確保生成式人工智能算法和系17統(tǒng)的公平和公正性,避免偏見和歧視。?
加強可問責性考慮生成式人工智能具有的強大創(chuàng)造力,以及可能會參與輔助決策等相關場景,強化可問責性對于保障其可持續(xù)發(fā)展至關重要。因此,我們建議采取以下治理舉措:一是建立版本管理體系。應當建立健全模型版本管理,完整記錄版本迭代信息,并持續(xù)進行跟蹤監(jiān)測和記錄。二是建立問責機制。應當健全產品全生命周期責任主體管理。對產品開發(fā)、測試、部署過程中相關的負責方進行記錄
,并通過數字水印等溯源技術,實現對文本、圖片、代碼、音頻等數據責任方的溯源。四、生成式人工智能治理實踐——“商湯日日新
SenseNova”治理案例2019
年,商湯在大模型領域和人工智能治理領域的工作同步啟動。通過四年的持續(xù)努力,我們成功訓練出全球規(guī)模最大的視覺大模型,并基于視覺大模型及多模態(tài)大模型的研發(fā)模式及技術積累,遷移到
NLP領域的研發(fā),完成了商湯自主研發(fā)的
NLP中文大語言模型的訓練和集成開發(fā)。我們在人工智能治理領域同樣獲得了多項重磅認可:?
首份《AI可持續(xù)發(fā)展白皮書》獲得聯合國《人工智能戰(zhàn)略資源指南》收錄;?
獲邀
加
入
新
加
坡
“
人
工智
能
驗證
基
金會
”
(AI
VerifyFoundation),積極推動可信
AI生態(tài)建設,樹立具有國際社會18影響力的
AI治理實踐標桿;?
榮獲隱私信息管理體系認證全部三項認證,并獲評中國人工智能產業(yè)發(fā)展聯盟(AIIA)頒發(fā)的“可信
AI
2022年突出貢獻企業(yè)”。2023年
4月
10日,我們正式推出“商湯日日新
SenseNova”大模型體系,為行業(yè)提供自然語言處理、內容生成、自動化數據標注、自定義模型訓練等多種大模型及能力。在“商湯日日新
SenseNova”大模型體系下,我們打造了商湯自研中文自然語言處理大模型應用“商量
SenseChat”,以及“秒畫
SenseMirage”文生圖創(chuàng)作平臺、“如影SenseAvatar”AI數字人視頻生成平臺、“瓊宇SenseSpace”和“格物
SenseThings”3D
內容生成平臺。圖
5:“商湯日日新
SenseNova”大模型體系針對“商湯日日新
SenseNova”大模型體系,我們在傳統(tǒng)“判別式模型”治理經驗的基礎上,結合生成式人工智能的風險特點,從數據、模型、內容三個層面初步構建起安全、可信的大模型治理“防護網
”。19在數據層面,我們通過數據合規(guī)審查機制和嚴格的數據篩選及標注的業(yè)務邏輯,確保模型訓練數據準確、合法、合規(guī),并遵循相應的使用許可和版權規(guī)定。?
在數據采集環(huán)節(jié),我們建立了數據采集來源管理、數據采集業(yè)務評估、數據采集審批流程、采集合規(guī)審批等管理機制,確保數據采集的合規(guī)性、正當性和執(zhí)行上的一致性。?
在數據預處理環(huán)節(jié),我們對收集到的原始數據進行清洗、去重、格式化等多步驟的預處理,以確保數據質量。并且,在此過程,我們會嚴格篩查,去除那些不完整、錯誤、帶毒或含有敏感信息的數據。?
在數據標注和篩選環(huán)節(jié),我們通過自動化工具和人工相結合的方式,對預處理后的數據進行標注和篩選,以識別訓練數據中是否包含敏感信息。此外,我們通過構建敏感內容反饋機制,利用內容生成本身特性,通過復用敏感內容的生成條件,豐富敏感鑒別模型的訓練樣本,持續(xù)提升模型性能。?
在個人信息保護方面,“商湯日日新
SenseNova”大模型系列應用從設計、編碼、測試、交付等階段均設有個人信息保護的審核節(jié)點,對個人信息處理情況進行必要的檢查,并嚴格按照法規(guī)規(guī)范要求實施個人信息保護。同時,我們根據
GB/T35273-2020《信息安全技術個人信息安全規(guī)范》進行了全面的自評估對照、為指導并結合產品自身的技術特點及業(yè)務實現邏輯,將個人信息保護能力融入產品基本功能并面向最終20用戶開放。在模型層面,我們通過建構大規(guī)模測試數據集以及人工對抗測試的方式,對“商湯日日新
SenseNova”
大模型體系中的全部應用開展了系統(tǒng)的風險評估評測。?
在商湯自研中文自然語言處理大模型應用“
商湯
商量SenseChat”的評測過程中,我們重點對其準確性、魯棒性、安全性和隱私性進行了測試評估。在準確性測試中,我們采用人工打分標注的形式,從整體評價、相關性、可讀性、擬人性、專業(yè)性等五個指標對文本生成質量的進行評價;并從生成內容事實性錯誤,生成內容邏輯性錯誤,生成內容和問題相關性錯誤等三個方面對文本生成準確性進行評價。在魯棒性測試中,我們通過同義替換、無關提示、引導性提示等方式,對生成內容的一致性、穩(wěn)定性進行評價。在安全性測試中,我們通過引導性提示的方式對模型在政治敏感性和倫理敏感性兩個方面的表現進行評測。在隱私測試中,我們采用引導性提示誘導模型輸出隱私敏感信息。?
在“商湯秒畫
SenseMirage”文生圖創(chuàng)作平臺的評測過程中,我們重點對其準確性、魯棒性、安全性和隱私性進行了測試評估。在準確性測試中,我們采用了
MS
COCO、clip-g/14等公開數據集對生成圖片質量,以及圖文匹配度進行了評測。在魯棒性測試中,我們采用人工評價的方式,對模型在無語義意義的文本以及超長文本情景下的生成圖像質量進行評估。21在安全性測試中,我們通過測試數據集,向模型提供政治敏感性和倫理敏感性輸入,并基于模型的輸出結果進行評估。在隱私測試中,我們使用訓練數據的提示詞進行輸出查重的方式進行評估。?
在“商湯如影
SenseAvatar”AI
數字人視頻生成平臺的評測過程中,我們重點對其準確性、魯棒性和隱私性進行了測試評估。在準確性測試中,我們主要對關鍵表情匹配率以及嘴型幅度準確率兩項關鍵指標做了測試評估。其中,關鍵表情匹配率指在測試音視頻中如閉嘴、張嘴、嘟嘴等表情是否能在準確的時間點做出;嘴型幅度準確率指在全部測試音視頻時間幀中預測的張嘴上下幅度、左右幅度、嘟嘴幅度是否與GT一致。在魯棒性測試中,我們主要從模型對語速、音量大小、口音方言、語種等聲音方面的魯棒性,對環(huán)境噪聲的魯棒性,對輸入畫面的魯棒性,以及對采集工具等設備的魯棒性四個方面進行評測。在隱私安全性測試中,我們主要對其算法處理安全性,以及數據采集、傳輸、存儲等方面的保密性做了評估。?在“商湯瓊宇
SenseSpace”3D
內容生成平臺的評測過程中,我們重點對其準確性、魯棒性、安全性進行了測試評估。在準確性測試中,我們基于自采集數據集,對其場景的重建效果、清晰度和精度進行測試。在魯棒性測試中,我們主要從場景重建的成功率、不同分辨率圖像的重建質量影響、場景22中移動任務的干擾以及不同設備的渲染性能等維度進行了測評。在安全性測試中,我們主要考察了其對數據的加密和保護,以及對隱私場景的處理編輯能力。?
在對“商湯格物
SenseThings”3D
內容生成平臺的評測過程中,我們重點對其準確性、魯棒性、安全性進行了測試評估。在準確性測試中,我們基于自采集數據集,主要從重建效果的逼真性和清晰度兩個方向進行了測評。在魯棒性測試中,我們主要從重建物體成功率進行了測評。在安全性測試中,我們主要考察了模型對政治敏感性和倫理敏感性輸入的合理應對能力。在上述評估中,“商湯日日新
SenseNova”大模型體系整體表現出與全球主要可比模型較為出色的風險應對能力。同時,出于安全考慮,我們將采取定向提供的方式披露相關評估結果。通過上述評估測試,我們對“商湯日日新
SenseNova”大模型體系的風險邊界有了比較清晰的認識,并將相關測試結果反饋于模型強化學習的過程之中,幫助我們進一步提升模型風險防御能力。目前,相關模型體系仍處于邀約測試階段,我們也將開展持續(xù)的跟蹤測試,不斷提升風險防御能力。在內容層面,我們針對文本生成、圖像生成、音頻生成、視頻生成等不同場景,建構了一套由深度學習算法驅動為核心的內容過濾工具,并通過自動化與人工相結合的方式對產品輸入、輸出的內容進行審核,確保生成內容的合規(guī)性與合乎倫理性。同時,以顯式標記方式23告知用戶該內容為利用深度合成技術生成或編輯得到的,并通過明確標記的方式有效告知合成內容,其中標識信息包括生成模型的信息、信息服務信息、合成標示;此外,我們還建立了模型版本管理機制,并結合商湯自研的數字水印技術對生成的文本、圖像,代碼以及音視頻內容進行溯源管理,系統(tǒng)提升“商湯日日新
SenseNova”大模型體系的可問責性。我們通過將傳統(tǒng)頻域技術以及深度學習技術相結合的水印算法將隱藏信息抽象為任意二進制信息流,嵌入到圖片等多模態(tài)數據當中,在不對生成內容產生任何可感知影響的情況下,實現對生成內容的確權、溯源。五、生成式人工智能治理基礎設施——商湯“SenseTrust”工具體系面對
AI2.0階段的風險挑戰(zhàn),加強全行業(yè)、全社會的人工智能風險治理能力已成為全球各方亟待解決的緊迫命題?;仡櫲祟惪萍及l(fā)展史,我們從“保險絲”的發(fā)明中獲得了啟示。保險絲的存在能夠避免因電流異常導致的電器損害;或許
人工智能走進千行百業(yè)也需要具備類似的“安全裝置”。而這類安全裝置,我們認為,其實就是覆蓋數據處理、模型訓練、模型部署,以及推理服務等
AI系統(tǒng)全生命周期的治理工具。因此,我們正式推出“SenseTrust”——商湯可信人工智能基礎設施,并將持續(xù)通過“商湯
AI安全治理開放平臺”等多種形式,為行業(yè)提供
AI治理公益技術服務,推動建設安全可信的人工智能產業(yè)生態(tài)。具體來看:24圖
6:
“SenseTrust”——商湯可信
AI基礎設施在數據層面,商湯“SenseTrust”能夠提供從數據脫敏、數據去毒、數據合規(guī)審查及偏見評估等治理工具。我們的敏感信息脫敏工具,能夠面向活體檢測、車牌檢測、文字文檔信息檢測等廣泛應用場景,提供高水平的數據脫敏技術,并且具備接口靈活,平臺覆蓋面廣,支持實時脫敏等優(yōu)勢。數據脫敏模塊對涉及個人信息的敏感數據提供數據脫敏服務。數據脫敏的范圍包括但不限于生物特征數據,自動駕駛場景的敏感數據等。數據脫敏服務還可根據實際業(yè)務需求實現是否具備重標識的能力,在特定場景下可還原已去標識化的敏感數據。我們的數據祛毒工具能夠在數據預處理環(huán)節(jié)對訓練數據進行帶毒性檢測,判定數據是否存在異常,接著進行毒性判定,并根據投毒類別做不同的祛毒方案,同時進行溯源調查。此外,面向數據要素可信流通,我們創(chuàng)新打造了“數據沙箱”工具。通過沙箱包裝后,結合隱私計算集群協(xié)同調度,實現數據可用不可見,在保證數據隱私安全的前期下實現數據價值轉化,促進數據要素流程利用。目前數據沙箱可面向兩個應用場景:一是多用戶擁有不25同場景分布的數據,提供聯合訓練方案,并且具有攜帶離線模型可以完成不泄露數據的反演;二是針對用戶端擁有大量數據的場景,可使用數據加密訓練方案,可以在保護隱私的前提下完成數據回流。在模型層面,商湯“SenseTrust”基于自研的模型體檢系列平臺,能夠針對傳統(tǒng)“小模型”、生成式“大模型”,以及基礎模型提供標準化和定制化的模型評測能力。我們針對傳統(tǒng)“小模型”開發(fā)的模型體檢平臺,能夠面向活體識別、圖像分類、目標檢測等商業(yè)化需求提供一鍵式評測,用戶只需提供模型和評測數據即可進行。目前已在商湯的大量商業(yè)化模型檢測方面獲得驗證。模型體檢內容包括對抗安全、魯棒安全、后門安全、可解釋性和公平性評測。同時,我們針對生成式“大模型”和基礎模型測評建構了百萬體量的測試數據集,能夠實現對大模型的倫理屬性、安全屬性,以及模型能力的評測評估。針對模型體檢出的問題,商湯“SenseTrust”還能夠進一步提供模型加固解決方案,主要包括魯棒性訓練和
AI
防火墻兩個部分。魯棒性訓練模塊可以在不損失精度的情況下強化模型的安全性和魯棒性,當前主要包括對抗訓練和針對性的數據增強。魯棒性訓練模塊是模型開發(fā)的代碼插件,已融入商湯目前的模型開發(fā)流程。AI
防火墻模塊主要用于過濾可疑攻擊樣本,可以在不重新訓練模型的情況下提升模型部署的安全性。當前
AI
防火墻可以有效抵御主流的黑盒攻擊和物理攻擊方式。AI
防火墻和部署的質量模型相結合,在提升安全的同時不引入格外的計算開銷。在應用層面,我們在涉及數據保護、數字取證及偽造檢測等技術26領域有著深厚的積累,并逐步開發(fā)了基于生成、鑒偽和溯源三位一體的綜合解決方案。在深偽鑒別方面,商湯“SenseTrust”提供包括數十種先進攻擊手段的偽造生成平臺,為鑒偽檢測和溯源提供豐富多樣的攻擊案例和海量數據支持。并可通過持續(xù)集成先進偽造算法,在
zero/few-shot場景下快速響應難例樣本和長尾類型,幫助提升鑒偽算法的泛化性。商湯“SenseTrust”偽造檢測大模型,可充分利用面部表情一致性、動作序列連貫性,并結合頻譜、聲音和文字等多模態(tài)信息,準確鑒別包括
PS、換臉、活化以及各種先進擴散模型(如:Stable
Diffusion)合成的高清人像。主流評測數據集上算法檢測精度可達到
99%以上,在應對新技術復合偽造方法上(如:通過
MidJourney),檢測能力也高出行業(yè)同類產品
20%以上。同時,我們通過自研基于解耦-重建的偽造檢測算法,能夠從偽造數據中分離出真實內容及偽影痕跡。在針對
10
余種主流偽造算法溯源上,準確率超過
90%,同時還可給出數據中的相關偽造痕跡,提高檢測算法的可解釋性和可信度。這一技術為行業(yè)首創(chuàng),并作為數字取證技術成功落地司法領域。目前,商湯“SenseTrust”綜合鑒偽解決方案已投入實戰(zhàn),為十余家銀行的安全系統(tǒng)提供服務,對各類灰黑產攻擊攔截成功率超行業(yè)同類產品
20%以上,有效防范了灰黑產身份盜取、支付盜刷等網絡詐騙。此外,針對當前各方關注的
AIGC
相關確權溯源和內容保護問題,商湯“SenseTrust”具備數字水印解決方案。商湯數字水印結合頻域分27析、深度學習、擴散模型等技術,將特定信息嵌入到數字載體中,同時不影響載體的使用價值,也不易被人的知覺系統(tǒng)察覺,只有通過特定的解碼器和專屬密鑰才能提取,可實現篡改內容的檢測且水印不可竊取。數字水印技術可在
AIGC
相關產品發(fā)布時加入,能夠有效增強深偽檢測的可靠性,甚至進一步影響生成效果,從源頭上遏制深度偽造,實現主動防御。具體應用中,商湯數字水印技術可用于版權保護,防偽溯源等場景,支持圖像、視頻、音頻、文本等各種模態(tài)的數字載體,在不同程度的干擾下(裁剪、壓縮等)能保證
99%+的水印提取精度,且不影響數據本身質量(如高清圖畫質),在保證水印信息容量大(256位)以及安全性(通過密鑰加密)的同時具備足夠的隱蔽性以及魯棒性。目前,我們的數字水印技術已服務于“商湯秒畫
SenseMirage”、“商湯如影SenseAvatar”等多個產品,以及內容創(chuàng)作、大數據客戶。六、生成式人工智能治理的發(fā)展——避免陷入“失控的競賽”2023年
3月,非營利性組織“生命未來研究所”(Future
of
LifeInstitute,FLI)發(fā)布公開信,信中指出,當前,全球領先的人工智能實驗室正處于一場失控的競賽之中,并呼吁暫停巨型
AI
實驗。公開信一經公布,便引起全球各方廣泛關注和激烈討論,Elon
Musk、Yoshua
Bengio、Steve
Wozniak、Emad
Mostaque
等學術和行業(yè)領軍人士紛紛簽署表達支持。FLI官方網站公布的數據顯示,截至
2023年
7月
7日,全球已有
33000余人署名支持該倡議。28事實上,過去十年,人工智能領域一直處于兩種持續(xù)加速,并且總體良性的“競賽”之中。一種是技術方法上的“競賽”,另外一種則是治理路徑上的“競賽”。每一次技術賽道上取得的突破都會推動一次治理“競賽”的加速。例如,2016年
3月,DeepMind
開發(fā)的
AlphaGo在圍棋比賽中戰(zhàn)勝韓國棋手李世石,成為第一個戰(zhàn)勝圍棋世界冠軍的人工智能系統(tǒng),引發(fā)各方對人機關系的深層審視。同年
5月,歐盟便
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《珠寶玉石教程》課件
- 車輛租賃協(xié)議三篇
- 人力資源行業(yè)員工福利顧問工作總結
- 2003年海南高考語文真題及答案
- 水利行業(yè)的保安工作總結
- 2023-2024年企業(yè)主要負責人安全培訓考試題附答案【培優(yōu)】
- 2023年-2024年項目部安全培訓考試題【易錯題】
- 1000字的貧困申請書范文5篇
- 開題答辯概覽
- 電灼傷護理查房
- GB/T 45014-2024聚合物基復合材料層壓板緊固件拉脫阻抗試驗方法
- 傳播學(東北林業(yè)大學)知到智慧樹章節(jié)答案
- 2024年安全員之A證考試題庫及完整答案(網校專用)
- 統(tǒng)編版2024-2025學年三年級上冊語文期末情景測試卷 (無答案)
- 績效考核辦法1
- 【MOOC】外科護理學-中山大學 中國大學慕課MOOC答案
- 年度學校辦公室工作總結
- 2025版國家開放大學法律事務專科《民法學(2)》期末紙質考試總題庫
- 【MOOC】思辨式英文寫作-南開大學 中國大學慕課MOOC答案
- 生物人教版(2024版)生物七年級上冊復習材料
- 企業(yè)地震應急預案管理方案
評論
0/150
提交評論