T-CECC 027-2024 生成式人工智能數(shù)據(jù)應(yīng)用合規(guī)指南_第1頁
T-CECC 027-2024 生成式人工智能數(shù)據(jù)應(yīng)用合規(guī)指南_第2頁
T-CECC 027-2024 生成式人工智能數(shù)據(jù)應(yīng)用合規(guī)指南_第3頁
T-CECC 027-2024 生成式人工智能數(shù)據(jù)應(yīng)用合規(guī)指南_第4頁
T-CECC 027-2024 生成式人工智能數(shù)據(jù)應(yīng)用合規(guī)指南_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

ICS03.100.01CCSA00T/CECC027-2024生成式人工智能數(shù)據(jù)應(yīng)用合規(guī)指南ComplianceGuidelinesforDataApplicationofGenerativeArtificialIntelligence中國電子商會發(fā)布IT/CECC027-2024前言 III IV 2規(guī)范性引用文件 3術(shù)語和定義 4合規(guī)原則 35數(shù)據(jù)采集合規(guī)要求 35.1合規(guī)性審查 35.2采集方式 45.3特定數(shù)據(jù) 46數(shù)據(jù)標(biāo)注合規(guī)要求 56.1標(biāo)注規(guī)則的制定 56.2數(shù)據(jù)標(biāo)注質(zhì)量評估 56.3標(biāo)注人員的資質(zhì)、培訓(xùn)、考核及管理 57訓(xùn)練數(shù)據(jù)的預(yù)處理合規(guī)要求 57.1提高訓(xùn)練數(shù)據(jù)質(zhì)量 57.2通過合成技術(shù)進(jìn)行數(shù)據(jù)增強(qiáng) 68模型訓(xùn)練與測試合規(guī)要求 68.1模型訓(xùn)練 68.2模型測試 79內(nèi)容生成服務(wù)合規(guī)要求 79.1使用者盡責(zé)義務(wù)的告知 79.2生成內(nèi)容的審核 79.3生成內(nèi)容的標(biāo)識 79.4生成內(nèi)容的異議審查機(jī)制 79.5使用者信息保護(hù) 79.6被侵權(quán)人維權(quán)支持 810其他數(shù)據(jù)應(yīng)用合規(guī)要求 810.1數(shù)據(jù)安全保護(hù) 8 810.3數(shù)據(jù)刪除 8 810.5s算法備案與安全評估 8參考文獻(xiàn) 10T/CECC027-2024本文件按照GB/T1.1—2020《標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起草。本文件由國家工業(yè)信息安全發(fā)展研究中心牽頭,由北京之合網(wǎng)絡(luò)科技有限公司負(fù)責(zé)組織,由中國電子商會歸口。本文件起草單位:國家工業(yè)信息安全發(fā)展研究中心、天翼云科技有限公司、海爾集團(tuán)公司法律事務(wù)部、蔚來控股有限公司、解放號網(wǎng)絡(luò)科技有限公司、三七互娛網(wǎng)絡(luò)科技集團(tuán)股份有限公司、北京市盈科律師事務(wù)所、北京市康達(dá)律師事務(wù)所、聯(lián)想(北京)有限公司、廣州華多網(wǎng)絡(luò)科技有限公司、中移數(shù)智科技有限公司、九度數(shù)字科技(蘇州)有限公司、上海邦信陽律師事務(wù)所、上海拉扎斯信息科技有限公司、上海秘塔網(wǎng)絡(luò)科技有限公司、上海健交科技服務(wù)有限責(zé)任公司、上海寬娛數(shù)碼科技有限公司、上海得帆信息技術(shù)有限公司、上海商湯科技開發(fā)有限公司、上海澄明則正律師事務(wù)所、上海中聯(lián)律師事務(wù)所、上海之合網(wǎng)絡(luò)科技有限公司、上海之愛智能科技有限公司、上海律行教育科技有限公司、上海愛奇求思教育科技有限公司、天津東方律師事務(wù)所、天津律云律師事務(wù)所、日日順新能源科技有限公司、中國汽車工程研究院股份有限公司、中國科學(xué)院計算機(jī)網(wǎng)絡(luò)信息中心、中電金信軟件有限公司、中電信數(shù)智科技有限公司、中譯語通科技股份有限公司、中國電子商會數(shù)據(jù)要素發(fā)展工作委員會、中國中小企業(yè)協(xié)會企業(yè)合規(guī)專業(yè)委員會、中國電子商會人工智能委員會、中國科學(xué)技術(shù)法學(xué)會人工智能法專業(yè)委員會、中瑞世聯(lián)資產(chǎn)評估集團(tuán)有限公司、平安科技(深圳)有限公司、北京大學(xué)武漢人工智能研究院、北京世寧律師事務(wù)所、北京市中倫文德律師事務(wù)所、北京市銘基律師事務(wù)所、北京遠(yuǎn)景視點(diǎn)科技有限公司、北京信工博特智能科技有限公司、北京桓潤律師事務(wù)所、北京之合網(wǎng)絡(luò)科技有限公司、北京汼頓子敬信息技術(shù)有限公司、絲芙蘭Sephora、西安電子科技大學(xué)、江西火眼智能科技有限公司、江西電信信息產(chǎn)業(yè)有限公司、江蘇品川律師事務(wù)所、江蘇智倫數(shù)字技術(shù)研究有限公司、江蘇數(shù)智碳鏈科技有限公司、阿里巴巴(北京)軟件服務(wù)有限公司、武漢光谷知識產(chǎn)權(quán)研究院有限公司、青島海爾生物醫(yī)療股份有限公司、英矽智能科技(上海)有限公司、杭州小影創(chuàng)新科技股份有限公司、棗莊市網(wǎng)絡(luò)社會組織聯(lián)合會、金杜律師事務(wù)所、鄭州鄭大信息技術(shù)有限公司、陜西豐瑞律師事務(wù)所、螞蟻科技集團(tuán)股份有限公司、香港浸會大學(xué)深圳研究院、美年大健康產(chǎn)業(yè)控股股份有限公司、浙江天冊律師事務(wù)所、浙江深服人工智能科技有限公司、清圖數(shù)據(jù)科技(南京)有限公司、深圳市木愚科技有限公司、廈門立馬耀網(wǎng)絡(luò)科技有限公司、新汽有限公司、睿珀智能科技有限公司。本文件主要起草人:張穹、張平、方懿、邱惠君、李衛(wèi)、劉巍、楊柳、馮立鸚、陳立彤、李丹一、朱倩倩、洪紹泉、洪祖運(yùn)、洪鈞、劉啟銘、蔡江天、常國珍、陳府申、陳晗、陳華平、陳煥、陳杰、陳良斌、陳夢園、陳乾、陳向娟、陳怡、陳宇峰、戴學(xué)良、戴亦斌、鄧超麟、鄧志福、鄧梓珊、刁成路、丁丁、丁亮、董格瑪、董皓、董瀟、杜娟、杜歆、杜雨、馮超、馮斐斐、馮祥宸、傅臨黎、高輝、葛昌金、宮蕾、龔琳、郭嘉琦、郭蛟、郭璐璐、韓劍、韓琳、韓笑、郝成金、何念寒、何源泉、何媛、何昭敏、侯廣、侯小菊、胡峰、胡家昊、胡俊勇、胡若玫、胡校溟、胡巖、黃凱、黃元忠、紀(jì)海良、賈穎、江海、姜婷、姜欣、蔣薇、蔣瀟君、晉銀濤、孔真琦、郎婷、李華、李輝、李健青、李珂、李林育、李謙、李嶸輝、李新華、李陽、李音瑤、李永鋒、李悅、李澤芳、李長青、李哲、連艷、梁智剛、廖懷學(xué)、林安雯、劉朝、劉誠誠、劉豐、劉格言、劉驥、劉劍鋒、劉敬霞、劉鵬、劉泊辰、劉瑞、劉欣、劉興、劉艷陽、劉永和、龍懷春、盧丁、陸瑾、陸雨辰、羅潔、呂仁平、呂亞妹、馬海曼、馬曉艷、孟戈弋、聶正軍、歐陽昆潑、潘永建、潘云龍、彭天基、彭曉燕、齊斌、祁彥諭、喬佳平、譙青青、邱夢赟、邱媛春、曲峰、屈文靜、任潔、阮芳洋、沙俊、沙沫、單思楊、時蕭楠、宋冰心、宋皓、宋俊、宋天一、孫晨荻、孫雪菲、譚潔、湯子歐、唐簡捷、唐淑萍、陶毓、田莉、田茂君、朱炤沁、汪漢鴻、王斌、王彩琴、王崠、王芳、王菲、王斐、王涵、王皓、王劍鋒、王捷、王菁煜、王君、王立群、王麗娜、王龍海、王淼、王祺、王瑞揆、王溪、王小敏、王軒、王藝蓉、王岳、王悅、王志林、王智瀅、韋征、魏豐、翁振洋、吳剛、吳萬凱、吳志強(qiáng)、武婕、夏海波、夏慶仁、夏文華、肖颯、謝國輝、謝尚誓、謝甜甜、熊錢富、徐婧、徐嵐、徐強(qiáng)、徐瑞、徐云飛、許力先、許立昕、閆洋、燕雪松、楊博、楊海濱、楊海強(qiáng)、楊瑾煜舟、楊勁、楊軍、楊思敏、楊天歌、楊曉雷、楊曉莉、楊鑫、楊旸、楊宇宙、楊忠勤、姚晶鑫、T/CECC027-2024姚雪飛、葉娟、葉俊希、尹立、于洪方、于謹(jǐn)源、余俊峰、俞霞、袁韶浦、袁新忠、曾玥、張翠美、張杜超、張廣運(yùn)、張豪、張繼煥、張建民、張靜、張雋、張凌、張明強(qiáng)、張汭、張森森、張松艷、張彤、張顯顯、張笑怡、張鑫、張雪芳、張延來、張逸瑞、張?jiān)?、張?jiān)馈堅(jiān)脐?、張孜銘、張祖勤、趙夢晗、趙玉剛、趙云虎、鄭珂威、鄭鑫焱、鐘云斌、周力思、周霖、周陽、周宇、朱彬、朱莎、朱曉薇、朱岳峰、朱政、朱中輝、鄒丹莉、林戈、張怡、趙琪彥、陳驍萌、翟藝、毛姍姍、吳劍霞、金辰、聶佳彤、陳綺敏、張敏、朱彩云、董宇洲、鄧歡、王怡冉、龍衍孫、王笑晗、張圓捷、陳天宇。T/CECC027-2024為應(yīng)對生成式人工智能帶來的安全挑戰(zhàn),促進(jìn)生成式人工智能產(chǎn)業(yè)高質(zhì)量健康發(fā)展,確保數(shù)據(jù)應(yīng)用的各個環(huán)節(jié)符合合規(guī)性要求,確保數(shù)據(jù)全生命周期的安全運(yùn)行,根據(jù)《中華人民共和國網(wǎng)絡(luò)安全法》、《中華人民共和國數(shù)據(jù)安全法》、《中華人民共和國個人信息保護(hù)法》、《中華人民共和國著作權(quán)法》、《中華人民共和國反不正當(dāng)競爭法》等相關(guān)法律,《互聯(lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定》、《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》、《生成式人工智能服務(wù)管理暫行辦法》、《科技倫理審查辦法(試行)》、《具有輿論屬性或社會動員能力的互聯(lián)網(wǎng)信息服務(wù)安全評估規(guī)定》等相關(guān)部門規(guī)章,結(jié)合我國生成式人工智能技術(shù)和產(chǎn)業(yè)發(fā)展的實(shí)際,制定本文件。1T/CECC027-2024生成式人工智能數(shù)據(jù)應(yīng)用合規(guī)指南本文件規(guī)定了生成式人工智能服務(wù)在數(shù)據(jù)采集、數(shù)據(jù)標(biāo)注、訓(xùn)練數(shù)據(jù)預(yù)處理、模型訓(xùn)練與測試、內(nèi)容生成服務(wù)等各個數(shù)據(jù)應(yīng)用環(huán)節(jié)中應(yīng)遵循的數(shù)據(jù)應(yīng)用合規(guī)原則與合規(guī)要求,以及可供借鑒參考的具體合規(guī)手段與合規(guī)方法。本文件適用于指導(dǎo)生成式人工智能服務(wù)提供者向中華人民共和國境內(nèi)公眾提供生成式人工智能內(nèi)容生成服務(wù)過程中所開展的數(shù)據(jù)應(yīng)用合規(guī)工作。2規(guī)范性引用文件下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T29490-2023企業(yè)知識產(chǎn)權(quán)合規(guī)管理體系要求GB/T35273-2020信息安全技術(shù)個人信息安全規(guī)范GB/T35770-2022合規(guī)管理體系要求及使用指南GB/T41867-2022信息技術(shù)人工智能術(shù)語GB/T42574-2023信息安全技術(shù)個人信息處理中告知和同意的實(shí)施指南GB/T42755-2023人工智能面向機(jī)器學(xué)習(xí)的數(shù)據(jù)標(biāo)注規(guī)程TC260-PG-20233A網(wǎng)絡(luò)安全標(biāo)準(zhǔn)實(shí)踐指南—生成式人工智能服務(wù)內(nèi)容標(biāo)識方法TC260-003生成式人工智能服務(wù)安全基本要求3術(shù)語和定義下列術(shù)語和定義適用于本文件。3.1人工智能artificialintelligence;AI<學(xué)科>人工智能系統(tǒng)(3.2)相關(guān)機(jī)制和應(yīng)用的研究和開發(fā)。3.2人工智能系統(tǒng)artificialintelligencesystem指針對人類定義的給定目標(biāo),產(chǎn)生諸如內(nèi)容、預(yù)測、推薦或決策等輸出的一類工程系統(tǒng)。3.3生成式人工智能generativeartificialintelligence具有文本、圖片、音頻、視頻等內(nèi)容生成能力的人工智能模型及相關(guān)技術(shù)。3.4提供者provider以交互界面、可編程接口等形式面向我國境內(nèi)公眾提供生成式人工智能服務(wù)的組織或個人。3.52T/CECC027-2024個人信息personalinformation以電子或者其他方式記錄的與已識別或者可識別的自然人有關(guān)的各種信息,不包括匿名化處理后的信息。3.6敏感個人信息sensitivepersonalinformation敏感個人信息是一旦泄露或者非法使用,容易導(dǎo)致自然人的人格尊嚴(yán)受到侵害或者人身、財產(chǎn)安全受到危害的個人信息。3.7數(shù)據(jù)標(biāo)注datalabelling給數(shù)據(jù)樣本指定目標(biāo)變量和賦值的過程。3.8訓(xùn)練數(shù)據(jù)trainingdata用于訓(xùn)練機(jī)器學(xué)習(xí)模型的輸入數(shù)據(jù)子集。3.9合成數(shù)據(jù)syntheticdata基于計算機(jī)模擬、使用人工智能模型或基于機(jī)器學(xué)習(xí)方法、深度學(xué)習(xí)方法等技術(shù)生成的模仿現(xiàn)實(shí)世界觀察的虛擬數(shù)據(jù)。3.10驗(yàn)證數(shù)據(jù)validationdata用于評估單個或多個候選機(jī)器學(xué)習(xí)模型性能的數(shù)據(jù)樣本。驗(yàn)證和測試集拆分的情況下,數(shù)據(jù)只被分為兩個集——一個測試集和一3.11測試數(shù)據(jù)testdata用于評估最終機(jī)器學(xué)習(xí)模型性能的數(shù)據(jù)。3.12模型訓(xùn)練modeltraining利用訓(xùn)練數(shù)據(jù),基于機(jī)器學(xué)習(xí)算法,確定或改進(jìn)機(jī)器學(xué)習(xí)模型參數(shù)的過程。3.13模型優(yōu)化modeloptimization3T/CECC027-2024提升模型執(zhí)行速度,泛化能力,或改善利益相關(guān)方所關(guān)心的其他特性的方法。3.14倫理ethic開展人工智能技術(shù)基礎(chǔ)研究和應(yīng)用實(shí)踐時遵循的道德規(guī)范或準(zhǔn)則。3.15幻覺hallucination指生成式人工智能模型輸出的內(nèi)容基本符合邏輯與語法,但卻與客觀事實(shí)不符甚至完全虛構(gòu),或者不具備可理解性的現(xiàn)象。3.16偏見bias<人工智能可信賴>對待特定對象、人員或群體時,相較于其他實(shí)體出現(xiàn)系統(tǒng)性差別的特性。注:對待指任何一種行動,包括感知、觀察、3.17數(shù)據(jù)投毒datapoisoning在訓(xùn)練數(shù)據(jù)中故意添加虛假、有害或惡意數(shù)據(jù),以干擾模型訓(xùn)練、影響模型的輸出結(jié)果。4合規(guī)原則生成式人工智能數(shù)據(jù)應(yīng)用應(yīng)符合以下合規(guī)原則:a)科技倫理原則:在生成式人工智能數(shù)據(jù)應(yīng)用的各個環(huán)節(jié)中,需注意遵循增進(jìn)人類福祉、尊重生命權(quán)利、堅(jiān)持公平公正、合理控制風(fēng)險、保持公開透明的科技倫理原則;b)內(nèi)容安全原則:在利用生成式人工智能技術(shù)進(jìn)行內(nèi)容生成時,應(yīng)采取有效措施避免生成違背社會主義核心價值觀的內(nèi)容,避免生成具有歧視性的內(nèi)容,避免生成虛假有害信息等法律、行政法規(guī)禁止的內(nèi)容;c)人格保護(hù)原則:在生成式人工智能數(shù)據(jù)應(yīng)用的各個環(huán)節(jié)中,應(yīng)注重保護(hù)自然人的人格利益,不得侵害他人肖像權(quán)、名譽(yù)權(quán)、榮譽(yù)權(quán)、隱私權(quán)和個人信息權(quán)益等;d)商業(yè)利益原則:在模型開發(fā)、服務(wù)提供等數(shù)據(jù)應(yīng)用環(huán)節(jié)中,提供者應(yīng)尊重他人的知識產(chǎn)權(quán)、數(shù)據(jù)權(quán)益等,避免實(shí)施壟斷、不正當(dāng)競爭等侵犯其他商業(yè)主體合法權(quán)利的行為;e)技術(shù)發(fā)展原則:提供者在服務(wù)提供過程中應(yīng)注意及時收集反饋,提高生成內(nèi)容的準(zhǔn)確度與可靠性,不斷促進(jìn)人工智能技術(shù)的優(yōu)化與發(fā)展;f)體系合規(guī)原則:提供者應(yīng)搭建完善的合規(guī)管理體系,就生成式人工智能數(shù)據(jù)應(yīng)用的各個環(huán)節(jié),制定合規(guī)管理制度,采用有效的技術(shù)方法和其他治理措施,實(shí)現(xiàn)數(shù)據(jù)應(yīng)用合規(guī)管理目標(biāo)。5數(shù)據(jù)采集合規(guī)要求5.1合規(guī)性審查對用于模型訓(xùn)練的數(shù)據(jù),提供者應(yīng)根據(jù)獲取數(shù)據(jù)的不同方式以及數(shù)據(jù)自身的不同類別,建立數(shù)據(jù)來源和內(nèi)容合法性的審查機(jī)制。用于模型訓(xùn)練的數(shù)據(jù)如果同時符合5.2與5.3中的多種情形時,應(yīng)同時滿足各情形的收集合規(guī)要求。4T/CECC027-20245.2采集方式5.2.1直接獲取數(shù)據(jù)提供者可直接從個人信息主體處獲取個人信息,或在自身日常生產(chǎn)經(jīng)營中創(chuàng)造生產(chǎn)新數(shù)據(jù)、以原始數(shù)據(jù)為基礎(chǔ)加工生產(chǎn)新數(shù)據(jù)。提供者直接從個人信息主體處獲取個人信息的,應(yīng)符合5.3.2的合規(guī)要求。5.2.2間接獲取數(shù)據(jù)在事先評估合法性基礎(chǔ)的前提下,除直接獲取數(shù)據(jù)外,提供者可從其他主體處間接獲取數(shù)據(jù),即通過數(shù)據(jù)交易、數(shù)據(jù)共享、公共數(shù)據(jù)授權(quán)運(yùn)營等途徑獲取數(shù)據(jù)。提供者應(yīng)同相對方簽訂相應(yīng)的法律協(xié)議,謹(jǐn)慎審核相對方的數(shù)據(jù)來源合法性以及數(shù)據(jù)可交易性,并要求相對方作出來源合法性、可交易性和可使用性承諾,或出示相關(guān)證明等。鼓勵提供者通過數(shù)據(jù)交易所等公開平臺獲取數(shù)據(jù),以提升數(shù)據(jù)來源的合法合規(guī)性。5.3特定數(shù)據(jù)5.3.1公開數(shù)據(jù)獲取提供者可通過人工采集或自動爬取等手段從公共互聯(lián)網(wǎng)獲取公開數(shù)據(jù),但應(yīng)注意獲取手段的合法合規(guī),不得侵犯他人合法權(quán)益。采用自動爬取方式的,應(yīng)遵守目標(biāo)網(wǎng)站的網(wǎng)絡(luò)爬蟲排除協(xié)議(Robots協(xié)議)等聲明文件要求,避免采用破解密碼、偽造用戶代理(UserAgent)、設(shè)置代理網(wǎng)際協(xié)議地址(IP地址)等技術(shù)手段進(jìn)行違規(guī)爬取。應(yīng)控制數(shù)據(jù)爬取的流量與頻率,避免因爬取行為影響目標(biāo)網(wǎng)站的正常運(yùn)行。爬取移動互聯(lián)網(wǎng)應(yīng)用程序(App)、小程序等所依賴的網(wǎng)絡(luò)服務(wù)應(yīng)用程序接口(API)中的數(shù)據(jù),應(yīng)當(dāng)遵守API的服務(wù)鑒權(quán)聲明。公開數(shù)據(jù)附有數(shù)據(jù)使用許可條件或使用限制的,提供者獲取該公開數(shù)據(jù)后,應(yīng)遵守相關(guān)約定。5.3.2個人信息收集如提供者采集的數(shù)據(jù)類型中包含個人信息,應(yīng)符合相應(yīng)的法律法規(guī)和GB/T35273-2020第5章中有關(guān)個人信息收集的合規(guī)要求,包括但不限于:a)在直接收集個人信息前,應(yīng)依法向個人明確告知個人信息處理者的名稱或者姓名和聯(lián)系方式,個人信息的處理目的、處理方式,處理的個人信息種類、保存期限,個人行使法定權(quán)利的方式和程序等;b)如將直接獲取的個人信息用于模型訓(xùn)練等目的,應(yīng)符合GB/T42574-2023第7-9章的規(guī)定告知并取得個人同意,或者具備其他合法性基礎(chǔ);c)對于個人自行公開或者其他已經(jīng)合法公開的個人信息,如個人未明確拒絕用于模型訓(xùn)練等目的,處理行為未顯著違背個人公開目的且相關(guān)處理不會對個人權(quán)益造成重大影響的,可視為在合理范圍內(nèi)進(jìn)行處理;d)如需采集敏感個人信息用于模型訓(xùn)練的,應(yīng)事前進(jìn)行個人信息保護(hù)影響評估,在采取嚴(yán)格保護(hù)措施并取得個人單獨(dú)同意的前提下方可使用;e)如處理不滿十四周歲未成年人個人信息,除上款內(nèi)容外,還需取得未成年人父母或其他監(jiān)護(hù)人的同意,并制定專門的個人信息處理規(guī)則;f)間接獲取的數(shù)據(jù)如包含個人信息的,應(yīng)要求個人信息提供方說明個人信息來源,并確保就信息共享已履行法定的告知義務(wù)并取得個人單獨(dú)同意,或者具備其他的合法性基礎(chǔ);g)根據(jù)模型訓(xùn)練的特定目的,遵循個人信息處理的必要性原則,在限于實(shí)現(xiàn)處理目的的最小范圍內(nèi)收集和處理個人信息;h)除非確有必要,否則用于模型訓(xùn)練的個人信息應(yīng)進(jìn)行去標(biāo)識化處理后再進(jìn)行使用。5.3.3知識產(chǎn)權(quán)保護(hù)獲取數(shù)據(jù)用于模型訓(xùn)練的,應(yīng)采取以下手段防止對他人知識產(chǎn)權(quán)的侵害:5T/CECC027-2024a)對于已超過著作權(quán)保護(hù)期限進(jìn)入公有領(lǐng)域的作品,提供者可以采集相關(guān)數(shù)據(jù)投入模型訓(xùn)練,但應(yīng)避免在生成內(nèi)容中侵犯著作權(quán)人的署名權(quán)、修改權(quán)與保護(hù)作品完整權(quán)等著作人身權(quán);b)對仍在著作權(quán)保護(hù)期限內(nèi)的作品,提供者應(yīng)主動采取措施獲取著作權(quán)人的授權(quán),明確其作品可用于生成式人工智能的模型訓(xùn)練;c)建議提供者通過著作權(quán)集體管理組織獲取著作權(quán)人的授權(quán);d)對于商標(biāo)權(quán)、專利權(quán)、商業(yè)秘密等其他類型的知識產(chǎn)權(quán),建議提供者根據(jù)數(shù)據(jù)類型和數(shù)據(jù)來源進(jìn)行必要甄別,如發(fā)現(xiàn)有侵權(quán)可能的,應(yīng)避免采集或取得權(quán)利人的授權(quán);e)提供者可依據(jù)GB/T29490-2023第4-10章建立企業(yè)知識產(chǎn)權(quán)合規(guī)管理體系,并依據(jù)其附錄B所列的“專利、商標(biāo)、著作權(quán)、商業(yè)秘密典型禁止性行為”進(jìn)行風(fēng)險排查。6數(shù)據(jù)標(biāo)注合規(guī)要求6.1標(biāo)注規(guī)則的制定為模型訓(xùn)練的目的需要進(jìn)行數(shù)據(jù)標(biāo)注的,應(yīng)按法律法規(guī)以及數(shù)據(jù)需求方的要求,依據(jù)以下規(guī)定制定標(biāo)注規(guī)則:a)標(biāo)注規(guī)則應(yīng)根據(jù)數(shù)據(jù)需求方對模型訓(xùn)練的具體要求制定;b)標(biāo)注規(guī)則應(yīng)清晰、具體、全面、細(xì)化,對標(biāo)注人員具有實(shí)際操作性;c)標(biāo)注規(guī)則的確定應(yīng)有利于提高訓(xùn)練數(shù)據(jù)的準(zhǔn)確性,標(biāo)注過程中如發(fā)現(xiàn)冗余數(shù)據(jù)、錯誤數(shù)據(jù)、異常數(shù)據(jù)等情況應(yīng)進(jìn)行及時處理;d)標(biāo)注規(guī)則的確定應(yīng)有利于保持訓(xùn)練數(shù)據(jù)的客觀性,避免因規(guī)則設(shè)計的主觀性導(dǎo)致標(biāo)注結(jié)果發(fā)生同客觀情況的偏離;e)標(biāo)注規(guī)則應(yīng)進(jìn)行定期審查和更新,以適應(yīng)新的法律法規(guī)、技術(shù)發(fā)展和業(yè)務(wù)需求的變化。6.2數(shù)據(jù)標(biāo)注質(zhì)量評估數(shù)據(jù)標(biāo)注的全流程實(shí)施過程中應(yīng)包含質(zhì)量評估的環(huán)節(jié),具體操作可依據(jù)GB/T42755-2023第6.2和第7.1條規(guī)定的流程與方法進(jìn)行實(shí)踐。質(zhì)量評估可采用抽樣核驗(yàn)、機(jī)器驗(yàn)證、第三方驗(yàn)證等方式進(jìn)行,根據(jù)場景需求及項(xiàng)目特點(diǎn),建議選擇兩種以上方式進(jìn)行數(shù)據(jù)標(biāo)注準(zhǔn)確度和一致性檢查,并根據(jù)檢查結(jié)果及時進(jìn)行反饋校正。6.3標(biāo)注人員的資質(zhì)、培訓(xùn)、考核及管理數(shù)據(jù)標(biāo)注應(yīng)對標(biāo)注人員提出有針對性的資質(zhì)要求,并進(jìn)行以下培訓(xùn)、考核與管理:a)根據(jù)標(biāo)注任務(wù)和數(shù)據(jù)類型的區(qū)別,區(qū)分標(biāo)注任務(wù)所需的專業(yè)知識和專業(yè)技能需求,區(qū)分圖像標(biāo)注、語音標(biāo)注、文本標(biāo)注、視頻標(biāo)注等不同數(shù)據(jù)標(biāo)注的類型,對標(biāo)注人員的基礎(chǔ)資質(zhì)提出要求;b)根據(jù)每次標(biāo)注任務(wù)的具體要求,選擇符合資質(zhì)要求的人員參加崗前培訓(xùn);c)培訓(xùn)應(yīng)設(shè)置相應(yīng)的考試環(huán)節(jié),通過考試的人員才能進(jìn)入標(biāo)注任務(wù)的實(shí)操環(huán)節(jié);d)除實(shí)操技術(shù)外,培訓(xùn)內(nèi)容中必須含有必要的法律合規(guī)指南,標(biāo)注人員應(yīng)了解數(shù)據(jù)標(biāo)注的原則與意義,未按照標(biāo)注規(guī)則進(jìn)行操作的責(zé)任與后果,以及在接觸數(shù)據(jù)過程中所應(yīng)履行的個人信息保護(hù)、數(shù)據(jù)安全合規(guī)與保密義務(wù);e)就標(biāo)注人員的實(shí)際工作表現(xiàn)建立相應(yīng)的能力檔案,以便在后續(xù)持續(xù)性工作中,對標(biāo)注工作的人員進(jìn)行篩選、抽樣測試,持續(xù)提升標(biāo)注工作質(zhì)量。7訓(xùn)練數(shù)據(jù)的預(yù)處理合規(guī)要求7.1提高訓(xùn)練數(shù)據(jù)質(zhì)量提供者應(yīng)采取有效措施提高訓(xùn)練數(shù)據(jù)質(zhì)量,并從真實(shí)性、準(zhǔn)確性、客觀性、多樣性、安全性等角度以防止訓(xùn)練數(shù)提升數(shù)據(jù)質(zhì)量。當(dāng)各方面要求不能同時滿足或可能存在沖突時,提供者應(yīng)進(jìn)行謹(jǐn)慎考量,以防止訓(xùn)練數(shù)據(jù)的不當(dāng)選擇影響生成內(nèi)容的質(zhì)量。7.1.1訓(xùn)練數(shù)據(jù)的真實(shí)性6T/CECC027-2024提供者應(yīng)從數(shù)量和質(zhì)量上判斷所獲取的數(shù)據(jù)是否具有可靠的來源,是否能夠反映真實(shí)世界的情況,并通過人工或模型等方式就數(shù)據(jù)內(nèi)容的真實(shí)性進(jìn)行核驗(yàn)。7.1.2訓(xùn)練數(shù)據(jù)的準(zhǔn)確性提供者可采用數(shù)據(jù)去重、去除異常值、糾正錯誤等數(shù)據(jù)清洗方法,以提高數(shù)據(jù)集的準(zhǔn)確性和一致性,排除噪聲和偏差。7.1.3訓(xùn)練數(shù)據(jù)的客觀性訓(xùn)練數(shù)據(jù)宜盡可能中立和無偏見,在數(shù)據(jù)采集與后續(xù)處理環(huán)節(jié)中均應(yīng)避免人為干擾、選擇偏見和其他主觀因素的介入。7.1.4訓(xùn)練數(shù)據(jù)的多樣性為提高模型的性能和泛化能力,應(yīng)充分考慮數(shù)據(jù)來源、數(shù)據(jù)類型及樣本特征分布的均衡和多樣化。為防止生成存在偏見或歧視的內(nèi)容,應(yīng)進(jìn)行充分多樣化和具有代表性的數(shù)據(jù)選擇,確保其包含各個民族、信仰、國別、地域、性別、年齡、職業(yè)和健康等的充分信息。7.1.5訓(xùn)練數(shù)據(jù)的安全性為確保訓(xùn)練數(shù)據(jù)的安全性,應(yīng)按照TC260-003中5.1列項(xiàng)的第一項(xiàng)規(guī)定對訓(xùn)練數(shù)據(jù)的來源進(jìn)行安全評估和核驗(yàn)。7.2通過合成技術(shù)進(jìn)行數(shù)據(jù)增強(qiáng)提供者可在合理范圍內(nèi)創(chuàng)建并使用合成數(shù)據(jù),按照以下原則進(jìn)行數(shù)據(jù)增強(qiáng)訓(xùn)練:a)創(chuàng)建合成數(shù)據(jù)應(yīng)當(dāng)有真實(shí)、客觀且達(dá)到一定數(shù)量的數(shù)據(jù)作為樣本;b)合成數(shù)據(jù)原則上應(yīng)保留真實(shí)數(shù)據(jù)的統(tǒng)計屬性,但為提高數(shù)據(jù)集的多樣性、補(bǔ)充罕見場景等目的而使用合成數(shù)據(jù)的可以不受此限;c)避免樣本數(shù)據(jù)自身存在的偏見,該種偏見可能在生成合成數(shù)據(jù)時進(jìn)一步傳播;d)使用算法創(chuàng)建合成數(shù)據(jù)后,應(yīng)進(jìn)行適當(dāng)?shù)脑u估和驗(yàn)證,保證合成數(shù)據(jù)的質(zhì)量與效用,避免出現(xiàn)偏差過大的問題;e)觀測真實(shí)世界數(shù)據(jù)的變化,及時更新和維護(hù)合成數(shù)據(jù),以保持其相關(guān)性和有效性;f)創(chuàng)建合成數(shù)據(jù)應(yīng)符合相應(yīng)的法律法規(guī)和倫理準(zhǔn)則,不得創(chuàng)建可能造成侵權(quán)或有違倫理的數(shù)據(jù),不得濫用合成數(shù)據(jù);g)明確記錄創(chuàng)建合成數(shù)據(jù)的具體算法與技術(shù)手段,做到可查詢、可溯源。8模型訓(xùn)練與測試合規(guī)要求8.1模型訓(xùn)練8.1.1訓(xùn)練步驟模型訓(xùn)練應(yīng)至少包括預(yù)訓(xùn)練與優(yōu)化訓(xùn)練等兩重以上的訓(xùn)練環(huán)節(jié)。8.1.2預(yù)訓(xùn)練預(yù)訓(xùn)練應(yīng)選擇具有合法來源的基礎(chǔ)模型,基礎(chǔ)模型應(yīng)經(jīng)過可靠性、安全性、合法性以及價值觀等方面的測評,才可在此基礎(chǔ)上進(jìn)行后續(xù)訓(xùn)練。8.1.3優(yōu)化訓(xùn)練經(jīng)過預(yù)訓(xùn)練后形成的算法模型,還應(yīng)通過優(yōu)化訓(xùn)練進(jìn)一步使用已標(biāo)注的數(shù)據(jù)進(jìn)行后續(xù)流程,來優(yōu)化模型訓(xùn)練的最終結(jié)果。8.1.4模型驗(yàn)證7T/CECC027-2024在模型訓(xùn)練的不同環(huán)節(jié)中,均可使用驗(yàn)證數(shù)據(jù)對模型的參數(shù)與設(shè)置進(jìn)行持續(xù)優(yōu)化。驗(yàn)證數(shù)據(jù)可與訓(xùn)練數(shù)據(jù)來源于同樣的數(shù)據(jù)集,但在訓(xùn)練過程中應(yīng)保持相對獨(dú)立。8.2模型測試在正式為公眾提供內(nèi)容生成服務(wù)之前,為保證模型生成的效果,應(yīng)按照以下要求進(jìn)行模型測試:a)制定全面完整嚴(yán)格的測試指標(biāo)體系,以減少幻覺、有害偏見和違法內(nèi)容的生成;b)引入人工方式或其他模型進(jìn)行對抗測試,根據(jù)結(jié)果反饋實(shí)現(xiàn)對模型性能的改進(jìn)優(yōu)化;c)建立動態(tài)調(diào)整的指標(biāo)體系與測試方案,定期評估和調(diào)整指標(biāo)體系,確保測試結(jié)果的有效性;d)測試數(shù)據(jù)的來源應(yīng)獨(dú)立于訓(xùn)練數(shù)據(jù)與驗(yàn)證數(shù)據(jù),且應(yīng)按照同樣標(biāo)準(zhǔn)進(jìn)行預(yù)處理;e)確保模型在經(jīng)過嚴(yán)格測試并核驗(yàn)完成之后才對公眾提供內(nèi)容生成服務(wù);f)模型評價依據(jù)、測試指標(biāo)體系、測試與核驗(yàn)辦法及采用的技術(shù)手段等,均應(yīng)明確記錄,做到可查詢、可溯源。9內(nèi)容生成服務(wù)合規(guī)要求9.1使用者盡責(zé)義務(wù)的告知提供者應(yīng)當(dāng)與注冊使用其服務(wù)的使用者(下稱“使用者”)簽訂服務(wù)協(xié)議,在服務(wù)協(xié)議中明確告知使用者如下事項(xiàng):a)生成式人工智能服務(wù)的基本特點(diǎn)與可能風(fēng)險;b)使用者使用生成式人工智能服務(wù)的基本規(guī)范,包括不得利用生成式人工智能服務(wù)特性,有意識地獲取違反法律法規(guī)、違反社會公德或倫理道德的內(nèi)容;c)使用者負(fù)有審慎、盡責(zé)使用生成式人工智能服務(wù)的義務(wù),在生成內(nèi)容含有違反法律法規(guī)、違反社會公德或倫理道德的內(nèi)容時,不應(yīng)將此生成內(nèi)容對外傳播;d)明確告知使用者與生成內(nèi)容相關(guān)的具體使用場景,例如明確生成內(nèi)容是否可使用于科研、商用或自用等目的,以及其他使用限制條件;e)對于生成內(nèi)容在特定行業(yè)的應(yīng)用,尤其是對內(nèi)容準(zhǔn)確性有較高要求的如法律、醫(yī)療等領(lǐng)域,應(yīng)向使用者重點(diǎn)提示風(fēng)險。9.2生成內(nèi)容的審核提供者應(yīng)建立生成內(nèi)容審核機(jī)制,通過技術(shù)手段或人工審核的方式,對生成式人工智能生成的內(nèi)容在對外提供前進(jìn)行檢測,識別并過濾其中的個人隱私信息、虛假有害信息、違法違規(guī)信息等不宜對外提供的內(nèi)容。9.3生成內(nèi)容的標(biāo)識提供者利用生成式人工智能技術(shù)向使用者提供文本、圖片、音頻、視頻等生成內(nèi)容時,需依據(jù)TC260-PG-20233A第3章的規(guī)定,通過水印等方式對生成內(nèi)容進(jìn)行明確標(biāo)識,標(biāo)識信息至少應(yīng)包含“由人工智能生成”或“由AI生成”等含義。在由自然人提供服務(wù)轉(zhuǎn)為由人工智能提供服務(wù)容易引起混淆時,應(yīng)通過提示文字或提示語音的方式進(jìn)行標(biāo)識。9.4生成內(nèi)容的異議審查機(jī)制應(yīng)建立使用者對生成內(nèi)容提出異議的通知-受理機(jī)制、舉報-受理機(jī)制,當(dāng)使用者或舉報者對生成內(nèi)容合法合規(guī)性有異議,向提供者通知、舉報時,提供者應(yīng)按如下機(jī)制來處理:a)及時向使用者或舉報者反饋,告知其已進(jìn)入生成內(nèi)容異議審核階段;b)及時判斷被異議的生成內(nèi)容是否違反法律法規(guī)、違反社會公德或倫理道德;c)一旦確認(rèn)被異議的生成內(nèi)容違反法律法規(guī)、違反社會公德或倫理道德的,應(yīng)及時采取停止生成、停止傳輸、消除等處置措施,并采取模型優(yōu)化訓(xùn)練等措施進(jìn)行整改;d)向使用者或舉報者告知生成內(nèi)容的異議處理情況,并視具體情況向有關(guān)主管部門報告。9.5使用者信息保護(hù)提供者對使用者的個人信息、輸入信息和使用記錄應(yīng)依法履行如下保護(hù)義務(wù):8T/CECC027-2024a)根據(jù)必要性原則,僅收集與提供服務(wù)目的直接相關(guān)的個人信息;b)不得非法留存能夠識別使用者身份的輸入信息和使用記錄;c)不得非法向他人提供使用者的輸入信息和使用記錄,除非獲得使用者同意,或具有其他合法性基礎(chǔ);d)未進(jìn)行明確告知并取得使用者同意的,提供者不得擅自將使用者的輸入信息用于后續(xù)模型訓(xùn)練,除非具備其他合法性基礎(chǔ)。9.6被侵權(quán)人維權(quán)支持為應(yīng)對因使用者不當(dāng)使用人工智能生成內(nèi)容造成他人權(quán)益損害的問題,提供者應(yīng)建立被侵權(quán)人維權(quán)支持機(jī)制。在確認(rèn)侵權(quán)事實(shí)屬實(shí)的前提下,就被侵權(quán)人在法律框架內(nèi)維護(hù)其合法權(quán)益提供合理配合,并采取必要措施防止侵害結(jié)果的擴(kuò)大。10其他數(shù)據(jù)應(yīng)用合規(guī)要求10.1數(shù)據(jù)安全保護(hù)為防止數(shù)據(jù)泄露、數(shù)據(jù)投毒等安全事件的發(fā)生,提供者應(yīng)按照法律法規(guī)的規(guī)定,履行如下義務(wù):a)提供者應(yīng)當(dāng)全面加強(qiáng)數(shù)據(jù)處理系統(tǒng)、數(shù)據(jù)傳輸網(wǎng)絡(luò)、數(shù)據(jù)存儲環(huán)境等的安全防護(hù),制定并落實(shí)全流程數(shù)據(jù)安全管理制度,并建議參照GB/T35770-2022第4-10章構(gòu)建相應(yīng)的合規(guī)管理體系;b)按照網(wǎng)絡(luò)安全等級保護(hù)的要求,提供者處理重要數(shù)據(jù)或處理一百萬人以上個人信息的系統(tǒng)原則上應(yīng)當(dāng)滿足三級以上網(wǎng)絡(luò)安全等級保護(hù)要求;c)提供者應(yīng)建立訓(xùn)練數(shù)據(jù)安全保障措施,宜采用經(jīng)第三方認(rèn)證的技術(shù)方法及軟硬件工具,通過來源驗(yàn)證、數(shù)據(jù)清洗、訪問控制、定期檢查等多元機(jī)制,確保訓(xùn)練數(shù)據(jù)免受投毒威脅,防止模型生成內(nèi)容發(fā)生偏差;d)提供者應(yīng)當(dāng)建立數(shù)據(jù)安全應(yīng)急處置機(jī)制,發(fā)生數(shù)據(jù)安全事件時及時啟動應(yīng)急響應(yīng),防止危害擴(kuò)大,消除安全隱患;e)數(shù)據(jù)安全事件對個人、組織可能造成危害的,建議提供者在三個工作日內(nèi)將安全事件的相關(guān)情況通知利害關(guān)系人,如確實(shí)無法通知的可以采取公告方式告知。10.2數(shù)據(jù)分類分級就模型訓(xùn)練或服務(wù)提供過程中處理的數(shù)據(jù),提供者應(yīng)依據(jù)數(shù)據(jù)的來源、敏感程度以及數(shù)據(jù)泄露是否可能危害國家安全、社會公共利益等進(jìn)行分類分級,并按照數(shù)據(jù)的不同類別和級別采取不同的保護(hù)措施,及時更新滿足有關(guān)法律、法規(guī)、國標(biāo)、行標(biāo)等規(guī)制的最新要求。數(shù)據(jù)分類分級工作應(yīng)貫穿數(shù)據(jù)應(yīng)用的各個環(huán)節(jié),并在各個環(huán)節(jié)適用統(tǒng)一的識別規(guī)則并采取相應(yīng)的技術(shù)措施。10.3數(shù)據(jù)刪除因個人撤回同意等原因?qū)е掠糜谀P陀?xùn)練的個人信息需進(jìn)行刪除的,提供者應(yīng)從數(shù)據(jù)集中將個人信息刪除或進(jìn)行匿名化處理,不得再用于模型訓(xùn)練。已投入模型訓(xùn)練的相關(guān)信息如無法從模型中刪除或刪除成本過大的,可采用屏蔽結(jié)果等方式停止輸出涉及相關(guān)信息的內(nèi)容。提供者也可在數(shù)據(jù)采集時通過協(xié)議就是否需要刪除模型內(nèi)信息進(jìn)行明確約定。其他各類因授權(quán)到期或未經(jīng)授權(quán)的訓(xùn)練數(shù)據(jù)刪除可參照10.3條進(jìn)行操作。10.3條規(guī)定不影響提供者就其侵權(quán)行為所應(yīng)承擔(dān)的法律責(zé)任。10.4數(shù)據(jù)跨境提供者如使用境外來源的基礎(chǔ)模型,或從境外來源進(jìn)行數(shù)據(jù)采集,在我國境內(nèi)進(jìn)行模型訓(xùn)練和內(nèi)容生成的,宜關(guān)注境內(nèi)外法律合規(guī)環(huán)境的差異,自查是否符合我國的法律法規(guī)要求。提供者基于模型訓(xùn)練、內(nèi)容生成等目的,將在中國境內(nèi)采集的數(shù)據(jù)傳輸至境外的,應(yīng)按照國家有關(guān)規(guī)定開展數(shù)據(jù)跨境合規(guī)工作。10.5算法備案與安全評估9T/CECC027-2024如提供的生成式人工智能服務(wù)具有輿論屬性或者社會動員能力,應(yīng)按照國家有關(guān)規(guī)定以及本文件要求開展合規(guī)自評估工作,履行相應(yīng)的算法備案及安全評估手續(xù)。提供者應(yīng)在相應(yīng)程序中向主管部門如實(shí)上報其數(shù)據(jù)應(yīng)用合規(guī)的制度建設(shè)、落實(shí)情況與自評估結(jié)果。T/CECC027-2024參考文獻(xiàn)[1]中華人民共和國網(wǎng)絡(luò)安全法(2016年11月7日第十二屆全國人民代表大會常務(wù)委員會第二十四次會議通過)[2]中華人民共和國數(shù)據(jù)安全法(2021年6月10日第十三屆全國人民代表大會常務(wù)委員會第二十九次會議通過

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論