人工智能數(shù)據(jù)集工作介紹-20240429_第1頁
人工智能數(shù)據(jù)集工作介紹-20240429_第2頁
人工智能數(shù)據(jù)集工作介紹-20240429_第3頁
人工智能數(shù)據(jù)集工作介紹-20240429_第4頁
人工智能數(shù)據(jù)集工作介紹-20240429_第5頁
已閱讀5頁,還剩35頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

2人工智能每次階段性的進步,數(shù)據(jù)都扮演著重要角色,尤其在大模型時代,海量、高質(zhì)量、多樣化的訓(xùn)練數(shù)據(jù)集,成為拉開能力差距的關(guān)鍵要素。數(shù)量:數(shù)量:萬級別數(shù)量:萬級別MNISTMNIST淺層學(xué)習(xí)時期深度學(xué)習(xí)時期(2012~2018)預(yù)訓(xùn)練模型時期2022年產(chǎn)學(xué)研提出“以數(shù)據(jù)為中心的人工智能”(Data-centricAI高質(zhì)量的訓(xùn)練數(shù)據(jù)集、完備的數(shù)據(jù)應(yīng)用策略將會更好的服務(wù)于模型的開發(fā)與應(yīng)用。人工智能領(lǐng)域的權(quán)威學(xué)者吳恩達,發(fā)起了“以數(shù)據(jù)為中心的AI”,即在模型相對固定的前提下,通過提升數(shù)據(jù)的質(zhì)量和數(shù)量來提升整個模型的訓(xùn)練效果。3通過添加數(shù)據(jù)標(biāo)記、清洗和轉(zhuǎn)換數(shù)據(jù)、數(shù)據(jù)縮減、增加數(shù)據(jù)多樣性、持續(xù)監(jiān)測和維護數(shù)據(jù)等手段,形成優(yōu)質(zhì)的標(biāo)準(zhǔn)化數(shù)據(jù)集和完備的數(shù)據(jù)全生命周期管理體系。3?2021年舉辦了首屆“以數(shù)據(jù)為中心的人工智能競賽”,比賽僅允許通過改進數(shù)據(jù)來提升模型的性能。80%的高質(zhì)量數(shù)據(jù)與20%的模型訓(xùn)練構(gòu)成了更好的AI數(shù)據(jù)質(zhì)量管理↓數(shù)據(jù)獲取↓數(shù)據(jù)獲取Prompt工程數(shù)據(jù)訓(xùn)練工程數(shù)據(jù)標(biāo)注Prompt工程數(shù)據(jù)訓(xùn)練工程數(shù)據(jù)標(biāo)注專家標(biāo)注專家標(biāo)注數(shù)據(jù)過濾數(shù)據(jù)過濾行業(yè)數(shù)據(jù)集行業(yè)數(shù)據(jù)集PromptPrompt數(shù)據(jù)集預(yù)訓(xùn)練數(shù)據(jù)集SFT預(yù)訓(xùn)練數(shù)據(jù)集SFT數(shù)據(jù)集數(shù)據(jù)質(zhì)量提升RankRank標(biāo)注通用大模型行業(yè)大模型數(shù)據(jù)清洗通用大模型行業(yè)大模型數(shù)據(jù)清洗預(yù)訓(xùn)練大模型微調(diào)大模型預(yù)訓(xùn)練大模型微調(diào)大模型優(yōu)化優(yōu)化優(yōu)化優(yōu)化大模型基準(zhǔn)測試數(shù)據(jù)質(zhì)量評估大模型基準(zhǔn)測試數(shù)據(jù)質(zhì)量評估數(shù)據(jù)分布評估數(shù)據(jù)毒性評估數(shù)據(jù)分布評估數(shù)據(jù)毒性評估數(shù)據(jù)內(nèi)容評估4數(shù)據(jù)數(shù)量評估數(shù)據(jù)內(nèi)容評估4數(shù)據(jù)數(shù)量評估5我國AI數(shù)據(jù)發(fā)展仍落后美國,處于全面追趕的地位與美國相比,我國AI數(shù)據(jù)發(fā)展在數(shù)據(jù)集數(shù)量、數(shù)據(jù)集質(zhì)量、數(shù)據(jù)發(fā)展頂層設(shè)計、AI數(shù)據(jù)產(chǎn)業(yè)鏈和生態(tài)服務(wù)四個方面仍落后于美國。中文數(shù)據(jù)集數(shù)量不足u全球流量靠前的1000萬個網(wǎng)站中,網(wǎng)站語言為中文的僅u全球最大的人工智能開源社區(qū)Huggingface已發(fā)布開源數(shù)據(jù)集僅有150多個,CC中的中文只占4%,且大部分是AI數(shù)據(jù)集質(zhì)量低u現(xiàn)有公開數(shù)據(jù)集與大模型預(yù)訓(xùn)練需求不匹配,多數(shù)無法u缺乏對高質(zhì)量數(shù)據(jù)集的定義u數(shù)據(jù)質(zhì)量評估方法和體系缺失u數(shù)據(jù)治理技術(shù)發(fā)展尚不完善AAI數(shù)據(jù)發(fā)展頂層設(shè)計不完善?美《國家人工智能研究和發(fā)展戰(zhàn)略智能訓(xùn)練及測試的公共數(shù)據(jù)集和環(huán)北京、上海兩地在政策文件中明確AAI數(shù)據(jù)產(chǎn)業(yè)鏈和生態(tài)服務(wù)不成熟u數(shù)據(jù)毒性檢測、數(shù)據(jù)偏見檢測、數(shù)據(jù)優(yōu)化等技術(shù)發(fā)展仍數(shù)據(jù)合成、數(shù)據(jù)質(zhì)量評估、u統(tǒng)一的數(shù)據(jù)治理標(biāo)準(zhǔn)、數(shù)據(jù)服務(wù)生態(tài)協(xié)同和調(diào)度機制缺2024年4月17日,美國商務(wù)部官網(wǎng)發(fā)布《人工智能和開放政府?dāng)?shù)據(jù)資產(chǎn)信息征集請求》,向行業(yè)專家、研究人員、民間社會組織等公眾成員征詢有關(guān)開放數(shù)據(jù)資產(chǎn)發(fā)展的寶貴見解,旨在了解如何改進商務(wù)部開放數(shù)據(jù)資產(chǎn)的創(chuàng)建、策劃和分發(fā)方式,以促進生成性人工智能等人工智能技術(shù)的發(fā)展和進步。核心征詢問題1、數(shù)據(jù)傳播標(biāo)準(zhǔn):格式、元數(shù)據(jù)和文檔、元數(shù)據(jù)標(biāo)準(zhǔn)方面2、數(shù)據(jù)可訪問性和檢索:直觀易用的數(shù)據(jù)門戶、清晰的標(biāo)4、數(shù)據(jù)完整性和質(zhì)量:增強公共數(shù)據(jù)完整性和準(zhǔn)確性最佳實踐方式、真實性偏見、隱私、公平性和道德等相關(guān)挑戰(zhàn)的5、數(shù)據(jù)倫理:清晰的法律和道德指導(dǎo)方針、識67發(fā)展需求高質(zhì)量長高質(zhì)量大規(guī)模大規(guī)模全維度全維度Data-centricAI面臨挑戰(zhàn)面臨挑戰(zhàn)重點工作重點工作數(shù)量數(shù)量質(zhì)量供需生態(tài)頂層支撐標(biāo)準(zhǔn)評測質(zhì)量研究生態(tài)合作?頂層支撐標(biāo)準(zhǔn)評測質(zhì)量研究生態(tài)合作?搭建人工智能數(shù)據(jù)集標(biāo)準(zhǔn)體系,構(gòu)建“方升”大模型?構(gòu)建人工智能數(shù)據(jù)集質(zhì)量評估體系,搭建質(zhì)量評估8著力破解AI中文數(shù)據(jù)集數(shù)量不足、質(zhì)量不高、數(shù)據(jù)產(chǎn)業(yè)鏈和生態(tài)服務(wù)不成熟、AI數(shù)據(jù)治理基礎(chǔ)薄弱等的瓶頸制約問題著力推動人工智能數(shù)據(jù)高質(zhì)量發(fā)展的著力破解AI中文數(shù)據(jù)集數(shù)量不足、質(zhì)量不高、數(shù)據(jù)產(chǎn)業(yè)鏈和生態(tài)服務(wù)不成熟、AI數(shù)據(jù)治理基礎(chǔ)薄弱等的瓶頸制約問題著力推動人工智能數(shù)據(jù)高質(zhì)量發(fā)展的制度創(chuàng)新、模式創(chuàng)新、場景政產(chǎn)學(xué)研用協(xié)同的良性發(fā)展格局著力形成“數(shù)據(jù)-算力-模型”協(xié)同發(fā)展的合力,推動形成“飛輪效應(yīng)”,為通用大模型和行業(yè)大模型訓(xùn)練和創(chuàng)新迭代提供有效數(shù)據(jù)供給主要任務(wù)面向模型數(shù)據(jù)全生命周期AI數(shù)據(jù)集標(biāo)準(zhǔn)體系V1.0規(guī)范數(shù)據(jù)集全流程,形成優(yōu)質(zhì)高質(zhì)量的數(shù)據(jù)產(chǎn)品和完備的AI數(shù)據(jù)集管理體系,更好服務(wù)于模型的開發(fā)與應(yīng)用。9人工智能高質(zhì)量數(shù)據(jù)集標(biāo)準(zhǔn)體系具體包括“A基礎(chǔ)共性”、“B關(guān)鍵技術(shù)”、“C工具平臺”、“D質(zhì)量控制”、“E工程開發(fā)”、“F產(chǎn)品服務(wù)”、“G行業(yè)應(yīng)用”、“H安全倫理”等八大部分9工作二:標(biāo)準(zhǔn)體系—數(shù)據(jù)生產(chǎn)和質(zhì)量管理《面向人工智能的數(shù)據(jù)生產(chǎn)和標(biāo)注服務(wù)能力通用成熟度模型》面向數(shù)據(jù)生產(chǎn)標(biāo)注服務(wù)商、數(shù)據(jù)標(biāo)注基地,考察產(chǎn)品交付和實施方面的能力,包括對項目實施方案設(shè)計能力、對項目管理的能力、對數(shù)據(jù)產(chǎn)品進行交付的能力、提供客戶技術(shù)服務(wù)的能力。技術(shù)服務(wù)客戶服務(wù)交付管理交付方式風(fēng)險管理質(zhì)量管理成本管理需求分析進度管理方案分析技術(shù)服務(wù)客戶服務(wù)交付管理交付方式風(fēng)險管理質(zhì)量管理成本管理需求分析進度管理方案分析方案設(shè)計參編單位...《人工智能數(shù)據(jù)集質(zhì)量管理能力評估方法》面向人工智能技術(shù)研發(fā)企業(yè)、數(shù)據(jù)生產(chǎn)標(biāo)注服務(wù)商、數(shù)據(jù)標(biāo)注基地,考察其在數(shù)據(jù)集全生命周期的質(zhì)量管理體系水平,包括對AI數(shù)據(jù)生產(chǎn)和應(yīng)用流程的管理能力、對AI數(shù)據(jù)進行質(zhì)量評估的能力、企業(yè)組織規(guī)范完備程度。管理共享管理制度培訓(xùn)制度操作制度評估報告材料準(zhǔn)備指標(biāo)體系數(shù)據(jù)處理數(shù)據(jù)采集方案設(shè)計管理共享管理制度培訓(xùn)制度操作制度評估報告材料準(zhǔn)備指標(biāo)體系數(shù)據(jù)處理數(shù)據(jù)采集方案設(shè)計模型應(yīng)用參編單位參編單位...工作二:標(biāo)準(zhǔn)體系—大模型數(shù)據(jù)開發(fā)管理《大模型數(shù)據(jù)集開發(fā)管理能力評價方法總體要求》標(biāo)準(zhǔn)編制,大模型數(shù)據(jù)開發(fā)管理的全流程提供可借鑒可參考的標(biāo)準(zhǔn)規(guī)范。已報名參編單位共81家,涵蓋了大模型企業(yè)、三大運營商、數(shù)據(jù)服務(wù)商、高校、科研院所、律所等種類型。部分已報名參編單位大模型數(shù)據(jù)集開發(fā)管理能力評價方法總體要求部分已報名參編單位大模型數(shù)據(jù)集開發(fā)管理能力評價方法總體要求工作二:標(biāo)準(zhǔn)體系—人工智能合成數(shù)據(jù)合成數(shù)據(jù)作為數(shù)據(jù)科學(xué)領(lǐng)域中快速發(fā)展的趨勢和人工智能技術(shù)研發(fā)的新興工具,存在合成數(shù)據(jù)的生產(chǎn)應(yīng)用流程尚未規(guī)范、缺少合成數(shù)據(jù)質(zhì)量管理方案等問生產(chǎn)流程質(zhì)量評估運營管理《人工智能合成數(shù)據(jù)生成和管理可信評估方法》標(biāo)準(zhǔn)圍繞數(shù)據(jù)生成、數(shù)據(jù)生產(chǎn)流程管理、數(shù)據(jù)質(zhì)量評生產(chǎn)流程質(zhì)量評估運營管理數(shù)據(jù)生成數(shù)據(jù)維護與更新可用性可解釋性覆蓋度隱私度保真度數(shù)據(jù)標(biāo)注數(shù)據(jù)合成原始數(shù)據(jù)采集數(shù)據(jù)處理方案設(shè)計數(shù)據(jù)規(guī)模應(yīng)用場景數(shù)據(jù)類型數(shù)據(jù)安全數(shù)據(jù)備份數(shù)據(jù)存儲數(shù)據(jù)維護與更新可用性可解釋性覆蓋度隱私度保真度數(shù)據(jù)標(biāo)注數(shù)據(jù)合成原始數(shù)據(jù)采集數(shù)據(jù)處理方案設(shè)計數(shù)據(jù)規(guī)模應(yīng)用場景數(shù)據(jù)類型數(shù)據(jù)安全數(shù)據(jù)備份數(shù)據(jù)存儲生成方式工作二:評測—“方升”大模型基準(zhǔn)測試體系2.測試方法4.測試工具2.測試方法4.測試工具能源任務(wù)規(guī)劃多輪對話...數(shù)據(jù)分析信息檢索知識檢索............工具使用能力長文本能力角色扮演能力多語言能力學(xué)科能力理解能力推理能力知識能力生成能力視頻理解語音處能源任務(wù)規(guī)劃多輪對話...數(shù)據(jù)分析信息檢索知識檢索............工具使用能力長文本能力角色扮演能力多語言能力學(xué)科能力理解能力推理能力知識能力生成能力視頻理解語音處理內(nèi)容可靠內(nèi)容魯棒視覺推理視覺問答圖像描述圖像生成3D處理...科研教育醫(yī)療軟件工程金融政務(wù)科研教育醫(yī)療軟件工程金融政務(wù)電信...網(wǎng)頁處理網(wǎng)頁處理思維鏈思維鏈能力圖像理解圖像理解政治敏感違法違規(guī)...價值對齊歧視偏見...價值對齊歧視偏見...個人隱私個人隱私企業(yè)機密...3.測試數(shù)據(jù)集標(biāo)簽篩選、動態(tài)更新、靈活抽樣107個數(shù)據(jù)集,300萬條測試數(shù)據(jù)自動化框架,智能化評估方升”是秦國的商鞅實行變法時所發(fā)布的標(biāo)準(zhǔn)量器,是我國最早的標(biāo)準(zhǔn)量器中國信通院于“2024ICT深度觀察研究成果報告會”上發(fā)布“方升”大模型評測體系,北京智源研究院、認(rèn)知智能全國重點實驗室、天津大學(xué)共同見證體系發(fā)布。國網(wǎng)智能電網(wǎng)研究院、首都之窗、電信研究院、甲骨易等9家單位成為首批“方升”合作伙伴。發(fā)布儀式現(xiàn)場梳理大模型基準(zhǔn)測試工作流,并參照工作流開發(fā)大模型基準(zhǔn)測試框架測試框架在測試數(shù)據(jù)集的質(zhì)量管理、高質(zhì)量測試數(shù)據(jù)集的智能抽取以及大模型自動化結(jié)果評估等具有優(yōu)勢 測試需求分析測試數(shù)據(jù)構(gòu)建測試環(huán)境準(zhǔn)備基準(zhǔn)測試執(zhí)行測試結(jié)果評估測試報告生成測試標(biāo)準(zhǔn)確定測試范圍選擇測試重點分析測試方案設(shè)計動態(tài)化測試數(shù)據(jù)庫統(tǒng)一測試數(shù)據(jù)格式測試數(shù)據(jù)標(biāo)簽管理測試數(shù)據(jù)自動清洗測試數(shù)據(jù)智能采樣測試數(shù)據(jù)智能生成測試框架自動測試測試框架自動測試支持API接口測試支持本地部署測試測試任務(wù)切分測試任務(wù)隊列分布式測試自動化評估大模型評估專家人工評估統(tǒng)計分析權(quán)重設(shè)置與推薦綜合評分及排位缺陷分析報告生成結(jié)合傳統(tǒng)大數(shù)據(jù)質(zhì)量要求和人工智能模型訓(xùn)練應(yīng)用需求,按照“可用+好用+落地”的設(shè)計原則展開人工智能高質(zhì)量高質(zhì)量數(shù)據(jù)集評估標(biāo)準(zhǔn)制定工作,并輸出《面向人工智能的數(shù)據(jù)集質(zhì)量通用評估方法總體要求》。大數(shù)據(jù)質(zhì)量要求一級指標(biāo)大數(shù)據(jù)質(zhì)量要求一級指標(biāo)人工智能數(shù)據(jù)集質(zhì)量要求人工智能數(shù)據(jù)集質(zhì)量要求數(shù)據(jù)鏈路來源記錄數(shù)據(jù)鏈路來源記錄性元數(shù)據(jù)語義有效采集時間代表性語義有效采集時間代表性智能貢獻性數(shù)據(jù)源復(fù)雜度時間空間領(lǐng)域?qū)I(yè)數(shù)據(jù)集領(lǐng)域覆蓋數(shù)據(jù)結(jié)構(gòu)更新頻率采集過程元數(shù)據(jù)管理版本控制上下文抗攻擊性領(lǐng)域覆蓋數(shù)據(jù)結(jié)構(gòu)更新頻率采集過程元數(shù)據(jù)管理版本控制上下文抗攻擊性時間空間任務(wù)覆蓋數(shù)據(jù)真實安全隱私響應(yīng)速度數(shù)據(jù)源模態(tài)覆蓋二級指標(biāo)信息覆蓋數(shù)據(jù)真實安全隱私響應(yīng)速度數(shù)據(jù)源模態(tài)覆蓋二級指標(biāo)信息覆蓋險按照“規(guī)則檢測+人工抽樣+模型效果”的“三道關(guān)卡”融合方案展開人工智能高質(zhì)量數(shù)據(jù)集評估平臺的搭建工作,優(yōu)化并實現(xiàn)評估指標(biāo)的有效落地,破解當(dāng)前評價體系實施難題,確保評估標(biāo)準(zhǔn)精準(zhǔn)銜接實際工作。人工抽樣模型效果規(guī)則檢測人工抽樣模型效果驗驗果檢測方法整檢測方法檢測方法主觀指標(biāo)主觀指標(biāo)客觀指標(biāo)成立背景:成立背景:AIIA產(chǎn)業(yè)數(shù)據(jù)組于2021年5月成立,圍繞人工智能數(shù)據(jù)集開展多項合作研究工作,建設(shè)數(shù)據(jù)集資源分享平臺。為促進通用人工智能發(fā)展,解決大模型數(shù)據(jù)短缺及質(zhì)量問題,2023年9月正式升級為AIIA數(shù)據(jù)委員會。職責(zé)定位職責(zé)定位主要任務(wù)主要任務(wù)組織架構(gòu)組織架構(gòu)工作機制工作機制 成員單位成員單位工作四:生態(tài)合作—啟動人工智能數(shù)據(jù)服務(wù)產(chǎn)業(yè)鏈圖譜編制人工智能數(shù)據(jù)服務(wù)產(chǎn)業(yè)是人工智能高質(zhì)量數(shù)據(jù)集的核心生產(chǎn)力。人工智能數(shù)據(jù)服務(wù)產(chǎn)業(yè)圖譜旨在清晰展現(xiàn)人工智能數(shù)據(jù)服務(wù)領(lǐng)域關(guān)鍵技術(shù)、工具平臺、運營服務(wù)、人才培養(yǎng)以及行業(yè)應(yīng)用等產(chǎn)業(yè)關(guān)鍵要素,涵蓋數(shù)據(jù)采集、清洗、標(biāo)注、評估、共享、流通等數(shù)據(jù)全生命周期環(huán)節(jié)。模型生命周期模型生命周期數(shù)據(jù)要素市場化人工智能高質(zhì)量數(shù)據(jù)集行業(yè)應(yīng)用人工智能數(shù)據(jù)服務(wù)產(chǎn)業(yè)鏈數(shù)據(jù)標(biāo)注培養(yǎng)運營服務(wù)工具數(shù)據(jù)要素市場化人工智能高質(zhì)量數(shù)據(jù)集行業(yè)應(yīng)用人工智能數(shù)據(jù)服務(wù)產(chǎn)業(yè)鏈數(shù)據(jù)標(biāo)注培養(yǎng)運營服務(wù)工具平臺關(guān)鍵技術(shù)才人20AIIA數(shù)據(jù)委員會2024年第一季度工作進展總結(jié)密切與各方溝通,開展系列線上、線下活動;推動數(shù)據(jù)集系列標(biāo)準(zhǔn)研制,持續(xù)建設(shè)基準(zhǔn)測試數(shù)據(jù)集;密切與各方溝通,開展系列線上、線下活動;推動數(shù)據(jù)集系列標(biāo)準(zhǔn)研制,持續(xù)建設(shè)基準(zhǔn)測試數(shù)據(jù)集;4月成立

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論