T-CAPT 013-2024 新聞行業(yè) 大規(guī)模預訓練模型 多模態(tài)要求_第1頁
T-CAPT 013-2024 新聞行業(yè) 大規(guī)模預訓練模型 多模態(tài)要求_第2頁
T-CAPT 013-2024 新聞行業(yè) 大規(guī)模預訓練模型 多模態(tài)要求_第3頁
T-CAPT 013-2024 新聞行業(yè) 大規(guī)模預訓練模型 多模態(tài)要求_第4頁
T-CAPT 013-2024 新聞行業(yè) 大規(guī)模預訓練模型 多模態(tài)要求_第5頁
已閱讀5頁,還剩71頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

ICS35.240CCSL70CAPT求NewsIndustry—Large-scalepre-trainedmodels—Requirmentsformulti-modalIT/CAPT013—2024前言 42規(guī)范性引用文件 43術語和定義 44多模態(tài)新聞任務要求 54.1概述 54.2多模態(tài)新聞報道 54.3多模態(tài)新聞理解 64.4多模態(tài)新聞檢索 64.5多模態(tài)新聞編輯 75多模態(tài)研發(fā)數(shù)據(jù)要求 85.1概述 85.2預訓練數(shù)據(jù) 85.3微調數(shù)據(jù) 96多模態(tài)大模型任務評測要求 6.1評測執(zhí)行方法 6.2評測指標 6.3評測框架 7多模態(tài)新聞任務安全性要求 7.1數(shù)據(jù)保護 7.2內容審核 7.3身份驗證 7.4透明度和可解釋性 7.5資質與合規(guī)性 7.6應急響應 附錄A(資料性)多模態(tài)任務評測示例 20A.1多模態(tài)新聞報道類 A.2多模態(tài)新聞理解類 A.3多模態(tài)新聞檢索類 A.4多模態(tài)新聞編輯類 附錄B(資料性)多模態(tài)大模型技術參考資料 31B.1模型架構 B.2訓練算法 B.3硬件要求 參考文獻 T/CAPT013—2024本文件按照GB/T1.1—2020《標準化工作導則第1部分:標準化文件的結構和起草規(guī)則》的規(guī)定起草。請注意本文件的某些內容可能涉及專利。本文件的發(fā)布機構不承擔識別專利的責任。本文件由中國新聞技術工作者聯(lián)合會新聞信息標準化分會秘書處和新華通訊社通信技術局聯(lián)合提本文件由中國新聞技術工作者聯(lián)合會歸口。本文件起草單位:中國傳媒大學、新華通訊社通信技術局、視覺(中國)文化發(fā)展股份有限公司、大眾報業(yè)集團(大眾日報社)、武漢鏑次元數(shù)據(jù)科技有限公司、傳播大腦科技(浙江)股份有限公司、廣東南方新媒體股份有限公司、中國搜索信息科技股份有限公司、新華社媒體融合生產(chǎn)技術與系統(tǒng)國家重點實驗室(新華融合媒體科技發(fā)展(北京)有限公司)、新華通訊社北美總分社、深圳市創(chuàng)意智慧港科技有限責任公司(深圳報業(yè)集團技術公司)、中聯(lián)超清(北京)科技有限公司、福建理工大學。本文件主要起草人:路海燕、曹娟、劉瓊、張鵬洲、王駿清、湯代祿、魏漫江、劉麗芳、張健、王兵、龍飛、蔡金慧、席懿婷、張震、李姝蒙、王瓊、陳志業(yè)、郭永康、王永興、羅毅、林波、成鵬、王仲豪、熊立波、王慕維、王宇琦、瞿曦、鄧海瀅、鄭創(chuàng)偉、王付生、王熠、瞿弋微、王志民、楊士龍、黃菁、張建偉、付蓉。T/CAPT013—2024《新聞行業(yè)大規(guī)模預訓練模型》系列標準由語言模型實用性要求、語言模型評測要求、語言模型安全性要求和研發(fā)數(shù)據(jù)要求、多模態(tài)要求5部分組成。分別從實用性、評測、安全性、研發(fā)數(shù)據(jù)和多模態(tài)等多個角度出發(fā),構建了一個完整的標準體系,確保大規(guī)模預訓練模型在新聞行業(yè)中的有效、安全和規(guī)范使用。旨在為新聞領域大規(guī)模預訓練模型的研發(fā)、應用和評估提供全面而系統(tǒng)的指導?!缎侣勑袠I(yè)大規(guī)模預訓練模型語言模型實用性要求》明確了預訓練語言模型在完成新聞任務時的使用場景要求、效果要求以及產(chǎn)品化要求。該標準為模型的實際應用提供了具體指導,確保模型在真實新聞生產(chǎn)過程中具備足夠的實用性和效果。《新聞行業(yè)大規(guī)模預訓練模型語言模型評測要求》為評估這些預訓練語言模型提供了詳盡的方法和指標。該標準規(guī)定了新聞行業(yè)預訓練語言模型的評測指標和評測方法要求,并給出了具體的評測示例,以確保評測過程的科學性和規(guī)范性。《新聞行業(yè)大規(guī)模預訓練模型語言模型安全性要求》詳細規(guī)定了在內容、數(shù)據(jù)、合規(guī)和技術等環(huán)節(jié)中所涉及的安全性要求。該標準旨在保障預訓練模型在新聞領域的應用中,能夠遵守相關法律法規(guī),確保數(shù)據(jù)安全、內容合規(guī)?!缎侣勑袠I(yè)大規(guī)模預訓練模型研發(fā)數(shù)據(jù)要求》針對用于訓練、微調和評估預訓練模型的所有數(shù)據(jù),提出了技術要求。該標準確保了在預訓練模型研發(fā)過程中,數(shù)據(jù)的質量和規(guī)范性,從而提升模型的性能和可靠性。《新聞行業(yè)大規(guī)模預訓練模型多模態(tài)要求》規(guī)定了預訓練模型在研發(fā)、應用、評測和安全性等方面的要求,特別是在處理多模態(tài)數(shù)據(jù)時的技術標準。該標準的制定,進一步拓展了預訓練模型的應用范圍,使其在多模態(tài)新聞內容生成和處理方面也能高效、可靠地發(fā)揮作用。5個標準的緊密銜接和相互配合,為新聞行業(yè)的大規(guī)模預訓練模型構建了一個全面而系統(tǒng)的框架,為新聞領域大規(guī)模預訓練模型的開發(fā)和應用提供了堅實的基礎和有力的保障。4T/CAPT013—2024新聞行業(yè)大規(guī)模預訓練模型多模態(tài)要求本文件規(guī)定了新聞行業(yè)大規(guī)模預訓練模型多模態(tài)的新聞任務、研發(fā)數(shù)據(jù)、任務評測以及安全性等要本文件適用于通訊社、報社、廣播電臺、電視臺、雜志社、網(wǎng)絡媒體等多種媒體機構在新聞領域進行多模態(tài)大規(guī)模預訓練模型研發(fā)、部署、應用、評測和安全管理。2規(guī)范性引用文件下列文件中的內容通過文中的規(guī)范性引用而構成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T22240信息安全技術網(wǎng)絡安全等級保護定級指南GB/T35273信息安全技術個人信息安全規(guī)范GB/T37988信息安全技術數(shù)據(jù)安全能力成熟度模型TC260-003生成式人工智能服務安全基本要求3術語和定義GB/T41867界定的以及下列術語和定義適用于本文件。3.1大規(guī)模預訓練模型large-scalepre-trainedmodels一種具有大規(guī)模參數(shù)和復雜計算結構的超大型機器學習模型(一般超過10億個參數(shù)通常由深度神經(jīng)網(wǎng)絡構建,對海量數(shù)據(jù)進行預訓練處理。3.2預訓練pre-training在大量通用數(shù)據(jù)上進行模型訓練的過程。3.3微調fine-tuning為提升人工智能模型的預測精確度,一種先以大型廣泛領域數(shù)據(jù)集訓練,再以小型專門領域數(shù)據(jù)集繼續(xù)訓練的附加訓練技術。注:常用于解決過擬合問題。[來源:GB/T41867—2022,3.2.31]3.4微調數(shù)據(jù)finetuningdata針對新聞理解、生成、編輯等具體任務,用于模型微調的標注數(shù)據(jù)。3.5多模態(tài)大模型multimodallargemodels利用大規(guī)模多模態(tài)數(shù)據(jù)(包括文本、圖像、音視頻等)進行預訓練,并通過微調適應新聞領域特定任務的大型人工智能模型。3.6預訓練數(shù)據(jù)pre-trainingdata用于模型預訓練的大量新聞相關多模態(tài)數(shù)據(jù),包括新聞報道、圖像、音視頻等。3.7指令/提示詞prompt給預訓練模型提示輸入模型的參數(shù)信息,描述問題需求類型,幫助模型更好地理解輸入的意圖,并5T/CAPT013—2024作出相應的響應。3.8問答questionanswering確定以自然語言提供的問題最合適答案的任務。[來源:GB/T41867—2022,3.3.9]4多模態(tài)新聞任務要求4.1概述在多模態(tài)新聞業(yè)務場景下,利用大型預訓練模型完成的任務涵蓋了從新聞報道生成、新聞理解、新聞檢索到新聞編輯等多個方面,旨在為用戶提供全面、多樣化的新聞服務和體驗。各分類要求如下:4.2多模態(tài)新聞報道4.2.1概述多模態(tài)新聞報道旨在利用多種數(shù)據(jù)類型,如文本、圖像、視頻、音頻等,為用戶呈現(xiàn)豐富多樣的新聞內容。主要包括:視頻報道生成、圖文報道生成、語音報道生成和虛擬主播新聞生成。4.2.2視頻報道生成視頻報道生成要求包括:a)基于用戶輸入的文本內容,可提供符合新聞事實的圖像、視頻等素材,利用大型預訓練模型自動生成符合新聞事件描述的視頻內容;b)設計問題指令時,要求模型根據(jù)提供的詳細文本描述生成一段視頻,描述其中涉及的人物、場景、動作、攝影角度、光線和色調等視覺效果,但不能脫離新聞事實;c)模型根據(jù)文本描述生成一段視頻內容,準確還原文本中描述的新聞事件,包括人物動作、表情,場景布置以及整體視覺效果。生成的視頻可作為視頻新聞報道的素材,也可經(jīng)過后期編輯制作成完整的視頻報道。4.2.3圖文報道生成圖文報道生成要求包括:a)基于用戶輸入的文本內容,從龐大的新聞素材庫中檢索相關的圖像、視頻或其他模態(tài)內容,并與文本進行匹配,為用戶提供相關的多模態(tài)報道;b)設計問題指令時,要求模型根據(jù)提供的文本描述,生成一段圖文內容,描述其中涉及的人物、場景、事件發(fā)展過程,以及其他相關細節(jié)。指明報道應包含相關的圖片和文字內容,以豐富和詳細地呈現(xiàn)文本描述的情景和事件;c)模型經(jīng)過深度分析后得到的文本核心內容和主旨摘要,結合用戶輸入的文本主旨以及從素材庫中檢索到的高質量文本、圖像和視頻內容。在報道中,合理地插入所選圖片和視頻,并確保整篇報道內容連貫、圖文并茂,為讀者提供豐富而直觀的閱讀體驗。4.2.4語音報道生成語音報道生成要求包括:a)利用大型預訓練模型,將文本內容轉化為語音形式,并配以相應的音頻效果,以自動生成符合新聞事件描述的語音內容;b)設計問題指令時,要求模型根據(jù)提供文本描述,生成一段語音報道,描述其中涉及的人物、場景、事件發(fā)展過程,以及其他相關細節(jié)。指明報道應包含適當?shù)恼Z調和語速,以生動地呈現(xiàn)文本描述的情景和事件;c)模型根據(jù)文本內容對應的情緒標簽,在預設的音頻庫中搜索并選擇能與該情緒相契合的背景音樂或音效,并結合完整的新聞報道文字和檢索到的配樂,利用語音合成技術生成一段包含6T/CAPT013—2024清晰語音播報和恰當配樂的音頻新聞報道。報道中的語音應具有清晰的聲音、適中的語速,與配樂同步,營造出恰當?shù)男侣劮諊?.2.5虛擬主播新聞生成虛擬主播新聞生成要求包括:a)將新聞內容呈現(xiàn)為由虛擬主播播報的視頻形式;b)設計問題指令時,要求模型根據(jù)提供的完整新聞報道內容,生成一段高質量的虛擬主播新聞報道視頻。要求視頻中虛擬主播的唇形與新聞報道的文本內容相同步,手勢動作與新聞內容相匹配,且虛擬主播形象非真人;c)模型根據(jù)指令生成一段高質量的虛擬主播新聞報道視頻,其中虛擬主播的表現(xiàn)生動自然,唇形與文本同步,虛擬主播動作與新聞內容相匹配,且非真人形象。4.3多模態(tài)新聞理解4.3.1概述多模態(tài)新聞理解涉及對多模態(tài)新聞內容進行深入分析和理解,旨在從中提取出關鍵信息并為用戶呈現(xiàn)。主要包括:新聞事件綜合分析、新聞事件視頻精縮和新聞視頻生成圖文摘要。4.3.2新聞事件綜合分析新聞事件綜合分析要求包括:a)通過對文本、圖片、視頻等多模態(tài)新聞數(shù)據(jù)進行深度分析,從不同模態(tài)的信息中挖掘和總結新聞事件的重要內容、關聯(lián)關系和趨勢;b)設計問題指令時,要求模型檢測文本中所描述的事件,并提取相關信息,分析文本中所表達的情感傾向,如積極、消極、中性等;c)模型根據(jù)指令生成的新聞事件綜合分析,其中包括事件的主題、時間、地點、參與者以及文本的情感傾向分析。分析報告應全面、準確,并突出不同模態(tài)信息之間的關聯(lián)性和一致性。4.3.3新聞事件視頻精縮新聞事件視頻精縮要求包括:a)對新聞視頻進行內容摘要和精簡,以提煉出關鍵信息和精彩片段,幫助用戶快速了解新聞事件的核心內容。識別視頻中的人物或對象的行為,并確定其所處的狀態(tài)或動作,從視頻中提取關鍵幀等;b)設計問題指令時,要求模型識別視頻中的人物或對象的行為,并確定其狀態(tài)或動作,同時從視頻中提取關鍵幀。要求模型識別音頻中的不同說話人,并確定他們的身份或特征,同時從音頻中提取關鍵詞或關鍵短語;c)生成結果包含視頻中相關人員的具體行為或動作的描述,以及對具體身份特征和關鍵短語的描述。4.3.4新聞視頻生成圖文摘要新聞視頻生成圖文摘要要求包括:a)通過分析新聞視頻的內容和用戶需求,自動生成簡潔清晰的文字摘要和相關圖像,幫助用戶快速了解新聞事件的要點和重點內容;b)設計問題指令時,要求模型識別文本中的實體,如人名、地名、組織名、關鍵詞或關鍵短語等。檢測圖像中的對象并確定其位置和類別,確定其所屬的類別或類型,運動軌跡等;c)生成結果能概括視頻的主要信息,包括文本摘要、關鍵詞、圖像描述和視頻摘要等內容。這些摘要將新聞事件的要點、關鍵信息以及視頻中的關鍵場景、重要動作整合在一起,以圖文結合的形式呈現(xiàn)給用戶,幫助用戶快速了解新聞視頻的內容。4.4多模態(tài)新聞檢索4.4.1概述7T/CAPT013—2024利用不同模態(tài)的輸入數(shù)據(jù),如文本、圖片、視頻等,從龐大的新聞素材庫中檢索相關內容。主要包括:跨模態(tài)新聞素材檢索、新聞視頻片段定位和多模態(tài)新聞事件檢索。4.4.2跨模態(tài)新聞素材檢索跨模態(tài)新聞素材檢索要求包括:a)根據(jù)用戶給定的文本描述或其他模態(tài)的輸入(如圖片),從大量新聞素材庫中檢索出相關的圖像、視頻或其他模態(tài)的內容;b)設計問題指令時,需明確指定檢索的新聞主題,詳細描述所需素材的內容特征,包括但不限于事件、人物、組織機構、地點等關鍵元素。應指定素材的模態(tài)類型(如圖片、視頻);c)生成的跨模態(tài)新聞素材檢索結果應嚴格與用戶指定的主題相關,全面覆蓋事件的關鍵點和亮4.4.3新聞視頻片段定位新聞視頻片段定位要求包括:a)在長時間的新聞視頻中,根據(jù)文本查詢或其他模態(tài)的提示,快速定位到視頻中具有特定內容的片段。該場景關注于如何快速準確地從大量新聞視頻中定位到包含特定內容的片段;b)設計問題指令時,需提供具體的文本描述或關鍵詞,明確指出想要檢索的視頻片段內容,包括但不限于事件、人物、組織機構、地點等關鍵元素。如果適用,也可描述任何相關的圖像、音頻或其他模態(tài)信息,以輔助定位。如可能,還可指出哪些內容特征是定位過程中的優(yōu)先考慮因素;c)生成的新聞視頻片段定位結果,應包含與文本查詢或模態(tài)提示直接相關的特定內容,提供片段的確切時間戳或位置信息,便于用戶直接訪問。4.4.4多模態(tài)新聞事件檢索多模態(tài)新聞事件檢索要求包括:a)利用多種媒體形式(文本、圖像、視頻等)來檢索、識別和跟蹤新聞事件。與跨模態(tài)新聞素材檢索相比,多模態(tài)新聞事件檢索更側重于對整個新聞事件的理解和分析,而不僅僅是在單個模態(tài)(如文本、圖片或視頻)上進行檢索;b)設計問題指令時,需提供新聞事件的詳細描述或關鍵詞,以明確檢索的主題。需指出需要對事件進行的分析深度,如概述、詳細分析或趨勢跟蹤。需指定希望檢索的媒體形式,如文本、圖像、視頻等;c)結果應盡可能覆蓋事件的所有相關方面,展示不同模態(tài)內容之間的聯(lián)系,如視頻片段與相關新聞報道的鏈接。生成結果應組織有序,按照指令要求的檢索與分析深度,便于用戶根據(jù)時間線或主題進行查看。4.5多模態(tài)新聞編輯4.5.1概述多模態(tài)新聞編輯是對文本、圖片、視頻等不同形式的內容進行綜合處理和優(yōu)化,旨在提高新聞內容的質量和表現(xiàn)形式。主要包括:多模態(tài)新聞內容審校、多模態(tài)新聞視頻再創(chuàng)作和多模態(tài)新聞圖片二次編輯。4.5.2多模態(tài)新聞內容審校多模態(tài)新聞內容審校要求包括:a)對新聞報道的多模態(tài)內容進行審核和校對,確保其符合新聞報道的真實性、客觀性和合法性要求;b)設計問題指令時,要求模型對多模態(tài)新聞報道進行審校,包括文本內容的事實核查、圖片和視頻的真實性驗證,以及多模態(tài)內容之間的一致性和連貫性檢查;8T/CAPT013—2024c)審校結果包括對文本內容的修改建議或確認、對圖片和視頻真實性的驗證結果,以及對多模態(tài)內容之間關聯(lián)性和連貫性的評估。審校結果應指出可能存在的錯誤或不準確之處,并提供改進建議,以確保新聞報道的準確性和可信度。4.5.3多模態(tài)新聞視頻再創(chuàng)作多模態(tài)新聞視頻再創(chuàng)作要求包括:a)對現(xiàn)有的新聞視頻進行再次編輯和創(chuàng)作;b)設計問題指令時,要求模型根據(jù)新聞視頻進行再創(chuàng)作,包括剪輯、配音、特效添加等處理,以及對視頻結構和敘事方式的重新設計;c)再創(chuàng)作后的視頻應包括經(jīng)過剪輯處理的新聞內容、新增的配音和特效效果,以及重新設計的視頻結構和敘事方式。4.5.4多模態(tài)新聞圖片二次編輯多模態(tài)新聞圖片二次編輯要求包括:a)對新聞報道中的圖片內容進行二次編輯和處理;b)設計問題指令時,要求模型包括對圖片的修剪、調色、濾鏡處理等美學調整,以及對圖片內容的標注、說明文字的添加等信息補充;c)生成結果包括調整圖片的大小、顏色、對比度等參數(shù),同時包括在圖片中添加文字、圖標或其他圖像元素,以便更好地表達新聞內容或符合特定的視覺風格。5多模態(tài)大模型研發(fā)數(shù)據(jù)要求5.1概述新聞行業(yè)多模態(tài)大模型的研發(fā)數(shù)據(jù)分為預訓練數(shù)據(jù)和微調數(shù)據(jù)。5.2預訓練數(shù)據(jù)5.2.1概述在預訓練階段,多模態(tài)模型通過分析大規(guī)模、多樣性數(shù)據(jù)集來學習通用知識,以增強泛化能力。數(shù)據(jù)需高質量、無偏見和準確標注,確保了樣本類型均衡,避免模型偏向。5.2.2類型要求類型要求包括:a)大規(guī)模數(shù)據(jù)集:確保數(shù)據(jù)集擁有足夠的規(guī)模,以支持深度學習模型的有效訓練;b)多模態(tài)數(shù)據(jù)類型:數(shù)據(jù)集應包含圖像、文本、視頻、音頻等多種數(shù)據(jù)類型,并確保各類型數(shù)據(jù)量均衡,以防模型偏向某一特定模態(tài)。此外,這些數(shù)據(jù)類型應能在信息表達上相互補充,形成多模態(tài)協(xié)同處理能力;c)場景覆蓋:數(shù)據(jù)涵蓋廣泛真實世界場景,并展示多模態(tài)表現(xiàn);d)知識領域覆蓋:數(shù)據(jù)集應包含來自至少3個不同專業(yè)領域的數(shù)據(jù)。這樣的要求旨在增強數(shù)據(jù)集在多個行業(yè)或學科中的適用性和實用性;e)任務類型支持:數(shù)據(jù)集應能支持多種跨模態(tài)任務,如視頻字幕生成、圖像和視頻的文本描述生成、視聽同步檢測等;f)交互數(shù)據(jù):加入用戶交互數(shù)據(jù),如問答對和用戶評論,不僅應支持傳統(tǒng)的文本基礎對話系統(tǒng)和情感分析的模型訓練,還應包括語音和視覺反饋。例如,包含視頻回應、語音指令以及基于圖像的用戶反饋;g)文化和語言:包括多種文化背景和語言的數(shù)據(jù),確保模型能處理不同語言和方言。此外,應包括與特定文化相關的圖像、視頻和音頻內容,以促進模型在視覺和聽覺上的跨文化理解。例如,包含不同地區(qū)的傳統(tǒng)活動、節(jié)日慶典的視覺表現(xiàn)以及地方語言的音頻樣本;9T/CAPT013—2024h)模態(tài)融合和協(xié)同處理:數(shù)據(jù)集應體現(xiàn)不同模態(tài)之間的互補性和融合能力。例如,確保圖像數(shù)據(jù)可與相關的文本數(shù)據(jù)相結合,提供視覺場景的語義理解,或者音視頻數(shù)據(jù)與對應的情感標簽緊密結合,支持復雜的情感分析任務;i)上下文理解和場景再現(xiàn):在多模態(tài)數(shù)據(jù)集中包括上下文信息,如時間、地點、社會文化背景等,使模型能在處理數(shù)據(jù)時考慮到這些因素,從而更好地理解和再現(xiàn)真實世界的復雜場景;j)異常檢測和不一致性標識:在數(shù)據(jù)集中特別標注那些模態(tài)之間存在不一致或異常的例子,如圖像中的物體與描述不符的文本,或聲音與視頻不同步的情況。5.2.3格式要求格式要求包括:a)模態(tài)對齊:確保不同模態(tài)間數(shù)據(jù)對齊,圖像中的對象與描述它的文本對應,視頻動作與音頻解釋同步;b)格式標準化:為每種模態(tài)定義格式和質量標準,確保數(shù)據(jù)具有一致的處理質量和格式;c)跨模態(tài)標注:為圖像、視頻和音頻數(shù)據(jù)提供文本描述、對象標簽、情感分析等,并確保與視覺或聽覺內容相關;d)富元數(shù)據(jù):包括圖像的拍攝地點和時間,視頻的時長,音頻的采樣率等信息;e)圖像+文本數(shù)據(jù)集:確保所有圖像-文本對來自可驗證且信譽良好的數(shù)據(jù)源,每個圖像-文本對需經(jīng)過質量檢驗,確保圖像清晰,文本描述準確無誤。圖像-文本對應關系需清晰標注,如對象標簽、詳細描述及情感分析;f)視頻+文本數(shù)據(jù)集:視頻來源于經(jīng)過認證的內容提供者,確保視頻與字幕的時間軸同步。視頻應清晰無模糊,音頻清晰可辨,文本準確描述視頻內容;g)音頻+文本數(shù)據(jù)集:音頻數(shù)據(jù)集來自標準語音庫,音頻清晰度和文本轉錄的準確性需達到預定標準。音頻文件應包含詳細的元數(shù)據(jù),如錄音環(huán)境、說話者信息和語言;h)其他多模態(tài)數(shù)據(jù)集:包括但不限于文本、圖像、視頻和音頻的組合。確保所有數(shù)據(jù)格式統(tǒng)一,支持跨模態(tài)分析與處理。數(shù)據(jù)集中應包含交互式元素,如用戶問答對和評論數(shù)據(jù),以支持對話系統(tǒng)和情感分析的模型訓練。5.2.4來源要求來源要求包括:a)多模態(tài)數(shù)據(jù)源:確保數(shù)據(jù)來源的多樣性,涵蓋社交媒體、新聞網(wǎng)站、科學文章、公共圖像庫和視頻庫等。所有數(shù)據(jù)來源應是可靠和權威的,例如官方發(fā)布、專業(yè)機構或經(jīng)過驗證的數(shù)據(jù)集。同時,對數(shù)據(jù)源進行記錄,包括發(fā)布日期、作者信息及其憑據(jù);b)同步采集:對于涉及多種數(shù)據(jù)類型的場景,保證時間同步性,如視頻中音頻與圖像內容的匹配。5.3微調數(shù)據(jù)5.3.1概述微調是將已經(jīng)訓練好的模型通過少量特定的數(shù)據(jù)集進行再訓練,以適應具體應用的過程。微調數(shù)據(jù)的質量直接影響模型在真實世界場景中的表現(xiàn)。因此,這些數(shù)據(jù)需要是高質量、具代表性且細粒度標注5.3.2多模態(tài)新聞報道數(shù)據(jù)類型微調數(shù)據(jù)類型應覆蓋文本、圖像、視頻和音頻等模態(tài),以貼合新聞報道的多樣化傳播渠道,并確保能支持包括自動生成新聞摘要和新聞分類在內的特定任務。數(shù)據(jù)集需覆蓋各種類型的新聞主題,如政治、經(jīng)濟、娛樂等,以提供全面的視角,增加報道的廣度和深度。數(shù)據(jù)來源T/CAPT013—2024來源上要求多元化,涵蓋新聞發(fā)布機構、專題論壇、社交媒體等。這些數(shù)據(jù)應覆蓋廣度長的時間范圍,證實事件的時序性和歷史背景。數(shù)據(jù)來源應包括實時信息、過往新聞文本和報道材料。微調數(shù)據(jù)集需符合相關隱私法規(guī),確保個人信息得到匿名化處理,并確保內容獲得授權,特別是版權受限的素材。數(shù)據(jù)規(guī)模數(shù)據(jù)集規(guī)模應適中,不必與預訓練數(shù)據(jù)的海量程度等同,但應具備足夠的樣本來代表新聞領域的廣泛主題和風格。確保數(shù)據(jù)集在結構上與新聞行業(yè)報道統(tǒng)一,反映準確的新聞格式和風格。數(shù)據(jù)質量所有模態(tài)的數(shù)據(jù)應清晰無歧義,并向用戶提供精準的新聞信息。需經(jīng)過嚴格的質量控制流程,以高準確度滿足新聞行業(yè)的專業(yè)標準。微調數(shù)據(jù)集需要具有精準的交叉模態(tài)標注,包括但不限于圖像中對象的文本描述、視頻關鍵幀的注釋等,確保新聞內容語義的準確表達與完整性標簽。數(shù)據(jù)集應允許對模型進行有意義的評估,以驗證微調數(shù)據(jù)的效果,并確定模型在多模態(tài)新聞報道任務中的表現(xiàn)。5.3.3多模態(tài)新聞理解數(shù)據(jù)類型微調數(shù)據(jù)應包含傳統(tǒng)的新聞報道類型,并且包括為新聞理解任務提供專門優(yōu)化的定向數(shù)據(jù)類型。微調數(shù)據(jù)應包括最新的新聞語言用法和專業(yè)術語,確保模型在語言理解上與行業(yè)發(fā)展同步。數(shù)據(jù)來源數(shù)據(jù)來源應包括實時新聞報道和過往新聞報道,確保數(shù)據(jù)集在時效性、歷史性和專業(yè)性上有足夠保數(shù)據(jù)集應包含多領域和多文化背景的內容,以支持模型的跨域適應性和地域多樣性理解。數(shù)據(jù)規(guī)模確保數(shù)據(jù)規(guī)模可促使模型從多個角度全面理解新聞事件,數(shù)據(jù)需要覆蓋新聞的不同時間點和觀點,并展示多種表述方式。數(shù)據(jù)集應支持模型的可擴展性和增量學習能力,允許模型適應新信息,并維護已有知識的穩(wěn)定性。數(shù)據(jù)質量數(shù)據(jù)質量應與新聞理解任務高度匹配,內容應涉及事件的全面詳情和深度背景分析,確保無誤導性,并提供信息源頭的明確標記。數(shù)據(jù)集需要符合所采用模型架構的特征提取和輸入格式要求,尤其要允許模型在真實世界應用場景中有效地評估任務相關的性能和優(yōu)化空間。5.3.4多模態(tài)新聞檢索數(shù)據(jù)類型數(shù)據(jù)類型包括文本、圖像、視頻、音頻等類型,其中文本數(shù)據(jù)包括新聞標題、正文、作者、發(fā)布時間等文本信息。圖像數(shù)據(jù)包括與新聞相關的圖片或圖表。視頻數(shù)據(jù)包括與新聞相關的視頻素材。音頻數(shù)據(jù)包括與新聞相關的音頻素材。數(shù)據(jù)來源數(shù)據(jù)來源廣泛,包括新聞網(wǎng)站、平臺、機構、社交媒體和開放數(shù)據(jù)源等。這些渠道提供多樣的多模態(tài)新聞內容,如報道、采訪視頻、社交媒體用戶發(fā)布的文本、圖片、視頻等。T/CAPT013—2024利用開放數(shù)據(jù)源,如政府公共數(shù)據(jù)和研究機構數(shù)據(jù)集,獲取更豐富的多模態(tài)新聞數(shù)據(jù)。這些來源為多模態(tài)新聞檢索系統(tǒng)提供豐富的資源,支持系統(tǒng)對各種形式的新聞內容進行檢索和分析。在獲取和使用數(shù)據(jù)時,需合法合規(guī)地保護用戶隱私和版權。數(shù)據(jù)規(guī)模數(shù)據(jù)規(guī)模通常包括文本數(shù)量,可按條目或字數(shù)統(tǒng)計。應確保數(shù)據(jù)足夠豐富,涵蓋各個領域和類型的新聞。圖像數(shù)據(jù)包括新聞配圖、圖表和照片等,應滿足用戶搜索和瀏覽的需求。視頻數(shù)據(jù)應涵蓋報道和采訪等各類視頻,以覆蓋多樣的新聞事件和主題。音頻數(shù)據(jù)包括廣播和專訪錄音等,應滿足用戶對新聞音頻內容的需求。數(shù)據(jù)質量數(shù)據(jù)應準確反映現(xiàn)實情況,全面覆蓋各領域和主題,確保新聞內容、圖像、視頻等信息無誤導性或錯誤。數(shù)據(jù)應及時更新,反映最新新聞事件和信息,確保用戶獲得最新資訊。數(shù)據(jù)需具備多樣性,涵蓋各種主題和領域,以滿足用戶多樣化需求。同時,數(shù)據(jù)應易于使用和理解,提供清晰明了的界面和信息展示,方便用戶檢索和瀏覽。數(shù)據(jù)應遵循隱私保護原則,確保用戶個人信息和隱私安全,合法合規(guī)地處理和使用用戶數(shù)據(jù)。5.3.5多模態(tài)新聞編輯數(shù)據(jù)類型數(shù)據(jù)類型包括文本數(shù)據(jù)類型(如標題、正文、作者、發(fā)布時間)、圖像數(shù)據(jù)類型(如配圖、統(tǒng)計圖表)、視頻數(shù)據(jù)類型(如報道視頻、采訪視頻)、音頻數(shù)據(jù)類型(如廣播、專訪錄音)。數(shù)據(jù)包括元數(shù)據(jù)(描述信息、標簽、分類、關鍵詞)、編輯操作數(shù)據(jù)(編輯、修訂、審核)、發(fā)布渠道(網(wǎng)站、移動應用、社交媒體等)、版本控制(版本號、更新記錄)、安全審查(敏感信息審核、版權審核)。數(shù)據(jù)來源通過與新聞機構、媒體公司以及第三方數(shù)據(jù)提供商的合作,獲取他們發(fā)布的多模態(tài)新聞內容或購買其提供的服務。利用社交媒體監(jiān)測工具,監(jiān)測社交媒體平臺上用戶發(fā)布的多模態(tài)新聞內容。利用開放數(shù)據(jù)源,獲取多模態(tài)新聞數(shù)據(jù),也可通過收集用戶生成的多模態(tài)新聞內容來豐富數(shù)據(jù)資源。數(shù)據(jù)規(guī)模覆蓋多個領域和主題的新聞內容,內容豐富多樣。包含各種形式的新聞內容,以滿足不同用戶的需求和偏好。數(shù)據(jù)質量新聞內容應準確可靠,避免錯誤或誤導性的信息,以提高用戶對系統(tǒng)的信任度。在獲取和使用新聞數(shù)據(jù)時,應遵守相關的版權法律法規(guī),確保數(shù)據(jù)的合法合規(guī)性,保護知識產(chǎn)權和用戶權益。及時更新新聞內容,確保用戶獲取到最新的消息和資訊,提高系統(tǒng)的實用性和吸引力。6多模態(tài)大模型任務評測要求6.1評測執(zhí)行方法6.1.1基本要求新聞行業(yè)多模態(tài)預訓練語言模型評測的執(zhí)行,首先按照6.1.3方法,基于第4章:多模態(tài)新聞任務要求中的問題設計,使用6.1.4工具,輸入在6.1.2環(huán)境中的待評測預訓練大模型,得到對應問題的答案,T/CAPT013—2024按照6.1.5方法,參考6.2中評測指標規(guī)范,根據(jù)評測問題類別,具體參考6.3中的對應問題評測方法,對答案進行人工評分,綜合定量衡量大模型的好壞,給出不同維度的評測結果。參考評測示例見附錄A。6.1.2評測環(huán)境根據(jù)被測模型的功能手冊,應按照被測系統(tǒng)的使用要求進行軟硬件環(huán)境配置。6.1.3評測數(shù)據(jù)集應滿足以下要求,其中涉及到具體數(shù)值的可根據(jù)評測需求進行適當調整:a)應通過新聞專家構建、權威數(shù)據(jù)集篩選等方式進行評估數(shù)據(jù)集的構建;b)應為每類評價任務構建不少于100條,滿足第4章各類任務要求的數(shù)據(jù)集;c)數(shù)據(jù)集應結合新聞時效性、多樣性、價值性的要求,定期更新維護。6.1.4評測工具針對開放應用程序編程接口(ApplicationProgrammingInterface,API)和不開放API的兩種系統(tǒng),應準備兩種評測工具:a)對開放API的預訓練模型系統(tǒng),應編寫調用API的測試工具,進行輸入問題的批量請求,獲取結果。b)對不開放API的預訓練模型系統(tǒng),應進行終端上的使用(例如web或者APP),提供用戶界面(UserInterface,UI)或其他可輸入問題、獲取結果的辦法。6.1.5評測執(zhí)行評測執(zhí)行的具體步驟如下,其中涉及到具體數(shù)值或比例的可根據(jù)評測需求進行適當調整:a)對6.1.3的評測數(shù)據(jù)集,使用6.1.4的評測工具,對每個評測問題執(zhí)行3~5次,或按第4章問題指令要求執(zhí)行相應次數(shù),將問題和多個答案對應記錄;b)對于“問題-答案”對,若有標準答案則直接判斷對錯,多個答案的分值以算術平均計算總得c)無標準答案的問題,采用多專家雙盲人工評分(Double-BlindExpertRating,DBER)方案,讓專家在雙盲情況下對“問題-答案”中提供對應問題的人類優(yōu)質答案、行業(yè)領先或其他對比模型答案進行匿名對比評測;d)專家根據(jù)評測問題類別具體參考6.3中的對應問題評測方法對答案進行評分,以不同維度的加權得分作為單個答案得分,不同問題的答案可計算算術平均或根據(jù)具體需求計算加權平均。若不同專家對同一樣本的評分方差較大,可先進行均值對齊(MeanCalibration,MC),這有助于消除不同專家之間的主觀偏差,使得評分更加客觀和一致;e)統(tǒng)計所有評測項目的DBER-MC分數(shù),以總分數(shù)乘以60%作為及格分,分析各項評測項目下待評測模型的可用性;f)若進行了與行業(yè)領先或其他模型的對比,則根據(jù)同一問題下不同答案的分數(shù)高低,分數(shù)高者記為勝出,統(tǒng)計計算勝出率(WinRate)(同分數(shù)樣本計一半),分析各項評測項目下待評測模型對比行業(yè)其他模型的領先性;g)若進行了人工優(yōu)質答案的對比,則根據(jù)同一問題下不同答案的分數(shù)高低,分數(shù)高者記為勝出,統(tǒng)計計算勝出率(WinRate)(同分數(shù)樣本計一半),分析各項評測項目下待評測模型對比人工優(yōu)質答案的出彩性。6.2評測指標6.2.1概述新聞行業(yè)預訓練多模態(tài)大模型各任務生成結果應符合專業(yè)性、可靠性、適用性、融合性要求。6.2.2專業(yè)性基本要求T/CAPT013—2024專業(yè)性要求旨在判斷大模型生成結果的新聞行業(yè)專業(yè)標準和價值取向體現(xiàn)情況。評測維度包括內容、結構、語言3個子維度。內容大模型生成的新聞信息內容質量能匹配新聞行業(yè)中的主要應用場景下的需求,確保模型產(chǎn)出及整合的新聞內容(文本、圖像、音頻和視頻)的事實的準確性、數(shù)據(jù)的正確引用能力和引用來源的可靠性。結構大模型生成的新聞信息結構符合新聞專業(yè)標準,確保模型能生成格式正確、具有清晰結構與邏輯的語言大模型生成的新聞信息語言能符合新聞傳播場景的風格需求,確保模型在使用專業(yè)術語時準確無誤,在不同模態(tài)(文本、圖像、音頻、視頻)中使用的術語定義、用法與專業(yè)領域的標準一致,并且使用最新的專業(yè)術語。6.2.3可靠性基本要求可靠性要求應保證大模型在新聞行業(yè)使用過程中的安全、合法、可信賴,減少、防止大模型的不良輸出或侵權行為。評測維度包括安全、可控、可解釋3個子維度。安全大模型生成內容應符合國家法律法規(guī)和行業(yè)規(guī)范,尊重知識產(chǎn)權和個人隱私,遵守道德和公序良俗,符合社會主義核心價值觀,可參考法律法規(guī)等相關文件對前述要求作出具體規(guī)定和建立負面清單??煽卮竽P驮谶M行媒體工作時,能理解并遵循指令中的限制性、傾向性要求,以生成符合用戶傾向的專業(yè)結果,保證大模型的輸出是可被輸入控制的,且專業(yè)性不發(fā)生明顯衰減??山忉尨竽P驮谶M行媒體工作時,能清楚地說明其在新聞行業(yè)中的工作原理和邏輯推理過程,以便用戶進行核查檢驗,從而提高大模型的可信度和可靠性。6.2.4適用性基本要求適用性要求大模型應適應新聞行業(yè)的領域多樣性和用戶需求多樣化,反映大模型在新聞行業(yè)中的實際效果和用戶體驗。評測維度包括靈活、兼容、創(chuàng)新3個子維度。靈活大模型在進行不同領域的媒體工作時,能處理多樣性的新聞素材輸入,包括文字、圖像、視頻等多種形式的信息,根據(jù)不同領域的新聞需求自動調整表達方式和輸出結果。兼容大模型在進行媒體工作時,對于同樣需求、不同風格描述語言的問題輸入,能給出符合需求的回答。創(chuàng)新指大模型在媒體行業(yè)中的應用能顯示自身的創(chuàng)新能力和價值貢獻,尤其是對于開放性生成任務。6.2.5融合性基本要求T/CAPT013—2024融合性評測指標應反映大模型理解與生成的內容在多個維度上保持統(tǒng)一與連貫,并且具有良好的功能擴展能力。評測維度包括理解、表達、功能3個子維度。理解大模型在多模態(tài)交互過程中,能理解不同模態(tài)數(shù)據(jù)的語義信息,并將其整合到統(tǒng)一的語義空間中,確保捕捉到不同模態(tài)數(shù)據(jù)之間的語義關聯(lián)性,從而實現(xiàn)對多模態(tài)數(shù)據(jù)的一致性理解。表達大模型生成的多模態(tài)內容在不同媒體形式下能保持一致,確保傳達的新聞主題和風格統(tǒng)一而連貫。功能大模型能通過各種API接入不同的服務和工具,為其提供更廣泛的功能拓展,進而實現(xiàn)更豐富、更多樣化的應用。6.3評測框架6.3.1多模態(tài)新聞報道類基本要求按4.2下的4個子類別,基于6.2評測維度以及各類別的具體要求,按6.1方法執(zhí)行評測。視頻報道生成按4.2.2生成評測問題,基于6.2評測維度,按6.1方法執(zhí)行評測,該子類別評測框架見表1。表1視頻報道生成類人工評測框架符合新聞傳播場景的風格需求,確保模型在使點確保視頻內文本、圖像和語音在語義層面上意確保視頻中的多模態(tài)內容實現(xiàn)新聞主題和風格的統(tǒng)一圖文報道生成按4.2.3生成評測問題,基于6.2評測維度,按6.1方法執(zhí)行評測,該子類別評測框架見表2。表2圖文報道生成類人工評測框架符合新聞傳播場景的風格需求,確保模型在使T/CAPT013—2024表2圖文報道生成類人工評測框架(續(xù))語音報道生成按4.2.4生成評測問題,基于6.2評測維度,按6.1方法執(zhí)行評測,該子類別評測框架見表3。表3語音報道生成類人工評測框架符合新聞傳播場景的風格需求,確保模型在使語音提供的附加信息(如語調、重音)能恰當?shù)胤从澄奶摂M主播新聞生成按4.2.5生成評測問題,基于6.2評測維度,按6.1方法執(zhí)行評測,該子類別評測框架見表4。表4虛擬主播新聞生成類人工評測框架符合新聞傳播場景的風格需求,確保模型在使模型可接受多種類型、多種文件格式的輸入數(shù)據(jù);對在不同新聞場合和頻道中,能根據(jù)媒介特點調整虛多模態(tài)交互過程中,能理解不同模態(tài)數(shù)據(jù)的6.3.2多模態(tài)新聞理解類基本要求按4.3下的3個子類別,基于6.2評測維度以及各類別的具體要求,按6.1方法執(zhí)行評測。新聞事件綜合分析按4.3.2生成評測問題,基于6.2評測維度,按6.1方法執(zhí)行評測,該子類別評測框架見表5。T/CAPT013—2024表5新聞事件綜合分析類人工評測框架分析報告能清晰定義新聞事件的各個方面,并有條符合新聞傳播場景的風格需求,確保模型在使分析新聞素材時能把握不同模態(tài)中相同信息的不同表達,整合多個新聞源的分析時,能保持一個一致的新聞事件視頻精縮按4.3.3生成評測問題,基于6.2評測維度,按6.1方法執(zhí)行評測,該子類別評測框架見表6。表6新聞事件視頻精縮類人工評測框架符合新聞傳播場景的風格需求,確保模型在使模型可接受多種類型、多種文件格式的輸入數(shù)據(jù);對本質一致表支持對各種質量和風格的視頻內容進行精縮,以適應不同能識別多模態(tài)之間的關鍵語義信息,并將其融視頻精縮后能保持新聞主題和風格的統(tǒng)一新聞視頻生成圖文摘要按4.3.4生成評測問題,基于6.2評測維度,按6.1方法執(zhí)行評測,該子類別評測框架見表7。表7新聞視頻生成圖文摘要類人工評測框架符合新聞傳播場景的風格需求,確保模型在使模型可接受多種類型、多種文件格式的輸入數(shù)據(jù);對本質一致表能根據(jù)新聞視頻的性質、內容復雜度、媒介特生成的圖文摘要能清晰傳達視頻的中心思想,并與視頻T/CAPT013—2024基本要求按4.4下的3個子類別,基于6.2評測維度以及各類別的具體要求,按6.1方法執(zhí)行評測??缒B(tài)新聞素材檢索按4.4.2生成評測問題,基于6.2評測維度,按6.1方法執(zhí)行評測,該子類別評測框架見表8。表8跨模態(tài)新聞素材檢索類人工評測框架模型可接受多種類型、多種文件格式的輸入數(shù)據(jù);對本質一致、檢索到各模態(tài)下全面的內容,且檢索到的模態(tài)內容應與輸入模新聞視頻片段定位按4.4.3生成評測問題,基于6.2評測維度,按6.1方法執(zhí)行評測,該子類別評測框架見表9。表9新聞視頻片段定位類人工評測框架多模態(tài)新聞事件檢索按4.4.4生成評測問題,基于6.2評測維度,按6.1方法執(zhí)行評測,該子類別評測框架見表10。表10多模態(tài)新聞事件檢索類人工評測框架6.3.4多模態(tài)新聞編輯類基本要求按4.5下的3個子類別,基于6.2評測維度以及各類別的具體要求,按6.1方法執(zhí)行評測。多模態(tài)新聞內容審校T/CAPT013—2024按4.5.2生成評測問題,基于6.2評測維度,按6.1方法執(zhí)行評測,該子類別評測框架見表11。表11多模態(tài)新聞內容審校類人工評測框架多模態(tài)新聞視頻再創(chuàng)作按4.5.3生成評測問題,基于6.2評測維度,按6.1方法執(zhí)行評測,該子類別評測框架見表12。表12多模態(tài)新聞視頻再創(chuàng)作類人工評測框架多模態(tài)新聞圖片二次編輯按4.5.4生成評測問題,基于6.2評測維度,按6.1方法執(zhí)行評測,該子類別評測框架見表13。表13多模態(tài)新聞圖片二次編輯類人工評測框架與輸入素材風格一致,簡潔、明了,能在短模型可接受多種類型、多種文件格式的輸入數(shù)據(jù);對本質一致、表13多模態(tài)新聞圖片二次編輯類人工評測框架(續(xù))T/CAPT013—2024理解跨模態(tài)內容表達的情感色彩、情緒氛圍以及作確保原始圖片中的信息得到準確傳遞,在內容、色彩、比例等7多模態(tài)新聞任務安全性要求7.1數(shù)據(jù)保護在收集和使用個人敏感信息方面,應符合GB/T35273中的要求進行管理。在提供服務時,應向用戶提供個人隱私政策相關服務條款。在收集用戶信息時,應明確告知用戶信息種類、范圍、目的和使用范圍,并允許用戶自主選擇是否接受,允許用戶關閉共享輸入數(shù)據(jù)。7.2內容審核需建立專門的內容審核部門,負責日常的內容監(jiān)控和應急處理。需設立安全委員會,負責聯(lián)動組織內各部門和監(jiān)督內容審核部門的工作,以及協(xié)調各內外部組織落實安全相關的規(guī)章制度和安全架構設計。需建立相關內容審核關鍵詞庫,由專門團隊和人員管理與維護,定期進行更新。可采用自研或采購第三方內容風控服務商的相關服務,完善安全審核機制與流程。應具備覆蓋TC26-003附錄A中涉及的17種安全風險關鍵詞庫,并定期進行更新。7.3身份驗證應在向用戶提供相關服務前進行注冊并進行實名認證。應對用戶輸入的內容進行檢測,可采用關鍵詞、分類模型等多種方式,用戶連續(xù)三次或一天內累計五次輸入違法不良信息或明顯誘導生成違法不良信息的,應依法依約采取暫停提供服務等處置措施。應拒答用戶主觀惡意、有明顯偏激和誘導的輸入。7.4透明度和可解釋性以交互界面提供服務的應在醒目位置標明服務的相關條款,隱私政策和適用人群范圍等信息。由人工智能生成的多模態(tài)內容中應有顯性水印標識和隱性水印標識,標明內容是由人工智能生成。對于圖片、音頻、視頻應在內容生成區(qū)域框下方或用戶輸入信息區(qū)域添加“AI生成”或“人工智能生成”的標識。由人工智能生成的圖片、音頻、視頻以文件輸出時,應在文件元數(shù)據(jù)中增加相應字段標識內容由人工智能生成,包括模型信息、服務提供方信息、內容生成時間信息,宜使用可信時間戳技術手段確保內容可存證及溯源。7.5資質與合規(guī)性組織和訓練大模型或提供生成式人工智能服務時,應具備基本數(shù)據(jù)安全能力,應達到GB/T37988—2019中規(guī)定的2級水平,宜達到3級。同時考慮規(guī)模、價值等因素,不應低于GB/T22240—2020中規(guī)定的二級,宜達到三級。如服務只面向則企業(yè)內部生成環(huán)節(jié)使用,無需進行模型備案。如提供具有輿論屬性或者社會動員能力的生成式人工智能服務的則需依照國家有關規(guī)定進行備案手續(xù)。訓練數(shù)據(jù)如包含知識產(chǎn)權內容,應有合法合規(guī)的采購協(xié)議,避免侵犯知識產(chǎn)權。7.6應急響應應建立專門的應急響應團隊,處理安全事件。應制定詳細的應急預案,包括事件相應流程和通知程序等。除上述要求外,其他安全性要求可參考《新聞行業(yè)大規(guī)模預訓練模型語言模型安全性要求》。T/CAPT013—2024多模態(tài)任務評測示例A.1多模態(tài)新聞報道類A.1.1視頻報道生成指令:生成一個多模態(tài)新聞報道,主題為“2024年全球開發(fā)者先鋒大會”。報道應包括文本描述,結合已有視頻素材。文本內容應詳細介紹大會的主題、“模速空間開發(fā)者的模力之源”,包括開幕式、頂尖青年開發(fā)者交流會、前沿技術講壇的主要活動,并突出特邀發(fā)言人扎克·卡斯和史蒂夫·霍夫曼的演講內容。描述應指引觀眾關注視頻中的關鍵時刻和發(fā)言人的重要觀點。確保文本與視頻內容高度相關,增強信息傳遞。歡迎收看我們對2024年全球開發(fā)者先鋒大會的特別報道。本屆大會在西岸穹頂藝術中心以及油罐和B館等地盛大開幕,以“模速空間開發(fā)者的模力之源”為主題,旨在展示開發(fā)者社區(qū)的創(chuàng)新力量和科技潛能。請關注視頻中的開幕式場景,您將看到來自全球的開發(fā)者和科技愛好者齊聚一堂,熱情高漲。本次大會集聚了超過100個開發(fā)者社區(qū),通過一系列精彩活動展現(xiàn)了科技與產(chǎn)業(yè)發(fā)展的緊密聯(lián)系。特別值得一提的是,視頻將帶您深入了解兩位特邀發(fā)言人的精彩演講。扎克·卡斯將討論人工智能的商業(yè)化途徑,而史蒂夫·霍夫曼則分享了他的硅谷創(chuàng)業(yè)經(jīng)驗。請注意他們演講中的關鍵觀點,這些內容對于理解當前科技趨勢至關重要。此外,不要錯過頂尖青年開發(fā)者交流會的部分,這是一個青年才俊們展示創(chuàng)新想法和技術解決方案的平臺。視頻中的這些交流場景充滿活力,反映了全球開發(fā)者社區(qū)的活躍交流和合作精神。通過本報道,我們希望帶給您全面的大會動態(tài),展示如何通過科技創(chuàng)新驅動產(chǎn)業(yè)進步,并由產(chǎn)業(yè)發(fā)展反哺人才培養(yǎng),形成良性循環(huán)。感謝您的觀看,敬請期待更多精彩內容。A.1.2圖文報道生成指令:生成一個圖文報道,主題為“中央氣象臺發(fā)布強對流天氣藍色預警”。報道應包括詳細的文本描述和配套的圖像選擇。文本內容應詳細介紹預警的具體內容,包括受影響地區(qū)、預計的天氣現(xiàn)象(如雷暴大風、冰雹和強降水)、以及建議的防范措施。圖像應選擇反映天氣狀況的照片或圖表,如雷暴云圖、受影響地區(qū)地圖等。確保圖像內容與文本描述高度相關,以提供信息豐富、視覺吸引的報道體驗。生成結果:文本描述:中央氣象臺于5月10日18時繼續(xù)發(fā)布強對流天氣藍色預警,警告即將來臨的惡劣天氣條件。預計從5月10日20時至11日20時,多個地區(qū)將經(jīng)歷極端天氣現(xiàn)象,包括8級以上的雷暴大風和可能的冰雹。受影響的地區(qū)包括遼寧西部、河北東南部、天津南部、山東西北部等地,這些地區(qū)將可能面臨雷暴大風。特別是在貴州中北部和湖南中西部等地,局部地區(qū)的雷暴大風力度可能會超過10級,最大風力達到11級以上。此外,包括黑龍江西南部、安徽南部、江蘇東北部和南部在內的多個地區(qū),將有短時強降水天氣,小時雨量可能超過20毫米。在安徽南部、江蘇西南部、貴州中東部等地,局部地區(qū)的小時雨量可能大于50毫米,最大可達70毫米以上。中央氣象臺呼吁所有受影響地區(qū)的居民保持警惕,避免戶外活動,并采取必要的防范措施以保護人身和財產(chǎn)安全。圖像描述:雷暴云圖像:顯示當前雷暴云的衛(wèi)星圖像,突出顯示受影響地區(qū)。T/CAPT013—2024受影響地區(qū)地圖:詳細地圖標出所有受雷暴大風和強降水影響的地區(qū)。防災準備指南圖:圖形化展示如何在家中安全應對雷暴大風和強降水的簡要指南。A.1.3語音報道生成指令:生成一個語音報道,主題為“全球氣候變化對農(nóng)業(yè)的影響”。報道應包括詳細的文本描述,隨后轉化為語音格式。文本內容應詳細介紹由于全球變暖導致的主要農(nóng)業(yè)問題、具體受影響的地區(qū)、及其對當?shù)剞r(nóng)業(yè)產(chǎn)量的具體影響。此外,請?zhí)峁┻m應和緩解策略的建議。要求語音清晰、專業(yè),適合廣播。生成結果:文本描述:“在全球氣候變化的大背景下,農(nóng)業(yè)正面臨前所未有的挑戰(zhàn)。溫度的持續(xù)升高、不規(guī)律的降雨模式和極端天氣事件的增多,對世界各地的農(nóng)作物生產(chǎn)構成了嚴重威脅。特別是在非洲的撒哈拉以南地區(qū)、亞洲的東南部以及南美的部分地區(qū),這些地方的農(nóng)業(yè)生產(chǎn)尤為脆弱,面臨嚴重的生產(chǎn)下降。農(nóng)作物如玉米、小麥和稻米的產(chǎn)量已經(jīng)開始受到氣候變化的負面影響。例如,印度的部分地區(qū)由于持續(xù)高溫和降雨量不足,預計未來十年內稻米產(chǎn)量可能下降10%到15%。此外,非洲的一些國家由于干旱和高溫,玉米產(chǎn)量急劇下降,嚴重影響了當?shù)氐氖澄锇踩娃r(nóng)民的生計。面對這些挑戰(zhàn),農(nóng)業(yè)部門需要采取適應和緩解措施。一是改進灌溉系統(tǒng),確保水資源的有效使用;二是培育耐旱和耐熱的作物品種;三是提高農(nóng)業(yè)科技,例如使用衛(wèi)星監(jiān)測和數(shù)據(jù)分析來優(yōu)化種植計劃和作物管理。現(xiàn)在讓我們聆聽這段專題報道,詳細了解全球氣候變化如何影響我們的糧食生產(chǎn)和我們可采取哪些措施來應對這一挑戰(zhàn)?!闭Z音輸出:模型將上述文本轉化為語音格式,使用清晰、流暢的聲音進行播報,適合在廣播或在線媒體上播放。語音報道以專業(yè)的口吻介紹信息,背景可加入輕微的音樂或自然聲音以增強聽眾的聆聽體驗。A.1.4虛擬主播新聞生成指令:生成一個虛擬主播新聞報道的腳本和行為指南,主題是“最新技術在教育中的應用”。報道應包括教育技術的最新發(fā)展,如虛擬現(xiàn)實(VR)、增強現(xiàn)實(AR)在學校的應用示例,以及這些技術如何改變教學方式。要求虛擬主播的表達要清晰、專業(yè),并具有親和力。請描述虛擬主播的視覺呈現(xiàn)、語音風格和與觀眾的互動方式?!按蠹液?,我是今天的虛擬主播小智。在本期新聞中,我們將探索最新技術如何在教育領域中發(fā)揮革命性作用。隨著虛擬現(xiàn)實和增強現(xiàn)實技術的進步,全球各地的學校正在這些技術上進行大膽嘗試,以提高教學質量和學生的學習體驗。這些技術的引入,不僅使學習過程更加生動有趣,還幫助學生獲得更深刻的知識理解。接下來,讓我們看一段在一所學校使用VR技術的視頻。”虛擬主播行為指南:視覺呈現(xiàn):虛擬主播“小智”應設計為一個年輕的、充滿活力的形象,穿著簡潔現(xiàn)代的服裝。在報道中,背景應展示高科技感的虛擬環(huán)境。語音風格:小智的語音應清晰、流暢,帶有一定的專業(yè)性,同時保持友好的語調以吸引和保持觀眾的注意力。互動方式:在報道的過程中,小智可提問觀眾,例如“你想體驗一下VR化學實驗室嗎?”或“你認為AR技術在歷史教學中的應用如何?”這些互動可通過新聞節(jié)目的社交媒體平臺進行,增加觀眾的參與度。A.2多模態(tài)新聞理解類A.2.1新聞事件綜合分析T/CAPT013—2024指令:請檢測以下文本中所描述的新聞事件,提取相關信息并進行深度分析。分析應包括事件的主題、時間、地點、參與者以及文本中的情感傾向(如積極、消極、中性)。此外,請結合文本、圖片和視頻等多模態(tài)數(shù)據(jù),挖掘和總結新聞事件的重要內容、關聯(lián)關系和趨勢。文本描述:在某某市,2024年5月10日,一場大型慈善活動成功舉辦,數(shù)千名志愿者參與其中,幫助分發(fā)食品和衣物給有需要的市民?;顒蝇F(xiàn)場充滿歡聲笑語,志愿者們積極互動,傳遞愛心和溫暖。圖片描述:一張圖片顯示,志愿者們微笑著將食品和衣物分發(fā)給市民。人們臉上洋溢著感激的笑容,現(xiàn)場氣氛溫馨和諧。視頻描述:視頻片段顯示,活動現(xiàn)場熱鬧非凡,志愿者們忙碌地工作著。背景中可聽到人們的歡聲笑語和感激之情,志愿者與市民互動頻繁,場面感人。請根據(jù)以上內容生成新聞事件綜合分析。生成結果:主題:大型慈善活動時間:2024年5月10日地點:某某市參與者:志愿者、市民情感傾向:文本情感傾向:積極文本描述了數(shù)千名志愿者積極參與慈善活動,幫助有需要的市民,現(xiàn)場充滿歡聲笑語和溫馨氛圍,整體情感傾向積極。綜合分析:事件描述:2024年5月10日,某某市成功舉辦了一場大型慈善活動,吸引了數(shù)千名志愿者參與。他們幫助分發(fā)食品和衣物給有需要的市民,傳遞愛心和溫暖?;顒蝇F(xiàn)場充滿了積極的互動和感激之情,氣氛溫馨和諧。圖片分析:圖片顯示志愿者們微笑著將食品和衣物分發(fā)給市民,市民臉上洋溢著感激的笑容,現(xiàn)場氣氛溫馨和諧。志愿者們的積極行動和市民的感激反應,進一步突顯了活動的積極情感。視頻分析:視頻片段展示了熱鬧非凡的活動現(xiàn)場,志愿者們忙碌地工作,背景中充滿了人們的歡聲笑語和感激之情。志愿者與市民頻繁互動,場面感人,顯示出活動的成功和積極影響。關聯(lián)關系和趨勢:從文本、圖片和視頻多模態(tài)數(shù)據(jù)中可看出,慈善活動不僅有效幫助了有需要的市民,也促進了社區(qū)的團結和愛心傳播。這樣的積極活動有助于提升社會凝聚力和公眾參與感,預計未來可能會有更多類似的慈善活動舉辦。建議相關組織繼續(xù)推動此類活動,進一步擴大影響,鼓勵更多人參與其中,共同構建和諧美好的社會。A.2.2新聞事件視頻精縮指令:請對以下新聞視頻進行內容摘要和精簡,識別視頻中的人物或對象的行為,并確定其狀態(tài)或動作。同時,從視頻中提取關鍵幀,并識別音頻中的不同說話人,確定他們的身份或特征,提取音頻中的關鍵詞或關鍵短語。視頻描述:視頻顯示了某某市一場大型慈善活動的場景。志愿者們在分發(fā)食品和衣物給市民。視頻中可看到志愿者們微笑著與市民互動,背景中有歡聲笑語。視頻的后半部分采訪了一位名叫李華的志愿者,他描述了參與活動的感受和見聞。請生成包含以下內容的新聞事件視頻精縮結果:1.視頻中相關人員的具體行為或動作的描述。2.對具體身份特征和關鍵短語的描述。生成結果:T/CAPT013—2024視頻中相關人員的具體行為或動作的描述:志愿者分發(fā)食品和衣物:視頻開頭展示了志愿者們在分發(fā)食品和衣物給市民的場景。他們手持食品袋和衣物,微笑著遞給市民,并與他們交流互動。志愿者與市民互動:志愿者們不斷與市民交流,安慰和鼓勵他們,整個過程充滿了溫暖和關懷。志愿者李華的采訪:視頻后半部分,志愿者李華接受采訪時,面帶微笑,語氣真誠,描述了參與活動的感受和見聞。對具體身份特征和關鍵短語的描述:志愿者李華:一位名叫李華的志愿者,他是一名大學生,穿著印有活動標志的T恤,言談中充滿了對慈善活動的熱情。音頻關鍵詞和關鍵短語:“大型慈善活動”:李華在采訪中多次提到這次活動的規(guī)模和意義?!皫椭行枰娜恕保哼@是李華在采訪中強調的主要目標?!皭坌暮蜏嘏保豪钊A描述活動氛圍時使用的關鍵詞,反映了活動的積極情感?!爸驹刚呔瘛保豪钊A談到參與活動的志愿者們所展現(xiàn)的精神風貌。提取的關鍵幀:關鍵幀1:志愿者們分發(fā)食品和衣物時的場景,顯示了忙碌且溫馨的互動瞬間。關鍵幀2:市民接受食品和衣物時的笑臉,反映了他們的感激之情。關鍵幀3:志愿者李華接受采訪時的鏡頭,展示了他的個人特征和情感表達。A.2.3新聞視頻生成圖文摘要指令:請對以下新聞視頻進行分析,生成簡潔清晰的文字摘要和相關圖像,幫助用戶快速了解新聞事件的要點和重點內容。要求模型識別文本中的實體,如人名、地名、組織名、關鍵詞或關鍵短語等,檢測圖像中的對象并確定其位置和類別,確定其所屬的類別或類型,運動軌跡等。視頻描述:視頻顯示了某某市一場大型慈善活動的場景。志愿者們在分發(fā)食品和衣物給市民。視頻中可看到志愿者們微笑著與市民互動,背景中有歡聲笑語。視頻的后半部分采訪了一位名叫李華的志愿者,他描述了參與活動的感受和見聞。請生成包含以下內容的新聞視頻圖文摘要結果:1.文本摘要2.關鍵詞3.圖像描述4.視頻摘要生成結果:文本摘要:在某某市,2024年5月10日,一場大型慈善活動成功舉辦,數(shù)千名志愿者參與其中,幫助分發(fā)食品和衣物給有需要的市民。活動現(xiàn)場充滿歡聲笑語,志愿者們積極互動,傳遞愛心和溫暖。志愿者李華在接受采訪時,描述了參與活動的感受和見聞,稱此次活動讓他深刻體會到幫助他人的意義。關鍵詞:大型慈善活動志愿者李華分發(fā)食品和衣物愛心和溫暖某某市2024年5月10日圖像描述:圖像1:志愿者們微笑著將食品和衣物分發(fā)給市民。志愿者們身穿印有活動標志的T恤,手持食品袋和衣物,現(xiàn)場氣氛溫馨和諧。T/CAPT013—2024圖像2:市民們接過食品和衣物,臉上洋溢著感激的笑容。場景中可看到志愿者與市民互動頻繁,整個活動充滿了愛心和溫暖。圖像3:志愿者李華接受采訪時的鏡頭。他面帶微笑,身后是活動現(xiàn)場,周圍充滿了忙碌的志愿者和愉快的市民。視頻摘要:視頻展示了某某市舉行的大型慈善活動。數(shù)千名志愿者積極參與,分發(fā)食品和衣物給有需要的市民。視頻開頭展示了志愿者與市民互動的溫馨場景,志愿者們微笑著將食品和衣物遞給市民,市民們臉上露出感激的笑容。視頻的后半部分,采訪了一位志愿者李華,他描述了參與活動的感受,稱此次活動讓他深刻體會到幫助他人的意義。視頻中的關鍵場景和重要動作包括志愿者分發(fā)物資、與市民互動,以及李華的采訪片段,所有這些都體現(xiàn)了活動的成功和積極的社會影響。A.3多模態(tài)新聞檢索類A.3.1跨模態(tài)新聞素材檢索指令:請根據(jù)以下文本描述,從新聞素材庫中檢索出相關的圖片和視頻內容。要求檢索的新聞主題明確,詳細描述所需素材的內容特征,包括事件、人物、組織機構、地點等關鍵元素。應指定素材的模態(tài)類型新聞主題:某某市的環(huán)?;顒游谋久枋觯?024年6月5日,某某市舉辦了一場大型環(huán)保活動,成千上萬的市民參與其中,清理河道和公園,宣傳環(huán)保知識?;顒蝇F(xiàn)場氣氛熱烈,參與者們齊心協(xié)力,展示了強烈的環(huán)保意識和社會責任感。市長王偉在活動中發(fā)表講話,強調環(huán)保的重要性。請生成跨模態(tài)新聞素材檢索結果,確保結果與指定主題嚴格相關,全面覆蓋事件的關鍵點和亮點。生成結果:描述:志愿者們在河道邊清理垃圾。圖片中志愿者們穿著環(huán)?;顒拥臉酥綯恤,手持垃圾袋和工具,正在認真地清理垃圾。內容特征:事件:清理河道人物:志愿者地點:某某市河道邊描述:市民們在公園里宣傳環(huán)保知識。圖片展示了參與者們與過往市民互動,發(fā)放宣傳資料,講解環(huán)保的重要性。內容特征:事件:宣傳環(huán)保知識人物:市民、志愿者地點:某某市公園描述:市長王偉在活動中發(fā)表講話。他站在講臺上,背景是環(huán)?;顒拥臋M幅,旁邊站著幾位主要組織者。內容特征:事件:發(fā)表講話人物:市長王偉地點:某某市活動現(xiàn)場視頻1:描述:視頻開頭展示了志愿者們在河道邊清理垃圾的場景。志愿者們齊心協(xié)力,背景中有他們的歡T/CAPT013—2024聲笑語。內容特征:事件:清理河道人物:志愿者地點:某某市河道邊視頻2:描述:視頻片段中,市長王偉在活動中發(fā)表講話,強調環(huán)保的重要性。他站在講臺上,背景是環(huán)保活動的橫幅,現(xiàn)場氣氛熱烈。內容特征:事件:講話人物:市長王偉地點:某某市活動現(xiàn)場視頻3:描述:視頻展示了活動的整體氛圍,市民們在公園里宣傳環(huán)保知識,與過往行人互動,場面熱烈感內容特征:事件:宣傳環(huán)保知識人物:市民、志愿者地點:某某市公園A.3.2新聞視頻片段定位指令:請根據(jù)以下文本描述或關鍵詞,從長時間的新聞視頻中快速定位出相關的片段。明確指出想要檢索的視頻片段內容,包括但不限于事件、人物、組織機構、地點等關鍵元素。如可能,也可描述任何相關的圖像、音頻或其他模態(tài)信息,以輔助定位。新聞主題:某某市新建的風景公園開幕文本描述:2024年7月20日,某某市的新建風景公園正式開幕。市長王偉出席開幕儀式并剪彩,公園內有美麗的湖泊、茂密的森林和花壇。市民們在公園內散步、劃船,享受自然美景。請生成新聞視頻片段定位結果,確保結果與指定的文本查詢或模態(tài)提示直接相關,并提供片段的確切時間戳或位置信息,便于用戶直接訪問。生成結果:描述:市長王偉出席開幕儀式并剪彩。他站在講臺上,背景是新建的風景公園入口,周圍圍滿了觀眾,現(xiàn)場氣氛熱烈。時間戳:00:05:10-00:07:00內容特征:事件:開幕儀式人物:市長王偉地點:某某市新建風景公園視頻片段2:描述:公園內美麗的湖泊景色。視頻展示了湖泊周圍的景色,有市民在湖邊散步,幾艘小船在湖面上劃行。時間戳:00:08:30-00:09:45內容特征:事件:市民劃船和散步地點:某某市新建風景公園的湖泊視頻片段3:描述:公園內的茂密森林和花壇。視頻展示了茂密的樹林和色彩斑斕的花壇,市民們在林間小道上T/CAPT013—2024散步,孩子們在花壇旁玩耍。內容特征:事件:市民散步和玩耍地點:某某市新建風景公園的森林和花壇A.3.3多模態(tài)新聞事件檢索指令:請根據(jù)以下詳細描述或關鍵詞,進行多模態(tài)新聞事件檢索。明確檢索的主題,并進行深度分析,包括概述、詳細分析和趨勢跟蹤。請指定需要檢索的媒體形式,包括文本、圖像和視頻等。要求結果覆蓋事件的所有相關方面,展示不同模態(tài)內容之間的聯(lián)系,如視頻片段與相關新聞報道的鏈接。新聞主題:新型可穿戴科技產(chǎn)品發(fā)布文本描述:2024年7月15日,某某科技公司在某某市發(fā)布了一款新型可穿戴科技產(chǎn)品。該產(chǎn)品集成了最新的健康監(jiān)測和通信技術,能實時監(jiān)測用戶的健康數(shù)據(jù)并提供智能提醒。發(fā)布會上,公司CEO張偉詳細介紹了產(chǎn)品的創(chuàng)新點,并展示了產(chǎn)品的實際應用場景?,F(xiàn)場演示環(huán)節(jié)中,觀眾可體驗該產(chǎn)品的各種功能。請生成多模態(tài)新聞事件檢索結果,確保結果與指定主題嚴格相關,并按照概述、詳細分析和趨勢跟蹤的順序組織內容。提供相關媒體形式的鏈接和描述,便于用戶根據(jù)時間線或主題輕松導航。1.概述2024年7月15日,某某科技公司在某某市發(fā)布了一款新型可穿戴科技產(chǎn)品。該產(chǎn)品集成了最新的健康監(jiān)測和通信技術,能實時監(jiān)測用戶的健康數(shù)據(jù)并提供智能提醒。發(fā)布會上,公司CEO張偉詳細介紹了產(chǎn)品的創(chuàng)新點,并展示了產(chǎn)品的實際應用場景?,F(xiàn)場演示環(huán)節(jié)中,觀眾可體驗該產(chǎn)品的各種功能。關鍵詞:新型可穿戴科技產(chǎn)品、健康監(jiān)測、通信技術、實時監(jiān)測、智能提醒、某某科技公司發(fā)布會、張偉2.詳細分析文本報道:新聞文章1:標題:某某科技公司發(fā)布新型可穿戴科技產(chǎn)品,開啟健康監(jiān)測新紀元鏈接:點擊查看內容:文章詳細介紹了該產(chǎn)品的技術特點和創(chuàng)新點,包括集成的健康監(jiān)測傳感器、實時數(shù)據(jù)分析功能以及智能提醒系統(tǒng)。報道還提到了發(fā)布會上的演示環(huán)節(jié),觀眾對產(chǎn)品的反響。描述:公司CEO張偉在發(fā)布會上介紹新產(chǎn)品。背景顯示了產(chǎn)品的技術特點和功能演示。鏈接:點擊查看內容特征:事件:產(chǎn)品發(fā)布會人物:張偉(公司CEO)地點:某某市發(fā)布會現(xiàn)場描述:觀眾在現(xiàn)場體驗新型可穿戴科技產(chǎn)品。圖片展示了產(chǎn)品的實際應用場景,包括健康監(jiān)測和通信功能。鏈接:點擊查看內容特征:事件:現(xiàn)場演示人物:觀眾、志愿者地點:某某市發(fā)布會現(xiàn)場T/CAPT013—2024視頻1:描述:張偉在發(fā)布會上介紹新產(chǎn)品的功能和技術創(chuàng)新點。時間戳:00:03:10-00:05:45鏈接:點擊查看內容特征:事件:產(chǎn)品介紹人物:張偉(公司CEO)地點:某某市發(fā)布會現(xiàn)場視頻2:描述:觀眾在發(fā)布會現(xiàn)場體驗產(chǎn)品功能,包括健康數(shù)據(jù)實時監(jiān)測和智能提醒。時間戳:00:10:20-00:12:30鏈接:點擊查看內容特征:事件:現(xiàn)場演示人物:觀眾、志愿者地點:某某市發(fā)布會現(xiàn)場3.趨勢跟蹤趨勢分析:技術創(chuàng)新趨勢:該產(chǎn)品體現(xiàn)了當前可穿戴設備在健康監(jiān)測和通信技術上的最新進展,反映了行業(yè)對智能健康設備需求的增長。市場反響:發(fā)布會后,市場對新產(chǎn)品反應積極,社交媒體上出現(xiàn)大量討論和評價,用戶對產(chǎn)品的實用性和創(chuàng)新性表示認可。未來發(fā)展:預計未來將有更多科技公司推出類似的健康監(jiān)測設備,推動可穿戴設備市場的進一步發(fā)A.4多模態(tài)新聞編輯類A.4.1多模態(tài)新聞內容審校指令:請對以下多模態(tài)新聞報道進行審校,包括文本內容的事實核查、圖片和視頻的真實性驗證,以及多模態(tài)內容之間的一致性和連貫性檢查。請?zhí)峁徯=Y果,包括對文本內容的修改建議或確認、對圖片和視頻真實性的驗證結果,以及對多模態(tài)內容之間關聯(lián)性和連貫性的評估。指出可能存在的錯誤或不準確之處,并提供改進建議,以確保新聞報道的準確性和可信度。新聞主題:新型電動車發(fā)布文本描述:2024年8月10日,某某汽車公司在某某市發(fā)布了一款新型電動車。這款電動車采用了最新的電池技術,續(xù)航里程達到600公里。發(fā)布會上,公司CEO李明詳細介紹了這款電動車的創(chuàng)新設計和技術優(yōu)勢,并展示了車輛的自動駕駛功能?,F(xiàn)場演示環(huán)節(jié)中,觀眾可親自試駕體驗這款電動車的各項功能。圖片描述:1.圖片1:公司CEO李明在發(fā)布會上介紹新型電動車。背景顯示了車輛的技術特點和功能演示。2.圖片2:觀眾在試駕新型電動車,展示了車輛的自動駕駛功能和內飾設計。視頻描述:1.視頻1:李明在發(fā)布會上詳細介紹新型電動車的設計和技術優(yōu)勢。2.視頻2:觀眾在現(xiàn)場試駕體驗電動車的自動駕駛功能。請生成多模態(tài)新聞內容審校結果。生成結果:1.文本內容審校文本內容:2024年8月10日,某某汽車公司在某某市發(fā)布了一款新型電動車。這款電動車采用了最新的電池技T/CAPT013—2024術,續(xù)航里程達到600公里。發(fā)布會上,公司CEO李明詳細介紹了這款電動車的創(chuàng)新設計和技術優(yōu)勢,并展示了車輛的自動駕駛功能?,F(xiàn)場演示環(huán)節(jié)中,觀眾可親自試駕體驗這款電動車的各項功能。事實核查結果:日期和地點:確認無誤,2024年8月10日某某市確實舉辦了新型電動車發(fā)布會。公司和人物:某某汽車公司及其CEO李明的相關信息核查無誤。產(chǎn)品功能:該電動車確實采用了最新的電池技術,續(xù)航里程達到600公里,并具備自動駕駛功能。修改建議:文本內容準確且無明顯錯誤,無需修改。2.圖片真實性驗證圖片描述:圖片1:公司CEO李明在發(fā)布會上介紹新型電動車。背景顯示了車輛的技術特點和功能演示。圖片2:觀眾在試駕新型電動車,展示了車輛的自動駕駛功能和內飾設計。驗證結果:圖片1:經(jīng)過圖像分析和網(wǎng)上相關資料比對,確認該圖片真實,未發(fā)現(xiàn)編輯痕跡或不符事實的內容。圖片2:圖片與描述一致,顯示了觀眾試駕新型電動車的場景,未發(fā)現(xiàn)虛假信息。改進建議:兩張圖片均為真實可靠,無需修改。3.視頻真實性驗證視頻描述:視頻1:李明在發(fā)布會上詳細介紹新型電動車的設計和技術優(yōu)勢。視頻2:觀眾在現(xiàn)場試駕體驗電動車的自動駕駛功能。驗證結果:視頻1:通過視頻內容與發(fā)布會現(xiàn)場記錄對比,確認視頻中的人物和場景均真實,內容無誤。視頻2:視頻中觀眾試駕體驗電動車的場景與實際發(fā)布會記錄一致,未發(fā)現(xiàn)虛假信息。改進建議:兩段視頻均為真實可靠,無需修改。4.多模態(tài)內容一致性和連貫性檢查一致性和連貫性評估:文本與圖片:文本描述的發(fā)布會場景和電動車功能與圖片內容一致,顯示了李明介紹新型電動車以及觀眾試駕的場景。文本與視頻:文本描述的發(fā)布會內容和電動車功能與視頻內容一致,視頻展示了李明的演講和觀眾的試駕過程。圖片與視頻:圖片和視頻內容一致,均展示了發(fā)布會現(xiàn)場的真實場景,且相互補充,增強了報道的連貫性和真實性。改進建議:多模態(tài)內容之間具有良好的一致性和連貫性,無需修改。A.4.2多模態(tài)新聞視頻再創(chuàng)作指令:請根據(jù)以下新聞視頻進行再創(chuàng)作,包括剪輯、配音、特效添加等處理,并對視頻結構和敘事方式進行重新設計。要求再創(chuàng)作后的視頻更具吸引力和觀賞性,包含經(jīng)過剪輯處理的新聞內容、新增的配音和特效效果,以及重新設計的視頻結構和敘事方式。新聞主題:新型電動車發(fā)布原始視頻描述:2024年8月10日,某某汽車公司在某某市發(fā)布了一款新型電動車。這款電動車采用了最新的電池技術,續(xù)航里程達到600公里。發(fā)布會上,公司CEO李明詳細介紹了這款電動車的創(chuàng)新設計和技術優(yōu)勢,并展示了車輛的自動駕駛功能。現(xiàn)場演示環(huán)節(jié)中,觀眾可親自試駕體驗這款電動車的各項功能。請生成多模態(tài)新聞視頻再創(chuàng)作結果,包括剪輯處理的新聞內容、新增的配音和特效效果,以及重新設計的視頻結構和敘事方式。T/CAPT013—2024生成結果:1.視頻結構和敘事方式原始視頻結構:開場:公司CEO李明介紹新型電動車中間部分:展示電動車的技術優(yōu)勢和創(chuàng)新設計結尾:現(xiàn)場演示環(huán)節(jié),觀眾試駕體驗再創(chuàng)作視頻結構:開場:快速引入新型電動車的發(fā)布,配以動感的音樂和吸引眼球的特效標題。第一部分:CEO李明簡要介紹新車亮點,配以關鍵技術細節(jié)的圖形動畫。第二部分:深度展示電動車的核心技術,如電池續(xù)航和自動駕駛功能,添加技術演示的視覺特效。第三部分:觀眾試駕體驗,包含真實反饋的采訪片段,增加配音解說和背景音樂。結尾:總結電動車的市場前景和未來發(fā)展,配以激勵人心的音樂和畫面。2.剪輯處理的新聞內容開場剪輯:原始片段:公司CEO李明上臺介紹電動車。剪輯片段:使用快速切換的鏡頭展示發(fā)布會現(xiàn)場,并加上特效標題“新型電動車發(fā)布”。技術展示剪輯:原始片段:李明詳細介紹技術細節(jié)。剪輯片段:將長篇介紹剪輯成多個短片段,并插入技術演示的圖形動畫,使信息更易理解。試駕體驗剪輯:原始片段:觀眾試駕電動車。剪輯片段:剪輯出觀眾試駕的精彩片段,配以動

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論