版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
前 言5G視頻、全景視頻、自由視點視頻等)相繼本白皮書旨在提出視頻語義編碼技術(shù)架構(gòu),介紹了視頻語義編碼技術(shù)背景、典型應(yīng)用場景和相關(guān)技術(shù)方案,總結(jié)梳理了標(biāo)準(zhǔn)化進(jìn)展,并對未來技術(shù)發(fā)展趨勢進(jìn)行展望。目 錄視頻編碼技術(shù)總體發(fā)展態(tài)勢 2視頻編碼技術(shù)發(fā)展概述 5視頻編碼 5基于語義通信的編碼傳輸 7視頻語義編碼傳輸關(guān)鍵技術(shù) 10視覺感知編碼 11JND編碼 12ROI編碼 12生成式編碼 13跨模態(tài)編碼 15機器視覺編碼 16編碼數(shù)據(jù)傳輸 16媒體封裝 17流媒體傳輸 18標(biāo)準(zhǔn)化進(jìn)展及建議 20AI視頻編碼 21VR視頻編碼 22多視點視頻編碼 23面向機器的視頻編碼 23總結(jié)與展望 25縮略語列表 26參考文獻(xiàn) 28視頻編碼技術(shù)總體發(fā)展態(tài)勢5G5G-A50%發(fā)展更為高效智能的視頻編碼技術(shù),來迎接全新的大視頻時代。多元視覺指標(biāo)升級,引發(fā)超高清視頻編碼技術(shù)需求挑戰(zhàn)。表1-1HD、FHD及UHD視頻參數(shù)特點類別高清HD全高清FHD超高清UHD分辨率720p1280*7201080p1920*10804K3840*21608K7680*4320幀率30fps不低于30fps60fps120fps色彩色域Rec.709Rec.2020動態(tài)范圍SDRHDR碼率4-5Mbps4-10Mbps8-80Mbps32-240Mbps從“看得清”向“看得真”轉(zhuǎn)變,催生編碼技術(shù)升級VR3DoF3DoF+360°×垂直360°180°×垂直180°2DU2D2D圖像/VR和自由視點視頻編碼壓縮2D多視點視頻數(shù)據(jù)間的去冗余編碼等升級的編碼技術(shù)。視頻編碼不只追求人眼視覺質(zhì)量,還要高效地服務(wù)于機器視覺處理任務(wù)新應(yīng)用引發(fā)新需求,語義編碼技術(shù)“呼之欲出”視頻編碼作為底層基礎(chǔ)技術(shù),應(yīng)用廣泛,從傳統(tǒng)廣電傳媒可擴展覆蓋至金融、互聯(lián)網(wǎng)、工業(yè)、教育、新零售、醫(yī)療健康、交通物流、政務(wù)等行業(yè)。表1-2介紹了常見的應(yīng)用場景。
表1-2具有代表性的應(yīng)用場景場景 介紹需求/特點視頻通話中國移動5G新通話,微信、QQ、FaceTime等OTT視頻通話低延遲,低碼率;人臉為主要處理對象視頻會議中國移動云視訊、騰訊會議低延遲;參會人為主要處理對象視頻直播游戲直播、賽事直播、購物直播低延遲,超高清;沉浸式的流暢互動體驗安防監(jiān)控監(jiān)控視頻通常是全天候無間斷拍攝固定位置的場景,產(chǎn)生了海量的監(jiān)控視頻數(shù)據(jù),亟需高效的語義視頻編碼技術(shù)來減輕監(jiān)控視頻的存儲傳輸壓力工業(yè)視覺在工業(yè)視覺任務(wù)及應(yīng)用場景中,如機器大量視頻數(shù)據(jù),需要高效存儲和傳輸需提取與機器視覺任務(wù)強相關(guān)的語義信息進(jìn)行壓縮,進(jìn)一步提升機器視覺感知任務(wù)的性能。視頻語義編碼,即基于視頻內(nèi)容和語義特征(圖視頻編碼方法的性能瓶頸,為視頻產(chǎn)業(yè)注入新的活力,進(jìn)一步提升產(chǎn)業(yè)勢能,成為助推視頻產(chǎn)業(yè)高質(zhì)量發(fā)展的新動能。圖1-1高-中-低級語義特征示意圖視頻編碼技術(shù)發(fā)展概述視頻編碼視頻編碼技術(shù)歷經(jīng)幾十年的發(fā)展,國內(nèi)外視頻編碼標(biāo)準(zhǔn)更新迭代,如圖框架制定的視頻編碼標(biāo)準(zhǔn)包括:MPEG-1/2/4,H.261/2/3,(AdvancedCoding),(AudioandCodingStandardinChinaH.265/HEVC(HighEfficiencyCoding)H.266/VVCCoding)等[1]。圖2-1國內(nèi)外視頻編碼標(biāo)準(zhǔn)發(fā)展歷程雖然各種視頻編碼標(biāo)準(zhǔn)之間各有區(qū)別,但它們的編碼架構(gòu)都是類似的,混合編碼框架基本結(jié)構(gòu)如圖2-2所示。圖2-2傳統(tǒng)混合編碼框架VVC、基于預(yù)測/變換和熵編碼的混合編碼框架,但其諸多編碼工具和環(huán)節(jié)與前代視頻升。然而,在帶來顯著編碼性能提升的同時,編解碼的復(fù)雜度也顯著增加,這對實時編碼提出了巨大的挑戰(zhàn),同時壓縮效率的進(jìn)一步提升遭遇瓶頸。現(xiàn)更智能化、更高效的圖像視頻編碼,以期突破傳統(tǒng)視頻編碼方法的瓶頸。圖2-3神經(jīng)網(wǎng)絡(luò)圖像視頻編碼技術(shù)演進(jìn)路線圖2-3基于神經(jīng)網(wǎng)絡(luò)的視頻編碼技術(shù)。它們都經(jīng)歷了從單一網(wǎng)絡(luò)建模到模塊替換,再到端到端的螺旋式上升過程,技術(shù)迭代隨神經(jīng)網(wǎng)絡(luò)的發(fā)展而更新?;谏窠?jīng)網(wǎng)絡(luò)的視頻編碼技術(shù)方案可以歸納為兩類[2](1混合神經(jīng)網(wǎng)絡(luò)編2-2,藍(lán)色部分表示可以采用神經(jīng)網(wǎng)絡(luò)進(jìn)行替換[3]2-1。表2-1全神經(jīng)網(wǎng)絡(luò)編碼方法和混合神經(jīng)網(wǎng)絡(luò)編碼方法優(yōu)缺點比較方法優(yōu)點缺點全神經(jīng)網(wǎng)絡(luò)編碼(AI端到端編碼)突破傳統(tǒng)編碼方法的效率瓶頸;可實現(xiàn)超低碼率編碼;重建紋理更佳解碼復(fù)雜度較高;不同的模型相對獨立,碼流不能互通(AI輔助編碼)將傳統(tǒng)混合編碼框架中的主要模塊替換為經(jīng)離線訓(xùn)練過的深度學(xué)習(xí)模塊,進(jìn)一步提升編碼效果只是替代部分模塊,導(dǎo)致不同的模塊無法共同優(yōu)化以達(dá)到更高的性能目前,基于神經(jīng)網(wǎng)絡(luò)的視頻編碼更多的是探索網(wǎng)絡(luò)模型的組合堆積和復(fù)雜模塊的引入,未深入分析設(shè)計網(wǎng)絡(luò)模型特性、結(jié)構(gòu)特性等,如何設(shè)計并提出高效的端到端視頻編碼技術(shù)和解碼方法是亟需解決的問題。同時,如何實現(xiàn)不同模型的碼流互通,降低解碼端模型推理的硬件要求,實現(xiàn)移動端的高效部署也是該技術(shù)落地的關(guān)鍵。視頻語義編碼,衍生于傳統(tǒng)視頻編碼框架和基于神經(jīng)網(wǎng)絡(luò)的視頻編碼框架,同時也是兩種框架的全新引擎,可進(jìn)一步提升兩種編碼路線的編碼效率?;谡Z義通信的編碼傳輸AI相關(guān)技術(shù),提取原始輸入數(shù)據(jù)中與(關(guān)注語義層面(關(guān)注有效性層面2-42-5所示。圖2-4面向語義的通信[5]圖2-5面向目標(biāo)的語義通信[5]需要消耗大量的計算資源[4],特別是移動端的部署較為困難。表2-2語義通信和視頻語義編碼的對比分析分類處理對象常見的評價指標(biāo)特點基于語義通信的編碼信源信道PSNR-SNRPSNR-帶寬比編碼器采用神經(jīng)網(wǎng)絡(luò),用于特征生成屬于頂層架構(gòu)設(shè)計,處于前沿探索階不兼容現(xiàn)有的視頻編碼框架視頻語義編碼視頻PSNR-BitrateBD-rate主觀評價有落地應(yīng)用,硬件友好可兼容現(xiàn)有視頻編碼技術(shù)編碼器非必須使用神經(jīng)網(wǎng)絡(luò)面向視頻編碼,有具體技術(shù)方案綜上,語義通信的大框架涵蓋視頻語義編碼傳輸環(huán)節(jié),但該頂層框架整體處于前沿研究與實驗探索,向技術(shù)研發(fā)與落地應(yīng)用過渡的早期階段。而視頻語義編碼技術(shù)則是從視頻編碼標(biāo)準(zhǔn)框架出發(fā),提供了一系列具體且可落地的技術(shù)方案2-2展開介紹。視頻語義編碼傳輸關(guān)鍵技術(shù)率。目前,主要的技術(shù)方案可分為兩類:1)利用語義信息作為先驗信息(語義AI或傳統(tǒng)方法緊湊且易于壓縮的特征表達(dá),進(jìn)而優(yōu)化其編碼性能。圖3-1視頻語義編碼傳輸關(guān)鍵技術(shù)簇3-2AI(JustNoticeableDistortion,(Regionofinterest,AI未來演進(jìn)方向。圖3-2視頻語義編碼技術(shù)應(yīng)用及產(chǎn)業(yè)鏈?zhǔn)疽鈭D視覺感知編碼(HumanSystem,ft教授團隊提出的基于感知優(yōu)化的視頻編碼框架3-3所示。圖3-3基于感知優(yōu)化的視頻編碼框架[6]JND編碼因此,引入恰可察覺失真(JustNoticeableDistortion,JND)自適應(yīng)編碼技術(shù),以有效地去除視覺冗余。例如,大量的工作探索了建立像素域JND模型和DCT(DiscreteCosineTransform)域JND模型,用來指導(dǎo)圖像或視頻的感知編碼,常見于自適應(yīng)量化、碼流控制、運動估計等環(huán)節(jié)。從機器感知出發(fā),北京大學(xué)馬思偉教授團隊提出的恰可識別失真(JustRecognizableDistortion,JRD)[7],旨在表示因數(shù)據(jù)壓縮導(dǎo)致的最大可接受失真34JRDJRDJRDMachineMVS(MachineSystem)壓縮方法相比,SMR模型更為合理且具有可擴展性。ROI編碼Attention,是一種高級認(rèn)知機制,它驅(qū)使視網(wǎng)膜中央凹(Fovea)注意到更高保真度的內(nèi)容,也被稱為感興趣區(qū)域(Regionofinterest,ROI)。通常,HVS更容易被高對比度的區(qū)域所吸引,例如亮度、紋理、方向、時間運動和顏色對比度。ROIROIJPEGJPEGROIROIROIROIROI3-1ROIROIROI對整體視頻的視覺質(zhì)量影響較小。表3-1常見的感興趣區(qū)域檢測分類 技術(shù)中心區(qū)域視覺習(xí)慣將視頻中心作為感興趣區(qū)域,往往基于經(jīng)驗判斷人臉區(qū)域人臉檢測算法字幕區(qū)域文字識別技術(shù)(OCR)主觀感興趣區(qū)域人眼聚焦區(qū)域檢測,眼球追蹤(數(shù)據(jù)集一般通過眼動儀獲取)靜/動態(tài)物體區(qū)域如U-Net或MaskR-CNN等跟蹤算法:光流法、CNN、RNNLSTM架構(gòu)來跟蹤視頻中的對象ROIROIROIH.265/HEVC形成了視頻流進(jìn)行回傳。在VRFOVROI平面FOV生成式編碼線:一種是直接用對抗損失引導(dǎo)全神經(jīng)網(wǎng)絡(luò)編碼的優(yōu)化,以恢復(fù)高頻紋理細(xì)3-4;圖3-4直接用對抗損失引導(dǎo)全神經(jīng)網(wǎng)絡(luò)編碼[9]3-2。表3-2生成式編碼的代表性工作分類原理代表性工作在視頻傳送過程中,發(fā)送關(guān)鍵NVIDIA:利用面部生成模型,在視頻幀傳送時,僅需發(fā)送一個關(guān)鍵幀和其他幀的表情、H.264,90%。通過音頻驅(qū)動數(shù)字人以模擬表情、動作。面部表情的運動參數(shù),將其編碼為比特流傳輸。接收端語義解碼器根據(jù)參數(shù)驅(qū)動參考幀,合成說話人頭部。幀,并通過抓取傳輸其他幀的人驅(qū)動臉關(guān)鍵點、姿態(tài)或表情,模擬面編碼部姿態(tài)和表情動態(tài)。在解碼端,通過生成網(wǎng)絡(luò)合成其他面部視頻幀。分層/概念編碼通過處理多層次信息達(dá)到高層概念,如結(jié)構(gòu)信息、紋理信息、語義信息。旨在編碼圖片為一個緊湊、高層可解釋的表征,用于面向更高視覺質(zhì)量的幀重建。:(語義分割圖(隱式特下游任務(wù)和圖像重建任務(wù)。評估等領(lǐng)域仍有較大的研究潛力[9]3-3。表3-3基于生成對抗網(wǎng)絡(luò)的圖像視頻編碼研究方向[9]方面背景/問題目標(biāo)壓縮性圖像與視頻資料包含了豐富的元信息在有限帶寬內(nèi)選擇最重要的信息進(jìn)行保存,增強系統(tǒng)效能可擴展性不同的應(yīng)用環(huán)境對比特率和圖像質(zhì)量的要求不同根據(jù)不同需求靈活地支持任務(wù),并在不同的帶寬條件下提供適當(dāng)?shù)膱D像質(zhì)量多功能性機器視覺任務(wù)具有多樣性,人與機器的視覺需求存在差異滿足機器和人的雙重視覺需求,全面覆蓋各種應(yīng)用和用戶變化泛用性編碼架構(gòu)可能僅適用于某一特定領(lǐng)域,不同數(shù)據(jù)集的語義信息存在差異在各種圖像視頻數(shù)據(jù)集中保持紋理和語義信息的一致性,跨領(lǐng)域使用質(zhì)量評估模型生成對抗網(wǎng)絡(luò)編碼與傳統(tǒng)編碼在視覺感知上存在差異研究新的視覺特性評估模型,優(yōu)化基于生成對抗網(wǎng)絡(luò)的編解碼架構(gòu)跨模態(tài)編碼(Cross-ModalCoding,CMCCMC碼器、壓縮域編碼器和壓縮域解碼器四個子模塊組成[10]。圖3-5一種典型的跨模態(tài)編碼系統(tǒng)[10]域解碼器以無損的方式從比特流重構(gòu)表征。最后,CMC保留CMC編碼器和解碼器中的語義信息來優(yōu)化失真。機器視覺編碼三只“眼”和服務(wù)于機器學(xué)習(xí)和分析的需求。[11]6G重構(gòu)等[12],從而完成一系列機器感知任務(wù)。編碼數(shù)據(jù)傳輸G6AIvCDNVR的編碼模式及數(shù)據(jù)特征。媒體封裝MOV、MXF、MKV格式等。表3-4具有代表性的封裝協(xié)議一覽封裝格式來源特點TSMPEG是一種標(biāo)準(zhǔn)容器格式,用于進(jìn)一步封裝PES(PacketizedElementary(傳輸過程中的)音頻、視頻和節(jié)目系統(tǒng)信息等,目的是作為規(guī)范化傳輸?shù)淖钚卧WC傳輸?shù)目煽啃?,以適應(yīng)不太可靠的傳輸。該協(xié)議擴展性比較友好,可以支持多種流媒體協(xié)議MP4MPEGISOMP4是高清視頻存儲的主流方式,主要應(yīng)用在MPEG-DASH、HLS等流媒體協(xié)議中,可支持多種音視頻編碼類型,其fragment-MP4的封裝格式可支持Low-LatencyHLS,CMAF等超低時延的流媒體協(xié)議FLVAdobe(File和文件體(FileBody)Size其封裝的媒體文件具覽器普遍使用FlashPlayer作為網(wǎng)頁播放器看的顯著區(qū)域、視頻內(nèi)容中的對象及區(qū)域等媒體描述元數(shù)據(jù),有利于用戶對數(shù)據(jù)的部分訪問和處理,以提高傳輸處理的效率。流媒體傳輸UDPTCPIP層基于不同的應(yīng)用場景、數(shù)據(jù)封裝格式,采用不同的流媒體傳輸協(xié)議。表3-5具有代表性的傳輸協(xié)議一覽傳輸協(xié)議來源特點MPEG-DASHMPEGHTTP的動態(tài)自適應(yīng)流傳輸技術(shù),它不限制編碼格式協(xié)議主要應(yīng)用于直VR視頻等新型視頻編碼格式有更好的適應(yīng)性。HLSAppleHTTPHLS具有跨平臺HTTP的文件來下載。媒體播同樣的資源,允許流媒體會話適應(yīng)不同的數(shù)據(jù)速率。在web服務(wù)器和客戶端廣泛支持,主要應(yīng)用于視頻直播點播場景。RTPIETF協(xié)議將不同編碼和封裝格式的音視頻數(shù)據(jù)進(jìn)行再封裝,加包進(jìn)行發(fā)送。協(xié)議提供抖動補償和數(shù)廣泛應(yīng)用于流媒體相關(guān)的通訊VR前,市場上大多數(shù)采用RTP來實時傳輸媒體數(shù)據(jù)。RTMPAdobeTCP的協(xié)議,由多個相關(guān)協(xié)議組成的協(xié)議族。傳輸?shù)臄?shù)據(jù)的基本單元為Message協(xié)議僅需一個會話即可相互通信,具有效率高、速度快、穩(wěn)定性高等特點,廣泛應(yīng)用于直播、視頻會議、在線教育、在線游戲等實時流媒體傳輸。SRTHaivisionWowzaUDTAES控系統(tǒng)等。MPEGDASHROIVR標(biāo)準(zhǔn)化進(jìn)展及建議為了實現(xiàn)不同公司制造的設(shè)備和提供的服務(wù)之間的互操作性,在過去幾十年,標(biāo)準(zhǔn)工作組ISO/IECJPEG(JointPhotographicExpertsGroup)MPEG(MovingPictureExpertsGroup)ITU-TVCEG(VideoCodingExpertsGroup)MPEG&VCEGJVET(JointVideoExpertsTeam)標(biāo)準(zhǔn)工作組ISO/IECJPEG(JointPhotographicExpertsGroup)MPEG(MovingPictureExpertsGroup)ITU-TVCEG(VideoCodingExpertsGroup)MPEG&VCEGJVET(JointVideoExpertsTeam)IEEEDCSC(DataCompressionStandardCommittee)全國信息技術(shù)標(biāo)準(zhǔn)化技術(shù)委員會TC28/SC29AVS(AudioVideoCodingStandardsWorkgroupofChina)MPAI(MovingPicture,AudioandDataCodingbyArtificialIntelligence)AOM(AllianceforOpenMedia)圖4-1國內(nèi)外視頻編解碼標(biāo)準(zhǔn)體系回顧視頻語義編碼技術(shù)框架,視覺感知編碼技術(shù)涉及對應(yīng)了傳統(tǒng)視頻編碼、VR視頻編碼、多視點視頻編碼、AI視頻編碼等相關(guān)標(biāo)準(zhǔn);生成式編碼技術(shù)和跨模態(tài)編碼技術(shù)目前屬于前沿探索階段,未來有望進(jìn)入AI視頻編碼標(biāo)準(zhǔn);針對機器視覺,國內(nèi)外標(biāo)準(zhǔn)工作組開展了一系列面向機器的視頻編碼標(biāo)準(zhǔn)的研究制定。中國移動積極參與了ISO/IEC、ITU-T、AVS等相關(guān)標(biāo)準(zhǔn)的研制。AI視頻編碼AI4-2。表4-2具有代表性的基于神經(jīng)網(wǎng)絡(luò)的圖像和視頻編碼活動組織工作組/標(biāo)準(zhǔn)內(nèi)容IEEE1857.11探索基于神經(jīng)網(wǎng)絡(luò)的高效圖像視頻編碼方法。2021年,工作組正式進(jìn)入端到端圖像編碼標(biāo)準(zhǔn)制定進(jìn)程,進(jìn)一步規(guī)范了訓(xùn)練方HEVC的圖像壓縮器BPG性能提升超過50%。JPEGJPEGAI目標(biāo)。MPAIEVC/EEVEnhancedCoding使用神經(jīng)網(wǎng)絡(luò)替代或提高現(xiàn)有編碼工具。EVCMPEG-5EVCbaseline檔次出發(fā),通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)編碼工具并與混合框架進(jìn)行聯(lián)合EVCbaseline25%以上的率失真性能。目前EVC標(biāo)準(zhǔn)已研究了基于自編碼器的方形塊預(yù)測和基于卷積神經(jīng)網(wǎng)絡(luò)的幀級上-下采樣編碼,分別相比EVCbaseline檔次在低碼率下(QP32-47)提升1%5%左右EVC計劃研究基于神經(jīng)網(wǎng)絡(luò)的環(huán)路濾波技術(shù)。End-to-Endcoding(EEV):端到端全神經(jīng)網(wǎng)絡(luò)視2021月底正式啟動,目前處于方案論證和參考軟件開發(fā)階段。北京大學(xué)和鵬城實驗室正在領(lǐng)導(dǎo)EEV20226EEV已經(jīng)完WD-0.5EEV標(biāo)準(zhǔn)參考軟件。目前,在相同配置下主觀編碼效率超過VVC/H.266[16],在低延遲編碼配置項下與傳統(tǒng)編碼標(biāo)準(zhǔn)H.265/HEVC性能相當(dāng)。JVET/MPEGNNVCITU-TVCEG(Q6/16)的聯(lián)合視頻專家組(JVET和ISO/IECMPEG(JTC1/SC29/WG的基于神經(jīng)網(wǎng)絡(luò)的視頻編碼(NNVC)201818JVET會議上啟動,從效率和復(fù)雜度出發(fā),研究基于神經(jīng)網(wǎng)絡(luò)的技術(shù)。建立了智能編碼平臺ModAI,現(xiàn)在已更新至ModAI10.0。借助ModAI平臺對基于卷積神經(jīng)網(wǎng)絡(luò)的環(huán)路濾波進(jìn)行了深入研究,AVS智能編碼專題組以替代傳統(tǒng)編碼濾波器并具有更好的性能。在RA配置下ModAI9.0HPM13.08.69%的性能增益[17]。此外,集成了虛擬參考幀ReferenceFrame,VRF)和神經(jīng)網(wǎng)絡(luò)幀內(nèi)預(yù)測兩項技術(shù),綜合性能相比AVS3標(biāo)準(zhǔn)提升15%以上,相比H.266/VVC提升超過10%。目前,AI視頻編碼標(biāo)準(zhǔn)研究還局限于靜態(tài)自然圖像,在自然視頻中嘗試較AI編碼開源框架的缺失,大大限制了標(biāo)準(zhǔn)化的發(fā)展。因此,研制出高效的端到端視頻編碼技術(shù),是AI視頻編碼標(biāo)準(zhǔn)邁向大規(guī)模應(yīng)用的關(guān)鍵。VR視頻編碼IEEE1857.9工作組致力于推動用于壓縮、解壓縮和重建沉浸式視覺內(nèi)容的高效編碼工具的標(biāo)準(zhǔn)化。該標(biāo)準(zhǔn)針對的應(yīng)用場景和服務(wù)對象包括但不限于VR,例如基于無人機的VR、AR、全景視頻和其他視頻/音頻驅(qū)動的服務(wù),以及諸如沉浸式視頻流、廣播、存儲和通信之類的應(yīng)用。MPEGVVC/H.266360碼。MPEGImmersivevideo(MIV)202110(Video-basedPointCloudCompression,MIV之間的許多技術(shù)共性,MIV規(guī)范定義了一種稱為可視體積視頻編碼(Video-basedCoding,V3C)的通用比特流格式。然而,MIVPCC的輸入和輸出格式、參考編碼器和參考渲染器之間仍然存在顯著差異。國內(nèi)數(shù)字音視頻編解碼技術(shù)標(biāo)準(zhǔn)工作組(簡稱“AVS工作組”)于2016年啟動了VR編碼標(biāo)準(zhǔn)的制定,即信息技術(shù)-虛擬現(xiàn)實內(nèi)容表達(dá)第2部分:視頻多視點視頻編碼ISO/IECMPEG20013DMVV)、多視點加深度(Multi-ViewplusDepth,MVD)和自由視點視頻(Free-viewpointFVV)的技術(shù)研究和標(biāo)準(zhǔn)化制定。2012年,ISO/IECITU-T3D視頻編碼聯(lián)合專家組HEVC3D視頻編碼擴展。893D立體3D3D2D廣播3D成為國際標(biāo)準(zhǔn)體系中下一代視頻編解碼標(biāo)準(zhǔn)。表4-3代表性的多視點視頻編碼標(biāo)準(zhǔn)一覽組織標(biāo)準(zhǔn)所屬基本標(biāo)準(zhǔn)特點MVCH.264/AVCMVC編碼后輸出兩個流:基本視點流(左眼)(右眼2D賴視點則以基本視點作為參考。ISO/IECMPEGMV-HEVCH.265/HEVC(第二版)HEVC2D視圖存儲在每個壓縮的幀視點間參考。3D-HEVCH.265/HEVC(第三版)HEVC編碼框架進(jìn)行編碼,輸入的所有比特流復(fù)合形成3D比特流。面向機器的視頻編碼(MachineSystem,器視覺系統(tǒng)能力的變化之間存在不同的關(guān)系。些探索和嘗試,并形成了一系列標(biāo)準(zhǔn),主要包括視覺搜索緊湊描述子標(biāo)準(zhǔn)(CompactDescriptorforSearch,CDVS)、視頻分析緊湊描述子標(biāo)準(zhǔn)(CompactDescriptorforAnalysis,正在探索的面向機器的視頻編CodingforMachines,(DataCodingforMachines,DCM)。表4-4機器視覺編碼標(biāo)準(zhǔn)一覽標(biāo)準(zhǔn)組織特點20102015年正式發(fā)布。CDVS主要面向圖CDVS進(jìn)制碼流語法格式,構(gòu)建了大規(guī)模的數(shù)據(jù)集以驗證特征壓縮技術(shù)(下的高性能圖像檢索與匹配。CDVA主要面向視頻分析,其特征由VGG-16模型提取。目標(biāo)是定義一種在解碼后可以用于一種或多種機器視覺任務(wù)的、MPEG緊湊的碼流,這種碼流所包含的數(shù)據(jù)可以是視頻,也可以是從視VCM頻上提取到的特征。相比于主要追求壓縮效率的傳統(tǒng)視頻編碼,VCM還需要同時追求機器視覺分析性能、計算負(fù)載節(jié)省和隱私保護。而相比于CDVS、CDVA,VCM的應(yīng)用范疇不僅包含機器視覺任務(wù),也包含人類視覺感知的;目前,VCM有兩條技術(shù)路線,一條路線是面向機器視覺的特征壓縮,另一條路線是面向機器視覺的圖像視頻壓縮。后端機器視覺的三大核心任務(wù)為目標(biāo)檢測、實例分割、目標(biāo)追蹤。DCMDCM已發(fā)布《面向機器智能的數(shù)據(jù)編碼白皮書》,確立了[19]VCM標(biāo)準(zhǔn),DCMDCM所面向的DCM混合智能的數(shù)據(jù)編碼,需要同時滿足人類消費的需求;第三是面向機器輔助智能的數(shù)據(jù)編碼,主要是為了滿足人類消費,但其中會使用人工智能的手段對數(shù)據(jù)進(jìn)行處理,例如視頻增強、超分辨率、語音增強等。總結(jié)與展望數(shù)據(jù)編碼技術(shù)帶來了全新的發(fā)展機遇,促使其不斷向深度和廣度方向發(fā)展。6DoF動態(tài)網(wǎng)格等;預(yù)訓(xùn)練多模態(tài)大模型有望成為推動視頻語義編碼效率進(jìn)一步提升的新引擎;AIAIGCAIGCAI輸存儲壓力;(如隱式表征“上萬倍”壓縮;-現(xiàn)的主流方案;化升級,兩者相輔相成,進(jìn)一步提升視頻體驗;標(biāo)準(zhǔn)化研究,將進(jìn)一步促進(jìn)新興視頻業(yè)務(wù)的大規(guī)模應(yīng)用落地??s略語列表縮略語英文全名中文解釋3DoFThreeDegreesofFreedom三自由度5G5thGenerationMobileNetworks第五代移動通信網(wǎng)絡(luò)5G-A5G-Advanced5G演進(jìn)版6DoFSixDegreesofFreedom六自由度AIArtificialIntelligence人工智能ARAugmentedReality增強現(xiàn)實AVSAudioVideoCodingStandard數(shù)字音視頻編解碼技術(shù)標(biāo)準(zhǔn)BD-rateBjontegaard’sdelta-rateBD率CDVACompactDescriptorforVideoAnalysis視頻分析緊湊描述子CDVSCompactDescriptorforVisualSearch視覺搜索緊湊描述子DASHDynamicAdaptiveStreamingoverHTTP基于HTTP的動態(tài)自適應(yīng)流DCMDataCodingforMachines面向機器的數(shù)據(jù)編碼DCTDiscreteCosineTransform離散余弦變換EEVEnd-to-EndVideocoding端到端的視頻編碼EVCEnhancedVideoCoding增強視頻編碼FLVFlashVideo閃存視頻FOVFieldofView視角GANGenerativeAdversarialNetwork生成對抗式網(wǎng)絡(luò)HDRHigh-DynamicRange高動態(tài)范圍HEVCHighEfficiencyVideoCoding高效視頻編碼HFRHighFrameRate高幀率HLSHTTPLiveStreamingHTTP實時流傳輸HTTPHyperTextTransferProtocol超文本傳輸協(xié)議HVSHumanVisionSystem人類視覺系統(tǒng)IEEEInstituteofElectricalandElectronicsEngineers電氣和電子工程師協(xié)會IETFInternetEngineeringTaskForce互聯(lián)網(wǎng)工程任務(wù)組ISO/IECInternationalOrganizationforStandardization/InternationalElectrotechnicalCommission國際標(biāo)準(zhǔn)組織/國際電工委員會JNDJustNoticeableDistortion恰可察覺失真JPEGJointPhotographicExpertsGroup聯(lián)合圖像專家組JRDJustRecognizableDistortion恰可識別失真JVETJointVideoExpertsTeam聯(lián)合視頻專家組MIVMPEGImmersiveVideoMPEG沉浸式視頻MKVMatroskaVideoMatroska視頻MOVMovieDigitalVideoTechnology數(shù)字電影視頻技術(shù)MPAIMovingPicture,AudioandDataCodingbyArtificialIntelligence基于人工智能的運動圖像、音頻和數(shù)據(jù)編碼MPEGMovingPictureExpertsGroup運動圖像專家組MV-HEVCMulti-ViewHEVC多視圖HEVCMVSMachineVisionSystem機器視覺系統(tǒng)MXFMaterialExchangeFormat素材交換格式PESPacketizedElementaryStream打包的基本流ROIRegionofInterest感興趣區(qū)域RTMPReal-TimeMessagingProtocol實時消息傳輸協(xié)議RTPReal-timeTransportProtocol實時傳輸協(xié)議SDRStandardDynamicRange標(biāo)準(zhǔn)動態(tài)范圍SMRSatisfiedMachineRatio機器滿意率SRTSecureReliableTransport安全可靠傳輸TSTransportStream傳輸流UHDUltra-HighDefinition超高清V3CVisualVolumetricVideo-basedCoding可視體積視頻編碼VAVisualAttention視覺注意力VAEVariationalAutoencoder變分自編碼器vCDNVirtualContentDeliveryNetwork虛擬內(nèi)容分發(fā)網(wǎng)絡(luò)VCEGVideoCodingExpertsGroup視頻編碼專家組VCMVideoCodingforMachines面向機器的視頻編碼V-PCCVideo-basedPointCloudCompression基于視頻的點云編碼VRVirtualReality虛擬現(xiàn)實VRFVirtualReferenceFrame虛擬參考幀VVCVersatileVideoCoding多功能視頻編碼WGRWideColorGamut廣色域參考文獻(xiàn)[1]MaS,ZhangX,JiaC,etal.Imageandvideocompressionwithneuralnetworks:Areview[J].IEEETransactionsonCircuitsandSystemsfor2019,30(6):1683-1698.[2]馬思偉,賈川民,趙政輝&王苫社(2020).智能視頻編碼.人工智能(2)20-28.LiuD,LiLinJ,etal.Deeplearning-basedvideocoding:Areviewandacasestudy[J].ACMComputingSurveys(CSUR),2020,53(1):1-35.張平,牛凱,姚圣時,戴金晟.面向未來的語義通信:基本原理與實現(xiàn)方法[J].通信學(xué)報,2023,44(5):1-14.秦志金,趙菼菼,李凡,陶曉明.多模態(tài)語義通信研究綜述.通信學(xué)報[J],2023,44(5):28-41.ZhangZhuL,JiangG,etal.Asurveyonperceptuallyoptimizedvideocoding[J].ACMComputingSurveys,2023,55(12):1-37.ZhangQ,S,ZhangX,etal.Justrecognizabledistortionformachinevisionorientedimageandvideocoding[J].InternationalJournalofComputer2021,129(10):2889-2906.ZhangQ,S,ZhangX,etal.SMR:SatisfiedMachineRatioModelingforMachineRecognition-OrientedImageandCompression[J].arXivpreprintarXiv:2211.06797,2022..基于生成對抗網(wǎng)絡(luò)的圖像視頻編碼綜述[J].中國傳媒大學(xué)學(xué)報(自然科學(xué)版),2022,29(06):19-28.MaS,GaoJ,R,etal.Overviewofintelligentv
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 雙十一勝局人資策略
- 2024年限定版農(nóng)業(yè)耕地承租協(xié)議版B版
- 農(nóng)產(chǎn)品逆襲雙十二
- 科技創(chuàng)新的領(lǐng)航者
- 外墻磚采購合同(2篇)
- 多測合一合同(2篇)
- 2024車輛管理代理協(xié)議樣本版B版
- 2025年昌平區(qū)食堂食品安全風(fēng)險評估與監(jiān)控合同3篇
- 專用陶瓷杯子采購協(xié)議模板2024版B版
- 上海二手房代理居間合同2024年版版B版
- 附著式升降腳手架課件
- 重慶市渝北區(qū)六校聯(lián)盟2024-2025學(xué)年八年級上學(xué)期12月月考數(shù)學(xué)試題
- 2024年山東省聊城市中考英語真題含解析
- 成本經(jīng)理招聘面試題及回答建議(某大型央企)2025年
- 安徽省蕪湖市2023-2024學(xué)年高一上學(xué)期期末考試 地理 含答案
- 全新標(biāo)前協(xié)議書范本下載
- 企業(yè)反恐安全經(jīng)費使用制度
- 痛風(fēng)課件教學(xué)
- 2024公共數(shù)據(jù)授權(quán)運營實施方案
- 學(xué)校食堂從業(yè)人員培訓(xùn)制度
- 中國郵票JT目錄
評論
0/150
提交評論