利用大數(shù)據(jù)與人工智能技術進行老片修復_第1頁
利用大數(shù)據(jù)與人工智能技術進行老片修復_第2頁
利用大數(shù)據(jù)與人工智能技術進行老片修復_第3頁
利用大數(shù)據(jù)與人工智能技術進行老片修復_第4頁
利用大數(shù)據(jù)與人工智能技術進行老片修復_第5頁
已閱讀5頁,還剩4頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、    利用大數(shù)據(jù)與人工智能技術進行老片修復    王美潔摘 要:隨著時代的發(fā)展,用戶對視頻畫質(zhì)的要求不斷提高,但很多經(jīng)典影視作品往往由于拍攝時間早、技術水平有限、后期保管不當?shù)仍驅е庐嬅尜|(zhì)量較低,不免讓觀眾心生遺憾。因此,對低質(zhì)量老片進行畫質(zhì)提升有著重要意義,而且經(jīng)典老劇具有普及度廣、重播率高、口碑良好以及成本低等優(yōu)勢,進行老劇翻新可以用低廉的成本帶來巨大的流量。而利用大數(shù)據(jù)ai技術,可以代替?zhèn)鹘y(tǒng)人工進行老舊視頻與老片的修復工作,不僅釋放了人工成本,更加提升了效率,造福觀眾。一、修復老片的背景與意義隨著時代的發(fā)展,人們對視頻畫質(zhì)的要求不斷提高,4k、

2、hdr等詞匯逐漸走入我們的生活中。硬件(電視盒子、智能電視、ar設備等)價格逐年下降,新出的電影電視劇也都采用這些先進的技術,大大提高了人們的娛樂生活質(zhì)量。但是由于歷史原因,以前的拍攝設備不支持超高清,以及大量用戶上傳視頻(ugc)隨意性較強,市面上存在著大量的低質(zhì)量視頻。因此,對低質(zhì)量視頻進行畫質(zhì)提升有著重要意義,特別是一些經(jīng)典老劇具有普及度廣、重播率高、口碑良好以及成本低等優(yōu)勢,進行老劇翻新可以用低廉的成本帶來巨大的流量。眾所周知,以前的老電視劇和老電影大多為膠片拍攝,膠片只要一遇上高溫、高濕的環(huán)境,就會變質(zhì)、褪色、發(fā)粘、顏色泛黃,不管是什么膠片只要放得久了,往往存在著灰塵、污垢、霉斑、掉

3、色、圖像抖動、劃痕、閃爍、噪聲、變色、模糊等種種問題,十分影響觀看體驗,而且由于當時技術限制,老片往往存在分辨率較低的問題,對于當前藍光或4k的屏幕播放會造成嚴重的模糊現(xiàn)象。因此對老片進行重制變得十分重要。目前市場上常見的老劇翻新方案分為:傳統(tǒng)人工翻新和ai機器翻新兩種方法。早期由于技術條件所限采用的人工翻新?lián)碛泻芏嗟谋锥?,主要包括:人力成本高、耗時長、耗資巨大等。據(jù)統(tǒng)計,一個經(jīng)驗豐富的電影修復人員一天只能修復200-300幀,而一部電影通常包含幾萬到幾十萬幀畫面,通常人工翻新一部電影大約需要耗時數(shù)月耗資數(shù)百萬。而利用大數(shù)據(jù)ai技術進行翻新只需要幾十個小時成本僅為服務器使用成本。因此,相比之下

4、使用大數(shù)據(jù)ai機器翻新在人力資源和耗時方面都擁有巨大的優(yōu)勢?,F(xiàn)利用大數(shù)據(jù)ai技術,針對老劇的噪聲大、模糊、顏色泛黃和分辨率低等特點分別建立視頻去噪、去模糊、智能調(diào)色和超分辨率四大模塊,證明能夠實現(xiàn)老劇的畫質(zhì)增強。并將深度學習技術與視頻轉碼技術相結合,利用ffmpeg視頻轉碼工具搭建了一套全自動的老劇翻新轉碼系統(tǒng)。二、大數(shù)據(jù)人工智能修復老片的主要模塊現(xiàn)有低質(zhì)量視頻大致存在分辨率低、畫面模糊、噪聲大、色彩暗淡等問題,針對這些問題,設計出了以下模塊:(一)超分辨率超分辨率是計算機視覺領域常見的low-level問題,隨著ai人工智能深度學習的興起,超分辨率效果也取得了很大的提升,在一些公開數(shù)據(jù)集上不

5、斷刷新psnr指標?,F(xiàn)有的兩個問題,一是訓練數(shù)據(jù)不夠貼近實際,例如公共數(shù)據(jù)集大多是把高清圖像經(jīng)過降低分辨率生成低清圖像,然后使用高清-低清圖像對來訓練模型,這樣就會造成模型不能較好的用于實際應用當中,因為實際生活中的低清圖像包羅萬象,是不能夠經(jīng)過簡單的降低分辨率得到的。二是模型的評價指標不夠有效,經(jīng)常會有psnr值比較高的圖像實際視覺效果比較差的情況發(fā)生。數(shù)據(jù)方面,我們依托大數(shù)據(jù)云片庫,一方面使用真實的低質(zhì)量視頻,一方面使用數(shù)據(jù)擴充規(guī)則來建立最接近實用場景的訓練數(shù)據(jù)庫。算法方面有兩大類方法:單幀超分和多幀超分。(1)單幀超分顧名思義,單幀超分就是輸入一張低清圖片,輸出一張高清圖片,期間不借助任

6、何別的信息作為額外輸入。srcnn是這類方法的開山之作,網(wǎng)絡結構如下圖左,先對低清圖像做插值放大,然后通過三層卷積網(wǎng)絡擬合非線性映射,最后輸出高分辨率圖像結果,這是最最傳統(tǒng)的做法。由于先對圖像做放大導致網(wǎng)絡的輸入數(shù)據(jù)維度大大增加,從而導致網(wǎng)絡運行速度變慢。為了解決這個問題,espcn首次提出亞像素卷基層的概念,網(wǎng)絡結構如下圖右,圖像尺寸放大過程的插值函數(shù)被隱含地包含在前面的卷積層中,在輸出層將像素進行重新排列得到高分辨率圖。由于卷積運算都是在低分辨率圖像尺寸大小上進行,因此效率會較高。(2)多幀超分多幀超分是指將多個低清連續(xù)幀作為網(wǎng)絡輸入,輸出一幀高清圖片作為當前幀。其優(yōu)勢主要是利用了更多的信

7、息,包括前后幀的時間和空間關系信息,難點在于前后幀融合設計。vespcn采用espcn為基礎網(wǎng)絡,融合策略包括早融合、慢融合和3d卷積融合。在早融合中,網(wǎng)絡輸入濾波器的時間深度與第一層中折疊所有時間信息的輸入幀數(shù)相匹配。在慢融合中,第一層合并的幀數(shù)小于輸入幀數(shù)。3d卷積融合是慢融合的權重共享形式,即慢融合中如果每個層的權重被強制共享它們的值,那么虛線之上的特性所需的操作可以被每個新幀重用。edvr 是cvpr 2019 workshop ntire 2019 視頻恢復比賽中四個賽道的冠軍算法,其核心在于圖像對齊(pcd)模塊和時空信息融合(tsa)模塊,先對存在一定的抖動的相鄰幀進行對齊,后面

8、做信息融合時引入注意力模型。多幀超分確實在一些指標上的值會比單幀超分高一些,但是視覺效果并未帶來明顯改進,綜合考慮實際使用中對速度、穩(wěn)定性以及泛化能力的要求,決定采用單幀超分。在兼顧超分效果的同時我們也關注模型的復雜程度和運行時間。對于網(wǎng)絡深度,雖然上述方法有些網(wǎng)絡設計很簡單,層數(shù)很低,但是在數(shù)據(jù)量級很大的情況下,很難使模型的輸出達到接近訓練集lr到hr的映射關系。為了使網(wǎng)絡結構深一些,我們采用resnet做為基本模塊,為了減少總體參數(shù)量,在各resnet模塊間加入級聯(lián)機制,借用espcn思想,使用亞像素卷積層作為輸出層。loss設計采用特征金字塔思想,使用一些中間層和最終輸出層的多項式和作為

9、loss函數(shù)表達式。我們都知道,網(wǎng)絡的淺層包含較多的基本信息,包括紋理、線條等,網(wǎng)絡的高層包含較多的語義信息,采用特征金字塔的思想設計loss函數(shù)的優(yōu)點就是能夠在實現(xiàn)圖像超分的同時對一些細節(jié)部分進行精細刻畫,充分學到lr圖像到hr圖像的整體和細節(jié)映射關系。超級分辨率效果圖如下:(二)智能調(diào)色為了解決老劇顏色泛黃問題,我們設計了視頻智能調(diào)色模塊。智能調(diào)色我們主要采用雙路gan網(wǎng)絡,充分利用gan在圖像生成方面的優(yōu)勢,依托搜狐視頻的片庫資源,進行端到端的非監(jiān)督訓練。與超分問題不同的是,智能調(diào)色很難找到訓練數(shù)據(jù)對,因此采用非監(jiān)督訓練是一種比較有效的方式,而gan網(wǎng)絡在非監(jiān)督學習以及圖像生成方面都有著

10、巨大的優(yōu)勢。首先我們把調(diào)色問題理解為圖像翻譯問題,即把一種風格的圖像翻譯成另一種風格的圖像。cycle-gan在風格遷移上已經(jīng)做得很成功,我們充分借鑒其網(wǎng)絡設計(如下圖),大量采用循環(huán)一致性模塊,為每個環(huán)節(jié)設計循環(huán)模塊,大大降低gan網(wǎng)絡訓練過程中不穩(wěn)定情況的發(fā)生。某視頻修復后效果圖如下:對于調(diào)色問題,還有一類方法就是所謂的“白盒模式”,即通過傳統(tǒng)方法或者深度學習的方法得到視頻應做的色彩參數(shù)變化,例如曝光度、亮度、對比度等,但是這種調(diào)整比較接近人工操作,無法發(fā)揮出數(shù)據(jù)內(nèi)部信息的作用,所以我們未采用。(三)去模糊視頻的模糊種類多種多樣,此處要去除的主要是運動模糊。由于攝像機的抖動,或者畫面內(nèi)物體

11、的快速運動都會導致視頻的模糊,低清視頻多多少少都會存在一定的運動模糊。去模糊網(wǎng)絡結構參照gan網(wǎng)絡來設計,生成器用于生成清晰圖像,鑒別器區(qū)分真實且清晰圖像與造假或模糊圖像。生成器結構仍然采用resnet作為基本模塊,鑒別器和loss函數(shù)未做過多改動,主要采用原始gan網(wǎng)絡的鑒別器結構。效果圖如下:(四)去噪視頻噪聲來源主要是由兩方面引起,一是光照不均導致的背景噪聲,二是圖像在攝像機內(nèi)數(shù)字化過程中產(chǎn)生的壓縮噪聲。去噪網(wǎng)絡與超分網(wǎng)絡結構十分接近,去除了亞像素卷基層,保證網(wǎng)絡為單倍輸出。對于老劇去噪有兩個難點需要解決:(1)對不同類型的噪聲進行去噪;(2)對不同大小程度的噪聲進行去噪;針對這兩個難點

12、,我們參考cbdnet設計了一個噪聲估計子網(wǎng)絡,視頻在進去噪網(wǎng)絡前先進噪聲估計網(wǎng)絡,將視頻和噪聲估計網(wǎng)絡的輸出同時輸入去噪網(wǎng)絡,從而得到魯棒的輸出。訓練數(shù)據(jù)我們一方面采用公共的真實噪聲數(shù)據(jù)集,一方面設計符合真實噪聲分布的數(shù)據(jù)擴充規(guī)則。效果圖如下:從后兩幅對比圖可以看出,我們的算法可以實現(xiàn)盲去噪,即對于不同噪聲大小的圖都能很好的去除噪聲。三、ai轉碼系統(tǒng)應用場景用以上模塊模型與ffmpeg轉碼工具做結合,將每個基于深度學習的視頻畫面增強模塊編寫為ffmpeg轉碼濾鏡,根據(jù)實際需要采用不同的模塊組合,達到特定的效果。目前我們的視頻增強模塊主要用于以下兩個方面的應用場景:(一)進行老劇翻新一些經(jīng)典老

13、劇具有普及度廣、重播率高、口碑良好以及成本低等優(yōu)勢。即使是在當今新劇泛濫的年代,一些如天龍八部、封神榜等經(jīng)典老劇依然處于熱播榜的top10中,由此可見老劇翻新項目擁有著的巨大商業(yè)價值和潛力,用一句話來概括就是老劇翻新可以用低廉的成本帶來巨大的流量。相對于傳統(tǒng)人工翻新方法,大數(shù)據(jù)ai翻新技術無論是在人力、物力、耗時、耗資等各個方面都擁有巨大的優(yōu)勢。根據(jù)不同老劇的實際情況,可以采用上述模塊的不同組合達到最佳翻新效果。目前利用大數(shù)據(jù)ai老劇翻新技術已修復完成了黑洞、風云等600多部電影電視劇。(二)提升至4k超高清視頻硬件設備不斷升級,網(wǎng)絡寬帶降費提速,越來越多的用戶對低清視頻的容忍度也越來越低,為了不讓用戶因低清晰度而棄劇,對現(xiàn)存大量視頻提升至4k分辨率的需求也越來越大。采用我們的視頻超分辨率模塊可以實現(xiàn)將現(xiàn)有的視頻資源升級為4k分辨率,從而極大地擴充了4k視頻的資源。目前4k超分技術已經(jīng)修復提升了幾百部電影電視劇,修復后的4k超清視頻帶給用戶更極致的觀看體驗。參考文獻:1李國良,周煊赫.xuanyuan:ai原生數(shù)據(jù)庫系統(tǒng)j/ol.軟件學報:1-152孫冰.從三毛、白娘子到小燕子、許三多:ai修復老片背后的新生意j.中國經(jīng)濟周刊,2019(14):74-76.3吳學安. 老片修復不僅僅是懷念n. 金融時報,2015-02-0

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論