2017年12月28日,由騰訊社交網絡事業群(SNG)主辦TSAIC學術&工業交流盛會在騰訊濱海大廈舉行,150余位來自麻省理工、斯坦福、卡耐基梅隆、清華、中科院計算機所、微軟研究院等海內外知名高校、研究所的學者和研究員受邀出席。
騰訊音視頻實驗室杰出科學家劉杉作為主講嘉賓出席此次大會。在會上,她分享了視頻編解碼領域技術介紹和編碼標準變遷。她說近些年中國的數字音視頻編解碼技術標準工作組(AVS)做得越來越好、越來越強大,現在是完全不可忽視的一個力量。
以下是劉杉演講全文。

非常高興也非常榮幸來到這里跟大家做一個分享。我今天分享的主題是“視頻編解碼和標準化”。
在分享之前,我簡單介紹一下我自己。跟剛才兩位嘉賓的背景稍稍不一樣,我是來自工業界的博士,之前在一家公司工作過,做過研究、也做過產品。如果在座有同學想了解一下博士在工業界的心路歷程,歡迎大家找我分享。
我們有視頻編解碼的傳輸,也包括前處理和后處理等等比較寬泛的項目,近幾年我們聚焦在視頻編解碼的制定標準,也是今天我跟大家分析的內容。我大概在上個月加入騰訊的音視頻實驗室。
言歸正傳,今天分享的主題包括兩個部分,一個部分是標準,另外一部分是編解碼。
我先講一下視頻編解碼的國際標準,后面花一點時間講一下音視頻實驗室的成果和場景。
我覺得知道為什么要做一件事對任何一個項目來說都是至關重要的。之所以要做視頻這件事,因為視頻的數據量是非常非常大的,大到什么程度呢?舉個簡單的例子,有一部電影,這個電影是兩個小時的電影,視頻編解碼背景的同學可不可以告訴大家,這個視頻如果不壓縮是多大?
我們大家一起來做一個快速算術,1980×1080,2小時20分鐘,如果不壓縮是3BT。如果我們買一個移動硬盤。你的手提電腦,如果不壓縮,大概可以裝兩部這樣不壓縮的電影。如果不壓縮,我們需要傳輸的帶寬是很大的。我花了一分鐘的時間來做這個數學,這件事情不是重要的,而是必要的。一件事情如果是必要的,我們就要去做。
我們要了解什么是視頻。簡單講,視頻就是一組圖片,但是它不是一組單獨的圖片,而是有運動關系的圖片,我們要抓住兩個點,運動關系和圖片。
基本上基于這兩個基本點可以分兩類,一類是針對圖片壓縮的,另外一類是運動路徑、運動補償和一些相關技術。
我們對色度做一個處理,這件事對博士來說完全沒有什么技術含量,下面有技術含量的是transform,我們在這里面最常用的是DCT,最近的標準里面也開始引入了DST。還有其他的一些還在探討之中。
右上角是Example quantization matrix,我們做壓縮的看到這個會很興奮,因為我們看到很多很多的0,看到后面的數據我們會更加興奮,因為會有更多連續的0,這是為下一步做準備。下一步是Entropy Coding,是一種無損壓縮方式,可以把這個壓縮的更小。
剛才分享了幾種針對圖像壓縮的技術,我們可以有一個最簡單的架構圖,這張圖是就是最簡單的架構圖。
我們又回到剛才講的什么是視頻,視頻就是運動關系和圖片。圖片方面我們已經講了,下面我們要看一下運動關系這部分。
我們真正在做編解碼的時候,不像很多領域那樣做的,在主流的里面我們還是用塊狀的方式,所以對于運動補償方面有很多相關技術,比如說預測單元的劃分,運動矢量圖本身的劃分,我們真正在標準制定的時候,關于運動補償的這一大塊,通常都是劃分成很多個小的技術分組來具體討論它相關的各個運動子級、技術子級和細節。
通過剛才圖片壓縮和運動關系的分析,我們可以得到一個簡單的示意圖,我們可以看到它包括了壓縮模塊、運動補償模塊。
剛才給大家看的是最簡單的,是我們之前的,經過這二三十年的努力和變化,現在就變得好了很多,有更多模塊,也有更多技術細節。這是近期HEVC和H.265的Video Encoder,待會兒我會再詳細講這個標準。
花了幾分鐘時間,在座各位已經是視頻編解碼的專家了,我們可以討論下一步了。
我們討論Video Coding Standards,如果沒有一個出入口或者大家都接受的密碼本這樣的東西,Apple、Orange就沒有辦法進一步的分級出來,這就是我們需要全世界人民都接受的標準。
接受標準不是一個人、兩個人都說了算的東西,它是有一套標準組織和嚴格的流程。有兩個歷史比較久的標準阻止,其中第一個是ITU,在它下面有一個工作小組是在ITU下面負責研究視頻編解碼的技術和制定它的標準。第二個標準組織是ISO/IEC MIPEG。他們有一個MPEG,是在ISO、IEC下面研發視頻編解碼的技術,制定它的標準。還有一個公司是AOM,制定視頻編解碼標準。還有一個標準組織我沒有寫,但是我覺得也是非常重要的,AVS,是我們國內的標準阻止。近些年AVS做得越來越好、越來越強大,現在是完全不可忽視的一個力量。
觀察從過去到現在的標準,我們可以看到,1984年ITU已經出來了第一個標準,H.120,具體長什么樣子我也沒有見過,因為稍微有一點早。到1990年推出了H.261,這個已經是被大家廣泛使用的。1993年ISO、IEC交替的出了MPEG-1 Part2。在1995年出了H.262,這個標準是ISO、IEC兩個組織共同制定的。我不知道在座多少同學用過DVD,DVD這個格式我們小時候用了很久,DVD這個格式就是用了MPEG-2 Part2,很多電視節目也是用的MPEG-2 Part2。2003年有了H.264,像HD、DVD這些格式都是用這個,很多新的節目也都是開使用H.264。又過了大概十來年,出了一個H.265/HEVC,它也是我們認為比較好的。無論是從MPGE Part2恩到H.264還是H.265,它都是翻倍了的。
下面花一點時間講一下HEVC。HEVC在2007年左右開始預言,各個公司怎么有新的視頻編解碼的技術,到2010年1月份,這個標準組織覺得我們有希望,所以就做了一個標準。2014年全世界各個公司、學校和研究機構,全世界的工程師、科學家坐在一起做評估,出臺了一個標準,又過了艱苦的努力,在2013年出臺了Version1。2014年出版了Version2。2015年出版了Version3和3D。2016年又出了Version4。制定標準是一個蠻艱苦的過程,努力的工作一般來說回報都是不錯的,HEVC的標準獲得了第69屆的艾美獎,工程師們也可以參加一下這種頒獎,蠻有意思的。參加這種活動的人只有十幾個,但是這套標準積累了上千個工程師和科學家、研發人員的努力。
這個地方是HEVC Block Diagram,H.265比之前做了很多改進,由于今天時間有限不太會講的很具體,因為每一個技術又是一個新的講座。
做過264的同學都知道,另外一個重要的模塊是運動關系,我們做了更多技術,包括更多預測單元和Coding,很多都有新的更新。265比264的時代有更多Modes以后,做了很快技術的提升。
Deblockin Filter,之前像263這種都是后處理的模式,264做了一個稍微革新性的,265也做了改進,我們在266會有更新的改進。
我們標準有一系列的數據,大家不能拿來自己比較,這個是426×240的,但是現在很少人看這樣的,如果單單把HD拿出來,這個HD sequences,我們264可以到40-45。我們做視頻、視覺或者圖像的同學都知道,數據是一回事,有時候科學是另外一回事。Subjective是67% class B sequences,49%for class C sequences。
做標準的人是永遠不會停下來的,標準這個事情是一代一代可以永遠做下去的。我們進行266的預言,266的預言大概在2013年、2014年很多公司就開始了,2015年10月的時候,ISO、IEC、ITU這幾個相愛相殺的組織說要一起做,就一起進行預言,大概又過了兩年時間的共同研究,他們說又有信心可以做一個標準,所以標準組織又發了一個通知,明年公司、學校、科研人員又要坐在一起討論,在未來兩三年時間里面我們又要努力工作,做下一代的新的標準。
剛才講我們做了很多預言,我們有這么多編解碼的工具。我們看到4K和2K的情況,我們已經有35%的Coding game,我們有一定的信心可以做下去。這是一個起點,不是一個終點,在未來兩三年里面,我們會進一步把coding game的數據做大,把另外那個數據降低,帶給大家更好的體驗。
這大概就是我今天分享的關于視頻編解碼和國際標準的浮光掠影的簡單介紹。
下面我用簡單一兩分鐘時間介紹一下我們音視頻實驗室的場景,讓大家看一下我們的工具和比較有意思的事情。
因為我們要落地場景,所以實質性要求很高,這是在工業中進行的測試,比如說降噪,一個物體可移動的很快,它可以轉、顏色有改變,或者它是不是會掉下來,都有預測的。我們的TPG會進行圖像壓縮和解決方案。
還有語音的前處理,我個人不是語音專家,但是我們實驗室有很多語音方面的專家,我們音視頻實驗室分論壇,語音背景的同學可以過來跟語音專家進行深度交流。我們還有一些比較有意思的語音方面的demo,因為這邊效果不太好,demo效果在分論壇會有演示,歡迎大家來看我們的音效。
我們還在探索跟AI相關的課題,AI的語音降噪和分離,包括AI的語音美化。我們不僅只美化樣子,還要美化聲音,這是全方位的美化。還有AI輔助的音視頻的質量評估等等。
這些是音視頻實驗室近期的成果和應用場景。這就是今天的分享,非常感謝大家。






