迪斯尼研究院和加州大學歐文分校開發了一種新的人工智能增強的視頻壓縮模型,稱這表明深度學習可以與現有的視頻壓縮技術競爭。

這種壓縮器仍處于早期開發階段,它與傳統的編碼解碼算法(如H.265)相比,在專門的視頻內容上訓練時,產生較少的失真,每像素比特率更小。研究團隊補充說,它在下變換的公開可用的YouTube視頻上取得了可媲美的結果。
研究團隊首先使用他們所描述的變分自編碼器縮小視頻的尺寸,此編碼器為一種神經網絡,它以一系列動作處理每個視頻幀,結果得到一系列壓縮的數組。然后,自動編碼器嘗試撤消此操作,確保數組包含足夠的信息恢復視頻幀。
該算法依靠一種叫做“深度生成模型”的基于AI的技術,嘗試根據之前的情況猜測圖像的下一壓縮版。
此算法通過將自編碼器的實值數組取整來編碼幀內容。研究團隊表示,整數比實數更易存儲,原因是后者有很多小數位。最后一步是對數組施加無損壓縮,實現精確恢復。研究人員說:“關鍵是,這種算法是由神經網絡告知預期的下一個視頻幀,這使得在無損壓縮方面非常高效。”
根據加州大學歐文分校計算機科學助理教授Stephan Mandt表示,總體上這些步驟使這種方法成為一種“端到端”視頻壓縮算法,“這里真正的貢獻是將這種基于神經網絡的深度生成視頻預測模型與其它屬于壓縮算法的一切(如舍入和基于模型的無損壓縮)相結合。”
Mandt補充說,研究團隊將繼續開發一個真正的、可應用的視頻壓縮器。一個挑戰是,他們可能需要壓縮神經網絡本身以及視頻。
“因為接收器需要一個訓練過的神經網絡重建視頻,你可能還需要考慮如何把它和數據一起傳輸,” Mandt說,“仍然有很多懸而未決的問題。這是一個非常早期的階段。”