在開始出現視頻壓縮的二十多年以來,一直要求壓縮效率、CPU利用率和體驗質量的提高。
然而,哈雷公司編碼器高級產品經理Jean-Louis Diascorn表示,一種利用人工智能來改進壓縮算法的新方法已經出現,并且已經產生了效益,影響地面電視廣播公司、OTT服務提供商、IPTV服務以及衛星和有線電視運營商。

在10月21日舉行的2019年度SMPTE技術研討會和展覽會的第一天,Diascorn討論了哈雷如何利用AI獲得這些改進。
在他的“AI技術如何顯著改善廣播和OTT內容分發的視頻壓縮”演講中,Diascorn描述了利用AI優化壓縮方式的兩步法以及優化幀率和分辨率編碼的注意事項。
他說,第一步是線下學習過程,這可能需要幾個小時甚至幾天的時間。在這個階段,許多測試盤被輸入AI系統,生成一個預測模型,然后下載到實時編碼系統中。
第二步是運行實時系統,它將使用預測模型,為觀看產生更好的壓縮。
他提出了三種預測模型:動態編碼方式,動態分辨率編碼和動態幀率編碼。
動態編碼方式旨在降低比特率和保持質量。使用兩步法,測試文件被加載到AI系統中,開發這些編碼方式。“編碼方式實際上是編碼配置,”他說。
Diascorn解釋說,在文件上運行了很長時間的AI算法后,系統產生了一個編碼方式預測模型,它被下載到實時系統中。在實時系統上運行時,視頻分析為預測模型提供信息,而預測模型反過來修改編碼核心。
Diascorn說,某一級衛星提供商已經部署了動態編碼方式優化的壓縮,并實現了約20%的比特率降低。
動態分辨率編碼依賴相同的兩步法,但在這種情況下,AI在開發預測模型時利用了運動和分辨率之間的關系。
Diascorn解釋說,在低運動視頻中,人眼可以看到細節;然而,在高運動視頻中,比如在體育運動中,人眼無法識別相同的細節水平。“因此,找到合適的解決方案是有益的,這就是動態分辨率編碼所做的,用AI為某一視頻選擇可能的最佳分辨率。”
他說,動態分辨率編碼主要用于OTT服務,得到的好處主要是節省了CPU,“對于復雜內容,我們發現節省了50%的CPU使用率,對于簡單內容,我們發現節省了42%的CPU使用率。”
動態幀速率編碼“有點像前面的編碼,只是采用了其它方式而已,”Diascorn解釋說。在有大量運動的視頻片段中,希望有高幀率,以避免圖像中的任何抖動。相反,在幾乎沒有動作的視頻中,“為什么要用盡比特?”他問道。
動態幀率編碼再次使用了兩步法。這一次,這個過程被調整為對視頻內的運動量創建一個基于最佳幀率的預測模型。
動態幀率編碼適用于衛星、IPTV、OTT、有線和地面電視廣播,平均節省約30%的幀量,相當于節省CPU使用率約30%。“在比特率節省方面,AVC大約是10%,HEVC大約是5%。”
Diascorn指出,取決于應用場景,可以把AI優化的預測編碼模型結合起來。
他說:“動態編碼方式和動態幀率編碼都提供了比特率的節省——對動態編碼方式來說是非常重要的節省,而動態分辨率編碼帶來了更好的體驗質量。”
“DRE(動態分辨率編碼)和DFE(動態幀率編碼)帶來了CPU的節省,在互操作性方面,動態編碼方式和動態幀率適用于所有應用,而動態分辨率編碼主要適用于HD OTT。”
Diascorn指出,用AI增強壓縮技術的性能還處于早期階段。他說:“我們有一個令人興奮的未來,因為我們才剛剛開始。”