當你思考人工智能(AI),具體地說能夠完成歷史上由人類智能完成的自主任務的軟件時,會讓人聯想到天網(Skynet)——電影《終結者》里一個人類于20世紀后期創造的以計算機為基礎的人工智能防御系統,它最初是研究用于軍事的發展,后自我意識覺醒,視全人類為威脅,以誘發核彈攻擊為起步發動了將整個人類置于滅絕邊緣的審判日。

這是虛構的。但在現實生活中,A I正在進入工作場所,包括壓縮視頻的編碼、轉碼和解碼。利用他們的程序內AI的能力,像Bitmovin、Cobalt Digital、MediaKind、Telestream和V-Nova這樣的廠家正在降低帶寬要求的同時加速他們的編碼程序,從而為其客戶提供更快、更經濟實惠的產品。
“A I正開始在編碼中起重要作用,在此領域它具有顯著改進工作流程的巨大潛力,”基于云的媒體流媒體技術開發商Bitmovin CEO和共同創始人斯蒂芬·萊德爾表示,“隨著新編解碼、新視頻文件格式和分發方式的涌現,電視和媒體業需要以AI提供的自動化、即時和高效率方式改進編碼的解決方案。”
即便如此,就編碼過程中AI的限制問題,廠家之間意見不一。AI(亦稱為機器學習ML)無疑能夠加速編碼過程,但它能夠做人類觀察者能夠做的一切,檢測和整治壓縮視頻中的人工產物嗎?沒有人真正知道。
人類無需參與編碼出現后的復審階段,因此在這個階段提高了速度,記住這一點很重要。特納媒體咨詢公司保羅·特納表示:“編碼參數可設置為一組預定義的值,但你依然必須看結果且評估編碼輸出是否有足夠好的質量。如果沒有,你必須重復設置。”
(順便說明,ML為狹義版AI,其中AI賦能軟件負責對預定義參數內的特定數據做出決定;而不是會自我感知和選擇毀滅人類。本文章,我們將互換使用這兩個術語。)
AI如何能夠改進編碼
當前的視頻編解碼使用算法分析視頻圖像,決定在不降低觀眾察覺的主觀圖像質量的條件下那些比特可以去除以減少文件尺寸。
把AI注入此編碼過程讓該處理更進一步。A I允許軟件在傳輸前前瞻性地評估壓縮視頻的質量。這讓編碼系統檢測和糾正任何編解碼器非故意產生的人工產物。在A I做此工作的過程中,它“學習”其行為,用此知識通過連續應用提高其性能。
結果:“通過使用A I,編碼解決方案能夠做出關于每幀壓縮設置和視覺參數的智能決定,加速處理和提高編碼效率,”萊德爾說,“訓練過的A I模型甚至能夠預測每個特定源資產的最佳編碼設置以及處理工具。”
英國編解碼開發商V-Nova CEO和共同創始人吉多·梅亞爾迪表示,A I用于編碼還與其它方式。最常見的方式之一是增加現有編解碼的預測能力,決定哪些比特可被安全移除。
“ 你 預 測 圖 像 越 好 , 最 后 剩 下的需編碼的就越少,”梅亞爾迪說,“因此在保證質量的前提下你必須通過輸送管道發送的量也越少。”
AI的局限
在每個例子中,A I正通過自動質量控制努力改進視頻制作過程。這意味著減少慢得多(且更昂貴)的人為干預,就能執行相同的任務。
“你從根本上努力要做的是模仿人類評估,”Telestream CTO肖恩·卡納漢表示,“你正在設法使用機器學習仿真觀眾感知內容質量的方式,并用它判斷像‘我能更進一步提高碼率或為保持主觀質量不變我需要提高碼率嗎?’這樣的問題。”
這聽起來是否令人望而生畏?是的。AI軟件確實經過訓練能夠“尋找圖像中人類觀眾會發現令人不快的東西,”卡納漢說,“你正在訓練一個機器找出不應在那里出現的東西。”
這是A I賦能的視頻編碼局限性所在。“用軟件一模一樣模仿或盡最大努力表現人類視覺系統幾乎不可能,”MediaKind(前愛立信媒體解決方案公司)產品管理副總裁卡爾·費格森表示,“20或30多年來人們一直在努力,但始終不成功,我認為永遠沒有人真的能夠找到一個模仿得一模一樣的人類視覺系統。”
費格森說,問題在于相比基于度量的AI觀看模式,人類觀看具有主觀性。“現實中人們認為圖像質量較好,但測量工具給出的結果總是不盡相同,不管AI觀看模型可能有多先進。”
特納說,質量評價不僅僅是關于絕對的圖像質量;還有未經訓練的人類觀眾意識不到的失真,“這也得納入AI訓練內。”
這意味著A I注定在視頻壓縮中扮演一個次要角色?V-Nova的吉多·梅亞爾迪不怎么認為。即使有其局限,但他預測AI將成為“未來壓縮引擎一個不可或缺的部分”。
然而,在此技術能夠真正與人類視覺系統的復雜性和精微玄妙性一致之前,人工介入將依然為高質量視頻壓縮一個必要的部分。AI至多不斷降低人類必須介入以保障圖像質量的實例比例。