美國麻省理工學院科學家使用機器學習能力從一個靜止鏡頭產生視頻。
“在我們的生成試驗中,我們顯示我們的模型能夠產生帶看似可信的運動的場景,” Carl Vondrick、Hamed Pirsiavash和Antonio Torralba在一篇即將在下周的“神經信息處理系統研討會”上介紹的論文中寫道,“我們進行了一個心里物理研究,請100多人比較產生的視頻,人們更多地選擇來自我們的全模型的視頻。”

該團隊從建立一種算法開始,大約兩年內“觀看”200萬隨機視頻,以學習場景動態特性,并利用該知識產生視頻。
“我們使用了大量無標記的視頻訓練我們的模型。我們通過查詢流行的網絡相冊Flickr標簽以及查詢最常用的英語單詞,從Flickr下載了超過200萬視頻。”
這些視頻被分為兩組數據:一組未過濾,另一種經過過濾用于場景分類,使用了其中4類——高爾夫球場、嬰兒、海灘和火車站。這些視頻被運動穩定,因此可更容易地將靜態背景與運動中的前景物體區分開來。
這使研究人員建立一種雙碼流視頻生成架構(如圖示),產生一個“每個像素位置和時間標記的前景或背景模型”——一種反映視頻壓縮編解碼“再利用”靜態場景元素內像素的方式的方法。
此視頻發生器產生時長稍長于1秒的32幀視頻,64x64分辨率。這些視頻被一個鑒別網絡運行,從合成產生場景中辨別現實場景。這用來進一步指示算法產生“看似可信的”運動,“Motherboard”網站稱之為“遠遠超過此領域以前的工作。”