美國麻省理工學(xué)院科學(xué)家使用機器學(xué)習(xí)能力從一個靜止鏡頭產(chǎn)生視頻。
“在我們的生成試驗中,我們顯示我們的模型能夠產(chǎn)生帶看似可信的運動的場景,” Carl Vondrick、Hamed Pirsiavash和Antonio Torralba在一篇即將在下周的“神經(jīng)信息處理系統(tǒng)研討會”上介紹的論文中寫道,“我們進行了一個心里物理研究,請100多人比較產(chǎn)生的視頻,人們更多地選擇來自我們的全模型的視頻。”

該團隊從建立一種算法開始,大約兩年內(nèi)“觀看”200萬隨機視頻,以學(xué)習(xí)場景動態(tài)特性,并利用該知識產(chǎn)生視頻。
“我們使用了大量無標(biāo)記的視頻訓(xùn)練我們的模型。我們通過查詢流行的網(wǎng)絡(luò)相冊Flickr標(biāo)簽以及查詢最常用的英語單詞,從Flickr下載了超過200萬視頻。”
這些視頻被分為兩組數(shù)據(jù):一組未過濾,另一種經(jīng)過過濾用于場景分類,使用了其中4類——高爾夫球場、嬰兒、海灘和火車站。這些視頻被運動穩(wěn)定,因此可更容易地將靜態(tài)背景與運動中的前景物體區(qū)分開來。
這使研究人員建立一種雙碼流視頻生成架構(gòu)(如圖示),產(chǎn)生一個“每個像素位置和時間標(biāo)記的前景或背景模型”——一種反映視頻壓縮編解碼“再利用”靜態(tài)場景元素內(nèi)像素的方式的方法。
此視頻發(fā)生器產(chǎn)生時長稍長于1秒的32幀視頻,64x64分辨率。這些視頻被一個鑒別網(wǎng)絡(luò)運行,從合成產(chǎn)生場景中辨別現(xiàn)實場景。這用來進一步指示算法產(chǎn)生“看似可信的”運動,“Motherboard”網(wǎng)站稱之為“遠遠超過此領(lǐng)域以前的工作。”