一種新的人工智能系統(tǒng)能夠用靜態(tài)圖像生成短視頻,模擬接下來發(fā)生的事。
一種新的人工智能系統(tǒng)能夠用靜態(tài)圖像生成短視頻,這些視頻能夠模擬接下來發(fā)生的事,這就好像人類想象接下來將會看到的情景一樣。
人類能夠直覺地理解世界運作的方式。這使得人比機(jī)器更容易預(yù)測事件接下來將如何發(fā)展。一張靜態(tài)圖像中的物體可以用多種不同方式運動,或者和其他物體發(fā)生作用,這讓機(jī)器很難做出類似的預(yù)測。不過,一種新型的深度學(xué)習(xí)系統(tǒng)(deep-learning system)創(chuàng)造出的短視頻卻能夠讓人信以為真。和真實的視頻片段相比,在20%的情況下,人類更相信它創(chuàng)造出的視頻。
該深度學(xué)習(xí)系統(tǒng)的發(fā)明者是麻省理工學(xué)院(MIT)的研究人員。他們讓兩種神經(jīng)網(wǎng)絡(luò)互相競爭,其中一個要區(qū)分真實的視頻和機(jī)器創(chuàng)造的視頻,而另一個則要創(chuàng)造出能夠打敗第一個系統(tǒng)的近乎真實的視頻。
這種方法叫做“生成式對抗網(wǎng)絡(luò)”(generative adversarial network,GAN),兩個系統(tǒng)互相競爭,生成了愈發(fā)真實的視頻。當(dāng)研究人員讓亞馬遜的Mechanical Turk網(wǎng)絡(luò)眾包平臺上征集的人員從兩種視頻中挑選真實的視頻時,這些人在20%的情況下挑選了機(jī)器合成的,而不是真實的視頻。
早期的問題
但是,剛剛?cè)胄械碾娪皩?dǎo)演還不用擔(dān)心這種機(jī)器會搶了自己的飯碗,因為這些視頻的長度只有1~1.5秒,而且像素只有64 x 64。研究人員認(rèn)為,這種方法最終能夠幫助機(jī)器人和自動駕駛汽車在復(fù)雜的環(huán)境中導(dǎo)航,也能幫助它們和人類互動,或者讓Facebook為視頻自動添加描述內(nèi)容的標(biāo)簽。
“我們的算法會預(yù)測未來,然后生成極為真實的視頻。這說明在某種程度上它能夠理解現(xiàn)在發(fā)生的事,”該研究的主要負(fù)責(zé)人,MIT計算機(jī)科學(xué)和人工智能實驗室的博士研究生 Carl Vondrick 表示,“我們的研究是一項振奮人心的進(jìn)步,它說明計算機(jī)科學(xué)家能夠讓機(jī)器具有更高級的情境理解能力。”
研究人員表示,這種系統(tǒng)還可以在沒有人指導(dǎo)的情況下進(jìn)行學(xué)習(xí)。這意味著該系統(tǒng)進(jìn)行訓(xùn)練所用的200萬個視頻(大約等于一年的長度)并不需要人類的標(biāo)記。這能極大地減少訓(xùn)練所需的時間,并能讓其適應(yīng)新數(shù)據(jù)。
在西班牙巴塞羅那召開的神經(jīng)信息處理系統(tǒng)大會(Conference and Workshop on Neural Information Processing Systems)上,研究人員展示了他們的研究成果,解釋了他們是怎樣用海灘、火車站、醫(yī)院和高爾夫球場的視頻對該系統(tǒng)進(jìn)行訓(xùn)練的。
“我們發(fā)現(xiàn),早期的原型系統(tǒng)面臨的難點在于,模型預(yù)測視頻的背景將要變形扭曲,” Vondrick 表示。為了克服這個問題,他們調(diào)整了設(shè)計,讓系統(tǒng)學(xué)習(xí)獨立的靜態(tài)背景模型和動態(tài)前景模型,然后再把它們合起來制成視頻。
AI導(dǎo)演
用人工智能(AI)來從無到有地創(chuàng)造視頻,在MIT的這個團(tuán)隊之前也有人嘗試過。但是之前的方法往往逐幀逐幀地構(gòu)造視頻,這樣容易讓錯誤從早期開始逐漸累加。他們的新方法則是同時處理整個場景,一般來說會一次性產(chǎn)生32幀視頻。
GAN的發(fā)明者,非營利機(jī)構(gòu)OpenAI的科學(xué)家Ian Goodfellow表示,這個領(lǐng)域的早期研究并不能產(chǎn)生和現(xiàn)在這個方法一樣清晰的圖像和動作。但是他補(bǔ)充道,谷歌旗下的DeepMind AI上個月也公布了一種新方法,這個方法叫做視頻像素網(wǎng)絡(luò)(Video Pixel Networks,VPN),它也能產(chǎn)生清晰的圖像和動作。
“和GAN相比,VPN更容易訓(xùn)練,不過生成視頻所花費的時間也更長,”他表示,“VPN每次生成單個像素,而GAN卻能同時生成很多像素。”
Vondrick也指出,他們的方法主要利用的是更加難處理的數(shù)據(jù),比如從網(wǎng)絡(luò)上隨便搜集的視頻;而VPN的訓(xùn)練視頻是經(jīng)過特別設(shè)計、內(nèi)容特定的視頻,這些視頻的內(nèi)容主要是跳動的數(shù)字或是機(jī)械臂。
不過這些研究人員表示,目前的結(jié)果還遠(yuǎn)不夠完美。前景中的物體常常變得太大,而人類在視頻中卻常常會變成模糊的一團(tuán)。有時候場景中的物體會無端消失,而有時候卻會出現(xiàn)一些不知從哪兒冒出來的東西。
“這個計算機(jī)模型對世界是沒有任何預(yù)設(shè)的,它必須學(xué)習(xí)人的樣子、物體移動的方式和結(jié)果,”Vondrick表示,“我們的模型還沒有完全學(xué)成。如果能擴(kuò)充它理解如物體之類的高級概念的能力,那么生成的視頻質(zhì)量將會顯著提高。”
Vondrick表示,未來的另一個挑戰(zhàn)是生成更長的視頻,因為這就需要系統(tǒng)花更長的時間去追蹤場景物體之間的更多關(guān)系。
“要完成這一任務(wù),可能需要人類的輸入來幫助系統(tǒng)理解場景中的元素,因為讓它自己學(xué)習(xí)會比較艱難。”
責(zé)編:科普知識網(wǎng)