基于能量的生成對(duì)抗網(wǎng)絡(luò)

 摘要

我們?cè)谶@里介紹「基于能量的生成對(duì)抗網(wǎng)絡(luò)(Energy-based Generative Adversarial Network,簡稱 EBGAN)」模型,該網(wǎng)絡(luò)將 GAN 框架中的鑒別器(discriminator)視為與數(shù)據(jù)流形(data manifold)和其它所有更高能量的區(qū)域的低能量區(qū)域相關(guān)聯(lián)的能量函數(shù)(energy function)。和概率 GAN 類似,需要訓(xùn)練一個(gè)生成器(generator)來產(chǎn)生具有最小能量的對(duì)比樣本,同時(shí)還要訓(xùn)練該能量函數(shù)將高能量分配給那些生成的樣本。將鑒別器視為能量函數(shù)讓我們可以在通常的二元判別網(wǎng)絡(luò)之外還能使用范圍廣泛的架構(gòu)和損失函數(shù)。在 EBGAN 的所有實(shí)例中,其中之一是沿著作為重構(gòu)誤差(reconstruction error)的能量使用一個(gè)自動(dòng)編碼器(auto-encoder)。我們研究表明這種形式的 EBGAN 能在訓(xùn)練過程中得到比通常的 GAN 更穩(wěn)定的表現(xiàn)。我們也表明只需訓(xùn)練一個(gè)單尺度(single-scale)的架構(gòu)就能生成高分辨率的圖像。

1 導(dǎo)語

生成對(duì)抗網(wǎng)絡(luò)(GAN,Goodfellow et al., 2014)已經(jīng)為圖像生成(Denton et al., 2015; Radford et al., 2015; Im et al., 2016; Salimans et al., 2016)、視頻預(yù)測(cè)(Mathieu et al., 2015)以及一些其它領(lǐng)域帶來了顯著的進(jìn)步。GAN 的基本思想是同時(shí)訓(xùn)練一個(gè)鑒別器和一個(gè)生成器。訓(xùn)練鑒別器的目的是為了將來自真實(shí)數(shù)據(jù)集的樣本和生成器產(chǎn)生的「假」樣本區(qū)分開;而訓(xùn)練生成器的目的是產(chǎn)生鑒別器無法將其與真實(shí)數(shù)據(jù)樣本區(qū)分開的樣本。要做到這一點(diǎn),該生成器使用了來自一個(gè)易于取樣的隨機(jī)源的輸入向量,然后生成被送入鑒別器的「假」樣本。在訓(xùn)練過程中,生成器通過接收鑒別器對(duì)應(yīng)輸入的輸出的梯度來進(jìn)行「欺騙」。在 Goodfellow et al. (2014) 中的原始配方的 GAN 中,鑒別器輸出一個(gè)概率,而在特定的情況下,當(dāng)生成器產(chǎn)生的分布和數(shù)據(jù)分布匹配時(shí)會(huì)發(fā)生收斂(convergence)(Goodfellow et al., 2014)。從優(yōu)化的角度看,GAN 的收斂可被看作是達(dá)到一個(gè)目標(biāo)函數(shù)的一個(gè)鞍點(diǎn)(saddle point),該目標(biāo)函數(shù)在對(duì)應(yīng)于此時(shí)的鑒別器參數(shù)時(shí)值最小,在對(duì)應(yīng)于生成器參數(shù)時(shí)值最大。

在這項(xiàng)成果中,我們通過將鑒別器作為能量函數(shù)(或?qū)Ρ群瘮?shù))而非概率的形式從基于能量(energy-based)的角度明確地構(gòu)建了該 EBGAN 框架。也就是說,該能量函數(shù)被看作是一個(gè)可訓(xùn)練的懲罰函數(shù)(penalty function),它會(huì)將低能量值賦予高數(shù)據(jù)密度的區(qū)域,并將更高的能量值賦予其它區(qū)域。我們斷定這種角度的 GAN 訓(xùn)練為架構(gòu)和訓(xùn)練流程的選擇提供了更大的靈活性。盡管通?梢酝ㄟ^吉布斯分布(Gibbs distribution)將能量轉(zhuǎn)換成概率(更多詳情在 2.3 節(jié)),但在這種基于能量的角度中對(duì)規(guī)范化的規(guī)避為鑒別器在學(xué)習(xí)合適的對(duì)比函數(shù)上提供了更大的自由。在這種基于能量的解讀(energy-based interpretation)的范圍中,Goodfellow et al. (2014) 提出的一般的二元鑒別器可被看作是許多定義對(duì)比函數(shù)和損失函數(shù)的方法中的一種,正如 LeCun et al. (2006) 為監(jiān)督式和弱監(jiān)督式設(shè)置及 Ranzato et al. (2007) 為無監(jiān)督設(shè)置所描述的那樣。為了進(jìn)行概念驗(yàn)證,我們采用了一種自動(dòng)編碼器架構(gòu),其中用重構(gòu)損失(reconstruction loss)作為鑒別器。更多關(guān)于基于能量的學(xué)習(xí)和 GAN 的解讀可見附錄 5.

我們的主要貢獻(xiàn)總結(jié)如下:

(i) 我們?yōu)?GAN 提供了一種基于能量的解釋,并據(jù)此提出了一套新架構(gòu);

(ii) 通過一個(gè)詳盡的網(wǎng)格搜索實(shí)驗(yàn),我們驗(yàn)證了一個(gè)關(guān)于一個(gè)全連接的 workhouse 中 GAN 和 EBGAN 的超參數(shù)和架構(gòu)設(shè)置的完整集合。在不同的超參數(shù)的元參數(shù)(架構(gòu))設(shè)置下,EBGAN 表現(xiàn)出了更好的訓(xùn)練穩(wěn)定性和增強(qiáng)了的穩(wěn)健性(robustness),從而可以減少用于調(diào)節(jié) GAN 的人類工作;

(iii) 基于編碼器表征(encoder representation),我們引入了一個(gè) pull-away 項(xiàng),其可以幫助防止生成器僅關(guān)注一種或少數(shù)幾種模式;

(iv) 我們的研究表明我們的模型能夠在單尺度(single-scale)的配置下從 256×256 的 ImageNet 數(shù)據(jù)集中生成合理的高分辨率圖像。

2 模型

一種 EBGAN 實(shí)例如圖 1 所示。具體而言,生成器 G 以隨機(jī)向量 z 作為輸入,并將其轉(zhuǎn)換成像素空間 G(z)。鑒別器 D 被看作是能量函數(shù),它既接收真實(shí)圖像,也接收生成的圖像,并據(jù)此評(píng)估能量值 E,其中 E ∈ R。

Synced (30).jpg

圖 1:EBGAN 架構(gòu)

4 實(shí)驗(yàn)

4.2 MNIST

Synced (261).jpg

圖 5:根據(jù) MNIST 上網(wǎng)格搜索的模型樣本生成。左圖 (a):最好的 GAN 生成;中圖 (b):最好的 EBGAN 生成;右圖 (c):最好的 EBGAN-PT 生成。

4.3 LSUN & CELEBA

Synced (39).JPG

圖 6:根據(jù) LSUN 臥室全圖像的生成。左圖 (a):DCGAN 生成;右圖 (b):EBGAN-PT 生成

Synced (272).jpg

圖 7:根據(jù) LSUN 臥室增強(qiáng)圖像塊的生成。左圖 (a):DCGAN 生成;右圖 (b):EBGAN-PT 生成

Synced (241).jpg

圖 8:根據(jù) CelebA 臉部數(shù)據(jù)集的生成。左圖 (a):DCGAN 生成;右圖 (b):EBGAN-PT 生成

4.4 IMAGENET

Synced (34).JPG

圖 9:使用一個(gè) EBGAN-PT 的 ImageNet 128×128 圖像生成

Synced (120).jpg

圖 10:使用一個(gè) EBGAN-PT 的 ImageNet 256×256 圖像生成

責(zé)編:微科普

分享到:

>相關(guān)科普知識(shí)

日本女v片一区二区,公侵犯人妻一区二区,国产亚洲中文日本不卡2区,91久国产成人在线观. www.sucaiwu.net