近日,DeepMind 的研究人員宣布,VQVAE-2 問世了!
VQ-VAE 是 Vector Quantised-Variational Auto Encoder 的簡寫,此次的 VQ-VAE2 是 DeepMind 基于第一代 VQ-VAE 研究出來的改進模型。相關的論文已被 ICLR2019 接收為口頭報告論文,DeepMind 研究員 Suman Ravuri 做了精彩的現場演講。
論文 ARIXV 鏈接:
http://arxiv.org/abs/1906.00446
論文摘要如下:
我們探討了矢量量化變分自動編碼(VQ-VAE)模型在大規模圖像生成中的應用。為此,我們對VQ-VAE 中使用的自回歸先驗進行了縮放和增強,目的是生成比以前具有更高相關度和保真度的合成樣本。我們使用簡單的前饋編解碼器網絡,這讓我們的模型對于編碼\解碼速度至關重要的應用非常有用。此外,VQ-VAE 僅僅只需要在壓縮潛在空間中對自回歸模型進行采樣,這比在像素空間中的采樣在速度上快一個數量級,對于大型圖像尤其如此。我們證明了一個 VQ-VAE 的多尺度層次組織,加上強大的先驗潛在代碼,能夠在多種數據集(如 ImageNet)上生成質量與最先進的生成對抗網絡相媲美的樣本,同時不受 GAN 的已知缺點,如模式崩潰、多樣性的缺乏等的影響。
DeepMindAI 的這一研究表明,當用于訓練分類器(數據增強)時,GAN 生成在看起來真實的樣本的能力有限。初始分數與分類表現呈負相關。
論文的三位作者之一,DeepMind 的研究人員 Aaron van den Oord 在 twitter 上表示,這是一個在分層壓縮潛在空間中的強大自回歸模型,在創建示例時,任何模式中都沒有遇到崩潰問題。
更多示例和細節如下:
他們使用一個分層的 VQVAE,將圖像壓縮成一個潛在空間,相對于 ImageNet 來說,這個空間要小 50 倍,相對于 FFHQ 面來說,這個空間要小 200 倍。PixelCNN 僅對最新的產品進行建模,使其能夠將其能力用于全局結構和最明顯的特征上。
他們 256 像素的兩級 ImageNet VQVAE 中的樣本如下:
結果,他們發現,這些樣本在多樣性方面比競爭對手的方法生成的樣本要好得多。
對于百萬像素的人臉(1024x1024),他們使用了三級 VQVAE 模型。
更多的樣本和高分辨率未壓縮圖像可以在這里找到:
https://t.co/EGaUMHA7FN?amp=1
感興趣的童鞋可以下載相關論文,開始愉快地學習吧~
via:https://mobile.twitter.com/avdnoord/status/1135900129402208257
來源 | 雷鋒網
作者 | 王雪佩