作者丨蘇劍林

單位丨廣州火焰資訊科技有限公司

研究方向丨NLP，神經網路

個人主頁丨kexue.fm

本文來給大家分享一下筆者最近的一個工作：透過簡單地修改原來的 GAN 模型，就可以讓判別器變成一個編碼器，從而讓 GAN 同時具備生成能力和編碼能力，並且幾乎不會增加訓練成本。

這個新模型被稱為 O-GAN（正交 GAN，即 Orthogonal Generative Adversarial Network），因為它是基於對判別器的正交分解操作來完成的，是對判別器自由度的最充分利用。

▲ FFHQ線性插值效果圖

背景

筆者掉進生成模型的大坑已經很久時間了，不僅寫了多篇有關生成模型的文章，而且還往 arXiv 上也提交了好幾篇跟生成模型相關的小 paper。自掉坑以來，雖然說對生成模型尤其是 GAN 的理解漸深，有時也覺得自己做出了一點改進工作（所以才提交到 arXiv上），但事實上那些東西都是無關痛癢的修修補補，意義實在不大。

而本文要介紹的這個模型，自認為比以往我做的所有 GAN 相關工作的價值總和還要大：它提供了目前最簡單的方案，來訓練一個具有編碼能力的 GAN 模型。

現如今，GAN 已經越來越成熟，越做越龐大，諸如 BigGAN [1]、StyleGAN [2] 等算是目前最先進的 GAN 模型也已被人熟知，甚至玩得不亦樂乎。不過，這幾個最先進的 GAN 模型，目前都只有生成器功能，沒有編碼器功能，也就是說可以源源不斷地生成新圖片，卻不能對已有的圖片提取特徵。

當然，帶有編碼器的 GAN 也有不少研究，甚至本人就曾做過，參考BiGAN-QP：簡單清晰的編碼 & 生成模型。但不管有沒有編碼能力，大部分 GAN 都有一個特點：訓練完成後，判別器都是沒有用的。因為理論上越訓練，判別器越退化（比如趨於一個常數）。

做過 GAN 的讀者都知道，GAN 的判別器和生成器兩個網路的複雜度是相當的（如果還有編碼器，那麼複雜度也跟它們相當），訓練完 GAN 後判別器就不要了，那實在是對判別器這個龐大網路的嚴重浪費！

一般來說，判別器的架構跟編碼器是很相似的，那麼一個很自然的想法是能不能讓判別器和編碼器共享大部分權重？

據筆者所知，過去所有的 GAN 相關的模型中，只有 IntroVAE [3] 做到了這一點。但相對而言 IntroVAE 的做法還是比較複雜的，而且目前網上還沒有成功復現 IntroVAE 的開原始碼，筆者也嘗試復現過，但也失敗了。

而本文的方案則極為簡單——透過稍微修改原來的GAN模型，就可以讓判別器轉變為一個編碼器，不管是複雜度還是計算量都幾乎沒有增加。

模型

事不宜遲，馬上來介紹這個模型。首先引入一般的 GAN 寫法：

為了不至於混淆，這裡還是不厭其煩地對符號做一些說明。其中，p(x) 是真實圖片集的“證據分佈”，q(z) 是噪聲的分佈（在本文中，它是元標準正態分佈）；而和自然就是生成器和判別器了，f, g, h 則是一些確定的函式，不同的 GAN 對應著不同的 f, h, g。

有時候我們會加一些標準化或者正則化手段上去，比如譜歸一化或者梯度懲罰，簡單起見，這些手段就不明顯地寫出來了。

然後定義幾個向量算符：

寫起來貌似挺高大上的，但其實就是向量各元素的均值、方差，以及標準化的向量。特別指出的是，當 nz≥3 時（真正有價值的 GAN 都滿足這個條件），[avg(z),std(z),N(z)] 是函式無關的，也就是說它相當於是原來向量 z 的一個“正交分解”。

接著，我們已經說了判別器的結構其實和編碼器有點類似，只不過編碼器輸出一個向量而判別器輸出一個標量罷了，那麼我可以把判別器寫成複合函式：

這裡 E 是的對映，而 T 是的對映。不難想象，E 的引數量會遠遠多於 T 的引數量，我們希望 E(x) 具有編碼功能。

怎麼實現呢？只需要加一個 loss：Pearson 相關係數！

其中：

如果 λ=0，那麼就是普通的 GAN 而已（只不過判別器被分解為兩部分 E 和 T 兩部分）。加上了這個相關係數，直觀上來看，就是希望 z 和 E(G(z)) 越線性相關越好。為什麼要這樣加？我們留到最後討論。

顯然這個相關係數可以嵌入到任意現成的 GAN 中，改動量顯然也很小（拆分一下判別器、加一個 loss），筆者也做了多種 GAN 的實驗，發現都能成功訓練。

這樣一來，GAN 的判別器 D 分為了 E 和 T 兩部分，E 變成了編碼器，也就是說，判別器的大部分引數已經被利用上了。但是還剩下 T，訓練完成後 T 也是沒用的，雖然 T 的引數量比較少，這個浪費量是很少的，但對於有“潔癖”的人（比如筆者）來說還是很難受的。

能不能把 T 也省掉？經過筆者多次試驗，結論是：還真能！因為我們可以直接用 avg(E(x)) 做判別器：

這樣一來整個模型中已經沒有 T 了，只有純粹的生成器 G 和編碼器 E，整個模型沒有絲毫冗餘的地方，潔癖患者可以不糾結了。

實驗

這樣做為什麼可以？我們放到最後再說。先看看實驗效果，畢竟實驗不好的話，原理說得再漂亮也沒有意義。

註意，理論上來講，本文引入的相關係數項並不能提高生成模型的質量，所以實驗的標的主要有兩個：1）這個額外的 loss 會不會有損原來生成模型的質量；2）這個額外的 loss 是不是真的可以讓 E 變成一個有效的編碼器？

剛才也說，這個方法可以嵌入到任意 GAN 中，這次實驗用的是 GAN 是我之前的 GAN-QP 的變種：

其中：

資料集上，這次的實驗做得比較完整，在 CelebA HQ、FFHQ、LSUN-churchoutdoor、LSUN-bedroom 四個資料集上都做了實驗，解析度都是 128 × 128 （其實還做了一點 256 × 256 的實驗，結果也不錯，但是沒放到論文上）。模型架構跟以往一樣都是 DCGAN [4]，其餘細節直接看論文或者程式碼吧。

上圖：

▲ CelebA HQ隨機生成

▲ CelebA HQ重構效果

▲ CelebA HQ線性插值

▲ FFHQ隨機生成

▲ FFHQ重構效果

▲ FFHQ線性插值

▲ LSUN-church隨機生成

▲ LSUN-church重構效果

▲ LSUN-church線性插值

▲ LSUN-bedroom隨機生成

▲ LSUN-bedroom重構效果

▲ LSUN-bedroom線性插值

不管你們覺得好不好，反正我是覺得還好了。

1. 隨機生成效果還不錯，說明新引入的相關係數項沒有降低生成質量；

2. 重構效果還不錯，說明 E(x) 確實提取到了 x 的主要特徵；

3. 線性插值效果還不錯，說明 E(x) 確實學習到了接近線性可分的特徵。

原理

好，確認過眼神，哦不對，是效果，就可以來討論一下原理了。

很明顯，這個額外的重構項的作用就是讓 z 盡可能與 E(G(z)) “相關”，對於它，相信大多數讀者的第一想法應該是 mse 損失而非本文用的 ρ(z,E(G(z)))。但事實上，如果加入那麼訓練基本上都會失敗。那為什麼 ρ(z,E(G(z))) 又會成功呢？

根據前面的定義，E(x) 輸出一個維的向量，但是 T(E(x)) 只輸出一個標量，也就是說，E(x) 輸出了個自由度，而作為判別器，T(E(x)) 至少要佔用一個自由度（當然，理論上它也只需要佔用一個自由度）。

如果最小化，那麼訓練過程會強迫 E(G(z)) 完全等於 z，也就是說個自由度全部被它佔用了，沒有多餘的自由度給判別器來判別真假了，所以加入大機率都會失敗。

但是 ρ(z,E(G(z))) 不一樣，ρ(z,E(G(z))) 跟 avg(E(G(z))) 和 std(E(G(z))) 都沒關係（只改變向量 E(G(z)) 的 avg 和 std，不會改變 ρ(z,E(G(z))) 的值，因為 ρ 本身就先減均值除標準差了），這意味著就算我們最大化 ρ(z,E(G(z)))，我們也留了至少兩個自由度給判別器。

這也是為什麼在 (6) 中我們甚至可以直接用 avg(E(x)) 做判別器，因為它不會被 ρ(z,E(G(z))) 的影響的。

一個相似的例子是 InfoGAN [5]。InfoGAN 也包含了一個重構輸入資訊的模組，這個模組也和判別器共享大部分權重（編碼器），而因為 InfoGAN 事實上只重構部分輸入資訊，因此重構項也沒佔滿編碼器的所有自由度，所以 InfoGAN 那樣做是合理的——只要給判別器留下至少一個自由度。

另外還有一個事實也能幫助我們理解。因為我們在對抗訓練的時候，噪聲是的，當生成器訓練好之後，那麼理論上對所有的，G(z) 都會是一張逼真的圖片，事實上，反過來也是成立的，如果 G(z) 是一張逼真的圖片，那麼應該有（即位於 N(0,Inz) 的高機率區域）。

進一步推論下去，對於，我們有 avg(z)≈0 以及 std(z)≈1。那麼，如果 G(z) 是一張逼真的圖片，那麼必要的條件是 avg(z)≈0 以及 std(z)≈1。

應用這個結論，如果我們希望重構效果好，也就是希望 G(E(x)) 是一張逼真的圖片，那麼必要的條件是 avg(E(x))≈0 以及 std(E(x))≈1。

這就說明，對於一個好的 E(x)，我們可以認為 avg(E(x)) 和 std(E(x)) 都是已知的（分別等於 0 和 1），既然它們是已知的，我們就沒有必要擬合它們，換言之，在重構項中可以把它們排除掉。而事實上：

也就是說在 mse 損失中排除掉 avg(E(x)) 和 std(E(x)) 的話，然後省去常數，它其實就是 −ρ(z,E(G(z)))，這再次說明瞭 ρ(z,E(G(z))) 的合理性。並且由這個推導，重構過程並不是 G(E(x)) 而是：

最後，這個額外的重構項理論上還能防止 mode collapse 的出現。其實很明顯，因為重構質量都不錯了，生成質量再差也差不到哪裡去，自然就不會怎麼 mode collapse 了。

非要說數學依據的話，我們可以將 ρ(z, E(G(z))) 理解為 Z 和 G(Z) 的互資訊上界，所以最小化 −ρ(z, E(G(z))) 事實上在最大化 Z 與 G(Z) 的互資訊，這又等價於最大化 G(Z) 的熵。而 G(Z) 的熵大了，表明它的多樣性增加了，也就遠離了 mode collapse。類似的推導可以參考能量視角下的GAN模型（二）：GAN＝“分析”＋“取樣”。

結語

本文介紹了一個方案，只需要對原來的 GAN 進行簡單的修改，就可以將原來 GAN 的判別器轉化為一個有效的編碼器。多個實驗表明這樣的方案是可行的，而對原理的進一步思考得出，這其實就是對原始判別器（編碼器）的一種正交分解，並且對正交分解後的自由度的充分利用，所以模型也被稱為“正交 GAN（O-GAN）”。

小改動就收穫一個編碼器，何樂而不為呢？歡迎大家試用。

後記

事後看，本文模型的思想其實本質上就是“直徑和方向”的分解，並不難理解，但做到這件事情不是那麼輕鬆的。

最開始我也一直陷入到的困境中，難以自拔，後來我想了很多技巧，終於在的重構損失下也穩定住了模型（耗了幾個月），但模型變得非常醜陋（引入了三重對抗 GAN），於是我著手簡化模型。後來我嘗試用 cos 值用重構損失，發現居然能夠簡單地收斂了，於是我思考背後的原理，這可能涉及到自由度的問題。

接著我嘗試將 E(x) 分解為模長和方向向量，然後用模長 ||E(x)|| 做判別器，用 cos 做重構損失，判別器的 loss 用 hinge loss。這樣做其實幾何意義很明顯，說起來更漂亮些，部分資料集是 work 的，但是通用性不好（CelebA 還行，LSUN 不行），而且還有一個問題是 ||E(x)|| 非負，無法嵌入到一般的 GAN，很多穩定 GAN 的技巧都不能用。

然後我想怎麼把模長變成可正可負，開始想著可以對模長取對數，這樣小於 1 的模長取對數後變成負數，大於 1 的模長取對數變成正數，自然達成了目的。但是很遺憾，效果還是不好。後來陸續實驗了諸多方案都不成功，最後終於想到可以放棄模長（對應於方差）做判別器的 loss，直接用均值就行了。所以後來轉換成 avg(E(x))，這個轉變經歷了相當長的時間。

還有，重構損失一般認為要度量 x 和 G(E(x)) 的差異，而我發現只需要度量 z 和 E(G(z)) 的差異，這是最低成本的方案，因為重構是需要額外的時間的。最後，我還做過很多實驗，很多想法哪怕在 CelebA上都能成功，但LSUN上就不行。所以，最後看上去簡單的模型，實際上是艱難的沉澱。

整個模型源於我的一個執念：判別器既然具有編碼器的結構，那麼就不能被浪費掉。加上有 IntroVAE 的成功案例在先，我相信一定會有更簡單的方案實現這一點。前前後後實驗了好幾個月，跑了上百個模型，直到最近終於算是完整地解決了這個問題。

對了，除了 IntroVAE，對我啟發特別大的還有 Deep Infomax [6] 這篇論文，Deep Infomax 最後的附錄裡邊提供了一種新的做 GAN 的思路，我開始也是從那裡的方法著手思考新模型的。

參考文獻

[1] Andrew Brock, Jeff Donahue, Karen Simonyan, Large Scale GAN Training for High Fidelity Natural Image Synthesis, arXiv:1809.11096.

[2] Tero Karras, Samuli Laine, Timo Aila, A Style-Based Generator Architecture for Generative Adversarial Networks, arXiv:1812.04948.

[3] Huaibo Huang, Zhihang Li, Ran He, Zhenan Sun, Tieniu Tan, ntroVAE: Introspective Variational Autoencoders for Photographic Image Synthesis, NeurIPS 2018.

[4] Alec Radford, Luke Metz, Soumith Chintala, Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks, ICLR 2016.

[5] Xi Chen, Yan Duan, Rein Houthooft, John Schulman, Ilya Sutskever, Pieter Abbeel, InfoGAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets, NIPS 2016.

[6] R Devon Hjelm, Alex Fedorov, Samuel Lavoie-Marchildon, Karan Grewal, Phil Bachman, Adam Trischler, Yoshua Bengio, Learning deep representations by mutual information estimation and maximization, ICLR 2019.

分享想法到看一看

</div><br />
<p><span class=”like_comment_msg” id=”js_b_like_comment_msg” style=”visibility: hidden;”>最多200字，當前共<span id=”js_b_like_current_cnt”/>字</span><br />
</div><br />
</div><br />
<div class=”like_comment_primary_mask” id=”js_mask_2″/><br />
</div><br />
<div id=”js_loading” style=” display: none;”><br />
<div class=”weui-mask_transparent”/><br />
<div class=”weui-toast”><br />
<i class=”weui-loading weui-icon_toast”/></p><br />
<p class=”weui-toast__content”>傳送中</p><br />
</div><br />
</div><br />
<div id=”js_fail” style=”display:none”><br />
<div class=”weui-mask”/><br />
<div class=”weui-dialog”><br />
<div class=”weui-dialog__bd”><br />
        網路異常，請稍後重試    </div><br />
<div class=”weui-dialog__ft”><br />
<a class=”weui-dialog__btn weui-dialog__btn_primary” href=”javascript:;” id=”js_fail_inform”>知道了</a><br />
</div><br />
</div><br />
</div><br />
<div class=”weui-desktop-popover weui-desktop-popover_pos-up-center weui-desktop-popover_img-text” id=”js_pc_weapp_code” style=”display: none;”><br />
<div class=”weui-desktop-popover__content”><br />
<div class=”weui-desktop-popover__desc”><br />
<img id=”js_pc_weapp_code_img”/><br /><br />
            微信掃一掃<br/>使用小程式<span id=”js_pc_weapp_code_des”/> </div><br />
</div><br />
</div><br />
<div id=”js_minipro_dialog” style=”display:none;”><br />
<div class=”weui-mask”/><br />
<div class=”weui-dialog”><br />
<div class=”weui-dialog__bd”>即將開啟”<span id=”js_minipro_dialog_name”/>”小程式</div><br />
<div class=”weui-dialog__ft”><br />
<a class=”weui-dialog__btn weui-dialog__btn_default” href=”javascript:void(0);” id=”js_minipro_dialog_cancel”>取消</a><br /><br />
<a class=”weui-dialog__btn weui-dialog__btn_primary” href=”javascript:void(0);” id=”js_minipro_dialog_ok”>開啟</a><br />
</div><br />
</div><br />
</div><br />
</div><br />

O-GAN：簡單修改，讓GAN的判別器變成一個編碼器！

背景

模型

實驗

原理

結語

後記

參考文獻

朋友將在看一看看到

分享想法到看一看

相關推薦

熱門標籤

熱門文章

分享創造快樂