作者丨蘇劍林

單位丨廣州火焰資訊科技有限公司

研究方向丨NLP，神經網路

個人主頁丨kexue.fm

話說我覺得我自己最近寫文章都喜歡長篇大論了，而且扎堆地來。之前連續寫了三篇關於 Capsule 的介紹，這次輪到 VAE 了。本文是 VAE 的第三篇探索，說不準還會有第四篇。不管怎麼樣，數量不重要，重要的是能把問題都想清楚。尤其是對於 VAE 這種新奇的建模思維來說，更加值得細細地摳。

這次我們要關心的一個問題是：VAE 為什麼能成？

估計看 VAE 的讀者都會經歷這麼幾個階段。第一個階段是剛讀了 VAE 的介紹，然後雲裡霧裡的，感覺像自編碼器又不像自編碼器的，反覆啃了幾遍文字並看了原始碼之後才知道大概是怎麼回事。

第二個階段就是在第一個階段的基礎上，再去細讀 VAE 的原理，諸如隱變數模型、KL 散度、變分推斷等等，細細看下去，發現雖然折騰來折騰去，最終居然都能看明白了。

這時候讀者可能就進入第三個階段了。在這個階段中，我們會有諸多疑問，尤其是可行性的疑問：“為什麼它這樣反覆折騰，最終出來模型是可行的？我也有很多想法呀，為什麼我的想法就不行？”

前文之要

讓我們再不厭其煩地回顧一下前面關於 VAE 的一些原理。

VAE 希望透過隱變數分解來描述資料 X 的分佈。

然後對 p(x,z) 用模型 q(x|z) 擬合，p(z) 用模型 q(z) 擬合，為了使得模型具有生成能力，q(z) 定義為標準正態分佈。

理論上，我們可以使用邊緣機率的最大似然來求解模型：

但是由於圓括號內的積分沒法顯式求出來，所以我們只好引入 KL 散度來觀察聯合分佈的差距，最終標的函式變成了：

透過最小化 L 來分別找出 p(x|z) 和 q(x|z)。前一文再談變分自編碼器VAE：從貝葉斯觀點出發也表明 L 有下界 −?x∼p(x)[lnp(x)]，所以比較 L 與 −?x∼p(x)[lnp(x)] 的接近程度就可以比較生成器的相對質量。

取樣之惑

在這部分內容中，我們試圖對 VAE 的原理做細緻的追問，以求能回答 VAE 為什麼這樣做，最關鍵的問題是，為什麼這樣做就可行。

取樣一個點就夠

對於 (3) 式，我們後面是這樣處理的：

1. 留意到正好是 p(z|x) 和 q(z) 的散度 KL(p(z|x)‖q(z))，而它們倆都被我們都假設為正態分佈，所以這一項可以算出來；

2. ?z∼p(z|x)[−lnq(x|z)] 這一項我們認為只取樣一個就夠代表性了，所以這一項變成了 −lnq(x|z),z∼p(z|x)。

經過這樣的處理，整個 loss 就可以明確寫出來了：

等等，可能有讀者看不過眼了：KL(p(z|x)‖q(z)) 事先算出來，相當於是取樣了無窮多個點來估算這一項；而 ?z∼p(z|x)[−lnq(x|z)] 卻又只取樣一個點，大家都是 loss 的一部分，這樣不公平待遇真的好麼？

事實上，也可以只取樣一個點來算，也就是說，可以透過全體都只取樣一個點，將 (3) 式變為：

這個 loss 雖然跟標準的 VAE 有所不同，但事實上也能收斂到相似的結果。

為什麼一個點就夠？

那麼，為什麼取樣一個點就夠了呢？什麼情況下才是取樣一個點就夠？

首先，我舉一個“取樣一個點不夠”的例子，讓我們回頭看 (2) 式，它其實可以改寫成：

如果取樣一個點就夠了，不，這裡還是謹慎一點，取樣 k 個點吧，那麼我們可以寫出：

然後就可以梯度下降訓練了。

然而，這樣的策略是不成功的。實際中我們能取樣的數目 k，一般要比每個 batch 的大小要小，這時候最大化就會陷入一個“資源爭奪戰”的境地。

每次迭代時，一個 batch 中的各個 xi 都在爭奪 z1,z2,…,zk，誰爭奪成功了，q(x|z) 就大。說白了，哪個 xi 能找到專屬於它的 zj，這意味著 zj 只能生成 xi，不能生成其它的，那麼 z(xi|zj) 就大），但是每個樣本都是平等的，取樣又是隨機的，我們無法預估每次“資源爭奪戰”的戰況。這完全就是一片混戰。

如果資料集僅僅是 mnist，那還好一點，因為 mnist 的樣本具有比較明顯的聚類傾向，所以取樣數母 k 超過 10，那麼就夠各個 xi 分了。

但如果像人臉、imagenet 這些沒有明顯聚類傾向、類內方差比較大的資料集，各個 z 完全是不夠分的，一會 xi 搶到了 zj，一會 xi+1 搶到了 zj，訓練就直接失敗了。

因此，正是這種“僧多粥少”的情況導致上述模型 (7) 訓練不成功。可是，為什麼 VAE 那裡取樣一個點就成功了呢？

一個點確實夠了

這就得再分析一下我們對 q(x|z) 的想法了，我們稱 q(x|z) 為生成模型部分，一般情況下我們假設它為伯努利分佈或高斯分佈，考慮到伯努利分佈應用場景有限，這裡只假設它是正態分佈，那麼：

其中 μ(z) 是用來計算均值的網路，σ^2(z)是用來計算方差的網路，很多時候我們會固定方差，那就只剩一個計算均值的網路了。

註意，q(x|z) 只是一個機率分佈，我們從q(z)中取樣出 z 後，代入 q(x|z) 後得到 q(x|z) 的具體形式，理論上我們還要從 q(x|z) 中再取樣一次才得到 x。但是，我們並沒有這樣做，我們直接把均值網路 μ(z) 的結果就當成 x。

而能這樣做，表明 q(x|z) 是一個方差很小的正態分佈（如果是固定方差的話，則訓練前需要調低方差，如果不是正態分佈而是伯努利分佈的話，則不需要考慮這個問題，它只有一組引數），每次取樣的結果幾乎都是相同的（都是均值 μ(z)），此時 x 和 z 之間“幾乎”具有一一對應關係，接近確定的函式 x=μ(z)。

▲ 標準正態分佈（藍）和小方差正態分佈（橙）

而對於後驗分佈 p(z|x) 中，我們假設了它也是一個正態分佈。既然前面說 z 與 x 幾乎是一一對應的，那麼這個性質同樣也適用驗分佈 p(z|x)，這就表明後驗分佈也會是一個方差很小的正態分佈（讀者也可以自行從 mnist 的 encoder 結果來驗證這一點），這也就意味著每次從 p(z|x) 中取樣的結果幾乎都是相同的。

既然如此，取樣一次跟取樣多次也就沒有什麼差別了，因為每次取樣的結果都基本一樣。所以我們就解釋了為什麼可以從 (3) 式出發，只取樣一個點計算而變成 (4) 式或 (5) 式了。

後驗之妙

前面我們初步解釋了為什麼直接在先驗分佈 q(z) 中取樣訓練不好，而在後驗分佈中 p(z|x) 中取樣的話一個點就夠了。

事實上，利用 KL 散度在隱變數模型中引入後驗分佈是一個非常神奇的招數。在這部分內容中，我們再整理一下相關內容，並且給出一個運用這個思想的新例子。

後驗的先驗

可能讀者會有點邏輯混亂：你說 q(x|z) 和 p(z|x) 最終都是方差很小的正態分佈，可那是最終的訓練結果而已，在建模的時候，理論上我們不能事先知道 q(x|z) 和 p(z|x) 的方差有多大，那怎麼就先去取樣一個點了？

我覺得這也是我們對問題的先驗認識。當我們決定用某個資料集 X 做 VAE 時，這個資料集本身就帶了很強的約束。

比如 mnist 資料集具有 784 個畫素，事實上它的獨立維度遠少於 784，最明顯的，有些邊緣畫素一直都是 0，mnist 相對於所有 28*28 的影象來說，是一個非常小的子集.

再比如筆者前幾天寫的作詩機器人，“唐詩”這個語料集相對於一般的陳述句來說是一個非常小的子集；甚至我們拿上千個分類的 imagenet 資料集來看，它也是無窮盡的影象中的一個小子集而已。

這樣一來，我們就想著這個資料集 X 是可以投影到一個低維空間（隱變數空間）中，然後讓低維空間中的隱變數跟原來的 X 集一一對應。

讀者或許看出來了：這不就是普通的自編碼器嗎？

是的，其實意思就是說，在普通的自編碼器情況下，我們可以做到隱變數跟原資料集的一一對應（完全一一對應意味著 p(z|x) 和 q(x|z) 的方差為 0），那麼再引入高斯形式的先驗分佈 q(z) 後，粗略地看，這隻是對隱變數空間做了平移和縮放，所以方差也可以不大。

所以，我們應該是事先猜測出 p(z|x) 和 q(x|z) 的方差很小，並且讓模型實現這個估計。說白了，“取樣一個”這個操作，是我們對資料和模型的先驗認識，是對後驗分佈的先驗，並且我們透過這個先驗認識來希望模型能靠近這個先驗認識去。

整個思路應該是：

有了原始語料集
觀察原始語料集，推測可以一一對應某個隱變數空間
透過取樣一個的方式，讓模型去學會這個對應

這部分內容說得有點凌亂，其實也有種多此一舉的感覺，希望讀者不要被我搞糊塗了。如果覺得混亂的話，忽視這部分吧。

耿直的IWAE

接下來的例子稱為“重要性加權自編碼器（Importance Weighted Autoencoders）”，簡寫為“IWAE”，它更加乾脆、直接地體現出後驗分佈的妙用，它在某種程度上它還可以看成是 VAE 的升級版。

IWAE 的出發點是 (2) 式，它引入了後驗分佈對 (2) 式進行了改寫：

這樣一來，問題由從 q(z) 取樣變成了從 p(z|x) 中取樣。我們前面已經論述了 p(z|x) 方差較小，因此取樣幾個點就夠了：

代入 (2) 式得到：

這就是 IWAE。為了對齊 (4),(5) 式，可以將它等價地寫成：

當 k=1 時，上式正好跟 (5) 式一樣，所以從這個角度來看，IWAE 是 VAE 的升級版。

從構造過程來看，在 (8) 式中將 p(z|x) 替換為 z 的任意分佈都是可以的，選擇 p(z|x) 只是因為它有聚焦性，便於取樣。而當 k 足夠大時，事實上 p(z|x) 的具體形式已經不重要了。

這也就表明，在 IWAE 中削弱了 encoder 模型 p(z|x) 的作用，換來了生成模型 q(x|z) 的提升。

因為在 VAE 中，我們假設 p(z|x) 是正態分佈，這隻是一種容易算的近似，這個近似的合理性，同時也會影響生成模型 q(x|z) 的質量。可以證明，Lk能比 L 更接近下界 −?x∼p(x)[lnp(x)]，所以生成模型的質量會更優。

直覺來講，就是在 IWAE 中，p(z|x) 的近似程度已經不是那麼重要了，所以能得到更好的生成模型。

不過代價是生成模型的質量就降低了，這也是因為 p(z|x) 的重要性降低了，模型就不會太集中精力訓練 p(z|x) 了。所以如果我們是希望獲得好的 encoder 的話，IWAE 是不可取的。

還有一個工作 Tighter Variational Bounds are Not Necessarily Better，據說同時了提高了 encoder 和 decoder 的質量，不過我還沒看懂。

重參之神

如果說後驗分佈的引入成功勾畫了 VAE 的整個藍圖，那麼重引數技巧就是那“畫龍點睛”的“神來之筆”。

前面我們說，VAE 引入後驗分佈使得取樣從寬鬆的標準正態分佈 q(z) 轉移到了緊湊的正態分佈 p(z|x)。然而，儘管它們都是正態分佈，但是含義卻大不一樣。我們先寫出：

也就是說，p(z|x) 的均值和方差都是要訓練的模型。

讓我們想象一下，當模型跑到這一步，然後算出了 μ(x) 和 σ(x)，接著呢，就可以構建正態分佈然後取樣了。

可取樣出來的是什麼東西？是一個向量，並且這個向量我們看不出它跟 μ(x) 和 σ(x) 的關係，所以相當於一個常向量，這個向量一求導就沒了，從而在梯度下降中，我們無法得到任何反饋來更新 μ(x) 和 σ(x)。

這時候重引數技巧就閃亮登場了，它直截了當地告訴我們：

▲ 重引數技巧

沒有比這更簡潔了，看起來只是一個微小的變換，但它明確地告訴了我們 z 跟 μ(x) 和 σ(x) 的關係。於是 z 求導就不再是 0，μ(x), σ(x) 終於可以獲得屬於它們的反饋了。至此，模型一切就緒，接下來就是寫程式碼的時間了。

可見，“重引數”簡直堪稱絕殺。

本文之水

本文大概是希望把 VAE 後續的一些小細節說清楚，特別是 VAE 如何透過巧妙地引入後驗分佈來解決取樣難題（從而解決了訓練難題），並且順道介紹了一下 IWAE。

要求直觀理解就難免會失去一點嚴謹性，這是二者不可兼得的事情。所以，對於文章中的毛病，望高手讀者多多海涵，也歡迎批評建議。

點選以下標題檢視相關內容：

#作者招募#

讓你的文字被很多很多人看到，喜歡我們不如加入我們

我是彩蛋

解鎖新功能：熱門職位推薦！

PaperWeekly小程式升級啦

今日arXiv√猜你喜歡√熱門職位√

找全職找實習都不是問題

解鎖方式

1. 識別下方二維碼開啟小程式

2. 用PaperWeekly社群賬號進行登陸

3. 登陸後即可解鎖所有功能

職位釋出

請新增小助手微信（pwbot02）進行諮詢

長按識別二維碼，使用小程式

*點選閱讀原文即可註冊

關於PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平臺。如果你研究或從事 AI 領域，歡迎在公眾號後臺點選「交流群」，小助手將把你帶入 PaperWeekly 的交流群裡。

▽ 點選 | 閱讀原文 | 進入作者部落格

變分自編碼器VAE：這樣做為什麼能成？

前文之要

取樣之惑

後驗之妙

重參之神

本文之水

相關推薦

熱門標籤

熱門文章

分享創造快樂