作者丨蘇劍林

單位丨廣州火焰資訊科技有限公司

研究方向丨NLP，神經網路

個人主頁丨kexue.fm

去年寫過一篇 WGAN-GP 的入門讀物互懟的藝術：從零直達WGAN-GP，提到透過梯度懲罰來為 WGAN 的判別器增加 Lipschitz 約束（下麵簡稱“L 約束”）。前幾天遐想時再次想到了 WGAN，總覺得 WGAN 的梯度懲罰不夠優雅，後來也聽說 WGAN 在條件生成時很難搞（因為不同類的隨機插值就開始亂了），所以就想琢磨一下能不能搞出個新的方案來給判別器增加L約束。

閉門造車想了幾天，然後發現想出來的東西別人都已經做了，果然是隻有你想不到，沒有別人做不到呀。主要包含在這兩篇論文中：Spectral Norm Regularization for Improving the Generalizability of Deep Learning [1] 和 Spectral Normalization for Generative Adversarial Networks [2]。

所以這篇文章就按照自己的理解思路，對L約束相關的內容進行簡單的介紹。註意本文的主題是 L 約束，並不只是 WGAN。它可以用在生成模型中，也可以用在一般的監督學習中。

L約束與泛化

擾動敏感

記輸入為 x，輸出為 y，模型為 f，模型引數為 w，記為：

很多時候，我們希望得到一個“穩健”的模型。何為穩健？一般來說有兩種含義，一是對於引數擾動的穩定性，比如模型變成了 fw+Δw(x) 後是否還能達到相近的效果？如果在動力學系統中，還要考慮模型最終是否能恢復到 fw(x)；二是對於輸入擾動的穩定性，比如輸入從 x 變成了 x+Δx 後，fw(x+Δx) 是否能給出相近的預測結果。

讀者或許已經聽說過深度學習模型存在“對抗攻擊樣本”，比如圖片只改變一個畫素就給出完全不一樣的分類結果，這就是模型對輸入過於敏感的案例。

L約束

所以，大多數時候我們都希望模型對輸入擾動是不敏感的，這通常能提高模型的泛化效能。也就是說，我們希望 ||x1−x2|| 很小時：

也盡可能地小。當然，“盡可能”究竟是怎樣，誰也說不準。於是 Lipschitz 提出了一個更具體的約束，那就是存在某個常數 C（它只與引數有關，與輸入無關），使得下式恆成立：

也就是說，希望整個模型被一個線性函式“控制”住。這便是 L 約束了。

換言之，在這裡我們認為滿足 L 約束的模型才是一個好模型。並且對於具體的模型，我們希望估算出 C(w) 的運算式，並且希望 C(w) 越小越好，越小意味著它對輸入擾動越不敏感，泛化性越好。

神經網路

在這裡我們對具體的神經網路進行分析，以觀察神經網路在什麼時候會滿足 L 約束。

簡單而言，我們考慮單層的全連線 f(Wx+b)，這裡的 f 是啟用函式，而 W,b 則是引數矩陣/向量，這時候 (3) 變為：

讓 x1,x2 充分接近，那麼就可以將左邊用一階項近似，得到：

顯然，要希望左邊不超過右邊，∂f/∂x 這一項（每個元素）的絕對值必須不超過某個常數。這就要求我們要使用“導數有上下界”的啟用函式，不過我們目前常用的啟用函式，比如sigmoid、tanh、relu等，都滿足這個條件。假定啟用函式的梯度已經有界，尤其是我們常用的 relu 啟用函式來說這個界還是 1，因此 ∂f/∂x 這一項只帶來一個常數，我們暫時忽略它，剩下來我們只需要考慮 ||W(x1−x2)||。

多層的神經網路可以逐步遞迴分析，從而最終還是單層的神經網路問題，而 CNN、RNN 等結構本質上還是特殊的全連線，所以照樣可以用全連線的結果。因此，對於神經網路來說，問題變成了：如果下式恆成立，那麼 C 的值可以是多少？

找出 C 的運算式後，我們就可以希望 C 盡可能小，從而給引數帶來一個正則化項。

矩陣範數

定義

其實到這裡，我們已經將問題轉化為了一個矩陣範數問題（矩陣範數的作用相當於向量的模長），它定義為：

如果 W 是一個方陣，那麼該範數又稱為“譜範數”、“譜半徑”等，在本文中就算它不是方陣我們也叫它“譜範數（Spectral Norm）”好了。註意 ||Wx|| 和 ||x|| 都是指向量的範數，就是普通的向量模長。而左邊的矩陣的範數我們本來沒有明確定義的，但透過右邊的向量模型的極限定義出來的，所以這類矩陣範數稱為“由向量範數誘匯出來的矩陣範數”。

好了，文縐縐的概念就不多說了，有了向量範數的概念之後，我們就有：

呃，其實也沒做啥，就換了個記號而已，||W||2 等於多少我們還是沒有搞出來。

Frobenius範數

其實譜範數 ||W||2 的準確概念和計算方法還是要用到比較多的線性代數的概念，我們暫時不研究它，而是先研究一個更加簡單的範數：Frobenius 範數，簡稱 F 範數。

這名字讓人看著慌，其實定義特別簡單，它就是：

說白了，它就是直接把矩陣當成一個向量，然後求向量的歐氏模長。

簡單透過柯西不等式，我們就能證明：

很明顯 ||W||F 提供了 ||W||2 的一個上界，也就是說，你可以理解為 ||W||2 是式 (6) 中最準確的 C（所有滿足式 (6) 的 C 中最小的那個），但如果你不大關心精準度，你直接可以取 C=||W||F，也能使得 (6) 成立，畢竟 ||W||F 容易計算。

l2正則項

前面已經說過，為了使神經網路盡可能好地滿足L約束，我們應當希望 C=||W||2 盡可能小，我們可以把 C2 作為一個正則項加入到損失函式中。當然，我們還沒有算出譜範數 ||W||2，但我們算出了一個更大的上界 ||W||F，那就先用著它吧，即 loss 為：

其中第一部分是指模型原來的 loss。我們再來回顧一下 ||W||F 的運算式，我們發現加入的正則項是：

這不就是 l2 正則化嗎？

終於，搗鼓了一番，我們得到了一點回報：我們揭示了 l2 正則化（也稱為 weight decay）與 L 約束的聯絡，表明 l2 正則化能使得模型更好地滿足 L 約束，從而降低模型對輸入擾動的敏感性，增強模型的泛化效能。

譜範數

主特徵根

這部分我們來正式面對譜範數 ||W||2，這是線性代數的內容，比較理論化。

事實上，譜範數 ||W||2 等於的最大特徵根（主特徵根）的平方根，如果 W是方陣，那麼 ||W||2 等於 W 的最大的特徵根絕對值。

對於感興趣理論證明的讀者，這裡提供一下證明的大概思路。根據定義 (7) 我們有：

假設對角化為diag(λ1,…,λn)，即，其中 λi 都是它的特徵根，而且非負，而 U 是正交矩陣，由於正交矩陣與單位向量的積還是單位向量，那麼：

所以等於的最大特徵根。

冪迭代

也許有讀者開始不耐煩了：鬼願意知道你是不是等於特徵根呀，我關心的是怎麼算這個鬼範數！

事實上，前面的內容雖然看起來茫然，但卻是求 ‖W‖2 的基礎。前一節告訴我們就是的最大特徵根，所以問題變成了求的最大特徵根，這可以透過“冪迭代”法 [3] 來解決。

所謂“冪迭代”，就是透過下麵的迭代格式：

迭代若干次後，最後透過：

得到範數（也就是得到最大的特徵根的近似值）。也可以等價改寫為：

這樣，初始化 u,v 後（可以用全 1 向量初始化），就可以迭代若干次得到 u,v，然後代入算得 ‖W‖2 的近似值。

對證明感興趣的讀者，這裡照樣提供一個簡單的證明表明為什麼這樣的迭代會有效。

記，初始化為，同樣假設 A 可對角化，並且假設 A 的各個特徵根 λ1,…,λn 中，最大的特徵根嚴格大於其餘的特徵根（不滿足這個條件意味著最大的特徵根是重根，討論起來有點複雜，需要請讀者查詢專業證明，這裡僅僅拋磚引玉。

當然，從數值計算的角度，幾乎沒有兩個人是完全相等的，因此可以認為重根的情況在實驗中不會出現。），那麼 A 的各個特徵向量 η1,…,ηn 構成完備的基底，所以我們可以設：

每次的迭代是 Au/‖Au‖，其中分母只改變模長，我們留到最後再執行，只看 A 的重覆作用：

註意對於特徵向量有 Aη=λη，從而：

不失一般性設 λ1 為最大的特徵值，那麼：

根據假設 λ2/λ1,…,λn/λ1 都小於 1，所以 r→∞ 時它們都趨於零，或者說當 r 足夠大時它們可以忽略，那麼就有：

先不管模長，這個結果表明當 r 足夠大時，提供了最大的特徵根對應的特徵向量的近似方向，其實每一步的歸一化只是為了防止上限溢位而已。這樣一來就是對應的單位特徵向量，即：

因此：

這就求出了譜範數的平方。

譜正則化

前面我們已經表明瞭 Frobenius 範數與 l2 正則化的關係，而我們已經說明瞭 Frobenius 範數是一個更強（更粗糙）的條件，更準確的範數應該是譜範數。雖然譜範數沒有 Frobenius 範數那麼容易計算，但依然可以透過式 (15) 迭代幾步來做近似。

所以，我們可以提出“譜正則化（Spectral Norm Regularization）”的概念，即把譜範數的平方作為額外的正則項，取代簡單的 l2 正則項。即式 (11) 變為：

Spectral Norm Regularization for Improving the Generalizability of Deep Learning [1]一文已經做了多個實驗，表明“譜正則化”在多個任務上都能提升模型效能。

在 Keras 中，可以透過下述程式碼計算譜範數：

def spectral_norm(w, r=5):
    w_shape = K.int_shape(w)
    in_dim = np.prod(w_shape[:-1]).astype(int)
    out_dim = w_shape[-1]
    w = K.reshape(w, (in_dim, out_dim))
    u = K.ones((1, in_dim))
    for i in range(r):
        v = K.l2_normalize(K.dot(u, w))
        u = K.l2_normalize(K.dot(v, K.transpose(w)))
    return K.sum(K.dot(K.dot(u, w), K.transpose(v)))

生成模型

WGAN

如果說在普通的監督訓練模型中，L 約束只是起到了“錦上添花”的作用，那麼在 WGAN 的判別器中，L 約束就是必不可少的關鍵一步了。因為 WGAN 的判別器的最佳化標的是：

這裡的 Pr,Pg 分別是真實分佈和生成分佈，|f|L=1 指的就是要滿足特定的 L 約束 |f(x1)−f(x2)|≤‖x1−x2‖（那個 C=1）。所以上述標的的意思是，在所有滿足這個L約束的函式中，挑出使得最大的那個 f，就是最理想的判別器。寫成 loss 的形式就是：

梯度懲罰

目前比較有效的一種方案就是梯度懲罰，即 ‖f′(x)‖=1 是 |f|L=1 的一個充分條件，那麼我把這一項加入到判別器的 loss 中作為懲罰項，即：

事實上我覺得加個 relu(x)=max(x,0) 會更好：

其中採用隨機插值的方式：

梯度懲罰不能保證 ‖f′(x)‖=1，但是直覺上它會在 1 附近浮動，所以 |f|L 理論上也在 1 附近浮動，從而近似達到 L 約束。

這種方案在很多情況下都已經 work 得比較好了，但是在真實樣本的類別數比較多的時候卻比較差（尤其是條件生成）。

問題就出在隨機插值上：原則上來說，L 約束要在整個空間滿足才行，但是透過線性插值的梯度懲罰只能保證在一小塊空間滿足。如果這一小塊空間剛好差不多就是真實樣本和生成樣本之間的空間，那勉勉強強也就夠用了，但是如果類別數比較多，不同的類別進行插值，往往不知道插到哪裡去了，導致該滿足 L 條件的地方不滿足，因此判別器就失靈了。

思考：梯度懲罰能不能直接用作有監督的模型的正則項呢？有興趣的讀者可以試驗一下。

譜歸一化

梯度懲罰的問題在於它只是一個懲罰，只能在區域性生效。真正妙的方案是構造法：構建特殊的 f，使得不管 f 裡邊的引數是什麼，f 都滿足 L 約束。

事實上，WGAN 首次提出時用的是引數裁剪——將所有引數的絕對值裁剪到不超過某個常數，這樣一來引數的 Frobenius 範數不會超過某個常數，從而 |f|L 不會超過某個常數，雖然沒有準確地實現 |f|L=1，但這隻會讓 loss 放大常數倍，因此不影響最佳化結果。引數裁剪就是一種構造法，這不過這種構造法對最佳化並不友好。

簡單來看，這種裁剪的方案最佳化空間有很大，比如改為將所有引數的 Frobenius 範數裁剪到不超過某個常數，這樣模型的靈活性比直接引數裁剪要好。如果覺得裁剪太粗暴，換成引數懲罰也是可以的，即對所有範數超過 Frobenius 範數的引數施加一個大懲罰，我也試驗過，基本有效，但是收斂速度比較慢。

然而，上面這些方案都只是某種近似，現在我們已經有了譜範數，那麼可以用最精準的方案了：將 f 中所有的引數都替換為 w/‖w‖2。這就是譜歸一化（Spectral Normalization），在 Spectral Normalization for Generative Adversarial Networks [2] 一文中被提出並實驗。

這樣一來，如果 f 所用的啟用函式的導數絕對值都不超過 1，那麼我們就有 |f|L≤1，從而用最精準的方案實現了所需要的 L 約束。

註：“啟用函式的導數絕對值都不超過 1”，這個通常都能滿足，但是如果判別模型使用了殘差結構，則啟用函式相當於是 x+relu(Wx+b)，這時候它的導數就不一定不超過 1 了。但不管怎樣，它會不超過一個常數，因此不影響最佳化結果。

我自己嘗試過在 WGAN 中使用譜歸一化（不加梯度懲罰，參考程式碼見後面），發現最終的收斂速度（達到同樣效果所需要的 epoch）比 WGAN-GP 還要快，效果還要更好一些。而且，還有一個影響速度的原因：就是每個 epoch 的執行時間，梯度懲罰會比用譜歸一化要長，因為用了梯度懲罰後，在梯度下降的時候相當於要算二次梯度了，要執行整個前向過程兩次，所以速度比較慢。

Keras實現

在 Keras 中，實現譜歸一化可以說簡單也可以說不簡單。

說簡單，只需要在判別器的每一層摺積層和全連線層都傳入 kernel_constraint 引數，而 BN 層傳入 gamma_constraint 引數。constraint 的寫法是：

def spectral_normalization(w):
    return w / spectral_norm(w)

參考程式碼：

https://github.com/bojone/gan/blob/master/keras/wgan_sn_celeba.py

說不簡單，是因為目前的 Keras（2.2.4 版本）中的 kernel_constraint 並沒有真正改變了 kernel，而只是在梯度下降之後對 kernel 的值進行了調整，這跟論文中 spectral_normalization 的方式並不一樣。如果只是這樣使用的話，就會發現後期的梯度不準，模型的生成質量不佳。

為了實現真正地修改 kernel，我們要不就得重新定義所有的層（摺積、全連線、BN 等所有包含矩陣乘法的層），要不就只能修改原始碼了，修改原始碼是最簡單的方案，修改檔案 keras/engine/base_layer.py 的 Layer 物件的 add_weight 方法，本來是（目前是 222 行開始）：

    def add_weight(self,
                   name,
                   shape,
                   dtype=None,
                   initializer=None,
                   regularizer=None,
                   trainable=True,
                   constraint=None):
        """Adds a weight variable to the layer.
        # Arguments
            name: String, the name for the weight variable.
            shape: The shape tuple of the weight.
            dtype: The dtype of the weight.
            initializer: An Initializer instance (callable).
            regularizer: An optional Regularizer instance.
            trainable: A boolean, whether the weight should
                be trained via backprop or not (assuming
                that the layer itself is also trainable).
            constraint: An optional Constraint instance.
        # Returns
            The created weight variable.
        """
        initializer = initializers.get(initializer)
        if dtype is None:
            dtype = K.floatx()
        weight = K.variable(initializer(shape),
                            dtype=dtype,
                            name=name,
                            constraint=constraint)
        if regularizer is not None:
            with K.name_scope('weight_regularizer'):
                self.add_loss(regularizer(weight))
        if trainable:
            self._trainable_weights.append(weight)
        else:
            self._non_trainable_weights.append(weight)
        return weight

修改為：

    def add_weight(self,
                   name,
                   shape,
                   dtype=None,
                   initializer=None,
                   regularizer=None,
                   trainable=True,
                   constraint=None):
        """Adds a weight variable to the layer.
        # Arguments
            name: String, the name for the weight variable.
            shape: The shape tuple of the weight.
            dtype: The dtype of the weight.
            initializer: An Initializer instance (callable).
            regularizer: An optional Regularizer instance.
            trainable: A boolean, whether the weight should
                be trained via backprop or not (assuming
                that the layer itself is also trainable).
            constraint: An optional Constraint instance.
        # Returns
            The created weight variable.
        """
        initializer = initializers.get(initializer)
        if dtype is None:
            dtype = K.floatx()
        weight = K.variable(initializer(shape),
                            dtype=dtype,
                            name=name,
                            constraint=None)
        if regularizer is not None:
            with K.name_scope('weight_regularizer'):
                self.add_loss(regularizer(weight))
        if trainable:
            self._trainable_weights.append(weight)
        else:
            self._non_trainable_weights.append(weight)
        if constraint is not None:
            return constraint(weight)
        return weight

也就是把 K.variable 的 constraint 改為 None，把 constraint 放到最後執行。註意，不要看到要改原始碼就馬上來吐槽 Keras 封裝太死，不夠靈活什麼的，你要是用其他框架基本上比 Keras 複雜好多倍（相對不加 spectral_normalization 的 GAN 的改動量）。

總結

本文是關於 Lipschitz 約束的一篇總結，主要介紹瞭如何使得模型更好地滿足 Lipschitz 約束，這關係到模型的泛化能力。而難度比較大的概念是譜範數，涉及較多的理論和公式。

整體來看，關於譜範數的相關內容都是比較精巧的，而相關結論也進一步表明線性代數跟機器學習緊密相關，很多“高深”的線性代數內容都可以在機器學習中找到對應的應用。

參考文獻

[1]. Spectral Norm Regularization for Improving the Generalizability of Deep Learning. Yuichi Yoshida, Takeru Miyato. ArXiv 1705.10941.

[2]. Takeru Miyato, Toshiki Kataoka, Masanori Koyama, and Yuichi Yoshida. Spectral normalization for generative adversarial networks. In ICLR, 2018.

[3]. https://en.wikipedia.org/wiki/Power_iteration

點選以下標題檢視作者其他文章：

關於PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平臺。如果你研究或從事 AI 領域，歡迎在公眾號後臺點選「交流群」，小助手將把你帶入 PaperWeekly 的交流群裡。

▽ 點選 | 閱讀原文 | 檢視作者部落格

深度學習中的Lipschitz約束：泛化與生成模型

L約束與泛化

矩陣範數

譜範數

生成模型

總結

參考文獻

相關推薦

熱門標籤

熱門文章

分享創造快樂