揭秘深度學習成功的數學原因：從全域性最優性到學習表徵不變性-知識星球

本文經機器之心（微信公眾號：almosthuman2014）授權轉載，禁止二次轉載

近年來，深度學習大獲成功，尤其是摺積神經網路（CNN）在影象識別任務上的突出表現。然而，由於黑箱的存在，這種成功一度讓機器學習理論學家頗感不解。本文的目的正是要揭示深度學習成功的奧秘。透過圍繞著深度學習的三個核心要素——架構、正則化技術和最佳化演演算法，並回顧近期研究，作者為深層網路的若干屬性，如全域性最優性、幾何穩定性、學習表徵不變性，提供了一個數學證明。

論文：Mathematics of Deep Learning

論文連結：https://arxiv.org/abs/1712.04741

摘要：近期深度架構用於表徵學習和分類之後，識別系統的效能獲得了巨大提升。然而，這一成功的數學原因依然不得而知。本文將回顧近期研究，為深層網路的若干屬性，如全域性最優性、幾何穩定性、學習表徵不變性，提供一個數學證明。

1. 引言

深層網路 [1] 是在輸入資料上執行序列操作的引數模型。通俗講，每個這樣的操作被稱為「層」，每個層包括一個線性變換（比如其輸入的摺積）和一個逐點非線性「啟用函式」（比如 Sigmoid）。近期在語音、自然語言處理、計算機視覺的不同應用中，深層網路實現了分類效能的巨大提升。深層網路取得成功的關鍵原因是其較於傳統神經網路有著大量的層；但也有其他架構調整，比如 ReLU [2] 和殘差「捷徑」連線（residual shortcut connections）[3]。成功的其他主要因素還包括海量資料集的可用性，比如 ImageNet 等資料集中的數百萬張影象，以及用於解決由此產生的高維最佳化問題的高效 GPU 計算硬體（可能具備高達 1 億個引數）。

深度學習的成功，尤其是 CNN 在影象任務上的成功，給理論學家帶來了很多困惑。如果我們打算揭開其成功的奧秘，那麼深度學習的三個核心因素——架構、正則化技術和最佳化演演算法，對訓練優秀效能的深層網路、理解其必然性和互動尤其關鍵。

A. 近似值、深度、寬度、不變性

神經網路架構設計的一個重要屬性是可以近似輸入的任意函式。但是這個能力如何依賴於架構的引數，比如其深度和寬度？早期研究表明，具有單一隱藏層和 Sigmoid 啟用函式的神經網路是通用函式近似器 [5] [6] [7] [8]。但是，寬的淺層網路的容量可被深層網路複製，且效能出現顯著提升。一個可能的解釋是深層架構相較於淺層架構可以更好地捕獲資料的不變性。比如在計算機視覺中，物體的類別不會隨著視角、照明等的變化而變化。對於為什麼深層網路能夠捕獲此類不變性的數學分析仍然不得而知，但近期進展已經為深層網路的特定子類別提供了一些解釋。特別是，散射網路 [9] 是一種深層網路，其摺積濾波器組由複雜的多解析度小波族群給出。正由於這種額外結構，它們被證明是穩定和區域性不變的訊號表徵，並揭示了幾何和穩定性的基本作用，這是現代深度摺積網路架構泛化效能的基礎（詳見第四章）。

B. 泛化和正則化

神經網路架構的另一個重要屬性是可以利用少量訓練樣本進行泛化。統計學習理論的傳統結果 [10] 表明，實現良好泛化所需的訓練樣本數隨網路大小呈現多項式增長。然而，在實踐中，深層網路訓練所需的引數數量要遠大於資料量（N D regime），而使用非常簡單的（看似相反）正則化技術可以防止過擬合，如 Dropout 在每次迭代中透過簡單凍結引數的隨機子集即可防止過擬合。

一個可能的解釋是，更深層的架構產生輸入資料的嵌入，近似地保留同一類中資料點之間的距離，同時增加類別之間的分離。本文將概述 [12] 的近期研究工作，它使用壓縮感知和字典學習工具證明具有隨機高斯權重的深層網路可以執行保留資料點距離的嵌入，其中相似輸入可能具有相似輸出。這些結果有助於理解網路的度量學習屬性，並引出由輸入資料的結構決定的泛化誤差的範圍。

C. 資訊理論屬性

網路架構的另一個關鍵屬性是產生良好「資料表徵」的能力。簡單說，表徵是對一個任務有用的輸入資料的任意函式。比如，最佳表徵是由資訊理論、複雜性或不變性標準 [13] 量化出的「最有用」的一個表徵。這類似於系統的「狀態」，智慧體將其儲存在記憶體中以代替資料來預測未來的觀察結果。例如，卡爾曼濾波器的狀態是用於預測由具有高斯噪聲的線性動態系統生成資料的最佳表徵；即用於預測的最小充分統計量。對於資料可能被不包含任務資訊的「麻煩」所破壞的複雜任務，人們也可能希望這種表徵對這種麻煩具有「不變性」，以免影響未來的預測。通常來說，任務的最佳表徵可被定義為最小充分統計量，並且對影響未來（「測試」）資料的各種變化保持不變性 [14]。儘管研究者對錶徵學習有著強烈興趣，但是解釋深層網路作為構建最優表徵的效能的綜合理論尚不存在。事實上，即使是充分性和不變性這樣的基本概念也得到了不同的對待 [9] [14] [15]。

近期研究 [16]、[17]、[18] 已經開始為深層網路學習的表徵建立資訊理論基礎，包括觀察到資訊瓶頸損失 [13]（它定義了最小充分性的寬鬆概念）可被用於計算最佳表徵。資訊瓶頸損失可重寫為交叉熵項的總和，這正是深度學習中最常用的損失，帶有一個額外的正則化項。後者可透過在學習表徵中引入類似自適應 dropout 噪聲的噪聲來實現 [17]。由此產生的正則化形式在 [17] 中被稱為資訊 dropout，表明在資源受限的條件下學習可以得到改善，並可導致「最大分離式」表徵（「maximally disentangled」representation），即表徵的組成部分之間的（總）相關性是最小的，使得資料具有獨立特徵的特徵指標。此外，類似技術表明針對對抗擾動的魯棒性有所改善 [18]。因此，研究者期望資訊理論在形式化和分析深層表徵的屬性以及提出新型正則化項方面起到關鍵作用。

D. 最佳化

訓練神經網路的經典方法是使用反向傳播最小化（正則化）損失 [19]，它是一種專門用於神經網路的梯度下降方法。反向傳播的現代版本依靠隨機梯度下降（SGD）來高效近似海量資料集的梯度。雖然 SGD 僅用於嚴格分析凸損失函式 [20]，但在深度學習中，損失函式是網路引數的非凸函式，因此無法保證 SGD 能夠找到全域性最小值。

圖 1：神經網路圖示，其中 D = d_1 = 4 個輸入，d_2 = 5 個隱藏層，C = d_3 = 2 個輸出。輸出可寫為 y = (y_1, y_2) = ψ_2(ψ_1(xW^1 )W^2 )，其中 x = (x_1, . . . , x_4) 是輸入，W^1 ∈ R^4×5 是從輸入層到隱藏層的權重矩陣，W^2 ∈ R^5×2 是從隱藏層到輸出層的權重矩陣，ψ_1 和 ψ_2 是啟用函式。

實踐中有大量證據表明 SGD 為深層網路提供良好的解決方案。最近關於理解訓練質量的研究認為，臨界點更可能是鞍點而不是假的區域性極小值 [21]，區域性極小值集中在全域性最優值附近 [22]。近期研究還揭示了 SGD 發現的區域性極小值帶來引數空間非常平坦區域的良好泛化誤差 [23]。這激勵了 Entropy-SGD 等專用於尋找此類區域的演演算法，並從統計物理學中的二進位制感知機分析中得出相似的結果 [24]。它們已被證明在深層網路上表現良好 [25]。令人驚訝的是，這些統計物理學技術與偏微分方程（PDE）的正則化屬性密切相關 [26]。例如，區域性熵——Entropy-SGD 最小化的損失，是 HamiltonJacobi-Bellman 偏微分方程的解，因此可寫成一個懲罰貪婪梯度下降的隨機最優控制問題。這個方向進一步導致具備良好經驗效能的 SGD 變體和凸最佳化標準方法（如 infconvolutions 和近端方法（proximal methods）。研究人員現在才剛剛開始從拓撲方面闡釋深層網路的損失函式，拓撲決定了最佳化的複雜性，而它們的幾何結構似乎與分類器的泛化屬性有關 [27] [28] [29]。

本文將概述近期的研究論文，展示深度學習等高維非凸最佳化問題的誤差曲面具有一些良性屬性。例如，[30]、[31] 的工作表明，對於某些型別的神經網路，其損失函式和正則化項都是相同程度的正齊次函式的和，多個分量為零或逼近為零的區域性最優解也將是或逼近全域性最優解。這些結果也將為正齊次函式 RELU 的成功提供一個可能的解釋。除了深度學習，這個框架的特殊情況還包括矩陣分解和張量分解 [32]。

E. 論文大綱

本論文的其餘部分安排如下。第二章介紹深層網路的輸入輸出圖。第三章研究深層網路的訓練問題，併為全域性最優性建立條件。第四章研究散射網路的不變性和穩定性。第五章研究深層網路的結構屬性，如嵌入的度量屬性以及泛化誤差的界限。第六章研究深度表徵的資訊理論屬性。

2. 預備工作

3. 深度學習中的全域性最優性

本章研究從 N 個訓練樣本 (X, Y ) 中學習深層網路的引數。在分類設定中，X ∈ R^N×D 的每一行代表 R^D 中的一個資料點，Y ∈ {0, 1} ^ N×C 的每一行代表每個資料點與 C 類別的從屬關係，即如果 X 的第 j 行屬於類 c ∈ {1, . . . , C}，則 Y_jc = 1，反之，則 Y_jc = 0。在回歸設定中，Y ∈ R^N×C 代表 X 行的因變數（dependent variable）。學習網路權重 W 的問題可以表述為以下最佳化問題：

其中是損失函式，用於評估真正輸出 Y 和預測輸出 Φ(X, W)（公式 (1)）之間的一致程度；Θ 是正則化函式，用於防止過擬合，如透過正則化執行的權重衰減；λ>0 是平衡引數。

A. 神經網路訓練的非凸挑戰

神經網路訓練的重要挑戰是（2）中的最佳化問題是非凸的，即使損失函式通常是 Φ 的凸函式，如平方損失；Φ(X, W) 通常是 W 的非凸函式，因其是（1）中 W_k 變數和非線性函式 ψ_k 的積。這對現有最佳化演演算法來說是一個巨大的挑戰，如梯度下降、隨機梯度下降、交替最小化、塊坐標下降、反向傳播、擬牛頓法等，這些最佳化演演算法通常只能確保收斂至標的函式的臨界點 [33] [34] [35] [36]。

但是，對於非凸問題，臨界點集不僅包括全域性最小值，還包括區域性極小值、區域性極大值、鞍點和鞍點 plateaus，如圖 2 所示。因此，非凸問題使該模型呈現一定的不適定性，因其不僅是重要的模型公式也是實現細節，如模型如何初始化以及最佳化演演算法的細節，這對模型效能產生很大影響。

圖 2. 非凸函式的臨界點示例（紅色）。(a,c) plateaus；(b,d) 全域性最小值；(e,g) 區域性極大值；(f,h) 區域性極小值。

B. 使用單個隱藏層的神經網路最優性

關於神經網路全域性最優性的早期研究 [41] 展示了：使用線性啟用函式和單個隱藏層的網路的平方損失有一個全域性最小值，其他臨界點均為鞍點。但是，[42] 中的網路示例證明，當啟用函式非線性時，即使使用可分資料，網路中的反向傳播演演算法 [19] 依然失敗了。不過，這些網路示例不通用，[43]、[44] 展示了使用線性可分資料時，反向傳播通常可以找到全域性最小點。

C. 使用隨機輸入和權重的神經網路最優性

近期多個研究利用隨機矩陣理論和統計物理學工具分析了多層神經網路的誤差曲面。例如，[21] 的作者認為，在特定假設條件下，高維最佳化問題的臨界點更有可能是鞍點而非區域性極小點。

D. 正齊次性網路（positively homogeneous network）的全域性最優性

近期研究 [30]、[31] 很大程度上沿用了上述論文的想法，但是使用的方法存在顯著區別。具體來說，[30]、[31] 利用純粹確定性方法分析了（2）中的最佳化問題，該方法不對輸入資料分佈、網路權重引數資料或網路初始化做任何假設。[30]、[31] 使用該方法證明只有鞍點和 plateaus 才是我們需要關心的臨界點，因為對於足夠規模的網路，不存在需要攀爬標的曲面再擺脫區域性極小值（如圖 2 中的 (f)、(h)）。

4. 深度學習中的幾何穩定性

理解深度學習模型的重要問題是從數學角度定義其歸納偏置（inductive bias），即定義回歸／分類任務的類別，這樣它們可以實現優秀的效能，或至少比傳統方法要好。

在計算機視覺任務中，摺積架構為最成功的深度學習視覺模型提供基礎的歸納偏置。幾何穩定性有助於我們理解其成功。

5. 深度學習基於結構的理論

A. 神經網路中的資料結構

理解深度學習的一個重要方面就是理解資料結構和深層網路之間的關係。對於正式分析來說，假設一個網路具備隨機獨立同分佈高斯權重，這是深層網路訓練中的常見初始化設定。近期研究 [56] 顯示此類具備隨機權重的網路將資料的度量結構沿層傳播，實現網路計算特徵的原始資料的穩定恢復，該特性經常會在一般深層網路中遇到 [57] [58]。

B. 泛化誤差

上文說明資料結構和訓練過程中獲取的網路誤差之間存在關係，這引發對深層網路的泛化誤差與資料結構之間關係的研究。泛化誤差——經驗誤差和期望誤差之差，是統計學習理論中的基礎概念。泛化誤差有可能為利用訓練樣本學習的原因提供見解。

近期精彩活動（直接點選檢視）：

福利 · 閱讀 | 免費申請讀大資料新書第21期

END

投稿和反饋請發郵件至hzzy@hzbook.com。轉載大資料公眾號文章，請向原文作者申請授權，否則產生的任何版權糾紛與大資料無關。

大資料

為大家提供與大資料相關的最新技術和資訊。