作者丨許志欽

學校丨紐約大學阿布扎比分校博士後，紐約大學庫朗研究所訪問學者

研究方向丨計算神經科學，深度學習理論

深度學習成功地應用在很多領域，但對它的理論理解卻非常缺乏。這兩年，很多理論學家把關註點放在一個關於深度學習與傳統學習理論的悖論上。在傳統學習理論中，模型的引數越多，模型一般會更好地擬合訓練資料，但模型的泛化能力（擬合測試資料集的能力）會變差。在深度學習中，引數的數目比訓練資料集要大得多，但深度網路（DNN）卻通常既能擬合好訓練資料，又保持良好的泛化能力。這個違反直覺的現象被大家稱為“明顯悖論” (apparent paradox)。

頻率原則（F-Principle）

最近有幾篇文章 [1,2,3] 從傅裡葉分析的角度，在實驗和理論上揭示了該悖論背後的一種機制。

▲ 文獻1

▲ 文獻2

▲ 文獻3

一般來說，在深度學習中，大家用來測試結論的例子或者是手寫數字集（MNIST），或者是影象分類集（CIFAR）。這兩類資料集相對實際應用的資料集確實已經足夠簡單，但在分析上，它們仍是非常複雜的，因為它們的輸入維度仍然非常高（畫素點的個數）。

我們可以從擬合一維函式出發考慮這個問題。訓練資料集是少數幾個均勻取樣資料點，如果用多項式去擬合，階數很高的時候（大於資料點個數），擬合的結果通常是一個能夠精確刻畫訓練資料但振蕩厲害的函式。但如果用 DNN，無論多大規模，通常學習到的曲線都是相對平坦的。因為是一維函式，所以很容易想到，振蕩和平坦可用傅裡葉分析定量地刻畫。於是就自然能猜想到，DNN 在學習的時候可能更加偏愛低頻成分。

下麵是一個一維函式的例子 [1]（圖 1a 中的黑點），對資料作離散傅裡葉變換後如圖 1b 所示，考慮圖 1b 中的頻率峰值（黑點）在訓練中的相對誤差，如圖 1c，頻率越高，收斂越慢（藍色表示相對誤差大，紅色表示相對誤差小）。頻率原則可以粗糙地表述成：DNN 在擬合標的函式的過程中，有從低頻到高頻的先後順序。（Frequency Principle or F-Principle in [1], or spectral bias in [2]）

▲ 圖1

F-Principle 並不是一個陌生的概念，而是我們日常生活中經常都在用的一個原則。想象一下，如果讓一個人去記住一個沒見過的東西，一般比較粗糙的輪廓資訊會先被記住，然後再是很多細節。沒錯，DNN 也正是使用了這樣的一個學習過程。舉一個例子，我們來訓練一個 DNN 來記住一張圖片。DNN 的輸入是一個位置坐標 (x,y)，我們希望它輸出這個位置對應的灰度值。圖 2 的一系列圖展示了不同訓練步數，DNN 學習到的影象，正如我們前面所猜測的從粗糙的輪廓到細節的學習過程。

▲ 圖2

經驗上理解深度學習的泛化能力

一般來說，“平坦”簡單的函式會比振蕩複雜的函式有更好的泛化能力。DNN 從標的函式的低頻成分開始學習。當它學到訓練資料的最高頻率的時候，此時頻率空間誤差趨近於零。因為頻率空間的誤差等於實域空間的誤差，所以它的學習也基本停止了。這樣深度學習學到的函式的最高頻率能夠被訓練資料給限制住。對於小的初始化，啟用函式的光滑性很高，高頻成分衰減很快，從而使學習到的函式有更好的泛化能力。

對於低頻佔優的標的函式，小幅度的高頻成分很容易受到噪音的影響。基於頻率原則，提前停止訓練（early-stopping）就能在實踐中提高 DNN 的泛化能力。

理論上理解深度學習的泛化能力

從低頻到高頻的學習原則並不總是對的，比如在文獻 [1] 中討論到的，如果標的函式是隨機資料點（頻率空間沒有低頻佔優的特性），或者 DNN 的引數的初始化的值比較大，這個原則就會失效。特別是在大初始化的情況下，DNN 的泛化能力也會變差。

文獻 [2] 對 DNN 學習到的函式的頻率幅度的估計並不能解釋這些現象。特別地，對於層數和神經元數目足夠多的 DNN，文獻 [2] 給出的理論不能解釋為什麼 DNN 從低頻開始學習。在文獻 [2] 中，DNN 的擬合函式的高頻成分受權重（weights）的譜範數（spectral norm）控制。對於小規模的DNN，可以經常觀察到，權重的範數隨訓練而增長，從而允許小規模的 DNN 去擬合標的函式中的高頻成分。因此，文獻 [2] 在理論上給出頻率原則的一種可能解釋。

但如文獻 [3] 的一個例子所示（下圖，圖 3a 為標的函式，圖 3b 為其離散傅裡葉變換），對於層數和神經元數目足夠多的 DNN，權重的譜範數（圖 3c）基本不變。但如圖 3d 所示的頻率成分的相對誤差，四個重要的頻率峰值（圖 3b 的黑點）仍然是從低頻開始收斂。對於這種情況，文獻 [2] 對 DNN 的擬合函式的高頻成分的上限估計在訓練過程中基本不變，從而不能看出低頻到高頻學習的頻率原則。

▲ 圖3. 說明：(d) 展示 (b) 中四個頻率峰值在訓練中的相對誤差

文獻 [3] 給出了能夠解釋這些問題的理論框架。從只有一層隱藏層的 DNN（sigmoid 作為啟用函式）開始，在傅裡葉空間分析梯度下降演演算法，文獻 [3] 得到損失函式 ω 在任一頻率分量上對任一引數的導數。

其中，是對應神經元的權重（weight），是關於對應神經元所有引數和頻率 ω 的一個多項式，A(ω) 是學習到的函式與標的函式的差的幅度。文獻 [3] 論述了這個運算式如何定性的推廣到一般 DNN。

上面這個式子顯示地定量地說明瞭在梯度下降過程中低頻成分會有更高的優先順序。但同時需要註意的是，這個優先順序不只是由頻率決定，它也依賴於擬合函式與標的函式的差的幅度。

這個理論分析揭示了對於低頻佔優的標的函式，當 DNN 的引數是很小的數時，低頻成分會先收斂，並且在低頻成分收斂的時候，DNN 的高頻成分仍然很小。而當 DNN 擬合高頻成分的時候，已經收斂的低頻成分只會受到很小的幹擾。對高頻佔優的函式，整個訓練過程就會變得複雜。低頻容易受到高頻的影響，所以低頻是振蕩式的收斂，每振蕩一次，偏離的最大幅度就會下降。並且頻率越低，振蕩越頻繁（如下圖 4 所示）。

▲ 圖4

對於初始化的問題，這個理論框架也給出瞭解釋。如果初始化權重很大，由於上式中的很大，低頻不再佔優，所以頻率原則就很容易失效。並且，啟用函式的高頻成分也會變大。對於那些頻率高到訓練資料也看不到的成分，因為訓練過程不能限制它們，所以在訓練完成後，它們仍然有比較大的幅度而導致 DNN 的泛化能力變差。

總結

傅裡葉分析的理論框架非常好地解釋了 DNN 為什麼在擁有大量引數的情況下既能學好訓練資料，又能保持好的泛化能力，簡單地說，由於頻率原則，DNN 學習到的函式的頻率範圍是根據訓練資料的需要而達到。對於那些比訓練資料的最高頻率還高的頻率成分，DNN 能保持它們幅度很小。

用傅裡葉分析的角度來研究 DNN 的學習問題仍處於開始的階段，有很多有趣的問題值得繼續深入，比如更加定量地分析 DNN 的學習過程，理解層數和每層寬度對訓練的不同貢獻等等。

致謝：感謝張耀宇對本文初稿的校正和修改。

參考文獻

[1]. Zhi-Qin J. Xu, Yaoyu Zhang, Yanyang Xiao. Training behavior of deep neural network in frequency domain, arXiv preprint arXiv: 1807.01251. (May 18, 2018 submitted to NIPS, first submitted to arXiv on Jul 3, 2018)

[2]. Nasim Rahaman, Devansh Arpit, Aristide Baratin, Felix Draxler, Min Lin, Fred A. Hamprecht, Yoshua Bengio, Aaron Courville. On the spectral bias of deep neural networks, arXiv preprint arXiv:1806.08734. (First submitted to arXiv Jun 22, 2018)

[3]. Zhi-Qin J. Xu. Understanding training and generalization in deep learning by Fourier analysis, arXiv preprint arXiv: 1808.04295. (First submitted to arXiv on Aug 14, 2018)

點選以下標題檢視更多論文解讀：

#投稿通道#

讓你的論文被更多人看到

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？ 答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學習心得或技術乾貨。我們的目的只有一個，讓知識真正流動起來。

? 來稿標準：

• 稿件確系個人原創作品，來稿需註明作者個人資訊（姓名+學校/工作單位+學歷/職位+研究方向）

• 如果文章並非首發，請在投稿時提醒並附上所有已釋出連結

• PaperWeekly 預設每篇文章都是首發，均會新增“原創”標誌

? 投稿郵箱：

• 投稿郵箱：hr@paperweekly.site

• 所有文章配圖，請單獨在附件中傳送

• 請留下即時聯絡方式（微信或手機），以便我們在編輯釋出時和作者溝通

現在，在「知乎」也能找到我們了

進入知乎首頁搜尋「PaperWeekly」

點選「關註」訂閱我們的專欄吧

關於PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平臺。如果你研究或從事 AI 領域，歡迎在公眾號後臺點選「交流群」，小助手將把你帶入 PaperWeekly 的交流群裡。

▽ 點選 | 閱讀原文 | 獲取最新論文推薦

從傅裡葉分析角度解讀深度學習的泛化能力

頻率原則（F-Principle）

經驗上理解深度學習的泛化能力

理論上理解深度學習的泛化能力

總結

參考文獻

相關推薦

熱門標籤

熱門文章

分享創造快樂