2017年深度學習必讀31篇論文（附下載地址）-知識星球

2017年即將擦肩而過，Kloud Strife在其部落格上盤點了今年最值得關註的有關深度學習的論文，包括架構/模型、生成模型、強化學習、SGD & 最佳化及理論等各個方面，有些論文名揚四海，有些論文則非常低調。

一如既往，首先，標準免責宣告適用，因為今年僅與GAN有關的論文就超過1660篇。我肯定會有疏漏，試圖縮減到每兩週一篇論文，包含了Imperial Deep Learning Reading Group上的大量素材。無論如何，我們開始吧。

01 架構/模型

今年的Convnet網路架構已經少得多，一切都穩定了。有些論文肯定是在推動這項研究。其中首先是安德魯·布魯克（Andrew Brock）的破解SMASH，儘管有ICLR的評論，但它已經在1000個GPU上進行了神經架構搜尋。

SMASH：基於超網路的模型結構搜尋

SMASH : one shot model architecture search through Hypernetworks

論文下載地址：

https://arxiv.org/pdf/1708.05344.pdf

DenseNets(2017更新版)是一個印象深刻又非常單純的想法。TLDR是“計算機視覺，眼+皮毛=貓，所以萬物互聯（包括層）”

密集的連線摺積神經

Densely connected convolutional networks

論文下載地址：

https://arxiv.org/pdf/1608.06993.pdf

在CNNs，一個非常被低估的理念是小波濾波器組繫數散射變換（conv+maxpool和ReLUctant組建小波理論）。不知何故，令人驚訝的是，這揭示了為什麼一個ConvNet前幾層像Gabor濾波器，以及你可能不需要培訓他們。用Stephane Mallat的話，“我對它的工作原理非常吃驚！”見下文。

縮放散射變換

Scaling the Scattering Transform

論文下載地址：

https://arxiv.org/pdf/1703.08961.pdf

在維基百科上，Tensorized LSTM是新的SOTA，有人英語的編碼限制是1.0,1.1 BPC（作為參考，LayerNorm LSTMs大約是1.3 bpc）因為新穎，我更願意把這篇論文定為“超級網路的復興之路”。

序列學習Tensorized LSTMs

Tensorized LSTMs for sequence learning

論文下載地址：

https://arxiv.org/pdf/1711.01577.pdf

最後，無需多言。

膠囊間動態路由

Dynamic Routing Between Capsules

論文下載地址：

https://arxiv.org/pdf/1710.09829.pdf

EM路由矩陣膠囊

Matrix capsules with EM routing

論文下載地址：

https://openreview.net/pdf?id=HJWLfGWRb

02 生成模型

我故意遺漏了英偉達關於GAN網路逐漸增大的令人頗為震驚的論文。

先用自回歸家庭–Aaron van den Oord的最新力作，vq-vae，是其中的一個檔案，看起來明顯的滯後，但想出背景漸變止損功能也是不小的壯舉。我敢肯定，一堆的迭代，包括包在ELBO’ed Bayesian層中的ala PixelVAE將會發揮作用。

神經離散表示學習

Neural Discrete Representation Learning

論文下載地址：

https://arxiv.org/pdf/1711.00937.pdf

另一個驚喜來自並行WaveNetwavenet。當每個人都在期待著與Tom LePaine的工作成果保持一致，DeepMind給我們師生分離，並透過解釋高維各向同性高斯/物流潛在空間，作為一個可以透過逆回歸流自噪聲整形的過程，。非常非常整潔。

並行Wavenet

Parallel Wavenet

論文下載地址：

https://arxiv.org/pdf/1711.10433.pdf

頭號檔案，沒有人預料到- Nvidia公司制定了標準。GAN理論完全代替了Wassersteinizing （Justin Solomon的力作），僅保持KL損失。用資料分佈的多解析度近似摒棄了不相交的支援問題。這仍然需要一些技巧來穩定梯度，但經驗結果不言自明。

GAN逐漸增長

Progressive growing of GANs

論文下載地址：

https://arxiv.org/pdf/1710.10196.pdf

而今年早些時候Peyre和genevay負責的法國學校定義了最小Kantorovich Estimators。這是Bousquet主導的谷歌團隊，該團隊曾寫下了 VAE-GAN的最終框架。這篇WAAE論文可能是ICLR2018最頂級的論文之一。

VeGAN手冊

The VeGAN cookbook

論文下載地址：

https://arxiv.org/pdf/1705.07642.pdf

Wasserstein自動編碼器

Wasserstein Autoencoders

論文下載地址：

https://arxiv.org/pdf/1711.01558.pdf

在變分推理面前，沒誰比Dustin Tran從強化學習策略和GAN中借鑒到的思路更好，再次推動了先進的VI。

層次式模型

Hierarchical Implicit Models

論文下載地址：

https://arxiv.org/pdf/1702.08896.pdf

03 強化學習

“被軟體/ max-entropy Q-learning主導了一年，我們錯了，這些年！

Schulman證實了RL演演算法的主要的兩個成員之間的的等價性。里程碑式的論文，”Nuff 稱。

策略梯度與Soft Q-learning的等價性

Equivalence between Policy Gradients and Soft Q-learning

論文下載地址：

https://arxiv.org/pdf/1704.06440.pdf

他有沒有在非常仔細的用數學和重新做分割槽函式計算來證實路徑的等價性？沒有人知道，除了Ofir：

縮小RL策略和價值之間的差距

Bridging the gap between value and policy RL

論文下載地址：

https://arxiv.org/pdf/1702.08892.pdf

另一篇被低估的論文，Gergely透過找出RL程式和convex 最佳化理論的相似點，默默的超越了所有人。今年IMHO有關RL論文的佳作，不過知名度不高。

統一的熵規則MDP的觀點

A unified view of entropy-regularized MDPs

論文下載地址：

https://arxiv.org/pdf/1705.07798.pdf

如果David Silver的Predictron因某種方式丟掉雷達在ICLR 2017被拒絕，那麼Theo的論文就像是一個雙重的觀點，它以優美而直觀的Sokoban實驗結果來啟動：

想象力增強劑

Imagination-Augmented Agents

論文下載地址：

https://arxiv.org/pdf/1707.06203.pdf

馬克·貝萊馬爾（Marc Bellemare）釋出了另外一個轉型的論文 – 廢除了所有的DQN穩定外掛，並簡單地學習了分發（並且在這個過程中擊敗了SotA）。漂亮。許多可能的擴充套件，包括與Wasserstein距離的連結。

有分位數回歸的RL

A distributional perspective on RL

論文下載地址：

https://arxiv.org/pdf/1707.06887.pdf

分佈RL的分佈視角

Distributional RL with Quantile Regression

論文下載地址：

https://arxiv.org/pdf/1710.10044.pdf

一個簡單，但非常有效，雙重whammy的想法。

勘探用噪聲網路

Noisy Networks for Exploration

論文下載地址：

https://arxiv.org/pdf/1706.10295.pdf

當然，如果沒有AlphaGo Zero的話，這個串列還是不完整的。將策略網路MCTS前後對齊的思想，即MCTS作為策略改進演演算法（以及使NN近似誤差平滑而不是傳播的手段）是傳說的東西。

在沒有人類知識的情況下掌控Go遊戲

Mastering the game of Go without human knowledge

論文下載地址：

https://deepmind.com/documents/119/agz_unformatted_nature.pdf

04 SGD & 最佳化

對於為什麼SGD在非凸面情況下的工作方式（從廣義誤差角度來看如此難以打敗），2017年已經是一年一度的成熟了。

今年的“最技術”論文獲得者是Chaudhari。從SGD和梯度流向PDE幾乎連線了一切。堪稱遵循並完成“Entropy-SGD”的傑作：

深度放鬆：用於最佳化深度網路的偏微分方程

Deep Relaxation : PDEs for optimizing deep networks

論文下載地址：

https://arxiv.org/pdf/1704.04932.pdf

貝葉斯認為這是Mandt＆Hoffman的SGD-VI連線。如你所知，我多年來一直是一個繁忙的人，原文如此。

SGD作為近似貝葉斯推斷

SGD as approximate Bayesian inference

論文下載連結：

https://arxiv.org/pdf/1704.04289.pdf

前面的文章取決於SGD作為隨機微分方程的連續鬆弛（由於CLT，梯度噪聲被視為高斯）。這解釋了批次大小的影響，並給出了一個非常好的chi-square公式。

批次大小，diffusion近似框架

Batch size matters, a diffusion approximation framework

論文下載地址：

https://kloudstrifeblog.wordpress.com/2017/12/15/my-papers-of-the-year/

又一篇受Ornstein-Uhlenbeck啟發的論文，得到了類似的結果，出自Yoshua Bengio實驗室：

影響SGD最小值的三個因素

Three factors influencing minima in SGD

論文下載地址：

https://arxiv.org/pdf/1711.04623.pdf

最後，又一篇Chandhari的論文，講述SGD-SDE-VI三位一體：

SGD執行VI，收斂到限制週期

SGD performs VI, converges to limit cycles

論文下載地址：

https://arxiv.org/pdf/1710.11029.pdf

05 理論

我堅信在解釋深度學習為什麼有用方面，答案將來自諧波/二階分析和資訊理論與基於熵的測量之間的交集。 Naftali Tishby的想法雖然因為最近ICLR 2018提交的內容引發了爭議，但這仍然使我們更加接近理解深度學習。

論透過資訊理論揭開深度網路黑箱

Opening the black box of deep networks via information

論文下載地址：

https://openreview.net/pdf?id=ry_WPG-A-

論深度學習的資訊瓶頸理論

On the information bottleneck theory of deep learning

論文下載地址：

https://arxiv.org/pdf/1703.00810.pdf

同樣，來自ICLR2017的一篇漂亮的論文對資訊瓶頸理論採取了一種變化的方法。

深度變分的資訊瓶頸

Deep variational information bottleneck

論文下載地址：

https://arxiv.org/pdf/1612.00410.pdf

今年已經有幾十億個生成模型，12億個因子分解對數似然的方法，大都可以歸在凸二元的下麵。

A Lagrangian perspective on latent variable modelling

對潛變數建模的拉格朗日觀點

論文下載地址：

https://openreview.net/pdf?id=ryZERzWCZ

最後這篇論文展示了驚人的技術實力，並且告訴我們，數學深度學習的軍備競賽仍然十分活躍！這篇論文結合了複雜的分析，隨機矩陣理論，自由機率和graph morphisms，得出了對於神經網路損失函式的Hessian特徵值的一個精確的定律，而圖（graph）的形狀只在經驗上是已知的，這一點在Sagun等人的論文中有論述。必讀。

透過RMT看神經網路損失曲面幾何

Geometry of NN loss surfaces via RMT

論文下載地址：

http://proceedings.mlr.press/v70/pennington17a/pennington17a.pdf

深度學習非線性RMT

Nonlinear RMT for deep learning

論文下載地址：

http://papers.nips.cc/paper/6857-nonlinear-random-matrix-theory-for-deep-learning.pdf

原文地址：

https://kloudstrifeblog.wordpress.com/2017/12/15/my-papers-of-the-year/

來源：新智源

精彩活動