近期大熱的AutoML領域，都有哪些值得讀的論文？-知識星球

在碎片化閱讀充斥眼球的時代，越來越少的人會去關註每篇論文背後的探索和思考。

在這個欄目裡，你會快速 get 每篇精選論文的亮點和痛點，時刻緊跟 AI 前沿成果。

點選本文底部的「閱讀原文」即刻加入社群，檢視更多最新論文推薦。

這是 PaperDaily 的第 106 篇文章

Finding Better Topologies for Deep Convolutional Neural Networks by Evolution

@zhangjun 推薦

#Neural Architecture Search

本文透過用進化演演算法來做摺積神經網路的架構最佳化，最大的亮點是給出了影響架構效能的關鍵因素：1. 深度；2. 各節點之間的連線性。透過進化演演算法最佳化網路結構最大的瓶頸在於計算效率上，網路架構的效果評價是一個耗時的工作，生成和變異出的大量個體都需要評價。

本文從一個最簡單的架構作為初始個體，透過預設定的 5 種變異方式（新增邊、節點、濾波器等操作）對原始個體進行變異最佳化，並透過視覺化的方法對進化的過程進行了跟蹤分析，找到了一些規律。完全自動化地去設計架構比較難，但透過自動設計分析出的一些結論可以幫助提高人工設計的效率。

▲ 論文模型：點選檢視大圖

論文連結

https://www.paperweekly.site/papers/2303

Searching Toward Pareto-Optimal Device-Aware Neural Architectures

@zhangjun 推薦

#Multi-objective Optimization

本文來自 Google Research 和國立清華大學。大多數 NAS 的工作都針對最佳化結果在 test dataset 上的準確性，而忽略了在一些硬體裝置（比如：手機）上的模型還應考慮延遲和功耗，由此可將單標的最佳化問題轉換成一個多標的最佳化問題，本文深入分析了兩種常見的多標的 NAS 模型 MONAS 和 DPP-Net，併在一些裝置上進行了實驗對比。

▲ 論文模型：點選檢視大圖

論文連結

https://www.paperweekly.site/papers/2259

Neural Architecture Search: A Survey

@zhangjun 推薦

#Neural Architecture Search

深度學習模型在很多工上都取得了不錯的效果，但調參對於深度模型來說是一項非常苦難的事情，眾多的超引數和網路結構引數會產生爆炸性的組合，常規的 random search 和 grid search 效率非常低，因此最近幾年神經網路的架構搜尋和超引數最佳化成為一個研究熱點。

本文是一篇神經網路架構搜尋綜述文章，從 Search Space、Search Strategy、Performance Estimation Strategy 三個方面對架構搜尋的工作進行了綜述，幾乎涵蓋了所有近幾年的優秀工作。

論文詳細解讀：神經網路架構搜尋（NAS）綜述 | 附AutoML資料推薦

▲ 論文模型：點選檢視大圖

論文連結

https://www.paperweekly.site/papers/2249

Reinforced Evolutionary Neural Architecture Search

@zhangjun 推薦

#Neural Architecture Search

本文來自 arXiv，作者來自自動化所和地平線。用進化演演算法來搜尋模型結構存在演演算法不穩定的問題，用強化學習來搜尋存在效率存在一定的問題，於是本文將兩者結合起來，各取其長。整體框架是基於進化演演算法，而 mutation 操作是用到了強化學習來控制。在 CIFAR-10 上用了更少的計算資源，得到了較優的結果。併在移動端進行了測試，在保證較高準確率的基礎上，用了較少的引數量。

▲ 論文模型：點選檢視大圖

論文連結

https://www.paperweekly.site/papers/2311

DARTS: Differentiable Architecture Search

@WildCat 推薦

#Neural Architecture Search

本文來自 CMU 和 DeepMind。當前最佳的架構搜尋演演算法儘管效能優越，但需要很高的計算開銷。與傳統的在離散的和不可微的搜尋空間上採用進化或強化學習搜尋結構的方法不同，本文提出了一個高效架構搜尋方法 DARTS（可微架構搜尋），將搜尋空間鬆弛為連續的，從而架構可以透過梯度下降並根據在驗證集上的表現進行最佳化。

作者在 CIFAR-10，ImageNet，Penn Treebank 和 WikiText-2 上進行了大量實驗，表明本文演演算法擅於發現用於影象分類的高效能摺積結構和用於語言建模的迴圈神經網路結構，同時比現有技術的非微分搜尋技術要快幾個數量級。

▲ 論文模型：點選檢視大圖

論文連結

https://www.paperweekly.site/papers/2069

原始碼連結

https://github.com/quark0/darts

Efficient Neural Architecture Search via Parameter Sharing

@Synced 推薦

#Neural Architecture Search

本文來自 Google Brain 和斯坦福大學，論文提出超越神經架構搜尋（NAS）的高效神經架構搜尋（ENAS），這是一種經濟的自動化模型設計方法，透過強制所有子模型共享權重從而提升了 NAS 的效率，剋服了 NAS 算力成本巨大且耗時的缺陷，GPU 運算時間縮短了 1000 倍以上。

在 Penn Treebank 資料集上，ENAS 實現了 55.8 的測試困惑度；在 CIFAR-10 資料集上，其測試誤差達到了 2.89%，與 NASNet 不相上下（2.65% 的測試誤差）。

▲ 論文模型：點選檢視大圖

論文連結

https://www.paperweekly.site/papers/1678

原始碼連結

https://github.com/melodyguan/enas

A Flexible Approach to Automated RNN Architecture Generation

@Synced 推薦

#Recurrent Neural Network

本文來自 MIT 和 Salesforce Research，論文提出了一種用於迴圈神經網路靈活自動化架構搜尋的元學習策略，明確涵蓋搜尋中的全新運算元。該方法使用了靈活的 DSL 搜尋和強化學習，在語言建模和機器翻譯等任務上表現良好。新方法可以讓我們擺脫依靠直覺的費力模型設計方式，同時也大大擴充套件了迴圈神經網路的可能性空間。

▲ 論文模型：點選檢視大圖

論文連結

https://www.paperweekly.site/papers/1406

Progressive Neural Architecture Search

@Synced 推薦

#Convolutional Neural Network

本文是約翰霍普金斯大學、Google AI 和斯坦福大學聯合發表於 ECCV 2018 的工作，論文提出了一種比之前的方法更高效的用於學習 CNN 結構的方法，其中沒有使用強化學習或遺傳演演算法，而是使用了基於序列模型的最佳化（SMBO）策略。在其中按複雜度逐漸增大的順序搜尋架構，同時學習一個用於引導該搜尋的代理函式（surrogate function），類似於 A* 搜尋。

該方法在 CIFAR-10 資料集上找到了一個與 Zoph et al. (2017) 的強化學習方法有同等分類準確度（3.41% 錯誤率）的 CNN 結構，但速度卻快 2 倍（在所評估的模型的數量方面）。

▲ 論文模型：點選檢視大圖

論文連結

https://www.paperweekly.site/papers/1369

原始碼連結

https://github.com/chenxi116/PNASNet.TF

Hierarchical Representations for Efficient Architecture Search

@Nevertiree 推薦

#Neural Architecture Search

本文是 CMU 和 DeepMind 發表於 ICLR 2018 的工作，論文提出了一種結合模型結構分層表示和進化策略的高效架構搜尋方法，可以模仿人類專家常用的模組化設計樣式，和支援複雜拓撲的表達能力很強的搜尋空間。該演演算法能夠高效地發現效能超越大量人工設計的影象分類模型的架構，在 CIFAR-10 上獲得了 top-1 誤差率 3.6% 的結果，在 ImageNet 上取得了 20.3% 的結果。

透過比較人工設計的架構、使用強化學習找到的架構、使用隨機或進化搜尋找到的架構的實驗結果，研究者發現這種搜尋方法能有效找到效能超越人工設計的架構。

▲ 論文模型：點選檢視大圖

論文連結

https://www.paperweekly.site/papers/1233

Accelerating Neural Architecture Search using Performance Prediction

@velconia 推薦

#Neural Architecture Search

本文來自 MIT 和哈佛，論文針對 NN 的 AutoML 中遇到的 Early Stopping 問題，提出了一種新方法：用線性模型預測模型的最終訓練結果。AutoML 中，Hyperparameters 的搜尋過程是一個 CPU Super Expensive 的過程，這個方法能夠降低大約 50% 的搜尋時間。

這是一個新思路，並且我對這個方法做了一些實驗（主要在 CNN 上），效果確實還不錯，說明這是可行的，我認為在不論是手工調優還是自動調優，這個方法都是以後的訓練框架可以借鑒的。

▲ 論文模型：點選檢視大圖

論文連結

https://www.paperweekly.site/papers/1897

資料集連結

https://github.com/MITAutoML/accelerating_nas

Large-Scale Evolution of Image Classifiers

@chlr1995 推薦

#Image Classification

本文是 Google 發表於 ICML 2017 的工作。要執行現實任務時，神經網路需要專家大量的研究設計，而且通常只能執行單個具體的任務，例如識別照片中的標的等。人們希望擁有自動化的方法，為任意給定的任務生成合適的網路架構。

先前有一些開創性的研究利用學習的方式來設計網路結構。Google 想利用計算資源以前所未有的計算規模和儘量少的專家幹預，獲得更好的解決方案。

Google 結合進化演演算法，以簡單的架構模組和常用的初始條件，設定了一個演化過程，取得了不錯的結果。整個過程簡單粗暴，每次演化隨機刪除或新增一個結構模組，或者新增 skip connection；同時過程中，保留優質的網路作為親代，拋棄效果不好的網路結構。

▲ 論文模型：點選檢視大圖

論文連結

https://www.paperweekly.site/papers/1850

原始碼連結

https://github.com/neuralix/google_evolution

Evolving Deep Neural Networks

@zhangjun 推薦

#Evolutionary Algorithm

本文來自 GECCO 2016，論文提出了一種改進 NEAT 的 DNN 網路架構搜尋方法，併在 CNN、RNN 和兩者的混合應用中進行了演演算法的驗證，取得了不錯的效果。本方法屬於現在比較火的 neuroevolution，包括 Google, DeepMind, OpenAI, Sentient, Uber 等在內的很多公司都在研究，用來設計效果更好的網路結構。

▲ 論文模型：點選檢視大圖

論文連結

https://www.paperweekly.site/papers/2307

Genetic CNN

@zhangjun 推薦

#Genetic Algorithms

本文是約翰霍普金斯大學發表於 ICCV 2017 的工作，是一篇將遺傳演演算法用於 CNN 架構搜尋問題的論文。文章探索了用遺傳演演算法的幾個標準步驟來解此問題，包括網路架構的編碼，優秀個體的選擇，交叉和變異方法等，在幾個小型資料集上進行了實驗，並將小型實驗生成的優良結構應用於大型資料集取得了不錯的效果。

用進化演演算法做網路架構搜尋是一種很常見和經典的手段，但這類方法有個巨大的缺點就是計算量太大，因為太多的可行解需要進行評價，而每一次評價都是一個非常耗時的計算過程。所以，如何加速評價是解決目前網路架構搜尋問題的核心問題之一。

▲ 論文模型：點選檢視大圖

論文連結

https://www.paperweekly.site/papers/2306

原始碼連結

https://github.com/aqibsaeed/Genetic-CNN

Designing Neural Network Architectures using Reinforcement Learning

@zhangjun 推薦

#Neural Architecture Search

本文是 MIT 發表於 ICLR 2017 的工作，論文提出了一種基於 Q-learning 的 meta modeling 方法，對特定任務進行 CNN 網路架構的生成，取得了不錯的效果，屬於用強化學習來生成網路架構中一種比較典型的做法。文章中考慮的情況比較簡單，將網路搜尋問題轉化為用強化學習對一個有限域狀態和動作的問題進行最佳化求解，最佳化變數考慮的比較簡單且都為離散化，整體感覺應用意義不大。

▲ 論文模型：點選檢視大圖

論文連結

https://www.paperweekly.site/papers/2274

原始碼連結

https://github.com/MITAutoML/metaqnn

CMA-ES for Hyperparameter Optimization of Deep Neural Networks

@zhangjun 推薦

#Bayesian Optimization

本文是一篇 2016 年 ICLR 的 workshop paper，文章內容只介紹了實驗部分。本文將所有超引數都換為連續變數，用比較經典的一種連續域無梯度最佳化演演算法 CMA-ES 對問題進行最佳化求解，並和貝葉斯最佳化演演算法進行對比。本文的這種方法最大的優勢在於非常易於並行化處理，用更多的 GPU 可以達到非常不錯的效果。