歡迎光臨
每天分享高質量文章

自動機器學習(AutoML)最新綜述

在碎片化閱讀充斥眼球的時代,越來越少的人會去關註每篇論文背後的探索和思考。

 

在這個欄目里,你會快速 get 每篇精選論文的亮點和痛點,時刻緊跟 AI 前沿成果。

 

點擊本文底部的「閱讀原文」即刻加入社區,查看更多最新論文推薦。

這是 PaperDaily 的第 115 篇文章

作者丨王晉東

學校丨中國科學院計算技術研究所博士生

研究方向丨遷移學習和機器學習

 

這是一篇來自第四範式(4Paradigm)公司的關於 AutoML 的綜述文章。第四範式是目前國內關於 AutoML 研究較早較深入的公司之一。AutoML 全稱是 Automated Machine Learning,是 2014 年以來,機器學習和深度學習領域最炙手可熱的領域之一。

 

本篇綜述文章系統地對 AutoML 領域給出了綜述,從出現原因、問題定義、問題構成、基本策略、高級策略、應用、及總結等方面進行了全面的介紹。下麵是一些簡要的筆記。

AutoML出現原因

 

機器學習的應用需要大量的人工干預,這些人工干預表現在:特征提取、模型選擇、引數調節等機器學習的各個方面。AutoML 試圖將這些與特征、模型、優化、評價有關的重要步驟進行自動化地學習,使得機器學習模型無需人工干預即可被應用。

 

AutoML問題定義

作者從機器學習和自動化兩個角度給出了定義:

 

1. 從機器學習角度講,AutoML 可以看作是一個在給定資料和任務上學習和泛化能力非常強大的系統。但是它強調必須非常容易使用;

 

2. 從自動化角度講,AutoML 則可以看作是設計一系列高級的控制系統去操作機器學習模型,使得模型可以自動化地學習到合適的引數和配置而無需人工干預。 

 

一個通用的 AutoML 定義如下:

 

 

AutoML的核心任務: 

 

  • Better performance 

  • No human assistance 

  • Lower computation budgets

 

AutoML問題構成

AutoML 的主要問題可以由三部分構成:特征工程、模型選擇、演算法選擇。

 

特征工程

 

特征工程在機器學習中有著舉足輕重的作用。在 AutoML 中,自動特征工程的目的是自動地發掘並構造相關的特征,使得模型可以有最優的表現。除此之外,還包含一些特定的特征增強方法,例如特征選擇、特征降維、特征生成、以及特征編碼等。這些步驟目前來說都沒有達到自動化的階段。

 

上述這些步驟也伴隨著一定的引數搜索空間。第一種搜索空間是方法自帶的,例如PCA自帶降維引數需要調整。第二種是特征生成時會將搜索空間擴大。

 

模型選擇

 

模型選擇包括兩個步驟:選擇一個模型,設定它的引數。相應地,AutoML的目的就是自動選擇出一個最合適的模型,並且能夠設定好它的最優引數。

 

演算法選擇

 

對於演算法選擇,AutoML 的目的是自動地選擇出一個優化演算法,以便能夠達到效率和精度的平衡。常用的優化方法有 SGD、L-BFGS、GD 等。使用哪個優化演算法、對應優化演算法的配置,也需要一組搜索空間。

 

從全域性看 

 

將以上三個關鍵步驟整合起來看,一個完整的 AutoML 過程可以分成這麼兩類:一類是將以上的三個步驟整合成一個完整的 pipeline;另一類則是 Network Architecture Search,能夠自動地學習到最優的網絡結構。在學習的過程中,對以上三個問題都進行一些優化。

基本的優化策略

一旦搜索空間確定,我們便可以實用優化器(optimizer)進行優化。這裡,AutoML 主要回答三個問題: 

 

  • 選擇的優化器可以作用在哪個搜索空間上?

  • 它需要什麼樣的反饋?

  • 為了取得一個好的效果,它需要怎樣的配置? 

 

簡單的優化搜索方式包括 Grid Search 和 Random Search。其中 Grid Search 被廣泛使用。 

 

從樣本中進行優化的方法主要包括啟髮式搜索、derivative-free 優化、以及強化學習方法。梯度下降法是一種重要的優化策略。

 

評價策略

 

基本評價策略 

 

在設計評價策略時,AutoML 主要回答三個問題: 

 

  • 這種策略能能夠快速進行評價嗎?

  • 這種策略能夠提供準確的評價嗎?

  • 這種策略需要怎樣的反饋? 

 

基本的評價策略包括: 

 

1. 直接評價:直接在標的資料上進行評價,這是被使用最多的策略;

 

2. 採樣:當資料樣本量非常大時,採樣一些樣本進行評價; 

 

3. Early Stop:當遇到一些極端情況使得網絡表現效果不好時,可以考慮進行 early stop;

 

4. 引數重用:將之前學習過的引數重覆利用在新任務上,這在兩種任務配置差不多時可用;

 

5. 共軛評價:對於一些可量化的配置,可以用共軛評價法進行。

 

高級評價策略 

 

高級評價策略主要包括兩種:Meta-learning 和 Transfer Learning。 

 

1. Meta-learning 法:從先前的學習經驗中提煉出基本的引數和結構配置;

 

2. Transfer learning 法:從先前的學習經驗中提煉出可以重用的一些知識。

應用

  • 使用 Auto-sklearn 進行模型選擇;

  • 使用強化學習進行 Neural Architecture Search;

  • 使用 ExploreKit 進行自動特征構建。

展望

未來可能的研究方向:

 

  • 提高AutoML的效率;

  • 更明確的問題定義;

  • 發展基本和高級的搜索策略;

  • 找到更適合的應用。

本文由 AI 學術社區 PaperWeekly 精選推薦,社區目前已改寫自然語言處理、計算機視覺、人工智慧、機器學習、資料挖掘和信息檢索等研究方向,點擊「閱讀原文」即刻加入社區!

 

點擊標題查看更多論文解讀:

 

#投 稿 通 道#

 讓你的論文被更多人看到 

 

如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢? 答案就是:你不認識的人。

 

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 

 

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得技術乾貨。我們的目的只有一個,讓知識真正流動起來。

 

來稿標準:

• 稿件確系個人原創作品,來稿需註明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向) 

• 如果文章並非首發,請在投稿時提醒並附上所有已發佈鏈接 

• PaperWeekly 預設每篇文章都是首發,均會添加“原創”標誌

 

? 投稿郵箱:

• 投稿郵箱:[email protected] 

• 所有文章配圖,請單獨在附件中發送 

• 請留下即時聯繫方式(微信或手機),以便我們在編輯發佈時和作者溝通

 

 

?

 

現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關註」訂閱我們的專欄吧

關於PaperWeekly

 

PaperWeekly 是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號後臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

 

▽ 點擊 | 閱讀原文 | 下載論文

    赞(0)

    分享創造快樂