OpenAI-2018年強化學習領域7大最新研究方向全盤點-知識星球

OpenAI一直是業界進行強化學習研究與應用的前沿陣地，2018年伊始，今天就給大家盤點一下新的AI紀元之年，OpenAI火力全開，重點研究的七個問題。

⭐⭐⭐ 分散式深度強化學習中引數平均問題（Parameter Averaging）

在RL演演算法中探索引數平均方案對樣本複雜度和通訊開銷帶來的影響。雖然最簡單的解決方案是在每次更新時，直接平均來自每個Worker的梯度，但也可以讓每個Worker獨立更新引數，達到一定更新次數後再提交更新，減少引數平均帶來的來通訊開銷。在RL中，這可能還有另一個好處：在任何時候，都會有Agent具有不同引數，這可能會帶來更好的探索行為。另一種可能性是像EASGD這樣的使用演演算法，每個更新都將引數部分地結合在一起。

⭐⭐⭐ 透過生成模型，在不同的GAMES之間進行遷移問題

· 為11個Atari遊戲，訓練11個好的Policy。從每個遊戲的Policy中產生10,000個1000步的軌跡資料。

· 使用一個生成模型（如Transformer）去逼近其中10個遊戲產生的軌跡資料。

· 然後在第11個遊戲的軌跡資料中微調這個模型。

· 標的是量化前10場GAME資料的訓練前的幫助有多大。該模型需要多大的預訓練才能起到Positive（幫助訓練）的作用？當第11場遊戲的資料量減少10倍時，效果的大小如何變化？減少100倍又如何？

⭐⭐ 貪吃蛇專案Slitherin問題

基於Gym環境，實現和解決經典的貪食蛇遊戲的多遊戲者問題（詳見slither.io）。

· 環境：有一個相當大的環境與多個蛇；水果隨機出現，且蛇吃水果之後會成長；一條蛇在與另一條蛇，或蛇本身或牆壁相撞時死亡；當所有的蛇死亡，遊戲結束。從兩條蛇開始，並基於此不斷擴充套件。

· Agent：基於使用者選擇，RL演演算法透過self_learning,自動基於環境來解決問題。需要嘗試各種方法來剋服self_learning的不穩定性（類似於GAN學習中出現的不穩定）。例如，嘗試基於過去的策略（policy）分配來學習當前的策略。哪種方法效果最好？

· 檢查學到的行為：Agent是否學會追逐食物，避免其他蛇碰撞？Agent是否學會進攻，設陷阱，或與競爭的蛇相抗衡？等等問題。

⭐⭐⭐ 基於Linear Attention 的Transfomer模型問題

“Transfomer”模型中使用了基於softmax的Soft Attention機制。如果可以使用Linear Attention（可以轉換成使用Fast Weight的RNN），我們就可以得到模型用於RL中。具體而言，在複雜的Context的RL學習環境下，直接把Transfomer應用於RL是不切實際的，但是基於Fast Weight的RNN是可行的。

我們的標的是：對於任何語言建模（Language Modeling）任務;只需要訓練一個Transfomer模型，然後然後找到一種方法，使用具有不同超引數Liner-Attention Transfomer模型來獲得每個字元/字的相同位（Bits），而不用增加過多的引數。但有一點需要註意：這個方法也可以行不通。一個重要的提示：與使用softmax的註意力相比，Liner-Attention Transfomer可能需要高維度的key/value向量，這可以在不顯著增加引數數量的情況下完成。

⭐⭐⭐ 學習資料增強（Learned Data Augmentation）問題

可以使用基於資料學習得到的VAE資料來進行“學習資料增強”。首先要對輸入資料進行VAE訓練，然後將每個訓練樣本透過編碼對映到latent space，然後在latent space中新增一個簡單的（如高斯）擾動，然後解碼回觀測空間。問題是，我們可以用這種方法來提升泛化效果嗎？這種資料增強的潛在好處是它可以包括引入許多非線性變換，如視點變化和場景閃電的變化。我們能否近似標簽不變的轉換集呢？

⭐⭐⭐⭐ 強化學習（RL）中的正規化（Regularization）問題

實驗研究（和定性解釋）不同正則化方法對選擇的RL演演算法的有很大的影響。如，在有監督的深度學習中，正則化對於改進最佳化和防止過擬合非常重要，其中非常成功的方法如Dropout，Batch Normalization和L2正則化。但是，人們還沒有從強化學習演演算法（如策略梯度和Q學習）的正則化中受益。順便提一句，人們通常在RL中使用的模型要比監督式學習中使用的模型結構要的小得多，因為大型模型的效果表現更差 – 也許是因為小模型更適用於最近的研究場景。這是一個相關的，但更久遠的理論研究。

⭐⭐⭐⭐⭐ 自動求Olympiad Inequality Problems問題

Olympiad Inequality Problems很容易表達，但解決這些問題通常需要巧妙的操作。構建Olympiad Inequality Problems的資料集，編寫能解決其中很大一部分問題的程式。目前尚不清楚機器學習在這裡是否有用，但可以使用一個學習的策略來減少一些分支因素。

是否還在因為論文寫作排版問題糾結呢？給大家推薦一套萬門大學的LaTex精準入門教程。限時免費，名額有限，先到先得哦。

OpenAI-2018年強化學習領域7大最新研究方向全盤點

相關推薦

熱門標籤

熱門文章

分享創造快樂