在碎片化閱讀充斥眼球的時代，越來越少的人會去關註每篇論文背後的探索和思考。

在這個欄目裡，你會快速 get 每篇精選論文的亮點和痛點，時刻緊跟 AI 前沿成果。

點選本文底部的「閱讀原文」即刻加入社群，檢視更多最新論文推薦。

這是 PaperDaily 的第 73 篇文章

本期推薦的論文筆記來自 PaperWeekly 社群使用者 @jsh0123。本文嘗試對指代消解的一種神經網路 Mention Rank 模型的啟髮式損失函式中的超引數利用強化學習方式進行最佳化，提出一種獎勵衡量機制，跟其他方式比效果突出。

關於作者：薑松浩，中國科學院計算技術研究所碩士生，研究方向為機器學習和資料挖掘。

■ 論文 | Deep Reinforcement Learning for Mention-Ranking Coreference Models

■ 連結 | http://www.paperweekly.site/papers/1047

■ 原始碼 | https://github.com/clarkkev/deep-coref

介紹

本文出自斯坦福 NLP 組，發表在 EMNLP 2016，其將深度強化學習應用於指代消解領域是一大創新，相較於其他方法有很好的效果提升。

指代消解是自然語言處理的一大研究領域，常見的指代消解演演算法多數模型採用啟髮式損失函式，不同消解任務為達到良好的使用效果需要對調整損失函式超引數。

常見的指代消解演演算法有 Mention Pair、Mention Rank、Entity Mention 等等，本文將深度強化學習應用於 Mention Rank 實現消解技術的通用性，解決啟髮式損失函式的超參微調問題。

模型介紹

論文作者將其發表於 ACL 2016 的 Neural Mention-ranking 模型 [1] 進行強化學習的改進。

模型結構

如下圖所示，Neural Mention-ranking 模型結構主體部分為多層的前反饋神經網路，分為三個部分：首先是輸入層將指代詞（mention）特徵、候選前指詞（Candidate Antecedent）即指代詞出現前的詞特徵、指導詞所在句子特徵以及其他特徵例如距離特徵、連線關係特徵等等做向量拼接（concate）處理作為模型的輸入 h0。

特徵的獲取過程不是本論文的重點，這裡不詳細闡述，對特徵如何獲取感興趣可以參考 [1]。

隱藏層採用 Relu 作為啟用函式，其中隱藏層共 3 層，其公式定義如下：

分數獲取層，其採用基本的線性相乘法，公式定義如下：

啟髮式損失函式

Neural Mention-ranking 模型結構採用一種啟髮式 Max-Margin 損失函式，Max-Margin 即 Hinge Loss 的一種變種。首先，先看鬆弛引數 △h 的定義。

其中 C(mi) 表示預測的候選前指詞庫，T(mi) 表示真實的前指詞庫，c∈C(mi)，NA 表示為空，FN、FA、WL 依次表示“不為空”、“錯誤的前指”、“錯誤連線”。損失函式定義如下，該函式目的是讓真實的前指詞“分數”更高，錯分情況“分數”隨著訓練不斷降低。

其中 ti 表示預測候選詞中真實前指詞的最高“分”（Score），定義如下。

引數 ɑ 的定義採用人工微調的方式，不斷嘗試，最終確定最優值。

強化學習對損失函式的改進

論文采用兩種強化學習方式改進，一種對超引數的改進，採用強化學習的獎勵機制，另一種採用經典的增強策略梯度演演算法。

論文中將 Neural Mention-ranking 模型當做代理（agent），而每個行為 ai 表示第 i 個指代詞的其中一個前指詞。Ai 表示第 i 步中所有的候選行為集合即所有第 i 個指代詞的所有候選詞集合。獎勵函式 R(a1:T) 表示第 1 個行動到最後行動的獎勵，用 B-cubed 函式 [2] 表示。

1. 獎勵衡量機制

這種方式將上述啟髮式損失函式的鬆弛引數 △ 進行改進，由於沒個行為都是沒有關聯性、獨立的，因此可以透過嘗試不同的行為判斷每一步獎勵差異。因此鬆弛引數變化如下所示。