歡迎光臨
每天分享高質量文章

AAAI 2019 | 選擇型閱讀理解問題上的空間捲積Attention模型

作者丨陳致鵬

單位丨科大訊飛

研究方向丨機器閱讀理解

選擇型閱讀理解任務,需要通過閱讀一個篇章,然後結合問題從候選答案中選擇出正確的答案。本論文首先通過抽取篇章、問題以及選擇之間的互信息來獲得包含互信息的篇章、問題及選項的表示,然後進一步使用 Attention 方式計算出篇章、問題及選項之間的匹配矩陣,最後通過使用不同視窗大小的捲積神經網絡來抽取匹配矩陣的匹配特征得到每個選擇作為答案的概率。

 

 

其它相關工作在選擇型閱讀理解任務上都是通過將篇章、問題及選項通過不同方式進行組合匹配,然後再分別計算匹配程度,最後得到選項成為答案的概率,而該論文通過捲積神經網絡將所有的匹配矩陣做統一處理,同時綜合考慮選項與篇章及問題的匹配,來得到最終的答案。該論文的方法在多個選擇型的閱讀理解資料集上都獲得顯著的提高。

資料集簡介

 

選擇型閱讀理解問題主要包括三個部分,篇章、問題及選項。本論文主要在 RACE 及 SemEval-2018 Task11 兩個選擇型閱讀理解資料集上進行實驗。具體資料形式如圖。

 

 

RACE 資料集的資料來源是中國初高中英語閱讀理解題,是中國初高中用了檢查學生英語閱讀理解水平的的資料,所有題目都是相關老師及教育機構的進行專門設計的。資料集中包含大量的需要概括推理的問題。 

 

SemEval-2018 Task11 是 NAACL 下的一個閱讀理解評測任務,與 RACE 最大區別是選項個數為二,另外 SemEval-2018 Task11 上的問題相對較簡單。

 

模型及相關公式介紹

 

主要模型結構如圖:

 

 

模型主要包括四個大的層級,分別是 Embedding Layer、RNN Layer、Attention Layer 及 Answer Layer。

 

Embedding Layer 

 

該部分主要是模型的輸入。模型的輸入包括詞級別的詞向量(GloVe)和字符級別詞向量(ELMo),以及相關特征。

 

特征主要包括詞性特征和匹配特征。詞性特征是通過詞性標註得到每個詞的詞性,然後將每個詞的詞性用一個 Embedding 表示。匹配特征包括篇章與問題、篇章與選項及選項與問題中詞之間的完全匹配(兩個詞完全相同)和部分匹配(兩個詞屬於包含關係)。最後詞級別的詞向量和字符級別的詞向量以及相關特征拼接在一起,再輸入到一個共享權重的 Highway 得到最終的表示。 

 

RNN Layer 

 

RNN Layer 將 Highway 的輸出進行包含背景關係語意的建模,採用的模型結構為雙向 LSTM。通過雙向 LSTM 的處理,當前詞不但包含上文的信息還包含了下文的信息,極大的豐富當前詞的向量表示。

Attention Layer 

 

該結構通過 Attention 的方式進一步豐富了篇章、問題及選項的表示。選項通過與篇章問題計算 Attention,然後使用 Attention 信息從篇章問題中抽取相關的信息,得到。問題使用 Attention 從篇章中得到以及 Self-Attention 得到。具體計算步驟和公式如圖。

 

 

通過 Attention 我們得到了包含篇章及問題信息的選項表示,以及包含篇章信息的問題表示。然後將他們兩兩之間做矩陣乘。最後得到六組匹配矩陣,這六組匹配矩陣中就包含了篇章問題及選項之間的語意空間的匹配關係。 

 

Answer Layer 

 

在這個大的模塊里,將上面得到的六組匹配矩陣當作六個通道的語意匹配圖,我們專門設計對應的捲積模塊從該圖中抽取當前選擇能夠作為答案的匹配特征,然後使用匹配特征通過全連接得到當前選項作為答案的概率。 

 

我們一共定義了三組捲積神經網絡和對應的池化操作,分別用於抽取不同粒度的匹配特征。具體公式如圖:

 

 

M 是 6 通道選項長度乘以問題長度大小的語意匹配圖,我們在‘問題’這個維度定義了 5(詞)、10(短語)、15(整句)三個不同大小視窗的捲積網絡,用於抽取不同粒度匹配特征。同時我們也對應的定義了三個 Max-Pooling,用於進一步抽取更加突出的語意匹配信息。我們稱這個部分為 Convolutional Spatial Attention。 

 

通過這個部分可以抽取到匹配特征(O1,O2,O3),後續我們將這些特征鏈接在一起輸入到全連接神經網絡,最終得到每個選項作為答案的概率。具體公式如圖。

 

 

實驗及結果

 

實驗的資料集為 RACE 和 SemEval-2018 Task11,實驗設置如圖。

兩個資料上採用相同的實驗設置。實驗結果如下圖。

 

 

在 RACE 資料上我們是達到了 State-of-art 的水平。同樣從下圖可以看出我們在 SemEval-2018 Task11 任務上也是達到了最好的水平。

分析

這部分主要是分析我們在 RACE 資料上不同型別的問題上的效果,對比的是不包含使用 Attention 豐富表示的模型,從圖中(左圖開發集,右圖測試集)我們可以看出無論是在開發集還是在測試集上,我們的模型在 why 和 how 這兩類問題上都是要明顯高於參照系統,說明我們的系統在這類需要推理的問題上有著明顯的優勢。

 

 

同時我們也進一步做了進一步的消融實驗,具體實驗結果如下圖。

 

 

從表格我們可以看出,將 Convolutional spatial attention 結構替換成全連接後,模型的效果明顯下降,說明瞭該結構是非常有用的。

 

總結

 

我們的論文從實際問題的特點出發,提出有效的模型結構,同時在 RACE 和 SemEval-2018 Task11 上都達到了非常好的效果。但同時我們也發現目前模型還有很大一類問題無法較好的解決,那就是需要特別複雜推理的問題。這將是我們後續研究的一個重點。

已同步到看一看
赞(0)

分享創造快樂