歡迎光臨
每天分享高質量文章

DeepMind論文解讀:讓機器更深入地理解文本

在碎片化閱讀充斥眼球的時代,越來越少的人會去關註每篇論文背後的探索和思考。

在這個欄目里,你會快速 get 每篇精選論文的亮點和痛點,時刻緊跟 AI 前沿成果。


點擊本文底部的「閱讀原文」即刻加入社區,查看更多最新論文推薦。

這是 PaperDaily 的第 80 篇文章

本期推薦的論文筆記來自 PaperWeekly 社區用戶 @wutong_SEUDeepMind 提出了一個全新閱讀理解資料集 NarrativeQA,機器需要面對的是一整部書籍或電影劇本,在沒有限定答案範圍的前提下,機器需要從文本中找到最相關的段落並且總結出問題的答案。

如果你對本文工作感興趣,點擊底部閱讀原文即可查看原論文。

關於作者:吳桐,東南大學碩士生,研究方向知識圖譜。

■ 論文 | The NarrativeQA Reading Comprehension Challenge

■ 鏈接 | https://www.paperweekly.site/papers/1397

■ 原始碼 | https://github.com/deepmind/narrativeqa


論文導讀


相比於信息抽取,閱讀理解任務要求機器能夠整合篇幅較長的背景關係信息(如整篇文章)並能夠對事件進行推理。但是現階段的閱讀理解任務仍然能夠以一種投機取巧的方法,利用淺層的語言形態學信息(如問答對之間的文本相似性以及整個文章內的統計詞頻)從問題中直接找到關於答案的蛛絲馬跡。


因此文中提出了一個新的閱讀理解資料集,旨在迫使機器必須通篇閱讀書籍或者電影腳本(遠遠長於一篇文章)才能回答問題。該資料集更側重於發掘機器閱讀理解對於含蓄的敘述的理解能力而不是基於淺層的樣式匹配就能夠直接得到答案。

工作動機


人在閱讀的時候往往通讀全篇,並不一定能夠記住書中的每一點細節,但是一定能夠註意到書中有哪些關鍵的物體,並且記住這些物體的關係是怎麼樣的。


但是,現在的閱讀理解任務的 benchmark 資料集並不能夠針對這點進行測評,相反,多數問題可以通過 question 和 paragraph 之間的 pattern match 得到答案。


因此 DeepMind 提出了這個新的資料集 NarrativeQA,機器需要面對的是一整部書籍或電影劇本,在沒有限定答案範圍的前提下,機器需要從文本中找到最相關的段落並且總結出問題的答案。該任務十分具有挑戰性。


那麼,這個新的資料集理論上應該具備以下特征: 


  • 資料量足夠大,用以滿足神經網絡的訓練需求;

  • 問題和答案最好都是自然語言,且答案最好和多個片段相關或者需要從一大段話中總結出來;

  • 標註者要自己總結答案,從更高的層面理解文章中物體之間的關係,而且最好使用個性化的語言描述而不是從文中直接截取答案;

  • 從判別器的角度上講,最好能夠從答案的流暢性和正確性等兩個角度進行判斷;

  • 資料量需要控制在對於當前既有的模型來說十分困難,但仍處在人可以解決的範圍內。

相關工作


主要提一下三個,SQuADMS MARCO SearchQA


SQuAD 的場景比較局限,給定的來源於維基百科短文本,眾包標註的問題以及從短文本中直接截取的答案。 MS MARCO 提出了更開放的資料集,文本來自搜索引擎,真實的用戶問題以及眾包標註的答案,但是多數答案仍然不可避免的是文本中的原文,多數在 SQuAD 測評中取得不錯成績的模型在 MS MARCO 上仍然能夠取得不俗的結果。SearchQA 的文本來自搜素引擎,問題來自 Jeopardy,對,就是當年 Watson 一戰成名的那個節目,然後統計發現,資料集中 80% 的答案少於兩個單詞,99% 的答案少於 5 個單詞,抽樣調查發現 72% 的問題答案是命名物體。論文作者似乎對這種很不屑,但我想說命名物體是我們這些知識圖譜人的心頭愛啊。


資料集分析


資料集的問答對中主要會出現 Title,Question,Answer,Summary snippet,Story snippet 等欄位,其中 title 確定了問答對的出處,即圍繞著哪本書或劇本來進行閱讀。其中相關片段由人工標註得出,但並不建議在訓練中作為標註語料使用,且最終的測試集中不會出現該類片段,需要程式自行設計文本段落的定位方案。 


資料集的主體是小說以及電影劇本,問答集主要根據小說或電影的摘要信息進行提問,如果問答集同時提供了摘要,那麼和現在的閱讀理解任務也就沒有什麼不同了,但是,在沒有提供摘要及標明相關段落的基礎上,回答此類問題需要程式通讀整部書籍,整理分析所有相關段落以進行閱讀理解。

任務 


提供一組測試任務:分別以摘要和全文作為 context,測試基於答案生成和答案選擇的兩類閱讀理解問題。測試指標包括 Bleu-1,Bleu-4,Rouge—L 以及基於答案排序的 MRR。

Baseline實驗結果

文中提出了三類對比,一將其視為 IR 任務,二直接應用 LSTM 預測後綴詞,三在全書範圍內 IR+BiDAF。 最終的實驗結果證明在全書範圍內的閱讀理解任務上,暫沒有演算法能夠取得很好的結果。

本文由 AI 學術社區 PaperWeekly 精選推薦,社區目前已改寫自然語言處理、計算機視覺、人工智慧、機器學習、資料挖掘和信息檢索等研究方向,點擊「閱讀原文」即刻加入社區!


點擊標題查看更多論文解讀: 

 戳我查看招募詳情

#作 者 招 募#


讓你的文字被很多很多人看到,喜歡我們不如加入我們

           

關於PaperWeekly


PaperWeekly 是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號後臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。


▽ 點擊 | 閱讀原文 | 查看原論文

赞(0)

分享創造快樂