本週最熱 AI 論文大集合，還不快一鍵收藏？-知識星球

在碎片化閱讀充斥眼球的時代，越來越少的人會去關註每篇論文背後的探索和思考。

在這個欄目裡，你會快速 get 每篇精選論文的亮點和痛點，時刻緊跟 AI 前沿成果。

點選本文底部的「閱讀原文」即刻加入社群，檢視更多最新論文推薦。

這是 PaperDaily 的第 97 篇文章

Compositional Attention Networks for Machine Reasoning

@NoaRicky 推薦

#Machine Reasoning

本文是斯坦福大學發表於 ICLR 2018 的工作，論文解決了樹狀結構網路在機器閱讀、機器推理問題中雖有良好表現，但模型訓練時間過長的問題，同時幸運的是在精確度方面勝過了以往所有模型。它其中一名作者是斯坦福 CS224n 授課老師 Manning 教授，該文章模型已被 Stanford NLP 團隊實現。

▲ 論文模型：點選檢視大圖

論文連結

https://www.paperweekly.site/papers/2207

原始碼連結

https://github.com/stanfordnlp/mac-network

Know What You Don’t Know: Unanswerable Questions for SQuAD

@guohao916 推薦

#Machine Reading Comprehension

本文是斯坦福大學發表於 ACL 2018 的工作，論文在原來的 SQuAD（SQuAD 1.1）的十萬個問題 – 答案對的基礎上，SQuAD 2.0 中新增了超過五萬個新增的、由人類眾包者對抗性地設計的無法回答的問題。執行 SQuAD 2.0 閱讀理解任務的模型不僅要能夠在問題可回答時給出答案，還要判斷哪些問題是閱讀文字中沒有材料支援的，並拒絕回答這些問題。

▲ 論文模型：點選檢視大圖

論文連結

https://www.paperweekly.site/papers/2180

原始碼連結

https://bit.ly/2rDHBgY

Learning-to-Ask: Knowledge Acquisition via 20 Questions

@yihongchen 推薦

#Knowledge Discovery

本文是清華大學、微軟和阿裡巴巴聯合發表於 KDD 2018 的工作。為機器賦能知識是讓機器具有智慧的一種重要手段，透過提問獲取知識是一種常見的方法，但如何保證提問的效率和有效性是一個核心問題，本文針對這些問題提出了一種基於深度強化學習和矩陣分解的 Learning-to-Ask 方法，並用貝葉斯方法表示知識來增強魯棒性。

▲ 論文模型：點選檢視大圖

論文連結

https://www.paperweekly.site/papers/2174

Simple and Effective Multi-Paragraph Reading Comprehension

@guohao916 推薦

#Question Answering

本文將段落級的神經 QA 模型擴充套件到篇章級。在訓練階段取樣了多個段落，並改造了標的函式使之產生全域性正確的輸出。當 QA 模型的輸入為篇章時，處理方法可分為兩類：流水線方法首先選擇一個最相關的段落再預測答案跨度；基於置信的方法將模型使用在多個段落上傳回最高的置信值。基於置信的方法對於段落選擇的錯誤具有強魯棒性，然而這要求模型對每一個段落計算出較精確的置信值。

本文將上述兩個思路相結合，使流水線方法能夠計算出各個段落更加精確的置信值。首先使用 TF-IDF 選擇用於訓練和測試的段落，針對語料的遠端監督噪聲較大的問題，將標的函式定義為所有可能的答案位置的邊緣值；最後透過使用一個共享標準化標的函式，使答案選擇基於篇章中各個段落的比較，有效提高了模型的魯棒性。

▲ 論文模型：點選檢視大圖

論文連結

https://www.paperweekly.site/papers/2179

原始碼連結

https://github.com/allenai/document-qa

Towards Human-Machine Cooperation: Self-supervised Sample Mining for Object Detection

@kezewang 推薦

#Object Detection

近年來，隨著網際網路的快速發展和計算能力的提升，受益於大規模訓練資料的深度學習技術取得了突破性的進步。物體檢測作為計算機視覺領域的一個經典任務，檢測精度取得了巨大的提升。以候選區域為基礎的物體檢測網路對一張輸入的影象提取大量的候選物體區域，並對這些區域進行類別標註和位置回歸，提升了物體檢測的識別精度和識別速度。然而，神經網路的檢測效果極其依賴訓練網路的標註樣本資料，因此，如何利用大規模的未標註或是少量標註的資料有效訓練網路，提升其檢測精度是亟待解決的問題。

為了使用更少的標註資料訓練出高精度的檢測模型，一般需要解決以下技術問題：

1. 在保證模型效果的同時，儘量減少人工樣本標註。通常的神經網路訓練，非常依賴大量人工標註的資料集，而比起其他視覺任務（例如，影象分類和動作識別），標註物體需要提供圖片中所有物體的類別標簽和物體所處區域的邊框坐標。因此，對影象進行人工標註非常耗時耗力，發展自動標註無標簽資料的方法是減少人工標註負擔的關鍵步驟。

2. 挖掘能夠顯著提高分類器表現的特殊訓練樣本。現有的物體檢測資料集通常包含了絕大多數普通的“簡單”樣本和少量有益的“困難”樣本（即，富含各種光照，變形，遮擋和類內變化的資訊量）。因為他們服從長尾分佈，“困難”的例子是罕見的，為了利用這些能夠最有效訓練神經網路的“困難”樣本，需要能夠從大量樣本中將其識別出來。

3. 抑制壞樣本的負面影響。一些訓練樣本（例如，離群點或噪聲樣本）可能會使模型發生偏移，在訓練時排除被資料集中的標註者標記為“混亂”的樣本後，訓練得到的物體檢測效能可以得到大幅度的改進和提高。

為剋服上述現有技術存在的不足，我們的研究動機在於提供一種基於自監督過程改進主動學習的通用物體檢測系統及方法，以結合樣本挖掘技術和深度學習物體檢測技術，利用少量標註的樣本和海量的未標註樣本聯合訓練提升模型的檢測效能以提高檢測精度。同時，可在減少大量的人力物力、節約成本基礎上實現通用物體檢測目的。

▲ 論文模型：點選檢視大圖

論文連結

https://www.paperweekly.site/papers/2177

原始碼連結

https://github.com/yanxp/SSM

Attention-Gated Networks for Improving Ultrasound Scan Plane Detection

@hsu 推薦

#Semantic Segmentation

本文是 Attention U-Net 的前序文章，論文提出了 Attention Gate，和主流方法一樣使用的是 soft-attention 機制。文章將 Attention-Gate 應用於超聲影象的分類問題，包括若干器官。

▲ 論文模型：點選檢視大圖

論文連結

https://www.paperweekly.site/papers/2198

原始碼連結

https://github.com/ozan-oktay/Attention-Gated-Networks

CLIP-Q: Deep Network Compression Learning by In-Parallel Pruning-Quantization

@yanjoy 推薦

#Model Compression

本文是西蒙弗雷澤大學發表於 CVPR 2018 的工作，論文提出先剪枝後量化的壓縮框架，並且自動最佳化超引數。結果在 GoogLeNet 上有 10x 壓縮，在 ResNet-50 有 15x 壓縮，並不降低準確率。

▲ 論文模型：點選檢視大圖

論文連結

https://www.paperweekly.site/papers/2181

deepNF: deep network fusion for protein function prediction

@xuehansheng 推薦

#bioinformatics

本文將深度學習應用到多網路融合的過程中，並針對蛋白質功能預測的網路結構特點，提出了一種基於多樣式深度自動編碼器的網路融合方法——deepNF，從多個異構互動網路中提取蛋白質的高階特徵。

▲ 論文模型：點選檢視大圖

論文連結

https://www.paperweekly.site/papers/2172

原始碼連結

https://github.com/VGligorijevic/deepNF

Large scale distributed neural network training through online distillation

@paulpeng 推薦

#Neural Networks

本文來自 Google，論文提出了一種大規模分散式神經網路的的改進方法。具體來說，作者提出了一種 distillation 模型的變種，一方面考慮是支援大規模資料的並行化處理，另一方面考慮是為預測模型提供了一種可重覆的方法。

▲ 論文模型：點選檢視大圖

論文連結

https://www.paperweekly.site/papers/2205

RippleNet: Propagating User Preferences on the Knowledge Graph for Recommender Systems

@xuzhou 推薦

#Recommender Systems

本文是上海交大、微軟亞洲研究院和香港理工大學聯合發表於 CIKM 2018 的工作。為瞭解決協同過濾的稀疏性和冷啟動問題，研究人員通常利用社交網路或專案屬性等輔助資訊來提高推薦效果。本文將知識圖譜應用到推薦系統中，是一個很新穎的方法，給推薦系統提供了一個全新的思路。

▲ 論文模型：點選檢視大圖

論文連結

https://www.paperweekly.site/papers/2201

原始碼連結

https://github.com/hwwang55/RippleNet

MojiTalk: Generating Emotional Responses at Scale

@filterc 推薦

#Response Generation

本文是清華大學和 UCSB 發表於 ACL 2018 的工作，論文旨在教會機器生成有情緒的回答，比如當使用者傷心的時候，機器回答一定不能很開心。這項工作的難點在於缺少大規模標註好的情感訓練集，以及如何控制生成回答的情感。現有的情感資料集對深度模型都太小，並且只有有限的幾個分類（生氣、開心，或者正面、負面）。

本文解決方案如下：1. 使用含有 emoji（選擇了 64 種）的 Twitter 資料來做自動情感標註（規模：600K） 2. 在生成回答時，根據給定的 emoji 來生成不同情感的回答

▲ 論文模型：點選檢視大圖

論文連結

https://www.paperweekly.site/papers/2199

原始碼連結

https://github.com/Claude-Zhou/MojiTalk

A Minimal Span-Based Neural Constituency Parser

@godweiyang 推薦

#Constituency Parsing

本文提出了一種不同於傳統方法的成分句法分析方法。傳統的句法分析器需要預處理出語法規則集合，然後利用語法規則來進行各種句法分析，這類方法的弊端有很多，主要有三點：

1. 語法規則集合構造的好壞直接影響到分析效果的好壞；

2. 不僅如此，利用語法規則的方法時間複雜度高，因為每次都要遍歷一遍語法規則集合來決定每個短語採用哪一條語法規則；

3. 還有一種弊端就是利用語法規則的方法無法產生新的產生式，也就是說如果測試集中的語法規則沒有在訓練集中出現過，那麼是無法預測出來的。

本文提出的模型不需要預先構造出語法規則集合，只需要預測出每個短語的label和 split 就行了，這樣就能構造出一棵完整的句法樹。該模型分為編碼與解碼兩部分，其中編碼部分就是利用雙向 LSTM 將每個詞和短語表示成向量，解碼部分提出了兩種模型，一種是 chart 模型，類似於 CKY 演演算法，另一種是 top-down 模型，就是自頂向下的貪心演演算法。

▲ 論文模型：點選檢視大圖

論文連結

https://www.paperweekly.site/papers/2098

原始碼連結

https://github.com/mitchellstern/minimal-span-parser

Learning Structural Node Embeddings via Diffusion Wavelets

@xuehansheng 推薦

#Network Embedding

本文是斯坦福大學發表於 KDD18 的工作，論文提出了一種透過利用熱小波擴散樣式透過低維嵌入來表示每個節點的網路鄰域的方法——GraphWave。 GraphWave 不是在手工選擇的特徵上進行訓練，而是以無人監督的方式學習這些嵌入。文章在數學上證明具有相似網路鄰域的節點將具有類似的 GraphWave 嵌入，即使這些節點可能駐留在網路的非常不同的部分中。

▲ 論文模型：點選檢視大圖

論文連結

https://www.paperweekly.site/papers/2204

原始碼連結

https://github.com/snap-stanford/graphwave

Adversarial Network Embedding

@xuzhou 推薦

#Network Embedding

ANE 是發表在 AAAI 2018 上的用對抗生成網路學習網路表示的文章。現有的網路表示方法 Deep Walk、LINE、node2vec 等保留了網路的一階、二階或者更高階的相似性，但這些方法都缺少增加 embedding 魯棒性的限制。本文透過對抗訓練的規則來正則化表示學習過程。

ANE 包含兩個部分：結構保留、對抗學習。在結構保留部分，本文實驗中分別使用了 Inductive DeepWalk 和 Denoising Auto encoder 兩種模型；對抗學習部分主要是學習穩定、魯棒的網路表示，使結構保留部分生成的網路表示服從先驗（prior）分佈。