本週 AI 論文良心推薦，你想 pick 誰？-知識星球

在碎片化閱讀充斥眼球的時代，越來越少的人會去關註每篇論文背後的探索和思考。

在這個欄目裡，你會快速 get 每篇精選論文的亮點和痛點，時刻緊跟 AI 前沿成果。

點選本文底部的「閱讀原文」即刻加入社群，檢視更多最新論文推薦。

這是 PaperDaily 的第 75 篇文章

Adaptive Scaling for Sparse Detection in Information Extraction

@roger 推薦

#Information Extraction

本文是中科院軟體所發表於 ACL 2018 的工作，論文主要研究資訊抽取中檢測任務的類別不平等問題。該問題具體體現在：1. 訓練樣本類別不均衡；2. 神經網路常用的交叉熵標的函式與評價指標（F-score）不平等。

為解決這一問題，本文提出了一種基於邊際效用的動態調整訓練實體權重的解決方案，在 Batch-wise 的訓練過程中直接針對 F-score 進行最佳化，同時不需要引入超引數。

本文分別在 KBP2017 的中英文事件檢測任務進行了實驗驗證，實驗結果證明瞭 AS 方法的有效性和穩定性。類別不平等問題在自然語言處理領域中廣泛存在，AS 方法可以被應用在更多的自然語言處理任務中。

論文連結

https://www.paperweekly.site/papers/1963

程式碼連結

https://github.com/sanmusunrise/AdaScaling

Self-Attention Generative Adversarial Networks

@xwzhong 推薦

#Generative Adversarial Networks

本文來自谷歌大腦 Ian Goodfellow 組，論文提出了一個基於註意力機制的對抗網路（SAGAN），將自註意力機制引入到摺積 GAN 中作為摺積的補充，在 ImageNet 多類別影象合成任務中取得了最優結果。

論文連結

https://www.paperweekly.site/papers/1967

A Unified Model for Extractive and Abstractive Summarization using Inconsistency Loss

@llamazing 推薦

#Text Summarization

本文是國立清華大學發表於 ACL 2018 的工作，論文主要貢獻如下：

1. 作者提出一個抽取式和提取式融合的模型來做 summarization，利用抽取式模型獲得 sentence-level 的 attention 進而影響 word-level 的 attention；提出 inconsistency loss；

2. CNN/Daily Mail 資料集 ROUGE 分數超過抽取式模型 lead-3，本文的模型可看作是 pointer-generator 和抽取式模型的融合；

3. 用Hierarchical 的結構（word-level encoding 和 sentence-level encoding），分別對 sentence 和word 做 attention；sentence 的 attention 權重使用 sigmoid；word 的 attention 權重計算時用 sentence-level 的 attention 權重進行 scale；

4. Inconsistency Loss 對 decode 每個 step 的 topK attention word 的 word-level 和 sentence-level 的 attention 乘積做 negative log；鼓勵 word-level attention sharp，sentence-level 的 attention high。

論文連結

https://www.paperweekly.site/papers/1953

DLBI: Deep learning guided Bayesian inference for structure reconstruction of super-resolution fluorescence microscopy

@lykaust15 推薦

#Image Reconstruction

本文是基於 GAN 和貝葉斯方法的熒光顯微超分辨研究。熒光顯微超分辨是光學成像的突破性研究，獲得 2014 年諾貝爾化學獎。它將光學顯微鏡的成像極限解析度從 300nm 提高到了 40nm。

這個方向一個重要的計算問題是從一串時間序列的高噪聲低解析度的影象重構出一張高分辨低噪聲的超解析度影象。之前的方法是基於貝葉斯和 FHMM 模型建模重構，時間複雜度非常高，重構出一張 480*480 的影象需要 75 個小時。

在這個領域使用深度學習非常有希望繼續提高極限解析度以及提高重構速度。但是有 4 個問題需要解決：1. 標準的影象超分辨是沒有噪聲的，但是這裡的圖片噪聲非常大。2. 沒有足夠大的訓練資料集。 3. 已有的訓練資料集並沒有 ground truth。4. 單純使用深度學習，非常有可能在最終結果中引入實際不存在的細節，對於光學成像，即使看不清，也不希望看到錯誤的細節。

這篇文章使用了以下方法解決了上述問題：

1. 基於熒光顯微成像的物理學原理，構建了一個可以根據給定的高分辨影象產生低分辨高噪聲影象的模擬器用於產生源源不斷的資料；

2. 在 GAN 的生成網路中加入了MC dropout，denoise shortcut 以及使用 multiscale training 的方式來抑制噪聲和實際不存在的細節；

3. 將深度學習的結果作為貝葉斯方法的先驗，進一步重構同時抑制噪聲。這一步雖然是使用了之前的方法，但因為深度學習的結果已經非常好，所以貝葉斯方法的收斂速度也比之前顯著提高。

文章透過大量的實驗（包括模擬資料和真實資料）證明該文章提出的方法可以重構出比之前的方法（3B，2012， Nature Methods）細節更加豐富的超分辨影象，同時，速度有了及其顯著的提高：如果直接使用深度學習的方法作為輸出（重構一張 480*480 圖片只需要 3 分鐘），比 3B 方法快 1500 倍，如果進一步使用貝葉斯方法改善結果，也還是要比 3B 方法快 150 倍。這種顯著的速度提升使實時重構和大範圍重構成為可能。

文章提出的訓練方法和解決噪聲的方法同樣適用於其他類似問題和領域，比如醫學影象（CT，fMRI）超分辨。

論文連結

https://www.paperweekly.site/papers/1964

程式碼連結

https://github.com/lykaust15/DLBI

Sparsely Grouped Multi-task Generative Adversarial Networks for Facial Attribute Manipulation

@zhangjichao 推薦

#Image-to-Image Translation

本文認為先前的基於 unpaired 資料的方法，比如 StarGAN 和 CycleGAN，仍然需要分類標簽並且消耗一定的人力。因此文章提出了一種 sparsely grouped 形式的資料形式，並且提出一種在此資料集上可以訓練的類似半監督對抗網路的學習框架和標的函式。

實驗透過在 celebA 資料集上做面部引數的調整應用驗證了方法的有效性。論文還透過定量定性的評估說明方法的優越性。最後，論文還給出了影象翻譯在資料不平衡下遇到的問題，並且說明瞭本文提出的方法可以緩解這種問題。

論文連結

https://www.paperweekly.site/papers/1965

Nugget Proposal Networks for Chinese Event Detection

@roger 推薦

#Chinese Event Detection

本文是中科院軟體所發表於 ACL 2018 的工作。論文主要針對事件檢測，尤其是中文事件檢測任務當中的觸發詞塊與詞的不匹配問題，提出了一種名為 Nugget Proposal Networks (NPNs) 的字級別標註模型。

不同於傳統的字級別和詞級別模型，該模型在每個字元上要求模型能夠預測出整個完整的觸發詞塊，從而使得預測結果有了更高的容錯率。同時，文章在進行預測的時候，同時利用了字元級別和詞級別的語意資訊，使得預測結果更加準確。

本文分別在 KBP2017 和 ACE2005 的中文事件檢測資料集進行了實驗驗證，與傳統的基於字元級別 BIO 標簽、基於詞級別的方法相比，NPNs 取得了顯著的提升。

詞與待檢測塊之間的不匹配問題在自然語言處理領域中廣泛存在，尤其在中文這樣沒有自然詞彙邊界的語言中更為明顯，NPNs 模型可以被應用到更多相關的自然語言處理任務中，例如命名物體識別。

論文連結

https://www.paperweekly.site/papers/1962

程式碼連結

https://github.com/sanmusunrise/NPNs

An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling

@Ttssxuan 推薦

#Sequence Modeling

在面對序列資料時，一般立即想到的是使用 RNN 網路，但經過本文以及相關文章的研究表明，面對序列資料時，摺積網路更應該納入考慮範圍。

本文針對摺積網路在序列上的應用提出 Temporal Convolutional Networks (TCN)。網路使用 1 維摺積處理序列問題，使用因果摺積（Causal Convolutions）處理序列中的順序關係、使用擴充套件摺積（Dilated Convolutions）實現對歷史資訊的接收範圍指數級擴張、使用 Residual Connections（實現時使用 1X1 摺積）處理深度網路資訊傳遞問題。

TCN的主要優點有：並行、靈活的接收域、穩定的梯度、訓練佔用記憶體少、可變長輸入。

本文在 The adding problem、Sequential MNIST and P-MNIST、Copy memory、JSB Chorales and Nottingham、PennTreebank、Wikitext-103、LAMBADA、text8 等多個資料集上進行試驗，與 LSTM、GRU 等網路進行對比，在結果和效能上 TCN 都取得了相當不錯的優勢。

論文連結

https://www.paperweekly.site/papers/1940

程式碼連結

https://github.com/locuslab/TCN

MobileFaceNets: Efficient CNNs for Accurate Real-time Face Verification on Mobile Devices

@halfmoontzh 推薦

#Face Recognition

本文提出了一個工業級精度和速度的輕量級人臉識別網路，模型大小隻有 4MB，速度超過了 MobileNetV2 和 ShuffleNet，專為人臉識別任務設計，精度比肩大模型。

論文連結

https://www.paperweekly.site/papers/1952

程式碼連結

https://github.com/moli232777144/mobilefacenet-mxnet

Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba

@stevechoris 推薦

#Recommender System

本文是阿裡巴巴和香港科技大學發表於 SIGKDD 2018 的工作，論文結合節點 side information，解決了圖表示學習中稀疏性和冷啟動問題，在電商 i2i 推薦上取得很好的效果。

論文連結

https://www.paperweekly.site/papers/1939

Paper Abstract Writing through Editing Mechanism

@llamazing 推薦

#Text Generation

本文是倫斯勒理工學院和南加州大學發表於 ACL 2018 的工作，論文研究的問題是給定 title 生成摘要，一個 writing 網路一個 editing 網路，跟 deliberation network 有點類似，對 decoder 出的文字進行 refine。

論文連結

https://www.paperweekly.site/papers/1943

程式碼連結

https://github.com/EagleW/Writing-editing-Network

Show, Tell and Discriminate: Image Captioning by Self-retrieval with Partially Labeled Data

@qliu 推薦

#Image Captioning

作者主要想解決的問題是生成的 caption 缺少多樣性的問題，即多幅相似的圖片可能會生成幾乎一樣的 caption。

作者認為，如果 caption 足夠具有多樣性的話，那麼這幅圖生成的描述應當與本幅圖最相似，與其他影象沒那麼相似。相反，如果兩幅圖生成的描述相同，那麼這個描述與兩幅圖的相似性即是一樣的或者是難以區分的。當 I1 生成的 C1 時，C1 與 I1 相似性應當高於 C1 與 In(n≠1)。

這篇文章的新穎之處有兩點：

1. 使用了 unlabeled images（不含有 ground truth 的影象）進行訓練，之前的大部分 image caption 的工作都是基於各個影象資料庫進行訓練，如果能夠使用無人工標註的影象進行訓練，訓練集將會大大增加。

為什麼能夠用到 unlabeled images 呢？作者發掘出了 unlabeled images 裡天然存在的“label”—即 In 與 Cn 的一一對應關係。即一幅圖透過生成網路生成的描述肯定是與這幅圖對應的，那麼這個描述的標簽就是這幅圖。

2. 使用了 self-retrieval 網路。這篇文章的模型主要分為兩個版塊，第一個版塊是 caption module，第二個版塊是 self-retrieval module。

其中 self-retrieval module 透過計算由 caption module 生成的 ci 與 {I1,I2,I3……，In} 之間的相似性，來計算 self-retrievel module 對 caption module 的 reward。最後用強化學習的方法把 reward 反饋給 caption module。

3. 運用強化學習將 CIDer 指標作為 reward。這個已經不算很新穎了，在 Self-critical Sequence Training for Image Captioning 這篇文章中已經運用強化學習將 CIDer 指標結果作為 reward 反饋給 caption module。

這裡由於增加了一個 self-retrieval module，因此多了一個 reward—Rret。所以 labeled images 的 reward 會分為兩部分 Rcider 和 Rret。由於 unlabeled images 沒有 Rcider，因此 reward 只有 Rret。