歡迎光臨
每天分享高質量文章

每周論文分享-0723

分享一些最近閱讀的一些最新論文,整理論文的主要內容,方便大家索引,快速找到自己需要內容。

1Marian: Cost-effective High-Quality Neural Machine Translation in C++ 

概述:將teacher-student訓練,low-precision矩陣相乘,auto-tuning等其他技術用於優化Transformer在GPU和CPU上的運算速度。並把這些技術與average attention網絡(最近提出的Transformer變體)相結合,構建了一系列精度高、效果好的模型。(翻譯模型加速(模型壓縮),marain(C++),attention average)

 

2How Does Batch Normalization Help Optimization? (No, It Is Not About Internal Covariate Shift)

概述:Batch Normalization是一種常用的深度學習regularization技術,它可以加速DNN的訓練,並使訓練更加stable。我們一直以為BatchNorm有效的原因是因為,BN可以使訓練時,網絡每一層的輸入資料服從相同的分佈,減少所謂的Internal covariate shift帶來的影響。本文反駁了這一觀點,這種每一層輸入穩定性對於BN加速DNN的訓練,幾乎沒有影響。相反,BN起作用的原因是因為:BN使optimization landscape更加平滑,這種平滑性使得基於梯度的預測更加準確和穩定(二次平滑,基於梯度預測的準確性更加準確),加速訓練。

 

3On the Impact of Various Types of Noise on Neural Machine Translation

概述:構造5中不同型別的噪聲,即句子沒有對齊(misaligned sentences)、詞語順序不對(misordered words)、語言不對(wrong language)、部分句子沒翻譯(Untranslated sentence)、雙陳述句對很短(2-5個詞);評測它們對NMT效果的影響,並且發現這些噪聲對NMT影響比SMT要大。

 

4、Unsupervised Text Style Transfer using Language Models as Discriminators 

概述:Text Style Transfer中,採用語言模型(target domain)代替以前由二分分類器,作為判別器(D),保證足夠的error signal可以回傳至生成器(G),使GAN訓練stable。有兩個優點:1、對generator訓練時的discrete sampling進行連續近似,可以採用反向傳播法訓練GAN引數。2、可以拋棄訓練中adversarial這一步。

 

5Learning Disentangled Joint Continuous and Discrete Representations

概述:提出JointVAE,採用無監督方式學習一種解耦的連續且離散的表示方式(disentangled continuous and discrete representation)。原理:將VAE的連續隱含分佈與一個relaxed 離散分佈相結合,用以控制每一個latent unit編碼信息的量。JointVAE即具備傳統VAE訓練穩定且large sample diversity的優勢,又具有建模複雜jointly continuous and discrete generative factors的優點。

 

6Hierarchical Graph Representation Learning with Differentiable Pooling

摘要:最近,圖形神經網絡( GNNs )通過有效學習節點embedding,徹底改變了圖形表示學習這一領域(Graph Representation Learning),併在節點分類和鏈接預測等任務中取得了很多最新成果。然而,目前的GNN方法本質上是扁平的(flat),並且不學習到圖形的分層表示—這種限制(limitation)對於圖形分類任務,是一個明顯的問題,圖分類主要任務是預測整張圖的類別標簽。本文我們提出DIFFPOOL,一個可微分的graph pooling module,可以生成一張圖的層次表示,並可以以端到端的方式與各種圖神經網絡結構相結合。DIFFPOOL為Deep GNN的每一層的節點學習一種可微分的軟簇(differentiable soft)的assignment,將節點映射到一組類簇,然後形成下一GNN層的輸入(coarsened input)。我們的實驗結果表明,將現有的GNN方法與DIFFPOOL相結合,與所有現有的pooling的方法相比,平均提高了5-10 %的圖分類準確率,在五個基準資料集中的四個資料集上取得了最好的成績。

 

7、Gradient Acceleration in Activation Functions

摘要:Dropout一直是訓練深層神經網絡的通用方法之一,眾所周知,Dropout對大模型進行正則化,以避免模型過擬合。通常解釋,Dropout的主要作用是避免模型出現共適應(co-adaptation)現象。然而,在本文中,我們提出了一種新的解釋,解釋了Dropout作用原理,並提出了一種新技術,用於設計更好的激活函式。首先,我們證明Dropout是一種優化方法,通過加速梯度信息的流動,即便實在容易出現梯度消失的飽和區,將輸入(Input)推向非線性激活函式的飽和區域。在此基礎上,我們提出了一種新的激活函式方法——梯度加速激活函式(Gradient Acceleration in Activation Function, GAAF ),它能加速了梯度反向傳播,即便是在飽和區。然後,激活函式的輸入可以上升到飽和區域,這使得網絡更加健壯,因為模型收斂於平坦區域。實驗結果支持了我們關於Dropout的解釋,並證明我們所提出的GAAF技術提高模型的性能,達到了預期的目變。

 

8、Deep k-Means: Re-Training and Parameter Sharing with Harder Cluster Assignments for Compressing Deep Convolutions

摘要:當前的CNNs模型層數越來越多,這一趨勢使得對CNNs進行高增益壓縮的迫切需求日益迫切,其中捲積占據了計算和引數量(例如,GoogLeNet、ResNet和wide ResNet )主要部分。此外,捲積的高能耗限制了其在移動設備上的部署。為此,我們提出了一種簡單而有效的捲積壓縮方案,通過對weights進行K – means聚類,通過權重共享實現壓縮,只記錄K個聚類中心和權重分配指標。然後,我們引入了一種新的譜鬆弛k-means正則化(spectrally relaxed k-means regularization)方法,這種正則化方法傾向於在re-training時,將捲積層的權重硬分配給K個學習到的簇中心。此外,我們還提出了一套改進的CNN硬體實現能耗評估的指標,總體評估結果與之前提出的從實際硬體測量中推斷得到的能耗評估結果相一致。最後,我們從壓縮比和能耗兩個方面評估了幾個CNN模型的深度k-means,在不造成精度損失的情況下觀察到了預期的結果。

 

9、Uncertainty in Multitask Transfer Learning 

摘要:利用變分Bayes神經網絡,我們提出了一種新演算法,能夠將多種不同任務中的知識累積成先驗知識。這一結果是一個豐富而有意義的先驗知識,能夠減少對新任務的學習。Posterior可以超越平均場近似(mean field approximation),並且在進行實驗過程中產生良好的不確定性。實驗結果表明,該演算法可以從明顯不同的任務中學習,同時發現它們之間的相似之處。Mini-Imagenet實驗取得新的最優結果,在5次射擊學習中,準確率為74.5 %。最後,我們提供的實驗表明,其他現有的方法在不同的類似測試中往往不能很好地執行。

 

10、Graph-to-Sequence Learning using Gated Graph Neural Networks

摘要:許多NLP實際應用都可以被構建成一個圖到序列的學習問題。與基於語法的方法(Grammar-based approaches)相比,最近的一些工作主要通過神經網絡結構來解決這些NLP問題,並且取得了不錯的結果,但是仍然主要是依賴線性化啟髮式(linearisation heuristics)和/或標準遞迴網絡來獲得最好的結果。在這項工作中,我們提出了一個新的模型,它對包含在圖中的全部結構信息進行編碼。我們提出的新模型將最近提出的Gated Graph Neural Networks與輸入變換(Input transformation)相結合,該輸入變換允許節點和邊具有它們自己的隱含表示(hidden representation),同時解決了先前工作中存在的引數爆炸(Parameter Explosion)問題。實驗結果表明,該模型在AMR圖生成和基於句法的神經機器翻譯方面取得比較高的結果。

 

11、REACHING HUMAN-LEVEL PERFORMANCE IN AUTOMATIC GRAMMATICAL ERROR CORRECTION: AN EMPIRICAL STUDY

摘要:基於神經網絡的序列到序列( seq2seq )方法已被證明是用於語法錯誤糾正( GEC )利器。基於seq2seq框架,我們提出了一種新的用於提升流暢度的學習和推理機制。流暢增強學習(Fluency boosting learning)在訓練過程中生成各種糾錯句對,通過建立糾錯模型,從更多的實體中學習如何提高句子的流暢性,而流暢性增強推理(Fluency boosting inference)則允許模型通過多個推理步驟對句子進行增量糾正。將流暢度增強學習、推理與捲積seq2seq模型相結合,我們的方法在CoNLL-2014 10標註資料集上取得了75.72( F0.5 )的最新成績,在JFLEG測試集上取得了62.42(GLEU)成績,成為第一個在兩個基準資料集上均達到人類水平性能的GEC系統(人類成績:CoNLL為72.58,JFLEG為62.37)。

 

12、Reinforcement learning approaches to movies recommendation

摘要:本研究的目的是利用強化學習的方法來構建電影推薦系統。我們把interactive recommendation的問題表述為基於背景關係的multi-armed bandit,學習用戶偏好,推薦新電影,接受他們的評價。我們給出如何利用強化學習解決exploitation-exploration的權衡和冷啟動問題。我們將電影的新穎性融入到模型中。我們探索了基於內容的方法和協作過濾的方法,兩者都產生了可行的推薦結果。

 

13、DeepFM: A Factorization-Machine based Neural Network for CTR Prediction

摘要:瞭解用戶行為背後複雜的特征交互對於最大限度地提高推薦系統的CTR至關重要。儘管取得了很大的進步,但現有方法似乎對慢或高階交互(low or high-order interaction)有很強的偏向(bias),或者需要專業的特性工程支持。在本文中,我們提出了一種強調低階和高階特征交互的端到端學習模型,DeepFM。DeepFM將因子分解機(factorization machines)的推薦能力和深度學習的學習能力相結合,形成了一種新的神經網絡結構。與Google最新的寬和深樣式相比,DeepFM對其“寬”和“深”部分有一個共享的輸入,除了原始特征(raw features)之外,不需要其餘的特征工程。在基準資料和商業資料上進行了綜合實驗,證明DeepFM模型比現有CTR預測模型的有效性且效率更高。


往期精彩內容推薦

基於深度學習的文本分類6大演算法-原理、結構、論文、原始碼打包分享

前沿分享-基於區塊鏈技術的機器學習行業概述

千萬不要錯過!ICLR-2018精品論文解析

朋友,千萬不能錯過!13個自然語言處理的深度學習框架

推薦-2018年最值得讀的12本深度學習相關的書

歷史最全GAN網絡及其各種變體整理(附論文及代碼實現)

麻省理工學院-2018年最新深度學習演算法及其應用入門課程資源分享

DL實戰課程推薦-從0到1構建一個Chatbot系統

赞(0)

分享創造快樂