歡迎光臨
每天分享高質量文章

千萬不要錯過!ICLR-2018精品論文解析

    ICLR 2018年的接收的論文已經release出來很久了,連結:https://chillee.github.io/OpenReviewExplorer/index.html

    最近整理了其中一些論文的摘要和官方評價做了翻譯整理和分類,涉及分散式訓練、模型壓縮、模型訓練最佳化、生成式模型等,分享給大家,感興趣的可以看看,瞭解下學術界前沿的研究熱點。


分散式訓練

    Deep Gradient Compression: Reducing the Communication Bandwidth for Distributed Training

    摘要:大規模分散式訓練需要大量的通訊頻寬用於梯度交換,這限制了多節點訓練的可擴充套件性,並且需要昂貴的高頻寬網路基礎設施。在移動裝置上進行分散式訓練(聯合學習,federated learning)時,情況會變得更糟,這種情況會導致延遲更高、吞吐量更低以及間歇性連線不良等問題。本文發現分散式SGD中99.9 %的梯度交換是冗餘的,並提出了深度梯度壓縮( DGC )來大大降低通訊頻寬。為了在壓縮過程中保持精度,DGC採用了四種方法:動量修正、區域性梯度裁剪、動量因子掩蔽和預熱訓練。在cifar 10、ImageNet、Penn Treebank和Librispeech語料庫等多個資料集上,我們將深度梯度壓縮應用於影象分類、語音識別和語言建模。在這些場景中,深度梯度壓縮實現了從270到600倍的梯度壓縮比而不損失精度,將ResNet-50的梯度大小從97MB減少到0.35 MB,將深度語音的梯度大小從480 MB減少到0.74 MB。深度梯度壓縮實現了在廉價的商用1Gbps乙太網上的大規模分散式訓練,並有助於移動裝置上的分散式訓練。

    ICLR官方評價:本文提出了一種面向大規模分散式聯合訓練的深度網路混合訓練系統。這一問題引起了廣泛的興趣,這些方法有可能產生重大影響,對這項工作的積極和有趣的討論證明瞭這一點。起初有人質疑這項研究的原創性,但似乎作者現在增加了額外的參考和比較。
    評審人對論文字身的清晰度意見不一。有人指出,“總的來說很清楚”,但另一個人認為它過於密集、雜亂無章,需要更清楚的解釋。評審人員還擔心,這些方法有點啟髮式,可以從更多細節中獲益。論壇上也有很多關於這些細節的問題,這些問題應該會在下一個版本中得到解決。這項工作的主要亮點是實驗結果,評審人稱之為“徹底”,並指出它們令人信服。

 

模型壓縮

    Model compression via distillation and quantization

    摘要:深層神經網路( DNNs )在解決影象分類、翻譯和強化學習等問題上不斷取得重大進展。受到相當關註的領域的一個方面是在諸如移動或嵌入式裝置等資源受限環境中高效地執行深度學習模型。本文針對這一問題,提出了兩種新的壓縮方法,將較大的教師網路的權重量化和抽取聯合應用到較小的學生網路中。我們提出的第一種方法稱為量化抽取(quantized distillation),在訓練過程中利用抽取,將抽取損失(相對於教師網路表示)結合到學生網路的訓練中,該學生網路的權重被量化到有限的一組水平。第二種方法是可微量化,透過隨機梯度下降發最佳化量化點的位置,以更好地擬合教師網路模型的行為。透過摺積和遞迴結構的實驗驗證了這兩種方法的有效性。實驗結果表明,量化後的淺層學生網路可以達到與全精度教師網路模型相似的精度水平,同時實現了數量級的壓縮和深度網路推理呈線性加速。總之,我們的結果使資源受限環境的DNNs能夠利用在功能更強大的裝置上開發的體系結構和準確性改進。

    ICLR官方評價:該論文提出了一種新的量化方法。該方法相當簡單,並總結在演演算法1中。更有趣的是,分析表明量化與加高斯噪聲(附錄B )之間的關係—激勵量化作為正則化。
    該論文具有經驗和理論結果的合理混合,激勵了一種易於實現的演演算法。所有三名審查人員都建議接受。

 

    Apprentice: Using Knowledge Distillation Techniques To Improve Low-Precision Network Accuracy

    摘要:深度學習網路在影象分類和標的檢測等計算機視覺工作應用方面已經取得了最優的精度。然而,效能系統通常涉及具有許多引數的大模型。一旦訓練完畢,這種效能最好的模型的一個具有挑戰性的方面是在資源受限的推理系統上進行部署-這些模型(通常是較深的網路或較寬網路或兩者都具備)是計算和記憶體密集型的。低精度數值計算和使用知識抽取的模型壓縮是降低這些需要部署的模型的計算要求和記憶體佔用的常用技術。本文對這兩種技術的結合進行了研究,結果表明利用知識抽取技術可以顯著提高低精度網路的效能。我們將我們的方法稱為學徒(Apprentice),併在ImageNet資料集上使用三進位制精度和4位精度來顯示最先進的精度。我們研究了三種方案,在這三種方案中,人們可以將知識抽取技術應用於訓練和部署pipeline的各個階段。   

    ICLR官方評價:本文將低精度計算與不同的teacher-student知識抽取方法相結合。實驗結果良好,實驗分析良好。寫得很清楚。其主要貢獻在於不同形式的teacher-student知識抽取方法與低精度quantization方法相結合。
專業人士:
    -良好的實際貢獻
    -好的實驗
    -很好的分析
    -寫得好
缺點:
    -創意有限

 

    Alternating Multi-bit Quantization for Recurrent Neural Networks

    摘要:遞迴神經網路在許多應用中取得了良好的效能。但是,在資源有限的行動式裝置上,模型通常太大而無法部署。對於伺服器上具有大規模併發請求的應用程式,reference期間的延遲對於昂貴的計算資源也可能非常關鍵。在本工作中,我們透過將網路的權重和activation量化為多個二進位制碼{ -1,+1},來解決這些問題。我們把量化表述為一個最佳化問題。在量化繫數固定的情況下,透過二進位制搜尋樹可以有效地匯出二進位制碼,然後採用交替最小化方法。我們在語言模型上測試了兩個著名的rnn模型的量化,即長短期記憶單元( LSTM )和門限遞迴單元( GRU )。與全精度計數器部分相比,透過2位量化,在CPU上實現了約16x的記憶體節省和約6x的實際推理加速,精度損失較小。透過3位量化,我們可以獲得幾乎沒有損失的精度,甚至超過原來的模型,節省了約10.5倍的記憶體和約3倍的實際推理加速。這兩個結果都以較大的倍數擊敗了現有的量化工作。我們將交替量化擴充套件到影象分類任務。在RNNs和前饋神經網路中,該方法也取得了良好的效能。

    ICLR官方評價:評審人員一致認為,這篇文章值得在ICLR上發表。請回答評審人員的反饋,併在附錄中詳細討論如何計算潛在的加速率。我加快了不同裝置的速率。

 

    Variational Network Quantization

    摘要:本文將剪枝和少位元量化神經網路的構造問題歸結為一個變分推理問題。為此,引入了一種量化先驗,該先驗導致多模態稀疏的權值後驗分佈,並匯出了該先驗的可微Kullback – Leibler散度近似。經過變分網路量化訓練後,權重可以被確定性量化值代替,相關任務精度損失很小或可以忽略(包括透過將權重設定為0進行修剪)。該方法不需要在量化之後進行微調。給出了LeNet – 5 ( MNIST )和Densent ( CIFAR – 10 )的三值量化結果。

    ICLR官方評價:本文提出了一種變分貝葉斯方法來量化神經網路權值,併在現在日益流行的深度學習領域中提出了有趣而有用的步驟。

 

模型最佳化

    On the Convergence of Adam and Beyond 

    摘要:最近提出的幾種隨機最佳化方法已經成功地用於訓練深層網路,例如RMSProp、Adam、Adadelta、Nadam,這些方法基於梯度進行更新,梯度更新的幅度由過去梯度平方的指數移動平均值控制。在許多應用中,例如針對具有大輸出空間的學習任務,經驗上觀察到這些演演算法未能收斂到最優解(或非凸場景下的臨界點)。我們證明瞭這種失敗的原因之一是演演算法中使用的指數移動平均。本文給出了一個Adam不收斂於最優解的簡單凸最佳化場景的例子,並透過前面對Adam演演算法的分析,準確的描述了這個問題。我們的分析表明,可以透過賦予這類演演算法過去梯度的“長期記憶”來解決收斂問題,並提出了Adam演演算法的新變型,這種新變型不僅解決了收斂問題,而且使得效能得到很大的提升。

    ICLR官方評價:本文分析了Adam的收斂性問題,並給出了一個解決方案。本文指出了Adam收斂問題中的一個錯誤(也適用於相關方法,如RMSProp ),並給出了一個無法收斂的簡單示例。然後,在不引入大量計算或記憶體開銷的情況下,在保證收斂的條件下修複該演演算法。本文中有很多有趣的地方: Adam是一個被廣泛使用的演演算法,但有時在某些問題上表現不如SGD,這可能是解釋的一部分。解決辦法既有原則,又切合實際。總的來說,這是一篇很強的論文,我建議接受。

 

    SGD Learns Over-parameterized Networks that Provably Generalize on Linearly Separable Data

    摘要:當網路引數超過觀測值時,神經網路具有良好的泛化效能。然而,目前神經網路的泛化邊界無法解釋這一現象。為了彌補這一不足,我們研究了當資料由線性可分函式生成時,兩層超引數神經網路的學習問題。在網路存在Leaky ReLU啟用的情況下,我們為引數化網路提供了最佳化和泛化保證。具體地說,我們證明瞭SGD的收斂速度是全域性最小值,併為這個全域性最小值提供了與網路規模無關的泛化保證。因此,我們的結果清楚地表明,使用SGD進行最佳化既能找到全域性最小值,又能避免模型容量過大時的過擬合。這是SGD在學習過指定的神經網路分類器時,能夠避免過擬合的首次理論證明。

    ICLR官方評價:這是一份高質量的論文,字跡清楚,高度原創,意義明確。本文對二層網路中的SGD進行了完整的分析,其中的第二層網路不進行訓練,資料是線性可分的。實驗結果驗證了理論假設,即只要權值符號不改變並保持有界,就可以訓練第二層網路。作者討論了審評員的主要關切的點(即,假設這些結果是否具有指示性)。這一系列的工作似乎很有希望。

 

    Fraternal Dropout

    摘要:遞迴神經網路( RNNs )是用於語言建模和序列預測的一類重要的神經網路模型。然而,最佳化RNNs比最佳化前饋神經網路更難。文獻中已經提出了許多技術來解決這個問題。本文提出了一種簡單的技術,稱為Fraternal Dropout,利用dropout來實現這一標的。特別是,我們建議訓練具有不同dropout值的RNN (共享引數)的兩個相同副本,同時最小化它們(進行softmax操作之前的)預測值之間的差異。透過這種方式,我們的正則化操作鼓勵RNNs的表示對於不同的dropout值是不變的,因此是魯棒的。我們證明瞭我們正則化項的上界是期望線性(expectation-linear)dropout標的函式,這種期望線性dropout標的(object)解決了由於dropout在訓練階段和推理階段的不同而產生的差距。我們對我們的模型進行了評估,併在兩個基準資料集( Penn Treebank和Wikitext – 2 )上,取得了序列建模任務的最優結果。我們還證明,我們的方法可以顯著提高影象標註( Microsoft COCO )和半監督( CIFAR – 10 )任務的效能。

    ICLR官方評價:本文研究了一種dropout的變體,稱為fraternal dropout。該方法與期望線性dropout密切相關,因此具有一定的增量性。儘管如此,fraternal dropout確實將PTB和wikitext 2上語言模型最優結果提高了約0.5 – 1.7個perplexity 。這篇論文寫得很好,技術上看起來很好。
    一些評審員抱怨說,作者可以對fraternal dropout模型進行更仔細的超引數搜尋。作者似乎已經部分解決了這些問題,坦率地說,我也不太同意。透過只進行有限的超引數最佳化,作者將他們自己的方法置於不利地位。如果有的話,他們的方法儘管有這種缺點(與非常強的base模型相比)卻獲得了很強的效能,這是一個支援fraternal dropout的理由。

 

    Adaptive Dropout with Rademacher Complexity Regularization

    摘要:我們提出了一種基於Rademacher complexity bound的深度神經網路dropout自適應調整框架。現有的深度學習演演算法採用dropout來防止特徵學習過擬合情況。然而,dropout的選擇仍然是啟髮式的方式,或者依賴於對某些超引數空間的經驗的網格搜尋。本文證明瞭網路的Rademacher complexity是由一個與dropout rate和權重繫數矩陣(weight coefficient metrics)相關的函式來定義的。隨後,我們將這一約束作為正則化項,並提供了一種在模型複雜性和表達能力(representation power)之間進行權衡的理論上合理的方法。因此,dropout和經驗損失被統一為相同的標的函式,然後使用塊坐標下降演演算法(block coordinate descent algorithm)進行最佳化。我們發現自適應調整的dropout會收斂到一些有趣的分佈,這些分佈揭示了一些有意義的樣式(pattern)。在影象和檔案分類相關的實驗也表明,與現有的dropout演演算法相比,該方法具有更好的效能。

    ICLR官方評價:評審員們一致認為,這項工作處理了一個重要問題。對於論文中論點的正確性存在分歧:其中一位評審員最終被說服了。另一位在最後一篇文章中指出了另外兩個問題,但似乎是1、第一種方法簡單易行,不影響實驗的正確性。2、第二個問題在第二次修訂中被解決了。理想情況下,這些將由第三個評審員重新檢查,但最終工作的正確性是作者的責任。

 

    Adversarial Dropout Regularization

    摘要:本文提出了一種將神經表徵從標記豐富(label-rich)的源領域(source domain)遷移到無標記(unlabel)的標的領域(target domain)的領域自適應(domain adaptation)方法。最近為此任務提出的對抗方法透過“愚弄”一個特殊的領域分類器(domain classifier)網路來學習跨域對齊特徵(align features)。然而,這種方法的缺點在於,領域分類器簡單地將生成的特徵標記為域內或域外,而不考慮類之間的邊界。這意味著可以在類邊界附近生成模糊的標的特徵,從而降低標的分類精度。我們提出了一種新的方法,對抗式dropout正則化( ADR ),它鼓勵生成器輸出更多的區分特徵(discriminative features)到標的域。我們的核心思想是用一個在分類器網路上利用dropout來檢測一個非確定性的特徵(non-discriminative features)構成的critic來代替傳統的critic。然後,生成器然後學習卻避開特徵空間的這些區域,從而建立更好的特徵。我們將ADR方法應用於影象分類和語意分割任務中的無監督域自適應問題,並證明相對現有技術取得顯著提高。

    ICLR官方評價:評審員們普遍認為這種方法為無監督領域自適應提供了一種實用而有趣的方法。一位評審員比較關心最優的baseline相關的比較,但後期修改中中已設計這些問題。
此外,由於人工拼寫輸入錯誤,還存在正確性問題。根據這些反應和偽程式碼,結果似乎沒有問題,比如像熵標的的報告一樣。
    可能需要考慮將評審員2給出的示例中的一個負例,在該示例中,您希望該方法失敗。這將有助於研究人員使用和復現您的論文。

 

最優論文

    Certifying Some Distributional Robustness with Principled Adversarial Training

    摘要:神經網路容易受到對抗樣本的攻擊,研究人員提出了許多啟髮式的攻擊和防禦機制。我們透過分散式魯棒最佳化的原則透鏡來解決這個問題,保證在對抗性輸入擾動下的效能。透過考慮Wasserstein球中,擾動底層資料分佈的拉格朗日罰函式,我們提出了一種利用訓練資料的最壞情況擾動來更新經過增強的模型引數更新的訓練方法。對於平滑損失,相對於經驗風險最小化,我們的方法可以以很少的計算或統計代價成本實現中等程度的魯棒性。此外,我們的統計證據使我們能夠有效地證明對群體損失的魯棒性。對於不可察覺的擾動,我們的方法匹配或優於啟髮式方法。

    ICLR官方評價:這篇文章得到了評審員們的高度評價,他們認為它具有很高的質量和獨創性。文章處理的問題廣泛且重要。

    該文章也引起了其他領域專家的註意,他們對該文章的說法持懷疑態度。技術上的優點似乎沒有問題,而是對其解釋/應用抱有疑問。某一群人對某個重要問題是否已基本解決的看法,可能會影響其他審閱者在決定從事什麼工作、評估等方面的選擇。重要的是,主張要保守,並強調目前的工作沒有充分解決更廣泛的對抗例子問題的方式。
    最後,我們認為這篇論文會引起學術界和工業界的極大興趣。作者還被委託負責審議非本領域的專家在其最後修訂中提出的問題(隨後得到諮詢委員會的贊同)。
    最後一點:在對非本領域的專家的答覆中,作者多次指出,本文所作的保證在形式上與標準的學習理論主張沒有什麼不同:“然而,這種批評適用於許多學習理論成果(包括應用於深度學習的成果)。“我在這種說法中找不到任何安慰。學習論者通常關註於邊界的形式( sqrt ( m )依賴且獨立於加權數),然後他們藉助於相關的經驗觀察來證明:邊界的值對於泛化是預測性的。當對真實資料集進行評估時,邊界通常是無意義的(“真空的”)。(最近有一些例子支援這一趨勢。從某種意義上說,學習理論家們已經變得容易了。然而,對抗的例子涉及安全,因此存在更多的利害關係。在這種新的背景下,可能我們對學習理論家的懈怠的容忍是不合適的。我支援一點,作者清楚地解釋,要從“足夠好的學習理論”轉變為“足夠好的安全”還需要做哪些工作。作者承諾為社會列舉出未來重要的工作/公開問題。我絕對鼓勵這樣做。

 

機器翻譯

    Unsupervised Machine Translation Using Monolingual Corpora Only

    摘要:近年來,由於深度學習和大規模並行語料庫的出現,機器翻譯取得了令人矚目的成績。已經有許多嘗試將這些成功擴充套件到低資源語言對(語料不足的語言),但需要數萬個並行陳述句。在這項工作中,我們將這一研究方向推向了一個極端,並探討了即使沒有任何並行資料也能學會翻譯的可能性。本文提出了一種從兩種不同語言的單語語料庫中抽取句子,並將其對映到同一潛在空間的模型。透過學習,基於該共享特徵空間來重構兩種語言,該模型有效地學習翻譯而不使用任何標記的資料。我們在兩個廣泛使用的資料集和兩個語言對上驗證了我們的模型,在Multi30k和WMT英語-法語資料集上獲得了32.8和15.1的BLEU分數,在訓練時甚至一個並行陳述句對也不需要。

    ICLR官方評價:本文介紹了無監督神經機器翻譯的一些初步結果。評審組的成員在機器翻譯方面有著豐富的知識,他們對這篇文章的結果印象極為深刻,認為這是一個全新的研究領域,並指出“這一點是顯而易見的”。有人對所文章提出的部分細節是否清楚以及如何復現文章結果表示關切,但討論中似乎澄清了其中的許多問題。評審人員普遍稱贊該方法的徹底性、實驗的清晰度和消融的使用。一位評審員對此印象不太深,認為應該做更多的比較。

 

    Synthetic and Natural Noise Both Break Neural Machine Translation

    摘要:基於字元的神經機器翻譯( NMT )模型減輕了集外詞(out-of-vocabulary)導致的問題,學習了形態學,使我們更接近於完全端到端的翻譯系統。不幸的是,它們也是非常脆弱的,並且當處理嘈雜的資料時,往往不夠魯棒。在本文中,我們面對具有合成和自然噪聲源的NMT模型。我們發現,即使是針對中等噪音的文字,最先進的模型也無法翻譯,但人類理解起來卻沒有困難。我們探索了兩種提高模型魯棒性的方法:結構不變的詞表示和對噪聲文字的魯棒性訓練。我們發現基於字元(character-level)摺積神經網路的模型能夠同時學習對多種噪聲具有魯棒性的表示。

    ICLR官方評價:評審員所指出的,本文的利弊可以概括如下:
優點:
    *本文首次嘗試研究神經MT中的一個未研究領域(以及序列到序列模型的潛在其他應用)。
    *這一領域可能產生重大影響;Google Translate等現有模型在針對有噪聲的輸入,翻譯效果很差。
    *實驗設計非常仔細和徹底
    *對合成噪聲和自然噪聲進行的實驗增強了文章結果的可靠性
    *文章寫得很好,容易理解
 缺點:
    *對於此問題,可能有比此文章所提出的體系結構更好的體系結構
    *即使是自然噪聲也不是完全自然的,例如人為地限制存在於單詞內
    *文章並不完全適合ICLR
    這篇文章得到了一致的積極評價,並有可能產生巨大的現實影響。

 

    Towards Neural Phrase-based Machine Translation

    摘要:本文提出了基於短語的神經機器翻譯( NPMT )。該方法利用Sleep-WAke Networks( SWAN )對輸出序列中的短語結構進行了顯式建模,這是一種新近提出的基於分段的序列建模方法。為了降低SWAN的單調對齊要求,我們引入了一個新的層來執行對輸入序列的(軟)區域性重排。與現有的神經機器翻譯( NMT )方法不同,NPMT不使用基於註意力機制的解碼方式。取而代之的是,它直接按順序輸出短語,並且可以線性時間解碼。實驗表明,與最優的NMT結果相比,NPMT在IWSLT 2014德語/英語/德語和IWSLT 2015英語/越南語機器翻譯任務上取得了優異的效能。我們還觀察到我們的方法在輸出語言中產生有意義的短語。

    ICLR官方評價:該論文將軟本地重排序(soft local reordering)引入到最近提出的SWAN層中[王等人,2017 ]使其適合於機器翻譯。雖然只是在小規模的實驗中,結果還是令人信服的。

 

    Non-Autoregressive Neural Machine Translation

    摘要:神經機器翻譯的現有方法都是基於先前生成的輸出token來生成下一個token。我們引入了一個避免這種自回歸特性的模型,並且並行地產生它的輸出,從而使reference過程中的延遲降低了一個數量級。透過知識抽取、使用輸入token fertilities作為潛在變數和策略梯度微調,相對於用作Teacher的Transfomer網路,我們以只減少了2.0 BLEU點的代價來實現這一點。我們展示了與我們訓練策略相關的三個方面的大量累積改進,併在2016年IWSLT英語-德語和兩種WMT語言對上驗證了我們的方法。透過在reference時並行取樣fertilities,我們的非自回歸模型在WMT 2016英語-羅馬尼亞語上實現了29.8 BLEU的最優成績。

    ICLR官方評價:提出了一種基於預訓練自回歸模型來訓練一個非自回歸機器翻譯模型的一種訓練方法。該方法有趣,評價效果良好。然而,應當指出,訓練程式的相對複雜性(涉及多個階段和外部監督訓練)可能會限制該技術的實際可用性和影響。

 

    Unsupervised Neural Machine Translation

    摘要:儘管最近神經機器翻譯( NMT )在標準評測中取得了很大的成功,但是大規模並行語料庫的缺乏對許多語言對來說是一個重大的實際問題。有一些建議,例如三角法和半監督學習技術來緩解這一問題,但它們仍然需要強有力的跨語言的訊號。在本文中,我們完全取消了對並行資料的需求,並提出了一種新的方法來訓練一個完全無監督的NMT系統。該模型建立在無監督嵌入對映(unsupervised embedding mapping)的基礎上,包括一個稍加修改的註意編碼-解碼模型,該模型可以透過去噪(denoising)和回譯(backtranslation)相結合的方法在單語語料庫上進行訓練。儘管方法簡單,但我們的系統在WMT 2014法語到英語和德語到英語翻譯中獲得了15.56和10.21 BLEU。該模型還可以從小型平行語料庫中獲益,與10萬個平行句子組合後,分別達到21.81和15.24個點。

    ICLR官方評價:這項工作使用巧妙的組合技術,在無監督機器翻譯方向上,達到了新的結果。就原創性而言,評審員發現這篇文章誇大了自己的觀點,並承諾了一項突破,但他們並不認為這是合理的。
    然而,在新任務上有“足夠多的新內容”和“初步”結果。實驗質量也存在一些問題,缺乏較好的定性分析,評審人員覺得關於半監督相關的工作的說明有問題。然而,主要的數字是一個良好的開端,作者正確地註意到,還有另一項工作具有類似的有希望的結果。在這兩項工作中,評審人員發現另一項工作寫得更清楚,實驗分析也更好,他們指出,這兩項工作在新穎性方面都超過了要求。這項工作最有希望的方面可能是這項任務今後的意義,因為現在人們對使用多語言嵌入(multi-lingual embeddings)和NMT作為基準任務更感興趣。

 

生成模型

    Spectral Normalization for Generative Adversarial Networks

    摘要:生成對抗網路研究面臨的挑戰之一是其訓練的不穩定性。本文提出了一種新的加權歸一化技術——譜歸一化,以穩定判別器的訓練。我們提出的新規範化技術(Normalization technique)計算量小,易於整合到現有實現中。我們在cifar 10、STL-10和ILSVRC2012資料集上測試了譜歸一化(spectral normalization )的效果,並透過實驗驗證了經過spectral normalized的GANs ( SN – GANs )能夠生成與先前訓練穩定技術相比質量更好或相等的影象。

    ICLR官方評價:本文將scaling GAN用於包含大量類別ILSVRC2012資料集上,並取得了令人印象深刻結果。為此,作者提出了“譜歸一化(spectral normalization)”來歸一化權值和穩定訓練,這有助於剋服樣式崩潰問題(mode collapse issues)。所提出的方法是有原則的,寫得很好。作者在處理評審人的評論方面做得很好,併在相關方法上增加了更多的比較結果,以證明所提方法的優越性。審查人員一致認為,這是改進GAN訓練的一個重大步驟。我建議你接受。

 

    Wasserstein Auto-Encoders

    摘要:我們提出了一種用於建立資料分佈的新的生成模型演演算法—Wasserstein Auto-Encoder( WAE )。 WAE最小化模型分佈和標的分佈之間的Wasserstein距離,以此作為標的函式,這是一種與變分自動編碼器( VAE )使用的正則化不同的正則化。
    該正則化項鼓勵編碼的訓練分佈與先驗相匹配。透過與其他幾種編碼方法的比較,證明瞭該演演算法是對抗式自動編碼器( AAE )的一種推廣。實驗結果表明,WAE不僅具有很多VAEs的優點(訓練穩定、編碼解碼結構、良好的隱流形結構),同時生成更高質量的樣本。

    ICLR官方評價:本文提出了一種新的生成模型,該模型具有變分自動編碼器( VAE )的穩定性,同時生成更好的樣本。作者將他們的工作與之前將VAEs和GAN相結合的產生模型的進行了詳細的比較。結果表明,該演演算法是對抗性自動編碼器( AAE )的推廣,使模型分佈與真實分佈之間的距離最小。這篇論文寫得很好,結果令人信服。評審員一致認為該演演算法新穎實用;並對該演演算法與相關方法的密切聯絡進行了討論。總的來說,這篇文章很不錯,建議接受。

 

其他

    Spherical CNNs

    摘要:摺積神經網路( CNNs )已成為二維平面影象學習問題的首選方法。然而,最近大家感興趣的一些問題已經產生了對能夠分析球形影象的模型的一些需求。比如,包括無人駕駛飛機、機器人和自動駕駛的全向視覺、分子回歸問題以及全球天氣和氣候建模。摺積網路對球面訊號的平面投影的這種天真嘗試是註定會失敗的,因為由這種投影引入的空間變化失真將使得水平方向上的權重共享變得無效。
    本文介紹了一個用於構建球形CNNs的構造塊(building block)。我們提出了一個既有極強表達能力又有旋轉等變(expressive and rotation-equivariant)的球面互相關(spherical cross-correlation)的定義。球面相關性(spherical correlation)滿足廣義傅裡葉定理,這允許我們使用廣義(非交換)快速傅裡葉變換( FFT )演演算法有效地計算它。我們證明瞭球形CNNs在三維模型識別和霧化能量回歸中(atomization energy regression)的計算效率、數值精度和有效性。

    ICLR官方評價:本文透過將CNNs擴充套件到相應的組SO(3),提出了一種可訓練的球面訊號表示(定義在球面中的函式),該球面訊號透過設計可旋轉地等變(rotationally equivariant )。該方法利用球面上的快速傅裡葉變換實現,並以三維形狀識別和分子能量預測為例進行了說明。
    評審員一致認為這是一篇堅實的、寫得很好的論文,它證明瞭在真實場景中,群不變性/等方差比標準歐氏翻譯群(standard Euclidean translation group )更有用。這將是對會議的一大補充。

往期精品內容推薦

VAST最佳論文推薦-Tensorflow中深度學習模型視覺化的研究

斯坦福大學2017年-Spring-最新強化學習(Reinforcement Learning)課程分享

神經機器翻譯(NMT)的一些重要資源分享

深度學習(AI)在醫療領域應用、需求及未來發展概述

麻省理工學院-2017年-深度學習與自動駕駛影片課程分享

模型彙總22 機器學習相關基礎數學理論、概念、模型思維導圖分享

《純乾貨16》調整學習速率以最佳化神經網路訓練

《模型彙總-20》深度學習背後的秘密:初學者指南-深度學習啟用函式大全

深度學習模型、概念思維導圖分享

深度學習在自然語言處理中的應用綜述

深度學習/機器學習的處理器串列(最全_中文版)

吳恩達深度學習專業化課程第一次課影片分享

掃描下方二維碼可以訂閱哦!

DeepLearning_NLP

深度學習與NLP

       商務合作請聯絡微訊號:lqfarmerlq

贊(0)

分享創造快樂