歡迎光臨
每天分享高質量文章

CVPR 2019 | 曠視提出超解析度新方法Meta-SR:單一模型實現任意縮放因子

全球計算機視覺三大頂會之一 CVPR 2019 (IEEE Conference on Computer Vision and Pattern Recognition)將於 6 月 16-20 在美國洛杉磯如期而至。屆時,曠視首席科學家、研究院院長孫劍博士將帶領團隊遠赴盛會,助力計算機視覺技術的交流與落地。在此之前,曠視每週會推出一篇 CVPR’19 接收論文解讀文章。本文是第 3 篇解讀,曠視研究院提出一種全新模型——Meta-SR,可透過單一模型解決超解析度的任意縮放因子問題。

論文名稱:Meta-SR: A Magnification-Arbitrary Network for Super-Resolution

論文連結:https://arxiv.org/abs/1903.00875

  • 導語

  • 簡介

  • 方法

    • Meta-Upscale

      • Location Projection

      • Weight Prediction

      • Feature Mapping

  • 實驗

    • 單一模型任意縮放因子

    • 推理時間

    • 對比SOTA方法

    • 視覺化結果

  • 結論

  • 參考文獻

  • 往期解讀

 

導語

 

隨著深度摺積神經網路(DCNNs)技術的推進,超解析度(super resolution/SR)的新近研究取得重大突破,但是關於任意縮放因子(arbitrary scalefactor)的研究一直未回到超解析度社群的視野之中。

 

先前絕大多數 SOTA 方法把不同的超解析度縮放因子看作獨立的任務:即針對每個縮放因子分別訓練一個模型(計算效率低),並且只考慮了若干個整數縮放因子。

 

在本文中,曠視研究院提出一種全新方法,稱之為 Meta-SR,首次透過單一模型解決了超解析度的任意縮放因子問題(包括非整數因子)。Meta-SR 包含一種新的模組——Meta-Upscale Module,以代替傳統的放大模組(upscale module)。

 

針對任意縮放因子,這一新模組可透過輸入縮放因子動態地預測放大濾波器的權重,進而使用這些權重生成任意大小的 HR 影象。對於一張低解析度影象,只需一個模型,Meta-SR 就可對其進行任意倍數的放大。大量詳實的實驗資料證明瞭 Meta-Upscale 的優越性。

簡介

單一影象超解析度(single image super-resolution/SISR)旨在把一張較低解析度(low-resolution/LR)的影象重建為一張自然而逼真的高解析度(high-resolution/HR)影象,這項技術在城市管理、醫療影像、衛星及航空成像方面有著廣泛應用。實際生活中,使用者使用 SISR 技術把一張 LR 影象放大為自定義的大小也是一種剛需。正如藉助於影象瀏覽器,使用者拖動滑鼠可任意縮放一張影象,以檢視特定細節。

 

理論上講,SR 的縮放因子可以是任意大小,而不應侷限於特定的整數。因此,解決 SR 的任意縮放因子問題對於其進一步落地有著重大意義。但並不是針對每個因子訓練一個模型,而是一個模型適用所有因子。

 

眾所周知,大多數現有 SISR 方法只考慮一些特定的整數因子(X2, X3, X4),鮮有工作討論任意縮放因子的問題。一些 SOTA 方法,比如 ESPCNN、EDSR、RDN、RCAN,是藉助子畫素摺積在網路的最後放大特徵圖;不幸的是,上述方法不得不針對每個因子設計專門的放大模組;另外,子畫素摺積只適用於整數縮放因子。這些不足限制了 SISR 的實際落地。

 

儘管適當放大輸入影象也可實現超解析度的非整數縮放,但是重覆的計算以及放大的輸入使得這些方法很是耗時,難以投入實用。有鑒於此,一個解決任意縮放因子的單一模型是必需的,一組針對每一縮放因子的放大濾波器的權重也是必需的。

 

在元學習的啟發下,曠視研究院提出一個動態預測每一縮放因子的濾波器權重的新網路,從而無需為每一縮放因子儲存權重,取而代之,儲存小的權重預測網路更為方便。曠視研究院將這種方法稱之為 Meta-SR,它包含兩個模組:特徵學習模組和 Meta-Upscale 模組,後者的提出用於替代傳統的放大模組。

 

對於待預測 SR 影象上的每個畫素點(i, j),本文基於縮放因子 r 將其投射到 LR 影象上,Meta-Upscale 模組把與坐標和縮放因子相關的向量作為輸入,並預測得到濾波器權重。對於待預測  SR 影象上的每個畫素點(i, j), LR 影象上相應投影點上的特徵和預測得到的權重摺積相乘就能預測出(i, j)的畫素值。

 

Meta-Upscale 模組透過輸入一系列與縮放因子及坐標相關的向量,可動態地預測不同數量的摺積濾波器權重。由此,只使用一個模型,Meta-Upscale 模組即可將特徵圖放大任意縮放因子。該模組可以替代傳統放大模組(upscale module)而整合進絕大數現有方法之中。

 

方法

 

本節將介紹 Meta-SR 模型架構,如圖 1 所示,在 Meta-SR 中,特徵學習模組提取低解析度影象的特徵,Meta-Upscale 按照任意縮放因子放大特徵圖。本文首先介紹 Meta-Upscale,然後再描述 Meta-SR 的細節。

 

 圖1:基於RDN的Meta-SR實體

 

Meta-Upscale

 

給定一張由高分辨(HR)影象縮小得到的低分辨(LR) 的影象,SISR 的任務即是生成一張 HR 影象,其 ground-truth 是

 

本文選用 RDN 作為特徵學習模組,如圖 1 (b) 所示。這裡,本文聚焦於 Meta-Upscale 的公式化建模。

 

令 F^LR 表示由特徵學習模組提取的特徵,並假定縮放因子是 r。對於 SR 影象上的每個畫素 (i, j),本文認為它由 LR 影象上畫素 (i′, j′) 的特徵與一組相應摺積濾波器的權重所共同決定。從這一角度看,放大模組可視為從 的對映函式。

 

首先,放大模組應該找到與畫素 (i, j) 對應的畫素 (i′, j′)。接著,放大模組需要一組特定的濾波器來對映畫素 (i′, j′) 的特徵以生成這一畫素 (i, j) 的值。以上可公式化表示為:

 

 

由於 SR 影象上的每一畫素都對應一個濾波器,對於不同的縮放因子,其摺積濾波器的數量和權重也不同。為解決超解析度任意縮放因子問題,本文基於坐標資訊和縮放因子提出 Meta-Upscale 模組以動態地預測權重 W (i, j)

 

本文提出的 Meta-Upscale 模組有三個重要的函式,即 Location Projection、Weight Prediction、Feature Mapping。

如圖 2 所示,Location Projection 把畫素投射到 LR 影象上,即找到與畫素 (i, j) 對應的畫素 (i′, j′),WeightPrediction 模組為 SR 影象上每個畫素預測 對應濾波器的權重,最後,Feature Mapping 函式利用預測得到的權重將 LR 影象的特徵映射回 SR 影象空間以計算其畫素值。

 

 圖2:當非整數縮放因子r=1.5時,如何放大特徵圖的示意圖。

 

Location Projection

對於 SR 影象上的每個畫素 (i, j) ,Location Projection 的作用是找到與畫素 (i, j) 對應的 LR 影象上的畫素 (i′, j′)。本文認為,畫素 (i, j) 的值是由畫素 (i′, j′) 的特徵所決定。下麵的投影運算元可對映這兩個畫素:

  

Location Projection 本質上是一種variable fractional stride 機制,這一機制使得基於摺積可以使用任意縮放因子(而不僅限於整數縮放因子)來放大特徵圖。

 

Weight Prediction

傳統的放大模組會為每個縮放因子預定義相應數量的濾波器,並從訓練集中學習 W。不同於傳統放大模組,Meta-Upscale 藉助單一網路為任意縮放因子預測相應數量濾波器的權重,這可表示為:

 


其中 Vij 是與 i, j 相關聯的向量,也是權重預測網路的輸入,其可表示為:

 

為了同時訓練多個縮放因子,最好是將縮放因子新增進 Vij 以區分不同縮放因子的權重。因此,Vij 可更好地表示為:

 

Feature Mapping

Location Projection 和 Weight Prediction 之後要做的就是把特徵對映到 SR 影象上的畫素值。本文選擇矩陣乘積作為特徵對映函式,表示如下:

 


Meta-Upscale 模組的演演算法細節如下圖所示:

 

實驗

單一模型任意縮放因子

 

由於先前不存在類似於 Meta-SR 的方法,本文需要設計若干個 baselines(見圖3),以作對比證明 Meta-SR 的優越性。

 

 圖3 : 本文設計的baselines

 

 表1:不同方法的任意放大模組的結果對比

 

實驗結果如表 1 所示。對於雙三次插值 baseline,簡單地放大 LR 影象並不會給 HR 影象帶來紋理或細節。對於 RDN(x1) 和 EDSR(x1),它們在較大的縮放因子上表現欠佳,而且需要提前放大輸入,這使得該方法很費時。

 

對於 RDN(x4) 和 EDSR(x4),當縮放因子接近 1 時,Meta-RDN 與 RDN(x4) (或者Meta-EDSR 與 EDSR(x4)之間) 存在著巨大的效能差距。此外,當 r>k 時,EDSR(x4) 和 RDN(x4) 不得不在將其輸入網路之前放大 LR 影象。

 

透過權重預測, Meta-Bicu 和Meta-SR 可為每個縮放因子學習到最佳濾波器權重,而 BicuConv 則是所有縮放因子共享同一的濾波器權重。實驗結果表明 Meta-Bicu 顯著優於 BicuConv,從而印證了權重預測模組的優越性。

 

同時,Meta-RDN 也由於Meta-Bicu, 這是因為對於在特徵圖插值,縮放因子越大,有效的 FOV 越小,效能下降越多。但是,在 Meta-SR 中,每個縮放因子具有相同的 FOV。受益於 Meta-Upscale,相較於其他 baselines,Meta-RDN 幾乎在所有縮放因子上取得了更優效能。

 

推理時間

 

SISR 技術要實現落地,一個重要的因素是推理時間快。本文透過實驗計算了 Meta-SR 的每一模組及 baselines 的執行時間,如表 2 所示。

 

 表2:執行時間對比結果

 

在表 2 中,FL 表示 Feature Learning 模組,WP 表示 Meta-SR 的 Weight Prediction 模組,Upscale 是 Upscale 模組。測試是跑在 B100 上,測試的縮放因子是 2。

 

對比 SOTA 方法

 

本文把新提出的 Meta-Upscale 模組用於替代 RDN 中的傳統放大模組,獲得 Meta-RDN,並將其與 baseline RDN 進行對比。

 

值得註意的是,RDN 為每個縮放因子(X2, X3, X4)分別訓練了一個特定的模型。本文按照 PSNR、SSIM 指標將 Meta-RDN 與 RDN 在 4 個資料庫上作了對比,結果如表 3 所示:

 

 表3:當縮放因子為X2, X3, X4,Meta-RDN與RDN的對比結果。

 

視覺化結果

 

圖 4 和圖 5 分別給出了一些視覺化結果。

 

 圖4:Meta-RDN方法按照不同縮放因子放大同一張影象的視覺化對比結果。

 

 圖5:與4個baselines的視覺化對比結果,Meta-RDN表現最優。

 

結論

 

曠視研究院提出一個全新的放大模組,稱之為 Meta-Upscale,它可透過單一模型解決任意縮放因子的超解析度問題。針對每個縮放因子,Meta-Upscale 模組可以動態地為放大模組生成一組相應權重。藉助特徵圖與濾波器之間的摺積運算,研究員生成了任意大小的 HR 影象;加之權重預測,進而實現了單一模型解決任意縮放因子的超解析度問題。值得一提的是,Meta-SR 還可以按照任意縮放因子快速地持續放大同一張影象。

 

傳送門

 

歡迎各位同學加入曠視研究院基礎模型(Model)組,簡歷可以投遞給 Model 組負責人張祥雨

 

郵箱:zhangxiangyu@megvii.com

 

傳送門

[1] B. Lim, S. Son, H. Kim, S. Nah, and K. M.Lee. Enhanced deep residual networks for single image super-resolution. In The IEEE conference on computer vision and pattern recognition (CVPR) workshops, 2017. 1, 2, 5

[2] W. Shi, J. Caballero, F. Husza ́r, J. Totz,A. P. Aitken, R. Bishop, D. Rueckert, and Z. Wang. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network. In Proceedings of the IEEE Conference on Computer Vision and PatternRecognition, 2016. 1, 2, 5

[3] K. Zhang, W. Zuo, and L. Zhang. Learning a single convolutional super-resolution network for multiple degradations. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018. 1, 5

[4] Y.Zhang, K.Li, K.Li, L.Wang, B.Zhong, and Y.Fu. Image super-resolution using very deep residual channel attention networks. arXiv preprint arXiv:1807.02758, 2018. 2, 5

[5] Y. Zhang, Y. Tian, Y. Kong, B. Zhong, and Y. Fu. Residual dense network for image super-resolution. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018. 1, 2, 3, 5,7

贊(0)

分享創造快樂