歡迎光臨
每天分享高質量文章

CVPR 2019 | 曠視提出超解析度新方法Meta-SR:單一模型實現任意縮放因子

全球計算機視覺三大頂會之一 CVPR 2019 (IEEE Conference on Computer Vision and Pattern Recognition)將於 6 月 16-20 在美國洛杉磯如期而至。屆時,曠視首席科學家、研究院院長孫劍博士將帶領團隊遠赴盛會,助力計算機視覺技術的交流與落地。在此之前,曠視每周會推出一篇 CVPR’19 接收論文解讀文章。本文是第 3 篇解讀,曠視研究院提出一種全新模型——Meta-SR,可通過單一模型解決超解析度的任意縮放因子問題。

論文名稱:Meta-SR: A Magnification-Arbitrary Network for Super-Resolution

論文鏈接:https://arxiv.org/abs/1903.00875

  • 導語

  • 簡介

  • 方法

    • Meta-Upscale

      • Location Projection

      • Weight Prediction

      • Feature Mapping

  • 實驗

    • 單一模型任意縮放因子

    • 推理時間

    • 對比SOTA方法

    • 可視化結果

  • 結論

  • 參考文獻

  • 往期解讀

 

導語

 

隨著深度捲積神經網絡(DCNNs)技術的推進,超解析度(super resolution/SR)的新近研究取得重大突破,但是關於任意縮放因子(arbitrary scalefactor)的研究一直未回到超解析度社群的視野之中。

 

先前絕大多數 SOTA 方法把不同的超解析度縮放因子看作獨立的任務:即針對每個縮放因子分別訓練一個模型(計算效率低),並且只考慮了若干個整數縮放因子。

 

在本文中,曠視研究院提出一種全新方法,稱之為 Meta-SR,首次通過單一模型解決了超解析度的任意縮放因子問題(包括非整數因子)。Meta-SR 包含一種新的模塊——Meta-Upscale Module,以代替傳統的放大模塊(upscale module)。

 

針對任意縮放因子,這一新模塊可通過輸入縮放因子動態地預測放大濾波器的權重,進而使用這些權重生成任意大小的 HR 圖像。對於一張低解析度圖像,只需一個模型,Meta-SR 就可對其進行任意倍數的放大。大量詳實的實驗資料證明瞭 Meta-Upscale 的優越性。

簡介

單一圖像超解析度(single image super-resolution/SISR)旨在把一張較低解析度(low-resolution/LR)的圖像重建為一張自然而逼真的高解析度(high-resolution/HR)圖像,這項技術在城市管理、醫療影像、衛星及航空成像方面有著廣泛應用。實際生活中,用戶使用 SISR 技術把一張 LR 圖像放大為自定義的大小也是一種剛需。正如借助於圖像瀏覽器,用戶拖動滑鼠可任意縮放一張圖像,以查看特定細節。

 

理論上講,SR 的縮放因子可以是任意大小,而不應局限於特定的整數。因此,解決 SR 的任意縮放因子問題對於其進一步落地有著重大意義。但並不是針對每個因子訓練一個模型,而是一個模型適用所有因子。

 

眾所周知,大多數現有 SISR 方法只考慮一些特定的整數因子(X2, X3, X4),鮮有工作討論任意縮放因子的問題。一些 SOTA 方法,比如 ESPCNN、EDSR、RDN、RCAN,是借助子像素捲積在網絡的最後放大特征圖;不幸的是,上述方法不得不針對每個因子設計專門的放大模塊;另外,子像素捲積只適用於整數縮放因子。這些不足限制了 SISR 的實際落地。

 

儘管適當放大輸入圖像也可實現超解析度的非整數縮放,但是重覆的計算以及放大的輸入使得這些方法很是耗時,難以投入實用。有鑒於此,一個解決任意縮放因子的單一模型是必需的,一組針對每一縮放因子的放大濾波器的權重也是必需的。

 

在元學習的啟發下,曠視研究院提出一個動態預測每一縮放因子的濾波器權重的新網絡,從而無需為每一縮放因子儲存權重,取而代之,儲存小的權重預測網絡更為方便。曠視研究院將這種方法稱之為 Meta-SR,它包含兩個模塊:特征學習模塊和 Meta-Upscale 模塊,後者的提出用於替代傳統的放大模塊。

 

對於待預測 SR 圖像上的每個像素點(i, j),本文基於縮放因子 r 將其投射到 LR 圖像上,Meta-Upscale 模塊把與坐標和縮放因子相關的向量作為輸入,並預測得到濾波器權重。對於待預測  SR 圖像上的每個像素點(i, j), LR 圖像上相應投影點上的特征和預測得到的權重捲積相乘就能預測出(i, j)的像素值。

 

Meta-Upscale 模塊通過輸入一系列與縮放因子及坐標相關的向量,可動態地預測不同數量的捲積濾波器權重。由此,只使用一個模型,Meta-Upscale 模塊即可將特征圖放大任意縮放因子。該模塊可以替代傳統放大模塊(upscale module)而整合進絕大數現有方法之中。

 

方法

 

本節將介紹 Meta-SR 模型架構,如圖 1 所示,在 Meta-SR 中,特征學習模塊提取低解析度圖像的特征,Meta-Upscale 按照任意縮放因子放大特征圖。本文首先介紹 Meta-Upscale,然後再描述 Meta-SR 的細節。

 

 圖1:基於RDN的Meta-SR實體

 

Meta-Upscale

 

給定一張由高分辨(HR)圖像縮小得到的低分辨(LR) 的圖像,SISR 的任務即是生成一張 HR 圖像,其 ground-truth 是

 

本文選用 RDN 作為特征學習模塊,如圖 1 (b) 所示。這裡,本文聚焦於 Meta-Upscale 的公式化建模。

 

令 F^LR 表示由特征學習模塊提取的特征,並假定縮放因子是 r。對於 SR 圖像上的每個像素 (i, j),本文認為它由 LR 圖像上像素 (i′, j′) 的特征與一組相應捲積濾波器的權重所共同決定。從這一角度看,放大模塊可視為從 的映射函式。

 

首先,放大模塊應該找到與像素 (i, j) 對應的像素 (i′, j′)。接著,放大模塊需要一組特定的濾波器來映射像素 (i′, j′) 的特征以生成這一像素 (i, j) 的值。以上可公式化表示為:

 

 

由於 SR 圖像上的每一像素都對應一個濾波器,對於不同的縮放因子,其捲積濾波器的數量和權重也不同。為解決超解析度任意縮放因子問題,本文基於坐標信息和縮放因子提出 Meta-Upscale 模塊以動態地預測權重 W (i, j)

 

本文提出的 Meta-Upscale 模塊有三個重要的函式,即 Location Projection、Weight Prediction、Feature Mapping。

如圖 2 所示,Location Projection 把像素投射到 LR 圖像上,即找到與像素 (i, j) 對應的像素 (i′, j′),WeightPrediction 模塊為 SR 圖像上每個像素預測 對應濾波器的權重,最後,Feature Mapping 函式利用預測得到的權重將 LR 圖像的特征映射回 SR 圖像空間以計算其像素值。

 

 圖2:當非整數縮放因子r=1.5時,如何放大特征圖的示意圖。

 

Location Projection

對於 SR 圖像上的每個像素 (i, j) ,Location Projection 的作用是找到與像素 (i, j) 對應的 LR 圖像上的像素 (i′, j′)。本文認為,像素 (i, j) 的值是由像素 (i′, j′) 的特征所決定。下麵的投影算子可映射這兩個像素:

  

Location Projection 本質上是一種variable fractional stride 機制,這一機制使得基於捲積可以使用任意縮放因子(而不僅限於整數縮放因子)來放大特征圖。

 

Weight Prediction

傳統的放大模塊會為每個縮放因子預定義相應數量的濾波器,並從訓練集中學習 W。不同於傳統放大模塊,Meta-Upscale 借助單一網絡為任意縮放因子預測相應數量濾波器的權重,這可表示為:

 


其中 Vij 是與 i, j 相關聯的向量,也是權重預測網絡的輸入,其可表示為:

 

為了同時訓練多個縮放因子,最好是將縮放因子添加進 Vij 以區分不同縮放因子的權重。因此,Vij 可更好地表示為:

 

Feature Mapping

Location Projection 和 Weight Prediction 之後要做的就是把特征映射到 SR 圖像上的像素值。本文選擇矩陣乘積作為特征映射函式,表示如下:

 


Meta-Upscale 模塊的演算法細節如下圖所示:

 

實驗

單一模型任意縮放因子

 

由於先前不存在類似於 Meta-SR 的方法,本文需要設計若干個 baselines(見圖3),以作對比證明 Meta-SR 的優越性。

 

 圖3 : 本文設計的baselines

 

 表1:不同方法的任意放大模塊的結果對比

 

實驗結果如表 1 所示。對於雙三次插值 baseline,簡單地放大 LR 圖像並不會給 HR 圖像帶來紋理或細節。對於 RDN(x1) 和 EDSR(x1),它們在較大的縮放因子上表現欠佳,而且需要提前放大輸入,這使得該方法很費時。

 

對於 RDN(x4) 和 EDSR(x4),當縮放因子接近 1 時,Meta-RDN 與 RDN(x4) (或者Meta-EDSR 與 EDSR(x4)之間) 存在著巨大的性能差距。此外,當 r>k 時,EDSR(x4) 和 RDN(x4) 不得不在將其輸入網絡之前放大 LR 圖像。

 

通過權重預測, Meta-Bicu 和Meta-SR 可為每個縮放因子學習到最佳濾波器權重,而 BicuConv 則是所有縮放因子共享同一的濾波器權重。實驗結果表明 Meta-Bicu 顯著優於 BicuConv,從而印證了權重預測模塊的優越性。

 

同時,Meta-RDN 也由於Meta-Bicu, 這是因為對於在特征圖插值,縮放因子越大,有效的 FOV 越小,性能下降越多。但是,在 Meta-SR 中,每個縮放因子具有相同的 FOV。受益於 Meta-Upscale,相較於其他 baselines,Meta-RDN 幾乎在所有縮放因子上取得了更優性能。

 

推理時間

 

SISR 技術要實現落地,一個重要的因素是推理時間快。本文通過實驗計算了 Meta-SR 的每一模塊及 baselines 的運行時間,如表 2 所示。

 

 表2:運行時間對比結果

 

在表 2 中,FL 表示 Feature Learning 模塊,WP 表示 Meta-SR 的 Weight Prediction 模塊,Upscale 是 Upscale 模塊。測試是跑在 B100 上,測試的縮放因子是 2。

 

對比 SOTA 方法

 

本文把新提出的 Meta-Upscale 模塊用於替代 RDN 中的傳統放大模塊,獲得 Meta-RDN,並將其與 baseline RDN 進行對比。

 

值得註意的是,RDN 為每個縮放因子(X2, X3, X4)分別訓練了一個特定的模型。本文按照 PSNR、SSIM 指標將 Meta-RDN 與 RDN 在 4 個資料庫上作了對比,結果如表 3 所示:

 

 表3:當縮放因子為X2, X3, X4,Meta-RDN與RDN的對比結果。

 

可視化結果

 

圖 4 和圖 5 分別給出了一些可視化結果。

 

 圖4:Meta-RDN方法按照不同縮放因子放大同一張圖像的可視化對比結果。

 

 圖5:與4個baselines的可視化對比結果,Meta-RDN表現最優。

 

結論

 

曠視研究院提出一個全新的放大模塊,稱之為 Meta-Upscale,它可通過單一模型解決任意縮放因子的超解析度問題。針對每個縮放因子,Meta-Upscale 模塊可以動態地為放大模塊生成一組相應權重。借助特征圖與濾波器之間的捲積運算,研究員生成了任意大小的 HR 圖像;加之權重預測,進而實現了單一模型解決任意縮放因子的超解析度問題。值得一提的是,Meta-SR 還可以按照任意縮放因子快速地持續放大同一張圖像。

 

傳送門

 

歡迎各位同學加入曠視研究院基礎模型(Model)組,簡歷可以投遞給 Model 組負責人張祥雨

 

郵箱:[email protected]

 

傳送門

[1] B. Lim, S. Son, H. Kim, S. Nah, and K. M.Lee. Enhanced deep residual networks for single image super-resolution. In The IEEE conference on computer vision and pattern recognition (CVPR) workshops, 2017. 1, 2, 5

[2] W. Shi, J. Caballero, F. Husza ́r, J. Totz,A. P. Aitken, R. Bishop, D. Rueckert, and Z. Wang. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network. In Proceedings of the IEEE Conference on Computer Vision and PatternRecognition, 2016. 1, 2, 5

[3] K. Zhang, W. Zuo, and L. Zhang. Learning a single convolutional super-resolution network for multiple degradations. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018. 1, 5

[4] Y.Zhang, K.Li, K.Li, L.Wang, B.Zhong, and Y.Fu. Image super-resolution using very deep residual channel attention networks. arXiv preprint arXiv:1807.02758, 2018. 2, 5

[5] Y. Zhang, Y. Tian, Y. Kong, B. Zhong, and Y. Fu. Residual dense network for image super-resolution. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018. 1, 2, 3, 5,7

赞(0)

分享創造快樂