歡迎光臨
每天分享高質量文章

FSRNet:端到端深度可訓練人臉超分辨網絡

 

作者丨左育莘

學校丨西安電子科技大學

研究方向丨計算機視覺

這篇文章 FSRNet: End-to-End Learning Face Super-Resolution with Facial Priors 是 CVPR 2018 的文章(spotlight),主要思想是通過人臉圖像的特殊性,從人臉圖像中提取幾何先驗信息來提高超解析度的效果,同時,為了生成更逼真的人臉圖像,作者還提出了“人臉圖像超解析度生成對抗網絡”。

 

 

面部超解析度(SR)是特定的一類圖像超解析度問題。目前大多數人臉圖像超分辨演算法是由通用的圖像超分辨演算法加以適當修改得到的。文章提出,可以利用特定的面部先驗知識來獲得更好的超分辨面部圖像。

 

文章提出了一個端到端的深度可訓練面部超分辨網絡,充分利用人臉圖像的幾何先驗信息,即面部 landmark 的 heatmap 和人臉解析圖,來對低解析度人臉圖像進行超解析度。

 

網絡結構及思想

 

具體而言,文章提出的網絡的整體結構如下:首先構建粗的 SR 網絡來生成粗的 HR 圖像。然後,粗的 HR 圖像會被送到兩個分支去: 

 

1. 精細的SR 編碼器,提取圖像特征。 

 

2. 先驗信息預測網絡,估計 landmark heatmap 和解析圖。 

 

最終,圖像特征和先驗信息會送到一個精細的 SR 解碼器來恢復 HR 圖像。 

 

整個網絡的結構如下圖所示:

 

 整體網絡結構,標號解釋:k3n64s1:kernel size:3×3,number of channels:64,stride:1

 

這裡主要有兩個思想: 

 

1. 為什麼不直接從低解析度圖像得到人臉的幾何先驗信息呢? 

 

由於直接從 LR 輸入中估計面部的 landmark 以及解析圖是有一定複雜度的,所以首先構建一個粗糙的 SR 網絡,來生成粗糙的 HR 圖像。然後粗糙的 SR 圖像就會被送到一個精細的 SR 網絡,這個網絡中,一個精細的 SR 編碼器和一個先驗信息的估計網絡會共同以粗糙的 HR 圖像作為輸入,然後後面接上一個精細的 SR 解碼器。 

 

精細的 SR 編碼器提取圖像特征,而先驗信息的估計網絡則通過多任務學習同時估計 landmark heatmap 和解析圖,這樣操作的話,得到的效果會更好。 

 

2. 幾何先驗特征的選取 

 

任何真實世界的物體在其形狀和紋理上都有不同的分佈,包括臉部。比較面部形狀和紋理,我們選擇建模並利用形狀先驗信息基於兩個考慮因素。

 

第一,當圖像從高解析度到低解析度時,相比於紋理信息,形狀信息會更好地儲存下來,因此更有可能被提取出來促進超解析度的效果。

 

第二,形狀先驗信息比紋理先驗信息更容易表現。例如,面部解析估計不同面部組件的分割,landmark 則提供面部關鍵點的準確位置。兩者都可以表示面部形狀,而面部解析則帶來更多粒度。相反,目前尚不清楚如何對一張特定的人臉的高維度紋理先驗進行表示。

 

網絡細節

 

粗糙的SR網絡(第一階段)

 

 3個殘差單元,kernel size和stride的設置使得特征圖的大小始終不變

 

精細的SR網絡(第二階段)

 

 第二階段網絡,HG Block指的就是HourGlass結構

 

1. 先驗信息估計網絡 

 

從最近成功的疊加熱圖回歸在人體姿勢估計中受到啟發,文章提出在先驗信息估計網絡中使用一個 HourGlass 結構來估計面部 landmark 的 heatmap 和解析圖。因為這兩個先驗信息都可以表示 2D 的人臉形狀,所以在先驗信息估計網絡中,特征在兩個任務之間是共享的,除了最後一層。

 

為了有效整合各種尺度的特征並保留不同尺度的空間信息,HourGlass block 在對稱層之間使用 skip-connection 機制。最後,共享的 HG 特征連接到兩個分離的 1×1 捲積層來生成 landmark heatmap和解析圖。 

 

2. 精細的SR編碼器 

 

受到 ResNet 在超分辨任務中的成功的啟發,文章使用 residual block 進行特征提取。考慮到計算的開銷,先驗信息的特征會降採樣到 64×64。為了使得特征尺寸一致,編碼器首先經過一個 3×3,stride為 2 的捲積層來把特征圖降採樣到 64×64。然後再使用 ResNet 結構提取圖像特征。

 

3. 精細的SR解碼器 

 

解碼器把先驗信息和圖像特征組合為輸入,首先將先驗特征 p 和圖像特征 f 進行 concatenate,作為輸入。然後通過 3×3 的捲積層把特征圖的通道數減少為 64。然後一個 4×4 的反捲積層被用來把特征圖的 size 上採樣到 128×128。然後使用 3 個 residual block 來對特征進行解碼。最後的 3×3 捲積層被用來得到最終的 HR 圖像。

 

損失函式

 

FSRNet 

 

FSRNet 包含四個部分:粗糙的 SR 網絡,精細的 SR 編碼器,先驗信息估計網絡,精細的 SR 解碼器。設 x 為輸入的低解析度圖像,y 和 p 是高解析度圖像和估計得到的先驗信息。 

 

由於直接從低解析度圖像中得到圖像的先驗信息的效果不是那麼好,所以首先構建一個粗糙的 SR 網絡來得到一個粗糙的 SR 圖像:

 

 

C 代表映射(LR 輸入到粗糙的 HR 圖像輸出之間的映射)。然後,Yc 會被送入先驗信息的估計網絡 P 和精細的 SR 編碼器 F: 

 

 

f 為從網絡 F 提取得到的特征。在編碼以後,SR 解碼器則會利用圖像特征 f 和圖像先驗信息 p 得到最終的 HR 圖像 y:

 

 

給定訓練集FSRNet的損失函式如下(為 ground truth):

 

 

FSRGAN

 

對於 FSRGAN(人臉超分辨生成對抗網絡),作者參考 CVPR 2017 用於圖像轉換的條件生成對抗網絡 cGAN [1]

 

 

並引入了感知域損失(high-level 的特征圖之間的損失,文章使用預訓練的 VGG-16 來得到高層特征圖):

 

 

得到最終的損失函式為:

 

 

訓練設置

Dataset:Helen & celeA

 

對於 Helen 資料集,2330 張圖像,後 50 張圖像作為測試,其他作為訓練,並且使用資料增強(旋轉 90°,180°,270°,以及水平翻轉,所以每張圖都有 7 張資料增強圖),Helen 資料集的每張圖像都有 194 個 landmark 和 11 個解析圖。 

 

對於 celeA 資料集,用前 18000 張圖像進行訓練,後 100 張圖像進行評價。celeA 資料集的 ground truth landmark 數只有 5 個,所以要用一些方法得到 68 個 landmark,以及使用 GFC 方法來估計解析圖的 ground truth。

 

訓練設定

 

根據面部區域粗略裁剪訓練圖像,在沒有任何預先對齊的情況下裁剪到 128 × 128,彩色圖像訓練。低解析度圖像首先經過bicubic插值到高解析度圖像大小,再進行訓練。 

 

框架:Torch 7 

 

優化器:RMSprop 

 

初始學習率:

Mini-batch size:14

 

 

在 Helen 資料集上訓練 FSRNet 大約需要 6 小時(Titan X)。

 

相關實驗(8倍放大)

 

先驗信息對人臉超解析度的影響:

 

  • 人臉圖像的先驗信息真的對超分辨有用嗎?

  • 不同的人臉先驗信息帶來的提升有什麼不同? 

 

首先,文章證明瞭人臉先驗信息對人臉超分辨是很重要的,即使沒有任何提前處理的步驟。 

 

作者把先驗信息估計網絡移除以後,構建了一個 Baseline 網絡。基於 Baseline 網絡,引入 ground truth 人臉先驗信息(landmark heatmap 和解析圖)到拼接層,得到一個新的網絡。

 

 Baseline網絡 + ground truth人臉先驗信息

為了公平進行比較,拼接層的特征圖通道數量和其他兩個網絡的通道數量是一樣的。得到不同網絡的性能對比:

 

 網絡性能對比

 

可以看到,用了先驗信息的模型有提高,分別提高了 0.4dB(加入 landmark heatmap),1.0dB(加入解析圖),1.05dB(兩個都加)。 

 

設定不同的 landmark 數,以及使用區域性解析圖或者全域性解析圖。得到的性能比較結果(上圖右半部分)。 

 

通過上面結果的比較,得出以下結論: 

 

1. 解析圖比 landmark heatmap 含有更多人臉圖像超分辨的信息,帶來的提升更大;

 

2. 全域性的解析圖比區域性的解析圖更有用;

 

3. landmark 數量增加所帶來的提升很小。 

 

估計得到的先驗信息的影響:

 

  • Baseline_v1:完全不包含先驗信息 

  • Baseline_v2:包含先驗信息,但不進行監督訓練 

 

性能比較:

 

 

結論: 

 

1. 即使不進行監督訓練,先驗信息也能幫助到 SR 任務,可能是因為先驗信息提供了更多的高頻信息;

 

2. 越多先驗信息越好;

 

3. 最佳性能為 25.85dB,但是使用 ground truth 信息時,能達到 26.55dB。說明估計得到的先驗信息並不完美,更好的先驗信息估計網絡可能會得到更好的結果。

 

Hourglass數量的影響:

 

強大的先驗信息預測網絡會得到更好的結果,所以探究 Hourglass 數量 h 對網絡性能的影響。分別取 1,2,4,結果為 25.69,25.87,25.95。

 

不同的 Hourglass 數量對 landmark 估計的影響:

 

 第一行h=1,第二行h=2

 

可以看到 h 數量增加時,先驗信息估計網絡結構越深,學習能力越強,性能越好。

 

與SOTA方法的比較

 

放大 8 倍後的性能比較,雖然 FSRGAN 的兩項指標(PSNR/SSIM)都不如 FSRNet,但是從視覺效果上看更加真實。

 

這也與目前的一個共識相對應:基於生成對抗網絡的模型可以恢復視覺上合理的圖像,但是在一些指標上(PSNR , SSIM)的值會低。而基於 MSE 的深度模型會生成平滑的圖像,但是有高的 PSNR/SSIIM。

總結

本文提出了深度端到端的可訓練的人臉超分辨網絡 FSRNet,FSRNet 的關鍵在於先驗信息估計網絡,這個網絡不僅有助於改善 PSNR/SSIM,還提供從非常低解析度的圖像精確估計幾何先驗信息(landmark heatmap 和解析圖)的解決方案。實驗結果表明 FSRNet 比當前的 SOTA 方法要更好,即使在未對齊的人臉圖像上。 

 

未來的工作可以有以下幾個方面:1)設計一個更好的先驗信息估計網絡;2)迭代地學習精細的 SR 網絡;3)調研其他有用的臉部先驗信息。

 

參考文獻

 

[1] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, Alexei A. Efros, Image-to-Image Translation with Conditional Adversarial Networks, CVPR 2017.

 

點擊以下標題查看更多往期內容:

#投 稿 通 道#

 讓你的論文被更多人看到 

 

如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢? 答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得技術乾貨。我們的目的只有一個,讓知識真正流動起來。

來稿標準:

• 稿件確系個人原創作品,來稿需註明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向) 

• 如果文章並非首發,請在投稿時提醒並附上所有已發佈鏈接 

• PaperWeekly 預設每篇文章都是首發,均會添加“原創”標誌

? 投稿郵箱:

• 投稿郵箱:[email protected] 

• 所有文章配圖,請單獨在附件中發送 

• 請留下即時聯繫方式(微信或手機),以便我們在編輯發佈時和作者溝通

?

現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關註」訂閱我們的專欄吧

關於PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號後臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

▽ 點擊 | 閱讀原文 | 獲取最新論文推薦

    閱讀原文

    赞(0)

    分享創造快樂