歡迎光臨
每天分享高質量文章

小米9拍照黑科技:基於NAS的影象超解析度演演算法

作者:Xiangxiang Chu, Bo Zhang等 丨

機器之心編譯丨

雷軍表示:這是一篇小米最新出爐的論文,基於彈性搜尋在影象超解析度問題上取得了令人震驚的結果,該模型已開源。

本篇是基於 NAS 的影象超解析度的文章,PaperWeekly 社群使用者 @figo 在該文公佈後迅速跟進,發表分析稱「屬於目前很火的 AutoML / Neural Architecture Search,論文基於彈性搜尋(宏觀+微觀)在超解析度問題上取得了非常好的結果。這種架構搜尋在相當的 FLOPS 下生成了多個模型,結果完勝 ECCV 2018 明星模型 CARNM,這應該是截止至 2018 年可比 FLOPS 約束下的 SOTA(涵蓋 ICCV 2017 和 CVPR 2018)。 

 

而達到這樣的效果,論文基於一臺 V100 用了不到 3 天時間。需要指出的是,該項技術具有一定的普適性,理論上可以應用於任何監督學習,值得我們關註和學習。」 

 

 

作為計算機視覺中的經典任務,單幀超解析度(SISR)旨在基於低解析度影象重構出對應的高解析度影象。目前大多數 SISR 演演算法都藉助深度學習的非線性擬合能力,並大幅超越了傳統視覺演演算法。直觀而言,影象超解析度是一種提煉並擴充套件影象資訊的方法,模型需要根據影象的整體語意資訊重構出欠缺的細節。因此與一般的影象銳化或清晰度調整不同,影象超解析度任務有著更高的要求。 

 

目前已有的超解析度模型大多數都是人工設計的,它們很難進行壓縮或者微調。與此同時,神經架構搜尋已經在分類任務中取得了極好的效果。根據這一趨勢,Chu et al., 2019 提出了使用強化遺傳搜尋方法處理 SISR 任務,該方法優於 VDSR [Kim et al., 2016a] 等流行網路。 

 

在該論文中,作者基於彈性神經架構搜尋探討 SISR 任務,提出的方法已經達到與 CARN 和 CARN-M 相當的效果。作者表示他們最主要的貢獻可以總結為以下四點: 

 

1. 釋出了幾種快速、準確和輕量級的超解析度架構和模型,它們與最近的當前最優方法效果相當; 

 

2. 透過在 cell 粒度上結合宏觀和微觀空間來提升彈性搜尋能力; 

 

3. 將超解析度建模為受限多標的最佳化問題,並應用混合型控制器來平衡探索(exploration)和利用(exploitation);

 

4. 生成高質量模型,其可在單次執行中滿足給定約束條件下的各種要求。 

 

此外,研究者還開放了預訓練的模型和評估程式碼,他們在 GitHub 中提供了 FALSR A、B 和 C 三個預訓練模型,同時也提供了一些示例資料集,包括 B100、Set14 和 Urban100 等。釋出的模型基於 TensorFlow。如果想要使用預訓練模型看看效果,直接複製 GitHub 專案,並執行以下命令列就行了:

python calculate.py --pb_path ./pretrained_model/FALSR-A.pb --save_path ./result/

流程架構

與大部分 NAS 方法類似,本研究提出的方法包含三個主要模組:彈性搜尋空間、混合模型生成器和基於不完全訓練的模型評估器。 

 

與 [Lu et al., 2018; Chu et al., 2019] 類似,本研究也使用 NSGA-II [Deb et al., 2002] 來解決多標的問題。但該研究的特點在於,它會使用混合型控制器和基於 cell 的彈性搜尋空間(可支援宏觀和微觀搜尋)。 

 

該研究在處理超解析度任務時考慮了三個標的: 

 

  • 反映模型效能的量化度量指標(PSNR) 

  • 評估模型計算成本的量化度量指標(mult-adds) 

  • 引數量 

 

此外,該研究還考慮了以下約束: 

 

  • 滿足人類視覺感知的最小 PSNR 

  • 資源限制下的最大 mult-adds

彈性搜尋空間

本研究的搜尋空間旨在執行微觀和宏觀搜尋。微觀搜尋用於在每個 cell 的搜尋空間的中選擇有潛力的單元,可看作是特徵提取器。而宏觀搜尋旨在搜尋不同 cell 的跳接,其作用是結合選定層級的特徵。此外,研究者使用 cell 作為最小搜尋元素有兩個原因:設計靈活性、通用的表徵能力。 

 

通常,超解析度任務可分為三個子步驟:特徵提取、非線性對映和重建。由於大部分深度學習方法主要關註第二部分,因此該研究將其搜尋空間設計用於描述非線性對映,其他部分保持不變。圖 1 展示了該研究中提出的超解析度任務主要基礎結構。一個完整的模型包括預定義的特徵提取器(具備 32 個 3 × 3 摺積核的 2D 摺積)、來自微觀搜尋空間的 n 個單元塊和來自宏觀搜尋空間的跳接、上取樣和重建。

 

 圖1:本研究採用的基礎超解析度神經架構(cell間的箭頭表示跳接)

 圖2:控制器結構

與當前最優超解析度方法的對比 

 

該模型訓練完成後,研究者在常用超解析度任務測試資料集上將其與當前最優方法進行了對比(見表 1 和圖 5)。公平起見,本研究僅考慮 FLOPS 相當的模型。因此,太深和太大的模型(如 RDN [Zhang et al., 2018b]、RCAN [Zhang et al., 2018a])均不包括在內。研究者按照慣例選擇 PSNR 和 SSIM 作為度量標準。對比在兩倍超解析度任務上進行,所有 Mult-Adds 均基於 480 × 480 的輸入衡量。

 表1:在×2超解析度任務上對比本文提出的方法和當前最優方法

 圖5:FALSR-A、FALSR-B、FALSR-C(鮭紅色)vs. 其他模型(藍色)

在 FLOPS 相當的模型對比中,本研究提出的 FALSR-A 模型優於 CARN [Ahn et al., 2018](圖 3)。此外,FALSR-A 模型還在四個資料集和三個標的上超過 DRCN [Kim et al., 2016b] 和 MoreMNAS-A [Chu et al., 2019]。它的 PSNR 和 SSIM 值高於 VDSR [Kim et al., 2016a]、DRRN [Tai et al., 2017a] 等,且 FLOPS 低於後者。 

 

研究者還建立了一個更輕量級的版本——FALSR-B(圖 4),它超越了 CARN-M,這意味著更少 FLOPS 與引數量的情況下,FALSR-B 的得分堪比甚至超越 CARN-M。此外,它的架構更吸引人,連線之間的複雜度介於稀疏和密集連線(dense connection)之間。這表示密集連線不總是資訊傳輸的最優方法。來自更低層的無用特徵可能會給高網路層重建超解析度結果造成麻煩。

點選以下標題檢視更多往期內容:

 

#投 稿 通 道#

 讓你的論文被更多人看到 

 

如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢? 答案就是:你不認識的人。

 

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 

 

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得技術乾貨。我們的目的只有一個,讓知識真正流動起來。

 

來稿標準:

• 稿件確系個人原創作品,來稿需註明作者個人資訊(姓名+學校/工作單位+學歷/職位+研究方向) 

• 如果文章並非首發,請在投稿時提醒並附上所有已釋出連結 

• PaperWeekly 預設每篇文章都是首發,均會新增“原創”標誌

 

? 投稿郵箱:

• 投稿郵箱:hr@paperweekly.site 

• 所有文章配圖,請單獨在附件中傳送 

• 請留下即時聯絡方式(微信或手機),以便我們在編輯釋出時和作者溝通

 

 

?

 

現在,在「知乎」也能找到我們了

進入知乎首頁搜尋「PaperWeekly」

點選「關註」訂閱我們的專欄吧

關於PaperWeekly

 

PaperWeekly 是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號後臺點選「交流群」,小助手將把你帶入 PaperWeekly 的交流群裡。

▽ 點選 | 閱讀原文 | 獲取最新論文推薦

    閱讀原文

    贊(0)

    分享創造快樂