歡迎光臨
每天分享高質量文章

CVPR 2019 | INIT:針對實體級的圖像翻譯

作者丨薛潔婷

學校丨北京交通大學碩士生

研究方向丨圖像翻譯

 

研究動機

近年來關於圖像翻譯的研究越來越多,其中比較經典的有監督模型包括 Pix2Pix, BicycleGAN 等,無監督模型包括 CycleGAN, MUNIT, StarGAN, DRIT 等。

 

由於這些模型無論是針對多領域翻譯還是單領域翻譯都是將標的域圖像的風格/屬性整個遷移到源域圖像上,因此雖然這些方法可以很好的解決風格統一或者內容相關的圖像翻譯問題,但對於有大量實體物體並且物體與背景之間的風格差異非常巨大的複雜結構圖像翻譯來說是很困難的。

 

為瞭解決該問題,作者基於 MUNIT 模型提出了基於端到端的訓練模型 INIT,其採用不同的風格編碼來獨立的翻譯圖像中的物體、背景以及全域性區域。

 

 圖1. 現有圖像翻譯模型的局限

模型架構

INIT 的網絡架構非常類似於 MUNIT 模型,但不同於 MUNIT 模型,作者提出的模型不僅對全域性圖像進行內容和屬性編碼,而且還對實體物體以及背景也進行內容-屬性編碼。即首先給定一對未對齊的圖像和實體物體的坐標位置,應用全域性編碼器 Eg 以及區域性編碼器 Eo 分別獲取全域性圖像和實體物體圖像內容 c 和屬性向量 s,然後通過交換屬性向量來獲取跨域的標的實體物件圖像,整個模型的架構如下圖所示。

 

 圖2. INIT模型網絡結構

 

另外作者修改了原始的迴圈重建過程使其不僅包括跨域(X 域->Y 域)樣式重建還包括了跨粒度級(實體物體->全域性圖像)樣式重建。對於跨域來說是完全基於 MUNIT 模型所提出的迴圈重建,針對跨粒度級的重建過程如圖 3 所示,作者通過交換圖像和實體物體的編碼-解碼對後生成圖像,再對生成圖像繼續重覆上一操作使得再次生成出的圖像和實體物體應和原始圖像以及實體物體一致。

 圖3. 迴圈一致性損失(僅針對跨粒度級)

 

對於交換粒度級內容-屬性編碼對需要註意的是,作者採用了從粗略(全域性)屬性向量去結合細粒度級內容向量的交換方式,而如果逆轉這一過程即利用細粒度的屬性向量去結合粗粒度級的內容向量則無法實現(如圖 4 所示)。

 

 圖4. 內容-屬性對交換策略

 

綜上所述,模型採用的損失包括重構損失以及對抗損失,重構損失包括了全域性圖像重構以及區域性實體物體重構,這兩類的重構中又包括了圖像重建損失、內容重建損失以風格重建損失。對抗損失也包括了全域性對抗損失以及區域性實體對抗損失,整個模型的損失函式如下。

 

實驗結果

作者的實驗主要採用了自己設計的 INIT 資料集以及 COCO 資料集,INIT 資料集是由作者設計並首次應用於圖像翻譯問題,其中包含 155529 張高清街景圖像並且不僅設計了 sunny, night, cloud, rain 四種域標簽而且還對詳細實體物件邊界框註釋(車,人以及交通標誌)。

 

作者使用 LPIPS 矩陣、Inception-Score 以及 Conditional Inception-Score 對 INIT 模型進行評估,並和 CycleGAN, UNIT, MUNIT, DRIT 進行比對,其中 INIT w/Ds 表示全域性圖像和區域性實體物件共享一個鑒別器,INIT w/o Ds 則表示兩個鑒別器獨立,以下是實驗結果。

 

總結

作者基於 MUNIT 的架構提出了針對實體級圖像翻譯技術,通過對提取實體物件的風格/屬性來直接影響和指導標的域該物體的生成,這使得在進行複雜結構圖象翻譯時能產生更細緻的結果。

 

從實驗的效果圖來看也能發現翻譯後的圖像在具體實體物件上也能更符合現實場景。另外作者還設計了 INIT 街景資料集,該資料集包括了對具體實體物件的註釋框,有助於今後的圖像翻譯問題研究。

赞(0)

分享創造快樂