歡迎光臨
每天分享高質量文章

畫個草圖生成2K高清視頻,這份效果驚艷的研究值得你跑一跑

導讀:在圖像到圖像合成的研究領域熱火朝天的當下,英偉達又放大招,聯合 MIT CSAIL 開發出了直接視頻到視頻的轉換系統。


該系統不僅能用語意分割掩碼視頻合成真實街景視頻,解析度達到 2K;能用草圖視頻合成真實人物視頻;還能用姿態圖合成真人舞蹈視頻。


更令人驚艷的是,在語意分割掩碼輸入下,換個掩碼顏色該系統就能直接將街景中的樹變成建築!目前該專案已開源。

作者:Ting-Chun Wang 等

來源:機器之心(ID:almosthuman2014)編譯

參與:劉曉坤、王淑婷

01 引言

模擬和再現動態視覺世界對於打造智慧體來說必不可少。除了純粹的科學興趣,學習合成連續的視覺體驗在計算機視覺、機器人學和計算機圖形學領域都有廣泛的應用。例如對於 model-based 的強化學習,逼近動態視覺的視頻合成模型能以較少的真物體驗資料訓練智慧體。使用學習的視頻合成模型,人們可以生成逼真的視頻,而無需明確指定場景幾何形狀、材料、光傳輸以及它們的變換,這在使用標準圖形渲染技術時會遇到很多麻煩,但卻是必要的。

視頻合成的形式有很多種,包括未來視頻預測和無條件視頻合成。在本文中,作者研究了一種新的形式:視頻到視頻的合成。從核心來說,其標的是學習一種映射函式,它可以將輸入視頻轉換成輸出視頻。就目前已知的研究工作來看,儘管圖像到圖像合成研究進行得熱火朝天,但視頻合成的通用解決方案還沒有被探索過。作者表示,本論文提出的方法是受到之前專用視頻合成方法啟發。

作者將視頻到視頻的合成問題稱之為分佈匹配問題,其標的是訓練一個模型,使得在給定輸入視頻後構建一個條件分佈以近似合成類似於輸入視頻的真實視頻。為此,他們利用了生成對抗學習框架完成這一建模過程。

給定成對的輸入和輸出視頻,作者學習把輸入視頻映射到輸出域。通過精心設計的生成器和判別器網絡以及新的學習標的函式,該方法可以學習合成高解析度、時間連貫的照片級視頻。此外,作者還將該方法擴展到多模態視頻合成。在相同的輸入條件下,該模型可以製作不同外觀的視頻。

作者對在幾個資料集上進行了廣泛的實驗驗證,任務是將一些列分割掩碼轉換成照片級的視頻。定量和定性結果都表明,該方法合成的鏡頭看起來比強基線更逼真。他們還進一步證明,該方法可以生成長達 30 秒的真實感 2K 解析度視頻。它還允許用戶對視頻生成結果進行靈活的高級控制。例如,用戶可以輕易地用街景視頻中的樹替換建築物。此外,作者還將該方法擴展到了未來預測,結果表明其方法優於現有系統。作者所用代碼、模型和其它結果都可以在其網站上找到。

▲圖 1:Cityscapes 結果。其中左上為輸入圖像、右上為 pix2pixHD 生成的圖像、左下為 COVST 生成的圖像、右下為本論文提出方法生成的圖像