歡迎光臨
每天分享高質量文章

AAAI 2019 Oral | 讓TA說你想聽的—基於音/視頻特征解離的講述者人臉生成

你是否希望照片上的偶像、男神女神,甚至動畫人物對著你說出你想聽的那句話?又或是希望偽造明星說他們沒說過話的視頻?

作者丨Lovely Zeng

學校丨CUHK

研究方向丨Detection

香港中文大學 MMLab 提出通過解離的聽覺和視覺信息進行說話人臉視頻的生成,使得生成高解析度且逼真的說話視頻成為可能,而系統的輸入可以僅僅是一張照片和一段任何人說話的語音,無需先對人臉形狀建模。

 

論文的效果如下:

 

 

甚至對於動畫人物和動物也能取得很好的效果:

 

 

論文已經被 AAAI 2019 收錄為 Oral Presentation,接下來就將對論文進行詳細的講解,在此將著重於本文的背景和技術,細節部分詳見論文,本文代碼已經開源,長按識別下方二維碼即可查看論文和原始碼

 

 

背景介紹

多數研究基於音頻的說話人臉視頻生成問題都是基於圖形學的方法,比如在論文 [1] 中,超逼真的奧巴馬說話視頻已經被成功的合成出來。但是這類方法通常需要對特定的標的物件的大量視頻進行訓練和建模。

 

而最近基於深度學習的方法 [2] [3] 使用了 Image-to-Image 的方式,通過單張圖像生成整個人臉說話的視頻。這種方式已經足以得到很好的與提供的語音匹配的唇形,但是生成圖像的質量卻大打折扣,生成的結果不但解析度不高,甚至可能出現人物的面部特征丟失或是出現色差等問題。

 

問題出現的原因則是因為,由於人臉的身份特征和唇形的語意特征沒有完全解離,所以當身份特征被儲存完好,也就是希望輸出高質量圖像的時候,其原來的唇形特征也會被儲存下來,難以受音頻信息影響。

 

本文旨在生成與音頻完美契合,同時對人臉的細節特征儲存完好的高質量的說話視頻。因為在方法中同時編碼了視頻和音頻信息,從而使一個單獨的模型獲得了既可以使用音頻又可以使用視頻進行進行說話人視頻生成的特性。

 

文章解決的問題如圖 1 所示:

 

 圖1

解決方案

 

在本文中,解決問題的思路是將一段說話的視頻映射到兩種互補的人臉信息表示空間上,一種是人臉身份特征的表示空間(PID),另一種就是說話內容的表示空間(WID)

 

如果能有方法將這兩種表示所在的空間的信息解離開,則保持身份特征信息不變,使說話內容空間的信息根據音頻流動,再將兩個空間的信息組合就可以達到任意 PID 說任意 WID 的標的。大體思路如下圖所示:

 

其核心思想在於使用聯合視覺的語音識別(Audio-Visual Speech Recognition)(帶音頻的唇語識別)任務進行空間的編碼和解離。包含說話人臉視頻,音頻和所說詞語標簽的唇語識別資料集天然的標的,由此文章提出了一種“協同與對抗(associate-and-adversarial)”的訓練方式。 

 

通過使用音頻和視覺信息同時訓練語音識別任務,有關說話內容的特征空間就可以被找到。而在此空間中,一組對應的視頻和音頻因為表達的是同樣的信息,所以理應映射到同一個位置。

 

因此文章通過協同訓練找到一個聽視覺信息融合的表示空間(joint audio-visual representation),也就是上圖中的 Word-ID space。而這樣的協同空間中無論是視覺信息還是音頻信息映射的特征,都可以拿來進行人臉和重構,由此又巧妙地達到了使用一個模型統一使用視頻或者音頻生成說話視頻。 

 

有了詞語的標簽之後,更有趣的是可以通過詞語標簽對編碼人臉身份特征的網絡進行對抗訓練(adversarial training),將語言信息也就是唇形信息從中解離出來。同時,找到映射人臉的空間因為有大量標有人身份標簽的資料集的存在,本身是一件很簡單的事情。

 

通過使用額外的帶有身份信息的資料進行訓練既可以通過分類任務找到映射人臉的空間,又可以通過對抗訓練將人臉信息從語言空間解離出來。 

 

簡單總結一下文章的貢獻:

 

1. 首先通過音頻和視頻協同訓練唇語識別,將兩種信息向語言空間融合映射,協同訓練的結果顯示甚至相比基線可以提升唇語識別的結果;

 

2. 因為通過了使用識別性的任務進行映射,充分利用可判別性,使用對抗訓練的方式進行了人臉特征和語言信息的解離;

 

3. 通過聯合訓練上述任務,任意一張照片都可以通過一段給定的音頻或者視頻,生成高質量的說話視頻。

 

技術細節

 

方法的整個流程圖如下,文章的整個方法被命名為“解離的音-視頻系統”,Disentangled Audio-Visual System (DAVS):

 

本文使用了單詞級別的唇語識別資料集 LRW。在此資料集中每段定長的視頻擁有其所含的主要單詞的 label,所以映射的說話內容空間,被命名為 Word-ID(wid)空間(詞空間),對應於人臉的 Peron-ID (pid) 空間(身份空間)。

 

整個系統包含視頻對詞空間的編碼網絡,音頻對詞空間的編碼網絡,和視頻對身份空間的編碼網絡;通過網絡,人臉空間被劃分成 wid 和 pid 兩個互斥的空間,並使用對抗訓練的方式解離開。同時 wid 空間是音頻和視頻協同映射的聯合空間,通過同步兩個空間的信息,要求對應的音頻和視頻映射到空間的同一位置。

 

音頻視頻聯合空間映射

聯合空間的映射通過三個監督聯合完成,這三個監督分別是:共享視頻和音頻映射到詞標簽的分類器;通常用於排序的 contrastive 損失函式;和一個簡單的用於混淆兩個空間的對抗訓練器。 

 

共享分類器這一方法,本質在於讓資料向類中心靠攏,可以稱之為“中心同步”[4]。而排序 Contrastive loss 用於音頻和視頻同步最早源於 VGG 組提出的 SyncNet [5]

 

利用這一體系進行聯合空間映射,所以聯合空間映射模塊也適用於將音-視頻同步這一任務。而本身使用唇語識別這一任務做監督又意味著可以同時將唇語識別這一任何融入其中。

 

 

對抗訓練空間解離

為了將身份空間和詞空間解離,文章首先依托唇語識別資料集的標簽,對身份空間的編碼器進行語言信息的解離。在保持身份編碼器權重不變的情況下,通過訓練一個額外的分類器,將編碼的視頻特征,映射到其對用的詞標簽上。這一步驟的意義在於盡可能的將已編碼的身份特征中的語言信息提取出來。然後第二步保持分類器的權重不變,訓練編碼器,此時詞標簽則取成總類別數的平均值。由此我們期望映射的特征向量中含有的詞信息不足以讓分類器成功分類。 

 

對於詞編碼器,文章使用額外的人臉識別資料 MS-Celeb-1M [6],使用同樣的方式對稱的提純映射的詞空間信息,完成身份空間和詞空間的解離。

 

實驗結果

 

文章中進行了一些數值的對比實驗證明其提出的每一個模塊的有效性,但對於此任務,最重要的生成的效果。Gif 結果附在了本文開頭,而長視頻結果請見主頁:

 

https://liuziwei7.github.io/projects/TalkingFace

參考文獻

 

[1] Suwajanakorn, S., Seitz, S. M., & Kemelmacher-Shlizerman, I. (2017). Synthesizing obama: learning lip sync from audio. ACM Transactions on Graphics (TOG), 36(4), 95. 

[2] Chung, J. S., Jamaludin, A., & Zisserman, A. (2017). You said that?. BMVC 2017. 

[3] Chen, L., Li, Z., Maddox, R. K., Duan, Z., & Xu, C. (2018). Lip Movements Generation at a Glance. ECCV 2018. 

[4] Liu, Y., Song, G., Shao, J., Jin, X., & Wang, X. (2018, September). Transductive Centroid Projection for Semi-supervised Large-Scale Recognition. ECCV 2018. 

[5] Chung, J. S., & Zisserman, A. (2016, November). Out of time: automated lip sync in the wild. In ACCV workshop 2016. 

[6] Guo, Y., Zhang, L., Hu, Y., He, X., & Gao, J. (2016, October). Ms-celeb-1m: A dataset and benchmark for large-scale face recognition. ECCV 2016.

赞(0)

分享創造快樂