歡迎光臨
每天分享高質量文章

NeurIPS 2018 | 基於自監督學習的視聽覺信息同一性判斷

在碎片化閱讀充斥眼球的時代,越來越少的人會去關註每篇論文背後的探索和思考。

 

在這個欄目里,你會快速 get 每篇精選論文的亮點和痛點,時刻緊跟 AI 前沿成果。

 

點擊本文底部的「閱讀原文」即刻加入社區,查看更多最新論文推薦。

這是 PaperDaily 的第 124 篇文章

作者丨武廣

學校丨合肥工業大學碩士生

研究方向丨圖像生成

 

視覺和聽覺存在著緊密的關聯,同時空下視覺和聽覺不僅在語意上存在著一致性,在時序上也是對齊的。失聰患者可以利用視覺信息做出判斷,盲人也可以利用聽覺信息做出判斷,而一般正常人對事物的決策往往是結合視覺和聽覺協同完成的。

 

達特茅斯學院和 Facebook 聯合發表於 NeurIPS 2018 的這篇文章正是通過對視覺和聽覺信息做同一性判斷,在整體上優化視覺特征和聽覺特征提取網絡,在獨立模態下也提高了各自的任務準確率。不同於我們之前說的 Look, Listen and Learn [1],這篇論文不僅僅在語意上判斷視覺和聽覺的一致性,還在時序上做了嚴格對齊判斷。

論文引入

 

日常休閑娛樂很多人喜歡看電影,有時看電影的過程中會出現畫面和音頻對不上的情況,這會大大降低觀影體驗。為什麼我們會察覺到畫面和音頻對不上呢?

 

這就是人類潛意識里已經建立了視覺和聽覺上對應的關係,一旦客觀現象中視覺和聽覺信息對應不上,我們立馬就會發現哪裡出現了問題。人類不僅僅可以察覺畫面和音頻對應不上,結合已有的知識甚至可以推斷是畫面延遲了還是音頻延遲了。 

 

目前機器學習大部分還是停留在單一模態下信息的分析和學習,比如計算機視覺是一個大的研究方向,音頻分析和處理又是一個方向。然而,機器如果想更進一步的智慧化,必須要像人類一樣,利用多模態去分析和學習,結合不同模態下的信息和聯繫做出判斷和決策。

 

已經有越來越多的研究者關註到了多模態信息的學習,跨模態檢索、遷移學習、多模態信息聯合決策、跨模態轉換等。視覺和聽覺這兩個模態,本身就是嚴格關聯的,只要物體運動了,視覺上的變化勢必會帶來聽覺上聲音的產生,如何結合視覺和聽覺信息去提高視覺任務和聽覺任務的處理,正是我們今天要看的這篇論文的核心。 

 

如何去結合視覺和聽覺信息呢?論文采用的方式是“視聽覺時間同步”英文縮寫為 AVTS (Audio-Visual Temporal Synchronization),就是在語意和時序上對視覺和聽覺信息做對齊判斷,如果視覺信息和聽覺信息不僅在語意上是關聯的(視頻和聲音是可以對上的)而且在時序上也是對齊的(視頻和聲音不存在延遲,是對齊關係的)就判斷為同步信息,否則認為是非同步。優化決策結果,則會提高視覺和聽覺特征提取網絡,特征提取好了自然在獨立的任務上可以取得改善。 

 

筆者在之前的論文解讀中對 Look, Listen and Learn 一文簡稱為做過分析 [2]也是對視覺和聽覺信息做關聯性判斷,但是判斷視覺和聽覺關聯上僅僅是通過語意上是否關聯判斷的,而論文 AVTS 則是在此基礎上考慮到視頻的時序信息,進一步嚴格了視覺和聽覺的同步性判斷。 

 

利用視頻和音頻之間的相關性作為特征學習的方法,在訓練過程中是不引入人為標簽的,拿來視頻和音頻只需要知道是否是同步的不需要任何其它的標簽就可以優化整體網絡,這種方式符合自監督學習方法,所以論文的標題特意強調文章是在自監督下完成同步性判斷的。

 

這對於處理視頻這樣的大資料集是可觀的,一旦利用 AVTS 自監督方式預訓練好特征提取網絡可以在微調階段發揮出更好的效果的同時,不引入額外的標註開銷。 

 

總結一下 AVTS 的優勢: 

 

  • 視覺聽覺在語意和時序同步性判斷;

  • 視聽覺相關性判斷,實現了自監督學習特征提取;

  • 預訓練 AVTS 模型在視覺信息和聽覺信息獨立任務上取得了提高。

 

AVTS模型

VTS 模型是對視覺信息和聽覺信息在語意和時序上同步性的判斷,判斷結果是二分類問題,要麼同步要麼不同步,我們先看一下模型框架:

 

由上圖 (a) 所示,AVTS 模型採取的是雙流結構,一路是視頻特征提取網絡,一路是音頻特征提取網絡,對提取得到的特征利用對比度損失進行優化。

 

整體上看 AVTS 還是很容易理解的,我們要強調一下具體的實現。

 

我們先從模型優化的訓練集說起。 整體訓練集定義為由 N 個標記的音頻視頻對組成。其中 a(n) 表示音頻第 n 個樣本,v(n) 表示視頻第 n 個樣本(視頻由連續幀組成),標簽 y(n)∈{0,1} 表示視頻和音頻是否同步,0 為不同步,1 為同步。 

 

訓練集選擇同一視頻下時序對應的視頻和音頻為同步的正例,對於負例,定義不同視頻下視頻和音頻為簡單負例,同一視頻下時序不同步的為硬(“hard”)負例,硬負例下時序相差太遠的定義為超硬負例,我們由下圖可以進一步理解正負例定義原則。

 


優化 AVTS 模型中,論文作者一開始直接採用交叉熵損失進行優化,發現從頭開始學習時很難在這種損失下實現模態間的融合,通過最小化對比度損失可以獲得更一致和穩健的優化,在正對上產生小距離,在負對上產生更大距離:

 

 

其中為視頻提取的特征表示,為音頻提取的特征表示,對於標簽 y(n)=1 時,此時最小化對比度損失E時需要盡可能相近,也就是希望同步的視頻特征和音頻特征儘量相近。

 

對於非同步的視頻-音頻對,即 y(n)=0 時,對應到公式的後一項,只有當距離越遠的時候,才會比 0 要小,此時 max 達到最佳值 0,其中 η 為邊際超引數。

 

對於視頻特征提取網絡 (b),文章採用 2D 和 3D 捲積網絡結合實現,我們簡單分析一下 3D 捲積網絡,對於 (b) 圖中對應的是前 2 個捲積塊,後 3 個捲積塊為 2D 捲積網絡,最後一層為全連接層。

 

3D 捲積網絡下視頻輸入是包含幀的,這裡輸入的視頻幀為 3,長寬為 7 × 7,通道數為 3,batchsize 為 64。論文解釋為在特征提取的後半部分將不再依靠時間軸,這時候可以直接利用 2D 捲積網絡,論文稱這種方法為混合捲積架構(MC),實驗也驗證了混合架構性能要好些。

 

對於音頻信息,先要對音頻信息提取對應的聲譜圖然後再對其利用2D捲積網絡做特征提取,網絡結構為 (c) 圖展示。

 

課程方式訓練

論文在訓練模型的時候發現,如果一開始對負例的選擇上簡單負例和硬負例按 3:1 訓練時,訓練效果很一般。論文認為一開始讓模型去區分硬負例有些太難了,文章採用循序漸進增進難度的方式。

 

論文實驗發現在前 50 個 epoch 下負例只選擇簡單負例,在 51-90 epoch 下簡單負例和硬負例按 3:1 訓練時,模型效果最佳。這個也符合人類的學習方式,一上來就做難題不僅打擊自信,基礎也不能打扎實,只有掌握了充分的基礎知識後,再做些難題才能錦上添花。

 

論文對比了設置課程的效果:

 

 

實驗

訓練上邊際超參 η 為 0.99,訓練在四塊 GPU 機器上完成,每個 GPU 有一個小批量的 16 個樣本。每次損失值在超過 5 個時期內沒有減少時,學習率將縮放 0.1。

 

在驗證視覺信號和聽覺信號同步性問題,論文做了與的對比:

 

 

在評估視覺特征性能時,正如預期的那樣,使用動作類標簽對 Kinetics 資料集進行預訓練可以提高 UCF101 和 HDMB51 的準確度。但是,這會占用 500K 視頻剪輯上手動標記的巨大成本。相反,AVTS 預訓練是自監督的,因此它可以應用於更大的資料集而無需額外的人工成本。

 

在評估聽覺特征性能時,直接在音頻特征提取的 conv_5 AVTS 功能上訓練多類一對一線性 SVM,以對音頻事件進行分類。通過對樣本中的分數求平均來計算每個音頻樣本的分類分數,然後預測具有較高分數的類。

 

可以看到,AVTS 在音頻分類任務上取得了比人工稍好的效果。更多實驗,可以進一步閱讀原文。

總結

視聽覺時間同步(AVTS)的自監督機制可用於學習音頻和視覺領域的模型,通過視覺和聽覺上的相關性實現視覺和聽覺上性能的提高,視覺和聽覺上的關聯,對於視覺下運動分析可以很好的結合聽覺上的特征信息進一步提高判別和識別的準確。可以想象。視聽覺結合對於提高分類和識別任務上還有進一步提升空間。

 

參考文獻

[1] Relja Arandjelović and Andrew Zisserman. ook, Listen and Learn. In ICCV 2017.

[2] www.paperweekly.site/papers/notes/594

本文由 AI 學術社區 PaperWeekly 精選推薦,社區目前已改寫自然語言處理、計算機視覺、人工智慧、機器學習、資料挖掘和信息檢索等研究方向,點擊「閱讀原文」即刻加入社區!

 

點擊標題查看更多論文解讀:

 

#投 稿 通 道#

 讓你的論文被更多人看到 

 

如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢? 答案就是:你不認識的人。

 

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 

 

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得技術乾貨。我們的目的只有一個,讓知識真正流動起來。

 

赞(0)

分享創造快樂