歡迎光臨
每天分享高質量文章

CVPR 2019 | 曠視研究院提出TACNet,掃清時空動作檢測技術新高度

全球計算機視覺三大頂級會議之一 CVPR 2019 將於當地時間 6 月 16-20 日在美國洛杉磯舉辦。屆時,曠視研究院將帶領團隊遠赴盛會,助力計算機視覺技術的交流與落地。在此之前,曠視每週會介紹一篇被 CVPR 2019 接收的論文,本文是第 11 篇,曠視研究院(R4D組)出一個過渡感知的背景關係網路——TACNet,可以顯著提升時空動作檢測的效能。

論文名稱:TACNet: Transition-Aware Context Network for Spatio-Temporal Action Detection

論文連結:https://arxiv.org/abs/1905.13417

  • 導語

  • 簡介

  • 模型

    • 框架

    • 時序背景關係檢測器

    • 過渡感知分類器

  • 實驗

    • 與當前最佳的對比

  • 結論

  • 參考文獻

  • 往期解讀

 

導語

 

在時空動作檢測(spatio-temporal action detection)領域,當前最佳方法效果優秀,但是在一些方面,比如時序事件檢測,依然無法令人滿意。原因在於,一些模糊不清的、和真實動作很相似的動作被當作標的動作來處理,即使訓練良好的網路也概莫能外。

 

曠視研究員把這些模糊不清的樣本稱之為“過渡性狀態”,並提出一個過渡感知的背景關係網路——TACNet,來辨識這些過渡狀態。TACNet 包含兩個關鍵元件:時序背景關係檢測器和過渡感知分類器。前者透過構建一個迴圈檢測器,可以從連續的時間複雜度中提取長期的背景關係資訊;後者則透過同時分類動作和過渡性狀態以進一步區分過渡性狀態。

 

因此,TACNet 可以顯著提升時空動作檢測的效能。大量實驗也在 UCF101-24 和 J-HMDB 資料集上證明 TACNet 有效,它不僅在剪輯的 J-HMDB 資料集上取得有競爭力的結果,還在未剪輯的 UCF101-24 資料集上 frame-mAP 和 video-mAP 兩個指標方面大幅超越當前最佳方法。

簡介

動作檢測任務旨在同時分類影片中當前的動作並對其進行時空定位,近期由於其廣泛的應用場景,受到了越來越多研究者的重視,併成長為異常檢測、人機互動、城市管理等領域的關鍵技術。

 

當前,絕大多數動作檢測方法把時空檢測分為兩個階段,即空間檢測和時序檢測。這些方法首先借助深度檢測器從幀中做空間動作檢測;接著,透過連線幀層面的檢測以及運用一些標的函式,執行時序檢測以創造時空行為塊。

 

這些方法把影片幀看作是一個個獨立影象,從而無法利用影片的時間連續性,因此其檢測結果實際上無法令人滿意。

 

為此,一種稱之為 ACT 的方法則透過堆疊策略撿起短期的時間連續性,顯著提升時空動作檢測的效能。但是,ACT 依然無法提取對於動作檢測而言異常關鍵的長期的時序背景關係資訊。進而,由於動作檢測的兩個階段相互分離,ACT 無法徹底糾正由含糊的樣本所造成的時間誤差,如圖 1 紅框所示。

 圖1:過渡性狀態圖示

 

本文把含糊的樣本定義為“過渡性狀態”,它與動作持續時間很接近,但並不屬於動作的範疇。根據 ACT 檢測器的誤差分析,35%-40% 的誤差是時間誤差,它主要由過渡性狀態造成。因此,如果要進一步提升時空動作檢測的效能,提取長期的語境資訊並區分過渡性狀態就變得十分關鍵。

 

上述發現開啟了本文工作。具體而言,曠視研究員提出一個過渡感知背景關係網路——TACNet,它包含兩個核心元件,即時序語境檢測器和過渡感知分類器,前者的設計是基於標準的 SSD 框架,但是透過嵌入若干個多尺度的雙向 Conv-LSTM 單元可以編碼長期的語境資訊(據知,把 Conv-LSTM 和 SSD 相結合,以打造一個用於動作檢測的訓練檢測器,這是第一次);後者則透過同時分類動作和動作狀態,以區分過渡性狀態。

 

更為重要的是,曠視研究院進一步提出一個共模和差模網路加速 TACNet 的收斂,從而使 TACNet 不僅可以提取長期的時序背景關係資訊,還能區分過渡性狀態。在UCF101-24 和 J-HMDB 兩個資料集上,TACNet在幀和影片兩項指標上均取得了引人註目的提升。

 

TACNet 框架

 圖2:TACNet整體架構

 

如圖 2 所示,TACNet 包含兩個模組,雙流的時序背景關係檢測和過渡感知的分類和回歸。在時序語境檢測器方面,曠視研究員使用雙流 SSD 做動作檢測,正如 ACT 檢測器那樣。儘管如此,為提取長期的時序語境資訊,曠視研究員還嵌入若干個雙向 Conv-LSTM 單元到不同的特徵圖(不同尺寸)。

 

在過渡感知分類器方面,為區分過渡性狀態,曠視研究員設計兩個分類器以同時分類動作和動作狀態,併進一步提出一個共模和差模的網路方案,加速 TACNet 整體的收斂。

 

透過與回歸相結合,過渡感知分類器可從空間上檢測動作,同時從時間上預測時序邊界。需要註意的是,本文基於的則是標準的 SSD,但實際可在不同的檢測器基礎上進行設計。

 

時序背景關係檢測器

 

長期的時序背景關係資訊對時空動作檢測來說至關重要。然而,標準 SSD 是從不同大小的多個特徵圖中執行動作檢測的,它並不考慮時序語境資訊。為提取時序語境,曠視研究員在 SSD 中嵌入 Bi-ConvLSTM 單元,以設計一個檢測動作的迴圈檢測器。

 

作為 LSTM 的一種,ConvLSTM 可以編碼長期的資訊,並更適宜處理影片這樣的資料,因為 ConvLSTM 單元可以用摺積操作替代 LSTM 單元中全連線的相乘操作,從而能隨著時間保持幀的空間結構。因此,在本文框架中使用 ConvLSTM 單元提取長期時序資訊是可行的。

 

具體而言,曠視研究員在 SSD 每兩個相鄰層之間嵌入一個 Bi-ConvLSTM 單元,形成一個時序語境檢測器,如圖 2 所示。本文考慮了前向與反向兩個輸入序列,併為此採用一對時序對稱 ConvLSTM;接著,曠視研究員藉助這一 Bi-ConvLSTM 從每一個影片幀獲取兩類特徵,這些特徵被 1 × 1 摺積層連線和轉換,以消除多餘的通道。

 

透過這種方法,時序背景關係檢測器可以利用 SSD 的優勢,並提取長期時序語境資訊。

 

過渡感知分類器

 

過渡性狀態中的實體與標的動作具有相似性,因此檢測較容易發生混淆。大多數現有方法將其作為背景,並依賴後處理演演算法剪裁它們。然而,由於這些狀態與背景非常不同(比如場景和其他標的),將其看作背景會加大類內差異,降低檢測效能。在本文中,曠視研究院提出一個過渡感知的分類器,以同時進行動作分類和過渡狀態分類,具體細節如圖 3 所示:

 

 圖3:過渡感知分類器圖示

 

實驗

 

與當前最佳的對比 

 

在 frame-mAP 和 video-mAP 兩個指標上,本文把 TACNet 與當前最優方法在資料集 J-HMDB 和 UCF101-24 上做了對比,結果如表 3 所示。由表可知,在時序未經修剪的 UCF101-24 資料集上,TACNet 在兩個指標上均超越了先前同類方法。

 

 表3:在J-HMDB和UCF101上,TACNet與當前最佳方法的結果對比

 

結論

 

本文旨在推進動作檢測的效能。具體而言,曠視研究員發現,提取長期的時序背景關係分析並區分過渡性狀態十分關鍵。由此,曠視研究院提出 TACNet,它包含一個時序背景關係檢測器和一個過渡感知分類器。 

 

由大量的實驗結果可知,TACNet 異常奏效,併在有挑戰性的、未剪輯的資料集上掃清了當前最佳結果,這主要得益於 TACNet 使用的時序檢測和過渡感知方法。 

 

未來,曠視研究院將從行為者與其周遭的人物(或物體)的關係著手,持續探索,進一步提升時序檢測的能力。

 

傳送門

 

歡迎各位同學關註曠視研究院 Detection 組及知乎專欄:

 

http://zhuanlan.zhihu.com/c_1065911842173468672

 

簡歷可以投遞給 Detection 組負責人俞剛:

 

yugang@megvii.com

 

參考文獻

[1] V. Kalogeiton, P. Weinzaepfel, V. Ferrari, and C. Schmid. Action tubelet detector for spatio-temporal action localization. In ICCV, 2017. 

[2] Z. Li, K. Gavrilyuk, E. Gavves, M. Jain, and C. G. Snoek. Videolstm convolves, attends and flows for action recognition. Computer Vision and Image Understanding, 166:41– 50, 2018.

[3] X. Peng and C. Schmid. Multi-region two-stream r-cnn for action detection. In ECCV, pages 744–759, 2016.

[4] G. Singh, S. Saha, M. Sapienza, P. Torr, and F. Cuzzolin. Online real-time multiple spatiotemporal action localisation and prediction. In CVPR, pages 3637–3646, 2017. 

[5] G. Yu and J. Yuan. Fast action proposals for human action detection and search. In CVPR, pages 1302–1311, 2015. 

[6] K. Soomro, A. R. Zamir, and M. Shah. Ucf101: A dataset of 101 human actions classes from videos in the wild. arXiv preprint arXiv:1212.0402, 2012. 

[7] H. Jhuang, J. Gall, S. Zuffi, C. Schmid, and M. J. Black. Towards understanding action recognition. In ICCV, pages 3192–3199, 2013.

贊(0)

分享創造快樂