全球計算機視覺三大頂級會議之一 CVPR 2019 將於當地時間 6 月 16-20 日在美國洛杉磯舉辦。屆時，曠視研究院將帶領團隊遠赴盛會，助力計算機視覺技術的交流與落地。在此之前，曠視每週會介紹一篇被 CVPR 2019 接收的論文，本文是第 13 篇。圍繞行人再識別，並針對實際情況下行人經常被遮擋、僅能被部分成像這一困難，曠視研究院提出一種可見部件感知模型 VPM，其可透過自監督學習感知哪些部件可見或不可見，併在比較兩幅影象時，聚焦在二者共同可見的部件上，顯著提高部分成像下的行人再識別準確率。

論文名稱：Perceive Where to Focus: Learning Visibility-aware Part-level Features for Partial Person Re-identification

論文連結：https://arxiv.org/abs/1904.00537

導語
簡介
方法
- VPM 結構
  - 部件定位器
  - 部件特徵提取器
- 使用 VPM
- 訓練 VPM
  - 自監督
實驗
- 大規模資料集實驗
- 對比 SOTA
結論
參考文獻
往期解讀

導語

近年來，行人再識別研究取得迅速進展，2018 年下，在公開資料集 Market-1501 上，SOTA 方法的一選準確率已達到 95% 甚至更高水平；與此同時，CV 產業界也開始發力，推動其場景落地。但是在實際 re-ID 系統中，一些極具挑戰性的問題正等待剋服，部分成像下的行人再識別（partial re-ID）即是其中之一。

在 partial re-ID 場景下，影象可能只包含行人的部分可見資訊，例如腿部被遮擋、只有上半身被成像。此時，未經針對性設計的行人再識別方法通常會遭遇效能“滑鐵盧”，無法再準確識別行人。

為此，曠視研究院聯合清華大學，提出一種可見性感知區域性模型 VPM（Visibility-aware Part Model），透過自監督學習感知哪些部件可見/不可見（這種能力稱之為“可見部件感知能力”），併在比較兩幅影象時，聚焦在共同可見的部件上，顯著提高部分成像下的行人再識別準確率。

對於 partial re-ID，VPM 具有兩方面的優勢：1）VPM 引入了部件特徵，因此，與在傳統全身的行人再識別（holistic re-ID）問題中一樣，部件特徵受益於細粒度資訊，獲得更好的鑒別能力；2）由於具備可見部件感知能力，VPM 可估計出兩張影象之間的共享區域，併在評估其相似性時聚焦在共享區域，這種做法符合人腦識別行人的思維習慣。

實驗結果證明，VPM 可顯著改善特徵表達，在 re-ID、尤其是 partial re-ID 問題上取得了優異效能。

簡介

行人再識別需要在行人影象庫中，檢索出特定身份行人的所有影象。儘管近年來進展迅速，但在實際應用之前，仍然遇到了一系列嚴峻挑戰，其中之一是區域性成像問題。在實際的 re-ID 系統中，一個行人可能被其他物體部分遮擋，或是正在走出攝像機視場，因此相機經常無法對行人進行全身成像，產生所謂的區域性成像下的行人再識別問題——partial re-ID。

▲ 圖1：區域性再識別的兩項挑戰 (a)、(b) 以及曠視研究院提出的VPM方法 (c)

直覺上來講，區域性成像必然加大行人檢索難度；若仔細分析可以發現，相較於整體的行人再識別，區域性成像又額外引入了兩項特有挑戰：

1. 區域性成像加劇了查詢（query）影象與庫（gallery）影象之間的空間錯位。全域性 re-ID 場景下，空間錯位主要源自行人姿態變化和觀察視角的變換；然而在區域性成像條件下，即便兩個行人姿態相同，從同一個視角觀察，兩張影象間依然存在嚴重的空間錯位（如圖1（a））。

2. 如果生硬地比較全身影象和半身影象，二者之間不共享的區域（如圖 1（b）中藍色區域）不僅不再提供有益的線索，反而引入了額外的幹擾噪聲。這種額外噪聲在對比兩幅缺失程度不同的影象時也會發生。

針對上述挑戰，曠視研究院提出可見部件感知模型 VPM。給定一幅行人影象，VPM 能夠感知哪些區域缺失、哪些區域可見，透過聚焦於兩幅圖共享的區域，VPM 避免或是說緩解了上述與區域性重識別相關的兩個特殊困難（如圖1（c））。

值得強調的是，VPM 不依賴於頭部、軀幹等語意部件，而是依賴於預先定義的方形區域作為部件。這種做法被 PCB 推廣，其效能在全身行人在識別問題上已超過語意部件特徵學習。本文把這種思路進一步延續：部件特徵學習並不需要依賴人類習慣的語意部件，採用預先定義的方形部件高效且準確率可能更高。VPM 正是由於採用這種做法，不再需要代價高昂的語意部件學習，僅僅透過自動監督學習，即可獲得最關鍵的可見部件感知能力。

具體而言，曠視研究員首先在完整齣現了人體的影象上定義一系列區域。在訓練過程中，給定區域性行人影象，VPM 可以學習去定位所有在摺積特徵圖上的預定義區域。之後，VPM 會感知可見的區域，並學習區域層級的特徵。在測試過程中，給定兩張待比較的影象，VPM 首先會計算其共享區域之間的本地距離，然後得出兩張影象的總體距離。

方法

VPM 結構

▲ 圖2：VPM結構圖示

VPM 是一個全摺積網路，結構如圖 2 所示。本文在完整的行人影象上預先定義一個固定的部件分割，將影象分成 p 個部件（如圖 2 分成上、中、下三個部件，即 p=3）。對於每一幅行人影象，VPM 輸出固定數量的部件特徵，以及相應的部件可見性得分。

註意，即使當前輸入影象有一些部件不可見（例如圖 2 中輸入影象的下端部件實際不可見），VPM 仍然會為所有部件分別產生一個部件特徵（包括那些不可見部件），但不可見部件的可見性得分將很低（趨於零）。這樣，VPM 就能夠知道哪些部件特徵有效，哪些部件特徵無效、不予採信。

為了實現上述功能，VPM 在摺積層輸出 Tensor T 上附加一個部件定位器和一個部件特徵提取器，前者透過自監督學習，學習 Tensor T 上的部件位置（及可見性得分），接著，後者則為每個部件生成一個相應特徵。

自監督學習的構建非常直觀，如圖 2 所示。本文在完整的行人影象上預先定義一個固定的部件分割，將影象分成 p 個部件，然後裁剪，把裁減後的影象縮放到固定尺寸輸入給 VPM。由於裁減引數可自動獲取，從而自然知道哪些部件是可見的（如圖中的上、中兩個部件），哪些部件是不可見的（如圖中的下端部件）。具體訓練方法請參見“訓練VPM”。

部件定位器

部件定位器直接在 T 上預測各個部件 pixel-wise 的分佈（也可以理解為一個影象分割器，只不過分割的物件是預先定義好的部件），從而感知哪些區域可見。為此，部件定位器在 T 上使用一層 1 × 1 摺積及一個 Softmax 函式來構建一個 pixel-wise 的部件分類器，這個公式並不必要，但是為了後面取用時清晰明確，將其如下列出：

這個部件分類器實際上將產生 p 個分佈機率圖，每個分佈機率圖對應一個預先定義好的部件。這個分佈機率圖以 soft mask 的形式，直接指示出各個部件的位置。如果一個部件實際上不可見，那麼對應於它的分佈機率圖應該處處為零，即各個畫素屬於這個部件的機率很小。

自然地，把各個機率圖加起來，即可得到相應的區域可見性得分 C。這個做法非常直觀：如果一個部件的分佈機率圖處處很小，那麼這個部件可見性則很低（即可能不可見）。

部件特徵提取器

得到部件的機率分佈圖後，就可以簡單地利用帶權池化提取部件特徵。公式同樣很簡單：

再次強調，透過上述公式，VPM 會給每個預先定義好的部件產生一個特徵，即使某個部件實際不可見，但這沒關係，因為實際上已知道這個部件不可見，因此可不採信這個部件特徵。具體如下節介紹。

使用 VPM

給定兩幅待比較的影象、，VPM 將提取其部件特徵，並分別預測所有部件的可見性分數，即、。為了度量兩幅影象的相似性，首先計算各個部件之間的歐氏距離。在部件距離的基礎上，結合部件可見性得分，VPM 能夠推導兩幅影象間的總體距離：

上式的效果是：採信可見區域之間的距離，忽視不可見區域之間的距離。換而言之，可見部件的距離將主導總體距離；相反，如果一個部件在任何影象中沒出現，那麼其部件特徵則被認為不可靠，無法對產生明顯影響。

這樣的呼叫過程非常高效：與 PCB 這種實用方法相比，VPM 僅僅增加了一層摺積運算用於預測部件可見性，計算距離則幾乎不增加時間（僅僅多了公式 4 所示的加權平均）。這使得 VPM 成為了為數不多的、能夠在 Market-1501 資料集上開展 partial re-ID 實驗的方法（也具有在大規模實際資料集上應用的潛力）。

訓練 VPM

VPM 的訓練包含 1）部件定位器的訓練和 2）部件特徵提取器的訓練。兩者在 Tensor T 之前共享摺積層，並以多工的方式被端到端訓練。部件定位器的訓練依靠自監督學習，而訓練部件特徵提取器也需要自監督訊號進行輔助。由實驗可知，自監督學習對 VPM 的效能至關重要。

自監督

自監督對於 VPM 十分關鍵，它監督 VPM 學習部件定位器，並要求 VPM 在學習部件特徵時，放棄對不可靠的部件特徵的監督，僅僅對可見區域施加監督。

部件定位器的訓練類似 Segmentation 訓練，這裡僅強調一下：Label 資訊由自監督產生。部件特徵的學習雖然也採用了常用的分類+度量學習聯合訓練，但需要做一些重要調整，如圖 3 所示。

▲ 圖3：VPM透過輔助性自監督學習區域特徵

由於 VPM 會為所有部件分別生成一個部件特徵，這導致在學習特徵時出現一個非常重要的問題：只有可見部件的特徵被允許貢獻訓練損失。藉助自監督訊號，曠視研究員動態地為特徵學習選擇可見區域。實驗結果表明，如果不加區分地對所有部件特徵施加監督，re-ID 準確率將劇烈降低。

總結一下，自監督對訓練 VPM 的貢獻體現在 3 個方面：

1. 自監督生成 pixel-wise 的部件標簽用以訓練部件定位器（類似於 Segmentation）；

2. 在利用分類損失函式（Softmax Loss）學習部件特徵時，自監督使 VPM 僅僅關註可見部件；

3. 利用度量學習（Triplet）學習部件特徵時，自監督使 VPM 專註於影象的共有區域。

實驗

大規模資料集實驗

本文首先利用兩個大型全身 re-ID 資料集（Market-1501 和 DukeMTMC-reID）合成相應的部分成像 re-ID 資料集上的實驗評估 VPM 的有效性。

本文用了兩種基線作為對比：首先是一個學習全域性特徵的基線，它是利用分類損失函式和三元組損失函式聯合訓練的；第二個基線則是非常流行的全身部件特徵模型 PCB。實驗結果如表 1 所示，可以看到 VPM 相對這兩種基線都有明顯提高。

▲ 表1：VPM、baseline與PCB之間的對比

對比 SOTA

本文在兩個公開資料集 Partial-REID 和 Partial-iLIDS 把 VPM 與當前最佳方法做了對比。本文訓練了 3 個版本的 VPM：1）VPM(bottom)，訓練時總是丟棄隨機比例的上半身，而下部區域可見；2）VPM(top)，訓練時總是丟棄隨機比例的下半身，而影象的上部區域總是可見；3）VPM(bilateral)，訓練時，影象的上部和下部區域都有可能被隨機比例丟棄。對比結果如表 2 所示。

▲ 表2：VPM在Partial-REID和Partial-iLIDS上的評估結果

可以看到，訓練時的 crop 策略對效能是有影響的，VPM（bottom）結果比較差。這是因為首先大部分資料集以及在實際情況中，大部分影象是下半身缺失，而上半身可見，VPM（bottom）在訓練時的策略相反，背離了現實；此外，一般來講，上半身能夠提供的可鑒別線索本身就更為豐富。

文中還進行了一些其它有意思的實驗，例如透過 Ablation Study 分析各個環節中自監督對 VPM 效能的影響，VPM 定位各個部件的視覺化實驗。

結論

本文提出一個基於可見部件感知的行人特徵學習方法——VPM，它可解決區域性成像下的行人再識別問題。延續 PCB 的思路，VPM 沒有採用語意部件這種直觀做法，而是採用了均勻分割產生若干預定義的部件。透過自監督學習，VPM 能夠感知哪些部件可見、哪些部件缺失，並決定應該如何具體對比兩幅影象。實驗結果表明，VPM 同時超越了全域性特徵學習基線和部件特徵學習基線，併在公開的 partial re-ID 資料集上取得了國際領先水平。

參考文獻

L. He, J. Liang, H. Li, and Z. Sun. Deep spatial feature reconstruction for partial person re-identification: Alignment-free approach. CoRR, abs/1801.00881, 2018.

Y. Sun, L. Zheng, Y. Yang, Q. Tian, and S. Wang. Beyond part models: Person retrieval with refined part pooling. In ECCV, 2018.

L. Zhao, X. Li, J. Wang, and Y. Zhuang. Deeply-learned part-aligned representations for person re-identification. In ICCV, 2017.

L. Zheng, L. Shen, L. Tian, S. Wang, J. Wang, and Q. Tian. Scalable person re-identification: A benchmark. In ICCV, 2015.

L. Zheng, Y. Yang, and A. G. Hauptmann. Person re-identification: Past, present and future. arXiv preprint arXiv:1610.02984, 2016.

W. Zheng, S. Gong, and T. Xiang. Person re-identification by probabilistic relative distance comparison. In The 24th IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2011, Colorado Springs, CO, USA, 20-25 June 2011, 2011.

W. Zheng, X. Li, T. Xiang, S. Liao, J. Lai, and S. Gong. Partial person re-identification. In 2015 IEEE International Conference on Computer Vision, ICCV 2015, Santiago, Chile, December 7-13, 2015, 2015.

Z. Zheng, L. Zheng, and Y. Yang. Unlabeled samples generated by gan improve the person re-identification baseline in vitro. In ICCV, 2017.

傳送門

歡迎各位同學關註曠視研究院影片分析組（以及知乎專欄「曠視Video組」：https://zhuanlan.zhihu.com/r-video），簡歷可以投遞給負責人張弛（zhangchi@megvii.com）。

CVPR 2019 | 曠視研究院提出Re-ID新方法VPM，最佳化區域性成像下行人再識別

導語

簡介

方法

實驗

結論

參考文獻

傳送門

朋友會在“發現-看一看”看到你“在看”的內容

朋友將在看一看看到

釋出到看一看

相關推薦

熱門標籤

熱門文章

分享創造快樂