歡迎光臨
每天分享高質量文章

CVPR 2019 | 曠視研究院提出新型損失函式:改善邊界框模糊問題

全球計算機視覺三大頂會之一 CVPR 2019 (IEEE Conference on Computer Visionand Pattern Recognition)將於 6 月 16-20 在美國洛杉磯如期而至。屆時,曠視首席科學家、研究院院長孫劍博士將帶領團隊遠赴盛會,助力計算機視覺技術的交流與落地。在此之前,曠視每週會推出一篇 CVPR’19 接收論文解讀文章。本文是第 6篇,提出了一種新的帶有不確定性的邊界框回歸損失,可用於學習更準確的標的定位。

論文名稱:Bounding Box Regression with Uncertainty for Accurate Object Detection

論文連結:https://arxiv.org/abs/1809.08545

  • 導語

  • 簡介

  • 方法

    • 邊界框引數化

    • 使用 KL 損失的邊界框回歸

    • 方差投票

  • 實驗

    • 消融實驗

    • 準確的標的檢測

    • 在 PASCAL VOC 2007 上的實驗

  • 結論

  • 參考文獻

  • 往期解讀

 

導語

 

大規模標的檢測資料集會盡可能清晰地定義基本 ground truth 邊界框。但是,可以觀察到在標記邊界框時仍會存在模糊不清的現象。

曠視研究院在本文中提出了一種全新的邊界框回歸損失,可用於同時學習邊界框變換和定位方差。據介紹,這種新損失能極大地提升多種架構的定位準確度,而且幾乎不會有額外的計算成本。所學習到的定位方差也能幫助在非極大值抑制(NMS)期間融合相鄰的邊界框,進一步提升定位的效果。

實驗結果表明這種新方法比之前最佳的邊界框最佳化方法更優。研究員已公開相關程式碼和模型:github.com/yihui-he/KL-Loss

簡介

ImageNet、MS-COCO 和 CrowdHuman 等大規模標的檢測資料集都會盡可能清晰地定義基本 ground truth 邊界框。

但是,可以觀察到一些案例中的基本 ground truth 邊界框原本就是模糊的,這會讓邊界框回歸函式的學習更加困難。圖 1 (a)(c) 是 MS-COCO 中兩個邊界框標記不準確的示例。當存在遮擋時,邊界框的範圍會更不清晰,比如來自 YouTube-BoundingBoxes 的圖 1(d)。

 圖1:邊界框標註模糊的示例。(a,c) 是標註不準確,(b) 是存在遮擋,(d) 則是因為遮擋導致標的邊界框本身並不清晰

 

標的檢測是一種多工學習問題,包含標的定位和標的分類。當前最佳的標的檢測器(比如 Faster RCNN、Cascade R-CNN 和 Mask R-CNN)都依靠邊界框回歸來定位標的。

但是,傳統的邊界框回歸損失(即平滑 L1 損失)沒有考慮到基本 ground truth 邊界框的模糊性。此外,人們通常假設當分類分數較高時,邊界框回歸是準確的,但事實並非總是如此,如圖 2 所示。

 

 圖2:VGG-16 Faster RCNN 在 MS-COCO 上的失敗案例。(a) 兩個邊界框都不準確;(b)有較高分類分數的邊界框的左邊界是不準確的。

 

針對這些問題,本文提出了一種全新的邊界框回歸損失——KL 損失,用於同時學習邊界框回歸和定位的不確定性。

具體來說,為了獲取邊界框預測的不確定性,研究員首先將邊界框預測和基本 ground truth 邊界框分別建模為高斯分佈(Gaussian distribution)和狄拉克 δ 函式(Dirac delta function)。而新提出的邊界框回歸損失則被定義為預測分佈和基本 ground truth 分佈之間的 KL 距離。

使用 KL 損失進行學習有三大優勢: 

1. 可以成功獲取資料集中的模糊性。讓邊界框回歸器在模糊邊界框上得到的損失更小。

2. 所學習到的方差可用於後處理階段。研究者提出了方差投票(variance voting)方法,可在非極大值抑制(NMS)期間使用由預測的方差加權的臨近位置來投票得到邊界框的位置。

3. 所學習到的機率分佈是可解釋的。因為其反映了邊界框預測的不確定性,所以可能有助於自動駕駛和機器人等下游應用。

 

方法

 

下麵將具體介紹這種新的損失函式和方差投票方法。

邊界框引數化 

在介紹新方法之前,先看看邊界框引數化。本文提出基於 Faster R-CNN 或 Mask R-CNN 等兩級式標的檢測器(如圖 3)分別回歸邊界框的邊界。研究者將邊界框表示成了一個四維向量,其中每一維都是框邊界的位置。本文采用的引數化方案是 (x1, y1, x2, y2) 坐標(對角線),而非 R-CNN 使用的那種 (x, y, w, h) 坐標。

 

 圖3:本文提出的用於估計定位置信度的網路架構。不同於兩級式檢測網路的標準 Fast R-CNN head,這個架構是估計邊界框位置以及標準差,這會在新提出的 KL 損失得到考慮。

 

該網路的標的是在估計位置的同時估計定位置信度。形式上講,該網路預測的是一個機率分佈,而不只是邊界框位置。儘管該分佈可能更複雜,可能是多變數高斯分佈或高斯混合分佈,但該論文為了簡單起見假設坐標是相互獨立的且使用了單變數高斯分佈。

另外,基本 ground truth 邊界框也被形式化了一個高斯分佈——狄拉克 δ 函式。

使用KL損失的邊界框回歸 

在這裡,標的定位的標的是在樣本上最小化預測分佈和基本 ground truth 分佈之間的 KL 距離。這個 KL 距離即為邊界框回歸的損失函式 L_reg。而分類損失則保持不變。

 

 

其中,x_g 為基本 ground truth 邊界框位置,x_e 為估計的邊界框位置,D_KL 是 KL 距離,σ 是標準差,P_D 是基本 ground truth 狄拉克 δ 函式,P_Θ 是預測的高斯分佈,Θ 是一組可學習的引數。

如圖 4 所示,當 x_e 不準確時,網路會預測得到更大的方差 σ²,使 L_reg 更低。

 

 圖4:藍色和灰色的高斯分佈是估計結果。橙色表示狄拉克 δ 函式,是基本 ground truth 邊界框的分佈。

 

方差投票 

在獲得預測位置的方差後,可根據所學習到的鄰近邊界框的方差直觀地投票選擇候選邊界框位置。

如演演算法 1 所示,其程式碼基於 NMS,但有三行不一樣。

 

 

本文是在標準 NMS 或 soft-NMS 的過程中投票所選框的位置。在選擇了有最大分數的檢測結果後,再根據它及其鄰近邊界框計算它本身的新位置。本文受 soft-NMS 的啟發為更近的以及有更低不確定性的邊界框分配了更高的權重。

在投票期間權重更低的鄰近邊界框包含兩類:(1)高方差的邊界框;(2)與所選邊界框的 IoU 較小的邊界框。投票不涉及分類分數,因為更低分數的框可能有更高的定位置信度。圖 5 給出了方差投票的圖示。使用方差投票可以避免圖 2 中提到的那兩類檢測問題。

 圖5:VGG-16 Faster R-CNN 在 MS-COCO 上的方差投票結果。每個邊界框中的綠色文字框對應於預測的標準差 σ。

 

實驗

 

曠視研究員基於 MS-COCO 和 PASCAL VOC 2007 資料集進行了實驗。實驗配置細節如下:

  • 使用了 4 個 GPU 

  • 訓練流程和批大小根據線性縮放規則進行調整 

  • VGG-CNN-M-1024 和 VGG-16 的實現基於 Caffe;ResNet-50 FPN 和 Mask R-CNN 的實現基於 Detectron

  • VGG-16 Faster R-CNN 遵照 py-faster-rcnn(github.com/rbgirshick/py-faster-rcnn),在 train2014 上訓練,在 val2014 上測試;其它標的檢測網路的訓練和測試分別在 train2017 和 val2017 上完成

  • σ_t 設為 0.02 

  • 除非另有說明,否則所有超引數都是預設設定(github.com/facebookresearch/Detectron

 

消融實驗 

 

研究者基於 VGG-16 Faster R-CNN 評估了每個模組對整體結果的貢獻,包括 KL 損失、soft-NMS 和方差投票。表 1 給出了詳細結果。可以看到,每新增一項改進,都能實現結果的進一步提升。

 

 表1:使用 VGG-16 Faster R-CNN 在 MS-COCO 資料集上檢驗每個模組的貢獻

 

準確的標的檢測 

 

表 4 總結了在 ResNet-50-FPN Mask R-CNN 上不同方法對準確標的檢測的效果。使用 KL 損失,網路可以在訓練階段學習調節模糊邊界框的梯度。

 

 表4:在 MS-COCO 上,不同方法對準確標的檢測的效果 

 

曠視研究員還在特徵金字塔網路(ResNet-50 FPN)上進行了評估,如表 6 所示。

 

 表6:FPN ResNet-50 在 MS-COCO 上的表現對比

 

在PASCAL VOC 2007上的實驗 

 

儘管本文是針對大規模標的檢測提出了這一方法,但也可將該方法用於更小型的資料集。研究者使用 Faster R-CNN 在 PASCAL VOC 2007 上進行了實驗,該資料集包含約 5000 張 voc_2007_trainval 影象和 5000 張 voc_2007_test 測試影象,涉及 20 個標的類別。所測試的骨幹網路為 VGG-CNN-M-1024 和 VGG-16。

結果見表 5,研究員也額外比較了 soft-NMS 和二次無約束二元最佳化(QUBO)。QUBO 的結果包含 greedy 求解器和經典的 tabu 求解器(二者的懲罰項都經過了人工調整,以得到更好的效能)。可以看到,QUBO 比標準 NMS 要差得多,儘管有研究認為其在行人檢測上效果更好。研究者猜測 QUBO 更擅長檢測行人的原因是此時邊界框遮擋的情況更多。

 表5:不同方法在 PASCAL VOC 2007 上的結果

 

結論

 

大規模標的檢測資料集中的不確定性可能有礙當前最佳標的檢測器的表現。分類置信度並不總是與定位置信度強烈相關。這篇論文提出了一種全新的帶有不確定性的邊界框回歸損失,可用於學習更準確的標的定位。使用 KL 損失進行訓練,網路可學習預測每個坐標的定位方差。所得到的方差可實現方差投票,從而最佳化所選擇的邊界框。實驗結果也表明瞭這些新方法的有效性。

 

傳送門

 

歡迎各位同學加入曠視研究院基礎模型(Model)組,簡歷可以投遞給 Model 組負責人張祥雨。

 

郵箱:zhangxiangyu@megvii.com

 

參考文獻

[42] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. In Advances in neural information processing systems, pages 91–99, 2015. 1, 2, 3, 7 

[17]Kaiming He, Georgia Gkioxari, Piotr Dollar, and Ross Gir- ´ shick. Mask r-cnn. In Computer Vision (ICCV), 2017 IEEE International Conference on, pages 2980–2988. IEEE, 2017. 1, 2, 3, 5 

[27]Borui Jiang, Ruixuan Luo, Jiayuan Mao, Tete Xiao, and Yuning Jiang. Acquisition of localization confidence for accurate object detection. In Proceedings of the European Conference on Computer Vision (ECCV), pages 784–799, 2018. 2, 7, 8 

[28]Alex Kendall and Yarin Gal. What uncertainties do we need in bayesian deep learning for computer vision? In Advances in neural information processing systems, pages 5574–5584, 2017. 2 

[29]Alex Kendall, Yarin Gal, and Roberto Cipolla. Multi-task learning using uncertainty to weigh losses for scene geometry and semantics. arXiv preprint arXiv:1705.07115, 3, 2017. 2

已同步到看一看
贊(0)

分享創造快樂