歡迎光臨
每天分享高質量文章

最新Anchor-Free標的檢測模型—FoveaBox

作者丨孫明珊

學校丨哈爾濱工業大學(深圳)

研究方向丨標的檢測

 

研究動機

 

在兩階段的標的檢測器中,通常利用預先產生的錨點框去擬合待檢測的標的,其中包含對標的物的尺寸、長寬比、位置的擬合,然而錨點框的產生通常是離散變化的,因此錨點框的預設定對該類演算法的效果有很大影響。

 

FoveaBox 為瞭解除這種影響,類比人類視覺系統感知世界的原理,認為人類先判定某個範圍物體是什麼,然後再對其邊緣輪廓進行仔細判定,而不是去匹配任何事先在腦海裡設定的模板矩形框,從而開闢了無需錨點框的檢測方法:1)預測類別相關的語意圖來表徵標的存在的概率;2)產生類別無關的可能包含標的物體的矩形框。也正因為其不依靠於預設的錨點框,使得其對錨點框的分佈更具魯棒性。

 

研究方法

 

FoveaBox 是個端到端的網絡,由提取特征的基礎網絡和帶有雙任務的子網絡構成,雙任務包括了對基礎網絡輸出的每個空間位置進行分類以及對應區域矩形框坐標的預測。整體流程如下圖所示:

 

 

基於特征金字塔(FPN)的基網絡

 

FoveaBox 將特征金字塔每層特征上進行上述兩個任務,最後將結果進行合併。

 

 

尺度的設定

 

首先明確最終標的是預測標的的輪廓,然而直接預測物體的輪廓難度過大,因為其尺度變化範圍大,為瞭解決這個問題,FoveaBox 將連續尺度劃分成多個區間,並將它們和特征金字塔中的不同層對應。

 

因此,特征金字塔中每層只負責預測某個特定尺度範圍的矩形框,其中表示第 l 層特征的基礎大小,而給定的區間範圍由一個繫數 η 控制,衡量方式如下二式所示:

 

 

其中值得註意的是某個尺寸的物體可能會被映射到金字塔不同層次,這與之前 FPN 的概念有差異(某尺寸只被映射到金字塔特定某層)。

 

構建標的Fovea 

 

Fovea 其實就是依據 ground truth 在輸出的特征上制定的正樣本區域。給定一個 ground truth 的坐標 (X1,Y1,X2,Y2),首先將這個矩形框映射到其對應的金字塔層,其縮放公式如下所示:

 

 

在其映射得到的坐標基礎上添加縮放因子來制定正區域,也就是 Fovea(中心點不變,縮放尺寸),如下:

 

 

σ1 是縮放因子,處於正區域範圍內的單元會在訓練的時候被標上相應類別標簽。而另外一個縮放因子 σ2 會被用在制定負區域,同樣的計算方式(實驗中採用的是 σ1=0.3,σ2=0.4)。與此同時,需要註意此時的正樣本只占了一小部分,為了剋服正負樣本不均衡,在分類任務中採用了 Focal loss。 

 

矩形框的預測 

 

與 Faster R-CNN 不同的,矩形框偏移量的回歸併不是只針對中心點而言,而是 Fovea 中的每一個 cell 的坐標映射回原始圖像之後和對應的 ground truth 的偏移量,計算方式如下:

 

 

其中,z 為標準化因子使得輸出空間映射到以 1 為中心的新空間。表示 ground truth 坐標,(x,y) 表示一個 cell 單元的坐標,即為網絡需要擬合的偏移量。Fovea 依舊採用 Smooth L1 loss 作為矩形框回歸預測的損失函式。 

 

推理階段 

 

首先經過 0.05 的置信度閾值過濾掉一部分置信度過低的預測框,在每層選出置信度排名前 1000 的矩形框,接下來用 0.5 的非極大值抑制單獨對每個類別進行操作,最後選出圖片鐘得分前 100 的矩形框。同時為了與基於錨點的標的檢測方法進行對比,並沒有在推理階段採取軟非極大值抑制和投票機製作為後處理的手段。

 

實驗內容及分析

 

對比實驗的選取物件的是帶有稠密錨點框的 RetinaNet,實驗表明帶錨點框的 RetinaNet 增加 feature map 每個單元對應的 anchor 並不會對實驗的提升有幫助,並且證實了某個特定的位置只對應一個錨點的回歸預測相對稠密錨點的方式有提升。

 

這使得 FoveaBox 具有的優勢是:輸出空間縮小為原來的 1/A,其中 A 是每個位置的錨點個數;比起模棱兩可的優化標的已有一個框的方式更加直接;FoveaBox 更靈活,無需提前設置錨點尺寸。具體結果如下兩表所示:

 

 

為了進一步驗證 FoveaBox 對矩形框尺寸分佈更具魯棒性,將驗證集進行不同寬高比的拉伸,使得矩形框尺寸變化。實驗結果表明 FoveaBox 對寬高比變化更具有魯棒性。

 

背後的原因:基於錨點的方法只對預測為正樣本的建議框進行回歸預測,並且是只針對一定的寬高比,所以其學習到的擬合能力較弱,面對極端變化的情況無法處理。

 

而 FoveaBox 每個單元的矩形框只有一個且是任意比例,由此擬合能力更強,可以產生質量更高的區域建議,在寬高比極端的情況下依舊能處理。其實驗結果如下圖所示:

 

 

除此之外,FoveaBox 主要是針對矩形框尺寸更任意的標的有明顯的改善,與其他主流的一階段和二階段對比結果如下:

 

總結

 

FoveaBox 提出了一種沒有依靠錨點框的標的檢測方法,直接預測每個空間位置所屬類別,對潛在物體區域的單元進行矩形框的回歸預測,因此不受先驗錨點框尺寸的束縛,其擬合能力更強,對於長寬比變化較大較極端的物體更具優勢。為打破基於錨點框的檢測框架提供了新思路。

已同步到看一看
赞(0)

分享創造快樂