歡迎光臨
每天分享高質量文章

CVPR 2019 | 曠視研究院提出ML-GCN:基於圖捲積網絡的多標簽圖像識別模型

全球計算機視覺三大頂會之一 CVPR 2019 (IEEE Conference on Computer Visionand Pattern Recognition)將於 6 月 16-20在美國洛杉磯如期而至。屆時,曠視首席科學家、研究院院長孫劍博士將帶領團隊遠赴盛會,助力計算機視覺技術的交流與落地。在此之前,曠視每周會推出一篇 CVPR’19 接收論文解讀文章。本文是第 5 篇,曠視南京研究院提出了一種基於圖捲積網絡的多標簽識別模型 ML-GCN 以及一種構建相關係數矩陣的二次加權方法。

論文名稱:Multi-Label Image Recognition with Graph Convolutional Networks

論文鏈接:https://arxiv.org/abs/1904.03582

  • 導語

  • 介紹

  • 方法

    • 動機

    • 圖捲積網絡簡介

    • 用於多標簽識別的GCN

    • 相關係數矩陣

  • 實驗

    • MS-COCO實驗結果

    • VOC 2007實驗結果

    • 分類器可視化

    • 在圖像檢索上的表現

  • 結論

  • 參考文獻

  • 往期解讀

 

導語

 

多標簽圖像識別(multi-label image recognition)任務的標的是預測一張圖像中出現的多個物體標簽,其在搜索引擎、推薦系統中應用廣泛,長期以來作為計算機視覺和機器學習領域一項基礎研究課題備受學界業界關註。

 

由於多個相關物體通常同時出現在一副圖像之中,因此提升識別性能的一個理想方法就是針對多標記識別的核心問題,即“如何有效建模標記間的協同關係”進行探索,對標簽之間的依賴性進行有效建模。 

 

為獲取和利用這種依賴性,曠視研究院提出一種基於圖捲積網絡(Graph Convolutional Network,GCN)的多標簽分類模型。該模型通過 data-driven 方式建立標記間有向圖(directed graph)並由 GCN 將類別標記映射(mapping)為對應類別分類器,以此建模類別關係,同時可提升表示學習能力。 

 

此外針對 GCN 中的關鍵元素 correlation matrix 進行了深入分析和重設計,使其更勝任多標記問題。在兩個多標簽圖像識別權威資料集上的實驗結果顯示,ML-GCN 明顯優於目前所有的最佳方法。另外,可視化結果顯示,模型習得的分類器還能保持有意義的語意拓撲結構。

介紹

多標簽圖像識別是計算機視覺領域的一項基本任務,其標的是識別圖像中存在的一系列物件。這項技術可應用於醫學診斷識別、人類屬性識別和零售識別等諸多領域。相比於多類別圖像分類,多標簽任務的難度更大,因為其輸出空間隨著類別數目呈指數增大。

 

 圖1:通過構建標的標簽的有向圖來建模標簽依賴性

 

由於現實世界中很多物體通常會同時出現,因此對標簽之間的相關性進行建模就成了多標簽圖像識別的關鍵,如圖 1 所示。 

 

解決多標簽識別問題的一個朴素方法是分離地看待各個標的,通過將多標簽問題轉換成多組二值分類問題,預測每個標的是否存在。由於深度捲積神經網絡在單標簽圖像分類上取得的巨大成功,二值分類的性能已得到極大提升。 

 

但是這些方法忽視了物體之間複雜的拓撲結構,因此在本質上有局限性。正是這個缺陷促使研究員尋找能夠獲取並從多個角度探索標簽之間相關性的方法。其中的部分方法基於概率圖模型或迴圈神經網絡(RNN),可顯式地對標簽依賴性進行建模。 

 

另一個研究方向是通過註意力機制來對標簽相關性進行隱式建模。該方法考慮的是圖像中被註意區域之間的關係(可視為區域性相關性)。不過即便如此,該方法還是忽略了圖像中標簽之間的全域性相關性(全域性相關性需要通過單張圖像之外的知識才能推斷出來)。 

 

為此,曠視研究院提出基於圖捲積網絡(GCN)的全新模型,即 ML-GCN(Multi-Label Graph Convolutional Network),用於建立多標簽之間的相關性,該方法有其它方法無法具備的擴展性和靈活性。 

 

除了將標的分類器視為一組待學習的獨立引數向量外,曠視研究院還提出一種可從標簽的先驗特征(如詞嵌入向量)學習相互依賴的標的分類器方法,它通過一個基於 GCN 的映射函式來實現。隨後,生成的分類器再被應用於由另一個子網絡生成的圖像特征,以實現端到端訓練。 

 

由於這些從詞嵌入向量到分類器的映射引數是在所有類別(如圖像標簽)之間共享,因此來自所有分類器的梯度都會影響這個基於 GCN 的分類器生成函式。這可以對標簽的相關性進行隱式建模。此外,由於分類器的學習涉及到對標簽相關性的建模,因此本文設計了一個有效的標簽相關係數矩陣,來引導信息在 GCN 各個節點之間的傳遞。

 

方法

 

本節將介紹這一新提出的多標簽圖像識別模型 ML-GCN。首先是這一方法的動機,接著是一些圖捲積網絡初步知識,最後是 ML-GCN 模型以及用於相關係數矩陣構建的二次加權方法。 

 

動機 

 

如何有效獲取標的標簽之間的相關性?如何利用這些標簽相關性提升分類表現?這是多標簽圖像識別的兩個重要問題。本文使用圖(graph)來對標簽之間的相互依賴關係進行建模。這種方法能夠靈活地獲取標簽空間中的拓撲結構。 

 

曠視研究員將圖中的每個節點(標簽)都表示為該標簽的詞嵌入向量,並提出使用 GCN 直接將詞嵌入向量映射到一組互相依賴的分類器上,這些分類器進一步又可直接應用於圖像特征以進行分類。基於 GCN 的模型有兩個設計動機: 

 

1. 由於從詞嵌入向量到分類器的映射引數在所有類別中是共享的,所以習得的分類器能夠在詞嵌入空間中(語意相關的概念在詞嵌入空間中彼此臨近)保留較弱的語意結構。與此同時,對於可以對標簽依賴性進行隱式建模的分類器函式,所有分類器的梯度都會對它產生影響。 

 

2. 基於標簽的共現樣式,曠視研究員設計了一個全新的標簽相關係數矩陣,可顯式地用 GCN 建模標簽相關性,讓節點的特征在更新時也能從相關聯的節點(標簽)吸收信息。 

 

圖捲積網絡簡介

 

圖捲積網絡可用於進行半監督分類任務,其核心思想是通過節點之間的信息傳播來更新節點的表示。 

 

不同於在一張圖像區域性歐氏結構之上進行操作的標準捲積方法,GCN 的標的是學習一個圖 G 的函式 f(., .)。該函式的輸入是特征描述和相關係數矩陣,從而把節點特征更新為每個 GCN 層都可以寫成一個非線性函式:

 

f (., .) 可以表示為:

 

如此一來,便可以通過堆疊多個 GCN 層來對節點之間交織的複雜關係進行建模。 

 

用於多標簽識別的GCN 

 

GCN 的設計初衷是半監督分類,其節點層面的輸出結果是每個節點的預測分數。不同的是,在 ML-GCN 中,每個 GCN 節點的最終輸出都被設計成與標簽相關的分類器。此外,不同於其它任務,這裡的多標簽圖像分類任務沒有提供預定義的圖結構(即相關係數矩陣)。這需要從頭構建相關係數矩陣。 

 

圖 2 展示了該方法的整體架構,它包含兩個主要模塊:圖像特征學習模塊和基於 GCN 的分類器學習模塊。

 

 圖2:用於多標簽圖像識別的ML-GCN模型整體框架

 

圖像特征學習:原則上可使用任意基於 CNN 的模型學習圖像特征。本文在實驗中使用 ResNet-101 作為實驗基礎模型;然後應用全域性最大池化獲取圖像層面的特征 x: 

 

 

GCN 分類器學習:通過一個基於 GCN 的映射函式從標簽特征學習相互依賴的標的分類器曠視研究員使用堆疊 GCN,其中每個 GCN 層 I 的輸入都取前一層的節點特征作為輸入,然後輸出新的節點特征第一層的輸入是詞嵌入向量,矩陣最後一層的輸出是分類器 

 

通過將所學到的分類器應用於圖像特征,得到預測分數:

 

 

假設一張圖像的真實標簽是,那麼整個網絡可使用傳統多標簽分類的損失函式來訓練,如下:

 

相關係數矩陣 

 

基於相關係數矩陣,GCN 可在節點之間進行信息傳遞,因此如何構建相關係數矩陣 A 就成了GCN 模型中一個非常重要的問題。曠視研究員在本文中以資料驅動的方式構建了一個相關係數矩陣,換句話說,相關性可以通過挖掘標簽在資料集中的共現樣式而來定義。 

 

本文以條件概率的形式(即)對標簽的相關依賴性進行了建模。如圖 3 所示, 不等於,因此相關係數矩陣不是對稱的。

 

 圖3:兩個標簽之間的條件概率示意

 

為構建相關係數矩陣,本文首先統計了訓練資料集中標簽對的出現次數,得到矩陣,然後使用這個標簽共現矩陣得到條件概率矩陣:

然而,上面這種簡單的相關性可能有兩個缺陷。首先,一個標簽和其它標簽的共現樣式可能表現為長尾分佈,其中某些罕見的共現可能是噪聲;其次,訓練和測試中共現的絕對數可能並不完全一致。因此,本文提出對相關係數矩陣進行二值化處理。具體而言,研究人員將閾值 T 用於過濾噪聲邊,其中 A 是二值相關係數矩陣:

 

過度平滑問題:根據 (2) 式可以知道,經過 GCN 後,一個節點的特征是其自身特征和相鄰節點特征的加權和。而二值化相關係數矩陣的一個直接問題是其可能導致過度平滑。為了緩解這一問題,本文提出以下二次加權方法:

 

通過這種做法,在更新節點特征時,節點本身的權重是固定的,相關節點的權重則由鄰近分佈確定。當 p→1 時,不考慮節點本身的特征;當 p→0 時,往往忽略相鄰信息。

 

實驗

 

多標簽圖像識別基準資料集 MS-COCO 和 VOC 2007 上的實驗結果表明,本文方法實現當前最優。 

 

MS-COCO實驗結果 

 

對於 ML-GCN,曠視研究員給出了基於二值相關係數矩陣與基於二次加權相關係數矩陣兩個版本的結果,後者的分類表現更好,可以有效緩解上述問題,從而在幾乎所有指標上領先其它方法,這證明瞭新提出的網絡與二次加權法的有效性。具體實驗結果見表 1。

 

 表1:在MS-COCO資料集上ML-GCN與之前最佳方法的比較

 

VOC 2007實驗結果 

 

為公平對比,曠視研究員給出了以 VGG 為基本模型的結果。由表 2 可知,使用權重更新方案的 ML-GCN 模型在 mAP 指標上得到 94% 的分數,高出先前最優方法 2%。此外,即使以 VGG 為基礎模型,仍然超出先前最佳水平 0.8%。 

 

 表2:在VOC 2007資料集上ML-GCN與之前最佳方法的AP與mAP比較

 

分類器可視化 

 

曠視研究員對採用 ML-GCN 模型習得的分類器與由 vanilla ResNet(即最後一個全連接層的引數)得到的基本分類器進行了可視化分析。結果如圖 8 所示。可以清楚看到,由新提出的方法學習到的分類器能夠維持語意的拓撲結構。 

 

 圖8:在MS-COCO上新模型學習到的互相依賴型分類器與ResNet的基本分類器的可視化

在圖像檢索上的表現 

 

進一步,曠視研究員考察了新模型在圖像特征上的學習能力,通過使用 k-NN 演算法執行基於內容的圖像檢索驗證由新模型習得的圖像特征的鑒別能力,結果表明(見圖 7),ML-GCN 不僅能通過有效獲取標簽依賴性學習更好的分類器,而且還能有助於多標簽的圖像特征學習。

 圖7:使用查詢圖像得到的排名前五的結果

 

結論

 

標簽相關性建模是多標簽圖像識別的一大關鍵問題。為建模和利用這種重要信息,曠視研究院提出基於 GCN 的模型來根據先驗的標簽特征(比如詞嵌入向量)學習互相依賴的標的分類器。 

 

為了對標簽相關性進行顯式建模,文中設計了一種全新的二次加權方法,可通過平衡節點與其相鄰節點來為 GCN 構建一個相關係數矩陣,以更新節點特征,從而有效緩解了妨礙 GCN 性能的兩大問題:過擬合與過度平滑。定量和定性實驗結果都表明新方法的優越性。

 

傳送門

 

歡迎各位同學加入曠視南京研究院,簡歷可以投遞給南京研究院負責人魏秀參博士。

 

郵箱:[email protected]

 

參考文獻

[1] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In CVPR, pages 770–778, 2016. 

[2] Thomas N. Kipf, and Max Welling. Semi-supervised classification with graph convolutional networks. In ICLR, pages 1–10, 2017. 

[3] Chung-Wei Lee, Wei Fang, Chih-Kuan Yeh, and YuChiang Frank Wang. Multi-label zero-shot learning with structured knowledge graphs. In CVPR, pages 1576–1585, 2018. 

[4] Xiu-Shen. Wei, Quan Cui, Lei Yang, Peng Wang, and Lingqiao Liu, “RPC: A large-scale retail product checkout dataset,” arXiv preprint arXiv:1901.07249, pages. 1–9, 2019. 

[5] Zhao-Min Chen, Xiu-Shen Wei, Xin Jin, Yanwen Guo. Multi-label Image Recognition with joint Class-aware Map Disentangling and Label Correlation Embedding. In ICME, pages 1-6, 2019.

已同步到看一看
赞(0)

分享創造快樂