細粒度特徵提取和定位用於目標檢測(附論文下載)

計算機視覺研究院 發佈 2022-11-23T03:04:30.873235+00:00

計算機視覺研究院專欄作者:Edison_G近年來,深度卷積神經網絡在計算機視覺上取得了優異的性能。深度卷積神經網絡以精確地分類目標信息而聞名,並採用了簡單的卷積體系結構來降低圖層的複雜性。今天給大家分享一個簡單的檢測網絡。

計算機視覺研究院專欄

作者:Edison_G

近年來,深度卷積神經網絡在計算機視覺上取得了優異的性能。深度卷積神經網絡以精確地分類目標信息而聞名,並採用了簡單的卷積體系結構來降低圖層的複雜性。今天給大家分享一個簡單的檢測網絡。

公眾號ID|ComputerVisionGzq

學習群掃碼在主頁獲取加入方式

1 簡要

近年來,深度卷積神經網絡在計算機視覺上取得了優異的性能。深度卷積神經網絡以精確地分類目標信息而聞名,並採用了簡單的卷積體系結構來降低圖層的複雜性。基於深度卷積神經網絡概念設計的VGG網絡。VGGNet在對大規模圖像進行分類方面取得了巨大的性能。該網絡設計了一堆小卷積濾波器,使網絡結構非常簡單,但網絡有一些定位錯誤。

就有研究者提出了獨特的網絡架構,PPCNN(金字塔池化卷積神經網絡),以減少定位誤差,並提取高級特徵圖。該網絡由改進的VGGNet和U-shape特徵金字塔網絡組成。介紹了一種提取和收集目標的小特徵信息並從源圖像中檢測小物體的網絡。該方法在定位和檢測任務中取得了更高的精度。

2 背景

Facebook的特徵金字塔網絡Feature Pyramid Networks(FPN)。FPN主要解決的是物體檢測中的多尺度問題,通過簡單的網絡連接改變,在基本不增加原有模型計算量情況下,大幅度提升了小物體檢測的性能。我們將從論文背景,論文思想,結果與結論幾方面探討此論文。

在物體檢測裡面,有限計算量情況下,網絡的深度(對應到感受野)與stride通常是一對矛盾的東西,常用的網絡結構對應的stride一般會比較大(如32),而圖像中的小物體甚至會小於stride的大小,造成的結果就是小物體的檢測性能急劇下降。傳統解決這個問題的思路包括:

  • 多尺度訓練和測試,又稱圖像金字塔,如圖1(a)所示。目前幾乎所有在ImageNet和COCO檢測任務上取得好成績的方法都使用了圖像金字塔方法。然而這樣的方法由於很高的時間及計算量消耗,難以在實際中應用。

  • 特徵分層,即每層分別預測對應的scale解析度的檢測結果。如圖1(c)所示。SSD檢測框架採用了類似的思想。這樣的方法問題在於直接強行讓不同層學習同樣的語義信息。而對於卷積神經網絡而言,不同深度對應著不同層次的語義特徵,淺層網絡解析度高,學的更多是細節特徵,深層網絡解析度低,學的更多是語義特徵。

因而,目前多尺度的物體檢測主要面臨的挑戰為:

  • 如何學習具有強語義信息的多尺度特徵表示?

  • 如何設計通用的特徵表示來解決物體檢測中的多個子問題?如object proposal, box localization, instance segmentation.

  • 如何高效計算多尺度的特徵表示?

針對這些問題,提出了特徵金字塔網絡FPN,如上圖(d)所示,網絡直接在原來的單網絡上做修改,每個解析度的feature map引入後一解析度縮放兩倍的feature map做element-wise相加的操作。通過這樣的連接,每一層預測所用的feature map都融合了不同解析度、不同語義強度的特徵,融合的不同解析度的feature map分別做對應解析度大小的物體檢測。這樣保證了每一層都有合適的解析度以及強語義特徵。同時,由於此方法只是在原網絡基礎上加上了額外的跨層連接,在實際應用中幾乎不增加額外的時間和計算量。將FPN應用在Faster RCNN上的性能,在COCO上達到了state-of-the-art的單模型精度。

具體而言,FPN分別在RPN和Fast RCNN兩步中起到作用。其中RPN和Fast RCNN分別關注的是召回率和正檢率,在這裡對比的指標分別為Average Recall(AR)和Average Precision(AP)。分別對比了不同尺度物體檢測情況,小中大物體分別用s,m,l表示。

在RPN中,區別於原論文直接在最後的feature map上設置不同尺度和比例的anchor,本文的尺度信息對應於相應的feature map(分別設置面積為32^2, 64^2, 128^2, 256^2, 512^2),比例用類似於原來的方式設置{1:2, 1:1,, 2:1}三種。

與RPN一樣,FPN每層feature map加入3*3的卷積及兩個相鄰的1*1卷積分別做分類和回歸的預測。在RPN中,實驗對比了FPN不同層feature map卷積參數共享與否,發現共享仍然能達到很好性能,說明特徵金字塔使得不同層學到了相同層次的語義特徵。

3 新框架

金字塔池化網絡允許從不同卷積層中的多尺度特徵作為輸入,並提取相同尺度的輸出特徵圖,如上圖所示。研究者提出了用VGGNet在u-shape特徵金字塔網絡中構建的改進的網絡架構來提取高級特徵圖。該特徵金字塔網絡的特徵提取過程如下圖所示。

4 實驗

可視化結果

Experimental results of conventional VGG network and proposed PPCNN (VGG network with u-shape feature pyramid network) on MS COCO dataset. The top row contains results of the conventional VGG network, and the bottom row contains the detection results of the proposed network.

© THE END

轉載請聯繫本公眾號獲得授權

計算機視覺研究院學習群等你加入!

計算機視覺研究院主要涉及深度學習領域,主要致力於人臉檢測、人臉識別,多目標檢測、目標跟蹤、圖像分割等研究方向。研究院接下來會不斷分享最新的論文算法新框架,我們這次改革不同點就是,我們要著重」研究「。之後我們會針對相應領域分享實踐過程,讓大家真正體會擺脫理論的真實場景,培養愛動手編程愛動腦思考的習慣!

計算機視覺研究院

公眾號ID|ComputerVisionGzq

論文下載| 回復「PPCNN」獲取下載

🔗

關鍵字: