多尺度特徵融合：為檢測學習更好的語義信息（附論文下載）

關注並星標

從此不迷路

計算機視覺研究院

公眾號ID｜ComputerVisionGzq

論文地址：https://arxiv.org/pdf/2112.13082.pdf

計算機視覺研究院專欄

作者：Edison_G

多尺度特徵融合！

一、前言

本文提出了一種基於單模態語義分割的新型坑窪檢測方法。它首先使用卷積神經網絡從輸入圖像中提取視覺特徵，然後通道注意力模塊重新加權通道特徵以增強不同特徵圖的一致性。隨後，研究者採用了一個空洞空間金字塔池化模塊（由串聯的空洞卷積組成，具有漸進的擴張率）來整合空間上下文信息。

這有助於更好地區分坑窪和未損壞的道路區域。最後，使用研究者提出的多尺度特徵融合模塊融合相鄰層中的特徵圖，這進一步減少了不同特徵通道層之間的語義差距。在Pothole-600數據集上進行了大量實驗，以證明提出的方法的有效性。定量比較表明，新提出的方法在RGB圖像和轉換後的視差圖像上均達到了最先進的 (SoTA) 性能，優於三個SoTA單模態語義分割網絡。

二、前言

在最先進的（SoTA）語義分割CNN中，全卷積網絡(FCN)用卷積層替換了傳統分類網絡中使用的全連接層，以獲得更好的分割結果。上下文信息融合已被證明是一種有效的工具，可用於提高分割精度。ParseNet通過連接全局池化特徵來捕獲全局上下文。PSPNet引入了空間金字塔池化(SPP)模塊來收集不同尺度的上下文信息。Atrous SPP(ASPP)應用不同的空洞卷積來捕獲多尺度上下文信息，而不會引入額外的參數。

三、新框架

給定道路圖像，坑窪可以具有不同的形狀和尺度。我們可以通過一系列的卷積和池化操作獲得頂層的特徵圖。雖然特徵圖具有豐富的語義信息，但其解析度不足以提供準確的語義預測。不幸的是，直接結合低級特徵圖只能帶來非常有限的改進。為了克服這個缺點，研究者設計了一個有效的特徵融合模塊。

研究者提出的道路坑窪檢測網絡的架構如上圖所示。首先，採用預訓練的dilated ResNet-101作為主幹來提取視覺特徵，還在最後兩個ResNet-101塊中用空洞卷積替換下採樣操作，因此最終特徵圖的大小是輸入圖像的1/8。

該模塊有助於在不引入額外參數的情況下保留更多細節。此外，採用Deeplabv3中使用的ASPP模塊來收集頂層特徵圖中的上下文信息。然後，採用CAM重新加權不同通道中的特徵圖。它可以突出一些特徵，從而產生更好的語義預測。最後，將不同級別的特徵圖輸入到MSFFM中，以提高坑窪輪廓附近的分割性能。

Multi-scale feature fusion

頂部特徵圖具有豐富的語義信息，但其解析度較低，尤其是在坑窪邊界附近。另一方面，較低的特徵圖具有低級語義信息但解析度更高。為了解決這個問題，一些框架直接將不同層的特徵圖組合起來。然而，由於不同尺度的特徵圖之間的語義差距，他們取得的改進非常有限。

注意模塊已廣泛應用於許多工作中。受一些成功應用的空間注意力機制的啟發，研究者引入了MSFFM，它基於空間注意力來有效地融合不同尺度的特徵圖。語義差距是特徵融合的關鍵挑戰之一。

為了解決這個問題，MSFFM通過矩陣乘法計算不同特徵圖中像素之間的相關性，然後將相關性用作更高級別特徵圖的權重向量。

總之，研究者利用矩陣乘法來測量來自不同層的特徵圖中像素的相關性，將來自較低特徵圖的詳細信息整合到最終輸出中，從而提高了坑洞邊界的語義分割性能。在最後兩層之間應用這個模塊。

Channel-wise feature reweighing

眾所周知，高級特徵具有豐富的語義信息，每個通道圖都可以看作是一個特定類別的響應。每個響應都會在不同程度上影響最終的語義預測。因此，研究者利用CAM，如下圖所示，通過改變每個通道中的特徵權重來增強每一層中特徵圖的一致性。

CAM旨在根據每個特徵圖的整體像素重新加權每個通道。首先採用全局平均池化層來壓縮空間信息。隨後，使用修正線性單元(ReLU)和sigmoid函數生成權重向量，最終通過逐元素乘法運算將權重向量與輸入特徵圖組合以生成輸出特徵圖。整體信息被整合到權重向量中，使得特徵圖更可靠，坑窪檢測結果更接近GT實況。在最終的實驗中，在第4層和第5層使用了CAM。

四、實驗及可視化

*baseline network使用的是Deeplabv3

性能比較

坑窪檢測結果示例：(a) RGB圖像；(b)轉換後的視差圖像；(c)坑窪地面真相；(d)語義RGB圖像分割結果；(e)語義變換視差圖像分割結果。

在上圖中提供了提出的道路坑窪檢測方法的一些定性結果，其中可以觀察到CNN在轉換後的視差圖像上取得了準確的結果。從綜合實驗評估中獲得的結果證明了新提出的方法與其他SoTA技術相比的有效性和優越性。由於提出了CAM和MSFFM，新方法在RGB和轉換後的視差圖像上實現了更好的坑窪檢測性能。

轉載請聯繫本公眾號獲得授權

計算機視覺研究院學習群等你加入！

計算機視覺研究院主要涉及深度學習領域，主要致力於人臉檢測、人臉識別，多目標檢測、目標跟蹤、圖像分割等研究方向。研究院接下來會不斷分享最新的論文算法新框架，我們這次改革不同點就是，我們要著重」研究「。之後我們會針對相應領域分享實踐過程，讓大家真正體會擺脫理論的真實場景，培養愛動手編程愛動腦思考的習慣！

計算機視覺研究院

公眾號ID｜ComputerVisionGzq

🔗