YOLOS:通過目標檢測重新思考Transformer(附原始碼)

計算機視覺研究院 發佈 2022-11-27T07:58:51.727555+00:00

為了回答這個問題,今天就展示了「You Only Look at One Sequence」 ,這是一系列基於樸素視覺變換器的目標檢測模型,具有儘可能少的修改和inductive biases。

計算機視覺研究院專欄

作者:Edison_G

最近「計算機視覺研究院」有一段時間沒有分享最新技術,但是最近我看了一些之前的檢測框架,發現有兩個很有意思,不錯的框架,接下來我給大家簡單分析下,希望給大家帶來創新的啟示!

公眾號ID|ComputerVisionGzq

學習群|掃碼在主頁獲取加入方式

論文地址:https://arxiv.org/pdf/2106.00666.pdf

原始碼地址:https://github.com/hustvl/YOLOS

1

前言

Transformer能否從純序列到序列的角度執行2D目標級識別,而對2D空間結構知之甚少?為了回答這個問題,今天就展示了「You Only Look at One Sequence」 (YOLOS),這是一系列基於樸素視覺變換器的目標檢測模型,具有儘可能少的修改和inductive biases。

YOLOS-S, 200 epochs pre-trained, COCO AP = 36.1

我們發現僅在中等大小的ImageNet-1k數據集上預訓練的YOLOS已經可以在COCO上實現具有競爭力的目標檢測性能,例如直接從BERT-Base中採用的YOLOS-Base可以實現42.0 box AP。研究者還通過目標檢測討論了當前預訓練方案和模型縮放策略對Transformer在視覺中的影響和局限性。

2

背景

Transformer為遷移而生。在自然語言處理 (NLP) 中,主要方法是首先在大型通用語料庫上預訓練Transformer以進行通用語言表示學習,然後針對特定目標任務對模型進行微調。最近,Vision Transformer(ViT)表明,直接從NLP繼承的典型Transformer編碼器架構可以使用現代視覺遷移學習配方在大規模圖像識別上表現出奇的好。將圖像補丁嵌入序列作為輸入,ViT可以從純序列到序列的角度成功地將預訓練的通用視覺表示從足夠的規模轉移到更具體的圖像分類任務,數據點更少。

ViT-FRCNN是第一個使用預訓練的ViT作為R-CNN目標檢測器的主幹。然而,這種設計無法擺脫對卷積神經網絡(CNN)和強2D歸納偏差的依賴,因為ViT-FRCNN將ViT的輸出序列重新解釋為2D空間特徵圖,並依賴於區域池化操作(即RoIPool或RoIAlign)以及基於區域的CNN架構來解碼ViT特徵以實現目標級感知。受現代CNN設計的啟發,最近的一些工作將金字塔特徵層次結構和局部性引入Vision Transformer設計,這在很大程度上提高了包括目標檢測在內的密集預測任務的性能。然而,這些架構是面向性能的。另一系列工作,DEtection TRansformer(DETR)系列,使用隨機初始化的Transformer對CNN特徵進行編碼和解碼,這並未揭示預訓練Transformer在目標檢測中的可遷移性。

ViT-FRCNN

為了解決上面涉及的問題,有研究者展示了You Only Look at One Sequence (YOLOS),這是一系列基於規範ViT架構的目標檢測模型,具有儘可能少的修改以及注入的歸納偏置。從ViT到YOLOS檢測器的變化很簡單:

  • YOLOS在ViT中刪除[CLS]標記,並將一百個可學習的[DET]標記附加到輸入序列以進行目標檢測;

  • YOLOS將ViT中的圖像分類損失替換為bipartite matching loss,以遵循Carion等人【End-to-end object detection with transformers】的一套預測方式進行目標檢測。這可以避免將ViT的輸出序列重新解釋為2D特徵圖,並防止在標籤分配期間手動注入啟發式和對象2D空間結構的先驗知識。

3

新框架

  • YOLOS刪除用於圖像分類的[CLS]標記,並將一百個隨機初始化的檢測標記([DET] 標記)附加到輸入補丁嵌入序列以進行目標檢測。

  • 在訓練過程中,YOLOS將ViT中的圖像分類損失替換為bipartite matching loss,這裡重點介紹YOLOS的設計方法論。

Detection Token

我們有目的地選擇隨機初始化的[DET]標記作為目標表示的代理,以避免2D結構的歸納偏差和在標籤分配期間注入的任務的先驗知識。在對COCO進行微調時,對於每次前向傳遞,在[DET]tokens生成的預測與真實對象之間建立最佳二分匹配。該過程與標籤分配的作用相同,但不知道輸入的2D結構,即YOLOS不需要將ViT的輸出序列重新解釋為用於標籤分配的2D特徵圖。理論上,YOLOS在不知道確切的空間結構和幾何形狀的情況下執行任何維度的物體檢測是可行的,只要每次通過輸入總是以相同的方式展平為一個序列。

YOLOS-S, 300 epochs pre-trained, COCO AP = 36.1

Fine-tuning at Higher Resolution

在COCO上進行微調時,除用於分類和邊界框回歸的MLP頭以及隨機初始化的100個[DET]標記外,所有參數均從ImageNet-1k預訓練權重初始化。分類和邊界框回歸頭均由MLP實現,具有兩個使用單獨參數的隱藏層。

在微調期間,圖像具有比預訓練高得多的解析度,為了保持補丁大小相同(16 × 16),這導致更大的有效序列長度。雖然ViT可以處理任意序列長度,但位置嵌入需要適應更長的輸入序列。我們以相同的方式對預訓練的位置嵌入進行2D插值。

4

實驗分析及可視化

YOLOS的不同版本的結果

與訓練的效果

不同尺度模型的預訓練和遷移學習性能

與一些小型CNN檢測器的比較

Self-attention Maps of YOLOS

檢驗與YOLOS-S最後一層頭部預測相關的[DET]tokens的自注意力。可視化pipeline遵循【 Emerging properties in self-supervised vision transformers】。可視化結果如下圖所示。

  • 對於給定的YOLOS模型,不同的自注意力頭關注不同的模式和不同的位置。一些可視化是可解釋的,而另一些則不是。

  • 我們研究了兩個YOLOS模型的注意力圖差異,即200 epochs ImageNet-1k預訓練YOLOS-S和300 epochs ImageNet-1k預訓練YOLOS-S。注意這兩個模型的AP是一樣的(AP=36.1)。從可視化中,我們得出結論,對於給定的預測對象,相應的[DET]標記以及注意力圖模式通常對於不同的模型是不同的。

© THE END

轉載請聯繫本公眾號獲得授權

計算機視覺研究院學習群等你加入!

計算機視覺研究院主要涉及深度學習領域,主要致力於人臉檢測、人臉識別,多目標檢測、目標跟蹤、圖像分割等研究方向。研究院接下來會不斷分享最新的論文算法新框架,我們這次改革不同點就是,我們要著重」研究「。之後我們會針對相應領域分享實踐過程,讓大家真正體會擺脫理論的真實場景,培養愛動手編程愛動腦思考的習慣!

計算機視覺研究院

公眾號ID|ComputerVisionGzq

🔗

關鍵字: