浪潮信息:自動駕駛多攝像頭BEV場景表示論文入選CVPR 2022

浪潮圈 發佈 2022-07-07T01:36:12.719361+00:00

近日,在國際計算機與模式識別會議CVPR 2022期間,浪潮信息AI團隊提交的論文《Scene Representation in Bird's-Eye View from Surrounding Cameras with Transformers(基於Transformer的多

近日,在國際計算機與模式識別會議CVPR 2022期間,浪潮信息AI團隊提交的論文《Scene Representation in Bird's-Eye View from Surrounding Cameras with Transformers(基於Transformer的多攝像頭BEV場景表示)》成功入選。論文提出了一種基於Transformer的圖像-BEV特徵轉換框架,能夠生成有效的環境表示,可以提升自動駕駛車輛對周圍環境的感知能力。CVPR是計算機視覺領域三大世界頂級會議之一,今年線下註冊參會人數達到了5641人。在論文方面,CVPR 2022共收到了8161篇投稿,最終接收了2064篇論文,接收率約為25.3%,論文研究方向涵蓋目標檢測、圖像分割、醫學影像、模型壓縮、圖像處理、文本檢測等。

感知系統是自動駕駛車輛的「眼睛」,高效準確的感知模塊可以提升自動駕駛車輛的安全性。相比價格較為昂貴的雷射雷達設備,單目攝像頭價格低廉,且能夠捕捉豐富的環境信息。近年來,研究者們提出了鳥視圖(Bird’s Eye View map,簡稱BEV map)來簡潔高效地表示車輛周圍環境信息。直接將每張圖像的檢測結果通過攝像頭參數轉換到BEV下是一種直接、簡單的鳥瞰圖構建方法。然而,如何融合多攝像頭結果形成統一、穩定的環境表示是十分困難的。

浪潮信息AI團隊研究了如何利用環形攝像頭陣列來對BEV視角的環境進行特徵表示。他們設計了一種基於Transformer的編解碼模塊,將圖像特徵轉換為對應的BEV特徵。為驗證轉換後的BEV特徵的有效性,論文引入了三個分割任務:車輛分割、道路分割和車道線分割。整個模型框架如下圖所示,由環形攝像頭陣列採集的圖像,通過共享的圖像編碼器得到各種的圖像特徵。然後,CBTR(Camera-BEV Transformation)模塊將圖像特徵轉換為對應的BEV特徵。最後,利用生成的BEV特徵圖,多個檢測頭分別完成各自的分割任務。

與之前的方法不同,基於Transformer的編解碼結構可以將圖像特徵「翻譯」為BEV特徵。具體結構如下圖所示。其中,Encoder模塊旨在發掘不同攝像頭之間的特徵關聯,Decoder模塊旨在利用局部和全局信息將圖像特徵轉換為有效的BEV特徵。

研究團隊在浪潮AI伺服器NF5488A5上進行了框架的訓練和測試。在對比實驗中,研究團隊在nuScenes數據集上對比了當前最好的LS模型,採用相同的輸入圖像配置和圖像特徵提取網絡,測試結果證明論文的框架相比LS具有準確度和速度方面的優勢。此外,這篇論文還進行了各種消融實驗,證明相比於機器學習的位置編碼,設計的固定編碼方式取得了最優的檢測性能。

論文探究了圖像特徵轉換為BEV特徵後,進一步的BEV編碼模塊和分割任務模塊的影響,並證實:轉化後的BEV已有較強的編碼能力,只需要輕量的進一步編碼即可。同時,由於不同任務所關注的信息不同,更多參數的任務頭模塊往往能取得較好的檢測結果。

該論文已被CVPR 2022自動駕駛研討會(WAD)接收,CVPR2022 WAD旨在聚集學術界和工業界的研究者和工程師,討論自動駕駛感知的最新進展。

如想進一步了解這篇論文,請點擊連結https://openaccess.thecvf.com/content/CVPR2022W/WAD/papers/Zhao_Scene_Representation_in_Birds-Eye_View_From_Surrounding_Cameras_With_Transformers_CVPRW_2022_paper.pdf下載全文。

關鍵字: