自動駕駛技術4-多傳感器的數據融合技術

icvs自動駕駛商業化 發佈 2022-07-05T23:19:56.593118+00:00

一 前言《中國製造2025重點領域技術路線圖》提出,到2025年駕駛輔助級、部分或高度自動駕駛級車輛的裝備率應分別達到 40%和 50%,其旨在依託信息物理系統(Cyber Physical Systems,CPS)和信息通訊技術(Information Communicatio

一 前言

《中國製造2025重點領域技術路線圖》提出,到2025年駕駛輔助級、部分或高度自動駕駛級車輛的裝備率應分別達到 40%和 50%,其旨在依託信息物理系統(Cyber Physical Systems,CPS)和信息通訊技術(Information Communication Technology,ICT)使車輛實現自動化、智能化、網際網路化。

感知階段是自動駕駛中的關鍵環節。對車輛周圍環境信息全面、準確地感知是行車安全性和智能性的保障,也是決策與控制環節的前提。目前,自動駕駛場景的轉變驅使著感知內容的深化,研究熱點已從結構化高速公路場景更換至目標密集、複雜多變的城市場景如下圖所示,

從二維識別、檢測升級至三維多方位分析如下圖所示:

相比二維感知僅獲取二維(像素)坐標及軌跡,三維感知可全面獲悉目標在空間中的距離、位姿、形狀、速度等物理參數,大幅提高了感知的實用性、豐富性。面向產品化的感知系統的評價指標愈發多元,不僅以準確度和響應時間來衡量,還加入融合對比、感知範圍、環境耐受性、冗餘性、容錯性等作為考核標準。

典型環境感知層架構可以分為三個部分:傳感器層(Sensor Layer)、融合層(Fusion Layer)以及算法處理層(Algorithm Processing Layer),具體如圖所示。

傳感器層-負責讀取、收集各個傳感器的測量結果,即車輛以光學相機、雷射雷達、毫米波雷達等採集周圍環境數據,以定位裝置(Global Positioning System,GPS)、慣量測量單元傳(Inertial Measurement Unit,IMU)、速度計等採集自身行駛狀態信息,將真實世界的視覺、物理、事件等信息轉變成數位訊號,便於之後處理。

融合層-負責多傳感器之間的坐標標定,並根據預先定義的多傳感器融合算法對傳感器層傳來的數據進行篩選/初步處理,最後將其進行數據/特徵融合。

算法處理層-將接收的數據抽象為公共的障礙物特徵表示,具體表徵為對行駛環境中的目標或者障礙物進行識別、分割和檢測,獲取其類別、尺寸、幾何形狀、行駛方向、位置等物理和語義信息輸出最終的障礙物結果(位置、速度、類別等)。

後文中將從基於單純圖像和多源傳感器融合兩種技術分別進行說明。


二 基於視覺信息融合技術

視覺傳感器,又稱車載攝像頭,是將物體通過鏡片產生光學圖像投射在CMOS光電傳感器上,經過模數轉換後變為數位訊號,再由特定處理器將信號處理成特定格式的圖像在顯示屏上顯示。自動駕駛汽車安裝的車載攝像頭主要為單目攝像頭、雙目攝像頭和三目攝像頭。

單目攝像頭是通過攝像頭拍攝的平面圖像來感知和判斷周邊環境,識別車輛、路標、行人等固定物體和移動物體,是目前汽車攝像頭的主流解決方案,其依靠複雜算法進行測距,準確度低,

其優點在於探測信息豐富,觀測距離遠,其缺點在於探測易受環境影響。

在單目攝像頭領域,單目攝像頭的技術核心在於視覺處理晶片,晶片技術壁壘高,主要掌握在Mobileye、索尼、三星等公司手中。Mobileye占據約80%的市場份額,處於壟斷地位。Mobileye已成為沃爾沃、大眾、奧迪、現代、寶馬、日產等大型汽車主機廠單目攝像頭的供應商。

Mobileye將視覺晶片命名為EyeQ1-5,EyeQ5於2017年推出,其計算性能是前身EyeQ4的8倍,每秒可處理2.5萬億次操作。國內車載攝像頭公司開始積極布局單目攝像頭領域,部分零部件已實現量產,但系統集成配套產品仍處於研發進程。

雙目攝像頭是通過模仿人眼的功能實現對物體距離和大小的感知,進而感知周邊環境,可通過視差和立體匹配計算精準測距。

業內很多新興的初創公司,為了避開與Mobileye的正面競爭,選擇從雙目切入。但雙目也存在兩個關鍵的問題。第一是成本問題,第二是安裝位的問題。

第一個問題是,雙目的方案,兩個鏡頭理論上要一模一樣,因為一旦存在差異,會使得測量的準確性大打折扣。業內也會稱之為立體攝像頭。但一個攝像頭是由6個光學的鏡片和一些傳感器組成,而玻璃鏡片的生產製造是打磨出來的,並不是壓制而成的。這就從根本上產生了鏡片生產存在差異性的問題。

第二個問題是,雙目攝像頭同時也存在擺放位置的問題。兩個鏡頭之間的距離是10-20cm之間,這個距離需要非常精準,因為這會直接關係到測距的準確性。

由於汽車使用的環境複雜多變,只是溫度要求,都是在-40—85度。而傳統器材必然有熱脹冷縮的問題,那麼這就會影響到兩個鏡頭之間的距離。

三目攝像頭是通過三個攝像頭覆蓋不同範圍的場景,解決了攝像頭無法切換焦距的問題,相比於單目攝像頭和雙目攝像頭,其擁有更好的視野廣度和精度,但三目攝像頭在判斷、測算障礙物距離的時候,由於攝像頭的精準度是有一定誤差範圍的,所以衍生了一個核心的邏輯問題,三個不同的攝像頭在相互交匯處,兩個相鄰攝像頭測算的障礙物距離可能是不同的,會普遍存在10米的誤差;且三目攝像頭由於計算量大,對晶片的數據處理能力要求高,目前成本相對較高。

下圖是特斯拉Autopilot上搭載的攝像頭情況:

特斯拉自2016年起自研晶片,2019年實現FSD晶片量產,算力達到144TOPS,約為英偉達Xavier的5倍,也是其第三代智能駕駛系統AutoPilot 3.0的核心賣點。目前除特斯拉國內外大多數自動駕駛汽車都配備了多種傳感器,以便通過處於不同位置的多個或者多種傳感器來採集周遭信息,彌補單一傳感手段不夠豐富、可靠的缺陷,實現預測性駕駛。

此處僅以雙目攝像頭成像原理說明,雙目攝像機結構光測量系統首先是通過投影儀把編碼的結構光圖案投射到被測物體表面,然後用攝像機對已經投上編碼結構光的被測物體進行圖像採集,隨後利用計算機對採集的圖像進行特徵點提取及相位匹配,最終獲得物體的三維信息。

雙目攝像機結構光測量的系統模型如圖所示:

雙目攝像機三維重建的工作是基於左右攝像機採集圖像的相位匹配,與投影儀的位置無關,因此沒有必要進行投影儀和攝像機之間的標定,只需要進行常規的雙目攝相機標定,從而使得測量系統具有更大的可操作性和靈活性,而且測量系統整體更加穩定,魯棒性更高。

雙目攝像頭三維重建流程大致為,首先進行雙目攝像頭系統標定,標定目的為了獲取左、右攝像機之間的空間位置關係,即根據物理世界中某個平面上已知點的坐標及該點攝像機成像面上的坐標,求出該平面到攝像機成像面上的映射關係,求出投影矩陣。

再進行立體匹配,即對於視覺測量系統採集的圖像,從一幅圖像上尋找與另一幅圖像相對應的點的過程,先找到兩幅圖像中的對應點,然後計算出點的坐標信息,最後進行三維重建,有了立體匹配結果,結合攝像機標定的內外參數,就可以恢復出三維場景信息,即三維點雲坐標信息。


三 什麼是多源傳感器融合?如何分類?

車輛的自動駕駛運行,需要匯總處理各個傳感器接收到的信息,如人類天生就具備將已有知識與身體各個器官探測的信息進行綜合的能力,自動駕駛的運行亦需要此種能力--多源數據融合就是對這種能力的模擬。

一個完備的自動駕駛系統往往配備有雷射雷達、相機、GPS系統等多個傳感器,每個傳感器產生的數據是十分巨大的。如果只單獨處理每個傳感器的信息,會丟失信息之間關聯性,降低了信息的利用率,對後期決策造成極大影響。

多源數據融合--多傳感器數據融合,其目的在於將各個信息源的信息充分利用,合併冗餘信息,組合互補信息,以得到對被測對象的一致性描述和解釋。

該過程是整合多個傳感器各自優勢的過程,通過利用不同傳感器間信息互補的特性,可以獲取比單個子集更精確的感知能力。


多傳感器融合具有以下優勢:

1.可以增加測量維數,提高信息能夠被信賴的程度,增加置信度,提高系統容錯性、可靠性以及安全性;

2.經過不同傳感器的組合,可以有效擴大傳感器檢測範圍,增強環境魯棒性;

3.降低了對單個傳感器的性能要求,當單個傳感器發生故障時,系統仍然可以保證正常的運行,提高了信息處理的速度;

4.降低了信息獲取的成本,提高了系統精度。


融合的方式可以分為按照時間同步和按照空間同步:

1.時間同步是把不同傳感器在同一時刻收集到的關於同一物體的信息融合起來-常規處理方法是,將不同傳感器在規定時間段採集到的信息篩選出來,並根據採用內插外推等方法將其按照精度高低進行排序,以實現同一時間下不同傳感器的統一;

2.空間同步是把不同傳感器採集的信息求解到同一坐標系下,這一同步主要是通過單個傳感器的標定以及多個傳感器聯合標定來完成的,即求解不同傳感器間的坐標轉換關係。在完成空間同步後可以將同一物體在不同傳感器下的信息對應起來。


若按照結構模式可以分為:

若按照更合適的信息融合所在層次可分為:

從系統設計的靈活性來考慮,採用特徵級融合的方式可根據不同數據來設計不同的特徵提取模塊,對比於數據級融合從某種程度上提升了系統的靈活性。因為數據級融合對於物理特性相近的圖像數據而言比較容易,但由於數據的異構性,對於像雷達數據、雷射雷達數據這種與圖像在數據形式上差別較大的多模態融合就比較難。

特徵級融合也需要將提取後的特徵設計成可融合的數據形式,而決策級融合僅需要對目標之間進行匹配。因此,決策級融合的方式在系統靈活性方面相對於其他融合方式更好。

而從系統的穩定性來考慮,當某個傳感器無法正常工作,例如紅外和可見光融合時場景突然變暗或者光線突然增強都會導致某種模態失效,決策級融合可以通過算法來規避識別結果無效的情況,而數據級融合和特徵級融合可能因為單一數據的退化導致整個系統失效。


四 基於多源傳感器數據融合

攝像頭捕獲的圖像包含了目標的顏色信息以及豐富的紋理信息,但是攝像頭相對於其他傳感器則容易受到光線的影響,若沒有足夠複雜智能且足夠驗證的算法,是無法很好適用,同時單個攝像頭難以感知周圍環境的空間結構信息;

雷射雷達具有全天候的感知能力,能夠很好地捕獲環境結構信息以及目標的輪廓信息,測量不受光線強弱影響但數據稀疏無序,而攝像頭的數據解析度高、細節特徵豐富,兩者具有極強的互補特性(但在實際應用過程中,超過100m的目標不論是雷射雷達還是攝像頭,都很難對其準確的識別)。

因此,多模態的傳感器數據融合可以增加目標識別系統的魯棒性,提高行車過程中系統的感知能力。

不同的感知設備由於感知的原理不同,實際上傳感器採集到的數據在幀率、視角FOV、探測距離、解析度等關鍵參數上均不同。

從時間同步上來說,不同傳感器的數據採樣率不同,這會導致生成的數據幀率在時間上不統一。數據融合時實際使用的數據通過 GPS 時間戳提供全局的基準,從而依據最近原則來判斷具體使用的數據幀,並且丟掉多餘的數據幀。

從空間同步上來說,即多源傳感器數據在空間上一一對應,需要對傳感器本身和傳感器之間進行標定,

其中以視覺為例,攝像頭的標定是建立世界坐標系中的點與像素的對應關係,使用三維世界中任意一點可以準確映射到二維圖像上,標定結果由相機內部參數(內部刻畫相機坐標系與圖像像素的關係,和鏡頭在成像過程中對圖像產生的畸變,在成像時畸形糾正保持圖像與外部環境一致)和外部參數呈現(表示世界坐標系三維坐標與二維圖像坐標系中的映射關係)。

由以上可知,當選擇shi雷射雷達和攝像頭作為感知傳感器時,雷射雷達具有視野廣、感知範圍大、具有夜視能力且可以直接輸出目標精確的深度信息的優勢,然而,三維雷射雷達點雲的分布是隨著掃描距離的增加而變得越來越稀疏,因此如果僅依賴三維雷射雷達輸出的點雲進行精確的目標分類會有很大的困難。相機輸出的高解析度圖包含豐富的顏色、紋理信息,特別適合精確的目標分類。

多源傳感器數據本質上是對同一環境的不同的特徵表示,因此從數據特徵上考慮,多源傳感器數據特徵是相關的,利用獨立的模塊割裂地學習多模態數據特徵僅僅是將多種特徵提取結果簡單融合在一起。然而,對於同一種場景下,不同傳感器的信息表徵能力是不同的,對於陰影和光照變化等環境,攝像頭傳感器可能更容易受到影響。同時,對於不同類別物體具有相同的形狀時,如上文所說依靠雷射雷達的數據可能會變得更加難以對目標進行準確的分類。


五 基於多傳感器數據融合方法實例


以前向視角駕駛環境感知為例,選取雷射雷達和攝像頭同時採集到的圖像和點雲數據,完成視覺與雷射雷達數據級的融合。

首先需要進行的是雷射雷達與攝像頭的聯合標定,指將雷射雷達點雲三維坐標系投影至相機二維坐標系下:

兩種傳感器的聯合標定過程就是求解與RGB(紅綠藍)相機相關的雷射雷達的旋轉矩陣R和平移矩陣t 。標定原理可用如下公式表述:

式中:

是像素坐標系下點坐標的齊次形式:

表示相機在xy方向的焦距:

表示相機的主點坐標,Rt表示聯合標定需求的旋轉矩陣和平移矩陣:


表示雷射雷達坐標系下的坐標值,M=(M11,M12,……,M34)為待求解的參數。

以KITTI數據集中sequence-3882序列為例,求解得,(KITTI數據集由德國卡爾斯魯厄理工學院和豐田工業大學芝加哥分校聯合贊助的用於自動駕駛領域研究的數據集)

其中,P0,P1,P2,P3,P4表示投影矩陣,用於從矯正後的0號相機坐標系投影到X號相的圖像平面,0,1,2,3代表相機的編號:0表示左邊灰度相機,1表示右邊灰度相機,2表示左邊彩色相機,3表示右邊彩色相機。

R0_rect表示0號相機旋轉矩陣,用於矯正0號相機,使得圖像平面共面,Tr_velo_to_cam表示Velodyne雷射雷達坐標系與0號相機間的變換矩陣(R|t)。

將Velodyne雷射雷達坐標系中的點x投影到2號相機的彩色圖像中,對應彩色圖像中的點y為:

將Velodyne雷射雷達坐標系中的點x投影到3號相機的彩色圖像中,對應彩色圖像中的點y為:

得到雷射雷達與相機的坐標轉換關係後,則可以將 RGB 圖像與雷射雷達數據中的點一一對應起來。

由相機拍攝到的RGB圖像通常可以用尺寸為H×W×3的三維張量來表示,其中H和W分別表示圖像的高度和寬度,這兩個維度編碼了圖像的空間位置信息以及所有點的像素信息。

然而由Velodyne64線3D雷射雷達採集到的點雲數據與二維圖像的編碼模式不同。採集到的一個雷達點通常表示為(x,y,z,intensity),分別代表該點的三維坐標信息以及反射強度信息,

相機拍攝到的二維圖像及其對應的原始點雲數據可視化效果如下圖所示:

相比於圖像數據的密集有序,雷射雷達所採集的點雲信息是散亂無序地分布在三維空間中的,這使得數據處理的難度大大增加。並且每一個掃描到的點雲的數據量都很大,特徵量大、處理複雜度高。如果直接在原始點雲數據的基礎上進行特徵提取以及目標識別分割,此時處理難度較大,且其實時性較低,不適合當前的自動駕駛環境。

除此之外,如果採用空間體素來編碼點雲信息會導致空缺信息過多,從而降低識別的準確度。在經過雷射雷達與相機聯合標定後,可以將雷射雷達投影至相機圖像中,得到雷射雷達與相機一一對應的點對關係。

由於採集點雲數據時使用的是64線雷射雷達,故二維投影后圖像高度為64,同時由於關注前視角中的環境感知問題,所以只選取了前視角中的512個單元格,故二維投影后圖像寬度為512,採用球面投影的方式將點雲數據投影至2D平面,並且根據點雲中每個點的坐標(x,y,z,intensity)將投影轉化成了三個通道,分別是點的深度圖、高度圖以及反射強度圖,圖像可視化結果如下圖所示:

同時,為了使無人車對於其所處駕駛環境具有一個全局的、廣闊的感知視野,本文還將原始點雲數據轉換成對應的鳥瞰圖形式,點雲鳥瞰圖可視化結果如圖,


活動推薦:

華車展ICVS將於2022.9.26-29 蘇州國際博覽中心舉辦中國智能汽車及自動駕駛博覽會,同期舉辦:中國智能汽車產業鏈展,展會規模超30,000㎡、參展品牌500+、共計30,000+專業觀眾到場,同期還有100場行業大咖演講。點擊ICVS自動駕駛商業化主頁—>進入菜單欄展會報名頁面,即可免費領取參觀門票,現階段報名還將獲取更多福利。

關鍵字: