自動駕駛感知能力比試，浪潮信息算法團隊再創(chuàng)nuScences成績新高

浪潮信息

2023-04-24 16:39 4542

北京2023年4月24日 /美通社/ -- 近日，在全球權(quán)威的自動駕駛nuScenes競賽最新評測中，浪潮信息算法團隊所提交的"IEI-BEVFusion++"算法模型在關(guān)鍵性指標(biāo)nuScenes Detection Score（NDS）得到77.6%的高分，創(chuàng)造了3D目標(biāo)檢測全賽道迄今最高成績。繼去年以"DABNet4D"登頂純視覺3D目標(biāo)檢測榜單后，該算法團隊在面向融合感知自動駕駛領(lǐng)域再一次實現(xiàn)突破。

nuScenes數(shù)據(jù)集是目前自動駕駛領(lǐng)域中最流行的公開數(shù)據(jù)集之一，數(shù)據(jù)采集自波士頓和新加坡的實際自動駕駛場景，是第一個集成攝像頭、激光雷達和毫米波雷達等多種傳感器，實現(xiàn)360度全傳感器覆蓋的數(shù)據(jù)集。nuScenes數(shù)據(jù)集提供了二維、三維物體標(biāo)注、點云分割、高精地圖等豐富的標(biāo)注信息，包含1000個場景，擁有140萬幀圖像、39萬幀激光雷達點云數(shù)據(jù)、23個物體類別、140萬個三維標(biāo)注框，其數(shù)據(jù)標(biāo)注量比KITTI數(shù)據(jù)集高出7倍以上。

猶如人類的眼睛為大腦提供了70%以上的信息，在自動駕駛領(lǐng)域，作為感知系統(tǒng)的主流模式架構(gòu)，Lidar與Camera融合的3D多模態(tài)架構(gòu)則為實現(xiàn)高魯棒、高精度的3D目標(biāo)檢測提供了至關(guān)重要的信息輸入，為業(yè)內(nèi)提供更具通識性的解決方案。此次創(chuàng)nuScenes榜單成績新高的"IEI-BEVFusion++"算法模型正是應(yīng)用了3D多模態(tài)融合架構(gòu)的思路，將Lidar與Camera形成有效的交互融合。

Lidar與Camera的多模態(tài)交互融合，面臨巨大挑戰(zhàn)

3D目標(biāo)檢測作為自動駕駛至關(guān)重要的核心任務(wù)，面向強大的環(huán)境感知，自動駕駛車輛通過廣泛車載傳感器的信息輸入，實現(xiàn)精準(zhǔn)的目標(biāo)檢測。以Lidar為例，它可以有效精準(zhǔn)地捕捉空間信息，點云數(shù)據(jù)所具備的天然3D優(yōu)勢，最大程度地提升了檢測目標(biāo)的測距精度、速度及方向；而Camera的優(yōu)勢則在于，它具備豐富的紋理信息，強大的語義及圖像上下文理解能力使得它可以有效地識別行人、交通指示牌等具象化的路面信息。因此，Lidar與Camera融合的3D多模態(tài)架構(gòu)將深度信息與紋理信息形成有效的交互融合，為更精準(zhǔn)的3D目標(biāo)檢測提供了一種全新思路。

然而，將兩種截然不同的模態(tài)幾何和語義特征在一個表示空間內(nèi)相結(jié)合，這是一個巨大的挑戰(zhàn)。一方面，預(yù)估檢測目標(biāo)的深度信息是提升3D目標(biāo)檢測精度的關(guān)鍵，現(xiàn)有模態(tài)的融合通常關(guān)注于點云雷達及Camera虛擬點間的交互，但由于點云雷達遠比Camera數(shù)據(jù)稀疏得多，傳統(tǒng)的融合方式無法解決固有模態(tài)間的深度信息差距。另一方面，在跨模態(tài)的融合交互中，點云雷達涉及體素的精細劃分及大量的3D卷積計算，圖像則由于多攝像頭、高分辨率，復(fù)雜的特征提取網(wǎng)絡(luò)，兩者計算復(fù)雜且耗時長。因此，不同形態(tài)的數(shù)據(jù)整合也為多模態(tài)融合模型的訓(xùn)練速度和檢測精度帶來了新一層算力壓力。

NDS 77.6%, 多模態(tài)融合模型"IEI-BEVFusion++"刷新全賽道記錄

IEI-BEVFusion++多模態(tài)融合模型，通過更有效的多模態(tài)訓(xùn)練架構(gòu)、更精細的特征提取網(wǎng)絡(luò)、更強大的數(shù)據(jù)預(yù)處理能力，實現(xiàn)Lidar與Camera的高效特征提取與融合優(yōu)化。激光雷達點云特征為Camera數(shù)據(jù)提供檢測目標(biāo)的精確3D信息，Camera發(fā)揮其紋理輪廓及語義理解優(yōu)勢，進一步精細化點云區(qū)域特征，形成Liar與Camera的數(shù)據(jù)最大化互補，大幅優(yōu)化了模型的檢測精度。

基于Lidar與Camera的多模態(tài)融合模型架構(gòu)，實現(xiàn)了三大核心技術(shù)突破：

IEI-BEVFusion++ 多模態(tài)融合模型架構(gòu)圖

a) 首先，基于更有效的多模態(tài)訓(xùn)練架構(gòu)，使得mAP（全類平均正確率，mean Average Precision）平均提升2%+

Transformer的多模態(tài)數(shù)據(jù)融合架構(gòu)，通過引入基于Camera數(shù)據(jù)的BEV檢測頭，輔助融合模型訓(xùn)練，在不增加過多計算量的同時，進一步增強語義信息特征，使得mAP（全類平均正確率，mean Average Precision）平均提升2%+。

b) 其次，精細的特征提取網(wǎng)絡(luò)，大幅提升目標(biāo)的3D檢測能力

一方面，采用多尺度Lidar的特征融合技術(shù)，進一步增強其特征提取的感受野，提升其對于檢測目標(biāo)，尤其是大目標(biāo)的表征能力；另一方面，Lidar信息可直接輔助優(yōu)化Camera的深度預(yù)測，采取級聯(lián)深度輔助策略，大幅提升圖像的3D檢測能力。

c) 同時，強大的數(shù)據(jù)預(yù)處理能力，實現(xiàn)模型精度與訓(xùn)練速度雙突破

創(chuàng)新設(shè)計Lidar與Camera同步貼圖，替代了業(yè)內(nèi)傳統(tǒng)的cbgs（類平衡分組和采樣）技術(shù)。一方面增強了樣本的均衡性與多樣性，另一方面保證了不同模態(tài)間的數(shù)據(jù)協(xié)調(diào)、同步，在提升目標(biāo)定位檢測精度的同時，保障目標(biāo)速度、方位、縮放等相關(guān)指標(biāo)的提升，訓(xùn)練速度更是較業(yè)內(nèi)基準(zhǔn)提升了4.5倍。

基于BEV融合算法的創(chuàng)新，"IEI-BEVFusion++"算法模型成功登頂3D目標(biāo)檢測任務(wù)（nuScenes detection task）全賽道榜單，將關(guān)鍵性指標(biāo)NDS提升至77.6%。未來，浪潮信息算法團隊將踐行多角度切入，發(fā)揮算法、算力融合的全棧解決方案能力，推動自動駕駛領(lǐng)域的技術(shù)創(chuàng)新發(fā)展。

備注：文內(nèi)所涉術(shù)語解釋如下

1) BEV：Bird's Eye View，是指將特征信息轉(zhuǎn)化至鳥瞰視角

2) 多模態(tài)融合：也稱多源信息融合或多傳感器融合，是指綜合兩個或多個模態(tài)的信息進行預(yù)測的過程

3) 魯棒（Robust）: 是指系統(tǒng)在一定的參數(shù)攝動下，維持其它某些性能的特性

消息來源：浪潮信息