上海 2025年4月30日 /美通社/ -- 黑芝麻智能通過本文介紹了黑芝麻智能視覺與4D毫米波雷達(dá)前融合算法,通過多模態(tài)特征對(duì)齊和時(shí)序建模,顯著提升逆光、遮擋等復(fù)雜場(chǎng)景下的目標(biāo)檢測(cè)精度,增強(qiáng)輔助駕駛安全性。
隨著輔助駕駛技術(shù)逐步融入日常生活,其安全性成為社會(huì)關(guān)注焦點(diǎn),尤其在復(fù)雜交通場(chǎng)景中目標(biāo)檢測(cè)的穩(wěn)定性和準(zhǔn)確性成為行業(yè)研究核心。如何提升目標(biāo)檢測(cè)的準(zhǔn)確,穩(wěn)定性,成為了行業(yè)內(nèi)必須探討和研究的議題。不同目標(biāo)識(shí)別傳感器的選擇以及其配套的識(shí)別方案,對(duì)目標(biāo)檢測(cè)精度有著巨大的影響。
目標(biāo)識(shí)別傳感器選擇
目前主流的傳感器感知方案包括純視覺、激光雷達(dá)與相機(jī)融合以及新興的毫米波雷達(dá)與相機(jī)融合,這三種方案各有優(yōu)劣。
基于以上特點(diǎn),毫米波雷達(dá)相機(jī)融合的方案成為了行業(yè)新趨勢(shì)。基于AI的融合算法,如前融合點(diǎn)云投影、后融合目標(biāo)級(jí)關(guān)聯(lián)等逐步成熟。
行業(yè)毫米波雷達(dá)相機(jī)融合方案
輔助駕駛行業(yè)內(nèi),4D毫米波雷達(dá)相機(jī)融合方案正在加速落地,各頭部車企都有相應(yīng)的布局和應(yīng)用:
黑芝麻智能融合團(tuán)隊(duì),采用了4D毫米波雷達(dá)和相機(jī)融合的方案,結(jié)合深度學(xué)習(xí)模型,提升了雨霧雪、黑夜、逆光等極端天氣和場(chǎng)景下目標(biāo)檢測(cè)的準(zhǔn)確性和穩(wěn)定性,改善了異形車、遮擋目標(biāo)等物體檢測(cè)的識(shí)別率,優(yōu)化了上下坡、匝道等三維空間存在變化的場(chǎng)景中目標(biāo)測(cè)距測(cè)速的精確性,顯著提升了輔助駕駛的安全性與可行性。
黑芝麻智能 4D毫米波雷達(dá)相機(jī)融合方案
黑芝麻智能 4D毫米波雷達(dá)相機(jī)融合方案,在BEV純視覺目標(biāo)檢測(cè)方案基礎(chǔ)上,添加4D毫米波雷達(dá)特征提取分支。4D毫米波雷達(dá)點(diǎn)云在經(jīng)過特征提取分支后,與圖像分支提取的圖像特征對(duì)齊并融合,組成時(shí)序信息,再經(jīng)過目標(biāo)head,輸出目標(biāo)相關(guān)的信息,其總體框架如下圖所示:
4D毫米波雷達(dá)特征提取模塊
模塊使用稀疏點(diǎn)云作為輸入,包含3D位置信息,RCS信息,速度信息等。經(jīng)過PointPillars骨干網(wǎng)絡(luò)提取點(diǎn)云的局部特征,再經(jīng)過基于Transformer的骨干網(wǎng)絡(luò)捕獲全局信息。PointPillars可以壓縮冗余信息,提取局部特征;RCS編碼增強(qiáng)目標(biāo)檢測(cè)的性能;Transformer強(qiáng)化關(guān)鍵特征,顯著提升稀疏點(diǎn)云的利用率。
PointPillars提取點(diǎn)云局部特征
采用Pillar編碼的方式結(jié)構(gòu)化編碼毫米波雷達(dá),將無序的雷達(dá)點(diǎn)云劃分為規(guī)則的"柱狀"(Pillar)單元,每個(gè)柱體內(nèi)的點(diǎn)云通過簡(jiǎn)化特征(坐標(biāo)、反射強(qiáng)度等)編碼為固定維度的特征向量。通過局部特征聚合抑制噪聲,保留有效目標(biāo)信息,有效解決毫米波雷達(dá)點(diǎn)云稀疏且包含噪聲的問題。針對(duì)多目標(biāo)檢測(cè),柱狀劃分可以有效地捕捉分散的雷達(dá)點(diǎn)云(如行人、車輛),提升對(duì)小型或遠(yuǎn)距離目標(biāo)的檢測(cè)能力。
RCS編碼提升檢測(cè)性能
采用基于RCS感知的BEV編碼器,利用雷達(dá)截面(RCS)能夠粗略衡量目標(biāo)尺寸的特性,有效解決因雷達(dá)生成的BEV特征是稀疏的而帶來的檢測(cè)性能損失問題,即利用RCS作為目標(biāo)尺寸,將一個(gè)雷達(dá)點(diǎn)的特征分散到BEV空間中的多個(gè)像素而不是一個(gè)像素。
Transformer捕獲全局信息
Transformer的子注意力機(jī)制可以跨柱體建立關(guān)聯(lián),捕捉場(chǎng)景中目標(biāo)之間的空間關(guān)系(如車輛與行人的相對(duì)位置),彌補(bǔ)傳統(tǒng)卷積網(wǎng)絡(luò)局部感受野的局限。并且采用動(dòng)態(tài)權(quán)重分配的策略,根據(jù)目標(biāo)重要性動(dòng)態(tài)調(diào)整特征權(quán)重,例如在擁堵場(chǎng)景中強(qiáng)化相鄰車輛的特征,抑制背景干擾。
多模態(tài)特征對(duì)齊時(shí)序模塊
多模態(tài)特征間的對(duì)齊問題,一直是影響目標(biāo)檢測(cè)優(yōu)劣的關(guān)鍵因素。
兼顧算力要求的多模態(tài)特征融合對(duì)齊
模塊通過接收?qǐng)D像特征提取骨干網(wǎng)絡(luò)的圖像特征以及毫米波雷達(dá)特征提取骨干網(wǎng)絡(luò)的雷達(dá)特征后,通過多模態(tài)特征對(duì)齊模塊,將二者融合為一體。通過特征拼接,操作計(jì)算量極低,能夠顯著降低硬件的算力要求。并且不對(duì)原始特征進(jìn)行壓縮或者變化,保留了特征的原始信息,避免信息丟失,適合需要高保真度的場(chǎng)景。如果需要較強(qiáng)的時(shí)序建模能力,且算力資源較為豐富,亦可采用多模態(tài)deformable attention的方式來實(shí)現(xiàn)對(duì)齊。
temporal模塊
按照時(shí)序添加temporal模塊,疊加多幀目標(biāo)的feature map,能夠有效的獲取目標(biāo)的時(shí)序信息,大大提升了目標(biāo)時(shí)序特征的準(zhǔn)確性和穩(wěn)定性,如位置、速度等。因采用多幀特征相結(jié)合的方式,能夠有效提升遮擋目標(biāo)的檢測(cè)準(zhǔn)確度。
測(cè)試指標(biāo)和結(jié)果展示
測(cè)試指標(biāo)說明
模型的測(cè)試指標(biāo)主要通過以下幾個(gè)方面進(jìn)行對(duì)比:
結(jié)果
經(jīng)過測(cè)試,相較于純視覺模型,4D毫米波雷達(dá)相機(jī)融合模型,在縱向100米(自車前方),橫向+-32米范圍內(nèi),mAP提升5%,mATE提升2.5%,mAVE提升明顯33.85%。
4D毫米波雷達(dá)具有全天候,成本適中,產(chǎn)業(yè)鏈較成熟等特點(diǎn),目前正在成為行業(yè)內(nèi)多模態(tài)融合目標(biāo)檢測(cè)任務(wù)中的重要傳感器。實(shí)驗(yàn)結(jié)果表明,4D毫米波雷達(dá)相機(jī)融合方案,相較于純視覺目標(biāo)檢測(cè)方案,有效提升了目標(biāo)檢測(cè)的精度,改善了純視覺模型測(cè)距測(cè)速的性能,特別是極端場(chǎng)景下模型的表現(xiàn),如光線局限場(chǎng)景、遮擋場(chǎng)景以及非同平面場(chǎng)景等,提升輔助駕駛的駕駛安全性。