禾賽科技攜手Scale AI發(fā)布開源數(shù)據(jù)集，含37種語義標(biāo)簽、超百個場景

2020-07-09 20:04 11570

近日，禾賽科技與Scale AI聯(lián)合發(fā)布了自動駕駛開源數(shù)據(jù)集 -- PandaSet。

上海2020年7月9日 /美通社/ -- 自動駕駛的發(fā)展離不開數(shù)據(jù)。近日，禾賽科技與Scale AI聯(lián)合發(fā)布了自動駕駛開源數(shù)據(jù)集 -- PandaSet。PandaSet采用禾賽科技先進的激光雷達進行數(shù)據(jù)采集，并通過Scale AI強大的標(biāo)注平臺進行精準(zhǔn)的數(shù)據(jù)標(biāo)注，為從事自動駕駛研發(fā)的公司、機構(gòu)和個人，提供了內(nèi)容豐富、目標(biāo)物密集的高質(zhì)量免費數(shù)據(jù)。

盤點全球人工智能數(shù)據(jù)平臺，Scale AI是當(dāng)之無愧的領(lǐng)軍者。這家由華裔青年Alexandr Wang在19歲時參與創(chuàng)立的公司，自成立以來一直深受投資者的青睞，僅用3年時間就成為了市值超10億美元的獨角獸企業(yè)。依托強大的技術(shù)實力，Scale AI結(jié)合人工標(biāo)注、智能工具和標(biāo)注質(zhì)量保證體系，推出了面向傳感器數(shù)據(jù)、圖像、視頻和文本的一系列標(biāo)注產(chǎn)品，為人工智能應(yīng)用提供了一流的培訓(xùn)和驗證數(shù)據(jù)。而作為全球領(lǐng)先的激光雷達制造商，禾賽科技則憑借自主研發(fā)的微振鏡和波形加密技術(shù)，始終引領(lǐng)傳感器創(chuàng)新的發(fā)展方向，目前已布局400多項專利，客戶遍布全球21個國家和地區(qū)的70座城市。此次禾賽科技與Scale AI攜手打造PandaSet開源數(shù)據(jù)集，無疑為自動駕駛行業(yè)的發(fā)展注入了新的活力。

在自動駕駛的發(fā)展進程中，數(shù)據(jù)是處于核心地位的生產(chǎn)資料，代表著一家公司的核心競爭力，也決定著自動駕駛能否實現(xiàn)安全和穩(wěn)定。以往，自動駕駛“玩家”對自己的數(shù)據(jù)普遍呈現(xiàn)出敏感的姿態(tài)，而隨著自動駕駛的實現(xiàn)難度越來越浮出水面，大家也逐漸認(rèn)識到單打獨斗絕對不行，開放合作才是正途，于是開源數(shù)據(jù)集成為了很多自動駕駛公司的選擇。

截至目前，Waymo、Cruise、百度、Uber、Lyft、Aptiv等全球領(lǐng)先的自動駕駛公司都已陸續(xù)開源了自己的數(shù)據(jù)集，對促進自動駕駛整體研發(fā)進程起到了舉足輕重的作用。不過，開源數(shù)據(jù)集并不是自動駕駛公司的“專利”，傳感器企業(yè)同樣有能力在這一領(lǐng)域大顯身手，甚至可能比自動駕駛公司做得更好。禾賽科技與Scale AI聯(lián)合發(fā)布PandaSet就是很好的例子，它為自動駕駛行業(yè)鏈條上的很多企業(yè)開辟了嶄新的發(fā)展思路。

PandaSet開源數(shù)據(jù)集內(nèi)容概覽

PandaSet：疫情期間的一場及時雨

高質(zhì)量標(biāo)注數(shù)據(jù)是訓(xùn)練深度學(xué)習(xí)算法的“燃料”。目前，全球的自動駕駛公司所使用的深度學(xué)習(xí)算法，基本都需要使用標(biāo)注數(shù)據(jù)來進行訓(xùn)練——只有通過不斷學(xué)習(xí)標(biāo)注數(shù)據(jù)，深度學(xué)習(xí)算法模型才能夠幫助自動駕駛汽車更好地識別障礙物。而除了自動駕駛公司，其他自動駕駛算法開發(fā)者，例如學(xué)生、學(xué)術(shù)機構(gòu)等，同樣對高質(zhì)量標(biāo)注數(shù)據(jù)有著持續(xù)、強烈的需求。

然而，今年以來，受新冠肺炎疫情沖擊，一大批自動駕駛公司不得不暫停路測工作，直接導(dǎo)致可用路測數(shù)據(jù)的減少甚至斷供，對自動駕駛深度學(xué)習(xí)算法模型的訓(xùn)練造成了嚴(yán)重影響。在這樣的背景下，近日禾賽科技與Scale AI聯(lián)合發(fā)布了PandaSet開源數(shù)據(jù)集，為眾多自動駕駛算法開發(fā)者帶來了一場及時雨。

PandaSet數(shù)據(jù)集采用2款激光雷達和6個攝像頭進行數(shù)據(jù)采集，包含超過16000幀激光雷達點云和超過48000張照片，共100多個場景。除了激光雷達點云和照片外，數(shù)據(jù)集還包含GPS（全球定位系統(tǒng)）/IMU（慣性傳感器）、標(biāo)定參數(shù)、標(biāo)注、SDK（軟件開發(fā)工具包）等信息。

PandaSet點云、照片標(biāo)注對照

PandaSet數(shù)據(jù)采集的兩款激光雷達Pandar64和PandarGT，以及配置6個攝像頭

尤其值得關(guān)注的是，PandaSet數(shù)據(jù)集對100多個場景的每個場景都進行了目標(biāo)檢測，共檢測28類物體；大多數(shù)場景還進行了語義分割，共37種語義標(biāo)簽。目標(biāo)檢測采用傳統(tǒng)的長方體標(biāo)注，例如，自行車和汽車可以用長方體線框框出來。而對于激光雷達點云數(shù)據(jù)，并非每個點都隸屬于某一目標(biāo)物，因此數(shù)據(jù)集還通過點云分割工具精確標(biāo)注了每個點的語義標(biāo)簽。如此細(xì)膩的標(biāo)注，也為深度學(xué)習(xí)算法模型提供了絕佳的數(shù)據(jù)資料。

PandaSet數(shù)據(jù)集還通過點云分割工具精確標(biāo)注了每個點的語義標(biāo)簽

對于一個自動駕駛數(shù)據(jù)集，場景的多樣性和復(fù)雜性是衡量其優(yōu)劣程度的重要標(biāo)準(zhǔn)之一。PandaSet數(shù)據(jù)集中的所有數(shù)據(jù)均采集自舊金山的城區(qū)道路和硅谷的郊區(qū)道路，這些道路涵蓋了汽車、自行車、交通燈、行人、建筑物等各種各樣的交通信息，是對自動駕駛挑戰(zhàn)性最大的一類應(yīng)用場景。此外，PandaSet數(shù)據(jù)集的數(shù)據(jù)覆蓋了白天和黑夜，也讓其具備了很強的適用性。

夜晚場景的三維框標(biāo)注

別被不可靠的數(shù)據(jù)集帶溝里

對于自動駕駛研發(fā)者，如果想要訓(xùn)練出優(yōu)秀的深度學(xué)習(xí)算法模型，就必須在選擇數(shù)據(jù)集時格外擦亮雙眼。因為一些不可靠的數(shù)據(jù)集，非但不能很好地訓(xùn)練算法，反而會給算法帶來巨大危害，起到適得其反的作用。那么，什么樣的數(shù)據(jù)集是不可靠的呢？簡單來說，不準(zhǔn)確、不完整的數(shù)據(jù)集就是不可靠的數(shù)據(jù)集。

一些不準(zhǔn)確、不完整的數(shù)據(jù)集正在把自動駕駛汽車帶溝里，其中也包括知名數(shù)據(jù)集。一個被廣泛使用的、包含15000張圖片的開源數(shù)據(jù)集，在該數(shù)據(jù)集中發(fā)現(xiàn)了數(shù)千張缺少標(biāo)注的圖片，其中有數(shù)百張甚至沒有任何標(biāo)注，但這些圖片中確實有小汽車、卡車、自行車、街燈或行人。不僅如此，該數(shù)據(jù)集還存在虛假標(biāo)注、復(fù)制粘貼的情況，有些標(biāo)注框的體積明顯超標(biāo)。

“成千上萬的學(xué)生都在使用開源數(shù)據(jù)集支持自己的自動駕駛項目，但質(zhì)量堪憂的數(shù)據(jù)集極易誤導(dǎo)算法模型，從而導(dǎo)致自動駕駛汽車做出糟糕決策，這對于自動駕駛的研發(fā)是災(zāi)難性的?！?

事實上，數(shù)據(jù)集的準(zhǔn)確性和完整性與數(shù)據(jù)采集、數(shù)據(jù)標(biāo)注的流程密切相關(guān)。例如，在數(shù)據(jù)采集中，如果采集車搭載的傳感器性能很差，那么采集到的數(shù)據(jù)質(zhì)量一定也會很差，直接影響后續(xù)的標(biāo)注及最終的使用。而在數(shù)據(jù)標(biāo)注中，如果沒有一套完整的標(biāo)注方法，就很容易出現(xiàn)各種錯誤標(biāo)記，如：未標(biāo)出畫面中存在的物體，反而標(biāo)出不存在的物體，或者標(biāo)注框沒有貼合實際物體，甚至與實際物體發(fā)生大幅偏移。

對于如何打造一個高質(zhì)量數(shù)據(jù)集，PandaSet是一個優(yōu)秀案例。在數(shù)據(jù)采集中，PandaSet用于數(shù)據(jù)采集的兩款激光雷達均為業(yè)內(nèi)領(lǐng)先產(chǎn)品，這兩款激光雷達由禾賽科技自主研發(fā)，一款是具有圖像級分辨率的前向激光雷達PandarGT，另一款是64線機械旋轉(zhuǎn)式激光雷達Pandar64，保證采集到的點云足夠準(zhǔn)確、清晰、細(xì)膩 -- 世界上現(xiàn)有的開源數(shù)據(jù)集普遍采集較早，還鮮有使用Pandar64和PandarGT這樣的高性能激光雷達來采集數(shù)據(jù)。

此外，在數(shù)據(jù)標(biāo)注中，負(fù)責(zé)該部分的Scale AI作為標(biāo)注領(lǐng)域的翹楚，具有一套非常嚴(yán)格的標(biāo)注體系，包括怎么標(biāo)注、怎么檢查、怎么復(fù)核、怎么對不合格的標(biāo)注進行重新標(biāo)注、怎么管理和考評負(fù)責(zé)標(biāo)注的員工等。在整個標(biāo)注流程中，Scale AI以人工作業(yè)為主，結(jié)合計算機輔助，充分保證了數(shù)據(jù)標(biāo)注的完整性和準(zhǔn)確性。

開源數(shù)據(jù)集是大勢所趨

作為自動駕駛行業(yè)的領(lǐng)頭羊，Waymo也在去年發(fā)布了自己的開源數(shù)據(jù)集Waymo Open Dataset。該數(shù)據(jù)集包含20萬幀畫面、1200萬條3D標(biāo)注和120萬條2D注釋。Waymo希望自家的數(shù)據(jù)集能夠幫助研發(fā)者在2D和3D感知、場景理解、行為預(yù)測等方面取得進展，從而不斷提高自動駕駛汽車的性能，并促進計算機視覺和機器人等其他相關(guān)領(lǐng)域的應(yīng)用。

在Waymo發(fā)布開源數(shù)據(jù)集之前，Cruise、百度、Uber、Aptiv等處于領(lǐng)先梯隊的自動駕駛公司都已發(fā)布了自己的開源數(shù)據(jù)集。而在Waymo發(fā)布開源數(shù)據(jù)集之后，又有多家公司發(fā)布了自動駕駛開源數(shù)據(jù)集，例如Lyft、福特、奧迪等。

通觀自動駕駛開源數(shù)據(jù)集的發(fā)展歷程可見，在PandaSet發(fā)布之前，開源數(shù)據(jù)集基本都是自動駕駛公司的“專利”。而禾賽科技的“入局”，則以傳感器企業(yè)的特殊視角為這一領(lǐng)域添上了一抹亮色，同時也讓人們看到了傳感器企業(yè)在自動駕駛賽場上的更多可能性。

事實上，相比于那些自動駕駛“頭部玩家”，傳感器企業(yè)在開源數(shù)據(jù)集中的表現(xiàn)并不遜色。以PandaSet為例，該數(shù)據(jù)集就擁有其他很多數(shù)據(jù)集沒有的優(yōu)勢：采集數(shù)據(jù)的傳感器業(yè)內(nèi)頂尖，采集場景多樣化，采集信息密度高，數(shù)據(jù)標(biāo)注詳盡準(zhǔn)確并進行了精細(xì)的語義分割。還有非常重要的一點就是，PandaSet面向?qū)W術(shù)及商業(yè)應(yīng)用均完全開源免費——不像很多開源數(shù)據(jù)集其實是有商用限制的。不過，PandaSet也有其局限性，例如：總的場景量和數(shù)據(jù)量均不夠大，缺少不同天氣狀況下的數(shù)據(jù)，缺少短距激光雷達數(shù)據(jù)。

當(dāng)然，PandaSet對于禾賽科技和Scale AI都只是一個開端而已。未來，兩家公司將繼續(xù)深入合作，采用更高線數(shù)的激光雷達以及PandarQT等短距激光雷達，采集更多場景、更多數(shù)據(jù)，并進一步優(yōu)化標(biāo)注方法、標(biāo)注流程，讓數(shù)據(jù)集更豐富、全面，讓細(xì)節(jié)更完美。

禾賽科技表示，參與開源數(shù)據(jù)集是一個非常正確的決定，不僅因為這是同行沒做過的事，也因為可以從中取得很多收獲。

“一方面，PandaSet數(shù)據(jù)集為自動駕駛行業(yè)豐富了數(shù)據(jù)，讓研發(fā)者有更多、更全面、更高質(zhì)量的數(shù)據(jù)可以應(yīng)用和參考，特別是對那些缺少資金和渠道來獲取可靠數(shù)據(jù)集的學(xué)生們，幫助巨大。另一方面，數(shù)據(jù)集也讓更多人看到了禾賽激光雷達的表現(xiàn)，有助于吸引客戶購買我們的產(chǎn)品。此外，數(shù)據(jù)采集過程涉及采集車的搭建、不同傳感器的融合、多傳感器之間的標(biāo)定……這些都是自動駕駛公司做的事，對禾賽團隊是前所未有的考驗，也讓我們在實踐中大大提升了自己的能力?！?

就目前而言，開源數(shù)據(jù)集是大勢所趨，是利人利己的一件事。因為自動駕駛數(shù)據(jù)采集是一個周期長、地域廣的超大型項目，如果各家企業(yè)都能將自己的數(shù)據(jù)進行共享，并吸引更多企業(yè)和研發(fā)者應(yīng)用并補充數(shù)據(jù)集，就可以為整個行業(yè)大大縮減數(shù)據(jù)采集時間，從而促進自動駕駛早日實現(xiàn)商業(yè)化落地。而從企業(yè)自身出發(fā)，如果自家的數(shù)據(jù)或代碼被廣泛采用，甚至連競爭對手也大量采用，就相當(dāng)于在業(yè)內(nèi)樹立起了一個非正式標(biāo)準(zhǔn)，對企業(yè)地位提升和長遠(yuǎn)發(fā)展意義重大。

消息來源：上海禾賽光電科技有限公司