上海2022年6月24日 /美通社/ -- 近期,有著25+年經(jīng)驗的數(shù)據(jù)服務(wù)商澳鵬Appen,在不斷助力其自動駕駛客戶構(gòu)建數(shù)據(jù)資產(chǎn)時發(fā)現(xiàn):如今,企業(yè)的數(shù)據(jù)科學和開發(fā)所需機器學習 (ML) 模型的能力已經(jīng)成熟。然而,他們中的許多人開始意識到真正的挑戰(zhàn)在于整個 AI 生命周期中的數(shù)據(jù)。
過去幾年,盡管自動駕駛的技術(shù)迭代速度不斷加快,但商業(yè)化一直是橫亙在所有自動駕駛從業(yè)者面前的一座大山。而在商業(yè)化落地的階段中,自動駕駛面臨的挑戰(zhàn)往往不是自動駕駛技術(shù)本身,而是客戶要求自動駕駛公司能夠快速適配各種車型的同時,還要快速適配多種應(yīng)用場景。由此,自動駕駛公司則需要更多數(shù)據(jù)燃料來不斷地進行產(chǎn)品迭代。相應(yīng)地,行業(yè)對于數(shù)據(jù)標注與處理的需求量也在水漲船高。
另一方面,隨著大算力智駕平臺在未來幾年的規(guī)?;涞匾约拜o助駕駛普及的加快,配套的車載傳感器市場也進入了一個高增長周期。尤其是4D毫米波雷達以及激光雷達的搭載也正處于最關(guān)鍵的導(dǎo)入期,這帶來了一個全新的市場:多傳感器感知的數(shù)據(jù)融合。此外,艙內(nèi)人機交互的體驗升級,也同樣需要數(shù)據(jù)迭代支持。這也再次表明,無論是在自動駕駛還是輔助駕駛領(lǐng)域,數(shù)據(jù)標注的需求量都將迎來增長的高峰期。
數(shù)據(jù)生產(chǎn)瓶頸
眾所周知,自動駕駛想要真正落地,就需要大量高質(zhì)量的、安全無偏差的數(shù)據(jù)。與此同時,下游企業(yè)對數(shù)據(jù)也在不斷地提出更高的要求。獲取低成本、高質(zhì)量的數(shù)據(jù)依然是當前行業(yè)發(fā)展的一大痛點。普遍而言,企業(yè)并沒有過多的資源投入數(shù)據(jù)標注工作。因此,全球絕大多數(shù)企業(yè)都在某種程度上采用了專業(yè)數(shù)據(jù)供應(yīng)商的服務(wù)——這也意味著數(shù)據(jù)采集、分析處理和管理是AI面臨的首要挑戰(zhàn)。
另一方面,在與諸多客戶對接的過程中,數(shù)據(jù)標注公司也逐漸發(fā)現(xiàn),自動駕駛公司對于數(shù)據(jù)服務(wù)強有力的訴求便是隨著算法的調(diào)整,標注公司可以實現(xiàn)靈活配合。例如,隨著算法的更迭與進步,下游客戶對于數(shù)據(jù)標注的準確度會由原來的90%提升至95%,甚至99.99%。
此外,自動駕駛在不同細分場景的快速開拓意味著下游客戶的研發(fā)勢必會出現(xiàn)波峰與波谷,這也就需要數(shù)據(jù)標注公司提供持續(xù)穩(wěn)定的產(chǎn)能來應(yīng)對客戶的彈性需求。而對于多數(shù)數(shù)據(jù)服務(wù)商而言,這勢必帶來了更高難度的挑戰(zhàn)。
針對上述痛點,業(yè)內(nèi)有著超過25年歷史的人工智能訓練數(shù)據(jù)服務(wù)的"尖子生"——澳鵬Appen給出了自己的答案:由于深度學習算法是算力與大數(shù)據(jù)的產(chǎn)物,因此深度學習算法模型的工業(yè)化優(yōu)化,也就需要AI數(shù)據(jù)供應(yīng)鏈的工業(yè)化。
"工業(yè)化即以自動化、標準化和規(guī)?;蓴U展方式為標志。此前,AI標注數(shù)據(jù)的供應(yīng)基本以作坊式為主,難以保證AI標注數(shù)據(jù)的高質(zhì)量供給,接下來AI標注數(shù)據(jù)的供給將迎來工業(yè)化爆發(fā)。"澳鵬數(shù)據(jù)科技(上海)有限公司產(chǎn)品及研發(fā)總監(jiān)錢程表示。
錢程介紹,在數(shù)據(jù)的整個生產(chǎn)環(huán)節(jié)中,數(shù)據(jù)獲取、數(shù)據(jù)準備和模型評估最為費力并涉及海量數(shù)據(jù)。如果處理不當,可能會導(dǎo)致項目質(zhì)量問題和項目啟動延遲。AI從業(yè)者將80%以上的時間都花在數(shù)據(jù)管理上,因此他們需要最佳的工具和服務(wù)來完成這一過程中極其關(guān)鍵的部分。澳鵬專注研究這三個階段,并與專業(yè)從事模型訓練和部署的供應(yīng)商建立戰(zhàn)略合作伙伴關(guān)系。
澳鵬數(shù)據(jù)科技(上海)有限公司銷售副總裁馬冀表示:"毫米波和4D代表了未來的標注方向,對服務(wù)商的標注能力以及研發(fā)能力都有很高的要求。澳鵬會陪伴客戶共同探索和發(fā)展高精尖標注訴求。目前我們已經(jīng)有毫米波、4D點云標注等項目正在和客戶積極研討中,期待在今年第三季度會有不錯的進展。"
最大難題有解
此外,在自動駕駛領(lǐng)域,僅僅根據(jù)已知的場景、障礙和潛在事故原因來部署聯(lián)網(wǎng)自動駕駛車輛還遠遠不夠。誰能夠?qū)崿F(xiàn)準確預(yù)測,并對不尋常的情況做出反應(yīng),將是接下來自動駕駛技術(shù)落地的爭奪焦點。
如今業(yè)界推動的"數(shù)據(jù)驅(qū)動閉環(huán)迭代",都在強化對于不確定性事件的預(yù)測和規(guī)避、學習能力。當下的一個行業(yè)共識是:在數(shù)據(jù)方面,自動駕駛面臨的最大痛點便是corner case的積累。然而,由于不同公司數(shù)據(jù)采集車的傳感器安裝位置、采集標準各有不同,下游公司通常只能親自下場采集各種極限工況,"一步一個腳印地"完成更多的數(shù)據(jù)積累。
針對上述問題,澳鵬提出了"合成數(shù)據(jù)"解決方案,可以模擬不同的場景并安全高效地完成數(shù)據(jù)采集,實現(xiàn)對于極限工況的有效補充。其具體優(yōu)勢為:改進模型的可靠性、比"真實"數(shù)據(jù)獲取更快、可用于邊緣案例的補充,并可有效保護用戶隱私安全。
此前,澳鵬Appen曾收購人工智能數(shù)據(jù)平臺Mindtech的少數(shù)股權(quán),雙方將開展深度合作,提升為客戶提供合成數(shù)據(jù)的能力。
"我們對與澳鵬的戰(zhàn)略合作感到興奮,"Mindtech 首席執(zhí)行官史蒂夫哈里斯分享道。"這將使更多客戶能夠使用高質(zhì)量、精確注釋的合成數(shù)據(jù)快速訓練他們的人工智能系統(tǒng),同時補充 Appen 現(xiàn)有的真實世界數(shù)據(jù)收集、管理和注釋產(chǎn)品。通過合作,我們將加速人工智能系統(tǒng)的開發(fā),更好地了解人類如何與彼此以及周圍的世界互動。"
迎接數(shù)據(jù)服務(wù)的2.0時代
總結(jié)這家"尖子生"的成績,作為澳大利亞證交所上市的科技公司,澳鵬Appen已擁有25+年行業(yè)積累與廣泛的全球客戶基礎(chǔ)。
在服務(wù)方面,公司擁有一支過硬的數(shù)據(jù)科學家團隊,可以在服務(wù)企業(yè)之前了解場景,設(shè)計如何采集數(shù)據(jù)/標注數(shù)據(jù)能真正幫助到企業(yè)成功訓練模型, 以結(jié)果導(dǎo)向。
此外,澳鵬還擁有百萬級的眾包資源,能夠提供全球數(shù)據(jù)采集和標注服務(wù)。其在自動駕駛領(lǐng)域月收入額可達上千萬以上,在中國市場覆蓋30+個自動駕駛客戶。
在澳鵬看來,數(shù)據(jù)服務(wù)賦能行業(yè)的關(guān)鍵就在于整合資源,并與客戶深度綁定。例如提供技術(shù)接口,讓客戶參與到標注過程中,可實時反饋(API集成),或?qū)ψ杂衅脚_的功能進行改造和匹配;幫助客戶將重心放在模型開發(fā)上,降低數(shù)據(jù)成本,提升算法效率。
最重要的是,公司擁有完整的數(shù)據(jù)流轉(zhuǎn)系統(tǒng),可以不斷迭代優(yōu)化數(shù)據(jù)與服務(wù)工具,并以低成本、高靈活的服務(wù)配合客戶需求??梢哉f,在自動駕駛領(lǐng)域,澳鵬高精度高性能的自動駕駛工具套裝也是其為客戶構(gòu)筑海量數(shù)據(jù)資產(chǎn)的利器,這是澳鵬的核心優(yōu)勢之一,也是公司迎接"數(shù)據(jù)服務(wù)2.0時代"的不二法門。
何謂"數(shù)據(jù)服務(wù)2.0時代"?過去,數(shù)據(jù)標注多數(shù)只服務(wù)于自動駕駛POC項目,屬于"一錘子買賣"。而在2.0時代,軟件定義汽車帶來了對功能迭代升級頻率的高要求,背后則是每家車企積累的數(shù)據(jù)資產(chǎn)的價值競爭,并直接影響汽車智能化的功能優(yōu)化和體驗升級能力。
據(jù)高工智能汽車研究院監(jiān)測數(shù)據(jù)顯示,2021年中國市場(不含進出口)乘用車前裝標配搭載OTA功能上險量為748.41萬輛,同比增長65.99%,前裝搭載率已經(jīng)提升至36.7%。而軟件召回也已經(jīng)成為目前汽車召回的主要因素之一。
相應(yīng)的,從整體行業(yè)來看,數(shù)據(jù)標注正從簡單、重復(fù)的拉框標注向精細化方向發(fā)展,也就是說數(shù)據(jù)標注行業(yè)正從簡單的勞動力密集型向?qū)I(yè)型數(shù)據(jù)服務(wù)過渡。
以澳鵬自主研發(fā)的人工智能輔助數(shù)據(jù)標注平臺MatrixGo為例,可支持像素級語義分割、2D圖像復(fù)合標注、3D點云拉框及語義分割等功能;
采標一體的任務(wù)能夠?qū)崿F(xiàn)采集-質(zhì)檢-標注-質(zhì)檢-客戶驗收的雙向協(xié)同流程,讓整個數(shù)據(jù)生產(chǎn)線上的各個環(huán)節(jié)實現(xiàn)無縫銜接;內(nèi)置的多輪質(zhì)檢模塊可以按需配置,滿足不同復(fù)雜度項目的需求;2D圖像復(fù)合標注是全結(jié)構(gòu)化的模型訓練利器,支持點、線、框、多邊型融合標注(常見工具是單模式的,點、線or折線,多邊形)與連續(xù)幀;
另外,此工具還支持像素級語義分割,可將圖片中目標對象實例標記出來,并保證像素級的質(zhì)量。其中豐富的可配置選項可靈活進行ID處理,實戰(zhàn)中可以做到10分鐘/張圖。
錢程介紹,澳鵬利用ML輔助標注等技術(shù)手段提高數(shù)據(jù)質(zhì)量,通過預(yù)識別系統(tǒng),讓算法先進行預(yù)識別,再根據(jù)結(jié)果進行人為調(diào)整,最終在成本控制和質(zhì)量上實現(xiàn)顯著提升。
總體上,其標注工具可實現(xiàn)99.9%的準確率,并達到5分鐘一張、1秒一幀極速質(zhì)檢,在交互、超大數(shù)據(jù)加載、實時切幀進行渲染等方面都達到了行業(yè)第一。
澳鵬Appen認為,進入數(shù)據(jù)服務(wù)2.0時代,有能力深度綁定汽車全生命周期、并提供完整且高質(zhì)量的數(shù)據(jù)供應(yīng)服務(wù),在行業(yè)轉(zhuǎn)型的當下至關(guān)重要。