評測

AI 大模型驅(qū)動全面進(jìn)化一文看懂極越 AI DAY

新出行 2024-03-26 00:42

3 月 25 日，極越在百度科技園舉辦了首屆極越 AI DAY 。

作為背靠百度思考的純電車型品牌，極越在智能化層面顯然擁有著屬于自己的獨(dú)特想法，而在這場 AI DAY 活動中，極越就智駕、地圖、語音這屬于極越的三大核心領(lǐng)域進(jìn)行了全面革新。

本篇文章，就由姜硬與大家一起回顧，本次極越 AI DAY，極越為大家?guī)碇悄芑I(lǐng)域新的思考吧。

智能駕駛：用 AI 思維重構(gòu)自動駕駛

“具備「體驗(yàn)跨溝」?jié)摿Φ母唠A智駕，需要具備四個(gè)必要條件：城區(qū)領(lǐng)航輔助駕駛、全國都能開、系統(tǒng)體驗(yàn)安心、數(shù)據(jù)飛輪快速演進(jìn)。”

百度智駕首席研發(fā)架構(gòu)師王亮，向我們循序漸進(jìn)地介紹，極越關(guān)于未來智能駕駛的核心因素。

百度智駕首席研發(fā)架構(gòu)師王亮

在過去的一年中，極越在春節(jié)期間創(chuàng)造了 93% 的用戶整體智駕滲透率、500,000 公里的領(lǐng)航輔助道路覆蓋、324 次 AI 模型迭代上車……折算為每一天的視角，極越幾乎只需要一天多一些的時(shí)間，便能迭代一次 AI 模型，推進(jìn)超過 1000 公里的領(lǐng)航輔助道路覆蓋。

這是極越的微小成績，但在成績背后，依托視覺感知的極越 01 ，本身在智能駕駛的路線上便和其他對手有著不一樣的思考：

-用視覺解決一切的愿景網(wǎng)絡(luò)

激光雷達(dá)生成的是單調(diào)的點(diǎn)云，而視覺看到的是五彩斑斕的真實(shí)世界，如何設(shè)計(jì)算法提取視覺感知到的海量信息，便成為了王亮團(tuán)隊(duì)需要做的事情。

信號燈、機(jī)動車、行人……如何讓模型掌握通用的泛化學(xué)習(xí)能力？王亮介紹了屬于極越的第一步 AI 思考——“Vision takes all”，VTA Net 。在這套大模型網(wǎng)絡(luò)中，王亮向我們介紹了其基座，也就是預(yù)訓(xùn)練感知基礎(chǔ)大模型。

王亮深入淺出地為我們講解了這套基礎(chǔ)模型：“相當(dāng)于一個(gè)博士生，ta 剛?cè)雽W(xué)的前兩年里，并不會直接接觸團(tuán)隊(duì)的核心課題，而是從基礎(chǔ)課程學(xué)起，這樣才能在日后進(jìn)入核心課題時(shí)有著更深入的理解。”這套基礎(chǔ)模型在 VTA 網(wǎng)絡(luò)中也起到相似的作用，即打好基礎(chǔ)，幫助 VTA 更好的理解真實(shí)世界。

因此基礎(chǔ)模型的第一階段，是利用現(xiàn)階段累計(jì)的自動駕駛數(shù)據(jù)，進(jìn)行無標(biāo)注的自監(jiān)督學(xué)習(xí)訓(xùn)練；第二階段則是進(jìn)行通用的視覺學(xué)習(xí)任務(wù)——此時(shí)便不止于車輛錄取的數(shù)據(jù)信息，而是通過互聯(lián)網(wǎng)上海量的圖文信息，進(jìn)行通用的視覺訓(xùn)練。

在打好基礎(chǔ)后，基礎(chǔ)模型進(jìn)入下一步的“課程開題報(bào)告”階段——目標(biāo)檢測、實(shí)時(shí)建圖、時(shí)序跟蹤、場景理解。即度過了通用學(xué)習(xí)階段后，基礎(chǔ)模型開始針對特定任務(wù)，進(jìn)行垂直領(lǐng)域的深耕與訓(xùn)練。

“在這四大核心能力都成立的基礎(chǔ)上，便能更加接近端到端的感覺，可以對場景里發(fā)生的事情進(jìn)行理解、相應(yīng)的推理和動作。”王亮解釋道。

-更強(qiáng)大的視覺 OCC 占用網(wǎng)絡(luò)

雖然 OCC 占用網(wǎng)絡(luò)已經(jīng)在 1.3 版本里上車，但在 1.3 跨步到 1.4 版本中，極越的 OCC 占用網(wǎng)絡(luò)模型新增了超過 1 億幀的數(shù)據(jù)；同時(shí)更新了 1.4 的早鳥用戶中，有 72% 認(rèn)為避障能力有所提升。

而據(jù)王亮介紹，再之后基于視覺 OCC 的占用網(wǎng)絡(luò)還會進(jìn)行一輪新的升級，覆蓋「行」與「泊」全場景：

在高速/城區(qū)/低速泊車場景里，視覺 OCC 能夠調(diào)取不同的性能數(shù)據(jù)，在視距、分辨率和刷新率方面根據(jù)不同的場景進(jìn)行定制化的性能調(diào)用。

而在基礎(chǔ)模型與視覺 OCC 的雙重進(jìn)化后，視覺能力還能得到極大的開發(fā)——

視覺被遮擋從而感應(yīng)不到的物體，可以通過跟蹤能力“腦補(bǔ)”物體軌跡；
支持更多的道路元素識別、更強(qiáng)的測距能力和道路拓?fù)淠芰Γ谝曈X信息進(jìn)行實(shí)時(shí)建圖；
強(qiáng)化的“閱讀理解”能力，支持做出更敏捷的的決策路徑，更加“端到端”的推理與執(zhí)行。

總體而言，視覺感知基礎(chǔ)大模型實(shí)現(xiàn)了系統(tǒng)決策與規(guī)劃能力的階躍，而在這類大模型的背后，則是極越背靠百度三大計(jì)算中心提供的超大規(guī)模 AI 運(yùn)算能力——超 2.2EFLOPS 的 GPU 算力、30PB 數(shù)據(jù)緩存、98% 有效訓(xùn)練時(shí)長、95%帶寬有效性。

而在最后，王亮還向我們分享了兩個(gè)基于不同模型創(chuàng)造出高效率識別的場景片段：基于文心大模型，做到直接打字搜索具體自動駕駛場景；基于生成式 AI ，調(diào)整 ROBOTAXI 數(shù)據(jù)采集視角與量產(chǎn)上市車型統(tǒng)一，并能根據(jù)文本生成定制化自動駕駛視頻。

LD 地圖：百度地圖的折中之法

什么是 LD 地圖？

百度副總裁尚國斌先向我們倒了陣苦水：一線城市的高精地圖制作費(fèi)用通常需要上億元，并且不包含后續(xù)的維護(hù)費(fèi)用；轉(zhuǎn)向無圖化的道路，雖然泛化能力強(qiáng)開城速度快，但對比現(xiàn)實(shí)場景會少許多要素，精度也無法時(shí)刻保證。

因此百度地圖的思考，是在「有圖」與「無圖」的交集中，尋找出折中的辦法——車道級導(dǎo)航地圖，即 LD 地圖，號稱自動駕駛的原生地圖便應(yīng)運(yùn)而生。

“用自動駕駛的思維去測繪地圖。”一語點(diǎn)醒夢中人，LD 地圖的思考開始豁然開朗。在專業(yè)采集車、智能網(wǎng)聯(lián)車與路側(cè)的感知設(shè)備提取到道路的第一手信息后，百度地圖的視覺感知大模型開始對這些數(shù)據(jù)進(jìn)行學(xué)習(xí)與訓(xùn)練。

在前文基礎(chǔ)模型的熏陶下，想必你也能較為簡單的明了這套大模型的運(yùn)作邏輯——識別要素、場景理解、推理生成、拓?fù)潢P(guān)聯(lián)，大模型代替了原先地圖測繪中大部分的繁瑣以及后續(xù)的更新工作，這對于地圖測繪而言無疑是減負(fù)的。

而在大模型的作用下，地圖測繪也有了「開城」的概念，“全國城市都能開，智駕有圖才安全。”尚國斌說道，而安全，便是減負(fù)后增加的部分。

在圖層的概念下，LD 地圖疊加了限速、車道與軌跡的經(jīng)驗(yàn)圖層；匝道與路口通行的安全圖層；紅綠燈和動態(tài)事件構(gòu)成的實(shí)時(shí)圖層。在圖層疊加的情況下，LD 地圖對于安全的理解，對比無圖化部隊(duì)明顯更進(jìn)一步。

“全國都能開，只是基礎(chǔ)。智駕要像人一樣開，比人更安全。未來大家打開百度地圖看到有車道級導(dǎo)航的地方，就一定可以放心開 PPA。”

SIMO：端側(cè)大模型是未來語音助手方向

“為什么其它車型同樣用上 8295 ，卻做不到極越 01 這樣的車內(nèi)語音體驗(yàn)？”百度語音首席架構(gòu)師賈磊，發(fā)出了這樣一段靈魂質(zhì)疑。

網(wǎng)絡(luò)不穩(wěn)定，導(dǎo)致語音助手的反應(yīng)速度慢；有限的算力，讓語音助手的上限變得一眼望盡；語音對話采集，其中的隱私風(fēng)險(xiǎn)，現(xiàn)代人又防不勝防。

有基于此，搭載離線的端側(cè)大模型，能夠有效彌補(bǔ)上述車內(nèi)交互中的痛點(diǎn)。賈磊為我們在系統(tǒng)和算法上詳細(xì)講解了一波：

首先是系統(tǒng)創(chuàng)新上，極越語音團(tuán)隊(duì)將整個(gè)語音交互系統(tǒng)“搬進(jìn)”了車載 NPU 中。這樣做的好處是帶來了更快的語音交互響應(yīng)速度——將聲學(xué)模型、語言模型、置信度和語義解析都放進(jìn)了一體化的建模中，接收車內(nèi)人員指令后，能夠一次性并行向系統(tǒng)輸出結(jié)果。

其次是算法，極越語音團(tuán)隊(duì)創(chuàng)造了全新 smlta2 聲學(xué)建模技術(shù)，將中/英文、普通話/方言的模型都進(jìn)行了統(tǒng)一；而針對后續(xù) 6/7 座車型的多音區(qū)算力壓力，語音團(tuán)隊(duì)還進(jìn)行了一波“減壓”——將原先需要分散再增強(qiáng)識別的音頻素材，整合進(jìn)一種波束，做到了多合一的情況下依舊能準(zhǔn)確識別輸出。

而在最后，賈磊預(yù)告了一個(gè)讓我們意想不到的操作——利用視覺感知與語音融合的多模態(tài)交互技術(shù)即將上車。

在加入視覺感知后，系統(tǒng)可以通過觀察發(fā)出指令者的唇動特征，進(jìn)行同向的干擾聲源消除，提升抗噪能力；同時(shí)確定指令者方位，還能提升定向的拾音效果。

編輯總結(jié)

“昨天的領(lǐng)先只是暫時(shí)，今天的領(lǐng)先已在路上。”我非常喜歡賈磊在語音篇章中的這頁 PPT，沒有永恒領(lǐng)先的對手，只有步步上爬的登山者。

此時(shí)此刻恰如彼時(shí)彼刻，當(dāng)我們還在為過去新勢力們?nèi)〉玫南冗M(jìn)技術(shù)喝彩時(shí)，今日已然是更先進(jìn)技術(shù)加入這場內(nèi)卷風(fēng)暴的時(shí)間。但正如最后一句話所言，“最強(qiáng)的技術(shù)還在明天。”這是所有智能化團(tuán)隊(duì)的統(tǒng)一追求，所謂的全國都能開，是門票，也是一輪新的起點(diǎn)。

就讓我們看看，極越在 AI DAY 的大放異彩后，還能為我們帶來何許驚喜吧。

來源：第一電動網(wǎng)

作者：新出行

本文地址：http://m.155ck.com/carnews/pingce/224021

返回第一電動網(wǎng)首頁 >

以上內(nèi)容轉(zhuǎn)載自新出行，目的在于傳播更多信息，如有侵僅請聯(lián)系admin#d1ev.com(#替換成@)刪除，轉(zhuǎn)載內(nèi)容并不代表第一電動網(wǎng)（m.155ck.com）立場。

文中圖片源自互聯(lián)網(wǎng)，如有侵權(quán)請聯(lián)系admin#d1ev.com（#替換成@）刪除。

贊42

分享到：

發(fā)表評論

新聞推薦

選擇車型
上牌城市	購車城市
姓名
手機(jī)號
驗(yàn)證碼
	xxx

国产迷奸一区,国产小仙女视频一区二区,国产精品无码久久久久成人app,久久精品成人一区二区三区,97精品 ,天天干天天骚天天色,亚洲精品中文字幕不卡一区二区,www.szjiaye.cn,亚洲欧美v国产一区二区三区

電動汽車

AI 大模型驅(qū)動全面進(jìn)化一文看懂極越 AI DAY