采 訪(fǎng) | 德新
編輯 | Dude
在智能汽車(chē)的賽道里,特斯拉是獨(dú)樹(shù)一幟的旗手,幾乎引領(lǐng)了大部分技術(shù)變革的風(fēng)潮。最近一次,是特斯拉掀起的「端到端」熱潮。拋棄規(guī)則,擁抱數(shù)據(jù),在這一年內(nèi)迅速成為業(yè)界共識(shí)。
只是在技術(shù)落地的過(guò)程中,光有共識(shí)是不夠的,人們需要一條足夠清晰、安全、可解釋的路徑。
在這場(chǎng)落地競(jìng)賽中,不同的玩家都給出自己的解法。在這場(chǎng)新的技術(shù)競(jìng)賽里,蔚小理們是最積極的一波,各個(gè)車(chē)企都處在于摸著石頭過(guò)河的探索狀態(tài)。但可以肯定的是,端到端是大家都認(rèn)可的方向,但是落地確實(shí)是一場(chǎng)事關(guān)算力、數(shù)據(jù)的綜合角力。
在端到端牌桌上的,并非只有車(chē)企陣營(yíng),以商湯絕影、Momenta為代表的供應(yīng)商,正在成為一股新的技術(shù)力量,推動(dòng)著中國(guó)自動(dòng)駕駛走向ChatGPT時(shí)刻。
在今年的WAIC上,商湯絕影拿出了可解釋、可交互的自動(dòng)駕駛大模型DriveAGI,HiEV在前不久采 訪(fǎng)了商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家、絕影智能汽車(chē)事業(yè)群總裁王曉剛。
在人工智能1.0時(shí)代一騎絕塵,開(kāi)辟了AI人臉應(yīng)用時(shí)代的巨頭,在2.0時(shí)代會(huì)交出什么答卷?該如何為端到端的智駕新范式,煉就高增長(zhǎng)性的模型?
以下是HiEV 對(duì)話(huà)商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家、商湯絕影智能汽車(chē)事業(yè)群總裁王曉剛的內(nèi)容,HiEV做了不改變?cè)獾木庉嫞?/p>
HiEV:絕影的端到端智駕做到什么階段,如何評(píng)價(jià)現(xiàn)階段的表現(xiàn)?
王曉剛:目前,我們?cè)谏虾5牟糠謪^(qū)域,例如臨港、新洲周?chē)膮^(qū)域整體表現(xiàn)還是比較穩(wěn)定,規(guī)則能夠處理的問(wèn)題,端到端也能夠應(yīng)對(duì),我們已經(jīng)打通了技術(shù)路線(xiàn)。
另外,在完全不依賴(lài)地圖的復(fù)雜場(chǎng)景下,端到端能夠突破原來(lái)規(guī)則設(shè)計(jì)里面做不到事情。比如在沒(méi)有清晰車(chē)道線(xiàn)的小路、或者是比較多的遮擋的情況下,恰當(dāng)?shù)剡M(jìn)行應(yīng)急的避讓。當(dāng)出現(xiàn)異形車(chē),突如其來(lái)的行人、機(jī)動(dòng)車(chē)、電動(dòng)車(chē),端到端能夠恰當(dāng)?shù)剡M(jìn)行和其他車(chē)輛進(jìn)行交互和避讓。
HiEV:在只用端到端一個(gè)模型的情況下,只要這個(gè)區(qū)域的數(shù)據(jù)足夠多,就能逐步解決該區(qū)域遇到的問(wèn)題嗎?
王曉剛:對(duì),但我們的模型具備泛化的能力。涉及更大規(guī)模的數(shù)據(jù)泛化,更多的還是需要跟車(chē)廠(chǎng)進(jìn)行配合。所以,現(xiàn)階段我們首先要把方案做得足夠好,跟車(chē)廠(chǎng)配合在更多的城市去推廣。
在這個(gè)過(guò)程當(dāng)中,實(shí)際上追求的還是模型本身的通用能力,而并非是某個(gè)區(qū)域或者是選定區(qū)域泛化性。
HiEV:現(xiàn)在系統(tǒng)的迭代速度、迭代能力怎么樣?
王曉剛:在迭代的過(guò)程中,還要進(jìn)行模型的不同Pipeline(研發(fā)流水線(xiàn)),以及各方面的嘗試。在最開(kāi)始的階段,模型并不是非常成熟的狀態(tài),但是只需要到大量跑數(shù)據(jù)階段,模型會(huì)迭代變得比較快。
今天我們能做的還是摳細(xì)節(jié),比如數(shù)據(jù)清理、數(shù)據(jù)標(biāo)注,通過(guò)各種方式能夠讓模型達(dá)到一個(gè)比較好、比較穩(wěn)定的狀態(tài)。
HiEV:這個(gè)階段的工作,是比較偏重于數(shù)據(jù)這一端,還是偏重模型設(shè)計(jì)這一端?
王曉剛:這兩個(gè)部分都會(huì)涉及到,比如今天的網(wǎng)絡(luò)結(jié)構(gòu),跟一年前比,已經(jīng)發(fā)生了非常大的變化。
在最開(kāi)始的階段,我們是用最簡(jiǎn)單的端到端的方式——由若干個(gè)模塊組成,每個(gè)模塊就有一個(gè)網(wǎng)絡(luò)去擬合它,然后將這些網(wǎng)絡(luò)串起來(lái),這就是最開(kāi)始的端到端,但這不是一個(gè)大模型的端到端。
這種模型還是一系列的小模型串聯(lián)起來(lái),今天很多人把預(yù)測(cè)、決策和規(guī)劃用網(wǎng)絡(luò)來(lái)進(jìn)行替代,這個(gè)網(wǎng)絡(luò)的規(guī)模會(huì)比感知網(wǎng)絡(luò)還要小很多。
今天ChatGPT做出來(lái)的模型,根本不是按照意圖、具體任務(wù)來(lái)預(yù)測(cè)任務(wù),它是通過(guò)預(yù)測(cè)下一個(gè)token方式來(lái)訓(xùn)練出來(lái)模型,同時(shí),它要通過(guò)理解很復(fù)雜的任務(wù),才能夠把下一個(gè)token預(yù)測(cè)好。
今天做自動(dòng)駕駛也是一樣的,通過(guò)輸入的大量的視頻,預(yù)測(cè)的是未來(lái)規(guī)劃的軌跡,這本身就是一件很難的事情。但這種方式,能夠讓模型具有更好的、通用化的能力。
所以大家走的道路其實(shí)本質(zhì)上差別很大,如果沿用以前數(shù)據(jù)標(biāo)注、通過(guò)打標(biāo)簽的方式輔助,模型是比較容易訓(xùn)練的,但是它的通用能力就會(huì)差很多。
HiEV:現(xiàn)在商湯跑的端到端的模型已經(jīng)比原來(lái)模塊化方式設(shè)計(jì)的模型大很多,但是肯定離最終的ChatGPT時(shí)刻還是會(huì)有比較大的差距,我們應(yīng)該要怎么理解這個(gè)差距?
王曉剛:在大模型里面,有尺度定律Scaling Law。
針對(duì)小規(guī)模的模型,包括數(shù)據(jù),結(jié)構(gòu)、Pipeline,大模型進(jìn)行預(yù)測(cè)。等這個(gè)模型的體量要再大一個(gè)數(shù)量級(jí)、兩個(gè)數(shù)量級(jí)的時(shí)候,表現(xiàn)會(huì)完全不同。所以今天我們做很多的嘗試,在一個(gè)相對(duì)小一點(diǎn)的規(guī)模上,把整個(gè)模型的scale再提上去,這時(shí)候能夠看到更大量的更通用的能力。
有了這些能力以后,再把這個(gè)模型變小,模型才能夠有一個(gè)比較好的表現(xiàn)。
這里面不光涉及到模型的體量的問(wèn)題,很重要的就是對(duì)它訓(xùn)練的方式。
我們?cè)?022年,就做過(guò)32億參數(shù)的感知模型,雖然這種模型的網(wǎng)絡(luò)規(guī)模很大的,但是它的訓(xùn)練方式還是以標(biāo)注的方式來(lái)做,就很容易達(dá)到模型的上限。因?yàn)榇罅康臄?shù)據(jù)都是經(jīng)過(guò)標(biāo)注的數(shù)據(jù),但最終起到的效果是比較小的。
HiEV:因?yàn)樗男畔⑹潜容^少、比較簡(jiǎn)單的?
王曉剛:它的任務(wù)就是識(shí)別,雖然增加了很多數(shù)據(jù),模型量也很大,但是如果出現(xiàn)很難的東西、未見(jiàn)過(guò)的東西,模型還是識(shí)別不了。
HiEV:所以我們需要豐富它數(shù)據(jù)的維度?
王曉剛:跟訓(xùn)練的方式有關(guān)系。像ChatGPT這種模型,它之所以能夠涌現(xiàn)出新的通用化的能力,因?yàn)樗挠?xùn)練的方式是預(yù)測(cè)下一個(gè)token。
這就是為什么今天大家覺(jué)得訓(xùn)練的時(shí)候就把原來(lái)這幾個(gè)網(wǎng)絡(luò)串一串,或者說(shuō)加大原來(lái)的感知網(wǎng)絡(luò)的規(guī)模就是大模型。但其實(shí)不是,因?yàn)檫@種訓(xùn)練的方式是不對(duì)的。
之前這些路線(xiàn)我們也都嘗試過(guò),比如我們?cè)?022年做的感知大模型,可以做自動(dòng)標(biāo)注,還可以預(yù)標(biāo)注。但這種模型跟今天能理解很多復(fù)雜場(chǎng)景的模型,能力根本不在一個(gè)層次上。
HiEV :那這個(gè)模型設(shè)計(jì)目的是什么呢?
王曉剛:比如說(shuō)很多時(shí)候,不好定義的場(chǎng)景。
例如前面你看到了一個(gè)小電瓶車(chē),正常操作是把電瓶車(chē)框出來(lái)進(jìn)行避讓?zhuān)@個(gè)車(chē)的后面拉了一個(gè)竹竿,這就跟之前定義的不在一個(gè)類(lèi)別里面。遇到這種情況,會(huì)繞的更遠(yuǎn)一些。它是一個(gè)異形的車(chē)輛。
HiEV: 所以現(xiàn)在怎么驗(yàn)證、評(píng)估它未來(lái)的泛化性?
王曉剛:我們?cè)诟鱾€(gè)地方的不同區(qū)域進(jìn)行試驗(yàn),這中間當(dāng)大模型遇到新的場(chǎng)景,所表現(xiàn)出來(lái)的行為是否合理。
另外,我們基于現(xiàn)有模型再去延伸出來(lái)的多模態(tài),后面還可以通過(guò)SFT(Supervised Fine-Tuning有監(jiān)督微調(diào))這種方式點(diǎn)亮新的能力,識(shí)別出各種場(chǎng)景,做各種復(fù)雜的分析。
這個(gè)時(shí)候就顯現(xiàn)出來(lái),之前專(zhuān)門(mén)用來(lái)讓它去做自動(dòng)駕駛單一目標(biāo)任務(wù),所不具備的能力。
HiEV:WAIC大會(huì)上商湯也公布了一些座艙上的進(jìn)程。智駕大模型的落地時(shí)間是怎樣的?
王曉剛:今年是一個(gè)非常重要的時(shí)間點(diǎn)。一系列支持大模型的芯片,Thor 、MTK會(huì)面世,到明年會(huì)有各種量產(chǎn)的車(chē)型上來(lái)。我們整個(gè)節(jié)奏還都是比較緊張的。
智駕的端到端大模型逐漸成熟量產(chǎn),需要一個(gè)過(guò)程。一開(kāi)始,很難做到完全只依賴(lài)模型本身,不依賴(lài)任何的規(guī)則,因?yàn)榱慨a(chǎn)交付面對(duì)需要對(duì)各種特定的任務(wù)和場(chǎng)景。但是大模型隨著數(shù)據(jù)量的增長(zhǎng)和積累,規(guī)則部分會(huì)變得越來(lái)越少,模型會(huì)處于一個(gè)爆發(fā)的狀態(tài)。
座艙方面,現(xiàn)在我們有好幾個(gè)模型已經(jīng)進(jìn)入量產(chǎn)狀態(tài)。
像小米SU7的對(duì)話(huà)能力,就是應(yīng)用了我們的大模型、多模態(tài)的能力;還有在智己、吉利旗下品牌翼真上,也應(yīng)用了文生圖的能力;在極氪上,則是應(yīng)用了商湯全套的大模型能力,但這些都是云端的大模型。
明年,我們會(huì)把現(xiàn)有的模型變成終端的大模型,另外基于現(xiàn)有的大模型開(kāi)發(fā)更好的、更具有用戶(hù)價(jià)值體驗(yàn)的應(yīng)用。今年有幾個(gè)客戶(hù),都跟我們?cè)谶@方面形成戰(zhàn)略合作。
商湯絕影具備云側(cè)、端側(cè)和端云結(jié)合等各種大模型部署的能力。明年,一批采用端云結(jié)合技術(shù)的車(chē)艙大模型將正式上車(chē)。
HiEV:很多主流觀點(diǎn)認(rèn)為座艙跟智駕基本上是沒(méi)有關(guān)聯(lián),現(xiàn)在商湯所做的座艙大模型對(duì)智駕會(huì)有幫助嗎?
王曉剛:現(xiàn)在多模態(tài)模型就已經(jīng)實(shí)現(xiàn)了關(guān)聯(lián)性了。因?yàn)轳{駛一旦有了多模態(tài),其實(shí)就已經(jīng)具備了交互的屬性。
今天我們有幾個(gè)方面都體現(xiàn)了這種關(guān)聯(lián)性,一方面是人機(jī)交互,另一方面在呈現(xiàn)和顯示我們?cè)谧摾锩?,?duì)智駕的場(chǎng)景里3D城市的內(nèi)容的顯示,包括我們對(duì)城市的探索在這方面,智能座艙和智能駕駛會(huì)有一個(gè)更深入的結(jié)合。
HiEV:從智能座艙的功能來(lái)講,由現(xiàn)有的轉(zhuǎn)向更加豐富或者多模態(tài)的功能,是非常順理成章。那智能駕駛這一塊,你們接下來(lái)規(guī)劃是什么?
王曉剛:對(duì)于商湯來(lái)說(shuō),目前比較重要的是要跟車(chē)廠(chǎng)形成一個(gè)新的合作模式。所以是根據(jù)技術(shù)發(fā)展的趨勢(shì),來(lái)改變合作模式和商業(yè)模式。
因?yàn)楝F(xiàn)在端到端,更多依賴(lài)的是后臺(tái)的算力、能力、數(shù)據(jù)的平臺(tái)。前端可能相對(duì)簡(jiǎn)單,這時(shí)候如何跟車(chē)廠(chǎng)進(jìn)行合作,很多時(shí)候就不是交付輸出標(biāo)品了。
最終,能夠展現(xiàn)出智駕的產(chǎn)品本身特色,差異化的地方,更多是在于如何獲取數(shù)據(jù)、如何生產(chǎn)、篩選數(shù)據(jù)。因此,最重要的就是要讓車(chē)廠(chǎng)能夠參與到這里面來(lái)。
讓車(chē)企更了解商湯端到端平臺(tái)的流程,展現(xiàn)更多的C端的數(shù)據(jù),更能夠真正理解這里面跟以前的模式不一樣的地方。特斯拉就擁有非常強(qiáng)大的基礎(chǔ)AI能力,同時(shí)它又會(huì)拿到 C端的獨(dú)特的有價(jià)值的數(shù)據(jù),能夠把大模型的新的能力釋放出來(lái),形成新的產(chǎn)品形態(tài)。
HiEV:那車(chē)企能夠參照特斯拉的形式來(lái)做一套端到端方案嗎?
王曉剛:首先,今天絕大多數(shù)車(chē)廠(chǎng),很難具備像特斯拉的AI能力。
特斯拉有10萬(wàn)塊GPU,今天絕大多數(shù)的車(chē)廠(chǎng)最多就是幾百塊,在算力基礎(chǔ)上就有一定的差距。
另一個(gè)原有的合作模式是,車(chē)廠(chǎng)將他認(rèn)為有價(jià)值且重要的問(wèn)題進(jìn)行反饋,因此能夠獲取的數(shù)據(jù)也不是第一手的數(shù)據(jù)。供應(yīng)商可以去修復(fù)這些問(wèn)題,但是很難超越現(xiàn)有的體驗(yàn),形成一個(gè)提升。
我覺(jué)得無(wú)論駕駛還是座艙,都存在這些問(wèn)題。如要解決這個(gè)問(wèn)題,必須是兩邊都有更加深入的合作,我們也能夠更多的接觸到終端消費(fèi)者的數(shù)據(jù)所產(chǎn)生的價(jià)值。
HiEV:有一種情況,比如說(shuō)現(xiàn)在車(chē)企其實(shí)已經(jīng)有很多的量產(chǎn)項(xiàng)目,然后從現(xiàn)有的量產(chǎn)項(xiàng)目就會(huì)產(chǎn)生很多的數(shù)據(jù),有沒(méi)有可能通過(guò)那樣的方式來(lái)進(jìn)行?
王曉剛:但這個(gè)取決于對(duì)模型的理解,對(duì)數(shù)據(jù)的理解。因?yàn)榻裉煳覀兡玫降臄?shù)據(jù),是從車(chē)企反饋回來(lái)的數(shù)據(jù),那是他認(rèn)為需要解決的問(wèn)題,但實(shí)際上是被過(guò)濾了一層。
比如有時(shí)候,路上遇到了某一個(gè)障礙物,造成了體驗(yàn)上的問(wèn)題,所以我們會(huì)修復(fù)一些bug,這些都是可以從車(chē)企的量產(chǎn)項(xiàng)目里面完成的,但是要再去挖掘模型新的能力,這些就不是在現(xiàn)有的流程體系里面。
HiEV:現(xiàn)在車(chē)企跟供應(yīng)商共享的數(shù)據(jù)也是定義好的。
王曉剛:對(duì),車(chē)企會(huì)過(guò)濾,并不會(huì)全部數(shù)據(jù)都給我們,車(chē)企把最重要的case、最重要的問(wèn)題列出來(lái),在這個(gè)基礎(chǔ)上才會(huì)進(jìn)行數(shù)據(jù)共享。
HiEV:從能力增長(zhǎng)的曲線(xiàn)來(lái)看,你們覺(jué)得現(xiàn)在在一個(gè)什么狀態(tài)?主機(jī)廠(chǎng)肯定需要看到端到端的能力或者增長(zhǎng)性潛力,才會(huì)有所行動(dòng),你們看增長(zhǎng)曲線(xiàn)會(huì)在什么時(shí)間點(diǎn)?
王曉剛:我覺(jué)得今天我們看到的端到端,應(yīng)該還是在ChatGPT的前夕。
但這個(gè)方向跟路線(xiàn)是清晰的,如果自動(dòng)駕駛要到達(dá)ChatGPT時(shí)刻,得走一條正確的路。如果還是走原來(lái)的路,永遠(yuǎn)也到不了ChatGPT時(shí)刻。
依靠原有的感知模型,我再怎么標(biāo)它,它還是原來(lái)那個(gè)樣子。所以我覺(jué)得我們實(shí)際上也是修正了原來(lái)對(duì)技術(shù)路線(xiàn)的認(rèn)知,正在接近自動(dòng)駕駛的ChatGPT時(shí)刻。
大家能夠看到,這個(gè)模型不僅解決了原來(lái)的自動(dòng)駕駛里出現(xiàn)的一些問(wèn)題,而且還能夠展現(xiàn)出很多原來(lái)沒(méi)有想到的能力。
HiEV:這樣的合作方式,對(duì)車(chē)廠(chǎng)的心態(tài)也是蠻挑戰(zhàn)的。
王曉剛:這是我們必須要走的一條路。OpenAI用的數(shù)據(jù)都是互聯(lián)網(wǎng)上的數(shù)據(jù),公開(kāi)的數(shù)據(jù)去做訓(xùn)練。
在垂直行業(yè)里,我們走得更深。OpenAI不會(huì)去做自動(dòng)駕駛,不會(huì)在這里走得很深。我們拿到了有價(jià)值的自動(dòng)駕駛數(shù)據(jù),對(duì)它進(jìn)行足夠深入的分析。
在這套 AI的研發(fā)框架下,結(jié)合我們對(duì)數(shù)據(jù)的理解,那才能夠?qū)崿F(xiàn)超越。否則,看不到任何超越 OpenAI的希望。
必須在垂直行業(yè)里走入的足夠深,能夠拿到足夠豐富的數(shù)據(jù)跟應(yīng)用的場(chǎng)景,有更加足夠深入的結(jié)合。
AGI時(shí)代合作模式,不光是過(guò)去主機(jī)廠(chǎng)采購(gòu)、供應(yīng)商供貨,絕影愿意白盒交付,幫車(chē)企理解和掌握大模型技術(shù)。只有這樣,大家才能更加積極地共同開(kāi)發(fā),加速迭代,打造真正的、以用戶(hù)為中心的AI大模型。
另一方面,作為戰(zhàn)略合作伙伴,絕影和主機(jī)廠(chǎng)之間也要實(shí)現(xiàn)數(shù)據(jù)共享。主機(jī)廠(chǎng)把不涉及隱私的數(shù)據(jù)給到絕影,訓(xùn)練出車(chē)載原生的大模型,這是共贏的。
HiEV:在這種狀態(tài)下,因?yàn)榇竽P蛯?duì)整個(gè)數(shù)據(jù)的要求非常高,主機(jī)廠(chǎng)會(huì)不會(huì)更愿意去自研?
王曉剛:這很難。對(duì)于車(chē)企來(lái)說(shuō),是一個(gè)性?xún)r(jià)比的問(wèn)題。
首先,需要基礎(chǔ)設(shè)施,能夠把1萬(wàn)塊GPU連在一起進(jìn)行模型訓(xùn)練。這件事,商湯從2018、2019年開(kāi)始到現(xiàn)在都做了五六年了,我們有上百億的投入,做了很多這種嘗試,就幾十億這種規(guī)模的參數(shù)模型就做了幾百次,它其實(shí)都是時(shí)間、錢(qián)堆出來(lái)的。
車(chē)廠(chǎng)做這件事情,一個(gè)是時(shí)間需要很長(zhǎng),另外投入很大。
我們做大模型不是為某一個(gè)車(chē)廠(chǎng)做,甚至不只是為汽車(chē)行業(yè)做的。我們是基于商湯的平臺(tái)體系,跨行業(yè)的模型可以進(jìn)行跨行業(yè)應(yīng)用。我們的能耗、數(shù)據(jù)的生產(chǎn)都是跨行業(yè)的。因此,研發(fā)成本是由很多的行業(yè)、無(wú)數(shù)的企業(yè)來(lái)分?jǐn)偟摹?/p>
在這個(gè)點(diǎn)上來(lái)說(shuō),讓某一個(gè)車(chē)廠(chǎng)去做這件事情,性?xún)r(jià)比差很多。
另外,時(shí)間窗口也不允許了。
來(lái)源:第一電動(dòng)網(wǎng)
作者:HiEV
本文地址:http://m.155ck.com/kol/239166
文中圖片源自互聯(lián)網(wǎng),如有侵權(quán)請(qǐng)聯(lián)系admin#d1ev.com(#替換成@)刪除。