根據(jù)馬斯克的預(yù)告,一個(gè)月之后,特斯拉 2021 AI Day 就將到來。
我們不知道屆時(shí)特斯拉會發(fā)布什么黑科技,但我們知道,馬斯克屆時(shí)一定會為純視覺自動(dòng)駕駛路線作出詳盡的解釋,順便立下足夠嚇人的 flag。
早在一個(gè)月之前,特斯拉就宣布,北美市場的 Model 3/Y 將不會再配備毫米波雷達(dá)和超聲波雷達(dá),僅標(biāo)配攝像頭。
純視覺自動(dòng)駕駛,無疑是特斯拉對汽車行業(yè)的新一次挑戰(zhàn),甚至對自己推動(dòng)的浪潮,也是一次「不破不立」。
特斯拉一直是激光雷達(dá)的反對者,馬斯克屢次在推特 diss 激光雷達(dá)陣營,并多次強(qiáng)調(diào)純視覺路線的優(yōu)越性。
《任何依賴激光雷達(dá)的人都注定失敗》
特斯拉 AI 部門高級主管 Andrej Karpathy 說的「人類開車不是靠雙眼發(fā)射激光」,同樣是經(jīng)典。
但除了金句、flag,特斯拉一直沒有說明白,純視覺自動(dòng)駕駛背后究竟有怎樣的思考?為什么全世界都在加碼的激光雷達(dá)路線,在特斯拉這里這么不受待見?
直到最近,在 2021 CVPR 國際計(jì)算機(jī)視覺與模式識別會議上,Andrej 用一場時(shí)長 38 分鐘的在線演講,放出了足夠多的干貨,于是我們再次得以一窺特斯拉 AI Day 。
今天的推送當(dāng)然會枯燥,但也沒那么索然無味。
因?yàn)椋胍烟厮估瓐?jiān)定站在純視覺路線的理由說清楚,反而不能過分執(zhí)著于技術(shù)名詞。邏輯、思考,則是更形而上學(xué),也更通俗易懂的敘述方式。
純視覺 FSD 背后的哲學(xué)
兩年兩個(gè)月之后,Andrej 把那句「名言」OTA 到了最新版本:
「人類依賴視覺開車,而我們大腦里的‘深度學(xué)習(xí)網(wǎng)絡(luò)’,很明顯是有能力處理視覺數(shù)據(jù)輸入,并理解身邊所有物體視覺深度和速度的」。
是的,特斯拉的自動(dòng)駕駛依然帶著濃濃的第一性原理味道。人類如何坐到方向盤后面,Autopilot 就照樣再做一次。
特斯拉相信的,是人類既然可以通過視覺信息+大腦處理,成為一個(gè)合格的駕駛者。那么攝像頭+深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)+計(jì)算硬件,也可以達(dá)到類似的效果。
于是特斯拉需要證明三個(gè)有關(guān)純視覺 FSD 的命題:觀察世界的能力、理解交通的能力、處理場景的能力。
1.先來說說「觀察」。
攝像頭可以做到人類眼睛的程度嗎?Andrej 的原話是:「unequivocal yes 絕對可以」。
兩個(gè)半月之前,馬斯克在推特上這么說:「當(dāng)雷達(dá)和視覺不一致時(shí),你會相信哪一個(gè)?視覺具有更高的精度,所以最好是加注視覺路線,而不是多傳感器融合。」
馬斯克后來解釋稱,傳感器的本質(zhì)是比特(bit)數(shù)據(jù)流,而攝像頭每秒傳輸?shù)谋忍亓勘壤走_(dá)高了幾個(gè)量級。「只有顯著提升雷達(dá)比特?cái)?shù)據(jù)流的信噪比,才值得去整合它(相較于攝像頭)的復(fù)雜性。」
幾個(gè)量級這樣的表述有點(diǎn)模糊,Andrej 精確了一下:「100 倍」。
「攝像頭幾乎是在俯視其他傳感器,其他傳感器甚至開始成為(自動(dòng)駕駛系統(tǒng))的累贅」,他這樣補(bǔ)充。
上圖是特斯拉 Autopilot 8 攝像頭的畫面總覽。目前特斯拉使用的攝像頭為 1280x960 分辨率,每秒拍攝 36 幀畫面,約束數(shù)據(jù)流的規(guī)模大概是 8M bits 每秒。
Andrej 表示即使是這樣分辨率的攝像頭畫面,相比其他傳感器仍然是「data rich 數(shù)據(jù)富裕」,這也是他們「doubling down 雙倍加注」視覺路線的主要原因。
「我們不希望在雷達(dá)堆棧、多傳感器融合堆棧上面浪費(fèi)人力」,他表示現(xiàn)在特斯拉只有一支「vision team 視覺隊(duì)伍」。
2. 攝像頭的「優(yōu)越性」,需要規(guī)模效應(yīng)激發(fā)。
Andrej 舉了個(gè)例子:Waymo 的自動(dòng)駕駛測試車。盡管和 FSD Beta 一樣都可以做出無保護(hù)左轉(zhuǎn)這樣的動(dòng)作,但實(shí)現(xiàn)這套動(dòng)作的硬件底層卻大相徑庭。
Waymo 公開運(yùn)營的大捷龍長這樣,頭上有激光雷達(dá):
Andrej 表示,激光雷達(dá)+高精度地圖的技術(shù)路線,需要大量的前置準(zhǔn)備,工作范圍被高精度地圖限制,并且「保持更新基礎(chǔ)硬件的成本太高」。
深度學(xué)習(xí)需要巨量數(shù)據(jù)喂養(yǎng),以覆蓋小數(shù)點(diǎn)后面無數(shù)個(gè) 9,所代表的 Corner case,也就是小概率場景。前期成本遠(yuǎn)高于攝像頭的激光雷達(dá)路線,很難跟上特斯拉賣車的腳步。
Andrej 強(qiáng)調(diào)稱,特斯拉的純視覺硬件已經(jīng)在上百萬輛車型上使用,這是其他車企很難復(fù)刻的。
但「這并不意味著視覺路線更簡單,因?yàn)榧円曈X更依賴深度學(xué)習(xí)網(wǎng)絡(luò)——而深度學(xué)習(xí)又依賴于數(shù)據(jù)反饋的規(guī)模」,所以對特斯拉來說,「scale」才如此重要。
Andrej 認(rèn)為,特斯拉解決了規(guī)模問題之后,基于深度學(xué)習(xí)的攝像頭「kind of leaving a lot of other sensors in the dust(像是把其他傳感器都甩遠(yuǎn)了)」。
「一旦你可以讓其(深度學(xué)習(xí)網(wǎng)絡(luò))正常工作,(純視覺)自動(dòng)駕駛就可以在世界上任何地方使用」。
3. 然后是理解交通的能力。
特斯拉認(rèn)為攝像頭是可以和人眼媲美的,且?guī)缀跷ㄒ恍枰淖詣?dòng)駕駛傳感器。
而如何使車輛與人類一樣思考、理解交通,則是 Autopilot 貫徹「第一性原理」的另一基礎(chǔ)。
Andrej的原話是「massive data set of depth, velocity acceleration on a lot of cars, and we’re going to train a large enough neural network and do a very good job at that.」
中文表達(dá)簡潔很多:「足夠多有關(guān)深度/加速度的(視頻)數(shù)據(jù),足夠多汽車提供這樣的數(shù)據(jù),訓(xùn)練足夠大的神經(jīng)網(wǎng)絡(luò)并且做得足夠好」。
特斯拉的純視覺方法論,某種程度上很像人類交通探索過程:開足夠多的車(數(shù)據(jù))、有足夠多的人開車(車輛數(shù))、總結(jié)交通法規(guī)+駕駛培訓(xùn)課程+老司機(jī)「言傳身教」。
特斯拉的銷量當(dāng)然不需要擔(dān)心,交通法規(guī)已經(jīng)非常完善,而特斯拉需要解決的,就剩下最核心的任務(wù)——給 Autopilot「上駕駛課」。
這一過程不僅需要數(shù)據(jù)的數(shù)量,還需要質(zhì)量。
Andrej 表示特斯拉用來訓(xùn)練純視覺的數(shù)據(jù),必須要滿足 large(數(shù)以百萬計(jì))、clean(清晰標(biāo)注速度/加速度/深度)、diverse(包含大量邊緣案例,不是‘無聊’的場景)這三個(gè)條件。
2019 年 11 月,Andrej 在出席 PyTorch 開發(fā)者峰會的時(shí)候表示,「現(xiàn)階段我的團(tuán)隊(duì)已經(jīng)可以在椅子上葛優(yōu)癱,然后數(shù)據(jù)就會從特斯拉的車子上傳過來,在神經(jīng)網(wǎng)絡(luò)模型上自己不斷循環(huán)運(yùn)行」。
他將這套流程為「Operation Vacation(運(yùn)營假期)」,本質(zhì)則是精準(zhǔn)而高效的數(shù)據(jù)自動(dòng)標(biāo)注能力。
這樣的「假期」,首先體現(xiàn)在高到「變態(tài)」的人力效率——Andrej 表示基于目前的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),一個(gè)深度學(xué)習(xí)網(wǎng)絡(luò)所需的工程師數(shù)量,僅有 20 個(gè)。
有意思的是,Andrej 在演講中說「有些場景中,額外的傳感器也會用于自動(dòng)標(biāo)注,比如雷達(dá)」。
自動(dòng)標(biāo)注能力不是憑空得來的,Andrej 稱最近四個(gè)月,團(tuán)隊(duì)都在致力于讓深度、速度、加速度等信息標(biāo)注更加高效。
4. 理解交通,不僅需要「教材」,還需要「做題」。
目前 Andrej 的團(tuán)隊(duì)總結(jié)出 221 個(gè)純視覺「trigger」,也就是觸發(fā)條件。
這 221 個(gè)觸發(fā)條件的解釋包含了大量專業(yè)術(shù)語,事實(shí)上大家并不需要完全理解,因?yàn)樗鼈兊墓餐饔茫际恰笍挠脩赳{駛過程中獲取多樣化場景」。
它們就是 Autopilot 軟件團(tuán)隊(duì)為純視覺自動(dòng)駕駛準(zhǔn)備的「習(xí)題」,幾乎永不停歇。
當(dāng)然,給純視覺 FSD 上課,并不像人類駕校的科目一科目二,但特斯拉也有相對固定的流程。
首先需要的是「seed data set 種子數(shù)據(jù)集」
然后用它們訓(xùn)練出深度學(xué)習(xí)網(wǎng)絡(luò)
將其以「影子模式」的形式部署至用戶車輛中
深度學(xué)習(xí)網(wǎng)絡(luò)做靜默預(yù)測
完善深度學(xué)習(xí)網(wǎng)絡(luò)偏差溯源機(jī)制
用觸發(fā)條件獲得差異化場景
部分場景需要經(jīng)歷獨(dú)立測試
大致經(jīng)歷以上流程之后,所有被自動(dòng)標(biāo)注(同時(shí)保證數(shù)據(jù)得到清洗)的場景數(shù)據(jù),就會成為純視覺 Autopilot 學(xué)習(xí)駕駛課程的知識,然后被應(yīng)用到實(shí)際道路上。
Andrej 放出了這張 PPT:7 輪影子模式迭代流程、100 萬個(gè) 8 攝像頭、36 幀、10 秒時(shí)長的高度差異化場景、60 億個(gè)包含精確深度/加速度的物體標(biāo)注,以及 1.5PB(1PB=1024TB=10242GB)數(shù)據(jù)量。
另外,在已釋放的影子模式下,做純視覺 Autopilot 的驗(yàn)證,也是深度學(xué)習(xí)進(jìn)化的重要環(huán)節(jié)。
這里還是放工作成果吧,Andrej 的 PPT 給出了下面的數(shù)字:
6000 個(gè)人工挑選的挑戰(zhàn)性片段、70 類不同場景、10000 個(gè)模擬場景、相當(dāng)于 10 年實(shí)際時(shí)長的 QA 駕駛(quality assurance質(zhì)量保證),以及影子模式下相當(dāng)于 1000 年的駕駛時(shí)長。
目前純視覺版本已經(jīng)積累了約 1500 萬英里的數(shù)據(jù),其中 170 萬英里在 Autopilot 啟動(dòng)情況下收集,目前還沒有純視覺版本的事故——Andrej表示「我們認(rèn)為事故總是會有的,目前雷達(dá)融合版本 Autopilot 的事故率大概是 500 萬英里一次」。
真夠凡爾賽的。
5. 最后是「處理場景的能力」,也就是「算力」。
文章寫到這里,純視覺 FSD 的第一性原理方法論,來到了最后一關(guān)。特斯拉可以獲得視覺數(shù)據(jù),可以訓(xùn)練深度網(wǎng)絡(luò),唯一欠缺的,就是一顆大腦。
這塊板子是特斯拉 Autopilot 硬件 3.0,兩塊顯眼的芯片能提供 144TOPS 的 INT8 算力,這已經(jīng)是量產(chǎn)王者。明年英偉達(dá)的 Orin 即將上車,單顆芯片算力可以達(dá)到 254TOPS,看上去也非常不錯(cuò)。
然而它們?nèi)匀缓茈y與人腦媲美——說「很難」已經(jīng)是在夸獎(jiǎng)它們了。
于是特斯拉「取巧」了:人腦不能外借,算力卻可以來自別處。
下面這張 PPT,介紹了特斯拉訓(xùn)練純視覺深度學(xué)習(xí)網(wǎng)絡(luò),而打造的數(shù)據(jù)中心。雖然硬件 3.0 算力和人類有差距,但借助數(shù)據(jù)網(wǎng)絡(luò),特斯拉可以以超級計(jì)算機(jī)的形式,挑戰(zhàn)人腦。
數(shù)據(jù)中心的大腦,是來自英偉達(dá)的最新一代 A100 加速計(jì)算卡——的頂配版:A100 80GB Version。
整個(gè)數(shù)據(jù)中心里面一共有 720 組計(jì)算卡,每組包含 8 張 A100,合計(jì)5760 張,Andrej 的 PPT 顯示,F(xiàn)P16 精度下,這臺超算的算力高達(dá) 1.8EFLOPS。
Andrej 表示這大概是世界上第五強(qiáng)的超級計(jì)算機(jī)——之所以達(dá)到 1.8EFLOPS 的算力依然沒有問鼎全球超算,是因?yàn)?/span>特斯拉宣傳用的算力標(biāo)準(zhǔn)不一樣。
目前超級計(jì)算機(jī)的算力都是按照 FP64 雙精度計(jì)算,而特斯拉的 1.8EFLOPS 用的是 FP16 精度。
按照 FP64 精度計(jì)算,特斯拉用的 5760 塊 A100,并行算力達(dá)到了 55872TFLOPS。
這個(gè)數(shù)字與目前排第 5 的 PERLMUTTER還有差距—— 63460TFLOPS,但我想沒有人會挑剔 Andrej 的小小失誤,因?yàn)檫@臺計(jì)算機(jī)已經(jīng)足夠驚艷。
無超算,不車企?
文章的主體已經(jīng)寫得差不多了,下面是有感而發(fā)環(huán)節(jié)。
為什么特斯拉打造了一臺超算?
因?yàn)楫?dāng)下,自動(dòng)駕駛和人類駕駛的最大差距,已經(jīng)不是獲得視野的能力,卻恰是處理視野的能力。
CVPR 演講的最后,Andrej 劇透了一下真正的 Dojo,是的,上文大家看到的這臺由車企打造的超級計(jì)算機(jī),還不是 DOJO 本尊,而只是特斯拉純視覺星辰大海的起點(diǎn)。
Andrej 表示:「我們正在推進(jìn) DOJO 計(jì)劃,會將(深度學(xué)習(xí)計(jì)算)帶到另一個(gè)階段,但我還沒準(zhǔn)備好透露更多細(xì)節(jié)。」
「如果關(guān)于這個(gè)應(yīng)用(純視覺自動(dòng)駕駛)的高性能計(jì)算,以及這個(gè)瘋狂的神經(jīng)網(wǎng)絡(luò)讓你感興趣,請聯(lián)系超級計(jì)算團(tuán)隊(duì),如果你可以為特斯拉提供幫助的話,我們會非常感激。」
在特吹群體里,DOJO 是一個(gè)神圣的詞匯。
每當(dāng)特斯拉 VS 其他車企的論戰(zhàn)掀起帷幕,DOJO 總能成為制勝一擊,它甚至是特斯拉鮮為人知的「護(hù)城河」——因?yàn)樗翘厮估?1,而其他車企都是 0。
DOJO,從立項(xiàng)之日起,也許就是特斯拉補(bǔ)全純視覺 FSD 的最后拼圖。它還是世界上第一臺「汽車公司」打造的「超級計(jì)算機(jī)」——兩個(gè)本該風(fēng)馬牛不相及的詞語,偏生在 2021 年碰撞出了火花。
如果上面這臺算力巨獸還只是特斯拉「小試牛刀」,那么真正的 DOJO 到底會有多驚艷?
更重要的是,再過幾年,有沒有屬于自己的超算,會不會成為衡量一家車企自動(dòng)駕駛能力的重要標(biāo)志?
「第一性原理」
標(biāo)題是「純視覺 FSD 背后的哲學(xué)」,那文章的最后,我們就來聊聊哲學(xué)。
「第一性原理」,這是眾所周知的,馬斯克的思考準(zhǔn)則。
2013 年 12 月 4 日,馬斯克接受 innomind 采 訪時(shí)表示:「我習(xí)慣于從物理學(xué)的框架上獲得結(jié)論。物理教會你用第一性原理溯源,而不是用類比。」
自從特斯拉和 SpaceX 成為各自領(lǐng)域里面的旗幟,馬斯克堅(jiān)持的「第一性原理」被越來越多的人奉為圭臬。
早在約 2400 年前,洪荒時(shí)期理工男亞里士多德,已經(jīng)表達(dá)過類似的觀點(diǎn):「在每一系統(tǒng)的探索中,存在第一原理,是一個(gè)最基本的命題或假設(shè),不能被省略或刪除,也不能被違反。」
找到事物唯一的原命題,并解決它,這就是第一性原理的通俗解釋,也是數(shù)千年來理工男們改變世界的一種「類信仰」般存在。
縱觀特斯拉 18 年發(fā)展歷程,「第一性原理」貫穿其內(nèi)。
「加速世界向可持續(xù)能源發(fā)展」,這是馬斯克加入特斯拉之后,為其尋找的「原命題」。
要實(shí)現(xiàn)這樣的目標(biāo),特斯拉需要證明可持續(xù)能源是「值得發(fā)展」的,于是有了兼顧性能和環(huán)保的,堪稱汽車「悖論」的 Roadsteds/a>,以及之后的 Model SEXY,等等。
自動(dòng)駕駛,以及堪稱「瘋狂」的車艙智能化,則是在電動(dòng)汽車行業(yè)探索多年之后,特斯拉順理成章的發(fā)展方向。
智能依然是解決特斯拉原命題的方案,因?yàn)槿詣?dòng)駕駛、高級智能座艙、FOTA...這些只有整車可控的純電汽車,可以實(shí)現(xiàn)。而全自動(dòng)智能出行,是解放人類生產(chǎn)力的必然選擇。
其實(shí)所有人都不知道純視覺 Autopilot 究竟表現(xiàn)如何,因?yàn)樗€沒經(jīng)歷過千萬上億級公里數(shù)、不同國家路況的認(rèn)證。
但我們很清楚地感知到,特斯拉早已 All in 純視覺。
無論是去掉毫米波雷達(dá),還是斥巨資打造專有的超級計(jì)算機(jī)——1 組 4 個(gè) A100 加速卡組成的 DGX 機(jī)柜就要賣 14.9 萬美元,約合人民幣 96 萬——而特斯拉目前已經(jīng)用了 5760 個(gè)。
第一性原理似乎有著神奇的魔力,可以讓一群人步調(diào)一致、信念統(tǒng)一地鉆研、工作,即使其他 99% 的人都在否定,或者至少不看好他們。
我們無需懷疑特斯拉的認(rèn)真,只需要檢驗(yàn)特斯拉的成果。
(完)
來源:第一電動(dòng)網(wǎng)
作者:電動(dòng)星球News蟹老板
本文地址:http://m.155ck.com/kol/150264
文中圖片源自互聯(lián)網(wǎng),如有侵權(quán)請聯(lián)系admin#d1ev.com(#替換成@)刪除。