兩年前,日經亞洲評論刊登過一則報道:研究人員在拆解Model3后發現,Autopilot Hardware 3.0不僅是自動駕駛系統與多媒體控制單元的核心,更是讓特斯拉甩開其他競爭對手的關鍵武器。
一個高性能的硬件平臺,是處理預期增長的海量數據的基石,是自動駕駛系統不斷精進的技術依托。事實也證明,特斯拉近些年一直走在自動駕駛隊伍前列。但顯然,這只是一道開胃小菜。數據才是那個壓軸選手。
自動駕駛系統在前期開發階段,需要采集大量的道路環境數據,形成貫穿感知、決策、規劃與控制多環節的算法。隨著自動駕駛等級每進一步,場景的長尾性將大幅增加,數據量也會呈現指數級增長。
量產車在上市后亦是如此,仍需持續不斷回傳場景數據,對算法模型加以訓練和驗證,做進一步的優化迭代。因而數據被認為是車企發展自動駕駛技術的護城河。截止到去年6月,特斯拉已收集100萬支36幀10秒時長的高度差異化場景視頻數據,累計數據量約1.5PB,遠超Waymo。
如何獲取、存儲以及利用更多海量數據,是過渡到更高級甚至是實現完全無人化L5級自動駕駛的關鍵,也是越來越多的車企將目光瞄向超算中心的根本原因。
真正的主菜 無數據不智能
對于搭建自動駕駛系統而言,數據采集主要有兩種模式,一是靠采集車預先采集,二是靠量產車路測回灌。一些打算從事自動駕駛系統開發的公司往往面臨兩個難題,創建數據采集車隊難,打造量產車回傳隊伍更難。
結合IDC聯合英偉達發布的白皮書,在實車端采集數據,需要真實車輛搭載全套傳感器設備在真實場景中持續行駛,這通常會產生較高的測試成本。
與此同時,依靠實車路測難以對長尾場景實現全面覆蓋;某些場景還具有一定危險性,極有可能增加測試成本。另外,僅僅通過實車路測無疑會拉長研發周期,難以滿足當下市場對產品創新周期的需求。而一旦數據成了缺失項目,便無從談起自動駕駛。
“長尾場景”即種類多且出現頻率低的情景
自動駕駛時代,仿真由此成為硬需求。將真實世界中的物理場景通過數字建模進行數字化還原,自動駕駛系統便可以在虛擬環境中測試生成數據。
不僅測試速度優于真實物理世界的車輛水平,還可以在組裝樣車前就開啟自動駕駛系統算法的測試。通過預先收斂的算法精度,也能進一步提升實車測試效率。毋庸置疑,一個高效精準的仿真工具尤為重要。
至于為什么需要智算中心,如果進行大規模仿真測試,一定時間里測試多個10億量級的數據,算力將成為仿真效率的瓶頸。而算力早已不是一兩張GPU或者一個小集群就能構建出開發的基礎。
當數據變得越來越龐雜、越來越系統化,自動駕駛算法模型的復雜度不斷提升,模型體積呈幾何倍數增長,只有依靠數以百計、千計的GPU并行運算,才能在更長的訓練時長中完成對Transformer等模型的訓練,也只有數據中心能夠支持這種需求。
“超算中心是算法的根本,如果沒有超算中心,便沒有辦法打通自動駕駛這張牌。”英偉達汽車數據中心業務總監陳曄如此強調。這些要求都對數據中心的設計、建設和運維提出了更高要求。
造車新勢力中,小鵬已經率先和阿里云攜手在內蒙古烏蘭察布發布了智算中心“扶搖”,算力可達600PFLOPS(每秒浮點運算60億億次),可將自動駕駛核心模型的訓練速度提升近170倍。而蔚來、特斯拉等車企都選擇了英偉達提供的解決方案。
其中,蔚來采用英偉達HGX加速器平臺構建數據中心基礎設施,在此基礎上模型開發效率提高近20倍,加快了ET7、ET5等車型的量產上市速度。HGX整合了NVIDIA GPU、Mellanox等技術,以及在NGC(NVIDIA GPU Cloud)中優化的AI軟件堆棧。
特斯拉也是利用英偉達GPU來構建自己的超算中心。在英偉達自動駕駛客戶中,GPU使用規模最大的當屬特斯拉,目前已經部署120個DGX SuperPOD 分布式集群。
“DGX”是英偉達最強的服務器,內置8張NVIDIA GPU,“SuperPOD”是英偉達推出的最小化可交付超算中心,內有20臺DGX。換句話說,特斯拉整整用了2400臺DGX,近2萬張NVIDIA GPU。
“20臺服務器能夠做很多起步性的工作,但對于中國的造車新勢力們來說,20臺的數量遠遠不夠。”據陳曄稱,中國領先的自動駕駛客戶的使用需求量在300到600多臺DGX。
從完成數據采集、篩選到打標后,自動駕駛算法模型訓練、回放性驗證(推理過程)以及仿真測試這三大環節都離不開超算中心發揮作用。車企或者自動駕駛公司要想做好自動駕駛模型訓練,一個大規模超算中心是必需品。這其實也是車企自建數據中心的底層邏輯。
建一座超算中心,就完了嗎?
不過在起“量”之前,還有幾個問題需要思考。
搭建超算中心不僅與服務器相關,還涉及系統構建,包括GPU集群、存儲、高速網絡、軟件調度、機房管理、數據中心基礎設施建設等內容。每個部分都涉及大量組件,增加了設計階段的難度;
再者,無論是設備還是軟件的部署,都需要一個較長周期,在統一協調部署和集成方面存在很多挑戰;最后當數據中心設備全部安裝部署完后,如何讓其常用常新,一直保持最鮮狀態,維持最好的工作狀態同樣至關重要。
市場研究公司Forrester早些時候在一份調查報告中指出,超過6成的受訪企業認為自己的數據中心處于L3級階段。
這項調查通過采訪197位大中型企業的IT部門領導者和技術決策者發現,云計算、人工智能等技術有助于數據中心網絡提升自動化和智能運維的水平,但由于相關企業在建設和運維階段仍然依賴專家經驗和員工技能,導致效率低且易出錯。
在上述白皮書中還有一點,即無形的成本問題。車企和Tier1對搭建智算中心的預算普遍超過1億元人民幣,超過2億元的占到五分之一。AI科技公司和自動駕駛獨角獸也不乏投資過億者,然而這些還只限于前期投入。
開發自動駕駛技術是個燒錢活,以Waymo、Cruise等公司為例,三五年燒掉幾十億美元是家常便飯。再尷尬一點,一些自動駕駛公司持續燒錢卻毫無進展。硬件是錢,數據是錢,人才也是錢。
搭建人工智能計算中心投資金額(人民幣);圖片來源:IDC
比起自建超算中心,選擇合適的供應商或許能夠事半功倍。針對這些挑戰,英偉達可以提供端到端,從芯片到數據中心的一體化解決方案。
以SuperPOD超級計算機來說,其擁有支持從小規模迅速擴展的參考架構,可以從20臺變成40臺、80臺、1000多臺,像搭積木一樣不斷拓展。同時具備持續的軟件優化、“白盒”交付等特點。如此一來,車企便能將更多時間和精力聚焦在算法開發上,而非數據中心。
至少現階段,超算中心比拼的不一定是規模和服務器的數量,諸如效率、開發方法也將決定著自動駕駛模型的進度條,而這里面不僅涉及硬件,還涉及開發的AI框架、方法、管理平臺等等。誰能搶占先機,就有望先拿下一局。
英偉達會是唯一的答案嗎?
從市場過往的發展規律來看,高科技行業的第一梯隊將掌握在少數幾家公司手中,隨著科技新兵不斷入場,絕對意義的寡頭壟斷格局只會越來越脆弱。
眼下數據中心處理器市場,英偉達、英特爾和AMD幾乎100%形成壟斷格局。單就GPU計算芯片而言,英偉達和AMD持續對壘,前者份額超過8成。目前自動駕駛算法模型的訓練多以GPU為主,英偉達憑借以GPU構建服務器,基于“服務器+網絡”構建超算中心的方案正在積極搶市。
圍繞超算中心的戰爭已然打響,車企和自動駕駛公司要想拔得頭籌,唯有快、更快地行動。
來源:蓋世汽車
作者:徐珊珊
本文地址:http://m.155ck.com/news/qiye/192464
以上內容轉載自蓋世汽車,目的在于傳播更多信息,如有侵僅請聯系admin#d1ev.com(#替換成@)刪除,轉載內容并不代表第一電動網(m.155ck.com)立場。
文中圖片源自互聯網,如有侵權請聯系admin#d1ev.com(#替換成@)刪除。