企業(yè)報(bào)道

存算一體芯片，會(huì)成為AI計(jì)算的原子彈嗎？

第一電動(dòng)大牛作者智車星球 2023-05-12 09:36

國(guó)產(chǎn)，存算一體，基于 12nm 工藝制程，在 Int8 數(shù)據(jù)精度下實(shí)現(xiàn)高達(dá) 256TOPS 的物理算力，典型功耗低至 35W，能效比高達(dá) 7.3Tops/W，高計(jì)算效率、低計(jì)算延時(shí)、低工藝依賴……

這是5月10日，后摩智能正式發(fā)布的首款存算一體智駕芯片鴻途?H30的關(guān)鍵參數(shù)，是不是讓你眼前一亮？

△后摩智能創(chuàng)始人兼CEO吳強(qiáng)

這款芯片的關(guān)鍵詞有兩個(gè)——“存算一體”和“智駕”。

后者并不陌生，且已有特斯拉FSD、英偉達(dá)Orin、地平線征程5等代表產(chǎn)品。因此，想要在這些產(chǎn)品中留下印象，“存算一體”是關(guān)鍵。

—

什么是存算一體？

存算一體這個(gè)概念最早可以追溯到上個(gè)世紀(jì)，沒有很快興起主要有兩個(gè)原因：

一是當(dāng)時(shí)存算一體雖然可以解決部分性能提升問題，但能解決的部分在整個(gè)系統(tǒng)中只占10%-20%，意義不大。更重要的一點(diǎn)是，過去幾十年摩爾定律還在持續(xù)被驗(yàn)證，行業(yè)并不需要架構(gòu)的創(chuàng)新，只需要每一到兩年升級(jí)一代芯片工藝，就能實(shí)現(xiàn)性能的快速提升和成本的同步降低。

但隨著摩爾定律逐漸走到盡頭，以及近幾年云計(jì)算和人工智能應(yīng)用的快速發(fā)展，數(shù)據(jù)洪流撲面而來，數(shù)據(jù)搬運(yùn)慢、搬運(yùn)能耗大等問題成為了計(jì)算的關(guān)鍵瓶頸。

△馮諾依曼架構(gòu)示意圖

在經(jīng)典的馮諾依曼架構(gòu)中，數(shù)據(jù)存儲(chǔ)與數(shù)據(jù)處理在物理上是兩個(gè)相互分離的單元，在數(shù)據(jù)處理過程中，處理器與存儲(chǔ)器之間需要不斷地通過數(shù)據(jù)總線交換數(shù)據(jù)。

從下圖不難看出，算力發(fā)展速度遠(yuǎn)超存儲(chǔ)器，導(dǎo)致存儲(chǔ)器的數(shù)據(jù)訪問速度愈發(fā)跟不上處理器的數(shù)據(jù)處理速度，后者性能與效率受到嚴(yán)重制約，這就是我們常說的“存儲(chǔ)墻”。

△截圖來自《存算一體芯片技術(shù)及其最新發(fā)展趨勢(shì)》

另外，從處理單元外的存儲(chǔ)器提取數(shù)據(jù)，搬運(yùn)時(shí)間往往是運(yùn)算時(shí)間的成百上千倍，整個(gè)過程的無用能耗大概在60%-90%之間，能效非常低。“功耗墻”，同樣成為了限制芯片發(fā)展的因素。

解決數(shù)據(jù)在計(jì)算單元和存儲(chǔ)單元之間頻繁的移動(dòng)問題，成了深度學(xué)習(xí)加速的最大挑戰(zhàn)。

過去幾年，行業(yè)嘗試了多種方法，例如為了減少數(shù)據(jù)搬運(yùn)的大粒度的指令（集）或?qū)Ｓ弥噶?/span>（集）、訪存優(yōu)化（替換/預(yù)取）、調(diào)度優(yōu)化、內(nèi)存/緩存壓縮、低擺幅電路、大緩存技術(shù)等；或是提高并行度的SIMD、SIMT、STMD、指令預(yù)測(cè)等技術(shù)；還有降低數(shù)據(jù)進(jìn)度、使用新型封裝、器材或材料等方式，但都未能從根本上解決數(shù)據(jù)密集型算力的問題。

突破兩堵墻，依然是關(guān)鍵，此時(shí)，存算一體架構(gòu)開始重入行業(yè)視野。

—

以場(chǎng)景做選擇

存算一體可以簡(jiǎn)單從字面理解為在存儲(chǔ)單元中潛入計(jì)算能力，以新的運(yùn)算架構(gòu)進(jìn)行二維和三維矩陣乘法/加法運(yùn)算，從本質(zhì)上消除不必要的數(shù)據(jù)搬移的延遲和功耗，大幅提高AI計(jì)算效率，降低成本。

從實(shí)現(xiàn)路徑上，雖然沒有統(tǒng)一的定義，但根據(jù)計(jì)算單元與存儲(chǔ)單元的關(guān)系主要有查存計(jì)算、近存計(jì)算、存內(nèi)計(jì)算和存內(nèi)邏輯，而目前行業(yè)中使用最多的是近存計(jì)算和存內(nèi)計(jì)算。

前者計(jì)算操作由位于存儲(chǔ)區(qū)域外部的獨(dú)立計(jì)算芯片/模塊完成，通過先進(jìn)的封裝方式以及合理的硬件布局和結(jié)構(gòu)優(yōu)化，增強(qiáng)二者間通信帶寬，增大數(shù)據(jù)傳輸速率，進(jìn)而提高數(shù)據(jù)處理效率。這種架構(gòu)設(shè)計(jì)的代際設(shè)計(jì)成本較低，適合傳統(tǒng)架構(gòu)芯片轉(zhuǎn)入。典型代表是AMD的Zen系列CPU，2021年年末，阿里達(dá)摩院推出基于SeDRAM的3D堆疊芯片也是采用了該技術(shù)路徑。

而存內(nèi)計(jì)算由位于存儲(chǔ)芯片/區(qū)域內(nèi)部的獨(dú)立計(jì)算單元完成，存儲(chǔ)和計(jì)算可以是模擬也可以是數(shù)字。

國(guó)外的Mythic，千芯、閃億、知存以及這次發(fā)布新產(chǎn)品的后摩智能都是這條路徑上的代表企業(yè)。

除了技術(shù)路徑，在存儲(chǔ)器選擇上，存算一體芯片也有兩個(gè)主要方向：

一、易失性存儲(chǔ)器，但在計(jì)算上具有突出的優(yōu)勢(shì)的，主要有SRAM靜態(tài)隨機(jī)存儲(chǔ)器和DRAM動(dòng)態(tài)隨機(jī)存儲(chǔ)器；

二、非易失存儲(chǔ)器，在芯片的成本上具有一定優(yōu)勢(shì)的，主要有RRAM 阻變隨機(jī)存儲(chǔ)器、MRAM 磁性隨機(jī)存儲(chǔ)器、FeRAM 鐵電隨機(jī)存儲(chǔ)器、PCM 相變存儲(chǔ)器、FLASH 閃存等。

世上沒有完美的選擇，自然沒有一種存儲(chǔ)器具備在所有場(chǎng)景下的絕對(duì)優(yōu)勢(shì)。因此，芯片企業(yè)存儲(chǔ)器件的選擇，以及數(shù)字存算還是模擬存算的選擇，都與應(yīng)用場(chǎng)景密切相關(guān)。

△截圖來自《存算一體芯片技術(shù)及其最新發(fā)展趨勢(shì)》

對(duì)于把重點(diǎn)放在智駕的后摩，SRAM顯然是其最優(yōu)解。

—

以新型架構(gòu)擴(kuò)展算力

根據(jù)后摩智能聯(lián)合創(chuàng)始人兼研發(fā)副總裁陳亮介紹，后摩面向智能駕駛場(chǎng)景打造了專用 IPU（處理器架構(gòu)）——天樞架構(gòu)，采用多核、多硬件線程的方式擴(kuò)展算力。

一個(gè)芯片里有4個(gè)完全相同的IPU核，每個(gè)IPU核內(nèi)部，又由4個(gè)完全相同的Tile組成，每個(gè)Tile對(duì)應(yīng)一個(gè)或者多個(gè)硬件線程，每個(gè)Tile的內(nèi)部又包括了CPU、Tensor Engine、Special Function Unit， DMA和Vector Processor等，其中Tensor Engine就是由存算電路和一個(gè)Feature Buffer，還有相應(yīng)的一些控制電路組成，這些計(jì)算單元在CPU的統(tǒng)一調(diào)度下進(jìn)行計(jì)算。

“在SRAM電路旁邊，我們加入了一些定制化的電路結(jié)構(gòu)，包括乘法器、加法數(shù)、累加器等，這些定制化的電路結(jié)構(gòu)和SRAM的電路整合在一起，就實(shí)現(xiàn)高效的存內(nèi)并行計(jì)算。存儲(chǔ)器單元中存儲(chǔ)的數(shù)據(jù)，可以在同一時(shí)刻一起讀出來參與計(jì)算。” 陳亮解釋說，“定制化的乘加電路和傳統(tǒng)的SRAM Bit Cell電路完全融合在一起，帶來更加規(guī)整的電路結(jié)構(gòu)，因而就有更緊湊的電路設(shè)計(jì)，面積也就相應(yīng)減少了。不管是傳統(tǒng)的SRAM電路，還是定制化的計(jì)算電路，都是純數(shù)字的設(shè)計(jì)，因而不會(huì)有任何的計(jì)算誤差。”

現(xiàn)場(chǎng)，陳亮還展示了后摩智能存算一體電路的一些技術(shù)參數(shù)與業(yè)界5nm工藝的對(duì)比。后摩這款芯片在采用相對(duì)更成熟的12納米制程后，按陳亮的說法，實(shí)現(xiàn)了“既要馬兒跑，又讓馬兒少吃草”的結(jié)果。

“我們已經(jīng)在28納米、22納米、16納米、12納米等不同工藝下進(jìn)行過流片和測(cè)試。”

△后摩智能聯(lián)合創(chuàng)始人兼研發(fā)副總裁陳亮

據(jù)悉，目前鴻途?H30 已成功運(yùn)行常用的經(jīng)典CV網(wǎng)絡(luò)和多種自動(dòng)駕駛先進(jìn)網(wǎng)絡(luò)，包括當(dāng)前業(yè)內(nèi)最受關(guān)注的 BEV 網(wǎng)絡(luò)模型以及廣泛應(yīng)用于高階輔助駕駛領(lǐng)域的 Pointpillar 網(wǎng)絡(luò)模型。以鴻途?H30 打造的智能駕駛解決方案已經(jīng)在新石器的無人小車上完成部署，這也是業(yè)界第一次基于存算一體架構(gòu)的芯片成功運(yùn)行端到端的智能駕駛技術(shù)棧。

—

量產(chǎn)，漫長(zhǎng)的季節(jié)

本次發(fā)布會(huì)，后摩智能同步推出了基于鴻途?H30 芯片打造的智能駕駛硬件平臺(tái)——力馭?，CPU 算力高達(dá)200 Kdmips，AI算力達(dá)256Tops（INT8物理算力），支持多傳感器輸入。官方介紹，力馭?平臺(tái)功耗僅為 85W，可采用更加靈活的散熱方式，實(shí)現(xiàn)更低成本的便捷部署，有利于推動(dòng)大算力智能駕駛場(chǎng)景的普及應(yīng)用。

此外，為了讓客戶擁有更好的產(chǎn)品使用體驗(yàn)，后摩智能還基于鴻途?H30 芯片自主研發(fā)了一款軟件開發(fā)工具鏈——后摩大道?，支持 PyTorch、TensorFlow 、ONNX 等主流開源框架，編程兼容 CUDA 前端語法，同時(shí)支持 SIMD 和 SIMT 兩種編程模型，兼顧運(yùn)行效率和開發(fā)效率，以無侵入式的底層架構(gòu)創(chuàng)新保障了通用性的同時(shí)，進(jìn)一步實(shí)現(xiàn)了鴻途?H30 的高效、易用。

據(jù)后摩智能聯(lián)合創(chuàng)始人兼產(chǎn)品副總裁信曉旭透露，鴻途?H30 將于6月份開始給 Alpha 客戶送測(cè)。同時(shí)，后摩智能的第二代產(chǎn)品鴻途?H50 已經(jīng)在全力研發(fā)中，將于2024年推出，支持客戶 2025年的量產(chǎn)車型。

△后摩智能聯(lián)合創(chuàng)始人兼產(chǎn)品副總裁信曉旭

行業(yè)對(duì)大算力芯片需求的激增，給了后來者后摩智能迎頭趕上的空間，不到半年時(shí)間完成芯片流片、點(diǎn)亮到發(fā)布，后摩對(duì)于時(shí)代給予的機(jī)會(huì)展現(xiàn)出了十分積極的姿態(tài)。不過這還僅僅是開始，想要進(jìn)汽車供應(yīng)鏈，產(chǎn)品送測(cè)后還有定點(diǎn)、訂單、小規(guī)模試裝，然后才是規(guī)模量產(chǎn)，量產(chǎn)后還要看終端的銷量……過程中的變數(shù)依然很大。

另一個(gè)重大課題，就是讓每一家科技公司都頭痛的工程交付。就像發(fā)布會(huì)現(xiàn)場(chǎng)一位下游需求方說的，“存算一體是個(gè)新的方向和嘗試，但關(guān)鍵要看量產(chǎn)落地的能力。”

對(duì)于后摩，依然有一個(gè)“漫長(zhǎng)的季節(jié)”，度過之后，將是另一片天地。

來源：第一電動(dòng)網(wǎng)

作者：智車星球

本文地址：http://m.155ck.com/kol/202412

返回第一電動(dòng)網(wǎng)首頁 >

文中圖片源自互聯(lián)網(wǎng)，如有侵權(quán)請(qǐng)聯(lián)系admin#d1ev.com（#替換成@）刪除。