在"BEV+Transformer"趋势下,算法复杂度、数据规模以及模型参数均呈指数级提升,推动自动驾驶芯片向着大算力、新架构以及存算一体等方向演进。
1)大算力:向数百TOPS算力演进。传统L1/L2辅助驾驶所需处理的数据量小且算法模型相对简单,因此以Mobileye为代表的单目视觉+芯片算法强耦合的一体机方案即可满足需求。但领航功能作为高阶辅助驾驶的代表,需要"更强算力+软硬件解耦的芯片+域控制器"来满足海量数据处理与后续持续OTA迭代的需求。高速领航开始向20万以下车型渗透,15-30TOPS可满足基本需求,但若想要"好用"或需要30-80TOPS。城区领航的场景复杂程度和技术实现难度更高,目前普遍需要搭载激光雷达,芯片以英伟达Orin、华为MDC和地平线J5为主,算力配置普遍超200TOPS。而在应用"BEV+Transformer"技术后,多传感器前融合以及2D至3D空间的转化需要AI芯片具备更强的推理能力,因此也需要比以往更大的算力支撑,包括更高的AI算力、CPU算力和GPU算力。
2)新架构:加强并行计算能力和浮点运算能力。相较于CNN/RNN,Transformer具有更强的并行计算能力,可加入时间序列矢量,其数据流特征有显著差别,浮点矢量矩阵乘法累加运算更适合采用BF16精度。Transformer允许数据以并行的形式进行计算,且保留了数据的全局视角,而CNN/RNN的数据流只能以串行方式计算,不具备数据的全局记忆能力。传统AI推理专用芯片大多针对CNN/RNN,并行计算表现不佳,且普遍针对INT8精度,几乎不考虑浮点运算。因此想要更好适配Transformer算法,就需要将AI推理芯片从硬件层面进行完整的架构革新,加入专门针对Transformer的加速器,或使用更强的CPU算力来对数据整形,这对芯片架构、ASIC研发能力,以及成本控制都提出了更高的要求。以特斯拉、地平线为代表的厂商均"重ASIC(即AI推理专用芯片),轻GPU"。特斯拉引领BEV+Transformer路线,以专用NPU(神经网络处理器)承担AI运算,在NPU设计之初便进行了针对性优化。而地平线等后来者或需要在下一代芯片中对AI推理芯片架构进行针对性优化。
3)存算一体:SoC芯片需配置高带宽存储器(HBM)或SRAM,并加速向存算一体靠拢,解决大算力下的数据吞吐量瓶颈。模型越大,内存对AI加速器就越重要,以频繁地读取权重矩阵或训练好的模型参数。据佐思汽研介绍,Transformer中的权重模型超过1GB,对比传统CNN的权重模型通常不超过20MB。模型参数越大,就需要更高的带宽,一次性读出更多参数。存算一体可分为近存计算(PNM)、存内处理(PIM)以及存内计算(CIM),存内计算则接近存算一体,当前PNM已广泛用于高性能芯片,即采用HBM堆叠,2.5D封装,从而与CPU集成,而PIM和CIM仍处在发展中。以特斯拉FSDSoC为例,其采用总带宽为68GB/s的8颗LPDDR4内存,而集成在NPU中的SRAM可达到32MBL3缓存,带宽达2TB/s,远超市面上同类芯片。而据汽车之心微信公众号,特斯拉在最新HW4.0上的二代FSDSoC上使用了16颗GDDR6,在内存用料上继续引领行业。
自动驾驶芯片是汽车智能化的底层基石,技术壁垒高,格局相对较优。我们认为传统L2和基本高速领航的算力需求约5-30TOPS,地平线J2/J3和TITDA4系列较受欢迎。较优高速领航的算力需求约30-80TOPS,此前该市场较为空白,黑芝麻A1000和英伟达OrinNX/Nano有望进行填补。城区领航的算力需求普遍超200TOPS,英伟达身位领先,高通野心勃勃,地平线凭借J5已开启国产替代进程;而感知端向大模型升级或导致自动驾驶芯片架构进化辉羲智能等公司则有望借机切入高端市场并分得一杯羹。
在国内小算力芯片(单颗算力<30TOPS)市场,地平线抓住时间窗口进行国产替代,逐渐抢夺Mobileye市场。展望未来,地平线J2/J3和TITDA4系列有望成为主流选择。
地平线:具备先发优势,有望持续受益于国产化替代浪潮,走在国内小算力芯片市场的前列。地平线J2/J3芯片分别具备4/5TOPS算力,在推出时瞄准Mobileye所在的ADAS市场,且相比于MobileyeEyeQ4具备更高算力与开放性,因此凭借芯片产品力、较完善的工具链以及本土化服务能力,在供应链安全可控背景下,迅速受到众多有软件算法自研需求的本土车企青睐。据高工智能汽车数据,2022年1-11月,地平线芯片在国内市场的出货量已位列第二,超越Mobileye,仅次于特斯拉。我们认为,地平线J2/J3率先卡位小算力芯片市场,伴随量产规模持续增大,更多车企将在同等性能条件下选择国产方案,地平线有望享受高速领航与行泊一体方案的红利。
TI:TDA4VM在架构完整度、功能安全性以及成本方面占优,有望成为10-20万车型轻量级行泊一体方案的主流选择之一。公司核心产品TDA4VM采用多核异构架构,集成CPU、DSP、DLA、GPU等多类单元,架构完整且集成度高,因此拥有更强的可扩展性与并行处理能力,利于车企进行灵活开发且性价比高。此外,TDA4VM算力为8TOPS,高于地平线J3和MobileyeEyeQ4,可实现单SoC轻量级行泊一体方案。当前,大疆、MAXIEYE、Nullmax、禾多科技、纵目科技等玩家都在基于TDA4开发行泊一体方案。但TI的相对劣势在于,TDA4VM在高负载下功耗可高至20W,对Tier1与主机厂的工程化能力提出极高要求;且相比于地平线软硬一体化的ASIC路线,TI芯片在实际计算效率上或相对落后。
中算力芯片(30-100TOPS)市场此前相对空白,以英伟达Xavier为主。但随着车企趋于理性,中端车型不再一味参与大算力芯片军备竞赛,但同时又希望实现较优的高速领航功能,中算力芯片需求有所上升。英伟达凭借Xavier以及OrinNX/Nano有望占据较大份额,黑芝麻A1000亦有望借本土化优势快速跻身量产第一梯队。
英伟达:Xavier和OrinNX有望占据中算力市场较大份额。2020年,英伟达针对L2市场发布Xavier芯片(30TOPS),搭载于小鹏P7/P5等车型;2022年又推出大算力Orin芯片(256TOPS),再次引领行业占据主流中高端车型市场,是此前所有瞄准L2+高阶辅助驾驶车型的选择。但随着行业回归理性,Orin对于大部分20-30万元的中端车型配置或过高,英伟达也因此通过硬件陆续推出OrinNX(70/100TOPS)和OrinNano(20/40TOPS),完善自身产品矩阵。鉴于OrinX当前已成功上车众多车型,经过量产可靠性验证,我们认为,较低配的OrinNX和Nano系列也有望共享同一套英伟达开发工具链与生态,以切入主流车企的中端车型市场。
黑芝麻:A1000精准填补50-100TOPS国产芯片市场空缺,预计2023年正式量产上车,有望跻身中算力市场第一梯队。黑芝麻A1000系列芯片覆盖L2至L2++,其中A1000芯片算力约58TOPS,预计2023年上车江淮思皓与领克08。黑芝麻自研神经网络加速器NPU以及图像信号处理ISP两大核心IP,使得A1000具备较高的算力利用率,功率效率>5TOPS/W,且能够做到卷积层平均80%的MAC阵列利用率,有助于客户在大模型与复杂算法场景下实现更高效的开发。同时,据36氪2023年4月的报道,黑芝麻目前能够实现BOM成本3000元以内的行泊一体域控方案,支持10V配置和50-100TOPS物理算力,有望帮助20-30万元价格带车型实现高性价比的高速NOA和行泊一体方案。
自动驾驶芯片加速上车,与芯片厂商深度合作的域控玩家和合作伙伴也有望受益。当前德赛西威深度绑定英伟达与高通,已推出基于Xavier&Orin的域控制器,以及基于高通SA8155的智能座舱域控制器。中科创达的子公司苏州畅行智驾汽车科技则于2022年获得高通投资,将专注于开发基于高通芯片的自动驾驶域控制器。地平线也已构建了丰富的产业生态圈,授权的硬件合作伙伴包括福瑞泰克、宏景智驾、映驰科技、英恒科技以及天准科技等。
欲了解更多中国智能驾驶行业的未来发展前景,可以点击查看中研普华产业院研究报告《2023-2028年中国智能驾驶行业市场深度全景调研及投资前景分析报告》。

关注公众号
免费获取更多报告节选
免费咨询行业专家