Tesla、Nvidia、Mobileye智能驾驶芯片竞争分析
从特斯拉、英伟达、Mobileye的视角,看智能驾驶芯片的竞争格局
核心观点
智能驾驶芯片(又可称为自动驾驶芯片、ADAS芯片等),主要是让车辆能够实现自动驾驶的计算单元,是人工智能(AI)芯片的一部分,从计算机视 觉(Computer Vision,CV)出发,逐步演化出了针对汽车在驾驶中所遇到场景的算法;算法有自上而下(谷歌、百度)和自下而上(特斯拉、小鹏) 两种流派。在相关算法基础上,衍生出了相应的GPU(英伟达)和ASIC芯片(特斯拉、高通、Mobileye、地平线)。
伴随着汽车智能化的加速发展,智能驾驶芯片将迎来快速扩张的阶段,成长空间很大,我们测算2021~2025该领域市场规模会从19亿美元增长到54亿 美元,CAGR为30%。
由于自动驾驶属于新鲜事物,国内外差距不大,且国内整车厂智能化转型很快,对芯片需求很大,中国厂商存在机会。
推荐英伟达(NVDA.O),建议关注特斯拉(TSLA.O)、Mobileye/英特尔(INTC.O)、地平线(未上市)等。
风险提示:政府减少对自动驾驶领域的扶持政策导致自动驾驶市场增速放缓;自动驾驶相关领域、人工智能相关领域法律趋严,导致商业化项目迟迟 无法落地;自动驾驶相关技术无法达到商业化落地预期,整个产业发展缓慢等。
智能驾驶芯片:概览
表:智能驾驶性能汇总
1、自动驾驶芯片:人工智能领域的重要落地场景
2、特斯拉:软硬件一体化的代表
3、英伟达:中高端车型的首选方案
4、其他中外竞争对手:创业公司+传统汽车芯片公司
5 、风险提示
自动驾驶:高阶人工智能
芯片:通用芯片 VS 专门芯片
芯片行业特点:寡头格局,竞争壁垒高
人工智能:边缘芯片VS云芯片
汽车芯片:从MCU到SoC
智能驾驶芯片市场匡算
特斯拉:给汽车行业带来全面的革新
特斯拉:芯片的进化之路
芯片自研:一条难以复制的技术路线
各类顶级芯片研发人员聚集,为特斯拉芯片自研奠定基础:2016 年 1 月,Tesla从 AMD 挖来传奇芯片架构师 Jim Keller,任命他为 Autopilot 硬件工程 副总裁。Jim是芯片界传奇人物,曾效力于 DEC、PA semi(Apple收购以后才得以由能力研发自家处理器 A 系列)、AMD 、Apple,曾参与设计速龙( Athlon)K7 处理器和苹果 A4/A5/A6 处理器,是速龙 K8 处理器的总架构师,还是制定X86-64指令集者之一。2016年2月,Tesla又从Apple招到了研发 总监 Pete Bannon,Pete 是 A5 芯片核心的设计工程师,在那之前他是 PA Semi 的架构与验证副总裁。同时期,同样来自 AMD 的谷俊丽,在 Autopilot 硬件工程团队下开始组建机器学习小组,这个小组有两个任务:一个是搭建第二代自动驾驶硬件上的 AI 算法和机器学习软件,另一个是参与 设计 FSD 芯片的架构和上面的软件。
采用以深度神经网络为主的人工智能模型,再加上车端收集的大量数据,特拉斯ADAS水平迅速提升:基于全新深度神经网络的视觉处理工具Tesla Vision是 Autopilot团队抛开 Mobileye、从零搭建的一套视觉处理工具,它的背后,是全新的底层软件技术架构和云端大数据基础设施。Tesla Vision能 够对行车环境进行专业的解构分析,相比传统视觉处理技术可靠性更高;借助Tesla售出的车辆搜集的大量数据,反过来又可以对Tesla Vision的神经网 络进行训练和改进,进一步优化Autopilot。
除车端芯片FSD的研发外,特斯拉也开始涉足云端训练芯片,试图打通车云系统。从算力来看,其1.09EFLOPS的算力水平和Nvidia用4096块A100构建的 集群(1.28 EFLOPS);Huawei用4096块Ascend 910构建的集群(1.05 EFLOPS);Google用3456块TPU v4构建的集群(0.95 EFLOPS)相比,已经不相 上下。当然其对称式的设计理念,可能给超算领域带来全新技术路线的可能性。
特斯拉的芯片自研的成功,是天时地利人和共同作用的结果,竞争对手的可复制性很弱,主要原因有:(1)芯片顶级研发人才很难被车企 所招聘。特斯拉有很大程度是因为马斯克的个人魅力因素,才说服顶级芯片研发人员加入(2)自研芯片风险极高,前期投入较大(3)如果不能保证 使用的数量,则自研芯片性价比很低。因此,对于绝大多数车企来讲,外购芯片才是更好的解决方案。
FSD芯片:从算法需求倒推芯片架构,软硬件一体化实现高效算力
NNA核心体现了成本和功耗的优化
在每个计算周期,NPU都会从内置的32MB SRAM中读取256字节的激活数据和另外128字节的权重数据组合在一起进入乘法累加(Multiply Accumulate,MAC),每 个NPU都有一个96x96MAC阵列。在完成了MAC的乘法累加运算后,数据将会被转移到激活(Activations)以及池化部分(Pooling),并等待写入缓冲区汇总结果。在保障NPU具备强大运算能力的同时,对于它的功耗和成本优化Tesla也做了不少的努力。 NNA 设计了非常大的片上SRAM缓存,相较于Google的TPU,采用了 256×256的MAC,只有24MB的SRAM。对于这种特殊的设计,Tesla解释这样做是为了让数据尽可能地在片内周转,而不用频繁地与内存或者其他模块进行读写操 作。这样做不但可以提高性能,还可以有效降低功耗,因为(1)所有数据都在片上完成(2)NNA处理的神经网络计算并不需要太高的精度,所以设计的芯片只 支持8位乘以8位整数乘法和32位整数乘法,不支持任何浮点计算,也无需支持任何其他格式,还可以在很大程度上降低功耗(浮点运算的32位加法器功耗大约是 支持整数计算的32位加法器的9倍)。
除了上述计算过程外,Tesla在NNA的设计中还偏向于将硬件简化,并复杂化软件,这样做可以降低芯片成本。比如软件可以映射和分配单个SRAM库,在Tesla的 神经网络编译器的帮助下,还可以执行层融合操作,通过耦合conv-scale-act-pooling操作允许数据重用。编译器还可以通过执行层平滑处理来确保数据一致的内 存访问操作,还可以加入代码压缩、CRC校验等功能,保证数据的可靠性。在指令方面,Tesla认为之前一些NNA的设计方案在缓存、寄存器以及逻辑控制方面消 耗了大量能量,于是简化逻辑控制,设计了一个简单的指令集:包括DMA Read、DMA Write、Convolution、Deconvolution、Inner-product、Scale、Eltwidth、 Stop,流程控制更是只需要配置4个信息,简化了操作,可以将资源跟多集中在计算方面。
自动驾驶域:硬件成本约占整体硬件成本的3.5%
特斯拉自动驾驶硬件成本估算:特斯拉自动驾驶域的芯片成本约为5000元, 加上外围电路板以及组装、测试成本(组装厂为中国台湾广达集团),我们 预估总体成本约为8000人民币,如果以特斯拉的毛利率计算,假设Model 3的 成本为22.9万元,那么自动驾驶域的成本占特斯拉整车成本约为3.5%。
拥有自动驾驶软硬件解决方案的供应商
拿智能手机行业做对比,如果把特拉斯看作汽车界的苹果,那么英伟达可类比为汽车界的高通+安卓。
英伟达将人工智能领域的优势拓展到智能驾驶领域并拥有近十年的探索经验。GPU的并行架构适合人工智能领域的计算需求,英伟达敏锐的抓住这个特点,成为人 工智能芯片及软件工具链的主要供货商。在进行人工智能领域探索时,英伟达开始涉足智能驾驶及机器人业务,并在该领域拥有近十年的开发经验。
平台化芯片+完善的工具链是英伟达芯片的主要特征。
虽然拥有容易上手的开发工具,但较高学习门槛和自研智能驾驶算法的花销可能会阻挡中小客户的使用。
硬件优势:
GPU架构兼顾效率与通用性:效率高于CPU,通用性强于ASIC;设计壁垒高,垄断性强
用户基数保证规模效应:与其他业务平摊研发成本,版本迭代快,持续保证性能优势
端到端的解决方案:车端到云端训练基于同样架构。
软件(工具链)优势:
开放平台模式:客户可进行算法自研。
软件工具链丰富:开发了全套软件工具链(公司软件工程师占比超过70%),不仅通过软 件开发推动硬件的优化设计,还给用户提供丰富的示例与教程,帮助用户快速上手使用。
汽车芯片与其他业务保持协同
硬件架构:拓展嵌入式移动芯片到汽车领域
英伟达专注提供高性能服务,借助嵌入式移动芯片,拓展汽车市场。在智能手机兴起的2008年时,英伟达试图进入移动芯片市场。为此,公司开发了Tegra系列芯 片,采用了ARM的CPU架构,并集成了自家的GPU芯片,组成了一套SOC系统。早期的Tegra芯片注重功耗及效率的表现,主要用在微软的一款MP3和Kin手机、小 米3手机上,但后由于基带问题逐渐退出手机市场;后期则更专注于提供高性能,其典型产品是任天堂的Switch,英伟达的Tegra X1给任天堂Switch带来了极高的画 面体验。由于自动驾驶中对于画面的实时处理要求很高,因此后续的Xavier以及Orin系列也开发了相应的车规级芯片。从移动芯片的发展轨迹来看,英伟达的 CUDA核心数量也快速增长,RAM的容量和带宽也迅速提高,移动芯片的性能始终保持竞争优势。
表:英伟达移动芯片发展历程
计算平台:可采用多种搭配,灵活度高
产品自由度高,客户可根据需求选择合适的芯片平台方案。在Tegra系列芯片的 基础上,英伟达集成了一些特殊功能的GPU以及辅助芯片,推出了英伟达Drive 系列车载AI芯片平台。早期的车载AI芯片平台与单个移动芯片差别不大,但随 着车载系统的要求不断多样化,英伟达Drive系统也增加了很多选择。例如Drive PX Xavier仅配备了一块Xavier芯片,其算力为30 TOPS,功耗仅为30W,适合用 在L2级的量产车型中,例如小鹏P7就采用了此款车载芯片平台;对于L4级车辆 的车载AI芯片平台,仅仅一个Xavier芯片算力不够,因此采用了两个Xavier芯片 加上两个图灵架构的GPU,使算力达到了320TOPS,其功耗也增加到了500W; 蔚来希望打造自己的计算平台,因此从英伟达这里选购的是独立的Orin芯片。 不同的客户可以依照不同的使用场景选择适合的产品,这较大地增加了英伟达 车载AI芯片的使用场景。
软件及系统:易于上手且生态丰富
不仅算力领先,英伟达易于上手的软件工具链很大地了方便了芯片使用者的开发过程,从DRIVE OS到DRIVEWORKS、DRIVE AV、DRIVE IX,英伟达软件工具链 有着极为丰富的功能:同数据中心基础芯片类似,英伟达十分重视对软件工具链的开发。英伟达不仅花费了大量的研发资金,成立了测试小组专门改装了车辆以提 高英伟达的芯片及相关软件工具链的安全性与稳定性,还积极听取客户的意见并对相关要求作出回应。在不断的测试中,软件工具链的可用性也不断提高。安全、 可靠且易用的软件工具链不仅可以让软件开发人员快速上手并熟练掌握芯片的调用技巧,还可以保证软件的不会在汽车这个安全性要求极高的领域出现差错,这也 是整车厂采用英伟达方案的主要原因之一。英伟达的软件还有一个特点是其软件开放性高。有丰富软件开发能力的客户可以从底层操作系统开始自行研发,而初入 此领域的客户可以从较上层的应用软件开始研发,底层使用英伟达搭建的通用系统。英伟达灵活的使用方案适配性强,潜在客户数量较大。
软件工具链生态丰富
借助英伟达平台化芯片和虚拟测试平台,NVIDIA在ADAS、智能驾驶舱、高精度地图与定位等汽车相关领域不断开拓业务。NVIDIA DRIVE IX是一款可扩展的开放 式驾驶舱软件平台,借助NVIDIA DRIVE Orin集中计算架构,利用内部摄像头和多模式交互,满足司机、乘客需求,实现独特的AI用户体验。NVIDIA DRIVE Mapping可创建全自动、可扩展的高精地图,通过DRIVE Localization实现厘米级精度的车辆定位。英伟达通过收购DeepMap、与知名地图公司HERE等合作来开拓 地图领域。
客户群体:主要面向自研算法的车企和Tier 1厂商
决策算法是自动驾驶的核心竞争力,大型车企都会尝试进行算法自研,这是平台化芯片兴起的原 因。值得一提的是,造车新势力早期版本的车辆都采用了Mobileye的芯片,但由于无法自研算法 ,于是都转向了英伟达。小鹏的P7是中国最早的搭载Drive Xavier车载芯片的量产车型,于2020年 7月问世;由于英伟达车载芯片的良好编程平台基础,小鹏P7得以在短时间内数次OTA升级,向 用户推出了高速领航辅助驾驶NGP(Navigation Guided Pilot)以及不依赖停车场改造的自主泊车 功能,使车辆用户不断体验到最新的功能,也促进了汽车的销量。在商用车领域,英伟达也收获 了新的合作。专注于无人出租车Robotaxi的AutoX公司使用英伟达的车载芯片系统实现了L4级功能 ,专注于卡车领域的智加科技也宣布,即将交付给亚马逊物流的1000辆自动驾驶卡车也将采用英 伟达的车载芯片系统。据英伟达在FY2023Q1的财报电话会议透露,其自动驾驶在手订单达110亿 美元。
英伟达积极布局汽车领域上下游合作,合作形式包括芯片售卖、提供整体解决方案以及授权等。
英伟达芯片的使用成本仍然较高。虽然英伟达拥有完善的开发工具链,但针对汽车做适配和算法 开发仍然需要大规模的研发投入,与单片芯片的几百美元的购买成本相比,企业要投入的研发成 本以及合作授权费用才是大头,(1)通常需要配备至少200~300人的算法开发团队以及300人以 上的软件开发维护团队,以较早采用英伟达方案的小鹏为例,小鹏近2019-2021年的研发费用分 别为20亿、17亿以及41亿元,除汽车方面研发外,主要开支均在与英伟达Xavier、Orin芯片适配 和算法开发中。 (2)英伟达软件支持的授权费用通常在数千万美元左右。
Mobileye:视觉方案的探路者
视觉方案自动驾驶的先驱和L2级视觉解决方案的主要供应商:1999年,谷歌自动驾驶项目开始的十年前,以色列希伯来大学教授Amnon Shashua(他在读一篇论 文时注意到,在某些情况下,人类在闭上一只眼睛的情况下仍然能够判断距离)发现视觉技术用于汽车安全的可能性,创办Mobileye,致力于用单目视觉来解决三 维立体环境中的测距问题。自创立公司以来,Mobileye获得了视觉辅助驾驶领域的多项第一并提供了包括行人检测、车道保持和自适应巡航等辅助驾驶技术。到 2020年底,Mobileye累计售出约7330万枚EYEQ芯片(内含算法解决方案),在L2+方案的市场占有率约为70%。EYEQ系列芯片出货量由2014年的270万颗提升至 2021年的2810万颗,CAGR为39.7%。同时,Mobileye营收持续快速增长,2014-2020年总营收CAGR为37.4%。2017年3月,Mobileye被芯片巨头英特尔以153亿美元 的价格收购,成为以色列科技公司有史以来最大的一次收购。
Mobileye:Turnkey方案的出路?
算法封闭,车企无法利用数据资源形成差异化算法。不可否认的是,Mobileye的技术能力 很强。从视觉方案起家,到现在也研究激光雷达的融合方案,都有相当的亮点;成为Intel 子公司之后,从一家视觉算法公司成长成为提供一整套解决方案的公司。但先后与特斯拉 、小鹏、蔚来、理想等公司解约,也能看得出其角色之尴尬,2020年EyeQ芯片出货量增 速明显下滑(与新冠疫情的影响也有关系)。造车新势力早就看出自动驾驶能力才是车企 的核心竞争力,所以当然不会容忍Mobileye这样的封闭算法的模式(使用车辆提供的数据 不断增强算法能力,但并不与车企共享算法,数据能带来的价值会越来越高。据2020年麦 肯锡的报告预测,到2030年时汽车产生数据的价值可达4500~7500亿美元),虽然放弃 Mobileye会暂时削弱自动驾驶能力,例如2016年特斯拉与Mobileye解约后其Autopilot能力 明显下滑了,但特斯拉坚持自研自动驾驶才让特斯拉拥有今天的技术能力与估值。中国的 造车新势力也是走了和特斯拉类似的道路,都在先使用Mobileye的芯片一段时间之后转向 了开放程度更高、可以自研感知算法的英伟达芯片。Mobileye也意识到了这个问题,也宣 称EyeQ5会向用户开放部分算法,但其开放程度并未明确。
Turnkey方案使用成本低,对于总价较低的车型和中小车企更为实用。2021年销量迎来反 弹(2018-2021年营收为6.98/8.79/9.67/13.86亿美元)。
地平线:从算法出发,进行芯片自研
地平线:成立于2015年,主要从事边缘人工智能芯片的研发,具有领先的人工智能算法和芯片 设计能力,致力于通过底层技术赋能,推动汽车产业的创新发展。公司核心产品为芯片+算法+ 供应链+服务。
地平线是在自动驾驶芯片领域实现大规模上车的唯一中国厂商。
地平线的优势: 1. 从算法出发,进行芯片自研:地平线创始人拥有自动驾驶算法开发背景,因此公司是从算法出 发来设计芯片,与通用的以GPU为基础的英伟达芯片相比,在车端场景中拥有更高的效率。 2. 对算法迭代方向比较敏感:由于算法尚处于快速迭代中,而芯片从设计到流片生产至少需要 2~3年的时间,所以对于算法的进化方向需要有极强的敏锐性。 3. 软件工具较为丰富:与其他中国友商相比,软件工具较为丰富,客户使用起来较为方便,算力 释放效率也较为充分。 4. 具有性价比优势:CPU简配,某些型号没有GPU,且在软件授权和后续服务上有较多谈判空间 ,整体性价比高于国外大厂。 5. 国产替代/供应链安全。
地平线劣势: 1. 征程5规划偏保守,导致1高级别自动驾驶支持能力偏弱;2没有GPU,所以需要座舱芯片支持 2. 利润率水平偏低。
传统汽车芯片厂商:恩智浦、德州仪器、瑞萨
对于像恩智浦、德州仪器或者瑞萨来说,其主要优势为:
1. 产品落地经验丰富
2. 供应链管理能力强
以德州仪器的TDA4VM系列为例,
1. Texas Instruments TDA4VM/TFA4VM-Q1 Jacinto™ Arm®处理器基于Evolutionary Jacinto 7 架构,面向ADAS和自动驾驶汽车 (AV) 应用。该系列处理器基于TI在ADAS处理器市场处于 领先地位以来十多年积累的深厚市场认知。TDA4VM器件将高性能计算、深度学习引擎、 用于信号和图像处理的专用加速器以独特的方式组合在功能安全兼容的目标架构中,因此 非常适合用于多种工业应用, 包括机器人技术、机器视觉、雷达等。
2. Texas Instruments TDA4VM/TFA4VM-Q1以业界领先的功率/性能比为传统和深度学习算法 提供高性能计算。这些器件具有很高的系统集成度,从而使支持集中式ECU或独立传感器中 多种传感器模式的高级汽车平台实现可扩展性和更低的成本。关键内核包括具有标量和矢 量内核的下一代DSP、专用深度学习和传统算法加速器。这些器件还包括用于通用计算的最 新Arm和GPU处理器、集成式下一代成像子系统(ISP)、视频编解码器、以太网集线器以 及隔离式MCU岛。所有这些都由汽车级安全硬件加速器提供保护。TFA4VM-Q1器件符合汽 车应用类AEC-Q100标准。