中国自主芯片对标NVIDIA 功耗只有35W！2年就开发出来了-麦子文章

中国芯片，再添一股新势力——

国内首款存算一体智驾芯片，正式发布！

这款12nm芯片名叫鸿途H30，从性能表现上来看，在功耗仅为35W的情况下，最高物理算力可达256TOPS。

概括来说就是，芯片性能提升了2倍以上，但功耗却减少了超50%。

这一点，以Resnet50性能功耗为例，与国际芯片巨头英伟达主流产品做对比即可一目了然。

不过有一说一，除了“国内首款存算一体智驾芯片”之外，围绕鸿途H30所体现的“业界第一”还不仅于此。

它的问世也成为了存算一体大算力芯片在国内的首次工程化落地。

而打造鸿途H30背后的公司后摩智能（下文简称后摩），其自身也拥有着一个“业界第一”的标签——

国内首家存算一体大算力AI芯片公司。

更重要的是，以上种种的成绩，后摩是从自2020年底成立至今，仅仅花费2年多的时间“解锁”。

如此速度和效能之下，也令活动现场掌声不断。

不只是一颗芯片这么简单

我们进一步再来深入了解一下这款存算一体架构芯片。

许多了解芯片的小伙伴在看到“256TOPS”时，就会产生疑问：市面上不是已经有很多能够达到这个算力值的芯片了吗？

我们需要注意的是，鸿途H30亮出来的是物理算力，并非是市面上常说的稀疏虚拟算力。

这也就意味着它一举成为了国产智驾芯片里物理算力最大的那一个。

更难能可贵的是，在拿下最大算力的同时，功耗正如我们刚才提到的，仅为35W。

如此看下来，芯片的能效比便是几倍于同类的产品了。

除此之外，在活动现场，后摩对鸿途H30更多的细节参数做了展示：

12nm工艺

支持外扩Memory，宽带达128GB/s

支持16路FHD Encoder/Decoder

支持PCIe 4.0，x8，x4，x2，RC&EP mode

……

性能指标方面，鸿途H30与英伟达产品相比，在Resnet50 Batch=1和Batch=8上，分别达到了5.7倍和2.3倍。

计算效率方面，鸿途H30更是拿下了11.3倍和4.6倍的成绩！

那么具备如此高性能存算IP，如何能将其利用到位，便涉及到AI处理器架构和设计的问题了。

在活动现场，后摩将其背后的架构设计毫无保留地展示了出来——IPU（Intelligence Processing Unit）。

从整体来看，后摩在架构设计上的规划采用了“三步走”的策略。

首先便是第一代IPU天枢架构，这是专门为自动驾驶所打造的IPU，而刚才我们提到的鸿途H30正是基于此。

谈到这个架构是如何设计出来的，就不得不先提一下以往芯片的设计架构。

例如特斯拉FSD的集中式计算，就是非常典型的通过堆积大量计算资源来提高性能。

它就像是一个四合院，院子里啥都有，主人们在院子里可以尽情沟通交流，但问题也非常明显，就是四合院的面积就只有那么大，居住者数量就是有限的。

后来也有人提出了分布式计算的方法，把算力很大的核拆分成若干个小核；这些小核可以独立完成小任务，也可以共同完成大任务。

这种方式像是现代高层公寓，每层楼都有独立的基础生活功能，也可以方便复制和扩展；但问题是每层楼之间的沟通比较困难。

因此，后摩智能的天枢架构所采用的便是二合一的思路——结合古典中式建筑和现代高层建筑。

简单来说，每个芯片都包含4个IPU核；每个IPU核又有4个Tile；而每个Tile内部还有CPU、张量引擎、特殊功能单元、矢量处理器和多通道DMA等。

这样的架构使得AI计算不但不用在多个处理器（例如CPU，GPU，DSP）之间分配任务，甚至不用出AI核，就可以高效的完成全部端到端的计算。

这种架构还可以说是像一个综合办事大楼，走进去，一站式完成各种业务，大幅提高了效率。

总结来说，天枢架构的特点之一就是多核/多硬件线程实现计算效率与算力灵活扩展的平衡。

除此之外，它还可以摆脱系统总线的桎梏，其双环拓扑专用总线可以实现灵活的数据直传。

就像在多层空中四合院之间，建了个直接入户的电梯，可以快速做到传输。

至于后摩在未来要进一步研发的天璇架构和天玑架构，则将聚焦在扩大模型应用边界和通用人工智能。

在现场，后摩也展示了搭载鸿途H30后无人小车上路的实测。

但如果你觉得后摩仅仅是拿出来了一块芯片，那就有点too simple了些。

在如此短促的研发时间里，它还一口气发布了力驭域控制器和后摩大道软件平台。

力驭是后摩面向智能驾驶市场的大算力域控制器产品，据悉，只需要搭载单颗鸿途H30，便可以满足智能驾驶多种传感器、从L2到L4所有AI计算的需求。

最后，还有一个后摩大道软件平台，是为鸿途H30芯片产品开发的AI软件开发平台。

它的作用便是可以让客户在使用后摩存算一体架构产品时，能够将开发、调试和部署应用的效率大幅提高。

△注：后摩智能BEV模型实测