国产GPU正式进入万卡万P时代！摩尔线程智算集群扩展至万卡-麦子文章

无论是游戏显卡还是AI加速卡，NVIDIA都已经是绝对垄断地位，而在当前的形势下，我们不但要有自己的游戏卡，更要有自己的加速卡。

这个重担，摩尔线程英勇地都扛了起来，率先交付全国产千卡千亿模型算力集群之后，又率先拓展到了万卡、万P、万亿规模！

摩尔线程重磅宣布，AI旗舰产品夸娥（KUAE）智算集群解决方案重大升级，从当前的千卡级别，扩展至万卡规模，从而具备万P级或者说10E级浮点运算能力，也就是每秒可执行千亿亿次级别的计算。

所谓万卡集群，顾名思义，就是由1万张甚至更多GPU计算加速卡组成的高性能计算系统，主要用来训练、微调超大规模的基础大模型。

这种超级集群全面整合了高性能GPU计算、高性能RDMA网络、高性能并行文件存储、智算平台等全套软硬件技术，堪称一台超级计算机”，可支持千亿级、万亿级参数规模的大模型训练，可以大幅提高训练效率、缩短训练时间，快速迭代模型能力。

在国外，诸多科技巨头都已经部署了万卡集群，拥有数万甚至数十万张GPU加速卡。

比如马斯克近日就透露，新一代AI聊天机器人Grok 3就动用了多达10万张NVIDIA H100加速卡进行训练，因此将会非常特别”，为此耗资多达三四十亿美元。

再比如谷歌的超级计算机A3 Virtual Machines拥有2.6万块H100 GPU，Meta训练下一代大模型的两个集群拥有24576块H100 GPU，16个专家模型和1.8万亿参数的GTP-4需要在大约2.5万块A100 GPU上训练90-100天。

在国内，字节跳动、阿里巴巴、百度、科大讯飞等也都在积极推动万卡集群的建设。

比如字节跳动搭建了一个12288张卡的训练集群，研发MegaScale生产系统，用于训练大语言模型，科大讯飞2023年建成了首个支持大模型训练的超万卡集群算力平台飞星一号”。

由此可见，在AI模型训练的主战场，万卡集群已成为最低入场券。

但是，万卡集群乍一看只是千卡集群的拓展和延伸，它绝非简单的更多计算卡叠加，而是一个超级复杂的系统工程，需要解决超大规模组网互联、集群有效计算效率、训练高稳定与高可用、故障快速定位与可诊断工具、生态Day0级快速迁移、未来场景通用计算等众多难题。

那么，万卡集群如此难做，摩尔线程作为成立还不到4年的国产GPU企业，为什么要去挑战呢？

这是一条难而正确的事情，摩尔线程推出夸娥万卡智算集群解决方案，就是希望能够建设一个规模超万卡、场景更通用、生态兼容好的一个加速计算平台，并优先解决大模型训练的难题。

摩尔线程创始人兼CEO张建中强调：要挑战最难做的事情，除了有勇气之外，还要有能力，要有很好的团队，有很强的研发、生产、制造、销售、市场、服务等等方方面面的人才，否则是很难做成的。做成一件事情，其实不是偶然的，而是要花很多时间去建立的。每一家成功的企业都有很多正确的决定，但是不管什么样的决定，真正强的团队才是核心。摩尔线程就有很强的团队，这么多年的经验，我们在GPU行业里的知识、Know-how，碰到过的困难，解决过的难题，对我们来说都是非常宝贵的经验。”

夸娥，是摩尔线程的智算中心全栈解决方案，以其自主研发的全功能GPU为底座，包括以夸娥计算集群为核心的基础设施、夸娥集群管理平台（KUAE Platform）、夸娥大模型服务平台（KUAE Model Studio），软件硬件一体化，训练推理一体化，交付一体化，可以开箱即用，提供大规模GPU算力集群的建设、运营管理。

摩尔线程的夸娥万卡集群具备PB级的超大显存总容量、PB/s级的超高速卡间互联总带宽、PB/s级的超高速节点互联总带宽，可实现系统性协同优化，从而达到超强的算力，并且MFU最高可以达到60％。

稳定性也是卓尔不群，平均无故障运行时间超过15天，最长可以稳定训练大模型30天以上，周均训练有效率超过99％，远超行业平均水平，而且可以性能自动调休、问题自动诊断，2分钟内就能快速修复，进而断点续训练。

这得益于摩尔线程自主研发的一系列可预测、可诊断的多级可靠机制，包括：软硬件故障的自动定位与诊断预测，实现分钟级的故障定位；Checkpoint多级存储机制，实现内存秒级存储和训练任务分钟级恢复；高容错高效能的万卡集群管理平台，实现秒级纳管分配与作业调度。

此外还有强大的通用性，支持所有主流大模型训练，可加速LLM、MoE、多模态、Mamba等不同架构、不同模态，支持主流分布式训练框架(Colossal-AI、DeepSpeed、Megatron-LM、Flag Scale)。

同时，基于高效易用的MUSA编程语言、完整的CUDA生态兼容、自动化迁移工具Musify，开发者只需极短的时间、极少的工作就能完成迁移，甚至几乎不需要修改代码，迁移成本趋近于零。

值得一提的是，摩尔线程表示，如果已经适配过摩尔线程的千卡集群，不需要任何额外工作就可以无缝跑在万卡集群上，而哪怕是第一次适配万卡集群，也只需几个小时，只是性能调优需要花一点时间，主要是模型使用方法不同、芯片厂商策略不同所致。

目前，摩尔线程已经实现从芯片到算力卡，从一体机到节点集群的全栈式覆盖，支持从单机多卡到多机多卡、从单卡到千卡万卡集群的无缝扩展。

－大模型智算加速卡MTT S4000

训推兼顾，专为大模型打造的大模型智算加速卡。

单卡支持 48GB 显存、768GB/s显存带宽，并支持摩尔线程自研MTLink 1.0互连技术，卡间互连带宽240GB/s，从而支持高效多卡互联。

－ AI大模型训推一体机MCCX D800

双路八卡GPU服务器，专为支持MTT S4000大模型智算加速卡充分发挥其训推性能、稳定性、可靠性的服务器系统。

它还具备多达1664GB DDR5内存、2480GB SATA系统盘、43.84TB NVMe SSD缓存数据盘、双路400Gb IB与四路25Gb以太计算存储网络。

－ AI超融合一体机（KUAE FUSION）

夸娥智算集群的单个节点，如今也可作为单独产品提供，可以任意并联扩展。

它基于MCCX D800 训推一体机，属于可灵活部署的推理、训练、微调软硬件一体化解决方案。

目前，摩尔线程万卡集群项目已经完成了三项战略签约，分别是：

与青海移动的青海零碳产业园万卡集群；

与青海联通、北京德道信科集团的青海高原万卡集群，；

与中国能源建设、桂林华崛大数据的广西东盟万卡集群。

生态方面，摩尔线程的版图也正在迅速扩大。

国内众多AI厂商、云厂商、科技厂商、软件厂商和、科研院校机构等，都与摩尔线程有着深入的合作，尤其是利用摩尔线程夸娥智算集群，助力大模型训练、大模型推理、具身智能等不同场景和领域持续创新。

在上海举办的世界人工智能大会WAIC 2024期间，摩尔线程也展示了自己的全栈解决方案。

除了芯片、算力卡、服务器、一体机节点之外，还有AI算力底座、AIGC创作生产力、产业升级三大展示区。

AI算力底座展示区，包括夸娥集群管理平台、夸娥模型服务平台、夸娥大模型推理平台，以及夸娥生态版图。

夸娥集群管理平台是摩尔线程大规模GPU计算集群产品可视化管理平台，是用于Al大模型训练、分布式图形渲染、流媒体处理和科学计算的软硬件一体化平台，深度集成全功能GPU计算、网络和存储，提供高可靠、高算力服务。

夸娥模型服务平台覆盖大模型预训练、微调和推理全流程，支持所有主流开源大模型。通过摩尔线程MUSIFY代码移植工具，可以良好兼容CUDA应用生态，内置的容器化解决方案，则可实现API一键部署。

夸娥大模型推理平台，基于高效的MT Transformer大模型推理引擎，支持业内主流vLLM推理框架、MUSA Serving自研推理框架等，帮助开发人员高效地在云端部署高性能推理服务。

AIGC创作生产力展区，可以看到依靠夸娥智算集群、基于图形计算和AI计算的软硬件一体化AIGC内容创作平台摩笔马良”。

它部署了摩尔线程自研大语言模型MUSAChat，可以及时润色、翻译用户的输入文本，进一步增强语义理解，还可以基于用户的文本指向，灵活调用SDXL、SD1.5两代模型能力，生成细节丰富、有艺术感的图像结果。

同时，结合多种IP-Adapter、ControlNet技术，它还支持创意人像”，上传一张个人照片，以文字描述目标风格，1分钟内就可以得到细腻、逼真的人像图片，而且无需训练、风格不限。

摩笔天书”则是依靠夸娥智算集群的AI内容生成解决方案，可提供一站式、多模态、全流程、全自动的绘本生成创作体验。

用户只需输入标题和简要的故事大纲，即可一键生成完整故事、绘本图片、旁白、字幕、背景音乐等素材，并自动合成图文绘本故事和视频绘本故事。

MT AIR”(MT AIReality)是摩尔线程自研的新一代的AI渲染平台，构建拥有照片级、视网膜级、堪比物理世界真实度的实时渲染管线，轻松实现三维重建，可用于影视、动画、游戏、元宇宙等领域。

Sora复现计划”(Open-Sora-Plan)是由北京大学、兔展AIGC联合实验室共同发起的开源项目，利用开源社区的力量，完成对Sora文生视频的复现，当前在Github上有超过1万开发者，摩尔线程则是国内极少数支持运行Open-Sora-Plan视频生成模型的国产GPU公司。

在产业数智化升级展示区，可以看到基于人工智能气象预报大模型书生风乌的气象预测应用、基于东华软件私有化大模型智多型（A.I.Cogniflex）的公共安全应用、佳都全息路口解决方案的数字交通应用、基于中科闻歌自主研发雅意大模型的辅助决策应用、智慧安防应用、智能金融应用、智慧政务应用等等。

值得一提的是，依托夸娥智算集群的强兼容、高算力等特性，风乌成功在24小时内就完成了从CUDA到MUSA的无缝、快速生态迁移，首次实现从硬件到算法的全国产化，且性能、精度均达到国际先进水平。