国产GPU正式进入万卡万P时代!摩尔线程智算集群扩展至万卡

无论是游戏显卡还是AI加速卡,NVIDIA都已经是绝对垄断地位,而在当前的形势下,我们不但要有自己的游戏卡,更要有自己的加速卡。

这个重担,摩尔线程英勇地都扛了起来,率先交付全国产千卡千亿模型算力集群之后,又率先拓展到了万卡、万P、万亿规模!

摩尔线程重磅宣布,AI旗舰产品夸娥(KUAE)智算集群解决方案重大升级,从当前的千卡级别,扩展至万卡规模,从而具备万P级或者说10E级浮点运算能力,也就是每秒可执行千亿亿次级别的计算。

所谓万卡集群,顾名思义,就是由1万张甚至更多GPU计算加速卡组成的高性能计算系统,主要用来训练、微调超大规模的基础大模型。

这种超级集群全面整合了高性能GPU计算、高性能RDMA网络、高性能并行文件存储、智算平台等全套软硬件技术,堪称一台超级计算机”,可支持千亿级、万亿级参数规模的大模型训练,可以大幅提高训练效率、缩短训练时间,快速迭代模型能力。

在国外,诸多科技巨头都已经部署了万卡集群,拥有数万甚至数十万张GPU加速卡。

比如马斯克近日就透露,新一代AI聊天机器人Grok 3就动用了多达10万张NVIDIA H100加速卡进行训练,因此将会非常特别”,为此耗资多达三四十亿美元。

再比如谷歌的超级计算机A3 Virtual Machines拥有2.6万块H100 GPU,Meta训练下一代大模型的两个集群拥有24576块H100 GPU,16个专家模型和1.8万亿参数的GTP-4需要在大约2.5万块A100 GPU上训练90-100天。

在国内,字节跳动、阿里巴巴、百度、科大讯飞等也都在积极推动万卡集群的建设。

比如字节跳动搭建了一个12288张卡的训练集群,研发MegaScale生产系统,用于训练大语言模型,科大讯飞2023年建成了首个支持大模型训练的超万卡集群算力平台飞星一号”。

由此可见,在AI模型训练的主战场,万卡集群已成为最低入场券。

但是,万卡集群乍一看只是千卡集群的拓展和延伸,它绝非简单的更多计算卡叠加,而是一个超级复杂的系统工程,需要解决超大规模组网互联、集群有效计算效率、训练高稳定与高可用、故障快速定位与可诊断工具、生态Day0级快速迁移、未来场景通用计算等众多难题。

那么,万卡集群如此难做,摩尔线程作为成立还不到4年的国产GPU企业,为什么要去挑战呢?

这是一条难而正确的事情,摩尔线程推出夸娥万卡智算集群解决方案,就是希望能够建设一个规模超万卡、场景更通用、生态兼容好的一个加速计算平台,并优先解决大模型训练的难题。

摩尔线程创始人兼CEO张建中强调:要挑战最难做的事情,除了有勇气之外,还要有能力,要有很好的团队,有很强的研发、生产、制造、销售、市场、服务等等方方面面的人才,否则是很难做成的。做成一件事情,其实不是偶然的,而是要花很多时间去建立的。每一家成功的企业都有很多正确的决定,但是不管什么样的决定,真正强的团队才是核心。摩尔线程就有很强的团队,这么多年的经验,我们在GPU行业里的知识、Know-how,碰到过的困难,解决过的难题,对我们来说都是非常宝贵的经验。”

夸娥,是摩尔线程的智算中心全栈解决方案,以其自主研发的全功能GPU为底座,包括以夸娥计算集群为核心的基础设施、夸娥集群管理平台(KUAE Platform)、夸娥大模型服务平台(KUAE Model Studio),软件硬件一体化,训练推理一体化,交付一体化,可以开箱即用,提供大规模GPU算力集群的建设、运营管理。

摩尔线程的夸娥万卡集群具备PB级的超大显存总容量、PB/s级的超高速卡间互联总带宽、PB/s级的超高速节点互联总带宽,可实现系统性协同优化,从而达到超强的算力,并且MFU最高可以达到60%。

稳定性也是卓尔不群,平均无故障运行时间超过15天,最长可以稳定训练大模型30天以上,周均训练有效率超过99%,远超行业平均水平,而且可以性能自动调休、问题自动诊断,2分钟内就能快速修复,进而断点续训练。

这得益于摩尔线程自主研发的一系列可预测、可诊断的多级可靠机制,包括:软硬件故障的自动定位与诊断预测,实现分钟级的故障定位;Checkpoint多级存储机制,实现内存秒级存储和训练任务分钟级恢复;高容错高效能的万卡集群管理平台,实现秒级纳管分配与作业调度。

此外还有强大的通用性,支持所有主流大模型训练,可加速LLM、MoE、多模态、Mamba等不同架构、不同模态,支持主流分布式训练框架(Colossal-AI、DeepSpeed、Megatron-LM、Flag Scale)。

同时,基于高效易用的MUSA编程语言、完整的CUDA生态兼容、自动化迁移工具Musify,开发者只需极短的时间、极少的工作就能完成迁移,甚至几乎不需要修改代码,迁移成本趋近于零。

值得一提的是,摩尔线程表示,如果已经适配过摩尔线程的千卡集群,不需要任何额外工作就可以无缝跑在万卡集群上,而哪怕是第一次适配万卡集群,也只需几个小时,只是性能调优需要花一点时间,主要是模型使用方法不同、芯片厂商策略不同所致。

目前,摩尔线程已经实现从芯片到算力卡,从一体机到节点集群的全栈式覆盖,支持从单机多卡到多机多卡、从单卡到千卡万卡集群的无缝扩展。

- 大模型智算加速卡MTT S4000

训推兼顾,专为大模型打造的大模型智算加速卡。

单卡支持 48GB 显存、768GB/s显存带宽,并支持摩尔线程自研MTLink 1.0互连技术,卡间互连带宽240GB/s,从而支持高效多卡互联。

- AI大模型训推一体机MCCX D800

双路八卡GPU服务器,专为支持MTT S4000大模型智算加速卡充分发挥其训推性能、稳定性、可靠性的服务器系统。

它还具备多达1664GB DDR5内存、2480GB SATA系统盘、43.84TB NVMe SSD缓存数据盘、双路400Gb IB与四路25Gb以太计算存储网络。

- AI超融合一体机(KUAE FUSION)

夸娥智算集群的单个节点,如今也可作为单独产品提供,可以任意并联扩展。

它基于MCCX D800 训推一体机,属于可灵活部署的推理、训练、微调软硬件一体化解决方案。

目前,摩尔线程万卡集群项目已经完成了三项战略签约,分别是:

与青海移动的青海零碳产业园万卡集群;

与青海联通、北京德道信科集团的青海高原万卡集群,;

与中国能源建设、桂林华崛大数据的广西东盟万卡集群。

生态方面,摩尔线程的版图也正在迅速扩大。

国内众多AI厂商、云厂商、科技厂商、软件厂商和、科研院校机构等,都与摩尔线程有着深入的合作,尤其是利用摩尔线程夸娥智算集群,助力大模型训练、大模型推理、具身智能等不同场景和领域持续创新。

在上海举办的世界人工智能大会WAIC 2024期间,摩尔线程也展示了自己的全栈解决方案。

除了芯片、算力卡、服务器、一体机节点之外,还有AI算力底座、AIGC创作生产力、产业升级三大展示区。

AI算力底座展示区,包括夸娥集群管理平台、夸娥模型服务平台、夸娥大模型推理平台,以及夸娥生态版图。

夸娥集群管理平台是摩尔线程大规模GPU计算集群产品可视化管理平台,是用于Al大模型训练、分布式图形渲染、流媒体处理和科学计算的软硬件一体化平台,深度集成全功能GPU计算、网络和存储,提供高可靠、高算力服务。

夸娥模型服务平台覆盖大模型预训练、微调和推理全流程,支持所有主流开源大模型。通过摩尔线程MUSIFY代码移植工具,可以良好兼容CUDA应用生态,内置的容器化解决方案,则可实现API一键部署。

夸娥大模型推理平台,基于高效的MT Transformer大模型推理引擎,支持业内主流vLLM推理框架、MUSA Serving自研推理框架等,帮助开发人员高效地在云端部署高性能推理服务。

AIGC创作生产力展区,可以看到依靠夸娥智算集群、基于图形计算和AI计算的软硬件一体化AIGC内容创作平台摩笔马良”。

它部署了摩尔线程自研大语言模型MUSAChat,可以及时润色、翻译用户的输入文本,进一步增强语义理解,还可以基于用户的文本指向,灵活调用SDXL、SD1.5两代模型能力,生成细节丰富、有艺术感的图像结果。

同时,结合多种IP-Adapter、ControlNet技术,它还支持创意人像”,上传一张个人照片,以文字描述目标风格,1分钟内就可以得到细腻、逼真的人像图片,而且无需训练、风格不限。

摩笔天书”则是依靠夸娥智算集群的AI内容生成解决方案,可提供一站式、多模态、全流程、全自动的绘本生成创作体验。

用户只需输入标题和简要的故事大纲,即可一键生成完整故事、绘本图片、旁白、字幕、背景音乐等素材,并自动合成图文绘本故事和视频绘本故事。

MT AIR”(MT AIReality)是摩尔线程自研的新一代的AI渲染平台,构建拥有照片级、视网膜级、堪比物理世界真实度的实时渲染管线,轻松实现三维重建,可用于影视、动画、游戏、元宇宙等领域。

Sora复现计划”(Open-Sora-Plan)是由北京大学、兔展AIGC联合实验室共同发起的开源项目,利用开源社区的力量,完成对Sora文生视频的复现,当前在Github上有超过1万开发者,摩尔线程则是国内极少数支持运行Open-Sora-Plan视频生成模型的国产GPU公司。

在产业数智化升级展示区,可以看到基于人工智能气象预报大模型书生风乌的气象预测应用、基于东华软件私有化大模型智多型(A.I.Cogniflex)的公共安全应用、佳都全息路口解决方案的数字交通应用、基于中科闻歌自主研发雅意大模型的辅助决策应用、智慧安防应用、智能金融应用、智慧政务应用等等。

值得一提的是,依托夸娥智算集群的强兼容、高算力等特性,风乌成功在24小时内就完成了从CUDA到MUSA的无缝、快速生态迁移,首次实现从硬件到算法的全国产化,且性能、精度均达到国际先进水平。

返回顶部