摩尔线程新一代架构支持十万卡集群!性能超NVIDIA

当全球的目光都聚焦在AI算力军备竞赛上时,一家成立仅三年的中国芯片公司,试图用一个全新的架构,为这场“神仙打架”的故事增添了不一样的叙事。

12月20日,摩尔线程在其首届MUSA开发者大会上,正式揭开了新一代GPU架构“花港”的面纱。伴随着新架构的首秀,其第一款云端AI加速GPU“华山”也同步亮相。相比于单纯的核心参数,摩尔线程此次的布局,透露出一股更接地气的商业化意图:他们瞄准的,是让技术真正在规模化生产中落地。


摩尔线程新一代架构支持十万卡集群

“华山”芯片最引人注目的宣传点,是其面向超十万卡级“AI工厂”的设计能力。这意味着它并非只想做单打独斗的“特种兵”,而是立志成为大型数据中心里的大规模兵团。为此,它搭载了新一代Scale-up系统,兼容MTLink 4.0和多种以太协议,以适配不同的高速互联方案。

官方称片间互联速率最高可达1314GB/s,这在技术层面为“超大集群”的可行性垫下了基石。

参数很美好,但实际应用中的稳定性才是客户真正关心的。摩尔线程对此给出了几个关键数据:其名为KUAE的万卡集群,浮点运算能力标称达10 Exa-FLOPS,大模型MFU(模型浮点算力利用率)可达60%。更直观的是,他们宣称集群有效训练时长可达90%,并引入了“零中断技术”,理论可用性可达99%。对于动辄训练数周、成本高昂的大模型任务而言,每1%的稳定性提升,都直接关乎时间和金钱。


摩尔线程性能对比数据

而在实际性能对比上,摩尔线程没有选择回避行业标杆。其公布的测试数据显示,在DeepSeek R1全量模型的推理任务中,基于MTT S5000的集群,在“Prefill”阶段单卡吞吐性能达到竞品H20的2.5倍,在“Decode”阶段则是1.3倍。

他们更自信地提到,其万卡集群的训练线性度达到了95%,并直言其“性价比是HXX(H20)的1.5倍”。这些数字无疑极具冲击力,但也留下了悬念:是否能经得起更广泛、更复杂的真实场景考验?


摩尔线程万卡集群优势

对于国产GPU而言,“华山”的发布显然不只是发布了一颗芯片。它是一次从芯片、互联到集群系统软件的完整体系展示。摩尔线程试图传达的核心信息或许是:在单一算力芯片的追赶之外,他们选择用更整体的方案、更可控的成本和更高的可用性,来切入市场。

AI算力市场的战局,从来不只是峰值算力的比拼,更是生态、成本和稳定性的综合格斗。“花港”架构和“华山”芯片能否在下一阶段的竞争中真正“劈山开路”,接下来要看它能否赢得那些对成本敏感、同时又需要大规模稳定算力的实干派客户的订单。这,才是商业故事里最硬的逻辑。

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行二次审核删除:fireflyrqh@163.com。
Like (0)
Previous 2025年12月20日 上午10:15
Next 2025年12月20日 下午3:14

相关推荐