被英伟达压制?AMD数据中心业务赚翻了

提到AI时代的最大赢家,很多人第一反应是英伟达。老黄“卖铲子”的故事如今已成商业经典,这一切源于20年前对CUDA生态的豪赌。但你可能想不到,还有一家公司,左手拿着性能不敌英伟达的显卡,右手攥着看似“过时”的4nm工艺,竟也在AI浪潮里赚得盆满钵满——它就是AMD。

这听起来像是个悖论?带着这个疑问,我们参加了近期举办的AMD AI开发者大会,试图寻找答案。不过,故事要从十多年前苏姿丰带领AMD靠锐龙翻身讲起。

在锐龙诞生前,AMD的处理器一度活在英特尔的阴影里。直到Zen架构横空出世,初代锐龙IPC性能提升52%,以8核16线程的规格在那个4核称王的年代震撼全场,拉开了芯片界的“核战争”序幕。2020年的Zen 3系列更是让AMD一雪前耻,单核、多核性能双双超越同期英特尔旗舰。

Zen架构演进图

这场胜利从消费市场蔓延到了数据中心B端。很多人以为数据中心是GPU的天下,但早期虚拟机、云服务再到如今的AI,都离不开CPU的协调调度。数据中心就像一个超级物流中心,处理百万级“小快递”的同步配送。单核再快也分身乏术,而多核CPU就像一支庞大的“司机车队”,通过“拼车”(虚拟化)服务更多客户,效率拉满。在这个场景里,核多就是王。

尤其是AI智能体兴起,工具调用、任务编排,还得靠CPU。就连老黄也推出了英伟达的CPU。但这恰是AMD的老本行。在锐龙证明Zen架构后,AMD下一步剑指数据中心。十年前,数据中心x86处理器是英特尔的一言堂:2016年至强Broadwell最高24核,2017年Skylake-SP最高28核。同年,AMD爆种,掏出了32核的初代EPYC处理器。

接下来的十年,AMD把EPYC核心数一路堆到了256核512线程!英特尔也被迫跟进,做出了128大核、288小核的产品。

服务器CPU核心数对比图

英特尔的“良心发现”,很大程度上源于苏妈(苏姿丰)带来的竞争压力。但光靠“便宜大碗”还不够,AMD还祭出了杀手锏——3D V-Cache。这项技术通过在CPU上叠加一块大容量缓存(如5800X3D的96MB L3缓存),对游戏玩家意味着帧数更高、更稳定。而它对数据中心同样价值非凡:无论是需要超低延迟的金融交易,还是仿真计算、有限元分析,都能获得夸张的性能提升。例如,96核心的EPYC 9684X塞了1152MB三级缓存,是竞品英特尔的3倍。

3D V-Cache示意图

这些投入让AMD在今年彻底收获回报。2019年之前,Intel数据中心份额高达97%;随着EPYC崛起,这个数字在2025年降到了大约70%。短短6年,AMD从零拿下了约30%的市场份额。

CPU市场份额变化图

靠着向数据中心卖CPU,AMD摆脱了风雨飘摇的过去。然而,其显卡(GPU)业务的处境则截然不同。

其实2018年前,AMD还能与英伟达掰手腕。转折点在于老黄在消费级GPU中集成RT Core和Tensor Core,推出光线追踪与DLSS技术,这两项技术如今已是游戏标配。这让AMD陷入被动,此后两年、四年发布的显卡,在光追和超分支持上始终慢半拍。直到2025年的9000系,AMD才有了不错的光追表现;FSR早期用传统算法,直到FSR4才真正基于AI,能与DLSS一较高下。换句话说,AMD在图形技术上花了7年才追上英伟达的布局。

到了服务器端,对AI支持最好、拥有CUDA生态的N卡直接卖爆。AMD的对标产品ROCm直到2016年才出现,各类算法支持与优化功底远不及CUDA。无论光追、超分超帧,还是大模型时代的软硬件支持,乃至硬件性能,AMD GPU确实非英伟达对手。

GPU市场份额对比

很长一段时间,AMD GPU只能靠“性价比”接单。维持性价比的方法很简单:不一定要用最先进的2nm,更便宜的4nm甚至5nm也够用,成本低,卖得自然便宜。这种务实的策略,反而有些“无心插柳”的意味——随着智能体引爆CPU与GPU的混合需求,AMD正好左右开弓。既然两边都能自研,那就整点新花样。

AI Max+ 395芯片图

AMD尝试偷师苹果,把更大规模的CPU和GPU塞进同一块芯片,再整合内存,于是有了AI Max+ 395。这颗U集成了16核CPU和40CU核显,性能堪比独显,还能共享系统内存,直接用超大内存跑大模型。过去只有苹果能做到,但一台大内存的Mac Studio动辄三五万,而395小主机只要一万多,对重度使用大模型又有隐私顾虑的用户相当划算。

不过,AMD的问题也很多。以AI Max+ 395为例,生态短板依旧明显:跑主流大模型没问题,但涉及图片或视频生成模型、模型微调时,兼容性就不好说。面对劣势,一方面AMD将ROCm开源,借社区力量追赶CUDA;另一方面,在此次AI开发者大会上,苏妈给出了更适合AMD的答案——围绕性价比构建自己的AI生态。

ROCm开源标志

具体来说,开发者可以在AI Max+ 395这类终端上快速实现想法,用AMD显卡工作站做微调测试,最后在数据中心用AMD GPU完成生产部署。整套流程都在AMD的软件生态里,迁移更顺畅。

开发者大会现场

实际应用如何?大会上,单台AI Max+ 395支持128GB统一内存,可本地运行Qwen 122B模型;4台互联还能处理更复杂的任务。同时,AMD宣布与魔搭社区合作,提供每人100小时云端算力体验。

开发者体验环节

无论是拿下“过时”产能坚持性价比,还是开发者大会的种种动作,AMD都在尝试打造自己的软硬件生态。这次大会选在对AI开源贡献最大的中国,足见其决心。

苏姿丰演讲

当补齐生态这块短板后,即便AMD顶着“落后”工艺和性能差距的双重Debuff,也足以在市场杀出一片天。

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行二次审核删除:fireflyrqh@163.com。
Like (0)
Previous 2026年6月9日 下午8:09
Next 2026年6月10日 上午1:08

相关推荐