提到AI时代的最大赢家,很多人第一反应是英伟达。老黄“卖铲子”的故事如今已成商业经典,这一切源于20年前对CUDA生态的豪赌。但你可能想不到,还有一家公司,左手拿着性能不敌英伟达的显卡,右手攥着看似“过时”的4nm工艺,竟也在AI浪潮里赚得盆满钵满——它就是AMD。
这听起来像是个悖论?带着这个疑问,我们参加了近期举办的AMD AI开发者大会,试图寻找答案。不过,故事要从十多年前苏姿丰带领AMD靠锐龙翻身讲起。
在锐龙诞生前,AMD的处理器一度活在英特尔的阴影里。直到Zen架构横空出世,初代锐龙IPC性能提升52%,以8核16线程的规格在那个4核称王的年代震撼全场,拉开了芯片界的“核战争”序幕。2020年的Zen 3系列更是让AMD一雪前耻,单核、多核性能双双超越同期英特尔旗舰。
这场胜利从消费市场蔓延到了数据中心B端。很多人以为数据中心是GPU的天下,但早期虚拟机、云服务再到如今的AI,都离不开CPU的协调调度。数据中心就像一个超级物流中心,处理百万级“小快递”的同步配送。单核再快也分身乏术,而多核CPU就像一支庞大的“司机车队”,通过“拼车”(虚拟化)服务更多客户,效率拉满。在这个场景里,核多就是王。
尤其是AI智能体兴起,工具调用、任务编排,还得靠CPU。就连老黄也推出了英伟达的CPU。但这恰是AMD的老本行。在锐龙证明Zen架构后,AMD下一步剑指数据中心。十年前,数据中心x86处理器是英特尔的一言堂:2016年至强Broadwell最高24核,2017年Skylake-SP最高28核。同年,AMD爆种,掏出了32核的初代EPYC处理器。
接下来的十年,AMD把EPYC核心数一路堆到了256核512线程!英特尔也被迫跟进,做出了128大核、288小核的产品。
英特尔的“良心发现”,很大程度上源于苏妈(苏姿丰)带来的竞争压力。但光靠“便宜大碗”还不够,AMD还祭出了杀手锏——3D V-Cache。这项技术通过在CPU上叠加一块大容量缓存(如5800X3D的96MB L3缓存),对游戏玩家意味着帧数更高、更稳定。而它对数据中心同样价值非凡:无论是需要超低延迟的金融交易,还是仿真计算、有限元分析,都能获得夸张的性能提升。例如,96核心的EPYC 9684X塞了1152MB三级缓存,是竞品英特尔的3倍。
这些投入让AMD在今年彻底收获回报。2019年之前,Intel数据中心份额高达97%;随着EPYC崛起,这个数字在2025年降到了大约70%。短短6年,AMD从零拿下了约30%的市场份额。
靠着向数据中心卖CPU,AMD摆脱了风雨飘摇的过去。然而,其显卡(GPU)业务的处境则截然不同。
其实2018年前,AMD还能与英伟达掰手腕。转折点在于老黄在消费级GPU中集成RT Core和Tensor Core,推出光线追踪与DLSS技术,这两项技术如今已是游戏标配。这让AMD陷入被动,此后两年、四年发布的显卡,在光追和超分支持上始终慢半拍。直到2025年的9000系,AMD才有了不错的光追表现;FSR早期用传统算法,直到FSR4才真正基于AI,能与DLSS一较高下。换句话说,AMD在图形技术上花了7年才追上英伟达的布局。
到了服务器端,对AI支持最好、拥有CUDA生态的N卡直接卖爆。AMD的对标产品ROCm直到2016年才出现,各类算法支持与优化功底远不及CUDA。无论光追、超分超帧,还是大模型时代的软硬件支持,乃至硬件性能,AMD GPU确实非英伟达对手。
很长一段时间,AMD GPU只能靠“性价比”接单。维持性价比的方法很简单:不一定要用最先进的2nm,更便宜的4nm甚至5nm也够用,成本低,卖得自然便宜。这种务实的策略,反而有些“无心插柳”的意味——随着智能体引爆CPU与GPU的混合需求,AMD正好左右开弓。既然两边都能自研,那就整点新花样。
AMD尝试偷师苹果,把更大规模的CPU和GPU塞进同一块芯片,再整合内存,于是有了AI Max+ 395。这颗U集成了16核CPU和40CU核显,性能堪比独显,还能共享系统内存,直接用超大内存跑大模型。过去只有苹果能做到,但一台大内存的Mac Studio动辄三五万,而395小主机只要一万多,对重度使用大模型又有隐私顾虑的用户相当划算。
不过,AMD的问题也很多。以AI Max+ 395为例,生态短板依旧明显:跑主流大模型没问题,但涉及图片或视频生成模型、模型微调时,兼容性就不好说。面对劣势,一方面AMD将ROCm开源,借社区力量追赶CUDA;另一方面,在此次AI开发者大会上,苏妈给出了更适合AMD的答案——围绕性价比构建自己的AI生态。

具体来说,开发者可以在AI Max+ 395这类终端上快速实现想法,用AMD显卡工作站做微调测试,最后在数据中心用AMD GPU完成生产部署。整套流程都在AMD的软件生态里,迁移更顺畅。
实际应用如何?大会上,单台AI Max+ 395支持128GB统一内存,可本地运行Qwen 122B模型;4台互联还能处理更复杂的任务。同时,AMD宣布与魔搭社区合作,提供每人100小时云端算力体验。
无论是拿下“过时”产能坚持性价比,还是开发者大会的种种动作,AMD都在尝试打造自己的软硬件生态。这次大会选在对AI开源贡献最大的中国,足见其决心。
当补齐生态这块短板后,即便AMD顶着“落后”工艺和性能差距的双重Debuff,也足以在市场杀出一片天。








