一场来自中国AI公司的技术布道,引来了全球科技圈最挑剔的目光。
近日,国内AI公司Kimi发布了一项名为“Attention Residuals”(注意力残差)的全新研究,它试图对深度学习近十年来一项最基础的“积木”——残差连接进行重构。令人意外的是,这项技术报告迅速获得了“硅谷钢铁侠”埃隆·马斯克的公开点赞。

马斯克在社交媒体上转发并评论称“Kimi的作品令人印象深刻”。要知道,马斯克自己的AI公司xAI眼下正值重组关键期,能让他分神认可的成果,分量自然不轻。而Kimi官方账号也以一句巧妙而友好的“你的火箭造得也不错!”隔空回应,为这场技术对话增添了些许轻松氛围。
那么,这项技术到底有何特别之处,能震动大洋彼岸?核心在于它解决了一个长期困扰大模型训练的隐痛。
传统的残差连接,你可以理解为在盖一座信息的高楼时,每一层都毫无差别地把下面所有砖块(信息)原封不动地搬上来。楼盖得越高,底层的核心信息就越容易被稀释和淹没,导致训练效率低下、模型稳定性变差。
Kimi提出的“注意力残差”,则像是为这座高楼安装了一套“智能电梯系统”。它借鉴了Transformer模型的核心思想——注意力机制,并将其运用在模型的深度维度上。现在,每一层都可以“动态筛选”从下层传递上来的信息,有价值的被加权放大,冗余的则被适当压低。

更关键的是商业落地的实用性考量。为了让这套系统不至于因“思考过度”而拖慢运行速度,Kimi团队设计了“块注意力残差”策略。简单说,就是将模型分块,在块内部沿用稳定可靠的传统累加方式,而在不同的块之间才启动这套动态筛选机制。最终,实现性能大幅跃升的同时,推理延迟仅增加了不到2%,在效率与性能间找到了一个精妙的平衡点。
根据官方披露的数据,在参数量为480亿的模型上验证,新技术使得训练效率提升了1.25倍。反映在具体能力上,模型在科学推理和数学解题上的成绩,分别提升了7.5%和3.6%。这些数字在动辄千亿参数、训练成本以百万美元计的AI竞赛中,意味着实实在在的竞争力与成本优势。
这项工作的意义,显然不止于一次优化。业内重量级人物——前OpenAI研究副总裁,以开创“推理模型”思路闻名的Jerry Tworek也发文评价道:“深度学习2.0来了。”这或许暗示,Kimi的这项工作,触及了下一代AI底层架构演进的可能性。

过去几年,全球AI的叙事主线被OpenAI、谷歌等美国巨头牢牢掌握。但这一次,一家中国公司从一个基础但核心的环节切入,提出了具有颠覆性的新思路,并且其论文的严谨性与实验数据的扎实性,经受住了全球同行的审视。这或许比单一的榜单排名更有长远价值。
当马斯克的点赞与Kimi的幽默回应在社交网络流传,我们看到的不仅是一次友好的互动,更是一个明确的信号:在全球AI技术最前沿的角力场上,中国公司的身影,正从应用落地迈向基础创新,并且开始赢得严肃的对话席位。