【阿里通义实验室智能计算团队推出新算法FIPO】

阿里通义实验室智能计算团队带来了一项新突破：他们发布了一种名为FIPO的算法，巧妙引入了Future-KL机制，在强化学习训练中特别关注并奖励那些对推理路径有关键影响的Token，从而有效缓解了以往纯强化学习模型中常见的“推理长度停滞”问题。

有意思的是，在32B参数规模的纯强化学习设定下，这项技术让模型在推理表现上实现了对同类标杆模型的超越，看来在AI推理解谜的长跑中，找到关键的那几步，有时候比一味跑得更远更重要。#大厂科技动态#