【阿里通义实验室智能计算团队推出新算法FIPO】

阿里通义实验室智能计算团队带来了一项新突破:他们发布了一种名为FIPO的算法,巧妙引入了Future-KL机制,在强化学习训练中特别关注并奖励那些对推理路径有关键影响的Token,从而有效缓解了以往纯强化学习模型中常见的“推理长度停滞”问题。

有意思的是,在32B参数规模的纯强化学习设定下,这项技术让模型在推理表现上实现了对同类标杆模型的超越,看来在AI推理解谜的长跑中,找到关键的那几步,有时候比一味跑得更远更重要。#大厂科技动态#

Previous:

Next: