阿里通义实验室智能计算团队带来了一项新突破:他们发布了一种名为FIPO的算法,巧妙引入了Future-KL机制,在强化学习训练中特别关注并奖励那些对推理路径有关键影响的Token,从而有效缓解了以往纯强化学习模型中常见的“推理长度停滞”问题。
有意思的是,在32B参数规模的纯强化学习设定下,这项技术让模型在推理表现上实现了对同类标杆模型的超越,看来在AI推理解谜的长跑中,找到关键的那几步,有时候比一味跑得更远更重要。#大厂科技动态#
阿里通义实验室智能计算团队带来了一项新突破:他们发布了一种名为FIPO的算法,巧妙引入了Future-KL机制,在强化学习训练中特别关注并奖励那些对推理路径有关键影响的Token,从而有效缓解了以往纯强化学习模型中常见的“推理长度停滞”问题。
有意思的是,在32B参数规模的纯强化学习设定下,这项技术让模型在推理表现上实现了对同类标杆模型的超越,看来在AI推理解谜的长跑中,找到关键的那几步,有时候比一味跑得更远更重要。#大厂科技动态#
Previous: 【英特尔:加入与SpaceX、xAi和特斯拉合作的TERAFAB项目】
Next: 【三星显示器据悉成苹果可折叠OLED独家供应商】