苹果公司与NVIDIA合作,共同改进大型语言模型(LLMs)的性能,推出了一种新的文本生成技术,该技术在人工智能应用中显著提高了速度。

ml research apple
在今年早些时候,苹果发布并开源了Recurrent Drafter(ReDrafter),一种结合了束搜索和动态树注意力的方法,以加速文本生成。束搜索能够同时探索多个潜在的文本序列,从而获得更好的结果,而树注意力则组织并消除了这些序列之间的冗余重叠,提高效率。

苹果现已将该技术集成到NVIDIA的TensorRT-LLM框架中,这一框架旨在优化在NVIDIA GPU上运行的LLM,苹果公司表示该技术达到了“最先进的性能”。在使用包含数十亿参数的生产模型进行测试时,该技术实现了每秒生成的令牌速度提高了2.7倍。

苹果表示,性能的提升不仅减少了用户感知的延迟,还降低了GPU的使用率和功耗。从苹果的机器学习研究博客中可以看到,他们指出:“LLMs越来越多地被用于驱动生产应用,提高推理效率可以影响计算成本并降低用户的延迟。通过将ReDrafter的新颖推测解码方法集成到NVIDIA TensorRT-LLM框架中,开发者现在可以在自己的生产LLM应用中受益于更快的令牌生成。”

对实现ReDrafter感兴趣的开发者可以在苹果的网站上找到详细信息。