苹果公司与NVIDIA合作,共同改进大型语言模型(LLMs)的性能,推出了一种新的文本生成技术,该技术在人工智能应用中显著提高了速度。

ml research apple
在今年早些时候,苹果发布并开源了Recurrent Drafter(ReDrafter),一种结合了束搜索和动态树注意力的方法,以加速文本生成。束搜索能够同时探索多个潜在的文本序列,从而获得更好的结果,而树注意力则组织并消除了这些序列之间的冗余重叠,提高效率。

苹果现已将该技术集成到NVIDIA的TensorRT-LLM框架中,这一框架旨在优化在NVIDIA GPU上运行的LLM,苹果公司表示该技术达到了“最先进的性能”。在使用包含数十亿参数的生产模型进行测试时,该技术实现了每秒生成的令牌速度提高了2.7倍。

苹果表示,性能的提升不仅减少了用户感知的延迟,还降低了GPU的使用率和功耗。从苹果的机器学习研究博客中可以看到,他们指出:“LLMs越来越多地被用于驱动生产应用,提高推理效率可以影响计算成本并降低用户的延迟。通过将ReDrafter的新颖推测解码方法集成到NVIDIA TensorRT-LLM框架中,开发者现在可以在自己的生产LLM应用中受益于更快的令牌生成。”

对实现ReDrafter感兴趣的开发者可以在苹果的网站上找到详细信息。

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行二次审核删除:fireflyrqh@163.com。