苹果与英伟达合作加速AI语言模型

万能的Siri

12 月前

苹果公司与NVIDIA合作，共同改进大型语言模型（LLMs）的性能，推出了一种新的文本生成技术，该技术在人工智能应用中显著提高了速度。

ml research apple
在今年早些时候，苹果发布并开源了Recurrent Drafter（ReDrafter），一种结合了束搜索和动态树注意力的方法，以加速文本生成。束搜索能够同时探索多个潜在的文本序列，从而获得更好的结果，而树注意力则组织并消除了这些序列之间的冗余重叠，提高效率。

苹果现已将该技术集成到NVIDIA的TensorRT-LLM框架中，这一框架旨在优化在NVIDIA GPU上运行的LLM，苹果公司表示该技术达到了“最先进的性能”。在使用包含数十亿参数的生产模型进行测试时，该技术实现了每秒生成的令牌速度提高了2.7倍。

苹果表示，性能的提升不仅减少了用户感知的延迟，还降低了GPU的使用率和功耗。从苹果的机器学习研究博客中可以看到，他们指出：“LLMs越来越多地被用于驱动生产应用，提高推理效率可以影响计算成本并降低用户的延迟。通过将ReDrafter的新颖推测解码方法集成到NVIDIA TensorRT-LLM框架中，开发者现在可以在自己的生产LLM应用中受益于更快的令牌生成。”

对实现ReDrafter感兴趣的开发者可以在苹果的网站上找到详细信息。

退出移动版