苹果与英伟达合作加快人工智能模型生产

【2024-12-19 23:59:00AI Siri网最新消息】

用于机器学习的模型训练是一个处理器密集型任务

苹果与英伟达合作加快人工智能模型生产

苹果公司最新的机器学习研究可能会加速 Apple Intelligence 的模型创建,通过提出一种技术,几乎将使用 Nvidia GPU 生成 token 的速度提升到三倍。

创建大型语言模型 (LLMs) 的一个主要问题是,在为诸如 Apple Intelligence 等提供 AI 功能的工具和应用生成 LLM 时存在低效的问题。训练机器学习模型是一个资源密集型且缓慢的过程,通常需要购买更多的硬件并承担更高的能源成本来应对。

2024 年初,苹果发布并开源了一种名为 Recurrent Drafter(ReDrafter)的方法,利用推测解码来提升训练性能。这种方法使用一种递归神经网络(RNN)草稿模型,结合了束搜索和动态树注意力,以预测和验证来自多个路径的草稿 token。

与典型的自回归 token 生成技术相比,这种方法在每个生成步骤中将 LLM 的 token 生成速度提高了最多 3.5 倍。

在苹果机器学习研究网站的一篇文章中,苹果详细说明了在现有 Apple Silicon 研究的基础上,这一过程并未止步。周三发布的新报告描述了团队如何将 ReDrafter 的研究应用于使其在 Nvidia GPU 上可投入生产。

Nvidia GPU 通常用于 LLM 生成的服务器中,但高性能硬件的成本往往不菲。多 GPU 服务器的硬件成本通常超过 25 万美元,这还不包括所需的基础设施或其他相关费用。

苹果与 Nvidia 合作,将 ReDrafter 集成到 Nvidia TensorRT-LLM 推理加速框架中。由于 ReDrafter 使用了其他推测解码方法所未使用的操作,Nvidia 需要添加额外的元素以使其起作用。

通过这种集成,使用 Nvidia GPU 的机器学习开发人员现在可以在生产中使用 ReDrafter 的加速 token 生成,而不仅限于使用 Apple Silicon 的用户。

在对 Nvidia GPU 上的十亿级参数生产模型进行基准测试后,结果显示在贪婪编码的情况下,每秒生成的 token 数量提高了 2.7 倍。

这一进展的意义在于,此过程可以降低用户的延迟,同时减少所需的硬件资源。简言之,用户可以期待来自云端查询的更快响应,而公司则能够在支出更少的情况下提供更多服务。

Nvidia 在其技术博客中表示,这一合作使 TensorRT-LLM“更加强大灵活,使 LLM 社区能够创新更复杂的模型并轻松部署。”

报告的发布恰逢苹果公开确认正在研究使用亚马逊 Trainium2 芯片训练 Apple Intelligence 功能模型的潜力。当时,苹果预计使用这些芯片进行预训练时,效率将提高 50%。

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行二次审核删除:fireflyrqh@163.com。
Like (0)
Previous 2024年12月19日 下午10:55
Next 2024年12月20日 上午1:12

相关推荐