苹果人工智能研究:ReALM在解析上下文数据时比GPT-4更小、更快

【2024-04-02 05:09:04爱思瑞网快讯】

苹果人工智能研究:ReALM在解析上下文数据时比GPT-4更小、更快

苹果的人工智能研究揭示了一种模型,将把对Siri的命令更快、更高效地转换为文本,便于大型语言模型解析。

在即将于6月的WWDC公开发布其人工智能计划之际,苹果进行了人工智能研究。到目前为止,已经发布了各种各样的研究,包括一个图像动画工具。

最新的研究论文由VentureBeat首次发布。这篇论文详细介绍了一种称为ReALM(Reference Resolution As Language Modeling)的方法。

根据模糊的语言输入执行任务的计算机程序被称为参考解析。这是一个复杂的问题,因为计算机不能像人类那样解释图像,但是苹果可能已经找到了一种使用LLM来简化解析的方法。

当与Siri等智能助手交谈时,用户可能会参考许多上下文信息进行交互,如背景任务、显示的数据和其他非对话实体。传统的解析方法依赖于非常庞大的模型和图像等参考资料,但是苹果通过将所有内容转换为文本来简化解析。

苹果发现,其最小的ReALM模型表现与GPT-4类似,但参数更少,因此更适合设备上使用。增加ReALM中使用的参数使其明显优于GPT-4。

这种性能提升的原因之一是GPT-4依赖于图像解析来理解屏幕上的信息。大部分图像训练数据是基于自然图像而不是充满文本的人工代码网页,因此直接的OCR效率较低。

屏幕解析器显示的截图数据的文本表示。来源:苹果研究

屏幕截图数据的文本表示。来源:苹果研究

将图像转换为文本使ReALM无需使用这些先进的图像识别参数,从而使其更小、更高效。苹果还通过包含约束解码或使用简单的后处理功能来避免幻觉。

例如,如果你浏览网站并决定想要打电话给某个企业,只需说“打电话给企业”,Siri就会解析你的意图并找到页面上标记为企业号码的电话号码,并自动拨打,无需进一步提示用户。

苹果正在努力在2024年的WWDC发布一项全面的人工智能战略。一些传言表明,该公司将依靠更小的设备上的模型来保护隐私和安全,同时为问题更多的离线处理许可其他公司的LLM。

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行二次审核删除:fireflyrqh@163.com。
Like (0)
Previous 2024年4月2日 上午4:32
Next 2024年4月2日 上午5:39

相关推荐