苹果研究员揭示能战胜GPT-4的新AI系统

苹果研究人员开发了一个名为ReALM(Reference Resolution as Language Modeling)的人工智能系统,旨在彻底改进语音助手理解和响应命令的方式。

hey siri banner apple
根据一份研究论文(通过VentureBeat),苹果概述了一种新的大规模语言模型处理参考解析的系统,该系统涉及解读屏幕实体的模棱两可的引用,以及理解会话和背景上下文。因此,ReALM可能会导致与设备的互动更加直观和自然。

参考解析是自然语言理解的重要组成部分,使用户在对话中使用代词和其他间接引用时不会产生混淆。对于数字助手来说,这一能力一直是一个重大挑战,受限于需要解释广泛的口头提示和视觉信息的需求。苹果的ReALM系统试图通过将参考解析的复杂过程转化为纯语言建模问题来解决这个问题。通过这样做,它可以理解对屏幕上显示的视觉元素的引用,并将此理解融入会话流程中。

ReALM使用文本表示重构屏幕的视觉布局。这涉及解析屏幕上的实体及其位置,以生成捕捉屏幕内容和结构的文本格式。苹果的研究人员发现,这种策略结合针对参考解析任务的语言模型的特定微调,明显优于传统方法,包括OpenAI的GPT-4的能力。

ReALM可以让用户根据当前显示在屏幕上的内容更高效地与数字助手进行交互,而无需精确而详细的指示。这有可能使语音助手在各种环境中更加有用,例如帮助驾驶员在驾驶过程中导航信息娱乐系统,或通过提供更简单精确的间接交互手段来帮助残障用户。

苹果现在已经发表了几篇人工智能研究论文。上个月,该公司揭示了一种整合文本和视觉信息的训练大规模语言模型的新方法。人们普遍预期苹果将在6月的WWDC上推出一系列人工智能功能。

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行二次审核删除:fireflyrqh@163.com。
(0)
上一篇 2024年4月2日 下午7:40
下一篇 2024年4月2日 下午9:04

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注