【2024-04-09 23:06:45爱思瑞网快讯】
苹果的Ferret LLM有望帮助Siri理解iPhone显示屏上的应用布局,潜在地增强了苹果的数字助理的功能。
苹果一直在进行多个机器学习和人工智能项目,并有可能在2024年WWDC上透露其中一些工作。在一篇刚发布的论文中,现在似乎有些工作可能使Siri能够理解应用程序和iOS本身的外观。
康奈尔大学于周一发布的这篇论文的标题是“Ferret-UI:基于多模态LLM的移动UI理解”。它基本上解释了一种新的多模态大型语言模型(MLLM),有潜力理解移动显示屏的用户界面。
Ferret这个名称最早是由康奈尔大学的研究人员与苹果公司的合作者在去年十月发布的开源多模态LLM提出的。当时,Ferret能够检测和理解图像中不同区域,用于复杂的查询,如在选定的部分照片中识别动物物种。
LLM的进步
Ferret-UI的这篇新论文解释说,虽然MLLM的使用已经取得了显著进展,但它们在“理解和有效地与用户界面(UI)屏幕交互方面仍然存在不足”。 Ferret-UI被描述为一种专为理解移动UI屏幕而定制的MLLM,具有“指称、基于地理位置和推理能力”。
LLM在理解移动显示屏的接口方面存在的问题之一是首先如何使用它。通常在纵向方向上,图标和其他细节往往占据了显示屏的一个非常紧凑的部分,这使得机器难以理解。
为了解决这个问题,Ferret具有一个放大系统,可以将图像放大到“任何分辨率”,以使图标和文本更易读。
为了处理和训练,Ferret还将屏幕分为两个较小的部分,将屏幕分成两半。论文指出,其他LLM倾向于扫描低分辨率的全局图像,这降低了准确确定图标外观的能力。
通过对数据进行重要的筛选、整理,已经得到了一个能够充分理解用户查询、理解各种屏幕元素的性质并提供上下文响应的模型。
例如,用户可以询问如何打开提醒应用程序,并被告知点击屏幕上的“打开”按钮。如果屏幕上可见,进一步的查询询问一个15岁的人是否可以使用某个应用程序,可以查看年龄指南。
一款辅助助手
虽然我们不知道它是否会被整合到Siri等系统中,但Ferret-UI为像iPhone这样的设备提供了先进的控制可能性。通过理解用户界面元素,它可以使Siri能够自主选择应用程序中的图形元素来为用户执行操作。
在视力受损的人群中也有有用的应用。这种LLM能够更详细地解释屏幕上的内容,并且有可能在用户无需其他操作,只需提出请求时为用户执行动作。