AI 代理正学习如何在你的 iPhone 上代你操作,但即便如此,研究人员也希望它们知道何时该暂停一下。
最近一份来自 Apple 和华盛顿大学的研究报告深入探讨了这一问题。他们的研究重点在于训练 AI 理解其在智能手机上执行操作的后果。
人工智能代理在处理日常任务方面能力日益增强。这些系统能够浏览应用、填写表格、进行购买或更改设置。它们通常无需我们的直接输入就能完成这些操作。
自主操作将是可能在 2026 年出现的“大型 Siri 升级”的一部分。在 WWDC 2024 主题演讲中,Apple 展示了他们对 Siri 未来发展方向的设想。
公司希望 Siri 能代表用户执行任务,例如在线订购活动门票。这种自动化听起来确实很方便。
但这同时也引出了一个严肃的问题:如果 AI 不小心点了“删除账户”而不是“退出登录”,那会发生什么?
理解移动 UI 自动化中的利害关系
移动设备是高度个人化的。它们承载着我们的银行应用、健康记录、照片和私人消息。
一个代表我们行动的 AI 代理需要知道哪些操作是无害的,哪些可能产生持久或高风险的后果。人们需要这样的系统:它们知道何时该停下来并请求确认。
大多数 AI 研究都集中在让代理能够工作,比如识别按钮、导航屏幕和遵循指令。但对于这些操作执行后对用户意味着什么,却鲜有关注。
并非所有操作都具有相同的风险级别。“刷新动态”风险较低,“转账”风险则很高。
构建风险与安全操作图谱
这项研究始于一系列由 AI 安全和用户界面设计专家参与的研讨会。他们希望创建一个“分类法”或结构化的列表,列出 UI 操作可能产生的各种影响。
研究团队考察的问题包括:代理的操作是否可撤销?它只影响用户本身还是会影响他人?它是否会改变隐私设置或产生费用?
该论文展示了研究人员如何构建一种方法,从多个维度标记任何移动应用操作。例如,删除一条消息可能在两分钟内可逆,但之后就不可逆了。发送金钱通常是不可逆的,除非有特殊帮助。
这个分类法之所以重要,是因为它为 AI 理解人类意图提供了一个框架。它就像一张清单,列出了可能出错的地方,或者为什么某个操作需要额外确认。
训练 AI 识别差异
研究人员通过要求参与者在模拟移动环境中记录,收集了真实世界的示例。

对移动界面 UI 操作影响进行建模。图片来源:Apple
他们没有选择简单、低风险的任务,比如浏览或搜索,而是专注于高风险操作。例如更改账户密码、发送消息或更新支付详情。
团队将新数据与主要涵盖安全、常规交互的现有数据集相结合。然后,他们使用自己的分类法对所有数据进行了标注。
最后,他们测试了五种大型语言模型,包括 OpenAI GPT-4 的多个版本。研究团队希望了解这些模型是否能预测操作的影响级别或对其属性进行分类。
将分类法添加到 AI 的提示中确实有所帮助,提高了判断操作风险时的准确性。但即使是表现最好的 AI 模型——GPT-4 Multimodal——也仅有大约 58% 的时间判断正确。
为什么移动应用 AI 安全如此艰难
研究发现,AI 模型经常高估风险。它们会把无害操作标记为高风险,比如清空一个空的计算器历史记录。
这种谨慎的偏见可能看起来更安全。然而,如果 AI 助手在不需要时频繁请求确认,那它可能会变得非常烦人或毫无用处。

参与者生成带有影响的 UI 操作轨迹的网页界面。图片来源:Apple
更令人担忧的是(但也不出所料),这些模型在细微判断上表现挣扎。它们很难判断某件事是否可逆,或者它可能如何影响他人。
用户希望自动化工具既实用又安全。一个未经询问就删除账户的 AI 代理可能是一场灾难。一个未经许可就拒绝调整音量的代理则可能毫无用处。
更安全的 AI 助手下一步是什么
研究人员认为,他们的分类法可以帮助设计更好的 AI 策略。例如,用户可以设置自己的偏好,决定何时需要请求批准。
这种方法支持透明度和定制化。它有助于 AI 设计师识别当前模型的不足之处,尤其是在处理真实世界、高风险任务时。
随着 AI 日益融入我们的日常生活,移动 UI 自动化将不断发展。研究表明,仅仅教会 AI 识别按钮是远远不够的。
它还必须理解点击背后的人类意义。这对人工智能来说,是一项艰巨的任务。
人类行为是混乱且依赖于上下文的。期盼机器能毫无错误地解决这种复杂性,往好了说是一厢情愿,往坏了说就是玩忽职守。