【2025-04-22 20:24:00AI Siri网最新消息】

苹果的机器学习研究人员一直致力于改进 Apple Intelligence 和其他生成式人工智能系统的方法。他们在一次主要人工智能会议上发表的研究论文就证明了这一点。
在苹果公司创造 Apple Intelligence 和其他机器学习工具,需要大量的研究。这既是为了改进现有产品,也是为了苹果尚未向用户提供的未来服务。
尽管苹果公司此前已经展示过部分研究成果,但即将在第十三届国际学习表征会议上发表的 一系列论文 让我们得以更深入地了解他们的工作。
增强计算机视觉
计算机视觉是机器学习研究的关键领域之一。从图像中提取信息的能力可以为系统提供相当大的优势。
在题为 “Depth Pro: Sharp Monocular Metric Depth in Less Than a Second” 的报告中,苹果解释了如何确定单张图像的深度信息。这包括创建高分辨率深度图,并考虑到头发或绒毛等精细细节。
该系统还能够在不需要元数据(比如使用什么类型的相机)的情况下做到这一点。

Depth Pro 深度图示例 – 图片来源:Apple
计算机视觉是一个重要的领域,而另一个重要的领域是生成图像。在关于文本到图像生成和控制的两篇论文中,苹果提供了一种控制输出的技术,而另一种技术处理了基于扩散的文本到图像生成的新技术。
对于前者,苹果将其描述为使用激活传输(Activation Transport),这是一种用于使用最佳传输理论来控制激活的生成框架。这使用了先前激活控制工作的推广。
DART (Denoising Autogregressive Transformer for Scalable Text-to-Image Generation) 认为,当前对马尔可夫过程的去噪以向过程添加噪声在训练中效率低下。因此,苹果提供了一种基于 Transformer 的模型,以在非马尔可夫框架内统一自回归和扩散。
最终结果是一个更有效且更灵活的系统,能够在统一模型中训练文本和图像数据。
决策和推理
考虑到 Apple Intelligence 有可能激活应用程序并代表用户执行任务,研究人员必须致力于开发能够在一定程度上确定性地执行此类任务的系统。
在 “On the Modeling Capabilities of Large Language Models for Sequential Decision Making” 的报告中,苹果的研究人员将提出,大型语言模型的通用知识可以用于强化代理的策略学习。
结果表明,使用通用基础模型和自动注释代替 “成本高昂的人工设计的奖励函数” 是可行的。 这可能意味着可以使用更有效的训练系统来创建未来的模型。
在处理复杂任务时,模型将必须经过推理步骤,但每一步都可能出现错误并导致问题。 虽然目前的研究使用外部验证器来权衡多个解决方案,但它也受到采样效率低下的影响,并且需要大量监督。

DART 图像生成示例 – 图片来源:Apple
“Step-by-Step Reasoning for Math Problems via Twisted Sequential Monte Carlo” 提供了一种改进采样工作的方法,使其更侧重于有希望的解决方案。 通过估计部分解决方案的预期未来奖励,可以训练模型,其方式也减少了对人为干预的依赖。
要使用大型语言模型创建安全的 AI 代理,模型需要遵循用户提供的约束和指南。 但是,大型语言模型常常无法遵循甚至基本的命令。
“Do LLMs Know Internally When The Follow Instructions?” 的报告将探讨大型语言模型是否在其表示中编码了理论上与成功遵循指令相关的信息。 这包括预测响应是否符合指令,并将其有效性推广到潜在的类似任务中。
由于大型语言模型很可能会产生幻觉,即创建不正确的结果但却以事实的形式呈现,因此大型语言模型还需要估计自己的确定性。“Do LLMs Estimate Uncertainty Well in Instruction Following?” 的另一份报告将评估大型语言模型确定其估计不确定性的能力。
苹果认为当前的估计方法运行不佳,因此需要做出改变。
苹果在会议上
苹果的研究人员将在 4 月 24 日至 28 日在新加坡举行的 ICLR 上展示提交的研究,涉及各种主题。 苹果还在 C03 位置设立了一个展位,并在会议期间赞助了亲和团体举办的活动。
在展位上,与会者可以试用 Depth Zero,这是一种单目深度估计系统。 他们还可以了解 FastVLM,这是一个移动友好的视觉语言模型系列。