苹果研究揭示未来苹果智能工具的潜力

【2025-05-14 07:21:00AI Siri网最新消息】

苹果研究揭示未来苹果智能工具的潜力

苹果在其机器学习博客上发布了两篇新的研究论文,详细介绍了一种用于改进摄影测量的AI模型,以及另一个充当视频相关个人助理的AI模型。

长期以来,这家iPhone制造商对机器学习很感兴趣,它演变成了其AI版本。该公司一直在公开出版研究论文,以展示其在未来技术方面的进步。

Apple Intelligence为用户提供了对新应用程序的访问,例如Image Playground,邮件应用程序中AI生成的智能回复,电子邮件和通知摘要,新的写作工具框架等等。

苹果仍然专注于人工智能研究,两篇新发表的论文提供了关于未来AI功能可能采取的方向的见解。具体而言,该公司在其机器学习博客上记录了两个AI模型,分别称为Matrix3DStreamBridge

Matrix 3D 改进摄影测量

报告称Matrix3D是一个一体化的大型摄影测量模型,这意味着它可以简化并减少从2D图像创建三维对象的要求。它可以仅从几张图像创建3D对象和环境,如示例所示。

展示混合任务的组合推理管线的图表,包括单输入、多视图模态、优化以及小猫头鹰主题背包的3D渲染
Matrix3D模型简化了摄影测量过程。图片来源:苹果机器学习博客。

摄影测量整体而言并不是一个新概念,它已被用于游戏开发等各个行业。然而,苹果通过Matrix3D的实现简化了曾经是多步骤的工作,消除了过程中的错误。

与传统的摄影测量方法(其中每个子过程都被视为独立步骤,需要特定算法)不同,苹果的新AI模型执行所有必要的任务。它通过使用统一的架构来处理诸如深度和姿势估计之类的过程,以及新颖的视图合成,从而提高了准确性。

苹果的Matrix3D模型是通过一种称为掩蔽学习策略的技术进行训练的。从本质上讲,这意味着该模型接受了部分完整的图像深度和姿势数据的训练,这有效地要求它“填补空白”以达到期望的结果。

在研究论文中,苹果指出,传统的摄影测量方法“通常需要大量的图像集合,通常是数百张,才能实现鲁棒而准确的3D重建,这在实际应用中可能会很麻烦。”同时,Matrix3D模型仅需要两到三个图像即可获得相同的输出,从而大大降低了摄影测量的要求。

苹果已经在Apple Vision Pro上将2D图像转换为3D。这是一项可以在任何图像上执行的操作,即使是没有纵向模式深度数据的图像也是如此。这种转换过程的优化,无疑为用户带来了更好的体验。

苹果透露的另一个人工智能模型与视频的关系更大。

StreamBridge 充当“主动流媒体助手”

苹果关于StreamBridge的研究论文称,它是一个将“视频-LLM转换为具有流媒体功能的模型”的框架。虽然一些AI模型通过处理完整的预先录制的视频文件来处理视频输入,但苹果的StreamBridge模型能够提供“多轮实时理解”和“主动响应生成”。

类似故事板的序列,用户提出问题,接收答案并绘制说明。图像描绘了各种场景,包括直升机、飞机、标志以及绘制房屋、树木、太阳和云
StreamBridge模型充当具有视频功能的助手。图片来源:苹果机器学习博客。

这意味着 StreamBridge 可以实时回答有关视频的不同问题。苹果的示例包括有关视频事件、位置以及有关输入视频中特定对象的问题。

StreamBridge 还可以提供无需询问的说明,因为“该模型会主动监视视觉流,并根据展开的内容生成及时的输出。”苹果提供的示例显示,其AI模型在绘图进行时向用户提供“逐步指导,而无需明确询问,从而在动态环境中模拟持续支持。”

其他科技公司也发布了自己的视频AI工具,这些工具也旨在根据视频输入提供指导。

在2024年5月的年度Google I/O开发者大会期间,Google展示了一个有趣的人工智能用例 – 用户可以以视频形式提出问题,并收到AI生成的响应或建议。

作为活动的一部分,Google的AI展示了一个损坏的唱片机的视频,并询问了它为什么不起作用。该软件识别了唱片机的型号,并建议可能未正确平衡唱片机,并且由于此原因而无法工作。

苹果的新AI模型会带来什么?

苹果的StreamBridge模型可能会将这个概念更进一步,因为它可以处理视频流并根据不断变化的输入提供逐步说明,而不是基于视频录像的单句答案。

尽管尚未推出这样的功能,但这可能是我们可能会看到作为未来的Apple Intelligence更新实现的内容,可能是通过Siri或相机应用程序实现。可以想象,在拍摄视频时,Siri可以实时提供拍摄建议,或者在观看视频时,可以随时提问并获得解答。

至于Matrix3D,该公司的摄影测量模型,可以肯定的是,它可能会为Apple Vision Pro及其后续产品带来新的、更强大的功能,据说这些产品已经在开发中。凭借更强大的3D建模能力,Vision Pro在AR/VR领域的应用前景将更加广阔。

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行二次审核删除:fireflyrqh@163.com。
Like (0)
Previous 2025年5月14日 上午5:14
Next 2025年5月14日 上午7:53

相关推荐