新的苹果人工智能模型基于自然语言输入编辑图片

IT小埋 • 2024年2月7日下午9:37 • Apple • 433 views

苹果研究人员发布了一个新的开源 AI 模型，可以根据用户的自然语言指令编辑图像（通过 VentureBeat）。

由 DALL·E 生成的海外媒体海外媒体 MacRumors 图像

称为“MGIE”的该模型代表了MLLM-Guided Image Editing（多模态大语言模型），它使用多模态大语言模型（MLLMs）来解释用户的需求并进行像素级操作。

该模型能够编辑图像的各个方面。全局照片增强可以包括亮度、对比度或清晰度，或者应用类似素描的艺术效果。局部编辑可以修改图像中特定区域或对象的形状、大小、颜色或纹理，而类似 Photoshop 的修改可以包括裁剪、调整大小、旋转、添加滤镜，甚至更改背景和混合图像。

对于一张披萨照片，用户可以输入“使它看起来更健康”。通过常识推理，模型可以添加番茄和香草等蔬菜配料。全局优化输入请求可以形式为“增加对比度以模拟更多光线”，而类似 Photoshop 的修改可以通过要求模型将照片背景的人物移除，将焦点转移到主体的面部表情。

苹果与加利福尼亚大学的研究人员合作创建了MGIE，该模型在 2024 年国际学习表征会议（ICLR）上以一篇论文的形式呈现。该模型在 GitHub 上可获得，并包括代码、数据和预训练模型。

这是苹果在人工智能研究上的第二个突破。去年12月，苹果透露他们通过发明一种创新的闪存利用技术，成功在iPhone和其他苹果设备上部署了大型语言模型（LLMs）。

在过去的几个月中，苹果一直在测试一种名为“Apple GPT”的竞争对手，可以与ChatGPT竞争。根据 Bloomberg 的 Mark Gurman 的报道，人工智能是苹果的一个重点领域，该公司正在为大型语言模型设计一种名为“Ajax”的框架。

《The Information》和分析师Jeff Pu都声称，苹果将在2024年底左右为iPhone和iPad提供某种生成式人工智能功能，这也是iOS 18发布的时候。据Gurman表示，iOS 18将包括一个增强版Siri，具备类似ChatGPT的生成式人工智能功能，可能成为iPhone历史上“最大”的软件更新。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行二次审核删除：fireflyrqh@163.com。

新的苹果人工智能模型基于自然语言输入编辑图片

关于作者

IT小埋

相关推荐