近期,一项重量级研究成果在AI领域掀起了波澜。苹果公司的研究人员对外公布了名为 Pico-Banana-400K 的数据集。这是一个包含40万张精心策划图像的综合性数据集,其核心目的在于提升AI系统基于文本指令进行图像编辑的能力。

研究团队指出,目前AI图像编辑的训练数据存在显著的空白,而Pico-Banana-400K正是为了填补这一空白而生。尽管像GPT-4o这类大模型已经能够实现令人印象深刻的图像编辑效果,但研究人员认为,现阶段的进步受限于缺乏基于真实照片构建的优质训练数据。苹果此次发布的数据集,正是针对这一痛点,旨在推动该领域的进一步发展。
Pico-Banana-400K数据集的结构设计非常精巧,它涵盖了35种不同的编辑类型,并将其归纳为八大类。这些编辑类型从基础的颜色调整,到更为复杂的转换,例如将人物转化为皮克斯动画风格的角色,或是乐高积木造型,无不体现出其广泛的应用潜能。值得一提的是,数据集中的每一张图像都经过了苹果AI驱动的质量控制系统筛选。同时,研究人员还引入了谷歌的Gemini-2.5-Pro模型对编辑结果进行评估,确保其在指令遵循和技术质量上均达到高标准。
除了包含广泛的编辑类型,Pico-Banana-400K还特别构建了三个专业子集。第一个子集包含了25.8万个单一编辑示例,主要用于基础训练。第二个子集则由5.6万对偏好比较组成,用于对比成功和失败的编辑效果,这对于模型理解用户偏好至关重要。最后一个子集是7.2万个多轮编辑序列,它详细展示了图像在连续多步编辑下如何演变,这对于训练更为复杂的、多步骤的编辑任务具有极高的价值。
在构建这一数据集的过程中,苹果的研究团队采用了谷歌此前发布的Gemini-2.5-Flash-Image(又名Nano-Banana)编辑模型。然而,研究也揭示了该模型在实际应用中的局限性。虽然它在全局风格更改方面表现出色,成功率高达93%,但在处理一些需要高精度的任务时,例如重新定位图像中的物体或编辑文本内容,其成功率则显著下降,甚至低于60%。

尽管存在这些局限,苹果研究人员明确表示,Pico-Banana-400K的目标是为下一代文本引导图像编辑模型的训练和基准测试建立一个坚实的基础。此数据集已在GitHub上 免费提供 给非商业研究使用,这无疑将极大地加速开发者社区在图像编辑AI领域的研究与创新步伐。通过开放高质量的数据集,苹果不仅展示了其在AI领域的深厚技术积累,也为整个行业设定了新的标准,有望催生出更多功能强大、效果逼真的图像编辑AI工具,让普通用户也能享受到更加便捷和个性化的图像处理体验。