【2024-02-07 23:20:46爱思瑞网快讯】
苹果与加州大学的研究人员合作,发布了自己的基于人工智能的图像编辑模型,任何人都可以尝试。
该模型被称为”MGIE”,代表着MLLM-Guided Image Editing,允许用户根据自然语言指令进行图像编辑。它利用多模态大型语言模型(MLLMs),结合文本、照片和视频等各种信息,以理解和生成类似人类语言。
虽然对MLLM的研究已经显示出了有希望的结果,但广泛实施尚未实现。
MGIE在2024年国际学习表示国际会议上进行了展示。这篇论文展示了MGIE如何提高自动度量和人类评估,同时保持竞争力的推理效率。
MGIE利用MLLMs从用户输入中提取富有表现力的指令。Venture Beat提供了一个例子:用户可以告诉MGIE“让天空更蓝”,而MGIE会将其解释为“将天空区域的饱和度提高20%”。
然后,一旦从自然语言输入中提取了指令,它会生成图像的编辑版本。它可用于创建从颜色调整到生成或删除图像部分的各种编辑。
MGIE是开源的,可在GitHub上供任何人尝试。GitHub页面允许用户获取代码、数据和预训练模型。
图像生成的速度将根据硬件性能而有很大差异。此外,这类模型对内存的需求非常大。
苹果一直在秘密地研发其人工智能辅助功能。今年1月,iOS 17.4 beta版的代码表明苹果正在开发一个新的由人工智能驱动的Siri版本。
由于分析师们大声宣布苹果在生成式人工智能实施方面落后于Meta、Google和微软,苹果的股票最近受到了打击。不清楚为什么在手机、平板、智能手表或VR头盔方面不是最先的时候这不是问题,而在生成式人工智能方面就是问题。
为了打消这些分析师的顾虑,苹果首席执行官蒂姆·库克最近表示,苹果正在”非常投入时间和精力”开发即将宣布的人工智能功能。他还指出,苹果一直在内部开发生成式人工智能。