Apple研究人员开发了一种新的方法,可以无缝地整合文本和视觉信息来训练大型语言模型(LLMs)。
公司的研究成果详述在一篇名为《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》的研究论文中,展示了一种创造更智能和灵活的人工智能系统的新方法。通过利用包括图像-标题对、交错的图像-文本文档和仅文本数据的多样数据集,苹果声称MM1模型在图像字幕、视觉问题回答和自然语言推理等任务的准确性方面,设定了新的AI标准。
苹果的研究聚焦于不同类型的训练数据和模型架构的结合,使人工智能能够根据混合的视觉和语言线索理解和生成语言。这种能力对于需要对世界进行细致理解的任务至关重要,例如解释复杂图像或回答涉及视觉元素的问题。
该论文还强调了MM1模型在最大的30亿参数配置下的出色的上下文学习能力。据称,这个版本利用了少样本“事理链”提示的多步骤推理技术,能够完成基于最少示例的复杂、无限制的问题求解。
这项研究是苹果在面临日益激烈竞争的背景下增强其人工智能能力的广泛举措的一部分。稍早前,《彭博社》的Mark Gurman报道称,苹果正在与谷歌讨论授权使用谷歌的Gemini生成式大语言模型,以提供iOS 18中即将推出的新功能。