Apple研究人员开发了一种新的方法,可以无缝地整合文本和视觉信息来训练大型语言模型(LLMs)。
公司的研究成果详述在一篇名为《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》的研究论文中,展示了一种创造更智能和灵活的人工智能系统的新方法。通过利用包括图像-标题对、交错的图像-文本文档和仅文本数据的多样数据集,苹果声称MM1模型在图像字幕、视觉问题回答和自然语言推理等任务的准确性方面,设定了新的AI标准。
苹果的研究聚焦于不同类型的训练数据和模型架构的结合,使人工智能能够根据混合的视觉和语言线索理解和生成语言。这种能力对于需要对世界进行细致理解的任务至关重要,例如解释复杂图像或回答涉及视觉元素的问题。
该论文还强调了MM1模型在最大的30亿参数配置下的出色的上下文学习能力。据称,这个版本利用了少样本“事理链”提示的多步骤推理技术,能够完成基于最少示例的复杂、无限制的问题求解。
这项研究是苹果在面临日益激烈竞争的背景下增强其人工智能能力的广泛举措的一部分。稍早前,《彭博社》的Mark Gurman报道称,苹果正在与谷歌讨论授权使用谷歌的Gemini生成式大语言模型,以提供iOS 18中即将推出的新功能。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行二次审核删除:fireflyrqh@163.com。