【2023-12-24 23:44:42爱思瑞网快讯】
苹果和哥伦比亚大学的研究人员在十月份静悄悄地推出了一个名为“Ferret”的开源多模态LLM研究版本,它可以使用图像区域进行查询。
十月份的介绍在Github上很少引起注意,没有任何公告或庆祝活动。Ferret的代码与Ferret-Bench一同于10月30日发布,检查点版本在12月14日引入。
虽然一开始并未引起太多关注,但根据VentureBeat的报道,这一发布在周六对人工智能研究人员来说变得更加重要。一个从事AI医学非营利行业的运营者Bart De Witte在X上发帖,称这次“被忽视”的发布是苹果对重要的AI研究的承诺的证明。
Ferret的开源发布是在非商业许可下进行的,因此它目前无法商业化。然而,它有可能在未来成为苹果产品或服务的一部分。
苹果AI / ML研究科学家Zhe Gan在10月份的一条推文中解释了Ferret的用途,它可以“在图像的任何地方以任何粒度引用和衬接”。它还可以通过使用图像内任意形状的区域来实现。
简单来说,该模型可以检查图像上的某个区域,确定其中对查询用户有用的元素,并标识出它们,然后在检测到的元素周围绘制边界框。然后,它可以将该标识的元素作为查询的一部分并进行典型的响应。
例如,高亮显示图像中的动物并询问LLM该动物是什么,在这种情况下,它可以确定动物的物种,并且用户是在引用一个群体中的个体动物。然后,它可以利用图像中检测到的其他物品的上下文提供更多响应。
Introducing Ferret, a new MLLM that can refer and ground anything anywhere at any granularity.
https://t.co/gED9Vu0I4y
1 Ferret enables referring of an image region at any shape
2 It often shows better precise understanding of small image regions than GPT-4V (sec 5.6) pic.twitter.com/yVzgVYJmHc
此发布对研究人员来说很重要,因为它显示了苹果对其人工智能工作更加开放,而不是保持惯常的保密态度。
对于苹果来说,还存在基础设施的问题,尽管它正致力于增加拥有的AI服务器数量,但目前可能没有足够的规模与ChatGPT等进行正面对抗。尽管苹果可以与其他公司合作扩大其能力,但另一种选择是刚刚所做的,即发布开源模型。