人工智能军备竞赛仍在如火如荼地进行:Anthropic 正在推出其最新的模型,名为 Claude 3.5 Sonnet,据称该模型在各种任务中可以与 OpenAI 的 GPT-4o 或 Google 的 Gemini 相媲美,甚至更胜一筹。新模型已向 Claude 的网页和 iOS 用户开放,Anthropic 也将其提供给开发者。
Claude 3.5 Sonnet 最终将成为该产品线中的中间模型——Anthropic 使用 Haiku 命名其最小模型,Sonnet 命名其主流中间选项,Opus 命名其最高端模型。(这些名字很奇怪,但每个 AI 公司似乎都以自己的特殊方式命名事物,所以我们暂且忽略。)但该公司表示 3.5 Sonnet 的性能超过了 3 Opus,其基准测试表明差距非常大。新模型的速度也达到了先前模型的两倍,这可能是一个更大的突破。
人工智能模型的基准测试应始终持保留态度;基准测试很多,很容易挑选对自己有利的测试并进行选择,而且模型和产品更新换代的速度如此之快,以至于似乎没有人能够长期领先。但话虽如此,Claude 3.5 Sonnet 确实令人印象深刻:在九项整体基准测试中的七项和五项视觉基准测试中的四项中,其分数都超过了 GPT-4o、Gemini 1.5 Pro 和 Meta 的 Llama 3 400B。再次强调,不要过度解读这些数据,但似乎 Anthropic 确实在这个领域打造了一个强有力的竞争对手。
这一切意味着什么?Anthropic 表示,Claude 3.5 Sonnet 在编写和翻译代码、处理多步骤工作流程、解读图表和图形以及从图像中转录文本方面将更加出色。这个焕然一新、性能提升的 Claude 还能更好地理解幽默,并以更人性化的方式写作。
Artifacts 实际上似乎表明了 Claude 的长期愿景。Anthropic 长期以来一直表示,它主要关注企业(即使它雇用了 Instagram 的联合创始人 Mike Krieger 等消费者技术人员),并在其发布 Claude 3.5 Sonnet 的新闻稿中表示,它计划将 Claude 打造成企业的工具,以“安全地集中管理其知识、文档和正在进行的工作在一个共享空间中。” 这听起来更像是 Notion 或 Slack,而不是 ChatGPT,Anthropic 的模型是整个系统的核心。
不过,就目前而言,模型才是重中之重。这里的改进速度令人惊叹:Anthropic 于 3 月份推出了 Claude 3 Opus,并自豪地宣称其与 GPT-4 和 Gemini 1.0 表现相当,然后 OpenAI 和 Google 又发布了更强大的模型版本。现在,Anthropic 又迈出了下一步,它的竞争对手也肯定很快会跟进。Claude 的讨论热度可能不如 Gemini 或 ChatGPT,但它绝对在参与这场竞赛。