AiSiri网传来消息,就在今天,空间推理基准测试SpatialBench更新了最新榜单。让人眼前一亮的是,阿里千问的视觉理解模型Qwen3-VL和Qwen2.5-VL,直接占据了榜单前两名的位置,把Gemini 3、GPT-5.1、Claude Sonnet4.5等一众国际大厂的顶尖模型甩在了身后。
SpatialBench的数据显示,Qwen3-VL-235B和Qwen2.5-VL-72B分别拿下了13.5和12.9的高分,实力碾压Gemini 3.0 Pro Preview(9.6) 、GPT-5.1(7.5)以及Claude Sonnet 4.5等海外豪强。
当然,我们也得承认,虽然AI大模型进步神速,但距离人类的水平还有不小的差距。目前人类的基准线大概在80分左右,能够专业处理电路分析、CAD工程和分子生物学等复杂的空间推理任务。而现在的大模型,在这方面还无法做到完全的自动化。
据了解,Qwen2.5-VL已经在2024年开源,而Qwen3-VL则是阿里在2025年推出的一款全新视觉理解模型,同样选择了开源路线。
Qwen3-VL在视觉感知和多模态推理方面实现了突破性的进展,在32项核心能力测评中,表现超过了Gemini2.5-Pro和GPT-5。它不仅可以调用抠图、搜索等工具来完成“带图推理”,甚至还能根据一张设计草图或一段小游戏视频直接进行“视觉编程”。
此外,Qwen3-VL还特别强化了3D检测能力,使其能够更好地感知空间,从而帮助机器人更准确地判断物体方位、视角变化和遮挡关系,最终实现对远处苹果的精准抓取。这对于机器人技术在工业、医疗等领域的应用,无疑具有重要的意义。
目前,Qwen3-VL已经开源了多个版本,包括2B、4B、8B、32B等密集模型以及30B-A3B、235B-A22B等MoE模型。每个模型都提供了指令版和推理版两种选择,是当前最受企业和开发者欢迎的开源视觉理解模型之一。并且,Qwen3-VL模型也已经上线千问APP,用户可以免费体验。
SpatialBench作为一个近年来兴起的第三方空间推理基准测试榜单,主要关注多模态模型在空间、结构、路径等方面的综合推理能力,被AI社区视为衡量“具身智能”进展的重要标准。
SpatialBench的测试不仅考察模型已知的知识,更重要的是测试模型在二维和三维空间中“感知”和操控抽象概念的能力。这一点对于具身智能的落地至关重要,因为它直接关系到AI能否真正理解并适应我们所处的物理世界。
