近日,中文精确指令遵循测评基准(SuperCLUE-CPIF)发布。在众多国内外模型的同场竞技中,360zhinao3-o1.5以78.97分的成绩,拿下国产大模型第一的宝座,并在任务类型、指令数量两项关键指标中均位列国内榜首。 这次评测结果,或许意味着国产大模型在“听懂人话”这件事上,又进了一步。
本次测评阵容豪华,云集了GPT-5.1(high)、Gemini-3-Pro-Preview、Claude-Sonnet-4.5-Reasoning等15位国内外实力选手。 SuperCLUE-CPIF模拟了真实生产环境的需求,侧重考察大模型在中文环境下,精确理解并执行复杂指令的能力。 评测结果显示,在国产大模型阵营中,除了360zhinao3-o1.5一马当先, ERNIE-X1.1和DeepSeek-V3.2-Exp-Thinking也表现不俗,分别以75.90分和74.36分紧随其后,分列国内二、三名。 看来,国产大模型的第一梯队,竞争相当激烈。
(图说:SuperCLUE-CPIF 测评截图)
360zhinao3-o1.5在指令遵循方面的突破,离不开其在Light-IF系列论文中提出的核心技术。 针对大模型在处理复杂指令时容易出现的“偷懒”现象,该模型通过自动化指令构建与难度感知强化学习双管齐下,让模型学会“三思而后行”,显著提升了复杂指令下的执行精度。 简单来说,就是让AI不仅能听懂,还能听好,并尽可能避免犯错。
(图说:Light-IF系列模型论文发表)
值得一提的是,Light-IF论文还成功入选了人工智能顶会AAAI 2026。 在投稿量和录取率双双“内卷”的情况下,Light-IF能够脱颖而出,足见其在技术上的含⾦量。 目前,Light-IF系列模型已在Hugging Face开源,为全球开发者提供了一个研究和学习的平台。 开放,才是AI技术进步的正确姿势。
持续深耕小参数模型,是360智脑团队的长期技术路线。 此前,360与北京大学联合研发的Tiny-R1-32B模型,就证明了“小身材也能有大能量”。 该模型以远低于千亿级模型的参数量,在数学等领域取得了相近的性能。 这次成功的经验积累,也为未来AI智能体(Agent)的发展打下了基础。 毕竟,智能体想要普及,成本控制也是关键。


