SuperCLUE最新评测:360zhinao3-o1.5中文精准指令遵循国内第一

近日,中文精确指令遵循测评基准(SuperCLUE-CPIF)发布。在众多国内外模型的同场竞技中,360zhinao3-o1.5以78.97分的成绩,拿下国产大模型第一的宝座,并在任务类型、指令数量两项关键指标中均位列国内榜首。 这次评测结果,或许意味着国产大模型在“听懂人话”这件事上,又进了一步。

本次测评阵容豪华,云集了GPT-5.1(high)、Gemini-3-Pro-Preview、Claude-Sonnet-4.5-Reasoning等15位国内外实力选手。 SuperCLUE-CPIF模拟了真实生产环境的需求,侧重考察大模型在中文环境下,精确理解并执行复杂指令的能力。 评测结果显示,在国产大模型阵营中,除了360zhinao3-o1.5一马当先, ERNIE-X1.1和DeepSeek-V3.2-Exp-Thinking也表现不俗,分别以75.90分和74.36分紧随其后,分列国内二、三名。 看来,国产大模型的第一梯队,竞争相当激烈。

SuperCLUE最新评测:360zhinao3-o1.5中文精准指令遵循国内第一

(图说:SuperCLUE-CPIF 测评截图)

360zhinao3-o1.5在指令遵循方面的突破,离不开其在Light-IF系列论文中提出的核心技术。 针对大模型在处理复杂指令时容易出现的“偷懒”现象,该模型通过自动化指令构建难度感知强化学习双管齐下,让模型学会“三思而后行”,显著提升了复杂指令下的执行精度。 简单来说,就是让AI不仅能听懂,还能听好,并尽可能避免犯错。

SuperCLUE最新评测:360zhinao3-o1.5中文精准指令遵循国内第一

(图说:Light-IF系列模型论文发表)

值得一提的是,Light-IF论文还成功入选了人工智能顶会AAAI 2026。 在投稿量和录取率双双“内卷”的情况下,Light-IF能够脱颖而出,足见其在技术上的含⾦量。 目前,Light-IF系列模型已在Hugging Face开源,为全球开发者提供了一个研究和学习的平台。 开放,才是AI技术进步的正确姿势。

持续深耕小参数模型,是360智脑团队的长期技术路线。 此前,360与北京大学联合研发的Tiny-R1-32B模型,就证明了“小身材也能有大能量”。 该模型以远低于千亿级模型的参数量,在数学等领域取得了相近的性能。 这次成功的经验积累,也为未来AI智能体(Agent)的发展打下了基础。 毕竟,智能体想要普及,成本控制也是关键。

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行二次审核删除:fireflyrqh@163.com。
Like (0)
Previous 2025年11月20日 下午2:48
Next 2025年11月20日 下午5:19

相关推荐