阿里通义千问发布Qwen-4B:手机可跑,媲美GPT4.1-Nano

AiSiri网8月7日消息,今天,阿里通义千问宣布发布更小尺寸新模型——Qwen3-4B-Instruct-2507和Qwen3-4B-Thinking-2507。

目前新模型已在魔搭社区、HuggingFace正式开源。

据说,在非推理领域,Qwen3-4B-Instruct-2507的某些方面已经超过了闭源的GPT4.1-Nano。

更令人关注的是,在推理能力上,Qwen3-4B-Thinking-2507甚至号称可以媲美中等规模的Qwen3-30B-A3B(thinking)。要知道,参数量直接影响模型大小和所需算力,小模型能达到这种水平,确实值得关注。

官方表示,2507版本的Qwen3-4B模型对手机等端侧硬件部署尤为友好。也就是说,以后在手机上跑一些AIGC应用,或许不用再担心卡顿了。这事儿要是真成了,想象空间还是很大的。

阿里通义千问发布小尺寸模型Qwen3-4B:超越GPT4.1-Nano 手机也能跑

以下为模型核心亮点

Qwen3-4B-Instruct-2507

通用能力均大幅提升,与中等规模的Qwen3-30B-A3B(non-thinking)性能接近。这意味着,更少的资源消耗,也能获得不错的体验。

新模型覆盖更多语言的长尾知识,并且优化了人类偏好对齐,力图提供更贴合用户需求的答案。

号称上下文理解扩展至256K,这意味着小模型也能尝试处理一些长文本了。不过实际效果如何,还得后续观察。

Qwen3-4B-Thinking-2507 

推理能力大幅增强,AIME25高达81.3分,官方宣称Qwen3-4B-Thinking-2507的推理表现可以与中等模型Qwen3-30B-Thinking相提并论。

特别是在数学能力测试AIME25中,以4B参数量获得81.3分。推理能力是否真的有提升,这倒是值得关注的一点。

Agent分数也不错,相关评测数据显示已经超越更大尺寸的Qwen3-30B-Thinking模型。

高达256K tokens的上下文理解能力,支持更复杂的文档分析、长篇内容生成、跨段落推理等应用场景。

阿里通义千问发布小尺寸模型Qwen3-4B:超越GPT4.1-Nano 手机也能跑

阿里通义千问发布小尺寸模型Qwen3-4B:超越GPT4.1-Nano 手机也能跑

阿里通义千问发布小尺寸模型Qwen3-4B:超越GPT4.1-Nano 手机也能跑

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行二次审核删除:fireflyrqh@163.com。
Like (0)
Previous 2025年8月7日 上午8:23
Next 2025年8月7日 上午10:52

相关推荐