小红书开源最新多模态大模型dots.vlm1:性能跃升顶尖梯队

AiSiri网8月7日消息,据媒体报道,小红书人文智能实验室(Humane Intelligence Lab,简称 HI Lab)凭借其独特的多模态技术崭露头角。

近日,该实验室宣布开源其最新的视觉语言模型dots.vlm1,此举不仅彰显了其技术自研的决心,也为多模态AI领域注入了新活力。

小红书开源最新多模态大模型dots.vlm1:性能跃升顶尖梯队

作为HI Lab首个开源的多模态大模型,dots.vlm1基于全自研的12亿参数NaViT视觉编码器和 DeepSeek V3 大语言模型构建而成。它在视觉理解与推理任务上展现出接近业界领先水平的能力,同时在纯文本任务中也保持了相当的竞争力。dots.vlm1的出现,试图突破当前AI模型多聚焦于文本处理的惯性,为多模态AI的发展提供了一种新思路。

在实际测试中,dots.vlm1的表现值得关注。该模型据称能够识别空间关系、解析复杂图表、解答数独问题,甚至能理解和完成高考数学题。其图像识别能力也不容小觑,无论是常见物体还是相对冷门的图片,都能尝试给出准确识别和解释。例如,在面对经典的红绿色盲数字测试图时,dots.vlm1据称能够全部答对,在颜色和形状识别上都表现出较高的准确性。

除了视觉与推理能力,dots.vlm1在文本生成方面也有动作。它能够模仿李白诗风,尝试创作出描述刘慈欣《诗云》中“诗云”意象的诗歌,作品意境和用词如果真如描述,那的确展现了其文本创作的一定实力。

dots.vlm1的发布,是HI Lab对技术自研投入的结果。该实验室由小红书内部大模型技术与应用产品团队合并升级而来,专注于探索多元智能形态。通过融合人际智能、空间智能、音乐智能及人文关怀等维度,HI Lab试图扩展人机交互的边界,这或许能为AI技术发展带来新方向。

在dots.vlm1的开发中,HI Lab采用了三阶段训练流程:首先对NaViT视觉编码器进行预训练;随后将视觉编码器与DeepSeek V3大语言模型联合训练,利用大规模多模态数据集;最后通过有监督微调提升模型的泛化能力。这一流程如果能够有效执行,那么dots.vlm1在视觉与文本领域或将会有不错的表现。

值得关注的是,dots.vlm1的开源将会为AI研究者提供资源,或能推动多模态AI技术的进步。在竞争激烈的AI领域,小红书HI Lab此举值得肯定。如果dots.vlm1能持续完善和拓展应用场景,或许能在更多领域释放潜力。

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行二次审核删除:fireflyrqh@163.com。
Like (0)
Previous 2025年8月7日 下午6:19
Next 2025年8月7日 下午8:48

相关推荐