AiSiri网8月7日消息,据媒体报道,小红书人文智能实验室(Humane Intelligence Lab,简称 HI Lab)凭借其独特的多模态技术崭露头角。
近日,该实验室宣布开源其最新的视觉语言模型dots.vlm1,此举不仅彰显了其技术自研的决心,也为多模态AI领域注入了新活力。
作为HI Lab首个开源的多模态大模型,dots.vlm1基于全自研的12亿参数NaViT视觉编码器和 DeepSeek V3 大语言模型构建而成。它在视觉理解与推理任务上展现出接近业界领先水平的能力,同时在纯文本任务中也保持了相当的竞争力。dots.vlm1的出现,试图突破当前AI模型多聚焦于文本处理的惯性,为多模态AI的发展提供了一种新思路。
在实际测试中,dots.vlm1的表现值得关注。该模型据称能够识别空间关系、解析复杂图表、解答数独问题,甚至能理解和完成高考数学题。其图像识别能力也不容小觑,无论是常见物体还是相对冷门的图片,都能尝试给出准确识别和解释。例如,在面对经典的红绿色盲数字测试图时,dots.vlm1据称能够全部答对,在颜色和形状识别上都表现出较高的准确性。
除了视觉与推理能力,dots.vlm1在文本生成方面也有动作。它能够模仿李白诗风,尝试创作出描述刘慈欣《诗云》中“诗云”意象的诗歌,作品意境和用词如果真如描述,那的确展现了其文本创作的一定实力。
dots.vlm1的发布,是HI Lab对技术自研投入的结果。该实验室由小红书内部大模型技术与应用产品团队合并升级而来,专注于探索多元智能形态。通过融合人际智能、空间智能、音乐智能及人文关怀等维度,HI Lab试图扩展人机交互的边界,这或许能为AI技术发展带来新方向。
在dots.vlm1的开发中,HI Lab采用了三阶段训练流程:首先对NaViT视觉编码器进行预训练;随后将视觉编码器与DeepSeek V3大语言模型联合训练,利用大规模多模态数据集;最后通过有监督微调提升模型的泛化能力。这一流程如果能够有效执行,那么dots.vlm1在视觉与文本领域或将会有不错的表现。
值得关注的是,dots.vlm1的开源将会为AI研究者提供资源,或能推动多模态AI技术的进步。在竞争激烈的AI领域,小红书HI Lab此举值得肯定。如果dots.vlm1能持续完善和拓展应用场景,或许能在更多领域释放潜力。