AiSiri网消息,字节跳动旗下“火山引擎”微信公众号近日发布消息,豆包大模型迎来重要更新:1.6-vision版本正式上线。这款新模型是豆包家族首个具备工具调用能力的视觉深度思考模型,旨在提供更强的通用多模态理解和推理能力,同时支持Responses API。
豆包1.6-vision的关键特性在于其工具调用能力,可以将图像深度融入其思维链中。这意味着模型能够执行对图片的精细处理,例如定位、裁剪、点选、画线、缩放和旋转等操作。 这种“从全局扫描到局部聚焦”的视觉推理模式旨在模仿人类的视觉认知过程,提升推理的可解释性,并更高效地完成图像相关任务。
通过支持Responses API,豆包1.6-vision允许模型自主选择调用工具,从而简化Agent开发过程中的代码量,提高开发效率。 简而言之,开发者能够以更加高效的方式进行应用开发。
值得关注的是,相比上一代视觉理解模型Doubao-1.5-thinking-vision-pro,豆包1.6-vision在综合成本上降低了约50%。这意味着用户可以用更低的成本获得更强大的性能。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行二次审核删除:fireflyrqh@163.com。