豆包APP语音通话升级全双工模型 抗干扰与低时延能力提升

就在你想着怎么让智能语音助手更像真人,而不是一个反应迟钝、总爱插话的“人工智障”时,豆包APP交出了一份自己的答卷。

近日,豆包APP对其核心的实时语音通话功能进行了一次关键升级,背后倚仗的是一个名为Seeduplex的全新模型。官方给它贴上了“原生全双工端到端语音大模型”的标签,听起来很技术,但翻译成人话,核心目标就几个:让你说话时不容易被打断,让它听话时不容易被带偏,最终让整个对话流动得像真正的人类聊天


豆包APP实时语音通话升级全双工模型 抗干扰与低时延能力提升

过去,在喧闹的餐厅或人头攒动的展会,你和AI对话的体验往往像一场“信号不良”的通话——背景噪音、旁人的交谈声随时可能“劫持”AI的注意力,导致它要么误以为你在说话而突然插嘴,要么干脆答非所问。Seeduplex模型宣称要解决的,正是这些“复杂声学场景”下的经典痛点。它致力于实现精准的抗干扰与动态判停,简单说,就是让AI的“耳朵”和“脑子”都变得更聪明,能分辨哪些是主人的指令,哪些是无关的背景杂音。

实际体验的反馈也指向了积极的改变。在类似的嘈杂环境中,升级后的豆包表现出更强的“定力”,误打断和误回复的情况有所减少。这意味着,语音交互的可靠性和可用性场景正在从安静的室内,向外部的真实世界延伸

另一个显著的提升在于对话节奏的“人性化”。人类交谈充满微妙的停顿、思考和气口,而以往的AI常常把短暂的沉默视为发言结束的指令,从而上演尴尬的“抢话”。Seeduplex的升级点在于,它开始尝试结合语音流和语义内容进行综合判断。当用户只是短暂思考或换气时,它能更大概率地保持倾听,让对话的接力更自然。

与此同时,响应速度的提升在高频互动场景中感知尤为明显。无论是玩成语接龙还是诗词飞花令,更低的时延意味着交互更跟手,更像是在和一个人进行即时反应的游戏,而非等待一个程序逐句处理。这背后是端到端模型优化与算力调度的共同结果,本质上是在压缩从“听到”到“理解”再到“回应”的全流程时间

目前,搭载Seeduplex模型的能力已随豆包APP更新上线。用户只需在应用内点击“打电话”按钮,即可开启实时语音通话功能进行体验。这次升级没有炫酷的新功能噱头,但深入到了语音交互最基础也最考验功力的体验层面——如何让机器更懂人,不仅懂你说的词,也懂你说话的方式和场合。这或许比增加一百个新技能,更能决定一个AI助手能否真正融入用户的日常生活。

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行二次审核删除:fireflyrqh@163.com。
Like (0)
Previous 2026年4月9日 下午1:49
Next 2023年11月20日 上午5:17

相关推荐