当语音助手聆听时被打断的瞬间,往往成为人机交互中最尴尬的沉默。OpenAI 正准备彻底打破这种不自然的对话僵局。
根据近期信息,这家引领风潮的 AI 公司正在研发一款名为“BiDi”(双向语音)的新型语音模型。其核心目标直指当前语音交互的痛点:当你忍不住在 AI 发言时插一句“等等”或“嗯…”,AI 不再是戛然而止的宕机状态,而是能够像真人一样,实时理解并调整接下来要说的内容。
这看似微小的改进,背后是技术路径的质变。目前的 ChatGPT 高级语音模式,本质上是“回合制”的——必须等到用户完全讲完,它才开始处理并回应。一旦在其输出过程中检测到新的语音输入,系统通常会选择直接停止响应,对话的连续性便就此断裂。
而 BiDi 模型的突破在于,它能实现对语音流的持续监听与分析。这意味着,模型从生成回应的第一刻起,就同时保持着对用户声音的“注意力”,从而具备动态调整输出的能力。这向实现真正流畅、自然、具备“即时反馈”的语音对话迈出了关键一步。

然而,通向完美的道路总伴随着现实的颠簸。据透露,BiDi 的原型在持续对话数分钟后仍可能出现故障,甚至产生不自然的杂音。原定于一季度的发布计划也可能会推迟到第二季度或更晚。这些细节揭示了,让 AI 掌握人类对话中那看似简单的“节奏感”,需要克服的技术挑战依然复杂。
OpenAI 对此抱有清晰的商业远景:一旦语音模型的能力逼近其强大的文本模型,AI 的应用边界将被大幅拓宽。毕竟,对大多数人而言,说话远比打字更符合直觉。可以预见,客服领域将成为这项技术最直接的价值洼地。想象一下,在退货途中临时改主意想换货,AI客服不再需要你从头再说一遍,而是能无缝接上你的新意图,让服务体验平滑如丝。
更值得玩味的是,消息人士指出 BiDi 模型在调用外部工具和应用时也更具灵活性。这似乎与 OpenAI 早前透露的布局不谋而合——他们曾表示,正在为未来的主要依赖语音交互的 AI 设备优化模型,并探索类似智能音箱形态的产品,用户或许仅凭一句话就能打理邮件或安排行程。
从某种程度上说,BiDi 不仅仅是一个技术更新,它更像是一次交互范式的校准。它试图抹去的,是人与机器之间那道因响应延迟而产生的无形隔阂。当 AI 学会“倾听”而不仅仅是“等待发言”,我们与技术的对话,或许才真正开始。