OpenAI打造双向语音模型：即时回应打断让交流更自然

万能的Siri • 2026年3月7日上午3:06 • IT • 9721 views

当语音助手聆听时被打断的瞬间，往往成为人机交互中最尴尬的沉默。OpenAI 正准备彻底打破这种不自然的对话僵局。

根据近期信息，这家引领风潮的 AI 公司正在研发一款名为“BiDi”（双向语音）的新型语音模型。其核心目标直指当前语音交互的痛点：当你忍不住在 AI 发言时插一句“等等”或“嗯…”，AI 不再是戛然而止的宕机状态，而是能够像真人一样，实时理解并调整接下来要说的内容。

这看似微小的改进，背后是技术路径的质变。目前的 ChatGPT 高级语音模式，本质上是“回合制”的——必须等到用户完全讲完，它才开始处理并回应。一旦在其输出过程中检测到新的语音输入，系统通常会选择直接停止响应，对话的连续性便就此断裂。

而 BiDi 模型的突破在于，它能实现对语音流的持续监听与分析。这意味着，模型从生成回应的第一刻起，就同时保持着对用户声音的“注意力”，从而具备动态调整输出的能力。这向实现真正流畅、自然、具备“即时反馈”的语音对话迈出了关键一步。

OpenAI开发双向语音模型示意图

然而，通向完美的道路总伴随着现实的颠簸。据透露，BiDi 的原型在持续对话数分钟后仍可能出现故障，甚至产生不自然的杂音。原定于一季度的发布计划也可能会推迟到第二季度或更晚。这些细节揭示了，让 AI 掌握人类对话中那看似简单的“节奏感”，需要克服的技术挑战依然复杂。

OpenAI 对此抱有清晰的商业远景：一旦语音模型的能力逼近其强大的文本模型，AI 的应用边界将被大幅拓宽。毕竟，对大多数人而言，说话远比打字更符合直觉。可以预见，客服领域将成为这项技术最直接的价值洼地。想象一下，在退货途中临时改主意想换货，AI客服不再需要你从头再说一遍，而是能无缝接上你的新意图，让服务体验平滑如丝。

更值得玩味的是，消息人士指出 BiDi 模型在调用外部工具和应用时也更具灵活性。这似乎与 OpenAI 早前透露的布局不谋而合——他们曾表示，正在为未来的主要依赖语音交互的 AI 设备优化模型，并探索类似智能音箱形态的产品，用户或许仅凭一句话就能打理邮件或安排行程。

从某种程度上说，BiDi 不仅仅是一个技术更新，它更像是一次交互范式的校准。它试图抹去的，是人与机器之间那道因响应延迟而产生的无形隔阂。当 AI 学会“倾听”而不仅仅是“等待发言”，我们与技术的对话，或许才真正开始。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行二次审核删除：fireflyrqh@163.com。

OpenAI打造双向语音模型：即时回应打断让交流更自然

关于作者

万能的Siri媒体

OpenAI打造双向语音模型：即时回应打断让交流更自然

关于作者

万能的Siri媒体

相关推荐