OpenAI连发三款语音AI，人声逼近真人

万能的Siri

2 月前

OpenAI刚刚甩出了一套语音AI组合拳，直接让实时语音交互的体验感拉满。5月8日消息，OpenAI官宣对其实时API进行了重大升级，一口气推出了三款全新高阶语音智能模型：GPT-Realtime-2、实时翻译模型以及实时转写模型。这次升级的核心信号很明确——AI音频交互已经从简单的问答进化成了集听、说、译、写于一体的综合智能语音操作系统，企业想开发语音应用的门槛被大幅压低。

GPT-Realtime-2是这次的主力产品，搭载了GPT-5级别的推理能力。与上一代相比，它对复杂指令的理解更精准，连续对话的流畅度和自然度提升明显，人声仿真度甚至让人恍惚觉得对面坐着的是个真人。翻译模型GPT-Realtime-Translate同步上线，支持超过70种语言的识别和13种语言的语音输出，翻译过程几乎无延迟，语速同步，跨语言沟通终于告别了“等三秒再讲”的尴尬。顺便，Whisper实时转录模型也来了，可以在人机互动过程中同步把语音转成文字，会议记录、实时笔录这类办公场景直接实用了。

OpenAI表示，这次升级将AI音频交互从基础问答提升为综合性智能语音操作系统，集聆听、思考、翻译、转写与实时响应于一体，实用性大幅增强。对于开发者来说，API接口的升级意味着无需再费力整合多个单点能力，一个接口就能拿到从语音识别到智能对话再到翻译输出的全链路能力，而且成本和时间都有望进一步压缩。这波操作，基本是把语音AI的商业化落地又往前推了一大截。