阿里语音大模型斩获三项第一，超越GPT-Realtime-2

万能的Siri

2 月前

阿里语音大模型最近在人工智能评测平台Artificial Analysis上搞了个大新闻——直接拿下三项世界第一，把GPT-Realtime-2等一众国际顶流甩在了身后。这可不是什么野榜，而是“听准（词错误率）”、“听懂（语音推理）”、“会聊（对话流畅度）”这三个硬核指标的全面登顶。简单说，就是AI不仅能一个字不差地听清你说啥，还能理解你的潜台词，甚至在你说话被打断时，也能像真人一样接住话茬。

“听准”这个指标，看的是WER（词错误率），数值越低越好。阿里Fun-Realtime-ASR模型做到了1.8%，相当于每100个词里只听错不到2个，已经接近专业速记员的水准。更狠的是，这模型支持毫秒级响应，覆盖三十多种语言和七大中文方言体系，连二十多个地区的口音都能精准识别。对企业来说，它还提供了定制接口，金融、医疗这些专业场景也能灵活适配——比如医生口述病历，AI能自动分出药物名称和症状描述。

而Fun-Realtime-Audiochat则在更复杂的“听懂”和“会聊”上拿了双冠。语音推理能力（Speech Reasoning）得分97.6%，它考查的是模型能不能从你说的话里提炼出意图、情绪甚至潜台词——比如你说“这房间有点热”，它不会真的去调空调，而是先判断你是不是想开窗。对话动态（Conversational Dynamics）得分97.8%，考察的是真正的聊天能力：不抢话、被打断后能迅速跟上、该回应时不会沉默。这两个分数意味着，阿里模型的对话流畅度已经逼近人类水平，不再是那种“你说一句我回一句、中间停三秒”的机械感。

目前这套语音大模型家族已经深度融入了阿里系的不少应用：千问App能实时语音转文字，高德地图里可以直接用语音进行多轮导航交互，钉钉开会时AI自动生成会议纪要。可以说，阿里在语音交互这个新入口上，不仅追上了OpenAI，还在某些维度实现了超车。这背后是端到端的技术路线——直接从声音到智能，省去了传统语音识别后接NLP的冗余步骤。对于想做垂直行业语音方案的企业来说，这可能才是真正的“降维打击”。