站点图标 AI Siri-苹果智能资讯网

阿里语音大模型斩获三项第一,超越GPT-Realtime-2

阿里语音大模型斩获三项第一,超越GPT-Realtime-2

阿里语音大模型最近在人工智能评测平台Artificial Analysis上搞了个大新闻——直接拿下三项世界第一,把GPT-Realtime-2等一众国际顶流甩在了身后。这可不是什么野榜,而是“听准(词错误率)”、“听懂(语音推理)”、“会聊(对话流畅度)”这三个硬核指标的全面登顶。简单说,就是AI不仅能一个字不差地听清你说啥,还能理解你的潜台词,甚至在你说话被打断时,也能像真人一样接住话茬。

阿里语音大模型三项第一

“听准”这个指标,看的是WER(词错误率),数值越低越好。阿里Fun-Realtime-ASR模型做到了1.8%,相当于每100个词里只听错不到2个,已经接近专业速记员的水准。更狠的是,这模型支持毫秒级响应,覆盖三十多种语言和七大中文方言体系,连二十多个地区的口音都能精准识别。对企业来说,它还提供了定制接口,金融、医疗这些专业场景也能灵活适配——比如医生口述病历,AI能自动分出药物名称和症状描述。

而Fun-Realtime-Audiochat则在更复杂的“听懂”和“会聊”上拿了双冠。语音推理能力(Speech Reasoning)得分97.6%,它考查的是模型能不能从你说的话里提炼出意图、情绪甚至潜台词——比如你说“这房间有点热”,它不会真的去调空调,而是先判断你是不是想开窗。对话动态(Conversational Dynamics)得分97.8%,考察的是真正的聊天能力:不抢话、被打断后能迅速跟上、该回应时不会沉默。这两个分数意味着,阿里模型的对话流畅度已经逼近人类水平,不再是那种“你说一句我回一句、中间停三秒”的机械感。

目前这套语音大模型家族已经深度融入了阿里系的不少应用:千问App能实时语音转文字,高德地图里可以直接用语音进行多轮导航交互,钉钉开会时AI自动生成会议纪要。可以说,阿里在语音交互这个新入口上,不仅追上了OpenAI,还在某些维度实现了超车。这背后是端到端的技术路线——直接从声音到智能,省去了传统语音识别后接NLP的冗余步骤。对于想做垂直行业语音方案的企业来说,这可能才是真正的“降维打击”。

退出移动版