AiSiri网8月22日消息,阿里通义今天扔出个新家伙——新一代端到端语音识别大模型Fun-ASR。据说这玩意儿上下文理解能力更强了,语音转文字的精准度也大幅提升,号称在家装、保险这些垂直领域,识别率直接飙升15%以上。看来以后跟客服battle,都不用担心AI听不懂你在说什么了。
据官方介绍,Fun-ASR这名字听着挺欢乐,本质上是个基于大语言模型的语音识别算法,底层是阿里自研的语音算法和用Qwen3模型做监督微调的结合。更关键的是,它还用上了先进的文本模态对齐技术,目的就是死死抓住大模型本身的语言处理能力,不让它跑偏。
更厉害的是,Fun-ASR还集成了RAG方案,简单说就是自带“热词搜索”功能。最多能导入1000多个自定义热词,系统会根据输入的音频,精准定位到相关领域的热门词汇、文档,甚至包括之前的对话记录。这对于特定领域的关键词识别简直是神器,以后专业术语再也不怕被误解了。
为了解决语音识别里常见的“翻车”问题,比如识别不准、噪音干扰、语种串戏,甚至AI自己瞎编内容,通义团队在ASR模型训练中引入了RL(强化学习)技术,目的就是尽量减少识别过程中的“幻觉”,提高系统的整体准确率和可靠性。毕竟,谁也不想被AI一本正经地胡说八道。
值得一提的是,这次Fun-ASR还在方言识别上秀了一把肌肉。四川话、粤语、闽南语,这些地方特色浓郁的语言,它都能搞定,据说表现领先同类产品。看来以后AI也要开始学地方话了。
此外,Fun-ASR对各种环境的适应性也挺强,无论是开会、办公室、超市,还是户外,都能保证识别准确率。也就是说,不管你是在嘈杂的环境里,还是离麦克风很远,它都能努力听清你在说什么。
Fun-ASR能在这么多领域“大杀四方”,背后靠的是海量的数据喂养。据说用了上亿小时的音频数据,涵盖了互联网、科技、家装、畜牧、汽车等等十几个领域的专业术语。训练量上去了,识别准确率自然也就水涨船高。
数据显示,Fun-ASR在保险行业的准确率提升了18%,在家装、畜牧等行业也实现了15%-20%的提升。这意味着,以后AI客服能更准确地理解你的需求,提供更靠谱的服务。当然,前提是它别再一本正经地胡说八道了。