阿里通义新一代语音模型Fun-ASR再进化垂直领域识别准确率提升超15%

万能的Siri • 2025年8月22日下午6:29 • IT • 5485 views

AiSiri网8月22日消息，阿里通义今天扔出个新家伙——新一代端到端语音识别大模型Fun-ASR。据说这玩意儿上下文理解能力更强了，语音转文字的精准度也大幅提升，号称在家装、保险这些垂直领域，识别率直接飙升15%以上。看来以后跟客服battle，都不用担心AI听不懂你在说什么了。

据官方介绍，Fun-ASR这名字听着挺欢乐，本质上是个基于大语言模型的语音识别算法，底层是阿里自研的语音算法和用Qwen3模型做监督微调的结合。更关键的是，它还用上了先进的文本模态对齐技术，目的就是死死抓住大模型本身的语言处理能力，不让它跑偏。

更厉害的是，Fun-ASR还集成了RAG方案，简单说就是自带“热词搜索”功能。最多能导入1000多个自定义热词，系统会根据输入的音频，精准定位到相关领域的热门词汇、文档，甚至包括之前的对话记录。这对于特定领域的关键词识别简直是神器，以后专业术语再也不怕被误解了。

为了解决语音识别里常见的“翻车”问题，比如识别不准、噪音干扰、语种串戏，甚至AI自己瞎编内容，通义团队在ASR模型训练中引入了RL（强化学习）技术，目的就是尽量减少识别过程中的“幻觉”，提高系统的整体准确率和可靠性。毕竟，谁也不想被AI一本正经地胡说八道。

值得一提的是，这次Fun-ASR还在方言识别上秀了一把肌肉。四川话、粤语、闽南语，这些地方特色浓郁的语言，它都能搞定，据说表现领先同类产品。看来以后AI也要开始学地方话了。

此外，Fun-ASR对各种环境的适应性也挺强，无论是开会、办公室、超市，还是户外，都能保证识别准确率。也就是说，不管你是在嘈杂的环境里，还是离麦克风很远，它都能努力听清你在说什么。

Fun-ASR能在这么多领域“大杀四方”，背后靠的是海量的数据喂养。据说用了上亿小时的音频数据，涵盖了互联网、科技、家装、畜牧、汽车等等十几个领域的专业术语。训练量上去了，识别准确率自然也就水涨船高。

数据显示，Fun-ASR在保险行业的准确率提升了18%，在家装、畜牧等行业也实现了15%-20%的提升。这意味着，以后AI客服能更准确地理解你的需求，提供更靠谱的服务。当然，前提是它别再一本正经地胡说八道了。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行二次审核删除：fireflyrqh@163.com。

阿里通义新一代语音模型Fun-ASR再进化垂直领域识别准确率提升超15%

关于作者

万能的Siri媒体

阿里通义新一代语音模型Fun-ASR再进化 垂直领域识别准确率提升超15%

关于作者

万能的Siri媒体

相关推荐

阿里通义新一代语音模型Fun-ASR再进化垂直领域识别准确率提升超15%