新一代语音交互模型开源:GPU计算节省近50%

当大部分AI语音助手还在“对牛弹琴”时,阿里通义实验室的最新开源作品,可能会让这场对话,提前进入“交心”阶段。

近日,通义百聆家族开源了新一代语音交互模型Fun-Audio-Chat-8B。这款模型最引人注目的地方,并非简单的语音转文字或文字转语音,而是其标榜的“兼具高智商与高情商”——它主打完整的“语音对语音”闭环,试图在“能听会说”的基础上,加上一层“能懂你心”的能力。

根据官方介绍,在OpenAudioBench、VoiceBench等一系列针对音频和多功能对话的权威测试中,该模型表现亮眼,超越了同参数规模(80亿级别)的其他开源竞品,斩获当前最佳成绩(SOTA)。


Fun-Audio-Chat-8B在多个权威基准测试中表现

“高情商”并非一句空话。模型声称能在无预设情绪标签的情况下,仅通过分析说话人的语义、语气、语速、停顿甚至重音等细微线索,来感知对方的情绪状态,并给出相应的关切、安慰或鼓励回应。这意味着,AI对话可能从“回答正确”开始向“回应得体”进化。

此外,用户还可以为模型“定制角色”,设定其情绪、说话风格、语速和音调等,使其适用于情感陪伴、智能设备交互乃至更人性化的语音客服等多元化场景。


模型支持角色扮演与个性化语音定制

既要“人情练达”,又不能“智商掉线”。为此,研发团队引入了名为“Core-Cocktail”的两阶段训练策略。简单来说,模型先专注学习语音交互这项“新技能”,随后再将这项技能与原有的文本理解“老底子”进行融合微调,有效缓解了学习新模态时常见的“灾难性遗忘”问题。

更深一层,模型还通过多阶段、多任务的后训练设计来对齐人类偏好,力求在真实对话中做出更自然、更符合预期的回应。

技术上的一个关键突破在于效率。该模型采用了一套创新的压缩-自回归-解压缩双分辨率端到端设计,成功将音频帧率降至业界较低的5Hz。这一架构创新带来的直接收益是:在保证生成语音质量的同时,可节省近50%的GPU计算资源,大幅降低了部署与使用的硬件门槛。


双分辨率设计显著降低计算开销

目前,Fun-Audio-Chat-8B已在魔搭社区、HuggingFace及GitHub等平台开源。对于开发者和企业而言,这不仅仅是一个新的语音工具,或许更是探索下一代人机自然交互的一个技术锚点。当AI开始尝试理解语气里的情绪,未来的人机对话,可能将不再仅仅是“你说我查”的信息交换。

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行二次审核删除:fireflyrqh@163.com。
Like (0)
Previous 2025年12月24日 上午8:41
Next 2025年12月24日 上午11:09

相关推荐