新一代语音交互模型开源：GPU计算节省近50%

IT小埋 • 2025年12月24日上午11:07 • IT • 7072 views

当大部分AI语音助手还在“对牛弹琴”时，阿里通义实验室的最新开源作品，可能会让这场对话，提前进入“交心”阶段。

近日，通义百聆家族开源了新一代语音交互模型Fun-Audio-Chat-8B。这款模型最引人注目的地方，并非简单的语音转文字或文字转语音，而是其标榜的“兼具高智商与高情商”——它主打完整的“语音对语音”闭环，试图在“能听会说”的基础上，加上一层“能懂你心”的能力。

根据官方介绍，在OpenAudioBench、VoiceBench等一系列针对音频和多功能对话的权威测试中，该模型表现亮眼，超越了同参数规模（80亿级别）的其他开源竞品，斩获当前最佳成绩（SOTA）。

“高情商”并非一句空话。模型声称能在无预设情绪标签的情况下，仅通过分析说话人的语义、语气、语速、停顿甚至重音等细微线索，来感知对方的情绪状态，并给出相应的关切、安慰或鼓励回应。这意味着，AI对话可能从“回答正确”开始向“回应得体”进化。

此外，用户还可以为模型“定制角色”，设定其情绪、说话风格、语速和音调等，使其适用于情感陪伴、智能设备交互乃至更人性化的语音客服等多元化场景。

既要“人情练达”，又不能“智商掉线”。为此，研发团队引入了名为“Core-Cocktail”的两阶段训练策略。简单来说，模型先专注学习语音交互这项“新技能”，随后再将这项技能与原有的文本理解“老底子”进行融合微调，有效缓解了学习新模态时常见的“灾难性遗忘”问题。

更深一层，模型还通过多阶段、多任务的后训练设计来对齐人类偏好，力求在真实对话中做出更自然、更符合预期的回应。

技术上的一个关键突破在于效率。该模型采用了一套创新的压缩-自回归-解压缩双分辨率端到端设计，成功将音频帧率降至业界较低的5Hz。这一架构创新带来的直接收益是：在保证生成语音质量的同时，可节省近50%的GPU计算资源，大幅降低了部署与使用的硬件门槛。

目前，Fun-Audio-Chat-8B已在魔搭社区、HuggingFace及GitHub等平台开源。对于开发者和企业而言，这不仅仅是一个新的语音工具，或许更是探索下一代人机自然交互的一个技术锚点。当AI开始尝试理解语气里的情绪，未来的人机对话，可能将不再仅仅是“你说我查”的信息交换。