全球语音人工智能领域迎来重大突破,小米公司正式开源的原生端到端语音大模型Xiaomi-MiMo-Audio,在多项国际标准测试中超越了谷歌和OpenAI的闭源模型。
2025年9月19日,小米正式宣布开源其首个原生端到端语音大模型——Xiaomi-MiMo-Audio。这一基于创新预训练架构和上亿小时训练数据打造的语音模型,首次在语音领域实现了基于ICL(上下文学习)的少样本泛化能力,并在预训练过程中观察到明显的“涌现”行为。
在通用语音理解及对话等多项标准评测基准中,MiMo-Audio大幅超越了同参数量的开源模型,取得7B最佳性能。更令人瞩目的是,这一开源模型甚至超越了科技巨头谷歌和OpenAI的闭源语音模型。
01 语音AI的瓶颈
过去五年间,自然语言处理领域见证了革命性进步。自从GPT-3展示了通过自回归语言模型加大规模无标注数据训练可获得In-Context Learning(ICL)能力以来,语言模型的发展日新月异。
然而语音领域的发展却相对滞后。现有语音大模型仍严重依赖大规模标注数据,难以适应新任务达到类人智能。
这种局限性严重制约了语音AI在实际场景中的应用效果。无论是智能家居、车载系统还是客户服务,语音交互的灵活性、自然度和适应能力都有待提高。
02 小米的技术突破
Xiaomi-MiMo-Audio采用了创新的预训练架构,包括patch编码器+大语言模型+patch解码器的三段式结构。这一设计在1亿多小时多源语料上完成预训练,在突破7000亿token阈值后出现显著的“能力涌现”。
该模型首次证明了把语音无损压缩预训练扩展至1亿小时可以“涌现”出跨任务的泛化性,表现为Few-Shot Learning能力。这被认为是语音领域的“GPT-3时刻”。
同时,小米还明确了语音生成式预训练的目标和定义,并开源一套完整的语音预训练方案,包括无损压缩的Tokenizer、全新模型结构、训练方法和评测体系。这被视为语音领域的“LLaMA时刻”。
03 卓越性能表现
根据评测结果,MiMo-Audio在多项国际标准测试中展现出卓越性能。在通用语音理解及对话等多项标准评测基准中,该模型大幅超越了同参数量的开源模型,取得7B最佳性能。
在音频理解基准MMAU的标准测试集上,MiMo-Audio超过了Google闭源语音模型Gemini-2.5-Flash。
更为引人注目的是,在面向音频复杂推理的基准Big Bench Audio S2T任务中,MiMo-Audio同样超越了OpenAI闭源的语音模型GPT-4o-Audio-Preview。
后训练进一步激发了Xiaomi-MiMo-Audio的智商、情商、表现力与安全性在内的跨模态对齐能力,语音对话在自然度、情感表达和交互适配上呈现极高的拟人化水准。
04 创新技术架构
MiMo-Audio采用了原生端到端架构,实现语音信号到文本的直接映射,这一设计将指令响应速度提升4倍并降低系统复杂度,在嘈杂环境识别准确率提升20%以上。
该模型首次在语音领域实现基于ICL的少样本泛化能力,无需大规模标注数据即可通过少量示例快速适配新任务,在复杂推理任务中超越OpenAI同类模型。
小米还通过全链路开源提供从数据预处理到推理部署的完整工具链,以Apache 2.0协议授权彻底打破音频AI领域闭源垄断格局。上线首日就获3000+开发者关注。
05 开源生态贡献
小米已在Huggingface平台开源了该模型的预训练及指令微调版本,同时在Github平台开放Tokenizer模型代码。这种开放策略将大幅降低语音大模型的应用门槛。
中小企业无需构建专用数据集,就能快速开发定制化音频应用。这在智能家居、车载语音交互等实际应用场景中,将显著提升人机语音交互体验。
小米开源了多个模型版本,包括:预训练模型MiMo-Audio-7B-Base,是目前开源领域第一个有语音续写能力的语音模型;指令微调模型MiMo-Audio-7B-Instruct,经过轻量级的SFT,成为7B参数规模最强语音理解和生成模型。
06 未来应用前景
MiMo-Audio-7B-Instruct可通过prompt切换non-thinking、thinking两种模式,强化学习起点高、潜力足,可以作为研究语音RL和Agentic训练的全新基座模型。
这款模型的开源将为语音AI领域带来全新的发展机遇。开发者可以基于这一模型构建更加智能、自然和高效的语言交互应用,推动整个行业的技术进步。
在智能家居领域,小米的语音大模型将让智能设备“更懂人话”。用户可以通过更自然的语音指令控制家电,获得更人性化的交互体验。
车载语音交互系统也将从中受益,驾驶者可以在嘈杂的行车环境中获得更准确的语音识别服务,提高行车安全性和便捷性。
Xiaomi-MiMo-Audio的开源不仅是技术上的突破,更是对整个人工智能语音领域的 democratization。
开发者无需从头训练基础模型,可直接基于MiMo-Audio构建应用,这将大幅降低语音技术的开发门槛。
正如五年前GPT-3为自然语言处理带来的革命,今天小米的MiMo-Audio正在为语音AI领域开启全新的可能——一个不再依赖海量标注数据、能够通过少量示例快速学习新任务的智能语音时代已经到来。












