MiMo-Audio：小米开源语音大模型，性能超越GPT-4o与Gemini

全球语音人工智能领域迎来重大突破，小米公司正式开源的原生端到端语音大模型Xiaomi-MiMo-Audio，在多项国际标准测试中超越了谷歌和OpenAI的闭源模型。

2025年9月19日，小米正式宣布开源其首个原生端到端语音大模型——Xiaomi-MiMo-Audio。这一基于创新预训练架构和上亿小时训练数据打造的语音模型，首次在语音领域实现了基于ICL（上下文学习）的少样本泛化能力，并在预训练过程中观察到明显的“涌现”行为。

在通用语音理解及对话等多项标准评测基准中，MiMo-Audio大幅超越了同参数量的开源模型，取得7B最佳性能。更令人瞩目的是，这一开源模型甚至超越了科技巨头谷歌和OpenAI的闭源语音模型。

01 语音AI的瓶颈

过去五年间，自然语言处理领域见证了革命性进步。自从GPT-3展示了通过自回归语言模型加大规模无标注数据训练可获得In-Context Learning（ICL）能力以来，语言模型的发展日新月异。

然而语音领域的发展却相对滞后。现有语音大模型仍严重依赖大规模标注数据，难以适应新任务达到类人智能。

这种局限性严重制约了语音AI在实际场景中的应用效果。无论是智能家居、车载系统还是客户服务，语音交互的灵活性、自然度和适应能力都有待提高。

Xiaomi-MiMo-Audio采用了创新的预训练架构，包括patch编码器+大语言模型+patch解码器的三段式结构。这一设计在1亿多小时多源语料上完成预训练，在突破7000亿token阈值后出现显著的“能力涌现”。

该模型首次证明了把语音无损压缩预训练扩展至1亿小时可以“涌现”出跨任务的泛化性，表现为Few-Shot Learning能力。这被认为是语音领域的“GPT-3时刻”。

同时，小米还明确了语音生成式预训练的目标和定义，并开源一套完整的语音预训练方案，包括无损压缩的Tokenizer、全新模型结构、训练方法和评测体系。这被视为语音领域的“LLaMA时刻”。

根据评测结果，MiMo-Audio在多项国际标准测试中展现出卓越性能。在通用语音理解及对话等多项标准评测基准中，该模型大幅超越了同参数量的开源模型，取得7B最佳性能。

在音频理解基准MMAU的标准测试集上，MiMo-Audio超过了Google闭源语音模型Gemini-2.5-Flash。

更为引人注目的是，在面向音频复杂推理的基准Big Bench Audio S2T任务中，MiMo-Audio同样超越了OpenAI闭源的语音模型GPT-4o-Audio-Preview。

后训练进一步激发了Xiaomi-MiMo-Audio的智商、情商、表现力与安全性在内的跨模态对齐能力，语音对话在自然度、情感表达和交互适配上呈现极高的拟人化水准。

MiMo-Audio采用了原生端到端架构，实现语音信号到文本的直接映射，这一设计将指令响应速度提升4倍并降低系统复杂度，在嘈杂环境识别准确率提升20%以上。

该模型首次在语音领域实现基于ICL的少样本泛化能力，无需大规模标注数据即可通过少量示例快速适配新任务，在复杂推理任务中超越OpenAI同类模型。

小米还通过全链路开源提供从数据预处理到推理部署的完整工具链，以Apache 2.0协议授权彻底打破音频AI领域闭源垄断格局。上线首日就获3000+开发者关注。

小米已在Huggingface平台开源了该模型的预训练及指令微调版本，同时在Github平台开放Tokenizer模型代码。这种开放策略将大幅降低语音大模型的应用门槛。

中小企业无需构建专用数据集，就能快速开发定制化音频应用。这在智能家居、车载语音交互等实际应用场景中，将显著提升人机语音交互体验。

小米开源了多个模型版本，包括：预训练模型MiMo-Audio-7B-Base，是目前开源领域第一个有语音续写能力的语音模型；指令微调模型MiMo-Audio-7B-Instruct，经过轻量级的SFT，成为7B参数规模最强语音理解和生成模型。

MiMo-Audio-7B-Instruct可通过prompt切换non-thinking、thinking两种模式，强化学习起点高、潜力足，可以作为研究语音RL和Agentic训练的全新基座模型。

这款模型的开源将为语音AI领域带来全新的发展机遇。开发者可以基于这一模型构建更加智能、自然和高效的语言交互应用，推动整个行业的技术进步。

在智能家居领域，小米的语音大模型将让智能设备“更懂人话”。用户可以通过更自然的语音指令控制家电，获得更人性化的交互体验。

车载语音交互系统也将从中受益，驾驶者可以在嘈杂的行车环境中获得更准确的语音识别服务，提高行车安全性和便捷性。

Xiaomi-MiMo-Audio的开源不仅是技术上的突破，更是对整个人工智能语音领域的 democratization。

开发者无需从头训练基础模型，可直接基于MiMo-Audio构建应用，这将大幅降低语音技术的开发门槛。

正如五年前GPT-3为自然语言处理带来的革命，今天小米的MiMo-Audio正在为语音AI领域开启全新的可能——一个不再依赖海量标注数据、能够通过少量示例快速学习新任务的智能语音时代已经到来。