AI资讯
小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio
9月19日,小米公司宣布开源其首个原生端到端语音大模型 Xiaomi-MiMo-Audio,这一创新成果标志着语音技术领域的一次重大突破。五年前,GPT-3的出现开启了语言通用人工智能(AGI)的新纪元,但语音领域一直受限于对大规模标注数据的依赖,难以实现类似的语言模型的少样本泛化能力。如今,小米推出的 Xiaomi-MiMo-Audio 模型基于创新的预训练架构和上亿小时的训练数据,首次在语音领域实现了基于 In-Context Learning(ICL)的少样本泛化,并在预训练过程中观察到了明显的“涌现”行为。
Xiaomi-MiMo-Audio 模型在多个标准评测基准中表现出色,其性能不仅超越了同参数量的开源模型,还在音频理解基准 MMAU 的标准测试集上超过了 Google 的闭源语音模型 Gemini-2.5-Flash,并在音频复杂推理基准 Big Bench Audio S2T 任务中超越