Xiaomi MiMO 大模型负责人罗福莉：MiMo-V2-Flash 是 AGI 路线图

今日上午，在小米2025人车家全生态合作伙伴大会上，xiaomi mimo大模型团队负责人罗福莉完成加盟小米后的首次公开亮相，并正式推出并开源全新moe架构大模型——mimo-v2-flash。

罗福莉随后在社交平台同步分享了关于MiMo-V2-Flash的核心技术细节：

MiMo-V2-Flash 已全面开放。这仅是我们通向通用人工智能（AGI）征程中的第二站，但其中若干关键工程决策，值得在此简要记录。

架构设计：

我们最终选定 Hybrid SWA（混合滑动窗口注意力）方案。该方案兼具简洁性与高效性，在内部长文本推理基准测试中，显著超越各类线性注意力（Linear Attention）改进版本。此外，固定 KV cache 的设计极大降低了与现有系统基础设施的集成门槛。
注：窗口长度设为128是经过充分验证的“最优值”（将窗口扩大至512反而导致性能下降）；sink tokens 机制不可或缺，切勿省略。

MTP（多Token预测）：

Sesame AI

一款开创性的语音AI伴侣，具备先进的自然对话能力和独特个性。

下载

这一技术在当前高效强化学习（RL）实践中长期被低估。除首层外，MTP仅需极少量微调即可实现较高的 accept length。采用3层MTP结构后，我们在编程类任务中实测 accept length 稳定超过3，推理速度提升约2.5倍。
它有效缓解了小批量 On-Policy RL 场景下因长尾样本导致的 GPU 利用率低下问题。受限于本次发布节奏，MTP暂未嵌入完整 RL 训练流程，但其与 RL 框架天然契合。我们已将3层MTP模块完全开源，便于开发者即插即用。

基于MOPD的后训练策略：

我们引入 Thinking Machine 提出的 On-Policy Distillation（OPD）方法，用于融合多个RL训练所得模型，计算效率跃升明显——仅需传统SFT RL联合训练流程不到1/50的算力消耗，即可复现教师模型的全部能力。
此路径已初具雏形：学生模型持续迭代进化，终将反哺成为更强大的新教师，从而构建起自我增强的正向循环。

致谢：
致敬我所带领的这支卓越团队。他们在数月之内，将一系列前沿构想从纸面推至稳定可用的工业级系统。

来源：https://www.php.cn/link/f0e6cbab5a5b7ea2821b2fe1c39d624a

源码地址：点击下载

科技

> 产业 > 科技 >

Xiaomi MiMO 大模型负责人罗福莉：MiMo-V2-Flash 是 AGI 路线图

频道精选

最火资讯