小米首代机器人VLA大模型震撼发布，开启智能新纪元

每日讯闻2026年02月12日 13:04消息，小米开源首代机器人VLA大模型，推动AI技术发展。

　　据小米技术官微消息，小米2月12日宣布开源Xiaomi-Robotics-0。

　　据介绍，这是一款拥有47亿参数、具备视觉语言理解能力且具备高效实时执行性能的开源VLA模型。

小米首代机器人VLA大模型震撼发布，开启智能新纪元

　　小米机器人团队在最新技术中引入了ActionProposal机制，要求视觉语言模型（VLM）在理解图像的同时，预测多种可能的动作分布。为了解决推理延迟导致的真机操作中出现的“动作断层”问题，该团队采用了异步推理模式，使模型推理过程与机器人实际运行实现解耦，不再依赖同步执行。这一技术调整有效提升了机器人在复杂环境下的响应能力和稳定性，尤其是在实时性要求较高的场景中，异步处理能够显著减少因计算延迟带来的操作中断风险。同时，通过让模型在理解图像的基础上生成多种动作选项，也增强了机器人在面对不确定环境时的适应性和决策能力。这种设计思路体现了小米在机器人智能化方向上的深入探索和实践。

小米首代机器人VLA大模型震撼发布，开启智能新纪元

　　以下为原文（有删减）：

小米首代机器人VLA大模型震撼发布，开启智能新纪元

　　小米开源首代机器人 VLA 大模型，刷新多项 SOTA！

　　在具身智能（EmbodiedAI）的浪潮中，我们始终在思考一个问题：如何让机器人既有“博学的大脑”，又有“敏捷的身手”？这一问题不仅关乎技术突破，更指向人工智能未来的发展方向。随着研究的深入，越来越多的学者和工程师开始探索如何将感知、认知与行动有机融合，使机器不仅能够理解世界，还能高效地与之互动。这种“知行合一”的能力，正是实现真正智能体的关键所在。

　　现有的 VLA（Vision-Language-Action）模型虽然通过大规模参数获得了惊人的泛化能力，但在真实物理世界中，庞大的推理延迟往往让机器人表现得像个“反应迟钝的木头人”。

　　今天，我们对外发布：Xiaomi-Robotics-0。这是一个拥有47亿参数的开源视觉语言模型（VLA），具备强大的视觉语言理解能力与高效的实时执行性能。该模型不仅在三大主流仿真测试中表现突出，更在实际机器人任务中展现了出色的物理智能泛化能力，动作流畅、响应迅速，并可在消费级显卡上实现实时推理。

　　物理智能的钥匙：MoT 混合架构

　　物理智能的核心在于“感知-决策-执行”的闭环质量。为了兼顾通用理解与精细控制，Xiaomi-Robotics-0采用了主流的 Mixture-of-Transformers (MoT) 架构。

　　视觉语言模型（VLM）：我们使用了多模态的VLM大模型作为基础架构。该模型能够理解人类的模糊指令（例如“请把毛巾叠好”），并能从高清的视觉输入中提取空间关系。

　　为了生成高频且平滑的动作，系统引入了多层的DiffusionTransformer（DiT）结构。它并不直接输出单一动作，而是生成一个“动作块”（ActionChunk），并通过流匹配（Flow-matching）技术提升动作的精准度和连贯性。从技术角度看，这种设计体现了对动作生成过程的深度优化，尤其是在实时性和流畅性方面有明显提升。将动作分解为“块”进行处理，有助于系统更灵活地应对复杂场景，同时保持动作的自然与稳定。流匹配技术的应用则进一步增强了模型在动态环境中的适应能力，为后续的智能交互和自动化操作提供了更可靠的技术支撑。

　　模型架构及训练方法：(a) VLM多模态与动作混合预训练；(b) DiT专项预训练；(c) 目标任务后训练

　　这种“大脑-小脑”的组合，使我们的模型既能理解指令，又能像人类一样在执行动作时展现出极高的物理灵活性。

　　训练秘籍：两阶段的“进化论”

　　如何让模型既保持常识，又擅长处理“体力活”？我们设计了一套严谨的训练方案。在当前人工智能技术不断发展的背景下，模型不仅要具备广泛的知识储备，还要在实际应用中展现出高效的执行能力。这种双重需求促使研究者们不断探索更科学的训练方法。通过精心设计的训练配方，能够在不牺牲基础认知能力的前提下，提升模型在具体任务中的表现。这种平衡对于推动AI技术的实际落地具有重要意义。

　　 ▍跨模态预训练（Cross-Embodiment Pre-training）

　　许多VLA模型在学习动作技能时往往会“变笨”，丧失原有的理解能力。我们通过将多模态数据与动作数据结合进行训练，使模型在掌握操作技能的同时，仍能保持出色的物体检测、视觉问答和逻辑推理能力。

　　 VLM协同训练方面，研究团队首先引入了ActionProposal机制，促使VLM模型在理解图像的同时，预测多种动作分布。这一步骤旨在使VLM的特征空间与动作空间实现对齐，避免其仅停留在理论层面的“纸上谈兵”。我认为，这一机制的引入具有重要意义。通过让模型在视觉理解的基础上生成动作预测，不仅增强了模型对现实世界的感知能力，也为其在实际应用场景中的落地打下了基础。这种从“看”到“做”的转变，标志着视觉语言模型向更智能、更实用的方向迈出了一大步。

　　 DiT专项训练：接下来，我们对VLM进行冻结，重点转向DiT的训练，旨在学习如何从噪声中恢复出精确的动作序列。在这一阶段，我们去除了VLM中的离散Token，完全依靠KV特征进行条件生成。通过DiT的专项训练，模型能够生成更加平滑且准确的动作序列。

　　 ▍后训练（Post-training）

　　这是解锁物理智能的关键路径。针对推理延迟导致的真机“动作断层”问题，我们采用异步推理模式——让模型推理与机器人运行不再受同步约束，实现异步执行，从根本上保障动作的连贯性和流畅性。为进一步提升模型对环境变化的响应速度和运行稳定性，我们引入了：在当前人工智能与机器人技术深度融合的背景下，异步推理模式的应用无疑是一个重要突破。它不仅有效解决了传统同步机制下因计算延迟引发的动作不连贯问题，也为实际应用中的稳定性与实时性提供了更可靠的保障。这种技术思路体现了对物理智能本质的深入理解，也展现了在工程实践中对细节把控的严谨态度。

　　 CleanActionPrefix：以先前预测的动作作为输入，确保动作在时间轴上保持连贯性与稳定性，从而提升整体的流畅度。在视频处理或动作捕捉技术中，这种机制有助于减少动作的不稳定性，使整个过程更加自然。通过延续前一时刻的动作信息，系统能够更准确地生成下一帧的输出，避免出现突兀或断续的现象。这种方式不仅提升了用户体验，也对需要高精度动作控制的应用场景具有重要意义。

　　 Λ-shape Attention Mask 通过特殊的注意力机制，引导模型更聚焦于当前的视觉信息，而非过度依赖过往经验。这种设计使机器人在面对环境突变时，能更快做出反应，展现出更强的物理智能与适应能力。我认为，这一技术突破为机器人在动态复杂环境中的应用提供了新的可能。通过优化注意力分配，不仅提升了系统的实时响应能力，也增强了其在不确定场景下的决策准确性。这种对“当下”感知的强化，是人工智能向更高效、更贴近人类认知方式迈进的重要一步。

　　仿真与实战：全面 SOTA

　　在多维度的测试中，Xiaomi-Robotics-0 展现出优异的表现：

　　仿真标杆：在LIBERO、CALVIN和SimplerEnv测试中，模型在所有基准测试的30种模型对比中，均取得了当前最佳的成绩。

　　真实挑战：我们在双臂机器人平台上部署了模型，并与行业标杆进行了横向对比。在积木拆解和叠毛巾这类需要长时间操作且难度较高的任务中，机器人表现出色，展现出极高的手眼协调能力。无论是刚性的积木还是柔性的织物，都能处理得非常流畅，显示出其在复杂环境下的适应性和稳定性。从技术发展的角度来看，这种表现不仅体现了机器人控制算法的成熟，也反映出当前工业自动化水平的显著提升。在面对柔性物体和长周期任务时，机器人的灵活性和精准度正在逐步接近甚至超越人类操作员的水平，这为未来智能制造和人机协作提供了更多可能性。

　　多模态能力：模型延续了VLM原有的多模态理解能力，尤其在与具身相关性更强的基准测试中表现出色，这一优势是此前的VLA模型所没有的。