小米 ARL-Tangram：算力成本直降 71.2%，真正的意义在哪里？

先说结论：这不是一篇"炫技"论文，它解决的是 AI Agent 训练的一个隐蔽但代价高昂的工程瓶颈——也预示着大模型公司的竞争重心，正在从"谁的参数多"悄悄转向"谁烧得更聪明"。

问题从哪里来

训练一个能真正完成任务的 AI Agent，和训练一个语言模型，有一个本质差异：Agent 要边训练边"做事"。

想象一个 Agent 在强化学习过程中完成这样一个任务：“下载这份代码，在沙盒里跑一遍，看输出结果，再根据结果更新策略”。这一连串动作里，“跑代码"需要 CPU 沙盒环境，“看输出"需要奖励模型（GPU），“更新策略"需要训练集群（GPU）……

传统的资源调度方式，是按轨迹或任务分配资源：你这个 Agent 实例从头到尾锁死一批资源。结果很尴尬——Agent 执行"写文字"动作时，GPU 在干等；执行"运行代码"时，GPU 又被占着啥也没干。

这就是论文定义的核心问题：严重的资源低效（Severe Resource Inefficiency）。

图1：Agentic RL 训练资源异构性

ARL-Tangram 怎么解决这个问题

一句话概括：把资源调度的粒度，从"任务"下沉到"动作”。

传统方式是租房子：你租了一套，不管用不用都占着。ARL-Tangram 是共享出行：你需要车的时候调一辆，用完了还回去，下一个人接着用。

系统有三个核心设计。第一个是统一动作级公式（Unified Action-Level Formulation）——把所有种类的外部资源调用，无论是 CPU 环境还是 GPU 推理，抽象成同一套描述框架，这是让后面的调度算法能"统一管理"的基础。第二个是弹性调度算法（Elastic Scheduling）——以最小化"动作完成时间（ACT）“为优化目标，不再静态分配，而是根据实时负载动态弹性伸缩，资源在不同 Agent 实例之间细粒度共享。第三个是定制化异构资源管理器——针对 CPU（代码执行）和 GPU（奖励模型）的不同特性做了专门适配，而不是粗暴地用同一套逻辑处理。

图2：动作级调度 vs 传统任务级调度对比

数字的含义是什么

论文报告了三个指标（均为"最高可达”）：

平均 ACT 提升 4.3 倍
训练步骤时长缩短 1.5 倍
外部资源节省 71.2%

这三个数字是不同维度的：

指标	度量对象	意义
ACT 提升 4.3×	单个动作执行效率	Agent “做一件事"更快了
步骤时长 ÷1.5	训练整体吞吐	同样的训练目标，时间更短
资源节省 71.2%	外部资源占用	同样的训练效果，烧的钱少了

71.2% 是最显眼的数字，也最容易被误读。它指的是外部计算资源（CPU 沙盒、GPU 奖励模型），不是训练集群本身的显卡消耗。但这部分在真实的 Agent RL 训练里，可以占到总成本的相当大比例——ARL-Tangram 已部署用于支撑 MiMo 系列模型的实际训练，这意味着数字是实战验证的，不是 benchmark 上的理想值。

图3：三项核心指标数据可视化

为什么这件事在现在发生

背景是：Agentic RL 正在变成大模型能力跃升的核心路线。

DeepSeek-R1、MiMo 等模型的突破，都依赖强化学习让模型真正"学会推理”。而下一步，Agent 能力的提升——让模型学会完成多步骤、需要调用外部工具的复杂任务——依赖的就是 Agentic RL，也就是本文的训练场景。

这条路线有一个现实障碍：贵。训练一个好的推理 Agent，要反复让它"做任务”、评估结果、迭代策略，对各类计算资源的消耗是巨大的。所以谁能把 Agentic RL 训得更便宜、更快，谁就有更大的迭代速度优势。

这也是为什么这篇工程系统论文，值得超出学术圈来关注。

对行业意味着什么

先说大模型公司这边。工程基础设施正在换竞争壁垒——大参数量不再是护城河，训练效率才是。一个能用同样预算跑更多 RL 迭代的团队，在 Agent 能力上的积累速度是量级差异。

对小米来说，这是罗福莉从 DeepSeek 带来的能力在小米显影。MiMo 的突破已经证明小米有做好基础模型的工程能力，ARL-Tangram 则说明这个团队在把 RL 工程化这件事上，有自己的系统级积累——不是用别人搭好的框架，是从底层重新设计的。

把视角再拉远一点：资源调度效率，目前在学术圈的关注度还不高，但工业界已经在默默做了。ARL-Tangram 的公开，等于把这个赛道的可能性摆到了台面上——谁先把这件事做成基础设施，谁在 Agentic AI 时代就占了一个不容易被追赶的位置。

一个值得观察的信号

罗福莉在小米的第一篇论文，是 MoE 与强化学习的结合（2025年10月）。第二篇，是 Agentic RL 的资源调度系统（2026年3月）。

两篇论文合在一起，描述的是一条完整路径：训练更强的推理模型，同时让训练本身变得更高效。这不是偶然的选题组合。

有意思的是，这位作者是从 DeepSeek 出来的研究员——而 DeepSeek 本身就以"用极低成本做出顶级模型"著称。某种程度上，ARL-Tangram 的思路，是在把这种"效率优先"的哲学，从大模型训练延伸到 Agent 训练。

以上是我的分析，欢迎讨论。

如果你对 Agentic RL 的技术细节感兴趣，论文在 arXiv:2603.13019，作者挺多的，第一作者是肖邦军，罗福莉是共同作者之一。