小米 ARL-Tangram:算力成本直降 71.2%,真正的意义在哪里?

先说结论:这不是一篇"炫技"论文,它解决的是 AI Agent 训练的一个隐蔽但代价高昂的工程瓶颈——也预示着大模型公司的竞争重心,正在从"谁的参数多"悄悄转向"谁烧得更聪明"。


问题从哪里来

训练一个能真正完成任务的 AI Agent,和训练一个语言模型,有一个本质差异:Agent 要边训练边"做事"

想象一个 Agent 在强化学习过程中完成这样一个任务:“下载这份代码,在沙盒里跑一遍,看输出结果,再根据结果更新策略”。这一连串动作里,“跑代码"需要 CPU 沙盒环境,“看输出"需要奖励模型(GPU),“更新策略"需要训练集群(GPU)……

传统的资源调度方式,是按轨迹任务分配资源:你这个 Agent 实例从头到尾锁死一批资源。结果很尴尬——Agent 执行"写文字"动作时,GPU 在干等;执行"运行代码"时,GPU 又被占着啥也没干。

这就是论文定义的核心问题:严重的资源低效(Severe Resource Inefficiency)

图1:Agentic RL 训练资源异构性


ARL-Tangram 怎么解决这个问题

一句话概括:把资源调度的粒度,从"任务"下沉到"动作”

传统方式是租房子:你租了一套,不管用不用都占着。ARL-Tangram 是共享出行:你需要车的时候调一辆,用完了还回去,下一个人接着用。

系统有三个核心设计。第一个是统一动作级公式(Unified Action-Level Formulation)——把所有种类的外部资源调用,无论是 CPU 环境还是 GPU 推理,抽象成同一套描述框架,这是让后面的调度算法能"统一管理"的基础。第二个是弹性调度算法(Elastic Scheduling)——以最小化"动作完成时间(ACT)“为优化目标,不再静态分配,而是根据实时负载动态弹性伸缩,资源在不同 Agent 实例之间细粒度共享。第三个是定制化异构资源管理器——针对 CPU(代码执行)和 GPU(奖励模型)的不同特性做了专门适配,而不是粗暴地用同一套逻辑处理。

图2:动作级调度 vs 传统任务级调度对比


数字的含义是什么

论文报告了三个指标(均为"最高可达”):

  • 平均 ACT 提升 4.3 倍
  • 训练步骤时长缩短 1.5 倍
  • 外部资源节省 71.2%

这三个数字是不同维度的:

指标 度量对象 意义
ACT 提升 4.3× 单个动作执行效率 Agent “做一件事"更快了
步骤时长 ÷1.5 训练整体吞吐 同样的训练目标,时间更短
资源节省 71.2% 外部资源占用 同样的训练效果,烧的钱少了

71.2% 是最显眼的数字,也最容易被误读。它指的是外部计算资源(CPU 沙盒、GPU 奖励模型),不是训练集群本身的显卡消耗。但这部分在真实的 Agent RL 训练里,可以占到总成本的相当大比例——ARL-Tangram 已部署用于支撑 MiMo 系列模型的实际训练,这意味着数字是实战验证的,不是 benchmark 上的理想值。

图3:三项核心指标数据可视化


为什么这件事在现在发生

背景是:Agentic RL 正在变成大模型能力跃升的核心路线

DeepSeek-R1、MiMo 等模型的突破,都依赖强化学习让模型真正"学会推理”。而下一步,Agent 能力的提升——让模型学会完成多步骤、需要调用外部工具的复杂任务——依赖的就是 Agentic RL,也就是本文的训练场景。

这条路线有一个现实障碍:贵。训练一个好的推理 Agent,要反复让它"做任务”、评估结果、迭代策略,对各类计算资源的消耗是巨大的。所以谁能把 Agentic RL 训得更便宜、更快,谁就有更大的迭代速度优势

这也是为什么这篇工程系统论文,值得超出学术圈来关注。


对行业意味着什么

先说大模型公司这边。工程基础设施正在换竞争壁垒——大参数量不再是护城河,训练效率才是。一个能用同样预算跑更多 RL 迭代的团队,在 Agent 能力上的积累速度是量级差异。

对小米来说,这是罗福莉从 DeepSeek 带来的能力在小米显影。MiMo 的突破已经证明小米有做好基础模型的工程能力,ARL-Tangram 则说明这个团队在把 RL 工程化这件事上,有自己的系统级积累——不是用别人搭好的框架,是从底层重新设计的。

把视角再拉远一点:资源调度效率,目前在学术圈的关注度还不高,但工业界已经在默默做了。ARL-Tangram 的公开,等于把这个赛道的可能性摆到了台面上——谁先把这件事做成基础设施,谁在 Agentic AI 时代就占了一个不容易被追赶的位置。


一个值得观察的信号

罗福莉在小米的第一篇论文,是 MoE 与强化学习的结合(2025年10月)。第二篇,是 Agentic RL 的资源调度系统(2026年3月)。

两篇论文合在一起,描述的是一条完整路径:训练更强的推理模型,同时让训练本身变得更高效。这不是偶然的选题组合。

有意思的是,这位作者是从 DeepSeek 出来的研究员——而 DeepSeek 本身就以"用极低成本做出顶级模型"著称。某种程度上,ARL-Tangram 的思路,是在把这种"效率优先"的哲学,从大模型训练延伸到 Agent 训练。


以上是我的分析,欢迎讨论。

如果你对 Agentic RL 的技术细节感兴趣,论文在 arXiv:2603.13019,作者挺多的,第一作者是肖邦军,罗福莉是共同作者之一。