原力无限科研新突破!攻克AI“灾难性遗忘”顽疾,定义“可进化”的具身大脑!

来源:原力无限机器人  作者:收藏
2026-02-03 09:25

近日,原力无限(INFIFORCE)资深研究科学家陈佳玉教授团队,联合卡耐基梅隆大学(CMU)、香港大学、浙江大学、南方科技大学、香港理工大学等全球顶尖科研机构,共同发布最新重磅科研成果!

这篇题为《Continual Policy Distillation from Distributed Reinforcement Learning Teachers》(基于分布式强化学习教师的持续策略蒸馏)的论文,针对具身智能领域长期存在的“灾难性遗忘”难题,提出了一套全新的系统性解决方案。

研究团队创新性地构建了“分布式教师-中央学生”的蒸馏框架,并结合混合专家模型(Mixture of Experts, MoE),在Meta-World等权威基准测试中,实现了在连续学习数十种复杂操作任务时,旧任务性能近乎零衰减,极大地拓展了通用机器人的技能边界。

这一成果不仅在学术上定义了持续学习的新SOTA(State-of-the-Art),也为构建具有“长时记忆”和“无限进化能力”的通用智能大脑提供了坚实的理论支撑。

挑战具身智能的“阿喀琉斯之踵”

在通往通用人工智能(AGI)的道路上,“持续学习”(Continual Learning)被视为最核心的能力之一。人类可以随着时间推移不断学习新技能(比如骑车、做饭、打球等),并将其累积在记忆中。

然而,现有的深度强化学习(RL)模型往往面临着“稳定性-可塑性”困境(Stability-Plasticity Dilemma):

可塑性:为了学习新任务,神经网络参数必须大幅调整;

稳定性:参数的调整往往会破坏对旧任务的记忆,导致模型“学了新知,忘了旧学”。

这种“灾难性遗忘”现象,限制了机器人从单一任务迈向多任务通用场景的能力。如何让智能体像海绵一样源源不断地吸收新技能,且互不干扰?原力无限团队给出了独特的解题思路。

方法论:分布式探索与中央蒸馏的艺术

不同于传统方法试图在一个模型中强行塞入所有任务,该论文提出了一种解耦的训练范式,其架构逻辑与其核心技术战略中的“一脑多身”理念在底层逻辑上形成了精妙的呼应。

核心创新一:分布式教师策略(Distributed Teacher Policies)

团队采用“分而治之”的策略。针对每一个新任务,先利用分布式强化学习训练一个专门的“教师模型”。这些教师模型像特种兵一样,专注于在各自的环境中探索最优解,互不干扰,从而避免了多任务同时训练时的梯度冲突问题。

核心创新二:持续策略蒸馏(Continual Policy Distillation)

如何将分散的“教师”经验汇聚到一个“学生”大脑中?论文引入了策略蒸馏技术。中央学生模型并不直接通过原始奖励信号学习,而是通过最小化与教师策略分布的KL散度,直接学习教师的“决策逻辑”。

这种方法不仅提高了学习效率,更重要的是,它将“从零探索”的艰难过程留给了边缘端的教师,中央大脑只需专注于知识的压缩与内化。

架构突破:会“生长”的MoE大脑

为了容纳不断增加的知识量,研究团队对中央模型的架构进行了大胆革新,引入了Transformer MoE(混合专家)机制。

这一设计让模型具备了动态扩容的能力:

专家扩展(Expert Expansion):当新任务到来时,网络会自动增加新的专家模块来专门处理新知识。

参数冻结与复用:旧任务的专家参数被锁定保护,确保记忆不被覆盖,同时新任务仍可复用底层的共享参数(Shared Params)。

此外,为了进一步巩固记忆,团队还设计了一种基于DPP(行列式点过程)的经验回放机制,能够从海量历史数据中智能筛选出最具代表性的轨迹进行复习,以极小的计算代价换取了极高的记忆稳定性。

实验验证:理解物理世界的底层逻辑

在Meta-World MT25基准测试中,该方法展现了显著的性能优势。

这种结构化的理解能力,正是原力无限Hyper-VLA大脑能够实现“举一反三”的学术根基。

这篇论文的价值在于,它从数学和算法层面证明了构建一个“终身学习智能体”的可行性。

它不再是一个静态的系统,而是一个能够随着时间推移、在与环境的交互中不断进化、不断丰富自身技能库的有机系统。这种“分布式探索-中央汇聚-动态生长”的技术路径,正是原力无限Hyper-VLA这一超级大脑背后的核心驱动力。

我们相信,只有攻克了“遗忘”,机器人的智能才能真正开始“积累”。

论文arxiv地址:https://arxiv.org/pdf/2601.22475


查看所有评论