ICLR重磅收录!原力无限攻克具身智能“决策大脑”核心难题,定义机器人“深度思考”新范式
由香港大学、清华大学、卡耐基梅隆大学(CMU)与原力无限科研团队联合攻关的最新成果被AI顶会ICLR录用!论文提出BA-MCTS算法,将AlphaZero式的“蒙特卡洛树搜索”引入离线强化学习,赋予机器人“深度思考”的能力,在极其严苛的控制任务中展现出大师级的决策水平。
如果说大模型赋予了机器人“常识”,那么这项新技术则赋予了机器人“深度思考”的能力。
在通往具身智能(Embodied AI)终极形态的路上,一直横亘着一只拦路虎——“数据饥渴”与“安全试错”的矛盾。
我们在训练机器人时,往往只能依赖有限的离线数据(Offline Data)。传统的AI在面对这些“死数据”时,很容易产生“幻觉”:对没见过的情况盲目自信,导致决策失误。在家庭服务或工业场景中,这种失误可能意味着打碎杯子,甚至误伤人类。
如何让机器人利用有限的数据,练就“运筹帷幄”的决策能力?
近日,被誉为深度学习领域四大顶会之一的 ICLR(International Conference on Learning Representations) 录用了原力无限资深研究科学家陈佳玉教授指导的最新研究成果——《Bayes Adaptive Monte Carlo Tree Search for Offline Model-Based Reinforcement Learning》。
这项研究由香港大学、清华大学、卡耐基梅隆大学(CMU)与原力无限的资深研究科学家陈佳玉教授团队共同完成。团队通过引入“贝叶斯自适应”与“蒙特卡洛树搜索(MCTS)”,成功让机器人在离线学习中,拥有了类似 AlphaZero(阿尔法元) 的逻辑推演能力。
这是继RoboTidy家庭整理基准、DSAP因果推理框架后,原力无限在“具身智能大脑”决策层的又一重大突破!
01拒绝“盲目自信”
给机器人装上“贝叶斯雷达”
在离线强化学习(Offline RL)中,机器人需要构建一个“世界模型”来模拟环境。但现实世界极其复杂,模型难免有误差。
传统方法往往假设模型是完美的,这就像一个新手司机,只在驾校里学过倒车,就敢在闹市区闭着眼开——这是极其危险的。
原力无限团队提出的BA-MCTS算法,首先解决的就是“不确定性”问题。
团队将问题建模为贝叶斯自适应马尔可夫决策过程(BAMDP)。简单来说,就是给机器人装上了一个“贝叶斯雷达”。它不再依赖单一的世界模型,而是同时维护一个“模型集合(Ensemble)”。
当遇到熟悉的路况,所有模型意见一致,机器人就大胆行动;当遇到陌生路况,模型们意见不合,机器人就会立刻警觉,意识到这里存在“不确定性”,从而变得更加谨慎。
这种“知之为知之,不知为不知”的能力,是机器人安全落地的基石。

*记录BA-MCTS 算法的“心路历程”可视化。 图表展示了机器人在脑海中进行推演(Imaginary Rollout)时,如何迅速消除模型的不确定性,在极短时间内锁定唯一的真实环境模型(曲线迅速收敛至 1.0),从而做出精准决策
02复刻AlphaZero范式
从“条件反射”进化到“深思熟虑”
诺贝尔奖得主丹尼尔·卡尼曼在《思考,快与慢》中提出,人类有两种思维模式:
系统1(快思考): 依赖直觉,下意识反应。
系统2(慢思考): 依赖逻辑,深思熟虑。
目前的机器人控制大多停留在“系统1”层面,看到状态直接输出动作。而这项研究,通过引入蒙特卡洛树搜索(MCTS),成功为机器人构建了“系统2”。
这就好比下围棋。普通的AI只看当前棋盘,凭借直觉落子;而搭载BA-MCTS的AI,则像AlphaZero 一样,会在落子前,在脑海中模拟未来几步甚至几十步的无数种可能性(Tree Search)。
“如果我这么做,环境会怎么变?”
“如果模型预测错了,我有没有备选方案?”
通过这种“直觉+搜索”的双引擎驱动,机器人能够利用有限的数据,规划出远超平均水平的“最优解”。
03极致效能
在“烂数据”中炼出“黄金策略”
为了验证算法的极限能力,团队在国际通用的D4RL(Deep Data-Driven RL)基准测试中进行了严苛实验。
D4RL数据集模拟了现实中各种棘手情况:数据可能充满了噪音、可能是随机生成的、甚至可能是错误的。这与机器人未来进入千家万户时面临的复杂环境如出一辙。
实验结果显示,BA-MCTS在HalfCheetah、Hopper、Walker2d等多项经典控制任务中,均取得了State-of-the-Art(SOTA)的成绩。
这一突破意味着,原力无限的机器人不仅更“聪明”,而且更“高效”。即便是在训练数据质量不佳、或者面对从未见过的复杂地形时,我们的算法也能像一位经验丰富的老练工匠,从混乱的信息中抽丝剥茧,找到最精准的控制策略,保持机器人的平稳运行。
04产学研深度融合
打造通往AGI的技术护城河
从RoboTidy解决“怎么看、怎么动”,到DSAP解决“怎么举一反三”,再到BA-MCTS解决“怎么深思熟虑”。
原力无限资深研究科学家陈佳玉教授团队,正在一步一个脚印,拼好具身智能(Embodied AI)通往通用人工智能(AGI)的重要拼图。
BA-MCTS的提出,标志着原力无限在“世界模型”与“复杂决策”领域构建起了深厚的技术壁垒。 我们相信,只有会思考、懂逻辑、知敬畏的AI,才能真正放心地走进千家万户,服务人类生活。
- · 国内领先!箱涵拼装迈入“无人精调”时代2026-02-12
- · 安徽省级科技创新攻坚计划“高温合金复杂型腔薄壁机匣...2026-02-12
- · “马”力全开!哈电电机多领域喜迎开门红2026-02-12
- · 巴斯夫与国轩高科签署固态电池合作备忘录,共研下一代...2026-02-12
- · 行业首发!超高比能富锂锰固液电池在中国一汽装车2026-02-12
正在加载评论数据,请稍候...




正在加载评论数据,请稍候...























