Decision Transformer: Reinforcement Learning via Sequence Modeling

作者:Chen et al. (2021)

简介:颠覆性地将强化学习建模为序列预测问题,利用Transformer架构直接从过往经验中输出动作。无需价值函数或策略梯度,是Offline RL的重要突破。

Large Language Models as Zero-Shot Planners

作者:Huang et al. (2022)

简介:探索了大语言模型(LLM)在复杂任务规划中的能力。证明了预训练的LLM可以作为零样本规划器,将自然语言指令转化为可执行的动作序列。

Mastering Diverse Domains through World Models (DreamerV3)

作者:Hafner et al. (2023)

简介:基于世界模型(World Models)的最新进展。DreamerV3能够在不需要特定领域调参的情况下,在Atari游戏、Minecraft等多个不同领域取得顶尖性能,展示了极强的通用性。

A Generalist Agent (Gato)

作者:DeepMind (2022)

简介:通才智能体。同一个Transformer网络,相同的权重,可以玩Atari游戏、给图片加字幕、聊天、甚至控制机械臂。迈向通用人工智能(AGI)的重要一步。

Conservative Q-Learning for Offline Reinforcement Learning (CQL)

作者:Kumar et al. (2020)

简介:离线强化学习(Offline RL)的代表作。通过在Q函数更新中加入保守项,解决了由于分布偏移导致的Q值高估问题,使得智能体仅凭历史数据就能学到优秀策略。

Voyager: An Open-Ended Embodied Agent with Large Language Models

作者:Wang et al. (2023)

简介:首个利用LLM驱动的、在Minecraft中进行终身学习的智能体。Voyager能够自我探索、编写代码执行技能,并不断扩充自己的技能库,展现了惊人的涌现能力。