标准化接口

像玩游戏一样简单:reset() 开始,step() 操作,统一的 API 设计。

丰富的环境

内置经典控制、Atari、Box2D、MuJoCo 等数十种标准环境。

兼容性强

完美支持 TensorFlow, PyTorch, Jax 等所有主流深度学习框架。

Hello, CartPole!

这就是强化学习界的 "Hello World"。我们的目标是控制一个小车(Cart),让上面的杆子(Pole)保持直立。

main.py
import gymnasium as gym

# 1. 创建环境 (Human 模式可以看到动画)
env = gym.make("CartPole-v1", render_mode="human")

# 2. 重置环境
observation, info = env.reset()

for _ in range(1000):
    # 3. 随机选择动作 (0:向左, 1:向右)
    action = env.action_space.sample()
    
    # 4. 执行动作,获取反馈
    obs, reward, term, trunc, info = env.step(action)

    # 5. 游戏结束则重置
    if term or trunc:
        observation, info = env.reset()

env.close()

运行效果

CartPole
注意
因为是随机乱动,
杆子很快就会倒下 😂

看完了基础,想知道如何训练它变得更聪明吗?

下一步:训练智能体