前置建议

为了获得最佳的开发体验,我们强烈建议使用 AnacondaMiniconda 来管理 Python 环境,而不是直接使用系统自带的 Python。这可以避免依赖冲突,并简化深度学习框架(如 PyTorch)的安装。

1

安装 Anaconda / Miniconda

如果你是初学者,或者电脑配置一般,推荐下载 Miniconda (更加轻量)。

安装后验证 (在终端/CMD中输入)
conda --version
2

创建强化学习专属环境

创建一个干净的 Python 3.10 环境(目前最稳定的版本之一)。

终端命令
# 1. 创建名为 rl_study 的环境
conda create -n rl_study python=3.10 -y

# 2. 激活环境 (每次开始学习前都需要运行这句)
conda activate rl_study
3

安装 PyTorch (关键步骤)

PyTorch 是最流行的深度学习框架。请根据你的显卡类型选择安装命令。

对于 NVIDIA 显卡用户 (GPU加速):
# 安装支持 CUDA 11.8 的版本 (兼容性较好)
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
对于 Mac / 无显卡用户 (CPU版):
pip install torch torchvision torchaudio
4

安装 RL 核心库

安装 Gymnasium (环境), Stable-Baselines3 (算法) 以及其他辅助工具。

一键安装常用库
# 1. 安装环境库 Gymnasium 及其常用扩展 (Atari, Box2D等)
pip install "gymnasium[accept-rom-license,atari,box2d,classic_control]"

# 2. 安装算法库 Stable-Baselines3
pip install stable-baselines3

# 3. 安装其他实用工具 (绘图、进度条等)
pip install numpy matplotlib pandas notebook tqdm tensorboard

注意: Windows 用户如果在安装 Box2D 时报错,可能需要先安装 Microsoft C++ Build Tools。或者尝试运行 `pip install swig` 后再重试。

5

验证安装

运行以下 Python 代码,如果能看到一个 CartPole (倒立摆) 的窗口弹出来并随机运动,说明环境配置成功!

test_env.py
import gymnasium as gym

# 创建环境
env = gym.make("CartPole-v1", render_mode="human")
observation, info = env.reset()

for _ in range(1000):
    # 随机选择一个动作
    action = env.action_space.sample()
    # 执行动作
    observation, reward, terminated, truncated, info = env.step(action)

    if terminated or truncated:
        observation, info = env.reset()

env.close()