环境配置 - RL学习平台

前置建议

为了获得最佳的开发体验，我们强烈建议使用 Anaconda 或 Miniconda 来管理 Python 环境，而不是直接使用系统自带的 Python。这可以避免依赖冲突，并简化深度学习框架（如 PyTorch）的安装。

安装 Anaconda / Miniconda

如果你是初学者，或者电脑配置一般，推荐下载 Miniconda (更加轻量)。

安装后验证 (在终端/CMD中输入)

conda --version

创建强化学习专属环境

创建一个干净的 Python 3.10 环境（目前最稳定的版本之一）。

终端命令

# 1. 创建名为 rl_study 的环境
conda create -n rl_study python=3.10 -y

# 2. 激活环境 (每次开始学习前都需要运行这句)
conda activate rl_study

安装 PyTorch (关键步骤)

PyTorch 是最流行的深度学习框架。请根据你的显卡类型选择安装命令。

对于 NVIDIA 显卡用户 (GPU加速):

# 安装支持 CUDA 11.8 的版本 (兼容性较好)
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

对于 Mac / 无显卡用户 (CPU版):

pip install torch torchvision torchaudio

安装 RL 核心库

安装 Gymnasium (环境), Stable-Baselines3 (算法) 以及其他辅助工具。

一键安装常用库

# 1. 安装环境库 Gymnasium 及其常用扩展 (Atari, Box2D等)
pip install "gymnasium[accept-rom-license,atari,box2d,classic_control]"

# 2. 安装算法库 Stable-Baselines3
pip install stable-baselines3

# 3. 安装其他实用工具 (绘图、进度条等)
pip install numpy matplotlib pandas notebook tqdm tensorboard

注意： Windows 用户如果在安装 Box2D 时报错，可能需要先安装 Microsoft C++ Build Tools。或者尝试运行 `pip install swig` 后再重试。

验证安装

运行以下 Python 代码，如果能看到一个 CartPole (倒立摆) 的窗口弹出来并随机运动，说明环境配置成功！

test_env.py

import gymnasium as gym

# 创建环境
env = gym.make("CartPole-v1", render_mode="human")
observation, info = env.reset()

for _ in range(1000):
    # 随机选择一个动作
    action = env.action_space.sample()
    # 执行动作
    observation, reward, terminated, truncated, info = env.step(action)

    if terminated or truncated:
        observation, info = env.reset()

env.close()