前置建议
为了获得最佳的开发体验,我们强烈建议使用 Anaconda 或 Miniconda 来管理 Python 环境,而不是直接使用系统自带的 Python。这可以避免依赖冲突,并简化深度学习框架(如 PyTorch)的安装。
1
2
创建强化学习专属环境
创建一个干净的 Python 3.10 环境(目前最稳定的版本之一)。
终端命令
# 1. 创建名为 rl_study 的环境
conda create -n rl_study python=3.10 -y
# 2. 激活环境 (每次开始学习前都需要运行这句)
conda activate rl_study
3
安装 PyTorch (关键步骤)
PyTorch 是最流行的深度学习框架。请根据你的显卡类型选择安装命令。
对于 NVIDIA 显卡用户 (GPU加速):
# 安装支持 CUDA 11.8 的版本 (兼容性较好)
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
对于 Mac / 无显卡用户 (CPU版):
pip install torch torchvision torchaudio
4
安装 RL 核心库
安装 Gymnasium (环境), Stable-Baselines3 (算法) 以及其他辅助工具。
一键安装常用库
# 1. 安装环境库 Gymnasium 及其常用扩展 (Atari, Box2D等)
pip install "gymnasium[accept-rom-license,atari,box2d,classic_control]"
# 2. 安装算法库 Stable-Baselines3
pip install stable-baselines3
# 3. 安装其他实用工具 (绘图、进度条等)
pip install numpy matplotlib pandas notebook tqdm tensorboard
注意: Windows 用户如果在安装 Box2D 时报错,可能需要先安装 Microsoft C++ Build Tools。或者尝试运行 `pip install swig` 后再重试。
5
验证安装
运行以下 Python 代码,如果能看到一个 CartPole (倒立摆) 的窗口弹出来并随机运动,说明环境配置成功!
test_env.py
import gymnasium as gym
# 创建环境
env = gym.make("CartPole-v1", render_mode="human")
observation, info = env.reset()
for _ in range(1000):
# 随机选择一个动作
action = env.action_space.sample()
# 执行动作
observation, reward, terminated, truncated, info = env.step(action)
if terminated or truncated:
observation, info = env.reset()
env.close()