分布式训练

基于 Ray 引擎,轻松从单机扩展到集群。无论是采样还是更新,都可以并行化。

多智能体 (Multi-Agent)

天生支持多智能体环境,是研究 MARL (Multi-Agent RL) 的首选框架。

高度可配置

算法的每一个细节都可以通过 Config Dict 进行微调,满足科研和工程的所有需求。

配置驱动的训练

RLlib 使用 Builder 模式来构建算法配置。你不需要写复杂的循环,只需告诉它“你要什么”。

train_rllib.py
from ray.rllib.algorithms.ppo import PPOConfig
import ray

# 1. 初始化 Ray
ray.init()

# 2. 构建配置 (Fluent API)
config = (
    PPOConfig()
    .environment("CartPole-v1")
    .framework("torch")  # 或者 "tf2"
    .rollouts(num_rollout_workers=2)  # 并行 Worker 数量
    .training(train_batch_size=4000, lr=1e-4)
)

# 3. 构建算法对象
algo = config.build()

# 4. 训练循环
for _ in range(10):
    result = algo.train()
    print(f"Reward: {result['env_runners']['episode_reward_mean']}")

algo.stop()
查看 Ray 文档