PPO 和策略梯度

为什么 DQN 不适合连续控制

Policy gradient

PPO

rollout

advantage

stable_baseline3

Last modified: 2026-05-24