Changes

Reinforcement Learning

48 bytes removed, 06:22, 16 May 2024

no edit summary

== Training algorithms ==

* [https://en.wikipedia.org/wiki/Advantage_Actor_Critic A2C] ~~(also see slides on Actor Critic methods at [1])~~

* [https://en.wikipedia.org/wiki/Proximal_policy_optimization PPO]

* [https://spinningup.openai.com/en/latest/algorithms/sac.html SAC]

~~== References ==~~

* [1] [https://cs224r.stanford.edu/slides/cs224r-actor-critic-split.pdf Stanford CS224R]

== Resources ==

* [https://mandi-zhao.gitbook.io/deeprl-notes Mandy Zhao's Reinforcement Learning Notes]

* [https://cs224r.stanford.edu/slides/cs224r-actor-critic-split.pdf Stanford CS224R Actor Critic Slides]

[[Category: Software]]

467

edits