Search Results for author: Fengyin Li

Minimax Weight Learning for Absorbing MDPs

Reinforcement learning policy evaluation problems are often modeled as finite or discounted/averaged infinite-horizon MDPs.

Paper
Add Code

Cannot find the paper you are looking for? You can Submit a new open access paper.