MDP Demo - Standalone

Markov Decision Processes Interactive App

Examples: Discount rate (γ): 0.9 Speed: 1.0x

Prediction (Random Policy)

Control

Expected Backup: Select states, compute Q = Σ P(s'|s,a)[R + γV(s')] using full distribution
Sample Backup: Select states, sample one outcome and do TD update Q ← Q + α[R + γV(s') - Q]
Value Iteration: Full dynamic programming until convergence
TD(λ): Temporal difference with eligibility traces (λ=0 is TD(0), λ=1 is MC-like)
Monte Carlo: Learn from sampled episodes (estimation or control)
Edit probabilities: Select an edge, then Up/Down arrows (±0.05)
SARSA: On-policy TD control (uses action actually taken)
Q-Learning: Off-policy TD control (uses max over next actions)
Dyna-Q: Model-based RL combining Q-learning with n simulated planning steps
Stop: Click a running algorithm's button to stop it