Skip to content

AgileRL Documentation

AgileRL Documentation

Introduction

Getting Started
Releases

Arena

Arena Client

Training

Evolutionary Hyperparameter Optimization
Off-Policy Training
On-Policy Training
Partially Observable Markov Decision Processes (POMDPs)
Offline Training
Multi-Agent Training
LLM Fine-Tuning
Contextual Multi-Armed Bandits
Distributed Training
Trainers
Evolvable Neural Networks
Creating Custom Algorithms
Debugging Reinforcement Learning

Observability

Metrics and Logging

Tutorials

Gymnasium Single-agent
PettingZoo Multi-agent
Hierarchical Skills
LLM Fine-Tuning
Contextual Multi-arm Bandits
- Iris with NeuralUCB
- PenDigits with NeuralTS
Creating Custom Networks
- Building a Dueling Distributional Q Network
- Integrating Architecture Mutations Into SimBa
Training on Arena
- PPO on a Custom Gym Environment
- GRPO on GSM8K

API

Algorithms
Arena
Components
Hyperparameter Optimization
- Mutation
- Tournament Selection
Logger
Metrics
Models
Modules
Networks
Population
Training
Rollouts
- On-Policy Rollout Functions
Utils
Vector
Wrappers

Development

GitHub
Discord
Contribute to AgileRL

Components¶

Experience Replay Buffer
On-Policy Rollout Buffer
Segment Trees
Data Structures and Utilities
Experience Sampler

Experience Replay Buffer

Copyright © 2023, AgileRL

Made with Sphinx and @pradyunsg's Furo