В основе обучения с подкреплением лежит принцип "trial and error" (проб и ошибок). RL-агент, или бот, помещается в определенную среду, например, в игровой уровень. Задачи у RL-агентов разные, но, если мы говорим о бота-противниках, то здесь цель одна — усложнить игроку путь. При этом усложнить умеренно, чтобы игрок мог с ним справиться. При этом же агент не имеет никакой информации о том, как это сделать, и должен учиться. И о том, как ему это делать, сегодня пойдет речь.