Implementación de un Agente de “Inverse Reinforcement Learning”: Jugando el juego del Nintendo NES: “Punch-Out!”
Date
2022
Type:
Thesis
item.page.extent
47 p.
item.page.accessRights
Authors
item.contributor.advisor
ORCID:
Journal Title
Journal ISSN
Volume Title
Publisher
Universidad del Desarrollo. Facultad de Ingeniería
item.page.isbn
item.page.issn
item.page.issne
item.page.doiurl
item.page.other
item.page.references
Abstract
Se entrenará un agente de aprendizaje reforzado inverso (IRL por sus siglas en inglés) mediante la utilización de demostraciones de experto, las cuales serán generadas por un humano experto. El agente de IRL será entrenado en un ambiente de juegos de video retro clásico, más específicamente de un juego retro clásico llamado “Punch-Out!!” de la consola retro clásica Nintendo Entertainment System. Como parte del proceso del proyecto, se realizarán cambios en las variables por defecto de los objetos de las librerías a utilizar para poder generar cambios que ayuden a aliviar las necesidades de procesamiento y tiempo de las actividades mencionadas. Como paso final, se demostrará que los modelos de IRL a los que se les muestran ejemplos de acciones específicas bajo condiciones específicas dentro de un ambiente RL, se desempeñan mejor en tareas que requieren tener una precisión en el accionar con respecto a los algoritmos tradicionales de RL, los cuales aprenden características de sus entornos para mejorar su desempeño. Lo anterior, demostrará que la hipótesis en la que se basa el proyecto es comprobada técnicamente, y específicamente aplica en el presente caso. A nivel técnico, se implementarán dos agentes, un agente RL, específicamente de un tipo PPO, y luego en una fase posterior, se implementará un agente GAIL (IRL), al cual se le suministraran las demostraciones de un humano experto
Description
Capstone Project presentado a la Facultad de Ingeniería de la Universidad del Desarrollo para optar al grado académico de Magíster en Data Science
item.page.coverage.spatial
item.page.sponsorship
Citation
Keywords
070037S, Reinforcement Learning, Redes neuronales convolucionales