Aprendizaje reforzado y aprendizaje profundo en aplicaciones de robótica de enjambre.

Santizo Olivet, Eduardo Andrés

dc.contributor.author	Santizo Olivet, Eduardo Andrés
dc.date.accessioned	2021-04-05T18:20:09Z
dc.date.available	2021-04-05T18:20:09Z
dc.date.issued	2021
dc.identifier.uri	https://repositorio.uvg.edu.gt/handle/123456789/3891
dc.description	Tesis. Licenciatura en Ingeniería Mecatrónica. Facultad de Ingeniería (132 p.).	en_US
dc.description.abstract	El área de inteligencia de enjambre busca emular el comportamiento exhibido por diferentes animales que actúan en conjunto, como parvadas de aves, colonias de hormigas o bancos de peces. Muchas son las áreas académicas que han tomado como inspiración este comportamiento, pero dos muy importantes e íntimamente relacionadas son el área de la informática y la robótica. De aquí que la Universidad del Valle de Guatemala, como parte de la iniciativa del megaproyecto Robotat, decidiera emplear el movimiento de las partículas del algoritmo de Particle Swarm Optimization Algorithm (PSO)1 como una guía para el movimiento suave de robots diferenciales [1] alrededor de un ambiente previamente modelado [2]. En el presente trabajo, se tomaron estos avances y se buscó realizar mejoras a los mismos, haciendo uso de técnicas propias de aprendizaje reforzado y profundo. Específicamente, se presentan dos propuestas puntuales: Una mejora al algoritmo PSO utilizando redes neuronales recurrentes y una alternativa al algoritmo de navegación alrededor de un ambiente conocido por medio de programación dinámica (parte de aprendizaje reforzado). El método empleado para mejorar el desempeño del algoritmo PSO, se denominó PSO Tuner y consiste de una red neuronal recurrente que toma diferentes métricas propias de las partículas PSO y las torna, a través de su procesamiento por medio de una red LSTM, GRU o BiLSTM, en una predicción de los hiper parámetros que debería emplear el algoritmo (ω, φ1 y φ2). Dicha predicción es de carácter dinámico, por lo que en cada iteración se generan las métricas que describen al enjambre (dispersión, coherencia, etc.), se alimentan a la red y esta produce los parámetros a utilizar en la siguiente iteración. Las tres arquitecturas propuestas se entrenaron con un total de 7,700 simulaciones del algoritmo estándar PSO. Luego de ajustar debidamente los hiper parámetros de las redes, el PSO Tuner fue capaz de reducir el tiempo de convergencia y susceptibilidad a mínimos locales del PSO original, con la arquitectura basada en BiLSTM presentándose como la mejor de las tres alternativas. Para la alternativa al algoritmo de navegación alrededor de un ambiente conocido, se utilizó como base el ejemplo de programación dinámica Gridworld [3]. En este, un agente se mueve a través de un espacio de estados representado en la forma de una cuadrícula. Para movilizarse de estado a estado, el agente puede hacer uso de cuatro acciones: Moverse hacia arriba, abajo, izquierda o derecha. Según su estado actual y la acción tomada, este transiciona a un nuevo estado y recibe una recompensa. El agente buscará maximizar las recompensas obtenidas generando una ruta óptima desde cada estado hasta la meta. Para ajustar estas ideas al problema de navegación con robots, se proponen algunas modificaciones. En primer lugar, el agente es capaz de moverse diagonalmente a 45 grados. Esto incrementó el número de acciones disponibles de 4 a 8. Luego, el espacio de trabajo se divide en celdas y se escanea secuencialmente para determinar si estas consisten de una celda obstáculo o meta. Finalmente, haciendo uso de policy iteration se genera una acción óptima por estado. Estas sugerencias de acción óptimas son luego utilizadas para generar una trayectoria a seguir por los controladores punto a punto de [1]. Este método probó ser una alternativa válida al método de navegación actual basado en Artificial Potential Fields y si se optimiza de mejor manera el algoritmo, podría incluso llegar a proponerse como una alternativa válida a métodos de navegación como el algoritmo A* y el algoritmo de Probabilistic Road Maps (PRM). Finalmente, para auxiliar en el proceso de diseño de estas propuestas, se creó un conjunto de funciones, clases y scripts. Este grupo de herramientas (llamadas Swarm Robotics Toolbox) proveen al usuario con la capacidad de visualizar pruebas, guardar figuras, generar vídeos, realizar pruebas estadísticas, entre otros. Debido a que estas herramientas están diseñadas para su futuro uso dentro del ámbito educativo, cada parte del Toolbox está debidamente documentada y presenta una descripción más detallada de su funcionamiento y opciones en el repositorio donde el código de este proyecto se encuentra contenido.	en_US
dc.language.iso	es	en_US
dc.publisher	Universidad del Valle de Guatemala	en_US
dc.title	Aprendizaje reforzado y aprendizaje profundo en aplicaciones de robótica de enjambre.	en_US
dc.type	Thesis	en_US