Abstract:
Este proyecto es una primera fase en el desarrollo de un sistema de control alternativo de
plataformas móviles. En este caso se contempla el uso de posiciones y/o gestos faciales para
poder realizar dicho control. Asimismo, el proyecto busca plantear una propuesta de sistema
completo de asistencia para el usuario por medio de la integración de diversas herramientas,
como el aprendizaje de máquina, las herramientas grá cas de Python, simuladores de fuente
abierta, y el paradigma de programación orientada a objetos. En cuanto a los modelos
de aprendizaje, se utilizaron redes neuronales convolucionales, que fueron alimentadas con
bases de datos de fotografías, donde se realizaron pruebas con y sin ltros computacionales,
además de pruebas con y sin marcadores físicos en los usuarios, con el objetivo de optimizar
la predicción realizada y veri car el comportamiento al combinar métodos clásicos para
reconocer rostros y métodos modernos (machine learning). Para obtener dichas fotografías y
realizar la predicción de posición en tiempo real, se utilizó tecnología de visión de computadora
desarrollada previamente por profesionales, especí camente OpenCV y Mediapipe. Esta
última tecnología permite la captura de posición de puntos de rostros, manos, cuerpo y
cuerpo completo, con lo cual, se logró alimentar las redes neuronales de grafos. El siguiente
paso fue realizar simulaciones virtuales para veri car que el funcionamiento pueda ser
trasladado a una plataforma física. Para poder transmitir los comandos generados luego
de la predicción de los modelos de aprendizaje, el estándar de comunicación y la plataforma
robótica móvil seleccionada deben adecuarse a los objetivos, en este caso, una comunicación
inalámbrica, dado que genera una mayor independencia espacial. Por esta razón, se seleccionó
el estándar Bluetooth que se encuentra disponible en la placa ESP32, la cual se puede
comunicar fácilmente con diferentes plataformas robóticas. Teniendo en cuenta la disponibilidad
en la Universidad del Valle de Guatemala y los requisitos previamente mencionados, se
seleccionó la plataforma robótica Pololu 3pi, la cual puede recibir información de la placa
ESP32, gracias a la implementación de una placa auxiliar desarrollada en el departamento de
Ingenería Electrónica, Mecatrónica y Biomédica de la Universidad del Valle de Guatemala.
La integración de cada una de las etapas mencionadas anteriormente, logran el objetivo de
generar un prototipo de sistema de visión por computadora capaz de detectar gestos/posiciones
de la cabeza y así generar movimiento en agentes robóticos, logrando así abrir el camino
para futuras aplicaciones de apoyo para usuarios que lo necesiten. (LA)