Señas Chapinas: Traductor de LENSEGUA Stefano Alberto Aragoni Maldonado, Carol Andreé Arévalo Estrada, Jose Miguel Gonzalez y Gonzalez, Luis Diego Santos Cuéllar, Roberto Vallecillos Chinchilla UNIVERSIDAD DEL VALLE DE GUATEMALA Facultad de Ingenieŕıa Señas Chapinas: Traductor de LENSEGUA Trabajo de graduación en modalidad de Megaproyecto Tecnológico presentado por Stefano Alberto Aragoni Maldonado, Carol Andreé Arévalo Estrada, Jose Miguel Gonzalez y Gonzalez, Luis Diego Santos Cuéllar, Roberto Vallecillos Chinchilla para optar al grado académico de Licenciados en Ingenieŕıa en Ciencia de la Computación y Tecnoloǵıas de la Información Guatemala 2024 UNIVERSIDAD DEL VALLE DE GUATEMALA Facultad de Ingenieŕıa Señas Chapinas: Traductor de LENSEGUA Trabajo de graduación en modalidad de Megaproyecto Tecnológico presentado por Stefano Alberto Aragoni Maldonado, Carol Andreé Arévalo Estrada, Jose Miguel Gonzalez y Gonzalez, Luis Diego Santos Cuéllar, Roberto Vallecillos Chinchilla para optar al grado académico de Licenciados en Ingenieŕıa en Ciencia de la Computación y Tecnoloǵıas de la Información Guatemala 2024 Vo.Bo.: (f) Ing. Javier Josué Fong Guzmán Tribunal Examinador: (f) Ing. Javier Josué Fong Guzmán (f) Ing. Douglas Leonel Barrios Gonzalez (f) Ing. Eddy Omar Castro Jauregui Fecha de aprobación: 29 de noviembre del 2024. Prefacio El proyecto Señas Chapinas: Traductor de LENSEGUA emerge como una respuesta innovadora ante la necesidad cŕıtica de desarrollar herramientas tecnológicas que faciliten la inclusión efectiva de la comunidad sorda en Guatemala. Este proyecto no solo busca abordar las barreras de comunicación existentes, sino también empoderar a las personas sordas para que puedan participar plenamente en todos los aspectos de la vida social, educativa y profesional. La integración de tecnoloǵıas de inteligencia artificial en este contexto representa un avance sig- nificativo en la manera en que abordamos los desaf́ıos de accesibilidad y comunicación. Al desarrollar un traductor de LENSEGUA (Lengua de Señas Guatemalteca) basado en modelos de lenguaje avan- zados, este proyecto establece un precedente importante en la aplicación de soluciones tecnológicas para resolver problemáticas sociales complejas. La iniciativa no solo busca facilitar la comunicación cotidiana, sino también promover una mayor comprensión y apreciación de la riqueza lingǘıstica y cultural de la comunidad sorda guatemalteca. v Agradecimientos Queremos expresar nuestro más sincero agradecimiento a todas las personas que han contribuido a la realización de este proyecto, cada una de las cuales ha sido fundamental en su desarrollo. Primero, expresamos nuestra gratitud a nuestros asesores, los Ingenieros Dennis Aldana, Miguel Novella, Luis Alberto Suriano y Javier Fong, profesores de la Universidad del Valle, por su invaluable gúıa y apoyo a lo largo de todo el proceso de investigación y redacción de este trabajo. Su experiencia y dirección experta fueron fundamentales para superar los retos académicos y prácticos de este proyecto. Estamos profundamente agradecidos con ASEDES, especialmente con Niurka Waleska Bendfeldt Rosada y Alain de León, por proporcionarnos materiales, entrevistas y otros recursos necesarios para llevar a cabo este trabajo. Su colaboración fue indispensable para entender mejor las necesidades y desaf́ıos de la comunidad sorda. Nuestro reconocimiento a las alumnas practicantes de ASEDES: Evelyn Cacao, Any Max y Ruth Amézquita, quienes generosamente permitieron que las grabáramos mientras realizaban señas, contribuyendo significativamente a la autenticidad y calidad del contenido de este proyecto. Agradecemos la colaboración de la profesora Pamela Ramı́rez, quien contribuyó en el diseño del logo de la aplicación. Su trabajo fue esencial, ya que el logo desempeña un papel crucial en la identidad visual y la coherencia del diseño de la aplicación. Finalmente, un agradecimiento especial a Antonio Barrientos, Director General de En-Señas, y a Gabriela Velázquez, maestra de En-Señas, por su apertura y disposición para compartir su conocimiento y experiencia, las cuales fueron cruciales para este proyecto. A todos ustedes, nuestro más profundo respeto y gratitud por su apoyo y contribuciones. vii Índice Prefacio V Agradecimientos VII Lista de figuras XVII Lista de cuadros XX Resumen XXII 1. Introducción 1 2. Justificación 3 3. Objetivos 5 3.1. Objetivo general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 3.2. Objetivos espećıficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 4. Marco teórico 7 4.1. Discapacidad auditiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 4.1.1. Causas de la sordera . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 4.1.2. Clasificación de la sordera . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 4.1.3. Impacto de la discapacidad auditiva en las personas . . . . . . . . . . . . . . 8 4.1.4. Barreras y desaf́ıos enfrentados por la comunidad sorda en Guatemala . . . . 9 4.2. Lengua de señas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 4.2.1. Historia de la lengua de señas . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 4.2.2. Lengua de señas en la actualidad . . . . . . . . . . . . . . . . . . . . . . . . . 10 4.3. Lengua de Señas de Guatemala (LENSEGUA) . . . . . . . . . . . . . . . . . . . . . 10 4.3.1. Historia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 4.3.2. Variaciones regionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 4.3.3. Gramática y estructura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 4.3.4. Aprendizaje y recursos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 4.4. Fundamentos de visión por computadora . . . . . . . . . . . . . . . . . . . . . . . . . 13 4.4.1. Procesamiento de imágenes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 4.4.2. Técnicas básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 4.4.3. Herramientas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 4.5. Aplicaciones de visión por computadora . . . . . . . . . . . . . . . . . . . . . . . . . 14 4.5.1. Medicina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 ix 4.5.2. Industria automotriz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 4.5.3. Seguridad y vigilancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 4.5.4. Manufactura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 4.6. Redes neuronales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 4.6.1. Fundamentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 4.6.2. Tipos de redes neuronales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 4.6.3. Aplicaciones en visión por computadora . . . . . . . . . . . . . . . . . . . . . 15 4.7. Evaluación de modelos de visión por computadora . . . . . . . . . . . . . . . . . . . 15 4.7.1. Matriz de confusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 4.7.2. Sensibilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 4.7.3. Puntuación F1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 4.8. Natural Language Processing (NLP) . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 4.8.1. Técnicas y fundamentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 4.8.2. Modelos principales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 4.9. Arquitecturas basadas en transformadores . . . . . . . . . . . . . . . . . . . . . . . . 19 4.9.1. Generative Pre-trained Transformer (GPT) . . . . . . . . . . . . . . . . . . . 19 4.9.2. Large Language Model Meta AI (LLaMA) . . . . . . . . . . . . . . . . . . . . 21 4.9.3. Métodos de entrenamiento y adaptación . . . . . . . . . . . . . . . . . . . . . 22 4.9.4. Métricas de rendimiento y evaluación . . . . . . . . . . . . . . . . . . . . . . 23 4.10. Explainable Artificial Intelligence (XAI) . . . . . . . . . . . . . . . . . . . . . . . . . 24 4.10.1. Local Interpretable Model-agnostic Explanations (LIME) . . . . . . . . . . . 24 4.11. Sistema operativo: Linux server . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 4.11.1. ¿Qué es Linux? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 4.11.2. Historia de Linux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 4.11.3. Linux server . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 4.12. Virtualización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 4.13. Multipass . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.14. VPN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.14.1. ¿Qué es una VPN? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.14.2. ¿Para qué sirven las VPNs? . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.15. Arquitectura de base de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.15.1. Bases de datos relacionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.15.2. PostgreSQL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4.15.3. Arquitectura de base de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4.16. APIs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4.16.1. ¿Qué es una API? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4.16.2. ¿Cómo usar una API? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4.16.3. Implementar APIs a bases de datos . . . . . . . . . . . . . . . . . . . . . . . . 27 4.16.4. Implementar APIs para recepción y devolución de datos . . . . . . . . . . . . 28 4.16.5. ¿Qué es Crontab? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 4.17. Bases de diseño y filosof́ıa de DARPA . . . . . . . . . . . . . . . . . . . . . . . . . . 28 4.17.1. Costo-efectividad y control . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 4.17.2. Flexibilidad y adaptabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 4.17.3. Seguridad y privacidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 4.18. Pruebas de eficiencia y de extremo a extremo en el servidor mediante APIs . . . . . 29 4.18.1. ¿Qué es una prueba de eficiencia? . . . . . . . . . . . . . . . . . . . . . . . . 29 4.18.2. ¿Qué es una prueba de extremo a extremo (E2E)? . . . . . . . . . . . . . . . 29 4.18.3. Impacto de la eficiencia y de las pruebas de extremo a extremo en el servidor 29 4.19. Herramientas para pruebas de eficiencia y de extremo a extremo . . . . . . . . . . . 30 4.19.1. Monitoreo del sistema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 4.19.2. Pruebas de carga y end to end . . . . . . . . . . . . . . . . . . . . . . . . . . 30 4.20. Diseño de interfaz de usuario (UI) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 4.20.1. Definición de UI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 4.20.2. Elementos de la interfaz de usuario . . . . . . . . . . . . . . . . . . . . . . . . 31 x 4.20.3. Estándares de diseño . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 4.21. Experiencia de usuario (UX) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 4.21.1. Definición de UX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 4.21.2. Diferencias entre UX y UI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 4.21.3. Tipos de experiencia de usuario . . . . . . . . . . . . . . . . . . . . . . . . . . 36 4.21.4. Proceso de experiencia de usuario . . . . . . . . . . . . . . . . . . . . . . . . 36 4.22. Desarrollo móvil en Android . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 4.22.1. Razones para elegir Android como plataforma de desarrollo . . . . . . . . . . 38 4.22.2. Arquitectura de aplicaciones Android . . . . . . . . . . . . . . . . . . . . . . 38 4.22.3. Buenas prácticas de desarrollo Android . . . . . . . . . . . . . . . . . . . . . 39 5. Metodoloǵıa 42 5.1. Visión por computadora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 5.1.1. Delimitación del universo de palabras . . . . . . . . . . . . . . . . . . . . . . 42 5.1.2. Recopilación de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 5.1.3. Preparación del conjunto de datos . . . . . . . . . . . . . . . . . . . . . . . . 44 5.1.4. Procesamiento de los videos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 5.1.5. Labeling de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 5.1.6. Normalización de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 5.1.7. Oversampling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 5.1.8. Entrenamiento del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 5.1.9. Evaluación del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 5.1.10. Evaluación del conjunto de datos . . . . . . . . . . . . . . . . . . . . . . . . . 49 5.1.11. Publicación del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 5.2. Procesamiento de lenguaje natural (GPT-3.5-Turbo) . . . . . . . . . . . . . . . . . . 52 5.2.1. Creación de conjunto de datos . . . . . . . . . . . . . . . . . . . . . . . . . . 52 5.2.2. Fine-tuning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 5.2.3. Prompt engineering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 5.2.4. Implementación y evaluación del sistema . . . . . . . . . . . . . . . . . . . . . 57 5.3. Procesamiento de lenguaje natural (LLaMA) . . . . . . . . . . . . . . . . . . . . . . 59 5.3.1. Creación de conjunto de datos . . . . . . . . . . . . . . . . . . . . . . . . . . 59 5.3.2. Configuración inicial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 5.3.3. Fine-tuning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 5.3.4. Comparación de modelos fine-tuneados (GPT-3.5-Turbo y LLaMA) . . . . . 63 5.4. Infraestructura de red . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 5.4.1. Levantamiento de un sistema operativo y configuración de VPN . . . . . . . 63 5.4.2. Desarrollo de la arquitectura de base de datos . . . . . . . . . . . . . . . . . . 65 5.4.3. Implementación de APIs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 5.4.4. Virtualización del servidor para múltiples modelos . . . . . . . . . . . . . . . 77 5.4.5. Implementación de pruebas de eficiencia . . . . . . . . . . . . . . . . . . . . . 79 5.4.6. Pruebas de carga . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 5.4.7. Pruebas de extremo a extremo . . . . . . . . . . . . . . . . . . . . . . . . . . 83 5.4.8. Implementación de pruebas CVE para seguridad . . . . . . . . . . . . . . . . 83 5.4.9. Pruebas de seguridad con Lynis . . . . . . . . . . . . . . . . . . . . . . . . . . 84 5.4.10. Mejoras de seguridad en /etc/sysctl.conf . . . . . . . . . . . . . . . . . . . 85 5.4.11. Monitoreo continuo de seguridad con ClamAV . . . . . . . . . . . . . . . . . 85 5.5. Diseño y desarrollo móvil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 5.5.1. Investigación de mercado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 5.5.2. Desarrollo de interfaz y experiencia de usuario . . . . . . . . . . . . . . . . . 100 5.5.3. Desarrollo de aplicación móvil para Android . . . . . . . . . . . . . . . . . . . 139 5.5.4. Pruebas con usuarios finales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 xi 6. Resultados 162 6.1. Visión por computadora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 6.1.1. Conjunto de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 6.1.2. Proceso iterativo de desarrollo del modelo . . . . . . . . . . . . . . . . . . . . 166 6.1.3. Evaluación del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182 6.1.4. Aplicaciones del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183 6.2. Procesamiento de lenguaje natural (GPT-3.5-Turbo) . . . . . . . . . . . . . . . . . . 185 6.2.1. Fine-tuning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 6.2.2. Prompt engineering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190 6.2.3. Retroalimentación de la comunidad sorda . . . . . . . . . . . . . . . . . . . . 193 6.3. Procesamiento de lenguaje natural (LLaMA) . . . . . . . . . . . . . . . . . . . . . . 196 6.3.1. Fine-tuning (versión 1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196 6.3.2. Retroalimentación de la comunidad sorda . . . . . . . . . . . . . . . . . . . . 201 6.3.3. Fine-tuning (versión 2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 6.4. Infraestructura de red . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 6.4.1. Redireccionamiento de puertos para acceso SSH externo . . . . . . . . . . . . 206 6.4.2. Resultados de la prueba de carga . . . . . . . . . . . . . . . . . . . . . . . . . 207 6.4.3. Resultados de la prueba E2E . . . . . . . . . . . . . . . . . . . . . . . . . . . 210 6.4.4. Resultados de la prueba de seguridad con Lynis . . . . . . . . . . . . . . . . . 211 6.5. Diseño y desarollo móvil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 6.5.1. Comprensión de la situación de comunidad sorda en Guatemala . . . . . . . . 213 6.5.2. Diseño centrado en el usuario . . . . . . . . . . . . . . . . . . . . . . . . . . . 214 6.5.3. Desarrollo de aplicación móvil para Android . . . . . . . . . . . . . . . . . . . 214 6.5.4. Pruebas con usuarios finales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214 7. Análisis de resultados 215 7.1. Visión por computadora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 7.2. Procesamiento de lenguaje natural (GPT-3.5-Turbo) . . . . . . . . . . . . . . . . . . 218 7.3. Procesamiento de lenguaje natural (LLaMA) . . . . . . . . . . . . . . . . . . . . . . 220 7.4. Infraestructura de red . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222 7.5. Diseño y desarollo móvil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223 8. Conclusiones 226 9. Recomendaciones 228 10.Bibliograf́ıa 232 11.Anexos 240 Carta de solicitud de acceso a la VPN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242 xii Lista de figuras 1. Arquitectura de red neuronal recurrente. . . . . . . . . . . . . . . . . . . . . . . . . . 18 2. Arquitectura de transformer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3. Arquitectura de Generative Pre-trained Transformer (GPT). . . . . . . . . . . . . . 20 4. Arquitectura de Large Language Model Meta AI (LLaMA). . . . . . . . . . . . . . . 22 5. Tamaño óptimo de botones según su prioridad . . . . . . . . . . . . . . . . . . . . . 33 6. Espaciado óptimo de botones según su tamaño . . . . . . . . . . . . . . . . . . . . . 33 7. Proceso de diseño de experencia de usuario . . . . . . . . . . . . . . . . . . . . . . . 37 8. Cuota de tráfico web móvil por sistema operativo . . . . . . . . . . . . . . . . . . . . 38 9. Diagrama de funcionamiento MVVM . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 10. Ejemplos de captura de los videos para el conjunto de datos [72]. . . . . . . . . . . . 43 11. Ejemplo de reflejo de un video . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 12. Proceso de preparación del conjunto de datos. . . . . . . . . . . . . . . . . . . . . . . 45 13. Ejemplo de uso de MediaPipe [53]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 14. Ejemplo de datos procesados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 15. Ejemplo de una red neuronal feedforward sencilla. . . . . . . . . . . . . . . . . . . . . 48 16. Implementación de mejoras en la red neuronal feedforward. . . . . . . . . . . . . . . 48 17. Ejemplo de visualización de datos con PCA. . . . . . . . . . . . . . . . . . . . . . . . 50 18. Ejemplo de matriz de confusión. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 19. Reunión de equipo de trabajo con ASEDES. . . . . . . . . . . . . . . . . . . . . . . . 53 20. Generación recursiva de nuevas frases. . . . . . . . . . . . . . . . . . . . . . . . . . . 54 21. Comparación entre CPU y GPU en el procesamiento paralelo. . . . . . . . . . . . . . 60 22. Diagrama de entrenamiento con LoRA. . . . . . . . . . . . . . . . . . . . . . . . . . 61 23. LevantadoOpenVPN. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 24. ConexionSSH. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 25. Diagrama entidad relación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 26. Diagrama de flujo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 27. Flujo de trabajo completo del sistema de APIs. . . . . . . . . . . . . . . . . . . . . . 72 28. Estado de las máquinas virtuales dentro del sistema . . . . . . . . . . . . . . . . . . 79 29. Resultados de la prueba de carga con 50 usuarios concurrentes. . . . . . . . . . . . . 81 30. Resultados de la prueba de carga con 100 usuarios concurrentes. . . . . . . . . . . . 81 31. Resultados de la prueba de carga con 200 usuarios concurrentes. . . . . . . . . . . . 81 32. Resultados de la prueba de carga con 300 usuarios concurrentes. . . . . . . . . . . . 81 33. Resultados de la prueba de carga con 400 usuarios concurrentes. . . . . . . . . . . . 81 34. Resultados de la prueba de carga con 500 usuarios concurrentes. . . . . . . . . . . . 82 35. Resultados de la prueba de carga con 600 usuarios concurrentes. . . . . . . . . . . . 82 36. Resultados de la prueba de carga con 700 usuarios concurrentes. . . . . . . . . . . . 82 xiii 37. Resultados de la prueba de carga con 800 usuarios concurrentes. . . . . . . . . . . . 82 38. Resultados de la prueba de carga con 900 usuarios concurrentes. . . . . . . . . . . . 82 39. Resultados de la prueba de carga con 1100 usuarios concurrentes. . . . . . . . . . . . 83 40. Muestra de aplicación “Hand Talk Translator” . . . . . . . . . . . . . . . . . . . . . 87 41. Muestra de aplicación “SLAIT” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 42. Muestra de aplicación “Lenguaje de señas IA” . . . . . . . . . . . . . . . . . . . . . 88 43. Muestra de aplicación “AI Sign: Sign Language” . . . . . . . . . . . . . . . . . . . . 89 44. Muestra de aplicación “Sign Language Translator AI” . . . . . . . . . . . . . . . . . 90 45. Entrevista En-Señas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 46. Género encuesta 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 47. Edad encuesta 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 48. Conocimiento persona sorda encuesta 2 . . . . . . . . . . . . . . . . . . . . . . . . . 96 49. Conocimiento LENSEGUA encuesta 2 . . . . . . . . . . . . . . . . . . . . . . . . . . 96 50. Relevancia de la aplicación encuesta 2 . . . . . . . . . . . . . . . . . . . . . . . . . . 97 51. Relevancia de la aplicación para personas con conocidos sordos encuesta 2 . . . . . . 97 52. Entrevista colectiva En-Señas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 53. Lluvia de ideas para diagrama de afinidad . . . . . . . . . . . . . . . . . . . . . . . . 101 54. Agrupación de ideas para diagrama de afinidad . . . . . . . . . . . . . . . . . . . . . 102 55. Diagrama de afinidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 56. Persona 1 - Laura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 57. Persona 2 - Ricardo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 58. Persona 3 - Felipe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 59. Persona 4 - Sofia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 60. Persona 5 - Marta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 61. Persona 6 - Jorge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 62. Mapa de empat́ıa - Laura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 63. Mapa de empat́ıa - Ricado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 64. Mapa de empat́ıa - Felipe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 65. Mapa de empat́ıa - Sofia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 66. Mapa de empat́ıa - Marta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 67. Mapa de empat́ıa - Jorge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 68. Sombreros para pensar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 69. Planteamiento del problema Señas Chapinas . . . . . . . . . . . . . . . . . . . . . . . 111 70. Primera vez usando la aplicación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 71. Grabación de video . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 72. Guardando video . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 73. Reporte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 74. Diccionario de palabras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 75. Reto diario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 76. Mapa de sitio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 77. Grabar video . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 78. Guardar video . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 79. Abrir video guardado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 80. Repertir grabación de video . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 81. Completar reto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 82. Reportar traducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 83. Diccionario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 84. Wireframe bajo nivel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 85. Wireframe nivel medio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 86. Wireframe alto nivel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 87. Wireframe alto nivel luego de retroalimentación . . . . . . . . . . . . . . . . . . . . . 123 88. Primer logo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 89. Logo vectorizado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 90. Logo modernizado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 xiv 91. Logo con colores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 92. Logo Señas Chapinas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 93. Paleta de colores logo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 94. Paleta de colores aplicación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 95. Paleta colores perfil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 96. Contraste blanco y azul . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 97. Contraste azul y blanco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 98. Contraste gris y blanco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 99. Contraste blanco y rojo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 100. Constraste verde quetzal y azul . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 101. Constraste verde claro y azul . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 102. Tipograf́ıa Nunito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 103. Primer prototipo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 104. Segundo prototipo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 105. Tercer prototipo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 106. Cuarto prototipo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 107. Ilustraciones señas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 108. Navegación principal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 109. Navegación video . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 110. Navegación perfil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 111. Diccionario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 112. Traducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 113. Flujo cambio de contraseña . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 114. Deeplink página web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 115. Plantilla correo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 116. Ejemplo de correo enviado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 117. Página web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 119. Fotos de página web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 118. Herramientas de página web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 120. Poĺıticas de privacidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 121. Ícono . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 122. Capturas de pantalla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 123. Banner promocional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 124. Preguntas frecuentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 125. Prueba cerrada Play Store . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 126. Solicitud para producción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 127. Ejemplo historia usuario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 128. Cronograma Kanban . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 129. Expo UVG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 130. Cambios primera prueba con usuarios . . . . . . . . . . . . . . . . . . . . . . . . . . 156 131. Cambio En-Señas 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 132. Cambio En-Señas 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 133. Fragmento tutorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 134. Demo En-Señas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 135. Flujo muestra de grabación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 136. Análisis de similitud entre las clases como y agua . . . . . . . . . . . . . . . . . . . . 163 137. Análisis de similitud entre las clases como y beber . . . . . . . . . . . . . . . . . . . . 163 138. Análisis de similitud entre las clases cuando y donde . . . . . . . . . . . . . . . . . . 164 139. Análisis de similitud entre las clases sed y quien . . . . . . . . . . . . . . . . . . . . 164 140. Análisis de similitud entre todas las clases . . . . . . . . . . . . . . . . . . . . . . . . 165 141. Balance de clases en el conjunto de datos de entrenamiento . . . . . . . . . . . . . . 165 142. Modelo inicial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 143. Historial de entrenamiento del modelo base . . . . . . . . . . . . . . . . . . . . . . . 167 xv 144. Matriz de confusión del modelo base . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 145. Modelo con aumento de complejidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 168 146. Historial de entrenamiento del modelo con aumento de complejidad . . . . . . . . . . 169 147. Matriz de confusión del modelo con aumento de complejidad . . . . . . . . . . . . . 169 148. Modelo base con dropout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 149. Historial de entrenamiento del modelo base con dropout . . . . . . . . . . . . . . . . 171 150. Matriz de confusión del modelo base con dropout . . . . . . . . . . . . . . . . . . . . 171 151. Primera iteración de fine tuning de la tasa de dropout . . . . . . . . . . . . . . . . . 172 152. Historial de entrenamiento del primer modelo de fine tuning de la tasa de dropout . 173 153. Matriz de confusión del primer modelo de fine tuning de la tasa de dropout . . . . . 173 154. Segunda iteración de fine tuning de la tasa de dropout . . . . . . . . . . . . . . . . . 174 155. Historial de entrenamiento del segundo modelo de fine tuning de la tasa de dropout 175 156. Matriz de confusión del segundo modelo de fine tuning de la tasa de dropout . . . . 175 157. Modelo con normalización por lotes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176 158. Historial de entrenamiento del modelo con normalización por lotes . . . . . . . . . . 177 159. Matriz de confusión del modelo con normalización por lotes . . . . . . . . . . . . . . 177 160. Primer modelo con dropout y normalización por lotes . . . . . . . . . . . . . . . . . 178 161. Historial de entrenamiento del primer modelo con de dropout y normalización por lotes179 162. Matriz de confusión del primer model con dropout y normalización por lotes . . . . . 179 163. Segundo modelo con dropout y normalización por lotes . . . . . . . . . . . . . . . . . 180 164. Historial de entrenamiento del segundo modelo con dropout y normalización por lotes 181 165. Matriz de confusión del segundo modelo con dropout y normalización por lotes . . . 181 166. Reconocimiento de lengua de señas de Guatemala en tiempo real (una palabra) . . . 182 167. Reconocimiento de lengua de señas de Guatemala en tiempo real (múltiples palabras) 183 168. Reconocimiento de la palabra ayer en tiempo real . . . . . . . . . . . . . . . . . . . 184 169. Reconocimiento de la palabra comer en tiempo real . . . . . . . . . . . . . . . . . . 184 170. Reconocimiento de la palabra universidad utilizando el API . . . . . . . . . . . . . . 185 171. Reconocimiento de la palabra tu utilizando el API . . . . . . . . . . . . . . . . . . . 185 172. Evolución de la pérdida durante el fine-tuning final del modelo GPT-3.5-Turbo. . . . 186 173. Resultados de LIME para la interpretación generada por el modelo GPT-3.5-Turbo estándar para la frase “antes tu polićıa llamar pregunta”. . . . . . . . . . . . . . . . 187 174. Resultados de LIME para la interpretación generada por el modelo GPT-3.5-Turbo fine-tuneado para la frase “antes tu polićıa llamar pregunta”. . . . . . . . . . . . . . 187 175. Resultados de LIME para la interpretación generada por el modelo GPT-3.5-Turbo estándar para la frase “futuro hospital él ir”. . . . . . . . . . . . . . . . . . . . . . . 188 176. Resultados de LIME para la interpretación generada por el modelo GPT-3.5-Turbo fine-tuneado para la frase “futuro hospital él ir”. . . . . . . . . . . . . . . . . . . . . 188 177. Resultados de LIME para la interpretación generada por el modelo GPT-3.5-Turbo estándar para la frase “pasado yo ir no”. . . . . . . . . . . . . . . . . . . . . . . . . . 189 178. Resultados de LIME para la interpretación generada por el modelo GPT-3.5-Turbo fine-tuneado para la frase “pasado yo ir no”. . . . . . . . . . . . . . . . . . . . . . . . 189 179. Aplicación web desarrollada para facilitar interacción con modelo fine-tuneado. . . . 193 180. Evolución de la pérdida durante el fine-tuning del modelo LLaMA preliminar. . . . . 196 181. Evolución de la pérdida durante el fine-tuning del modelo LLaMA con early stopping. 197 182. Evolución de la pérdida durante el fine-tuning del modelo LLaMA con early stopping y estándar LoRA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197 183. Evolución de la pérdida durante el fine-tuning del modelo LLaMA con early stopping, estándar LoRA y fine-tuning supervisado. . . . . . . . . . . . . . . . . . . . . . . . . 198 184. Resultados de LIME para la interpretación generada por el modelo LLaMA fine- tuneado (versión 1) para la frase “como clima hoy”. . . . . . . . . . . . . . . . . . . 199 185. Resultados de LIME para la interpretación generada por el modelo LLaMA fine- tuneado (versión 1) para la frase “ayer viernes limpiar casa todo d́ıa”. . . . . . . . . 200 186. Resultados de LIME para la interpretación generada por el modelo LLaMA fine- tuneado (versión 1) para la frase “mar gusta él mar gustar ella no”. . . . . . . . . . . 201 xvi 187. Resultados de LIME para la interpretación generada por el modelo LLaMA fine- tuneado (versión 2) para la frase “ojalá hoy carro mucho no”. . . . . . . . . . . . . . 204 188. Resultados de LIME para la interpretación generada por el modelo LLaMA fine- tuneado (versión 2) para la frase “antes tu polićıa llamar pregunta”. . . . . . . . . . 205 189. Resultados de LIME para la interpretación generada por el modelo LLaMA fine- tuneado (versión 2) para la frase “pasado yo ir no”. . . . . . . . . . . . . . . . . . . . 205 190. Métricas de conexiones y solicitudes . . . . . . . . . . . . . . . . . . . . . . . . . . . 207 191. Códigos de respuesta HTTP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208 192. Tiempo de respuesta y tiempo de respuesta Upstream . . . . . . . . . . . . . . . . . 208 193. Métricas de CPU, memoria y carga del sistema . . . . . . . . . . . . . . . . . . . . . 209 194. Tráfico de red . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210 195. Resultados de la prueba E2E, mostrando un 100% de éxito en todas las operaciones realizadas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211 196. Resultado de la primera prueba de seguridad con Lynis mostrando un ı́ndice de ro- bustez de 58. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211 197. Resultado de la segunda prueba de seguridad con Lynis mostrando un ı́ndice de ro- bustez de 60. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212 198. Resultado de la tercera prueba de seguridad con Lynis mostrando un ı́ndice de robus- tez de 62. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212 199. Resumen del estado del servidor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 xvii Lista de cuadros 1. Estructura del conjunto de datos desarrollado. . . . . . . . . . . . . . . . . . . . . . 52 2. Ejemplos de perturbaciones interpretadas por el modelo fine-tuneado junto con sus distancias de Lenveshtein normalizadas correspondientes. . . . . . . . . . . . . . . . 57 3. Tabla: user . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 4. Tabla: video . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 5. Tabla: traducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 6. Tabla: dictionary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 7. Resumen de rutas de API: user routes . . . . . . . . . . . . . . . . . . . . . . . . . 67 8. Resumen de rutas de API: video routes . . . . . . . . . . . . . . . . . . . . . . . . 68 9. Resumen de rutas de API: traduction routes . . . . . . . . . . . . . . . . . . . . . . . 68 10. Resumen de rutas de API: dictionary routes . . . . . . . . . . . . . . . . . . . . . 68 11. Resumen de rutas de API: profile routes . . . . . . . . . . . . . . . . . . . . . . . 68 12. Resumen de rutas de API: mail routes . . . . . . . . . . . . . . . . . . . . . . . . . 69 13. Resumen del sistema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 14. Distribución de recursos entre las máquinas virtuales y el host . . . . . . . . . . . . . 78 15. Desempeño del modelo base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 16. Desempeño del modelo con aumento de complejidad . . . . . . . . . . . . . . . . . . 169 17. Desempeño del modelo base con dropout . . . . . . . . . . . . . . . . . . . . . . . . . 171 18. Desempeño del primer modelo de fine tuning de la tasa de dropout . . . . . . . . . . 173 19. Desempeño del segundo modelo de fine tuning de la tasa de dropout . . . . . . . . . 175 20. Desempeño del modelo con normalización por lotes . . . . . . . . . . . . . . . . . . . 177 21. Desempeño del primer modelo con dropout y normalización por lotes . . . . . . . . . 179 22. Desempeño del segundo modelo con dropout y normalización por lotes . . . . . . . . 181 23. Desempeño del segundo modelo de la combinación de dropout y normalización por lotes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182 24. Valores de parámetros y pérdidas de validación en experimentos preliminares . . . . 186 25. Parámetros utilizados para el fine-tuning del modelo GPT-3.5-Turbo. . . . . . . . . 186 26. Contribución de cada palabra según los valores de influencia (LIME) en las interpre- taciones generadas por el modelo GPT-3.5-Turbo estándar y su versión fine-tuneada para la frase “antes tu polićıa llamar pregunta”. . . . . . . . . . . . . . . . . . . . . . 188 27. Contribución de cada palabra según los valores de influencia (LIME) en las interpre- taciones generadas por el modelo GPT-3.5-Turbo estándar y su versión fine-tuneada para la frase “futuro hospital él ir”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189 28. Contribución de cada palabra según los valores de influencia (LIME) en las interpre- taciones generadas por el modelo GPT-3.5-Turbo estándar y su versión fine-tuneada para la frase “pasado yo ir no”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190 xix 29. Distancias de Levenshtein promedio calculadas a partir de las interpretaciones gene- radas por el modelo GPT-3.5-Turbo (estándar) y el modelo fine-tuneado, utilizando diversos prompts. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192 30. Puntuación promedio otorgada por usuarios finales a las interpretaciones generadas por el modelo GPT-3.5-Turbo estándar y su versión fine-tuneada para la frase “ayer cine tu ir pregunta”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194 31. Puntuación promedio otorgada por usuarios finales a las interpretaciones generadas por el modelo GPT-3.5-Turbo estándar y su versión fine-tuneada para la frase “pasado yo medicina comprar para mamá”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194 32. Puntuación promedio otorgada por usuarios finales a las interpretaciones generadas por el modelo GPT-3.5-Turbo estándar y su versión fine-tuneada para la frase “ayer abuelo llamar tu pregunta”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194 33. Puntuación promedio otorgada por usuarios finales a las interpretaciones generadas por el modelo GPT-3.5-Turbo estándar y su versión fine-tuneada para la frase “antes tienda tu amiga ver pregunta”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 34. Puntuación promedio otorgada por usuarios finales a las interpretaciones generadas por el modelo GPT-3.5-Turbo estándar y su versión fine-tuneada para la frase “tu opinión cuál pregunta”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 35. Puntuación promedio otorgada por usuarios finales a las interpretaciones generadas por el modelo GPT-3.5-Turbo fine-tuneado, utilizando diferentes prompts, para la frase “hospital yo necesitar ir ahora ojalá mucho carro no porque emergencia”. . . . 196 36. Valores promedio de BLEU en experimentos preliminares. . . . . . . . . . . . . . . . 198 37. Valores BLEU de interpretaciones generadas por el modelo LLaMA con early stopping, estándar LoRA y fine-tuning supervisado. . . . . . . . . . . . . . . . . . . . . . . . . 198 38. Contribución de cada palabra según los valores de influencia (LIME) en las interpre- taciones generadas por el modelo LLaMA fine-tuneado (versión 1) para la frase “como clima hoy”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199 39. Contribución de cada palabra según los valores de influencia (LIME) en las interpre- taciones generadas por el modelo LLaMA fine-tuneado (versión 1) para la frase “ayer viernes limpiar casa todo d́ıa”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200 40. Contribución de cada palabra según los valores de influencia (LIME) en las interpre- taciones generadas por el modelo LLaMA fine-tuneado (versión 1) para la frase “mar gusta él mar gustar ella no”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 41. Comentarios otorgados por un intérprete de LENSEGUA ante interpretaciones gene- radas por el modelo LLaMA fine-tuneado (versión 1) para diversas frases. . . . . . . 202 42. Distancias de Levenshtein promedio calculadas a partir de las interpretaciones gene- radas por el modelo GPT-3.5-Turbo fine-tuneado y el modelo LLaMA fine-tuneado (versión 2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204 43. Contribución de cada palabra según los valores de influencia (LIME) en las inter- pretaciones generadas por el modelo LLaMA fine-tuneado (versión 2) y el modelo GPT-3.5-Turbo fine-tuneado para la frase “ojalá hoy carro mucho no”. . . . . . . . . 204 44. Contribución de cada palabra según los valores de influencia (LIME) en las inter- pretaciones generadas por el modelo LLaMA fine-tuneado (versión 2) y el modelo GPT-3.5-Turbo fine-tuneado para la frase “antes tu polićıa llamar pregunta”. . . . . 205 45. Contribución de cada palabra según los valores de influencia (LIME) en las inter- pretaciones generadas por el modelo LLaMA fine-tuneado (versión 2) y el modelo GPT-3.5-Turbo fine-tuneado para la frase “pasado yo ir no”. . . . . . . . . . . . . . 206 xx Resumen Señas Chapinas: Traductor de LENSEGUA es un proyecto enfocado en el desarrollo de una apli- cación móvil diseñada para interpretar la Lengua de Señas de Guatemala (LENSEGUA) y traducirla a español gramaticalmente correcto, facilitando la comunicación entre personas sordas y oyentes. La solución se basa en una arquitectura modular compuesta por tecnoloǵıas avanzadas que trabajan de forma integrada para garantizar robustez, eficiencia y accesibilidad. El módulo de visión por computadora procesa grabaciones para identificar y reconocer las señas realizadas por los usuarios. A partir de esta información, modelos de procesamiento de lenguaje natural transforman las señas detectadas en oraciones completas y coherentes, adaptándose tanto a contextos cotidianos como a situaciones de emergencia. La infraestructura de red y el backend funcionan como el núcleo técnico que conecta todos los componentes, asegurando estabilidad, esca- labilidad y seguridad. Finalmente, el diseño centrado en la experiencia del usuario proporciona una interfaz intuitiva y accesible, adaptada a las necesidades espećıficas de la comunidad sorda. La colaboración activa con la comunidad sorda guatemalteca fue esencial en todas las etapas del proyecto, desde la definición de requerimientos hasta la validación final. Este enfoque participa- tivo no solo asegura que Señas Chapinas sea una herramienta funcional, sino también un recurso profundamente conectado con las necesidades prácticas y culturales de sus usuarios. xxii CAṔITULO 1 Introducción En Guatemala, aproximadamente 300,000 personas enfrentan algún grado de discapacidad audi- tiva [126]. En un esfuerzo por reducir la brecha lingǘıstica existente entre la comunidad sorda y la oyente, en el 2020, el Congreso de la República de Guatemala promulgó el Decreto 3-2020. Esta le- gislación reconoce oficialmente a la lengua de señas de Guatemala (LENSEGUA) como un medio de comunicación compuesto por movimientos corporales y una gramática propia de las personas sordas [28]. A pesar de este importante avance legislativo, su impacto hasta el momento ha sido limitado, lo que subraya la urgencia de implementar soluciones innovadoras para mejorar la comunicación y la inclusión de las personas sordas en la sociedad guatemalteca. En este contexto, a través de este megaproyecto se busca crear un sistema de reconocimiento e in- terpretación de LENSEGUA. Para esto, se plantea el desarrollo de una aplicación móvil para Android que le permita a los usuarios grabar videos de personas utilizando la lengua de señas guatemalteca. Una vez grabados, se analizará automáticamente los videos para reconocer y, posteriormente, inter- pretar las señas al idioma español. Con un enfoque en vocabulario clave para situaciones cotidianas y de emergencia, esta herramienta busca facilitar las interacciones diarias y contribuir a mejorar la calidad de vida de la comunidad sorda en Guatemala. La solución combina un diseño intuitivo y culturalmente relevante con tecnoloǵıa avanzada que garantiza eficiencia, seguridad y procesamiento confiable de los datos. Este enfoque garantiza una experiencia de usuario accesible y funcional, preparada para responder a las necesidades cambiantes de sus usuarios. Mediante una colaboración activa y constante con la comunidad sorda, Señas Chapi- nas: Traductor de LENSEGUA aspira a ser más que una herramienta tecnológica; busca convertirse en un puente hacia la inclusión y el entendimiento, promoviendo una sociedad más equitativa y accesible. 1 CAṔITULO 2 Justificación La comunicación es un derecho fundamental y un elemento clave para la interacción humana, siendo indispensable en áreas como la educación, el trabajo y la participación activa en la sociedad [87]. En Guatemala, la Asociación de Sordos de Guatemala (ASEGUA) recomienda que, para ga- rantizar una inclusión adecuada de las 250,000 personas que utilizan LENSEGUA como su principal herramienta de comunicación, debeŕıan existir al menos 10 personas oyentes capacitadas en lengua de señas por cada una de ellas [31]. No obstante, el páıs está lejos de alcanzar este estándar: so- lo 11,500 personas han participado en cursos básicos de lengua de señas, y únicamente existen 95 intérpretes certificados en todo el territorio nacional [79]. Esta situación, según la “Encuesta Sociolingǘıstica de la Comunidad Sorda en Guatemala”, marginaliza a la población sorda y la limita a relacionarse exclusivamente con otras personas sordas o con hijos de adultos sordos (HDAS). La escasez de personas oyentes capacitadas en LENSEGUA y de intérpretes certificados crea barreras significativas para la comunicación y la participación de personas sordas en la sociedad guatemalteca [99]. Ante esta realidad, surge la idea del proyecto Señas Chapinas: Traductor de LENSEGUA. Aprovechando la amplia adopción de teléfonos inteligentes en Guatemala [119], donde la mayoŕıa de estos dispositivos operan con el sistema Android [119], este proyecto busca desarrollar una aplica- ción móvil que actúe como un puente de comunicación eficiente y accesible. La aplicación pretende fortalecer la autonomı́a de las personas sordas en diversas situaciones cotidianas y de emergencia, promoviendo al mismo tiempo el uso de LENSEGUA. Además, se sustenta en un marco legal favo- rable, como el Decreto del Congreso de la República de Guatemala Número 3-2020, que reconoce a la Lengua de Señas de Guatemala como un medio de comunicación oficial [29]. Además, a través de Señas Chapinas se busca fomentar la inclusión laboral, facilitar el acceso a servicios esenciales y promover las interacciones sociales, contribuyendo al enriquecimiento de la comunidad guatemalteca. Es por ello que este proyecto representa un avance significativo hacia la construcción de una sociedad que valora la diversidad y garantiza igualdad de oportunidades para todos, utilizando tecnoloǵıa móvil para superar las barreras de comunicación de manera eficiente y efectiva. 3 CAṔITULO 3 Objetivos 3.1. Objetivo general Diseñar y desarrollar Señas Chapinas, una aplicación para dispositivos Android que sea capaz de traducir la lengua de señas guatemalteca (LENSEGUA) a texto gramaticalmente correcto en español, haciendo uso de modelos avanzados de visión por computadora y procesamiento de lenguaje natural, junto con una infraestructura de red segura y eficiente. 3.2. Objetivos espećıficos Desarrollar un sistema de visión por computadora destinado al reconocimiento de la lengua de señas de Guatemala. Para ello, se creará un conjunto de datos que incluya al menos veinticinco palabras de esta lengua, seleccionando aquellas que permitan formar una amplia variedad de frases de uso cotidiano. Adaptar un large language model, espećıficamente GPT-3.5-Turbo, para que asimile la gramáti- ca de LENSEGUA, permitiéndole interpretar oraciones que utilicen dicha gramática y las escriba correctamente en español. Desarrollar una herramienta basada en LLaMA que sea capaz de comprender la gramática de LENSEGUA y generar interpretaciones coherentes en español a partir de oraciones estructu- radas en dicha gramática. Configurar un servidor seguro y eficiente que optimice el uso de recursos para administrar modelos de inteligencia artificial, procesar videos, y ofrecer un ambiente accesible para pruebas y despliegues mediante APIs. Realizar una investigación de mercado y entrevistas para comprender necesidades, diseñar flujos e interfaces intuitivas, y desarrollar la aplicación Señas Chapinas integrando servicios externos para la traducción de LENSEGUA. 5 CAṔITULO 4 Marco teórico 4.1. Discapacidad auditiva La discapacidad auditiva es una condición que limita la capacidad de una persona para escuchar. Esta puede manifestarse en distintos niveles de intensidad, desde una pérdida leve de audición hasta la sordera total. Además, esta condición puede tener diversas causas, como factores genéticos o exposición prolongada a ruidos fuertes [132]. Es importante destacar que, independientemente de su origen o grado, la discapacidad auditiva puede representar un desaf́ıo significativo en la vida diaria de quienes la experimentan, afectando su comunicación, educación e integración social [133]. 4.1.1. Causas de la sordera La Federación Mundial de Sordos (WFD) reporta que en todo el mundo hay 70 millones de personas sordas, de las cuales 34 millones son niños. Además, se estima que alrededor de 3 de cada 1,000 bebés nacen con sordera [133]. En este contexto, es importante destacar que la sordera en los niños puede manifestarse durante el peŕıodo prenatal debido a diversos factores. Por ejemplo, hay mutaciones genéticas (hereditarias y no hereditarias) que pueden aumentar la probabilidad de sordera congénita. Asimismo, existen infecciones intrauterinas, como la rubéola o el herpes, que también pueden desencadenar la sordera en el feto. Otra causa común es la exposición a medicamentos por parte de la madre que pueden provocar diversas malformaciones [88]. La prematuridad de un bebé es también un factor que puede influir significativamente en el desarrollo de problemas auditivos. Concretamente, los bebés prematuros tienen un mayor riesgo de desarrollar sordera debido a la posibilidad de que sus óıdos no hayan alcanzado su completo desarrollo al momento del nacimiento. Además, los bebés prematuros comúnmente experimentan enfermedades que aumentan la probabilidad de desarrollar sordera, como la hiperbilirrubinemia (ictericia grave). Por otro lado, durante el parto pueden surgir complicaciones que resultan en asfixia perinatal, evento que puede ocasionar daños al sistema auditivo y nervioso del recién nacido [88]. Cabe destacar que la sordera no solo aparece durante el periodo prenatal o perinatal, sino que también puede manifestarse en cualquier etapa de la vida, incluyendo la infancia, la adolescencia y la edad adulta. En niños y jóvenes, infecciones recurrentes del óıdo (otitis media crónica) pueden provocar pérdida de audición si no se tratan adecuadamente. A su vez, la meningitis es una infección 7 que también puede ocasionar daños en el nervio auditivo y, consecuentemente, resultar en pérdida auditiva. Finalmente, la exposición continua a ruidos fuertes puede dañar gradualmente la audición a lo largo del tiempo. Esto es especialmente relevante en los jóvenes y adultos que utilizan con más frecuencia aud́ıfonos a un volumen alto [133]. 4.1.2. Clasificación de la sordera Una persona sorda, según la Organización Mundial de la Salud (OMS), es aquella cuya capacidad auditiva no supera los 20 decibelios (dB) en ambas orejas [133]. Sin embargo, es importante tener en cuenta que la sordera puede manifestarse en diferentes grados, los cuales dependen de la gravedad de la pérdida auditiva y de la ubicación espećıfica del problema en el óıdo. En términos de grado de pérdida auditiva, la sordera se puede clasificar en leve, moderada, grave y profunda. La pérdida auditiva leve se refiere a una persona que puede escuchar algunos sonidos relacionados con el habla, pero no puede escuchar susurros. A una persona con pérdida auditiva moderada le cuesta entender el habla a un volumen normal. Por otro lado, una persona con pérdida auditiva grave no escucha ningún sonido a volumen normal, solo puede óır sonidos fuertes. Por último, una persona con pérdida auditiva profunda (o con sordera total) no escucha nada, exceptuando algunos sonidos extremadamente fuertes [74]. Al considerar la ubicación de la pérdida auditiva, esta puede clasificarse en tres tipos principales: conductiva, neurosensorial o mixta. La pérdida auditiva conductiva ocurre cuando hay un bloqueo que impide el paso del sonido del óıdo externo al medio. En cambio, la pérdida auditiva neurosensorial ocurre cuando hay daño en el óıdo interno o en el nervio auditivo. Esto resulta en que los sonidos no puedan ser procesados y posteriormente transmitidos al cerebro de forma correcta. Finalmente, la pérdida auditiva mixta, como su nombre sugiere, involucra una combinación de factores tanto conductivos como neurosensoriales. Esto puede ser el resultado de múltiples condiciones que afectan tanto el óıdo externo como el interno [74]. 4.1.3. Impacto de la discapacidad auditiva en las personas Actualmente se reporta que el 80% de personas sordas residen en páıses de bajos ingresos, como Guatemala. En estos páıses, las condiciones precarias dificultan el acceso a servicios de salud auditiva adecuados, aśı como a tecnoloǵıas de asistencia y educación especializada. Como resultado, es frecuente encontrar niños, jóvenes e incluso adultos con pérdida de audición no solo no tratada, sino también no diagnosticada [133]. La sordera no tratada, según Dave Cutten, puede obstaculizar el desarrollo lingǘıstico y comuni- cativo de los niños, lo que incluye impedimentos en el desarrollo del vocabulario y dificultades para comprender y utilizar el lenguaje de manera efectiva [33]. Es fundamental destacar que los niños con sordera identificada suelen aprender a comunicarse a través de la lengua de señas, lo que mitiga en gran medida estos problemas. Sin embargo, independientemente de si los niños con sordera aprenden lengua de señas o no, existe una brecha lingǘıstica entre la comunidad sorda y la oyente que tiene implicaciones psicológicas significativas. Por ejemplo, las personas sordas tienden a sentirse exclui- das, solas, frustradas, enojadas y avergonzadas debido a que no pueden socializar fácilmente con sus familiares, compañeros y miembros de sus comunidades. Además, esta situación puede afectar negativamente el bienestar emocional de las personas sordas, generando sentimientos de ansiedad, depresión y baja autoestima [23]. En el caso de los adolescentes y adultos, la discapacidad auditiva puede provocar efectos psi- cológicos y emocionales similares a los descritos anteriormente. Además, esta condición puede influir negativamente en las oportunidades educativas y laborales de las personas, lo que a su vez puede conducir a una mayor exclusión y discriminación en la sociedad [21]. Por ejemplo, en Guatemala, de 8 las 10 escuelas para personas sordas, ninguna ofrece educación secundaria. Esto, a su vez, ocasiona una brecha educativa significativa para los adolescentes sordos, limitando aśı su futuro académico y profesional [99]. 4.1.4. Barreras y desaf́ıos enfrentados por la comunidad sorda en Guate- mala En 2007, Elizabeth Parks y Jason Parks realizaron un estudio con el objetivo de analizar la situación sociolingǘıstica de la comunidad sorda en Guatemala. A través de entrevistas y encues- tas, identificaron que menos del 50% de los sordos guatemaltecos reciben educación especializada. Además, observaron un bajo nivel de alfabetización, aśı como un pobre dominio del español entre este grupo. Según los autores, esta situación se atribuye a la presencia limitada de solo diez escuelas para los veintidós departamentos del páıs. De estas diez, tres son instituciones privadas, lo que las vuelve inaccesibles para muchas familias debido a limitaciones monetarias [99]. En cuanto a educación superior, según Edith Paz, únicamente dos universidades en Guatemala ofrecen servicios de intérpretes para estudiantes sordos, aunque estos servicios están limitados exclu- sivamente a los departamentos de computación. Es importante destacar que, si bien los estudiantes tienen la opción de contratar intérpretes privados, esta posibilidad está restringida a aquellos prove- nientes de familias de altos recursos. Debido a esto, muchas personas sordas encuentran dificultades para acceder a empleos con un salario digno. Por ejemplo, el salario promedio mensual para un guatemalteco es de Q2,000, sin embargo, las personas sordas suelen ganar –en promedio– menos de Q600 mensuales [99]. 4.2. Lengua de señas La lengua de señas es un sistema de comunicación utilizado por personas sordas y con disca- pacidad auditiva. Este utiliza gestos, movimientos de las manos, expresiones faciales y posturas corporales para transmitir ideas y emociones [89]. Es importante mencionar que, al igual que los idiomas hablados, las lenguas de señas vaŕıan considerablemente entre páıses, existiendo más de 300 variaciones en todo el mundo [131]. 4.2.1. Historia de la lengua de señas La lengua de señas se desarrolló de manera independiente por la comunidad sorda para satisfacer sus necesidades comunicativas. Históricamente estigmatizada y mal entendida, era considerada un lenguaje de gestos simple hasta que investigaciones realizadas en 1960 por William Stokoe revelaron su capacidad para expresar ideas complejas y estructuradas [108]. En el siglo XVIII, el Abad Charles-Michel de L’Epée fundó la primera escuela pública para sordos, marcando un cambio trascendental en la educación de esta comunidad, utilizando la lengua de señas como principal medio de enseñanza. Este avance no solo facilitó la comunicación y el aprendizaje, sino que también permitió que los sordos desempeñaran roles activos como educadores. La metodoloǵıa de L’Epée se expandió internacionalmente, influyendo en la creación de escuelas y en el desarrollo de nuevas lenguas de señas [108]. Durante los siglos XIX y XX, las lenguas de señas ganaron reconocimiento como sistemas lingǘısti- cos completos y estructurados, capaces de expresar una gama completa de ideas y emociones. En el siglo XX, el reconocimiento de los derechos lingǘısticos de las comunidades sordas se amplió sig- nificativamente, afirmando la importancia de las lenguas de señas como herramientas educativas y 9 culturales esenciales [108]. A ráız de la necesidad de comunicación en las comunidades sordas, cada páıs ha desarrollado su propia lengua de señas, integrando a menudo estructuras de lenguas de señas extranjeras, como el American Sign Language (ASL), aśı como señas locales únicas. Esto ha dado lugar a que cada páıs, e incluso regiones dentro de los mismos, tengan su propia lengua de señas con estructuras gramaticales y léxicos distintos [110]. 4.2.2. Lengua de señas en la actualidad En la actualidad, la lengua de señas se está adaptando a un entorno globalizado y tecnológica- mente avanzado, donde las necesidades comunicativas evolucionan constantemente. Estos cambios han impulsado la creación de legislaciones, poĺıticas, formación de asociaciones y el desarrollo de nuevas tecnoloǵıas destinadas a minimizar las barreras comunicativas. Un ejemplo significativo es la iniciativa de las Naciones Unidas al proclamar el 23 de septiembre como Dı́a Internacional de las Lenguas de Señas, enfatizando la importancia de estas lenguas [97]. Sin embargo, a pesar de estos avances, persisten desaf́ıos significativos. La falta de estandarización de las lenguas de señas a nivel global requiere que las personas aprendan la lengua de señas espećıfica de cada comunidad, lo cual impide la existencia de una forma de comunicación internacional uniforme [110]. Además, la lengua de señas, a menudo catalogada como una lengua minoritaria, es aprendida solamente por una pequeña fracción de la población sin discapacidades auditivas. Esta limitada difusión crea una brecha de comunicación significativa, contribuyendo a la marginación de la comu- nidad sorda y limitando su participación plena en actividades sociales y económicas. Esto subraya la necesidad de una mayor educación y sensibilización sobre la lengua de señas para promover una verdadera inclusión [83]. 4.3. Lengua de Señas de Guatemala (LENSEGUA) 4.3.1. Historia El primer registro de la utilización de la lengua de señas en Guatemala se remonta a la escuela Fray Pedro Ponce de León, establecida en la Ciudad de Guatemala en 1946 para la educación de niños y niñas sordas. Sin embargo, según Edith Paz, esta institución teńıa una filosof́ıa oralista que prohib́ıa el uso de señas y gestos para la comunicación. A pesar de estas restricciones, los estudiantes desarrollaron, durante el transcurso de 20 años, un sistema de señas para comunicarse entre ellos tanto dentro de las aulas como en público. Esta lengua de señas (también conocida como GSM) fue evolucionando con el paso del tiempo, incorporando influencias de “Señas Caseras”1 provenientes de distintos departamentos del páıs y de sistemas similares utilizados en España, Cuba, Costa Rica, El Salvador y Estados Unidos [99][17] . A finales del siglo XX, se inauguraron otras diez escuelas para los jóvenes con discapacidad auditiva. A diferencia de la Escuela Fray Pedro Ponce de León, todas estas fomentaban el uso de la lengua de señas. Entre ellas, dos enseñaban American Sign Language (ASL), mientras que las otras una variación de la lengua de señas formalizada a finales de la década de los sesenta (GSM) [99]. En el 2001, el Comité Pro Ciegos y Sordos de Guatemala, una institución privada no lucrativa 1Se conoce como “Señas Caseras” al sistema de comunicación que utilizan los niños sordos, que no han sido expuestos a la lengua de señas, con padres oyentes para poder comunicarse y desenvolverse en el ámbito familiar [42]. 10 pionera en la educación y rehabilitación de personas con discapacidad auditiva, en conjunto con otros colaboradores, publicó el primer manual oficial de la Lengua de Señas de Guatemala (LENSEGUA). Este manual representó un avance crucial en la estandarización y enseñanza de la lengua de señas, proporcionando un recurso esencial para los estudiantes, profesionales y la comunidad en general interesada en aprender este método de comunicación [76]. Sin embargo, cabe destacar que este manual no tomó relevancia hasta el 2021, cuando el Congreso de la República de Guatemala aprobó la ‘Ley que Reconoce y Aprueba la Lengua de Señas de Guatemala’ (Decreto Número 135-96). Esta ley, como indica su nombre, reconoce a LENSEGUA como un medio de comunicación compuesto por un conjunto de movimientos corporales y una gramática propia de las personas sordas. Asimismo, establece que el Ministerio de Educación debe promover la introducción de LENSEGUA al sistema educativo nacional [28]. El Decreto estableció que todas las instituciones públicas y privadas deben garantizar la inclusión de LENSEGUA como parte de su comunicación y servicios. Además, se promueve la educación bilingüe (español y LENSEGUA) en las escuelas que atienden a estudiantes sordos, asegurando aśı su derecho a una educación equitativa y accesible [56]. Este reconocimiento no solo valida a LENSEGUA como una lengua completa y estructurada, sino que también impulsa la creación de poĺıticas y programas destinados a mejorar la accesibilidad en todos los aspectos de la vida pública para la comunidad sorda, desde la educación hasta el acceso a los servicios de salud y legales. El Decreto promueve la inclusión y asegura que las personas con discapacidad auditiva tengan acceso a la educación y la información en lengua de señas, libre de cualquier discriminación [56]. 4.3.2. Variaciones regionales Aunque LENSEGUA es reconocida como la forma predominante de comunicación para la co- munidad sorda en Guatemala, existen variaciones regionales que reflejan la diversidad cultural y lingǘıstica dentro del páıs. Estas diferencias incluyen, pero no se limitan a, cambios sutiles en el vocabulario y los gestos utilizados. Por ejemplo, según Edith Paz, mientras que la Ciudad de Guate- mala, Cobán y Quetzaltenango muestran similitudes significativas, San Marcos presenta un sistema ligeramente diferente, el cual se inspira aún más en el ASL [99]. 4.3.3. Gramática y estructura La gramática y estructura de LENSEGUA reflejan una vasta complejidad lingǘıstica que permite a los usuarios expresar una amplia gama de conceptos y emociones. Este sistema de comunicación es completo con su propia sintaxis, léxico y reglas gramaticales. Aqúı se describen algunas de las caracteŕısticas distintivas de LENSEGUA [42] [43] [44]: Morfoloǵıa: La morfoloǵıa en LENSEGUA utiliza modificadores manuales y no manuales para alterar el significado de los signos básicos, incluyendo modificaciones para indicar número, tiempo, aspecto, y otros atributos gramaticales. • El signo para “comer”podŕıa modificarse para expresar “comer mucho”mediante la repe- tición del signo o cambios en la expresión facial. Ausencia de género y art́ıculos: Como en muchas lenguas de señas, LENSEGUA no utiliza género gramatical ni art́ıculos. • Español: “la casa”, “el perro”. • LENSEGUA signa “casa” y “perro” sin modificadores adicionales. 11 No uso de preposiciones: LENSEGUA omite preposiciones, que en español son cruciales para las relaciones espaciales o temporales. La relación se establece a través del contexto y la configuración de los signos. • Español: “en la casa”. • LENSEGUA: se usa gesto para indicar la ubicación relativa y el signo de casa. Omisión de signos de puntuación y Mayúsculas: LENSEGUA no utiliza signos de pun- tuación ni mayúsculas. La escritura refleja una secuencia continua de signos, que se diferencia notablemente de la estructura del español. • LENSEGUA: “Disculpar mi hija no llega colegio porque muy enferma tiene tos casa tomar medicinas”. Verbos no conjugados: En LENSEGUA, los verbos no se conjugan. El tiempo y el aspecto se indican con signos espećıficos al principio de la frase o a través de la expresión facial. • Español: “Yo estoy comiendo”. • LENSEGUA: se signa “yo comer”. Orden gramatical: El orden gramatical t́ıpico en LENSEGUA es Tiempo, Lugar, Sujeto, Objeto, Verbo (TLSOV), diferente al orden Sujeto, Verbo, Objeto (SVO) del español. Este orden facilita que el contexto temporal y espacial quede establecido claramente al inicio. • Español: “Yo ayer jugué futbol”. • LENSEGUA: se signa “ayer yo fútbol jugar”. 4.3.4. Aprendizaje y recursos LENSEGUA se puede aprender en varias instituciones y a través de recursos en ĺınea que buscan facilitar el acceso y la difusión de esta lengua. Entre las principales entidades que ofrecen cursos y formación en LENSEGUA están [5]: ASEDES (Asociación Educativa para el Sordo) ASORGUA (Asociación de Sordos de Guatemala) Benemérito Comité Prociegos y Sordos de Guatemala En-Señas Guatemala CESGUA (Coordinación de Educación y Servicios en Guatemala) INTERGUA (Coordinación de intérpretes de lengua de señas de Guatemala) ANDYSISC (Servicios de interpretación profesional de Lengua de Señas) FUNDAL ONG Sordos Latinos Guatemala Estas organizaciones no solo proporcionan educación en LENSEGUA, sino que facilitan una serie de conferencias y talleres impartidos por especialistas para personas con discapacidad auditiva [5]. 12 4.4. Fundamentos de visión por computadora 4.4.1. Procesamiento de imágenes La visión por computadora es un campo de la inteligencia artificial que permite a las compu- tadoras interpretar y comprender el contenido de las imágenes y videos. Este campo se basa en la adquisición, procesamiento y análisis de imágenes digitales para extraer información significativa. Los objetivos de la visión por computadora incluyen la automatización de tareas que requieren pro- cesamiento visual, como el reconocimiento de objetos, la detección de patrones y el seguimiento de movimientos [48]. 4.4.2. Técnicas básicas Los principios básicos de la visión por computadora incluyen técnicas de procesamiento de imáge- nes, como la mejora de imágenes, la segmentación de imágenes y la extracción de caracteŕısticas. La mejora de imágenes puede incluir el ajuste de contraste y eliminación de ruido. La segmentación de imágenes se enfoca en la división de una imagen en partes significativas, con el objetivo de descartar información que no sea útil. Por último, la extracción de caracteŕısticas se enfoca en la identificación de elementos clave dentro de una imagen, como bordes o puntos de interés. Estas técnicas son funda- mentales para el desarrollo de aplicaciones que requieren una comprensión detallada de las imágenes [7]. 4.4.3. Herramientas En el ámbito de la visión por computadora, existen varias herramientas y bibliotecas de software que facilitan la implementación de técnicas de procesamiento de imágenes y análisis visual. Entre las más utilizadas se encuentran OpenCV y MediaPipe. Open Source Computer Vision Library (OpenCV) es una biblioteca de software libre de visión artificial y aprendizaje automático. Esta proporciona más de 2500 algoritmos optimizados para realizar una amplia gama de tareas, como la detección y reconocimiento de rostros, la identificación de objetos, la clasificación de acciones en videos, el seguimiento de movimientos y la reconstrucción de estructuras 3D [94]. Desarrollado por Google, MediaPipe es un marco multiplataforma para la construcción de aplica- ciones multimedia. MediaPipe proporciona soluciones de vanguardia para la detección y seguimiento de manos, detección de rostros, entre otras. Es particularmente útil para aplicaciones que requieren el seguimiento en tiempo real y la interacción basada en gestos [54]. Algo que estas dos herramientas tienen en común es el lenguaje de programación que se utiliza, ya que ambas son libreŕıas de Python. Python es un lenguaje de programación ampliamente utilizado en visión por computadora, especialmente cuando se combina con bibliotecas como OpenCV y MediaPipe. Estas herramientas permiten a los desarrolladores implementar aplicaciones avanzadas de visión por computadora de manera eficiente y con buenos resultados. La principal ventaja de utilizar estas libreŕıas es que no se necesita entrenar los modelos de visión por computadora desde cero, ya que en muchos casos se puede utilizar uno de los modelos que forman parte de estas libreŕıas [10]. 13 4.5. Aplicaciones de visión por computadora 4.5.1. Medicina La visión por computadora tiene una amplia gama de aplicaciones en diversos campos. En la medicina, se utiliza para el diagnóstico asistido por computadora, ayudando a los médicos a detectar enfermedades a partir de imágenes médicas como radiograf́ıas y resonancias magnéticas. Adicional- mente, puede ayudar a que los diagnósticos sean más certeros, ya que la tecnoloǵıa puede servir como una segunda opinión del diagnóstico [51]. 4.5.2. Industria automotriz En el sector automotriz, la visión por computadora es fundamental para el desarrollo de veh́ıculos autónomos y sistemas avanzados de asistencia al conductor. Estos sistemas dependen de la capacidad de los veh́ıculos para identificar y responder a señales de tráfico, peatones y otros obstáculos en la carretera. 4.5.3. Seguridad y vigilancia En el ámbito de la seguridad y vigilancia, la visión por computadora se utiliza para la detec- ción de intrusos, el reconocimiento facial y la identificación de comportamientos sospechosos. Estas tecnoloǵıas son fundamentales para la prevención de cŕımenes y la protección de la seguridad pública. 4.5.4. Manufactura En el ámbito industrial, la visión por computadora se emplea para el control de calidad y la inspección automatizada de productos. Esto puede simplificar de manera drástica los procesos de manufactura, y reduce dramáticamente el tiempo requerido en procesos de control de calidad de los productos. 4.6. Redes neuronales 4.6.1. Fundamentos Las redes neuronales son un componente esencial de la inteligencia artificial. El funcionamiento de estas se inspira en el funcionamiento del cerebro humano, con una gran cantidad de neuronas. Estas redes están compuestas por capas de nodos, que son como neuronas artificiales, que procesan la información a través de conexiones ponderadas [52]. 4.6.2. Tipos de redes neuronales Existen varios tipos de redes neuronales, cada una adecuada para diferentes tareas. Las redes neuronales feedforward (FNN) son las más simples, donde la información se propaga en una sola dirección, de la entrada a la salida. Las redes neuronales convolucionales (CNN) son especialmente efectivas para el procesamiento de imágenes debido a su capacidad para reconocer patrones espaciales 14 jerárquicos. Por último, las redes neuronales recurrentes (RNN) son adecuadas para el procesamiento de datos secuenciales, como el reconocimiento de voz o la traducción automática [64]. 4.6.3. Aplicaciones en visión por computadora Las aplicaciones de redes neuronales en visión por computadora incluyen la clasificación de imáge- nes, donde las CNN pueden identificar y categorizar objetos dentro de una imagen, y la detección de objetos, donde se localizan y etiquetan múltiples objetos dentro de una escena. Estas tecnoloǵıas son fundamentales para el desarrollo de sistemas avanzados de reconocimiento de señas, como el pro- yecto ”Señas Chapinas: Traductor de LENSEGUA”, que utiliza redes neuronales para interpretar el lenguaje de señas guatemalteco en tiempo real. 4.7. Evaluación de modelos de visión por computadora 4.7.1. Matriz de confusión La matriz de confusión es una herramienta que permite visualizar el rendimiento de un modelo de clasificación. Se organiza en una tabla que muestra las predicciones del modelo en comparación con las verdaderas etiquetas de los datos. Esta matriz se compone de cuatro componentes principales: Verdaderos Positivos (TP): Casos correctamente clasificados como positivos. Falsos Positivos (FP): Casos incorrectamente clasificados como positivos. Verdaderos Negativos (TN): Casos correctamente clasificados como negativos. Falsos Negativos (FN): Casos incorrectamente clasificados como negativos. La matriz de confusión es una herramienta útil para evaluar el rendimiento de un modelo de clasificación, ya que proporciona información detallada sobre los errores del modelo [65]. Adicio- nalmente, la matriz de confusión se puede utilizar para calcular otras métricas de rendimiento del modelo, como la sensibilidad y la puntuación F1. 4.7.2. Sensibilidad La sensibilidad, también conocida como recall, es una métrica que mide la proporción de casos positivos que fueron correctamente identificados por el modelo. Un alto valor de sensibilidad indica que el modelo tiene una buena capacidad para detectar la clase positiva, lo cual es especialmente importante en aplicaciones donde se desea minimizar los falsos negativos [69]. Se calcula utilizando la siguiente fórmula: Sensibilidad = TP TP + FN (4.1) Donde TP son los verdaderos positivos y FN son los falsos negativos. 15 4.7.3. Puntuación F1 La puntuación F1, más comúnmente conocida como F1-score, es una métrica que combina la precisión y la sensibilidad en un solo valor. Se utiliza para evaluar el equilibrio entre la capaci- dad del modelo para identificar casos positivos (sensibilidad) y la exactitud de esas identificaciones (precisión). Se calcula de la siguiente manera: F1-score = 2→ Precisión→ Sensibilidad Precisión + Sensibilidad (4.2) Donde la precisión se calcula como: Precisión = TP TP + FP (4.3) Donde TP son los verdaderos positivos y FP son los falsos positivos. La puntuación F1 es especialmente útil en situaciones donde hay un desbalance en las clases, ya que proporciona una medida más completa del rendimiento del modelo que la precisión o la sensibilidad por separado [73]. Esta métrica es ampliamente utilizada en la evaluación de modelos de clasificación. 4.8. Natural Language Processing (NLP) El natural language processing (NLP), o procesamiento de lenguaje natural, es un campo de la inteligencia artificial que se enfoca en la comprensión y manipulación del lenguaje humano. Este campo no se limita a un solo modelo, sino que abarca una variedad de técnicas y algoritmos diseñados para interpretar y generar texto de manera efectiva [13]. Estos modelos se pueden utilizar en diver- sos contextos, desde análisis de sentimientos hasta traducciones automáticas, lo que demuestra su versatilidad y aplicación práctica en diferentes áreas de la tecnoloǵıa y la comunicación [34]. 4.8.1. Técnicas y fundamentos En NLP, el preprocesamiento del texto es una etapa en la cual se preparan y limpian los datos antes de aplicar técnicas de análisis más avanzadas. Este proceso incluye varias etapas, como la tokenización. Esto consiste en dividir el texto en unidades más pequeñas, como palabras, con el fin de facilitar su posterior análisis. Además, el preprocesamiento también suele involucrar el stemming, que consiste en reducir las palabras a su forma base o ráız. Esto ayuda a normalizar el texto y a eliminar las variaciones morfológicas. Por último, se suele llevar a cabo la eliminación de stopwords, que son palabras comunes, pero que no aportan un significado contextual importante al texto, como ’el’, ’la’, ’de’ y ’en’. En algunos casos, cabe destacar que puede ser necesario realizar un preprocesamiento más exhaustivo. Por ejemplo, dependiendo de las necesidades, se puede considerar el manejo de sinónimos para reducir el vocabulario de un texto [34]. Posterior al preprocesamiento, se puede aplicar text feature extraction. Este término engloba diferentes métodos, como bag of words y N-grams. Sin embargo, todos tienen como objetivo crear estructuras de datos que permiten representar de manera adecuada la información contenida en el texto. Por ejemplo, bag of words genera un listado de palabras que constituyen el vocabulario de un texto, acompañado de la frecuencia con la que cada palabra aparece. Esta información puede ser útil para identificar la importancia relativa de las palabras en un documento. N-grams, por otro lado, es 16 una técnica en la cual se generan secuencias de palabras de longitud N. Estas secuencias se pueden utilizar para identificar las relaciones y estructuras entre las palabras en un texto [34]. Una vez realizado el preprocesamiento del texto y creado las estructuras de datos adecuadas, se puede introducir dicha información en un modelo (o arquitectura) para llevar a cabo una variedad de tareas. Estas pueden incluir el análisis de sentimientos y la generación de texto. El análisis de sentimientos busca comprender las emociones expresadas en el texto, determinando si son positivas, negativas o neutras. Por otro lado, la generación de texto implica crear contenido de manera au- tomática, ya sea completando frases, resumiendo art́ıculos o incluso generando respuestas a preguntas del usuario [37]. 4.8.2. Modelos principales Existe una amplia variedad de modelos diseñados para llevar a cabo las tareas de procesamiento de lenguaje natural mencionadas anteriormente. La elección entre estos depende de varios factores, como la complejidad de la tarea, la disponibilidad y calidad de los datos, y los recursos computacio- nales disponibles. Aprendizaje automático Entre uno de los modelos más simples está el clasificador Näıve Bayes. Este es un modelo pro- babiĺıstico que –como indica su nombre– emplea el teorema de Bayes. En otras palabras, funciona a través de determinar la probabilidad de que un cierto evento ocurra dado que otro evento ya ha ocurrido (asumiendo la independencia condicional). Para su funcionamiento correcto, este clasifica- dor suele recibir el vocabulario y la frecuencia con la que aparecen las respectivas palabras. A partir de esta información, por ejemplo, se puede determinar la probabilidad de que un texto pertenezca a una clase espećıfica, como ’positivo’ o ’negativo’, dadas las palabras que contiene. En la detección de spam, se puede calcular la probabilidad de que un correo electrónico sea spam o no, basándose en la frecuencia de ciertas palabras o caracteŕısticas en el mensaje [112]. La regresión loǵıstica, similarmente, es otro modelo utilizado en el aprendizaje automático para problemas de clasificación. A pesar de su nombre, la regresión loǵıstica se utiliza principalmente para problemas de clasificación binaria, donde el objetivo es predecir la pertenencia a una de dos categoŕıas distintas. A diferencia del clasificador Näıve Bayes, que se basa en la probabilidad condicional, la regresión loǵıstica utiliza una función loǵıstica para modelar la relación entre las variables de entrada y la probabilidad de pertenencia a una clase espećıfica. Esto permite su aplicación en una variedad de tareas de NLP, donde se busca clasificar el texto en categoŕıas espećıficas [36]. Aprendizaje profundo Por otro lado, los modelos de aprendizaje automático se caracterizan por la utilización de redes neuronales. Una red neuronal es un modelo, compuesto por nodos interconectados (o neuronas), capaz de aprender patrones complejos en datos. Estos modelos, debido a su arquitectura, son capaces de realizar una mayor cantidad de tareas relacionadas con NLP, como generación de texto, traducción automática, resumen de documentos, respuesta a preguntas, entre otras [59]. Es importante destacar que para entrenar y utilizar eficazmente estos modelos es necesario reali- zar una etapa de transformación de los datos mediante el proceso de embedding. El embedding es un proceso que convierte palabras o frases en vectores numéricos, permitiendo a los modelos de apren- dizaje automático comprender su significado y relación. Además, se utiliza el padding para igualar la longitud de las secuencias de entrada, lo que facilita su procesamiento en los modelos [71]. 17 Figura 1: Arquitectura de red neuronal recurrente. Las recurrent neural networks (RNN), o redes neuronales recurrentes, son comúnmente relacio- nadas con tareas de procesamiento de lenguaje natural. Estas redes trabajan con datos secuenciales, como series de tiempo o texto, debido a su capacidad para capturar dependencias entre los datos. Más espećıficamente, como se puede observar en la 1, las capas de estas redes toman como entrada el dato actual a procesar aśı como la salida de la capa recurrente en el paso anterior. Esto les permite mantener un registro que se actualiza constantemente, y que –como resultado– les permite capturar información contextual a lo largo de una secuencia [117]. Por tal motivo, estas redes neuronales pueden ser sumamente útiles para sistemas de autocompletado de texto, por ejemplo [109]. Una desventaja de los RNNs es que debido a su estructura recurrente pueden tener dificultades para capturar dependencias a largo plazo. Esto se debe a que la información se propaga a través de las diferentes capas, y en cada una se realizan transformaciones que pueden ocasionar que la información relevante se diluya o se pierda. Sin embargo, cabe destacar que existen arquitecturas RNN con ciertas modificaciones capaces de mitigar –hasta cierto punto– esta problemática, como las redes long-short term memory (LSTM) [109]. En general, las redes neuronales tradicionales tienen una limitación relacionada con la cantidad de información que pueden procesar y/o recordar. Sin embargo, existen otros tipos de modelos, como los los large language models (LLMs), o modelos de lenguaje grande, que tienen la capacidad de superar estas limitaciones. Estos modelos espećıficos tienen la caracteŕıstica de poder ser entrenados con grandes cantidades de datos (millones). Esto, obviamente, les permite poder capturar patrones más complejos en el lenguaje, aśı como también generar texto con mayor coherencia [11]. 18 Figura 2: Arquitectura de transformer Una de las arquitecturas más utilizadas para los LLMs es la del transformador. Un transfor- mador es una red neuronal compuesta, comúnmente, por un encoder (codificador) y/o un decoder (decodificador). El encoder se encarga de procesar los tokens de entrada, determinando cuál es la relevancia relativa de cada uno en su contexto. A través de esto, dicho componente es capaz de crear representaciones contextuales de cada token. Por otro lado, el decoder utiliza el resultado del encoder para generar secuencias de salida. Sin embargo, en modelos que emplean únicamente decoders, estos asumen la responsabilidad de procesar la entrada y generar la salida de forma simultánea [127]. Cabe destacar que el encoder y decoder están estructurados de una forma similar. Por ejemplo, como se puede observar en la 2, ambos tienen capas llamadas multi-head attention, y feed forward. Las capas de multi-head attention le permiten al modelo poder enfocarse en diferentes partes de una secuencia simultáneamente, para aśı determinar cuál de todas es relevante. Por otro lado, las capas feedforward representan capas ocultas que procesan los datos y permiten al modelo aprender patrones complejos en las secuencias de entrada [46]. 4.9. Arquitecturas basadas en transformadores 4.9.1. Generative Pre-trained Transformer (GPT) Existen diversos modelos que utilizan la arquitectura de transformadores. Sin embargo, uno de los más populares es el generative pretrained transformer (GPT), o transformador generativo preentrenado. Este modelo fue presentado originalmente en el 2018 por OpenAI, en su art́ıculo Improving Language Understanding by Generative Pre-Training. En esta publicación, los autores describen detalladamente la arquitectura del GPT. Además, resaltan que al entrenar un modelo con extensas cantidades de texto, este adquiere conocimientos sobre el mundo real y desarrolla la capacidad de procesar dependencias a largo plazo. Esto resulta en que el GPT sea capaz de responder 19 preguntas de cualquier ı́ndole, aśı como clasificar texto [70]. En la actualidad, este modelo se utiliza principalmente en un chatbot desarrollado por OpenAI, conocido como ChatGPT. La versión gratuita de esta herramienta utiliza la tercera versión del modelo GPT para llevar a cabo interacciones conversacionales naturales con los usuarios. Este modelo fue preentrenado con más de 45 terabytes (o 45,000 gigabytes) de texto plano [81], en comparación con la versión piloto, que fue preentrenada únicamente con 40 gigabytes [121]. Arquitectura Un GPT, a diferencia de otros transformadores, se distingue por su uso exclusivo de decodificado- res en su arquitectura. De hecho, emplea múltiples decodificadores apilados, los cuales dependen de la salida del decodificador anterior para generar texto coherente y relevante [57]. Esta caracteŕıstica le permite al modelo capturar relaciones contextuales a diferentes niveles de abstracción, lo que, a su vez, le posibilita analizar y replicar el lenguaje natural [12]. Figura 3: Arquitectura de Generative Pre-trained Transformer (GPT). Como se puede observar en la Figura 3, la entrada de estos modelos primero pasa por una capa de embedding. Como se mencionó en secciones anteriores, en este proceso se convierten las palabras o frases en vectores numéricos. Cabe destacar que la entrada está limitada a 2048 palabras, por lo cual también se utiliza padding para ajustar las secuencias más cortas y asegurar una longitud uniforme antes de ingresarlas al modelo. Al concluir esa etapa, se continúa a la fase de positional encoding, en la cual se asignan vectores de posición a cada vector numérico con el propósito de poder identificar su ubicación en la secuencia [123]. Después de algunas capas variables, se procede a la utilización de los decodificadores apilados. Cabe destacar que todos están estructurados de una forma similar, conteniendo capas de normaliza- ción, dropout, multi-head attention, y fully connected (o feed forward). Posteriormente, el resultado del último decoder se normaliza y se pasa a una capa oculta, seguido por una función softmax. Esta última genera una distribución de probabilidad, la cual ayuda a identificar cuál es la próxima palabra más probable en la secuencia, según el contexto proporcionado por el modelo [123]. 20 4.9.2. Large Language Model Meta AI (LLaMA) Otro modelo reconocido que se basa en la arquitectura de transformadores es el Large Language Model Meta AI (LLaMA), que fue desarrollado por Meta y lanzado a principios de 2023. Lo que diferencia a LLaMA de otros modelos es su diseño open source, lo que permite que cualquier persona acceda a su código base y realice modificaciones o adaptaciones según sus necesidades. Además, LLaMA está optimizado para ser más eficiente en cuanto a recursos computacionales, lo que facilita su ejecución y entrenamiento en sistemas con menos capacidad. Esta eficiencia, combinada con su naturaleza de código abierto, lo convierte en una herramienta poderosa y accesible, especialmente para investigadores y desarrolladores con recursos limitados [125]. La versión más reciente de LLaMA, LLaMA 3.0, fue lanzada con significativas mejoras en su capacidad de procesamiento y versatilidad. Esta versión fue entrenada utilizando un total de 15 billones de tokens de datos en múltiples idiomas, lo que le permite tener un rendimiento mejorado y adaptarse a un rango más amplio de tareas y contextos. Esta versión se ofrece en dos variantes principales: una versión con 8.000 millones de parámetros (8B) y otra más avanzada con 70.000 millones de parámetros (70B). Estas variantes permiten a los usuarios elegir el modelo que mejor se ajuste a sus necesidades, equilibrando precisión, rendimiento y eficiencia computacional [125]. Arquitectura LLaMA, al igual que GPT, utiliza exclusivamente decodificadores en su arquitectura basada en transformadores. Su diseño incluye múltiples decodificadores apilados, los cuales trabajan en conjunto para procesar y generar texto coherente y contextual [125]. Esta estructura modular le permite capturar relaciones complejas entre los tokens en diferentes niveles de abstracción, lo que mejora su capacidad para analizar y replicar el lenguaje natural de manera eficiente. Como se muestra en la Figura 4, la entrada del modelo pasa inicialmente por una capa de embedding, donde las palabras o frases se transforman en vectores numéricos para su procesamiento. Este paso incluye también la codificación posicional, la cual asigna vectores espećıficos que indican la ubicación de cada palabra en la secuencia, asegurando que el modelo pueda interpretar el orden y la estructura del texto [125]. Una vez que los vectores han sido generados y enriquecidos con la información posicional, estos se introducen en las capas de decodificadores apilados. Cada decodificador contiene submódulos como normalización (layer normalization), dropout, multi-head attention, y redes feed-forward. Este diseño permite al modelo refinar progresivamente la representación de los datos en cada capa, capturando patrones contextuales complejos [125]. Finalmente, el resultado de la última capa de decodificadores pasa por una capa oculta, seguida de una función softmax, que genera una distribución de probabilidad para predecir la próxima palabra más probable en función del contexto [125]. 21 Figura 4: Arquitectura de Large Language Model Meta AI (LLaMA). 4.9.3. Métodos de entrenamiento y adaptación Pre-entrenamiento Una vez definidas las arquitecturas de los modelos, es posible enseñarles a comprender, gene- rar y procesar texto mediante técnicas avanzadas de aprendizaje. Este proceso inicia con el pre- entrenamiento, una etapa en la que los modelos aprenden patrones y estructuras del lenguaje sin enfocarse en una tarea espećıfica. Para ello, se utilizan diversos datos, como art́ıculos de prensa, libros, transcripciones de videos y audios [121]. Durante el pre-entrenamiento, los modelos reciben frases incompletas como ejemplos y tienen la