Señas Chapinas: Traductor de LENSEGUA

Stefano Alberto Aragoni Maldonado, Carol Andreé Arévalo Estrada,

Jose Miguel Gonzalez y Gonzalez, Luis Diego Santos Cuéllar,

Roberto Vallecillos Chinchilla


UNIVERSIDAD DEL VALLE DE GUATEMALA
Facultad de Ingenieŕıa

Señas Chapinas: Traductor de LENSEGUA

Trabajo de graduación en modalidad de Megaproyecto Tecnológico

presentado por

Stefano Alberto Aragoni Maldonado, Carol Andreé Arévalo Estrada,

Jose Miguel Gonzalez y Gonzalez, Luis Diego Santos Cuéllar,

Roberto Vallecillos Chinchilla

para optar al grado académico de Licenciados en Ingenieŕıa en Ciencia

de la Computación y Tecnoloǵıas de la Información

Guatemala

2024


UNIVERSIDAD DEL VALLE DE GUATEMALA
Facultad de Ingenieŕıa

Señas Chapinas: Traductor de LENSEGUA

Trabajo de graduación en modalidad de Megaproyecto Tecnológico

presentado por

Stefano Alberto Aragoni Maldonado, Carol Andreé Arévalo Estrada,

Jose Miguel Gonzalez y Gonzalez, Luis Diego Santos Cuéllar,

Roberto Vallecillos Chinchilla

para optar al grado académico de Licenciados en Ingenieŕıa en Ciencia

de la Computación y Tecnoloǵıas de la Información

Guatemala

2024


Vo.Bo.:

(f)

Ing. Javier Josué Fong Guzmán

Tribunal Examinador:

(f)

Ing. Javier Josué Fong Guzmán

(f)

Ing. Douglas Leonel Barrios Gonzalez

(f)

Ing. Eddy Omar Castro Jauregui

Fecha de aprobación: 29 de noviembre del 2024.


Prefacio

El proyecto Señas Chapinas: Traductor de LENSEGUA emerge como una respuesta innovadora
ante la necesidad cŕıtica de desarrollar herramientas tecnológicas que faciliten la inclusión efectiva de
la comunidad sorda en Guatemala. Este proyecto no solo busca abordar las barreras de comunicación
existentes, sino también empoderar a las personas sordas para que puedan participar plenamente en
todos los aspectos de la vida social, educativa y profesional.

La integración de tecnoloǵıas de inteligencia artificial en este contexto representa un avance sig-
nificativo en la manera en que abordamos los desaf́ıos de accesibilidad y comunicación. Al desarrollar
un traductor de LENSEGUA (Lengua de Señas Guatemalteca) basado en modelos de lenguaje avan-
zados, este proyecto establece un precedente importante en la aplicación de soluciones tecnológicas
para resolver problemáticas sociales complejas. La iniciativa no solo busca facilitar la comunicación
cotidiana, sino también promover una mayor comprensión y apreciación de la riqueza lingǘıstica y
cultural de la comunidad sorda guatemalteca.

v


Agradecimientos

Queremos expresar nuestro más sincero agradecimiento a todas las personas que han contribuido
a la realización de este proyecto, cada una de las cuales ha sido fundamental en su desarrollo.

Primero, expresamos nuestra gratitud a nuestros asesores, los Ingenieros Dennis Aldana, Miguel
Novella, Luis Alberto Suriano y Javier Fong, profesores de la Universidad del Valle, por su invaluable
gúıa y apoyo a lo largo de todo el proceso de investigación y redacción de este trabajo. Su experiencia
y dirección experta fueron fundamentales para superar los retos académicos y prácticos de este
proyecto.

Estamos profundamente agradecidos con ASEDES, especialmente con Niurka Waleska Bendfeldt
Rosada y Alain de León, por proporcionarnos materiales, entrevistas y otros recursos necesarios para
llevar a cabo este trabajo. Su colaboración fue indispensable para entender mejor las necesidades y
desaf́ıos de la comunidad sorda.

Nuestro reconocimiento a las alumnas practicantes de ASEDES: Evelyn Cacao, Any Max y
Ruth Amézquita, quienes generosamente permitieron que las grabáramos mientras realizaban señas,
contribuyendo significativamente a la autenticidad y calidad del contenido de este proyecto.

Agradecemos la colaboración de la profesora Pamela Ramı́rez, quien contribuyó en el diseño
del logo de la aplicación. Su trabajo fue esencial, ya que el logo desempeña un papel crucial en la
identidad visual y la coherencia del diseño de la aplicación.

Finalmente, un agradecimiento especial a Antonio Barrientos, Director General de En-Señas,
y a Gabriela Velázquez, maestra de En-Señas, por su apertura y disposición para compartir su
conocimiento y experiencia, las cuales fueron cruciales para este proyecto.

A todos ustedes, nuestro más profundo respeto y gratitud por su apoyo y contribuciones.

vii


Índice

Prefacio V

Agradecimientos VII

Lista de figuras XVII

Lista de cuadros XX

Resumen XXII

1. Introducción 1

2. Justificación 3

3. Objetivos 5
3.1. Objetivo general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.2. Objetivos espećıficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

4. Marco teórico 7
4.1. Discapacidad auditiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

4.1.1. Causas de la sordera . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
4.1.2. Clasificación de la sordera . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
4.1.3. Impacto de la discapacidad auditiva en las personas . . . . . . . . . . . . . . 8
4.1.4. Barreras y desaf́ıos enfrentados por la comunidad sorda en Guatemala . . . . 9

4.2. Lengua de señas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
4.2.1. Historia de la lengua de señas . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
4.2.2. Lengua de señas en la actualidad . . . . . . . . . . . . . . . . . . . . . . . . . 10

4.3. Lengua de Señas de Guatemala (LENSEGUA) . . . . . . . . . . . . . . . . . . . . . 10
4.3.1. Historia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
4.3.2. Variaciones regionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
4.3.3. Gramática y estructura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
4.3.4. Aprendizaje y recursos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

4.4. Fundamentos de visión por computadora . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.4.1. Procesamiento de imágenes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.4.2. Técnicas básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.4.3. Herramientas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

4.5. Aplicaciones de visión por computadora . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.5.1. Medicina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

ix


4.5.2. Industria automotriz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.5.3. Seguridad y vigilancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.5.4. Manufactura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

4.6. Redes neuronales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.6.1. Fundamentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.6.2. Tipos de redes neuronales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.6.3. Aplicaciones en visión por computadora . . . . . . . . . . . . . . . . . . . . . 15

4.7. Evaluación de modelos de visión por computadora . . . . . . . . . . . . . . . . . . . 15
4.7.1. Matriz de confusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4.7.2. Sensibilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4.7.3. Puntuación F1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

4.8. Natural Language Processing (NLP) . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.8.1. Técnicas y fundamentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.8.2. Modelos principales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

4.9. Arquitecturas basadas en transformadores . . . . . . . . . . . . . . . . . . . . . . . . 19
4.9.1. Generative Pre-trained Transformer (GPT) . . . . . . . . . . . . . . . . . . . 19
4.9.2. Large Language Model Meta AI (LLaMA) . . . . . . . . . . . . . . . . . . . . 21
4.9.3. Métodos de entrenamiento y adaptación . . . . . . . . . . . . . . . . . . . . . 22
4.9.4. Métricas de rendimiento y evaluación . . . . . . . . . . . . . . . . . . . . . . 23

4.10. Explainable Artificial Intelligence (XAI) . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.10.1. Local Interpretable Model-agnostic Explanations (LIME) . . . . . . . . . . . 24

4.11. Sistema operativo: Linux server . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.11.1. ¿Qué es Linux? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.11.2. Historia de Linux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.11.3. Linux server . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

4.12. Virtualización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.13. Multipass . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.14. VPN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

4.14.1. ¿Qué es una VPN? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.14.2. ¿Para qué sirven las VPNs? . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

4.15. Arquitectura de base de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.15.1. Bases de datos relacionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.15.2. PostgreSQL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.15.3. Arquitectura de base de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

4.16. APIs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.16.1. ¿Qué es una API? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.16.2. ¿Cómo usar una API? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.16.3. Implementar APIs a bases de datos . . . . . . . . . . . . . . . . . . . . . . . . 27
4.16.4. Implementar APIs para recepción y devolución de datos . . . . . . . . . . . . 28
4.16.5. ¿Qué es Crontab? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

4.17. Bases de diseño y filosof́ıa de DARPA . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.17.1. Costo-efectividad y control . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.17.2. Flexibilidad y adaptabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.17.3. Seguridad y privacidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

4.18. Pruebas de eficiencia y de extremo a extremo en el servidor mediante APIs . . . . . 29
4.18.1. ¿Qué es una prueba de eficiencia? . . . . . . . . . . . . . . . . . . . . . . . . 29
4.18.2. ¿Qué es una prueba de extremo a extremo (E2E)? . . . . . . . . . . . . . . . 29
4.18.3. Impacto de la eficiencia y de las pruebas de extremo a extremo en el servidor 29

4.19. Herramientas para pruebas de eficiencia y de extremo a extremo . . . . . . . . . . . 30
4.19.1. Monitoreo del sistema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.19.2. Pruebas de carga y end to end . . . . . . . . . . . . . . . . . . . . . . . . . . 30

4.20. Diseño de interfaz de usuario (UI) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.20.1. Definición de UI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.20.2. Elementos de la interfaz de usuario . . . . . . . . . . . . . . . . . . . . . . . . 31

x


4.20.3. Estándares de diseño . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.21. Experiencia de usuario (UX) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

4.21.1. Definición de UX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.21.2. Diferencias entre UX y UI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.21.3. Tipos de experiencia de usuario . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.21.4. Proceso de experiencia de usuario . . . . . . . . . . . . . . . . . . . . . . . . 36

4.22. Desarrollo móvil en Android . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.22.1. Razones para elegir Android como plataforma de desarrollo . . . . . . . . . . 38
4.22.2. Arquitectura de aplicaciones Android . . . . . . . . . . . . . . . . . . . . . . 38
4.22.3. Buenas prácticas de desarrollo Android . . . . . . . . . . . . . . . . . . . . . 39

5. Metodoloǵıa 42
5.1. Visión por computadora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

5.1.1. Delimitación del universo de palabras . . . . . . . . . . . . . . . . . . . . . . 42
5.1.2. Recopilación de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.1.3. Preparación del conjunto de datos . . . . . . . . . . . . . . . . . . . . . . . . 44
5.1.4. Procesamiento de los videos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.1.5. Labeling de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.1.6. Normalización de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.1.7. Oversampling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.1.8. Entrenamiento del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.1.9. Evaluación del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.1.10. Evaluación del conjunto de datos . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.1.11. Publicación del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

5.2. Procesamiento de lenguaje natural (GPT-3.5-Turbo) . . . . . . . . . . . . . . . . . . 52
5.2.1. Creación de conjunto de datos . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.2.2. Fine-tuning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.2.3. Prompt engineering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.2.4. Implementación y evaluación del sistema . . . . . . . . . . . . . . . . . . . . . 57

5.3. Procesamiento de lenguaje natural (LLaMA) . . . . . . . . . . . . . . . . . . . . . . 59
5.3.1. Creación de conjunto de datos . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.3.2. Configuración inicial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.3.3. Fine-tuning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.3.4. Comparación de modelos fine-tuneados (GPT-3.5-Turbo y LLaMA) . . . . . 63

5.4. Infraestructura de red . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.4.1. Levantamiento de un sistema operativo y configuración de VPN . . . . . . . 63
5.4.2. Desarrollo de la arquitectura de base de datos . . . . . . . . . . . . . . . . . . 65
5.4.3. Implementación de APIs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.4.4. Virtualización del servidor para múltiples modelos . . . . . . . . . . . . . . . 77
5.4.5. Implementación de pruebas de eficiencia . . . . . . . . . . . . . . . . . . . . . 79
5.4.6. Pruebas de carga . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
5.4.7. Pruebas de extremo a extremo . . . . . . . . . . . . . . . . . . . . . . . . . . 83
5.4.8. Implementación de pruebas CVE para seguridad . . . . . . . . . . . . . . . . 83
5.4.9. Pruebas de seguridad con Lynis . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.4.10. Mejoras de seguridad en /etc/sysctl.conf . . . . . . . . . . . . . . . . . . . 85
5.4.11. Monitoreo continuo de seguridad con ClamAV . . . . . . . . . . . . . . . . . 85

5.5. Diseño y desarrollo móvil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.5.1. Investigación de mercado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.5.2. Desarrollo de interfaz y experiencia de usuario . . . . . . . . . . . . . . . . . 100
5.5.3. Desarrollo de aplicación móvil para Android . . . . . . . . . . . . . . . . . . . 139
5.5.4. Pruebas con usuarios finales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155

xi


6. Resultados 162
6.1. Visión por computadora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162

6.1.1. Conjunto de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
6.1.2. Proceso iterativo de desarrollo del modelo . . . . . . . . . . . . . . . . . . . . 166
6.1.3. Evaluación del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
6.1.4. Aplicaciones del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183

6.2. Procesamiento de lenguaje natural (GPT-3.5-Turbo) . . . . . . . . . . . . . . . . . . 185
6.2.1. Fine-tuning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
6.2.2. Prompt engineering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
6.2.3. Retroalimentación de la comunidad sorda . . . . . . . . . . . . . . . . . . . . 193

6.3. Procesamiento de lenguaje natural (LLaMA) . . . . . . . . . . . . . . . . . . . . . . 196
6.3.1. Fine-tuning (versión 1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
6.3.2. Retroalimentación de la comunidad sorda . . . . . . . . . . . . . . . . . . . . 201
6.3.3. Fine-tuning (versión 2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203

6.4. Infraestructura de red . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
6.4.1. Redireccionamiento de puertos para acceso SSH externo . . . . . . . . . . . . 206
6.4.2. Resultados de la prueba de carga . . . . . . . . . . . . . . . . . . . . . . . . . 207
6.4.3. Resultados de la prueba E2E . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
6.4.4. Resultados de la prueba de seguridad con Lynis . . . . . . . . . . . . . . . . . 211

6.5. Diseño y desarollo móvil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
6.5.1. Comprensión de la situación de comunidad sorda en Guatemala . . . . . . . . 213
6.5.2. Diseño centrado en el usuario . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
6.5.3. Desarrollo de aplicación móvil para Android . . . . . . . . . . . . . . . . . . . 214
6.5.4. Pruebas con usuarios finales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214

7. Análisis de resultados 215
7.1. Visión por computadora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
7.2. Procesamiento de lenguaje natural (GPT-3.5-Turbo) . . . . . . . . . . . . . . . . . . 218
7.3. Procesamiento de lenguaje natural (LLaMA) . . . . . . . . . . . . . . . . . . . . . . 220
7.4. Infraestructura de red . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
7.5. Diseño y desarollo móvil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223

8. Conclusiones 226

9. Recomendaciones 228

10.Bibliograf́ıa 232

11.Anexos 240
Carta de solicitud de acceso a la VPN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242

xii


Lista de figuras

1. Arquitectura de red neuronal recurrente. . . . . . . . . . . . . . . . . . . . . . . . . . 18
2. Arquitectura de transformer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3. Arquitectura de Generative Pre-trained Transformer (GPT). . . . . . . . . . . . . . 20
4. Arquitectura de Large Language Model Meta AI (LLaMA). . . . . . . . . . . . . . . 22
5. Tamaño óptimo de botones según su prioridad . . . . . . . . . . . . . . . . . . . . . 33
6. Espaciado óptimo de botones según su tamaño . . . . . . . . . . . . . . . . . . . . . 33
7. Proceso de diseño de experencia de usuario . . . . . . . . . . . . . . . . . . . . . . . 37
8. Cuota de tráfico web móvil por sistema operativo . . . . . . . . . . . . . . . . . . . . 38
9. Diagrama de funcionamiento MVVM . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

10. Ejemplos de captura de los videos para el conjunto de datos [72]. . . . . . . . . . . . 43
11. Ejemplo de reflejo de un video . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
12. Proceso de preparación del conjunto de datos. . . . . . . . . . . . . . . . . . . . . . . 45
13. Ejemplo de uso de MediaPipe [53]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
14. Ejemplo de datos procesados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
15. Ejemplo de una red neuronal feedforward sencilla. . . . . . . . . . . . . . . . . . . . . 48
16. Implementación de mejoras en la red neuronal feedforward. . . . . . . . . . . . . . . 48
17. Ejemplo de visualización de datos con PCA. . . . . . . . . . . . . . . . . . . . . . . . 50
18. Ejemplo de matriz de confusión. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
19. Reunión de equipo de trabajo con ASEDES. . . . . . . . . . . . . . . . . . . . . . . . 53
20. Generación recursiva de nuevas frases. . . . . . . . . . . . . . . . . . . . . . . . . . . 54
21. Comparación entre CPU y GPU en el procesamiento paralelo. . . . . . . . . . . . . . 60
22. Diagrama de entrenamiento con LoRA. . . . . . . . . . . . . . . . . . . . . . . . . . 61
23. LevantadoOpenVPN. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
24. ConexionSSH. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
25. Diagrama entidad relación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
26. Diagrama de flujo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
27. Flujo de trabajo completo del sistema de APIs. . . . . . . . . . . . . . . . . . . . . . 72
28. Estado de las máquinas virtuales dentro del sistema . . . . . . . . . . . . . . . . . . 79
29. Resultados de la prueba de carga con 50 usuarios concurrentes. . . . . . . . . . . . . 81
30. Resultados de la prueba de carga con 100 usuarios concurrentes. . . . . . . . . . . . 81
31. Resultados de la prueba de carga con 200 usuarios concurrentes. . . . . . . . . . . . 81
32. Resultados de la prueba de carga con 300 usuarios concurrentes. . . . . . . . . . . . 81
33. Resultados de la prueba de carga con 400 usuarios concurrentes. . . . . . . . . . . . 81
34. Resultados de la prueba de carga con 500 usuarios concurrentes. . . . . . . . . . . . 82
35. Resultados de la prueba de carga con 600 usuarios concurrentes. . . . . . . . . . . . 82
36. Resultados de la prueba de carga con 700 usuarios concurrentes. . . . . . . . . . . . 82

xiii


37. Resultados de la prueba de carga con 800 usuarios concurrentes. . . . . . . . . . . . 82
38. Resultados de la prueba de carga con 900 usuarios concurrentes. . . . . . . . . . . . 82
39. Resultados de la prueba de carga con 1100 usuarios concurrentes. . . . . . . . . . . . 83
40. Muestra de aplicación “Hand Talk Translator” . . . . . . . . . . . . . . . . . . . . . 87
41. Muestra de aplicación “SLAIT” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
42. Muestra de aplicación “Lenguaje de señas IA” . . . . . . . . . . . . . . . . . . . . . 88
43. Muestra de aplicación “AI Sign: Sign Language” . . . . . . . . . . . . . . . . . . . . 89
44. Muestra de aplicación “Sign Language Translator AI” . . . . . . . . . . . . . . . . . 90
45. Entrevista En-Señas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
46. Género encuesta 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
47. Edad encuesta 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
48. Conocimiento persona sorda encuesta 2 . . . . . . . . . . . . . . . . . . . . . . . . . 96
49. Conocimiento LENSEGUA encuesta 2 . . . . . . . . . . . . . . . . . . . . . . . . . . 96
50. Relevancia de la aplicación encuesta 2 . . . . . . . . . . . . . . . . . . . . . . . . . . 97
51. Relevancia de la aplicación para personas con conocidos sordos encuesta 2 . . . . . . 97
52. Entrevista colectiva En-Señas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
53. Lluvia de ideas para diagrama de afinidad . . . . . . . . . . . . . . . . . . . . . . . . 101
54. Agrupación de ideas para diagrama de afinidad . . . . . . . . . . . . . . . . . . . . . 102
55. Diagrama de afinidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
56. Persona 1 - Laura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
57. Persona 2 - Ricardo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
58. Persona 3 - Felipe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
59. Persona 4 - Sofia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
60. Persona 5 - Marta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
61. Persona 6 - Jorge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
62. Mapa de empat́ıa - Laura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
63. Mapa de empat́ıa - Ricado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
64. Mapa de empat́ıa - Felipe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
65. Mapa de empat́ıa - Sofia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
66. Mapa de empat́ıa - Marta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
67. Mapa de empat́ıa - Jorge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
68. Sombreros para pensar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
69. Planteamiento del problema Señas Chapinas . . . . . . . . . . . . . . . . . . . . . . . 111
70. Primera vez usando la aplicación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
71. Grabación de video . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
72. Guardando video . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
73. Reporte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
74. Diccionario de palabras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
75. Reto diario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
76. Mapa de sitio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
77. Grabar video . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
78. Guardar video . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
79. Abrir video guardado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
80. Repertir grabación de video . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
81. Completar reto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
82. Reportar traducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
83. Diccionario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
84. Wireframe bajo nivel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
85. Wireframe nivel medio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
86. Wireframe alto nivel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
87. Wireframe alto nivel luego de retroalimentación . . . . . . . . . . . . . . . . . . . . . 123
88. Primer logo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
89. Logo vectorizado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
90. Logo modernizado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

xiv


91. Logo con colores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
92. Logo Señas Chapinas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
93. Paleta de colores logo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
94. Paleta de colores aplicación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
95. Paleta colores perfil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
96. Contraste blanco y azul . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
97. Contraste azul y blanco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
98. Contraste gris y blanco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
99. Contraste blanco y rojo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
100. Constraste verde quetzal y azul . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
101. Constraste verde claro y azul . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
102. Tipograf́ıa Nunito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
103. Primer prototipo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
104. Segundo prototipo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
105. Tercer prototipo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
106. Cuarto prototipo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
107. Ilustraciones señas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
108. Navegación principal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
109. Navegación video . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
110. Navegación perfil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
111. Diccionario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
112. Traducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
113. Flujo cambio de contraseña . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
114. Deeplink página web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
115. Plantilla correo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
116. Ejemplo de correo enviado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
117. Página web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
119. Fotos de página web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
118. Herramientas de página web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
120. Poĺıticas de privacidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
121. Ícono . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
122. Capturas de pantalla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
123. Banner promocional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
124. Preguntas frecuentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
125. Prueba cerrada Play Store . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
126. Solicitud para producción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
127. Ejemplo historia usuario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
128. Cronograma Kanban . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
129. Expo UVG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
130. Cambios primera prueba con usuarios . . . . . . . . . . . . . . . . . . . . . . . . . . 156
131. Cambio En-Señas 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
132. Cambio En-Señas 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
133. Fragmento tutorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
134. Demo En-Señas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
135. Flujo muestra de grabación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160

136. Análisis de similitud entre las clases como y agua . . . . . . . . . . . . . . . . . . . . 163
137. Análisis de similitud entre las clases como y beber . . . . . . . . . . . . . . . . . . . . 163
138. Análisis de similitud entre las clases cuando y donde . . . . . . . . . . . . . . . . . . 164
139. Análisis de similitud entre las clases sed y quien . . . . . . . . . . . . . . . . . . . . 164
140. Análisis de similitud entre todas las clases . . . . . . . . . . . . . . . . . . . . . . . . 165
141. Balance de clases en el conjunto de datos de entrenamiento . . . . . . . . . . . . . . 165
142. Modelo inicial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
143. Historial de entrenamiento del modelo base . . . . . . . . . . . . . . . . . . . . . . . 167

xv


144. Matriz de confusión del modelo base . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
145. Modelo con aumento de complejidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
146. Historial de entrenamiento del modelo con aumento de complejidad . . . . . . . . . . 169
147. Matriz de confusión del modelo con aumento de complejidad . . . . . . . . . . . . . 169
148. Modelo base con dropout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
149. Historial de entrenamiento del modelo base con dropout . . . . . . . . . . . . . . . . 171
150. Matriz de confusión del modelo base con dropout . . . . . . . . . . . . . . . . . . . . 171
151. Primera iteración de fine tuning de la tasa de dropout . . . . . . . . . . . . . . . . . 172
152. Historial de entrenamiento del primer modelo de fine tuning de la tasa de dropout . 173
153. Matriz de confusión del primer modelo de fine tuning de la tasa de dropout . . . . . 173
154. Segunda iteración de fine tuning de la tasa de dropout . . . . . . . . . . . . . . . . . 174
155. Historial de entrenamiento del segundo modelo de fine tuning de la tasa de dropout 175
156. Matriz de confusión del segundo modelo de fine tuning de la tasa de dropout . . . . 175
157. Modelo con normalización por lotes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
158. Historial de entrenamiento del modelo con normalización por lotes . . . . . . . . . . 177
159. Matriz de confusión del modelo con normalización por lotes . . . . . . . . . . . . . . 177
160. Primer modelo con dropout y normalización por lotes . . . . . . . . . . . . . . . . . 178
161. Historial de entrenamiento del primer modelo con de dropout y normalización por lotes179
162. Matriz de confusión del primer model con dropout y normalización por lotes . . . . . 179
163. Segundo modelo con dropout y normalización por lotes . . . . . . . . . . . . . . . . . 180
164. Historial de entrenamiento del segundo modelo con dropout y normalización por lotes 181
165. Matriz de confusión del segundo modelo con dropout y normalización por lotes . . . 181
166. Reconocimiento de lengua de señas de Guatemala en tiempo real (una palabra) . . . 182
167. Reconocimiento de lengua de señas de Guatemala en tiempo real (múltiples palabras) 183
168. Reconocimiento de la palabra ayer en tiempo real . . . . . . . . . . . . . . . . . . . 184
169. Reconocimiento de la palabra comer en tiempo real . . . . . . . . . . . . . . . . . . 184
170. Reconocimiento de la palabra universidad utilizando el API . . . . . . . . . . . . . . 185
171. Reconocimiento de la palabra tu utilizando el API . . . . . . . . . . . . . . . . . . . 185
172. Evolución de la pérdida durante el fine-tuning final del modelo GPT-3.5-Turbo. . . . 186
173. Resultados de LIME para la interpretación generada por el modelo GPT-3.5-Turbo

estándar para la frase “antes tu polićıa llamar pregunta”. . . . . . . . . . . . . . . . 187
174. Resultados de LIME para la interpretación generada por el modelo GPT-3.5-Turbo

fine-tuneado para la frase “antes tu polićıa llamar pregunta”. . . . . . . . . . . . . . 187
175. Resultados de LIME para la interpretación generada por el modelo GPT-3.5-Turbo

estándar para la frase “futuro hospital él ir”. . . . . . . . . . . . . . . . . . . . . . . 188
176. Resultados de LIME para la interpretación generada por el modelo GPT-3.5-Turbo

fine-tuneado para la frase “futuro hospital él ir”. . . . . . . . . . . . . . . . . . . . . 188
177. Resultados de LIME para la interpretación generada por el modelo GPT-3.5-Turbo

estándar para la frase “pasado yo ir no”. . . . . . . . . . . . . . . . . . . . . . . . . . 189
178. Resultados de LIME para la interpretación generada por el modelo GPT-3.5-Turbo

fine-tuneado para la frase “pasado yo ir no”. . . . . . . . . . . . . . . . . . . . . . . . 189
179. Aplicación web desarrollada para facilitar interacción con modelo fine-tuneado. . . . 193
180. Evolución de la pérdida durante el fine-tuning del modelo LLaMA preliminar. . . . . 196
181. Evolución de la pérdida durante el fine-tuning del modelo LLaMA con early stopping. 197
182. Evolución de la pérdida durante el fine-tuning del modelo LLaMA con early stopping

y estándar LoRA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
183. Evolución de la pérdida durante el fine-tuning del modelo LLaMA con early stopping,

estándar LoRA y fine-tuning supervisado. . . . . . . . . . . . . . . . . . . . . . . . . 198
184. Resultados de LIME para la interpretación generada por el modelo LLaMA fine-

tuneado (versión 1) para la frase “como clima hoy”. . . . . . . . . . . . . . . . . . . 199
185. Resultados de LIME para la interpretación generada por el modelo LLaMA fine-

tuneado (versión 1) para la frase “ayer viernes limpiar casa todo d́ıa”. . . . . . . . . 200
186. Resultados de LIME para la interpretación generada por el modelo LLaMA fine-

tuneado (versión 1) para la frase “mar gusta él mar gustar ella no”. . . . . . . . . . . 201

xvi


187. Resultados de LIME para la interpretación generada por el modelo LLaMA fine-
tuneado (versión 2) para la frase “ojalá hoy carro mucho no”. . . . . . . . . . . . . . 204

188. Resultados de LIME para la interpretación generada por el modelo LLaMA fine-
tuneado (versión 2) para la frase “antes tu polićıa llamar pregunta”. . . . . . . . . . 205

189. Resultados de LIME para la interpretación generada por el modelo LLaMA fine-
tuneado (versión 2) para la frase “pasado yo ir no”. . . . . . . . . . . . . . . . . . . . 205

190. Métricas de conexiones y solicitudes . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
191. Códigos de respuesta HTTP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
192. Tiempo de respuesta y tiempo de respuesta Upstream . . . . . . . . . . . . . . . . . 208
193. Métricas de CPU, memoria y carga del sistema . . . . . . . . . . . . . . . . . . . . . 209
194. Tráfico de red . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
195. Resultados de la prueba E2E, mostrando un 100% de éxito en todas las operaciones

realizadas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
196. Resultado de la primera prueba de seguridad con Lynis mostrando un ı́ndice de ro-

bustez de 58. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
197. Resultado de la segunda prueba de seguridad con Lynis mostrando un ı́ndice de ro-

bustez de 60. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
198. Resultado de la tercera prueba de seguridad con Lynis mostrando un ı́ndice de robus-

tez de 62. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
199. Resumen del estado del servidor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213

xvii


Lista de cuadros

1. Estructura del conjunto de datos desarrollado. . . . . . . . . . . . . . . . . . . . . . 52
2. Ejemplos de perturbaciones interpretadas por el modelo fine-tuneado junto con sus

distancias de Lenveshtein normalizadas correspondientes. . . . . . . . . . . . . . . . 57
3. Tabla: user . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4. Tabla: video . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5. Tabla: traducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
6. Tabla: dictionary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
7. Resumen de rutas de API: user routes . . . . . . . . . . . . . . . . . . . . . . . . . 67
8. Resumen de rutas de API: video routes . . . . . . . . . . . . . . . . . . . . . . . . 68
9. Resumen de rutas de API: traduction routes . . . . . . . . . . . . . . . . . . . . . . . 68
10. Resumen de rutas de API: dictionary routes . . . . . . . . . . . . . . . . . . . . . 68
11. Resumen de rutas de API: profile routes . . . . . . . . . . . . . . . . . . . . . . . 68
12. Resumen de rutas de API: mail routes . . . . . . . . . . . . . . . . . . . . . . . . . 69
13. Resumen del sistema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
14. Distribución de recursos entre las máquinas virtuales y el host . . . . . . . . . . . . . 78

15. Desempeño del modelo base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
16. Desempeño del modelo con aumento de complejidad . . . . . . . . . . . . . . . . . . 169
17. Desempeño del modelo base con dropout . . . . . . . . . . . . . . . . . . . . . . . . . 171
18. Desempeño del primer modelo de fine tuning de la tasa de dropout . . . . . . . . . . 173
19. Desempeño del segundo modelo de fine tuning de la tasa de dropout . . . . . . . . . 175
20. Desempeño del modelo con normalización por lotes . . . . . . . . . . . . . . . . . . . 177
21. Desempeño del primer modelo con dropout y normalización por lotes . . . . . . . . . 179
22. Desempeño del segundo modelo con dropout y normalización por lotes . . . . . . . . 181
23. Desempeño del segundo modelo de la combinación de dropout y normalización por

lotes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
24. Valores de parámetros y pérdidas de validación en experimentos preliminares . . . . 186
25. Parámetros utilizados para el fine-tuning del modelo GPT-3.5-Turbo. . . . . . . . . 186
26. Contribución de cada palabra según los valores de influencia (LIME) en las interpre-

taciones generadas por el modelo GPT-3.5-Turbo estándar y su versión fine-tuneada
para la frase “antes tu polićıa llamar pregunta”. . . . . . . . . . . . . . . . . . . . . . 188

27. Contribución de cada palabra según los valores de influencia (LIME) en las interpre-
taciones generadas por el modelo GPT-3.5-Turbo estándar y su versión fine-tuneada
para la frase “futuro hospital él ir”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189

28. Contribución de cada palabra según los valores de influencia (LIME) en las interpre-
taciones generadas por el modelo GPT-3.5-Turbo estándar y su versión fine-tuneada
para la frase “pasado yo ir no”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190

xix


29. Distancias de Levenshtein promedio calculadas a partir de las interpretaciones gene-
radas por el modelo GPT-3.5-Turbo (estándar) y el modelo fine-tuneado, utilizando
diversos prompts. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192

30. Puntuación promedio otorgada por usuarios finales a las interpretaciones generadas
por el modelo GPT-3.5-Turbo estándar y su versión fine-tuneada para la frase “ayer
cine tu ir pregunta”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194

31. Puntuación promedio otorgada por usuarios finales a las interpretaciones generadas
por el modelo GPT-3.5-Turbo estándar y su versión fine-tuneada para la frase “pasado
yo medicina comprar para mamá”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194

32. Puntuación promedio otorgada por usuarios finales a las interpretaciones generadas
por el modelo GPT-3.5-Turbo estándar y su versión fine-tuneada para la frase “ayer
abuelo llamar tu pregunta”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194

33. Puntuación promedio otorgada por usuarios finales a las interpretaciones generadas
por el modelo GPT-3.5-Turbo estándar y su versión fine-tuneada para la frase “antes
tienda tu amiga ver pregunta”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195

34. Puntuación promedio otorgada por usuarios finales a las interpretaciones generadas
por el modelo GPT-3.5-Turbo estándar y su versión fine-tuneada para la frase “tu
opinión cuál pregunta”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195

35. Puntuación promedio otorgada por usuarios finales a las interpretaciones generadas
por el modelo GPT-3.5-Turbo fine-tuneado, utilizando diferentes prompts, para la
frase “hospital yo necesitar ir ahora ojalá mucho carro no porque emergencia”. . . . 196

36. Valores promedio de BLEU en experimentos preliminares. . . . . . . . . . . . . . . . 198
37. Valores BLEU de interpretaciones generadas por el modelo LLaMA con early stopping,

estándar LoRA y fine-tuning supervisado. . . . . . . . . . . . . . . . . . . . . . . . . 198
38. Contribución de cada palabra según los valores de influencia (LIME) en las interpre-

taciones generadas por el modelo LLaMA fine-tuneado (versión 1) para la frase “como
clima hoy”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199

39. Contribución de cada palabra según los valores de influencia (LIME) en las interpre-
taciones generadas por el modelo LLaMA fine-tuneado (versión 1) para la frase “ayer
viernes limpiar casa todo d́ıa”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200

40. Contribución de cada palabra según los valores de influencia (LIME) en las interpre-
taciones generadas por el modelo LLaMA fine-tuneado (versión 1) para la frase “mar
gusta él mar gustar ella no”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201

41. Comentarios otorgados por un intérprete de LENSEGUA ante interpretaciones gene-
radas por el modelo LLaMA fine-tuneado (versión 1) para diversas frases. . . . . . . 202

42. Distancias de Levenshtein promedio calculadas a partir de las interpretaciones gene-
radas por el modelo GPT-3.5-Turbo fine-tuneado y el modelo LLaMA fine-tuneado
(versión 2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204

43. Contribución de cada palabra según los valores de influencia (LIME) en las inter-
pretaciones generadas por el modelo LLaMA fine-tuneado (versión 2) y el modelo
GPT-3.5-Turbo fine-tuneado para la frase “ojalá hoy carro mucho no”. . . . . . . . . 204

44. Contribución de cada palabra según los valores de influencia (LIME) en las inter-
pretaciones generadas por el modelo LLaMA fine-tuneado (versión 2) y el modelo
GPT-3.5-Turbo fine-tuneado para la frase “antes tu polićıa llamar pregunta”. . . . . 205

45. Contribución de cada palabra según los valores de influencia (LIME) en las inter-
pretaciones generadas por el modelo LLaMA fine-tuneado (versión 2) y el modelo
GPT-3.5-Turbo fine-tuneado para la frase “pasado yo ir no”. . . . . . . . . . . . . . 206

xx


Resumen

Señas Chapinas: Traductor de LENSEGUA es un proyecto enfocado en el desarrollo de una apli-
cación móvil diseñada para interpretar la Lengua de Señas de Guatemala (LENSEGUA) y traducirla
a español gramaticalmente correcto, facilitando la comunicación entre personas sordas y oyentes. La
solución se basa en una arquitectura modular compuesta por tecnoloǵıas avanzadas que trabajan de
forma integrada para garantizar robustez, eficiencia y accesibilidad.

El módulo de visión por computadora procesa grabaciones para identificar y reconocer las señas
realizadas por los usuarios. A partir de esta información, modelos de procesamiento de lenguaje
natural transforman las señas detectadas en oraciones completas y coherentes, adaptándose tanto
a contextos cotidianos como a situaciones de emergencia. La infraestructura de red y el backend
funcionan como el núcleo técnico que conecta todos los componentes, asegurando estabilidad, esca-
labilidad y seguridad. Finalmente, el diseño centrado en la experiencia del usuario proporciona una
interfaz intuitiva y accesible, adaptada a las necesidades espećıficas de la comunidad sorda.

La colaboración activa con la comunidad sorda guatemalteca fue esencial en todas las etapas
del proyecto, desde la definición de requerimientos hasta la validación final. Este enfoque participa-
tivo no solo asegura que Señas Chapinas sea una herramienta funcional, sino también un recurso
profundamente conectado con las necesidades prácticas y culturales de sus usuarios.

xxii


CAṔITULO 1

Introducción

En Guatemala, aproximadamente 300,000 personas enfrentan algún grado de discapacidad audi-
tiva [126]. En un esfuerzo por reducir la brecha lingǘıstica existente entre la comunidad sorda y la
oyente, en el 2020, el Congreso de la República de Guatemala promulgó el Decreto 3-2020. Esta le-
gislación reconoce oficialmente a la lengua de señas de Guatemala (LENSEGUA) como un medio de
comunicación compuesto por movimientos corporales y una gramática propia de las personas sordas
[28]. A pesar de este importante avance legislativo, su impacto hasta el momento ha sido limitado,
lo que subraya la urgencia de implementar soluciones innovadoras para mejorar la comunicación y
la inclusión de las personas sordas en la sociedad guatemalteca.

En este contexto, a través de este megaproyecto se busca crear un sistema de reconocimiento e in-
terpretación de LENSEGUA. Para esto, se plantea el desarrollo de una aplicación móvil para Android
que le permita a los usuarios grabar videos de personas utilizando la lengua de señas guatemalteca.
Una vez grabados, se analizará automáticamente los videos para reconocer y, posteriormente, inter-
pretar las señas al idioma español. Con un enfoque en vocabulario clave para situaciones cotidianas
y de emergencia, esta herramienta busca facilitar las interacciones diarias y contribuir a mejorar la
calidad de vida de la comunidad sorda en Guatemala.

La solución combina un diseño intuitivo y culturalmente relevante con tecnoloǵıa avanzada que
garantiza eficiencia, seguridad y procesamiento confiable de los datos. Este enfoque garantiza una
experiencia de usuario accesible y funcional, preparada para responder a las necesidades cambiantes
de sus usuarios. Mediante una colaboración activa y constante con la comunidad sorda, Señas Chapi-
nas: Traductor de LENSEGUA aspira a ser más que una herramienta tecnológica; busca convertirse
en un puente hacia la inclusión y el entendimiento, promoviendo una sociedad más equitativa y
accesible.

1


CAṔITULO 2

Justificación

La comunicación es un derecho fundamental y un elemento clave para la interacción humana,
siendo indispensable en áreas como la educación, el trabajo y la participación activa en la sociedad
[87]. En Guatemala, la Asociación de Sordos de Guatemala (ASEGUA) recomienda que, para ga-
rantizar una inclusión adecuada de las 250,000 personas que utilizan LENSEGUA como su principal
herramienta de comunicación, debeŕıan existir al menos 10 personas oyentes capacitadas en lengua
de señas por cada una de ellas [31]. No obstante, el páıs está lejos de alcanzar este estándar: so-
lo 11,500 personas han participado en cursos básicos de lengua de señas, y únicamente existen 95
intérpretes certificados en todo el territorio nacional [79].

Esta situación, según la “Encuesta Sociolingǘıstica de la Comunidad Sorda en Guatemala”,
marginaliza a la población sorda y la limita a relacionarse exclusivamente con otras personas sordas
o con hijos de adultos sordos (HDAS). La escasez de personas oyentes capacitadas en LENSEGUA
y de intérpretes certificados crea barreras significativas para la comunicación y la participación de
personas sordas en la sociedad guatemalteca [99]. Ante esta realidad, surge la idea del proyecto Señas
Chapinas: Traductor de LENSEGUA.

Aprovechando la amplia adopción de teléfonos inteligentes en Guatemala [119], donde la mayoŕıa
de estos dispositivos operan con el sistema Android [119], este proyecto busca desarrollar una aplica-
ción móvil que actúe como un puente de comunicación eficiente y accesible. La aplicación pretende
fortalecer la autonomı́a de las personas sordas en diversas situaciones cotidianas y de emergencia,
promoviendo al mismo tiempo el uso de LENSEGUA. Además, se sustenta en un marco legal favo-
rable, como el Decreto del Congreso de la República de Guatemala Número 3-2020, que reconoce a
la Lengua de Señas de Guatemala como un medio de comunicación oficial [29].

Además, a través de Señas Chapinas se busca fomentar la inclusión laboral, facilitar el acceso
a servicios esenciales y promover las interacciones sociales, contribuyendo al enriquecimiento de la
comunidad guatemalteca. Es por ello que este proyecto representa un avance significativo hacia la
construcción de una sociedad que valora la diversidad y garantiza igualdad de oportunidades para
todos, utilizando tecnoloǵıa móvil para superar las barreras de comunicación de manera eficiente y
efectiva.

3


CAṔITULO 3

Objetivos

3.1. Objetivo general

Diseñar y desarrollar Señas Chapinas, una aplicación para dispositivos Android que sea capaz de
traducir la lengua de señas guatemalteca (LENSEGUA) a texto gramaticalmente correcto en español,
haciendo uso de modelos avanzados de visión por computadora y procesamiento de lenguaje natural,
junto con una infraestructura de red segura y eficiente.

3.2. Objetivos espećıficos

Desarrollar un sistema de visión por computadora destinado al reconocimiento de la lengua de
señas de Guatemala. Para ello, se creará un conjunto de datos que incluya al menos veinticinco
palabras de esta lengua, seleccionando aquellas que permitan formar una amplia variedad de
frases de uso cotidiano.

Adaptar un large language model, espećıficamente GPT-3.5-Turbo, para que asimile la gramáti-
ca de LENSEGUA, permitiéndole interpretar oraciones que utilicen dicha gramática y las
escriba correctamente en español.

Desarrollar una herramienta basada en LLaMA que sea capaz de comprender la gramática de
LENSEGUA y generar interpretaciones coherentes en español a partir de oraciones estructu-
radas en dicha gramática.

Configurar un servidor seguro y eficiente que optimice el uso de recursos para administrar
modelos de inteligencia artificial, procesar videos, y ofrecer un ambiente accesible para pruebas
y despliegues mediante APIs.

Realizar una investigación de mercado y entrevistas para comprender necesidades, diseñar
flujos e interfaces intuitivas, y desarrollar la aplicación Señas Chapinas integrando servicios
externos para la traducción de LENSEGUA.

5


CAṔITULO 4

Marco teórico

4.1. Discapacidad auditiva

La discapacidad auditiva es una condición que limita la capacidad de una persona para escuchar.
Esta puede manifestarse en distintos niveles de intensidad, desde una pérdida leve de audición hasta
la sordera total. Además, esta condición puede tener diversas causas, como factores genéticos o
exposición prolongada a ruidos fuertes [132]. Es importante destacar que, independientemente de su
origen o grado, la discapacidad auditiva puede representar un desaf́ıo significativo en la vida diaria
de quienes la experimentan, afectando su comunicación, educación e integración social [133].

4.1.1. Causas de la sordera

La Federación Mundial de Sordos (WFD) reporta que en todo el mundo hay 70 millones de
personas sordas, de las cuales 34 millones son niños. Además, se estima que alrededor de 3 de cada
1,000 bebés nacen con sordera [133]. En este contexto, es importante destacar que la sordera en los
niños puede manifestarse durante el peŕıodo prenatal debido a diversos factores. Por ejemplo, hay
mutaciones genéticas (hereditarias y no hereditarias) que pueden aumentar la probabilidad de sordera
congénita. Asimismo, existen infecciones intrauterinas, como la rubéola o el herpes, que también
pueden desencadenar la sordera en el feto. Otra causa común es la exposición a medicamentos por
parte de la madre que pueden provocar diversas malformaciones [88].

La prematuridad de un bebé es también un factor que puede influir significativamente en el
desarrollo de problemas auditivos. Concretamente, los bebés prematuros tienen un mayor riesgo de
desarrollar sordera debido a la posibilidad de que sus óıdos no hayan alcanzado su completo desarrollo
al momento del nacimiento. Además, los bebés prematuros comúnmente experimentan enfermedades
que aumentan la probabilidad de desarrollar sordera, como la hiperbilirrubinemia (ictericia grave).
Por otro lado, durante el parto pueden surgir complicaciones que resultan en asfixia perinatal, evento
que puede ocasionar daños al sistema auditivo y nervioso del recién nacido [88].

Cabe destacar que la sordera no solo aparece durante el periodo prenatal o perinatal, sino que
también puede manifestarse en cualquier etapa de la vida, incluyendo la infancia, la adolescencia y
la edad adulta. En niños y jóvenes, infecciones recurrentes del óıdo (otitis media crónica) pueden
provocar pérdida de audición si no se tratan adecuadamente. A su vez, la meningitis es una infección

7


que también puede ocasionar daños en el nervio auditivo y, consecuentemente, resultar en pérdida
auditiva. Finalmente, la exposición continua a ruidos fuertes puede dañar gradualmente la audición
a lo largo del tiempo. Esto es especialmente relevante en los jóvenes y adultos que utilizan con más
frecuencia aud́ıfonos a un volumen alto [133].

4.1.2. Clasificación de la sordera

Una persona sorda, según la Organización Mundial de la Salud (OMS), es aquella cuya capacidad
auditiva no supera los 20 decibelios (dB) en ambas orejas [133]. Sin embargo, es importante tener en
cuenta que la sordera puede manifestarse en diferentes grados, los cuales dependen de la gravedad
de la pérdida auditiva y de la ubicación espećıfica del problema en el óıdo.

En términos de grado de pérdida auditiva, la sordera se puede clasificar en leve, moderada,
grave y profunda. La pérdida auditiva leve se refiere a una persona que puede escuchar algunos
sonidos relacionados con el habla, pero no puede escuchar susurros. A una persona con pérdida
auditiva moderada le cuesta entender el habla a un volumen normal. Por otro lado, una persona
con pérdida auditiva grave no escucha ningún sonido a volumen normal, solo puede óır sonidos
fuertes. Por último, una persona con pérdida auditiva profunda (o con sordera total) no escucha
nada, exceptuando algunos sonidos extremadamente fuertes [74].

Al considerar la ubicación de la pérdida auditiva, esta puede clasificarse en tres tipos principales:
conductiva, neurosensorial o mixta. La pérdida auditiva conductiva ocurre cuando hay un bloqueo
que impide el paso del sonido del óıdo externo al medio. En cambio, la pérdida auditiva neurosensorial
ocurre cuando hay daño en el óıdo interno o en el nervio auditivo. Esto resulta en que los sonidos
no puedan ser procesados y posteriormente transmitidos al cerebro de forma correcta. Finalmente,
la pérdida auditiva mixta, como su nombre sugiere, involucra una combinación de factores tanto
conductivos como neurosensoriales. Esto puede ser el resultado de múltiples condiciones que afectan
tanto el óıdo externo como el interno [74].

4.1.3. Impacto de la discapacidad auditiva en las personas

Actualmente se reporta que el 80% de personas sordas residen en páıses de bajos ingresos,
como Guatemala. En estos páıses, las condiciones precarias dificultan el acceso a servicios de salud
auditiva adecuados, aśı como a tecnoloǵıas de asistencia y educación especializada. Como resultado,
es frecuente encontrar niños, jóvenes e incluso adultos con pérdida de audición no solo no tratada,
sino también no diagnosticada [133].

La sordera no tratada, según Dave Cutten, puede obstaculizar el desarrollo lingǘıstico y comuni-
cativo de los niños, lo que incluye impedimentos en el desarrollo del vocabulario y dificultades para
comprender y utilizar el lenguaje de manera efectiva [33]. Es fundamental destacar que los niños con
sordera identificada suelen aprender a comunicarse a través de la lengua de señas, lo que mitiga en
gran medida estos problemas. Sin embargo, independientemente de si los niños con sordera aprenden
lengua de señas o no, existe una brecha lingǘıstica entre la comunidad sorda y la oyente que tiene
implicaciones psicológicas significativas. Por ejemplo, las personas sordas tienden a sentirse exclui-
das, solas, frustradas, enojadas y avergonzadas debido a que no pueden socializar fácilmente con
sus familiares, compañeros y miembros de sus comunidades. Además, esta situación puede afectar
negativamente el bienestar emocional de las personas sordas, generando sentimientos de ansiedad,
depresión y baja autoestima [23].

En el caso de los adolescentes y adultos, la discapacidad auditiva puede provocar efectos psi-
cológicos y emocionales similares a los descritos anteriormente. Además, esta condición puede influir
negativamente en las oportunidades educativas y laborales de las personas, lo que a su vez puede
conducir a una mayor exclusión y discriminación en la sociedad [21]. Por ejemplo, en Guatemala, de

8


las 10 escuelas para personas sordas, ninguna ofrece educación secundaria. Esto, a su vez, ocasiona
una brecha educativa significativa para los adolescentes sordos, limitando aśı su futuro académico y
profesional [99].

4.1.4. Barreras y desaf́ıos enfrentados por la comunidad sorda en Guate-
mala

En 2007, Elizabeth Parks y Jason Parks realizaron un estudio con el objetivo de analizar la
situación sociolingǘıstica de la comunidad sorda en Guatemala. A través de entrevistas y encues-
tas, identificaron que menos del 50% de los sordos guatemaltecos reciben educación especializada.
Además, observaron un bajo nivel de alfabetización, aśı como un pobre dominio del español entre
este grupo. Según los autores, esta situación se atribuye a la presencia limitada de solo diez escuelas
para los veintidós departamentos del páıs. De estas diez, tres son instituciones privadas, lo que las
vuelve inaccesibles para muchas familias debido a limitaciones monetarias [99].

En cuanto a educación superior, según Edith Paz, únicamente dos universidades en Guatemala
ofrecen servicios de intérpretes para estudiantes sordos, aunque estos servicios están limitados exclu-
sivamente a los departamentos de computación. Es importante destacar que, si bien los estudiantes
tienen la opción de contratar intérpretes privados, esta posibilidad está restringida a aquellos prove-
nientes de familias de altos recursos. Debido a esto, muchas personas sordas encuentran dificultades
para acceder a empleos con un salario digno. Por ejemplo, el salario promedio mensual para un
guatemalteco es de Q2,000, sin embargo, las personas sordas suelen ganar –en promedio– menos de
Q600 mensuales [99].

4.2. Lengua de señas

La lengua de señas es un sistema de comunicación utilizado por personas sordas y con disca-
pacidad auditiva. Este utiliza gestos, movimientos de las manos, expresiones faciales y posturas
corporales para transmitir ideas y emociones [89]. Es importante mencionar que, al igual que los
idiomas hablados, las lenguas de señas vaŕıan considerablemente entre páıses, existiendo más de 300
variaciones en todo el mundo [131].

4.2.1. Historia de la lengua de señas

La lengua de señas se desarrolló de manera independiente por la comunidad sorda para satisfacer
sus necesidades comunicativas. Históricamente estigmatizada y mal entendida, era considerada un
lenguaje de gestos simple hasta que investigaciones realizadas en 1960 por William Stokoe revelaron
su capacidad para expresar ideas complejas y estructuradas [108].

En el siglo XVIII, el Abad Charles-Michel de L’Epée fundó la primera escuela pública para sordos,
marcando un cambio trascendental en la educación de esta comunidad, utilizando la lengua de señas
como principal medio de enseñanza. Este avance no solo facilitó la comunicación y el aprendizaje, sino
que también permitió que los sordos desempeñaran roles activos como educadores. La metodoloǵıa
de L’Epée se expandió internacionalmente, influyendo en la creación de escuelas y en el desarrollo
de nuevas lenguas de señas [108].

Durante los siglos XIX y XX, las lenguas de señas ganaron reconocimiento como sistemas lingǘısti-
cos completos y estructurados, capaces de expresar una gama completa de ideas y emociones. En
el siglo XX, el reconocimiento de los derechos lingǘısticos de las comunidades sordas se amplió sig-
nificativamente, afirmando la importancia de las lenguas de señas como herramientas educativas y

9


culturales esenciales [108].

A ráız de la necesidad de comunicación en las comunidades sordas, cada páıs ha desarrollado su
propia lengua de señas, integrando a menudo estructuras de lenguas de señas extranjeras, como el
American Sign Language (ASL), aśı como señas locales únicas. Esto ha dado lugar a que cada páıs, e
incluso regiones dentro de los mismos, tengan su propia lengua de señas con estructuras gramaticales
y léxicos distintos [110].

4.2.2. Lengua de señas en la actualidad

En la actualidad, la lengua de señas se está adaptando a un entorno globalizado y tecnológica-
mente avanzado, donde las necesidades comunicativas evolucionan constantemente. Estos cambios
han impulsado la creación de legislaciones, poĺıticas, formación de asociaciones y el desarrollo de
nuevas tecnoloǵıas destinadas a minimizar las barreras comunicativas. Un ejemplo significativo es
la iniciativa de las Naciones Unidas al proclamar el 23 de septiembre como Dı́a Internacional de las
Lenguas de Señas, enfatizando la importancia de estas lenguas [97].

Sin embargo, a pesar de estos avances, persisten desaf́ıos significativos. La falta de estandarización
de las lenguas de señas a nivel global requiere que las personas aprendan la lengua de señas espećıfica
de cada comunidad, lo cual impide la existencia de una forma de comunicación internacional uniforme
[110].

Además, la lengua de señas, a menudo catalogada como una lengua minoritaria, es aprendida
solamente por una pequeña fracción de la población sin discapacidades auditivas. Esta limitada
difusión crea una brecha de comunicación significativa, contribuyendo a la marginación de la comu-
nidad sorda y limitando su participación plena en actividades sociales y económicas. Esto subraya
la necesidad de una mayor educación y sensibilización sobre la lengua de señas para promover una
verdadera inclusión [83].

4.3. Lengua de Señas de Guatemala (LENSEGUA)

4.3.1. Historia

El primer registro de la utilización de la lengua de señas en Guatemala se remonta a la escuela
Fray Pedro Ponce de León, establecida en la Ciudad de Guatemala en 1946 para la educación de
niños y niñas sordas. Sin embargo, según Edith Paz, esta institución teńıa una filosof́ıa oralista que
prohib́ıa el uso de señas y gestos para la comunicación. A pesar de estas restricciones, los estudiantes
desarrollaron, durante el transcurso de 20 años, un sistema de señas para comunicarse entre ellos
tanto dentro de las aulas como en público. Esta lengua de señas (también conocida como GSM) fue
evolucionando con el paso del tiempo, incorporando influencias de “Señas Caseras”1 provenientes de
distintos departamentos del páıs y de sistemas similares utilizados en España, Cuba, Costa Rica, El
Salvador y Estados Unidos [99][17] .

A finales del siglo XX, se inauguraron otras diez escuelas para los jóvenes con discapacidad
auditiva. A diferencia de la Escuela Fray Pedro Ponce de León, todas estas fomentaban el uso de la
lengua de señas. Entre ellas, dos enseñaban American Sign Language (ASL), mientras que las otras
una variación de la lengua de señas formalizada a finales de la década de los sesenta (GSM) [99].

En el 2001, el Comité Pro Ciegos y Sordos de Guatemala, una institución privada no lucrativa

1Se conoce como “Señas Caseras” al sistema de comunicación que utilizan los niños sordos, que no han sido
expuestos a la lengua de señas, con padres oyentes para poder comunicarse y desenvolverse en el ámbito familiar [42].

10


pionera en la educación y rehabilitación de personas con discapacidad auditiva, en conjunto con otros
colaboradores, publicó el primer manual oficial de la Lengua de Señas de Guatemala (LENSEGUA).
Este manual representó un avance crucial en la estandarización y enseñanza de la lengua de señas,
proporcionando un recurso esencial para los estudiantes, profesionales y la comunidad en general
interesada en aprender este método de comunicación [76]. Sin embargo, cabe destacar que este
manual no tomó relevancia hasta el 2021, cuando el Congreso de la República de Guatemala aprobó
la ‘Ley que Reconoce y Aprueba la Lengua de Señas de Guatemala’ (Decreto Número 135-96). Esta
ley, como indica su nombre, reconoce a LENSEGUA como un medio de comunicación compuesto por
un conjunto de movimientos corporales y una gramática propia de las personas sordas. Asimismo,
establece que el Ministerio de Educación debe promover la introducción de LENSEGUA al sistema
educativo nacional [28].

El Decreto estableció que todas las instituciones públicas y privadas deben garantizar la inclusión
de LENSEGUA como parte de su comunicación y servicios. Además, se promueve la educación
bilingüe (español y LENSEGUA) en las escuelas que atienden a estudiantes sordos, asegurando aśı
su derecho a una educación equitativa y accesible [56].

Este reconocimiento no solo valida a LENSEGUA como una lengua completa y estructurada,
sino que también impulsa la creación de poĺıticas y programas destinados a mejorar la accesibilidad
en todos los aspectos de la vida pública para la comunidad sorda, desde la educación hasta el acceso
a los servicios de salud y legales. El Decreto promueve la inclusión y asegura que las personas con
discapacidad auditiva tengan acceso a la educación y la información en lengua de señas, libre de
cualquier discriminación [56].

4.3.2. Variaciones regionales

Aunque LENSEGUA es reconocida como la forma predominante de comunicación para la co-
munidad sorda en Guatemala, existen variaciones regionales que reflejan la diversidad cultural y
lingǘıstica dentro del páıs. Estas diferencias incluyen, pero no se limitan a, cambios sutiles en el
vocabulario y los gestos utilizados. Por ejemplo, según Edith Paz, mientras que la Ciudad de Guate-
mala, Cobán y Quetzaltenango muestran similitudes significativas, San Marcos presenta un sistema
ligeramente diferente, el cual se inspira aún más en el ASL [99].

4.3.3. Gramática y estructura

La gramática y estructura de LENSEGUA reflejan una vasta complejidad lingǘıstica que permite
a los usuarios expresar una amplia gama de conceptos y emociones. Este sistema de comunicación
es completo con su propia sintaxis, léxico y reglas gramaticales. Aqúı se describen algunas de las
caracteŕısticas distintivas de LENSEGUA [42] [43] [44]:

Morfoloǵıa: La morfoloǵıa en LENSEGUA utiliza modificadores manuales y no manuales
para alterar el significado de los signos básicos, incluyendo modificaciones para indicar número,
tiempo, aspecto, y otros atributos gramaticales.

• El signo para “comer”podŕıa modificarse para expresar “comer mucho”mediante la repe-
tición del signo o cambios en la expresión facial.

Ausencia de género y art́ıculos: Como en muchas lenguas de señas, LENSEGUA no utiliza
género gramatical ni art́ıculos.

• Español: “la casa”, “el perro”.

• LENSEGUA signa “casa” y “perro” sin modificadores adicionales.

11


No uso de preposiciones: LENSEGUA omite preposiciones, que en español son cruciales
para las relaciones espaciales o temporales. La relación se establece a través del contexto y la
configuración de los signos.

• Español: “en la casa”.

• LENSEGUA: se usa gesto para indicar la ubicación relativa y el signo de casa.

Omisión de signos de puntuación y Mayúsculas: LENSEGUA no utiliza signos de pun-
tuación ni mayúsculas. La escritura refleja una secuencia continua de signos, que se diferencia
notablemente de la estructura del español.

• LENSEGUA: “Disculpar mi hija no llega colegio porque muy enferma tiene tos casa tomar
medicinas”.

Verbos no conjugados: En LENSEGUA, los verbos no se conjugan. El tiempo y el aspecto
se indican con signos espećıficos al principio de la frase o a través de la expresión facial.

• Español: “Yo estoy comiendo”.

• LENSEGUA: se signa “yo comer”.

Orden gramatical: El orden gramatical t́ıpico en LENSEGUA es Tiempo, Lugar, Sujeto,
Objeto, Verbo (TLSOV), diferente al orden Sujeto, Verbo, Objeto (SVO) del español. Este
orden facilita que el contexto temporal y espacial quede establecido claramente al inicio.

• Español: “Yo ayer jugué futbol”.

• LENSEGUA: se signa “ayer yo fútbol jugar”.

4.3.4. Aprendizaje y recursos

LENSEGUA se puede aprender en varias instituciones y a través de recursos en ĺınea que buscan
facilitar el acceso y la difusión de esta lengua. Entre las principales entidades que ofrecen cursos y
formación en LENSEGUA están [5]:

ASEDES (Asociación Educativa para el Sordo)

ASORGUA (Asociación de Sordos de Guatemala)

Benemérito Comité Prociegos y Sordos de Guatemala

En-Señas Guatemala

CESGUA (Coordinación de Educación y Servicios en Guatemala)

INTERGUA (Coordinación de intérpretes de lengua de señas de Guatemala)

ANDYSISC (Servicios de interpretación profesional de Lengua de Señas)

FUNDAL

ONG Sordos Latinos Guatemala

Estas organizaciones no solo proporcionan educación en LENSEGUA, sino que facilitan una serie
de conferencias y talleres impartidos por especialistas para personas con discapacidad auditiva [5].

12


4.4. Fundamentos de visión por computadora

4.4.1. Procesamiento de imágenes

La visión por computadora es un campo de la inteligencia artificial que permite a las compu-
tadoras interpretar y comprender el contenido de las imágenes y videos. Este campo se basa en la
adquisición, procesamiento y análisis de imágenes digitales para extraer información significativa.
Los objetivos de la visión por computadora incluyen la automatización de tareas que requieren pro-
cesamiento visual, como el reconocimiento de objetos, la detección de patrones y el seguimiento de
movimientos [48].

4.4.2. Técnicas básicas

Los principios básicos de la visión por computadora incluyen técnicas de procesamiento de imáge-
nes, como la mejora de imágenes, la segmentación de imágenes y la extracción de caracteŕısticas. La
mejora de imágenes puede incluir el ajuste de contraste y eliminación de ruido. La segmentación de
imágenes se enfoca en la división de una imagen en partes significativas, con el objetivo de descartar
información que no sea útil. Por último, la extracción de caracteŕısticas se enfoca en la identificación
de elementos clave dentro de una imagen, como bordes o puntos de interés. Estas técnicas son funda-
mentales para el desarrollo de aplicaciones que requieren una comprensión detallada de las imágenes
[7].

4.4.3. Herramientas

En el ámbito de la visión por computadora, existen varias herramientas y bibliotecas de software
que facilitan la implementación de técnicas de procesamiento de imágenes y análisis visual. Entre
las más utilizadas se encuentran OpenCV y MediaPipe.

Open Source Computer Vision Library (OpenCV) es una biblioteca de software libre de visión
artificial y aprendizaje automático. Esta proporciona más de 2500 algoritmos optimizados para
realizar una amplia gama de tareas, como la detección y reconocimiento de rostros, la identificación
de objetos, la clasificación de acciones en videos, el seguimiento de movimientos y la reconstrucción
de estructuras 3D [94].

Desarrollado por Google, MediaPipe es un marco multiplataforma para la construcción de aplica-
ciones multimedia. MediaPipe proporciona soluciones de vanguardia para la detección y seguimiento
de manos, detección de rostros, entre otras. Es particularmente útil para aplicaciones que requieren
el seguimiento en tiempo real y la interacción basada en gestos [54].

Algo que estas dos herramientas tienen en común es el lenguaje de programación que se utiliza,
ya que ambas son libreŕıas de Python. Python es un lenguaje de programación ampliamente utilizado
en visión por computadora, especialmente cuando se combina con bibliotecas como OpenCV y
MediaPipe. Estas herramientas permiten a los desarrolladores implementar aplicaciones avanzadas
de visión por computadora de manera eficiente y con buenos resultados. La principal ventaja de
utilizar estas libreŕıas es que no se necesita entrenar los modelos de visión por computadora desde
cero, ya que en muchos casos se puede utilizar uno de los modelos que forman parte de estas libreŕıas
[10].

13


4.5. Aplicaciones de visión por computadora

4.5.1. Medicina

La visión por computadora tiene una amplia gama de aplicaciones en diversos campos. En la
medicina, se utiliza para el diagnóstico asistido por computadora, ayudando a los médicos a detectar
enfermedades a partir de imágenes médicas como radiograf́ıas y resonancias magnéticas. Adicional-
mente, puede ayudar a que los diagnósticos sean más certeros, ya que la tecnoloǵıa puede servir
como una segunda opinión del diagnóstico [51].

4.5.2. Industria automotriz

En el sector automotriz, la visión por computadora es fundamental para el desarrollo de veh́ıculos
autónomos y sistemas avanzados de asistencia al conductor. Estos sistemas dependen de la capacidad
de los veh́ıculos para identificar y responder a señales de tráfico, peatones y otros obstáculos en la
carretera.

4.5.3. Seguridad y vigilancia

En el ámbito de la seguridad y vigilancia, la visión por computadora se utiliza para la detec-
ción de intrusos, el reconocimiento facial y la identificación de comportamientos sospechosos. Estas
tecnoloǵıas son fundamentales para la prevención de cŕımenes y la protección de la seguridad pública.

4.5.4. Manufactura

En el ámbito industrial, la visión por computadora se emplea para el control de calidad y la
inspección automatizada de productos. Esto puede simplificar de manera drástica los procesos de
manufactura, y reduce dramáticamente el tiempo requerido en procesos de control de calidad de los
productos.

4.6. Redes neuronales

4.6.1. Fundamentos

Las redes neuronales son un componente esencial de la inteligencia artificial. El funcionamiento
de estas se inspira en el funcionamiento del cerebro humano, con una gran cantidad de neuronas.
Estas redes están compuestas por capas de nodos, que son como neuronas artificiales, que procesan
la información a través de conexiones ponderadas [52].

4.6.2. Tipos de redes neuronales

Existen varios tipos de redes neuronales, cada una adecuada para diferentes tareas. Las redes
neuronales feedforward (FNN) son las más simples, donde la información se propaga en una sola
dirección, de la entrada a la salida. Las redes neuronales convolucionales (CNN) son especialmente
efectivas para el procesamiento de imágenes debido a su capacidad para reconocer patrones espaciales

14


jerárquicos. Por último, las redes neuronales recurrentes (RNN) son adecuadas para el procesamiento
de datos secuenciales, como el reconocimiento de voz o la traducción automática [64].

4.6.3. Aplicaciones en visión por computadora

Las aplicaciones de redes neuronales en visión por computadora incluyen la clasificación de imáge-
nes, donde las CNN pueden identificar y categorizar objetos dentro de una imagen, y la detección
de objetos, donde se localizan y etiquetan múltiples objetos dentro de una escena. Estas tecnoloǵıas
son fundamentales para el desarrollo de sistemas avanzados de reconocimiento de señas, como el pro-
yecto ”Señas Chapinas: Traductor de LENSEGUA”, que utiliza redes neuronales para interpretar el
lenguaje de señas guatemalteco en tiempo real.

4.7. Evaluación de modelos de visión por computadora

4.7.1. Matriz de confusión

La matriz de confusión es una herramienta que permite visualizar el rendimiento de un modelo de
clasificación. Se organiza en una tabla que muestra las predicciones del modelo en comparación con
las verdaderas etiquetas de los datos. Esta matriz se compone de cuatro componentes principales:

Verdaderos Positivos (TP): Casos correctamente clasificados como positivos.

Falsos Positivos (FP): Casos incorrectamente clasificados como positivos.

Verdaderos Negativos (TN): Casos correctamente clasificados como negativos.

Falsos Negativos (FN): Casos incorrectamente clasificados como negativos.

La matriz de confusión es una herramienta útil para evaluar el rendimiento de un modelo de
clasificación, ya que proporciona información detallada sobre los errores del modelo [65]. Adicio-
nalmente, la matriz de confusión se puede utilizar para calcular otras métricas de rendimiento del
modelo, como la sensibilidad y la puntuación F1.

4.7.2. Sensibilidad

La sensibilidad, también conocida como recall, es una métrica que mide la proporción de casos
positivos que fueron correctamente identificados por el modelo. Un alto valor de sensibilidad indica
que el modelo tiene una buena capacidad para detectar la clase positiva, lo cual es especialmente
importante en aplicaciones donde se desea minimizar los falsos negativos [69]. Se calcula utilizando
la siguiente fórmula:

Sensibilidad =
TP

TP + FN
(4.1)

Donde TP son los verdaderos positivos y FN son los falsos negativos.

15


4.7.3. Puntuación F1

La puntuación F1, más comúnmente conocida como F1-score, es una métrica que combina la
precisión y la sensibilidad en un solo valor. Se utiliza para evaluar el equilibrio entre la capaci-
dad del modelo para identificar casos positivos (sensibilidad) y la exactitud de esas identificaciones
(precisión). Se calcula de la siguiente manera:

F1-score = 2→ Precisión→ Sensibilidad

Precisión + Sensibilidad
(4.2)

Donde la precisión se calcula como:

Precisión =
TP

TP + FP
(4.3)

Donde TP son los verdaderos positivos y FP son los falsos positivos.

La puntuación F1 es especialmente útil en situaciones donde hay un desbalance en las clases,
ya que proporciona una medida más completa del rendimiento del modelo que la precisión o la
sensibilidad por separado [73]. Esta métrica es ampliamente utilizada en la evaluación de modelos
de clasificación.

4.8. Natural Language Processing (NLP)

El natural language processing (NLP), o procesamiento de lenguaje natural, es un campo de
la inteligencia artificial que se enfoca en la comprensión y manipulación del lenguaje humano. Este
campo no se limita a un solo modelo, sino que abarca una variedad de técnicas y algoritmos diseñados
para interpretar y generar texto de manera efectiva [13]. Estos modelos se pueden utilizar en diver-
sos contextos, desde análisis de sentimientos hasta traducciones automáticas, lo que demuestra su
versatilidad y aplicación práctica en diferentes áreas de la tecnoloǵıa y la comunicación [34].

4.8.1. Técnicas y fundamentos

En NLP, el preprocesamiento del texto es una etapa en la cual se preparan y limpian los datos
antes de aplicar técnicas de análisis más avanzadas. Este proceso incluye varias etapas, como la
tokenización. Esto consiste en dividir el texto en unidades más pequeñas, como palabras, con el fin
de facilitar su posterior análisis. Además, el preprocesamiento también suele involucrar el stemming,
que consiste en reducir las palabras a su forma base o ráız. Esto ayuda a normalizar el texto y a
eliminar las variaciones morfológicas. Por último, se suele llevar a cabo la eliminación de stopwords,
que son palabras comunes, pero que no aportan un significado contextual importante al texto,
como ’el’, ’la’, ’de’ y ’en’. En algunos casos, cabe destacar que puede ser necesario realizar un
preprocesamiento más exhaustivo. Por ejemplo, dependiendo de las necesidades, se puede considerar
el manejo de sinónimos para reducir el vocabulario de un texto [34].

Posterior al preprocesamiento, se puede aplicar text feature extraction. Este término engloba
diferentes métodos, como bag of words y N-grams. Sin embargo, todos tienen como objetivo crear
estructuras de datos que permiten representar de manera adecuada la información contenida en el
texto. Por ejemplo, bag of words genera un listado de palabras que constituyen el vocabulario de un
texto, acompañado de la frecuencia con la que cada palabra aparece. Esta información puede ser útil
para identificar la importancia relativa de las palabras en un documento. N-grams, por otro lado, es

16


una técnica en la cual se generan secuencias de palabras de longitud N. Estas secuencias se pueden
utilizar para identificar las relaciones y estructuras entre las palabras en un texto [34].

Una vez realizado el preprocesamiento del texto y creado las estructuras de datos adecuadas, se
puede introducir dicha información en un modelo (o arquitectura) para llevar a cabo una variedad
de tareas. Estas pueden incluir el análisis de sentimientos y la generación de texto. El análisis de
sentimientos busca comprender las emociones expresadas en el texto, determinando si son positivas,
negativas o neutras. Por otro lado, la generación de texto implica crear contenido de manera au-
tomática, ya sea completando frases, resumiendo art́ıculos o incluso generando respuestas a preguntas
del usuario [37].

4.8.2. Modelos principales

Existe una amplia variedad de modelos diseñados para llevar a cabo las tareas de procesamiento
de lenguaje natural mencionadas anteriormente. La elección entre estos depende de varios factores,
como la complejidad de la tarea, la disponibilidad y calidad de los datos, y los recursos computacio-
nales disponibles.

Aprendizaje automático

Entre uno de los modelos más simples está el clasificador Näıve Bayes. Este es un modelo pro-
babiĺıstico que –como indica su nombre– emplea el teorema de Bayes. En otras palabras, funciona
a través de determinar la probabilidad de que un cierto evento ocurra dado que otro evento ya ha
ocurrido (asumiendo la independencia condicional). Para su funcionamiento correcto, este clasifica-
dor suele recibir el vocabulario y la frecuencia con la que aparecen las respectivas palabras. A partir
de esta información, por ejemplo, se puede determinar la probabilidad de que un texto pertenezca
a una clase espećıfica, como ’positivo’ o ’negativo’, dadas las palabras que contiene. En la detección
de spam, se puede calcular la probabilidad de que un correo electrónico sea spam o no, basándose
en la frecuencia de ciertas palabras o caracteŕısticas en el mensaje [112].

La regresión loǵıstica, similarmente, es otro modelo utilizado en el aprendizaje automático para
problemas de clasificación. A pesar de su nombre, la regresión loǵıstica se utiliza principalmente para
problemas de clasificación binaria, donde el objetivo es predecir la pertenencia a una de dos categoŕıas
distintas. A diferencia del clasificador Näıve Bayes, que se basa en la probabilidad condicional, la
regresión loǵıstica utiliza una función loǵıstica para modelar la relación entre las variables de entrada
y la probabilidad de pertenencia a una clase espećıfica. Esto permite su aplicación en una variedad
de tareas de NLP, donde se busca clasificar el texto en categoŕıas espećıficas [36].

Aprendizaje profundo

Por otro lado, los modelos de aprendizaje automático se caracterizan por la utilización de redes
neuronales. Una red neuronal es un modelo, compuesto por nodos interconectados (o neuronas),
capaz de aprender patrones complejos en datos. Estos modelos, debido a su arquitectura, son capaces
de realizar una mayor cantidad de tareas relacionadas con NLP, como generación de texto, traducción
automática, resumen de documentos, respuesta a preguntas, entre otras [59].

Es importante destacar que para entrenar y utilizar eficazmente estos modelos es necesario reali-
zar una etapa de transformación de los datos mediante el proceso de embedding. El embedding es un
proceso que convierte palabras o frases en vectores numéricos, permitiendo a los modelos de apren-
dizaje automático comprender su significado y relación. Además, se utiliza el padding para igualar
la longitud de las secuencias de entrada, lo que facilita su procesamiento en los modelos [71].

17


Figura 1: Arquitectura de red neuronal recurrente.

Las recurrent neural networks (RNN), o redes neuronales recurrentes, son comúnmente relacio-
nadas con tareas de procesamiento de lenguaje natural. Estas redes trabajan con datos secuenciales,
como series de tiempo o texto, debido a su capacidad para capturar dependencias entre los datos.
Más espećıficamente, como se puede observar en la 1, las capas de estas redes toman como entrada el
dato actual a procesar aśı como la salida de la capa recurrente en el paso anterior. Esto les permite
mantener un registro que se actualiza constantemente, y que –como resultado– les permite capturar
información contextual a lo largo de una secuencia [117]. Por tal motivo, estas redes neuronales
pueden ser sumamente útiles para sistemas de autocompletado de texto, por ejemplo [109].

Una desventaja de los RNNs es que debido a su estructura recurrente pueden tener dificultades
para capturar dependencias a largo plazo. Esto se debe a que la información se propaga a través
de las diferentes capas, y en cada una se realizan transformaciones que pueden ocasionar que la
información relevante se diluya o se pierda. Sin embargo, cabe destacar que existen arquitecturas
RNN con ciertas modificaciones capaces de mitigar –hasta cierto punto– esta problemática, como
las redes long-short term memory (LSTM) [109].

En general, las redes neuronales tradicionales tienen una limitación relacionada con la cantidad de
información que pueden procesar y/o recordar. Sin embargo, existen otros tipos de modelos, como
los los large language models (LLMs), o modelos de lenguaje grande, que tienen la capacidad de
superar estas limitaciones. Estos modelos espećıficos tienen la caracteŕıstica de poder ser entrenados
con grandes cantidades de datos (millones). Esto, obviamente, les permite poder capturar patrones
más complejos en el lenguaje, aśı como también generar texto con mayor coherencia [11].

18


Figura 2: Arquitectura de transformer

Una de las arquitecturas más utilizadas para los LLMs es la del transformador. Un transfor-
mador es una red neuronal compuesta, comúnmente, por un encoder (codificador) y/o un decoder
(decodificador). El encoder se encarga de procesar los tokens de entrada, determinando cuál es la
relevancia relativa de cada uno en su contexto. A través de esto, dicho componente es capaz de crear
representaciones contextuales de cada token. Por otro lado, el decoder utiliza el resultado del encoder
para generar secuencias de salida. Sin embargo, en modelos que emplean únicamente decoders, estos
asumen la responsabilidad de procesar la entrada y generar la salida de forma simultánea [127].

Cabe destacar que el encoder y decoder están estructurados de una forma similar. Por ejemplo,
como se puede observar en la 2, ambos tienen capas llamadas multi-head attention, y feed forward.
Las capas de multi-head attention le permiten al modelo poder enfocarse en diferentes partes de
una secuencia simultáneamente, para aśı determinar cuál de todas es relevante. Por otro lado, las
capas feedforward representan capas ocultas que procesan los datos y permiten al modelo aprender
patrones complejos en las secuencias de entrada [46].

4.9. Arquitecturas basadas en transformadores

4.9.1. Generative Pre-trained Transformer (GPT)

Existen diversos modelos que utilizan la arquitectura de transformadores. Sin embargo, uno
de los más populares es el generative pretrained transformer (GPT), o transformador generativo
preentrenado. Este modelo fue presentado originalmente en el 2018 por OpenAI, en su art́ıculo
Improving Language Understanding by Generative Pre-Training. En esta publicación, los autores
describen detalladamente la arquitectura del GPT. Además, resaltan que al entrenar un modelo
con extensas cantidades de texto, este adquiere conocimientos sobre el mundo real y desarrolla la
capacidad de procesar dependencias a largo plazo. Esto resulta en que el GPT sea capaz de responder

19


preguntas de cualquier ı́ndole, aśı como clasificar texto [70].

En la actualidad, este modelo se utiliza principalmente en un chatbot desarrollado por OpenAI,
conocido como ChatGPT. La versión gratuita de esta herramienta utiliza la tercera versión del
modelo GPT para llevar a cabo interacciones conversacionales naturales con los usuarios. Este modelo
fue preentrenado con más de 45 terabytes (o 45,000 gigabytes) de texto plano [81], en comparación
con la versión piloto, que fue preentrenada únicamente con 40 gigabytes [121].

Arquitectura

Un GPT, a diferencia de otros transformadores, se distingue por su uso exclusivo de decodificado-
res en su arquitectura. De hecho, emplea múltiples decodificadores apilados, los cuales dependen de
la salida del decodificador anterior para generar texto coherente y relevante [57]. Esta caracteŕıstica
le permite al modelo capturar relaciones contextuales a diferentes niveles de abstracción, lo que, a
su vez, le posibilita analizar y replicar el lenguaje natural [12].

Figura 3: Arquitectura de Generative Pre-trained Transformer (GPT).

Como se puede observar en la Figura 3, la entrada de estos modelos primero pasa por una capa
de embedding. Como se mencionó en secciones anteriores, en este proceso se convierten las palabras o
frases en vectores numéricos. Cabe destacar que la entrada está limitada a 2048 palabras, por lo cual
también se utiliza padding para ajustar las secuencias más cortas y asegurar una longitud uniforme
antes de ingresarlas al modelo. Al concluir esa etapa, se continúa a la fase de positional encoding, en
la cual se asignan vectores de posición a cada vector numérico con el propósito de poder identificar
su ubicación en la secuencia [123].

Después de algunas capas variables, se procede a la utilización de los decodificadores apilados.
Cabe destacar que todos están estructurados de una forma similar, conteniendo capas de normaliza-
ción, dropout, multi-head attention, y fully connected (o feed forward). Posteriormente, el resultado
del último decoder se normaliza y se pasa a una capa oculta, seguido por una función softmax. Esta
última genera una distribución de probabilidad, la cual ayuda a identificar cuál es la próxima palabra
más probable en la secuencia, según el contexto proporcionado por el modelo [123].

20


4.9.2. Large Language Model Meta AI (LLaMA)

Otro modelo reconocido que se basa en la arquitectura de transformadores es el Large Language
Model Meta AI (LLaMA), que fue desarrollado por Meta y lanzado a principios de 2023. Lo que
diferencia a LLaMA de otros modelos es su diseño open source, lo que permite que cualquier persona
acceda a su código base y realice modificaciones o adaptaciones según sus necesidades. Además,
LLaMA está optimizado para ser más eficiente en cuanto a recursos computacionales, lo que facilita
su ejecución y entrenamiento en sistemas con menos capacidad. Esta eficiencia, combinada con su
naturaleza de código abierto, lo convierte en una herramienta poderosa y accesible, especialmente
para investigadores y desarrolladores con recursos limitados [125].

La versión más reciente de LLaMA, LLaMA 3.0, fue lanzada con significativas mejoras en su
capacidad de procesamiento y versatilidad. Esta versión fue entrenada utilizando un total de 15
billones de tokens de datos en múltiples idiomas, lo que le permite tener un rendimiento mejorado
y adaptarse a un rango más amplio de tareas y contextos. Esta versión se ofrece en dos variantes
principales: una versión con 8.000 millones de parámetros (8B) y otra más avanzada con 70.000
millones de parámetros (70B). Estas variantes permiten a los usuarios elegir el modelo que mejor se
ajuste a sus necesidades, equilibrando precisión, rendimiento y eficiencia computacional [125].

Arquitectura

LLaMA, al igual que GPT, utiliza exclusivamente decodificadores en su arquitectura basada
en transformadores. Su diseño incluye múltiples decodificadores apilados, los cuales trabajan en
conjunto para procesar y generar texto coherente y contextual [125]. Esta estructura modular le
permite capturar relaciones complejas entre los tokens en diferentes niveles de abstracción, lo que
mejora su capacidad para analizar y replicar el lenguaje natural de manera eficiente.

Como se muestra en la Figura 4, la entrada del modelo pasa inicialmente por una capa de
embedding, donde las palabras o frases se transforman en vectores numéricos para su procesamiento.
Este paso incluye también la codificación posicional, la cual asigna vectores espećıficos que indican
la ubicación de cada palabra en la secuencia, asegurando que el modelo pueda interpretar el orden
y la estructura del texto [125].

Una vez que los vectores han sido generados y enriquecidos con la información posicional, estos se
introducen en las capas de decodificadores apilados. Cada decodificador contiene submódulos como
normalización (layer normalization), dropout, multi-head attention, y redes feed-forward. Este diseño
permite al modelo refinar progresivamente la representación de los datos en cada capa, capturando
patrones contextuales complejos [125].

Finalmente, el resultado de la última capa de decodificadores pasa por una capa oculta, seguida de
una función softmax, que genera una distribución de probabilidad para predecir la próxima palabra
más probable en función del contexto [125].

21


Figura 4: Arquitectura de Large Language Model Meta AI (LLaMA).

4.9.3. Métodos de entrenamiento y adaptación

Pre-entrenamiento

Una vez definidas las arquitecturas de los modelos, es posible enseñarles a comprender, gene-
rar y procesar texto mediante técnicas avanzadas de aprendizaje. Este proceso inicia con el pre-
entrenamiento, una etapa en la que los modelos aprenden patrones y estructuras del lenguaje sin
enfocarse en una tarea espećıfica. Para ello, se utilizan diversos datos, como art́ıculos de prensa,
libros, transcripciones de videos y audios [121].

Durante el pre-entrenamiento, los modelos reciben frases incompletas como ejemplos y tienen la