Publicación: Recolección de datos para el generador de historias con género literario a partir de imágenes utilizando “Computer Vision” y Natural Language Processing.
Portada
Citas bibliográficas
Código QR
Autores
Autor corporativo
Recolector de datos
Otros/Desconocido
Director audiovisual
Editor
Tipo de Material
Fecha
Palabras clave
Citación
Título de serie/ reporte/ volumen/ colección
Es Parte de
Resumen
Este trabajo de graduación se enfoca en la generación de una metodología que facilite la recolec ción y procesamiento de datos destinados a entrenar un large language model (LLM) para garantizar la calidad y eficacia del modelo resultante y para optimizar el proceso de entrenamiento. Se dio un enfoque principalmente a la recolección inicial de archivos PDF utilizando un web scraper. Con esto se propone un marco de trabajo para la limpieza de datos que abarca desde la detección y eliminación de valores atípicos hasta la generación de reportes sobre las tendencias encontradas en los archivos, lo que mejora su coherencia y cohesión. Por otro lado, se evaluó la calidad de los datos mediante el entrenamiento de un modelo GPT-2 (generative pre-trained transformer) de pequeña escala y comparando los textos generados por el modelo con los datos limpios y el texto extraído directamente de los archivos. Este proyecto contribuye al avance en inteligencia artificial y el procesamiento del lenguaje natural al establecer tanto pautas como buenas prácticas para la recolección y limpieza de datos destinados a entrenar modelos de lenguaje.(LA)
Descargar PDF
Vista en línea 

