Abstract:
Este trabajo de graduación se enfoca en la generación de una metodología que facilite la recolec ción y procesamiento de datos destinados a entrenar un large language model (LLM) para garantizar
la calidad y eficacia del modelo resultante y para optimizar el proceso de entrenamiento.
Se dio un enfoque principalmente a la recolección inicial de archivos PDF utilizando un web
scraper. Con esto se propone un marco de trabajo para la limpieza de datos que abarca desde
la detección y eliminación de valores atípicos hasta la generación de reportes sobre las tendencias
encontradas en los archivos, lo que mejora su coherencia y cohesión.
Por otro lado, se evaluó la calidad de los datos mediante el entrenamiento de un modelo GPT-2
(generative pre-trained transformer) de pequeña escala y comparando los textos generados por el
modelo con los datos limpios y el texto extraído directamente de los archivos.
Este proyecto contribuye al avance en inteligencia artificial y el procesamiento del lenguaje natural
al establecer tanto pautas como buenas prácticas para la recolección y limpieza de datos destinados
a entrenar modelos de lenguaje.(LA)