dc.contributor.author |
Ramos Maldonado, Oscar Andres |
|
dc.date.accessioned |
2024-09-18T17:21:13Z |
|
dc.date.available |
2024-09-18T17:21:13Z |
|
dc.date.issued |
2023 |
|
dc.identifier.uri |
https://repositorio.uvg.edu.gt/xmlui/handle/123456789/5640 |
|
dc.description |
Tesis. Licenciatura en Ingeniería en Ciencias de la Computación y Tecnologías de la Información. Facultad de Ingeniería (29 p.). |
en_US |
dc.description.abstract |
Este trabajo de graduación se enfoca en la generación de una metodología que facilite la recolec ción y procesamiento de datos destinados a entrenar un large language model (LLM) para garantizar
la calidad y eficacia del modelo resultante y para optimizar el proceso de entrenamiento.
Se dio un enfoque principalmente a la recolección inicial de archivos PDF utilizando un web
scraper. Con esto se propone un marco de trabajo para la limpieza de datos que abarca desde
la detección y eliminación de valores atípicos hasta la generación de reportes sobre las tendencias
encontradas en los archivos, lo que mejora su coherencia y cohesión.
Por otro lado, se evaluó la calidad de los datos mediante el entrenamiento de un modelo GPT-2
(generative pre-trained transformer) de pequeña escala y comparando los textos generados por el
modelo con los datos limpios y el texto extraído directamente de los archivos.
Este proyecto contribuye al avance en inteligencia artificial y el procesamiento del lenguaje natural
al establecer tanto pautas como buenas prácticas para la recolección y limpieza de datos destinados
a entrenar modelos de lenguaje.(LA) |
en_US |
dc.language.iso |
es |
en_US |
dc.publisher |
Universidad del Valle de Guatemala |
en_US |
dc.subject |
Artificial intelligence -- Data processing |
en_US |
dc.subject |
Information storage and retrieval system |
en_US |
dc.subject |
Sistema de almacenamiento y recuperación de información |
en_US |
dc.subject |
Literature -- Artificial intelligence -- Computer programs |
en_US |
dc.subject |
Inteligencia artificial -- Creación literaria, artística, etc. |
en_US |
dc.subject |
Literatura -- Innovación tecnológica |
en_US |
dc.subject |
Artificial intelligence in literature |
en_US |
dc.title |
Recolección de datos para el generador de historias con género literario a partir de imágenes utilizando “Computer Vision” y Natural Language Processing. |
en_US |
dc.type |
Public Thesis |
en_US |