Institutional Repository

Recolección de datos para el generador de historias con género literario a partir de imágenes utilizando “Computer Vision” y Natural Language Processing.

Show simple item record

dc.contributor.author Ramos Maldonado, Oscar Andres
dc.date.accessioned 2024-09-18T17:21:13Z
dc.date.available 2024-09-18T17:21:13Z
dc.date.issued 2023
dc.identifier.uri https://repositorio.uvg.edu.gt/xmlui/handle/123456789/5640
dc.description Tesis. Licenciatura en Ingeniería en Ciencias de la Computación y Tecnologías de la Información. Facultad de Ingeniería (29 p.). en_US
dc.description.abstract Este trabajo de graduación se enfoca en la generación de una metodología que facilite la recolec ción y procesamiento de datos destinados a entrenar un large language model (LLM) para garantizar la calidad y eficacia del modelo resultante y para optimizar el proceso de entrenamiento. Se dio un enfoque principalmente a la recolección inicial de archivos PDF utilizando un web scraper. Con esto se propone un marco de trabajo para la limpieza de datos que abarca desde la detección y eliminación de valores atípicos hasta la generación de reportes sobre las tendencias encontradas en los archivos, lo que mejora su coherencia y cohesión. Por otro lado, se evaluó la calidad de los datos mediante el entrenamiento de un modelo GPT-2 (generative pre-trained transformer) de pequeña escala y comparando los textos generados por el modelo con los datos limpios y el texto extraído directamente de los archivos. Este proyecto contribuye al avance en inteligencia artificial y el procesamiento del lenguaje natural al establecer tanto pautas como buenas prácticas para la recolección y limpieza de datos destinados a entrenar modelos de lenguaje.(LA) en_US
dc.language.iso es en_US
dc.publisher Universidad del Valle de Guatemala en_US
dc.subject Artificial intelligence -- Data processing en_US
dc.subject Information storage and retrieval system en_US
dc.subject Sistema de almacenamiento y recuperación de información en_US
dc.subject Literature -- Artificial intelligence -- Computer programs en_US
dc.subject Inteligencia artificial -- Creación literaria, artística, etc. en_US
dc.subject Literatura -- Innovación tecnológica en_US
dc.subject Artificial intelligence in literature en_US
dc.title Recolección de datos para el generador de historias con género literario a partir de imágenes utilizando “Computer Vision” y Natural Language Processing. en_US
dc.type Public Thesis en_US


Files in this item

This item appears in the following Collection(s)

Show simple item record