Publicación:
Análisis comparativo de métodos utilizados para distinguir entre voces humanas e imitaciones generadas por inteligencia artificial

dc.contributor.authorMolina González, José Antonio Cayetano
dc.contributor.educationalvalidatorR. Furlán, Luis
dc.date.accessioned2025-10-08T17:36:11Z
dc.date.issued2024
dc.description.abstractActualmente, la inteligencia artificial se ha implementado para diferentes usos, como la imitación de voces. Sin embargo, puede llegar un punto donde la imitación sea tan precisa que no se pueda distinguir entre una voz real y una generada por inteligencia artificial. Esto plantea implicaciones éticas y sociales, en donde la veracidad de una voz puede ser importante. Por eso, el propósito de esta investigación es comparar diferentes métodos para identificar voces generadas por inteligencia artificial y encontrar el más preciso y eficiente entre ellos. Los métodos comparados incluyen modelos de machine learning utilizando filtros estadísticos, redes neuronales Long Short-Term Memory (LSTM), e incluso el reconocimiento humano. Para el entrenamiento de los modelos, se utilizó el conjunto de datos Deepfake proporcionado en la competencia de ASVspoof 2021, con la correspondiente extracción de características de audio. Utilizando audios de 2 segundos para todos los métodos, se encontró que las redes neuronales LSTM y algunos modelos de machine learning tuvieron el mejor desempeño, con una precisión por arriba del 97%, mientras que el reconocimiento humano tuvo un desempeño significativamente menor, con una precisión de aproximadamente 55%. Estos resultados pueden proporcionar la base para la creación de herramientas de verificación de voz que mitiguen los daños causados por imitaciones. No obstante, esta investigación presenta ciertas limitaciones, como el uso de un conjunto de datos especifico y no diverso, además de utilizar audios de 2 segundos. Futuras investigaciones podrían explorar utilizar un conjunto de datos más diverso y duraciones de audio diferentes para poder evaluar que tan bien generalizan los modelos.spa
dc.description.abstractThe widespread implementation of artificial intelligence in various fields now includes voice imitation. However, the increasing precision of the deepfake voices could reach a point where distinguishing between real and synthetic voices could become a challenge. This raises ethical and social implications regarding instances where voice authentication is crucial. Therefore, the purpose of this study is to compare different methods to identify artificially generated voices and determine the most accurate and efficient among them. The methods compared include machine learning models using statistical filters, Long Short-Term Memory (LSTM) neural networks, and human recognition. The models were trained using the Deepfake dataset provided by the ASVspoof 2021 challenge with the respective audio feature extraction. Using 2-second audio samples for all methods, the results show that LSTM networks and some machine learning models performed the best, with all metrics above 97%, while human recognition had a significantly lower performance with all metrics around 55%. These results can provide a baseline for creating voice verification tools that mitigate the damage caused by voice imitation. However, this research comes with certain limitations, such as the use of a non-diverse dataset and the use of 2-second audio samples. Future research could explore using a more diverse dataset and different audio durations to better evaluate the performance of models.eng
dc.description.degreelevelPregrado
dc.description.degreenameLicenciado en Ingeniería en Ciencia de la Computación y Tecnologías de la Información
dc.format.extent53 p.
dc.format.mimetypeapplication/pdf
dc.identifier.urihttps://repositorio.uvg.edu.gt/handle/123456789/6113
dc.language.isospa
dc.publisherUniversidad del Valle de Guatemala
dc.publisher.branchCampus Central
dc.publisher.facultyFacultad de Ingeniería
dc.publisher.programLicenciatura en Ingeniería en Ciencia de la Computación y Tecnologías de la Información
dc.relation.referencesA. Bajaj, “Voice Cloning Using Artificial Intelligence Algorithm — RNN”, Medium. Consultado: el 23 de mayo de 2024. [En línea]. Disponible en: https://aryanbajaj13.medium.com/voice-cloning-using-artificial-intelligence-algorithm-rnn-3ad56c39e7dc
dc.relation.referencesMicrosoft Prensa, “El aumento de la adopción de la tecnología de Inteligencia Artificial (IA) genera expectación y pone de relieve la importancia de las conversaciones familiares sobre la seguridad online, según un nuevo estudio de Microsoft”, Microsoft. Consultado: el 23 de mayo de 2024. [En línea]. Disponible en: https://news.microsoft.com/es-es/2024/02/06/el-aumento-de-la-adopcion-de-la-tecnologia-de-inteligencia-artificial-ia-genera-expectacion-y-pone-de-relieve-la-importancia-de-las-conversaciones-familiares-sobre-la-seguridad-online-segun-un-nuev/
dc.relation.referencesSilverio Mario, “ChatGPT: número de usuarios y estadísticas”, Prime Web. Consultado: el 23 de mayo de 2024. [En línea]. Disponible en: https://www.primeweb.com.mx/chatgpt-usuarios-estadisticas#:~:text=y%20mucho%20m%C3%A1s.-,Estad%C3%ADsticas%20clave%20de%20ChatGPT,de%20visitantes%20durante%20febrero%202024.
dc.relation.referencesMartina, “IA vs. industria musical: El auge del clonado de voz mediante IA”, iMusician. Consultado: el 23 de mayo de 2024. [En línea]. Disponible en: https://imusician.pro/es/recursos-practicos/blog/el-auge-del-clonado-de-voz-mediante-ia
dc.relation.referencesK. Waserman, “Keeping up with scammers: Deepfake voice fraud”, The Statement. Consultado: el 23 de mayo de 2024. [En línea]. Disponible en: https://thestatement.bokf.com/articles/2023/09/keeping-up-with-scammers
dc.relation.referencesM. Casado, “La cara auditiva: El reconocimiento de las personas a través de la voz”, Ciencia Cognitiva. Consultado: el 23 de mayo de 2024. [En línea]. Disponible en: https://www.cienciacognitiva.org/?p=854
dc.relation.references“The future of work after COVID-19”, 2021. Consultado: el 3 de junio de 2024. [En línea]. Disponible en: https://www.mckinsey.com/featured-insights/future-of-work/the-future-of-work-after-covid-19
dc.relation.referencesB. G. Acosta-Enriquez, M. A. Arbulú Ballesteros, O. Huamaní Jordan, C. López Roca, y K. Saavedra Tirado, “Analysis of college students’ attitudes toward the use of ChatGPT in their academic activities: effect of intent to use, verification of information and responsible use”, BMC Psychol, vol. 12, núm. 1, dic. 2024, doi: 10.1186/s40359-024-01764-z.
dc.relation.referencesI. S. Gabashvili, “The impact and applications of ChatGPT: a Systematic Review of Literature Reviews”, may 2023. doi: 10.17605/OSF.IO/87U6Q.
dc.relation.referencesN. Mehrabi, F. Morstatter, N. Saxena, K. Lerman, y A. Galstyan, “A Survey on Bias and Fairness in Machine Learning”, ACM Comput Surv, vol. 54, núm. 6, jul. 2021, doi: 10.1145/3457607.
dc.rights.accessrightsinfo:eu-repo/semantics/openAccess
dc.rights.coarhttp://purl.org/coar/access_right/c_abf2
dc.rights.licenseAtribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject.armarcMachine learning
dc.subject.armarcSistemas expertos (Computadores)
dc.subject.armarcArtificial intelligence
dc.subject.armarcInteligencia artificial
dc.subject.armarcRedes neurales -- Computadores
dc.subject.armarcSistemas expertos (Computadores) -- Aplicaciones científicas
dc.subject.armarcComputación flexible
dc.subject.ddc000 - Ciencias de la computación, información y obras generales::006 - Métodos especiales de computación
dc.subject.odsODS 9: Industria, innovación e infraestructura. Construir infraestructuras resilientes, promover la industrialización inclusiva y sostenible y fomentar la innovación
dc.subject.odsODS 4: Educación de calidad. Garantizar una educación inclusiva y equitativa de calidad y promover oportunidades de aprendizaje permanente para todos
dc.titleAnálisis comparativo de métodos utilizados para distinguir entre voces humanas e imitaciones generadas por inteligencia artificialspa
dc.typeTrabajo de grado - Pregrado
dc.type.coarhttp://purl.org/coar/resource_type/c_7a1f
dc.type.coarversionhttp://purl.org/coar/version/c_970fb48d4fbd8a85
dc.type.contentText
dc.type.driverinfo:eu-repo/semantics/bachelorThesis
dc.type.versioninfo:eu-repo/semantics/publishedVersion
dspace.entity.typePublication

Archivos

Bloque original

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
TesisV8Corregida (1).pdf
Tamaño:
1.24 MB
Formato:
Adobe Portable Document Format

Bloque de licencias

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
license.txt
Tamaño:
14.49 KB
Formato:
Item-specific license agreed upon to submission
Descripción: