Publicación: Análisis comparativo de métodos utilizados para distinguir entre voces humanas e imitaciones generadas por inteligencia artificial
Portada
Citas bibliográficas
Código QR
Autor corporativo
Recolector de datos
Otros/Desconocido
Director audiovisual
Editor
Tipo de Material
Fecha
Citación
Título de serie/ reporte/ volumen/ colección
Es Parte de
Resumen en español
Actualmente, la inteligencia artificial se ha implementado para diferentes usos, como la imitación de voces. Sin embargo, puede llegar un punto donde la imitación sea tan precisa que no se pueda distinguir entre una voz real y una generada por inteligencia artificial. Esto plantea implicaciones éticas y sociales, en donde la veracidad de una voz puede ser importante. Por eso, el propósito de esta investigación es comparar diferentes métodos para identificar voces generadas por inteligencia artificial y encontrar el más preciso y eficiente entre ellos. Los métodos comparados incluyen modelos de machine learning utilizando filtros estadísticos, redes neuronales Long Short-Term Memory (LSTM), e incluso el reconocimiento humano. Para el entrenamiento de los modelos, se utilizó el conjunto de datos Deepfake proporcionado en la competencia de ASVspoof 2021, con la correspondiente extracción de características de audio. Utilizando audios de 2 segundos para todos los métodos, se encontró que las redes neuronales LSTM y algunos modelos de machine learning tuvieron el mejor desempeño, con una precisión por arriba del 97%, mientras que el reconocimiento humano tuvo un desempeño significativamente menor, con una precisión de aproximadamente 55%. Estos resultados pueden proporcionar la base para la creación de herramientas de verificación de voz que mitiguen los daños causados por imitaciones. No obstante, esta investigación presenta ciertas limitaciones, como el uso de un conjunto de datos especifico y no diverso, además de utilizar audios de 2 segundos. Futuras investigaciones podrían explorar utilizar un conjunto de datos más diverso y duraciones de audio diferentes para poder evaluar que tan bien generalizan los modelos.
Resumen en inglés
The widespread implementation of artificial intelligence in various fields now includes voice imitation. However, the increasing precision of the deepfake voices could reach a point where distinguishing between real and synthetic voices could become a challenge. This raises ethical and social implications regarding instances where voice authentication is crucial. Therefore, the purpose of this study is to compare different methods to identify artificially generated voices and determine the most accurate and efficient among them. The methods compared include machine learning models using statistical filters, Long Short-Term Memory (LSTM) neural networks, and human recognition. The models were trained using the Deepfake dataset provided by the ASVspoof 2021 challenge with the respective audio feature extraction. Using 2-second audio samples for all methods, the results show that LSTM networks and some machine learning models performed the best, with all metrics above 97%, while human recognition had a significantly lower performance with all metrics around 55%. These results can provide a baseline for creating voice verification tools that mitigate the damage caused by voice imitation. However, this research comes with certain limitations, such as the use of a non-diverse dataset and the use of 2-second audio samples. Future research could explore using a more diverse dataset and different audio durations to better evaluate the performance of models.
Descargar PDF
Vista en línea 

