Publicación: Deconvolución acústica basada en métodos de aprendizaje profundo y filtros adaptativos no lineales
Portada
Citas bibliográficas
Código QR
Autor corporativo
Recolector de datos
Otros/Desconocido
Director audiovisual
Editor
Tipo de Material
Fecha
Citación
Título de serie/ reporte/ volumen/ colección
Es Parte de
Resumen en inglés
Acoustic deconvolution aims to recover signals degraded by room re ections in environments without acoustic treatment. This study evaluated three representative approaches to this problem using a unified database of clean and contaminated signals, together with a reproducible work ow for their comparison. The evaluated methods included kernel adaptive filtering (KAF), nonlinear autoregressive models with exogenous inputs (NLARX), and deep neural networks of the temporal convolutional neural network (TCN) type. The evaluation considered both synthetic signals and real recordings of voice and musical instruments. Performance was assessed using root mean square error (RMSE) and signal-tonoise ratio (SNR). The KAF method did not achieve effective reconstruction in real signals, yielding SNR values close to 0 dB. The NLARX model achieved an RMSE close to 0.32 with synthetic signals, but for real recordings it produced SNR values between −9 dB and −24 dB due to a low-pass filtering effect. In contrast, the TCN achieved the most consistent performance, with an RMSE close to 0.17 for synthetic signals and an SNR of −0.08 dB for real recordings, preserving high-frequency components that the other methods failed to recover. These results indicate that deep learning architectures constitute the most promising direction for advancing acoustic deconvolution.
Resumen
La deconvolución acústica busca recuperar señales afectadas por las re flexiones del recinto en entornos sin tratamiento acústico. Este estudio evaluó tres enfoques representativos para esta tarea mediante una base de datos unificada de señales limpias y contaminadas, junto con un flujo de trabajo reproducible para su comparación. Se consideraron filtros adaptativos no lineales basados en kernel, modelos autorregresivos no lineales con entradas exógenas (NLARX) y redes neuronales profundas de tipo red convolucional temporal (temporal convolutional network, TCN). La evaluación incluyó señales sintéticas y grabaciones reales de voz e instrumentos musicales, utilizando el error cuadrático medio (RMSE) y la relación señal-ruido (SNR) como métricas de desempeño. Los métodos basados en kernel no lograron una reconstrucción efectiva en señales reales, presentando valores de SNR cercanos a 0 dB. El modelo NLARX obtuvo un RMSE cercano a 0.32 en señales sintéticas, pero en señales reales produjo valores de SNR entre −9 dB y −24 dB debido a un comportamiento equivalente al de un filtro pasa bajas. En contraste, la TCN presentó el mejor desempeño global, con un RMSE cercano a 0.17 en señales sintéticas y un SNR de −0.08 dB en señales reales, preservando componentes de alta frecuencia que los otros métodos no lograron recuperar. Los resultados posicionan a las arquitecturas profundas como el enfoque más adecuado para avanzar en la deconvolución acústica.
Descargar PDF
Vista en línea 

