Publicación: Evaluación de modelos de machine learning para pronóstico de precipitación de corto plazo en Guatemala
Portada
Citas bibliográficas
Código QR
Autores
Autor corporativo
Recolector de datos
Otros/Desconocido
Director audiovisual
Editor
Tipo de Material
Fecha
Citación
Título de serie/ reporte/ volumen/ colección
Es Parte de
Resumen en español
Esta investigación se centra en la evaluación de diferentes modelos de machine learning para el pronóstico de la precipitación en Guatemala con un día de anticipación. Se desarrollan modelos de clasificación de lluvia binaria para predecir la ocurrencia de lluvia y modelos basados en percentiles para estimar su intensidad en comparación con registros pasados. Además, se construyen modelos de regresión para pronosticar la anomalía absoluta de precipitación respecto del promedio climatológico. El entrenamiento de los modelos se realiza con la base de datos meteorológicos proporcionada por el Instituto Nacional de Sismología, Vulcanología, Meteorología e Hidrología (INSIVUMEH). Cada modelo es sometido a tres evaluaciones: con datos de la época seca, de la época lluviosa y del año completo (evaluación general). El rendimiento de los modelos de machine learning es comparado con el del modelo numérico Weather Research and Forecasting (WRF), utilizado actualmente por INSIVUMEH en el pronóstico de precipitación diaria. Los resultados muestran que la exactitud general se encuentra entre el 26 % y el 65 % para los modelos de percentiles y entre el 55 % y el 75 % para los modelos de lluvia binaria. Los modelos de regresión presentaron un MAE entre 5.14 mm y 6.50 mm al ser evaluados con datos de todo el año. El 23 % de los modelos de lluvia binaria y el 96 % de los modelos de regresión superaron los resultados de evaluación general de WRF, mientras que los modelos de percentiles obtuvieron resultados por debajo del modelo de referencia en esta misma evaluación. Las mejores combinaciones de parámetros para los modelos de clasificación resultaron ser bosque aleatorio y XGBoost con 100 árboles de decisión, y para los modelos de regresión fueron la regresión lineal múltiple y la regresión polinomial. No se observó un cambio relevante al implementar las diferentes combinaciones de variables y número de días en el rango de observación que se utilizan como predictores. En general, el rendimiento durante la época seca fue mejor en comparación con la época lluviosa, debido a la diferencia de la variabilidad de precipitación entre ambas épocas.
Resumen en inglés
This research focuses on the evaluation of different machine learning models for forecasting precipitation in Guatemala one day in advance. Binary rainfall classification models were developed to predict the occurrence of rain, and percentile-based models were implemented to estimate its intensity in comparison with past records. In addition, regression models were built to forecast the absolute precipitation anomaly relative to the climatological average. The training of the models was conducted using meteorological data provided by the National Institute of Seismology, Volcanology, Meteorology, and Hydrology (INSIVUMEH). Each model was evaluated under three scenarios: using data from the dry season, the rainy season, and the entire year (general evaluation). The performance of the machine learning models was compared with that of the numerical Weather Research and Forecasting (WRF) model, which is currently used by INSIVUMEH for daily precipitation forecasting. The results show that overall accuracy ranged between 26% and 65% for percentile models and between 55% and 75% for binary rainfall models. The regression models achieved a Mean Absolute Error (MAE) between 5.14 mm and 6.50 mm when evaluated with data from the entire year. Twenty-three percent of the binary rainfall models and ninety-six percent of the regression models outperformed the general evaluation results of the WRF model, while the percentile models performed below the reference model in this same evaluation. The best parameter combinations for the classification models were Random Forest and XGBoost with 100 decision trees, while for regression models, multiple linear regression and polynomial regression performed best. No significant changes were observed when implementing different combinations of variables and numbers of observation days used as predictors. Overall, performance during the dry season was better compared to the rainy season, due to the difference in precipitation variability between both periods.
Descargar PDF
Vista en línea 

