Publicación: Clasificación de exoplanetas utilizando modelos de machine learning
Portada
Citas bibliográficas
Código QR
Autores
Autor corporativo
Recolector de datos
Otros/Desconocido
Director audiovisual
Editor
Tipo de Material
Fecha
Citación
Título de serie/ reporte/ volumen/ colección
Es Parte de
Resumen en español
En el presente trabajo se aborda el entrenamiento de algoritmos de machine learning para la clasificación de exoplanetas en cuatro tipos: Terrestres, Súper Tierras, Neptunianos y Gigantes Gaseosos. Los datos empleados fueron extraídos del NASA Exoplanet Catalog y del NASA Exoplanet Archive. Los algoritmos utilizados fueron XGBoost, Árbol de Decisión, Random Forest y K-Nearest Neighbors. Tras la preparación de la base de datos y el entrenamiento de los modelos, se procedió a su evaluación. Los métodos basados en árboles de decisión mostraron el mejor desempeño, siendo XGBoost el mejor con un F1-score promedio de 0.9822 (desviación estándar: 0.0087) en 10 iteraciones. Todos los modelos presentaron dificultades al distinguir entre Súper Tierras y Neptunianos. El algoritmo K-Nearest Neighbors obtuvo el rendimiento más bajo (f1 − score promedio de 0.8100 y desviación estándar de 0.395), atribuible al desequilibrio de clases en la base de datos, es decir, la proporción de exoplanetas Terrestres es notablemente menor a la del resto de clasificaciones. Los métodos basados en árboles identificaron la masa y el radio planetario como las variables más relevantes, dicho resultado es apoyado por la literatura al buscar caracterizar exoplanetas. Como oportunidades de profundización, se propone explorar una mayor cantidad de hiperparámetros para cada algoritmo e investigar variantes de K-Nearest Neighbors adaptadas a conjuntos de datos desbalanceados.
Resumen en inglés
This work addresses the training of machine learning algorithms for the classification of exo planets into four categories: Terrestrial, Super-Earths, Neptunian, and Gas Giants. The data were obtained from the NASA Exoplanet Catalog and the NASA Exoplanet Archive. The algorithms ap plied were XGBoost, Decision Tree, Random Forest, and K-Nearest Neighbors. After preparing the dataset and training the models, their performance was evaluated. Tree-based methods demonstra ted the best results, with XGBoost achieving the highest performance, reaching an average F1-score of 0.9822 (standard deviation: 0.0087) across 10 iterations. All models showed difficulties in distin guishing between Super-Earths and Neptunians. The K-Nearest Neighbors algorithm obtained the lowest performance (average f1-score of 0.8100 and standard deviation of 0.395), mainly due to class imbalance in the dataset, since the proportion of Terrestrial exoplanets is notably smaller than that of the other categories. Tree-based methods identified planetary mass and radius as the most relevant variables, a result consistent with the literature on exoplanet characterization. As future work, it is proposed exploring a wider range of hyperparameters for each algorithm and investigating variants of K-Nearest Neighbors adapted to imbalanced datasets
Descargar PDF
Vista en línea 

