Abstract:
El presente trabajo muestra el proceso de una canalización de datos ETL, sobre los
datos públicos de Violencia Intrafamiliar provistos por el Instituto Nacional de Estadística
(INE) de 2008 a 2021, con el objetivo de almacenar dicha información en una base de datos
relacional para la extracción de información de indicadores de violencia contra la mujer.
Esto, bajo el contexto de la “Política Nacional de Datos Abiertos 2018-2022” (2018), la
cual menciona que el gobierno trabajará para “crear o respaldar programas e iniciativas que
promuevan el desarrollo o creación conjunta de bases de datos, visualizaciones, aplicaciones
y otras herramientas basadas en datos abiertos”.
Este proyecto fue realizado en un plazo menor a seis meses, utilizando tecnologías gratuitas
y de fuente abierta, tales como el gestor de bases de datos relacionales PostgreSQL,
el lenguaje de programación para análisis estadístico R y el software para análisis de datos
Power BI. Entre los principales resultados cabe mencionar que es posible automatizar, en
su mayoría, las reglas de limpieza, viéndose limitada en casos o errores que evidencian la
ausencia de una gobernanza de datos o gestión de datos maestros constante. Por esto, se recomienda
al INE la implementación de una arquitectura de datos para agilizar la producción
de reportes y tableros periódicamente.
(A)