UNIVERSIDAD DEL VALLE DE GUATEMALA Facultad de Ingeniería Propuesta de canalización de datos ETL de Violencia Intrafamiliar para almacenamiento en una base de datos relacional y análisis para extracción de información de indicadores de violencia contra la mujer Trabajo de graduación presentado por Andrea Carolina Argüello Barillas para optar al grado académico de Licenciado en Ingeniería en Ciencias de los Datos Guatemala 2023 UNIVERSIDAD DEL VALLE DE GUATEMALA Facultad de Ingeniería Propuesta de canalización de datos ETL de Violencia Intrafamiliar para almacenamiento en una base de datos relacional y análisis para extracción de información de indicadores de violencia contra la mujer Trabajo de graduación presentado por Andrea Carolina Argüello Barillas para optar al grado académico de Licenciado en Ingeniería en Ciencias de los Datos Guatemala, 2023 Vo.Bo.: (f) MSc. Ing. Bidkar Alexander Pojoy Corzo Tribunal Examinador: (f) MSc. Ing. Bidkar Alexander Pojoy Corzo (f) MSc. Ing. José Antonio Medrano García (f) MSc. Ing. José Vicente Herrera Juárez Fecha de aprobación: Guatemala, 12 de enero de 2023. Prefacio Empiezo agradeciendo al MSc. Ing. Bidkar Alexander Pojoy Corzo, ya que la existencia del presente trabajo no hubiese sido posible sin su apoyo. Agradezco al MSc. Ing. José Antonio Medrano García, por su ayuda a lo largo de la carrera, y a los catedráticos que me instruyeron, en la misma. Agradezco a mis amistades y a mis padres, por acompañarme a navegar lo incierto, y aligerar la carga en los momentos de tormenta. Finalmente, doy gracias a mi abuela, María Olimpia; quien a pesar de ya no estar, sigue siendo mi razón para seguir adelante. v Índice Prefacio v Lista de figuras ix Lista de cuadros xi Resumen xiii Abstract xv 1. Introducción 1 2. Antecedentes 3 2.1. Gobierno electrónico, big data y datos abiertos . . . . . . . . . . . . . . . . . 3 2.1.1. Comisión Presidencial de Gobierno Abierto y Electrónico . . . . . . . 4 2.1.2. Barómetro de Datos Abiertos . . . . . . . . . . . . . . . . . . . . . . . 4 2.2. Instituto Nacional de Estadística . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.3. Violencia intrafamiliar y violencia contra la mujer . . . . . . . . . . . . . . . . 6 3. Justificación 9 4. Objetivos 11 4.1. Objetivo general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 4.2. Objetivos específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 5. Alcance 13 6. Marco teórico 15 6.1. Gobierno electrónico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 6.2. Gobierno digital . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 6.3. Ingeniería de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 6.3.1. Modelado de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 6.3.2. Datos abiertos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 6.3.3. Gobernanza de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 vii 6.3.4. Tipos de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 6.3.5. Bases de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 6.4. Análisis de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 6.4.1. Visualización de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 6.5. Canalización de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 6.5.1. Procesamiento por lotes . . . . . . . . . . . . . . . . . . . . . . . . . . 20 6.5.2. ETL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 7. Marco metodológico 21 7.1. Cronograma de actividades . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 7.2. Modelo de base de datos preliminar . . . . . . . . . . . . . . . . . . . . . . . . 21 7.3. Canalización ETL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 7.3.1. Limpieza de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 7.3.2. Ingesta y transformación de datos . . . . . . . . . . . . . . . . . . . . 22 7.4. Análisis y visualización de datos . . . . . . . . . . . . . . . . . . . . . . . . . 22 7.4.1. Definición de indicadores de rendimiento . . . . . . . . . . . . . . . . . 22 7.4.2. Prototipo de tablero . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 8. Resultados 25 8.1. Canalización ETL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 8.1.1. Ingesta de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 8.1.2. Limpieza de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 8.1.3. Transformación de datos . . . . . . . . . . . . . . . . . . . . . . . . . . 27 8.2. Análisis y visualización de datos . . . . . . . . . . . . . . . . . . . . . . . . . 27 8.2.1. Definición de indicadores de rendimiento . . . . . . . . . . . . . . . . . 27 8.2.2. Prototipo de tablero . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 8.2.3. Presentación de resultados al INE . . . . . . . . . . . . . . . . . . . . . 37 9. Conclusiones 39 10.Recomendaciones 41 10.1. Al INE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 10.2. Para futuras iteraciones del proyecto . . . . . . . . . . . . . . . . . . . . . . . 41 11.Bibliografía 43 12.Anexos 47 12.1. Anexo técnico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 12.2. Códigos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 13.Glosario 85 viii Lista de figuras 1. Cronograma de actividades . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2. Diagrama entidad relación del modelo de datos preliminar. . . . . . . . . . . . 22 3. Diagrama de arquitectura y ETL preliminar. . . . . . . . . . . . . . . . . . . 23 4. Captura de pantalla de aplicación en Shiny para carga de archivos. . . . . . . 25 5. Diagrama entidad relación final de datos, generado con DBeaver. . . . . . . . 28 6. Captura de pestaña de indicadores de violencia intrafamiliar por datos de registro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 7. Captura de pestaña de indicadores de violencia intrafamiliar por datos de la víctima . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 8. Captura de pestaña de indicadores de violencia intrafamiliar por datos del agresor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 9. Captura de pestaña de indicadores de violencia intrafamiliar por datos de hecho 35 10. Captura de pestaña de insights para el año 2021 . . . . . . . . . . . . . . . . 36 11. Captura de pestaña de indicadores por municipio . . . . . . . . . . . . . . . . 36 12. Captura de pestaña de indicadores por departamento . . . . . . . . . . . . . . 37 13. Reunión de aclaración de dudas con Karin Barrios, Patricia Zavaleta y Ana- bela de la Cruz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 14. Minuta de primera reunión, información personal redactada. . . . . . . . . . . 48 15. Modelo de datos preliminar. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 16. Tamaño de cada tabla en la base de datos . . . . . . . . . . . . . . . . . . . . 82 ix Lista de cuadros 1. Comparación de características entre gestores de bases de datos. . . . . . . . . 19 2. Comparación de características entre Power BI y Tableau. . . . . . . . . . . . 20 3. Indicadores de violencia contra la mujer presentados en el tablero . . . . . . . 29 4. Indicadores de violencia intrafamiliar presentados en el tablero . . . . . . . . 30 5. Diccionario de variables de datos VIF . . . . . . . . . . . . . . . . . . . . . . 48 xi Resumen El presente trabajo muestra el proceso de una canalización de datos ETL, sobre los datos públicos de Violencia Intrafamiliar provistos por el Instituto Nacional de Estadística (INE) de 2008 a 2021, con el objetivo de almacenar dicha información en una base de datos relacional para la extracción de información de indicadores de violencia contra la mujer. Esto, bajo el contexto de la “Política Nacional de Datos Abiertos 2018-2022” (2018), la cual menciona que el gobierno trabajará para “crear o respaldar programas e iniciativas que promuevan el desarrollo o creación conjunta de bases de datos, visualizaciones, aplicaciones y otras herramientas basadas en datos abiertos”. Este proyecto fue realizado en un plazo menor a seis meses, utilizando tecnologías gra- tuitas y de fuente abierta, tales como el gestor de bases de datos relacionales PostgreSQL, el lenguaje de programación para análisis estadístico R y el software para análisis de datos Power BI. Entre los principales resultados cabe mencionar que es posible automatizar, en su mayoría, las reglas de limpieza, viéndose limitada en casos o errores que evidencian la ausencia de una gobernanza de datos o gestión de datos maestros constante. Por esto, se re- comienda al INE la implementación de una arquitectura de datos para agilizar la producción de reportes y tableros periódicamente. xiii Abstract The present work shows the process of an ETL data pipeline, using the public data of Intrafamily Violence provided by the National Institute of Statistics (INE) from 2008 through 2021, with the objective of storing said information in a relational database for the extraction of information on indicators of violence against women. This, under the context of the “National Open Data Policy 2018-2022” (2018), which mentions that the government will work to “create or support programs and initiatives that promote the development or joint creation of databases, visualizations, applications and other tools based on open data”. This project was carried out in less than six months, using free and open source tech- nologies, such as the PostgreSQL relational database manager, the R statistical analysis programming language, and the Power BI data analysis software. Among the main results, it is worth mentioning that it is possible to automate, for the most part, the cleaning ru- les, being limited in cases or errors that show the absence of constant data governance or master data management. For this reason, the INE is recommended to implement a data architecture to speed up the production of periodic reports and dashboards. xv CAPÍTULO 1 Introducción En Guatemala, según lo indicado en el artículo 20 del Decreto Número 22-2008, Ley contra el femicidio y otras formas de violencia contra la mujer, (2008), el INE está obligado a generar indicadores e información sobre violencia contra la mujer. Por otro lado, el Decreto Número 97-96, Ley para prevenir, sancionar y erradicar la violencia intrafamiliar indica que la Procuraduría General de la Nación debe estimular “la investigación y recopilación de estadísticas e información pertinente sobre las causas, consecuencias y frecuencia de la violencia intrafamiliar, con el fin de evaluar las medidas estatales” (1996). Adicional a esto, el Decreto Número 5-2021 (2021), Ley para la simplificación de requisitos y trámites administrativos, destaca la necesidad de “modernizar la gestión administrativa por medio de la simplificación, agilización y digitalización de trámites administrativos, utilizando las tecnologías de la información y comunicación para facilitar la interacción entre personas individuales o jurídicas y dependencias del Estado”. Bajo este contexto, el presente trabajo pretende definir una canalización de datos ETL utilizando el lenguaje de programación para análisis estadístico R sobre información histórica de violencia intrafamiliar, con destino a una base de datos relacional en el gestor PostgreSQL, para la entrada al software de análisis de datos Power BI para la visualización de los datos. Dichas tecnologías fueron seleccionadas debido a que son de fuente abierta y gratuitas, haciéndolas más accesibles que otras alternativas. Se concluyó que, si bien es posible realizar dicha canalización y automatizar la limpieza de datos, esta se ve limitada ya que actualmente existen problemas de gobernanza de datos o falta de gestión de datos maestros, debido a inconsistencias entre la información y el diccionario de variables de 2021. Si bien el proyecto a presentar está planificado y contextualizado para bases de datos de violencia intrafamiliar, una metodología similar puede adaptarse a otras problemáticas de visualización similares, ajustando las necesidades específicas que puedan darse. 1 CAPÍTULO 2 Antecedentes 2.1. Gobierno electrónico, big data y datos abiertos Para administrar el análisis en tiempo real de datos de transmisión de gran volumen, el gobierno de Estados Unidos e IBM colaboraron en 2002 para desarrollar una infraestructu- ra en clúster escalable masivamente, cuyo resultado fueron IBM InfoSphere Stream e IBM Big Data, plataformas para el descubrimiento y la visualización de información de miles de fuentes en tiempo real. En 2012, la administración de Obama anunció la Iniciativa de Inves- tigación y Desarrollo de Big Data, cuyos objetivos principales eran avanzar en tecnologías centrales de big data de última generación; acelerar el descubrimiento en ciencia e ingenie- ría; fortalecer la seguridad nacional; transformar la enseñanza y el aprendizaje y expandir la fuerza laboral necesaria para desarrollar y utilizar tecnologías de big data. El gobierno del Reino Unido fue uno de los primeros países de la UE en implementar programas de big data, estableciendo el Horizon Scanning Centre (HSC) en 2004 con el objetivo de mejorar la capacidad del gobierno para enfrentar desafíos interdepartamentales y multidisciplinarios. En Corea del Sur, la Iniciativa Big Data, lanzada en 2011 por el Consejo Presidencial sobre Estrategias Nacionales de Tecnologías de la información y la comunicación (TIC), tiene como objetivo establecer sistemas pangubernamentales de redes y análisis de big data y promover la convergencia de datos entre el gobierno y los sectores privados (Kim y col., 2014). En la Declaración de Santo Domingo (2006), la Organización de los Estados Americanos (OEA) declaró que se debe solicitar a sus órganos, organismos y entidades “que continúen apoyando a los Estados Miembros en la incorporación de las TIC en sus planes nacionales de desarrollo, particularmente en los procesos de modernización de las instituciones públicas”. Adicionalmente, esta llama a “reconocer la importancia de la perspectiva de género y la necesidad de mejorar el acceso equitativo de la mujer a los beneficios de las TIC, y asegurar que éstas puedan convertirse en una herramienta fundamental para potenciar el papel de la mujer y promover la igualdad de género”. En Guatemala, bajo el gobierno de Jimmy Morales, se formuló la “Política Nacional de Datos Abiertos 2018-2022” (2018) por el Ministerio de Gobernación y la Secretaría Nacional 3 de Ciencia y Tecnología. Este “reconoce que los datos deben ser presentados en formatos estructurados y estandarizados para apoyar la interoperabilidad, trazabilidad y reutilización efectiva”. Adicionalmente, el Decreto Número 5-2021 (2021), Ley para la simplificación de requisitos y trámites administrativos, “tiene por objeto modernizar la gestión administrativa por medio de la simplificación, agilización y digitalización de trámites administrativos, uti- lizando las tecnologías de la información y comunicación para facilitar la interacción entre personas individuales o jurídicas y dependencias del Estado”. 2.1.1. Comisión Presidencial de Gobierno Abierto y Electrónico A partir del Acuerdo Gubernativo número 346-2004 (2004), se creó la Comisión Presi- dencial para la Reforma, Modernización y Fortalecimiento del Estado y de sus Entidades Descentralizadas (COPRE), la cual fue suprimida por el gobireno de Álvaro Colom en 2008; uno de sus tres pilares fue el gobierno electrónico (Comisión Presidencial de Gestión Pú- blica Abierta y Transparencia, 2019; Gobierno Electrónico, S.f.). El gobierno de Otto Pérez Molina acordó, según el Acuerdo Gubernativo 360-2012, la creación de forma temporal la Comisión Presidencial de Transparencia y Gobierno Electrónico (COPRET); esta tuvo dos reformas subsiguientes: la primera fue en el Acuerdo Gubernativo 41-2018, por el gobierno de Jimmy Morales, como la Comisión Presidencial de Gestión Pública Abierta y Transpa- rencia, y la segunda fue en 2020 en el Acuerdo Gubernativo No. 45-2020, por Alejandro Giammattei, como la Comisión Presidencial de Gobierno Abierto y Electrónico. Entre sus actuales atribuciones se encuentra el “coadyuvar a la transformación de la gestión pública mediante la promoción de mecanismos y medidas que derivan de las políticas de gobierno en materia de innovación tecnológica y comunicación, participación ciudadana, rendición de cuentas y transparencia, en coordinación con los entes rectores según competa a cada materia” (Pérez Molina, 2020). 2.1.2. Barómetro de Datos Abiertos La Iniciativa Latinoamericana por los Datos Abiertos (ILDA) es parte de la iniciativa Open Data for Development (OD4D), como nodo regional para Latinoamérica. Surge en Montevideo, Uruguay en 2013, y su objetivo es promover las políticas y el uso de datos abiertos para favorecer el desarrollo inclusivo de la región. Tiene el apoyo del Centro de Investigaciones para Desarrollo de Canadá (International Development Research Centre- IDRC) (ILDA, S.f.). El Barómetro de Datos Abiertos (Open Data Barometer-ODB) es un proyecto producido por la World Wide Web Foundation, con el apoyo de Omidyar Network, y su objetivo es “descubrir la verdadera prevalencia y el impacto de las iniciativas de datos abiertos en todo el mundo”. Este asigna una calificación basándose en tres subíndices, de tres componentes cada uno; estos son: Preparación: existencia de datos abiertos e intervenciones que respaldan el compromiso y la reutilización de datos abiertos. (1/3) • Gobierno 4 ◦ Políticas (1/4) ◦ Acción (1/4) • Empresarios y negocios (1/4) • Sociedad civil y ciudadana (1/4) Implementación: en la encuesta de expertos del Barómetro de datos abiertos, se le pide a los investigadores que completen una lista de verificación detallada para cada una de las 15 categorías de datos. Los tres subcomponentes se obtienen agrupando los conjuntos de datos en tres grupos, con base en un análisis cualitativo de las formas comunes en que se utilizan estas categorías de datos. (1/3) • Innovación (1/3) • Políticas sociales (1/3) • Responsabilidad (1/3) Impacto: se trataron publicaciones en línea, medios de comunicación y publicaciones académicas sobre los impactos de los datos abiertos como indicadores, y se pidió a los investigadores que califiquen el alcance del impacto en una escala de 0 a 10. (1/3) • Político (1/3) • Social (1/3) • Económico (1/3) El resultado de cada subíndice es un puntaje de 0 a 100, y el resultado final del ODB es una calificación de 0 a 100, siendo esta el promedio de los tres subíndices (Open Data Barometer - Leaders Edition: ODB Methodology - v1.0, 2017). La última evaluación global del ODB fue en 2016, mientras que en 2017-2018 se realizó una edición aplicada a países líderes, entre estos Guatemala (S.f.), quien obtuvo 24 y 26, respectivamente. En 2020, ILDA implemetó una edición a nivel latinoamericano del Baró- metro, el cual cubrió 24 países de América Latina y el Caribe en un período de 15 meses, de enero de 2019 a abril de 2020. Esta edición nuevamente incluyó a Guatemala, obteniendo un puntaje final de 31.06 de 100, con 44.17 en el subíndice de Preparación, 49 en el de Implementación y 0 en el de Impacto. Ninguno de los 15 conjuntos de datos proporcionan identificadores de datos para elementos clave en el conjunto de datos, mientras que solo 3 (presupuesto gubernamental detallado, datos detallados sobre el gasto público y contratos públicos) son legibles por computadora, reutilizables y están disponibles como un todo y están claramente identificados con una licencia abierta; por otro lado, no existen datos de propiedad de tierra ni de horarios de transporte público, mientras que si bien hay datos de registros de compañías, estas no se encuentran publicadas en línea por parte del gobierno en ninguna forma (ILDA, 2020; https://barometrolac.org/). 2.2. Instituto Nacional de Estadística El Instituto Nacional de Estadística (INE) fue creado en 1985 por el Decreto Ley 3-85 (1985), y este tiene por objeto “formular y realizar la política estadística nacional, así como 5 https://barometrolac.org/ planificar, dirigir, coordinar y supervisar las actividades del Sistema Estadístico Nacional”; además, entre sus funciones se encuentra el “establecer y mantener actualizado un inven- tario de las series estadísticas, producidas por las entidades y dependencias integrantes del Sistema Estadístico Nacional”. El Reglamento de Ley Orgánica del Instituto Nacional de Es- tadística además cita como objetivo del Sistema Estadístico Nacional “desarrollar, aplicar y mejorar los sistemas y técnicas adecuadas para el tratamiento de la información estadística”, y define actividad estadística como “el conjunto de procedimientos y métodos de recolec- ción, procesamiento y divulgación de datos relativos a levantamiento de censos, estadísticas continuas, encuestas especiales, indicadores e índices en general, cuentas nacionales y demás programas macroestadísticos, así como el análisis e investigación estadística” (“Ley Orgánica del Instituto Nacional de Estadística y su Reglamento”, S.f.). 2.3. Violencia intrafamiliar y violencia contra la mujer Uno de los Objetivos de Desarrollo Sostenible (ODS) propuestos por las Naciones Unidas (ONU) es “lograr la igualdad de género y empoderar a todas las mujeres y las niñas”, una de sus metas siendo el “eliminar todas las formas de violencia contra todas las mujeres y niñas en las esferas pública y privada, incluidas la trata y la explotación sexual y de otro tipo”. Cuentan con dos indicadores: la proporción de mujeres y niñas mayores de 15 años que “alguna vez han estado en pareja y que han sido objeto de violencia física, sexual o psicológica por parte de su pareja íntima actual o anterior en los últimos 12 meses, por forma de violencia y por edad”; y la proporción de mujeres y niñas mayores de 15 años “sometidas a violencia sexual por parte de personas que no sean su pareja íntima en los últimos 12 meses, por edad y lugar de ocurrencia” (Goal 5: Achieve gender equality and empower all women and girls, S.f.). El artículo 11a de la Convención de Istanbul requiere la recolección de información para apoyar la prevención y lucha contra la violencia doméstica y violencia contra la mujer en Europa, indicando que los datos recopilados deben contener: el tipo de violencia; el sexo de la víctima y el sexo del agresor; la relación entre agresor y víctima; la edad de la víctima y la edad del victimario; y localización geográfica (Walby, 2016). En Guatemala, se decretó en 1996 el Decreto Número 97-96, Ley para prevenir, sancio- nar y erradicar la violencia intrafamiliar. En su artículo 13, este nombra como ente asesor “encargado de las políticas públicas que impulsen la prevención, atención, sanción y erradi- cación de la violencia intrafamiliar” a la Procuraduría General de la Nación, el cual además debe estimular “la investigación y recopilación de estadísticas e información pertinente sobre las causas, consecuencias y frecuencia de la violencia intrafamiliar, con el fin de evaluar las medidas estatales”; esta además define en su primer artículo a la violencia intrafamiliar como “cualquier acción u omisión que de manera directa o indirecta causare daño o sufrimiento físico, sexual, psicológico o patrimonial, tanto en el ámbito público como en el privado, a persona integrante del grupo familiar, por parte de parientes o conviviente o exconviviente, cónyuge o excónyuge o con quien se haya procreado hijos o hijas” (“Decreto Número 97-96”, 1996). Bajo el gobierno de Alfonso Portillo, se emitió el Acuerdo Gubernativo No. 831-2000 (2000), Reglamento de la Ley para Prevenir, Sancionar y Erradicar la Violencia Intrafami- liar. A partir de este, se crea la Coordinadora Nacional para la Prevención de la Violencia 6 Intrafamiliar y en Contra de la Mujer (CONAPREVI), a la cual se le atribuye “estimular la investigación y recopilación de estadísticas e información pertinente sobre las causas, con- secuencias, efectos y frecuencia de la violencia intrafamiliar y en contra de las mujeres, con el fin de evaluar e implementar las medidas estatales”. Además, entre sus integrantes del sector público se encuentra el Presidente de la Junta Directiva del Instituto Nacional de Estadística o su representante. En 2007, la Comisión Económica para América Latina y el Caribe (ECLAC por sus siglas en inglés), en una reunión de expertos organizada por la ONU, propuso medir los siguientes aspectos de la violencia contra la mujer: tasa de violencia, tasa de violencia físi- ca, tasa de violencia psicológica, tasa de violencia sexual y tasa de violencia sin reportar. También recomendaron desagregar los datos para obtener indicadores más diferenciados por características como: área geográfica; condición de pobreza de los hogares; edad de la mujer; su estado de actividad; su nivel de educación; su estado de embarazo; su grupo étnico; y su relación con el agresor (Alméras y col., 2001; Indicators to measure violence against women, 2007). En 2008, se decreta el Decreto Número 22-2008, Ley contra el femicidio y otras formas de violencia contra la mujer. En su artículo 3, define la violencia contra la mujer como “toda acción u omisión basada en la pertenencia al sexo femenino que tenga como resultado el daño inmediato o ulterior, sufrimiento físico, sexual, económico o psicológico para la mujer, así como las amenazas de tales actos, la coacción o la privación arbitraria de la libertad, tanto si se produce en el ámbito público como en el ámbito privado.” En este mismo artículo además lista y define las siguientes como tipos de violencia contra la mujer: 1. económica: acciones/omisiones que repercuten en el uso, goce o acceso de una mujer a sus bienes materiales; 2. física: acciones de agresión que utiliza fuerza corporal, armas o sustancias para hacer daño, lastimar o enfermar a una mujer; 3. psicológica o emocional: acciones que producen daño o sufrimiento, psicológico o emo- cional, amenazas o violencia con objeto de intimidar, menoscabar el autoestima o controlar a la víctima; y 4. sexual: “acciones de violencia física o psicológica cuya finalidad es vulnerar la libertad e indemnidad sexual de la mujer” (“Decreto Número 22-2008”, 2008). En su artículo 20, este indica que el INE está obligado a generar indicadores e información, y debe crear un Sistema Nacional de Información sobre Violencia contra la Mujer-SNIVM (“Decreto Número 22-2008”, 2008). 7 CAPÍTULO 3 Justificación Con el nuevo milenio, varios gobiernos y países se comprometieron con los esfuerzos por adoptar nuevas tecnologías y con la transparencia de información. En el contexto de Guate- mala, la “Política Nacional de Datos Abiertos 2018-2022” (2018) menciona que el gobierno trabajará para “crear o respaldar programas e iniciativas que promuevan el desarrollo o crea- ción conjunta de bases de datos, visualizaciones, aplicaciones y otras herramientas basadas en datos abiertos”. Si bien el resultado del ODB fue mejor en 2020 que en años anteriores, Guatemala aún tiene espacios para mejora. En los resultados publicados por ILDA, destaca el cero en el subíndice de Impacto, ya que varios Decretos refieren al INE u otra entidad a la recopilación y publicación de estadísticas e indicadores, parece que estos no se utilizan en la toma de decisiones. El INE publicó en el año 2022 un dashboard con indicadores para cada uno de los temas de los que recopila estadísticas. Sin embargo, la extracción de la información del mismo no está disponible de manera directa, y replicar el mismo se dificulta por el hecho de que no fue hasta 2019 que se publicó información en formato tipo Excel, siendo en años anteriores de tipo SPSS. Esto es concordante con lo presentado por ILDA, pues se indicó que el conjunto de datos de estadísticas de delitos no está en formatos legibles por computadora ni son reutilizables, y que este no se actualiza regularmente (algunos temas se actualizan de manera trimestral, mientras que otros se actualizan solo anualmente) y tampoco es fácil encontrar información sobre el mismo (https://barometrolac.org/). IPAS, una ONG internacional, llevó a cabo una investigación primaria y un análisis de datos secundarios sobre violencia sexual en El Salvador, Guatemala, Honduras y Nicaragua entre 2009 y 2013; dicha iniciativa apoyada por UNFPA. Estudios realizados por el IPAS evidenciaron las “limitaciones en el reporte, análisis y difusión de datos sobre las diferentes formas de violencia sexual", y abordaron la “necesidad de definir variables e indicadores consensuados a nivel nacional y regional para producir información y garantizar la compa- rabilidad de los datos provenientes de diferentes fuentes y sectores” (Fondo de Población de las Naciones Unidas (UNFPA), 2013). Dado que el INE publicó la Boleta de Violencia Intrafamiliar para el año 2021, puede asumirse que esta gestión aún se lleva en papel, por lo 9 https://barometrolac.org/ que se puede asumir o esperar que el INE se vea sujeto al Decreto 5-2021; sin embargo, sería poco efectivo el digitalizar trámites sin tener una planificación de la estructura de datos a seguir, o sin tomar en cuenta que la nueva información se adecúe a información histórica, para no perder comparabilidad y dificultar el análisis. Citando a la Organización para la Cooperación y el Desarrollo Económicos (OECD), la falta de un modelo general de gober- nanza de datos “puede conducir a la proliferación o duplicación de estándares de datos y soluciones técnicas para compartir datos, lo que dificulta la interoperabilidad de datos entre diferentes organizaciones y sectores, y afecta la posibilidad de integrar datos, procesos y organizaciones” (OECD, 2019) Los gobiernos y entidades gubernamentales pueden reducir costos operativos haciendo uso de la nueva información que surge del big data, y esta puede ayudar a mejorar la toma de decisiones y aumentar la eficiencia y eficacia de la organización (Joseph y Johnson, 2013). La centralización de datos, además de permitir una automatización de los procesos de análisis y consecuentemente aumentar la eficiencia de organizaciones, permite que dicha información pueda utilizarse para modelos analíticos y algoritmos predictivos para evitar la reincidencia. Un estudio del uso de inteligencia artificial para la prevención de violencia contra la niñez cita que “el poder de big data para mejorar la precisión de la predicción del riesgo, combinando información sobre correlatos conocidos de violencia para producir índices de riesgo compuestos, es potencialmente mucho mayor que el de los humanos” (Daly y col., 2019; Hunt y col., 2020). Las tecnologías a utilizar en el proyecto serán el gestor de bases de datos relacionales PostgreSQL, el lenguaje de programación para análisis estadístico R y el software para análisis de datos Power BI, dado que estas son tecnologías utilizadas actualmente por el INE y son aptas para la limpieza y transformación de datos, la gestión bases de datos relacionales y la obtención de indicadores estadísticos y visualizaciones de datos. 10 CAPÍTULO 4 Objetivos 4.1. Objetivo general Definir una metodología de extracción y transformación de datos utilizando el lenguaje de programación para análisis estadístico R sobre información histórica de violencia intra- familiar con destino a una base de datos relacional en el gestor PostgreSQL, la cual servirá de entrada al software de análisis de datos Power BI para la toma de decisiones. 4.2. Objetivos específicos Definir un modelo de datos que contemple información necesaria relacionada con la violencia contra la mujer. Definir reglas de limpieza y criterios de calidad sobre el modelo de datos. Diseñar una canalización de datos para la migración de información pública de vio- lencia intrafamiliar desde el origen de datos hasta una base de datos relacional en el gestor PostgreSQL utilizando el lenguaje de programación R. Definir y documentar indicadores clave de rendimiento (KPI por sus siglas en inglés) sobre violencia intrafamiliar elaborados sobre el modelo de datos implementado. Diseñar un prototipo de tablero en el software Power BI con indicadores de violencia contra la mujer relevantes a partir de la información transformada. 11 CAPÍTULO 5 Alcance Este trabajo se enfocará en los datos recopilados anualmente por el INE en Guatemala sobre violencia intrafamiliar entre los años de 2008 a 2021, los disponibles al público, los cuales se encuentran almacenados en archivos de Excel y/o SPSS. Se realizará un prototipo de integración completa de Inteligencia de Negocios (por sus siglas en inglés BI) que consta de modelo de datos y limpieza de los mismos. Se propondrá una estructura de datos relacional, con el objetivo de tener un control de calidad de la misma y para definir reglas de limpieza, la cual se realizará en R, al igual que la ingesta de datos; esto dado que la curva de aprendizaje del programa no representará una gran inversión en capacitaciones. Además, la implementación es más transparente y personalizable, y no requiere del uso de una interfaz gráfica. El gestor de bases de datos a utilizar será PostgreSQL. Un comparativo de esta tecnología se encuentra en el marco teórico. Finalmente, el prototipo de tablero se realizará en Power BI, dado que esta es otra herramienta gratuita y soportada por Windows, y esta además puede conectarse directamente a diversas bases de datos. El entregable final será el modelo de datos sugerido, los criterios y reglas de limpieza propuestas, la canalización programada en R y un tablero de Power BI accesando a base de datos, presentando indicadores y visualizaciones a partir de la información transformada. 13 CAPÍTULO 6 Marco teórico 6.1. Gobierno electrónico Según el Acuerdo Gubernativo número 346- 2004 (2004), el gobierno electrónico es la aplicación de las TIC “con el propósito de lograr eficacia y transparencia en la gestión del gobierno”, y sus objetivos son “la atención y participación ciudadana, buen gobierno en las gestiones internas institucionales, eficiencia, productividad y transparencia.” 6.2. Gobierno digital El Plan de Gobierno Digital 2021-2026 (2021) cita que el gobierno digital se “refiere al uso de tecnologías digitales, como parte integral de las estrategias de modernización de los gobiernos para crear valor público”. 6.3. Ingeniería de datos La ingeniería de datos comprende el recopilar, administrar y analizar grandes conjun- tos de datos, con el fin de proporcionar los conjuntos de datos y las herramientas visuales correctos para el análisis por parte de científicos de datos. Involucra el desarrollo, mante- nimiento, las pruebas y evaluaciones de soluciones de big data dentro de las organizaciones (IBM Certified Data Engineer - Big Data, S.f.). 6.3.1. Modelado de datos El modelado de datos es el proceso de crear una representación visual de un sistema de información completo o partes de él para comunicar conexiones entre puntos de datos y 15 estructuras. El objetivo es ilustrar los tipos de datos utilizados y almacenados dentro del sistema, las relaciones entre estos tipos de datos, las formas en que se pueden agrupar y organizar y sus formatos y atributos (IBM Cloud Education, 2020). 6.3.1.1. Data warehouse Un data warehouse es un tipo de sistema de gestión de datos diseñado para actividades de inteligencia de negocios (BI), especialmente análisis. Están destinados únicamente para realizar consultas y análisis. Los datos dentro del mismo generalmente se derivan de una amplia gama de fuentes, y a menundo son grandes cantidades de datos históricos (What is a Data Warehouse?, S.f.). 6.3.1.2. Star schema Un star schema o esquema de estrella es un tipo de esquema de bases de datos, un modelo dimensional implementado en sistemas de gestión de bases de datos relacionales, el cual consiste de una tabla central, llamada una tabla de “hechos”, que contiene las medi- das numéricas del evento, rodeada por tablas de dimensiones con el contexto (Esquema de estrella, S.f. Kimball y Ross, 2013). 6.3.2. Datos abiertos Según la Política Nacional de Datos Abiertos (2018), estos son “datos digitales que son puestos a disposición del público con las características técnicas y jurídicas necesarias para que puedan ser usados, reutilizados y redistribuidos libremente por cualquier persona, en cualquier momento y en cualquier lugar” (Degenhart Asturias y col., 2018). 6.3.3. Gobernanza de datos El Comité de Sistemas de Seguridad Nacional (CNSS por sus siglas en inglés) de Estados Unidos define la gobernanza de datos como un conjunto de procesos que asegura el manejo formal de datos de una entidad o empresa, estableciendo parámetros de autoridad y toma de decisiones en relación a la información producida o manejada (CNSS, 2015). En el sector público, la OECD destaca que dado el reciente uso indebido de datos por parte de empresas privadas, la mejora a la protección de los datos personales es una prioridad en agendas políticas. Definir un modelo general de gobernanza de datos puede evitar la proliferación o duplicación de estándares de datos y soluciones técnicas para compartir datos (OECD, 2019). 16 6.3.4. Tipos de datos La CNSS (2015) define los datos como “información en una representación específica, generalmente como una secuencia de símbolos que tienen significado”. 6.3.4.1. Estructurados Los datos estructurados se encuentran altamente organizados, siguiendo un formato rí- gido, por lo que se dice que es fácil de descifrar y de organizar y buscar. Usualmente se maneja utilizando (Por sus siglas en inglés structured query language; lenguaje de consulta estructurada en español) lenguaje de programación desarrollado por IBM en 1974 (SQL) y utiliza datos cuantitativos (IBM Cloud Education, 2021a; Marr, 2019). 6.3.4.2. No estructurados Los datos no estructurados no pueden ser analizados por procesos y métodos conven- cionales, ya que no cuentan con un modelo de datos preestablecido o asignado. Usualmente son información cualitativa, como fotos, archivos de texto o audio, publicaciones en redes sociales, entre otros (IBM Cloud Education, 2021a; Marr, 2019). 6.3.4.3. Semi estructurados Los datos semi estructurados, como los datos no estructurados, tampoco tienen un mo- delo de datos predefinido y son más complejos que los datos estructurados, pero son más fáciles de almacenar que los datos no estructurados, ya que contienen características útiles para su clasificación (IBM Cloud Education, 2021a; Marr, 2019). 6.3.5. Bases de datos Según el sitio de Oracle, una base de datos es “una colección organizada de información estructurada, o datos, normalmente almacenados electrónicamente en un sistema informáti- co” (What is a database?, S.f.). Es de particular interés las bases de datos relacionales, dado que estas son la manera más eficiente y flexible de acceder a datos estructurados. Esto es dado que elementos de una base de datos relacional se organizan como un conjunto de tablas con columnas y filas (What is a database?, S.f.). 6.3.5.1. Sistema de gestión de bases de datos relacionales Un sistema de gestión de bases de datos (por sus siglas en inglés DBMS) sirve como una interfaz entre la base de datos y los usuarios finales o programas. Permite recuperar, actualizar y administrar la organización y optimización de la información. Algunos de estos 17 son Microsoft SQL Server, Oracle Database, PostgreSQL y MySQL (What is a database?, S.f.). 6.3.5.2. Tipos de datos La información en las columnas, en el caso de una base de datos relacional, representa información numérica o categórica. Algunos de los tipos de dato manejados son: 1. Numéricos integer: números enteros float (punto flotante), double (doble precisión): números decimales 2. Carácteres char: carácter 3. Valores de fecha y hora En particular, el lenguaje SQL maneja valores como char y varchar para definir cadenas de texto de tamaño fijo y variable con un máximo de carácteres, respectivamente, al igual que un tipo de dato de carácteres para identificar un Identificador único universal, un número de 16 bytes (UUID). 6.4. Análisis de datos El análisis de datos puede definirse como la capacidad de derivar ciertas métricas o indica- dores clave de rendimiento (KPI) de los datos (What is Data Analytics?, S.f.). Este análisis puede ser predictivo, prescriptivo (ayuda a determinar qué acción tomar), de diagnóstico (ayuda a explicar por qué ocurren ciertas cosas) o descriptivo (What is Data Analytics?, S.f.). Este último es en el que radica el reportaje, que es uno de los pilares de la inteligencia de negocios: responde al cómo, cuándo, cuántos y qué (What is Data Analytics?, S.f.). Un lenguaje utilizado para el análisis de datos es R, junto con la aplicación RStudio, dado que este es un lenguaje y entorno para computación estadística y gráficos. 18 Cuadro 1: Comparación de características entre gestores de bases de datos. Característica Oracle PostgreSQL MS SQL Server MySQL Permite filtros sobre funciones agregadas No Sí No No Soporta PIVOT Sí No Sí No Consultas en paralelo Sí Sí Sí No Comparación utilizando expre- siones regulares (RegEx) Sí Sí No Sí Extraer parte de un valor string basado en RegEx (Substring) Sí Sí No Sí Reemplazar valores usando Re- gEx Sí Sí No Sí Permite definir restricciones en llaves foráneas que se verifican so- lo en el momento de la confirma- ción Sí Sí No No Permite definir verificaciones de restricciones (check constraints) Sí Sí Sí Sí Permite usar tipos de datos defi- nidos por el usuario Sí Sí No No Permite usar tipos de datos boo- leanos según el estándar SQL No Sí No No Tipos de datos DATE (solo alma- cena fecha) No Sí Sí Sí Tipos de datos para UUID No Sí Sí No Permite restaurar enunciados Lenguaje de definición de datos, subconjunto de SQL que describe datos y relaciones en una base de datos (DDL) No Sí Sí No Licencia gratuita para uso comer- cial No Sí No Sí Fuente: Kellerer, S.f. 6.4.1. Visualización de datos La visualización de datos es la representación de datos mediante el uso de gráficos, tablas, diagramas, e infografías, con el objetivo de “comunicar relaciones de datos complejas y conocimientos basados en datos de una manera que es fácil de entender” (IBM Cloud Education, 2021b). El Harvard Business Review divide la visualización de datos en cuatro propósitos principales: generación de ideas, ilustración de ideas, descubrimiento visual y visualización de datos cotidianos. Una herramienta para visualización de datos es Power BI Desktop es un programa de- sarrollado por Microsoft, su objetivo es ser “una solución de análisis empresarial basado en 19 la nube, que permite unir diferentes fuentes de datos, analizarlos y presentar un análisis de estos a través de informes y paneles” (Menendez, S.f.). Un comparativo de esta tecnología contra un software competidor, Tableau, se encuentra en el Cuadro 2. Cuadro 2: Comparación de características entre Power BI y Tableau. Característica Power BI Tableau Sistemas operativos sopor- tados Windows Windows, MacOS, Linux Versión gratuita Acceso a todas las funcio- nes básicas de Power BI, conexión a múltiples fuen- tes de datos y pueden pu- blicarse en la web Permite conexión a Excel, CSV, y archivos JSON. to- das las visualizaciones son públicas Rango de precios de licen- cias individuales Gratis o $9.99 a $20 $35 a $72 Licencias para empresas Desde $4995 $12-$15 por vista Fuente: Compare Tableau to Microsoft Power BI, S.f. Edmond, 2021 6.5. Canalización de datos IBM describe una canalización de datos o data pipeline como un método de ingesta de datos sin procesar para su análisis, luego de transferirlos a un almacén de datos (What is a data pipeline?, S.f.). 6.5.1. Procesamiento por lotes El procesamiento por lotes, como el nombre lo implica, carga "lotes"de datos a un re- positorio durante intervalos de tiempo establecidos; de acuerdo con IBM, “los trabajos de procesamiento por lotes forman un flujo de trabajo de comandos secuenciados, donde la salida de un comando se convierte en la entrada del siguiente comando” (What is a data pipeline?, S.f.). 6.5.2. ETL Una canalización ETL (por sus siglas en inglés Extract, Transform, Load; extraer, trans- formar, cargar en español) sigue un orden específico, como su abreviatura lo indica. Las transformaciones son aplicadas hasta que los datos se han cargado al repositorio de datos (What is a data pipeline?, S.f.). 20 CAPÍTULO 7 Marco metodológico 7.1. Cronograma de actividades Figura 1: Cronograma de actividades 7.2. Modelo de base de datos preliminar El diseño del modelo de bases de datos se realizará en el sitio app.diagrams.net. Se diseñará un modelo de base de datos en un esquema de estrella, tomando en consideración 21 app.diagrams.net las reglas de negocio del INE. El diagrama entidad relación preliminar se encuentra en la Figura 2. Figura 2: Diagrama entidad relación del modelo de datos preliminar. 7.3. Canalización ETL 7.3.1. Limpieza de datos Se definirá una estrategia de limpieza de datos, al igual que procesos de control de calidad de los datos. Esta además deberá ser escalable y contemplar posibles cambios de variables a lo largo de los años. 7.3.2. Ingesta y transformación de datos Se realizará un script en R para automatizar la ingesta y transformación de datos al modelo propuesto, para su carga a la base de datos relacional en PostgreSQL. 7.4. Análisis y visualización de datos 7.4.1. Definición de indicadores de rendimiento A partir de información presentada por organizaciones tales como la ONU o ECLAC, se definirán indicadores para medir la violencia intrafamiliar y la violencia contra la mujer. 22 7.4.2. Prototipo de tablero Se definirá un prototipo de tablero con visualizaciones relevantes y los KPIs definidos sobre información sobre violencia contra la mujer en Power BI, por medio de una conexión a la base de datos transformada. Figura 3: Diagrama de arquitectura y ETL preliminar. 23 CAPÍTULO 8 Resultados 8.1. Canalización ETL 8.1.1. Ingesta de datos Se realizó, utilizando la librería para aplicaciones web Shiny, una aplicación en R para la compilación de información a partir de varios archivos de extensión .sav, y la publicación de la misma a una base de datos en PostgreSQL, la cual se utilizará como staging, es decir de almacenamiento temporal. Figura 4: Captura de pantalla de aplicación en Shiny para carga de archivos. 25 8.1.2. Limpieza de datos La estrategia de limpieza de datos se enfoca en diez de reglas, descritas a continuación: Se cambiaron todos los nombres de columnas a minúsculas, para mayor facilidad de trabajo en PostgreSQL. Varias de las bases de datos contenían el error ortográfico “agr_gurpet”, el cual se corrigió a agr_grupet. Se reemplazaron campos vacíos con el código equivalente a “Ignorado” para las colum- nas de vic_alfab, agr_alfab, vic_escolaridad, agr_escolaridad, vic_est_civ, agr_- est_civ, vic_trabaja, agr_trabaja, organismo_remite, organismo_jurisdiccional, vic_- otras_hom, vic_otras_muj, vic_otras_n_as, vic_otras_n_os, agr_otros_hom, agr_- otros_muj, agr_otros_n_as, agr_otros_n_os, num_hij_hom, num_hij_muj, con- ducente, hec_recur_denun e inst_denun_hecho. Se reemplazaron campos vacíos de las columnas de agr_ocup, agr_dedica y vic_- ocup, vic_dedica con el código equivalente a “Ignorado”, solo cuando agr_trabaja y vic_trabaja tenían el código de “Ignorado”, respectivamente. Se reemplazaron campos vacíos de la columna tipo_discaq con el código equivalente a “Ignorado” solo cuando vic_disc tenía algún tipo de discapacidad o esta última tenía el código “Ignorado”. Se reemplazaron campos vacíos de la columna inst_donde_denuncio con el código equivalente a “Ignorado” solo cuando hec_recur_denun era equivalente a “Sí”; si hec_- recur_denun era equivalente a “No”, se reemplazó inst_donde_denuncio a “No aplica”, y si era equivalente a “Ignorado”, se reemplazó este último al código equivalente a “Ignorado”. Se reemplazaron años menores a 1900 o valores vacíos en este campo por el equivalente a “Ignorado”. Si el año era equivalente “Ignorado”, los valores de mes y día cambiaron al código “Ignorado”. Se evaluó la validez de las fechas. Para fechas inválidas, si el día, mes y año eran distintos del código equivalente a “Ignorado”, se seleccionó la última fecha del mes. Se reemplazaron campos vacíos de la columna tipo_medida con el código equivalente a “Ignorado” solo cuando se otorgaron medidas de seguridad, es decir, medidas_- seguridad era igual a 1; si medidas_seguridad era igual a 2, es decir que no se otorgaron medidas de seguridad, este se reemplazó por un código equivalente a “Ninguno”, el cual se insertó para distinguir casos de valores vacíos en caso de si era ignorado si se otorgaron medidas. Si alguno de los datos se encontraba en la tabla de hechos/temporal, pero no en la de dimensión, se insertaron valores dummy o ficticios, los cuales deberían revisarse para respetar la gobernanza de datos. 26 8.1.3. Transformación de datos Las tablas de dimensión se poblaron siguiendo la información publicada en los dicciona- rios del INE. Un ejemplo de estos, el del año 2021, puede encontrarse en los anexos. Cabe destacar las siguientes seis excepciones: Se agregó una descripción de “No aplica” para las dimensiones de institucion_denuncia, organo_jurisdiccional, organo_remite. Se agregó una descripción de “Ninguno” o “Ninguna” a las dimensiones de dim_- medida_seguridad y dim_discapacidad. La dimensión tiempo agrupa los campos de año, mes y día, y además incluye datos útiles para inteligencia de negocio como el día de la semana. Las dimensiones dim_escolaridad_vic y dim_escolaridad_agr agrupan las columnas de vic_alfab y vic_escolaridad y agr_alfab y agr_escolaridad, respectivamente. Si la columna de alfabetismo es “Ignorado”, se coloca en la descripción de escolaridad como “Ignorado”. Por otro lado, si la columna de alfabetismo es “No”, se coloca en la descripción de escolaridad como “Ninguno”, esto para mantener congruencia ya que el INE nunca llena esta columna si la víctima o el agresor es analfabeta. Las dimensiones dim_ocupacion_vic y dim_ocupacion_agr agrupan las columnas de vic_trabaja, vic_ocup y vic_dedica y agr_trabaja, agr_ocup y agr_dedica. La dimensión dim_ley_aplicable no incluye descripciones que hacen referencia a más de una ley, como “Ambas leyes (VIF Y VCM)”, si no que estas se manejan como una relación muchos a muchos por medio de la tabla bridge_ley. Se realizó un script en R para automatizar dichas transformaciones de datos al modelo propuesto, para su carga a la base de datos relacional en PostgreSQL. El diagrama entidad relación de la base de datos puede observarse en la Figura 5. 8.2. Análisis y visualización de datos 8.2.1. Definición de indicadores de rendimiento 8.2.1.1. Indicadores de violencia contra la mujer De acuerdo con los Objetivos de Desarrollo Sostenible presentados por la ONU, se propo- nen como indicadores de rendimiento de violencia contra la mujer los descritos en el Cuadro 3. 27 Figura 5: Diagrama entidad relación final de datos, generado con DBeaver. 28 Cuadro 3: Indicadores de violencia contra la mujer presentados en el tablero KPI Fórmula Ejemplo Tasa de cada 10 mil vícti- mas mujeres y niñas mayo- res de 15 años municipal, departamental y nacional MQ TQ × 10000 (1) Donde MQ es el total de denuncias cuya víctima es una mujer mayor de 15 años y TQ es el total de mujeres mayores de 15 años del municipio, departamen- to o a nivel nacional, según el censo nacional de 2018. Para el año 2020, se regis- traron 1999 mujeres mayo- res de 15 años como vícti- mas de violencia contra la mujer en el departamento de Guatemala. Por lo tan- to, la tasa es 1999×10000 1565878 = 12.77 denuncias por cada 10 mil mujeres mayores de 15 años en el departamen- to. Tasa de cada 10 mil mu- jeres y niñas mayores de 15 años que sujetas a al- gún tipo de violencia físi- ca, sexual o psicológica por parte de su conviviente, es- poso o exconviviente, a ni- vel municipal y departa- mental, por forma de vio- lencia y por grupo quinque- nal de edad (Goal 5: Achie- ve gender equality and em- power all women and girls, S.f.) MQP TQ × 10000 (2) Donde MQP es el total de mujeres mayores de 15 años sujetas a algún tipo de vio- lencia física, sexual o psico- lógica por parte de su con- viviente, esposo o exconvi- viente del municipio o de- partamento y TQ es como se define en 1 Para el departamento de Guatemala, en el año 2021 388 mujeres entre 30 y 34 años de edad presenta- ron denuncias a las cua- les aplica la Ley VCM. De estas, 100 reportaron que el tipo de agresión su- frida fue físico-psicológica. Por lo tanto, la tasa es 100×10000 1565878 = 0.59 denun- cias por violencia físico- psicológica en el rango de 30 a 34 años por cada 10 mil mujeres mayores de 15 años en el departamento. Tasa de cada 10 mil muje- res y niñas mayores de 15 años sometidas a algún ti- po de violencia sexual por parte de hombres que no sean su conviviente, espo- so o exconviviente por edad y lugar de ocurrencia, a nivel municipal y departa- mental, por forma de vio- lencia y grupo quinquenal de edad (Goal 5: Achieve gender equality and empo- wer all women and girls, S.f.) MQ∼PS TQ × 10000 (3) Donde MQ∼PS es el total de mujeres mayores de 15 años sujetas a algún tipo de violencia sexual por par- te de hombres que no sean su conviviente, esposo o ex- conviviente del municipio o departamento y TQ es co- mo se define en 1 Para el departamento de Chimaltenango, en el año 2021 4 mujeres entre 60 y 64 años de edad presenta- ron denuncias a las cua- les aplica la Ley VCM, su- friendo el tipo de agresión sexual-patrimonial por al- guien distinto a un esposo, conviviente o exconviviente hombre. Por lo tanto, la ta- sa es 4×10000 318622 = 0.12 denun- cias por violencia sexual- patrimonial en el rango de 60 a 64 años por cada 10 mil mujeres mayores de 15 años en el departamento. 29 (Continuación de Cuadro 3) KPI Fórmula Ejemplo Tasa de denuncia de ca- da 10 mil mujeres mayores a 15 años cuyo agresor es hombre, por grupo étnico, a nivel municipal y depar- tamental MQG TQG × 10000 (4) Donde MQG es el total de mujeres mayores de 15 años que denunciaron cualquier tipo de violencia ejercida por un hombre, por grupo étnico G, y TQG es el to- tal de mujeres mayores de 15 años del municipio o de- partamento del mismo gru- po étnico G. Para el departamento de Chimaltenango, en el año 2021 2 mujeres garífunas de edad presentaron de- nuncias a las cuales aplica la Ley VCM. Por lo tanto, la tasa es 2×10000 289 = 69.02 denuncias por cada 10 mil mujeres garífunas mayores de 15 años en el departa- mento. Para 1, 2, 3 y 4, para poder tomarlos como indicadores de Violencia Contra la Mujer, la información fue filtrada para casos en los que la ley aplicable era el Decreto 22-2008. El objetivo de 4 es mostrar si, a nivel municipal o departamental, existe alguna preva- lencia de violencia por el factor de grupo étnico. Para esto, fue necesario incluir en el modelo de bases de datos información del censo agregado a departamental y municipal, por grupo étnico. 8.2.1.2. Indicadores de violencia intrafamiliar Cuadro 4: Indicadores de violencia intrafamiliar presentados en el tablero KPI Fórmula Ejemplo/interpretación Distribución porcentual por departamento de registro/hecho Dd TD × 100 (5) Donde Dd es el total de denuncias registradas en el departamento y TD es el to- tal de denuncias registra- das/donde ocurrió el he- cho. Es el porcentaje que repre- sentan las denuncias/he- chos del departamento res- pecto al total de denuncia- s/hechos a nivel nacional. Total de denuncias regis- tradas anualmente/men- sualmente TD (6) Donde TD es el total de denuncias registradas en el periodo dado. 30 (Continuación de Cuadro 4) KPI Fórmula Ejemplo Total de hechos anuales/- mensuales/por día de la se- mana TH (7) Donde TH es el total de he- chos ocurridos en el perio- do dado. Distribución porcentual de institución que recibe la de- nuncia Di TD × 100 (8) Donde Di es el total de de- nuncias registradas en una institución y TD es el total de denuncias registradas. Es el porcentaje que repre- sentan las denuncias regis- tradas en una institución respecto al total de denun- cias a nivel nacional. Distribución de quién re- porta Dq (9) Donde Dq es el total de de- nuncias registradas, ya sea por una víctima, un fami- liar de la víctima, otro o ig- norado. Distribución porcentual de quién reporta Dq TD × 100 (10) Donde Dq es el total de de- nuncias registradas, ya sea por una víctima, un fami- liar de la víctima, otro o ig- norado, y TD es el total de denuncias registradas. Es el porcentaje que repre- sentan las denuncias por quién reporta respecto al total de denuncias a nivel nacional. Distribución de edad, se- gún el sexo de la víctima/a- gresor Dg,s (11) Donde Dg es el total de denuncias registradas por grupo quinquenal de edad g y por sexo s de la vícti- ma u agresor. Distribución porcentual del grupo étnico de la vícti- ma/agresor De TD × 100 (12) Donde De es el total de denuncias registradas por grupo étnico de la víctima u agresor, y TD es el total de denuncias registradas. Es el porcentaje que repre- sentan las víctimas/agreso- res de un grupo étnico res- pecto al total. 31 (Continuación de Cuadro 4) KPI Fórmula Ejemplo Distribución por sexo y ni- vel de escolaridad de la víc- tima/agresor Dn,s (13) Donde Dn,s es el total de denuncias registradas por nivel de escolaridad n, por sexo s de la víctima u agre- sor. Distribución de relación con el agresor por sexo del agresor Dra,sa (14) Donde Dra,sa es el total de denuncias registradas por relación con el agresor ra por sexo del agresor sa. Distribución de relación con la víctima por sexo de la víctima Drv ,sv (15) Donde Drv ,sv es el total de denuncias registradas por relación con la víctima rv por sexo de la víctima sv. Distribución porcentual del sexo de la víctima/agresor según la ocupación de la víctima/agresor Dt,s TDt × 100 (16) Donde Dt,s es el total de denuncias registradas se- gún la ocupación t (sí tra- baja por un salario/ingre- so, no o ignorado) de la víc- tima u agresor por el sexo de la víctima u agresor, s, y TDt es el total de denuncias registradas egún la ocupa- ción t de la víctima u agre- sor. Para 2021, del total de 29487 víctimas que no tra- bajan por un salario o ingreso, 28865 eran mu- jeres, siendo entonces el 28865×100 29487 = 97.89 porcien- to de víctimas que no tra- bajan por un salario o in- greso. Distribución porcentual del tipo de violencia del hecho Hv TH × 100 (17) Donde Hv es el total de he- chos por tipo de violencia v y TH es el total de hechos ocurridos en el año. Es el porcentaje que repre- sentan los hechos de un ti- po de violencia dado res- pecto al total. 32 (Continuación de Cuadro 4) KPI Fórmula Ejemplo Distribución del tipo de violencia del hecho Hv (18) Donde Hv es el total de de- nuncias por tipo de violen- cia v. Distribución de recurrencia de denuncia por institución donde se denunció previa- mente Dr (19) Donde Dr es el total de denuncias por institución donde el hecho se denunció previamente. r Crecimiento de cantidad de denuncias recurrentes por institución donde se denun- ció previamente Dr,i −Dr,i−1 (20) Donde Dr,i es el total de denuncias por institución donde el hecho se denunció previamente r en el año i. Es la diferencia de denun- cias en una institución da- da entre el año actual y el anterior. Diferencia en denuncias respecto al año anterior, por quién denuncia Dq,i −Dq,i−1 (21) Donde Dq,i es el total de denuncias por quién denun- cia q en el año i. Es la diferencia de denun- cias por quién reporta entre el año actual y el anterior. Porcentaje de agresiones fí- sicas por día de la semana Hv∈física TH × 100 (22) Donde Hv∈{física} es el to- tal de hechos donde el tipo de violencia v es algún ti- po de violencia física (físi- ca, física-psicológica, física- patrimonial, etc.) y TH es el total de hechos ocurridos en día de la semana. En 2021, 5718 hechos de violencia ocurrieron un día sábado, de los cuales 2949 fueron algún tipo de violen- cia física. Por lo tanto, el porcentaje de agresiones fí- sicas para el día sábado es 2949×100 5718 = 51.57%. 8.2.2. Prototipo de tablero Se definió un prototipo de tablero con visualizaciones relevantes y los KPIs definidos sobre información sobre violencia contra la mujer y violencia intrafamiliar en Power BI, por medio de una conexión a la base de datos transformada. Se utilizó Power BI para realizar transformaciones adicionales para visualizaciones. Este tablero mantiene la misma estructura y varias de las visualizaciones que presenta el tablero oficial del INE, con algunas gráficas adicionales añadidas, o con modificaciones a las visualizaciones o presentación de los datos. 33 Figura 6: Captura de pestaña de indicadores de violencia intrafamiliar por datos de registro Figura 7: Captura de pestaña de indicadores de violencia intrafamiliar por datos de la víctima 34 Figura 8: Captura de pestaña de indicadores de violencia intrafamiliar por datos del agresor Figura 9: Captura de pestaña de indicadores de violencia intrafamiliar por datos de hecho 35 Figura 10: Captura de pestaña de insights para el año 2021 Figura 11: Captura de pestaña de indicadores por municipio 36 Figura 12: Captura de pestaña de indicadores por departamento 8.2.3. Presentación de resultados al INE Como parte del trabajo, se realizó una sesión el viernes 24 de junio, en el cual estuvo presente el siguiente personal del INE: Karin Barrios, Jefe A.I. de la sección de Estadísticas Ambientales; Anabella de la Cruz, Jefe A.I. de la sección de Estadísticas Sociales; Patri- cia Zavaleta, Técnica Analista de la Unidad de Violencia Intrafamiliar. Las observaciones comentadas fueron las siguientes, y la minuta de la reunión puede encontrarse en los anexos: Se comentó que los dashboards de Power BI publicados a lo largo del sitio del INE son una parte de un plan institucional para la publicación de indicadores de cada tema. Este se realizó recopilando la información ya publicada en la página del INE. Se comentaron las tecnologías utilizadas actualmente, entrando en detalle que para la realización de los tableros fue necesaria la capacitación de personal. Se comentó a largos rasgos que de encontrar “mejoras a los tableros publicados actual- mente, eran bienvenidas.” Se tuvo una segunda reunión el día 7 de septiembre, con Karin Barrios, Anabela de la Cruz y Karina Escobar, Técnica Analista de la Unidad de Violencia Intrafamiliar. Esta duró 55 minutos, en el cual se destacan las siguientes observaciones: los indicadores calculados pueden beneficiarse de no utilizar la base estática de 2018, sino puede mejorarse utilizando las proyecciones del censo anuales. Sin embargo, el nivel más bajo al que esta llega es desagregada por sexo y edad a nivel municipal, por lo que se perderían los indicadores de prevalencia por grupo étnico. Adicionalmente, se comentó que las estadísticas publicadas anualmente de Violencia Contra la Mujer utilizan principalmente información del Ministerio Público, no de 37 reportes de Violencia Intrafamiliar; esto a pesar de que estos datos registran si una de las leyes aplicable a la denuncia, lo cual es determinado por un organismo jurisdiccional, es la ley de Violencia Contra la Mujer. La retroalimentación del equipo del INE no mostró la recepción esperada, por lo que se propuso llegar a iteraciones del trabajo para encontrar un acuerdo común. 38 CAPÍTULO 9 Conclusiones 1. Se logró desarrollar automatización, identificando limitaciones debido a problemas de gobernanza de datos o falta de gestión de datos maestros. Entre estos, destaca la existencia de códigos de ocupaciones que se cambian o eliminan sin dejar registro o documentación de esto en los diccionarios, como . 2. Utilizando las herramientas propuestas, fue posible implementar una canalización ETL desde la fuente de datos del INE enfocados en el contexto violencia intrafamiliar. Además, es posible diseñar una base de datos relacional con modelo de estrella con la información pública. 3. La base de datos original contenía un total de 73 columnas (esto, después de excluir las columnas de filter_$ y de corregir la columna de agr_gurpet). Fue posible reducir la dimensionalidad de la tabla de hechos a 40 columnas, utilizando 25 tablas de dimensión, agrupando la información de varias columnas, como lo fue el caso de la dimensión tiempo para el hecho, la cual agrupa las columnas originales de ANO_HEC, MES_- HEC y DIA_HEC, y la dimensión tiempo para el registro, la cual agrupa las columnas originales de ANO_EMISION, MES_EMISION y DIA_EMISION. 4. El prototipo de dashboard presentado es dinámico, lo cual implica que puede ser filtrado por diversas dimensiones para su análisis, haciéndolo útil para permitir comparaciones entre años y/o departamentos. 39 CAPÍTULO 10 Recomendaciones 10.1. Al INE 1. Se recomienda la implementación de un equipo o reglas de gobernanza de datos, al igual que una estandarización de procesos de limpieza de datos, todo esto con el objetivo de poder automatizar los procesos de limpieza de datos en la etapa previa a la publicación de información pública. 2. Como aspecto técnico, es posible implementar arquitectura de datos para agilizar la producción de reportes y tableros. 3. El agregar nuevas variables a las bases de datos públicas, como por ejemplo, una variable para identificar (anónimamente) a una víctima de otra, podría permitir evaluar la efectividad de las medidas otorgadas (si las hay), o sería útil para la realización de modelos de prevención de recurrencia. 10.2. Para futuras iteraciones del proyecto 1. Lo planteado en este trabajo puede reutilizarse para añadir modelos de ciencias de datos como lo es el modelado de series de tiempo. También, la metodología actual puede, a largos rasgos, adaptarse y reutilizarse para otras fuentes de datos. 2. Si se desea aportar a una entidad, se debe tener una alineación completa con necesi- dades de la misma. Se debe tener una documentación de los requisitos acordados, y definir un plan de comunicación con la entidad que se trabaje. Se recomienda la inclu- sión de metodologías de recopilación de requisitos del negocio o empresa para futuros proyectos de desarrollos de modelos analíticos. 3. Si bien el agrupar varias columnas en una misma tabla dimensión ayuda para la reduc- ción de dimensionalidad, se debe procurar que la agrupación de columnas sea coherente y que estas estén relacionadas. 41 4. Se debe buscar que los indicadores presentados no solo informen o presenten datos estáticos, sino vale la pena incluir visualizaciones que puedan generar un impacto, por ejemplo, el evaluar por qué algunas instituciones tienen tantas denuncias recurrentes. Es valioso evaluar la creación de indicadores que puedan mostrar si existe alguna prevalencia por género, edad o grupo étnico. 42 CAPÍTULO 11 Bibliografía Alméras, D., Bravo, R., Milosavljevic, V., Montaño, S. & Rico, M. N. (2001). Violence against women in couples: Latin America and the Caribbean : A proposal for measuring its incidence and trends. ECLAC. Berger, O. (2004). Acuerdo Gubernativo No. 346-2004. https://observatorioplanificacion. cepal . org / sites / default / files / instrument / files /G_ACUERDO_REFORMA_ COPRE.pdf CNSS. (2015). Committee on National Security Systems (CNSS) Glossary. https://rmf.org/ wp-content/uploads/2017/10/CNSSI-4009.pdf Comisión Presidencial de Gestión Pública Abierta y Transparencia. (2019). Antecedentes del gobierno electrónico en Guatemala. https://transparencia.gob.gt/wp-content/ uploads/2019/07/DGBOE_Compromiso8Hito2_Antecedentes-Gobierno-Electr% 5C%C3%5C%B3nico.pdf Compare Tableau to Microsoft Power BI. (S.f.). Tableau. https : / / www . tableau . com / compare/tableau-power-bi Daly, A., Devitt, K. & Mann, M. (Eds.). (2019). Good data (Theory on Demand #29). Institute of Network Cultures. Decreto Ley 3-85. (1985). https://www.ine.gob.gt/ine/wp-content/uploads/2017/10/Ley- Org%C3%A1nica-INE.pdf Decreto Número 22-2008. (2008). Diario de Centroamérica. Decreto Número 5-2021. (2021). Diario de Centroamérica. Decreto Número 97-96. (1996). Diario de Centroamérica. Degenhart Asturias, E. A., Juárez Lucas, G. & Reyes Córdova, E. G. (2018). Política Nacio- nal de Datos Abiertos 2018-2022. Ministerio de Gobernación. https://uip.mingob. gob.gt/wp- content/uploads/2019/03/Pol%5C%C3%5C%ADtica-Nacional- de- Datos-Abiertos-2018-2022.pdf Edmond, S. (2021). Power BI vs Tableau: Which one should you choose? Datacamp. https: //www.datacamp.com/blog/power-bi-vs-tableau-which-one-should-you-choose? gclid=EAIaIQobChMIwPu5t4qs3AIVAQAAAB0BAAAAEAAYACAAEgJVzfD_BwE Esquema de estrella. (S.f.). IBM Corporation. https://www.ibm.com/docs/es/ida/9.1.2? topic=schemas-star 43 https://observatorioplanificacion.cepal.org/sites/default/files/instrument/files/G_ACUERDO_REFORMA_COPRE.pdf https://observatorioplanificacion.cepal.org/sites/default/files/instrument/files/G_ACUERDO_REFORMA_COPRE.pdf https://observatorioplanificacion.cepal.org/sites/default/files/instrument/files/G_ACUERDO_REFORMA_COPRE.pdf https://rmf.org/wp-content/uploads/2017/10/CNSSI-4009.pdf https://rmf.org/wp-content/uploads/2017/10/CNSSI-4009.pdf https://transparencia.gob.gt/wp-content/uploads/2019/07/DGBOE_Compromiso8Hito2_Antecedentes-Gobierno-Electr%5C%C3%5C%B3nico.pdf https://transparencia.gob.gt/wp-content/uploads/2019/07/DGBOE_Compromiso8Hito2_Antecedentes-Gobierno-Electr%5C%C3%5C%B3nico.pdf https://transparencia.gob.gt/wp-content/uploads/2019/07/DGBOE_Compromiso8Hito2_Antecedentes-Gobierno-Electr%5C%C3%5C%B3nico.pdf https://www.tableau.com/compare/tableau-power-bi https://www.tableau.com/compare/tableau-power-bi https://www.ine.gob.gt/ine/wp-content/uploads/2017/10/Ley-Org%C3%A1nica-INE.pdf https://www.ine.gob.gt/ine/wp-content/uploads/2017/10/Ley-Org%C3%A1nica-INE.pdf https://uip.mingob.gob.gt/wp-content/uploads/2019/03/Pol%5C%C3%5C%ADtica-Nacional-de-Datos-Abiertos-2018-2022.pdf https://uip.mingob.gob.gt/wp-content/uploads/2019/03/Pol%5C%C3%5C%ADtica-Nacional-de-Datos-Abiertos-2018-2022.pdf https://uip.mingob.gob.gt/wp-content/uploads/2019/03/Pol%5C%C3%5C%ADtica-Nacional-de-Datos-Abiertos-2018-2022.pdf https://www.datacamp.com/blog/power-bi-vs-tableau-which-one-should-you-choose?gclid=EAIaIQobChMIwPu5t4qs3AIVAQAAAB0BAAAAEAAYACAAEgJVzfD_BwE https://www.datacamp.com/blog/power-bi-vs-tableau-which-one-should-you-choose?gclid=EAIaIQobChMIwPu5t4qs3AIVAQAAAB0BAAAAEAAYACAAEgJVzfD_BwE https://www.datacamp.com/blog/power-bi-vs-tableau-which-one-should-you-choose?gclid=EAIaIQobChMIwPu5t4qs3AIVAQAAAB0BAAAAEAAYACAAEgJVzfD_BwE https://www.ibm.com/docs/es/ida/9.1.2?topic=schemas-star https://www.ibm.com/docs/es/ida/9.1.2?topic=schemas-star Fondo de Población de las Naciones Unidas (UNFPA). (2013). The Role of Data in Adressing Violence Against Women and Girls. https://www.unfpa.org/sites/default/files/ resource-pdf/finalUNFPA_CSW_Book_20130221_Data.pdf Goal 5: Achieve gender equality and empower all women and girls. (S.f.). United Nations Department of Economic y Social Affairs. https://sdgs.un.org/goals/goal5 Gobierno Electrónico. (S.f.). Gobierno de Guatemala. https://transparencia.gob.gt/ejes-de- accion/gobierno-electronico/ Hunt, X., Tomlinson, M., Sikander, S., Skeen, S., Marlow, M., du Toit, S. & Eisner, M. (2020). Artificial Intelligence, Big Data, and mHealth: The Frontiers of the Prevention of Violence Against Children. Frontiers in Artificial Intelligence, 3. https://doi.org/ 10.3389/frai.2020.543305 IBM Certified Data Engineer - Big Data. (S.f.). IBM. https://www.ibm.com/training/ certification/50001501 IBM Cloud Education. (2020). What is Data Modeling? IBM. https://www.ibm.com/cloud/ learn/data-modeling IBM Cloud Education. (2021a). Structured vs. Unstructured Data: What’s the difference? IBM. https://www.ibm.com/cloud/blog/structured-vs-unstructured-data IBM Cloud Education. (2021b). What is Data Visualization? IBM. https://www.ibm.com/ cloud/learn/data-visualization ILDA. (S.f.). LinkedIn. https://gt.linkedin.com/company/ilda ILDA. (2020). Barómetro Regional de Datos Abiertos para América Latina y el Caribe 2020. Indicators to measure violence against women. (2007). Naciones Unidas. Joseph, R. C. & Johnson, N. A. (2013). Big Data and Transformational Government. IT Professional, 15 (6), 43-48. https://doi.org/10.1109/MITP.2013.61 Kellerer, T. (S.f.). SQL Feature Comparison. SQL Workbench/J. https://www.sql-workbench. eu/dbms_comparison.html Kim, G.-H., Trimi, S. & Chung, J.-H. (2014). Big-Data Applications in the Government Sector. Commun. ACM, 57 (3), 78-85. https://doi.org/10.1145/2500873 Kimball, R. & Ross, M. (2013). The Data Warehouse Toolkit: The Definitive Guide to Di- mensional Modeling (3.a ed.). Wiley. Ley Orgánica del Instituto Nacional de Estadística y su Reglamento. (S.f.). https://www. ine.gob.gt/ine/wp-content/uploads/2022/01/Ley_Reglamento_INE_dic21.pdf Marr, B. (2019). What’s The Difference Between Structured, Semi-Structured And Uns- tructured Data? Forbes. https://www.forbes.com/sites/bernardmarr/2019/10/ 18/whats- the-difference-between- structured- semi- structured- and-unstructured- data/?sh=3cfbef262b4d Menendez, J. C. (S.f.). ¿Qué es Power BI? Microsoft. https://www2.deloitte.com/es/es/ pages/technology/articles/que-es-power-bi.html OEA. (2006). Declaración de Santo Domingo: Gobernabilidad y Desarrollo en la Sociedad del Conocimiento. Organización de los Estados Americanos (OEA). https://www. oas.org/docs/declarations/AG-DEC-46-Dec-de-Santo-Domingo-SPA.pdf OECD. (2019). The Path to Becoming a Data-Driven Public Sector. https://doi.org/https: //doi.org/https://doi.org/10.1787/059814a7-en The Open Data Barometer. (S.f.). Open Data Barometer. https://opendatabarometer.org/ barometer/ Open Data Barometer - Leaders Edition: ODB Methodology - v1.0. (2017). http://opendatabarometer. org/doc/leadersEdition/ODB-leadersEdition-Methodology.pdf 44 https://www.unfpa.org/sites/default/files/resource-pdf/finalUNFPA_CSW_Book_20130221_Data.pdf https://www.unfpa.org/sites/default/files/resource-pdf/finalUNFPA_CSW_Book_20130221_Data.pdf https://sdgs.un.org/goals/goal5 https://transparencia.gob.gt/ejes-de-accion/gobierno-electronico/ https://transparencia.gob.gt/ejes-de-accion/gobierno-electronico/ https://doi.org/10.3389/frai.2020.543305 https://doi.org/10.3389/frai.2020.543305 https://www.ibm.com/training/certification/50001501 https://www.ibm.com/training/certification/50001501 https://www.ibm.com/cloud/learn/data-modeling https://www.ibm.com/cloud/learn/data-modeling https://www.ibm.com/cloud/blog/structured-vs-unstructured-data https://www.ibm.com/cloud/learn/data-visualization https://www.ibm.com/cloud/learn/data-visualization https://gt.linkedin.com/company/ilda https://doi.org/10.1109/MITP.2013.61 https://www.sql-workbench.eu/dbms_comparison.html https://www.sql-workbench.eu/dbms_comparison.html https://doi.org/10.1145/2500873 https://www.ine.gob.gt/ine/wp-content/uploads/2022/01/Ley_Reglamento_INE_dic21.pdf https://www.ine.gob.gt/ine/wp-content/uploads/2022/01/Ley_Reglamento_INE_dic21.pdf https://www.forbes.com/sites/bernardmarr/2019/10/18/whats-the-difference-between-structured-semi-structured-and-unstructured-data/?sh=3cfbef262b4d https://www.forbes.com/sites/bernardmarr/2019/10/18/whats-the-difference-between-structured-semi-structured-and-unstructured-data/?sh=3cfbef262b4d https://www.forbes.com/sites/bernardmarr/2019/10/18/whats-the-difference-between-structured-semi-structured-and-unstructured-data/?sh=3cfbef262b4d https://www2.deloitte.com/es/es/pages/technology/articles/que-es-power-bi.html https://www2.deloitte.com/es/es/pages/technology/articles/que-es-power-bi.html https://www.oas.org/docs/declarations/AG-DEC-46-Dec-de-Santo-Domingo-SPA.pdf https://www.oas.org/docs/declarations/AG-DEC-46-Dec-de-Santo-Domingo-SPA.pdf https://doi.org/https://doi.org/https://doi.org/10.1787/059814a7-en https://doi.org/https://doi.org/https://doi.org/10.1787/059814a7-en https://opendatabarometer.org/barometer/ https://opendatabarometer.org/barometer/ http://opendatabarometer.org/doc/leadersEdition/ODB-leadersEdition-Methodology.pdf http://opendatabarometer.org/doc/leadersEdition/ODB-leadersEdition-Methodology.pdf Pérez Molina, O. (2020). Acuerdo Gubernativo No. 360-2012 y sus reformas. https : / / transparencia.gob.gt/wp-content/uploads/Acuerdo-Gubernativo-360-2012-2020- 1.pdf Plan de Gobierno Digital 2021-2026. (2021). Comisión Presidencial de Gobierno Abierto y Electrónico. https://transparencia.gob.gt/wp-content/uploads/Plan-de-Gobierno- Digital_M-1.pdf Portillo, A. (2000). Acuerdo Gubernativo No. 831-2000. http://ww2.oj.gob.gt/justiciadegenero/ wp- content/uploads/2014/07/Reglamento - de - la - ley - para - prev. - sancionar - y - erradicar-la-violencia-intrafam..pdf Walby, S. (2016). Ensuring data collection and research on violence against women and domestic violence: Article 11 of the Istanbul Convention. Council of Europe. https: //edoc.coe.int/en/violence- against-women/7138- ensuring-data- collection-and- research - on - violence - against - women- and- domestic - violence - article - 11 - of - the - istanbul-convention.html What is a data pipeline? (S.f.). IBM. https://www.ibm.com/topics/data-pipeline What is a Data Warehouse? (S.f.). Oracle. https://www.oracle.com/database/what-is-a- data-warehouse/ What is a database? (S.f.). Oracle. https://www.oracle.com/database/what-is-database/ What is Data Analytics? (S.f.). Oracle. https://www.oracle.com/business-analytics/data- analytics/ 45 https://transparencia.gob.gt/wp-content/uploads/Acuerdo-Gubernativo-360-2012-2020-1.pdf https://transparencia.gob.gt/wp-content/uploads/Acuerdo-Gubernativo-360-2012-2020-1.pdf https://transparencia.gob.gt/wp-content/uploads/Acuerdo-Gubernativo-360-2012-2020-1.pdf https://transparencia.gob.gt/wp-content/uploads/Plan-de-Gobierno-Digital_M-1.pdf https://transparencia.gob.gt/wp-content/uploads/Plan-de-Gobierno-Digital_M-1.pdf http://ww2.oj.gob.gt/justiciadegenero/wp-content/uploads/2014/07/Reglamento-de-la-ley-para-prev.-sancionar-y-erradicar-la-violencia-intrafam..pdf http://ww2.oj.gob.gt/justiciadegenero/wp-content/uploads/2014/07/Reglamento-de-la-ley-para-prev.-sancionar-y-erradicar-la-violencia-intrafam..pdf http://ww2.oj.gob.gt/justiciadegenero/wp-content/uploads/2014/07/Reglamento-de-la-ley-para-prev.-sancionar-y-erradicar-la-violencia-intrafam..pdf https://edoc.coe.int/en/violence-against-women/7138-ensuring-data-collection-and-research-on-violence-against-women-and-domestic-violence-article-11-of-the-istanbul-convention.html https://edoc.coe.int/en/violence-against-women/7138-ensuring-data-collection-and-research-on-violence-against-women-and-domestic-violence-article-11-of-the-istanbul-convention.html https://edoc.coe.int/en/violence-against-women/7138-ensuring-data-collection-and-research-on-violence-against-women-and-domestic-violence-article-11-of-the-istanbul-convention.html https://edoc.coe.int/en/violence-against-women/7138-ensuring-data-collection-and-research-on-violence-against-women-and-domestic-violence-article-11-of-the-istanbul-convention.html https://www.ibm.com/topics/data-pipeline https://www.oracle.com/database/what-is-a-data-warehouse/ https://www.oracle.com/database/what-is-a-data-warehouse/ https://www.oracle.com/database/what-is-database/ https://www.oracle.com/business-analytics/data-analytics/ https://www.oracle.com/business-analytics/data-analytics/ CAPÍTULO 12 Anexos Figura 13: Reunión de aclaración de dudas con Karin Barrios, Patricia Zavaleta y Anabela de la Cruz 47 Figura 14: Minuta de primera reunión, información personal redactada. Cuadro 5: Diccionario de variables base de datos Violencia Intrafamiliar 20211 Código Descripción del código Valor Etiqueta DATOS DE REGISTRO ANO_EMISION Año de emisión o registro de la denuncia en las fuentes de información 2020 2020 MES_EMISION Mes de emisión o registro de la denuncia 1 Enero 2 Febrero 3 Marzo 4 Abril 5 Mayo 6 Junio 7 Julio 8 Agosto 9 Septiembre 10 Octubre 11 Noviembre 12 Diciembre DIA_EMISION Día de emisión o registro de la denuncia 1 a 31 día de registro DEPTO_MCPIO Departamento y municipio de registro 101 Guatemala 102 Santa Catarina Pinula 103 San José Pinula 104 San José del Golfo 105 Palencia 106 Chinautla 107 San Pedro Ayampuc 108 Mixco 109 San Pedro Sacatepéquez 110 San Juan Sacatepéquez 111 San Raymundo 112 Chuarrancho 113 Fraijanes 114 Amatitlán 115 Villa Nueva 116 Villa Canales 117 Petapa 201 Guastatoya 202 Morazán 203 San Agustín Acasaguastlán 204 San Cristóbal Acasaguastlán 205 El Jícaro 206 Sansare 207 Sanarate 208 San Antonio La Paz 301 Antigua Guatemala 302 Jocotenango 303 Pastores 304 Sumpango 305 Santo Domingo Xenacoj 306 Santiago Sacatepéquez 307 San Bartolomé Milpas Altas 308 San Lucas Sacatepéquez 309 Santa Lucía Milpas Altas 310 Magdalena Milpas Altas 311 Santa María de Jesús 48 (Continuación de Cuadro 5) Código Descripción del código Valor Etiqueta 312 Ciudad Vieja 313 San Miguel Dueñas 314 Alotenango 315 San Antonio Aguas Calientes 316 Santa Catarina Barahona 401 Chimaltenango 402 San José Poaquil 403 San Martín Jilotepeque 404 Comalapa 405 Santa Apolonia 406 Tecpán Guatemala 407 Patzún 408 Pochuta 409 Patzicía 410 Santa Cruz Balanyá 411 Acatenango 412 Yepocapa 413 San Andrés Itzapa 414 Parramos 415 Zaragoza 416 El Tejar 501 Escuintla 502 Santa Lucía Cotzumalguapa 503 La Democracia 504 Siquinalá 505 Masagua 506 Tiquisate 507 La Gomera 508 Guanagazapa 509 San José 510 Iztapa 511 Palín 512 San Vicente Pacaya 513 Nueva Concepción 514 Sipacate 601 Cuilapa 602 Barberena 603 Santa Rosa de Lima 604 Casillas 605 San Rafael Las Flores 606 Oratorio 607 San Juan Tecuaco 608 Chiquimulilla 609 Taxisco 610 Santa María Ixhuatán 611 Guazacapán 612 Santa Cruz Naranjo 613 Pueblo Nuevo Viñas 614 Nueva Santa Rosa 701 Sololá 702 San José Chacayá 703 Santa María Visitación 704 Santa Lucía Utatlán 705 Nahualá 706 Santa Catarina Ixtahuacán 707 Santa Clara La Laguna 708 Concepción 709 San Andrés Semetabaj 710 Panajachel 711 Santa Catarina Palopó 712 San Antonio Palopó 713 San Lucas Toliman 714 Santa Cruz La Laguna 715 San Pablo La Laguna 716 San Marcos La Laguna 717 San Juan La Laguna 718 San Pedro La Laguna 719 Santiago Atitlán 801 Totonicapán 802 San Cristobal Totonicapán 803 San Francisco El Alto 804 San Andrés Xecul 805 Momostenango 806 Santa María Chiquimula 807 Santa Lucía La Reforma 808 San Bartolo 901 Quetzaltenango 902 Salcajá 903 Olintepeque 904 San Carlos Sija 905 Sibilia 906 Cabricán 907 Cajolá 908 San Miguel Siguilá 909 Ostuncalco 910 San Mateo 911 Concepción Chiquirichapa 912 San Martín Sacatepéquez 913 Almolonga 914 Cantel 915 Huitán 49 (Continuación de Cuadro 5) Código Descripción del código Valor Etiqueta 916 Zunil 917 Colomba 918 San Francisco La Unión 919 El Palmar 920 Coatepeque 921 Génova 922 Flores Costa Cuca 923 La Esperanza 924 Palestina de Los Altos 1001 Mazatenango 1002 Cuyotenango 1003 San Francisco Zapotitlán 1004 San Bernardino 1005 San José El Ídolo 1006 Santo Domingo Suchitepé- quez 1007 San Lorenzo 1008 Samayac 1009 San Pablo Jocopilas 1010 San Antonio Suchitepéquez 1011 San Miguel Panán 1012 San Gabriel 1013 Chicacao 1014 Patulul 1015 Santa Bárbara 1016 San Juan Bautista 1017 Santo Tomás La Unión 1018 Zunilito 1019 Pueblo Nuevo 1020 Rio Bravo 1021 San José La Máquina 1101 Retalhuleu 1102 San Sebastián 1103 Santa Cruz Muluá 1104 San Martín Zapotitlán 1105 San Felipe 1106 San Andrés Villa Seca 1107 Champerico 1108 Nuevo San Carlos 1109 El Asintal 1201 San Marcos 1202 San Pedro Sacatepéquez 1203 San Antonio Sacatepéquez 1204 Comitancillo 1205 San Miguel Ixtahuacán 1206 Concepción Tutuapa 1207 Tacaná 1208 Sibinal 1209 Tajumulco 1210 Tejutla 1211 San Rafael Pie de La Cuesta 1212 Nuevo Progreso 1213 El Tumbador 1214 El Rodeo 1215 Malacatán 1216 Catarina 1217 Ayutla 1218 Ocós 1219 San Pablo 1220 El Quetzal 1221 La Reforma 1222 Pajapita 1223 Ixchiguán 1224 San José Ojetenam 1225 San Cristóbal Cucho 1226 Sipacapa 1227 Esquipulas Palo Gordo 1228 Rio Blanco 1229 San Lorenzo 1230 La Blanca 1301 Huehuetenango 1302 Chiantla 1303 Malacatancito 1304 Cuilco 1305 Nentón 1306 San Pedro Necta 1307 Jacaltenango 1308 Soloma 1309 Ixtahuacán 1310 Santa Bárbara 1311 La Libertad 1312 La Democracia 1313 San Miguel Acatán 1314 San Rafael La Independencia 1315 Todos Santos Cuchumatán 1316 San Juan Atitán 1317 Santa Eulalia 1318 San Mateo Ixtatán 1319 Colotenango 1320 San Sebastián Huehuetenan- go 50 (Continuación de Cuadro 5) Código Descripción del código Valor Etiqueta 1321 Tectitán 1322 Concepción Huista 1323 San Juan Ixcoy 1324 San Antonio Huista 1325 San Sebastián Coatán 1326 Barillas 1327 Aguacatán 1328 San Rafael Petzal 1329 San Gaspar Ixchil 1330 Santiago Chimaltenango 1331 Santa Ana Huista 1332 Unión Cantinil 1333 Petatán 1401 Santa Cruz del Quiché 1402 Chiché 1403 Chinique 1404 Zacualpa 1405 Chajul 1406 Chichicastenango 1407 Patzité 1408 San Antonio Ilotenango 1409 San Pedro Jocopilas 1410 Cunén 1411 San Juan Cotzal 1412 Joyabaj 1413 Nebaj 1414 San Andrés Sajcabajá 1415 Uspantán 1416 Sacapulas 1417 San Bartolomé Jocotenango 1418 Canillá 1419 Chicamán 1420 Ixcán 1421 Pachalum 1501 Salamá 1502 San Miguel Chicaj 1503 Rabinal 1504 Cubulco 1505 Granados 1506 El Chol 1507 San Jerónimo 1508 Purulhá 1601 Cobán 1602 Santa Cruz Verapaz 1603 San Cristóbal Verapaz 1604 Tactic 1605 Tamahú 1606 Tucurú 1607 Panzós 1608 Senahú 1609 San Pedro Carchá 1610 San Juan Chamelco 1611 Lanquín 1612 Cahabón 1613 Chisec 1614 Chahal 1615 Fray Bartolomé de Las Casas 1616 Santa Catalina la Tinta 1617 Raxruhá 1701 Flores 1702 San José 1703 San Benito 1704 San Andrés 1705 La Libertad 1706 San Francisco 1707 Santa Ana 1708 Dolores 1709 San Luis 1710 Sayaxché 1711 Melchor de Mencos 1712 Poptún 1713 Las Cruces 1714 El Chal 1801 Puerto Barrios 1802 Livingston 1803 El Estor 1804 Morales 1805 Los Amates 1901 Zacapa 1902 Estanzuela 1903 Río Hondo 1904 Gualán 1905 Teculután 1906 Usumatlán 1907 Cabañas 1908 San Diego 1909 La Unión 1910 Huité 1911 San Jorge 2001 Chiquimula 2002 San José La Arada 51 (Continuación de Cuadro 5) Código Descripción del código Valor Etiqueta 2003 San Juan Erminta 2004 Jocotán 2005 Camotán 2006 Olopa 2007 Esquipulas 2008 Concepción Las Minas 2009 Quetzaltepeque 2010 San Jacinto 2011 Ipala 2101 Jalapa 2102 San Pedro Pinula 2103 San Luis Jilotepeque 2104 San Manuel Chaparrón 2105 San Carlos Alzatate 2106 Monjas 2107 Mataquescuintla 2201 Jutiapa 2202 El Progreso 2203 Santa Catarina Mita 2204 Agua Blanca 2205 Asunción Mita 2206 Yupiltepeque 2207 Atescatempa 2208 Jerez 2209 El Adelanto 2210 Zapotitlán 2211 Comapa 2212 Jalpatagua 2213 Conguaco 2214 Moyuta 2215 Pasaco 2216 San José Acatempa 2217 Quesada QUIEN_REPORTA Persona que reporta el hecho 1 Víctima 2 Familiar de la víctima 3 Otro 9 Ignorado DATOS GENERALES DE LA VÍCTIMA VIC_SEXO Sexo de la víctima 1 Hombre 2 Mujer VIC_EDAD Edad de la víctima 1 a 98 Edad de la víctima 99 Edad ignorada de la víctima TOTAL_HIJOS Suma de hijos hombres e hijas mujeres 00 a 20 Total de hijos e Hijas 99 Ignorado NUM_HIJ_HOM Número de hijos hombres de la víctima 00 a 20 Hijos hombres 99 Ignorado NUM_HIJ_MUJ Número de hijas mujeres de la víctima 00 a 20 Hijas mujeres 99 Ignorado VIC_ALFAB Sabe leer y escribir 1 Alfabeta 2 Analfabeta 9 Ignorado VIC_ESCOLARIDAD Nivel de escolaridad de la víctima 10 Ninguno 21 a 26 Primero a sexto primaria 29 Primaria (grado ignorado) 31 a 33 Primero a tercero básico 39 Básico (grado ignorado) 44 a 46 Cuarto a sexto diversificado 49 Diversificado (grado ignora- do) 51 a 57 Primer año a séptimo univer- sitario (Incluye maestría) 59 Universitario (año ignorado) 99 Ignorado (tanto nivel como grado) VIC_EST_CIV Estado conyugal de la víctima 1 Soltero(a) 2 Casado(a) 3 Unido(a) (Unión declarada o no) 4 Viudo(a) 5 Otro 9 Ignorado VIC_GRUPET Pueblo de pertenencia de la víctima 1 Ladino 2 Maya 3 Garífuna 4 Xinka 5 Otro 6 No indica 9 Ignorado VIC_NACIONAL Nacionalidad de la víctima 1 Guatemalteca 52 (Continuación de Cuadro 5) Código Descripción del código Valor Etiqueta 2 Extranjera 9 Ignorado VIC_TRABAJA Condición de empleo de la víctima 1 Si trabaja por un salario o in- greso 2 No trabaja por un salario o ingreso 9 Ignorado VIC_OCUP Ocupación de la víctima (con salario o ingreso dentro o fuera de la casa), Clasificación Internacional Uniforme de Ocupaciones -CIUO- 08 1111 Miembros del poder legislati- vo 1112 Personal directivo de la admi- nistración pública 1113 Jefes de pequeñas poblacio- nes 1114 Dirigentes de organizaciones que presentan un interés es- pecial 1120 Directores generales y geren- tes generales 1211 Directores financieros 1212 Directores de recursos huma- nos 1213 Directores de políticas y pla- nificación 1219 Directores de administración y servicios no clasificados ba- jo otros epígrafes 1221 Directores de ventas y comer- cialización 1222 Directores de publicidad y re- laciones públicas 1223 Directores de investigación y desarrollo 1311 Directores de producción agropecuaria y silvicultura 1312 Directores de producción de piscicultura y pesca 1321 Directores de industrias ma- nufactureras 1322 Directores de explotaciones de minería 1323 Directores de empresas de construcción 1324 Directores de empresas de abastecimiento, distribución y afines 1330 Directores de servicios de tec- nología de la información y las comunicaciones 1341 Directores de servicios de cui- dados infantiles 1342 Directores de servicios de sa- lud 1343 Directores de servicios de cui- dado de las personas de edad 1344 Directores de servicios de bienestar social 1345 Directores de servicios de educación 1346 Gerentes de sucursales de bancos, de servicios financie- ros y de seguros 1349 Directores y gerentes de ser- vicios profesionales no clasifi- cados bajo otros epígrafes 1411 Gerentes de hoteles 1412 Gerentes de restaurantes 1420 Gerentes de comercios al por mayor y al por menor 1431 Gerentes de centros deporti- vos, de esparcimiento y cul- turales 1439 Gerentes de servicios no cla- sificados bajo otros epígrafes 2111 Físicos y astrónomos 2112 Meteorólogos 2113 Químicos 2114 Geólogos y geofísicos 2120 Matemáticos, actuarios y es- tadísticos 2131 Biólogos, botánicos, zoólogos y afines 2132 Agrónomos y afines 2133 Profesionales de la protección medioambiental 2141 Ingenieros industriales y de producción 2142 Ingenieros civiles 2143 Ingenieros medioambientales 2144 Ingenieros mecánicos 53 (Continuación de Cuadro 5) Código Descripción del código Valor Etiqueta 2145 Ingenieros químicos 2146 Ingenieros de minas, metalúr- gicos y afines 2149 Ingenieros no clasificados ba- jo otros epígrafes 2151 Ingenieros electricistas 2152 Ingenieros electrónicos 2153 Ingenieros en telecomunica- ciones 2161 Arquitectos 2162 Arquitectos paisajistas 2163 Diseñadores de productos y de prendas 2164 Urbanistas e ingenieros de tránsito 2165 Cartógrafos y agrimensores 2166 Diseñadores gráficos y multi- media 2211 Médicos generales 2212 Médicos especialistas 2221 Profesionales de enfermería 2222 Profesionales de partería 2230 Profesionales de medicina tradicional y alternativa 2240 Practicantes paramédicos 2250 Veterinarios 2261 Dentistas 2262 Farmacéuticos 2263 Profesionales de la salud y la higiene laboral y ambiental 2264 Fisioterapeutas 2265 Dietistas y nutricionistas 2266 Audiólogos y logopedas 2267 Optometristas 2269 Profesionales de la salud no clasificados bajo otros epígra- fes 2310 Profesores de universidades y de la enseñanza superior 2320 Profesores de formación pro- fesional 2330 Profesores de enseñanza se- cundaria 2341 Maestros de enseñanza pri- maria 2342 Maestros preescolares 2351 Especialistas en métodos pe- dagógicos 2352 Educadores para necesidades especiales 2353 Otros profesores de idiomas 2354 Otros profesores de música 2355 Otros profesores de artes 2356 Instructores en tecnología de la información 2359 Profesionales de la enseñanza no clasificados bajo otros epí- grafes 2411 Contables 2412 Asesores financieros y en in- versiones 2413 Analistas financieros 2421 Analistas de gestión y organi- zación 2422 Especialistas en políticas de administración 2423 Especialistas en políticas y servicios de personal y afines 2424 Especialistas en formación del personal 2431 Profesionales de la publicidad y la comercialización 2432 Profesionales de relaciones públicas 2433 Profesionales de ventas técni- cas y médicas (excluyendo la TIC) 2434 Profesionales de ventas de tecnología de la información y las comunicaciones 2511 Analistas de sistemas 2512 Desarrolladores de software 2513 Desarrolladores web y multi- media 2514 Programadores de aplicacio- nes 2519 Desarrolladores y analistas de software y multimedia y analistas no clasificados bajo otros epígrafes 54 (Continuación de Cuadro 5) Código Descripción del código Valor Etiqueta 2521 Diseñadores y administrado- res de bases de datos 2522 Administradores de sistemas 2523 Profesionales en redes de computadores 2529 Especialistas en bases de da- tos y en redes de computado- res no clasificados bajo otros epígrafes 2611 Abogados 2612 Jueces 2619 Profesionales en derecho no clasificados bajo otros epígra- fes 2621 Archivistas y curadores de museos 2622 Bibliotecarios, documentalis- tas y afines 2631 Economistas 2632 Sociólogos, antropólogos y afines 2633 Filósofos, historiadores y es- pecialistas en ciencias políti- cas 2634 Psicólogos 2635 Profesionales del trabajo so- cial 2636 Profesionales religiosos 2641 Autores y otros escritores 2642 Periodistas 2643 Traductores, intérpretes y lingüistas 2651 Artistas de artes plásticas 2652 Músicos, cantantes y compo- sitores 2653 Bailarines y coreógrafos 2654 Directores de cine, de teatro y afines 2655 Actores 2656 Locutores de radio, televisión y otros medios de comunica- ción 2659 Artistas creativos e interpre- tativos no clasificados bajo otros epígrafes 3111 Técnicos en ciencias físicas y químicas 3112 Técnicos en ingeniería civil 3113 Electrotécnicos 3114 Técnicos en electrónica 3115 Técnicos en ingeniería mecá- nica 3116 Técnicos en química indus- trial 3117 Técnicos en ingeniería de mi- nas y metalurgia 3118 Delineantes y dibujantes téc- nicos 3119 Técnicos en ciencias físicas y en ingeniería no clasificados bajo otros epígrafes 3121 Supervisores en ingeniería de minas 3122 Supervisores de industrias manufactureras 3123 Supervisores de la construc- ción 3131 Operadores de instalaciones de producción de energía 3132 Operadores de incineradores, instalaciones de tratamiento de agua y afines 3133 Controladores de instalacio- nes de procesamiento de pro- ductos químicos 3134 Operadores de instalaciones de refinación de petróleo y gas natural 3135 Controladores de procesos de producción de metales 3139 Técnicos en control de proce- sos no clasificados bajo otros epígrafes 3141 Técnicos en ciencias biológi- cas (excluyendo la medicina) 3142 Técnicos agropecuarios 3143 Técnicos forestales 3151 Oficiales maquinistas en na- vegación 3152 Capitanes, oficiales de cubier- ta y prácticos 55 (Continuación de Cuadro 5) Código Descripción del código Valor Etiqueta 3153 Pilotos de aviación y afines 3154 Controladores de tráfico aé- reo 3155 Técnicos en seguridad aero- náutica 3211 Técnicos en aparatos de diag- nóstico y tratamiento médico 3212 Técnicos de laboratorios mé- dicos 3213 Técnicos y asistentes farma- céuticos 3214 Técnicos de prótesis médicas y dentales 3221 Profesionales de nivel medio de enfermería 3222 Profesionales de nivel medio de partería 3230 Profesionales de nivel medio de medicina tradicional y al- ternativa 3240 Técnicos y asistentes veteri- narios 3251 Dentistas auxiliares y ayu- dantes de odontología 3252 Técnicos en documentación sanitaria 3253 Trabajadores comunitarios de la salud 3254 Técnicos en optometría y óp- ticos 3255 Técnicos y asistentes fisiote- rapeutas 3256 Practicantes y asistentes mé- dicos 3257 Inspectores de la salud labo- ral, medioambiental y afines 3258 Ayudantes de ambulancias 3259 Profesionales de la salud de nivel medio no clasificados bajo otros epígrafes 3311 Agentes de bolsa, cambio y otros servicios financieros 3312 Oficiales de préstamos y cré- ditos 3313 Tenedores de libros 3314 Profesionales de nivel medio de servicios estadísticos, ma- temáticos y afines 3315 Tasadores 3321 Agentes de seguros 3322 Representantes comerciales 3323 Agentes de compras 3324 Agentes de compras y consig- natarios 3331 Declarantes o gestores de aduana 3332 Organizadores de conferen- cias y eventos 3333 Agentes de empleo y contra- tistas de mano de obra 3334 Agentes inmobiliarios 3339 Agentes de servicios comer- ciales no clasificados bajo otros epígrafes 3341 Supervisores de secretaría 3342 Secretarios jurídicos 3343 Secretarios administrativos y ejecutivos 3344 Secretarios médicos 3351 Agentes de aduana e inspec- tores de fronteras 3352 Agentes de administración tributaria 3353 Agentes de servicios de segu- ridad social 3354 Agentes de servicios de expe- dición de licencias y permisos 3355 Inspectores de policía y de- tectives 3359 Agentes de la administración pública para la aplicación de la ley y afines no clasificados bajo otros epígrafes 3411 Profesionales de nivel medio del derecho y servicios legales y afines 3412 Trabajadores y asistentes so- ciales de nivel medio 3413 Auxiliares laicos de las reli- giones 3421 Atletas y deportistas 56 (Continuación de Cuadro 5) Código Descripción del código Valor Etiqueta 3422 Entrenadores, instructores y árbitros de actividades de- portivas 3423 Instructores de educación fí- sica y actividades recreativas 3431 Fotógrafos 3432 Diseñadores y decoradores de interior 3433 Técnicos en galerías de arte, museos y bibliotecas 3434 Chefs 3435 Otros profesionales de nivel medio en actividades cultura- les y artistas 3511 Técnicos en operaciones de tecnología de la información y las comunicaciones 3512 Técnicos en asistencia al usuario de tecnología de la in- formación y las comunicacio- nes 3513 Técnicos en redes y sistemas de computadores 3514 Técnicos de la web 3521 Técnicos de radiodifusión y grabación audio visual 3522 Técnicos de ingeniería de las telecomunicaciones 4110 Oficinistas generales 4120 Secretarios (general) 4131 Operadores de máquinas de procesamiento de texto y me- canógrafos 4132 Grabadores de datos 4211 Cajeros de bancos y afines 4212 Receptores de apuestas y afi- nes 4213 Prestamistas 4214 Cobradores y afines 4221 Empleados de agencias de viajes 4222 Empleados de centros de lla- madas 4223 Telefonistas 4224 Recepcionistas de hoteles 4225 Empleados de ventanillas de informaciones 4226 Recepcionistas (general) 4227 Entrevistadores de encuestas y de investigaciones de mer- cados 4229 Empleados de servicios de in- formación al cliente no clasi- ficados bajo otros epígrafes 4311 Empleados de contabilidad y cálculo de costos 4312 Empleados de servicios esta- dísticos, financieros y de se- guros 4313 Empleados encargados de las nóminas 4321 Empleados de con