0% encontró este documento útil (0 votos)
51 vistas15 páginas

Metodología de Ciencia de Datos en Accidentes Viales

El documento propone una metodología para analizar datos abiertos sobre accidentalidad vial en Medellín utilizando Ciencia de Datos, abarcando desde la planificación del estudio hasta la visualización web. La metodología se divide en cuatro macroprocesos: planificación, preparación de datos, análisis automático y visualización, automatizados en R, permitiendo a los analistas explorar relaciones entre variables y patrones de agrupación. Este enfoque busca mejorar la toma de decisiones en un contexto de creciente interés por la accidentalidad vial en países en desarrollo.

Cargado por

faviangonzalez
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
51 vistas15 páginas

Metodología de Ciencia de Datos en Accidentes Viales

El documento propone una metodología para analizar datos abiertos sobre accidentalidad vial en Medellín utilizando Ciencia de Datos, abarcando desde la planificación del estudio hasta la visualización web. La metodología se divide en cuatro macroprocesos: planificación, preparación de datos, análisis automático y visualización, automatizados en R, permitiendo a los analistas explorar relaciones entre variables y patrones de agrupación. Este enfoque busca mejorar la toma de decisiones en un contexto de creciente interés por la accidentalidad vial en países en desarrollo.

Cargado por

faviangonzalez
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Ingeniare. Revista chilena de ingeniería, vol. 27 Nº 3, 2019, pp.

495-509

Metodología para explorar datos abiertos de accidentalidad


vial usando Ciencia de Datos: Caso Medellín

Methodology to explore open data of road crashes using


Data Science: Case Medellín

Jorge Pérez-Rave1*  Juan Carlos Correa Morales2  Favián González Echavarría3

Recibido 19 de febrero de 2018, aceptado 20 de agosto de 2018


Received: February 19, 2018   Accepted: August 20, 2018

RESUMEN

La accidentalidad vial es un serio problema de salud pública en el mundo. El estudio de datos abiertos
sobre este tema puede estimular decisiones más oportunas e informadas. El objetivo es proponer una
metodología para estudiar datos abiertos sobre accidentalidad vial (caso Medellín) usando Ciencia de
Datos, considerando desde la planificación del estudio hasta la visualización web. La metodología consta de
cuatro macroprocesos: 1. Planificación, 2. Preparación de datos, 3. Análisis automático y 4. Visualización
de datos (aplicación web). Estos constan de una o más etapas, desagregadas en 15 subetapas con alcances
univariado, bivariado y multivariado. Los macroprocesos 2-4 fueron automatizados en lenguaje R. Como
resultado, el analista puede familiarizarse con el tema (descriptivos), explorar relaciones entre variables,
localizar sucesos, inducir patrones de agrupación e identificar algunos factores asociados con los eventos
de accidentalidad. Todos estos, combinando variables para una segmentación más detallada. El caso de
estudio también tiene valor para otros ámbitos, ya que la accidentalidad vial genera mayores efectos en
países en desarrollo, lo cual está atrayendo el interés de los investigadores.

Palabras clave: Accidentalidad vial, ciencia de datos, visualización web, metodología de análisis,
programación en R.

ABSTRACT

Road crashes is a serious public health problem in the world. The study of open data on this subject
can stimulate more timely and informed decisions. The objective is to propose a methodology to study
open data on road accident (Medellín case) using Data Science, considering from the planning of the
study to the web visualization. The methodology consists of four macroprocesses: 1. Planning, 2. Data
preparation, 3. Automatic analysis and 4. Data visualization (web application). These consist of one
or more stages, disaggregated into 15 sub-stages with univariate, bivariate and multivariate scopes.
Macroprocesses 2-4 were automated in R language. As a result, the analyst can become familiar with the
topic (descriptive), explore relationships between variables, locate events, induce patterns of grouping
and identify some factors associated with the events of accidents. All these, combining variables for a
more detailed segmentation. The case study also has value for other areas, since road accidents generate
greater effects in developing countries, which is attracting the interest of researchers.

Keywords: Road crashes, data science, web visualization, analysis methodology, R programming.

1 Grupo de investigación IDINNOV. IDINNOV S.A.S. Medellín, Colombia. E-mail: investigacion@[Link]


2 Escuela de Estadística. Universidad Nacional de Colombia. Medellín, Colombia. E-mail: jccorrea@[Link]
3 Departamento de Ingeniería Industrial. Universidad de Antioquia. Medellín, Colombia. E-mail: [Link]@[Link]

* Autor de correspondencia: investigacion@[Link]


Ingeniare. Revista chilena de ingeniería, vol. 27 Nº 3, 2019

INTRODUCCIÓN limitan sus aplicaciones. [5-6] recalcan que las pocas


organizaciones que están aprovechando la Ciencia de
Los accidentes viales representan un serio problema Datos están dándole un alcance limitado, por razones
de salud pública. La Organización Mundial de de deficiencia de competencias profesionales en el
la Salud expresa que, en el mundo, más de 1.25 tema y poca calidad de las fuentes de información.
millones de personas fallece cada año en las vías y, [7] advierte sobre el uso desarticulado de métodos
además, los accidentes generan un alto costo para o paquetes computacionales sin un propósito global
las naciones. De hecho, este tema se encuentra en la que los una, o sin explotación de tareas complejas y
agenda 2030 para el desarrollo sostenible, buscando determinantes como la captura y la preparación de
reducir tanto el número de muertes como lesionados datos (limpieza, estructuración, creación de nuevas
a causa de accidentes viales a nivel mundial [1]. variables, etc.). Asimismo, señala la dependencia
de procedimientos manuales, debido al uso de
Hay varias formas de hacerle frente a dicha software basado en botones o de instrucciones de
problemática, entre ellas los programas de educación código básicas o no generalizables.
y respeto por las normas de tránsito y la disposición
de la tecnología para el mejoramiento preventivo. En Colombia es marcada la escasez de contribuciones
Esto último comprende la mejora de los vehículos, en Ciencia de Datos. De hecho, Colciencias
pero también, el aprovechamiento de los abundantes recientemente se ha manifestado sobre el déficit de
conjuntos de datos que diariamente producen profesionales relacionados con TIC, y ha lanzado
los ecosistemas de transporte, a fin de estimular una “Convocatoria para la formación de ciudadanos
decisiones más oportunas e informadas. en ciencia de datos” [8].

La alternativa basada en datos viene en auge, a causa En el marco de la transformación digital del país,
de la era de ciudades digitales, Big Data, etc., que la Alcaldía de Medellín viene publicando una serie
provee cada vez más datos abiertos disponibles, y de datos a través de portales como GeoMedellin y
Colombia no es la excepción, tal como lo promueve [Link]. Allí puede encontrarse variables de
el Ministerio de Tecnologías de la Información y las accidentalidad vial, proyecciones de población,
Comunicaciones (MINTIC), en función del desarrollo Encuesta de Calidad de Vida, entre otras.
y/o la adaptación de soluciones basadas en datos en
variedad de sectores económicos [2]. A la fecha, diversos estamentos en Colombia
ejecutan esfuerzos individuales y en pocos casos
Una de las principales disciplinas para abordar el se articulan datos de diferentes fuentes para
fenómeno de los datos abiertos es la Ciencia de Datos. Se enriquecer las perspectivas de análisis. Además, en
trata de un área emergente que incorpora conocimientos la mayoría de los casos los análisis son de naturaleza
de estadística, matemática, programación/algoritmia, descriptiva - univariada o de zonificación (mapas),
teoría de visualización y el contexto de aplicación dejando oportunidades para explorar enfoques
propiamente [3-4], para estudiar todo el ciclo de vida bivariados y multivariados que complementen las
del dato en cada campo de aplicación: planificación, visualizaciones existentes. Por ejemplo, uno de
captura, estructuración, limpieza, procesamiento, los principales sitios de visualización de datos de
análisis y visualización. Su objetivo, dependiendo accidentalidad de Medellín ([Link]
del alcance, restricciones y recursos, es proveer [Link]/) presenta varias
hallazgos de valor, de modo que se contribuya con la oportunidades de mejora en cuanto a: 1) posibilidad
generación de conocimiento y con mejores procesos de crear nuevas variables secundarias informativas,
de toma de decisiones. Dichos hallazgos bien pueden a partir de las variables originales. 2) Trascender
ser de naturaleza descriptiva, comparativa, evolutiva, los conteos de eventos (frecuencias absolutas) o
correlacional, predictiva o explicativa, según las teorías mapas, adicionando reportes de estadísticos de
de soporte, la comprensión del fenómeno y los datos localización, de dispersión y de tendencia central
con los que se cuente. (cuando apliquen), así como de combinación entre
frecuencias absolutas y relativas. 3) Adicionar
Esta disciplina naciente aún tiene mucho por aportar visualizaciones que complementen los diagramas de
y, para ello, las naciones deben superar barreras que barras simples, adicionando campos para análisis de

496
Jorge Pérez-Rave: Metodología para explorar datos abiertos de accidentalidad vial usando Ciencia de Datos: Caso Medellín

segmentación, etc. 4) No todas las visualizaciones de El caso Medellín también tiene valor para otros
las variables están en funcionamiento. 5) El alcance ámbitos, ya que, a la fecha, estudios como [14]
de los análisis es en su mayoría univariado, dejando advierten que la accidentalidad vial es un fenómeno
oportunidades para complementar con enfoques que está generando mayores consecuencias negativas
bivariados y multivariados. en países de ingresos medios y bajos, a causa del
acelerado crecimiento poblacional, la urbanización y
Dichas oportunidades de mejora no solo se presentan los problemas de inversión para afrontar el tema. Por
en Colombia, sino que son un desafío declarado consiguiente, este tipo de escenarios está atrayendo la
en estudios recientes internacionales, los cuales atención de dirigentes, académicos e investigadores
expresan la necesidad de contar con sistemas y puede ayudar en otros contextos geográficos.
que trasciendan la mera agregación univariada de
estadísticas de accidentalidad [9]. Esto ayudaría a Este trabajo tiene tres implicaciones prácticas:
la identificación de hallazgos de mayor valor para 1) documenta un marco procedimental que otros
la toma de decisiones o para guiar nuevos estudios investigadores pueden considerar para abordar datos
relacionados con análisis de causas. abiertos disponibles sobre accidentalidad vial, e
incluso para generar nuevas propuestas metodológicas;
Recientemente, [10] desarrolló la aplicación web 2) estimula la generación de nuevos desarrollos en
“Pasa-Segura-Medellín”, que toma como insumos otros campos, a través de la Ciencia de Datos, en
datos abiertos de accidentalidad vial en Medellín, sincronía con lo que están demandando organismos
abarca los tres alcances estadísticos (univariado, como Colciencias y MINTIC; 3) contribuye a una
bivariado y multivariado) desde un enfoque de mejor comprensión de la accidentalidad vial en
Ciencia de Datos, y ayuda a saldar varias de las un contexto de ingresos medios-bajos, lo cual está
oportunidades descritas. despertando cada vez más interés en los investigadores.

No obstante, a la fecha se carece de un procedimiento El resto del documento está organizado así: la
documentado en revistas académicas que guíe sección 2 expone la metodología empleada, la
sobre cómo comenzar a abordar los datos abiertos sección 3 los resultados (tomados de la aplicación
disponibles sobre accidentalidad vial en el país. Si web) acompañados de la discusión. La sección 4
bien se cuenta con abundantes libros de texto que lista las conclusiones generales.
exponen con detalle métodos, técnicas y herramientas
estadísticas o de inteligencia artificial, el mero uso METODOLOGÍA PROPUESTA
de estos recursos no garantiza per sé la generación
de ventajas competitivas para los tomadores de La metodología tiene como fin proveer de forma
decisiones. Más aún, considerando la teoría de recursos automática información estadística (exploratoria) sobre
y capacidades [11], vale recalcar la importancia métricas de accidentalidad vial desde un enfoque de
de la “orquestación de los recursos” [12]. En este Ciencia de Datos, usando datos abiertos disponibles.
contexto, ello se traduce en formas lógicas y efectivas Está compuesta por cuatro macroprocesos con un orden
de combinar secuencialmente los métodos, los datos lógico: 1. Planificación del estudio, 2. Preparación de
abiertos y los demás recursos disponibles, a fin de datos, 3. Análisis automático y 4. Visualización de
generar capacidades analíticas competitivas [13]. datos. Estos constan de una o más etapas, las cuales,
a su vez, se desagregan en 15 subetapas en total. Los
Así, haciendo una retrospectiva de la vivencia macroprocesos 2-4 fueron integrados secuencialmente
en el diseño, desarrollo y puesta a punto de la y automatizados en lenguaje R [15], bajo el entorno
aplicación “Pasa-Segura-Medellín”, y tomando en RStudio [16]. A continuación, se describe cada uno
cuenta algunas recomendaciones de la literatura, de los macroprocesos.
así como el conocimiento y la experiencia de los
autores, este trabajo tiene como objetivo proponer Macroproceso de planificación del estudio
una metodología para estudiar datos abiertos sobre El objetivo de este macroproceso es definir las
accidentalidad vial usando Ciencia de Datos (caso preguntas de analítica, considerando las necesidades
Medellín), abarcando desde la planificación del de los usuarios, del analista, etc., así como tomando
estudio hasta la visualización bajo un entorno web. en cuenta los datos abiertos disponibles. Asimismo,

497
Ingeniare. Revista chilena de ingeniería, vol. 27 Nº 3, 2019

precisar los detalles técnico-metodológicos del En la Tabla 1 se describen los aspectos técnico –
estudio. A continuación, se exponen las preguntas metodológicos del caso de aplicación.
de analítica resultantes:
Macroproceso de preparación de datos
P.1 ¿Qué características han presentado los eventos En este macroproceso se diseñan y desarrollan
de accidentalidad en Medellín, en términos algoritmos que ponen a punto los datos objeto de
de: gravedad (día, mes, año), horas, comunas, estudio. Esto comprende una sola etapa, con el mismo
barrios, fines de semana, quincena, jornada, día nombre del macroproceso en cuestión, e incluye
de la semana, día calendario del mes, diseño, dos subetapas, las cuales se describen en la Tabla 2.
mes y clase?
P.2 ¿Cuál es el mapa de accidentalidad vial de en En la Figura 1 se esquematiza el procedimiento
Medellín? Y ¿Cuáles son las calles y carreras empleado en la preparación de los datos, mostrando
que describen dicha accidentalidad? cómo se va pasando de los conjuntos de datos a la
P.3 ¿Cómo ha evolucionado la accidentalidad vial extracción de variables originales y, de estas, a la
en Medellín considerando los periodos 2014 creación de variables secundarias. Unos grupos de
– 2017_1? variables son empleados para describir los eventos de
P.4 ¿Cómo se caracterizan las comunas considerando accidentalidad, en cambio, otros grupos (integración
las métricas disponibles de población, inversión de varios conjuntos de datos) son empleados para
y calidad de vida? Y ¿Cómo se relacionan los explorar relaciones y patrones de agrupación.
eventos de accidentalidad con dichas métricas?
P.5 ¿Qué patrones de agrupación subyacen en las Este macroproceso es vital, considerando que la
comunas de Medellín? Y ¿Qué indicadores mayoría de los programas de formación en Colombia,
latentes los describen? sobre Ciencia de Datos o tópicos relacionados, se
P.6 ¿Qué posibles factores (latentes u observables) enfocan básicamente en los métodos de análisis y
se relacionan de forma significativa con los poco o nada cubren estos procedimientos previos. Sin
eventos de accidentalidad en las comunas? embargo, cerca del 70% del tiempo de un proyecto

Tabla 1. Ficha de aspectos técnico = metodológicos del caso de estudio.


Criterios Descripción
Eventos de accidentalidad vial en Medellín, reportados por GeoMedellin. Periodos: 2014
Muestras y tamaños
(41594 obs.), 2015 (42080 obs.), 2016 (42841 obs.), 2017_1 (24352 obs.).
Unidades de análisis 1) Evento de accidentalidad (150867 obs); 2) Comuna (20 obs. previa agregación).
1. Accidentalidad 2014 – 2017_1 (GeoMedellin) [17]; 2. Inversión por comuna y
corregimiento ([Link], 2016) [18]; 3. Encuesta de calidad de vida ([Link].
Conjuntos de datos
co, 2016) [19]; 4. Proyecciones de población ([Link], 2016) [20]. Datos proveídos
por Alcaldía de Medellín a dichos medios.
Diseño Observacional, de tipo descriptivo y relacional
Métodos de lectura, limpieza, procesado e integración de datos. Métodos de análisis:
descripción univariada, correlaciones Kendall, Análisis Clúster, Análisis de Componentes
Métodos
Principales, Regresión usando Componentes Principales. Análisis de Pareto, Métodos de
visualización interactiva de la información.

Tabla 2. Descripción del macroproceso de preparación de datos.


Etapa Subetapa Descripción
Leer datos, unificar textos, homogenizar formatos, eliminar
1. Lectura, limpieza y procesado valores anómalos, creación de variables secundarias a partir
Preparar datos de los datos disponibles.
Cuatro conjuntos de datos (accidentes, comunas, encuesta
2. Integración de conjuntos de datos
calidad de vida, e inversión por comunas). Véase Figura 1.

498
Jorge Pérez-Rave: Metodología para explorar datos abiertos de accidentalidad vial usando Ciencia de Datos: Caso Medellín

Figura 1. Esquema de tareas de creación de variables secundarias e integración de conjuntos de datos.


Fuente: elaboración propia.

en dicha disciplina es consumido por tareas de de análisis el evento de accidentalidad. Su finalidad


captura y preparación de los datos, a las cuales no es retratar el estado del tema en periodos específicos,
solo se les atribuye ciencia, sino también gran parte considerando frecuencias, tendencia central, evolución
de arte que se va dominando con la práctica [21]. y localización de eventos (mapas y diagramas de
dispersión). En la Tabla 3 se describen las seis
Macroproceso de análisis automático subetapas que conforman esta etapa descriptiva.
El objetivo de este macroproceso es someter los datos
(ya preparados) a una serie de pruebas estadísticas y La segunda etapa toma como unidad de análisis
consta de tres etapas. La primera toma como unidad la comuna (20 en total) y su finalidad es describir

Tabla 3. Descripción del macroproceso de análisis automático - etapa descriptiva.


Etapa Subetapa Descripción
Medias, totales y frecuencias relativas de eventos de accidentalidad
1. Gravedad de accidentes según gravedad (herido, muerto, solo daños) con opciones por día,
mes y año. Gráfico de barras verticales.
Frecuencias absolutas y relativas, o valores medios, según factores
2. Segmentación de
(horas, comuna, barrio, fin de sem, quincena, jornada, dia, sem,
accidentes
Análisis descriptivo tomando dia num, diseño, mes, clase). Gráfico de barras horizontales.
como unidad de análisis el Mapa interactivo de Medellín con eventos de accidentalidad,
3. Mapa de accidentalidad
evento de accidentalidad según gravedad y proporción de casos elegidos.
(periodos: 2014 - 2017_1) 4. Calles y carreras de Diagrama de dispersión (X: Calle, Y: Carrera), con visualizaciones
accidentalidad según comuna, gravedad y zoom.
5. Evolución gráfica de la Gráfico de serie interactivo para eventos de accidentalidad al mes
accidentalidad para cada periodo (2014 - 2017_1).
6. Evolución tabular de la Resumen estadístico de la evolución de la accidentalidad (Mín,
accidentalidad Máx, Med, DE, Median, Q1, Q3, n. datos) para cada año.

499
Ingeniare. Revista chilena de ingeniería, vol. 27 Nº 3, 2019

relaciones y patrones de agrupación, a través de modo que este pueda encontrar en ellos significados
variables provenientes de los diversos conjuntos e interpretaciones, convirtiéndolos en información
de datos (en este caso, 4 conjuntos). En esta se de utilidad para la toma de decisiones. Para ello, se
abarcan los tres alcances estadísticos: univariado, recurre a tecnologías de visualización de datos en
bivariado y multivariado. La tercera etapa parte de forma de aplicación web, usando Shiny [22]. Este
las exploraciones realizadas en las primeras dos macroproceso consta de una etapa y tres subetapas,
etapas y provee resultados de posibles factores expuestas en la Tabla 5.
relacionados con los eventos de accidentalidad. Así,
la primera subetapa toma como unidad de análisis La validación de la aplicación web se va haciendo
la comuna (integrando datos de 2016) y la segunda con la ejecución de cada función y algoritmo
el evento de accidentalidad (2014 – 2017_1). En la programado. No obstante, la prueba final de la
Tabla 4 se describen las subetapas que componen consistencia se realizó por medio de una comparativa
esta etapa relacional. con visualizaciones de algún medio oficial disponible.
Dicho medio debe proveer reportes para al menos una
Macroproceso de visualización de datos de las variables observadas. En este caso, se cuenta
Este macroproceso se encarga de transmitir al con visualizaciones de la API de GeoMedellín, que
usuario los resultados de los análisis previos, de provee resultados descriptivos para cuatro de los

Tabla 4. Descripción del macroproceso de análisis automático - etapas relacionales.


Etapa Subetapa Descripción
Descripción univariada en formato de diagrama de barras horizontales,
1. Métricas sobre comunas tipo ranking, para indicadores de la base de datos integrada (accidentes,
población, inversión, ECV).
Diagrama de dispersión con histograma y coeficiente de correlación
2. Relaciones bivariadas Kendall para pares de variables, valor-p para explorar la significancia,
y con opción de con y sin comuna “La Candelaria”.
Análisis de relaciones y
patrones de agrupación Dendrograma derivado de análisis clúster para comunas, con opciones
integrando conjuntos de 3. Patrones de agrupación de de: variables de accidentalidad (solo eventos de accidentalidad) o tipos
datos (periodo: 2016) de población (métricas de caracterización sociodemografica, etc., de
comunas
comunas), método de distancia (Euclideana, Máxima, Manhattan,
Canberra) y tipo de enlace (Promedio, Vecino lejano, Ward).
Dos nuevos indicadores latentes derivados de Análisis de Componentes
4. Indicadores latentes de Principales, considerando métricas sociodemográficas, etc., de comunas.
tipos de población Gráfico de Componentes Principales por individuos (comunas) y
Boxplot para los Scores de las componentes 1 y 2.
Modelos de regresión múltiple usando como predictores los Scores de
1. Factores latentes las dos componentes principales de la subetapa anterior, con opciones
Posibles factores (integrando conjuntos de de tipo de gravedad. Resumen de las regresiones (completo, sin La
asociados a eventos de datos de 2016) Candelaria, sin Palmitas, y sin ambos) y gráfico de normalidad para
accidentalidad los residuales de cada modelo.
2. Jornada y horarios Análisis de segmentación bajo gráficos tipo Pareto, desagregando por
(periodos: 2014 – 2017_1) clase de evento (Atropello, Choque, Otros), jornada (AM, PM) y horarios.

Tabla 5. Descripción del macroproceso de visualización web.


Etapa Subetapa Descripción
Visualizaciones considerando las preguntas de analítica y las etapas y subetapas descritas
1. Diseño del análisis automático, donde además se definieron los tipos de gráficos. Uso de Shiny bajo
entorno tipo dashboard.
Aplicación web
2. Desarrollo Funciones y los algoritmos que conectan los análisis con la visualización automática.
Comparativa con visualizaciones de referencia. En este caso: visualizaciones disponibles en
3. Validación
GeoMedellín para el conjunto de datos “Accidentalidad 2016” [19] para Medellín.

500
Jorge Pérez-Rave: Metodología para explorar datos abiertos de accidentalidad vial usando Ciencia de Datos: Caso Medellín

campos del conjunto de datos “Accidentalidad 2016” heridos (56%), 1551 casos de solo daños (43.4%)
(Alcaldía de Medellín). En el anexo 1 se muestra y 19.6 casos de muertes (0.6%). También a modo
evidencias de consistencia entre las visualizaciones. ilustrativo, puede decirse que, en cuanto a las horas
de mayor reporte de accidentalidad, se encuentran
RESULTADOS Y DISCUSIÓN entre 7 am - 7:59 am, 11 am - 11:59am, 12 pm -
12:59 pm y 5 pm - 5:59 pm. Es decir, se puede
La visualización de los resultados de la metodología ver la influencia de las horas pico (de inicio de la
propuesta puede encontrarse en [Link] jornada laboral/académica, de pausa para almorzar
[Link]/pasa-segura-medellin/ y de terminación de la jornada laboral/académica),
como es de esperar. Vale recordar que el usuario
A continuación, se presentan los tipos de visualizaciones puede explorar otras 10 variables de segmentación,
para cada subetapa ya descrita, tomando como diferente a la hora del evento del día y elegir un tipo
referencia las preguntas de analítica previamente específico de evento (herido, muerto, solo daños).
definidas.
Mapa de accidentalidad vial de en Medellín y calles
-Características de los eventos de accidentalidad - carreras que describen dicha accidentalidad:
en Medellín: En la Figura 3 se presentan dos gráficos. El de la
En la Figura 2 se ilustra el formato de visualización izquierda provee al usuario un mapa interactivo
desarrollado, que permite dar respuestas a la pregunta en el que puede reconocer las zonas de la ciudad
en consideración. donde fue reportada la ubicación de los accidentes
viales. El usuario puede elegir el reporte para cada
Nótese que el usuario tiene la posibilidad de uno de los tres tipos de gravedad (herido, muerte
interactuar con las visualizaciones, indicando el y solo daños), los cuales tienen diferente color
periodo de observación (2014-2017_1), así como asignado (Ej: puntos rojos para casos de muerte).
eligiendo reporte por día, mes o año (gráfico de Además, se le permite al usuario especificar la
barras verticales, izquierdo). En el caso de la gráfica proporción de casos que desea visualizar, de modo
de barras de la derecha, puede elegir la variable que se obtenga una visualización más amigable ante
de segmentación (Ej: horas, comuna, barrio, día abundantes datos para determinados eventos que
de la semana,…) y el tipo de gravedad del evento dificulten la interpretación. Para ello se genera de
(herido, muerto, solo daños o todos). A modo forma automática una muestra aleatoria del tamaño
de ejemplo, puede verse que durante el periodo especificado, a partir del total de la población
2016 los eventos de accidentalidad en Medellín reportada. Este mapa también ofrece al usuario
reportaron, en promedio al mes, 1999.5 casos de la posibilidad de aumentar o reducir el zoom, en

Fuente: Pasa-Segura-Medellín [10].

Figura 2. Descripción de gravedad (izq.) y otros atributos (der.).

501
Ingeniare. Revista chilena de ingeniería, vol. 27 Nº 3, 2019

busca de más o menos detalles de la zona, según se Evolución de la accidentalidad vial en Medellín
desee. La gráfica de la derecha (Figura 3) se deriva entre 2014 – 2017_1:
de un procesamiento y análisis especializado de En la Figura 4 se presenta la visualización para
los datos, en el que fue necesario usar métodos de describir la evolución de la accidentalidad vial
procesamiento de texto, pues la variable de partida mes a mes para diversos años. Esta consta de dos
fue la dirección en que se produjo el evento. partes. La gráfica de serie (izquierda, Figura 4) y la
representación tabular (derecha, Figura 4).
Esta variable es tipo carácter, siendo necesario
el uso de procedimientos de homogenización, En la gráfica de serie (izquierda, Figura 4) el usuario
limpieza y extracción adicionales. Así, fue posible puede comparar cómo se ha venido comportando los
crear dos variables secundarias (véase esquema eventos de accidentalidad mes a mes. Es decir, puede
de la figura 1), una de ellas representa la calle en establecer comparaciones (visuales - exploratorias)
que se produjo el evento y la otra la carrera. En la entre meses (Ej: enero tiende a presentar menores
gráfica de dispersión (derecha, Figura 3), la calle eventos de accidentalidad con reporte de heridos,
se retrata en el eje de la abscisa y la carrera en el de en comparación con los demás meses). Pero
la ordenada. (nota: se trata de un enfoque general, también, permite realizar comparaciones (visuales -
se omiten letras de las direcciones. Ej: Cll 52 A, se exploratorias) entre los años. A su vez, la visualización
toma como parte de la calle 52). Nótese lo asertiva de la derecha (Figura 4) ofrece un reporte tabular donde
que es esta visualización para hacerse a una idea el usuario encuentra ocho estadísticos descriptivos
de las zonas de mayor concentración de eventos de de los eventos de accidentalidad.
accidentalidad, recurriendo a uno de los gráficos
más famosos de la estadística, pero esta vez no para Ambas gráficas se actualizan según la combinación
retratar relaciones entre variables, sino para otro uso: comuna - gravedad, que el usuario elija, y también
describir zonas geográficas de mayor concentración. según se active (o no) la casilla de “Cada 10 mil
Esto es aún más útil, en la medida en que el usuario habitantes”. Dicha opción está habilitada solo para
puede especificar la comuna (entre las 20 objeto la categoría de comuna “Todas” y resulta útil para
de estudio), el tipo de gravedad e incluso aumentar una comparación más razonable entre los diferentes
o disminuir el zoom. A modo de ilustración, vale periodos, pues es de esperar que el denominador
decir que en la comuna “La Candelaria” los eventos poblacional cambie con los años.
de accidentalidad con reporte de solo heridos en el
periodo de 2016, tienden a concentrarse alrededor Caracterización de comunas considerando
de la calle 45 con la carrera 50. métricas disponibles de población, inversión y

Fuente: Pasa-Segura-Medellín [10].

Figura 3. Mapa de accidentalidad (izq.) y diagrama calle-cra (der.).

502
Jorge Pérez-Rave: Metodología para explorar datos abiertos de accidentalidad vial usando Ciencia de Datos: Caso Medellín

Fuente: Pasa-Segura-Medellín [10].

Figura 4. Gráfico de serie múltiple (izq.) y resumen tabular (der.).

calidad de vida, y relaciones entre estas y los según la variable que se elija, se provee un diagrama
eventos de accidentalidad: de barras horizontales, ordenadas de mayor a menor
A partir de este momento, mediante procedimientos valor reflejando una jerarquía y variando los colores
de agregación de datos tomando esta vez como unidad para mejor discriminación. Cada que se elige
de análisis a la comuna (20 observaciones en total), una variable el aplicativo reporta la descripción
se integran variables de cuatro conjuntos de datos, lo narrativa de la variable y su escala. En la gráfica
cual permite, entre otros, explorar relaciones entre las derecha (Figura 5) se muestran cuatro elementos
variables. En la Figura 5 se presenta la visualización para pares de variables elegidos: histogramas,
para la pregunta de analítica de caracterización de dispersión, coeficiente de correlación Kendall (dada
comunas y relaciones bivariadas. su pertinencia para pocos datos y/o desviaciones
de la normalidad), así como el valor-p alusivo para
En la Figura 5, gráfica izquierda, el usuario obtiene explorar si la relación resulta o no significativa,
la caracterización de las diferentes comunas. Así, siendo costumbre usar una significancia de 0.05.

Fuente: Pasa-Segura-Medellín [10].

Figura 5. Barras (izq.) y diagrama de dispersión enriquecido (der.).

503
Ingeniare. Revista chilena de ingeniería, vol. 27 Nº 3, 2019

Así, un valor-p inferior a esta cifra deduce una se podría hablar de con y sin La Candelaria. A
relación significativa entre las variables. En esta medida que se desciende en el dendrograma, se van
visualización (derecha, Figura 5), el usuario puede detallando mejor otros grupos. Por ejemplo, Aranjuez,
explorar los resultados con y sin una comuna que Guayabal, El poblado, Robledo, Belén y La América
muestra un comportamiento notablemente más se muestran en el mismo grupo (usando distancias
elevado en términos de los eventos de accidentalidad Euclidianas y enlace vecino más lejano). El usuario
(La Candelaria). A modo de ilustración, nótese que puede explorar nuevos patrones de agrupación,
entre las variables número total de accidentes por efectuando el análisis no por accidentalidad, sino
comuna y percepción de la cobertura de transporte para indicadores sociodemográficos, etc., de la
público por comuna se muestra una relación positiva población. En la visualización derecha (Figura 6)
(0.52) y significativa (valor-p: 0.002). Cuando se se resumen los resultados de efectuar Análisis de
incluye La Candelaria, esta relación sigue siendo Componentes Principales. En concreto, se muestran
significativa pero con un menor coeficiente de las cargas de las variables en cada factor, las cuales,
correlación Kendall (0.48; valor-p: 0.003). al estar estandarizadas, representan la correlación
entre cada variable y el factor. También se provee
Patrones de agrupación subyacentes en las las dos variables latentes (Dim1 y Dim2), que justo
comunas de Medellín e indicadores latentes que corresponden a las componentes principales 1 y
los describen: 2. Cada componente principal induce un tipo de
En la Figura 6 se muestran las visualizaciones de población. Por ejemplo, los scores de la primera
pasar al mundo multivariado, considerando grupos componente (Dim1) están centrados en cero,
de variables a la vez. Estas permiten encontrar representan un continuo bipolar y aumentan (se
hallazgos relacionados con patrones de agrupación hacen más positivos) en la medida en que aumentan
entre comunas, así como indicadores latentes. los valores de las siguientes variables: percepción
de cobertura de transporte público, edad, proporción
En la gráfica izquierda (Figura 6) se provee el de hogares con al menos una persona con formación
dendrograma resultante del método no supervisado mínima universitaria. De igual forma, los scores de
“Análisis Clúster”. Allí puede verse diversos grupos dicha componente (Dim1) disminuyen a medida
dependiendo del método de cálculo de las distancias que las variables descritas se hacen menores,
(euclideana,…) y del tipo de enlace (vecino lejano, así como si las siguientes variables aumentan su
promedio…). Nótese, a modo de ilustración, que en valor: proporción de hogares que tienden a usar
la Figura 6, La Candelaria se muestra separada de bus, o metro o sistema integrado de transporte (es
las demás comunas. Es decir, en un nivel superior decir, no taxi ni vehículo propio, etc.), proporción

Fuente: Pasa-Segura-Medellín [10].

Figura 6. Dendrograma (izq.) y resultados de ACP (der.).

504
Jorge Pérez-Rave: Metodología para explorar datos abiertos de accidentalidad vial usando Ciencia de Datos: Caso Medellín

de hogares con miembro de máximo formación de explicación de los modelos (R2) osciló entre 53% y
secundaria, y tiempo (mediana) en llegar al sitio 76.1% para el logaritmo del número total de eventos
de trabajo. En otras palabras, ambos indicadores de accidentalidad. Estos porcentajes también tendieron
latentes (Dim1 y Dim2) puede inducir dos tipos de a ser razonables cuando se varía el tipo de gravedad
población según condiciones socioeconómicas, donde (heridos, muerte,…). Del mismo modo, en todos los
a mayores scores, las condiciones se muestran más cuatro modelos dichos predictores (Dim1 y Dim2)
facilitadoras que limitadoras, y viceversa. Tomando resultaron estadísticamente significativos al 0.05 (o
esto en consideración y al combinar de forma gráfica menos en varios casos), lo cual deduce la robustez de
dichas componentes principales, es posible ver las los mismos. Al explorar los supuestos clásicos de la
distancias entre las comunas (Figura 6, derecha). regresión, no hay razones para invalidar el supuesto de
Nótese que Palmitas y Santa Elena se muestran normalidad, lo cual puede verse en la gráfica QQnorm
más cercanas en comparación con los demás. Lo expuesta en la parte derecha de la Figura 3. Tampoco
mismo entre el par Poblado y Laureles - Estadio. se encontró patrones en los gráficos de los residuales,
que llevarán a invalidar la homocedasticidad.
Posibles factores relacionados con los eventos
de accidentalidad: Las relaciones positivas - significativas entre las
dos componentes principales (indicadores latentes
Factores latentes usando regresión: Dim1 y Dim2) y las métricas de accidentalidad,
Considerando los indicadores latentes inducidos para el pueden quizás deberse a menor probabilidad de
caso anterior (sección 3.5, Figura 6), en la Figura 7 se desplazamientos a pie o en transportes públicos (más
ofrecen visualizaciones que resumen posibles relaciones vehículos particulares), personas con domicilios
funcionales entre estos (predictores) y variables de o lugares de trabajo ubicados en sitios de alta
accidentalidad (respuesta). Pueden verse cuatro modelos afluencia vehicular, cargos de mayor responsabilidad
de regresión, (1) con todas las comunas, (2) sin La intelectual que tal vez incrementan el afán (por
Candelaria, (3) sin Palmitas y (4) sin ambas comunas. llegar a reuniones, etc.) o el estrés (no se logran
El análisis de sensibilidad variando tales comunas se desconectar de compromisos laborales o académicos
hace por sus distancias pragmáticas y analíticas con durante los desplazamientos), entre otros.
respecto a los comportamientos de las demás.
Jornada y horarios bajo enfoque Pareto:
Nótese, en la Figura 7, que con solo esas dos En la Figura 8 se muestra la segmentación de
componentes principales (Dim1 y Dim2) el porcentaje eventos de accidentalidad para la combinación de

Fuente: Pasa-Segura-Medellín [10].

Figura 7. Resumen de regresiones (izq.) y normalidad (der.).

505
Ingeniare. Revista chilena de ingeniería, vol. 27 Nº 3, 2019

Fuente: Pasa-Segura-Medellín [10].

Figura 8. Desglose de eventos bajo enfoque Pareto.

comuna, gravedad, periodo. Primero con base en la consta de cuatro macroprocesos y 15 subetapas en las
clase de evento (atropello, choque, otros). Luego, que se abarca los tres alcances estadísticos (univariado,
la categoría de mayor frecuencia se desagrega en bivariado y multivariado). Además, aprovecha el
jornada y, finalmente, la categoría más frecuente potencial de la integración de conjuntos de datos, lo
se desagrega en franjas horarias. cual aumenta la diversidad de variables y favorece
una mejor comprensión del fenómeno y su entorno.
Ejemplificando con los eventos de accidentalidad
que reportan muerte en la comuna “La Candelaria”, La metodología aporta, en su primer macroproceso,
y consolidando datos de todos los periodos (2014 seis preguntas de analítica que guían el resto de los
– 2017_1), se encuentra que el 70.6% de los casos macroprocesos, y ameritan enfoques descriptivos
se debieron a “atropello” (144 casos), seguido y relacionales para saldarlas. Estas pueden ser
de “choque”, con una cifra notablemente menor empleadas por otros investigadores para aportar
(26.5%; 54 casos). Al considerar solo los 144 casos nuevas formas de hacerles frente, o para reproducir
de eventos que fueron por “atropello”, el 63.9% el estudio, o para crear nuevas preguntas a partir
reportaron ocurrencia en la jornada de la tarde de estas, según las particularidades contextuales,
(PM; 92 casos). A su vez, de estos 92 casos en la la disponibilidad de datos y los intereses.
jornada de la tarde, el 39.1% ocurrió entre las 6pm
y las 9pm. Nótese, con estas nuevas exploraciones, La metodología se pone a prueba usando cuatro
la posibilidad de buscar diferenciar entre lo “poco conjuntos de datos abiertos sobre la ciudad de
–vital” y lo “mucho– trivial”. Vale destacar la gran Medellín. En primera instancia toma como unidad
cantidad de combinaciones de comuna –gravedad– de análisis el evento de accidentalidad y, en segunda
periodo que el usuario puede explorar. instancia, la comuna. De cara al usuario, se cuenta
con una aplicación web (macroproceso último de
CONCLUSIONES la metodología) usando tecnologías emergentes, en
la que de forma automática e interactiva se facilita
Se ha propuesto una metodología para estudiar (a la transferencia de información oportuna y la
nivel exploratorio) datos abiertos disponibles sobre exploración de hallazgos por parte del usuario. Los
accidentalidad vial desde un enfoque de Ciencia de lectores pueden explorar muchos otros hallazgos y
Datos. Esta mirada implica no solo el tratamiento creencias directamente en el enlace [Link]
estadístico, sino también la conexión sistemática [Link]/pasa-segura-medellin/
(bajo un orden lógico) y automática de cada una de
las tareas, desde el alistamiento de los datos hasta La importancia de esta metodología se debe a que
la visualización de los resultados. Esta metodología cada vez el fenómeno del Big Data y de la Ciencia de

506
Jorge Pérez-Rave: Metodología para explorar datos abiertos de accidentalidad vial usando Ciencia de Datos: Caso Medellín

Datos y sus múltiples vertientes están impregnando insumos importantes para la toma de decisiones o
esferas económicas, sociales, ambientales, políticas, para profundizar en estudios de análisis de causas.
etc., y se están comenzando a proliferar cursos y
educación formal o continua sobre métodos, técnicas, REFERENCIAS
herramientas, etc. Sin embargo, el uso de estos no
garantiza por sí solo la generación de información de [1] Organización Mundial de la Salud -
valor para la toma de decisiones, sino que depende OMS. “Lesiones causadas por el tránsito”.
fundamentalmente de cómo los diferentes recursos Centro de Prensa. Mayo de 2017. Leído
y capacidades se articulan de forma lógica y con el 04/01/2018 en: [Link]
propósitos específicos (orquestación de recursos mediacentre/factsheets/fs358/es/
[12]). Justamente, esta metodología aporta esos [2] Ministerio de Tecnologías de la Información
elementos, a nivel exploratorio, usando datos abiertos y las Comunicaciones - MINTIC. Datos
de accidentalidad vial (caso Medellín), y se prueba abiertos para Ciudades Inteligentes. Cada vez
en un contexto emergente que demanda nuevas es más evidente cómo la revolución digital
políticas y planes de acción para su prevención. Se transforma el día a día de los ciudadanos.
espera, entonces, motivar la reflexión y discusión Sala de Prensa, Columnas Ministro TIC.
entre los actores organizacionales y gubernamentales, 28 de junio de 2016. Leído el 04/01/2018,
así como en la ciudadanía, sobre los resultados en: [Link]
del caso de estudio. Pero también, motivar nuevos [Link]
desarrollos en Ciencia de Datos, no solo para [3] F. Pop. “High Performance Numerical
contextos de accidentalidad vial, sino también para Computing for High Energy Physics: A New
las muchas otras esferas donde esta nueva disciplina Challenge for Big Data Science. Advances
tiene mucho por aportar. Esto último también se in High Energy Physics”. pp. 1-13. 2014.
enmarca en macrometas estatales y educativas con [4] J. Davis, J. Burgoon, L. Can. “Data Science
respecto a ciudades debidamente informadas, que Inform Environmental Justice and Community
aprovechen al máximo la era digital. Risk Screening for Type 2 Diabetes”. Plos
one. April 14. pp. 1-14. 2015.
A nivel de implicaciones para la toma de decisiones, [5] T. Schoenherr, Cheri Speier. “Data Science,
las visualizaciones arrojadas por la metodología, Predictive Analytics, and Big Data in Supply
a través de [Link] Chain Management: Current State and Future
segura-medellin/ posibilitan la familiarización Potential”. Journal of Business Logistics.
descriptiva con el tema, la exploración de relaciones Vol. 36 Nº 1, pp. 120-132. 2015.
entre variables, la localización concreta de [6] B. Hazen, C. Boone, J. Ezell and L. Jones-
sucesos, la inducción de patrones de agrupación Farmer. “Data quality for data science,
y la identificación de algunos factores latentes predictive analytics, and big data in supply
y observables que presentan asocio con los chain management: An introduction to the
eventos de accidentalidad. Todo ello, brindando problem and suggestions for research and
posibilidad al usuario de realizar combinaciones applications”. International Journal of
de campos (Ej: Comuna - gravedad - periodo) Production Economics. Vol. 154, pp. 72-80.
para una segmentación más detallada, tal como lo 2014.
sugieren [14], dada la amplia heterogeneidad que [7] J. I. Pérez-Rave. “Statihouse®: desarrollo
presentan los datos de accidentalidad. En cuanto a tecnológico basado en ciencia de datos
los portales de visualización de datos, de la ciudad para explorar estadísticamente el sector
de Medellín y el país en general, este trabajo brinda inmobiliario”. Ingeniare. Revista chilena de
insumos para nutrir dichos medios de visualización, ingeniería. Vol. 27, Nº 1. pp. 113-130. 2019.
mediante la incorporación de análisis bivariados [8] Departamento Administrativo de Ciencia.
y multivariados que es viable ejecutar con los Tecnología e Innovación - Colciencias (2017).
datos abiertos disponibles. También, con el uso, Términos de referencia, versión consulta.
lectura y discusión de los informes arrojados por “Convocatoria para la formación de ciudadanos
la aplicación web que materializa los resultados en ciencia de datos”. Código M301PR01F02,
visuales de la metodología, es viable encontrar versión 12. Leído el 04//01/2018, en: http://

507
Ingeniare. Revista chilena de ingeniería, vol. 27 Nº 3, 2019

[Link]/convocatorias/ developing countries”. International journal


innovacion/convocatoria-para-la-formacion- of injury control and safety promotion.
ciudadanos-en-ciencia-datos pp. 1-12. 2017.
[9] C. Costa, G. Chatzimilioudis, D. Zeinalipour- [15] R Project. “R: A language and environment
Yazti and M. Mokbel. 2017. “Towards for statistical computing. R Foundation for
real-time road traffic analytics using Telco Statistical Computing”. Austria. 2008.
Big Data. In 11th International Workshop [16] R Studio Team. “RStudio: Integrated
on Real-Time Business Intelligence and Development for R. RStudio”. Inc., Boston.
Analytics, BIRTE 2017”. Association for USA. 2015.
Computing Machinery. Leído el 08/01/2018, [17] Alcaldía de Medellín. GeoMedellín.
en: [Link] Movilidad. Datos de accidentalidad 2014-
towards-real-time-road-traffic-analytics- 2017 (ene-jul 2017). Leído el 08 de enero de
using-telco-big-data 2018. en: [Link]
[10] J. Pérez-Rave. Pasa-Segura-Medellín. Vers.3, [Link]
2018-1: Aplicación web sobre accidentalidad [18] Alcaldía de Medellín. Inversión por comuna y
vial en Medellín usando Ciencia de Datos. corregimiento 2016. Leído el 28 de diciembre
Grupo de investigación IDINNOV, IDINNOV de 2018, en: [Link]
S.A.S. 2017. [Link] [19] Alcaldía de Medellín. Encuesta de Calidad
pasa-segura-medellin/ de Vida 2016. Leído el 28 de diciembre de
[11] J. Barney. “Firm resources and sustained 2018, en: [Link]
competitive advantage”. Journal of Mana- [20] Alcaldía de Medellín. Proyecciones de
gement. Vol. 17, pp. 99-120. 1991. población 2014-2017. Leído el 28 de
[12] D. Teece, G. Pisano & Shuen and A. “Dynamic. diciembre de 2018, en: [Link]
capabilities and strategic management”. Strate- [Link]
gic Management Journal. pp. 509-533. 1997. [21] H. Varian “Big data: New tricks for
[13] A. Popovi , R. Hackney, R. Tassabehji and econometrics”. The Journal of Economic
MCastelli. “The impact of big data analytics Perspectives. Vol. 28 Nº 2, pp. 3-27, 2014.
on firms’ high value business performance”. [22] W. Chang, J. Cheng, J. Allaire, Y. Xie and
Information Systems Frontiers. pp. 1-14. 2016. J. shiny McPherson. “Web Application
[14] M. Raihan, M. Hossain and T. Hasan. “Data Framework for R. R package version 0.12.2”.
mining in road crash analysis: the context of 2015.

508
Jorge Pérez-Rave: Metodología para explorar datos abiertos de accidentalidad vial usando Ciencia de Datos: Caso Medellín

Anexo 1. Evidencia de consistencia entre algunas visualizaciones de Pasa-Segura-Medellín y la API


GeoMedellín para datos “Accidentalidad 2016” de Medellín.

* [Link]
** [Link]

509

También podría gustarte