APLICACIÓN DE UN MODELO DE BI ENFOCADO A ANALIZAR DATOS SOBRE
PRUEBAS SABER 11 DEL ICFES
ESTUDIANTES
LINA MARITZA CASTRO FORERO
CAMILO JOSE DEL RIO BONILLA
UNIVERSIDAD PEDAGÓGICA Y TECNOLÓGICA DE COLOMBIA
FACULTAD DE POSTGRADOS EN INGENIERÍA
ESPECIALIZACIÒN EN BASES DE DATOS
2021
RESUMEN
El proyecto se relaciona en el estudio y aplicación de inteligencia de negocios espaciales
sobre las bases de datos del ICFES Saber 11 a nivel nacional. Para su desarrollo se
tomaron los datos de los años 2015 a 2020 concentrando información de los evaluados,
instituciones educativas, condiciones socioeconómicas y municipios.
En la investigación, se determinaron herramientas software que permitieran aplicar
inteligencia de negocios espaciales de forma completa y con todas las características que
esta conlleva, planteando la pregunta: ¿De qué manera se podría soportar la toma de
decisiones relacionadas con los resultados almacenados en las bases de datos de las
pruebas ICFES Saber 11 a través de inteligencia de negocios?, para dar respuesta a esta
cuestión se desarrollaron tareas que implican el procesamiento inicial de los datos en el
diseño del almacén de datos aplicando la metodología de Kimball, modelado del esquema
de cubo, desarrollo de minería de datos con la aplicación del algoritmo K-Means y la
implementación de una aplicación de visualización de los resultados de acuerdo con los
factores necesarios para este fin "estadísticas gráficas"; lo anterior para obtener
resultados claros que puedan ser analizados por los expertos en el tema, para así permitir
que tengan control sobre el lugar de los sucesos y de esta manera poder situar los
esfuerzos donde en realidad se necesitan.
Palabras Claves: Bodegas de datos, Cubos de datos, Inteligencia de negocios, Minería de
datos, Procesamiento analítico.
DEFINICIÓN DEL PROBLEMA
FORMULACIÓN DEL PROBLEMA
¿De qué manera se podría soportar la toma de decisiones relacionadas con los
resultados almacenados en las bases de datos de las pruebas ICFES Saber 11 a través
de inteligencia de negocios espaciales?
DESCRIPCIÓN DEL PROBLEMA
El ICFES (Instituto Colombiano para la Evaluación de la Educación) cuenta con una base
de datos con registros almacenados del año 2015 al 2020 que contiene información de
puntajes de núcleo común y del componente flexible a nivel de individuos, información
sociodemográfica y clasificación de planteles educativos de las pruebas Saber 11. Con
estas pruebas se comprueba el nivel de competencias de los estudiantes cuando
culminan sus estudios de grado 11 y de las instituciones educativas de carácter público y
privado, y cuyos resultados son utilizados por las instituciones de educación superior para
la selección de candidatos que cumplan con las capacidades para cursar un programa de
2
formación profesional y otras entidades para medir indicadores educativos.
Según información proporcionada por el ICFES al día de hoy no se ha realizado un
análisis de inteligencia de negocios que implique las tendencias históricas y el
comportamiento de los datos por ubicación[5], ya sea del orden nacional,
departamental, municipal y de instituciones educativas que permita soportar la toma de
decisiones.
JUSTIFICACIÓN
El ICFES cuenta con un gran volumen de datos de carácter histórico y además están
clasificados de manera geográfica, lo que permite realizar este tipo de análisis de
inteligencia de negocios espacial para soportar la toma de decisiones.
Estos resultados permiten la toma de decisiones respecto a los datos almacenados a
través del tiempo y ayudan a medir su tendencia según el análisis aplicado, identificando
las zonas que geográficamente se verán afectadas por medio de los instrumentos y
algoritmos utilizados en la aplicación de la inteligencia de negocios espaciales, además al
no existir estudio alguno que implique este tipo de datos hace pertinente el desarrollo del
proyecto.
CARACTERIZACIÓN DE HERRAMIENTAS INFORMÁTICAS PARA
APLICAR INTELIGENCIA DE NEGOCIOS
En el desarrollo de la inteligencia de negocios se deben utilizar herramientas software
que permiten el manejo adecuado de los datos de manera que sea posible su análisis
para obtener resultados que favorezcan el cumplimiento de los objetivos y metas en la
organización.
Estas herramientas deben tener componentes que permitan el óptimo uso de los datos
teniendo en cuenta el componente geográfico, para así cumplir con el procesamiento en
línea espacial.
Las herramientas OLAP, SIG y SOLAP desempeñan un papel fundamental en el análisis
histórico de información permitiendo que se puedan analizar los datos por medio de
gráficos o mapas y de forma textual por tablas e informes, existen varias herramientas
propietarias, de software libre y de código abierto que permiten realizar estos proyectos.
El estudio de caracterización realizado permite compararlos para poder brindar elementos
de juicio que permitan decidir cuál es la mejor y más adecuada para la implementación de
Inteligencia de Negocios.
Sistema Gestor de Base de Datos OLTP: Postgres
Software para construir el Esquema de Datos: Schema Workbench.
Software Minería: Knime
Software de visualización BI: Saiku
3
Además, actualmente no se encuentra desarrollada un sistema software que integre cada
una de las herramientas mencionadas para construir y aplicar la inteligencia de negocios
espaciales en su totalidad, razón por la cual se concentran estas herramientas para
poder cumplir con las metas propuestas.
DISEÑO E IMPLEMENTACIÓN DE LA BODEGA DE DATOS DE LAS PRUEBAS
SABER 11
Planeación y Administración del proyecto. El desarrollo del trabajo de grado está
dirigido al Instituto Colombiano para la Evaluación de la Educación conocido como
ICFES, el cual es una entidad especializada en ofrecer servicios de evaluación de la
educación, apoyar al Ministerio de Educación Nacional en la realización de exámenes y
adelantar investigaciones sobre la calidad educativa [56]. Para el desarrollo del trabajo se
escogió las pruebas Saber 11 “antes conocida como Examen del ICFES, es un examen
de estado que evalúa a los estudiantes que están terminando su ciclo de Educación
Media” [56]. Los datos manejados dentro del proyecto fueron suministrados por la entidad
en su repositorio de información FTP en la dirección [Link] estos datos se
encuentran disponibles para cualquier persona interesada en desarrollar proyectos de
investigación referentes a la entidad.
Ralph Kimball menciona que existen cinco factores que deben existir en una entidad u
organización para poder desarrollar la bodega de datos de forma correcta:
Patrocinio de la gerencia del negocio: Se contó con el aval de ---------- para el proceso
de realización del trabajo
Motivación del negocio: El objetivo principal para el ICFES con el desarrollo del
proyecto es generar conocimiento no trivial o que no es posible de encontrar mediante
los métodos estadísticos descriptivos. El ICFES ve interesante encontrar características
dependientes de la ubicación geográfica asociada a la información procedente de su base
de datos.
Acompañamiento del departamento de tecnología: El ICFES cuenta con personal
encargado de mantener y alimentar sus bases de datos de las diferentes pruebas que
manejan Saber 5 y 9, Saber 11, Saber Pro y de docentes.
Presencia de cultura analítica: Por medio del estudio investigativo la entidad tendrá un
sistema que permitirá tomar decisiones según factores espaciales que serán
determinantes y estratégicos para la aplicación de las pruebas.
Factibilidad: El ICFES cuenta con la información detallada para la realización de la
Bodega de Datos y piensan que el proyecto podría contribuir a que no solo se
encuentren relaciones primarias entre los datos sino generar conocimiento a través de
tratamientos más complejos. Adicionalmente, instituciones como el Ministerio de
Educación y el DANE entre otros generan reportes sobre educación usando como datos
de entrada la información que el ICFES genera.
4
Planeación del proyecto: El proyecto de grado se le dio nombre de “APLICACIÓN DE
UN MODELO DE BI ENFOCADO A ANALIZAR DATOS SOBRE PRUEBAS SABER 11
DEL INSTITUTO COLOMBIANO PARA LA EVALUACIÓN DE LA EDUCACIÓN A NIVEL
NACIONAL”
DEFINICIÓN DE REQUERIMIENTOS DE NEGOCIO
Análisis de requerimientos. Se encontró que el ICFES como tal no recomienda
indicadores o variables para el desarrollo de este tipo de análisis, sugiere que los
investigadores interesados estudien las variables y recomienden algunos índices,
indicadores o relacionados dependiendo del tipo de estudio a realizar.
Levantamiento de información.
Las variables de análisis seleccionadas son:
Tiempo: años y semestres (2015-1 a 2020-2)
Instituciones educativas: Código, nombre, calendario, género, naturaleza, jornada,
carácter, municipio y departamento de localización
Evaluados: tipo de documento, género, fecha de nacimiento, edad, municipio y
departamento origen.
Condiciones socioeconómicas: estudios del padre, estudios de la madre, cantidad de
libros en el hogar, si tiene computador, internet, televisor, municipio y departamento de
presentación del examen.
Áreas: Tipo, nombre y puntaje.
Exámenes: Puntaje de los evaluados.
Diseño arquitectura técnica. La siguiente es la arquitectura diseñada para el desarrollo
de la bodega de datos de las pruebas ICFES Saber 11, se utilizan las herramientas
Knime y el gestor de bases de datos Postgresql 9.3
Fuente de datos OLTP: Archivos planos proporcionados por el ICFES donde se
encuentra toda información recolectada de los años 2015 a 2021.
Sistema ETL: La herramienta llamada Knime realiza el proceso de (extracción,
transformación y carga) de los datos de las diferentes dimensiones en la bodega de
datos.
Bodega de datos: El sistema gestor de bases de datos Postgresql permite almacenar los
datos de forma dimensional, y con el servidor de inteligencia de negocios para tener las
tablas de hechos y dimensiones adaptadas para poder realizar las consultas
alfanuméricas y espaciales sobre ellas.
Reportes: Las herramientas Saiku para la parte d e informes para mostrar los
resultados esperados por el ICFES en diferentes formatos ya sean tablas o gráficos
5
estadísticos.
Minería de datos: La herramienta Knime permite realizar minería de datos espaciales
sobre la información almacenada en la bodega de datos.
Modelamiento dimensional. En el desarrollo de la bodega de datos espacial se utilizó el
modelo copo de nieve, ya que se detalló de forma espacial los municipios y
departamentos de las instituciones educativas. El modelo realizado tiene una tabla de
hechos que se rodea de las dimensiones, esto permite desarrollar consultas SOLAP
sobre los datos.
Preguntas del negocio. Las preguntas del negocio se basaron en el interés del ICFES
por saber qué conocimiento se puede generar mediante el proyecto a partir de los datos
brindados por ellos para propósitos de investigación.
Las preguntas que se responderán con el proyecto son:
-- ¿Cuál es la cantidad de estudiantes que presentaron las pruebas en instituciones
educativas oficiales por municipio?
-- ¿Cuál es la cantidad de estudiantes que presentaron las pruebas en instituciones
educativas no oficiales por municipio?
-- ¿Cuál fue el puntaje más alto en las pruebas por año, en instituciones educativas
oficiales?
-- ¿Cuál fue el puntaje más alto en las pruebas por año, en instituciones educativas no
oficiales?
-- ¿Cuáles fueron los puntajes más altos en las pruebas en el año 2020 por municipio en
el área de lectura?
-- ¿Cuál fue el promedio de resultados en el área de inglés en el año 2020 por municipio?
¿Cuál fue el estrato que presento más bajo rendimiento en las pruebas a nivel municipal
en el año 2019?
Diseño conceptual. Los datos relacionados a continuación son tomados de los archivos
planos que proporciono el ICFES. Se comienza con la forma no normalizada de los datos
como se muestra:
Forma no normalizada: En esta forma se tienen los registros básicos de las bases de
datos del ICFES que vienen clasificadas por años y semestres.
Forma normalizada: Después de cargar los datos en el sistema gestor de bases de
datos se procedió a normalizarlos para tener las dimensiones necesarias y tabla de
hechos para la bodega de datos.
Dimensiones: Las dimensiones diseñadas se muestran a continuación:
Dimensión Tipo Detalle
Dim_Evaluados Alfanumérica Ninguno
Dim_Instituciones Alfanumérica Ciudad, Departamento
6
Dim_Tiempos Alfanumérica Ninguno
Dim_Area Alfanumérica Ninguno
Dimensión Evaluados: Almacena la información alfanumérica de datos básicos del
estudiante e información socioeconómica del mismo.
Dimensión Tiempos: Almacena los años divididos por semestres desde 2009 a 2013.
Dimensión Áreas: Almacena los tipos y áreas a evaluar por parte del ICFES.
Dimensión Instituciones: Almacena la información alfanumérica de datos de las
instituciones educativas del país.
Detalle Ciudad: Contiene los datos de las ciudades donde se ubican las instituciones
educativas.
Detalle Departamento: Contiene los datos del departamento donde se ubican las
instituciones educativas.
Tabla de hechos: En el desarrollo de la bodega espacial se diseñó la tabla llamada
hechos_examen que contiene la información de los puntajes de los evaluados según las
diferentes dimensiones asociadas.
a. Hechos Examen: Almacena los puntajes de los evaluados en las diferentes áreas
Saber 11
Diseño lógico: Validando los datos originalmente obtenidos, se obtuvo el diseño lógico
de la bodega de datos espacial, este contiene las dimensiones y tabla de hechos.
Diseño físico. Se procedió a la creación de la bodega de datos espacial por medio de
los scripts SQL DDL Lenguaje de Definición de Datos.
Diseño de capas de datos intermedia y desarrollo. Se utilizó la herramienta Knime que
permite realizar extracción, transformación y carga de datos. Además, permite realizar
transformaciones de datos con herramientas como mapeo, selección, filtro, unión,
duplicación, análisis espacial, vistas de cartografía y otras, finalmente permite la salida
de estos resultados para conformar la bodega de datos.
PROCESOS ETL DIMENSIONES.
Extracción: Se obtienen los valores de los archivos texto del ICFES que vienen
clasificados por años y semestres.
Transformación: Se realiza la transformación de eliminar duplicados, se realizan
ordenamientos, búsqueda de archivos huérfanos, mal nombrados y nulos.
Carga: Se cargan los datos a las respectivas dimensiones.
Cubo. En su diseño se utilizó la herramienta Schema Workbech que permitió la creación
del archivo XML con la definición del cubo, que posteriormente se utilizó como insumo
para la herramienta que generara los reportes. La muestra la representación del cubo
espacial dividido en esquema, cubo, medidas, dimensión, jerarquía, nivel y propiedades.
7
CARACTERIZACIÓN Y SELECCIÓN DEL ALGORITMO DE MINERÍA DE DATOS
ESPACIALES
Caracterización. Para el desarrollo de este objetivo se hace necesario relacionar los
algoritmos de minería de datos, así como las técnicas que los aplican, a partir de
esto se obtiene lo que muestra la selección de algoritmos junto con sus técnicas
relacionadas.
Técnica - Minería de datos
k-Means
Inducción o redes neuronales
Regresión lineal
Series de tiempo
Detección de desviaciones o Naive Bayes
Reglas de asociación
Patrones secuenciales
A partir de la tabla anterior se realiza la caracterización de los algoritmos de minería
espacial así: se detalla las características generales de los algoritmos de minería de
datos espacial, también los parámetros que usa en los procedimientos que aplica y las
ventajas y desventajas. Esta caracterización se realizó teniendo en cuenta factores que
permiten aplicar los algoritmos sobre la información geográfica y de esta forma
seleccionar el más adecuado para aplicar sobre la bodega de datos de las pruebas
ICFES Saber 11.
Selección. El algoritmo más adecuado en la aplicación del proyecto es K-MEANS, por
su eficiencia, integración de elementos alfanuméricos, su capacidad para encontrar
valores permitiendo representarlos, la posibilidad de utilizar los resultados de los puntajes
de las pruebas Saber 11 basándose en las preguntas relacionadas con el análisis; lo
anterior a través del agrupamiento de puntajes para establecer clústeres de evaluación
según la clasificación del ICFES que son: alto (71-100), medio (31-70) y bajo (0-30).
A partir de esto se tiene el caso específico de manejo especial del software KNIME. Los
clústeres encontrados a través de los grupos de puntajes de cada uno de los evaluados
se dividen en municipios y departamento de las instituciones educativas, para de esta
forma reflejar qué lugares tienen los mejores y peores puntajes; la clasificación anterior se
realizó por áreas de evaluación ya que de esta manera se muestra más específico el
conocimiento encontrado.
APLICACIÓN DE MINERÍA DE DATOS SOBRE LA BODEGA DE DATOS DE LAS
PRUEBAS ICFES SABER 11
En el desarrollo de la minería de datos se escogió el algoritmo K- MEANS, para ello se
8
realizara una muestra que integra los municipios de Boyacá, respecto al año 2020, lo
anterior por la gran cantidad de datos que se relacionan y para efectos de aplicación de
minería espacial, además se tomó de forma separada las áreas de evaluación de las
pruebas Saber 11, la razón de esto es para poder tener más precisión en cada
agrupamiento respecto al año de evaluación y los puntos de ubicación donde se
encuentran las instituciones educativas. Para la aplicación de la minería de datos se
aplicó una serie de pasos ordenados que permitieron obtener el conocimiento deseado
según Cabena [65].
Determinación de objetivos. El objetivo que se cumplió en la realización de este trabajo
de minería de datos fue: Determinar los clústeres de los puntajes altos (71-100), medios
(31-70) y bajos (0-30) de las áreas de lectura crítica, matemáticas, ciencias naturales,
sociales ciudadanas e inglés de los evaluados ubicados por instituciones educativas para
los municipios del país en el año 2020.
Preparación de los datos. Para la preparación de los datos se requirió realizar vistas
que integrara y separara los datos necesarios para el cumplimiento del objetivo.
Datos alfanuméricos: Estos datos se clasificaron utilizando una consulta que extrajo los
datos de la bodega de datos en la tabla de hechos.
Transformación de los datos. La transformación de los datos se realizó con las
herramientas que proporciona Knime para la aplicación del algoritmo en la minería de
datos.
Minería de datos. En la aplicación de la minería de datos espaciales se realizaron una
serie de pasos que se detallan a continuación.
Paso 1. Datos origen: Datos de los puntajes según los valores de evaluación.
Paso 2. Limpieza: Eliminación de datos nulos y elementos incompletos.
Paso 3. Algoritmo: Se realiza la ejecución del algoritmo K-Means con 20 Clústeres y
99 máximo número de iteraciones.
9
Paso 4. Barras: Gráfico de barras obtenido.
Paso 5. Colores: Definición de colores para los clústeres encontrados.
Paso 6. Tabla: Tabla de resultados.
Paso 7. Estadísticas: Estadísticas halladas según los datos resultantes.
Paso 10. Pastel: Gráfico de pastel de los clústeres encontrados.
Resultados encontrados. Los resultados de las diferentes áreas de evaluación se
representan en diagramas de pastel, muestra la representación de colores que se usaran
para la clasificación de puntajes que tienen los valores de cada grupo el cual es agrupado
según los niveles de puntaje de la tabla del ICFES.
10
IMPLEMENTACIÓN DEL VISOR ALFANÚMERICO DE CONSULTA PARA
INTELIGENCIA DE NEGOCIOS
Herramienta software. En el proceso de visualización de los datos de tipo alfanumérico y
espacial hay que tener en cuenta la representación de la información, esta puede ser
mostrada en tablas, graficas de tipo: pastel, barras, líneas y mapas, que es el soporte de
análisis que tendrá el usuario para interpretar los resultados.
7. CONCLUSIONES
El proyecto realizado incorporó inteligencia de negocios, desarrollando cada una de las
fases comprendidas en los objetivos planteados; además, con la utilización de software
libre se logró que los datos fueran tratados y manejados según los factores de decisión
que se establecieron espacialmente.
Al día de hoy se han desarrollado una cantidad limitada de proyectos relacionados con la
inteligencia de negocios espaciales, esto por ser una tecnología un tanto nueva y de
compleja exploración, ya que involucra nuevos tipos de datos, técnicas de aplicación y un
alto manejo de procesamiento y memoria, por esta razón el almacenamiento espacial ha
evolucionado incorporando nuevas formas de obtener el tipo de dato espacial y
mejorando la distribución de las tablas e índices para la recuperación de los mismos, a
su vez los modelos y consultas espaciales incrementan el rendimiento e integridad en la
recuperación de la información; teniendo en cuenta que el uso de estas consultas exige
más y mejores procedimientos. En concordancia, el surgimiento de nuevos algoritmos
para extraer la información espacial hace que la minería de datos espacial adquiera
nuevas técnicas de transformación de los datos para que cumplan con los requerimientos
exigidos.
Como se ha denotado la aplicabilidad de la inteligencia de negocios se relaciona en un
número amplio de temáticas, permitiendo que la misma se involucre con áreas del
conocimiento que posibilita obtener resultados más completos y visibles en la toma de
decisiones para presente y futuro.
Actualmente no existe un software que unifique la inteligencia de negocios espaciales y
que tengan un análisis espacial de forma directa, con el conjunto de pasos desarrollados
en el proyecto se logra obtener respuesta para los factores de evaluación del soporte
para la toma de decisiones en las bases de datos del ICFES pruebas SABER 11.
En el desarrollo de la minería el algoritmo K-Means fue fundamental para el
descubrimiento de los clústeres para el año de muestra 2020, teniendo en cuenta los
conjuntos de datos por área de evaluación y la posición de estos clústeres de los
municipios.
Actualmente existe una gran variedad de técnicas y algoritmos orientados a la minería de
datos, estos algoritmos poco a poco se han venido adaptando de forma que permitan
la aplicación de minería de datos y descubrir conocimiento que antes era imposible o muy
difícil de encontrar, esta razón a hecho que nazcan proyectos como Knime que, aunque
están en proceso de maduración son muy útiles a la hora de utilizar este tipo de
información.
La aplicación de inteligencia de negocios en el ICFES ayuda a que se enfoquen los
esfuerzos en donde realmente se requieren, esto al poder mostrar el conocimiento sobre
las áreas, y de esta forma aplicar proyectos que beneficien al departamento, sus
municipios y sus comunidades estudiantiles.