Introducción a la
GEOINTELIGENCIA
COMPUTACIONAL
Modelos de Aprendizaje Automático
Autor
Gandhi Samuel Hernández Chan
Derechos reservados © Centro de Investigación en
Ciencias de Información Geoespacial, A.C.
En este documento podrás encontrar una breve descripción de algunos de los modelos de aprendizaje
automático más conocidos. Estos modelos son de gran utilidad para el procesamiento de datos en
tareas de clasificación, agrupamiento, identificación de patrones y predicción. Dependiendo de la
naturaleza del problema, de los datos y de los objetivos de la investigación se deberá aplicar uno, otro
o incluso una combinación.
1.- Regresión Lineal Simple
La regresión es el proceso de predicción de un valor continuo. En la regresión, hay dos tipos de
variables, una variable dependiente y una o más variables independientes. La variable dependiente,
puede verse como el estado, objetivo o meta final que estudiamos e intentamos predecir, y las
variables independientes, también conocidas como variables explicativas, pueden considerarse como
las causas de esos estados. Las variables independientes se muestran convencionalmente por X, y la
variable dependiente se indica por Y. Nuestro modelo de regresión relaciona Y, o la variable
dependiente, con una función de X, es decir, las variables independientes. El punto clave en la
regresión es que nuestro valor dependiente debe ser continuo y no puede ser un valor discreto.
Básicamente, hay dos tipos de modelos de regresión.
1. Regresión simple
Es cuando una variable independiente se usa para estimar una variable dependiente. Puede
ser lineal o no lineal.
2. Regresión múltiple.
Es cuando hay más de una variable independiente.
Dependiendo de la relación entre variables dependientes e independientes, puede ser una regresión
lineal o no lineal.
Aplicaciones
● Predecir las ventas anuales
● Determinar la satisfacción individual basada en factores demográficos y psicológicos
● Predecir el precio de una casa en un área, en función de su tamaño, número de habitaciones
● Predecir el ingreso laboral, para variables independientes como horas de trabajo, educación,
ocupación, años de experiencia, etc.
● Predecir la evolución de un tratamiento médico con base en características de los pacientes o
fármacos
Derechos reservados © Centro de Investigación en
Ciencias de Información Geoespacial, A.C.
La siguiente imagen muestra un ejemplo de datos cuya distribución puede ser modelada por medio
de regresión lineal. Lo que se quiere es predecir el valor de Y utilizando el valor de X.
Imagen 1 Regresión Lineal Simple. Recuperado 1 de abril de 2022, de https://www.datamind.website/regresion-lineal-en-
investigacion-de-mercados/
En estos casos, la línea de ajuste se muestra tradicionalmente como el siguiente polinomio
Imagen 2 Sánchez, O. (2022) Polinomio de Regresión Lineal. Elaboración propia
Ŷ es la variable dependiente
X1 es la variable independiente
Θ0 y Θ1 son los parámetros de la línea que debemos ajustar. Θ1 se conoce como la pendiente o
gradiente de la línea de ajuste y Θ0 se conoce como la intersección.
Θ0 y Θ1 también se llaman coeficientes de la ecuación lineal.
Cuando trabajamos con regresión lineal, lo que buscamos es aquel modelo que se ajuste de mejor
manera a la realidad, es decir, aquel con el menor margen de error, es decir, con la mayor exactitud
(accuracy).
Para ello, es necesario entrenar el modelo. Una de las formas de hacerlo es separar el conjunto de
datos en dos grupos:
i) un grupo de entrenamiento (train dataset)
ii) un grupo de prueba (test dataset)
En primera instancia podríamos tomar como train dataset un subconjunto de los datos (se recomienda
entre un 70% y un 80%), probar el modelo con un subconjunto (test dataset) que corresponde al
porcentaje restante, y comparar los resultados obtenidos con el modelo con los valores reales.
2.- Regresión Lineal Múltiple
Derechos reservados © Centro de Investigación en
Ciencias de Información Geoespacial, A.C.
Cuando existen múltiples variables independientes, el proceso se denomina regresión lineal múltiple.
La regresión lineal múltiple es la extensión del modelo de regresión lineal simple.
¿Qué tipo de problemas puede resolver?
¿Cuándo debemos usarla?
¿Qué tipo de preguntas podemos responder al usarla?
Básicamente, hay dos aplicaciones para regresión lineal múltiple.
Primero, se puede usar cuando nos gustaría identificar la intensidad del efecto que las variables
independientes tienen en la variable dependiente. Por ejemplo: saber si el acceso a servicios de salud,
el nivel de ingresos, consumo de alcohol y el género tienen algún efecto en el estado de salud
emocional de algún sector de la población.
Segundo, se puede usar para predecir el impacto de los cambios, es decir, para comprender cómo
cambia la variable dependiente cuando cambiamos las variables independientes. Por ejemplo, cuando
se revisan los datos de salud de una persona, una regresión lineal múltiple puede decir cuánto se
afecta el estado de salud de una persona por cada aumento o disminución de la cantidad de horas de
sueño sabiendo que mantiene constantes otros factores como la ingesta de calorías o el consumo de
medicamentos.
Como ocurre con la regresión lineal simple, la regresión lineal múltiple es un método para predecir
una variable continua. Utiliza múltiples variables llamadas variables independientes o predictores que
mejor predicen el valor de la variable objetivo que también se llama la variable dependiente. En la
regresión lineal múltiple, el valor objetivo Y es una combinación lineal de variables independientes X
La regresión lineal múltiple es muy útil porque puede examinar qué variables son predictores
significativos de la variable de resultado. Además, puede dar a conocer cómo afecta cada característica
a la variable de resultado.
La línea de ajuste se representa con el siguiente polinomio
Imagen 3 Sánchez, O. (2022) Polinomio de Regresión Lineal Múltiple. Elaboración propia
Después de encontrar los mejores parámetros para el modelo, se puede pasar a la fase de predicción.
Ahora la pregunta es, ¿cuántas variables independientes deberíamos usar para la predicción?
¿Debemos usar todos los campos en nuestro conjunto de datos? ¿Agregar variables independientes a
un modelo de regresión lineal múltiple siempre aumenta la precisión del modelo? Básicamente,
agregar demasiadas variables independientes sin ninguna justificación teórica puede resultar en un
modelo sobre-entrenado. A este fenómeno se le conoce comúnmente como overfit.
Derechos reservados © Centro de Investigación en
Ciencias de Información Geoespacial, A.C.
Por lo tanto, se recomienda evitar el uso de muchas variables para la predicción.
Como último punto, recuerde que la regresión lineal múltiple es un tipo específico de regresión lineal.
Por lo tanto, debe haber una relación lineal entre la variable dependiente y cada una de sus variables
independientes. Hay varias formas de verificar la relación lineal. Por ejemplo, puede usar gráficos de
dispersión y luego verificarse visualmente la linealidad.
3.- Regresión No Lineal
La Regresión No Lineal es un método para encontrar un modelo no lineal para la relación entre la
variable dependiente y un conjunto de variables independientes. A diferencia de la regresión lineal
tradicional, que está restringida a la estimación de modelos lineales, la regresión no lineal puede
estimar modelos con relaciones arbitrarias entre las variables independientes y las dependientes. Un
ejemplo se muestra en la siguiente figura.
Imagen 4 Legorreta, D. (2015, 17 marzo). Regresión No lineal. Recuperado 12 de abril de 2022, de
https://dlegorreta.wordpress.com/2015/03/17/regresion-no-lineal-cross-validation-y-regularization/
En este caso, no convendría utilizar un modelo de regresión lineal dado que los datos no se asemejan
a una línea. Es decir, un modelo de regresión lineal no sería un buen ajuste a los datos, por lo que las
predicciones hechas a partir de ese modelo no serían muy precisas. Por tanto, es necesario utilizar un
modelo no lineal.
Al parecer, el comportamiento de estos datos obedece a una función exponencial o una función
logística.
Derechos reservados © Centro de Investigación en
Ciencias de Información Geoespacial, A.C.
Imagen 5 Sánchez, O. (2022) Gráficas de función exponencial y función logística. Elaboración propia
Así que se requiere un método de estimación especial basado en el procedimiento de regresión no
lineal basado en la siguiente ecuación
Imagen 6 Sánchez, O. (2022) Ecuación del Modelo de Regresión No Lineal. Elaboración propia
Entonces, la tarea consiste nuevamente en estimar los valores de los parámetros (𝜃) del modelo y
utilizar el modelo para predecir. El modelo podría utilizarse para funciones cuadráticas, cúbicas, y de
más dimensiones en lo que se conoce como regresión polinómica.
La regresión polinomial ajusta una línea curva a los datos. Un ejemplo simple de polinomio con grado
tres utilizaría la siguiente ecuación:
Imagen 7 Sánchez, O. (2022) Polinomio de grado 3 para un Modelo de Regresión No Lineal. Elaboración propia
En donde los valores de Θn son parámetros que hay que estimar para que el modelo se ajuste
perfectamente a los datos.
4.- K vecinos más próximos (KNN - K Nearest Neighbor)
En el aprendizaje automático, la clasificación es un enfoque de aprendizaje supervisado que se puede
considerar como un medio para categorizar o clasificar algunos elementos desconocidos en un
conjunto discreto de clases.
La clasificación intenta aprender la relación entre un conjunto de variables de características y una
variable objetivo de interés. El atributo de destino en la clasificación es una variable categórica con
valores discretos.
Derechos reservados © Centro de Investigación en
Ciencias de Información Geoespacial, A.C.
Entonces, ¿cómo funcionan la clasificación y los clasificadores? Dado un conjunto de puntos de datos
de entrenamiento junto con las etiquetas de destino, la clasificación determina la etiqueta de clase
para un caso de prueba sin etiqueta.
KNN es un ejemplo típico de modelos de clasificación. Se le conoce como modelo perezoso ya que
basa su funcionamiento en memorizar el conjunto de datos de entrenamiento, en lugar de aprender
una función discriminativa.
Los algoritmos de aprendizaje automático se pueden agrupar en modelos paramétricos y no
paramétricos.
Usando modelos paramétricos, se estiman los parámetros del conjunto de datos de entrenamiento
para aprender una función que puede clasificar nuevos puntos de datos sin requerir el conjunto de
datos de entrenamiento original. Un ejemplo es el modelo de regresión logística.
En contraste, los modelos no paramétricos no se pueden caracterizar por un conjunto fijo de
parámetros, y el número de parámetros aumenta con los datos de entrenamiento. Un ejemplo es el
clasificador de árboles de decisión.
KNN pertenece a una subcategoría de modelos no paramétricos que se describe como aprendizaje
basado en instancias. Los modelos basados en el aprendizaje basado en instancias se caracterizan por
memorizar el conjunto de datos de entrenamiento.
El algoritmo KNN en sí mismo es bastante sencillo y se puede resumir en los siguientes pasos:
1. Elegir el número de k y una métrica de distancia.
2. Encuentra los k vecinos más cercanos de la muestra que queremos clasificar.
3. Asignar la etiqueta de la clase por mayoría de votos.
La siguiente figura muestra esta clasificación
Imagen 8 Avila Camacho, J. (2021, 12 agosto). K-Nearest Neighbors. Recuperado 12 de abril de 2022, de
https://www.jacobsoft.com.mx/es_mx/k-nearest-neighbors/
Con base en la distancia elegida, el modelo KNN encuentra las k muestras más cercanas en el
conjunto de datos de entrenamiento. Podemos entender esta cercanía como un sinónimo de
similitud. Es decir, mientras más cercanos sean los puntos, mayor será su similitud. La etiqueta
Derechos reservados © Centro de Investigación en
Ciencias de Información Geoespacial, A.C.
de clase del nuevo punto de datos se determina entonces por mayoría de votos entre sus k
vecinos más cercanos.
La principal ventaja de este enfoque basado en la memoria es que el clasificador se adapta
inmediatamente a medida que recopilamos nuevos datos de entrenamiento. Sin embargo, el
inconveniente es que la complejidad computacional para clasificar nuevas muestras crece linealmente
con el número de muestras en el conjunto de datos de entrenamiento.
La elección correcta del valor de k es muy importante para encontrar un buen equilibrio entre el
exceso y la insuficiencia. También debemos asegurarnos de elegir una métrica de distancia que sea
apropiada para las características en el conjunto de datos.
5.- Árboles de Decisión
Es un modelo de predicción que, partiendo de un conjunto de datos, estos se pueden representar y
clasificar con base en una serie de condiciones que ocurren de forma sucesiva.
Podemos pensar que este modelo descompone los datos al tomar decisiones basadas en una serie de
preguntas.
La siguiente imagen muestra un ejemplo de representación de árbol de decisión.
Imagen 9 Stat Developer. (s. f.). Árboles de decisión. Recuperado 022–04-12, de
https://www.statdeveloper.com/introduccion-a-los-arboles-de-decision/
Se puede construir un árbol de decisión considerando los atributos uno por uno siguiendo estos pasos:
i) Elegir un atributo del conjunto de datos.
ii) Calcular la importancia (peso) del atributo en la división de los datos.
iii) Dividir los datos según el valor del mejor atributo
iv) Ir a cada rama y repetir el proceso para el resto de los atributos.
Derechos reservados © Centro de Investigación en
Ciencias de Información Geoespacial, A.C.
Lo que es importante al hacer un árbol de decisión, es determinar qué atributo es el que mejor divide
a los datos y, a partir de ahí, seleccionar los demás atributos usando el mismo criterio.
En otras palabras, lo que se busca es la mejor característica que disminuya la impureza de los datos
en las hojas después de dividirlos según esa característica. Es decir, la característica que divida los
nodos de la mejor manera.
Un nodo en el árbol se considera puro si, en el 100% de los casos, los nodos caen dentro de una
categoría.
La impureza de los nodos se calcula por la entropía de los datos en el nodo, es decir, la cantidad de
trastorno de la información o la cantidad de aleatoriedad en los datos. La entropía en el nodo depende
de la cantidad de datos aleatorios en ese nodo y se calcula para cada nodo. Por lo tanto, se trata de
buscar árboles que tengan la entropía más pequeña en sus nodos.
La entropía se utiliza para calcular la homogeneidad de las muestras en ese nodo. Si las muestras son
completamente homogéneas, la entropía es cero y si las muestras se dividen por igual, tiene una
entropía de uno. Esto significa que, si todos los datos en un nodo son de un mismo tipo o categoría,
entonces la entropía es cero, pero si la mitad de los datos son de una categoría y la otra mitad de otra,
entonces la entropía es uno. Esto lo podemos observar en la siguiente imagen.
Imagen 10 Orellana Alvear, J. (2018, 16 noviembre). Entropía. Recuperado 12 de abril de 2022, de
https://bookdown.org/content/2031/arboles-de-decision-parte-i.html
6.- Máquinas de Soporte Vectorial (SVM)
Una Máquina de Soporte Vectorial es un modelo supervisado de clasificación que basa su
funcionamiento en encontrar un separador.
SVM funciona al asignar primero los datos a un espacio de características de alta dimensión para que
los puntos de datos se puedan categorizar, incluso cuando los datos no se pueden separar de manera
lineal. Entonces, se estima un separador para los datos.
Los datos deben transformarse de tal manera que se pueda dibujar un separador como un hiperplano.
Derechos reservados © Centro de Investigación en
Ciencias de Información Geoespacial, A.C.
Por ejemplo, considere la siguiente figura, que muestra la distribución de un pequeño conjunto de
datos. Como puede ver, los puntos de datos se dividen en dos categorías diferentes. Las dos categorías
se pueden separar con una curva, pero no con una línea. Es decir, representa un conjunto de datos
linealmente no separables, que es el caso de la mayoría de los conjuntos de datos del mundo real.
Imagen 11 Stat Developer. (s. f.-b). Datos No Linealmente Separables. Recuperado 12 de abril de 2022, de
https://www.statdeveloper.com/maquinas-de-soporte-de-vectores/
Es posible transferir estos datos a un espacio de dimensión superior, por ejemplo, asignándolos a un
espacio tridimensional. Después de la transformación, la separación entre las dos categorías se puede
definir mediante un hiperplano. Este plano puede usarse para clasificar casos nuevos o desconocidos.
Por lo tanto, el algoritmo SVM genera un hiperplano óptimo que categoriza nuevos ejemplos.
Imagen 12 Stat Developer. (s. f.-b). Datos separados por un hiperplano. Recuperado 12 de abril de 2022, de
https://www.statdeveloper.com/maquinas-de-soporte-de-vectores/
7.- Agrupamiento Espacial Basado en Densidad de Aplicaciones con Ruido (DBSCAN)
DBSCAN es un modelo de agrupamiento basado en densidad que resulta muy apropiado para cuando
se examinan datos espaciales.
La mayoría de los modelos de clustering tradicionales son no supervisados. Sin embargo, pudieran no
ser capaces de ofrecer los mejores resultados cuando es necesario detectar clusters dentro de
clusters, como se muestra en la siguiente imagen.
Derechos reservados © Centro de Investigación en
Ciencias de Información Geoespacial, A.C.
Imagen 13 Data Novia. (s. f.). Clustering con DBSCAN. Recuperado 12 de abril de 2022, de
https://www.datanovia.com/en/lessons/dbscan-density-based-clustering-essentials/
Es decir, en estos casos, los elementos del mismo cluster pudieran no ser lo suficientemente
similares. Los algoritmos tradicionales a pesar de ser fáciles de implementar, no pueden
distinguir valores atípicos (outliers). Esto significa que todos los puntos serán asignados a un
cluster aún cuando no pertenezcan a él.
El agrupamiento basado en densidad ubica regiones de alta densidad que están separadas entre sí por
regiones de baja densidad.
La densidad en este contexto se define como el número de puntos dentro de un radio específico.
Un tipo específico y muy popular de agrupamiento basado en densidad es DBSCAN.
DBSCAN es particularmente efectivo para tareas como la identificación de clases en un contexto
espacial.
La principal ventaja de DBSCAN es su capacidad de encontrar grupos (clustering) de manera arbitraria
sin ser afectado por el ruido.
Por ejemplo, este mapa pudiera mostrar agrupaciones de puntos de interés para un caso en específico,
por ejemplo, sitios de refugio, zonas de riesgo, etc.
Esto se puede usar para mostrar grupos que muestren condiciones o características similares.
Derechos reservados © Centro de Investigación en
Ciencias de Información Geoespacial, A.C.
Imagen 14 Tabbsum, U. (2021, 15 julio). Agrupaciones de puntos de interés usando DBSCAN. Recuperado 12 de abril de
2022, de https://medium.com/analytics-vidhya/density-based-spatial-clustering-of-applications-with-noise-density-based-
spatial-clustering-of-f981822ce09e
Este algoritmo no solo encuentra diferentes agrupaciones de formas arbitrarias, sino que
también puede encontrar la parte más densa de las muestras e ignorar las áreas menos
densas o los ruidos.
DBSCAN trabaja en la idea de que, si un punto en particular pertenece a un clúster, debería estar cerca
de muchos otros puntos en ese clúster. Funciona en base a dos parámetros; Radio (Eps) y puntos
mínimos (MinPts). Eps determina un radio específico que, si incluye suficientes puntos dentro de él,
se considera un área densa. MinPts determina el número mínimo de puntos de datos que definen un
grupo.
Imagen 15 proft.me. (2017, 3 febrero). Radio y Puntos Mínimos que determinan la densidad de un área. Recuperado 12 de
abril de 2022, de https://en.proft.me/2017/02/3/density-based-clustering-r/
Además de los modelos vistos hasta ahora, existen muchos otros modelos que forman parte del
Machine Learning y que se pueden usar para clasificar y agrupar datos y cada uno tiene características
propias que se toman en cuenta al momento de decidir cuál utilizar. Debemos de tomar en cuenta
que, para investigaciones basadas en el estudio del territorio y sus dinámicas, el componente
geoespacial juega un papel fundamental, y en términos del uso de modelos, se puede considerar como
una variable más, aquella con el mayor peso y que explique de mejor manera los fenómenos
estudiados. ¿Te has preguntado por qué, algunos fenómenos ocurren con más frecuencia en sitios
específicos?
Derechos reservados © Centro de Investigación en
Ciencias de Información Geoespacial, A.C.
Derechos reservados © Centro de Investigación en
Ciencias de Información Geoespacial, A.C.