Analítica Descriptiva
Jhonny Moncada Mesa
Sharda, Delen y Turban (2018). Business intelligence, analytics, and data science a
managerial perspective.
Modelos estadísticos para la analítica de negocios
Los métodos estadísticos tradicionales y las técnicas subyacentes
también están recuperando su atractivo como herramientas
habilitadoras para respaldar la toma de decisiones gerenciales
basada en evidencia.
No solo están recuperando la atención y la admiración, sino que,
esta vez, están atrayendo a usuarios comerciales además de
estadísticos y profesionales de la analítica.
2
Modelos estadísticos para la analítica de negocios
Relación entre
estadística y
analítica descriptiva.
3
Modelos estadísticos para la analítica de negocios
Las estadísticas (métodos estadísticos y técnicas subyacentes)
generalmente se consideran parte de la analítica descriptiva.
Algunos de los métodos estadísticos también pueden considerarse
parte del análisis predictivo,
el análisis discriminante,
la regresión múltiple,
la regresión logística y
la agrupación de k-medias.
4
Modelos estadísticos para la analítica de negocios
Como se muestra en la Figura, el análisis descriptivo tiene dos
ramas principales: estadísticas y procesamiento de análisis en
línea (OLAP).
OLAP es el término utilizado para analizar, caracterizar y resumir
datos estructurados almacenados en bases de datos
organizacionales (a menudo almacenados en un almacén de datos
o en una despensa de datos) usando cubos (es decir, estructuras de
datos multidimensionales que se crean para extraer un
subconjunto de valores de datos para responder una pregunta
comercial específica).
La rama OLAP de análisis descriptivo también se ha denominado
Business Intelligence. 5
Modelos estadísticos para la analítica de negocios
La estadística, por otro lado, ayuda a caracterizar los datos, ya sea
una variable a la vez o multivariables todas juntas, utilizando
métodos descriptivos o inferenciales.
La estadística, es una colección de técnicas matemáticas para
caracterizar e interpretar datos, existe desde hace mucho tiempo.
En el nivel más alto, los métodos estadísticos pueden clasificarse
como descriptivos o inferenciales.
Mientras que la estadística descriptiva se trata de describir los
datos de muestra disponibles, la estadística inferencial se trata de
extraer inferencias o conclusiones sobre las características de la
población. 6
Modelos estadísticos para la analítica de negocios
Estadística descriptiva para análisis descriptivo
La estadística descriptiva, como su nombre lo indica, describe las
características básicas de los datos disponibles, a menudo una
variable a la vez.
Mediante fórmulas y agregaciones numéricas, la estadística
descriptiva resume los datos de tal manera que a menudo surgen
del estudio patrones significativos y fácilmente comprensibles.
La estadística descriptiva no permite sacar conclusiones (o
inferencias) más allá de la muestra de los datos que se analizan.
7
Modelos estadísticos para la analítica de negocios
Estadística descriptiva para análisis descriptivo
La estadística descriptiva nos ayuda a convertir nuestros números
y símbolos en representaciones significativas para que cualquiera
las entienda y use.
Las estadísticas descriptivas permiten a los analistas identificar la
concentración de datos, valores inusualmente grandes o
pequeños (es decir, valores atípicos) y valores de datos
distribuidos inesperadamente para variables numéricas.
Por lo tanto, los métodos en estadística descriptiva pueden
clasificarse como medidas de tendencia central o medidas de
dispersión. 8
Modelos estadísticos para la analítica de negocios
Medidas de tendencia a la centralidad (medidas de ubicación)
Las medidas de centralidad son los métodos matemáticos
mediante los cuales estimamos o describimos el posicionamiento
central de una determinada variable de interés.
Una medida de tendencia central es un valor numérico único que
tiene como objetivo describir un conjunto de datos simplemente
identificando o estimando la posición central dentro de los datos.
La media (a menudo llamada media aritmética o promedio simple)
es la medida de tendencia central más utilizada.
9
Modelos estadísticos para la analítica de negocios
Medidas de tendencia a la centralidad (medidas de ubicación)
Además de la media, también puede ver la mediana o la moda que
se utilizan para describir la centralidad de una variable
determinada.
Aunque la media, la mediana y la moda son todas medidas válidas
de tendencia central, en diferentes circunstancias, una de estas
medidas de centralidad se vuelve más apropiada que las otras.
10
Modelos estadísticos para la analítica de negocios
Medidas de tendencia a la centralidad (medidas de ubicación)
La media aritmética (o simplemente media o promedio) es la suma
de todos los valores/observaciones dividida por el número de
observaciones en el conjunto de datos.
Se utiliza con datos numéricos continuos o discretos.
Una desventaja importante es que la media puede verse afectada
por valores atípicos.
Si hay valores atípicos o si los datos están dispersos y sesgados de
manera errática, se debe evitar el uso de la media como medida
de centralidad o aumentarla con otras medidas de tendencia
central, como la mediana y la moda. 11
Modelos estadísticos para la analítica de negocios
Medidas de tendencia a la centralidad (medidas de ubicación)
La mediana es la medida del valor central en un conjunto de datos
dado.
Es el número en el medio de un conjunto de datos dado que se ha
ordenado/arreglado en orden de magnitud (ascendente o
descendente).
La mediana es significativa y calculable para los tipos de datos de
razón, intervalo y ordinal.
Una vez determinados, la mitad de los puntos de datos en los
datos están por encima y la otra mitad por debajo de la mediana.
A diferencia de la media, la mediana no se ve afectada por valores
atípicos o datos asimétricos. 12
Modelos estadísticos para la analítica de negocios
Medidas de tendencia a la centralidad (medidas de ubicación)
La moda es la observación que ocurre con mayor frecuencia (el
valor más frecuente en nuestro conjunto de datos).
La moda es más útil para conjuntos de datos que contienen un
número relativamente pequeño de valores únicos. Es decir, puede
ser inútil si los datos tienen demasiados valores únicos.
Aunque es una medida útil (especialmente para datos nominales),
la moda no es una muy buena representación de la centralidad y,
por lo tanto, no debe usarse como la única medida de tendencia
central para un conjunto de datos dado.
13
Modelos estadísticos para la analítica de negocios
Medidas de tendencia a la centralidad (medidas de ubicación)
¿Qué medida de tendencia central es la mejor?
Aunque no hay una respuesta clara a esta pregunta, aquí hay
algunas sugerencias:
use la media cuando los datos no sean propensos a valores atípicos
y no haya un nivel significativo de asimetría;
use la mediana cuando los datos tengan valores atípicos y/o sean de
naturaleza ordinal;
utilice la moda cuando los datos sean nominales.
14
Modelos estadísticos para la analítica de negocios
Medidas de tendencia a la centralidad (medidas de ubicación)
Quizás la mejor práctica sea utilizar los tres juntos para que la
tendencia central del conjunto de datos pueda capturarse y
representarse desde tres perspectivas.
Es una mejor práctica presentar las estadísticas descriptivas como
un paquete, una combinación de medidas de centralidad y
dispersión, en lugar de una única medida como la media.
15
Modelos estadísticos para la analítica de negocios
Medidas de dispersión (medidas de descentralidad)
Las medidas de dispersión son los métodos matemáticos
utilizados para estimar o describir el grado de variación en una
determinada variable de interés.
Son una representación de la dispersión numérica (compacidad o
falta de ella) de un conjunto de datos dado.
Para describir esta dispersión, se desarrollan una serie de medidas
estadísticas; los más notables son el rango, la varianza y la
desviación estándar (y también los cuartiles y la desviación
absoluta).
16
Modelos estadísticos para la analítica de negocios
Medidas de dispersión (medidas de descentralidad)
Una de las principales razones por las que las medidas de
dispersión/difusión de los valores de los datos son importantes es
el hecho de que nos proporciona un marco dentro del cual
podemos juzgar la tendencia central.
Nos da una indicación de qué tan bien la media (u otras medidas
de centralidad) representa los datos de la muestra.
Si la dispersión de valores en el conjunto de datos es grande, no se
considera que la media sea una muy buena representación de los
datos.
17
Modelos estadísticos para la analítica de negocios
Medidas de dispersión (medidas de descentralidad)
El rango es quizás la medida más simple de dispersión.
Es la diferencia entre los valores más grandes y más pequeños en
un conjunto de datos dado (es decir, variables).
Entonces calculamos el rango simplemente identificando el valor
más pequeño en el conjunto de datos (mínimo), identificando el
valor más grande en el conjunto de datos (máximo) y calculando la
diferencia entre ellos (rango = máximo - mínimo).
18
Modelos estadísticos para la analítica de negocios
Medidas de dispersión (medidas de descentralidad)
Una medida de dispersión más completa y sofisticada es la
varianza.
Es un método que se utiliza para calcular la desviación de la media
de todos los puntos de datos en un conjunto de datos dado.
Cuanto mayor sea la varianza, más se separan los datos de la
media y más variabilidad se puede observar en la muestra de
datos.
Los valores más grandes de varianza indican más dispersión.
En lugar de la varianza, en muchas aplicaciones comerciales
utilizamos una medida de dispersión más significativa,
denominada desviación estándar. 19
Modelos estadísticos para la analítica de negocios
Medidas de dispersión (medidas de descentralidad)
La desviación estándar también es una medida de la dispersión de
valores dentro de un conjunto de datos.
La desviación estándar se calcula simplemente tomando la raíz
cuadrada de las variaciones.
A veces también usamos la desviación media absoluta para medir
la dispersión en un conjunto de datos.
Es una forma más sencilla de calcular la desviación general de la
media.
20
Modelos estadísticos para la analítica de negocios
Medidas de dispersión (medidas de descentralidad)
Los cuartiles nos ayudan a identificar la propagación dentro de un
subconjunto de los datos.
Un cuartil es una cuarta parte del número de puntos de datos
dados en un conjunto de datos.
Los cuartiles se determinan ordenando primero los datos y luego
dividiendo los datos ordenados en cuatro conjuntos de datos más
pequeños separados.
Son una medida útil de dispersión porque se ven mucho menos
afectados por valores atípicos o una asimetría en el conjunto de
datos. 21
Modelos estadísticos para la analítica de negocios
Medidas de dispersión (medidas de descentralidad)
Una forma común de expresar los cuartiles es como un rango
intercuartil, que describe la diferencia entre el tercer cuartil (Q3) y
el primer cuartil (Q1),
Nos informa sobre el rango de la mitad media de las puntuaciones
en la distribución.
Las medidas descriptivas basadas en cuartiles (tanto la centralidad
como la dispersión) se explican mejor con una gráfica popular
llamada gráfica de caja (o gráfica de caja y bigotes).
22
Modelos estadísticos para la analítica de negocios
Medidas de dispersión (medidas de descentralidad)
El diagrama de caja y bigotes (o simplemente un diagrama de caja)
es una ilustración gráfica de varias estadísticas descriptivas sobre
un conjunto de datos dado. Pueden ser horizontales o verticales.
El diagrama de caja se usa a menudo para ilustrar tanto la
centralidad como la dispersión de un conjunto de datos dado (es
decir, la distribución de los datos de la muestra) de una manera
fácil de entender.
Con la popularidad emergente de la analítica de negocios, está
ganando fama en áreas menos técnicas del mundo empresarial.
23
Modelos estadísticos para la analítica de negocios
Aspectos específicos
de los diagramas de
caja y bigotes.
24
Modelos estadísticos para la analítica de negocios
La forma de una distribución
Aunque no es tan común como la centralidad y la dispersión, la
forma de la distribución de los datos también es una medida útil
para las estadísticas descriptivas.
La distribución es la frecuencia de los puntos de datos contados y
representados en una pequeña cantidad de etiquetas de clase o
rangos numéricos (es decir, contenedores).
En una ilustración gráfica de la distribución, el eje y muestra la
frecuencia (recuento o %), y el eje x muestra las clases o bins
individuales en una forma ordenada por rango.
25
Modelos estadísticos para la analítica de negocios
La forma de una distribución
Una distribución muy conocida se llama distribución normal, que
es perfectamente simétrica en ambos lados de la media y tiene
numerosas propiedades matemáticas bien fundamentadas que la
convierten en una herramienta muy útil para la investigación y la
práctica.
A medida que aumenta la dispersión de un conjunto de datos,
también lo hace la desviación estándar y la forma de la
distribución parece más amplia.
26
Modelos estadísticos para la analítica de negocios
Relación entre
dispersión y
propiedades de
forma.
27
Modelos estadísticos para la analítica de negocios
La forma de una distribución
Hay dos medidas de uso común para calcular las características de
forma de una distribución: asimetría y curtosis.
A menudo se utiliza un histograma (gráfico de frecuencia) para
ilustrar visualmente tanto la asimetría como la curtosis.
La asimetría es una medida de oscilación en una distribución de
los datos que representa una estructura unimodal; solo existe un
pico en la distribución de los datos.
Debido a que la distribución normal es una distribución unimodal
perfectamente simétrica, no tiene asimetría, es decir, su medida
de asimetría es igual a cero. 28
Modelos estadísticos para la analítica de negocios
La forma de una distribución
La medida/valor de asimetría puede ser positivo o negativo.
Si la distribución se balancea hacia la izquierda (es decir, la cola
está en el lado derecho y la media es más pequeña que la
mediana), entonces produce una medida de asimetría positiva (c
en la figura).
Si la distribución se balancea hacia la derecha (es decir, la cola está
en el lado izquierdo y la media es mayor que la mediana), entonces
produce una medida de asimetría negativa (d en la figura).
En la misma figura, tanto (a) como (b) representan una simetría
perfecta y, por lo tanto, una medida cero para la asimetría.
29
Modelos estadísticos para la analítica de negocios
La forma de una distribución
La curtosis es otra medida a utilizar para caracterizar la forma de
una distribución unimodal.
La curtosis está más interesada en caracterizar la naturaleza
pico/alta/delgada de la distribución.
Específicamente, la curtosis mide el grado en que una distribución
tiene más o menos pico que una distribución normal.
Mientras que una curtosis positiva indica una distribución
relativamente alta/pico, una curtosis negativa indica una
distribución relativamente plana/corta.
30
Una distribución normal tiene una curtosis de 3.
Modelado de regresión para estadísticas inferenciales
La regresión, especialmente la regresión lineal, es quizás la técnica
analítica más conocida y utilizada en estadística.
La regresión se ha convertido en la técnica estadística para la
caracterización de las relaciones entre la(s) variable(s) explicativa
(entrada) y la(s) variable(s) de respuesta (salida).
La regresión es una técnica estadística relativamente simple para
modelar la dependencia de una variable (respuesta o variable de
salida) en una (o más) variables explicativas (de entrada).
Una vez identificadas, esta relación entre las variables se puede
representar formalmente como una función/ecuación
lineal/aditiva. 31
Modelado de regresión para estadísticas inferenciales
La regresión tiene como objetivo capturar la relación funcional
entre las características del mundo real y describir esta relación
con un modelo matemático, que luego se puede utilizar para
descubrir y comprender las complejidades de la realidad: explorar
y explicar las relaciones o pronosticar sucesos futuros.
La regresión se puede utilizar para uno de dos propósitos:
Prueba de hipótesis: investigar las relaciones potenciales entre
diferentes variables.
Predicción/pronóstico: estimar los valores de una variable de
respuesta en función de una o más variables explicativas.
Estos dos usos no son mutuamente excluyentes. 32
Modelado de regresión para estadísticas inferenciales
El poder explicativo de la regresión es también la base de su
capacidad de predicción.
En las pruebas de hipótesis (construcción de teorías), el análisis de
regresión puede revelar la existencia/fuerza y las direcciones de
las relaciones entre una serie de variables explicativas (a menudo
representadas con xi) y la variable de respuesta (a menudo
representadas con y).
En la predicción, la regresión identifica relaciones matemáticas
aditivas entre una o más variables explicativas y una variable de
respuesta.
Una vez determinada, esta ecuación se puede utilizar para
pronosticar los valores de la variable de respuesta para un
33
conjunto dado de valores de las variables explicativas.
Modelado de regresión para estadísticas inferenciales
CORRELACIÓN VERSUS REGRESIÓN
Estos dos términos a menudo son confundidos por profesionales e
incluso por científicos.
La correlación no asume a priori si una variable depende de las
otras y no se ocupa de la relación entre variables; en cambio, da
una estimación del grado de asociación entre las variables.
La regresión intenta describir la dependencia de una variable de
respuesta en una (o más) variables explicativas donde
implícitamente se supone que existe un efecto causal
unidireccional de la variable explicativa a la variable de respuesta,
independientemente de si la trayectoria del efecto es directa o
indirecta. 34
Modelado de regresión para estadísticas inferenciales
REGRESIÓN SIMPLE VERSUS MÚLTIPLE
Si la ecuación de regresión se construye entre una variable de
respuesta y una variable explicativa, entonces se llama regresión
simple.
Por ejemplo, la ecuación de regresión construida para
predecir/explicar la relación entre la altura de una persona
(variable explicativa) y el peso de una persona (variable de
respuesta.
35
Modelado de regresión para estadísticas inferenciales
REGRESIÓN SIMPLE VERSUS MÚLTIPLE
La regresión múltiple es la extensión de la regresión simple donde
las variables explicativas son más de una.
Por ejemplo, si tuviéramos que incluir no solo la altura de la
persona sino también otras características personales (por
ejemplo, IMC, género, etnia) para predecir el peso de una persona.
Si las relaciones no son lineales, es posible que deseemos utilizar
uno de los muchos métodos de regresión no lineal para capturar
mejor las relaciones entre las variables de entrada y salida.
36
Modelado de regresión para estadísticas inferenciales
¿Cómo desarrollamos el modelo de regresión lineal?
Para entender la relación entre dos variables, lo más simple que se
puede hacer es dibujar un diagrama de dispersión, donde el eje y
representa los valores de la variable de respuesta y el eje x
representa los valores de la variable explicativa (ver Figura).
Un diagrama de dispersión mostraría los cambios en la variable de
respuesta en función de los cambios en la variable explicativa.
En el caso que se muestra en la Figura, parece haber una relación
positiva entre los dos; a medida que aumentan los valores de la
variable explicativa, también lo hace la variable de respuesta.
37
Modelado de regresión para estadísticas inferenciales
Un gráfico de
dispersión y una
línea de regresión
lineal.
38
Modelado de regresión para estadísticas inferenciales
¿Cómo desarrollamos el modelo de regresión lineal?
El análisis de regresión simple tiene como objetivo encontrar una
representación matemática de esta relación.
Trata de encontrar la firma de una línea recta que pasa por la
derecha entre los puntos trazados (que representan los datos de
observación/históricos) de tal manera que minimiza la distancia
entre los puntos y la línea (los valores predichos en la línea teórica
de regresión).
Aunque existen varios métodos/algoritmos propuestos para
identificar la línea de regresión, el que se usa con más frecuencia se
llama método de mínimos cuadrados ordinarios (MCO). 39
Modelado de regresión para estadísticas inferenciales
¿Cómo desarrollamos el modelo de regresión lineal?
El método MCO tiene como objetivo minimizar la suma de los
residuos al cuadrado (distancias verticales al cuadrado entre la
observación y el punto de regresión) y conduce a una expresión
matemática para el valor estimado de la línea de regresión (que
se conocen como parámetros 𝛽).
Para la regresión lineal simple, la relación antes mencionada entre
la variable de respuesta (𝑦) y la variable explicativa(s) (𝑥) se puede
mostrar como una ecuación simple de la siguiente manera:
𝑦 = 𝛽0 + 𝛽1 𝑥
40
Modelado de regresión para estadísticas inferenciales
¿Cómo desarrollamos el modelo de regresión lineal?
𝑦 = 𝛽0 + 𝛽1 𝑥
En esta ecuación, 𝛽0 se llama intersección y 𝛽1 se llama pendiente.
Una vez que MCO determina los valores de estos dos coeficientes,
la ecuación simple puede usarse para pronosticar los valores de 𝐲
para valores dados de 𝐱.
El signo y el valor de 𝛽1 también revelan la dirección y la fuerza de
la relación entre las dos variables.
41
Modelado de regresión para estadísticas inferenciales
¿Cómo desarrollamos el modelo de regresión lineal?
Si el modelo es del tipo de regresión lineal múltiple, habrá más
coeficientes por determinar, uno por cada variable explicativa
adicional.
Como muestra la siguiente fórmula, la variable explicativa adicional
se multiplicaría con los nuevos coeficientes 𝛽𝑖 y se sumaría para
establecer una representación lineal aditiva de la variable de
respuesta.
𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝛽3 𝑥3 + ⋯ + 𝛽𝑛 𝑥𝑛
42
Modelado de regresión para estadísticas inferenciales
¿Cómo sabemos si el modelo es suficientemente bueno?
El modelo de regresión lineal debe evaluarse por su ajuste (el
grado en el que representa la variable de respuesta).
En el sentido más simple, un modelo de regresión bien ajustado da
como resultado valores pronosticados cercanos a los valores de
datos observados.
Para la evaluación numérica, a menudo se utilizan tres medidas
estadísticas para evaluar el ajuste de un modelo de regresión.
𝑅 2 (R-cuadrado), la prueba F general y el error cuadrático medio
(RMSE). 43
Modelado de regresión para estadísticas inferenciales
¿Cómo sabemos si el modelo es suficientemente bueno?
Las tres medidas se basan en las sumas de los errores cuadrados (qué
tan lejos están los datos de la media y qué tan lejos están los datos de
los valores predichos del modelo).
Las diferentes combinaciones de estos dos valores proporcionan
información diferente sobre cómo se compara el modelo de regresión
con el modelo de media.
El valor de 𝑅 2 varía de cero a uno (correspondiente a la cantidad de
variabilidad explicada en porcentaje), donde cero indica que la relación
y el poder de predicción del modelo propuesto no es buena, y uno
indica que el modelo propuesto es perfecto ajuste que produce
44
predicciones exactas (que casi nunca es el caso).
Modelado de regresión para estadísticas inferenciales
¿Cómo sabemos si el modelo es suficientemente bueno?
Mientras que un valor de 𝑅 2 de 0,3 para un modelo de regresión
lineal en ciencias sociales puede considerarse suficientemente
bueno, un valor de 𝑅 2 de 0,7 en ingeniería puede considerarse
que no es lo suficientemente bueno.
La mejora en el modelo de regresión se puede lograr agregando
variables explicativas de modo, sacando algunas de las variables
del modelo o usando diferentes técnicas de transformación de
datos, lo que resultaría en aumentos comparativos en un valor de
𝑅2 .
45
Modelado de regresión para
estadísticas inferenciales
Un flujo de proceso
para desarrollar
modelos de
regresión.
46
Modelado de regresión para estadísticas inferenciales
¿Cuáles son los supuestos más importantes en la regresión lineal?
A pesar de que todavía son la elección de muchos para el análisis
de datos (tanto con fines de modelado explicativo como
predictivo), los modelos de regresión lineal adolecen de varios
supuestos muy restrictivos.
La validez del modelo lineal construido depende de su capacidad
para cumplir con estos supuestos.
Estas son las suposiciones más comúnmente pronunciadas:
47
Modelado de regresión para estadísticas inferenciales
¿Cuáles son los supuestos más importantes en la regresión lineal?
1. Linealidad. Este supuesto establece que la relación entre la
variable de respuesta y las variables explicativas es lineal.
Es decir, el valor esperado de la variable de respuesta es una
función lineal de cada variable explicativa, mientras que todas las
demás variables explicativas se mantienen fijas.
Además, la pendiente de la línea no depende de los valores de las
otras variables.
También implica que los efectos de diferentes variables explicativas
sobre el valor esperado de la variable de respuesta son de
naturaleza aditiva. 48
Modelado de regresión para estadísticas inferenciales
¿Cuáles son los supuestos más importantes en la regresión lineal?
2. Independencia (de errores). Esta suposición establece que los
errores de la variable de respuesta no están correlacionados
entre sí.
3. Normalidad (de errores). Esta suposición establece que los
errores de la variable de respuesta se distribuyen normalmente.
Es decir, se supone que son totalmente aleatorios y no deben
representar ningún patrón no aleatorio.
49
Modelado de regresión para estadísticas inferenciales
¿Cuáles son los supuestos más importantes en la regresión lineal?
4. Varianza constante (de errores). Este supuesto, también llamado
homocedasticidad, establece que las variables de respuesta
tienen la misma varianza en su error, independientemente de los
valores de las variables explicativas.
5. Multicolinealidad. Este supuesto establece que las variables
explicativas no están correlacionadas (es decir, no replican las
mismas pero brindan una perspectiva diferente de la
información necesaria para el modelo).
50
Modelado de regresión para estadísticas inferenciales
¿Cuáles son los supuestos más importantes en la regresión lineal?
Existen técnicas estadísticas desarrolladas para identificar la
violación de estos supuestos y técnicas para mitigarlos.
La parte más importante para un modelador es ser consciente de
su existencia y poner en práctica los medios para evaluar los
modelos para asegurarse de que los modelos cumplen con los
supuestos sobre los que se basan.
51
Modelado de regresión para estadísticas inferenciales
Logistic Regression
La regresión logística es un algoritmo de clasificación basado en
probabilidades muy popular, estadísticamente sólido, que emplea
el aprendizaje supervisado.
Fue desarrollado en la década de 1940 como complemento de los
métodos de análisis de regresión lineal y discriminante lineal.
Se ha utilizado ampliamente en numerosas disciplinas, incluidos los
campos de las ciencias médicas y sociales.
52
Modelado de regresión para estadísticas inferenciales
Logistic Regression
La regresión logística es similar a la regresión lineal en que
también apunta a regresar a una función matemática que explica
la relación entre la variable de respuesta y las variables
explicativas utilizando una muestra de observaciones pasadas
(datos de entrenamiento).
Se diferencia de la regresión lineal con un punto importante: su
salida (variable de respuesta) es una clase en lugar de una
variable numérica.
Es decir, mientras que la regresión lineal se usa para estimar una
variable numérica continua, la regresión logística se usa para
53
clasificar una variable categórica.
Modelado de regresión para estadísticas inferenciales
Logistic Regression
Aunque la forma original de regresión logística se desarrolló para
una variable de salida binaria (p. Ej., 1/0, sí/no, pasa/no pasa,
acepta/rechaza), la versión modificada actual es capaz de predecir
variables de salida multiclase (p. Ej., regresión logística
multinomial).
Si solo hay una variable predictora y una variable predicha, el
método se llama regresión logística simple (similar a llamar
modelos de regresión lineal con solo una variable independiente
como regresión lineal simple).
54
Modelado de regresión para estadísticas inferenciales
Logistic Regression
En el análisis predictivo, los modelos de regresión logística se
utilizan para desarrollar modelos probabilísticos entre una o más
variables explicativas/predictoras (que pueden ser una
combinación de naturaleza continua y categórica) y una variable de
clase/respuesta (que puede ser binomial/binaria o
multinomial/multiclase).
A diferencia de la regresión lineal ordinaria, la regresión logística se
utiliza para predecir resultados categóricos (a menudo binarios) de
la variable de respuesta, tratando la variable de respuesta como el
resultado de un ensayo de Bernoulli. 55
Modelado de regresión para estadísticas inferenciales
Logistic Regression
Por lo tanto, la regresión logística toma el logaritmo natural de las
probabilidades de la variable de respuesta para crear un criterio
continuo como una versión transformada de la variable de
respuesta.
La transformación logit se denomina función de vínculo en la
regresión logística; aunque la variable de respuesta en la
regresión logística es categórica o binomial, el logit es el criterio
continuo sobre el que se realiza la regresión lineal.
56
Modelado de regresión para
estadísticas inferenciales
La función logística
57
Modelado de regresión para estadísticas inferenciales
Logistic Regression
La Figura muestra una función de regresión logística donde las
probabilidades se representan en el eje x (una función lineal de las
variables independientes), mientras que el resultado probabilístico
se muestra en el eje y (es decir, los valores de las variables de
respuesta cambian entre 0 y 1) .
La función logística, 𝑓(𝑦) en la Figura, es el núcleo de la regresión
logística, que solo puede tomar valores entre 0 y 1. La siguiente
ecuación es una representación matemática simple de esta
función:
1
𝑓 𝑦 =
1 + 𝑒 −(𝛽0 +𝛽1𝑥) 58
Modelado de regresión para estadísticas inferenciales
Logistic Regression
Los coeficientes de regresión logística (𝛽𝑠 ) generalmente se
estiman utilizando el método de estimación de máxima
verosimilitud.
A diferencia de la regresión lineal con residuos distribuidos
normalmente, no es posible encontrar una expresión de forma
cerrada para los valores de coeficiente que maximice la función
de verosimilitud, por lo que se debe utilizar un proceso iterativo.
59
Modelado de regresión para estadísticas inferenciales
Logistic Regression
Este proceso comienza con una solución inicial tentativa, luego
revisa los parámetros ligeramente para ver si la solución se puede
mejorar y repite esta revisión iterativa hasta que no se puede
lograr ninguna mejora o es mínima, momento en el que se dice
que el proceso se ha completado/convergido.
60
Modelado de regresión para estadísticas inferenciales
Pronóstico de series de tiempo
A veces, la variable que nos interesa (es decir, la variable de
respuesta) puede no tener variables explicativas claramente
identificables o puede haber demasiadas en una relación muy
compleja.
En tales casos, si los datos están disponibles en un formato
deseado, se puede desarrollar un modelo de predicción, las
llamadas series de tiempo.
61
Modelado de regresión para estadísticas inferenciales
Pronóstico de series de tiempo
Una serie de tiempo es una secuencia de puntos de datos de la
variable de interés, medidos y representados en puntos sucesivos
en el tiempo espaciados en intervalos de tiempo uniformes.
Los ejemplos de series de tiempo incluyen los volúmenes de lluvia
mensuales en un área geográfica, el valor de cierre diario de los
índices bursátiles, los totales de ventas diarias de una tienda de
comestibles.
A menudo, las series de tiempo se visualizan mediante un gráfico
de líneas.
62
Modelado de regresión para
estadísticas inferenciales
Una serie temporal
de muestra de datos
sobre volúmenes de
ventas trimestrales
63
Modelado de regresión para estadísticas inferenciales
Pronóstico de series de tiempo
El pronóstico de series de tiempo es el uso de modelos
matemáticos para predecir valores futuros de la variable de
interés con base a valores previamente observados.
Los gráficos de series de tiempo se ven y se sienten muy similares
a la regresión lineal simple en que, como en el caso de la
regresión lineal simple, en las series de tiempo hay dos variables:
la variable de respuesta y la variable de tiempo presentada en un
gráfico de dispersión.
64
Modelado de regresión para estadísticas inferenciales
Pronóstico de series de tiempo
Más allá de esta similitud de apariencia, apenas hay otros puntos
en común entre los dos.
Aunque el análisis de regresión se emplea a menudo para probar
teorías para ver si los valores actuales de una o más variables
explicativas explican (y por lo tanto predicen) la variable de
respuesta, los modelos de series de tiempo se enfocan en
extrapolar su comportamiento variable en el tiempo para estimar
los valores futuros.
65
Modelado de regresión para estadísticas inferenciales
Pronóstico de series de tiempo
El pronóstico de series de tiempo asume que todas las variables
explicativas se agregan y se consumen en el comportamiento
variable en el tiempo de la variable de respuesta.
Por lo tanto, la captura del comportamiento variable en el tiempo
es la forma de predecir los valores futuros de la variable de
respuesta.
Para ello, se analiza el patrón y se descompone en sus
componentes principales: variaciones aleatorias, tendencias
temporales y ciclos estacionales.
66
Modelado de regresión para estadísticas inferenciales
Pronóstico de series de tiempo
Las técnicas utilizadas para desarrollar pronósticos de series de
tiempo van desde muy simples (el pronóstico ingenuo que sugiere
que el pronóstico de hoy es el mismo que el real de ayer) hasta
muy complejas como ARIMA (un método que combina patrones
de promedio móvil y autorregresivo en los datos).
Las técnicas más populares son quizás los métodos de promediado
que incluyen promedio simple, promedio móvil, promedio móvil
ponderado y suavizado exponencial.
67
Modelado de regresión para estadísticas inferenciales
Pronóstico de series de tiempo
Muchas de estas técnicas también tienen versiones avanzadas
donde la estacionalidad y la tendencia también se pueden tener
en cuenta para una previsión mejor y más precisa.
La precisión de un método generalmente se evalúa calculando su
error (desviación calculada entre los datos reales y los pronósticos
de las observaciones pasadas) mediante el error medio absoluto
(MAE), el error cuadrático medio (MSE) o el error porcentual
absoluto medio (MAPE).
68
Modelado de regresión para estadísticas inferenciales
Pronóstico de series de tiempo
A pesar de que todos usan la misma medida de error central, estos
tres métodos de evaluación enfatizan diferentes aspectos del
error, algunos penalizan errores más grandes que otros.
69