100% encontró este documento útil (1 voto)

80 vistas69 páginas

Estadística Descriptiva en Negocios

El documento describe los modelos estadísticos utilizados en el análisis descriptivo de negocios. Explica que los métodos estadísticos tradicionales se están volviendo más populares para respaldar la toma de decisiones gerencial basada en evidencia. También describe las medidas estadísticas comúnmente utilizadas como la media, la mediana, la moda, la varianza y la desviación estándar.

Cargado por

Camilo Giraldo Quintero

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

100% encontró este documento útil (1 voto)

80 vistas69 páginas

Estadística Descriptiva en Negocios

Cargado por

Camilo Giraldo Quintero

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Analítica Descriptiva

Jhonny Moncada Mesa

Sharda, Delen y Turban (2018). Business intelligence, analytics, and data science a
managerial perspective.
Modelos estadísticos para la analítica de negocios

 Los métodos estadísticos tradicionales y las técnicas subyacentes

también están recuperando su atractivo como herramientas
habilitadoras para respaldar la toma de decisiones gerenciales
basada en evidencia.
 No solo están recuperando la atención y la admiración, sino que,
esta vez, están atrayendo a usuarios comerciales además de
estadísticos y profesionales de la analítica.

2
Modelos estadísticos para la analítica de negocios

 Relación entre
estadística y
analítica descriptiva.

3
Modelos estadísticos para la analítica de negocios

 Las estadísticas (métodos estadísticos y técnicas subyacentes)

generalmente se consideran parte de la analítica descriptiva.
 Algunos de los métodos estadísticos también pueden considerarse
parte del análisis predictivo,
 el análisis discriminante,

 la regresión múltiple,

 la regresión logística y

 la agrupación de k-medias.

4
Modelos estadísticos para la analítica de negocios

 Como se muestra en la Figura, el análisis descriptivo tiene dos

ramas principales: estadísticas y procesamiento de análisis en
línea (OLAP).
 OLAP es el término utilizado para analizar, caracterizar y resumir
datos estructurados almacenados en bases de datos
organizacionales (a menudo almacenados en un almacén de datos
o en una despensa de datos) usando cubos (es decir, estructuras de
datos multidimensionales que se crean para extraer un
subconjunto de valores de datos para responder una pregunta
comercial específica).
 La rama OLAP de análisis descriptivo también se ha denominado
Business Intelligence. 5
Modelos estadísticos para la analítica de negocios

 La estadística, por otro lado, ayuda a caracterizar los datos, ya sea

una variable a la vez o multivariables todas juntas, utilizando
métodos descriptivos o inferenciales.
 La estadística, es una colección de técnicas matemáticas para
caracterizar e interpretar datos, existe desde hace mucho tiempo.
 En el nivel más alto, los métodos estadísticos pueden clasificarse
como descriptivos o inferenciales.
 Mientras que la estadística descriptiva se trata de describir los
datos de muestra disponibles, la estadística inferencial se trata de
extraer inferencias o conclusiones sobre las características de la
población. 6
Modelos estadísticos para la analítica de negocios
Estadística descriptiva para análisis descriptivo
 La estadística descriptiva, como su nombre lo indica, describe las
características básicas de los datos disponibles, a menudo una
variable a la vez.
 Mediante fórmulas y agregaciones numéricas, la estadística
descriptiva resume los datos de tal manera que a menudo surgen
del estudio patrones significativos y fácilmente comprensibles.
 La estadística descriptiva no permite sacar conclusiones (o
inferencias) más allá de la muestra de los datos que se analizan.

7
Modelos estadísticos para la analítica de negocios
Estadística descriptiva para análisis descriptivo
 La estadística descriptiva nos ayuda a convertir nuestros números
y símbolos en representaciones significativas para que cualquiera
las entienda y use.
 Las estadísticas descriptivas permiten a los analistas identificar la
concentración de datos, valores inusualmente grandes o
pequeños (es decir, valores atípicos) y valores de datos
distribuidos inesperadamente para variables numéricas.
 Por lo tanto, los métodos en estadística descriptiva pueden
clasificarse como medidas de tendencia central o medidas de
dispersión. 8
Modelos estadísticos para la analítica de negocios
Medidas de tendencia a la centralidad (medidas de ubicación)
 Las medidas de centralidad son los métodos matemáticos
mediante los cuales estimamos o describimos el posicionamiento
central de una determinada variable de interés.
 Una medida de tendencia central es un valor numérico único que
tiene como objetivo describir un conjunto de datos simplemente
identificando o estimando la posición central dentro de los datos.
 La media (a menudo llamada media aritmética o promedio simple)
es la medida de tendencia central más utilizada.

9
Modelos estadísticos para la analítica de negocios
Medidas de tendencia a la centralidad (medidas de ubicación)
 Además de la media, también puede ver la mediana o la moda que
se utilizan para describir la centralidad de una variable
determinada.
 Aunque la media, la mediana y la moda son todas medidas válidas
de tendencia central, en diferentes circunstancias, una de estas
medidas de centralidad se vuelve más apropiada que las otras.

10
Modelos estadísticos para la analítica de negocios
Medidas de tendencia a la centralidad (medidas de ubicación)
 La media aritmética (o simplemente media o promedio) es la suma
de todos los valores/observaciones dividida por el número de
observaciones en el conjunto de datos.
 Se utiliza con datos numéricos continuos o discretos.
 Una desventaja importante es que la media puede verse afectada
por valores atípicos.
 Si hay valores atípicos o si los datos están dispersos y sesgados de
manera errática, se debe evitar el uso de la media como medida
de centralidad o aumentarla con otras medidas de tendencia
central, como la mediana y la moda. 11
Modelos estadísticos para la analítica de negocios
Medidas de tendencia a la centralidad (medidas de ubicación)
 La mediana es la medida del valor central en un conjunto de datos
dado.
 Es el número en el medio de un conjunto de datos dado que se ha
ordenado/arreglado en orden de magnitud (ascendente o
descendente).
 La mediana es significativa y calculable para los tipos de datos de
razón, intervalo y ordinal.
 Una vez determinados, la mitad de los puntos de datos en los
datos están por encima y la otra mitad por debajo de la mediana.
 A diferencia de la media, la mediana no se ve afectada por valores
atípicos o datos asimétricos. 12
Modelos estadísticos para la analítica de negocios
Medidas de tendencia a la centralidad (medidas de ubicación)
 La moda es la observación que ocurre con mayor frecuencia (el
valor más frecuente en nuestro conjunto de datos).
 La moda es más útil para conjuntos de datos que contienen un
número relativamente pequeño de valores únicos. Es decir, puede
ser inútil si los datos tienen demasiados valores únicos.
 Aunque es una medida útil (especialmente para datos nominales),
la moda no es una muy buena representación de la centralidad y,
por lo tanto, no debe usarse como la única medida de tendencia
central para un conjunto de datos dado.
13
Modelos estadísticos para la analítica de negocios
Medidas de tendencia a la centralidad (medidas de ubicación)
 ¿Qué medida de tendencia central es la mejor?
 Aunque no hay una respuesta clara a esta pregunta, aquí hay
algunas sugerencias:
 use la media cuando los datos no sean propensos a valores atípicos
y no haya un nivel significativo de asimetría;
 use la mediana cuando los datos tengan valores atípicos y/o sean de
naturaleza ordinal;
 utilice la moda cuando los datos sean nominales.

14
Modelos estadísticos para la analítica de negocios
Medidas de tendencia a la centralidad (medidas de ubicación)
 Quizás la mejor práctica sea utilizar los tres juntos para que la
tendencia central del conjunto de datos pueda capturarse y
representarse desde tres perspectivas.
 Es una mejor práctica presentar las estadísticas descriptivas como
un paquete, una combinación de medidas de centralidad y
dispersión, en lugar de una única medida como la media.

15
Modelos estadísticos para la analítica de negocios
Medidas de dispersión (medidas de descentralidad)
 Las medidas de dispersión son los métodos matemáticos
utilizados para estimar o describir el grado de variación en una
determinada variable de interés.
 Son una representación de la dispersión numérica (compacidad o
falta de ella) de un conjunto de datos dado.
 Para describir esta dispersión, se desarrollan una serie de medidas
estadísticas; los más notables son el rango, la varianza y la
desviación estándar (y también los cuartiles y la desviación
absoluta).
16
Modelos estadísticos para la analítica de negocios
Medidas de dispersión (medidas de descentralidad)
 Una de las principales razones por las que las medidas de
dispersión/difusión de los valores de los datos son importantes es
el hecho de que nos proporciona un marco dentro del cual
podemos juzgar la tendencia central.
 Nos da una indicación de qué tan bien la media (u otras medidas
de centralidad) representa los datos de la muestra.
 Si la dispersión de valores en el conjunto de datos es grande, no se
considera que la media sea una muy buena representación de los
datos.
17
Modelos estadísticos para la analítica de negocios
Medidas de dispersión (medidas de descentralidad)
 El rango es quizás la medida más simple de dispersión.
 Es la diferencia entre los valores más grandes y más pequeños en
un conjunto de datos dado (es decir, variables).
 Entonces calculamos el rango simplemente identificando el valor
más pequeño en el conjunto de datos (mínimo), identificando el
valor más grande en el conjunto de datos (máximo) y calculando la
diferencia entre ellos (rango = máximo - mínimo).

18
Modelos estadísticos para la analítica de negocios
Medidas de dispersión (medidas de descentralidad)
 Una medida de dispersión más completa y sofisticada es la
varianza.
 Es un método que se utiliza para calcular la desviación de la media
de todos los puntos de datos en un conjunto de datos dado.
 Cuanto mayor sea la varianza, más se separan los datos de la
media y más variabilidad se puede observar en la muestra de
datos.
 Los valores más grandes de varianza indican más dispersión.
 En lugar de la varianza, en muchas aplicaciones comerciales
utilizamos una medida de dispersión más significativa,
denominada desviación estándar. 19
Modelos estadísticos para la analítica de negocios
Medidas de dispersión (medidas de descentralidad)
 La desviación estándar también es una medida de la dispersión de
valores dentro de un conjunto de datos.
 La desviación estándar se calcula simplemente tomando la raíz
cuadrada de las variaciones.
 A veces también usamos la desviación media absoluta para medir
la dispersión en un conjunto de datos.
 Es una forma más sencilla de calcular la desviación general de la
media.

20
Modelos estadísticos para la analítica de negocios
Medidas de dispersión (medidas de descentralidad)
 Los cuartiles nos ayudan a identificar la propagación dentro de un
subconjunto de los datos.
 Un cuartil es una cuarta parte del número de puntos de datos
dados en un conjunto de datos.
 Los cuartiles se determinan ordenando primero los datos y luego
dividiendo los datos ordenados en cuatro conjuntos de datos más
pequeños separados.
 Son una medida útil de dispersión porque se ven mucho menos
afectados por valores atípicos o una asimetría en el conjunto de
datos. 21
Modelos estadísticos para la analítica de negocios
Medidas de dispersión (medidas de descentralidad)
 Una forma común de expresar los cuartiles es como un rango
intercuartil, que describe la diferencia entre el tercer cuartil (Q3) y
el primer cuartil (Q1),
 Nos informa sobre el rango de la mitad media de las puntuaciones
en la distribución.
 Las medidas descriptivas basadas en cuartiles (tanto la centralidad
como la dispersión) se explican mejor con una gráfica popular
llamada gráfica de caja (o gráfica de caja y bigotes).

22
Modelos estadísticos para la analítica de negocios
Medidas de dispersión (medidas de descentralidad)
 El diagrama de caja y bigotes (o simplemente un diagrama de caja)
es una ilustración gráfica de varias estadísticas descriptivas sobre
un conjunto de datos dado. Pueden ser horizontales o verticales.
 El diagrama de caja se usa a menudo para ilustrar tanto la
centralidad como la dispersión de un conjunto de datos dado (es
decir, la distribución de los datos de la muestra) de una manera
fácil de entender.
 Con la popularidad emergente de la analítica de negocios, está
ganando fama en áreas menos técnicas del mundo empresarial.
23
Modelos estadísticos para la analítica de negocios

 Aspectos específicos
de los diagramas de
caja y bigotes.

24
Modelos estadísticos para la analítica de negocios
La forma de una distribución
 Aunque no es tan común como la centralidad y la dispersión, la
forma de la distribución de los datos también es una medida útil
para las estadísticas descriptivas.
 La distribución es la frecuencia de los puntos de datos contados y
representados en una pequeña cantidad de etiquetas de clase o
rangos numéricos (es decir, contenedores).
 En una ilustración gráfica de la distribución, el eje y muestra la
frecuencia (recuento o %), y el eje x muestra las clases o bins
individuales en una forma ordenada por rango.
25
Modelos estadísticos para la analítica de negocios
La forma de una distribución
 Una distribución muy conocida se llama distribución normal, que
es perfectamente simétrica en ambos lados de la media y tiene
numerosas propiedades matemáticas bien fundamentadas que la
convierten en una herramienta muy útil para la investigación y la
práctica.
 A medida que aumenta la dispersión de un conjunto de datos,
también lo hace la desviación estándar y la forma de la
distribución parece más amplia.

26
Modelos estadísticos para la analítica de negocios

 Relación entre
dispersión y
propiedades de
forma.

27
Modelos estadísticos para la analítica de negocios
La forma de una distribución
 Hay dos medidas de uso común para calcular las características de
forma de una distribución: asimetría y curtosis.
 A menudo se utiliza un histograma (gráfico de frecuencia) para
ilustrar visualmente tanto la asimetría como la curtosis.
 La asimetría es una medida de oscilación en una distribución de
los datos que representa una estructura unimodal; solo existe un
pico en la distribución de los datos.
 Debido a que la distribución normal es una distribución unimodal
perfectamente simétrica, no tiene asimetría, es decir, su medida
de asimetría es igual a cero. 28
Modelos estadísticos para la analítica de negocios
La forma de una distribución
 La medida/valor de asimetría puede ser positivo o negativo.
 Si la distribución se balancea hacia la izquierda (es decir, la cola
está en el lado derecho y la media es más pequeña que la
mediana), entonces produce una medida de asimetría positiva (c
en la figura).
 Si la distribución se balancea hacia la derecha (es decir, la cola está
en el lado izquierdo y la media es mayor que la mediana), entonces
produce una medida de asimetría negativa (d en la figura).
 En la misma figura, tanto (a) como (b) representan una simetría
perfecta y, por lo tanto, una medida cero para la asimetría.
29
Modelos estadísticos para la analítica de negocios
La forma de una distribución
 La curtosis es otra medida a utilizar para caracterizar la forma de
una distribución unimodal.
 La curtosis está más interesada en caracterizar la naturaleza
pico/alta/delgada de la distribución.
 Específicamente, la curtosis mide el grado en que una distribución
tiene más o menos pico que una distribución normal.
 Mientras que una curtosis positiva indica una distribución
relativamente alta/pico, una curtosis negativa indica una
distribución relativamente plana/corta.
30
 Una distribución normal tiene una curtosis de 3.
Modelado de regresión para estadísticas inferenciales
 La regresión, especialmente la regresión lineal, es quizás la técnica
analítica más conocida y utilizada en estadística.
 La regresión se ha convertido en la técnica estadística para la
caracterización de las relaciones entre la(s) variable(s) explicativa
(entrada) y la(s) variable(s) de respuesta (salida).
 La regresión es una técnica estadística relativamente simple para
modelar la dependencia de una variable (respuesta o variable de
salida) en una (o más) variables explicativas (de entrada).
 Una vez identificadas, esta relación entre las variables se puede
representar formalmente como una función/ecuación
lineal/aditiva. 31
Modelado de regresión para estadísticas inferenciales
 La regresión tiene como objetivo capturar la relación funcional
entre las características del mundo real y describir esta relación
con un modelo matemático, que luego se puede utilizar para
descubrir y comprender las complejidades de la realidad: explorar
y explicar las relaciones o pronosticar sucesos futuros.
 La regresión se puede utilizar para uno de dos propósitos:
 Prueba de hipótesis: investigar las relaciones potenciales entre
diferentes variables.
 Predicción/pronóstico: estimar los valores de una variable de
respuesta en función de una o más variables explicativas.
 Estos dos usos no son mutuamente excluyentes. 32
Modelado de regresión para estadísticas inferenciales
 El poder explicativo de la regresión es también la base de su
capacidad de predicción.
 En las pruebas de hipótesis (construcción de teorías), el análisis de
regresión puede revelar la existencia/fuerza y las direcciones de
las relaciones entre una serie de variables explicativas (a menudo
representadas con xi) y la variable de respuesta (a menudo
representadas con y).
 En la predicción, la regresión identifica relaciones matemáticas
aditivas entre una o más variables explicativas y una variable de
respuesta.
 Una vez determinada, esta ecuación se puede utilizar para
pronosticar los valores de la variable de respuesta para un
33
conjunto dado de valores de las variables explicativas.
Modelado de regresión para estadísticas inferenciales
CORRELACIÓN VERSUS REGRESIÓN
 Estos dos términos a menudo son confundidos por profesionales e
incluso por científicos.
 La correlación no asume a priori si una variable depende de las
otras y no se ocupa de la relación entre variables; en cambio, da
una estimación del grado de asociación entre las variables.
 La regresión intenta describir la dependencia de una variable de
respuesta en una (o más) variables explicativas donde
implícitamente se supone que existe un efecto causal
unidireccional de la variable explicativa a la variable de respuesta,
independientemente de si la trayectoria del efecto es directa o
indirecta. 34
Modelado de regresión para estadísticas inferenciales
REGRESIÓN SIMPLE VERSUS MÚLTIPLE
 Si la ecuación de regresión se construye entre una variable de
respuesta y una variable explicativa, entonces se llama regresión
simple.
 Por ejemplo, la ecuación de regresión construida para
predecir/explicar la relación entre la altura de una persona
(variable explicativa) y el peso de una persona (variable de
respuesta.

35
Modelado de regresión para estadísticas inferenciales
REGRESIÓN SIMPLE VERSUS MÚLTIPLE
 La regresión múltiple es la extensión de la regresión simple donde
las variables explicativas son más de una.
 Por ejemplo, si tuviéramos que incluir no solo la altura de la
persona sino también otras características personales (por
ejemplo, IMC, género, etnia) para predecir el peso de una persona.
 Si las relaciones no son lineales, es posible que deseemos utilizar
uno de los muchos métodos de regresión no lineal para capturar
mejor las relaciones entre las variables de entrada y salida.

36
Modelado de regresión para estadísticas inferenciales
¿Cómo desarrollamos el modelo de regresión lineal?
 Para entender la relación entre dos variables, lo más simple que se
puede hacer es dibujar un diagrama de dispersión, donde el eje y
representa los valores de la variable de respuesta y el eje x
representa los valores de la variable explicativa (ver Figura).
 Un diagrama de dispersión mostraría los cambios en la variable de
respuesta en función de los cambios en la variable explicativa.
 En el caso que se muestra en la Figura, parece haber una relación
positiva entre los dos; a medida que aumentan los valores de la
variable explicativa, también lo hace la variable de respuesta.
37
Modelado de regresión para estadísticas inferenciales

 Un gráfico de
dispersión y una
línea de regresión
lineal.

38
Modelado de regresión para estadísticas inferenciales
¿Cómo desarrollamos el modelo de regresión lineal?
 El análisis de regresión simple tiene como objetivo encontrar una
representación matemática de esta relación.
 Trata de encontrar la firma de una línea recta que pasa por la
derecha entre los puntos trazados (que representan los datos de
observación/históricos) de tal manera que minimiza la distancia
entre los puntos y la línea (los valores predichos en la línea teórica
de regresión).
 Aunque existen varios métodos/algoritmos propuestos para
identificar la línea de regresión, el que se usa con más frecuencia se
llama método de mínimos cuadrados ordinarios (MCO). 39
Modelado de regresión para estadísticas inferenciales
¿Cómo desarrollamos el modelo de regresión lineal?
 El método MCO tiene como objetivo minimizar la suma de los
residuos al cuadrado (distancias verticales al cuadrado entre la
observación y el punto de regresión) y conduce a una expresión
matemática para el valor estimado de la línea de regresión (que
se conocen como parámetros 𝛽).
 Para la regresión lineal simple, la relación antes mencionada entre
la variable de respuesta (𝑦) y la variable explicativa(s) (𝑥) se puede
mostrar como una ecuación simple de la siguiente manera:
𝑦 = 𝛽0 + 𝛽1 𝑥
40
Modelado de regresión para estadísticas inferenciales
¿Cómo desarrollamos el modelo de regresión lineal?

𝑦 = 𝛽0 + 𝛽1 𝑥
 En esta ecuación, 𝛽0 se llama intersección y 𝛽1 se llama pendiente.
 Una vez que MCO determina los valores de estos dos coeficientes,
la ecuación simple puede usarse para pronosticar los valores de 𝐲
para valores dados de 𝐱.
 El signo y el valor de 𝛽1 también revelan la dirección y la fuerza de
la relación entre las dos variables.

41
Modelado de regresión para estadísticas inferenciales
¿Cómo desarrollamos el modelo de regresión lineal?
 Si el modelo es del tipo de regresión lineal múltiple, habrá más
coeficientes por determinar, uno por cada variable explicativa
adicional.
 Como muestra la siguiente fórmula, la variable explicativa adicional
se multiplicaría con los nuevos coeficientes 𝛽𝑖 y se sumaría para
establecer una representación lineal aditiva de la variable de
respuesta.
𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝛽3 𝑥3 + ⋯ + 𝛽𝑛 𝑥𝑛

42
Modelado de regresión para estadísticas inferenciales
¿Cómo sabemos si el modelo es suficientemente bueno?
 El modelo de regresión lineal debe evaluarse por su ajuste (el
grado en el que representa la variable de respuesta).
 En el sentido más simple, un modelo de regresión bien ajustado da
como resultado valores pronosticados cercanos a los valores de
datos observados.
 Para la evaluación numérica, a menudo se utilizan tres medidas
estadísticas para evaluar el ajuste de un modelo de regresión.
 𝑅 2 (R-cuadrado), la prueba F general y el error cuadrático medio
(RMSE). 43
Modelado de regresión para estadísticas inferenciales
¿Cómo sabemos si el modelo es suficientemente bueno?
 Las tres medidas se basan en las sumas de los errores cuadrados (qué
tan lejos están los datos de la media y qué tan lejos están los datos de
los valores predichos del modelo).
 Las diferentes combinaciones de estos dos valores proporcionan
información diferente sobre cómo se compara el modelo de regresión
con el modelo de media.
 El valor de 𝑅 2 varía de cero a uno (correspondiente a la cantidad de
variabilidad explicada en porcentaje), donde cero indica que la relación
y el poder de predicción del modelo propuesto no es buena, y uno
indica que el modelo propuesto es perfecto ajuste que produce
44
predicciones exactas (que casi nunca es el caso).
Modelado de regresión para estadísticas inferenciales
¿Cómo sabemos si el modelo es suficientemente bueno?
 Mientras que un valor de 𝑅 2 de 0,3 para un modelo de regresión
lineal en ciencias sociales puede considerarse suficientemente
bueno, un valor de 𝑅 2 de 0,7 en ingeniería puede considerarse
que no es lo suficientemente bueno.
 La mejora en el modelo de regresión se puede lograr agregando
variables explicativas de modo, sacando algunas de las variables
del modelo o usando diferentes técnicas de transformación de
datos, lo que resultaría en aumentos comparativos en un valor de
𝑅2 .
45
Modelado de regresión para
estadísticas inferenciales
 Un flujo de proceso
para desarrollar
modelos de
regresión.

46
Modelado de regresión para estadísticas inferenciales
¿Cuáles son los supuestos más importantes en la regresión lineal?
 A pesar de que todavía son la elección de muchos para el análisis
de datos (tanto con fines de modelado explicativo como
predictivo), los modelos de regresión lineal adolecen de varios
supuestos muy restrictivos.
 La validez del modelo lineal construido depende de su capacidad
para cumplir con estos supuestos.
 Estas son las suposiciones más comúnmente pronunciadas:

47
Modelado de regresión para estadísticas inferenciales
¿Cuáles son los supuestos más importantes en la regresión lineal?
1. Linealidad. Este supuesto establece que la relación entre la
variable de respuesta y las variables explicativas es lineal.
 Es decir, el valor esperado de la variable de respuesta es una
función lineal de cada variable explicativa, mientras que todas las
demás variables explicativas se mantienen fijas.
 Además, la pendiente de la línea no depende de los valores de las
otras variables.
 También implica que los efectos de diferentes variables explicativas
sobre el valor esperado de la variable de respuesta son de
naturaleza aditiva. 48
Modelado de regresión para estadísticas inferenciales
¿Cuáles son los supuestos más importantes en la regresión lineal?
2. Independencia (de errores). Esta suposición establece que los
errores de la variable de respuesta no están correlacionados
entre sí.
3. Normalidad (de errores). Esta suposición establece que los
errores de la variable de respuesta se distribuyen normalmente.
 Es decir, se supone que son totalmente aleatorios y no deben
representar ningún patrón no aleatorio.

49
Modelado de regresión para estadísticas inferenciales
¿Cuáles son los supuestos más importantes en la regresión lineal?
4. Varianza constante (de errores). Este supuesto, también llamado
homocedasticidad, establece que las variables de respuesta
tienen la misma varianza en su error, independientemente de los
valores de las variables explicativas.
5. Multicolinealidad. Este supuesto establece que las variables
explicativas no están correlacionadas (es decir, no replican las
mismas pero brindan una perspectiva diferente de la
información necesaria para el modelo).

50
Modelado de regresión para estadísticas inferenciales
¿Cuáles son los supuestos más importantes en la regresión lineal?
 Existen técnicas estadísticas desarrolladas para identificar la
violación de estos supuestos y técnicas para mitigarlos.
 La parte más importante para un modelador es ser consciente de
su existencia y poner en práctica los medios para evaluar los
modelos para asegurarse de que los modelos cumplen con los
supuestos sobre los que se basan.

51
Modelado de regresión para estadísticas inferenciales
Logistic Regression
 La regresión logística es un algoritmo de clasificación basado en
probabilidades muy popular, estadísticamente sólido, que emplea
el aprendizaje supervisado.
 Fue desarrollado en la década de 1940 como complemento de los
métodos de análisis de regresión lineal y discriminante lineal.
 Se ha utilizado ampliamente en numerosas disciplinas, incluidos los
campos de las ciencias médicas y sociales.

52
Modelado de regresión para estadísticas inferenciales
Logistic Regression
 La regresión logística es similar a la regresión lineal en que
también apunta a regresar a una función matemática que explica
la relación entre la variable de respuesta y las variables
explicativas utilizando una muestra de observaciones pasadas
(datos de entrenamiento).
 Se diferencia de la regresión lineal con un punto importante: su
salida (variable de respuesta) es una clase en lugar de una
variable numérica.
 Es decir, mientras que la regresión lineal se usa para estimar una
variable numérica continua, la regresión logística se usa para
53
clasificar una variable categórica.
Modelado de regresión para estadísticas inferenciales
Logistic Regression
 Aunque la forma original de regresión logística se desarrolló para
una variable de salida binaria (p. Ej., 1/0, sí/no, pasa/no pasa,
acepta/rechaza), la versión modificada actual es capaz de predecir
variables de salida multiclase (p. Ej., regresión logística
multinomial).
 Si solo hay una variable predictora y una variable predicha, el
método se llama regresión logística simple (similar a llamar
modelos de regresión lineal con solo una variable independiente
como regresión lineal simple).
54
Modelado de regresión para estadísticas inferenciales
Logistic Regression
 En el análisis predictivo, los modelos de regresión logística se
utilizan para desarrollar modelos probabilísticos entre una o más
variables explicativas/predictoras (que pueden ser una
combinación de naturaleza continua y categórica) y una variable de
clase/respuesta (que puede ser binomial/binaria o
multinomial/multiclase).
 A diferencia de la regresión lineal ordinaria, la regresión logística se
utiliza para predecir resultados categóricos (a menudo binarios) de
la variable de respuesta, tratando la variable de respuesta como el
resultado de un ensayo de Bernoulli. 55
Modelado de regresión para estadísticas inferenciales
Logistic Regression
 Por lo tanto, la regresión logística toma el logaritmo natural de las
probabilidades de la variable de respuesta para crear un criterio
continuo como una versión transformada de la variable de
respuesta.
 La transformación logit se denomina función de vínculo en la
regresión logística; aunque la variable de respuesta en la
regresión logística es categórica o binomial, el logit es el criterio
continuo sobre el que se realiza la regresión lineal.

56
Modelado de regresión para
estadísticas inferenciales
 La función logística

57
Modelado de regresión para estadísticas inferenciales
Logistic Regression
 La Figura muestra una función de regresión logística donde las
probabilidades se representan en el eje x (una función lineal de las
variables independientes), mientras que el resultado probabilístico
se muestra en el eje y (es decir, los valores de las variables de
respuesta cambian entre 0 y 1) .
 La función logística, 𝑓(𝑦) en la Figura, es el núcleo de la regresión
logística, que solo puede tomar valores entre 0 y 1. La siguiente
ecuación es una representación matemática simple de esta
función:
1
𝑓 𝑦 =
1 + 𝑒 −(𝛽0 +𝛽1𝑥) 58
Modelado de regresión para estadísticas inferenciales
Logistic Regression
 Los coeficientes de regresión logística (𝛽𝑠 ) generalmente se
estiman utilizando el método de estimación de máxima
verosimilitud.
 A diferencia de la regresión lineal con residuos distribuidos
normalmente, no es posible encontrar una expresión de forma
cerrada para los valores de coeficiente que maximice la función
de verosimilitud, por lo que se debe utilizar un proceso iterativo.

59
Modelado de regresión para estadísticas inferenciales
Logistic Regression
 Este proceso comienza con una solución inicial tentativa, luego
revisa los parámetros ligeramente para ver si la solución se puede
mejorar y repite esta revisión iterativa hasta que no se puede
lograr ninguna mejora o es mínima, momento en el que se dice
que el proceso se ha completado/convergido.

60
Modelado de regresión para estadísticas inferenciales
Pronóstico de series de tiempo
 A veces, la variable que nos interesa (es decir, la variable de
respuesta) puede no tener variables explicativas claramente
identificables o puede haber demasiadas en una relación muy
compleja.
 En tales casos, si los datos están disponibles en un formato
deseado, se puede desarrollar un modelo de predicción, las
llamadas series de tiempo.

61
Modelado de regresión para estadísticas inferenciales
Pronóstico de series de tiempo
 Una serie de tiempo es una secuencia de puntos de datos de la
variable de interés, medidos y representados en puntos sucesivos
en el tiempo espaciados en intervalos de tiempo uniformes.
 Los ejemplos de series de tiempo incluyen los volúmenes de lluvia
mensuales en un área geográfica, el valor de cierre diario de los
índices bursátiles, los totales de ventas diarias de una tienda de
comestibles.
 A menudo, las series de tiempo se visualizan mediante un gráfico
de líneas.
62
Modelado de regresión para
estadísticas inferenciales
 Una serie temporal
de muestra de datos
sobre volúmenes de
ventas trimestrales

63
Modelado de regresión para estadísticas inferenciales
Pronóstico de series de tiempo
 El pronóstico de series de tiempo es el uso de modelos
matemáticos para predecir valores futuros de la variable de
interés con base a valores previamente observados.
 Los gráficos de series de tiempo se ven y se sienten muy similares
a la regresión lineal simple en que, como en el caso de la
regresión lineal simple, en las series de tiempo hay dos variables:
la variable de respuesta y la variable de tiempo presentada en un
gráfico de dispersión.

64
Modelado de regresión para estadísticas inferenciales
Pronóstico de series de tiempo
 Más allá de esta similitud de apariencia, apenas hay otros puntos
en común entre los dos.
 Aunque el análisis de regresión se emplea a menudo para probar
teorías para ver si los valores actuales de una o más variables
explicativas explican (y por lo tanto predicen) la variable de
respuesta, los modelos de series de tiempo se enfocan en
extrapolar su comportamiento variable en el tiempo para estimar
los valores futuros.

65
Modelado de regresión para estadísticas inferenciales
Pronóstico de series de tiempo
 El pronóstico de series de tiempo asume que todas las variables
explicativas se agregan y se consumen en el comportamiento
variable en el tiempo de la variable de respuesta.
 Por lo tanto, la captura del comportamiento variable en el tiempo
es la forma de predecir los valores futuros de la variable de
respuesta.
 Para ello, se analiza el patrón y se descompone en sus
componentes principales: variaciones aleatorias, tendencias
temporales y ciclos estacionales.
66
Modelado de regresión para estadísticas inferenciales
Pronóstico de series de tiempo
 Las técnicas utilizadas para desarrollar pronósticos de series de
tiempo van desde muy simples (el pronóstico ingenuo que sugiere
que el pronóstico de hoy es el mismo que el real de ayer) hasta
muy complejas como ARIMA (un método que combina patrones
de promedio móvil y autorregresivo en los datos).
 Las técnicas más populares son quizás los métodos de promediado
que incluyen promedio simple, promedio móvil, promedio móvil
ponderado y suavizado exponencial.

67
Modelado de regresión para estadísticas inferenciales
Pronóstico de series de tiempo
 Muchas de estas técnicas también tienen versiones avanzadas
donde la estacionalidad y la tendencia también se pueden tener
en cuenta para una previsión mejor y más precisa.
 La precisión de un método generalmente se evalúa calculando su
error (desviación calculada entre los datos reales y los pronósticos
de las observaciones pasadas) mediante el error medio absoluto
(MAE), el error cuadrático medio (MSE) o el error porcentual
absoluto medio (MAPE).

68
Modelado de regresión para estadísticas inferenciales
Pronóstico de series de tiempo
 A pesar de que todos usan la misma medida de error central, estos
tres métodos de evaluación enfatizan diferentes aspectos del
error, algunos penalizan errores más grandes que otros.

Common questions

Con tecnología de IA

Logistic regression is used for categorical data because it models the probability of a binary or multi-class outcome rather than a continuous one, which is the case for linear regression. It applies a transformation to the linear regression equation, yielding odds that can be easily translated to probabilities within a 0 to 1 range, allowing it to handle binary outcomes and extended forms such as multinomial logistic regression for multiple categories .

In skewed data distributions, a statistician should prioritize the median over the mean, as it is not affected by skewness or outliers, providing a more accurate reflection of the central tendency. In some cases, incorporating the mode can also offer insights, particularly where the dataset consists of nominal data. However, the combined use of all three measures—mean, median, and mode—can offer a composite view that captures different aspects of central tendency .

Measures of dispersion, such as variance and standard deviation, complement measures of central tendency by providing insights into the variability and spread of the data around the center. They enable a better understanding of how well the mean or median represents the dataset. A large dispersion indicates that the mean might not be a good representation of the dataset's characteristics due to variability, while small dispersion suggests a more reliable central measure .

Box plots offer a comprehensive visualization by showing medians, quartiles, and potential outliers. They illustrate data centrality with the median line and dispersion through quartiles and the range beyond them (the whiskers), making variations in data distribution visible. This visualization aids in quickly identifying symmetry, skewness, and potential outliers in a dataset, thereby enhancing interpretive clarity compared to single-statistic summaries .

In multiple regression analysis, you model the relationship between a single response variable and more than one explanatory variable. This involves extending simple regression by including additional variables, aiming to develop a prediction equation that captures the impact of several factors simultaneously. The combination of these predictor variables helps assess the independent influence each has on the response variable, allowing for a more nuanced understanding of complex interactions .

The median is more appropriate than the mean when a dataset contains outliers or is skewed, as it is not influenced by extreme values. It is also suitable for ordinal data where ranking rather than precise values is essential .

The OLS method in simple linear regression minimizes the sum of squared residuals, providing the best-fit line through a dataset. This ensures the smallest possible distance cumulatively between the data points and the regression line, thus optimizing predictive accuracy. The significance lies in its ability to derive coefficients that uniformly account for variance present in the data, facilitating accurate predictions and insights into the relationship between variables .

The interquartile range (IQR) is more significant than the simple range because it focuses on the middle 50% of the data, thus providing a measure that is less affected by outliers and extreme values. It provides better insight into data dispersion by indicating the spread of the central portion of the data distribution, making it a more robust measure in skewed datasets than just subtracting the minimum from the maximum value .

Time series forecasting specifically models and predicts future points based on past observations within uniformly spaced time intervals, focusing mainly on temporal trends, seasonality, and cycles. In contrast, standard regression analysis seeks to establish relationships between variables based on observed data relationships without a time-dependent structure. While time series are used for trend-based forecasting, regression models explain variance among static variables at a particular time .

The mean is advantageous because it utilizes all data points, providing a comprehensive measure of central tendency suitable for numerical continuous or discrete data. However, a significant disadvantage is its sensitivity to outliers, which can skew the results, making it less representative of the central location in datasets with extreme values or skewness .

También podría gustarte

Conceptos Clásicos en Ciencia de Datos
Aún no hay calificaciones
Conceptos Clásicos en Ciencia de Datos
12 páginas
Arquitectura de Data Warehouse
Aún no hay calificaciones
Arquitectura de Data Warehouse
9 páginas
Cloud Computing: Lleva Tu Empresa Al Siguiente Nivel
Aún no hay calificaciones
Cloud Computing: Lleva Tu Empresa Al Siguiente Nivel
29 páginas
Implementación de Data Warehouse
Aún no hay calificaciones
Implementación de Data Warehouse
22 páginas
Control Estadistico de Proceso
Aún no hay calificaciones
Control Estadistico de Proceso
109 páginas
Algoritmos y Aplicaciones de Aprendizaje Supervisado
Aún no hay calificaciones
Algoritmos y Aplicaciones de Aprendizaje Supervisado
5 páginas
Examen de Seguridad de Redes: Cuestionario
Aún no hay calificaciones
Examen de Seguridad de Redes: Cuestionario
10 páginas
Planificación de Proyectos Sencillos
Aún no hay calificaciones
Planificación de Proyectos Sencillos
5 páginas
Conceptos Clave en Ciberseguridad
Aún no hay calificaciones
Conceptos Clave en Ciberseguridad
79 páginas
Sistema de Información para Préstamos Bancarios
Aún no hay calificaciones
Sistema de Información para Préstamos Bancarios
6 páginas
Metodologías de Desarrollo de Software
Aún no hay calificaciones
Metodologías de Desarrollo de Software
7 páginas
El Arte del Análisis de Datos
Aún no hay calificaciones
El Arte del Análisis de Datos
30 páginas
Plan de Comunicación
100% (1)
Plan de Comunicación
15 páginas
Anadatos PDF
Aún no hay calificaciones
Anadatos PDF
316 páginas
Diagrama de Clases en UML: Estructura y Uso
Aún no hay calificaciones
Diagrama de Clases en UML: Estructura y Uso
6 páginas
Diccionario de Datos: Definición y Tipos
Aún no hay calificaciones
Diccionario de Datos: Definición y Tipos
41 páginas
Gestión de Recursos en Proyectos de Construcción
100% (1)
Gestión de Recursos en Proyectos de Construcción
26 páginas
Guía Completa del Árbol de Decisión
Aún no hay calificaciones
Guía Completa del Árbol de Decisión
13 páginas
Grupo 06 - NTP Iso Iec 12207
Aún no hay calificaciones
Grupo 06 - NTP Iso Iec 12207
25 páginas
Hacia La Analitica de Negocio
Aún no hay calificaciones
Hacia La Analitica de Negocio
17 páginas
Estructura de Bases de Datos en Python
Aún no hay calificaciones
Estructura de Bases de Datos en Python
36 páginas
Mapa Conceptual Del Ciclo de Vida Del Software
Aún no hay calificaciones
Mapa Conceptual Del Ciclo de Vida Del Software
2 páginas
Guía de Transformación Digital para PYMES
Aún no hay calificaciones
Guía de Transformación Digital para PYMES
23 páginas
Código de Justiniano: Análisis Jurídico
Aún no hay calificaciones
Código de Justiniano: Análisis Jurídico
2 páginas
CienciaProcesamientoAvícolasCárnicos - Barbut - 04 Manejo de Aves Vivas
Aún no hay calificaciones
CienciaProcesamientoAvícolasCárnicos - Barbut - 04 Manejo de Aves Vivas
32 páginas
Manual ISO 9001 para Empresas
Aún no hay calificaciones
Manual ISO 9001 para Empresas
21 páginas
Introduccion Al Pensamiento Lean
Aún no hay calificaciones
Introduccion Al Pensamiento Lean
47 páginas
Ciclo de Vida del Análisis de Big Data
Aún no hay calificaciones
Ciclo de Vida del Análisis de Big Data
18 páginas
Errores Comunes en Proyectos Informáticos
100% (1)
Errores Comunes en Proyectos Informáticos
7 páginas
Desarrollar Epicas
Aún no hay calificaciones
Desarrollar Epicas
15 páginas
Solución de Bases de Datos Distribuidas
Aún no hay calificaciones
Solución de Bases de Datos Distribuidas
7 páginas
Comunicaciones
100% (1)
Comunicaciones
31 páginas
Semana 1 Todo El PDF
Aún no hay calificaciones
Semana 1 Todo El PDF
192 páginas
Buenas Prácticas y Metodologías en Proyectos
100% (1)
Buenas Prácticas y Metodologías en Proyectos
25 páginas
Clubes de Ciencia para Niños
Aún no hay calificaciones
Clubes de Ciencia para Niños
90 páginas
Introducción a JavaServer Pages (JSP)
Aún no hay calificaciones
Introducción a JavaServer Pages (JSP)
45 páginas
Gestión de Configuración de Software
Aún no hay calificaciones
Gestión de Configuración de Software
12 páginas
Clase 6. Modelado de Procesos Basico
Aún no hay calificaciones
Clase 6. Modelado de Procesos Basico
61 páginas
Telecomunicaciones y Redes Modernas
Aún no hay calificaciones
Telecomunicaciones y Redes Modernas
11 páginas
Introducción al Proceso RUP en Software
Aún no hay calificaciones
Introducción al Proceso RUP en Software
28 páginas
Modelo Estrella y Copo de Nieve
Aún no hay calificaciones
Modelo Estrella y Copo de Nieve
2 páginas
Preprocesamiento de Datos en Minería
Aún no hay calificaciones
Preprocesamiento de Datos en Minería
31 páginas
Enunciado Del Alcance
Aún no hay calificaciones
Enunciado Del Alcance
2 páginas
Evolucion de Los Sistemas Operativos
Aún no hay calificaciones
Evolucion de Los Sistemas Operativos
18 páginas
Algoritmos para Cálculos Matemáticos
0% (1)
Algoritmos para Cálculos Matemáticos
13 páginas
Módulo 1 - Seguridad de La Información y Ciberseguridad
Aún no hay calificaciones
Módulo 1 - Seguridad de La Información y Ciberseguridad
33 páginas
Tarea Semana5 Bryan Villarruel
100% (1)
Tarea Semana5 Bryan Villarruel
16 páginas
Módulo 6: Diseño de Índices: Contenido
Aún no hay calificaciones
Módulo 6: Diseño de Índices: Contenido
50 páginas
Cuestonarios-P1-y P2 - 070607
Aún no hay calificaciones
Cuestonarios-P1-y P2 - 070607
31 páginas
Fases de la Metodología XP
100% (2)
Fases de la Metodología XP
25 páginas
Gestion de Proyectos TI
Aún no hay calificaciones
Gestion de Proyectos TI
8 páginas
Taller Con Corba
Aún no hay calificaciones
Taller Con Corba
25 páginas
Aplicacion de Redes Convolucionales Al Procesamiento de Imagenes
Aún no hay calificaciones
Aplicacion de Redes Convolucionales Al Procesamiento de Imagenes
17 páginas
Metas y Objetivos Estrategia de Servicio
Aún no hay calificaciones
Metas y Objetivos Estrategia de Servicio
10 páginas
Generación Automática de Pruebas con Klee
Aún no hay calificaciones
Generación Automática de Pruebas con Klee
5 páginas
Introducción a la Inferencia Estadística
Aún no hay calificaciones
Introducción a la Inferencia Estadística
26 páginas
Sesion 1
Aún no hay calificaciones
Sesion 1
26 páginas
Introducción a Estadística para Negocios
Aún no hay calificaciones
Introducción a Estadística para Negocios
32 páginas
Base Teórica 2
Aún no hay calificaciones
Base Teórica 2
4 páginas
Programacion Vertical Fiestas de La Cosecha 2025 - 5ok
Aún no hay calificaciones
Programacion Vertical Fiestas de La Cosecha 2025 - 5ok
28 páginas
Efectos Cognitivos de Los Ingredientes
Aún no hay calificaciones
Efectos Cognitivos de Los Ingredientes
3 páginas
Aplicación de Estilo y Moda
Aún no hay calificaciones
Aplicación de Estilo y Moda
32 páginas
Blackjack GPT BUENO
Aún no hay calificaciones
Blackjack GPT BUENO
8 páginas
Estrategia de Publicidad para Cabañas
Aún no hay calificaciones
Estrategia de Publicidad para Cabañas
3 páginas
Alquiler de Finca: Estrategia y Contenidos
Aún no hay calificaciones
Alquiler de Finca: Estrategia y Contenidos
12 páginas
Análisis Predictivo y Minería de Datos
Aún no hay calificaciones
Análisis Predictivo y Minería de Datos
98 páginas
Variables Aleatorias y Distribuciones
Aún no hay calificaciones
Variables Aleatorias y Distribuciones
58 páginas
Hábitos de Lectura en Pandemia 2022
Aún no hay calificaciones
Hábitos de Lectura en Pandemia 2022
37 páginas
¿Qué Tamaño de Muestra Necesito
50% (4)
¿Qué Tamaño de Muestra Necesito
173 páginas
Guía Práctica de Bioestadística I
Aún no hay calificaciones
Guía Práctica de Bioestadística I
35 páginas
Prueba de Hipótesis sobre Varianzas
Aún no hay calificaciones
Prueba de Hipótesis sobre Varianzas
8 páginas
Fiabilidad de Escalas sobre Mitos de Violación
Aún no hay calificaciones
Fiabilidad de Escalas sobre Mitos de Violación
17 páginas
Instructivo R&R
Aún no hay calificaciones
Instructivo R&R
7 páginas
Rendimiento y Riesgo en Portafolios
Aún no hay calificaciones
Rendimiento y Riesgo en Portafolios
48 páginas
Ejercicios de Probabilidades en Ingeniería Química
0% (1)
Ejercicios de Probabilidades en Ingeniería Química
26 páginas
Curso de Inversiones en Mercado de Capitales
Aún no hay calificaciones
Curso de Inversiones en Mercado de Capitales
53 páginas
P1 - Angie Castillo
Aún no hay calificaciones
P1 - Angie Castillo
9 páginas
Modelos de Distribuciones Probabilísticas
Aún no hay calificaciones
Modelos de Distribuciones Probabilísticas
4 páginas
Estimación Estadística y Confianza
Aún no hay calificaciones
Estimación Estadística y Confianza
10 páginas
Definicion Kriging
100% (1)
Definicion Kriging
7 páginas
Variables Aleatorias y Distribuciones Discretas
Aún no hay calificaciones
Variables Aleatorias y Distribuciones Discretas
22 páginas
Guía de Ejercicios Estadística II 2024
Aún no hay calificaciones
Guía de Ejercicios Estadística II 2024
4 páginas
Practica 06 2023
Aún no hay calificaciones
Practica 06 2023
4 páginas
Probabilidades en Distribuciones Continuas
0% (2)
Probabilidades en Distribuciones Continuas
19 páginas
Guía de TP Unidad 8: Estadística UBA
Aún no hay calificaciones
Guía de TP Unidad 8: Estadística UBA
15 páginas
Glosario Estadistica Inferencial
Aún no hay calificaciones
Glosario Estadistica Inferencial
4 páginas
Curso de Estadística: Métodos y Aplicaciones
Aún no hay calificaciones
Curso de Estadística: Métodos y Aplicaciones
3 páginas
Análisis Exploratorio de Datos en Minería
Aún no hay calificaciones
Análisis Exploratorio de Datos en Minería
27 páginas
Talleres de Estadística y Probabilidad
Aún no hay calificaciones
Talleres de Estadística y Probabilidad
15 páginas
Medidas de Dispersión y Posición
Aún no hay calificaciones
Medidas de Dispersión y Posición
3 páginas
Estadística en Caracteres Cuantitativos
Aún no hay calificaciones
Estadística en Caracteres Cuantitativos
40 páginas
Inversiones a Largo Plazo y Riesgo Financiero
Aún no hay calificaciones
Inversiones a Largo Plazo y Riesgo Financiero
33 páginas
Investigación Matemática: Fundamentos Esenciales
Aún no hay calificaciones
Investigación Matemática: Fundamentos Esenciales
18 páginas
Modelos de Regresión Bivariable Lineal
Aún no hay calificaciones
Modelos de Regresión Bivariable Lineal
2 páginas
Medidas de Dispersión en Estadística
Aún no hay calificaciones
Medidas de Dispersión en Estadística
32 páginas
Guía Matemática 1º Bachillerato
100% (2)
Guía Matemática 1º Bachillerato
99 páginas

Estadística Descriptiva en Negocios

Cargado por

Estadística Descriptiva en Negocios

Cargado por

Analítica Descriptiva

Jhonny Moncada Mesa

 Los métodos estadísticos tradicionales y las técnicas subyacentes

 Las estadísticas (métodos estadísticos y técnicas subyacentes)

 Como se muestra en la Figura, el análisis descriptivo tiene dos

 La estadística, por otro lado, ayuda a caracterizar los datos, ya sea

Common questions

Why is logistic regression used for categorical data rather than linear regression, and how does it handle different categories?

When faced with skewed data distributions, how should a statistician choose appropriate measures of central tendency?

How do measures of dispersion complement measures of central tendency in understanding dataset characteristics?

In what ways do box plots provide comprehensive visualization of data centrality and dispersion?

How would you apply regression analysis to determine the relationship between multiple factors and a response variable?

Under what circumstances is the median more appropriate than the mean when analyzing a dataset?

Explain the process and significance of using the ordinary least squares (OLS) method in simple linear regression models.

Discuss the significance of using interquartile range (IQR) over range in statistical analysis.

What distinguishes a time series forecast from a standard regression analysis, and how is each used?

What are the advantages and disadvantages of using the mean as a measure of central tendency in statistical analysis?

También podría gustarte