Estadística para Administradores
Capítulo3
Análisis Exploratorio de Datos
Para poder tener información de
los datos que tenemos.
Lic. Daniel Fortuna Chap 2-1
Medidas Resumen Sirven para describir los datos numéricos que se obtienen
Describiendo Datos Numéricos
Tendencia Central Cuartiles Variación Forma
o medidas de posición. Ubican el
centro o el posible centro de la
distribución Asimetría
Rango
Media Aritmética Curtosis
Tienen como objetivo buscar un Rango Intercuartílico
Mediana valor que sea representativo
para la serie.
Modo Varianza
Desviación estándar
Media Geométrica
Coeficiente de Variación
Media Armónica
Chap 3-2
Medidas de Tendencia Central
Tendencia Central
Media Mediana Modo Media Media
Aritmética Geométrica Armónica
n
X i X G ( X1 X 2 L X n )1/ n Xh
n
X i1 n
1
i1 X
Punto Medio Valor mas
n de valores frecuente
rankeados mente i
observado
Punto medio que
separa el 50% mas
X raya es para chico y el 50% mas
media muestral, grande
para poblacional
sería Mu
Es minúscula cuando es muestra. Chap 3-3
Media Aritmética Lo que hay que averiguar siempre si es la mejor para utilizar o no
• La media aritmética es la medida mas usada de tendencia central
• Para una muestra de tamaño n:
X i
X1 X 2 Xn
X i1
n n
Tamaño Valores
muestral Observados
Chap 3-4
Media Aritmética
Ventajas: Todo el mundo sabe que es y es fácil de calcular. (continuación
• La mas usual medida de tendencia central
• Media = suma de valores dividida por el numero de valores
• Afectadas por valores extremos (outliers)
DESVENTAJA
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
Media = 3 Media = 4
1 2 3 4 5 15 1 2 3 4 10 20
3 4
5 5 5 5
Ejemplo: el ingreso per cápita es un promedio, pero rara vez representa a la Q de habitantes. Pero achiquemos, cuanto ganamos en
una empresa, y me dicen que ganan 60000 pesos en pomedio. Trabajas y a fin de mes cobras 50000, pero todos ganan 50000 y el
gerente gana 180000 (el valor extremo me afecta el promedio) y me tira el promedio para arriba, que no me representa el lo que 3-5
Chap
cobran los demás. La media está sobrevalorada en este caso.
Mediana
Es el valor central, que separa el 50% mas chico del 50% mas grande
• En un arreglo ordenado, la mediana es el numero del “valor medio” (50%
arriba, 50% abajo)
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
• NoMediana
afectada
= 3 por valores extremos Mediana = 3
Tiene la ventaja con respecto a la media, que no se ve afectada por los
outliers.
Chap 3-6
Encontrando la Mediana
• La localización de la mediana:
n 1
posición
• Si mediana
el numero es impar,posición
de valores eneslos
la mediana el datos
numeroordenados
medio
2
• Si el numero de valores es par, la mediana es el promedio de los dos
números centrales
• Vea no es el valor de la mediana, solamente es la posición
n 1
2
de la mediana en el rango de los datos.
Chap 3-7
Modo
• Valor que ocurre mas a menudo
• No está afectado por los valores extremos Ventaja con respecto a la Media aritmética.
• Usados tanto para datos numéricos, o categóricos, escala (nominal)
• Puede no existir el modo
• Pueden existir varios modos DESVENTAJA, porque media y mediana existen siempre y hay
una sola.
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0 1 2 3 4 5 6
No hay Modo
Modo = 9
Chap 3-8
Ejemplo
• 5 casas en una colina sobre la playa
$2,000 K
Precios de las
casas
$2,000,000 $500 K
500,000 $300 K
300,000
100,000
100,000
$100 K
$100 K
Chap 3-9
Ejemplo:
Resumen de Estadísticos
Precios de las
• Media: ($3,000,000/5)
Casas:
= $600,000
$2,000,000
500,000 • Mediana: punto medio de los datos ordenados
300,000 = $300,000
100,000
100,000
• Modo: valor mas frecuente
Suma $3,000,000 = $100,000
Chap 3-10
¿Que medida de localización es la “mejor”?
• Media: es generalmente utilizada, afectada por
valores fuera de escala (outliers).
• Mediana: se usan a menudo, pues no es sensible a
los valores extremos.
• Modo: Es el valor más frecuente. Puede no existir o
haber más de un modo
Chap 3-11
Media Geométrica Es la productoria de los valores
y saco raíz
• Media geométrica
• Usada para medir la tasa de cambio de la variable sobre el tiempo
XG ( X1 X2 Xn )1/ n
• Media geométrica, tasa de retorno
• Mide el status de una inversión a través del tiempo
RG [(1 R1) (1 R2 ) (1 Rn )] 1/ n
1
• donde Ri es la tasa de retorno en el tiempo del periodo i
cuando la variable no es lineal, yo no puedo usar la media aritmética. Los porcentajes son rendimientos y se tiene que calcular la media
geométrica.
Chap 3-12
Ejemplo
Una inversión de $100,000 obtiene $50,000 al fin del año
uno y $100,000 al fin del año dos:
X1 $100,000 X2 $50,000 X3 $100,000
50% caída 100% incremento
El resultado a los dos años es 0, pues empieza y
termina al mismo nivel.
Chap 3-13
Ejemplo
(continua
Usa el retorno en un año,para calcular la media aritmética y la media
geométrica:
tasa de ( 50 %) (100 %)
retorno: X 25 % resultado erróneo
2
media
aritmética
tasa de RG [(1 R1 ) (1 R2 ) (1 Rn )]1/ n 1
retorno
[(1 ( 50%)) (1 (100 %))]1/ 2 1 Resultado
media
correcto
Geométrica : [(.50 ) (2)]1/ 2
1 1
1/ 2
1 0%
Chap 3-14
Variables inversamente proporcionales, como la productividad
Media armónica
Se define como el recíproco de la media aritmética
de los valores recíprocos de la variable.
1 n
Xh
1 n
n
1
X i1 X
i 1 i i
n
Chap 3-15
Media armónica. Ejemplo
Un grupo de trabajadores construyen los primeros 120mts
de una avenida con una productividad de 12 mts diarios.
Los siguientes 120 metros lo hacen a razón de 18 metros por
día.
Se busca de determinar la productividad diaria durante todo el
trabajo.
Chap 3-16
Media armónica. Ejemplo
Si la calculamos como una media aritmética:
12 18
X 15 mts
2
Por otra parte, los primeros 120 metros requieren 10 días
y los siguientes 120 metros 6.67 días, o sea todo el trabajo
llevará 16.67 días.
Si la productividad diaria es de 15 metros, en los 16.67 días
construirán un total de 250.05 metros, lo que es inconsistente
ya que el trabajo total es de 240 metros.
Si en cambio se utiliza la media armónica:
2 72 72
Xh 14.4 mts
1 1 3 2 5
12 18 Chap 3-17
Media armónica. Ejemplo
Trabajando con una productividad media de 14.4 metros
por día en 16.67 días , se construirán 240 metros.
Se advierte que la media armónica se aplica cuando
se presenta una relación inversa entre las variables
Implícitas.
Si calculo la media aritmética en variables inversamente proporcionales, estoy sobreestimando la productividad.
Chap 3-18
Medidas Resumen Buscan identificar algunas partes de la distribución.
Fractiles
Quintiles Percentiles
Mediana Deciles
Cuartiles
Chap 3-19
Cuartiles o Quartiles
• El cuartil, divide los datos ordenados en 4 segmentos con un igual
numero de términos por segmento
25% 25% 25% 25%
Q1 Q2 Q3
El primer cuartil, Q1, es el valor en el cual 25% de las
observaciones son menores y. 75% son mayores
Q2 es la mediana (50% son menores y, 50% son mayores)
Solo el 25% de las observaciones son mayores que el tercer
cuartil Q3
Chap 3-20
Formulas de Cuartiles
Encontrar el cuartil para determinar el valor de la
posición apropiada. en un conjunto ordenado de
datos, donde
Posición del primer cuartil: Q1 = (n+1)/4
Posición del segundo cuartil: Q2 = (n+1)/2 (posición de la mediana)
Posición del tercer cuartil: Q3 = 3(n+1)/4
(donde n es el numero de los valores observados)
Chap 3-21
Cuartiles
Ejemplo: Encontrar el primer cuartil
Datos muestrales, en un arreglo ordenado;11,12,13,16,16,17,18,21,22
(n = 9)
Q1 está en la (9+1)/4 = 2.5 posición de los datos ordenados
así se usa el valor medio ente el 2do y 3er valor.
Asi Q1 = 12.5
Q1 y Q3 son medidas de localización no centrales
Q2 = mediana, una medida de tendencia central
Chap 3-22
(continuación)
Cuartiles
Ejemplo:
Datos muestrales ordenados: 11 12 13 16 16 17 18 21 22
(n = 9)
Q1 esta en (9+1)/4 = 2.5 posición de los datos ordenados
así Q1 = 12.5
Q2 esta en la (9+1)/2 = 5ta posición de los datos ordenados,
así Q2 = mediana = 16
Q3 esta en la 3(9+1)/4 = 7.5 posición de los datos ordenados,
así Q3 = 19.5
Chap 3-23
Medidas de Variación
Variación
Rango Rango Varianza Desviación Coeficiente
Intercuartilico de Variación
estándar
Las medidas de variación dan
información sobre el spread o
variabilidad de los valores de los
datos.
Igual centro,
diferente variación
Chap 3-24
Rango
• Es la mas simple medida de variación
• Diferencia entre el mayor valor y, el menor valor del conjunto de datos:
Rango =X Mayor – X Menor
Ejemplo:
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Rango = 14 - 1 = 13
Chap 3-25
Desventaja de el Rango
•Ignora el camino de la distribución de los datos
7 8 9 10 11 12 7 8 9 10 11 12
Rango = 12 - 7 = 5 Rango = 12 - 7 = 5
• Sensible a los outliers
1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,5
Rango = 5 - 1 = 4
1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,120
Rango = 120 - 1 = 119
Chap 3-26
El Resumen de los 5 números
• Box-and-Whisker Plot: Una visualización de los datos utilizando el
resumen de los 5 números:
Mínimo -- Q1 -- Mediana -- Q3 -- Máximo
Ejemplo:
25% 25% 25% 25%
Mínimo Q1 Mediana Q3 Máximo
Minimum 1st Median 3rd Maximum
Quartile Quartile
Chap 3-27
Box-and-Whisker Plot Ejemplo
• Abajo se presentan los datos y el Box-and-Whisker:
•0 2 2 2 3 3 4 5 5 10 27
• Los datos y el grafico presentan asimetría derecha
Min Q1 Q2 Q3 Max
0 23 5 27
0 2 3 5 27
Chap 3-28
Rango Intercuartilico
• Algunos problemas de outliers pueden ser eliminados usando el
rango intercuartílico.
• Se eliminan los valores altos y bajos y se calcular el rango
intercuartilico de los valores restantes.
• Rango Intercuartilico = 3er cuartil – 1er cuartil
Q3 – Q1= Rango Intercuartílico = H
Chap 3-29
Rango Intercuartílico
• Es Q3-Q1 y mide la dispersión en el medio del 50% de los datos
• Es una medida de variabilidad no influida por valores extremos o
outliers.
• Medidas como Q1, Q3 o RI, no influidas por valores extremos se llaman
medidas robustas
Chap 3-30
Rango Intercuartilico
Ejemplo:
Mediana X
X Q1 Q3
(Q2) máximo
mínimo
25% 25% 25% 25%
12 30 45 57 70
rango Intercuartílico = 57 – 30
= 27
Chap 3-31
Valores Fuera de Escalas y Valores Extremos
Q1 Q3
Valores fuera de escala
Valores extremos
“Fuera de Escala”, se define como un valor menor a Q1 - 1.5H, o mayor que Q3 + 1.5H
“Extremo”, como un valor que es menor que Q1 - 3H. o mayor que Q3 + 3 H
Donde: Q1 es el primer cuartil; Q3: es el tercer cuartil
H = Q3-Q1
Chap 3-32
Varianza
• Promedio (aproximado) de las desviaciones cuadráticas de los valores
alrededor de la media:
• varianza muestral:
n
(X X) i
2
S 2 i1
n -1
donde X = media
n = tamaño muestral
Si = iesimo valor de la variable X
Chap 3-33
Desviación estándar
• La medida mas usada de la variación
• Muestra la variación alrededor de la media
• Es la raíz cuadrado de la varianza
• Tiene las mismas unidades de los datos originales
• Desviación estándar muestral :
n
i
(X X ) 2
S i1
n -1
Chap 3-34
Ejemplo de Calculo :
Desviación estándar muestral
Muestra
Datos : 10 12 14 15 17 18 18 24
n=8 Media = = 16
(10 X )2 (12 X )2 (14 X )2 (24 X )2
S
n 1
(10 16)2 (12 16)2 (14 16)2 (24 16)2
8 1
130 Un medida del “promedio”
4.3095
7 de dispersion alrededor de
la media Chap 3-35
Midiendo la variación
Pequeña desviación
estándar
Gran desviación estándar
Chap 3-36
Comparando desviaciones estándar
Datos A
Media = 15.5
11 12 13 14 15 16 17 18 19 20 21
S = 3.338
Datos B
Media = 15.5
11 12 13 14 15 16 17 18 19 20 21 S = 0.926
Datos C
Media = 15.5
11 12 13 14 15 16 17 18 19 20 21 S = 4.567
Chap 3-37
Ventajas de la Varianza y Desviación
estándar
• Cada valor del conjunto de los datos es utilizado en el calculo
• Los valores cercanos de la media brindan un peso extra, porque las
desviaciones de la media son cuadráticas)
Chap 3-38
Coeficiente de Variación
• Medida relativas de variación
• Siempre expresada en porcentaje (%)
• Muestra la variación relativa a la media
• Puede ser usada para comparar dos o mas conjuntos de datos medidos en
diferentes unidades
• Mide la homogeneidad de la serie:
CV<10%= homogénea
10%<CV<30%= poco homogénea
CV>30% = no homogénea
S
C V 100%
X
Chap 3-39
Comparando Coeficientes
de Variación
• Acción A:
• Precio promedio del último año = $50
• desviación estándar = $5
S $5 Ambas
C VA 100% 100% 10% acciones tienn
• Acción B: X $50 la misma
desviación
• Precio promedio del último año = $100 estándar, pero
• desviación estándar = $5 la acción B
tiene menor
variación
S $5 relativa a su
C VB 100% 100% 5% precio
X $100
Chap 3-40
Z Scores- tipificada-estandarizada
• Una medida de distancia desde la media.
• Ejemplo: Un Z-score de 2.0 indica que el valor se encuentra a
2.0 desviaciones estándar de la media).
• La diferencia entre un valor de variable y la media, dividida
por el desvío estándar.
• Un Z score mayor que 3.0 o menor que -3.0 es considerado
un outlier:
XX
Z
S Chap 3-41
Z Scores
(continua)
Ejemplo:
• Si la media es 14.0 y el desvió estándar es 3.0, cual es el Z
score para el valor 18.5?
X X 18.5 14.0
Z 1.5
S 3.0
• El valor 18.5 es 1.5 desviaciones estándar sobre la media
• (un valor negativo del Z-score quiere decir que un valor es
menor que la media)
Chap 3-42
Medidas de Forma
Forma
Asimetría Curtosis
Chap 3-43
Forma de la Distribución
• Describe como los datos se distribuyen
• Medidas de Forma
• Simétrica o Asimétrica
<0 =0 >0
Asimetría- Izq Simétrica Asimetría-Derecha
Media < Mediana Media = Mediana Mediana < Media
Chap 3-44
Distribución de la Forma y el
Box-and-Whisker Plot
Izq.-Asimetría (-) Simétrica Der.-Asimetría (+)
Q1 Q2 Q3 Q1 Q2 Q3 Q1 Q2 Q3
Los datos se concentran Los datos se concentran
alrededor del tercer cuartil alrededor del primer cuartil
Chap 3-45
Forma de la distribución.
Curtosis o Kurtosis
• Describe la concentración relativa de los valores en el centro en
comparación con las colas, tomando como base a la distribución
normal, con un valor de 3.
4
k 4 3
k > 0 = Distribución Leptocurtica (más concentrada)
k = 0 = Distribución mesocurtica (igual)
k < 0 = Distribución platicurtica (menos concentrada)
Chap 3-46
Forma de la distribución.
Curtosis o Kurtosis
k > 0 = Distribución Leptocurtica (más concentrada)
k = 0 = Distribución mesocurtica (igual)
k < 0 = Distribución platicurtica (menos concentrada)
Chap 3-47
Usando Microsoft Excel
• Se pueden obtener estadísticos Descriptivos
usando Microsoft® Excel
• Usando la elección del menú:
Datos / análisis de dato / estadística descriptiva
• Ingresar los datos en la caja de diálogo
Chap 3-48
Utilizando Excel
Usar la elección del menú:
Herramientas /análisis de datos/
estadística descriptiva
Chap 3-49
Utilizando Excel
(continua)
• Entrar los datos en la
caja de dialogo
• Chequear en la caja
para estadísticos
resumen
• Presione OK-Aceptar
Chap 3-50
Salida de Excel
Microsoft Excel Salida de
estadística descriptiva,
Utilizando los datos de
los precios de las casas:
House Prices:
$2,000,000
500,000
300,000
100,000
100,000
Chap 3-51
Medidas Numéricas de la
Población
• Las medidas resumen Poblacionales se llaman parámetros
• La media poblacional es la suma de los valores de la suma de la población
dividida por el tamaño poblacional N
X i
X1 X 2 XN
i1
N N
donde μ = media poblacional
N = tamaño poblacional
Si = iesimo valor de la variable X
Chap 3-52
Varianza Poblacional
• Promedio de las desviaciones cuadráticas de las media
• Varianza Poblacional :
N
(X μ)
i
2
σ2 i1
N
donde μ = media poblacional
N = Tamaño poblacional
Si = iesimo valor de la variable X
Chap 3-53
Desviación estándar Poblacional
• La mas común medida de variación
• Muestra de variación alrededor de la media
• Es la raíz cuadrada de la varianza poblacional
• Tiene las mismas unidades que los datos originales
• Desviación estándar Poblacional :
N
i
(X μ) 2
σ i1
N
Chap 3-54
La regla empírica
•Si los datos son aproximadamente simétrica e
intervalo:
• μ 1σcontiene alrededor del 68% de los valores en la población o
en la muestra
68%
μ
μ 1σ
Chap 3-55
La regla empírica
• μ 2σ contiene alrededor del 95% de los valores en la población o
en la muestra
• μ 3σ contiene alrededor del 99.7 % de los valores en la
población o en la muestra
95% 99.7%
μ 2σ μ 3σ
Chap 3-56
Aproximación de la media de la Distribución
de frecuencia
• Algunas veces solamente la distribución de frecuencias esta
disponible pero no los datos crudos.
• Utilizar el punto medio de clase del intervalo aproximando los
valores de la clase:
c
m f
j1
j j
X
n
• donde n = numero de valores o tamaño de la muestra
c = numero de clases en la distribución de frecuencias
mj = punto medio de la clase jesima
fj = numero de valores en la jesima clase
Chap 3-57
Aproximando el desvío estándar desde la
distribución de Frecuencias
• Se supone que todos los valores dentro de cada intervalo de clase se
localizan en el punto medio de las clases
• Aproximación de la desviación estándar desde la distribución de frecuencias :
(m X)
j1
j
2
fj
S
n -1
Chap 3-58
La covarianza muestral
• La medida de la covarianza presenta la intensidad de la
relación lineal entre dos variables llamadas variables
bivariantes)
• La covarianza muestral :
( X X)(Y Y )
i i
cov ( X , Y ) i1
n 1
• Solamente representa la intensidad de la relación
• No implica efectos causales
Chap 3-59
Interpretando Covarianzas
•Covarianza entre dos variables aleatorias:
cov(X,Y) > 0 X e Y tienden a moverse en la misma dirección
cov(X,Y) < 0 X e Y tienden a moverse en direcciones opuestas
cov(X,Y) = 0 X e Y son independientes
Chap 3-60
Coeficiente de Correlación
• Mide la relación lineal relativa entre dos variables
• Coeficiente de correlación Muestral :
cov (X, Y)
donde r
SX SY
(X X)(Y Y)
n n
i i (X X)
i
2
i
(Y Y ) 2
cov (X, Y) i1
SX i1
SY i1
n 1 n 1 n 1
Chap 3-61
Características del
Coeficiente de Correlación, r
• Libre de unidades de medidas
• Rango entre –1 y 1
• El máximo de la relación lineal negativa o inversa –1, p
• El máximo de la relación lineal positiva 1 o directa
• El valor 0, ausencia de relación lineal
Chap 3-62
Diagramas de dispersión de Datos con
Varios Coeficientes de Correlación
Y Y Y
X X X
r = -1 r = -.6 r=0
Y
Y Y
X X X
r = +1 r = +.3 r = 0Chap 3-63
Utilizando Excel para encontrar el coeficiente
de correlación
• Seleccionar
Herramientas/ Análisis de
Datos
• Elegir Correlación de la
opción del menú
• Presiona OK- Aceptar . . .
Chap 3-64
Utilizar Excel para encontrar el Coeficiente de
Correlación
(continued)
• Ingrese los datos en el rango y
seleccione las apropiadas
opciones
• Presione OK para obtener la salida
Chap 3-65
Interpretando los Resultados
• r = .733
• Hay una relativa fortaleza en la relación Scatter Plot of Test Scores
lineal entre el resultado de la prueba 1 y 100
prueba 2 95
Test #2 Score
90
85
80
• Estudiantes que presentan altos resultados 75
del primer test, presentan una tendencia 70
70 75 80 85 90 95 100
alta para el segundo test, y los estudiantes Test #1 Score
que presentan bajos resultados en el
primer test, presentan bajo resultados en el
segundo test
Chap 3-66
Errores en las mediciones numéricas
descriptivas
• El análisis de datos es objetivo
• Se presentan informes de las medidas resumen que mejor representan los
supuestos acerca del conjunto de datos
• La interpretación de la salida de los datos es subjetiva
Chap 3-67
Bibliografía
• LEVINE, DAVID M., KREHBIEL, TIMOTHY C. Y MARK L.
BERENSON - Estadística para administración. Cuarta edición -
PEARSON EDUCACIÓN, México, 2006
Capítulo 3