Escuela de Post Grado Universidad San Ignacio de Loyola
Manual de bolsillo del MegaStat *
Elaborado:
Por el profesor Miguel Castillo.
* MegaStat es un complemento estadstico para el Excel elaborado por el profesor J. B. Orris de Butler University.
Estadsticas con MegaStat
AgeCat 1 1 2 1 3 Gender 2 1 2 2 1 Seconds 50.1 53.0 43.2 34.9 37.5
Para ver la utilidad del MegaStat, primero presentaremos el ejemplo con el cual vamos a trabajar. Se trata del uso de un cajero automtico de un banco cualquiera, la variable AgeCat es la clasificacin por edad del usuario de este cajero, 1 si es menor de 30 aos, 2 si tiene entre 30 y 50, y 3 si tiene mas de 50. La variable Gender es el genero (sexo) del usuario de este cajero, 1 si es hombre y 2 si es mujer. Y Seconds es el tiempo en segundo del uso de este cajero.
Estadsticas descriptivas
Ingresar en rango de datos que estn en el Excel.
Seleccionar las estadsticas que se desean.
Estadsticas descriptivas
Estadsticas descriptivas
Media Error estndar de la media Varianza y desviacin estndar de la muestra Mximo, mnimo, rango Mediana, cuartiles, moda y datos fuera de lugar. Asimetra, curtosis y coeficiente de variacin. Ancho de intervalo sugerido para la distribucin de frecuencias. Varianza y desviacin estndar de la poblacin
Grafico de caja
Grafico tallos y hojas
Distribucin de frecuencias cuantitativas
Ingresar en rango de datos que estn en el Excel.
El ancho del intervalo se obtiene de las estadsticas descriptivas.
El limite inferior del primer intervalos de clase, se obtiene del menor dato (obtenido con las estadsticas descriptivas 24.1) y se le resta algo.
Distribucin de frecuencias cuantitativas
Distribucin de frecuencias cualitativas
Trabajaremos con la variable Agecat
Ingresamos el rango de datos de la variable Agecat.
Ingresamos como se clasifica la variable Agecat, en 1, 2 y 3 (se acuerdan en menores de 30, entre 30 a 50 y mayores de 50)
Distribucin de frecuencias cualitativas
Tablas de contingencias o tablas cruzadas
En muchas ocasiones, cuando analizamos variables cualitativas, necesitamos cruzar la informacin de estas variables. A esto lo llamamos tablas cruzadas. Esto lo hacemos con el MegaStat.
Seguiremos trabajando con nuestro ejemplo. Supongamos que necesitamos hacer la tabla cruzada entre:
AgeCat y Gender.
Siempre la primera variable corresponde a las filas y la segunda variable corresponde a las columnas.
Se ingresa el rango de datos de la variable que va en la fila, en nuestro ejemplo: Agecat.
Se ingresa el rango de la calificacin de la variable Agecat (1, 2 y 3)
Se selecciona lo que nos interesa saber para las estadsticas descriptivas
Se ingresa el rango de la calificacin de la variable Gender (1 y 2) Se ingresa el rango de datos de la variable que va en la columna, en nuestro ejemplo: Gender.
Tablas de contingencias o tablas cruzadas
Crosstabulation
Gender 1 2 7 10 41.2% 58.8% 25.0% 45.5% 14.0% 20.0% 13 8 61.9% 38.1% 46.4% 36.4% 26.0% 16.0% 8 4 66.7% 33.3% 28.6% 18.2% 16.0% 8.0% 28 22 56.0% 44.0% 100.0% 100.0% 56.0% 44.0% Total 17 100.0% 34.0% 34.0% 21 100.0% 42.0% 42.0% 12 100.0% 24.0% 24.0% 50 100.0% 100.0% 100.0%
1 Observed % of row % of column AgeCat % of total 2 Observed % of row % of column % of total 3 Observed % of row % of column % of total Total Observed % of row % of column % of total
Distribucin binomial.
El 40% de los peruanos leen su contrato de trabajo, incluyendo las letras pequeas. Suponga que el nmero de empleados que leen su contrato se pueden modelar utilizando una distribucin binomial. Considerando a un grupo de 5 empleados. Cul es la probabilidad de que al menos 3 lean su contrato?
Se trata de un problema binomial (existe solo dos alternativas, o leen o no leen los contratos)
Distribucin binomial.
Binomial distribution
5 n 0.4 p cumulative probability 0.07776 0.33696 0.68256 0.91296 0.98976 1.00000
Se quiere saber P( x 3) Para esto se debe sumar las probabilidades binomiales de 3, 4 y 5
P( x 3) = 0.23040 + 0.07680 + 0.01024
X 0 1 2 3 4 5
p(X) 0.07776 0.25920 0.34560 0.23040 0.07680 0.01024 1.00000
P( x 3) = 0.31744 = 31.74%
Distribucin poisson
Supongamos que estamos investigando la seguridad de una peligrosa inteleccin de calles, los registros policacos indican un media de 5 accidentes mensuales en esta interseccin. El numero de accidentes esta distribuido de acuerdo con una distribucin de Poisson y el departamento de seguridad vial desea que calculemos la probabilidad de que en cualquier mes ocurra exactamente 3 accidentes. Se trata de un problema poisson (los accidentes ocurren uno detrs de otro, es decir, existe una cola)
Distribucin poisson
Poisson distribution
5 mean rate of occurrence cumulative probability 0.00674 0.04043 0.12465 0.26503 0.44049 0.61596 0.76218 0.86663 0.93191 0.96817 0.98630 0.99455 0.99798 0.99930 0.99977 0.99993 0.99998 0.99999 1.00000 1.00000 1.00000 1.00000 1.00000
Se quiere saber P( x = 3)
X 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
p(X) 0.00674 0.03369 0.08422 0.14037 0.17547 0.17547 0.14622 0.10444 0.06528 0.03627 0.01813 0.00824 0.00343 0.00132 0.00047 0.00016 0.00005 0.00001 0.00000 0.00000 0.00000 0.00000 0.00000 1.00000
Esto es la probabilidades poisson cuando x es 3
P( x = 3) = 0.14037 = 14.04%
Distribucin normal
Supongamos que deseamos saber si escogemos a un cliente al azar, Cul es la probabilidad de que el cliente utilic mas de 45 segundos en cajero? Como el tiempo de uso es una variable cuantitativa continua, corresponde a una distribucin normal. Para esto necesitamos conocer la media y la desviacin estndar del tiempo del uso del cajero (en las estadsticas descriptivas las calculamos = 39.756 seg. y la = 8.916 seg.)
Se quiere saber P( x > 45)
2.5 = 8.916
39.756 10 15 = 45 x
Distribucin normal
Primero se ingresa el valor de la media, luego el valor de la desviacin estndar, luego el valor de x y por ultimo presionamos Preview
Distribucin normal
Si observamos el MegaStat me da dos probabilidades: Lower (0.7218) y Upper (0.2782) La probabilidad lower corresponde a la P( x < 45), es decir todo a la izquierda de 45.
2.5
La probabilidad upper corresponde a la P( x > 45), es decir todo a la derecha de 45.
Entonces, como nos estn pidiendo P(x>45), esta es 0.2782
10 15 45
P(x>45) = 0.2782 = 27.82%
Intervalos de confianza
Supongamos que deseamos conocer el intervalo de confianza del tiempo de uso del cajero con un 95% de nivel de confianza. Para esto debo conocer la media, la desviacin estndar y el tamao de la muestra del tiempo de uso del cajero. Esto se obtiene con las estadsticas descriptivas. Media es 39.756, la desviacin estndar es 8.916 y el tamao de la muestra es 50.
Se utiliza prueba z porque el tamao de la muestra es que 30. Se puede decir que el promedio de uso de cajero de la poblacin se encuentra entre 37.28 y 42.23 segundos con un 95% de confianza.
Prueba de hiptesis de una muestra
Supongamos que deseamos saber si existe evidencia para aceptar que el tiempo promedio del uso de cajeros es menor a 30 segundos?
Ho Ha N colas
= 2
< 1
>
Esto es una prueba de hiptesis. Planteamos primero las hiptesis. Ho: 30 Ha: < 30
Ahora tenemos que escoger que prueba utilizamos, para eso tenemos la siguiente regla:
Como no conocemos la , pero el tamao de la muestra es 50 y es mayor que 30, utilizamos prueba z
Prueba de hiptesis de una muestra
Ingresamos en rango de datos La Ha: < 30, entonces seleccionamos less than (menor que)
Como Ho: 30, ingresamos 30 Seleccionamos prueba Z
En este caso = 0.05 (nivel de significancia), le corresponde un nivel de confianza del 95%
Prueba de hiptesis de una muestra
Hypothesis Test: Mean vs. Hypothesized Value
30.0000 39.7560 8.9156 1.2609 50 hypothesized value mean Seconds std. dev. std. error n
Usaremos la siguiente regla:
> ?
No
Si
Aceptar Ho
7.74 z 1.0000 p-value (one-tailed, lower)
Rechazar Ho
En este caso p es 1.00 y es mayor que . Por lo tanto se acepta la Ho.
Ho: 30 Ha: < 30
Aceptar Falso
Existe evidencia para aceptar que el tiempo promedio del uso de cajeros es menor a 30 segundos?
Por lo tanto, NO EXISTE evidencia para aceptar que el tiempo promedio del uso del cajero sea menor que 30 segundos.
Prueba de hiptesis de dos muestras.
Supongamos que deseamos saber si existe evidencia para aceptar que existe diferencia en el tiempo promedio del uso de cajeros entre hombres y mujeres?
Ho Ha N colas
= 2
< 1
>
Esto es una prueba de hiptesis de dos muestras independientes. Planteamos primero las hiptesis. Ho: H = M Ha: H M
Ahora tenemos que escoger que prueba utilizamos, para eso tenemos la siguiente regla:
Como no conocemos la , pero los tamaos de las muestras son menores que 30, utilizamos prueba t
Prueba de hiptesis de dos muestras
Para poder utilizar el MegaStat, debemos previamente ordenar los tiempos en funcin al sexo de los cliente (Gender), esto lo hacemos con el Excel. Y luego copiamos los tiempos en dos columnas, una para los hombres y otra para las mujeres.
Prueba de hiptesis de dos muestras
Se ingresa el rango de datos de hombres Se ingresa el rango de datos de mujeres La Ha es (no igual) = 0.05
La diferencia entre los dos grupos es 0 (cero) Prueba t Como son muestras indedientes, hay que hacer la prueba de igualdad de varianzas para ver si vienen de la misma poblacin.
Prueba de hiptesis de dos muestras
Hypothesis Test: Independent Groups (t-test, pooled variance) varianzas para ver si las muestras
Hombres Mujeres 38.364 41.527 mean 8.779 8.973 std. dev. 28 22 n 48 -3.1630 78.5760 8.8643 2.5255 0 df difference (Hombres - Mujeres) pooled variance pooled std. dev. standard error of difference hypothesized difference
Primero evaluamos la igualdad de provienen de la misma poblacin.
> ?
No
Si
Vienen de la misma poblacin
Vienen de poblaciones diferentes
-1.25 t .2165 p-value (two-tailed)
F-test for equality of variance 80.508 variance: Mujeres 77.073 variance: Hombres 1.04 F .9028 p-value
Como p es 0.9028 y es mayor que (0.05), las muestras provienen de la misma poblacin. Si hubiera sido que viene de diferentes poblaciones, tendramos que utilizar la prueba t para varianzas diferentes
Prueba de hiptesis de dos muestras
Hypothesis Test: Independent Groups (t-test, pooled variance) hiptesis.
Hombres Mujeres 38.364 41.527 mean 8.779 8.973 std. dev. 28 22 n 48 -3.1630 78.5760 8.8643 2.5255 0 df difference (Hombres - Mujeres) pooled variance pooled std. dev. standard error of difference hypothesized difference
Ahora si evaluamos la prueba de
> ?
No
Si
Aceptar Ho
Rechazar Ho
Como p es 0.2165 y es mayor que (0.05), se acepta la Ho.
-1.25 t .2165 p-value (two-tailed)
F-test for equality of variance Ho: H = 80.508 Aceptar M variance: Mujeres si existe evidencia para aceptar que existe diferencia en el tiempo 77.073 variance: Hombres promedio del uso de cajeros entre hombres y mujeres? Ha: H M 1.04 Falso F .9028 p-value
Por lo tanto NO EXISTE evidencia para aceptar que hay diferencie entre el tiempo de uso del cajero entre hombre y mujeres.
Prueba de Chi cuadrado de independencia
Supongamos que deseamos saber si existe relacin entre las variables Agecat (categoras por edad) y Gerder (sexo), en nuestro ejemplo. Para poder hacer una prueba de Chi cuadrado, se requiere que las dos variables sean cualitativas (nominal ordinal). En nuestro ejemplo, tanto las variables Agecat y Gender son cualitativas. Como no existe una tabla de contingencias (o tabla cruzada), tenemos que construir la respectiva tabla. Para eso, utilizaremos Crosstabulation.
Si hubiramos tenido una tabla de contingencia, utilizaremos Contigency Tabla
Se ingresa el rango de datos de la variable que va en la fila, en nuestro ejemplo: Gender.
Se ingresa el rango de la calificacin de la variable Gender (1 y 2)
Se selecciona la prueba de Chi -cuadrado
Como la variable Agecat es ordinal, se escoge el Coeficiente de contingencia para ver la fuerza de la relacin (si las variables son nominales se utiliza Coeficiente Phi) Se ingresa el rango de la calificacin de la variable Agecat (1, 2 y 3) Se ingresa el rango de datos de la variable que va en la columnas, en nuestro ejemplo: Agecat.
Prueba de Chi cuadrado de independencia
Crosstabulation
AgeCat 1 Gender 1 2 Total 7 10 17 13 8 21 2 8 4 12 3 Total 28 22 50
Utilizaremos la siguiente regla:
2.37 chi-square 2 df .3062 p-value .213 Coefficient of Contingency
> ?
No
Si
Son independientes
Como p es 0.213 y es mayor que (0.05), las variables Agecat y Gender son independientes.
No son independientes
Anlisis de varianza de un factor
Supongamos que deseamos saber si existe diferencia en el tiempo del uso del cajero de acuerdo a la categora de edad. Tenemos una variable cuantitativa (Tiempo) y tres grupos (Egecat), por lo tanto tenemos que utilizar el ANOVA, como solo se evala el tiempo, entonces es de un factor. Para poder utilizar el MegaStat, debemos previamente ordenar los tiempos en funcin a la variable Agecat, esto lo hacemos con el Excel. Y luego copiamos los tiempos en tres columnas, una para los menores de 30 (1), otra para los que estn entre 30 y 50 (2) y la ultima para los que tiene mas de 50 (3)
Anlisis de varianza de un factor
Las hiptesis de una ANOVA, son:
Ho: Los promedios son iguales Ha: Al menos una es diferente
Y se utiliza la siguiente regla de decisin:
> ?
No
Si
Aceptar Ho
Rechazar Ho
Anlisis de varianza de un factor
Se ingresa el rango de datos que incluye a las tres columnas
Anlisis de varianza de un factor
One factor ANOVA
39.756 39.756 39.756 Mean 38.18 37.55 45.85 39.76 n 17 21 12 50 Std. Dev 10.291 7.779 6.031 8.916 menos 30 30 a 50 mas 50 Total
> ?
No
Si
Aceptar Ho
ANOVA table Source SS Treatment 590.030 Error 3,304.873 Total 3,894.903
Rechazar Ho
p-value .0211
df 2 47 49
MS 295.0151 70.3164
F 4.20
Como p vale 0.0211 y es menor que (0.05), se rechaza la Ho. Ho: Los promedios son iguales Ha: Al menos una es diferente Rechaza Verdadero
Existe diferencia en el tiempo del uso del cajero de acuerdo a la categora de edad?.
Por lo tanto, SI EXISTE evidencia de los tiempo de uso de los cajeros de acuerdo a la categora de edad, son diferentes.
Anlisis de regresin lineal simple
Copy SA, empresa que tiene una gran fuerza de ventas en todo EEUU y Canad, desea determinar si existe una relacin entre el nmero de llamadas telefnicas de ventas hechas en un mes, y la cantidad de copiadoras vendidas durante ese lapso. El gerente selecciona al azar una muestra de 10 representantes, y determina el nmero de tales llamadas que hizo cada uno en el mes anterior y la cantidad de productos vendidos.
dedor
N de llamadas 20 40 20 30 10 10 20 20 20 30
01 02 03 04 05 06 07 08 09 10
N copiadoras vendidas 30 60 40 60 30 40 40 50 30 70
Deseamos saber, si existe relacin entre el N de llamadas y las copiadoras vendidas (ambas variables son cuantitativas). Y si existe relacin, como poder pronosticar mis ventas a partir del numero de llamadas. Esto lo puedo contestar con el anlisis de correlacin y regresin.
La variable que deseo pronosticar, es la variable dependiente Y. En nuestro ejemplo es en N de copiadoras vendidas. La variable que es mi informacin , es la variable independiente X. En nuestro ejemplo es en N de llamadas. Como es una sola variable independiente, se utiliza una regresin lineal simple.
Anlisis de regresin lineal simple
Se ingresa el rango de datos de la variable independiente X, el N llamadas
Se ingresa el rango de datos de la variable dependiente Y, el N copiadoras vendidas.
Anlisis de regresin lineal simple
Regression Analysis
r 0.576 r 0.759 Std. Error 9.901 ANOVA table Source Regression Residual Total n 10 k 1 Dep. Var. N copiadoras
SS 1,065.7895 784.2105 1,850.0000
df 1 8 9
MS 1,065.7895 98.0263
F 10.87
p-value .0109
Regression output variables coefficients std. error Intercept 18.9474 8.4988 N llamadas 1.1842 0.3591
Ahora interpretaremos los resultados.
confidence interval t (df=8) p-value 95% lower 95% upper 2.229 .0563 -0.6509 38.5457 3.297 .0109 0.3560 2.0124
Anlisis de regresin lineal simple
r 0.576 r 0.759
(coeficiente de correlacin), es 0.759, lo que me indica una correlacin regular entre las variables.
r2 (coeficiente de determinacin), me explica el porcentaje (57.6%) de la variable dependiente (N de copiadoras vendidas), es explicada por la variable independiente (el N de llamadas)
ANOVA table Source Regression Residual Total
SS 1,065.7895 784.2105 1,850.0000
df 1 8 9
MS 1,065.7895 98.0263
F 10.87
p-value .0109
La prueba de ANOVA, me sirve para ver si la correlacin es real o ficticia. S la prueba p es menor que (0.05), la correlacin es real, caso contrario es ficticia.
En nuestro caso, p es 0.0109 y es menor que (0.05), por lo tanto la correlacin es real.
Anlisis de regresin lineal simple
Se le llama el anlisis de regresin lineal simple, porque es la funcin de una recta del tipo: Y = a + bX
Regression output variables coefficients std. error Intercept 18.9474 8.4988 N llamadas 1.1842 0.3591
confidence interval t (df=8) p-value 95% lower 95% upper 2.229 .0563 -0.6509 38.5457 3.297 .0109 0.3560 2.0124
N de copiadoras = a + b N de llamadas
La funcin de regresin es:
N de copiadoras = 18.9474 + 1.1842 N de llamadas
Anlisis de regresin lineal mltiple
r2 (coeficiente de determinacin), me explica el porcentaje (32.6%) de la variable dependiente (N de copiadoras vendidas), es explicada por la variable independiente (el N de llamadas). La pregunta es: Ud. estara conforme con este resultado? Este valor de r2 me indica que falta una o mas variables independientes para poder pronosticar el N de copiadoras vendidas con mayor precisin. Supongamos que agregamos la variable Publicidad.
N Copiadoras N llamadas vendidas 30 20 60 40 40 20 60 30 30 10 40 10 40 20 50 20 30 20 70 30
Publicidad 25 50 35 50 40 50 50 60 40 80
Como existen dos variables independientes: N llamadas (X1) y Publicidad (X2), se utiliza una regresin lineal mltiple.
Y = a + b X1 + c X2
Se ingresa el rango de datos de las variables independientes X1 y X2, el N llamadas y publicidad
Se ingresa el rango de datos de la variable dependiente Y, el N copiadoras vendidas
Anlisis de regresin lineal mltiple
Regression Analysis
R Adjusted R R Std. Error ANOVA table Source Regression Residual Total 0.902 0.874 0.950 5.085 n 10 k 2 Dep. Var. N copiadoras
SS 1,668.9655 181.0345 1,850.0000
df 2 7 9
MS 834.4828 25.8621
F 32.27
p-value .0003
Regression output variables coefficients std. error Intercept -1.7241 6.1137 N llamadas 0.8448 0.1974 Publicidad 0.5862 0.1214
Ahora interpretaremos los resultados.
t (df=7) p-value -0.282 .7861 4.280 .0037 4.829 .0019
confidence interval 95% lower 95% upper -16.1808 12.7326 0.3780 1.3116 0.2992 0.8732
Anlisis de regresin lineal mltiple
R 0.902 Adjusted R 0.874 R 0.950
r
(coeficiente de correlacin), es 0.950, mejoro tremendamente (antes era 0.7590) lo que me indica una correlacin muy buena entre las variables. r2 (coeficiente de determinacin), es ahora 0.902, que el porcentaje (90.2%) de la variable dependiente (N de copiadoras vendidas), es explicada por las variables independientes (el N de llamadas y la publicidad)
ANOVA table Source Regression Residual Total
SS 1,668.9655 181.0345 1,850.0000
df 2 7 9
MS 834.4828 25.8621
F 32.27
p-value .0003
En nuestro caso, p es 0.0003 y es menor que (0.05), por lo tanto la correlacin es real.
Anlisis de regresin lineal mltiple
Regression output variables coefficients std. error Intercept -1.7241 6.1137 N llamadas 0.8448 0.1974 Publicidad 0.5862 0.1214 t (df=7) p-value -0.282 .7861 4.280 .0037 4.829 .0019 confidence interval 95% lower 95% upper -16.1808 12.7326 0.3780 1.3116 0.2992 0.8732
Si el valor de p de la variable independiente es menor que (0.05), entonces el aporte de la variable es significativo. En nuestro caso, ambos p son menores que , por lo tanto el aporte de las variables es significativo.
Regression output variables coefficients std. error Intercept -1.7241 6.1137 N llamadas 0.8448 0.1974 Publicidad 0.5862 0.1214
t (df=7) p-value -0.282 .7861 4.280 .0037 4.829 .0019
confidence interval 95% lower 95% upper -16.1808 12.7326 0.3780 1.3116 0.2992 0.8732
Y = a + b X1 + c X2 N copiadoras = -1.7241+ 0.8448 N llamadas + 0.5862 Publicidad