IBM SPSS STATISTICS
ESTADÍSTICA INFERENCIAL
08
Capacidad Realiza y obtiene el coeficiente de correlación y regresión en
base a una aplicación del mundo real.
Contenidos 1.1 Técnicas de correlación y regresión
1.2 Pruebas de significación
1.3 Estadística paramétrica
1. Técnicas de correlación y regresión
1.1. Correlación
Después de haber realizado análisis bivariado, trataremos con muestras bivariantes cuantitativas, es decir con
muestras donde en cada unidad estadística se observan dos características cuantitativas medibles X (variable
independiente) e Y (variable dependiente o respuesta); por ejemplo:
- Peso de los estudiantes de la Universidad “Señor de Sipán” vs. su estatura.
- Calificaciones obtenidas por los estudiantes del Centro de Informática y Sistemas – USS en la Unidad II vs.
las horas de estudio empleadas.
- Ingresos y gastos mensuales de los padres de familia en la ciudad de Chiclayo.
El objetivo es estudiar la asociación entre dos variables conocida también como asociación simple. La
correlación, consiste en determinar la variación conjunta de las dos variables, su grado de relación, y su sentido
(-1 negativo o +1 positivo). La medida del grado de relación se denomina coeficiente o índice de correlación. La
ruta de acceso a esta opción la encontraremos de la siguiente forma:
Figura N° 01: Ruta de acceso a “Correlaciones”
1.1.1. Coeficiente de correlación de Pearson
Conocido como coeficiente de correlación lineal de Pearson de n pares de valores (X1, Y1), (X2, Y2),
… (Xn, Yn) de una variable bidimensional (X e Y).es el número abstracto r que se calcula por:
𝑆𝑋𝑌
r=𝑆 𝑆𝑌
𝑋
Módulo de IBM SPSS Statistics 2 | 18
Donde:
SXY : es la covarianza de X e Y.
SX : es la desviación estándar de X
SY : es la desviación estándar de X
El valor de “r” de Pearson, se considera de “Alta relación” cuando sur valor de acerca a
+1 (relación directa) o -1 (relación inversa).
Paralelo a ello se debe de plasmar en un gráfico de “Dispersión de Puntos” y evaluar
visualmente la tendencia que siguen ambas variables. Estas pueden ser las formas.
Figura N° 02: Tipos de tendencia, diagrama de dispersión
En SPSS 22.0, podremos plasmar este gráfico mediante la siguiente ruta:
Figura 03: Tipos de tendencia, diagrama de dispersión
Ejemplo 03: Se realizó un estudio durante las últimas lluvias del verano de 2017 en Chiclayo; y se evaluaron 15
avenidas principales de la ciudad y se midió el volumen de llvua caída (m3) y su repercusión de desborde (m3) que
presentó. Evaluar el nivel de asociación entre ambas variables y determinar si existe relación entre ellas.
Módulo de IBM SPSS Statistics 3 | 18
Volumen Volumen
Lluvia (m3) Desborde (m3)
5 4
12 10
14 13
17 15
23 15
30 25
40 27
47 46
55 38
67 46
72 53
81 70
96 82
112 99
127 100
Fuente: Senamhi – Verano 2018
1º. Plasmaremos mediante un “Diagrama de Dispersión” el comportamiento que presentan los datos.
Varibale Dependiente : "Vol. Desborde"
(respuesta)
Varibale Independiente : "Vol. Lluvia"
Figura 04: Aplicación de “Diagrama de Dispersión”
2º. Luego aplicamos la ruta de “correlación”, para así poder determinar la existencia de relación entre las
variables de estudio.
Módulo de IBM SPSS Statistics 4 | 18
Entonces podemos apreciar a través de la matriz de correlación, que existe una “Alta Relación” a un 98.8% entre
el “Volumen de lluvia” y el “Volumen de Desbordamiento”.
Tener en cuenta que el coeficiente de correlación: mide el grado de dependencia entre variables
preferentemente cuantitativas.
1.2. Regresión
En este caso, abordaremos regresión lineal simple, la cual estima los coeficientes de la ecuación lineal, con una
o más variables independientes, que mejor prediga el valor de la variable dependiente.
Por ejemplo:
“Intentar predecir el total de ventas anuales de un vendedor (la variable dependiente) a partir de variables
independientes tales como la edad, la formación y los años de experiencia”.
La regresión lineal simple de Y con respecto a X, consiste en determinar la ecuación de la recta:
Y=a+bX
Cuando un diagrama de dispersión muestra un patrón lineal es deseable resumir ese patrón mediante la ecuación
de una recta. Esa recta debe representar a la mayoría de los puntos del diagrama, aunque ningún punto esté
sobre ella.
Podemos encontrar dicha opción mediante la siguiente ruta:
Módulo de IBM SPSS Statistics 5 | 18
Figura 05: Ruta de acceso a “Regresión - Lineal”
Ejemplo 04: Basándonos en el “Ejemplo 03” buscaremos calcular y determinar el modelo de regresión que me permita
predecir: ¿cuánto sería el nivel de repercusión de “desbordamiento” si el volumen de lluvia alcanzara los 200 m3?
Figura 06: Asignación y activación de opciones pertinentes – Regresión Lineal
***Luego visualizaremos en la “Ventana de Resultados” la obtención y evaluación del modelo de regresión.
Módulo de IBM SPSS Statistics 6 | 18
1
Figura 07: Resultado Obtenidos – Regresión Lineal
1º. Podemos apreciar en la figura 05 el “”coeficiente de correlación” anteriormente calculado (98.8%), y
acompañado está R2 que sería el “Coeficiente de Determinación” (97.5%).
2º. Se aplicó un “Análisis de Varianza” – ANOVA, y observaos que estadísticamente es válido el coeficiente
de determinación (modelo predictivo).
3º. Apreciamos los coeficientes de la “Ecuación de Regresión”¸ teniendo así:
Y = 0.827 X – 1.128
4º. Si el “volumen de lluvia” alcanza los 200 m3 entonces se tendrá un “volumen de desborde” de 164.272.
Considerando que el modelo calculado explica en un 97.5% el volumen de lluvia.
2. Estadística paramétrica
Dentro de las medidas de resumen que pueden realizarse, existen 02 tipos de enfoque:
- Parámetro: Es una medida (central, dispersión, distribución, etc.) que puede obtenerse a partir de la
población. En la práctica dicho valor usualmente no es conocido ya que no podemos examinar toda la
población (factores económicos, temporales, necesidad, limitación, etc.)
Módulo de IBM SPSS Statistics 7 | 18
- Estadístico: Es una medida (central, dispersión, distribución, etc.) que puede obtenerse a partir de la
muestra. En la práctica se suele utilizar un estadístico para estimar al parámetro desconocido, esto se conoce
como “Inferencia Estadística”.
Medidas Parámetro Estadístico
Promedio μ X̅
Varianza σ2 S2
Desviación Estándar σ S
Proporción π ρ
Medias de Resumen Estadísticas
Entonces, dicho ANÁLISIS PARAMÉTRICO, son obtenidos a partir del uso de un número finito de
parámetros. Esto es, por ejemplo, si conocemos que la altura de las personas sigue una distribución normal,
pero desconocemos cuál es la media (promedio) y la desviación de dicha normal. La media y la desviación
típica de la desviación normal son los dos parámetros que queremos estimar.
Cuando desconocemos totalmente que distribución siguen nuestros datos entonces deberemos aplicar
primero un test no paramétrico, que nos ayude a conocer primero la distribución.
2.1. Prueba de Media contra un valor hipotético
Este procedimiento nos permite verificar si una muestra puede proceder de una población en la cual la
variable de interés presenta una media determinada.
Para el contraste, se debe plantear la siguiente hipótesis:
H0: μ = x
H1: μ < , > , ≠ x
Ruta para acceder a la opción de comparación de medias:
Analizar Comparar Medias
Por ejemplo: Las cajas de cierto tipo de cereal procesadas por una fábrica deben tener un contenido
promedio de 160 g. Por una queja ante el INDECOPI de que tales cajas de cereal tienen menos
contenido, un inspector tomó una muestra aleatoria de 10 cajas (provienen de una población normal)
encontrando los siguientes pesos de cereal en gramos:
Módulo de IBM SPSS Statistics 8 | 18
157, 157, 163, 158, 161, 159, 162, 159, 158, 156
¿Es razonable que el inspector multe al fabricante?
Solución: H0: μ = 160
H1: μ < 160
Accedemos a la opción:
Analizar Comparar Medias Prueba T para una muestra
Figura 08: Asignación de Datos – “Prueba T para una muestra”
▪ Trasladamos la variable “Peso_Caja_C” (pesos de cada caja de cereal).
▪ Y asignamos el VALOR HIPOTÉTICO que es 160 gr.
▪ Click botón aceptar.
1 2 3
4 5
Figura 09: Resultados Procesamiento – “Prueba T para una muestra”
Módulo de IBM SPSS Statistics 9 | 18
▪ Parte 1°: Es el total de registro que participan dentro de la prueba.
▪ Parte 2°: Es el promedio en base a los 10 registros.
▪ Parte 3°: Es la desviación estándar, es decir la distancia que existe entre cada peso hacia
el promedio (2.30 gr.)
▪ Parte 4°: Son los grados de libertad que se utilizan para la prueba t-student y es producto
de restar total de registros menos 1.
▪ Parte 5°: Basados en el nivel de significancia de 5%, podemos afirmar que NO
RECHAZAMOS H0 (0.204 MAYOR QUE 0.05), ES DECIR, se CONCLUYE QUE el peso
medio 160 gr. NO HA VARIADO, NO PUEDE MULTAR.
2.2. Prueba de Media para dos muestras Independientes
Este procedimiento nos sirve para contrastar la hipótesis nula de que las medias de dos muestras no difieren
entre sí. Este procedimiento de comparación deberá ser utilizado en aquellos casos en que los grupos sean
independientes (grupos categóricos: género, NSE, escuelas profesionales, etc.), es decir, no exista ningún
tipo de relación entre los términos de error de ambos grupos.
Por ejemplo: Un administrador está probando la posibilidad de usar un “nuevo programa estadístico”.
Cambiará de programa si hay prueba que el nuevo procesa en menos tiempo que el antiguo al procesar
determinada tarea. A fin de tomar una decisión se selecciona una muestra aleatoria de 7 operadoras y se
registra el tiempo de procesamiento en segundos con ambos paquetes. A partir de estos datos, ¿se cambiará
el paquete de cómputo antiguo por el nuevo? Asuma que los datos siguen una distribución normal. Use un
nivel de significación del 5%.
14 6 4 15 3 3 6 5 6 3 0 0 3 20 0 0 1 1 1 0
A A A A A A A A A A N N N N N N N N N N
Solución: H0: μA = μ N
H1: μA ≠ μN
Accedemos a la opción:
Analizar Comparar Medias Prueba T para muestras Ind.
Módulo de IBM SPSS Statistics 10 | 18
Figura 10: Procedimiento – “Prueba T para muestras Independientes”
- Trasladamos la variable “Tiempo de uso” (“Variables de prueba”).
- En “Variables de Agrupación” definimos grupos con 1 (Antiguo) y 2 (Nuevo), para que internamente el
programa asuma los 02 grupos.
- Click botón aceptar.
2
3
Figura 11: Resultados Procesamiento – “Prueba T para dos muestras independientes”
- Parte 1°: Estadísticos descriptivos (promedio y desviación estándar).
- Parte 2°: Grados de libertad (obtenidos n1 – n2 -2 = 18).
Parte 3°: LA PRUEBA DE LEVENE (diferencia de varianzas) nos muestra que el nivel de
significancia de 8.43% es MAYOR que 5%, entonces NO RECHAZAMOS H0, ES DECIR, se
CONCLUYE QUE los tiempos de AMBOS paquetes NO DIFIEREN uno del otro, es decir NO
CAMBIAR el ANTIGUO por el NUEVO
Módulo de IBM SPSS Statistics 11 | 18
2.3. Prueba de Media para dos muestras Relacionadas
El caso más clásico de dos muestras relacionadas es cuando a un mismo sujeto se le hace una medición antes
y otra después, producto de una intervención. Es decir, existe algún tipo de relación entre los individuos de ambos
grupos.
Por ejemplo: Un grupo de psicólogos realiza un estudio sobre “mejoramiento de estrategias de aprendizaje” en
una institución. Para ello aplicó 02 exámenes: “previo” y “posterior”, y registró sus puntuación en ambas
pruebas. ¿Puede afirmarse que la “nueva estrategia de mejoramiento de aprendizaje” tiene un efecto
significativo? Asuma que las puntuaciones siguen una distribución normal.
Previo Posterior
94,07 89,41 86,59 85,45
96,79 85,31 93,08 84,59
92,15 89,25 87,85 84,89
92,30 93,20 86,83 93,10
96,50 89,17 92,70 86,87
83,11 93,51 76,80 86,36
91,16 88,85 83,40 83,24
90,81 88,40 86,74 81,20
81,37 82,45 77,67 77,18
89,81 96,47 85,70 88,61
84,92 99,48 79,96 94,67
84,43 99,95 79,80 93,87
86,33 100,05 81,15 94,15
87,60 87,33 81,92 82,17
81,08 87,61 76,32 86,01
92,07 89,28 90,20 83,78
81,14 89,72 73,34 83,56
96,87 95,57 93,58 89,58
99,59 97,71 92,36 91,35
83,90 98,73 77,23 97,82
Solución: H0: μpre = μpos
H1: μpre ≠ μpos
Accedemos a la opción:
Analizar Comparar Medias Prueba T para muestras Relac.
Módulo de IBM SPSS Statistics 12 | 18
Figura 12: Procesamiento – “Prueba T para dos muestras independientes”
- Trasladamos EN PAR las variables “Previo” y “Posterior”.
- Click botón aceptar.
4
3
Figura 13: Resultados Procesamiento – “Prueba T para dos muestras relacionadas”
o Parte 1°: Estadísticos descriptivos (promedio y desviación estándar).
o Parte 2°: Correlación: podemos decir que EXISTE una ALTA RELACIÓN.
o Parte 2°: Grados de libertad (obtenidos n1 – n2 - 1 = 39).
o Parte 4°: LA PRUEBA MUESTRAS EMPAREJADAS nos muestra que el nivel de significancia de
0,00% es MENOR que 5%, entonces RECHAZAMOS H0, ES DECIR, se CONCLUYE QUE los
“puntajes” en AMBOS pruebas SI DIFIEREN uno del otro, es decir LA ESTRATEGIA que
aplicarán los psicólogos es adecuada.
Módulo de IBM SPSS Statistics 13 | 18
2.4. Prueba de ANOVA Paramétrica
El análisis de la varianza (ANOVA) es el método que nos permite determinar diferencias significativas entre
el “efecto medio” que producen los “distintos tratamientos” o niveles del factor estudiado.
Pare ello se deben cumplir ciertos supuestos:
- Aleatoriedad de las muestras
- Independencia de las variables
- Normalidad de las distribuciones
- Homogeneidad de las varianzas.
Se formula el test de hipótesis:
H0: μ 1 = μ2 = … = μk
H1: μ1 ≠ μ2 ≠ … ≠ μj para algún i ≠ j
Por ejemplo: Se desea contrastar la eficacia de 03 fertilizantes A, B, C. El primero se aplica en 8 parcelas,
B en 6 y C en 12. Las parcelas son de características similares en cuanto a su fertilidad, por lo que las
diferencias en la producción serán debidas AL TIPO DE FERTILIZANTES. Las toneladas producidas en
cada parcela en una temporada y para el mismo producto son:
A 6, 7, 5, 6, 5, 8, 4, 7
B 10, 9, 9, 10,10, 6
C 3, 4, 8, 3, 7, 6, 3, 6, 4, 7, 6, 3
Suponiendo que las 03 muestras, proceden de poblaciones
normales independientes, contrastar la igualdad de las toneladas medias, producidas con cada fertilizante.
Solución: H0: μpre = μpos
H1: μpre ≠ μpos
Accedemos a la opción:
Analizar Comparar Medias Prueba ANOVA de un Factor
Módulo de IBM SPSS Statistics 14 | 18
Figura 14: Procesamiento – “Prueba ANOVA UN FACTOR”
- Trasladamos “Toneladas” a “Lista de dependientes” y “T_Fertilizante” a “FACTOR”.
- Click botón aceptar
Figura 15: Resultados Procesamiento – “Prueba Anova de un factor”
Mediante el resultado (previa evaluación de “supuestos”) apreciamos que la varianza entre grupos es
mucho mayor que la varianza dentro de los grupos.
A cualquier nivel de significación (en la tabla es 0.000), se rechaza la hipótesis de igualdad de medias
entre los distintos tratamientos. Es decir HAY EFECTO DEL FERTILIZANTE.
Módulo de IBM SPSS Statistics 15 | 18
Referencias Bibliográficas
• Rodríguez Franco, J., Pierdant Rodríguez, A., & Rodríguez Jiménez, E. C. (2016). Estadística para la
Administración. México: Grupo Editorial Patria.
• Tomás Sábado, J. (2009). Fundamentos de Bioestadística y análisis de datos para enfermería.
Barcelona: Servei de Publicacions.
• Fernandez Fernandez, S., Cordoba Largo, A., & Cordero Sánchez, J. M. (2002). Estadística Descriptiva.
• Salafranca Cosialls, L., Nuñez Peña, M. I., & Serra Delgado, G. (2001). Estadística Aplicada con SPSS
y StatGraphics. Barcelona: Universidad de Barcelona.
Enlace Web
• Statistics, I. S. (2017). Documentación técnica del producto de IBM. Obtenido de
https://www.ibm.com/support/knowledgecenter/es/
• APA, N. (2017). Normas APA. Obtenido de Normas APA: http://normasapa.com/insercion-de-tablas-y-
figuras/
Módulo de IBM SPSS Statistics 16 | 18
Autoevaluación Tema 08
INDICACIONES:
Crear la carpeta APELLIDOS_TEMA
Guarde este archivo de Word como APELLIDOS_TEMA8.DOCX, el archivo de datos y de resultados como
APELLIDOS_TEMA8.SAV / APELLIDOS_TEMA8.SPS, en la carpeta creada, y responder las preguntas.
PARTE I: Resuelva según corresponda
1. Ejemplifique la correlación negativa de 2 variables relacionadas a su especialidad
2. La correlación de Pearson ¿es adecuada para variables cualitativas? Sustente su respuesta
PARTE II: Configurar en SPSS las siguientes preguntas, usando el archivo: hábitos y estilos de vida.sav.
1. Calcular e interpretar el coeficiente de correlación de variables relacionadas a su especialidad
2. Realizar el ANOVA para variables relacionadas a su especialidad.
Módulo de IBM SPSS Statistics 17 | 18
Módulo de IBM SPSS Statistics 18 | 18