Análisis Estadístico con SPSS: Guía Completa
Análisis Estadístico con SPSS: Guía Completa
BIBLIOGRAFÍA .............................................................................................................. 54
Tema 06
El análisis de datos estadísticos es el proceso que nos permite interpretar los datos numéricos que
disponemos, con el objetivo de tomar las decisiones de negocio más eficaces. Las empresas pueden
tomar decisiones 5 veces más rápido que su competencia si las basan en el análisis de datos.
Cada decisión que se quiera tomar en nuestras organizaciones debe estar basada en datos. Esto
significa que la estadística es una herramienta muy potente en nuestras manos. Por ello, cerca del
81% de los directivos considera que sus decisiones deben estar basadas en datos).
La Estadística Descriptiva tiene como objetivo extraer información a partir de un conjunto de datos
que son explorados para identificar sus principales características mediante un número reducido
de gráficos y/o números. Estos datos miden una o más variables y describen una muestra que
comienza con un análisis individual y posteriormente se estudian las relaciones entre variables
medidas. Suele comenzarse con representaciones gráficas y después se calculan las medidas
numéricas o de resumen.
CAPACIDAD
Gestiona y analiza datos con IBM SPSS 29.
TEMÁTICA
1. Clasificación de variables,
2. Frecuencias, Distribución de
3. Frecuencias y Gráficos Estadísticos
4. Medidas de tendencia central,
5. dispersión y forma
6. Tablas cruzadas,
7. Análisis de regresión
8. Coeficiente de correlación
9. Prueba de Normalidad
10. Prueba de Kolmogorov-Smirnov y Shapiro-Wilk
11. Prueba de Kolmogorov-Smirnov
2
1. Análisis Estadístico Descriptivo con SPSS
POBLACIÓN MUESTRA
Objetivo:
1. Dar una visión global de cómo están distribuidas las variables sin necesidad de manejar
todo el conjunto de datos, que pueden ser representados a través de:
o Tablas de frecuencias
o Representaciones gráficas
2. Sintetizar datos, a través de:
o Medidas de posición
▪ Centrales: Media, mediana, moda
▪ No centrales: Percentiles
o Medidas de dispersión
▪ Rango (Máximo y mínimo)
▪ Desviación típica o estándar
3
b) Por escala de medición:
• Cualitativas: miden cualidades.
o Nominales: ninguna ordenación (Ej.: grupo sanguíneo)
o Ordinales: existe ordenación (Ej.: nivel de satisfacción)
• Cuantitativas: miden cantidades
o Discretas: números enteros (Ej.: nº caries)
o Continuas: números con decimales (Ej.: nivel de hb)
1.2 Frecuencias
Tipos:
a) Frecuencia Absoluta (número total de apariciones)
• Es el número de veces que el valor está en el conjunto ((X 1, X2,…, XN).
• La suma de las frecuencias absolutas de todos los elementos diferentes del
conjunto debe ser el número total de sujetos N. Si el conjunto
tiene k números (o categorías) diferentes, entonces:
4
• Frecuencia absoluta acumulada
La frecuencia absoluta acumulada(Ni) de un valor Xi del conjunto (X1, X2,…,
XN) es la suma de las frecuencias absolutas de los valores menores o iguales
a Xi, es decir:
5
1.3 Distribución de Frecuencias (Tablas de Frecuencias)
Es la agrupación de datos en categorías mutuamente excluyentes que indican el número de
observaciones en cada categoría. Esto proporciona un valor añadido a la agrupación de datos.
Estado
Talla Peso IMC Nutricional
1,66 55,76 20,24 Normal
1,61 64,54 24,90 Normal
1,86 86,22 24,92 Normal
1,53 74,22 31,71 Obeso
1,63 69,00 25,97 Sobre peso
1,62 53,89 20,53 Normal
1,80 51,74 15,97 Desnutrido
1,69 65,68 23,00 Normal
1,82 66,04 19,94 Desnutrido
1,70 61,44 21,26 Normal
1,84 76,68 22,65 Normal
1,77 60,75 19,39 Desnutrido
… … … …
Se pide:
• Determinar la distribución de frecuencias del Estado Nutricional de un grupo de
pacientes
6
Solución:
1. Abrir el archivo [Link] en la vista de datos.
2. Hace clic en el menú Analizar, luego en Estadísticos descriptivos y elija la opción
Frecuencias.
3. En el cuadro de dialogo de Frecuencias:
o Agregar la variable Estado Nutricional al cuadro de dialogo Variables
El resultado será:
7
o Hacer clic en el botón Continuar
8
Inferencia:
Se aprecia que, de un total de 250 pacientes, se tuvieron 35 Desnutridos (14,0%) , 169
pacientes con peso Normal (676%), 22 pacientes con Sobrepeso (8.8%) y 24 pacientes con
Obesidad (9.6%)
7. Los resultados obtenidos pueden ser guardados o exportados como ya se indicó
anteriormente.
8. Asignar el nombre al archivo y grabe.
Se pide:
Solución:
1. Abrir el archivo [Link]
2. Hace clic en el menú Analizar, luego en Estadísticos descriptivos y elija la opción
Frecuencias.
3. En el cuadro de dialogo de Frecuencias:
o Agregar la variable Hospital al cuadro de dialogo Variables
o Clic en el botón Aceptar
Inferencia:
Se aprecia que, de un total de 250 pacientes, 85 (34%) pacientes se atendieron el hospital
Belén, 41 (16.4%) pacientes se atendieron en el hospital La Noria y 124 (49.6%) se
atendieron el hospital Regional
10
Editar el Gráfico:
Si desea editar el gráfico de resultados, como se requiere para nuestro caso, siga lo
siguiente:
• Doble clic en el gráfico
• Ahora se encuentra en la ventana del editor de gráfico, elija la opción adecuada para
modificar. Ejemplo: Mostrar etiqueta de datos
• Modificando la profundidad
11
• Cierre ambas ventanas y ya tendrá el gráfico personalizado.
12
Talla paciente
1,66
1,61
1,86
1,53
1,63
1,62
1,80
…
En nuestro caso ya se tiene la variable agrupado RPE (Rendimiento de Pasto Estrella) con
los siguientes intervalos:
LInf LSup
< 1.60
1.61 1.70
1.71 1.80
1.81 >
1.81 112
Nota: Este proceso se desarrolló en las sesiones anteriores del SPSS.
Se pide:
• Calcular las frecuencias de la talla agrupada de los pacientes de acuerdo a los intervalos
indicados.
Solución:
1. Abrir el archivo [Link] en la vista de datos.
2. Hace clic en el menú Analizar, luego en Estadísticos descriptivos y elija la opción
Frecuencias.
3. En el cuadro de dialogo de Frecuencias:
o Agregar la variable Talla del paciente (Agrupada) al cuadro de dialogo
Variables y hacer clic en Aceptar
13
4. Hacer clic en el botón Gráficos…, para representar gráficamente los resultados
obtenidos.
o En el cuadro de dialogo, seleccione:
✓ Tipo de gráfico: Histogramas (Mostar curva normal en el histograma) y clic
en Continuar y Aceptar
14
7. Grabe los resultados, haciendo clic en el botón de Guardar este documento.
Para generar este tipo de gráfico, nuestra variable debe tener la medida de Nominal u
Ordinal.
Representar las frecuencias de las tallas agrupadas de los pacientes con un gráfico de
sectores.
Solución:
15
• Arrastre el tipo de gráfico a la vista previa.
16
• Hacer clic en el botón Aceptar.
• Los resultaron son los siguientes:
17
Ejercicio 05: (use el archivo [Link])
Solución:
18
• Hacer clic en el botón Aceptar.
• Los resultaron son los siguientes:
19
• Editando el gráfico, tendremos:
Inferencia:
Gráficos de barras
Para la realización del diagrama de barras las variables pueden tener medidas de Nominal
u Ordinal, si es una variable cuantitativa (discreta o continua) esta debe estar agrupada y
tener una medida de Ordinal, si se coloca una variable de medida Escala, nos proporcionara
el gráfico de un histograma. El diagrama de barras puede ser vertical como horizontal.
Representar las frecuencias del número de pacientes atendidos por cada hospital
Solución:
20
• Arrastre el tipo de gráfico a la vista previa y la variable Hospital hacia X
21
• Hacer clic en el botón Aceptar.
• Los resultaron con el gráfico editado son los siguientes:
22
2. MEDIDAS DE TENDENCIA CENTRAL, DISPERSIÓN Y FORMA
Para realizar estos análisis, las variables necesariamente deberán ser de tipo Numérico y medida
Escala. En el caso de las medidas de tendencia central, dispersión y forma se tienen varías formas
de cálculo, empleando funciones.
Se pide:
Determinar los valores de medidas de tendencia central, dispersión de las variables Talla, Peso,
[Link], [Link], Glucosa, Colesterol
23
Solución:
3. Hacer clic el botón Estadísticos… y seleccione las opciones indicadas y clic en la opción
Continuar:
24
4. En este caso también insertaremos un gráfico Histograma. Hacer clic en Gráficos, desactivar la
casilla Mostra tablas de frecuencias y luego en Aceptar
25
A continuación, se muestra todos los gráficos del tipo Histograma con su curva normal de las
variables seleccionadas.
Talla
Peso
26
Presión sistólica
Presión diastólica
27
Glucosa
28
• Percentiles: 25 = 217. Representa el cuartil 1 (Q1), e indica que hasta el valor 217se encuentra
el 25% de los datos. 50 =234; Representa el segundo cuartil (Q2) o la mediana, e indica que
hasta el valor 234 se encuentra el 50% de los datos. 75 = 247; Representa el tercer cuartil (Q3),
e indica que hasta el valor 247 se encuentra el 75% de los datos.
Más abajo nos presenta el histograma, la curva de distribución normal, con la media, desviación
típica y el número de datos..
• Hasta ahora se ha realizado un análisis estadístico de las variables en forma individual, sin
considerar las consecuencias de la interacción entre ellas. SPSS tiene una variedad de
procedimientos que permiten analizar los efectos de la interacción en el comportamiento de
las variables, a través de procesos de relación o mediante comparaciones de grupos. Dentro de
los procedimientos más útiles y empleados para realizar este tipo de actividades, encontramos
las tablas de contingencia, las regresiones, correlaciones y determinación simple.
29
Ejercicio 08: (Use el archivo [Link])
30
Interpretación:
De acuerdo a la tabla mostrada, los resultados indican que hay 74 pacientes que tienen
Tallas <=1,60m de los cuales 62 paciente son varones y 12 mujeres. 56 pacientes tienen
tallas entre 1,61 y 1,70m, de los cuales 46 son varones y 10 son mujeres 3 mujeres. 52
pacientes tienen tallas entre 1,71 y 1,80 m, de los cuales 40 son varones y 12 son mujeres
y finalmente haya 68 pacientes que tienen tallas > a 1,81m, de los cuales 58 son varones y
10 mujeres.
Si, por ejemplo, tenemos los datos de precipitación de lluvia (mm) y el rendimiento
de trigo (Kg/ha) se pide determinar la relación de la lluvia sobre el rendimiento
(Calzada,1982).
Considere
o Ho: No se tiene un efecto de la precipitación sobre el rendimiento de trigo
(b=0)
o H1: Se tiene un efecto de la precipitación sobre el rendimiento de trigo (b 0)
Solución:
1. Hacer clic en el menú Analizar, luego en Regresión y seleccione Lineales
2. Agregue las variables respectivas a la lista de Dependientes e Independientes
32
3. Hacer clic en el botón Estadísticos y seleccione:
• Estimaciones
• Ajuste del modelo
33
El resultado nos presenta en varios cuadros: El primer cuadro sobre las variables
analizadas (Variables entradas/eliminadas).
Y = a + bx
Y =11.083 + 0.717x
Empleando la ecuación de regresión se afirma que por cada mm de lluvia que se
incremente, se tendrá un incremento en el rendimiento en 0.72 kg/ha.
Bajo este método, se obtendrán los mismos resultados que el ejercicio anterior, a
los cuales se les agrega el gráfico de dispersión i de puntos con línea de tendencia
que representará a ambas variables.
Solución:
1. Hacer clic en el menú Analizar, luego en la opción de Regresión y seleccione
Estimación curvilínea…
2. Se tiene la ventana Estimación Curvilínea:
a) En la lista de Dependiente, agregue la variable Rendimiento de Trigo.
b) En la lista de Independiente, agregue la variable Lluvia.
c) Activar la opción Incluir la constante de la ecuación
d) Activar Representar los modelos.
e) En las opciones de Modelos, seleccione la opción Lineal
35
f) Activar la opción Ver tabla ANOVA.
36
37
Nota: Si desea mostrar la Ecuación de Regresión, debe hacer doble en el gráfico
para editarlo y hacer clic en el botón Añadir línea de ajuste total.
Y=11.08+0.72X
R2 Lineal=0.405
Solución:
38
b) En la lista de gráficos, elija el tipo Dispersión simple.
c) Arrastre el tipo de gráfico a la vista previa
d) Arrastre la variable Rendimiento al Eje Y, de la vista previa
e) Arrastre la variable Lluvia al Eje X, de la vista previa
39
Nota: Para mostrar la Línea y Ecuación de Regresión, edite el gráfico y haga clic
en el botón Añadir línea de ajuste.
Inferencia:
Con la ecuación de regresión se valida que por cada mm de Lluvia que se
incremente, se tendrá incrementará el Rendimiento en 0.72 kg/ha.
Considerando el coeficiente de determinación tenemos que un 40.50% del
rendimiento depende de la lluvia y el restante 59.50% es debido a otros factores.
Si el incremento de lluvia fuese de 0 mm, el rendimiento será de 11.08 kg/ha,
ello aplicando la ecuación obtenida.
Considere los datos del ejercicio anterior para determinar la relación entre la
cantidad de lluvia caída y el rendimiento del trigo.
Considere la hipótesis:
o Ho: No tiene relación entre la cantidad de lluvia y el rendimiento de trigo (r=0)
o Ha: Si tiene relación entre la cantidad de lluvia y el rendimiento de trigo (r≠0)
Solución:
1. Hacer clic en el menú Analizar, luego en la opción Correlacionar y elija
Bivariadas
2. Seleccione:
• Variables: Lluvia
• Variables: Rendimiento
• Coeficientes de correlación: elija Pearson
• En Prueba de significancia, elija Bilateral y Señalar las correlaciones
significativas.
40
3. Hacer clic en el botón Aceptar.
4. Los resultados son:
Inferencia:
41
3.2.5. Ejemplo de Regresión lineal
Una familia quiere determinar una función que le permita estimar su consumo de
un artículo especifico en base a sus ingresos. Para ello reunió la siguiente
información:
INGRESO Xi CONSUMO Yi
15 18
20 21
25 24
32 27
38 35
Sea:
Yi = Consumo en unidades
Xi = Ingreso en centenas de soles
Si queremos ver la tendencia de dispersión, insertamos un gráfico de dispersión
desde el generador de Gráficos.
42
Agregamos la variable independiente (Ingresos de las familias) en el eje X y la variable
independiente (Consumo de productos) en el eje Y
43
Entonces ahora encontramos la función de regresión:
1. Clic en la ficha Analizar/ Regresión/Lineal
44
Se muestra los resultados:
4. Análisis.
R = 0.976. Esto significa que hay una alta correlación positiva entre X y Y, también podemos
decir que haya una relación intensa directa entre el ingreso y el consumo. A mayor ingreso,
mayor consumo, a menor ingreso menor consumo.
R Cuadrado = 0.953 = 95.3% de la variación en el consumo se explica por la variación en el
ingreso
El modelo: Y=7+0.692X
45
3.2.6. Ejemplo usando la estimación curvilínea
Usando el mismo ejemplo anterior.
46
A continuación, insertamos su gráfico con el resumen de modelo y estimaciones de
parámetros
47
Agregando la ecuación de la función. Y=7+0.69*X
48
4. ANÁLISIS DE VARIANZA EN DISEÑOS EXPERIMENTALES
El análisis de la varianza en los diseños experimentales requiere previamente con supuestos que
detallamos:
• Aditividad
• Linealidad
• Normalidad
• Independencia
• Homogeneidad de varianzas
Muchos de los supuestos se cumplen directa o indirectamente, como los casos de:
• Aditividad. Los componentes del modelo estadístico son aditivos, es decir la variable de
respuesta es la suma de los efectos del modelo estadístico.
• Linealidad. La relación existente entre los factores o componentes del modelo estadístico
tienen que ser del tipo lineal.
• Independencia. Los resultados observados de un experimento son independientes entre sí.
En el SPSS abordaremos los supuestos de: Normalidad y homogeneidad de varianzas, por tener
diferentes pruebas de hipótesis para aceptarlas o rechazarlas.
En esta prueba, no se considera los tratamientos sino el conjunto de datos, sin considerar
ninguna agrupación.
A B C D E
I 15 16 13 11 14
II 14 14 12 13 12
III 12 13 11 10 12
IV 13 15 12 12 10
V 13 14 10 11 11
Se pide, analizar si los datos de altura de pino presentan una distribución normal.
49
Hipótesis:
• Ho: Los datos de altura de pino presentan distribución normal
• H1: Los datos de altura de pino no presentan distribución normal
Solución:
1. Hacer clic en el menú Analizar, luego en la opción Estadísticos descriptivos
y elija Explorar.
2. En la ventana que se muestra, se debe ingresar la variable a la lista de
dependientes:
50
51
• Los resultados se presentan en informes: el de procesamiento de datos y, el de
descriptivos, los cuales se interpretaron anteriormente.
• Luego se muestran las pruebas de normalidad de: Kolmogorov-Smirnov y
Shapiro-Wilk, terminando con los gráficos de prueba de normalidad Grafico Q-
Q normal (Quantiles reales y teóricos de una distribución normal) y el otro
gráfico de Grafico Q-Q normal sin tendencia.
Inferencia:
• Observando la prueba de Kolmogorov-Smirnov, el valor de Sig.= 0.188 es mayor
que 0.05, rechazamos la hipótesis alterna, por lo que podemos afirmar que los
“datos de altura de planta presentan una distribución normal”.
• Como el valor de Sig.=0.303 de la prueba de Shapiro-Wilk, al ser mayor que
0.05, podemos afirmar que “los datos presentan una distribución normal”.
• En el Grafico Q-Q normal, la recta representa la distribución normal teórica, los
puntos como se observa están próximos de la recta, por lo que se puede afirmar
que el ajuste es aceptable (si se alejan de la recta el ajuste de normalidad no es
aceptable).
• En el Grafico Q-Q normal sin tendencia se observan las desviaciones de los
valores respecto a la recta, los valores están fluctuando cerca del cero (no están
muy alejados), por lo que se puede afirmar que tienen una tendencia normal
(si se alejan del cero, estos se alejan de la normalidad).
c
3. Al hacer un clic en el botón Aceptar, se tiene la siguiente información:
Inferencia:
Observando el
valor de
Sig.=0.188 es
mayor que 0.05,
rechazamos la
hipótesis
alterna,
afirmamos que
los datos de
altura de planta
presentan una
distribución
normal.
53
Bibliografía
Colubí, A. (2017). Estadística Administrativa I.
IBM. (2015). Manual del Usuario del Sistema Básico ed IBM SPSS.
Ochoa, R. (2014). Analisis Estadístico con erl SPSS. La Paz.
54
55