CURSO DE SPSS
Objetivos
Familiarizarse con el entorno del editor de datos de SPSS
Definir variables en SPSS
Crear variables a partir de otras ya existentes
Seleccionar variables según un condicional, de forma aleatoria, según rango o según una
variable filtro
Crear una variable que pondere otra existente.
El Editor de Datos
Al iniciar SPSS se muestra la siguiente ventana donde se puede seleccionar ¿Qué desea
hacer? Así, si se desea analizar un conjunto de datos nuevo, se marca la
opción Introducir datos
Ventana de bienvenida
Elegida esta opción y pulsando Aceptar se muestra el Editor de datos de SPSS.
El Editor de datos de SPSS es el marco de trabajo inicial que se utiliza para introducir
los datos y elegir el procedimiento adecuado para el análisis. Esta ventana está formada
por:
La Barra de menú que contiene el Menú principal de SPSS con todas sus opciones
Cada una de estas opciones contiene distintos procedimientos que se muestran pulsando en cada
una de ellas.
la Barra de herramientas, formada por diferentes iconos que permiten acceder directamente a
los procedimientos más comunes
El significado de cada uno de estos iconos, que se muestra posicionando el ratón sobre el icono,
de izquierda a derecha es el siguiente:
Abrir documentos de datos Insertar caso
Guardar este documento Insertar variable
Imprimir Segmentar archivo
Recuperar los cuadros de diálogo recientes Ponderar casos
Deshacer una acción del usuario Seleccionar casos
Volver a hacer la acción del usuario Etiquetas de valor
Ir a caso Utilizar conjuntos de variables
Ir a variable Mostrar todas las variables
Variables Corregir ortografía.
Buscar
la Barra de presentación de los datos o de las variables
la Barra de estado (Área del procesador)
El Editor de datos SPSS está formado por celdas. Cada fila representa un elemento del
conjunto de datos y cada columna representa una variable y se muestra cuando se tiene
activada la casilla Vistas de datos en la Barra de presentación
Marcando cada una de estas variables y pulsando el botón secundario del ratón se
muestran las opciones Insertar variables, Ordenar de forma ascendente y Ordenar
de forma descendente los datos.
Análogamente se pueden insertar casos marcando una de las filas y pulsando el botón
secundario del ratón.
El Editor de datos SPSS presenta dos pestañas:
Vista de datos: Muestra los valores de los datos.
Vista de variables: Muestra las características de las variables.
En Vista de variables cada una de las filas corresponde a una variable y cada columna
determina una característica de ésta.
Nombre: Se introduce el nombre de la variable
Tipo: Se escoge el tipo de variable entre las posibilidades que se ofrecen pulsando en Tipo
Numérica: Una variable cuyos valores son números. Los valores se muestran en formato
numérico estándar (se establece la Anchura y Cifras decimales)
Coma: Una variable numérica donde las comas determinan los miles
Punto: Una variable numérica donde los puntos determinan los miles
Notación científica: Una variable numérica cuyos valores se muestran con una E intercalada y
un exponente con signo que representa una potencia de base diez
Fecha, Dólar: Una variable numérica cuyos valores se muestran en uno de los diferentes formatos
de fecha y de dólar, respectivamente
Moneda personalizada: Una variable numérica cuyos valores se muestran en uno de los
diferentes formatos de moneda personalizada que se hayan definido previamente en la
pestaña Moneda del cuadro de diálogo Opciones (Edición/Opciones)
Cadena: Variables cuyos valores no son numéricos. También se conocen como variables
alfanuméricas.
Anchura: Determina el ancho de la columna
Decimales: Determina el número de decimales que aparecen en pantalla.
Etiqueta: Las variables pueden ser etiquetadas para que en los análisis posteriores aparezca dicha
etiqueta
Valores: Permite introducir las modalidades de las variables tipo cadena
Valores Perdidos: SPSS permite codificar los valores perdidos de forma discreta o en un rango
determinado
Columnas: Permite introducir el ancho de la columna que también puede cambiarse en
la Vista de datos pulsando y arrastrando los bordes de la columna
Alineación: Permite elegir entre alinear los datos introducidos a la Izquierda, Derecha o
Centrado.
Medida: Permite definir la variable como Ordinal o Nominal
Ordinal: Los valores de los datos representan categorías con un orden intrínseco (Ej: grande,
medio, pequeño; suspenso, aprobado, notable, sobresaliente)
Nominal: Los valores de los datos representan categorías sin un orden intrínseco (Ej: rojo,
amarillo, verde)
Rol: Funciones, roles que se pueden asignar a las variables para el análisis
Entrada: La variable se utiliza como una entrada (por ejemplo: predictor, variable independiente)
Objetivo: La variable se utiliza como salida o de destino (por ejemplo: variable dependiente)
Ambos: La variable se utiliza como entrada y salida
Ninguna: La variable no tiene una asignación de funciones
Partición: La variable se utiliza para dividir los datos en muestras separadas
Segmentar: Las variables con este papel no se utilizan como variables de un archivo segmentado.
Por defecto, a todas las variables se les asigna el papel de entrada. Esto incluye los datos
de los archivos externos y archivos de datos de versiones de SPSS Statistics anteriores a
la versión 18.
Barra del menú principal: Opciones
Desde la barra del Menú principal se puede acceder a todos los menús del Editor de
Datos. Los primeros menús: Archivo, Edición, Ver, Ventana y Ayuda son habituales en
los programas bajo Windows. El resto de menús son específicos de SPSS, estos permiten
realizar cambios en los datos, obtener resultados estadísticos, numéricos, gráficos……A
continuación se muestran los distintos menús desplegables, así como la finalidad de
alguna de las opciones.
El menú Archivo
Nuevo: Abrir un archivo nuevo de datos, de sintaxis, de resultados o de proceso
Abrir: Abrir un archivo existente de datos, de sintaxis, de resultados o de proceso
Abrir base de datos: Crear, editar y ejecutar consultas a bases de datos
Leer datos de texto: Abrir archivos de texto
Cerrar: Cerrar el archivo actual
Guardar: Guardar el archivos actual
Guardar como: Guardar el archivo actual con otro nombre
Mostar información del archivo de datos: (Archivo de trabajo o archivo externo)
Caché de los datos: Crear una copia temporal de los datos puede mejorar el rendimiento en el
caso de que los archivos grandes de datos se lean desde una fuente externa. Aunque el archivo
activo virtual puede reducir considerablemente la cantidad de espacio en disco temporal, la
ausencia de una copia temporal del archivo “activo” significa que la fuente de datos original tiene
que releer para cada procedimiento
Repositorio: (Conectar, Almacenar desde SPSS Statistics, Publicar en Web, Añadir archivo,
Recuperar en SPSS Statistics, Descargar un archivo)
Presentación preliminar: Muestra en pantalla completa la tarea actual
Imprimir: Imprimir la tarea actual
Datos usados recientemente: Muestra los datos usados recientemente
Archivos usados recientemente: Muestra los archivos usados recientemente
Salir: Salir de SPSS.
Los menús Edición y Ver presentan las siguientes opciones
Los menús Ventana y Ayuda presentan las siguientes opciones
Transformaciones de datos, operadores y funciones
En esta sección vamos a trabajar con un fichero de datos y vamos a: Calcular nuevos
valores de los datos a partir de transformaciones numéricas de variables
existentes:Recodificar variables, Ordenar casos, Transponer, Fusionar, Agregar y
Segmentar archivos, Ponderar casos.
Calcular
A continuación vamos a ver cómo transformar o crear nuevas variables a partir de otras
ya existentes. Para ello, en el Menú principal se elige Transformar/ Calcular
variable…
Eligiendo esta opción se despliega la siguiente ventana
En este Cuadro de diálogo se pueden generar nuevas variables a partir de las existentes
utilizando los operadores y funciones que se muestran. Las variables disponibles se
muestran en la ventana inferior izquierda, en nuestro caso Ejemplo. En la
ventana Expresión numérica se introduce la fórmula deseada en función de las variables
existentes. En la casilla Variable de destino se introduce el nombre de la nueva variable.
Si se desea generar una nueva variable que sea el doble de la variable Ejemplo se
procede de la siguiente manera
Se pulsa Aceptar y se obtiene la siguiente salida
Selección de Casos
Esta opción permite seleccionar los valores de los datos observados que se quieren
utilizar de una variable. Para ello, en el Menú principal se elige Datos/Seleccionar
casos…
Y se muestra la siguiente ventana
Esta ventana tiene las opciones de seleccionar todos los casos, aquellos que satisfagan
una condición, tomar una muestra aleatoria, tomar datos basándose en un rango
determinado o usar una variable de filtro.
A continuación se muestran algunos ejemplos:
Seleccionar los datos que satisfagan la condición Ejemplo < 8: Elegir Si se satisface la
condición y pulsar la tecla Si…
Se muestra la siguiente pantalla
Donde se impone la condición Ejemplo < 8
Se pulsa Continuar y se muestra la siguiente ventana
Se pulsa Aceptar y se muestra el Editor de datos SPSS donde se ha creado una nueva
variable filter_$ que indica si el caso ha sido o no seleccionado. Además se observa que
las filas correspondientes a los datos que no cumplen la condición aparecen tachadas.
Pulsando el icono Etiquetas de valor
se muestra la siguiente salida
La variable filter_$ está formada por ceros y unos (ceros: casos eliminados, unos:
considerados)
Si se desea tomar una muestra aleatoria de, por ejemplo, 6 casos entre los 10 primeros, se elige la
opción Muestra aleatoria de casos y se pulsa Ejemplo…
En la siguiente pantalla se elige Exactamente en cuya casilla se introduce 6 y en casos
de los primeros … casos se introduce 10.
Se pulsa Continuar y en el Editor de datos SPSS se muestran los 6 casos elegidos entre
los 10 primeros
Si se desean seleccionar los casos que satisfagan un rango, por ejemplo valores entre 6 y 8, en la
ventana Seleccionar casos se elige Basándose en el rango del tiempo o de los
casos/Rango… Se introduce en Observación: Primer caso un 6 y en Observación: Ultimo
caso un 8.
Se pulsa Continuar y Aceptar y en el Editor de datos SPSS se muestran los 3 valores
que están entre el 6 y el 8
Finalmente se puede determinar la variable Filtro (mediante ceros y unos). Por ejemplo se quieren
los casos 4, 5, 6, 7 y 8, se define una variable Filtro con unos en dichos casos y ceros en el resto.
A continuación en la ventana Seleccionar casos se introduce la variable Filtro en la
casilla que se activa al marcar Usar variable de filtro:
Se pulsa Aceptar y se muestra la siguiente salida
Ponderación de Casos
Cuando se tabulan los datos en tablas, en muchas ocasiones hay una serie de
observaciones que se repiten un número determinado de veces llamado frecuencia
absoluta. También en otras ocasiones las observaciones son ponderadas según ciertos
valores por estudios previos. SPSS permite introducir estas frecuencias o ponderaciones
en una variable que contenga las frecuencias. Para ello, en primer lugar definimos una
variable que llamamos Ponderaciones y que va a contener las frecuencias absolutas de
la variable Ejemplo
En el Menú principal se elige Datos/Ponderar casos…
Se muestra la siguiente ventana
Donde se elige Ponderar casos mediante y se introduce la variable Ponderaciones
Finalmente se pulsa Aceptar. Y la variable Ejemplo ha quedado ponderada con las datos
la variable Ponderaciones.
Ejemplo
Los siguientes datos muestran información de un grupo de personas encuestadas
Fecha de Estado
Nombre Sexo Peso Estatura Aciertos
Nacimiento Civil
Ana 10/24/1973 Mujer 69 Casado 1,68 2
Jaime 11/21/1988 Hombre 70 Separado 1,7 9
Diego 10/31/1974 Hombre 57 Casado 1,72 12
Martina 10/11/2000 Mujer 25 Soltero 1,81 3
Pablo 08/31/1974 Hombre 59 Casado 1,65 0
Santiago 05/29/1971 Hombre 78 Soltero 1,83 1
Patricia 10/19/1977 Mujer 45 Casado 1,78 6
Rocio 06/26/1975 Mujer 42 Casado 1,69 20
Jimena 04/21/1959 Mujer 68 Separado 1,61 15
Se pide:
1. Añadir a la variable Peso dos veces la variable Estatura y el resultado dividirlo
por 3
En primer lugar creamos un fichero de datos en SPSS denominado Ejemplo1, que recoge
la siguiente información:
La variable Nombre es de Tipo Cadena
La variable Fecha es de Tipo fecha
La variable Sexo es de Tipo Cadena con modalidades Mujer y Hombre codificadas con
los 1 y 2 repectivamente
Las variables Peso, Estatura y Aciertos son de Tipo Numérico
La variable Estado es de Tipo Cadena con las modalidades: Soltero, Casado,
Separado y Viudo, codificadas con los valores 1, 2, 3 y 4 respectivamente
Se definen las variables Nombre, Fecha
Se define la variable Sexo
Se introduce en Valor: 1 y en Etiqueta: Mujer y pulsa Añadir
Se introduce en Valor: 2 y en Etiqueta: Hombre y pulsa Añadir
Se pulsa Aceptar y se definen las variables Peso y Estado
Se definen las variables Estatura y Aciertos
Se introducen los datos en el Editor de Datos
Una vez introducidos los datos el siguiente paso es guardar el fichero con el
nombre Ejemplo1, para ello elegir en el menú principal Archivo/Guardar (o
también Ctrl S)
Se pulsa Guardar
1. Calcular
Añadir a la variable Peso dos veces la variable Estatura y el resultado dividirlo por 3
Para resolver la cuestión planteada (añadir a la variable Peso dos veces la
variable Estatura y el resultado dividirlo por 3), en el Menú principal se
elige Transformar/ Calcular variable… En la ventana correspondiente se escribe el
nombre de una sola Variable de destino: Cálculo y en Expresión numérica se introduce
la operación a realizar
Se pulsa Aceptar y se obtiene la siguiente salida
Nuevo fichero de datos: Introducir los siguientes datos en otro fichero de datos
denominado Ejemplo2
Fecha de Estado
Nombre Sexo Peso Estatura Aciertos
Nacimiento Civil
Pepe 10/13/1975 Hombre 59 Viudo 1,78 13
Lara 09/21/1988 Mujer 77 Viudo 1,75 12
Rosa 10/21/1984 Mujer 67 Casado 1,69 2
Pedro 06/11/1999 Hombre 35 Casado 1,83 6
Maria 08/13/1979 Mujer 60 Separado 1,67 2
Ramon 10/29/1971 Hombre 77 Soltero 1,9 1
Mar 12/19/1987 Mujer 49 Viudo 1,76 10
Aurora 06/26/1975 Mujer 45 Casado 1,69 20
Rafael 04/21/1959 Hombre 78 Viudo 1,71 15
Pulsar Archivo/Nuevo/Datos y proceder de modo similar al Ejemplo1 para introducir
las variables y los datos. Una vez introducidos los datos guardar el fichero con el
nombre Ejemplo2.
Se pide:
2. Fundir archivos
Generar un nuevo fichero de datos que contenga todos los datos de los
ficheros Ejemplo1 y Ejemplo2
Para Fundir archivos con las mismas variables y casos diferentes se procede de la
siguiente forma
Abrir uno de los ficheros de datos, por ejemplo. Ejemplo2 (Los datos de este fichero aparecerán
primero en el nuevo archivo de datos fusionado)
Elegir los menús Datos/Fundir archivos/Añadir casos…
Seleccionar Un archivo de datos de SPSS Statistics externo (Si no aparece en pantalla,
pulsar Examinar y elegir el archivo de datos Ejemplo1y pulsar Abrir).
Pulsar Continuar
La ventana Añadir casos en la parte inferior indica con (*) el archivo de datos actual y
con (+) el archivo de datos que vamos añadir. También informa de la existencia de una
variable desemparejada y nos indica con (+) que pertenece al archivo Ejemplo1 (dicha
variable la habíamos generado anteriormente en el Ejemplo1). Si se desea se puede añadir
la variable desemparejada al nuevo fichero para ello se selecciona y se pulsa la flecha. Se
pulsa Aceptar y se obtiene el nuevo fichero de datos que llamamos Ejemplo3 y este
nuevo fichero está formado por todos los datos del Ejemplo2 y del Ejemplo1, en este
orden
Se pide:
3. Seleccionar casos
En el fichero de datos Ejemplo3 seleccionar sólo los casos que sean mujeres, filtrando
los datos.
Se elige en los menús Datos/Seleccionar casos… y selecciona Si se satisface la
condición
Pulsar Si la op…
Y seleccionamos los casos en que “sexo=1”. Se pulsa Continuar y Aceptar y se muestra
la siguiente salida
Al elegir la opción por defecto, Descartar casos no seleccionados, los casos que no
reúnen los criterios de selección, permanecen en el archivo de datos pero se excluyen
del análisis. Comprobamos que el fichero de datos tiene tachados los casos que son
hombres (sexo = 2) y que tiene una nueva variable llamada filter_$ que indica si el caso
ha sido o no seleccionado.
Se pide:
4. Seleccionar casos que cumplen dos condiciones
En el fichero de datos Ejemplo3 seleccionar sólo los casos que tengan un Peso inferior
a 69 y una Estatura inferior a 1.78.
Se elige en los menús Datos/Seleccionar casos… y selecciona Si se satisface la
condición
Pulsar Continuar y Aceptar y se muestra la siguiente salida
El fichero añade una nueva variable filtro que sustituye a la anterior y que indica si el
caso ha sido o no seleccionado. Si queremos conservar las variables de filtro para
sucesivos análisis, se deberá ir cambiando el nombre que por defecto da el Sistema, ya
que sólo conserva la variable que registra el último filtro hecho.
Se pide:
5. Dividir archivos
Dividir el fichero de datos Ejemplo3 con el fin de obtener resultados separados para las
mujeres y para los hombres.
Para dividir un archivo de datos según las modalidades de una o más variables, en primer
lugar se deben ordenar los casos según los valores de las variables de agrupación.
Se elige el menú Datos/Ordenar casos… Se introduce la variable Sexo en la
ventana Ordenar por:
y se pulsa Aceptar
A continuación vamos a segmentar el archivo, para ello se elige los menús Datos/Dividir
archivo. Se puede elegir entre Comparar grupos u Organizar los resultados por
grupos.
Si se selecciona Comparar grupos: Los grupos se presentan juntos para poder
compararlos
Si se selecciona Organizar los resultados por grupos: Los resultados se presentan por
separado para cada grupo
Se pulsa Aceptar y los resultados de los análisis que se realicen con el fichero de datos
se presentaran por separado para las mujeres y para los hombres, sin mezclar.
Se pide:
6. Recodificar variables
Recodificar las variables Aciertos del fichero de datos Ejemplo3 en una nueva variable
de nombre Aciertos1 cuyos nuevos valores sean:
1 si Aciertos es menor que 3
2 si Aciertos es mayor o igual que 3 y menor que 9
3 si Aciertos es mayor o igual que 9
Para recodificar los valores de una variable en una variable nueva, se eligen los
menús Transformar/Recodificar en distintas variables. En la ventana resultante
seleccionar la variable que se va recodificar, Aciertos, y pasarla a la ventana Variable
numérica -> Variable resultado: e introducir en Nombre: el nuevo nombre de la
variable, Aciertos1, y a continuación pulsar Cambiar
Pulsar Valores antiguos y nuevos…. y especificar la nueva recodificación
1 si Aciertos es menor o igual que 3: Se activa Rango, INFERIOR hasta valor: y se añade
el 3, se pulsa Valor: en Valor nuevo y se añade 1. Se pulsa Añadir
2 si Aciertos es mayor que 3 y menor que 9: Se activa Rango, se añade el 3 y en la
ventana hasta se añade 9, en Valor: se añade 2 y se pulsa Añadir.
3 si Aciertos es mayor o igual que 9: Se activa Rango, valor hasta SUPERIOR: y se añade
el 9, en Valor: se añade 3 y se pulsa Añadir
Se pulsa Continuar y Aceptar
ESTADÍSTICA DESCRIPTIVA:
REPRESENTACIONES GRÁFICAS
Objetivos
1. Resumir, ordenar y analizar conjuntos de datos
2. Calcular diversas características de una variable estadística univariante
3. Representar gráficamente la distribución de frecuencias
4. Realizar análisis exploratorio de datos.
Introducción al Análisis Descriptivo
El primer paso en el análisis de datos, una vez introducidos los mismos, es realizar un
análisis descriptivo. Este análisis inicial proporciona una idea de la forma que tiene la
distribución de las observaciones y permite obtener estadísticos de tendencia central
(media, mediana y moda), de dispersión (varianza, desviación típica, rango), de forma
(asimetría, curtosis), de posición (percentiles), así como gráficos de barras, de sectores e
histograma.
El SPSS proporciona varias herramientas para realizar esta descripción, todas ellas bajo
el menú Analizar y, dentro de él, la opción Estadísticos descriptivos. Estos
procedimientos son: Frecuencias…, Descriptivos… y Explorar….
Procedimiento “Frecuencias…”
El procedimiento Frecuencias… proporciona representaciones estadísticas y gráficas que
son útiles para la descripción de distintos tipos de variables. Permite obtener una
descripción de la variable a partir de las tablas de frecuencias, histogramas, gráficos de
barras, percentiles, índices de tendencia central e índices de dispersión.
Para acceder a este procedimiento se selecciona en el Menú principal Analizar/
Estadísticos descriptivos/ Frecuencias…
En el Cuadro de diálogo de Frecuencias, se introducen la variable o variables
(categóricas o cuantitativas) que se quieren analizar.
En esta ventana se presentan cuatro botones de comandos: Estadísticos… (para obtener
estadísticos descriptivos para las variables cuantitativas), Gráficos… (para hacer gráficos
de barras, gráficos de sectores e histogramas), Formato…(para elegir el orden en el que
se muestran los resultados) y Boostrap… (para realzar muestreo boostrap). Además, se
muestra la opción Mostrar tablas de frecuencias, que por defecto aparece seleccionada.
Pulsando en Estadísticos… se obtiene el siguiente Cuadro de diálogo, donde se muestra
un conjunto de medidas descriptivas agrupadas en: Valores percentiles, Tendencia
central, Dispersión y Distribución.
En esta ventana se marcan los estadísticos descriptivos que se quieran estudiar y se
pulsa Continuar.
Nota: SPSS calcula por defecto la cuasivarianza, y cuasidesviación típica muestrales.
Pinchando en Gráficos… se obtiene el siguiente Cuadro de diálogo, en el que se puede
elegir el Tipo de gráfico y los Valores del gráfico.
En esta ventana se selecciona el gráfico que se desea realizar y se pulsa Continuar.
Pinchando en Formato… se obtiene el siguiente Cuadro de diálogo, que permite que las
tablas de frecuencias puedan ordenarse según los valores de la variable o según las
frecuencias observadas. Además, para aquellas variables con un gran número de valores
diferentes se puede optar por Suprimir tablas con más de n categorías o por agrupar
los datos en categorías.
Nota: Para analizar una parte de las observaciones seleccionadas según algún criterio se
debe elegir previamente en el Menú principal Datos/Seleccionar casos…
Pinchando en Boostrap… se obtiene el siguiente Cuadro de diálogo, que permite realizar
muestreo boostrap.
Procedimiento “Descriptivos…”
El procedimiento Descriptivos… calcula estadísticos de tendencia central, dispersión y
distribución para varias variables, mostrándolos en una única tabla y calcula valores
tipificados (puntuaciones z).
Para acceder a este procedimiento se selecciona en el Menú principal Analizar/
Estadísticos descriptivos/ Descriptivos…
En el Cuadro de diálogo correspondiente, se introducen la variable o variables que se
quieren analizar.
Si selecciona Guardar valores tipificados como variables, se guardan las puntuaciones z,
éstas se añaden a los datos del Editor de datos, quedando disponibles para posteriores
análisis. Las transformaciones de puntuación zpermiten la comparación de variables que
se registran en diferentes unidades de medidas.
En todas las figuras el botón:
Restablecer permite restablecer todas las opciones por defecto del sistema y elimina
del Cuadro de diálogo todas las asignaciones hechas con las variables
Continuar permite aceptar las asignaciones hechas con las variables
Cancelar permite ignorar todas las asignaciones hechas con las variables
Pegar envía la sintaxis del procedimiento a la ventana de sintaxis
Aceptar, elegidas las especificaciones, se pulsa el botón Aceptar para obtener los
resultados del procedimiento.
Pinchando en Opciones… se muestra el siguiente Cuadro de diálogo
que permite hallar características de tendencia central, de dispersión, de distribución y
ordenar las variables por el tamaño de sus medias (en orden ascendente o descendente),
alfabéticamente o por el orden en el que se seleccionen las variables (el valor por defecto).
Procedimiento “Explorar…”
El procedimiento Explorar genera estadísticos de resumen y representaciones gráficas
como Diagrama de cajas, gráficos de tallo y hojas, histogramas, diagramas de normalidad
y diagramas de dispersión por nivel con pruebas de Levene.
Para explorar los datos se elige en el Menú principal Analizar/Estadísticos
descriptivos/Explorar…
y se muestra el siguiente Cuadro de diálogo
donde se selecciona una o más variables dependientes (Lista de dependientes:) Si se
desea, es posible seleccionar una o más variables de factor (Lista de Factores:) cuyos
valores definirán grupos de casos; o bien seleccionar una variable de identificación para
etiquetar casos (Etiquetar los casos mediante:).
En dicho cuadro de diálogo se presentan tres botones de comandos: Estadísticos… (para:
Intervalos de confianza para la media, Estimadores robustos centrales, Valores atípicos y
Percentiles), Gráficos… (para Diagramas de cajas, de tallo y hojas, histogramas, pruebas
y gráficos de probabilidad normal y diagramas de dispersión por nivel con la prueba de
Levene), Opciones… (para el tratamiento de valores perdidos) y Boostrap… (para
realizar muestreo boostrap). Si en Visualización se marca la opción Ambos muestra
resultados estadísticos y gráficos; si se marca Estadísticos muestra sólo los resultados
estadísticos y si se marca Gráficos muestra sólo resultados gráficos.
Pinchando en Estadísticos… se muestra el siguiente Cuadro de diálogo
Pinchando en Gráficos… se obtiene el siguiente Cuadro de diálogo
El Diagrama de cajas es una forma de representación gráfica para resumir la distribución
de los valores de una variable. En esta representación en vez de visualizar los valores
individuales, se representan estadísticos básicos de la distribución: la mediana, el
percentil 25, el percentil 75 y los extremos de la distribución. Esta representación gráfica
está basada en 5 medidas estadísticas. La caja representa el 50% de las observaciones
correspondientes a cada nivel del factor y se construye desde el primer cuartil al tercer
cuartil; dentro de ella se destaca la posición de la mediana. Se construye un bigote
desde hasta el mínimo y otro bigote desde hasta el máximo, siempre que sus
correspondientes longitudes no superen 1.5 veces la longitud de la caja. En caso contrario,
el correspondiente bigote se construye hasta la observación más alejada del cuartil que
diste como máximo 1.5 veces la longitud de la caja; si todas las observaciones distan del
correspondiente cuartil más de 1.5 veces la longitud de la caja se representan como
valores aislados.
En la siguiente figura se muestra cómo se representan en un gráfico de cajas los
estadísticos anteriormente mencionados
El diagrama de caja viene determinado por los valores de los cuartiles, y la línea que
aparece dentro del diagrama representa el valor de la mediana.
Los límites, a partir de los cuales se dibujan los bigotes del diagrama de caja y se marcan
los valores extremos, se calculan del siguiente modo:
donde y son el primer y el tercer cuartil, respectivamente.
Los valores fuera de los límites están etiquetados (en SPSS por el número de caso al que
corresponden, cuando no se ha especificado ninguna variable para etiquetar). En la figura
anterior se representan con un círculo aquellos valores que sobrepasan los
límites LI y LS y con un asterisco los que sobrepasan los límites LI* y LS*, que se calculan
del siguiente modo:
En resumen:
Se consideran dos categorías de casos extremos, en función de cuánto se alejan con
respecto del 50% central de la distribución. Aquellos casos con valores alejados más de
3 veces el rango intercuartílico desde el extremo superior o inferior de la caja (casos más
extremos, representados con un (*) y aquellos valores que están alejados entre 1.5 y 3
veces dicho rango, representados con un círculo.
Los valores más pequeño y más grande que estén dentro de los límites primer cuartil -1.5
y tercer cuartil +1.5 veces el rango intercuartílico constituyen los bigotes del gráfico y
aparecen representados mediante las dos líneas horizontales dibujadas a ambos extremos
de la caja central.
Información que podemos obtener de este tipo de gráfico:
La posición de la mediana nos determina la tendencia central
El ancho de la caja nos da idea de la variabilidad de las observaciones. Si la mediana no
está en el centro de la caja, podemos deducir que la distribución es asimétrica (si está
próxima al límite inferior de la caja, asimétrica positiva, y si está próxima al límite
superior, asimétrica negativa)
Estos gráficos son especialmente útiles para comparar la distribución de los valores entre
diferentes grupos.
Diagrama de tallos y hojas: Una técnica que se utiliza para la observación de la forma
de la distribución de frecuencias es el diagrama de tallo y hojas, que es una representación
gráfica en la que los datos se colocan en dos niveles de tal modo que podemos visualizar
la forma de la distribución. Un diagrama de tallos y hojas consiste en una serie de filas
horizontales de números. En la primera columna se escriben los llamados tallos, junto a
ella se traza una línea vertical y, a su derecha, en cada fila se escriben las correspondientes
hojas. El número utilizado para designar una fila es su tallo, el resto de números de la fila
se denominan hojas. El tallo es la mayor porción del número. Por ejemplo, en los números
1.0, 2.3, 1.4, 1.1, 3.5, 4.6, 5.1, 5.3, 5.7 y 5.9. Los primeros dígitos servirán como nombre
de los tallos (1, 2, 3, 4, 5). Las hojas dan una información secundaria acerca del número,
en nuestro ejemplo sería la cifra decimal. (Véase Estadística para Biología y Ciencias
Ambientales: Tratamiento Informático mediante SPSS. Ana Lara (2010) pág 47).
Gráficos con prueba de normalidad: Mediante este procedimiento se comprueba si los
datos proceden de una población normal y para ello se sirve de dos gráficos y un contraste
analítico. (Este procedimiento se utilizará en prácticas más avanzadas).
Pinchando en Opciones… se obtienen las siguientes opciones para el tratamiento
de Valores perdidos
Procedimiento “Gráficos”
Además de las gráficas producidas por los anteriores procedimientos descriptivos, SPSS
cuenta con un menú dedicado expresamente para la obtención de resultados gráficos.
Sirvan estas notas como una breve exposición de las características generales en el manejo
de los procedimientos gráficos. Una exposición más detallada de estos procedimientos
requeriría una extensión que sobrepasaría los objetivos de este documento introductorio.
Seleccionando en el Menú principal Gráficos, se obtiene la siguiente ventana, donde se
muestran los distintos gráficos que se pueden realizar.
Para proceder a realizar algún tipo de gráfico interactivo se selecciona en el Menú
principal Gráficos/Generador de gráficos… y se muestra la siguiente figura.
donde se selecciona el gráfico que se desee realizar (En el ejercicio guiado de esta práctica
se muestra como se realiza un histograma interactivo).
Seleccionando en el Menú principal Gráficos/Cuadros de diálogo antiguos se muestra
la siguiente figura.
donde se elige el tipo de gráfico que se desee. Por ejemplo, si se
selecciona Gráficos/Cuadros de diálogo antiguos/Barras…, se muestra la siguiente
figura
donde se puede elegir entre realizar un Gráfico de barras Simple, Agrupado o Apilado.
Si se elige Agrupado se pulsa a continuación Definir y se muestra la siguiente ventana
Para crear un gráfico de barras agrupado se debe seleccionar una variable de categorías y
una variable de agrupación. De esta forma, una vez pulsado el botón Aceptar, se genera
un gráfico de barras de las categorías elegidas agrupado por la variable de agrupación
elegida.
El procedimiento estándar de generación de gráficos se inicia con la elección, desde
el Menú principal, del tipo de gráfico deseado. Tras esta elección el programa solicita
mayor información acerca de las características del gráfico deseado. Esto generalmente
se realiza a través de un Cuadro de diálogo específico.
Evidentemente, a un mayor conocimiento de los datos que se analizan y con una idea
clara de las gráficas que se quieren obtener, se seguirá un mayor aprovechamiento de las
capacidades gráficas del SPSS. En este punto, es importante animar a la experimentación,
es decir, a la generación de distintas gráficas que pongan en evidencia, desde distintos
puntos de vista, la circunstancia que se quiera resaltar. Posteriormente habrá tiempo de
seleccionar aquella que se ajuste mejor a nuestros objetivos.
Confirmada la definición del gráfico mediante el correspondiente botón de Aceptar, en
el Visor de resultados aparece el gráfico creado. Seleccionándolo con el ratón y pulsando
el boton derecho se muestra la siguiente figura donde se elige Editar contenido /En otra
ventana (O bien pulsando dos veces sobre el gráfico).
Se abre el Editor de gráficos, que permite realizar modificaciones en el gráfico. Para
seleccionar objetos en el gráfico se pulsa en ellos, o bien se utiliza el menú de la ventana
del Editor de gráficos.
Ventana de Resultados
Se observa que la parte superior de la ventana muestra
que indica el nombre que SPSS da por defecto al fichero de resultados, Resultados1 y el
nombre de la ventana, IBM SPSS Statistics Visor
Esta ventana de resultados presenta una Barra de menú similar a la que muestra el Editor
de datos, ampliada con dos nuevos menús: Insertar y Formato.
A continuación se muestra un menú de iconos que permite el acceso más rápido a algunas
de las opciones.
La ventana de resultados se divide en dos paneles:
El panel izquierdo muestra el listado de los contenidos.
El panel derecho presenta los resultados.
Ejemplo
Con los datos almacenados en el fichero Datos1
Sexo Edad Estatura Puntuacion1 Puntuacion2 Calificacion
Mujer 25 1,82 6 9 Aprobado
Hombre 30 1,91 5 7 Aprobado
Mujer 28 1,77 5 4 Suspenso
Mujer 27 1,82 7 5 Aprobado
Hombre 37 1,8 3 4 Suspenso
Mujer 29 1,82 5 8 Aprobado
Hombre 31 1,79 7 6 Aprobado
Hombre 28 1,89 5 5 Aprobado
Hombre 38 1,87 6 5 Aprobado
Mujer 28 1,79 4 4 Suspenso
Mujer 32 1,81 6 7 Aprobado
Hombre 35 1,88 7 6 Aprobado
Hombre 28 1,70 4 2 Suspenso
Mujer 21 1,72 3 4 Suspenso
Mujer 21 1,72 5 4 Suspenso
Realizar un análisis estadístico unidimensional determinando diversos estadísticos de
tendencia central, de posición, de dispersión, de forma, tablas de frecuencias, gráficos y
análisis exploratorio de datos.
1. Gráficos de barras y sectores
Realizar tablas de frecuencias y representaciones gráficas (gráficos de barras y
sectores) con las variables cualitativas.
Tablas de frecuencias: Se selecciona en el Menú principal Analizar/ Estadísticos
descriptivos/ Frecuencias… Introducir las variables Sexo y Calificación en la
ventana Variables: y dejar por defecto Mostrar tablas de frecuencias
Pulsar Aceptar
Gráfico de barras: Seleccionando en el Menú principal Gráficos/Cuadros de diálogo
antiguos/Barras. En el cuadro de diálogo activar Simple y Resúmenes para grupos de
casos (ambas están activadas por defecto)
Pulsar Definir
En la ventana resultante introducir en la casilla Eje de categorías: la variable Sexo y
en Panel mediante filas: la variable Calificación. Pulsar el botón Títulos para escribir
el título del gráfico y notas al pie. Se puede seleccionar en Los barras representan:
frecuencias relativas y acumuladas, porcentajes relativos y acumulados y otro estadístico.
En el Editor de gráficos, que se muestra haciendo doble clik sobre el gráfico, hay
diversos botones que permiten distintas opciones de edición: se puede cambiar el color,
cambiar el tipo de letra, mover las leyendas de los ejes….
Gráfico de sectores: Seleccionando en el Menú principal Gráficos/Cuadros de
diálogo antiguos/Sectores. En el cuadro de diálogo activar Resúmenes para grupos de
casos (activada por defecto)
Pulsar Definir
En la ventana resultante introducir en la casilla Definir sectores por: la variable Sexo y
en Panel mediante filas: la variable Calificación. Se puede seleccionar en Los sectores
representan: frecuencias absolutas, % de casos y Sumas de la variable.
2. Estadísticos e Histograma
Realizar tablas de frecuencias, representaciones gráficas (histograma), calcular
estadísticos de tendencia central, dispersión, forma, posición (Percentiles 25, 50 y
75) con las variables cuantitativas.
Tablas de frecuencias: Se selecciona en el Menú principal Analizar/ Estadísticos
descriptivos/ Frecuencias… Introducir las variables correspondientes en la
ventana Variables: y dejar por defecto Mostrar tablas de frecuencias
Pulsar Estadísticos…Para calcular los percentiles pedidos se activa la casilla Percentiles:
es escribe el percentil correspondiente y se pula Añadir
Pulsar Continuar y Aceptar
En la misma salida se muestran las Tablas de frecuencias para cada variable
seleccionada.
Histograma: Seleccionando en el Menú principal Gráficos/Cuadros de diálogo
antiguos/Histograma. En Variable: introducir la variable Edad y activar Mostrar
curva normal.
También se puede realizar seleccionando en el Menú principal Analizar/ Estadísticos
descriptivos/ Frecuencias/Gráficos.
Se pulsa Aceptar
3. Gráficos de cajas simple y agrupado
Realizar el gráfico de cajas, para la población total y agrupando por sexos, para las
variables Puntuación1 y Puntuación2.
Para obtener el diagrama de cajas se selecciona en el Menú
principal Gráficos/Cuadros de diálogo antiguos/Diagrama de cajas
Realizamos un Diagrama de cajas Simple en las
variables Puntuación1 y Puntuación2 para el grupo total de individuos. Para
ello, seleccionar Simple y Resúmenes para distintas variables. Se
pulsa Definir y en el cuadro de diálogo resultante, introducir las
variables Puntuación1 y Puntuación2 en la casilla Las cajas representan:
Se pulsa Aceptar
2. Realizamos un Diagrama de cajas agrupado por la variable Sexo: Para ello,
seleccionar Agrupado y Resúmenes para distintas variables. Se pulsa Definir y en el
cuadro de diálogo resultante, introducir las variables Puntuación1 y Puntuación2 en la
casilla Las cajas representan: y la Variable Sexo en la casilla Eje de categorías:
Se pulsa Aceptar
4. Gráfico de barras agrupadas
Realizar el gráfico de barras para la variable Edad que compare hombres y
mujeres conjuntamente.
Se selecciona en el Menú principal Gráficos/Cuadros de diálogo antiguos/Barras, en
la ventana resultante elegir Agrupado y Resúmenes para datos agrupados y se
pulsa Definir. A continuación, introducir en la casilla Eje de categorías: la
variable Edad y en Definir grupos por: la variable Sexo.
Se pulsa Aceptar
Ejercicios
Ejercicio Propuesto
Para estudiar el efecto de las aguas residuales de las alcantarillas que afluyen a un
lago, se toman 40 muestras distintas en las que se mide la concentración de nitrato
en el agua. Los datos obtenidos son los siguientes:
Xi 25 30 40 75 80 120 150 200
Ni 3 3 5 6 5 7 6 5
Se pide:
1. Introducir los datos en el Editor de datos de SPSS
2. Determinar:
Tabla de frecuencias
Número de datos; Percentil 30; Valores máximo y mínimo; Media; Mediana; Moda;
Desviación típica; Varianza
Histograma de frecuencias
Histograma de frecuencias interactivo con las siguientes características:
Representación horizontal
Efecto 3D
Considerar 5 clases
Título : Histograma
Subtítulo : Efecto 3D
Pie : Concentracion
Aspecto: Acero
REGRESIÓN Y CORRELACIÓN
Objetivos
1. Representar el diagrama de dispersión
2. Ajustar una recta de regresión a las observaciones
3. Analizar la bondad del ajuste lineal
4. Ajustar una curva parabólica a las observaciones
5. Analizar la bondad del ajuste parabólico
6. Comparar el ajuste lineal y el parabólico.
Introducción
En esta práctica estudiamos dos tipos de problemas. El primero es el de encontrar una
función que se ajuste lo mejor posible a un conjunto de puntos observados, gráficamente
equivale a encontrar una curva que aunque no pase por todos los puntos esté lo más
próxima posible de dichos puntos. El segundo es medir el grado de ajuste entre la función
teórica (función ajustada) y la nube de puntos. Distinguimos así, entre Teoría de
Regresión y Teoría de Correlación.
Teoría de Regresión: Consiste en la búsqueda de una “función” que exprese lo mejor posible el
tipo de relación entre dos o más variables. Esta práctica sólo estudia la situación de dos
[Link] de las aplicaciones más interesante que tiene la Regresión es la de Predecir, es
decir, conocido el valor de una de las variables, estimar el valor que presentará la otra variable
relacionada con ella.
Teoría de Correlación: Estudia el grado de dependencia entre las variables es decir, su
objetivo es medir el grado de ajuste existente entre la función teórica (función ajustada) y la
nube de [Link] la relación funcional que liga las variables X e Y es una recta entonces
la regresión y correlación reciben el nombre de Regresión Lineal y Correlación Lineal. Una
medida de la Correlación Lineal la da el Coeficiente de Correlación Lineal de Pearson.
Regresión y Correlación Lineal
En primer lugar se plantea el ajuste de una recta entre dos variables. Sea Y la variable
dependiente (variable cuyos valores se desea predecir), y X la variable independiente
(también llamada variable explicativa y que se utiliza para predecir el valor de la variable
dependiente).
En primer lugar, antes de realizar la regresión vamos a visualizar la nube de puntos. Para ello se
seleciona en el menú principal Gráficos/Cuadros de diálogo antiguos/Dispersión/Puntos…
Se muestra la siguiente ventana
Se selecciona la opción que se desee representar, que en nuestro caso es Dispersión
simple y se pulsa el botón Definir. En la ventana correspondiente se sitúan las
variables X e Y en su lugar correspondiente.
Se pulsa Aceptar y se muestra el gráfico de dispersión
El gráfico muestra una posible adecuación del modelo lineal y la tendencia creciente del
mismo.
Para obtener la recta de regresión mínima cuadrática de Y sobre X , y = b0 + b1 x, se debe
elegir el procedimiento Regresión lineal. Para ello se
selecciona Analizar/Regresión/Lineales…
Se muestra la siguiente ventana
Se desplazan las variables X e Y a su campo correspondiente
Se pulsa el botón Estadísticos…
donde se selecciona en Coeficientes de regresión: Estimaciones e Intervalos de
confianza y se marca Ajuste del modelo. Se pulsa Continuar.
Se pulsa el botón Gráficos…
donde se elige *ZRESID para Y y *ZPRED para X. Por último se marca la
opción Gráfico de prob. normal. Se pulsa Continuar
Las representaciones gráficas son una forma de juzgar visualmente la bondad de ajuste y
de detectar comportamientos extraños de observaciones individuales, valores atípicos.
Una visión global de la gráfica nos puede orientar sobre el cumplimiento de los supuestos
del modelo: Normalidad, Linealidad y Homocedasticidad (Igualdad de las Varianzas) e
Independencia de los Residuos. Además de representar un Histograma y un Gráfico
Probabilístico Normal, también se pueden confeccionar diversos gráficos que aportan
información sobre el cumplimiento de las hipótesis del modelo. Así se pueden
realizar Diagramas de Dispersión para cualquier combinación de las siguientes variables:
la variable dependiente, los valores pronosticados (ajustados o predichos), residuos
tipificados (estandarizados), los residuos eliminados (sin considerar el caso), ajustados en
función de los valores pronosticados, residuos estudentizados, o residuos estudentizados
eliminados (sin considerar el caso).
Por ejemplo:
Gráfico de Residuos tipificados/Valores pronosticados tipificados o
simplemente Residuos/Valor predicho: Este gráfico se utiliza para comprobar las
hipótesis de Linealidad y de Homocedasticidad y estudiar si el modelo es adecuado o
no. Si en el gráfico observamos alguna tendencia, ésta puede ser indicio de
autocorrelación, de heterocedasticidad o falta de linealidad. En general no se debe
observar ninguna tendencia ni comportamiento anómalo.
Gráfico de Valores Observados/Valores predichos: Este gráfico incluye una línea de
pendiente 1. Si los puntos están sobre la línea indican que todas las predicciones son
perfectas. Como el gráfico anterior, también se utiliza para comprobar la hipótesis de
igualdad de varianzas, así se detecta los casos en que la varianza no es constante y se
determina si es preciso efectuar una transformación de los datos que garantice la
homocedasticidad.
Gráfico de Residuos/Variable X: Este gráfico que representa los residuos frente a una
variable independiente, permite detectar la adecuación del modelo con respecto a la
variable independiente seleccionada y también detecta si la varianza de los residuos es
constante en relación a la variable independiente seleccionada. Si en este gráfico
observamos alguna tendencia nos puede indicar el incumplimiento de la hipótesis de
homocedasticidad o falta de linealidad, así como autocorrelación.
Se pulsa el botón Guardar…
y en Valores pronosticados y Residuos se elige Tipificados. Se pulsa Continuar. En la
ventana del Editor de datos se han creado dos variables con los nombres ZPR_1 (para
los valores pronosticados tipificados) y ZRE_1 (para los residuos tipificados).
Se pulsa Continuar y Aceptar. Y se obtienen, entre otros, los siguientes resultados
Esta tabla muestra los resultados del ajuste del modelo de regresión. El valor de R
cuadrado, que corresponde al coeficiente de determinación, mide la bondad del ajuste de
la recta de regresión a la nube de puntos, el rango de valores es de 0 a 1. Valores pequeños
de R cuadrado indican que el modelo no se ajusta bien a los datos. R cuadrado =
0.481 indica que el 48.1% de la variabilidad de Y es explicada por la relación lineal con X.
El valor R (0.694) representa el valor absoluto del Coeficiente de Correlación, es decir
es un valor entre 0 y 1. Valores próximos a 1 indican una fuerte relación entre las
variables. La última columna nos muestra el Error típico de la estimación (raíz cuadrada
de la varianza residual)con un valor igual a 16.52243
En la Tabla ANOVA, se muestra la descomposición de la Variabilidad Total (SCT =
10000) en la Variabilidad debida a la Regresión (SCR_{reg = 4813.175) y la Variabilidad
Residual (SCR = 5186.825) es decir en Variabilidad explicada por el modelo de regresión
y la Variabilidad no explicada. SCT = SCR_{eg} + SCR. La Tabla de Ánalisis de la
Varianza (Tabla ANOVA) se construye a partir de esta descomposición y proporciona el
valor del estadístico F que permite contrastar la hipótesis nula de que la pendiente de la
recta de regresión es igual a cero contra la alternativa de que la pendiente es distinta de
cero, es decir:
donde H0 se conoce, en general, como hipótesis de no linealidad entre X e Y
La Tabla ANOVA muestra el valor del estadístico de contraste, F = 17.631, que se define
como el cociente entre el Cuadrado medio debido a la regresión (CMR_{eg} = 4813.175)
y el Cuadrado medio residual (CMR = 272.991), por tanto cuanto mayor sea su valor,
mejor será la predicción mediante el modelo lineal. El p-valor asociado a F, en la columna
Sig, es menor que 0.001, menor que el nivel de significación α = 0.05, lo que conduce a
rechazar la hipótesis nula, es decir existe una relación lineal significativa entre Y y X.
Esto indica que es válido el modelo de regresión considerado, en este caso el modelo
lineal simple. Sin embargo, esto no significa que este modelo sea el único válido, puesto
que pueden existir otros modelos también válidos para predecir la variable dependiente.
La siguiente tabla muestra las estimaciones de los parámetros del modelo de regresión
lineal simple, la ordenada en el origen, ß0=375.252 y la pendiente ß1= 0.036
Por tanto, la ecuación de la recta estimada o ajustada es: y =375.252 + 0.036 x. Así mismo,
en esta tabla se presentan los resultados de los dos contrastes individuales de la
significación de cada uno de estos parámetros
El primero de estos contrastes carece de interés en la mayoría de los casos ya que raramente el
punto de corte de la recta de regresión con el eje de ordenadas (ordenada en el origen) será el
punto (0,0). Además dicho punto de corte carece de significado casi siempre. En nuestro caso, la
interpretación de ß0 indica el valor de Y que correspondería a un valor de X igual a 0.
El segundo contraste, el contraste de la pendiente de la recta, es una alternativa equivalente al
contraste que acabamos de comentar en la Tabla ANOVA. El estadístico de contraste que aparece
en la columna t vale 4.199 tiene un p-valor asociado, columna Sig, menor que 0.001, menor que
el nivel de significación &alpha = 0.05 que conduce al rechazo de la hipótesis nula y podemos
afirmar que existe una relación lineal significativa entre Y y X.
En la última columna de la tabla se muestran los intervalos de confianza para ß0 y ß1, al 95%.
El intervalo para ß1 es (0.018, 0.054), puesto que el cero no pertenece al intervalo, hay evidencia
empírica para concluir que X influye en Y y por tanto al nivel de confianza del 95% el parámetro
ß1 no podría considerarse igual a cero.
Validación y diagnosis del modelo
En este apartado vamos a comprobar que se verifcan los supuestos del modelo de regresión lineal
(normalidad, homocedasticidad (igualdad de varianzas) y linealidad) estos supuestos resultan
necesarios para validar la inferencia respecto a los parámetros. Utilizaremos el analisis de los
residuos para realizar los contrastes a posteriori de dichas hipótesis del modelo. Los residuos se
definen como la diferencia entre el valor observado y el valor predicho por el modelo.
Normalidad
El análisis de normalidad de los residuos lo realizaremos gráficamente (Histograma y
gráfico de probabilidad normal) y analiticamente (Contraste de Kolmogorov-Smirnov)
Histograma
Representaremos los residuos mediante un histograma superponiendo sobre él una curva
normal de media cero. Si los residuos siguen un distribución normal las barras del
histograma deberán representar un aspecto similar al de dicha curva.
En primer lugar se guardan los residuos tipificados (realizado anteriormente), para ello
en el Cuadro de diálogo de Analizar/Regresión/Lineal… se pulsa el botón Guardar… y
en Residuos elegimos Tipificados. Clik Continuar y Aceptar.
En la ventana del Editor de datos se ha creado una variable con el nombre ZRE_1.
A continuación representamos el histograma, para ello elegimos Gráfico/Cuadros de
diálogo antiguos/Histograma…y en la ventana emergente seleccionamos la variable que
representa los residuos tipificados y marcamos la opción Mostrar curva normal
Se pulsa Continuar y Aceptar y se muestra el siguiente histograma con la curva normal
superpuesta. Podemos apreciar, en este gráfico, que los datos no se aproximan
razonablemente a una curva normal, puede ser consecuencia de que el tamaño muestral
considerado es muy pequeño (Esta representación no es aconsejable en tamaños
muestrales pequeños).
Gráfico probabilístico normal
Es el procedimiento gráfico más utilizado para comprobar la normalidad de un conjunto
de datos. Para obtener dicho gráfico seleccionamos Analizar/Estadísticos
descriptivos/Gráficos Q-Q… en el Cuadro de diálogo resultante se selecciona la
variable que representa los residuos tipificados
Se muestra el Gráfico siguiente que representa las funciones de distribución teórica y
empírica de los residuos tipificados. En el eje de ordenadas se representa la función
teórica bajo el supuesto de normalidad y en el eje de abcisas, la función empírica.
Desviaciones de los puntos del gráfico respecto de la diagonal indican alteraciones de la
normalidad. Observamos la ubicación de los puntos del gráfico, estos puntos se
aproximan razonablemente bien a la diagonal lo que confirma la hipótesis de normalidad.
Contraste de normalidad: Prueba de Kolomogorov-Smirnov
El estudio analítico de la normalidad de los residuos lo realizaremos mediante el contraste
no-paramétrico de Kolmogorov-Smirnov. Seleccionamos Analizar/Pruebas no
paramétricas/Cuadros de diálogos antiguos/K-S de 1 muestra…
en el Cuadro de diálogo resultante se selecciona la variable que representa los residuos
tipificados
La salida correspondiente la muestra la siguiente tabla
Esta tabla muestra la mayor diferencia entre los resultados esperados en caso de que los
residuos surgieran de una distribución normal y los valores observados. Se distingue entre
la mayor diferencia en valor absoluto, la mayor diferencia positiva y la mayor diferencia
negativa. Se muestra el valor del estadístico Z (0.861) y el valor del p-valor
asociado (0.448). Por lo tanto no se puede rechazar la hipótesis de normalidad de los
residuos.
Homocedasticidad
Comprobamos la hipótesis de homogeneidad de las varianzas gráficamente representando los
residuos tipificados frente a los tiempos de incubación estimados tipificados. El análisis de este
gráfico puede revelar una posible violación de la hipótesis de homocedasticidad, por ejemplo si
detectamos que el tamaño de los residuos aumenta o disminuye de forma sistemática para algunos
valores ajustados de la variable Y, si observamos que el gráfico muestra forma de embudo… Si
por el contario dicho gráfico no muestra patrón alguno, entonces no podemos rechazar la hipótesis
de igualdad de [Link] selecciona Analizar/Regresión/Lineal… se pulsa el
botón Gráficos… y en el Cuadro de diálogocorrespondiente se selecciona la
variable *ZRESID para el eje Y (dicha variable representa los residuos tipificados) y la
variable *ZPRED (variable que representa los valores predichos tipificados) para el eje X
Se pulsa Continuar y Aceptar y se muestra el siguiente gráfico
Si trazamos una línea horizontal a la altura de 0, la variación de los residuos sobre esta
línea, si las varianzas son iguales, debería ser semejante para los diferentes valores de Y.
En el gráfico podemos observar, razonablemente, dicho comportamiento si exceptuamos
algún residuo atípico que está por encima de 2. No apreciamos tendencia clara en este
gráfico, los residuos no presentan estructura definida respecto de los valores predichos
por el modelo por lo que no debemos rechazar la hipótesis de homocedasticidad.
Este mismo gráfico resulta muy útil para detectar indicios de falta de adecuación del
modelo propuesto a los datos, posibles desviaciones de la hipótesis de linealidad. Si
observamos trayectorias de comportamiento no aleatorio esto es indicio de que el modelo
propuesto no describe adecuadamente los datos.
Independencia de los residuos: Contraste de Durbin-Watson
La hipótesis de independencia de los residuos la realizaremos mediante el contraste de Durbin-
Watson. Para ello se selecciona Analizar/Regresión/Lineal… y en la ventana emergente
pulsamos el botón Estadísticos… En el Cuadro de diálogo resultante elegimos en Residuos
Durbin-Watson y hacemos Clik en Continuar y Aceptar
SPSS proporciona el valor del estadístico de Durbin-Watson pero no muestra el p-valor
asociado por lo que hay que utilizar las tablas correspondientes. El estadístico de Durbin-
Watson mide el grado de autocorrelación entre el residuo correspondiente a cada
observación y la anterior. Si su valor está próximo a 2, entonces los residuos están
incorrelados, si se aproxima a 4, estarán negativamente autocorrelados y si su valor está
cercano a 0 estarán positivamente autocorrelados. En nuestro caso, toma el
valor 1.747, próximo a 2 lo que indica la incorrelación de los residuos.
El Diagrama de dispersión y el valor de R cuadrado (0.481), nos muestra que el ajuste
lineal no es satisfactorio por lo que se deben considerar otros modelos.
Regresión Cuadrática y Correlación
Para ajustar un modelo cuadrático o parabólico, y = b0 + b1 x + b2 x^2, se
selecciona Analizar/Regresión/Estimación curvilínea…
Se muestra la siguiente ventana
Se sitúan las variables X e Y en su campo correspondiente y se marca en Modelos la
opción Cuadrático. Para incluir en el modelo el término constante (b0) se deja marcada
la opción de Incluir constante en la ecuación. Si se desea obtener el gráfico de la función
ajustada junto con la nube de puntos hay que dejar marcada la opción de Representar los
modelos.
Se pulsa Aceptar y se obtienen las siguientes salidas
El
modelo ajustado tiene la siguiente expresión y = 442.883 – 0.007 x + 6.64E-006 x^2.
La representación gráfica de la función ajustada junto con el diagrama de dispersión es:
Se aprecia que la función curvilínea se ajusta moderadamente al diagrama de dispersión.
Para comparar las gráficas del ajuste lineal y del ajuste parabólico, se tienen que dejar
seleccionados ambos modelos en la ventana de Estimación curvilínea. Se
pulsa Aceptar y se obtienen los siguientes resultados
La
comparación del ajuste de ambos modelos se puede realizar a partir de los valores del
coeficiente de determinación de cada uno de ellos, en este caso R cuadrado (lineal) =
0.481 y R cuadrado (cuadrático) = 0.488. Los resultados en el caso lineal son un poco
menos satisfactorios que el cuadrático.
Se aprecia, en el gráfico que el modelo cuadrático (línea discontinua) se aproxima un
poco mejor a la nube de puntos que el modelo lineal (línea continua).
También podemos realizar la comparación del ajuste de los dos modelos a partir de las
varianzas residuales. Para ello se debe marcar en la ventana de Estimación curvilínea la
opción Mostrar tabla de ANOVA
Y se muestran los siguientes resultados:
Para el modelo lineal
Para el modelo cuadrático
Los resultados en el caso lineal son un poco menos satisfactorios.
En la Tabla ANOVA se muestra un p-valor = 0.002 menor que el nivel de significación
α = 0.05, por lo que se rechaza la hipótesis nula de no regresión curvilínea. Conviene
puntualizar que la elección de un modelo de regresión debe tener en cuenta no sólo la
bondad del ajuste numérico sino también la adecuación gráfica de los datos al mismo y,
finalmente, su adecuación o explicación biológica.
Ejercicios Propuestos
Ejercicio Propuesto 1
Se realiza un estudio para establecer una ecuación mediante la cual se pueda utilizar la
concentración de estrona en saliva (x), para predecir la concentración de estrona en
plasma libre (y). Se obtuvieron los siguientes datos de 14 hombres sanos:
X 7,4 7,5 8,5 9 9 11 13 14 14,5 16 17 18 20 23
Y 30 25 31,5 27,5 39,5 38 43 49 55 48,5 51 64,5 63 68
Se pide:
a) Diagrama de dispersión
b) Recta de regresión de la concentración de estrona en plasma libre en función de la
concentración de estrona en saliva. Estudiar la bondad del ajuste
c) Regresión parabólica. Estudiar la bondad del ajuste.
DISTRIBUCIONES DE PROBABILIDAD:
BINOMIAL, POISSON Y NORMAL
Objetivos
1. Identificar distribuciones
2. Calcular probabilidades de distribuciones
Función masa de probabilidad
Función de distribución
3. Calcular cuantiles
4. Generar valores aleatorios de una distribución determinada.
Introducción
En la teoría de la probabilidad existen muchos modelos teóricos que resultan de utilidad
en una gran variedad de situaciones prácticas. En esta práctica se consideran tres modelos
teóricos: Binomial, Poisson y Normal. Para cada uno de ellos se obtiene la función masa
de probabilidad, la función de distribución y se calculan cuantiles. Por último, se genera
una muestra aleatoria de un modelo determinado.
El estudio de los modelos teóricos de probabilidad con SPSS se realiza aplicando ciertas
funciones desde el menú Transformar/Calcular variable…
IMPORTANTE: Para ello es necesario activar el Editor de datos, es decir, abrir algún
fichero de datos o bien introducir algún número en una casilla, de otra forma aparece
el siguiente mensaje de error.
Introducimos un número en una casilla, por ejemplo el número 1
A continuación, se elige en el menú principal Transformar/Calcular variable… como
resultado de esta acción se muestra el siguiente Cuadro de diálogo
Donde se pueden realizar las siguientes acciones:
Calcular valores para las variables numéricas o de cadena (alfanuméricas).
Crear nuevas variables o bien reemplazar los valores de las variables existentes. Para las
nuevas variables, también se puede especificar el tipo y la etiqueta de variable.
Calcular valores de forma selectiva para subconjuntos de datos basándose en condiciones
lógicas.
Utilizar más de 70 funciones preincorporadas, incluyendo funciones aritméticas,
funciones estadísticas, funciones de distribución y funciones de cadena.
En Variable de destino se introduce el nombre de la variable que contendrá el resultado
de la operación elegida. A la izquierda de este cuadro de diálogo se muestra una casilla
donde aparecen las variables del Editor de datos, en nuestro caso Var00001.
En Expresión numérica se escribe la funciónque hay que calcular. Estas expresiones
pueden ser básicas, para lascuales se utiliza directamente el teclado, o los botones que se
muestran debajode esta casilla,
o bien expresiones predeterminadas que están incluidas en SPSS, que se accede a ellas a
través de Funciones y variables especiales, habiendo elegido previamente algún Grupo
de funciones. Entre estas funciones se encuentran aquellas que se van a utilizar para
calcular probabilidades, percentiles y generación de números aleatorios de determinados
modelos teóricos de probabilidad; concretamente los modelos Binomial, Poisson y
Normal.
Función masa de probabilidad
Una variable aleatoria no está perfectamente definida si no se conocen los valores que
puede tomar (recorrido), pero dichos valores son impredecibles. Puesto que el
comportamiento de una variable aleatoria está gobernado por el azar, debemos determinar
dicho comportamiento en términos de probabilidades. Para ello se utilizan dos funciones:
la Función Masa de Probabilidad y la Función de Distribución.
La función masa de probabilidad de una variable aleatoria discreta es una función
que a cada valor posible de dicha v.a. le asigna una probabilidad. Así en los ejemplos:
Ejemplo. La v.a. X = “Cara superior de una moneda ” puede tomar los valores X={1, 0}
con probabilidades P(X)={1/2, 1/2}. Así, la probabilidad de que la v.a.
X tome el valor 1, que se denota por P[X=1], vale 1/2 (P[X=1]=1/2) y que
X tome el valor 0, que se denota por, P[X=0], vale 1/2 (P[X=0]=1/2).
Ejemplo. La v.a. X = “Máximo de los dos números obtenidos” puede tomar los
valores X={1, 2, 3, 4, 5, 6} con probabilidades P(X)={1/36, 3/36, 5/36, 7/36, 9/36, 11/36}.
Así, por ejemplo, P[X=2]=3/36 o P[X=6]=11/36.
la Función Masa de Probabilidad de la variable aleatoria discreta X, se denota por pi, y
se define como la probabilidad de que la v.a. X tome un valor xi, pi=P[X=xi], si verifica
las siguientes propiedades:
pi ≥ 0 ∀i
En una variable aleatoria continua no tiene sentido determinar una función, como en
las [Link]. discretas, que asigne a cada valor posible de dicha v.a. una probabilidad; puesto
que la v.a. continua puede tomar infinitos valores y la probabilidad de que la v.a. tome un
valor determinado vale cero. Por ello, en el caso continuo definiremos una función que
nos permita calcular la probabilidad de que la v.a. esté comprendida en un intervalo de
valores específico. Dicha función recibe el nombre de Función de Densidad de
probabilidad, y se denota por f(x).
La Función de Densidad de probabilidad, es una función definida para todos los
números reales tal que satisface las siguientes condiciones:
1. f(x) ≥ 0 (no negativa)∀x
2. (El área comprendida entre la gráfica de f y el eje x es igual a 1)
3. (Para cualquier valor real entre los números a y b, P[a < X < b]
representa el área comprendida entre la gráfica de f(x), el eje OX y las rectas x=a y x=b).
Para obtener, en SPSS, valores de la función masa de probabilidad y de la función de
densidad de probabilidad de una distribución específica, una vez seleccionado en el menú
principal Transformar/Calcular Variable, en el cuadro de diálogo se selecciona,
en Grupo de funciones, la opción FDP y FDP no centrada.
Esta opción, FDP y FDP no centrada, dado un valor de la variable, permite obtener:
Si la v.a. es discreta, la probabilidad de que la variable sea igual a dicho valor en el
modelo especificado. Se necesita conocer el valor de la variable y los parámetros que
determinan al modelo.
Si la v.a. es continua, la densidad de probabilidad del modelo especificado, en el caso de
la distribución Normal, con la media y desviación típica especificadas.
En Funciones y variables especiales se selecciona la distribución correspondiente:
[Link](c, prob): Numérico. Devuelve como resultado la probabilidad de
que un valor de la distribución de Bernouilli, con el parámetro de probabilidad
dado sea igual a c, es decir la probabilidad de que la variable X sea igual a c, P[X = c],
siendo X una variable aleatoria con distribución Bernouilli de parámetros 1 y prob.
[Link](c, n, prob): Numérico. Devuelve como resultado la probabilidad de que
el número de éxitos en n ensayos, con probabilidad de éxito p en cada uno de ellos,
sea igual a c. Es decir, la probabilidad de que la variable X sea igual a c, P[X = cant],
siendo X una variable aleatoria con distribución Binomial de
parámetros n y prob. Cuando n es 1 el valor es el mismo que el de [Link]
[Link](c, media): Numérico Devuelve como resultado la probabilidad de que
un valor de la distribución de Poisson, con el parámetro de media o tasa especificado,
sea igual a c. Es decir, probabilidad de que la variable X sea igual a c, P[X = cant],
siendo X una variable aleatoria con distribución de Poisson de parámetro media.
[Link](cant, media, desv_tip): Numérico. Devuelve como resultado la
densidad de probabilidad de la distribución Normal, con la media y desviación típica
especificada, en c.
Función de distribución
Se define la Función de Distribución de la variable aleatoria X, y se denota por F{X},
como la probabilidad de que la v.a. X tome un valor menor o igual que x
Es decir, F{X} es una función de los números reales, R, en el intervalo [0,1]
La variable aleaoria discreta está caracterizada por la función masa de probabilidad.
Conocidos los valores pi se puede conocer la función de distribución. En efecto,
Propiedades
P1) F{X}(.) es una función no-decreciente
P2) F{X}(.) es continua a la derecha
P3) F{X}(+∞) = +1 y F{X}(-∞) = 0
P4) P[x1 < X ≤ x2] = F(x2) – F(x1)
P5) P[X > x] = 1 – F(x)
Dada una variable aleatoria continua X, recibe el nombre de Función de Distribución, y
se denota por F{X} (o F cuando en el contexto está claro a la v.a. que se refiere), la
función F: R→ [0,1] definida por:
La función de densidad y la función de distribución de una v.a. continua están
relacionadas:
Por lo tanto se verifica:
1. P[a < X < b] = F(b) – F(a)
2. P[X < a] = F(a)
3. P[X > b] = 1 – F(b)
La función de distribución es monótona no-decreciente, continua por lo menos a la
derecha y tal que
Se comprueba fácilmente que si X es una v.a. continua entonces la probabilidad del
suceso X igual a constante es cero, P[X = a] = 0, aunque no es el suceso imposible. En
efecto,
Para obtener valores de la función de distribución de un determinado modelo, en SPSS, se
selecciona en Grupo de funciones la opción FDA y FDA no centrada. Dado un valor
de la variable, permite obtener la probabilidad de que la variable sea menor o igual a dicho
valor en el modelo especificado. Se necesita conocer el valor de la variable y los
parámetros que determinan al modelo. Y en Funciones y variables especiales se
selecciona la distribución correspondiente:
[Link](c, prob): Numérico. Devuelve como resultado la probabilidad
acumulada de que un valor de la distribución de Bernouilli, con el parámetro de
probabilidad dado, sea menor o igual que c. Es decir, la probabilidad de que la
variable X sea menor o igual que c, P[X ≤ c], siendo X una variable aleatoria con
distribución de Bernouilli de parámetros 1 y prob.
[Link](c, n, prob): Numérico. Devuelve como resultado la probabilidad
acumulada de que el número de éxitos en n ensayos, con probabilidad de éxtio p en
cada uno de ellos, sea menor o igual que c. Es decir, la probabilidad de que la
variable X sea menor o igual que c, P[X ≤ cant], siendo X una variable aleatoria con
distribución Binomial de parámetros n y prob. Cuando n es 1 el valor es el mismo que el
de [Link]
[Link](c, media): Numérico. Devuelve como resultado la probabilidad
acumulada de que un valor de la distribución de Poisson, con el parámetro de media
o tasa especificado, sea menor o igual que c. Es decir, la probabilidad de que la
variable X sea menor o igual que c, es decir, P[X ≤ cant], siendo X una variable aleatoria
con distribución de Poisson de parámetro
media.
[Link](c, media, desv_típ): Numérico. Devuelve como resultado la
probabilidad acumulada de que un valor de la distribución Normal, con la media y
desviación típica especificadas, sea menor o igual que c. Es decir, la probabilidad de
que la variable X sea menor o igual que c, P[X ≤ cant], siendo X una variable aleatoria
con distribución Normal de parámetros media y desv_típ.
Calcular cuantiles
Para calcular cuantiles de una distribución específica se selecciona en Grupo de
funciones la opción GL inversos. Dada una probabilidad acumulada, permite obtener el
valor de la variable que acumula dicha probabilidad en un modelo determinado. Se
necesita conocer la probabilidad acumulada y los parámetros del modelo.
[Link](p, media, desv_típ): Numérico. Devuelve como resultado el valor de
la distribución Normal de parámetros media y desv_típ especificadas, cuya
probabilidad acumulada es p, es decir, calcula un valor x tal que P[X ≤ x] = p, siendo X una
variable aleatoria con distribución Normal de parámetros media y desv_típ.
Generar valores aleatorios de una distribución
determinada
Para generar un conjunto de valores aleatorios procedentes de un modelo determinado se
selecciona en Grupo de funciones la opción Números aleatorios. El número de valores
generados dependerá del número de filas que se tengan activas en el Editor de datos, por
lo que se tienen que activar tantas filas como números aleatorios se quieran generar. Así
[Link](p): Numérico. Devuelve como resultado un valor aleatorio de una
distribución de Bernouilli con el parámetro de probabilidad p especificado.
[Link](n, p): Numérico. Devuelve como resultado un valor aleatorio de una
distribución Binomial con el número de intentos n y el parámetro de probabilidad p
especificados.
[Link](media): Numérico. Devuelve como resultado un valor aleatorio de una
distribución de Poisson de parámetro media o tasa especificado.
[Link](media, desv_típ): Numérico. Devuelve como resultado un valor
aleatorio de una distribución Normal de parámetros media y
desv_típ especificadas.
Supuesto práctico 1
El delegado de zona de una casa dedicada a la fabricación de calculadoras electrónicas
vende, el mismo día a distintas empresas de una misma localidad, 5 máquina iguales. La
probabilidad de que este tipo de calculadoras estén en funcionamiento 3 años después es
0,8. Calcular la probabilidad de que:
a) Las cinco calculadoras estén fuera de servicio 3 años más tarde
b) Estén en servicio 3 años más tarde
c) Dos calculadoras a lo sumo estén fuera de servicio
d) Tres calculadoras estén fuera de servicio
e) Generar una muestra de tamaño 15.
Solución
Suceso éxito: “ Máquina que funciona tres años después” => P[éxito] = 0.8
Se define la siguiente variable aleatoria: X = ”Nº de máquinas que funcionan tres años
después de 5 máquinas”. Esta variable aleatoria tiene distribución Binomial de
parámetros n = 5 y prob = 0.8.
Nota: Recordar que es necesario activar el Editor de datos, es decir, abrir algún fichero
de datos o bien introducir algún número en una casilla, de otra forma aparece un mensaje
de error.
a) Las cinco calculadoras estén fuera de servicio 3 años más tarde
P[todas las calculadores esten fuera de servicio] = P[X =0] = [Link](0,5,0.8)
Se pulsa Aceptar y Continuar
P[X =0] = 0.00032
b) Estén en servicio 3 años más tarde
P[todas las calculadores esten en servicio] = P[X =5]= [Link](5,5,0.8)
P[X =5] = 0.32768
c) Dos calculadoras a lo sumo estén fuera de servicio
P[Dos calculadoras a lo sumo estén fuera de servicio] = P[X ≥ 3] = 1- P[X < 3]= 1-
[Link](2,5,0.8)
d) Tres calculadoras estén fuera de servicio
P[Tres calculadoras estén fuera de servicio] = P[X = 2] = [Link](2,5,0.8)
P[X = 2] = 0.05120
e) Generar una muestra de tamaño 15
Nota: Recordar que para generar números aleatorios hay que activar tantas filas en
el Editor de datos como números aleatorios se quieren generar. En este caso 15.
Supuesto práctico 2
La probabilidad de que un individuo sufra reacción al inyectarle un determinado suero es
0.1.
1. Si se inyecta el suero a una muestra de 30 personas, calcular la probabilidad de que menos
de 2 sufran reacción
2. Calcular la probabilidad de que sufran reacción entre 33 y 50 personas de una muestra de
400.
Solución
A cada individuo al que se le administra el suero sufre o no reacción independientemente
del resto, por lo tanto se tiene que:
Número de individuos que se sufren reacción en una muestra de n individuos se
distribuye según una Binomial de parámetros n y p
1. Si se inyecta el suero a una muestra de 30 personas, calcular la probabilidad de
que menos de 2 sufran reacción
X: {Número de individuos que sufren reacción}; X→B(30, 0.1)
P[X < 2] = [Link](1,30,0.1)
P[X < 2] = P[X = 0] + P[X =1] = 0.830537
3. Calcular la probabilidad de que sufran reacción entre 33 y 50 personas de
una muestra de 400.
Y: {Número de individuos que sufren reacción de una muestra de 400}; Y→B(400,
0.1)
n = 400 > 10
np = 40 > 5
n(1- p) = 360 > 5
Por lo tanto
P[33 < X < 50] = P[X < 50] – P[X < 33] = [Link](49,40,6)
– [Link](33,40,6)
P[33 < X < 50] = 0.830537
Supuesto práctico 3
Se sabe por experiencia que la altura de la población de pino albar (Pinus sylvestris) sigue
una distribución normal de media 25 metros y desviación típica 2.5 metros. Se pide:
1. Calcular la probabilidad de que un pico albar tenga una altura inferior a 24.8 metros
2. Calcular la altura máxima del 16.6% de los pinos con menor altura.
Solución
X: {Altura del pino Albar}; X→N(25, 2.5)
1. Calcular la probabilidad de que un pino Albar tenga una altura inferior a 24.8
metros
P[X < 24.8] = [Link](24.8,25,2.5)
P[X < 24.8] = [Link](24.8,25,2.5) = 0.468118
2. Calcular la altura máxima del 16.6% de los pinos con menor altura.
P[X < x] = 0.166 = [Link](0.116,25,2.5)
P[X < x] = 0.166 ; x = 22.574766
Supuesto práctico 4
La concentración en plomo en partes por millón en la corriente sanguínea de un individuo
tiene una media de 0.25 y una desviación típica de 0.11. Supongamos que dicha
concentración sigue una ley Normal. Se pide:
1. Una concentración superior o igual a 0.6 partes por millón se considera extremadamente
alta. ¿Cuál es la probabilidad de que un individuo seleccionado aleatoriamente esté
incluido en esta categoría?
2. ¿Cuál es la concentración mínima del 30% de los individuos con mas concentración?
3. Determinar la mediana de esta distribución.
Solución
X: {Concentración en plomo}; X→N(0.25, 0.11)
1. Una concentración superior o igual a 0.6 partes por millón se considera
extremadamente alta. ¿Cuál es la probabilidad de que un individuo seleccionado
aleatoriamente esté incluido en esta categoría?
P[X ≥ 0.6] = 1- [Link](0.60,0.25,0.11)
P[X ≥ 0.6] = 0.00073176
2. ¿Cuál es la concentración mínima del 30% de los individuos con mas
concentración?
P[X < x] = 0.70 = [Link](0.70,0.25,0.11)
P[X < x] = 0.70; x = 0.307684
3. Determinar la mediana de esta distribución.
Mediana = Media = Moda = 0.25
Supuesto práctico 5
En un laboratorio se está estudiando el crecimiento de cierto cultivo, se supone que la
aparición de nuevas células sigue una ley de Poisson de media 16 células cada minuto.
Obtener:
1. La probabilidad de que en un minuto aparezcan al menos 10 células
2. La probabilidad de que aparezcan entre 10 y 20
Solución
X: {Aparición de nuevas celulas}; X→P(16)
1. La probabilidad de que en un minuto aparezcan al menos 10 células
P[X ≥ 10] = 1- [Link](10,16)
P[X ≥ 10] = 0.9226039
2. La probabilidad de que aparezcan entre 10 y 20
P[9 ≤ X ≤ 19] = [Link](19,16)– [Link](9,16)
P[9 ≤ X ≤ 19] = 0.7689502
INTERVALOS DE CONFIANZA
Objetivos
1. Obtener un intervalo de confianza para la media de una población normal.
2. Obtener un intervalo de confianza para la diferencia de medias de dos poblaciones
normales independientes.
3. Obtener un intervalo de confianza para la diferencia de medias de dos poblaciones normales
relacionadas.
Introducción
El objetivo de la estimación por intervalos de confianza es obtener un intervalo, en el
cual se encuentra el verdadero valor del parámetro con una determinada probabilidad.
Dicha probabilidad se denomina nivel de confianza (1−α), donde α es el nivel de
significación.
En término generales, la construcción de un intervalo de confianza para un parámetro
desconocido θ consiste en encontrar dos funciones de los valores muestrales
tales que
donde:
1- α recibe el nombre de coeficiente de confianza o nivel de confianza. Es la probabilidad de
que un intervalo de confianza contenga el verdadero valor del parámetro
α es un número pequeño comprendido entre 0 y 1, 0 < α <1 (usualmente próximo a 0). Es el riesgo
de que el intervalo no contenga el valor del parámetro a estimar θ, por lo que α recibe el nombre
de riesgo del error del intervalo, nivel del error del intervalo o nivel de significación del
intervalo.
reciben el nombre de límite inferior y superior de confianza, respectivamente
Este intervalo recibe el nombre Intervalo de confianza con coeficiente de confianza 1-
α. Se desea que el coeficiente de confianza sea próximo a la unidad y que la amplitud del
intervalo sea lo más pequeña posible.
SPSS proporciona intervalos de confianza para:
Media poblacional con varianza desconocida
Diferencia de medias en poblaciones independientes con varianzas desconocidas
Diferencia de medias en poblaciones relacionadas.
Intervalo de confianza para la media de una población normal
SPSS construye intervalos de confianza para la media en el caso de varianza
desconocida.
Intervalo de confianza para la media de una distribución N(μ, σ)
con varianza desconocida
Supongamos una muestra aleatoria, X1, X2, …, X{n}, de una distribución Normal con
media μ, y varianza σ², ambas desconocidas y vamos a hallar un intervalo de confianza
para la media poblacional μ. Para ello, consideremos la variable aleatoria.
Que tiene una distribución t-Student con n-1 grados de libertad.
Tenemos que determinar el valor del cuantil t{α/2; n-1} tal que.
También se puede expresar en función de la cuasidesviación típica muestral S.
Dado que se verifica la siguiente realción:
Tenemos la siguiente expresión del intervalo de confianza para μ
Por lo tanto, la probabilidad de que el intervalo aleatorio
o
Contenga el verdadero valor de la media μ es 1-α.
Para realizar un intervalo de confianza para la media de una población normal mediante
SPSS se selecciona, en el menú principal, Analizar/Estadísticos
descriptivos/Explorar…
Se muestra el siguiente Cuadro de diálogo
Donde la variable a analizar, en este caso VAR1, se pasa a la ventana Dependientes:
Por defecto SPSS calcula el intervalo de confianza a un nivel del 95%, para modificar
este nivel se pulsa Estadísticos…
Para obtener el intervalo se pulsa Continuar y seguidamente Aceptar.
Alternativamente este intervalo de confianza también puede obtenerse seleccionando en
el menú principal Analizar/Comparar medias/Prueba T para una muestra…
Se muestra el siguiente Cuadro de diálogo
Donde se pasa la variable a la ventana Contrastar variables: y en el campo Valor de
prueba se deja el valor 0 que viene por defecto (en la Práctica 6 sobre contrastes de
hipótesis se aclarará este valor)
El nivel de confianza se puede modificar pulsando el botón Opciones…
Para obtener el intervalo se pulsa Continuar y seguidamente Aceptar.
Supuesto práctico 1
En una muestra de 9 preparados de jugo de tomate se ha obtenido los siguientes datos del
contenido de vitamina C en mg/100 cc.
21,60; 19,72; 18,92; 23,01; 17,98; 22,06; 25,01; 21,98; 20,80
Supuesto que el contenido de vitamina C del jugo de tomate se distribuye normalmente.
Se pide:
a) Estimar el contenido medio, en vitamina C, del jugo de tomate
b) Calcular un intervalo de confianza al 95% para dicha cantidad.
Respuesta:
a) Estimar el contenido medio, en vitamina C, del jugo de tomate
El estimador pedido es la media muestral.
b) Calcular un intervalo de confianza al 95% para dicha cantidad.
Seleccionar en el menú principal Analizar/Comparar medias/Prueba T para una
muestra…
En el campo contrastar variables: se introduce la variable Conte_VitaminaC y en el
campo Valor de prueba se deja el valor 0 que viene por defecto. Se pulsa aceptar y se
obtienen las siguientes salidas.
Por lo tanto, hay un 95% de confianza de que el intervalo [19.5734, 22.8888] contenga
al contenido medio, en vitamina C, del jugo de tomate.
Intervalo de Confianza para la diferencia de medias en muestras
independientes
Dos muestras se dicen que son independientes cuando las observaciones de una de ellas
no condicionan a las observaciones de la otra.
Supongamos que X e Y son dos variables aleatorias independientes y tales que X→N(μX,
σX) e Y→N(μY, σY)
Sea (X1, X2, …, Xnx) una m.a.s. de tamaño nx extraída de la población N(N(μX, σX) y
denotamos por , a la media muestral y a la varianza muestral, respectivamente.
Sea (Y1, Y2, …, Yny) una m.a.s. de tamaño ny extraída de la población N(μY, σY) y
denotamos por , a la media muestral y a la varianza muestral, respectivamente.
Supongamos que interesa comparar las dos medias poblaciones, podemos construir un
intervalo de confianza para μX − μY para el caso de varianzas poblacionales
desconocidas. Entonces la variable aleatoria
donde
Por lo tanto, el intervalo de confianza para la diferencia de medias se determina de la
siguiente forma
SPSS construye intervalos de confianza para la diferencia de medias en el caso de
varianzas poblacionales desconocidas.
Para la realización de dichos intervalos los datos se deben introducir de la siguiente forma:
Se crean dos variables, una de ellas contiene todas las observaciones y la otra variable es
una variable indicadora del grupo al que pertenece cada uno de los valores observados.
Se selecciona, en el menú principal, Analizar/Comparar medias/Prueba T para
muestras independientes…
Se muestra el siguiente Cuadro de diálogo
Se introduce en el campo Contrastar variables: la variable que contiene los valores
observados y en el campo Variable de Agrupación: la variable que indica la muestra a
la que pertenece cada uno de los valores.
A continuación se definen los dos grupos que determinan cada una de las muestras, para
ello se pulsa el botón Definir grupos…
Se introducen los valores asignados a cada muestra y se pulsa Continuar. El nivel de
confianza, se puede modificar en Opciones..
Se pulsa Continuar y Aceptar
Supuesto práctico 2
Dos laboratorios A y B realizan determinaciones de nicotina en 4 unidades de tabaco, con
los resultados siguientes:
Lab. A: 16, 14, 13, 17 Lab. B: 18, 21, 18, 19
Suponiendo que las dos poblaciones examinadas son normales e independientes con igual
varianza, estimar la diferencia del contenido medio en nicotina del tabaco a un nivel de
confianza del 95%.
Respuesta:
Se introducen los datos
Se selecciona, en el menú principal, Analizar/Comparar medias/Prueba T para
muestras independientes…
Se pulsa Definir grupos…
Se introducen los valores asignados a cada muestra y se pulsa Continuar y Aceptar. Se
obtienen las siguientes salidas
En este caso la prueba de Levene nos muestra un p-valor igual a 0.356, al ser mayor que
el nivel de significación 0.05, indica que no se debe rechazar la igualdad de varianzas con
un nivel de confianza del 95%. Por tanto, el intervalo de confianza resultante es aquel en
el que “Se han asumido varianzas iguales” (-6.825, -1.175). De este resultado se deduce
que el contenido medio de nicotina difiere de un laboratorio a otro, (el intervalo no
contiene al 0), siendo dicho contenido mayor en el laboratorio B que en laboratorio A.
Intervalo de Confianza para la diferencia de medias en muestras
relacionadas
En las muestras apareadas, cada observación de una muestra está emparejado con una
observación de la otra muestra, por lo tanto consideramos parejas de valores (x,y).
Supongamos que X e Y son dos variables aleatorias tales que X→N(μX, σX) e Y→N(μY,
σY) y consideremos la diferencia de poblaciones D = X−Y. Entonces, D→N(μD, σD)
Se selecciona una muestra aleatoria de diferencias, Di = Xi−Yi ; i = 1, 2, ⋯, n
El valor medio de D es la diferencia de los valores medios de X e Y:
La varianza de D es:
Por lo tanto el problema original de realizar una inferencia sobre dos muestras se reduce
al problema de realizar la inferencia sobre una muestra que consiste en construir un
intervalo de confianza para la media de la población de diferencias. Para la realización de
este intervalo de confianza recurrimos a los métodos utilizados anteriormente. En
particular, construyamos el intervalo de confianza para μX−μY=μD. Para ello,
consideremos la variable aleatoria
que tiene una distribución t-Student con n−1 grados de libertad.
Tenemos que determinar el valor del cuantil tα/2;n−1 tal que
donde son la media muestral y la cuasidesviación típica muestral de la muestra de
diferencias, respectivamente.
Para realizar un intervalo de confianza para la diferencia de medias en muestras
relacionadas mediante SPSS.
En este caso las observaciones se introducen de forma que cada muestra esté en una
columna del Editor de Datos de SPSS
Se selecciona, en el menú principal, Analizar/Comparar medias/Prueba T para
muestras relacionadas…
Se muestra el siguiente Cuadro de diálogo
Se seleccionan simultáneamente los pares de variables que se desean comparar y se pasan
a Variables relacionadas:
En Opciones… se puede cambiar el nivel de confianza
Se pulsa Continuar y Aceptar.
Supuesto práctico 3
Se realiza un estudio, en el que participan 10 individuos, para investigar el efecto del
ejercicio físico en el nivel de colesterol en plasma. Antes del ejercicio se tomaron
muestras de sangre para determinar el nivel de colesterol de cada individuo. Después, los
participantes fueron sometidos a un programa de ejercicios. Al final de los ejercicios se
tomaron nuevamente muestras de sangre y se obtuvo una segunda lectura del nivel de
colesterol. Los resultados se muestran a continuación:
Construir un intervalo de confianza de μD para un nivel de confianza del 95%
Respuesta:
Se introducen los datos
Se selecciona, en el menú principal, Analizar/Comparar medias/Prueba T para
muestras relacionadas… Y en el cuadro de diálogo resultante se seleccionan
simultáneamente los pares de variables que se desean comparar y se pasan a Variables
relacionadas:
Se pulsa Aceptar y se muestran las siguientes salidas
Por lo tanto, podemos tener un 95% de confianza en que la diferencia media de niveles
de colesterol en plasma está entre -3.789 y 77.989. Es decir, podemos tener un 95% de
confianza de que el nivel medio de colesterol se reducirá como mínimo en 0.475 unidades.