Introducción a SPSS y análisis básico
Introducción a SPSS y análisis básico
TEMA 1
1.- INTRODUCCIN A SPSS El SPSS (Statistical Package for the Social Sciences) es un conjunto de programas orientados a la realizacin de anlisis estadsticos aplicados a las ciencias sociales. Con ms de 30 aos de existencia es, en la actualidad, el paquete estadstico con ms difusin a nivel mundial. El SPSS implementa una gran variedad de temas estadsticos en los distintos mdulos del programa. Nosotros utilizaremos solo el mdulo SPSS base, que incluye, entre otros, anlisis y presentacin de datos, comparacin de medias y anlisis de la varianza. En los siguientes apartados se hace una breve introduccin a los conceptos bsicos de este programa. Para una mejor exposicin de los mismos puede consultarse la Gua breve de SPSS.
1.1.- PASOS BSICOS EN EL ANLISIS Introducir los datos en SPSS. Es posible: o Introducir nuevos datos. o Abrir un archivo creado anteriormente. Los archivos de datos tienen extensin *.sav y formato SPSS. Para abrir un archivo de datos de este formato, seleccione en el men principal: Archivo/Abrir/Datos. Por defecto, SPSS dar una relacin de los archivos en su directorio con extensin *.sav. Busque y seleccione el archivo que se desee abrir. Adems de los archivos con este formato, SPSS puede abrir archivos de EXCEL, LOTUS 1-23, dBASE sin necesidad de convertirlos a un formato intermedio ni de introducir informacin sobre la definicin de los datos. Desde aplicaciones como Microsoft Excel tambin puede leer los encabezados de las columnas como nombres de variables. Para ello elija en los mens: Archivo/Abrir/Datos...seleccione Excel
(*.xls) de la lista desplegable Archivos de tipo, aparecer el cuadro de dilogo Apertura de origen de datos de Excel, que permite especificar si se incluyen los nombres de las variables en la hoja de clculo, as como las casillas que se desea importar. En Excel 5 o posterior, tambin se pueden especificar las hojas de clculo que se desea importar. Si los encabezados de las columnas no cumplen las normas de denominacin de variables de SPSS, se convertirn en nombres de variables vlidos y los encabezados originales de las columnas se guardarn como etiquetas de variable. Seleccionar un procedimiento estadstico para analizar los datos con el sistema de mens. Seleccionar las variables para el anlisis. Las variables que podemos usar en cada procedimiento se muestran en un cuadro de dilogo del que se seleccionan. Ejecutar el procedimiento y ver resultados. Los resultados aparecen en una ventana de resultados y se pueden guardar como archivos de extensin *.spo. Los grficos se pueden modificar en la ventana del editor de grficos.
1.2.- ENTORNO DE TRABAJO Existen diversos tipos de ventanas en SPSS. Nosotros, principalmente, utilizaremos dos: Editor de datos. Es la ventana que se abre automticamente cuando se inicia una sesin de SPSS. Muestra el contenido del archivo de datos actual. Con l, se pueden crear nuevos archivos o modificar los ya existentes. Visor de resultados. Todas las tablas, grficos y los resultados estadsticos se muestran en el visor. Puede editar resultados y guardarlos. Esta ventana se abre automticamente la primera vez que se ejecuta un procedimiento.
Ejemplo 1.- Abrir archivo de datos Datos de empleados.sav - Realizar el procedimiento: Analizar/ Estadsticos Descriptivos/ Descriptivos con la variable Salario Actual - Realizar lo mismo con la variable Meses desde el contrato. Adems de las distintas ventanas, existen un conjunto de elementos, comunes a todas ellas que configuran la apariencia general del SPSS: Barra de ttulos. Muestra el icono de SPSS, sigue con el nombre del fichero que estamos utilizando y el nombre de la ventana activa y termina con los botones de minimizar, maximizar y cerrar ventana. Barra de mens. Recoge las denominaciones de los mens de SPSS a travs de los cuales se pueden ejecutar todos los posibles comandos que proporciona el paquete. Barra de herramientas. Proporciona un acceso rpido y fcil a las tareas ms comunes de cada ventana de SPSS. El significado de cada icono puede verse situando el ratn sobre el propio icono. Barra de estado. Suministra informacin sobre el estado en que se encuentra SPSS.
1.3.- EDITOR DE DATOS El editor de datos proporciona dos vistas: Vista de los datos. Muestra los valores de datos reales o las etiquetas de valor definidas. Las funciones de la vista de datos son similares a las que se encuentran en aplicaciones de hojas de clculo, sin embargo, existen algunas diferencias: o Cada fila representa un caso u observacin (atencin en ejercicio 1). o Las columnas son variables. o Las casillas contienen valores numricos o de cadena. A diferencia de una hoja de clculo, las casillas del editor de datos no pueden contener frmulas. Vista de variables. Contiene descripciones de los atributos de cada variable del archivo de datos. Aqu: o Las filas son variables. o Las columnas son caractersticas de las variables.
Una vez que nos encontramos en la ventana de edicin de datos de SPSS podemos abrir un archivo de datos creado con anterioridad o crear un nuevo archivo. En el caso en que queramos crear un archivo de datos nuevo, el primer paso es el de definir las variables que formarn el archivo. Para definir una variable se pueden seguir dos procedimientos: Haciendo doble clic con el botn izquierdo del ratn cuando el puntero del mismo se encuentra situado en la palabra var del extremo superior de la columna (en vista de datos) Pulsando la pestaa de vista de variables.
El nombre debe comenzar por una letra. Los dems caracteres pueden ser letras, dgitos, puntos o los smbolos @, #, _ o $. Los nombres de variable no pueden terminar en punto. Se debe evitar acabar los nombres de variable con subrayado (para evitar conflictos con las variables creadas automticamente por algunos procedimientos). La longitud del nombre no debe exceder los 64 bytes. Normalmente, 64 bytes suelen equivaler a 64 caracteres en idiomas de un solo byte (por ejemplo, ingls, francs, alemn, espaol, italiano, hebreo, ruso, griego, rabe, tailands) y a 32 caracteres en los idiomas de dos bytes (por ejemplo, japons, chino, coreano).
No se pueden utilizar espacios en blanco ni caracteres especiales (por ejemplo, !, ?, y *). Cada nombre de variable debe ser nico; no se permiten duplicados. Las palabras reservadas no se pueden utilizar como nombres de variable. Las palabras reservadas son: ALL, AND, BY, EQ, GE, GT, LE, LT, NE, NOT, OR, TO, WITH. Los nombres de variable se pueden definir combinando de cualquier manera caracteres en maysculas y en minsculas, esta distincin entre maysculas y minsculas se conserva en lo que se refiere a la presentacin.
Cuando es necesario dividir los nombres largos de variable en varias lneas en los resultados, SPSS intenta dividir las lneas aprovechando los subrayados, los puntos y los cambios de minsculas a maysculas.
Una vez que se haya determinado el nombre de la variable, hay que definir sus especificaciones: Tipo. Especifica el tipo de datos que contiene la variable. Si se pulsa el botn tipo y luego los puntos suspensivos que aparecen en la casilla aparece un cuadro de dialogo. Los tipos ms usuales son numrico y cadena. Tipo de variable especifica los tipos de datos de cada variable. Por defecto se asume que todas las variables nuevas son numricas. Se puede utilizar Tipo de variable para cambiar el tipo de datos. El contenido del cuadro de dilogo Tipo de variable depende del tipo de datos seleccionado. Para algunos tipos de datos, hay cuadros de texto para la anchura y el nmero de decimales; para otros tipos de datos, simplemente puede seleccionar un formato de una lista desplegable de ejemplos. Los tipos de datos disponibles son los siguientes: Numrico. Una variable cuyos valores son nmeros. Los valores se muestran en formato numrico estndar. El Editor de datos acepta valores numricos en formato estndar o en notacin cientfica. Coma. Una variable numrica cuyos valores se muestran con comas que delimitan cada tres posiciones y con el punto como delimitador decimal. El Editor de datos acepta valores numricos para este tipo de variables con o sin comas, o bien en notacin cientfica. Los valores no pueden contener comas a la derecha del indicador decimal. Punto. Una variable numrica cuyos valores se muestran con puntos que delimitan cada tres posiciones y con la coma como delimitador decimal. El Editor de datos acepta valores numricos para este tipo de variables con o sin puntos, o bien en notacin cientfica. Los valores no pueden contener puntos a la derecha del indicador decimal. Notacin cientfica. Una variable numrica cuyos valores se muestran con una E intercalada y un exponente con signo que representa una potencia de base diez. El Editor de datos acepta para estas variables valores numricos con o sin el exponente. El exponente puede aparecer precedido por una E o una D con un signo opcional, o bien slo por el signo (por ejemplo, 123, 1,23E2, 1,23D2, 1,23E+2 y 1,23+2). Fecha. Una variable numrica cuyos valores se muestran en uno de los diferentes formatos de fecha-calendario u hora-reloj. Seleccione un formato de la lista. Puede introducir las fechas
utilizando como delimitadores: barras, guiones, puntos, comas o espacios. El rango de siglo para los valores de ao de dos dgitos est determinado por la configuracin de las opciones (en el men Edicin, seleccione Opciones y, a continuacin, pulse en la pestaa Datos). Dlar. Una variable numrica que se muestra con un signo dlar inicial ($), comas que delimitan cada tres posiciones y un punto como delimitador decimal. Se pueden introducir valores de datos con o sin el signo dlar inicial. Moneda personalizada. Una variable numrica cuyos valores se muestran en uno de los formatos de moneda personalizados que se hayan definido previamente en la pestaa Moneda del cuadro de dilogo Opciones. Los caracteres definidos en la moneda personalizada no se pueden emplear en la introduccin de datos pero s se mostrarn en el Editor de datos. Cadena. Una variable cuyos valores no son numricos y, por lo tanto, no se utilizan en los clculos. Los valores pueden contener cualquier carcter siempre que no se exceda la longitud definida. Las maysculas y las minsculas se consideran diferentes. Este tipo tambin se conoce como variable alfanumrica.
Nivel de medida. Puede especificar el nivel de medida como Escala (datos numricos de una escala de intervalo o de razn), Ordinal o Nominal. Los datos nominales y ordinales pueden ser de cadena (alfanumricos) o numricos.
nominal. Una variable puede ser tratada como nominal cuando sus valores representan categoras que no obedecen a una ordenacin intrnseca. Por ejemplo, el departamento de la compaa en el que trabaja un empleado. Son ejemplos de variables nominales: la regin, el cdigo postal o la confesin religiosa.
ordinal. Una variable puede ser tratada como ordinal cuando sus valores representan categoras con alguna ordenacin intrnseca. Por ejemplo los niveles de satisfaccin con un servicio, que vayan desde muy insatisfecho hasta muy satisfecho. Son ejemplos de variables ordinales: las puntuaciones de actitud que representan el nivel de satisfaccin o confianza y las puntuaciones de evaluacin de la preferencia.
escala. Una variable puede ser tratada como de escala cuando sus valores representan categoras ordenadas con una mtrica con significado, por lo que son adecuadas las comparaciones de distancia entre valores. Son ejemplos de variables de escala: la edad en aos y los ingresos en dlares.
Nota: Para variables de cadena ordinales, se asume que el orden alfabtico de los valores de cadena indica el orden correcto de las categoras. Por ejemplo, en una variable de cadena cuyos valores sean bajo, medio, alto, se interpreta el orden de las categoras como alto, bajo, medio (orden que no es el correcto). Por norma general, se puede indicar que es ms fiable utilizar cdigos numricos para representar datos ordinales. Anchura. Nmero de dgitos de los valores de esa variable. Columnas. Anchura de las columnas. Se puede especificar un nmero de caracteres para el ancho de la columna. Los anchos de columna tambin se pueden cambiar en la Vista de datos pulsando y arrastrando los bordes de las columnas. Los formatos de columna afectan slo a la presentacin de valores en el Editor de datos. Al cambiar el ancho de columna no se cambia el ancho definido de una variable. Si el ancho real y definido de un valor es ms ancho que la columna, aparecern asteriscos (*) en la ventana Vista de datos. Decimales. N de decimales de los datos.
Etiqueta. Puede asignar etiquetas de variable descriptivas de hasta 256 caracteres de longitud (128 caracteres en los idiomas de doble byte). Las etiquetas de variable pueden contener espacios y caracteres reservados que no se admiten en los nombres de variable.
Valores. Puede asignar etiquetas de valor descriptivas a cada valor de una variable. Este proceso es especialmente til si el archivo de datos utiliza cdigos numricos para representar categoras que no son numricas (por ejemplo, cdigos 1 y 2 para hombre y mujer). Las etiquetas de valor se guardan con el archivo de datos. No es necesario volver a definir las etiquetas de valor cada vez que se abre un archivo de datos. Las etiquetas de valor pueden ocupar hasta 120 bytes. Las etiquetas de valor no estn disponibles para las variables de cadena larga (variables de cadena de ms de 8 caracteres).
Perdidos. Valores perdidos define los valores de los datos definidos como perdidos por el usuario. Por ejemplo, es posible que quiera distinguir los datos perdidos porque un encuestado se niegue a responder de los datos perdidos porque la pregunta no afecta a dicho encuestado. Los valores de
datos que se especifican como perdidos por el usuario aparecen marcados para un tratamiento especial y se excluyen de la mayora de los clculos.
Las especificaciones de valores perdidos definidos por el usuario se guardan junto con el archivo de datos. No es necesario volver a definir los valores definidos como perdidos por el usuario cada vez que se abre un archivo de datos.
Se pueden introducir hasta tres valores perdidos (individuales) de tipo discreto, un rango de valores perdidos o un rango ms un valor de tipo discreto. Slo pueden especificarse rangos para las variables numricas. No se pueden definir valores perdidos para variables de cadena larga (variables de cadena de ms de ocho caracteres). Se considera que son vlidos todos los valores de cadena, incluidos los valores vacos o nulos, a no ser que se definan explcitamente como perdidos. Para definir como perdidos los valores nulos o vacos de una variable de cadena, escriba un espacio en blanco en uno de los campos debajo de la seleccin Valores perdidos discretos.
Alineacin. Alineacin de los datos (Izquierda, derecha o centro) Una vez definidas las variables, para la introduccin de los datos (en la pestaa vista de datos) habr que situar el cursor en la primera celda de la columna y comenzar a escribir los distintos valores, pulsando ENTER o movindonos con el cursor. Tambin podemos modificar datos ya creados: Insertar un nuevo caso entre los casos existentes. Seleccionar en la vista de datos, cualquier casilla debajo de la posicin donde se desea insertar el nuevo caso y Elegir los mens: Datos/Insertar Caso O el boton de la barra de herramientas O con el botn derecho del ratn elegir Insertar caso.
Insertar una nueva variable entre las variables existentes. Seleccionar en la vista de datos, una casilla de la variable a la derecha de la posicin donde se desea insertar la nueva variable y Elegir los menus: Datos/Insertar variable O el botn de la barra de herramientas
Mover variables. Si queremos mover una variable que est entre otras dos, en la vista de datos, podemos insertar un nueva variable en el lugar donde la queramos copiar, luego cortar de donde estaba y por ltimo pegar en la nueva variable insertada. Borrar algn caso o variable. Seleccionar previamente en la vista de datos las filas a borrar, las columnas o el rea y pulsar SUPR o Edicin/Borrar o con el botn derecho del ratn elegir Eliminar. Ir a un caso en el editor de datos. Elegir los mens: Datos/Ir al caso e introducir el nmero de fila o con el botn de la barra de herramientas. Para guardar un archivo de datos creado tendremos que situarnos en Archivo/Guardar como. Nos aparecer un cuadro de dilogo en el cual debemos indicar el nombre del archivo y el lugar donde queremos guardarlo. En el caso de que se trate de cambios en un archivo que ya ha sido guardado con anterioridad, solo tendremos que situarnos en Archivo/Guardar o con el botn de la barra de herramientas y el archivo se guardar con el mismo nombre y ubicacin que tena con anterioridad.
EJERCICIOS 1. La siguiente tabla nos muestra la edad de 16 clientes que compraron un determinado producto en una semana determinada. La variable edad es cuantitativa y mostramos sus valores, la variable sexo es cualitativa y utilizamos una variable numrica (escala nominal: 1, hombre; 2, mujer). Los datos son los siguientes: Hombres Mujeres Se pide: a. Crea un archivo con la definicin anterior de las variables y los datos y gurdalo con el nombre Edad.sav 32 50 32 80 42 61 55 49 37 30 61 21 48 43 37 34
b. Crea una nueva variable denominada Unidades compradas y dale los siguientes valores Hombres Mujeres Sitala entre las variables anteriores. 2. La siguiente tabla nos muestra los datos de los representantes de 16 empresas: SEXO Hombre Mujer Mujer Hombre Mujer Mujer Hombre Hombre Hombre Mujer Hombre Mujer Mujer Hombre Hombre Hombre Se pide: a. Crear un archivo de datos con el nombre Representantes, en el que debes incluir los datos de la tabla anterior, definiendo las variables de forma adecuada. b. Inserta un nuevo caso entre los existentes con estos valores: SEXO Hombre REGION DE PROCEDENCIA Catalua MESES COMO REPRESENTANTE 48 INGRESOS MENSUALES en 1500 REGION DE PROCEDENCIA Andaluca (1) Catalua (2) Madrid (3) Pas Valenciano (4) Galicia (5) Catalua (2) Pas Vasco (6) Andaluca (1) Madrid (3) Andaluca (1) Pas Vasco (6) Madrid (3) Galicia (5) Catalua (2) Andaluca (1) Galicia (5) MESES COMO REPRESENTANTE 60 72 48 36 60 24 36 48 84 84 48 36 24 12 16 10 INGRESOS MENSUALES en 1950 1235 2251 3581 1500 2500 5890 3510 2456 2474 3000 2958 1354 1100 3581 2456 1 1 1 5 1 1 2 1 1 2 1 2 2 1 1 1
10
c. Inserta una nueva variable que ser el estado civil de los representantes con los siguientes valores. soltero soltero casado soltero divorciado casado casado casado soltero soltero viudo casado casado casado soltero soltero divorciado d. Obtenga el nmero medio de meses como representante y los valores mximo, mnimo y
11
2.- CONTRASTES PARAMTRICOS En SPSS, los contrastes paramtricos que se pueden estudiar son aquellos que en las hiptesis hacen referencia a la media de una poblacin normal, cuando tenemos una muestra, dos independientes, o dos relacionadas. Se denominan prueba T, y nosotros estudiaremos: Prueba T para una muestra. Prueba T para dos muestras independientes. Prueba T para muestras relacionadas (apareadas) Analizar/Comparar medias/Medias Este procedimiento calcula los estadsticos: media, desviacin tpica, varianza, suma y nmero de individuos, para una o ms variables (Dependientes), para los distintos valores, niveles o categoras de una o ms variables (Independientes). Dentro de los cuadros de variables Dependientes e Independientes podemos insertar una o ms variables. En Opciones, podemos dejar por defecto: media, desviacin tpica y n de casos, o seleccionar otros.
Ejemplo 3.Archivo de datos: representantes.sav Variable dependiente: Ingresos mensuales Variable independientes: Sexo y Estado civil
Resumen del procesamiento de los casos Casos Excluidos N Porcentaje 0 0 ,0% ,0%
12
Ingresos mensuales * Sexo Ingresos mensuales Sexo hombre mujer Total Media 2902,40 2038,86 2546,82 N 10 7 17 Desv. tp. 1364,08 670,50 1186,23
Ingresos mensuales * Estado civil Ingresos mensuales Estado civil casado divorciado soltero viudo Total Media 2794,71 1500,00 2533,29 3000,00 2546,82 N 7 2 7 1 17 Desv. tp. 1604,64 ,00 840,30 , 1186,23
2.1- Analizar/Comparar medias/Prueba T para una muestra Con este procedimiento tratamos de comprobar si la media de una sola variable difiere o no de una constante, es decir, tratamos de contrastar la hiptesis nula H 0 : = 0 , bajo hiptesis de normalidad, con varianza desconocida y partiendo de una muestra aleatoria simple de la poblacin bajo estudio. En Contrastar variables introducimos la variable para la que queremos pedir que contraste si la muestra pertenece a una poblacin normal de media 0 , que es el valor que hay que introducir en Valor de prueba. En Opciones se puede: cambiar el nivel de confianza (por defecto es del 95%) con el que se desea obtener el intervalo de confianza para la diferencia entre la media muestral y la media poblacional (valor de prueba). Optar por dos formas diferentes de tratar los casos de valores perdidos: o Excluir casos segn anlisis. Esta opcin excluye del anlisis (de cada prueba T) los casos con valor perdido en la variable concreta que se est contrastando. o Excluir casos segn lista. Esta opcin excluye de todos los anlisis los casos con algn valor perdido en una cualquiera de las variables seleccionadas en la lista Contrastar variables.
13
Como resultado se obtienen dos tablas: o Tabla 1: Los estadsticos para una muestra: n de casos, media, desviacin tpica y error tpico de la media (desviacin tpica de la media muestral). o Tabla 2: Prueba para una muestra. t valor del estadstico usado en el contraste para los datos de la muestra. gl grados de libertad de la distribucin t-Student que sigue el estadstico de contraste. Sig (bilateral) valor que permite decidir la aceptacin o no de la hiptesis nula. Es la significacin muestral de la hiptesis nula, es decir, el p-valor. Si p , se acepta la hiptesis nula. Si p , se rechaza la hiptesis nula. Si realizamos un contraste unilateral, nuestro valor de p ser la mitad del que aparezca en el cuadro (que siempre es bilateral). Diferencia de medias entre la observada en la muestra y el valor que aparece en la hiptesis nula. Intervalo de confianza para la diferencia (de medias 0 ) es otra forma de comprobar si se verifica la hiptesis nula, ya que si 0 est en dicho intervalo, aceptamos la hiptesis nula.
Ejemplo 4.- Con el archivo de datos representantes.sav contrastar si la media de los ingresos mensuales es igual a 2500.
Tabla 1
Estadsticos para una muestra N Ingresos mensuales 17 Media 2546,82 Desviacin tp. 1186,23 Error tp. de la media 287,70
14
Tabla 2
Prueba para una muestra Valor de prueba = 2500 95% Intervalo de confianza para la diferencia Inferior Superior -563,08 656,73
gl 16
Notas: t16;0975=212.
( 46 '82 [ 2 '12 287 '7] , 46 '82 + [ 2 '12 287 '7]) = ( 563'08 , 656 '73) , salvo errores de redondeo.
Intervalo de confianza para la media : ( 2500 563'08 , 2500 + 656 '73)
Con este procedimiento se quiere comprobar si las medias poblacionales de dos poblaciones normales e independientes son iguales o no ( H 0 : x = y )
Para contrastar esta hiptesis existen distintos estadsticos segn las varianzas poblacionales sean
iguales o no, esto se estudia con la prueba de Levene, cuyo estadstico sigue una distribucin F-
Snedecor. Todo se realiza a la vez con slo definir el contraste. Al seleccionar este procedimiento, aparece un cuadro de dilogo en el que en Contrastar variables hay que colocar la/s variables cuantitativas que intervienen en el contraste, y en Variable de
agrupacin seleccionamos la variable que nos sirve para definir los dos grupos en la poblacin.
Dicha variable aparecer seguida de dos interrogantes, para que definamos los grupos de la variable que queremos que realice. Para ello pulsamos el botn Definir grupos. Hay dos opciones excluyentes:
Usar valores especificados. Tendremos que escribir un valor para el grupo 1 y otro para el 2. Los casos con otros valores quedan excluidos del anlisis. Punto de Corte. Podemos escribir un nmero que divida los valores de la variable de agrupacin en dos conjuntos.
15
En Opciones se puede:
Cambiar el nivel de confianza (por defecto es del 95%) con el que se desea obtener el
casos con valor perdido en la variable agrupacin o en la variable concreta que se est contrastando en ese anlisis.
o Excluir casos segn lista. Esta opcin excluye de todos los anlisis los casos con
algn valor perdido en la variable agrupacin o en una cualquiera de las variables seleccionadas en la lista Contrastar variables. Como resultado se obtienen dos tablas:
o Tabla 1: Los estadsticos para cada muestra: n de casos, media, desviacin tpica y
segn se verifique la igualdad o no de las varianzas, y para comprobarlo est la prueba de Levene, en la que F es el valor del estadstico de la prueba y sig es el pvalor. Esto aparece en las tres primeras columnas. Las restantes son la prueba T, que se interpreta igual que para una muestra.
mensuales medios para los hombres y las mujeres son iguales o no.
Tabla 1
Estadsticos de grupo Sexo hombre mujer N 10 7 Media 2902,40 2038,86 Desviacin tp. 1364,08 670,50 Error tp. de la media 431,36 253,42
Ingresos mensuales
16
Tabla 2
Prueba de muestras independientes Prueba de Levene para la igualdad de varianzas
Prueba T para la igualdad de medias 95% Intervalo de confianza para la diferencia Inferior Superior -332,36 -210,83 2059,45 1937,91
F Ingresos mensuales Se han asumido varianzas iguales No se han asumido varianzas iguales 1,662
Sig. ,217
t 1,539 1,726
gl 15 13,816
Nota:
t=
t=
17
La prueba T para dos muestras relacionadas permite contrastar hiptesis referidas a la diferencia entre dos medias relacionadas. Ahora se dispone de una poblacin de diferencias con media D obtenida al restar las
puntuaciones del mismo grupo de casos en dos variables diferentes o en la misma variable medida en dos momentos diferentes (de ah que se hable de muestras relacionadas). De esa
poblacin de diferencias se extrae una muestra aleatoria de tamao n y se utiliza la media YD de esas n diferencias para contrastar la hiptesis nula de que la media D de la poblacin de diferencias vale cero. Desde el punto de vista estadstico, este contraste es idntico al presentado
en el apartado Prueba T para una muestra.
Al seleccionar este procedimiento, aparece un cuadro de dilogo en el que en Variables relacionadas hay que trasladar el par de variables cuyas medias se desea comparar. Las variables deben trasladarse a esas listas por pares, es decir, es necesario marcar dos variables de la lista para que el botn flecha est activo. En Opciones se puede:
Cambiar el nivel de confianza (por defecto es del 95%) con el que se desea obtener el
T) los casos con valor perdido en cualquiera de las dos variables que estn siendo contrastadas.
o Excluir casos segn lista. Esta opcin excluye de todos los anlisis los casos con
algn valor perdido en cualquiera de las variables seleccionadas en la lista Variables relacionadas. Como resultado se obtienen tres tablas:
o Tabla 1: Los estadsticos para cada muestra: n de casos, media, desviacin tpica y error
tpico de la media.
o Tabla 2: Contiene el coeficiente de correlacin de Pearson entre ambas variables junto con
18
de correlacin se refiere al grado de parecido o variacin conjunta de dos o ms variables. El coeficiente de Pearson estudia el grado de relacin lineal existentes entre dos
variables. Toma valores entre -1 y 1: un valor de 1 indica relacin lineal perfecta positiva, un valor de -1 indica relacin lineal perfecta negativa (en ambos casos los puntos del correspondiente diagrama de dispersin se encuentran dispuestos en una lnea recta), un valor de 0 indica relacin lineal nula. Un coeficiente de correlacin alto no implica
causalidad, es decir, dos variables pueden estar linealmente relacionadas sin que una sea la causa de la otra. o Tabla 3: En la primera mitad incluye tres estadsticos referidos a las diferencias entre cada
par de puntuaciones: media, desviacin tpica y error tpico de la media. La siguiente columna contiene el intervalo de confianza para la diferencia de medias. La segunda mitad de la tabla informa sobre el valor del estadstico t, sus grados de libertad y el nivel crtico bilateral.
Tabla 1
Estadsticos de muestras relacionadas
Desviacin Media Par 1 Salario actual Salario inicial $34,419.57 $17,016.09 N 474 474 tp. $17,075.661 $7,870.638
Tabla 2
Correlaciones de muestras relacionadas
Correlacin ,880
Sig. ,000
19
Tabla 3
Diferencias relacionadas Error tp. de Media Desviacin tp. la media 95% Intervalo de confianza para la diferencia Inferior Par 1 Salario actual - Salario inicial $17,403.481 $10,814.620 $496.732 $16,427.407 Superior $18,379.555 35,036 473 ,000 t gl Sig. (bilateral)
Nota:
t=
20
EJERCICIOS 1. (T, una muestra) Los valores sobre las longitudes en milmetros de 50 filamentos de la
produccin de una mquina (que se supone normal) son los siguientes: 102 115 116 112 120 98 130 118 114 106 93 100 89 106 110 100 86 102 114 100 98 95 128 100 106 105 103 99 116 117 115 105 119 108 109 110 92 128 113 108 99 99 110 106 105 120 134 130 105 106
a. Crea un archivo con estos datos denominado filamentos.sav. b. Hallar un intervalo de confianza para la media de la produccin basado en esta muestra al
90% de confianza.
c. Contrastar la hiptesis nula de que la longitud media de los filamentos de la produccin es de
de dos granjas X e Y. Deseando estudiar la calidad de los productos recibidos se extraen dos muestras, una de cada granja (independientes), y se analiza el contenido de materia grasa, obteniendo los siguientes resultados: X 0.32 0.29 Y 0.28 0.29 0.30 0.32 0.32 0.31 0.29 0.32 0.31 0.33 0.29 0.33 0.32 0.29 0.32 0.31 0.29 0.30 0.28 0.33 0.31 0.30 0.29 0.33 0.32 0.30
a. Crea un archivo con estos datos denominado granjas.sav. b. Suponiendo normal la variable estudiada (contenido de materia grasa) en ambas poblaciones
medias.
3. (T, dos muestras independientes) Con el archivo de datos Representantes.sav, comparar los
21
4. (T, dos muestras independientes) Con el archivo de datos Edad.sav, comparar la edad entre los
de la concentracin de testosterona en la orina. Sean A y B dichos mtodos. Para la comparacin, dispone de 9 muestras de orina (los valores vienen dados en miligramos contenidos en la orina): Muestra n A (mg/muestra) B (mg/muestra) 1 0,47 0,41 2 1,02 1,00 3 0,33 0,46 4 0,70 0,61 5 0,94 0,84 6 0,85 0,87 7 0,39 0,36 8 0,52 0,52 9 0,47 0,51
Crea un archivo con estos datos denominado testosterona.sav. Compara la concentracin media de testosterona determinada por ambos mtodos.
22