Ejercicio 2: Tabulación, representación gráfica y medidas de resumen
ALUMN@ (nombre y apellidos):
Completa la tabla Adjunta en función de la definición
conceptual y operativa de las variables efectuadas en el
ejercicio 1
variable En la tabulación ¿Qué ¿Qué medidas
o distribución de representación de posición
frecuencias de la gráfica utilizarías? central y de
variable, ¿Qué dispersión
frecuencias calcularías?
representarías?
Edad Todas Barras/Sectores Media
Sexo Todas Barras/Sectores Mediana
Nivel de Estudios Todas Barras/Sectores Mediana
Peso Agrupadas Puntos/CajasyBigotes Media
Talla Agrupadas Puntos/CajasyBigotes Media
Índice de masa Agrupadas Puntos/CajasyBigotes Media
Corporal
Consumo de Todas Barras/Sectores Mediana/Moda
tabaco
Nivel de Salud Agrupadas Puntos/CajasyBigotes Media
Percibido
Número de Todas Barras/Sectores Mediana
consultas al
médico de familia
Ejercicio 3. Análisis Exploratorio de datos.
ALUMN@ (nombre y apellidos):
Las siguientes tablas presentan el análisis descriptivo de las variables
“número de embarazos” y “concentración de glucosa”, de una muestra de
200 mujeres de al menos 21 años de edad, a las que se les realizó un
estudio de diabetes siguiendo los criterios de la O.M.S.
Percentiles
Percentiles
5 10 25 50 75 90 95
Promedio número de embarazos ,00 ,00 1,00 2,00 6,00 8,90 10,95
ponderado(definición 1) concentración de
glucosa en plasma en 79,05 86,00 100,00 120,50 144,00 170,70 187,95
un test de glucosa oral
Bisagras de Tukey número de embarazos 1,00 2,00 6,00
concentración de
glucosa en plasma en 100,00 120,50 144,00
un test de glucosa oral
1.- Seleccione las medidas de centralización y de dispersión que estime
más convenientes para cada variable.
La centralización en el número de embarazos la mediana y para la
concentración de glucosa la media.
La dispersión en el número de embarazos es adecuada estudiarla con los
cuartiles y percentiles.
La dispersión en la concentración de glucosa es adecuada estudiarla con la
varianza.
2.- ¿Son simétricas las distribuciones? ¿Qué tipo de curtosis presentan?
Para el número de embarazos además de tener un coeficiente alto se
observa que la mediana y la media no son parecidas por lo que se observa
que no hay mucha simetría.
Para la concentración, además de que el coeficiente es bajo la media y la
mediana son parecidas por lo que se aprecia bastante simetría.
La variable número de embarazos tiene una curtosis positiva por lo que nos
indica que es más picuda o con valores más extremos. La variable de
concentración de glucosa tiene una curtosis negativa por lo que indica una
gráfica más aplastadas o con valores menos extremos.
3.- ¿Qué representación gráfica sería más apropiada para cada variable?
En el número de embarazos lo mejor es un gráfico de barras ya que no nos
interesa observar valores intermedios.
En el segundo caso una nube de puntos será bastante más útil e indicativa.
4.- Indique qué variable presenta más variabilidad.
La segunda variable presenta mayor variabilidad respecto de la media.
Aunque sea más simétrica los valores no se agrupan en torno a la media.
5.- Interprete los intervalos de confianza obtenidos.
Con un 95% de confianza podemos afirmar que el número de embarazos
en la población estudiada está entre 3 y 4.
Con un 95% de confianza podemos afirmar que el nivel de glucosa en la
población estudiada está entre 119,55 y 128,39.
Ejercicio 4. Regresión y correlación
ALUMN@ (nombre y apellidos):
1.- En los diagramas de dispersión entre 2 variables X e Y siguientes,
indica,
¿Qué gráfico presenta mayor correlación y cual menor?
¿Cuál presenta una correlación lineal positiva? y ¿negativa?
C
El A) es el que presenta una mayor correlación. El B) es el que menor correlación
presenta.
El A) tiene una correlación negativa y el C) una correlación positiva.
2.- Se ha estudiado la relación entre el peso (Kg) y la talla (cm).
¿Cuál es el modelo de regresión lineal obtenido por mínimos cuadrados?
Interprete los parámetros de la recta en la tabla siguiente:
El modelo que se obtiene es
Peso=−99.001+Talla∗0.949
Por ejemplo, alguien que mida 180 centímetros se estimará que pesa 71,819.
Ejercicio 5. Comparación de medias.
La tabla siguiente presenta la comparación mediante una T de Student de la
talla entre hombres y mujeres:
3.- ¿Qué test estadístico utilizaría antes de realizar esta prueba?
La prueba de Shapiro-Wilk para el test de normalidad de las variables.
4.- ¿Qué conclusión obtendríamos de la tabla anterior?
Se rechaza la hipótesis de igual de medias. Por lo tanto, hay diferencias
significativas entre las medias.
5.- Interprete el intervalo de confianza para la diferencia.
Con un 95% de confianza podemos afirmar que la talla de los hombres es
entre 10,78 y 14,85 mayor que la de las mujeres.
Ejercicio 6. Relación entre variables cualitativas
ALUMN@ (nombre y apellidos):
6. En la tabla adjunta se presentan los resultados del análisis estadístico entre el
hábito de fumar (0.- no fuma; 1- Fuma) y el sexo (1.- hombre; 2 mujer). Interpreta
los resultados.
Pruebas de chi-cuadrado
Sig. asintótica Sig. exacta
Valor gl (bilateral) (bilateral)
Chi-cuadrado de Pearson 4,337a 1 ,037
Corrección por continuidadb 2,632 1 ,105
Razón de verosimilitudes 4,535 1 ,033
Estadístico exacto de Fisher ,070
Asociación lineal por lineal 4,109 1 ,043
N de casos válidos 19
a. 3 casillas (75,0%) tienen una frecuencia esperada inferior a 5. La frecuencia
mínima esperada es 4,26.
Dado que el p-valor es menor que 0,05 se rechaza la hipótesis nula. Así, aceptamos que existe
una relación entre variables fuma y sexo con un nivel de confianza del 95%.
Sin embargo, si se estableciese un 0,01, 99% de nivel de confianza, no se podría afirmar lo
mismo.
Además, al tener un 75% de frecuencia esperada inferior a 5 los resultados se deben tomar con
mucha precaución.
7. En la tabla adjunta se presentan los resultados del análisis estadístico entre el
diagnóstico de diabetes y el nivel de glucosa. Interpreta los resultados.
El p-valor es tan pequeño que aceptamos que hay relación entre las variables con al menos un
99,9% de confianza. Era de esperar que si el diagnóstico es positivo los niveles de glucosa sean
mayores.
Ejercicio 7. Regresión Lineal Múltiple
ALUMN@ (nombre y apellidos):
1.- Se estudia mediante un modelo de regresión lineal la relación entre el
% de grasa corporal (Siri) y el perímetro de la cintura y el perímetro del
cuello.
Interprete los resultados.
Variables entradas/eliminadasa
Variables Variables
Modelo entradas eliminadas Método
1 perim. cintura,
perimetro del . Entrar
b
cuello
a. Variable dependiente: % de grasa corporal (Siri)
b. Todas las variables solicitadas introducidas.
Resumen del modelo
R cuadrado Error estándar de
Modelo R R cuadrado ajustado la estimación
1 ,816a ,665 ,662 4,70831
a. Predictores: (Constante), perim. cintura, perimetro del cuello
ANOVAa
Suma de
Modelo cuadrados gl Media cuadrática F Sig.
1 Regresión 10963,865 2 5481,932 247,289 ,000b
Residuo 5519,871 249 22,168
Total 16483,736 251
a. Variable dependiente: % de grasa corporal (Siri)
b. Predictores: (Constante), perim. cintura, perimetro del cuello
Coeficientesa
Coeficientes no Coeficientes 95,0% intervalo de
estandarizados estandarizados confianza para B
Error Límite Límite
Modelo B estándar Beta t Sig. inferior superior
1 (Constante) -15,413 4,874 -3,162 ,002 -25,013 -5,812
perimetro del cuello -,931 ,186 -,279 -5,001 ,000 -1,298 -,564
perim. cintura ,755 ,042 1,005 18,004 ,000 ,673 ,838
a. Variable dependiente: % de grasa corporal (Siri)
La significación del test ANOVA es 0,000 por lo que aceptamos la validez del modelo.
En este caso, R2 0,66: El modelo con esta variable explica el 66% de los casos.
Explica 2/3 partes, pero no explicaría 1/3. Normalmente, el valor de referencia es 75%
por lo que se acerca a un buen modelo, aunque no tanto.
El modelo obtenido queda como:
%grasa corporal=−15.41−0.931∗Perímetro cuello+ 0.755∗Perímetro cintura
Por ejemplo, para alguien que tenga 40 cm de cuello y 90cm de cintura se le estima un
15,3% de porcentaje de grasa corporal.
Tarea 8.- Interpretación resultados de regresión logística
ALUMN@ (nombre y apellidos):
Se estudia mediante un modelo de regresión logística la relación entre el Bajo
peso al nacer y el hábito tabáquico y los antecedentes de Hipertensión arterial
de la madre durante el embarazo.
Codificaciones de variables categóricas
Codificación de la variable
Variables
dependiente
Dummy
Bajo peso Valor interno
Frecuencia (1)
no 0
dimension0
antecedentes de no 177 ,000
si 1
hipertensión si 12 1,000
fumadora durante el no 115 ,000
embarazo si 74 1,000
Interpreta los siguientes resultados:
Variables en la ecuación
I.C. 95% para
EXP(B)
B E.T. Wald gl Sig. Exp(B) Inferior Superior
Paso 1a fumar(1) ,712 ,324 4,838 1 ,028 2,038 1,081 3,843
hta(1) 1,230 ,618 3,966 1 ,046 3,421 1,020 11,480
Constante -1,179 ,223 27,892 1 ,000 ,308
a. Variable(s) introducida(s) en el paso 1: fumar, hta.
Se aceptan tanto la constante como las otras dos variables para la ecuación del modelo. Así, se
tiene que tanto fumar como haber tenido antecedentes de hipertensión, esta segunda en
mayor medida, afectan positivamente a la probabilidad de tener un hijo con bajo peso al
nacer.
Se usa este modelo y no el anterior dado que son variables de Sí/No.