Estadísticas en Investigación de Salud
Estadísticas en Investigación de Salud
La Estadística se define como la “Rama de la matemática que utiliza grandes conjuntos de datos
numéricos para obtener inferencias basadas en el cálculo de probabilidades” (Real Academia de
la Lengua (RAE), 2017); o como “El estudio de los datos cuantitativos de la población, de los
recursos naturales e industriales, del tráfico o de cualquier otra manifestación de las sociedades
humanas” (Real Academia de la Lengua (RAE), 2017). Por su parte la Bioestadística es la
“Ciencia en la que se obtienen y analizan datos biológicos o de salud por medio de métodos
estadísticos” (Instituto Nacional del Cáncer, 2019). La estadística no es únicamente el análisis de
datos, es parte fundamental del proceso de investigación e incluye la recolección, el análisis y la
generación de conclusiones. Por lo tanto, es de suma importancia ingresar y manejar
correctamente los datos obtenidos de una investigación con la finalidad de que sean confiables y
permitan sacar conclusiones válidas. Así mismo, es necesario tener clara la pregunta de
investigación desde el inicio y aplicar correctamente las herramientas estadísticas de acuerdo con
las particularidades de cada pregunta de investigación.
Se sabe que la práctica de actividad física es clave para prevenir las enfermedades
cardiovasculares; investigaciones recientes evalúan los beneficios de las actividades leves, es
decir, aquellas que se realizan cotidianamente como caminar al trabajo, pasear al perro,
planchar, limpiar el polvo, etc. Se realiza una investigación, de cohorte prospectivo con
seguimiento desde el 2012 hasta el 2017 a un total de 5861 mujeres para evaluar los beneficios
en la salud de las actividades físicas leves medidas objetivamente mediante acelerómetros
(LaCroix et al., 2019). La Tabla 12-1 muestra una pequeña parte de cómo se vería la base de
datos del estudio al momento en el que las pacientes se incorporan al mismo (primera
evaluación) con su respectiva descripción (datos ficticios para el ejemplo).
198
Tabla 12-1 Resumen de la base de datos al inicio del estudio
. . . .
. . . .
. . . .
5860 67.6 Negra 32.8 239.0 45.9
El número de identificación que se le asigna a cada observación debe ser un único número, es
decir no debe contener letras ni otros caracteres, a cada participante se le debe asignar este único
número de identificación al momento que a aceptado participar mediante un consentimiento
informado. Es el investigador principal quien asignará los números de identificación a los
participantes a medida que se van llenando las encuestas o realizando las mediciones de interés.
199
Los investigadores, deben llevar un registro del número de identificación asignado a cada sujeto
u objeto de estudio, y, todos los instrumentos que se le apliquen a un mismo sujeto tendrán
siempre el mismo número de identificación. Esto es de importancia también para mantener la
confidencialidad de los participantes, al utilizar las bases de datos, se debe eliminar los nombres
de los participantes manteniendo únicamente los códigos de identificación.
Cada base de datos debe ir acompañada de una descripción detallada de cada variable tal como
se muestra en la Tabla 12-1. Para facilitar el análisis de los datos, se recomienda nombrar las
variables de manera sencilla, con una sola palabra clave, evite usar tildes o cualquier carácter
especial. No será necesario colocar un nombre demasiado extenso o explicativo a las variables,
en la descripción se describe el significado de cada una de las variables de la base de datos
Siga un proceso estándar para datos perdidos; en la medida de los posible, evite tener datos
perdidos. Sin embargo, si existieran datos perdidos codifíquelos siempre de la misma manera. Se
recomienda: colocar NA en los datos perdidos.
Al observar los datos de la tabla, se puede apreciar que hay una tendencia, por ejemplo, para la
variable IMC, el promedio en las mujeres del primer cuartil es de 30.2, en el cuartil dos es 28.6,
en el tercero 27.5 y en el cuarto 26.3; esto parece indicar que a medida que aumenta el tiempo que
las mujeres invierten en actividades físicas leves, su índice de masa corporal disminuye.
Ejercicio 12-1
Revise las demás variables de la Tabla 12-2, indique si identifica otras tendencias
No sería correcto en este punto concluir que el tiempo que se invierte en actividades físicas leves
guarda una relación con el índice de masa corporal de las mujeres, para saber si la tendencia
presentada es real (es estadísticamente significativa) se deben realizar análisis pertinentes que
prueben la existencia de la asociación aparente. La pregunta estadística consiste en determinar si
las asociaciones o diferencias encontradas son reales o se deben únicamente al azar.
200
Tabla 12-2 Características de las mediciones iniciales por cuartil de tiempo invertido en actividades físicas leves entre 5861 mujeres.
Edad en años, promedio (DE) 79.9 (6.7) 78.7 (6.7) 78.1 (6.6) 77.4 (6.5) <0.001
Negra 399 (27.2) 490 (33.4) 524 (35.8) 553 (37.7) <0.001
Actividad Física leve, promedio (DE), min/día 196.0 (32.2) 262.2 (14.2) 309.6 (14.0) 379.6 (38.8) <0.001
IMC, promedio (DE), kg/m2 30.2 (6.2) 28.6 (5.5) 27.5 (5.3) 26.3 (5.1) <0.001
Colesterol total, promedio (DE), mg/dL 195.4 (40.0) 198.1 (39.6) 199.9 (39.4) 202.5 (38.1) <0.001
Colesterol HDL, promedio (DE), mg/dL 56.6 (13.8) 59.8 (14.1) 62.1 (15.3) 64.1 (15.2) <0.001
201
Cada vez que se lanza una moneda, la probabilidad de obtener cara es del 50%, pero si se lanza
la moneda 100 veces no se obtendrá cara el 50% de las veces debido al azar. A través de la
estadística se determina si las diferencias son reales o se deben únicamente al azar, la pregunta
estadística sería ¿Son tan grandes las diferencias encontradas como para rechazar la idea de que
sólo se deben al azar? Más adelante se describen pruebas de hipótesis para probar si las diferencias
se deben al azar o no. En el ejemplo los investigadores aplicaron una prueba conocida como
prueba F para comparar los valores de IMC de acuerdo con los quintiles de actividad física leve
y determinaron que las diferencias son reales y no se deben al azar. La conclusión principal de la
investigación es que hay evidencia de que las actividades leves si previenen las enfermedades
cardiovasculares.
Ejercicio 12-1
Ejemplo 12-2 Tipos de variables en una base de datos sobre depresión en el postparto y
complicaciones en los hijos
La Tabla 12-3 esquematiza como se vería la base de datos de un estudio prospectivo que realiza
un seguimiento a un grupo de madres con depresión en el postparto y sus hijos. Para definir la
severidad y la trayectoria de depresión postnatal de las madres se aplicó en varias ocasiones
una escala diseñada específicamente para este propósito (Escala de Edimburgo) (Netsi et al.,
2018). A los hijos de las participantes se les realizaron las siguientes mediciones: problemas
de conducta a los 3.5 años de edad, la nota de matemáticas a los 16 años de edad y depresión
a los 18 años de edad. En este caso las observaciones serían tanto las madres como los hijos.
A simple vista se puede suponer el contenido de cada variable, sin embargo, en investigación,
202
suponer no es correcto; recuerde, que al acceder a una base cualquier persona debe ser capaz
de comprender el contenido de una base de datos sin ayuda adicional de los investigadores que
diseñaron la investigación y generaron la base de datos.
ID edad_m sex_h dep2 dep8 dep61 dep_pe mat_educ conduc nota dep_hi
1 25.2 M 14 15 14 Si 18 5 A No
2 27.5 M 15 10 8 No 7 28 B No
3 32.0 F 18 18 17 Si 20 27 A No
- - - - -
- - - - -
43 34.8 F 25 19 12 Si 8 48 C Si
44 21.9 M 15 8 7 No 16 36 D No
- - - - -
- - - - -
89 19.3 F 28 26 30 Si 21 10 A Si
90 29.1 F 15 13 12 Si 18 12 A Si
Datos ficticios a partir de (Netsi et al., 2018)
Como ya sabemos, cada base de datos debe disponer de una clara descripción de las variables
que permite entenderla sin ser un investigador del estudio; esto, facilita su interpretación tanto
para personas ajenas a la investigación como para los investigadores que no han ingresado los
datos o no los han revisado durante cierto tiempo. Es importante tener información clara de
cada variable, así como de sus unidades de medida.
Los errores más frecuentes al generar bases de datos radican en usar más de una línea para
nombrar a las variables, o en no explicar el significado de las variables. La Tabla 12-4, muestra
la descripción de la base de datos presentada en la Tabla 12-3.
Variables Descripción
ID Número único de identificación
edad_m Edad de la madre al momento del parto (años)
sex_h Sexo del hijo (F:masculino/F:femenino)
dep2 Resultado de la escala de depresión postparto a los dos meses del parto (0 a 30)
dep8 Resultado de la escala de depresión postparto a los ocho meses del parto (0 a 30)
dep61 Resultado de la escala de depresión postparto a los 61 meses del parto (0 a 30)
dep_pe Depresión postparto persistente. Puntuación mayor a 9 en la escala de depresión tanto a los
dos como a los 8 meses (si/no)
203
conduc Problemas de conducta del niño a los 3.5 años de edad, escala de Rutter (0 a 52)
nota Nota de matemáticas obtenida en el examen nacional del Reino Unido al terminar el
colegio
dep_hi Depresión del hijo a los 18 años de edad (si/no)
Datos ficticios a partir de (Netsi et al., 2018)
En este ejemplo, las variables edad de la madre, las variables de la escala de depresión, la
educación de la madre, la conducta del niño y la nota de matemáticas son variables numéricas.
Las demás son variables categóricas.
Las variables numéricas a su vez pueden ser continuas o discretas, las variables continuas no
se restringen a valores particulares, en otras palabras, constan de números enteros y números
decimales, los valores dependerán de la precisión de los instrumentos de medición, son ejemplos
de variables continuas, el peso, la talla, el coeficiente intelectual, el tiempo de reacción a un
estímulo, etc. Las variables discretas por su lado constan únicamente de números enteros y no
pueden tener decimales por su naturaleza, por ejemplo, número de hijos, número de intentos para
completar un test, etc.
Las variables cualitativas, pueden ser nominales, ordinales o dicotómicas. Una variable es
nominal cunado las categorías no siguen un orden pre-especificado, por ejemplo, la variable etnia
podría tener las categorías blanca, negra, mestiza, indígena, etc., y se pude codificar sin importar
el orden de las categorías. Por su lado, en el caso de las variables ordinales, el orden de las
categorías es jerárquico pudiendo ir de menor a mayor o viceversa, por ejemplo, la variable nivel
de educación, es una variable ordinal ya que el nivel de educación abarcaría las categorías
analfabetismo, primaria, secundaria, superior o posgrado, estas categorías están ordenadas desde
el nivel más bajo a más alto de educación. Las variables dicotómicas, tienen únicamente dos
posibles categorías, por ejemplo, las variable dep_pe y sexo del Ejemplo 12-2 tiene únicamente
dos categorías: si/no, M/F. La Figura 12-2, resume la clasificación de las variables de acuerdo
con su naturaleza.
204
Figura 12-1 Clasificación de las variables de acuerdo con su naturaleza
Continuas
Numéricas o
Cuantitativas
Discretas
Variables
Nominales
Categóricas o
Ordinales
Cualitativas
Binarias o
dicotómicas
Ejercicio 12-2
1. La Tabla 12-5 y 12-6 muestran un extracto de una base de datos de las características
sociodemográficas de un grupo de personas con su respectiva descripción de las variables.
Identifique el tipo y subtipo de cada variable
.
50 Mujer Secundaria 65.2 4
Variables
Descripción
ID Número de identificación
género Género de cada persona u observación. Hombre o mujer
205
12.2.2 Variables de acuerdo con su relación
Esta clasificación guarda relación directa con la pregunta de investigación y con la hipótesis. Las
variables pueden ser dependientes e independientes.
Ejercicio 12-3
206
13 Presentación de resultados de la investigación
Los resultados de una investigación obtenidos a partir del análisis de las bases de datos se
presentan en el siguiente orden:
En este capítulo se abordan las dos primeras secciones de los resultados, las pruebas de hipótesis
se describen en el Capítulo 14
Ejercicio 13-1
207
13.2.1 Estadística descriptiva para variables numéricas
Las variables numéricas se presentan mediante medidas de tendencia central y medidas de
dispersión, seleccionadas en función de la distribución de las variables.
Figura 13-1 Histograma de las actividades físicas leves del estudio de riesgo cardiovascular en mujeres
Frecuencia
208
La Desviación Estándar
Sirve para cuantificar la variabilidad de una “variable”, midiendo su dispersión alrededor del
promedio. La desviación estándar es el cuadrado de las desviaciones con respecto a la media
aritmética de los datos. La desviación estándar de una muestra se denota con la letra S, mientras
que la desviación estándar del universo se representa como 𝜎
∑(𝑋𝑖 − 𝑋̅)2
𝑆=√
𝑁
Cuando N es menor a 30, se utilizará n-1 en lugar de N. A partir de N>30 se utilizar N como
divisor. Debido a que una muestra generalmente está un poco menos dispersa que la población
de la cual se tomó.
Ejemplo 13-1 Cálculo del promedio y la desviación estándar de una serie de datos
Id 1 2 3 4 5 6 7 8 9 10 11
Valor
5 6 7 7 8 9 11 12 13 14 15
(X)
5+6+7+7+8+9+11+12+13+14+15
= 11
=9.7
209
11 15 5,3 28
Sumatoria 107 0,3 118,19
Siendo N menor que 30:
118,19
𝑆=√ = 3.4
11 − 1
R: Los bonsáis incluidos en la muestra miden en promedio 9.7 ±3.4 centímetros. Nótese, que
esta es la manera más común de reportar el promedio y la desviación estándar para variables
numéricas simétricas.
Observe la Figura 13-2. La figura muestra los años que se espera vivan diferentes animales a
partir de datos obtenidos de zoológicos y estimaciones de biólogos. Algunos animales vivirán
más, mientras que otros vivirán menos, pero sabemos que, en promedio, los osos vivirán 30 años,
la ballena 70, y la tortuga 150. Los promedios resumen los datos de una base de datos y pueden
ser de utilidad para comparar diferentes grupos, en este caso de animales. Los biólogos usarán
esta información, para planificar el manejo de zoológicos o reservas naturales, por ejemplo.
Ejercicio 13-2
210
Figura 13-2 Expectativa de vida promedio en años de ciertos animales
211
Figura 13-3 Comparación del peso y la talla de mexicanos, con méxico-americanos y
estadounidenses de acuerdo al sexo
Observe las Figuras 13-4 y 13-5, En la Figura 13-4, se calcula el promedio de la altura hasta los
hombros de 5 perros de diferente raza. La línea verde corresponde al valor del promedio calculado
(394).
Figura 13-4 Cálculo del promedio de la altura hasta los hombros de 5 perros de diferente raza
Una vez calculado el promedio, es necesario saber que tan dispersas están las alturas de los perros
alrededor del promedio. Para esto, se calcula la desviación estándar (espacio resaltado en la Figura
13-4), es decir lo “más común o estándar”.
212
Figura 13-5 Cálculo de la desviación estándar de la altura hasta los hombros de cinco perros
menos el promedio
Ejercicio 13-3
Cuando las variables siguen una distribución asimétrica se utiliza la mediana como medida de
tendencia central y los rangos como medidas de dispersión.
213
Mediana
La mediana es un solo valor del conjunto de datos que mide la observación central del conjunto.
Esta observación es el elemento que está más al centro del conjunto de números. La mitad de los
elementos están por arriba de este punto y la otra mitad está por debajo. Para calcular la mediana,
se realiza el siguiente procedimiento:
- Ordenar los datos de menor a mayor magnitud
- Si el conjunto de datos tiene un número impar de datos, la mediana es la puntuación
central de la misma. Ejemplo: dado los siguientes datos: 2, 3, 4, 4, 5, 5, 5, 6, 6 su mediana
es 5.
− Si el conjunto de datos tiene un número par de datos, la mediana es el promedio de las
dos puntuaciones centrales. Ejemplo: 7, 8, 9, 10, 11, 12 y su mediana es 9.5
Rango
También denominado amplitud, consiste en obtener la diferencia entre el mayor y el menor valor
observado de la variable.
Ejemplo: calcular el rango del siguiente conjunto de datos 2, 3, 5, 5, 8, 10, 12. El rango es 12-
2=10. El rango es 10
Rango intercuartilar
Es la diferencia entre los valores de la variable que corresponden al 1er y 3er cuartil
𝑄𝑤 = 𝑄 3 − 𝑄1
214
Decil. Los deciles son los nueve valores que dividen la serie de datos en diez partes iguales. Estos
valores corresponden al 10%, al 20%... y al 90% de los datos. El quinto decil (d5) coincide con
la mediana.
La distribución normal
215
Figura 13-8 Dos distribuciones normales
1 −𝑧 2
𝑓(𝑥) = 𝑒𝑥𝑝 ( ) ; −∞ < 𝑧 < ∞
𝜎√2𝜋 2
- Tiene una única moda que coincida con la mediana y el promedio. Estos tres valores se
localizan en el centro de la distribución (Figura 13-5)
- El área bajo la curva es igual a 1
- Es simétrica con respecto a su promedio. Ósea que, el 50% de los valores estarán por
encima de la media y el 50% por debajo
- La forma de la campana depende del promedio y la desviación estándar (Figura 13-8)
- El 68.27% de los casos están incluidos entre 𝜇̅ − 𝜎- y 𝜇̅ + 𝜎, es decir una desviación
estándar a cada lado de la media (Figura 13-9)
- El 95.45% de los casos están incluidos entre 𝜇̅ − 2𝜎 y 𝜇̅ + 2𝜎, es decir dos desviaciones
estándar a cada lado de la media (Figura 13-9)
- El 99.73% de los casos están incluidos entre 𝜇̅ − 3𝜎 y 𝜇̅ + 3𝜎, es decir tres desviaciones
estándar a cada lado de la media (Figura 13-9)
216
Figura 13-9 Probabilidades de 1, 2 o 3 desviaciones estándar en una distribución normal
− 95% de los casos están incluidos entre 𝜇̅ − 1.96𝜎 y 𝜇̅ − 1.96𝜎, es decir 1.96 desviaciones
estándar a cada lado de la media (Figura 13-10).
− 99% de los casos están incluidos entre 𝜇̅ − 2.58𝜎 y 𝜇̅ − 2.58𝜎, es decir 2.58 desviación
estándar a cada lado de la media (Figura 13-10).
Histograma
Es un gráfico de frecuencias que se representa a manera de rectángulos. Para elaborar un
histograma, se divide el rango de datos una variable numérica en intervalos de igual magnitud,
los intervalos se conocen con el nombre de clases. La Figura 13-11, muestra el histograma de una
variable con datos del precio de 90 vehículos en $1000 de dólares. Se puede observar en el eje X,
217
que la variable numérica precio ha sido dividida en intervalos con una amplitud de 10; así, la
primera columna presenta los datos de los vehículos con un costo entre $10.000 y $20.000, la
siguiente entre $20.000 y $30.000, y así sucesivamente. La altura de las barras o rectángulos en
el eje vertical constituye el área proporcional al número de datos en cada intervalo o clase. Por
ejemplo, en la primera columna existen 16 vehículos, en la segunda 25, y así sucesivamente.
Figura 13-11 Histograma del precio de vehículos Porsche, Jaguar and BMW ofertados en un sitio
web
Frecuencia
absoluta
Precio en $1.000´s
218
Figura 13-12 Histograma del precio de vehículos Porsche, Jaguar and BMW ofertados en un sitio
web con curvas de densidad y de distribución normal
Frecuencia
relativa
Precio en $1.000´s
Fuente (Chuica Bustamante, 2015). Ls: límite superior, Li: Límite inferior, Q3: cuartil tres, Q1: cuartil
uno, RIC: rangointercuartílico, max(x)│x≤Ls: valor máximo de x o valor de x ≤ al Ls, max(x)│x≤Ls:
valor mínimo de x o valor de x ≥ al Li
219
El primer paso para dibujar el diagrama de cajas consiste en dibujar una línea obscura que
corresponda a la mediana de los datos (punto central de los datos), por lo tanto, la mitad de los
datos están por debajo de la mediana y la otra mitad está por encima. El siguiente paso para
construir el diagrama de cajas consiste en identificar el cuartil 1 (Q1) y el cuartil 3 (Q3), el Q1
corresponde al borde inferior de la caja, mientras que el Q3 corresponde al borde superior de la
caja mostrada en la Figura 13-13. Recuerde que el rango intercualtílico (RIC)= 𝑄 3 − 𝑄1 , por lo
tanto, el rectángulo de la caja será el RIC.
El siguiente paso consiste en dibujar los bigotes del diagrama, los bigotes son las líneas que van
desde la caja hasta el valor máximo y hasta el valor mínimo o hasta el límite superior y el límite
inferior (cuando existen valores que sobrepasen estos límites). El límite superior se calcula: 𝑄3 +
𝑅𝐼𝐶 ∗ 1.5; mientras que el límite einferior se calcula: 𝑄1 − 𝑅𝐼𝐶 ∗ 1.5. Cualquier observación que
caiga fuera de los límites superior o inferior de los bigotes se representa como un punto y
constituye un dato atípico. El propósito de identificar estos valores en lugar de extender los
bigotes hasta el valor mínimo y el valor máximo es identificar datos que se encuentran
inusualmente lejos del resto de los datos. Estos datos inusuales se conocen como datos extremos
o atípicos. La identificación de estos puntos es importante porque puede ayudarnos a identificar
errores en el ingreso de los datos, o por el contrario si se comprueba que los datos son correctos,
proveen información importante de la distribución de los datos. Un diagrama de cajas es simétrico
cuando la mediana está en el centro de la caja. La Tabla 13-12 y la Figura 13-14, contienen la
estadística descriptiva y el diagrama de cajas de los precios de los vehículos. La caja y el bigote
superior son más grandes, lo que coincide con la cola más larga al lado derecho del histograma
(Figura 13-11).
Tabla 13-2 Estadística descriptiva del Precio de vehículos Porsche, Jaguar and BMW ofertados
en un sitio web
220
Figura 13-14 Diagrama de cajas de la variable Precio de vehículos Porsche, Jaguar and
BMW ofertados en un sitio web
Ejercicio 13-4
La Tabla 13-2 muestra la estadística descriptiva del Precio de los vehículos y la Figura 13-14
el diagrama de cajas de la misma variable con un gráfico de puntos de la misma variable. Un
diagrama de puntos, es un gráfico en el cual cada punto corresponde a cada una de las
observaciones, en este caso, vehículos.
- Usando el gráfico de puntos, compruebe si la mitad de los datos están por encima de
la mediana y la mitad por debajo de ésta.
- Revise los datos, identifique las partes del diagrama de cajas y compruebe los cálculos
para cada parte del diagrama de cajas.
- Usando la base de datos ThreeCars del paquete Stat2Data de R (Lock, 2013), realice
un diagrama de cajas y un diagrama de puntos de la variable antigüedad de los carros
(Age). Revise los datos, identifique las partes del diagrama de cajas y compruebe los
cálculos para cada parte del diagrama de cajas. Elabore además el histograma de la
variable “Age”
221
gráfico Q-Q de la variable Precio de 90 vehículos. El gráfico muestra desviaciones de la
distribución normal (línea sólida).
Figura 13-15 Gráfico (Q-Q) de la variable Precio de vehículos Porsche, Jaguar and BMW ofertados
en un sitio web
Cuantiles de
la muestra
Cuantiles teóricos
Un estudio pretende caracterizar las medidas antropométricas de arrendajos azules (Figura 13-
16), una especie de aves norteamericanos. Los datos fueron recolectados por Keith Tarvin del
Departamento de Biología-Obellin College y fueron extraídos del paquete Stat2Data (Lock,
2013) para el software R. Los investigadores, tomaron algunas medidas antropométricas a un
total de 123 especímenes capturados. La Tabla 13-3 resume las variables recolectadas por los
investigadores.
222
Figura 13-16 Arrendajo azul
Variable Descripción
Head Distancia de la punta del pico a la parte posterior de la cabeza (en mm)
Skull Distancia desde la base del pico hasta la coronilla (en mm)
223
Ejercicio 13-5
1. Usando la base de datos ThreeCars del paquete Stat2Data de RCran (Lock, 2013), realice
un diagrama de cajas y un diagrama de puntos de la variable Millas recorridas de los
vehículos en venta (Mileage). Construya todos los gráficos de evaluación de la simetría
de la distribución e interprételos. Prepárese para una exposición en clase. Analice la
estadística descriptiva de la variable, identifique las medidas de tendencia central y las
medidas de dispersión que debe identificar.
2. Construya una tabla de resultados de las medidas antropométricas por separado para
machos y hembras, siga los lineamientos de las normas APA para construir tabla, revise
las tablas presentadas en artículos científicos
13.2.2 Estadística descriptiva para variables categóricas y variables numéricas discretas con pocos
valores
Para las variables categóricas y las variables numéricas que tienen pocos valores (menos de diez)
se elaboran tablas de distribución de frecuencias, estas tablas, generalmente presentan la
frecuencia absoluta y relativa. La frecuencia absoluta se obtiene contando el número de casos para
cada categoría en el caso de las variables categóricas o para cada valor en el caso de las variables
discretas con pocos valores. La frecuencia relativa, será la proporción o el porcentaje de cada
categoría o valor con respecto al promedio. La Tabla 13-4, resume los datos de la variable
categórica del tipo de carros.
BMW 30 33.3
Jaguar 30 33.3
Porsche 30 33.3
224
Total 90 100
Las variables categóricas y numéricas discretas con pocos valores se presentan también mediante
gráficos, siendo los más comunes los gráficos de barras y los circulares. Prefiera los gráficos
circulares para variables con cinco o menos categorías.
Se coloca cada categoría en una barra o una columna, permite comparar las proporciones de cada
una de las categorías con respecto a un todo. Se pueden reportar valores absolutos, proporciones
o porcentajes. Evite presentar la misma información en tablas y gráficos, elija uno de los dos.
Gráficos circulares
Se aconseja utilizar gráficos circulares cuando la variable categórica tiene cinco categorías o
menos, caso contrario es muy difícil interpretar los resultados de este tipo de gráficos.
Luego del famoso hundimiento del Titanic, el Comité de Comercio Británico en sus
investigaciones del hecho, recolectó información acerca de los tripulantes del barco. No existe
consenso acerca de las fuentes primarias ni del número exacto de tripulantes rescatados o
fallecidos. Para este ejemplo, se utilizaron los datos publicados por Dawson (1995), entre los
datos disponibles, figuran la clase en la cual viajaban los tripulantes (primera, segunda o
tercera), y si sobrevivieron o no.
La Figura 13-18, muestra la distribución de los tripulantes en las diferentes clases económicas,
se puede apreciar, que más de la mitad del total de 1312 tripulantes con datos disponibles,
viajaban en tercera clase. Por otro lado, la Figura 13-18, demuestra la gran diferencia en el
porcentaje de fallecimientos de acuerdo con la clase económica de los tripulantes, más del 80%
de los tripulantes de tercera clase fallecieron, en comparación con el 57% en segunda y el 40%
en primera.
Nótese que, al redactar los resultados, no se repiten todos y cada uno de los datos de los
gráficos, sino que se los interpreta redactando las conclusiones más relevantes.
225
Figura 13-18 Distribución de los tripulantes del Titanic de acuerdo a la clase económica
en la cual viajaban
226
14 Inferencia estadística, conceptos básicos de
pruebas de hipótesis
Este capítulo aborda las bases de estadística inferencial, lineamientos básicos de la estructura y
prueba de hipótesis aplicando intervalos de confianza y pruebas formales de hipótesis. Cada vez
que se requiera aplicar un análisis estadístico, es necesario empezar por plantearse hipótesis, las
hipótesis que se plantean deben tener suficiente respaldo teórico y deben definirse antes de la
recolección misma de los datos. Tenga presente que para varios test estadísticos se aplican los
conceptos generales de la estructura de las hipótesis que se presentan
Se puede utilizar los datos de la desviación estándar para identificar la posición en la que se
encuentra cada estudiante en relación a las demás personas que rindieron el examen en cada año.
Cristina está una desviación estándar por encima de la media del examen del año 2014 así:
700+50=750. Para calcular cuantas desviaciones estándar por encima de la media se encuentra la
nota de Jaime aplicamos la Ecuación 14-1
𝑥 − 𝑥̅
𝑍=
𝑆
Dónde:
Z es el valor Z a cuantificar,
227
x: la observación de interés,
𝑋̅: el promedio
S: la desviación estándar
750 − 745
𝑍= = 0.14
35
Cristina se encuentra una desviación estándar por encima del promedio de su grupo, mientras que,
Jaime se encuentra tan solo 0.14 desviaciones estándar por encima del promedio de su grupo. La
Figura 14-1 muestra la posición de Cristina y Jaime dentro de sus grupos y demuestra que Cristina
obtuvo un mejor resultado que Jaime al compararlos con los demás resultados de cada uno de sus
grupos, por lo tanto, haber sacado la misma nota no se puede traducir en un igual desempeño.
228
Las observaciones por encima de la media siempre tendrán un valor Z positivo, mientras que
aquellas por debajo de la media tendrán un valor Z negativo. Si una observación es igual a la
media el valor Z será igual a 0.
Los valores de Z se pueden utilizar para determinar vagamente que observaciones son más
inusuales que otras. Una observación x1 será más inusual que otra observación x2 si el valor
absoluto (sin signo) de Z es mayor que el valor absoluto de Z de la otra observación.
Ejercicio 14-1
Figura 14-2 El área sombreada representa todos los individuos que obtuvieron notas inferiores a las de
Cristina.
Usando los valores Z, podemos consultar la tabla de probabilidad de la distribución normal para
determinar el percentil al cual corresponde un valor de Z dado. La Figura 14-3 muestra una parte
de una tabla de probabilidad de la distribución normal. El valor Z para Cristina es 1.00,
229
buscaremos ese valor en la Figura 14-3, la primera columna contiene las unidades y la primera
posición decimal de los valores Z, mientras que la primera fila corresponde a la segunda posición
decimal de los posibles valore Z, en el caso de Cristina se busca el valor Z 1.00, el cual
corresponde a 0.8413 o percentil 84.13 (valor enmarcado en la Figura 14-3). Esto significa que,
de acuerdo a la tabla de probabilidad de la distribución normal, el 84% de los estudiantes que
rindieron el examen en el año 2014 sacaron notas inferiores a las de Cristina, mientras que, 16%
sacaron notas superiores a las de Cristina (no se olvide que el área bajo la curva es igual a 1 o al
100% de los datos).
Figura 14-3 Extracto de una tabla de probabilidad normal. El percentil para una variable aleatoria
normal con Z=1.00 Y Z=0.74 están enmarcados
También podemos identificar el valor de Z si tenemos el valor del percentil de una observación.
Por ejemplo, si sabemos que una observación está en el percentil 80, buscamos el valor más
cercano a 80 en la tabla que corresponde a 0.7995. Posteriormente definimos el valor de Z de los
230
valores de la correspondiente fila y columna para el valor identificado en el medio de la tabla que
será 0.84.
3. Verónica es seleccionada al azar del grupo de estudiantes que rindió el Examen en el año
2014. ¿Cuál es la probabilidad de que Verónica haya sacado 810 o más? El primer paso
para responder esta pregunta consiste en dibujar la curva y hacerse una idea de la
distribución normal, estamos interesados en determinar la proporción de estudiantes que
sacaron 810 o más en el examen, en forma gráfica, queremos identificar el área resaltada
en la Figuera 14-4. Esta figura muestra el promedio y los valores de hasta tres
desviaciones estándar por encima y debajo de la media.
Figura 14-4 Se ha sombreado el área correspondiente a los alumnos que sacaron una nota mayor a 1630
810−700
Primero debemos identificar el valor de Z correspondiente: 𝑍 = = 2.20
50
Por lo tanto, la probabilidad de que Verónica haya sacado una nota superior o igual a 810
es del 1.4%
231
4. Eduardo rindió el examen de admisión universitaria en el año 2014 y obtuvo 660. ¿Cuál
es su percentil? Primero elaboramos el gráfico, Eduardo obtuvo 660, se debe buscar el
percentil 660 que corresponde al área coloreada de la Figura 14-6
Figura 14-6 Identificación del percentil para un estudiante que rinde el examen en al año 2014 y
obtiene 660
660 − 700
𝑍= = −0.80
50
𝑥 − 166
−0.52 = = (−0.52 ∗ 3.3) + 166 = 164.3
3.3
232
Ejercicio 14-2
a. ¿Cuál es la probabilidad de que un adulto seleccionado al azar mida más de 162 cm.
b. ¿Cuál es la probabilidad de que un adulto mida menos de 159cm?
c. ¿Cuál es la probabilidad de que la talla de un adulto seleccionado al azar esté entre 159
y 162?
d. ¿Cuál es el valor Z para los percentiles 0.025 y 0.975? Analice los resultados.
e. ¿Cuál es la probabilidad de que un adulto seleccionado al azar esté entre los valores Z
identificados en el ejercicio 4?
Ejercicio 14-3
a. Pedro rindió el examen de la Senescyt para obtener una beca en sus estudios de maestría.
La nota mínima para poder aprobar este examen es de 105 puntos. Conociendo que la
nota promedio obtenida fue de 90 puntos y la desviación estándar es de 12 puntos ¿Cuál
es la probabilidad de que Pedro haya aprobado el examen?
b. En la ciudad de Cuenca, la temperatura máxima diaria sigue una distribución normal para
el mes de mayo de 2015. El día 24 de mayo está en el percentil 91.4. Sabiendo que la
media de la temperatura de en mayo de 2015 fue de 20.77 °C y la desviación estándar de
1.63 °C. ¿Cuál sería la temperatura máxima diaria para el 24 de mayo de 2015?
c. Utilizando los datos del literal b. ¿Cuál es la probabilidad de que un día seleccionado al
azar tenga una temperatura máxima mayor a 21 °C.
d. Utilizando los datos del literal b ¿Cuál es la probabilidad de que un día de mayo de 2015
tenga una temperatura máxima menor a 10°C?
e. Utilizando los datos del literal b ¿Cuál es la probabilidad de que la temperatura máxima
de un día de mayo de 2015 seleccionado al azar esté entre 19 y 21 °C?
En estadística inferencial se busca sacar conclusiones con los datos de una muestra para el
universo de estudio. Por ejemplo, el Ministerio de Salud está interesado en determinar el promedio
y la desviación estándar de la edad a la que los jóvenes ingieren alcohol por primera vez, esto
permitirá identificar a que edad sería necesario implementar estrategias preventivas para evitar el
consumo temprano de alcohol. Debido a que hacer un estudio en toda la población ecuatoriana
sería demasiado costoso, se debe calcular una muestra aleatoria de jóvenes que sea representativa
233
del universo. Luego, los investigadores, utilizarán los resultados de la muestra para implementar
sus políticas en toda la población del país; dicho de otro modo, se infieren los resultados de la
muestra al universo. El promedio y la desviación estándar que se obtengan de la muestra se
conocen como puntos de estimación, mientras que el promedio y la desviación estándar del
universo se conocen como parámetros reales.
Para aclarar este concepto, se presenta un ejemplo adicional; un grupo de guardabosques quieren
estimar el promedio de la altura que alcanzan los árboles de pino de un busque luego de siete años
de haber sido plantados, para esto, se toma una muestra aleatoria de 100 árboles de un bosque de
pinos jóvenes y se miden sus alturas al inicio del estudio y luego de siete años, los guardabosques
determinan que la altura de los árboles de la muestra, crecieron en promedio 338.95 cm en 7 años;
este promedio sería un punto de estimación ya que ha sido calculado a partir de una muestra
(n=100) tomada de un universo (todos los árboles del bosque de pinos). Los puntos de estimación
cuando han sido calculados correctamente a partir de muestras representativas del universo
seleccionadas aleatoriamente constituyen el mejor valor para estimar los parámetros reales del
universo.
En relación al ejemplo de los árboles de pino, supongamos que se selecciona otra muestra de 100
árboles de pino y se estima el crecimiento de los árboles luego de siete años, el promedio del
crecimiento en esta ocasión es de 342.25 cm, el promedio no es igual al de la primera muestra
debido a que los puntos de estimación varían de una muestra a otra ya que los valores de un punto
de estimación tienden a acercarse al parámetro real pero probablemente no serán exactamente
iguales al parámetro real del universo (en este caso todos los árboles de pino existentes en el
bosque). La Tabla 14.2 muestra los puntos de estimación obtenidos de la primera muestra de 100
árboles y los parámetros reales del universo.
Tabla 14-2 Puntos de estimación y parámetros reales del Universo de la variable altura en 7 años
14.3.1 Cuantificar el error del punto de estimación en capturar el parámetro real del universo, el
error estándar del promedio
En la sección anterior, se indicó que, en una primera muestra aleatoria de 100 árboles de pino en
un bosque, los árboles crecieron en promedio 338.95 cm luego de 7 años (Tabla 14.2), también
se indicó que en una segunda muestra de 100 árboles el promedio fue de 342.25 cm, suponiendo
234
que tomamos otra muestra de 100 pinos y ahora la media es 324.29 cm, tomamos una tercera
muestra y obtenemos una media de 342.82 cm y en una cuarta obtenemos 339.38 cm. Al seguir
calculando los promedios de más y más muestras ya que disponemos de los datos del universo
(algo que usualmente no ocurre en la vida real), es posible construir la distribución muestral del
promedio del crecimiento de los árboles de todas las muestras de 100 árboles de pino. Se entiende
por distribución muestral, a la distribución de los puntos de estimación (en el ejemplo sería el
promedio del crecimiento de los pinos al cabo de siete años) calculados de varias muestras de
igual tamaño tomadas de una determinada población o universo. La Figura 14-6 muestra un
histograma de los promedios de crecimiento de los árboles de pino obtenidas de 1000 muestras
diferentes de 100 árboles de pino cada una. El eje x representa los promedios de cada una de las
muestras, y el eje y las frecuencias absolutas, observe, que la distribución muestral es
aproximadamente simétrica y está centrada exactamente en el promedio del universo (µ=346.62),
esto se debe, a que los puntos de estimación (promedios de las muestras) estarán distribuidos
alrededor del promedio del parámetro real del universo. Sabiendo que la distribución normal es
simétrica podemos aplicar los conceptos de probabilidad de la distribución normal, por lo tanto,
se puede decir, que el 95% de los promedios obtenidos de las muestras estarían entre -1.96 y
+1.96 errores estándar (la desviación estándar de la distribución muestral) alrededor del promedio.
Donde 𝜎𝑥 es la desviación estándar del universo, considere que en la vida real desconocemos el
valor de la desviación estándar del universo, por lo tanto, en realidad se utiliza la desviación
estándar de la muestra para calcular el error estándar. Así, en el ejemplo de los árboles de pino,
calculamos el error estándar:
𝑆 84.46
𝑆𝐸 = = = 8.45
√𝑛 √100
235
Figura 14-7 Histograma del promedio de crecimiento en 7 años de 1000 muestras diferentes de pinos con tamaños
de muestra =100
14.3.2 Cuantificar el error del punto de estimación en capturar el parámetro real del universo, los
Intervalos de confianza
En la sección anterior, se calculó el error estándar de un promedio, este valor, se usa para calcular
un rango de valores plausibles que con cierta confianza capturará el parámetro real del universo.
Este rango de valores plausibles se conoce como intervalo de confianza. Bar, et.al (2016) explica
que reportar un único dato es como pescar con una caña de pescar, mientras que reportar un
intervalo de confianza correspondería a pescar con una red.
236
alrededor del parámetro del universo. Por lo tanto, al usar el valor Z 1.96, decimos que estaremos
95% seguros de que un punto de estimación ha capturado el parámetro del universo, si cambiamos
el valor de Z cambiará también el % de confianza. En base a estos conceptos se calcula el IC del
95%, la ecuación 14-3 contiene la fórmula.
Para calcular el IC 95% de un punto de estimación, se deben cumplir las siguientes condiciones:
− Las observaciones de la muestra deben ser independientes, para lo cual debe ser aleatorias
− Deben existir al menos 30 observaciones.
− La distribución debe ser aceptablemente simétrica.
Continuando con ejemplo de los árboles de pino, sabemos que los árboles crecieron en promedio
338.95 cm con S=84.46, sabemos también que el error estándar del promedio es de 8.45. Así,
calculamos el IC 95% del promedio del crecimiento de la muestra de árboles:
Ya que el IC 95% representa un rango de datos que captura el parámetro real del universo con un
95% de confianza, se interpretan los resultados de la siguiente manera: estamos 95% de que el
promedio de crecimiento de todos los árboles del bosque de pinos (el parámetro real del universo),
será un valor entre 322.38 y 355.51.
237
azules, leen en una revista de Biología que la distancia de la base del pico hasta la coronilla de un
grupo de arrendajos azules muestreados en Europa es 31.1 milímetros. Con este antecedente, los
investigadores norteamericanos buscan analizar si existen diferencias morfológicas considerables
entre las aves de Norteamérica y las de Europa o si sus medidas son similares. Para probar la
hipótesis de investigación, se utiliza justamente una prueba de hipótesis estadística.
El valor referencial de la distancia promedio de la base del pico hasta la coronilla es de 31.1 mm.
Nótese, que el valor referencial ha sido tomado de una revista, es un valor único que no fue
recolectado por los investigadores. El objetivo del estudio es determinar si los arrendajos azules
capturados por los investigadores de Norteamérica presentan medidas morfológicas similares, o
si existen diferencias que pueden deberse a procesos evolutivos con origen genético o por factores
del entorno de desarrollo en comparación con el valor referencial de Europa. Estas posibilidades
se simplifican mediante el planteamiento de hipótesis:
H0: el promedio de la distancia de la base del pico hasta la coronilla de los arrendajos azules de
Norteamérica es igual al de aquellos de Europa
HA: el promedio de la distancia de la base del pico hasta la coronilla de los arrendajos azules de
Norteamérica es diferente al de aquellos de Europa
Las hipótesis pueden plantearse también aplicando notaciones matemáticas, por ejemplo,
podemos al promedio de la distancia de la base del pico hasta la coronilla de los arrendajos azules
de Norte América utilizando µNA. Entonces matemáticamente podemos expresar las hipótesis
estadísticas:
Donde 31.1 mm es la distancia promedio de la base del pico hasta la coronilla para arrendajos
azules de Europa. Con esta notación, la hipótesis puede evaluarse aplicando métodos estadísticos.
Nótese que en la notación matemática se utiliza µ y no debido a que las inferencias estadísticas
de las pruebas de hipótesis hacen referencia al universo de estudio a partir de los datos de una
238
muestra, plantear las hipótesis estadísticas matemáticamente utilizando es un error. En este
tipo de pruebas de hipótesis 31.1 es el valor nulo debido a que es un valor único que no fue
recolectado por los investigadores, sino que se obtuvo de fuentes secundarias y es el valor de
referencia con el cual los investigadores norteamericanos quieren comparar sus datos recolectados
en arrendajos azules.
Sabemos a partir de los datos de una revista de Biología (fuente secundaria) que la distancia
promedio de la base del pico hasta la coronilla para una muestra de arrendajos azules de Europa
es de EU= 31.1 mm. Al comparar a simple vista el valor europeo con los 30.85 mm de distancia
promedio para los arrendajos norteamericanos, se aprecia que en promedio la cabeza de las aves
europeas es más grande que la de las norteamericanas. Sin embargo, estamos usando puntos de
estimación que podrían no capturar exactamente el parámetro real del universo, por eso, para
probar si existe suficiente evidencia de que existen diferencias reales (que no se daba únicamente
al azar) entre las aves de diferentes localizaciones, es necesario considerar la incertidumbre
asociada con NA. Por lo tanto, aunque NA=30.85, aún es probable que la diferencia en el tamaño
de las cabezas de las aves norteamericanas con el de las aves europeas se deba únicamente al azar
secundario al muestreo. Sabemos que, los IC nos permiten cuantificar la incertidumbre de un
punto de estimación en capturar el parámetro real del universo al calcular un rango de valores
plausibles para el promedio del universo. Así, se calcula el IC 95% del tamaño promedio de las
cabezas de los arrendajos azules norteamericanos. Conocemos que el tamaño de la muestra para
probar esta hipótesis es de 50 arrendajos, para los cuales se conoce su promedio (30.85 mm) y su
desviación estándar (0.938 mm), para posteriormente encontrar su intervalo de confianza del 95%.
𝑆 0.94
𝑆𝐸 = = = 0.13
√𝑛 √50
De tal manera que estaremos 95% seguros de que el tamaño promedio de las cabezas de los
arrendajos norteamericanos será cualquier valor comprendido entre 30.6 y 31.11; el dato de la
revista de Biología indica que el promedio de la distancia de la base del pico hasta la coronilla
para aves europeas es de 31.1, este valor está comprendido en el rango de los valores plausibles
para las aves norteamericanas, por lo tanto, fallamos en rechazar la hipótesis nula. Nótese que en
estadística se usa una doble negación: fallamos en rechazar la hipótesis nula, pero no indicamos
que la hipótesis nula es correcta. Siempre se deben aplicar estos términos. Recuerde que siempre
que el valor nulo esté comprendido en el rango del intervalo de confianza fallamos en rechazar la
hipótesis nula. Por lo tanto, la conclusión sería que no existen diferencias reales en el tamaño
promedio de las cabezas de los arrendajos azules norteamericanos comparados con los arrendajos
239
europeos, ya que las diferencias se deben únicamente al azar, pero no son de relevancia
estadística.
El primer paso para responder la pregunta de investigación será plantear las hipótesis
estadísticas:
H0: la masa corporal promedio de los arrendajos azules norteamericanos es igual a la de los
europeos; µmasaNA=74.3
HA: la masa corporal promedio de los arrendajos azules norteamericanos es distinta a la de
los europeos; µmasNA≠74.3
Recuerde que el dato único obtenido de fuentes secundarias referenciales es el valor nulo
El segundo paso será calcular la incertidumbre del punto de estimación de las aves de
Norteamérica, calculando el intervalo de confianza:
5.3
Error estándar = = 0.7495 → 71.27 ± 1.96 ∗ 0.7495 (69.8,72.73)
√50
240
H0: la humedad relativa promedio de Cuenca es igual a la de Quito ~ µCUE=76
HA: la humedad relativa promedio de Cuenca es diferente a la de Quito ~ µCUE≠76
6.13
Error estándar = = 0.32 → 76.48 ± 1.96 ∗ 0.32 (75.85,77.1)
√365
Este intervalo de confianza contiene el valor nulo 76 por lo tanto fallamos en rechazar la
hipótesis nula. No tenemos suficiente evidencia de que la humedad relativa sea diferente a
76%.
Las pruebas de hipótesis se construyen para rechazar o fallar en rechazar la hipótesis nula. Por lo
tanto, no rechazamos la hipótesis nula, a menos que exista suficiente evidencia. Pero ¿Cómo
definimos si existe suficiente evidencia? Como regla general en estadística, cuando H0 es real no
queremos rechazar incorrectamente la hipótesis nula más del 5% de las veces. Esto corresponde
a un nivel de significancia del 5%. Se escribe el nivel de significancia como 𝛼 = 0.05.
Si usamos un intervalo de confianza del 95% para probar una hipótesis en la cual H0 es real,
estamos solo 95% seguros de que el parámetro de universo estará incluido en ese intervalo de
confianza y cometemos un error el 5% de las veces ( 𝛼 = 0.05). Si utilizamos un intervalo de
confianza del 99%, cometeremos un error el 1% de las veces ( 𝛼 = 0.01). En general, un error
del 5% es ampliamente usado y aceptado en investigación.
241
242
Tabla 14-3 Elección del test estadístico de acuerdo al tipo de variables (se incluyen únicamente tests para preguntas de investigación con una sola variable dependiente)
243
Naturaleza Número de Tipo de variable Propósito Ejemplo Test Test no
de la variable variables independiente estadístico paramétrico2
dependiente independientes paramétrico1
Variable Dos o más Variables Determinar si los Determinar si es diferente el ANOVA Prueba de
numérica categóricas promedios de una VO2 máx de los atletas de acuerdo factorial Friedeman
variable dependiente a su sexo (hombres y mujeres) y
numérica varían de al mismo tiempo, si los promedios
acuerdo a las categorías varían de acuerdo al deporte
de una variable practicado (fútbol, tenis o
independiente béisbol).
categórica y al mismo
tiempo de otra variable
categórica
Variable Una variable Variable Determinar la relación Determinar si el coeficiente Regresión Regresión no
numérica predictora numérica lineal entre una variable intelectual (variable lineal simple paramétrica
dependiente numérica independiente) es capaz de
con una variable predecir la nota de Matemáticas
predictora numérica (variable dependiente) de un
grupo de estudiantes.
Variable Dos o más Variables Similar a la regresión Determinar si la nota de Regresión Regresión no
numérica variables numéricas y/o lineal, pero con más de Matemáticas de un grupo de lineal múltiple paramétrica
predictoras categóricas un predictor estudiantes (variable dependiente)
se puede predecir a partir del
sexo, la edad y el nivel
socioeconómico de la población
(variables independientes
predictoras)
244
Naturaleza Número de Tipo de variable Propósito Ejemplo Test Test no
de la variable variables independiente estadístico paramétrico2
dependiente independientes paramétrico1
Variable Una variable Variable Comparar si la Comparar la proporción de Diferencia de Chi cuadrado
categórica categórica proporción de una de las aprobación de una ley de tabaco dos
dicotómica dicotómica dos categorías de la (proporción de los que si proporciones
variable dependiente aprueban) entre los fumadores y
varía en función de los los no fumadores
grupos de la variable
independiente
Variable Una variable Categóricas dos Determinar si la Determinar si la distribución de NA Chi cuadrado
categórica dos o más niveles distribución de frecuencias de fumadores (si/no)
o más niveles frecuencias de una varía en función del nivel
variable categórica varía socioeconómico de la población
en función de otra (bajo/medio/alto)
Variable Una variable Numérica o Predecir la probabilidad Predecir la probabilidad de Regresión Regresión
categórica categórica de que se presente una padecer cáncer (probabilidad de logística logística no
dicotómica dicotómica de las dos categorías de que si tenga cáncer de mama) en simple paramétrica
la variable dependiente función de la edad de la población
en función de una
variable predictora
Variable Dos o más Numéricas y/o Predecir la probabilidad Predecir la probabilidad de Regresión Regresión
categórica variables categóricas de que se presente una padecer cáncer (probabilidad de logística logística no
dicotómica de las dos categorías de que si tenga cáncer de mama) en múltiple paramétrica
la variable dependiente función de la edad de la población
en función de dos o más (numérica), la realización de
variable predictoras autoexamen rutinario (si/no) y
numéricas o categóricas antecedentes familiares de cáncer
de mama (si/no)
NA: no aplica. 1Los test paramétricos necesitan que se cumplan ciertos parámetros o condiciones acerca de la distribución de las variables. 2 Los test no paramétricos, no
requieren que se cumplan las condiciones de la distribución de las variables, pero si requieren algunas condiciones especiales. Tabla adaptada de (UCLA: Statistical
Consulting Group)
245
Nótese que existen dos grandes grupos de pruebas estadísticas; aquellas en las cuales se deben
cumplir ciertos parámetros o condiciones de la distribución de las variables se conocen como
pruebas de hipótesis paramétricas. Mientras que, cuando no se logra cumplir con las condiciones
de distribución de las pruebas paramétricas, se puede aplicar pruebas no paramétricas. De
preferencia, se aplicarán pruebas paramétricas, para lo cual, deberán probarse las condiciones
propias de cada prueba estadística antes de decidir si se aplica un test paramétrico o no
paramétrico. Los métodos y las condiciones que se deben revisar para cada prueba estadística se
abordan en los siguientes capítulos.
14.4.5 Prueba de hipótesis calculando los valores P. Significado del valor P (alfa)
Para probar formalmente hipótesis en estadística, se aplican diferentes pruebas estadísticas de
acuerdo al tipo de variables (Tabla 14-3). Recuerde que las pruebas estadísticas tienen ciertas
condiciones que deben revisarse antes de aplicarlos. Independientemente del test estadístico que
se aplique, se calcula un valor P, y este valor, nos indica si existe o no existe evidencia para
rechazar la hipótesis nula.
Un artículo publicado en una revista de los Estados Unidos, indica que los estudiantes que
solamente estudian, pero no trabajan obtienen en promedio 52 puntos en una prueba estándar de
246
matemáticas. Los investigadores están interesados en determinar si la puntuación promedio de los
estudiantes que además de estudiar trabajan es menor a la del valor publicado en la revista. Para
esto, de un universo de 3728 estudiantes que trabajan, seleccionan aletoriamente una muestra de
1000 estudiantes y recopilan la información de su desempeño en la prueba estándar de
matemáticas. Luego de recolectada la información se determinó que en promedio de las
calificaciones en el examen de matemáticas de los estudiantes trabajadores fue de 51.27 puntos
con una desviación estándar de 9.41 puntos. En la Figura 14.9 se observa un histograma de las
calificaciones obtenidas.
247
comparar la concentración promedio de Carboxihemoglobina en la sangre de una muestra con el
valor máximo permitido para una buena salud, por ejemplo, una norma indica que el valor no
debe superar el 3.5% por lo tanto, podemos plantearnos la hipótesis de que si el valor promedio
de la población es menor a este valor crítico.
En resumen, cuando se busca si un parámetro es mayor o menor al valor crítico, se utilizan test
de una cola. Pero cuando se busca cualquier diferencia con el valor crítico (ya sea mayor o menor)
entonces el test que se aplique deberá ser de dos colas. Independientemente de si se apliquen
pruebas de una o dos colas, siempre se debe escribir la hipótesis nula como una igualdad y la
alternativa como una desigualdad.
La prueba de hipótesis del estudio de las calificaciones será evaluada con un nivel de significancia
del 5%, 𝛼 = 0.05. Analizaremos los datos bajo la condición de que la hipótesis nula es verdadera.
Para comprender el cálculo del valor P, debemos recordar el concepto del valor Z. El área
sombreada de la Figura 14.10 representa la probabilidad de que la hipótesis nula sea cierta, es
decir, la probabilidad de observar un promedio al menos tan extremo como el calculado con la
muestra de 1000 estudiantes trabajadores si la hipótesis nula fuera verdadera, cuando se dice
valores al menos tan extremos queremos decir en este caso iguales o menores al promedio
calculado debido a que se trata de una prueba de una cola, en la cual queremos determinar si el
promedio de las notas de matemáticas de los estudiantes que trabajan son menores a un valor
crítico de una revista. Por lo tanto, el área sombreada representa el valor P (la probabilidad de que
la hipótesis nula sea cierta. En el centro de la distribución se coloca el valor crítico de la hipótesis
de investigación (52 puntos). El valor del promedio de la nota de matemáticas estimado a partir
248
de la muestra de 1000 estudiantes trabajadores es 51.27, por lo tanto, al ser menor al punto central,
estará ubicado a la izquierda del punto central. Se ha coloreado en azul, el área que corresponde
a valores menores o iguales al promedio calculado, ya qe se alejan del valor crítico y son más
favorables para la hipótesis alternativa que el promedio observado.
Figura 14-9 Si la hipótesis nula es verdadera. La media proveniente de una distribución aproximadamente normal.
El área sombreada describe la probabilidad de observar una media tan extrema si la hipótesis nula es verdadera
p = 0.0071 0.9929
Para calcular el valor P debemos calcular el valor Z del promedio calculado a partir de la muestra
a partir de la ecuación 14-4.
𝑥̅ − 𝑣𝑎𝑙𝑜𝑟 𝑛𝑢𝑙𝑜
𝑍=
𝑆𝐸𝑥̅
Así:
9.41
El error estándar se obtiene: 𝐸𝑟𝑟𝑜𝑟 𝑒𝑠𝑡á𝑛𝑡𝑎𝑟 = = 0.297
√1000
249
Paso 4. Selección de la hipótesis estadística cierta. ¿Se rechaza o no se rechaza la hipótesis nula?
Con los datos del valor P calculado, rechazamos la hipótesis nula en favor de la hipótesis
alternativa. Lo que observamos es tan inusual en relación a la hipótesis nula proveyendo fuerte
evidencia a favor de HA. Dicho de otro modo las probabilidades de que la hipótesis nula fuese
verdadera son apenas del 0.71% (0.0071*100), esto nos ofrece evidencia de que es muy poco
probable que la hipótesis nula sea real. Recuerde, mientras más pequeño es el valor de P, menor
será la probabilidad de que la hipótesis nula sea verdadera.
Un valor P menor a 0.05 es usualmente suficiente evidencia para rechazar H0 en favor de HA.
Mientras más pequeño es el valor P, más fuerte es la evidencia de los datos en favor de HA. Se
aconseja dibujar primero la distribución y luego calcular el valor P.
En resumen:
− La hipótesis nula representa una posición escéptica (no hay diferencia). Se rechaza la
hipótesis nula únicamente cuando existe evidencia contundente en favor de HA
− Un valor P pequeño significa que, si la hipótesis nula fuera verdadera, no veríamos muy
frecuentemente una media tan extrema como la que obtenemos de nuestros datos. Esto se
interpreta como evidencia contundente en favor de HA
− Se rechaza la hipótesis nula cuando el valor P es menor que el nivel de significancia, 𝛼 =
0.05. en cambio, si el valor P es mayor que 0.05 fallamos en rechazar la hipótesis nula.
− Adicionalmente se debe escribir los resultados en un lenguaje sencillo de manera que
cualquier persona no familiarizada con estadística pueda comprender los resultados.
250
Paso 6. Conclusión práctica
Podemos observar que la nota de los estudiantes que trabajan es 0.73 (52-51.27) puntos menor
que la de aquellos que no trabajan de acuerdo a los datos de una revista. Si bien existe una
diferencia estadísticamente significativa (P<0.05), en la práctica una nota inferior en 0.73 puntos
no tendría mayores implicaciones. En este paso hacemos una interpretación crítica de la
aplicación práctica de los resultados en la vida real.
En este caso al tratarse de una prueba de dos colas, se realiza el gráfico tal como se muestra en la
Figura 14-11. Al igual que en el ejemplo anterior, a la izquierda se coloca el promedio calculado
a partir de la muestra (51.83) y a la derecha el valor simétrico correspondiente (52+0.17). Se
colorean las colas derecha e izquierda, debido a que la distribución es simétrica, la cola derecha
será igual a la cola izquierda
251
Figura 14-10 HA de dos colas, por lo tanto ambas colas deben tomarse en cuenta para calcular el valor P
Observaciones
Cola
tan inusuales
izquierda
como 𝑥̅ bajo la
condicion Ho
9.51
𝐸𝑟𝑟𝑜𝑟 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟 = = 0.2745
√1200
Se calcula Z:
51.83 − 52
𝑍= = −0.6192 = 0.2676 (𝑐𝑜𝑙𝑎 𝑖𝑧𝑞𝑢𝑖𝑒𝑟𝑑𝑎)
0.2745
Paso 4. Selección de la hipótesis estadística cierta. ¿Se rechaza o no se rechaza la hipótesis nula?
El valor P es mayor que 0.05 por lo tanto fallamos en rechazar la hipótesis nula. O sea que si la
hipótesis nula fuera verdadera en el universo del cual se tomó la muestra, no sería inusual obtener
una media como la encontrada por los investigadores. Por lo tanto, no tenemos suficiente
evidencia para rechazar la hipótesis nula
Al indicar que la hipótesis nula es cierta, concluimos que el promedio del examen de matemáticas
de los estudiantes que trabajan es igual a 52 puntos
252
En este caso se puede concluir que el desempeño en matemáticas de los estudiantes que trabajan
no difiere del dato publicado en la revista de los estudiantes que no trabajan, se puden mantener
las políticas institucionales ya que los estudiantes que trabajan tienen un similar desempeño que
aquellos que no trabaja.
Las pruebas de una cola son permitidas únicamente antes de revisar los datos, las hipótesis deben
plantearse durante el diseño de investigación, caso contrario, siempre se debe preferir una prueba
de dos colas. Las pruebas de una cola son relevantes para estudios de riesgo, por ejemplo, para
comparar si la concentración promedio de material particulado en el aire ambiente es mayor al
límite permitido, ya que, valores superiores a ese límite serían perjudiciales para la salud y deben
ser identificados.
253
15 La Prueba T
Las pruebas de hipótesis expuestas en el capítulo anterior requieren de muestras grandes (n > 30),
que la distribución muestral de 𝑥̅ tienda a ser normal y que el error estándar sea pequeño. La
prueba T se puede emplear cuando las muestras son más pequeñas ya que se puede aplicar cuando
el error estándar es mayor. Sin embargo, la prueba T no se limita a ser aplicada en muestras
pequeñas, puede aplicarse también en muestras grandes. Dependiendo de la pregunta de
investigación y, por ende, del tipo de variables, podemos aplicar prueba T de una muestra, de dos
muestras o prueba T de datos pareados.
15.1 La distribución t
En el capítulo anterior se aplicó la distribución normal y la tabla de probabilidad de la distribución
normal para las pruebas de hipótesis; en la prueba T, se utiliza la distribución t. La Figura 15-1
muestra la curva de la distribución t y la normal; la distribución t está representada mediante una
línea sólida azul, mientras que, la línea punteada roja representa la distribución normal estándar.
Al igual que la distribución normal, la distribución t tiene forma de campana simétrica, sin
embargo, las colas de la distribución t son más amplias en comparación con la distribución
normal, por lo tanto, es más probable que las observaciones se sitúen más allá de las 2
desviaciones estándar de la media que en la curva distribución normal.
Figura 15-1 Comparación de la distribución t (línea sólida) con la distribución normal (línea punteada)
254
En términos sencillos, los grados de libertad constituyen piezas de información para estimar 𝜎
usando S; los grados de libertad se calculan: gl=n-1, por lo tanto, si existen 20 observaciones
tenemos 19 grados de libertad, para 10 obsevaciones, 9 grados de libertad. La Figura 15-2
muestras la distribución normal estándar (rojo), una distribución t con 16 grados de libertad
(verde), y una, con 4 grados de libertad (azul), observe, que a medida que aumentan los grados de
libertad, la distribución se acerca a la distribución normal.
Con la distribución t, se debe utilizar la tabla de distribución t. La Figura 15-3, muestra una
porción de la tabla de probabilidad de la distribución t. La tabla completa se encuentra en el Anexo
… A diferencia de la tabla de probabilidad de la distribución normal con una tabla para Z positivo
y para para Z negativo, se usa únicamente una tabla para la distribución t. En la primera columna
se encuentran los grados de libertad, en la primera fila encontramos las probabilidades
(percentiles) para el área bajo la curva correspondiente a una cola, y, en la segunda fila, las
probabilidades para el área bajo la curva de dos colas.
255
de libertad para identificar el valor t de interés, que en este ejemplo es 1.33. Si quisiéramos
identificar el valor t del 10% de la cola izquierda el valor t será -1.33. Recuerde del capítulo
anterior que los valores que están hacia la izquierda siempre son negativos, y aquellos que
están a la derecha siempre son positivos.
Ejercicio 15-1
256
Figura 15-3 Vista resumida de la tabla-t. Cada fila representa una distribución t diferente. Las columnas
representan los cortes para las áreas de las colas específicas. La fila con 18 grados de libertad está resaltada
− Independencia de las observaciones: para cumplir con este criterio la muestra debe ser
seleccionada aleatoriamente.
− Las observaciones vienen de una muestra aproximadamente normal. Realizamos gráficos
para probar la simetría de la distribución, o consideramos estudios o experimentos
anteriores que sugieran que la distribución sea normal.
Se usa la distribución t para inferencia del promedio de una variable numérica cuando las
observaciones son independientes y siguen una distribución aproximadamente normal. Se puede
ser más tolerante en cuando a la condición de normalidad cuando se incrementa el tamaño de la
muestra. Se aplicará prueba T de una, de dos muestras o de datos pareados de acuerdo al tipo de
la variable independiente (Tabla 14-3).
257
(Karadede & Ünlü, 2000). Antes de calcular el intervalo de confianza, de acuerdo a los datos del
artículo científico del cual se obtuvo la información, se puede determinar que las muestras son
independientes y que la distribución es aceptablemente simétrica, adicionalmente, ya que tenemos
menos de 30 observaciones (n=12), es mandatorio utilizar la distribución t para cualquier
inferencia estadística. La fórmula para calcular el intervalo de confianza con la distribución t se
muestra en la Ecuación 15-1
EE: el error estándar, el error estándar se calcula de la misma manera que en la distribución Z:
𝑠
𝐸𝐸 =
√𝑛
Para determinar el valor tgl, se calculan los grados de libertad, en este caso gl=12-1=11. Estamos
interesados en calcular un intervalo de confianza del 95%, recuerde que en la distribución normal
los valores Z que corresponden al 95% son ±1.96 (el 95% de las observaciones están entre -1.96
y +1.96 valores Z). Cuando usamos la distribución t, es necesario determinar los valores t
correspondientes al 95% de acuerdo a los grados de libertad. En el ejemplo de los peces, se busca
el valor t que corresponde al 5% de dos colas, para 11 grados de libertad, el valor t correspondiente
es 2.20.
𝑠 2.38
A continuación, se calcula el error estándar: 𝐸𝐸 = = =0.69
√𝑛 √12
∗
𝑥̅ ± 𝑡𝑔𝑙 𝐸𝐸 → 6.42 ± 2.20 ∗ 0.69 → 𝐼𝐶 95% (4.90; 7.94)
Por lo tanto, estaremos 95% seguros de que la concentración de Cu en el hígado de todos los
peces de la especie estudiada en el lago de Turquía tendrá un valor entre 4.90 y 7.94
Ejercicio 15-2
Varones (n=44)
258
Proteínas (g/día) 94.0 ±4
Mujeres (n=39)
- Calcule el intervalo de confianza del 95% del consumo proteico de los varones.
- Calcule el intervalo de confianza del 95% del consumo proteico de las mujeres.
- Compare ambos resultados y escriba sus conclusiones.
Desviación
Mínimo
Cuartil 1 Mediana Promedio Cuartil 3 Máximo estándar
259
En este caso, tenemos un total de 13 observaciones, al observar el diagrama de cajas, podemos
concluir que es aceptablemente simétrico (al usar la distribución t se puede ser más tolerante con
la simetría de la distribución). La pregunta de investigación es si el promedio de la concentración
de grasa de las pacientes estudiadas es diferente al valor máximo de la recomendación del Consejo
Americano de Ejercicios para mujeres (32%). Al existir menos de 30 observaciones y ya que la
distribución es aceptablemente simétrica, se debe aplicar la prueba T de una muestra (ver Tabla
14-3). A continuación, se describe el proceso de la prueba T de una muestra.
H0: µgrasa = 32
HA: µgrasa ≠ 32
260
Este procedimiento es similar al del capítulo anterior, en el centro va el valor crítico y nos
interesan las áreas bajo la curva de las dos colas
El siguiente paso será calcular el valor t, el valor t. se calcula con la misma fórmula que
calculamos el valor Z (Ecuación 14-4)
2.88
𝐸𝐸 = = 0.799
√13
Se compara el valor t calculado absoluto (sin signo) del paso 3 con el valor t crítico, así:
Se falla en rechazar la hipótesis nula cuando el valor t calculado es menor o igual al valor t crítico
En este ejemplo, el valor t calculado es menor al valor t crítico, por lo tanto, fallamos en rechazar
la hipótesis nula
H0: µgrasa = 32
HA: µpasos ≠ 32
Al leer la hipótesis nula decimos que el promedio del porcentaje de grasa corporal es igual a 32
En este caso, al regresar a la pregunta de investigación, se puede apreciar, que las pacientes en
promedio tienen un porcentaje de grasa corporal riesgoso para su salud ya que se sabe que valores
iguales o superiores a 32 son riesgosos para la salud, es necesario implementar estrategias para
disminuir el porcentaje de grasa corporal de las pacientes.
261
Ejercicio 15-3
262
16 86.0 91.7 5.7
17 87.3 98.0 10.7
Paciente: código del paciente, Peso previo: peso de los pacientes en libras antes del tratamiento, Peso
Posterior: peso de los pacientes en libras después del tratamiento, Diferencia (Peso Posterior – Peso Previo)
Para analizar datos pareados es útil calcular la diferencia de lo que deseamos evaluar (en este caso
el peso) entre los datos pareados. En el ejemplo de la base de datos (Tabla 15-2) podemos apreciar
las diferencias en pesos en la variable Diferencia. Estas diferencias se han calculado:
𝑃𝑒𝑠𝑜 𝑃𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟 − 𝑃𝑒𝑠𝑜 𝑃𝑟𝑒𝑣𝑖𝑜 para cada una de las pacientes. Es importante que todas las
substracciones se hagan siempre en el mismo orden (𝑃𝑒𝑠𝑜 𝑃𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟 − 𝑃𝑒𝑠𝑜 𝑃𝑟𝑒𝑣𝑖𝑜).
Tabla 15-3 estadística descriptiva de las diferencias en pesos. Como existieron 17 pacientes existen 17 diferencias
17 7.26 7.15
Como en cualquier prueba de hipótesis, antes de aplicarla de debe determinar si se cumplen las
condiciones. En este caso las pacientes fueron seleccionadas aleatoriamente, tenemos menos de
30 observaciones, y, el histograma de la Figura 15-5 indica la distribución de la diferencia de
pesos, a pesar de tener una moderada asimetría se puede usar la distribución t para probar las
hipótesis (en la prueba T se puede ser más tolerante con la asimetría).
263
Figura 15-5 Histograma de las diferencias de los pesos
Consideramos dos escenarios, que existan o que no existan diferencias en los pesos promedio
antes y después del tratamiento.
𝐻0 : 𝜇𝑑𝑖𝑓𝑓 = 0, no hay diferencias en los pesos promedio
𝐻0 : 𝜇𝑑𝑖𝑓𝑓 ≠ 0, hay diferencias en los pesos promedio
7.15
Empezamos calculando el error típico o erros estándar 𝐸𝐸 = = 1.735, luego calculamos t
√17
7.26−0
con la misma fórmula de la sección anterior: 𝑡 = 1.735
= 5.528. Nótese que para una prueba T
de datos pareados el valor crítico de la fórmula siempre será igual a cero (no hay diferencias, pre-
post=0)
Para 16 grados de libertad y una prueba de dos colas el valor crítico es 2.12.
El valor calculado es mayor al crítico, por lo tanto, se rechaza la hipótesis nula en favor de la
alternativa, concluimos que si hay diferencias en las mediciones de los pesos
264
Se concluye que si existen diferencias, sabemos que la diferencia promedio es de 7.26 libras, ósea
que en promedio las pacientes subieron 7.26 libras luego de la terapia. Por lo tanto, la terapia ha
logrado un incremento de peso de pacientes anoréxicas.
Ejercicio 15-4
Ejercicio 1: Una compañía aseguradora está preocupada por la sospecha de elevados cobros
en la mecánica I en comparación con la mecánica II. Para comprobar las sospechas, se analizan
los datos de los costos de los quince últimos vehículos reparados en cada mecánica.
265
sean pareados. Al igual que en las pruebas T de una muestra y de datos pareados, debemos
verificar las condiciones y usamos puntos de estimación de una muestra 𝑥̅1 − 𝑥̅2 aplicando la
distribución t.
Fuente: Magic Eye Inc. Magic Eye 3D Hidden Treasures. 1st ed. Andrews McMeel; 2004.
El objetivo es determinar si las personas que no recibieron información previa, tardan más en
resolver los estereogramas que aquellas que recibieron información previa. Para ello se realizó un
experimento con 78 individuos, a 35 se les brindó información previa, mientras que a 43 no se les
dio ninguna información adicional.
266
Tabla 15-4 Estadística descriptiva del estudio de tiempo de resolución de estereograma
n 𝑥̅ S
Sin información previa 43 8.56 2.085
Con información previa 35 5.55 2.401
La Tabla 15-4 presenta la estadística descriptiva del tiempo que tardan en resolver el
estereograma los participantes de cada grupo. A simple vista se puede apreciar que en el grupo
sin información, los participantes tardaron en promedio 8.56 minutos en resolver el estereograma,
mientras que, en el grupo con información previa tardaron en promedio 5.55 minutos, se puede
apreciar que en promedio, los participantes sin información previa tardaron 3.01 minutos más en
resolver el ejercicio: 𝑥̅𝑁𝑜𝐼𝑛𝑓 − 𝑥̅𝐼𝑛𝑓 = 8.56 − 5.55 = 3.01. Calcularemos el intervalo de
confianza del 95% de esta diferencia ya que estamos usando puntos de estimación y es de interés
conocer la diferencia real en el universo de estudio o al menos un rango de datos plausible de esta
diferencia. Antes de aplicar la distribución t es necesario evaluar si se cumplen las condiciones,
en este caso se cumplen todas las condiciones es decir que las variables de cada muestra tienen
una distribución aceptablemente simétrica y son independientes.
Revise la ecuación 15-1, la ecuación para calcular intervalos de confianza con la distribución t.
∗
Se debe calcular el error estándar y 𝑡𝑔𝑙 . Calcular el error estándar de la diferencia de dos
∗
promedios es más complicado que calcular el error estándar de un único promedio, 𝑡𝑔𝑙 se estima
de igual manera que en las secciones anteriores. La Ecuación 15-2 es la que se usa para calcular
el error estándar agrupado de la diferencia de dos promedios:
Donde:
n: número de observaciones
267
Recuerde que usualmente no se dispone de la desviación estándar del universo, cuando estamos
interesados en estimar el error estándar para la diferencia de dos promedios, calculamos el error
estándar agrupado 𝐸𝐸𝑎 que considera las varianzas de los dos grupos que son parte de la
diferencia, por lo tanto, para calcular el IC de la diferencia de dos promedios se calcula usando la
Ecuación 15-3
1 1
IC = 𝑥̅1 − 𝑥̅2 ± 𝑡𝑔𝑙 ∗ 𝐸𝐸𝑎 ∗ √ +
𝑛1 𝑛2
(43−1)2.0852 +(35−1)2.4012
𝐸𝐸𝑎 𝑥̅𝑁𝑜𝐼𝑛𝑓𝑜 − 𝑥̅𝐼𝑛𝑓𝑜 = √ = 2.232
43+35−2
Se calcula el IC 95% reemplazando los valores de la Ecuación 15-3, los grados de libertad se
estiman 𝑛1 + 𝑛2 − 2, en este caso: 43+35-2=76, para 76 grados de libertad el valor t que
corresponde al 5% de dos colas es 1.99. Así, se calcula el IC 95% de la diferencia de los promedios
del tiempo que tardan en resolver el problema de los estereogramas:
1 1 1 1
𝑥̅1 − 𝑥̅2 ± 𝑡𝑔𝑙 ∗ 𝐸𝐸𝑎 ∗ √ + ~3.01 ± 1.99 ∗ 2.232 ∗ √ +
𝑛1 𝑛2 43 35
Sabemos que las personas que no han recibido información previa tardarán entre dos a cuatro
minutos más en resolver el problema en comparación con aquellas que no la han recibido, por lo
tanto, concluimos que la información previa ayuda a resolver el problema más rápidamente.
Ejercicio 15-5
Explique por qué el ejercicio de los estereogramas amerita una prueba T de dos muestras y no
una de datos pareados
15.6.2 La prueba T de dos muestras para varianzas iguales, la diferencia de dos promedios
Recuerde el Ejemplo 13-2 de los arrendajos azules, estamos interesados en determinar si el
tamaño del cráneo de las hembras es diferente al de los machos. La Tabla 15-5 muestra la
estadística descriptiva del tamaño del cráneo de los arrendajos hembras y machos, a simple vista
se puede observar que los machos tienen en promedio el cráneo más grande que las hembras
268
Tabla 15-5 Estadística descriptiva del tamaño del cráneo en mm de una muestra de arrendajos azules
machos y hembras
Sexo N Promedio S
Hembras 60 30.462 0.848
Machos 63 31.23 0.822
La Figura 15-7 muestra los gráficos cuantil-cuantil del tamaño del cráneo de los arrendajos
hembras y machos, en ambos casos la distribución es moderadamente simétrica, sabemos que las
observaciones son independientes ya que los arrendajos se seleccionaron aleatoriamente.
Finalmente, las varianzas son muy similares; por lo tanto, podemos aplicar la Prueba T de dos
muestras para varianzas iguales.
𝐻0 = No hay diferencias en el tamaño de los cráneos entre los arrendajos hembras con los
arrendajos machos. En términos estadísticos: 𝜇𝐻 − 𝜇𝑀 = 0, ó, 𝜇𝐻 = 𝜇𝑀 , Donde 𝜇𝐻 representa el
promedio del tamaño del cráneo de las hembras y 𝜇𝑀 el de los machos.
𝐻𝐴 = Hay diferencias en el tamaño de los cráneos entre los arrendajos hembras con los arrendajos
machos. En términos estadísticos: 𝜇𝐻 − 𝜇𝑀 ≠ 0, ó, 𝜇𝐻 ≠ 𝜇𝑀
59(0.8482 ) + 62(0.8222 )
𝐸𝐸𝑎 = √ = 0.835
60 + 63 − 2
(30.462 − 31.23) − 0
𝑡= = −5.10
1 1
0.835√60 + 63
Para 121 grados de libertad y prueba de dos colas el valor t crítico es 1.98
269
Pasos 4 y 5. Selección de la hipótesis cierta y conclusión estadística
1. El valor t calculado absoluto es mayor que el valor crítico, se rechaza la hipótesis nula en
favor de la alternativa
2. Se usa un software estadístico para calcular el valor P, el software devuelve un valor P de
0.00000125, valor menor a 0.05 se rechaza la hipótesis nula.
3. Calculando el Intervalo de Confianza del 95%
1 1 1 1
𝑥̅1 − 𝑥̅2 ± 𝑡𝑔𝑙 ∗ 𝐸𝐸𝑎 ∗ √ + ~ − 0.768 ± 1.98 ∗ 0.835 ∗ √ +
𝑛1 𝑛2 60 63
En este caso:
En este caso, el IC tiene dos signos negativos, por lo tanto, se rechaza H0 en favor de HA. Los
cráneos de las hembras son en promedio entre 0.47 y 1.07 mm más pequeños que los cráneos de
los machos con un 95% de confianza.
Figura 15-7 El panel superior representa el peso de las pacientes con el tratamiento FT. El panel inferior, los pesos
de las pacientes con el tratamiento CBT
270
Paso 6. Conclusión práctica
Se concluye que las hembras tienen el cráneo más pequeño, lo cual sería esperable y se puede
explicar por diferencias bioquímicas y genéticas.
Ejercicio 15-6
Id Perú Id Canadá
1 4.0 1 2.7
2 2.7 2 3.5
3 2.6 3 2.7
4 2.9 4 2.2
5 3.9 5 4.9
6 4.4 6 2.0
7 3.6 7 4.2
8 4.9 8 3.7
9 1.7 9 4.6
10 1.2 10 3.3
11 3.2 11 1.8
271
12 3.7 12 1.3
13 4.3 13 2.7
14 1.3 14 1.1
15 2.8 15 3.6
16 1.1 16 2.4
17 2.7 17 4.4
18 2.2 18 4.7
19 1.1 19 1.9
20 2.4 20 2.0
21 1.2 21 2.4
22 3.1
23 2.4
24 2.2
Tabla 15-6 Estadística descriptiva de la masa en gramos de una muestra de arrendajos azules
machos y hembras
Sexo N Promedio S
Hembras 60 69.806 5.012
Machos 63 73.225 3.875
En este caso se puede apreciar que en promedio la masa de los machos es superior a la de las
hembras y se puede observar además que las varianzas no son tan similares como en el caso del
tamaño de los cráneos. La Figura 15-8 muestra que la distribución de la masa para cada grupo
(i.e. hembras y machos) es aceptablemente simétrica.
272
Figura 15-8 Histograma de la masa de lo arrendajos hembras (arriba) y machos (abajo)
Para evaluar si las varianzas son diferentes se aplica el test de Levene en el software. Las hipótesis
del test se plantean de la misma manera que para cualquier test estadístico:
HA 𝑆12 ≠ 𝑆22
A continuación, se presentan los resultados del test, que aplica la prueba F para comparar las
varianzas obteniendo un valor P de 0.03677, siendo este valor menor a 0.05 se rechaza la hipótesis
nula y se concluye que las varianzas no son iguales.
273
Nótese que los grados de libertad tienen fracciones decimales debido a que las fórmulas para su
cálculo son diferentes; el valor P es menor a 0.05, se rechaza la hipótesis nula en favor de la
alternativa, la masa de los arrendajos hembras es diferente a la de los machos, siendo menor la de
las hembras entre 5 y 1.8 gramos de acuerdo a los intervalos de confianza que se encuentran en
los resultados. Observe además, que debajo del intervalo de confianza se encuentran los
promedios de la masa para cada grupo.
274
16 Comparación de varianzas, ANOVA
Cuando se desea responder preguntas de investigación en las cuales la variable dependiente es
numérica y la independiente categórica con más de dos niveles, se puede pensar inicialmente en
hacer múltiples comparaciones (i.e. varias pruebas T), así, si existen tres grupos podemos pensar
en comparar el primero con el segundo, luego con el tercero y finalmente el segundo con el tercero
realizando un total de tres comparaciones. Sin embargo, esta estrategia puede ser traicionera, si
tenemos varios grupos y hacemos varias comparaciones, es probable que encontremos diferencias
significativas por coincidencia, incluso sin que existan diferencias reales en las poblaciones de
estudio. Por lo tanto, cuando es necesario comparar promedios entre dos o más grupos (cuando la
variable independiente categórica tiene dos o más niveles) se aplica el método llamado análisis
de varianza (ANOVA por sus siglas en inglés) utilizando el test estadístico F. ANOVA aplica una
sola hipótesis para probar si existen diferencias entre varios grupos.
Debemos chequear las siguientes condiciones antes de aplicar ANOVA para determinar si los
datos proveen suficiente evidencia en contra de la hipótesis nula de que todos los 𝜇𝑖 son iguales.
• Las observaciones son independientes entre los grupos y dentro de los grupos,
• Los datos en cada grupo siguen una distribución aproximadamente normal, y
• La varianza de los grupos es constante.
275
𝐻𝐴 = El promedio de peso varía en al menos uno de los grupos. Rechazaremos la hipótesis nula
en favor de la alternativa, si existen grandes diferencias en los promedios de al menos uno de los
grupos.
Una fuerte evidencia en favor de la hipótesis alternativa en ANOVA se describe por la existencia
de largas diferencias en los promedios de los grupos.
En el ejemplo de la variación del promedio de pesos de las plantas de acuerdo al tratamiento, para
resolver la pregunta de investigación, se usan los datos de una muestra de 30 plantas distribuidas
en parcelas que corresponden al grupo control sin tratamiento (C), al tratamiento con un tipo de
fertilizante orgánico tradicional (T1) o al tratamiento con un fertilizante orgánico alternativo (T2).
La estadística descriptiva de los pesos de las plantas de acuerdo al tratamiento que recibieron se
muestra en la Tabla 16-1. La Figura 16-1 muestra los diagramas de cajas de los pesos de acuerdo
al tratamiento. De acuerdo al gráfico, visualizando las colas, parece ser que la variabilidad de los
diferentes grupos es constante (similar), además que las desviaciones estándar son similares. Esta
es una condición importante que debemos evaluar antes de aplicar ANOVA.
Tabla 16-1 Estadística descriptiva de los pesos de las plantas según el tratamiento
276
16.1.1 Análisis de varianzas y Prueba F
Las hipótesis para la pregunta de investigación de los pesos de las plantas según el tratamiento
serán:
𝐻0 : 𝜇𝐶 = 𝜇𝑇1 = 𝜇𝑇2
𝐻𝐴 = El promedio de los pesos de las plantas 𝜇𝑖 varía entre algunos (o todos) los tratamientos
A continuación, necesitamos definir si la variable dependiente (peso) cumple con las condiciones
para aplicar ANOVA. Antes de decidir si aplicamos o no ANOVA como se explicó anteriormente
evaluamos las siguientes tres condiciones:
Independencia: las muestras de cada uno de los tres grupos son independientes, esto
generalmente sucede cuando los participantes son seleccionados aleatoriamente o no existe
manipulación en la asignación a los grupos
Variabilidad (Varianza) constante. Evaluar si la varianza es similar entre los diferentes grupos.
Esta condición puede evaluarse colocando juntos diagramas de cajas de los datos de la variable
dependiente de cada uno de los grupos. La Figura 16-1 muestra los diagramas de cajas para cada
uno del peso seco de las plantas de acuerdo al tratamiento aplicado. En este ejemplo, se puede
apreciar que la variabilidad de los datos de los grupos es similar, lo cual se puede además
evidenciar al comprobar con los datos de las desviaciones estándar de la Tabla 16-1. ¿Qué pasa
cuando la variabilidad de los datos no es similar entre los grupos? Otro experimento busca
comparar el peso de tomates que recibieron diferentes tipos de nutrientes (solamente agua,
concentración única de nutriente, concentración *3, concentración única + herbicida 2-4D). La
Figura 16-2 muestra los diagramas de cajas de los pesos de plantas de tomate según distintos
tratamientos aplicados para su crecimiento, las plantas de tomate fueron aleatorizadas a recibir
cuatro nutrientes diferentes. Al comparar la Figura 16-1 con la 16-2, es claro que en la Figura 16-
2 la variabilidad no es similar entre los grupos. Sobre todo, en el grupo donde se coloca 1 vez la
concentración del nutriente, donde se observa un bigote largo en el diagrama de cajas. En este
caso, se debe colocar una nota al final de los resultados de ANOVA que indique que la
variabilidad no fue similar, u optar por un test no paramétrico (Prueba de Kruskal Wallis).
277
Figura 16-2 Pesos de plantas de tomate según distintos tratamientos en sus medios de crecimiento
Tabla 16-2 Resultados de ANOVA para la hipótesis de los pesos de las plantas según tratamiento
RESUMEN
Grupos Cuenta Suma Promedio Varianza
ctrl 10 50.32 5.032 0.34
trt1 10 46.61 4.661 0.63
trt2 10 55.26 5.526 0.19
ANÁLISIS DE VARIANZA
Promedio de
Origen de las Suma de Grados de los
variaciones cuadrados libertad cuadrados F Probabilidad
Entre grupos 3.76634 2 1.88317 4.846 0.0159
Dentro de los grupos 10.49209 27 0.388
Total 14.25843 29
El software mostrará un resumen de los datos, seguido de los resultados de la prueba. En esta
sección se explican los diferentes resultados de la tabla ANOVA (Tabla 16-2). ANOVA se enfoca
en responder la siguiente pregunta ¿Es tan grande la variabilidad de los promedios de las
diferentes muestras o grupos de tal manera que sea poco probable que se deba solo al azar? Esta
278
variabilidad se expresa mediante el promedio de los cuadrados entre grupos o MSG por sus siglas
en inglés con sus respectivos grados de libertad 𝑔𝑙𝐸𝐺 = 𝑘 − 1~3 − 1=2, donde k representa el
número de grupos. El promedio de cuadrados entre grupos se obtiene de dividir la suma de los
cuadrados entre grupos para los grados de libertad entre los grupos (3.76634/2).
El promedio de los cuadrados entre grupos por si sólo es inútil para la prueba de hipótesis.
Necesitamos un punto valor de referencia para determinar cuanta variabilidad se debería esperar
entre los promedios si la hipótesis nula fuera verdadera, en otras palabras cuanta variación se
consideraría aceptable para que la hipótesis nula fuera verdadera. Para esto se calcula una varianza
agrupada que es el promedio de los cuadrados dentro de los grupos con sus respectivos grados
de libertad 𝑔𝑙𝐷𝐺 = 𝑛 − 𝑘~30 − 3 = 27. El promedio de los cuadrados dentro de los grupos se
obtiene de dividir la suma de los cuadrados dentro de los grupos para sus respectivos grados de
libertad (10.49209/17).
Cuando la hipótesis nula es verdadera y por lo tanto las diferencias en los promedios a lo largo de
los diferentes grupos se deban solamente al azar el promedio de los cuadrados entre grupos debe
ser casi igual al promedio de los cuadrados dentro de los grupos. Por lo tanto, el valor F, se calcula
de la siguiente manera:
La suma de los cuadrados entre grupos, representa la variabilidad entre los grupos y la suma de
los cuadrados dentro de los grupos representa la variabilidad en cada uno de los diferentes grupos.
Ejercicio 16-1
279
De este análisis se desprenden los siguientes resultados:
RESUMEN
Grupos Cuenta Suma Promedio Varianza
Equipo A 14 383.60 27.40 3.63
Equipo B 14 357.84 25.56 0.24
Equipo C 14 352.09 25.15 0.26
ANÁLISIS DE VARIANZA
Suma de Grados de Promedio de los
Origen de las variaciones F Probabilidad
cuadrados libertad cuadrados
Entre grupos 40.22 _________ __________ _________ 1.85E-05
Dentro de los grupos 53.71 _________ __________
280
grupos, para la diferencia T1-Control se ha calculado un valor negativo indicando que el promedio
de peso de las plantas del grupo control fue superior a la que recibieron el tratamiento 1
(fertilizante orgánico tradicional). Entiéndase que cada fila es una prueba de hipótesis, así en la
primera fila se prueba la siguiente hipótesis:
H0: el promedio del peso de las plantas de T1 es igual al promedio del peso de las plantas del
grupo control
HA: el promedio del peso de las plantas de T1 no es igual al promedio del peso de las plantas del
grupo control
A partir de los datos de la tabla, se puede elegir la hipótesis cierta de dos maneras:
1. Observando el valor P, el valor P de la primera fila es 0.391, ya que este valor es superior
a 0.05 no se puede rechazar la hipótesis nula, por lo tanto, no existen diferencias en los
pesos del grupo T1 al compararlo con el grupo control
2. A través de los intervalos de confianza, se puede apreciar que el IC 95% presenta un valor
negativo y uno positivo, por lo tanto, no se puede rechazar la hipótesis nula.
Al revisar las demás filas de la tabla, únicamente en la tercera fila se observa un valor P <0.05 así
como un intervalo de confianza con dos signos positivos, por lo tanto, solo en la diferencia T2-
T1 se puede rechazar la hipótesis nula, concluyendo que existe diferencia en el peso promedio de
las plantas entre T1 y T2, siendo mayor el peso de las plantas que recibieron el tratamiento 2
(fertilizante orgánico alternativo), mientras que no existieron diferencias entre los demás grupos.
Podemos pensar por lo tanto que el tratamiento con fertilizante orgánico alternativo es superior al
tratamiento tradicional pero no superior al control, se deben indagar las causas de estas
diferencias.
Tabla 16-3 Resultados del test de Tukey para el ejemplo de la diferencia de peso de las plantas de acuerdo
a tres tratamientos
IC 95%
Valor P
Grupos Diferencia Límite Límite ajustado
inferior superior
T1-Control -0,37 -1,06 0,32 0,391
T2-Control 0,49 -0,20 1,19 0,198
T2-T1 0,87 0,17 1,56 0,012
Adicionalmente, se pueden graficar los IC 95% para demostrar gráficamente las diferencias
281
Figura 16-3 Intervalos de confianza del 95% de las diferencias por pares del ejemplo del crecimiento de
las plantas
T1-Control
T2-Control
T2-T1
Ejercicio 16-2
Retomando el Ejercicio 16-1, se concluye que las medias son distintas, por lo tanto, con este
antecedente se corre un test de Tukey. Los resultados se presentan en la siguiente tabla.
282
17 Correlación y regresión lineal
17.1 Regresión lineal simple
17.1.1 Gráficas de dispersión
¿Existe una relación entre la cantidad de pasos diarios registrados por un podómetro y la cantidad
de calorías quemadas? Al ser ambas variables numéricas, se puede observar su relación a través
de una gráfica de dispersión. Cada punto de la Figura 17-1 representa el registro diario de un
podómetro personal entre septiembre y diciembre de 2011 con su correspondiente cantidad de
pasos y número de calorías quemadas.
Figura 17-1: Gráfica de dispersión de la cantidad de calorías quemadas y el número total de pasos diarios
A partir de este tipo de gráficos se pueden sacar diversas conclusiones respecto a las posibles
asociaciones que puedan existir entre las variables y si siguen tendencias ya sean simples o
compuestas que permitan establecer relaciones lineales o no lineales. Por ejemplo, en la Figura
17-1 se observa que a medida que aumentan la cantidad de pasos diarios se queman una mayor
cantidad de calorías, lo cual es esperable.
Ejercicio 17-1
Identifique las posibles asociaciones que puedan existir en las siguientes gráficas de dispersión:
283
a)
b)
c)
284
1.1.1 Ajuste lineal y
método de mínimos
cuadrados
Como se observa en las gráficas de dispersión de la sección anterior, existen distintos tipos de
tendencias a identificar dentro de un conjunto de datos. Estas tendencias pueden ser lineales o no
lineales (polinomiales, potenciales, exponenciales). La relación más sencilla de establecer es la
relación lineal, la cual debe ser asumida únicamente cuando los datos presentan este tipo de
tendencia.
Un estudio (Fisher, 1947), para determinar la eficiencia de un fármaco para evitar problemas
cardiacos en animales domésticos, requiere inicialmente de datos referentes al peso corporal y
peso del corazón de los individuos de estudio. El experimento se realiza en gatos domésticos
adultos con un peso corporal mayor a 2 kg.
285
Figura 17-3: Relación entre el peso corporal y el peso del corazón de gatos domésticos
En el gráfico de dispersión de la Figura 1-3 que permite visualizar la relación entre el peso
corporal y el peso del corazón de los gatos del estudio, se observa que aunque los datos no
mantienen una relación perfecta, se puede asumir una tendencia lineal entre los mismos que
permite establecer conexiones, pudiendo inclusive realizar predicciones del peso del corazón
(variable independiente Y) conociendo el peso corporal del gato (variable independiente X).
Para poder realizar este tipo de predicciones, se requiere inicialmente llevar esta relación gráfica
a términos matemáticos. Al analizar un conjunto de datos a través de una relación lineal, lo que
se busca es ajustar el comportamiento de los mismos al de una línea recta, dándole un ajuste lineal
(Figura 1-4).
𝑦̂ = 𝛽̂0 + 𝛽̂1 𝑥
Este ajuste contiene una presunción de linealidad que asume que la pendiente de la recta no varía
en el eje X. La pendiente (𝛽̂1 ) se refiere al cambio que se da en el eje Y cuando se da un cambio
de una unidad en el eje X. En suma, este término determina que tan inclinada se encuentra la línea.
Por otro lado, el intercepto (𝛽̂0 ) es el valor de Y cuando X es igual a cero. Este término por su
parte determina en qué posición del eje Y comienza el modelo de estimación.
286
Figura 17-4: Función de ajuste lineal o modelo de regresión
En la vida real es prácticamente imposible que todos los puntos de una gráfica de dispersión se
alineen perfectamente, ajustándose a un modelo de predicción lineal que nos permita determinar
con gran exactitud el valor de Y cuando conocemos el valor de X.
De esta aleatoriedad que se pueda encontrar en un conjunto de datos es de donde se derivan los
términos de error (ɛ). Este término incluye todos aquellos factores conocidos o desconocidos que
intervienen en la relación lineal que se intenta establecer.
𝑦̂ = 𝛽̂0 + 𝛽̂1 𝑥 + 𝜀
A estos errores se los conoce también con el nombre de residuales, siendo por tanto aquella
variación restante de los datos ajustados al modelo de regresión. Se calculan para cada una de las
observaciones en el conjunto de datos (𝑥𝑖 , 𝑦𝑖 ), como se indica en la ecuación 1-3. El término 𝑦̂𝑖
corresponde al valor generado al reemplazar 𝑥𝑖 en la ecuación de regresión lineal.
287
Ecuación 17-3: Cálculo de errores o de residuales
𝜀𝑖 = 𝑦𝑖 − 𝑦̂𝑖
Un análisis de calidad de agua (Ruppert & Carroll, 1980), evalúa la salinidad de las descargas
hacia un río en Pamlico Sound, Carolina del Norte. Para identificar una relación entre la cantidad
de descarga realizada (m3) y la salinidad de la misma (g/L), se realiza una gráfica de dispersión.
Como se puede observar se ha ajustado un modelo lineal a los datos que permite evaluar la
tendencia rápidamente. En este ejemplo se pueden observar los errores o residuales de los puntos
en la gráfica. Como se puede apreciar, siempre se realiza la medición en el eje de las Y,
presentando distancias diferentes cuyo conjunto constituirá el error total del modelo generado.
Figura 17-6: Errores o residuales del ajuste de datos de salinidad y la cantidad de descarga al río
Para generar la ecuación completa de la regresión lineal para ajustarse a un conjunto de datos, se
deben determinar los valores de la pendiente (𝛽̂1 ) y el intercepto (𝛽̂0 ). En el ejemplo de salinidad
de las descargas, se podría considerar que existen una infinidad de líneas que podrían ajustarse a
la relación existente entre la salinidad y la cantidad de descarga (Figura 1-7), sin embargo, existen
algunas metodologías que permiten determinar cuál será la correcta. La metodología más aceptada
es el método de mínimos cuadrados.
288
Figura 17-7: Distintas líneas de tendencia que podría ajustarse a los datos de salinidad de las descargas
El objetivo de esta metodología es reducir el cuadrado del error de predicción, de ahí su nombre.
En la Figura 1-8 se observan gráficamente los cuadrados de cada uno de los errores determinados.
Esta técnica encuentra la línea que contenga la menor suma de los cuadrados de los errores.
Figura 17-8: Cuadrado del error de predicción. Este debe ser mínimo para tener el mejor ajuste lineal
289
Por lo tanto, se pretende encontrar la pendiente (𝛽̂1 ) y el intercepto (𝛽̂0 ) que permitan generar un
modelo con el error de predicción cuadrático total menor. Estas variables se estiman de la
siguiente manera:
𝛽̂0 = 𝑦̅ − 𝛽̂1 𝑥̅
Si aplicamos estos conceptos al ejemplo de salinidad se pueden calcular los parámetros como se
observa en el Ejemplo 1-1.
ID Salinidad Descarga ̅
𝒚𝒊 − 𝒚 ̅
𝒙𝒊 − 𝒙 (𝒙𝒊 − 𝒙
̅) ̅)𝟐
(𝒙𝒊 − 𝒙
(y) (x) ̅)
∗ (𝒚𝒊 − 𝒚
1 8.2 7.6 -2.13 -2.95 6.30 8.72
2 7.6 7.7 -2.73 -2.85 7.80 8.14
3 4.6 4.3 -5.73 -6.25 35.85 39.11
4 4.3 5.9 -6.03 -4.65 28.07 21.66
5 5.9 5 -4.43 -5.55 24.61 30.84
6 5 6.5 -5.33 -4.05 21.61 16.43
7 6.5 8.3 -3.83 -2.25 8.64 5.08
8 8.3 8.2 -2.03 -2.35 4.78 5.54
9 10.1 13.2 -0.23 2.65 -0.61 7.00
10 13.2 12.6 2.87 2.05 5.87 4.19
11 12.6 10.4 2.27 -0.15 -0.35 0.02
12 10.4 10.8 0.07 0.25 0.02 0.06
13 10.8 13.1 0.47 2.55 1.19 6.48
290
14 13.1 12.3 2.77 1.75 4.83 3.05
15 13.3 10.4 2.97 -0.15 -0.46 0.02
16 10.4 10.5 0.07 -0.05 0.00 0.00
17 10.5 7.7 0.17 -2.85 -0.48 8.14
18 7.7 9.5 -2.63 -1.05 2.77 1.11
19 10 12 -0.33 1.45 -0.48 2.09
20 12 12.6 1.67 2.05 3.41 4.19
21 12.1 13.6 1.77 3.05 5.39 9.28
22 13.6 14.1 3.27 3.55 11.59 12.58
23 15 13.5 4.67 2.95 13.75 8.68
24 13.5 11.5 3.17 0.95 3.00 0.90
25 11.5 12 1.17 1.45 1.69 2.09
26 12 13 1.67 2.45 4.08 5.99
27 13 14.1 2.67 3.55 9.46 12.58
28 14.1 15.1 3.77 4.55 17.13 20.67
Promedio 10.33 10.55
Suma 219.46 244.65
291
𝑠𝑎𝑙𝑖𝑛𝑖𝑑𝑎𝑑 = 0.865 + 0.897 ∗ 𝑐𝑎𝑛𝑡𝑖𝑑𝑎𝑑 𝑑𝑒 𝑑𝑒𝑠𝑐𝑎𝑟𝑔𝑎
Para interpretar este resultado se analiza la ecuación resultante del modelo de regresión por
secciones. La pendiente nos indica que por cada metro cúbico de descarga, se esperaría que la
salinidad aumente en 0.897 g/L. Esta interpretación, aunque indica una asociación, no indica una
relación causal entre los factores, ya que se trata de un estudio observacional que no puede
identificar directamente que esta sea la causa. Es decir, la salinidad no necesariamente aumenta
porque aumente la descarga, si no que pueden existir otros factores que intervengan como puede
ser la implementación de ciertos químicos en los procesos industriales que maneje la planta que
realice la descarga. En tal caso, se debería realizar un análisis del proceso productivo que permita
determinar las causas de las concentraciones elevadas de salinidad.
Este método de predicción se lo conoce como interpolación de datos. En el caso de que queramos
estimar la salinidad de una descarga de 17.4 m3, el proceso se lo conoce como extrapolación ya
que este valor se encuentra fuera del rango de datos que maneja la variable independiente dentro
del modelo de regresión. Para predecir la cantidad de salinidad se sigue el mismo procedimiento:
292
asegurar este tipo de afirmaciones es alta, ya que un sinnúmero de factores podría generar que
exista un cambio en la tendencia de los datos, pudiendo mantener una tendencia lineal pero
probablemente con una pendiente distinta; por ejemplo que a partir de 17 m3, la salinidad aumente
por cada metro cúbico 0.4 g/L y no 0.897 g/L. Inclusive puede darse un cambio desde una
tendencia lineal a una no lineal a medida que aumenta uno de los parámetros.
Si contáramos con un set de datos que registre el crecimiento de la bacteria Bacillus coagulans
obtendríamos una curva como la presentada en la Figura 1-9. El crecimiento se da en distintas
fases, las cuales presentan distintas tendencias según su fase de desarrollo. Si extrajéramos una
sección de este set, correspondiente únicamente a la fase exponencial de crecimiento, se podría
generar un modelo de regresión no lineal exponencial que permita analizar la cantidad de
bacterias en esta etapa en un periodo determinado de tiempo. Si se realizara una extrapolación
fuera de este periodo, considerando el modelo exponencial, probablemente el logaritmo de la
cantidad de organismos sería mayor a 9. Sin embargo, esta no sería una predicción adecuada,
ya que no se toma en cuenta que a partir de cierto periodo de tiempo, los microorganismos
ingresan a una fase de latencia ya sea debido al agotamiento de nutrientes, introducción de
tóxicos en su medio de cultivo, sobrepoblación o una combinación de estas causas.
293
comprensibles y con una mayor cantidad de información. Un resumen de los resultados referentes
a la cantidad de salinidad de las descargas al río se presenta como en la Tabla 1-1.
Tabla 17-1: Resumen estadístico de modelo lineal para set de datos de salinidad en descargas a ríos
Error
Estimado Valor t Pr(>|t|)
Estándar
(Intercepto) 0.86511 1.08493 0.797 0.432
Salinidad 0.89705 0.09899 9.062 1.58e-09
GL: 26
Se puede inclusive calcular el intervalo de confianza del estimado generado para la pendiente,
como se aprendió en el Capítulo 15. Para el ejemplo de la salinidad en las descargas, se puede
asegurar en un 95% que la salinidad aumenta en 0.703 y 1.091 g/L cuando existe un incremento
de un metro cúbico de descarga.
Para conocer si existe una variación positiva, se aplicará una prueba T de una cola. En nuestro
ejemplo, si se quiere conocer si la salinidad aumenta a medida que el volumen de descarga
también aumenta, manejando las siguientes hipótesis:
0.89705−0
Calculamos 𝑇 = 0.09899
= 9.062, que para 26 grados de libertad presenta un valor-p de 7.915e-
10. Este resultado para la prueba de una cola indica que efectivamente existe un aumento de la
salinidad cuando aumenta el volumen de descarga, ya que el valor-p es menor a 0.025.
294
Es importante tomar en cuenta que el resultado que se presenta en softwares estadísticos es
principalmente para pruebas T de dos colas, por lo que al momento de interpretar los resultados
se debe considerar que el valor-p corresponderá a esta prueba estadística.
17.2 Correlación
Recordando el ejemplo de registros de un podómetro, se busca estimar la cantidad de calorías
quemadas a partir del número de pasos registrados en el día (Figura 1-1). Para ello se ha
determinado un modelo de regresión lineal que se ajuste a los datos, resultando en la siguiente
ecuación:
Una vez que ya tenemos el modelo generado, el siguiente paso es conocer que tan bien se pueden
predecir los datos con el mismo. Para ello se utiliza el coeficiente de correlación (R). El
coeficiente de correlación es una medida de la fuerza de la relación existente entre dos variables
y siempre toma valores desde -1 hasta 1. Cuando existe una correlación fuerte positiva los valores
serán cercanos a +1, mientras que si es una relación fuerte negativa serán cercanos a -1. Valores
de R = 0 corresponden a un set de datos sin relación, o en algunos casos, a conjuntos de datos con
una relación no lineal.
295
Figura 17-11: Distintos valores de coeficiente de correlación y su representación gráfica
Con esta fórmula se pueden reemplazar los valores correspondientes a las calorías quemadas
según el número de pasos obteniendo lo siguiente:
296
149151.278
𝑅= = 0.946
√3889657.80 ∗ 6383.06
El valor de R encontrado es positivo lo cual indica que a medida que se aumenta el número de
pasos diarios, se quema una mayor cantidad de calorías, y además el valor es muy cercano a la
unidad, lo cual indica una relación lineal muy fuerte entre ambas variables.
Ejercicio 17-2
Calcule el valor del coeficiente de correlación para el siguiente conjunto de datos. Grafique en
el diagrama de dispersión la posible línea que se ajuste al modelo de regresión de los datos.
y X
32 0.3
12 0.67
43 0.43
21 0.12
37 0.15
10 0.51
41 0.28
26 0.56
11 0.41
34 0.15
40 0.2
297
Además del coeficiente de correlación, generalmente se maneja el coeficiente de determinación,
llamado también R cuadrado (R2). Este coeficiente permite determinar qué tan próximo se
encuentra el conjunto de datos al ajuste lineal, por lo tanto describe la cantidad de variación de
los datos explicados por el modelo de regresión lineal. En suma es una medida del porcentaje de
reducción del error para la regresión.
Figura 17-12: Ajuste lineal del tiempo de acenso a un nevado en función del acenso vertical
298
La ecuación de ajuste para el modelo lineal es: 𝑇𝑖𝑒𝑚𝑝𝑜 𝑑𝑒 𝑎𝑠𝑐𝑒𝑛𝑠𝑜 = 4.21 + 0.0021 ∗
𝐴𝑠𝑐𝑒𝑛𝑠𝑜 𝑣𝑒𝑟𝑡𝑖𝑐𝑎𝑙. Para determinar el coeficiente de determinación de estos datos se utiliza un
software estadístico donde reemplazando los valores en la ecuación obtenemos:
351.4348 − 274.1739
𝑅2 = = 0.2198
351.4348
1. Linearidad
2. Normalidad
3. Homocedasticidad
4. Independencia
Para comprobar estas suposiciones, los softwares estadísticos generan gráficas de diagnóstico. La
gráfica más común de diagnóstico es la gráfica de residuales. En esta se puede observar en el eje
de las X los valores correspondientes a la variable independiente, mientras que en el eje de las Y
se observa el valor de los residuales.
299
Un estudio (Pavlic, Grubwieser, Libiseller, & Rabl, 2007), busca estimar la razón de eliminación
del alcohol en la sangre (REAS), expresado en gramos por litro por hora (g/L/h), a partir de la
razón de eliminación del alcohol del aliento (REAA), expresado en (mg/L/h).
El resultado del modelo de regresión lineal indica que la predicción es posible (valor-p < 2e-16),
estimando que por cada mg/L eliminado en un hora del aliento se elimina 1.75764 g/L por hora
de alcohol de la sangre, presentando además un coeficiente de determinación 𝑅 2 = 0.7567,
indicando que la varianza del error disminuye en un 75.67% al utilizar el REAA como predictor
del REAS. La ecuación determinada es la siguiente.
Hasta este punto llegó el análisis de las secciones anteriores, sin embargo, podemos ir más allá y
hacer un análisis de los residuales del modelo de regresión para determinar que tan bien se ajustan
los datos al modelo. En la Figura 1-14 se observa el gráfico de dispersión de los datos junto con
la línea de ajuste correspondiente al modelo lineal determinado. A su derecha se encuentra la
gráfica de residuales. A simple vista, esta gráfica inclina la gráfica de dispersión colocando la
línea de ajusta de forma horizontal, permitiendo dimensionar de mejor manera las distancias de
los errores.
Figura 17-14: Gráfico de dispersión y gráfica de residuales de estimación de eliminación de alcohol de la sangre
En la figura se puede además identificar algunos puntos que se encuentran alejados del cúmulo
de puntos. A estos se los conoce como valores fuera de rango, valores atípicos u outliers. Los
outliers son importantes ya que pueden generar una influencia importante en el ajuste lineal del
modelo de regresión. Analizando nuevamente la gráfica de residuales para nuestro ejemplo,
notamos que los puntos resaltados en la Figura 1-15, se encuentran ligeramente alejados del resto.
300
Figura 17-15: Gráfica de residuales con datos atípicos identificados
Como vemos, estos valores resaltados en verde presentan errores positivos altos. Aun si se tienen
estos puntos atípicos, su influencia no es demasiado significativa, pues al retirarlos (Figura 1-16),
la línea de ajuste varía mínimamente.
301
Al trabajar con datos atípicos, debemos cuidarnos de aquellos valores de alto apalancamiento y
de alta influencia. Los valores de alto apalancamiento son aquellos que se encuentran alejados
del cúmulo de información en el eje de las X, que ejercen un peso importante al determinar la
pendiente. Mientras que los valores de alta influencia son aquellos que además de encontrarse
alejados en el eje de las X, también lo hace en el eje de las Y (Figura 1-17).
Figura 17-17: Casos de datos atípicos con alta influencia y alto apalancamiento
Nunca se debería eliminar un outlier, ya que este puede tener información importante, que a pesar
de que no genere un ajuste lineal perfecto, indica una tendencia importante de los datos. Lo que
se puede hacer es correr el análisis con y sin valores atípicos, reportando así ambos resultados, de
manera que la investigación toma en cuenta la influencia que estos datos ejercen sobre el modelo
de regresión generado.
302
Mediana: 0.3515 83.50 0.2770 49.50
Media : 0.3594 84.60 0.2753 49.10
3rd Cuartil : 0.3912 89.25 0.2815 63.75
Max. : 0.5480 96.00 0.2920 72.00
En este caso deseamos predecir el consumo de helado (variable dependiente) a partir de tres
variables independientes: ingreso, precio y temperatura. Este tipo de análisis se conoce como
regresión lineal múltiple. En esencia sigue los mismos principios que la regresión lineal simple
pero con una mayor cantidad de predictores. Este modelo obedece a la siguiente expresión
matemática:
El subíndice k indica el número de predictores. Generalmente los valores de las constantes 𝛽̂𝑖 se
calculan a través de softwares estadísticos, ya que los cálculos pueden llegar a ser demasiado
extensos, según el número de predictores que se introduzcan en el modelo.
En estos modelos se incluyen todas las variables probablemente relevantes, de manera que se
pueda analizar la relación entre una variable de predicción con la variable respuesta, controlando
al mismo tiempo la influencia de otras variables. Este modelo no implica una relación causal, sin
embargo, es un primer paso para explorar este tipo de conexiones entre variables.
Para encontrar una ecuación que se ajuste a los datos de consumo de helado, se sigue el mínimo
procedimiento de mínimos cuadrados, que permita reducir la suma del cuadrado de los residuales.
La ecuación resultante para este conjunto de datos se muestra a continuación, y el resultado
generado a partir del software, en la Tabla 1-3.
Tabla 17-3: Resumen estadístico de modelo de regresión lineal múltiple para set de datos de consumo de helado
303
Como se observa en la Tabla 1-3, existen 3 predictores (k) además de un intercepto. Cabe recalcar
que los grados de libertad en estos modelos se calcula de manera diferente (𝐺𝐿 = 𝑛 − (𝑘 + 1),
sabiendo que existen 30 observaciones en el set de datos, y que se trabaja con tres predictores, el
número de grados de libertad es de 26.
Es importante tomar en cuenta dentro de este tipo de modelos, factores de colinealidad entre los
variables. La colinealidad se refiere a una posible correlación entre los predictores. La Tabla 1-4
presenta una matriz de correlación de las variables independientes utilizadas para estimar el
consumo de helado.
Tabla 17-4: Matriz de correlación entre variables predictores del modelo de estimación de consumo de helado
Aun si en este conjunto particular no se encuentren correlaciones elevadas entre los predictores,
es importante tomar en cuenta este tipo de relaciones, que aunque son muy difíciles de evitar,
pueden generar un sesgo en los resultados, presentando un coeficiente de determinación más
elevado que el verdadero ajuste de los datos. Es importante determinar que todas las variables
efectivamente están midiendo distintos factores de influencia sobre la variable resultante, y que
en realidad no se está ingresando dos o más variables que podrían disminuir la capacidad de
predicción del modelo.
La Comisión Federal de Comercio de los Estados Unidos, tiene como una de sus misiones
promover los derechos de los consumidores. Uno de los productos por la CFC son los
cigarrillos, debido a su afección al organismo del ser humano. Uno de los subproductos
emitidos por el consumo del tabaco es el monóxido de carbón (CO), el cual ha sido relacionado
positivamente, en estudios previos, con el contenido de alquitrán y de nicotina que contenga
el cigarrillo.
Por tanto, a partir de información de 24 marcas de cigarrillo, conteniendo 4 variables: peso del
cigarrillo, contenido de nicotina, contenido de alquitrán y cantidad de monóxido de carbono
generado; se busca generar un modelo de regresión que permita determinar la cantidad de CO
generado a partir de la cantidad de nicotina y alquitrán presente en el cigarrillo.
Para ello, se plantea un modelo de regresión de la forma:
304
𝐶𝑂 = 𝛽̂0 + 𝛽̂1 ∗ 𝑎𝑙𝑞𝑢𝑖𝑡𝑟á𝑛 + 𝛽̂2 𝑛𝑖𝑐𝑜𝑡𝑖𝑛𝑎
Al correr el modelo en un software estadístico obtenemos el siguiente resultado:
Estimado Error Estándar Valor-t Pr(>|t|)
Intercepto 1.3089 0.8483 1.543 0.137795
Alquitrán 0.8918 0.1927 4.628 0.000145
Nicotina 0.6289 3.2034 0.196 0.846235
GL: 21
2 2
R múltiple: 0.9336, R ajustado: 0.9273, valor-p: 4.304e-13
Una vez generado el modelo de regresión múltiple, se observa que uno de los regresores, la
nicotina, no es significativo, ya que su valor-p es mayor a 0.05. Para indagar en la causa de
esta falta de significancia, considerando que el coeficiente de determinación indica que un
93.36% de la variabilidad del modelo se explica con ambas variables, se realiza un análisis
individual de las variables y su relación con la variable dependiente que se pretende estimar,
en este caso el CO.
Para ello se ha generado una matriz de correlación, en la que se indica una gráfica de dispersión
de cada una de las variables en la parte inferior izquierda, mientras que en la sección superior
izquierda se observan los valores-p correspondientes a cada una de las relaciones planteadas
así como el coeficiente de correlación para cada relación.
Se observa claramente que tanto la nicotina como el alquitrán presentan una correlación lineal
positiva con el CO, con coeficientes de correlación de 0.93 y 0.97 respectivamente y además
que su relación es significativa. Estas altas correlaciones para ambas variables, insta al
investigador a analizar la relación existente entre los dos predictores. En la matriz se observa
claramente que existe una relación lineal, positiva y significativa entre el alquitrán y la nicotina
con un r = 0.96.
305
Este es un típico caso de colinealidad, en el cual se identifican dos variables significativamente
relacionadas entre sí. Al analizar esta particularidad en el modelo, se puede concluir que desde
el punto de vista de la precisión estadística, es poco recomendable tener correlaciones altas
entre los predictores, considerando que se introduce una inflación de información al modelo.
Desde el punto de vista práctico, se considera un gasto de recursos, al momento por ejemplo
de recolectar los datos, pues de ahora en adelante, se podría estimar el CO únicamente a partir
de una de las dos variables independientes.
¿Cuál sería la variable a seleccionar para la predicción del CO? Esto se determina fácilmente,
en este ejemplo, ya que justamente la nicotina fue un regresor no significativo en el modelo
generado. Por lo tanto, el alquitrán será el regresor utilizado para predecir el CO. El modelo
resultante sería el siguiente:
𝐶𝑂 = 1.41285 + 0.92813 ∗ 𝑎𝑙𝑞𝑢𝑖𝑡𝑟á𝑛
Estimado Error Estándar Valor-t Pr(>|t|)
Intercepto 1.41285 0.64822 2.18 0.0403
Alquitrán 0.92813 0.05283 17.57 1.96e-14
GL: 22
R2 múltiple: 0.9335, R2 ajustado: 0.9304, valor-p: 1.964e-14
306
Una manera de reportar el ajuste lineal del modelo, como se vio en las secciones anteriores, es
utilizando el coeficiente de determinación – R cuadrado. Como se observa en el ejemplo del
consumo de helado, un 71.9% de la variación es reducido al estimar el consumo a partir de los
ingresos familiares, precio del helado y temperatura ambiente. Sin embargo, este valor deja de ser
completamente válido al añadir más de una variable al modelo de regresión. Esto se debe a los
grados de libertad que disminuyen en el cómputo y a las posibles relaciones de colinealidad que
se presenten. Por ello, el reporte de la varianza se lo realiza preferentemente con un coeficiente
de determinación ajustado – R cuadrado ajustado. Su cálculo se lo realiza tomando en cuenta
los grados de libertad con la siguiente ecuación:
En la Tabla 1-3, se observa el valor computado de R cuadrado ajustado, indicando que en realidad
el modelo disminuye un 68.66% de la variación. Este valor generalmente disminuye con respecto
al valor original de R cuadrado, ajustando el valor a los sesgos que se puedan dar en la
información.
La selección de variables puede realizarse a partir de dos parámetros calculados para el modelo
generado, generalmente en softwares estadísticos. El primero es el coeficiente de determinación
ajustado (R2) para todo el modelo y el segundo es el valor-p de cada regresor del modelo
generado. Para cada metodología existen dos formas de hacer el análisis, a través de una
eliminación en retroceso o de una selección progresiva. Estas consisten en eliminar o agregar una
variable a la vez con los posibles regresores del modelo final.
307
Las estaciones meteorológicas generalmente vienen equipadas con diversos sensores que
permiten medir variables como la temperatura, humedad relativa, radiación solar, dirección y
velocidad del viento, presión atmosférica, precipitación, entre aquellos parámetros básicos. Sin
embargo, se pueden adaptar sensores adicionales que permiten medir, por ejemplo, contaminantes
atmosféricos. Estos sensores no vienen incluida con la estación y pueden representar grandes
sumas de dinero, lo que para un presupuesto ajustado puede significar un gran gasto. Para ello se
buscan generar distintas alternativas de medición.
Para armar este modelo de regresión múltiple utilizamos una selección de variables basado en el
coeficiente de determinación de los modelos generados, incluyendo sucesivamente variables a
través de una selección progresiva. Primero analizaremos el ajuste de cada variable independiente
con la variable dependiente.
Coeficiente de
Modelo determinación ajustado (R2
ajustado)
Ozone ~ Viento 0.3563
Ozono ~ Presión 0.0005391
Ozono ~ Temperatura 0.4832
Ozono ~ R. Solar 0.1133
De los modelos bivariados generados se observa que el modelo Ozono ~ Temperatura presenta el
mayor coeficiente de determinación ajustado, indicando que la variable Temperatura reduce un
308
48.32% de la variabilidad del modelo. Una vez seleccionada la primera variable, procederemos a
añadir las siguientes como segunda variable independiente, obteniendo los siguientes resultados:
Coeficiente de determinación
Modelo
ajustado (R2 ajustado)
Ozono ~ Temperatura + Viento 0.5611
Ozono ~ Temperatura + Presión 0.4786
Ozono ~ Temperatura + R. Solar 0.5012
Al agregar una nueva variable, podemos notar que el regresor Viento aumenta significativamente
la variabilidad reducida del modelo en un 56.11%. Por lo tanto, nuestro modelo actual Ozono ~
Temperatura + Viento puede ser evaluado nuevamente al incluir otra variable independiente,
resultando de la siguiente manera:
Coeficiente de determinación
Modelo
ajustado (R2 ajustado)
Ozono ~ Temperatura + Viento + Presión 0.5573
Como podemos ver, el modelo mejora, al presentar un coeficiente de determinación ajustado que
aumenta la reducción de variabilidad en un 3.37%. Por lo tanto la variable R. Solar se incluye al
modelo de regresión múltiple. Por último, agregamos la última variable y observamos los
resultados:
Coeficiente de determinación
Modelo
ajustado (R2 ajustado)
Ozono ~ Temperatura + Viento + R. Solar +
0.5926
Presión
309
Temperatura 1.65209 0.25353 6.516 2.42e-09
Viento -3.33359 0.65441 -5.094 1.52e-06
R. Solar 0.05982 0.02319 2.580 0.01124
GL: 107
R2 múltiple: 0.6059, R2 ajustado: 0.5948, valor-p: <2.2e-16
Para ilustrar el siguiente método de selección de variables, se toma un set de datos modificado
para el presente ejemplo sobre pobreza, desempleo y la tasa de asesinatos para una muestra de 20
ciudades de Estados Unidos. El objetivo es determinar la razón de asesinatos a partir de cierta
cantidad de variables, las cuales se detallan a continuación, para su posterior selección.
Las variables independientes han sido recolectadas debido a estudios que indican que estos
posibles regresores pueden influenciar en la tasa de asesinatos de una ciudad. Para seleccionar la
mejor combinación de estos para generar el modelo, aplicaremos una eliminación en retroceso
basada en los valores-p de cada variable independiente. El modelo analizado:
𝑇. 𝐴𝑠𝑒𝑠𝑖𝑛𝑎𝑡𝑜𝑠 = 𝛽̂0 + 𝛽̂1 ∗ 𝑃𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 + 𝛽̂2 ∗ 𝐷𝑒𝑠𝑒𝑚𝑝𝑙𝑒𝑜 + 𝛽̂3 ∗ 𝑃𝑜𝑏. 𝑀𝑎𝑠𝑐. +𝛽̂4 ∗ 𝐼𝑛𝑔𝑟𝑒𝑠𝑜𝑠
Y su tabla resumen:
310
Desempleo 4.731 1.581 2.992 0.00912
Pob. Masculina -6.84e-07 4.637e-06 -0.148 0.88469
Ingresos 1.151 6.427e-01 1.791 0.09346
GL: 15
R2 múltiple: 0.8186, R2 ajustado: 0.7702, valor-p: 1.967e-05
Al analizar la tabla observamos que algunos de los regresores presentan un valor-p > 0.05. Este
método consiste en eliminar la variable que presente el mayor valor-p y generar un nuevo modelo.
De esta tabla identificamos el regresor menos significativo, es decir con el valor-p más alto,
corresponde a la variable Población. Por tanto, eliminamos este regresor y continuamos con el
análisis.
En este último análisis podemos notar que todos los valores-p son significativos (< 0.05), por lo
tanto, se ha llegado al modelo de regresión final. Notamos que el valor-p final es bastante
significativo y que inclusive el valor del coeficiente de determinación ajustado aumenta a medida
que se eliminan las variables. Esto no suele suceder en todos los casos. En algunas ocasiones, al
311
aplicar ambas metodologías a un conjunto de datos, se pueden obtener modelos diferentes. La
técnica que se aplique dependerá del investigador y de los resultados generados con cada una.
Para ilustrar estas gráficas e interpretarlas tomaremos el ejemplo de un kinesiólogo, quien está
investigando medidas de la aptitud física de personas que están por participar en carreras de 10K.
Uno de los componentes que permiten determinar la aptitud física global de una persona es su
capacidad cardiorrespiratoria, la cual se mide a través de la captación máxima de oxígeno. Esta
medición directa suele ser costosa, y por lo tanto, difícil de aplicar a grandes grupos de individuos
en un tiempo razonable.
Por lo tanto, decide predecir la captación máxima de oxígeno a partir de variables explicativas
fácilmente medibles de los corredores. Para un estudio preliminar, se seleccionan aleatoriamente
54 corredores varones, y se determinan las siguientes medidas:
Tabla 17-7: Descripción de las variables para la determinación de la captación máxima de oxígeno
Variable Descripción
Oxígeno Captación máxima de oxígeno en litros por minuto
Peso Peso del corredor en kilogramos
Edad Edad del corredor en kilogramos
Tiempo Tiempo necesario para caminar 1.6 km en minutos
Pulso Pulso cardiaco medido al final de la caminata en pulsaciones por minuto
𝑂𝑥í𝑔𝑒𝑛𝑜 = 𝛽̂0 + 𝛽̂1 ∗ 𝑃𝑒𝑠𝑜 + 𝛽̂2 ∗ 𝐸𝑑𝑎𝑑 + 𝛽̂3 ∗ 𝑇𝑖𝑒𝑚𝑝𝑜 + 𝛽̂4 ∗ 𝑃𝑢𝑙𝑠𝑜
Tabla 17-8: Resumen estadístico de modelo lineal múltiple para predicción de captación máxima de oxígeno
312
R2 múltiple: 0.5815, R2 ajustado: 0.5474
Error residual estándar: 0.2994, valor-p: 8.195e-09
Conociendo que el modelo reduce un 54.74% de la variabilidad de estimación del oxígeno con
los predictores utilizados, y obteniendo un valor significativo para el valor-p, procedemos a
realizar un análisis de los residuales, como una fase final para la aceptación del modelo.
Lo que se quiere comprobar con el análisis de los residuales de un modelo es que los mismos
cumplan con las condiciones presentadas previamente en la figura 1-3. Recapitulando, se busca
que las variables predictoras sean relevantes y se encuentren linealmente relacionadas con la
variable dependiente (lo cual se asegura con la selección de variables) y, que los residuales se
encuentren normalmente distribuidos, que su variabilidad sea constante y que sean
independientes. Para ello se analizan las gráficas de residuales que se resumen en las siguientes
secciones.
313
Figura 17-18: Gráfica de residuales vs. valores ajustados para el modelo de predicción de captación máxima de
oxígeno
Como se observa en la Figura 1-17, el modelo de predicción de la variable Oxígeno presenta una
distribución normal de sus residuales. En caso de que alguno de los residuales se encontrara fuera
del 95% de confianza calculado alrededor del conjunto de datos y representado con líneas
punteadas, consideraríamos ese dato como un valor atípico.
314
Figura 17-19: Gráfica de probabilidad normal para el modelo de predicción de captación máxima de oxígeno
El primer concepto se refiere a los residuales estandarizados, que hemos visto representados en
la gráfica de probabilidad normal. Esta transformación de los valores residuales consiste en
estandarizar los mismos, a través del cálculo del error estándar de la regresión. Por lo tanto, la
regla de oro indica que considerando un 95% de confianza, se puede concluir que aquellos valores
que se encuentren a ± 2 desviaciones estándar de la media, son considerados valores atípicos
estadísticamente significativos.
Los siguientes conceptos son los Valores-Hat y la Distancia de Cook. Ambas son medidas
calculadas para cada una de las observaciones del modelo, que combinan información de valores
de apalancamiento e influencia. Para el caso de los Valores-Hat, la regla de oro indica que aquellos
valores aproximadamente dos veces superiores al Valor-Hat promedio, debería considerarse
como notable.
315
Ecuación 17-10: Cálculo de valor-Hat promedio
(𝑘 + 1)
ℎ̅ =
𝑛
Para la Distancia de Cook, el estándar de oro se determina a través de la Ecuación 1-11. Aquellos
valores que cumplan con esta condición, serán considerados puntos notables. Los valores de la
Distancia de Cook y Valores-Hat se determinan preferiblemente a partir de softwares estadísticos.
4
𝐷𝑖 ≥
𝑛 − (𝑘 + 1)
Con estos conceptos se puede finalmente, construir la gráfica de influencia, la cual presenta en su
eje Y los residuales estandarizados, en su eje X los Valores-Hat, y como círculos que difieren en
tamaños, los cuales son proporcionales a la Distancia de Cook de cada residual analizado, como
se observa en la Figura 1-18.
Figura 17-20: Gráfica de influencia para el modelo de predicción de captación máxima de oxígeno
316
Se observan líneas de referencia en el gráfico, que justamente corresponden a las reglas de oro.
Aquellas líneas horizontales corresponden a ± 2 desviaciones estándar de la media para analizar
los residuales estandarizados. Mientras que la primera línea horizontal indica el valor-Hat
promedio calculado con la Ecuación 1-10.
Para nuestro ejemplo, podemos comprobar que existen tres observaciones notables, según las
reglas de oro, correspondiendo estas al individuo 18, 21 y 43. Notamos que el valor 43 se ha
marcado debido a la regla de oro del Valor-Hat, ya que su valor es mayor al doble de la media
4+1
(ℎ̅ = 54 = 0.0925 ∗ 2 = 0.185). La observación 18 se ha marcado ya que se encuentra a más -
Se consideraría retirar estos valores identificados en el caso de que estos hubieran aparecido
también en la gráfica de probabilidad normal, pero al no ser este el caso, se descarta este
procedimiento.
Es importante realizar estas gráficas de diagnóstico, ya que dan soporte al modelo generado,
incrementando la credibilidad en los resultados generados. Además permitirá identificar las
limitaciones del modelo, permitiendo de esta manera ajustar a las variables que sean necesarias,
o en su caso, ajustar los datos a otro tipo de modelo, posiblemente, no-lineal.
317
Referencias
Lista de Referencias
Awata, H., Linder, S., Mitchell, L. E., & Delclos, G. L. (2017). Association of Dietary Intake and
Biomarker Levels of Arsenic, Cadmium, Lead, and Mercury among Asian Populations
in the United States: NHANES 2011-2012. Environmental Health Perspectives, 125(3),
314-323. doi:10.1289/EHP28.
Barr, C., Diez, D. M., & Rundel, C. (2016). OpenIntro statistics(3rd ed.).
Bermúdez, M. P., Ramiro, M. T., Teva, I., Ramiro-Sánchez, T., & Buela-Casal, G. (2018).
Conducta sexual y realización de la prueba del virus de la inmunodeficiencia humana en
jóvenes que estudian en la universidad en Cuzco (Perú). Gaceta Sanitaria, 32(3), 223-
229. doi:https://doi.org/10.1016/j.gaceta.2017.07.002
Chang, S.-C., Cassidy, A., Willett, W. C., Rimm, E. B., O’Reilly, E. J., & Okereke, O. I. (2016).
Dietary flavonoid intake and risk of incident depression in midlife and older women. The
American Journal of Clinical Nutrition, 104(3), 704-714. doi:10.3945/ajcn.115.124545
Chuica Bustamante, A. (2015). Diagrama de Cajas y Bigotes. Retrieved from
http://cajaybigotes.blogspot.com/2015/06/diagrama-de-caja-y-bigote.html
Cohen, D. A., & Babey, S. H. (2012). Contextual influences on eating behaviours: heuristic
processing and dietary choices. Obesity Reviews, 13(9), 766-779. doi:10.1111/j.1467-
789X.2012.01001.x
Cornell University. (2015). The Cornell lab of Ornithology. All about birds. Retrieved from
https://www.allaboutbirds.org/guide/Blue_Jay/id
¿Cuánto mide y pesa el Mexicano promedio? . (2015). SILAO El corazón de México.
Giraldo-Gómez, J. M., Lora, F., Henao, L. H., Mejía, S., & Gómez-Marín, J. E. (2005).
Prevalencia de giardiasis y parásitos intestinales en preescolares de hogares atendidos en
un programa estatal en Armenia, Colombia. Revista de Salud Pública, 7(3), 327-338.
doi:10.1590/S0124-00642005000300008
Hong, J.-C., Steiner, T., Aufy, A., & Lien, T.-F. (2012). Effects of supplemental essential oil on
growth performance, lipid metabolites and immunity, intestinal characteristics,
microbiota and carcass traits in broilers. Livestock Science, 144(3), 253-262.
doi:10.1016/j.livsci.2011.12.008
Hu, F. B. (2013). Resolved: there is sufficient scientific evidence that decreasing sugar-sweetened
beverage consumption will reduce the prevalence of obesity and obesity-related diseases.
Obesity Reviews, 14(8), 606-619. doi:10.1111/obr.12040
Instituto Nacional del Cáncer. (2019). Diccionario de cáncer. Retrieved from
https://www.cancer.gov/espanol/publicaciones/diccionario/def/bioestadistica
Karadede, H., & Ünlü, E. (2000). Concentrations of some heavy metals in water, sediment and
fish species from the Atatürk Dam Lake (Euphrates), Turkey. Chemosphere, 41(9), 1371-
1376. doi:https://doi.org/10.1016/S0045-6535(99)00563-9
Kohout, F. J., Berkman, L. F., Evans, D. A., & Cornoni-Huntley, J. (1993). Two shorter forms of
the CES-D (Center for Epidemiological Studies Depression) depression symptoms index.
Journal of Aging and Health, 5(2), 179-193. doi:10.1177/089826439300500202
La Estadística y la Probabilidad. (s.f.). Retrieved from
http://www.salonhogar.net/Salones/Matematicas/4-6/datos_estadisticas/indice3.htm
Lachat, C., Nago, E., Verstraeten, R., Roberfroid, D., Van Camp, J., & Kolsteren, P. (2012).
Eating out of home and its association with dietary intake: a systematic review of the
evidence. Obesity Reviews, 13(4), 329-346. doi:10.1111/j.1467-789X.2011.00953.x
LaCroix, A. Z., Bellettiere, J., Rillamas-Sun, E., Di, C., Evenson, K. R., Lewis, C. E., . . .
Initiative, f. t. W. s. H. (2019). Association of Light Physical Activity Measured by
Accelerometry and Incidence of Coronary Heart Disease and Cardiovascular Disease in
Older WomenLight Physical Activity and Incidence of CHD and CVD in Older
WomenLight Physical Activity and Incidence of CHD and CVD in Older Women. JAMA
Network Open, 2(3), e190419-e190419. doi:10.1001/jamanetworkopen.2019.0419
Lim, S. S., Vos, T., Flaxman, A. D., Danaei, G., Shibuya, K., Adair-Rohani, H., . . . Ezzati, M.
(2012). A comparative risk assessment of burden of disease and injury attributable to 67
risk factors and risk factor clusters in 21 regions, 1990–2010: a systematic analysis for
361
Lista de Referencias
the Global Burden of Disease Study 2010. The Lancet, 380(9859), 2224-2260.
doi:10.1016/S0140-6736(12)61766-8
Lock, R. (2013). Stat2Data: Datasets for Stat2. R package version 1.6. https://CRAN.R-
project.org/package=Stat2Data
Murrough, J. W., Iosifescu, D. V., Chang, L. C., Jurdi, R. K. A., Green, C. E., Perez, A. M., . . .
Mathew, S. J. (2013). Antidepressant Efficacy of Ketamine in Treatment-Resistant Major
Depression: A Two-Site Randomized Controlled Trial. American Journal of Psychiatry,
170(10), 1134-1142. doi:doi:10.1176/appi.ajp.2013.13030392
Mykletun, A., Stordal, E., & Dahl, A. A. (2001). Hospital Anxiety and Depression (HAD) scale:
factor structure, item analyses and internal consistency in a large population. The British
journal of psychiatry, 179(6), 540-544. doi:10.1192/bjp.179.6.540
National Library of Medicine (NLM). (2017). ClinicalTrials.gov. Retrieved from
https://clinicaltrials.gov/
Netsi, E., Pearson, R. M., Murray, L., Cooper, P., Craske, M. G., & Stein, A. (2018). Association
of Persistent and Severe Postnatal Depression With Child OutcomesAssociation of
Persistent and Severe Postnatal Depression With Child OutcomesAssociation of
Persistent and Severe Postnatal Depression With Child Outcomes. JAMA Psychiatry,
75(3), 247-253. doi:10.1001/jamapsychiatry.2017.4363
Ng, M., Fleming, T., Robinson, M., Thomson, B., Graetz, N., Margono, C., . . . Gakidou, E.
(2014). Global, regional, and national prevalence of overweight and obesity in children
and adults during 1980-2013: a systematic analysis for the Global Burden of Disease
Study 2013. Lancet, 384(9945), 766-781. doi:10.1016/s0140-6736(14)60460-8
Pun, V. C., Manjourides, J., & Suh, H. (2017). Association of ambient air pollution with
depressive and anxiety symptoms in older adults: results from the NSHAP study.
Environmental health perspectives, 125(3), 342. doi:10.1289/EHP494.
Real Academia de la Lengua (RAE). (2017). Diccionario de la Lengua Española. Retrieved from
http://dle.rae.es/?id=DgIqVCc
The Quantile Framework for Mathematics. (2017). Performance Standards. Retrieved from
https://www.quantiles.com/content/benefits-for-educators/performance-standards/
UCLA: Statistical Consulting Group. Choosing the correct statistical test in SAS, Stata, SPSS and
R. Retrieved from http://stats.idre.ucla.edu/other/mult-pkg/whatstat/
Verma, Y. (2008). Acute toxicity assessment of textile dyes and textile and dye industrial effluents
using Daphnia magna bioassay. Toxicology and industrial health, 24(7), 491-500.
Visually. (s.f.). How long do animals live? Retrieved from http://visual.ly/how-long-do-animals-
live
Von Elm, E., Altman, D. G., Egger, M., Pocock, S. J., Gøtzsche, P. C., Vandenbroucke, J. P., &
Initiative, S. (2014). The Strengthening the Reporting of Observational Studies in
Epidemiology (STROBE) Statement: guidelines for reporting observational studies.
International Journal of Surgery, 12(12), 1495-1499.
Ward, M. A., Schweizer, M. L., Polgreen, P. M., Gupta, K., Reisinger, H. S., & Perencevich, E.
N. (2014). Automated and electronically assisted hand hygiene monitoring systems: A
systematic review. American Journal of Infection Control, 42(5), 472-478.
doi:https://doi.org/10.1016/j.ajic.2014.01.002
World Health Organization. (2009). WHO guidelines on hand hygiene in health care: first global
patient safety challenge. Clean care is safer care: World Health Organization.
Yu, Z., Malik, V. S., Keum, N., Hu, F. B., Giovannucci, E. L., Stampfer, M. J., . . . Bao, Y. (2016).
Associations between nut consumption and inflammatory biomarkers. The American
Journal of Clinical Nutrition, 104(3), 722-728. doi:10.3945/ajcn.116.134205
362