0% encontró este documento útil (0 votos)
210 vistas122 páginas

Estadísticas en Investigación de Salud

Este documento presenta un ejemplo de cómo se puede aplicar la estadística en una investigación con seres humanos. Describe un estudio de cohorte prospectivo que evaluó los beneficios de la actividad física leve en mujeres mediante el análisis de datos como IMC, colesterol y tiempo de actividad física. Explica cómo los datos se ingresan en una base con participantes en filas y variables en columnas, y cómo se resumen los datos según cuartiles para explorar posibles asociaciones antes de realizar análisis estadísticos

Cargado por

Angie Flores
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
210 vistas122 páginas

Estadísticas en Investigación de Salud

Este documento presenta un ejemplo de cómo se puede aplicar la estadística en una investigación con seres humanos. Describe un estudio de cohorte prospectivo que evaluó los beneficios de la actividad física leve en mujeres mediante el análisis de datos como IMC, colesterol y tiempo de actividad física. Explica cómo los datos se ingresan en una base con participantes en filas y variables en columnas, y cómo se resumen los datos según cuartiles para explorar posibles asociaciones antes de realizar análisis estadísticos

Cargado por

Angie Flores
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

12 El ingreso de los datos y tipos de variables

La Estadística se define como la “Rama de la matemática que utiliza grandes conjuntos de datos
numéricos para obtener inferencias basadas en el cálculo de probabilidades” (Real Academia de
la Lengua (RAE), 2017); o como “El estudio de los datos cuantitativos de la población, de los
recursos naturales e industriales, del tráfico o de cualquier otra manifestación de las sociedades
humanas” (Real Academia de la Lengua (RAE), 2017). Por su parte la Bioestadística es la
“Ciencia en la que se obtienen y analizan datos biológicos o de salud por medio de métodos
estadísticos” (Instituto Nacional del Cáncer, 2019). La estadística no es únicamente el análisis de
datos, es parte fundamental del proceso de investigación e incluye la recolección, el análisis y la
generación de conclusiones. Por lo tanto, es de suma importancia ingresar y manejar
correctamente los datos obtenidos de una investigación con la finalidad de que sean confiables y
permitan sacar conclusiones válidas. Así mismo, es necesario tener clara la pregunta de
investigación desde el inicio y aplicar correctamente las herramientas estadísticas de acuerdo con
las particularidades de cada pregunta de investigación.

12.1 De la pregunta de investigación al ingreso de los datos y el análisis


estadístico
En la primera sección del libro se abordó el plan de tabulación y análisis, de tal manera que, al
redactar el protocolo de investigación, el investigador define con antelación el proceso de análisis
de datos. El Ejemplo 12-1 esquematiza el proceso del paso de una pregunta de investigación, al
ingreso de los datos y el análisis estadístico.

Ejemplo 12-1 Aplicación de la Estadística en la investigación con seres humanos

Se sabe que la práctica de actividad física es clave para prevenir las enfermedades
cardiovasculares; investigaciones recientes evalúan los beneficios de las actividades leves, es
decir, aquellas que se realizan cotidianamente como caminar al trabajo, pasear al perro,
planchar, limpiar el polvo, etc. Se realiza una investigación, de cohorte prospectivo con
seguimiento desde el 2012 hasta el 2017 a un total de 5861 mujeres para evaluar los beneficios
en la salud de las actividades físicas leves medidas objetivamente mediante acelerómetros
(LaCroix et al., 2019). La Tabla 12-1 muestra una pequeña parte de cómo se vería la base de
datos del estudio al momento en el que las pacientes se incorporan al mismo (primera
evaluación) con su respectiva descripción (datos ficticios para el ejemplo).

198
Tabla 12-1 Resumen de la base de datos al inicio del estudio

ID Edad Raza IMC Colesterol HDL

1 70.5 Blanca 31.2 250.5 34.9

2 75.3 Blanca 28.0 187.4 56.9

3 82.9 Hispana 24.5 145.8 67.9

. . . .
. . . .
. . . .
5860 67.6 Negra 32.8 239.0 45.9

5861 73.6 Negra 38.9 280.7 34.0


Variables Descripción
ID Número único de identificación
Edad Edad de las participantes en años al inicio del estudio
Raza Etnia autoidentificada según cuestionario (blanca/negra/hispana)
IMC Índice de masa corporal (kg/m2)
Colesterol Colesterol total en sangre (mg/dL)
HDL Colesterol HDL en sangre (mg/dL)
Datos ficticios a partir de (LaCroix et al., 2019)

12.1.1 Aspectos básicos del ingreso de los datos


Una vez recolectados los datos de una investigación, éstos deben ingresarse en una base de datos.
La base de datos debe construirse con cada observación (i.e. persona) con su número único de
identificación dispuestas en filas, mientras que en las columnas se colocan las variables que se
han medido (i.e. edad). Las variables son atributos o características de las observaciones, por
ejemplo, en la base de datos del estudio de actividad física, las observaciones corresponden a cada
una de las 5861 mujeres que formaron parte del estudio, cada participante está distribuida en una
fila diferente y tienen su número único de identificación (Tabla 12-1), la base de datos del
ejemplo, contiene cinco variables dispuestas en diferentes columnas: Edad, Raza, IMC,
Colesterol, HDL; estás son características de cada una de las mujeres incluidas en el estudio, así,
en el caso para la participante # 1, tiene 70.5 años, es de raza blanca, tiene un IMC de 31.2 kg/m2,
etc.

El número de identificación que se le asigna a cada observación debe ser un único número, es
decir no debe contener letras ni otros caracteres, a cada participante se le debe asignar este único
número de identificación al momento que a aceptado participar mediante un consentimiento
informado. Es el investigador principal quien asignará los números de identificación a los
participantes a medida que se van llenando las encuestas o realizando las mediciones de interés.

199
Los investigadores, deben llevar un registro del número de identificación asignado a cada sujeto
u objeto de estudio, y, todos los instrumentos que se le apliquen a un mismo sujeto tendrán
siempre el mismo número de identificación. Esto es de importancia también para mantener la
confidencialidad de los participantes, al utilizar las bases de datos, se debe eliminar los nombres
de los participantes manteniendo únicamente los códigos de identificación.

Cada base de datos debe ir acompañada de una descripción detallada de cada variable tal como
se muestra en la Tabla 12-1. Para facilitar el análisis de los datos, se recomienda nombrar las
variables de manera sencilla, con una sola palabra clave, evite usar tildes o cualquier carácter
especial. No será necesario colocar un nombre demasiado extenso o explicativo a las variables,
en la descripción se describe el significado de cada una de las variables de la base de datos

Siga un proceso estándar para datos perdidos; en la medida de los posible, evite tener datos
perdidos. Sin embargo, si existieran datos perdidos codifíquelos siempre de la misma manera. Se
recomienda: colocar NA en los datos perdidos.

12.1.2 La base de datos y la pregunta de investigación


Para responder las preguntas de investigación, es necesario presentar un resumen de los datos. La
Tabla 12-2 muestra un resumen algunos datos del Ejemplo 12-1 para la primera medición de las
participantes de acuerdo con los cuartiles de actividad física. Los cuartiles son unidades de
posición, dividen a los datos ordenados de manera ascendente en cuatro partes iguales, de manera
que en el cuartil más bajo están las mujeres que invierten menos tiempo al día en actividades
físicas leves, y en el más alto aquellas que invierten más tiempo en este tipo de actividades.

Al observar los datos de la tabla, se puede apreciar que hay una tendencia, por ejemplo, para la
variable IMC, el promedio en las mujeres del primer cuartil es de 30.2, en el cuartil dos es 28.6,
en el tercero 27.5 y en el cuarto 26.3; esto parece indicar que a medida que aumenta el tiempo que
las mujeres invierten en actividades físicas leves, su índice de masa corporal disminuye.

Ejercicio 12-1

Revise las demás variables de la Tabla 12-2, indique si identifica otras tendencias

No sería correcto en este punto concluir que el tiempo que se invierte en actividades físicas leves
guarda una relación con el índice de masa corporal de las mujeres, para saber si la tendencia
presentada es real (es estadísticamente significativa) se deben realizar análisis pertinentes que
prueben la existencia de la asociación aparente. La pregunta estadística consiste en determinar si
las asociaciones o diferencias encontradas son reales o se deben únicamente al azar.

200
Tabla 12-2 Características de las mediciones iniciales por cuartil de tiempo invertido en actividades físicas leves entre 5861 mujeres.

Cuartil 1 Cuartil 2 Cuartil 3 Cuartil 4 Valor P

Nro. 1466 1465 1465 1465

Edad en años, promedio (DE) 79.9 (6.7) 78.7 (6.7) 78.1 (6.6) 77.4 (6.5) <0.001

Raza. No. (%)

Blanca 895 (61.1) 742 (50.6) 655 (44.7) 571 (39.0)

Negra 399 (27.2) 490 (33.4) 524 (35.8) 553 (37.7) <0.001

Hispana 172 (11.7) 233 (15.9) 286 (19.5) 341 (23.3)

Actividad Física leve, promedio (DE), min/día 196.0 (32.2) 262.2 (14.2) 309.6 (14.0) 379.6 (38.8) <0.001

IMC, promedio (DE), kg/m2 30.2 (6.2) 28.6 (5.5) 27.5 (5.3) 26.3 (5.1) <0.001

Colesterol total, promedio (DE), mg/dL 195.4 (40.0) 198.1 (39.6) 199.9 (39.4) 202.5 (38.1) <0.001

Colesterol HDL, promedio (DE), mg/dL 56.6 (13.8) 59.8 (14.1) 62.1 (15.3) 64.1 (15.2) <0.001

Tomado de (LaCroix et al., 2019)

201
Cada vez que se lanza una moneda, la probabilidad de obtener cara es del 50%, pero si se lanza
la moneda 100 veces no se obtendrá cara el 50% de las veces debido al azar. A través de la
estadística se determina si las diferencias son reales o se deben únicamente al azar, la pregunta
estadística sería ¿Son tan grandes las diferencias encontradas como para rechazar la idea de que
sólo se deben al azar? Más adelante se describen pruebas de hipótesis para probar si las diferencias
se deben al azar o no. En el ejemplo los investigadores aplicaron una prueba conocida como
prueba F para comparar los valores de IMC de acuerdo con los quintiles de actividad física leve
y determinaron que las diferencias son reales y no se deben al azar. La conclusión principal de la
investigación es que hay evidencia de que las actividades leves si previenen las enfermedades
cardiovasculares.
Ejercicio 12-1

Identifique un cuestionario con su profesor, aplique el cuestionario a 10 personas, genere una


base de datos en Microsoft Excel e ingrese los datos correctamente.

12.2 La importancia de identificar el tipo de variable


La prueba estadística que elija para sacar sus resultados y conclusiones depende de la pregunta de
investigación y del tipo de variables. En esta sección se describen los tipos de variables de acuerdo
con su naturaleza y a su relación.

12.2.1 Clasificación de las variables de acuerdo con su naturaleza


De acuerdo con su naturaleza las variables se clasifican en dos grupos: cuantitativas o numéricas
y cualitativas o categóricas. Las variables cuantitativas miden valores o cuentan un suceso, por
lo tanto, se expresan en números y se les conoce también como variables numéricas; las variables
cualitativas miden “tipos o categorías” que pueden representarse por medio de un nombre o un
símbolo y se conocen también como variables categóricas. El Ejemplo 12-2 ilustra los tipos de
variables de acuerdo con su naturaleza.

Ejemplo 12-2 Tipos de variables en una base de datos sobre depresión en el postparto y
complicaciones en los hijos

La Tabla 12-3 esquematiza como se vería la base de datos de un estudio prospectivo que realiza
un seguimiento a un grupo de madres con depresión en el postparto y sus hijos. Para definir la
severidad y la trayectoria de depresión postnatal de las madres se aplicó en varias ocasiones
una escala diseñada específicamente para este propósito (Escala de Edimburgo) (Netsi et al.,
2018). A los hijos de las participantes se les realizaron las siguientes mediciones: problemas
de conducta a los 3.5 años de edad, la nota de matemáticas a los 16 años de edad y depresión
a los 18 años de edad. En este caso las observaciones serían tanto las madres como los hijos.
A simple vista se puede suponer el contenido de cada variable, sin embargo, en investigación,

202
suponer no es correcto; recuerde, que al acceder a una base cualquier persona debe ser capaz
de comprender el contenido de una base de datos sin ayuda adicional de los investigadores que
diseñaron la investigación y generaron la base de datos.

Tabla 12-3 Extracto de una base de datos de carros

ID edad_m sex_h dep2 dep8 dep61 dep_pe mat_educ conduc nota dep_hi
1 25.2 M 14 15 14 Si 18 5 A No
2 27.5 M 15 10 8 No 7 28 B No
3 32.0 F 18 18 17 Si 20 27 A No
- - - - -
- - - - -
43 34.8 F 25 19 12 Si 8 48 C Si
44 21.9 M 15 8 7 No 16 36 D No
- - - - -
- - - - -
89 19.3 F 28 26 30 Si 21 10 A Si
90 29.1 F 15 13 12 Si 18 12 A Si
Datos ficticios a partir de (Netsi et al., 2018)

Como ya sabemos, cada base de datos debe disponer de una clara descripción de las variables
que permite entenderla sin ser un investigador del estudio; esto, facilita su interpretación tanto
para personas ajenas a la investigación como para los investigadores que no han ingresado los
datos o no los han revisado durante cierto tiempo. Es importante tener información clara de
cada variable, así como de sus unidades de medida.

Los errores más frecuentes al generar bases de datos radican en usar más de una línea para
nombrar a las variables, o en no explicar el significado de las variables. La Tabla 12-4, muestra
la descripción de la base de datos presentada en la Tabla 12-3.

Tabla 12-4 Descripción de la base de datos de carros

Variables Descripción
ID Número único de identificación
edad_m Edad de la madre al momento del parto (años)
sex_h Sexo del hijo (F:masculino/F:femenino)
dep2 Resultado de la escala de depresión postparto a los dos meses del parto (0 a 30)

dep8 Resultado de la escala de depresión postparto a los ocho meses del parto (0 a 30)
dep61 Resultado de la escala de depresión postparto a los 61 meses del parto (0 a 30)
dep_pe Depresión postparto persistente. Puntuación mayor a 9 en la escala de depresión tanto a los
dos como a los 8 meses (si/no)

mat_educ Años completados de educación de la madre

203
conduc Problemas de conducta del niño a los 3.5 años de edad, escala de Rutter (0 a 52)

nota Nota de matemáticas obtenida en el examen nacional del Reino Unido al terminar el
colegio
dep_hi Depresión del hijo a los 18 años de edad (si/no)
Datos ficticios a partir de (Netsi et al., 2018)

En este ejemplo, las variables edad de la madre, las variables de la escala de depresión, la
educación de la madre, la conducta del niño y la nota de matemáticas son variables numéricas.
Las demás son variables categóricas.

Subtipos de variables cuantitativas

Las variables numéricas a su vez pueden ser continuas o discretas, las variables continuas no
se restringen a valores particulares, en otras palabras, constan de números enteros y números
decimales, los valores dependerán de la precisión de los instrumentos de medición, son ejemplos
de variables continuas, el peso, la talla, el coeficiente intelectual, el tiempo de reacción a un
estímulo, etc. Las variables discretas por su lado constan únicamente de números enteros y no
pueden tener decimales por su naturaleza, por ejemplo, número de hijos, número de intentos para
completar un test, etc.

Subtipos de variables cualitativas

Las variables cualitativas, pueden ser nominales, ordinales o dicotómicas. Una variable es
nominal cunado las categorías no siguen un orden pre-especificado, por ejemplo, la variable etnia
podría tener las categorías blanca, negra, mestiza, indígena, etc., y se pude codificar sin importar
el orden de las categorías. Por su lado, en el caso de las variables ordinales, el orden de las
categorías es jerárquico pudiendo ir de menor a mayor o viceversa, por ejemplo, la variable nivel
de educación, es una variable ordinal ya que el nivel de educación abarcaría las categorías
analfabetismo, primaria, secundaria, superior o posgrado, estas categorías están ordenadas desde
el nivel más bajo a más alto de educación. Las variables dicotómicas, tienen únicamente dos
posibles categorías, por ejemplo, las variable dep_pe y sexo del Ejemplo 12-2 tiene únicamente
dos categorías: si/no, M/F. La Figura 12-2, resume la clasificación de las variables de acuerdo
con su naturaleza.

204
Figura 12-1 Clasificación de las variables de acuerdo con su naturaleza

Continuas
Numéricas o
Cuantitativas
Discretas

Variables
Nominales

Categóricas o
Ordinales
Cualitativas

Binarias o
dicotómicas

Ejercicio 12-2

1. La Tabla 12-5 y 12-6 muestran un extracto de una base de datos de las características
sociodemográficas de un grupo de personas con su respectiva descripción de las variables.
Identifique el tipo y subtipo de cada variable

Tabla 12-5 Base de datos de características demográficas y pesos

ID género educ peso No_hijos

1 Hombre Analfabeto 72.8 2


2 Mujer Primaria 55.3 1

3 Mujer Superior 65.8 3


.
.

.
50 Mujer Secundaria 65.2 4

Variables
Descripción
ID Número de identificación
género Género de cada persona u observación. Hombre o mujer

Educ Nivel de educación. Analfabetismo, primaria, secundaria, superior o posgrado


Peso Peso corporal en kilogramos
No_hijos Número de hijos al momento de la encuesta

205
12.2.2 Variables de acuerdo con su relación

Esta clasificación guarda relación directa con la pregunta de investigación y con la hipótesis. Las
variables pueden ser dependientes e independientes.

Ejercicio 12-3

Revise el artículo “Conducta sexual y realización de la prueba del virus de la inmunodeficiencia


humana en jóvenes que estudian en la universidad en Cuzco (Perú)” (Bermúdez, Ramiro, Teva,
Ramiro-Sánchez, & Buela-Casal, 2018). Identifique el tipo de variables de acuerdo con su
naturaleza y de acuerdo con su relación

206
13 Presentación de resultados de la investigación
Los resultados de una investigación obtenidos a partir del análisis de las bases de datos se
presentan en el siguiente orden:

1. Descripción de los sujetos u objetos de estudio incluidos en el análisis


2. Estadística descriptiva
3. Pruebas de hipótesis

En este capítulo se abordan las dos primeras secciones de los resultados, las pruebas de hipótesis
se describen en el Capítulo 14

13.1 Descripción de los sujetos u objetos de estudio (participantes)


Se debe indicar el número de sujetos en cada una de las fases de estudio, por ejemplo, número de
sujetos elegibles, número de sujetos reclutados y número de sujetos analizados. En el caso de
estudios analíticos o experimentales, se debe indicar al número de sujetos asignados a cada grupo,
así como el número de sujetos en cada una de las mediciones. Cuando es muy complejo explicar
cambios en el número de participantes debido a la existencia de múltiples grupos se pueden usar
diagramas que ayuden a explicar la participación de los sujetos de estudio (Von Elm et al., 2014).
En caso de que se hayan perdido participantes durante la investigación, se deben explicar las
razones de las pérdidas.

Ejercicio 13-1

1. Lea el Artículo “Mejorar la comunicación de estudios observacionales en epidemiología


(STROBE): explicación y elaboración” analice como se recomienda construir un diagrama
de flujo para una investigación. Prepárese para una discusión en clase con sus compañeros
2. Revise nuevamente el artículo Conducta sexual y realización de la prueba del virus de la
inmunodeficiencia humana en jóvenes que estudian en la universidad en Cuzco (Perú)”
revise la primera sección de los resultados, analice los datos que se presentan en la
descripción de los participantes en el estudio

13.2 Estadística descriptiva


Luego de describir el número de participantes, se deben presentar las características de los
participantes incluidos en el análisis. Se describen las variables sociodemográficas, clínicas y
sociales. La manera en la cual se describen las variables, dependerá del tipo de variable.

207
13.2.1 Estadística descriptiva para variables numéricas
Las variables numéricas se presentan mediante medidas de tendencia central y medidas de
dispersión, seleccionadas en función de la distribución de las variables.

Medidas de tendencia central y medidas de dispersión para variables con distribución


simétrica

Si la variable presenta una distribución aproximadamente simétrica, es decir similar a la de la


Figura 13-1 se reportará el promedio como medida de tendencia central y la desviación estándar
como medida de dispersión.

Figura 13-1 Histograma de las actividades físicas leves del estudio de riesgo cardiovascular en mujeres

Frecuencia

Horas/día de actividades leves

Media aritmética o promedio


Es una manera común de determinar el centro de la distribución de los datos de una muestra para
variables numéricas con una distribución simétrica. Para calcular la media aritmética de una
variable numérica como el peso de un grupo de 50 niños, se suman os pesos de las 50
observaciones y se divide para el número total de observaciones (n=50). La media aritmética de
una muestra se designa con el símbolo para diferenciarla de la media del universo que se designa
con el símbolo μ.

Ecuación 13-1 Promedio


𝑥1 +𝑥2 +𝑥3 ……….+𝑥𝑛
= 𝑛

Donde x1 – xn representan el valor de cada observación y n el número total de observaciones

208
La Desviación Estándar
Sirve para cuantificar la variabilidad de una “variable”, midiendo su dispersión alrededor del
promedio. La desviación estándar es el cuadrado de las desviaciones con respecto a la media
aritmética de los datos. La desviación estándar de una muestra se denota con la letra S, mientras
que la desviación estándar del universo se representa como 𝜎

Ecuación 13-2 Desviación estándar

∑(𝑋𝑖 − 𝑋̅)2
𝑆=√
𝑁

Donde S es la desviación estándar de la muestra, 𝑋𝑖 cada una de las observaciones, 𝑋̅ el


promedio, y, N el número total de observaciones.

Cuando N es menor a 30, se utilizará n-1 en lugar de N. A partir de N>30 se utilizar N como
divisor. Debido a que una muestra generalmente está un poco menos dispersa que la población
de la cual se tomó.

Ejemplo 13-1 Cálculo del promedio y la desviación estándar de una serie de datos

La Tabla 13-1 muestra una serie de datos de la longitud en cm un grupo de 11 Bonsáis

Tabla 13-1 Serie de datos del tamaño en cm de 11 Bonsáis

Id 1 2 3 4 5 6 7 8 9 10 11
Valor
5 6 7 7 8 9 11 12 13 14 15
(X)

Cálculo del promedio

5+6+7+7+8+9+11+12+13+14+15
= 11
=9.7

Cálculo de la desviación estándar

Id Valor (X) (X- ) (X- )2


1 5 -4,7 22
2 6 -3,7 14
3 7 -2,7 7
4 7 -2,7 7
5 8 -1,7 3
6 9 -0,7 0
7 11 1,3 2
8 12 2,3 5
9 13 3,3 11
10 14 4,3 18

209
11 15 5,3 28
Sumatoria 107 0,3 118,19
Siendo N menor que 30:

118,19
𝑆=√ = 3.4
11 − 1

R: Los bonsáis incluidos en la muestra miden en promedio 9.7 ±3.4 centímetros. Nótese, que
esta es la manera más común de reportar el promedio y la desviación estándar para variables
numéricas simétricas.

Observe la Figura 13-2. La figura muestra los años que se espera vivan diferentes animales a
partir de datos obtenidos de zoológicos y estimaciones de biólogos. Algunos animales vivirán
más, mientras que otros vivirán menos, pero sabemos que, en promedio, los osos vivirán 30 años,
la ballena 70, y la tortuga 150. Los promedios resumen los datos de una base de datos y pueden
ser de utilidad para comparar diferentes grupos, en este caso de animales. Los biólogos usarán
esta información, para planificar el manejo de zoológicos o reservas naturales, por ejemplo.

Ejercicio 13-2

Observe la Figura 13-3. Que conclusiones puede sacar de esa Figura.

210
Figura 13-2 Expectativa de vida promedio en años de ciertos animales

Fuente: (Visually, s.f.)

211
Figura 13-3 Comparación del peso y la talla de mexicanos, con méxico-americanos y
estadounidenses de acuerdo al sexo

Fuente: ("¿Cuánto mide y pesa el Mexicano promedio? ," 2015)

Observe las Figuras 13-4 y 13-5, En la Figura 13-4, se calcula el promedio de la altura hasta los
hombros de 5 perros de diferente raza. La línea verde corresponde al valor del promedio calculado
(394).

Figura 13-4 Cálculo del promedio de la altura hasta los hombros de 5 perros de diferente raza

Fuente: ("La Estadística y la Probabilidad," s.f.)

Una vez calculado el promedio, es necesario saber que tan dispersas están las alturas de los perros
alrededor del promedio. Para esto, se calcula la desviación estándar (espacio resaltado en la Figura
13-4), es decir lo “más común o estándar”.

212
Figura 13-5 Cálculo de la desviación estándar de la altura hasta los hombros de cinco perros
menos el promedio

Fuente: ("La Estadística y la Probabilidad," s.f.)

Ejercicio 13-3

Revise e interprete los datos de la Tabla 12-2, interprete los resultados

Medidas de tendencia central y medidas de dispersión para variables con distribución


asimétrica

La Figura 13-6 contrasta la forma de distribuciones simétricas y asimétricas. La distribución


simétrica tiene una única moda que coincida con la mediana y el promedio; éstos tres valores se
localizan en el centro de la distribución

Figura 13-6 Distribuciones simétricas y asimétricas

Fuente: imágenes en línea de Microsoft Word

Cuando las variables siguen una distribución asimétrica se utiliza la mediana como medida de
tendencia central y los rangos como medidas de dispersión.

213
Mediana
La mediana es un solo valor del conjunto de datos que mide la observación central del conjunto.
Esta observación es el elemento que está más al centro del conjunto de números. La mitad de los
elementos están por arriba de este punto y la otra mitad está por debajo. Para calcular la mediana,
se realiza el siguiente procedimiento:
- Ordenar los datos de menor a mayor magnitud
- Si el conjunto de datos tiene un número impar de datos, la mediana es la puntuación
central de la misma. Ejemplo: dado los siguientes datos: 2, 3, 4, 4, 5, 5, 5, 6, 6 su mediana
es 5.
− Si el conjunto de datos tiene un número par de datos, la mediana es el promedio de las
dos puntuaciones centrales. Ejemplo: 7, 8, 9, 10, 11, 12 y su mediana es 9.5

Rango
También denominado amplitud, consiste en obtener la diferencia entre el mayor y el menor valor
observado de la variable.

Ejemplo: calcular el rango del siguiente conjunto de datos 2, 3, 5, 5, 8, 10, 12. El rango es 12-
2=10. El rango es 10

Rango intercuartilar
Es la diferencia entre los valores de la variable que corresponden al 1er y 3er cuartil

𝑄𝑤 = 𝑄 3 − 𝑄1

Donde 𝑄 3 es el tercer cuartil o el percentil 75 y 𝑄1 es el primer cuartil o el percentil 25

La mediana se reporta en conjunto con el rango o el rango intercuartilar.

Para aclarar el concepto de cuartil, a continuación, se describen las medidas de posición:

Cuantiles o Medidas de posición


Son medidas de posición es decir son aquellas que dividen un conjunto de datos en grupos con el
mismo número de individuos. Los más usados son:
Percentil. Los percentiles son los 99 valores que dividen la serie de datos en 100 partes iguales.
Estos valores corresponden al 1%, al 2%... y al 99% de los datos. P50 coincide con la mediana.
Cuartil. Los cuartiles son los tres valores de la variable que dividen a un conjunto de datos
ordenados en cuatro partes iguales.
El primer cuartil (Q1), el segundo cuartil (Q2) y el tercer cuartil (Q3) determinan los valores
correspondientes al 25%, al 50% y al 75% de los datos. Q2 coincide con la mediana.

214
Decil. Los deciles son los nueve valores que dividen la serie de datos en diez partes iguales. Estos
valores corresponden al 10%, al 20%... y al 90% de los datos. El quinto decil (d5) coincide con
la mediana.

La distribución normal

En estadística, la distribución simétrica se conoce como distribución normal o gaussiana. La


distribución normal está dada por dos parámetros µ y 𝜎 y se desgana por N (µ, 𝜎). La distribución
normal estándar es aquella en la cual µ=0 y 𝜎=1 (Figura 13-7).

Figura 13-7 Curva de la distribución normal estándar

Fuente: (The Quantile Framework for Mathematics, 2017)

El promedio determina la posición de la campana, la desviación estándar por su parte, determina


el aplanamiento de la curva. Un valor más alto de 𝜎 hará que la curva se haga más plana. La
Figura 13-8 incluye dos distribuciones normales, la distribución normal estándar a la izquierda y
una distribución con µ =19 y 𝜎 =4 a la derecha. Se puede observar, como a mayor 𝜎 se aplana la
curva. Por lo tanto, no existe una única distribución normal, sino varias distribuciones normales
de forma similar pero que difieren por sus valores µ y 𝜎. La densidad de una distribución normal
se puede estimar a partir de la Ecuación 13-3.

215
Figura 13-8 Dos distribuciones normales

Fuente: (Barr, Diez, & Rundel, 2016)

Ecuación 13-3 Distribución normal

1 −𝑧 2
𝑓(𝑥) = 𝑒𝑥𝑝 ( ) ; −∞ < 𝑧 < ∞
𝜎√2𝜋 2

La distribución simétrica, tiene las siguientes características:

- Tiene una única moda que coincida con la mediana y el promedio. Estos tres valores se
localizan en el centro de la distribución (Figura 13-5)
- El área bajo la curva es igual a 1
- Es simétrica con respecto a su promedio. Ósea que, el 50% de los valores estarán por
encima de la media y el 50% por debajo
- La forma de la campana depende del promedio y la desviación estándar (Figura 13-8)
- El 68.27% de los casos están incluidos entre 𝜇̅ − 𝜎- y 𝜇̅ + 𝜎, es decir una desviación
estándar a cada lado de la media (Figura 13-9)
- El 95.45% de los casos están incluidos entre 𝜇̅ − 2𝜎 y 𝜇̅ + 2𝜎, es decir dos desviaciones
estándar a cada lado de la media (Figura 13-9)
- El 99.73% de los casos están incluidos entre 𝜇̅ − 3𝜎 y 𝜇̅ + 3𝜎, es decir tres desviaciones
estándar a cada lado de la media (Figura 13-9)

216
Figura 13-9 Probabilidades de 1, 2 o 3 desviaciones estándar en una distribución normal

Fuente: (Barr et al., 2016)

Alternativamente, también se puede decir que en una distribución normal:

− 95% de los casos están incluidos entre 𝜇̅ − 1.96𝜎 y 𝜇̅ − 1.96𝜎, es decir 1.96 desviaciones
estándar a cada lado de la media (Figura 13-10).
− 99% de los casos están incluidos entre 𝜇̅ − 2.58𝜎 y 𝜇̅ − 2.58𝜎, es decir 2.58 desviación
estándar a cada lado de la media (Figura 13-10).

Figura 13-10 95% y 99% de los datos alrededor de la media

Fuente: (Barr et al., 2016)

En distribuciones moderadamente simétricas, los porcentajes anteriores pueden ser aproximados

Gráficos para evaluar la simetría de variables numéricas

Histograma
Es un gráfico de frecuencias que se representa a manera de rectángulos. Para elaborar un
histograma, se divide el rango de datos una variable numérica en intervalos de igual magnitud,
los intervalos se conocen con el nombre de clases. La Figura 13-11, muestra el histograma de una
variable con datos del precio de 90 vehículos en $1000 de dólares. Se puede observar en el eje X,

217
que la variable numérica precio ha sido dividida en intervalos con una amplitud de 10; así, la
primera columna presenta los datos de los vehículos con un costo entre $10.000 y $20.000, la
siguiente entre $20.000 y $30.000, y así sucesivamente. La altura de las barras o rectángulos en
el eje vertical constituye el área proporcional al número de datos en cada intervalo o clase. Por
ejemplo, en la primera columna existen 16 vehículos, en la segunda 25, y así sucesivamente.

En el histograma se debe prestar atención a las siguientes características: la simetría de la


distribución de la variable, el intervalo o la clase en la que se acumulan los datos, la existencia de
tendencias en peculiar en la distribución de los datos, por ejemplo, un intervalo con muy pocas
observaciones, irregularidades o saltos en las distribuciones. En la Figura 13-11 se observa una
distribución sesgada hacia la derecha, esto se debe a que muy pocos vehículos cuestan más de
$70.000

Figura 13-11 Histograma del precio de vehículos Porsche, Jaguar and BMW ofertados en un sitio
web

Frecuencia
absoluta

Precio en $1.000´s

Elaborado usando la base de datos ThreeCars (Lock, 2013)

Curvas de densidad y de distribución normal


Las curvas de densidad de Kernel tienen la ventaja de ser lisas, son curvas suavizadas que
representan la distribución teórica de la variable graficada. La línea negra de la Figura 13-12,
representa la curva de densidad de la variable del precio de los vehículos. Adicionalmente, los
softwares estadísticos permiten graficar la curva de la distribución normal estándar (µ=0 y 𝜎=1)
para compararla con la curva de densidad de la variable en cuestión. En este caso, se pueden
apreciar diferencias.

218
Figura 13-12 Histograma del precio de vehículos Porsche, Jaguar and BMW ofertados en un sitio
web con curvas de densidad y de distribución normal

Frecuencia
relativa

Precio en $1.000´s

Diagrama de caja y bigotes


Estos gráficos resumen los datos de variables numéricas y son de utilidad para evaluar la simetría
de la distribución de las variables e identificar datos atípicos; estos gráficos usan los cualtiles para
visualizar los datos y están compuestos por un rectángulo conocido como caja y unos brazos que
se conocen como bigotes. La Figura 13-13, muestra los componentes de un diagrama de cajas.

Figura 13-13 Estructura del diagrama de cajas

Fuente (Chuica Bustamante, 2015). Ls: límite superior, Li: Límite inferior, Q3: cuartil tres, Q1: cuartil
uno, RIC: rangointercuartílico, max(x)│x≤Ls: valor máximo de x o valor de x ≤ al Ls, max(x)│x≤Ls:
valor mínimo de x o valor de x ≥ al Li

219
El primer paso para dibujar el diagrama de cajas consiste en dibujar una línea obscura que
corresponda a la mediana de los datos (punto central de los datos), por lo tanto, la mitad de los
datos están por debajo de la mediana y la otra mitad está por encima. El siguiente paso para
construir el diagrama de cajas consiste en identificar el cuartil 1 (Q1) y el cuartil 3 (Q3), el Q1
corresponde al borde inferior de la caja, mientras que el Q3 corresponde al borde superior de la
caja mostrada en la Figura 13-13. Recuerde que el rango intercualtílico (RIC)= 𝑄 3 − 𝑄1 , por lo
tanto, el rectángulo de la caja será el RIC.

El siguiente paso consiste en dibujar los bigotes del diagrama, los bigotes son las líneas que van
desde la caja hasta el valor máximo y hasta el valor mínimo o hasta el límite superior y el límite
inferior (cuando existen valores que sobrepasen estos límites). El límite superior se calcula: 𝑄3 +
𝑅𝐼𝐶 ∗ 1.5; mientras que el límite einferior se calcula: 𝑄1 − 𝑅𝐼𝐶 ∗ 1.5. Cualquier observación que
caiga fuera de los límites superior o inferior de los bigotes se representa como un punto y
constituye un dato atípico. El propósito de identificar estos valores en lugar de extender los
bigotes hasta el valor mínimo y el valor máximo es identificar datos que se encuentran
inusualmente lejos del resto de los datos. Estos datos inusuales se conocen como datos extremos
o atípicos. La identificación de estos puntos es importante porque puede ayudarnos a identificar
errores en el ingreso de los datos, o por el contrario si se comprueba que los datos son correctos,
proveen información importante de la distribución de los datos. Un diagrama de cajas es simétrico
cuando la mediana está en el centro de la caja. La Tabla 13-12 y la Figura 13-14, contienen la
estadística descriptiva y el diagrama de cajas de los precios de los vehículos. La caja y el bigote
superior son más grandes, lo que coincide con la cola más larga al lado derecho del histograma
(Figura 13-11).

Tabla 13-2 Estadística descriptiva del Precio de vehículos Porsche, Jaguar and BMW ofertados
en un sitio web

Mínimo Q1 Mediana Promedio Q3 Máximo

12 23.9 33.7 37.58 49.98 83

220
Figura 13-14 Diagrama de cajas de la variable Precio de vehículos Porsche, Jaguar and
BMW ofertados en un sitio web

Elaborado usando la base de datos ThreeCars (Lock, 2013)

Ejercicio 13-4

La Tabla 13-2 muestra la estadística descriptiva del Precio de los vehículos y la Figura 13-14
el diagrama de cajas de la misma variable con un gráfico de puntos de la misma variable. Un
diagrama de puntos, es un gráfico en el cual cada punto corresponde a cada una de las
observaciones, en este caso, vehículos.

- Usando el gráfico de puntos, compruebe si la mitad de los datos están por encima de
la mediana y la mitad por debajo de ésta.
- Revise los datos, identifique las partes del diagrama de cajas y compruebe los cálculos
para cada parte del diagrama de cajas.
- Usando la base de datos ThreeCars del paquete Stat2Data de R (Lock, 2013), realice
un diagrama de cajas y un diagrama de puntos de la variable antigüedad de los carros
(Age). Revise los datos, identifique las partes del diagrama de cajas y compruebe los
cálculos para cada parte del diagrama de cajas. Elabore además el histograma de la
variable “Age”

Gráficos Cuantil-Cuantil (Q-Q)


Estos gráficos comparan los cuantiles de la variable con respecto a los cuantiles de la distribución
normal estándar, son ideales para evaluar desviaciones de la normalidad. Si el gráfico presenta
forma de U o curvaturas, significa que la distribución es asimétrica. Si la curva tiene forma de S,
significa que la variable tiene colas mayores o menores que lo normal, lo que significaría que hay
muchas o muy pocas observaciones en los extremos de la curva. La Figura 13-15 contiene el

221
gráfico Q-Q de la variable Precio de 90 vehículos. El gráfico muestra desviaciones de la
distribución normal (línea sólida).

Figura 13-15 Gráfico (Q-Q) de la variable Precio de vehículos Porsche, Jaguar and BMW ofertados
en un sitio web

Cuantiles de
la muestra

Cuantiles teóricos

Elaborado usando la base de datos ThreeCars (Lock, 2013)

Pruebas de hipótesis para evaluar la simetría de las distribuciones


Los gráficos, representan una manera subjetiva de evaluar la simetría de la distribución de una
variable; al comienzo puede resultar difícil decidir si la distribución es simétrica o asimétrica, en
estos casos, existen pruebas estadísticas que permiten cuantificar la desviación de la distribución
normal de una variable aleatoria. Entre las pruebas más usadas figuran la prueba de Kolmogorov-
Smirnov y la prueba de Shapiro. La estructura y aplicación de estas pruebas de normalidad se
abordarán luego de exponer los conceptos básicos de las pruebas de hipótesis en el siguiente
capítulo.

Ejemplo 13-2 Evaluación de la distribución de una variable

Un estudio pretende caracterizar las medidas antropométricas de arrendajos azules (Figura 13-
16), una especie de aves norteamericanos. Los datos fueron recolectados por Keith Tarvin del
Departamento de Biología-Obellin College y fueron extraídos del paquete Stat2Data (Lock,
2013) para el software R. Los investigadores, tomaron algunas medidas antropométricas a un
total de 123 especímenes capturados. La Tabla 13-3 resume las variables recolectadas por los
investigadores.

222
Figura 13-16 Arrendajo azul

Fuente: (Cornell University, 2015)

Tabla 13-3 Descripción de la base de datos de arrendajos azules

Variable Descripción

BirdID ID asignado a cada ave

knownSex Sexo del ave, codificado: F=femenino, M=masculino

BillDepth Espesor del pico medido (en mm)

BillWidth Ancho del pico (en mm)

BillLength Longitud del pico (en mm)

Head Distancia de la punta del pico a la parte posterior de la cabeza (en mm)

Mass Masa corporal (en gramos)

Skull Distancia desde la base del pico hasta la coronilla (en mm)

Se analiza la estadística descriptiva de la variable “Skull”. Se construye un histograma con su


curva de densidad, un diagrama de cajas y gráfico Q-Q para evaluar la simetría de la
distribución de la variable (Figura 13-17). Se puede apreciar, que la distribución de la variable
se aproxima considerablemente a la distribución normal estándar.

Figura 13-17 Gráficos para evaluar la simetría de la variable "Skull"

223
Ejercicio 13-5

1. Usando la base de datos ThreeCars del paquete Stat2Data de RCran (Lock, 2013), realice
un diagrama de cajas y un diagrama de puntos de la variable Millas recorridas de los
vehículos en venta (Mileage). Construya todos los gráficos de evaluación de la simetría
de la distribución e interprételos. Prepárese para una exposición en clase. Analice la
estadística descriptiva de la variable, identifique las medidas de tendencia central y las
medidas de dispersión que debe identificar.
2. Construya una tabla de resultados de las medidas antropométricas por separado para
machos y hembras, siga los lineamientos de las normas APA para construir tabla, revise
las tablas presentadas en artículos científicos

13.2.2 Estadística descriptiva para variables categóricas y variables numéricas discretas con pocos
valores

Para las variables categóricas y las variables numéricas que tienen pocos valores (menos de diez)
se elaboran tablas de distribución de frecuencias, estas tablas, generalmente presentan la
frecuencia absoluta y relativa. La frecuencia absoluta se obtiene contando el número de casos para
cada categoría en el caso de las variables categóricas o para cada valor en el caso de las variables
discretas con pocos valores. La frecuencia relativa, será la proporción o el porcentaje de cada
categoría o valor con respecto al promedio. La Tabla 13-4, resume los datos de la variable
categórica del tipo de carros.

Tabla 13-4 Marcas de los carros de vehículos ofertados en un sitio web


N %

BMW 30 33.3

Jaguar 30 33.3

Porsche 30 33.3

224
Total 90 100

Elaborado usando la base de datos ThreeCars (Lock, 2013)

Las variables categóricas y numéricas discretas con pocos valores se presentan también mediante
gráficos, siendo los más comunes los gráficos de barras y los circulares. Prefiera los gráficos
circulares para variables con cinco o menos categorías.

Gráficos de barras o columnas simples

Se coloca cada categoría en una barra o una columna, permite comparar las proporciones de cada
una de las categorías con respecto a un todo. Se pueden reportar valores absolutos, proporciones
o porcentajes. Evite presentar la misma información en tablas y gráficos, elija uno de los dos.

Gráficos circulares

Se aconseja utilizar gráficos circulares cuando la variable categórica tiene cinco categorías o
menos, caso contrario es muy difícil interpretar los resultados de este tipo de gráficos.

Ejemplo 13-3 Gráficos de barras y circulares

Luego del famoso hundimiento del Titanic, el Comité de Comercio Británico en sus
investigaciones del hecho, recolectó información acerca de los tripulantes del barco. No existe
consenso acerca de las fuentes primarias ni del número exacto de tripulantes rescatados o
fallecidos. Para este ejemplo, se utilizaron los datos publicados por Dawson (1995), entre los
datos disponibles, figuran la clase en la cual viajaban los tripulantes (primera, segunda o
tercera), y si sobrevivieron o no.

La Figura 13-18, muestra la distribución de los tripulantes en las diferentes clases económicas,
se puede apreciar, que más de la mitad del total de 1312 tripulantes con datos disponibles,
viajaban en tercera clase. Por otro lado, la Figura 13-18, demuestra la gran diferencia en el
porcentaje de fallecimientos de acuerdo con la clase económica de los tripulantes, más del 80%
de los tripulantes de tercera clase fallecieron, en comparación con el 57% en segunda y el 40%
en primera.

Nótese que, al redactar los resultados, no se repiten todos y cada uno de los datos de los
gráficos, sino que se los interpreta redactando las conclusiones más relevantes.

Adicionalmente, es recomendable colocar los porcentajes exactos como se muestra en las


figuras en lugar de presentar rangos de valores en el eje y del gráfico.

225
Figura 13-18 Distribución de los tripulantes del Titanic de acuerdo a la clase económica
en la cual viajaban

Figura 13-19 Supervivencia de los tripulantes del Titanic de acuerdo a la clase

226
14 Inferencia estadística, conceptos básicos de
pruebas de hipótesis
Este capítulo aborda las bases de estadística inferencial, lineamientos básicos de la estructura y
prueba de hipótesis aplicando intervalos de confianza y pruebas formales de hipótesis. Cada vez
que se requiera aplicar un análisis estadístico, es necesario empezar por plantearse hipótesis, las
hipótesis que se plantean deben tener suficiente respaldo teórico y deben definirse antes de la
recolección misma de los datos. Tenga presente que para varios test estadísticos se aplican los
conceptos generales de la estructura de las hipótesis que se presentan

14.1 Los valores Z para comprender las pruebas de hipótesis


La Tabla 14-1 muestra los promedios y las desviaciones estándar de los resultados de los
exámenes de admisión universitaria aplicados en dos periodos académicos, uno en el año 2014 y
otro en el año 2016. Los exámenes se califican en las mismas escalas, pero han variado a lo largo
del tiempo en su estructura y contenidos. Sabemos que la distribución de las calificaciones de los
dos exámenes es aproximadamente normal. Cristina rindió el examen en el año 2014 y sacó 750,
mientras que Jaime rinde el examen en el 2016 y saca también 750. Si comparamos a simple vista
estos resultados podemos concluir que a los dos estudiantes tuvieron los mismos resultados y los
mismos beneficios a la hora de acceder a una carrera universitaria. Sin embargo, debemos
preguntarnos ¿Quién de los dos tuvo un mejor desempeño en relación a sus grupos?

Tabla 14-1 Puntos de estimación de dos exámenes de admisión universitaria

Examen 2014 Examen 2016

Media 700 745


Desviación estándar 50 35

Se puede utilizar los datos de la desviación estándar para identificar la posición en la que se
encuentra cada estudiante en relación a las demás personas que rindieron el examen en cada año.
Cristina está una desviación estándar por encima de la media del examen del año 2014 así:
700+50=750. Para calcular cuantas desviaciones estándar por encima de la media se encuentra la
nota de Jaime aplicamos la Ecuación 14-1

Ecuación 14-1 Valores Z

𝑥 − 𝑥̅
𝑍=
𝑆

Dónde:
Z es el valor Z a cuantificar,

227
x: la observación de interés,
𝑋̅: el promedio

S: la desviación estándar

Reemplazando los valores de la nota de Jaime:

750 − 745
𝑍= = 0.14
35

Cristina se encuentra una desviación estándar por encima del promedio de su grupo, mientras que,
Jaime se encuentra tan solo 0.14 desviaciones estándar por encima del promedio de su grupo. La
Figura 14-1 muestra la posición de Cristina y Jaime dentro de sus grupos y demuestra que Cristina
obtuvo un mejor resultado que Jaime al compararlos con los demás resultados de cada uno de sus
grupos, por lo tanto, haber sacado la misma nota no se puede traducir en un igual desempeño.

Figura 14-1 Resultados de loa exámenes de Tomás y Ana

En el ejemplo de Cristina y Jaime se aplicó la técnica estandarizada llamada valor o punto de


estimación Z, un método empleado comúnmente en variables que siguen una distribución normal.
El valor de Z de una distribución se define como el número de desviaciones estándar que una
observación se encuentra por encima o por debajo del promedio. Si la observación está una
desviación estándar por encima del promedio, su valor Z será 1. Si la observación está 1.5
desviaciones estándar por debajo de la media su valor Z es -1.5. Así para cualquier valor de x que
siga una distribución normal 𝑁(𝜇, 𝜎) se calculará el valor Z aplicando la Ecuación 14-1.

228
Las observaciones por encima de la media siempre tendrán un valor Z positivo, mientras que
aquellas por debajo de la media tendrán un valor Z negativo. Si una observación es igual a la
media el valor Z será igual a 0.

Los valores de Z se pueden utilizar para determinar vagamente que observaciones son más
inusuales que otras. Una observación x1 será más inusual que otra observación x2 si el valor
absoluto (sin signo) de Z es mayor que el valor absoluto de Z de la otra observación.
Ejercicio 14-1

- X representa una variable aleatoria de 𝑁(𝜇 = 3, 𝜎 = 2), supongamos que x=5.19. a)


Encuentre el valor Z de x. b) Utilice el valor Z para determinar cuántas desviaciones
estándar por encima o por debajo de la media se encuentra x
- El tamaño de las cabezas de una especie de langostinos sigue una distribución
aproximadamente normal. Con una media de 92.6mm y una desviación estándar de
3.6mm. Calcule el valor Z para un langostino con una cabeza de 95.4mm y uno con
85.8mm.
- ¿Cuál de las observaciones del ejercicio anterior es más inusual?

14.2 Tabla de probabilidad de la distribución normal


En la sección 14-1 se describe que Cristina obtuvo una puntuación de 750 en su examen, lo cual
resultó en un valor Z=1. Ahora estamos interesados en determinar el percentil en el cual se
encuentra Cristina dentro de la distribución de todos los exámenes rendidos en el año 2014. Para
entender la probabilidad de la distribución normal, recuerde que el área bajo la curva es siempre
un valor igual a uno (que representa todos los exámenes rendidos en el año 2014). La proporción
de personas que obtuvieron calificaciones menores a las de Cristina corresponde al área naranja
de la Figura 14-2, mientras que, el área sin colorear corresponde a las personas que sacaron una
nota superior a la nota de Cristina.

Figura 14-2 El área sombreada representa todos los individuos que obtuvieron notas inferiores a las de
Cristina.

Usando los valores Z, podemos consultar la tabla de probabilidad de la distribución normal para
determinar el percentil al cual corresponde un valor de Z dado. La Figura 14-3 muestra una parte
de una tabla de probabilidad de la distribución normal. El valor Z para Cristina es 1.00,

229
buscaremos ese valor en la Figura 14-3, la primera columna contiene las unidades y la primera
posición decimal de los valores Z, mientras que la primera fila corresponde a la segunda posición
decimal de los posibles valore Z, en el caso de Cristina se busca el valor Z 1.00, el cual
corresponde a 0.8413 o percentil 84.13 (valor enmarcado en la Figura 14-3). Esto significa que,
de acuerdo a la tabla de probabilidad de la distribución normal, el 84% de los estudiantes que
rindieron el examen en el año 2014 sacaron notas inferiores a las de Cristina, mientras que, 16%
sacaron notas superiores a las de Cristina (no se olvide que el área bajo la curva es igual a 1 o al
100% de los datos).

Ejemplo 14-1 Identificación de un valor z en la tabla de probabilidad de la distribución normal

Para identificar el percentil de un valor Z=0.74; se busca e valor en la tabla, en la primera


columna identificamos la unidad y la primera posición decimal: 0.7, mientras que en primera
fila se busca la segunda posición decimal 0.04, el percentil para un valor Z=0.74 será 77.04
(Figura 14-3).

Figura 14-3 Extracto de una tabla de probabilidad normal. El percentil para una variable aleatoria
normal con Z=1.00 Y Z=0.74 están enmarcados

También podemos identificar el valor de Z si tenemos el valor del percentil de una observación.
Por ejemplo, si sabemos que una observación está en el percentil 80, buscamos el valor más
cercano a 80 en la tabla que corresponde a 0.7995. Posteriormente definimos el valor de Z de los

230
valores de la correspondiente fila y columna para el valor identificado en el medio de la tabla que
será 0.84.

Ejemplo 14-2 Ejemplos de probabilidad normal

3. Verónica es seleccionada al azar del grupo de estudiantes que rindió el Examen en el año
2014. ¿Cuál es la probabilidad de que Verónica haya sacado 810 o más? El primer paso
para responder esta pregunta consiste en dibujar la curva y hacerse una idea de la
distribución normal, estamos interesados en determinar la proporción de estudiantes que
sacaron 810 o más en el examen, en forma gráfica, queremos identificar el área resaltada
en la Figuera 14-4. Esta figura muestra el promedio y los valores de hasta tres
desviaciones estándar por encima y debajo de la media.

Figura 14-4 Se ha sombreado el área correspondiente a los alumnos que sacaron una nota mayor a 1630

810−700
Primero debemos identificar el valor de Z correspondiente: 𝑍 = = 2.20
50

Buscamos el valor de Z en la tabla de probabilidad de la distribución normal y el valor


corresponde a 0.9861. Hay que tener en cuenta que el percentil encontrado en la tabla
siempre corresponderá al área hacia la izquierda del valor Z, ósea los valores que están
por debajo del valor de Z=2.20 (área sin colorear). Para encontrar el área superior a
Z=2.20 se debe restar uno menos el área de la cola inferior (sabiendo que el área bajo la
curva es igual a uno):

Figura 14-5 Ejemplo de identificación del área bajo la curva

Por lo tanto, la probabilidad de que Verónica haya sacado una nota superior o igual a 810
es del 1.4%

231
4. Eduardo rindió el examen de admisión universitaria en el año 2014 y obtuvo 660. ¿Cuál
es su percentil? Primero elaboramos el gráfico, Eduardo obtuvo 660, se debe buscar el
percentil 660 que corresponde al área coloreada de la Figura 14-6

Figura 14-6 Identificación del percentil para un estudiante que rinde el examen en al año 2014 y
obtiene 660

660 − 700
𝑍= = −0.80
50

Usando la tabla para valores negativos de Z identificamos el percentil 0.2119. Eduardo


está en el percentil 21

5. Sabemos que, en una muestra de adultos, el promedio de su estatura es de 166cm y la


desviación estándar de 3.3cm. La altura de Juan está en el percentil 30, ¿Cuánto debe
medir Juan? Primero dibujamos la curva:

En este caso la probabilidad será de 0.30, buscamos el valor de Z en la tabla, sabiendo


que el valor de Z es negativo, el valor que más se aproxima a 0.30 es 0.3015 que
corresponde al valor Z -0.52, usamos este dato de la fórmula del valor de Z para
identificar la talla de Juan

𝑥 − 166
−0.52 = = (−0.52 ∗ 3.3) + 166 = 164.3
3.3

La talla de Juan debe ser 164.3

232
Ejercicio 14-2

Utilizando los datos del cuarto caso de los ejemplos 14-2

a. ¿Cuál es la probabilidad de que un adulto seleccionado al azar mida más de 162 cm.
b. ¿Cuál es la probabilidad de que un adulto mida menos de 159cm?
c. ¿Cuál es la probabilidad de que la talla de un adulto seleccionado al azar esté entre 159
y 162?
d. ¿Cuál es el valor Z para los percentiles 0.025 y 0.975? Analice los resultados.
e. ¿Cuál es la probabilidad de que un adulto seleccionado al azar esté entre los valores Z
identificados en el ejercicio 4?

Ejercicio 14-3

a. Pedro rindió el examen de la Senescyt para obtener una beca en sus estudios de maestría.
La nota mínima para poder aprobar este examen es de 105 puntos. Conociendo que la
nota promedio obtenida fue de 90 puntos y la desviación estándar es de 12 puntos ¿Cuál
es la probabilidad de que Pedro haya aprobado el examen?
b. En la ciudad de Cuenca, la temperatura máxima diaria sigue una distribución normal para
el mes de mayo de 2015. El día 24 de mayo está en el percentil 91.4. Sabiendo que la
media de la temperatura de en mayo de 2015 fue de 20.77 °C y la desviación estándar de
1.63 °C. ¿Cuál sería la temperatura máxima diaria para el 24 de mayo de 2015?
c. Utilizando los datos del literal b. ¿Cuál es la probabilidad de que un día seleccionado al
azar tenga una temperatura máxima mayor a 21 °C.
d. Utilizando los datos del literal b ¿Cuál es la probabilidad de que un día de mayo de 2015
tenga una temperatura máxima menor a 10°C?
e. Utilizando los datos del literal b ¿Cuál es la probabilidad de que la temperatura máxima
de un día de mayo de 2015 seleccionado al azar esté entre 19 y 21 °C?

14.3 Los puntos de estimación y los parámetros reales del Universo

En estadística inferencial se busca sacar conclusiones con los datos de una muestra para el
universo de estudio. Por ejemplo, el Ministerio de Salud está interesado en determinar el promedio
y la desviación estándar de la edad a la que los jóvenes ingieren alcohol por primera vez, esto
permitirá identificar a que edad sería necesario implementar estrategias preventivas para evitar el
consumo temprano de alcohol. Debido a que hacer un estudio en toda la población ecuatoriana
sería demasiado costoso, se debe calcular una muestra aleatoria de jóvenes que sea representativa

233
del universo. Luego, los investigadores, utilizarán los resultados de la muestra para implementar
sus políticas en toda la población del país; dicho de otro modo, se infieren los resultados de la
muestra al universo. El promedio y la desviación estándar que se obtengan de la muestra se
conocen como puntos de estimación, mientras que el promedio y la desviación estándar del
universo se conocen como parámetros reales.

Para aclarar este concepto, se presenta un ejemplo adicional; un grupo de guardabosques quieren
estimar el promedio de la altura que alcanzan los árboles de pino de un busque luego de siete años
de haber sido plantados, para esto, se toma una muestra aleatoria de 100 árboles de un bosque de
pinos jóvenes y se miden sus alturas al inicio del estudio y luego de siete años, los guardabosques
determinan que la altura de los árboles de la muestra, crecieron en promedio 338.95 cm en 7 años;
este promedio sería un punto de estimación ya que ha sido calculado a partir de una muestra
(n=100) tomada de un universo (todos los árboles del bosque de pinos). Los puntos de estimación
cuando han sido calculados correctamente a partir de muestras representativas del universo
seleccionadas aleatoriamente constituyen el mejor valor para estimar los parámetros reales del
universo.

En relación al ejemplo de los árboles de pino, supongamos que se selecciona otra muestra de 100
árboles de pino y se estima el crecimiento de los árboles luego de siete años, el promedio del
crecimiento en esta ocasión es de 342.25 cm, el promedio no es igual al de la primera muestra
debido a que los puntos de estimación varían de una muestra a otra ya que los valores de un punto
de estimación tienden a acercarse al parámetro real pero probablemente no serán exactamente
iguales al parámetro real del universo (en este caso todos los árboles de pino existentes en el
bosque). La Tabla 14.2 muestra los puntos de estimación obtenidos de la primera muestra de 100
árboles y los parámetros reales del universo.

Tabla 14-2 Puntos de estimación y parámetros reales del Universo de la variable altura en 7 años

Altura de árbol de pino Puntos de estimación Parámetro real


Media 338.95 346.62
Mediana 340.50 357.00
Desv. Est. 84.46 82.59

Fuente: Rdatasets, Kenyon College Department of Biology

14.3.1 Cuantificar el error del punto de estimación en capturar el parámetro real del universo, el
error estándar del promedio

En la sección anterior, se indicó que, en una primera muestra aleatoria de 100 árboles de pino en
un bosque, los árboles crecieron en promedio 338.95 cm luego de 7 años (Tabla 14.2), también
se indicó que en una segunda muestra de 100 árboles el promedio fue de 342.25 cm, suponiendo

234
que tomamos otra muestra de 100 pinos y ahora la media es 324.29 cm, tomamos una tercera
muestra y obtenemos una media de 342.82 cm y en una cuarta obtenemos 339.38 cm. Al seguir
calculando los promedios de más y más muestras ya que disponemos de los datos del universo
(algo que usualmente no ocurre en la vida real), es posible construir la distribución muestral del
promedio del crecimiento de los árboles de todas las muestras de 100 árboles de pino. Se entiende
por distribución muestral, a la distribución de los puntos de estimación (en el ejemplo sería el
promedio del crecimiento de los pinos al cabo de siete años) calculados de varias muestras de
igual tamaño tomadas de una determinada población o universo. La Figura 14-6 muestra un
histograma de los promedios de crecimiento de los árboles de pino obtenidas de 1000 muestras
diferentes de 100 árboles de pino cada una. El eje x representa los promedios de cada una de las
muestras, y el eje y las frecuencias absolutas, observe, que la distribución muestral es
aproximadamente simétrica y está centrada exactamente en el promedio del universo (µ=346.62),
esto se debe, a que los puntos de estimación (promedios de las muestras) estarán distribuidos
alrededor del promedio del parámetro real del universo. Sabiendo que la distribución normal es
simétrica podemos aplicar los conceptos de probabilidad de la distribución normal, por lo tanto,
se puede decir, que el 95% de los promedios obtenidos de las muestras estarían entre -1.96 y
+1.96 errores estándar (la desviación estándar de la distribución muestral) alrededor del promedio.

Sabiendo que, los puntos de estimación muy probablemente no capturarán exactamente el


parámetro real del universo, es necesario cuantificar el error del punto de estimación en capturar
el parámetro real del universo, esto error se conoce como error estándar o error típico, y se
entiende como la desviación estándar de la distribución de los promedios de las muestras
alrededor del parámetro real del universo. El error estándar del promedio de una muestra se puede
calcular aplicando la fórmula 14-2:

Ecuación 14-2 Error estándar del promedio


𝜎𝑥
𝑆𝐸 =
√𝑛

Donde 𝜎𝑥 es la desviación estándar del universo, considere que en la vida real desconocemos el
valor de la desviación estándar del universo, por lo tanto, en realidad se utiliza la desviación
estándar de la muestra para calcular el error estándar. Así, en el ejemplo de los árboles de pino,
calculamos el error estándar:

𝑆 84.46
𝑆𝐸 = = = 8.45
√𝑛 √100

235
Figura 14-7 Histograma del promedio de crecimiento en 7 años de 1000 muestras diferentes de pinos con tamaños
de muestra =100

14.3.2 Cuantificar el error del punto de estimación en capturar el parámetro real del universo, los
Intervalos de confianza

En la sección anterior, se calculó el error estándar de un promedio, este valor, se usa para calcular
un rango de valores plausibles que con cierta confianza capturará el parámetro real del universo.
Este rango de valores plausibles se conoce como intervalo de confianza. Bar, et.al (2016) explica
que reportar un único dato es como pescar con una caña de pescar, mientras que reportar un
intervalo de confianza correspondería a pescar con una red.

No debemos confundirnos entre medidas de dispersión e intervalos de confianza, las medidas de


dispersión nos permiten caracterizar la muestra y que tan dispersos están los datos con relación a
un punto central (media o mediana), por su parte, los intervalos de confianza son rangos de valores
plausibles que proveen una mejor estimación de los parámetros reales del universo. Si reportamos
un solo valor del parámetro que deseamos estimar es muy probable que no reportemos el
parámetro exacto del universo, mientras que si reportamos un rango de valores plausibles
(intervalos de confianza), incrementamos las probabilidades de capturar el parámetro real del
universo. Mientras más amplio sea un intervalo de confianza más seguros estaremos de estimar
el parámetro real del universo.

El Intervalo de confianza (IC) del 95%

Los IC se construyen alrededor de los puntos de estimación. El IC se calcula en base al error


estándar que es la medida de incertidumbre de un punto de estimación alrededor del parámetro
real del universo. En la sección anterior, anticipamos que aproximadamente en el 95% de las
veces, el punto de estimación obtenido de la muestra estará entre - 1.96 y +1.96 errores estándar

236
alrededor del parámetro del universo. Por lo tanto, al usar el valor Z 1.96, decimos que estaremos
95% seguros de que un punto de estimación ha capturado el parámetro del universo, si cambiamos
el valor de Z cambiará también el % de confianza. En base a estos conceptos se calcula el IC del
95%, la ecuación 14-3 contiene la fórmula.

Ecuación 14-3 El intervalo de confianza del 95%

IC 95%= Punto de estimación ± 1.96 * error estándar

Para calcular el IC 95% de un punto de estimación, se deben cumplir las siguientes condiciones:

− Las observaciones de la muestra deben ser independientes, para lo cual debe ser aleatorias
− Deben existir al menos 30 observaciones.
− La distribución debe ser aceptablemente simétrica.

Continuando con ejemplo de los árboles de pino, sabemos que los árboles crecieron en promedio
338.95 cm con S=84.46, sabemos también que el error estándar del promedio es de 8.45. Así,
calculamos el IC 95% del promedio del crecimiento de la muestra de árboles:

338.95 ± 1.96 ∗ 8.45 → (322.38; 355.51),


Los resultados se reportarán de la siguiente manera: El promedio del crecimiento de los
árboles de pino luego de siete años fue de 338.95 cm (IC 95% 322.38; 355.51). Nótese
que se reportará primero el valor más bajo y luego el valor más alto, separados de coma
o punto y coma.

Ya que el IC 95% representa un rango de datos que captura el parámetro real del universo con un
95% de confianza, se interpretan los resultados de la siguiente manera: estamos 95% de que el
promedio de crecimiento de todos los árboles del bosque de pinos (el parámetro real del universo),
será un valor entre 322.38 y 355.51.

El IC 95% es el más utilizado, si queremos cambiar el % de confianza, se reemplazará el valor de


Z, por ejemplo, para calcular IC 99% reemplazaremos 1.96 por 2.58 (Figura 13-9) y entonces
estaremos 99% seguros de que el rango calculado contiene el parámetro real del universo.

14.4 Pruebas de hipótesis

Cuando se redacta un protocolo de investigación, siempre se establece una o varias hipótesis de


investigación que serán probadas a través de tests estadísticos. Recuerde que las hipótesis no serán
una invención, sino que se plantearán en base a la revisión de literatura. Siguiendo el estudio del
Ejemplo 13-2, supongamos que los investigadores, en su estudio de morfología de arrendajos

237
azules, leen en una revista de Biología que la distancia de la base del pico hasta la coronilla de un
grupo de arrendajos azules muestreados en Europa es 31.1 milímetros. Con este antecedente, los
investigadores norteamericanos buscan analizar si existen diferencias morfológicas considerables
entre las aves de Norteamérica y las de Europa o si sus medidas son similares. Para probar la
hipótesis de investigación, se utiliza justamente una prueba de hipótesis estadística.

14.4.1 Planteamiento de hipótesis estadísticas

El valor referencial de la distancia promedio de la base del pico hasta la coronilla es de 31.1 mm.
Nótese, que el valor referencial ha sido tomado de una revista, es un valor único que no fue
recolectado por los investigadores. El objetivo del estudio es determinar si los arrendajos azules
capturados por los investigadores de Norteamérica presentan medidas morfológicas similares, o
si existen diferencias que pueden deberse a procesos evolutivos con origen genético o por factores
del entorno de desarrollo en comparación con el valor referencial de Europa. Estas posibilidades
se simplifican mediante el planteamiento de hipótesis:

H0: el promedio de la distancia de la base del pico hasta la coronilla de los arrendajos azules de
Norteamérica es igual al de aquellos de Europa
HA: el promedio de la distancia de la base del pico hasta la coronilla de los arrendajos azules de
Norteamérica es diferente al de aquellos de Europa

H0 es la hipótesis nula y HA, la hipótesis alternativa. La hipótesis nula representa un punto de


vista escéptico, mientras que la hipótesis alternativa representa un punto de vista alternativo, así,
la hipótesis nula plantea que no existen diferencias, en contraste, la hipótesis alternativa indica
que, si existen diferencias, se aplican diferentes métodos estadísticos con la finalidad de evaluar
la probabilidad de rechazar o no la hipótesis nula en favor de la hipótesis alternativa. No se puede
rechazar H0 sin suficiente evidencia en favor de la hipótesis alternativa.

Las hipótesis pueden plantearse también aplicando notaciones matemáticas, por ejemplo,
podemos al promedio de la distancia de la base del pico hasta la coronilla de los arrendajos azules
de Norte América utilizando µNA. Entonces matemáticamente podemos expresar las hipótesis
estadísticas:

H0: µNA = 31.1


HA: µNA ≠ 31.1

Donde 31.1 mm es la distancia promedio de la base del pico hasta la coronilla para arrendajos
azules de Europa. Con esta notación, la hipótesis puede evaluarse aplicando métodos estadísticos.
Nótese que en la notación matemática se utiliza µ y no debido a que las inferencias estadísticas
de las pruebas de hipótesis hacen referencia al universo de estudio a partir de los datos de una

238
muestra, plantear las hipótesis estadísticas matemáticamente utilizando es un error. En este
tipo de pruebas de hipótesis 31.1 es el valor nulo debido a que es un valor único que no fue
recolectado por los investigadores, sino que se obtuvo de fuentes secundarias y es el valor de
referencia con el cual los investigadores norteamericanos quieren comparar sus datos recolectados
en arrendajos azules.

14.4.2 Pruebas de hipótesis con intervalos de confianza

Sabemos a partir de los datos de una revista de Biología (fuente secundaria) que la distancia
promedio de la base del pico hasta la coronilla para una muestra de arrendajos azules de Europa
es de EU= 31.1 mm. Al comparar a simple vista el valor europeo con los 30.85 mm de distancia
promedio para los arrendajos norteamericanos, se aprecia que en promedio la cabeza de las aves
europeas es más grande que la de las norteamericanas. Sin embargo, estamos usando puntos de
estimación que podrían no capturar exactamente el parámetro real del universo, por eso, para
probar si existe suficiente evidencia de que existen diferencias reales (que no se daba únicamente
al azar) entre las aves de diferentes localizaciones, es necesario considerar la incertidumbre
asociada con NA. Por lo tanto, aunque NA=30.85, aún es probable que la diferencia en el tamaño
de las cabezas de las aves norteamericanas con el de las aves europeas se deba únicamente al azar
secundario al muestreo. Sabemos que, los IC nos permiten cuantificar la incertidumbre de un
punto de estimación en capturar el parámetro real del universo al calcular un rango de valores
plausibles para el promedio del universo. Así, se calcula el IC 95% del tamaño promedio de las
cabezas de los arrendajos azules norteamericanos. Conocemos que el tamaño de la muestra para
probar esta hipótesis es de 50 arrendajos, para los cuales se conoce su promedio (30.85 mm) y su
desviación estándar (0.938 mm), para posteriormente encontrar su intervalo de confianza del 95%.

𝑆 0.94
𝑆𝐸 = = = 0.13
√𝑛 √50

30.85 ± 1.96 ∗ 𝑆𝐸~(30.6,31.11)

De tal manera que estaremos 95% seguros de que el tamaño promedio de las cabezas de los
arrendajos norteamericanos será cualquier valor comprendido entre 30.6 y 31.11; el dato de la
revista de Biología indica que el promedio de la distancia de la base del pico hasta la coronilla
para aves europeas es de 31.1, este valor está comprendido en el rango de los valores plausibles
para las aves norteamericanas, por lo tanto, fallamos en rechazar la hipótesis nula. Nótese que en
estadística se usa una doble negación: fallamos en rechazar la hipótesis nula, pero no indicamos
que la hipótesis nula es correcta. Siempre se deben aplicar estos términos. Recuerde que siempre
que el valor nulo esté comprendido en el rango del intervalo de confianza fallamos en rechazar la
hipótesis nula. Por lo tanto, la conclusión sería que no existen diferencias reales en el tamaño
promedio de las cabezas de los arrendajos azules norteamericanos comparados con los arrendajos

239
europeos, ya que las diferencias se deben únicamente al azar, pero no son de relevancia
estadística.

Ejemplo 14-3 Pruebas de hipótesis con intervalos de confianza

Ejemplo 1. Continuando con el análisis de los arrendajos azules, en la misma revista de


Biología, se publica que el promedio de masa corporal en las aves de Europa de 74.3 gramos.
Los investigadores, están interesados en comparar este dato con el promedio calculado a partir
de la muestra de aves norteamericanas con la finalidad de comprobar si la masa corporal varía
o es similar en ambas regiones. El promedio de masa de las aves norteamericanas fue de 71.27
gramos con una desviación estándar de 5.3 gramos para una muestra de 50 aves.

El primer paso para responder la pregunta de investigación será plantear las hipótesis
estadísticas:

H0: la masa corporal promedio de los arrendajos azules norteamericanos es igual a la de los
europeos; µmasaNA=74.3
HA: la masa corporal promedio de los arrendajos azules norteamericanos es distinta a la de
los europeos; µmasNA≠74.3

Recuerde que el dato único obtenido de fuentes secundarias referenciales es el valor nulo

El segundo paso será calcular la incertidumbre del punto de estimación de las aves de
Norteamérica, calculando el intervalo de confianza:

5.3
Error estándar = = 0.7495 → 71.27 ± 1.96 ∗ 0.7495 (69.8,72.73)
√50

Finalmente, el tercer paso, es la decisión estadística y la redacción de las conclusiones; el rango


del intervalo de confianza no contiene el valor nulo 74.3 por lo tanto, en este caso, rechazamos
la hipótesis nula a favor de la alternativa. Así, los datos presentan evidencia estadística
relevante para afirmar que existe diferencia en las masas corporales de las aves de europeas al
compararlas con las norteamericanas, siendo la masa corporal de las aves europeas
(promedio=74.3) mayor que la de las aves norteamericanas (promedio: 71.27; IC 95%
69.8,72.73) .

Ejemplo 2. Un meteorólogo analiza los patrones de humedad relativa de la ciudad de Cuenca-


Ecuador para determinar si existen diferencias significativas con la capital ecuatoriana que
presenta un valor promedio anual de humedad relativa del 76% según el INAMHI. Para ello
analiza los datos de los 365 días del año 2016 tomados en una estación meteorológica ubicada
en el centro de la ciudad; determina que el promedio de humedad relativa para el año 2016 es
de 76.48 % con una desviación estándar de 6.13%.

240
H0: la humedad relativa promedio de Cuenca es igual a la de Quito ~ µCUE=76
HA: la humedad relativa promedio de Cuenca es diferente a la de Quito ~ µCUE≠76

6.13
Error estándar = = 0.32 → 76.48 ± 1.96 ∗ 0.32 (75.85,77.1)
√365

Este intervalo de confianza contiene el valor nulo 76 por lo tanto fallamos en rechazar la
hipótesis nula. No tenemos suficiente evidencia de que la humedad relativa sea diferente a
76%.

14.4.3 Errores de las pruebas de hipótesis

En el Capítulo 5 se abordaron brevemente los posibles errores de las hipótesis estadísticas,


recuerde que en las pruebas de hipótesis se pueden cometer dos tipos de errores tal como se
muestra en la tabla 5-1. Revise la sección 5.1.3 para refrescar los errores de decisión de las pruebas
estadísticas. En resumen, el error Tipo 1 ocurre al rechazar la hipótesis nula cuando H0 es
realmente correcta, mientras que el error Tipo 2 ocurre al fallar en rechazar la hipótesis nula
cuando HA es realmente correcta.

Las pruebas de hipótesis se construyen para rechazar o fallar en rechazar la hipótesis nula. Por lo
tanto, no rechazamos la hipótesis nula, a menos que exista suficiente evidencia. Pero ¿Cómo
definimos si existe suficiente evidencia? Como regla general en estadística, cuando H0 es real no
queremos rechazar incorrectamente la hipótesis nula más del 5% de las veces. Esto corresponde
a un nivel de significancia del 5%. Se escribe el nivel de significancia como 𝛼 = 0.05.

Si usamos un intervalo de confianza del 95% para probar una hipótesis en la cual H0 es real,
estamos solo 95% seguros de que el parámetro de universo estará incluido en ese intervalo de
confianza y cometemos un error el 5% de las veces ( 𝛼 = 0.05). Si utilizamos un intervalo de
confianza del 99%, cometeremos un error el 1% de las veces ( 𝛼 = 0.01). En general, un error
del 5% es ampliamente usado y aceptado en investigación.

14.4.4 Selección de pruebas de hipótesis de acuerdo con el tipo de variable

En estadística existen diferentes pruebas de hipótesis las cuales se plantean en función de la


pregunta de investigación, de la relación hipotética que se plantea entre las variables y del tipo de
variables deriva la prueba estadística de hipótesis que se vaya a aplicar. La Tabla 14-3 resume
algunos test estadísticos de acuerdo a la pregunta de investigación y al tipo de variable.

241
242
Tabla 14-3 Elección del test estadístico de acuerdo al tipo de variables (se incluyen únicamente tests para preguntas de investigación con una sola variable dependiente)

Naturaleza Número de Tipo de variable Propósito Ejemplo Test Test no


de la variable variables independiente estadístico paramétrico2
dependiente independientes paramétrico1
Variable Cero (población NA Comparar el promedio ¿Es el tiempo promedio que tarda Prueba Z o Prueba de
cuantitativa o única) de una variable una empresa de courier en Prueba T de medianas de
numérica dependiente numérica entregar sus paquetes a cualquier una muestra una muestra
de una población única punto de la ciudad igual a 20
con un valor hipotético minutos?
crítico
Variable Una variable Numérica. Comparar los ¿Es diferente el promedio de Prueba T de Prueba de los
numérica relacionada con la Medición post o promedios de las dos palabras que puede leer un adulto datos pareados rangos con
dependiente (dos grupos pareados mediciones (una pre y en una habitación en silencio en signo de
mediciones por una post; dos comparación con una habitación Wilcoxon
sujeto) mediciones en ruidosa?
diferentes condiciones)
Variable Una variable Categórica Comparar diferencias en ¿Varía la concentración de Prueba T de Prueba de la
numérica dicotómica los promedios de la hemoglobina en la sangre de dos muestras suma de rangos
variable dependiente en acuerdo a la residencia de las de Wilcoxon.
los diferentes niveles de personas (Cuenca/Guayaquil)?
la variable
independiente
Variable Una variable Categórica Comparar diferencias en ¿Es diferente promedio de ANOVA de un Prueba de
numérica dicotómica o los promedios de la colesterol total en sangre entre factor o de una Kruskal Wallis
categórica con variable dependiente en personas que siguen tres vía
más de dos los diferentes niveles de diferentes dietas (mediterránea,
niveles la variable nórdica y occidental)
independiente

243
Naturaleza Número de Tipo de variable Propósito Ejemplo Test Test no
de la variable variables independiente estadístico paramétrico2
dependiente independientes paramétrico1
Variable Dos o más Variables Determinar si los Determinar si es diferente el ANOVA Prueba de
numérica categóricas promedios de una VO2 máx de los atletas de acuerdo factorial Friedeman
variable dependiente a su sexo (hombres y mujeres) y
numérica varían de al mismo tiempo, si los promedios
acuerdo a las categorías varían de acuerdo al deporte
de una variable practicado (fútbol, tenis o
independiente béisbol).
categórica y al mismo
tiempo de otra variable
categórica
Variable Una variable Variable Determinar la relación Determinar si el coeficiente Regresión Regresión no
numérica predictora numérica lineal entre una variable intelectual (variable lineal simple paramétrica
dependiente numérica independiente) es capaz de
con una variable predecir la nota de Matemáticas
predictora numérica (variable dependiente) de un
grupo de estudiantes.
Variable Dos o más Variables Similar a la regresión Determinar si la nota de Regresión Regresión no
numérica variables numéricas y/o lineal, pero con más de Matemáticas de un grupo de lineal múltiple paramétrica
predictoras categóricas un predictor estudiantes (variable dependiente)
se puede predecir a partir del
sexo, la edad y el nivel
socioeconómico de la población
(variables independientes
predictoras)

244
Naturaleza Número de Tipo de variable Propósito Ejemplo Test Test no
de la variable variables independiente estadístico paramétrico2
dependiente independientes paramétrico1
Variable Una variable Variable Comparar si la Comparar la proporción de Diferencia de Chi cuadrado
categórica categórica proporción de una de las aprobación de una ley de tabaco dos
dicotómica dicotómica dos categorías de la (proporción de los que si proporciones
variable dependiente aprueban) entre los fumadores y
varía en función de los los no fumadores
grupos de la variable
independiente
Variable Una variable Categóricas dos Determinar si la Determinar si la distribución de NA Chi cuadrado
categórica dos o más niveles distribución de frecuencias de fumadores (si/no)
o más niveles frecuencias de una varía en función del nivel
variable categórica varía socioeconómico de la población
en función de otra (bajo/medio/alto)
Variable Una variable Numérica o Predecir la probabilidad Predecir la probabilidad de Regresión Regresión
categórica categórica de que se presente una padecer cáncer (probabilidad de logística logística no
dicotómica dicotómica de las dos categorías de que si tenga cáncer de mama) en simple paramétrica
la variable dependiente función de la edad de la población
en función de una
variable predictora
Variable Dos o más Numéricas y/o Predecir la probabilidad Predecir la probabilidad de Regresión Regresión
categórica variables categóricas de que se presente una padecer cáncer (probabilidad de logística logística no
dicotómica de las dos categorías de que si tenga cáncer de mama) en múltiple paramétrica
la variable dependiente función de la edad de la población
en función de dos o más (numérica), la realización de
variable predictoras autoexamen rutinario (si/no) y
numéricas o categóricas antecedentes familiares de cáncer
de mama (si/no)
NA: no aplica. 1Los test paramétricos necesitan que se cumplan ciertos parámetros o condiciones acerca de la distribución de las variables. 2 Los test no paramétricos, no
requieren que se cumplan las condiciones de la distribución de las variables, pero si requieren algunas condiciones especiales. Tabla adaptada de (UCLA: Statistical
Consulting Group)

245
Nótese que existen dos grandes grupos de pruebas estadísticas; aquellas en las cuales se deben
cumplir ciertos parámetros o condiciones de la distribución de las variables se conocen como
pruebas de hipótesis paramétricas. Mientras que, cuando no se logra cumplir con las condiciones
de distribución de las pruebas paramétricas, se puede aplicar pruebas no paramétricas. De
preferencia, se aplicarán pruebas paramétricas, para lo cual, deberán probarse las condiciones
propias de cada prueba estadística antes de decidir si se aplica un test paramétrico o no
paramétrico. Los métodos y las condiciones que se deben revisar para cada prueba estadística se
abordan en los siguientes capítulos.

14.4.5 Prueba de hipótesis calculando los valores P. Significado del valor P (alfa)
Para probar formalmente hipótesis en estadística, se aplican diferentes pruebas estadísticas de
acuerdo al tipo de variables (Tabla 14-3). Recuerde que las pruebas estadísticas tienen ciertas
condiciones que deben revisarse antes de aplicarlos. Independientemente del test estadístico que
se aplique, se calcula un valor P, y este valor, nos indica si existe o no existe evidencia para
rechazar la hipótesis nula.

El valor P es una probabilidad condicional, es una manera de cuantificar la magnitud de la


evidencia en contra de la hipótesis nula: así, en términos sencillos, el valor P es la probabilidad
de que la hipótesis nula sea cierta. Se define como la probabilidad de que las diferencias
planteadas no sean reales (se deban únicamente al azar) y, por lo tanto, la hipótesis nula sea la
correcta. Por lo tanto, mientras más pequeño sea el valor de P, más baja es la probabilidad de que
la hipótesis nula sea cierta, es decir, existirá mayor evidencia en contra de la hipótesis nula y en
favor de la hipótesis alternativa. Usualmente se fija el punto de corte del valor P en <0.05, de
manera que, para cualquier estadístico se puede rechazar la hipótesis nula en favor de la hipótesis
alternativa cuando el valor P sea <0.05 ya que la probabilidad de que las diferencias de deban
únicamente al azar y por lo tanto la hipótesis nula sea cierta son inferiores al 5%. Si bien el valor
de 0.05 es el más utilizado, la definición del punto de corte puede variar de acuerdo al área de
investigación y de acuerdo al càlculo del tamaño de la muestra, si alfa fue diferente al 95% durante
el cálculo del tamaño de la muestra, por ejemplo, fue del 99%, entonces el punto de corte del
valor p ya no será 0.05, sino que será 0.01. En la siguiente sección se presenta la prueba Z de una
muestra para comprender los cálculos del valor P, nótese que la manera en la cual se calcula el
valor P difiere de acuerdo a la prueba estadística que es aplique, pero su interpretación siempre
será la misma.

14.5 La Prueba Z de una muestra

Un artículo publicado en una revista de los Estados Unidos, indica que los estudiantes que
solamente estudian, pero no trabajan obtienen en promedio 52 puntos en una prueba estándar de

246
matemáticas. Los investigadores están interesados en determinar si la puntuación promedio de los
estudiantes que además de estudiar trabajan es menor a la del valor publicado en la revista. Para
esto, de un universo de 3728 estudiantes que trabajan, seleccionan aletoriamente una muestra de
1000 estudiantes y recopilan la información de su desempeño en la prueba estándar de
matemáticas. Luego de recolectada la información se determinó que en promedio de las
calificaciones en el examen de matemáticas de los estudiantes trabajadores fue de 51.27 puntos
con una desviación estándar de 9.41 puntos. En la Figura 14.9 se observa un histograma de las
calificaciones obtenidas.

14.5.1 Prueba Z de una muestra de una cola


Antes de pasar a la prueba de hipótesis, revisemos la pregunta de investigación y el test estadístico
que se debe aplicar; los investigadores quieren comparar el promedio de las notas de un examen
(variable dependiente numérica) con un valor crítico referencial encontrado en una revista, no
existe una variable independiente, sino que se comparan los promedios de una muestra única con
un valor referencial; por lo tanto si es que se cumplen las condiciones, el test estadístico que se
puede aplicar sería la prueba Z o la prueba T de una muestra. Las condiciones que se deben
cumplir para aplicar la prueba Z de una muestra son:

1. Deben existir al menos treinta observaciones


2. La variable debe seguir una distribución aceptablemente simétrica
3. Las observaciones deben ser independientes, para lograr esto la muestra debe
seleccionarse aleatoriamente.

En el ejemplo del examen de matemáticas, tenemos 1000 observaciones, al analizar el histograma,


se puede ver que la variable sigue una distribución aceptablemente simétrica y los estudiantes
fueron seleccionados aleatoriamente; por lo tanto, al cumplirse todas las condiciones procedemos
a aplicar la prueba Z de una muestra paso a paso.

Paso 1. Planteamineto de las hipótesis estadísticas

H0: µexamen_estudiantes_trabajadores =52


HA: examen_estudiantes_trabajadores<52

En la hipótesis planteada, indicamos la dirección de las diferencias: <52, al indicar la dirección


de las diferencias hipotéticas sea esta mayor o menor, se están planteando pruebas de hipótesis
en la hipótesis de una cola, la prueba sería de dos colas, si no indicamos la dirección de las
diferencias al indicar ≠ en la hipótesis alternativa. Se deben preferir las pruebas de dos colas, a
menos que se haya establecido antes de recolectar los datos que las diferencias se probarán
mediante pruebas de una cola. Se pueden además aplicar pruebas de una cola cunado se quiere
comparar una muestra con un valor crítico de corte que representa algún riesgo, por ejemplo,

247
comparar la concentración promedio de Carboxihemoglobina en la sangre de una muestra con el
valor máximo permitido para una buena salud, por ejemplo, una norma indica que el valor no
debe superar el 3.5% por lo tanto, podemos plantearnos la hipótesis de que si el valor promedio
de la población es menor a este valor crítico.

En resumen, cuando se busca si un parámetro es mayor o menor al valor crítico, se utilizan test
de una cola. Pero cuando se busca cualquier diferencia con el valor crítico (ya sea mayor o menor)
entonces el test que se aplique deberá ser de dos colas. Independientemente de si se apliquen
pruebas de una o dos colas, siempre se debe escribir la hipótesis nula como una igualdad y la
alternativa como una desigualdad.

Figura 14-8 Distribución de las calificaciones de una muestra de 1000 estudiantes

Paso 2. Elaboración de un gráfico

La prueba de hipótesis del estudio de las calificaciones será evaluada con un nivel de significancia
del 5%, 𝛼 = 0.05. Analizaremos los datos bajo la condición de que la hipótesis nula es verdadera.
Para comprender el cálculo del valor P, debemos recordar el concepto del valor Z. El área
sombreada de la Figura 14.10 representa la probabilidad de que la hipótesis nula sea cierta, es
decir, la probabilidad de observar un promedio al menos tan extremo como el calculado con la
muestra de 1000 estudiantes trabajadores si la hipótesis nula fuera verdadera, cuando se dice
valores al menos tan extremos queremos decir en este caso iguales o menores al promedio
calculado debido a que se trata de una prueba de una cola, en la cual queremos determinar si el
promedio de las notas de matemáticas de los estudiantes que trabajan son menores a un valor
crítico de una revista. Por lo tanto, el área sombreada representa el valor P (la probabilidad de que
la hipótesis nula sea cierta. En el centro de la distribución se coloca el valor crítico de la hipótesis
de investigación (52 puntos). El valor del promedio de la nota de matemáticas estimado a partir

248
de la muestra de 1000 estudiantes trabajadores es 51.27, por lo tanto, al ser menor al punto central,
estará ubicado a la izquierda del punto central. Se ha coloreado en azul, el área que corresponde
a valores menores o iguales al promedio calculado, ya qe se alejan del valor crítico y son más
favorables para la hipótesis alternativa que el promedio observado.

Figura 14-9 Si la hipótesis nula es verdadera. La media proveniente de una distribución aproximadamente normal.
El área sombreada describe la probabilidad de observar una media tan extrema si la hipótesis nula es verdadera

p = 0.0071 0.9929

Paso 3. Cálculo del valor P

Para calcular el valor P debemos calcular el valor Z del promedio calculado a partir de la muestra
a partir de la ecuación 14-4.

Ecuación 14-4 Valor Z para pruebas de hipótesis Z

𝑥̅ − 𝑣𝑎𝑙𝑜𝑟 𝑛𝑢𝑙𝑜
𝑍=
𝑆𝐸𝑥̅

Así:

𝑥̅ − 𝑣𝑎𝑙𝑜𝑟 𝑛𝑢𝑙𝑜 51.27 − 52


𝑍= = = −2.453
𝑆𝐸𝑥̅ 0.297

9.41
El error estándar se obtiene: 𝐸𝑟𝑟𝑜𝑟 𝑒𝑠𝑡á𝑛𝑡𝑎𝑟 = = 0.297
√1000

Para buscar la probabilidad de tener datos menores a 51.27, identificamos el percentil


correspondiente del valor Z calculado en la tabla de probabilidad de la distribución normal para
valores Z negativos; el valor correspondiente para Z de -2.453 es 0.0071, este valor es el área
coloreada de la Figura 14.10; la probabilidad de que la hipótesis nula sea cierta. Si la hipótesis
nula fuese verdadera, la probabilidad de una media al menos tan extrema como 51.27 es solamente
0.0071. En otras palabras, la probabilidad de que la hipótesis nula sea cierta es de 0.0071, este
valor es el valor P.

249
Paso 4. Selección de la hipótesis estadística cierta. ¿Se rechaza o no se rechaza la hipótesis nula?

Al Comparamos el valor P obtenido con el nivel de significancia 𝛼 = 0.05, se puede apreciar,


que el valor P calculado es menor al punto de corte 0.05, por lo tanto, la probabilidad de que la
hipótesis nula sea verdadera es menor al 5%. La hipótesis planteada en el paso 1 fue:

H0: µexamen_estudiantes_trabajadores =52


HA: µexamen_estudiantes_trabajadores<52

Con los datos del valor P calculado, rechazamos la hipótesis nula en favor de la hipótesis
alternativa. Lo que observamos es tan inusual en relación a la hipótesis nula proveyendo fuerte
evidencia a favor de HA. Dicho de otro modo las probabilidades de que la hipótesis nula fuese
verdadera son apenas del 0.71% (0.0071*100), esto nos ofrece evidencia de que es muy poco
probable que la hipótesis nula sea real. Recuerde, mientras más pequeño es el valor de P, menor
será la probabilidad de que la hipótesis nula sea verdadera.

Un valor P menor a 0.05 es usualmente suficiente evidencia para rechazar H0 en favor de HA.
Mientras más pequeño es el valor P, más fuerte es la evidencia de los datos en favor de HA. Se
aconseja dibujar primero la distribución y luego calcular el valor P.

En resumen:

− La hipótesis nula representa una posición escéptica (no hay diferencia). Se rechaza la
hipótesis nula únicamente cuando existe evidencia contundente en favor de HA
− Un valor P pequeño significa que, si la hipótesis nula fuera verdadera, no veríamos muy
frecuentemente una media tan extrema como la que obtenemos de nuestros datos. Esto se
interpreta como evidencia contundente en favor de HA
− Se rechaza la hipótesis nula cuando el valor P es menor que el nivel de significancia, 𝛼 =
0.05. en cambio, si el valor P es mayor que 0.05 fallamos en rechazar la hipótesis nula.
− Adicionalmente se debe escribir los resultados en un lenguaje sencillo de manera que
cualquier persona no familiarizada con estadística pueda comprender los resultados.

Paso 5. Conclusiones estadísticas

En este paso, se debe responder la pregunta de investigación, los investigadores estaban


interesados en determinar si la puntuación promedio de los estudiantes que además de estudiar
trabajan es menor a la de un valor publicado en la revista de estudiantes que no trabajan. En el
paso anterior, rechazamos la hipótesis nula en favor de la hipótesis alternativa. Simplemente al
leer la hipótesis alternativa tenemos la conclusión estadística, el promedio del examen de
matemáticas de los estudiantes que trabajan es menor a la nota de referencia publicada en una
revista.

250
Paso 6. Conclusión práctica

Podemos observar que la nota de los estudiantes que trabajan es 0.73 (52-51.27) puntos menor
que la de aquellos que no trabajan de acuerdo a los datos de una revista. Si bien existe una
diferencia estadísticamente significativa (P<0.05), en la práctica una nota inferior en 0.73 puntos
no tendría mayores implicaciones. En este paso hacemos una interpretación crítica de la
aplicación práctica de los resultados en la vida real.

14.5.2 Prueba Z de una muestra de dos colas

Consideremos nuevamente la investigación para determinar si los estudiantes que trabajan y


asisten al colegio tienen un menor promedio que aquellos que solo cumplen con sus actividades
académicas (52 puntos de acuerdo a los datos de una revista). En el ejemplo de la sección anterior,
se probaron las diferencias mediante una prueba de una cola; un segundo grupo de investigadores
en otra parte del país, quiere probar las diferencias mediante una prueba de dos colas. En este
caso, se seleccionan al azar 1200 estudiantes, encontrando que su promedio de calificaciones del
examen de matemáticas es de 51.83 puntos y su desviación estándar 9.51 puntos. Antes de
comenzar con la prueba, se debe comprobar si se cumplen las condiciones, la muestra es aleatoria,
tiene más de 30 observaciones y de acuerdo al ejemplo anterior, podemos concluir que la
distribución es aproximadamente normal.

Paso 1 Planteamiento de las hipótesis

H0: µexamen_estudiantes_trabajadores =52


HA: µexamen_estudiantes_trabajadores≠52

Paso 2 Elaboración de un gráfico

En este caso al tratarse de una prueba de dos colas, se realiza el gráfico tal como se muestra en la
Figura 14-11. Al igual que en el ejemplo anterior, a la izquierda se coloca el promedio calculado
a partir de la muestra (51.83) y a la derecha el valor simétrico correspondiente (52+0.17). Se
colorean las colas derecha e izquierda, debido a que la distribución es simétrica, la cola derecha
será igual a la cola izquierda

251
Figura 14-10 HA de dos colas, por lo tanto ambas colas deben tomarse en cuenta para calcular el valor P

Posteriormente procedemos a calcular P:

Observaciones
Cola
tan inusuales
izquierda
como 𝑥̅ bajo la
condicion Ho

Paso 3 Cálculo del valor P

Se calcula el el error estándar:

9.51
𝐸𝑟𝑟𝑜𝑟 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟 = = 0.2745
√1200

Se calcula Z:

51.83 − 52
𝑍= = −0.6192 = 0.2676 (𝑐𝑜𝑙𝑎 𝑖𝑧𝑞𝑢𝑖𝑒𝑟𝑑𝑎)
0.2745

El valor Z corresponde al percentil 0.2676 en la tabla de probabilidad de la distribución normal,


esta sería el área coloreada de la izquierda, ya que estamos calculando el valor P para una
prueba de dos colas y la distribución es simétrica debemos multiplicar este valor por dos para
calcular las áreas de las dos colas, el valor de la multiplicación, será el valor P.

𝑣𝑎𝑙𝑜𝑟 𝑃 = 𝑐𝑜𝑙𝑎 𝑖𝑧𝑞𝑢𝑖𝑒𝑟𝑑𝑎 + 𝑐𝑜𝑙𝑎 𝑖𝑧𝑞𝑢𝑖𝑒𝑟𝑑𝑎 = 2 ∗ 𝑐𝑜𝑙𝑎 𝑖𝑧𝑞𝑢𝑖𝑒𝑟𝑑𝑎 = 2 ∗ 0.2676 = 0.5352

Paso 4. Selección de la hipótesis estadística cierta. ¿Se rechaza o no se rechaza la hipótesis nula?

El valor P es mayor que 0.05 por lo tanto fallamos en rechazar la hipótesis nula. O sea que si la
hipótesis nula fuera verdadera en el universo del cual se tomó la muestra, no sería inusual obtener
una media como la encontrada por los investigadores. Por lo tanto, no tenemos suficiente
evidencia para rechazar la hipótesis nula

Paso 5. Conclusiones estadísticas

Al indicar que la hipótesis nula es cierta, concluimos que el promedio del examen de matemáticas
de los estudiantes que trabajan es igual a 52 puntos

Paso 6 Conclusión práctica

252
En este caso se puede concluir que el desempeño en matemáticas de los estudiantes que trabajan
no difiere del dato publicado en la revista de los estudiantes que no trabajan, se puden mantener
las políticas institucionales ya que los estudiantes que trabajan tienen un similar desempeño que
aquellos que no trabaja.

14.5.3 Circunstancias para aplicar pruebas de una o dos colas


Nunca se debe cambiar de una prueba de una cola a otra de dos colas, en el ejemplo presentado
anteriormente se trata de investigaciones aisladas llevadas a cabo por diferentes investigadores,
note que al cambiar de una prueba a otra pueden cambiar también las conclusiones. Nunca se
deben probar pruebas de una y luego de dos colas, las hipótesis se plantean antes de iniciar la
investigación y se probarán tal como fueron planteadas cuando se diseñó la investigación, ignorar
esta regla incrementa el error Tipo 2 (no rechazar la H0 cuando HA es verdadera).

Las pruebas de una cola son permitidas únicamente antes de revisar los datos, las hipótesis deben
plantearse durante el diseño de investigación, caso contrario, siempre se debe preferir una prueba
de dos colas. Las pruebas de una cola son relevantes para estudios de riesgo, por ejemplo, para
comparar si la concentración promedio de material particulado en el aire ambiente es mayor al
límite permitido, ya que, valores superiores a ese límite serían perjudiciales para la salud y deben
ser identificados.

253
15 La Prueba T
Las pruebas de hipótesis expuestas en el capítulo anterior requieren de muestras grandes (n > 30),
que la distribución muestral de 𝑥̅ tienda a ser normal y que el error estándar sea pequeño. La
prueba T se puede emplear cuando las muestras son más pequeñas ya que se puede aplicar cuando
el error estándar es mayor. Sin embargo, la prueba T no se limita a ser aplicada en muestras
pequeñas, puede aplicarse también en muestras grandes. Dependiendo de la pregunta de
investigación y, por ende, del tipo de variables, podemos aplicar prueba T de una muestra, de dos
muestras o prueba T de datos pareados.

15.1 La distribución t
En el capítulo anterior se aplicó la distribución normal y la tabla de probabilidad de la distribución
normal para las pruebas de hipótesis; en la prueba T, se utiliza la distribución t. La Figura 15-1
muestra la curva de la distribución t y la normal; la distribución t está representada mediante una
línea sólida azul, mientras que, la línea punteada roja representa la distribución normal estándar.
Al igual que la distribución normal, la distribución t tiene forma de campana simétrica, sin
embargo, las colas de la distribución t son más amplias en comparación con la distribución
normal, por lo tanto, es más probable que las observaciones se sitúen más allá de las 2
desviaciones estándar de la media que en la curva distribución normal.

Figura 15-1 Comparación de la distribución t (línea sólida) con la distribución normal (línea punteada)

La distribución t tiene las siguientes características:

- Al igual que con la distribución normal, existen varias distribuciones t. La forma de la


campana de la distribución normal estándar depende del promedio y la desviación
estándar, en cambio, la distribución t tiene un único parámetro que determina su forma y
se conoce como grados de libertad (gl). Observe la Figura 15-2.
- Tiene forma de campana simétrica con el promedio igual a cero.
- A medida que aumentan los grados de libertad, la distribución t se aproxima más a la
distribución normal (Figura 15-2).

254
En términos sencillos, los grados de libertad constituyen piezas de información para estimar 𝜎
usando S; los grados de libertad se calculan: gl=n-1, por lo tanto, si existen 20 observaciones
tenemos 19 grados de libertad, para 10 obsevaciones, 9 grados de libertad. La Figura 15-2
muestras la distribución normal estándar (rojo), una distribución t con 16 grados de libertad
(verde), y una, con 4 grados de libertad (azul), observe, que a medida que aumentan los grados de
libertad, la distribución se acerca a la distribución normal.

Figura 15-2 La curva normal y curvas t con 16 y 4 grados de libertad

Con la distribución t, se debe utilizar la tabla de distribución t. La Figura 15-3, muestra una
porción de la tabla de probabilidad de la distribución t. La tabla completa se encuentra en el Anexo
… A diferencia de la tabla de probabilidad de la distribución normal con una tabla para Z positivo
y para para Z negativo, se usa únicamente una tabla para la distribución t. En la primera columna
se encuentran los grados de libertad, en la primera fila encontramos las probabilidades
(percentiles) para el área bajo la curva correspondiente a una cola, y, en la segunda fila, las
probabilidades para el área bajo la curva de dos colas.

En la distribución t tenemos valores t, comparables con los valores Z de la distribución normal.


En el centro de la tabla de la distribución t se encuentran los valores t. Nótese que la tabla t no es
tan detallada como la tabla de la distribución normal.

Ejemplo 15-1 Uso de la tabla de la distribución t

Ejemplo 1. Una investigación mide la concentración de metales pesados en 19 muestras de


leche entera, se busca determinar el valor t correspondiente al 10% de la cola derecha de la
distribución, para esto, calculamos los grados de libertad, en este caso: 19-1=18, a
continuación, como estamos buscando el valor de la cola izquierda, se identifica el percentil
10 para una cola (primera fila). Cruzamos el valor del percentil 10 (0.100) con los 18 grados

255
de libertad para identificar el valor t de interés, que en este ejemplo es 1.33. Si quisiéramos
identificar el valor t del 10% de la cola izquierda el valor t será -1.33. Recuerde del capítulo
anterior que los valores que están hacia la izquierda siempre son negativos, y aquellos que
están a la derecha siempre son positivos.

Ejemplo 2. Ahora estamos interesados en identificar el valor t que corresponde al 5% de los


datos en las colas derecha e izquierda para una muestra con 20 observaciones. En este caso
tenemos 19 grados de libertad, como nos interesan las áreas bajo la curva tanto del lado derecho
como del lado izquierdo, buscamos el valor que corresponde al 5% en la fila de dos colas que
es 2.09

Ejercicio 15-1

- Identifique el valor t correspondiente al 5% de la cola derecha para una muestra con


tres observaciones.
- En el ejemplo 2 del Ejemplo 15-1 se determinó que el valor t que corresponde al 5%
de los datos en las colas derecha e izquierda es 2.09, se puede apreciar en la tabla que
el valor t que corresponde al 2.5% de la cola izquierda o derecha es 2.09. Explique por
qué los valores t son iguales.

Al igual que en la distribución normal, si disponemos de un valor t, podemos identificar su


percentil (probabilidades), tal como se muestra en el Ejemplo 15-2

Ejemplo 15-2 Identificar probabilidades con la tabla t

Para el ejemplo de la concentración de metales pesados en la leche entera, ¿Cuál es la


probabilidad de encontrar muestras de leche por encima del valor t 2.55. Para 18 grados de
libertad buscamos el valor t 2.55, como estamos interesados en el área de una cola (por encima),
la probabilidad será del 1%. Por lo tanto, alrededor del 1% de las muestras están por encima
del valor t 2.55.

256
Figura 15-3 Vista resumida de la tabla-t. Cada fila representa una distribución t diferente. Las columnas
representan los cortes para las áreas de las colas específicas. La fila con 18 grados de libertad está resaltada

15.2 Condiciones para usar la distribución t


Para aplicar pruebas de hipótesis con la distribución t, se deben cumplir dos condiciones:

− Independencia de las observaciones: para cumplir con este criterio la muestra debe ser
seleccionada aleatoriamente.
− Las observaciones vienen de una muestra aproximadamente normal. Realizamos gráficos
para probar la simetría de la distribución, o consideramos estudios o experimentos
anteriores que sugieran que la distribución sea normal.

Se usa la distribución t para inferencia del promedio de una variable numérica cuando las
observaciones son independientes y siguen una distribución aproximadamente normal. Se puede
ser más tolerante en cuando a la condición de normalidad cuando se incrementa el tamaño de la
muestra. Se aplicará prueba T de una, de dos muestras o de datos pareados de acuerdo al tipo de
la variable independiente (Tabla 14-3).

15.3 Cálculo del valor t, e Intervalos de confianza con la distribución t


Los desechos industriales y la minería generan contaminación con metales pesados en el medio
ambiente acuático. Un grupo de investigadores de Turquía realizan una investigación para
determinar la concentración de metales pesados en diferentes especies de peces que habitan en un
lago expuesto a desechos industriales; entre las especies estudiadas figura la denominada
Chalcalburnus mossulensis, en las 12 muestras de pez analizadas determinan que la concentración
de Cobre en el hígado de los especímenes es de 6.42 ppm con una desviación estándar de 2.38

257
(Karadede & Ünlü, 2000). Antes de calcular el intervalo de confianza, de acuerdo a los datos del
artículo científico del cual se obtuvo la información, se puede determinar que las muestras son
independientes y que la distribución es aceptablemente simétrica, adicionalmente, ya que tenemos
menos de 30 observaciones (n=12), es mandatorio utilizar la distribución t para cualquier
inferencia estadística. La fórmula para calcular el intervalo de confianza con la distribución t se
muestra en la Ecuación 15-1

Ecuación 15-1 Intervalo de confianza para un promedio con distribución t



𝑥̅ ± 𝑡𝑔𝑙 𝐸𝐸

Donde 𝑥̅ representa el promedio.

tgl: el valor t para los grados de libertad correspondiente al intervalo deseado,

EE: el error estándar, el error estándar se calcula de la misma manera que en la distribución Z:
𝑠
𝐸𝐸 =
√𝑛

Para determinar el valor tgl, se calculan los grados de libertad, en este caso gl=12-1=11. Estamos
interesados en calcular un intervalo de confianza del 95%, recuerde que en la distribución normal
los valores Z que corresponden al 95% son ±1.96 (el 95% de las observaciones están entre -1.96
y +1.96 valores Z). Cuando usamos la distribución t, es necesario determinar los valores t
correspondientes al 95% de acuerdo a los grados de libertad. En el ejemplo de los peces, se busca
el valor t que corresponde al 5% de dos colas, para 11 grados de libertad, el valor t correspondiente
es 2.20.

𝑠 2.38
A continuación, se calcula el error estándar: 𝐸𝐸 = = =0.69
√𝑛 √12

Finalmente, se reemplazan los valores de la fórmula de intervalo de confianza para calcular el IC


95%:


𝑥̅ ± 𝑡𝑔𝑙 𝐸𝐸 → 6.42 ± 2.20 ∗ 0.69 → 𝐼𝐶 95% (4.90; 7.94)

Por lo tanto, estaremos 95% seguros de que la concentración de Cu en el hígado de todos los
peces de la especie estudiada en el lago de Turquía tendrá un valor entre 4.90 y 7.94

Ejercicio 15-2

La siguiente tabla resume las características de la dieta de un grupo de adolescentes suizos.

Varones (n=44)

Energía (kcal/día) 2754 ± 98

258
Proteínas (g/día) 94.0 ±4

Mujeres (n=39)

Energía (kcal/día) 2023 ± 108

Proteínas (g/día) 74.5 ± 4.0

- Calcule el intervalo de confianza del 95% del consumo proteico de los varones.
- Calcule el intervalo de confianza del 95% del consumo proteico de las mujeres.
- Compare ambos resultados y escriba sus conclusiones.

15.4 Prueba t de una muestra


La concentración de grasa corporal es un indicador del estado de salud de las personas, el Consejo
Americano de Ejercicios, recomienda que, para las personas promedio, el porcentaje de grasa
corporal debe ser inferior al 32% en las mujeres y el 25% en hombres, valores iguales o superiores
a los recomendables son perjudiciales para la salud y se asocian con enfermedades del corazón.
Un médico, recolecta los datos de 13 pacientes seleccionadas aleatoriamente, la tabla 15-1
muestra la estadística descriptiva del porcentaje de grasa de las 13 pacientes y la Figura 15-4
muestra el diagrama de cajas de la distribución del % de grasa corporal.

Tabla 15-1 Estadística descriptiva de los pasos registrados durante 68 días

Desviación
Mínimo
Cuartil 1 Mediana Promedio Cuartil 3 Máximo estándar

25.20 30.20 31.40 31.42 33.80 34.70 2.88

Figura 15-4 Diagrama de cajas del porcentaje de grasa de 13 mujeres

259
En este caso, tenemos un total de 13 observaciones, al observar el diagrama de cajas, podemos
concluir que es aceptablemente simétrico (al usar la distribución t se puede ser más tolerante con
la simetría de la distribución). La pregunta de investigación es si el promedio de la concentración
de grasa de las pacientes estudiadas es diferente al valor máximo de la recomendación del Consejo
Americano de Ejercicios para mujeres (32%). Al existir menos de 30 observaciones y ya que la
distribución es aceptablemente simétrica, se debe aplicar la prueba T de una muestra (ver Tabla
14-3). A continuación, se describe el proceso de la prueba T de una muestra.

Paso 1. Planteamiento de hipótesis estadísticas

H0: µgrasa = 32
HA: µgrasa ≠ 32

Se ha planteado una hipótesis de dos colas de acuerdo a la pregunta de investigación, sabemos


que valores iguales a 32 son riesgosos para la salud.

Paso 2. Elaboración del gráfico

260
Este procedimiento es similar al del capítulo anterior, en el centro va el valor crítico y nos
interesan las áreas bajo la curva de las dos colas

Paso 3. Cálculo del valor T

El siguiente paso será calcular el valor t, el valor t. se calcula con la misma fórmula que
calculamos el valor Z (Ecuación 14-4)

𝑥̅ − 𝑣𝑎𝑙𝑜𝑟 𝑐𝑟í𝑡𝑖𝑐𝑜 31.42 − 32


𝑡= = = −0.73
𝐸𝑟𝑟𝑜𝑟 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟 0.799

2.88
𝐸𝐸 = = 0.799
√13

Paso 4. Determinación del valor t crítico

Debido a que la tabla de la distribución t no es tan detallada como la tabla de la distribución


normal, necesitamos identificar un valor t crítico, recuerde que se puede rechazar la hipótesis nula
en favor de la alternativa, cuando el valor P es menor a 0.05, buscamos el valor t que corresponde
a este 0.05 o al 5% de las colas derecha e izquierda y este será el valor t crítico. Para esto se
calculan los grados de libertad: gl=13-1=12; a continuación, se identifica el valor t que
correspondiente al 5% de dos colas en la tabla de la distribución t. El valor t crítico en este caso
es 2.18

Paso 5. Selección de la hipótesis estadística cierta

Se compara el valor t calculado absoluto (sin signo) del paso 3 con el valor t crítico, así:

Se rechazará la hipótesis nula cuando el valor calculado es superior al valor t crítico,

Se falla en rechazar la hipótesis nula cuando el valor t calculado es menor o igual al valor t crítico

En este ejemplo, el valor t calculado es menor al valor t crítico, por lo tanto, fallamos en rechazar
la hipótesis nula

H0: µgrasa = 32
HA: µpasos ≠ 32

Al leer la hipótesis nula decimos que el promedio del porcentaje de grasa corporal es igual a 32

Paso 6. Conclusiones prácticas

En este caso, al regresar a la pregunta de investigación, se puede apreciar, que las pacientes en
promedio tienen un porcentaje de grasa corporal riesgoso para su salud ya que se sabe que valores
iguales o superiores a 32 son riesgosos para la salud, es necesario implementar estrategias para
disminuir el porcentaje de grasa corporal de las pacientes.

261
Ejercicio 15-3

Ejercicio 1: La contaminación del aire de una ciudad ha presentado variaciones a lo largo de


los años en los que se ha monitoreado. Estamos particularmente interesados en analizar el
material particulado PM10. Se quiere conocer si para el año 2015 este ha aumentado o
disminuido con respecto al promedio anual desde el año 2010 hasta el 2014 de 35.68 µg/m3.
Se cuenta con registros anuales de 24 estaciones de la ciudad, las cuales tienen una distribución
simétrica. El promedio y la desviación estándar de los datos es de 40.30 µg/m3 y 11.68 µg/m3.
Con esta información, siga los pasos de la prueba T de una muestra para responder la pregunta
planteada.

Ejercicio 2: Se ha realizado un análisis de biodiversidad vegetal en 14 transectos en un Parque


Nacional, donde se ha obtenido el índice de Shannon, que es un índice que mide la
biodiversidad de un lugar a través de la riqueza (cantidad de especies vegetales) y abundancia
(número de individuos por especie). Este índice se encuentra entre 0,5 y 5, donde valores
menores a 2 se consideran bajos en biodiversidad y valores mayores a 3 presentan alta
biodiversidad de especies. De estudios previos, realizados en el 2005, se determinó que el
índice de Shannon para este Parque era de 3.7. Para el año 2017 se desea determinar si este
índice ha aumentado o disminuido, conociendo que el índice promedio es de 4.1 con una
desviación estándar de 0.3.

15.5 Prueba T de datos pareados


La terapia familiar como tratamiento de la anorexia ha tomado fuerza, la terapia consiste en
fomentar la comunicación, el manejo de conflictos y la tolerancia a emociones negativas dentro
del núcleo familiar, especialmente entre adolescentes y adultos. Un estudio sobre anorexia en
jóvenes pacientes pretende comprobar la efectividad de aplicar terapia familiar como tratamiento
para el desorden alimenticio. Para ello se pesaron 17 chicas antes y después de la aplicación del
tratamiento y se compararan los resultados. La Tabla 15-2 contiene un extracto de la base de datos
generada para el experimento.

Tabla 15-2 Seis casos de pacientes con anorexia

Paciente Peso Previo (lb) Peso Posterior (lb) Diferencia (lb)


1 83.8 95.2 11.4
2 83.3 94.3 11.0
3 86.0 91.5 5.5
4 82.5 91.9 9.4
… … … …

262
16 86.0 91.7 5.7
17 87.3 98.0 10.7
Paciente: código del paciente, Peso previo: peso de los pacientes en libras antes del tratamiento, Peso
Posterior: peso de los pacientes en libras después del tratamiento, Diferencia (Peso Posterior – Peso Previo)

15.5.1 Datos pareados


Para cada paciente se tienen dos registros, uno previo al tratamiento y otro posterior. Cuando las
bases de datos están estructuradas de esta manera, es decir existen dos datos del mismo sujeto u
objeto de estudio podemos decir que los datos son pareados.

Para analizar datos pareados es útil calcular la diferencia de lo que deseamos evaluar (en este caso
el peso) entre los datos pareados. En el ejemplo de la base de datos (Tabla 15-2) podemos apreciar
las diferencias en pesos en la variable Diferencia. Estas diferencias se han calculado:
𝑃𝑒𝑠𝑜 𝑃𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟 − 𝑃𝑒𝑠𝑜 𝑃𝑟𝑒𝑣𝑖𝑜 para cada una de las pacientes. Es importante que todas las
substracciones se hagan siempre en el mismo orden (𝑃𝑒𝑠𝑜 𝑃𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟 − 𝑃𝑒𝑠𝑜 𝑃𝑟𝑒𝑣𝑖𝑜).

15.5.2 Inferencia para datos pareados. La prueba T de datos pareados


Para analizar datos pareados se procede de manera similar a la Prueba T de una muestra, se analiza
la variable de las diferencias de las dos mediciones. La Tabla 15-3 muestra la estadística
descriptiva de la variable Diferencias de la Tabla 15-2, se puede observar que el promedio de las
diferencias 𝑃𝑒𝑠𝑜 𝑃𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟 − 𝑃𝑒𝑠𝑜 𝑃𝑟𝑒𝑣𝑖𝑜𝑟 es 7.26 con una desviación estándar de 7.15. Esto
significa que en promedio las pacientes subieron 7.26 libras de peso al final del tratamiento,
estamos interesados en comprobar si esta diferencia es significativa estadísticamente, en otras
palabras, comprobar si las diferencias son reales o solamente se debieron al azar.

Tabla 15-3 estadística descriptiva de las diferencias en pesos. Como existieron 17 pacientes existen 17 diferencias

𝑛𝐷𝑖𝑓 𝑥̅𝐷𝑖𝑓 𝑆𝐷𝑖𝑓

17 7.26 7.15

Como en cualquier prueba de hipótesis, antes de aplicarla de debe determinar si se cumplen las
condiciones. En este caso las pacientes fueron seleccionadas aleatoriamente, tenemos menos de
30 observaciones, y, el histograma de la Figura 15-5 indica la distribución de la diferencia de
pesos, a pesar de tener una moderada asimetría se puede usar la distribución t para probar las
hipótesis (en la prueba T se puede ser más tolerante con la asimetría).

263
Figura 15-5 Histograma de las diferencias de los pesos

Paso 1. Planteamiento de las hipótesis estadísticas

Consideramos dos escenarios, que existan o que no existan diferencias en los pesos promedio
antes y después del tratamiento.
𝐻0 : 𝜇𝑑𝑖𝑓𝑓 = 0, no hay diferencias en los pesos promedio
𝐻0 : 𝜇𝑑𝑖𝑓𝑓 ≠ 0, hay diferencias en los pesos promedio

Paso 2. Cálculo del valor t

7.15
Empezamos calculando el error típico o erros estándar 𝐸𝐸 = = 1.735, luego calculamos t
√17
7.26−0
con la misma fórmula de la sección anterior: 𝑡 = 1.735
= 5.528. Nótese que para una prueba T

de datos pareados el valor crítico de la fórmula siempre será igual a cero (no hay diferencias, pre-
post=0)

Paso 3. Determinar el valor t crítico

Para 16 grados de libertad y una prueba de dos colas el valor crítico es 2.12.

Pasos 4 y 5. Selección de la hipótesis cierta y conclusión estadística

El valor calculado es mayor al crítico, por lo tanto, se rechaza la hipótesis nula en favor de la
alternativa, concluimos que si hay diferencias en las mediciones de los pesos

Paso 6. Conclusión práctica

264
Se concluye que si existen diferencias, sabemos que la diferencia promedio es de 7.26 libras, ósea
que en promedio las pacientes subieron 7.26 libras luego de la terapia. Por lo tanto, la terapia ha
logrado un incremento de peso de pacientes anoréxicas.

Un software estadístico calculará el valor P correspondiente, el software RStudio indica que el


valor P es 0.0007. Como el valor p es menor a 0.05 rechazamos la hipótesis nula y encontramos
evidencia convincente de que los pesos de las pacientes aumentan tras recibir el tratamiento de
terapia familiar (la diferencia promedio de Peso Posterior – Peso Previo es un valor positivo:
7.26).

Ejercicio 15-4

Ejercicio 1: Una compañía aseguradora está preocupada por la sospecha de elevados cobros
en la mecánica I en comparación con la mecánica II. Para comprobar las sospechas, se analizan
los datos de los costos de los quince últimos vehículos reparados en cada mecánica.

Datos Mecánica I – Mecánica II


Diferencia Promedio 0.61
S promedio 0.394

- Realice los cálculos e indique si existieron diferencias

Ejercicio 2: Un investigador desea comparar el peso de pollos de engorde antes y después de


consumir suplementos con aceites esenciales de ajo y oréganos. Para esto se toma e peso de 20
pollos adultos antes y después de alimentarlos con los suplementos. ¿Existió diferencia en el
peso de los pollos?

Datos Peso Antes – Peso después


Diferencia Promedio 2.63 libras
S promedio 0.23 libras

15.6 Prueba T de dos muestras, la diferencia de dos promedios


En esta sección se responde a una pregunta de investigación para una variable dependiente
numérica y una independiente con dos categorías, se comparan los promedios de la variable
dependiente entre los dos niveles de la variable independiente. Se considera, por lo tanto, la
diferencia de los promedios de dos poblaciones 𝜇1 − 𝜇2 bajo la condición de que los datos no

265
sean pareados. Al igual que en las pruebas T de una muestra y de datos pareados, debemos
verificar las condiciones y usamos puntos de estimación de una muestra 𝑥̅1 − 𝑥̅2 aplicando la
distribución t.

15.6.1 Cálculo del intervalo de confianza para la diferencia de dos promedios


Los estereogramas de puntos aleatorios son imágenes de dos dimensiones donde se puede
observar, tras cierta concentración, objetos con profundidad y dimensión, es decir objetos en
tercera dimensión. Observarlos por primera vez suele ser complejo, pero a medida que se practica
se puede resolverlos con mayor facilidad, La Figura 15-6 muestra un estereograma de puntos
aleatorios. Un estudio, busca determinar el tiempo en minutos que le toma a una persona resolver
un estereograma, en dos casos, si se le da información previa o si no se le proporciona ninguna
información.

Figura 15-6 Estereograma de puntos aleatorios

Fuente: Magic Eye Inc. Magic Eye 3D Hidden Treasures. 1st ed. Andrews McMeel; 2004.

El objetivo es determinar si las personas que no recibieron información previa, tardan más en
resolver los estereogramas que aquellas que recibieron información previa. Para ello se realizó un
experimento con 78 individuos, a 35 se les brindó información previa, mientras que a 43 no se les
dio ninguna información adicional.

266
Tabla 15-4 Estadística descriptiva del estudio de tiempo de resolución de estereograma

n 𝑥̅ S
Sin información previa 43 8.56 2.085
Con información previa 35 5.55 2.401

La Tabla 15-4 presenta la estadística descriptiva del tiempo que tardan en resolver el
estereograma los participantes de cada grupo. A simple vista se puede apreciar que en el grupo
sin información, los participantes tardaron en promedio 8.56 minutos en resolver el estereograma,
mientras que, en el grupo con información previa tardaron en promedio 5.55 minutos, se puede
apreciar que en promedio, los participantes sin información previa tardaron 3.01 minutos más en
resolver el ejercicio: 𝑥̅𝑁𝑜𝐼𝑛𝑓 − 𝑥̅𝐼𝑛𝑓 = 8.56 − 5.55 = 3.01. Calcularemos el intervalo de
confianza del 95% de esta diferencia ya que estamos usando puntos de estimación y es de interés
conocer la diferencia real en el universo de estudio o al menos un rango de datos plausible de esta
diferencia. Antes de aplicar la distribución t es necesario evaluar si se cumplen las condiciones,
en este caso se cumplen todas las condiciones es decir que las variables de cada muestra tienen
una distribución aceptablemente simétrica y son independientes.

Revise la ecuación 15-1, la ecuación para calcular intervalos de confianza con la distribución t.

Se debe calcular el error estándar y 𝑡𝑔𝑙 . Calcular el error estándar de la diferencia de dos

promedios es más complicado que calcular el error estándar de un único promedio, 𝑡𝑔𝑙 se estima
de igual manera que en las secciones anteriores. La Ecuación 15-2 es la que se usa para calcular
el error estándar agrupado de la diferencia de dos promedios:

Ecuación 15-2 Error estándar de la diferencia de dos promedios

(𝑛1 − 1)𝑠12 + (𝑛2−1 )𝑠22


𝐸𝐸𝑥̅1 − 𝑥̅2 = √
𝑛1 + 𝑛2 − 2

Donde:

EE: error estándar

𝑥̅1 : promedio del grupo 1

𝑥̅2 : promedio del grupo 2

S: desviación estándar de la muestra

n: número de observaciones

267
Recuerde que usualmente no se dispone de la desviación estándar del universo, cuando estamos
interesados en estimar el error estándar para la diferencia de dos promedios, calculamos el error
estándar agrupado 𝐸𝐸𝑎 que considera las varianzas de los dos grupos que son parte de la
diferencia, por lo tanto, para calcular el IC de la diferencia de dos promedios se calcula usando la
Ecuación 15-3

Ecuación 15-3 Intervalo de Confianza de la Diferencia de dos promedios

1 1
IC = 𝑥̅1 − 𝑥̅2 ± 𝑡𝑔𝑙 ∗ 𝐸𝐸𝑎 ∗ √ +
𝑛1 𝑛2

Para el ejemplo de los estereogramas, se calcula el error estándar de la diferencia de dos


promedios:

(43−1)2.0852 +(35−1)2.4012
𝐸𝐸𝑎 𝑥̅𝑁𝑜𝐼𝑛𝑓𝑜 − 𝑥̅𝐼𝑛𝑓𝑜 = √ = 2.232
43+35−2

Se calcula el IC 95% reemplazando los valores de la Ecuación 15-3, los grados de libertad se
estiman 𝑛1 + 𝑛2 − 2, en este caso: 43+35-2=76, para 76 grados de libertad el valor t que
corresponde al 5% de dos colas es 1.99. Así, se calcula el IC 95% de la diferencia de los promedios
del tiempo que tardan en resolver el problema de los estereogramas:

1 1 1 1
𝑥̅1 − 𝑥̅2 ± 𝑡𝑔𝑙 ∗ 𝐸𝐸𝑎 ∗ √ + ~3.01 ± 1.99 ∗ 2.232 ∗ √ +
𝑛1 𝑛2 43 35

~3.01 ± 1.99 ∗ 2.232 ∗ 0.228~(2.00, 4.02)

Sabemos que las personas que no han recibido información previa tardarán entre dos a cuatro
minutos más en resolver el problema en comparación con aquellas que no la han recibido, por lo
tanto, concluimos que la información previa ayuda a resolver el problema más rápidamente.

Ejercicio 15-5

Explique por qué el ejercicio de los estereogramas amerita una prueba T de dos muestras y no
una de datos pareados

15.6.2 La prueba T de dos muestras para varianzas iguales, la diferencia de dos promedios
Recuerde el Ejemplo 13-2 de los arrendajos azules, estamos interesados en determinar si el
tamaño del cráneo de las hembras es diferente al de los machos. La Tabla 15-5 muestra la
estadística descriptiva del tamaño del cráneo de los arrendajos hembras y machos, a simple vista
se puede observar que los machos tienen en promedio el cráneo más grande que las hembras

268
Tabla 15-5 Estadística descriptiva del tamaño del cráneo en mm de una muestra de arrendajos azules
machos y hembras

Sexo N Promedio S
Hembras 60 30.462 0.848
Machos 63 31.23 0.822

La Figura 15-7 muestra los gráficos cuantil-cuantil del tamaño del cráneo de los arrendajos
hembras y machos, en ambos casos la distribución es moderadamente simétrica, sabemos que las
observaciones son independientes ya que los arrendajos se seleccionaron aleatoriamente.
Finalmente, las varianzas son muy similares; por lo tanto, podemos aplicar la Prueba T de dos
muestras para varianzas iguales.

Paso 1. Planteamiento de las hipótesis estadísticas

𝐻0 = No hay diferencias en el tamaño de los cráneos entre los arrendajos hembras con los
arrendajos machos. En términos estadísticos: 𝜇𝐻 − 𝜇𝑀 = 0, ó, 𝜇𝐻 = 𝜇𝑀 , Donde 𝜇𝐻 representa el
promedio del tamaño del cráneo de las hembras y 𝜇𝑀 el de los machos.

𝐻𝐴 = Hay diferencias en el tamaño de los cráneos entre los arrendajos hembras con los arrendajos
machos. En términos estadísticos: 𝜇𝐻 − 𝜇𝑀 ≠ 0, ó, 𝜇𝐻 ≠ 𝜇𝑀

Paso 2. Cálculo del valor t

La Ecuación 15-4 muestra el cálculo del valor t

Ecuación 15-4 Valor t para la diferencia de dos promedios

(𝑥̅1 − 𝑥̅2 ) − 𝑣𝑎𝑙𝑜𝑟 𝑐𝑟í𝑡𝑖𝑐𝑜


𝑡=
1 1
𝐸𝐸𝑎 √𝑛 + 𝑛
1 2

Así, al reemplazar los valores:

59(0.8482 ) + 62(0.8222 )
𝐸𝐸𝑎 = √ = 0.835
60 + 63 − 2

(30.462 − 31.23) − 0
𝑡= = −5.10
1 1
0.835√60 + 63

Paso 3. Valor t crítico

Para 121 grados de libertad y prueba de dos colas el valor t crítico es 1.98

269
Pasos 4 y 5. Selección de la hipótesis cierta y conclusión estadística

Se puede resolver este paso de tres maneras:

1. El valor t calculado absoluto es mayor que el valor crítico, se rechaza la hipótesis nula en
favor de la alternativa
2. Se usa un software estadístico para calcular el valor P, el software devuelve un valor P de
0.00000125, valor menor a 0.05 se rechaza la hipótesis nula.
3. Calculando el Intervalo de Confianza del 95%

1 1 1 1
𝑥̅1 − 𝑥̅2 ± 𝑡𝑔𝑙 ∗ 𝐸𝐸𝑎 ∗ √ + ~ − 0.768 ± 1.98 ∗ 0.835 ∗ √ +
𝑛1 𝑛2 60 63

~3.01 ± 1.9 ∗ 0.835 ∗ 0.18~(−0.47, −1.07)

En este caso:

H0 es cierta cuando el IC tiene un signo positivo y uno negativo,

HA es cierta cuando el IC tiene dos signos positivos o dos signos positivos.

En este caso, el IC tiene dos signos negativos, por lo tanto, se rechaza H0 en favor de HA. Los
cráneos de las hembras son en promedio entre 0.47 y 1.07 mm más pequeños que los cráneos de
los machos con un 95% de confianza.

Figura 15-7 El panel superior representa el peso de las pacientes con el tratamiento FT. El panel inferior, los pesos
de las pacientes con el tratamiento CBT

270
Paso 6. Conclusión práctica

Se concluye que las hembras tienen el cráneo más pequeño, lo cual sería esperable y se puede
explicar por diferencias bioquímicas y genéticas.

Ejercicio 15-6

Una encuesta de percepción ambiental busca determinar la voluntad de adolescentes hacia un


comportamiento a favor del ambiente en función de su país de origen (ya sea un país en vías
de desarrollo o de un país desarrollado). Para ello se aplica la encuesta a 24 adolescentes de
Perú y a 21 adolescentes de Canadá. El resultado de esta encuesta es un índice, con valores
entre 0 y 5, que permite categorizar posteriormente al adolescente como altamente involucrado
con el ambiente (5) o nada involucrado con el ambiente (0). A continuación se encuentran los
valores resultantes de las encuestas. ¿Existen diferencias entre los adolescentes encuestados
en Canadá y aquellos encuestados en Perú?

Id Perú Id Canadá
1 4.0 1 2.7
2 2.7 2 3.5
3 2.6 3 2.7
4 2.9 4 2.2
5 3.9 5 4.9
6 4.4 6 2.0
7 3.6 7 4.2
8 4.9 8 3.7
9 1.7 9 4.6
10 1.2 10 3.3
11 3.2 11 1.8

271
12 3.7 12 1.3
13 4.3 13 2.7
14 1.3 14 1.1
15 2.8 15 3.6
16 1.1 16 2.4
17 2.7 17 4.4
18 2.2 18 4.7
19 1.1 19 1.9
20 2.4 20 2.0
21 1.2 21 2.4
22 3.1
23 2.4
24 2.2

15.6.3 Prueba T para varianzas desiguales


Cuando las varianzas son desiguales, se cambia la fórmula para calcular los grados de libertad y
el valor t, en este libro no se abordan estás fórmulas, se muestra un ejemplo usando el software
RStudio. Se pueden aplicar test estadísticos para determinar si las varianzas son o no son iguales,
en el ejemplo anterior es claro que no existen diferencias importantes en las varianzas,
comparemos ahora la masa corporal de los arrendajos azules entre los machos y las hembras
(Tabla 15-6).

Tabla 15-6 Estadística descriptiva de la masa en gramos de una muestra de arrendajos azules
machos y hembras

Sexo N Promedio S
Hembras 60 69.806 5.012
Machos 63 73.225 3.875

En este caso se puede apreciar que en promedio la masa de los machos es superior a la de las
hembras y se puede observar además que las varianzas no son tan similares como en el caso del
tamaño de los cráneos. La Figura 15-8 muestra que la distribución de la masa para cada grupo
(i.e. hembras y machos) es aceptablemente simétrica.

272
Figura 15-8 Histograma de la masa de lo arrendajos hembras (arriba) y machos (abajo)

Para evaluar si las varianzas son diferentes se aplica el test de Levene en el software. Las hipótesis
del test se plantean de la misma manera que para cualquier test estadístico:

H0: 𝑆12 = 𝑆22

HA 𝑆12 ≠ 𝑆22

A continuación, se presentan los resultados del test, que aplica la prueba F para comparar las
varianzas obteniendo un valor P de 0.03677, siendo este valor menor a 0.05 se rechaza la hipótesis
nula y se concluye que las varianzas no son iguales.

Se aplica la prueba T para varianzas desiguales obteniendo el siguiente resultado:

273
Nótese que los grados de libertad tienen fracciones decimales debido a que las fórmulas para su
cálculo son diferentes; el valor P es menor a 0.05, se rechaza la hipótesis nula en favor de la
alternativa, la masa de los arrendajos hembras es diferente a la de los machos, siendo menor la de
las hembras entre 5 y 1.8 gramos de acuerdo a los intervalos de confianza que se encuentran en
los resultados. Observe además, que debajo del intervalo de confianza se encuentran los
promedios de la masa para cada grupo.

274
16 Comparación de varianzas, ANOVA
Cuando se desea responder preguntas de investigación en las cuales la variable dependiente es
numérica y la independiente categórica con más de dos niveles, se puede pensar inicialmente en
hacer múltiples comparaciones (i.e. varias pruebas T), así, si existen tres grupos podemos pensar
en comparar el primero con el segundo, luego con el tercero y finalmente el segundo con el tercero
realizando un total de tres comparaciones. Sin embargo, esta estrategia puede ser traicionera, si
tenemos varios grupos y hacemos varias comparaciones, es probable que encontremos diferencias
significativas por coincidencia, incluso sin que existan diferencias reales en las poblaciones de
estudio. Por lo tanto, cuando es necesario comparar promedios entre dos o más grupos (cuando la
variable independiente categórica tiene dos o más niveles) se aplica el método llamado análisis
de varianza (ANOVA por sus siglas en inglés) utilizando el test estadístico F. ANOVA aplica una
sola hipótesis para probar si existen diferencias entre varios grupos.

Las hipótesis estadísticas para este test se escriben:

𝐻0 = El promedio de la variable dependiente o la variable de respuesta es igual en todos los


grupos. En términos estadísticos: 𝜇1= 𝜇2 = ⋯ 𝑢𝑘 = 0. Donde 𝜇𝑖 representa el promedio de la
variable dependiente para las observaciones en cada categoría 𝑖.

𝐻𝐴 = Al menos una de las medias es diferente.

Debemos chequear las siguientes condiciones antes de aplicar ANOVA para determinar si los
datos proveen suficiente evidencia en contra de la hipótesis nula de que todos los 𝜇𝑖 son iguales.

• Las observaciones son independientes entre los grupos y dentro de los grupos,
• Los datos en cada grupo siguen una distribución aproximadamente normal, y
• La varianza de los grupos es constante.

En agricultura, siempre se están probando tratamientos que propicien el crecimiento de plantas.


En un experimento se busca comprobar la efectividad de dos tratamientos comparándolos con un
grupo control sin tratamiento. Para ello se toman parcelas de 10 plantas cada una y se les asigna
a uno de los tres grupos (tratamiento1, tratamiento2 o grupo control). Queremos determinar si
existen diferencias en el peso de las plantas entre los tres grupos. Empezamos por escribir
apropiadamente nuestras hipótesis:

𝐻0 = El promedio de peso es el mismo en todos los grupos. En términos estadísticos, 𝜇𝐶 = 𝜇𝑇1 =


𝜇𝑇2

275
𝐻𝐴 = El promedio de peso varía en al menos uno de los grupos. Rechazaremos la hipótesis nula
en favor de la alternativa, si existen grandes diferencias en los promedios de al menos uno de los
grupos.

Una fuerte evidencia en favor de la hipótesis alternativa en ANOVA se describe por la existencia
de largas diferencias en los promedios de los grupos.

En el ejemplo de la variación del promedio de pesos de las plantas de acuerdo al tratamiento, para
resolver la pregunta de investigación, se usan los datos de una muestra de 30 plantas distribuidas
en parcelas que corresponden al grupo control sin tratamiento (C), al tratamiento con un tipo de
fertilizante orgánico tradicional (T1) o al tratamiento con un fertilizante orgánico alternativo (T2).
La estadística descriptiva de los pesos de las plantas de acuerdo al tratamiento que recibieron se
muestra en la Tabla 16-1. La Figura 16-1 muestra los diagramas de cajas de los pesos de acuerdo
al tratamiento. De acuerdo al gráfico, visualizando las colas, parece ser que la variabilidad de los
diferentes grupos es constante (similar), además que las desviaciones estándar son similares. Esta
es una condición importante que debemos evaluar antes de aplicar ANOVA.

Tabla 16-1 Estadística descriptiva de los pesos de las plantas según el tratamiento

Control (C) Fertilizante orgánico Fertilizante orgánico


tradicional (T1) alternativo (T2)
N 10 10 10
promedio 5.032 4.661 5.526
DE 0.583 0.793 0.442

Figura 16-1 Diagrama de cajas de los pesos de las plantas según el


tratamiento

276
16.1.1 Análisis de varianzas y Prueba F
Las hipótesis para la pregunta de investigación de los pesos de las plantas según el tratamiento
serán:

𝐻0 : 𝜇𝐶 = 𝜇𝑇1 = 𝜇𝑇2
𝐻𝐴 = El promedio de los pesos de las plantas 𝜇𝑖 varía entre algunos (o todos) los tratamientos
A continuación, necesitamos definir si la variable dependiente (peso) cumple con las condiciones
para aplicar ANOVA. Antes de decidir si aplicamos o no ANOVA como se explicó anteriormente
evaluamos las siguientes tres condiciones:

Independencia: las muestras de cada uno de los tres grupos son independientes, esto
generalmente sucede cuando los participantes son seleccionados aleatoriamente o no existe
manipulación en la asignación a los grupos

Distribución aproximadamente normal: esta condición es similar a la de la Prueba T,


igualmente es especialmente importante cuando las muestras son pequeñas (menos de 30
observaciones).

Variabilidad (Varianza) constante. Evaluar si la varianza es similar entre los diferentes grupos.
Esta condición puede evaluarse colocando juntos diagramas de cajas de los datos de la variable
dependiente de cada uno de los grupos. La Figura 16-1 muestra los diagramas de cajas para cada
uno del peso seco de las plantas de acuerdo al tratamiento aplicado. En este ejemplo, se puede
apreciar que la variabilidad de los datos de los grupos es similar, lo cual se puede además
evidenciar al comprobar con los datos de las desviaciones estándar de la Tabla 16-1. ¿Qué pasa
cuando la variabilidad de los datos no es similar entre los grupos? Otro experimento busca
comparar el peso de tomates que recibieron diferentes tipos de nutrientes (solamente agua,
concentración única de nutriente, concentración *3, concentración única + herbicida 2-4D). La
Figura 16-2 muestra los diagramas de cajas de los pesos de plantas de tomate según distintos
tratamientos aplicados para su crecimiento, las plantas de tomate fueron aleatorizadas a recibir
cuatro nutrientes diferentes. Al comparar la Figura 16-1 con la 16-2, es claro que en la Figura 16-
2 la variabilidad no es similar entre los grupos. Sobre todo, en el grupo donde se coloca 1 vez la
concentración del nutriente, donde se observa un bigote largo en el diagrama de cajas. En este
caso, se debe colocar una nota al final de los resultados de ANOVA que indique que la
variabilidad no fue similar, u optar por un test no paramétrico (Prueba de Kruskal Wallis).

277
Figura 16-2 Pesos de plantas de tomate según distintos tratamientos en sus medios de crecimiento

En ANOVA se prueban las hipótesis mediante la prueba F y la tabla de distribución F. Los


cálculos en esta prueba son mucho más complejos que en los test abordados anteriormente por lo
que es muy común hacer los cálculos en software estadísticos, sin embargo, es necesario
comprender los valores obtenidos luego del análisis. La Tabla 16-2 muestra los resultados de
ANOVA

Tabla 16-2 Resultados de ANOVA para la hipótesis de los pesos de las plantas según tratamiento

RESUMEN
Grupos Cuenta Suma Promedio Varianza
ctrl 10 50.32 5.032 0.34
trt1 10 46.61 4.661 0.63
trt2 10 55.26 5.526 0.19

ANÁLISIS DE VARIANZA
Promedio de
Origen de las Suma de Grados de los
variaciones cuadrados libertad cuadrados F Probabilidad
Entre grupos 3.76634 2 1.88317 4.846 0.0159
Dentro de los grupos 10.49209 27 0.388
Total 14.25843 29

El software mostrará un resumen de los datos, seguido de los resultados de la prueba. En esta
sección se explican los diferentes resultados de la tabla ANOVA (Tabla 16-2). ANOVA se enfoca
en responder la siguiente pregunta ¿Es tan grande la variabilidad de los promedios de las
diferentes muestras o grupos de tal manera que sea poco probable que se deba solo al azar? Esta

278
variabilidad se expresa mediante el promedio de los cuadrados entre grupos o MSG por sus siglas
en inglés con sus respectivos grados de libertad 𝑔𝑙𝐸𝐺 = 𝑘 − 1~3 − 1=2, donde k representa el
número de grupos. El promedio de cuadrados entre grupos se obtiene de dividir la suma de los
cuadrados entre grupos para los grados de libertad entre los grupos (3.76634/2).

El promedio de los cuadrados entre grupos por si sólo es inútil para la prueba de hipótesis.
Necesitamos un punto valor de referencia para determinar cuanta variabilidad se debería esperar
entre los promedios si la hipótesis nula fuera verdadera, en otras palabras cuanta variación se
consideraría aceptable para que la hipótesis nula fuera verdadera. Para esto se calcula una varianza
agrupada que es el promedio de los cuadrados dentro de los grupos con sus respectivos grados
de libertad 𝑔𝑙𝐷𝐺 = 𝑛 − 𝑘~30 − 3 = 27. El promedio de los cuadrados dentro de los grupos se
obtiene de dividir la suma de los cuadrados dentro de los grupos para sus respectivos grados de
libertad (10.49209/17).

Cuando la hipótesis nula es verdadera y por lo tanto las diferencias en los promedios a lo largo de
los diferentes grupos se deban solamente al azar el promedio de los cuadrados entre grupos debe
ser casi igual al promedio de los cuadrados dentro de los grupos. Por lo tanto, el valor F, se calcula
de la siguiente manera:

𝑆𝑢𝑚𝑎 𝑑𝑒 𝑙𝑜𝑠 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑒𝑛𝑡𝑟𝑒 𝑔𝑟𝑢𝑝𝑜𝑠


𝐹=
𝑆𝑢𝑚𝑎 𝑑𝑒 𝑙𝑜𝑠 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑑𝑒𝑛𝑡𝑟𝑜 𝑑𝑒 𝑙𝑜𝑠 𝑔𝑟𝑢𝑝𝑜𝑠

La suma de los cuadrados entre grupos, representa la variabilidad entre los grupos y la suma de
los cuadrados dentro de los grupos representa la variabilidad en cada uno de los diferentes grupos.

Finalmente, el valor P correspondiente al valor F calculado se obtiene de la tabla de distribución


F o de un software estadístico. En nuestro ejemplo el valor P (Probabilidad) es menor a 0.05 por
lo tanto rechazamos la hipótesis nula en favor de la alternativa y concluimos que los pesos de las
plantas varían de acuerdo al tratamiento aplicado.

Ejercicio 16-1

Los procesos de acreditación de equipos de laboratorio incluyen la determinación de la validez


y confiabilidad de las mediciones. Se busca acreditar un equipo de medición de cadmio, para
lo cual se toma una muestra compuesta de un vertido urbano. De esta muestra se toman 42
alícuotas de 50 ml cada una para su análisis. Catorce muestras son analizadas en el equipo a
acreditar que se lo llamará Equipo A, las 28 muestras restantes se reparten por igual en dos
equipos previamente acreditados, Equipo B y Equipo C.

279
De este análisis se desprenden los siguientes resultados:

RESUMEN
Grupos Cuenta Suma Promedio Varianza
Equipo A 14 383.60 27.40 3.63
Equipo B 14 357.84 25.56 0.24
Equipo C 14 352.09 25.15 0.26

ANÁLISIS DE VARIANZA
Suma de Grados de Promedio de los
Origen de las variaciones F Probabilidad
cuadrados libertad cuadrados
Entre grupos 40.22 _________ __________ _________ 1.85E-05
Dentro de los grupos 53.71 _________ __________

Total 93.93 _________

1. Indique cual es la variable respuesta y explicativa del presente análisis.


2. Complete los valores faltantes de la tabla (i.e. grados de libertad, el promedio de los
cuadrados y el valor F).
3. Identifique las hipótesis para la pregunta de investigación realizada.
4. Asumiendo que los supuestos para realizar un ANOVA se cumplen, interprete los
resultados obtenidos.

16.1.2 Comparaciones múltiples, el test de Tukey


El test de Tukey es una prueba en la cual se pueden realizar comparaciones múltiples en un solo
paso, se usa como un método de estimación posterior a ANOVA, cuando al aplicar ANOVA se
rechaza la hipótesis nula, se puede aplicar Tukey para comparar las diferencias de todos los
posibles pares de promedios, por ejemplo, si existen tres grupos y existe evidencia de que hay
diferencias entre los grupos, existen tres posibles comparaciones: grupo 1 con grupo 2, grupo 1
con grupo 3 y grupo2 con grupo 3, La fórmula del test de Tukey es similar a la de la prueba T,
pero el test realiza una corrección para disminuir la probabilidad de cometer un error Tipo 1 al
realizar múltiples comparaciones, recuerde que el error Tipo 1 consiste en rechazar erróneamente
la hipótesis nula, algo que puede ocurrir al realizar múltiples comparaciones. Con la ayuda del
software RStudio se ha realizado el test de Tukey para el ejemplo del crecimiento de las plantas
de acuerdo a diferentes tratamientos (Control, T1 y T2). La Tabla 16-3 muestra los resultados del
test, cada fila representa la diferencia entre dos grupos, así, la primera fila representa la diferencia
entre el T1 y el grupo control (T1-Control), la segunda, entre T2 y el grupo control, y así
sucesivamente. En la columna diferencia se encuentran los valores de las diferencias entre los dos

280
grupos, para la diferencia T1-Control se ha calculado un valor negativo indicando que el promedio
de peso de las plantas del grupo control fue superior a la que recibieron el tratamiento 1
(fertilizante orgánico tradicional). Entiéndase que cada fila es una prueba de hipótesis, así en la
primera fila se prueba la siguiente hipótesis:

H0: el promedio del peso de las plantas de T1 es igual al promedio del peso de las plantas del
grupo control

HA: el promedio del peso de las plantas de T1 no es igual al promedio del peso de las plantas del
grupo control

A partir de los datos de la tabla, se puede elegir la hipótesis cierta de dos maneras:

1. Observando el valor P, el valor P de la primera fila es 0.391, ya que este valor es superior
a 0.05 no se puede rechazar la hipótesis nula, por lo tanto, no existen diferencias en los
pesos del grupo T1 al compararlo con el grupo control
2. A través de los intervalos de confianza, se puede apreciar que el IC 95% presenta un valor
negativo y uno positivo, por lo tanto, no se puede rechazar la hipótesis nula.

Al revisar las demás filas de la tabla, únicamente en la tercera fila se observa un valor P <0.05 así
como un intervalo de confianza con dos signos positivos, por lo tanto, solo en la diferencia T2-
T1 se puede rechazar la hipótesis nula, concluyendo que existe diferencia en el peso promedio de
las plantas entre T1 y T2, siendo mayor el peso de las plantas que recibieron el tratamiento 2
(fertilizante orgánico alternativo), mientras que no existieron diferencias entre los demás grupos.
Podemos pensar por lo tanto que el tratamiento con fertilizante orgánico alternativo es superior al
tratamiento tradicional pero no superior al control, se deben indagar las causas de estas
diferencias.

Tabla 16-3 Resultados del test de Tukey para el ejemplo de la diferencia de peso de las plantas de acuerdo
a tres tratamientos

IC 95%
Valor P
Grupos Diferencia Límite Límite ajustado
inferior superior
T1-Control -0,37 -1,06 0,32 0,391
T2-Control 0,49 -0,20 1,19 0,198
T2-T1 0,87 0,17 1,56 0,012

Adicionalmente, se pueden graficar los IC 95% para demostrar gráficamente las diferencias

281
Figura 16-3 Intervalos de confianza del 95% de las diferencias por pares del ejemplo del crecimiento de
las plantas

T1-Control

T2-Control

T2-T1

Ejercicio 16-2

Retomando el Ejercicio 16-1, se concluye que las medias son distintas, por lo tanto, con este
antecedente se corre un test de Tukey. Los resultados se presentan en la siguiente tabla.

Diferencia Límite Inferior Limite Superior Valor-p


B-A -1.84 -2.92 -0.76 0.0005060
C-A -2.25 -3.33 -1.17 0.0000291
C-B -0.41 -1.49 0.67 0.6268774

1. Identifique las hipótesis para cada fila.


2. Interprete los resultados: ¿Debería acreditarse el equipo?

282
17 Correlación y regresión lineal
17.1 Regresión lineal simple
17.1.1 Gráficas de dispersión
¿Existe una relación entre la cantidad de pasos diarios registrados por un podómetro y la cantidad
de calorías quemadas? Al ser ambas variables numéricas, se puede observar su relación a través
de una gráfica de dispersión. Cada punto de la Figura 17-1 representa el registro diario de un
podómetro personal entre septiembre y diciembre de 2011 con su correspondiente cantidad de
pasos y número de calorías quemadas.

Figura 17-1: Gráfica de dispersión de la cantidad de calorías quemadas y el número total de pasos diarios

A partir de este tipo de gráficos se pueden sacar diversas conclusiones respecto a las posibles
asociaciones que puedan existir entre las variables y si siguen tendencias ya sean simples o
compuestas que permitan establecer relaciones lineales o no lineales. Por ejemplo, en la Figura
17-1 se observa que a medida que aumentan la cantidad de pasos diarios se queman una mayor
cantidad de calorías, lo cual es esperable.

Ejercicio 17-1

Identifique las posibles asociaciones que puedan existir en las siguientes gráficas de dispersión:

283
a)

b)

c)

284
1.1.1 Ajuste lineal y
método de mínimos
cuadrados

Como se observa en las gráficas de dispersión de la sección anterior, existen distintos tipos de
tendencias a identificar dentro de un conjunto de datos. Estas tendencias pueden ser lineales o no
lineales (polinomiales, potenciales, exponenciales). La relación más sencilla de establecer es la
relación lineal, la cual debe ser asumida únicamente cuando los datos presentan este tipo de
tendencia.

Figura 17-2: Distintos tipos de tendencias lineales y no lineales de un conjunto de datos

Un estudio (Fisher, 1947), para determinar la eficiencia de un fármaco para evitar problemas
cardiacos en animales domésticos, requiere inicialmente de datos referentes al peso corporal y
peso del corazón de los individuos de estudio. El experimento se realiza en gatos domésticos
adultos con un peso corporal mayor a 2 kg.

285
Figura 17-3: Relación entre el peso corporal y el peso del corazón de gatos domésticos

En el gráfico de dispersión de la Figura 1-3 que permite visualizar la relación entre el peso
corporal y el peso del corazón de los gatos del estudio, se observa que aunque los datos no
mantienen una relación perfecta, se puede asumir una tendencia lineal entre los mismos que
permite establecer conexiones, pudiendo inclusive realizar predicciones del peso del corazón
(variable independiente Y) conociendo el peso corporal del gato (variable independiente X).

Para poder realizar este tipo de predicciones, se requiere inicialmente llevar esta relación gráfica
a términos matemáticos. Al analizar un conjunto de datos a través de una relación lineal, lo que
se busca es ajustar el comportamiento de los mismos al de una línea recta, dándole un ajuste lineal
(Figura 1-4).

Ecuación 17-1: Ajuste lineal o modelo de regresión lineal

𝑦̂ = 𝛽̂0 + 𝛽̂1 𝑥

Este ajuste contiene una presunción de linealidad que asume que la pendiente de la recta no varía
en el eje X. La pendiente (𝛽̂1 ) se refiere al cambio que se da en el eje Y cuando se da un cambio
de una unidad en el eje X. En suma, este término determina que tan inclinada se encuentra la línea.
Por otro lado, el intercepto (𝛽̂0 ) es el valor de Y cuando X es igual a cero. Este término por su
parte determina en qué posición del eje Y comienza el modelo de estimación.

286
Figura 17-4: Función de ajuste lineal o modelo de regresión

En la vida real es prácticamente imposible que todos los puntos de una gráfica de dispersión se
alineen perfectamente, ajustándose a un modelo de predicción lineal que nos permita determinar
con gran exactitud el valor de Y cuando conocemos el valor de X.

Figura 17-5: Relación perfectamente lineal entre un conjunto de datos simulado

De esta aleatoriedad que se pueda encontrar en un conjunto de datos es de donde se derivan los
términos de error (ɛ). Este término incluye todos aquellos factores conocidos o desconocidos que
intervienen en la relación lineal que se intenta establecer.

Ecuación 17-2: Ajuste lineal o modelo de regresión incluido el término de error

𝑦̂ = 𝛽̂0 + 𝛽̂1 𝑥 + 𝜀

A estos errores se los conoce también con el nombre de residuales, siendo por tanto aquella
variación restante de los datos ajustados al modelo de regresión. Se calculan para cada una de las
observaciones en el conjunto de datos (𝑥𝑖 , 𝑦𝑖 ), como se indica en la ecuación 1-3. El término 𝑦̂𝑖
corresponde al valor generado al reemplazar 𝑥𝑖 en la ecuación de regresión lineal.

287
Ecuación 17-3: Cálculo de errores o de residuales

𝜀𝑖 = 𝑦𝑖 − 𝑦̂𝑖

Un análisis de calidad de agua (Ruppert & Carroll, 1980), evalúa la salinidad de las descargas
hacia un río en Pamlico Sound, Carolina del Norte. Para identificar una relación entre la cantidad
de descarga realizada (m3) y la salinidad de la misma (g/L), se realiza una gráfica de dispersión.
Como se puede observar se ha ajustado un modelo lineal a los datos que permite evaluar la
tendencia rápidamente. En este ejemplo se pueden observar los errores o residuales de los puntos
en la gráfica. Como se puede apreciar, siempre se realiza la medición en el eje de las Y,
presentando distancias diferentes cuyo conjunto constituirá el error total del modelo generado.

Figura 17-6: Errores o residuales del ajuste de datos de salinidad y la cantidad de descarga al río

Para generar la ecuación completa de la regresión lineal para ajustarse a un conjunto de datos, se
deben determinar los valores de la pendiente (𝛽̂1 ) y el intercepto (𝛽̂0 ). En el ejemplo de salinidad
de las descargas, se podría considerar que existen una infinidad de líneas que podrían ajustarse a
la relación existente entre la salinidad y la cantidad de descarga (Figura 1-7), sin embargo, existen
algunas metodologías que permiten determinar cuál será la correcta. La metodología más aceptada
es el método de mínimos cuadrados.

288
Figura 17-7: Distintas líneas de tendencia que podría ajustarse a los datos de salinidad de las descargas

El objetivo de esta metodología es reducir el cuadrado del error de predicción, de ahí su nombre.
En la Figura 1-8 se observan gráficamente los cuadrados de cada uno de los errores determinados.
Esta técnica encuentra la línea que contenga la menor suma de los cuadrados de los errores.

Figura 17-8: Cuadrado del error de predicción. Este debe ser mínimo para tener el mejor ajuste lineal

289
Por lo tanto, se pretende encontrar la pendiente (𝛽̂1 ) y el intercepto (𝛽̂0 ) que permitan generar un
modelo con el error de predicción cuadrático total menor. Estas variables se estiman de la
siguiente manera:

Ecuación 17-4: Cálculo de la pendiente por el método de mínimos cuadrados

𝑆𝑥𝑦 ∑𝑖(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)


𝛽̂1 = =
𝑆𝑥𝑥 ∑𝑖(𝑥𝑖 − 𝑥̅ )2

Ecuación 17-5: Cálculo del intercepto por el método de mínimos cuadrados

𝛽̂0 = 𝑦̅ − 𝛽̂1 𝑥̅

Si aplicamos estos conceptos al ejemplo de salinidad se pueden calcular los parámetros como se
observa en el Ejemplo 1-1.

Ejemplo 17-1: Cálculo de pendiente e intercepto por mínimos cuadrados

Se presentan a continuación 28 observaciones de descargas a un río a las cuales de cuantifica


su volumen y además se mide la salinidad de cada descarga. Con estos datos se realizan los
cálculos correspondientes para determinar la pendiente y el intercepto, para así obtener el
modelo de regresión lineal que se ajusta a la relación entre la variable dependiente e
independiente.

ID Salinidad Descarga ̅
𝒚𝒊 − 𝒚 ̅
𝒙𝒊 − 𝒙 (𝒙𝒊 − 𝒙
̅) ̅)𝟐
(𝒙𝒊 − 𝒙
(y) (x) ̅)
∗ (𝒚𝒊 − 𝒚
1 8.2 7.6 -2.13 -2.95 6.30 8.72
2 7.6 7.7 -2.73 -2.85 7.80 8.14
3 4.6 4.3 -5.73 -6.25 35.85 39.11
4 4.3 5.9 -6.03 -4.65 28.07 21.66
5 5.9 5 -4.43 -5.55 24.61 30.84
6 5 6.5 -5.33 -4.05 21.61 16.43
7 6.5 8.3 -3.83 -2.25 8.64 5.08
8 8.3 8.2 -2.03 -2.35 4.78 5.54
9 10.1 13.2 -0.23 2.65 -0.61 7.00
10 13.2 12.6 2.87 2.05 5.87 4.19
11 12.6 10.4 2.27 -0.15 -0.35 0.02
12 10.4 10.8 0.07 0.25 0.02 0.06
13 10.8 13.1 0.47 2.55 1.19 6.48

290
14 13.1 12.3 2.77 1.75 4.83 3.05
15 13.3 10.4 2.97 -0.15 -0.46 0.02
16 10.4 10.5 0.07 -0.05 0.00 0.00
17 10.5 7.7 0.17 -2.85 -0.48 8.14
18 7.7 9.5 -2.63 -1.05 2.77 1.11
19 10 12 -0.33 1.45 -0.48 2.09
20 12 12.6 1.67 2.05 3.41 4.19
21 12.1 13.6 1.77 3.05 5.39 9.28
22 13.6 14.1 3.27 3.55 11.59 12.58
23 15 13.5 4.67 2.95 13.75 8.68
24 13.5 11.5 3.17 0.95 3.00 0.90
25 11.5 12 1.17 1.45 1.69 2.09
26 12 13 1.67 2.45 4.08 5.99
27 13 14.1 2.67 3.55 9.46 12.58
28 14.1 15.1 3.77 4.55 17.13 20.67
Promedio 10.33 10.55
Suma 219.46 244.65

La pendiente sería entonces:


𝑆𝑥𝑦 244.65
𝛽̂1 = = = 0.897
𝑆𝑥𝑥 219.46
Y el intercepto:

𝛽̂0 = 𝑦̅ − 𝛽̂1 𝑥̅ = 10.33 − 0.897 ∗ 10.55 = 0.865

De donde el modelo de regresión lineal sería:


𝑦̂ = 0.865 + 0.897𝑥

Y para mantener el contexto del ejemplo puede explicarse de la siguiente manera:

𝑠𝑎𝑙𝑖𝑛𝑖𝑑𝑎𝑑 = 0.865 + 0.897 ∗ 𝑐𝑎𝑛𝑡𝑖𝑑𝑎𝑑 𝑑𝑒 𝑑𝑒𝑠𝑐𝑎𝑟𝑔𝑎

17.1.2 Interpretación y análisis de resultados


De acuerdo al proceso realizado en la sección anterior la ecuación resultante para determinar la
salinidad (variable dependiente) a partir de la cantidad de descarga (variable independiente) es:

291
𝑠𝑎𝑙𝑖𝑛𝑖𝑑𝑎𝑑 = 0.865 + 0.897 ∗ 𝑐𝑎𝑛𝑡𝑖𝑑𝑎𝑑 𝑑𝑒 𝑑𝑒𝑠𝑐𝑎𝑟𝑔𝑎

Para interpretar este resultado se analiza la ecuación resultante del modelo de regresión por
secciones. La pendiente nos indica que por cada metro cúbico de descarga, se esperaría que la
salinidad aumente en 0.897 g/L. Esta interpretación, aunque indica una asociación, no indica una
relación causal entre los factores, ya que se trata de un estudio observacional que no puede
identificar directamente que esta sea la causa. Es decir, la salinidad no necesariamente aumenta
porque aumente la descarga, si no que pueden existir otros factores que intervengan como puede
ser la implementación de ciertos químicos en los procesos industriales que maneje la planta que
realice la descarga. En tal caso, se debería realizar un análisis del proceso productivo que permita
determinar las causas de las concentraciones elevadas de salinidad.

El intercepto para esta ecuación no es un valor práctico de determinación. En realidad, esta


constante indica la salinidad promedio del agua residual en el caso de que no existiera una
descarga, o si la descarga fuera de 0 m3. En este caso, este valor carece de contenido interpretativo
principalmente porque la variable independiente difícilmente presentará un valor de cero, si no
existe una descarga, no se podría medir la salinidad.

17.1.3 Predicción de datos


A partir de este modelo de regresión se pueden además realizar predicciones de datos, que
probablemente no fueron medidos dentro del estudio pero que pueden estimarse. Es importante
tomar en cuenta que las predicciones realizadas serán más precisas tomando en cuenta valores
dentro del rango de datos de la variable independiente con la que se construyó el modelo de
regresión lineal. En el ejemplo de salinidad del agua, el valor mínimo es de 4.3 m3 de descarga, y
el máximo de 15.1 m3. Por lo tanto, si quisiéramos realizar una predicción de la salinidad de una
descarga de 9.1 m3, se debería seguir el siguiente procedimiento:

𝑠𝑎𝑙𝑖𝑛𝑖𝑑𝑎𝑑 = 0.865 + 0.897 ∗ 9.1

𝑠𝑎𝑙𝑖𝑛𝑖𝑑𝑎𝑑 = 9.028 𝑔/𝐿

Este método de predicción se lo conoce como interpolación de datos. En el caso de que queramos
estimar la salinidad de una descarga de 17.4 m3, el proceso se lo conoce como extrapolación ya
que este valor se encuentra fuera del rango de datos que maneja la variable independiente dentro
del modelo de regresión. Para predecir la cantidad de salinidad se sigue el mismo procedimiento:

𝑠𝑎𝑙𝑖𝑛𝑖𝑑𝑎𝑑 = 0.865 + 0.897 ∗ 17.4

𝑠𝑎𝑙𝑖𝑛𝑖𝑑𝑎𝑑 = 16.47 𝑔/𝐿

Aunque si se obtiene un resultado, esta extrapolación asume que la relación encontrada se


mantendrá invariable sin importar cuan alta sea la descarga. Sin embargo, la incertidumbre al

292
asegurar este tipo de afirmaciones es alta, ya que un sinnúmero de factores podría generar que
exista un cambio en la tendencia de los datos, pudiendo mantener una tendencia lineal pero
probablemente con una pendiente distinta; por ejemplo que a partir de 17 m3, la salinidad aumente
por cada metro cúbico 0.4 g/L y no 0.897 g/L. Inclusive puede darse un cambio desde una
tendencia lineal a una no lineal a medida que aumenta uno de los parámetros.

Ejemplo 17-2: ¿Por qué no confiar enteramente en las extrapolaciones de modelos de


regresión?

Figura 17-9: Curva de crecimiento bacteriano

Si contáramos con un set de datos que registre el crecimiento de la bacteria Bacillus coagulans
obtendríamos una curva como la presentada en la Figura 1-9. El crecimiento se da en distintas
fases, las cuales presentan distintas tendencias según su fase de desarrollo. Si extrajéramos una
sección de este set, correspondiente únicamente a la fase exponencial de crecimiento, se podría
generar un modelo de regresión no lineal exponencial que permita analizar la cantidad de
bacterias en esta etapa en un periodo determinado de tiempo. Si se realizara una extrapolación
fuera de este periodo, considerando el modelo exponencial, probablemente el logaritmo de la
cantidad de organismos sería mayor a 9. Sin embargo, esta no sería una predicción adecuada,
ya que no se toma en cuenta que a partir de cierto periodo de tiempo, los microorganismos
ingresan a una fase de latencia ya sea debido al agotamiento de nutrientes, introducción de
tóxicos en su medio de cultivo, sobrepoblación o una combinación de estas causas.

17.1.4 Inferencia en regresión lineal


Como se había mencionado, los softwares estadísticos simplifican el proceso de obtención de las
constantes correspondientes al modelo de regresión, generando resultados fácilmente

293
comprensibles y con una mayor cantidad de información. Un resumen de los resultados referentes
a la cantidad de salinidad de las descargas al río se presenta como en la Tabla 1-1.

Tabla 17-1: Resumen estadístico de modelo lineal para set de datos de salinidad en descargas a ríos

Error
Estimado Valor t Pr(>|t|)
Estándar
(Intercepto) 0.86511 1.08493 0.797 0.432
Salinidad 0.89705 0.09899 9.062 1.58e-09
GL: 26

La columna Estimado indica los valores correspondientes a la pendiente y el intercepto. Como se


puede observar estos concuerdan con los resultados obtenidos en el Ejemplo 1-1. La segunda
columna corresponde al error estándar para cada uno de los valores estimados, en el caso de la
segunda fila 0.09899. La tercera columna es el resultado de una prueba T para la hipótesis nula
𝛽̂1 = 0 donde 𝑇 = 9.062. La cuarta columna corresponde al valor-p de la prueba T para la
hipótesis nula 𝛽̂1 = 0 y una hipótesis alternativa de dos colas, resultando en 1.58e-09. Esta prueba
T de dos colas intenta comprobar que existe una variación de salinidad a medida que aumenta la
cantidad de descarga (𝐻𝐴 : 𝛽̂1 ≠ 0). No nos indica si la variación es positiva o negativa. En este
caso rechazamos la hipótesis nula en favor de la alternativa, si existe una variación de la salinidad
con el cambio de volumen de descarga.

Se puede inclusive calcular el intervalo de confianza del estimado generado para la pendiente,
como se aprendió en el Capítulo 15. Para el ejemplo de la salinidad en las descargas, se puede
asegurar en un 95% que la salinidad aumenta en 0.703 y 1.091 g/L cuando existe un incremento
de un metro cúbico de descarga.

Para conocer si existe una variación positiva, se aplicará una prueba T de una cola. En nuestro
ejemplo, si se quiere conocer si la salinidad aumenta a medida que el volumen de descarga
también aumenta, manejando las siguientes hipótesis:

𝐻0 : 𝛽̂1 = 0, no existe una variación de la salinidad en función del volumen de descarga


𝐻0 : 𝛽̂1 > 0, existe una variación positiva entre la salinidad y el volumen de descarga

0.89705−0
Calculamos 𝑇 = 0.09899
= 9.062, que para 26 grados de libertad presenta un valor-p de 7.915e-

10. Este resultado para la prueba de una cola indica que efectivamente existe un aumento de la
salinidad cuando aumenta el volumen de descarga, ya que el valor-p es menor a 0.025.

294
Es importante tomar en cuenta que el resultado que se presenta en softwares estadísticos es
principalmente para pruebas T de dos colas, por lo que al momento de interpretar los resultados
se debe considerar que el valor-p corresponderá a esta prueba estadística.

17.2 Correlación
Recordando el ejemplo de registros de un podómetro, se busca estimar la cantidad de calorías
quemadas a partir del número de pasos registrados en el día (Figura 1-1). Para ello se ha
determinado un modelo de regresión lineal que se ajuste a los datos, resultando en la siguiente
ecuación:

𝐶𝑎𝑙𝑜𝑟𝑖𝑎𝑠 𝑞𝑢𝑒𝑚𝑎𝑑𝑎𝑠 = −91.37 + 0.038 ∗ 𝑁𝑜. 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑝𝑎𝑠𝑜𝑠 𝑑𝑖𝑎𝑟𝑖𝑜𝑠

Figura 17-10: Modelo lineal ajustado al conjunto de datos registrados en un podómetro.

Una vez que ya tenemos el modelo generado, el siguiente paso es conocer que tan bien se pueden
predecir los datos con el mismo. Para ello se utiliza el coeficiente de correlación (R). El
coeficiente de correlación es una medida de la fuerza de la relación existente entre dos variables
y siempre toma valores desde -1 hasta 1. Cuando existe una correlación fuerte positiva los valores
serán cercanos a +1, mientras que si es una relación fuerte negativa serán cercanos a -1. Valores
de R = 0 corresponden a un set de datos sin relación, o en algunos casos, a conjuntos de datos con
una relación no lineal.

295
Figura 17-11: Distintos valores de coeficiente de correlación y su representación gráfica

Para poder determinar el coeficiente de correlación, existen distintos tipos de softwares


estadísticos que lo pueden lograr, los cuales se basan en la siguiente ecuación:

Ecuación 17-6: Cálculo de coeficiente de correlación

𝑆𝑥𝑦 ∑𝑖(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)


𝑅= =
√𝑆𝑥𝑥 𝑆𝑦𝑦 √∑𝑖(𝑥𝑖 − 𝑥̅ )2 ∑𝑖(𝑦𝑖 − 𝑦̅)2

Con esta fórmula se pueden reemplazar los valores correspondientes a las calorías quemadas
según el número de pasos obteniendo lo siguiente:

296
149151.278
𝑅= = 0.946
√3889657.80 ∗ 6383.06

El valor de R encontrado es positivo lo cual indica que a medida que se aumenta el número de
pasos diarios, se quema una mayor cantidad de calorías, y además el valor es muy cercano a la
unidad, lo cual indica una relación lineal muy fuerte entre ambas variables.

Ejercicio 17-2

Calcule el valor del coeficiente de correlación para el siguiente conjunto de datos. Grafique en
el diagrama de dispersión la posible línea que se ajuste al modelo de regresión de los datos.

y X
32 0.3
12 0.67
43 0.43
21 0.12
37 0.15
10 0.51
41 0.28
26 0.56
11 0.41
34 0.15
40 0.2

297
Además del coeficiente de correlación, generalmente se maneja el coeficiente de determinación,
llamado también R cuadrado (R2). Este coeficiente permite determinar qué tan próximo se
encuentra el conjunto de datos al ajuste lineal, por lo tanto describe la cantidad de variación de
los datos explicados por el modelo de regresión lineal. En suma es una medida del porcentaje de
reducción del error para la regresión.

El coeficiente de determinación puede calcularse al elevar al cuadrado el coeficiente de


correlación. Para el ejemplo de los datos del podómetro el R2 es de 0.896. Esto significa que existe
una reducción del 89.6% en la variación de los datos al usar la información del número de pasos
para predecir la cantidad de calorías quemadas. También se puede calcular con la siguiente
fórmula:

Ecuación 17-7: Cálculo de coeficiente de determinación

𝑆𝑆𝑇𝑂𝑇𝐴𝐿 − 𝑆𝑆𝑅𝐸𝑆𝐼𝐷𝑈𝐴𝐿 ∑𝑖(𝑦𝑖 − 𝑦̅)2 − ∑𝑖(𝑦𝑖 − 𝑦̂)2


𝑅2 = =
𝑆𝑆𝑇𝑂𝑇𝐴𝐿 ∑𝑖(𝑦𝑖 − 𝑦̅)2

El sitio Adirondack.net (http://www.adirondack.net/tour/hike/highpeaks.cfm) ha registrado


dentro de su base de datos los nevados a los que han hecho cumbre sus montañistas, incluyendo
información sobre la elevación, el acenso, la dificultad del camino, longitud del sendero y el
tiempo necesario para culminarlo. Con esta información se desea estimar el tiempo que le tomaría
a un montañista hacer cumbre de un nevado conociendo el acenso vertical de la montaña.

Figura 17-12: Ajuste lineal del tiempo de acenso a un nevado en función del acenso vertical

298
La ecuación de ajuste para el modelo lineal es: 𝑇𝑖𝑒𝑚𝑝𝑜 𝑑𝑒 𝑎𝑠𝑐𝑒𝑛𝑠𝑜 = 4.21 + 0.0021 ∗
𝐴𝑠𝑐𝑒𝑛𝑠𝑜 𝑣𝑒𝑟𝑡𝑖𝑐𝑎𝑙. Para determinar el coeficiente de determinación de estos datos se utiliza un
software estadístico donde reemplazando los valores en la ecuación obtenemos:

351.4348 − 274.1739
𝑅2 = = 0.2198
351.4348

De donde se concluye que un 22% de la variación de datos es reducida al estimar el tiempo de


ascenso a partir del ascenso vertical de un nevado.

17.3 Diagnóstico de residuales y valores atípicos


La regresión lineal cumple con ciertas suposiciones formales, las cuales se refieren principalmente
a los errores o residuales. Como se indicó en la sección 1.1.2, un residual es la diferencia entre el
valor observado y el valor esperado.

Figura 17-13: Suposiciones formales de la regresión lineal

1. Linearidad

• La relación entre las variables independientes


(predictores) y variables dependientes (resultantes) debe ser
linear.

2. Normalidad

• Los errores presentan una distribución normal.

3. Homocedasticidad

• Llamada también homogeneidad de la varianza,


indica que la varianza del error debe ser constante.

4. Independencia

• Los errores deben estar idéntica e


independientemente distribuidos.

5. Especificación del modelo

• El modelo debe estar correctamente especificado,


incluyendo todas las variables relevantes y excluyendo las
irrelevantes (de mayor importancia en modelos de regresión
múltiple - ver sección 1.5)

Para comprobar estas suposiciones, los softwares estadísticos generan gráficas de diagnóstico. La
gráfica más común de diagnóstico es la gráfica de residuales. En esta se puede observar en el eje
de las X los valores correspondientes a la variable independiente, mientras que en el eje de las Y
se observa el valor de los residuales.

299
Un estudio (Pavlic, Grubwieser, Libiseller, & Rabl, 2007), busca estimar la razón de eliminación
del alcohol en la sangre (REAS), expresado en gramos por litro por hora (g/L/h), a partir de la
razón de eliminación del alcohol del aliento (REAA), expresado en (mg/L/h).

El resultado del modelo de regresión lineal indica que la predicción es posible (valor-p < 2e-16),
estimando que por cada mg/L eliminado en un hora del aliento se elimina 1.75764 g/L por hora
de alcohol de la sangre, presentando además un coeficiente de determinación 𝑅 2 = 0.7567,
indicando que la varianza del error disminuye en un 75.67% al utilizar el REAA como predictor
del REAS. La ecuación determinada es la siguiente.

𝑅𝐸𝐴𝑆 = 0.02587 + 1.75764𝑅𝐸𝐴𝐴

Hasta este punto llegó el análisis de las secciones anteriores, sin embargo, podemos ir más allá y
hacer un análisis de los residuales del modelo de regresión para determinar que tan bien se ajustan
los datos al modelo. En la Figura 1-14 se observa el gráfico de dispersión de los datos junto con
la línea de ajuste correspondiente al modelo lineal determinado. A su derecha se encuentra la
gráfica de residuales. A simple vista, esta gráfica inclina la gráfica de dispersión colocando la
línea de ajusta de forma horizontal, permitiendo dimensionar de mejor manera las distancias de
los errores.

Figura 17-14: Gráfico de dispersión y gráfica de residuales de estimación de eliminación de alcohol de la sangre

En la figura se puede además identificar algunos puntos que se encuentran alejados del cúmulo
de puntos. A estos se los conoce como valores fuera de rango, valores atípicos u outliers. Los
outliers son importantes ya que pueden generar una influencia importante en el ajuste lineal del
modelo de regresión. Analizando nuevamente la gráfica de residuales para nuestro ejemplo,
notamos que los puntos resaltados en la Figura 1-15, se encuentran ligeramente alejados del resto.

300
Figura 17-15: Gráfica de residuales con datos atípicos identificados

Como vemos, estos valores resaltados en verde presentan errores positivos altos. Aun si se tienen
estos puntos atípicos, su influencia no es demasiado significativa, pues al retirarlos (Figura 1-16),
la línea de ajuste varía mínimamente.

Figura 17-16: Gráfica de dispersión sin datos atípicos

301
Al trabajar con datos atípicos, debemos cuidarnos de aquellos valores de alto apalancamiento y
de alta influencia. Los valores de alto apalancamiento son aquellos que se encuentran alejados
del cúmulo de información en el eje de las X, que ejercen un peso importante al determinar la
pendiente. Mientras que los valores de alta influencia son aquellos que además de encontrarse
alejados en el eje de las X, también lo hace en el eje de las Y (Figura 1-17).

Figura 17-17: Casos de datos atípicos con alta influencia y alto apalancamiento

Nunca se debería eliminar un outlier, ya que este puede tener información importante, que a pesar
de que no genere un ajuste lineal perfecto, indica una tendencia importante de los datos. Lo que
se puede hacer es correr el análisis con y sin valores atípicos, reportando así ambos resultados, de
manera que la investigación toma en cuenta la influencia que estos datos ejercen sobre el modelo
de regresión generado.

17.4 Regresión lineal múltiple


Un estudio de mercado busca estimar el consumo de helado por persona (Hildreth & Lu, 1960).
Para ello se recoge información de familias durante treinta semanas, donde se incluye la cantidad
de helado que se consume por persona, los ingresos promedio semanales de la familia, el precio
del helado y la temperatura ambiente promedio. Un resumen de las variables se observa en la
Tabla 1-2.

Tabla 17-2: Descripción de variables y su estadística descriptiva

Variable Consumo de Ingreso semanal Precio del helado Temperatura


helado de la familia ambiente
Unidad : pintas $ $/pinta °F
Min. : 0.2560 76.00 0.2600 24.00
1er Cuartil : 0.3113 79.25 0.2685 32.25

302
Mediana: 0.3515 83.50 0.2770 49.50
Media : 0.3594 84.60 0.2753 49.10
3rd Cuartil : 0.3912 89.25 0.2815 63.75
Max. : 0.5480 96.00 0.2920 72.00

En este caso deseamos predecir el consumo de helado (variable dependiente) a partir de tres
variables independientes: ingreso, precio y temperatura. Este tipo de análisis se conoce como
regresión lineal múltiple. En esencia sigue los mismos principios que la regresión lineal simple
pero con una mayor cantidad de predictores. Este modelo obedece a la siguiente expresión
matemática:

Ecuación 17-8: Modelo de regresión lineal múltiple

𝑦̂ = 𝛽̂0 + 𝛽̂1 𝑥1 + 𝛽̂2 𝑥2 + ⋯ + 𝛽̂𝑘 𝑥𝑘

El subíndice k indica el número de predictores. Generalmente los valores de las constantes 𝛽̂𝑖 se
calculan a través de softwares estadísticos, ya que los cálculos pueden llegar a ser demasiado
extensos, según el número de predictores que se introduzcan en el modelo.

En estos modelos se incluyen todas las variables probablemente relevantes, de manera que se
pueda analizar la relación entre una variable de predicción con la variable respuesta, controlando
al mismo tiempo la influencia de otras variables. Este modelo no implica una relación causal, sin
embargo, es un primer paso para explorar este tipo de conexiones entre variables.

Para encontrar una ecuación que se ajuste a los datos de consumo de helado, se sigue el mínimo
procedimiento de mínimos cuadrados, que permita reducir la suma del cuadrado de los residuales.
La ecuación resultante para este conjunto de datos se muestra a continuación, y el resultado
generado a partir del software, en la Tabla 1-3.

𝐶𝑜𝑛𝑠𝑢𝑚𝑜 = 0.1973 + 0.0033 ∗ 𝑖𝑛𝑔𝑟𝑒𝑠𝑜𝑠 − 1.044 ∗ 𝑝𝑟𝑒𝑐𝑖𝑜 + 0.0034 ∗ 𝑡𝑒𝑚𝑝𝑒𝑟𝑎𝑡𝑢𝑟𝑎

Tabla 17-3: Resumen estadístico de modelo de regresión lineal múltiple para set de datos de consumo de helado

Estimado Error Estándar Valor-t Pr(>|t|)


Intercepto 0.1973151 0.2702162 0.730 0.47179
ingresos 0.0033078 0.0011714 2.824 0.00899
precio -1.0444140 0.8343573 -1.252 0.22180
temperatura 0.0034584 0.0004455 7.762 3.1e-08
GL: 26
R2 múltiple: 0.719, R2 ajustado: 0.6866

303
Como se observa en la Tabla 1-3, existen 3 predictores (k) además de un intercepto. Cabe recalcar
que los grados de libertad en estos modelos se calcula de manera diferente (𝐺𝐿 = 𝑛 − (𝑘 + 1),
sabiendo que existen 30 observaciones en el set de datos, y que se trabaja con tres predictores, el
número de grados de libertad es de 26.

Es importante tomar en cuenta dentro de este tipo de modelos, factores de colinealidad entre los
variables. La colinealidad se refiere a una posible correlación entre los predictores. La Tabla 1-4
presenta una matriz de correlación de las variables independientes utilizadas para estimar el
consumo de helado.

Tabla 17-4: Matriz de correlación entre variables predictores del modelo de estimación de consumo de helado

Consumo Ingresos Precio Temperatura


Consumo 1.000
Ingresos 0.048 1.000
Precio -0.259 -0.107 1.000
Temperatura 0.775 -0.324 -0.108 1.000

Aun si en este conjunto particular no se encuentren correlaciones elevadas entre los predictores,
es importante tomar en cuenta este tipo de relaciones, que aunque son muy difíciles de evitar,
pueden generar un sesgo en los resultados, presentando un coeficiente de determinación más
elevado que el verdadero ajuste de los datos. Es importante determinar que todas las variables
efectivamente están midiendo distintos factores de influencia sobre la variable resultante, y que
en realidad no se está ingresando dos o más variables que podrían disminuir la capacidad de
predicción del modelo.

Ejemplo 17-3: Variables colineales en datos sobre la composición de cigarrillos (McIntyre,


1994).

La Comisión Federal de Comercio de los Estados Unidos, tiene como una de sus misiones
promover los derechos de los consumidores. Uno de los productos por la CFC son los
cigarrillos, debido a su afección al organismo del ser humano. Uno de los subproductos
emitidos por el consumo del tabaco es el monóxido de carbón (CO), el cual ha sido relacionado
positivamente, en estudios previos, con el contenido de alquitrán y de nicotina que contenga
el cigarrillo.
Por tanto, a partir de información de 24 marcas de cigarrillo, conteniendo 4 variables: peso del
cigarrillo, contenido de nicotina, contenido de alquitrán y cantidad de monóxido de carbono
generado; se busca generar un modelo de regresión que permita determinar la cantidad de CO
generado a partir de la cantidad de nicotina y alquitrán presente en el cigarrillo.
Para ello, se plantea un modelo de regresión de la forma:

304
𝐶𝑂 = 𝛽̂0 + 𝛽̂1 ∗ 𝑎𝑙𝑞𝑢𝑖𝑡𝑟á𝑛 + 𝛽̂2 𝑛𝑖𝑐𝑜𝑡𝑖𝑛𝑎
Al correr el modelo en un software estadístico obtenemos el siguiente resultado:
Estimado Error Estándar Valor-t Pr(>|t|)
Intercepto 1.3089 0.8483 1.543 0.137795
Alquitrán 0.8918 0.1927 4.628 0.000145
Nicotina 0.6289 3.2034 0.196 0.846235
GL: 21
2 2
R múltiple: 0.9336, R ajustado: 0.9273, valor-p: 4.304e-13

Una vez generado el modelo de regresión múltiple, se observa que uno de los regresores, la
nicotina, no es significativo, ya que su valor-p es mayor a 0.05. Para indagar en la causa de
esta falta de significancia, considerando que el coeficiente de determinación indica que un
93.36% de la variabilidad del modelo se explica con ambas variables, se realiza un análisis
individual de las variables y su relación con la variable dependiente que se pretende estimar,
en este caso el CO.
Para ello se ha generado una matriz de correlación, en la que se indica una gráfica de dispersión
de cada una de las variables en la parte inferior izquierda, mientras que en la sección superior
izquierda se observan los valores-p correspondientes a cada una de las relaciones planteadas
así como el coeficiente de correlación para cada relación.
Se observa claramente que tanto la nicotina como el alquitrán presentan una correlación lineal
positiva con el CO, con coeficientes de correlación de 0.93 y 0.97 respectivamente y además
que su relación es significativa. Estas altas correlaciones para ambas variables, insta al
investigador a analizar la relación existente entre los dos predictores. En la matriz se observa
claramente que existe una relación lineal, positiva y significativa entre el alquitrán y la nicotina
con un r = 0.96.

305
Este es un típico caso de colinealidad, en el cual se identifican dos variables significativamente
relacionadas entre sí. Al analizar esta particularidad en el modelo, se puede concluir que desde
el punto de vista de la precisión estadística, es poco recomendable tener correlaciones altas
entre los predictores, considerando que se introduce una inflación de información al modelo.
Desde el punto de vista práctico, se considera un gasto de recursos, al momento por ejemplo
de recolectar los datos, pues de ahora en adelante, se podría estimar el CO únicamente a partir
de una de las dos variables independientes.
¿Cuál sería la variable a seleccionar para la predicción del CO? Esto se determina fácilmente,
en este ejemplo, ya que justamente la nicotina fue un regresor no significativo en el modelo
generado. Por lo tanto, el alquitrán será el regresor utilizado para predecir el CO. El modelo
resultante sería el siguiente:
𝐶𝑂 = 1.41285 + 0.92813 ∗ 𝑎𝑙𝑞𝑢𝑖𝑡𝑟á𝑛
Estimado Error Estándar Valor-t Pr(>|t|)
Intercepto 1.41285 0.64822 2.18 0.0403
Alquitrán 0.92813 0.05283 17.57 1.96e-14
GL: 22
R2 múltiple: 0.9335, R2 ajustado: 0.9304, valor-p: 1.964e-14

306
Una manera de reportar el ajuste lineal del modelo, como se vio en las secciones anteriores, es
utilizando el coeficiente de determinación – R cuadrado. Como se observa en el ejemplo del
consumo de helado, un 71.9% de la variación es reducido al estimar el consumo a partir de los
ingresos familiares, precio del helado y temperatura ambiente. Sin embargo, este valor deja de ser
completamente válido al añadir más de una variable al modelo de regresión. Esto se debe a los
grados de libertad que disminuyen en el cómputo y a las posibles relaciones de colinealidad que
se presenten. Por ello, el reporte de la varianza se lo realiza preferentemente con un coeficiente
de determinación ajustado – R cuadrado ajustado. Su cálculo se lo realiza tomando en cuenta
los grados de libertad con la siguiente ecuación:

Ecuación 17-9: Cálculo de coeficiente de determinación ajustado

𝑆𝑆𝑅𝐸𝑆𝐼𝐷𝑈𝐴𝐿 𝑛−1 ∑𝑖(𝑦𝑖 − 𝑦̂)2 𝑛−1


𝑅 2 𝑎𝑗𝑢𝑠𝑡. = 1 − ∗ = 1− 2

𝑆𝑆𝑇𝑂𝑇𝐴𝐿 𝑛−𝑘−1 ∑𝑖(𝑦𝑖 − 𝑦̅) 𝑛 − 𝑘 − 1

En la Tabla 1-3, se observa el valor computado de R cuadrado ajustado, indicando que en realidad
el modelo disminuye un 68.66% de la variación. Este valor generalmente disminuye con respecto
al valor original de R cuadrado, ajustando el valor a los sesgos que se puedan dar en la
información.

17.4.1 Selección de variables


Un modelo que incluya todas las variables posibles se lo conoce como un modelo completo. Se
podría pensar que, a mayor número variables en un modelo, mejor será el ajuste del mismo a los
datos. Sin embargo, esta suposición es incorrecta justamente por los grados de libertad que se
ingresan al tomar en cuenta demasiados predictores. La idea de un modelo de regresión es que
sea parsimonioso, es decir, que con una mínima cantidad de variables explique la variabilidad de
los datos con un gran poder predictivo. Por lo tanto, al trabajar en un modelo de regresión múltiple
se debe hacer una selección de las variables a incluir, determinando que tan significativas sean
para el mismo, y obteniendo así un modelo reducido.

La selección de variables puede realizarse a partir de dos parámetros calculados para el modelo
generado, generalmente en softwares estadísticos. El primero es el coeficiente de determinación
ajustado (R2) para todo el modelo y el segundo es el valor-p de cada regresor del modelo
generado. Para cada metodología existen dos formas de hacer el análisis, a través de una
eliminación en retroceso o de una selección progresiva. Estas consisten en eliminar o agregar una
variable a la vez con los posibles regresores del modelo final.

Selección de variables a partir del coeficiente de determinación ajust ado (R 2 )

307
Las estaciones meteorológicas generalmente vienen equipadas con diversos sensores que
permiten medir variables como la temperatura, humedad relativa, radiación solar, dirección y
velocidad del viento, presión atmosférica, precipitación, entre aquellos parámetros básicos. Sin
embargo, se pueden adaptar sensores adicionales que permiten medir, por ejemplo, contaminantes
atmosféricos. Estos sensores no vienen incluida con la estación y pueden representar grandes
sumas de dinero, lo que para un presupuesto ajustado puede significar un gran gasto. Para ello se
buscan generar distintas alternativas de medición.

En Nueva York, se busca predecir la concentración de ozono (O3) a partir de variables


meteorológicas. Para ello se ha extraído un conjunto de los datos registrado por la estación de La
Guardia, de mayo a septiembre de 1973. Las variables disponibles para la elaboración del modelo
se resumen en la siguiente tabla:

Tabla 17-5: Descripción de variables de calidad del aire

Tipo Variable Descripción


Dependiente Ozono Ozono promedio diaria en partes por billón (ppb)
Velocidad promedio diaria del viento en millas por hora
Viento
(mi/h)
Independiente Presión Presión atmosférica promedio en milibares (mbar)
Temperatura Temperatura máxima diaria en grados Fahrenheit (°F)
Radiación Solar Radiación solar promedio diaria en Langleys

Para armar este modelo de regresión múltiple utilizamos una selección de variables basado en el
coeficiente de determinación de los modelos generados, incluyendo sucesivamente variables a
través de una selección progresiva. Primero analizaremos el ajuste de cada variable independiente
con la variable dependiente.

Coeficiente de
Modelo determinación ajustado (R2
ajustado)
Ozone ~ Viento 0.3563
Ozono ~ Presión 0.0005391
Ozono ~ Temperatura 0.4832
Ozono ~ R. Solar 0.1133

De los modelos bivariados generados se observa que el modelo Ozono ~ Temperatura presenta el
mayor coeficiente de determinación ajustado, indicando que la variable Temperatura reduce un

308
48.32% de la variabilidad del modelo. Una vez seleccionada la primera variable, procederemos a
añadir las siguientes como segunda variable independiente, obteniendo los siguientes resultados:

Coeficiente de determinación
Modelo
ajustado (R2 ajustado)
Ozono ~ Temperatura + Viento 0.5611
Ozono ~ Temperatura + Presión 0.4786
Ozono ~ Temperatura + R. Solar 0.5012

Al agregar una nueva variable, podemos notar que el regresor Viento aumenta significativamente
la variabilidad reducida del modelo en un 56.11%. Por lo tanto, nuestro modelo actual Ozono ~
Temperatura + Viento puede ser evaluado nuevamente al incluir otra variable independiente,
resultando de la siguiente manera:

Coeficiente de determinación
Modelo
ajustado (R2 ajustado)
Ozono ~ Temperatura + Viento + Presión 0.5573

Ozono ~ Temperatura + Viento + R. Solar 0.5948

Como podemos ver, el modelo mejora, al presentar un coeficiente de determinación ajustado que
aumenta la reducción de variabilidad en un 3.37%. Por lo tanto la variable R. Solar se incluye al
modelo de regresión múltiple. Por último, agregamos la última variable y observamos los
resultados:

Coeficiente de determinación
Modelo
ajustado (R2 ajustado)
Ozono ~ Temperatura + Viento + R. Solar +
0.5926
Presión

La variable Presión al ser añadida al modelo, en lugar de mejorar el coeficiente de determinación


ajustado, lo reduce, indicando que este regresor no es apropiado para el modelo de predicción de
ozono. Por este motivo el modelo resultante (junto con su tabla resumen) es el siguiente:

𝑂𝑧𝑜𝑛𝑜 = −64.34 + 1.65 ∗ 𝑇𝑒𝑚𝑝𝑒𝑟𝑎𝑡𝑢𝑟𝑎 − 3.33 ∗ 𝑉𝑖𝑒𝑛𝑡𝑜 + 0.05 ∗ 𝑅. 𝑆𝑜𝑙𝑎𝑟

Estimado Error Estándar Valor-t Pr(>|t|)


Intercepto -64.34208 23.05472 -2.791 0.00623

309
Temperatura 1.65209 0.25353 6.516 2.42e-09
Viento -3.33359 0.65441 -5.094 1.52e-06
R. Solar 0.05982 0.02319 2.580 0.01124
GL: 107
R2 múltiple: 0.6059, R2 ajustado: 0.5948, valor-p: <2.2e-16

Selección de variables a partir del valor -p de los regresores del modelo

Para ilustrar el siguiente método de selección de variables, se toma un set de datos modificado
para el presente ejemplo sobre pobreza, desempleo y la tasa de asesinatos para una muestra de 20
ciudades de Estados Unidos. El objetivo es determinar la razón de asesinatos a partir de cierta
cantidad de variables, las cuales se detallan a continuación, para su posterior selección.

Tabla 17-6: Descripción de variables para set de datos de tasa de asesinatos

Tipo Variable Descripción


Número de asesinatos por millón de habitantes al
Dependiente Tasa Asesinatos
año

Población Habitantes de la ciudad

Desempleo Porcentaje de desempleo


Independiente
Población Masculina Población masculina entre 15 y 25 años de edad

Porcentaje de familias con ingresos menores a


Ingresos
$5000

Las variables independientes han sido recolectadas debido a estudios que indican que estos
posibles regresores pueden influenciar en la tasa de asesinatos de una ciudad. Para seleccionar la
mejor combinación de estos para generar el modelo, aplicaremos una eliminación en retroceso
basada en los valores-p de cada variable independiente. El modelo analizado:

𝑇. 𝐴𝑠𝑒𝑠𝑖𝑛𝑎𝑡𝑜𝑠 = 𝛽̂0 + 𝛽̂1 ∗ 𝑃𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 + 𝛽̂2 ∗ 𝐷𝑒𝑠𝑒𝑚𝑝𝑙𝑒𝑜 + 𝛽̂3 ∗ 𝑃𝑜𝑏. 𝑀𝑎𝑠𝑐. +𝛽̂4 ∗ 𝐼𝑛𝑔𝑟𝑒𝑠𝑜𝑠

Y su tabla resumen:

Estimado Error Estándar Valor-t Pr(>|t|)


Intercepto -35.67 10.37 -3.441 0.00364
Población 7.518e-07 6.61e-07 1.137 0.2732

310
Desempleo 4.731 1.581 2.992 0.00912
Pob. Masculina -6.84e-07 4.637e-06 -0.148 0.88469
Ingresos 1.151 6.427e-01 1.791 0.09346
GL: 15
R2 múltiple: 0.8186, R2 ajustado: 0.7702, valor-p: 1.967e-05

Al analizar la tabla observamos que algunos de los regresores presentan un valor-p > 0.05. Este
método consiste en eliminar la variable que presente el mayor valor-p y generar un nuevo modelo.
De esta tabla identificamos el regresor menos significativo, es decir con el valor-p más alto,
corresponde a la variable Población. Por tanto, eliminamos este regresor y continuamos con el
análisis.

𝑇. 𝐴𝑠𝑒𝑠𝑖𝑛𝑎𝑡𝑜𝑠 = 𝛽̂0 + 𝛽̂1 ∗ 𝐷𝑒𝑠𝑒𝑚𝑝𝑙𝑒𝑜 + 𝛽̂2 ∗ 𝑃𝑜𝑏. 𝑀𝑎𝑠𝑐. +𝛽̂3 ∗ 𝐼𝑛𝑔𝑟𝑒𝑠𝑜𝑠

Estimado Error Estándar Valor-t Pr(>|t|)


Intercepto -32.09 9.968 -3.219 0.00536
Desempleo 4.429 1.573 2.815 0.01244
Pob. Masculina -1.285e-06 4.649e-06 -0.276 0.78582
Ingresos 1.146 6.486e-01 1.767 0.09626
GL: 15
R2 múltiple: 0.8029, R2 ajustado: 0.776, valor-p: 6.896e-06

Nuevamente observamos un regresor que presenta un valor-p no significativo. La variable


Población Masculina es eliminada, y se continúa el análisis:

𝑇. 𝐴𝑠𝑒𝑠𝑖𝑛𝑎𝑡𝑜𝑠 = 𝛽̂0 + 𝛽̂1 ∗ 𝐷𝑒𝑠𝑒𝑚𝑝𝑙𝑒𝑜 + 𝛽̂2 ∗ 𝐼𝑛𝑔𝑟𝑒𝑠𝑜𝑠

Estimado Error Estándar Valor-t Pr(>|t|)


Intercepto -34.0725 6.7265 -5.065 9.55e-05
Desempleo 4.3989 1.5262 2.882 0.0103
Ingresos 1.2239 0.5682 2.154 0.0459
GL: 15
2 2
R múltiple: 0.802, R ajustado: 0.7787, valor-p: 1.0516e-06

En este último análisis podemos notar que todos los valores-p son significativos (< 0.05), por lo
tanto, se ha llegado al modelo de regresión final. Notamos que el valor-p final es bastante
significativo y que inclusive el valor del coeficiente de determinación ajustado aumenta a medida
que se eliminan las variables. Esto no suele suceder en todos los casos. En algunas ocasiones, al

311
aplicar ambas metodologías a un conjunto de datos, se pueden obtener modelos diferentes. La
técnica que se aplique dependerá del investigador y de los resultados generados con cada una.

17.4.2 Análisis de residuales


Dependiendo del número de variables del modelo, su representación gráfica se vuelve compleja,
por lo que no podemos aplicar una gráfica de dispersión a estos datos, sin embargo, se puede
hacer otro tipo de análisis gráficos con los residuales del modelo generado.

Para ilustrar estas gráficas e interpretarlas tomaremos el ejemplo de un kinesiólogo, quien está
investigando medidas de la aptitud física de personas que están por participar en carreras de 10K.
Uno de los componentes que permiten determinar la aptitud física global de una persona es su
capacidad cardiorrespiratoria, la cual se mide a través de la captación máxima de oxígeno. Esta
medición directa suele ser costosa, y por lo tanto, difícil de aplicar a grandes grupos de individuos
en un tiempo razonable.

Por lo tanto, decide predecir la captación máxima de oxígeno a partir de variables explicativas
fácilmente medibles de los corredores. Para un estudio preliminar, se seleccionan aleatoriamente
54 corredores varones, y se determinan las siguientes medidas:

Tabla 17-7: Descripción de las variables para la determinación de la captación máxima de oxígeno

Variable Descripción
Oxígeno Captación máxima de oxígeno en litros por minuto
Peso Peso del corredor en kilogramos
Edad Edad del corredor en kilogramos
Tiempo Tiempo necesario para caminar 1.6 km en minutos
Pulso Pulso cardiaco medido al final de la caminata en pulsaciones por minuto

A partir de esta información se propone el siguiente modelo de regresión, generando además la


tabla de resumen estadístico del modelo, en la Tabla 1-6.

𝑂𝑥í𝑔𝑒𝑛𝑜 = 𝛽̂0 + 𝛽̂1 ∗ 𝑃𝑒𝑠𝑜 + 𝛽̂2 ∗ 𝐸𝑑𝑎𝑑 + 𝛽̂3 ∗ 𝑇𝑖𝑒𝑚𝑝𝑜 + 𝛽̂4 ∗ 𝑃𝑢𝑙𝑠𝑜

Tabla 17-8: Resumen estadístico de modelo lineal múltiple para predicción de captación máxima de oxígeno

Estimado Error Estándar Valor-t Pr(>|t|)


Intercepto 5.5876 1.0298 5.426 1.77e-06
Peso 0.0129 0.0028 4.565 3.38e-05
Edad -0.0830 0.0348 -2.382 0.02114
Tiempo -0.1581 0.0265 -5.950 2.80e-07
Pulso -0.0091 0.0025 -3.636 0.00066
GL: 49

312
R2 múltiple: 0.5815, R2 ajustado: 0.5474
Error residual estándar: 0.2994, valor-p: 8.195e-09

Conociendo que el modelo reduce un 54.74% de la variabilidad de estimación del oxígeno con
los predictores utilizados, y obteniendo un valor significativo para el valor-p, procedemos a
realizar un análisis de los residuales, como una fase final para la aceptación del modelo.

Lo que se quiere comprobar con el análisis de los residuales de un modelo es que los mismos
cumplan con las condiciones presentadas previamente en la figura 1-3. Recapitulando, se busca
que las variables predictoras sean relevantes y se encuentren linealmente relacionadas con la
variable dependiente (lo cual se asegura con la selección de variables) y, que los residuales se
encuentren normalmente distribuidos, que su variabilidad sea constante y que sean
independientes. Para ello se analizan las gráficas de residuales que se resumen en las siguientes
secciones.

17.4.2.1 Gráfica de residuales vs. valores ajustados


La primera gráfica que analizaremos es la de residuales contra los valores ajustados. Es utilizada
para identificar patrones de no-linealidad identificando una variabilidad constante en los
residuales, conocida como homosquedasticidad. En la Figura 1-16, se observa como los residuales
de nuestro modelo se distribuyen equitativamente alrededor de la línea de referencia dibujada en
cero, lo cual indica una ausencia de tendencias no lineales. Cuando los datos presentan patrones
curvados, exponenciales o de otro tipo, se podría considerar ajustar un modelo no-lineal a los
datos.

313
Figura 17-18: Gráfica de residuales vs. valores ajustados para el modelo de predicción de captación máxima de
oxígeno

17.4.2.2 Gráfica de probabilidad normal


La gráfica de normalidad o gráfica Q-Q como también se la conoce indica si los residuales se
encuentran normalmente distribuidos, debiendo por tanto, alinearse a la diagonal de la gráfica,
evitando desviaciones respecto al 95% de confianza. Esta se basa en el cálculo de “quantiles”, los
cuales dividen un set de datos en proporciones iguales la probabilidad de distribución. Los
quantiles se grafican en el eje X contra los residuales estandarizados en el eje Y.

Como se observa en la Figura 1-17, el modelo de predicción de la variable Oxígeno presenta una
distribución normal de sus residuales. En caso de que alguno de los residuales se encontrara fuera
del 95% de confianza calculado alrededor del conjunto de datos y representado con líneas
punteadas, consideraríamos ese dato como un valor atípico.

314
Figura 17-19: Gráfica de probabilidad normal para el modelo de predicción de captación máxima de oxígeno

17.4.2.3 Gráfica de influencia


La función esencial de la gráfica de influencia es identificar valores de alto apalancamiento y de
alta influencia. Si estos valores son eliminados, la regresión puede cambiar significativamente al
realizar el análisis, como se analizó en la sección 1.4. Para analizar este tipo de gráfica, se
introduce nuevamente el concepto de regla de oro. Esta gráfica incluye tres conceptos
importantes, cuyas respectivas reglas de oro, permiten identificar valores atípicos.

El primer concepto se refiere a los residuales estandarizados, que hemos visto representados en
la gráfica de probabilidad normal. Esta transformación de los valores residuales consiste en
estandarizar los mismos, a través del cálculo del error estándar de la regresión. Por lo tanto, la
regla de oro indica que considerando un 95% de confianza, se puede concluir que aquellos valores
que se encuentren a ± 2 desviaciones estándar de la media, son considerados valores atípicos
estadísticamente significativos.

Los siguientes conceptos son los Valores-Hat y la Distancia de Cook. Ambas son medidas
calculadas para cada una de las observaciones del modelo, que combinan información de valores
de apalancamiento e influencia. Para el caso de los Valores-Hat, la regla de oro indica que aquellos
valores aproximadamente dos veces superiores al Valor-Hat promedio, debería considerarse
como notable.

315
Ecuación 17-10: Cálculo de valor-Hat promedio

(𝑘 + 1)
ℎ̅ =
𝑛

Donde, n es el número total de observaciones y k el número total de predictores del modelo.

Para la Distancia de Cook, el estándar de oro se determina a través de la Ecuación 1-11. Aquellos
valores que cumplan con esta condición, serán considerados puntos notables. Los valores de la
Distancia de Cook y Valores-Hat se determinan preferiblemente a partir de softwares estadísticos.

Ecuación 17-11: Regla de oro para Distancia de Cook.

4
𝐷𝑖 ≥
𝑛 − (𝑘 + 1)

Con estos conceptos se puede finalmente, construir la gráfica de influencia, la cual presenta en su
eje Y los residuales estandarizados, en su eje X los Valores-Hat, y como círculos que difieren en
tamaños, los cuales son proporcionales a la Distancia de Cook de cada residual analizado, como
se observa en la Figura 1-18.

Figura 17-20: Gráfica de influencia para el modelo de predicción de captación máxima de oxígeno

316
Se observan líneas de referencia en el gráfico, que justamente corresponden a las reglas de oro.
Aquellas líneas horizontales corresponden a ± 2 desviaciones estándar de la media para analizar
los residuales estandarizados. Mientras que la primera línea horizontal indica el valor-Hat
promedio calculado con la Ecuación 1-10.

Para nuestro ejemplo, podemos comprobar que existen tres observaciones notables, según las
reglas de oro, correspondiendo estas al individuo 18, 21 y 43. Notamos que el valor 43 se ha
marcado debido a la regla de oro del Valor-Hat, ya que su valor es mayor al doble de la media
4+1
(ℎ̅ = 54 = 0.0925 ∗ 2 = 0.185). La observación 18 se ha marcado ya que se encuentra a más -

2 desviaciones estándar de la media, respondiendo al estándar de oro de los residuales


estandarizados. Por último, la observación 21 se marca debido a su Distancia de Cook, la cual con
ayuda del software estadístico corresponde a 0.08222, superando el valor establecido por la regla
de oro que indica que se considerará un valor notable a aquellos que sean mayores o iguales a
4
= 0.0816.
54−(4+1)

Se consideraría retirar estos valores identificados en el caso de que estos hubieran aparecido
también en la gráfica de probabilidad normal, pero al no ser este el caso, se descarta este
procedimiento.

Es importante realizar estas gráficas de diagnóstico, ya que dan soporte al modelo generado,
incrementando la credibilidad en los resultados generados. Además permitirá identificar las
limitaciones del modelo, permitiendo de esta manera ajustar a las variables que sean necesarias,
o en su caso, ajustar los datos a otro tipo de modelo, posiblemente, no-lineal.

317
Referencias

Lista de Referencias
Awata, H., Linder, S., Mitchell, L. E., & Delclos, G. L. (2017). Association of Dietary Intake and
Biomarker Levels of Arsenic, Cadmium, Lead, and Mercury among Asian Populations
in the United States: NHANES 2011-2012. Environmental Health Perspectives, 125(3),
314-323. doi:10.1289/EHP28.
Barr, C., Diez, D. M., & Rundel, C. (2016). OpenIntro statistics(3rd ed.).
Bermúdez, M. P., Ramiro, M. T., Teva, I., Ramiro-Sánchez, T., & Buela-Casal, G. (2018).
Conducta sexual y realización de la prueba del virus de la inmunodeficiencia humana en
jóvenes que estudian en la universidad en Cuzco (Perú). Gaceta Sanitaria, 32(3), 223-
229. doi:https://doi.org/10.1016/j.gaceta.2017.07.002
Chang, S.-C., Cassidy, A., Willett, W. C., Rimm, E. B., O’Reilly, E. J., & Okereke, O. I. (2016).
Dietary flavonoid intake and risk of incident depression in midlife and older women. The
American Journal of Clinical Nutrition, 104(3), 704-714. doi:10.3945/ajcn.115.124545
Chuica Bustamante, A. (2015). Diagrama de Cajas y Bigotes. Retrieved from
http://cajaybigotes.blogspot.com/2015/06/diagrama-de-caja-y-bigote.html
Cohen, D. A., & Babey, S. H. (2012). Contextual influences on eating behaviours: heuristic
processing and dietary choices. Obesity Reviews, 13(9), 766-779. doi:10.1111/j.1467-
789X.2012.01001.x
Cornell University. (2015). The Cornell lab of Ornithology. All about birds. Retrieved from
https://www.allaboutbirds.org/guide/Blue_Jay/id
¿Cuánto mide y pesa el Mexicano promedio? . (2015). SILAO El corazón de México.
Giraldo-Gómez, J. M., Lora, F., Henao, L. H., Mejía, S., & Gómez-Marín, J. E. (2005).
Prevalencia de giardiasis y parásitos intestinales en preescolares de hogares atendidos en
un programa estatal en Armenia, Colombia. Revista de Salud Pública, 7(3), 327-338.
doi:10.1590/S0124-00642005000300008
Hong, J.-C., Steiner, T., Aufy, A., & Lien, T.-F. (2012). Effects of supplemental essential oil on
growth performance, lipid metabolites and immunity, intestinal characteristics,
microbiota and carcass traits in broilers. Livestock Science, 144(3), 253-262.
doi:10.1016/j.livsci.2011.12.008
Hu, F. B. (2013). Resolved: there is sufficient scientific evidence that decreasing sugar-sweetened
beverage consumption will reduce the prevalence of obesity and obesity-related diseases.
Obesity Reviews, 14(8), 606-619. doi:10.1111/obr.12040
Instituto Nacional del Cáncer. (2019). Diccionario de cáncer. Retrieved from
https://www.cancer.gov/espanol/publicaciones/diccionario/def/bioestadistica
Karadede, H., & Ünlü, E. (2000). Concentrations of some heavy metals in water, sediment and
fish species from the Atatürk Dam Lake (Euphrates), Turkey. Chemosphere, 41(9), 1371-
1376. doi:https://doi.org/10.1016/S0045-6535(99)00563-9
Kohout, F. J., Berkman, L. F., Evans, D. A., & Cornoni-Huntley, J. (1993). Two shorter forms of
the CES-D (Center for Epidemiological Studies Depression) depression symptoms index.
Journal of Aging and Health, 5(2), 179-193. doi:10.1177/089826439300500202
La Estadística y la Probabilidad. (s.f.). Retrieved from
http://www.salonhogar.net/Salones/Matematicas/4-6/datos_estadisticas/indice3.htm
Lachat, C., Nago, E., Verstraeten, R., Roberfroid, D., Van Camp, J., & Kolsteren, P. (2012).
Eating out of home and its association with dietary intake: a systematic review of the
evidence. Obesity Reviews, 13(4), 329-346. doi:10.1111/j.1467-789X.2011.00953.x
LaCroix, A. Z., Bellettiere, J., Rillamas-Sun, E., Di, C., Evenson, K. R., Lewis, C. E., . . .
Initiative, f. t. W. s. H. (2019). Association of Light Physical Activity Measured by
Accelerometry and Incidence of Coronary Heart Disease and Cardiovascular Disease in
Older WomenLight Physical Activity and Incidence of CHD and CVD in Older
WomenLight Physical Activity and Incidence of CHD and CVD in Older Women. JAMA
Network Open, 2(3), e190419-e190419. doi:10.1001/jamanetworkopen.2019.0419
Lim, S. S., Vos, T., Flaxman, A. D., Danaei, G., Shibuya, K., Adair-Rohani, H., . . . Ezzati, M.
(2012). A comparative risk assessment of burden of disease and injury attributable to 67
risk factors and risk factor clusters in 21 regions, 1990–2010: a systematic analysis for

361
Lista de Referencias

the Global Burden of Disease Study 2010. The Lancet, 380(9859), 2224-2260.
doi:10.1016/S0140-6736(12)61766-8
Lock, R. (2013). Stat2Data: Datasets for Stat2. R package version 1.6. https://CRAN.R-
project.org/package=Stat2Data
Murrough, J. W., Iosifescu, D. V., Chang, L. C., Jurdi, R. K. A., Green, C. E., Perez, A. M., . . .
Mathew, S. J. (2013). Antidepressant Efficacy of Ketamine in Treatment-Resistant Major
Depression: A Two-Site Randomized Controlled Trial. American Journal of Psychiatry,
170(10), 1134-1142. doi:doi:10.1176/appi.ajp.2013.13030392
Mykletun, A., Stordal, E., & Dahl, A. A. (2001). Hospital Anxiety and Depression (HAD) scale:
factor structure, item analyses and internal consistency in a large population. The British
journal of psychiatry, 179(6), 540-544. doi:10.1192/bjp.179.6.540
National Library of Medicine (NLM). (2017). ClinicalTrials.gov. Retrieved from
https://clinicaltrials.gov/
Netsi, E., Pearson, R. M., Murray, L., Cooper, P., Craske, M. G., & Stein, A. (2018). Association
of Persistent and Severe Postnatal Depression With Child OutcomesAssociation of
Persistent and Severe Postnatal Depression With Child OutcomesAssociation of
Persistent and Severe Postnatal Depression With Child Outcomes. JAMA Psychiatry,
75(3), 247-253. doi:10.1001/jamapsychiatry.2017.4363
Ng, M., Fleming, T., Robinson, M., Thomson, B., Graetz, N., Margono, C., . . . Gakidou, E.
(2014). Global, regional, and national prevalence of overweight and obesity in children
and adults during 1980-2013: a systematic analysis for the Global Burden of Disease
Study 2013. Lancet, 384(9945), 766-781. doi:10.1016/s0140-6736(14)60460-8
Pun, V. C., Manjourides, J., & Suh, H. (2017). Association of ambient air pollution with
depressive and anxiety symptoms in older adults: results from the NSHAP study.
Environmental health perspectives, 125(3), 342. doi:10.1289/EHP494.
Real Academia de la Lengua (RAE). (2017). Diccionario de la Lengua Española. Retrieved from
http://dle.rae.es/?id=DgIqVCc
The Quantile Framework for Mathematics. (2017). Performance Standards. Retrieved from
https://www.quantiles.com/content/benefits-for-educators/performance-standards/
UCLA: Statistical Consulting Group. Choosing the correct statistical test in SAS, Stata, SPSS and
R. Retrieved from http://stats.idre.ucla.edu/other/mult-pkg/whatstat/
Verma, Y. (2008). Acute toxicity assessment of textile dyes and textile and dye industrial effluents
using Daphnia magna bioassay. Toxicology and industrial health, 24(7), 491-500.
Visually. (s.f.). How long do animals live? Retrieved from http://visual.ly/how-long-do-animals-
live
Von Elm, E., Altman, D. G., Egger, M., Pocock, S. J., Gøtzsche, P. C., Vandenbroucke, J. P., &
Initiative, S. (2014). The Strengthening the Reporting of Observational Studies in
Epidemiology (STROBE) Statement: guidelines for reporting observational studies.
International Journal of Surgery, 12(12), 1495-1499.
Ward, M. A., Schweizer, M. L., Polgreen, P. M., Gupta, K., Reisinger, H. S., & Perencevich, E.
N. (2014). Automated and electronically assisted hand hygiene monitoring systems: A
systematic review. American Journal of Infection Control, 42(5), 472-478.
doi:https://doi.org/10.1016/j.ajic.2014.01.002
World Health Organization. (2009). WHO guidelines on hand hygiene in health care: first global
patient safety challenge. Clean care is safer care: World Health Organization.
Yu, Z., Malik, V. S., Keum, N., Hu, F. B., Giovannucci, E. L., Stampfer, M. J., . . . Bao, Y. (2016).
Associations between nut consumption and inflammatory biomarkers. The American
Journal of Clinical Nutrition, 104(3), 722-728. doi:10.3945/ajcn.116.134205

362

También podría gustarte