0% encontró este documento útil (0 votos)
92 vistas32 páginas

Cap Un Factor

Este documento presenta una introducción al diseño de experimentos. Explica que un experimento involucra la observación de una variable de respuesta bajo condiciones controladas. Los factores son las variables que podrían afectar la variable de respuesta. Los experimentos se clasifican en experimentos de selección de factores, comparación de tratamientos y superficies de respuesta. También distingue entre datos observacionales y datos experimentales.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
92 vistas32 páginas

Cap Un Factor

Este documento presenta una introducción al diseño de experimentos. Explica que un experimento involucra la observación de una variable de respuesta bajo condiciones controladas. Los factores son las variables que podrían afectar la variable de respuesta. Los experimentos se clasifican en experimentos de selección de factores, comparación de tratamientos y superficies de respuesta. También distingue entre datos observacionales y datos experimentales.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Capítulo 9

Experimentos con un factor

1. Introducción al diseño de experimentos


2. El modelo
3. Estimación de los parámetros
4. Análisis de la varianza
5. Análisis de las diferencias entre medias
6. Diagnosis

0 Apuntes realzados por el Profesor Ismael Sánchez para la asignatura: Métodos Estadísticos para la Mejora de

la Calidad, de la titulación de Ingeniería de Telecomunicaciones. Universidad Carlos III de Madrid

1
2 Experimentos con un factor

9.1. Introducción al diseño de experimentos


En este capítulo estudiaremos los fundamentos del análisis estadístico de datos que proceden
de un experimento. Por experimento, nos referimos a su definición clásica en el ámbito científico;
es decir, la observación o determinación voluntaria de un fenómeno, o variable respuesta, en
determinadas condiciones, como medio de aprendizaje. El objetivo del análisis estadístico será
determinar qué variables influyen en la variable respuesta del experimento y cuáles no. Estas
variables de las que deseamos saber si afectan o no a la variable respuesta les denominaremos
factores, variables explicativas, o simplemente variables de entrada. A la variable respuesta
también se le denomina variable dependiente (dependiente de los factores). A los diferentes
valores que puede tomar un factor se les denominará niveles.
Bajo esta definición de experimento pueden englobarse multitud de estudios posibles. Un as-
pecto importante de esta definición es que el objetivo es el aprendizaje por medio de la ob-
servación, como contraposición del aprendizaje meramente teórico a partir de leyes o principios
matemáticos, físicos o químicos. Ambas formas de aprendizaje (experimental o teórica) son com-
plementarias. Los fenómenos reales son mucho más complejos de lo que son capaces de describir los
modelos teóricos, basados en ambientes ideales y perfectos. De esta forma, el aprendizaje teórico
puede servir como punto de partida para acercarse al conocimiento de un fenómeno, mientas que
el aprendizaje experimental ayuda a conocer en más detalle dicho fenómeno en un entorno real
concreto.
La experimentación es uno de los principales métodos de aprendizaje a partir de la observación.
Su principal rasgo es que existen una serie de condiciones que el experimentador o analista controla.
Es decir, el experimentador tiene el control de un conjunto (grande o pequeño) de factores. De
esta forma, el experimentador puede observar qué cambios se producen en la variable respuesta
al manipular intencionadamente los valores de los niveles de los factores. Esta secuencia de
acciones: cambios intencionados en los niveles de los factores y observación de cambios producidos
en la variable respuesta, es la que permite establecer relaciones causa-efecto. Lo contrario de
un experimento o estudio experimental es un estudio observacional (que también recibe
el nombre de encuesta, no necesariamente de personas), en la que el analista sólo observa los datos
sin influir sobre ninguno ellos. En los estudios observacionales, el analista no tiene ningún control
sobre ninguno de los factores. No existe por tanto la manipulación de los factores y por tanto no
es fácil establecer relaciones causa-efecto.
Existirán muchas circunstancias que sólo permitan el estudio de datos meramente observa-
cionales, como el estudio de las galaxias a partir de los datos suministrados por los astrónomos,
el comportamiento de los primeros homínidos a partir de restos arqueológicos, o el análisis de
movimientos sociales a partir de estudios demográficos y socio-económicos. En ingeniería, sin em-
bargo, la realización de experimentos no solo será posible sino que será una herramienta muy
potente de aprendizaje. En muchas circunstancias será la única forma de conocer un fenómeno,
como en el caso de análisis de las propiedades de nuevos productos o del diseño de modificaciones
sobre sistemas complejos.

9.1.1. Clasificación de los experimentos


Los diferentes tipos de experimentos se pueden clasificar atendiendo a muchos criterios. De cara
al desarrollo de este tema, es útil clasificar los experimentos según los siguientes grupos:

Experimentos para la selección de factores (variable screening): Si hay un número


9.1 Introducción al diseño de experimentos 3

grande de factores a analizar y se piensa que sólo un numero reducido de los mismos serán
realmente importante, un experimento de selección de factores puede ayudarnos a discriminar
las variables importantes de las poco relevantes. Nótese que el objetivo no es saber en qué
medida o de qué forma influyen los factgores, sino sólo si influyen o no. En este tipo de
estudios, y puesto que se manejan muchos factores, suele existir una importante restricción
económica, por lo que el énfasis se pondrá en la obtención de conclusiones a partir del
menor número de datos posible. Una vez reconocidas las variables importantes, puede
ampliarse la toma de datos concentrándose sólo en dichos factores significativos. Por esta
razón, los factores que se introducen en este estudio de selección suelen tomar muy pocos
valores distintos, siendo lo más habitual el que tomen sólo dos posibles valores (con/sin cierto
atributo, nivel alto/nivel bajo del factor, etc).

Experimentos para la comparación de tratamientos: En este tipo de experimentos,


se quieren detectar diferencias entre los distintos niveles de uno o más factores. Por ejemplo,
qué tipo de material de entre 3 diferentes es el más resistente, qué componente electrónico
de entre 5 tecnologías alternativas es más fiable. En este tipo de estudios, los factores toman
un número discreto de valores. Puede analizarse un solo factor o varios simultáneamente.
Si hay un solo factor, a sus niveles se les denomina tratamientos. Si hay varios factores, el
tratamiento será cada una de las combinaciones de los niveles.

Superficies de respuesta: Una vez que se han identificado los factores que ejercen un efecto
sifgnificativo en la variable respuesta, la siguiente tarea es analizar cómo es esa relación, espe-
cialmente si los factores son variables continuas. Para ello se toma un mayor número de datos
y se estima la función matemática que mejor aproxime dicha relación. A esta relación entre
los factores y la variabe respuesta se suele denominar superficie de respuesta. Normalmente
el análisis consiste en estimar funciones lineales o cuadráticas.

9.1.2. Naturaleza de los datos


Los datos para el análisis pueden recogerse de muchas maneras, pero fundamentalmente se
pueden establecer dos tipos de datos según su forma de obtención: datos observacionales y datos
experimentales. En un experimento habrá datos de ambos tipos.

Datos observacionales: Son los datos que se recogen de forma pasiva. Simplemente obser-
vamos un proceso o a un conjunto de individuos y esperamos a que se genere la información.
Las principales características de los datos observacionales son:

1. El investigador no ejerce ningún control sobre dicha variable.


2. Los valores que toman la variable son conocidos por el analista después de haber selec-
cionado a los individuos a analizar, es información ’a posteriori’. El analista no puede
determinar el valor de la variable. A lo sumo puede hacer una selección de aquellas
observaciones que tuvieron determinados valores con vistas a especializar su estudio.
Obviamente, la variable respuesta será siempre un dato observacional.

Por ejemplo, cuando se realiza la inspección de artículos manufacturados para ver si son o no
defectuosos se toman datos observacionales: se toman artículos al azar y se miden las carac-
terísticas de interés. El hecho de que sean datos observacionales hace que sea difícil encontrar
las razones de por qué un artículo es defectuoso o no. Si hemos tomado información de otras
4 Experimentos con un factor

variables y las analizamos conjuntamente podremos relacionarlas y extraer conclusiones so-


bre qué factores pudieron hacer que el artículo fuese defectuoso. Pero pudiera ser que dicho
análisis no nos revelase nada de interés y que la variable que haya provocado que los artícu-
los sean defectuosos no haya sido medida. También resultaría difícil establecer relaciones de
causalidad entre unas variables y otras. El que dos sucesos sean observados conjuntamente
no necesariamente implica causalidad. Esta dificultad para establecer relaciones causa-efecto
concluyentes es el principal inconveniente de los datos observacionales. No hay nada malo
en analizar variables exclusivamente mediante datos observacionales, y en muchas ocasiones
será la única forma de obtener información, pero se ha de ser consciente de sus limitaciones
a la hora de extraer conclusiones. Pudiera ser que las variables importantes no hayan sido
registradas, o el rango de variación de las variables observadas no sea lo bastante amplio
como para poder establecer alguna relación.

Datos experimentales: Son aquellos cuyo valor los fija el experimentador. El analista ma-
nipula deliberadamente los valores del factor con el fin de poder establecer una relación
de causalidad entre dicho factor y la variable respuesta. El analista también consigue de
esta forma aquellos valores en los que está interesado. La principal ventaja de los datos ex-
perimentales es que es más fácil establecer relaciones de causalidad entre las variables, pues
el analista puede observar la evolución de los resultados a medida que va manipulando los
factores. La capacidad de poder elegir los valores de las variables que interesen hace que se
necesiten menos datos para sacar conclusiones que si se usase datos observacionales. Hay por
tanto una clara ventaja económica en este tipo de datos. La necesidad de economizar
a la hora de recoger datos es muy importante en ingeniería, pues los costes de manipular
procesos industriales o realizar ensayos de laboratorio pueden ser muy elevados. Otra ventaja
de los datos experimenales es que permiten provocar situaciones de interés que difícimente
puedan observarse en la realidad o que se precise de demasiado tiempo de observación. A
veces, un experimento será la única forma de obtener información, como sucede en el diseño
de nuevos productos o modificaciones en el diseño de productos existentes. De nuevo, este
tipo de situaciones son las que interesan en ingeniería.

9.1.3. Ejecución de un experimento


El objetivo de un experimento será determinar si hay alguna relación causa-efecto entre los fac-
tores y la variable respuesta, así como determinar qué valor de los factores son los más adecuados.
Por tanto, las condiciones ideales de un experimento es que todas las variables (salvo la variable
respuesta) estén controladas y generen datos experimentales. En la práctica es imposible que todos
los datos que se posean de los factores sean experimentales pues es imposible controlarlo todo. La
calidad de un experimento se puede entonces medir por la influencia de los factores no controlados.
Un experimento será tanto mejor cuanto menos importantes sean los factores no controladas, de
forma que la relación causa-efecto entre los factores importantes y la variable respuesta se pueda
medir más claramente. Las técnicas que vamos a estudiar son aplicables tanto si los datos son
experimentales como observacionales. No obstante, las técnicas que se presentarán están encam-
inadas a usar el mínimo número de datos posible y a determinar los niveles de los factores que
proporcionan valores de la variable respuesta óptimos, por lo que su entorno natural de aplicación
son los experimentos.
Hay dos principios fundamentales, entre otros, que debemos considerar en la ejecución de un
experimento: la replicación y la aleatorización.
9.1 Introducción al diseño de experimentos 5

Replicación: es la aplicación de un mismo tratamiento a unidades experimentales diferentes.


Por unidad experimental nos referimos a cada elemento genérico sobre el que experimen-
tamos: persona, material, máquina, etc, que genera un valor de la variable respuesta. No debe
confundirse la replicación con la repetición. Repetición sería ejecutar el mismo tratamien-
to sobre la misma unidad experimental. La variabilidad que hay entre las replicaciones es
claramente debida al conjunto de factores no controlados, por lo que un mayor número de
replicaciones mejorará la estimación de su magnitud. Al aumentar el número de replicaciones
también mejoramos las estimaciones del efecto del tratamiento. Las repeticiones, sin embar-
go, tiene menor variabilidad que las replicaciones, pues sólo estarán recogiendo parte de la
posible variabilidad inducida por los factores no controlados.

Aleatorización: la adjudicación de los tratamientos a las unidades experimentales debe


realizarse al azar. Para ello ha de utilizarse algún procedimiento objetivo como por ejemplo
una tabla de números aleatorios.

Denominaremos diseño de un experimento al conjunto de factores que vamos a manipular, por


considerarlos los más relevantes, así como los valores (niveles) que consideraremos en cada caso, el
número de replicaciones y el plan de aleatorización. Puesto que el objetivo es minimizar el número
de datos, consideraremos que los factores toman un número pequeño de valores posibles (o al menos
que dichos valores son suficientemente representativos del total de valores). Consideraremos tam-
bién que la variable respuesta es una variable continua. En la práctica podemos tratar como si fuese
continua a una variable discreta que toma muchos valores diferentes. En este tema estudiaremos
el análisis de un experimento con un solo factor, mientras que en los temas siguiente analizaremos
el efecto conjunto de varios factores. Veamos unos ejemplos que ilustren estas ideas.

Ejemplo 1:

Se desea saber si el material utilizado (factor) en el substrato de unas placas de circuito im-
preso influye en la resistencia a la temperatura (variable respuesta). Para ello se poseen placas de
diferentes materiales (niveles):

Fibra de vidrio: 6 unidades

Polietafluoretileno: 12 unidades
Resina epoxídica: 10 unidades

Se someten las placas a diferentes tratamientos a altas temperaturas en un horno de laboratorio,


obteniéndose para cada placa el valor de un índice de resistencia térmica. A mayor valor del índice
mayor es la resistencia térmica de la placa. Los valores obtenidos se muestran en la Tabla .
Este estudio es un ejemplo de comparación de tratamientos. El análisis de estos datos nos
permitirá saber si el tipo de material tiene un efecto significativo en el índice de resistencia térmica
y qué material es el más apropiado.

Puede verse en la Tabla 9.1 del ejemplo 1 que apenas hay valores iguales, incluso dentro de un
mismo tipo de material. Esta disparidad de valores puede expresarse en términos de variablidad.
El índice de resistencia a la temperatura no es constante, sino que tiene variabilidad. Las causas
de dicha variabilidad pueden ser muchas:
6 Experimentos con un factor

Indice de resistencia térmica


Fibra de vidrio Polietafluoretileno Resina ep oxídica
35 53 54
23 41 46
41 45 57
42 43 41
28 40 62
51 49 71
36 48
63 63
40 67
43 39
52
42
M edia 36.7 45.6 54.8
Desv. Típica (corr) 10.17 7.46 11.05
IC μ (95 %) (26.0;47.3) (40.8;50.3) (46.9;62.7)

Cuadro 9.1: Indice de resistencia a la temperatura de placas de circuito impreso

La placas pueden tener grosores diferentes, aunque sean diferencias pequeñas.

Puede que los hornos que se utilizan en el experimento nunca alcancen exactamente la misma
temperatura.

La ubicación de las placas en el horno podría tener alguna influencia debido a efectos de
convección de aire.

Podría haber imprecisiones o errores en la recogida de la información.

El objetivo del análisis será averiguar si parte de esa variabilidad puede atribuirse al tipo de
substrato. Si conseguimos concluir que no todos los substratos son iguales, habrá que averiguar
cuál, o cuáles, de ellos tiene ventaja significativa.

Ejemplo 2:

A un equipo de ingenieros de telecomunicaciones, especializado en técnicas de calidad, se le


encarga la mejora del rendimiento de un multiplexor de 45 canales de 1.5 megabits (ver artículo
de Larry Seese, vicepresidente de ATT, pag. 35). Parte de las mejoras que se pretenden introducir
es un nuevo tipo de memoria fija (ver pag. 36 del mismo artículo). Se barajan cuatro tipos de
tecnología para dicha memoria (factor=tipo de memoria):

RAM estática (con circuitos lógicos tipo flip-flop) (SRAM).

RAM dinámica (más capacidad y menor consumo) (DRAM).

RAM no volátil de 16.384 ×1 bits (combina RAM estáticas y PROM borrables eléctricamente)
(NVRAM-1)

RAM no volátil de 65.536 ×1 bits (NVRAM-2)

Para comparar estos tipos de memoria se somete el multiplexor a un protocolo de pruebas en el


laboratorio con cada tipo de memoria, computándose el tiempo total de ejecución de dichas tareas
(variable respuesta). Un menor tiempo de ejecución será un argumento a favor (junto con el coste,
9.1 Introducción al diseño de experimentos 7

Tiemp o de ejecución del protocolo


SRAM DRAM NVRAM -1 NVRAM -2
149.24 129.26 60.67 51.18
143.05 153.17 54.01 50.88
141.67 173.35 63.34 49.31
154.02 159.30 60.31 53.61
159.62 180.50 58.69 63.56
183.31 156.09 68.55 54.38
129.57 178.83 72.69 61.72
133.98 143.45 57.26 50.92
164.64 132.42 60.96 54.63
142.73 145.31 55.65 50.48
M edia 150.18 155.17 61.21 54.06
Desv. Típica (corr) 5.03 5.75 1.81 1.54
IC μ (95 %) (138.8;161.6) (142.2;168.2) (57.1;65.3) (50.6;57.6)

Cuadro 9.2: Indice de resistencia a la temperatura de placas de circuito impreso

fiabilidad y mantenimiento necesario) para decidir el tipo de memoria. Para cada tipo de memoria
se poseen 10 pastillas que se prueban con el mismo multiplexor. Los tiempos totales de ejecución
para cada pastilla (en segundos) se encuentran en la tabla 9.2.

Este ejemplo es también una aplicación de comparación de tratamientos. El objetivo del


análisis será saber si el tipo de memoria tiene una influencia significativa sobre el tiempo de eje-
cución y qué tipo de memoria es la más adecuada.

Al igual que en el ejemplo 1, los tiempos de ejecución del protocolo son distintos incluso dentro
de cada tipo de memoria. El tiempo de ejecución tiene, por tanto, variabilidad. Dicha variabilidad
estará originada por muchos factores, aparte del tipo de memoria empleada:

Dos pastillas de la mismo tipo de memoria pueden ser de distinto fabricante.

Incluso siendo del mismo fabricante, las pastillas no serán iguales debido a la variabilidad
intrínseca del proceso de producción.

Habrá errores de medida en cada experimento.

La temperatura del multiplexor no será constante y eso podría influir en su rendimiento.

El objetivo del análisis será detectar si una parte significativa de dicha variabilidad viene ex-
plicada por el tipo de memoria. En caso afirmativo, habrá que detectar si algún tipo de memoria
es significativamente mejor.

Comencemos con un análisis descriptivo de los datos. La Figura 9.1 representa la información
del ejemplo 1. ¿Qué sugieren estos gráficos? A simple vista, en lo que nos fijamos para comparar los
tres niveles del factor es en sus valores medios, es decir, en sus medias muestrales. Será precisamente
esta idea de comparar los grupos mediante la comparación de sus medias el fundamento de nuestro
análisis estadístico. Vemos en ambos gráficos que el nivel medio en esta muestra de datos es
diferente. Parece que, en promedio, y en esta muestra, el substrato 3 tiene mayor valor medio
que el substrato 2 y, a su vez, mayor que el substrato 1. En el gráfico box-plot puede verse que
las medias muestrales son distintas (cruces). Pero nuestro interés no está en detectar diferencias
en las medias de estas placas concretas, sino en las medias de las placas que se puedan usar en el
8 Experimentos con un factor

Indice de resistencia térmica


Scatterplot by Level Code Box-and-Whisker Plot

Indice de resistencia térmica


73 73

63 63

53 53

43 43

33 33

23 23
1 2 3 1 2 3
Tipo de Substrato Substrato

Figura 9.1: Indice de resistencia térmica para cada tipo de substrato. Datos del ejemplo 1

futuro. En términos más estadísticos, el interés está en saber si las medias poblacionales son
diferentes, mientras que lo que vemos son sólo las medias muestrales. Estas medias muestrales
no implican necesariamente que las medias poblacionales (las obtenidas con infinitas placas) sean
diferentes, pues el valor de la media muestral depende del azar de la muestreo, es decir, de las
placas concretas que hayamos seleccionado por azar.
Puede decirse entonces que el índice de resistencia térmica de cada substrato es una variable
aleatoria que varía, para un mismo substrato, de placa en placa. La media poblacional en cada
placa será un parámetro desconocido y lo que tenemos es sólo una estimación de dicha media
(media muestral). El inferir cuánto valdrá una media poblacional μ a partir de una media muestral
ȳ es un problema que ya ha resuelto la estadística satisfactoriamente, y que has estudiado en
cursos anteriores de estadística. Por ejemplo, si sabemos que una variable aleatoria Y es normal,
Y ∼ N (μ, σ2 ) su media muestral, Ȳ , en una muestra de tamaño n variará de unas muestra a otras,
pero lo hará según la distribución Ȳ ∼ N (μ, σ 2 /n). Sabemos además que si n es grande (n>50) ni
siquiera es necesario que Y sea normal para seguir utilizando que Ȳ ∼ N (μ, σ2 /n). De esta forma,
aunque Ȳ varíe de muestra en muestra sabemos mucho sobre sus valores posibles. Concretamente,
somos capaces de dar un intervalo de confianza que contendrá a μ con una confianza dada 1 − α.
La Figura 9.2 muestra los intervalos de confianza al 95 % para las medias poblacionales de cada
tipo de sustrato. Estos intervalos están calculados mediante la formulación habitual, usando la
expresión ½ ¾
ŝi
μi ∈ ȳi ± tni −1;α/2 √ , (9.1)
ni
donde μi es la media poblacional del índice de temperatura en el substrato de tipo i-ésimo, ȳi es la
media muestral de los índices de temperatura observados con el substrato i-ésimo, ni es el número
de observaciones de ese tipo de substrato, y ŝi es la desviación típica muestral (corregida por grados
de libertad, es decir, dividiendo por ni − 1) obtenida con los datos. El término tni −1;α/2 es el valor
de la distribución t de Student de ni−1 grados de libertad, que deja el área α/2 a la derecha. El uso
de esta distribución está limitado al caso en que Y sea normal. En caso contrario sólo podremos
hacer el intervalo (9.1) para muestras grandes, y usaremos za/2 en lugar de tni −1;α/2 . El intervalo
(9.1) consituye una región en la que se encuentra la media verdadera μi con una confianza de
100 × (1 − α) %.

Al observar estos intervalos de confianza, las diferencias entre cada tipo de substrato ya no
parecen tan claras. Lo más palpable sea tal vez la diferencia entre los substratos 1 y 3. Es necesario
hacer una advertencia: la comparación de estos intervalos tal y como lo estamos haciendo
9.1 Introducción al diseño de experimentos 9

Means and 95,0 Percent Confidence Intervals (internal s)


65

Indice de resistencia térmica


55

45

35

25
1 2 3
Substrato

Figura 9.2: Intervalos de confianza para las medias del ejemplo 1

ahora, es decir, viendo si se solapan o no, no es correcta. Aunque cada intervalo por sepa-
rado es correcto, hay varias razones que hacen que la comparación de estos intervalos sea poco re-
comendable. No obstante, más adelante veremos que mediante algunos cambios es posible construir
intervalos de confianza que sí permitan su comparación y podamos sacar conclusiones. El motivo
principal es que si bien cada intervalo tiene una confianza del 95 % de contener a su respectiva
media poblacional, la confianza de que los tres tengan a sus respectivas medias simultaneamente
tendrá una confianza menor, pues son tres sucesos que han de observarse simultaneamente, lo cual
es más difícil de observar que cada suceso por separado. Veámoslo numéricamente: si los intervalos
para las medias en cada substrato son de un nivel de confianza del 95 % se tendrá que,

P (media poblacional μ1 esté en su intervalo) = 0,95,


P (media poblacional μ2 esté en su intervalo) = 0,95,
P (media poblacional μ3 esté en su intervalo) = 0,95.

Sin embargo, conjuntamente este nivel de confianza se pierde, pues la probabilidad conjunta de
que la primera media esté en el primer intervalo Y, además, que lo esté la segunda es su intervalo Y,
además, que la tercera media se encuentre en su respectivo intervalo, ya no es del 95 %. Suponendo
por ejemplo que esos tres sucesos son independientes tendríamos que

P [(media 1 esté en el intervalo) y (media 2 esté en su intervalo)


y (media 3 esté en su intervalo)] = 0,95 × 0,95 × 0,95 = 0,86 < 0,95.

Luego la región formada por los tres intervalos tiene una confianza del 85 % y no del 95 %. Este
resultado ilustra que estos intervalos de confianza individuales no son apropiados para hacer com-
paraciones, pues las conclusiones que tomemos tendrán un grado de confianza menor del que
creemos que estamos manejando. Es necesario, introducir técnicas estadísticas más apropiadas que
aseguren que las conclusiones tengan un nivel de confianza prefijado. Similares conclusiones pueden
hacerse a la vista de los datos del ejemplo 2 (Figura 9.3).

Podemos resumir todo lo anterior en las siguientes conclusiones:

La variable respuesta de interés es una variable aleatoria que dependerá de muchos factores,
entre ellos el factor que se controla en el experimento.
10 Experimentos con un factor

Scatterplot by Level Code Means and 95,0 Percent Confidence Intervals (internal s)

Tiempo de ejecución
200 170

160 150
130

Tiempo
120
110
80
90
40 70
0 50
1 2 3 4 1 2 3 4
Tipo de Memoria Memoria

Figura 9.3: Tiempo de ejecución. Datos e intervalos de confianza Datos del ejemplo 2

El efecto del factor en la variable respuesta de interés (tipo de substrato en el índice de


resistencia térmica, o tipo de memoria en el tiempo de ejecución) se medirá a través del valor
medio de la variable en cada uno de los niveles seleccionados del factor.
El valor de la variable respuesta en cada nivel del factor es una variable aleatoria que depen-
derá del resto de factores que no controlamos. La media de dicha variable aleatoria para un
nivel concreto será un parámetro desconocido. Lo único que se tiene es una estimación de las
medias a través de los datos.
Las comparaciones de las medias no se deben realizar con los procedimientos habituales como,
por ejemplo, comparando los intervalos de confianza individuales.

Ejercicios:

1. Clasifica los siguientes grupos de datos en observacionales o experimentales:

a) En la universidad preguntamos a los estudiantes su edad, sexo, curso, si tienen o no


teléfono móvil y cuánto hace que lo compraron, y vemos qué relación existe entre la
antigüedad del teléfono y el resto de las variables
b) En el registro de una gasolinera recogemos la información de los litros de combustible
que repostan los automóviles y analizamos su relación con el día de la semana y el tipo
de combustible
c) Para ver qué tipo de batería, de entre 3 tipos, es más adecuada para una cámara difital
concreta se prueban los 3 tipos diferentes de bateria en 2 camaras digitales de dicho tipo.
En cada cámara se prueban los tres tipos de batería. Se hacen 100 fotografías sin flash
con cada cámara a intervalos de 10 segundos cada una. El orden en que cada batería es
asignada en cada cámara se hace al azar. Después se mide la carga de cada batería con
el mismo aparato de medida y se comparan.

2. ¿Por qué se usa la distribución t de Student en el intervalo (9.1)?


3. ¿Cuándo es válido este intervalo?
4. ¿Qué otras distribuciones se pueden emplear para hacer intervalos para μ?¿Cuándo se pueden
emplear?
9.2 El modelo 11

5. ¿Qué diferencias se observan entre el Scatterplot del ejemplo 1 y del 2?


6. ¿Qué puede concluirse si dos intervalos de confianza sobre las medias poblacionales según la
expresión (9.1), construidos con dos grupos de datos distintos, se solapan?
7. ¿Cómo compararías si dos grupos de datos corresponden a poblaciones con la misma media?

9.2. El modelo
Sea Y la variable de interés, por ejemplo el índice de resistencia a la temperatura de las placas
de circuitos impresos o el tiempo de ejecución de un conjunto de tareas para un multiplexor.
Supongamos un factor principal que puede afectar al valor de la variable Y. Por ejemplo, el tipo de
substrato del circuito impreso o el tipo de memoria fija del multiplexor. El factor toma I niveles.
Para cada nivel i, i=1,2,...,I se poseen ni observaciones. Los valores de la variable Y se denotan
por Yij : valor de Y para el individuo j-ésimo (j=1,2,...,ni ) del nivel i-ésimo. Para el ejemplo 1, el
factor tiene 3 niveles (I=3) y los tamaños muestrales son n1 = 6; n2 = 12; n3 = 10. Para el ejemplo
2, el factor tiene 4 niveles y todos los tamaños muestrales son iguales: n1 = n2 = n3 = n4 = 10.
La variable Yij es una variable aleatoria. Su variabilidad depende de muchas causas. El modelo
estadístico para describir esa variable aleatoria viene inspirado de las figuras anteriores. Por ejemp-
lo, en las figuras 9.1 y 9.3 puede verse que cada nivel del factor (cada tipo de substrato, o cada tipo
de memoria) equivale a un nivel medio distinto de yij , o potencialmente distinto. Supondremos,
entonces, que el valor medio viene determinado por el nivel del factor principal, es decir:
E(Yij |i) = μi , i = 1, 2, ..., I.
Dentro de cada nivel, existe variabilidad en Yij . Esta variabilidad es debida al resto de los
factores que no se controlan y que, en general, serán muchos. Se supondrá, además que dichos
factores no controlados afectan de forma homogénea, o similar, en todo el experimento y por tanto
su efecto tiene las mismas propiedades estadísticas en cada uno de los niveles del factor principal.
Una hipótesis razonable es que ese conjunto de factores no controlados puedan englobarse en una
variable aleatoria normal (por aplicación del teorema central del límite). Por tanto, la variable
aleatoria Yij puede modelizarse como
Yij = μi + uij , (9.2)
donde uij engloba el efecto de todos los demás factores y que hacen que, para un nivel dado, la
variable Yij fluctúe alrededor del valor medio. Según lo dicho anteriormente, uij tendrá las mismas
propiedades en todos los niveles. Por tanto:
uij ∼ N (0, σ 2 ), i = 1, 2, ..., I; j = 1, 2, ..., ni . (9.3)
Entonces,
Yij ∼ N (μi , σ2 ), .i = 1, .., I
Supondremos, además, que las variables aleatorias uij , son independientes. Puesto que un exper-
imento es tanto mejor cuanto más control se tenga sobre los factores, al efecto de los factores no
controlados, uij , se le suele denominar error experimental o perturbación aleatoria. Cuando no
controlamos el valor que tomará un factor, diremos que su valor depende del azar. Por eso, al
término uij se ledice que es causado por el azar.
12 Experimentos con un factor

9.3. Estimación de los parámetros


El modelo estadístico (9.2 ) que describe el comportamiento de la variable respuesta Yij tiene
los siguientes parámetros desconocidos:

I medias μ1 , ..., μI
la varianza σ 2 .

Se tiene un total de I + 1 parámetros a estimar con n1 + n2 + · · · + nI = n datos

9.3.1. Estimación de las medias:


Utilizando el método de los momentos, las medias poblacionales se estimarán con las medias
muestrales de cada grupo: Pni
j=1 Yij
μ̂i = ≡ Ȳi. .
ni
Entonces, se cumplirá que:

E(μ̂i ) = μi ,
σ2
V ar(μ̂i ) = ,
ni
y si hay normalidad µ ¶
σ2
μ̂i ∼ N μi ,
ni
Puede demostrarse que, bajo normalidad, éste es también el estimador máximo verosímil.

9.3.2. Estimación de σ 2
El parámetro σ 2 es la varianza del error experimental; es decir, es la varianza que hay dentro de
cada grupo alrededor de su media μi . El estimador máximo verosímil de σ 2 para cualquier variable
aleatoria de la que se tiene una muestra aleatoria simple de una población de media μ y varianza
σ 2 es también el estimador por el método de los momentos. Según este principio, estimaremos σ 2
utilizando la dispersión de los datos de cada nivel i = 1, ..., I alrededor de su media muestral μ̂i .
Sea si la desviación típica de los datos de cada grupo, es decir:
Pni 2 Pni ¡ ¢2
2 j=1 (Yij − μ̂i ) j=1 Yij − Ȳi.
Si = ≡ .
ni ni
El estimador que usaremos (y que es el máximo verosímil bajo normalidad) será un promedio,
ponderado por el número de elementos en cada grupo, de éstos valores:
PI PI Pni 2
2
2 i=1 ni Si i=1 j=1 (Yij − μ̂i )
σ̂ = = . (9.4)
n n
Puede demostrarse que este estimador es sesgado. Es sesgado porque las desviaciones no se
hacen respecto a las medias verdaderas μ1 , ..., μI sino a estimaciones hechas con los propios datos.
9.4 Análisis de la varianza 13

Puede asímismo demostrarse que un estimador de σ 2 insesgado se obtiene dividiendo por los grados
de libertad del numerador en lugar de por el número de términos.
Los grados de libertad de dicho numerador es igual al número de términos distintos que esta-
mos sumando menos el número de restricciones que existen entre dichos términos. Las restricciones
que existen entre dichos términos proceden de la utilización de parámetros estimados con los datos.
Por ejemplo, si nos dicen que tenemos cinco número y que su media debe ser 3, y cuatro de esos
cinco números son 2,1,4 y 5, entonces el quinto número está ya determinado. Ese quinto número
es el 3. Tenemos así que dada una media, existe una restricción entre esos cinco números. En el
caso de la suma del numerador en (9.4), las restricciones están en que estamos utilizando medias
muestrales obtenidas con los mismos datos que aparecen en ese numerador en lugar de medias
poblacionales. Por ejemplo, la utilización de μ̂1 en lugar de μ1 equivale a introducir la restricción
1 1
μ̂1 = y11 + · · · + y1n1 . (9.5)
n1 n1
De esta forma, si sólo conociésemos n1 − 1 datos y la media μ̂1 de los n1 datos, podríamos
deducir el valor del dato n1 , pues se debe verificar la expresión (9.5). Por tanto, en el numerador
de (9.4) hay tantas restricciones como parámetros estimados con los datos yij . En nuestro caso, se
utilizan I medias estimadas. El estimador de σ 2 insesgado es, por tanto,
PI Pni 2
2 i=1 j=1 (Yij − μ̂i )
ŜR = .
n−I
Usando las propiedades de la distribución normal puede demostrarse que
n−I 2
Ŝ ∼ χ2(n−I) .
σ2 R
Definimos residuo a la estimación de la perturbación del modelo:

residuo = eij = ûij = Yij − μ̂i = Yij − ȳi. .


2
Según esta notación, al estimador ŜR le llamaremos varianza residual:
PI Pni 2 PI
i=1 j=1 (Yij − μ̂i ) e2ij
2
ŜR = = i=1 ,
n−I n−I
y diremos también que los residuos tiene n − I grados de libertad.

9.4. Análisis de la varianza


9.4.1. Planteamiento del contraste
El análisis de la varianza consiste en un contraste global por el que se contrasta si las medias
poblacionales de todos los grupos μi son todas iguales, o por el contario hay alguna diferente. El
análisis se denomina de la varianza aunque se trate de obtener conclusiones sobre las medias, por
que su mecánica consiste en comparar ciertas varianzas muestrales. Las hipótesis nula y alternativa
del contraste son:

Hipótesis nula: las medias son iguales, o análogamente, el efecto de los tratamientos en la
variable respuesta es el mismo. El factor analizado no es por tanto relevante.
14 Experimentos con un factor

Hipótesis alternativa: no todas son iguales. Basta que una media sea distinta al resto. También
puede expresarse como que no todos los tratamientos producen el mismo efecto. El factor
analizado es por tanto relevante

Esto puede escribirse como:

H0 : μ1 = μ2 = · · · = μI = μ. (9.6)
H1 : H0 es falsa, algún, μr 6= μi .

Como puede verse no es un contraste donde se compare las medias de cada grupo de dos en
dos, sino que es un contraste conjunto. El contraste se basa en comparar la variabilidad de las
observaciones dentro de cada grupo con la variabilidad de las medias muestrales.
Necesitamos ahora un estadístico de contraste que resuma la información de los datos en un
número, y una distribución de referencia que nos diga si dado el valor del estadístico de contraste
tenemos que aceptar o rechazar H0 con un nivel de significación α deseado. Estos elementos se
definen en los siguientes apartados.

9.4.2. Descomposición de la variabilidad


LLamamos variabilidad a la dispersión que presentan los datos. El análisis de esta variabilidad
nos va a proporcionar las herramientas estadísticas para construir el contraste (9.6). Para cada dato
yij puede descomponerse a variabilidad alrededor de la media de todos los datos de la siguiente
forma:

yij − ȳ = (yij − μ̂i ) + (μ̂i − ȳ)


(yij − ȳ)2 = (yij − μ̂i )2 + (μ̂i − ȳ)2 + 2(μ̂i − ȳ)(yij − μ̂i )
X ni
I X ni
I X
X ni
I X
X
(yij − ȳ)2 = (yij − μ̂i )2 + (μ̂i − ȳ)2
i=1 j=1 i=1 j=1 i=1 j=1
ni
I X
X
+2 (μ̂i − ȳ)(yij − μ̂i ),
i=1 j=1

pero se comprueba fácilmente que

X ni
I X I
X ni
X
(μ̂i − ȳ)(yij − μ̂i ) = (μ̂i − ȳ) (yij − μ̂i ) = 0.
i=1 j=1 i=1 j=1
| {z }
es cero

Por tanto
X ni
I X I
X ni
I X
X
(yij − ȳ)2 = ni (μ̂i − ȳ)2 + (yij − μ̂i )2 .
i=1 j=1 i=1 i=1 j=1

Este resultado puede interpretarse en términos de descomposición de la variabilidad observada.


Al primer término le llamaremos variabilidad total (VT), y mide la dispersión general de los
datos alrededor de la media muestral global ȳ. El segundo término (primero a la derecha de la
igualdad) es la variabilidad que existe entre grupos. Es la dispersión debida a que las medias
9.4 Análisis de la varianza 15

de cada grupo son distintas. Es la variabilidad debida al factor. Por esta razón la llamaremos
variabilidad explicada (VE) o entre grupos. Al último término le llamaremos variabilidad no
explicada (VNE), interna o residual. Es la variabilidad observada dentro de cada nivel y que está
provocada por el azar (efecto del resto de factores no controlados). Analíticamente puede escribirse
que,
ni
I X
X
VT = (yij − ȳ)2 ,
i=1 j=1

X ni
I X I
X
VE = (μ̂i − ȳ)2 = ni (μ̂i − ȳ)2 ,
i=1 j=1 i=1

X ni
I X ni
I X
X
V NE = (yij − μ̂i )2 = eij 2 = nŝ2R ,
i=1 j=1 i=1 j=1

V T = V E + V N E.

Corrigiendo por sus respectivos grados de libertad obtendremos estimadores insesgado de var-
ianzas:

La variabilidad explicada (VE) tiene I términos distintos, pero tienen la restricción de que
I
X
ni (μ̂i − ȳ) = 0.
i=1

Por tanto tiene I − 1 grados de libertad. Definimos varianza explicada a:


PI
2 ni (μ̂i − Ȳ )2 VE
Ŝe = i=1 = .
I −1 I −1

La variablidad no explicada tiene n valores distintos, pero tiene I restricciones pues para
cada nivel se verifica que
ni
X
(yij − μ̂i ) = 0.
j=1

Por tanto los grados de libertad son n − I. por eso la varianza no explicada o residual se
define como PI Pni PI
2
i=1 j=1 (Yij − μ̂i ) e2ij V NE
2
ŝR = = i=1 = .
n−I n−I n−I
Finalmente, la variabilidad total tiene n términos distintos y la restricción
ni
I X
X
(Yij − ȳ) = 0.
i=1 j=1

Por tanto tiene n − 1 grados de libertad. La varianza total será:


PI Pni ¡ ¢2
2 i=1 j=1 Yij − Ȳ VT
Ŝy = = .
n−1 n−1
16 Experimentos con un factor

9.4.3. El contraste F
El estadístico de contraste que vamos a utilizar para el contaste (9.6) es
µ ¶
VE
I −1 Ŝe2
F =µ ¶= 2. (9.7)
V NE ŜR
n−I

Puede demostrarse que dadas las condiciones de normalidad y de homogeneidad de la varianza


del error experimental expuestas en (9.3) se tiene que, si H0 es cierta, el estadístico F expuesto en
(9.7) sigue la siguiente distribución
F ∼ FI−1,n−I , (9.8)
donde FI−1,n−I es la distribución F de Fisher. La distribución F de Fisher depende de dos
parámetros g1 y g2 denominados grados de libertad y su notación habitual es Fg1,g2 . El valor de
g1 está relacionado con el numerador de (??) y toma en nuestro contraste el valor g1 = I − 1.
Por esta razón, a g1 también se le denomina grados de libertad del numerador. El valor de
g2 está relacionado con el denominador de (??) y toma el valor g2 = n − I. Por esta razón, a g2
también se le denomina grados de libertad del denominador. La distribución Fg1,g2 es una
variable aleatoria continua no negativa, definida en [0, ∞), y su forma varía dependiendo de los
valores g1 y g2 . Sus valores están tabulados y pueden encontrarse en muchos libros de estadística
y en programas de ordenador. En general, es una distribución unimodal y asimétrica positiva,
disminuyendo la asimetría al aumentar los valores de g1 y g2 . La siguiente figura muestra dos
ejemplos de esta distribución: la F5,10 y la F20,20 .

Dos ejemplos de distribuciones F

Una vez que tenemos el estadístico de contraste F expuesto en (9.7) y su distribución de


referencia (9.8) cuando la hipótesis nula es cierta, necesitamos localizar las regiones de aceptación
y rechazo. Para ello analizaremos el comportamiento del estadístico F . Si H0 es falsa, tendremos
que alguna media será distinta. En ese caso, el comportamiento del denominador del estadístico F
2
(la varianza residual ŜR ) no influye, pues es un promedio de la variabilidad dentro de los grupos
y su valor no depende de si las medias de los grupos son iguales o distintas. Sin embargo, los grupos
tendrán medias distintas entre sí, y ŝ2e tenderá a ser tanto mayor cuanto más diferentes sean las
P
medias, lo que hará aumentar el numerador de ŝ2e : Ii=1 ni (μ̂i − ȳ)2 . En este numerador, si las
9.4 Análisis de la varianza 17

medias poblacionales son iguales se tendrá que μ̂i ≈ ȳ y, por tanto, el término (μ̂i − ȳ)2 no será
muy grande. Por el contrario, ese término será tanto mayor cuanto más diferentes sean las μ̂i de ȳ,
lo que ocurrirá con más facilidad bajo H1 . Por tanto si H0 es falsa, F tenderá a ser muy grande.
La región de rechazo de H0 estará a la izquierda de la distribución FI−1,n−I . Si usamos un nivel
de significación α y denotamos por FI−1,n−I;α al valor de la distribución FI−1,n−I que deja a la
derecha un área α, tendremos que el contraste es:

Rechazamos H0 si F > FI−1,n−I;α


Aceptamos H0 si F ≤ FI−1,n−I;α

La figura 9.4 visualiza este contraste. En esta figura puede verse la región de rechazo a la
derecha del valor crítico. El valor crítico es el valor que deja a la derecha un área igual al nivel
de significación, es decir, es el valor FI−1,n−I;α . Otra forma de determinar si se acepta o rechaza
H0 es mediante la comparación del p-valor con el nivel de significación α. El p-valor es el nivel
de significación que deberíamos tener para que el valor F obtenido con los datos esté justo en la
frontera entre la región de aceptación y rechazo. En el presente contraste, el p-valor será el area
que queda a la derecha del valor de F obtenido con los datos. Si F > FI−1,n−I;α entonces el p-valor
será menor que α. De esta forma, el contraste sería:

Rechazamos H0 si p-valor < α


Aceptamos H0 si p-valor ≥ α.

Para hacer el contraste se suele escribir la información necesaria en la siguiente tabla, llamada
tabla ANOVA o ADEVA.

Fuente de variabilidad Suma de cuadrados Grados de lib ertad Varianzas Estadístico F


PI 2 VE ŝ2
Entre grup os (VE) i=1 ni (μ̂i − ȳ) I −1 ŝ2e = F = 2e ∼ FI−1,n−I
I −1 ŝR
PI Pni V NE
Interna (VNE) i=1 j=1 (yij − μ̂i )2 n−I 2
ŝR =
n−I
PI Pni VT
Total (VT) i=1 j=1 (yij − ȳ)2 n−1 2
ŝy =
n−1
Es usual utilizar como medida de la importancia del factor la proporción de la variabilidad
total (VT) que es debida al factor. Dicha medida se denomina coeficiente de determinación y se
define de la siguiente manera:

VE
R2 = coeficiente de determinación = .
VT
Como V T = V E + V N E puede también escribirse que

V NE
R2 = 1 − .
VT

Ejemplo 3:
18 Experimentos con un factor

Distribución F y conraste ANOVA


0.8

0.7

0.6

0.5 Región de no rechazo Región de rechazo

0.4

0.3

0.2

0.1
α

0
0 1 2 3 4 5 6 7

Figura 9.4:

Con los datos del ejemplo 1 podemos hacer el contraste de igualdad de medias. La hipótesis nula
es que la media del índice de resistencia térmica es la misma con los tres tipos de substrato, es
decir:
H0 : μ1 = μ2 = μ3
y la alternativa será que alguna media es distinta. La tabla ANOVA es (cálculos hechos con el
Statgraphics 4.0):

Fuente de variabilidad Suma de cuadrados Grados de libertad varianzas Estadístico F


Entre grupos (VE) 1273,11 2 636,557 7,14
Interna (VNE) 2229,85 25 89,194
Total (VT) 3502,96 27 129,73

Si utilizamos un nivel de significación del 5 %, tenemos que, mirando las tablas,

F(2,25;0,05) = 3,39 < 7,14

por lo que el valor del estadístico está en la región de rechazo. El p-valor es 0.0035 que es mucho
menor que el nivel de significación. Por tanto rechazamos que las tres medias sean iguales. Hay
por tanto diferencias significativas en la resistencia térmica de los substratos. El coeficiente de
determinación es
1273,11
R2 = = 0,36
3502,96
Luego el tipo de sustrato explica el 36 % de la variabilidad de índice.

El contraste ANOVA se basa en que si H0 es cierta, la varianza del error experimental σ 2


puede estimarse de dos formas alternativas. El estadístico F es, entonces, el ratio entre ambos
estimadores alternativos de σ 2 . Por un lado, una forma de estimar σ 2 es a través de la varianza
9.5 Análisis de las diferencias entre medias 19

de las observaciones dentro de cada nivel. Esto es lo que hace la varianza residual ŝ2R , que es un
promedio ponderado de las varianzas muestrales. Se tiene, por tanto, que

σ̂ 2(1) = ŝ2R ≡ estimador basado en la varianza interna de cada nivel.

Este estimador es válido aunque H0 no sea cierta. Por otro lado, sólo si H0 es cierta, se puede
estimar σ 2 a través de la dispersión de las medias muestrales μ̂1 , ..., μ̂I , alrededor del valor μ, que
representa la media global si H0 es cierta: μ1 = μ2 = · · · = μI = μ. La varianza de una media
muestral genérica es
σ2
Var(μ̂i ) = ,
ni
por tanto h i h i
2 2
σ 2 = ni Var(μ̂i ) = ni E (μ̂i − μ) = E ni (μ̂i − μ) .

El estimador de σ 2 se obtendría, si μ fuese conocido, promediando todos los valores de ni (μ̂i − μ)2
que se tienen:
2 2 2
n1 (μ̂1 − μ) + n2 (μ̂2 − μ) + · · · + nI (μ̂I − μ)
σ̂2 =
I
Como μ es desconocido se estimará con ȳ. Al sustituir μ por ȳ se pierde un grado de libertad,
por lo que el estimador sería:
PI
ni (μ̂i − ȳ)2
σ̂2(2) = i=1 ≡ ŝ2e = estimador basado en la varianza de las medias muestrales.
I −1
que es la varianza explicada definida anteriormente. El estadístico F del contaste es, entonces,

σ̂ 2(2) ŝ2e
F = = .
σ̂ 2(1) ŝ2R

9.5. Análisis de las diferencias entre medias


Si al hacer el contaste F anterior aceptamos (no rechazamos) la hipótesis nula de igualdad de
medias, ya habremos concluido nuestro análisis. Sin embargo, si rechazamos el test F anterior, la
situación se vuelva algo más complicada. Si rechazamos la igualdad de medias, concluiremos que
hay diferencias significativas en alguna de las medias (con nivel de significación α). Sin embargo,
en general, no sabremos qué medias son significativamente diferentes de las demás. Puede ser que
una sola media sea la responsable del resultado o que todas las medias sean diferentes. Necesita-
mos entonces análisis adicionales para extraer conclusiones sobre qué poblaciones (qué niveles del
factor) son diferentes. El análisis descriptivo y gráfico inicial nos puede dar algunas pistas sobre
las diferencias entre los grupos. Sin embargo, necesitaremos realizar contrastes estadísticos para
confirmar las diferencias que veamos en los gráficos. Sin la realización de un contraste no podremos
concluir que las diferencias observadas sean estadísticamente significativas. Es importante re-
saltar que este análisis adicional de comparación de medias se hará sólo si rechazamos la igualdad
de medias.
Realizaremos contrastes para analizar las diferencias entre los diferentes niveles del factor com-
parándolos de dos en dos. En el presente contexto, no resulta muy adecuado realizar el contraste
de diferencia de medias habitual. La razón es la siguiente: Supongamos que queremos realizar con-
trastes de diferencia de medias para los datos del ejemplo 1 empleando un nivel de significación del
20 Experimentos con un factor

5 %. Entonces, si H0 es cierta, cada contraste acertará con una probabilidad del 95 %. El problema
surge porque no desearemos realizar sólo un contraste, sino¡ que ¢ contrastaremos la igualdad de
medias de todos los pares posibles. En general, se realizarán I2 contrastes. En el caso del ejemplo
1 serían 3 contrastes: n
H0 : μ1 = μ2
Contraste 1:
n H1 : μ1 6= μ2
H0 : μ1 = μ3
Contraste 2:
n H1 : μ1 6= μ3
Contraste 3: H0 : μ2 = μ3
H1 : μ2 6= μ3

Si la probabilidad de acertar que H0 es cierta es del 95 % en cada uno y se supone, por sim-
plicidad, que los resultados de los tres contrastes son independientes, la probabilidad de acertar
con los tres simultáneamente es 0.953 = 0,86. Por lo tanto, el nivel de significación de hacer los 3
contrastes es (1 − 0,86)=0.14, que es muy superior al 5 % que estamos suponiendo. Por lo tanto,
las conclusiones que obtengamos están sujetas a un mayor margen de error del que creemos. La
probabilidad de detectar diferencias inexistentes no será del 5 % sino del 14 %. Necesitamos, pues,
¡ ¢
un procedimiento de contrastación que nos asegure que el nivel de significación de hacer los I2
contrastes de igualdad de medias sea, conjuntamente, del 5 %.(o, en general, de cierto valor α pre-
fijado). Este problema de que el nivel de significaión real sea mayor (es decir, peor) que el creemos
se agrava a medida que aumenta el número de niveles del factor. Por ejemplo, si tuviésemos un
experimento en el que se analiza un factor con I = 20 niveles, las comparaciones de dichos niveles
de dos en dos llevarían a realizar 190 contrastes. Si en cada contraste utilizamos un nivel de sig-
nificación del 5 %, estaríamos permitiendo que si los grupos fuesen iguales, 5 de cada 100 veces nos
equivocásemos y concluyésemos que son diferentes. Por tanto, en 190 contrastes tendríamos por
término medio 9.5 contrastes considerados erroneamente significativos. De esta forma, si el número
de contrastes es elevado, la probabilidad de que en alguno nos equivocásemos será muy próxima a
1, mientras que queremos que dicha probabilidad sea pequeña (precisamente α). El razonamiento
es, pues, muy similar al que se hacía antes acerca de la comparación de intervalos de confianza.
A continuación vamos a ver formas diferentes de hacer estos contrastes de diferencias de medias.
Empezaremos recordando cómo se hace un contraste de diferencia de medias utilizando sólamente
la información de las dos poblaciones que se comparan. Seguidamente, veremos procedimientos que
sean más adecuados para el contexto actual.

9.5.1. Contraste de igualdad de medias de dos poblaciones. Método


clásico.
En este apartado se recordará el contraste de igualdad de medias entre dos poblaciones. La
forma general del contraste es la siguiente. Sea una población de media μ1 y varianza σ 2 de la que
se tiene una muestra aleatoria simple de tamaño n1 . De dicha muestra se ha calculado su media
muestral ȳ1 . Sea una segunda población de media μ2 con la misma varianza que la anterior, σ 2 . De
esta población se extrae una muestra de tamaño n2 obteniéndose la media muestral ȳ2 . El problema
consiste en averiguar, a partir de la información de las dos muestras, si las media poblacionales μ1
y μ2 son iguales. La hipótesis nula y alternativa son:

H0 : μ1 = μ2
H1 : μ1 6= μ2
9.5 Análisis de las diferencias entre medias 21

Como se verifica que


E (ȳ2 − ȳ1 ) = E (ȳ2 ) − E(ȳ1 ) = μ2 − μ1
y, por independencia de ambas muestras (no comparten individuos),

σ2 σ2
Var (ȳ2 − ȳ1 ) = Var (ȳ2 ) + Var(ȳ1 ) = + ,
n1 n2
se tiene, bajo normalidad, que
½ µ ¶¾
2 1 1
(ȳ2 − ȳ1 ) ∼ N μ2 − μ1 , σ + .
n1 n2
Estandarizando:
(ȳ2 − ȳ1 ) − (μ2 − μ1 )
r ³ ´ ∼ N (0, 1).
2 1 1
σ n1 + n2

Para realizar el contraste es necesario estimar σ2 . El estimador que se usará es la varianza


muestral, corregida por grados de libertad, empleando tanto las observaciones de la primera mues-
tra (y11 , y12 , ..., y1n1 ) como de la segunda (y21 , y22 , ..., y2n2 ), pues en ambos grupos la varianza
poblacional σ 2 es la misma:
Pn1 2
Pn2 2
2 i=1 (y1i − ȳ1 ) + j=1 (y1j − ȳ1 ) (n1 − 1) ŝ21 + (n2 − 1) ŝ22
ŝT = = ,
n1 + n2 − 2 n1 + n2 − 2
donde ŝ21 y ŝ22 son las estimaciones de las varianzas (corregidas por grados de libertad) de cada
población. Entonces, el estadístico del contraste es
(ȳ2 − ȳ1 ) − (μ2 − μ1 )
r ∼ tn1 +n2 −2 ,
1 1
ŝT +
n1 n2

donde los grados de libertad de la distribución t son los del estimador de la varianza ŝ2T . Por tanto,
si H0 : μ1 = μ2 se tiene que el estadístico que se calcula es
ȳ − ȳ1
t= r2 ∼ tn1 +n2 −2
1 1
ŝT +
n1 n2
y si la hipótesis nula es cierta, se distribuye como una tn1 +n2 −2 . Al ser el contraste bilateral,
se rechaza la hipótesis nula si el valor que se obtiene es demasiado alto o demasiado bajo. Para
determinar las regiones de rechazo se elige un nivel de significación α. Sea tn1 +n2 −2;α/2 el valor que
deja a la derecha un área α/2. Entonces:
Si |t| > tn1 +n2 −2;α/2 ⇒ Se rechaza H0
Si |t| ≤ tn1 +n2 −2;α/2 ⇒ No se rechaza H0

La figura 9.5 visualiza este contraste. Las regiones de rechazo se encuentran para valores del
estadístico muy altos o muy bajos.
Otra forma alternativa de resolver el conrtaste es mediante el uso del p-valor. Como se mencionó
anteriormente, el p-valor es el nivel de significación que deberíamos usar para que el valor del
22 Experimentos con un factor

Distribución t y contraste de igualdad de medias


0.4

0.35

0.3

0.25 Región de
Región Región
de no rechazo de
rechazo rechazo
0.2

0.15

0.1
α/2 α/2
0.05

0
-4 -3 -2 -1 0 1 2 3 4

Figura 9.5:

estadístico de contraste esté justo en la frontera de las zonas de aceptación y rechazo. En el caso
del presente contraste, al ser la H1 bilateral, el pvalor será el area a la derecha de |t| más el area a
la izquierda de −|t|. Entonces
Si p-valor< α ⇒ Se rechaza H0
Si p-valor ≥ α ⇒ No se rechaza H0

Con los datos del ejemplo 1 se desea comparar las medias del índice de resistencia térmica para
los substratos 1 y 2. De los datos de la tabla 9.1 se tiene que (cálculos realizados con el Statgraphics
4.0) ¾
ȳ1 = 36,67; ŝ21 = 103,467 5 × 103,467 + 11 × 55,720
⇒ ŝ2T = = 70,64.
ȳ2 = 45,58; ŝ22 = 55,720 16
El valor del estadístico es
ȳ2 − ȳ1
t= q ¡ ¢ = 2,122
ŝ2T 16 + 12 1

Como t16;0,025 = 2,120 < 2,122 se rechaza, aunque por poco margen, la hipótesis nula de que
ambas medias sean iguales. Se considera, por tanto, que con este procedimiento de contraste, se
detectan diferencias significativas entre ambos tipos de substratos.

Este contraste realizado con los datos del ejemplo 1 es más adecuado que la comparación de
los intervalos de confianza de la Figura 9.1. La comparación de los intervalos de confianza llevarían
a la conclusión de que ambas medias son iguales, pues los intervalos (del 95 % de confianza) se
solapan. Recordemos la expresión general de un intervalo de confianza para la media μ :
µ ¶

IC(1 − α) : μ ∈ ȳ ± tα/2 √ ,
n
9.5 Análisis de las diferencias entre medias 23

donde los grados de libertad de la distribución t son los del estimador ŝ2 . La comparación de
los intervalos de confianza individuales tiene dos desventajas importantes respecto al contraste de
igualdad de dos medias realizado aquí.

En primer lugar, la comparación de intervalos de confianza individuales no tiene en cuenta


que la varianza del error experimental es la misma. De esta forma, cada intervalo utiliza
un estimador de σ 2 (ŝ21 y ŝ22 , respectivamente) calculado con muy pocos datos, en lugar de
usar todos los datos para estimar σ 2 . Esto hace que la distribución t tenga pocos grados
de libertad. Basta echar un vistazo a las tablas de la distribución t de Student para ver
que cuantos menos grados de libertad, el valor correspondiente al área α/2 será mayor,
aumentando innecesariamente la longitud del intervalo de confianza.

En segundo lugar, y tal y como se ha comentado anteriormente, el nivel de significación de


la comparación de intervalos no será α, sino mayor. Tendremos, entonces, un sesgo hacia
rechazar H0 y, por consiguiente, a detectar diferencias inexistentes.

9.5.2. Contraste de igualdad de medias. Método LSD

El método LSD o de la menor diferencia significativa (Least Significant Difference), no es un


procedimiento de contraste múltiple pero utiliza la información disponible más eficientemente que
el procedimiento de contraste de diferencia de medias habitual. Consiste en realizar el contraste
anterior pero usando un estimador de σ 2 basado en toda la información, es decir, en los datos
de todos los grupos y no sólo la información de los grupos que se comparan en el contraste. El
estimador que se emplea es ŝ2R , realizado con los n = n1 + n2 + · · · + nI datos, y los grados de
libertad de la distribución t serán n − I. El estadístico de contraste es:

Ȳ − Ȳ1
t= q2 ,
ŝR n11 + n12

y si H0 :μ1 = μ2 es cierta se distribuirá como una tn−I . Este procedimiento será más fiable, en el
sentido de que le resulta más fácil detectar diferencias que con el método clásico, la razón es que
estamos utilizando un mejor esti ador de σ 2 . ¿Y cómo sabe el método que el estimador es mejor?,
pues precisamente a través de los grados de libertad de la distribución t de Student de referencia.
Los grados de libertad de la distribución t es el valor del denominador del estimador de σ2 que
estemos utilizando. Por tanto, a mayor número de datos utilizado en la estimación de σ 2 podemos
utilizar una distribución t de más grados de libertad. ¿Y qué ventaja tiene el poder utilizar una
distribución t de más grados de libertad?. Pues que los valores críticos tα/2 serán más pequeños, y
será más fácil distiguir diferencias significativas. La figura siguiente ilustra la diferencia entre dos
distribuciones t, una con pocos grados de libertad (t2 ) y otra con muchos (t200 ). En esta figura
puede verse que a mayor número de grados de lbertad, la parte de los extremos de la distribución es
más estrecha, y la parte central es más alta. Por consiguiente, el intervalo que tenga una confianza
de, por ejemplo, el 95 % será más estrecho. Por tanto, los valores críticos son más pequeños cuanto
mayor sean los grados de libertad. Esto puede verse claramente en esta figura, donde se aprecia
24 Experimentos con un factor

que al utilizar α = 0,05 resulta t200;α/2 << t2;α/2 .

Nótese que este método LSD basado en ŝ2R precisa que las varianzas poblacionales dentro de
cada nivel sean iguales, lo cual será algo que habrá que comprobar en los datos. A la comprobación
de las hipótesis del modelo (igualad de varianza del error experimental y normalidad del error
experimental) se le llama diagnosis, y se estudiará más adelante.

Si realizamos el contraste de medias por el método LSD se obtiene que, al ser ŝ2R =89.194,
ȳ2 − ȳ1
t= r ³ ´ = 1,89.
ŝ2R n11 + 1
n2

Como t25;0,025 = 2,06 > 1,89, nos encontramos en la región de NO rechazo. Por tanto, y a difer-
encia de la conclusión obtenida con el contrastre de diferencia de medias clásico, no se detectan
diferencias significativas entre la resitencia térmica de ambos substratos. Como este contraste es
más preciso que el anterior, esta conclusión es más convincente

Este procedimiento es más recomendable que el clásico para comparar sólo dos grupos. No
obstante, para contrastes múltiples no es adecuado, pues, como ya se ha explicado arriba, el nivel
de significación puede ser mucho mayor que α. Es recomendable únicamente cuando el contraste
ANOVA es significativo y existen dudas sobre la diferencia entre dos niveles.

9.5.3. Contrastes múltiples de igualdad de pares de medias


En esta sección se comenta brevemente algunos procedimientos empleados para la realización
de múltiples contrastes de igualdad de medias. El objetivo de estos procedimientos es asegurar que
el nivel de significación conjunto sea cierto valor prefijado α. Por ejemplo, del 5 %.
9.5 Análisis de las diferencias entre medias 25

Método de Bonferroni
Es el método más sencillo, pero no el más adecuado. Si el número de comparaciones es muy alto,
este procedimiento es poco potente. Es decir, es necesario que las diferencias entre las medias sean
grandes para que sean detectadas. En este sentido se dice que es un procedimiento conservador,
pues tiende a favorecer a H0 . Es un método que para evitar detectar diferencias inexistentes tiene
un sesgo a no detectarlas cuando realmente existen. La idea es la siguiente: se desea saber el nivel
de significación α0 para cada contraste individual de forma que, conjuntamente, estemos utilizando
un nivel de significación máximo de αT . Es decir, que la probabilidad de que los contrastes detecten
que las medias son iguales cuando realmente lo son sea, como mucho, ¡ ¢ αT . Si se tienen I niveles y
se hacen todos los contrastes posibles se realizará un total de m = I2 contrastes diferentes. Si un
contraste tiene nivel de significación α0 , entonces:
P (Detectar diferencias cuando no las hay) = P (concluir que H0 es falsa|H0 es cierta) = α0 .
Llamemos Ci al suceso anterior en una comparación genérica (i = 1, 2, ...m); es decir: Ci = por
azar de la muestra, cometemos el error de detectar, en la comparación í-ésima, una diferencia de
medias que no existe realmente. La probabilidad de que en todas las comparaciones detectemos
diferencias inexistentes será (utilizando que P (A + B) = P (A) + P (B) − P (AB) ≤ P (A) + P (B)):
P (C1 + C2 + · · · + Cm ) ≤ P (C1 ) + P (C2 ) + · · · + P (Cm ) = mα0 = αT
Por tanto,
αT
α0 = .
m
¡3¢
Por ejemplo, si I = 3 hay 2 = 3 comparaciones entre pares de medias. Si queremos que el
nivel de significación conjunto sea del 5 %, tendremos que realizar los contrastes individuales con
el metodo LSD, pero utilizando un nivel de significación
0,05
α0 = = 0,0167.
3
El valor crítico será, por tanto, tn−I;α0 /2 . Como se ha dicho antes, este método es bastante
conservador, en el sentido de que el nivel de significación conjunto que se maneja realmente αR
será menor o igual que αT . Podemos decir, entonces, que el método de Bonferroni asegura que el
nivel de significación conjunto es como máximo αT .

Método de Scheffé
Supongamos que¡ ¢ etamos interesados en todos los contrastes de diferencias de medias entre I
grupos distintos ( I2 contrastes). Utilizaremos, para contrastar cada diferencia de medias, el mismo
estadístico que con el método LSD. Por ejemplo, para contrastar si el nivel 1 y el nivel 2 tienen
medias distintas en la variable respuesta calcularemos con los datos disponibles el estadístico
Ȳ − Ȳ1
t= r2 .
1 1
ŝR +
n1 n2
La diferencia respecto al metodo LSD es que en lugar de usar como valor crítico a tn−I;α/2 se usa:
q
c = (I − 1)FI−1;n−I;α .
26 Experimentos con un factor

Este valor crítico es siempre no nulo. Por tanto se rechazará la hipótesis nula H0 : μ1 = μ2 si

|t| > c.
p
Puede comprobarse que para I = 1 este contraste coincide con el método LSD ( F1;n−I;α =
tn−I;α/2 ). Este procedimiento supone que al analista le interesan todas las comparaciones entre
pares de tratamientos. Es, pues, el caso opuesto al método LSD, que era adecuado si sólo nos
interesaba hacer un único contraste. El método de Scheffé, por tanto, puede ser, al igual que el
método de Bonferroni, muy conservador en aquellos casos en que el interés está en un número
reducido de contrastes.

Otros procedimientos
Existen otros procedimientos para realizar contrastes múltiples que tienen una mayor eficacia
que los anteriores. Es decir, el nivel de significación real no es tan elevado como con el método
LSD ni tan bajo como con el método de Bonferroni, (o el método de Scheffé si no se realizan todos
los contrastes posibles). Estos procedimientos son computacionalmente más costosos y requieren
tablas específicas. Los más empleados son

Método de Duncan: basado en la comparación de las diferencias de medias con unas tablas
que dependen del número de comparaciones que se realizan. Es un procedimiento muy eficaz.

Método de Newman-Keuls: más conservador que el método de Duncan. El procedimiento


es similar al de Duncan. Las tablas que se emplean son distintas y están basadas en los
denominados rangos estudentizados.

Método de Tukey: este procedimiento detecta que dos medias son estadísticamente difer-
entes si su diferencia en valor absoluto, estandarizada, es mayor que cierto valor crítico que
puede encontrarse en unas tablas (tablas de rangos estudentizados). Es también más conser-
vador que el procedimiento de Duncan.
Estos tres procedimientos son muy utilizados y están incluidos en la mayoría de las aplica-
ciones informáticas, por lo que su utilización es sencilla.

Con los datos del ejemplo 1 vamos a realizar contrastes múltiples de igualdad de medias para
las tres posibles comparaciones. El nivel de significación conjunto es αT = 0,05. Los tres contrastes
son: (1)μ1 = μ2 ; (2)μ1 = μ3 ; y (3)μ2 = μ3 . La información que proporciona el Statgraphics 4.0 es
la siguiente (multiple range tests):

Método de Duncan:

Este método detecta que sólo μ1 6= μ3 .


9.5 Análisis de las diferencias entre medias 27

Método LSD:

Este método detecta que μ1 6= μ3 y también μ2 6= μ3 . Este método es menos fiable que el
anterior. El nivel de significación conjunto que realmente se está usando es menor que αT
(en cada contraste el nivel de significación es αT .), por lo que los intervalos de confianza que
se han construido son más estrechos de lo que deberían ser. Esto puede explicar que este
procedimiento detecte que μ2 6= μ3 mientras que el anterior no lo detectaba.

Método de Bonferroni:

Este procedimiento utiliza un nivel de confianza conjunto máximo de αT . El nivel de confianza


individual será
αT
α0 = ,
3

por eso los intervalos son más amplios que en el caso anterior. Este método sólo encuentra
significativa la diferencia entre μ1 y μ3 .

Método de Scheffé:

Este procedimiento también encuentra que sólo μ1 6= μ3 .

Método de Newman-Keuls:
28 Experimentos con un factor

Este método es más conservador que el de Duncan. Sin embargo se obtiene el mismo resultado,
lo que refuerza la validez de las conclusiones.

Método de Tukey:

Este procedimiento es similar al anterior, y las conclusiones son las mismas.

Todos los procedimientos, excepto el LSD ofrecen las mismas conclusiones. Puesto que el LSD no
es verdaderamente un contaste múltiple asumiremos como definitiva la conclusión de que μ1 6= μ3
y que tal vez con más datos se podría concluir que μ2 6= μ3 de forma más clara. A efectos prácticos,
los datos recomendarían la utilización del substrato tipo3 (resina epoxídica).
Como resumen de lo dicho anteriormente ¡podemos
¢ decir que para comparar I grupos con un
nivel de significación total α realizaremos m = I2 contrastes individuales en los que contrastaremos
todos los grupos de dos en dos. El contraste individual que compare el grupo i-ésimo con el j-ésimo
será

H0 : μi = μj ,
H1 : μi =
6 μj ;

y el estadístico de contraste será


ȳ − ȳj
t= qi ,
ŝR n1i + 1
nj

Rechazaremos H0 si
|t| > t∗α0 /2 (9.9)

donde t∗α0 /2 es el valor de una distribución t de Student con los mismos grados de libertad que
el estimador ŝ2R , y el nivel de significación individual α0 ha sido obtenido mediante algún proced-
imiento de contrastes múltiples tales como Bonferroni, para un nivel de significación conjunto α
prefijado por el experimentador.
9.6 Diagnosis 29

9.5.4. Intervalos de confianza


Este valor t∗ mencionado en (9.9) puede también ser utilizado para realizar intervalos de confi-
anza individuales tanto para ser utilizados para predecir la media de un grupo como para comparar
grupos. En el caso en que quisiésemos un intervalo de confianza para el grupo i-ésimo podemos
mejorar el intervalo expresado en (9.1) utilizando ŝ2R en lugar de ŝ2i . El intervalo para μi de nivel
de confianza (1-α) será ½ ¾
∗ ŝR
μi ∈ ȳi ± tα/2 √ , (9.10)
ni
donde t∗α/2 es el valor de una distribución t de Student con los mismos grados de libertad que
el estimador ŝ2R . Si nuestro interés es en construir intervalos que puedan ser comparados entre sí
como si estuviésemos realizando contrastes, utilizaremos el intervalo
½ ¾
ŝR
μi ∈ ȳi ± t∗α0 /2 √ ,
ni
donde α0 ha sido obtenido mediante algún procedimiento de contrastes múltiples tales como Bon-
ferroni, para un nivel de confianza (1 − α) prefijado por el experimentador.

9.6. Diagnosis
La diagnosis es una etapa del análisis de la varianza que consiste en comprobar que se cumplen
las hipótesis del modelo. Estas hipótesis son:

uij se distribuye de forma normal con media cero y varianza constante uij ∼ N (0, σ 2 )
las variables aleatorias uij son independientes

Esta etapa del análisis es muy importante, pues de no cumplirse las hipótesis en las que se basa
el modelo, las conclusiones podrían ser eróneas. El error experimental es

uij = yij − μi .

Como μi es desconocido, la variable uij será inobservable. Lo único que se tiene es una esti-
mación de μi , que es la media muestral en cada grupo: μ̂i = ȳi . Lo que se tiene entonces es una
estimación del error experimental, y que recibe el nombre de residuo:

residuo ≡ eij = yij − μ̂i .

El objetivo es comprobar que los residuos tiene propiedades similares a las que deberían tener
los términos de error. El primer paso para realizar la diagnosis será, por tanto, calcular los residuos
en cada punto. Con estos residuos realizaremos los siguientes análisis.

Normalidad:
Siempre es aconsejable hacer un histograma para ver si los residuos se alejan mucho de la
normalidad. También podemos hacer los contrastes de normalidad habituales que se encuentran
en todas las aplicaciones informáticas (χ2 o Kolmogorov-Smirnov). Como en cualquier contraste,
bastará comprobar que el p-valor es mayor que el nivel de significación para aceptar la hipótesis
nula de normalidad.
30 Experimentos con un factor

Media cero y varianza constante:


Para analizar estos supuestos se hará un gráfico de residuos frente a valores previstos. Los
valores previstos son, para cada nivel, la media muestral μ̂i . Este gráfico es similar al de los datos
originales pero todos los niveles tendrán media cero y están ordenados de menor a mayor valor
medio de la variable respuesta. Si se cumplen las hipótesis del modelo, este gráfico no debería
tener ningún patrón claro: fuertes curvaturas, crecimientos o decrecimientos de variabilidad. Por
ejemplo, para los datos del ejemplo 1, el gráfico de residuos frente a valores previstos se muestra
en la Figura 9.6.

Residuos del índice de resistencia térmica


22

12
Residuos

-8

-18
36 40 44 48 52 56
Valores previstos (medias muestrales)

Figura 9.6: Valores previstos y residuos. Datos del ejemplo 1

En la figura 9.6 los datos de la izquierda corresponden al nivel que tiene menor valor medio
del índice, que coresponde con el substrato tipo 1; a continuación están los datos del nivel que
tiene mayor valor medio y que corresponde al substrato tipo 2; a la derecha están los datos que
corresponden con el nivel de mayor valor medio y que son los del substrato tipo 3. Si las hipótesis
del modelo se cumplen, este gráfico no debería tener ningún tipo de estructura. En este caso no
se detecta ninguna estructura en los datos. La figura 9.7 muestra el gráfico de residuos frente a
valores previstos con los datos del ejemplo 2.
En este caso se observa un patrón creciente de la variabilidad, lo que viola una de las hipótesis
del modelo. Además, se ve que la variabilidad es creciente con el valor medio de la variable. Los
niveles que tienen medias más bajas (memorias tipo 3 y 4) tienen menos variabilidad que los
niveles de mayor valor medio (memorias tipo 1 y 2). Este efecto ya se veía en la Figura 9.3 con
los datos iniciales. Este efecto es muy frecuente en la práctica y ocurre cuando los errores
son proporcionales a la magnitud. El patrón que se ve en el gráfico es como un embudo que se
ensancha de derecha a izquierda. Matemáticamente, este efecto equivale a una represenación en la
que el modelo no es aditivo sino multiplicativo, es decir:
yij = μi × uij (9.11)
y, por tanto
Var(yij )=μ2i σ 2
y niveles de mayor valor medio aparecen con mayor variabilidad. Por tanto, el modelo aditivo que
se está suponiendo,
yij = μi + uij ,
9.6 Diagnosis 31

Residuos del Tiempo de ejecución


46

26
Residuos
6

-14

-34
50 70 90 110 130 150 170
Valores previstos (medias muestrales)

Figura 9.7: Residuos frente a valores previstos. Datos del ejemplo 2.

Datos originales en logaritmos Residuos del Logaritmo del tiempo de ejecución


5,3 0,29
5
log(Tiempo)

0,19
Residuos

4,7 0,09

4,4 -0,01

4,1 -0,11

3,8 -0,21
1 2 3 4 3,9 4,1 4,3 4,5 4,7 4,9 5,1
Valores previstos (medias muestrales)
Tipo de memoria

Figura 9.8: Datos del ejemplo 2 en logaritmos

no sería correcto. Un gráfico del tipo 9.3 o unos residuos con el aspecto del la Figura 9.7 sugieren,
entonces, que el modelo aditivo no es correcto y que el modelo multiplicativo (9.11) sería más
adecuado. Una solución sencilla y que tiene muy buen resulado en la práctica, es la linealización
del modelo (9.11) mediante una transformación logarítmica (sumando cierta constante si hubiese
valores negativos). Entonces, el análisis se realizaría sobre la variable yij = ln(yij ). El modelo sería:

yij = ln(μi × uij ) = ln(μi ) + ln(uij ) ≡ mi + vij . (9.12)

Por ejemplo, si en lugar de analizar el tiempo de ejecución se analizase su logaritmo se tendrían


los datos y los residuos frente a valores previstos de la Figura 9.8.
En esta figura puede verse que la variabilidad es más estable y que las hipótesis del modelo
se cumplen. Otra forma de detectar este efecto de variabilidad creciente con la magnitud de la
variable es a través de una asimetría positiva de la distribución de los residuos. Como es sabido,
una transformación logarítmica ayudaría a corregir este tipo de asimetría.
Las aplicaciones informáticas suelen añadir algún contraste de homogeneidad de varianzas. Su
hipótesis nula es la igualdad, por lo que si su p-valor es muy bajo deberemos cuncluir que las
varianzas son diferentes. En general, estos contrastes de varianza son muy sensibles a la falta de
normalidad, por lo que pequeños alejamientos de la normalidad pueden darnos resultados equiv-
32 Experimentos con un factor

ocados. Por el contrario el test F es aún fiable ante pequeñas desviaciones de normalidad (más
que los tests de igualdad de varianzas) así como pequeñas desviaciones de igualdad de varianzas.
Por tanto, muchos autores no recomiendan confiar en dichos contrastes de igualdad de varianzas
como requisito previo para hacer el test F (esos contrastes son interesantes, pero en otros proble-
mas estadísticos). Suele recomendarse la siguiente regla informal: si la mayor desviación típica
muestral no supera al doble de la menor, podemos utilizar los métodos basados en la
hipótesis de igualdad de varianzas y los resultados ser aún bastante precisos.

Independencia:
El error experimental uij no será independiente si a lo largo del transcurso del experimento
cambian lentamente las condiciones de experimentación. Por ejemplo, supongamos que el exper-
imento del ejemplo 1 se realiza de la siguiente manera: en primer lugar se colocan en el horno
de pruebas todas las placas de substrato 1 y se anotan los resultados. Después se extraen dichas
placas y se repite el experimento con todas las placas de tipo 2 y, finalmente, se vuelve a repetir
con las placas de tipo3. De esta forma, si las condiciones del horno no son estacionarias, parte
de la variabilidad puede deberse a las condiciones del horno, que evolucionan con el tiempo, y no
al tipo de substrato. El análisis de la independencia es, en general, complicado. Por esa razón,
el experimento debe diseñarse de manera que dicha independencia pueda asegurarse ya desde el
comienzo. Por ejemplo, para evitar que el estado transitorio del horno afecte a la interpretación
de los resultados, puede aleatorizarse el orden en que las distintas placas se colocan en el horno.
Una forma sencilla de comprobar la independencia es hacer un gráfico de residuos ordenados en la
misma secuencia temporal en que se obtuvieron. Si existe dependencia se observará una tendencia
en la evolución temporal de los residuos.

OBJETIVOS DE APRENDIZAJE

Al finalizar este tema el alumno debe ser capaz de:


Entender la diferencia entre un estudio observacional y un experimento
Entender que en un experimento pueden extraerse conclusiones de causa-efecto
Escribir un modelo que explique la variabilidad de la media de una variable aleatoria en
función de los niveles de un factor
Entender la descomposición de la variabilidad y realizar una tabla ANOVA con un factor
Hacer el test F de análisis de la varianza e interpretarlo
Comprobar a partir de los datos que se cumplen las hipótesis del modelo para poder realizar
el test F
Realizar comparaciones de varios grupos mediante intervalos de confianza múltiples
Realizar transformaciones que corrijan heterocedasticidad
Aplicar ANOVA a un conjunto de datos reales obtenidos por el alumno mediante experi-
mentación y sacar conclusiones prácticas

También podría gustarte