Cap Un Factor
Cap Un Factor
0 Apuntes realzados por el Profesor Ismael Sánchez para la asignatura: Métodos Estadísticos para la Mejora de
1
2 Experimentos con un factor
grande de factores a analizar y se piensa que sólo un numero reducido de los mismos serán
realmente importante, un experimento de selección de factores puede ayudarnos a discriminar
las variables importantes de las poco relevantes. Nótese que el objetivo no es saber en qué
medida o de qué forma influyen los factgores, sino sólo si influyen o no. En este tipo de
estudios, y puesto que se manejan muchos factores, suele existir una importante restricción
económica, por lo que el énfasis se pondrá en la obtención de conclusiones a partir del
menor número de datos posible. Una vez reconocidas las variables importantes, puede
ampliarse la toma de datos concentrándose sólo en dichos factores significativos. Por esta
razón, los factores que se introducen en este estudio de selección suelen tomar muy pocos
valores distintos, siendo lo más habitual el que tomen sólo dos posibles valores (con/sin cierto
atributo, nivel alto/nivel bajo del factor, etc).
Superficies de respuesta: Una vez que se han identificado los factores que ejercen un efecto
sifgnificativo en la variable respuesta, la siguiente tarea es analizar cómo es esa relación, espe-
cialmente si los factores son variables continuas. Para ello se toma un mayor número de datos
y se estima la función matemática que mejor aproxime dicha relación. A esta relación entre
los factores y la variabe respuesta se suele denominar superficie de respuesta. Normalmente
el análisis consiste en estimar funciones lineales o cuadráticas.
Datos observacionales: Son los datos que se recogen de forma pasiva. Simplemente obser-
vamos un proceso o a un conjunto de individuos y esperamos a que se genere la información.
Las principales características de los datos observacionales son:
Por ejemplo, cuando se realiza la inspección de artículos manufacturados para ver si son o no
defectuosos se toman datos observacionales: se toman artículos al azar y se miden las carac-
terísticas de interés. El hecho de que sean datos observacionales hace que sea difícil encontrar
las razones de por qué un artículo es defectuoso o no. Si hemos tomado información de otras
4 Experimentos con un factor
Datos experimentales: Son aquellos cuyo valor los fija el experimentador. El analista ma-
nipula deliberadamente los valores del factor con el fin de poder establecer una relación
de causalidad entre dicho factor y la variable respuesta. El analista también consigue de
esta forma aquellos valores en los que está interesado. La principal ventaja de los datos ex-
perimentales es que es más fácil establecer relaciones de causalidad entre las variables, pues
el analista puede observar la evolución de los resultados a medida que va manipulando los
factores. La capacidad de poder elegir los valores de las variables que interesen hace que se
necesiten menos datos para sacar conclusiones que si se usase datos observacionales. Hay por
tanto una clara ventaja económica en este tipo de datos. La necesidad de economizar
a la hora de recoger datos es muy importante en ingeniería, pues los costes de manipular
procesos industriales o realizar ensayos de laboratorio pueden ser muy elevados. Otra ventaja
de los datos experimenales es que permiten provocar situaciones de interés que difícimente
puedan observarse en la realidad o que se precise de demasiado tiempo de observación. A
veces, un experimento será la única forma de obtener información, como sucede en el diseño
de nuevos productos o modificaciones en el diseño de productos existentes. De nuevo, este
tipo de situaciones son las que interesan en ingeniería.
Ejemplo 1:
Se desea saber si el material utilizado (factor) en el substrato de unas placas de circuito im-
preso influye en la resistencia a la temperatura (variable respuesta). Para ello se poseen placas de
diferentes materiales (niveles):
Polietafluoretileno: 12 unidades
Resina epoxídica: 10 unidades
Puede verse en la Tabla 9.1 del ejemplo 1 que apenas hay valores iguales, incluso dentro de un
mismo tipo de material. Esta disparidad de valores puede expresarse en términos de variablidad.
El índice de resistencia a la temperatura no es constante, sino que tiene variabilidad. Las causas
de dicha variabilidad pueden ser muchas:
6 Experimentos con un factor
Puede que los hornos que se utilizan en el experimento nunca alcancen exactamente la misma
temperatura.
La ubicación de las placas en el horno podría tener alguna influencia debido a efectos de
convección de aire.
El objetivo del análisis será averiguar si parte de esa variabilidad puede atribuirse al tipo de
substrato. Si conseguimos concluir que no todos los substratos son iguales, habrá que averiguar
cuál, o cuáles, de ellos tiene ventaja significativa.
Ejemplo 2:
RAM no volátil de 16.384 ×1 bits (combina RAM estáticas y PROM borrables eléctricamente)
(NVRAM-1)
fiabilidad y mantenimiento necesario) para decidir el tipo de memoria. Para cada tipo de memoria
se poseen 10 pastillas que se prueban con el mismo multiplexor. Los tiempos totales de ejecución
para cada pastilla (en segundos) se encuentran en la tabla 9.2.
Al igual que en el ejemplo 1, los tiempos de ejecución del protocolo son distintos incluso dentro
de cada tipo de memoria. El tiempo de ejecución tiene, por tanto, variabilidad. Dicha variabilidad
estará originada por muchos factores, aparte del tipo de memoria empleada:
Incluso siendo del mismo fabricante, las pastillas no serán iguales debido a la variabilidad
intrínseca del proceso de producción.
El objetivo del análisis será detectar si una parte significativa de dicha variabilidad viene ex-
plicada por el tipo de memoria. En caso afirmativo, habrá que detectar si algún tipo de memoria
es significativamente mejor.
Comencemos con un análisis descriptivo de los datos. La Figura 9.1 representa la información
del ejemplo 1. ¿Qué sugieren estos gráficos? A simple vista, en lo que nos fijamos para comparar los
tres niveles del factor es en sus valores medios, es decir, en sus medias muestrales. Será precisamente
esta idea de comparar los grupos mediante la comparación de sus medias el fundamento de nuestro
análisis estadístico. Vemos en ambos gráficos que el nivel medio en esta muestra de datos es
diferente. Parece que, en promedio, y en esta muestra, el substrato 3 tiene mayor valor medio
que el substrato 2 y, a su vez, mayor que el substrato 1. En el gráfico box-plot puede verse que
las medias muestrales son distintas (cruces). Pero nuestro interés no está en detectar diferencias
en las medias de estas placas concretas, sino en las medias de las placas que se puedan usar en el
8 Experimentos con un factor
63 63
53 53
43 43
33 33
23 23
1 2 3 1 2 3
Tipo de Substrato Substrato
Figura 9.1: Indice de resistencia térmica para cada tipo de substrato. Datos del ejemplo 1
futuro. En términos más estadísticos, el interés está en saber si las medias poblacionales son
diferentes, mientras que lo que vemos son sólo las medias muestrales. Estas medias muestrales
no implican necesariamente que las medias poblacionales (las obtenidas con infinitas placas) sean
diferentes, pues el valor de la media muestral depende del azar de la muestreo, es decir, de las
placas concretas que hayamos seleccionado por azar.
Puede decirse entonces que el índice de resistencia térmica de cada substrato es una variable
aleatoria que varía, para un mismo substrato, de placa en placa. La media poblacional en cada
placa será un parámetro desconocido y lo que tenemos es sólo una estimación de dicha media
(media muestral). El inferir cuánto valdrá una media poblacional μ a partir de una media muestral
ȳ es un problema que ya ha resuelto la estadística satisfactoriamente, y que has estudiado en
cursos anteriores de estadística. Por ejemplo, si sabemos que una variable aleatoria Y es normal,
Y ∼ N (μ, σ2 ) su media muestral, Ȳ , en una muestra de tamaño n variará de unas muestra a otras,
pero lo hará según la distribución Ȳ ∼ N (μ, σ 2 /n). Sabemos además que si n es grande (n>50) ni
siquiera es necesario que Y sea normal para seguir utilizando que Ȳ ∼ N (μ, σ2 /n). De esta forma,
aunque Ȳ varíe de muestra en muestra sabemos mucho sobre sus valores posibles. Concretamente,
somos capaces de dar un intervalo de confianza que contendrá a μ con una confianza dada 1 − α.
La Figura 9.2 muestra los intervalos de confianza al 95 % para las medias poblacionales de cada
tipo de sustrato. Estos intervalos están calculados mediante la formulación habitual, usando la
expresión ½ ¾
ŝi
μi ∈ ȳi ± tni −1;α/2 √ , (9.1)
ni
donde μi es la media poblacional del índice de temperatura en el substrato de tipo i-ésimo, ȳi es la
media muestral de los índices de temperatura observados con el substrato i-ésimo, ni es el número
de observaciones de ese tipo de substrato, y ŝi es la desviación típica muestral (corregida por grados
de libertad, es decir, dividiendo por ni − 1) obtenida con los datos. El término tni −1;α/2 es el valor
de la distribución t de Student de ni−1 grados de libertad, que deja el área α/2 a la derecha. El uso
de esta distribución está limitado al caso en que Y sea normal. En caso contrario sólo podremos
hacer el intervalo (9.1) para muestras grandes, y usaremos za/2 en lugar de tni −1;α/2 . El intervalo
(9.1) consituye una región en la que se encuentra la media verdadera μi con una confianza de
100 × (1 − α) %.
Al observar estos intervalos de confianza, las diferencias entre cada tipo de substrato ya no
parecen tan claras. Lo más palpable sea tal vez la diferencia entre los substratos 1 y 3. Es necesario
hacer una advertencia: la comparación de estos intervalos tal y como lo estamos haciendo
9.1 Introducción al diseño de experimentos 9
45
35
25
1 2 3
Substrato
ahora, es decir, viendo si se solapan o no, no es correcta. Aunque cada intervalo por sepa-
rado es correcto, hay varias razones que hacen que la comparación de estos intervalos sea poco re-
comendable. No obstante, más adelante veremos que mediante algunos cambios es posible construir
intervalos de confianza que sí permitan su comparación y podamos sacar conclusiones. El motivo
principal es que si bien cada intervalo tiene una confianza del 95 % de contener a su respectiva
media poblacional, la confianza de que los tres tengan a sus respectivas medias simultaneamente
tendrá una confianza menor, pues son tres sucesos que han de observarse simultaneamente, lo cual
es más difícil de observar que cada suceso por separado. Veámoslo numéricamente: si los intervalos
para las medias en cada substrato son de un nivel de confianza del 95 % se tendrá que,
Sin embargo, conjuntamente este nivel de confianza se pierde, pues la probabilidad conjunta de
que la primera media esté en el primer intervalo Y, además, que lo esté la segunda es su intervalo Y,
además, que la tercera media se encuentre en su respectivo intervalo, ya no es del 95 %. Suponendo
por ejemplo que esos tres sucesos son independientes tendríamos que
Luego la región formada por los tres intervalos tiene una confianza del 85 % y no del 95 %. Este
resultado ilustra que estos intervalos de confianza individuales no son apropiados para hacer com-
paraciones, pues las conclusiones que tomemos tendrán un grado de confianza menor del que
creemos que estamos manejando. Es necesario, introducir técnicas estadísticas más apropiadas que
aseguren que las conclusiones tengan un nivel de confianza prefijado. Similares conclusiones pueden
hacerse a la vista de los datos del ejemplo 2 (Figura 9.3).
La variable respuesta de interés es una variable aleatoria que dependerá de muchos factores,
entre ellos el factor que se controla en el experimento.
10 Experimentos con un factor
Scatterplot by Level Code Means and 95,0 Percent Confidence Intervals (internal s)
Tiempo de ejecución
200 170
160 150
130
Tiempo
120
110
80
90
40 70
0 50
1 2 3 4 1 2 3 4
Tipo de Memoria Memoria
Figura 9.3: Tiempo de ejecución. Datos e intervalos de confianza Datos del ejemplo 2
Ejercicios:
9.2. El modelo
Sea Y la variable de interés, por ejemplo el índice de resistencia a la temperatura de las placas
de circuitos impresos o el tiempo de ejecución de un conjunto de tareas para un multiplexor.
Supongamos un factor principal que puede afectar al valor de la variable Y. Por ejemplo, el tipo de
substrato del circuito impreso o el tipo de memoria fija del multiplexor. El factor toma I niveles.
Para cada nivel i, i=1,2,...,I se poseen ni observaciones. Los valores de la variable Y se denotan
por Yij : valor de Y para el individuo j-ésimo (j=1,2,...,ni ) del nivel i-ésimo. Para el ejemplo 1, el
factor tiene 3 niveles (I=3) y los tamaños muestrales son n1 = 6; n2 = 12; n3 = 10. Para el ejemplo
2, el factor tiene 4 niveles y todos los tamaños muestrales son iguales: n1 = n2 = n3 = n4 = 10.
La variable Yij es una variable aleatoria. Su variabilidad depende de muchas causas. El modelo
estadístico para describir esa variable aleatoria viene inspirado de las figuras anteriores. Por ejemp-
lo, en las figuras 9.1 y 9.3 puede verse que cada nivel del factor (cada tipo de substrato, o cada tipo
de memoria) equivale a un nivel medio distinto de yij , o potencialmente distinto. Supondremos,
entonces, que el valor medio viene determinado por el nivel del factor principal, es decir:
E(Yij |i) = μi , i = 1, 2, ..., I.
Dentro de cada nivel, existe variabilidad en Yij . Esta variabilidad es debida al resto de los
factores que no se controlan y que, en general, serán muchos. Se supondrá, además que dichos
factores no controlados afectan de forma homogénea, o similar, en todo el experimento y por tanto
su efecto tiene las mismas propiedades estadísticas en cada uno de los niveles del factor principal.
Una hipótesis razonable es que ese conjunto de factores no controlados puedan englobarse en una
variable aleatoria normal (por aplicación del teorema central del límite). Por tanto, la variable
aleatoria Yij puede modelizarse como
Yij = μi + uij , (9.2)
donde uij engloba el efecto de todos los demás factores y que hacen que, para un nivel dado, la
variable Yij fluctúe alrededor del valor medio. Según lo dicho anteriormente, uij tendrá las mismas
propiedades en todos los niveles. Por tanto:
uij ∼ N (0, σ 2 ), i = 1, 2, ..., I; j = 1, 2, ..., ni . (9.3)
Entonces,
Yij ∼ N (μi , σ2 ), .i = 1, .., I
Supondremos, además, que las variables aleatorias uij , son independientes. Puesto que un exper-
imento es tanto mejor cuanto más control se tenga sobre los factores, al efecto de los factores no
controlados, uij , se le suele denominar error experimental o perturbación aleatoria. Cuando no
controlamos el valor que tomará un factor, diremos que su valor depende del azar. Por eso, al
término uij se ledice que es causado por el azar.
12 Experimentos con un factor
I medias μ1 , ..., μI
la varianza σ 2 .
E(μ̂i ) = μi ,
σ2
V ar(μ̂i ) = ,
ni
y si hay normalidad µ ¶
σ2
μ̂i ∼ N μi ,
ni
Puede demostrarse que, bajo normalidad, éste es también el estimador máximo verosímil.
9.3.2. Estimación de σ 2
El parámetro σ 2 es la varianza del error experimental; es decir, es la varianza que hay dentro de
cada grupo alrededor de su media μi . El estimador máximo verosímil de σ 2 para cualquier variable
aleatoria de la que se tiene una muestra aleatoria simple de una población de media μ y varianza
σ 2 es también el estimador por el método de los momentos. Según este principio, estimaremos σ 2
utilizando la dispersión de los datos de cada nivel i = 1, ..., I alrededor de su media muestral μ̂i .
Sea si la desviación típica de los datos de cada grupo, es decir:
Pni 2 Pni ¡ ¢2
2 j=1 (Yij − μ̂i ) j=1 Yij − Ȳi.
Si = ≡ .
ni ni
El estimador que usaremos (y que es el máximo verosímil bajo normalidad) será un promedio,
ponderado por el número de elementos en cada grupo, de éstos valores:
PI PI Pni 2
2
2 i=1 ni Si i=1 j=1 (Yij − μ̂i )
σ̂ = = . (9.4)
n n
Puede demostrarse que este estimador es sesgado. Es sesgado porque las desviaciones no se
hacen respecto a las medias verdaderas μ1 , ..., μI sino a estimaciones hechas con los propios datos.
9.4 Análisis de la varianza 13
Puede asímismo demostrarse que un estimador de σ 2 insesgado se obtiene dividiendo por los grados
de libertad del numerador en lugar de por el número de términos.
Los grados de libertad de dicho numerador es igual al número de términos distintos que esta-
mos sumando menos el número de restricciones que existen entre dichos términos. Las restricciones
que existen entre dichos términos proceden de la utilización de parámetros estimados con los datos.
Por ejemplo, si nos dicen que tenemos cinco número y que su media debe ser 3, y cuatro de esos
cinco números son 2,1,4 y 5, entonces el quinto número está ya determinado. Ese quinto número
es el 3. Tenemos así que dada una media, existe una restricción entre esos cinco números. En el
caso de la suma del numerador en (9.4), las restricciones están en que estamos utilizando medias
muestrales obtenidas con los mismos datos que aparecen en ese numerador en lugar de medias
poblacionales. Por ejemplo, la utilización de μ̂1 en lugar de μ1 equivale a introducir la restricción
1 1
μ̂1 = y11 + · · · + y1n1 . (9.5)
n1 n1
De esta forma, si sólo conociésemos n1 − 1 datos y la media μ̂1 de los n1 datos, podríamos
deducir el valor del dato n1 , pues se debe verificar la expresión (9.5). Por tanto, en el numerador
de (9.4) hay tantas restricciones como parámetros estimados con los datos yij . En nuestro caso, se
utilizan I medias estimadas. El estimador de σ 2 insesgado es, por tanto,
PI Pni 2
2 i=1 j=1 (Yij − μ̂i )
ŜR = .
n−I
Usando las propiedades de la distribución normal puede demostrarse que
n−I 2
Ŝ ∼ χ2(n−I) .
σ2 R
Definimos residuo a la estimación de la perturbación del modelo:
Hipótesis nula: las medias son iguales, o análogamente, el efecto de los tratamientos en la
variable respuesta es el mismo. El factor analizado no es por tanto relevante.
14 Experimentos con un factor
Hipótesis alternativa: no todas son iguales. Basta que una media sea distinta al resto. También
puede expresarse como que no todos los tratamientos producen el mismo efecto. El factor
analizado es por tanto relevante
H0 : μ1 = μ2 = · · · = μI = μ. (9.6)
H1 : H0 es falsa, algún, μr 6= μi .
Como puede verse no es un contraste donde se compare las medias de cada grupo de dos en
dos, sino que es un contraste conjunto. El contraste se basa en comparar la variabilidad de las
observaciones dentro de cada grupo con la variabilidad de las medias muestrales.
Necesitamos ahora un estadístico de contraste que resuma la información de los datos en un
número, y una distribución de referencia que nos diga si dado el valor del estadístico de contraste
tenemos que aceptar o rechazar H0 con un nivel de significación α deseado. Estos elementos se
definen en los siguientes apartados.
X ni
I X I
X ni
X
(μ̂i − ȳ)(yij − μ̂i ) = (μ̂i − ȳ) (yij − μ̂i ) = 0.
i=1 j=1 i=1 j=1
| {z }
es cero
Por tanto
X ni
I X I
X ni
I X
X
(yij − ȳ)2 = ni (μ̂i − ȳ)2 + (yij − μ̂i )2 .
i=1 j=1 i=1 i=1 j=1
de cada grupo son distintas. Es la variabilidad debida al factor. Por esta razón la llamaremos
variabilidad explicada (VE) o entre grupos. Al último término le llamaremos variabilidad no
explicada (VNE), interna o residual. Es la variabilidad observada dentro de cada nivel y que está
provocada por el azar (efecto del resto de factores no controlados). Analíticamente puede escribirse
que,
ni
I X
X
VT = (yij − ȳ)2 ,
i=1 j=1
X ni
I X I
X
VE = (μ̂i − ȳ)2 = ni (μ̂i − ȳ)2 ,
i=1 j=1 i=1
X ni
I X ni
I X
X
V NE = (yij − μ̂i )2 = eij 2 = nŝ2R ,
i=1 j=1 i=1 j=1
V T = V E + V N E.
Corrigiendo por sus respectivos grados de libertad obtendremos estimadores insesgado de var-
ianzas:
La variabilidad explicada (VE) tiene I términos distintos, pero tienen la restricción de que
I
X
ni (μ̂i − ȳ) = 0.
i=1
La variablidad no explicada tiene n valores distintos, pero tiene I restricciones pues para
cada nivel se verifica que
ni
X
(yij − μ̂i ) = 0.
j=1
Por tanto los grados de libertad son n − I. por eso la varianza no explicada o residual se
define como PI Pni PI
2
i=1 j=1 (Yij − μ̂i ) e2ij V NE
2
ŝR = = i=1 = .
n−I n−I n−I
Finalmente, la variabilidad total tiene n términos distintos y la restricción
ni
I X
X
(Yij − ȳ) = 0.
i=1 j=1
9.4.3. El contraste F
El estadístico de contraste que vamos a utilizar para el contaste (9.6) es
µ ¶
VE
I −1 Ŝe2
F =µ ¶= 2. (9.7)
V NE ŜR
n−I
medias poblacionales son iguales se tendrá que μ̂i ≈ ȳ y, por tanto, el término (μ̂i − ȳ)2 no será
muy grande. Por el contrario, ese término será tanto mayor cuanto más diferentes sean las μ̂i de ȳ,
lo que ocurrirá con más facilidad bajo H1 . Por tanto si H0 es falsa, F tenderá a ser muy grande.
La región de rechazo de H0 estará a la izquierda de la distribución FI−1,n−I . Si usamos un nivel
de significación α y denotamos por FI−1,n−I;α al valor de la distribución FI−1,n−I que deja a la
derecha un área α, tendremos que el contraste es:
La figura 9.4 visualiza este contraste. En esta figura puede verse la región de rechazo a la
derecha del valor crítico. El valor crítico es el valor que deja a la derecha un área igual al nivel
de significación, es decir, es el valor FI−1,n−I;α . Otra forma de determinar si se acepta o rechaza
H0 es mediante la comparación del p-valor con el nivel de significación α. El p-valor es el nivel
de significación que deberíamos tener para que el valor F obtenido con los datos esté justo en la
frontera entre la región de aceptación y rechazo. En el presente contraste, el p-valor será el area
que queda a la derecha del valor de F obtenido con los datos. Si F > FI−1,n−I;α entonces el p-valor
será menor que α. De esta forma, el contraste sería:
Para hacer el contraste se suele escribir la información necesaria en la siguiente tabla, llamada
tabla ANOVA o ADEVA.
VE
R2 = coeficiente de determinación = .
VT
Como V T = V E + V N E puede también escribirse que
V NE
R2 = 1 − .
VT
Ejemplo 3:
18 Experimentos con un factor
0.7
0.6
0.4
0.3
0.2
0.1
α
0
0 1 2 3 4 5 6 7
Figura 9.4:
Con los datos del ejemplo 1 podemos hacer el contraste de igualdad de medias. La hipótesis nula
es que la media del índice de resistencia térmica es la misma con los tres tipos de substrato, es
decir:
H0 : μ1 = μ2 = μ3
y la alternativa será que alguna media es distinta. La tabla ANOVA es (cálculos hechos con el
Statgraphics 4.0):
por lo que el valor del estadístico está en la región de rechazo. El p-valor es 0.0035 que es mucho
menor que el nivel de significación. Por tanto rechazamos que las tres medias sean iguales. Hay
por tanto diferencias significativas en la resistencia térmica de los substratos. El coeficiente de
determinación es
1273,11
R2 = = 0,36
3502,96
Luego el tipo de sustrato explica el 36 % de la variabilidad de índice.
de las observaciones dentro de cada nivel. Esto es lo que hace la varianza residual ŝ2R , que es un
promedio ponderado de las varianzas muestrales. Se tiene, por tanto, que
Este estimador es válido aunque H0 no sea cierta. Por otro lado, sólo si H0 es cierta, se puede
estimar σ 2 a través de la dispersión de las medias muestrales μ̂1 , ..., μ̂I , alrededor del valor μ, que
representa la media global si H0 es cierta: μ1 = μ2 = · · · = μI = μ. La varianza de una media
muestral genérica es
σ2
Var(μ̂i ) = ,
ni
por tanto h i h i
2 2
σ 2 = ni Var(μ̂i ) = ni E (μ̂i − μ) = E ni (μ̂i − μ) .
El estimador de σ 2 se obtendría, si μ fuese conocido, promediando todos los valores de ni (μ̂i − μ)2
que se tienen:
2 2 2
n1 (μ̂1 − μ) + n2 (μ̂2 − μ) + · · · + nI (μ̂I − μ)
σ̂2 =
I
Como μ es desconocido se estimará con ȳ. Al sustituir μ por ȳ se pierde un grado de libertad,
por lo que el estimador sería:
PI
ni (μ̂i − ȳ)2
σ̂2(2) = i=1 ≡ ŝ2e = estimador basado en la varianza de las medias muestrales.
I −1
que es la varianza explicada definida anteriormente. El estadístico F del contaste es, entonces,
σ̂ 2(2) ŝ2e
F = = .
σ̂ 2(1) ŝ2R
5 %. Entonces, si H0 es cierta, cada contraste acertará con una probabilidad del 95 %. El problema
surge porque no desearemos realizar sólo un contraste, sino¡ que ¢ contrastaremos la igualdad de
medias de todos los pares posibles. En general, se realizarán I2 contrastes. En el caso del ejemplo
1 serían 3 contrastes: n
H0 : μ1 = μ2
Contraste 1:
n H1 : μ1 6= μ2
H0 : μ1 = μ3
Contraste 2:
n H1 : μ1 6= μ3
Contraste 3: H0 : μ2 = μ3
H1 : μ2 6= μ3
Si la probabilidad de acertar que H0 es cierta es del 95 % en cada uno y se supone, por sim-
plicidad, que los resultados de los tres contrastes son independientes, la probabilidad de acertar
con los tres simultáneamente es 0.953 = 0,86. Por lo tanto, el nivel de significación de hacer los 3
contrastes es (1 − 0,86)=0.14, que es muy superior al 5 % que estamos suponiendo. Por lo tanto,
las conclusiones que obtengamos están sujetas a un mayor margen de error del que creemos. La
probabilidad de detectar diferencias inexistentes no será del 5 % sino del 14 %. Necesitamos, pues,
¡ ¢
un procedimiento de contrastación que nos asegure que el nivel de significación de hacer los I2
contrastes de igualdad de medias sea, conjuntamente, del 5 %.(o, en general, de cierto valor α pre-
fijado). Este problema de que el nivel de significaión real sea mayor (es decir, peor) que el creemos
se agrava a medida que aumenta el número de niveles del factor. Por ejemplo, si tuviésemos un
experimento en el que se analiza un factor con I = 20 niveles, las comparaciones de dichos niveles
de dos en dos llevarían a realizar 190 contrastes. Si en cada contraste utilizamos un nivel de sig-
nificación del 5 %, estaríamos permitiendo que si los grupos fuesen iguales, 5 de cada 100 veces nos
equivocásemos y concluyésemos que son diferentes. Por tanto, en 190 contrastes tendríamos por
término medio 9.5 contrastes considerados erroneamente significativos. De esta forma, si el número
de contrastes es elevado, la probabilidad de que en alguno nos equivocásemos será muy próxima a
1, mientras que queremos que dicha probabilidad sea pequeña (precisamente α). El razonamiento
es, pues, muy similar al que se hacía antes acerca de la comparación de intervalos de confianza.
A continuación vamos a ver formas diferentes de hacer estos contrastes de diferencias de medias.
Empezaremos recordando cómo se hace un contraste de diferencia de medias utilizando sólamente
la información de las dos poblaciones que se comparan. Seguidamente, veremos procedimientos que
sean más adecuados para el contexto actual.
H0 : μ1 = μ2
H1 : μ1 6= μ2
9.5 Análisis de las diferencias entre medias 21
σ2 σ2
Var (ȳ2 − ȳ1 ) = Var (ȳ2 ) + Var(ȳ1 ) = + ,
n1 n2
se tiene, bajo normalidad, que
½ µ ¶¾
2 1 1
(ȳ2 − ȳ1 ) ∼ N μ2 − μ1 , σ + .
n1 n2
Estandarizando:
(ȳ2 − ȳ1 ) − (μ2 − μ1 )
r ³ ´ ∼ N (0, 1).
2 1 1
σ n1 + n2
donde los grados de libertad de la distribución t son los del estimador de la varianza ŝ2T . Por tanto,
si H0 : μ1 = μ2 se tiene que el estadístico que se calcula es
ȳ − ȳ1
t= r2 ∼ tn1 +n2 −2
1 1
ŝT +
n1 n2
y si la hipótesis nula es cierta, se distribuye como una tn1 +n2 −2 . Al ser el contraste bilateral,
se rechaza la hipótesis nula si el valor que se obtiene es demasiado alto o demasiado bajo. Para
determinar las regiones de rechazo se elige un nivel de significación α. Sea tn1 +n2 −2;α/2 el valor que
deja a la derecha un área α/2. Entonces:
Si |t| > tn1 +n2 −2;α/2 ⇒ Se rechaza H0
Si |t| ≤ tn1 +n2 −2;α/2 ⇒ No se rechaza H0
La figura 9.5 visualiza este contraste. Las regiones de rechazo se encuentran para valores del
estadístico muy altos o muy bajos.
Otra forma alternativa de resolver el conrtaste es mediante el uso del p-valor. Como se mencionó
anteriormente, el p-valor es el nivel de significación que deberíamos usar para que el valor del
22 Experimentos con un factor
0.35
0.3
0.25 Región de
Región Región
de no rechazo de
rechazo rechazo
0.2
0.15
0.1
α/2 α/2
0.05
0
-4 -3 -2 -1 0 1 2 3 4
Figura 9.5:
estadístico de contraste esté justo en la frontera de las zonas de aceptación y rechazo. En el caso
del presente contraste, al ser la H1 bilateral, el pvalor será el area a la derecha de |t| más el area a
la izquierda de −|t|. Entonces
Si p-valor< α ⇒ Se rechaza H0
Si p-valor ≥ α ⇒ No se rechaza H0
Con los datos del ejemplo 1 se desea comparar las medias del índice de resistencia térmica para
los substratos 1 y 2. De los datos de la tabla 9.1 se tiene que (cálculos realizados con el Statgraphics
4.0) ¾
ȳ1 = 36,67; ŝ21 = 103,467 5 × 103,467 + 11 × 55,720
⇒ ŝ2T = = 70,64.
ȳ2 = 45,58; ŝ22 = 55,720 16
El valor del estadístico es
ȳ2 − ȳ1
t= q ¡ ¢ = 2,122
ŝ2T 16 + 12 1
Como t16;0,025 = 2,120 < 2,122 se rechaza, aunque por poco margen, la hipótesis nula de que
ambas medias sean iguales. Se considera, por tanto, que con este procedimiento de contraste, se
detectan diferencias significativas entre ambos tipos de substratos.
Este contraste realizado con los datos del ejemplo 1 es más adecuado que la comparación de
los intervalos de confianza de la Figura 9.1. La comparación de los intervalos de confianza llevarían
a la conclusión de que ambas medias son iguales, pues los intervalos (del 95 % de confianza) se
solapan. Recordemos la expresión general de un intervalo de confianza para la media μ :
µ ¶
ŝ
IC(1 − α) : μ ∈ ȳ ± tα/2 √ ,
n
9.5 Análisis de las diferencias entre medias 23
donde los grados de libertad de la distribución t son los del estimador ŝ2 . La comparación de
los intervalos de confianza individuales tiene dos desventajas importantes respecto al contraste de
igualdad de dos medias realizado aquí.
Ȳ − Ȳ1
t= q2 ,
ŝR n11 + n12
y si H0 :μ1 = μ2 es cierta se distribuirá como una tn−I . Este procedimiento será más fiable, en el
sentido de que le resulta más fácil detectar diferencias que con el método clásico, la razón es que
estamos utilizando un mejor esti ador de σ 2 . ¿Y cómo sabe el método que el estimador es mejor?,
pues precisamente a través de los grados de libertad de la distribución t de Student de referencia.
Los grados de libertad de la distribución t es el valor del denominador del estimador de σ2 que
estemos utilizando. Por tanto, a mayor número de datos utilizado en la estimación de σ 2 podemos
utilizar una distribución t de más grados de libertad. ¿Y qué ventaja tiene el poder utilizar una
distribución t de más grados de libertad?. Pues que los valores críticos tα/2 serán más pequeños, y
será más fácil distiguir diferencias significativas. La figura siguiente ilustra la diferencia entre dos
distribuciones t, una con pocos grados de libertad (t2 ) y otra con muchos (t200 ). En esta figura
puede verse que a mayor número de grados de lbertad, la parte de los extremos de la distribución es
más estrecha, y la parte central es más alta. Por consiguiente, el intervalo que tenga una confianza
de, por ejemplo, el 95 % será más estrecho. Por tanto, los valores críticos son más pequeños cuanto
mayor sean los grados de libertad. Esto puede verse claramente en esta figura, donde se aprecia
24 Experimentos con un factor
Nótese que este método LSD basado en ŝ2R precisa que las varianzas poblacionales dentro de
cada nivel sean iguales, lo cual será algo que habrá que comprobar en los datos. A la comprobación
de las hipótesis del modelo (igualad de varianza del error experimental y normalidad del error
experimental) se le llama diagnosis, y se estudiará más adelante.
Si realizamos el contraste de medias por el método LSD se obtiene que, al ser ŝ2R =89.194,
ȳ2 − ȳ1
t= r ³ ´ = 1,89.
ŝ2R n11 + 1
n2
Como t25;0,025 = 2,06 > 1,89, nos encontramos en la región de NO rechazo. Por tanto, y a difer-
encia de la conclusión obtenida con el contrastre de diferencia de medias clásico, no se detectan
diferencias significativas entre la resitencia térmica de ambos substratos. Como este contraste es
más preciso que el anterior, esta conclusión es más convincente
Este procedimiento es más recomendable que el clásico para comparar sólo dos grupos. No
obstante, para contrastes múltiples no es adecuado, pues, como ya se ha explicado arriba, el nivel
de significación puede ser mucho mayor que α. Es recomendable únicamente cuando el contraste
ANOVA es significativo y existen dudas sobre la diferencia entre dos niveles.
Método de Bonferroni
Es el método más sencillo, pero no el más adecuado. Si el número de comparaciones es muy alto,
este procedimiento es poco potente. Es decir, es necesario que las diferencias entre las medias sean
grandes para que sean detectadas. En este sentido se dice que es un procedimiento conservador,
pues tiende a favorecer a H0 . Es un método que para evitar detectar diferencias inexistentes tiene
un sesgo a no detectarlas cuando realmente existen. La idea es la siguiente: se desea saber el nivel
de significación α0 para cada contraste individual de forma que, conjuntamente, estemos utilizando
un nivel de significación máximo de αT . Es decir, que la probabilidad de que los contrastes detecten
que las medias son iguales cuando realmente lo son sea, como mucho, ¡ ¢ αT . Si se tienen I niveles y
se hacen todos los contrastes posibles se realizará un total de m = I2 contrastes diferentes. Si un
contraste tiene nivel de significación α0 , entonces:
P (Detectar diferencias cuando no las hay) = P (concluir que H0 es falsa|H0 es cierta) = α0 .
Llamemos Ci al suceso anterior en una comparación genérica (i = 1, 2, ...m); es decir: Ci = por
azar de la muestra, cometemos el error de detectar, en la comparación í-ésima, una diferencia de
medias que no existe realmente. La probabilidad de que en todas las comparaciones detectemos
diferencias inexistentes será (utilizando que P (A + B) = P (A) + P (B) − P (AB) ≤ P (A) + P (B)):
P (C1 + C2 + · · · + Cm ) ≤ P (C1 ) + P (C2 ) + · · · + P (Cm ) = mα0 = αT
Por tanto,
αT
α0 = .
m
¡3¢
Por ejemplo, si I = 3 hay 2 = 3 comparaciones entre pares de medias. Si queremos que el
nivel de significación conjunto sea del 5 %, tendremos que realizar los contrastes individuales con
el metodo LSD, pero utilizando un nivel de significación
0,05
α0 = = 0,0167.
3
El valor crítico será, por tanto, tn−I;α0 /2 . Como se ha dicho antes, este método es bastante
conservador, en el sentido de que el nivel de significación conjunto que se maneja realmente αR
será menor o igual que αT . Podemos decir, entonces, que el método de Bonferroni asegura que el
nivel de significación conjunto es como máximo αT .
Método de Scheffé
Supongamos que¡ ¢ etamos interesados en todos los contrastes de diferencias de medias entre I
grupos distintos ( I2 contrastes). Utilizaremos, para contrastar cada diferencia de medias, el mismo
estadístico que con el método LSD. Por ejemplo, para contrastar si el nivel 1 y el nivel 2 tienen
medias distintas en la variable respuesta calcularemos con los datos disponibles el estadístico
Ȳ − Ȳ1
t= r2 .
1 1
ŝR +
n1 n2
La diferencia respecto al metodo LSD es que en lugar de usar como valor crítico a tn−I;α/2 se usa:
q
c = (I − 1)FI−1;n−I;α .
26 Experimentos con un factor
Este valor crítico es siempre no nulo. Por tanto se rechazará la hipótesis nula H0 : μ1 = μ2 si
|t| > c.
p
Puede comprobarse que para I = 1 este contraste coincide con el método LSD ( F1;n−I;α =
tn−I;α/2 ). Este procedimiento supone que al analista le interesan todas las comparaciones entre
pares de tratamientos. Es, pues, el caso opuesto al método LSD, que era adecuado si sólo nos
interesaba hacer un único contraste. El método de Scheffé, por tanto, puede ser, al igual que el
método de Bonferroni, muy conservador en aquellos casos en que el interés está en un número
reducido de contrastes.
Otros procedimientos
Existen otros procedimientos para realizar contrastes múltiples que tienen una mayor eficacia
que los anteriores. Es decir, el nivel de significación real no es tan elevado como con el método
LSD ni tan bajo como con el método de Bonferroni, (o el método de Scheffé si no se realizan todos
los contrastes posibles). Estos procedimientos son computacionalmente más costosos y requieren
tablas específicas. Los más empleados son
Método de Duncan: basado en la comparación de las diferencias de medias con unas tablas
que dependen del número de comparaciones que se realizan. Es un procedimiento muy eficaz.
Método de Tukey: este procedimiento detecta que dos medias son estadísticamente difer-
entes si su diferencia en valor absoluto, estandarizada, es mayor que cierto valor crítico que
puede encontrarse en unas tablas (tablas de rangos estudentizados). Es también más conser-
vador que el procedimiento de Duncan.
Estos tres procedimientos son muy utilizados y están incluidos en la mayoría de las aplica-
ciones informáticas, por lo que su utilización es sencilla.
Con los datos del ejemplo 1 vamos a realizar contrastes múltiples de igualdad de medias para
las tres posibles comparaciones. El nivel de significación conjunto es αT = 0,05. Los tres contrastes
son: (1)μ1 = μ2 ; (2)μ1 = μ3 ; y (3)μ2 = μ3 . La información que proporciona el Statgraphics 4.0 es
la siguiente (multiple range tests):
Método de Duncan:
Método LSD:
Este método detecta que μ1 6= μ3 y también μ2 6= μ3 . Este método es menos fiable que el
anterior. El nivel de significación conjunto que realmente se está usando es menor que αT
(en cada contraste el nivel de significación es αT .), por lo que los intervalos de confianza que
se han construido son más estrechos de lo que deberían ser. Esto puede explicar que este
procedimiento detecte que μ2 6= μ3 mientras que el anterior no lo detectaba.
Método de Bonferroni:
por eso los intervalos son más amplios que en el caso anterior. Este método sólo encuentra
significativa la diferencia entre μ1 y μ3 .
Método de Scheffé:
Método de Newman-Keuls:
28 Experimentos con un factor
Este método es más conservador que el de Duncan. Sin embargo se obtiene el mismo resultado,
lo que refuerza la validez de las conclusiones.
Método de Tukey:
Todos los procedimientos, excepto el LSD ofrecen las mismas conclusiones. Puesto que el LSD no
es verdaderamente un contaste múltiple asumiremos como definitiva la conclusión de que μ1 6= μ3
y que tal vez con más datos se podría concluir que μ2 6= μ3 de forma más clara. A efectos prácticos,
los datos recomendarían la utilización del substrato tipo3 (resina epoxídica).
Como resumen de lo dicho anteriormente ¡podemos
¢ decir que para comparar I grupos con un
nivel de significación total α realizaremos m = I2 contrastes individuales en los que contrastaremos
todos los grupos de dos en dos. El contraste individual que compare el grupo i-ésimo con el j-ésimo
será
H0 : μi = μj ,
H1 : μi =
6 μj ;
Rechazaremos H0 si
|t| > t∗α0 /2 (9.9)
donde t∗α0 /2 es el valor de una distribución t de Student con los mismos grados de libertad que
el estimador ŝ2R , y el nivel de significación individual α0 ha sido obtenido mediante algún proced-
imiento de contrastes múltiples tales como Bonferroni, para un nivel de significación conjunto α
prefijado por el experimentador.
9.6 Diagnosis 29
9.6. Diagnosis
La diagnosis es una etapa del análisis de la varianza que consiste en comprobar que se cumplen
las hipótesis del modelo. Estas hipótesis son:
uij se distribuye de forma normal con media cero y varianza constante uij ∼ N (0, σ 2 )
las variables aleatorias uij son independientes
Esta etapa del análisis es muy importante, pues de no cumplirse las hipótesis en las que se basa
el modelo, las conclusiones podrían ser eróneas. El error experimental es
uij = yij − μi .
Como μi es desconocido, la variable uij será inobservable. Lo único que se tiene es una esti-
mación de μi , que es la media muestral en cada grupo: μ̂i = ȳi . Lo que se tiene entonces es una
estimación del error experimental, y que recibe el nombre de residuo:
El objetivo es comprobar que los residuos tiene propiedades similares a las que deberían tener
los términos de error. El primer paso para realizar la diagnosis será, por tanto, calcular los residuos
en cada punto. Con estos residuos realizaremos los siguientes análisis.
Normalidad:
Siempre es aconsejable hacer un histograma para ver si los residuos se alejan mucho de la
normalidad. También podemos hacer los contrastes de normalidad habituales que se encuentran
en todas las aplicaciones informáticas (χ2 o Kolmogorov-Smirnov). Como en cualquier contraste,
bastará comprobar que el p-valor es mayor que el nivel de significación para aceptar la hipótesis
nula de normalidad.
30 Experimentos con un factor
12
Residuos
-8
-18
36 40 44 48 52 56
Valores previstos (medias muestrales)
En la figura 9.6 los datos de la izquierda corresponden al nivel que tiene menor valor medio
del índice, que coresponde con el substrato tipo 1; a continuación están los datos del nivel que
tiene mayor valor medio y que corresponde al substrato tipo 2; a la derecha están los datos que
corresponden con el nivel de mayor valor medio y que son los del substrato tipo 3. Si las hipótesis
del modelo se cumplen, este gráfico no debería tener ningún tipo de estructura. En este caso no
se detecta ninguna estructura en los datos. La figura 9.7 muestra el gráfico de residuos frente a
valores previstos con los datos del ejemplo 2.
En este caso se observa un patrón creciente de la variabilidad, lo que viola una de las hipótesis
del modelo. Además, se ve que la variabilidad es creciente con el valor medio de la variable. Los
niveles que tienen medias más bajas (memorias tipo 3 y 4) tienen menos variabilidad que los
niveles de mayor valor medio (memorias tipo 1 y 2). Este efecto ya se veía en la Figura 9.3 con
los datos iniciales. Este efecto es muy frecuente en la práctica y ocurre cuando los errores
son proporcionales a la magnitud. El patrón que se ve en el gráfico es como un embudo que se
ensancha de derecha a izquierda. Matemáticamente, este efecto equivale a una represenación en la
que el modelo no es aditivo sino multiplicativo, es decir:
yij = μi × uij (9.11)
y, por tanto
Var(yij )=μ2i σ 2
y niveles de mayor valor medio aparecen con mayor variabilidad. Por tanto, el modelo aditivo que
se está suponiendo,
yij = μi + uij ,
9.6 Diagnosis 31
26
Residuos
6
-14
-34
50 70 90 110 130 150 170
Valores previstos (medias muestrales)
0,19
Residuos
4,7 0,09
4,4 -0,01
4,1 -0,11
3,8 -0,21
1 2 3 4 3,9 4,1 4,3 4,5 4,7 4,9 5,1
Valores previstos (medias muestrales)
Tipo de memoria
no sería correcto. Un gráfico del tipo 9.3 o unos residuos con el aspecto del la Figura 9.7 sugieren,
entonces, que el modelo aditivo no es correcto y que el modelo multiplicativo (9.11) sería más
adecuado. Una solución sencilla y que tiene muy buen resulado en la práctica, es la linealización
del modelo (9.11) mediante una transformación logarítmica (sumando cierta constante si hubiese
valores negativos). Entonces, el análisis se realizaría sobre la variable yij = ln(yij ). El modelo sería:
ocados. Por el contrario el test F es aún fiable ante pequeñas desviaciones de normalidad (más
que los tests de igualdad de varianzas) así como pequeñas desviaciones de igualdad de varianzas.
Por tanto, muchos autores no recomiendan confiar en dichos contrastes de igualdad de varianzas
como requisito previo para hacer el test F (esos contrastes son interesantes, pero en otros proble-
mas estadísticos). Suele recomendarse la siguiente regla informal: si la mayor desviación típica
muestral no supera al doble de la menor, podemos utilizar los métodos basados en la
hipótesis de igualdad de varianzas y los resultados ser aún bastante precisos.
Independencia:
El error experimental uij no será independiente si a lo largo del transcurso del experimento
cambian lentamente las condiciones de experimentación. Por ejemplo, supongamos que el exper-
imento del ejemplo 1 se realiza de la siguiente manera: en primer lugar se colocan en el horno
de pruebas todas las placas de substrato 1 y se anotan los resultados. Después se extraen dichas
placas y se repite el experimento con todas las placas de tipo 2 y, finalmente, se vuelve a repetir
con las placas de tipo3. De esta forma, si las condiciones del horno no son estacionarias, parte
de la variabilidad puede deberse a las condiciones del horno, que evolucionan con el tiempo, y no
al tipo de substrato. El análisis de la independencia es, en general, complicado. Por esa razón,
el experimento debe diseñarse de manera que dicha independencia pueda asegurarse ya desde el
comienzo. Por ejemplo, para evitar que el estado transitorio del horno afecte a la interpretación
de los resultados, puede aleatorizarse el orden en que las distintas placas se colocan en el horno.
Una forma sencilla de comprobar la independencia es hacer un gráfico de residuos ordenados en la
misma secuencia temporal en que se obtuvieron. Si existe dependencia se observará una tendencia
en la evolución temporal de los residuos.
OBJETIVOS DE APRENDIZAJE