1
T-5. DISEÑO EXPERIMENTAL FACTORIAL, Y ANÁLISIS DE VARIANZA (ANOVA)
EN ENSAYOS DE LABORATORIO.
1. DISEÑO EXPERIMENTAL FACTORIAL
Introducción al Diseño de Experimentos
Introducción
Tipos de Variabilidad
Planificación de un experimento
Resumen de los principales conceptos
Principios básicos en el diseño de experimentos
Algunos diseños experimentales clásicos
2. ANÁLISIS DE LA VARIANZA (ANOVA)
¿Qué es Análisis de la Varianza (ANOVA)?
Terminología ANOVA
¿Cuál es la diferencia entre ANOVA de un factor y de dos factores?
¿Para qué sirve ANOVA?
Limitaciones de ANOVA
¿Cómo se utiliza ANOVA en la ciencia de datos?
Preguntas que ANOVA ayuda a responder
1. DISEÑO EXPERIMENTAL FACTORIAL
Introducción al Diseño de Experimentos
Introducción
Los modelos de diseño de experimentos son modelos estadísticos clásicos cuyo objetivo es
averiguar si unos determinados factores influyen en una variable de interés y, si existe
influencia de algún factor, cuantificar dicha influencia. Unos ejemplos donde habría que utilizar
estos modelos son los siguientes:
— Rendimiento de una máquina (unidades producidas por día): Cómo influye el trabajador que
la maneja y la marca de la máquina.
— Influencia de un tipo de pila eléctrica y de la marca, en la duración de las pilas.
— Una compañía telefónica: Variable: Duración de una llamada telefónica. Factores a
considerar: Hora a la que se produce la llamada; día de la semana en que se realiza la llamada;
zona de la ciudad desde la que se hace la llamada; edad y sexo del que realiza la llamada; tipo
de teléfono (público o privado) desde el que se realiza la llamada.
— Una compañía de software: Variable: Porcentaje en que se comprime un fichero: Factores a
considerar: Tipo de programa utilizado y el tipo de fichero que se comprime.
— Rendimiento de los alumnos en una asignatura y, para ello, se desean controlar diferentes
factores: profesor que imparte la asignatura; método de enseñanza; sexo del alumno.
La metodología del diseño de experimentos se basa en la experimentación. Es sabido que si se
repite un experimento, en condiciones indistinguibles, los resultados presentan una cierta
variabilidad. Si la experimentación se realiza en un laboratorio donde la mayoría de las causas
2
de variabilidad están muy controladas, el error experimental será pequeño y habrá poca
variación en los resultados del experimento. Pero si se experimenta en procesos industriales o
administrativos la variabilidad será mayor en la mayoría de los casos.
Objetivo del diseño de experimentos = Estudiar si cuando se utiliza un determinado
tratamiento se produce una mejora en el proceso o no. Para ello se debe experimentar
aplicando el tratamiento y no aplicándolo. Pero si la variabilidad experimental es grande, sólo
se detectará la influencia del uso del tratamiento cuando éste produzca grandes cambios en
relación con el error de observación.
La metodología del diseño de experimentos estudia cómo variar las condiciones habituales de
realización de un proceso empírico para aumentar la probabilidad de detectar cambios
significativos en la respuesta; de esta forma se obtiene un mayor conocimiento del
comportamiento del proceso de interés.
Para que la metodología de diseño de experimentos sea eficaz es fundamental que el
experimento esté bien diseñado. Un experimento se realiza por alguno de los siguientes
motivos:
— Determinar las principales causas de variación en la respuesta.
— Encontrar las condiciones experimentales con las que se consigue un valor extremo en la
variable de interés o respuesta.
— Comparar las respuestas en diferentes niveles de observación de variables controladas.
— Obtener un modelo estadístico-matemático que permita predecir respuestas futuras.
La utilización de los modelos de diseño de experimentos se basa en la experimentación y en el
análisis de los resultados que se obtienen en un experimento bien planificado. En muy pocas
ocasiones es posible utilizar estos métodos a partir de datos disponibles o datos históricos,
aunque también se puede aprender de los estudios realizados a partir de datos recogidos por
observación, de forma aleatoria y no planificada. En el análisis estadístico de datos históricos
se pueden cometer diferentes errores, los más comunes son los siguientes:
1. Inconsistencia de los datos: Los procesos cambian con el tiempo, se producen cambios en el
personal (cambios de personas, mejoras del personal por procesos de aprendizaje,
motivación,...), cambios en las máquinas (reposiciones, reparaciones, envejecimiento,...). Estos
cambios influyen en los datos recogidos, lo que hace que los datos históricos sean poco fiables,
sobre todo si se han recogido en un amplio espacio de tiempo.
2. Variables con fuerte correlación: Puede ocurrir que en el proceso existan dos o más
variables altamente correlacionadas que pueden llevar a situaciones confusas. Por ejemplo, en
el proceso hay dos variables X1 y X2 fuertemente correlacionadas que influyen en la respuesta,
pero si en los datos que se tiene aumenta al mismo tiempo el valor de las dos variables no es
posible distinguir si la influencia es debida a una u otra o a ambas variables (confusión de los
efectos). Otra situación problemática se presenta si solo se dispone de datos de una variable
(por ejemplo de X1 y no de X2), lo que puede llevar a pensar que la variable influyente es la X1
cuando, en realidad, la variable influyente es la X2 (variable oculta).
3
3. Rango de las variables controladas es limitado: Si el rango de una de las variables
importantes e influyentes en el proceso es pequeño, no se puede saber su influencia fuera de
ese rango, quedando oculta su relación con la variable de interés o los cambios que se
producen fuera del rango observado. Suele ocurrir cuando se utilizan datos recogidos al
trabajar el proceso en condiciones normales y no se experimenta (cambiando las condiciones
de funcionamiento) para ver el comportamiento del proceso en situaciones nuevas.
Tipos de variabilidad
Uno de los principales objetivos de los modelos estadísticos y, en particular, de los modelos de
diseño de experimentos, es controlar la variabilidad de un proceso aleatorio que puede tener
diferente origen. De hecho, los resultados de cualquier experimento están sometidos a tres
tipos de variabilidad cuyas características son las siguientes:
— Variabilidad sistemática y planificada: Viene originada por la posible dispersión de los
resultados por diferencias sistemáticas entre las distintas condiciones experimentales
impuestas en el diseño por deseo del experimentador. Es el tipo de variabilidad que se intenta
identificar con el diseño estadístico. Si esta variabilidad está presente y tiene un tamaño
importante, se espera que las respuestas tiendan a agruparse formando grupos (clusters). Es
deseable que exista esta variabilidad y que sea identificada y cuantificada por el modelo.
— Variabilidad típica de la naturaleza del problema y del experimento: Se debe al ruido
aleatorio. Este término incluye, entre otros, a la componente de variabilidad no planificada
denominada error de medida. Es una variabilidad impredecible e inevitable. Es la causante de
que si en un laboratorio se toman medidas repetidas de un mismo objeto ocurra que, en
muchos casos, la segunda medida no sea igual a la primera y, más aún, no se puede predecir
sin error el valor de la tercera. Sin embargo, bajo el aparente caos, existe un patrón regular de
comportamiento en esas medidas: todas ellas tenderán a fluctuar en torno a un valor central y
siguiendo un modelo de probabilidad que será importante estimar. Esta variabilidad es
inevitable pero, si el experimento ha sido bien planificado, es posible estimar (medir) su valor,
lo que es de gran importancia para obtener conclusiones y poder hacer predicciones. Es una
variabilidad que va a estar siempre presente pero que es tolerable.
— Variabilidad sistemática y no planificada: Esta variabilidad produce una variación sistemática
en los resultados y se debe a causas desconocidas y no planificadas. En otras palabras, los
resultados están siendo sesgados sistemáticamente por causas desconocidas. Su presencia
supone la principal causa de conclusiones erróneas y estudios incorrectos al ajustar un modelo
estadístico. Como se estudiará posteriormente, existen dos estrategias básicas para tratar de
evitar la presencia de este tipo de variabilidad: la aleatorización y la técnica de bloques. Este
tipo de variabilidad debe de intentar evitarse y su presencia lleva a conclusiones erróneas.
4
Planificación de un experimento
La experimentación forma parte natural de la mayoría de las investigaciones científicas e
industriales, en muchas de las cuales, los resultados del proceso de interés se ven afectados
por la presencia de distintos factores, cuya influencia puede estar oculta por la variabilidad de
los resultados muestrales. Es fundamental conocer los factores que influyen realmente y
estimar esta influencia. Para conseguir esto es necesario experimentar, variar las condiciones
que afectan a las unidades experimentales y observar la variable respuesta. Del análisis y
estudio de la información recogida se obtienen las conclusiones.
La forma tradicional que se utilizaba en la experimentación, para el estudio de estos
problemas, se basaba en estudiar los factores uno a uno, esto es, variar los niveles de un factor
permaneciendo fijos los demás. Esta metodología presenta grandes inconvenientes:
— Es necesario un gran número de pruebas.
— Las conclusiones obtenidas para cada factor tienen un campo de validez muy restringido.
— No es posible estudiar la existencia de interacción entre los factores.
— Es inviable, en muchos casos, por problemas de tiempo o costo.
MEJOR: Diseño de experimentos basado en estudiar simultáneamente los efectos de todos los
factores de interés. Más eficaces y proporcionan mejores resultados con un menor coste.
ETAPAS que deben seguirse para una correcta planificación de un diseño experimental, etapas
que deben ser ejecutadas de forma secuencial. También se introducen algunos conceptos
básicos en el estudio de los modelos de diseño de experimentos. Las etapas a seguir en el
desarrollo de un problema de diseño de experimentos son las siguientes:
1. Definir los objetivos del experimento.
2. Identificar todas las posibles fuentes de variación, incluyendo:
(i) Factores Tratamiento y sus niveles,
(ii) Unidades experimentales,
(iii) Factores Nuisance (molestos): factores bloque, factores ruido y covariables.
3. Elegir una regla de asignación de las unidades experimentales a las condiciones de estudio
(tratamientos).
4. Especificar las medidas con que se trabajará (la respuesta), el procedimiento experimental
y anticiparse a las posibles dificultades.
5. Ejecutar un experimento piloto.
6. Especificar el modelo matemático.
7. Esquematizar los pasos del análisis.
8. Determinar el tamaño muestral.
9. Revisar las decisiones anteriores. Modificarlas si se considera necesario.
Los pasos del listado anterior no son independientes y en un determinado momento puede ser
necesario volver atrás y modificar decisiones tomadas en algún paso previo.
5
A continuación se hace una breve descripción de las decisiones que hay que tomar en cada
uno de los pasos enumerados. Sólo después de haber tomado estas decisiones se procederá a
realizar el experimento.
1. Definir los objetivos del experimento: Elaborar lista completa de las preguntas concretas a
las que debe dar respuesta el experimento. Es importante indicar solamente cuestiones
fundamentales ya que tratar de abordar problemas colaterales puede complicar
innecesariamente el experimento. Una vez elaborada esquematizar también el tipo de
conclusiones que se espera obtener en el posterior análisis de datos. Normalmente la lista de
objetivos es refinada a medida que se van ejecutando las etapas del diseño de experimentos.
2. Identificar todas las posibles fuentes de variación: Una fuente de variación es cualquier cosa
que pueda generar variabilidad en la respuesta. Es recomendable hacer una lista de todas las
posibles fuentes de variación del problema, distinguiendo aquellas que, a priori, generarán una
mayor variabilidad. Se distinguen dos tipos:
— Factores Tratamiento: son aquellas fuentes cuyo efecto sobre la respuesta es de particular
interés para el experimentador.
— Factores Nuisance: son aquellas fuentes que no son de interés directo pero que se
contemplan en el diseño para reducir la variabilidad no planificada.
A continuación se precisan más estos importantes conceptos:
(i) Factores Tratamiento y sus niveles. Se denomina factor tratamiento a cualquier variable de
interés para el experimentador cuyo posible efecto sobre la respuesta se quiere estudiar. Los
niveles de un factor tratamiento son los tipos o grados específicos del factor que se tendrán en
cuenta en la realización del experimento. Los factores tratamiento pueden ser cualitativos o
cuantitativos. Ejemplos de factores cualitativos y sus niveles respectivos son los siguientes:
— proveedor (diferentes proveedores de una materia prima),
— tipo de máquina (diferentes tipos o marcas de máquinas),
— trabajador (los trabajadores encargados de hacer una tarea),
— tipo de procesador (los procesadores de los que se quiere comparar su velocidad de
ejecución),
— un aditivo químico (diferentes tipos de aditivos químicos),
— el sexo (hombre y mujer),
— un método de enseñanza (un número determinado de métodos de enseñanza cuyos
resultados se quieren comparar).
Ejemplos de factores cuantitativos son los siguientes:
— tamaño de memoria (diferentes tamaños de memoria de ordenadores),
— droga (distintas cantidades de la droga),
— la temperatura (conjuntos de temperaturas seleccionadas en unos rangos de interés).
Debe tenerse en cuenta que en el tratamiento matemático de los modelos de diseño de
experimento los factores cuantitativos son tratados como cualitativos y sus niveles son
elegidos equiespaciados o se codifican. En general, un factor no suele tener más de 4 niveles.
6
Cuando en un experimento se trabaja con más de un factor, se denomina:
Tratamiento = Cada una de las combinaciones de niveles de los distintos factores.
Observación = Es una medida en las condiciones determinadas por uno de los tratamientos.
Experimento factorial = Es el diseño de experimentos en que existen observaciones de todos
los posibles tratamientos.
(ii) Unidades experimentales.
Son el material donde evaluar la variable respuesta y al que se le aplican los distintos niveles
de los factores tratamiento.
Ejemplos de unidades experimentales son:
— en informática, ordenadores, páginas web, buscadores de internet,
— en agricultura, parcelas de tierra,
— en medicina, individuos humanos u animales,
— en industria, lotes de material, trabajadores, máquinas.
Cuando un experimento se ejecuta sobre un período de tiempo, de modo que las
observaciones se recogen secuencialmente en instantes de tiempo determinados, entonces los
propios instantes de tiempo pueden considerarse unidades experimentales.
Es muy importante que las unidades experimentales sean representativas de la población
sobre la que se han fijado los objetivos del estudio. Por ejemplo, si se utilizan los estudiantes
universitarios de un país como unidades experimentales, las conclusiones del experimento no
son extrapolables a toda la población adulta del país.
(iii) Factores Nuisance: Bloques, Factores ruido y Covariables.
En cualquier experimento, además de los factores tratamiento cuyo efecto sobre la respuesta
se quiere evaluar, también influyen otros factores, de escaso interés en el estudio, pero cuya
influencia sobre la respuesta puede aumentar significativamente la variabilidad no planificada.
Con el fin de controlar esta influencia pueden incluirse en el diseño nuevos factores que,
atendiendo a su naturaleza, pueden ser de diversos tipos.
Factor bloque: En algunos casos el factor nuisance puede ser fijado en distintos niveles, de
modo que es posible controlar su efecto a esos niveles. Entonces la forma de actuar es
mantener constante el nivel del factor para un grupo de unidades experimentales; se cambia a
otro nivel para otro grupo y así sucesivamente. Estos factores se denominan factores de
bloqueo (factores bloque) y las unidades experimentales evaluadas en un mismo nivel del
bloqueo se dice que pertenecen al mismo bloque. Incluso cuando el factor nuisance no es
medible, a veces es posible agrupar las unidades experimentales en bloques de unidades
similares: parcelas de tierra contiguas o períodos de tiempo próximos probablemente
conduzcan a unidades experimentales más parecidas que parcelas o períodos distantes.
Desde un punto de vista matemático el tratamiento que se hace de los factores-bloque es el
mismo que el de los factores tratamiento en los que no hay interacción, pero su concepto
7
dentro del modelo de diseño de experimentos es diferente. Un factor Tratamiento es un factor
en el que se está interesado en conocer su influencia en la variable respuesta y un factor
Bloque es un factor en el que no se está interesado en conocer su influencia pero se incorpora
al diseño del experimento para disminuir la variabilidad residual del modelo.
Covariable: Si el factor nuisance es una propiedad cuantitativa de las unidades experimentales
que puede ser medida antes de realizar el experimento (el tamaño de un fichero informático,
la presión sanguínea de un paciente en un experimento médico o la acidez de una parcela de
tierra en un experimento agrícola). El factor se denomina covariable y juega un papel
importante en el análisis estadístico.
Ruido: Si el experimentador está interesado en la variabilidad de la respuesta cuando se
modifican las condiciones experimentales, entonces los factores nuisance son incluidos
deliberadamente en el experimento y no se aísla su efecto por medio de bloques. Se habla
entonces de factores ruido.
En resumen, las posibles fuentes de variación de un experimento son:
3. Elegir una regla de asignación de las unidades experimentales a las condiciones de estudio
(tratamientos).
La regla de asignación o diseño experimental especifica que unidades experimentales se
observarán bajo cada tratamiento. Hay diferentes posibilidades:
— Diseño factorial o no,
— Anidamiento,
— Asignación al azar en determinados niveles de observación,
— Orden de asignación, etc.
En la práctica, existen una serie de diseños estándar que se utilizan en la mayoría de los casos.
4. Especificar las medidas que se realizarán (la respuesta), el procedimiento experimental y
anticiparse a las posibles dificultades.
Variable Respuesta o variable de Interés. Los datos que se recogen en un experimento son
medidas de una variable denominada variable respuesta o variable de interés.
8
Es importante precisar de antemano cuál es la variable respuesta y en qué unidades se mide.
Naturalmente, la respuesta está condicionada por los objetivos del experimento. Por ejemplo,
si se desea detectar una diferencia de 0,05 gramos en la respuesta de dos tratamientos no es
apropiado tomar medidas con una precisión próxima al gramo.
A menudo aparecen dificultades imprevistas en la toma de datos. Es conveniente anticiparse a
estos imprevistos pensando detenidamente en los problemas que se pueden presentar o
ejecutando un pequeño experimento piloto (etapa 5). Enumerar estos problemas permite en
ocasiones descubrir nuevas fuentes de variación o simplificar el procedimiento experimental
antes de comenzar.
También se debe especificar con claridad la forma en que se realizarán las mediciones:
Instrumentos de medida, Tiempo en el que se harán las mediciones, etc.
5. Ejecutar un experimento piloto.
Un experimento piloto es un experimento que utiliza un número pequeño de observaciones. El
objetivo de su ejecución es ayudar a completar y chequear la lista de acciones a realizar. Las
ventajas que proporciona la realización de un pequeño experimento piloto son las siguientes:
Permite practicar la técnica experimental elegida e identificar problemas no esperados en
el proceso de recogida de datos,
Si el experimento piloto tiene un tamaño suficientemente grande puede ayudar a
seleccionar un modelo adecuado al experimento principal,
Los errores experimentales observados en el experimento piloto pueden ayudar a calcular
el número de observaciones que se precisan en el experimento principal.
6. Especificar el modelo matemático.
El modelo matemático especificado debe indicar la relación que se supone que existe entre la
variable respuesta y las principales fuentes de variación identificadas en el paso 2. Es
fundamental que el modelo elegido se ajuste a la realidad con la mayor precisión posible. El
modelo más habitual es el modelo lineal:
En este modelo la respuesta viene dada por una combinación lineal de términos que
representan las principales fuentes de variación planificada más un término residual debido a
las fuentes de variación no planificada. Los modelos que se estudian en este texto se ajustan a
esta forma general. El experimento piloto puede ayudar a comprobar si el modelo se ajusta
razonablemente bien a la realidad.
9
Los modelos de diseño de experimentos, según sean los factores incluidos en el mismo, se
pueden clasificar en:
1. Modelo de Efectos Fijos,
2. Modelo de Efectos Aleatorios, y
3. Modelos Mixtos.
Factor de Efectos Fijos = Factor en el que los niveles han sido seleccionados por el
experimentador. Es apropiado cuando el interés se centra en comparar el efecto sobre la
respuesta de esos niveles específicos. Ejemplo: un empresario está interesado en comparar el
rendimiento de 3 máquinas del mismo tipo que tiene en su empresa.
Factor de Efectos Aleatorios = Factor del que sólo se incluye en el experimento una muestra
aleatoria simple de todos los posibles niveles del mismo. Evidentemente se utilizan estos
factores cuando tienen un número muy grande de niveles y no es razonable o posible trabajar
con todos ellos. En este caso se está interesado en examinar la variabilidad de la respuesta
debida a la población entera de niveles del factor. Ejemplo: una cadena de hipermercados que
tiene en plantilla 300 trabajadores de caja está interesada en estudiar la influencia del factor
trabajador en la variable Tiempo en el cobro a un cliente.
1. Modelo de efectos fijos = Es un modelo en el que todos los factores son factores de efectos
fijos.
2. Modelo de efectos aleatorios = Es un modelo en el que todos los factores son factores de
efectos aleatorios.
3. Modelo mixto = Es un modelo en el que hay factores de efectos fijos y factores de efectos
aleatorios.
7. Esquematizar los pasos del análisis estadístico.
El análisis estadístico a realizar depende de:
— Los objetivos indicados en el paso 1,
— El diseño seleccionado en el paso 3,
— El modelo asociado que se especificó en el paso 5.
Se deben esquematizar los pasos del análisis a realizar que deben incluir:
— Estimaciones que hay que calcular,
— Contrastes a realizar,
— Intervalos de confianza que se calcularán,
— Diagnosis y crítica del grado de ajuste del modelo a la realidad.
8. Determinar el tamaño muestral.
Calcular el nº de observaciones que se deben tomar para alcanzar los objetivos del
experimento. Existen, dependiendo del modelo, algunas fórmulas para determinar este
tamaño. Todas ellas sin embargo requieren el conocimiento del tamaño de la variabilidad no
planificada (no sistemática y sistemática, si es el caso) y estimarlo a priori no es fácil, siendo
10
aconsejable sobreestimarla. Normalmente se estima a partir del experimento piloto y en base
a experiencias previas en trabajos con diseños experimentales semejantes.
9. Revisar las decisiones anteriores. Modificar si es necesario.
De todas las etapas enumeradas, el proceso de recogida de datos suele ser la tarea que mayor
tiempo consume, pero es importante realizar una planificación previa, detallando los pasos
anteriores, lo que garantizará que los datos sean utilizados de la forma más eficiente posible.
Es fundamental tener en cuenta que:
a) Ningún método de análisis estadístico, por sofisticado que sea, permite extraer conclusiones
correctas en un diseño de experimentos mal planificado. Recíprocamente, debe quedar claro
que el análisis estadístico es una etapa más que está completamente integrado en el proceso
de planificación.
b) El análisis estadístico NO es un 2º paso independiente de la tarea de planificación. Es
necesario comprender la totalidad de objetivos propuestos antes de comenzar con el análisis.
Si no se hace así, tratar que el experimento responda a otras cuestiones a posteriori puede ser
(lo será casi siempre) imposible. Pero no sólo los objetivos están presentes al inicio del análisis
sino también la técnica experimental empleada.
c) No invertir nunca todo el presupuesto en un primer conjunto de experimentos y utilizar en
su diseño toda la información previa disponible.
d) Toda persona implicada en la ejecución del experimento y en la recolección de los datos
debe ser informada con precisión de la estrategia experimental diseñada
Resumen de los principales conceptos
En esta sección se hace un resumen de la terminología común utilizada en la teoría de los
modelos de diseño de experimentos:
Unidad experimental = Objetos, individuos, intervalos de espacio o tiempo sobre los que se
experimenta.
Variable de interés o respuesta = Variable que se desea estudiar y controlar su variabilidad.
Factor = Variable independiente que puede influir en la variabilidad de la variable de
interés.
Factor Tratamiento = Factor del que interesa conocer su influencia en la respuesta.
Factor Bloque = Factor en el que no se está interesado en conocer su influencia en la
respuesta pero se supone que ésta existe y se quiere controlar para disminuir la
variabilidad residual.
Niveles = Cada uno de los resultados de un factor. Según sean elegidos por el
experimentador o elegidos al azar de una amplia población se denominan factores de
efectos fijos, o factores de efectos aleatorios.
Tratamiento = Es una combinación específica de los niveles de los factores en estudio. Son,
por tanto, las condiciones experimentales que se desean comparar en el experimento. En
un diseño con un único factor son los distintos niveles del factor y en un diseño con varios
factores son las distintas combinaciones de niveles de los factores.
Observación experimental = Cada medición de la variable respuesta.
Tamaño del Experimento = Nº total de observaciones recogidas en el diseño.
11
Interacción de factores = Existe interacción entre dos factores FI y FJ si el efecto de algún
nivel de FI cambia al cambiar de nivel en FJ. Esta definición puede hacerse de forma
simétrica y se puede generalizar a interacciones de orden tres o superior.
Ortogonalidad de factores = 2 factores FI y FJ con I y J niveles, respectivamente, son
ortogonales si en cada nivel i de FI el número de observaciones de los J niveles de FJ están
en las mismas proporciones. Esta propiedad permite separar los efectos simples de los
factores en estudio.
Diseño equilibrado o balanceado = Diseño en el que todos los tratamientos son asignados
a un número igual de unidades experimentales.
Principios básicos en el diseño de experimentos
Al planificar un experimento hay tres principios básicos que se deben tener siempre en cuenta:
— El Principio de Aleatorización.
— El Bloqueo.
— La Factorización del diseño.
Los 2 primeros (aleatorizar y bloquear) son estrategias eficientes para asignar los ttos a las
unidades experimentales sin preocuparse de qué tratamientos considerar. Por el contrario, la
factorización del diseño define una estrategia eficiente para elegir los tratamientos sin
considerar en absoluto como asignarlos después a las unidades experimentales.
Aleatorizar = “Aleatorizar todos los factores no controlados por el experimentador en el diseño
experimental y que pueden influir en los resultados serán asignados al azar a las unidades
experimentales”.
Ventajas de aleatorizar los factores no controlados:
— Transforma la variabilidad sistemática no planificada en variabilidad no planificada o ruido
aleatorio. Dicho de otra forma, aleatorizar previene contra la introducción de sesgos en el
experimento.
— Evita la dependencia entre observaciones al aleatorizar los instantes de recogida muestral.
— Valida muchos de los procedimientos estadísticos más comunes.
Bloquear = “Se deben dividir o particionar las unidades experimentales en grupos llamados
bloques de modo que las observaciones realizadas en cada bloque se realicen bajo condiciones
experimentales lo más parecidas posibles”.
A diferencia de lo que ocurre con los factores Tto, el experimentador no está interesado en
investigar las posibles diferencias de la respuesta entre los niveles de los factores bloque.
Bloquear es una buena estrategia siempre y cuando sea posible dividir las unidades
experimentales en grupos de unidades similares.
La ventaja de bloquear un factor que se supone que tienen una clara influencia en la respuesta
pero en el que no se está interesado, es la siguiente: Convierte la variabilidad sistemática no
planificada en variabilidad sistemática planificada.
Con el siguiente ejemplo se trata de indicar la diferencia entre las estrategias de aleatorizar y
de bloquear en un experimento. Ejemplo:
12
Se desea investigar las posibles diferencias en la producción de dos máquinas, cada una de las
cuales debe ser manejada por un operario.
En el planteamiento de este problema la variable respuesta es la producción diaria de una
máquina, el factor tratamiento en el que se está interesado es el tipo de máquina que tiene
dos niveles y un factor nuisance es el operario que maneja la máquina.
En el diseño del experimento para realizar el estudio se pueden utilizar dos estrategias para
controlar el factor operario que maneja la máquina.
Aleatorizar: se seleccionan al azar dos grupos de operarios y se asigna al azar cada grupo de
operarios a cada una de las dos máquinas. Finalmente se evalúa la producción de las mismas.
Bloquear: se introduce el factor bloque operario. Se elige un único grupo de operarios y todos
ellos utilizan las dos máquinas.
Hay que tener en cuenta en qué circunstancias se utilizan estas dos estrategias, y cuál
estrategia es mejor.
La factorización del diseño = “Un diseño factorial es una estrategia experimental que consiste
en cruzar los niveles de todos los factores tratamiento en todas las combinaciones posibles”.
Ventajas de utilizar los diseños factoriales:
— Permiten detectar la existencia de efectos interacción entre los diferentes factores
tratamiento.
— Es una estrategia más eficiente que la estrategia clásica de examinar la influencia de un
factor manteniendo constantes el resto de los factores.
Algunos diseños experimentales clásicos
Un diseño experimental es una regla que determina la asignación de las unidades
experimentales a los tratamientos. Aunque los experimentos difieren unos de otros en muchos
aspectos, existen diseños estándar que se utilizan con mucha frecuencia. Algunos de los más
utilizados son los siguientes:
Diseño completamente aleatorizado
El experimentador asigna las unidades experimentales a los tratamientos al azar. La única
restricción es el número de observaciones que se toman en cada tratamiento. De hecho, si ni
es el número de observaciones en el i-ésimo tratamiento, i = 1,…, I, entonces, los valores n1,
n2,...,nI determinan por completo las propiedades estadísticas del diseño. Naturalmente, este
tipo de diseño se utiliza en experimentos que no incluyen factores bloque.
El modelo matemático de este diseño tiene la forma:
Respuesta = Constante + Efecto Tratamiento + Error
13
Diseño en bloques o con un factor bloque
En este diseño el experimentador agrupa las unidades experimentales en bloques, a
continuación determina la distribución de los tratamientos en cada bloque y, por último,
asigna al azar las unidades experimentales a los tratamientos dentro de cada bloque.
En el análisis estadístico de un diseño en bloques, éstos se tratan como los niveles de un único
factor de bloqueo, aunque en realidad puedan venir definidos por la combinación de niveles
de más de un factor nuisance.
El modelo matemático de este diseño es:
Respuesta = Constante + Efecto Bloque + Efecto Tratamiento + Error
El diseño en bloques más simple es el denominado diseño en bloques completos, en el que
cada tratamiento se observa el mismo número de veces en cada bloque.
El diseño en bloques completos con una única observación por cada tratamiento se denomina
diseño en bloques completamente aleatorizado o, simplemente, diseño en bloques
aleatorizado.
Cuando el tamaño del bloque es inferior al número de tratamientos no es posible observar la
totalidad de tratamientos en cada bloque y se habla entonces de diseño en bloques
incompletos.
Diseños con dos o más factores bloque
En ocasiones hay dos (o más) fuentes de variación lo suficientemente importantes como para
ser designadas factores de bloqueo. En tal caso, ambos factores bloque pueden ser cruzados o
anidados.
Los factores bloque están cruzados cuando existen unidades experimentales en todas las
combinaciones posibles de los niveles de los factores bloques.
Diseño con factores bloque cruzados = También denominado diseño fila-columna, se
caracteriza porque existen unidades experimentales en todas las celdas (intersecciones de fila
y columna). El modelo matemático de este diseño es:
Respuesta = Constante + Efecto Bloque Fila + Efecto Bloque Columna + Efecto Tratamiento
+ Error
Los factores bloque están anidados si cada nivel particular de uno de los factores bloque
ocurre en un único nivel del otro factor bloque.
Diseño con factores bloque anidados o jerarquizados = Dos factores bloque se dicen anidados
cuando observaciones pertenecientes a dos niveles distintos de un factor bloque están
automáticamente en dos niveles distintos del segundo factor bloque.
En la siguiente tabla puede observarse la diferencia entre ambos tipos de bloqueo.
14
Diseños con dos o más factores
En algunas ocasiones se está interesado en estudiar la influencia de dos (o más) factores
tratamiento, para ello se hace un diseño de filas por columnas. En este modelo es importante
estudiar la posible interacción entre los dos factores. Si en cada casilla se tiene una única
observación no es posible estudiar la interacción entre los dos factores, para hacerlo hay que
replicar el modelo, esto es, obtener k observaciones en cada casilla, donde k es el número de
réplicas. El modelo matemático de este diseño es:
Respuesta = Constante + Efecto Factor Fila + Efecto Factor Columna + Efecto Interacción + Error
Generalizar los diseños completos a más de dos factores es relativamente sencillo desde un
punto de vista matemático, pero en su aspecto práctico tiene el inconveniente de que al
aumentar el número de factores aumenta muy rápidamente el número de observaciones
necesario para estimar el modelo. En la práctica es muy raro utilizar diseños completos con
más de factores.
Un camino alternativo es utilizar fracciones factoriales que son diseños en los que se supone
que muchas de las interacciones son nulas, esto permite estudiar el efecto de un número
elevado de factores con un número relativamente pequeño de pruebas. Por ejemplo, el diseño
en cuadrado latino, en el que se supone que todas las interacciones son nulas, permite
estudiar tres factores de k niveles con solo k2 observaciones. Si se utilizase el diseño
equilibrado completo se necesitan k3 observaciones.
Diseños factoriales a dos niveles
En el estudio sobre la mejora de procesos industriales (control de calidad) es usual trabajar en
problemas en los que hay muchos factores que pueden influir en la variable de interés. La
utilización de experimentos completos en estos problemas tiene el gran inconveniente de
necesitar un número elevado de observaciones, además puede ser una estrategia ineficaz
porque, por lo general, muchos de los factores en estudio no son influyentes y mucha
15
información recogida no es relevante. En este caso una estrategia mejor es utilizar una técnica
secuencial donde se comienza por trabajar con unos pocos factores y según los resultados que
se obtienen se eligen los factores a estudiar en la segunda etapa.
k
Los diseños factoriales 2 son diseños en los que se trabaja con k factores, todos ellos con dos
niveles (se suelen denotar + y -). Estos diseños son adecuados para tratar el tipo de problemas
descritos porque permiten trabajar con un número elevado de factores y son válidos para
estrategias secuenciales.
Si k es grande, el número de observaciones que necesita un diseño factorial 2k es muy grande
k−p
(n= 2k). Por este motivo, las fracciones factoriales 2 son muy utilizadas, éstas son diseños
con k factores a dos niveles, que mantienen la propiedad de ortogonalidad de los factores y
donde se suponen nulas las interacciones de orden alto (se confunden con los efectos simples)
k−p
por lo que para su estudio solo se necesitan 2 observaciones (cuanto mayor sea p menor
número de observaciones se necesita pero mayor confusión de efectos se supone).
En los últimos años Taguchi ha propuesto la utilización de fracciones factoriales con factores a
tres niveles en problemas de control de calidad industrial.
16
2. ANÁLISIS DE LA VARIANZA: Método ANOVA
¿Qué es Análisis de la Varianza (ANOVA)?
Análisis de la Varianza (ANOVA)
La técnica de análisis de varianza (ANOVA) también conocida como análisis factorial y
desarrollada por Fisher en 1930, constituye la herramienta básica para el estudio del efecto
de 1 o más factores (cada uno con 2 o más niveles) sobre la media de una variable continua.
La Varianza es una medida de dispersión que se utiliza para representar la variabilidad de un
conjunto de datos respecto de la media aritmética de los mismos. = Suma de la resta de cada
uno de los datos y la media, elevado al cuadrado, y finalmente, se divide entre el total de
datos.
También = La Desviación típica al cuadrado.
Siempre debe ser mayor o igual a 0 (Son cuadrados).
La desviación típica o estándar = Raíz cuadrada de la varianza.
Por tanto, es el test estadístico a emplear cuando se desean comparar las medias de 2 o más
grupos. Esta técnica puede generalizarse también para estudiar los posibles efectos de los
factores sobre la varianza de una variable.
La hipótesis nula de la que parten los diferentes tipos de ANOVA es que la media de la
variable estudiada es la misma en los diferentes grupos, en contraposición a la hipótesis
17
alternativa de que al menos dos medias difieren de forma significativa. ANOVA permite
comparar múltiples medias, pero lo hace mediante el estudio de las varianzas.
El funcionamiento básico de un ANOVA consiste en calcular la media de cada uno de los
grupos para a continuación comparar la varianza de estas medias (varianza explicada por la
variable grupo, inter-varianza) frente a la varianza promedio dentro de los grupos (la no
explicada por la variable grupo, intra-varianza). Bajo la hipótesis nula de que las
observaciones de los distintos grupos proceden todas la misma población (tienen la misma
media y varianza), la varianza ponderada entre grupos será la misma que la varianza
promedio dentro de los grupos. Conforme las medias de los grupos estén más alejadas las
unas de las otras, la varianza entre medias se incrementará y dejará de ser igual a la varianza
promedio dentro de los grupos.
Es una fórmula estadística que se utiliza para comparar las varianzas entre las medias (o el
promedio) de diferentes grupos. Una variedad de contextos lo utilizan para determinar si
existe alguna diferencia entre las medias de los diferentes grupos.
Por ejemplo, para estudiar la efectividad de diferentes medicamentos para la diabetes, los
científicos diseñan y experimentan para explorar la relación entre el tipo de medicamento y el
nivel de azúcar sanguínea resultante. La población de la muestra es un conjunto de personas.
Dividimos la población de la muestra en varios grupos y cada grupo recibe un medicamento en
particular durante un período de prueba. Al final del período de prueba, se miden los niveles
de azúcar sanguínea para cada uno de los participantes individuales. Luego, para cada grupo,
se calcula el nivel medio de azúcar sanguínea. ANOVA ayuda a comparar las medias de estos
grupos para averiguar si son estadísticamente diferentes o si son similares.
El resultado de ANOVA es la 'estadística F' o F ratio (F de Fisher). Este ratio muestra la
diferencia entre la varianza dentro del grupo y la varianza entre grupos, lo que finalmente
produce una cifra que permite concluir que la hipótesis nula es respaldada o rechazada. Si hay
una diferencia significativa entre los grupos, la hipótesis nula no es compatible y la razón F será
mayor.
El estadístico estudiado en el ANOVA, conocido como FratioFratio, es el ratio entre la
varianza de las medias de los grupos y el promedio de la varianza dentro de los grupos. Este
18
estadístico sigue una distribución conocida como “F de Fisher-Snedecor”. Si se cumple la
hipótesis nula, el estadístico F adquiere el valor de 1 ya que la intervarianza será igual a
la intravarianza. Cuanto más difieran las medias de los grupos mayor será la varianza entre
medias en comparación al promedio de la varianza dentro de los grupos, obteniéndose
valores de F superiores a 1 y por lo tanto menor la probabilidad de que la distribución
adquiera valores tan extremos (menor el p-value).
Varianza constante entre grupos (homocedasticidad): La varianza dentro de los grupos debe
de ser aproximadamente igual en todos ellos. Esto es así ya que en la hipótesis nula se
considera que todas las observaciones proceden de la misma población, por lo que tienen la
misma media y también la misma varianza.
Esta condición es más importante cuanto menor es el tamaño de los grupos.
El ANOVA es bastante robusto a la falta de homodedasticidad si el diseño es equilibrado
(mismo número de observaciones por grupo).
En diseños no equilibrados, la falta de homocedasticidad tiene mayor impacto. Si los grupos
de menor tamaño son los que presentan mayor desviación estándar, aumentará el número
de falsos positivos. Si por el contrario los grupos de mayor tamaño tienen mayor desviación
estándar aumentarán los falsos negativos.
Si no se puede aceptar la homocedasticidad, se recurre a lo que se conoce como ANOVA
heterodástica que emplea la corrección de Welch (Welch test), en R su función es, o al Test
no paramétrico prueba H de Kruskal-Wallis.
En el libro Handbook of Biological Statistics se considera altamente recomendable emplear
diseños equilibrados. Siendo así, consideran fiable el ANOVA siempre y cuando el número de
observaciones por grupo no sea menor de 10 y la desviación estándar no varíe más de 3
veces entre grupos. Para modelos no equilibrados recomiendan examinar con detalle la
19
homocedasticidad, si las varianzas de los grupos no son muy semejantes es mejor
emplear Welch’s ANOVA.
Terminología ANOVA
Variable dependiente: Elemento que se está midiendo y que se teoriza como afectado por las
variables independientes.
Variable(s) independiente(s): Elementos que se están midiendo y que pueden tener un efecto
sobre la variable dependiente.
Una hipótesis nula (H0): Sucede cuando no existe diferencia entre los grupos o medias.
Dependiendo del resultado de la prueba ANOVA, la hipótesis nula será aceptada o rechazada.
Una hipótesis alternativa (H1): Cuando se teoriza que existe una diferencia entre los grupos y
las medias.
Factores y niveles: En la terminología ANOVA, una variable independiente se denomina factor
que afecta a la variable dependiente. El nivel denota los diferentes valores de la variable
independiente que se utilizan en un experimento.
Modelo de factor fijo: Algunos experimentos utilizan solo un conjunto discreto de niveles para
los factores. Por ejemplo, una prueba de factor fijo evaluaría tres dosis diferentes de un
medicamento y no buscaría ninguna otra dosis.
Modelo de factor aleatorio: Este modelo extrae un valor aleatorio de nivel de todos los
valores posibles de la variable independiente.
¿Cuál es la diferencia entre ANOVA de un factor y de dos factores?
Existen dos tipos de ANOVA.
1. ANOVA unidireccional
El análisis de la varianza unidireccional también se conoce como ANOVA de un solo factor o
ANOVA simple. Como sugiere el nombre, ANOVA de una vía es adecuado para experimentos
con una sola variable independiente (factor) con dos o más niveles. Por ejemplo, una variable
dependiente puede ser en qué mes del año hay más flores en el jardín. Habrá doce niveles. Un
ANOVA unidireccional asume:
Independencia: el valor de la variable dependiente para una observación es independiente del
valor de cualquier otra observación.
Normalidad: el valor de la variable dependiente se distribuye normalmente
Varianza: la varianza es comparable en diferentes grupos de experimentos.
Continuo: la variable dependiente (cantidad de flores) es continua y se puede medir en una
escala que se puede subdividir.
El método ANOVA con un factor de clasificación permite comparar los niveles del factor
estudiado que participan en el diseño experimental. Por ejemplo, si en el experimento
participan distintos operadores, la comparación entre ellos permite verificar cuál consigue
mejores resultados.
En muchas aplicaciones del ANOVA la comparación de los niveles del factor estudiado es
prioritaria.
Es obvio que, al hacer tales comparaciones, existe un interés y un objetivo claro. Por ejemplo,
una comparación de cuatro instrumentos de medida se hace con el fin de estudiar si alguno da
20
más error que los restantes; en este caso, la variable de interés es el error de indicación de
cada instrumento después de haber sido calibrados con un patrón.
El método ANOVA con un factor de clasificación también llamado Diseño Completamente al
Azar (DCA) es el más simple de los diseños experimentales para comparar distintas
poblaciones y evaluar su variabilidad, dado que solamente considera la variación entre
poblaciones y el error aleatorio. Es muy importante que no existan otras fuentes de
variabilidad distintas a las que se han considerado en el estudio ya que esta circunstancia
invalidaría los resultados.
En muchas aplicaciones del ANOVA la comparación de los niveles del factor es prioritaria
2. ANOVA factorial completo (también llamado ANOVA bidireccional)
ANOVA factorial completo se utiliza cuando existen 2 o más variables independientes. Cada
uno de estos factores puede tener varios niveles. ANOVA factorial completo solo se puede
utilizar en el caso de un experimento factorial completo, donde se utilizan todas las posibles
combinaciones de los factores y sus niveles. Este podría ser el mes del año en el que existen
más flores en el jardín y luego la cantidad de horas de sol. Este ANOVA bidireccional no solo
mide la variable independiente frente a la independiente, sino también si los dos factores se
afectan entre sí. ANOVA bidireccional asume:
Continuo: Al igual que un ANOVA unidireccional, la variable dependiente deberá ser continua.
Independencia: cada muestra es independiente de otras muestras, sin combinaciones.
Varianza: la varianza de los datos entre los diferentes grupos es la misma.
Normalidad: las muestras son representativas de una población normal.
Categorías: Las variables independientes deberán estar en categorías o grupos separados.
¿Para que sirve ANOVA?
Algunas personas cuestionan la necesidad de ANOVA; después de todo, los valores medios se
podrían evaluar con solo mirarlos. Pero ANOVA hace más que comparar los valores medios.
Aunque los valores medios de varios grupos parecen ser diferentes, esto podría ser debido a
un error de muestreo más que al efecto de la variable independiente sobre la variable
dependiente. Si se debe a un error de muestreo, la diferencia entre las medias de los grupos
no tendrá sentido. ANOVA ayuda a averiguar si la diferencia en los valores medios es
estadísticamente significativa.
ANOVA también revela indirectamente si una variable independiente está influyendo en la
variable dependiente. Por ejemplo, en el experimento de nivel de azúcar sanguíneo anterior,
suponga que ANOVA encuentra que las medias de los grupos no son estadísticamente
significativas y que la diferencia entre las medias de los grupos se debe solo a un error de
muestreo. Este resultado infiere que el tipo de medicación (variable independiente) no es un
factor significativo que influya en el nivel de azúcar sanguíneo.
Limitaciones de ANOVA
ANOVA solo establecerá si existe una diferencia significativa entre las medias de al menos dos
grupos, pero no explicará cual es el par que difiere en sus medias. Si existe un requisito de
datos detallados, el despliegue de los procesos estadísticos de seguimiento adicionales
21
ayudará a descubrir qué grupos difieren en el valor medio. Normalmente, ANOVA se utiliza en
combinación con otros métodos estadísticos.
ANOVA también presupone que el conjunto de datos se distribuye uniformemente, ya que
solo compara medias. Si los datos no se distribuyen a lo largo de una curva normal y existen
valores atípicos, ANOVA no será el procedimiento adecuado para interpretar los datos.
De manera similar, ANOVA asume que las desviaciones estándar son iguales o similares entre
los grupos. Si existe una gran diferencia en las desviaciones estándar, la conclusión de la
prueba podría ser inexacta.
¿Cómo se utiliza ANOVA en la ciencia de datos?
Uno de los mayores desafíos del aprendizaje automático es la selección de las características
más fiables y útiles que se utilizan para formar un modelo. ANOVA ayuda a seleccionar las
mejores características para formar un modelo. ANOVA minimiza el número de variables de
entrada para reducir la complejidad del modelo. ANOVA ayuda a determinar si una variable
independiente está influyendo en una variable objetivo.
Un ejemplo del uso de ANOVA en la ciencia de datos es la detección de correo no deseado.
Debido a la gran cantidad de correos electrónicos y funciones de correo electrónico, se ha
vuelto muy difícil y requiere muchos recursos para identificar y rechazar todos los correos
electrónicos no deseados. ANOVA y las pruebas F se despliegan para identificar características
que son importantes para identificar correctamente qué correos electrónicos son spam y
cuáles no.
Preguntas que ANOVA ayuda a responder
Aunque ANOVA implica pasos estadísticos complejos, es una técnica beneficiosa para las
empresas mediante el uso de IA. Las organizaciones utilizan ANOVA para tomar decisiones
sobre qué alternativa elegir entre muchas posibilidades. Por ejemplo, ANOVA podrá ayudar a:
Comparar la producción de 2 variedades de trigo diferentes con 3 marcas de fertilizantes
diferentes.
Comparar la efectividad de varios anuncios en las redes sociales sobre las ventas de un
producto en particular.
Comparar la efectividad de diferentes lubricantes en diferentes tipos de vehículos.
Comparar dos o más materiales con el fin de elegir al que mejor cumple los requisitos.
Comparar varios instrumentos de medición para verificar si trabajan con la misma
veracidad y precisión.
Determinar los factores de un proceso que tienen impacto significativo sobre una o más
características del producto final.
Encontrar las condiciones de operación (temperatura, velocidad, humedad, por ejemplo)
que reduzcan los defectos o que logren un mejor desempeño del proceso.
Reducir el tiempo de ciclo del proceso.
Hacer el proceso insensible o robusto a oscilaciones de variables ambientales.
Apoyar el diseño o rediseño de nuevos productos o procesos.
Ayudar a conocer y caracterizar nuevos materiales.