0% encontró este documento útil (0 votos)
38 vistas50 páginas

Contraste de Hipótesis y ANDEVA

análisis de varianza

Cargado por

bryan
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
38 vistas50 páginas

Contraste de Hipótesis y ANDEVA

análisis de varianza

Cargado por

bryan
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Ing. Claudio Vargas Rojas, [Link].

Universidad de Costa Rica, Sede Regional de Guanacaste


Universidad de Costa Rica, Sede Regional de Guanacaste
Universidad de Costa Rica, Sede Regional de Guanacaste
Hipótesis
• Una hipótesis se define como una proposición o una
suposición acerca de una o más poblaciones.

• Suposiciones contrarias.
Hipótesis nula
• Siempre se establece como una igualdad, o sea
supone que ambos tratamientos son iguales.
Hipótesis alternativa
• Se establece como una diferencia, supone que
ambos tratamientos son diferentes.
Estadísticos de prueba
• La probabilidad “p” de que la diferencia observada
sea producto del azar es un área bajo la curva
delimitada por un valor de “F”.
Regla de decisión

Se admite que la probabilidad de que las diferencias encontradas se


Si p<0,05 deban al azar son muy bajas, por lo que rechazaremos la hipótesis
nula y aceptaremos la alternativa.

La probabilidad de que las diferencias encontradas sean debido al


Si p >0,05 azar son bastante altas como para aceptar la hipótesis alternativa y
por lo tanto no se rechaza la hipótesis nula.
Decisiones y errores

Realidad
Decisión
H0 verdadera H0 falsa
No rechazamos
Decisión acertada Error beta (β) o tipo II
H0

Rechazamos H0 Error alfa (α) o tipo I Decisión acertada


Etapas de la prueba de hipótesis
• Establecer H0 y HA.

• Seleccionar nivel de significancia (α).

• Identificar el estadístico de prueba.

• Formular regla de decisión.

• Tomar decisión.
a) Si son solo dos grupos a comparar, se hace una
prueba de T que básicamente lo que dice es qué
tan grande es la diferencia entre las medias.

b) Si son más de dos grupos a comparar, la estrategia


es distinta, se compara la varianza que hay entre
grupos con la varianza que hay dentro de grupo.

Universidad de Costa Rica, Sede Regional de Guanacaste


Ing. Jorge Claudio Vargas Rojas, [Link].

Universidad de Costa Rica, Sede Regional de Guanacaste


Análisis de varianza

• Permite comparar dos o más medias muestrales en


forma indirecta mediante la evaluación directa de la
varianza muestral.

• Diseñada para evaluar pruebas donde se cambia


algún factor en el proceso de producción.
Análisis de varianza

𝐻0 : 𝜇1 = 𝜇2 = . . . = 𝜇𝑡

𝐻𝐴 : 𝐴𝑙 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛𝑎 𝑑𝑒 𝑙𝑎𝑠 𝑡 𝑚𝑒𝑑𝑖𝑎𝑠 𝑑𝑒 𝑙𝑜𝑠 𝑡𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠


𝑒𝑠 𝑑𝑖𝑠𝑡𝑖𝑛𝑡𝑎
Análisis de varianza
𝑦𝑖𝑗 = 𝜇 + 𝜏𝑖 + 𝜀𝑖𝑗 𝑐𝑜𝑛 𝑖 = 1, … , 𝑡 𝑦 𝑗 = 1, … 𝑛

Donde:

t = cantidad de tratamientos en evaluación

n = cantidad de unidades experimentales que se evaluarán en cada tratamiento

𝑦𝑖𝑗 = es la j- ésima observación del i-ésimo experimental.


𝜇 = media general.
𝜏𝑖 = es el efecto del i-ésimo tratamiento
𝜀𝑖𝑗 = error aleatorio asociado a cada observación ij. Se supone que este término es independiente
y que se distribuye normal con esperanza 0 y varianza 𝜎 2 .
Análsis de varianza
Parcelas

12,3 estas
Las parcelas 12,0 12,1
son muy 12,0
similares 12,1
en todo sentido:
Son 11,8
del mismo11,8
tamaño. 11,8 11,8 son de
Las plantas 11,7
la Varianza
12,0 12,2 12,1
misma12,1
especie. 12,0 promedio
Tienen la misma forma.
11,7 11,7 11,6
Misma 11,7
variedad. 11,8
Se encuentran en el
11,9
mismo sitio. 11,6 11,6 11,5 recibieron
Las plantas 11,6 la
VARIANZA DENTRO =
0,053 misma 0,057
fertilización.
El suelo de ese0,058
sitio es 0,063 0,043 0,055
TOTAL = bastante
59,7 homogéneo.
59,3 Las plantas
59,2 59,1 reciben el
59,2 0,055
mismo tratamiento anti
Fueron plantadas al
plagas, enfermedades y
mismo tiempo.
malezas.
Varianza de los totales (entre)
Supongamos ahora que cada una de las parce-
las recibió un tratamiento adicional, diferente
en cada una de ellas; puede ser – por ejemplo –
la0fertilización.
kg/ha 50 kg/ha 75 kg/ha 100 kg/ha 125 kg/ha

Las12,3
parcelas 22,0
siguen siendo
27,1 similares
32,0 en todos
30,1
los 11,8
sentidos que
21,8se enumeraron
26,8 anteriormente,
31,8 29,7
solo que en vez de recibir todas la misma Varianza
12,0 22,2 27,1 32,1 30,0
cantidad de fertilizante, reciben distinta canti- promedio
dad;11,7
esto con21,7 26,6 cuánto
el fin de afinar 31,7fertilizante
29,8
es el que ocupa
11,9 21,6las plantas.
26,6 31,5 29,6
Varianza entre =La0,053
medida de la efectividad
0,058 0,063 de0,057
la cantidad de
0,043 0,0555
fertilizante fue la cosecha, que es el objetivo de
la producción.
Totales = 59,7 109,3 134,2 159,1 149,2 1576,81

Varianza calculada con


los totales de producción
Análisis de varianza
• Al promedio de varianzas se les conoce como variabilidad
dentro de la parcela.

• Y la varianzas de los totales se les conoce como


variabilidad entre parcelas.

• Cuando se adicionan tratamientos alteramos la


variabilidad entre parcelas.

• Pruebas muy bien diseñadas y controladas, para que no


exista ningún factor que altere la variabilidad natural.
Análisis de varianza
• El contrate de hipótesis se basa en comparación de dos
“varianzas muestrales” .

• Una es la varianza dentro de tratamientos o cuadrado


medio del error (CMD) y la otra es la varianza entre
tratamientos o cuadrado medio entre tratamientos
(CME).

• Esta comparación de dos varianzas se realiza por medio


de una prueba F basada en el estadístico F igual al
cociente de las dos varianzas.
Análisis de varianza
𝜎 2 𝐸 es estimada por CME

𝜎 2 𝐷 es estimada por CMD

Luego:
CME
𝐹= ∼ 𝐹 𝑡−1 ,(𝑁−1)
CMD
Análisis de varianza
• El estadístico de prueba para el análisis de
varianza es “F”. Se le asignó esta letra en
honor a Sir Ronald Fisher quien en 1920
introdujo el concepto de inferencia estadística
entre muchos otros aportes
Análisis de varianza

Si la F estimada es mayor que el cuantil (1-α) de la


distribución 𝐹 𝑡−1 ,(𝑛−𝑡) se rechaza 𝐻0 .
Ejemplo

Universidad de Costa Rica, Sede Regional de Guanacaste


Ejemplo

Repetición
Tratamiento
1 2 3

A 4,00 3,95 4,30

B 5,35 4,95 4,95

C 4,75 4,95 5,60


Notación

𝑛. = 𝑛𝑖
𝑖

Es la cantidad total de observaciones (nt si hay n observaciones en cada


tratamiento).
Notación

𝑌𝑖. = 𝑌𝑖𝑗
𝑗 =1

Es la suma de todas las observaciones del tratamiento i


Notación

𝑡 𝑛

𝑌.. = 𝑌𝑖𝑗
𝑖=1 𝑗 =1

Es la suma de todas las observaciones (gran total).


Notación

𝑛
1
𝑌𝑖. = 𝑌𝑖𝑗
𝑛
𝑗 =1

Es la media de las observaciones del tratamiento i.


Notación

𝑡 𝑛
1
𝑌.. = 𝑌𝑖𝑗
𝑛𝑡
𝑖=1 𝑗 =1

Es la media de todas las observaciones (media general).


Suma de cuadrados
Suma de cuadrados total

𝑡 𝑛
(𝑌 )2
..
𝑆𝐶𝑇 = 𝑌𝑖𝑗 2 −
𝑛.
𝑖=1 𝑗 =1
Suma de cuadrados
Suma de cuadrados ENTRE

𝑡
(𝑌𝑖. )2 (𝑌.. )2
𝑆𝐶𝐸 = −
𝑛𝑖 𝑛.
𝑖=1
Suma de cuadrados
Suma de cuadrados DENTRO

𝑆𝐶𝐷 = 𝑆𝐶𝑇 − 𝑆𝐶𝐸


Repetición
Tratamiento Totales trat Medias trat
1 2 3

A 4,00 3,95 4,30

B 5,35 4,95 4,95

C 4,75 4,95 5,60

Total
Suma de Grados de Cuadrados
Fuente de variación F Prob(>F)
cuadrados libertad medios

Entre tratamientos
(Variedades)

Dentro (Residual)

Total
Análisis de varianza
Variabilidad total

Variabilidad inducida
por tratamientos
(entre grupos)

Variabilidad natural
(dentro de grupos)
¿Cómo hacer un ANDEVA en R?
Supuestos básicos
• Se define residuo de la j-ésima observación del i-
ésimo tratamiento como el predictor de 𝜀𝑖𝑗 , que se
denota como 𝑒𝑖𝑗 .

• Es la diferencia entre el valor observado y el valor


predicho por el modelo.

𝑒𝑖𝑗 = 𝑦𝑖𝑗 − 𝑦𝑖𝑗


Supuestos básicos

a) Los errores deben ser independientes.

a) La distribución de los residuos debe ser normal.

a) Las varianzas de todos los tratamientos debe ser


homogéneas.
El supuesto de independencia

𝑐𝑜𝑣(𝑒𝑖 , 𝑒𝑗 ) = 0
Causas potenciales falta de
independencia
• Variables aleatorias que se cuantifican a lo largo del
tiempo.

• Correlación espacial.

• Falta de aleatorización.
Normalidad
• La distribución de los residuos debe ser normal.

• Es importante saber diferencia entre variables


discretas y variables continuas.
Causas potenciales de problemas de
normalidad
• Desconocimiento de la diferencia entre variable
discreta y variable normal.

• Mala selección de las variables para medir el efecto


de los tratamientos.

• Utilización de un inadecuado número de


repeticiones.
Homogeneidad de varianzas
• Se asume que todos los tratamientos tienen un
comportamiento similar; esto es: un patrón de
variabilidad similar.

• O sea, todos los términos de error aleatorio del


modelo lineal tienen la misma varianza.
Este supuesto asume que todos los tratamientos tienen un patrón de
variabilidad similar

varianzas iguales

varianzas desiguales
Universidad de Costa Rica, Sede Regional de Guanacaste
Causas potenciales de problemas de
homogeneidad de varianzas
• Inclusión dentro de los tratamientos de testigos mal
escogidos.

• Selección de tratamientos de muy diverso modo de


acción.

• Utilización de un inadecuado número de


repeticiones.
El caso del testigo:

Supongamos que una


EnEnestas
estasparcelas
evaluación
varianzas: parcelas
de esteelelresultado
resultadodel
del
conteosería
conteo
ensayo sería
sería:
es un algoasí
algo
conteo asícomo:
de como:
44,33, 4,33, 0
0,3,0,89,
98, 6,0 2102 varianza
malezas... varianza = 0= 4,33
varianza = 44,33
definitivamente estos tres
tratamientos no tienen un
comportamiento similar
Muchas gracias

También podría gustarte