UNIVERSIDAD BOLIVARIANA DE VENEZUELA
DIRECCIÓN GENERAL ACADEMICA
DIRECCIÓN DE PLANIFICACION Y DESARROLLO CURRICULAR
ANÁLISIS DEL DATO ESTADÍSTICO II
GUIA DIDACTICA
Por
Profesores
HERRERA, ROBERTO. PEÑA, CAROLINA,
GODOY, MANUEL Y BRICEÑO, GIOCONDA
DEL PFG EN GESTIÓN AMBIENTAL-UBV, SEDE CARACAS,
CARACAS, SEPTIEMBRE DE 2005
INDICE
Presentación 3
CAPITULO I Probabilidad básica y sus distribuciones 4
CAPITULO II: Prueba de hipótesis e intervalos de confianza 24
CAPITULO III Regresión y correlación 47
CAPITULO IV Análisis de varianza 64
ANEXO 80
2
ANÁLISIS DEL DATO ESTADÍSTICO
GUIA DIDACTICA
PRESENTACIÓN
La Guía Didáctica de "Análisis del Dato Estadístico II ” está diseñada
para que los profesores - facilitadores de la UBV contribuyan al logro de la
competencia en el uso de las herramientas estadísticas y generar bases que
apoyen la toma de decisiones en proyecto..
La estadística Inferencial es una herramienta fundamental para la
formulación, ejecución, supervisión, control de calidad y toma de decisiones de
cualquier proyecto socio comunitario y de investigación. El egresado de la UBV
tiene que manejar con soltura un leguaje estadístico revestido con una gran
sencillez y comprensible, que permita una fluida comunicación dentro de un
grupo trabajo interdisciplinario y que al mismo tiempo pueda apoyar la
resolución de una gran cantidad de situaciones que requieran el estudio de un
conjunto de datos para su mejor compresión y aporte de soluciones.
Esta guía didáctica expone de manera sencilla, elementos de
probabilidad y de estadística Inferencial.
La sencillez de esta guía no disminuye su validez didáctica, apta para todo
aquel que se inicia en el estudio de la estadística Inferencial. Esta herramienta
es indispensable para los proyectos socio comunitarios y de investigación que
aspiren a tener base cuantitativa, pues un proyecto sin datos estadísticos y su
interpretación e inferencia presenta una gran debilidad al momento de tomar
decisiones.
Esta unidad curricular ha sido diseñada de manera de suministrar una
herramienta de utilidad, la cual apoyada en la antropogogía como estrategia
didáctica impulsará el trabajo autónomo, responsable y participativo de los
alumnos, en la ejecución eficaz del diagnóstico integral sociocomunitario que
se realiza durante el Proyecto.
La estructura de la guía consta de 4 Capítulos y un anexo
CAPITULO I Probabilidad básica y sus distribuciones
CAPITULO II: Muestreo, prueba de hipótesis e intervalos de confianza
CAPITULO III Regresión y correlación
CAPITULO IV Análisis de varianza
ANEXO Ampliación de temas varios
3
GUÌA DIDÁCTICA
U .C. ANÀLISIS DEL DATO ESTADÍSTICO II
Por
HERRERA, Roberto. PEÑA, Carolina, GODOY, Manuel y BRICEÑO,
Gioconda del PFG en Gestión Ambiental-UBV, Sede Caracas,
.
CAPITULO 1
TEMA 1: PROBABILIDAD BASICA Y SUS DISTRIBUCIONES
OBJETIVO: El estudiante comprende la importancia del uso de las
probabilidades y distribuciones en la estadística y sus aplicaciones.
COMPETENCIAS A LOGRAR:
1. Comprende las definiciones básicas como son: Probabilidad, Diferentes
tipos de probabilidad, diferentes distribuciones de probabilidades:
Normal, Poisson, entre otras.
2. Comprende la importancia de obtener buenos resultados en las
probabilidades y sus distribuciones.
3. Comprende cada uno de los procesos que involucra una investigación
estadística inferencial.
4. Define la fuente y afina las herramientas para el manejo de la
probabilidad y sus distribuciones en las necesidades y complejidad de
los distintos escenarios.
5. Diseña el instrumento para la recolección de datos.
6. Comprende la Importancia de la probabilidad y sus distribuciones en la
vida diaria y en la formulación, ejecución y validación de proyectos.
CONTENIDOS
1. ¿Qué es la probabilidad?
Es el número al que tiende la frecuencia relativa de un suceso que esta
asociada al número de veces que se realiza el experimento.
Por definición, entonces, la probabilidad se mide por un número en que
se localiza entre cero y uno: Si un suceso no ocurre nunca, su probabilidad
asociada es cero, mientras, que si ocurriese siempre su probabilidad sería igual
a uno.
Así, las probabilidades suelen venir expresadas como decimales,
fracciones o porcentajes.
Su fórmula se expresa de la siguiente manera:
4
; Donde f: número de casos favorables
n: número de casos posibles o realizados
Variable: Es una característica de interés acerca de cada elemento de una
población o una muestra. Las variables en las probabilidades se
clasifican de la siguiente manera:
Variable independiente: es aquella propiedad de un fenómeno a la que
se le va a evaluar su capacidad para influir, incidir o afectar a otras
variables.
Ejemplo: El tiempo transcurrido en una hectárea de árboles en la zona
de Las Delicias del Estado Aragua.
Variable dependiente: puede ser definida como los cambios sufridos por
los sujetos como consecuencia de la manipulación de la variable
independiente por parte del experimentador.
Ejemplo: La crecimiento de la población del gusano de palma en el
Parque del Este en Caracas en los meses de Octubre- Diciembre
del año 2003.
Variable aleatoria: variable que toma diferentes valores como resultado
de un experimento aleatorio.
Variable aleatoria continua: variable aleatoria que puede tomar infinitos
valores dentro de un rango cualquiera.
Variable aleatoria discreta: variable que toma un número finito o
infinito de valores numerables.
¿Qué es un experimento?
Es todo proceso que produce un resultado u observación.
¿Qué es un Espacio Muestral?
Es el conjunto de todos los resultados posibles de un evento ò proceso
se simboliza por letras mayúsculas, S = {árboles, ríos, casas,}, también
se pueden representar en cuadros o formatos ya elaborados.
¿Qué es un Evento?
Es cualquier subconjunto del espacio muestral.
Ejemplo: En la UBV, se clasificó a cada estudiante de acuerdo con años y
sexo. Los resultados se resumen en la siguiente tabla:
Años \ varones y hembras Varones (V) Hembras (H) TOTAL
5
2002 (1er año) 100 80 180
2003 (2do año) 70 50 120
2004 (3er año) 50 40 90
TOTAL 220 170 390
Determine la probabilidad de que al seleccionar el estudiante al azar sea:
1. De segundo año P1
2. Hembra P2
3. De tercer año P3
4. Varón P4
Solución:
Se procede de la siguiente manera:
Los eventos son: f: el estudiante elegido sea de segundo año.
n: el estudiante elegido sea hembra.
Se calcula las cuatro probabilidades a la vez:
= 0,3076 P1= 0,3076; P1= 30,76%
P2 = 0,4358; P2 = 43,58%
P3 = 0,2307; P2 = 23,07%
P4 = 0,5641; P4 = 56,41%
Interpretación: Esto quiere decir que:
1. Existe el 0,3076 ó 30,76 % de probabilidad de que
sea de segundo año,
2. El 0,4358 ó 43,58% de probabilidad de que sea
hembra.
3. Existe el 0,2307 ó 23,07 % de probabilidad de que
sea de tercer año,
4. El 0,5641 ó 56,41% de probabilidad de que sea
varón.
PROPIEDADES DE LA PROBABILIDAD:
6
Si el evento no puede ocurrir, su probabilidad es igual a cero.
Si el evento ocurre, entonces su probabilidad es igual a uno.
Esto es, 0 P(A) 1
En otra forma P(A) = 0
P(A) = 1
Ejemplo: En los archivos de una clínica médica se han clasificado pacientes
por su sexo y tipo de diabetes (I o II). Los grupos se exhiben a continuación. El
cuadro indica el número de pacientes en cada clase.
\ tipos de diabetes Tipo I
sexo Tipo II TOTAL
Masculino 25 20 45
Femenino 35 20 55
TOTAL 55 40 95
Si se selecciona un archivo aleatoriamente, determine las probabilidades de
que el individuo seleccionado:
a.- sea de sexo femenino
b.- tenga diabetes del tipo II
Solución: Se procede de la siguiente manera:
Los eventos son: f: Los pacientes de diabetes tipo II.
n: Los pacientes femeninos de diabetes tipo II.
Se calcula las cuatro probabilidades a la vez:
0,578 P1= 0,578 ; P1= 57,8%
0,010 P2 = 0,010; P2 = 0,10%
P3 = ; P 2 = %
0 P4 = ; P 4 = %
Interpretación: Esto quiere decir que:
1.- Existe el 0,578 ó 57,8 % de probabilidad de que sea
de tipo II.
2.- El 0,010 ó 0,10% de probabilidad de que sea
femenino.
3.- Existe el 0,2307 ó 23,07 % de probabilidad de que
sea de tercer año,
7
4.- El 0,5641 ó 56,41% de probabilidad de que sea
varón.
REGLAS DE PROBABILIDAD PARA LA ADICIÓN Y EL PRODUCTO
Si se tienen dos eventos cualesquiera, identifiquémoslo con las letras
mayúsculas A y B, entonces
Para la adición: P(A o B) = P(A) + P (B) – P(A –B)
Y también, P(A o B) = P(A) + P (B)
Para eventos independientes:
Probabilidad condicional: P(A/B) = P(A y B) / P (B)
Para el Producto: P(A y B) = P(A) . P(B /A)
O bien P(A y B) = P(B) . P(A /B)
P(A y B) = P(A) . P(B)
1.1.4. TIPOS DE PROBABILIDADES:
1. Probabilidad simple: Probabilidad de que el dato escogido tenga una
característica.
Ejemplo: Cuando se trata de persona; es hombre o mujer.
2. Probabilidad conjunta: Probabilidad de escoger un dato con dos (o más)
características específicas.
Ejemplo: Cuando se trata de persona; es hombre o mujer, la talla y peso; son
más de dos características.
Para el estudio de este tipo de probabilidad conjunta lo detallaremos de
la manera siguiente:
- Probabilidad Conjunta de eventos mutuamente excluyentes: Son
aquellos eventos definidos de manera que la ocurrencia de uno es
imposible la ocurrencia de los demás, (brevemente, si alguno de ellos
sucede, los restantes no pueden suceder). Se denotan en la fórmula con
la letra ó.
- Probabilidad Conjunta de eventos solapados: Dos o más eventos
son solapados si tienen puntos muestrales comunes, estos puntos
maestrales forman una intersección entre ellos. Se denotan en la
fórmula con la letra y.
- Probabilidad Conjunta de eventos complementarios: Dos eventos
son complementarios si el segundo eventos tiene todos los puntos
muestrales que no están en el primer evento.
8
- Probabilidad Conjunta de eventos independientes: Dos eventos son
independientes cuando la ocurrencia o no ocurrencia de uno de ellos en
una prueba, no afecta la probabilidad del otro en cualquier otra prueba.
- Probabilidad Conjunta de eventos dependientes: Dos o más eventos
son dependientes cuando el conocimiento de la verificación de uno de
ellos, altera la probabilidad de verificación del o de los otros.
Ejemplo: Una compañía desea probar un producto en una zona comercial
seleccionada aleatoriamente. Las áreas pueden ser clasificadas con base en
su ubicación y densidad de población. A continuación en la tabla siguiente se
presenta el número de mercados en cada categoría:
POBLACI
DENSIDAD DE
ÓN
UBICACIÓN Urbana(U) Rural (R) TOTAL
Este (E) 25 50 75
Oeste (O) 20 30 50
TOTAL 45 80 125
¿Cuál es la probabilidad de que el mercado seleccionado para la prueba esté
en el este P(E)?
¿Cuál es la probabilidad de que el mercado seleccionado para la prueba esté
en el oeste P(O)?
¿Cuál es la probabilidad de que esté localizado en un área urbana P(U)?
¿Cuál es la probabilidad de que esté localizado en un área rural P(R)?
¿Cuál es la probabilidad de que el mercado este en un área rural al oeste, P(R
y O)?
¿Cuál es la probabilidad de que esté al este o dentro de un área urbana, P(E ó
U)?
¿Cuál es la probabilidad de que si está en el este, esté localizado en un área
urbana, P(U/ E)?
¿Son independientes la “ubicación” y la “densidad de población”?
Solución: Las primeras cuatro probabilidades, P(E), P(O), P(U), y P(R)
representan preguntas del tipo “o”; esto quiere decir que los componentes son
mutuamente excluyentes, estas probabilidades se pueden resolver aplicando la
fórmula conocida, obteniendo las probabilidades sumando cada caso a través
de las hileras o columnas del cuadro. En consecuencia los totales se
encuentran en el total de columnas o hileras.
(Total para el estudio dividido entre el número total de
mercados)
9
(Total para el oeste dividido entre el número total de
mercados)
(Total para la ubicación urbana dividido entre el número total de
mercados)
(Total para la ubicación rural dividido entre el número total de mercados)
Ahora se obtendrá P(O y R). Hay 30 mercados en el Oeste y 125
mercados en total. Así:
Nótese que P(O).P(R) NO proporciona la respuesta correcta
. En consecuencia, “ubicación” y “densidad de población”
son eventos dependientes.
La probabilidad P (E ó U) puede hallarse en varias formas. La más
directa es examinando simplemente el cuadro y contando el número de
mercados que satisfacen la condición de estar en el este o ser urbanos. El
número obtenido es
95 = (25 + 50 + 20). Así:
Nótese que los primeros 25 mercados están en el este y son urbanos;
así E y U no son eventos mutuamente excluyentes.
Otra manera de encontrar P (E ó U) es utilizando la fórmula de la
adición:
, lo cual produce:
Una tercera forma de resolver el problema consiste en reconocer el
complemento de (E ó U) es (O y R). Así P(E ó U) = 1 – P(O y R). Utilizando el
cálculo anterior se obtiene 1
Finalmente se obtendrá P(U/E). Si se examina el cuadro anteriormente
dado puede hacerse que hay 75 mercados en el Este. De estos, 25 son
urbanos. Así:
10
También puede utilizarse la fórmula de la probabilidad condicional:
“Ubicación” y “densidad de población” NO son eventos independientes
(para este caso). Son dependientes, esto significa que loa probabilidad de
estos eventos resulta afectada por la ocurrencia del otro.
3. Probabilidad marginal (al margen de la tabla): No es más que la
probabilidad simple, vista con otro enfoque; o sea, mientras que la probabilidad
simple es un concepto singular, la probabilidad marginal es esencialmente una
suma de probabilidades conjuntas.
Ejemplo: Se presentó en el ejemplo de la tabla del primer ejemplo.
2.1. DISTRIBUCIÓN.
2.1.1. ¿Qué es la Distribución?
La distribución probabilística es esencialmente una explicación del
comportamiento de un determinado fenómeno, es una herramienta
imprescindible para tomar decisiones en aspectos donde de alguna forma
intervenga la incertidumbre.
Existen varios tipos de distribuciones, las cuales son:
2.2.1. Distribución Binomial
Una distribución sigue la ley binomial siempre y cuando se cumplan las
siguientes hipótesis:
1.-Un experimento es repetido varias veces, siendo sus resultados
independientes.
2.-Los resultados de cada experimento se pueden clasificar en dos categorías
mutuamente excluyentes, llamadas “éxito” o “fracaso”.
3.-Las probabilidades de “éxito” o “fracaso” en una sola prueba, designadas
respectivamente por p y q, donde q =1 – p, son invariables en todas las
pruebas o experimentos.
4.-En cualquier experimento, el centro de interés estriba en si los resultados
esperados ocurren o no.
5.- El experimento se realiza en las mismas condiciones un número fijo de
pruebas “n”.
6.- La distribución es asimétrica negativa si; p > 0,5 ó p >1/2
7.- La distribución es asimétrica positiva si; p< 0,5 ó p < 1/2
8.- Es simétrica la distribución cuando p = 0,5 ó p = 1/2
11
9.- La distribución binomial se plica cuando la muestra proviene de una
población infinita o cuando es extraída de una población finita con
remplazamiento.
Su expresión matemática es:
Ejemplo: El 60% de las historias clínicas de un hospital de Caracas
corresponden a adolescentes. Si se seleccionan 5 historias clínicas, ¿Cuál es
la probabilidad de que ellas correspondan a adolescentes?
Solución: 1.- La ecuación es
2.- k es la cantidad de éxitos esperados: k = 3
3.- n es la muestra seleccionada: n = 5
4.- p es la probabilidad de éxito: p = 60/100 = 3/5
5.- q es la probabilidad de no éxito: q = 1 – p = 1 3/5 = 2/5
6.- Se desarrolla el número combinatorio:
donde; =
7.- Se sustituyen los valores en la fórmula:
P(3, 5, 3/5) = 10 . (3/5) 3 . (2/5)5-3 =10 .(27/125). (4/25) = 1080/3125
=0,3456.
Interpretación: Si el 60% de las historias clínicas de un hospital son de
adolescentes y del grupo se eligen 5 al azar, existen una probabilidad de
0.3456 de que 3 de ellas sean de adolescentes.
2.2.2. Media y Desviación Estándar de la Distribución Binomial
La media y la desviación estándar de una distribución binomial pueden
obtenerse utilizando las dos fórmulas siguientes:
Esperanza matemática: = n.p Donde; : Esperanza matemática
n : número de puntos muestrales
Varianza: 2x = n. p. q p: que indica éxito
Desviación Típica: x = n. p. q q: (1 – p): que indica fracaso
12
Ejemplo:Determinar la media y la desviación estándar de la distribución
binomial donde n = 20 y p =1/5. Recuerde que esta distribución tiene o se
compone de un cuadro sus valores con sus respectivas probabilidades, en este
caso 21 valores y 21 probabilidades correspondientes.
Solución: Ahora utilizando la fórmula de la media y desviación estándar de
esta distribución son iguales a:
= n.p = (20)(1/5)= 4.0; es el valor medio de la variable aleatoria
x.
x = = = = = 1,79
x = 1.79 es la desviación estándar de la variable aleatoria x. Además como lo
dice en el enunciado, el dicho cuadro con sus 21 valores de x y sus 21
probabilidades correspondientes tienden a un decrecimiento en sus valores de
x.
3. DISTRIBUCIÓN NORMAL
La distribución normal se presenta con un enfoque más práctico
representándose con una gráfica o Curva Normal o De Campana utilizando
una escala aproximada, como se indica en la figura siguiente:
En la siguiente figura se muestra la porcentaje-proporción que están
relacionados, por lo general se utiliza el porcentaje, por ejemplo en una
población, con la posibilidad de que el evento que se estudia tome un valor
entre ciertos límites
13
Una variable aleatoria tiene una distribución normal general, si es continua, si
existen parámetros: “” (letra griega, miu) con un valor entre - y +, y “”
(letra griega, sigma) con valor mayor que cero; y si su función de densidad
“f(x)” es de la forma:
f(x) =
La representación gráfica de esta expresión es una curva simétrica
respecto a la ordenada máxima.
Para indicar que una variable aleatoria sigue una distribución normal, se
utiliza la notación:
X N ( ,)
PROPIEDADES DE LA
DISTRIBUCIÓN NORMAL
1.- Tiene como parámetros a: “” y
“”, N ( ,).
2.- La curva de la distribución normal
es asintótica, es decir, las colas de la
curva nunca llegan a tocar el eje de las
abscisas.
14
3.- La distribución normal es simétrica con respecto a la ordenada máxima,
siendo por lo tanto, las medidas de tendencia central iguales entre sí, es decir,
4.- Si “X” está normalmente distribuida con “” y “”, entonces, z = (X - )/,
estará también normalmente distribuida.
Esta transformación de “X” a “z” (tipificación o estandarización) tiene el
efecto de reducir “X” a unidades en términos de desviación típica. Es decir,
dado un valor “X”, el correspondiente valor de “z”, nos dice en qué sentido y a
que distancia se encuentra “X” de su “” (media aritmética) en términos de
desviaciones típicas.
Esta propiedad nos permite transformar el modelo normal general en el
modelo normal tipificado o estandarizado:
3.1. DISTRIBUCIÓN NORMAL TIPIFICADO ó ESTANDÁR
Se dice que una distribución normal es de la forma estándar si su media
aritmética es cero y su varianza es uno, y por lo tanto, su desviación típica es la
unidad. Para esta distribución vamos a trabajar con el valor z, las medidas
están asociadas a una variable x que esta determinada por su posición relativa
con respecto a la media y la desviación estándar de la distribución, donde el
valor de z esta definido de la siguiente manera:
Z=
El valor de z es considerado como una variable “estandarizada” ya que
sus unidades son desviaciones estándares, es decir que todas las
probabilidades están asociadas a intervalos centrados en la media para los
valores específicos a el valor z, esto lo llamamos también representación de la
probabilidad mediante un área.
Donde el valor de z se representa en el intervalo;
P (- < z <+ ); o valor de esta en valores positivos y negativos,
y viene dada por:
f(z) = ; la cual gráficamente representa
una curva simétrica con respecto a “z =0”.
15
Cuando los valores viene dados por la “tabla de la distribución normal”, y con
valores o números reales (positivos y negativos), para tipificar la puntuación,
esto es, tomar en cuenta la simetría de f(z) con respecto a z, se proporciona el
cálculo y su uso de la tabla de la distribución normal, como se sigue la fórmula
Z1 = ; Z2 = …. En general
Z=
Ejemplo: Al aplicar una encuesta de habilidades numéricas al sector “Los
Maguitos” de la parroquia San Juan, se tomó una muestra a 300 personas de
dicho sector, donde se obtuvo una distribución normal con una = 36 puntos y
x = 5. Se desea saber:
a.- La amplitud intercuartil.
b.- ¿Cuál es la probabilidad de obtener una puntuación igual o inferior a X=
32?
c.- ¿Cuántas personas de la muestra tienen un puntaje igual o mayor que X
=34?
Solución: Existen “tres maneras” de resolver este ejercicio:
1era manera:
1.- Para calcular la amplitud es necesario conocer los cuarteles primero y
tercero (Q1 y Q3). Esta amplitud es la diferencia de los dos cuarteles.
2.- Como la distribución es normal, bastará con buscar cuáles son los puntos
de la distribución que separan el 25% inferior a la media aritmética y el 25%
superior. Para ello, obtenemos las puntuaciones z correspondiente.
3.- Una vez conseguidos los valores de z, buscamos en la tabla de áreas bajo
la curva normal con los porcentajes anteriores, se despeja de la ecuación de z,
la incógnita (X = puntuación que corresponderían a los cuarteles Q1 y Q2).
Z1 = Z2 =
16
X1 = Q1 = 5 (-0,67) + 36 = 32,65.
X2 = Q2 = 5 (0,67) + 36 = 39,35.
Se calcula la amplitud intercuartíl: Q
Q = Q2 - Q1 = 39,35 – 32,65 = 6,7.
2da manera:
1.- La probabilidad de obtener una puntuación igual o inferior a 32, es la
proporción del área de la curva normal existente por debajo de esa puntuación
bruta o directa.
2.- Se tipifica la puntuación:
Z=
3.-la puntuación tipificada (z= -0,80) se busca en la tabla de áreas bajo la curva
normal y corresponde a un 28,81%. Por lo tanto, por debajo de dicha
puntuación se encontrará un (50 -28,81) =21,19%.
3era manera:
1.- Como la distribución es normal, los alumnos que tengan una puntuación
igual o mayor que 34, corresponderá al porcentaje de la curva normal que
supere esa puntuación.
2.- Se obtiene la puntuación típica:
17
Z=
3.- Se busca en la tabla de áreas para la curva normal, el valor (z= -0,40),
obteniéndose un porcentaje igual a 15,54%.
4.- Como z= -0,40, es negativa, el porcentaje de alumnos, ubicados por encima
de esa puntuación, será (15,54% + 50) = 65,54%.
5.-Si la muestra tiene 3000 alumnos, la cantidad de los que le superen esa
puntuación (X= 34), es el 65,54% de 300, es decir (300)(65,54)/100 = 197
alumnos.
NORMALIZACIÓN
Escala T: Los puntajes obtenidos en una distribución cualquiera pueden
llevarse a puntos equivalentes dentro de una distribución normal.
Los puntajes T son puntajes estándar normalizados, convertidos en una
distribución cuya media aritmética es 50 y alejándose en -5 de la media, le
corresponde 0, mientras que el se aleja 5 de la media, tiene 100 puntos. Para
obtener un puntaje T, se utiliza la siguiente fórmula:
T = 50 + 10 .z
Ejemplo: Transformar las puntuaciones de la prueba de Biología de UBV, a la
escala de veinte valores, utilizando la escala T.
Solución:
1.-Se obtienen las frecuencias ajustadas con la siguiente ecuación:
F ajustada = F inferior = ½ . f
Es decir, para calcular la frecuencia ajustada de una determinada casilla o
intervalo de clase en una distribución de frecuencias, se le suma a la frecuencia
18
acumulada inferior, la mitad de la frecuencia absoluta ordinaria de la casilla con
que se esté trabajando, así:
Para el intervalo 10: (72 - 76) 3 50
9: (67 - 71) 7 47
F ajustada = 47 +1/2 . 3 = 47 + 1,5 = 48,5
Para el intervalo 9: (67 – 71) 7 47
8: (62 – 66) 1 40
F ajustada = 40 + (7/2) = 40 + 3,5 = 43,5
2.- Se obtienen los porcentajes acumulado (P) de esas frecuencias ajustadas
(F ajustada), en base a la mayor frecuencia acumulada (no ajustada), mediante
la fórmula:
P acumulada = . 100
Para el intervalo 10: (72 – 76 3 50)
P acum. 10 = .100 = 97
3.- Se obtiene en la curva normal el puntaje típico que corresponde a cada uno
de os porcentajes obtenidos. Z = 1,88.
4.-Se obtienen los puntajes normalizados T, mediante la ecuación:
T = 50 + 10 . z
Para el intervalo 10: T = 50 + 10(1,88) = 68,8 = 69
Para el intervalo 9: T = 50 + 10 (1,13) = 63.
5.- Los puntajes T, pueden ser convertidos a nuestra escala tradicional de
veinte valores mediante la relación:
19
E1 . 20 = (T/ Tmáx) . 20
Tabla de operaciones
Nº Xi - X s f F F ajust. P z T E1 . 20
10 72 – 3 50 48,5 97 1,88 69 20
76
9 67 – 7 47 43,5 87 1,13 63 18
71
8 62 – 1 40 39,5 79 0,81 58 17
66
7 57 – 9 39 34,5 69 0,50 55 16
61
6 52 – 2 30 29 58 0,20 52 15
56
5 47 – 5 28 25,5 51 0,02 50 14
51
4 42 – 4 23 21 42 - 0,20 48 14
46
3 37 – 4 19 17 34 - 0,41 46 13
41
2 32 – 6 15 12 24 - 0,71 43 12
36
1 27 – 9 9 4,5 9 - 1,34 37 11
31
50
1.11. ACTIVIDADES
Individual
- Lea con cuidado los contenidos presentados en este modulo y consulte la
bibliografía a fin de ampliar sus conocimientos y considerar la opinión de otros
autores sobre el tema.
Grupal Cooperativa
- Los empleados de una universidad fueron clasificados de acuerdo con su
edad y adscripción a la administración, cuerpo docente o personal de apoyo.
grupo
Clasificación/ de 51 o TOTAL
20 – 30 31 – 40 41 – 50
edad mayor
Administració 59
2 24 16 17
n
Cuerpo 1 40 36 28 105
20
Docente
Personal de 52
16 20 14 2
Apoyo
TOTAL 19 84 66 47 216
Considerando que se selecciona un empleado en forma aleatoria, obtenga la
probabilidad de que el elegido:
a.- esté en la administración o tenga 51 años o más.
b.- no sea miembro del cuerpo docente.
c.- sea miembro del cuerpo docente dado que el individuo tiene 41 años o más.
- Suponga que cierta característica oftálmica está asociada al color de los ojos.
Se estudiaron 3000 personas seleccionadas aleatoriamente con los siguientes
resultados:
características \ color de los
Azul Café Otro TOTAL
ojos
Si 70 30 20 120
No 20 110 50 180
TOTAL 90 140 70 300
a.-¿Cuál es la probabilidad de que una persona seleccionada al azar tenga los
ojos azules?
b.- ¿Cuál es la probabilidad de que una persona seleccionada al azar si tenga
la característica?
c.-¿Son independientes los eventos A (tiene los ojos azules) y B (tiene la
característica)? Justifique la respuesta.
d.- ¿Cómo están relacionados los eventos A (tiene ojos azules) y C (tiene ojos
cafés) (independientes, mutuamente excluyentes)? Explique por qué cada
término puede ser aplicado o no.
- Los pesos de sandías maduras cultivadas en una granja están distribuidos
normalmente con una desviación estándar de 2.8 Kgrs. Obtenga el peso medio
de las sandía maduras si sólo 3% pesa menos de 15 Kgrs.
- Se supone que un medicamento nuevo es 85% efectivo en el tratamiento de
cierta enfermedad. (Es decir, el 85% de los pacientes con esta enfermedad
responden favorablemente al medicamento). Sea z el número de pacientes de
cada grupo de 50 que responden favorablemente. Utilice el método de
aproximación normal para evaluar las siguientes probabilidades;
a.- P(x > 45) b.- P (40< x < 50) c.- P(x < 35)
- Una escuela primaria ha programado cuatro fechas de reunión al año con los
padres de familia. Los registros de la escuela indican que la probabilidad de
que los padres de un niño (uno o ambos) asistan desde 0 hasta 4 de las
reuniones son las indicadas en el cuadro siguiente:
21
0 1 2 3
Número de Reuniones a
4
las que asisten (x)
0.12 0.38 0.30 0.12
Probabilidad
0.08
a.- ¿Es ésta una distribución de probabilidades? Explique.
b.- ¿Cuál es la probabilidad de que los padres de un niño en particular asistan
al menos a una de esas reuniones?
c.- Calcule la media y la desviación estándar para esta distribución.
- Se ha aplicado una prueba de aptitudes sensoriales a 200 alumnos de un
Liceo Capitalino, obteniéndose una media aritmética de 20 y una desviación
típica de 5. Suponiendo normalidad:
a)¿Cuál es la probabilidad de obtener una puntuación mayor que 15 y menor
que 18?
b)¿Cuál es la puntuación bruta que supera el 15% superior de la distribución?
Comunitario
BIBLIOGRAFÍA BÁSICA
Macchi, R.L. 2001. Introducción a la Estadística en Ciencias de la Salud.
Editorial Médica Panamericana. Argentina.
22
Milton, J.S. y Tsocos, J.O. 1991. Estadística para Biología y Ciencias de
la Salud. McGraw-Hill, Inc.
Puertas L., E.; Urbina, J.; Blanck, M.E.; Granadillo, D.; Blanchard, M.;
García, J.A.; Vargas V.; P. & Chiquito, A. 1998. Bioestadística,
Herramienta de la Investigación. Ediciones del Consejo de Desarrollo
Científico, Humanístico y Tecnológico de la Universidad de Carabobo,
Venezuela.
SALAMA, D. 1987. Estadística: Metodología y aplicaciones. Editora
Principios, Caracas, Venezuela. 308 p.
SEGNINI, S. 2003. Apuntes de Estadística para Biólogos. Dirección de
Publicaciones ULA, Mérida, Venezuela.
Spiegel, M.R. y Stephens, L.J. 2002. Estadística. Serie Schaum. 3era
edición. McGraw-Hill, Inc.
COMPLEMENTARIA
Sokal, R.R. y Rohlf, F.J. 1995. Biometry, the principles and practice of
statistics in biological research. 3era edición. W.H. Freeman and
Company. USA.
PÁGINAS WEB
[Link]
[Link]
estimacion_estadistica.htm
Dr. Hossein Arsham
[Link]
CAPITULO II: PRUEBA DE HIPÓTESIS E INTERVALOS DE
CONFIANZA
TEMA 4 EL MUESTREO Y SUS MÉTODOS
Competencias:
23
Conoce diferentes métodos para toma de muestras a fin de inferir
hechos de una población muy grande
Contenidos:
Introducción a la Estadística Inferencial. Muestreo con o sin reemplazo,
Muestreo No probabilístico, Muestreo probabilístico Muestras aleatorias, La
tabla de números aleatorio y uso.
Introducción a la Estadística Inferencial
En este capítulo trabajaremos con las técnicas de la Estadística
Inferencial, a través de las cuales se busca llegar a conclusiones valederas
sobre poblaciones, tomando como base la información obtenida en una
muestra. La única forma de conocer la información exacta sería realizando
todas las observaciones posibles de todo el universo, lo cual suele ser difícil y
poco práctico en función del costo y del tiempo. De allí surge la inferencia
estadística la cual permite asumir o estimar las características de la población a
partir de las muestras.
Los dos tipos de problemas que resuelven las técnicas estadísticas son:
estimación y contraste de hipótesis. En ambos casos se trata de generalizar la
información obtenida en una muestra a una población. Estas técnicas exigen
que la muestra sea aleatoria. En la práctica rara vez se dispone de muestras
aleatorias, por la tanto la situación habitual es la que se esquematiza en la
Figura 1.
Figura 1. Diferenciación entre la población y la muestra.
Entre la muestra con la que se trabaja y la población de interés, o
población diana, aparece la denominada población de muestreo: población (la
mayor parte de las veces no definida con precisión) de la cual nuestra muestra
es una muestra aleatoria. En consecuencia, la generalización está amenazada
por dos posibles tipos de errores: error aleatorio que es el que las técnicas
estadísticas permiten cuantificar y críticamente dependiente del tamaño
muestral, pero también de la variabilidad de la variable a estudiar y el error
24
sistemático que tiene que ver con la diferencia entre la población de muestreo y
la población diana y que sólo puede ser controlado por el diseño del estudio.
Cabe recordar que la información de las muestras se trabaja a partir de
estadísticos. Un estadístico es una variable aleatoria cuyos valores pueden ser
determinados a partir de la observación de una muestra aleatoria. Este muestra
una distribución de probabilidades propias, la cual es conocida como
distribución muestral de un estadístico. Así puede tenerse una distribución
muestral de medias, cuando el estadístico es la media aritmética; distribución
muestral de proporciones, cuando el estadístico es una proporción o
porcentaje, y así sucesivamente.
Las medidas obtenidas en una muestra (estadísticos) frecuentemente
son diferentes al parámetro de la población. A la diferencia de estas dos
medidas se les denomina error. Determinar el tamaño de ese error sólo sería
posible si se conociera el parámetro de la población, pero este por lo general
se desconoce.
Sin embargo, el error es posible estimarlo siguiendo un modelo
estadístico. En el caso que el estadístico sea la media aritmética tenemos:
Xi = µ + Ei
Xi : es el valor de la variable.
µ : es la media poblacional.
Ei : es el error.
Se pueden graficar las frecuencias de Ei, cuya distribución de
frecuencias se comporta como una distribución normal, con media cero y
varianza s2 o σ2. Los errores pueden ocurrir por exceso o por defecto, lo que
significa que Ei tendrá valores positivos y negativos. Cuando se estudia un gran
número de valores de Ei, el promedio de ellos es cero.
En una distribución de frecuencias la medida de dispersión es la
desviación estándar, y en la distribución muestral es el error estándar, el cual
no es más que el promedio de los errores muestrales. Ello significa que las
distintas medias de la distribución muestral contienen una fracción de error en
sus estimaciones con respecto a la media poblacional.
Todo estadístico de una variable continua tiene una distribución
muestral, donde:
1. La media de las medias de las muestras es igual a la media de la
población.
2. La varianza de las medias de las muestras es igual a la varianza de
la población, dividida entre el tamaño de las muestras (n).
3. La distribución de las medias muestrales tiene forma de curva
normal.
Muestreo con o sin reemplazo
25
Muestreo No probabilístico
Muestreo probabilístico
Muestras aleatorias
La tabla de números aleatorio
Uso de la tabla de números aleatorio
ACTIVIDADES
GRUPALES
BIBLIOGRAFÍA BÁSICA
SPIEGEL, M. SCHILLER, J. & SRINIVASAN, R. 2001. Probabilidad y
Estadística. 2da. Ed. McGraw Hill, Bogota 399 p.
DOWNIE, NORVILLE. & HEATH. ROBERT. 1986. Métodos Estadísticos
Aplicados. 5ta. [Link], Mexico 380 p.
PUERTAS L., E.; URBINA, J.; BLANCK, M.E.; GRANADILLO, D.;
BLANCHARD, M.; GARCÍA, J.A.; VARGAS V.; P. & CHIQUITO, A.
1998. Bioestadística, Herramienta de la Investigación.
Ediciones del Consejo de Desarrollo Científico, Humanístico
y Tecnológico de la Universidad de Carabobo, Venezuela.
26
TEMA 5. ERROR ESTÁNDAR
Competencias:
Conoce la medida en la que se alejan los datos de la media poblacional,
es decir, la diferencia entre el valor estimado y el valor real.
Contenidos:
Definición y cálculos del error estándar.
Usos del error estándar.
Tamaño muestral.
Definición y Cálculo del Error Estándar
El error estándar puede definirse como la diferencia que existe entre el
valor estimado en la muestra (estadístico) y el verdadero valor representativo
de la población (parámetro), por lo tanto, mientras menor sea el error estándar
mayor será la aproximación del estadístico al parámetro.
Al error estándar también se le conoce como error por muestreo o error
típico, y puede indicarse que la magnitud del error es directamente proporcional
a la dispersión de la población de origen de la muestra e inversamente
proporcional al tamaño de ésta. Mientras mayor sea la muestra, menor es la
magnitud del error estándar.
Cálculo del error estándar
Dado que el error estándar es una desviación estándar en una
distribución muestral, este representa una medida de la dispersión de la
distribución de los valores de las medias de muestras tomadas de una
población, de la misma manera que la desviación estándar lo es para la
dispersión de los datos originales.
Para calcular el error estándar de la media se utiliza la formula:
Donde s: desviación estándar de la muestra
n: tamaño de la muestra
Sx : error estándar
Para calcular el error estándar de una proporción o porcentaje:
Donde p: porcentaje de sujetos con la característica de estudio.
q: (100-p) porcentaje de sujetos sin la característica de estudio.
27
n: tamaño de la muestra
Obsérvese que hay dos situaciones en las que la posibilidad de error es
nula (error estándar igual a cero):
Una de ellas se produce cuando en la población original no hay
dispersión, es decir que todos sus datos son iguales. Al ser el
numerador cero, el cociente es cero.
La segunda se verifica cuando la muestra tomada es infinitamente
grande, o cuando se evalúa la totalidad de la población, en este
caso el denominador es infinito y el resultado de dividir cualquier
valor por infinito es cero.
En la realidad de la investigación es poco probable que se den estas dos
situaciones, ya que en los datos numéricos es casi imposible evitar la
dispersión, porque no todos los individuos de una población se comportan
exactamente igual o porque es casi imposible no cometer algún error en la
recolección de datos. Por otro lado, las poblaciones de interés son de tamaño
demasiado grande como para que sea posible trabajar con todos sus
integrantes.
En este sentido, puede indicarse que de todas las muestras tomadas en
forma aleatoria a partir de una población:
a) Alrededor del 68 % tiene valores de media aritmética entre
b) Cerca del 95 % tiene valores de media aritmética entre
c) Alrededor del 99 % tiene valores de media aritmética entre
De la misma forma puede indicarse que al tomar una muestra al azar:
a) Es “poco probable” (p < 0,05) que su media aritmética esté alejada
de la media de la población más de dos errores estándar.
b) Es “muy poco probable” (p < 0,01) que su media aritmética esté
alejada de la media de la población más de dos y medio errores
estándar.
Ejemplo 4-1. Si de una población con μ = 1000 y σ = 40, se toman muestras
con n = 25 y puede esperarse que el 95 % de ellas tenga valores para su
estadístico media aritmética entre 984 y 1016. Esto es así porque el error
estándar en esta situación es 8 (40 dividido entre ) y dos veces 8 es 16.
2 Sx = 2 x 8 = 16
μ + 2 Sx = 1000 + 16 = 1016
μ - 2 Sx = 1000 - 16 = 984
Muestras con datos nominales
Al tomar muestras de poblaciones de datos nominales la situación es
equivalente a la descrita para los datos numéricos. Sigamos un ejemplo.
28
Ejemplo 4-2. Considérese una población hipotética de 8 individuos, de los
cuales 4 (p = 0,5 o 50%) están en la categoría “enfermos”. Los resultados
posibles al tomar muestras de tamaño 4 (n = 4) se muestran en la Tabla 1
(Macchi, 2001). Al estimar el parámetro con el valor del estadístico a veces se
“acierta” y a veces se sobrestima o subestima, pero “en promedio” se estima
bien.
También en este caso la magnitud del error posible en la estimación es
inversamente proporcional al tamaño de la muestra, a mayor tamaño de la
muestra menor error posible.
La diferencia estriba en que la distribución en este caso no es normal
sino binomial y el valor del error estándar es la raíz cuadrada del valor obtenido
de:
Esto es la raíz cuadrada del resultado del producto de la proporción en
una categoría (0,5 en la categoría “enfermos” en el ejemplo) por la que no está
en la categoría ([1 – p] = 0,5 en el ejemplo) dividido por el tamaño de la
muestra (4 en el ejemplo).
Tabla 1. Resultados en las muestras tomadas de una población hipotética.
Población: enfermos: 4 sanos: 4 p = 0,5 50%
MUESTRA % ENFERMOS
A
4 enfermos 100,0
0 sanos
B
3 enfermos 75,0
1 sano
C
2 enfermos 50,0
2 sanos
D
1 enfermo 25,0
3 sanos
E
0 enfermo 0,0
4 sanos
Suma 250,0
% promedio 50,0
29
Usos del error estándar
En función del error estándar y de las propiedades de la distribución
muestral, es posible:
a) Estimar los valores representativos de una población.
b) Tomar decisiones en función de pruebas de hipótesis.
c) Calcular el tamaño de una muestra, cuando se espera una
determinada precisión del estadístico y el parámetro.
Ejemplo 4-3. En una población de adultos sin manifestaciones de presencia de
cálculos sobre sus superficies dentales, el contenido de calcio en saliva tiene
un valor de media aritmética de 5,6mg/100ml con una desviación estándar de
0,9 mg/100ml.
a) ¿Es “poco probable” (p > 0,05) o no que la media aritmética de
una muestra de tamaño 100 tenga un valor de 5,3 mg/100ml? Es poco
probable, ya que este valor está alejado de la media de la población, 0,30
más de dos errores estándar. El error estándar de este caso es 0,09 (0,9/
) que multiplicado por dos es 0,18.
µ = 5,6mg/100ml
σ = 0,9 mg/100ml
n = 100
2 Sx = 2 x 0,09 = 0,18
μ - 2 Sx = 5,6 mg/100ml - 0,18 mg/100ml = 5,42 mg/100ml
Es poco probable. 5,42 > 5,3
b) ¿Y si la muestra hubiera tenido un tamaño igual a 20? El valor
obtenido no sería poco probable, ya que en este caso el error estándar es
de 0,20 y (0,9/ ) multiplicado por 2 es 0,40, valor menor que 0,30.
Sí n = 20
2 Sx = 2 x 0,20 = 0,40
μ - 2 Sx = 5,6 mg/100ml - 0,4 mg/100ml = 5,2 mg/100ml
Es probable. 5,2 < 5,3
30
Ejemplo 4-4. En una población de adultos jóvenes la estatura media (media
aritmética) es de 1,70 m y la desviación estándar 0,24 m. ¿Menor o mayor de
qué valor debe ser la media aritmética de una muestra de tamaño 64, tomada
de esa población para poder considerar que se está frente a una situación poco
probable (p > 0,05)? El error estándar de la distribución de las medias de las
muestras de ese tamaño tomadas de esa población es de 0,03 (0,24 / ). Los
valores 1,64 y 1,76 están dos errores estándar alejados de la media. Por lo
tanto, cuando la media de la muestra obtenida sea menor o mayor,
respectivamente, que esos dos valores, se estará frente a una situación “poco
probable”.
µ = 1,70 m
σ = 0,24 m
n = 64
2 Sx = 2 x 0,03 = 0,06
μ ± 2 Sx : μ + 2 Sx = 1,70 m + 0,06 m = 1,76 m
μ - 2 Sx = 1,70 m - 0,06 m = 1,64 m
Tamaño muestral
El tamaño muestral juega el mismo papel en estadística que el aumento
de la lente en microscopía: si no se ve una bacteria al microscopio, puede
ocurrir que:
- la preparación no la contenga
- el aumento de la lente sea insuficiente.
Para decidir el aumento adecuado hay que tener una idea del tamaño
del objeto. Del mismo modo, para decidir el tamaño muestral:
i) en un problema de estimación hay que tener una idea de la magnitud a
estimar y del error aceptable.
ii) en un contraste de hipótesis hay que saber el tamaño del efecto que
se quiere ver.
Generalmente, se considera que el tamaño de la muestra debe estar en
función del tamaño de la población, y se dice que debe ser proporcional a este.
Sin embargo, cuando la población es muy extensa, no es indispensable que la
muestra sea tan numerosa; es cuestión de determinar la cantidad apropiada, a
fin de que el error muestral no afecte los resultados, y su vez no se derrochen
recursos, al utilizar una muestra de mayor tamaño que la requerida.
Existen fórmulas que permiten calcular el tamaño adecuado de una
muestra cuando se espera una determinada precisión en los resultados. Las
fórmulas a utilizar dependen de la información disponible (Puertas y col., 1998).
1) Cuando se conoce el tamaño de la población (N), se puede aplicar la
siguiente fórmula:
31
donde, n : tamaño de la muestra
N : número total de sujetos u objetos en la población o tamaño de
la población
P : precisión (error máximo permitido entre el parámetro y el
estadístico), expresado en proporción.
2) Cuando se quiere estimar el promedio de una población y se conoce la
desviación estándar de la población:
donde, n : tamaño de la muestra
Z : 1,96 constante. Expresa el nivel de confianza
s : desviación estándar (conocida o estimada) de la población
P : precisión
3) Cuando se conoce la proporción o porcentaje la población que tiene la
característica de interés:
donde, n : tamaño de la muestra
Z : 1,96 constante. Expresa el nivel de confianza
p : porcentaje de la población que tiene la característica de interés
q : porcentaje de la población que NO tiene la característica de
interés
(q = 1 – p)
P : precisión
Ejemplo 4-5. Se desea conocer las condiciones de las familias afectadas
directamente por la inundación del Río Pao al Sur del Estado Anzoátegui. Se
estima que el área de la cuenca afectada por la inundación abarca 20.000
familias. Se decide tomar una muestra en la cual el error máximo permitido en
los resultados no sea mayor de un 5%. ¿Cuántas familias deben incluirse en la
muestra?
N = 20.000 familias
P = 5% (0,05 expresado en proporción)
Por lo tanto, la muestra requerida debe ser de 393 familias.
Ejemplo 4-6. Un investigador necesita conocer el valor promedio de plomo en
sangre venosa de los pacientes que asisten al hospital donde el trabaja en el
centro de Caracas. En la literatura revisada encuentra que el valor promedio de
32
plomo en sangre es de 0,83 mg/100ml, con una desviación estándar de 0,05
mg/100ml, determinado con un método distinto al que él utilizará. Está
dispuesto a tolerar 0,02 mg/100ml como error máximo entre el valor del
universo y la muestra. ¿Cuántos pacientes deben conformar la muestra?
s = 0,05 mg/100ml
P = 0,02 mg/100ml
Z = 1,96
La muestra debe estar conformada por 24 pacientes.
Ejemplo 4-7. Se desea realizar una investigación sobre el desarrollo de
enfermedades respiratorias en una población cercana al botadero de basura La
Bonanza (vía los Valles del Tuy, Edo. Miranda), en la que anteriormente se ha
estimado la que el 20% de la población presenta este tipo de síntomas. Se
desea saber cuántas familias deben constituir la muestra, sí el índice buscado
varía en más de un 6% con respecto al universo.
p = 20%
q = (100 - 20) = 80%
P = 6%
Z = 1,96
La muestra debe estar conformada por 171 familias.
ACTIVIDADES
GRUPALES
1. Dado que el error estándar muestra la desviación estándar de la
distribución muestral de cualquier estadístico, investigue como se puede
calcular el error estándar para otros estadísticos, como la mediana,
desviación estándar, varianza y coeficiente de variación.
INDIVIDUALES
1. Una población consiste en cinco números 2, 3, 6, 8 y 11. Considere
todas las muestras de tamaño igual a 2 que pueden obtenerse, con
reemplazamiento, a partir de esta población. Calcule a) la media de la
población, b) la desviación estándar de la población, c) la media de la
distribución muestral de medias y d) la desviación estándar de la
distribución muestral de medias (es decir, el error estándar de las
medias).
2. Resuelva el problema anterior, pero considerando que el muestreo es
sin reemplazamiento.
3. Suponga que el peso de 3000 estudiantes universitarios varones se
distribuye normalmente, con una media de 68,0 Kg y una desviación
estándar de 3,0 Kg. Si se obtienen 80 muestras de 25 estudiantes cada
33
una; ¿cuáles serían la media y la desviación estándar esperadas de la
distribución muestral de medias resultante sí los muestreos se hubieran
hecho a) con reemplazamiento y b) sin reemplazamiento.
4. En la comunidad de Guaraunos Estado Sucre, se han presentado un
gran número de casos de malaria. Determine cuántas personas debe
estudiar un investigador, para demostrar la existencia de una endemia,
cuando se ha estimado en trabajos anteriores, que la prevalencia de la
enfermedad es del 10%. Espera que los resultados obtenidos en la
muestra no varíen en más de un 2% con respecto a los valores reales de
la población.
5. Se ha encontrado que el valor promedio de mercurio en músculo liso de
peces de áreas cercanas a la Refinería El Palito (Estado Carabobo) es
de 0,9 µg/100g con una desviación estándar de 0,01 µg/100g. Se desea
realizar una investigación en la cual la muestra dé una media de
mercurio no mayor del valor real en más de 0,005 µg/100ml. ¿Cuántos
peces deben incluirse en la muestra?
6. En una comunidad constituida por 1146 familias se desea realizar un
diagnóstico socioambiental, para lo cual se tomará una muestra
representativa que admita un error máximo de 5%. ¿Cuántas familias
deben constituir la muestra?
BIBLIOGRAFÍA BÁSICA
Macchi, R.L. 2001. Introducción a la Estadística en Ciencias de la Salud.
Editorial Médica Panamericana. Argentina.
Milton, J.S. y Tsocos, J.O. 1991. Estadística para Biología y Ciencias de
la Salud. McGraw-Hill, Inc.
Puertas L., E.; Urbina, J.; Blanck, M.E.; Granadillo, D.; Blanchard, M.;
García, J.A.; Vargas V.; P. & Chiquito, A. 1998. Bioestadística,
Herramienta de la Investigación. Ediciones del Consejo de Desarrollo
Científico, Humanístico y Tecnológico de la Universidad de Carabobo,
Venezuela.
SALAMA, D. 1987. Estadística: Metodología y aplicaciones. Editora
Principios, Caracas, Venezuela. 308 p.
SEGNINI, S. 2003. Apuntes de Estadística para Biólogos. Dirección de
Publicaciones ULA, Mérida, Venezuela.
Spiegel, M.R. y Stephens, L.J. 2002. Estadística. Serie Schaum. 3era
edición. McGraw-Hill, Inc.
COMPLEMENTARIA
Sokal, R.R. y Rohlf, F.J. 1995. Biometry, the principles and practice of
statistics in biological research. 3era edición. W.H. Freeman and
Company. USA.
34
PÁGINAS WEB
[Link]
[Link]
estimacion_estadistica.htm
Dr. Hossein Arsham
[Link]
TEMA 6 ESTIMACIÓN
Competencias:
Infiere las características de la población a partir de las características
de la muestra.
Contenidos:
Definición de estimación, estadístico, parámetro, sesgo, estimación por
puntos, intervalos de confianza, teorema del límite central.
La Estimación
Como vimos en el tema anterior, la inferencia estadística permite hacer
generalizaciones hacia la población a partir de la información obtenida en una
muestra. En este sentido, mediante la inducción es posible obtener un valor
representativo de la población, el cual se conoce con el nombre de estimador.
Los resultados de un estimador pueden ser expresados como un simple
valor; entendido como una estimación en un punto, o un rango de valores,
referido como un intervalo de confianza. Siempre que utilicemos la valoración
de un punto, calculamos el margen de error asociado a la estimación de ese
punto.
El estimador usual de la media poblacional es = Σxi / n, donde n es el
tamaño de la muestra y x1, x2, x3,.......,xn son los valores de la muestra. Si el
valor del estimador en una muestra particular es 5, entonces 5 es la estimación
del µ de la media de la población.
Sin embargo, al proceder de esta manera no es posible tener mucha
“confianza” en la estimación realizada. Puede haberse tenido la “suerte”
suficiente como para extraer de la población un subconjunto de sus integrantes
(muestra) en el que se manifieste esa situación. A menos que en la población
no haya dispersión o la muestra haya sido infinitamente grande, también puede
haberse tenido “mala suerte” de que esos estadísticos sobrestimen o
subestimen los parámetros de la población.
35
La situación podría asemejarse a la “confianza” que se puede tener de
“ganar un sorteo” mediante la adquisición de uno de entre todos los números
que se sortearán. Sí estos son 100 y tenemos en nuestro poder uno,
podríamos indicar que tenemos una confianza de uno en cien (0,01 o 1%) de
ganar el premio. Sí se consiguen dos o más esos números podemos duplicar o
aumentar nuestra confianza, aunque para transformar esa confianza en
seguridad de ganar sería necesario disponer de la totalidad de los números.
La estimación es un proceso mediante el cual, en una muestra se
obtiene un determinado valor, denominado estadístico, para luego, en función
de é l, calcular (estimar) su valor en la población correspondiente. Recordemos
que este valor poblacional recibe el nombre de parámetro.
Un estimador es cualquier cantidad calculada de los datos de la muestra
los cuales se utilizan para obtener información sobre una cantidad desconocida
de la población. Por ejemplo, la media muestral es un estimador de la media
poblacional.
Cualidades de un buen Estimador
Para que resulte de mayor utilidad un buen estimador debe tener:
imparcialidad, consistencia, ausencia de sesgo y eficiencia.
1. Imparcialidad: Una estimación es imparcial con respecto a un
parámetro cuando el valor esperado del estimador puede ser expresado
igual al parámetro que ha sido estimado. Por ejemplo, la media de una
muestra es una estimación imparcial de la media de la población de la
cual la muestra fue obtenida. La imparcialidad es una buena cualidad
para una estimación, puesto que, usando el promedio ponderado de
varias estimaciones se obtendría una mejor estimación que de cada una
de ellas por separado. Por lo tanto, la imparcialidad permite que
actualicemos nuestras estimaciones. Por ejemplo, si sus estimaciones
de la medias poblacional µ son, digamos 10, y 11,2 con respecto a dos
muestras independientes de tamaños 20, y 30 respectivamente, la mejor
estimación de la media poblacional µ basada en ambas muestras es [ 20
(10) + 30 (11,2) ] (20 + 30) = 10,75.
2. Ausencia de sesgo: Se dice que un estimador es insesgado si la media
de la distribución de medias de las muestras, es igual al valor del
parámetro estimado. La media es un estimador insesgado de µ.
36
3. Consistencia: como estudiamos en el tema anterior, la desviación
estándar de una estimación es llamada el error estándar de esa
estimación. Mientras mas grande es el error estándar existirá más error
en su estimación. La desviación estándar de una estimación es un índice
comúnmente usado del error exigido al estimar un parámetro de la
población basado en la información en una muestra de tamaño n
escogida al azar de la población entera. Un estimador debe ser
“consistente” si al aumentar el tamaño de la muestra se produce una
estimación con un error estándar más pequeño. Por lo tanto, su
estimación es “consistente” con el tamaño de la muestra. Es decir,
realizando un esfuerzo mayor, se obtiene una muestra más grande que
produce una mejor estimación. Un estimador consistente es aquel que
tiende aproximarse al valor del parámetro de la población, en la medida
que el tamaño de la muestra crece.
4. Eficiencia: Se refiere a la precisión con la cual tales medidas pueden
estimar un parámetro. Una estimación eficiente es la que tiene el error
estándar más pequeño entre todos los estimadores imparciales. El
“mejor” estimador es el que está más cercano al parámetro de la
población que es estimado, aquel que tenga menor error estándar.
37
Figura 2. El Concepto de eficiencia para un estimador.
En la Figura 2 se ilustra el concepto de la proximidad por medias que
tienen como objetivo el centro para la imparcialidad con varianza mínima. Cada
tablero de dardos tiene varias muestras:
El primero tiene todos los tiros agrupados firmemente juntos, pero
ningunos de ellos golpean el centro. El segundo tiene una extensión mas
grande, pero alrededor del centro. El tercero es peor que los primeros dos. Sólo
el último tiene un grupo apretado alrededor del centro, por lo tanto tiene buena
eficiencia.
Si un estimador es imparcial, entonces su variabilidad determinará su
confiabilidad. Si un perito es extremadamente variable, las estimaciones que
produce pueden en promedio no estar tan cerca del parámetro poblacional
como lo estaría un estimador parcializado con varianza más pequeña.
Estimación de parámetros.
38
La estimación de parámetros puede efectuarse por puntos o por
intervalos. La estimación por puntos plantea un solo valor numérico como
parámetro de la población, estimado a partir de una muestra.
Es probable que al considerar un solo punto como estimador de un
parámetro se cometa un error, ya que la muestra no es más que una pequeña
parte de un conjunto mucho más grande, por lo tanto es aventurado afirmar
que el valor correspondiente a la población sea el mismo valor calculado para
la muestra. Pero si el número de observaciones es suficientemente grande, se
obtendrá una medida muy similar a la del parámetro. Sin embargo, con
frecuencia hay limitaciones en cuanto a recurso y tiempo, por lo cual es
necesario decidir sólo sobre la base de algunas observaciones, y determinar
cuanta probabilidad existe que el valor estimado en la muestra coincida con el
valor del parámetro. En este caso, no se estará utilizando el método de
estimación puntual sino de intervalo.
Al considerar un estimador Θ de un parámetro poblacional θ, la
realización de una muestra aleatoria de tamaño n, X1, X2,..., Xn; suministra n
datos, valores u observaciones, x1, x2,..., xn, que determinan una estimación
puntual del parámetro desconocido:
Si pretendemos, por ejemplo, estimar puntualmente el valor medio μ con
el estimador media muestral, extraeremos una muestra de la población,
observaremos el valor de la variable en los n individuos de la muestra. En tal
caso, los n datos obtenidos x1, x2,..., xn, permiten calcular lo deseado:
La estimación por intervalos consiste en estimar dos valores numéricos
extremos, los cuales permiten construir un intervalo, entre cuyos límites se
considera está incluido el parámetro a estimar, según el nivel de confianza o de
acierto, previamente establecido por el experimentador.
La estimación por intervalos de un parámetro θ consiste en la
determinación de un intervalo, que contendrá el parámetro con una confianza
1- , número entre 0 y 1, fijado por el experimentador. Para ello se requerirá lo
siguiente:
Una muestra aleatoria X1, X2,..., Xn de tamaño n extraída de la población
X.
Un estimador Θ del parámetro poblacional θ, con distribución o ley de
probabilidad conocida.
39
El nivel de confianza 1- , establecido a priori por el experimentador (los
usuales son 0.95, 0.90 y 0.99).
Una estimación de intervalo de un parámetro, es un segmento en el
continuo de la escala de números, donde en algún punto del cual se supone se
encuentra el valor del parámetro considerado. Esto significa que en lugar de
tener un solo punto como estimación de un parámetro, se tiene ahora todo un
conjunto de puntos adyacentes, esto es, un intervalo entre cuyos puntos,
probablemente alguno coincida con el valor del parámetro, con nivel de
probabilidades de acierto conocido. Fijando de esta manera lo que se
denomina un intervalo de confianza; el cual se obtienen mediante la formula:
Estimador ± (valor crítico x error estándar)
Ese intervalo numérico se calcula de tal forma que el investigador puede
tener una confianza determinada, aunque no la seguridad de que el valor
buscado se encuentra dentro de él.
Estimación de la media de la población
Para estimar este parámetro se requiere conocer la media
aritmética de la muestra, así como su desviación estándar y fijar el nivel de
confianza, el cual indica la probabilidad de que el valor del parámetro se
encuentre dentro de los límites del intervalo establecido. La expresión
matemática queda de la siguiente manera:
o de manera más sencilla:
intervalo de confianza =
Siendo
donde:
: media aritmética de la muestra.
Z : valor crítico o valor sigma. Se busca en la tabla de áreas de la curva
normal, según el nivel de confianza establecido.
Sx : error estándar.
s : desviación estándar de la muestra.
n : tamaño de la muestra.
Ejemplo 5-1. En una investigación acerca del estado nutricional de los
escolares de primero a tercer grado, se encontró que los niveles de
hemoglobina en ayunas se distribuyen en forma normal, con una media
aritmética de 12.38gr%, y una desviación estándar de 0.87gr%. Se desea
conocer, con el 95% de confianza, el valor promedio de hemoglobina para esa
población de escolares, de donde se extrajo la muestra aleatoria de 144 niños
(Puertas y col., 1998).
40
DATOS:
X = 12.38gr%
s = 0.87gr%
n = 144 niñeos
nivel de confianza = 95 % (α = 0.05), el cual equivale a 1.96 sigma (σ).
Aplicando la fórmula del intervalo de confianza =
=
=
= 12.52 gr%
12.24 gr%
Conclusión: En esa población de escolares, la media aritmética de
hemoglobina no debe ser menor de 12.24gr%, ni mayor de 12.52gr%. Se hace
tal afirmación con 95% de probabilidades de estar en lo cierto, (nivel de
confianza) o con un 5 % de riesgo de no acertar o de equivocación (Nivel de
significación).
Ejemplo 5-2. En una muestra de 350 mujeres se evaluó la edad en la
que se presentaron los primeros síntomas de osteoporosis. Se obtuvieron los
siguientes estadísticos de esa muestra: media aritmética 48,2 años y
desviación estándar 10,2 años. ¿Qué estimación con 95% de confianza puede
hacerse con respecto al parámetro media aritmética de la población a partir de
estos datos? (Macchi, 2003)
=
=
= 47.1 años
49.3 años
En resumen, puede estimarse con 95 % de confianza que el parámetro
de la población está entre 47,1 y 49,3.
Distribución muestral de medias
Si tenemos una muestra aleatoria de una población N(, ), se sabe
(Teorema del límite central) que la función de la distribución de la media
muestral es también normal con media y varianza 2/n. Esto es exacto
para poblaciones normales y aproximado (buena aproximación con n>30)
para poblaciones cualesquiera. Es decir es el error típico, o error
estándar de la media.
¿Cómo usamos esto en nuestro problema de estimación?
1º problema: No hay tablas para cualquier normal, sólo para la normal =0
y =1 (la llamada z); pero haciendo la transformación (llamada tipificación)
41
una normal de media y desviación se transforma en una z.
Llamando z al valor de una
variable normal tipificada que
deja a su derecha un área bajo
la curva de , es decir, que la
probabilidad que la variable sea
mayor que ese valor es (estos
son los valores que ofrece la
tabla de la normal)
podremos construir intervalos
de la forma
para los que la probabilidad es
1 - .
Teniendo en cuenta la simetría de la normal y manipulando algebraicamente
que también se puede escribir
o, haciendo énfasis en que es el error estándar de la media,
Recuérdese que la probabilidad de que esté en este intervalo es 1 - . A
un intervalo de este tipo se le denomina intervalo de confianza con un nivel
42
de confianza del 100(1 - )%, o nivel de significación de 100%. El nivel de
confianza habitual es el 95%, en cuyo caso =0,05 y z /2=1,96. Al valor
se le denomina estimación puntual y se dice que es un estimador de .
Ejemplo 5-3. Si de una población normal con varianza 4 se extrae una
muestra aleatoria de tamaño 20 en la que se calcula se puede decir
que tiene una probabilidad de 0,95 de estar comprendida en el intervalo
que sería el intervalo de confianza al 95% para
En general esto es poco útil, en los casos en que no se conoce tampoco
suele conocerse 2; en el caso más realista de 2 desconocida los intervalos
de confianza se construyen con la t de Student (otra función de la
distribución de probabilidades continua para la que hay tablas) en lugar de
la z.
o, haciendo énfasis en que es el error estándar estimado de la media,
Esta manera de construir los intervalos de confianza sólo es válida si la
variable es normal. Cuando n es grande (>30) se puede sustituir t por z sin
mucho error.
Estimación de proporciones
Sea X una variable binomial de parámetros n y p (una variable binomial es
el número de éxitos en n ensayos; en cada ensayo la probabilidad de éxito
(p) es la misma, por ejemplo: número de diabéticos en 2000 personas).
Si n es grande y p no está próximo a 0 ó 1 (np 5) X es aproximadamente
normal con media np y varianza npq (siendo q = 1 - p) y se puede usar el
estadístico
(proporción muestral), que es también aproximadamente normal, con error
típico dado por
en consecuencia, un IC para p al 100(1 - )% será
43
es decir, la misma estructura que antes:
Obsérvese que para construirlo, ¡se necesita conocer p!. Si n es grande
(>30) se pueden substituir p y q por sus estimadores sin mucho error, en
cualquier caso como pq 0,25 si se substituye pq por 0,25 se obtiene un
intervalo más conservador (más grande).
Ejemplo 5-4. En una muestra de 100 pacientes sometidos a un cierto
tratamiento se obtienen 80 curaciones. Calcular el intervalo de confianza al
95% de la eficacia del tratamiento.
0,7216
0,8784
¿Qué significa este intervalo? La verdadera proporción de curaciones está
comprendida entre, aproximadamente, 72% y 88% con un 95% de
probabilidad.
¿Es suficientemente preciso? Habrá que juzgarlo con criterios clínicos.
¿Como se interpreta una confianza del 95%?
Si llevamos a cabo un experimento 100 veces obtendríamos 100
distribuciones muestrales de datos y 100 intervalos de confianza. De estos 100
intervalos, 95 de ellos cubrirían el valor del verdadero parámetro poblacional.
Desgraciada o afortunadamente, nosotros solo realizamos el experimento una
sola vez. Con lo que nunca sabremos si nuestro intervalo es uno de esos 95
que contienen el parámetro de estudio.
Técnicamente, aunque esto suene a una sofisticación innecesaria, no
podemos asociar el concepto de nivel de confianza con el concepto de
probabilidad. Así no se puede establecer que tenemos una probabilidad del
95% de que el parámetro buscado este dentro de nuestro intervalo. Existe una
relación entre el tamaño de muestra y el ancho del intervalo de la confianza,
aunado a esto, el intervalo de confianza calculado algunas veces no contiene al
valor verdadero.
Digamos que se calcula un intervalo de confianza del 95% para una
media μ. La manera de interpretar esto es imaginar un número infinito de
muestras de la misma población, el 95% de los intervalos calculados
44
contendrán la media μ de la población, y el 5% no. Sin embargo, es incorrecto
indicar, “tengo el 95% de confianza de que la media μ de la población esta
dentro del intervalo.”
Una vez más la definición usual de un intervalo de confianza del 95% es
un intervalo construido por un proceso tal que el intervalo contendrá el valor
verdadero el 95% del tiempo. Esto significa que el “95%” es una característica
del proceso, no el intervalo.
ACTIVIDADES
INDIVIDUALES
1. Para cada una de las variables presentadas en el siguiente cuadro,
estime los respectivos parámetros de la población. Utilice niveles de
confianza de 95 y 99%.
Distribución de medias aritméticas y error estándar de las variables
peso, frecuencia cardiaca y porcentaje de antecedentes (Puertas y col.,
1998).
Variables En una clínica En el hogar
(n=50) (n=35)
Peso 70.6 Kg ± 1.5 Kg 81.3 Kg ±1.9 Kg
Frecuencia cardiaca 72.3 l/m ± 1.6 l/m 82.9 l/m ±1.9 l/m
(latidos por minuto)
Antecedentes 34.8 % ± 4.1 % 41.7 % ± 6.8 %
familiares positivos
2. En una muestra de 400 personas se encontró que el peso promedio era
de 67 Kg, con una desviación estándar de 2,5 Kg. Calcule los límites
entre los cuales se encuentra el peso verdadero, con un nivel de
confianza del 95 %.
3. En una investigación en una comunidad sobre niveles de proteínas
totales en la sangre, se tomó una muestra de 15 individuos elegidos al
azar en esta comunidad, cuyos resultados fueron: 5,64 y s = 0,72.
¿Cuál será el verdadero promedio de proteínas totales en la sangre para
la población donde fue extraída esa muestra? Con un 95 y 99 % de
confianza.
4. Al examinar 9 muestras de agua se encontró una concentración de ión
nitrato igual a 0,5 µg/ml. Se desea estimar mediante un intervalo de
confianza del 95% la concentración promedio del nitrato en el agua, si se
sabe que la desviación del método para este análisis es de 0,15 µg/ml.
BIBLIOGRAFÍA
BÁSICA
45
Macchi, R.L. 2001. Introducción a la Estadística en Ciencias de la Salud.
Editorial Médica Panamericana. Argentina.
Milton, J.S. y Tsocos, J.O. 1991. Estadística para Biología y Ciencias de
la Salud. McGraw-Hill, Inc.
Puertas L., E.; Urbina, J.; Blanck, M.E.; Granadillo, D.; Blanchard, M.;
García, J.A.; Vargas V.; P. & Chiquito, A. 1998. Bioestadística,
Herramienta de la Investigación. Ediciones del Consejo de Desarrollo
Científico, Humanístico y Tecnológico de la Universidad de Carabobo,
Venezuela.
SALAMA, D. 1987. Estadística: Metodología y aplicaciones. Editora
Principios, Caracas, Venezuela. 308 p.
SEGNINI, S. 2003. Apuntes de Estadística para Biólogos. Dirección de
Publicaciones ULA, Mérida, Venezuela.
Spiegel, M.R. y Stephens, L.J. 2002. Estadística. Serie Schaum. 3era
edición. McGraw-Hill, Inc.
COMPLEMENTARIA
Sokal, R.R. y Rohlf, F.J. 1995. Biometry, the principles and practice of
statistics in biological research. 3era edición. W.H. Freeman and
Company. USA.
PÁGINAS WEB
[Link]
[Link]
estimacion_estadistica.htm
Dr. Hossein Arsham
[Link]
46
CAPITULO III REGRESIÓN Y CORRELACIÓN
Objetivo:
Establece la relación que existe y la forma o la ecuación mediante la cual se
relacionan dos variables
Tema 8 REGRESION: Estimar una variable a partir de otra.
COMPETENCIA A LOGRAR:
Conoce las técnicas para la formulación de las rectas de regresión
Formulas rectas de regresión para datos agrupados y datos no
agrupados
Predice valores que asumirá una variable respecto de otra
CONTENIDOS:
1. REGRESIÓN
Que es Regresión?
El análisis de regresión se utiliza con el propósito de predecir el
comportamiento de una variable respecto de otra. El objetivo del análisis de
regresión es formular un modelo o ecuación que nos permita predecir el valor
de la variable dependiente o de respuesta a partir de los valores de una
variable independiente.
2. CURVA DE AJUSTE
Según SCHILLER 2000, con frecuencia, en la práctica se encuentra que existe
una relación entre dos o mas variables y uno desea expresar esta relación de
manera matemática, planteando una ecuación que conecte las variables.
Para realizar esto, podemos ejecutar varios pasos:
Primero recolectar los datos y mostrando los valores correspondiente a
cada variable x, y
Segundo representar en un sistema de coordenadas rectangulares los
valores de los pares ordenados (x, y). Por ejemplo representamos los
valores de las variables peso(x), altura (y). De esta representación
obtenemos un conjunto de puntos que denominan Diagrama de
dispersión o Nubes de puntos.
Tercero a partir del diagrama de dispersión ó nube de puntos es posible
visualizar una curva que se aproxima a los datos a la cual denominamos
Curva de aproximación. Cuando el diagrama de dispersión muestra una
aproximación a una línea recta se dice que existe una relación lineal
entre las variables. Cuando no presenta una aproximación a una
relación lineal se dice que presenta una relación no lineal
47
Cuarto a partir de la relación existente y de los datos podemos encontrar
las ecuaciones de curvas de aproximación que se ajusten al conjunto de
datos que se llama Curva de ajuste.
Las ecuaciones de las curvas de ajustes más importantes son:
Ecuación de la línea recta y = a + bx
Ecuación de la parábola y = a + bx + cx2
Ecuación exponencial y = abx
Dentro de las ecuaciones de las curvas de ajustes más usadas tenemos la
línea recta, la cual llamaremos recta de regresión
Ecuación de la línea recta: aquí se nos presentan dos casos:
1. Primer caso: Cuando y es la variable dependiente o valor de la variable
a estimar. Con lo cual x será la variable independiente y = a
+ bx
2. Segundo caso: Cuando x es la variable dependiente o valor de la
variable a estimar. Con lo cual y será la variable independiente
x = a + by
En cuanto a y b son los parámetros o valores indeterminados dentro de una
ecuación, siendo a la intersección con el eje de las ordenadas mientras que b
será la pendiente de la recta la cual representa el incremento que sufre la una
variable con cada unidad de incremento de la otra.
Cuando b: (+) el incremento o pendiente será positivo
Cuando b: (-) el incremento o pendiente será negativo
Recta con pendiente positiva
Recta con pendiente negativa
3. Aplicación del Método de los mínimos cuadrados para la recta de
regresión: caso de datos no agrupados
Según BERENSON 2001, para poder formular la ecuación de regresión es
necesario determinar los coeficientes a y b de manera de encontrar la recta que
mejor ajusta los datos o que la diferencia entre las variables se hace mínima.
48
La que minimiza la diferencia se conoce como el método de los mínimos
cuadrados técnica matemática que nos ayuda a determinar los valores de a y b
SOTO 1982, se basa en la segunda propiedad de la media aritmética la cual
dice: La suma de los cuadrados de las desviaciones respecto a la media
aritmética es siempre un valor mínimo
El método consiste determinar dentro de la infinidad de líneas que existen en
un plano, aquella línea recta optima o promedio que pase lo mas cerca posible
de todos los puntos originados al representar las dos variables consideradas
(nubes de puntos)
Nube de puntos
. . .
. .. . .
. . . . . Recta óptima o de ajuste
. .. .
Valores de y
Valores de x
3.1. Rectas de regresión de y en x
Esta recta nos permite estimar valores de la variable y conocidos los de la
variable x a través de la siguiente ecuación.
y = a + bx
Determinación de los valores a y b
Partimos de la ecuación y = a + bx, por existir dos parámetros tendremos que
generar dos ecuaciones:
La primera se obtiene multiplicando la ecuación por (Sumatoria) de lo cual
obtenemos:
Donde , pues según la propiedad de las sumatorias: La sumatoria de
una constante es igual a N veces la constante
de lo cual se obtiene
La segunda ecuación se obtiene multiplicando la ecuación original por
49
Agrupamos las ecuaciones resultantes y tenemos:
Como podemos ver tenemos dos ecuaciones con dos incógnitas por lo cual
podemos aplicar cualquiera de los métodos conocidos, o podemos usar las
siguientes formulas
axy= Parámetro a de la recta de regresión de y en x
bxy= Parámetro b de la recta de regresión de x en y
ayx =
byx =
3.2. Calculo de la recta de regresión de x en y
Esta recta nos permite estimar valores de la variable x conocidos los de la
variable y a través de la siguiente ecuación.
x = a + by
Determinación de los valores a y b
Partimos de la ecuación x= a + by, por existir dos parámetros tendremos que
generar dos ecuaciones:
La primera se obtiene multiplicando la ecuación por de lo cual obtenemos:
Donde de los cual se obtiene
La segunda ecuación se obtiene multiplicando la ecuación original por
Agrupamos las ecuaciones resultantes y tenemos:
50
Como podemos ver tenemos dos ecuaciones con dos incógnitas por lo cual
podemos aplicar cualquiera de los método conocidos, o podemos usar las
siguientes formulas
axy= Parámetro a de la recta de regresión de x en y
bxy= Parámetro b de la recta de regresión de x en y
ayx =
byx =
3.3. Cálculo del error de estimación
Para el calculo del error de estimación de la recta de regresión x en y
Exy =
Ex.y = Error de estimación de la recta de regresión de x en y
Xo= Valores observados de la variable x
Xc= Valores calculados de la variable x
N = Nº de pares de variables
Otro método
Exy =
Podemos calcular el error de estimación si conocemos el coeficiente de
correlación.
Exy = Sx
Calculos del error de estimación de y en x
Exy =
Eyx = Error de estimación de la recta de regresión de y en x
Yo= Valores observados de la variable y
Yc= Valores calculados de la variable y
N = Nº de pares de variables
Otro método
51
Eyx =
Podemos calcular el error de estimación si conocemos el coeficiente de
correlación.
Eyx = Sy
3.4. Coeficiente de Regresión
Se denominan de esta manera a los parámetros b de cada una de las rectas
de regresión, es decir bxy y byx los cuales nos indica el numero unidades
que se modifica la variable dependiente por cada una de variación en la
variable independiente.
r=
4. Rectas de regresión para datos agrupados en clases
4.1. Recta de regresión de x en y
x = a + by
Se usará una formula basada en el Coeficiente de Correlación r de manera de
obtener mayor utilidad de la tabla de doble entrada
X–X= (Y– Y)
Donde
X = Es la variable dependiente
X = Es la media aritmética
r = Coeficiente de correlación
Sx y Sy son la Desviación Estándar de cada una de las variables
Para el calculo de la media aritmética usaremos la formula
X = Xa + . Icx
Donde Xa es el valor de una media arbitraria la asumirá el valor del punto
medio donde la diferencia o desvió unitario sea cero. Icx , Icy son los intervalos
de clase de cada variable
Y = Ya + . Icy
52
Para el calculo de la Sx
Sx = Icx ( )
Para el calculo Sy
Sy = Icy ( )
Para el calculo de la recta de regresión de y en x y = a + bx
Y–Y= (X– X)
Y procederemos igual sustituyendo los valores respectivos
5. Actividades:
5.1. Individuales:
1. Lea detenidamente la guía y consulte otra Bibliografía recomendada
2. Escriba un ensayo sobre la correlación y su utilidad. Consulte la
bibliografía disponible e Internet.
3. Dentro de su familia mas cercana recopile los datos de altura y peso y
calcule la recta de regresión respectiva.
5.2. Grupal Cooperativo
Los siguientes datos corresponden a las precipitación promedio mensual
y las temperaturas promedio mensual en Caracas durante algunos
meses 2004.
mm. °T
75 20
90 21
70 24
103 24,5
178 25
215 26
345 25,5
Calcule: La ecuación de las rectas de regresión, Coeficiente de
regresión, Error de estimación.
Los siguientes datos corresponden a las superficies plantadas y su
rendimiento de la producción agrícola en Venezuela para 1999.
Rubro Superficie (Ha) Rendimiento (Kg/Ha)
Arroz 149.480 4.482
Sorgo 163.232 2.461
Coco 18.046 5.795
Plátano 64.744 8.509
53
Ajo 12.560 7.189
Tomate 9.147 20.538
Mango 8.650 15.050
Calcule: Calcule: La ecuación de las rectas de regresión, Coeficiente de
regresión, Error de estimación.
6. BIBLIOGRAFÍA
BÁSICA
BERENSON, M. LEVINE, D. & KREHBIEL, T. Estadística para Administración. 2da
Ed. Pearson Prentice Hall, México.734 p.
FUENLABRADA, IRMA. 2002. Probabilidad y Estadística. 1ra. Ed. McGraw Hill,
México 399 p.
SOTO, ARMANDO. 1982. Iniciación a la Estadística. Editorial José Marti. Caracas
395 p.
SPIEGEL, M. SCHILLER, J. & SRINIVASAN, R. 2001. Probabilidad y Estadística.
2da. Ed. McGraw Hill, Bogota 399 p.
54
Tema 9 CORRELACION: Nivel de relación entre las variables.
COMPETENCIA A LOGRAR:
Conoce las técnicas para formular y calcular el Coeficiente de
Correlación entre dos variables
Formula y calcula el coeficiente de Correlación para datos agrupados y
datos no agrupados.
Establece la relación o correlación existente entre dos variables
consideradas.
CONTENIDOS:
1. CORRELACION
¿Qué es Correlación?
Según SOTO, 1982, es el grado de relación, asociación o dependencia que
pueda existir entre dos o más variables.
Es frecuente encontrar fenómenos íntimamente ligados ó variables
relacionadas con alguna forma de dependencia tales como:
Entre el tiempo que transcurre para que una persona se adapte a
la oscuridad y el nivel de azúcar en su sangre.
Entre el peso de una persona, su edad y hábitos que lo
predisponen a contraer una enfermedad.
Entre la longitud de la circunferencia y sus radios, cuya relación
se expresa mediante la ecuación C= 2 π r.
Esta relación o dependencia que es de naturaleza cuantitativa puede
deberse a diferentes tipos de factores.
2. Tipos de relación entre variables:
a. Relación causal
Cuando los movimientos que experimenta una de las variables
dependen de una causa o son efecto del movimiento de la otra
variable.
Por ejemplo al presentarse una aumento de nutrientes en una
masa de agua aumenta las poblaciones de las especies.
De igual manera al aumentar la población de depredadores de
una especie el aumento de la especie depredada se ve limitado.
55
b. Relación circunstancial
En otros casos tenemos que la relación entre las variables
depende de una circunstancia común, por ejemplo un proceso
social.
Por ejemplo las edades de los contrayentes en el matrimonio (a
mayor edad el hombre y a menor edad la mujer), no son un efecto
de la variación de la edad del esposo, sino que la correlación es
debida a una proceso social que tiene por tendencia el casarse en
edades con diferencias no muy significativas.
c. Relación casuística o aleatoria
Cuando la relación entre las variables se deben al azar,
casualidades o simples coincidencias.
Por ejemplo es una relación casual que al aumentar la producción
de hierro en el país aumente también la cantidad de accidentes
de transito en todo el país. De esto podemos concluir que no hay
lógica alguna en la asociación de los hechos.
Hay que ser muy cuidadoso en la selección adecuada de las variables que
tratemos de relacionar, para evitar un mal uso de los tipos de relaciones,
descartando aquellas que se presentan contrarias al sentido común según
el nivel de nuestro conocimiento de la realidad.
El estudio de la correlación tiene la importancia de permitirnos sintetizar el
nivel relación en un solo valor: El Coeficiente de Correlación.
Tres son los aspectos principales en el estudio de dos o más variables:
a. La relación o dependencia que pueda existir entre las variables en
estudio.
b. La dirección o tipo de relación que hay entre ellas.
c. El nivel de intensidad entre ellas
3. Clasificación de la Correlación
De acuerdo al número de variables consideradas
a. Correlación Simple: Aquella que considera la posible relación
entre dos variables.
b. Correlación múltiple: Aquella que considera la posible relación
entre mas de dos variables.
56
De acuerdo a la tendencia de los datos de las variables bajo estudio
a. Correlación rectilínea: Cuando los datos de las
variables consideradas presentan una tendencia de una línea
recta.
b. Correlación curvilínea: Cuando los datos de las
variables investigadas tiene una tendencia distinta a una línea
recta.
4. Correlación simple y rectilínea
Es aquella que estudia la relación, asociación o de pendencia entre dos
variables cuyas magnitudes presentan una tendencia en forma de una
línea recta.
5. Coeficiente de Correlación ( r ) para datos no agrupados
Se define como el indicador cuantitativo de tipo adimensional el cual no
indica el tipo y nivel de relación entre dos ó mas variables.
La formula del Coeficiente de correlación simple y rectilínea para datos
no agrupados.
Método de Pearson:
r=
donde dx = x – X ; dy= y – Y
Otra manera de expresar la formula del Coeficiente de correlación según
el metodo de Pearson seria:
r=
Donde N= numero de pares variables
Sx= Desviación Estándar de los datos de la variable
x
Sy= Desviación Estándar de los datos de la variable
y
Covarianza: Se define como media aritmética del producto de las desviaciones
de cada variable con respecto a sus respectivas medias X Y, y que
expresaremos mediante el símbolo Sxy
Sxy=
Con lo cual pudiéramos construir una nueva expresión de la formula de
Pearson
57
r=
Tipos de Correlación en cuanto al signo del Coeficiente r
Correlación Positiva o directamente proporcional
Cuando r= (+ ) nos indica que existe una relación directa, esto quiere
decir que al modificarse una variable en una dirección la otra se modifica
en la misma dirección.
Por ejemplo al aumentar la altura mayor numero del calzado
Correlación Negativa o inversamente proporcional
Cuando r= ( - ) nos indica que existe una relación inversa, esto quiere
decir que al modificarse una variable en una dirección la otra se modifica
en la dirección opuesta.
Por ejemplo al aumentar la altura desde la superficie terrestre menor es
la temperatura del ambiente
Incorrelación
Cuando el Coeficiente de Correlación es igual a cero r= 0 se dice que no
existe relación ó asociación alguna entre las dos variables consideradas.
Es decir son carente de relación o dependencia lineal.
Limites de Variación del Coeficiente de Correlación
El coeficiente de correlación r puede variar entre (+1) y (-1)
o sea
Cuando r= -1 se dice que existe una correlación negativa
perfecta o inversamente proporcional; o sea al cambiar una
variable en un sentido la otra la hace en el sentido contrario.
Cuando r= +1 se dice que tiene una correlación positiva perfecta
ó directamente proporcional; o sea al cambiar una variable en un
sentido la otra cambia en el mismo sentido.
Cuando r= 0 se dice que las variables son incorrelacionadas ó
con ausencia total de relación, asociación o dependencia entre
ellas.ç
El nivel de intensidad del Coeficiente de correlación será más fuerte, mientras
mas se aleje r del valor cero
De lo anterior y a escala general podemos decir:
Si r > 0,30 el coeficiente de Correlación es débil
Si 0,30< r 0,50 el coeficiente de Correlación es mediano
Si 0,50< r 0,80 el coeficiente de Correlación es apreciable
58
Si 0,80< r 1,00 el coeficiente de Correlación es fuerte
Ejemplo de aplicación:
De la evaluación de las plantas de un sector se encontró cinco especies
de árboles (Saman, Caobas, Cedros, Puy y Zapatero) se a cada
ejemplar de cada una de las especies se calculo la altura y su diámetro
a 1 metro del suelo resultando los siguientes datos promedio para cada
especie.
Especie Altura promedio Diámetro
m m
Saman 19 1,35
Caobas 15 0.85
Cedro 18 0,95
Puy 13 0,75
Zapatero 21 0,50
Se desea conocer:
a. Coeficiente de Correlación por el método de Pearson
b. Coeficiente de correlación mediante el uso de las Desviaciones
Estándar
c. Coeficiente de correlación mediante el uso de la Covarianza
d. Interpretar el coeficiente obtenido.
Solución:
a. Calculo del Coeficiente de Correlación mediante uso del método de Pearson
m m
Altura Diámetro dx dy
X Y X-X Y-Y dxdy d2x d2y
19 1,35 1,8 0,47 0,846 3,240 0,220
15 0.85 - 2,20 0,00 0,000 4,840 0,000
18 0,95 0,80 0,07 0,056 0,005 0,003
13 0,75 -4,20 - 0,13 0,546 0,017 0,298
21 0,50 2,80 - 0,38 - 1,064 0,144 1,132
86 4,40 0,384
Calculo de las medias aritméticas
X= ; X = 17,20 Y= ; Y = 0,88
Aplicamos la formula de Pearson para el calculo del Coeficiente de Correlación
r= ; r= ; r = 0,104
59
b. Calculo del Coeficiente mediante el uso de las Desviaciones Estándar
Calculamos las Desviaciones estándar S para cada variable
Sx = ; Sx = ; Sx = ; Sx = 1,28
Sy = ; Sy = ; Sy = ; Sy= 0,575
r= ; r= ; r = 0,104
c. Determinamos r en función de la Covarianza
Determinamos la Covarianza
Sxy= ; Sxy= ; Sxy = 0,0768
r= ;r= ; r = 0,104
d. Como se observa, por cualquiera de las modalidades del método Pearson el
resultado es el mismo r = + 0,104 lo que indicaría una débil (muy débil)
correlación positiva o directamente proporcional entre la altura de los
árboles con su diámetro a 1 metro del suelo.
a. Coeficiente de Correlación ( r ) para datos agrupados
Según Soto 1982, para determinar el coeficiente de correlación de
datos agrupados es conveniente construir la Tabla de Correlacion de
doble entrada, denominada así por presentar una entrada para la
variable x y otra para la variable y.
La variable x se ubica en forma horizontal y la variable de manera
vertical en cada caso se incrementan los valores desde el origen hacia
los extremos de cada eje.
60
En la primera fila horizontal se colocará cada clase de la variable x con
su respectivo punto medio entre paréntesis ordenadas de menor a
mayor ( hacia el extremo)
El la primera columna se colocará cada una de las clases de la variable
y con sus respectivos puntos medios.
La formula para calcular el Coeficiente de Correlación r para datos
agrupados es:
r=
Para obtener los elementos faltantes de la formula tenemos que
construir 6 filas y 6 columnas adicionales a la tabla de doble entrada
En el mismo eje de la variable x (eje horizontal) localizaremos a fy , dy,
d2y, fydy, fyd2y,
En el mismo eje de la variable y (eje vertical) localizaremos a fx , dx, d 2x,
fxdx, fxd2x,
fx = Frecuencia absoluta de la variable x
dx = diferencia respecto a la media (desvíos unitarios) de la variable x
d2x = el cuadrado de la diferencia respecto a la media (desvíos unitarios)
de la variable x
fydy = el resultado del producto entre fx y dx
fxd2x = el resultado del producto entre fx y d2x
= Sumando de los valores localizado en las cedillas (cuadros)
pequeños (Estos valores son el producto entre la f por dx y dy
manteniendo el signo resultante.
61
7. ACTIVIDADES PROPUESTAS:
Individual:
Lea con cuidado los contenidos presentados con relación a la
correlación y el calculo de su coeficiente
Escriba un ensayo sobre la correlación y su utilidad. Consulte la
bibliografía disponible e Internet.
Dentro de su familia más cercana recopile los datos de altura y peso
y calcule la ecuación recta de regresión respectiva.
Grupal Cooperativo:
Los siguientes datos corresponden a las precipitación promedio
mensual y las temperaturas promedio mensual en Caracas durante
algunos meses 2004.
mm. °T
76 20
91 21
71 24
104 24,5
178 25
215 26
345 25,5
Calcule: Coeficiente de Correlación por el método de Pearson,
Coeficiente de correlación mediante el uso de las Desviaciones
Estándar, Coeficiente de correlación mediante el uso de la Covarianza,
Interprete el coeficiente de Correlación obtenido.
Los siguientes datos corresponden a las superficies plantadas y su
rendimiento de la producción agrícola en Venezuela para 1999.
Rubro Superficie (Ha) Rendimiento (Kg./Ha)
Arroz 149.480 4.482
Sorgo 163.232 2.461
Coco 18.046 5.795
Plátano 64.744 8.509
Ajo 12.560 7.189
Tomate 9.147 20.538
Mango 8.650 15.050
Calcule: Coeficiente de Correlación por el método de Pearson,
Coeficiente de correlación mediante el uso de las Desviaciones
Estándar, Coeficiente de correlación mediante el uso de la Covarianza,
Interprete el coeficiente de Correlación obtenido.
62
a. BIBLIOGRAFÍA
BÁSICA
BERENSON, M. LEVINE, D. & KREHBIEL, T. Estadística para Administración. 2da
Ed. Pearson Prentice Hall, México.734 p.
FUENLABRADA, IRMA. 2002. Probabilidad y Estadística. 1ra. Ed. McGraw Hill,
México 399 p.
SOTO, ARMANDO. 1982. Iniciación a la Estadística. Editorial José Marti. Caracas
395 p.
SPIEGEL, M. SCHILLER, J. & SRINIVASAN, R. 2001. Probabilidad y Estadística.
2da. Ed. McGraw Hill, Bogota 399 p.
63
CAPITULO III ANALISIS DE VARIANZA
TEMA 10 ANÁLISIS DE VARIANZA DE UN SOLO FACTOR
COMPETENCIAS
Determina si una variable (dependiente) es afectada por distintos niveles de
otra variable (factor)
CONTENIDOS
-Introducción al análisis de la varianza
-Análisis de la varianza (ANOVA) de una sola clasificación o vía: Suma total de
cuadrados, suma de cuadrados entre grupos, suma de cuadrados intra grupos,
grados de libertad, Prueba de F, Pruebas a posteriori.
Introducción al análisis de la varianza (ANOVA)
Muchos experimentos o tomas de muestras se realizan para determinar
el efecto que tienen distintos niveles de algún factor de prueba sobre una
variable de respuesta. El factor de contraste puede ser la temperatura, el
fabricante de un producto, la dosis de fertilizante, el día de la semana, o
cualquier otra cosa. Se desea investigar si una variable aleatoria sobre la que
se toman muestras es afectada por distintos niveles de un factor, es decir,
determinar si diferentes niveles del factor influyen sobre las diferencias en los
valores de la variable. Se tomará así una decisión estadística relativa al efecto
que tienen los niveles del factor contrastado sobre la variable de respuesta
El análisis de varianza de un factor es el modelo más simple: una única
variable nominal independiente con tres o más niveles, explica una variable
dependiente continua (existen análisis de varianzas donde se considera el
efecto de más de un factor pero no los estudiaremos en este caso). Esta
comparación podría realizarse comparando todas las posibles combinaciones
de dos en dos de las medias de todos los subgrupos formados, es decir realizar
pruebas de t de Student para cada par de medias. Esto trae varios problemas:
a) se incrementa el riesgo de dar un resultado falso positivo, al realizar más de
un análisis sobre un mismo conjunto de datos, es difícil interpretar la verdadera
influencia de la variable que actúa como factor de clasificación porque genera
diferentes niveles de significación (p), resultantes de las comparaciones entre
sus subgrupos, y es un procedimiento muy largo y engorroso.
Con el análisis de varianza podemos contrastar mas de dos medias
simultáneamente, lo que reduce los errores y facilita la comparación.
Mediante el ANOVA se analiza globalmente la influencia de cada
variable independiente, generándose un único nivel de significación.
([Link]
nes_anova.htm)., además se realizan todas las comparaciones entre medias
en un solo procedimiento.
64
Por lo tanto el análisis de varianza se utiliza para contrastar hipótesis
acerca de varias medias poblacionales pero a diferencia de la t de Student, en
la prueba de ANOVA se realiza la comparación entre dos varianzas:
“VARIANZA ENTRE” y “VARIANZA DENTRO”. La varianza entre es la varianza
entre grupos, tratamientos o niveles del factor y es la expresión de la
variabilidad de los datos entre los grupos por efecto del tratamiento o niveles
del factor, mientras que la varianza dentro es la varianza dentro de cada
grupo, tratamiento o nivel del factor y es la expresión de la variabilidad de los
datos debida a la variable o a la forma en que estos fueron tomados.
Si existe un efecto del tratamiento, se espera que la variabilidad de los
datos entre los grupos o niveles del tratamiento sea mayor que la variabilidad
dentro de cada grupo, lo que implica que la “varianza entre” debe ser mayor
que la “varianza dentro”.
En resumen, en un ANOVA la hipótesis nula a probar es:
H0:μ1= μ2= μ3=μ4= μ5
que gráficamente puede representarse así:
μ1=μ2=μ3
Mientras que las hipótesis alternativas son:
H1:μ1= μ2
H2:μ1= μ3
H3:μ1= μ4
H4:μ1= μ5
H5:μ2= μ3
H6:μ2= μ4
H7:μ2= μ5
65
H8:μ3= μ4
H9:μ3= μ5
H10:μ4= μ5
Para probar la hipótesis nula H0 sobre la igualdad de las cinco medias
se tendría que contrastar cada una de estas 10 hipótesis con la técnica inicial
para dos medias. El rechazo de cualquiera de ellas implicará rechazar las
hipótesis de igualdad de las cinco medias. El no rechazo de las diez hipótesis
acerca de parejas de medias, tendrá como consecuencia el no rechazo de la
hipótesis nula principal. Supóngase que se contrastó una hipótesis sobre
varias medias contrastando todas las parejas posibles de medias; el error tipo I
global sería mucho mayor que el valor α asociado a una sola prueba. Las
técnicas del ANOVA permiten contrastar la hipótesis nula (todas las medias son
iguales) contra la alternativa (al menos un valor medio es distinto) con un valor
de α especificado.
Por lo tanto la hipótesis alternativa para un ANOVA puede resumirse
como:
H0: μ1 ≠ μ2 ≠ μ3 ≠ μ4 ≠ μ5
que gráficamente puede representarse así:
μ1 ≠ μ2 ≠ μ3
Ejemplo
Suponga que Ud. desea comparar si los pepinos cosechados en tres
localidades bajo distintas condiciones de fertilización (fertilizante químico,
abonos verdes, compost) tienen el mismo peso. Para ello Ud. toma una
muestra de 10 pepinos en cada una de las cosechas de las localidades y
66
procede a comparar las 3 medias muestrales del peso de pepinos en las 3
localidades.
Si tuviéramos sólo 2 localidades y por ende 2 medias muestrales
aplicaríamos una prueba de diferencia de medias (t de student). Pero como
tenemos más de dos medias muestrales (en este caso 3) debemos aplicar una
prueba de ANOVA.
En primer lugar deben organizarse los datos recolectados en una tabla
similar a la Tabla 1 (es recomendable utilizar una hoja de cálculo EXCEL para
elaborar la tabla, ya que más adelante deben realizarse algunos cálculos que
pueden trabajarse fácilmente en EXCEL).
TABLA 1 PESO DE LOS PEPINOS EN COSECHAS BAJO DIFERENTES
ABONOS
N° Peso (g) de los pepinos Peso (g) de los pepinos Peso (g) de los
Pepino bajo fertilizante químico bajo abono verde pepinos bajo compost
1 300 350 360
2 310 345 365
3 320 350 360
4 295 350 365
5 300 350 355
6 325 345 360
7 290 345 350
8 310 340 355
9 300 350 360
10 320 340 365
El ANOVA requiere que se cumplan los siguientes supuestos o condiciones:
1.- Los efectos debidos al azar así como los factores no contrastados están
distribuidos en forma normal y la varianza originada por estos efectos es
constante a lo largo del experimento. La variable tiene distribución normal.
2.-Igualdad de la varianza interna en todos los grupos
s21 = s22 = s23 = ......... = s2a = s2 (homocedasticidad)
3.- Independencia de las observaciones: NO debe haber ni autocorrelación
entre los valores , ni grupos pareados. La independencia significa que los
resultados de una observación del experimento no afectan los resultados de
cualquier otra observación.
Fuente: [Link]
67
Antes de realizar una prueba de de ANOVA debe probarse si estos
supuestos se cumplen o no. Si se cumplen se procede a realizar la prueba de
ANOVA, si no se cumplen debe aplicarse una prueba no paramétrica similar
como la prueba de Kruskall-Wallis.
¿cómo se prueba cada uno de estos supuestos?
1.-Para probar si una variable tiene o se ajusta a una distribución normal
existen varios procedimientos posibles. En las direcciones WEB que se
señalan a continuación (anexo) se explican algunas de ellas.
.-[Link]
.-[Link]
.-[Link]
aplic_normal.htm
2.-Para probar la homogeneidad (igualdad) de las varianzas de los distintos
grupos se realiza la prueba de F (que se explicará mas adelante) entre la
mayor y la menor varianza (o desviación estándar) de los grupos. Si se prueba
que la mayor y la menor varianza (o desviación estándar) no son
estadísticamente diferentes, es decir, son homogéneas, entonces eso implica
que todas las demás varianzas (cuyos valores se encuentran entre estas dos)
también son homogéneas y se puede aplicar el ANOVA.
3.-La independencia de las observaciones: a la hora de diseñar un experimento
o de tomar muestras a las cuales se les desee aplicar una prueba de ANOVA,
debe procurarse que los datos de los distintos grupos sean independientes, es
decir que los resultados o datos del experimento no afecten los resultados de
cualquier otra observación o dato.
Análisis de la varianza: Desarrollo de la prueba
Como se dijo anteriormente en un ANOVA:
Ho: m1 = m2 = m3 = md = m
H1: m1 ≠ m2 ≠ m3 ≠ md
68
Xij
.
. .. donde:
.. XC ..
XA. .. ..
.. .. Xij es la j-ésima observación del i-
. .. .. X0
XB . .. ésimo grupo (cada dato u
.
. .. XD general
.. .. observación)
.. .. . Xi (XA, XB, XC, XD) es la media de
.
.. cada grupo y
. ..
. . X0 es la media general de todas
. las observaciones (gran media)
.B .
.A C .D grupos
.
.
Por lo tanto elevando al cuadrado:
(Xij- X0)2 = (Xij - Xi)2 + (Xi - X0)2 + 2(Xij - Xi)(Xi - X0)
de donde:
(Xi - X0)2 = (Xij - Xi)2 + (Xi - X0)2 , porque la suma de los dobles
productos se anula si los grupos son independientes.
Estudiemos cada una de estas sumas de cuadrados cuyas fórmulas
son explicadas en el Cuadro 1:
CUADRO 1
suma de cuadrados total (SCT) es la suma de los cuadrados de
2
Σ (xij – x0) los desvíos de todas las observaciones respecto a su media
general. Si la dividimos por n-1 obtendremos una estimación de
la varianza de las observaciones (S2total )
suma de cuadrados entre grupos (SC entre) es la suma de los
2
Σ (xij – xi) cuadrados de los desvíos de las medias de los grupos respecto a la
media general. Si se divide por a-1 se obtiene otra estimación
de la varianza de x (S2 entre )
suma de cuadrados dentro de grupos (SC dentro) es la suma
de los cuadrados de los desvíos de las observaciones respecto a
Σ (xij – xi)2
la media de su respectivo grupo. Al dividirla por n-a se obtiene una
tercera estimación de la varianza de x (S2 dentro)
Debe tenerse en cuenta que las estimaciones S2 entre y S2 dentro son
independientes entre sí, pero si bien S2 dentro es siempre un estimador
insesgado, S 2 entre solamente lo será si la Ho es verdadera, es decir si las
69
medias son iguales.
El test se reduce por lo tanto a un ensayo de igualdad de varianzas
Fexperimental = S2 entre / S2 dentro
Se compara este Fexperimental con el F tabulado con (1-1) y (2-1) grados de
libertad. Si Fexperimental > F tabulado se rechaza Ho, lo que implica que hay diferencias
estadísticamente significativas entre las medias de los grupos.
Fuente: [Link]
Utilizando el ejemplo de la Tabla 1:
xij
xij
TABLA 1 PESO DE LOS PEPINOS EN COSECHAS CON DIFERENTES ABONOS
N° Peso (g) de los pepinos Peso (g) de los pepinos Peso (g) de los
pepino bajo fertilizante quíimico bajo abono verde pepinos bajo compost
1 300 350 360
2 310 345 365
3 320 350 360
4 295 350 xij 365
J=10 5 300 350 355
6 325 345 360
7 290 345 350
8 310 340 355
9 300 350 360
10 320 340 365
( i=1) ( i=2) ( i=3)
( )
0
i= tratamientos o niveles del factor (en este caso 3)
j= datos de cada tratamiento (en este caso hay 10 datos en cada tratamiento o
nivel)
70
Fuente: [Link]
CUADRO 2 RESUMEN DE LAS FUENTES DE VARIACIÓN, VARIANZAS Y
GRADOS DE LIBERTAD EN UN ANOVA
GRADOS DE MEDIA DE
FUENTE DE SUMA DE
LIBERTAD CUADRADOS Fcalculado
VARIACIÓN CUADRADOS (SC)
(gl) (MC)
ENTRE MC Entre/MC
SC ENTRE a - 1 (*) SC Entre / a-1
GRUPOS Dentro
DENTRO DE
SC DENTRO n–a SC Dentro/ n-a
GRUPOS
TOTAL SC TOTAL n–1
Fuente: [Link]
Prueba de F
La prueba de F permite establecer si dos varianzas muestrales estiman
o no una misma varianza poblacional. Para ello se realiza el cociente de la
varianza muestral mayor sobre la varianza muestral menor. El valor obtenido
se compara con los valores de la distribución F representados en una tabla de
F (Tabla 4 en la sección de “anexos”) en la cual se ingresa con los grados de
libertad de la varianza del numerador (v1), los grados de libertad de la varianza
del denominador (v2) y el nivel de significancia , para obtener un F crítico. Si
el valor obtenido en el cociente de las dos varianzas (Fcalculado) es mayor
que el valor crítico obtenido en la Tabla de F (Fcrìtico), se cae en la zona de
rechazo de H0, por lo que rechazo la hipótesis nula.
El cociente de variables independientes (cociente entre dos X21 / X 22) cada una
distribuida como S2 y dividida por sus respectivos grados de libertad, se
distribuye como F (de Fisher) con ν 1, ν 2 grados de libertad
F= X21 / X22
La distribución existe sólo para los valores NO negativos de F, presenta
asimetría positiva y tiene dos parámetros :
ν1 grados de libertad del numerados y ν 2 grados de libertad del denominador
Fuente:
[Link]
En el caso de la prueba de ANOVA las dos varianzas que se comparan
mediante la prueba de F son la “varianza entre grupos O VARIANZA ENTRE” y
la “varianza intragrupos O VARIANZA DENTRO”, pero como estas no se
conocen se utilizan sus estimadores muestrales S 2 dentro y S2 entre por lo tanto se
divide la 1ra entre la 2da. Si el cociente es superior al F crítico hallado en la
71
tabla se rechaza la hipótesis nula lo que indica que al menos una de las medias
comparadas es diferente al resto.
Para realizar un análisis de varianza Ud. debe calcular el valor de F que
resulta de dividir las desviaciones estándar: S 2 entre y S2 dentro lo que indica
que en primer lugar hay que hallar estas dos desviaciones.
Para hallar dichas desviaciones utilice las fórmulas indicadas en el
Cuadro 1 para obtener finalmente S 2 entre y S2 dentro. Luego debe realizar el
cociente S 2 entre / S2 dentro para hallar el valor de F.
Finalmente debe comparar este valor de Fcalculado con el valor de
Fcrítico obtenido en la tabla de F tal como se indica en la sección Prueba de F.
Si el valor de Fcalculado es superior al Fcrítico hallado en la tabla se rechaza la
hipótesis nula lo que indica que al menos una de las medias comparadas es
diferente al resto.
Pruebas a posteriori
Al rechazar la hipótesis nula en un ANOVA, debe realizarse una prueba
más, con la finalidad de determinar cuales son las medias que son
diferentes .Este tipo de pruebas se denominan pruebas a posteriori. Dentro de
estas se encuentran las pruebas de Tukey, Duncan, Diferencia Mínima
Significativa, entre otras.
Prueba de Diferencia Mínima Significativa
Es un procedimiento usado para comparar cada una de las medias de
un conjunto con un tratamiento control.
El valor de DMS (Diferencia Mínima Significativa) es igual a:
DMS = t.S2d; donde Sd2= Si2 + Si´2 siendo Si2 y Si´2 las varianzas
n n´
estimadas de los experimentos que reciban los tratamientos i e i´
respectivamente, r y ri´ son los números de unidades experimentales que
reciben los tratamientos i e i´, respectivamente, t es el valor de t de Student al
nivel de significación α escogido y con f grados de libertad asociados con la
desviación estándar de la media.
Todas las diferencias entre las medias (que se calculan restándole la
menor media a la mayor) son comparadas con la DMS calculada. Si la
diferencia excede la DMS, se dice que las medias provienen de poblaciones
con medias distintas.
A continuación realizaremos un ejemplo de cómo realizar una prueba de
ANOVA utilizando los datos de la Tabla 1.
72
En primer lugar los datos de la Tabla 1 fueron introducidos en una hoja
de cálculo de EXCEL. Luego se comprobó que se cumplían todas las
condiciones para poder aplicar la prueba de ANOVA.
Finalmente se procedió a realizar en la hoja de cálculo todas las
operaciones necesarias.
Ejemplo
N° Peso (g) pepinos Peso (g) pepinos Peso (g) pepinos
PEPINO fertilizante quíimico abono verde compost
1 290 350 385
2 295 345 385
3 290 350 380
4 290 350 385
5 290 350 380
6 290 345 385
7 290 345 380
8 295 340 385
9 295 350 380
10 295 340 385
292 346.5 383
S21=6,66 S22=16,94 S23=6,67
x0=
340.50
Σ (xij – xo)2 Σ (xi – xo)2 Σ (xij – xi)2
2550.25 2352.25 4.00
2070.25 36.00 9.00
2550.25 1806.25 4.00
2550.25 4194.50 4.00
2550.25 dividido entre a-1 (3-1) 4.00
2550.25 2097.25 4.00
2550.25 este valor es S2 entre 4.00
2070.25 9.00
2070.25 9.00
2070.25 9.00
90.25 12.25
20.25 2.25
90.25 12.25
73
90.25 12.25
90.25 12.25
20.25 2.25
20.25 2.25
0.25 42.25
90.25 12.25
0.25 42.25
1980.25 30.25
1980.25 30.25
1560.25 0.25
1980.25 30.25
1560.25 0.25
1980.25 30.25
1560.25 0.25
1980.25 30.25
1560.25 0.25
1980.25 30.25
42217.50 395.00
dividido entre (n-1) x a dividido entre n-a (10-3)
1455.78 56.43
este valor es S2 total este valor es S2 dentro
F=S2 entre / S2 dentro
F=2097,25/56,43
Fcalculado= 37.16
Fcrìtico (tabla)
para (a-1) y (n-1) x a
grados de libertad y =0.05
(a-1)=(3-1)=2 grados de libertad
(n-1) x a= (10-1) 3=27 gl
Fcrìtico= 18.6
(2,27,0.05)
Fcalculado > Fcrìtico
Rechazo Ho
lo que significa que al menos uno de los
74
Fertilizantes (tratamientos) produce pepinos con
pesos distintos a los otros dos
Entonces procedo a realizar la prueba
a posteriori DMS para determinar cual o
cuales fertilizantes (tratamientos) producen pepinos
con pesos diferentes
PRUEBA a posteriori DMS
x1-x2 x1-x3 x2-x3
2
Si 4.44 4.44 4.44
Sj2 28.69 4.44 28.69
Sd2 (Si2+Sj2) 33.14 8.88 33.14
Sd 5.76 2.98 5.76
tcrit(n-1, )
tcrit(9, 0.025) 2.82
DMS=Sd x t crit 5,76 x 2,82 2,98 2,82 5,76 x 2,82
DMS (x1-x2) DMS (x1-x3) DMS (x2-x3)
Diferencia de medias 93.43 25.05 93.47
(x1-x2) 54.5 NO
(x1-x3) 91 SI
(x2-x3) 36.5 NO
Estos resultados indican que las diferencias
entre X1 y X2 y entre X2 y X3 no son
estadísticamente significativas, mientras que la diferencia entre
X1 y X3 si es estadísticamente significativa. En otras palabras,
los pepinos cultivados con fertilizantes químicos y los
cultivados con compost no pesan lo mismo, en promedio.
Por otra parte, los pepinos cultivados con abono verde
tienen un peso promedio que es intermedio entre el de los
cultivados con fertilizantes y el de los cultivados con
compost, y no se puede diferenciar de estos.
Si observamos los valores de peso promedio en cada
tratamiento (las medias) podemos deducir que esta
75
diferencia consiste en que el peso promedio es mayor en
los pepinos cultivados con compost.
Conclusiones:
1.-La prueba de ANOVA indicó que se rechaza la Ho, es decir, las medias
poblacionales (estimadas a través de las medias muestrales) de los pesos de
los pepinos cultivadas bajo diferentes tratamientos (fertilizantes) no son iguales.
En otras palabras, los pepinos cultivados bajo diferentes tratamientos no tienen
el mismo peso, en promedio.
2.-La prueba a posteriori de Diferencia Mínima Significativa indicó que las
medias poblacionales (estimadas por las medias muestrales) de peso de
pepinos que son diferentes son X1 y X3: peso promedio de pepinos cultivados
con fertilizantes y peso promedio de pepinos cultivados con compost, es decir,
los pepinos cultivados con fertilizantes y compost no tienen el mismo peso
promedio. Por otra parte, el peso de los pepinos cultivados con abono verde no
se puede diferenciar estadísticamente del de los cultivados con fertilizantes ni
del de los cultivados con compost, lo que permite suponer que el valor se
encuentra entre estos dos valores.
3.-La observación de los valores promedio de peso de los pepinos cultivados
con fertilizantes y con compost, indica que la diferencia entre ambos se debe a
que los pepinos cultivados con compost tienen un mayor peso promedio que
los pepinos cultivados con fertilizantes.
4.- Esta experiencia indica que en este caso particular, es preferible cultivar los
pepinos con compost que con fertilizantes debido a que así se obtienen
pepinos de mayor peso. Haciendo eso además estaríamos obteniendo una
ganancia extra ya que se sabe que al cultivar con compost se minimiza la
degradación de suelos y aguas y la afectación negativa de personas, animales,
plantas y otros seres vivos que ocurre por el uso de fertilizantes.
Actividad individual
Señale en cual de estos casos podría utilizar un ANOVA y explique por que.
Tome en cuenta el tipo de variable para esta consideración.
1) Caso: estudio de las cosechas de tomate en distintas localidades. Aunque es
la misma especie en las tres localidades en cada una hay variaciones en el
tamaño del fruto.
76
Tamaño del fruto
Variedad 1 Variedad 2 Variedad 3
1 Grande Mediano Pequeño
2 Mediano Mediano Mediano
3 Grande Mediano Pequeño
4 Grande Pequeño Mediano
5 Mediano Pequeño Mediano
6 Grande Grande Pequeño
7 Mediano Pequeño Pequeño
87 Grande Mediano Pequeño
8 Mediano Mediano Mediano
9 Grande Mediano Pequeño
10 Grande Mediano Mediano
2) Caso: estudio del tipo de suelo más adecuado para el establecimiento de un
vivero para la producción de plantas para la reforestación.
Altura (cm) de la planta
Suelo tipo 1 Suelo tipo 2 Suelo tipo 3
1 50 66 50
2 55 63 55
3 54 65 52
4 50 66 50
5 53 64 51
6 52 65 49
7 57 60 50
87 54 63 48
8 53 66 51
9 55 64 50
10 53 68 49
Actividad grupal
En grupos de 3 realice una estimación de la cantidad de desechos
sólidos generados en tres localidades diferentes. El procedimiento a realizar es
el siguiente: seleccione en cada localidad 15 viviendas similares. En cada
vivienda selecciones una bolsa plástica tipo “supermercado” o “abasto” y
pésela. Al final de la experiencia debe tener 15 valores de peso de desechos,
cada uno correspondiente a una bolsa. En cada vivienda y a una multiplique el
valor del peso de una bolsa de desechos por el número total de desechos por
el número total de bolsas de desechos generadas en un día (la familia de esa
vivienda puede decirle cuantas bolsas de desecho se generan en esa
vivienda).
77
Finalmente una vez realizadas la experiencia en las 3 comunidades Ud.
puede elaborar una tabla así:
Peso (kg) de desechos generado por día
Localidad 1 Localidad 2 Localidad 3
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Con estos datos verifique las condiciones para la aplicación de una
prueba de ANOVA y en caso que estas condiciones se cumplan aplique la
prueba y explique los resultados.
BIBLIOGRAFÍA
BÀSICA
Chacín, F. 2000. Diseño y análisis de experimentos. UCV-Vicerrectorado
Académico. Venezuela.
Machi, R. 2003. Introducción a la Estadística en Ciencias de la Salud. Editorial
Médica Panamericana. España.
Sokal, R. y J. Rohlf. 1980. Introducción a la Bioestadística. Editorial Reverté
S.A. España.
PÁGINAS WEB:
[Link]
[Link]
[Link]
[Link]
[Link]
aplic_normal.htm
[Link]
ventajas_y_limitaciones_anova.htm
78
ANEXO 1
79
PRUEBAS PARA EL AJUSTE DE UNA VARIABLE A UNA DISTRIBUCIÓN
NORMAL
1.-[Link]
¿Y si los datos no siguen una distribución normal?...
Bondad de ajuste a una normal.
Transformaciones.
Pruebas no paramètricas
Artículo en formato PDF
Preparado por Luis M. Molinero (Alce
Ingeniería) [Link]/[Link]
CorreoE: bioestadistica
[Link]
Julio 2003
Cuando se analizan datos medidos por una variable cuantitativa continua, las pruebas
estadísticas de estimación y contraste frecuentemente empleadas se basan en suponer
que se ha obtenido una muestra aleatoria de una distribución de probabilidad de tipo
normal o de Gauss. Pero en muchas ocasiones esta suposición no resulta válida, y en
otras la sospecha de que no sea adecuada no resulta fácil de comprobar, por tratarse de
muestras pequeñas. En estos casos disponemos de dos posibles mecanismos: los datos
se pueden transformar de tal manera que sigan una distribución normal, o bien se
puede acudir a pruebas estadísticas que no se basan en ninguna suposición en cuanto a
la distribución de probabilidad a partir de la que fueron obtenidos los datos, y por ello se
denominan pruebas no paramétricas (distribution free), mientras que las pruebas que
suponen una distribución de probabilidad determinada para los datos se denominan
pruebas paramétricas.
Dentro de las pruebas paramétricas, las más habituales se basan en la distribución de
probabilidad normal, y al estimar los parámetros del modelo se supone que los datos
constituyen una muestra aleatoria de esa distribución, por lo que la elección del
estimador y el cálculo de la precisión de la estimación, elementos básicos para construir
intervalos de confianza y contrastar hipótesis, dependen del modelo probabilístico
supuesto.
Cuando un procedimiento estadístico es poco sensible a alteraciones en el modelo
probabilístico supuesto, es decir que los resultados obtenidos son aproximadamente
válidos cuando éste varía, se dice que es un procedimiento robusto.
80
Las inferencias en cuanto a las medias son en general robustas, por lo que si el tamaño
de muestra es grande, los intervalos de confianza y contrastes basados en la t de Student
son aproximadamente válidos, con independencia de la verdadera distribución de
probabilidad de los datos; pero si ésta distribución no es normal, los resultados de la
estimación serán poco precisos.
Procedimientos para verificar el ajuste a una distribución de probabilidad
Existen diferentes pruebas para verificar el ajuste de nuestros datos a una distribución
de probabilidad. Las dos más utilizadas son el contraste de Pearson, y la prueba de
Kolmogorov-Smirnov.
Contraste de Pearson
La idea del contraste de Pearson es muy sencilla: se agrupan los datos en k clases (k>5),
como si fuéramos a construir un histograma, cubriendo todo el rango posible de valores,
siendo deseable disponer, aproximadamente, del mismo número de datos en cada clase
y al menos de tres datos en cada una.
Llamamos Oi al número de datos observado en la clase i. Mediante el modelo de
probabilidad que se desea verificar se calcula la probabilidad Pi asignada a cada clase, y
por lo tanto, para una muestra de n datos, la frecuencia esperada según ese modelo de
probabilidad es Ei=[Link].
Se calcula entonces el siguiente índice de discrepancia entre las frecuencias observadas
y las que era previsible encontrar si el modelo fuera el adecuado:
que se distribuye aproximadamente como una si el modelo es correcto.
Si el modelo se especifica de forma completa con las probabilidades Pi, conocidas antes
de tomar los datos, el número de grados de libertad es k-1. Pero si se han estimado r
parámetros del modelo a partir de los datos, entonces los grados de libertad son k-r-1.
Prueba de Kolmogorov-Smirnov
Este contraste, que es válido únicamente para variables continuas, compara la función
de distribución (probabilidad acumulada) teórica con la observada, y calcula un valor de
discrepancia, representado habitualmente como D, que corresponde a la discrepancia
máxima en valor absoluto entre la distribución observada y la distribución teórica,
proporcionando asimismo un valor de probabilidad P, que corresponde, si estamos
verificando un ajuste a la distribución normal, a la probabilidad de obtener una
distribución que discrepe tanto como la observada si verdaderamente se hubiera
obtenido una muestra aleatoria, de tamaño n, de una distribución normal. Si esa
81
probabilidad es grande no habrá por tanto razones estadísticas para suponer que nuestros
datos no proceden de una distribución, mientras que si es muy pequeña, no será
aceptable suponer ese modelo probabilístico para los datos.
Prueba de Shapiro-Wilks
Aunque esta prueba es menos conocida es la que se recomienda para contrastar el
ajuste de nuestros datos a una distribución normal, sobre todo cuando la muestra es
pequeña (n<30).
Mide el ajuste de la muestra a una recta, al dibujarla en papel probabilístico normal.
Este tipo de representación también lo proporcionan algunos programas de estadística,
de tal manera que nos permite además apreciar el ajuste o desajuste de forma visual:
En escala probabilística normal se representa en el eje horizontal, para cada valor
observado en nuestros datos, la función de distribución o probabilidad acumulada
observada, y en el eje vertical la prevista por el modelo de distribución normal. Si el
ajuste es bueno, los puntos se deben distribuir aproximadamente según una recta a 45º.
En la imagen vemos que en este ejemplo existe cierta discrepancia.
En cualquier caso siempre es adecuado efectuar una representación gráfica de tipo
histograma de los datos, y comparar el valor de la media y la mediana, así como evaluar
el coeficiente de asimetría y apuntamiento, además de llevar a cabo una representación
en escala probabilística de la distribución de probabilidad esperada versus observada,
como la de la figura.
82
Posibles soluciones cuando se rechaza la hipótesis de normalidad
Si rechazamos o dudamos de la normalidad de nuestros datos, existen varias soluciones
posibles:
Si la distribución es más apuntada que la normal (mayor parte de los valores
agrupados en torno de la media y colas más largas en los extremos), se
debe investigar la presencia de heterogeneidad en los datos y de posibles
valores atípicos o errores en los datos. La solución puede ser emplear
pruebas no paramétricas.
Si la distribución es unimodal y asimétrica, la solución más simple y efectiva
suele ser utilizar una transformación para convertir los datos en normales.
Cuando la distribución no es unimodal hay que investigar la presencia de
heterogeneidad, ya que en estos casos la utilización de transformaciones no
es adecuada y los métodos no paramétricos pueden también no serlo.
Una alternativa muy interesante a los métodos paramétricos y a las pruebas
no paramétricas clásicas, la constituye la metodología de estimación
autosuficiente ya esbozada en otro artículo de esta serie.
Transformaciones para conseguir datos normales
La utilización de transformaciones para lograr que los datos se ajusten a una
distribución normal es en muchas ocasiones la solución más natural, ya que existen gran
cantidad de parámetros biológicos que tienen una distribución asimétrica como la de la
figura de la izquierda, y que se convierten en aproximadamente simétricas al
transformarlas mediante el logaritmo.
Tenemos problemas con la transformación logarítmica ln(x) si la variable puede tomar
el valor 0, por lo que en esos casos, o incluso si existen valores muy pequeños, será
adecuado emplear la transformación ln(x+1). Cuando la desviación típica de los datos es
83
proporcional a la media o cuando el efecto de los factores es multiplicativo, en lugar de
aditivo, está indicado el uso de la transformación logarítmica.
Otra transformación posible es , que es aplicable cuando las varianzas son
proporcionales a la media, lo que ocurre a menudo cuando los datos provienen de una
distribución de Poisson (recuentos).
Otra transformación habitualmente empleada es 1/x, que también precisa que sumemos
una cantidad a cada valor si existen ceros.
Estas tres transformaciones comprimen los valores altos de los datos y expanden los
bajos, en sentido creciente en el siguiente orden: (la que menos), ln x, 1/x.
Si la concentración de datos está, a diferencia de la figura anterior, en el lado de la
derecha y la cola en la izquierda, se puede utilizar la transformación x², que comprime
la escala para valores pequeños y la expande para valores altos.
Cuando los datos son proporciones o porcentajes de una distribución binomial, las
diferencias con una distribución normal son más acusadas para valores pequeños o
grandes de las proporciones, utilizándose entonces transformaciones basadas en
.
En todos los casos para los cálculos estadísticos basados en la teoría normal, se
utilizarán los valores transformados, pero después para la presentación de los resultados
se efectuará la transformación inversa para presentarlos en su escala de medida natural.
Más abajo se proporcionan algunos enlaces sobre el tema de las transformaciones, de
fácil lectura.
Pruebas no paramétricas
Se denominan pruebas no paramétricas aquellas que no presuponen una distribución de
probabilidad para los datos, por ello se conocen también como de distribución libre
(distribution free). En la mayor parte de ellas los resultados estadísticos se derivan
únicamente a partir de procedimientos de ordenación y recuento, por lo que su base
lógica es de fácil comprensión. Cuando trabajamos con muestras pequeñas (n < 10) en
las que se desconoce si es válido suponer la normalidad de los datos, conviene utilizar
pruebas no paramétricas, al menos para corroborar los resultados obtenidos a partir de la
utilización de la teoría basada en la normal.
En estos casos se emplea como parámetro de centralización la mediana, que es aquel
punto para el que el valor de X está el 50% de las veces por debajo y el 50% por
encima.
Vamos a comentar la filosofía de alguna de las pruebas no paramétricas y en los enlaces
se puede aumentar esta información.
Prueba de Wilcoxon de los rangos con signo
84
Esta prueba nos permite comparar nuestros datos con una mediana teórica (por ejemplo
un valor publicado en un artículo).
Llamemos M0 a la mediana frente a la que vamos a contrastar nuestros datos, y sea X1,
X2 .. Xn los valores observados. Se calcula las diferencias X1-M0, X2-M0, ..., Xn-M0. Si
la hipótesis nula fuera cierta estas diferencias se distribuirían de forma simétrica en
torno a cero.
Para efectuar esta prueba se calculan las diferencias en valor absoluto |Xi-M0| y se
ordenan de menor a mayor, asignándoles su rango (número de orden). Si hubiera dos o
más diferencias con igual valor (empates), se les asigna el rango medio (es decir que si
tenemos un empate en las posiciones 2 y 3 se les asigna el valor 2.5 a ambas). Ahora
calculamos R+ la suma de todos los rangos de las diferencias positivas, aquellas en las
que Xi es mayor que M0 y R- la suma de todos los rangos correspondientes a las
diferencias negativas. Si la hipótesis nula es cierta ambos estadísticos deberán ser
parecidos, mientras que si nuestros datos tienen a ser más altos que la mediana M0, se
reflejará en un valor mayor de R+, y al contrario si son más bajos. Se trata de contrastar
si la menor de las sumas de rangos es excesivamente pequeña para ser atribuida al azar,
o, lo que es equivalente, si la mayor de las dos sumas de rangos es excesivamente
grande.
Prueba de Wilcoxon para contrastar datos pareados
El mismo razonamiento lo podemos aplicar cuando tenemos una muestra de parejas de
valores, por ejemplo antes y después del tratamiento, que podemos denominar (X1,Y1),
(X2,Y2), ... ,(Xn,Yn). De la misma forma, ahora calcularemos las diferencias X1-Y1, X2-
Y2, ... , Xn-Yn y las ordenaremos en valor absoluto, asignándoles el rango
correspondiente. Calculamos R+ la suma de rangos positivos (cuando Xi es mayor que
Yi), y la suma de rangos negativos R-. Ahora la hipótesis nula es que esas diferencias
proceden de una distribución simétrica en torno a cero y si fuera cierta los valores de
R+ y R- serán parecidos.
Prueba de Mann-Whitney para muestras independientes
Si tenemos dos series de valores de una variable continua obtenidas en dos muestras
independientes: X1, X2, ... , Xn, Y1, Y2, ... , Ym, procederemos a ordenar conjuntamente
todos los valores en sentido creciente, asignándoles su rango, corrigiendo con el rango
medio los empates. Calculamos luego la suma de rangos para las observaciones de la
primera muestra Sx, y la suma de rangos de la segunda muestra Sy. Si los valores de la
población de la que se extrajo la muestra aleatoria de X se localizan por debajo de los
valores de Y, entonces la muestra de X tendrá probablemente rangos más bajos, lo que
se reflejará en un valor menor de Sx del teóricamente probable. Si la menor de las sumas
de rangos es excesivamente baja, muy improbable en el caso de que fuera cierta la
hipótesis nula, ésta será rechazada.
Existen más pruebas no paramétricas de entre las que a continuación mencionamos las
más habituales, remitiendo al lector interesado a cualquier libro básico de bioestadística:
Prueba de Kruskal-Wallis para comparar K muestras
Prueba de Friedman para comparar K muestras pareadas (bloques)
85
Coeficiente de correlación de Spearman para rangos
Prueba de rachas de Wald-Wolfowitz
Enlaces de interés
The normal distribution Douglas G Altman & J Martin Bland BMJ 1995;310:298 (4
Febrero)
Transforming data J Martin Bland & Douglas G Altman BMJ 1996;312:770 (23
March)
Transformations, means, and confidence intervals J Martin Bland & Douglas G
Altman BMJ 1996;312:1079 (27 April)
The use of transformation when comparing two means J Martin Bland & Douglas G
Altman BMJ 1996;312:1153 (4 May)
Algunas direcciones que permiten efectuar cálculos de pruebas no
paramétricas:
Prueba de los signos
Contraste para la mediana de dos muestras independientes
Prueba de Wilcoxon para datos pareados
Prueba de Mann-Whitney para comparar dos muestras independientes
Otro enlace para esta prueba
Prueba de rachas de Wald-Wolfowitz
Prueba de Kruskall-Wallis
Prueba de Friedman
Coeficiente de correlación de Spearman
Bibliografía seleccionada
J.S. Milton, J.O. Tsokos. Estadística para biología y ciencias de la salud.
Madrid: Interamericana-McGraw Hill; 1989
Indice de artículos
2.-[Link]
Estimación de intervalos de referencia de variables biológicas
Preparado por Luis M. Molinero (Alce Artículo en formato PDF
Ingeniería)
86
[Link]/[Link]
CorreoE: bioestadistica
[Link]
Febrero 2004
Introducción
Los gráficos y las tablas de percentiles constituyen una herramienta de uso común en la
práctica clínica. Se denomina intervalo de referencia a una pareja de valores que
corresponden a los límites de determinados percentiles de la distribución de
probabilidad de los datos, y que son simétricos con respecto a la mediana.
Evidentemente para establecer intervalos de referencia es fundamental emplear una
muestra adecuada, tanto desde el punto de vista de la representatividad de la población
que se desea cuantificar, habiendo sido obtenida mediante algún procedimiento de
muestreo aleatorio, como en cuanto al tamaño de la misma, que permita efectuar las
estimaciones con una adecuada precisión.
En ocasiones también se habla de "intervalo o rango de normalidad", aunque esta
terminología afortunadamente va cayendo en desuso por confusa e inapropiada, ya que
en un intervalo del 95% obtenido a partir de una población sana, por definición, el 5%
de los individuos estarán fuera de ese denominado intervalo de normalidad. Por otro
lado nada impide el determinar intervalos de referencia para poblaciones de enfermos
con una patología concreta, donde por tanto el término normal constituye en cierta
medida un contrasentido. Además la palabra normal nos induce rápidamente a pensar en
una distribución de probabilidad normal o gaussiana, cuando lo más habitual es que los
datos que estamos midiendo no se ajusten en principio a ese tipo de distribución de
probabilidad, sobre todo cuando se maneja determinaciones analíticas.
Estimación de intervalos de referencia
A partir de una muestra de n sujetos se trata de estimar un intervalo de referencia del q
%, donde frecuentemente q es el 95% o el 90%. Se trata de estimar los percentiles (100-
q)/2 y (100+q)/2, que corresponden al 2.5% y 97.5% para un intervalo de referencia del
95%.
La forma más simple de estimar esos percentiles es calcularlos directamente a partir de
la distribución de nuestros datos. Procedemos entonces a ordenar los valores en sentido
creciente, y para un intervalo del 95% el límite superior vendrá dado por aquel valor que
deja por debajo el 97.5% de los datos y por encima el 2.5% restante. Si debido al
número de observaciones ese punto no coincide exactamente con un valor de la serie, se
obtiene por interpolación. El problema de este método radica en que produce
estimaciones sesgadas, sobre todo si las muestras no son muy grandes, por lo que se
prefiere utilizar otros procedimientos, disponiendo de dos alternativas: utilizar modelos
paramétricos o utilizar técnicas no paramétricas.
87
En cuanto a las técnicas paramétricas las más empleadas se basan en suponer una
distribución normal o de Gauss para los datos. Una vez estimada la media m y la
desviación estándar s, a partir de nuestros datos, los percentiles se estimarán a partir del
modelo de distribución de probabilidad normal como m+zps, donde zp es el valor de la
función de distribución normal correspondiente al percentil p. Así para el percentil
97.5% el valor de zp es 1.96
Figura 1
En la práctica no es adecuado utilizar directamente el modelo de probabilidad normal,
ya que la mayoría de parámetros biológicos suelen alejarse de ese modelo (como en la
figura 1), presentando asimetría (skewness) más o menos marcada, ya sea con colas
hacia el lado izquierdo de la distribución (asimetría negativa) o hacia el lado derecho
(asimetría positiva). En otras situaciones, aunque sí exista simetría, sin embargo la
densidad de probabilidad de los datos es diferente de la que correspondería a una
distribución normal, bien porque presenta una mayor agrupación de valores en torno a
ese valor central (mayor apuntamiento), o porque, al contrario, presenta una distribución
de probabilidad más "aplanada" o extendida. Esta característica, relativa a cómo se
reparte la frecuencia entre el centro y los extremos de la distribución, se denomina
apuntamiento o curtosis. A veces con una transformación sencilla es suficiente para
lograr una variable modificada que sí sigue una distribución de probabilidad normal.
Cuando tenemos asimetría hacia el lado derecho, la transformación logarítmica puede
ser adecuada. Otras transformaciones sencillas consisten en utilizar la raíz cuadrada, o la
función inversa 1/x.
Un tipo de transformación muy empleado es la de Box-Cox, que tiene la siguiente
expresión
cuando =0 la transformación corresponde a ln(X). El parámetro se estima por el
procedimiento de máxima verosimilitud.
En ocasiones es necesario aplicar dos transformaciones: una para eliminar la asimetría y
luego otra para eliminar la curtosis.
88
Para verificar si los datos siguen o no una distribución normal, se suele utilizar los
gráficos de ajuste a una normal, y algún contraste específico para tal fin, como puede
ser la prueba de Kolmogorov-Smirnov, prueba de Anderson-Darling, prueba de
Shapiro-Francia, prueba de Shapiro-Wilks, la prueba de chi², o la prueba de Cramer-
von Mises.
Figura 2. Gráfico de verificación de ajuste a una distribución normal
Una vez que ya se puede suponer que los datos transformados siguen una distribución
de probabilidad normal de forma aceptable, se estimarán los percentiles mediante la
distribución normal, y después se deshacen las transformaciones, para obtener los
límites de referencia en las unidades de los datos.
Estimación de intervalos de referencia mediante técnicas no paramétricas
Existen alternativas al método paramétrico de estimación de percentiles anteriormente
descrito, que no vamos a comentar aquí por su complejidad teórica. Una de ellas se basa
en estimar los percentiles aplicando "filtros" a los datos, de tal manera que se aplica
mayor peso a los datos próximos al punto del percentil y menor a medida que nos
alejamos (kernel density estimation).
Otra técnica se basa en simular muestras a partir de los datos, mediante técnicas de
muestreo con reemplazamiento, y calcular en ellas los percentiles, de tal manera que la
media de todos los percentiles calculados se utilizará como estimación. Estas técnicas,
denominadas de bootstraping, ya se han comentado someramente en otro artículo.
Estimación de intervalos de referencia en función de una variable
Una gran cantidad de variables biológicas van evolucionando con la edad, por lo que no
es adecuado postular unos límites de referencia globales, sino que éstos deben ser
determinados en función de la edad. Para resolver este cálculo se han propuesto
diferentes procedimientos, en general bastante complejos.
89
Vamos a presentar aquí uno de los métodos más sencillos, planteado por Wright y
Royston, consistente en aplicar transformaciones básicas y técnicas de regresión
múltiple para modelar la media, la desviación estándar y la asimetría.
Ahora para cada sujeto tenemos dos datos: la variable estudiada X, y la edad que vamos
a representar por T. Es muy posible que antes de nada convenga transformar la variable
X tomando logaritmos, para corregir la presencia de asimetría positiva (presencia de una
cola alargada hacia el lado derecho, hacia los valores elevados de X) o si la dispersión
de los datos aumenta con el valor medio (heterocedasticidad). Se supone que
disponemos sólo de una observación por sujeto, para una edad determinada, ya que si no
fuera así, tendríamos una situación de estudio longitudinal con medidas repetidas para el
mismo sujeto, que requiere técnicas especiales de análisis, bastante más complejas.
Se utilizarán técnicas estándar de regresión múltiple para ajustar por el método de
mínimos cuadrados ecuaciones polinómicas para la media y la desviación estándar, en
función de la edad.
En primer lugar se procederá modelar la media mT en función de la edad. Para ello se
comienza intentando ajustar un polinomio de orden tres:
Seguidamente comprobamos si con polinomio de orden inferior habría sido suficiente,
si el coeficiente d no es significativamente diferente de 0, en cuyo caso se ajusta un
polinomio de segundo orden, y repetimos el mismo razonamiento para ver si es
suficiente con una recta, o incluso puede ser que el parámetro no varíe con la edad.
Si los ajustes no son buenos y se comprueba que es necesario al menos un polinomio de
orden 3, puede ser interesante probar a ajustar un polinomio fraccional, en cuyo caso las
potencias de la variable Edad se escogen del conjunto {-2,-1,-0.5,0,0.5,1,2,3...}, donde
0 corresponde a la función logarítmica. La ventaja de este tipo de polinomio respecto a
los polinomios de coeficientes enteros de orden 3 o superior, es que presentan un ajuste
con mayor plausibilidad biológica, ya que no tienen las curvaturas artificiosas de los
polinomios estándar.
Una vez elegido el modelo para la media, procedemos a modelar la desviación
estándar. Para ello se calculan los residuos absolutos escalados:
que corresponden a la diferencia en valor absoluto entre cada valor y la media estimada
según el modelo para esa edad, multiplicada por 1.25.
Al igual que hicimos con la media, se analiza ahora si los residuos A varían con la edad,
y se busca de forma análoga un modelo para esa evolución. La desviación estándar
suele requerir funciones menos complejas que la media, y habitualmente es suficiente
con ajustar una recta (a + [Link]). Si observamos que la dispersión no depende de la
edad, es decir que se mantiene aproximadamente constante al variar ésta, se estimará
entonces a partir de la dispersión residual del modelo de regresión utilizado para
modelar la media.
90
De esta forma tenemos dos ecuaciones: una para estimar la media mT y otra para la
desviación estándar sT en función de la edad.
Seguidamente habrá que verificar si el modelo se ajusta a una distribución normal. Para
ello calculamos los valores estandarizados:
Lo primero que podemos hacer es construir un gráfico de ajuste a la normalidad, como
el de la figura 2, y aplicar una prueba de bondad de ajuste a una distribución normal.
Otra herramienta gráfica consiste en representar los valores estandarizados en el eje de
las Y, en función de la edad en el eje de las X, y éstos se deben distribuir de forma
constante, de igual manera a ambos lados del valor cero para todo el rango de edades de
la muestra.
Si comprobamos que es aceptable el ajuste a una normal de los valores estandarizados,
podemos ya utilizar la fórmula:
PercentilT= mT+[Link]
donde Z es el valor correspondiente de la distribución normal (1.96 para un intervalo de
referencia de 95%, 1.28 para un intervalo del 90%, etc). Además habrá que tener en
cuenta que si los datos se transformaron previamente, por ejemplo con la función
logaritmo, ahora habrá que deshacer la transformación, calculando exp(Percentil).
Si no fuera bueno el ajuste a una distribución normal, habrá que tener en cuenta en el
modelo también la asimetría, pero para no aumentar la complejidad de esta exposición
de momento no vamos a profundizar en ese aspecto, remitiendo al lector interesado al
artículo Wright y Royston.
3.-María José García Cebián, Ministerio de Educación. 2001.
[Link]
aplic_normal.htm
OTRAS APLICACIONES DE LA
DISTRIBUCIÓN NORMAL
Estadística
Veamos a continuación cómo se puede emplear la distribución normal para aproximar
una distribución binomial lo que facilita los cálculos en ésta, y por último un ejemplo de
ajuste a una normal.
91
[Link]ón de la binomial [Link] a una normal
1. APROXIMACIÓN DE UNA DISTRIBUCIÓN BINOMIAL POR UNA
NORMAL
Una
distribución
binomial
B(n,p) se
parece a una
normal tanto
más cuanto
mayor es el
producto np (o
nq si q<p,
siendo q=1-p).
Cuando np y nq
superan 5, la
aproximación
es casi perfecta,
como se puede
apreciar en la
figura.
En estas
condiciones:
B(n,p) se
aproxima a
Podemos emplear la normal para calcular probabilidades en el caso de una distribución
binomial, aunque hemos de tener en cuenta que la binomial es discreta y la normal
continua, por lo que es necesario introducir un ajuste en el cálculo llamado corrección
de Yates. Así:
p(Xx) = p(X'x+0,5) p(X<x) = p(X'x-0.5) p(X=x) = p(x-0,5X'
x+0,5)
Veamos un par de ejemplos:
1) El 35% de una población está afectado por la gripe. Se eligen 30
personas al azar.
Se trata de una B(30;0,35) que aproximamos por N(10,5;2,61)
92
Calcula la probabilidad de que:
haya exactamente 10 enfermos
P(X=10) = P(9,5 X' 10,5)
haya más de 5 y menos de 12 enfermos
P(5<X<12) = P(5,5X'11,5)
Cambia los valores de a, b y calcula con la tabla las
probabilidades correspondientes
2) Se lanza
una moneda
200 veces,
calcula la
probabilidad
de que
aparezca
cara al
menos 100 Utiliza la escena cambiando los valores de los datos.
veces.¿Cuál
es la
probabilidad
de que
aparezcan
90 caras?
2. AJUSTE DE UN CONJUNTO DE DATOS A UNA NORMAL
Con frecuencia conviene saber si puede suponerse que una serie de datos obtenidos experimentalmente proceden de
una población distribuida normalmente.
Recordemos que en una distribución normal:
el 68% de los datos está en el intervalo (x-s, x+s)
el 95% de los datos está en el intervalo (x-2s, x+2s)
el 99% de los datos está en el intervalo (x-3s, x+3s)
Si calculadas la media x y la desviación típica s de nuestros datos, se cumplen
aproximadamente estos porcentajes podemos considerar que la población de
partida es normal.
Veamos un ejemplo en el que seguimos un proceso un poco más elaborado:
93
Ejemplo
La tabla adjunta muestra la altura en cm de 100 estudiantes. ¿Es razonable suponer que estos resultados proceden de
una distribución normal?
a) Calculamos la media y la desviación típica de la distribución
xa xi fi
xb x i fi xi2 fi
Recuerda cómo se 155 160 157,5 8 1260 198450
calcula la media y la 160 165 162,5 14 2275 369687,5
165 170 167,5 22 3685 617237,5
desviación típica.
170 175 172,5 28 4830 833175
175 180 177,5 16 2840 504100
Dibujamos el histograma 180 185 182,5 8 1460 266450
de la distribución. 185 190 187,5 4 750 140625
100 17100 2929725
Observa que el perfil del
histograma recuerda a la media x= 171
curva normal.
desviación típica s= 7,50
b) Comparamos la distribución empírica con la normal N((x,s) en este caso con
la N(171;7,5).
94