GRUPO UNIVERSITARIO DE
TRABAJO EDUCATIVO
Métodos Estadísticos
II
Biol. Eloísa Reyes Sánchez
Biol. Eloisa Reyes S.
ESTADÍSTICA DESCRIPTIVA
I
“El modelo tiene que adaptarse a
los datos y no al revés”.
Jean-Paul Benzécri, 1965
Biol. Eloisa Reyes S.
Estadística Descriptiva
• Es aquella que utiliza técnicas y medidas que indican
las características de los datos disponibles.
• Su objetivo comprende el tratamiento y análisis de
datos que tienen para así resumir y describir los
hechos que han proporcionado dicha información, y
que por lo general toman la forma de modelos
matemáticos, tablas, gráficos, cuadros e índices.
• Se llama descriptiva por ser su fin primordial la
descripción de las características principales de los
datos obtenidos Biol. Eloisa Reyes S.
Métodos descriptivos numéricos
• Los métodos estadísticos pretenden
“resumir” la información de la “muestra” o la
“población” para poder tener un mejor
conocimiento de la población.
• Estos métodos descriptivos se clasifican de la
siguiente manera:
Biol. Eloisa Reyes S.
1. Medidas de Tendencia central:
Sirven para ver observar los valores se
concentran dentro del conjunto de datos.
2 . Medidas de Dispersión o de Variabilidad:
Dan una idea sobre la representatividad de
las medidas centrales con respecto a los
datos, a mayor dispersión o variabilidad
menor representatividad.
Biol. Eloisa Reyes S.
3. Medidas de Localización no central:
Útiles para encontrar determinados valores
importantes que tienen su propia localización,
para una “clasificación” de los elementos de la
muestra.
4. Medidas de la Simetría y Forma:
Sirven para ver si la distribución tiene el
mismo comportamiento por encima (derechay
por debajo (izquierda) de los valores centrales
Biol. Eloisa Reyes S.
• Comparan la forma de la distribución con la
forma de la distribución Normal, que es la
distribución que se toma como referencia.
Biol. Eloisa Reyes S.
Biol. Eloisa Reyes S.
Parámetro y estimación
• Parámetro: función definida sobre los valores
numéricos de características medibles de una
población (se denotan por letras griegas: µ, π,
σ,N)
• Estadístico o estimador: función definida
sobre los valores numéricos de una
muestra.(se denotan por letras latinas: , p, s,
n)
Biol. Eloisa Reyes S.
Biol. Eloisa Reyes S.
Datos agrupados y tipos de
frecuencia
• Cuando la cantidad de datos es elevada o es
una variable continua se recomienda agrupar
estos para minimizar facilitar su estructuración
y calculo descriptivo.
• Los datos se deberán ordenar en forma
ascendente y decidir en cuantas clases se
dividirá para calcular el intervalo y después
su amplitud.
Biol. Eloisa Reyes S.
• De acuerdo a la experiencia, se recomienda
entre 5 y 20 clases, resulta conveniente
construirlas a modo que todas, tengan la
misma anchura, la cual recibe el nombre de
amplitud de Clase (A).
• La selección del número adecuado de clases
(K) se establece por K = 1 + log n cuando (n >
50) y K = 10 log n, para n grande
Biol. Eloisa Reyes S.
• No se puede establecer que una es superior a
otra, sólo pueden utilizarse con un punto de
referencia.
• Se considera solamente la parte entera que
resulte del cálculo (de preferencia redondearlo
hacia arriba si se rebasa el decimal 6)
Biol. Eloisa Reyes S.
• Empíricamente para cualquier n se
recomienda usar n . Para determinar el valor
de la amplitud (A) es decir el ancho de cada
intervalo, se calcula de la siguiente manera
donde R es el rango R Dato mayor Dato menor
R
A
K
Biol. Eloisa Reyes S.
• Posteriormente se construirá una tabla con los
límites de cada intervalo de clase, límite
inferior (Li) y límite superior (Ls), tomando el
dato menor sumado con A y así para cada
intervalo de clase, con sus respectivas
frecuencias observadas.
• Donde [= Significa intervalo cerrado, es decir,
que el intervalo contiene al dato o número; en
cambio,)= Significa intervalo abierto,
indicando lo contrario; es decir, que no lo
contiene Biol. Eloisa Reyes S.
• También será muy útil conocer y calcular la
Marca de Clase (MC) de cada intervalo: Se
refiere al Punto Medio del intervalo y a través
de él representaremos a todo el intervalo, su
fórmula es:
Ls Li
MC
2
Biol. Eloisa Reyes S.
Ejemplo : El siguiente conjunto de datos
representan los pesos en kilogramos de 40
pacientes sometidos a una dieta. 49.0 50.5
53.5 56.0 60.0 67.0 68.6 71.0 49.8 50.6
54.0 57.0 60.0 67.5 69.0 71.5 49.8 50.6
54.3 57.5 63.5 68.0 69.5 72.0 50.0 51.0
55.0 58.3 64.0 68.4 69.6 72.5 50.3 52.0
55.0 59.0 64.0 68.6 70.0 73.0
Se calcula el número de clases:
K n 40 6.3 6
Biol. Eloisa Reyes S.
El Rango y la Amplitud de clase:
R Dato mayor Dato menor R 73.0 49.0
R 24
A A 4 A4
K 6
Con la Amplitud a partir del dato menor que es:
49 se suma 4 unidades que representa la
amplitud del intervalo y así sucesivamente
hasta tener las seis clases que representa K.
Biol. Eloisa Reyes S.
Tipos de Frecuencia
• Uno de los primeros pasos que se realizan en
cualquier estudio estadístico es la tabulación
de resultados, es decir, recoger la información
de la muestra resumida en una tabla en la que
a cada valor de la variable se le asocian
determinados números que representan el
número de veces que ha aparecido, su
proporción con respecto a otros valores de la
variable, etc.
Biol. Eloisa Reyes S.
• Estos números se denominan frecuencias: Así
tenemos los siguientes tipos de frecuencia:
1. Frecuencia absoluta:
• La frecuencia absoluta de una variable
estadística es el número de veces que aparece
en la muestra dicho valor de la variable, se
denota
f r
Biol. Eloisa Reyes S.
2. Frecuencia relativa:
• La frecuencia absoluta, es una medida que
está influida por el tamaño de la muestra
• Esto hace que no sea una medida útil para
poder comparar. Para esto es necesario
introducir el concepto de frecuencia relativa,
que es el cociente entre la frecuencia absoluta
y el tamaño de la muestra (n). Se denota f
r
fi
f
r n
Biol. Eloisa Reyes S.
• La frecuencia relativa es un tanto por uno, sin
embargo, hoy día es bastante frecuente hablar
siempre en términos de tantos por ciento o
porcentajes. 7
• Por lo que esta medida resulta de multiplicar
la frecuencia relativa por 100. Se denota: p
i
pfi r
•100%
Biol. Eloisa Reyes S.
3. Frecuencia Absoluta Acumulada:
• Para poder calcular este tipo de frecuencias
hay que tener en cuenta que la variable
estadística ha de ser cuantitativa o cualitativa
ordenable.
• La frecuencia absoluta acumulada de un valor
de la variable, es el número de veces que ha
aparecido en la muestra un valor menor o
igual que el de la variable y lo
representaremos por:
f a
Biol. Eloisa Reyes S.
4. Frecuencia Relativa acumulada:
• Al igual que en el caso anterior la frecuencia
relativa acumulada es la frecuencia absoluta
acumulada dividido por el tamaño de la
muestra, y la denotaremos por: f
ra
f
f ra a
n
Biol. Eloisa Reyes S.
Ejemplo:
• Un experimento consistió en
contar el número de flores por
planta de una muestra de n = 50
plantas.
• Los valores resultantes del
conteo fueron los siguientes:10,
8, 6, 3, 9, 7, 5, 4, 6, 9, 8, 10, 7, 9,
10, 6, 8, 6, 3, 2,4, 3, 2, 7, 5, 5, 4,
3,7, 6, 6, 7, 8, 8, 6, 7, 7, 9,8, 6, 5,
3, 2, 1, 4, 3, 6, 8, 7, 0, se agrupan
en una tabla de frecuencias,
donde i, denota el número de
filas de la tabla. Biol. Eloisa Reyes S.
Medidas de localización: Media,
Mediana, Moda y Cuartiles
Biol. Eloisa Reyes S.
Media
• Es el valor que representa en general al
conjunto de datos, existen cuatro medias,
siendo la media aritmética la más utilizada.
Media aritmética o promedio:
• La media aritmética de una variable se define
como la suma ponderada de los valores de la
variable por sus frecuencias relativas y se
denota como de modo que:
Biol. Eloisa Reyes S.
n
• Media muestral xi
x i 1
n
N
• Media poblacional xi
i 1
N
• Media (Datos agrupados) k
fm i i
x i 1
n
Biol. Eloisa Reyes S.
• Ejemplo: Calcular la media de los siguientes
datos los cuales, son los pesos en kilogramos
de nueve cabras 49.8 50.6 54.3 57.5 63.5
68.0 69.5 72.0 50.0
k
x i
49.8 50.6 54.3 57.5 63.5 68.0 69.5 72.0 50.0
x i 1
n 9
535
57.466
9
• Por lo tanto en promedio las cabras pesan
57.46 Kg.
Biol. Eloisa Reyes S.
• Ejemplo: Calcular la media aritmética para los
datos agrupados
fm i i
(10 51) (7 55) ... (8 59)
x i 1
n 40
2.416
60.4
40
Biol. Eloisa Reyes S.
Media Geométrica:
• La media geométrica de N observaciones es la
raíz de índice n del producto de todas las
observaciones.
• Se representa por G. Solo se puede calcular si
no hay observaciones negativas.
• Es una medida estadística poco o nada usual.
G n1 • n2 •.....• n p
N
x1 x2 xp
Biol. Eloisa Reyes S.
Media Harmónica:
• La media armónica de n observaciones es la
inversa de la media de las inversas de las
observaciones y se denota por H.
• Al igual que en el caso de la media geométrica
su utilización es bastante poco frecuente.
1
H n
1
• ni
i1 x i
Biol. Eloisa Reyes S.
Media Ponderada
• La media ponderara de n observaciones es el
producto de las observaciones por un ponder
o rango jerárquico y se denota por: x w
• No es frecuente usarla.
n
xw i i
xw n
w
i 1
i
Biol. Eloisa Reyes S.
Mediana (Me)
• La mediana es el valor central de la muestra
ordenada en orden creciente o decreciente, el
valor que divide en dos partes la muestra.
Para calcular la mediana debemos tener en
cuenta si la variable es discreta o continua.
Biol. Eloisa Reyes S.
Cálculo de la mediana:
En el caso discreto: Tendremos en cuenta el
tamaño de la muestra.
• Si n es Impar, hay un término central, el
término X que será el valor de la mediana.
N 1
2
• Si n es Par, hay dos términos centrales, X , X
N N
1
2 2
la mediana será la media de esos dos valores
Biol. Eloisa Reyes S.
• Ejemplo:
Biol. Eloisa Reyes S.
Para datos agrupados la fórmula
n
de la Mediana es: fa
Me LI ( IM ) 2 ai
fm
Dónde:
• LI (IM): Límite inferior donde se encuentre el
Intervalo Modal (Moda)
• n= Número total de datos
• fa: Frecuencia acumulada anterior al
intervalo modal
• fm: Frecuencia absoluta del intervalo modal
• ai: Amplitud de clase
Biol. Eloisa Reyes S.
• Ejemplo: Calcular la mediana aritmética para
los datos agrupados
n 40
fa 0
Me LI ( IM ) 2 ai Me 49 2 (4)
fm 10
24.5
Me 49 (4) 57
10
Biol. Eloisa Reyes S.
Moda
• La moda es el valor de la variable o el dato
que tenga mayor frecuencia absoluta, la que
más se repite, es la única medida de
centralización que tiene sentido estudiar en
una variable cualitativa, pues no precisa la
realización de ningún cálculo
• Ejemplo: Calcular la moda de los siguientes
datos los cuales, son las edades de diez niños:
4, 9, 8, 5, 6, 5, 4, 3, 5, 7. Mo= 5
Biol. Eloisa Reyes S.
• Por su propia definición, la moda no es única,
pues puede haber dos o más valores de la
variable que tengan la misma frecuencia siendo
esta máxima
Para datos agrupados la Mo LI ( IM )
fi 1
fórmula de la Moda es:
ai
f i 1 fi 1
Dónde:
LI (IM): Límite inferior donde se encuentre el Intervalo Modal
(Moda)
ni= Número total de datos
f i+1: Frecuencia absoluta del intervalo superior al intervalo
modal
fi-1: Frecuencia absoluta del intervalo inferior al intervalo modal
ai: Amplitud de clase Biol. Eloisa Reyes S.
Ejemplo: Calcular la Moda aritmética para los
datos agrupados.
fi 1 7 1
Mo LI ( IM ) ai Mo 49 (4)
f i1 fi 1 8 1
8
Mo 49 (4) 52.55
9
Biol. Eloisa Reyes S.
Medidas de dispersión:
rango, rango intercuartílico,
varianza, desviación estándar,
coeficiente de variación
Biol. Eloisa Reyes S.
Rango (R)
• Es la primera medida que vamos a estudiar, se
define como la diferencia existente entre el
valor mayor y el menor de la distribución. Se
denota como:
R Dato mayor Dato menor
• Realmente no es una medida muy
significativa en la mayoría de los caso y es
muy fácil de calcular.
Biol. Eloisa Reyes S.
Desviación (di)
• Es la diferencia que se observa entre el valor
de la variable y la media aritmética. La
denotaremos por di.
• No es una medida, son muchas medidas, pues
cada valor de la variable lleva asociada su
correspondiente desviación, por lo que
precisaremos una medida que resuma dicha
información.
Biol. Eloisa Reyes S.
Desviación media (Dm)
• Es la media de los valores absolutos de las
desviaciones, y se denota por
D m
Para datos sin agrupar n xi x
Dm
1i n
y datos agrupados
n
d •f i
n
x x • f
i
Dm n
i
n
i
i 1 i 1
Biol. Eloisa Reyes S.
Desviación típica o Desviación
estándar (s)
• Es la raíz cuadrada de la varianza, se denota
por Sx (muestral) o σx (poblacional). y su fórmula es:
Para datos sin agrupar
n n
f (x i x )2 f (x i )2
Sx 1i
1i
n 1 N
Para datos agrupados
n n
f ( xi x ) 2 f ( xi ) 2
Sx 1i
1i
n 1 Biol. Eloisa Reyes S.
N
Varianza
• Es la media de los cuadrados de las
desviaciones, y la denotaremos por S o 2
x
también por 2x.
Para datos sin agruparn n
( xi x ) 2
( xi ) 2
Sx 1i
1i
n 1 N
Para datos agrupados
n n
f ( x i x ) 2
f ( x i ) 2
Sx 1i
1i
n 1
Biol. Eloisa Reyes S. N
Coeficiente de Variación
• Es un estadístico de dispersión que tiene la
ventaja de que no lleva asociada ninguna
unidad, por lo que nos permitirá decir entre
dos muestras, cual es la que presenta mayor
dispersión. Se denota por C.V
C.V . S x
• 100%
x
Biol. Eloisa Reyes S.
Ejemplo: calcular la Desviación media, Desviación
estándar, la Varianza y el coeficiente de variación,
del ejemplo de la edad en meses de varios cachorros
de un criador de perros: 5, 8, 9, 4, 8,4, 5, 1, 4, 4
donde en promedio tienen 5.2 meses. Usando una
tabla de cálculo con los datos ordenados, se tiene:
Biol. Eloisa Reyes S.
• Ejemplo: calcular la Desviación media, Desviación
estándar, la Varianza y el coeficiente de variación,
para donde xi MCi y x 60.4 para datos
agrupados
Biol. Eloisa Reyes S.
Medidas de Localización no
central: Cuartiles, Deciles y
Percentiles
Biol. Eloisa Reyes S.
• Las medidas de localización no central dividen
la distribución en partes iguales, sirven para
clasificar a un individuo o elemento dentro de
una determinada población o muestra.
• Así por ejemplo en psicología los resultados
de los Test o pruebas que realizan a un
determinado individuo, se clasifican según el
percentil correspondiente a la puntuación
obtenida por el sujeto.
Biol. Eloisa Reyes S.
Cuartiles (Q)
• Medida de localización que divide la población
o muestra en cuatro partes iguales.
Q1= Valor de la variable que deja a la izquierda el
25% de la distribución.
Q2= Valor de la variable que deja a la izquierda el
50% de la distribución = mediana.
Q3= Valor de la variable que deja a la izquierda el
75% de la distribución.
Q4= Valor de la variable que deja a la izquierda el
100% de la distribución
Biol. Eloisa Reyes S.
Para datos no agrupados
• En este caso tendremos que observar el tamaño de
la muestra: n y si es par o impar
Biol. Eloisa Reyes S.
Para datos agrupados
• En este caso el cálculo es más simple, solo se
calculan los, ya que el Q2 es la mediana y el
Q4 es el dato mayor, sea la distribución que
sigue:
n
4 ni 1
Q1 Li1 • ai
ni ni1
3n
4 ni 1 •
Q3 Li1 ai
ni ni1
Biol. Eloisa Reyes S.
Deciles (D) y Percentiles (P)
• Los Deciles son la medida de localización que
divide la población o muestra en 10 partes
iguales. Dk = decil k-simo es aquel valor de la
variable que deja a su izquierda el k•10 % de
la distribución.
k •n
Li 1 10 n i 1
ai k=1 .. 99
D k
ni ni1
Biol. Eloisa Reyes S.
• Los Percentiles es la medida de localización
que divide la población o muestra en 100
partes iguales. Pk = Percentil k-simo es aquel
valor de la variable que deja a su izquierda el k
% de la distribución.
k •n ni 1
Li 1 100 • ai
P k = 1 .. 99
k
ni ni1
Biol. Eloisa Reyes S.
Ejemplo: Calcular Q1,Q3, D3, y P45. De los
siguientes datos agrupados
• Cálculo de Q1: Se busca en la columna de las
frecuencias Acumuladas el valor que supere al 25%
de N=50, eso corresponde al 2° intervalo.(50/4=12.5)
50 6
4 • 10 615
Q1 55
16 6
.
Biol. Eloisa Reyes S.
• Se calcula Q3, Se busca ahora en la misma columna
el correspondiente al 75 % de N que en este caso es
el 4° intervalo (3.50/4=37.5)
3.•50 35
Q3 75 46 4 35 • 10 77.27
• Calcular el Decil 3°. (Corresponde al 30 % 3 • 50 / 10
= 15) sería el 2° intervalo.
3. • 50 6
10 • 10 6
D3 55
16 6
Biol. Eloisa Reyes S.
• Por último se calcula el percentil 45
(45•50/100 = 22.5) Corresponde al intervalo
3°.
45. • 50 16
100 • 10 68.42
P45 65
35 16
Biol. Eloisa Reyes S.
Medidas de forma: Asimetría y
Curtosis
Biol. Eloisa Reyes S.
Simetría
• Las medidas de la asimetría, miden la
distribución en términos de variabilidad ya
que es frecuente que los valores de una
distribución tiendan a ser diferentes a ambos
lados de las medidas de centralización.
• La simetría es importante para saber si los
valores de la variable se concentran en una
determinada zona del recorrido de la variable.
Biol. Eloisa Reyes S.
• As<0 Asimetría Negativa
(a la izquierda)
• As=0 Simétrica
• As>0 simetría Positiva
• (a la derecha)
Biol. Eloisa Reyes S.
• Para medir la asimetría se puede realizar
atendiendo básicamente a dos criterios:
• Comparando la Media y la Moda ó
comparando los valores de la variable con la
media.
• Si la diferencia es positiva, diremos que hay
asimetría positiva o a la derecha, en el caso de
que sea negativa diremos que hay asimetría
negativa o a la izquierda.
Biol. Eloisa Reyes S.
• No obstante, esta medida es empírica por lo
que se define el coeficiente de Asimetría
como:
x Mo
As
x
Biol. Eloisa Reyes S.
Curtosis:
• La curtosis es una medida de altura, que
indica si la distribución es muy variable (baja)
o poco variable (alta). Se clasifican en tres
tipos de curtosis y el coeficiente de curtosis
mide el grado de altura de la distribución.
• Este coeficiente se denota K y se calcula según
la siguiente expresión:
xi x • n
4
n
i
i1 N
K 3
4
x
Biol. Eloisa Reyes S.
• Curtosis Negativa: Platicúrtica
• Curtosis nula: Mesocúrtica
• Curtosis Positiva:Leptocúrtica
Biol. Eloisa Reyes S.