0% encontró este documento útil (0 votos)
45 vistas8 páginas

Medidas de Variabilidad y Gráficos Estadísticos

El documento describe medidas de variabilidad y dispersión de datos, incluyendo el rango, rango intercuartil, varianza y desviación estándar. También se abordan representaciones gráficas de datos como diagramas de barras, histogramas y diagramas de caja y bigotes, explicando su utilidad para visualizar y resumir información. Se presentan ejemplos prácticos y reglas para agrupar datos en intervalos adecuados para análisis estadísticos.

Cargado por

gloria
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
45 vistas8 páginas

Medidas de Variabilidad y Gráficos Estadísticos

El documento describe medidas de variabilidad y dispersión de datos, incluyendo el rango, rango intercuartil, varianza y desviación estándar. También se abordan representaciones gráficas de datos como diagramas de barras, histogramas y diagramas de caja y bigotes, explicando su utilidad para visualizar y resumir información. Se presentan ejemplos prácticos y reglas para agrupar datos en intervalos adecuados para análisis estadísticos.

Cargado por

gloria
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Medidas de Variabilidad o de Dispersión.

Las medidas de variabilidad permiten establecer que tan dispersos están entre si un
conjunto de datos observados. Algunas de estas medidas se refieren a la Dispersión
respecto a una medida particular de tendencia central.

El Rango es la diferencia entre el máximo valor observado y el mínimo: R=Max-Min.

El Rango Intercuartil, el cual denotaremos IQR, es la diferencia entre Q3 y Q1: -


IQR=Q 3−Q 1 . El Rango Intercuartil permite determinar que tan disperso está el
50% de la información mas central.

X1 , X 2 , , X n
Varianza Muestral. Si es un conjunto de observaciones, la Varianza

2 ∑ ( X i− X̄ ) 2
S =
Muestral, denotada S, está dada por: n−1 . La Desviación Estándar
será la raíz cuadrada de la Varianza.

∑ ( X 1− X̄ )2
S 2= =3. 41
Ejemplo: Usando los datos de las edades, tenemos que: 15−1
y S=1. 85 . Para estos la desviación es casi 2 años, lo que indica una dispersión
alta. Otras medidas de variabilidad son: Desviación Mediana, Desviación absoluta, etc.

Diagramas de Barras e Histogramas.

La información es presentada de manera gráfica dependiendo del tipo de datos que


esta contenga. Si la variable representa categorías o clasificaciones es usual usar una
tabla de frecuencias para resumir la información y luego un diagrama de barras para
visualizarla; en este caso el eje X estará compuesto por las categorías o niveles
discretos de la variable y en el eje Y la frecuencia o porcentajes que le corresponden a
cata categoría o nivel discreto.
Ejemplo: se tiene información resumida acerca del monto anual obtenido por
donaciones en diferentes áreas.

Area Monto Porcentaje


Religión 31.0 47.8
Artes y Humanidades 4.1 6.3
Servicios Sociales 6.9 1.06
Educación 9.0 13.9
Salud 9.2 14.2
Otros 4.7 7.2

O si lo que se quiere una


representación usando los porcentajes
obtenemos un diagrama de este estilo:

El programa en SAS
usado es:

data monto;

input area$ 1-19


total porc;

cards;

Religion
31.0 47.8

Artes y Humanidades
4.1 6.3

Servicios Sociales 6.9 10.6

Educacion 9.0 13.9

Salud 9.2 14.2

Otros 4.7 7.2

run;
Proc gchart data=monto;

vbar area/freq=total space=10;

vbar area/freq=porc space=10;

run;

Ejemplo. Retomando los datos acerca del número de faltas de un grupo de estudiantes
en un curso de Estadística, la tabla de frecuencias elaborada al respecto muestra 10
categorías diferentes. Si el rango del número de faltas fuera mucho mayor, el
diagrama de barras resultante no
sería operativo, en el sentido en que
muchas barras quedarían sin
frecuencia. Se recomienda agrupar
para lograr captar mejor la
información. La tabla de frecuencias y
el respectivo diagrama de barras se
muestra a continuación:

Rango o Clase Frecuencia


0–1 6
2–3 13
4–5 8
6–7 8
8–9 7
Cuando los datos son de tipo continuo se hace necesario agruparlos en intervalos
disjuntos para tener una mejor comprensión gráfica de su comportamiento.

Ejemplo. Las estaturas en centímetros de 50 estudiantes mujeres un grupo se


registraron. Los datos son:

157 155 171 150 163 150 172 161 154 174 163 148 152 163 149 158 176 164 157 153
169 161 160 164 155 162 151 167 167 167 170 158 163 175 169 169 158 150 156 157
174 162 150 151 165 170 156 170 153 154.

Agrupe adecuadamente los datos y elabore la respectiva tabla de frecuencias y el


histograma de frecuencias relativas.

El problema más importante a resolver aquí es ¿En cuántas clases o intervalos debo
agrupar la información? Es decir, ¿cuál es el número más adecuado de intervalos de
agrupación?. Existen diversas reglas empíricas acerca de cual debe ser un número de
intervalos o grupos adecuados. Sea n: número de observaciones, K: número de
intervalos o grupos, R: Rango, A: Amplitud del intervalo. Entre las reglas más
conocidas se tienen:

-
K n

- 5  K  25

K  1  3.33 log 10 n
- (Regla de Sturges)

Si usamos la primera regla, corremos el riesgo de incrementar drásticamente el


número de intervalos a medida que aumenta el número de datos. Por ejemplo con

n=100,
K  100  10
. Si n=1000,
K  1000  10 10  31.62
. Se recomienda
usar la última regla pues esta permite corregir el valor de K aunque se incremente
dramáticamente el número de datos. Usando la regla de Sturges, un número de clases
K  1  3.33 log 10 50  6.66
inicial es . Así aproximamos K  7 . La estatura mínima es
148 cms y la máxima estatura es 176. Así el rango será R  176  148  28 . La
R 28
A  4
amplitud de estos será: K 7 .

Los intervalos que se generen deben ser disjuntos, de esta manera se proponen

intervalos semi-abiertos a derecha. Así los intervalos de clases serán:


 148, 152  ,
 152, 156  ,  156, 160  ,  160, 164  ,.  164, 168 ,  168, 172  ,  172, 176  .
Es
implicaría que el máximo valor no esté incluido en el último intervalo. Es usual
incrementar levemente la amplitud de los intervalos para garantizar que ningún valor
quede por fuera de la clasificación. En otros casos Haciendo A  4.2 , entonces el
nuevo rango es: R  4.2  7  29.4 . Así, el rango se amplía en 1.4 unidades que
pueden ser repartidas 0.7 a izquierda y a derecha. En el siguiente gráfico ilustra lo
antes dicho.
Los intervalos de clase respectivos son:
 147.3, 151.5 ,  151.5, 155.7  ,
 155.7 , 159.9  ,  159.9, 164.1 ,  164.1, 168.3 ,  168.3, 172.5  172.5, 176.7  .

La tabla de frecuencias para estos intervalos y el respectivo histograma son:

Este gráfico es llamado Histograma de Frecuencias. Se puede observar que las


estaturas no están muy agrupadas alrededor de un rango de valores específicos, de
hecho, las personas con estaturas entre 148 y 160 cms. presentan frecuencias muy
similares. Es muy frecuente encontrar personas con estaturas que oscilan entre los
160 y 164 cms. Aproximadamente.

Es usual graficar las clases contra las frecuencias de manera que el área de cada
rectángulo sea igual a la frecuencia. El histograma resultante se llama Histograma de
Densidad.

Diagrama de Cajas y Bigotes: Box-PLot


Los diagramas de caja y bigotes son herramientas gráficas muy útiles para describir
características importantes en un conjunto de datos, como son centro, simetría o
asimetría, valores atípicos (raros), etc. La construcción de este diagrama emplea
medidas descriptivas que son poco sensibles a datos extremos y por lo tanto
presentan una descripción más clara de la información. Básicamente empleamos para
su construcción los tres cuarteles, los valores mínimos y máximos y la media muestral
solo como medida de localización en el gráfico.

Una observación se dice Atípica o Inusual si está a más de 1.5 veces el rango
intercualtil de alguno de los cuarteles Q1 o Q3. Una observación se dice Atípica
Extrema si está a más de 3 veces el rango Intercuartil de alguno de los cuarteles Q1 o
Q3.

El diagrama está conformado por una caja la cual se construye con ayuda del primer y
tercer cuartil. La mediana es dibujada en el interior de la caja al igual que la media
muestral. Los bigotes se extienden desde los cuartiles a la derecha y a la izquierda. Su
longitud depende de si hay o no datos atípicos.

Sin valores Atípicos ni Extremos:

Con valores Atípicos y/o Extremos:


En algunos paquetes computacionales, los bigotes van siempre hasta los valores
mínimo y máximo, sin hacer distinción en los valores atípicos.

Ejemplo. Para los datos de las estaturas tenemos: Min=148 , Max=176 ,


X̄=160. 86 Q 1 =154 ,
Q 2 =161 ,
Q 3 =167 .

Ejemplo. En un estudio epidemiológico, el Organochlorine y PCB´s totales fueron


registrados en 40 voluntarios en Colorado. Los datos son: 27 43 52 53 53 53 61 63 63
65 68 70 72 75 83 95 96 97 101 105 110 115 115 115 115 126 127 134 145 152 153
182 190 197 197 282 322 322 342 521.

Algunas medidas descriptivas básicas son: Min=27 , Max=521 ,


X̄=133. 925 ,
Q =66. 5
1 ,
Q =107. 5
2 , 3Q =152. 5 . El respectivo
Diagrama de cajas y bigotes se muestra a continuación:
En este caso existen datos inusuales de los dos tipos: atípicos y atípicos extremos. Lo
que nos muestra una gran dispersión de los datos debido a observaciones muy
inusuales 282, 322,342 y 521. El Histograma de frecuencias evidencia dicho sesgo a
la derecha. Esto indica que es muy inusual encontrar niveles totales superiores a 280.

También podría gustarte