0% encontró este documento útil (0 votos)
279 vistas33 páginas

Análisis y Representación de Datos Estadísticos

Este documento describe conceptos básicos de estadística descriptiva como muestras, poblaciones, variables aleatorias, y métodos para organizar y resumir datos como diagramas de tallo y hoja, distribuciones de frecuencias e histogramas. Incluye ejemplos de cómo aplicar estos métodos para analizar datos sobre el octanaje de gasolinas usando diferentes números de intervalos de clase.

Cargado por

Basilio Restrepo
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
279 vistas33 páginas

Análisis y Representación de Datos Estadísticos

Este documento describe conceptos básicos de estadística descriptiva como muestras, poblaciones, variables aleatorias, y métodos para organizar y resumir datos como diagramas de tallo y hoja, distribuciones de frecuencias e histogramas. Incluye ejemplos de cómo aplicar estos métodos para analizar datos sobre el octanaje de gasolinas usando diferentes números de intervalos de clase.

Cargado por

Basilio Restrepo
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

ANÁLISIS DE DATOS

“Hay verdades a medias, mentiritas, mentirotas y


estadísticas”
Ernest Hemingway
“La estadística no es solo una técnica que mensura la verdad
o la mentira entre cero y uno, es una demostración de la
relatividad de la verdad”
MOVE

La Estadística fue, en sus orígenes, un conjunto de técnicas que permitían


organizar, describir y cuantificar los asuntos del Estado. La raíz status explica
así la palabra Estadística que fuera usada al parecer por primera vez hacia
mediados del siglo XVII en Alemania.
La Estadística Descriptiva es el conjunto de principios, técnicas y métodos
gráficos y cuantitativos que permiten organizar, resumir y representar
sistemáticamente los datos que se obtienen de observar o medir los
resultados de un experimento aleatorio.
Un Experimento es aleatorio o estadístico en el sentido en que no se
puede Determinar el resultado exacto del experimento, aunque éste sea
reiterable o repetible bajo las mismas condiciones y sea previsible el Espacio
Muestral o conjunto de todos los resultados posibles.
En principio diremos que una Muestra es un subconjunto de n resultados
posibles de un experimento aleatorio, que el total de resultados posibles N ó
∞ se considera como una Población finita o infinita respectivamente y que
una Variable Aleatoria es una función cuyo dominio es el espacio muestral o
la población asociada a un experimento aleatorio. El dual de la relación
espacio muestral y evento en términos de probabilidad es, en la descripción
de datos, población y muestra.
El concepto de variable aleatoria se definirá formalmente más adelante, en
este punto diremos que las observaciones que corresponden a una variable
aleatoria son de dos clases: numéricas y cuantitativas o categóricas y

1
cualitativas; por ejemplo la duración de un ser vivo en días en el primer caso
y el tipo de sangre de un ser humano en el segundo.
Las numéricas obedecen a conteos o mediciones y las cualitativas a
identificaciones mediante códigos no necesariamente cuantitativos.
En la estadística son usuales las siguientes descripciones, diagramaciones o
distribuciones de los datos de una muestra:
1. Diagrama de puntos sobre el eje real, práctico para muestras con tamaño
n ≤ 30 .
2. Diagrama de tallo, hojas y frecuencias simples o número de veces que
aparece cada observación. Cuando este diagrama se realiza mediante
paquetes estadísticos como SAS o STATGRAPHICS, muestra
automáticamente los dato LO y HI, abreviatura en inglés para los datos
mínimo y máximo respectivamente de la muestra, además las frecuencias
simples y acumuladas.
3. Distribución de frecuencias que incluye los intervalos de clase, los
conteos y las frecuencias simples, relativas y acumulativas.
4. Histograma de frecuencias simples.
5. Histograma de frecuencias acumuladas.

Ejemplo 1. Un artículo publicado en Technometrics (Vol. 19, 1977, Pág. 425)


presenta los datos siguientes sobre el octanaje de varias mezclas de gasolina:
Nota: El octano: es un hidrocarburo saturado antidetonante componente del
petróleo.
El octanaje: mide el poder antidetonante de la gasolina.
88.5 87.7 83.4 86.7 87.5 91.5 88.6 100.3 96.5 93.3
94.7 91.1 91.0 94.2 87.8 89.9 88.3 87.6 84.3 86.7
84.3 86.7 88.2 90.8 88.3 98.8 94.2 92.7 93.2 91.0
90.1 93.4 88.5 90.1 89.2 88.3 85.3 87.9 88.6 90.9
89.0 96.1 93.3 91.8 92.3 90.4 90.1 93.0 88.7 89.9
89.8 89.6 87.4 88.4 88.9 91.2 89.3 94.4 92.7 91.8
91.6 90.4 91.1 92.6 89.8 90.6 91.1 90.4 89.3 89.7
90.3 91.6 90.5 93.7 92.7 92.2 92.2 91.2 91.0 92.2
90.0 90.7

2
Construya un diagrama de tallo y hoja para estos datos. Tamaño de la
muestra n = 82 , octanaje mínimo = 83.4 , octanaje máximo = 100.3 .

Diagrama de tallo y hoja y frecuencia simple.


1 2 1 3 6 11 10 13 13 8 6 4 0 2 0 1 0 1
1 1
1 8
9 0
7 4 0
6 7 1 2
3 9 6 1
6 3 4 2 2
3 3 8 5 7
9 9 9 5 8 7 3
6 3 8 7 1 2 2
8 4 2 4 0 4 2 0
7 5 5 6 0 6 2 7 7
3 7 4 2 0 3 1 2 3
5 3
4 3 3 7 7 5 8 1 6 7 6
1 4 8 3
Tallo
83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100

Diagrama en pantalla - STATGRAPHICS


Frecuencia Tallo Hojas ordenadas
1 LO = 83 4
3 84 33
4 85 3
7 86 777
13 87 456789
24 88 2333345556679
34 89 0233678899
(13) 90 0111344456789
35 91 0001112256688
22 92 22236777
14 93 023347
8 94 2244
4 95
4 96 15
HΙ = 98.8, 100.3

3
Ejemplo 2. Con la misma muestra del ejemplo 1 construya una distribución
de frecuencias y un histograma con 8 intervalos de clase.

Max x i − min x i Rango de la muestra


Longitud de los intervalos de clase ≥ =
# de int . * # de int .
100.3 − 83.4 16.9
≥ =
8 8
20
Longitud de los intervalos de clase = = 2 .5
8
Primer intervalo = (82 , 82 + 2.5]
Último intervalo = (99.5 , 99.5 + 2.5]

Si el # de int. no está enunciado, se puede usar uno de estos criterios :

# de int ≅ n , n < 400 ó 5 ≤ # de int ≤ 20 ó # de int = 1 + 3.33 log n

Así

Clase Intervalo Frecuencia Frec. Relativa


0 (0,82] 0 0
1 (82, 84.5] 3 3/82
2 (84.5, 87] 4 4/82
3 (87, 89.5] 21 21/82
4 (89.5, 92] 32 32/82
5 (92, 94.5] 18 18/82
6 (94.5, 97] 2 2/82
7 (97, 99.5] 1 1/82
8 (99.5, 102] 1 1/82
9 (102, ∞ ) 0 0/82
82 1

Ejemplo 3. Construya un polígono de frecuencias para “el octanaje” con


16 clases.
16.9 20
Longitud del int ervalo de clase ≥ ; longitud del int ervalo = = 1.25
16 16

4
así:
Clase Intervalo Frecuencia
0 (0,82] 0
1 (82, 83.25] 0
2 (3.25, 84.50] 3
3 (84.50, 85.75] 1
4 (85.75, 87.00] 3
5 (87.00, 88.25] 8
6 (88.25, 89.50] 14
7 (89.50, 90.75] 17
8 (90.75, 92.00] 15
9 (92.00, 93.25] 10
10 (93.25, 94.50] 8
11 (94.50, 95.75] 0
12 (95.75, 97.00] 2
13 (97.00, 98.25] 0
14 (98.25, 99.50] 1
15 (99.50, 100.75] 1
16 (100.75, 102.00] 0
17 (102.00, ∞ ] 0

Los ejemplos 1,2 y 3 muestran como a medida que aumenta el número de


intervalos de clase aumenta la identidad representativa de cada uno de los
datos, el límite en esta dirección sería un histograma que coincidiría con un
diagrama con todos los puntos de la muestra. En el sentido contrario la
identidad representativa de cada uno de los datos disminuye generándose un
histograma monticular más alto en el centro.

5
HISTOGRAMAS O POLÍGONOS DE FRECUENCIAS DE LOS EJEMPLOS 1
2 Y 3.

Ejercicio 1. Elabore una gráfica que mejore la comprensión de la siguiente


información sobre fertilidad: “Se ha comprobado que una relación sexual no
protegida tres días antes de la ovulación termina en embarazo en el 15% de
las mujeres; 1 ó 2 días antes de la ovulación en el 30% y el mismo día de la
ovulación en un 12%. Mas de dos días después de la ovulación, la
probabilidad de embarazo se aproxima a cero. ¿Qué ocurre en los extremos
de la gráfica?

Ley de PARETO.

En honor del economista Italiano Vilfredo Pareto. “La mayoría de los datos
en un proceso aparecen solo en unas cuantas categorías de la muestra o lista
de datos”.

6
Ejemplo 4. Los defectos estructurales en las puertas de un automóvil se
han cuantificado así:

Defectos Variable categórica-frecuencia


Abolladuras A=4
Picaduras P=4
Fuera de serie S=6
Desajustadas D = 21
Falta de agujeros o ranuras R=8
Falta de lubricación L=5
Partes fuera de contorno C = 30
Rebabas B=3

¿Cuáles categorías explican mayoritariamente los defectos estructurales de


las puertas de los autos?
Para aplicar la ley de PARETO, procedemos mediante un histograma de
frecuencias en orden decreciente, es decir, de mayor a menor frecuencia:

Polígono de frecuencias
simples, diagrama de PARETO

En conclusión se puede afirmar, según la ley de PARETO, que más del 50%
de los defectos se ocasionan en las categorías C ó D. Para mejorar la
calidad se deben mejorar principalmente los procesos de ajuste y
contorneado.

7
Medidas de Tendencia Central

Las medidas de tendencia central son fundamentales ya que permiten


localizar cuantitativamente la zona central o de mayor acumulación de
información de un conjunto de datos correspondientes a una variable
aleatoria, obtenidos de una muestra seleccionada de una población específica
o de un conjunto de resultados del espacio muestral de un experimento
aleatorio.
Las medidas de tendencia central, conjuntamente con las medidas de
dispersión de los datos con respecto al centro, permiten explicar el concepto
de Variabilidad Estadística.

La media muestral x . Sea (x1 , x2 , ⋅ ⋅⋅, xn ) una muestra de n observaciones

de una variable aleatoria x definida en una población determinada, entonces,


n
1
definimos la media muestral x así: x = (x1 + x2 + ... + xn ) = 1 xi , n ≥1
n n i =1

Mediana muestral ~
x . Sea (x1 , x2 , ..., xn ) una muestra ordenada

crecientemente, esto es, x i ≤ x j siempre que 1 ≤ i ≤ j ≤ n entonces la


~
mediana muestral x es el punto que divide la muestra en dos partes iguales,
esto es,

xn + 1 si n es impar y ~
x pertenece a la muestra
2
~
x =
x + x 2 si n es par y ~
x no pertenece a la muestra
n n +1
2 2

8
~
x no cambia con el cambio de los valores extremos de la muestra. Por
ejemplo, en las muestras {0, 2, 4, 6, 8} y {0, 2, 4, 6, 28} la mediana ~
x =4 es
invariante ante el cambio del quinto dato 8 por 28, pero la media x pasa de
un valor de 4 a uno de 8. La primera muestra es simétrica y la segunda
sesgada a la derecha.

o o
Moda muestral x . La moda x es la observación que se presenta con mayor
frecuencia en la muestra. Cuando en una misma muestra aparecen varios
datos u observaciones con la misma frecuencia máxima diremos que la
muestra o la distribución es unimodal, bimodal ó trimodal.

Otras Medias. Sean (x1 , x2 , x3 ,..., xn ) , xi > 0 , n observaciones o puntos

correspondientes a una muestra o evento de una variable aleatoria definida


en una población o espacio muestral determinados, entonces, definimos las
siguientes medias:

- Geométrica g, como la raíz enésima de la productoria de los n puntos, es


decir,
n
g = n ∏
i =1
xi

1 n
observe que log ( g ) = log xi .
n i =1

- Armónica a, como el inverso de la media aritmética de los n inversos de


los n puntos, es decir,
−1
n
−1
a = n x i
i =1

- Cuadrática c, como la raíz cuadrada de la media aritmética de los


cuadrados de los n puntos,

9
xi2
c =
n

Todas las medias se deben calcular con una cifra significativa adicional a la
del punto más preciso.
En toda muestra se cumple la siguiente relación de orden entre las medias:
a≤g≤x≤c
Como criterio de utilidad la media armónica destaca o representa los valores
mas pequeños de la muestra, en ese orden, la geométrica y la aritmética
destacan valores mas intermedios y la cuadrática los mas grandes.

Ejercicio:
a. Comprobar que las medias de la muestra {1, 2, 5, 7, 10, 13} son
(a = 3.2) ≤ (g = 4.6) ≤ (x = 6.3) ≤ (c = 7.1) .
b. Localizar las medias en el ejemplo del octanaje y verificar la relación de
orden.

Ejemplo 5. Considérese la población de los estudiantes de la Universidad y


obsérvese en 7 muestras de tamaño n = 7 la variable aleatoria que indica el
ingreso familiar en cien miles de pesos.
Muestra Ingresos × 10 5 $
A (4, 4.5, 5, 5.5, 6, 6.5, 7)
B (4, 5, 5, 6, 7, 7, 8)
C (4, 5, 6, 6, 6, 7, 8)
D (4, 4, 4, 4, 5, 5, 6)
E (4, 6, 6, 8, 8, 8, 8)
F (1, 1, 1, 1, 1, 1, 8)
G (1, 8, 8, 8, 8, 8, 8)

a. Elaborar los histogramas y polígonos de frecuencia para cada muestra


b. Calcular y analizar las medidas de tendencia central.
c. Calcular y analizar las otras medias.

10
Parte a. Histogramas y polígonos

Observe que X = 5.5 corresponde al centro de masa de los 7 rectángulos


Histograma Uniforme Simétrico

Observe que X = 6 corresponde al centro de masa de los cinco rectángulos


No uniforme
Simétrico Bimodal

11
Simétrico Unimodal

Sesgo positivo a la derecha Sesgo negativo a la izquierda

Las muestras F y G se consideran extrañas, por tamaño insuficiente o por


problemas de aleatoriedad. El promedio ofrece información equívoca.

Parte b. Medidas de tendencia central


MUESTRA x ~
x s2 s
A 5.5 5.5 5.5 1.16 1.08
B 6 6 5ó7 369.66 19.22
C 6 6 6 0 0
D 4.57 4 4 10535.86 102.64
E 6.85 8 8 2787023 1669.4
F 2 1 1 6.16 2.48
G 7 8 8 43690.5 209.02

12
Puede observarse que en las muestras con distribución simétrica unimodal
como A y C hay igualdad en el valor de la media, la mediana y la moda,
además, cuando las gráficas están sesgadas como sucede en G y E se
establece que x ≤ ~
x si el sesgo es a la izquierda y cuando están sesgadas
hacia la derecha x ≥ ~
x.
s2 y s son cálculos anticipados de la varianza y la desviación muestral que se
conceptualizarán como las principales medidas de variabilidad estadística. La
fórmula es
n
1
s2 = (xi − x )2
n −1 i=1

Parte c. Otras medias


MUESTRA a g c
A 5.31 5.41 5.59
B 5.70 5.85 6.14
C 5.75 5.88 6.12
D 4.47 4.51 4.63
E 6.46 6.67 7.01
F 1.14 1.34 3.16
G 4 5.94 7.42

Se observa que el orden de estas medias es el siguiente


a≤g≤ x ≤c
Además ninguna de las cuatro medias ofrece información acerca de la
distribución o variabilidad de los datos.

Observaciones.
1) x es el centro de masa del histograma de frecuencias de la muestra
respectiva.
2) Si la muestra es toda la población finita de tamaño N entonces la media
n
1
poblacional sería = xi N≥1
N i=1

13
Veremos métodos que nos permitan predecir la media poblacional µ a
partir de la media muestral x .
3) Si la distribución muestral, es decir el histograma, es simétrico y
o
unimodal x = ~x = x , es decir, coinciden la media, la mediana y la
moda.
o
4) La ecuación de Pearson x = 3~
x − 2x se cumple aproximadamente en el
caso de distribuciones unimodales casi simétricas.
5) Si la distribución muestral es fuertemente sesgada a la derecha se
o
cumple que x < ~x < x ; si el sesgo es a la izquierda se invierte la doble
o
desigualdad x > ~x > x .

6) Se dice que la media x es menos estable, más variable, que la moda


o
x y la mediana ~x al cambiar de muestra incorporando o no valores
extremos.

Medidas de posición relativa.


Describen la posición de una observación con relación al conjunto de datos

Percentiles y Cuartiles.
Sabemos que la mediana divide los datos de una muestra o población en
50% y 50%.
Definimos los cuartiles como aquellos datos que dividen la muestra en cuatro
cuartos así:

14
%
Primer cuartil (inferior) q1 25, 75
Segundo cuartil (la mediana) ~
x = q2 50, 50
Tercer cuartil (superior) q3 75, 25

Cuando varios datos cumplen la definición de qi entonces se le asigna el


promedio de los datos.
En una muestra ordenada definimos el 100 k-ésimo percentil p k como
aquel valor para el cual el 100k% de las observaciones están en dicho dato o
por debajo de él, y al menos el 100 (1-k) % están por encima.
Así q = p
1 , q = ~
0.25 x = p
2 y q =p .
0.50 3 0.75

Procedimiento para hallar p k .

Ordene de menor a mayor la muestra aleatoria {y1, y2, ..., yn}.


Calcule el entero mas próximo a nk y denótelo por [nk].
El percentil p k será:

y [nk ] si nk no es entero
pk = 1
(y nk + y nk +1 ) si nk es entero
2
Es claro que si nk es entero entonces p k es la semisuma de los datos de las
posiciones nk y nk+1 y el percentil no pertenece a la muestra.
Si nk no es entero entonces p k es el dato que está en la posición, entera,
mas cercana a nk. Y el dato percentil pertenece a la muestra.

Ejemplo: Hallar p0,1 y p0,5 sobre el diagrama de tallo y hojas de los octanajes.
Sabemos que n=82, entonces,
82 × 0,1 = 8,2
nk =
82 × 0,5 = 41

15
[8,2] = 8
[nk ] =
[41] = 41
p0,1 = y 8 = 87,4
1
p0,5 = (y 41 + y 42 ) = 1 (90,4 + 90,4 ) = 90,4
2 2

Medidas de Variabilidad

Miden la dispersión de los datos con relación a sus parámetros centrales.


Consideraremos las siguientes:

Rango muestral r.
Indica la mayor distancia entre los datos. Sea (x1 , x 2 , ..., x n ) una muestra
aleatoria. Se define

r = max xi − min xi

Rango intercuartil I.
Localiza la distancia que cubre el 50% central de los datos, es no sensible o
invariante con relación a los valores extremos de la distribución ya que los
excluye.
Ι = q3 − q1

Varianza Muestral y Desviación Estándar

Sea (x1 , x 2 , ..., x n ) una muestra aleatoria. Se define la varianza muestral así:
n
1
s2 = (xi − x )2 n > 1
n −1 i=1

Para expresar la variabilidad en unidades estándar con la variable aleatoria


se define la desviación estándar s, obviamente, como la raíz cuadrada

positiva de s 2 . Obsérvese que si s es grande los datos están muy dispersos


alrededor de la media lo que implica una gran variabilidad y poca variabilidad
si s es pequeño.

16
Una fórmula alternativa para s 2 es:

Proposición 1.

s2 =
1
n −1
(xi − x )2 = 1
n −1
(x 2
i − 2 x xi + x
2
)
=
1
n −1
( x i2 − 2 x xi +
2
x : )
=
1
n −1
( 2
x i2 − 2 n x + n x
2
)
s2 =
1
n −1
( x i2 − n x
2
)
Coeficiente de Variación Muestral de Pearson: CV.

Debido a Karl Pearson, 1857 a 1936. Estadístico y filósofo británico.


Desarrolló también el método de los momentos, el sistema de curvas de
frecuencia, la teoría de la correlación y algunos parámetros distribucionales.
Se define así:

s s
CV = , ó en porcentaje CV = 100% , x ≠ 0
x x

y expresa la dispersión, la desviación estándar, como una fracción de la


media. El CV es apropiado en poblaciones donde los datos son positivos.
Si 0<CV<1.5, los datos provienen de una población homogénea
Si CV>1.5, los datos provienen de una población heterogénea.
Una población es heterogénea en el caso de distinto género, distintos tiempos
ó distintos procesos.
El coeficiente de variación es útil para controlar la calidad de experimentos de
laboratorio para el estudio de enfermedades. Una regla común en el conteo
de células, con determinada enfermedad, en placas, es hacer tres conteos
que se consideran similares cuando el coeficiente de variación no es mayor al

17
15%; cuando el coeficiente supera el 15% se descarta el conteo más distante
entre los tres.
El coeficiente de variación es útil, en razón de su carácter adimensional, para
comparar muestras con medias desiguales, donde las unidades de medida
de las observaciones son diferentes.También para decidir cual muestra es
mas homogénea o menos variable.

Ejemplo: El peso promedio de diez elefantes africanos es de cinco toneladas


con una desviación estándar de 0,5 toneladas. El peso promedio de veinte
ratas Bandicut es de 1000 gramos con una desviación de 150 gramos. Cual
especie tiene un peso más homogéneo.
0,5ton
CVELEFANTES = • 100% =10%
5ton

150gr
CVRATA BANDI = • 100% =15%
1000gr
El coeficiente de variación del peso de los elefantes es menor que el de las
ratas Bandicut, por lo tanto es mas homogéneo o menos variable el peso de
los elefantes.

Ejercicio 2. Las siguientes son las medias y desviaciones de efectuar 4


muestreos de medición con micrómetros.

Micrómetros Pieza medida x s


A Diámetro de un valero 3.92 mm 0.015 mm
B Longitud de un resorte 1.54 cm 0.088 cm
C Diámetro de un cojinete 4.03 mm 0.012 mm
D Longitud de un tornillo 1.76 pulg. 0.0075 pulg.

Observe que las unidades de medida son diferentes y que las diferencias
entre las medias son significativas.

18
a) Calcule los coeficientes de variación de cada muestra de mediciones.
b) Qué se puede afirmar acerca de la precisión de las mediciones?
c) Qué se puede afirmar acerca de la calidad de las piezas?
d) Qué efecto tienen en el análisis las diferentes unidades de medida de
las longitudes?

Simetría y acampanamiento.

Los coeficientes que vamos a definir se deben a Sr. Ronald Fisher, 1890 a
1962, quien motivado por sus investigaciones genéticas recurrió con éxito a la
estadística contribuyendo a los temas de pruebas de hipótesis y varianza de
muestras pequeñas.
Es usual visualizar si los datos obtenidos en un muestreo corresponden a una
distribución de datos monticular o acampanada próxima a la denominada
distribución normal en la que la moda, la mediana y la media coinciden en
razón de su perfecta simetría.
La distribución de datos puede por lo tanto monitorearse en dos sentidos con
relación a la distribución normal calculando los índices de

Asimetría o Ske ness: Cuando la moda coincide o no con la media se


define el coeficiente de asimetría así:

(x i − x )3
γ=
ns 3
(Observe que el exponente 3 permite el cambio de signo en la distribución de
)

< 0 sesgo a la izquierda


Si γ = 0 simetría perfecta
> 0 sesgo a la derecha

19
Acampanamiento o kurtosis: Cuando la distribución de datos acumula mas

información alrededor de la moda, es decir, es mas alta o picuda que la

campana normal, o concentra menos información alrededor de la moda, es

decir es mas plana que la campana normal, se define el coeficiente de

acampanamiento k así:

(x i − x)
4

K= −3
ns 4
Observe que el exponente 4 produce una potencia siempre positiva
comparada con el número 3 de forma que:

>0 la distribución es mas alta o leptocúrtica


K =0 la distribución es aproximada mente normal o mesocúrtica
<0 la distribución es plana ó platicúrtica

La figura muestra las tres formas:

Ejercicio. Calcular los coeficientes de kurtosis y Ske ness para


a. Los histogramas de ingreso
b. La información del octanaje

Proposición 2 ó Teorema de Chebysheb.


Para k ≥ 1 , por lo menos 1 − 1 2 datos de un conjunto -muestra o
k
población arbitraria- quedará a k desviaciones estándar de su media, es decir,

20
al menos 3 quedarían en el intervalo x ± 2 s , al menos 8 quedarían en el
4 9
intervalo x ± 3 s . Se ha encontrado empíricamente que cuando la distribución
de los datos es unimodal y simétrica o acampanada la concentración de los
datos cambia así:

Concentración Mínima de Datos

Intervalo Distribución arbitraria Distribución acampanada


[x − s , x + s ] k = 1 0+ 0.68 +
[x − 2 s , x + 2 s ] k = 2 0.75 + 0.95 +
[x − 3 s , x + 3 s ] k = 3 0.93+ 0.99+

Tanto el teorema de Tchebysheff como la regla empírica, permiten comparar


conjuntos de dados con igual intervalo y media pero con variabilidades
distintas, ambos criterios permiten combinar para efectos comparativos, la
media con la desviación estándar de cada conjunto de datos.

Ejercicio.
a. ¿Qué porcentajes de datos de la muestra de octanajes del ejemplo 1
caen en los intervalos [x ± ks] , cuál es el mejor criterio?
b. ¿Cuáles datos caen fuera del rango intercuartílico?

Valor z.

Un valor z describe la posición relativa de un dato con la media de la muestra


respectiva.
El valor de z corresponde a un valor espejo de la variable x que recorre el
conjunto de datos de forma que se produce un cambio de coordenadas,
cambiando el origen y la escala así, el valor z de un dato x en un conjunto de
datos, es la distancia a la que se encuentra x a la derecha o izquierda de la
media x medida en unidades de la desviación estándar s, o sea,

21
x−x
z = , s>0
s

Esta transformación permite trasladar y escalar cualquier distribución de


manera que z = 0 ; además según criterio empírico el intervalo [− 1, 1 ] tendría
por lo menos el 68% de las z; el intervalo [− 2, 2 ] tendría por lo menos el
95% de las z; el intervalo [− 3, 3 ] tendría por lo menos el 99% de las z.

Los valores de x que corresponden a z > 3 se consideran observaciones

fuera de intervalo, outliers o aberrantes; mas lejos se consideran valores


extraños.

Diagrama de caja y bigotes

Es una gráfica descriptiva que se apoya en el cálculo del rango intercuartil,


que es justamente el ancho de la caja. Permite visualizar globalmente: la
variabilidad de los datos, los datos fuera de rango o “outliers”, la simetría de la
muestra y por lo tanto el sesgo.
El alto de la caja es arbitrario y se traza por los cuartiles q1, q2 y q3 el ancho
completa la caja desde q1 hasta q3. Veamos

22
Los datos mas pequeños que q1 y mas grandes que q3 son considerados

fuera de rango. Las líneas llamadas bigotes se extienden desde la caja hacia
estos valores. Típicamente, la mayoría de los datos estarán dentro del
intervalo [q1 − 1.5I, q3 + 1.5I] . Los puntos por fuera de este intervalo se

consideran aberrantes o outliers.

Ejemplo 6. Elaborar el histograma y el diagrama de caja de los octanajes:

23
Entre q1 = 88.6 y q 2 = 92.2 ,
en el rango intercuartílico se
encuentra el 50% de los
octanajes.
La mediana es casi coincidente
con la media indicando alta
simetría de la distribución.
Los octanajes 98.8 y 100.3 son
datos extraños-outliers-.

Ejemplo 7. Elaborar diagramas comparativos de caja y bigotes para las


muestras:
A) 27 36 39 39 42 50 51 58
B) 8 8 9 9 15 27 36 65

La muestra B tiene mayor


variabilidad que la muestra A,
sus rangos intercuartílicos
tienen longitudes 23 y 13
respectivamente.
Las muestras son fuertemente
sesgadas a la derecha.

24
Ejemplo 8. El coeficiente de inteligencia se define como la razón entre la
edad mental y la edad cronológica de una persona multiplicada por 100 .
Una muestra de 32 universitarios arrojó los siguientes datos de coeficiente
de inteligencia:
x = 100 103 99 101 100 120 109 82 n = 32
101 112 95 118 118 89 114 113 x = 3251

92 137 130 94 87 93 111 96 x 2 = 335787

93 98 101 96 84 86 89 90

a) Elabore un diagrama de tallo, hojas y frecuencias ordenado que


corresponda a seis intervalos de clase de longitud 10.
b) Elabore el histograma de frecuencias y localice la media, la mediana y la
moda.
c) Al observar el orden de las tres medidas de tendencia central, qué puede
afirmarse acerca del sesgo de la distribución del coeficiente de
inteligencia?
d) ¿Cuál intervalo contiene mas datos (q1 , q3 ) o (x − s , x + s ) ?
e) Otra muestra tomada en este grupo indica que el coeficiente de
inteligencia y tiene y = 110 y S y = 14 . Calcule los coeficientes de

variación CVx y CVy . Qué puede afirmar acerca de las muestras de

x y y?
a)
Tallo Hojas Ordenadas Frecuencia
8 246799 6
9 0233456689 10
10 0011139 7
11 123488 6
12 0 1
3 07 2
TOTAL 32

25
b)

1 n
1
c) x = xi = (3251) = 101.59 ≅ 101.6
n L =1 32
1 1
~
x = x n + x n +1 = (x16 + x17 ) = 1 (99 − 1.100 ) = 99.5
2 2 2 2 2
n par
Moda = x f (x ) es máximo.
~
Moda = 101 como x = 99.5 < (M = 101) < (x = 101.6 ) no se puede

afirmar que la dbn del C Ι sea sesgada, mas bien que hay tendencia a
la simetría.

1
d) (q1 , q3 ) = [x 8 + x 9 ] , 1 [x 24 + x 25 ]
2 2

1
= [92 + 93] , 1 [111+ 112]
2 2
= (92.5 , 111.5 ) donde hay, como era de esperarse, 16 datos.

26
1 n
1 n
s2 = (x − x )
i = xi2 − n x
2

n −1 L =1 n −1 1

s2 =
1
31
(335787 − 32 [101.59]2 ) = 178.39
s = 13.36
x ± s = 1 01.59 ± 13.36
(x − s , x + s) = (88.23 , 114.95 ) que contiene 23 datos.
(q1 , q3 ) Contiene 50% de los datos
(x ± s) Contiene 23 32 ≅ 72% de los datos

sx 13.36
e) CVx = = = 0.1315
x 101.59
sy 14
CVy = = = 0.1273
y 110

Es mas precisa la muestra de y que la de x ya que


(CVy = 0.1273 ) < (CVx = 0.1315 )

PROBLEMAS SELECCIONADOS

1. Se sabe que la frecuencia de respiración de los humanos puede variar


desde 4 respiraciones por minuto hasta 70 ó 75 para una persona que
realiza ejercicios extenuantes. Supongamos que las frecuencias de
respiración en estado de reposo, para estudiantes universitarios, poseen
una distribución de forma monticular con media 12 y desviación estándar
de 2.3 respiraciones por minuto. ¿Qué fracción de los estudiantes
poseen frecuencias en los siguientes intervalos:

a) 9.7 a 14.2 respiraciones por minuto?


b) 7.4 a 16.6 respiraciones por minuto?
c) Más de 18.9 o menos que 5.1 respiraciones por minuto?

27
2. Un analista químico desea determinar el número de moles de iones
cúpricos en un volumen dado de una solución, por electrólisis. La
solución se dividió en n = 30 porciones de 200 mililitros cada una.
Estas 30 porciones se sometieron a pruebas. Se encontró que el
promedio de moles de iones cúpricos para las 30 porciones fue de .17
moles y la desviación estándar de .01 moles. Describa la distribución de
las mediciones para las 30 porciones de la solución:

a) Use el teorema de Chebysheb.


b) Use la regla empírica. (¿Esperaría usted que la regla empírica sea
adecuada para describir estos datos?)
c) Suponga que el químico empleó sólo n = 4 porciones de la solución
para el experimento y que obtuvo los resultados .15, .19, .17 y .15.
¿Sería la regla empírica adecuada para describir las cuatro
mediciones? ¿Por qué?

3. Según una agencia de protección ambiental, el cloroformo, el cual se


sospecha que en su forma gaseosa es un agente causante de cáncer,
está presente en pequeñas cantidades en todas las fuentes de agua
públicas. Si la media y la desviación estándar de las cantidades de
cloroformo presente en las fuentes de agua son de 34 y 53 microgramos
por litro, respectivamente, describa la distribución de la población en
todas las fuentes públicas de agua.

4. Estadísticas sobre el ingreso familiar en 2000 se presentan en la siguiente


tabla en forma de percentiles:

Percentil Ingreso familiar ($) × 10 4

28
7 4.000
14 6.000
22 8.000
30 10.000
38 12.000
50 15.000
69 20.000
82 25.000
98 50.000

a) Explique qué significa la afirmación de que el percentil 50 es $ 15.000.


b) Use estos percentiles para hacer un gráfico aproximado de la
distribución de frecuencias relativas de los ingresos familiares en 2000.

5. La triquinosis, enfermedad derivada de productos porcinos impropiamente


cocidos, parece estar aumentando: 284 casos de triquinosis, incluyendo
un deceso, fueron reportados al centro de enfermedades transmisibles en
1975. Este número fue 2 ½ veces mayor que el promedio de los casos
reportados durante los cinco años anteriores y representa la mayor
incidencia anual desde 1961. A partir de sus conocimientos sobre
variación de datos, ¿cree usted que estos datos confirman un aumento en
la tasa de incidencia per cápita de la triquinosis? Explique.

6. Renault 2002 se sometió a pruebas para determinar su rendimiento por


galón de gasolina. Se llenó el tanque 12 veces y en cada una de ellas se
observó el rendimiento, en kilómetros por galón. Los resultados se dan
en la tabla siguiente (para un auto automático conducido en la ciudad):
44 50 46
50 45 47
48 49 42
49 50 50

29
a) Describa la población de la cual se obtuvo la muestra. ¿Es esta
muestra representativa de la población de rendimientos en kilómetros
por galón de todos los R 2002 equipados con transmisión automática?
b) Use la media de los datos para estimar la media de la población de
millas por galón para el R 2002 arriba descrito.
c) Use la amplitud para obtener un valor aproximado de s. Luego
calcule s y use el valor aproximado como verificación de sus cálculos.

7. Para estimar la cantidad de madera disponible en una región boscosa, un


propietario decide contar el número de árboles con diámetro mayor que
30 centímetros en áreas cuadradas de 15 x 15 metros seleccionadas al
azar. Setenta cuadrados de 15 x 15 fueron seleccionados al azar en la
región, observándose el número de árboles (con diámetros mayores que
30 centímetros) en cada uno de ellos. Los datos son los siguientes:

7 8 7 10 4 8 6
9 6 4 9 10 9 8
3 9 5 9 9 8 7
10 2 7 4 8 5 10
9 6 8 8 8 7 8
6 11 9 11 7 7 11
10 8 8 5 9 9 8
8 9 10 7 7 7 5
8 7 9 9 6 8 9
5 8 8 7 9 13 8

a) Construya un histograma de frecuencias relativas para describir


estos datos.
b) Calcule la media muestral y como estimación del la media µ del
número de árboles en todos los cuadrados de 15 x 15 en la región.

30
c) Calcule s para estos datos. Construya los intervalos y ± s , y ± 2 s ,

y ± 3s . Encuentre el porcentaje de cuadrados que caen en cada


uno de estos intervalos y compárelos con los correspondientes
porcentajes dados por la regla empírica y el teorema de
Tchebysheff.

8. En cada experimento defina claramente la variable observada, si es


cuantitativa o cualitativa, la escala y las unidades en que es medida.

a) Sexo de los animales de laboratorio utilizados para experimentación.


b) Edad de los pacientes ingresados en un ensayo clínico.
c) Número de bandas de WB * reconocidas en el diagnóstico de una
enfermedad.
d) Número de lesiones observadas en un hámster infectado con
leshmaniasis.
e) Tamaño de la induración después de aplicar la prueba de
montenegro.
f) Número de crías de un hámster después de exponerlo a un régimen
alimenticio especial para estimular la reproducción.
g) Estado del pelaje del hámster después de infectado.
h) Resultado final de cualquier prueba diagnóstico (considere los dos
casos, cuando es dicotómica y cuando puede tener varios
resultados, si desea utilice una prueba con la que usted trabaje todo
el tiempo).
i) Resultados arrojados por el lector de Elisa en pruebas de
determinación de citoquinas.
j) Número de linfocitos contados en una muestra de sangre.

* Bandas WF son marcas que se identifican en análisis cromosomático.

31
9. A continuación se presentan los datos de 100 niños a los que se les midió
el nivel de glucosa diluida en la sangre.
61 57 77 62 75 63 55 64 60 61
57 61 57 67 62 69 67 68 59 61
72 65 61 68 73 65 62 75 80 61
61 69 76 72 57 75 68 81 64 72
64 66 65 65 76 65 58 65 64 76
71 72 58 73 55 73 79 81 56 73
60 65 80 66 80 68 55 66 71 55
73 73 75 75 74 66 68 73 65 73
74 68 59 69 55 67 65 67 63 63
56 67 62 65 75 62 63 63 59 59

a) Defina el nombre y tipo de variable, escala en la que está medida.


Calcule las medidas de tendencia central y de dispersión.
b) ¿Considera posible cualificar la variable nivel de glucosa? (No tenga
en cuenta el nivel clínico y aplique los supuestos que desee) y
convertirla en una variable ordinal y/o en una variable categórica?
Desarrolle una forma para hacerlo.

10. Se llevó a cabo un estudio con 500 personas asistentes a consulta


médica en un centro hospitalario de la ciudad, se les aplicó a todos el
formulario APGAR * para función familiar, el cual arroja calificaciones
entre 1 y cuatro puntos. Los resultados obtenidos son los siguientes:

APGAR (Puntaje) FRECUENCIA


1 40
2 60
3 160
4 200

32
9 = Sin respuesta 40
Total 500

a) ¿Cuál es la variable observada, de qué tipo es y en qué escala se


mide?
b) Si los especialistas en medicina familiar consideran que, en un
APGAR: cuatro puntos indican funcionalidad, tres puntos indican
disfunción leve, dos puntos disfunción familiar moderada y un punto
disfunción familiar severa, genere la nueva variable. ¿Qué tipo de
variable es ésta? ¿Cuál es su nombre? ¿En qué escala se mide?
c) ¿Qué puede decirse respecto al grupo de pacientes y su función
familiar?

• El formulario APGAR permite calificar entre 1 y 10 la depresión


del sistema nervioso del paciente en un tiempo específico
observando: El color de la piel, el reflejo plantar, la capacidad
prencil y otras variables relacionadas.

33

También podría gustarte