Estadística Descriptiva para Ingenieros
Estadística Descriptiva para Ingenieros
Estadística
1: ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS
Estadística
negocios y económicas.
o Análisis de relación: analiza las relaciones entre dos o más conjuntos
de datos estadísticos.
§ Interpretación
Una conclusión válida puede ser alcanzada después de que los resultados del
análisis son interpretados.
§ Síntesis
Sintetizar consiste en organizar, comprender, proce-
sar e integrar la información proveniente de múltiples
fuentes.
La síntesis es la reestructuración o reelaboración de la
información en formatos nuevos o diferentes para po-
der cumplir con los requisitos del trabajo.
Estadística
En esta etapa es importante enfocarse en comprender la información ex-
traída para presentarla (como producto) en sus propias palabras y en la
forma requerida por la tarea.
§ Descripción
La descripción de los datos cuantitativos, tales como longitudes, consumos,
etcétera, se refiere al cálculo de toda clase de estadísticos (medidas de
tendencia central, medidas de dispersión, medidas de posición no centrada,
medidas de asimetría, medidas de apuntamiento, entre otras).
Así mismo, las descripciones se pueden contemplar en
modo gráfico, con histogramas, gráficos de tallo y
hojas, gráficos de caja y extensiones, diagramas de
barras y circulares, con las correspondientes opciones
tridimensionales y sus correspondientes propiedades
de rotación horizontal y vertical, etcétera.
La descripción de datos categóricos, tales como zonas geográficas, niveles
de aptitud de operarios y alumnos, grados de satisfacción de clientes, etcé-
tera, se realizan mediante efectivos procedimientos de tabulación y tabula-
ción cruzada, que junto con las opciones gráficas, permiten determinar los
posibles grados de asociación, entre las categorías analizadas (por ejemplo,
la relación entre la afición a la lectura de los padres y el grado de rendi-
miento escolar de los hijos).
§ Lo que usted quiere es que la audiencia sienta que debe saber, que debe
aprender de la información que usted les va a suministrar.
§ Al crear su esquema, plantee directamente los puntos principales; luego,
respáldelos con investigaciones relevantes, observaciones convincentes y
Estadística
cualquier otro tipo de evidencia que fortalezca el tema de su presentación.
§ Use un formato y diseño consistentes. Recuerde que los gráficos deben
complementar, no desvirtuar el contenido de la presentación.
§ Exprese con claridad sus ideas y conclusiones.
§ No base su informe estadístico en una serie de impresiones con salidas de
un programa estadístico que carezcan de sentido para el lector.
§ Es necesario que realice una interpretación de los resultados obtenidos, e
incluso que presente un informe en un lenguaje más cercano a las personas
que deben usar los resultados estadísticos sin necesidad de ser expertos en
Estadística.
Según el análisis
estadístico realiza-
do, se debe
destacar la
importancia de la
automotivación en
la Educación a
Distancia, ya que
es el alumno el
que gestiona su
aprendizaje
Estadística
ción.
Para presentar variables, tanto cualitativas como cuantitativas, lo podemos
hacer mediante una tabla o cuadro, que ofrece una visión numérica sintética y
global de dicha variable.
ž Ejemplo:
En un estudio realizado por el Instituto del hierro y el acero de Estados Unidos
durante el año 1992, se analizó las cantidades (en miles de toneladas) de impor-
taciones de acero, en distintos países:
xi fi fri fri %
Bélgica y Luxemburgo 1247 0,3041 30,41 %
Japón 1072 0,2615 26,15 %
Alemania 460 0,1122 11,22 %
Canadá 367 0,0895 8,95 %
Francia 299 0,0729 7,29 %
Reino Unido 250 0,0610 6,10 %
Otros 405 0,0988 9,88 %
n = 4100 1,0000 100,00 %
Fuente: U.S. Department of Commerce. Datos preparados por el American Iron and Steel
Institute, publicados en Charting Steel’s Progress in 1992.
Nota: Para poder operar con los datos de la tabla o referirnos a ella, podemos representar
la característica a observar (países) mediante la variable X y a la modalidad i-ésima de di-
cha variable con la notación xi.
Estadística
§ Frecuencia simple relativa porcentual (fri%): representa en porcentajes
las frecuencias simples relativas. Se calcula: fri . 100%.
Las tablas estadísticas para variables cuantitativas son similares a las ante-
riores, aunque, en este caso, la variable puede ser ordenada con un determinado
criterio.
ž Ejemplo:
Las siguientes son las alturas, en centímetros, de sesenta alumnos universitarios:
150 160 161 160 160 172 162 160 172 151
161 172 160 169 169 176 160 173 184 172
160 170 153 167 167 175 166 173 169 178
170 179 175 174 160 174 149 162 161 168
170 173 156 159 154 156 160 166 170 169
163 168 171 178 179 164 176 163 182 162
Estadística
170 4 0,0667 6,67 % 40 0,6667 66,67%
171 1 0,0167 1,67 % 41 0,6833 68,33%
172 4 0,0667 6,67 % 45 0,7500 75,00%
173 3 0,0500 5,00 % 48 0,8000 80,00%
174 2 0,0333 3,33 % 50 0,8333 83,33%
175 2 0,0333 3,33 % 52 0,8667 86,67%
176 2 0,0333 3,33 % 54 0,9000 90,00%
178 2 0,0333 3,33 % 56 0,9333 93,33%
179 2 0,0333 3,33 % 58 0,9667 96,67%
182 1 0,0167 1,67 % 59 0,9833 98,33%
184 1 0,0167 1,67 % 60 1,0000 100,00%
n = 60
Fuente: Datos hipotéticos
§ Variable (xi): para poder operar con los datos de la tabla o referirnos a ella,
podemos representar la característica a observar (estatura de los estu-
diantes universitarios) mediante la variable X y a la modalidad i-ésima de
dicha variable con la notación x i.
§ Frecuencia simple absoluta (f i): representa el número de individuos que
presentan cada modalidad x i.
§ Frecuencia simple relativa (fr i): nos permite valorar la representatividad
de cada categoría respecto al total de los datos. Se calcula: fi / n.
§ Frecuencia simple relativa porcentual (fri%): representa en porcentajes
las frecuencias relativas. Se calcula: fri . 100%.
§ Frecuencia acumulada (Fi): representa el número de individuos que presen-
tan una modalidad inferior o igual a x i . Se obtiene sumando las frecuencias
absolutas correspondientes a todos los valores menores o iguales a xi.
§ Frecuencia acumulada relativa (Fr i): nos permite valorar la representativi-
dad de cada categoría respecto al total de los datos. Se calcula: Fi / n.
§ Frecuencia acumulada relativa porcentual (Fri%): representa en porcenta-
jes las frecuencias acumuladas relativas. Se calcula: Fri . 100%.
Muchas veces, es necesario o resulta más cómodo trabajar con los datos agrupa-
dos en intervalos (o clases). La manera de agrupar los datos será estudiada más
adelante, por ahora planteamos una posibilidad de agrupación para ver la aplica-
ción en nuestro ejemplo:
Estadística
porcentual porcentual
n = 60 1,0000 100 %
Fuente: Datos hipotéticos
no se persigue una rigurosa exactitud, sino lograr efectos visuales en quien está
leyendo la información.
Existe una gran variedad de gráficos. Su elección depende de las variables
en estudio y de las características que se quieren destacar. Para la construcción
Estadística
de gráficos no hay reglas únicas. Siempre se debe tener presente que un gráfico
da información más rápida pero menos precisa que la tabla.
A. Datos cualitativos
ž Ejemplo:
Veremos las distintas representaciones gráficas en el ejemplo anterior:
1400
(en miles de toneladas)
1200
Cantidad de acero
1000
800
600
400
200
0
Reino Unido
Francia
Japón
Otros
Alemania
Canadá
Luxemburgo
Bélgica y
Países
Fuente: U.S. Department of Commerce. Datos preparados por el American Iron and Steel Insti-
tute, publicados en Charting Steel’s Progress in 1992.
Estadística
Principales fuentes de importaciones de acero en Estados Unidos durante 1992
Otros 405
Canadá 367
Japón 1072
Ca ntidad de acero
(en m iles de toneladas)
Fuente: U.S. Department of Commerce. Datos preparados por el American Iron and Steel Insti-
tute, publicados en Charting Steel’s Progress in 1992.
Gráfico de Pareto
1200 10 7 2
(en miles de toneladas)
Cantidad de acero
1000
800
600
460
405
367
400 299
250
200
0
Japón
Otros
Francia
Reino Unido
Canadá
Alemania
Luxemburgo
Bélgica y
P a ís e s
Fuente: U.S. Department of Commerce. Datos preparados por el American Iron and Steel
Institute, publicados en Charting Steel’s Progress in 1992.
Gráfico de sectores
Estadística
Los gráficos de sectores se utilizan para representar variables cualitativas,
indicando la proporción en que cada uno de sus valores se presenta.
6% Bélgica y Luxemburgo
31%
Japón
7%
Alemania
Canadá
9%
Francia
Reino Unido
11% Otros
26%
Fuente: U.S. Department of Commerce. Datos preparados por el American Iron and Steel Insti-
tute, publicados en Charting Steel’s Progress in 1992.
Otros
Bélgica y
Reino Unido 10%
Luxemburgo
6% 31%
Francia
7%
Canadá
9%
Japón
Alemania 26%
11%
Fuente: U.S. Department of Commerce. Datos preparados por el American Iron and Steel Insti-
tute, publicados en Charting Steel’s Progress in 1992.
B. Datos cuantitativos
Estadística
Hay distintas maneras de presentar los datos cuando no han sido agrupados
en intervalos. A continuación veremos las más utilizadas:
ž Ejemplo:
Se desea analizar cuánto demora un procesador X en guardar un archivo de cier-
to tamaño. Los tiempos, en segundos, que se recopilaron fueron veinticinco y es-
tán dados en la siguiente tabla:
Estadística
decimal). Luego, listamos los números que son troncos de arriba abajo y di-
bujamos una línea vertical.
0,2 0,4 0,5 0,5 0,7
0,7 0,8 0,9 0,9 1,2
1,2 1,2 1,4 1,4 1,5
1,6 1,9 2,1 2,2 2,4
2,6 2,6 3,7 3,8 3,9
0
1
2
3
Los paquetes estadísticos, en general, presentan este gráfico indicando las fre-
cuencias acumuladas. A continuación veremos un gráfico de tronco y hojas reali-
zado con Statgraphics Plus 5.1 para este conjunto de datos:
2 0|24
9 0|5577899
(5) 1|22244
11 1|569
8 2|124
5 2|66
3 3|
3 3|789
Estadística
Seguramente se preguntará por qué lo hace en ocho troncos si nosotros lo hici-
mos en cuatro.
No hay un único gráfico de tronco y hojas para un determinado conjunto de da-
tos, es posible realizarlo de distintas maneras, según la necesidad, la claridad e,
incluso, la estética que se quiera presentar para la descripción del conjunto de
datos.
En este caso, Statgraphics Plus 5.1 propone un tronco para los valores entre 0,0
y 0,4 (0|24); otro para los valores entre 0,5 y 0,9 (0|5577899); otro para los
valores entre 1,0 y 1,4 (1|22244); otro para los valores entre 1,5 y 1,9 (1|569); y
así sucesivamente hasta los troncos definidos para los valores entre 3,0 y 3,4
(que no tiene hojas porque no se han observado valores en ese intervalo) y entre
3,5 y 3,9 (3|789).
En la primera columna aparecen las frecuencias acumuladas, pero no como esta-
mos acostumbrados, sino que se acumulan desde el menor valor hasta el tronco
que contiene al valor que está exactamente en el medio del conjunto de datos
(que más adelante estudiaremos y se llama mediana) y desde el mayor valor (ubi-
cado en el último renglón) hasta el tronco que contiene a la mediana. La frecuen-
cia correspondiente a este tronco es una frecuencia absoluta simple y se indica
entre paréntesis.
Iremos explicando cómo se han calculado las frecuencias en cada renglón:
Gráfico de puntos
Estadística
Para representar gráficamente variables de tipo cuantitativo, si el conjunto
de datos es pequeño, usaremos los gráficos de puntos o puntigramas, que nos
permiten distinguir claramente la variable y su frecuencia.
10
9
Frecuencia
8
7
6
5
4
3 l
2 l l l l l l
1 l l l l l l l l l l l l l l l l l l
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
2,0
2,2
2,3
2,4
2,5
2,6
2,7
2,8
2,9
3,0
3,2
3,3
3,4
3,5
3,6
3,7
3,8
3,9
4,0
0,1
1,0
1,2
1,3
1,4
1,5
1,6
1,7
1,8
1,9
2,1
3,1
1,1
Tiempo
Fuente: Datos hipotéticos
Tanto las variables discretas como las continuas, con un número grande de
valores, se suelen agrupar en intervalos al elaborar las tablas de frecuencias.
La primera decisión que hay que tomar para agrupar una variable es el núme-
ro de intervalos en que se debe dividir. No existe una regla fija, y en última ins-
tancia será un compromiso entre la pérdida de la información que supone el agru-
pamiento y la visión global y sintética que se persigue. Esta ‘flexibilidad’ para la
selección de la cantidad de intervalos puede provocar dudas o confusiones, es por
eso que Sturgess da una fórmula para quien no quiera o no pueda decidir la canti-
dad de clases a utilizar.
Estadística
§ Máximo (xmáx): se llama máximo de una variable estadística al mayor valor
que toma la variable en toda la serie estadística.
§ Mínimo (xmín): se llama mínimo de una variable estadística al menor valor que
toma la variable en toda la serie estadística.
§ Recorrido (R): es la diferencia entre el máximo y el mínimo en una serie
estadística.
§ Clase: se llama clase a cada uno de los intervalos en que podemos dividir el
recorrido de la variable estadística. Los intervalos pueden o no ser de la
misma amplitud.
§ Límite superior de la clase (Ls): es el máximo valor del intervalo.
§ Límite inferior de la clase (Li): es el mínimo valor del intervalo.
§ Marca de clase (x i): es el punto medio de cada clase y es el promedio entre
los extremos del intervalo.
§ Cantidad de intervalos (k): se obtiene a partir de la fórmula de Sturges,
que está dada por: 1 + 3,[Link] n. Para tamaños de muestra pequeños tam-
bién es útil utilizar √ n (raíz cuadrada de n), aunque la fórmula de Sturges
es válida para todos los casos.
§ Longitud de intervalos (l): es la diferencia entre el límite superior y el lími-
te inferior de la clase.
ž Ejemplo:
Analizaremos el ejemplo de las estaturas de los estudiantes universitarios (este
conjunto de datos será tomado como ejemplo de aquí en adelante)
150 160 161 160 160 172 162 160 172 151
161 172 160 169 169 176 160 173 184 172
160 170 153 167 167 175 166 173 169 178
170 179 175 174 160 174 149 162 161 168
170 173 156 159 154 156 160 166 170 169
163 168 171 178 179 164 176 163 182 162
Estadística
168 168 169 169 169 169 170 170 170 170
171 172 172 172 172 173 173 173 174 174
175 175 176 176 178 178 179 179 182 184
§ Determinar el tamaño de muestra
n = 60
§ Reconocer el máximo y el mínimo
xmáx = 184 xmín = 149
§ Calcular el alcance o recorrido
R = x máx - xmín = 184 - 149 = 35
§ Calcular la cantidad de intervalos
k = 1 + 3,[Link] n = 1 + 3,3 . log 60 ≈ 6,87 ⇒ k = 7 (El valor de k siempre debe ser redon-
deado a un número entero inferior o superior. Lo usual es hacer el redondeo matemático.)
§ Calcular la longitud de cada intervalo
l = R / k = 35 / 7 = 5 (Si el valor de l resultara ser un número decimal, hay que realizar un
redondeo por exceso, con la cantidad de posiciones decimales que se deseen. Por ejemplo,
si diera 6,270791, se puede redondear a 6,28 ó 6,3 ó 7, entre otras opciones, pero nunca
6,27 ó 6,2 ó 6.)
§ Armar una tabla con los intervalos obtenidos, las marcas de clase y las fre-
cuencias correspondientes
149 150 151 153 154 156 156 159 160 160
160 160 160 160 160 160 160 161 161 161
162 162 162 163 163 164 166 166 167 167
168 168 169 169 169 169 170 170 170 170
171 172 172 172 172 173 173 173 174 174
175 175 176 176 178 178 179 179 182 184
Nota 1: Como el límite superior de cada clase coincide con el límite inferior de la siguiente,
adoptamos como criterio que los intervalos se suponen semiabiertos por la dere-
cha, es decir, en cada clase se incluyen los valores de la variable que sean mayores
o iguales al límite superior, pero estrictamente menores que el límite superior.
Estadística
Nota 2: Como excepción al criterio adoptado, en la última clase, el intervalo es cerrado en
ambos extremos, si no fuera así, el valor máximo quedaría fuera de los intervalos.
Nota 3: En las frecuencias relativas (fr i), se debe redondear de tal manera que la suma dé
uno.
Histograma
20
Cantidad de alumnos
15
10
0 //
147 152 157 162 167 172 177 182 187
144 149 154 159 164 169 174 179 184
189
Polígono de frecuencias
Estadística
remos la poligonal, uniendo los puntos medios del intervalo anterior al primero de
nuestra muestra y posterior al último de nuestra muestra.
20
Cantidad de alumnos
15
10
0 //
147 152 157 162 167 172 177 182 187
144 149 154 159 164 169 174 179 184 189
20
Cantidad de alumnos
15
10
0 //
147 152 157 162 167 172 177 182 187
144 149 154 159 164 169 174 179 184 189
Ojiva
Estadística
con segmentos los puntos cuyas coordenadas son: la abscisa correspondiente al
extremo superior de cada clase y la ordenada correspondiente a la frecuencia
acumulada (relativa o absoluta) hasta dicha clase.
70
60
Frecuencia acumulada
50
40
30
20
10
0 //
139 144 149 154 159 164 169 174 179 184 189 194 199 204
C. Patrón de comportamiento
Estadística
Ejemplo de distribución unimodal:
6
Frecuencia
0
0 1 2 3 4 5 6 7 8 9 10 11
Calificación
7
Frecuencia
0 1 2 3 4 5 6 7 8 9 10 11
Calificación
Estadística
7
5
Frecuencia
0
0 1 2 3 4 5 6 7 8 9 10 11
Calificación
En estos casos
diremos que...
No hay moda.
Curso A
Estadística
10
8
Frecuencia
0 1 2 3 4 5 6 7 8 9 10 11
Calificación
Curso B
8
Frecuencia
0
0 1 2 3 4 5 6 7 8 9 10 11
Calificación
Curso C
Calificación obtenida por los alumnos en un curso de Estadística
20
15
Frecuencia
10
0
0 1 2 3 4 5 6 7 8 9 10 11
Calificación
Estadística
Curso B se llama asimétrica a derecha o positivamente asimétrica y la del Curso
C, asimétrica a izquierda o negativamente asimétrica.
Para pensar
71.67%
50
Estadística
porcentaje
40
30
20
10
0
1 2 3
1: POC O 2: FR ECUENTEMENTE 3: SISTEMÁTICAMENTE
16
60
12
40
8
4 20
0 0
34 36 38 40 42 44 46 48 34 37 40 43 46 49
Calzado Calzado
Distribución de la Estatura de los alumnos (cm)
--------------------------------------------------------------------------------
Límite de Clase Marca Frecuencias Acumulativa
Clase Inferior Superior de Clase Absoluta Relativa Absoluta Relativa
--------------------------------------------------------------------------------
por debajo de 150.0 0 0.0000 0 0.0000
1 150.0 156.25 153.125 3 0.0500 3 0.0500
2 156.25 162.5 159.375 14 0.2333 17 0.2833
3 162.5 168.75 165.625 17 0.2833 34 0.5667
4 168.75 175.0 171.875 15 0.2500 49 0.8167
5 175.0 181.25 178.125 5 0.0833 54 0.9000
6 181.25 187.5 184.375 5 0.0833 59 0.9833
7 187.5 193.75 190.625 1 0.0167 60 1.0000
8 193.75 200.0 196.875 0 0.0000 60 1.0000
sobre 200.0 0 0.0000 60 1.0000
--------------------------------------------------------------------------------
frecuencia de clase
15
Estadística
12
9
6
3
0
150 160 170 180 190 200
Estatura
Hemos visto que los datos de una muestra pueden ser representados gráfi-
camente, dando una idea global del conjunto de datos analizado.
La representación gráfica de los datos es una primera incursión en el análi-
sis de datos, pero tiene sus limitaciones. Si se desea describir más profundamen-
te el conjunto de datos no siempre es fácil hacerlo a partir de un gráfico, e in-
cluso, no es fácil comparar algunos conjuntos de datos. Por esto, es fundamental
resumir los datos.
Vimos que podíamos reducir los datos a una forma más compacta, compren-
sible y comunicable por la distribución de frecuencias.
Estadística
nes de una clase es una estadística . Pero, a menudo, necesitamos medidas des-
criptivas en forma de números que pueden concentrar mejor la atención en varias
propiedades de un conjunto de datos que se investiga.
En realidad, raras veces observamos o medimos poblaciones enteras, por
esto, nos dedicaremos a la descripción de conjuntos de datos, en términos de
muestras.
Media Aritmética
Estadística
mético de éstas.
§ La media aritmética es el valor que tomaría la variable si estuviera unifor-
memente repartida entre todos los individuos que forman la muestra (co-
rresponde al concepto de centro de gravedad en Física).
§ La media aritmética considera todos los datos. Sin embargo, debido a que
todas las observaciones se emplean para el cálculo, el valor de la media pue-
de afectarse de manera desproporcionada por la existencia de valores
extremos.
§ Cuando usemos el término media, nos referimos a la media aritmética.
Mediana
Estadística
promedio aritmético, de los valores de las observaciones que ocupan los lu-
gares n/2 y (n+2)/2 del conjunto ordenado.
§ Por ejemplo:
En el conjunto de datos: 5, 3, 8, 2, 7, deberíamos ordenar los datos, o sea,
2, 3, 5, 7, 8, y observar cuál es el valor que está en el medio. Luego, diremos
que 5 es la mediana de este conjunto de datos.
En el conjunto de datos: 5, 7, 8, 1, deberíamos ordenar los datos, o sea, 1, 5,
7, 8, y observar cuál es el valor que está en el medio. Pero no hay un único
valor central porque hay un número par de elementos, entonces, diremos que
la mediana es el valor promedio entre los dos valores centrales, es decir,
entre 5 y 7. Luego, 6 es la mediana de este conjunto de datos.
En el cálculo de la mediana la existencia de valores extremos no afecta su
valor.
En el ejemplo anterior, si en lugar del conjunto de datos 2, 3, 5, 7, 8, tuvié-
ramos el conjunto 2, 3, 5, 7, 8976, la mediana seguiría siendo 5, al igual que
en el conjunto -1824, 5, 7, 8, seguiría siendo 6.
§ Por lo tanto, si un conjunto contiene valores extremos y un número alto de
observaciones, la mediana puede ser una medida de tendencia central mucho
más deseable que la media aritmética.
Ventajas de la mediana
C Los valores extremos no afectan a la mediana tan intensamente como a la
media.
C La mediana es fácil de entender y se puede calcular a partir de cualquier
tipo de datos (excepto datos cualitativos nominales), incluso a partir de da-
tos agrupados con clases de extremo abierto, a menos que la clase mediana
sea justamente una de las de extremo abierto.
Desventajas de la mediana
D Ciertos procedimientos estadísticos que utilizan la mediana son más comple-
jos que aquellos que utilizan la media.
D Debido a que la mediana es una posición promedio, debemos ordenar los da-
tos antes de llevar a cabo cualquier cálculo, lo cual consume mucho tiempo si
el conjunto de datos es muy grande.
Estadística
§ El modo es la única medida de tendencia central que puede ser calculada
para variables cualitativas nominales.
§ El valor de la moda no se ve afectada por la existencia de valores extremos.
§ Puede suceder que en una serie de datos haya más de una moda. En tal caso
se denomina bimodal, trimodal o multimodal, según el número de modas que
presente.
Ventajas de la moda
C La moda, al igual que la mediana, se puede utilizar como una posición central
para datos tanto cualitativos como cuantitativos.
C La moda no se ve mayormente afectada por los valores extremos. Incluso si
los valores extremos son muy altos o muy bajos, nosotros escogemos el va-
lor más frecuente del conjunto de datos como el valor modal. Podemos utili-
zar la moda sin importar qué tan grandes o qué tan pequeños sean los valo-
res del conjunto de datos, e independientemente de cuál sea su dispersión.
C Podemos calcular la moda aun cuando una o más clases sean de extremo
abierto.
Desventajas de la moda
D A menudo, no existe un valor modal debido a que el conjunto de datos no
contiene valores que se presenten más de una vez.
D Cuando los conjuntos de datos contienen muchas modas, resultan difíciles
de interpretar y comparar.
ž Ejemplo:
Retomaremos el ejemplo de las estaturas de los alumnos universitarios. En primer
lugar, como datos individuales y luego como datos agrupados.
150 160 161 160 160 172 162 160 172 151
161 172 160 169 169 176 160 173 184 172
160 170 153 167 167 175 166 173 169 178
170 179 175 174 160 174 149 162 161 168
170 173 156 159 154 156 160 166 170 169
163 168 171 178 179 164 176 163 182 162
Datos individuales
xi fi Fi xi fi Fi
149 1 1 168 2 32
Estadística
150 1 2 169 4 36
151 1 3 170 4 40
153 1 4 171 1 41
154 1 5 172 4 45
156 2 7 173 3 48
159 1 8 174 2 50
160 9 17 175 2 52
161 3 20 176 2 54
162 3 23 178 2 56
163 2 25 179 2 58
164 1 26 182 1 59
166 2 28 184 1 60
167 2 30 n=60
Media aritmética
Como la media aritmética de las observaciones x1, x 2, ..., x n es el promedio arit-
mético de éstas, se denota por:
∑i [Link]
x=
n
Para datos individuales, los xi son todos los posibles valores que pueda tomar la
variable en estudio y las fi, las frecuencias absolutas correspondientes.
∑i xi .fi x .f f
Trabajando la expresión anterior, x = = ∑ i i = ∑ xi . i
n i n i n
Al dividir fi por n, obtenemos fi/n, que es la frecuencia relativa correspondiente
a cada valor x i. Esta frecuencia relativa es usualmente llamada peso de cada valor
xi de la variable estudiada.
Siguiendo la notación del inglés, este peso se indica como wi, por lo que fi/n = wi.
Así, y continuando el trabajo en la expresión de la media aritmética, tenemos:
∑i xi .fi x .f f
x= = ∑ i i = ∑ xi . i = ∑ xi .wi
n i n i n i
∑ [Link]
149.1+...+166.2+...+184.1 9990
i
x= = = = 166,55 cm
n 60 60
Estadística
Interpretación: La estatura promedio de los estudiantes es de 166,55 cm
Mediana
Como n es par, para saber la posición del valor de la mediana, buscamos las posi-
ciones n/2 y (n+2)/2, luego, se ven los valores de variable correspondientes y se
calcula el promedio entre ellos, obteniendo así el valor de la mediana que deja por
encima y por debajo de él, el 50% de las observaciones.
La posición n/2 = 60/2 = 30º corresponde al valor 167 cm
La posición (n+2)/2 = (60+2)/2 = 31º corresponde al valor 168 cm
Luego, la mediana es el valor promedio entre 167 cm y 168 cm, es decir:
x% = 167,50 cm
Interpretación: El 50% de los estudiantes universitarios observados miden
167,50 cm o menos y el otro 50% miden 167,50 cm o más.
xi fi Fi
149 1 1
. . .
. . .
. . .
159 1 8
160 9 17 ï Máxima frecuencia absoluta ⇒ Valor modal
161 3 20
. . .
. . .
. . .
184 1 60
n = 20
El cálculo de la moda para datos individuales es sencillo, basta con buscar el valor
de la variable que presente la máxima frecuencia absoluta (f i).
Luego, la moda es:
Mo= 160 cm
Interpretación: La estatura de los estudiantes universitarios observados que se
presenta con mayor frecuencia es 160 cm.
Datos agrupados
Intervalos xi fi Fi
Estadística
[154 , 159) 156,5 3 7
[159 , 164) 161,5 18 25
[164 , 169) 166,5 7 32
[169 , 174) 171,5 16 48
[174 , 179) 176,5 8 56
[179 , 184] 181,5 4 60
n=60
Media aritmética
Para datos agrupados basta con extender la definición, considerando a los xi co-
mo los puntos medios de cada intervalo, también llamados marca de clase, y sien-
do las fi, las frecuencias absolutas correspondientes a cada clase.
∑ xi .fi 151,5.4 + ... + 181,5.4 10030
x= i = = = 167,17 cm
n 60 60
Interpretación: La estatura promedio de los estudiantes es de 167,17 cm
Mediana
Intervalos xi fi Fi
[149 , 154) 151,5 4 4
[154 , 159) 156,5 3 7
[159 , 164) 161,5 18 25
[164 , 169) 166,5 7 32 ï Clase mediana
[169 , 174) 171,5 16 48
[174 , 179) 176,5 8 56
[179 , 184] 181,5 4 60
n=60
Estadística
Siendo:
Linf x~ : límite inferior de la clase mediana.
Fant x~ : frecuencia acumulada correspondiente a la clase anterior a la clase
mediana.
f x~ : frecuencia absoluta correspondiente a la clase mediana.
l : longitud de la clase mediana.
n : tamaño de la muestra.
n − Fant x~ 60
− 25
~ = L inf x~ + l . 2
x = 164 + 5 . 2 = 167,57 cm
fx
~
7
Interpretación: El 50% de los estudiantes universitarios observados miden
167,57 cm o menos y el otro 50% miden 167,57 cm o más.
Nota 2: La mediana puede calcularse a partir del gráfico de la distribución acumulativa (ojiva),
aunque en forma aproximada.
Es conveniente realizar la ojiva colocando en ordenadas la frecuencia acumulada por-
centual. Ubicar el 50% y ver a qué valor de abscisa corresponde.
120%
Frecuencia acumulada porcentual
100%
80%
60%
40%
20%
0% //
159 144 149 154 159 164 169 174 179 184 189 194 199 204
Mediana
Intervalos xi fi Fi
Estadística
[154 , 159) 156,5 3 7
[159 , 164) 161,5 18 25 ï Clase modal
[164 , 169) 166,5 7 32
[169 , 174) 171,5 16 48
[174 , 179) 176,5 8 56
[179 , 184] 181,5 4 60
n=60
15
Mo = x Mo = 159 + 5 . = 161,88 cm
15 + 11
Siendo:
∆1 = 18 - 3 = 15 ∆2 = 18 - 7 = 11
Interpretación: La estatura de los estudiantes universitarios observados
que se presenta con mayor frecuencia es 161,88 cm.
Para pensar
Estadística
La siguiente es la distribución de los salarios de los empleados de una pequeña fá-
brica:
Salario Cantidad de empleados
$10000 1
$2500 1
$1000 1
$500 2
$200 4
Los empleados realizan una huelga para pedir mejora de sus salarios. Un periodista
realiza una nota preguntando cuál es el salario medio.
¿Qué medida de tendencia central daría usted si...
a) ... fuera el dueño?
b) ... fuera un representante sindical?
c) ... fuera un investigador científico?
B. Medidas de Dispersión
Las medidas de tendencia central nos indican los valores alrededor de los
cuales se distribuyen los datos.
Las medidas de dispersión son estadísticos que nos proporcionan una medida
del mayor o menor agrupamiento de los datos respecto a los valores de tendencia
central.
Todas ellas son valores mayores o iguales a cero, indicando un valor cero, la
ausencia de dispersión.
Estadística
3 17 3 1 3 7
4 17 4 1 4 7
5 2 5 3 5 7
6 1 6 16 6 6
20 20 20
15 15 15
Frecuencia
Frecuencia
Frecuencia
10 10 10
5 5 5
0 0 0
1 2 3 4 5 6 1 2 3 4 5 6 1 2 3 4 5 6
Puntuación Puntuación Puntuación
Las tres distribuciones tienen la misma media aritmética, 2,5 puntos, ¿pero
podemos afirmar que hay homogeneidad entre los grupos?. Gráficamente vemos
que el valor de la media aritmética no es suficiente para describir cada una de las
situaciones.
Para precisar mejor lo que denominamos como ‘dispersión’ podemos calcular
unos estadísticos que nos den información, sin necesidad de representar los da-
tos.
Rango o Recorrido
Estadística
mer decil, recibe el nombre de recorrido interdecil y toma el 80% central
de la distribución.
Varianza
Desviación Estándar
∑ (x − x ) .fi
2
i
i
s =
n−1
§ A menudo se prefiere la desviación estándar con relación a la varianza, por-
que se expresa en las mismas unidades físicas de las observaciones.
§ La desviación estándar nos permite determinar, con un buen grado de preci-
sión, dónde están localizados los valores de una distribución de frecuencias
con relación a la media. Podemos hacer esto de acuerdo con un teorema es-
tablecido por el matemático ruso P. L. Chebyshev (1821 - 1894).
§ El teorema de Chebyshev dice que no importa qué forma tenga la distribu-
ción, al menos el 75% de los valores caen dentro de ± 2 desviaciones están-
dar a partir de la media de la distribución, y al menos 89% de los valores
caen dentro de ± 3 desviaciones estándar a partir de la media.
§ Podemos medir aún con más precisión el porcentaje de observaciones que
caen dentro de un alcance específico de curvas simétricas con forma de
campana. En estos casos, podemos decir que:
• Aproximadamente 68% de los valores de la población cae dentro de ± 1
desviación estándar a partir de la media.
Estadística
Coeficiente de Variación
§ Muchas veces nos interesa comparar la variabilidad entre dos o más conjun-
tos de datos.
§ Puede hacerse esto con sus respectivas varianzas o desviaciones estándar
cuando las variables se dan en las mismas unidades, y sus medias son
aproximadamente iguales.
§ Cuando no sucede esto, utilizamos una medida relativa de variabilidad llama-
da coeficiente de variación.
§ El coeficiente de variación es el cociente entre la desviación estándar y la
media aritmética.
s
CV =
x
§ Esta medida es independiente de las unidades utilizadas.
§ El coeficiente de variación es una medida de dispersión relativa, nos indica
qué proporción de la media representa la desviación estándar. Por esto, sue-
le expresarse en forma porcentual.
§ A partir de la expresión s = CV . x , podemos interpretar a la desviación
estándar en términos de la media aritmética.
§ Un inconveniente del coeficiente de variación es que deja de ser útil cuando
x está próxima a cero.
ž Ejemplo:
Retomaremos el ejemplo de las estaturas de los alumnos universitarios, en primer
lugar, como datos individuales y luego como datos agrupados.
150 160 161 160 160 172 162 160 172 151
161 172 160 169 169 176 160 173 184 172
160 170 153 167 167 175 166 173 169 178
170 179 175 174 160 174 149 162 161 168
170 173 156 159 154 156 160 166 170 169
163 168 171 178 179 164 176 163 182 162
Datos individuales
xi fi Fi xi fi Fi
Estadística
149 1 1 168 2 32
150 1 2 169 4 36
151 1 3 170 4 40
153 1 4 171 1 41
154 1 5 172 4 45
156 2 7 173 3 48
159 1 8 174 2 50
160 9 17 175 2 52
161 3 20 176 2 54
162 3 23 178 2 56
163 2 25 179 2 58
164 1 26 182 1 59
166 2 28 184 1 60
167 2 30 n=60
Rango o Recorrido
R = xmáx - xmín = 184 cm – 149 cm = 35 cm
Interpretación: La amplitud de la muestra es de 35 cm.
Varianza
∑ (x )
2
i − x .fi 2 2 2
(149 − 166,55) .1 + ... + (166 − 166,55) .2 + ... + (184 − 166,55) .1
s2 = i
= =
n −1 60 − 1
= 66,18 cm 2
Interpretación: El promedio de los cuadrados de las desviaciones de las estatu-
ras respecto a la media aritmética es de 66,18 cm 2.
Desviación estándar
∑ (x − x ) .f
2
i i
i
s = = 8,14 cm
n −1
Interpretación: Las estaturas se desvían, en promedio, respecto a la media arit-
mética, en 8,14 cm.
Coeficiente de variación
s 8,14 cm
CV = = = 0,0489 CV% = 4,89%
x 166,55 cm
Interpretación: La desviación estándar representa un 4,89% de la media aritmé-
tica.
Datos agrupados
Intervalos xi fi Fi
Estadística
[149 , 154) 151,5 4 4
[154 , 159) 156,5 3 7
[159 , 164) 161,5 18 25
[164 , 169) 166,5 7 32
[169 , 174) 171,5 16 48
[174 , 179) 176,5 8 56
[179 , 184] 181,5 4 60
n=60
Rango o Recorrido
R = xmáx - xmín = 184 cm – 149 cm = 35 cm
Interpretación: La amplitud de la muestra es de 35 cm.
Varianza
∑ (x )
2
i − x .fi 2 2 2
(151,5 − 167,17) .4 + ... + (166,5 − 167,17) .7 + ... + (181,5 − 167,17) .4
s2 = i
= =
n −1 60 − 1
= 63,11 cm 2
Interpretación: El promedio de los cuadrados de las desviaciones de las estatu-
ras respecto a la media aritmética es de 63,11 cm 2.
Desviación estándar
∑ (x − x ) .f
2
i i
i
s = = 7,94 cm
n −1
Interpretación: Las estaturas se desvían, en promedio, respecto a la media arit-
mética, en 7,94 cm.
Coeficiente de variación
s 7,94 cm
CV = = = 0,0475
x 167,17 cm
CV% = 4,75%
Interpretación: La desviación estándar representa un 4,75% de la media aritmé-
tica.
C. Puntuación Z
Estadística
servación en particular según el lugar que ocupe dentro del grupo de observacio-
nes en conjunto, es decir, aprenderemos a describir una observación según la
misma se encuentre por encima o por debajo del promedio y según a qué distancia
por debajo o por encima del mismo esté ubicada.
ž Ejemplo:
Supongamos que nos informan que Mariano, un estudiante del grupo de alumnos
universitarios que venimos analizando, mide 174 cm.
Si desconociéramos las estaturas del grupo sería difícil decir si Mariano es alto o
bajo, respecto al grupo de alumnos universitarios. Pero nosotros sabemos que la
estatura media es de 166,55 cm y el desvío estándar es de 8,14 cm. Con estos
datos, queda claro que Mariano tiene una estatura superior al promedio. También
podemos ver que la estatura de Mariano está 7,45 cm por encima de la media.
Supongamos que el conjunto de datos analizado es nuestra población, entonces la
media aritmética se debería indicar como µ = 166,55 cm y la desviación están-
dar como σ = 8,14 cm.
µ - 3σ µ - 2σ µ - 1σ µ µ + 1σ µ + 2σ µ + 3σ
Estatura
media
Estatura
de Mariano
ž Ejemplo:
Estadística
Volvamos a nuestro ejemplo de las estaturas de los alumnos universitarios.
§ Mariano, que mide 174 cm, tiene una puntuación Z de +0,92, es decir, Ma-
riano está a 0,92 desvíos estándar por encima de la media.
§ Florencia, que mide 160 cm, tiene una puntuación Z de -0,80, es decir, Flo-
rencia está a 0,80 desvíos estándar por debajo de la media.
§ Pedro, que mide 182 cm, tiene una puntuación Z de +1,90, es decir, Pedro
está a 1,90 desvíos estándar por encima de la media.
§ Julieta, que mide 154 cm, tiene una puntuación Z de -1,54, es decir, Julie-
ta está a 1,54 desvíos estándar por debajo de la media.
Estatura Estatura Estatura Estatura Estatura
Julieta Florencia media Mariano Pedro
150
153
156
159
162
165
168
171
174
177
180
183
+0,92
+1,90
-1,54
-0,80
Estadística
¿Cómo convertir una puntuación Z en puntuación bruta?
Cuartiles
§ Al dividir los datos en cuatro partes iguales, quedan definidos los cuartiles:
Q1, Q2 y Q3.
Estadística
por interpolación lineal el valor del cuartil.
§ La mediana es el cuartil 2.
Deciles
§ Al dividir los datos en diez partes iguales, quedan definidos los deciles: D1,
D2, ..., D9.
§ La fórmula para obtener el lugar del k-ésimo decil, siendo n el número de
observaciones, es: ºDk = k.(n+1)/10 y así, buscando en la lista ordenada de
los valores o en la columna de la frecuencia acumulada, se ve el valor de la
variable correspondiente. En caso que ºDk no sea un valor entero se calcula
por interpolación lineal el valor del decil.
§ La mediana es el decil 5.
Percentiles
§ Al dividir los datos en cien partes iguales, quedan definidos los percentiles:
P1, P2, ..., P99.
§ La fórmula para obtener el lugar del k-ésimo percentil, siendo n el número
de observaciones, es: ºPk = k.(n+1)/100 y así, buscando en la lista ordena-
da de los valores o en la columna de la frecuencia acumulada, se ve el valor
de la variable correspondiente. En caso que ºPk no sea un valor entero se
calcula por interpolación lineal el valor del percentil.
§ La mediana es el percentil 50.
§ El primer cuartil es el percentil 25.
§ El tercer cuartil es el percentil 75.
§ El cuarto decil es el percentil 40.
§ El ...................... decil es el percentil 70.
§ El octavo decil es el percentil ........ .
ž Ejemplo:
Retomaremos el ejemplo de las estaturas de los alumnos universitarios, en primer
lugar, como datos individuales y luego como datos agrupados.
150 160 161 160 160 172 162 160 172 151
161 172 160 169 169 176 160 173 184 172
160 170 153 167 167 175 166 173 169 178
Estadística
170 179 175 174 160 174 149 162 161 168
170 173 156 159 154 156 160 166 170 169
163 168 171 178 179 164 176 163 182 162
Datos individuales
ž Ejemplo:
A modo de ejemplo, calcularemos el primer cuartil (Q1), el octavo decil (D8) y el
percentil 43 (P 43) en el ejemplo de las estaturas de los estudiantes universita-
rios.
1º 2º 3º 4º 5º 6º 7º 8º 9º 10º
149 150 151 153 154 156 156 159 160 160
11º 12º 13º 14º 15º 16º 17º 18º 19º 20º
160 160 160 160 160 160 160 161 161 161
21º 22º 23º 24º 25º 26º 27º 28º 29º 30º
162 162 162 163 163 164 166 166 167 167
31º 32º 33º 34º 35º 36º 37º 38º 39º 40º
168 168 169 169 169 169 170 170 170 170
41º 42º 43º 44º 45º 46º 47º 48º 49º 50º
171 172 172 172 172 173 173 173 174 174
51º 52º 53º 54º 55º 56º 57º 58º 59º 60º
175 175 176 176 178 178 179 179 182 184
Primer cuartil (Q 1)
La posición del primer cuartil es ºQ 1 = 1.(n+1)/4 = 1.(60+1)/4 = 15,25º
Como el valor 15,25 no existe, se realiza interpolación lineal entre los valores co-
rrespondientes a las posiciones 15º y 16º:
Estadística
Posición Valor
15º → 160
0,25 15,25º → Q1 x
1 16º → 160 0
Posición Valor
48º → 173
0,8 48,8º → D8 x
1 49º → 174 1
0,8 x
= ⇒ x = 0,8
1 1
Luego, el octavo decil toma el valor 173,8 cm.
D8 = 173,80 cm
Interpretación: Significa que el 80% de las estaturas de los estudiantes univer-
sitarios observados son inferiores o iguales a 173,80 cm y el 20% restante son
mayores o iguales a 173,80 cm.
Percentil 43 (P 43)
La posición del percentil 43 es ºP43 = 43.(n+1)/100 = 43.(60+1)/100 = 26,23º
Como el valor 26,23 no existe, se realiza interpolación lineal entre los valores
correspondientes a las posiciones 26º y 27º:
Posición Valor
26º → 164
0,23 26,23º → P43 x
1 27º → 166 2
Estadística
0,23 x
= ⇒ x = 0,46
1 2
Luego, el percentil 43 es el valor 164,46 cm.
P43 = 164,46 cm
Interpretación: Significa que el 43% de las estaturas de los estudiantes univer-
sitarios observados son inferiores o iguales a 164,46 cm y el 57% restante son
mayores o iguales a 164,46 cm.
Datos agrupados
§ Calcular el orden o posición del estadístico que se desea conocer, con la mis-
ma fórmula usada para datos individuales.
§ Buscar el valor obtenido como orden del estadístico en la columna de fre-
cuencia acumulada (F i), si no está, tomar el inmediato superior y llamar a la
clase correspondiente clase del cuartil, clase del decil o clase del percentil
calculado en cada caso.
§ Diremos que el estadístico de orden pertenece a este intervalo, pero es ne-
cesaria una mayor precisión. Por esto buscaremos el valor del estadístico
dentro de la clase que lo contiene.
§ El valor de los estadísticos se obtienen mediante las fórmulas:
k.n
− Fant Q k
Qk = Linf Qk + l . 4
fQ
k
Siendo:
Linf Qk : límite inferior de la clase del cuartil k.
Fant Qk : frecuencia acumulada correspondiente a la clase anterior a la clase
del cuartil k.
fQk : frecuencia absoluta correspondiente a la clase del cuartil k.
l : longitud de la clase del cuartil k.
n : tamaño de la muestra.
k.n
− Fant Dk
Dk = Linf Dk + l . 10
f Dk
Siendo:
Estadística
Linf Dk : límite inferior de la clase del decil k.
Fant Dk : frecuencia acumulada correspondiente a la clase anterior a la clase
del decil k.
fDk : frecuencia absoluta correspondiente a la clase del decil k.
l : longitud de la clase del decil k.
n : tamaño de la muestra.
k.n
− Fant Pk
Pk = Linf Pk + l . 100
fPk
Siendo:
Linf Pk : límite inferior de la clase del percentil k.
Fant Pk : frecuencia acumulada correspondiente a la clase anterior a la clase
del percentil k.
fPk : frecuencia absoluta correspondiente a la clase del percentil k.
l : longitud de la clase del percentil k.
n : tamaño de la muestra.
ž Ejemplo:
A modo de ejemplo, calcularemos el tercer cuartil (Q3), el segundo decil (D2) y el
percentil 95 (P 95) en la serie de datos correspondiente a las estaturas de los
alumnos universitarios.
Intervalos xi fi Fi
Tercer cuartil (Q 3)
Estadística
Como el número obtenido en ºQ 3 no existe, se toma el intervalo inmediato supe-
rior.
La clase del tercer cuartil es [169 ; 174).
Una vez identificada la clase del tercer cuartil, calculamos el valor del tercer
cuartil dentro del intervalo, que se halla mediante la fórmula:
3.n
− Fant Q
45 − 32
3
Interpretación: El 75% de las estaturas de los estudiantes universitarios obser-
vados son iguales o inferiores a 173,06 cm y el otro 25% son iguales o superiores
a 173,06 cm.
D2 = L inf D2 + l . 10 = 160,39 cm
fD 18
2
Interpretación: El 20% de las estaturas de los estudiantes universitarios obser-
vados son iguales o inferiores a 160,39 cm y el otro 80% son iguales o superiores
a 160,39 cm.
Estadística
percentil noventa y cinco dentro del intervalo, que se halla mediante la fórmula:
95.n
− Fant P 57 − 56
= 179 + 5 .
95
Interpretación: El 95% de las estaturas de los estudiantes universitarios obser-
vados son iguales o inferiores a 180,25 cm y el otro 5% son iguales o superiores a
180,25 cm.
Nota: Las medidas de posición no centrada pueden calcularse a partir del gráfico de la distribu-
ción acumulada (ojiva), aunque de manera aproximada.
Es conveniente realizar la ojiva colocando en ordenadas la frecuencia acumulada porcen-
tual. Ubicar el porcentaje deseado en el eje de ordenadas y ver a qué valor de abscisa
corresponde.
Decil 2 Percentil
95
Mediana Cuartil 3
Ejercicio integrador
Estadística
Dada la siguiente tabla, correspondiente a las edades de un grupo de personas:
Edad Cantidad de personas
25 1
26 2
27 3
28 4
29 6
30 5
31 3
32 1
Calcular e interpretar:
a) La media aritmética
b) La mediana
c) El modo
d) El primer cuartil
e) El cuarto decil
f) El percentil 82
g) La varianza y la desviación estándar
h) El coeficiente de variación
Realizar el polígono de frecuencia correspondiente.
Calcular e interpretar:
a) La media aritmética
x = 28,76 años.
La edad promedio en este grupo de personas es, aproximadamente, de
Estadística
29 años.
b) La mediana
ºMe = (n+1) / 2 = 26 / 2 = 13 ⇒ Me = 29 años
Esto indica que el 50% de las personas tienen 29 años o menos y el otro
50% de las personas tienen 29 años o más.
c) El modo
Mo = 29 años
Esta edad es la más frecuente porque se presentó seis veces.
d) El primer cuartil
ºQ1 = (n+1) / 4 = 26 / 4 = 6,25 ⇒ Q1 = 28 años
Esto indica que el 25% de las personas tienen 28 años o menos y el otro
75% de las personas tienen 28 años o más.
e) El cuarto decil
ºD4 = 4.(n+1) / 10 = 4 . 26 / 10 = 10,4 ⇒ D4 = 29 años
Esto indica que el 40% de las personas tienen 29 años o menos y el otro
60% de las personas tienen 29 años o más.
f) El percentil 82
ºP82 = 82.(n+1) / 100 = 82 . 26 / 100 = 21,32 ⇒ P82 = 31 años
Esto indica que el 82% de las personas tienen 31 años o menos y el otro
18% de las personas tienen 31 años o más.
h) El coeficiente de variación
s 1,7626
CV = = = 0,0613
x 28,76
El desvío estándar representa el 6,13% de la media.
Estadística
7
6
5
4
3
2
1
0
X
25 26 27 28 29 30 31 32
A trabajar solos...
42,3 35,7 47,5 31,2 28,3 37,0 41,3 29,3 32,4 41,3 34,3 35,2 43,0 36,3 35,7
41,5 43,2 30,7 38,4 46,5 43,2 31,7 36,8 43,6 45,2 32,8 30,7 36,2 34,7 35,3
Estadística
o Primer cuartil: Q 1
o Tercer cuartil: Q 3
o Rango intercuartílico: RI = Q3 - Q1
o REF1 = Q 1 - [Link]
o REF2 = Q 1 - 1,[Link]
o REF3 = Q 3 + 1,[Link]
o REF4 = Q 3 + [Link]
• Se traza una línea horizontal de longitud proporcional al recorrido de la va-
riable, que llamaremos eje. Sobre el eje se señalarán las subdivisiones que
se consideren necesarias, para representar los datos de la muestra.
• Paralelamente al eje se construye una caja rectangular con altura arbitraria
y cuya base abarca desde el primer cuartil hasta el tercer cuartil. Como ve-
mos, esta caja indica gráficamente el intervalo de variación de al menos el
50% de los valores centrales de la distribución.
• La caja se divide en dos partes, trazando una línea a la altura de la mediana.
Cada una de estas partes indica, pues, el intervalo de variabilidad de al me-
nos una cuarta parte de los datos.
• A la caja, así dibujada, se añaden dos guías paralelas al eje, que llamaremos
extensiones o bigotes, una de cada lado, de la siguiente forma:
o el primero de estos segmentos se prolonga, hacia la izquierda, desde el
primer cuartil (o sea, desde la caja) hasta el mínimo de la distribución
o hasta el valor (observado en la muestra) igual o inmediato superior a
la REF2, según cuál de estos valores sea mayor.
o el segundo de estos segmentos se prolonga, hacia la derecha, desde el
tercer cuartil (o sea, desde la caja) hasta el máximo de la distribución
o hasta el valor (observado en la muestra) igual o inmediato inferior a
la REF3, según cuál de estos valores sea menor.
• Si alguno de los valores observados en la muestra queda fuera del intervalo
cubierto por la caja y estas extensiones, se señala en el gráfico mediante un
asterisco o cualquier otro símbolo que lo represente como un punto.
• Estos datos son los llamados valores atípicos (‘outliers’), que son valores muy
alejados de los valores centrales de la distribución. Lo indicaremos con ¢.
• Si se observan valores menores que Q1 - [Link] (REF1) o valores mayores que
Q3 + [Link] (REF4), éstos son los llamados valores anómalos, que son valores
más alejados que los atípicos de los valores centrales de la distribución. Lo
indicaremos con á.
Estadística
+ ¢ ¢ á
ž Ejemplo:
A partir de nuestro ejemplo (estaturas de los estudiantes universitarios), cons-
truiremos el gráfico de caja y extensiones. El gráfico de caja y extensiones se
realiza sólo para datos individuales, ya que es necesario identificar, si fuera ne-
cesario, los valores atípicos.
• En primer lugar, anotaremos la información necesaria:
o Valor mínimo: x mín = 149 cm
o Valor máximo: x máx = 184 cm
o Mediana: x ~ 167,5 cm
=
o Media aritmética: x = 166,55 cm
o Primer cuartil: Q 1 = 160 cm
o Tercer cuartil: Q 3 = 172,75 cm
o Rango intercuartílico: RI = Q3 - Q1 = 12,75 cm
o REF1 = Q 1 - [Link] = 121,75 cm
o REF2 = Q 1 - 1,[Link] = 140,88 cm
o REF3 = Q 3 + 1,[Link] = 191,88 cm
o REF4 = Q 3 + [Link] = 211,00 cm
• Debemos elegir el máximo entre xmín = 149 cm y REF2 = 140,88 cm, que en
nuestro caso es 149 cm, y es el valor hasta donde llegará la extensión iz-
quierda.
• Debemos elegir el mínimo entre xmáx = 184 cm y REF3 = 191,88 cm, que en
nuestro caso es 184 cm, y es el valor hasta donde llegará la extensión dere-
cha.
• Por lo anterior vemos que en nuestra muestra no se presentan valores atípi-
cos ni valores anómalos.
149 151 153 155 157 159 161 163 165 167 169 171 173 175 177 179 181 183 185
Estadística
res atípicos, sugiriendo la necesidad de utilizar (o no) determinados esta-
dísticos.
§ El gráfico de caja y extensiones nos informa de la simetría o asimetría de la
distribución.
§ El gráfico de caja y extensiones se puede utilizar para comparar la misma
variable en dos muestras distintas.
ž Ejemplo:
Para verificar todas estas utilidades analizaremos una nueva serie estadística,
que contiene los pesos, en kilogramos, de un grupo de sesenta personas:
55 64 70 74 75 70 62 93 60 62 70 71
Varones
70 80 61 60 62 68 65 65 66 68 71 72
60 49 52 54 56 66 45 52 48 54 56 61
Mujeres 46 50 52 53 56 68 47 50 53 57 60 64
47 50 53 57 60 64 55 52 54 44 65 60
REF3 REF4
+ á
Estadística
44 46 48 50 52 54 56 58 60 62 64 66 68 70 72 74 76 78 80 82 84 86 88 90 92 94
Varones
• En primer lugar, tomaremos la muestra de los varones y anotaremos la
información necesaria:
o Valor mínimo: xmín = 55 kg
o Valor máximo: xmáx = 93 kg
o Mediana: x~ = 68 kg
o Media aritmética: x = 68,083 kg
o Primer cuartil: Q1 = 62 kg
o Tercer cuartil: Q3 = 71 kg
o Rango intercuartílico: RI = Q3 - Q1 = 9 kg
o REF1 = Q1 - [Link] = 35 kg
o REF2 = Q1 - 1,[Link] = 48,5 kg
o REF3 = Q3 + 1,[Link] = 84,5 kg
o REF4 = Q3 + [Link] = 98 kg
• Debemos elegir el máximo entre xmín = 55 kg y REF2 = 48,5 kg, que en nues-
tro caso es 55 kg, y es el valor hasta donde llegará la extensión izquierda.
• Debemos elegir el mínimo entre xmáx = 93 kg y REF3 = 84,5 kg, que en nues-
tro caso es 84,5 kg, y es el valor hasta donde llegará la extensión derecha.
• Por lo anterior, vemos que en la muestra de varones, se presenta un valor
atípico en el extremo superior de la muestra.
Mujeres
• Ahora tomaremos la muestra de las mujeres y anotaremos la información
necesaria:
o Valor mínimo: xmín = 44 kg
o Valor máximo: xmáx = 68 kg
o Mediana: x~ 54 kg
=
o Media aritmética: x = 54,722 kg
o Primer cuartil: Q 1 = 50 kg
o Tercer cuartil: Q 3 = 60 kg
o Rango intercuartílico: RI = Q3 - Q1 = 10 kg
o REF1 = Q1 - [Link] = 20 kg
o REF2 = Q 1 - 1,[Link] = 35 kg
o REF3 = Q 3 + 1,[Link] = 75 kg
o REF4 = Q 3 + [Link] = 90 kg
Estadística
• Debemos elegir el máximo entre xmín = 44 kg y REF2 = 35 kg, que en nuestro
caso es 44 kg, y es el valor hasta donde llegará la extensión izquierda.
• Debemos elegir el mínimo entre xmáx = 68 kg y REF3 = 75 kg, que en nuestro
caso es 68 kg, y es el valor hasta donde llegará la extensión derecha.
• Por lo anterior, vemos que en la muestra de mujeres, no se presenta valores
atípicos ni anómalos.
Mujeres
Varones
+ ¢
44 46 48 50 52 54 56 58 60 62 64 66 68 70 72 74 76 78 80 82 84 86 88 90 92 94
§ Si las variables en estudio son X e Y, donde X toma los valores x1, x 2, ..., x n e
Y toma los valores y1, y2, ..., y m. Podemos escribir los datos obtenidos de dis-
tintas maneras:
Estadística
x1 y1
x2 y2
M M
xi yi
M M
xn yn
y1 y2 ... yj ... ym
f .1 f .2 . . . f .j . . . f .m n
§ Los valores fij indican las frecuencias absolutas con que aparece el par ( x i ,
yj ). Estas frecuencias se llaman frecuencias conjuntas.
§ Los valores f i. indican la suma de las frecuencias absolutas correspondien-
tes a la i-ésima fila, es decir, las frecuencias correspondientes a X = xi. Es-
tas frecuencias se llaman frecuencias marginales. De forma análoga, los va-
lores f .j indican la suma de las frecuencias absolutas correspondientes a la
j-ésima columna, es decir, las frecuencias correspondientes a Y = yj.
§ Al analizar las frecuencias marginales, surge, naturalmente, la posibilidad de
obtener, a partir de la tabla de frecuencias bidimensionales, dos distribu-
Estadística
§ Otro tipo de distribución para la variable X es la que puede obtenerse fi-
jando un valor Y = yj, que se conoce como distribución de X condicionada pa-
ra Y = yj. Análogamente, se puede obtener la distribución de Y condicionada
para X = x i.
ž Ejemplo:
Al clasificar una serie de modelos de automóviles por el número de cilindros y su
origen, se obtuvo la siguiente tabla:
250 300
250
200
200
150
150
100
100
50 50
0 0
4 6 8 Europa Estados Unidos Japón
Número de cilindros O rig e n
Estadística
Podemos realizar con ellas tablas y gráficas, como vemos a continuación:
160 60
140 50
120
40
100
80 30
60
20
40
10
20
0 0
4 6 8 Europa Estados Unidos Japón
Número de cilindros O rig e n
Estadística
modo preciso a una curva plana, sino que se obtiene un conjunto de puntos más o
menos dispersos. Una representación de ese tipo recibe el nombre de nube de
puntos, diagrama de dispersión o dispersograma. Veamos algunos ejemplos:
20
Y 10
Y 35
Y
30
8
15 25
6 20
10
4 15
5 10
2
5
0 0 0
0 1 2 3 4 5 6
X 0 1 2 3 4 5 6
X 0 1 2 3 4 5
X
El Concepto de Asociación
B. CORRELACIÓN Y REGRESIÓN
Estadística
aleatorias bidimensionales. El primero se ocupa de dar medidas de la dependencia
entre las variables unidimensionales que entran en la variable bidimensional y se
denomina teoría de la correlación. El segundo trata de dar medios de obtener,
aproximadamente, el valor de una de las variables, cuando se da el valor de la
otra y se lo llama teoría de la regresión o ajuste de curvas.
Más precisamente, los métodos estadísticos presentados hasta ahora se
han referido a una sola variable X. Muchos de los problemas del trabajo estadís-
tico, sin embargo, involucran dos o más variables. Veremos el método aplicado al
caso de dos variables; pero puede aplicarse a más de dos.
En algunos problemas, las variables se estudian simultáneamente, para ver la
forma en que se encuentran interrelacionadas; en otros se tiene una variable de
interés particular y las restantes se estudian por la posibilidad de que aclaren
aspectos de la primera. Estas dos clases de problemas se conocen, por lo general,
con los nombres de correlación y regresión, respectivamente.
Correlación Lineal
ž Ejemplo:
Con objeto de ilustrar la forma en que se procede a estudiar la relación entre
dos variables, analizaremos un ejemplo sobre los promedios de calificaciones co-
rrespondientes al último año de la escuela y al primer año universitario. El pro-
medio de la escuela se designa con X y el promedio universitario con Y.
X Y X Y X Y
3,0 2,4 2,9 1,9 3,1 2,8
2,4 2,6 2,7 2,2 3,3 3,2
3,7 3,0 3,7 3,1 2,7 1,8
3,6 3,9 2,7 2,6 3,5 2,7
Estadística
2,3 2,2 3,0 3,3 3,4 2,6
3,0 2,9 2,2 1,8 2,5 2,7
Y
4,5
4
3,5
3
2,5
2
1,5
1
0,5
0
0 0,5 1 1,5 2 2,5 3 3,5 4 X
Covarianza
∑ (x
i
i − x )(yi − y )
Sxy =
n
Estadística
§ Es igual a cero si las variables son independientes.
§ Es positiva si las variables tienen dependencia directa.
§ Es negativa en caso de dependencia inversa.
Coeficiente de Correlación
Puesto que las desviaciones estándar son positivas, r tiene el signo de la co-
varianza y, por tanto:
§ Si r > 0, la relación entre las variables es directa.
§ Si r < 0, la relación entre las variables es inversa.
§ Si r = 0, no existe relación lineal entre las variables.
§ Si r = +1, la correlación lineal es perfecta y positiva.
§ Si r = -1, la correlación lineal es perfecta y negativa.
n.∑ [Link] − ∑ xi ∑ yi
r= i i i
2 2
n.∑ xi 2
− ∑ xi . n.∑ yi2 − ∑ yi
i i i i
Estadística
Analizaremos dos propiedades de r:
-1 ≤ r ≤ +1
§ El valor de r será igual a +1 o -1 si y sólo si todos los puntos del diagrama se
encuentran sobre una línea recta.
60
Y 45
Y 20
Y
40
50
35 15
40 30
25
30 10
20
20 15
10 5
10
5
0 0 0
0 1 2 3 4 5 6
X 0 1 2 3 4 5 6
X 0 1 2 3 4 5 6
X
35
Y 20
Y 10
Y
30
8
25 15
20 6
10
15 4
10 5
2
5
0 0 0
0 1 2 3 4 5
X 0 1 2 3 4 5 6
X 0 1 2 3 4 5 6
X
o Los diagramas (a), (b), (c) y (d) corresponden a dispersiones con relación
lineal cada vez más acentuada.
o El diagrama (e) es una imagen en espejo del (c), con esto se ve que el valor
absoluto de r mide la fuerza de la relación lineal, pero que el signo de r es
Estadística
o Este ejemplo indica bien que r es una medida útil para observar lo estre-
chamente que estén relacionadas dos variables, sólo cuando hay una relación
lineal entre ellas.
Estadística
Regresión Lineal
Es usual estudiar dos o más variables con la esperanza de que cualquier re-
lación que se encuentre pueda usarse para hacer estimaciones o predicciones
acerca de una de las variables en particular.
Al estudiar la correlación entre las calificaciones, la intención es, obviamen-
te usar esa relación para tratar de predecir el éxito académico de un estudiante
universitario a partir del conocimiento de su promedio en la escuela.
El coeficiente de correlación sólo indica qué tan estrecha es la relación li-
neal entre las variables y no es capaz de resolver problemas de predicción. De
manera semejante, si se calcularan coeficientes de correlación entre promedios
de las calificaciones universitarias y resultados de pruebas de aptitud y vocabu-
lario, esas correlaciones sólo servirían para indicar cuáles de estas variables con-
viene incluir en una función de predicción del éxito académico.
Los métodos que se han desarrollado para manejar problemas de predicción
se conocen como métodos de regresión.
ž Ejemplo:
Con objeto de explicar los métodos de regresión, consideremos el problema par-
ticular de predecir el rendimiento en forraje en función de la cantidad de agua
de irrigación aplicada, que se presenta en la siguiente tabla:
Agua (X) 12 18 24 30 36 42 48
Rendimiento (Y) 5,27 5,68 6,25 7,21 8,02 8,71 8,42
5
Y
0
0 20 40 60
Sin duda, surge la necesidad de encontrar la ecuación de esta recta, para calcu-
lar, fácilmente, el valor de Y para un valor de X dado.
Veremos un método para encontrar esta ecuación:
Estadística
La ecuación de la recta de regresión es ŷ = a + b.x
∑y i − b.∑ xi n.∑ xi.y i − ∑ xi ∑ yi
siendo a= i i
y b= i i i
2
n
n.∑ xi − ∑ xi
2
i i
Interpolación y Extrapolación
Estadística
senten los datos de la muestra. Hacer predicción para valores de X fuera del
rango de la muestra se llama extrapolación y, en general, si se supone que la rela-
ción es lineal sólo en esta región de valores de X, no es legítimo usar la línea re-
cta para predecir valores de Y fuera de este intervalo de valores de X.
Resumiendo...
Estadística
de engañar, a través de la manipulación de los datos.
¡A repasar...!
þ ¿De qué manera se pueden presentar los datos para realizar un estudio
estadístico?
þ ¿Qué ventajas y desventajas ofrece cada una de las formas de presen-
tación de datos?
þ ¿Cómo se describe gráficamente un conjunto de datos?
þ ¿Se describen de igual manera los conjuntos de datos cualitativos que
cuantitativos?
þ ¿A qué llamamos patrón de comportamiento de un conjunto de datos?
þ ¿Cómo se describe numéricamente un conjunto de datos?
þ ¿Qué medidas caracterizan a un conjunto de datos?
þ ¿Qué característica tienen las medidas de tendencia central?
þ ¿Cuáles son las ventajas y desventajas de cada una de las medidas de
tendencia central?
þ ¿A qué llamamos media pesada o media ponderada?
þ ¿Qué característica tienen las medidas de dispersión?
þ ¿Qué es una puntuación Z? ¿Cuál es su utilidad?
þ ¿Qué característica tienen las medidas de posición no centradas?
þ ¿Qué aporta el gráfico de caja y extensiones al análisis gráfico de da-
tos?
Estadística
þ ¿Qué es una distribución marginal?
þ ¿Cómo se define la independencia estadística?
þ ¿Es lo mismo dependencia funcional que dependencia estocástica? ¿Por
qué?
þ ¿Qué es una distribución condicionada?
þ Defina el concepto de asociación.
þ ¿Cuándo y para qué se utiliza un análisis de regresión?
þ ¿Cuándo y para qué se utiliza un análisis de correlación?
þ ¿Qué diferencia hay entre regresión y correlación?
þ ¿Qué es la covarianza?
þ ¿Cuáles son las características del coeficiente de correlación?
þ ¿Cómo se debe interpretar el coeficiente de correlación?
þ ¿Qué es interpolar? ¿Qué es extrapolar?
þ ¿Son ambas acciones válidas para un análisis estadístico?
Respuestas
Para pensar
Estadística
ro tratando de encontrar un punto de equilibrio, y en base al mito popular,
podemos decir que una gráfica más o menos representativa sería:
8
7
6
Frecuencia simple
5
4
3
2
1
0
0 2 4 6 8 10 12 14 16 18 20 22
Cantidad de maniobras
15
12
9
6
3
0
150 160 170 180 190 200
Estatura
o ¿Qué tipos de chistes causarían más efecto, los machistas o los fe-
ministas?
Estadística
---------------------------------------------------------
Frecuencia Acumulada
Sexo Valor Absoluta Relativa Absoluta Relativa
---------------------------------------------------------
Hombre 1 17 0.2833 17 0.2833
Mujer 2 43 0.7167 60 1.0000
---------------------------------------------------------
71.67%
20
Porcentaje
16
12
8
Estadística
4
0
34 36 38 40 42 44 46 48
Calzado
24%
20%
16%
12%
8%
4%
0%
34 36 38 40 42 44 46 48
frecuencia de clase
15
12
9
Estadística
6
3
0
150 160 170 180 190 200
Estatura
18
16
Frecuencia de clase
14
12
10
8
6
4
2
0
150 160 170 180 190 200
Estatura
Para pensar
La siguiente es la distribución de los salarios de los empleados de una pequeña fá-
brica:
Salario Cantidad de empleados
$10000 1
$2500 1
$1000 1
$500 2
$200 4
Los empleados realizan una huelga para pedir mejora de sus salarios. Un periodista
realiza una nota preguntando cuál es el salario medio.
¿Qué medida de tendencia central daría usted si...
Estadística
A trabajar solos...
La precipitación anual de lluvias, aproximada a décima de centímetro, para un pe-
ríodo de 30 años es como sigue:
42,3 35,7 47,5 31,2 28,3 37,0 41,3 29,3 32,4 41,3 34,3 35,2 43,0 36,3 35,7
41,5 43,2 30,7 38,4 46,5 43,2 31,7 36,8 43,6 45,2 32,8 30,7 36,2 34,7 35,3
28,3 29,3 30,7 30,7 31,2 31,7 32,4 32,8 34,3 34,7
35,2 35,3 35,7 35,7 36,2 36,3 36,8 37,0 38,4 41,3
41,3 41,5 42,3 43,0 43,2 43,2 43,6 45,2 46,5 47,5
xmín = 28,3
xmáx = 47,5
R = xmáx - xmín = 19,2
k = 1 + 3,[Link] n ≈ 5,8745 ≈ 6
l = R / k = 19,2 / 6 = 3,2
Intervalos xi fi Fi
[28,3 ; 31,5) 29,9 5 5
[31,5 ; 34,7) 33,1 4 9
[34,7 ; 37,9) 36,3 9 18
[37,9 ; 41,1) 39,5 1 19
[41,1 ; 44,3) 42,7 8 27
[44,3 ; 47,5] 45,9 3 30
b) Calcular la media, la mediana, el modo, el cuartil 1, el decil 4, el percentil 86 y
la desviación estándar. Interpretar los resultados obtenidos.
Media aritmética:
x = 37,58 cm
La precipitación anual de lluvias promedio es de 37,58 cm.
Mediana:
ºMe = (n+1) / 2 = 31 / 2 = 15,5 ⇒ Me ∈ [ 34,7 ; 41,1 )
n − Fant Me 30
−9
Me = Li Me + l. 2 = 34,7 + 3,2. 2 = 36,8333... cm
fMe 9
Esto indica que el 50% de los años la precipitación anual fue de 36,792 cm o
Estadística
menos y en el otro 50% la precipitación anual fue de 36,792 cm o más.
Modo:
Mo ∈ [34,7 ; 37,9)
•1 5
Mo = xMo = L inf Mo + l . = 34,7 + 3,2. = 35,93 cm
•1 + •2 5 + 8
Siendo:
∆1 = 9 - 4 = 5 ∆2 = 9 - 1 = 8
La precipitación anual más frecuente es de 35,93 cm.
Primer cuartil:
ºQ1 = (n+1) / 4 = 7,75 ⇒ Q1 ∈ [31,5 ; 34,7)
1.n
− Fant Q
7,5 − 5
1
Esto indica que el 25% de los años la precipitación fue de 33,5 cm o menos y
el otro 75% de los años la precipitación fue de 33,5 cm o más.
Cuarto decil:
ºD4 = 4.(n+1) / 10 = 12,4 ⇒ D4 ∈ [ 34,7 ; 41,1 )
4.n
− Fant D
12 − 9
4
Esto indica que el 40% de los años la precipitación fue de 35,77 cm o menos y
el otro 60% de los años la precipitación fue de 35,77 cm o más.
Percentil 86:
ºP86 = 86.(n+1)/100 = 26,66 ⇒ P86 ∈ [41,1 ; 44,3)
86.n
− Fant P 25,8 − 19
= 41,1 + 3,2.
86
Esto indica que el 86% de los años la precipitación fue de 43,82 cm o menos y
el otro 14% de los años la precipitación fue de 43,82 cm o más.
Desviación estándar:
s = 5,288269 cm
En promedio la precipitación anual de lluvias se aparta de la media en
aproximadamente 5,2883 cm.
c) Representar gráficamente los datos en un histograma de frecuencias.
Estadística
6