0% encontró este documento útil (0 votos)

564 vistas80 páginas

Estadística Descriptiva para Ingenieros

Este documento describe los conceptos básicos de la estadística descriptiva y el análisis de datos. Explica que la estadística involucra la recopilación, organización, presentación, análisis e interpretación de datos para tomar decisiones informadas. Luego detalla los cinco pasos básicos del método estadístico: recopilación, organización, presentación, análisis e interpretación. Finalmente, discute formas de organizar, sintetizar, describir y presentar datos estadísticos.

Cargado por

Nadia N. Salattino

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

564 vistas80 páginas

Estadística Descriptiva para Ingenieros

Cargado por

Nadia N. Salattino

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Cátedra: Estadística Técnica UT1

Facultad de Ingeniería Estadística descriptiva y análisis de datos

UNCuyo D. Fernández & M. Guitart

Estadística
1: ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS

La Estadística, en general, trata con información basada en ciertos datos de

interés. La palabra “estadística”, ha sido referida ya sea a la información misma
como a los métodos que tratan con la información. Para evitar confusiones, los
estadísticos prefieren llamar a la información: los datos estadísticos y a los mé-
todos que tratan con la información: los métodos estadísticos.
No toda información es considerada como dato estadístico. Los valores que
forman un conjunto de datos estadísticos deben ser tales que se puedan analizar
relaciones significativas, es decir, deben ser capaces de ser comparados, anali-
zados e interpretados. Así, la creciente complejidad de las actividades económi-
cas, políticas, científicas, etcétera, ha incrementado el uso de la Estadística para
tomar decisiones a todo nivel.
Los métodos estadísticos son clasificados en cinco pasos básicos:
§ Recopilación
De acuerdo con la localización de la información, los datos estadísticos pue-
den ser internos o externos.
Los datos externos son usualmente obtenidos de dos maneras: de datos pu-
blicados o de encuestas o recopilación de primera mano.
§ Organización
El primer paso para organizar un grupo de datos es ordenar y corregir, si es
necesario, cada uno de los elementos recopilados.
El siguiente paso es decidir las clasificaciones adecuadas para incluir todos
los elementos.
El último paso es tabular.
§ Presentación
Hay tres modos de presentar un conjunto de datos recopilados: mediante
enunciados o textos, tablas estadísticas y gráficas estadísticas.
§ Análisis
Existen varios métodos de análisis estadístico, sólo incluimos los más usa-
dos:
o Análisis estadístico simple: esta parte proporciona el fundamento bási-
co para el análisis estadístico.

Estadística descriptiva y análisis de datos 1 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

o Inducción estadística: analiza una población o universo basada en un

estudio muestral. Otros métodos estadísticos distintos de los inducti-
vos son referidos como Estadística Descriptiva.
o Análisis de series de tiempo: analiza los cambios en las actividades de

Estadística
negocios y económicas.
o Análisis de relación: analiza las relaciones entre dos o más conjuntos
de datos estadísticos.
§ Interpretación
Una conclusión válida puede ser alcanzada después de que los resultados del
análisis son interpretados.

Es frecuente que la Estadística se identifique con una tabla o colección de

datos, pero no cabe dudas de que la Estadística no debe entenderse como una
mera colección de datos, aunque los mismos se presenten de forma ordenada y
sistemática.
Como ciencia, la Estadística está formada por el conjunto de métodos y téc-
nicas que permiten la obtención, organización, síntesis, descripción e interpreta-
ción de los datos para la toma de decisiones en condiciones de incertidumbre.
Para realizar un buen análisis de datos es necesario organizar y sintetizar
para describir los datos en estudio.

Veamos cada una de esta etapas:

§ Organización
Cuando se compilan datos, deben ser organizados en forma legible.
Pueden ser clasificados en cierta forma sistemática y
presentados en un cuadro o tabla.
Para transmitir su significado más sencilla o más
destacadamente, los datos pueden ser presentados
en gráficos o diagramas.
Se calculan luego medidas descriptivas, que permiten
‘describir’ cuantitativamente los datos y, resumir la información.

§ Síntesis
Sintetizar consiste en organizar, comprender, proce-
sar e integrar la información proveniente de múltiples
fuentes.
La síntesis es la reestructuración o reelaboración de la
información en formatos nuevos o diferentes para po-
der cumplir con los requisitos del trabajo.

Estadística descriptiva y análisis de datos 2 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

La síntesis puede ser tan simple como transmitir un hecho específico o lo

bastante compleja, como para contener varias fuentes, varios formatos de
presentación o diferentes medios de información y permitir la comunicación
efectiva de ideas abstractas.

Estadística
En esta etapa es importante enfocarse en comprender la información ex-
traída para presentarla (como producto) en sus propias palabras y en la
forma requerida por la tarea.

§ Descripción
La descripción de los datos cuantitativos, tales como longitudes, consumos,
etcétera, se refiere al cálculo de toda clase de estadísticos (medidas de
tendencia central, medidas de dispersión, medidas de posición no centrada,
medidas de asimetría, medidas de apuntamiento, entre otras).
Así mismo, las descripciones se pueden contemplar en
modo gráfico, con histogramas, gráficos de tallo y
hojas, gráficos de caja y extensiones, diagramas de
barras y circulares, con las correspondientes opciones
tridimensionales y sus correspondientes propiedades
de rotación horizontal y vertical, etcétera.
La descripción de datos categóricos, tales como zonas geográficas, niveles
de aptitud de operarios y alumnos, grados de satisfacción de clientes, etcé-
tera, se realizan mediante efectivos procedimientos de tabulación y tabula-
ción cruzada, que junto con las opciones gráficas, permiten determinar los
posibles grados de asociación, entre las categorías analizadas (por ejemplo,
la relación entre la afición a la lectura de los padres y el grado de rendi-
miento escolar de los hijos).

1.1 Presentación de Datos

¿Se ha preguntado por qué algunas presentaciones logran captar su atención

durante horas, mientras que otras pierden su atractivo en cuestión de minutos?
Veamos algunas pautas que le ayudarán a realizar una presentación efectiva:
§ Antes de realizar la presentación, decida qué quiere mostrar y luego haga
un esquema de su presentación de principio a fin.
§ Tenga en cuenta en qué forma llegará a los interesados la presentación. Por
ejemplo: presentación multimedia, presentación impresa, etcétera.
§ Esté absolutamente seguro que va a proporcionar información útil para su
audiencia, y no sólo lo que usted crea que ella debe recibir de acuerdo con
sus conocimientos y experiencia en su área específica.

Estadística descriptiva y análisis de datos 3 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

§ Lo que usted quiere es que la audiencia sienta que debe saber, que debe
aprender de la información que usted les va a suministrar.
§ Al crear su esquema, plantee directamente los puntos principales; luego,
respáldelos con investigaciones relevantes, observaciones convincentes y

Estadística
cualquier otro tipo de evidencia que fortalezca el tema de su presentación.
§ Use un formato y diseño consistentes. Recuerde que los gráficos deben
complementar, no desvirtuar el contenido de la presentación.
§ Exprese con claridad sus ideas y conclusiones.
§ No base su informe estadístico en una serie de impresiones con salidas de
un programa estadístico que carezcan de sentido para el lector.
§ Es necesario que realice una interpretación de los resultados obtenidos, e
incluso que presente un informe en un lenguaje más cercano a las personas
que deben usar los resultados estadísticos sin necesidad de ser expertos en
Estadística.

Existen tres formas para presentar los datos ya organizados y procesados

de un estudio estadístico: texto, cuadros o tablas y gráficas.

Según el análisis
estadístico realiza-
do, se debe
destacar la
importancia de la
automotivación en
la Educación a
Distancia, ya que
es el alumno el
que gestiona su
aprendizaje

Texto: Esta forma de presentación permite llamar

la atención sobre las comparaciones de importancia y destacar ciertas cifras. Sin
embargo, sólo puede utilizarse cuando los datos por presentar son pocos.

Cuadros o Tablas: Este tipo de presentación permite

volcar un gran número de datos en forma resumida, lo que hace fácil y clara su
lectura. Además, facilita las comparaciones de los datos.

Estadística descriptiva y análisis de datos 4 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

Cuando se comienza a analizar una variable estamos interesados en saber los

valores que puede tomar, el número total de datos y cuántas veces aparecen los
diferentes valores. La distribución de una variable nos proporciona esta informa-

Estadística
ción.
Para presentar variables, tanto cualitativas como cuantitativas, lo podemos
hacer mediante una tabla o cuadro, que ofrece una visión numérica sintética y
global de dicha variable.

Las tablas o cuadros constan de las siguientes partes:

§ El título, que debe responder las preguntas: ¿qué?, ¿dónde?, ¿cuándo?
§ El cuerpo, que consta de: encabezado de columnas, columna matriz, columnas
secundarias.
§ El pie de tabla, que consta de: fuente de los datos, alguna nota o algún dato
importante.

ž Ejemplo:
En un estudio realizado por el Instituto del hierro y el acero de Estados Unidos
durante el año 1992, se analizó las cantidades (en miles de toneladas) de impor-
taciones de acero, en distintos países:

Principales fuentes de importaciones de acero en Estados Unidos durante 1992

Países Frecuencia simple Frecuencia simple Frecuencia simple

absoluta relativa relativa porcentual

xi fi fri fri %
Bélgica y Luxemburgo 1247 0,3041 30,41 %
Japón 1072 0,2615 26,15 %
Alemania 460 0,1122 11,22 %
Canadá 367 0,0895 8,95 %
Francia 299 0,0729 7,29 %
Reino Unido 250 0,0610 6,10 %
Otros 405 0,0988 9,88 %
n = 4100 1,0000 100,00 %

Fuente: U.S. Department of Commerce. Datos preparados por el American Iron and Steel
Institute, publicados en Charting Steel’s Progress in 1992.
Nota: Para poder operar con los datos de la tabla o referirnos a ella, podemos representar
la característica a observar (países) mediante la variable X y a la modalidad i-ésima de di-
cha variable con la notación xi.

Estadística descriptiva y análisis de datos 5 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

§ Frecuencia simple absoluta (f i ): representa el número de individuos que

presentan cada modalidad x i.
§ Frecuencia simple relativa (fr i ): nos permite valorar la representatividad
de cada categoría respecto al total de los datos. Se calcula: fi / n.

Estadística
§ Frecuencia simple relativa porcentual (fri%): representa en porcentajes
las frecuencias simples relativas. Se calcula: fri . 100%.

Las tablas estadísticas para variables cuantitativas son similares a las ante-
riores, aunque, en este caso, la variable puede ser ordenada con un determinado
criterio.

ž Ejemplo:
Las siguientes son las alturas, en centímetros, de sesenta alumnos universitarios:

150 160 161 160 160 172 162 160 172 151
161 172 160 169 169 176 160 173 184 172
160 170 153 167 167 175 166 173 169 178
170 179 175 174 160 174 149 162 161 168
170 173 156 159 154 156 160 166 170 169
163 168 171 178 179 164 176 163 182 162

Una forma sencilla de organizar los datos se propone en la siguiente tabla:

Estatura de sesenta estudiantes universitarios de Mendoza en 2004

Valores Frecuencia Frecuencia Frecuencia Frecuencia Frecuencia Frecuencia

observados simple simple simple acumulada acumulada acumulada
absoluta relativa relativa absoluta relativa relativa
porcentual porcentual

xi fi fri = f i / n fri% Fi Fri = F i/n Fri%

149 1 0,0167 1,67 % 1 0,0167 1,67%

150 1 0,0167 1,67 % 2 0,0333 3,33%
151 1 0,0167 1,67 % 3 0,0500 5,00%
153 1 0,0167 1,67 % 4 0,0667 6,67%
154 1 0,0167 1,67 % 5 0,0833 8,33%
156 2 0,0333 3,33 % 7 0,1167 11,67%
159 1 0,0167 1,67 % 8 0,1333 13,33%
160 9 0,1500 15,00 % 17 0,2833 28,33%
161 3 0,0500 5,00 % 20 0,3333 33,33%
162 3 0,0500 5,00 % 23 0,3833 38,33%
163 2 0,0333 3,33 % 25 0,4167 41,67%

Estadística descriptiva y análisis de datos 6 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

164 1 0,0167 1,67 % 26 0,4333 43,33%

166 2 0,0333 3,33 % 28 0,4667 46,67%
167 2 0,0333 3,33 % 30 0,5000 50,00%
168 2 0,0333 3,33 % 32 0,5333 53,33%
169 4 0,0667 6,67 % 36 0,6000 60,00%

Estadística
170 4 0,0667 6,67 % 40 0,6667 66,67%
171 1 0,0167 1,67 % 41 0,6833 68,33%
172 4 0,0667 6,67 % 45 0,7500 75,00%
173 3 0,0500 5,00 % 48 0,8000 80,00%
174 2 0,0333 3,33 % 50 0,8333 83,33%
175 2 0,0333 3,33 % 52 0,8667 86,67%
176 2 0,0333 3,33 % 54 0,9000 90,00%
178 2 0,0333 3,33 % 56 0,9333 93,33%
179 2 0,0333 3,33 % 58 0,9667 96,67%
182 1 0,0167 1,67 % 59 0,9833 98,33%
184 1 0,0167 1,67 % 60 1,0000 100,00%
n = 60
Fuente: Datos hipotéticos

§ Variable (xi): para poder operar con los datos de la tabla o referirnos a ella,
podemos representar la característica a observar (estatura de los estu-
diantes universitarios) mediante la variable X y a la modalidad i-ésima de
dicha variable con la notación x i.
§ Frecuencia simple absoluta (f i): representa el número de individuos que
presentan cada modalidad x i.
§ Frecuencia simple relativa (fr i): nos permite valorar la representatividad
de cada categoría respecto al total de los datos. Se calcula: fi / n.
§ Frecuencia simple relativa porcentual (fri%): representa en porcentajes
las frecuencias relativas. Se calcula: fri . 100%.
§ Frecuencia acumulada (Fi): representa el número de individuos que presen-
tan una modalidad inferior o igual a x i . Se obtiene sumando las frecuencias
absolutas correspondientes a todos los valores menores o iguales a xi.
§ Frecuencia acumulada relativa (Fr i): nos permite valorar la representativi-
dad de cada categoría respecto al total de los datos. Se calcula: Fi / n.
§ Frecuencia acumulada relativa porcentual (Fri%): representa en porcenta-
jes las frecuencias acumuladas relativas. Se calcula: Fri . 100%.

Muchas veces, es necesario o resulta más cómodo trabajar con los datos agrupa-
dos en intervalos (o clases). La manera de agrupar los datos será estudiada más
adelante, por ahora planteamos una posibilidad de agrupación para ver la aplica-
ción en nuestro ejemplo:

Estadística descriptiva y análisis de datos 7 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

Estatura de sesenta estudiantes universitarios de Mendoza en 2004

Intervalos Punto Frecuencia Frecuencia Frecuencia Frecuencia Frecuencia Frecuencia

o medio simple simple simple acumulada acumulada acumulada
clases absoluta relativa relativa absoluta relativa relativa

Estadística
porcentual porcentual

xi fi fri fri% Fi Fri Fri%

[149 , 154) 151,5 4 0,0667 6,67% 4 0,0667 6,67%

[154 , 159) 156,5 3 0,0500 5,00% 7 0,1167 11,67%

[159 , 164) 161,5 18 0,3000 30,00% 25 0,4167 41,67%

[164 , 169) 166,5 7 0,1166 11,66% 32 0,5333 53,33%

[169 , 174) 171,5 16 0,2667 26,67% 48 0,8000 80,00%

[174 , 179) 176,5 8 0,1333 13,33% 56 0,9333 93,33%

[179 , 184] 181,5 4 0,0667 6,67% 60 1,0000 100,00%

n = 60 1,0000 100 %
Fuente: Datos hipotéticos

Gráficos: La representación gráfica de los datos con-

tenidos en un estudio estadístico tiene como finalidad ofrecer una visión de con-
junto del fenómeno sometido a investigación, más rápidamente perceptible que la
observación directa de los datos numéricos. De aquí que las representaciones
gráficas sean un medio eficaz para el análisis de la información estadística, ya
que las magnitudes y las regularidades se aprecian y recuerdan con más facilidad
cuando se examinan gráficamente. Hay que advertir, sin embargo, que la repre-
sentación gráfica no es más que un medio auxiliar de la investigación estadística,
que es fundamentalmente numérica.
Las representaciones gráficas pueden hacerse utilizando un sistema geomé-
trico de representación, en cuyo caso gozan de rigurosidad y precisión, o bien
pueden utilizarse símbolos alusivos al tema en estudio (por ejemplo, casas, árbo-
les, figuras humanas, etcétera). Mediante este último sistema de representación

Estadística descriptiva y análisis de datos 8 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

no se persigue una rigurosa exactitud, sino lograr efectos visuales en quien está
leyendo la información.
Existe una gran variedad de gráficos. Su elección depende de las variables
en estudio y de las características que se quieren destacar. Para la construcción

Estadística
de gráficos no hay reglas únicas. Siempre se debe tener presente que un gráfico
da información más rápida pero menos precisa que la tabla.

1.2 Descripción de un conjunto de datos: Métodos gráficos

A. Datos cualitativos

Aunque una tabla de frecuencias nos proporciona un resumen de datos, en la

práctica hay que observar, generalmente, más de un conjunto de datos y compa-
rarlos para conseguir una apreciación global y rápida de los mismos. Esto se ve
facilitado mediante una adecuada representación gráfica.
Los gráficos más usuales para variables cualitativas son los gráficos de ba-
rras, que pueden ser verticales u horizontales y los gráficos de sectores.

ž Ejemplo:
Veremos las distintas representaciones gráficas en el ejemplo anterior:

Gráfico de barras verticales

Principales fuentes de importaciones de acero en Estados Unidos durante 1992

1400
(en miles de toneladas)

1200
Cantidad de acero

1000

800

600

400

200

0
Reino Unido
Francia
Japón

Otros
Alemania

Canadá
Luxemburgo
Bélgica y

Países

Fuente: U.S. Department of Commerce. Datos preparados por el American Iron and Steel Insti-
tute, publicados en Charting Steel’s Progress in 1992.

Estadística descriptiva y análisis de datos 9 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

Gráfico de barras horizontales

Estadística
Principales fuentes de importaciones de acero en Estados Unidos durante 1992
Otros 405

Re ino U nido 250

Fra ncia 299

Canadá 367

Alem ania 460

Japón 1072

Bélgica y Lux em burg o 1247

0 200 400 600 800 1000 1200 1400

Ca ntidad de acero
(en m iles de toneladas)

Fuente: U.S. Department of Commerce. Datos preparados por el American Iron and Steel Insti-
tute, publicados en Charting Steel’s Progress in 1992.

Gráfico de Pareto

Una variante importante de los diagramas de barras es el diagrama de Pare-

to. Este diagrama tiene un uso muy amplio, sobre todo, por su valor para realizar
comparaciones.
Las categorías están ordenadas de modo tal que en la parte izquierda apa-
rezca la categoría con mayor frecuencia, seguida por la segunda mayor frecuen-
cia y así, sucesivamente. Este tipo de diagramas debe su nombre al economista
italiano V. Pareto.

Principales fuentes de importaciones de acero en Estados Unidos durante 1992

1400
1247

1200 10 7 2
(en miles de toneladas)
Cantidad de acero

1000

800

600
460
405
367
400 299
250

200

0
Japón

Otros

Francia

Reino Unido
Canadá
Alemania
Luxemburgo
Bélgica y

P a ís e s

Fuente: U.S. Department of Commerce. Datos preparados por el American Iron and Steel
Institute, publicados en Charting Steel’s Progress in 1992.

Estadística descriptiva y análisis de datos 10 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

Gráfico de sectores

Estadística
Los gráficos de sectores se utilizan para representar variables cualitativas,
indicando la proporción en que cada uno de sus valores se presenta.

Principales fuentes de importaciones de acero en Estados Unidos durante 1992

10%

6% Bélgica y Luxemburgo
31%
Japón
7%
Alemania

Canadá
9%
Francia

Reino Unido

11% Otros
26%

Fuente: U.S. Department of Commerce. Datos preparados por el American Iron and Steel Insti-
tute, publicados en Charting Steel’s Progress in 1992.

Principales fuentes de importaciones de acero en Estados Unidos durante 1992

Otros
Bélgica y
Reino Unido 10%
Luxemburgo
6% 31%

Francia
7%

Canadá
9%

Japón
Alemania 26%
11%

Fuente: U.S. Department of Commerce. Datos preparados por el American Iron and Steel Insti-
tute, publicados en Charting Steel’s Progress in 1992.

Estadística descriptiva y análisis de datos 11 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

B. Datos cuantitativos

Tratamiento de datos individuales

Estadística
Hay distintas maneras de presentar los datos cuando no han sido agrupados
en intervalos. A continuación veremos las más utilizadas:

Gráfico de tronco y hojas

Como hemos visto, es interesante conocer simultáneamente el valor indivi-

dual de cada una de las observaciones. El gráfico de tronco y hojas (también
llamado gráfico de tallo y hojas) fue descrito por Tukey.

Para realizar este gráfico, basta seguir los siguientes pasos:

§ Primero se ordenan los datos de menor a mayor.
§ Se apartan uno o más dígitos de cada dato, según el número de filas que se
desea obtener, en general no más de 15, empezando por la izquierda. Cada
valor diferente de estos dígitos apartados, se lista uno debajo del otro,
trazando a la derecha de los mismos una línea vertical. Éste es el tronco.
§ Para cada dato original se busca la línea en la que aparece su ‘tronco’. Los
dígitos que nos quedaban los vamos escribiendo en la fila correspondiente
de forma ordenada.

ž Ejemplo:
Se desea analizar cuánto demora un procesador X en guardar un archivo de cier-
to tamaño. Los tiempos, en segundos, que se recopilaron fueron veinticinco y es-
tán dados en la siguiente tabla:

0,8 2,2 0,7 2,6 3,9

2,4 1,2 0,2 0,5 1,2
1,4 3,7 0,4 0,9 1,2
2,1 1,9 0,5 3,8 0,7
1,6 1,4 2,6 0,9 1,5

Entonces, los pasos a seguir son los siguientes:

§ Los datos ordenados de menor a mayor son:
0,2 0,4 0,5 0,5 0,7
0,7 0,8 0,9 0,9 1,2

Estadística descriptiva y análisis de datos 12 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

1,2 1,2 1,4 1,4 1,5

1,6 1,9 2,1 2,2 2,4
2,6 2,6 3,7 3,8 3,9

§ Observamos que la parte entera de los números son: 0, 1, 2 y 3. Esto nos

permite dividir cada número en tronco (la parte entera) y hojas (la parte

Estadística
decimal). Luego, listamos los números que son troncos de arriba abajo y di-
bujamos una línea vertical.
0,2 0,4 0,5 0,5 0,7
0,7 0,8 0,9 0,9 1,2
1,2 1,2 1,4 1,4 1,5
1,6 1,9 2,1 2,2 2,4
2,6 2,6 3,7 3,8 3,9

0
1
2
3

§ A continuación, para cada dato original, vamos escribiendo, ordenadamente,

en el renglón correspondiente al tronco (parte entera), cada una de las
hojas (parte decimal). Si alguno se repite, se escribe tantas veces como
aparezca. Completando así el gráfico de tronco y hojas.
§ Si desea se puede completar el diagrama de tronco y hojas con columnas
que indiquen la cantidad de valores que se presentan en cada tronco.
Troncos Hojas Frecuencia Frecuencia relativa
0 2 4 5 5 7 7 8 9 9 9 0,36
1 2 2 2 4 4 5 6 9 8 0,32
2 1 2 4 6 6 5 0,20
3 7 8 9 3 0,12
n = 25 1,00

Los paquetes estadísticos, en general, presentan este gráfico indicando las fre-
cuencias acumuladas. A continuación veremos un gráfico de tronco y hojas reali-
zado con Statgraphics Plus 5.1 para este conjunto de datos:

Stem-and-Leaf Display for Tiempo: unit = 0,1 1|2 represents 1,2

2 0|24
9 0|5577899
(5) 1|22244
11 1|569
8 2|124
5 2|66
3 3|
3 3|789

Estadística descriptiva y análisis de datos 13 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

El gráfico muestra al conjunto de datos dividido en ocho troncos seguidos de una

barra vertical separadora, representados en la segunda columna y seguidos por
sus hojas.

Estadística
Seguramente se preguntará por qué lo hace en ocho troncos si nosotros lo hici-
mos en cuatro.
No hay un único gráfico de tronco y hojas para un determinado conjunto de da-
tos, es posible realizarlo de distintas maneras, según la necesidad, la claridad e,
incluso, la estética que se quiera presentar para la descripción del conjunto de
datos.

En este caso, Statgraphics Plus 5.1 propone un tronco para los valores entre 0,0
y 0,4 (0|24); otro para los valores entre 0,5 y 0,9 (0|5577899); otro para los
valores entre 1,0 y 1,4 (1|22244); otro para los valores entre 1,5 y 1,9 (1|569); y
así sucesivamente hasta los troncos definidos para los valores entre 3,0 y 3,4
(que no tiene hojas porque no se han observado valores en ese intervalo) y entre
3,5 y 3,9 (3|789).
En la primera columna aparecen las frecuencias acumuladas, pero no como esta-
mos acostumbrados, sino que se acumulan desde el menor valor hasta el tronco
que contiene al valor que está exactamente en el medio del conjunto de datos
(que más adelante estudiaremos y se llama mediana) y desde el mayor valor (ubi-
cado en el último renglón) hasta el tronco que contiene a la mediana. La frecuen-
cia correspondiente a este tronco es una frecuencia absoluta simple y se indica
entre paréntesis.
Iremos explicando cómo se han calculado las frecuencias en cada renglón:

2 0|24 Hasta el momento sólo hay 2 valores contados.

9 0|5577899 En este tronco hay 7 valores, más los 2 del tronco anterior, que suman 9.
(5) 1|22244 Este tronco contiene a la mediana, por lo que se registra la frecuencia
absoluta simple 5 (hay 5 valores con este tronco) y se la coloca entre
paréntesis (5).
11 1|569 La frecuencia presentada es 11 porque es lo acumulado desde el valor
más grande (3,9) hasta el primer valor de este tronco (1,5). Es decir, es la
cantidad de valores que faltan para llegar al valor más grande.
8 2|124 Son 8 los valores que faltan, desde el primer valor de este tronco (2,1),
para llegar a completar los veinticinco datos del conjunto.
5 2|66 Son 5 los valores que faltan, desde el primer valor de este tronco (2,6),
para llegar a completar los veinticinco datos del conjunto.
3 3| Son 3 los valores que faltan, desde el primer valor de este tronco (no hay
valores), para llegar a completar los veinticinco datos del conjunto.
3 3|789 Son 3 los valores que faltan, desde el primer valor de este tronco (3,7),
para llegar a completar los veinticinco datos del conjunto.

Estadística descriptiva y análisis de datos 14 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

Gráfico de puntos

Estadística
Para representar gráficamente variables de tipo cuantitativo, si el conjunto
de datos es pequeño, usaremos los gráficos de puntos o puntigramas, que nos
permiten distinguir claramente la variable y su frecuencia.

Tiempo de guardado de determinados archivos por un procesador X

10
9
Frecuencia

8
7
6
5
4
3 l
2 l l l l l l
1 l l l l l l l l l l l l l l l l l l
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9

2,0

2,2
2,3
2,4
2,5
2,6
2,7
2,8
2,9
3,0

3,2
3,3
3,4
3,5
3,6
3,7
3,8
3,9
4,0
0,1

1,0

1,2
1,3
1,4
1,5
1,6
1,7
1,8
1,9

2,1

3,1
1,1

Tiempo
Fuente: Datos hipotéticos

Tratamiento de datos agrupados

Tanto las variables discretas como las continuas, con un número grande de
valores, se suelen agrupar en intervalos al elaborar las tablas de frecuencias.

Tabla de distribución de frecuencias

Para resumir la información y adquirir una visión global y sintética de la va-

riable en estudio, agruparemos los datos en intervalos o clases. No obstante, es-
ta operación implica una pérdida de información que será preciso tener en cuenta
en la interpretación de las tablas, gráficos y estadísticos de datos agrupados.

La primera decisión que hay que tomar para agrupar una variable es el núme-
ro de intervalos en que se debe dividir. No existe una regla fija, y en última ins-
tancia será un compromiso entre la pérdida de la información que supone el agru-
pamiento y la visión global y sintética que se persigue. Esta ‘flexibilidad’ para la
selección de la cantidad de intervalos puede provocar dudas o confusiones, es por
eso que Sturgess da una fórmula para quien no quiera o no pueda decidir la canti-
dad de clases a utilizar.

Estadística descriptiva y análisis de datos 15 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

Para proceder a la construcción de una distribución de frecuencias con da-

tos agrupados es preciso tener en cuenta las siguientes nociones:

§ Tamaño de muestra (n): es la cantidad de elementos en una serie estadísti-

ca.

Estadística
§ Máximo (xmáx): se llama máximo de una variable estadística al mayor valor
que toma la variable en toda la serie estadística.
§ Mínimo (xmín): se llama mínimo de una variable estadística al menor valor que
toma la variable en toda la serie estadística.
§ Recorrido (R): es la diferencia entre el máximo y el mínimo en una serie
estadística.
§ Clase: se llama clase a cada uno de los intervalos en que podemos dividir el
recorrido de la variable estadística. Los intervalos pueden o no ser de la
misma amplitud.
§ Límite superior de la clase (Ls): es el máximo valor del intervalo.
§ Límite inferior de la clase (Li): es el mínimo valor del intervalo.
§ Marca de clase (x i): es el punto medio de cada clase y es el promedio entre
los extremos del intervalo.
§ Cantidad de intervalos (k): se obtiene a partir de la fórmula de Sturges,
que está dada por: 1 + 3,[Link] n. Para tamaños de muestra pequeños tam-
bién es útil utilizar √ n (raíz cuadrada de n), aunque la fórmula de Sturges
es válida para todos los casos.
§ Longitud de intervalos (l): es la diferencia entre el límite superior y el lími-
te inferior de la clase.

A continuación, aplicaremos un método para dar la distribución de frecuen-

cias de la variable en estudio para datos agrupados.
El método que usaremos, si bien está muy difundido, no es un método único,
existen autores de textos y herramientas informáticas que adoptan otros crite-
rios.

ž Ejemplo:
Analizaremos el ejemplo de las estaturas de los estudiantes universitarios (este
conjunto de datos será tomado como ejemplo de aquí en adelante)

Estadística descriptiva y análisis de datos 16 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

El método consta de los siguientes pasos:

§ Ordenar los datos de menor a mayor
149 150 151 153 154 156 156 159 160 160
160 160 160 160 160 160 160 161 161 161
162 162 162 163 163 164 166 166 167 167

Estadística
168 168 169 169 169 169 170 170 170 170
171 172 172 172 172 173 173 173 174 174
175 175 176 176 178 178 179 179 182 184
§ Determinar el tamaño de muestra
n = 60
§ Reconocer el máximo y el mínimo
xmáx = 184 xmín = 149
§ Calcular el alcance o recorrido
R = x máx - xmín = 184 - 149 = 35
§ Calcular la cantidad de intervalos
k = 1 + 3,[Link] n = 1 + 3,3 . log 60 ≈ 6,87 ⇒ k = 7 (El valor de k siempre debe ser redon-
deado a un número entero inferior o superior. Lo usual es hacer el redondeo matemático.)
§ Calcular la longitud de cada intervalo
l = R / k = 35 / 7 = 5 (Si el valor de l resultara ser un número decimal, hay que realizar un
redondeo por exceso, con la cantidad de posiciones decimales que se deseen. Por ejemplo,
si diera 6,270791, se puede redondear a 6,28 ó 6,3 ó 7, entre otras opciones, pero nunca
6,27 ó 6,2 ó 6.)
§ Armar una tabla con los intervalos obtenidos, las marcas de clase y las fre-
cuencias correspondientes
149 150 151 153 154 156 156 159 160 160
160 160 160 160 160 160 160 161 161 161
162 162 162 163 163 164 166 166 167 167
168 168 169 169 169 169 170 170 170 170
171 172 172 172 172 173 173 173 174 174
175 175 176 176 178 178 179 179 182 184

Intervalos Punto Frecuencia Frecuencia Frecuencia Frecuencia Frecuencia Frecuencia

o medio simple abso- simple rela- simple rela- acumulada acumulada acumulada
clases luta tiva tiva porcen- absoluta relativa relativa
tual porcentual
xi fi fri fri% Fi Fr i Fr i%

[149,154) 151,5 4 0,0667 6,67% 4 0,0667 6,67%

[154,159) 156,5 3 0,0500 5,00% 7 0,1167 11,67%

[159,164) 161,5 18 0,3000 30,00% 25 0,4167 41,67%

[164,169) 166,5 7 0,1166 11,66% 32 0,5333 53,33%

[169,174) 171,5 16 0,2667 26,67% 48 0,8000 80,00%

[174,179) 176,5 8 0,1333 13,33% 56 0,9333 93,33%

[179,184] 181,5 4 0,0667 6,67% 60 1,0000 100,00%

n = 60 1,0000 100 %

Fuente: Datos hipotéticos

Estadística descriptiva y análisis de datos 17 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

Nota 1: Como el límite superior de cada clase coincide con el límite inferior de la siguiente,
adoptamos como criterio que los intervalos se suponen semiabiertos por la dere-
cha, es decir, en cada clase se incluyen los valores de la variable que sean mayores
o iguales al límite superior, pero estrictamente menores que el límite superior.

Estadística
Nota 2: Como excepción al criterio adoptado, en la última clase, el intervalo es cerrado en
ambos extremos, si no fuera así, el valor máximo quedaría fuera de los intervalos.

Nota 3: En las frecuencias relativas (fr i), se debe redondear de tal manera que la suma dé
uno.

Histograma y polígono de frecuencias

La información numérica proporcionada por una tabla de frecuencias se

puede representar gráficamente de una forma más sintética. En el caso de las
variables agrupadas las representaciones que se utilizan frecuentemente son los
histogramas y los polígonos de frecuencias.

Histograma

Un histograma se obtiene construyendo sobre unos ejes cartesianos rec-

tángulos cuyas áreas son proporcionales a las frecuencias de cada intervalo.
Sobre el eje de abscisas se representan dos intervalos, el anterior al pri-
mero y el posterior al último, que no tienen valores en ellos.

Estatura de un grupo de estud iantes universitarios

20
Cantidad de alumnos

0 //
147 152 157 162 167 172 177 182 187
144 149 154 159 164 169 174 179 184
189

Estatura (en cm)

Fuente: Datos hipotéticos

Estadística descriptiva y análisis de datos 18 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

Polígono de frecuencias

Otra forma de representar los datos es el polígono de frecuencias, que es la

poligonal que resulta de unir, con segmentos, los puntos medios de las bases su-
periores de los rectángulos de un histograma de frecuencias. Además, completa-

Estadística
remos la poligonal, uniendo los puntos medios del intervalo anterior al primero de
nuestra muestra y posterior al último de nuestra muestra.

Estatura de un grupo de estudiantes universitarios

20
Cantidad de alumnos

0 //
147 152 157 162 167 172 177 182 187
144 149 154 159 164 169 174 179 184 189

Estatura (en cm)

Fuente: Datos hipotéticos

Histograma y polígono de frecuencias

Usualmente se presentan ambos gráficos en el mismo sistema de ejes coor-

denados.

Estatura de un grupo de estudiantes universitarios

20
Cantidad de alumnos

0 //
147 152 157 162 167 172 177 182 187
144 149 154 159 164 169 174 179 184 189

Estatura (en cm)

Fuente: Datos hipotéticos

Estadística descriptiva y análisis de datos 19 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

Ojiva

Llamamos ojiva al polígono de frecuencias acumuladas. Se obtiene uniendo

Estadística
con segmentos los puntos cuyas coordenadas son: la abscisa correspondiente al
extremo superior de cada clase y la ordenada correspondiente a la frecuencia
acumulada (relativa o absoluta) hasta dicha clase.

Estatura de un grupo de estudiantes universitarios

60
Frecuencia acumulada

0 //

139 144 149 154 159 164 169 174 179 184 189 194 199 204

Estatura (en cm)

Fuente: Datos hipotéticos

C. Patrón de comportamiento

Una tabla de frecuencias, un histograma o un polígono de frecuencias des-

criben una distribución de frecuencias, es decir, muestran el patrón de distribu-
ción de las frecuencias. En general, las descripciones se refieren a aspectos de la
forma del histograma o del polígono de frecuencias.

Un importante aspecto a destacar, relacionado con la forma de una distri-

bución de frecuencias es el hecho de que la figura presente un punto máximo
principal. En el ejemplo de las estaturas de los alumnos universitarios, vemos que
el intervalo [159, 164) presenta la máxima frecuencia, mostrando un punto máxi-
mo en el polígono de frecuencias.
Estos valores máximos se llaman modos o modas o valores modales, en el
caso de datos agrupados por clases, a la o las clases que presentan la máxima
frecuencia se las llama clases modales.

Estadística descriptiva y análisis de datos 20 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

Seguramente se estará preguntando qué ocurre si hay más de un valor o una

clase que presente la máxima frecuencia... En este caso decimos que hay dos,
tres, ..., k modas. En consecuencia, las distribuciones se llaman unimodales, bimo-
dales, trimodales o multimodales, según el número de modas que presenten.

Estadística
Ejemplo de distribución unimodal:

Calificación obtenida por los alumnos en un curso de Estadística

6
Frecuencia

0
0 1 2 3 4 5 6 7 8 9 10 11
Calificación

Ejemplo de distribución bimodal:

Calificación obtenida por los alumnos en un curso de

10 Estadística
9

7
Frecuencia

0 1 2 3 4 5 6 7 8 9 10 11
Calificación

Estadística descriptiva y análisis de datos 21 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

Ejemplo de distribución multimodal:

Calificación obtenida por los alumnos en un curso de

8 Estadística

Estadística
7

5
Frecuencia

0
0 1 2 3 4 5 6 7 8 9 10 11
Calificación

¿Y qué pasa si todos los

valores presentan la mis-
ma frecuencia...?

En estos casos
diremos que...
No hay moda.

Otro aspecto a destacar, para analizar el patrón de comportamiento de un

conjunto de datos, es la simetría o asimetría de la distribución de frecuencias.

Estadística descriptiva y análisis de datos 22 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

Ejemplos de distribuciones simétricas y asimétricas con distintas asimetrías:

Curso A

Calificación obtenida por los alumnos en un curso de Estadística

Estadística
10

8
Frecuencia

0 1 2 3 4 5 6 7 8 9 10 11

Calificación

Curso B

Calificación obtenida por los alumnos en un curso de Estadística

8
Frecuencia

0
0 1 2 3 4 5 6 7 8 9 10 11

Calificación

Curso C
Calificación obtenida por los alumnos en un curso de Estadística
20

15
Frecuencia

0
0 1 2 3 4 5 6 7 8 9 10 11

Calificación

Estadística descriptiva y análisis de datos 23 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

¿Qué podemos decir de cada curso? ¿Cómo se comportan las calificaciones

de cada curso? ¿Cuál de los cursos tiene mejor rendimiento?
Claro está que las calificaciones del Curso A presenta una distribución simé-
trica, mientras que las de los Cursos B y C son asimétricas. La distribución del

Estadística
Curso B se llama asimétrica a derecha o positivamente asimétrica y la del Curso
C, asimétrica a izquierda o negativamente asimétrica.

Para pensar

§ Según el mito popular, ¿qué tipo de distribución tiene la variable: “Cantidad

de maniobras que debe hacer una mujer para estacionar correctamente un
auto, entre otros dos”?
§ A continuación se presentan tablas y gráficos que representan el
comportamiento de algunas variables analizadas en el mismo grupo de
estudiantes.
Distribución de frecuencias del SEXO de los alumnos
---------------------------------------------------------
Frecuencia Acumul ada
Sexo Valor Absoluta Relativa Absoluta Relativa
---------------------------------------------------------
Hombre 1 17 0.2833 17 0.2833
Mujer 2 43 0.7167 60 1.0000
---------------------------------------------------------
Gráfico de sectores pa ra la variable:
Sexo Sexo
28.33% 1
2

71.67%

Tabla de frecuencia para la variable DEPORTE

Estadística descriptiva y análisis de datos 24 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

Gráfico de barras para la práctica de Deporte

Estadística
porcentaje
40

30
20
10

0
1 2 3
1: POC O 2: FR ECUENTEMENTE 3: SISTEMÁTICAMENTE

Tabla de frecuencias para PELO y OJOS

Fila
Ojos Claros Ojos Oscuros Total
---------------------------
Pelo C | 17 | 8 | 25
(Claro) | 28.33% | 13.33% | 41.67%
---------------------------
Pelo O | 6 | 29 | 35
(Oscuro) | 10.00% | 48.33% | 58.33%
---------------------------
Columna 23 37 60
Total 38.33% 61.67% 100.00%

Gráfico de Tallos y Hojas para la variable Número de Calzado de los alumnos

Unidad = 0.1 35|0 representa 35.0
4 35|0000
12 36|00000000
26 37|00000000000000
(10) 38|0000000000
24 39|00
22 40|0000
18 41|00000
13 42|000000
7 43|0000
3 44|0
2 45|0
1 46|0

Distribución para el Número de Calzado Frecuencias Acumuladas para el Número de Calzado

24 100
20 80
Porcentaje
Porcentaje

16
60
12
40
8
4 20

0 0
34 36 38 40 42 44 46 48 34 37 40 43 46 49
Calzado Calzado
Distribución de la Estatura de los alumnos (cm)
--------------------------------------------------------------------------------
Límite de Clase Marca Frecuencias Acumulativa
Clase Inferior Superior de Clase Absoluta Relativa Absoluta Relativa
--------------------------------------------------------------------------------
por debajo de 150.0 0 0.0000 0 0.0000
1 150.0 156.25 153.125 3 0.0500 3 0.0500
2 156.25 162.5 159.375 14 0.2333 17 0.2833
3 162.5 168.75 165.625 17 0.2833 34 0.5667
4 168.75 175.0 171.875 15 0.2500 49 0.8167
5 175.0 181.25 178.125 5 0.0833 54 0.9000
6 181.25 187.5 184.375 5 0.0833 59 0.9833
7 187.5 193.75 190.625 1 0.0167 60 1.0000
8 193.75 200.0 196.875 0 0.0000 60 1.0000
sobre 200.0 0 0.0000 60 1.0000
--------------------------------------------------------------------------------

Estadística descriptiva y análisis de datos 25 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

Distribución de la Estatura de los alumnos

frecuencia de clase
15

Estadística
12
9
6
3

0
150 160 170 180 190 200
Estatura

• En base a la observación de las tablas y gráficas, responda:

o ¿A qué nivel educativo supone que pertenecen estos alumnos?
o ¿Qué tipos de chistes causarían más efecto, los machistas o los fe-
ministas?
o Respecto a la tabla DEPORTES: ¿Cómo definimos la variable que se
refiere a la práctica deportiva? ¿Cómo la codificamos? ¿Cuál es la
escala de medición?
o ¿Cómo se comporta la variable “Número de Calzado”? ¿Cuál es la es-
cala de medición?
o ¿Es coherente la distribución del número de calzados con el sexo de
los estudiantes? ¿Por qué?
o ¿Qué puede decir respecto al patrón de comportamiento de la va-
riable “Número de Calzado”?
o ¿Cómo se “comporta” la estatura de los alumnos?

1.3 Descripción de un conjunto de datos: Métodos numéricos

¿Recuerda los conceptos de población, muestra, estadísticos y parámetros,

que vimos en la Introducción?
Es importante que revise estos conceptos antes de continuar...

Hemos visto que los datos de una muestra pueden ser representados gráfi-
camente, dando una idea global del conjunto de datos analizado.
La representación gráfica de los datos es una primera incursión en el análi-
sis de datos, pero tiene sus limitaciones. Si se desea describir más profundamen-
te el conjunto de datos no siempre es fácil hacerlo a partir de un gráfico, e in-
cluso, no es fácil comparar algunos conjuntos de datos. Por esto, es fundamental
resumir los datos.
Vimos que podíamos reducir los datos a una forma más compacta, compren-
sible y comunicable por la distribución de frecuencias.

Estadística descriptiva y análisis de datos 26 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

Las distribuciones de frecuencias no sólo sirven para organizar datos, sino

que es también una medida descriptiva del modelo de distribución de una varia-
ble. Realmente, pueden ser consideradas como un conjunto de medidas descripti-
vas, porque cada número que muestra la frecuencia (o densidad) de observacio-

Estadística
nes de una clase es una estadística . Pero, a menudo, necesitamos medidas des-
criptivas en forma de números que pueden concentrar mejor la atención en varias
propiedades de un conjunto de datos que se investiga.
En realidad, raras veces observamos o medimos poblaciones enteras, por
esto, nos dedicaremos a la descripción de conjuntos de datos, en términos de
muestras.

Las características muestrales permiten caracterizar a una muestra con

unos pocos valores, llamados estadísticos.
Si bien cualquiera función de n observaciones de una muestra es una esta-
dística, hay algunas que son especialmente interesantes. En términos del análisis
de datos, nos interesaremos por cuatro propiedades básicas:
§ La localización del centro de la distribución, llamadas medidas de tendencia
central.
§ El grado de variación de valores individuales alrededor del punto central o la
tendencia de valores individuales a desviarse de las medidas de tendencia
central, llamadas medidas de dispersión.
§ El grado de asimetría, es decir, la falta de simetría de ambos lados del valor
modal de una distribución, llamadas medidas de asimetría.
§ El grado de variación, o la velocidad con que sube y baja la distribución de
izquierda a derecha, llamadas medidas de apuntamiento.
Estas propiedades son significativas especialmente para distribuciones uni-
modales, pero también se aplican a otros tipos de distribuciones.

A. Medidas de Tendencia Central

Las medidas de tendencia central suelen llamarse promedios, y son el ‘valor

típico’ en el sentido de que se emplea a veces para representar todos los valores
individuales de un conjunto de datos. Es decir, las medidas de tendencia central
dan un valor típico o representativo de un conjunto de datos.
La tendencia central de un conjunto de datos es la disposición de éstos para
agruparse ya sea alrededor del centro o de ciertos valores numéricos.
Hay varias medidas de tendencia central, con propiedades particulares que
las hacen ‘típicas’ en alguna forma única.
Las más frecuentemente utilizadas son la media aritmética, la mediana y la
moda.

Estadística descriptiva y análisis de datos 27 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

Media Aritmética

§ La media aritmética de las observaciones x1, x 2, ..., x n es el promedio arit-

Estadística
mético de éstas.
§ La media aritmética es el valor que tomaría la variable si estuviera unifor-
memente repartida entre todos los individuos que forman la muestra (co-
rresponde al concepto de centro de gravedad en Física).
§ La media aritmética considera todos los datos. Sin embargo, debido a que
todas las observaciones se emplean para el cálculo, el valor de la media pue-
de afectarse de manera desproporcionada por la existencia de valores
extremos.
§ Cuando usemos el término media, nos referimos a la media aritmética.

Ventajas de la media aritmética

C Se trata de un concepto familiar para la mayoría de las personas y es
intuitivamente claro.
C Cada conjunto de datos numéricos tiene media; siendo ésta una medida que
puede calcularse y es única, debido a que cada conjunto de datos posee una
y sólo una media.
C La media es útil para llevar a cabo procedimientos estadísticos como la com-
paración de medias de varios conjuntos de datos.

Desventajas de la media aritmética

D Aunque la media es confiable en el sentido de que toma en cuenta todos los
valores del conjunto de datos, puede verse afectada por valores extremos
que no son representativos del resto de los datos.
D El cálculo se hace tedioso cuando trabajamos con una gran cantidad de valo-
res diferentes.
D Somos incapaces de calcular la media para un conjunto de datos que tiene
clases de extremo abierto.

Mediana

§ La mediana es, como su nombre lo indica, el valor medio o valor central de un

conjunto de observaciones.
§ Cuando todas las observaciones se ordenan en forma creciente, la mitad de
éstas es menor que este valor y la otra mitad es mayor.

Estadística descriptiva y análisis de datos 28 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

§ Si el número de observaciones, n es impar, la mediana es el valor de la

observación que se encuentra a la mitad del conjunto ordenado. Si n es
impar la mediana es el valor de la observación que ocupa el lugar (n+1)/2.
§ Si el número de observaciones, n es par se considera la mediana como el

Estadística
promedio aritmético, de los valores de las observaciones que ocupan los lu-
gares n/2 y (n+2)/2 del conjunto ordenado.
§ Por ejemplo:
En el conjunto de datos: 5, 3, 8, 2, 7, deberíamos ordenar los datos, o sea,
2, 3, 5, 7, 8, y observar cuál es el valor que está en el medio. Luego, diremos
que 5 es la mediana de este conjunto de datos.
En el conjunto de datos: 5, 7, 8, 1, deberíamos ordenar los datos, o sea, 1, 5,
7, 8, y observar cuál es el valor que está en el medio. Pero no hay un único
valor central porque hay un número par de elementos, entonces, diremos que
la mediana es el valor promedio entre los dos valores centrales, es decir,
entre 5 y 7. Luego, 6 es la mediana de este conjunto de datos.
En el cálculo de la mediana la existencia de valores extremos no afecta su
valor.
En el ejemplo anterior, si en lugar del conjunto de datos 2, 3, 5, 7, 8, tuvié-
ramos el conjunto 2, 3, 5, 7, 8976, la mediana seguiría siendo 5, al igual que
en el conjunto -1824, 5, 7, 8, seguiría siendo 6.
§ Por lo tanto, si un conjunto contiene valores extremos y un número alto de
observaciones, la mediana puede ser una medida de tendencia central mucho
más deseable que la media aritmética.

Ventajas de la mediana
C Los valores extremos no afectan a la mediana tan intensamente como a la
media.
C La mediana es fácil de entender y se puede calcular a partir de cualquier
tipo de datos (excepto datos cualitativos nominales), incluso a partir de da-
tos agrupados con clases de extremo abierto, a menos que la clase mediana
sea justamente una de las de extremo abierto.

Desventajas de la mediana
D Ciertos procedimientos estadísticos que utilizan la mediana son más comple-
jos que aquellos que utilizan la media.
D Debido a que la mediana es una posición promedio, debemos ordenar los da-
tos antes de llevar a cabo cualquier cálculo, lo cual consume mucho tiempo si
el conjunto de datos es muy grande.

Estadística descriptiva y análisis de datos 29 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

Modo, Moda o Valor Modal

§ La moda, modo o valor modal de un conjunto de observaciones es el valor de

las observaciones que ocurre con mayor frecuencia en el conjunto.

Estadística
§ El modo es la única medida de tendencia central que puede ser calculada
para variables cualitativas nominales.
§ El valor de la moda no se ve afectada por la existencia de valores extremos.
§ Puede suceder que en una serie de datos haya más de una moda. En tal caso
se denomina bimodal, trimodal o multimodal, según el número de modas que
presente.

Ventajas de la moda
C La moda, al igual que la mediana, se puede utilizar como una posición central
para datos tanto cualitativos como cuantitativos.
C La moda no se ve mayormente afectada por los valores extremos. Incluso si
los valores extremos son muy altos o muy bajos, nosotros escogemos el va-
lor más frecuente del conjunto de datos como el valor modal. Podemos utili-
zar la moda sin importar qué tan grandes o qué tan pequeños sean los valo-
res del conjunto de datos, e independientemente de cuál sea su dispersión.
C Podemos calcular la moda aun cuando una o más clases sean de extremo
abierto.

Desventajas de la moda
D A menudo, no existe un valor modal debido a que el conjunto de datos no
contiene valores que se presenten más de una vez.
D Cuando los conjuntos de datos contienen muchas modas, resultan difíciles
de interpretar y comparar.

Tratamiento de datos agrupados

ž Ejemplo:
Retomaremos el ejemplo de las estaturas de los alumnos universitarios. En primer
lugar, como datos individuales y luego como datos agrupados.

Estadística descriptiva y análisis de datos 30 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

Datos individuales

xi fi Fi xi fi Fi
149 1 1 168 2 32

Estadística
150 1 2 169 4 36
151 1 3 170 4 40
153 1 4 171 1 41
154 1 5 172 4 45
156 2 7 173 3 48
159 1 8 174 2 50
160 9 17 175 2 52
161 3 20 176 2 54
162 3 23 178 2 56
163 2 25 179 2 58
164 1 26 182 1 59
166 2 28 184 1 60
167 2 30 n=60

Media aritmética
Como la media aritmética de las observaciones x1, x 2, ..., x n es el promedio arit-
mético de éstas, se denota por:
∑i [Link]
x=
n
Para datos individuales, los xi son todos los posibles valores que pueda tomar la
variable en estudio y las fi, las frecuencias absolutas correspondientes.
∑i xi .fi x .f f
Trabajando la expresión anterior, x = = ∑ i i = ∑ xi . i
n i n i n
Al dividir fi por n, obtenemos fi/n, que es la frecuencia relativa correspondiente
a cada valor x i. Esta frecuencia relativa es usualmente llamada peso de cada valor
xi de la variable estudiada.
Siguiendo la notación del inglés, este peso se indica como wi, por lo que fi/n = wi.
Así, y continuando el trabajo en la expresión de la media aritmética, tenemos:
∑i xi .fi x .f f
x= = ∑ i i = ∑ xi . i = ∑ xi .wi
n i n i n i

La media aritmética, definida en función de sus pesos, es llamada media pesada o

media ponderada, quedando expresada como:
x = ∑ [Link]
i

Estadística descriptiva y análisis de datos 31 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

En nuestro ejemplo, indicamos la media aritmética como:

∑ [Link]
149.1+...+166.2+...+184.1 9990
i
x= = = = 166,55 cm
n 60 60

Estadística
Interpretación: La estatura promedio de los estudiantes es de 166,55 cm

Mediana
Como n es par, para saber la posición del valor de la mediana, buscamos las posi-
ciones n/2 y (n+2)/2, luego, se ven los valores de variable correspondientes y se
calcula el promedio entre ellos, obteniendo así el valor de la mediana que deja por
encima y por debajo de él, el 50% de las observaciones.
La posición n/2 = 60/2 = 30º corresponde al valor 167 cm
La posición (n+2)/2 = (60+2)/2 = 31º corresponde al valor 168 cm
Luego, la mediana es el valor promedio entre 167 cm y 168 cm, es decir:

x% = 167,50 cm
Interpretación: El 50% de los estudiantes universitarios observados miden
167,50 cm o menos y el otro 50% miden 167,50 cm o más.

Modo, moda o valor modal

xi fi Fi
149 1 1
. . .
. . .
. . .

159 1 8
160 9 17 ï Máxima frecuencia absoluta ⇒ Valor modal
161 3 20
. . .
. . .
. . .

184 1 60
n = 20

El cálculo de la moda para datos individuales es sencillo, basta con buscar el valor
de la variable que presente la máxima frecuencia absoluta (f i).
Luego, la moda es:
Mo= 160 cm
Interpretación: La estatura de los estudiantes universitarios observados que se
presenta con mayor frecuencia es 160 cm.

Estadística descriptiva y análisis de datos 32 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

Datos agrupados

Intervalos xi fi Fi

[149 , 154) 151,5 4 4

Estadística
[154 , 159) 156,5 3 7
[159 , 164) 161,5 18 25
[164 , 169) 166,5 7 32
[169 , 174) 171,5 16 48
[174 , 179) 176,5 8 56
[179 , 184] 181,5 4 60
n=60

Media aritmética
Para datos agrupados basta con extender la definición, considerando a los xi co-
mo los puntos medios de cada intervalo, también llamados marca de clase, y sien-
do las fi, las frecuencias absolutas correspondientes a cada clase.
∑ xi .fi 151,5.4 + ... + 181,5.4 10030
x= i = = = 167,17 cm
n 60 60
Interpretación: La estatura promedio de los estudiantes es de 167,17 cm

Mediana
Intervalos xi fi Fi
[149 , 154) 151,5 4 4
[154 , 159) 156,5 3 7
[159 , 164) 161,5 18 25
[164 , 169) 166,5 7 32 ï Clase mediana
[169 , 174) 171,5 16 48
[174 , 179) 176,5 8 56
[179 , 184] 181,5 4 60
n=60

Para calcular la mediana en datos agrupados seguiremos los siguientes pasos:

§ Calcular el orden o posición de la mediana, usando la fórmula (n+1)/2, sin im-
portar si n es par o impar.
ºx~ = n + 1 = 30,5º
2
§ Buscar el valor obtenido como orden de la mediana en la columna de fre-
cuencia acumulada (Fi), si no está, tomar el inmediato superior y llamar a la
clase correspondiente, clase mediana. Diremos que la mediana, x ~ , pertenece
a este intervalo, pero es necesaria una mayor precisión. Por esto buscare-
mos el valor de la mediana dentro de la clase mediana.
~ ∈ [164 , 169)
x

Estadística descriptiva y análisis de datos 33 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

§ El valor de la mediana se obtiene mediante la fórmula:

 n − Fant x~ 
 
~
x = L inf x~ + l .  2 
 fx~ 
 

Estadística
Siendo:
Linf x~ : límite inferior de la clase mediana.
Fant x~ : frecuencia acumulada correspondiente a la clase anterior a la clase
mediana.
f x~ : frecuencia absoluta correspondiente a la clase mediana.
l : longitud de la clase mediana.
n : tamaño de la muestra.

 n − Fant x~   60 
   − 25 
~ = L inf x~ + l .  2
x  = 164 + 5 .  2  = 167,57 cm
 fx
~
  7 
   
Interpretación: El 50% de los estudiantes universitarios observados miden
167,57 cm o menos y el otro 50% miden 167,57 cm o más.

Nota 1: Otras notaciones para la mediana son: Md, Me y x 0,50.

Nota 2: La mediana puede calcularse a partir del gráfico de la distribución acumulativa (ojiva),
aunque en forma aproximada.
Es conveniente realizar la ojiva colocando en ordenadas la frecuencia acumulada por-
centual. Ubicar el 50% y ver a qué valor de abscisa corresponde.

Estatura de un grupo de estudiantes universitarios

120%
Frecuencia acumulada porcentual

100%
80%
60%
40%
20%
0% //
159 144 149 154 159 164 169 174 179 184 189 194 199 204

Estatura (en cm)

Mediana

Estadística descriptiva y análisis de datos 34 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

Modo, moda o valor modal

Intervalos xi fi Fi

[149 , 154) 151,5 4 4

Estadística
[154 , 159) 156,5 3 7
[159 , 164) 161,5 18 25 ï Clase modal
[164 , 169) 166,5 7 32
[169 , 174) 171,5 16 48
[174 , 179) 176,5 8 56
[179 , 184] 181,5 4 60
n=60

Para calcular la moda en datos agrupados seguimos los siguientes pasos:

§ Buscar la máxima frecuencia absoluta y llamar a la clase correspondiente,
clase modal.
§ Diremos que la moda, Mo, pertenece a este intervalo, pero es necesaria una
mayor precisión. Por esto buscaremos el valor de la moda dentro de la clase
modal.
Mo ∈ [159 , 164)
§ El valor de la moda se obtiene mediante la fórmula:
 •1 
Mo = xMo = Linf Mo + l .  
 •1 + •2 
Siendo:
Linf Mo : límite inferior de la clase modal
∆1 : diferencia entre la frecuencia de la clase modal y la clase premodal (an-
terior a la modal).
∆2: diferencia entre la frecuencia de la clase modal y la clase posmodal (pos-
terior a la modal).
l: longitud de la clase modal

 15 
Mo = x Mo = 159 + 5 .   = 161,88 cm
 15 + 11 
Siendo:
∆1 = 18 - 3 = 15 ∆2 = 18 - 7 = 11
Interpretación: La estatura de los estudiantes universitarios observados
que se presenta con mayor frecuencia es 161,88 cm.

Estadística descriptiva y análisis de datos 35 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

Para pensar

Estadística
La siguiente es la distribución de los salarios de los empleados de una pequeña fá-
brica:
Salario Cantidad de empleados
$10000 1
$2500 1
$1000 1
$500 2
$200 4

Los empleados realizan una huelga para pedir mejora de sus salarios. Un periodista
realiza una nota preguntando cuál es el salario medio.
¿Qué medida de tendencia central daría usted si...
a) ... fuera el dueño?
b) ... fuera un representante sindical?
c) ... fuera un investigador científico?

B. Medidas de Dispersión

Las medidas de tendencia central nos indican los valores alrededor de los
cuales se distribuyen los datos.
Las medidas de dispersión son estadísticos que nos proporcionan una medida
del mayor o menor agrupamiento de los datos respecto a los valores de tendencia
central.
Todas ellas son valores mayores o iguales a cero, indicando un valor cero, la
ausencia de dispersión.

Para ver sus aplicaciones analizaremos tres muestras de 40 alumnos cada

una, a los que se les tomó una evaluación de seis preguntas.

Los x i indican el número de respuestas correctas y fi, indica la cantidad de

alumnos que lo hicieron.

Estadística descriptiva y análisis de datos 36 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

Grupo 1 Grupo 2 Grupo 3

xi fi xi fi xi fi
1 1 1 16 1 6
2 2 2 3 2 7

Estadística
3 17 3 1 3 7
4 17 4 1 4 7
5 2 5 3 5 7
6 1 6 16 6 6

Puntuaciones en tres grupos de alumnos

Grupo 1 Grupo 2 Grupo 3

20 20 20

15 15 15
Frecuencia
Frecuencia

Frecuencia
10 10 10

5 5 5

0 0 0
1 2 3 4 5 6 1 2 3 4 5 6 1 2 3 4 5 6
Puntuación Puntuación Puntuación

Las tres distribuciones tienen la misma media aritmética, 2,5 puntos, ¿pero
podemos afirmar que hay homogeneidad entre los grupos?. Gráficamente vemos
que el valor de la media aritmética no es suficiente para describir cada una de las
situaciones.
Para precisar mejor lo que denominamos como ‘dispersión’ podemos calcular
unos estadísticos que nos den información, sin necesidad de representar los da-
tos.

Rango o Recorrido

§ Es la diferencia entre el mayor y menor valor observados de la variable.

R = x máx - xmín
§ El rango indica la variabilidad existente entre las observaciones de un con-
junto de datos, sin embargo, debe usarse con precaución, ya que su valor es
función únicamente de dos valores extremos pertenecientes al conjunto.
§ Debe evitarse el uso del rango como medida de variabilidad, cuando el núme-
ro de observaciones en un conjunto es grande o cuando éste contenga algu-
nas observaciones cuyo valor sea relativamente grande, respecto al resto.
§ Para muchos problemas tiene una mayor utilidad determinar el recorrido
entre dos valores cuantiles que entre dos valores extremos:

Estadística descriptiva y análisis de datos 37 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

§ La diferencia entre los percentiles 75 y 25, es decir, entre el tercer y pri-

mer cuartil, recibe el nombre de recorrido intercuartil y sólo incluye el
50% central de la distribución.
§ La diferencia entre los percentiles 90 y 10, es decir, entre el noveno y pri-

Estadística
mer decil, recibe el nombre de recorrido interdecil y toma el 80% central
de la distribución.

Varianza

§ La varianza de las observaciones x 1, x 2, ..., x n es el promedio del cuadrado

de las distancias entre cada observación y la media aritmética del conjunto
de observaciones.
§ El valor de la varianza puede sufrir un cambio muy desproporcionado, aún
más que la media, por la existencia de algunos valores extremos en el con-
junto de datos.
∑ (x )2
i − x .fi
s2 = i
n−1

Desviación Estándar

§ La raíz cuadrada de la varianza se denomina desviación estándar o desvío

típico.

∑ (x − x ) .fi
2
i
i
s =
n−1
§ A menudo se prefiere la desviación estándar con relación a la varianza, por-
que se expresa en las mismas unidades físicas de las observaciones.
§ La desviación estándar nos permite determinar, con un buen grado de preci-
sión, dónde están localizados los valores de una distribución de frecuencias
con relación a la media. Podemos hacer esto de acuerdo con un teorema es-
tablecido por el matemático ruso P. L. Chebyshev (1821 - 1894).
§ El teorema de Chebyshev dice que no importa qué forma tenga la distribu-
ción, al menos el 75% de los valores caen dentro de ± 2 desviaciones están-
dar a partir de la media de la distribución, y al menos 89% de los valores
caen dentro de ± 3 desviaciones estándar a partir de la media.
§ Podemos medir aún con más precisión el porcentaje de observaciones que
caen dentro de un alcance específico de curvas simétricas con forma de
campana. En estos casos, podemos decir que:
• Aproximadamente 68% de los valores de la población cae dentro de ± 1
desviación estándar a partir de la media.

Estadística descriptiva y análisis de datos 38 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

• Aproximadamente 95% de los valores de la población cae dentro de ± 2

desviación estándar a partir de la media.
• Aproximadamente 99% de los valores de la población cae dentro de ± 3
desviación estándar a partir de la media.

Estadística
Coeficiente de Variación

§ Muchas veces nos interesa comparar la variabilidad entre dos o más conjun-
tos de datos.
§ Puede hacerse esto con sus respectivas varianzas o desviaciones estándar
cuando las variables se dan en las mismas unidades, y sus medias son
aproximadamente iguales.
§ Cuando no sucede esto, utilizamos una medida relativa de variabilidad llama-
da coeficiente de variación.
§ El coeficiente de variación es el cociente entre la desviación estándar y la
media aritmética.
s
CV =
x
§ Esta medida es independiente de las unidades utilizadas.
§ El coeficiente de variación es una medida de dispersión relativa, nos indica
qué proporción de la media representa la desviación estándar. Por esto, sue-
le expresarse en forma porcentual.
§ A partir de la expresión s = CV . x , podemos interpretar a la desviación
estándar en términos de la media aritmética.
§ Un inconveniente del coeficiente de variación es que deja de ser útil cuando
x está próxima a cero.

Tratamiento de datos individuales y agrupados

ž Ejemplo:
Retomaremos el ejemplo de las estaturas de los alumnos universitarios, en primer
lugar, como datos individuales y luego como datos agrupados.

Estadística descriptiva y análisis de datos 39 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

Datos individuales

xi fi Fi xi fi Fi

Estadística
149 1 1 168 2 32
150 1 2 169 4 36
151 1 3 170 4 40
153 1 4 171 1 41
154 1 5 172 4 45
156 2 7 173 3 48
159 1 8 174 2 50
160 9 17 175 2 52
161 3 20 176 2 54
162 3 23 178 2 56
163 2 25 179 2 58
164 1 26 182 1 59
166 2 28 184 1 60
167 2 30 n=60

Rango o Recorrido
R = xmáx - xmín = 184 cm – 149 cm = 35 cm
Interpretación: La amplitud de la muestra es de 35 cm.

Varianza
∑ (x )
2
i − x .fi 2 2 2
(149 − 166,55) .1 + ... + (166 − 166,55) .2 + ... + (184 − 166,55) .1
s2 = i
= =
n −1 60 − 1
= 66,18 cm 2
Interpretación: El promedio de los cuadrados de las desviaciones de las estatu-
ras respecto a la media aritmética es de 66,18 cm 2.

Desviación estándar

∑ (x − x ) .f
2
i i
i
s = = 8,14 cm
n −1
Interpretación: Las estaturas se desvían, en promedio, respecto a la media arit-
mética, en 8,14 cm.

Coeficiente de variación
s 8,14 cm
CV = = = 0,0489 CV% = 4,89%
x 166,55 cm
Interpretación: La desviación estándar representa un 4,89% de la media aritmé-
tica.

Estadística descriptiva y análisis de datos 40 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

Datos agrupados

Intervalos xi fi Fi

Estadística
[149 , 154) 151,5 4 4
[154 , 159) 156,5 3 7
[159 , 164) 161,5 18 25
[164 , 169) 166,5 7 32
[169 , 174) 171,5 16 48
[174 , 179) 176,5 8 56
[179 , 184] 181,5 4 60
n=60

Rango o Recorrido
R = xmáx - xmín = 184 cm – 149 cm = 35 cm
Interpretación: La amplitud de la muestra es de 35 cm.

Varianza
∑ (x )
2
i − x .fi 2 2 2
(151,5 − 167,17) .4 + ... + (166,5 − 167,17) .7 + ... + (181,5 − 167,17) .4
s2 = i
= =
n −1 60 − 1
= 63,11 cm 2
Interpretación: El promedio de los cuadrados de las desviaciones de las estatu-
ras respecto a la media aritmética es de 63,11 cm 2.

Desviación estándar

∑ (x − x ) .f
2
i i
i
s = = 7,94 cm
n −1
Interpretación: Las estaturas se desvían, en promedio, respecto a la media arit-
mética, en 7,94 cm.

Coeficiente de variación
s 7,94 cm
CV = = = 0,0475
x 167,17 cm
CV% = 4,75%
Interpretación: La desviación estándar representa un 4,75% de la media aritmé-
tica.

Estadística descriptiva y análisis de datos 41 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

C. Puntuación Z

Hasta ahora hemos aprendido a describir una distribución de observaciones

en función de la media y la varianza. Ahora aprenderemos cómo describir una ob-

Estadística
servación en particular según el lugar que ocupe dentro del grupo de observacio-
nes en conjunto, es decir, aprenderemos a describir una observación según la
misma se encuentre por encima o por debajo del promedio y según a qué distancia
por debajo o por encima del mismo esté ubicada.

ž Ejemplo:
Supongamos que nos informan que Mariano, un estudiante del grupo de alumnos
universitarios que venimos analizando, mide 174 cm.
Si desconociéramos las estaturas del grupo sería difícil decir si Mariano es alto o
bajo, respecto al grupo de alumnos universitarios. Pero nosotros sabemos que la
estatura media es de 166,55 cm y el desvío estándar es de 8,14 cm. Con estos
datos, queda claro que Mariano tiene una estatura superior al promedio. También
podemos ver que la estatura de Mariano está 7,45 cm por encima de la media.
Supongamos que el conjunto de datos analizado es nuestra población, entonces la
media aritmética se debería indicar como µ = 166,55 cm y la desviación están-
dar como σ = 8,14 cm.

µ - 3σ µ - 2σ µ - 1σ µ µ + 1σ µ + 2σ µ + 3σ

142,13 150,27 158,41 166,55 174,69 182,83 190,97

Estatura
media
Estatura
de Mariano

¿Qué es una puntuación Z?

Una puntuación Z es la transformación de una observación que describe me-
jor el lugar que esa observación ocupa en la distribución. Específicamente, una
puntuación Z indica a qué cantidad de desviaciones estándar por encima o por
debajo de la media se encuentra dicha observación. Así, el valor Z será positivo
si la observación está por encima de la media, será negativo si se encuentra por
debajo de la media, y será cero si la observación coincide con la media. La desvia-
ción estándar se transforma así en una especie de patrón, una unidad de medida
propiamente dicha.

Estadística descriptiva y análisis de datos 42 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

Llamaremos puntuación bruta al valor observado, antes de ser convertido

en una puntuación Z.

ž Ejemplo:

Estadística
Volvamos a nuestro ejemplo de las estaturas de los alumnos universitarios.
§ Mariano, que mide 174 cm, tiene una puntuación Z de +0,92, es decir, Ma-
riano está a 0,92 desvíos estándar por encima de la media.
§ Florencia, que mide 160 cm, tiene una puntuación Z de -0,80, es decir, Flo-
rencia está a 0,80 desvíos estándar por debajo de la media.
§ Pedro, que mide 182 cm, tiene una puntuación Z de +1,90, es decir, Pedro
está a 1,90 desvíos estándar por encima de la media.
§ Julieta, que mide 154 cm, tiene una puntuación Z de -1,54, es decir, Julie-
ta está a 1,54 desvíos estándar por debajo de la media.
Estatura Estatura Estatura Estatura Estatura
Julieta Florencia media Mariano Pedro
150

153

156

159

162

165

168

171

174

177

180

183
+0,92

+1,90
-1,54

-0,80

¡Sí...! Ya sabemos... Se estará preguntando de dónde sacamos estos valores.

¿Cómo convertir una puntuación bruta en puntuación Z?

Una observación directa se denomina puntuación bruta.

Como hemos visto, una puntuación Z indica la cantidad de desviaciones es-
tándar, por encima o por debajo de la media, a las que se encuentra la puntuación
bruta. Para calcular una puntuación Z, se resta la media a la puntuación bruta,
obteniendo el desvío. Luego se divide este desvío por la desviación estándar. En
símbolos, la fórmula es la siguiente:
X− •
Z =
•

Así, si aplicamos la fórmula a las estaturas indicadas en el ejemplo:

§ Mariano, que mide 174 cm, tiene una puntuación Z
Z = (174 cm – 166,55 cm)/8,14 = +0,92.
§ Florencia, que mide 160 cm, tiene una puntuación Z:
Z = (160 cm – 166,55 cm)/8,14 = -0,80.

Estadística descriptiva y análisis de datos 43 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

§ Pedro, que mide 182 cm, tiene una puntuación Z:

Z = (182 cm – 166,55 cm)/8,14 = +1,90.
§ Julieta, que mide 154 cm, tiene una puntuación Z:
Z = (154 cm – 166,55 cm)/8,14 = -1,54.

Estadística
¿Cómo convertir una puntuación Z en puntuación bruta?

Dada una puntuación Z, podemos convertirla a la puntuación bruta corres-

pondiente. La obtención de la fórmula es muy sencilla a partir de la dada ante-
riormente:
Si Z = (X - µ)/σ, entonces X = Z. σ + µ

Algunas características de las puntuaciones Z

§ La puntuación Z de la puntuación bruta correspondiente a la media es 0.

§ La puntuación Z de la puntuación bruta correspondiente al valor µ - σ es –1.
§ La puntuación Z de la puntuación bruta correspondiente al valor µ + σ es +1.
§ Por lo tanto, la puntuación Z tiene media 0 y desviación estándar 1.
§ Una gran ventaja de las puntuaciones Z es que, convirtiendo las observacio-
nes de variables completamente diferentes en puntuaciones Z, podemos
compararlas entre sí.

D. Medidas de Posición No Centradas

Los estadísticos de orden o medidas de posición no centradas, son aquellos

valores numéricos que nos indican su posición en el conjunto de datos ordenados,
pues una fracción dada de los datos presenta un valor de la variable menor o igual
que el estadístico.

Si una serie de observaciones se colocan en orden creciente, el valor que di-

vide al conjunto de datos en dos partes iguales es la mediana. Por extensión, si
preferimos tener una descripción más detallada de la variabilidad de los valores
individuales, se puede dividir los datos en otra cantidad de partes iguales. Por
ejemplo, en cuatro, en diez o en cien partes iguales, llamando a estas medidas
cuartiles, deciles y percentiles, respectivamente.

Cuartiles

§ Al dividir los datos en cuatro partes iguales, quedan definidos los cuartiles:
Q1, Q2 y Q3.

Estadística descriptiva y análisis de datos 44 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

§ La fórmula para obtener el lugar del k-ésimo cuartil, siendo n el número de

observaciones, es: ºQk = k.(n+1)/4 y así, buscando en la lista ordenada de
los valores o en la columna de la frecuencia acumulada, se ve el valor de la
variable correspondiente. En caso que ºQk no sea un valor entero se calcula

Estadística
por interpolación lineal el valor del cuartil.
§ La mediana es el cuartil 2.

Deciles

§ Al dividir los datos en diez partes iguales, quedan definidos los deciles: D1,
D2, ..., D9.
§ La fórmula para obtener el lugar del k-ésimo decil, siendo n el número de
observaciones, es: ºDk = k.(n+1)/10 y así, buscando en la lista ordenada de
los valores o en la columna de la frecuencia acumulada, se ve el valor de la
variable correspondiente. En caso que ºDk no sea un valor entero se calcula
por interpolación lineal el valor del decil.
§ La mediana es el decil 5.

Percentiles

§ Al dividir los datos en cien partes iguales, quedan definidos los percentiles:
P1, P2, ..., P99.
§ La fórmula para obtener el lugar del k-ésimo percentil, siendo n el número
de observaciones, es: ºPk = k.(n+1)/100 y así, buscando en la lista ordena-
da de los valores o en la columna de la frecuencia acumulada, se ve el valor
de la variable correspondiente. En caso que ºPk no sea un valor entero se
calcula por interpolación lineal el valor del percentil.
§ La mediana es el percentil 50.
§ El primer cuartil es el percentil 25.
§ El tercer cuartil es el percentil 75.
§ El cuarto decil es el percentil 40.
§ El ...................... decil es el percentil 70.
§ El octavo decil es el percentil ........ .

Tratamiento de datos individuales y agrupados

ž Ejemplo:
Retomaremos el ejemplo de las estaturas de los alumnos universitarios, en primer
lugar, como datos individuales y luego como datos agrupados.

Estadística descriptiva y análisis de datos 45 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

150 160 161 160 160 172 162 160 172 151
161 172 160 169 169 176 160 173 184 172
160 170 153 167 167 175 166 173 169 178

Estadística
170 179 175 174 160 174 149 162 161 168
170 173 156 159 154 156 160 166 170 169
163 168 171 178 179 164 176 163 182 162

Cuartiles, Deciles y Percentiles

El cálculo de los estadísticos de orden, para datos individuales, se ajusta al

siguiente método:

Datos individuales

§ Calcular el orden o posición del estadístico de orden que se desea obtener.

§ Buscar en la serie estadística ordenada en forma creciente, el valor de la
variable correspondiente a esta posición, si el lugar del estadístico fuera un
número decimal, se hace interpolación entre los dos valores que ocupan las
posiciones enteras, anterior y posterior.

ž Ejemplo:
A modo de ejemplo, calcularemos el primer cuartil (Q1), el octavo decil (D8) y el
percentil 43 (P 43) en el ejemplo de las estaturas de los estudiantes universita-
rios.
1º 2º 3º 4º 5º 6º 7º 8º 9º 10º

149 150 151 153 154 156 156 159 160 160
11º 12º 13º 14º 15º 16º 17º 18º 19º 20º

160 160 160 160 160 160 160 161 161 161
21º 22º 23º 24º 25º 26º 27º 28º 29º 30º

162 162 162 163 163 164 166 166 167 167
31º 32º 33º 34º 35º 36º 37º 38º 39º 40º

168 168 169 169 169 169 170 170 170 170
41º 42º 43º 44º 45º 46º 47º 48º 49º 50º

171 172 172 172 172 173 173 173 174 174
51º 52º 53º 54º 55º 56º 57º 58º 59º 60º

175 175 176 176 178 178 179 179 182 184

Estadística descriptiva y análisis de datos 46 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

Primer cuartil (Q 1)
La posición del primer cuartil es ºQ 1 = 1.(n+1)/4 = 1.(60+1)/4 = 15,25º
Como el valor 15,25 no existe, se realiza interpolación lineal entre los valores co-
rrespondientes a las posiciones 15º y 16º:

Estadística
Posición Valor
15º → 160
0,25 15,25º → Q1 x
1 16º → 160 0

En realidad, en este caso no hace falta realizar los cálculos de interpolación ya

que los valores coinciden. Luego, el primer cuartil toma el valor 160 cm.
Q1 = 160 cm
Interpretación: Significa que el 25% de las estaturas de los estudiantes univer-
sitarios observados son inferiores o iguales a 160 cm y el 75% restante son ma-
yores o iguales a 160 cm.

Octavo decil (D8)

La posición del octavo decil es ºD8 = 8.(n+1)/10 = 8.(60+1)/10 = 48,8º
Como el valor 48,8 no existe, se realiza interpolación lineal entre los valores co-
rrespondientes a las posiciones 48º y 49º:

Posición Valor
48º → 173
0,8 48,8º → D8 x
1 49º → 174 1

0,8 x
= ⇒ x = 0,8
1 1
Luego, el octavo decil toma el valor 173,8 cm.
D8 = 173,80 cm
Interpretación: Significa que el 80% de las estaturas de los estudiantes univer-
sitarios observados son inferiores o iguales a 173,80 cm y el 20% restante son
mayores o iguales a 173,80 cm.

Percentil 43 (P 43)
La posición del percentil 43 es ºP43 = 43.(n+1)/100 = 43.(60+1)/100 = 26,23º
Como el valor 26,23 no existe, se realiza interpolación lineal entre los valores
correspondientes a las posiciones 26º y 27º:

Estadística descriptiva y análisis de datos 47 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

Posición Valor
26º → 164
0,23 26,23º → P43 x
1 27º → 166 2

Estadística
0,23 x
= ⇒ x = 0,46
1 2
Luego, el percentil 43 es el valor 164,46 cm.
P43 = 164,46 cm
Interpretación: Significa que el 43% de las estaturas de los estudiantes univer-
sitarios observados son inferiores o iguales a 164,46 cm y el 57% restante son
mayores o iguales a 164,46 cm.

Datos agrupados

Para calcular los estadísticos de orden en datos agrupados vamos a seguir

los siguientes pasos:

§ Calcular el orden o posición del estadístico que se desea conocer, con la mis-
ma fórmula usada para datos individuales.
§ Buscar el valor obtenido como orden del estadístico en la columna de fre-
cuencia acumulada (F i), si no está, tomar el inmediato superior y llamar a la
clase correspondiente clase del cuartil, clase del decil o clase del percentil
calculado en cada caso.
§ Diremos que el estadístico de orden pertenece a este intervalo, pero es ne-
cesaria una mayor precisión. Por esto buscaremos el valor del estadístico
dentro de la clase que lo contiene.
§ El valor de los estadísticos se obtienen mediante las fórmulas:
 k.n 
 − Fant Q  k

Qk = Linf Qk + l .  4 
 fQ 
 
k

 
Siendo:
Linf Qk : límite inferior de la clase del cuartil k.
Fant Qk : frecuencia acumulada correspondiente a la clase anterior a la clase
del cuartil k.
fQk : frecuencia absoluta correspondiente a la clase del cuartil k.
l : longitud de la clase del cuartil k.
n : tamaño de la muestra.

Estadística descriptiva y análisis de datos 48 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

 k.n 
 − Fant Dk 
Dk = Linf Dk + l .  10 
 f Dk 
 
 
Siendo:

Estadística
Linf Dk : límite inferior de la clase del decil k.
Fant Dk : frecuencia acumulada correspondiente a la clase anterior a la clase
del decil k.
fDk : frecuencia absoluta correspondiente a la clase del decil k.
l : longitud de la clase del decil k.
n : tamaño de la muestra.

 k.n 
 − Fant Pk 
Pk = Linf Pk + l .  100 
 fPk 
 
 
Siendo:
Linf Pk : límite inferior de la clase del percentil k.
Fant Pk : frecuencia acumulada correspondiente a la clase anterior a la clase
del percentil k.
fPk : frecuencia absoluta correspondiente a la clase del percentil k.
l : longitud de la clase del percentil k.
n : tamaño de la muestra.

ž Ejemplo:
A modo de ejemplo, calcularemos el tercer cuartil (Q3), el segundo decil (D2) y el
percentil 95 (P 95) en la serie de datos correspondiente a las estaturas de los
alumnos universitarios.

Intervalos xi fi Fi

[149 , 154) 151,5 4 4

[154 , 159) 156,5 3 7
[159 , 164) 161,5 18 25 ï Clase del D2
[164 , 169) 166,5 7 32
[169 , 174) 171,5 16 48 ï Clase del Q3
[174 , 179) 176,5 8 56
[179 , 184] 181,5 4 60 ï Clase del P95
n=60

Tercer cuartil (Q 3)

Estadística descriptiva y análisis de datos 49 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

La posición de la clase del tercer cuartil es

ºQ3 = 3.(n+1)/4 = 3.(60+1)/4 = 45,75º.
Luego, buscando el valor obtenido en la columna de la frecuencia acumulada, se ve
el intervalo correspondiente a la clase del tercer cuartil.

Estadística
Como el número obtenido en ºQ 3 no existe, se toma el intervalo inmediato supe-
rior.
La clase del tercer cuartil es [169 ; 174).
Una vez identificada la clase del tercer cuartil, calculamos el valor del tercer
cuartil dentro del intervalo, que se halla mediante la fórmula:
 3.n 
 − Fant Q 
 45 − 32 
3

Q3 = L inf Q3 + l .  4  = 169 + 5 .   = 173,06 cm

 fQ   16 
 
3

 
Interpretación: El 75% de las estaturas de los estudiantes universitarios obser-
vados son iguales o inferiores a 173,06 cm y el otro 25% son iguales o superiores
a 173,06 cm.

Segundo decil (D2)

La posición de la clase del segundo decil es
ºD2 = 2.(n+1)/10 = 2.(60+1)/10 = 12,2º.
Luego, buscando el valor obtenido en la columna de la frecuencia acumulada, se ve
el intervalo correspondiente a la clase del segundo decil.
Como el número obtenido en ºD 2 no existe, se toma el intervalo inmediato supe-
rior.
La clase del segundo decil es [159 ; 164).
Una vez identificada la clase del segundo decil, calculamos el valor del segundo
decil dentro del intervalo, que se halla mediante la fórmula:
 2.n 
 − Fant D  12 − 7 
 = 159 + 5 . 
2

D2 = L inf D2 + l .  10  = 160,39 cm
 fD   18 
 
2

 
Interpretación: El 20% de las estaturas de los estudiantes universitarios obser-
vados son iguales o inferiores a 160,39 cm y el otro 80% son iguales o superiores
a 160,39 cm.

Percentil noventa y cinco (P95)

La posición de la clase del percentil noventa y cinco es
ºP95 = 95.(n+1)/100 = 95.(60+1)/100 = 57,95º.
Luego, buscando el valor obtenido en la columna de la frecuencia acumulada, se ve
el intervalo correspondiente a la clase del percentil noventa y cinco.

Estadística descriptiva y análisis de datos 50 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

Como el número obtenido en ºP 95 no existe, se toma el intervalo inmediato supe-

rior.
La clase del percentil noventa y cinco es [179 ; 184].
Una vez identificada la clase del percentil noventa y cinco, calculamos el valor del

Estadística
percentil noventa y cinco dentro del intervalo, que se halla mediante la fórmula:
 95.n 
 − Fant P  57 − 56 
 = 179 + 5 . 
95

P95 = L inf P95 + l .  100  = 180,25 cm

 fP   4 
 
95

 
Interpretación: El 95% de las estaturas de los estudiantes universitarios obser-
vados son iguales o inferiores a 180,25 cm y el otro 5% son iguales o superiores a
180,25 cm.

Nota: Las medidas de posición no centrada pueden calcularse a partir del gráfico de la distribu-
ción acumulada (ojiva), aunque de manera aproximada.
Es conveniente realizar la ojiva colocando en ordenadas la frecuencia acumulada porcen-
tual. Ubicar el porcentaje deseado en el eje de ordenadas y ver a qué valor de abscisa
corresponde.

Estatura de un grupo de estudiantes uni-

Fi %
100%
90%
80%
70%
60%
50%
40%
30%
20%
10%
0% /
159 144 149 154 159 164 169 174 179 184 189 194 199 204

Estatura (en cm)

Decil 2 Percentil
95

Mediana Cuartil 3

Estadística descriptiva y análisis de datos 51 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

Ejercicio integrador

Estadística
Dada la siguiente tabla, correspondiente a las edades de un grupo de personas:
Edad Cantidad de personas
25 1
26 2
27 3
28 4
29 6
30 5
31 3
32 1
Calcular e interpretar:
a) La media aritmética
b) La mediana
c) El modo
d) El primer cuartil
e) El cuarto decil
f) El percentil 82
g) La varianza y la desviación estándar
h) El coeficiente de variación
Realizar el polígono de frecuencia correspondiente.

?Vamos a resolverlo juntos...

Dada la siguiente tabla, correspondiente a las edades de un grupo de personas:

Edad Cantidad de personas Frecuencia acumulada

xi fi Fi
25 1 1
26 2 3
27 3 6
28 4 10
29 6 16
30 5 21
31 3 24
32 1 25

Estadística descriptiva y análisis de datos 52 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

Calcular e interpretar:

a) La media aritmética
x = 28,76 años.
La edad promedio en este grupo de personas es, aproximadamente, de

Estadística
29 años.

b) La mediana
ºMe = (n+1) / 2 = 26 / 2 = 13 ⇒ Me = 29 años
Esto indica que el 50% de las personas tienen 29 años o menos y el otro
50% de las personas tienen 29 años o más.

c) El modo
Mo = 29 años
Esta edad es la más frecuente porque se presentó seis veces.

d) El primer cuartil
ºQ1 = (n+1) / 4 = 26 / 4 = 6,25 ⇒ Q1 = 28 años
Esto indica que el 25% de las personas tienen 28 años o menos y el otro
75% de las personas tienen 28 años o más.

e) El cuarto decil
ºD4 = 4.(n+1) / 10 = 4 . 26 / 10 = 10,4 ⇒ D4 = 29 años
Esto indica que el 40% de las personas tienen 29 años o menos y el otro
60% de las personas tienen 29 años o más.

f) El percentil 82
ºP82 = 82.(n+1) / 100 = 82 . 26 / 100 = 21,32 ⇒ P82 = 31 años
Esto indica que el 82% de las personas tienen 31 años o menos y el otro
18% de las personas tienen 31 años o más.

g) La varianza y la desviación estándar

s2 = 3,106666.. años2.
s = 1,762573876 años
En promedio la edad de este grupo de personas se aparta de la media
en aproximadamente 1,76 años.

h) El coeficiente de variación
s 1,7626
CV = = = 0,0613
x 28,76
El desvío estándar representa el 6,13% de la media.

Estadística descriptiva y análisis de datos 53 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

Realizar el polígono de frecuencia correspondiente.

f Edad d e un grupo d e personas

Estadística
7
6
5
4
3
2
1
0
X
25 26 27 28 29 30 31 32

A trabajar solos...

Aunque no tanto porque al final encontrará el ejercicio resuelto.

La precipitación anual de lluvias, aproximada a décima de centímetro, para un pe-

ríodo de 30 años es como sigue:

42,3 35,7 47,5 31,2 28,3 37,0 41,3 29,3 32,4 41,3 34,3 35,2 43,0 36,3 35,7
41,5 43,2 30,7 38,4 46,5 43,2 31,7 36,8 43,6 45,2 32,8 30,7 36,2 34,7 35,3

a) Clasificar los datos y construir una tabla de distribución de frecuencias.

b) Calcular la media, la mediana, el modo, el cuartil 1, el decil 4, el percentil 86 y
la desviación estándar. Interpretar los resultados obtenidos.
c) Representar gráficamente los datos en un histograma de frecuencias.

1.4 Descripción de datos: Gráfico de caja y extensiones

El gráfico de caja y extensiones fue descrito por Tukey, denominándolo ‘box

and whiskers’.
Para su construcción se utilizan cinco estadísticos de la distribución de fre-
cuencias: el mínimo, el primer cuartil, la mediana, el tercer cuartil y el máximo.
Explicaremos su construcción paso a paso:
• Antes de comenzar la graficación debemos calcular algunos valores que se-
rán necesarios para realizar el gráfico:

Estadística descriptiva y análisis de datos 54 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

o Valor mínimo: x mín

o Valor máximo: x máx
o Mediana: x ~
o Media aritmética: x

Estadística
o Primer cuartil: Q 1
o Tercer cuartil: Q 3
o Rango intercuartílico: RI = Q3 - Q1
o REF1 = Q 1 - [Link]
o REF2 = Q 1 - 1,[Link]
o REF3 = Q 3 + 1,[Link]
o REF4 = Q 3 + [Link]
• Se traza una línea horizontal de longitud proporcional al recorrido de la va-
riable, que llamaremos eje. Sobre el eje se señalarán las subdivisiones que
se consideren necesarias, para representar los datos de la muestra.
• Paralelamente al eje se construye una caja rectangular con altura arbitraria
y cuya base abarca desde el primer cuartil hasta el tercer cuartil. Como ve-
mos, esta caja indica gráficamente el intervalo de variación de al menos el
50% de los valores centrales de la distribución.
• La caja se divide en dos partes, trazando una línea a la altura de la mediana.
Cada una de estas partes indica, pues, el intervalo de variabilidad de al me-
nos una cuarta parte de los datos.
• A la caja, así dibujada, se añaden dos guías paralelas al eje, que llamaremos
extensiones o bigotes, una de cada lado, de la siguiente forma:
o el primero de estos segmentos se prolonga, hacia la izquierda, desde el
primer cuartil (o sea, desde la caja) hasta el mínimo de la distribución
o hasta el valor (observado en la muestra) igual o inmediato superior a
la REF2, según cuál de estos valores sea mayor.
o el segundo de estos segmentos se prolonga, hacia la derecha, desde el
tercer cuartil (o sea, desde la caja) hasta el máximo de la distribución
o hasta el valor (observado en la muestra) igual o inmediato inferior a
la REF3, según cuál de estos valores sea menor.
• Si alguno de los valores observados en la muestra queda fuera del intervalo
cubierto por la caja y estas extensiones, se señala en el gráfico mediante un
asterisco o cualquier otro símbolo que lo represente como un punto.
• Estos datos son los llamados valores atípicos (‘outliers’), que son valores muy
alejados de los valores centrales de la distribución. Lo indicaremos con ¢.
• Si se observan valores menores que Q1 - [Link] (REF1) o valores mayores que
Q3 + [Link] (REF4), éstos son los llamados valores anómalos, que son valores
más alejados que los atípicos de los valores centrales de la distribución. Lo
indicaremos con á.

Estadística descriptiva y análisis de datos 55 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

• Finalmente, se indica con un signo + el valor de la media aritmética.

REF1 REF2 REF3 REF4

Estadística
+ ¢ ¢ á

Gráfico de caja y extensiones hipotético

ž Ejemplo:
A partir de nuestro ejemplo (estaturas de los estudiantes universitarios), cons-
truiremos el gráfico de caja y extensiones. El gráfico de caja y extensiones se
realiza sólo para datos individuales, ya que es necesario identificar, si fuera ne-
cesario, los valores atípicos.
• En primer lugar, anotaremos la información necesaria:
o Valor mínimo: x mín = 149 cm
o Valor máximo: x máx = 184 cm
o Mediana: x ~ 167,5 cm
=
o Media aritmética: x = 166,55 cm
o Primer cuartil: Q 1 = 160 cm
o Tercer cuartil: Q 3 = 172,75 cm
o Rango intercuartílico: RI = Q3 - Q1 = 12,75 cm
o REF1 = Q 1 - [Link] = 121,75 cm
o REF2 = Q 1 - 1,[Link] = 140,88 cm
o REF3 = Q 3 + 1,[Link] = 191,88 cm
o REF4 = Q 3 + [Link] = 211,00 cm
• Debemos elegir el máximo entre xmín = 149 cm y REF2 = 140,88 cm, que en
nuestro caso es 149 cm, y es el valor hasta donde llegará la extensión iz-
quierda.
• Debemos elegir el mínimo entre xmáx = 184 cm y REF3 = 191,88 cm, que en
nuestro caso es 184 cm, y es el valor hasta donde llegará la extensión dere-
cha.
• Por lo anterior vemos que en nuestra muestra no se presentan valores atípi-
cos ni valores anómalos.

149 151 153 155 157 159 161 163 165 167 169 171 173 175 177 179 181 183 185

Estadística descriptiva y análisis de datos 56 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

Utilidades del gráfico de caja y extensiones

§ El gráfico de caja y extensiones nos proporciona la posición relativa de la
mediana, los cuartiles y extremos de una distribución.
§ El gráfico de caja y extensiones nos proporciona información sobre los valo-

Estadística
res atípicos, sugiriendo la necesidad de utilizar (o no) determinados esta-
dísticos.
§ El gráfico de caja y extensiones nos informa de la simetría o asimetría de la
distribución.
§ El gráfico de caja y extensiones se puede utilizar para comparar la misma
variable en dos muestras distintas.

ž Ejemplo:
Para verificar todas estas utilidades analizaremos una nueva serie estadística,
que contiene los pesos, en kilogramos, de un grupo de sesenta personas:
55 64 70 74 75 70 62 93 60 62 70 71
Varones
70 80 61 60 62 68 65 65 66 68 71 72

60 49 52 54 56 66 45 52 48 54 56 61
Mujeres 46 50 52 53 56 68 47 50 53 57 60 64
47 50 53 57 60 64 55 52 54 44 65 60

• En primer lugar, tomaremos la muestra en su conjunto (sin distinguir por

sexo) y anotaremos la información necesaria:
o Valor mínimo: xmín = 44 kg
o Valor máximo: xmáx = 93 kg
o Mediana: x~ 60 kg
=
o Media aritmética: x = 60,067 kg
o Primer cuartil: Q 1 = 53 kg
o Tercer cuartil: Q 3 = 66 kg
o Rango intercuartílico: RI = Q3 - Q1 = 13 kg
o REF1 = Q1 - [Link] = 14 kg
o REF2 = Q 1 - 1,[Link] = 33,5 kg
o REF3 = Q 3 + 1,[Link] = 85,5 kg
o REF4 = Q 3 + [Link] = 92 kg
• Debemos elegir el máximo entre xmín = 44 kg y REF2 = 33,5 kg, que en nues-
tro caso es 44 kg, y es el valor hasta donde llegará la extensión izquierda.
• Debemos elegir el mínimo entre xmáx = 93 kg y REF3 = 85,5 kg, que en nues-
tro caso es 85,5 kg, y es el valor hasta donde llegará la extensión derecha.
• Por lo anterior, vemos que en nuestra muestra, se presenta un valor anómalo
en el extremo superior de la muestra.

Estadística descriptiva y análisis de datos 57 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

REF3 REF4

+ á

Estadística
44 46 48 50 52 54 56 58 60 62 64 66 68 70 72 74 76 78 80 82 84 86 88 90 92 94

A continuación, clasificaremos la muestra según el sexo, realizando un gráfico de

caja para cada caso, a fin de comparar ambas distribuciones:

Varones
• En primer lugar, tomaremos la muestra de los varones y anotaremos la
información necesaria:
o Valor mínimo: xmín = 55 kg
o Valor máximo: xmáx = 93 kg
o Mediana: x~ = 68 kg
o Media aritmética: x = 68,083 kg
o Primer cuartil: Q1 = 62 kg
o Tercer cuartil: Q3 = 71 kg
o Rango intercuartílico: RI = Q3 - Q1 = 9 kg
o REF1 = Q1 - [Link] = 35 kg
o REF2 = Q1 - 1,[Link] = 48,5 kg
o REF3 = Q3 + 1,[Link] = 84,5 kg
o REF4 = Q3 + [Link] = 98 kg
• Debemos elegir el máximo entre xmín = 55 kg y REF2 = 48,5 kg, que en nues-
tro caso es 55 kg, y es el valor hasta donde llegará la extensión izquierda.
• Debemos elegir el mínimo entre xmáx = 93 kg y REF3 = 84,5 kg, que en nues-
tro caso es 84,5 kg, y es el valor hasta donde llegará la extensión derecha.
• Por lo anterior, vemos que en la muestra de varones, se presenta un valor
atípico en el extremo superior de la muestra.

Mujeres
• Ahora tomaremos la muestra de las mujeres y anotaremos la información
necesaria:
o Valor mínimo: xmín = 44 kg
o Valor máximo: xmáx = 68 kg
o Mediana: x~ 54 kg
=
o Media aritmética: x = 54,722 kg
o Primer cuartil: Q 1 = 50 kg
o Tercer cuartil: Q 3 = 60 kg

Estadística descriptiva y análisis de datos 58 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

o Rango intercuartílico: RI = Q3 - Q1 = 10 kg
o REF1 = Q1 - [Link] = 20 kg
o REF2 = Q 1 - 1,[Link] = 35 kg
o REF3 = Q 3 + 1,[Link] = 75 kg
o REF4 = Q 3 + [Link] = 90 kg

Estadística
• Debemos elegir el máximo entre xmín = 44 kg y REF2 = 35 kg, que en nuestro
caso es 44 kg, y es el valor hasta donde llegará la extensión izquierda.
• Debemos elegir el mínimo entre xmáx = 68 kg y REF3 = 75 kg, que en nuestro
caso es 68 kg, y es el valor hasta donde llegará la extensión derecha.
• Por lo anterior, vemos que en la muestra de mujeres, no se presenta valores
atípicos ni anómalos.

Mujeres

Varones

+ ¢

44 46 48 50 52 54 56 58 60 62 64 66 68 70 72 74 76 78 80 82 84 86 88 90 92 94

1.5 Distribuciones bidimensionales de frecuencias

En algunos estudios estadísticos tomamos, para cada individuo, valores de

dos variables estadísticas, por ejemplo, estatura y peso. Este tipo de análisis re-
quiere analizar ambas variables a la vez y su comportamiento en particular. Son
múltiples las aplicaciones que requieren de estos estudios, y, a la vez, son muchos
los conceptos que se ven involucrados. En este apartado haremos una introduc-
ción al análisis de datos en variables bidimensionales.

A. FRECUENCIAS CONJUNTAS, MARGINALES Y CONDICIONADAS

§ Si las variables en estudio son X e Y, donde X toma los valores x1, x 2, ..., x n e
Y toma los valores y1, y2, ..., y m. Podemos escribir los datos obtenidos de dis-
tintas maneras:

Estadística descriptiva y análisis de datos 59 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

o En forma de listado, que se usa, fundamentalmente, cuando los datos

son apareados y la cantidad de valores que toma X es la misma que to-
ma Y.
X Y

Estadística
x1 y1
x2 y2
M M
xi yi
M M
xn yn

o En forma de tabla de doble entrada o tabla de contingencia, que se

usa, fundamentalmente, cuando los pares de datos se repiten.

y1 y2 ... yj ... ym

x1 f11 f12 ... f1j ... f1m f 1.

x2 f21 f22 ... f2j . . . f2m f 2.

. . . . . .
. . . ... . ... . .
. . . . . .
xi fi1 fi2 ... fij ... fim f i.
. . . . . .
. . . ... . ... . .
. . . . . .
xn fn1 fn2 ... fnj ... fnm f n.

f .1 f .2 . . . f .j . . . f .m n

§ Los valores fij indican las frecuencias absolutas con que aparece el par ( x i ,
yj ). Estas frecuencias se llaman frecuencias conjuntas.
§ Los valores f i. indican la suma de las frecuencias absolutas correspondien-
tes a la i-ésima fila, es decir, las frecuencias correspondientes a X = xi. Es-
tas frecuencias se llaman frecuencias marginales. De forma análoga, los va-
lores f .j indican la suma de las frecuencias absolutas correspondientes a la
j-ésima columna, es decir, las frecuencias correspondientes a Y = yj.
§ Al analizar las frecuencias marginales, surge, naturalmente, la posibilidad de
obtener, a partir de la tabla de frecuencias bidimensionales, dos distribu-

Estadística descriptiva y análisis de datos 60 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

ciones unidimensionales, la que corresponde a X y la de Y. A las distribucio-

nes así obtenidas se las llama distribuciones marginales.
§ El valor n, corresponde a la suma de todas las frecuencias y se llama gran
total.

Estadística
§ Otro tipo de distribución para la variable X es la que puede obtenerse fi-
jando un valor Y = yj, que se conoce como distribución de X condicionada pa-
ra Y = yj. Análogamente, se puede obtener la distribución de Y condicionada
para X = x i.

Veremos un ejemplo, donde analizaremos los conceptos expuestos anteriormente:

ž Ejemplo:
Al clasificar una serie de modelos de automóviles por el número de cilindros y su
origen, se obtuvo la siguiente tabla:

Distribución del número de cilindros en una muestra de autos según su origen

Número de cilindros
4 6 8 Total
Europa 140 57 51 248
Origen Estados Unidos 40 12 20 72
Japón 27 15 36 78
Total 207 84 107 398

A partir de la tabla podemos obtener dos distribuciones marginales, sumando las

frecuencias de las filas y las columnas.
Podemos realizar con ellas tablas y gráficas, como vemos a continuación:

Distribución del número de

Distribución de los autos
cilindros según su origen
Número de cilindros Frecuencia Origen Frecuencia
4 207 Europa 248
6 84 Estados Unidos 72
8 107 Japón 78

250 300
250
200
200
150
150
100
100
50 50
0 0
4 6 8 Europa Estados Unidos Japón
Número de cilindros O rig e n

Estadística descriptiva y análisis de datos 61 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

Podemos obtener, también, distribuciones condicionadas, por ejemplo, la distri-

bución del número de cilindros para un origen en especial (lo haremos para Euro-
pa) o la distribución del origen para un determinado número de cilindros (lo
haremos para 6 cilindros).

Estadística
Podemos realizar con ellas tablas y gráficas, como vemos a continuación:

Distribución del número de cilindros para Distribución del origen de

automóviles europeos los autos de seis cilindros
Número de cilindros Frecuencia Origen Frecuencia
4 140 Europa 57
6 57 Estados Unidos 12
8 51 Japón 15

160 60
140 50
120
40
100
80 30
60
20
40
10
20
0 0
4 6 8 Europa Estados Unidos Japón
Número de cilindros O rig e n

Dependencia e Independencia Estadística

Diremos que la variable X es independiente de Y si se verifica que:

f ij = f i. . f . j / n para todos los pares ( xi , y j )

Dependencia Funcional y Dependencia Aleatoria

Generalmente, cuando se realiza un estudio estadístico se está interesado

en un carácter de los individuos de la población. Una de las preguntas a las cuales
se trata de dar respuesta es, si existe alguna relación entre dos variables X e Y.
Para algunos fenómenos, es posible encontrar una fórmula que exprese
exactamente los valores de una variable en función de la otra: son los llamados
fenómenos deterministas. Éste es el caso de dependencia funcional entre dos
variables. En este tipo de relación, los valores que toma una de las variables que-
dan determinados, de un modo preciso, por los valores que toma la otra variable,
que se considera como independiente. Por ejemplo, al estudiar la caída libre de un
cuerpo, donde Y representa la distancia recorrida y siendo X el tiempo transcu-
rrido desde su lanzamiento, para una constante g = 9,8 m/s2, se sabe que Y =
(1/2).g.X2.

Estadística descriptiva y análisis de datos 62 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

Existen muchos fenómenos en los que, al observar pares de valores corres-

pondientes a variables estadísticas, no es posible encontrar una fórmula que re-
lacione, de un modo funcional, esas variables. Si dichos pares de valores son re-
presentados en un sistema cartesiano, los puntos, en general, no se ajustan de un

Estadística
modo preciso a una curva plana, sino que se obtiene un conjunto de puntos más o
menos dispersos. Una representación de ese tipo recibe el nombre de nube de
puntos, diagrama de dispersión o dispersograma. Veamos algunos ejemplos:

Figura A Figura B Figura C

20
Y 10
Y 35
Y
30
8
15 25
6 20
10
4 15

5 10
2
5
0 0 0
0 1 2 3 4 5 6
X 0 1 2 3 4 5 6
X 0 1 2 3 4 5
X

Aunque puede apreciarse que en ninguno de los casos es posible encontrar

una relación funcional entre las dos variables, sin embrago, observamos una va-
riación conjunta de las variables. En la figura A la relación es inversa, puesto que
al crecer X, disminuye Y. En la Figura C, por el contrario, observamos una relación
directa, es decir, al crecer X, crece Y. Además, vemos que estos diagramas ‘tien-
den’ a la forma de alguna curva plana, es decir, si bien no es posible dar una fór-
mula que represente la relación entre las variables, podríamos aproximar la rela-
ción entre ellas con una recta de pendiente negativa en la figura A, con una pará-
bola invertida en la figura B y con una recta de pendiente positiva en la figura C.
Todos estos ajustes se trabajan con métodos de Cálculo Numérico como aproxi-
mación funcional por el método de los mínimos cuadrados.

El Concepto de Asociación

El estudio de la posible relación entre dos variables cuantitativas suele ini-

ciarse mediante la observación del correspondiente diagrama de dispersión. La
presencia de una relación entre las variables se pondrá de manifiesto en el dia-
grama por una cierta tendencia de los puntos a acumularse en las proximidades
de una línea, como hemos visto en los ejemplos anteriores.
Al tratar de estudiar si existe o no una relación entre dos variables esta-
dísticas, tratamos de analizar si hay algún tipo de relación entre ellas, si se pue-
de medir la intensidad de esta relación mediante algún coeficiente, si sirve este
coeficiente para comparar la intensidad de la relación de diferentes variables,
etcétera. Todos estos interrogantes nos llevan a la necesidad de conocer la aso-
ciación que existe entre las variables estudiadas.

Estadística descriptiva y análisis de datos 63 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

B. CORRELACIÓN Y REGRESIÓN

Hay dos enfoques, íntimamente relacionados en el estudio de las variables

Estadística
aleatorias bidimensionales. El primero se ocupa de dar medidas de la dependencia
entre las variables unidimensionales que entran en la variable bidimensional y se
denomina teoría de la correlación. El segundo trata de dar medios de obtener,
aproximadamente, el valor de una de las variables, cuando se da el valor de la
otra y se lo llama teoría de la regresión o ajuste de curvas.
Más precisamente, los métodos estadísticos presentados hasta ahora se
han referido a una sola variable X. Muchos de los problemas del trabajo estadís-
tico, sin embargo, involucran dos o más variables. Veremos el método aplicado al
caso de dos variables; pero puede aplicarse a más de dos.
En algunos problemas, las variables se estudian simultáneamente, para ver la
forma en que se encuentran interrelacionadas; en otros se tiene una variable de
interés particular y las restantes se estudian por la posibilidad de que aclaren
aspectos de la primera. Estas dos clases de problemas se conocen, por lo general,
con los nombres de correlación y regresión, respectivamente.

Correlación Lineal

Un problema de correlación se presenta cuando el individuo se pregunta si

existe alguna relación entre un par de variables que le interesan, por ejemplo,
¿existe alguna relación entre el uso del tabaco y las afecciones cardíacas?, ¿en-
tre la capacidad de aprender música y la aptitud científica?, ¿entre la recepción
de ondas de radio y la actividad de las manchas solares?, ¿entre la belleza y la
inteligencia?

ž Ejemplo:
Con objeto de ilustrar la forma en que se procede a estudiar la relación entre
dos variables, analizaremos un ejemplo sobre los promedios de calificaciones co-
rrespondientes al último año de la escuela y al primer año universitario. El pro-
medio de la escuela se designa con X y el promedio universitario con Y.

X Y X Y X Y
3,0 2,4 2,9 1,9 3,1 2,8
2,4 2,6 2,7 2,2 3,3 3,2
3,7 3,0 3,7 3,1 2,7 1,8
3,6 3,9 2,7 2,6 3,5 2,7

Estadística descriptiva y análisis de datos 64 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

3,8 3,6 3,3 2,8 2,9 2,1

2,9 3,0 2,8 2,7 2,7 1,7
3,5 3,1 3,1 2,4 2,9 1,7
3,0 2,8 2,8 3,0 3,2 2,3

Estadística
2,3 2,2 3,0 3,3 3,4 2,6
3,0 2,9 2,2 1,8 2,5 2,7

La investigación de la relación entre las dos variables comienza, general-

mente con un intento de descubrir la forma aproximada de la relación, marcando
los datos, como puntos en el plano cartesiano de coordenadas. Esta gráfica reci-
be el nombre de diagrama de dispersión. Por este medio, puede decirse con faci-
lidad si existe o no una relación acentuada y, en este caso, si puede tratarse co-
mo aproximadamente lineal.
El diagrama de dispersión para las treinta calificaciones se muestra en la fi-
gura:

Y
4,5
4
3,5
3
2,5
2
1,5
1
0,5
0
0 0,5 1 1,5 2 2,5 3 3,5 4 X

La observación de este diagrama de dispersión muestra que existe una ten-

dencia de los valores bajos de X a estar asociados con los valores bajos de Y, así
como también tienden a asociarse entre sí los valores altos de ambas variables.
Por otra parte, y aunque vago, el aspecto general del diagrama de dispersión es,
el de una línea recta.

Covarianza

En el caso de variables numéricas podemos emplear algunos coeficientes

cuyo valor nos indica el tipo de relación entre las variables. El primero de ellos es
la covarianza, que se indica con Sxy y cuya fórmula de cálculo viene dada por la
expresión:

Estadística descriptiva y análisis de datos 65 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

∑ (x
i
i − x )(yi − y )
Sxy =
n

La covarianza tiene las siguientes características:

Estadística
§ Es igual a cero si las variables son independientes.
§ Es positiva si las variables tienen dependencia directa.
§ Es negativa en caso de dependencia inversa.

Coeficiente de Correlación

Un problema de la covarianza es que no hay un máximo para el valor que

puede tomar, por lo cual no nos sirve para comparar la mayor o menor intensidad
de la relación entre las variables.
Un coeficiente que permite estudiar, no sólo la dirección de la relación, sino
también su intensidad, es el coeficiente de correlación lineal o coeficiente de
Pearson, que se define como:
Sxy
r =
[Link]
siendo Sx y S y, las desviaciones estándar de las variables X e Y en la muestra
analizada.

Puesto que las desviaciones estándar son positivas, r tiene el signo de la co-
varianza y, por tanto:
§ Si r > 0, la relación entre las variables es directa.
§ Si r < 0, la relación entre las variables es inversa.
§ Si r = 0, no existe relación lineal entre las variables.
§ Si r = +1, la correlación lineal es perfecta y positiva.
§ Si r = -1, la correlación lineal es perfecta y negativa.

En función de los datos originales, r se define por la siguiente fórmula:

  
n.∑ [Link] −  ∑ xi  ∑ yi 
r= i  i  i 
2 2
   
n.∑ xi 2
−  ∑ xi  . n.∑ yi2 −  ∑ yi 
i  i  i  i 

Si se calcula el coeficiente de correlación a partir de los datos de nuestro

ejemplo, se obtendrá r = 0,63, este valor de la correlación entre promedios de la
escuela y la universidad es típico del coeficiente de correlación entre calificacio-

Estadística descriptiva y análisis de datos 66 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

nes correspondientes a muchos pares de materias. La correlación entre matemá-

tica y física puede esperarse un tanto mayor mientras que la correlación entre
las calificaciones de matemática y arte dramático se esperaría baja.

Estadística
Analizaremos dos propiedades de r:

§ El valor de r debe satisfacer las desigualdades:

-1 ≤ r ≤ +1
§ El valor de r será igual a +1 o -1 si y sólo si todos los puntos del diagrama se
encuentran sobre una línea recta.

Para interpretar el valor de r y descubrir cuáles valores de r son de espe-

rarse en los diversos tipos de relaciones entre X e Y, se presentan algunos dia-
gramas de dispersión con los correspondientes valores de r:

(a) (b) (c)

60
Y 45
Y 20
Y
40
50
35 15
40 30
25
30 10
20
20 15
10 5
10
5
0 0 0
0 1 2 3 4 5 6
X 0 1 2 3 4 5 6
X 0 1 2 3 4 5 6
X

r=0 r = 0,6 r = 0,8

(d) (e) (f)

35
Y 20
Y 10
Y
30
8
25 15

20 6
10
15 4
10 5
2
5
0 0 0
0 1 2 3 4 5
X 0 1 2 3 4 5 6
X 0 1 2 3 4 5 6
X

r→1 r = - 0,8 r→0

o Los diagramas (a), (b), (c) y (d) corresponden a dispersiones con relación
lineal cada vez más acentuada.
o El diagrama (e) es una imagen en espejo del (c), con esto se ve que el valor
absoluto de r mide la fuerza de la relación lineal, pero que el signo de r es

Estadística descriptiva y análisis de datos 67 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

positivo si Y tiende a crecer al aumentar X, y es negativo si Y tiende a dis-

minuir al crecer X.
o En el diagrama (f), X e Y están fuertemente relacionadas, pero la relación
no es lineal.

Estadística
o Este ejemplo indica bien que r es una medida útil para observar lo estre-
chamente que estén relacionadas dos variables, sólo cuando hay una relación
lineal entre ellas.

Interpretación del Coeficiente de Correlación

La interpretación del coeficiente de correlación como medida del grado de

relación lineal entre dos variables es una interpretación matemática pura y está
completamente desprovista de implicaciones de causa y efecto. El hecho de que
dos variables tiendan a aumentar o disminuir al mismo tiempo no implica que una
tenga algún efecto directo o indirecto en la otra. Ambas pueden estar sometidas
a la influencia de otras variables, de manera que resulten con una estrecha rela-
ción matemática, por ejemplo, en un período de varios años el coeficiente de co-
rrelación entre los sueldos de maestros y el consumo de licor ha resultado ser de
0,98. Durante este lapso se ha presentado una tendencia ascendente en sueldos y
salarios de todos los tipos y una tendencia general a mayores comodidades de
vida. En tales condiciones, los salarios de los maestros también habrían de au-
mentar. Además, la tendencia general de aumento de salarios y poder adquisitivo,
así como el aumento de población, se vería reflejada en un aumento en el consumo
de licor. Así pues, la alta correlación refleja sólo el efecto común de una tenden-
cia ascendente de las dos variables. Sería incorrecto suponer, por ejemplo, que
los maestros gastan su sueldo en la compra de licores.
Los coeficientes de correlación deben manejarse con cuidado si se va a dar
una información sensata respecto a la relación entre pares de variables. El utili-
zarlas correctamente requiere familiarización con el campo de aplicación, así co-
mo con sus propiedades matemáticas.
Los coeficientes de correlación han probado ser muy útiles para los casos en
que es importante determinar la interrelación de algunas variables que se estu-
dian simultáneamente.
§ Los valores de r igual a 0,3 y 0,6 sólo significan que tenemos dos correlacio-
nes positivas, una algo más fuerte que la otra.
§ Es incorrecto concluir que r = 0,6 indica una relación lineal el doble de buena
que la que indica el valor r = 0,3.
§ Al valor de r² se lo denomina coeficiente de determinación y expresa la
proporción de la variación total en los valores de Y que se pueden explicar
mediante una relación lineal.

Estadística descriptiva y análisis de datos 68 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

§ Una correlación r = 0,6 significa que 0,36 ó 36 % de la variación total de los

valores de Y en nuestra muestra, se explican mediante una relación lineal
con los valores de X.

Estadística
Regresión Lineal

Es usual estudiar dos o más variables con la esperanza de que cualquier re-
lación que se encuentre pueda usarse para hacer estimaciones o predicciones
acerca de una de las variables en particular.
Al estudiar la correlación entre las calificaciones, la intención es, obviamen-
te usar esa relación para tratar de predecir el éxito académico de un estudiante
universitario a partir del conocimiento de su promedio en la escuela.
El coeficiente de correlación sólo indica qué tan estrecha es la relación li-
neal entre las variables y no es capaz de resolver problemas de predicción. De
manera semejante, si se calcularan coeficientes de correlación entre promedios
de las calificaciones universitarias y resultados de pruebas de aptitud y vocabu-
lario, esas correlaciones sólo servirían para indicar cuáles de estas variables con-
viene incluir en una función de predicción del éxito académico.
Los métodos que se han desarrollado para manejar problemas de predicción
se conocen como métodos de regresión.

ž Ejemplo:
Con objeto de explicar los métodos de regresión, consideremos el problema par-
ticular de predecir el rendimiento en forraje en función de la cantidad de agua
de irrigación aplicada, que se presenta en la siguiente tabla:

Agua (X) 12 18 24 30 36 42 48
Rendimiento (Y) 5,27 5,68 6,25 7,21 8,02 8,71 8,42

La cantidad de agua se mide en pulgadas y el rendimiento, en toneladas, de forra-

je del terreno de una granja experimental.

La gráfica de estos datos es:

5
Y

0
0 20 40 60

Estadística descriptiva y análisis de datos 69 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

Sin duda, surge la necesidad de encontrar la ecuación de esta recta, para calcu-
lar, fácilmente, el valor de Y para un valor de X dado.
Veremos un método para encontrar esta ecuación:

Estadística
La ecuación de la recta de regresión es ŷ = a + b.x
  
∑y i − b.∑ xi n.∑ xi.y i −  ∑ xi  ∑ yi 
siendo a= i i
y b= i  i  i 
2
n  
n.∑ xi −  ∑ xi 
2

i  i 

(Éste es el enfoque matricial que da el Cálculo Numérico... ¿Se acuerda?)

En el ejemplo del agua y la ganancia, a = 3,99 y b = 0,103, luego la recta de re-
gresión de y sobre x que ya fue representada es: y’ = 3,99 + 0,103. x

Galton, uno de los pioneros en el campo de la estadística aplicada ha dado este

nombre a la recta, en conexión con ciertos estudios que efectuaba para la esti-
mación de la medida en la que regresa la estatura del hijo de padre alto, hacia la
estatura media de la población, es decir, él descubrió que hijos de padres altos
tienen tendencia a ser más bajos que él y los hijos de padres bajos tienen ten-
dencia a ser más altos que su padre.

Interpolación y Extrapolación

Supóngase, que se considera que la relación entre el rendimiento promedio y

el agua es estrictamente lineal en esta región de valores de X. Esto significa que,
si se hubiera repetido el experimento muchas veces en las mismas condiciones de
crecimiento y se hubieran promediado por separado los valores de Y correspon-
dientes a cada uno de los siete valores de X, estos promedios hubiesen dado un
conjunto de puntos casi precisamente sobre una línea recta. Mientras mayor sea
el número de estas repeticiones, mayor será la precisión esperada. Esta suposi-
ción dice, esencialmente, que existe una línea recta teórica que expresa la rela-
ción lineal entre el valor medio teórico de Y y el valor correspondiente de X.
Si se acepta la linealidad, entonces se esperaría que el valor dado por la lí-
nea recta ajustada a la muestra, que es casi igual a 7, fuese más cercano al valor
de la línea teórica para x = 30 que el valor observado de 7,21, porque es de espe-
rarse más estabilidad en la línea recta de muestra que en una sola observación
puntual. En vista de este razonamiento, se puede predecir el valor de la línea teó-
rica correspondiente a x = 30 como el correspondiente valor de y sobre la línea
de regresión de muestra.

Estadística descriptiva y análisis de datos 70 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

Si se tiene interés en un valor intermedio de X, que no ha sido analizado en

la muestra, se emplea la línea de regresión para encontrar el valor predicho para
y, correspondiente al valor de x. Diremos, en este caso, que hacemos interpola-
ción. Sin dudas, la predicción será mejor cuanto más ajustados a la recta se pre-

Estadística
senten los datos de la muestra. Hacer predicción para valores de X fuera del
rango de la muestra se llama extrapolación y, en general, si se supone que la rela-
ción es lineal sólo en esta región de valores de X, no es legítimo usar la línea re-
cta para predecir valores de Y fuera de este intervalo de valores de X.

Resumiendo...

En el problema de correlación correspondiente al diagrama de dispersión,

los datos consistían en una muestra aleatoria de treinta estudiantes, esto signi-
fica que tanto X como Y son variables estadísticas cuyos valores quedan deter-
minados sólo después de obtenida la muestra.

En el problema de regresión, sin embargo, los valores de X se eligieron de

antemano, de manera que sólo los valores de Y se han determinado por muestra.
Ahora bien, la técnica para ajustar una recta a un conjunto de puntos se puede
aplicar independientemente de que los valores de X sean fijados de antemano o
se obtengan de muestras al azar. Luego, los métodos de regresión podrían haber-
se aplicado a datos del tipo considerado en el estudio de correlación. Por otra
parte, la interpretación de r como medida del grado de relación lineal entre dos
variables, obviamente, no se aplica, si los valores de X se seleccionan de manera
no aleatoria, debido a que el valor de r por lo general dependerá, en buena medi-
da, de la elección de los valores de X.

Los coeficientes de correlación no se prestan a enunciados cuantitativos, a

menos que se asocien con la regresión. Así pues, la correlación por lo general es
sólo la primera parte en el estudio de la relación de dos variables, mientras que la
regresión es la técnica básica en este tipo de estudios.

1.6 Aspectos éticos

Muy frecuentemente la Estadística es mal utilizada. Los estadísticos debe-

rían tener cuidado para evitar los malos usos. Los docentes deberían advertir a
sus alumnos, para evitar mediante la educación, la proliferación de ellos. Los ma-
los usos más frecuentes ocurren por la siguientes razones: datos estadísticos
inadecuados, sesgos personales, supuestos falsos, indicación falsa de relaciones,
comparaciones impropias y errores en operaciones matemáticas.

Estadística descriptiva y análisis de datos 71 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

El análisis de datos debe basarse en un comportamiento ético intachable

porque es muy fácil utilizar las medidas adecuadas para que los datos “digan” lo
que el que está realizando el análisis al describir los datos quiere que digan.
Además, se presta para realizar gráficos que “dibujen” la realidad deseada, a fin

Estadística
de engañar, a través de la manipulación de los datos.

¡A repasar...!

Para autoevaluarse, responda las preguntas que están a

continuación. Puede hacerlo con el material de estudio, pero
asegurándose que “entiende” cada palabra, a tal punto que usted
podría explicarle a un amigo, que no conoce el tema, de manera
simple, los conceptos estudiados:

þ ¿De qué manera se pueden presentar los datos para realizar un estudio
estadístico?
þ ¿Qué ventajas y desventajas ofrece cada una de las formas de presen-
tación de datos?
þ ¿Cómo se describe gráficamente un conjunto de datos?
þ ¿Se describen de igual manera los conjuntos de datos cualitativos que
cuantitativos?
þ ¿A qué llamamos patrón de comportamiento de un conjunto de datos?
þ ¿Cómo se describe numéricamente un conjunto de datos?
þ ¿Qué medidas caracterizan a un conjunto de datos?
þ ¿Qué característica tienen las medidas de tendencia central?
þ ¿Cuáles son las ventajas y desventajas de cada una de las medidas de
tendencia central?
þ ¿A qué llamamos media pesada o media ponderada?
þ ¿Qué característica tienen las medidas de dispersión?
þ ¿Qué es una puntuación Z? ¿Cuál es su utilidad?
þ ¿Qué característica tienen las medidas de posición no centradas?
þ ¿Qué aporta el gráfico de caja y extensiones al análisis gráfico de da-
tos?

Estadística descriptiva y análisis de datos 72 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

þ ¿Qué medidas descriptivas se pueden leer en un gráfico de caja y ex-

tensiones? ¿Cuáles no se pueden leer?
þ ¿Cuándo un dato es atípico y cuándo es anómalo?
þ ¿Cómo se puede presentar una distribución bidimensional de variables?

Estadística
þ ¿Qué es una distribución marginal?
þ ¿Cómo se define la independencia estadística?
þ ¿Es lo mismo dependencia funcional que dependencia estocástica? ¿Por
qué?
þ ¿Qué es una distribución condicionada?
þ Defina el concepto de asociación.
þ ¿Cuándo y para qué se utiliza un análisis de regresión?
þ ¿Cuándo y para qué se utiliza un análisis de correlación?
þ ¿Qué diferencia hay entre regresión y correlación?
þ ¿Qué es la covarianza?
þ ¿Cuáles son las características del coeficiente de correlación?
þ ¿Cómo se debe interpretar el coeficiente de correlación?
þ ¿Qué es interpolar? ¿Qué es extrapolar?
þ ¿Son ambas acciones válidas para un análisis estadístico?

Por favor, no avance al siguiente tema si tiene

dudas o no recuerda las
nociones aquí volcadas.
Pero si se siente listo
para continuar, es hora de empezar a trabajar con las
autoevaluaciones y las aplicaciones prácticas...

Respuestas

Para pensar

Estadística descriptiva y análisis de datos 73 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

§ Según el mito popular, ¿qué tipo de distribución tiene la variable: “Cantidad

de maniobras que debe hacer una mujer para estacionar correctamente un
auto, entre otros dos”?
La respuesta depende de cuán machista o feminista sea el que conteste, pe-

Estadística
ro tratando de encontrar un punto de equilibrio, y en base al mito popular,
podemos decir que una gráfica más o menos representativa sería:

8
7
6
Frecuencia simple

5
4
3
2
1
0
0 2 4 6 8 10 12 14 16 18 20 22

Cantidad de maniobras

Que la gráfica termine aquí no significa que la variable no pueda tomar

valores mayores a 20, sino que es en estos casos cuando las mujeres
deciden pagar una playa de estacionamiento.

Nota a pedido del profesor titular (que es varón): Él no intervino en la reali-

zación de este gráfico...
§ A continuación se presentan tablas y gráficos que representan el compor-
tamiento de algunas variables analizadas en el mismo grupo de estudiantes.
• En base a la observación de las tablas y gráficas, responda:
o ¿A qué nivel educativo supone que pertenecen estos alumnos?
Al observar la distribución de las estaturas se podría decir que son
alumnos universitarios o de los últimos años de Polimodal.
Distribución de la Estatura de los alumnos
18
frecuencia de clase

15
12

9
6
3
0
150 160 170 180 190 200
Estatura

o ¿Qué tipos de chistes causarían más efecto, los machistas o los fe-
ministas?

Estadística descriptiva y análisis de datos 74 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

Según la distribución de los sexos, hay más mujeres que hombres,

por lo que seguramente agradarían y causarían más efecto los chis-
tes feministas.

Distribución de frecuencias del SEXO de los alumnos

Estadística
---------------------------------------------------------
Frecuencia Acumulada
Sexo Valor Absoluta Relativa Absoluta Relativa
---------------------------------------------------------
Hombre 1 17 0.2833 17 0.2833
Mujer 2 43 0.7167 60 1.0000
---------------------------------------------------------

Gráfico de sectores para la variable:

Sexo Sexo
28.33% 1
2

71.67%

o Respecto a la tabla DEPORTES:

¿Cómo definimos la variable que se refiere a la práctica deportiva?
Cantidad de veces que realiza actividades deportivas.

Tabla de frecuencia para la variable DEPORTE

----------------------------------------------------------------
Frecuencia Acumulativa
Deporte Valor Absoluta Relativa Absoluta Relativa
----------------------------------------------------------------
POCO 1 15 0,2500 15 0,2500
FRECUENTEMENTE 2 32 0,5333 47 0,7833
SISTEMÁTICAMENTE 3 13 0,2167 60 1,0000
----------------------------------------------------------------
POCO: Sólo de vez en cuando
FRECUENTEMENTE: Una vez por semana
SISTEMÁTICAMENTE: Dos o más veces por semana
¿Cómo la codificamos?
POCO: Sólo de vez en cuando
FRECUENTEMENTE: Una vez por semana
SISTEMÁTICAMENTE: Dos o más veces por semana
¿Cuál es la escala de medición?
La variable es cualitativa, medida en escala ordinal.
o ¿Qué puede decir respecto al patrón de comportamiento de la va-
riable “Número de Calzado”?
La variable “Número de Calzado” presenta un comportamiento
muy interesante, ya que la curva parece tener dos partes.

Estadística descriptiva y análisis de datos 75 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

Distribución para el Número de Calzado

Porcentaje
16

12
8

Estadística
4

0
34 36 38 40 42 44 46 48
Calzado

La primera que se observa concentra los valores más pequeños,

hasta el número 39 y, la segunda, concentra al resto de los valo-
res, presentándose así, como dos “lomas”.

Dist ribución para el Número d e calzado

24%

20%

16%

12%
8%

0%
34 36 38 40 42 44 46 48

Númer o de calz ado

Este patrón de comportamiento indica que hay dos grupos cla-

ramente separados por sexo, donde las mujeres tienen menor
número de calzado y los varones calzan más.
¿Cuál es la escala de medición?
La variable es cuantitativa, medida en escala de intervalo.
o ¿Es coherente la distribución del número de calzados con el sexo de
los estudiantes? ¿Por qué?
La distribución es coherente porque logra discriminar el grupo
de varones del de mujeres.
¿Por qué la primera “loma” es más alta? La respuesta es simple,
porque hay más mujeres que varones en este grupo de estudian-
tes. Sólo por eso se ven con más frecuencia números bajos en el
calzado.
o ¿Cómo se “comporta” la estatura de los alumnos?
La estatura de los alumnos presenta un leve sesgo a derecha,
con un intervalo modal entre 162,50 cm y 168,75 cm.

Estadística descriptiva y análisis de datos 76 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

Distribución de la Estatura de los alumnos

frecuencia de clase
15
12
9

Estadística
6
3
0
150 160 170 180 190 200
Estatura

Distribución de la Estatura de los alumnos

18
16
Frecuencia de clase

14
12
10
8
6
4
2
0
150 160 170 180 190 200

Estatura

Para pensar
La siguiente es la distribución de los salarios de los empleados de una pequeña fá-
brica:
Salario Cantidad de empleados
$10000 1
$2500 1
$1000 1
$500 2
$200 4

Los empleados realizan una huelga para pedir mejora de sus salarios. Un periodista
realiza una nota preguntando cuál es el salario medio.
¿Qué medida de tendencia central daría usted si...

En primer lugar vamos a calcular las medidas de tendencia central estudiadas:

Ÿ x = $ 1700
Ÿ ºMe = (n+1) / 2 = 10 / 2 = 5 ⇒ Me = $ 500
Ÿ Mo = $ 200
a) ... fuera el dueño?
Si fuera el dueño daría el valor de la media aritmética.
b) ... fuera un representante sindical?
Si fuera el representante sindical daría el valor de la moda.

Estadística descriptiva y análisis de datos 77 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

c) ... fuera un investigador científico?

Si fuera un investigador científico daría el valor de la mediana y además acla-
raría que la muestra es muy heterogénea.

Estadística
A trabajar solos...
La precipitación anual de lluvias, aproximada a décima de centímetro, para un pe-
ríodo de 30 años es como sigue:

42,3 35,7 47,5 31,2 28,3 37,0 41,3 29,3 32,4 41,3 34,3 35,2 43,0 36,3 35,7
41,5 43,2 30,7 38,4 46,5 43,2 31,7 36,8 43,6 45,2 32,8 30,7 36,2 34,7 35,3

a) Clasificar los datos y construir una tabla de distribución de frecuencias.

28,3 29,3 30,7 30,7 31,2 31,7 32,4 32,8 34,3 34,7
35,2 35,3 35,7 35,7 36,2 36,3 36,8 37,0 38,4 41,3
41,3 41,5 42,3 43,0 43,2 43,2 43,6 45,2 46,5 47,5

xmín = 28,3
xmáx = 47,5
R = xmáx - xmín = 19,2
k = 1 + 3,[Link] n ≈ 5,8745 ≈ 6
l = R / k = 19,2 / 6 = 3,2

Intervalos xi fi Fi
[28,3 ; 31,5) 29,9 5 5
[31,5 ; 34,7) 33,1 4 9
[34,7 ; 37,9) 36,3 9 18
[37,9 ; 41,1) 39,5 1 19
[41,1 ; 44,3) 42,7 8 27
[44,3 ; 47,5] 45,9 3 30
b) Calcular la media, la mediana, el modo, el cuartil 1, el decil 4, el percentil 86 y
la desviación estándar. Interpretar los resultados obtenidos.
Media aritmética:
x = 37,58 cm
La precipitación anual de lluvias promedio es de 37,58 cm.
Mediana:
ºMe = (n+1) / 2 = 31 / 2 = 15,5 ⇒ Me ∈ [ 34,7 ; 41,1 )

Estadística descriptiva y análisis de datos 78 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

 n − Fant Me   30 
   −9
Me = Li Me + l.  2  = 34,7 + 3,2.  2  = 36,8333... cm
 fMe   9 
   
Esto indica que el 50% de los años la precipitación anual fue de 36,792 cm o

Estadística
menos y en el otro 50% la precipitación anual fue de 36,792 cm o más.
Modo:
Mo ∈ [34,7 ; 37,9)
 •1   5 
Mo = xMo = L inf Mo + l .   = 34,7 + 3,2.   = 35,93 cm
 •1 + •2  5 + 8 
Siendo:
∆1 = 9 - 4 = 5 ∆2 = 9 - 1 = 8
La precipitación anual más frecuente es de 35,93 cm.
Primer cuartil:
ºQ1 = (n+1) / 4 = 7,75 ⇒ Q1 ∈ [31,5 ; 34,7)
 1.n 
 − Fant Q 
 7,5 − 5 
1

Q1 = L inf Q1 + l .  4  = 31,5 + 3,2.   = 33,5 cm

 fQ   4 
 
1

 
Esto indica que el 25% de los años la precipitación fue de 33,5 cm o menos y
el otro 75% de los años la precipitación fue de 33,5 cm o más.
Cuarto decil:
ºD4 = 4.(n+1) / 10 = 12,4 ⇒ D4 ∈ [ 34,7 ; 41,1 )
 4.n 
 − Fant D 
 12 − 9 
4

D4 = L inf D4 + l.  10  = 34,7 + 3,2.   =35,7666... cm

 fD   9 
 
4

 
Esto indica que el 40% de los años la precipitación fue de 35,77 cm o menos y
el otro 60% de los años la precipitación fue de 35,77 cm o más.
Percentil 86:
ºP86 = 86.(n+1)/100 = 26,66 ⇒ P86 ∈ [41,1 ; 44,3)
 86.n 
 − Fant P  25,8 − 19 
 = 41,1 + 3,2. 
86

P86 = L inf P86 + l.  100  =43,82 cm

 fP   8 
 
86

 
Esto indica que el 86% de los años la precipitación fue de 43,82 cm o menos y
el otro 14% de los años la precipitación fue de 43,82 cm o más.
Desviación estándar:
s = 5,288269 cm
En promedio la precipitación anual de lluvias se aparta de la media en
aproximadamente 5,2883 cm.
c) Representar gráficamente los datos en un histograma de frecuencias.

Estadística descriptiva y análisis de datos 79 Estadística Técnica

Cátedra: Estadística Técnica UT1
Facultad de Ingeniería Estadística descriptiva y análisis de datos
UNCuyo D. Fernández & M. Guitart

Estadística
6

28,3 31,5 34,7 37,9 41,1 44,3 47,5 X

Estadística descriptiva y análisis de datos 80 Estadística Técnica

También podría gustarte

Clase 1 Estadistica
Aún no hay calificaciones
Clase 1 Estadistica
72 páginas
Ajuste de Curvas en Ingeniería
100% (1)
Ajuste de Curvas en Ingeniería
20 páginas
Cálculo Integral: Áreas y Costos
Aún no hay calificaciones
Cálculo Integral: Áreas y Costos
35 páginas
Estadistica - Ejercicios 1
Aún no hay calificaciones
Estadistica - Ejercicios 1
3 páginas
Análisis de Correlación y Covarianza
Aún no hay calificaciones
Análisis de Correlación y Covarianza
25 páginas
Proyecto en Stata - Espol
Aún no hay calificaciones
Proyecto en Stata - Espol
18 páginas
Cuantificación de Proteínas Con El Método de Biuret
Aún no hay calificaciones
Cuantificación de Proteínas Con El Método de Biuret
7 páginas
Tabla de Ponderacion
Aún no hay calificaciones
Tabla de Ponderacion
1 página
Clase 3 Tratamiento de Variables Cualitativas1
Aún no hay calificaciones
Clase 3 Tratamiento de Variables Cualitativas1
23 páginas
Informe 2-Física
Aún no hay calificaciones
Informe 2-Física
5 páginas
Cahuana Vargas Rodrigo Laboratorio 3
100% (2)
Cahuana Vargas Rodrigo Laboratorio 3
18 páginas
Estadistica Inferencial Prueba de Hipotesis
Aún no hay calificaciones
Estadistica Inferencial Prueba de Hipotesis
43 páginas
Estadística Descriptiva y Ejemplos
Aún no hay calificaciones
Estadística Descriptiva y Ejemplos
55 páginas
Cálculo de Incertidumbre en Medición
Aún no hay calificaciones
Cálculo de Incertidumbre en Medición
6 páginas
UD2 - Regesion Lineal
Aún no hay calificaciones
UD2 - Regesion Lineal
24 páginas
La Prueba Binomial
Aún no hay calificaciones
La Prueba Binomial
11 páginas
Contraste de Hipótesis: Diferencia de Medias
100% (1)
Contraste de Hipótesis: Diferencia de Medias
4 páginas
Guia de Laboratorio 7 Regresion Exponencial
Aún no hay calificaciones
Guia de Laboratorio 7 Regresion Exponencial
15 páginas
Prueba de Normalidad Kolmogórov-Smirnov
Aún no hay calificaciones
Prueba de Normalidad Kolmogórov-Smirnov
10 páginas
Informe Reacciones de Óxido Reducción Redox
67% (3)
Informe Reacciones de Óxido Reducción Redox
7 páginas
Guia de Estadistica General 2014-II
Aún no hay calificaciones
Guia de Estadistica General 2014-II
250 páginas
Mru (Tortilleria)
Aún no hay calificaciones
Mru (Tortilleria)
4 páginas
Tesis Giovanni Jimenez
Aún no hay calificaciones
Tesis Giovanni Jimenez
48 páginas
Resolución 2do Parcial Algebra Lineal
Aún no hay calificaciones
Resolución 2do Parcial Algebra Lineal
3 páginas
Taller 5 Unidad 5
Aún no hay calificaciones
Taller 5 Unidad 5
3 páginas
La Prueba U de Mann-Whitney
Aún no hay calificaciones
La Prueba U de Mann-Whitney
8 páginas
Análisis de Muestras Pequeñas
100% (1)
Análisis de Muestras Pequeñas
16 páginas
Coeficiente de Asimetría
Aún no hay calificaciones
Coeficiente de Asimetría
6 páginas
Acreditación Ing. Química UMSS
Aún no hay calificaciones
Acreditación Ing. Química UMSS
57 páginas
Método de Hückel en Teoría de Orbitales
Aún no hay calificaciones
Método de Hückel en Teoría de Orbitales
10 páginas
Análisis Estadístico de Viviendas en Stata
Aún no hay calificaciones
Análisis Estadístico de Viviendas en Stata
33 páginas
Matemáticas 4º Eso Estadística Bidimensional
Aún no hay calificaciones
Matemáticas 4º Eso Estadística Bidimensional
10 páginas
Inferencia Estadística: Pruebas de Hipótesis
Aún no hay calificaciones
Inferencia Estadística: Pruebas de Hipótesis
19 páginas
Mentefacto Estadistica
0% (1)
Mentefacto Estadistica
2 páginas
Problemas Guía de Cálculo Ii-Universidad Ricardo Palma
100% (1)
Problemas Guía de Cálculo Ii-Universidad Ricardo Palma
35 páginas
Análisis de Datos y Variagrafía
100% (1)
Análisis de Datos y Variagrafía
80 páginas
Instrumentos de Medición SI: Guía Completa
Aún no hay calificaciones
Instrumentos de Medición SI: Guía Completa
12 páginas
Regresión Curvilínea
Aún no hay calificaciones
Regresión Curvilínea
17 páginas
Informe 6
Aún no hay calificaciones
Informe 6
13 páginas
OXISALES
100% (2)
OXISALES
6 páginas
Energía Solucionario
Aún no hay calificaciones
Energía Solucionario
54 páginas
INTRODUCCIÓN Y PRACTICA No. 1
Aún no hay calificaciones
INTRODUCCIÓN Y PRACTICA No. 1
41 páginas
Efecto de la luz en Ocimum basilicum
Aún no hay calificaciones
Efecto de la luz en Ocimum basilicum
9 páginas
Estructura Selectiva en Algoritmos
Aún no hay calificaciones
Estructura Selectiva en Algoritmos
64 páginas
Uso de la Campana de Gauss en Educación
Aún no hay calificaciones
Uso de la Campana de Gauss en Educación
8 páginas
Estadística I
Aún no hay calificaciones
Estadística I
198 páginas
Actividad 1.1 Cuestionario de Preguntas Relacionadas A La Medición Del Desempeño de Un Proceso.
Aún no hay calificaciones
Actividad 1.1 Cuestionario de Preguntas Relacionadas A La Medición Del Desempeño de Un Proceso.
4 páginas
Examen Final Aula I - 106
Aún no hay calificaciones
Examen Final Aula I - 106
1 página
Elaboración de Salchicha Huachana
Aún no hay calificaciones
Elaboración de Salchicha Huachana
15 páginas
Prueba de Hipotesis
Aún no hay calificaciones
Prueba de Hipotesis
53 páginas
La Química Analítica y Su Metodología
Aún no hay calificaciones
La Química Analítica y Su Metodología
27 páginas
Metodo de Resolucion de Ecuaciones Lineales de Gauss-Jordan
Aún no hay calificaciones
Metodo de Resolucion de Ecuaciones Lineales de Gauss-Jordan
21 páginas
Informe Del Laboratorio Prueba Fehling
Aún no hay calificaciones
Informe Del Laboratorio Prueba Fehling
2 páginas
Diseño de Bloques Completos al Azar
Aún no hay calificaciones
Diseño de Bloques Completos al Azar
24 páginas
Informe Nº2-Matlab
Aún no hay calificaciones
Informe Nº2-Matlab
4 páginas
Métodos de Estadística Descriptiva
Aún no hay calificaciones
Métodos de Estadística Descriptiva
80 páginas
Unidad 1b Estadistica Descriptiva y Analisis de Datos
Aún no hay calificaciones
Unidad 1b Estadistica Descriptiva y Analisis de Datos
79 páginas
Analisis de Datos
Aún no hay calificaciones
Analisis de Datos
65 páginas
Unidad 1 B. ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS - 2022
Aún no hay calificaciones
Unidad 1 B. ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS - 2022
65 páginas
Organización y Síntesis de Datos Estadísticos
Aún no hay calificaciones
Organización y Síntesis de Datos Estadísticos
5 páginas
Informacion Sotap
Aún no hay calificaciones
Informacion Sotap
5 páginas
Feromonas Eq 2 PDF
Aún no hay calificaciones
Feromonas Eq 2 PDF
11 páginas
Enlaces Químicos: Tipos y Formación
Aún no hay calificaciones
Enlaces Químicos: Tipos y Formación
11 páginas
Tipo de Uniones Celulares
80% (5)
Tipo de Uniones Celulares
2 páginas
Biología de Los Microorganismos y Los Hongos Observación de Protistas Célula Eucarionte
Aún no hay calificaciones
Biología de Los Microorganismos y Los Hongos Observación de Protistas Célula Eucarionte
2 páginas
Condicionamiento Clásico y Operante en Psicología
Aún no hay calificaciones
Condicionamiento Clásico y Operante en Psicología
3 páginas
Elementos Personales: Lista de Elementos de Camping
Aún no hay calificaciones
Elementos Personales: Lista de Elementos de Camping
1 página
¿Existe la sangre azul?
Aún no hay calificaciones
¿Existe la sangre azul?
5 páginas
Respiración Cutanea en Vertebrados.
Aún no hay calificaciones
Respiración Cutanea en Vertebrados.
10 páginas
Observación de Hongos: Moho Del Pan y de La Fruta.
50% (2)
Observación de Hongos: Moho Del Pan y de La Fruta.
6 páginas
Eje - 1 - Filosofia - Que Es La Filosofia Material de Estudio Cuadernillo
100% (1)
Eje - 1 - Filosofia - Que Es La Filosofia Material de Estudio Cuadernillo
14 páginas
Teoría del Conductismo y Aprendizaje E-R
100% (2)
Teoría del Conductismo y Aprendizaje E-R
4 páginas
Farji-Brener 2019 Como Escribir Bien Un Texto Cientifico
Aún no hay calificaciones
Farji-Brener 2019 Como Escribir Bien Un Texto Cientifico
5 páginas
Filosofia Preguntas Trabajo Practico Ramas de Filosofia
Aún no hay calificaciones
Filosofia Preguntas Trabajo Practico Ramas de Filosofia
4 páginas
Propuesta de Manual de Organización, Puestos y Procedimientos para El Taller Mecánico Automotriz Quincho S.A., Ciudad Quesada, San Carlos
Aún no hay calificaciones
Propuesta de Manual de Organización, Puestos y Procedimientos para El Taller Mecánico Automotriz Quincho S.A., Ciudad Quesada, San Carlos
291 páginas
Reglamento Interno I.E. N° 254 Olimpia 2024
Aún no hay calificaciones
Reglamento Interno I.E. N° 254 Olimpia 2024
37 páginas
Ejemplo Cátedra Matemática General
Aún no hay calificaciones
Ejemplo Cátedra Matemática General
4 páginas
Calendario Reinscripciones 25-26-1
Aún no hay calificaciones
Calendario Reinscripciones 25-26-1
2 páginas
Actividades para una Lonchera Saludable
79% (14)
Actividades para una Lonchera Saludable
12 páginas
Cartel Diversificado de 1ro A 5to Inglés
67% (6)
Cartel Diversificado de 1ro A 5to Inglés
26 páginas
Diseño Curricular Elaboración Deembutidos Carnicos Emulsionados
Aún no hay calificaciones
Diseño Curricular Elaboración Deembutidos Carnicos Emulsionados
3 páginas
Directiva Turnitin 2025
Aún no hay calificaciones
Directiva Turnitin 2025
10 páginas
Tapiz Comunitario: Arte y Conexión
Aún no hay calificaciones
Tapiz Comunitario: Arte y Conexión
2 páginas
CV de Wendy Ayala: Educación y Docencia
Aún no hay calificaciones
CV de Wendy Ayala: Educación y Docencia
3 páginas
Proyecto de Huerto Escolar 2017-2018
Aún no hay calificaciones
Proyecto de Huerto Escolar 2017-2018
19 páginas
Informe Final Diálogos Participativos
Aún no hay calificaciones
Informe Final Diálogos Participativos
69 páginas
Tema 2: Las Bibliotecas Universitarias: Conceptos, Funciones y Servicios. El Centro de Recursos para El Aprendizaje y La Investigación (Crai)
Aún no hay calificaciones
Tema 2: Las Bibliotecas Universitarias: Conceptos, Funciones y Servicios. El Centro de Recursos para El Aprendizaje y La Investigación (Crai)
9 páginas
Madurez Espiritual y Liderazgo Cristiano
100% (2)
Madurez Espiritual y Liderazgo Cristiano
27 páginas
Planificación Trabajo y Ciudadanía 2022
100% (2)
Planificación Trabajo y Ciudadanía 2022
4 páginas
Gnoseología P00 - 2020
Aún no hay calificaciones
Gnoseología P00 - 2020
10 páginas
CV + Portfolio - Arq. Pablo Santi
Aún no hay calificaciones
CV + Portfolio - Arq. Pablo Santi
18 páginas
Etapas de La Investigacion-Angie Cansaya Valdez
Aún no hay calificaciones
Etapas de La Investigacion-Angie Cansaya Valdez
6 páginas
Evaluación de Inteligencia y Pruebas
100% (1)
Evaluación de Inteligencia y Pruebas
115 páginas
Biologia 10deg-11deg 12deg PDF
Aún no hay calificaciones
Biologia 10deg-11deg 12deg PDF
20 páginas
Pip (Perfil Losa Multideportiva)
Aún no hay calificaciones
Pip (Perfil Losa Multideportiva)
100 páginas
Psicoterapia Experiencial
Aún no hay calificaciones
Psicoterapia Experiencial
9 páginas
Evaluación Formativa en la Enseñanza
Aún no hay calificaciones
Evaluación Formativa en la Enseñanza
21 páginas
3.4 Guia - de - Secundaria Matemáticas PDF
Aún no hay calificaciones
3.4 Guia - de - Secundaria Matemáticas PDF
5 páginas
Emociones y Aprendizaje Matemático
Aún no hay calificaciones
Emociones y Aprendizaje Matemático
3 páginas
Guía de Gestión Integrada SENA
Aún no hay calificaciones
Guía de Gestión Integrada SENA
17 páginas
Actitud de Los Padres Ante La Discapacidad de
Aún no hay calificaciones
Actitud de Los Padres Ante La Discapacidad de
48 páginas
Diseño de Sistemas de Información
Aún no hay calificaciones
Diseño de Sistemas de Información
7 páginas
Rasgos Culturales de Los Tobas
100% (4)
Rasgos Culturales de Los Tobas
53 páginas
Convocatoria Interinos Francia 2025 2026 Firmado
Aún no hay calificaciones
Convocatoria Interinos Francia 2025 2026 Firmado
16 páginas