ESTADISTICA
ANALISIS EXPLORATORIO DE DATOS
ESTADISTICA
ÁREA DE ESTADISTICA
DEPARTAMENTO DE CIENCIAS EXACTAS - ESPE
Semana # 1
Contenido
Título Estadistica Descriptiva
Duración 360 minutos
Información general Análisis descriptivo de datos: Organización de datos, medidas
descriptivas
Objetivo Resolver e interpretar ejercicios de aplicación de las reglas de la
probabilidad.
Definiciones importantes
Estadística
Luis Rodríguez Msc. ESPOL “Ciencia inductiva que permite inferir características
cualitativas y cuantitativas de un conjunto mediante los datos contenidos en un subconjunto
del mismo”.
Población
Conjunto de todos los posibles individuos, objetos o medidas de interés. Los habitantes de la
ciudad de Quito-Ecuador es un ejemplo de población.
Muestra
Una porción, o parte, de la población de interés. Los habitantes del barrio de “La Floresta” de
la ciudad de Quito, es una parte de todos los barrios de la ciudad.
Unidad experimental
Es la unidad más pequeña de la cual se obtiene una medida o característica. Por ejemplo, a un
investigador le puede interesar: las familias, las personas, las empresas de un cierto tipo, etc.
Variable de respuesta
1
Semana # 1
Es una característica individual de cada elemento de la población o de una muestra; por
ejemplo: la edad de un alumno al ingresar a la universidad, el color del pelo, su estatura, su
peso, etc.
Pieza de datos
El valor de la variable de respuesta asociado con cada elemento será la pieza de datos, por
ejemplo: el coche es verde, Jorge ingresó a la universidad a la edad de 23 años. Si nos damos
cuenta estamos asignando a cada elemento su variable o característica.
Parámetro
Es una característica medida de una población completa, por ejemplo: la proporción de
alumnos de más de 21 años que ingresan a la universidad. En estadística se asignan símbolos
del alfabeto griego para designar un parámetro.
Experimento
Es una actividad planificada cuyos resultados nos producen un conjunto de datos. Un
experimento es un procedimiento mediante el cual se trata de comprobar (confirmar o verificar)
una o varias hipótesis relacionadas con un determinado fenómeno, mediante la manipulación
y el estudio de las correlaciones de las variables que presumiblemente son su causa.
Estadístico
Es la medida de una característica relativa a la muestra, al valor promedio de los datos y la
imagen de éstos; la mayoría de los estadísticos muéstrales se encuentran por medio de fórmulas
y suelen asignárseles símbolos del alfabeto latino.
Tipos de variables
Existen dos tipos básicos de datos:
1. Los obtenidos a partir de una población cualitativa.
2. Los datos que resultan de una población cuantitativa.
2
Semana # 1
Variable cualitativa
Cuando las características (datos) o variable en estudio son no numéricas, se la denomina
variable cualitativa o atributo. Ejemplos: Genero sexual, religión, tipo de automóvil, lugar de
nacimiento, color de ojos.
Si la información estudiada es cualitativa, generalmente interesa saber cuántas o que
proporción entra en cada categoría; ejemplo: ¿Qué porcentaje de los estudiantes de la ESPE
son de Quito? ¿Qué porcentaje de católicos o evangélicos hay en Guayaquil? Usualmente los
datos cualitativos se resumen en diagramas o gráficos de barras, pastel.
Variable cuantitativa
Cuando la variable estudiada se puede expresar numéricamente, se denomina variable
cuantitativa y la población se conoce como población cuantitativa. Ejemplos: saldo en una
cuenta de ahorros, el número de hijos en una familia, el número de dormitorios en una casa.
Las variables cuantitativas se clasifican en discretas y continuas.
Variables discretas
Solo pueden tomar ciertos valores (enteros) y generalmente existen brechas entre ellas.
Ejemplo: El número de habitaciones en una casa (1, 2, 3…); el número de autos que pasan por
el peaje de la autopista del Valle de los Chillos. Por lo general las variables discretas son el
resultado del conteo.
Variables continuas
Pueden tomar cualquier valor dentro de un intervalo determinado. Ejemplos: Presión de autos
de los neumáticos de un automóvil, tiempo de vuelo Quito-Guayaquil, precio de una bebida
refrescante. Las variables continuas son el resultado de la medición de algo de interés.
1.1. Análisis exploratorio de datos
1.1.1 Medidas de Tendencia Central, de Dispersión, de Posición y de Forma.
3
Semana # 1
MEDIDAS DE TENDENCIA CENTRAL
Al recolectar y organizar los datos, el objetivo es encontrar un punto central en función de sus
frecuencias. En estadística las medidas de tendencia central varían de acuerdo con lo que se
desea o que se requiera encontrar del conjunto de datos recolectados.
Las fórmulas difieren para calcular en vista de que depende si son datos de población o datos
de muestras, pero el procedimiento es el mismo.
Una medida de tendencia central es un valor único que resume un conjunto de datos, señalando
el centro de los valores.
MEDIA ARITMÉTICA
Es la medida de tendencia central que más se utiliza en Estadística, se calcula sumando todos
los valores de las observaciones y se divide para el total de estas.
Características
Es una medida totalmente numérica o sea sólo puede calcularse en datos de características
cuantitativas.
• En su cálculo se toman en cuenta todos los valores de la variable.
• Es lógica desde el punto de vista algebraico.
• La media aritmética es altamente afectada por valores extremos.
• No puede ser calculada en distribuciones de frecuencia que tengan clases abiertas.
• La media aritmética es única, o sea, un conjunto de datos numéricos tiene una y solo
una media aritmética.
Esta medida es muy útil para analizar y comparar dos o más conjuntos de datos.
Fórmulas:
4
Semana # 1
Media Poblacional Media muestral
∑ 𝑥𝑖 ∑ 𝑥𝑖
μ= 𝑋̅ =
N 𝑛
Suponga que las observaciones en una muestra son x1, x2, . . . , xn. la media de la muestra, que
se denota con 𝑋̅, es:
𝑥1+𝑥2+ ……..𝑥
𝑋̅ = 𝑛
𝑛
La fórmula está dada por:
donde:
𝑋̅ Es la representación de la media de la muestra.
𝑛 Indica el número total de elementos de la muestra.
𝑥𝑖 Es cualquier valor en particular.
𝛴 La letra griega “sigma” mayúscula, es para sumar los datos.
∑ 𝑥𝑖 Indica que es la sumatoria total de los valores de 𝑥.
Ejemplo 1
Supongamos que el conjunto de datos analizar es el siguiente: 1.7, 2.2, 3.9, 3.11
y 14.7. Los datos provienen de una población.
∑ 𝑥𝑖 = 𝑥1 + 𝑥2 + 𝑥3 + 𝑥4 + 𝑥5 = 1.7 + 2.2 + 3.9 + 1.1 + 14.7 = 25.61
∑ 𝑥𝑖 25.61
μ= = = 5.12
N 5
Interpretación del resultado
5
Semana # 1
La media poblacional de este conjunto de datos es de 5.12.
Ejemplo 2
Se registran las siguientes mediciones para el tiempo de secado (en horas) de cierta marca
de pintura esmaltada.
3.4 2.5 4.8 2.9 3.6 2.8 3.3 5.6 3.7 2.8 4.4 4.0 5.2 3.0 4.8
Suponga que las mediciones constituyen una muestra.
a) ¿Cuál es el tamaño de la muestra anterior?
b) Calcule la media de la muestra para estos datos.
Solución
a) n = 15.
56.8
𝑋̅ = 15 = 3.787
Interpretación del resultado
El tiempo promedio de secado es de 3.787 horas
LA MEDIANA
Mediana: es el punto medio de los valores después de ordenarlos de menor a mayor, o de mayor
a menor. La misma cantidad de valores se encuentra por arriba de la mediana que por debajo
de ella.
Nota: para un conjunto con un número par de números, la mediana será el promedio aritmético
6
Semana # 1
de los dos números medios.
Ejemplo 3
Calcule la mediana para los siguientes datos.
La edad de una muestra de cinco estudiantes es: 21, 25, 19, 20 y 22.
Al ordenar los datos de manera ascendente quedan: 19, 20, 21, 22, 25. La mediana es 21.
La altura, en pulgadas, de cuatro jugadores de basquetbol es 76, 73, 80 y 75.
Al ordenar los datos de manera ascendente quedan: 73, 75, 76, 80. La mediana es 75.5.
Propiedades de la mediana
La mediana es única para cada conjunto de datos.
No se ve afectada por valores muy grandes o pequeños, y por lo tanto es una medida valiosa
de tendencia central cuando ocurren.
Puede obtenerse para datos de nivel de razón, de intervalo y ordinal.
Puede calcularse para una distribución de frecuencias con una clase de extremo abierto, si la
mediana no se encuentra en una de estas clases.
Ejemplo 4
Se mide el contenido de cinco botellas de gaseosas seleccionadas de forma aleatoria de un lote
de producción en ml, al medir sus contenidos se tiene: 235.4, 236.3, 234.9, 236.4, y 236.0.
¿Cuál es la mediana de las observaciones muestreadas?
7
Semana # 1
Solución
Primero se ordena de mayor a menor, entonces:
234.9, 235.4, 236.0, 236.3, 236.4
Aplicando la regla para el cálculo de la mediana de datos no agrupados de un conjunto de
elementos impar, se tiene:
𝑛+1
𝑀𝑒 =
2
𝑛+1 5+1
= =3
2 2
El tres es la posición de la serie de elementos ordenados y contados de izquierda a derecha, por
lo que se tendría que:
𝑀𝑒 = 236.0
234.9, 235.4, 236.0, 236.3, 236.4
LA MODA
La moda es el valor de la observación que aparece con más frecuencia.
Características
• Es la única medida de centralización que tiene sentido estudiar en una variable
cualitativa, pues no precisa la realización de ningún cálculo.
• En su determinación no se incluyen todos los valores de la variable.
• No es afectada por valores extremos.
• Por su propia definición, la moda no es única, pues puede haber dos o más valores de
la variable que tengan la misma frecuencia, siendo esta máxima; en cuyo caso se tendrá
una distribución bimodal o polimodal, según el caso.
8
Semana # 1
Ejemplo 5
Las calificaciones de un examen de diez estudiantes son: 81, 93, 84, 75, 68, 87, 81, 75, 81, 87.
Como la calificación 81 es la que más ocurre, la calificación modal es 81.
Tipos de moda
Unimodal. La moda es única.
Polimodal. La moda puede no ser única, pues puede haber dos o más valores de la variable que
tengan la misma frecuencia, siendo esta máxima; en cuyo caso se tendrá una distribución
bimodal o polimodal según el caso.
Ejemplo 6
Determinar la moda del siguiente conjunto de datos:
1, 2, 3, 3, 4, 5, 6, 7, 7, 3, 1, 9, 3.
Solución
Se ordena de manera ascendente se tiene:
1, 1, 2, 3, 3, 3, 3, 4, 5, 6, 7, 7, 9.
Se identifica el elemento que más se repite, por lo cual
𝑀𝑜 = 3
Por tanto, la moda del conjunto de datos es igual a 3 y si considera unimodal.
Ejercicios 7
9
Semana # 1
Se registran las siguientes mediciones para el tiempo de secado (en horas) de cierta marca de
pintura esmaltada.
3.4, 2.5, 4.8, 2.9, 3.6, 2.8, 3.3, 5.6, 3.7, 2.8, 4.4, 4.0, 5.2, 3.0, 4.8
Suponga que las mediciones constituyen una muestra aleatoria simple.
a) ¿Cuál es el tamaño de la muestra anterior?
n = 15
b) Calcule la media de la muestra para estos datos.
3.4 + 2.5 + 4.8 + · · · + 4.8
𝑋̅ = = 3.787
15
c) Calcule la mediana de la muestra.
Primero se ordena de mayor a menor, entonces:
2.5, 2.8, 2.8, 2.9, 3.0, 3.3, 3.4, 3.6, 3.7, 4.0, 4.4, 4.7, 4.8, 5.2, 5.6
𝑛 + 1 15 + 1
= =8
2 2
𝑋̃ = 3.6
d) Calcule la moda de la muestra.
Se ordena de manera ascendente se tiene:
2.5, 2.8, 2.8, 2.9, 3.0, 3.3, 3.4, 3.6, 3.7, 4.0, 4.4, 4.7, 4.8, 5.2, 5.6
Mo = 2.8
Ejercicios 8
Una muestra de 26 trabajadores de plataforma petrolera marina tomó parte en un ejercicio de
escape y se obtuvieron los datos adjuntos de tiempo (s) para completar el escape.
389 356 359 363 375 424 325 394 402
10
Semana # 1
373 373 370 364 366 364 325 339 393
392 369 374 359 356 403 334 397.
1. ¿Cuál es el tamaño de la muestra anterior?
n = 26
2. Calcule la media de la muestra para estos datos.
389+ 356+ 359+ 363+ 375 + · · · + 397
𝑋̅ = = 370.69
26
3. Calcule la mediana de la muestra.
Primero se ordena de mayor a menor, entonces:
325 325 334 339 356 356 359 359 363 364 364 366 369
370 373 373 374 375 389 392 393 394 397 402 403
424
𝑛 + 1 26 + 1
= = 13.5
2 2
𝑋̃ = (369+370) /2 = 369.5
4. Calcule la moda de la muestra.
Datos polimodales (325,356,359,364,373)
MEDIDAS DE DISPERSION
La varianza de la población para datos no agrupados es la media aritmética de las
desviaciones cuadráticas respecto a la media de la población.
11
Semana # 1
∑(𝑋𝑖 − 𝜇)2
𝜎2 =
𝑁
Ejemplo 1
Si los datos de una población son: 2, 18, 34, y 42. ¿Cuál es la variancia de la población?
= X / N = 96 / 4 = 24
2 = ( X − ) 2 / N = 944 / 4 = 236
Una fórmula alternativa para la variancia poblacional es:
X 2
X 2
2
= − ( )
N N
Desviación estándar poblacional
La desviación estándar poblacional (σ) es la raíz cuadrada de la variancia de la población.
Para el Ejemplo 1, la desviación estándar poblacional es 15.36 (raíz cuadrada de 236).
Variancia muestral
La variancia muestral estima la varianza de la población.
(𝑋−𝑋̅)2
Formula conceptual = 𝑆 2 = 𝑛−1
(∑ 𝑋)2
∑𝑋 2−
2 𝑛
Formula operativa = 𝑆 = 𝑛−1
12
Semana # 1
Ejemplo 2
Los datos de una muestra son: $7, $5, $11, $8, $6. Encuentre la varianza.
𝑋̅= 37/5 = 7.40
S2 = 21.2/ (5-1) = 5.3
Desviación estándar muestral
La desviación estándar muestral es la raíz cuadrada de la variancia muestral.
En el Ejemplo 2, la desviación estándar de la muestra es = 2.30 (raíz cuadrada de 5.3)
Teorema de Chebyshev: para cualquier conjunto de observaciones, la proporción mínima de
valores que está dentro de k desviaciones estándar desde la media es al menos 1 - 1/k2, donde
k2 es una constante mayor que 1.
Regla empírica: para una distribución de frecuencias simétrica de campana, cerca de 68% de
las observaciones estará dentro de ±1σ de la media (µ); cerca de 95% de las observaciones
estará dentro de ±2σ de la media (µ); alrededor de 99.7% estará dentro de ±3σ de la media (µ).
Dispersión relativa
El coeficiente de variación es la razón de la desviación estándar a la media aritmética,
expresada como porcentaje:
𝑠
𝑐𝑣 = 𝑥̅ * 100
13
Semana # 1
MEDIDAS DE POSICION
Cuartiles. - divide a los datos en 4 partes iguales, cada una contiene el 25% de los mismos
Quintiles. - divide a los datos en 5 partes iguales, cada una contiene el 20% de los mismos
Deciles. - divide a los datos en 10 partes iguales, cada una contiene el 10% de los mismos
Percentiles. - divide a los datos en 100 partes iguales, cada una contiene el 1% de los mismos
Primer cuartil (C1)
El primer cuartil es el valor correspondiente al punto debajo del cual se encuentra el 25% de
las observaciones en un conjunto ordenado de datos.
(𝑖)𝑛+1
Ubicación: 𝐶1 = =
4
Donde:
i = Cuartil de interés
n = número de datos
Ejemplo 3
Se registran las siguientes mediciones para el tiempo de secado (en horas) de cierta marca de
pintura esmaltada.
3.4, 2.5, 4.8, 2.9, 3.6, 2.8, 3.3, 5.6, 3.7, 2.8, 4.4, 4.0, 5.2, 3.0, 4.8
Primero se ordena de mayor a menor, entonces:
2.5, 2.8, 2.8, 2.9, 3.0, 3.3, 3.4, 3.6, 3.7, 4.0, 4.4, 4.7, 4.8, 5.2, 5.6
(𝑖)𝑛+1 (1)15+1
Ubicación C1= = =4
4 4
𝐶1 = 2.9
14
Semana # 1
Interpretación:
El 25% de la marca de pintura esmaltada se seca en menos de 2.9 horas en tanto que el 75%
se seca en más de 2.9 horas
Tercer cuartil (C3)
El primer cuartil es el valor correspondiente al punto debajo del cual se encuentra el 75% de
las observaciones en un conjunto ordenado de datos.
Se registran las siguientes mediciones para el tiempo de secado (en horas) de cierta marca de
pintura esmaltada.
3.4, 2.5, 4.8, 2.9, 3.6, 2.8, 3.3, 5.6, 3.7, 2.8, 4.4, 4.0, 5.2, 3.0, 4.8
Primero se ordena de mayor a menor, entonces:
2.5, 2.8, 2.8, 2.9, 3.0, 3.3, 3.4, 3.6, 3.7, 4.0, 4.4, 4.7, 4.8, 5.2, 5.6
(𝑖)𝑛+1 (3)15+1
Ubicación C3= = = 11.5
4 4
El C3 de interés se encuentra contenido entre el dato 11 y 12 (exactamente en la mitad) por
tanto, el valor del C3 = (4.4+4.7) /2 = 4.55
Interpretación:
El 75% de la marca de pintura esmaltada se seca en menos de 4.55 horas en tanto que el 25%
se seca en más de 4.55 horas.
Tercer quintil (Q3)
15
Semana # 1
El tercer quintil es el valor correspondiente al punto debajo del cual se encuentra 60% de las
observaciones en un conjunto ordenado de datos:
Ejemplo 4
Se registran las siguientes mediciones para el tiempo de secado (en horas) de cierta marca de
pintura esmaltada.
3.4, 2.5, 4.8, 2.9, 3.6, 2.8, 3.3, 5.6, 3.7, 2.8, 4.4, 4.0, 5.2, 3.0, 4.8
Primero se ordena de mayor a menor, entonces:
2.5, 2.8, 2.8, 2.9, 3.0, 3.3, 3.4, 3.6, 3.7, 4.0, 4.4, 4.7, 4.8, 5.2, 5.6
(𝑖)𝑛+1 (3)15+1
Ubicación Q3= = = 9.20
5 5
El Q3 de interés se encuentra contenido entre el dato 9 y 10
Se establece la diferencia entre los dos valores: (4-3.7) = 0.3
A la diferencia determinada (0.3) se multiplica por el decimal de la posicion (0.20) = 0.06, este
valor se suma al menor valor de los dos valores señalados en la posición (3.7+0.06) = 3.76
Q3 = 3.76
Interpretación:
El 60% de la marca de pintura esmaltada se seca en menos de 3.76 horas en tanto que el 40%
se seca en más de 3.76 horas.
16
Semana # 1
Amplitud o Rango intercuartílico
La amplitud intercuartílica es la distancia entre el tercer cuartil C 3 y el primer
cuartil C1.
Rango intercuartílico = tercer cuartil - primer cuartil = C3 - C1
Desviación cuartílica
La desviación cuartílica es la mitad de la distancia entre el tercer cuartil, C3, y el primero, C1.
DC = [C3 - C1]/2
Ejemplo 3
Tomando los resultados del Ejemplo 1
Si el tercer cuartil = 4.55 y el primer cuartil = 2.9, la amplitud intercuartílica es 4,55 – 2.9 =
1.65; por lo tanto, la desviación cuartílica es 1.65/2 = 0.825
MEDIDAS DE FORMA
Las medidas de forma son aquellas que indican si una distribución de frecuencia tiene
características especiales como simetría, asimetría, nivel de concentración de datos y nivel de
apuntamiento que la clasifiquen en un tipo particular de distribución.
Coeficiente de Asimetría de Fisher
Una distribución es simétrica cuando al trazar una vertical, en el diagrama de barras o
histograma de una variable, según sea esta discreta o continua, por el valor de la media, esta
vertical se transforma en eje de simetría y entonces decimos que la distribución es simétrica.
En caso contrario, dicha distribución será asimétrica o diremos que presenta asimetría.
17
Semana # 1
La asimetría puede ser de dos tipos:
Simétrica por la izquierda.
Simétrica
Asimétrica por la derecha.
Fórmula de cálculo:
Coeficiente de Curtosis o Apuntamiento de Fisher
La otra medida de forma que vamos a considerar es el apuntamiento, al igual que con la simetría
hemos de tomar una referencia para ver si la distribución de los datos es apuntada o no. La
referencia citada es la distribución normal, y así distinguiremos tres casos:
18
Semana # 1
Leptocúrtica, si la distribución es más picuda que la normal,
Mesocúrtica, si la distribución es igual a la normal, y
Platicúrtica, si la distribución es más aplastada que la normal.
Fórmula de cálculo:
GRAFICOS ESTADISTICOS
Las tres formas de gráficas más usadas son histogramas, polígonos de frecuencia y
distribuciones de frecuencias acumuladas (ojiva).
Histograma: gráfica donde las clases se marcan en el eje horizontal y las frecuencias de clase
en el eje vertical. Las frecuencias de clase se representan por las alturas de las barras y éstas se
trazan adyacentes entre sí.
Un polígono de frecuencias: consiste en segmentos de línea que conectan los puntos formados
por el punto medio de la clase y la frecuencia de clase.
19
Semana # 1
Una distribución de frecuencias acumulada (ojiva): se usa para determinar cuántos o qué
proporción de los valores de los datos es menor o mayor que cierto valor.
Histograma para las horas de estudio
15
Frecuencia
10
0
10 15 20 25 30 35
Horas de estudio
Polígono de frecuencias para las horas de estudio
14
12 12
10 10
FRECUENCIA
8
6
5
4
2
1 1 1
0
10 15 20 25 30 35
HORAS DE ESTUDIO
Distribución de frecuencias acumuladas menor que para las horas de estudio
20
Semana # 1
35
30
25
Frecuencia
20
15
10
5
0
10 15 20 25 30 35
Horas de estudio
Gráfica de barras: se puede usar para describir cualquier nivel de medición (nominal, ordinal,
de intervalo o de razón).
Ejemplo 1
Construya una gráfica de barras para el número de personas contaminadas con Covid-19, por
cada 100.000 habitantes de las principales ciudades del Ecuador.
No. Personas
Ciudad contaminadas por cada
100.000 habitantes
Ambato 7.300
Riobamba 5.400
Loja 6.700
Guayaquil 8.900
Cuenca 8.200
Quito 8.900
21
Semana # 1
No. Personas contamidas por cada 100.000
habitantes
10.000
9.000
8.000
7.000
6.000
5.000
4.000
3.000
2.000
1.000
-
Ambato Riobamba Loja Guayaquil Cuenca Quito
Gráfica circular
Una gráfica circular es en especial útil para desplegar una distribución de frecuencias
relativas. Se divide un círculo de manera proporcional a la frecuencia relativa y las rebanadas
representan los diferentes grupos.
Ejemplo 2
Se pidió a una muestra de 200 corredores que indicaran su tipo favorito de zapatos para correr.
Tipo de zapato # de corredores
Nike 92
Adidas 49
Reebok 37
Asics 13
Otros 9
22
Semana # 1
# de corredores
7% 5%
18% 46% Nike
Adidas
24%
Reebok
Asics
Otros
Diagrama de tallo y hoja: técnica estadística para representar un conjunto de datos. Cada
valor numérico se divide en dos partes: los dígitos principales son el tallo y el dígito siguiente
es la hoja.
Nota: una ventaja de la representación de tallo y hoja comparado con la distribución de
frecuencias es que no se pierde la identidad de cada observación.
Ejemplo 3
Cesar logró las siguientes calificaciones durante el semestre: 86, 79, 92, 84, 69, 88, 91, 83, 96,
78, 82, 85. Construya una representación de tallo y hoja para los datos.
Tallo Hoja
6 9
7 89
8 234568
9 126
23