Análisis Exploratorio de Datos en Estadística
Análisis Exploratorio de Datos en Estadística
SEDE LATACUNGA
INGENIERÍA ELECTROMECÁNICA
ESTADÍSTICA
Unidad 1: Estadística Descriptiva y Cálculo de Probabilidades.
MARCELO ROMÁN V.
PERÍODO ACADÉMICO: Mayo – Septiembre 2024
1.1. Análisis exploratorio de datos
1.1.1. Introducción a la Estadística. Medidas de Tendencia Central, de Dispersión, de Posición y de Forma
DESCRIPCIÓN GENERAL DE LA UNIDAD:
La Unidad 1 proporciona los métodos y técnicas para la
recolección y organización de los datos, su análisis e
interpretación y su aplicación en función del perfil de la carrera.
Además, lo capacita en la utilización de lenguajes de
programación R (Rstudio) y Python (Jupyter) facilitando al
estudiante la tarea del manejo de la información y brindando
un espacio para adquirir destrezas tanto en la parte cuantitativa
como computacional y el cálculo de Probabilidades.
Marcelo Román V. 9
Pasos en un estudio estadístico
• Plantear hipótesis sobre una población
• Los fumadores tienen “más bajas” laborales que los no fumadores
• ¿En qué sentido? ¿Mayor número? ¿Tiempo medio?
Plantear Diseñar
hipótesis experimento
Marcelo Román V. 11
Población y muestra
Marcelo Román V. 12
Análisis de “Conjunto de procedimientos diseñados para resumir y organizar datos con el objetivo
de extraer información y elaborar conclusiones” (Prado, Ruiz y San Martín, 2009, p. 17)
Datos
Resumir y
Descriptiva organizar datos
Estadística Generalizar de la
muestra a la
población
Inferencial Extraer
información y
elaborar
conclusiones
“ciencia que recoge, ordena y analiza los datos de una muestra extraída de
una determinada población, para hacer inferencias acerca de esa población
valiéndose del cálculo de probabilidades” (Amón,
Marcelo Román V. 1979, p. 37) 13
Análisis de datos: Conjunto de herramientas (técnicas de análisis) al
servicio de la investigación empírica
Sirve para comparar grupos y para
Diseño de • Observacional
investigación • Correlacional
relacionar variables así como para detectar
• Experimental posibles diferencias y posibles relaciones
(plan de recogida de datos)
• Descriptivo
Niveles de • Relacional
indagación • Explicativo
Tipo de
conclusiones
Marcelo Román V. 14
Diferentes niveles de indagación:
• Explicativo: establece relaciones de tipo causal entre los eventos (por qué las
cosas son como son).
Marcelo Román V. 15
Marcelo Román V. 16
Variables
• Una variable es una característica observable que varía entre los diferentes
individuos de una población. La información que disponemos de cada individuo es
resumida en variables.
• El grupo sanguíneo
• {A, B, AB, O} Var. Cualitativa
• Su nivel de felicidad “declarado”
• {Deprimido, Ni fu ni fa, Muy Feliz} Var. Ordinal
• El número de hijos
• {0,1,2,3,...} Var. Numérica discreta
• La altura
• {1’62 ; 1’74; ...} Var. Numérica continua
Marcelo Román V. 17
Tipos de variables
• Cualitativas
Si sus valores (modalidades) no se pueden asociar naturalmente a un número (no
se pueden hacer operaciones algebraicas con ellos)
• Cuantitativas o Numéricas
Si sus valores son numéricos (tiene sentido hacer operaciones algebraicas con
ellos)
Marcelo Román V. 18
• El análisis de datos se basa en datos. Para poder analizar los datos es
necesario asignar números a las características que se desea estudiar
• Dependiendo del tipo de relaciones que se establece entre los valores
(números) asignados a una características, se establecen diferentes
niveles de medida:
Marcelo Román V. 19
Variable
Cuantitativas
Cualitativa (categorías)
(numéricas)
Marcelo Román V. 20
Una cosita sobre las VARIABLES NOMINALES
• Definición: Los números expresan identidades
• Variable: Color del pelo
• Valores:
• 1 = Moreno
• 2 = Rubio
• 3 = Castaño
• 4 = Otros
• “Otros” (4) no es más ni menos que “Moreno” (1), simplemente es distinto
• Complementariamente, asumimos que todos los “Rubios” (2) son iguales,
Marcelo Román V. 21
• Es buena idea codificar las variables como
números para poder procesarlas con facilidad en
un ordenador. ## # Crear la variable ordinal Felicidad# Para crear una variable
• Es conveniente asignar “etiquetas” a los valores de de escala ordinal en R, puedes usar la función 'ordered()’
las variables para recordar qué significan los
códigos numéricos. # help("ordered")
• Sexo (Cualit: Códigos arbitrarios)
• 1 = Hombre
• 2 = Mujer felicidad <- ordered( c(1, 2, 3), levels = c(1, 2, 3),
• Raza (Cualit: Códigos arbitrarios) labels = c('Muy feliz', 'Bastante feliz', 'No demasiado feliz’))
• 1 = Blanca
• 2 = Negra,... # Mostrar la variable Felicidadprint(felicidad)
• Felicidad Ordinal: Respetar un orden al codificar. # -----------------------------------------#
• 1 = Muy feliz
• 2 = Bastante feliz
ARGUMENTAR LA CODIFICACIÓN UTILIZADA.....
• 3 = No demasiado feliz # -----------------------------------------
• Se pueden asignar códigos a respuestas especiales
como
• 0 = No sabe
• 99 = No contesta...
• Estas situaciones deberán ser tenidas en cuentas
en el análisis. Datos perdidos (‘missing data’)
Marcelo Román V. 24
• Los posibles valores de una variable suelen denominarse modalidades.
Marcelo Román V. 25
Representación gráfica de datos
Variables cualitativas Variables cuantitativas
Marcelo Román V. 26
Marcelo Román V. 27
Presentación ordenada de datos
7
6
Género Frec.
5
Hombre 4 4
3
2
Mujer 6 1
0
Hombre Mujer
Marcelo Román V. 28
𝒌
Paso 1: Defina el número de clases 𝟐 >𝒏
Paso 2: Determine el intervalo o ancho de clase
Fórmula de Sturges
𝒌 = 𝟏 + 𝒍𝒐𝒈𝟐 (𝒏)
# 𝒄𝒍𝒂𝒔𝒆𝒔 = 𝟏 + 𝟑, 𝟑𝟐𝟐𝐥𝒐𝒈(𝒏)
Tablas de frecuencia
• Exponen la información recogida en la muestra, de forma que no se pierda nada de información (o
poca).
Marcelo Román V. 32
Ejemplo
• ¿Cuántos individuos tienen menos Número de hijos
de 2 hijos?
• frec. indiv. sin hijos Porcent. Porcent.
+ Frec. (válido) acum.
frec. indiv. con 1 hijo 0 419 27,8 27,8
= 419 + 255 1 255 16,9 44,7
= 674 individuos 2 ≥50%
375 24,9 69,5
3 215 14,2 83,8
• ¿Qué porcentaje de individuos 4 127 8,4 92,2
tiene 6 hijos o menos? 5 54 3,6 95,8
• 97,3% 6 24 1,6 97,3
7 23 1,5 98,9
• ¿Qué cantidad de hijos es tal que al Ocho+ 17 1,1 100,0
menos el 50% de la población tiene Total 1509 100,0
una cantidad inferior o igual?
• 2 hijos
Marcelo Román V. 33
Marcelo Román V. 34
Gráficos diferenciales para variables numéricas
419
400 375
255
Recuento
variables sean discretas o continuas. Valen
215
200
Número de hijos
6 7 Ocho o más
Recuento
puntos cualesquiera indica la cantidad 150
intervalo.
50
20 40 60 80
Marcelo Román V. 36
Diagramas integrales
• Cada uno de los anteriores diagramas tiene su correspondiente diagrama integral. Se realizan a partir de
las frecuencias acumuladas. Indican, para cada valor de la variable, la cantidad (frecuencia) de individuos
que poseen un valor inferior o igual al mismo. No los construiremos en clase. Se pasan de los diferenciales
a los integrales por integración y a la inversa por derivación (en un sentido más general del que visteis en
bachillerato.)
Marcelo Román V. 37
¿Qué hemos visto?
• Definición de estadística
• Población
• Muestra
• Variables
• Cualitativas
• Numéricas
• Presentación ordenada de datos
• Tablas de frecuencias
• absolutas
• relativas
• acumuladas
• Representaciones gráficas
• Cualitativas
• Numéricas
• Diferenciales
• Integrales
Marcelo Román V. 38
Estadística Descriptiva
Parámetros y estadísticos
• Parámetro: Es una cantidad numérica calculada sobre una población
Marcelo Román V. 40
Distribuciones unimensionales
Parámetros
Rango
De Rango Intercuartílico Sesgo
De tamaño De posición
frecuencia
Desviación respecto a la media
Desviación media
Media
Moda Cuantiles Varianza
aritmética
Desviación típica
Coeficiente de variación
Un brevísimo resumen sobre estadísticos
• Posición
• Dividen un conjunto ordenado de datos en grupos con la
misma cantidad de individuos.
• Cuantiles, percentiles, cuartiles, deciles,...
• Centralización
• Indican valores con respecto a los que los datos parecen
agruparse.
• Media, mediana y moda
• Dispersión
• Indican la mayor o menor concentración de los datos con
respecto a las medidas de centralización.
• Desviación típica, coeficiente de variación, rango, varianza
• Forma
• Asimetría
• Apuntamiento o curtosis
Marcelo Román V. 42
Marcelo Román V. 43
Medidas de Tendencia Central
Añaden unos cuantos casos particulares a las medidas de posición. En este caso son
medidas que buscan posiciones (valores) con respecto a los cuales los datos muestran
tendencia a agruparse.
• Media (‘mean’) Es la media aritmética (promedio) de los valores de una variable. Suma
de los valores dividido por el tamaño muestral.
• Media de 2,2,3,7 es (2+2+3+7)/4=3,5
• Conveniente cuando los datos se concentran simétricamente con respecto a ese
valor. Muy sensible a valores extremos.
• Centro de gravedad de los datos
• Mediana (‘median’) Es un valor que divide a las observaciones en dos grupos con el
mismo número de individuos (percentil 50). Si el número de datos es par, se elige la
media de los dos datos centrales.
• Mediana de 1,2,4,5,6,6,8 es 5
• Mediana de 1,2,4,5,6,6,8,9 es (5+6)/2=5,5
• Es conveniente cuando los datos son asimétricos. No es sensible a valores
extremos.
• Mediana de 1,2,4,5,6,6,800 es 5. ¡La media es 117,7!
Marcelo Román V. 44
Altura mediana
Marcelo Román V. 45
Medidas de Tendencia Central
La media geométrica resulta útil para determinar el cambio promedio de porcentajes,
razones, índices o tasas de crecimiento. Posee amplias aplicaciones en la administración y la
economía, ya que con frecuencia hay interés en determinar los cambios porcentuales de
ventas, salarios o cifras económicas, como el producto interno bruto, los cuales se
combinan o se basan unos en otros.
Marcelo Román V. 47
Durante la década de los noventa y hasta los primeros años de 2000, Riobamba fue la ciudad de mayor
crecimiento en Ecuador. La población se incrementó de 258 295 en 1990 a 607 876 en 2009. Es un incremento de
349 581 personas o 135.3% durante el periodo.
¿Cuál es el incremento anual promedio?
El valor de 0.0461 indica que el crecimiento anual promedio durante el periodo fue de 4.61%. Expresado
en otros términos, la población de Riobamba creció a una tasa de 4.61% por año de 1990 a 2009.
Marcelo Román V. 49
Medidas de Tendencia Central para datos agrupados
• Datos sin agrupar: x1, x2, ..., xn
• Media
x=
x i i
n
• Datos organizados en tabla
• si está en intervalos usar como xi las marcas de clase. Si
no ignorar la columna de intervalos.
• Media
x=
xn i i i
n
Variable fr. fr. ac. • Cuantil de orden α
L0 – L1 x1 n1 N1 • i es el menor intervalo que tiene frecuencia
acumulada superior a α ·n
L1 – L2 x2 n2 N2
• α=0,5 es mediana
...
n − N i −1
Lk-1 – Lk xk nk Nk C = Li −1 + ( Li − Li −1 )
n ni
Marcelo Román V. 51
Ejemplo con variable en intervalos
Peso M. frec Fr.
Clase acum.
40 – 50 45 5 5
50 – 60 55 10 15
60 – 70 65 21 36
70 - 80 75 11 47
80 - 90 85 5 52
90 - 100 95 3 55
100 – 130 115 3 58
Marcelo Román V. 52
Ejemplo (continuación)
0,75 58 − N i −1 43,5 − 36
P75 = C0,75 = Li −1 + ( Li − Li −1 ) = 70 + (80 − 70) = 76,8
ni 11
• Moda = marca de clase de (60,70] = 65
• Cada libro ofrece una fórmula diferente para la moda (difícil estar al día.)
Marcelo Román V. 53
Marcelo Román V. 54
Marcelo Román V. 55
La varianza y la desviación estándar también se fundamentan en las desviaciones de la media. Sin
embargo, en lugar de trabajar con el valor absoluto de las desviaciones, la varianza y la desviación
• Por ejemplo supongamos que todos los alumnos poseen el mismo nivel de
conocimiento. ¿Las notas serían las mismas en todos? Seguramente No.
• En alguna pregunta difícil, se duda entre varias opciones, y al azar se elige la mala
• Variabilidad por azar, aleatoriedad.
Marcelo Román V. 58
Medidas de dispersión
Miden el grado de dispersión (variabilidad) de los datos, independientemente de su
causa.
0.05
Mín. P25 P50 P75 Máx.
0.04
Diferencia entre observaciónes extremas.
• 2,1,4,3,8,4. El rango es 8-1=7
0.03
• Es muy sensible a los valores extremos.
25% 25% 25% 25%
0.02
Rango intercuartílico
0.01
• Rango intercuartílico (‘interquartile range’): Rango
• Es la distancia entre primer y tercer cuartil.
0.00
• Rango intercuartílico = P75 - P25
150 160 170 180 190
• Parecida al rango, pero eliminando las observaciones más extremas inferiores y
superiores.
1
S = ( xi − x )
2 2
n i
• Sus unidades son el cuadrado de las de la variable. De interpretación difícil para un principiante.
• Energía de rotación (vía el coeficiente de inercia): patinadores con brazos extendidos (dispersos) o
recogidos (poco dispersos)
• Energía elástica: Muelles ‘estirados’ con respecto a su posición de equilibrio (dispersos) frente a muelles
en posición cercana a su posición de equilibrio (poco dispersos)
Marcelo Román V. 60
Desviación típica (‘standard deviation’)
Es la raíz cuadrada de la varianza
S= S 2
• Tiene las misma dimensionalidad
(unidades) que la variable. Versión 50
‘estética’ de la varianza.
40
0.05
0.04
0.04
0.03
0.03
0.02
0.02
0.01
0.01
x s x 2s
68.5 % 95 %
0.00
0.00
150 160 170 180 190 150 160 170 180 190
Marcelo Román V. 62
• Datos ‘casi normales’. Eje ‘x’ medido en desviaciones típicas…
• ¿Encuentras relación entre rango intercuartílico y desviación típica?
• ¿Y entre los ‘bigotes’ y dos desviaciones típicas? ¿Podrías caracterizar las
observaciones anómalas?
0.3
0.3
densidad
densidad
0.2
0.2
0.1
0.1
x s x 2s x s x 2s
66 % 95 % 71 % 94 %
0.0
0.0
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
0.4
0.3
0.3
densidad
densidad
0.2
0.2
0.1
0.1
x s x s x 2s
x 2s
68 % 94 % 70 % 94 %
0.0
0.0
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
Marcelo Román V. 63
Marcelo Román V. 64
Diagramas de cajas
Gráfico que aporta gran cantidad de información acerca de la distribución de frecuencias de una variable cuantitativa. A partir de un diagrama
de cajas se puede determinar el valor del Mínimo, Q1, Mediana, Q3 y Máximo.
Además se puede determinar si existen valores extremos (Outliers)
OUTLIERS
Un valor extremo o outlier es un
valor extremadamente alto o bajo
en relación al resto de los datos
Mediana
Marcelo Román V. 67
Ejemplos
• El 5% de los recién nacidos tiene un peso demasiado bajo. ¿Qué peso se
considera “demasiado bajo”?
• Percentil 5 o cuantil 0,05
15
10
5
0
1 2 3 4 5
15
10
5
0
50 55 60 65 70 75 80 85
Percentiles 5 y 95
20
15
frecuencia
10
5
0
10
5
0
Diagramas de Tukey
0.08
0.06
• Resumen con 5 números:
densidad
• Mínimo, cuartiles y máximo.
0.04
• Suelen dar una buena idea de la
0.02
Mín. P25 P50 P75 Máx.
distribución.
0.00
• La zona central, ‘caja’, contiene al 40 45 50 55 60 65
0.04
lleguen hasta los extremos, sino
hasta las observaciones que se
0.03
densidad
separan de la caja en no más de
0.02
1,5 R.I.
• Más allá de esa distancia se P25 P50 P75
0.01
Mín. Máx.
Marcelo Román V. 72
Ejemplo Estadísticos
Marcelo Román V. 73
Coeficiente de variación
S
Es la razón entre la desviación típica y la media. CV =
• Mide la desviación típica en forma de
“qué tamaño tiene con respecto a la media” x
• También se la denomina variabilidad relativa.
• No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una
cantidad fijada arbitrariamente
• Por ejemplo 0ºC ≠ 0ºF
Marcelo Román V. 74
Asimetría o Sesgo
• Una distribución es simétrica si la mitad
izquierda de su distribución es la imagen
especular de su mitad derecha.
Marcelo Román V. 75
Estadísticos para detectar asimetría
• Hay diferentes estadísticos que sirven para detectar asimetría.
• Basado en diferencia entre estadísticos de tendencia central.
• Basado en la diferencia entre el 1º y 2º cuartiles y 2º y 3º.
• Basados en desviaciones con signo al cubo con respecto a la media.
• Los calculados con ordenador. Es pesado de hacer a mano.
0.20
0.5
0.20
0.4
0.15
0.15
0.3
0.10
0.10
0.2
0.05
0.05
0.1
x s x s
x s
66 % 78 %
78 %
0.00
0.00
0.0
8 10 12 14 16 18 20 -2 -1 0 1 2 3 0 2 4 6 8 10 12 14
Marcelo Román V. 76
x x x
Valores raros y forma de la distribución
Marcelo Román V. 78
Apuntamiento o curtosis
La curtosis nos indica el grado de apuntamiento (aplastamiento) de una distribución con
respecto a la distribución normal o gaussiana. Es adimensional.
0.8
0.3
1.5
0.6
0.2
1.0
0.4
0.1
0.5
0.2
x s
x s x s
68 %
57 % 82 %
0.0
0.0
0.0