0% encontró este documento útil (0 votos)
26 vistas84 páginas

Análisis Exploratorio de Datos en Estadística

La unidad trata sobre estadística descriptiva y cálculo de probabilidades. Explica conceptos como análisis exploratorio de datos, medidas de tendencia central, dispersión, posición y forma. Además, introduce los pasos de un estudio estadístico y define conceptos como población, muestra, variables y sus tipos.

Cargado por

Edu Vargas
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
26 vistas84 páginas

Análisis Exploratorio de Datos en Estadística

La unidad trata sobre estadística descriptiva y cálculo de probabilidades. Explica conceptos como análisis exploratorio de datos, medidas de tendencia central, dispersión, posición y forma. Además, introduce los pasos de un estudio estadístico y define conceptos como población, muestra, variables y sus tipos.

Cargado por

Edu Vargas
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

UNIVERSIDAD DE LAS FUERZAS ARMADAS – ESPE

SEDE LATACUNGA

INGENIERÍA ELECTROMECÁNICA
ESTADÍSTICA
Unidad 1: Estadística Descriptiva y Cálculo de Probabilidades.

1.1. Análisis exploratorio de datos

MARCELO ROMÁN V.
PERÍODO ACADÉMICO: Mayo – Septiembre 2024
1.1. Análisis exploratorio de datos
1.1.1. Introducción a la Estadística. Medidas de Tendencia Central, de Dispersión, de Posición y de Forma
DESCRIPCIÓN GENERAL DE LA UNIDAD:
La Unidad 1 proporciona los métodos y técnicas para la
recolección y organización de los datos, su análisis e
interpretación y su aplicación en función del perfil de la carrera.
Además, lo capacita en la utilización de lenguajes de
programación R (Rstudio) y Python (Jupyter) facilitando al
estudiante la tarea del manejo de la información y brindando
un espacio para adquirir destrezas tanto en la parte cuantitativa
como computacional y el cálculo de Probabilidades.

Objetivo del Análisis exploratorio de datos (EDA):


Aplicar los conceptos de la Estadística Descriptiva
fundamentado en el análisis y aplicación de las Medidas de
Tendencia Central, de Dispersión, de Posición y de Forma.
Análisis exploratorio de datos (EDA):
Análisis de datos cuantitativos
Definición
La Estadística es la Ciencia de la

• Sistematización, recogida, ordenación y presentación de los


datos referentes a un fenómeno que presenta variabilidad o
incertidumbre para su estudio metódico, con objeto de

• deducir las leyes que rigen esos fenómenos,

• y poder de esa forma hacer previsiones sobre los mismos,


tomar decisiones u obtener conclusiones.

Marcelo Román V. 9
Pasos en un estudio estadístico
• Plantear hipótesis sobre una población
• Los fumadores tienen “más bajas” laborales que los no fumadores
• ¿En qué sentido? ¿Mayor número? ¿Tiempo medio?

• Decidir qué datos recoger (diseño de experimentos)


• Qué individuos pertenecerán al estudio (muestras)
• Fumadores y no fumadores en edad laboral.
• Criterios de exclusión ¿Cómo se eligen? ¿Descartamos los que padecen enfermedades crónicas?
• Qué datos recoger de los mismos (variables)
• Número de bajas
• Tiempo de duración de cada baja
• ¿Sexo? ¿Sector laboral? ¿Otros factores?

• Recoger los datos (muestreo)


• ¿Estratificado? ¿Sistemáticamente?

• Describir (resumir) los datos obtenidos


• tiempo medio de baja en fumadores y no (estadísticos)
• % de bajas por fumadores y sexo (frecuencias), gráficos,...

• Realizar una inferencia sobre la población


• Los fumadores están de baja al menos 10 días/año más de media que los no fumadores.

• Cuantificar la confianza en la inferencia


• Nivel de confianza del 95%
• Significación del contraste: p=2%
Marcelo Román V. 10
Método científico y estadística

Plantear Diseñar
hipótesis experimento

Obtener Recoger datos


conclusiones y analizarlos

Marcelo Román V. 11
Población y muestra

• Población (‘population’) es el conjunto sobre el que estamos


interesados en obtener conclusiones (hacer inferencia).
• Normalmente es demasiado grande para poder abarcarlo.

• Muestra (‘sample’) es un subconjunto suyo al que tenemos acceso y


sobre el que realmente hacemos las observaciones (mediciones)
• Debería ser “representativo”
• Esta formado por miembros “seleccionados” de la población
(individuos, unidades experimentales).

Marcelo Román V. 12
Análisis de “Conjunto de procedimientos diseñados para resumir y organizar datos con el objetivo
de extraer información y elaborar conclusiones” (Prado, Ruiz y San Martín, 2009, p. 17)
Datos
Resumir y
Descriptiva organizar datos

Estadística Generalizar de la
muestra a la
población
Inferencial Extraer
información y
elaborar
conclusiones

“ciencia que recoge, ordena y analiza los datos de una muestra extraída de
una determinada población, para hacer inferencias acerca de esa población
valiéndose del cálculo de probabilidades” (Amón,
Marcelo Román V. 1979, p. 37) 13
Análisis de datos: Conjunto de herramientas (técnicas de análisis) al
servicio de la investigación empírica
Sirve para comparar grupos y para
Diseño de • Observacional
investigación • Correlacional
relacionar variables así como para detectar
• Experimental posibles diferencias y posibles relaciones
(plan de recogida de datos)

• Descriptivo
Niveles de • Relacional
indagación • Explicativo

Tipo de
conclusiones
Marcelo Román V. 14
Diferentes niveles de indagación:

• Descriptivo: “obtener conocimiento sobre algo desconocido, identificar


problemas de investigación y generar ideas para evaluarlas posteriormente a
otro nivel” (cómo son las cosas)

• Relacional: (1) descubrir qué hechos se encuentran relacionados y en qué


medida y (2) predecir unos a partir de otros (cómo unas cosas se relacionan
con otras)

• Explicativo: establece relaciones de tipo causal entre los eventos (por qué las
cosas son como son).

Marcelo Román V. 15
Marcelo Román V. 16
Variables
• Una variable es una característica observable que varía entre los diferentes
individuos de una población. La información que disponemos de cada individuo es
resumida en variables.

• En los individuos de la población ecuatoriana, de uno a


otro es variable:

• El grupo sanguíneo
• {A, B, AB, O}  Var. Cualitativa
• Su nivel de felicidad “declarado”
• {Deprimido, Ni fu ni fa, Muy Feliz}  Var. Ordinal
• El número de hijos
• {0,1,2,3,...}  Var. Numérica discreta
• La altura
• {1’62 ; 1’74; ...}  Var. Numérica continua

Marcelo Román V. 17
Tipos de variables
• Cualitativas
Si sus valores (modalidades) no se pueden asociar naturalmente a un número (no
se pueden hacer operaciones algebraicas con ellos)

• Nominales: Si sus valores no se pueden ordenar


• Sexo, Grupo Sanguíneo, Religión, Nacionalidad, Fumar (Sí/No)

• Ordinales: Si sus valores se pueden ordenar


• Mejoría a un tratamiento, Grado de satisfacción, Intensidad del dolor

• Cuantitativas o Numéricas
Si sus valores son numéricos (tiene sentido hacer operaciones algebraicas con
ellos)

• Discretas: Si toma valores enteros


• Número de hijos, Número de cigarrillos, Num. de “cumpleaños”

• Continuas: Si entre dos valores, son posibles infinitos valores intermedios.


• Altura, Presión intraocular, Dosis de medicamento administrado, edad

Marcelo Román V. 18
• El análisis de datos se basa en datos. Para poder analizar los datos es
necesario asignar números a las características que se desea estudiar
• Dependiendo del tipo de relaciones que se establece entre los valores
(números) asignados a una características, se establecen diferentes
niveles de medida:

• Cualitativa Nominal: Sexo, color del pelo, tipo de RRSS, ….


• Cualitativa Ordinal: Escalas tipo Likert,….

• Cuantitativa Discreta: número de alumnos, ….


• Cuantitativa Continua: edad, tiempo que dedicas a navegar por Internet

Marcelo Román V. 19
Variable
Cuantitativas
Cualitativa (categorías)
(numéricas)

Nominales Ordinales Discretas Continuas


ABCD I II III IV 1, 2, 3, 4 1´5, 3´4, 4´6

CLASIFICAR JERARQUIZAR CONTAR MEDIR

Marcelo Román V. 20
Una cosita sobre las VARIABLES NOMINALES
• Definición: Los números expresan identidades
• Variable: Color del pelo
• Valores:
• 1 = Moreno
• 2 = Rubio
• 3 = Castaño
• 4 = Otros
• “Otros” (4) no es más ni menos que “Moreno” (1), simplemente es distinto
• Complementariamente, asumimos que todos los “Rubios” (2) son iguales,

Marcelo Román V. 21
• Es buena idea codificar las variables como
números para poder procesarlas con facilidad en
un ordenador. ## # Crear la variable ordinal Felicidad# Para crear una variable
• Es conveniente asignar “etiquetas” a los valores de de escala ordinal en R, puedes usar la función 'ordered()’
las variables para recordar qué significan los
códigos numéricos. # help("ordered")
• Sexo (Cualit: Códigos arbitrarios)
• 1 = Hombre
• 2 = Mujer felicidad <- ordered( c(1, 2, 3), levels = c(1, 2, 3),
• Raza (Cualit: Códigos arbitrarios) labels = c('Muy feliz', 'Bastante feliz', 'No demasiado feliz’))
• 1 = Blanca
• 2 = Negra,... # Mostrar la variable Felicidadprint(felicidad)
• Felicidad Ordinal: Respetar un orden al codificar. # -----------------------------------------#
• 1 = Muy feliz
• 2 = Bastante feliz
ARGUMENTAR LA CODIFICACIÓN UTILIZADA.....
• 3 = No demasiado feliz # -----------------------------------------
• Se pueden asignar códigos a respuestas especiales
como
• 0 = No sabe
• 99 = No contesta...
• Estas situaciones deberán ser tenidas en cuentas
en el análisis. Datos perdidos (‘missing data’)

Marcelo Román V. 24
• Los posibles valores de una variable suelen denominarse modalidades.

• Las modalidades pueden agruparse en clases (intervalos)


• Edades:
• Menos de 20 años, de 20 a 50 años, más de 50 años
• Hijos:
• Menos de 3 hijos, De 3 a 5, 6 o más hijos

• Las modalidades/clases deben forman un sistema exhaustivo y excluyente


• Exhaustivo: No podemos olvidar ningún posible valor de la variable
• Mal: ¿Cuál es su color del pelo: (Rubio, Moreno)?
• Bien: ¿Cuál es su grupo sanguíneo?
• Excluyente: Nadie puede presentar dos valores
simultáneos de la variable
• Estudio sobre el ocio
• Mal: De los siguientes, qué le gusta: (deporte, cine)
• Bien: Le gusta el deporte: (Sí, No)
• Bien: Le gusta el cine: (Sí, No)
• Mal: Cuántos hijos tiene: (Ninguno, Menos de 5, Más de 2)

Marcelo Román V. 25
Representación gráfica de datos
Variables cualitativas Variables cuantitativas

Marcelo Román V. 26
Marcelo Román V. 27
Presentación ordenada de datos

7
6
Género Frec.
5

Hombre 4 4
3
2
Mujer 6 1
0
Hombre Mujer

• Las tablas de frecuencias y las representaciones gráficas son


dos maneras equivalentes de presentar la información. Las dos
exponen ordenadamente la información recogida en una
muestra.

Marcelo Román V. 28
𝒌
Paso 1: Defina el número de clases 𝟐 >𝒏
Paso 2: Determine el intervalo o ancho de clase

Fórmula de Sturges
𝒌 = 𝟏 + 𝒍𝒐𝒈𝟐 (𝒏)
# 𝒄𝒍𝒂𝒔𝒆𝒔 = 𝟏 + 𝟑, 𝟑𝟐𝟐𝐥𝒐𝒈(𝒏)
Tablas de frecuencia
• Exponen la información recogida en la muestra, de forma que no se pierda nada de información (o
poca).

• Frecuencias absolutas: Contabilizan el número de individuos de cada modalidad

• Frecuencias relativas (porcentajes): Idem, pero dividido por el total

• Frecuencias acumuladas: Sólo tienen sentido para variables ordinales y numéricas


• Muy útiles para calcular cuantiles (ver más adelante)
• ¿Qué porcentaje de individuos tiene menos de 3 hijos? Sol: 83,8
• ¿Entre 4 y 6 hijos? Soluc 1ª: 8,4%+3,6%+1,6%= 13,6%. Soluc 2ª: 97,3% - 83,8% = 13,5%

Sexo del encuestado


Número de hijos
Porcentaje
Porcentaje Porcentaje
Frecuencia Porcentaje válido
Frecuencia Porcentaje válido acumulado
Válidos Hombre 636 41,9 41,9
Válidos 0 419 27,6 27,8 27,8
Mujer 881 58,1 58,1
1 255 16,8 16,9 44,7
Total 1517 100,0 100,0
2 375 24,7 24,9 69,5
3 215 14,2 14,2 83,8
Nivel de felicidad
4 127 8,4 8,4 92,2
Porcentaje Porcentaje 5 54 3,6 3,6 95,8
Frecuencia Porcentaje válido acumulado 6 24 1,6 1,6 97,3
Válidos Muy feliz 467 30,8 31,1 31,1
7 23 1,5 1,5 98,9
Bastante feliz 872 57,5 58,0 89,0
Ocho o más 17 1,1 1,1 100,0
No demasiado feliz 165 10,9 11,0 100,0
Total 1509 99,5 100,0
Total 1504 99,1 100,0
Perdidos No contesta
Perdidos No contesta 8 ,5
13 ,9
Total 1517 100,0 Total 1517 100,0

Marcelo Román V. 32
Ejemplo
• ¿Cuántos individuos tienen menos Número de hijos
de 2 hijos?
• frec. indiv. sin hijos Porcent. Porcent.
+ Frec. (válido) acum.
frec. indiv. con 1 hijo 0 419 27,8 27,8
= 419 + 255 1 255 16,9 44,7
= 674 individuos 2 ≥50%
375 24,9 69,5
3 215 14,2 83,8
• ¿Qué porcentaje de individuos 4 127 8,4 92,2
tiene 6 hijos o menos? 5 54 3,6 95,8
• 97,3% 6 24 1,6 97,3
7 23 1,5 98,9
• ¿Qué cantidad de hijos es tal que al Ocho+ 17 1,1 100,0
menos el 50% de la población tiene Total 1509 100,0
una cantidad inferior o igual?
• 2 hijos

Marcelo Román V. 33
Marcelo Román V. 34
Gráficos diferenciales para variables numéricas
419
400 375

• Son diferentes en función de que las 300

255

Recuento
variables sean discretas o continuas. Valen
215
200

con frec. absolutas o relativas. 100


127

• Diagramas barras para v. discretas


54
24 23 17

• Se deja un hueco entre barras para indicar los 0 1 2 3 4 5

Número de hijos
6 7 Ocho o más

valores que no son posibles


250

• Histogramas para v. continuas


• El área que hay bajo el histograma entre dos
200

Recuento
puntos cualesquiera indica la cantidad 150

(porcentaje o frecuencia) de individuos en el 100

intervalo.
50

20 40 60 80

Edad del encuestado

Marcelo Román V. 36
Diagramas integrales
• Cada uno de los anteriores diagramas tiene su correspondiente diagrama integral. Se realizan a partir de
las frecuencias acumuladas. Indican, para cada valor de la variable, la cantidad (frecuencia) de individuos
que poseen un valor inferior o igual al mismo. No los construiremos en clase. Se pasan de los diferenciales
a los integrales por integración y a la inversa por derivación (en un sentido más general del que visteis en
bachillerato.)

Marcelo Román V. 37
¿Qué hemos visto?
• Definición de estadística
• Población
• Muestra
• Variables
• Cualitativas
• Numéricas
• Presentación ordenada de datos
• Tablas de frecuencias
• absolutas
• relativas
• acumuladas
• Representaciones gráficas
• Cualitativas
• Numéricas
• Diferenciales
• Integrales

Marcelo Román V. 38
Estadística Descriptiva
Parámetros y estadísticos
• Parámetro: Es una cantidad numérica calculada sobre una población

• La altura media de los individuos de un país

• La idea es resumir toda la información que hay en la población en unos


pocos números (parámetros).

• Estadístico: Ídem (cambiar población por muestra)

• La altura media de los que estamos en este aula.


• Somos una muestra (¿representativa?) de la población.

• Si un estadístico se usa para aproximar un parámetro también se le suele


llamar estimador.
Normalmente nos interesa conocer un parámetro, pero por la dificultad que
conlleva estudiar a *TODA* la población, calculamos un estimador sobre una
muestra y “confiamos” en que sean próximos. Más adelante veremos como elegir
muestras para que el error sea “confiablemente” pequeño.
Marcelo Román V. 39
Estadística Descriptiva

Marcelo Román V. 40
Distribuciones unimensionales
Parámetros

Parámetros o medidas de Parámetros o medidas de Parámetros o medidas de forma


centralización dispersión

Rango
De Rango Intercuartílico Sesgo
De tamaño De posición
frecuencia
Desviación respecto a la media
Desviación media
Media
Moda Cuantiles Varianza
aritmética
Desviación típica
Coeficiente de variación
Un brevísimo resumen sobre estadísticos
• Posición
• Dividen un conjunto ordenado de datos en grupos con la
misma cantidad de individuos.
• Cuantiles, percentiles, cuartiles, deciles,...
• Centralización
• Indican valores con respecto a los que los datos parecen
agruparse.
• Media, mediana y moda
• Dispersión
• Indican la mayor o menor concentración de los datos con
respecto a las medidas de centralización.
• Desviación típica, coeficiente de variación, rango, varianza
• Forma
• Asimetría
• Apuntamiento o curtosis

Marcelo Román V. 42
Marcelo Román V. 43
Medidas de Tendencia Central
Añaden unos cuantos casos particulares a las medidas de posición. En este caso son
medidas que buscan posiciones (valores) con respecto a los cuales los datos muestran
tendencia a agruparse.

• Media (‘mean’) Es la media aritmética (promedio) de los valores de una variable. Suma
de los valores dividido por el tamaño muestral.
• Media de 2,2,3,7 es (2+2+3+7)/4=3,5
• Conveniente cuando los datos se concentran simétricamente con respecto a ese
valor. Muy sensible a valores extremos.
• Centro de gravedad de los datos

• Mediana (‘median’) Es un valor que divide a las observaciones en dos grupos con el
mismo número de individuos (percentil 50). Si el número de datos es par, se elige la
media de los dos datos centrales.
• Mediana de 1,2,4,5,6,6,8 es 5
• Mediana de 1,2,4,5,6,6,8,9 es (5+6)/2=5,5
• Es conveniente cuando los datos son asimétricos. No es sensible a valores
extremos.
• Mediana de 1,2,4,5,6,6,800 es 5. ¡La media es 117,7!

• Moda (‘mode’) Es el/los valor/es donde la distribución de frecuencia alcanza un máximo.

Marcelo Román V. 44
Altura mediana

Marcelo Román V. 45
Medidas de Tendencia Central
La media geométrica resulta útil para determinar el cambio promedio de porcentajes,
razones, índices o tasas de crecimiento. Posee amplias aplicaciones en la administración y la
economía, ya que con frecuencia hay interés en determinar los cambios porcentuales de
ventas, salarios o cifras económicas, como el producto interno bruto, los cuales se
combinan o se basan unos en otros.

Marcelo Román V. 47
Durante la década de los noventa y hasta los primeros años de 2000, Riobamba fue la ciudad de mayor
crecimiento en Ecuador. La población se incrementó de 258 295 en 1990 a 607 876 en 2009. Es un incremento de
349 581 personas o 135.3% durante el periodo.
¿Cuál es el incremento anual promedio?

El valor de 0.0461 indica que el crecimiento anual promedio durante el periodo fue de 4.61%. Expresado
en otros términos, la población de Riobamba creció a una tasa de 4.61% por año de 1990 a 2009.

Marcelo Román V. 49
Medidas de Tendencia Central para datos agrupados
• Datos sin agrupar: x1, x2, ..., xn
• Media
x=
 x i i

n
• Datos organizados en tabla
• si está en intervalos usar como xi las marcas de clase. Si
no ignorar la columna de intervalos.

• Media
x=
 xn i i i

n
Variable fr. fr. ac. • Cuantil de orden α
L0 – L1 x1 n1 N1 • i es el menor intervalo que tiene frecuencia
acumulada superior a α ·n
L1 – L2 x2 n2 N2
• α=0,5 es mediana
...
  n − N i −1
Lk-1 – Lk xk nk Nk C = Li −1 + ( Li − Li −1 )
n ni
Marcelo Román V. 51
Ejemplo con variable en intervalos
Peso M. frec Fr.
Clase acum.
40 – 50 45 5 5
50 – 60 55 10 15
60 – 70 65 21 36
70 - 80 75 11 47
80 - 90 85 5 52
90 - 100 95 3 55
100 – 130 115 3 58

En el histograma se identifica “unidad de área” con


“individuo”.

Para calcular la media es necesario elegir un punto


representante del intervalo: La marca de clase.

La media se desplaza hacia los valores extremos.


No coincide con la mediana. Es un punto donde el
histograma “estaría en equilibrio” si tuviese masa.

Marcelo Román V. 52
Ejemplo (continuación)

Peso M. Clase Fr. Fr. ac.


40 – 50 45 5 5
x=
 xn i i i
=
45  5 + 55 10 +  + 115  3
= 69,3
50 – 60 55 10 15 n 58
60 – 70 65 21 36
70 - 80 75 11 47 0,5  58 − N i −1
Mediana = C0,5 = Li −1 + ( Li − Li −1 )
80 - 90 85 5 52 ni
90 - 100 95 3 55 0,5  58 − 15 
100 – 130 115 3 58
= 60 + (70 − 60) = 66,6
21
58

0,75  58 − N i −1 43,5 − 36
P75 = C0,75 = Li −1 + ( Li − Li −1 ) = 70 + (80 − 70) = 76,8
ni 11
• Moda = marca de clase de (60,70] = 65
• Cada libro ofrece una fórmula diferente para la moda (difícil estar al día.)
Marcelo Román V. 53
Marcelo Román V. 54
Marcelo Román V. 55
La varianza y la desviación estándar también se fundamentan en las desviaciones de la media. Sin

embargo, en lugar de trabajar con el valor absoluto de las desviaciones, la varianza y la desviación

estándar lo hacen con el cuadrado de las desviaciones.


Variabilidad o dispersión
• Los estudiantes de Electromecánica reciben diferentes calificaciones en la
asignatura (Estadística). ¿A qué puede deberse?

• Diferencias individuales en el conocimiento de la materia.

• ¿Podría haber otras razones (fuentes de variabilidad)?

• Por ejemplo supongamos que todos los alumnos poseen el mismo nivel de
conocimiento. ¿Las notas serían las mismas en todos? Seguramente No.

• Dormir poco el día del examen, el croissant estaba envenenado...


• Diferencias individuales en la habilidad para hacer un examen.

• El examen no es una medida perfecta del conocimiento.


• Variabilidad por error de medida.

• En alguna pregunta difícil, se duda entre varias opciones, y al azar se elige la mala
• Variabilidad por azar, aleatoriedad.
Marcelo Román V. 58
Medidas de dispersión
Miden el grado de dispersión (variabilidad) de los datos, independientemente de su
causa.

0.05
Mín. P25 P50 P75 Máx.

• Amplitud o Rango (‘range’):

0.04
Diferencia entre observaciónes extremas.
• 2,1,4,3,8,4. El rango es 8-1=7

0.03
• Es muy sensible a los valores extremos.
25% 25% 25% 25%

0.02
Rango intercuartílico

0.01
• Rango intercuartílico (‘interquartile range’): Rango
• Es la distancia entre primer y tercer cuartil.

0.00
• Rango intercuartílico = P75 - P25
150 160 170 180 190
• Parecida al rango, pero eliminando las observaciones más extremas inferiores y
superiores.

• No es tan sensible a valores extremos.


Marcelo Román V. 59
• Varianza S2 (‘Variance’): Mide el promedio de las desviaciones (al cuadrado) de las
observaciones con respecto a la media.

1
S =  ( xi − x )
2 2

n i

• Es sensible a valores extremos (alejados de la media).

• Sus unidades son el cuadrado de las de la variable. De interpretación difícil para un principiante.

• La expresión es fea, pero de gran belleza ‘natural’ (físicamente). Contiene la información


geométrica relevante en muchas situaciones donde la energía interna de un sistema depende de
la posición de sus partículas.

• Energía de rotación (vía el coeficiente de inercia): patinadores con brazos extendidos (dispersos) o
recogidos (poco dispersos)

• Energía elástica: Muelles ‘estirados’ con respecto a su posición de equilibrio (dispersos) frente a muelles
en posición cercana a su posición de equilibrio (poco dispersos)

Marcelo Román V. 60
Desviación típica (‘standard deviation’)
Es la raíz cuadrada de la varianza
S= S 2
• Tiene las misma dimensionalidad
(unidades) que la variable. Versión 50

‘estética’ de la varianza.
40

• Cierta distribución que veremos más


adelante (normal o gaussiana) quedará 30
completamente determinada por la media
y la desviación típica.
20

• A una distancia de una desv. típica de la media


hay más de la ‘más de la mitad’. 10
Desv. típ. = 568,43
Media = 2023

• A una distancia de dos desv. típica de la media 0


50 90 1.
30 1.70 2.
10
2.
50
2.
90
N = 407,00
3.
30
las tendremos casi todas. 0 0 0 0 0 0 0 0

Peso recién nacidos en partos gemelares


Marcelo Román V. 61
Dispersión en distribuciones ‘normales’
0.05

0.05
0.04

0.04
0.03

0.03
0.02

0.02
0.01

0.01
x s x 2s
68.5 % 95 %
0.00

0.00
150 160 170 180 190 150 160 170 180 190

• Centrado en la media y a una desv. típica de distancia hay


aproximadamente el 68% de las observaciones.

• A dos desviaciones típicas tenemos el 95% (aprox.)

Marcelo Román V. 62
• Datos ‘casi normales’. Eje ‘x’ medido en desviaciones típicas…
• ¿Encuentras relación entre rango intercuartílico y desviación típica?
• ¿Y entre los ‘bigotes’ y dos desviaciones típicas? ¿Podrías caracterizar las
observaciones anómalas?
0.3

0.3
densidad

densidad
0.2

0.2
0.1

0.1
x s x 2s x s x 2s
66 % 95 % 71 % 94 %
0.0

0.0
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
0.4

0.3
0.3
densidad

densidad

0.2
0.2

0.1
0.1

x s x s x 2s
x 2s
68 % 94 % 70 % 94 %
0.0

0.0
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3

Marcelo Román V. 63
Marcelo Román V. 64
Diagramas de cajas
Gráfico que aporta gran cantidad de información acerca de la distribución de frecuencias de una variable cuantitativa. A partir de un diagrama
de cajas se puede determinar el valor del Mínimo, Q1, Mediana, Q3 y Máximo.
Además se puede determinar si existen valores extremos (Outliers)

OUTLIERS
Un valor extremo o outlier es un
valor extremadamente alto o bajo
en relación al resto de los datos

Para determinar si existen valores


extremos:

1º Se calcula el rango intercuartil


(Q3-Q1)

2º Se establece un intervalo cuyo


límite inferior es el Q1 menos 1’5
veces el rango intercuartil, y cuyo
límite superior el es Q3 más 1’5
veces el rango intercuartil

3º Todo dato con un valor fuera de


ese intervalo es un outlier
Representación gráfica: Diagrama de cajas

De un vistazo tenemos una impresión


Máximo aproximada de la amplitud total, la
amplitud intercuartil y la mediana
Valores Xi

Cuartil 3: valor que deja por debajo al 75% de los datos

Mediana

Cuartil 1: valor que deja por debajo al 25% de los datos

Mínimo Nota: algunos programas como


SPSS indican los valores
Nombre de la variable (X)
extremos (muy alejados del
centro) con círculos o asteriscos
Estadísticos de posición
• Percentil de orden k = cuantil de orden k/100
• La mediana es el percentil 50
• El percentil de orden 15 deja por debajo al 15% de las observaciones.
Por encima queda el 85%

• Cuartiles: Dividen a la muestra en 4 grupos con frecuencias


similares.
• Primer cuartil = Percentil 25 = Cuantil 0,25
• Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana
• Tercer cuartil = Percentil 75 = cuantil 0,75

Marcelo Román V. 67
Ejemplos
• El 5% de los recién nacidos tiene un peso demasiado bajo. ¿Qué peso se
considera “demasiado bajo”?
• Percentil 5 o cuantil 0,05

Percentil 5 del peso


25
20
frecuencia

15
10
5
0

1 2 3 4 5

Peso al nacer (Kg) de 100 niños


Marcelo Román V. 68
Ejemplos
¿Qué peso es superado sólo por el 25% de los individuos?
• Percentil 75 o tercer cuartil

Percentil 75 del peso


30
25
20
frecuencia

15
10
5
0

50 55 60 65 70 75 80 85

Peso (Kg) de 100 deportistas


Marcelo Román V. 69
Ejemplos
• El colesterol se distribuye simétricamente en la población. Supongamos que se
consideran patológicos los valores extremos. El 90% de los individuos son
normales ¿Entre qué valores se encuentran los individuos normales?

Percentiles 5 y 95
20
15
frecuencia

10
5
0

180 200 220 240 260

Colesterol en 100 personas


Marcelo Román V. 70
Ejemplos
• ¿Entre qué valores se encuentran la mitad de los individuos “más normales” de
una población?
• Entre el cuartil 1º y 3º
Percentiles 25 y 75
20
15
frecuencia

10
5
0

150 160 170 180 190

Altura (cm) en 100 varones


Marcelo Román V. 71
Diagrama de cajas de Tukey: Resumen en 5 números

Diagramas de Tukey

0.08
0.06
• Resumen con 5 números:

densidad
• Mínimo, cuartiles y máximo.

0.04
• Suelen dar una buena idea de la

0.02
Mín. P25 P50 P75 Máx.
distribución.

0.00
• La zona central, ‘caja’, contiene al 40 45 50 55 60 65

Velocidad (Km/h) de 200 vehículos en ciudad


50% central de las observaciones.
• Su tamaño se llama ‘rango
intercuartílico’ (R.I.)
Diagrama de cajas de Tukey: Resumen en 5 números

• Es costumbre que ‘los bigotes’, no

0.04
lleguen hasta los extremos, sino
hasta las observaciones que se

0.03
densidad
separan de la caja en no más de
0.02
1,5 R.I.
• Más allá de esa distancia se P25 P50 P75
0.01
Mín. Máx.

consideran anómalas, y así se


marcan.
0.00

80 90 100 110 120 130 140

Velocidad (Km/h) de 200 vehículos en autovía

Marcelo Román V. 72
Ejemplo Estadísticos

Número de años de escolarización


N Válidos 1508
Número de años de escolarización Perdidos 0
Media 12,90
Porcentaje Mediana 12,00
Frecuencia Porcentaje acumulado Moda 12
3 5 ,3 ,3 Percentiles 10 9,00
20 11,00
4 5 ,3 ,7
25 12,00
5 6 ,4 1,1 30 12,00
6 12 ,8 1,9 40 12,00
7 25 1,7 3,5 50 12,00
60 13,00
8 68 4,5 8,0
70 14,00
9 56 3,7 11,7 75 15,00
10 73 4,8 16,6 80 16,00
11 85 5,6 22,2 ≥20%? 90 16,00
12 461 30,6 52,8
13 130 8,6 61,4
14 175 11,6 73,0
15 73 4,8 77,9
16 194 12,9 90,7 ≥ 90%?
17 43 2,9 93,6
18 45 3,0 96,6
19 22 1,5 98,0
20 30 2,0 100,0
Total 1508 100,0

Marcelo Román V. 73
Coeficiente de variación
S
Es la razón entre la desviación típica y la media. CV =
• Mide la desviación típica en forma de
“qué tamaño tiene con respecto a la media” x
• También se la denomina variabilidad relativa.

• Es frecuente mostrarla en porcentajes


• Si la media es 80 y la desviación típica 20 entonces CV=20/80=0,25=25% (variabilidad relativa)

• Es una cantidad adimensional. Interesante para comparar la variabilidad de diferentes


variables.
• Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan más dispersión en peso
que en altura.

• No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una
cantidad fijada arbitrariamente
• Por ejemplo 0ºC ≠ 0ºF

• Los ingenieros electrónicos hablan de la razón ‘señal/ruido’ (su inverso).

Marcelo Román V. 74
Asimetría o Sesgo
• Una distribución es simétrica si la mitad
izquierda de su distribución es la imagen
especular de su mitad derecha.

• En las distribuciones simétricas media y


mediana coinciden. Si sólo hay una
moda también coincide

• La asimetría es positiva o negativa en


función de a qué lado se encuentra la
cola de la distribución.

• La media tiende a desplazarse hacia las


valores extremos (colas).

• Las discrepancias entre las medidas de


centralización son indicación de
asimetría.

Marcelo Román V. 75
Estadísticos para detectar asimetría
• Hay diferentes estadísticos que sirven para detectar asimetría.
• Basado en diferencia entre estadísticos de tendencia central.
• Basado en la diferencia entre el 1º y 2º cuartiles y 2º y 3º.
• Basados en desviaciones con signo al cubo con respecto a la media.
• Los calculados con ordenador. Es pesado de hacer a mano.

• En función del signo del estadístico diremos que la asimetría es positiva o


negativa.
• Distribución simétrica ➔ asimetría nula.

0.20
0.5
0.20

0.4

0.15
0.15

0.3

0.10
0.10

0.2

0.05
0.05

0.1

x s x s
x s
66 % 78 %
78 %
0.00

0.00
0.0

8 10 12 14 16 18 20 -2 -1 0 1 2 3 0 2 4 6 8 10 12 14
Marcelo Román V. 76
x x x
Valores raros y forma de la distribución

Asimetría (sesgada) Insesgada Asimetría (sesgada)


a la Izquierda a la Derecha
V<0 V=0 V>0

• En las distribuciones simétricas la media es mejor representante de los datos


• Si hay muchos valores alejados del “centro”, la media no es buena
representación
De acuerdo con esta expresión, el sesgo puede variar de 3 a 3. Un valor próximo a 3, como 2.57, indica un
sesgo negativo considerable. Un valor como 1.63 indica un sesgo positivo moderado. Un valor de 0, que
ocurre cuando la media y la mediana son iguales, indica que la distribución es simétrica y que no se presenta
ningún sesgo.

Marcelo Román V. 78
Apuntamiento o curtosis
La curtosis nos indica el grado de apuntamiento (aplastamiento) de una distribución con
respecto a la distribución normal o gaussiana. Es adimensional.

Platicúrtica (aplanada): curtosis < 0

Mesocúrtica (como la normal): curtosis = 0


En el curso serán de especial
interés las mesocúrticas y
Leptocúrtica (apuntada): curtosis > 0 simétricas (parecidas a la normal).

Aplanada Apuntada como la normal Apuntada


2.0

0.8
0.3
1.5

0.6
0.2
1.0

0.4
0.1
0.5

0.2
x s
x s x s
68 %
57 % 82 %
0.0

0.0
0.0

0.0 0.2 0.4 0.6 0.8 1.0 -3 -2 -1 0 1 2 3 -2 -1 0 1 2


Marcelo Román V. 82
La curtosis o kurtosis es un parámetro estadístico que sirve para caracterizar la distribución de
probabilidad de una variable aleatoria, indicando el grado de concentración de los valores alrededor de
la medida central. Esto también se conoce como “grado de pico”.
¿Qué hemos visto?
• Parámetros
• Estadísticos y estimadores
• Clasificación
• Posición (cuantiles, percentiles,...)
• Diagramas de cajas
• Medidas de centralización: Media, mediana y moda
• Diferenciar sus propiedades.
• Medidas de dispersión
• con unidades: rango, rango intercuartílico, varianza, desv. típica
• sin unidades: coeficiente de variación
• ¿Qué usamos para comparar dispersión de dos poblaciones?
• Asimetría
• positiva
• negativa
• ¿Podemos observar asimetría sin mirar la gráfica?
• ¿Cómo me gustan los datos?
• Medidas de apuntamiento (curtosis)
• ¿Cómo me gustan los datos?
Marcelo Román V. 84

También podría gustarte