Descripción numérica de variables cuantitativas
Objetivos de aprendizaje
Descripción numérica de variables cuantitativas
*¿Cómo se describen? - mediante 4 tipos de índices, los dos primeros fundamentalmente
1. Medidas de tendencia central
+ intenta describir cual es el valor típico o representativo de una serie de datos
+ TIPOS:
*MEDIA ARITMÉTICA →
● se expresa con una barrita encima
● fórmula: suma de valores / número de todos los valores que hay
● me explica el valor medio de una serie de datos
*MEDIANA
● valor central del conjunto ordenado de datos
+ impares: cojo valor central
+ pares → hago la media de los dos valores centrales
- centrales: 2 y 3 →los sumo = 5 → dividido entre
2 → 2,5 es la mediana
*MEDIA PONDERADA
● Ej →
a. examen que vale un 60% saco un 10
b. examen que vale un 40% saco un 10
c. 0,6 + 0,4 → me da la media ponderada
● aplicación en PAM → es el resultado de la media de
[Link]ólica y [Link]ólica
*MEDIA GEOMÉTRICA, ARMÓNICA → no muy utilizada
*MODA
● valor que más se repite del conjunto de los datos
● aspecto negativo → cambia fácilmente.
*Ventajas + desventajas de media y mediana
**MEDIA
- VENTAJAS → utilizo todos los datos
- MALO → un valor extremo me la cambia muchísimo → valor patológico o persona rara
- CUANDO LA UTILIZO → cuando la distribución de los datos es simétrica
**MEDIANA
- MALO: no utiliza todos los datos
- VENTAJAS → en valores entremos no modifica su valor → se dice por esto que es “robusta”
- CUANDO LA UTILIZO → cuando hay valores extremos, la distribución de los datos es
asimétrica
*EJEMPLO medidas de tendencia central
- calculamos el número de bebidas alcohólicas que consume un paciente de media al día
● paciente a y b lo mismo, 2 copas al día
- Hace falta “algo más”: la media no es suficiente para describir los datos numéricos:
● dos distribuciones distintas, pueden tener medias iguales
- Ese “algo más” son las medidas de dispersión: digo si
a. los valores están no dispersos o dispersos (si se separan del valor central)
- una medida central siempre acompañada de una de dispersión
2. Medidas de dispersión
*VARIANZA
+ FÓRMULA →
*numerador (SUMA DE CUADRADOS) →
a. xi (cada uno de los datos) - (la media de los datos)
● me dice cuanto se separa cada dato de la media
● unos están por encima de media y otros por debajo
b. lo elevo al cuadrado, así todo suma
*denominador (GRADOS DE LIBERTAD) → número total de datos - 1
+ PROBLEMA → las unidades en las que se expresa no son las de la variable
sino al cuadrado
● yo no expreso la dispersión, sino la dispersión al cuadrado
+ hago la raíz cuadrada de esto y obtengo → DESVIACION TIPICA, O
ESTANDAR
*DESVIACIÓN TÍPICA O ESTÁNDAR
+ raíz cuadrada de varianza
+ se utiliza mucho
+ siempre que uso la media la acompaño de desviación típica como medida
de dispersión (IMPTE PARA EXÁMEN)
*ejercicio cálculo de varianza y desviación estándar
*COMPARACIÓN DE DISPERSIÓN DE DOS VARIABLES
- peso en kilos y altura en metros (medidas diferentes) → ¿cual es más dispersa?
- no se puede comparar porque estoy comparando 5 kilos con 0,2 metros
- aparece una tercera medida de dispersión
*COEFICIENTE DE VARIACIÓN (no entiendo una puta mierda)
+ sirve para → expresar esa dispersión relativa a la media
+ responde a → ¿qué porcentaje de la media supone la desviación estándar?
+ El coeficiente de variación me permite comparar cosas distintas
+ Así que ahora cojo ejemplo anterior → es más dispersa la altura
*RANGO O AMPLITUD
+ se da a veces en forma de intervalo
+ otras veces se ejecuta en número
+ no se usa mucho
*RANGO INTERCUARTÍLICO
+ medida de tendencia central: mediana, y le acompaña el rango intercuartílico como
medida de dispersión
+ puntos de corte de cada mitad en la que me divide la mediana
IMPORTANTE EXAMEN
- media - desviación estándar
- mediana - rango intercuartílico
3. Medidas de posición:
- expresa un sujeto o un paciente cómo se posiciona con respecto al resto
*PERCENTILES
+ si divido muestra en 100 unos por cientos (100 trozos iguales de 1%), cada
uno de esos sería el percentil
● son exactamente esos puntos de corte para dividir la muestra en 100
ptos iguales
+ EJEMPLO → percentil 30 → valor que divide muestra en:
- tengo 30% por debajo de ese valor
- 70% por encima
+ LA MEDIANA DIVIDE MUESTRA EN DOS MITADES 50, ES EL PERCENTIL POR
TANTO 50
+ EJ (gráfica de arriba)→ pruebas de crecimiento niños:
● altura en función de la edad → para determinar si tiene o no un
desarrollo bueno
● 5 líneas de gráfica:
- verde: mediana
- amarillas: percentil 25% y 75%
● ES EL RANGO INTERCUARTÍLICO
● cortan en mitad cada una de esas dos mitades que
me corta la mediana
● obtengo 4 cuartos, iguales
● un valor extremo no me importa
- rojas: percentil 97% y 3%
● un niño por encima del 97 o por debajo de 3 habría que mirar a ver
si le pasa algo
*CUANTILES
+ cortar la muestra en trozos iguales con mismo porcentaje de pacientes
+ Ej → dependiendo en que corte la muestra, adopta distintos nombres
- terciles, cuartiles, quintiles
4. Medidas de forma
*ASIMETRÍA
+
+ puede darse hacia un lado o hacia otro
a. negativa: más dispersa hacia valores negativa
b. positiva: más dispersa hacia los valores positivos
+ ¿MEDIA o MEDIANA para cálculo de tendencia central de mis datos?
a. asimetría → SIEMPRE UTILIZO MEDIANA
*simetría negativa →
- valores extremos hacia la izquierda hacen que media baje
- mediana no se afecta
- POR TANTO USO LA MEDIANA
*simetría positiva →
- valores extremos hacia la derecha hacen que media suba
- mediana no se afecta
- POR TANTO USO LA MEDIANA
b. simetría de datos → SIEMPRE UTILIZO MEDIA
*CURTOSIS
+ me dice si → distribución de datos es
a. plana: platicúrtica
b. picuda: leptocurtica
+ la forma de la distribucion tambien se puede medir, a eso le corresponde un
dato numérico
IMPORTANTE PARA EXAMEN
*que es un percentil y que son los cuantiles
GRÁFICAS PARA DESCRIBIR UNA VARIABLE
- para describir una variable lo hago mediante gráficos
- lo que hace que use uno o otro depende de la variable con la que trabaje
1. Gráfica de sectores
+ VARIABLE → cualitativa nominal
+ EJ → porcentaje de fallecimientos que se atribuyen al
alcohol según OMS, ver causas
● digestivo, cáncer, cardiovascular
+ cada categoría es un sector
+ el ángulo del sector es proporcional a la frecuencia
frecuencia relativa de la categoría que presenta
2. Gráfico de barras
+ VARIABLE → cualitativa ordinal
● tambien se puede emplear para cuantitativa discreta (que no tenga muchos
valores
+ ej: número de hijos, veces que he intentado dejar de fumar etc
+ ¿porque no sirve para la cualitativa ordinal el gráfico de sectores? → en ordinal no
me interesa solo saber frecuencia, sino expresar frecuencia en orden concreto
+ en gráfica de barras tengo mismos porcentajes pero expresados en orden
+ cada barra representa una categoría
+ altura barra es proporcional a la frecuencia
+ EJ → prevalencia provisional de abstinencia alcohol, dependencia, ligero …
+ tb existen gráficos de barras en los que se apilan barras. Se ordenan
previamente.
3. Polígono de frecuencia acumulada
+ expresamos la frecuencia acumulada de 0 a 100% en función de los datos de la
variable que estamos describiendo
+ TABLA → valores de la variable → (edad de madre), van a tener desde 14 a 45
● primera columna: frecuencia en términos absolutos
● segunda columna: frecuencia en términos relativos, relativos al total
● última columna: frecuencia acumulada → que porcentaje de pacientes tiene
un valor como ese o inferior (ir sumando categorías previas)
+ Todo esto se ve en gráfica, polígono de frecuencia acumulada, va
subiendo la variable.
4. Histograma
● VARIABLE → cuantitativa numérica
● NO CONFUNDIR CON GRÁFICO DE BARRAS
+ DIFERENCIA → no expreso una variable cuantitativa discreta, sino continua.
- El eje de la x no son valores concretos, sino rangos de valores
- veo la frecuencia de gente que hay en cada rango de valores
- EN GRÁFICA EJEMPLO PONE DENSITY PERO DEBERÍA PONER
FRECUENCIA
5. Gráfico de cajas
● VARIABLE → cuantitativa
● se puede presentar en vertical y horizontal
● EJ →
+ eje y: valores variable
+ presenta una serie de medidas de posición
+ el gráfico se compone de caja central →
a. los límites de cada son percentil 25 y 75 (rango intercuartílico), y la
línea central, eso es la mediana (percentil 50)
b. la caja representa el 50% central de la muestra y entre qué valores
se mueven las variable que estoy describiendo
c. tenemos una líneas que se llaman bigotes, las de arriba y abajo,
representan cálculo en el que veo el límite de lo que considero
normal dentro de esa distribución
d. cualquier persona que tenga un valor por encima del bigote superior
o por debajo de bigote inferior lo marco con punto → porque es un
valor extremo o outlier
● ¿Cómo se calcula donde pongo
los bigotes?
+ arriba → percentil 75 + 1,5 rango intercuartílico (altura de la caja)
+ abajo → percentil 25 - 1,5 veces el rango intercuartílico (altura de la caja)
+ cualquier valor fuera de esos límites se pone con un puntito
● ¡PROBLEMA! → el bigote inferior o superior no lo pongo en el resultado del cálculo
sino en un valor observado en la distribución de los datos
+ voy acercando el valor que me ha dado el cálculo y lo aproximo hasta la caja,
en la primera persona que encuentre lo pongo
GRÁFICAS PARA DESCRIBIR LA RELACIÓN ENTRE DOS VARIABLES
1. gráficos de sectores
2. dos o más gráficas
3. gráfico de cajas: dos dicotómicas
4. grafico de dispersion: dos variables cuantitativas
● una en y, otra en x
● cada punto es un individuo que tiene un dato en cada una de ellas
● me sirve para ver tendencias
5. GRAFICO MUY IMPORTANTE. KAPLAN - MEIER
●procedimiento descriptivo por ser un gráfico
●sirve para representar gráficamente supervivencia de pacientes en función del
tiempo
GRÁFICAS NUMÉRICA Y DE CAJAS MUY IMPORTANTE