0% encontró este documento útil (0 votos)
29 vistas12 páginas

APUNTES Tema 2

El documento aborda la estadística descriptiva, enfocándose en la organización, resumen y presentación de datos mediante métodos gráficos y numéricos. Se describen diferentes tipos de variables (cualitativas y cuantitativas), sus codificaciones y representaciones gráficas, así como medidas de centralización y dispersión. También se menciona el análisis bivariante de variables cualitativas a través de tablas de contingencia.

Cargado por

rparamo28
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
29 vistas12 páginas

APUNTES Tema 2

El documento aborda la estadística descriptiva, enfocándose en la organización, resumen y presentación de datos mediante métodos gráficos y numéricos. Se describen diferentes tipos de variables (cualitativas y cuantitativas), sus codificaciones y representaciones gráficas, así como medidas de centralización y dispersión. También se menciona el análisis bivariante de variables cualitativas a través de tablas de contingencia.

Cargado por

rparamo28
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

TEMA 2: ESTADÍSTICA

DESCRIPTIVA

Organizar, resumir y presentar la información.


Obtener propiedades e información de un conjunto de observaciones mediante el empleo de
métodos gráficos, tablas y métodos numéricos.
Instrumento para conocer el fenómeno colectivo que se escapa por su extensión y/o diversidad.

TIPOS DE VARIABLE (pregunta examen)


CUALITATIVAS O CATEGÓRICAS
Si sus valores no se pueden asociar naturalmente a un número (no se pueden hacer operaciones
algebraicas con ellos)
– Nominales: Si sus valores no se pueden ordenar: Sexo, Grupo Sanguíneo, Religión,
Nacionalidad, Fumar (Sí/No),…
– Ordinales: Si sus valores se pueden ordenar: Mejoría a un tratamiento, Grado de satisfacción,
Intensidad del dolor,…
CUANTITATIVAS O NUMÉRICAS
Si sus valores son numéricos (tiene sentido hacer operaciones algebraicas con ellos)
– Discretas: Si toma valores enteros: Número de hijos, Número de cigarrillos, …
– Continuas: Si entre dos valores, son posibles infinitos valores intermedios: Altura, Presión
intraocular, Dosis de medicamento administrado, edad,…

 Es buena idea codificar las variables como números (generalmente cualitativas pero
también puede ser para las cuantitativas discretas) para poder procesarlas con facilidad
en un ordenador.
 Recodificación: es conveniente asignar “etiquetas” a los valores de las variables para
recordar qué significan los códigos numéricos.
- sexo: cualitativa (códigos arbitrarios):
1 = Hombre
1 = Mujer
 Se pueden asignar códigos a respuestas especiales como:
• 0 = No sabe • 99 = No contesta
 Estas situaciones deberán ser tenidas en cuenta en el análisis: Datos perdidos (“missing
data”)
 Aunque se codifiquen como números, debemos recordar siempre el verdadero tipo de
las variables y su significado, tonto para su procesado como para la interpretación.
 No todo está permitido con cualquier tipo de variable.

VARIABLES CATEGÓRICAS O CUALITATIVAS


Los posibles valores de una variable categórica suelen denominarse modalidades, categorías o
clases.
Las categorías deben formar un sistema exhaustivo y excluyente
 Exhaustivo: no podemos olvidar ningún posible valor de la variable.
 Mal: ¿Cuál es su color de pelo: (rubio, castaño)?
 Bien: ¿Cuál es su grupo sanguíneo?
 Excluyente: nadie debería presentar dos valores simultáneos.
Ej.: estudio sobre el ocio
 Mal: de los siguientes, qué le gusta: (deporte, cine)
 Bien: le gusta el deporte (si /no), le gusta el cine (si/no)

Notación habitual:
n = tamaño de la muestra
K = número de categorías
ni = frecuencias absolutas (S ni =n)
fi = frecuencias relativas o proporciones (fi = ni /n)
pi ó % = porcentajes (pi =100* fi)
Ai = frecuencias acumuladas absolutas (para var ordinales)
Fi = frecuencias acumuladas relativas (para var ordinales)
Distribución de frecuencias: absolutas {n1, ..., nK}; relativas {f1, ..., fK }
Formas de representación:
- Tablas de frecuencias
- Diagramas de barras
- Diagramas de sectores
- Pisctogramas
TABLAS DE FRECUENCIAS
Sintetizan parte de la información recogida en una muestra en formato de tabla.
Habitualmente presentan frecuencias absolutas, frecuencias relativas o bien porcentajes y
frecuencias acumuladas.
Las frecuencias acumuladas solo tienen sentido con variables ordinales o numéricas.

DIAGRAMA DE BARRAS

Representamos variables cualitativas ordinales (respetando el


orden de las categorías) y/o nominales. Las barras deben estar
separadas de forma equidistante
La altura: proporcional a las frecuencias. (absolutas o relativas)

DIAGRAMA DE SECTORES

Dividir de forma proporcional el circulo en tantos ángulos


como categorías o variedades que tome la variante.
Problemas: cuando hay muchas variedades no se
distinguen correctamente
PICTOGRAMAS

Expresan con dibujos alusivos a la temática las


frecuencias de las variables, con escalas
proporcionales a la acción
Estudios de tipología social.

VARIABLES NUMÉRICAS DISCRETAS (CUANTITATIVAS)


Formas de representación:
- Tabla de frecuencias
- Diagrama de barras
- Polígono de frecuencias

TABLA DE FRECUENCIAS
1ª columna: categorías
2ºcolumna: frecuencia absoluta
3ª columna: frecuencia relativa o
porcentaje
Siempre que sea numérica vamos
a tener el porcentaje acumulado
relativas o absolutas. ES
OBLIGATORIO

DIAGRAMA DE BARRAS PARA VARIABLES DISCRETAS


POLÍGONO DE FRECUENCIAS
Se realizan cogiendo el punto medio de la barra, en el diagrama de barras, y uniéndola a la
siguiente, así sucesivamente.
Sirve tanto para diagramas de barras relativos como
acumulados

VARIABLES NUMÉRICAS CONTINUAS (CUANTITATIVAS)


Teóricamente toman un número infinito de valores.
Los valores se agrupan, en ocasiones, para resumir la información. No hay una única forma de
agrupar.
El número de clases depende del tamaño muestral y del problema.
Propiedades de las clases:
 son intervalos
 son exhaustivas y mutuamente excluyentes
 la amplitud no tiene por qué ser la misma

 la primera clase contiene a la observación mínima y la última a la observación


máxima

Formas de representación:
- tabla de frecuencias (obligatoria columna de frecuencias acumuladas)
- representaciones graficas:
 diagrama de puntos: los valores en un eje
 histograma: distribución de frecuencias
 diagrama tronco-hojas: distribución de frecuencias
 función de distribución
 curva de supervivencia

 diagrama de cajas: números resumen


DIAGRAMA DE PUNTOS
(poco importante)
Está diseñado para comparar valores de una variable
y dos muestras, es costoso de escribir a mano. Cada
observación se representa con un punto/ símbolo en
la recta.

HISTOGRAMA
El área de cada rectángulo es proporcional al numero de individuos que hay en el intervalo de
la base. La altura va ser proporcional al numero de individuos, frecuencias absolutas,
relativas…(relativas si las clases no son de la misma longitud)
Marcamos las clases de igual longitud en el eje x: en intervalos.

DIAGRAMA TRONCO-HOJAS
(de los que menos se utilizan en la practica)
Permite de forma simultánea obtener
la tabla y el diseño gráfico
¿Como se construye?:
 Debemos decidir que intervalos
o clases vamos a manejar y ordenar la
variable
 Luego, separamos dígitos (se
denomina tronco a la cifra inicial, y
hoja al final)
FRECUENCIAS ACUMULADAS
No se tiene en cuenta las clases, sino las frecuencias

CURVA DE SUPERVIVENCIA
Para datos de “tiempo de supervivencia, después de una operación, tratamiento, etc… es
decreciente y es obligatorio realizarlo en tanto por 1.

MEDIDAS NUMERICAS: ESTADISTICOS


Posición: dividen un conjunto ordenado de datos de grupo
- Cuantiles, percentiles, cuartiles, deciles….
Centralización: valores con respecto a los que los datos parecen agruparse
- Media, mediana y moda.
Dispersión: indican la mayor o menos concentración de los datos
- Desviación típica, coeficiente de variación, rango, varianza
Forma:
- Asimetría
- Apuntamiento o curtosis
ESTADISTICOS DE POSICION
Un cuantil de orden p (0<p<1) de una variable es un valor numérico por debajo del cual se
encuentra una proporción p de valores de la variable.
Casos particulares son los percentiles, cuartiles, quintiles, deciles…
Percentil de orden k: es un cuantil de orden k/100.
- La mediana es el percentil 50, o cuantil 0.5
- El percentil de orden 15 deja por debajo al 15% de las observaciones. Por encima
queda el 85%
Cuartiles: dividen a la muestra en 4 grupos con frecuencias similares.
- Primer cuartil = percentil 25 = cuantil 0.25.
- Segundo cuartil = percentil 50 = cuantil 0.5 = mediana
- Tercer cuartil = percentil 75 = cuantil 0.75
Diagrama de cajas
Es una representaion grafica de la distribucion de una variable numerica.

Características
- Sencillez
- Útil en la comparación de grupos
- Destaca características de la distribución: localización, dispersión y forma
- Señala posibles valores atípicos.
Construcción: se construye a partir de Q1, Q2, Q3, Min y Max.
Los valores atípicos se representan mediante un símbolo.
MEDIDAS DE CENTRALIZACIÓN
Son valores respecto de los que los datos muestran tendencia a agruparse.
MEDIA:

Es la media aritmética (promedio) de los valores de una variable. Suma de los valores dividida
por el tamaño muestral.
- Conveniente cuando los datos se concentran simétricamente con respecto a ese
valor. Muy sensible a valores extremos.
- Centro de gravedad de los datos.
- Media ponderada de {x1 ,..., xn } con pesos w1 ,...wn

MEDIANA: es un valor que divide a las observaciones en dos grupos con el mimo numero de
individuos (percentil 50). Si el numero de datos es par, se elige la media de los dos datos
centrales.
- Interpretacion clara
- Poco sensibke a valores extremos
- Malas propiedades matematicas

MODA: es el valor mas frecuente


- Puede no ser unica o no existir
- Con variables continuas tiene mas sentido hablar de intervalo modal

Asimetría
 Una distribución es simétrica si la mitad izquierda de su distribución es la imagen
especular de su mitad.
 En las distribuciones simétricas media y mediana coinciden. Si solo hay una moda
también coincide.

 La asimetría es positiva o negativa según a que lado se encuentra la “cola” de la


distribución.
 La media tiende a desplazarse hacia los valores extremos.
 Las discrepancias entra las medidas de centralización son indicación de asimetría.

(pag 41-42-43-44)

MEDIDAS DE DISPERSION
Miden el grado de dispersión o variabilidad de los datos numéricos.
Amplitud o rango (Max-Min): es la diferencia entre las observaciones extremas. Es muy sensible
a los valores extremos.
Rango intercuartílico (P75 – P25): es la distancia entre el primer y tercer cuartil. No tiene en
cuenta las observaciones mas extremas.

Varianza S2: mide el “promedio” de las desviaciones (al cuadrado) de las observaciones con
respecto a la media.

- Es sensible a valores extremos.


- Sus unidades son el cuadrado de las de la variable.
Desviación típica o estándar S: es la raíz cuadrada de la varianza.
- Tiene la misma dimensionalidad (unidades) que la variable.

Coeficiente de variación: es la razón entre la desviación típica y la media.


- Mide la desviación típica en forma de “que tamaño tiene con respecto a la media”.
- También se la denomina variabilidad relativa.
- Es frecuente mostrarla en porcentajes: si la media es 80 y la desviación típica 20
entonces CV =20/80 = 0.25 (25% de variabilidad relativa).
Es una cantidad adimensional. Interesante para comparar la variabilidad de diferentes variables.
- Si el peso tiene CV =30% y la altura tiene CV=10%, los individuos presentan más
dispersión en peso que en altura.
No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una
cantidad fijada arbitrariamente.
- Por ejemplo 0ºC ≠ 0ºF

DESIGUALDAD DE CHEBYSHEV
La desigualdad de Chebyshev, nos permite asegurar que, entre otras cosas,
• Centrados en la media y a menos de dos desviaciones típicas de distancia tiende a haber más
del 75% de las observaciones, esto es:
El intervalo contiene al menos el 75% de las obs., aprox.
• A menos de tres desviaciones típicas de la media se
encuentran al menos el 89% de las observaciones,
aproximadamente, esto es:
El intervalo contiene al menos el 89% de las obs.,
aprox.

APUNTAMIENTO O CURTOSIS
Curtosis: indica el grado de apuntamiento (aplastamiento) de una distribución con respecto a
la distribución normal. Es una medida adimensional
Los gráficos poseen la misma media y desviación típica, pero diferente grado de apuntamiento.
TRANSFORMACIONES
Transformaciones Lineales: Y = aX+b (Cambios de localización y escala)
Transformaciones No lineales: Y = h(X)
Se utilizan a menudo en estadística para conseguir que la nueva variable tenga una distribución
más simétrica.
Las transformaciones más utilizadas son:
X2 comprime la escala para valores pequeños y la expande para valores altos. Las otras tres
transformaciones comprimen la escala de los valores altos y expanden los bajos.

ANALISIS BIVARIANTE DE VARIABLES CUALITATIVAS


TABLAS DE CONTINGENCIA
Ejemplo: clasificación de 2013 trabajadores según que trabajen en condiciones de estrés o no y
que hayan desarrollado alguna enfermedad coronaria

TABLAS DE FRECUENCIA RELATIVA (PAG 55)

PAG 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67.

También podría gustarte