Estadística general
Introducción
• Conjuntos de datos numéricos presentados para establecer comparaciones
• Disciplina científica y cálculo de probabilidades (describir, relacionar o estimar)
Estadística: Descriptiva (analizar) e Inferencial (sacar conclusiones más amplias que los hechos observados)
• Inferencias descriptivas (mundo real) y causales (explicaciones) →Niveles de abstracción
• Inferencia estadística: población no observada totalmente (estimación con un estadístico)
Población (universo)→ Muestra→ Estimador (probabilístico)
Medición (estimar frecuencia/intensidad de la ocurrencia de un hecho en unidades)
Operacionalización
Convertir el concepto para medirlo
Fenómeno → Concepto → Dimensiones → Indicadores → Variables → Valores
Concepto Dimensiones Indicadores Variables
Abstracta, componentes Componentes Definición observable de un Propiedades de un
relacionados lógicamente de un concepto concepto o sus dimensiones indicador que varían
hay multidimensionales y Conceptos más Da información en variables Variabilidad, rasgo
no observables específicos característica: dan valores
Variables
Nivel de medición Tipo Valores
Cualitativa Nominal (identidad) Discreta
Ordinal (jerárquico)
Categórica (enteros)
Cuantitativa Intervalo (sin 0 significativo, niv mar) Op. aritméticas Discreta o continua
Razón (con 0 absoluto, altura) Op. de cualquier tipo (valores intermedios)
Numérica
TRADE OFF relación inversamente proporcional entre el número de casos y el número de características
Estudios de caso (ricos, pero ellos mismos) Estudios de población (costoso, pocas variables, limitación)
En un término medio la investigación por encuesta (muestra de un colectivo más amplio)
• Psico-social (símbolo (palabra)- significado)
o Representatividad (correspondencia, aleatoria: probabilidad igual e independiente, insesgada)
o Estandarización (estructurada en los mismos términos)
Limite central, Grandes números y Probabilidades
Frecuencias
• Relativa (%) fi =ni /N donde N = número de datos totales
• Absoluta ni (inútil, número de veces que aparece el valor)
Fi = frecuencia relativa acumulada (i +valores anteriores)
Ni = frecuencia absoluta acumulada (i +valores anteriores)
Polígonos de frecuencias Continuas y discretas Comparar dos o más distribuciones. Si no
tienen el mismo marco se usa %
Diagrama de barras Cualitativas y cuantitativas Altura de la barra es igual a la frecuencia
discretas reducidas relativa, las ordinales se ordenan
Gráfico de sectores Pocas categorías (discretas) Frecuencia relativa · 360º
Histogramas CONTINUAS Va por grupos o intervalos de clase
(recodificación)
Amplitud constante (en todos igual) o desigual. Diferencia entre el mayor L i y menor valor Li-1 en cada uno
Los valores inicial y final son los límites del intervalo (abierto) o [cerrado]
Punto medio (central) = marca de clase m = suma de extremos/2 / SE USA COMO REPRESENTACIÓN
Recorrido total de la variable: Re= diferencia entre el mayor y menor valor
La altura de la barra representa superficies. Si es amplitud constante h rectángulo = frecuencia intervalo
Si no es igual se calcula dividiendo la frecuencia por la amplitud
Intervalos: Pocos (+visión, -info) Muchos (viceversa) Regla Sturges K = 1+log2 (N)
+OJIVAS (FRECUENCIAS ACOMULADAS)
Análisis descriptivo de una variable
Valor central
Medidas de tendencia central (valor central hacer los datos claros)
Moda
(valor más frecuente) Mo = frecuencia absoluta más alta (o intervalos de clase)
Unimodal, bimodal o multimodal, amodal
Mediana
(dos grupos del mismo tamaño, si es par la media)
Me = Li + [(n/2 - Ni-1) / ni ]∙ai
o Li es el límite inferior de la clase donde se encuentra la mediana.
o n/2 es la semisuma de las frecuencias absolutas (total dividido entre 2).
o Ni-1 es la frecuencia acumulada anterior a la clase mediana.
o ni es la frecuencia absoluta de la clase mediana
o ai es la amplitud de la clase mediana.
o 50% a los lados, depende del orden no de su valor, no se influye por los extremos
Cuantíes
(división en intervalos)
Cuatro partes iguales (mismo número de casos), hay tres cuantíes de división 25, 50 (mediana) 75%
También hay quintiles (4), deciles (9) y percentiles (99)
Media
(valor promedio)
X̅ = Sumatorio de xi en n /N
Ponderada
pi = proporción que cuenta, como en los exámenes
ES VULNERRABLE A LOS EXTREMOS RAROS Y POCO SIGNIFICATIVOS
(Media aritmética recortada 5% de los valores más altos y bajos se van, se hace con el restante 90%)
Dispersión de datos
Muy agrupados en torno a la media, es muy representativa
Rango o recorrido
Diferencia entre el mayor y el menor, sensible a valores atípicos y extremos
Rengo intercuartílico
Diferencia entre el primer y el tercer cuartil (diferencia entre los valores del centro)
Varianza
Valor medio de las desviaciones de todos los valores respecto la
media aritmética, al cuadrado.
← Dentro de la población es así
Dentro de una muestra es cuasivarianza:
Más cercana a 0 indica baja variabilidad, si es igual a 0 es unimodal, no
es clara con la dispersión.
Sirve para comparar grupos (ANOVA)
Desviación típica
RAIZ CUADRADA DE LA VARIANZA, utiliza las medidas de la propia variable (años, euros…) importante para
la normalidad y normalización. Se representa con S
Coeficiente de variación
Comparar distribuciones de medidas distintas: la solución es la
estandarización de las medidas de dispersión:
Da la media de cada población el valor 1, se expresa en porcentaje.
Varianza/media
Forma de la distribución
Medidas de Asimetría
Grado de simetría o asimetría sin representarlo en gráfica. 0 = simétrica. 0< derecha (+) y 0 > izquierda (-)
Coeficiente de asimetría de Pearson
Lo mismo, pero de Fisher
Medidas de Curtosis o apuntamiento
Grado de apilamiento alrededor de un punto. K>0 D. Normal K = 0 K<0 K = Curtosis
Diagrama de cajas y datos atípicos
1. Observación minima
2. Primer cuartil
3. Mediana
4. Tercer cuartil
5. Observación máxima
6. Puntos que representan a los valores que se alejan del centro
Estandarización o tipificación
Mejores comparaciones, entre distintas variables que tengan
distintas unidades de medida
A cada valor se le resta la media y se divide por la desviación típica.
La desviación típica es su unidad ahora.
En el conjunto tipificado la media es 0 y la Desviación típica 1 (claro)
ahora sabemos cuán extremo es el valor.
Desviación Normal
Las variables cuantitativas tienden a parecerse a la distribución normal: perfectamente simétrica y con el
grueso de casos en el centro, siendo menos frecuentes según se alejan. Media = Mediana = Moda
μ=media
σ=desviación típica
σ2=varianza
Está definida por su media y su desviación típica y se representa N(μ,σ); También está tipificada
Superficie = 1, se mide en puntuaciones Z
Media = 0 y Desviación Típica = 1; siempre
Medidas positivas = las que eran superiores a la media
Medidas negativas = las que eran inferiores a la media
Puede tipificarse cualquier distribución, con la media y la desviación típica de la distribución normal se halla
su área (la proporción de casos [de forma acumulada, pero no es un problema]) en cualquier intervalo:
1º Se estandariza el intervalo con la fórmula y da el valor
Z, que indica el valor en desviaciones típicas.
2º A ese número le corresponde otro en la tabla de la
distribución normal (unidades y décimas en columna y
centésimas en la fila).
3º Ese número indica la proporción (0-1) de casos que se
hallan bajo esa área y la probabilidad de pertenecer a
ella.
4º Como solo se calcula considerando la media, si se busca un intervalo que no la use hay que hacer
operaciones extra desde la media y luego restar las áreas.
Inferencia Estadística
Estimación de parámetros
Obtención de generalidades de una población desde una muestra aleatoria (probabilidad y matemáticas)
Parámetros (letras griegas)
μ (letra mu, media aritmética de la población)
σ (letra sigma, desviación típica de la población)
σ2 (varianza de la población)
π (proporción de la población)
Estadísticos (letras latinas)
X̅ (media aritmética de la muestra)
S (desviación típica de la muestra)
S2 (varianza de la muestra)
P (proporción de la muestra)
En vez de conocer el parámetro exacto con cada muestreo se aproxima. Se conoce con probabilidad.
Estimación puntual
Parámetro ≈ Estadístico, no incluye medida de precisión que indique la fiabilidad
Estimación por intervalos
Intervalo: rango en el que se encontrará el valor
Nivel de confianza: probabilidad de que sea cierta, 95%, 99%.
Variable aleatoria: varía muestra a muestra
Probabilidad: medida numérica que cuantifica las opciones de que un suceso ocurra. Bayesiana (no entra) y
Clásica: Laplace, favorables/posibles. Finitos, igualmente posibles, resultados excluyentes
Empírica: Distribución de probabilidades, se repite infinitamente, todos los posibles resultados teóricamente
Una distribución muestral es una distribución teórica que asigna una probabilidad concreta a cada uno de
los valores que puede tomar un estadístico en TODAS LAS MUESTRAS DEL MISMO TAMAÑO que es posible
extraer de una determinada población. Tiene propiedades por el límite central:
Límite Central: la distribución muestral de las medías, según aumenta el tamaño de la muestra,
se aproxima a una distribución normal con media µ (media poblacional) y desviación típica:
1º Suponiendo una muestra grande, se aproxima a una distribución normal sin conocerla (incluso si no lo es)
2º La medida de la distribución muestral es igual que la de la población, pero su desviación típica es distinta
(la fórmula de antes), se llama ERROR TÍPICO, medida de dispersión [no confundir con error estadístico].
El error típico indica la dispersión, influye en el grado de dispersión del estadístico de forma directa (+ = +).
Condicionado por el tamaño de la muestra, indica la variabilidad, cuan parecidos son los valores estimados.
Con ello, se relaciona el valor o el intervalo con las probabilidades: es decir, calcular el intervalo donde estará.
Con eso se calcula cuanto se acerca la media al valor real (estimando la distancia entre el estadístico y el
parámetro). Esto es el MARGEN DE ERROR: diferencia entre el estadístico muestral y el parámetro
poblacional. Distancia entre el valor de la población y el obtenido de la muestra:
Proceder
Se necesita Margen de error, error típico y nivel de confianza (puntuaciones Z): Operando da:
→ →
→ →
El margen del error (error estadístico) es función del tamaño muestral, varianza poblacional y valor z
Valor Z
Nivel de confianza: probabilidad de que la estimación sea cierta, lo ponemos nosotros, con la tabla normal.
La varianza poblacional se desconoce, con muestras grandes (>30) se aproxima a la normalidad.
→ →
→ →
Intervalos de confianza: Extremos entre los que esta la media con x probabilidad. +Confianza = -Precisión
Es posible calcular el error con datos cualitativos y cuantitativos, por ser normal, pero la desviación típica se
calcula de otra forma y asumiendo que se aproxima:
Muestras pequeñas
Distribución T de Student, colas más amplias que la normal, pero igual a la normal para muestras grandes,
simétrica y de media = 0. La fórmula cambia
Prueba de hipótesis
Análisis Bivariado
Se busca comprobar si hay relación entre parámetros, una relación bivariada indica que una variable fluctúa
de forma coherente respecto a las variaciones de otra (puede ser causal o interdependiente).
La variable puede ser dependiente (explicada) o independiente (predictoras o explicativas).
o Relación estadística: los números informar, solo es una relación estadística.
o Relación sociológica o causal: causa y efecto claros (A y B) o indeterminados (barridos diversos y
niveles). Hay que interpretar la sociedad de acuerdo con sus características y en una base teórica.
Contraste de hipótesis/prueba de significación: procedimiento estándar, indica con que probabilidad puede
asumirse que hay relación entre dos variables. Determinar si refleja algo realmente o es por aleatoriedad.
Plantear la pregunta de investigación → Revisar estudios previos/marcos teóricos → Plantear las hipótesis
→ Recoger datos → Contrastar de hipótesis científica mediante análisis.
Formulación de hipótesis nula H0
Indica ausencia de efecto, relación, diferencia. Se somete a comprobación y se acepta o rechaza; en este
caso aceptando la alternativa H1, porque son excluyentes y exhaustivas (abarcan todas las posibilidades).
• Hipótesis científica (investigación): respuesta tentativa a una pregunta de investigación
• Hipótesis estadística: es una aplicación estadística de una hipótesis científica
H1 es la negación de H0 y es la proposición operacional de la hipótesis científica que se desea contrastar.
Comprobación de condiciones y elección del estadístico
Aleatorias e Independientes. Ver el tipo de variables y si será paramétrica o no paramétrica. Las paramétrica
necesitan: al menos una variable cuantitativa y normalidad en la distribución. A veces son precisas otras
como homocedasticidad. Las no paramétricas respectan a la distribución y características de valores, son
más libres. Se diferencian en: Tipo de Variable y mayor exigencia y potencial en las paramétricas (más
capacidad de rechazar H0).
Especificar nivel de significación
Dos zonas excluyentes y exhaustivas: de rechazo y de aceptación, separadas por el nivel de significación.
α = 0,05 quiere decir que asumimos 5 de riesgo de cometer un error al rechazar la 𝑯𝟎 siendo esta verdadera.
Valor de la prueba estadística y valor-p: rechazar aceptar la H0
El resultado es un estadístico, el p-valor, es la probabilidad de que se rechace la hipótesis nula, siendo en
verdad cierta, por ello debe ser lo menor posible. La distribución muestral indica las probabilidades
asociadas al valor del estadístico de contraste (un intervalo en una distribución).
Si p-valor > α, el contraste es significativo y se rechaza H0,
H0 es verdadera H0 es falsa
la probabilidad de cometer ERROR Tipo 1 (falso positivo) es
menor al nivel establecido. Aceptar H0 Acierto Error tipo II
Si p-valor < α, lo contrario, el ERROR Tipo 2 (falso negativo) Rechazar H0 Error tipo I Acierto
es menos probable que el nivel establecido al aceptar la H0.
Casos y procedimientos de Análisis
Tablas de contingencia
Cualitativas x cualitativas. Suele ser Dependiente/independiente
1. Habitualmente se orientan con porcentaje columna (cociente frecuencia absoluta/marginales columnas).
2. Las variables independientes colocamos en columna y las dependientes en fila.
Los porcentajes han de calcularse en la dirección de la VI e interpretarse en la dirección de la VD
Los porcentajes varían = indica relación, ASOCIACIÓN, no puede ser establecida solo con frecuencias.
Prueba de independencia (Chi-cuadrado)
Conjetura → Hipótesis (H0 son independientes) → Condiciones (Frecuencia esperada [lo que debería
encontrarse si fueran independientes] de al menos 5 en cada) y sino se agrupan → Nivel de significación
Chi-cuadrado de Pearson
Comparar frecuencias empíricas con frecuencias esperadas:
• mij = frecuencia esperada (marginal fila · marginal columna/total casos)
• nij = frecuencia empírica
Es preciso conocer los grados de libertad (nº de observaciones que pueden tomar cualquier valor posible)
Gl = (m-1) · (n-1) m = nº filas n = nº columnas
Con eso se sabe el nivel de significación, pero nada más.
Intensidad y dirección de la asociación (Estadísticos de asociación)
Se ve afectado por el nº de casos, por eso chi-cuadrados muy altos son posibles con pequeñas relaciones.
Para cuantificar el grado de relación se ha de tomar otras medidas:
Nominal x Nominal (simétrica [no hay dependencia])
Coeficiente Phi (2x2)
“Estandariza” la medida de X2, oscila entre 0 y 1 (relación total)
Baja-0,25-media-0,5-alta-0,75-muy alta.
Para más de 2x2 puede tomar valores mayores que 1 por eso:
V de Cramer (3x2 y otras)
K equivale al valor más pequeño de filas x columnas (ej. 2x3 sería 2). Oscila 0 y 1
Nominal x Nominal (asimétrica [relación causal])
Lambda
La variable más utilizada es el coeficiente Lambda ʎ de Goodmann y Kruskal (coeficiente de predictibilidad
de Guttman). Puede variar de 0 a 1. Varía según cual se considere dependiente o independiente.
Ordinal x Ordinal
Gamma
Entre 1 y -1, para indicar si es directa o inversamente proporcional: intensidad y tipo de relación.
R-Spearman
Cuantitativas de distribución no normal y variables ordinales con muchas categorías. Oscila entre 1 y -1.
Nominal (Vi) x Ordinal (Vd)
U de Mann-Whitney (nominal de 2 categorías) Contraste de Kruskal-Wallis (nominal >2 categorías)
Naturaleza de la asociación (residuos tipificados)
Dirección de la asociación en la tabla, con los porcentajes se intuyen, pero
se usan los residuos tipificados corregidos (diferencia entre la frecuencia
observada y la esperada). Vij es la varianza. Se distribuyen normalmente y
se interpretan con: Suponiendo una confianza del 95% es en los residuos
>1,96 y <-1,96 donde se da la asociación. Util en tablas mayores de 2x2.
Comparación de dos medias (numérica x categórica)
Pueden ser dependientes o independientes (unidades muestrales diferentes [casos distintos])
• Variable de estudio (D) → numérica (discreta o continua)
• Variable de agrupación (I) → categórica de dos categorías (submuestras)
Muestras relacionadas (pareadas, valores de una afectan a los de la otra, como mismo sujeto en diferente t)
Comparación de medias independientes (Categórica de 2 categorías)
T de Student (Prueba paramétrica)
Evaluar la normalidad (Kolmogorov-Smirnov)
Pruebas de significación de Kolmogorov-Smirnov, en las muestras grandes es demasiado sensible, por ello:
Gráficos con pruebas de normalidad (Q-Q normal).
Prueba de Levene: Evaluar la igualdad de varianzas (Homocedasticidad)
La T de Student se basa en dos formulas distintas si las varianzas son iguales o no:
Distintas: Iguales:
t-valor representa el nº de unidades que separan la media de dos grupos.
Se basa en el estadístico F de Snedecor, la H0 es que se asumen varianzas iguales.
Finalmente, la T de Student se evalua según si las varianzas son iguales o no.
U de Mann-Withney (Pruebas no-paramétricas)
No hay normalidad (datos ordinales) las variables dependientes son de
intervalo, continuos u ordinales. Se comprueba si las dos muestras tienen las
mismas distribuciones.
Comparación de medias independientes (Categórica de 3 o más categorías)
Análisis de Varianza de un Factor (ANOVA)
Debe tener normalidad (Kolmogorov-Smirnov) y homocedasticidad (Prueba de Levene > 0,05)
Vcategórica = factor y sus niveles, debe seguir la distribución normal, muestras y submuestras aleatorias e
independientes e igualdad de varianzas. Se calcula el estadístico F de Snedecor, según su distribución.
Variabilidad entre grupos se debe al impacto del factor de estudio
(varianza de las medias de cada grupo) Variabilidad intra grupos se
debe a los propios individuos (media de las varianzas del grupo)
A medida que aumenta el valor del estadístico F aumenta la significatividad del contraste (disminuye p value)
Sí F es mayor al valor 1 entre grupos > intra grupos: Diferencias entre las categorías de estudio relevante.
Estimaciones post-hoc
Puede haber diferencias entre todas o solo algunas, ergo, si hay diferencias con ANOVA hay que ver donde:
Se compara en cada caso con el resto: varios contrastes de hipótesis, H0 es igualdad de medias.
EN ESTO SE USA UNA CONFIANZA DEL 99% OSEA 0,01
En función de la existencia o no de homocedasticidad se usa un contraste u otros…
Diferencia mínima significativa (DMS) significatividad lo más cercano a 0 posible y menos de 5 categorías.
Test H de Kruskal Wallis, una alternativa no paramétrica
No cumple normalidad; compara la forma de las distribuciones en los grupos (como Mann-Withney)
Variable dependiente ordinal y cuantitativa y la independiente categórica de 3 o más categorías
Trabaja con rangos, ordena las puntuaciones (más peque 1, siguiente 2…)
• 𝑜 es rango medio de todos los valores
• 𝑜𝑖𝑗 rango de cada valor correspondiente a un grupo
• 𝑜𝑗 rango medio de los valores en cada grupo
Se corresponde aproximadamente con variación entre grupos/variación dentro de los grupos
Se reformula la hipótesis de no ser paramétrica para hacer esto; permite el Post Hoc de Bonferroni
Correlación y regresión lineal simple (numérica x numérica)
Coeficiente de correlación
La variación de una está acompañada por la variación de otra, gado de variación conjunta.
La correlación no asume causalidad, y puede ser positiva (+ x = + y) o negativa (+ x = - y)
Diagrama de dispersión: nube de puntos (x e y condicionada por cada una) y su cercanía a la diagonal
Ahora, para cuantificar esa covariación se usa el coeficiente de correlación de Pearson: Identificar y
cuantificar el grado de covariación (su intensidad) y su vector (positiva o negativa).
sxy: covarianza medida de asociación lineal dependiente de las unidades de
medida de las variables. Determina el signo del coeficiente r. Es el promedio
de los productos de la puntuaciones diferenciales de cada caso (desviaciones
de la media) en las dos variables.
También hay prueba de Significación con r, como siempre.
Mide la relación lineal entre dos variables, no está están estandarizados como la correlación. Va de 1 a -1.
No asume causalidad, pueden estar muy relacionadas y no ser causales. Indica si es directa (+) o inversa (-).
El diagrama sigue dando información útil: si calcular r tiene sentido, podemos ver que si r no refleja nada
quizá exista otro tipo de relación curiosa o si la relación es alta pero hay puntos curiosos para otro análisis.
Regresión lineal simple
Permite establecer la dirección causal, y permite cuantificar la relación pero se supone que eso ya lo
tenemos porque esto se hace después. Se crea un modelo que intenta predecir la realidad por medio de un
esquema matemático, permite realizar predicciones. Asume relaciones causales y permite hacerlo con
varias independientes. Cambios de 1 unidad. Modeliza la relación de Vi y permite introducir Vi de control.
Se asume una relación lineal: el impacto de la Vi será el mismo sin importar su valor (nada de exponenciales),
también sirve para cuantificar esto: observando el grado de ajuste entre los puntos y la recta:
Se busca la recta que más se ajuste y se modeliza la relación pendiente y constante
Con la ecuación de la recta se predice, la pendiente indica lo que aumenta y al variar x en 1. Para hallarla se
usa el método de mínimos cuadrados, hallar las distancias (desviaciones) mínimas en el total de cada punto.
Vamos, calcular la varianza de y Lo suyo es escoger Vd la que creemos Vd desde la correlación.
Bondad de ajuste
Es útil añadir una indicación precisa del grado en el que se explica la variación, porque no la explica entera.
Esto es la determinación R2, toma valores entre 0 y 1 y es la proporción. Basta con elevar r al cuadrado.
C.Variación Varianza (al 2 es DT) Cuasivarianza Transformaciones de los margenes de error
C. Asimetría
Tipificación
Perason
C. Asimetría
Forma de la Error típico
de Fisher
distribución
Medida de Margen de
curtosis error
Desviación Valor Z Nv.
normal confianza
Distribución Con
T Student cualitativos
Nombre Formula Contexto Variables Misceláneo
Cualitativas
Chi-Cuadrado Nivel de Solo
x
de Pearson significación significación. Lambda es para
Cualitativas
nominales (0 a 1)
Coeficiente 2x2, oscila entre Y Gamma para
Phi Nominal 0y1 ordinales (-1 a 1) o
Intensidad
relación x R-Spearman si tiene
Simétrica muchas categorías o si
Nominal 3x2 y más, oscila son cuantitativas sin
V de Cramer
entre 0 y 1 distribución normal.
Van de -1 a 1.
Cualitativas
Residuos Dirección en Especialmente
x
tipificados tabla útil si >3
Cualitativas
T Student Prueba de
Medias Cualitativa de Levene igualdad
(Varianzas paramétricas 2 Cat. de varianzas. Y si
distintas) son iguales:
x
U de Mann- Medias no Cuantitativa Kolmogorov-Smirnov para la normalidad y
Withney paramétricas gráficos (Q-Q)
Medias Cualitativa 3 o
ANOVA
paramétricas + Cat.
Estimaciones pors-Hoc (sig = 0.01) DMS
X
H Kruskal Medias no
Cuantitativa Post Hoc de Bonferroni
Wallis paramétricas
C. Cuantitativa
correlación
de Pearson Correlación x Covarianza:
(1 a -1) Cuantitativa Bondad de Ajuste = R2; Va de 0 a 1