APUNTES TABLAS (R. ANALISIS – P. NORMALIDAD – P.
BONDAD
ANÁLISIS DESCRIPTIVO de una variable: AJUSTE) (HISTO – CUANTIL- CUANTIL)
Describir -> datos numéricos -> análisis de una variable Shapiro Wilks (SW) n< 200
RESUMEN ESTADÍSTICO Kolmogorov Smirnov Lilliefors (KSL) -> n≥100 obs
Promedio -> La media aritmética de la muestra GRAFICO CUANTIL – CUANTIL si los puntos se encuentran
Desviación estándar -> Es una medida absoluta de alienados con la recta se trata de una normal, apuntan al
dispersión de la muestra cumplimiento de la normalidad de la variable
Coeficiente de variación -> Es una medida de dispersión P. normalidad shapiro --- p<0.05 = 0 se rechaza H0 la
relativa de la muestra su es menor de 50%> la muestra es variable no proviene de una distribución normal (El gráfico
representativa o Si es mayor o igual al 50% -> dudamos de Q-Q y el histograma también muestran desviaciones de la
la representatividad de la muestra. Cuánto más cerca del normalidad de la variable)
100%, más dudamos
Luego: Análisis estadístico univariante: Describir → Datos
Mínimo -> El valor más pequeño de la muestra
numéricos → Análisis una variable → Análisis una variable.
Máximo -> El valor más grande de la muestra
medidas muy alejadas del rango esperado para datos
Rango -> Es el recorrido de la variable, es decir, es la
provenientes de una distribución normal −2, +2 . por tanto
diferencia entre el máximo y el mínimo
indican desviaciones significativas de la normalidad.
GRÁFICO DE CAJA Y BIGOTES
Sesgo -> muestras (n≥50) Curtosis -> muestras (n≥200)
Simetría -> la media es igual a la mediana I , Hacia la
NORMALIDAD MULTIVARIANTE
derecha (ASIM positiva) -> la media (+) es mayor que la
H ROYSTON – CHI CUADRADO
mediana // Hacia la izquierda (o negativa) -> la media es
Multivariante → Otros → Prueba Normalidad
menor que la mediana
Multivariante.
Comparar -> varias muestras -> comparación de varias
H ROYSTON p<0.05 = 0 se rechaza H0
muestras
𝒑 > 0.05 𝜶 Se acepta la hipótesis de normalidad
PERCENTILES: Nos dice cómo está posicionado un valor
multivariante para X variables CHI CUADRADO avala la
respecto al total de una muestra (nos indica lo que “se
normalidad multivariante, ya que los puntos permanecen
deja” por debajo de ese %) Comentar el resultado para el
completamente dentro de los límites
percentil que queremos averiguar *Si el percentil que
HOMOCEDASTICIDAD IGUALDADD DE VARIANZAS TEST
queremos saber no está en la tabla, ponerlo manualmente*
LEVANE
Describir -> datos numéricos -> análisis de una variable
Comparar → Varias muestras → Comparación de varias
BIVARIANTE
muestras (verificación de varianza).
coolumna de codigos y datos
𝐻0: v₁ 2 = V₂ 2 = V₃2 (se acepta)
codigos : (cualitativas)
𝐻1: 𝐻0 𝑛𝑜 𝑒𝑠 𝑐𝑖𝑒𝑟𝑡a (se rechaza)
datos: (cuantitativas)
p<0.05 = 0 se rechaza H0
multivariante – correlacion - analisis multivariante
𝒑 > 0.05 𝜶 Se acepta la hipótesis de igualdad de varianzas.
tablas (resumen analisis- resumen estadistico- covarianzas
No se observan diferencias significativas en la variabilidad
sxy - correlaciones Rxy)
(pulsaciones ) de la variable para los 6 grupos (tareas)
se rechaza h0 cuando p valor = 0 < 0.05 (menor) por tanto
Se habla de la varianza poblacional (no muestral) de una
(resulta significativa) no
variable ES IGUAL PARA distintos grupos
ATIPICOS (OUTLIERS O ABERRANTES) UNIVARIANTE
ANALISIS DE REGRESION LINEAL
Describir → Datos numéricos → Análisis una variable →
1. MODELO LINEAL Identificación atípicos. (R.A – R E – P.N – [Link] – G.C.B) ---
2. METODO MINIMOS CUADRADOS (a =Y cuando P. normalidad shapiro --- p<0.05 = 0
x=0) (b<0 decrece; b>0 crece) (dependencia lineal Estimados de localización, escala, interavalos de confianza
+, -) -> ver si los valores son muy similares o dispersos. Muy
3. BONDAD DEL AJUSTE (COEFICIENTE DE similares -> los atípicos no son un gran problema en los
DETERMINACION cercano a 1 mejor el ajuste (el DATOS // muy dispersos—existencia de atípicos
coeficiente de determinación es el cuadrado del
Valores ordenados -> Los valores que aparecen en rojo en
coeficiente de correlación lineal: 𝑅 2 = 𝑟𝑥𝑦 2)
esta tabla son porque superan el 3, en valor absoluto, es
(variaciones)
decir +-3 lo que significa que son atípicos, o que esta muy
4. Relacionar → Un factor → Modelos Reg. Simple →
cerca de 3---
Regresión simple. Tablas (resumen de análisis)
graficos (modelo ajustado – observado) Si la variable de partida no es normal, se toma en cuenta lo
valores de la 3ra columna (z)
NORMALIDAD UNIVARIANTE (si una variable no es normal
PRUEBA GRUBBS p<0.05 = 0 se rechaza H0
se concluye que no habrá normalidad multivariante)
H0 : El mayor valor (en valor absoluto) NO es un outlier ( SI
Describir → Distribuciones → Ajuste distribución → Ajuste
SE ACEPTA)
datos no censurados (normal)
H1 : El mayor valor (en valor absoluto) es un - Bonferroni (B) -> Mirar las X y ver en donde no
outlier(RECHAZA) coinciden cuando no hay muchas comparaciones.
Conclusión: Podemos considerar que el valor señalado Hay X pares con diferencias significativas en las medias: El
(101,08) es un valor atípico significativo X es significativamente diferente de todos los demás, y el z
ABERRANTES Los puntos más allá de ± 3 desviaciones son del Y
valores atípicos potenciales que debemos investigar Gráfico de medias (LSD o B) -> Mirar en el gráfico aquellos
CAJA Y BIGOTES que no se sobreponen, si no se sobreponen hay diferencias,
ATIPICOS MULTIVARIANTE MALAHANOBIS si se sobreponen no hay diferencias
Incluya como variables independientes todas las NORMALIDAD PARA CADA NIVEL A B Y C
cuantitativas que se quieran estudiar conjuntamente. SELECCIONAR O =“x”
(Como dependiente se puede elegir cualquiera de las HOMOCEDASTICIDAD —- tablas verificación de varianzas
variables cuantitativas que no se vaya a analizar) (igualdad de varianzas en las k poblaciones)
Columna vacía – generar datos – count1;obs;1 Cuando no se da la normalidad y hay homocedasticidad se
Relacionar → Varios Factores → Modelos Reg. Múltiple → hace KRUSKAL-WALLIS (anova no paramétrico):
Regresión Múltiple (R.A – R-ATI- OBS PRE – RESI-PRE) *También se realiza cuando nos dan una variable cualitativa
GUARDAR DISTANCIAS MALAHANOBIS ordinal (ej: opinión/valoración) *
(RESULTADOS-DISTANCIA DE MA – MDIST- PRUEBA DE KRUSKALL-WALLIS Miramos el p-valor
HOJAA)—(ORDENAR ARCHIVO DESCENDENTE) HO: Mex= Mex= Mex (igualdad de medianas) aceptamos
Relacionar → Varios Factores → Modelos Reg. H1: HO no es cierta
Múltiple → Regresión Múltiple GRAFICO C . B GRÁFICOS DE MEDIANAS CON INTERVALOS DEL 95% DE
Crear una nueva columna para chi cuadrado GENERAR CONFANZA'SISe sobreponen no existen dierencias
DATOS – 1-CHISQUARE(MDISTS:3) significativas, si no se sobreponen existen diferencias
Si es esta nueva columna algún valor es menor significativas.
ANOVA MULTIFACTORIAL
de 0,001 -> presencia de atípicos.
Ho: La interacción entre (una variable) y (una variable) no es
Gráficos → 3 Dimensiones → Gráfico X/Y/Z. significativas
Tratamientos atípicos H1: Ho no es cierta
Atípico por error en la introducción de datos:corregirlo Análisis de la varianza: Miramos el p-valor de todas las
o eliminarlo (revisar formularios) interacciones que haya (la que aparezca en rojo es que es
Atípico legítimo o verdadero:mantenerlos en el análisis significativa). Tenemos que excluir del análisis las que no
(usando test no paramétricos que son más robustos a son significativas (opciones de analisis-> excluir). Ahora se
la existencia de valores extremos analizan los efectos principales -> miramos el p-valor
ANOVA UNIFACTORIAL (tiene que haber normalidad) Hipótesis:
MEDIAS POBLACIONALES SON IGUALES PARA LOS HO: UX = ux
DISTINTOS FACTORES INDEPENDIENTES HE: Ho no es cierta Se rechaza la H0 de igualdad de medias.
𝑯𝟎: 𝝁𝟏 = 𝝁𝟐 = ⋯ = 𝝁𝒋 = ⋯ 𝝁𝒌 = 𝝁 (si se acepta) Existen diferencias significativas entre varones y mujeres en
𝑯𝟏: 𝒏𝒐 𝒕𝒐𝒅𝒂𝒔 𝒍𝒂𝒔 𝝁𝒋 𝒔𝒐𝒏 𝒊𝒈𝒖𝒂𝒍𝒆s (si se rechaza) el tiempo medio hasta alcanzar el nivel predefinido de
- Si se acepta H0 (igualdad de medias) la respuesta estrés.
no se ve afectada por los distintos niveles del Sólo se puede hacer si hay 3 variables o más ->
factor. LSD o Bonferroni
- Si se rechaza H0 Existen diferencias significativas COMPONENTES PRINCIPALES son combinaciones lineales de
en función del tratamiento (factor)——— *Si las variables originales,variables cuantitativas
aceptamos la HO no podemos realizar Bonferroni correlacionadas entre sí.( mirar si hay correlación )
o LSD, proporcionan las diferencias significativas Multivariante → Reducción de dimensionalidad →
cuando el número de comparaciones no es muy Componentes principales datos (x variables) e. Puntos
elevado (categoría) (R.A - P.C- T. Datos - G sedimenta)
Comparar → Análisis de Varianza → ANOVA SIMPLE Al haber considerado 11 variables originales, se obtienen 11
V. Depen=cuantitativa Factor: cualitativo Componentes Principales. Entre las 2 componentes
(R.a - R.E - [Link] - P.M. Ran - [Link] - G.m - Anom) extraídas, con valores propios mayores que 1, explican el
Tabla anova p<0.05 = 0 se rechaza la H0 84% de la variabilidad de los datos originale
Esto no implica que las 4 medias sean diferentes; sólo, que mínimo de varianza explicada.
no son todas iguales. Dividir cuadrados medios = razon F Si, quisiéramos alcanzar el 90% de la varianza explicada, se
Coeficiente n2 suma C entre grupos sctr / stc total = % de necesitarían 4 [Link] ello, se procedería de la
las variaciones de la variable dependiente viene explicada siguiente forma:opciones de analisis pondríamos número
por el tipo de factor (tratamientos). de componentes: 4 luego explicar la tabla de pesos de las 2
Click derecho comp promedio o mayores pesos
- LSD o Test de la mínima diferencia significativa-> T.c - Resultados - componentes principales - hoja a
Mirar las X y ver en donde no coinciden.
Graficar -> gráficos de dispersión -> gráfico X-Y Variable X->
PCOMP_1. —— Variable Y -> PCOMP_2
En el gratico que nos aparece tenemos que darle a opcion
de ventana y en código de puntos ponerlo en función de lo
que nos pida el enunciado. (Type)
Interpretar el gratico (posicion con respecto de las
componentes) o realizamos las CORRELACIONES DE LOS
COMPONENTES (SI HAY 3 O + COMPONENTES)
Describir -> métodos multivariados -> análisis multivariado
(correlaciones) Miramos el p-valor
Hipótesis: mirar arriba
efectivamente, las componentes principales no están
correlacionadas. Mirar tabla de correlaciones
Káiser valores superiores a 0.6 comp principales tiene
sentido p. Factoralidad