EXPOSICION R
Modelos de regresión no lineales: polinomial
Ejemplo 1:
lm= se utiliza para ajustar modelos lineales. Se puede utilizar para realizar regresiones, análisis de
varianza de un solo estrato y análisis de covarianza (aunque aov puede proporcionar una interfaz
más conveniente para estos).
Summary= es una función genérica que se utiliza para producir resúmenes de los resultados de
varias funciones de ajuste de modelos. La función invoca métodos particulares que dependen de la
clase del primer argumento.
-La primera información impresa por el resumen de regresión lineal después de la fórmula son
las estadísticas de resumen residuales. Uno de los supuestos para la prueba de hipótesis es que
los errores siguen una distribución gaussiana. Como consecuencia, los residuos también
deberían hacerlo. Los estadísticos de resumen residuales dan información sobre la simetría de la
distribución residual. La mediana debe estar cerca de 0. ya que la media de los residuos es 0 y las
distribuciones simétricas tienen mediana = media. Además, el 3Q y el 1Q deberían estar cerca
uno del otro en magnitud. Serían iguales bajo una distribución media simétrica 0. El máximo y el
mínimo también deben tener una magnitud similar. Sin embargo, en este caso, no retener
puede indicar un valor atípico en lugar de una violación de simetría.
-La segunda cosa impresa por la llamada de resumen de regresión lineal es información sobre los
coeficientes. Esto incluye sus estimaciones, errores estándar, estadísticas t y valores p.
-De acuerdo con los valores obtenidos el R cuadrado es de 0.8019, lo que quiere decir que, con el
modelo realizado, se está explicando con el modelo realizado el 80% de la varianza, tal valor
para un coeficiente de determinación es alto, pero, se cree que se puede mejorar, además el
error estándar obtenido es de 45.94 y se tiene un valor p de 6.412e-06, lo cual nos muestra que
el predictor está relacionado de forma significativa con la variable de respuesta Carros vendidos.
Además, se desea realizar un ANOVA para observar la suma total de los cuadrados, la suma de
los cuadrados medios del error y el valor p obtenido para identificar si hay significancia del
modelo.
-Se consiguen valores como el total de la suma de los cuadrados que es de 138537, valor al que
se le debe de poner atención, luego se tiene una suma de los cuadrados medios del error de
2111 y un valor p de 6.412e-06, lo cual indica que el modelo si tiene significancia. Igualmente, se
decide graficar los datos con su debida recta de mejor ajuste para observar el comportamiento.
Anova= Esta función (genérica) devuelve un objeto de clase anova. Estos objetos representan
tablas de análisis de varianza y análisis de desviación. Cuando se le da un solo argumento, produce
una tabla que prueba si los términos del modelo son significativos. Cuando se le da una secuencia
de objetos, anova prueba los modelos entre sí en el orden especificado. El método de impresión
para objetos anova imprime tablas en una forma "bonita".
Ver video: https://www.youtube.com/watch?v=8Vj71-2PCpY
-En el gráfico se puede apreciar la ecuación y el R cuadrado ya obtenido, además se ve la recta
de mejor ajuste, pero a simple vista se nota que los datos no ajustan muy bien a la recta,
entonces se procede a realizar una gráfica de residuos para prestar atención al comportamiento
de los residuos.
broom = es un intento de cerrar la brecha entre los resultados desordenados de predicciones y
estimaciones y los datos prolijos con los que queremos trabajar. Se centra en tres métodos S3,
cada uno de los cuales toma objetos comunes producidos por funciones estadísticas R (lm, t.test,
nls, etc.) y los convierte en tibble. broom está especialmente diseñado para funcionar con el
paquete dplyr de Hadley (consulte la viñeta broom + dplyr para obtener más información).
.fitted= Ajustado
.resid= residuo
-Se observa que los residuos no están distribuidos aleatoriamente, también tienen una
tendencia a ser curvos, entonces con base en estas dos conclusiones se puede decir que el
modelo de regresión lineal no es el adecuado. Así que se decide realizar un modelo de regresión
polinomial de segundo grado.
-Aquí se llega a obtener datos más favorables, como que el R cuadrado es de 0.9075, lo que
quiere decir que con respecto al modelo lineal anterior, se logra explicar un 10% más de la
variabilidad, asimismo se logra conseguir un error estándar residual menor de 32.68 (lo que
indica es que los datos están más cerca a la curva de mejor ajuste) y se tiene un valor p del
modelo de regresión polinomial de 6.256e-07 que nos hace ver que al menos una de las
variables predictoras tienen relación directa con la variable respuesta; se confirma que las dos
tienen relación directa revisando sus valores p individuales de 5.25e-05 y de 0.00303. Se realiza
el ANOVA para poder comparar con el modelo anterior y se consigue:
-Se logra obtener una suma total de los cuadrados exactamente igual a la del modelo anterior,
de 138538, lo que nos hace ver que elegir un modelo diferente no afecta esta suma total de los
cuadrados. Se puede apreciar que la suma de los cuadrados medios del error disminuyó a 1068,
lo cual es prácticamente la mitad con respecto al modelo anterior, esto sucede gracias a que al
agregar una variable predictora más se está repartiendo el error entre más variables y por eso el
cuadrado medio del error residual baja a la mitad y se llega a obtener una mejor explicación de
la varianza con este modelo. Finalmente, de acuerdo con los valores p se observa que las dos
variables tienen significancia en el modelo. Ahora, se realiza la gráfica para observar si ya hay un
mejor ajuste visualmente.
-En esta gráfica ya se puede considerar un mejor ajuste de los datos con respecto a la curva de
mejor ajuste lineal anterior, lo cual ya fue confirmado observando el R cuadrado que es mayor y
da una mayor explicación a la varianza en el modelo. Para terminar de afirmar que el modelo de
regresión cuadrática es un mejor ajuste se realiza la gráfica de residuos.
Car= el nombre del paquete, es un acrónimo de Companion to Applied Regression. Este paquete
no se utiliza para realizar técnicas de regresión aplicada, sino que complementa estas técnicas al
proporcionar numerosas funciones que realizan pruebas, crean visualizaciones y transforman
datos. Para comprobar la volidez de numerosas técnicas de regresión, necesitamos realizar
numerosas pruebas en nuestros resultados. Este paquete proporciona las herramientas necesarias
para hacerlo.
-El gráfico de residuos nos confirma que estos están teniendo un comportamiento aleatorio,
además que la línea nos demuestra que los residuos no están teniendo ninguna tendencia, por
lo que se comprueba que con este modelo de regresión polinomial los residuos tienen un mejor
comportamiento: dejan de tener la curva que tenían en el modelo anterior.
Modelos de regresión no lineales: Exponencial
Ejemplo 2.
Recordemos que en el ejemplo anterior vimos cómo verificar la no linealidad en nuestros datos
ajustando modelos polinomiales y verificando si se ajustan mejor a los datos que un modelo
lineal. Ahora veamos cómo ajustar un modelo exponencial en R. Como antes, usaremos un
conjunto de datos de conteos (eventos de desintegración atómica que tienen lugar dentro de
una fuente de radiación), tomados con un contador Geiger en una planta nuclear.( Un contador
Geiger es un instrumento que permite medir la radiactividad de un objeto o lugar. Es un
detector de partículas, así como de radiaciones ionizantes). Los recuentos se registraron durante
un período de 30 segundos para un compuesto radiactivo artificial de corta duración. Leemos los
datos y restamos el recuento de fondo de 623,4 recuentos por segundo para obtener lo
siguiente:
Mostramos los datos
-Veamos si una función exponencial se ajusta a los datos incluso mejor que una cuadrática.
Creamos una cuadrícula de puntos y superponemos la función exponencial en la gráfica anterior.
Una función exponencial en la variable Tiempo se puede tratar como un modelo del logaritmo
de la variable Recuentos.
-Este modelo es bastante bueno, aunque explica aproximadamente el 81% de la varianza en
comparación con el 89% explicado por el modelo cuadrático. Dibujémoslo en una cuadrícula de
valores de tiempo de 0 a 30 en intervalos de 0,1 segundos.
-Tenga en cuenta que usamos el exponencial de los valores predichos en la segunda línea de
sintaxis anterior.
-Entonces, hemos ajustado nuestro modelo exponencial. Para nuestros datos, el modelo
exponencial ajustado se ajusta menos bien a los datos que el modelo cuadrático, pero aún
parece un buen modelo.