Introducción
El objetivo de este informe de investigación es identificar las mejores variables predictoras
que expliquen la cantidad de juegos ganados por temporada en un equipo de fútbol
americano. A partir del análisis de nueve variables potenciales, se buscará determinar
cuáles son las más significativas y ofrecer un modelo de regresión estadística que permita
predecir la cantidad de juegos ganados en función de dichas variables. El informe
proporcionará una revisión de la literatura relevante, un análisis de los datos, una discusión
de los resultados y recomendaciones para futuras investigaciones. El objetivo final es
ayudar a los equipos de fútbol americano a identificar las variables más importantes para su
rendimiento y mejorar su capacidad para ganar juegos en cada temporada.
Desarrollo
Carga de Base de Datos
El conjunto de datos proporciona información sobre el rendimiento de 27 equipos de fútbol
americano durante una temporada. Se incluyen variables como el número de juegos
ganados, yardas por tierra y aire, promedio de pateo, porcentaje de goles de campo,
diferencia de pérdidas de balón, yardas de castigo, porcentaje de carreras, yardas por tierra
y aire del contrario. Estos datos se utilizaron para analizar y comparar el rendimiento de los
equipos en la temporada de 14 juegos.
Cada equipo se identifica por su nombre y tiene un valor de juegos ganados. Las variables
predictoras x1, x2, x6, x8 y x9 miden las yardas acumuladas en tierra o aire, oponentes y
castigos. La variable predictora x3 mide la distancia promedio de un puntaje y x4 la
efectividad de los goles de campo. La variable predictora x5 mide la diferencia en la
cantidad de pérdidas de balón entre el equipo y sus oponentes, y la variable predictora x7
mide la proporción de carreras realizadas en comparación con el número total de jugadas.
El conjunto de datos es adecuado para realizar análisis y modelos estadísticos que permiten
comprobar el rendimiento de los equipos de fútbol americano en una temporada.
Identificación de conceptos
Nombre Tipo Descripción
Equipo Cualitativo Nombre del equipo de futbol americano
Y Cuantitativo Juegos ganados (por temporada de 14 juegos)
X1 Cuantitativo Yardas por tierra (temporada)
X2 Cuantitativo Yardas por aire (temporada)
X3 Cuantitativo Promedio de pateo (yardas/patada)
X4 Cuantitativo Porcentaje de goles de campo (GC hechos/ GC intentados,
temporada)
X5 Cuantitativo Diferencia de pérdidas de balón(pérdidas ganadas/pérdidas
perdidas)
X6 Cuantitativo Yardas de castigo (temporada)
X7 Cuantitativo Porcentaje de carreras (jugadas por tierra/jugadas totales)
X8 Cuantitativo Yardas por tierra del contrario (temporada)
Análisis de Regresión
De la base de datos realice los gráficos de dispersión y cálculos del coeficiente de
correlación entre las variables.
Y vs X1
cov (x , y ) 796.27
r= = =0.59
σx σ y 385.71∗3.48
Hay una relación positiva moderada entre las variables de juegos ganados y yardas
por tierra en una temporada de 14 juegos. Es decir, a medida que las yardas por
tierra aumentan, también lo hacen los juegos ganados en promedio.
Y vs X2
cov (x , y ) 838.45
r= = =0. 48
σx σ y 499.12∗3.48
El coeficiente de correlación de Pearson entre la variable de respuesta "Juegos ganados" y
la variable explicativa "Yardas por aire" es de 0.48. Este valor indica que existe una
correlación positiva moderada entre ambas variables. Es decir, cuando la variable "Yardas
por aire" aumenta, en promedio, la variable "Juegos ganados" también aumenta, pero no
necesariamente en la misma proporción.
Y vs X3
cov (x , y ) −0.56
r= = =−0.08
σx σ y 1.98∗3.48
El coeficiente de correlación de Pearson r = -0.08 indica una correlación débil y no
significativa entre la variable y (juegos ganados por temporada) y la variable x3 (promedio
de pateo). Un valor negativo del coeficiente de correlación indica que a medida que
aumenta la variable x3, la variable y tiende a disminuir, pero en este caso la magnitud de la
correlación es muy baja y no se puede inferir una relación lineal entre ambas variables.
Y vs X4
cov (x , y ) 9.53
r= = =0.26
σx σ y 1 0.59∗3.48
El coeficiente de correlación de Pearson r = 0.26 indica que hay una relación positiva débil
entre las variables y x4: Porcentaje de goles de campo y y: Juegos ganados (por temporada
de 14 juegos). Esto significa que a medida que el porcentaje de goles de campo aumenta,
también lo hacen los juegos ganados en la temporada, pero la relación no es muy fuerte. En
general, se necesita más información y análisis para determinar si esta relación es
significativa o no.
Y vs X5
cov (x , y ) 18.63
r= = =0. 51
σx σ y 10. 43∗3.48
El coeficiente de correlación de Pearson r = 0.51 indica una correlación moderada positiva
entre la variable y (juegos ganados por temporada de 14 juegos) y la variable x5 (diferencia
de pérdidas de balón). Esto significa que a medida que la diferencia de pérdidas de balón
aumenta (lo que significa que el equipo pierde menos balones que sus oponentes), hay una
tendencia a ganar más juegos en una temporada de 14 juegos.
Y vs X6
cov ( x , y ) 95.51
r= = =0. 22
σx σ y 1 22.51∗3.48
Un coeficiente de correlación de Pearson r = 0.22 indica una correlación positiva débil entre
la variable y (juegos ganados) y la variable x6 (yardas de castigo). Esto significa que hay
una tendencia de que los equipos que reciben más yardas de penalización por juego tengan
un poco más de dificultad para ganar partidos, pero la relación no es muy fuerte.
Y vs X7
cov (x , y ) 10.23
r= = =0.55
σx σ y 5.39∗3.48
El coeficiente de correlación de Pearson r = 0.55 indica que hay una correlación positiva
moderada entre la variable y (Juegos ganados por temporada de 14 juegos) y la variable x7
(Porcentaje de carreras). Esto significa que a medida que aumenta el porcentaje de carreras,
también es más probable que aumenten los juegos ganados.
Y vs X8
cov (x , y ) −938.92
r= = =−0.74
σx σ y 365.58∗3.48
El coeficiente de correlación de Pearson r = -0.74 indica una fuerte correlación negativa
entre la variable y: Juegos ganados (por temporada de 14 juegos) y la variable x8: Yardas
por tierra del contrario. Esto significa que a medida que la variable x8 aumenta (es decir, el
equipo contrario gana más yardas por tierra), la variable y disminuye (es decir, el número
de juegos ganados por el equipo en cuestión disminuye). En otras palabras, hay una relación
inversa entre estas dos variables: cuando una aumenta, la otra disminuye. Un valor de r tan
fuerte indica que la variable x8 podría ser un predictor importante para el rendimiento del
equipo en la temporada.
Y vs X9
cov (x , y ) −315.7
r= = =−0. 31
σx σ y 296.66∗3.48
El coeficiente de correlación de Pearson r = -0.31 indica una correlación negativa moderada
entre la variable y: juegos ganados por temporada de 14 juegos y la variable x9: yardas por
aire del contrario. Esto sugiere que cuando la yarda por aire del equipo contrario aumenta,
los juegos ganados por el equipo tienden a disminuir. Sin embargo, el valor absoluto de r no
es muy alto, lo que sugiere que la relación entre las dos variables no es tan fuerte como en
otros casos.
Construya y demuestre su mejor modelo de regresión
Basándonos en la información proporcionada, se realizó un análisis de regresión múltiple utilizando
las 9 variables predictoras para predecir la cantidad de juegos ganados en una temporada de 14
juegos. A partir de los resultados, se encontró que los predictores x2: Yardas por aire (temporada) y
x8: Yardas por tierra del contrario (temporada) son significativos para predecir el número de juegos
ganados con un nivel de significancia marginal en la prueba t.
Dado que estos dos predictores son los únicos significativos, se concluyó que el mejor modelo de
regresión es el siguiente:
y=β 0 + β 1 x 2 + β 2 x 8 +ε
Donde "y" representa la variable respuesta (número de juegos ganados), y "x2" y "x8" son los
predictores significativos. Los coeficientes "b0", "b1" y "b2" representan los parámetros de la
regresión que se ajustan a los datos.
En resumen, el mejor modelo de regresión para predecir el número de juegos ganados en una
temporada de 14 juegos es aquel que utiliza los predictores x2 y x8, que representan las yardas por
aire y por tierra del equipo contrario, respectivamente.
Mejor modelo: y=β 0 + β 1 X 2 + β 2 X 3 + ε
^
β 0=14,7127
^
β 1=0.0031
^
β 2=−0.00 68
2
R =0.7433
Interpretaciones de los parámetros del modelo de regresión lineal múltiple
El coeficiente de regresión b0 representa el valor esperado de la variable respuesta y
(juegos ganados) cuando todos los predictores (x2 y x8) son iguales a cero. En este caso, b0
= 14.7126750, lo que significa que, si no hay yardas por aire ni yardas por tierra del
contrario, el número esperado de juegos ganados por temporada es de aproximadamente 15.
El coeficiente de regresión b1 representa la variación esperada en la variable respuesta y
por cada unidad de cambio en el predictor x2 (yardas por aire). En este caso, b1 =
0.0031111, lo que significa que, en promedio, por cada yarda adicional de pase aéreo, se
espera que el número de juegos ganados aumente en aproximadamente 0.003.
El coeficiente de regresión b3 representa la variación esperada en la variable respuesta y
por cada unidad de cambio en el predictor x8 (yardas por tierra del contrario). En este caso,
b3 = -0.0068083, lo que significa que, en promedio, por cada yarda adicional de yardas por
tierra del contrario, se espera que el número de juegos ganados disminuya en
aproximadamente 0.007.
Es importante tener en cuenta que estos son solo efectos parciales y que el valor de los
coeficientes depende de la presencia de otros predictores en el modelo. Además, la
interpretación de los coeficientes debe hacerse con cautela, ya que la regresión lineal
múltiple asume ciertas condiciones y puede haber otras variables relevantes que no están
incluidas en el modelo.
Test de significancia de los parámetros del modelo
Parámetro β 0
H 0 : β 0=0
H 1 : β0 ≠ 0
Estadístico t
^β 0−0 14.7127
t= = =5.621
S ^β 2.6175
0
Valor p
Valor p=2∗P (|t|≥ 5.621 )=7.55e-06
Conclusión:
Existe evidencia suficiente para decir que b0 es diferente de cero, rechazamos la
hipótesis nula.
Parámetro β 1
H 0 : β 1=0
H 1 : β1 ≠ 0
Estadístico t
^β −0 0.0031
1
t= = =4.398
S ^β 0.0007
1
Valor p
Valor p=2∗P (|t|≥ 4.398 )=0.000178
Conclusión:
Existe evidencia suficiente para decir que b1 es diferente de cero, rechazamos la
hipótesis nula, las yardas por aire ayudan a explicar el número de juegos ganados
por temporada en los 14 juegos.
Parámetro β 2
H 0 : β 2=0
H 1 : β2 ≠ 0
Estadístico t
^β 2−0 −0.0068
t= = =−7.049
S ^β
2
0.000 9
Valor p
Valor p=2∗P (|t|≥−7.049 )=2.18e-07
Conclusión:
Existe evidencia suficiente para decir que b2 es diferente de cero, rechazamos la
hipótesis nula, las yardas por tierra del contrario ayudan a explicar el número de
juegos ganados por temporada en los 14 juegos.
Compruebe los supuestos del modelo de regresión lineal
Supuesto de linealidad en los residuos del modelo
Interpretación: En un gráfico Residuals vs Fitted, el eje X representa los valores ajustados o
predichos de la variable de respuesta (Y) a partir del modelo de regresión, mientras que el
eje Y representa los residuos (diferencias entre los valores observados de Y y los valores
ajustados). El supuesto de linealidad en el modelo de regresión lineal múltiple pareciera ser
justificable debido a que los residuos muestran una distribución aleatoria alrededor de la
línea cero.
Supuesto de homocedasticidad en los residuos del modelo
Interpretación: El QQ-plot (Quantile-Quantile Plot) es una herramienta gráfica que nos permite
visualizar si una muestra de datos sigue una distribución normal. En un modelo de regresión lineal
múltiple, el QQ-plot se utiliza para evaluar si los residuos del modelo siguen una distribución
normal.
Observamos que se cumple el supuesto de normalidad, el QQ-plot muestra una línea recta que se
ajusta justificablemente a los puntos de los residuos. Esto significa que los residuos se distribuyen
de manera normal y, por lo tanto, el modelo es válido para realizar inferencias estadísticas.
En resumen, si el QQ-plot muestra una línea recta ajustada a los puntos de los residuos, se cumple
el supuesto de normalidad y se puede confiar en las inferencias estadísticas del modelo.
Supuesto de homocedasticidad en los residuos del modelo
Interpretación: El gráfico Residuals vs Fitted podemos evaluar el supuesto de
homocedasticidad en un modelo de regresión lineal múltiple. Observamos se cumple este
supuesto, debido a que los puntos en el gráfico están dispersos alrededor de una línea
horizontal sin un patrón aparente. Esto significa que la varianza de los errores es constante
en todo el rango de valores de la variable respuesta y de los predictores.
En un gráfico Residuals vs Fitted, la variable respuesta (Y) se representa en el eje vertical y
los valores ajustados del modelo se representan en el eje horizontal. Los residuos se
representan como puntos en el gráfico y se espera que estén dispersos de manera uniforme
alrededor de la línea horizontal.
Conclusiones
En base a los resultados obtenidos, se pueden realizar las siguientes conclusiones:
Las variables más significativas que influyen en la cantidad de juegos ganados por
temporada en un equipo de fútbol americano son las yardas por aire del equipo y las
yardas por tierra del equipo contrario. Estos predictores son los que tienen una
mayor capacidad explicativa y, por lo tanto, pueden ser utilizados para predecir con
mayor precisión la cantidad de juegos ganados por temporada.
El modelo de regresión lineal múltiple obtenido, muestra que, por cada unidad
adicional de yardas por aire del equipo, se espera que la cantidad de juegos ganados
aumente en promedio 0.0031 unidades, manteniendo constante el efecto de las
yardas por tierra del equipo contrario. Por otro lado, por cada unidad adicional de
yardas por tierra del equipo contrario, se espera que la cantidad de juegos ganados
disminuya en promedio 0.0068 unidades, manteniendo constante el efecto de las
yardas por aire del equipo.
El análisis de los supuestos del modelo de regresión lineal muestra múltiple que se
cumplen los supuestos de linealidad, homocedasticidad y normalidad de los
residuos. Esto indica que el modelo es adecuado para explicar la necesidad de la
respuesta variable y se puede confiar en las conclusiones obtenidas.
Además, se sugiere que futuras investigaciones en esta área consideren la inclusión de
más variables, como la efectividad en defensa y ataque, la edad y experiencia de los
jugadores, entre otros factores relevantes en el desempeño del equipo.
Referencias bibliográficas
Montgomery, DC, Peck, EA y Vining, GG (2015). Introducción al análisis de
regresión lineal múltiple. Grupo Editorial Patria.
Gujarati, DN y Porter, DC (2011). Econometría. Colina McGraw.
Myers, RH y Montgomery, DC (2012). Metodología de superficie de respuesta:
Optimización de procesos y productos mediante experimentos diseñados. John
Wiley & Sons.
Hair Jr, JF, Black, WC, Babin, BJ y Anderson, RE (2013). Análisis multivariante.
Pearson Educación.
Kutner, MH, Nachtsheim, CJ y Neter, J. (2005). Modelos de regresión lineal
aplicados. McGraw-Hill/Irwin.
Pérez, MG y Ruiz, MA (2009). Modelos de regresión con R. Pearson Educación.
Rencher, AC y Schaalje, GB (2012). Modelos lineales en estadística. John Wiley &
Sons.
Zorro, J. (2015). Un compañero de R para la regresión aplicada. Publicaciones de
salvia.