Soluciones Conjunto de Problema 1
Econometría Aplicada
1. El sesgo se refiere a los supuestos erróneos en el modelo de aprendizaje. Un modelo con alto
sesgo tiene supuestos fuertes acerca de la forma de los datos y puede ser demasiado simple
para capturar la verdadera relación en los datos, lo que lleva a un rendimiento de modelado
deficiente. Por otro lado, la varianza se refiere a la sensibilidad del modelo a las fluctuaciones
en los datos de entrenamiento. Un modelo con alta varianza es muy flexible y puede ajustarse
demasiado a los datos de entrenamiento, lo que lleva a un mal rendimiento en los datos de
prueba. Existe una compensación entre el sesgo y la varianza, porque aumentar la complejidad
del modelo puede reducir el sesgo pero aumentar la varianza, y viceversa.
2. La estimación implica determinar los parámetros del modelo que mejor se ajustan a los datos
de entrenamiento, mientras que la predicción implica utilizar el modelo ajustado para predecir
las respuestas para nuevos datos. Ambos conceptos son fundamentales para la construcción y
evaluación de modelos de aprendizaje automático: la estimación se utiliza para ajustar el
modelo a los datos de entrenamiento, y la predicción se utiliza para evaluar el rendimiento del
modelo en datos de prueba.
3. La principal diferencia entre LDA y QDA radica en las suposiciones que hacen sobre los datos.
LDA asume que todas las categorías tienen la misma matriz de covarianza, mientras que QDA no
hace esta suposición. Esto hace que LDA sea más restringido y puede funcionar mejor cuando
esta suposición es verdadera, mientras que QDA puede funcionar mejor cuando las categorías
tienen diferentes matrices de covarianza.
4. El valor de "k" en el algoritmo KNN afecta la flexibilidad del modelo. Un valor de "k" pequeño
hace que el modelo sea muy flexible, porque está basado en las observaciones más cercanas.
Esto puede hacer que el modelo sea susceptible a sobreajuste. Por otro lado, un valor de "k"
grande hace que el modelo sea menos flexible, porque está basado en muchas observaciones.
Esto puede hacer que el modelo sea susceptible a subajuste.
5. La regresión logística es un método de aprendizaje supervisado que se utiliza para la
clasificación. Estima la probabilidad de que una observación pertenezca a una categoría
particular. A diferencia de la regresión lineal, que modela la relación directa entre las variables
predictoras y la respuesta, la regresión logística modela la relación entre las variables
predictoras y la probabilidad logarítmica de la respuesta. La regresión logística es especialmente
útil cuando la variable de respuesta es binaria.