0% encontró este documento útil (0 votos)

20 vistas5 páginas

Evaluación de Modelo de Regresión Lineal

El documento describe el proceso de evaluación de un modelo de regresión lineal mediante validación cruzada y búsqueda de hiperparámetros, destacando que la normalización mejora el rendimiento del modelo. Se presentan métricas de precisión, como el R² y R² ajustado, que indican una fuerte correlación entre las predicciones y los valores reales, sugiriendo que el modelo es efectivo en la predicción de ganancias basadas en el gasto en I+D y la ubicación. La conclusión enfatiza que las ganancias de una startup dependen significativamente del gasto en I+D y que operar en California podría resultar en mayores beneficios en comparación con Florida y Nueva York.

Cargado por

Nasly Geraldin Cuesta Avila

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

20 vistas5 páginas

Evaluación de Modelo de Regresión Lineal

Cargado por

Nasly Geraldin Cuesta Avila

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

from sklearn.

model_selection import cross_val_score

accuracies = cross_val_score(lm,X_train,y_train,cv=5)
print(f"Accuracies obtained from 5-cross validation = {accuracies}")
print(f'Mean of all accuracies = {accuracies.mean()}')
print(f"Standard Deviation of accuracies = {accuracies.std()}")
Este código es usado para evaluar la precisión del modelo en un aprendizaje automático lo que
hace es que divide los datos del modelo en 5 grupos donde cada uno es entrenado con un método
matemático en este caso el código 2 calculando su capacidad para funcionar bien en datos
diferentes a aquellos con los que fue entrenado.

Accuracies obtained from 5-cross validation = [0.92253207 0.91428495 0.96311516

0.97224433 0.96787827]

Mean of all accuracies = 0.9480109545008517

Standard Deviation of accuracies = 0.02448150764411361

Estas puntuaciones representan la proporción de predicciones correctas realizadas por el modelo

en cada pliegue de los datos. Los valores oscilan entre 0,9142 (alrededor del 91%) y 0,9722
(alrededor del 97%), lo que indica un rendimiento generalmente bueno en todos los pliegues.

Este valor representa la precisión promedio del modelo en los 5 pliegues. En este caso, es de
aproximadamente 0,948, lo que equivale a alrededor del 95%. Esto sugiere que el modelo tiene un
buen rendimiento en datos no vistos en promedio.

La desviación estándar indica la variabilidad en las puntuaciones de precisión entre los pliegues.
Una desviación estándar baja, como 0,0245 en este caso, sugiere que las puntuaciones de
precisión son relativamente consistentes. Esto implica que el rendimiento del modelo es estable y
no fluctúa significativamente entre diferentes particiones de datos.

from sklearn.model_selection import GridSearchCV

grid_search = GridSearchCV(estimator=lm,param_grid={'normalize':[True,False]})
grid_search = grid_search.fit(X_train,y_train)
print(f"Best Parameter for our model is {grid_search.best_params_}")
print(f"Best score for the model is {grid_search.best_score_}")
Best Parameter for our model is {'normalize': True}
Best score for the model is 0.9420964176246608: El resultado indica que la normalización
de los datos mejora el rendimiento del modelo, y se obtiene una puntuación de validación de
0.9421, lo que significa que predice correctamente el valor objetivo en el 94.21% de los casos del
conjunto de validación.
 Mejor Parámetro: {'normalize': True} indica que la búsqueda por grid ha
determinado que el mejor rendimiento del modelo se obtiene cuando los datos están
normalizados (normalize=True). La normalización es una técnica de preprocesamiento
que transforma las características a una escala común, lo que puede mejorar el
comportamiento del modelo durante el entrenamiento.
 Mejor Puntuación: 0.9420964176246608 representa la mejor puntuación de
rendimiento obtenida por el modelo en el conjunto de datos de validación. El modelo
predice correctamente el valor objetivo en el 94.21% de los casos en el conjunto de validación.

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=True)

Según la normalización hecha este modelo La salida proporcionada muestra la configuración
inicial del modelo, no los resultados reales del proceso de entrenamiento.

#Now it's time to test the accuracy of the model on our Test Data
#this is very good accuracy on training set
lm.score(X_train,y_train)

El código que me proporcionaste evalúa la precisión del modelo de regresión lineal entrenado en
el conjunto de datos de entrenamiento. mide qué tan bien el modelo predice los valores objetivo
en el conjunto de datos que utilizó para aprender.
Esto significa que predice correctamente el valor objetivo en el 96.28% de los casos del conjunto
de entrenamiento. Un modelo con una precisión muy alta en el conjunto de entrenamiento podría
estar sobreajustado, lo que significa que el modelo aprende las características específicas de los
datos de entrenamiento pero no puede generalizar bien a datos nuevos y no vistos.

#Since we have already taken best parameter for our linear model.
#Now we can see how model performs on test dataset
y_pred = lm.predict(X_test)
data = {'y_test':y_test,'y_pred':y_pred.round(2)}
pd.DataFrame(data=data)

Este código te permite comparar los valores reales (y_test) con las predicciones del
modelo (y_pred) en el conjunto de prueba. Puedes analizar las diferencias entre los valores
para evaluar qué tan bien el modelo se ajusta a los datos nuevos y no vistos.

#coefficients of regression model

coeff = f'Profit = ({lm.intercept_} x Bias) '
for i,col in zip(range(3),df4.columns[[0,2,3]]):
coeff+=f'+\n ({lm.coef_[i]} x {col}) '

print(coeff)
Este código genera una representación legible de la ecuación del modelo de regresión lineal
entrenado, incluyendo el término de intercepción y los coeficientes de las variables
independientes.
 Profit: Es la variable dependiente que el modelo intenta predecir, en este caso, se refiere
a la ganancia.
 Bias (término de intercepto): 49491.03. Este valor representa la ganancia promedio
que se predice cuando todas las variables independientes son iguales a cero. En otras
palabras, si una empresa no gasta nada en I+D y no se encuentra en Florida ni en Nueva
York, el modelo predice una ganancia promedio de $49,491.03.
 R&D Spend (Gasto en I+D): 0.8578. Este coeficiente indica la relación entre el gasto
en I+D y la ganancia. Un aumento de una unidad en el gasto en I+D se asocia con un
aumento de $0.8578 en la ganancia prevista. En otras palabras, invertir en I+D se asocia
con un aumento en la ganancia esperada.
 State_Florida: -695.59. Este coeficiente indica la diferencia en la ganancia esperada
para las empresas ubicadas en Florida en comparación con la categoría de referencia (que
no se muestra explícitamente en la ecuación). Las empresas en Florida se asocian con una
ganancia $695.59 menor en promedio que la categoría de referencia.
 State_New York: -3010.15. Este coeficiente indica la diferencia en la ganancia
esperada para las empresas ubicadas en Nueva York en comparación con la categoría de
referencia. Las empresas en Nueva York se asocian con una ganancia $3010.15 menor en
promedio que la categoría de referencia.
plt.title('Residual Plot',size=20)
sns.residplot(y_test,y_pred,color='purple')
plt.xlabel('y_pred',size=15)
plt.ylabel('Residues',size=15)
Un diagrama de residuos ayuda a visualizar la relación entre los valores predichos y los residuos.
Idealmente, los residuos deberían estar dispersos aleatoriamente alrededor de la línea horizontal
en cero. Esto indica que los errores del modelo (diferencias entre los valores reales y los
predichos) son aleatorios e independientes de los valores predichos.
sns.scatterplot(y_test,y_pred)
plt.xlabel('y_test',size=15)
plt.ylabel('y_pred',size=15)
Si los puntos muestran una tendencia general hacia arriba de izquierda a derecha, sugiere una
correlación positiva entre y_test y y_pred. Esto significa que a medida que aumentan los
valores de y_test, los valores de y_pred también tienden a aumentar.
from sklearn import metrics
r2= metrics.r2_score(y_test,y_pred)
N,p = X_test.shape
adj_r2 = 1-((1-r2)*(N-1))/(N-p-1)
print(f'R^2 = {r2}')
print(f'Adjusted R^2 = {adj_r2}')

1. R² (Coeficiente de Determinación):
o Su rango va de 0 a 1, donde 1 indica un ajuste perfecto y 0 indica que no hay
relación lineal.
2. R² Ajustado:
o Esta métrica es una variante del R² que tiene en cuenta el número de
variables independientes en el modelo.
o El R² ajustado se suele utilizar cuando se comparan modelos con diferente
número de características, ya que penaliza a los modelos con más
características por su complejidad añadida.

Interpretación:

 Puntaje R² de 0.924: Esto indica una correlación positiva muy fuerte entre los
valores predichos (y_pred) y los valores reales (y_test). Sugiere que el modelo
explica el 92,42% de la varianza en la variable dependiente.
 Puntaje R² Ajustado de 0.886: Este puntaje R² ajustado es ligeramente inferior al
R², teniendo en cuenta el número de características en el modelo. Sigue indicando
una fuerte correlación positiva y sugiere que el modelo funciona bien incluso
considerando la complejidad del mismo.

En general, estas métricas sugieren que el modelo de regresión lineal funciona bien y
predice eficazmente la variable dependiente en función de las variables
independientes.

En resumen, el código calcula e imprime dos métricas (R² y R² ajustado) para evaluar
el rendimiento de un modelo de regresión lineal. Los resultados sugieren que el
modelo funciona bien y predice eficazmente la variable dependiente en función de las
variables independientes. Sin embargo, es importante considerar otros factores y
visualizar los datos para una evaluación completa.

9. Conclusión
Después de observar el modelo completo podemos concluir que:

1. Las ganancias de una startup dependen en gran medida de cuánto gastan en I+D, es decir,
investigación y desarrollo. Cuanto mayor es el gasto en I+D, mayor es el beneficio y viceversa.
2. Comenzar a operar en CALIFORNIA espera obtener más ganancias que operar en otros dos
estados, "Florida" y "Nueva York", suponiendo que el gasto en I+D de los tres estados sea el
mismo.

Entonces, según los datos proporcionados y nuestro modelo de aprendizaje automático, podemos
decir que es bueno iniciar un negocio en CALFORNIA (considere también otros factores que no
están cubiertos en el modelo).

También podría gustarte

Regresión Lineal y Logística en Python
Aún no hay calificaciones
Regresión Lineal y Logística en Python
11 páginas
Regresión Múltiple y Estratificación en Python
Aún no hay calificaciones
Regresión Múltiple y Estratificación en Python
13 páginas
Modelos de Aprendizaje Supervisado en Python
Aún no hay calificaciones
Modelos de Aprendizaje Supervisado en Python
20 páginas
Guía de Regresión Lineal en Python
Aún no hay calificaciones
Guía de Regresión Lineal en Python
32 páginas
Análisis de Regresión y Estadísticas en R
Aún no hay calificaciones
Análisis de Regresión y Estadísticas en R
13 páginas
Análisis de Datos y Modelos Predictivos
Aún no hay calificaciones
Análisis de Datos y Modelos Predictivos
9 páginas
Sesión 4 - Supervisado + Regresion PDF
Aún no hay calificaciones
Sesión 4 - Supervisado + Regresion PDF
35 páginas
Métodos Predictivos en Machine Learning
Aún no hay calificaciones
Métodos Predictivos en Machine Learning
10 páginas
Tarea 3 Algoritmos de Aprendizaje. Emel Pedrozo
Aún no hay calificaciones
Tarea 3 Algoritmos de Aprendizaje. Emel Pedrozo
21 páginas
Definiciones clave en aprendizaje automático
Aún no hay calificaciones
Definiciones clave en aprendizaje automático
10 páginas
Regresion Lineal Simple
Aún no hay calificaciones
Regresion Lineal Simple
26 páginas
Apunte Regresion Lineal Szretter
Aún no hay calificaciones
Apunte Regresion Lineal Szretter
249 páginas
Modelos de Regresión Lineal con R
Aún no hay calificaciones
Modelos de Regresión Lineal con R
71 páginas
Fundamentos de Machine Learning y Modelos
Aún no hay calificaciones
Fundamentos de Machine Learning y Modelos
11 páginas
Evaluación de Modelos con Datos de Prueba
Aún no hay calificaciones
Evaluación de Modelos con Datos de Prueba
2 páginas
Regresión Simple
Aún no hay calificaciones
Regresión Simple
15 páginas
Tarea 3
Aún no hay calificaciones
Tarea 3
6 páginas
Ejercicio 2
Aún no hay calificaciones
Ejercicio 2
7 páginas
InformeModelamiento Estadistico
Aún no hay calificaciones
InformeModelamiento Estadistico
9 páginas
Documentacion Entrega Final Diabetes
Aún no hay calificaciones
Documentacion Entrega Final Diabetes
5 páginas
Predicción de Precios de Diamantes con Regresión
Aún no hay calificaciones
Predicción de Precios de Diamantes con Regresión
21 páginas
Selección y Validación de Modelos en IA
Aún no hay calificaciones
Selección y Validación de Modelos en IA
21 páginas
Modelos de Regresión Lineal en Marketing
Aún no hay calificaciones
Modelos de Regresión Lineal en Marketing
27 páginas
4.3 Modelos - Lineales - 2 - DV
Aún no hay calificaciones
4.3 Modelos - Lineales - 2 - DV
51 páginas
Proyecto Regresion 3erparcial
Aún no hay calificaciones
Proyecto Regresion 3erparcial
21 páginas
Colab No Parametrica, Logistica
Aún no hay calificaciones
Colab No Parametrica, Logistica
20 páginas
Electiva Quimica
Aún no hay calificaciones
Electiva Quimica
10 páginas
Diagrama de Flujo 2.0
Aún no hay calificaciones
Diagrama de Flujo 2.0
5 páginas
Ejercicio 8
Aún no hay calificaciones
Ejercicio 8
11 páginas
Guía Completa de Aprendizaje Automático
Aún no hay calificaciones
Guía Completa de Aprendizaje Automático
9 páginas
Análisis de Regresión en Datos Automotrices y de Vivienda
Aún no hay calificaciones
Análisis de Regresión en Datos Automotrices y de Vivienda
13 páginas
Regresión Lineal Python
Aún no hay calificaciones
Regresión Lineal Python
11 páginas
Explorador M2
Aún no hay calificaciones
Explorador M2
43 páginas
Gráfico X
Aún no hay calificaciones
Gráfico X
5 páginas
Regresión Lineal Simple: Fórmulas y Análisis
Aún no hay calificaciones
Regresión Lineal Simple: Fórmulas y Análisis
22 páginas
Introducción a la Regresión Lineal y Aprendizaje Supervisado
Aún no hay calificaciones
Introducción a la Regresión Lineal y Aprendizaje Supervisado
9 páginas
Análisis Predictivo y Regresión Lineal
Aún no hay calificaciones
Análisis Predictivo y Regresión Lineal
30 páginas
Parcial Practico Ml2025a Master
Aún no hay calificaciones
Parcial Practico Ml2025a Master
5 páginas
Tarea 3 Emel Pedrozo
Aún no hay calificaciones
Tarea 3 Emel Pedrozo
20 páginas
Unidad 1 - 9. Caso de Aplicación - Evaluación de Modelos de Predicción
Aún no hay calificaciones
Unidad 1 - 9. Caso de Aplicación - Evaluación de Modelos de Predicción
18 páginas
Regresión Lineal Puntos Claves
Aún no hay calificaciones
Regresión Lineal Puntos Claves
2 páginas
Ia Basico S5
Aún no hay calificaciones
Ia Basico S5
11 páginas
Vallejo Braulio-Regresion Lineal Evaluacion de La Capacidad Predictora
Aún no hay calificaciones
Vallejo Braulio-Regresion Lineal Evaluacion de La Capacidad Predictora
8 páginas
Métricas y Modelos en Aprendizaje Automático
Aún no hay calificaciones
Métricas y Modelos en Aprendizaje Automático
3 páginas
P5 1 R SofiaJatziriRosalesRamos
Aún no hay calificaciones
P5 1 R SofiaJatziriRosalesRamos
20 páginas
Guía de Regresión Lineal en Python
Aún no hay calificaciones
Guía de Regresión Lineal en Python
308 páginas
Regresión Lineal
Aún no hay calificaciones
Regresión Lineal
9 páginas
Guía de Regresión Lineal Múltiple
Aún no hay calificaciones
Guía de Regresión Lineal Múltiple
15 páginas
Fundamentos del Modelo de Regresión Lineal
Aún no hay calificaciones
Fundamentos del Modelo de Regresión Lineal
28 páginas
Introducción al Aprendizaje Supervisado
Aún no hay calificaciones
Introducción al Aprendizaje Supervisado
221 páginas
Análisis de Regresión Lineal CO-NOX
Aún no hay calificaciones
Análisis de Regresión Lineal CO-NOX
12 páginas
Modelación de Datos en Fase 4
Aún no hay calificaciones
Modelación de Datos en Fase 4
9 páginas
Tipos de Aprendizaje en Modelos Predictivos
Aún no hay calificaciones
Tipos de Aprendizaje en Modelos Predictivos
27 páginas
Modelos de Regresión en Minería de Datos
Aún no hay calificaciones
Modelos de Regresión en Minería de Datos
13 páginas
Regresión Lineal Múltiple en Estadística II
Aún no hay calificaciones
Regresión Lineal Múltiple en Estadística II
6 páginas
Modulo 3
Aún no hay calificaciones
Modulo 3
35 páginas
Análisis de Regresión: Calificaciones y Salarios
Aún no hay calificaciones
Análisis de Regresión: Calificaciones y Salarios
6 páginas
Estrategias de Contenido en la Revolución Digital
Aún no hay calificaciones
Estrategias de Contenido en la Revolución Digital
13 páginas
Programa Técnicas 2023 CG
Aún no hay calificaciones
Programa Técnicas 2023 CG
11 páginas
Debate sobre Medios y Aprendizaje
Aún no hay calificaciones
Debate sobre Medios y Aprendizaje
11 páginas
Formatos Productos Tema 6 Editable
Aún no hay calificaciones
Formatos Productos Tema 6 Editable
11 páginas
Infografia Crianza Saludable
Aún no hay calificaciones
Infografia Crianza Saludable
1 página
Convocatoria No: Fecha de Publicación
Aún no hay calificaciones
Convocatoria No: Fecha de Publicación
3 páginas
Trastornos de Personalidad: Cluster C
Aún no hay calificaciones
Trastornos de Personalidad: Cluster C
56 páginas
Marketing de Contenidos
Aún no hay calificaciones
Marketing de Contenidos
24 páginas
Ingles Student Book Pre A1.2.
100% (1)
Ingles Student Book Pre A1.2.
194 páginas
Costo de Herrar Caballos del Rey
100% (3)
Costo de Herrar Caballos del Rey
3 páginas
So Luci Ones
Aún no hay calificaciones
So Luci Ones
1 página
Situacion Educacion en Paraguay
Aún no hay calificaciones
Situacion Educacion en Paraguay
27 páginas
PA TERMODINAMICA I 5-3 DR. LUIS VELAZQUEZ 2024-2025 CII PRESENCIAL Final (2) - Signed
Aún no hay calificaciones
PA TERMODINAMICA I 5-3 DR. LUIS VELAZQUEZ 2024-2025 CII PRESENCIAL Final (2) - Signed
8 páginas
Nutricion Rechazo A Alimentarse PDF
Aún no hay calificaciones
Nutricion Rechazo A Alimentarse PDF
6 páginas
Especialización en Neuropsicología Dinámica
Aún no hay calificaciones
Especialización en Neuropsicología Dinámica
4 páginas
Estructura y Formación de Palabras
Aún no hay calificaciones
Estructura y Formación de Palabras
3 páginas
Sem 1 Trigo 4to Sec
Aún no hay calificaciones
Sem 1 Trigo 4to Sec
4 páginas
Escala de Yesavage
50% (2)
Escala de Yesavage
2 páginas
Fundamentos de la Comunicación Efectiva
Aún no hay calificaciones
Fundamentos de la Comunicación Efectiva
3 páginas
Canciones para Mamá en 6° Grado
Aún no hay calificaciones
Canciones para Mamá en 6° Grado
7 páginas
Figuras Musicales para Niños
92% (12)
Figuras Musicales para Niños
5 páginas
Práctica de Laboratorio para La Identificación Morfológica de Microorganismos
Aún no hay calificaciones
Práctica de Laboratorio para La Identificación Morfológica de Microorganismos
7 páginas
Secuencias Didácticas: Comunidades Precolombinas
Aún no hay calificaciones
Secuencias Didácticas: Comunidades Precolombinas
3 páginas
Actividades Didácticas 6to Grado 2020-2021
Aún no hay calificaciones
Actividades Didácticas 6to Grado 2020-2021
13 páginas
Educ. Fisica Agilidad Destreza
Aún no hay calificaciones
Educ. Fisica Agilidad Destreza
4 páginas
Realsimo Teoría
Aún no hay calificaciones
Realsimo Teoría
5 páginas
Emociones y Autonomía Infantil
Aún no hay calificaciones
Emociones y Autonomía Infantil
17 páginas
Fundamentos Nazarenos New
100% (1)
Fundamentos Nazarenos New
56 páginas
Súper Patriotas - Manuel Belgrano
Aún no hay calificaciones
Súper Patriotas - Manuel Belgrano
15 páginas
Planificación Lengua 2do 25-26
Aún no hay calificaciones
Planificación Lengua 2do 25-26
2 páginas