0% encontró este documento útil (0 votos)
161 vistas33 páginas

Regresión Lineal Multivariable: Modelos

Este documento presenta una monografía de investigación sobre la regresión lineal multivariable que emplea modelos lineales de primer y segundo orden. Introduce la regresión lineal múltiple y describe modelos de primer orden, tipos de variables, hipótesis, estimación, varianza residual y coeficiente de determinación. También incluye ejemplos de cálculo y aplicaciones de la regresión múltiple, concluyendo con una bibliografía.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
161 vistas33 páginas

Regresión Lineal Multivariable: Modelos

Este documento presenta una monografía de investigación sobre la regresión lineal multivariable que emplea modelos lineales de primer y segundo orden. Introduce la regresión lineal múltiple y describe modelos de primer orden, tipos de variables, hipótesis, estimación, varianza residual y coeficiente de determinación. También incluye ejemplos de cálculo y aplicaciones de la regresión múltiple, concluyendo con una bibliografía.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

UNIVERSIDAD NACIONAL DEL CALLAO

FACULTAD DE INGENIERÍA QUÍMICA

ESCUELA ACADÉMICO PROFESIONAL DE INGENIERÍA


QUÍMICA

MONOGRAFÍA DE INVESTIGACIÓN
“REGRESIÓN LINEAL MULTIVARIABLE EMPLEANDO MODELOS
LINEALES O DE PRIMER ORDEN Y MODELOS DE SEGUNDO ORDEN”

Asignatura: Métodos numéricos


Docente: Ing. César Gutiérrez Cuba

Callao-Perú
2020
INTRODUCCIÓN
La regresión lineal múltiple permite generar un modelo lineal en el que el valor
de la variable dependiente o respuesta (Y) se determina a partir de un conjunto
de variables independientes llamadas predictores (X1, X2, X3…). Es una
extensión de la regresión lineal simple, por lo que es fundamental comprender
esta última. Los modelos de regresión múltiple pueden emplearse para predecir
el valor de la variable dependiente o para evaluar la influencia que tienen los
predictores sobre ella (esto último se debe que analizar con cautela para no
malinterpretar causa-efecto).
Los modelos lineales múltiples siguen la siguiente ecuación:
Yi= (β0+β1X1i+β2X2i+⋯+βniXni)+ei
β0: es la ordenada en el origen, el valor de la variable dependiente Y cuando
todos los predictores son cero.
βi: es el efecto promedio que tiene el incremento en una unidad de la variable
predictora Xi sobre la variable dependiente Y, manteniéndose constantes el resto
de variables. Se conocen como coeficientes parciales de regresión.
ei: es el residuo o error, la diferencia entre el valor observado y el estimado por
el modelo.
Es importante tener en cuenta que la magnitud de cada coeficiente parcial de
regresión depende de las unidades en las que se mida la variable predictora a la
que corresponde, por lo que su magnitud no está asociada con la importancia de
cada predictor. Para poder determinar qué impacto tienen en el modelo cada una
de las variables, se emplean los coeficientes parciales estandarizados, que se
obtienen al estandarizar (sustraer la media y dividir entre la desviación estándar)
las variables predictoras previo ajuste del modelo

2
INDICE
INTRODUCCIÓN ........................................................................................................................ 2
1. REGRESIÓN LINEAL SIMPLE ....................................................................................... 4
1.1. Distribución Normal de los residuos: ................................................................... 4
1.2. Varianza de residuos constante (homocedasticidad): . .................................... 4
1.3. Valores atípicos y de alta influencia:. .................................................................. 4
1.4. Independencia, Auto correlación: ........................................................................ 4
2. REGRESIÓN LINEAL MÚLTIPLE MODELO DE PRIMER ORDEN ......................... 5
2.1. Modelo de regresión lineal múltiple ............................................................................. 5
2.2. TIPOS DE VARIABLES ................................................................................................. 6
2.2.1. Continuas .................................................................................................................. 7
2.2.2. Discretas: .................................................................................................................. 8
2.3. Hipótesis y Estimación ................................................................................................... 9
2.4 Varianza residual ............................................................................................................. 9
2.5 Contraste de regresión.................................................................................................. 11
2.6. Coeficiente de determinación ..................................................................................... 11
2.7. Errores que deben de evitarse ................................................................................... 12
2.8. Modelo lineal de regresión múltiple: herramientas de software ............................ 13
2.8.1 Excel y la regresión múltiple ................................................................................. 13
3. APLICACIONES DE REGRESIÓN MÚLTIPLE .......................................................... 14
4. EJEMPLOS DE CALCULO ............................................................................................ 23
5. REGRESIÓN LINEAL MULTIVARIABLE MODELO DE SEGUNDO ORDEN ...... 30
6. CONCLUSIÓN .................................................................................................................. 32
7. BIBLIOGRAFIA ................................................................................................................ 33

3
1. REGRESIÓN LINEAL SIMPLE
La regresión lineal simple consiste en generar un modelo de regresión (ecuación
de una recta) que permita explicar la relación lineal que existe entre dos
variables. A la variable dependiente o respuesta se le identifica como Y y a la
variable predictora o independiente como X.
El modelo de regresión lineal simple se describe de acuerdo a la ecuación:
Y=β0+β1X1+ϵ
Siendo β0 la ordenada en el origen, β1 la pendiente y ϵ el error aleatorio. Este
último representa la diferencia entre el valor ajustado por la recta y el valor real.
Recoge el efecto de todas aquellas variables que influyen en Y pero que no se
incluyen en el modelo como predictores. Al error aleatorio también se le conoce
como residuo.

Linealidad: La relación entre ambas variables debe ser lineal. Para comprobarlo
se puede recurrir a:
Graficar ambas variables a la vez (diagrama de dispersión), superponiendo la
recta del modelo generado por regresión lineal.
Calcular los residuos para cada observación acorde al modelo generado y
graficarlos. Deben distribuirse de forma aleatoria en torno al valor 0.
1.1. Distribución Normal de los residuos:
El residuo se tiene que distribuir de forma normal, con media igual a 0.
Esto se puede comprobar con un test de hipótesis de normalidad. Los
valores extremos suelen ser una causa frecuente por la que se viola la
condición de normalidad.
1.2. Varianza de residuos constante (homocedasticidad): La varianza de
los residuos ha de ser aproximadamente constante a lo largo del eje
X. Se puede comprobar mediante gráficos (scatterplot) de los residuos
de cada observación (formas cónicas son un claro indicio de falta de
homocedasticidad) o mediante contraste de hipótesis mediante el test
de Breusch-Pagan.
1.3. Valores atípicos y de alta influencia: Hay que estudiar con
detenimiento los valores atípicos o extremos ya que pueden generar
una falsa correlación que realmente no existe, u ocultar una existente.
(Ver descripción detallada en la sección de apuntes varios).
1.4. Independencia, Auto correlación: Las observaciones deben ser
independientes unas de otras. Esto es importante tenerlo en cuenta
cuando se trata de mediciones temporales. Puede detectarse
estudiando si los residuos siguen un patrón o tendencia. Otro caso
frecuente es el de tener varias mediciones para un mismo sujeto. En
estos casos, primero se obtiene la media de cada uno y después se
ajusta el modelo empleando las medias.

4
Dado que las condiciones se verifican a partir de los residuos, primero
se suele generar el modelo y después se valida. De hecho, el ajuste
de un modelo debe verse como un proceso iterativo en el que se ajusta
un modelo inicial, se evalúa mediante sus residuos y se mejora. Así
hasta llegar a un modelo óptimo.

2. REGRESIÓN LINEAL MÚLTIPLE MODELO DE PRIMER ORDEN


La regresión lineal es una técnica estadística destinada a analizar por qué pasan
las cosas o cuáles son las principales explicaciones de algún fenómeno. A partir
de los análisis de regresión lineal múltiple podemos:
• identificar que variables independientes (causas) explican una variable
dependiente (resultado)
• comparar y comprobar modelos explicativos, predecir valores de una
variable, es decir, a partir de unas características predecir de forma
aproximada un comportamiento o estado
¿Cómo comprobamos una regresión lineal múltiple?
Para comprobar hipótesis y relaciones explicativas. Ante de empezar, una
serie de condiciones que se deben cumplir para poder aplicar la regresión
lineal múltiple:
• La variable dependiente (resultado) debe ser escalar (numérica) o bien
ordinal de más de 5 categorías, es decir, las categorías de la variable
dependiente deben tener un orden interno o jerarquía, [Link]. nivel de
ingresos, peso, número
de hijos, justificación del aborto en una escala de 1-nunca a 10-siempre.

• Las variables independientes (explicaciones) deben ser escalares


(numérica), ordinales (también se recomienda con más de 5 categorías,
[Link]. nivel de ingresos) o dummy (variables de dos categorías donde una
indica existencia o otra no-existencia, [Link]. 1-ser soltero, 0-no ser soltero).

• Las relaciones entre las variables independientes y la variable


dependiente deben ser lineales y todas variables (o mejor dicho sus
residuales) deben seguir la distribución normal y deben tener varianzas
iguales, además, las variables independientes no pueden estar altamente
correlacionadas entre sí

2.1. Modelo de regresión lineal múltiple


El modelo de regresión lineal múltiple es idéntico al modelo de regresión
lineal, es una extensión útil de esta, es el caso en el que, y es una función
lineal de dos o más variables independientes simple, con la única
diferencia de que aparecen más variables explicativas:

5
• Modelo de regresión simple:
y = b0 + b 1 ⋅ x + u

• Modelo de regresión múltiple:


y = a1 a1 x1 + a2 x2 + b3 x3 +……+ bk xb + u

¿Cómo desarrollar una regresión lineal múltiple?

Los valores para los coeficientes se determinan al realizar la suma de los


cuadrados de los residuos

Y derivando con respecto a cada uno de los coeficientes conocidos, obtenemos:

Los coeficientes que dan la suma mínima de los cuadrados de los residuos se
obtienen al igualar a cero las derivadas parciales y expresando el resultado en
forma matricial:

2.2. TIPOS DE VARIABLES


En regresión se trabaja con variables. Y lo que se hace es calcular siempre
promedios (promedio de una variable, de una correlación, de una tendencia, de
una función, de una ratio; promedios de variables estandarizadas,
estudentizadas o refuncionalizadas con cualquier otra función) y su desviación
típica (la desviación típica es una denominación que se reserva a la muestra y a

6
la población, cuando se refiere a un parámetro estimado - la media, la tendencia
u otro - se suele denominar error estándar).
Una vez calculados ambos se interpretan conjuntamente (si son altos, bajos, en
términos absolutos o lo que es más usual, en relación a algo como por ejemplo
una distribución normal)
Todos estos cálculos lo hallamos de acuerdo a la función del método de
regresión lineal múltiple:
𝑦𝑗 = 𝑏𝑜 + 𝑏1𝑥1𝑗 + 𝑏2𝑥2𝑗 + ⋯ + 𝑏𝑘𝑥𝑘𝑗 + 𝑢j
De esta forma Y una variable que puede denominarse como endógena o
dependiente. Mientras que X es una variable que puede denominarse: exógena
o independiente.
En regresión lineal múltiple sólo suele haber una variable endógena y puede
haber varias variables exógenas. Es decir, se individualiza el fenómeno
observado.
También puede darse el caso de la existencia de varias variables endógenas,
pero su solución es difícil por lo que no es el caso general.
El tipo de variable es más importante si afecta a la variable endógena (porque
nos obligará a utilizar uno u otro modelo de regresión) pero no es tan importante
si afecta a la variable exógena.
Dichas variables (tanto endógenas como exógenas) pueden adoptar dos formas
generales:

2.2.1. Continuas
Las variables continuas son aquellas que llenan el espacio. Son números reales
(que pueden tener o no decimales) y servirán incluso cuando su rango no sea
desde -∞ hasta +∞. Suelen ser variables cuantitativas (como el peso o la edad)
pero también pueden ser consideradas continuas variables cualitativas cuando
pueden ordenarse y tienen un número no bajo de elementos (se dice que con
más de siet elementos puede considerarse cuantitativa.
Todas las variables de recuento (números enteros) siempre que su rango sea
alto (más de 7 elementos) podrían considerarse como continuas. Dentro de las
variables continuas tienen especial relevancia las conocidas como porcentajes.
Estas ratios pueden considerarse variables continuas normales cuando se
mueven en un rango central relativamente amplio, pero deben considerarse de
forma especial cuando se mueven cerca de sus extremos porque sus tasas de
crecimiento se ven constreñidas al intervalo [0; 1]

7
Ejemplos:
Es el número de escalones de una escalera, habitaciones de una vivienda,
árboles plantado)
2.2.2. Discretas:
Las variables discretas son aquellas que se mueven “a saltos”. Además de las
variables de recuento suelen ser factores cualitativos que indican alguna
característica del individuo (como el género, color, idioma) Si las características
son sólo dos se suelen llamar dicotómicas (género). Si son más de dos se suelen
denominar simplemente factor.

Planteamiento del problema.


Los siguientes datos se calcularon con la ecuación
y =5 + 4x1 – 3x2
1) Primero tabulamos los valores que pueden tomar x1 y x2 :

2) Utilizamos la regresión lineal múltiple para ajustar estos datos

3) Aplicamos la eliminación de gauss para poder conocer los valores de


x1 y x2:
a0=5 a1=4 a2=–3
Que es consistente con la ecuación original, de la cual se obtienen los
datos

8
2.3. Hipótesis y Estimación
Para que los resultados de la regresión sean “confiables” (confiable es una forma
coloquial de referirse a: insesgados, es decir que sus resultados sean parecidos
a los reales; y óptimos, es decir que su varianza sea mínima) es necesario que:

a) La relación entre las variables sea lineal. Ser lineal no significa que
forzosamente tenga que ser una línea recta sino también que pueda ser lineal
con alguna
transformación.

b) Las perturbaciones (es decir los efectos provocados aleatoriamente o por


variables no incluidas en el modelo) deben ser: de media cero, homocedásticas
y no autocorrelacionadas. Se suelen resumir estos bajo la denominación de
“esfericidad” de los residuos.
Hay dos formas de estimación de una regresión lineal. Un
primero por mínimos cuadrados ordinarios (MCO), que consiste en resolver la
ecuación:

Donde 𝑏 ̂ es el vector de estimación de los coeficientes, y es el vector de la


dependientes X es la matriz de variables dependientes y X’ es la traspuesta de
X
Como estimador de la varianza del error se puede emplear:

Y un segundo mediante máxima verosimilitud (ML). Que consiste en maximizar


la ecuación:

Ambos procedimientos llevan a los mismos resultados, pero hay ocasiones en


que, por repugnantes e inexpugnables problemas matemáticos, no es posible
resolver el sistema por MCO y debe resolverse por máxima verosimilitud.

2.4 Varianza residual

Al igual que en el caso de regresión lineal simple, vamos a descomponer


la variabilidad de la variable dependiente Y en dos componentes o fuentes de

9
variabilidad: una componente va a representar la variabilidad explicada por el
modelo de regresión y la otra componente va a representar la variabilidad no
explicada por el modelo y, por tanto, atribuida a factores aleatorios.

La variabilidad de toda la muestra se denomina variabilidad total (VT).

La variabilidad explicada (VE).

La variabilidad no explicada (VNE) por la regresión.

Consideramos la variabilidad de la variable dependiente como:

Es decir, la variabilidad de Y es la suma cuadrática de los valores que


toma la variable respecto a la media de la variable.
Sumando y restando el valor pronosticado por el modelo de regresión
obtenemos la siguiente expresión:

Es decir, que la suma de cuadrados de la variable Y respecto a su media


se puede descomponer en términos de la varianza residual. De esta expresión
se deduce que “la distancia de Y a su media se descompone como la distancia
de Y a su estimación más la distancia de su estimación a la media”.
Teniendo en cuenta que el último término representa la varianza no
explicada, tenemos:
Descomposición de la variabilidad

10
2.5 Contraste de regresión
Uno de los contrastes más usuales en todos los análisis de regresión es lo que
se conoce como el contraste de la regresión, o anova de la regresión, que
plantea
como hipótesis nula la no influencia de las variables explicativas en la respuesta.

Se denomina contraste de regresión al estudio de la posibilidad de que el modelo


de regresión sea nulo, es decir, los valores de las variables explicativas X no van
a influir en la variable independiente
Siguiendo el modelo de regresión lineal múltiple
𝑦𝑗 = 𝑏𝑜 + 𝑏1𝑥1𝑗 + 𝑏2𝑥2𝑗 + ⋯ + 𝑏𝑘𝑥𝑘𝑗 + 𝑢j

Ahora como queremos sacar conclusiones de una muestra de un conjunto


mucho más amplio de datos, a veces este conjunto será infinito, es obvio que
distintas muestras van a dar distintos valores de los parámetros.
Un caso de especial interés es asignar una medida de probabilidad a la
siguiente afirmación o hipótesis

La afirmación contraria sería:

Entonces, La hipótesis nula es que todos los coeficientes menos 𝑏𝑜 son


nulos y la hipótesis alternativa o complementaria es que existe al menos uno que
es distinto de 0, puede haber varios que sean nulos, pero al menos existe uno
distinto de cero.

2.6. Coeficiente de determinación


El coeficiente de determinación (R2) se define como la proporción de variabilidad
de la variable dependiente que es explicada por la regresión

El coeficiente de determinación presenta el inconveniente de aumentar


siempre que aumenta el número de variables regresores (algunas veces de
forma artificial)

11
Por ello y para penalizar el número de variables regresores que se incluyen en
el modelo de regresión, es conveniente utilizar el coeficiente de determinación
corregido por el número de grados de libertad.

Este coeficiente es muy importante pues determina qué porcentaje (en tantos
por uno) de la varianza de la variable dependiente es explicado por el modelo de
regresión.
En general, se pueden clasificar los valores de 2R de la siguiente manera:

Para interpretar el coeficiente de determinación adecuadamente, se deben tener


en cuenta las siguientes
a) Cuando se añaden nuevas variables explicativas, el coeficiente de
determinación aumenta su valor o, al menos, mantiene el mismo valor. Esto
sucede a
pesar de que la variable o variables añadidas no tengan relación con la variable
endógena. Así pues, siempre se verifica que

donde es el R cuadrado en un modelo con j-1 regresores, y es el R cuadrado en


un modelo con un regresor adicional. Es decir, si se añaden variables a un
modelo determinado, R2 nunca disminuirá, incluso si estas variables no tienen
una influencia significativa.
b) El coeficiente de determinación no se puede utilizar para comparar modelos
en los que la forma funcional de la variable endógena es diferente. Por ejemplo,
R2 no se puede aplicar para comparar dos modelos en los que el regresando es
la variable original en uno, y, y ln(y) en el otro.

2.7. Errores que deben de evitarse

Errores que son fáciles pasar por alto al realizar un modelo de regresión lineal
múltiple son los siguientes:
• No controlar el factor tamaño.
• Si hay un factor de ponderación, no tenerlo en cuenta.
• Al calcular los grados de libertad en los contrastes de hipótesis.
• No incluir una variable relevante en el modelo.
• Incluir una variable irrelevante.

12
• Especificar una relación lineal que no lo es.

2.8. Modelo lineal de regresión múltiple: herramientas de software

2.8.1 Excel y la regresión múltiple


Pondremos un ejemplo para poder representarlo en el software.
Se puede utilizar el análisis de la regresión lineal múltiple para estimar el gasto
de familias en alimentación (Y) basándose en las variables X1='Ingresos
mensuales' y X2='número de miembros de la familia'.

Excel dispone de análisis de Regresión


para ajustar el modelo de regresión
múltiple, simultáneamente proporciona
las estimaciones de los parámetros, la
contrastación individual, y el análisis de
los residuos. En el menú Herramientas,
tenemos el diálogo Análisis de datos,
donde elegimos Regresión,
obteniéndose un cuadro de diálogo que
permite realizar un ajuste para la
regresión múltiple.

Los Campos de Entrada tienen las funcionalidades:


✓ Rango Y de entrada
✓ Rango X de entrada
✓ Rótulos
✓ Nivel de confianza
✓ Constante igual a cero
✓ Rango de salida
La siguiente figura presenta el gráfico de cada variable independiente (X1, X2)
contra los residuos, lo que se utiliza para detectar el problema de no linealidad,
heteroscedasticidad, y autocorrelación en el modelo del ajuste. Lo mejor es que
todas las gráficas presenten una estructura aleatoria de puntos.

13
3. APLICACIONES DE REGRESIÓN MÚLTIPLE
La regresión múltiple se utiliza para la predicción de respuestas a partir de
variables explicativas. Pero no es ésta realmente su aplicación más común en
investigación. Sus usos más comunes son los siguientes:
▪ Identificación de variables explicativas: Nos ayuda a crear un modelo
donde se seleccionen las variables que puedan influir en la
respuesta, descartando las que no aporten información.
▪ Detección de interacciones: entre variables independientes que
afectan a la variable respuesta.
▪ Identificación de variables confusoras: Aunque es un problema difícil,
es de interés en investigación no experimental.

. Supongamos que estamos interesados en


encontrar un hábitat adecuado para la familia de los
escarabajos tigre (Cicindela dorsalis), que viven en
playas arenosas de la costa atlántica de
Norteamérica. Un posible procedimiento a seguir
sería acudir a diferentes playas en las que habitase
la especie y medir en ellas la densidad del
escarabajo (Y) junto con distintos factores bióticos
y abióticos (exposición al oleaje, tamaño del grano
de arena, densidad de otros organismos,) Un modelo de regresión múltiple nos
daría una ecuación para relacionar la densidad del escarabajo con el resto de
variables, de modo que si acudimos a una nueva playa en la que no hay
escarabajos y medimos el resto de factores podríamos predecir la densidad
esperada de escarabajos al introducir la especie.
La regresión múltiple también nos puede servir para entender la relación
funcional entre la variable dependiente y las variables independientes y estudiar
cuáles pueden ser las causas de la variación de Y. Por ejemplo, si planteamos
un modelo de regresión lineal simple que explique la densidad de escarabajo en
función del tamaño de la arena, seguramente encontremos una relación
significativa entre ambas variables. Y lo mismo si planteamos un modelo de
regresión lineal simple que explique la densidad en función de la exposición al
oleaje (pese a que seguramente el oleaje no sea el causante de los cambios en
la densidad del escarabajo y lo que esté pasando es que la exposición al oleaje
esté altamente correlacionada con el tamaño de la arena). La regresión múltiple
nos permite controlar este tipo de situaciones ya que podremos determinar si,
manteniendo las mismas condiciones en el tamaño de arena, la exposición al
oleaje realmente afecta a la densidad de la especie.

14
Aplicación de la regresión lineal múltiple en Economía
Permite trabajar con una variable a nivel de intervalo o razón, así también se
puede comprender la relación de dos o más variables y nos permitirá relacionar
mediante ecuaciones, una variable en relación de la otra variable llamándose
regresión múltiple. Casi constantemente en la práctica de la investigación
estadística, se encuentran variables que de alguna manera están relacionados
entre sí por lo que es posible que una de las variables pueda relacionarse
matemáticamente en función de otra u otras variables, aplicando la regresión
lineal múltiple en economía.

En los negocios y en la economía


La regresión y correlación múltiple son dos técnicas
estadísticas que se pueden aplicar para solucionar
problemas comunes de los negocios, en donde se
desee conocer la relación existente entre una
variable dependiente y varias variables
independientes.

15
Para los negocios y la economía
Por lo que para las áreas de
economía y negocio es una
herramienta de gran utilidad que
permite analizar una gran
cantidad de datos sobre la
realidad económica y establecer
la relación que existe entre las
variables en estudio que permita
tomar decisiones sobre una
situación específica.

Aplicaciones de la regresión múltiple en la vida cotidiana.


Algunos ejemplos en el área de los negocios en
donde se aplica la herramienta de regresión múltiple,
son en el caso de un gerente de ventas que desea
conocer la relación entre las ventas, la inversión
realizada en publicidad y el espacio del local.

Otro ejemplo, puede ser con los economistas


que desean conocer la relación entre el ahorro
de las personas, su nivel de ingresos y las tasas
de interés ofrecidas por los bancos.

16
APLICACIÓN DE LA REGRESIÓN LINEAL A LA INGENIERIA QUÍMICA.
La aplicación del presente tema de estudio en la carrera de Ingeniería Química
es muy basta, por ejemplo, para hallar la concentración de un elemento que es
uno de los parámetros de mayor importancia en los procesos químicos
aplicados en la industria. Esta cuantificación se puede obtener mediante un
espectrofotómetro, dispositivo que requiere se calibrado. Para ello se elabora
una recta de calibración que se obtiene a partir de la correlación entre la
absorbancia de un patrón y la concentración de la sustancia a controlar,
también se puede utilizar en la evaluación de las constantes en un modelo de
promedio de crecimiento de saturación que caracteriza a la cinética microbial,
entre otros muchos ejemplos por eso a continuación se explicarán 2 ejemplos con
Regresión Lineal Simple y Regresión Lineal Múltiple.

Aplicación a la Ing. química


Transmisión de calor en una tubería
La transmisión de calor a través de tuberías se sabe que el número de Nusselt
(Nu) es función del número de Reynolds y del número de Prandlt:

Una correlación ampliamente utilizada es la ecuación sugerida por Sieder y Tate:

Los coeficientes de la anterior ecuación se han obtenido por correlación de


muchos datos experimentales. Aunque en general la anterior ecuación se puede
escribir como

𝑁𝑢 = 𝑎𝑅𝑒 𝑏 𝑃𝑟 𝑐
𝐷𝑜𝑛𝑑𝑒 𝑎, 𝑏, 𝑐 𝑠𝑜𝑛 𝑝𝑎𝑟𝑎𝑚𝑒𝑡𝑟𝑜𝑠 𝑎𝑗𝑢𝑠𝑡𝑎𝑏𝑙𝑒𝑠
Para los siguientes datos experimentales obtenidos en una tubería de ¾ de
pulgada de diámetro externo a. compruebe la ecuación original de Sieder y Tate.
Utilice una correlación lineal múltiple para hallar los parámetros a, b, c. Y calcule
y represente los errores obtenidos en esta correlación

17
18
Solución por el método de Regresión lineal múltiple:
Primero linealizamos la ecuación tomando logaritmos. Así:
𝑁𝑢 = 𝑎𝑅𝑒 𝑏 𝑃𝑟 𝑐
log(𝑁𝑢) = log(𝑎) + 𝑏𝑙𝑜𝑔(𝑅𝑒) + 𝑐𝑙𝑜𝑔(Pr 𝑖)
𝑦 = 𝐴 + 𝑏𝑋1 + 𝑐𝑋2 + 𝑒
Donde:
“Y” variable respuesta o dependiente.
“x1.x2” variables independientes o regresores.
“e” perturbación aleatoria
Dispondremos de una muestra con dos observaciones” Re y Pr” número de
Reynolds y del número de Prandlt que son valores relacionados con otras
propiedades del objeto.

Reunimos estas 2 condiciones con ayuda de vectores y matrices en la forma:

Colocamos los 16 datos en una tabla de Excel relacionando los términos para
hallar estos valores “X1X2”,”X1.X1”,”X2.X2”; “X1Y”, “X2Y”, lo cual nos permitirá
formar la matriz y hallar las constantes a, b,c de la ecuación lineal.

19
Ajuste de datos en Excel

Con las sumatorias de los datos armamos la matriz.

Obtenemos las constantes:

20
Quedando nuestra ecuación lineal de la forma.

𝑵𝒖 = 𝟐𝟑𝟓. 𝟖𝟖𝒙𝑹𝒆𝟎.𝟎𝟑𝟓𝟎𝟏 𝒙𝑷𝒓−𝟎.𝟐𝟒𝟏𝟗𝟔𝟒

La representación de los errores utilizando la ecuación original y la obtenida por


el ajuste experimental es la siguiente:

En azul aparecen los errores de la correlación de Sieder y Tate, y en rojo los


errores cuando se ajustan los datos experimentales.

21
Coeficiente de determinación R^2

0.183075
𝑅 2 = 1 − (274195.09) =0.999999332

Una medida de ajuste en el analisis de datos es el Coeficiente de determinacion


R^2 ,el cuadrado del coeficiente de correlacion multiple que se trata de una
medida estandarizada que toma valores entre cero y uno determinando la
presicion con que se ajustan los puntos de los datos.

22
4. EJEMPLOS DE CALCULO

4.1. El Servicio Interno de Contribuciones de PERÚ está tratando de


estimar la cantidad mensual de impuestos no pagados descubiertos
por su departamento de auditorías. En el pasado, el PERÚ estimaba
esta cantidad con base en el número esperado de horas de trabajo de
auditorías de campo. En los últimos años, sin embargo, las horas de
trabajo de auditorías de campo se han convertido en un pronosticador
errático de los impuestos no pagados reales. Como resultado, la
dependencia está buscando otro factor para mejorar la ecuación de
estimación. El departamento de auditorías tiene un registro del número
de horas que usa sus computadoras para detectar impuestos no
pagados. ¿Podríamos combinar esta información con los datos
referentes a las horas de trabajo de auditorías de campo y obtener una
ecuación de estimación más precisa para los impuestos no pagados
descubiertos por cada mes? (Levin, 2004, p. 574).

El ejemplo nos presenta la propuesta de si se puede adicionar a su


modelo antiguo (Y – X1) una variable independiente más, que vendría
a ser las Horas en computadores para detectar impuestos no pagados.

Lo que se venía haciendo era determinar los impuestos reales no


pagados descubiertos en base a horas de trabajo de auditorías de
campo, entonces al analizar, este sería un modelo de regresión lineal
simple y para esto utilizaremos una herramienta importante que
vendría ser la regresión que viene implementada en el mismo Excel.

Presentaremos el gráfico de los impuestos no pagados con las horas


de trabajo de auditorías.

23
Ahora para poder analizar más realizaremos los siguientes pasos:

24
Procederemos a insertar los datos de X1 e Y, una vez hecho esto
aceptamos y por consiguiente nos arroja una hoja de cálculo de
forma automática.

Una observación que se puede tomar en cuenta es cuál es el valor


del coeficiente de determinación que tomaremos en cuanta, si bien
sabemos este es un modelo lineal simple y por ende tomaremos el
valor de R2, sin embargo, nosotros estamos buscando añadir una
nueva variable independiente por lo cual ya no sería un caso simple
sino un modelo de regresión múltiple, y se sabe que el valor de R 2
tiende a incrementarse hacia 1 a medida que se van añadiendo más
variables independientes, por ende para amortiguar este efecto
utilizaremos el R2 ajustado ya que no sucede dicho efecto.

De la misma manera se hace un análisis si solo se aplicara el


número de horas en computadora como variable independiente en
referencia a los impuestos reales no pagados.

Realizamos los mismos pasos que con la variable anterior para tener
datos más a fondo.

25
Y de la misma manera será el valor del R2 ajustado el que se toma y
cuenta y vemos que es mayor al valor del R2 con respecto a la
primera variable.

Ahora realizaremos el análisis con ambas variables:

Observamos que el valor del coeficiente de determinación ajustado


aumentó quiere decir que este modelo está mucho más acertado que
los tomando ambas variables por separado.

Ahora observamos que tenemos el valor de intercepción de X1 y X2,


que viene a ser la ordenada “Y”.

26
Reemplazaremos estos datos en el modelo general de regresión
lineal múltiple.

Por ende, éste vendría a ser el nuevo modelo utilizando ambas


variables independientes.

4.2. Una inmobiliaria especializada en alquilar apartamentos para


estudiantes universitarios ha observado con preocupación que al
pasar de los semestres se han alquilado menos habitaciones. El
gerente de la inmobiliaria afirma que se debe el aumento de
inseguridad del sector, pero también piensa que se puede deber al
aumento en los costos en las matriculas que pagan los estudiantes,
generando que busquen alternativas de viviendas mas económicas.

El gerente ha suministrado la siguiente información a un ingeniero al


que contrato para explicar el fenómeno y para que genere un
pronóstico para el próximo año (Cortes D., 2015. Recuperado de:
[Link]

Índice de Costo medio del Número de Unidades de


Semestre inseguridad semestre (S/.) estudiantes habitaciones alquiladas
2015-1 0.075 3100 7021 650
2015-2 0.079 3200 6756 640
2016-1 0.088 3900 6751 639
2016-2 0.093 3800 7141 610
2017-1 0.093 3850 6720 607
2017-2 0.099 3900 7180 590
2018-1 0.081 3950 6921 599
2018-2 0.079 3990 6789 602
2019-1 0.1 4000 7075 582
2019-2 0.101 4000 6774 580

27
INDICE DE INSEGURIDAD VS.
NÚMERO DE HABITACIONES
ALQUILADAS
650
640
y = -1867.1x + 775.7
630 R² = 0.5321
620
610
600
590
580
0.075 0.08 0.085 0.09 0.095 0.1

Costo del semestre vs. Número de


habitaciones alquiladas
660
y = -0.06x + 835.9
650 R² = 0.6408
640
630
620
610
600
590
580
570
3100 3300 3500 3700 3900 4100

ESTUDIANTES MATRICULADOS VS.


NÚMERO DE HABITACIONES
ALQUILADASy = -0.0328x + 836.48
R² = 0.0543
640
620
600
580
6720 6820 6920 7020 7120

28
29
5. REGRESIÓN LINEAL MULTIVARIABLE MODELO DE SEGUNDO
ORDEN

considérese el modelo de segundo orden con interacción:

---------------------(3.7)

Si se igualan 𝑥3 = 𝑥1 2 , 𝑥4 = 𝑥4 2 ,𝑥5 = 𝑥1 𝑥2 ,𝛽3= 𝛽11, 𝛽4 = 𝛽22 y 𝛽5 = 𝛽12 se podrá


escribir la ecuación (3.7) como un modelo de regresión lineal múltiple, como
sigue:

La figura muestra la gráfica tridimensional y la gráfica de curvas de nivel


correspondiente
Para

30
Estas gráficas indican que el cambio esperado de y cuando x, cambia (por
ejemplo) una unidad, es una función de 𝑋1 y 𝑋2 a la vez. Los términos cuadráticos
y de interacción en este modelo producen una función en forma de colina.
Dependiendo de los valores de los coeficientes de regresión, el modelo de
segundo orden con interacción es capaz de tomar una gran variedad de formas,
por lo que es un modelo de regresión muy flexible.
En la mayor parte de los problemas del mundo real no se conocen los valores de
los parámetros (los coeficientes 𝛽𝑖 ) de regresión, ni la varianza del error 𝜎 2 , y se
deben estimar a partir de datos muéstrales. La ecuación o modelo de regresión
ajustada se suele usar para pronosticar observaciones futuras de la variable de
respuesta y, o para estimar la respuesta media a determinados valores de las
y's.

31
6. CONCLUSIÓN

La presente investigación se ha dedicado al estudio de la regresión lineal


multivariable empleando modelos lineales o de primer orden y modelos de
segundo orden. Cuando hablamos de regresión lineal múltiple se refiere a una
variable dependiente y dos o más variable independiente como se presentó en
el ejercicio.

• Al analizar los datos nos dimos cuenta que los puntos (datos de los
problemas) si están muy cerca de la lineal de tendencia, esto quiere decir,
que si existe una relación entre estas variables, y más al analizar el
coeficiente de determinación 𝑅 2 nos comprueba que el análisis es
acertado.
• Lo cual en el mundo de los negocios es de vital importancia, para predecir
escenarios futuros reduciendo el grado de incertidumbre en la toma de
decisiones.

32
7. BIBLIOGRAFIA

✓ Rojo Abuín J.M, (2007), Regresión lineal múltiple, España, Laboratorio de


Estadística
✓ De La Fuente Fernández S.D, (2011), Regresión múltiple; España
✓ Ezequiel Uriel, (2013), Regresión lineal múltiple: estimación y propiedades,
España, Universidad de Valencia
✓ López M.T y Corral N, (2014), Regresión Lineal Múltiple, España, Universidad
de Oviedo
✓ Moreno P, Rodríguez Poo J.M y Saberon A, (2016), El Modelo de Regresión
Lineal Múltiple: inferencia y validación, España, Universidad de Cantabria
✓ Steven Chapra, Raymond Canales (2013) , métodos numéricos para ingenieros
(quinta edición ) , México
✓ Documentos de trabajo en Economía Aplicada. Universidad de Granada. España
✓ Joaquín Amat Rodrigo Julio (2016), Introducción a la Regresión Lineal Múltiple.
✓ Barón F.J, Téllez F., Regresión Múltiple. Recuperado de
[Link]
✓ Gonzáles K., Villegas A. y Sánchez L, Aplicación de la regresión lineal
múltiple en Economía, Authorea. Recuperado de
[Link]
aplicaci%C3%B3n-de-la-regresi%C3%B3n-lineal-m%C3%BAltiple-en-
econom%C3%ADa.
✓ Barón F.J. Universidad de Málaga. Unidad docente, Matemática aplicada
y estadística. Artículo sobre “Regresión lineal”. Málaga, España.
Consultado el 15/11/2014. Recuperado de
[Link]
o [Link].
✓ Regresión Lineal Múltiple (2011-2012). Recuperado de
[Link]
DPTO/MATERIALES/Mat_50140128_RegresionMultiple.pdf.
✓ Ruiz D., Regresión Lineal Múltiple.

33

También podría gustarte