100% encontró este documento útil (1 voto)
473 vistas14 páginas

Fórmulas de Regresión Lineal Simplificadas

Este documento resume fórmulas clave de la regresión lineal, incluyendo la covarianza, el coeficiente de correlación, y los parámetros A y B de la ecuación de regresión lineal. Explica que el método de mínimos cuadrados produce la línea de regresión donde la suma de los cuadrados de los errores es mínima. También interpreta los parámetros A y B y presenta varias ecuaciones de regresión lineal.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
100% encontró este documento útil (1 voto)
473 vistas14 páginas

Fórmulas de Regresión Lineal Simplificadas

Este documento resume fórmulas clave de la regresión lineal, incluyendo la covarianza, el coeficiente de correlación, y los parámetros A y B de la ecuación de regresión lineal. Explica que el método de mínimos cuadrados produce la línea de regresión donde la suma de los cuadrados de los errores es mínima. También interpreta los parámetros A y B y presenta varias ecuaciones de regresión lineal.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

1

Ing. Mario Marañón Álvarez

RESUMEN DE FORMULAS DE REGRESION LINEAL

LA COVARIANZA: La covarianza indica el sentido de la correlación entre las variables


Si σxy > 0 la correlación es directa.
Si σxy < 0 la correlación es inversa.
La covarianza presenta como inconveniente, el hecho de que su valor depende de la escala elegida para los
ejes. Es decir, la covarianza variará si expresamos la altura en metros o en centímetros. También variará si
el dinero lo expresamos en euros o en dólares.
∑ 𝑋𝑌 ∑(𝑋 − 𝑋̅)(𝑌 − 𝑌̅))
𝐶𝑂𝑉𝑋𝑌 = − 𝑋̅𝑌̅ =
𝑛 𝑛
COEFICIENTE DE CORRELACION LINEAL

El Coeficiente de correlación lineal “r” mide el grado de intendsidad de la relación lineal entre las variables X, Y
Formulas del coeficiente de correlacion lineal:
𝑛 ∑ 𝑋𝑌 − ∑ 𝑋 ∑ 𝑌
𝑟=
√𝑛 ∑ 𝑋 2 − (∑ 𝑋)2 √𝑛 ∑ 𝑌 2 − (∑ 𝑌)2

∑(𝑋−𝑋̅ )2 (𝑌−𝑌
̅ )2
̅ 𝑌̅
∑ 𝑋𝑌−𝑛 𝑋 𝐶𝑂𝑉𝑋𝑌 𝐶𝑜𝑣𝑋𝑌 𝑛
𝑟= 𝑟= = =
√𝑛 ∑ 𝑋 2 −𝑛 𝑋̅ 2 √∑ 𝑌 2 −𝑛 𝑌̅ 2 𝜎𝑋 𝜎𝑌 𝑆𝑋 𝑆𝑌

̅ )2 ∑(𝑌−𝑌
∑(𝑋−𝑋

̅ )2
𝑛 𝑛

𝑉𝑎𝑟𝑖𝑎𝑞𝑐𝑖ó𝑛 𝐸𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎 𝑆𝐶𝑅 ∑(𝑌̂−𝑌̅)2 𝑆𝑋


𝑟 = ±√ = ±√ = ±√∑(𝑌−𝑌̅ 𝑟=𝐵
𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑡𝑜𝑡𝑎𝑙 𝑆𝐶𝑇 )2 𝑆𝑌

METODO DE MINIMOS CUADRADOS (Demostración sistema normal ecuaciones)

Cuando se tiene un diagrama de dispersión, se comprende por ajustar a una curva o


ajuste de curva, el obtener una ecuación de dicha curva tal que se aproxime a todos los
puntos.

Para el ajuste de curvas de un diagrama de dispersión a una curva, se emplea el método


matemático llamado: “mínimos cuadrados”.

Dado el diagrama de dispersión, formado por los pares de puntos: (Xi , Yi)

Observación en la gráfica; para cierto valor de


(𝑋1 , 𝑌1 ) se tiene una diferencia D1; (X2,Y2) tiene
la diferencia D2,…, en algunos casos la
diferencia es positiva y en otros es negativa.

Una medida de la separación entre los puntos


y curva obtenida es:

𝑆 = 𝐷12 + 𝐷22 + 𝐷32 + ⋯ + 𝐷𝑛2


2
Ing. Mario Marañón Álvarez

El cuadrado asegura que las diferencias serán siempre positivas, además se debe tratar
que S sea siempre lo más pequeño o mínimo posible, se llama curva de mínimos
cuadrados, porque se está considerando el mínimo del cuadrado de la desviación S. Si se
ajusta una curva con el criterio de que S sea el mínimo, se llama curva de mínimos
cuadrados.

Se llama recta de ajuste por mínimos cuadrados a aquella recta que se obtiene bajo el
procedimiento de que la suma de desviaciones al cuadrado

𝑆 = 𝐷12 + 𝐷22 + 𝐷32 + ⋯ + 𝐷𝑛2 sea mínima.

Demostración:

Demostrar que para obtener la recta que representa el mínimo error respecto a los
puntos del diagrama de dispersión, debe satisfacer el sistema normal de ecuaciones.

𝑆 = 𝐷12 + 𝐷22 + 𝐷32 + ⋯ + 𝐷𝑛2

𝑆 = (𝑦 − 𝑦̂)2

𝑆 = (𝑦 − (𝐴 + 𝐵𝑥))2 = (𝑦 − 𝐴 − 𝐵𝑥)2

Considerando a S como una función continúa de dos variables (A, B).

Luego

Para la ecuación 1 tenemos:


𝜕𝑆
Derivar parcialmente e igualar a cero. = ∑ 2(𝑦 − 𝐴 − 𝐵𝑥)(−1) = 0
𝜕𝐴

Luego tenemos ∑ 2(𝑦 − 𝐴 − 𝐵𝑥)(−1) = 0

Multiplicar 2 (-1) ∑ −2(𝑦 − 𝐴 − 𝐵𝑥) = 0

Constante fuera de Σ −2 ∑(𝑦 − 𝐴 − 𝐵𝑥) = 0

Luego – 2 pasa al otro miembro ∑(𝑦 − 𝐴 − 𝐵𝑥) = 0(−2)

Propiedad de Σ, transponer el término ∑ 𝑦 = ∑(𝐴 + 𝐵𝑥)

Propiedad de Σ ∑ 𝑦 = ∑ 𝐴 + ∑ 𝐵𝑥

Constante fuera Σ ∑𝑦 = 𝐴∑1 +𝐵∑𝑥

La Σ de constante es n ∑ 𝒚 = 𝑨𝒏 + 𝑩 ∑ 𝒙 Ecuación 1

Par la ecuación 2 tenemos:


3
Ing. Mario Marañón Álvarez

𝜕𝑆
En la otra derivada = ∑ 2(𝑦 − 𝐴 − 𝐵𝑥)(−𝑥) = 0
𝜕𝐵

El signo por 2 ∑ −2(𝑦 − 𝐴 − 𝐵𝑥)(𝑥) = 0

Constante fuera de Σ −2 ∑(𝑦𝑥 − 𝐴𝑥 − 𝐵𝑥 2 ) = 0

Multiplicando ∑(𝑦𝑥 − 𝐴𝑥 − 𝐵𝑥 2 ) = 0

Factorizando signo ∑(𝑦𝑥 − (𝐴𝑥 + 𝐵𝑥 2 )) = 0

Propiedad de Σ ∑ 𝑦𝑥 − ∑(𝐴𝑥 + 𝐵𝑥 2 ) = 0

Transposición ∑ 𝑦𝑥 = ∑(𝐴𝑥 + 𝐵𝑥 2 )

Propiedad Σ ∑ 𝑦𝑥 = ∑ 𝐴𝑥 + ∑ 𝐵𝑥 2

Constante fuera de Σ ∑ 𝒚𝒙 = 𝑨 ∑ 𝒙 + 𝑩 ∑ 𝒙𝟐 Ecuación 2


Luego el sistema normal de ecuaciones es:

Ecuación 1: ∑ 𝒚 = 𝑨𝒏 + 𝑩 ∑ 𝒙
Ecuación 2: ∑ 𝒚𝒙 = 𝑨 ∑ 𝒙 + 𝑩 ∑ 𝒙𝟐

Si resolvemos este sistema obtenemos los valores A, B que son los parámetros de la
ecuación lineal y= A + B x

FORMULAS DE LOS PARAMETROS


Para hallar A, B tenemos: Resolviendo el sistema normal de ecuaciones:
∑𝑌 = 𝐴𝑛 + 𝐵 ∑ 𝑋

∑ 𝑋𝑌 = 𝐴 ∑ 𝑋 + 𝐵 ∑ 𝑋 2

De este sistema obtenemos fórmulas para los parámetros A, B


Si la ecuación ∑ 𝑌 = 𝐴𝑛 + 𝐵 ∑ 𝑋 la dividimos entre “n” tenemos: 𝐴 = 𝑌̅ − 𝐵𝑋̅

Luego 𝐴 = 𝑌̅ − 𝐵𝑋̅ sustituyendo en ∑ 𝑋𝑌 = 𝐴 ∑ 𝑋 + 𝐵 ∑ 𝑋 2 tenemos:

∑ 𝑋𝑌 − 𝑛 𝑋̅ 𝑌̅
𝐵=
𝑛 ∑ 𝑋 2 − 𝑛 𝑋̅ 2

Luego la ecuación de estimación es: Ŷ= A + BX. Otras fórmulas:

𝑛 ∑ 𝑋𝑌−∑ 𝑋 ∑ 𝑌 ̅ 𝑌̅
∑ 𝑋𝑌−𝑛 𝑋 𝐶𝑂𝑉𝑋𝑌 𝐶𝑜𝑣𝑋𝑌 𝑆𝑋𝑌 ∑(𝑋−𝑋̅)(𝑌−𝑌̅)
𝐵= 𝑛 ∑ 𝑋 2 − (∑ 𝑋)2
𝐵 = 𝑛 ∑ 𝑋 2−𝑛 𝑋̅ 2 𝐵 = 2
𝜎𝑋
= 2
𝑆𝑋
= 2
𝑆𝑋
𝐵= ∑(𝑋−𝑋̅)2

∑ 𝑌−𝐵 ∑ 𝑋
𝐴= 𝑛
𝐴 = 𝑌̅ − 𝐵𝑋̅

LA RECTA DE REGRESION SIEMPRE CONTIENE AL PUNTO (𝑋̅, 𝑌̅), PUNTO LLAMADO CENTROIDE
4
Ing. Mario Marañón Álvarez

Interpretación de los coeficientes ordenada al origen y pendiente:


Interpretación de la ordenada al origen A:
Indica el valor promedio de la respeuesta Y cuando X es cero.
Interpretación de la pendiente B:
Indica el cambio promedio en la variable respuesta Y cuando X se incrementa en una unidad.

ECUACIONES DE REGRESION LINEAL:


𝑌 = 𝐴+𝐵𝑋

(𝑌 − 𝑌̅) = 𝐵(𝑋 − 𝑋̅)


𝐶𝑂𝑉
(𝑌 − 𝑌̅) = 2𝑋𝑌 (𝑋 − 𝑋̅)
𝜎𝑋

𝑆 𝑆
𝑌̂ = 𝑌̅ + 𝑟 (𝑆𝑌 ) 𝑋 − 𝑟 (𝑆𝑌 ) 𝑋̅
𝑋 𝑋

FORMULAS REGRESION LINEAL CON DESVIACIONES

El método de mínimos cuadrados hace que la suma de cuadrados de errores sea mínima; es decir:
∑(𝑌 − 𝑌̅)2 = 𝑀í𝑛𝑖𝑚𝑎 Y= A + B X

SCX =SSX= Suma de Cuadrados de X


SCY =SSY= suma de Cuadrados de Y
SCXY=SSXY= Suma de Cuadrados Cruzados

(∑ 𝑋)2
𝑆𝐶𝑋 = 𝑆𝑆𝑋 = ∑(𝑋 − 𝑋̅)2 = ∑ 𝑋 2 −
𝑛
2
(∑ 𝑌)
̅ 2 2
𝑆𝐶𝑌 = 𝑆𝑆𝑌 = ∑(𝑌 − 𝑌) = ∑ 𝑌 −
𝑛

∑𝑋∑𝑌
𝑆𝐶𝑋𝑌 = 𝑆𝑆𝑋𝑌 = ∑(𝑋 − 𝑋̅)(𝑌 − 𝑌̅) = ∑ 𝑋𝑌 − = ∑ 𝑋𝑌 − 𝑛𝑋̅𝑌̅
𝑛

Cálculo de los parámetros:

𝑆𝑆𝑋𝑌 𝐶𝑂𝑉𝑋𝑌 𝜎𝑋 𝑆
𝐵= 𝐴 = 𝑌̅ − 𝐵𝑋̅ 𝐵= 2 𝑟=𝐵 𝐵 = 𝑟 𝑆𝑌 =
𝑆𝑆𝑋 𝜎𝑋 𝜎𝑌 𝑋

Error estándar de estimación= Se o Error típico de estimación= Se

MSE= ECM= Error Cuadrático Medio SSE= SCE= Suma Cuadrados Error= Σ (Y – Ŷ)2

2
(𝑆𝑆𝑌)2 𝑆𝑆𝐸 ∑(𝑌−𝑌̂)
𝑆𝑆𝐸 = 𝑆𝐶𝐸 = 𝑆𝑆𝑌 − 𝑀𝑆𝐸 = 𝑛−2 𝑆𝑒 = √ = √𝑀𝑆𝐸
𝑆𝑆𝑋 𝑛−2

Interpretación del error estándar de estimación Se

Por ejemplo: Si tenemos: Y= 4,4 + 1,08 X y se calculo: Se= 0,907 y para X=10, se estimo : Ŷ= 15,2; entonces
obtenemos el intervalo: Ŷ ± Se: I= [16.11 , 14.29 ]
5
Ing. Mario Marañón Álvarez

Ŷ ± Se  15,2 ± 0,907 Implica que 68,3 % de los puntos caen entre estas rectas paralelas a Y= 4,4 + 1,08 X.
31,7% restante de las observaciones estarían fuera de este intervalo [16.11 , 14.29 ].

El error típico “Se” es similar a la desviación estándar,


mientras más dispersos esten los datos originales mayor
será Se.
68,3% es Ŷ ±Se,
95,5% es Ŷ ±2Se,
99,7% es Ŷ ±3Se

Recordar que Ŷ= 15,2 es la estimación del valor medio que


obtendríamos para Y si pusieramos X= 10. En nuestro
caso, el 68,3% de las veces que ocurre X= 10, el valor Y
varía entre 14,29 y 16,11. El 31,7% restante esta fuera de
este intervalo.

BONDAD DE AJUSTE r, R2

Descomposición de la varianza: (Variación= Desviación).

Desviación Total = Desviación Explicada + Desviación No Explicada


(𝑌 − 𝑌̅) = (𝑌̂ − 𝑌̅) + (𝑌 − 𝑌̂)

En la gráfica veremos las desviaciones respectivas

𝑆𝑆𝑇 = 𝑆𝐶𝑇 = ∑(𝑌 − 𝑌̅)2

𝑆𝑆𝑅 = 𝑆𝐶𝑅 = ∑(𝑌̂ − 𝑌̅)2

𝑆𝑆𝐸 = 𝑆𝐶𝑇 = ∑(𝑌 − 𝑌̂)2


SST = SSR + SSE

Si dividimos entre “n” se dice varianza.


6
Ing. Mario Marañón Álvarez

𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝐸𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎 𝑆𝑆𝑅 ∑(𝑌̂−𝑌̅)2 (𝑆𝑆𝑋𝑌)2 𝑆𝑆𝑅


𝑅2 = = 𝑆𝑆𝑇 = ∑(𝑌−𝑌̅)2 = 𝑆𝑆𝑋 𝑟 = ±√
𝑆𝑆𝑇
= √𝑅 2
𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑇𝑜𝑡𝑎𝑙 𝑆𝑆𝑌

SIGNIFICADO DE LOS COEFICIENTES r y R2

R2 Mide el poder explicativo del modelo de regresión lineal; es decir, la parte de la variación de Y explicada
por la variación de X.

El r= coeficiente de correlación mide el grado de relación entre X, Y con la ecuación de regresión.

ESTIMACIONES CON INTERVALOS

1° Estimación del intervalo para para el valor medio de Y, dado un vaor de X; es decir, podría interesarnos
estimar la media poblacional para todos los valores de Y (y no solo “n=15” como la muestra) cuando X es
igual a un valor dado.

Por ejemplo podría interesarnos el promedio de todos ventas de todos los meses en que gastamos 1000 $us en
publicidad (es decir X= 1000) es lo que se llama la media condicional. Este intervalo es una estimación del
valor medio o promedio de Y para todos los valores en que X es igual a una cantidad específica

2° Estimación de un intervalo de confianza para estimar un valor único de Y cuando X toma un valor
específico. A este estimador se llama INTERVALO PREDICTIVO. Este intervalo estima Y en cualquier
valor único de X.

1° INTERVALO PREDICTIVOS PARA MEDIA CONDICIONAL DE Y


Estimación de intervalo para la media condicional de Y,  Y|X = Media poblacional de todos los valores de Y
con la condición de que X sea igual a un valor específico. El intervalo que calculamos aquí es una
estimación de la media de todos los numerososo valores de Y con la condición de que X= 10 muchas veces
(por ejemplo).
Tenemos dos interpretaciones:
a) Si hacemos X= la misma cantidad muchas veces obtendremos muchos valores distintos de Y.
Entonces podremos confiar en un 95% en que la media de esoso valores de Y ( Y|X)caerá dentro del
intervalo especificado.
b) Si tomaramos muchas muestras diferentes de valores de X, Y y construyeramos intervalos de
confianza a partir de cada muestra, el 95% de ellos contendría a  Y|X , valor medio verdadero, pero
desconocido de Y cuando X= 10
Para hallar este intervalo primero obtenemos EL ERROR TIPICO DE LA MEDIA CONDICIONAL, la
misión de Sy es tener en cuenta los valores diferentes de los parámetros A, B que resultan del error de
muestreo, y se calcula:
1 ̅ )2
(𝑋−𝑋
𝑆𝑌 = 𝑆𝑒 = √𝑛 + 𝑆𝑆𝑋

Se= Es el error estándar o típico de la estimación


X= Es un valor dado de la variable independiente
El intervalo de confianza para la media condicional es: 𝐼𝐶 𝑝𝑎𝑟𝑎 𝜇𝑌|𝑋 = 𝑌̂ ± 𝑡𝑛−2 𝑆𝑌
7
Ing. Mario Marañón Álvarez

Interpretación se puede confiar al 95% en que la media poblacional verdadera de Y se encuentra entre 𝑌̂ ±
𝑡𝑛−2 𝑆𝑌 Para todo aquellos valores de X
2° INTERVALO PREDICTIVO PARA UN VALOR ÚNICO DE Y

Implica predecir un valor único de Y si X es una cantidad dada una sola vez. El IC predictivo de Y también se presta a
dos interpretaciones, en el caso que los calculos son con el nivel de confianza del 95%:

a) Si ponemos X= a una cantidad s´solo una vez, obtendríamos un único valor resultante de Y. Podemos estar
seguros al 95% de que dicho valor de Y cae dentro del intervalo espacificado.

b) Si tomamos muechas muestra y se utilizase cada una para construir un intervalo de confianza predictivo el
95% de esos intervalos contendrían el verdadero valor de Y.

Para hallar este intervalo predictivo primero se calcula el error típico o estandar de la predicción SYi la fórmula de
cálculo es:
1 (𝑋−𝑋̅ )2
𝑆𝑌𝑖 = 𝑆𝑒 √1 + 𝑛 + 𝑆𝑆𝑋

Luego el intervalo predictivo de un solo valor de Y, YX, es entonces: 𝑌𝑋 = 𝑌̂ ± 𝑡𝑛−2 𝑆𝑌𝑖

Interpretación: Podemos estar seguros en un 95% que con un solo valor de X, el valor único resultante de Y
se encontrará entre 𝑌̂ ± 𝑡𝑛−2 𝑆𝑌𝑖

OTROS AUTORES UTILIZAN LA FORMULA


𝑆 𝑆
𝑌̂ ± 𝑍 𝑛𝑒 𝑌̂ ± 𝑡𝑛−2 𝑒𝑛
√ √

FORMULAS MODELO REGRESION DATOS AGRUPADOS


Sistema normal de ecuaciones, para obetner A, B

Ecuación 1 ∑ 𝑓𝑦 = 𝐴 ∑ 𝑓 + 𝐵 ∑ 𝑓𝑥
Ecuación 2 ∑ 𝑓𝑥𝑦 = 𝐴 ∑ 𝑓𝑥 + 𝐵 ∑ 𝑓𝑥 2

𝑛 ∑ 𝑓𝑥𝑦 − ∑ 𝑓𝑥 ∑ 𝑓𝑦
𝐵=
𝑛 ∑ 𝑓𝑥 2 − (∑ 𝑓𝑥)2

∑ 𝑓𝑦 ∑ 𝑓𝑥 2 − ∑ 𝑓𝑥 ∑ 𝑓𝑥𝑦
𝐴=
𝑛 ∑ 𝑓𝑥 2 − (∑ 𝑓𝑥)2

𝑛 ∑ 𝑓𝑥𝑦 − ∑ 𝑓𝑥 ∑ 𝑓𝑦
𝑟=
√𝑛 ∑ 𝑓𝑥 2 − (∑ 𝑓𝑥)2 √𝑛 ∑ 𝑓𝑦 2 − (∑ 𝑓𝑦)2

∑ 𝑓(𝑥−𝑥̅ )(𝑦−𝑦̅) ∑ 𝑓(𝑥−𝑥̅ )2 ∑ 𝑓(𝑦−𝑦̅)2


𝐶𝑂𝑉𝑥𝑦 = 𝑛
𝜎𝑥 = √ 𝑛
𝜎𝑥 = √ 𝑛

𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎 ∑ 𝑓(𝑦̂ − 𝑦̅)2 𝐶𝑂𝑉𝑥𝑦


𝑟=± √ = ±√ =
𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑡𝑜𝑡𝑎𝑙 ∑ 𝑓(𝑦 − 𝑦̅)2 𝜎𝑥 𝜎𝑦
8
Ing. Mario Marañón Álvarez

1 2 (𝑛 ∑ 𝑓𝑥𝑦 − ∑ 𝑓𝑥 ∑ 𝑓𝑦)2
𝑆𝑒 = 𝑆𝑥𝑦 = √ [𝑛 ∑ 𝑓𝑦 2 − (∑ 𝑓𝑦) − ]
𝑛(𝑛 − 2) 𝑛 ∑ 𝑓𝑥 2 − (∑ 𝑓𝑥)2

FORMULAS COVARIANZAS

DATOS AGRUPADOS

∑ 𝑓(𝑋 − 𝑋̅)(𝑌 − 𝑌̅) ∑ 𝑓𝑋𝑌 − 𝑛𝑋̅𝑌̅ ∑ 𝑓𝑋𝑌


𝐶𝑂𝑉𝑋𝑌 = = = − 𝑋̅ 𝑌̅ =
𝑁 𝑁 𝑁
VARIANZAS

∑ 𝑓(𝑋 − 𝑋̅)2 ∑ 𝑓𝑋 2 − 𝑁𝑋̅ 2 ∑ 𝑓𝑋 2


𝜎𝑋2 = = = − 𝑋̅ 2
𝑁 𝑁 𝑁
DATOS NO AGRUPADOS

∑(𝑋 − 𝑋̅ )(𝑌 − 𝑌̅)


𝐶𝑂𝑉𝑋𝑌 = =
𝑁
∑ 𝑋𝑌−𝑛𝑋̅𝑌̅ ∑ 𝑋𝑌
𝐶𝑂𝑉𝑋𝑌 == 𝑁
= 𝐶𝑂𝑉𝑋𝑌 = 𝑁
− 𝑋̅𝑌̅ =

∑(𝑋 − 𝑋̅ )(𝑌 − 𝑌̅) ∑ 𝑋𝑌 − 𝑛𝑋̅𝑌̅ ∑ 𝑋𝑌


𝐶𝑂𝑉𝑋𝑌 = = = − 𝑋̅𝑌̅ =
𝑁 𝑁 𝑁
DATOS NO AGRUPADOS
∑(𝑋−𝑋̅)2 ∑ 𝑋 2 −𝑁𝑋̅ 2 ∑ 𝑋2
𝜎𝑋2 = 𝑁
= 𝜎𝑋2 = 𝑁
= 𝜎𝑋2 = 𝑁
− 𝑋̅ 2

∑(𝑋 − 𝑋̅)2 ∑ 𝑋 2 − 𝑁𝑋̅ 2 ∑ 𝑋 2


𝜎𝑋2 = = = − 𝑋̅ 2
𝑁 𝑁 𝑁
CALCULO DE LOS PARAMETROS B y A

CALCULO DEL PARAMETRO B

𝐶𝑂𝑉𝑋𝑌 𝐶𝑂𝑉𝑋𝑌 𝑛 ∑ 𝑋𝑌−∑ 𝑋 ∑ 𝑌 𝑆 𝜎𝑋


𝐵= 2 = 𝐵= 2 𝐵= 𝑛 ∑ 𝑋 2 −(∑ 𝑋)2
= 𝐵 = 𝑟 𝑆𝑌 = 𝑟=𝐵
𝑆𝑋 𝜎𝑋 𝑋 𝜎𝑌

∑ 𝑋𝑌
∑ 𝑋𝑌−𝑛𝑋̅𝑌̅ ∑(𝑋−𝑋̅)(𝑌−𝑌̅) −𝑋̅𝑌̅
𝑁
𝐵= ∑ 𝑋 2 −𝑛𝑋̅ 2
= 𝐵= ∑(𝑋−𝑋̅)2
= 𝐵= ∑𝑋 2 =
−𝑋̅ 2
𝑁

∑ 𝑋𝑌
𝐶𝑂𝑉𝑋𝑌 𝑛 ∑ 𝑋𝑌−∑ 𝑋 ∑ 𝑌 𝑆 ∑ 𝑋𝑌−𝑛𝑋̅𝑌̅ ∑(𝑋−𝑋̅)(𝑌−𝑌̅) −𝑋̅𝑌̅
Resumen 𝐵= 2
𝑆𝑋
= 𝑛 ∑ 𝑋 2 −(∑ 𝑋)2
= 𝑟 𝑆𝑌 = ∑ 𝑋 2 −𝑛𝑋̅ 2
= ∑(𝑋−𝑋̅)2
= 𝑁
∑ 𝑋2
=
𝑋 −𝑋̅ 2
𝑁

PARAMETRO A
∑ 𝑌−𝐵 ∑ 𝑋 ∑ 𝑌−𝐵 ∑ 𝑋
𝐴= 𝑛
= 𝐴 = 𝑌̅ − 𝐵𝑋̅ = 𝐴= 𝑛
= 𝑌̅ − 𝐵𝑋̅ =

OTRA MANERA DE OBTENER LA RECTA DE REGRESION


9
Ing. Mario Marañón Álvarez

𝜎 𝜎 𝐶𝑂𝑉𝑋𝑌
𝑌̂ = 𝑌̅ + 𝑅 𝜎𝑌 𝑋 − 𝑟 𝜎𝑌 𝑋̅ 𝑌 − 𝑌̅ = 𝜎2
(𝑋 − 𝑋̅)
𝑋 𝑋

BONDAD DE AJUSTE

𝜎𝑋 𝐶𝑂𝑉𝑋𝑌 𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎 ∑(𝑌̂ − 𝑌̅)2 𝑆𝑆𝑇


𝑟=𝐵 = = ±√ = ±√ =√
𝜎𝑌 𝜎𝑋 𝜎𝑌 𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑇𝑜𝑡𝑎𝑙 ∑(𝑌 − 𝑌)̅ 2 𝑆𝑆𝑅

VARIANZA RESIDUAL= VARIANZA NO EXPLICADA= SUMA DE LOS CUADRADOS DEL ERROR


SCE:

(Se usan para calcular el grado de variación o dispersión que presentan los datos que no quedaron explicados por
la recta de regresión)

2
∑(𝑌 − 𝑌̂)2
𝑆𝑌𝑋 = =
𝑛

2
∑ 𝑌 2 − 𝐴 ∑ 𝑌 − 𝐵 ∑ 𝑌𝑋
𝑆𝑌𝑋 = =
𝑛
2
𝑆𝑌𝑋 = 𝑆𝑌2 (1 − 𝑅2 ) =

2
∑(𝑌 − 𝑌̂)2 ∑ 𝑌 2 − 𝐴 ∑ 𝑌 − 𝐵 ∑ 𝑌𝑋
𝑆𝑌𝑋 = = = 𝑆𝑌2 (1 − 𝑅2 )
𝑛 𝑛
ERROR ESTANDAR DE ESTIMACION

∑(𝑌−𝑌̂)2 ∑ 𝑌 2 −𝐴 ∑ 𝑌−𝐵 ∑ 𝑌𝑋
𝑆𝑒 = 𝑆𝑌𝑋 = √ 𝑛
= 𝑆𝑒 = 𝑆𝑌𝑋 = √ 𝑛
= 𝑆𝑒 = 𝑆𝑌𝑋 = √𝑆𝑌2 (1 − 𝑅2 ) =

∑(𝑌 − 𝑌̂)2 ∑ 𝑌 2 − 𝐴 ∑ 𝑌 − 𝐵 ∑ 𝑌𝑋
𝑆𝑒 = 𝑆𝑌𝑋 = √ =√ = √𝑆𝑌2 (1 − 𝑅2 ) =
𝑛 𝑛

RESUMEN DE FORMULAS DE LA REGRESION LINEAL MULTIPLE

Y= f (Xi), i= 1, n

SI LA ECUACIÓN ES Y= A + B1x1 + B2x2

El sistema normal de ecuaciones es:

ΣY =An + B1 ΣX1 + B2ΣX2

ΣYX1 = A ΣX1 + B1ΣX12 + B2 ΣX1X2

ΣYX2 = A ΣX2 + B1 ΣX1X2 + B2ΣX22


10
Ing. Mario Marañón Álvarez

SI LA ECUACIÓN ES Y= A + B1X1 + B2X2 + B3 X3

El sistema normal de ecuaciones es:

ΣY = An + B1 ΣX1 + B2 ΣX2 + B3 ΣX3

ΣYX1 = A ΣX1 + B1 ΣX12 + B2 ΣX1X2 + B3 ΣX3 X1

ΣYX2 = A ΣX2 + B1 ΣX1X2 + B2 ΣX22 + B3 ΣX3X2

ΣYX3 = A ΣX3 + B1 ΣX1X3 + B2 ΣX2X3 + B3 ΣX32

EL COEFICIENTE DE ESTIMACIÓN

Se emplea para medir la aproximación a un conjunto de datos, o para comparar una


aproximación.

𝛴(𝑦−ŷ)2
Coeficiente e estimación: 𝑆𝑌𝑋 = √
𝑛−2
𝛴(𝑦−ŷ)2
Coeficiente de estimación múltiple poblacional 𝑆𝑃𝑦𝑥 = √ 𝑁

(𝑌−𝑌̅)2
Desviación estándar respecto a y 𝜎𝑌 = √ 𝑁

COEFICIENTE DE CORRELACIÓN, se usa para estimar el grado de relación entre las


variables que se utilizan:

𝑺𝑷𝒀𝑿 𝟐 𝑽𝒂𝒓𝒊𝒂𝒄𝒊ó𝒏 𝒆𝒙𝒑𝒍𝒊𝒄𝒂𝒅𝒂 ∑(𝒚 ̅)𝟐


̂−𝒚
𝒓 = √𝟏 − ( ) 𝒓 = ±√ = ±√∑(𝒚−𝒚̅ 𝟐
𝝈𝒀 𝑽𝒂𝒓𝒊𝒂𝒄𝒊ó𝒏 𝒕𝒐𝒕𝒂𝒍 )

COEFICIENTES DE CORRELACIÓN PARCIAL ENTRE VARIABLES

𝒏 ∑ 𝒚𝒙𝟏 − ∑ 𝒚 ∑ 𝒙𝟏
𝒓𝒚𝒙𝟏 =
√𝒏 ∑ 𝒙𝟐𝟏 − (∑ 𝒙𝟏 )𝟐 √𝒏 ∑ 𝒚𝟐 − (∑ 𝒚)𝟐

𝒏 ∑ 𝒚𝒙𝟐 − ∑ 𝒚 ∑ 𝒙𝟐
𝒓𝒚𝒙𝟐 =
√𝒏 ∑ 𝒙𝟐𝟐 − (∑ 𝒙𝟐 )𝟐 √𝒏 ∑ 𝒚𝟐 − (∑ 𝒚)𝟐

𝒏 ∑ 𝒙𝟏 𝒙𝟐 − ∑ 𝒙𝟏 ∑ 𝒙𝟐
𝒓 𝒙𝟏 𝒙𝟐 =
√𝒏 ∑ 𝒙𝟐𝟏 − (∑ 𝒙𝟏 )𝟐 √𝒏 ∑ 𝒙𝟐𝟐 − (∑ 𝒙𝟐 )𝟐
11
Ing. Mario Marañón Álvarez

CORRELACIÓN PARCIAL ENTRE VARIABLES MATENIENDO CONSTANTE LAS OTRAS


VARIABLES
Ocasionalmente se puede requerir un coeficiente de correlación entre la variable Y con solo
una de la variables independientes considerando constantes las restantes variables
independientes, se puede calcular también el coeficiente de correlación entre un par de
variables independientes.
Para el caso de la ecuación Y= A + Bx1 + Cx2

Tenemos el coeficiente de correlación parcial de y respecto a x1 manteniendo constante a x2


o ignorando absolutamente a x2 es:
𝑟𝑦𝑥1 − 𝑟𝑦𝑥2 𝑟𝑥1 𝑥2
𝑟𝑦𝑥1 ,𝑥2 =
2 )(1 − 𝑟 2 )
√(1 − 𝑟𝑦𝑥 2 𝑥1 𝑥2

Coeficiente de correlación parcial de y respecto a x2 manteniendo constante a x1 o


ignorando absolutamente a x1 es:
𝑟𝑦𝑥2 − 𝑟𝑦𝑥1 𝑟𝑥1 𝑥2
𝑟𝑦𝑥2 ,𝑥1 =
2 )(1 − 𝑟 2 )
√(1 − 𝑟𝑦𝑥 1 𝑥1 𝑥2

Coeficiente de correlación parcial de x1 respecto a x2 manteniendo constante a y o


ignorando absolutamente a y es:
𝑟𝑥1 𝑥2 − 𝑟𝑦𝑥1 𝑟𝑦𝑥2
𝑟𝑥1 𝑥2 ,𝑦 =
2 )(1 − 𝑟 2 )
√(1 − 𝑟𝑦𝑥 1 𝑦𝑥2
12
Ing. Mario Marañón Álvarez
13
Ing. Mario Marañón Álvarez
14
Ing. Mario Marañón Álvarez

También podría gustarte