0% encontró este documento útil (0 votos)
49 vistas13 páginas

Análisis de Covarianza y Regresión Lineal

El documento aborda la covarianza y el coeficiente de correlación de Pearson, explicando cómo se relacionan dos variables y cómo se puede predecir una variable en función de otra. Se discuten conceptos como la relación directa e inversa, así como el análisis de regresión y el método de mínimos cuadrados para ajustar modelos lineales. Además, se mencionan otros coeficientes de correlación y la importancia de la prueba de hipótesis en el análisis estadístico.

Cargado por

Gonzalo Casarin
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
49 vistas13 páginas

Análisis de Covarianza y Regresión Lineal

El documento aborda la covarianza y el coeficiente de correlación de Pearson, explicando cómo se relacionan dos variables y cómo se puede predecir una variable en función de otra. Se discuten conceptos como la relación directa e inversa, así como el análisis de regresión y el método de mínimos cuadrados para ajustar modelos lineales. Además, se mencionan otros coeficientes de correlación y la importancia de la prueba de hipótesis en el análisis estadístico.

Cargado por

Gonzalo Casarin
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

20/04/2012

ESTADÍSTICA APLICADA

Maestría en Administración Pública

Maestra Alma Rosa Herrera Flores

Covarianza
Estadística Aplicada

1
20/04/2012

Asociación entre dos variables


 A la derecha tenemos los datos Cantidad de Recaudación
semanales de la Cruz Roja sobre comerciales (en miles)
1 2 50
 La cantidad de comerciales que se
trasmitieron en TV para cierta 2 5 57
ciudad de México y, 3 1 41
 La recaudación de la colecta anual. 4 3 54
5 4 54

 Estas observaciones pueden ser 6 1 38


representadas en un diagrama 7 5 63
de dispersión (nube de putos). 8 3 48
En ella, cada semana es un punto 9 4 59
cuyas coordenadas son los valores 10 2 46
de las variables.
3

Asociación entre dos variables


 Nuestro objetivo será intentar reconocer a partir del
gráfico si hay relación entre las variables, de qué tipo, y si
es posible predecir el valor de una de ellas en función de la
otra.
 En la siguiente gráfica tenemos la cantidad de comerciales
que pasaron en TV y la recaudación de la colecta de 10
semanas. 65
60
Recaudación

55

50

45

40

35
0 1 2 3 4 5 6
4 Cantidad de comerciales

2
20/04/2012

Relación directa e inversa


330
100
280 Incorrelación 90 Fuerte relación
80 directa.
230
70
180
60
130 50
80 40

30 30
140 150 160 170 180 190 200
140 150 160 170 180 190 200

Para valores de X por encima de la media •Para los valores de X mayores que la media le
tenemos valores de Y por encima y por corresponden valores de Y mayores también.
debajo en proporciones similares. •Para los valores de X menores que la media le
Incorrelación. corresponden valores de Y menores también.
•Esto se llama relación directa o creciente
80 entre X e Y.
70 Cierta relación
60 inversa
50
40
Para los valores de X mayores que la media
30 le corresponden valores de Y menores. Esto
20
10 es relación inversa o decreciente.
0
140 150 160 170 180 190 200
5

Covarianza
 La covarianza entre dos variables, Sxy, nos indica si la
posible relación entre dos variables es directa o inversa.
 Directa Sxy>0
 Inversa Sxy<0
 x  x ( y  y )
i i
S xy  i

 Incorreladas Sxy=0 n

 El signo de la covarianza nos dice si el aspecto de la nube


de puntos es creciente o no, pero no nos dice nada sobre
el grado de relación entre las variables.

3
20/04/2012

Covarianza Cantidad de Recaudación


comerciales (en miles)
 Para nuestro ejemplo de la Cruz x y

Roja tenemos, 1 2 50
2 5 57
 x  3 , y  51
3 1 41
 Sxy= 9.9
4 3 54
65
5 4 54
60
6 1 38
Recaudación

55

50 7 5 63
45
8 3 48
40

35
9 4 59
0 1 2 3 4 5 6
10 2 46
Cantidad de comerciales

Por el diagrama de dispersión podemos decir


7 que la relación entre las variables es directa.

Coeficiente de correlación de Pearson


 El coeficiente de correlación lineal de Pearson entre dos
variables, R, nos indica si los puntos tienen una tendencia
a disponerse alineadamente (excluyendo rectas
horizontales y verticales).

 Tiene el mismo signo que Sxy, por tanto de su R


S xy
signo sabemos si la posible relación es directa SxS y
o inversa.

 R es útil para determinar si hay relación lineal entre dos


variables, pero no servirá para otro tipo de relaciones
8
(cuadrática, logarítmica, etc.).

4
20/04/2012

Propiedades de R
 Es adimensional.
 Solo toma valores entre [-1,1]
 Las variables son incorreladas si y sólo si R=0.
 Relación lineal perfecta entre dos variables si y sólo si R=1 ó R=-1
 excluyendo los casos de puntos alineados horiz. o verticalmente).
 Cuanto más cerca esté R de 1 ó -1, mejor será el grado de relación
lineal (siempre y cuando no existan observaciones anómalas).

Relación inversa Variables Relación directa


perfecta incorreladas perfecta

9 -1 0 +1

Correlaciones positivas
330 130
120
280 110
230 100
90
180 80
70
130 60
50
80 Rr=0,1 40
Rr=0,4
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200

100 100
90 90
80 80
70 70
60 60
50 50
40 Rr=0,8 40 Rr=0,99
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
10

5
20/04/2012

Correlaciones negativas
90 80
80 70
70 60
60 50
50
40
40
30
30
20 20
Rr=-0,5 10
Rr=-0,7
10
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200

80 80
70 70
60 60
50 50
40 40
30 30
20 20
10
R r=-0,95 10
Rr=-0,999
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200
11

Coeficiente de correlación de Pearson


 Si R=0 , no implica forzosamente
que las variables sean independientes.
 Sin embargo, si las variables son
independientes implica incorrelación. Las variables son
independientes.
Hay dependencia
entre las variables.

 Consideraremos que una relación lineal es buena si


R > 0.70 y que si R > 0.40 entonces hay cierta relación
pero no podemos especificarla.

12

6
20/04/2012

Otros coeficientes de correlación


 Cuando las variables en vez de ser numéricas son
ordinales, es posible preguntarse si hay algún tipo de
correlación entre ellas.

 Para estos casos se tienen dos estadísticos:


 ρ (“ro”) de Spearman
 τ (“tau”) de Kendall

 Recuerde que estos estadísticos son análogos a R y los


podremos encontrar en artículos donde las variables no
pueden considerarse numéricas.
13

Análisis de Regresión
Estadística Aplicada

14

7
20/04/2012

Análisis de Regresión
 Algunas razones para estudiar la relación entre dos
variables son:
 Investigar y probar hipotéticamente modelos para un
determinado sistema (biológicos, económicos u otro), y
 Predecir valores de una variable con respecto a otra.

 Un ejemplo de relación que necesitaría ser investigada es:


 Una empresa de electricidad podría usar la relación entre la
temperatura máxima diaria y la demanda de electricidad,
para predecir el consumo de energía para el siguiente mes o
año.
15

Análisis de Regresión
 La relación más simple entre dos variables es una línea
recta. En donde se tienen pares de observaciones
de “x” y “y” donde,
 “y” es la variable dependiente, se asume dependiente
de “x”, y
 “x” es la variable independiente.

Se considera un modelo lineal cuando los parámetros


ocurren de manera lineal, por ejemplo:
y   0  1 x  
16

8
20/04/2012

Modelo de Regresión Lineal Simple


y   0  1 x  

 “y” es una función lineal de “x”


  0 y 1 son los parámetros del modelo y
  es el error entre la observación “y” y su estimación (se
considera una v.a.)
 Para poder utilizar este modelo, se asume que las variables
de error , cumplen los siguientes supuestos:
 Normales con media cero
 Independientes

17
 Con igual varianza σ2

Modelo de Regresión Lineal Simple


Pasos para el análisis de regresión:
1. Identificar la variable independiente (x) y la dependiente (y)
2. Determinar si existe una relación de dependencia razonable
(elaborar un diagrama de dispersión).
3. Determinar el modelo estadístico. yi   0  1 xi  
4. Determinar la ecuación de regresión o modelo ajustado.
yˆ i  ˆ0  ˆ1 xi
Los parámetros, ˆ0 y ˆ1 , se obtienen aplicando el método de
mínimos cuadrados.
5. Determinar si la ecuación de regresión es buena, calculando
18 el coeficiente de correlación de Pearson.

9
20/04/2012

Método de Mínimos Cuadrados


 Este método trata de buscar cuál es la recta que más se
acerca a los puntos observados.
 Utilizando la ecuación de regresión lineal: yˆ i  ˆ0  ˆ1 xi
xi es el valor de la variable independiente para la i-ésima obs.
ˆ 0 es la ordenada al origen de la línea estimada de regresión.
ˆ1 es la pendiente de la línea estimada de regresión.
ŷ i es el valor estimado de la variable dependiente.
240

 Por ejemplo en el gráfico: 180


y = 5x + 60
ˆ0  60 120 y
Lineal (y)
ˆ1  5 60

19 Ecuación: y  60  5x 0
0 10 20 30

Método de Mínimos Cuadrados


 Específicamente con este método se busca la recta que
haga que la distancia entre el valor real y i y el valor
obtenido por la recta ajustada ŷ i sea la más pequeña y así,
la suma de todas estas distancias al cuadrado sea mínima.
n
SSE   ( yi  yˆ i ) 2 240
i 1
180
donde yˆ i  ˆ0  ˆ1 xi y = 5x + 60
120 y
 Se buscan ˆ 0 y ˆ1 tales Lineal (y)

que hagan la suma de los 60

errores lo “más pequeña” 0


0 10 20 30
posible.
20

10
20/04/2012

Método de Mínimos Cuadrados


 Por medio del cálculo diferencial se llega a la siguiente
solución para b1 y b0 que logra minimizar la suma al
cuadrado de los errores (SSE).

b1 
 x y   x  y / n
i i i i
b0  y  b1 x
 x   x  / n
2 2
i i
donde
 xi es el valor de la variable independiente para la i-ésima obs.
 y i es el valor de la variable dependiente para la i-ésima obs.
 x es la media de la variable independiente.
 y es la media de la variable dependiente
 n es la cantidad total de observaciones
21

Coeficientes R y R2
 Como indicador de la intensidad de la relación lineal
entre dos variables “y” y “x”, utilizaremos el coeficiente
de correlación de Pearson.

 Otra manera de conocer la intensidad de la relación


lineal entre dos variables es el coeficiente de
determinación, que es el cuadrado del coeficiente de
correlación, R2, y se puede calcular de la siguiente
forma:
 yˆ  y 2
R2   i
  yi  y 
2

22

11
20/04/2012

Coeficiente de correlación

Diagramas de dispersión típicos para valores


23
aproximados de R

Prueba de Hipótesis
 Una forma más objetiva de probar al modelo es por
pruebas de hipótesis sobre el coeficiente de correlación o
la pendiente de la recta ajustada.
 La pregunta a contestar es si los datos presentan
información suficiente que indique que “y” aumenta
(disminuye) linealmente cuando “x” crece en la región de
observación.
 β1 es el cambio medio en “y” por unidad de cambio en
“x”.
 La hipótesis a probar es: H 0 : 1  0
24 H a : 1  0

12
20/04/2012

Prueba de Hipótesis
 La distribución de la prueba es la t-Student con (n-2)
grados de libertad.
ˆ1  0
 El estadístico de prueba es: t
 y  yˆ i 
2
i

 x i  x
2

 La hipótesis nula será rechazada si el valor calculado de t


excede el valor crítico de t, al nivel de significación α
para dos colas.

Nota: Todos estos valores se pueden obtener por medio


25 de una regresión realizada en excel.

ESTADÍSTICA APLICADA

Maestría en Administración Pública

Maestra Alma Rosa Herrera Flores

13

También podría gustarte