UNIVERSIDAD NACIONAL DEL NORDESTE
FACULTAD DE CIENCIAS EXACTAS Y
NATURALES Y AGRIMENSURA
ESTADISTICA Y ANALISIS DE DATOS
CORRELACION Y REGRESION
JTP : OSVALDO P. QUINTANA
2014
INDICE:
Pag.
Introduccin
Interpolacin
Ajustamiento
Mtodo de los Mnimos Cuadrados
Ajustamiento Modelos Lineales
Ajustamiento Modelos no Lineales
Correlacin y Regresin
Coeficiente de Correlacin
Bondad de Ajuste
3
4
5
5
5
9
10
12
16
INTRODUCCION
Si tenemos dos variables ( X , Y) de las que observamos N valores, de cada uno de los (Xi , Yi ) con
i= 1,2,3,.........N y sean estos pares de valores ordenados. Puede interesar hallar la relacin que existe entre
las variables X e Y . Que relacin liga a X con Y , Y = f(X) o viceversa X = f(Y).
Primeramente se grfica los pares de valores ordenados (Grfico 1).
Buscamos si el comportamiento de una de las variables puede ser explicado en funcin de la otra variable
Y= f(X), y surgen distintos mtodos:
I)
INTERPOLACION
II)
AJUSTAMIENTO
1. INTERPOLACION
En primer lugar busco una funcin que pase por todos los puntos. El conjunto de funciones que describen el
comportamiento puede ser de distintos tipos. Por dos puntos, tenemos una recta (Grfico 2), por tres puntos,
una parbola(Grfico 3), en la primera tenemos dos parmetros y en la segunda tres parmetros; se deben
determinar tantos parmetros como pares de valores observados existan, que significa ponerles condiciones a
las ecuaciones que pase por esos puntos determinados. Sern tantos parmetros como condiciones
determinemos.
Busco una funcin f(X) tal que pase por cada Xi , donde f(Xi )= Yi i = 1,2,3.....N. La funcin en Xi, asume
el valor Yi .
Se usa este mtodo cuando las variables (Xi, Yi) se pueden considerar fijas con valores predeterminados y
medidos sin error.
En las variable tiempo (aos, meses, das), es una variable medible sin error. En general, cuando las variable
no tienen errores en su medicin, se aplica el mtodo de INTERPOLACIN. Por Ejemplo el mtodo de
NEWTON
2. AJUSTAMIENTO
En Estadstica se suele cometer errores al medir por carecer de elementos para medir o por desconocer otros
factores que pueden influir.
Por ejemplo:
Si queremos estudiar el rendimiento de la produccin de trigo.
R= Rendimiento de la produccin del trigo.
Que se determina como una funcin que depende de las variables, lluvia, abono, distancia de siembra,
semillas, o sea
R= f(lluvia, abon, distancia de siembra, semilla)
Si considero solo R = f(lluvia) estoy cometiendo errores pues no considero a los restantes factores influyentes.
Debido que al medir variables existe la posibilidad de cometer errores en la medicin ya que se trabaja con
gran cantidad de informacin, no nos interesar una funcin que pase por todos los puntos
(INTERPOLACION), sera buscar una funcin que se aproxime lo suficiente a todo ese conjunto de puntos
observados (AJUSTAMIENTO).
CRITERIO PARA EL AJUSTAMIENTO
Existen tres mtodos:
IIIIII-
Mnimos Cuadrados
Momentos
Mxima Verosimilitud
El ms usado es el de Mnimos Cuadrados
2.1
METODOS DE LOS MINIMOS CUADRADOS O DE GAUSS
Propone hacer mnima la sumatoria de los cuadrados de los desvos de los valores observados y los valores
de la funcin de ajuste elegida o sea los valores estimados por el modelo.
Busco
= e2 = (Yi Yi Estimado)2
Es la expresin de la funcin llamada mnima cuadrtica.
2 .1 .1 MODELOS LINEALES:
El comportamiento de las variables viene definido por una lnea recta.
Yi = A + BXi + ei = Xi + ei
El comportamiento de la variable Yi viene dado por una lnea recta ms un cierto error ei, de estimacin.
= (Yi (A + BXi) )2 = e2
e2 es lo que quiero minimizar
Los datos que no conozco son A y B, para ello derivo parcialmente la funcin mnima cuadrtica
con respecto a A y B
Yi (A + BXi) ] = 0
A
Yi (A + BXi) ] Xi = 0
B
Si multiplico por 1 y divido por 2 a ambas ecuaciones me queda un sistema de dos ecuaciones con dos
incgnitas
A + B Xi = Yi
A Xi + B Xi2 = Yi Xi
NA
+ Xi = Yi
A Xi + B Xi2 = Yi Xi
Llegamos a un sistema de ecuaciones normales de las cuales debemos encontrar los valores de A y B
_
_
_ _
_
_
Si Yi = f(Xi ) obtengo que Ay/x = Y - B X y By/x = Yi Xi - Y X N
= Yi Y)( Xi X)
_
_
Xi2 -NXi2
(Xi X)2
Donde A es la ordenada al origen, o sea el valor que toma la variable dependiente Yi cuando la variable
independiente Xi toma el valor cero, y B pendiente de la recta, que indica cuanto varia la variable
dependiente Yi por cada unidad de la variable independiente Xi, esa variacin puede ser creciente (+) o
decreciente.( -)
Desde el punto de vista matemtico al elegir una lnea recta significa que el comportamiento de la variacin
de Y es constante o uniforme a la variacin (positiva o negativa) de X , y ello es por que al derivar
Yi = A + BXi + ei se obtiene B que es constante.
Si Xi =f(Yi ) los valores de los parmetros sern
_
_
_ _
_
_
Ax/y = X - B Y y Bx/y = Yi Xi - Y X N = Yi Y)( Xi X)
_
_
2
2
Yi -NY
(Yi Y)2
Donde A es la ordenada al origen, o sea el valor que toma la variable dependiente Xi cuando la variable
independiente Yi toma el valor cero, y B pendiente de la recta, que indica la variacin de la variable
dependiente Xi por cada unidad de la variable independiente Yi, dicha variacin puede ser creciente (+) o
decreciente.( -).
Desde el punto de vista matemtico al elegir una lnea recta significa que el comportamiento de la variacin
de X es constante o uniforme a la variacin (positivo o negativo) de Y, y ello es por que al derivar
Xi = A + BYi se obtiene B que es constante.
En particular, puede ser que el comportamiento de la variable no pueda ser explicada por una lnea recta, sino
por otras funciones.
Funcin Cuadratica
Yi = A + BXi + CXi2 + ei
La funcin a minimizar ser
= Yi (A + BXi + CXi2)]2 = e2
Entonces se deriva parcialmente la funcin
con respecto a los parmetros A, B y C
0
A
0
B
0
C
Obtenemos un sistema de ecuaciones normales de tres ecuaciones con tres incgnitas
A + B Xi + C Xi2 = Yi
A Xi + B Xi2 + C Xi3 = Yi Xi
A Xi2 + B Xi3+ C Xi4 = Yi Xi2
Aplicando las propiedades de la sumatoria
NA
+BXi + CXi2 = Yi
AXi + BXi2 + CXi3 = Yi Xi
A Xi2 + BXi3 + CXi4 = Yi Xi2
Sistema en que las incgnitas son A, B y C, se puede resolver por el mtodo de determinante de matrices
Xi Xi2
Xi Xi2 Xi3
Xi2 Xi3 Xi4
N
Determinante
Yi Xi Xi2
Determinante A Yi Xi Xi2 Xi3
Yi Xi2 Xi3 Xi4
N
Determinante B Xi
Xi2
Determinante C
Yi
Xi2
Yi Xi Xi3
Yi Xi2 Xi4
N
Xi
Xi Xi2
Xi2 Xi3
Yi
Yi Xi
Yi Xi2
Determinante A
A= ----------------------Determinante
Determinante B
B= ----------------------Determinante
Determinante C
C= ----------------------Determinante
Para el modelo cuadrtico el sistema queda elevado a la cuarta potencia, con mas potencias mas errores y mas
dificultades para el trabajo de calculo a medida que se trabajen con polinomio, se dificulta aun mas y se
resuelve mediante el uso de la computacin
Si el modelo es Yi = A0 + A1Xi + A2Xi2 + A3Xi3 + ................... + AsXiS + ei
El sistema normal ser
A0 N+ A1Xi + A2Xi2 + A3Xi3
+ ................... + AsXiS
=
A0 Xi + A1 Xi2 + A2Xi3 + A3Xi4 + ................... + AsXiS+1 =
Yi
Yi Xi
.......................................................................................................................
A0 Xi2 + A1 Xi3 + A2Xi4 + A3Xi5 + ................... + AsXi2S =
Yi Xi2S
A este modelo se lo denomina modelo lineal; se llama as a aquellos que son lineales en los parmetros y en
las variables aleatorias (significa que los parmetros no estn elevados a potencias ni aparecen como
exponentes, ni divididos por un nmero y lo mismo para las variables consideradas aleatorias).
2.1. 2
I-
MODELOS NO LINEALES
Modelo Exponencial
Si el comportamiento de los valores de las variables puede ser explicado por medio de una funcin de tipo
exponencial.
Yi = e Xi
Aplicando logaritmo natural linealizo la funcin para poder obtener los valores de los parmetros
Ln Yi = Ln(e Xi )
Ln Yi = Ln+ XiLn e, como Ln e = 1 y si llamo Z a Ln Yi, A al Ln y B a me queda
Zi
= A + B Xi
Tengo la ecuacin de una recta, y por medio de mnimos cuadrados podemos encontrar los valores de los
parmetros A y B, donde
_
_
A =Z -BX
_ _
B = Zi Xi - Z X N
_
2
Xi - NX2
Finalmente para obtener los valores de los parmetros y
, tengo que
B
= Antiln ( A )
As linealizando la funcin exponencial se obtiene los valores de los parmetros
II-
Modelo Potencial
Si el comportamiento de los valores de las variables viene explicado por una funcin de tipo Potencial
Yi =Xi
Aplicamos logaritmo natural a ambos miembros nos quedara
Ln Yi = Ln Ln Xi
Llamando Z a Ln Yi, A a Ln B a y W a Ln Xi, tengo
Z =A+B W
Como en el modelo anterior tengo la ecuacin de una recta, con la cual se puede calcular los valores de los
parmetros A y B.
_
_
A =Z -BW
_ _
B = Zi Wi - Z W N
_
Wi2 -NW2
Obtenemos los valores de los parmetros y
= B
= Antiln ( A )
3.
CORRELACION Y REGRESION
Si tenemos dos variables y se trata de encontrar una ley que las relacionen, existen dos funciones una
estadstica y otra funcional, las variables pueden ser fijas o deterministicas o sea medidas sin error, y variables
aleatorias.
Puede ocurrir que las dos variables sean aleatorias, o una aleatoria y la otra fija.
Si las dos variables son aleatorias se debe encontrar una ley que pueda predecir Y en funcin de X o
viceversa. Adems si existe una relacin entre ambas variables, nos interesa saber el grado o intensidad de la
relacin, calculando a travs de un coeficiente, esto plantea un problema de Correlacin y Regresin
Si en cambio se tiene una variable fija y otra aleatoria, se trata de predecir, el comportamiento de la
variable aleatoria en funcin de la variable fija, y nos encontramos ante un problema de Regresin, que
consiste en hallar la relacin que liga a las variables.
Si queremos aplicar un modelo de Regresin Lineal a un conjunto de datos, debemos encontrar primeros los
estimadores de los parmetros desconocidos A y B de la lnea media E(y) = A +BX. La valides de la
inferencia acerca de A y B depender de la distribucin de muestreo de los estimadores y estos depender de
la distribucin de probabilidad del error por lo tanto se deben hacer supuestos a cerca de
Dichos supuestos son necesarios para todo anlisis de regresin y son los siguientes.
e.
Supuesto 1:
La media de la distribucin de probabilidad de
es cero, o sea que la media del error a lo largo
de un nmero infinitamente grande de experimentos es cero para cada valor de la variable independiente X
esto implica que la media de la variable dependiente Y, E(Y) = A + B Xi, para cada valor de Xi.
Supuesto 2:
La varianza de la distribucin de Probabilidad el error
variable independiente X.
es constante para todos los valores de la
Supuesto 3:
La distribucin de probabilidad del error
e es normal.
Supuesto 4: Los errores asociados a cada valor de la variable dependiente Y son independientes, o sea que el
error de un valor de la variable Y no dependen de el error de otro valor de la variable Y.
Existen muchas tcnica para verificar estos supuestos y tambin soluciones cuando las mismas no se
cumplen.
10
En la prctica los supuestos no tienen que cumplirse estrictamente para que los estimadores y las estadsticas
de prueba tengan el grado de confiabilidad que se espera cuando se utiliza un Anlisis de Regresin.
Lo siguiente son los pasos a realizar para el anlisis de regresin
1 Se realiza la representacin grfica de los valores de las variables en un diagrama que se denomina de
dispersin.
2 Se trata de encontrar la funcin que ms aproxime el comportamiento de la distribucin de las variables.
3 Estudiar la intensidad de la relacin entre ambas variables a traves del coeficiente de correlacin de
Pearson .
4 - Graficar el modelo para comprobar la utilidad del modelo.
5 Encontrar alguna medida de la bondad del ajustamiento.
11
3. 1.
COEFICIENTE DE CORRELACION DE PEARSON
Busco un coeficiente que indique si existe o no existe relacin lineal, y si existe como es dicha relacin,
me diga la intensidad de la misma y si es directa o inversa
_
Si Xi < X
_
Si Xi > X
_
Si Yi < Y
_
Si Yi > Y
_
Desvio Xi X < 0
_
Desvio Xi X > 0
_
Desvio Yi Y < 0
_
Desvio Yi Y > 0
_
_
_
_
Tengo que en el II cuadrante del grfico 4 si los puntos Xi > X e Yi > Y entonces (Yi Y) (Xi X)>0
_
_
En el III Xi < X e Yi < Y entonces (Yi Y) (Xi X)>0
_
_
_
_
_
_
En el I y en el IV Xi < X e Yi > Y y Xi > X e Yi < Y entonces (Yi Y) (Xi X)<0
_
_
Si la relacin es directa la mayora de los puntos estn en los cuadrantes en que (Yi Y) (Xi X)>0 y si
_
_
es inversa la mayora de los puntos estn en los cuadrantes en que (Yi Y) (Xi X)<0 .
_
_
1/N (Yi Y) (Xi X) = Covarianza entre X eY Cov(X,Y) es el promedio de la suma de los productos de
los desvos.
Entonces si:
12
COV(X,Y) > 0 existe relacin lineal directa entre las variable X e Y, si aumenta o disminuye el valor de la
variable X tambin aumenta o disminuye el valor de la variable Y
COV(X,Y) <0 existe relacin lineal indirecta entre las variable X e Y, si aumenta el valor de la variable X
disminuye el valor de la variable Y, y si disminuye el valor de la variable X aumenta el valor de la variable Y
Cuando los valores estn equidistribuidos en los cuatros cuadrantes no existe relacin lineal entre las
variables entonces la COV(X,Y) = 0, la reciproca no siempre es cierta
Existe relacin lineal
COV(X,Y) <> 0
No existe relacin lineal COV(X,Y) = 0
Si COV(X,Y) =0 no implica que no exista relacin lineal
E l coeficiente de correlacin tiene dos problemas
1 Esta expresada en unidades de las variables. Por ej. Peso y altura, Kg x metros.
2 Su campo de variacin esta entre - <= COV(X,Y)<= +
Si hago R = COV(X,Y) que es el Coeficiente de Correlacin de Pearson
Sx Sy
Siendo Sx el desvio estandar de X y Sy el desvio estandar de Y
_
_
_ _
R = COV(X,Y) = Syx
=
(Yi Y) (Xi X)
=
Yi Xi - Y X N
Sx Sy
SySx
_______________________
___________________________
| /
_
_
|
| /
_
_ |
2
2
2
2
2
|/ (Xi X) (Yi Y)
|/
Xi NX (Yi NY 2
3 . 1. 1. PROPIEDADES DEL COEFICIENTE DE CORRELACION.
1 - Es un nmero puro, no esta expresado en las unidades de medidas de las variables.
2 - Es un invariante.
Si se le aplica una transformacin (variable de calculo) a las variables X e Y, el valor del coeficiente de
correlacin no varia.
3 - El campo de variacin esta entre -1 <= R <= 1.
_
_
2
= e = Yi Y) B(Xi X )]2 siendo el modelo centrado .
Resolviendo el cuadrado del binomio .
= e2 = Yi Y) 2 2 B Yi Y) (Xi X ) + B2 (Xi X ) 2
Sabiendo que
_
_
_
_
_
By/x Yi Y)( Xi X) , entonces Yi Y)( Xi X) = B (Xi X)2
_
(Xi X)2
13
= e2 = Yi Y) 2 B2 (Xi X ) 2
( F)
Si R = Sxy ; R Sx = Sxy Sy = Sxy = By/x R = By/x Sx
SxSy
Sy SxSy Sx
S2x
Sy
Tambin R = Bx/y Sy
Sx
_
B2 y/x = R2 Yi Y) 2
(Xi X)2
= Yi Y) 2 R2 Yi Y) 2 (Xi X)2Yi Y) 2 1 - R2 ) = e2
(Xi X)2
Yi Y) 2 y e2 son > = 0 por ser suma de cuadrados, entonces 1 - R2 ) >= 0, de esto se deduce que
R2 <= 1, finalmente 1<= R <= 1 para que lo anterior se cumpla..
Si R = 1 o R = -1 e2 = 0 no se comete error al describir Y en funcin de una lnea recta y ambas rectas
de regresin Y/X y X/Y coinciden.
Si R = 1, entonces existe relacin lineal directa y perfecta, como se observa en el grfico 5.
14
Si R = -1, existe relacin lineal indirecta y perfecta entre las variables (ver grfico 6.)
Si R = 0 No existe relacin lineal entre las variables y la mejor prediccin que se puede realizar son las
medias de las variables.
_ _
Las rectas de regresin se cortan en el punto (X, Y ) (Ver Grfico 7)
Para cualquier otro valor de R se determina grados de relacin lineal fuerte, medio o dbil entre las variables.
Grficamente la intensidad de la relacin, la da el ngulo que forman las rectas de regresin, con 0 son
idnticas y existe relacin lineal perfecta, con 90 no existe relacin entre las variables.
15
4.
4 . 1.
BONDAD DE AJUSTAMIENTO
MODELO LINEAL
De (F) se observa que la variabilidad total de la variable dependiente se puede descomponer en la suma de
dos variabilidades, una en funcin del coeficiente de regresin, y la otra en funcin de una variable residual o
remanente de los datos alrededor de la recta
Yi Y) 2 = e2 B2 (Xi X ) 2
_
B (Xi X ) 2 Variacin explicada en el modelo.
2
e2 Variacin no explicada en el modelo.
_
Yi Y) 2 Variacin total.
Si realizamos el cociente entre la variacin explicada por el modelo (VE) y la variacin total (VT) y lo
expresamos en porcentaje tenemos cuanto de la distribucin de la variable dependiente viene explicado por el
modelo de regresin lineal.
_
R Yi Y) 2
2
_
(Xi X)2
VE = B2 (Xi X ) 2 =
VT
_
Yi Y) 2
(Xi X)2 R2
_
Yi Y) 2
Por By/x = R Sx
Sy
Entonces la VE puede tomar su mnimo valor cuando es igual a cero y su mximo valor cuando es igual a
VT.
Cuando la VE es igual a VT el cociente es uno, el modelo explica la variabilidad total de la variable
dependiente Y, la VNE es igual a cero.
Si VE es cero el modelo no explica sobre la VT de la variable dependiente, la VNE toma su mnimo valor, o
sea que la mejor prediccin del modelo ser el promedio de la variable dependiente, ya que B es igual a cero.
El cociente VE/VT nos da R2 que es el cuadrado del coeficiente de regresin de las variables y se llama
coeficiente de determinacin, que dice que porcentaje de la VT viene explicado por el modelo de regresin
lineal.
El campo de variacin es:
0<= R2 <= 1
R2 = 0 el modelo lineal elegido no explica sobre la variacin de la variable dependiente Y.
R2 = 1 el modelo lineal elegido explica toda la variacin de la variable dependiente Y.
16
En conclusin si el valor R2 se aproxima a cero el modelo lineal no es el adecuado, y cuando mas se
acerque a 1, explicara mejor el comportamiento de la variable dependiente.
4 . 2 . MODELO NO LINEAL
Si consideramos que
VE = VT VNE = 1 - VNE
VT
VT
VT
Siendo VNE = 1 Yi Yi estimado) 2
N
Me queda que
VE = 1 - 1 Yi Yi estimado) 2 = 1 VT
N
_
Yi Y) 2
N
Yi Yi estimado) 2 = y/x
_
Yi Y) 2
y/x es el ndice de correlacin de la variable Y dependiendo de X para un modelo no lineal .
x /y = 1 - Xi XiEstimado) 2
Xi X) 2
x /y es el ndice de correlacin de la variable X dependiendo de Y para un modelo no lineal.
Comparando el coeficiente de determinacin R2 con el ndice de correlacin
R2 <=
Sern R2 = cuando el modelo es lineal, el mejor ajuste es una lnea recta.
Biografa.Fundamento de Estadstica - John Neter y William Wasserman
Estadstica - Fausto Toranzo
Fundamento de Estadstica John Neter , William Wasserman y Whitmor
17