0% encontró este documento útil (0 votos)
60 vistas9 páginas

Análisis Estadístico Bidimensional: Correlación y Regresión

Este documento trata sobre análisis estadístico bidimensional, correlación y regresión. Explica conceptos como distribuciones bidimensionales de frecuencias, independencia estadística de variables, representaciones gráficas, momentos como covarianza, y correlación y regresión para encontrar relaciones entre variables.

Cargado por

nicole jurnet
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Temas abordados

  • método de mínimos cuadrados,
  • variables independientes,
  • análisis de residuos,
  • distribuciones marginales,
  • análisis de datos,
  • errores de estimación,
  • regresión,
  • técnicas de visualización,
  • estadística inferencial,
  • correlación
0% encontró este documento útil (0 votos)
60 vistas9 páginas

Análisis Estadístico Bidimensional: Correlación y Regresión

Este documento trata sobre análisis estadístico bidimensional, correlación y regresión. Explica conceptos como distribuciones bidimensionales de frecuencias, independencia estadística de variables, representaciones gráficas, momentos como covarianza, y correlación y regresión para encontrar relaciones entre variables.

Cargado por

nicole jurnet
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Temas abordados

  • método de mínimos cuadrados,
  • variables independientes,
  • análisis de residuos,
  • distribuciones marginales,
  • análisis de datos,
  • errores de estimación,
  • regresión,
  • técnicas de visualización,
  • estadística inferencial,
  • correlación

TEMA-2.

pdf

Pxtade

Estadística Empresarial I

2º Grado en Administración y Dirección de Empresas

Facultad de Ciencias Jurídicas y Sociales. Campus de Madrid -


Vicálvaro
Universidad Rey Juan Carlos

Reservados todos los derechos.


No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
TEMA 2: ANÁLISIS ESTADÍSTICO BIDIMENSIONAL.

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
CORRELACIÓN Y REGRESIÓN.
2.1. DISTRIBUCIONES BIDIMENSIONALES DE FRECUENCIAS.

La distribución bidimensional de frecuencias es también llamada Bivariante. Observamos dos variables


simultáneamente que se escriben como pares (xi ; yi). Se puede estudiar:
- Por separado la distribución de la población según una variable u otra.
- Por forma simultánea a fin de estudiar posibles relaciones entre ellas.
2.1.1. Independencia y relación funcional de dos variables.

Reservados todos los derechos.


Si no hay dependencia entre las dos variables se dice que son independientes. Si hay algo de dependencia,
pero una variable no explica completamente la otra variable se dice que hay dependencia estadística.
Cuando hay una relación perfecta se dice que las variables están relacionadas funcionalmente.
Para comprobar si existe dependencia o no entre dos variables hablaremos de correlación entre variantes y de
contingencia.
2.1.2. Distribuciones bidimensionales: tablas de correlación y de contingencia.
Sea una población estudiada por dos caracteres (X e Y), representamos la distribución de variables.
- Xi e Yi: Son dos valores cualesquiera.
- Nij: es la frecuencia absoluta conjunta del valor i-ésimo de X con el j-ésimo de Y.
Si la distribución es de atributos la tabla se llama tabla de contingencia.
2.1.3. Distribuciones marginales.
Puede darse el caso de que nos interese estudiar de forma aislada cada una de las variables; por lo que
tendríamos dos distribuciones unidimensionales (de X y de Y respectivamente). Para poder obtener estas
distribuciones necesitamos calcular las frecuencias de cada variable. En la distribución marginal de X tenemos
que hallar cuántas veces se repite cada valor de Xi con independencia de Y. De esta forma, el número de veces
que se repite X1, independientemente de los valores de Y será:

2.1.4. Distribuciones condicionadas.


Las frecuencias condicionadas son un conjunto de valores que toma una variable cuando otra variable cuando
otra variable toma un valor concreto. Las frecuencias relativas condicionadas a algún valor de Y o de X sería,
respectivamente:

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-4901723
2.1.5. Independencia estadística.
Dos variables X e Y son independientes entre sí cuando la variación de una de ellas no influye en la distribución
de la otra. Se dice que dos variables son independientes estadísticamente cuando la frecuencia relativa
conjunta es igual al producto de las frecuencias relativas marginales. Si para todo i, j se cumple:

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
2.2. REPRESENTACIONES GRÁFICAS

La representación gráfica más utilizada es la nube de puntos o diagrama de dispersión.

2.3. MOMENTOS.

Los momentos son valores específicos, o medidas, que caracterizan la distribución de frecuencias. Los momentos de
naturaleza bidimensional son los que consideran al mismo tiempo valores de la variable X e Y.

- Momentos ordinarios o respecto al origen.

Reservados todos los derechos.


- Momentos centrales o respecto a la media.
- Relación entre los momentos respecto al origen y respecto a la media: Es frecuente encontrar las
expresiones de las varianzas marginales y de la covarianza de las variables escritas en función de los
momentos respecto al origen, puesto que de esta forma su cálculo resulta más sencillo.

RESUMEN

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-4901723
2.3.1. Covarianza.

Mide la relación entre dos variables, es un parámetro estadístico conjunto, pues, en su cálculo intervienen las
dos variables a la vez. Se define como la media aritmética de los productos de las diferencias de los valores de
cada variable respecto de su media marginal.

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
- Sxy > 0: Dependencia Lineal Directa. Cuando entre las dos variables hay una relación lineal directa, la
covarianza da un valor positivo.
- Sxy = 0: Independencia Lineal. Cuando entre las dos variables hay independencia lineal, la covarianza da el
valor cero.
- Sxy < 0: Dependencia Lineal Inversa. Cuando entre las dos variables hay una relación lineal inversa, la
covarianza da un valor negativo.

2.4. CORRELACIÓN Y REGRESIÓN.

Objetivo de investigación: Encontrar relaciones entre variables a partir de una función.

Reservados todos los derechos.


2.4.1. Regresión.
Un modelo de regresión permite describir el efecto de una variable X (o un grupo de variables en e caso
multivariante) sobre otra variable Y.
- X es la variable independiente o variable explicativa.
- Y es la variable dependiente o variable explicada.
El objetivo es a partir de una muestra de los pares (Xn, Yn), obtener un modelo que proporcione estimaciones
razonables de Y para cualquier valor que pueda tomar X.
Puede comprobarse que existen distintas alternativas para predecir el valor de un variable a partir de sus valores
observados. Cualquiera de ellas conlleva incurrir en errores ya que se trata de predicciones.
Definimos el error cometido al estimar la observación j-ésima de la variable estimada como la diferencia entre
el valor observado y el estimado.

𝑌̂ = 𝑎 + 𝑏𝑥

Así la suma de los cuadrados de los errores es:

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-4901723
Sea pues, X e Y dos variables cuya distribución conjunta es (xi, yj; nij), llamaremos:

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
- Regresión de Y sobre X a la función que explica la variable Y para cada valor de X.
- Regresión de X sobre Y nos hablará del comportamiento de X para cada valor de Y.
Para determinar estas funciones seguiremos dos criterios:

REGRESIÓN I.

Reservados todos los derechos.


- Ventaja: La regresión de tipo I se considera el método que nos proporciona la auténtica regresión intrínseca.
- Inconveniente: La regresión de tipo I no sirve para predecir en puntos de x nuevos, es decir, no observados.

REGRESIÓN II.
Seguiremos el criterio de mínimo cuadrático de números ordinarios que más se aproxima a la nube de puntos.

- La regresión tipo II nos proporciona una función continua y es el método más habitual, siendo el primer paso
para realizar una estimación.
- Se considera un método de aproximación a la regresión I.
- La diferencia práctica es que mientras que en la I no fijamos a priori el tipo de función, en la II es el primer
paso.
- El grado de ajuste será tanto mejor en la medida en que la curva describa la nube de puntos.

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-4901723
REGRESIÓN LINEAL.
- La regresión lineal es un caso particular de la Regresión tipo II.
- Si el tipo de función para la relación entre X e Y es una función lineal, estamos ante la regresión lineal simple
. (Una sola variable explicativa)
- El objetivo es seleccionar de entre las infinitas funciones (rectas) que pasan por la nube de puntos, la que
mejor se “adapte” o más se “acerque” a la nube de puntos.
- El tipo de ajuste que vamos a estudiar es el método de los mínimos cuadrados, que identifica la función
(recta) que reduce al mínimo la suma de los errores cometidos.

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
- X es la variable independiente o variable explicativa.
- Y es la variable dependiente o variable explicada.
Hay dos rectas de regresión
- La recta de regresión de Y sobre X (Y/X): hace mínimos los errores cuadráticos al estimar Y con información
de X. min(𝑦̂ − 𝑦̅)2 ; 𝑋 𝑐𝑜𝑛𝑜𝑐𝑖𝑑𝑎.
- La recta de regresión de X sobre Y (X/Y): hace mínimos los errores cuadráticos al estimar X con información

Reservados todos los derechos.


de Y. 𝑚𝑖𝑛(𝑥̂ − 𝑥̅ )2 ; 𝑌 𝑐𝑜𝑛𝑜𝑐𝑖𝑑𝑎.
Es importante detectar cuál de las dos tiene sentido económico o si las dos lo tienen.

Ambas rectas pasan por el centro de gravedad de la nube de puntos, es decir (𝑋̅, 𝑌̅ )

Interpretación de los parámetros


- a: es la ordenada en el origen, el valor medio que toma la variable explicada cuando la variable explicativa
toma el valor 0.
- b: es el coeficiente de regresión.
- El coeficiente de la recta de regresión Y/X se interpreta como cuánto varía la variable Y según varíe una
unidad la variable X.

- El coeficiente de la recta de regresión X/Y se interpreta de forma análoga.

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-4901723
El signo de b y b’ será el signo de la covarianza.
- Sxy > 0: Coeficiente de regresión positivo. (rectas crecientes)
- Sxy < 0: Coeficiente de regresión negativo. (rectas decrecientes)
- Sxy = 0: Coeficiente de regresión nulo. (rectas paralelas a los ejes)

2.4.2. Correlación.
La correlación mide el grado de dependencia mutua entre variables. El problema planteado ahora es medir la

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
intensidad con que dos variables pueden estar relacionadas. A través de la curva de regresión expresábamos
la estructura de la relación entre variables, pero para cada valor de xi obteníamos una diferencia (residuo) entre
el valor de Y real (en la nube de puntos) y el esperado (función). Cuanto más se alejen los puntos de la función
(cuanto mayor sean los residuos) más intensidad de relación se pierde.
La media de todos los residuos al cuadrado es la varianza residual:
A mayores valores de la varianza residual más alejados de la
función están los puntos y, por tanto, menor dependencia.

a) Coeficiente de Correlación Lineal de Pearson, r.


- Medida estadística que nos permite evaluar el grado de relación lineal entre dos variables cuantitativas.

Reservados todos los derechos.


- A diferencia de la covarianza, la correlación de Pearson es independiente de la escala de medida de las
variables.
- El signo de la covarianza determina el comportamiento de la correlación.
Calculo del coeficiente de correlación lineal de Pearson.
El coeficiente de correlación lineal de Pearson(r) es el cociente entre la covarianza y el producto de las
desviaciones típicas de las dos variables.

Interpretación de r:
- r = 1: Todos los puntos de la nube están en la recta (correlación lineal perfecta positiva y las rectas de
regresión coinciden). Pendiente positiva.
- r = -1: todos los puntos de la nube están en la recta (correlación lineal perfecta negativa y las rectas de
regresión coinciden). Pendiente negativa.
- r = 0: la correlación lineal es nula, por lo que cada recta es paralela a su eje (perpendiculares entre sí)
- -1 < r < 0: dependencia lineal inversa y las rectas no coinciden (decrecientes)
- 0 < r < 1: dependencia lineal directa y las rectas no coinciden (crecientes).

b) Coeficiente de determinación, R2.

- La recta de regresión por mínimos cuadrados minimiza lo errores cuadráticos. Ahora nos preguntamos si
este ajuste es bastante bueno.
- Mirando en el diagrama de dispersión si los puntos quedan muy cerca de la recta de regresión obtenida,
podemos tener una idea de si la recta se ajusta o no a los datos, pero nos hace falta un valor numérico que
nos ayude a precisarlo.
- La medida más importante de la bondad del ajuste es el coeficiente de determinación, R2.

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-4901723
- El coeficiente de determinación mide el grado de ajuste de la recta de regresión a los valores de la muestra,

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
y se define como el porcentaje de la variabilidad total de la variable dependiente Y que es explicada por la
recta de regresión.
Calculo del coeficiente de determinación.
Cuando el modelo es lineal simple se puede demostrar que el coeficiente de determinación es igual al
coeficiente de correlación lineal de Pearson (entre x e y) al cuadrado.

Interpretación de R2.
- Fiabilidad.
- Bondad de Ajuste.

Reservados todos los derechos.


o R2 está cercano a 1: El ajuste es bueno (mayor será la fuerza de asociación entre ambas variables)
o R2 está cercano a 0: El ajuste es malo (la recta no explica nada, es decir, no existe asociación entre X e Y)

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-4901723

También podría gustarte