0% encontró este documento útil (0 votos)
173 vistas18 páginas

Actividad 4. - Reporte Académico - Análisis de Correlación

Este documento describe el análisis de correlación y los métodos para medir la relación entre dos variables. Explica que existen dos medidas principales: el coeficiente de determinación (r2) y el coeficiente de correlación. El r2 mide qué porcentaje de la variabilidad de una variable se explica por la otra variable, oscilando entre 0 (sin relación) y 1 (relación perfecta). Luego presenta ejemplos y fórmulas para calcular estas medidas y determinar la fuerza y dirección de cualquier correlación. Finalmente, incluye la solución a problemas de correl
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
173 vistas18 páginas

Actividad 4. - Reporte Académico - Análisis de Correlación

Este documento describe el análisis de correlación y los métodos para medir la relación entre dos variables. Explica que existen dos medidas principales: el coeficiente de determinación (r2) y el coeficiente de correlación. El r2 mide qué porcentaje de la variabilidad de una variable se explica por la otra variable, oscilando entre 0 (sin relación) y 1 (relación perfecta). Luego presenta ejemplos y fórmulas para calcular estas medidas y determinar la fuerza y dirección de cualquier correlación. Finalmente, incluye la solución a problemas de correl
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

INSTITUTO TECNOLÓGICO SUPERIOR DE CALKINÍ, EN EL

ESTADO DE CAMPECHE

LICENCIATURA EN ADMINISTRACIÓN

ESTADÍSTICA PARA LA ADMINISTRACIÓN II

ACTIVIDAD 4.- ELABORAR UN REPORTE ACADÉMICO DESCRIBIENDO


CORRECTAMENTE EL ANÁLISIS DE CORRELACIÓN Y AGREGA LA
SOLUCIÓN DE LOS DISTINTOS PROBLEMAS REALIZADOS

DOCENTE:
JOSÉ RUBÉN BACAB SANCHEZ

INTEGRANTES: MATRÍCULA:
BROCA CRUZ ITZEL GUADALUPE 7804
CETINA CACH MARIO ALEXANDER 7810
CHE NOH JESÚS ANDRÉS 7826
CHUC COOL ARELI GUADALUPE 7829
COOL NAH ERWIN ALAN 7830
DE LA CRUZ MAGAÑA ALEJANDRA 7831

EQUIPO 4
SEMESTRE: 3 GRUPO: “B”

CICLO ESCOLAR: 2022-2023N

CALKINÍ, CAMPECHE
CONTENIDO
INTRODUCCIÓN............................................................................................................................3

ANÁLISIS DE CORRELACIÓN...................................................................................................4

El coeficiente de determinación...................................................................................................4

Una interpretación intuitiva de r2...........................................................................................5

Otra interpretación de r2.........................................................................................................9

Método abreviado para calcular r2.......................................................................................10

El coeficiente de correlación......................................................................................................11

Cómo se interpreta la correlación.............................................................................................13

PROBLEMAS REALIZADOS.....................................................................................................14

Solución.......................................................................................................................................14

CONCLUSIÓN...............................................................................................................................17

REFERENCIAS.............................................................................................................................18
INTRODUCCIÓN

El análisis de correlación es aquel que nos ayuda a describir si dos variables están
relacionadas o no. Se saca a partir de dos datos, y el resultado debe mostrar la fuerza de la
relación.

Existen dos medidas para describir la correlación entre dos variables, las cuáles son el
coeficiente de determinación y el coeficiente de correlación. Son medidas diferentes que
nos ayudan a medir el grado o la fuerza que hay entre dos variables.

El coeficiente de determinación se desarrolla mediante fórmulas de una muestra de puntos


que nos permite hacer una recta, y con base a ello, nos será más fácil identificar si existe
alguna relación o no con dos variables.

Y el coeficiente de correlación se busca gracias a una fórmula, y una vez que la hayamos
desarrollado, veremos si la pendiente es positiva o negativa.

Ambas medidas tienen sus respectivas fórmulas que estudiaremos más adelante, de manera
más detallada.
ANÁLISIS DE CORRELACIÓN
El análisis de correlación es la herramienta estadística que podemos usar para describir el
grado en el que una variable está linealmente relacionada con otra. Con frecuencia, el
análisis de correlación se utiliza junto con el de regresión para medir qué tan bien la línea
de regresión explica los cambios de la variable dependiente, Y. Sin embargo, la correlación
también se puede usar sola para medir el grado de asociación entre dos variables.

Los estadísticos han desarrollado dos medidas para describir la correlación entre dos
variables:

 El coeficiente de determinación
 El coeficiente de correlación.

El coeficiente de determinación
El coeficiente de determinación es la principal forma en que podemos medir el grado, o
fuerza, de la asociación que existe entre dos variables, X y Y. Debido a que usamos una
muestra de puntos para desarrollar rectas de regresión, nos referimos a esta medida como el
coeficiente de determinación muestral.

El coeficiente de determinación muestral se deriva de la relación entre dos tipos de


variación: la variación de los valores Y en un conjunto de datos alrededor de:

1. La recta de regresión ajustada


2. Su propia media.

El término variación en estos dos casos se utiliza en su sentido estadístico usual para
expresar “la suma de los cuadrados de un grupo de desviaciones”. Usando esta definición,
entonces, es razonable expresar la variación de los valores Y alrededor de la recta de
regresión con esta ecuación:

La segunda variación, la de los valores de Y alrededor de su propia media, está


determinada por:
Uno menos la razón entre estas dos variaciones es el coeficiente de determinación muestral,
que se denota por r2:

Las siguientes dos secciones mostrarán que r2, según la definición de la ecuación 12-10, es
una medida del grado de asociación lineal entre X y Y.

Una interpretación intuitiva de r2


Considere las dos formas extremas en las que las variables X y Y pueden relacionarse. En
la tabla 12-13, cada valor observado de Y cae en la línea de estimación, como puede verse
en la figura 12-13. Ésta es una correlación perfecta.

La ecuación de estimación apropiada para estos datos es fácil de determinar. Dado que la
recta de regresión pasa por el origen, sabemos que la ordenada Y es cero; como Y se
incrementa en 4 cada vez que X se incrementa en 1, la pendiente debe ser igual a 4. Por
tanto, la recta de regresión es:
Desarrollo del coeficiente de determinación de la muestra para el ejemplo de una
correlación perfecta:

Ahora, para establecer el coeficiente de determinación de la muestra para la recta de


regresión de la figura 12-13, primero calculamos el numerador de la fracción en la ecuación
12-10: Variación de los valores de Y alrededor de la recta de
regresión

Entonces podemos encontrar el denominador de la fracción:

Variación de los valores de Y alrededor de su propia


media
Al sustituir estos valores en la ecuación 12-10, podemos encontrar que el coeficiente de
determinación de la muestra es igual a + 1:

De hecho, r2 es igual a + l siempre que la recta de regresión sea un estimador perfecto.

Una segunda forma extrema en que las variables X y Y pueden relacionarse es aquella
donde los puntos podrían caer a distancias iguales en ambos lados de una línea de regresión
horizontal, como se ve en la figura 12-14. Este conjunto de datos consiste en los ocho
puntos registrados en la tabla 12-14.

En la figura 12-14, podemos ver que la recta de regresión de mínimos cuadrados apropiada
para estos datos está dada por la ecuación . La pendiente de la recta es cero, porque
los mismos valores de Y aparecen para todos los valores de X. Tanto la ordenada Y como
la media de los valores de Y son iguales a 9.

Cálculo del coeficiente de determinación de la muestra para la correlación cero

Ahora calcularemos las dos variaciones usando las ecuaciones 12-8 y 12-9, para poder
calcular el coeficiente de determinación de la muestra para esta recta de regresión. Primero
calculamos la variación de los valores de Y alrededor de la línea de estimación :
Sustituyendo estos dos valores en la ecuación 12-10, vemos que el coeficiente de
determinación de la muestra es 0:

Por tanto, el valor de r 2 es cero cuando no hay correlación.

Interpretación de los valores r2

En los problemas con que se topa la mayoría de los responsables de la toma de decisiones,
r2 caerá en alguna parte entre estos dos extremos de 1 y 0. Recuerde, no obstante, que r 2
cercana a 1 indica una fuerte correlación entre X y Y, mientras que r2 cercana a 0 significa
que existe poca correlación entre estas dos variables.

Un punto que debemos resaltar es que r 2 mide sólo la fuerza de una relación lineal entre dos
variables. Por ejemplo, si tuviéramos muchos puntos X y Y, y todos cayeran en la
circunferencia de un círculo, aunque dispersos aleatoriamente, claramente habría una
relación entre estos puntos (todos están en el mismo círculo). Pero en este caso, si
calculáramos r2, resultaría estar cerca de cero, porque los puntos no tienen una relación
lineal entre ellos.

Otra interpretación de r2
Los estadísticos también interpretan el coeficiente de determinación de la muestra viendo la
cantidad de la variación en Y que se explica por la recta de regresión. Para entender este
significado de r2, consideremos la recta de regresión de la figura 12-15. Aquí, separamos un
valor observado de Y, mostrado como el círculo negro superior. Si usamos la media de los
valores de , para estimar este valor de Y, del círculo negro, entonces la desviación total
de esta Y lejos de su media sería

Observe que, si usamos la recta de regresión para estimar este valor de Y del círculo negro,
obtendríamos una mejor estimación. Sin embargo, aun cuando la recta de regresión

justifica, o explica de la desviación total, la porción restante de la desviación total


sigue sin explicarse.

Pero consideremos un conjunto completo de valores Y observados en vez de un solo valor.


La variación total, esto es, la suma de los cuadrados de las desviaciones totales, de estos
puntos alrededor de su media sería:

y la porción explicada de la variación total, o la suma de los cuadrados de las desviaciones


explicadas de estos puntos alrededor de su media, sería:

La porción no explicada de la variación total (la suma de los cuadrados de las desviaciones
no explicadas) de estos puntos respecto a su recta de regresión sería:

Si deseamos expresar la fracción de la variación total que queda no explicada, dividiríamos

la variación no explicada, , entre la variación total, , de la siguiente


manera:
y, finalmente, si restamos de 1 la fracción de la variación total que sigue no explicada,
tendremos la fórmula para encontrar la fracción de la variación total de Y que es explicada
por la recta de regresión. Esa fórmula es:

la misma ecuación que usamos para calcular r2. Es en este sentido que r2 mide qué tan bien
X explica Y, esto es, el grado de asociación entre X y Y.

Método abreviado para calcular r2


Una observación final respecto al cálculo de r2. Para obtener r2 usando las ecuaciones 12-8,
12-9 y 12-10, se requiere una serie de cálculos tediosos; para evitarlos, los estadísticos han
desarrollado una versión abreviada, usando valores que habríamos determinado de
antemano en el análisis de regresión. La fórmula es:

donde,

 r2 = coeficiente de determinación de la muestra.


 a = ordenada Y.
 b = pendiente de la línea de estimación de mejor ajuste.
 n = número de puntos de datos.
 X = valores de la variable independiente.
 Y = valores de la variable dependiente.
 = media de los valores observados de la variable dependiente.

Para ver por qué esta fórmula constituye un método abreviado, la aplicaremos a la regresión
que relaciona los gastos de investigación y desarrollo con las ganancias. En la tabla 12-15,
repetimos las columnas de la tabla 12-9, añadiendo una columna Y 2. Recuerde que cuando
encontramos los valores para a y b, la recta de regresión para este problema era:

Usando esta recta y la información de la tabla 12-15, podemos calcular r 2 de la siguiente


manera:

Así, podemos concluir que la variación en los gastos de investigación y desarrollo (la
variable independiente X) explica el 82.6% de la variación en las ganancias anuales (la
variable dependiente Y).

El coeficiente de correlación
El coeficiente de correlación es la segunda medida que podemos usar para describir qué tan
bien explica una variable a otra. Cuando tratamos con muestras, el coeficiente de
correlación de la muestra se denota por r y es la raíz cuadrada del coeficiente de
determinación de muestra:

Cuando la pendiente de la ecuación de estimación es positiva, r es la raíz cuadrada positiva,


pero si b es negativa, r es la raíz cuadrada negativa. Entonces, el signo de r indica la
dirección de la relación entre las dos variables X y Y. Si existe una relación inversa —esto
es, si Y disminuye al aumentar X—, entonces r caerá entre 0 y -1. De manera similar, si
existe una relación directa (si Y aumenta al aumentar X), entonces r será un valor en el
intervalo de 0 a 1. La figura 12-16 ilustra estas características de r.

El coeficiente de correlación es más difícil de interpretar que r2. ¿Qué significa r = 0.9?
Para responder esta pregunta, debemos recordar que r = 0.9 es lo mismo que r 2 = 0.81. Esto
último nos dice que el 81% de la variación en Y es explicada por la recta de regresión. De
esta forma, vemos que r es sólo la raíz cuadrada de r 2, y su significado es qué tanto se
relacionan las variables X y Y. Por lo que r = 0.9 significa que el 90% de los datos se
relacionan entre sí.

Ahora encontremos el coeficiente de correlación del problema que relaciona gastos de


investigación y desarrollo con ganancias anuales. En la sección anterior, encontramos que
el coeficiente de determinación de la muestra es r2 = 0.826, de manera que podemos
sustituir este valor en la ecuación 12-12 y encontrar que

La relación entre las dos variables es directa y la pendiente es positiva; por tanto, el signo
de r es positivo.
Cómo se interpreta la correlación
La correlación nos permite medir el signo y magnitud de la tendencia entre dos variables.
En la figura 1 vemos diferentes valores del coeficiente de correlación y sus diagramas de
dispersión correspondientes. Podemos ver que:

1. El signo nos indica la dirección de la relación, como hemos visto en el diagrama de


dispersión.
 un valor positivo indica una relación directa o positiva,
 un valor negativo indica relación indirecta, inversa o negativa,
 un valor nulo indica que no existe una tendencia entre ambas variables
(puede ocurrir que no exista relación o que la relación sea más compleja que
una tendencia, por ejemplo, una relación en forma de U).
2. La magnitud nos indica la fuerza de la relación, y toma valores entre -1 a 1. Cuanto
más cercano sea el valor a los extremos del intervalo (1 o -1) más fuerte será la
tendencia de las variables, o será menor la dispersión que existe en los puntos
alrededor de dicha tendencia. Cuanto más cerca del cero esté el coeficiente de
correlación, más débil será la tendencia, es decir, habrá más dispersión en la nube
de puntos.
 si la correlación vale 1 o -1 diremos que la correlación es “perfecta”,
 si la correlación vale 0 diremos que las variables no están correlacionadas.

Figura 1: Diferentes valores del coeficiente de correlación y su correspondiente diagrama


de dispersión.
PROBLEMAS REALIZADOS
Las librerías de la universidad han vendido el libro Believe or Not: Wonders of Statistics
Guide durante 12 semestres y desean estimar la relación entre las ventas y el número de
secciones de estadística elemental que se enseñan en cada semestre. Se recolectaron los
siguientes datos:

a) Desarrolle la ecuación de estimación que mejor se ajuste a los datos.


b) Calcule el coeficiente de determinación de la muestra y el coeficiente de
correlación de la muestra.

Solución
a) Desarrolle la ecuación de estimación que mejor se ajuste a los datos.

En este problema, Y = ventas y X = número de secciones.

Después se busca la media de y

se calcula sumando el número de secciones y dividiéndolo entre la cantidad de meses:

se calcula sumando el número de ventas y dividiéndolo entre la cantidad de meses:


Se calcula la pendiente de la línea de estimación de mejor ajuste (b). Su fórmula es:

Donde:

 = Total de XY = 6,833

 = Media de X = 10.25 y Y = 51.75 y n = número de meses.


 = Total de las X2 = 1,421
 = Número de meses por la media de X que es igual a = 10.25

Una vez que tengamos los datos, solo sustituimos valores y hacemos las operaciones
correspondientes:

b = 2.9189
Ahora vamos a calcular la ordenada Y (a):

Donde:

 es la media de Y = 51.75
 b es la pendiente de la línea de estimación de mejor ajuste = 2.9189

 es la media de X = 10.25
Se sustituyen los datos en la fórmula, y se hacen las operaciones correspondientes,
quedando de la siguiente manera:

b) Calcule el coeficiente de determinación de la muestra y el coeficiente de


correlación de la muestra.

Utilizaremos la fórmula que se mencionó anteriormente:


En este caso, los datos ya los tenemos, son las que buscamos anteriormente, entonces
tenemos que sustituir valores, y queda de la siguiente manera:

El coeficiente de determinación de la muestra es = 0.3481

Para sacar el coeficiente de correlación de la muestra, solo le sacamos raíz cuadrada al


resultado que nos dio el coeficiente de determinación de la muestra = 0.3481, quedando de
la siguiente manera:

El coeficiente de correlación de la muestra es = 0.5900


CONCLUSIÓN

En conclusión, el análisis de correlación es de gran ayuda para saber qué relación existe
entre dos variables distintas.

Cómo mencionamos anteriormente, existen dos medidas para describir la correlación entre
las dos variables; ya sea mediante el coeficiente de determinación o el coeficiente de
correlación.

Sin embargo, hay que desarrollar algunas fórmulas, que nos permitirán saber de una manera
más rápida y eficaz si tienen relación las dos variables proporcionadas.

Dicha relación se ve de manera más clara, si los datos son graficados en rectas; a dichas
rectas se les llama rectas de regresión.

Para que estás rectas se grafiquen, se necesita primero desarrollar las fórmulas con los datos
proporcionados y posterior a eso graficarlos.

Una vez que ya los tengamos graficados, debemos interpretar el cómo están acomodados
los puntos y veremos si se trata de dispersiones positivas, negativas o nulas.

Por último, nos encontramos con el desarrollo de un problema, dónde aplicamos las
fórmulas de coeficiente de determinación y coeficiente de correlación y sacamos resultados.
REFERENCIAS
Ferrero, R. (2020). ¿QUÉ ES LA CORRELACIÓN ESTADÍSTICA Y CÓMO
INTERPRETARLA? Obtenido de [Link]
es-la-correlacion-estadistica-y-como-interpretarla/

Levine, D. M. (2004). ESTADÍSTICA PARA ADMINISTRACIÓN Y ECONOMÍA. México:


Pearson Educación.

También podría gustarte