0% encontró este documento útil (0 votos)
34 vistas12 páginas

Estadística Bidimensional y Regresión

El Módulo 2 de Estadística se centra en la estadística descriptiva de dos variables y el modelo de regresión lineal, analizando relaciones entre variables bidimensionales. Se discuten conceptos como distribución bidimensional, dependencia funcional, aleatoria e independencia, así como la importancia de la covarianza y el coeficiente de correlación para medir la relación entre variables. Se ilustra el ajuste de una nube de puntos a una recta de regresión, permitiendo realizar estimaciones sobre el comportamiento de las variables.

Cargado por

Nati Zurita
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
34 vistas12 páginas

Estadística Bidimensional y Regresión

El Módulo 2 de Estadística se centra en la estadística descriptiva de dos variables y el modelo de regresión lineal, analizando relaciones entre variables bidimensionales. Se discuten conceptos como distribución bidimensional, dependencia funcional, aleatoria e independencia, así como la importancia de la covarianza y el coeficiente de correlación para medir la relación entre variables. Se ilustra el ajuste de una nube de puntos a una recta de regresión, permitiendo realizar estimaciones sobre el comportamiento de las variables.

Cargado por

Nati Zurita
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

ESTADÍSTICA

MÓDULO 2

MÓDULO 2:

Estadística descriptiva de dos variables.


Modelo de regresión lineal.
- Relaciones entre dos variables estadísticas
- Tablas y gráficos de variables bidimensionales
- Ajuste de una nube de puntos
- Recta de regresión

En el módulo 1 hemos estudiado lo que sucedía con los trabajos estadísticos cuando la variable
utilizada era unidimensional (es decir, que en un estudio medíamos únicamente una característica
de la población elegida).
Cuando, como en este módulo, ponemos atención en dos características o series estadísticas
unidimensionales, estamos poniendo el acento en las series estadísticas (o distribuciones
bidimensionales).

Por ejemplo:
- Un estudio a los alumnos de una cierta edad en el que se consideran el peso y la altura.
- El análisis de las notas obtenidas por los mismos alumnos en dos materias: lengua y
matemática.
- Si se tienen dos poblaciones distintas, por ejemplo padres e hijos, y realizar un estudio
sobre las alturas de ambos.

Conceptos:
Distribución bidimensional: es la consideración simultánea de dos series estadísticas que
provienen de la medida de dos caracteres de una misma población o de dos poblaciones distintas.

Serie estadística doble: es la consideración simultáneamente de dos series estadísticas.(peso y


altura), (Notas de lengua y matemática), etc.

Variable bidimensional: es la variación simultánea de los dos caracteres y se lo designa (x,y).

Por lo tanto, una distribución bidimensional significa realizar un reparto de elementos de acuerdo
a una regla o ley y que dicho reparto se verifica simultáneamente en dos dimensiones.

ISIV – Página 1 de 12
ESTADÍSTICA
MÓDULO 2

DEPENDENCIA O RELACIÓN DE DOS SERIES O VARIABLES ESTADISTICAS:

Considerar en forma simultánea dos series estadísticas presupone inmediatamente una relación
entre ambas, denominada correlación, y que puede ser de los siguientes tipos:

a) Relación funcional:

- Si tomamos distintas circunferencias y consideramos dos de sus elementos: la longitud (l)


y el radio (r). Considerar estos dos elementos implica contar con dos series estadísticas
representadas por la variable bidimensional (l, r). Cada pareja de valores están
relacionados por una fórmula elemental:
l = 2π.r
Qué es la fórmula de la longitud de la circunferencia en función del radio.

Aquí observamos que hay una dependencia funcional entra ambas variables, ya que “l”
depende del “r”, o sea l = f(r)

- Si se analiza el espacio recorrido por un móvil que avanza a velocidad constante (Es decir
circula a la misma velocidad continuamente) durante un cierto tiempo. Tenemos dos
variables: el espacio recorrido y el tiempo empleado. (La velocidad es constante).
Estas dos variables se relacionan por la fórmula e = v.t
Por lo tanto hay una dependencia de “e” (espacio), de acuerdo al “t” (tiempo) que
recorre el móvil.

e = f(t)

Cuando hay una dependencia funcional, hay una fórmula o regla que relaciona sin dudas
a ambas variables y una de las variables depende de la otra.

ISIV – Página 2 de 12
ESTADÍSTICA
MÓDULO 2

b) Relación aleatoria o estadística:

Si consideramos un trabajo estadístico bidimensional como el ejemplo del estudio del


peso y la altura de alumnos de una cierta edad.
Sin dudas a una estatura elevada corresponde probablemente mayor peso, pero no
podemos asegurar que para una estatura de 1,65 m corresponden 70 kg de peso.
Es decir que no puedo establecer una relación funcional entre las variables, como en el
caso del espacio y el tiempo.
Esta es la característica de esta dependencia, no poder establecer entre las variables una
fórmula matemática que las relacione, sin embargo permite establecer globalmente un
juicio de aproximación sobre el fenómeno estudiado.

c) Independencia aleatoria o estadística.

Es cuando entre las dos series estadísticas es imposible establecer una mínima relación de
dependencia. Por ejemplo se analiza durante el mes de enero de 2011, la cantidad de
aviones que aterrizan diariamente en el aeropuerto de Ezeiza y la cantidad de personas
que fallecen diariamente en Buenos Aires en el mismo mes. Aquí las variables son
totalmente independientes. No se puede deducir a partir de la cantidad de aterrizajes
diarios la cantidad de personas que diariamente fallecen en Buenos Aires.

TABLAS ESTADISTICAS:

Al igual que en las variables unidimensionales, también se forman exactamente las tablas para
las variables bidimensionales (O sea que hay que tener en cuenta que ahora hay dos variables:
“x” e “y”

Analizamos dos gráficos a dos ejemplos dados, uno de dependencia funcional y otro de
dependencia aleatoria:

A los gráficos se les denomina nube de puntos. Son puntos de un conjunto de puntos del plano
que tiene por coordenadas los correspondientes valores de las series estadísticas.

ISIV – Página 3 de 12
ESTADÍSTICA
MÓDULO 2

l = longitud

l = 2πr

En una dependencia funcional la nube


de puntos se concentra sobre una
línea.

r = radio

En una relación de dependencia funcional se genera una forma (línea, parábola, etc), como
producto de dicha relación.

y= pesos

En una dependencia aleatoria la nube


de puntos no se sitúa sobre ninguna
línea determinada, sin embargo puede
aproximarse a una recta, elipse, etc.

x = estaturas

Si se trata de una independencia aleatoria o estadística, el gráfico presenta las siguientes


características:

ISIV – Página 4 de 12
ESTADÍSTICA
MÓDULO 2

y = defunciones

En la independencia aleatoria o
estadística la nube de puntos está
desordenada sobre el plano y muy
dispersa a cualquier línea que se
quiera aproximar.

x = aterrizajes de aviones

AJUSTE DE UNA NUBE DE PUNTOS:

Ajustar una nube de puntos es determinar una expresión matemática y como consecuencia, una
línea geométrica (Representación gráfica de esa función) que mejor represente la relación o
dependencia existente entre las dos variables. Es un método gráfico y de tanteo.

En este curso elegiremos como línea de ajuste a la línea recta, ya que otras líneas como
parábolas, elipses, etc. Necesitan cálculos más complicados que exceden el nivel de este curso.

ANALISIS DE UN EJEMPLO:

Supongamos que a 12 alumnos seleccionados al azar se le toman exámenes de Biología y


Química:

Alumno Biología Química


A 2 1
B 3 3
C 4 2
D 4 4
E 5 4
F 6 4
G 6 6
H 7 4
I 7 6
J 8 7
K 10 9
L 10 10

ISIV – Página 5 de 12
ESTADÍSTICA
MÓDULO 2

La distribución bidimensional: Notas de biología – notas de química

Puede representarse de la siguiente manera:

Química

Biología

Se ha formado la nube de puntos. Cada punto es un alumno con las notas de las dos materias. A
la primer nota la ubicamos en el eje de abscisas (eje x) y la segunda nota en el eje de ordenadas
(eje y). Cada par de notas forma un par ordenado.

Se observa una cierta alineación de la nube de puntos.

Para observar mejor ubicamos una recta que trate de acercarse a la disposición de los puntos. A
esta recta se le denomina recta de regresión. En primera instancia la trazamos “a ojo” y debe
pasar por el punto , o sea el punto formado por la media aritmética de ambas materias.

Si calculamos las medias de ambas materias tenemos:

Promedio de las notas de biología:

Promedio de las notas de química: = =

Por lo tanto el punto es igual a (6; 5) y se denomina centro de gravedad de la


distribución.

ISIV – Página 6 de 12
ESTADÍSTICA
MÓDULO 2

Ubicamos el punto en el gráfico y trazamos una recta que pase por ese punto.

Química

Biología

SINTESIS:

Ante un conjunto de “n” individuos, a cada uno de ellos se le tomas dos medidas, es decir se
averigua qué valores toman, en ellos, dos variables “x” e “y”, obteniéndose así un conjunto de
pares de valores: (x1, y1), (x2, y2),… (xi, yi)…. , (xn, yn).
A este conjunto se le denomina distribución bidimensional. Si a cada par de valores los tomamos
como las coordenadas de un punto, la representación de todos ellos sobre un diagrama cartesiano
se llama nube de puntos o diagrama de dispersión.
Sobre la nube de puntos puede trazarse una recta que se ajuste a ellos lo mejor posible. Se llama
recta de regresión y pasa por el punto , llamado dentro de gravedad de la distribución.

Ahora tenemos que solucionar un problema: ¿Cómo encontrar la ecuación de esa recta práctica
que trazamos anteriormente?
Para ello, debemos realizar algunos cálculos:
COVARIANZA: es la medida de correlación entre dos variables, se la designa con el símbolo

σ xy y la debemos calcular antes de buscar la ecuación matemática que las relaciona.

La covarianza surge del cociente (división), entre la suma de los productos de sus desviaciones
por el número de productos.

ISIV – Página 7 de 12
ESTADÍSTICA
MÓDULO 2

∑ (x − x ).( y i − y )
σ xy =
1
i =1

Hallaremos la covarianza con respecto al ejemplo que veníamos desarrollando:

Alumno Biología Química


A 2 1
B 3 3
C 4 2
D 4 4
E 5 4 Promedio Biología= 6
F 6 4
G 6 6 Promedio Química= 5
H 7 4
I 7 6
J 8 7
K 10 9
L 10 10

Alumno (xi − x ) (xi − x ) ² ( yi − y ) ( yi − y ) ² (xi − x ) . ( y i − y )


A -4 16 -4 16 (-4).(-4) = 16
B -3 9 -2 4 6
C -2 4 -3 9 6
D -2 4 -1 1 2
E -1 1 -1 1 1
F 0 0 -1 1 0
G 0 0 1 1 0
H 1 1 -1 1 -1
I 1 1 1 1 1
J 2 4 2 4 4
K 4 16 4 16 16
L 4 16 5 25 20
∑ 72 ∑ 80 ∑ 71

Biología Química

NOTA: el símbolo ∑ significa la sumatoria de toda la columna. Estos datos luego nos
permitirán calcular las medidas de correlación.

ISIV – Página 8 de 12
ESTADÍSTICA
MÓDULO 2
n

∑ (x − x ).( y i − y )
Por lo tanto la covarianza será: σ xy =
1
71
i =1
= = 5,9
n 12

Pero la covarianza es una medida que al no ser adimensional (sin dimensiones), ya que conserva
las unidades de las variables intervinientes, no nos permite medir correlaciones entre variables
unidimensionales expresadas en distintas unidades.

Para ello recurriremos al COEFICIENTE DE CORRELACIÓN, al que simbolizamos con la letra


“r”, que es adimensional y se obtiene al dividir la covarianza por el producto de las desviaciones
típicas de ambas variables, es decir:

σ xy
r=
σ x .σ y
Que reemplazando por sus expresiones tenemos:

∑ (x
i =1
i − x ).( yi − y )
σ xy n
r= =
σ x .σ y n n

∑ (x
i =1
i − x) 2
∑(y
i =1
i − y)2
.
n n
Trabajando algebraicamente la expresión, podemos simplificar “n”, quedando la fórmula de la
siguiente manera:

∑(x i − x ).( yi − y )
r= i =1
n n


i =1
( xi − x ) 2 . ∑
i =1
( yi − y ) 2

Cada una de estas expresiones ya la tenemos calculada en nuestro cuadro, solo nos resta
reemplazar por sus valores correspondientes:

71 71 71
Por lo tanto: r = = = = 0,935
( 72 ).( 80 ) (8,48).(8,94) 75,9

ISIV – Página 9 de 12
ESTADÍSTICA
MÓDULO 2

Propiedades a tener en cuenta:


1) El valor de “r” está comprendido entre -1 y 1, o sea − 1 ≤ r ≤ 1
2) Si r = -1 ó r = 1, todos los puntos están sobre la misma recta.
3) Si el valor de r está próximo a 1, podemos asegurar que hay una fuerte correlación lineal
positiva entre las variables y se está próxima a -1 hay una fuerte correlación lineal
negativa.
4) Si el valor de r, está próximo al 0, no existe correlación entre las variables. Se considera
significativa la correlación si r ≥ 0,87 (Por lo tanto en nuestro ejemplo hay una gran

correlación positiva entre las dos variables).

El decir que es una correlación positiva se debe a que la disposición de los datos es ascendente, y
por lo tanto la recta sobre la que se agrupan los datos es creciente. Si es negativa la recta será
decreciente.

RECTA DE REGRESIÓN:

Si hemos cumplido con estos pasos previos y el coeficiente de correlación es un valor próximo a
1 o -1, estaremos en condiciones de encontrar una ecuación lineal que designa una recta que
representa a estos puntos generados por las variables. Es decir una recta, en torno a la cual se
agrupan los datos.
Esta recta nos permitirá realizar estimaciones sobre el comportamiento de las variables, ya que al
encontrar una ley general que me sintetice la correlación entre ambas, podremos encontrar datos
de una variable a partir de dar valores a la otra, que no es otra cosa que el principio de una
función lineal.

NOTA: La correlación no solo genera rectas, surgen parábolas, hipérbolas, etc., debido a su
complejidad, este tipo de gráficas y sus ecuaciones no se tratarán en este curso por exceder los
alcances del mismo, por lo que nos limitaremos a trabajar con nubes de puntos que se
aproximan a una línea recta.

¿Cómo encontramos la fórmula (ecuación) de estas rectas, que llamaremos rectas de regresión?

ISIV – Página 10 de 12
ESTADÍSTICA
MÓDULO 2

Volvemos a nuestro gráfico (nube de puntos):

Los segmentos punteados que unen a los puntos con la recta indican las distancias “d”. Son
segmentos perpendiculares.

Partimos de dos supuestos:


a) La recta de regresión de y sobre x, (y en función de x) debe pasar por el centro de
gravedad de la distribución ( x, y ) (En el ejemplo es el punto de color verde)
b) La suma de los cuadrados de las distancias desde cada punto de la nube a la recta de
regresión: d 12 + d 22 + d 32 + .... + d n2 debe ser la menor posible (O mínima).

A partir de estos supuestos, determinamos que la recta de regresión será:

∑ (x
i =1
i − x ) ⋅ ( yi − y )
y− y = n
⋅(x − x)
∑ (x
i =1
i − x )2

y = 5

∑ ( xi − x ) ⋅ ( y i − y ) = 71
Estos datos ya lo tenemos calculado, a saber: 
∑ ( xi − x ) = 72
2

x = 6

Reemplazando en la fórmula se tiene:

ISIV – Página 11 de 12
ESTADÍSTICA
MÓDULO 2

71
y −5 = ⋅ ( x − 6)
72

Trabajando la fórmula tenemos:

y -5 = 0,987. (x – 6)

Dada la aproximación que tiene este número 0,987 a 1, podemos redondear para facilitar los
cálculos.
y -5 = 1. (x – 6) Como al aplicar la propiedad distributiva, el 1 es absorbido al multiplicar nos
queda:

y – 5 = x – 6 Luego, sumando 5 a ambos miembros para despejar “y”:

y–5+5=x-6+5

De donde y = x - 1

Escrita de otra manera tenemos:

x - y–1=0

x–y=1

Todas expresiones de la misma recta.

NOTA: es conveniente trabajar con los valores decimales que surjan, en este ejemplo se
redondeó debido a la cercanía de 0,99 con 1.

ISIV – Página 12 de 12

También podría gustarte