0% encontró este documento útil (0 votos)
16 vistas48 páginas

Análisis de Datos Transversales en Estadística

Cargado por

maria rodriguez
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
16 vistas48 páginas

Análisis de Datos Transversales en Estadística

Cargado por

maria rodriguez
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

El uso de este material es exclusivo

para los alumnos que acceden a él a


través del aula virtual. Queda prohibida
cualquier forma de reproducción,
almacenamiento o transmisión de
forma electrónica o mecánica,
fotocopia o grabación sin el permiso
previo por escrito del autor
TEMA 1
ANÁLISIS DE DATOS
TRANSVERSALES
Parte I

Apuntes realizados por Cristina Aybar


¿Qué es la estadística?
 Colección de datos ordenados y sistemáticos

 Ciencia que trata de analizar la regularidad del comportamiento colectivo, con un doble
objetivo:

 realizar descripciones
 y a partir de éstas, hacer predicciones o estimaciones

3
Toda investigación científica debe referirse a un conjunto de personas o cosas, denominado
colectivo (universo):

UNIVERSO U  (u1, u2 ,..., u N )

X: característica

( x1 , x2 ,..., x N ) POBLACIÓN Estadística descriptiva

MUESTRA (u1 , u2 ,..., un ) n  N

Modelos de
Inferencia
muestra ( x1, x2 ,..., xn ) probabilidad
observaciones muestrales

Estadística descriptiva

4
¿En qué campos puede ser de utilidad las técnicas estadísticas
para un economista?

Recursos humanos:
Análisis de los resultados obtenidos en los test de aptitudes.

Marketing:
Estudios de mercado dirigidos al conocimiento de la demanda, productos competidores, efectos
de campañas publicitarias y lanzamiento de nuevos productos.

Producción:
El Control de Calidad es un conjunto de herramientas estadísticas eficaces para mejorar los
procesos de producción y reducir sus defectos.

Finanzas:
Las técnicas estadísticas pueden ayudar a un inversor a realizar un análisis de inversiones para
seleccionar entre distintos productos financieros y cuantificar el grado de incertidumbre de las
operaciones.

5
Las variables observadas pueden ser:
Cualitativas: No se pueden medir, sino que sus caracteres, denominados atributos, se
describen mediante palabras (estado civil, profesión, nacionalidad,…) Pueden hacer
referencia a:
ordinales: susceptibles de ordenación (calificaciones; motivación de los empleados;
calidad del servicio prestado…)
nominales: no susceptibles de ordenación (sexo, estado civil, veredicto en un juicio…)

Cuantitativas: cuyos caracteres, denominados variables son los que se describen mediante
números (salarios, edad, ventas…)
discretas: sólo puede tomar unos determinados valores y no es posible que tome un valor
comprendido entre dos consecutivos (número de trabajadores en una empresa, número de
piezas defectuosas…)
continuas: puede tomar cualquier valor definido por un intervalo (estatura, peso, salarios,
temperatura…)
6
Los elementos del colectivo observado pueden ser:
 Unidimensionales: se observa UNA única característica (variable). Por ejemplo, la edad
de los matriculados en este grupo de estadística.
 Multidimensionales: se observan conjuntamente VARIAS características. Por ejemplo, la
edad y el sexo de los matriculados en este grupo de estadística.

 Atemporales o cross-section (corte transversal): estudio en un momento determinado


del tiempo. Por ejemplo, los ingresos de un grupo de empresas durante el pasado año.
 Temporales o cronológicos: evolución de la característica a lo largo del tiempo. Por
ejemplo, los ingresos de una empresa durante los últimos 20 años.

7
La información se ordena en una DISTRIBUCIÓN DE FRECUENCIAS

Calificaciones grupo A

ni fi Ni Fi
Suspenso 10 10/30 = 0.33 10 0.33
Aprobado 8 8/30 = 0.27 10+8 = 18 18/30 = 0.60
Notable 7 7/30 = 0.24 18+7 =25 25/30 = 0.84
Sobresaliente 4 4/30 = 0.13 25+4 = 29 29/30 = 0.97
Matrícula Honor 1 1/30 = 0.03 29+1 = 30 30/30 = 1

total N=30 1

Frecuencia absoluta ordinaria ni: número de veces que se repite el valor de la variable o el
número de elementos que pertenecen a una categoría.
𝑖

Frecuencia absoluta acumulada Ni 𝑵𝒊 = 𝑛1 + 𝑛2 + ⋯ + 𝑛𝑖 = ෍ 𝑛𝑖


𝑛=1

𝑛𝑖
Frecuencia relativa ordinaria fi: proporción de veces que se repite cada valor de la variable 𝒇𝒊 =
𝑁
𝑖
𝑁𝑖
Frecuencia relativa acumulada Fi 𝑭𝒊 = 𝑓1 + 𝑓2 + ⋯ + 𝑓𝑖 = ෍ 𝑓𝑖 =
𝑁 8
𝑛=1
Calificaciones grupo A
ni fi Ni Fi

Suspenso 5 5/30 = 0.17 5 0.17


Aprobado 9 9/30 = 0.30 5+9 = 14 14/30 = 0.47
Notable 10 10/30 = 0.33 14+10 =24 24/30 = 0.8
Sobresaliente 5 5/30 = 0.17 24+5 = 29 29/30 = 0.97
Matrícula Honor 1 1/30 = 0.03 29+1 = 30 30/30 = 1

total N=30 1

Calificaciones grupo B
ni fi Ni Fi

Suspenso 15 15/52 = 0.29 15 15/52 = 0.29


Aprobado 11 11/52 = 0.21 15+11 = 26 26/52 = 0.50
Notable 15 15/52 = 0.29 26+15 =41 41/52 = 0.79
Sobresaliente 10 10/52 = 0.19 41+10 = 51 51/52 = 0.98
Matrícula Honor 1 1/52 = 0.02 51+1 = 52 52/52 = 1

total N=52 1
9
Calificaciones grupo A: variable continua
ni fi Ni Fi
[0-5[ 5 5/30 = 0.17 5 0.17
[5-7[ 9 9/30 = 0.30 5+9 = 14 14/30 = 0.47
[7-9[ 10 10/30 = 0.33 14+10 =24 24/30 = 0.8
[9-10[ 5 5/30 = 0.17 24+5 = 29 29/30 = 0.97
10 1 1/30 = 0.03 29+1 = 30 30/30 = 1

total N=30 1

Expedientes grupo A: variable discreta


ni fi Ni Fi
0 5 5/30 = 0.17 5 0.17
1 9 9/30 = 0.30 5+9 = 14 14/30 = 0.47
2 10 10/30 = 0.33 14+10 =24 24/30 = 0.8
3 5 5/30 = 0.17 24+5 = 29 29/30 = 0.97
4 1 1/30 = 0.03 29+1 = 30 30/30 = 1

total N=30 1

10
Tema 1 Representación gráfica de variables

PICTOGRAMA
Se asocia a cada categoría de la variable un
dibujo, relacionado con ésta, cuyo tamaño será
proporcional a la frecuencia.

DIAGRAMA DE BARRAS
se sitúan en el eje de abscisas (eje X) los valores de la variable y en el eje de ordenadas (eje Y) las
frecuencias ordinarias (absolutas o relativas), asociando una barra a cada xi, cuya altura será
proporcional a la frecuencia que le corresponda.

DIAGRAMA EN ESCALERA
En el eje de ordenadas las frecuencias acumuladas (Ni o Fi) y uniendo las
barras mediante segmentos paralelos al eje de abscisas. Se denomina
diagrama en escalera por la forma en escalera que adopta, donde la altura
de cada escalón es la frecuencia ordinaria (absoluta o relativa) asociada al
correspondiente valor xi

11
HISTOGRAMA: POLÍGONO DE FRECUENCIAS
En la abscisa los intervalos (Li-1,Li) y sobre cada Se obtiene al unir, mediante líneas rectas,
uno de ellos se construye un rectángulo de base los puntos medios de los lados superiores
igual a la amplitud del intervalo 𝑐𝑖 y de altura hi : de los rectángulos del histograma:
𝑛𝑖 𝑓𝑖
ℎ𝑖 = =
𝑐𝑖 𝑐𝑖

POLIGONO ACUMULATIVO
DE FRECUENCIAS
En el eje de abscisas los intervalos (Li-1,Li), y en el eje de
ordenadas las frecuencias, absolutas o relativas,
acumuladas. 12
TEMA 1
ANÁLISIS DE DATOS
TRANSVERSALES
Parte II

Apuntes realizados por Cristina Aybar


MEDIDAS DE POSICIÓN: tienen por objetivo situar la distribución

media aritmética: representa el valor medio de la distribución


mediana: es el valor que ocupa la posición central
cuantiles: dividen a la distribución en partes iguales
moda: el valor que más veces se repite

MEDIDAS DE DISPERSIÓN: miden la variabilidad de los datos


varianza
desviación típica
coeficiente de variación

MEDIDAS DE FORMA O PERFIL


simetría / asimetría
apuntamiento / aplastamiento

14
media aritmética
n
1 N 1 n
X   xi X   xi ni X   xi fi
N i 1 N i 1 i 1

Ventajas:

 Aprovecha toda la información disponible


 Es fácil de calcular
 Toma un valor único

Inconveniente:

 Si la distribución tiene valores extremos, al utilizar toda la información, puede distorsionar


el resultado y ser éste poco representativo de la realidad

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

1 + 2 + 3 + 4 + 5 15 1 + 2 + 3 + 4 + 10 20
= =3 = =4
5 5 5 5 15
Ejemplo: Una empresa dispone de 10 empleados. Durante el mes pasado, el número de días que
cada empleado estuvo enfermo fue:
3 , 0 , 5 , 6 , 1 , 0 , 11 , 6 , 0 , 4
Determinar el número de días que por término medio estuvo enfermo un empleado.

Colectivo: los 10 empleados


Variable X: número de días enfermo el pasado mes
N=10

x i
3+0+5+6+1+0+11+6+0+4 36
x= i=1
=   3, 6
N 10 10

¿Cuántos valores distintos toma la variable X?


¿Se repiten valores?
I=7

x n i i
36
x= i=1
=  3, 6 días por empleado
N 10
16
media de medias de r colectivos o media ponderada
N1 N2 Nr

N1x1  N 2 x2   N r xr
 x1i   x2i   xri
x  i 1 i 1 i 1
N1  N 2   N r N1  N 2   N r

𝑁 𝑁
1
𝑋ത = ෍ 𝑋𝑖 → 𝑁𝑋ത = ෍ 𝑋𝑖
𝑁
𝑖=1 𝑖=1

grupos nota media presentados


A 5.5 70
B 4 40
C 6 65

70  5.5  40  4  65  6 385  160  390


x   5.34
70  40  65 175
17
mediana, cuantiles y moda
 Ordenados los valores, la mediana es el que ocupa el valor central

 Utiliza menos información que la media aritmética, ya que sólo tiene en cuenta la ordenación pero no
su magnitud, por lo que no se ve alterado por valores extremos:

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

Me=3 Me=3

La Media es la medida de tendencia central que más se usa, pero cuando existan valores extremos, la
Mediana será más conveniente como medida de posición

 Los cuantiles dividen en partes iguales:


• en dos partes: mediana • en diez partes: deciles
• en cuatro partes: cuartiles • en cien partes: percentiles

 La moda es el valor de la variable que más veces se repite, pudiendo existir más de una moda
18
Notas: 1 2 2.5 4 5 5 6 8 9 9 10

Me = 5

N  1 11  1
N = 11 Existe una posición central  6
(número impar) 2 2

Notas: 1 2 2.5 4 5 5 6 8 9 9 10 10

56
Me   5.5
2

N 12
N = 12 No existe posición central  6 y el valor siguiente
(número par) 2 2
19
calificaciones ni Ni
Cálculo de la CUANTILES cuando la frecuencia no
0 1 1 es única
1 1 2
2 1 3
3 1 4
4.5 1 5
N/4 = 7.5 q1 = 5
5 3 8
5.5 4 12
6 2 14
N/2 = 15 y N/2 + 1 = 16 Me = 7
7 4 18
7.5 2 20
8 2 22
3N/4 = 22.5 q3 = 8.5
8.5 2 24
9 4 28 aN/100 = 28 a ≈ 93 p93 ≈ 9
9.5 1 29
10 1 30

20
𝒍𝒊−𝟏 𝒍𝒊 𝒙𝒊 𝒏𝒊 𝑵𝒊 226
35 56 45,5 15 15 200
56 77 66,5 90 105 𝑁 400
= = 200
77 98 87,5 121 226 2 2 226-105=121
98 119 108,5 65 291
95
119 140 129,5 22 313
140 161 150,5 50 363
105
161 182 171,5 22 385
182 203 192,5 6 391
X
203 224 213,5 6 397
224 245 234,5 3 400 77 Me 98
400

98-77=21
Calculo de la mediana
si existen intervalos
De forma análoga procedemos si 121 95 21 ∙ 95
= → 121X = 21 ∙ 95 → X = = 16,49
queremos obtener cualquier 21 X 121
cuantil. Comenzaríamos por
Me = 77 + 16,49 = 93,49
calcular 35N/100 si quisiéramos,
por ejemplo, el percentil 35
21
 Un promedio resume todos los valores observados en uno que los representa
 La utilidad del promedio depende por tanto de su poder de representación:
 Si los valores observados de la variable están muy concentrados alrededor del promedio,
éste será muy representativo
 Si los valores están muy dispersos con relación al promedio, éste es poco representativo

Ejemplo: Somos el responsable de compras de una empresa y sabemos que dos de nuestros
proveedores tardan por término medio 10 días en servir el pedido, pero con
comportamientos distintos. ¿Cuál de los dos preferimos?¿Cuál es más consistente?
proveedor A proveedor B

9 10 11 7 8 9 10 11 12 13 14 15

 Como consecuencia, un promedio debe ir acompañado de una medida de dispersión, variabilidad


u oscilación de las observaciones en torno a él, que nos indicará su representatividad
 Las medidas de dispersión absolutas son la varianza y la desviación típica
 La medida de dispersión relativa es el coeficiente de variación de Pearson 22
 La solución que parece simple al hablar de dispersión absoluta es promediar las desviaciones de la
variable respecto de la media, pero comprobamos que siempre es cero:

1 N 1 N 1 N 1
 i
N i 1
 x  x ni  ii N i
N i 1
x n  x n  x 
N
xN  x  x  0
i 1

Esto es lo que se llama propiedad fundamental de la media y es debido a que las diferencias
positivas se compensan con negativas

Ejemplo: se tomó una muestra de personas que fuman y se les preguntó por la edad que
empezaron a adquirir ese hábito. Las respuestas fueron:
14, 16, 15, 18, 17, 19, 19, 18
Verifica que la suma de las desviaciones respecto de la media es cero.

 Para evitar este problema una solución es elevar al cuadrado esas diferencias y así evitar las
compensaciones, el resultado es lo que se denomina varianza:
N N
1 1
S x2 
N
  xi  x 2
ni 
N
 xi2ni  x 2
i 1 i 1
23
siendo la última igualdad su expresión operativa.
N N
1 1
S x2 
N
  xi  x  2
ni 
N
 xi2ni  x 2
i 1 i 1

Un valor de varianza alto significa mucha dispersión y, por tanto, poca representatividad de la media.
Un valor de varianza bajo significa poca dispersión y, por tanto, alta representatividad de la media.

xi ni xini xi-x (xi-x)2 (xi-x)2ni xi2ni


I=5
1 2 2 -2 4 8 2
x n i i
72
2 5 10 -1 1 5 20 x= i=1
= 3
3 10 30 0 0 0 90 N 24
4 5 20 1 1 5 80
5 2 10 2 4 8 50
N=24 =72 = 26 = 242

I=5

 i  ni
I=5

  x i -x   ni
2 2
x
26 242 2
S2X  i=1
  1, 083 S2X  i 1
 x2   3  1, 083
N 24 N 24
24
 La varianza tiene dos problemas fundamentales para su interpretación:
• su aparente gran magnitud, al ser unidades al cuadrado
• la falta de acotación superior, ya que puede tomar cualquier valor superior o igual a cero

 La primera dificultad se soluciona calculando la raíz cuadrada de la varianza, dando lugar a la


desviación típica.

 La segunda dificultad no tiene solución y la interpretación dependerá de la experiencia y el


sentido común.

 Para comparar dispersiones de dos o más distribuciones con distintas medias o distintas
unidades de medida se utiliza el coeficiente de variación de Pearson, definido como:

Sx
CV ( x)  g 0 ( x)  estadístico adimensional
x

Cuanto mayor es, mayor dispersión tiene su distribución

25
Ejercicio

 Sea U un colectivo definido por los matriculados en el grupo A de un


instituto, cuyo tamaño es N=47,

 Sea X la variable “ notas en Sociales ” observada sobre el colectivo


anterior,

Realizad una descripción de la población “notas de sociales del grupo


A” dados los siguientes estadísticos:

x  5.4 Me=2 Mo=1 S x  4.06

26
 Si el valor que más veces se repite es el 1, y la mitad de los estudiantes tienen una nota inferior a
2, la conclusión es que deben haber notas muy altas para que la media pueda ser 5.4

 De hecho, una desviación típica de 4.06 puntos indica que podría haber calificaciones por encima
de 9 puntos y próximas a 1.

La distribución a partir de la que se han obtenido los estadísticos es:

notas presentados
1 13
2 11
9 11
10 12

27
TEMA 1
ANÁLISIS DE DATOS
TRANSVERSALES
Parte III

Apuntes realizados por Cristina Aybar


medidas de forma
 Estas medidas describen la manera como los datos tienden a reunirse de acuerdo con la
frecuencia con que se hallen en la distribución.
 Su utilidad radica en la posibilidad de identificar las características de la distribución sin
necesidad de generar el gráfico. Sus principales medidas son la asimetría y la curtosis.
 Existen tres estados que indican como se distribuyen los datos respecto del eje de
simetría:
• asimetría positiva (o a la derecha): la mayor parte de los valores se encuentran por
debajo de la media (la cola de la derecha es más larga)
• asimetría negativa o a la izquierda: la mayor parte de los valores se encuentran por
encima de la media (la cola de la izquierda es más larga)
• simetría: aproximadamente la misma cantidad a ambos lados de la media

29
I
 x i  x   ni
3

i 1

g1 X   N
S3X
Coeficiente de asimetría
de Fisher

𝒈𝟏 𝑿 < 𝟎 𝒈𝟏 𝑿 = 𝟎 𝒈𝟏 𝑿 > 𝟎 30
 Curtosis determina el grado de concentración que presentan los valores en la región central de la
distribución.

 Existen tres estados de apuntamiento/aplastamiento: I

• leptocúrtica: gran concentración de valores


 i
( x  x) 4
.n i
i 1

• mesocúrtica: concentración normal de valores g 2 X   N 3


S4X
• platicúrtica: baja concentración de valores
Coeficiente de Curtosis

𝒈𝟐 𝑿 > 𝟎 𝒈𝟐 𝑿 = 𝟎 𝒈𝟐 𝑿 < 𝟎 31
valores extremos
 Valores que distan del promedio y que pueden distorsionar los resultados descriptivos.
 Pueden deberse a errores de medición o simplemente valores que distan del comportamiento
habitual en la distribución.

 Una vez detectados es importante diferenciar si son producto del error o no.

 Una forma de detectarlos es comparando el rango de los datos (diferencia entre el valor máximo
y el mínimo) y el rango intercuartílico (diferencia entre el tercer y el primer cuartil). Si el rango es
grande, habrá dispersión, pero si además el rango intercuartílico es pequeño, es porque hay
valores extremos.
Xi Ni Yi Ni
0 1 2 3 4 5 6 7 8 9 10 1 1 1 1 0 1 2 3 4 5 6 7 8 9 10

rango=10-1=9 2 2 2 2 rango=5-1=4
3 3 3 3
N/4=5/4=1.25 → 𝑞1 ≈ 2 N/4=5/4=1.25 → 𝑞1 ≈ 2
3N/4=3.75 → 𝑞3 ≈ 4 4 4 4 4 3N/4=3.75 → 𝑞3 ≈ 4
RI ≈ 4 − 2 = 𝟐 10 5 5 5 RI ≈ 4 − 2 = 𝟐
32
 Una distribución simétrica, con forma de campana y mesocúrtica es una distribución normal.

 La principal ventaja de la distribución normal radica en el supuesto de que el 95% de los valores se
encuentra dentro de una distancia de dos desviaciones estándar de la media aritmética.

 Por lo anterior, en aquellas distribuciones semejantes a la normal, se considera como valor


extremo aquel que diste de la media dos veces la desviación típica

33
BOXPLOT O DIAGRAMA DE BIGOTES O CAJA

𝑞1 Me 𝑞3

extremo
outlier
𝑳𝑰 = 𝒒𝟏 − 𝟏. 𝟓𝑹𝑰 𝑳𝑺 = 𝒒𝟑 + 𝟏. 𝟓𝑹𝑰

𝑅𝐼 = 𝑞3 − 𝑞1
rango intercuartílico

Este gráfico nos permite representar medidas de posición y con ellas incluso tener una visión de
las dispersión a través del rango intercuartílico, mayor rango, mayor dispersión, así como
representar valores extremos.
34
TRANSFORMACIONES LINEALES
 Vamos a considerar 3 escenarios en los que, partiendo de una variable “X”, podemos obtener, por
transformación lineal, una nueva variable “Y”.

yi  a  bxi
 A la variable “Y” le llamaremos variable dependiente (o explicada), puesto que depende de lo que
le ocurra a la variable “X”.

 A la variable “X” le llamaremos variable independiente o variable explicativa, puesto que será la
que explique el comportamiento de la variable “Y”.

 El objetivo de una transformación lineal es determinar las medidas de posición y de


dispersión de la variable “Y” sin necesidad de recurrir a su cálculo a través de su distribución
de frecuencias.

Si conozco la media, la
¿Puedo calcular la
mediana, la varianza…
media, la mediana, la SI
de la variable X y
varianza… de la
dispongo de la relación
variable Y?
lineal 35
TRANSFORMACIONES LINEALES

yi  a  bxi
1 1 1 1 1
ഥ = ෍ 𝑦𝑖 = ෍ 𝑎 + 𝑏𝑥𝑖 = ෍ 𝑎 + 𝑏 ෍ 𝑥𝑖 = 𝑁𝑎 + 𝑏𝑥ҧ = 𝒂 + 𝒃ഥ
𝒚 𝒙
𝑁 𝑁 𝑁 𝑁 𝑁
𝑖 𝑖 𝑖 𝑖

Lo mismo ocurrirá con la mediana, la moda y cualquier cuantil

1 1 1
𝑺𝟐𝒚 = ෍ 𝑦𝑖 − 𝑦ത 2
= ෍ 𝑎 + 𝑏𝑥𝑖 − 𝑎 − 𝑏𝑥ҧ 2
= 𝑏2 ෍ 𝑥𝑖 − 𝑥ҧ 2
= 𝒃𝟐 𝑺𝟐𝒙
𝑁 𝑁 𝑁
𝑖 𝑖 𝑖

36
TRANSFORMACIONES LINEALES

yi  a  bxi
Escenario 1
Por definición
Ejemplo:
• la variable “X” representa el número de horas trabajadas por empleado
• “b” el precio por hora
• “a” el coste fijo por desplazamiento
• dando lugar a “Y”: la facturación por empleado.

37
TRANSFORMACIONES LINEALES

yi  a  bxi
Escenario 2
Por reducción de escala
Para hacer más manejable la variable se reduce su magnitud, restando una
cantidad y dividiendo entre otra:

xi  a 1 a
yi   xi 
b b b

38
TRANSFORMACIONES LINEALES

yi  a  bxi
Escenario 3 (caso particular del 2)
Por tipificación
Para obtener valores con una media 0 y una desviación típica 1, con el objetivo de poder comparar la
posición relativa de dos valores de dos distribuciones distintas. ¿Será lo mismo obtener una nota de 5
puntos en incorporación a la universidad que un 5 en matemáticas I? Lógicamente, no, ya que el
comportamiento de ambas distribuciones de notas será muy distinto. Par poder compararlas, es
necesario, tipificar.

1 𝑥ҧ
xi  x 1 x 𝑦ത = 𝑥ҧ − = 0
yi   xi 
𝑆𝑥 𝑆𝑥

Sx Sx Sx 2
1
𝑆𝑦2 = 𝑆𝑥2 = 1
𝑆𝑥
39
Ejemplo

Variable: notas Incorporación Variable: notas Matemáticas I

𝑋ത = 8.5 𝑌ത = 4.5
𝑆𝑋 = 0.5 𝑆𝑌 = 2.5

¿qué tiene más


valor un 5 en
Incorporación o en
Matemáticas I?

5 − 8.5 5 − 4.5
𝑧𝑖 = = −7 𝑧𝑖 = = 0.2
0.5 2.5

0.2 > -7
Mejor nota en
términos relativos
el 5 en
40
Matemáticas
TEMA 1
ANÁLISIS DE DATOS
TRANSVERSALES
Parte IV

Apuntes realizados por Cristina Aybar


INDICE DE GINI Y CURVA DE LORENZ

 La CONCENTRACIÓN trata de medir el mayor o menor grado de igualdad en el reparto


del valor total de la variable, entre los elementos del colectivo.

 Por tanto, sólo tiene interés calcular la concentración en aquellas variables cuyo total
tenga algún significado (renta, salarios, sectores económicos, concentración humana),
en general variables de tipo socio-económico.

 Existen dos situaciones extremas en la concentración:

X1  X 2    X n máxima uniformidad
mínima concentración

X1    X n 1  0 y X n  0
mínima uniformidad
máxima concentración

42
 Dos estadísticos “pi” y “qi” nos van a servir para determinar la
concentración existente. Estos se calculan de la siguiente manera:

xi ni x i ni Ni ui pi qi

x1 n1 x1n1 N1 x1n1  u1 N1 N u1 ur

x2 n2 x 2 n2 N2 x1n1  x 2n2  u 2 N2 N u 2 ur

      

r
xr nr x r nr N r  N  x i ni  ur 1 1
i 1

valores ordenados
de menor a mayor 43
 Ejemplo: en una empresa trabajan 40 empleados, agrupados en 4
categorías profesionales (cada una con un sueldo distinto):

𝒙𝒊 𝒏𝒊 𝒙𝒊 𝒏𝒊 𝑵𝒊 𝒖𝒊 𝒑𝒊 𝒒𝒊
600 25 15.000 25 15.000 0,625 0,517
800 10 8.000 35 23.000 0,875 0,793
1.000 4 4.000 39 27.000 0,975 0,931
2.000 1 2.000 40 29.000 1 1
40 29.000

𝑁𝑖 𝑢𝑖
𝑢𝑖 = ෍ 𝑥𝑖 · 𝑛𝑖 𝑝𝑖 = 𝑞=
𝑁 𝑢𝑟

44
 Estos dos estadísticos pueden representarse gráficamente:

 Si la curva está cerca de la bisectriz, la distribución será bastante uniforme, si se


aleja de ella, la distribución será concentrada.
45
 El problema es que la curva no siempre permite comparar entre dos comportamientos

46
 La solución es obtener una medida cuantitativa de la concentración, llamada INDICE
DE GINI:
r 1
 ( pi  qi )
IG  i 1 , 0  IG  1
r 1
 pi
i 1

 IG = 0, pi = qi → mínima concentración-máxima uniformidad

 IG = 1, q1=…= qr-1 = 0 → máxima concentración-mínima uniformidad

Si el IG de una distribución es inferior al de otra distribución, se dice que la


concentración en la primera es inferior a la concentración en la segunda.

47
 Ejemplo: en una empresa trabajan 40 empleados, agrupados en 4 categorías
profesionales (cada una con un sueldo distinto):

𝒙𝒊 𝒏𝒊 𝒙𝒊 𝒏𝒊 𝑵𝒊 𝒖𝒊 𝒑𝒊 𝒒𝒊
600 25 15.000 25 15.000 0,625 0,517
800 10 8.000 35 23.000 0,875 0,793
1.000 4 4.000 39 27.000 0,975 0,931
2.000 1 2.000 40 29.000 1 1
40 29.000

σ𝑟−1
𝑖=1 (𝑝𝑖 − 𝑞𝑖 ) 0,625 − 0,517 + 0,875 − 0,793 + 0,975 − 0,931
𝐼𝐺 = = = 0,09
σ𝑟−1
𝑖=1 𝑝𝑖 0,625 + 0,875 + 0,975

Sabiendo que 0 ≤ 𝐼𝐺 ≤ 1
Un IG=0,09 es relativamente bajo, lo que significa que “existe una fuerte
equidistribución de los salarios en la empresa y, por tanto, una baja concentración
de los mismos”.
48

También podría gustarte