0% encontró este documento útil (0 votos)

16 vistas48 páginas

Análisis de Datos Transversales en Estadística

Cargado por

maria rodriguez

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

16 vistas48 páginas

Análisis de Datos Transversales en Estadística

Cargado por

maria rodriguez

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

El uso de este material es exclusivo

para los alumnos que acceden a él a

través del aula virtual. Queda prohibida
cualquier forma de reproducción,
almacenamiento o transmisión de
forma electrónica o mecánica,
fotocopia o grabación sin el permiso
previo por escrito del autor
TEMA 1
ANÁLISIS DE DATOS
TRANSVERSALES
Parte I

Apuntes realizados por Cristina Aybar

¿Qué es la estadística?
 Colección de datos ordenados y sistemáticos

 Ciencia que trata de analizar la regularidad del comportamiento colectivo, con un doble
objetivo:

 realizar descripciones
 y a partir de éstas, hacer predicciones o estimaciones

3
Toda investigación científica debe referirse a un conjunto de personas o cosas, denominado
colectivo (universo):

UNIVERSO U  (u1, u2 ,..., u N )

X: característica

( x1 , x2 ,..., x N ) POBLACIÓN Estadística descriptiva

MUESTRA (u1 , u2 ,..., un ) n  N

Modelos de
Inferencia
muestra ( x1, x2 ,..., xn ) probabilidad
observaciones muestrales

Estadística descriptiva

4
¿En qué campos puede ser de utilidad las técnicas estadísticas
para un economista?

Recursos humanos:
Análisis de los resultados obtenidos en los test de aptitudes.

Marketing:
Estudios de mercado dirigidos al conocimiento de la demanda, productos competidores, efectos
de campañas publicitarias y lanzamiento de nuevos productos.

Producción:
El Control de Calidad es un conjunto de herramientas estadísticas eficaces para mejorar los
procesos de producción y reducir sus defectos.

Finanzas:
Las técnicas estadísticas pueden ayudar a un inversor a realizar un análisis de inversiones para
seleccionar entre distintos productos financieros y cuantificar el grado de incertidumbre de las
operaciones.

5
Las variables observadas pueden ser:
Cualitativas: No se pueden medir, sino que sus caracteres, denominados atributos, se
describen mediante palabras (estado civil, profesión, nacionalidad,…) Pueden hacer
referencia a:
ordinales: susceptibles de ordenación (calificaciones; motivación de los empleados;
calidad del servicio prestado…)
nominales: no susceptibles de ordenación (sexo, estado civil, veredicto en un juicio…)

Cuantitativas: cuyos caracteres, denominados variables son los que se describen mediante
números (salarios, edad, ventas…)
discretas: sólo puede tomar unos determinados valores y no es posible que tome un valor
comprendido entre dos consecutivos (número de trabajadores en una empresa, número de
piezas defectuosas…)
continuas: puede tomar cualquier valor definido por un intervalo (estatura, peso, salarios,
temperatura…)
6
Los elementos del colectivo observado pueden ser:
 Unidimensionales: se observa UNA única característica (variable). Por ejemplo, la edad
de los matriculados en este grupo de estadística.
 Multidimensionales: se observan conjuntamente VARIAS características. Por ejemplo, la
edad y el sexo de los matriculados en este grupo de estadística.

 Atemporales o cross-section (corte transversal): estudio en un momento determinado

del tiempo. Por ejemplo, los ingresos de un grupo de empresas durante el pasado año.
 Temporales o cronológicos: evolución de la característica a lo largo del tiempo. Por
ejemplo, los ingresos de una empresa durante los últimos 20 años.

7
La información se ordena en una DISTRIBUCIÓN DE FRECUENCIAS

Calificaciones grupo A

ni fi Ni Fi
Suspenso 10 10/30 = 0.33 10 0.33
Aprobado 8 8/30 = 0.27 10+8 = 18 18/30 = 0.60
Notable 7 7/30 = 0.24 18+7 =25 25/30 = 0.84
Sobresaliente 4 4/30 = 0.13 25+4 = 29 29/30 = 0.97
Matrícula Honor 1 1/30 = 0.03 29+1 = 30 30/30 = 1

total N=30 1

Frecuencia absoluta ordinaria ni: número de veces que se repite el valor de la variable o el
número de elementos que pertenecen a una categoría.
𝑖

Frecuencia absoluta acumulada Ni 𝑵𝒊 = 𝑛1 + 𝑛2 + ⋯ + 𝑛𝑖 = ෍ 𝑛𝑖

𝑛=1

𝑛𝑖
Frecuencia relativa ordinaria fi: proporción de veces que se repite cada valor de la variable 𝒇𝒊 =
𝑁
𝑖
𝑁𝑖
Frecuencia relativa acumulada Fi 𝑭𝒊 = 𝑓1 + 𝑓2 + ⋯ + 𝑓𝑖 = ෍ 𝑓𝑖 =
𝑁 8
𝑛=1
Calificaciones grupo A
ni fi Ni Fi

Suspenso 5 5/30 = 0.17 5 0.17

Aprobado 9 9/30 = 0.30 5+9 = 14 14/30 = 0.47
Notable 10 10/30 = 0.33 14+10 =24 24/30 = 0.8
Sobresaliente 5 5/30 = 0.17 24+5 = 29 29/30 = 0.97
Matrícula Honor 1 1/30 = 0.03 29+1 = 30 30/30 = 1

total N=30 1

Calificaciones grupo B
ni fi Ni Fi

Suspenso 15 15/52 = 0.29 15 15/52 = 0.29

Aprobado 11 11/52 = 0.21 15+11 = 26 26/52 = 0.50
Notable 15 15/52 = 0.29 26+15 =41 41/52 = 0.79
Sobresaliente 10 10/52 = 0.19 41+10 = 51 51/52 = 0.98
Matrícula Honor 1 1/52 = 0.02 51+1 = 52 52/52 = 1

total N=52 1
9
Calificaciones grupo A: variable continua
ni fi Ni Fi
[0-5[ 5 5/30 = 0.17 5 0.17
[5-7[ 9 9/30 = 0.30 5+9 = 14 14/30 = 0.47
[7-9[ 10 10/30 = 0.33 14+10 =24 24/30 = 0.8
[9-10[ 5 5/30 = 0.17 24+5 = 29 29/30 = 0.97
10 1 1/30 = 0.03 29+1 = 30 30/30 = 1

total N=30 1

Expedientes grupo A: variable discreta

ni fi Ni Fi
0 5 5/30 = 0.17 5 0.17
1 9 9/30 = 0.30 5+9 = 14 14/30 = 0.47
2 10 10/30 = 0.33 14+10 =24 24/30 = 0.8
3 5 5/30 = 0.17 24+5 = 29 29/30 = 0.97
4 1 1/30 = 0.03 29+1 = 30 30/30 = 1

total N=30 1

10
Tema 1 Representación gráfica de variables

PICTOGRAMA
Se asocia a cada categoría de la variable un
dibujo, relacionado con ésta, cuyo tamaño será
proporcional a la frecuencia.

DIAGRAMA DE BARRAS
se sitúan en el eje de abscisas (eje X) los valores de la variable y en el eje de ordenadas (eje Y) las
frecuencias ordinarias (absolutas o relativas), asociando una barra a cada xi, cuya altura será
proporcional a la frecuencia que le corresponda.

DIAGRAMA EN ESCALERA
En el eje de ordenadas las frecuencias acumuladas (Ni o Fi) y uniendo las
barras mediante segmentos paralelos al eje de abscisas. Se denomina
diagrama en escalera por la forma en escalera que adopta, donde la altura
de cada escalón es la frecuencia ordinaria (absoluta o relativa) asociada al
correspondiente valor xi

11
HISTOGRAMA: POLÍGONO DE FRECUENCIAS
En la abscisa los intervalos (Li-1,Li) y sobre cada Se obtiene al unir, mediante líneas rectas,
uno de ellos se construye un rectángulo de base los puntos medios de los lados superiores
igual a la amplitud del intervalo 𝑐𝑖 y de altura hi : de los rectángulos del histograma:
𝑛𝑖 𝑓𝑖
ℎ𝑖 = =
𝑐𝑖 𝑐𝑖

POLIGONO ACUMULATIVO
DE FRECUENCIAS
En el eje de abscisas los intervalos (Li-1,Li), y en el eje de
ordenadas las frecuencias, absolutas o relativas,
acumuladas. 12
TEMA 1
ANÁLISIS DE DATOS
TRANSVERSALES
Parte II

Apuntes realizados por Cristina Aybar

MEDIDAS DE POSICIÓN: tienen por objetivo situar la distribución

media aritmética: representa el valor medio de la distribución

mediana: es el valor que ocupa la posición central
cuantiles: dividen a la distribución en partes iguales
moda: el valor que más veces se repite

MEDIDAS DE DISPERSIÓN: miden la variabilidad de los datos

varianza
desviación típica
coeficiente de variación

MEDIDAS DE FORMA O PERFIL

simetría / asimetría
apuntamiento / aplastamiento

14
media aritmética
n
1 N 1 n
X   xi X   xi ni X   xi fi
N i 1 N i 1 i 1

Ventajas:

 Aprovecha toda la información disponible

 Es fácil de calcular
 Toma un valor único

Inconveniente:

 Si la distribución tiene valores extremos, al utilizar toda la información, puede distorsionar

el resultado y ser éste poco representativo de la realidad

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

1 + 2 + 3 + 4 + 5 15 1 + 2 + 3 + 4 + 10 20
= =3 = =4
5 5 5 5 15
Ejemplo: Una empresa dispone de 10 empleados. Durante el mes pasado, el número de días que
cada empleado estuvo enfermo fue:
3 , 0 , 5 , 6 , 1 , 0 , 11 , 6 , 0 , 4
Determinar el número de días que por término medio estuvo enfermo un empleado.

Colectivo: los 10 empleados

Variable X: número de días enfermo el pasado mes
N=10

x i
3+0+5+6+1+0+11+6+0+4 36
x= i=1
=   3, 6
N 10 10

¿Cuántos valores distintos toma la variable X?

¿Se repiten valores?
I=7

x n i i
36
x= i=1
=  3, 6 días por empleado
N 10
16
media de medias de r colectivos o media ponderada
N1 N2 Nr

N1x1  N 2 x2   N r xr
 x1i   x2i   xri
x  i 1 i 1 i 1
N1  N 2   N r N1  N 2   N r

𝑁 𝑁
1
𝑋ത = ෍ 𝑋𝑖 → 𝑁𝑋ത = ෍ 𝑋𝑖
𝑁
𝑖=1 𝑖=1

grupos nota media presentados

A 5.5 70
B 4 40
C 6 65

70  5.5  40  4  65  6 385  160  390

x   5.34
70  40  65 175
17
mediana, cuantiles y moda
 Ordenados los valores, la mediana es el que ocupa el valor central

 Utiliza menos información que la media aritmética, ya que sólo tiene en cuenta la ordenación pero no
su magnitud, por lo que no se ve alterado por valores extremos:

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

Me=3 Me=3

La Media es la medida de tendencia central que más se usa, pero cuando existan valores extremos, la
Mediana será más conveniente como medida de posición

 Los cuantiles dividen en partes iguales:

• en dos partes: mediana • en diez partes: deciles
• en cuatro partes: cuartiles • en cien partes: percentiles

 La moda es el valor de la variable que más veces se repite, pudiendo existir más de una moda
18
Notas: 1 2 2.5 4 5 5 6 8 9 9 10

Me = 5

N  1 11  1
N = 11 Existe una posición central  6
(número impar) 2 2

Notas: 1 2 2.5 4 5 5 6 8 9 9 10 10

56
Me   5.5
2

N 12
N = 12 No existe posición central  6 y el valor siguiente
(número par) 2 2
19
calificaciones ni Ni
Cálculo de la CUANTILES cuando la frecuencia no
0 1 1 es única
1 1 2
2 1 3
3 1 4
4.5 1 5
N/4 = 7.5 q1 = 5
5 3 8
5.5 4 12
6 2 14
N/2 = 15 y N/2 + 1 = 16 Me = 7
7 4 18
7.5 2 20
8 2 22
3N/4 = 22.5 q3 = 8.5
8.5 2 24
9 4 28 aN/100 = 28 a ≈ 93 p93 ≈ 9
9.5 1 29
10 1 30

20
𝒍𝒊−𝟏 𝒍𝒊 𝒙𝒊 𝒏𝒊 𝑵𝒊 226
35 56 45,5 15 15 200
56 77 66,5 90 105 𝑁 400
= = 200
77 98 87,5 121 226 2 2 226-105=121
98 119 108,5 65 291
95
119 140 129,5 22 313
140 161 150,5 50 363
105
161 182 171,5 22 385
182 203 192,5 6 391
X
203 224 213,5 6 397
224 245 234,5 3 400 77 Me 98
400

98-77=21
Calculo de la mediana
si existen intervalos
De forma análoga procedemos si 121 95 21 ∙ 95
= → 121X = 21 ∙ 95 → X = = 16,49
queremos obtener cualquier 21 X 121
cuantil. Comenzaríamos por
Me = 77 + 16,49 = 93,49
calcular 35N/100 si quisiéramos,
por ejemplo, el percentil 35
21
 Un promedio resume todos los valores observados en uno que los representa
 La utilidad del promedio depende por tanto de su poder de representación:
 Si los valores observados de la variable están muy concentrados alrededor del promedio,
éste será muy representativo
 Si los valores están muy dispersos con relación al promedio, éste es poco representativo

Ejemplo: Somos el responsable de compras de una empresa y sabemos que dos de nuestros
proveedores tardan por término medio 10 días en servir el pedido, pero con
comportamientos distintos. ¿Cuál de los dos preferimos?¿Cuál es más consistente?
proveedor A proveedor B

9 10 11 7 8 9 10 11 12 13 14 15

 Como consecuencia, un promedio debe ir acompañado de una medida de dispersión, variabilidad

u oscilación de las observaciones en torno a él, que nos indicará su representatividad
 Las medidas de dispersión absolutas son la varianza y la desviación típica
 La medida de dispersión relativa es el coeficiente de variación de Pearson 22
 La solución que parece simple al hablar de dispersión absoluta es promediar las desviaciones de la
variable respecto de la media, pero comprobamos que siempre es cero:

1 N 1 N 1 N 1
 i
N i 1
 x  x ni  ii N i
N i 1
x n  x n  x 
N
xN  x  x  0
i 1

Esto es lo que se llama propiedad fundamental de la media y es debido a que las diferencias
positivas se compensan con negativas

Ejemplo: se tomó una muestra de personas que fuman y se les preguntó por la edad que
empezaron a adquirir ese hábito. Las respuestas fueron:
14, 16, 15, 18, 17, 19, 19, 18
Verifica que la suma de las desviaciones respecto de la media es cero.

 Para evitar este problema una solución es elevar al cuadrado esas diferencias y así evitar las
compensaciones, el resultado es lo que se denomina varianza:
N N
1 1
S x2 
N
  xi  x 2
ni 
N
 xi2ni  x 2
i 1 i 1
23
siendo la última igualdad su expresión operativa.
N N
1 1
S x2 
N
  xi  x  2
ni 
N
 xi2ni  x 2
i 1 i 1

Un valor de varianza alto significa mucha dispersión y, por tanto, poca representatividad de la media.
Un valor de varianza bajo significa poca dispersión y, por tanto, alta representatividad de la media.

xi ni xini xi-x (xi-x)2 (xi-x)2ni xi2ni

I=5
1 2 2 -2 4 8 2
x n i i
72
2 5 10 -1 1 5 20 x= i=1
= 3
3 10 30 0 0 0 90 N 24
4 5 20 1 1 5 80
5 2 10 2 4 8 50
N=24 =72 = 26 = 242

I=5

 i  ni
I=5

  x i -x   ni
2 2
x
26 242 2
S2X  i=1
  1, 083 S2X  i 1
 x2   3  1, 083
N 24 N 24
24
 La varianza tiene dos problemas fundamentales para su interpretación:
• su aparente gran magnitud, al ser unidades al cuadrado
• la falta de acotación superior, ya que puede tomar cualquier valor superior o igual a cero

 La primera dificultad se soluciona calculando la raíz cuadrada de la varianza, dando lugar a la

desviación típica.

 La segunda dificultad no tiene solución y la interpretación dependerá de la experiencia y el

sentido común.

 Para comparar dispersiones de dos o más distribuciones con distintas medias o distintas
unidades de medida se utiliza el coeficiente de variación de Pearson, definido como:

Sx
CV ( x)  g 0 ( x)  estadístico adimensional
x

Cuanto mayor es, mayor dispersión tiene su distribución

25
Ejercicio

 Sea U un colectivo definido por los matriculados en el grupo A de un

instituto, cuyo tamaño es N=47,

 Sea X la variable “ notas en Sociales ” observada sobre el colectivo

anterior,

Realizad una descripción de la población “notas de sociales del grupo

A” dados los siguientes estadísticos:

x  5.4 Me=2 Mo=1 S x  4.06

26
 Si el valor que más veces se repite es el 1, y la mitad de los estudiantes tienen una nota inferior a
2, la conclusión es que deben haber notas muy altas para que la media pueda ser 5.4

 De hecho, una desviación típica de 4.06 puntos indica que podría haber calificaciones por encima
de 9 puntos y próximas a 1.

La distribución a partir de la que se han obtenido los estadísticos es:

notas presentados
1 13
2 11
9 11
10 12

27
TEMA 1
ANÁLISIS DE DATOS
TRANSVERSALES
Parte III

Apuntes realizados por Cristina Aybar

medidas de forma
 Estas medidas describen la manera como los datos tienden a reunirse de acuerdo con la
frecuencia con que se hallen en la distribución.
 Su utilidad radica en la posibilidad de identificar las características de la distribución sin
necesidad de generar el gráfico. Sus principales medidas son la asimetría y la curtosis.
 Existen tres estados que indican como se distribuyen los datos respecto del eje de
simetría:
• asimetría positiva (o a la derecha): la mayor parte de los valores se encuentran por
debajo de la media (la cola de la derecha es más larga)
• asimetría negativa o a la izquierda: la mayor parte de los valores se encuentran por
encima de la media (la cola de la izquierda es más larga)
• simetría: aproximadamente la misma cantidad a ambos lados de la media

29
I
 x i  x   ni
3

i 1

g1 X   N
S3X
Coeficiente de asimetría
de Fisher

𝒈𝟏 𝑿 < 𝟎 𝒈𝟏 𝑿 = 𝟎 𝒈𝟏 𝑿 > 𝟎 30
 Curtosis determina el grado de concentración que presentan los valores en la región central de la
distribución.

 Existen tres estados de apuntamiento/aplastamiento: I

• leptocúrtica: gran concentración de valores

 i
( x  x) 4
.n i
i 1

• mesocúrtica: concentración normal de valores g 2 X   N 3

S4X
• platicúrtica: baja concentración de valores
Coeficiente de Curtosis

𝒈𝟐 𝑿 > 𝟎 𝒈𝟐 𝑿 = 𝟎 𝒈𝟐 𝑿 < 𝟎 31
valores extremos
 Valores que distan del promedio y que pueden distorsionar los resultados descriptivos.
 Pueden deberse a errores de medición o simplemente valores que distan del comportamiento
habitual en la distribución.

 Una vez detectados es importante diferenciar si son producto del error o no.

 Una forma de detectarlos es comparando el rango de los datos (diferencia entre el valor máximo
y el mínimo) y el rango intercuartílico (diferencia entre el tercer y el primer cuartil). Si el rango es
grande, habrá dispersión, pero si además el rango intercuartílico es pequeño, es porque hay
valores extremos.
Xi Ni Yi Ni
0 1 2 3 4 5 6 7 8 9 10 1 1 1 1 0 1 2 3 4 5 6 7 8 9 10

rango=10-1=9 2 2 2 2 rango=5-1=4
3 3 3 3
N/4=5/4=1.25 → 𝑞1 ≈ 2 N/4=5/4=1.25 → 𝑞1 ≈ 2
3N/4=3.75 → 𝑞3 ≈ 4 4 4 4 4 3N/4=3.75 → 𝑞3 ≈ 4
RI ≈ 4 − 2 = 𝟐 10 5 5 5 RI ≈ 4 − 2 = 𝟐
32
 Una distribución simétrica, con forma de campana y mesocúrtica es una distribución normal.

 La principal ventaja de la distribución normal radica en el supuesto de que el 95% de los valores se
encuentra dentro de una distancia de dos desviaciones estándar de la media aritmética.

 Por lo anterior, en aquellas distribuciones semejantes a la normal, se considera como valor

extremo aquel que diste de la media dos veces la desviación típica

33
BOXPLOT O DIAGRAMA DE BIGOTES O CAJA

𝑞1 Me 𝑞3

extremo
outlier
𝑳𝑰 = 𝒒𝟏 − 𝟏. 𝟓𝑹𝑰 𝑳𝑺 = 𝒒𝟑 + 𝟏. 𝟓𝑹𝑰

𝑅𝐼 = 𝑞3 − 𝑞1
rango intercuartílico

Este gráfico nos permite representar medidas de posición y con ellas incluso tener una visión de
las dispersión a través del rango intercuartílico, mayor rango, mayor dispersión, así como
representar valores extremos.
34
TRANSFORMACIONES LINEALES
 Vamos a considerar 3 escenarios en los que, partiendo de una variable “X”, podemos obtener, por
transformación lineal, una nueva variable “Y”.

yi  a  bxi
 A la variable “Y” le llamaremos variable dependiente (o explicada), puesto que depende de lo que
le ocurra a la variable “X”.

 A la variable “X” le llamaremos variable independiente o variable explicativa, puesto que será la
que explique el comportamiento de la variable “Y”.

 El objetivo de una transformación lineal es determinar las medidas de posición y de

dispersión de la variable “Y” sin necesidad de recurrir a su cálculo a través de su distribución
de frecuencias.

Si conozco la media, la
¿Puedo calcular la
mediana, la varianza…
media, la mediana, la SI
de la variable X y
varianza… de la
dispongo de la relación
variable Y?
lineal 35
TRANSFORMACIONES LINEALES

yi  a  bxi
1 1 1 1 1
ഥ = ෍ 𝑦𝑖 = ෍ 𝑎 + 𝑏𝑥𝑖 = ෍ 𝑎 + 𝑏 ෍ 𝑥𝑖 = 𝑁𝑎 + 𝑏𝑥ҧ = 𝒂 + 𝒃ഥ
𝒚 𝒙
𝑁 𝑁 𝑁 𝑁 𝑁
𝑖 𝑖 𝑖 𝑖

Lo mismo ocurrirá con la mediana, la moda y cualquier cuantil

1 1 1
𝑺𝟐𝒚 = ෍ 𝑦𝑖 − 𝑦ത 2
= ෍ 𝑎 + 𝑏𝑥𝑖 − 𝑎 − 𝑏𝑥ҧ 2
= 𝑏2 ෍ 𝑥𝑖 − 𝑥ҧ 2
= 𝒃𝟐 𝑺𝟐𝒙
𝑁 𝑁 𝑁
𝑖 𝑖 𝑖

36
TRANSFORMACIONES LINEALES

yi  a  bxi
Escenario 1
Por definición
Ejemplo:
• la variable “X” representa el número de horas trabajadas por empleado
• “b” el precio por hora
• “a” el coste fijo por desplazamiento
• dando lugar a “Y”: la facturación por empleado.

37
TRANSFORMACIONES LINEALES

yi  a  bxi
Escenario 2
Por reducción de escala
Para hacer más manejable la variable se reduce su magnitud, restando una
cantidad y dividiendo entre otra:

xi  a 1 a
yi   xi 
b b b

38
TRANSFORMACIONES LINEALES

yi  a  bxi
Escenario 3 (caso particular del 2)
Por tipificación
Para obtener valores con una media 0 y una desviación típica 1, con el objetivo de poder comparar la
posición relativa de dos valores de dos distribuciones distintas. ¿Será lo mismo obtener una nota de 5
puntos en incorporación a la universidad que un 5 en matemáticas I? Lógicamente, no, ya que el
comportamiento de ambas distribuciones de notas será muy distinto. Par poder compararlas, es
necesario, tipificar.

1 𝑥ҧ
xi  x 1 x 𝑦ത = 𝑥ҧ − = 0
yi   xi 
𝑆𝑥 𝑆𝑥

Sx Sx Sx 2
1
𝑆𝑦2 = 𝑆𝑥2 = 1
𝑆𝑥
39
Ejemplo

Variable: notas Incorporación Variable: notas Matemáticas I

𝑋ത = 8.5 𝑌ത = 4.5
𝑆𝑋 = 0.5 𝑆𝑌 = 2.5

¿qué tiene más

valor un 5 en
Incorporación o en
Matemáticas I?

5 − 8.5 5 − 4.5
𝑧𝑖 = = −7 𝑧𝑖 = = 0.2
0.5 2.5

0.2 > -7
Mejor nota en
términos relativos
el 5 en
40
Matemáticas
TEMA 1
ANÁLISIS DE DATOS
TRANSVERSALES
Parte IV

Apuntes realizados por Cristina Aybar

INDICE DE GINI Y CURVA DE LORENZ

 La CONCENTRACIÓN trata de medir el mayor o menor grado de igualdad en el reparto

del valor total de la variable, entre los elementos del colectivo.

 Por tanto, sólo tiene interés calcular la concentración en aquellas variables cuyo total
tenga algún significado (renta, salarios, sectores económicos, concentración humana),
en general variables de tipo socio-económico.

 Existen dos situaciones extremas en la concentración:

X1  X 2    X n máxima uniformidad
mínima concentración

X1    X n 1  0 y X n  0
mínima uniformidad
máxima concentración

42
 Dos estadísticos “pi” y “qi” nos van a servir para determinar la
concentración existente. Estos se calculan de la siguiente manera:

xi ni x i ni Ni ui pi qi

x1 n1 x1n1 N1 x1n1  u1 N1 N u1 ur

x2 n2 x 2 n2 N2 x1n1  x 2n2  u 2 N2 N u 2 ur

      

r
xr nr x r nr N r  N  x i ni  ur 1 1
i 1

valores ordenados
de menor a mayor 43
 Ejemplo: en una empresa trabajan 40 empleados, agrupados en 4
categorías profesionales (cada una con un sueldo distinto):

𝒙𝒊 𝒏𝒊 𝒙𝒊 𝒏𝒊 𝑵𝒊 𝒖𝒊 𝒑𝒊 𝒒𝒊
600 25 15.000 25 15.000 0,625 0,517
800 10 8.000 35 23.000 0,875 0,793
1.000 4 4.000 39 27.000 0,975 0,931
2.000 1 2.000 40 29.000 1 1
40 29.000

𝑁𝑖 𝑢𝑖
𝑢𝑖 = ෍ 𝑥𝑖 · 𝑛𝑖 𝑝𝑖 = 𝑞=
𝑁 𝑢𝑟

44
 Estos dos estadísticos pueden representarse gráficamente:

 Si la curva está cerca de la bisectriz, la distribución será bastante uniforme, si se

aleja de ella, la distribución será concentrada.
45
 El problema es que la curva no siempre permite comparar entre dos comportamientos

46
 La solución es obtener una medida cuantitativa de la concentración, llamada INDICE
DE GINI:
r 1
 ( pi  qi )
IG  i 1 , 0  IG  1
r 1
 pi
i 1

 IG = 0, pi = qi → mínima concentración-máxima uniformidad

 IG = 1, q1=…= qr-1 = 0 → máxima concentración-mínima uniformidad

Si el IG de una distribución es inferior al de otra distribución, se dice que la

concentración en la primera es inferior a la concentración en la segunda.

47
 Ejemplo: en una empresa trabajan 40 empleados, agrupados en 4 categorías
profesionales (cada una con un sueldo distinto):

σ𝑟−1
𝑖=1 (𝑝𝑖 − 𝑞𝑖 ) 0,625 − 0,517 + 0,875 − 0,793 + 0,975 − 0,931
𝐼𝐺 = = = 0,09
σ𝑟−1
𝑖=1 𝑝𝑖 0,625 + 0,875 + 0,975

Sabiendo que 0 ≤ 𝐼𝐺 ≤ 1
Un IG=0,09 es relativamente bajo, lo que significa que “existe una fuerte
equidistribución de los salarios en la empresa y, por tanto, una baja concentración
de los mismos”.
48

También podría gustarte

Análisis de Distribuciones de Frecuencia
Aún no hay calificaciones
Análisis de Distribuciones de Frecuencia
83 páginas
Tarea # 2 Estadística I
Aún no hay calificaciones
Tarea # 2 Estadística I
11 páginas
Introducción a la Estadística Moderna
Aún no hay calificaciones
Introducción a la Estadística Moderna
20 páginas
Fundamentos de Estadística Descriptiva
Aún no hay calificaciones
Fundamentos de Estadística Descriptiva
54 páginas
Introducción a Probabilidad y Estadística
Aún no hay calificaciones
Introducción a Probabilidad y Estadística
29 páginas
Estadística Descriptiva y Representación Gráfica
Aún no hay calificaciones
Estadística Descriptiva y Representación Gráfica
12 páginas
ESTADISTICA
Aún no hay calificaciones
ESTADISTICA
11 páginas
Estadistica 3e 24 5 Teoria
Aún no hay calificaciones
Estadistica 3e 24 5 Teoria
6 páginas
Fundamentos de Estadística para 3º ESO
Aún no hay calificaciones
Fundamentos de Estadística para 3º ESO
17 páginas
Resumen de Estadística Unidimensional
Aún no hay calificaciones
Resumen de Estadística Unidimensional
11 páginas
Estadística Descriptiva: Frecuencias y Medidas
Aún no hay calificaciones
Estadística Descriptiva: Frecuencias y Medidas
20 páginas
Análisis Descriptivo de Datos Estadísticos
Aún no hay calificaciones
Análisis Descriptivo de Datos Estadísticos
44 páginas
Análisis Estadístico: Frecuencias y Medidas
Aún no hay calificaciones
Análisis Estadístico: Frecuencias y Medidas
55 páginas
Fundamentos de Estadística Descriptiva
0% (1)
Fundamentos de Estadística Descriptiva
57 páginas
Medidas de Estadística Descriptiva
100% (1)
Medidas de Estadística Descriptiva
22 páginas
Curso de Estadística Inferencial 12 Semanas
Aún no hay calificaciones
Curso de Estadística Inferencial 12 Semanas
49 páginas
Módulo de Estadística Básica
Aún no hay calificaciones
Módulo de Estadística Básica
64 páginas
Estadistica Descriptiva Imprimir
Aún no hay calificaciones
Estadistica Descriptiva Imprimir
41 páginas
Requisitos Análisis Multivariable
Aún no hay calificaciones
Requisitos Análisis Multivariable
41 páginas
Diapositivas Estadisitca I Octubre
Aún no hay calificaciones
Diapositivas Estadisitca I Octubre
33 páginas
Introducción a la Estadística Básica
Aún no hay calificaciones
Introducción a la Estadística Básica
31 páginas
Fundamentos de Estadística Descriptiva
Aún no hay calificaciones
Fundamentos de Estadística Descriptiva
28 páginas
Reglas y Conceptos Básicos de Estadística
Aún no hay calificaciones
Reglas y Conceptos Básicos de Estadística
105 páginas
Distribuc para Estudiar
Aún no hay calificaciones
Distribuc para Estudiar
19 páginas
Introducción a la Estadística Descriptiva
Aún no hay calificaciones
Introducción a la Estadística Descriptiva
6 páginas
Prácticas de Estadística con Statgraphics
Aún no hay calificaciones
Prácticas de Estadística con Statgraphics
10 páginas
Conceptos de Estadística Descriptiva
Aún no hay calificaciones
Conceptos de Estadística Descriptiva
7 páginas
Introducción A La Estadística Descriptiva
Aún no hay calificaciones
Introducción A La Estadística Descriptiva
9 páginas
Introducción a la Estadística Descriptiva e Inferencial
Aún no hay calificaciones
Introducción a la Estadística Descriptiva e Inferencial
13 páginas
Repaso de Estadística Básica CCSS
Aún no hay calificaciones
Repaso de Estadística Básica CCSS
7 páginas
INFORME - 1 (Estadística)
Aún no hay calificaciones
INFORME - 1 (Estadística)
43 páginas
Introducción a la Estadística y sus Clases
Aún no hay calificaciones
Introducción a la Estadística y sus Clases
11 páginas
Tema 4. Organización de La Información y Estimadores de Tendencia Central en Una Muestra
Aún no hay calificaciones
Tema 4. Organización de La Información y Estimadores de Tendencia Central en Una Muestra
6 páginas
Distribución de Frecuencias y Tendencias
Aún no hay calificaciones
Distribución de Frecuencias y Tendencias
16 páginas
Fundamentos de Estadística Descriptiva e Inferencial
Aún no hay calificaciones
Fundamentos de Estadística Descriptiva e Inferencial
40 páginas
Límites Exactos y Medidas Estadísticas
Aún no hay calificaciones
Límites Exactos y Medidas Estadísticas
21 páginas
Introducción a la Estadística Descriptiva
Aún no hay calificaciones
Introducción a la Estadística Descriptiva
21 páginas
Practica 1 Con Statgraphics
Aún no hay calificaciones
Practica 1 Con Statgraphics
14 páginas
Tablas y Gráficos de Frecuencia en Bioestadística
Aún no hay calificaciones
Tablas y Gráficos de Frecuencia en Bioestadística
8 páginas
Variables Estadísticas: Tipos y Análisis
Aún no hay calificaciones
Variables Estadísticas: Tipos y Análisis
16 páginas
Introducción a la Estadística y Variables
Aún no hay calificaciones
Introducción a la Estadística y Variables
11 páginas
Estadistica Descriptiva-Linea Azul
Aún no hay calificaciones
Estadistica Descriptiva-Linea Azul
9 páginas
Histograma y Medidas de Tendencia Central
100% (1)
Histograma y Medidas de Tendencia Central
17 páginas
Introducción a la Estadística
Aún no hay calificaciones
Introducción a la Estadística
7 páginas
Introducción a la Estadística Descriptiva
Aún no hay calificaciones
Introducción a la Estadística Descriptiva
12 páginas
Análisis de Medidas de Posición Estadística
Aún no hay calificaciones
Análisis de Medidas de Posición Estadística
20 páginas
Introducción a la Estadística para Maestros
Aún no hay calificaciones
Introducción a la Estadística para Maestros
32 páginas
Estadistica Analisis Datos Investigación
Aún no hay calificaciones
Estadistica Analisis Datos Investigación
37 páginas
Estadística - Módulo 1
Aún no hay calificaciones
Estadística - Módulo 1
29 páginas
Análisis Unidimensional de Variables Estadísticas
Aún no hay calificaciones
Análisis Unidimensional de Variables Estadísticas
11 páginas
Ejercicio de Tareas de Tablas de Distribucion de Frecuencias
Aún no hay calificaciones
Ejercicio de Tareas de Tablas de Distribucion de Frecuencias
12 páginas
T.8. - Estadística Unidimensional.
Aún no hay calificaciones
T.8. - Estadística Unidimensional.
11 páginas
Estadística Descriptiva Básica
Aún no hay calificaciones
Estadística Descriptiva Básica
12 páginas
Análisis de Datos Univariantes y Bivariantes
Aún no hay calificaciones
Análisis de Datos Univariantes y Bivariantes
26 páginas
Investigación de Operaciones
83% (41)
Investigación de Operaciones
308 páginas
GUIA GRATUITA. Machine Learning. Por Donde Empiezo
100% (9)
GUIA GRATUITA. Machine Learning. Por Donde Empiezo
19 páginas
Fundamentos de Inteligencia Artificial Universidad Manuela Beltran PDF
95% (20)
Fundamentos de Inteligencia Artificial Universidad Manuela Beltran PDF
127 páginas
Logística Integral, 5ta Edición - Julio Juan Anaya
92% (24)
Logística Integral, 5ta Edición - Julio Juan Anaya
258 páginas
Analisis Cuantitativo para La Toma de Decisiones - Bierman, Harold (Author)
96% (24)
Analisis Cuantitativo para La Toma de Decisiones - Bierman, Harold (Author)
778 páginas
ChatGPT para Todos, ¡Multiplica Por 100X Tu Productividad (Rafael Mourad) (Z-Library)
94% (18)
ChatGPT para Todos, ¡Multiplica Por 100X Tu Productividad (Rafael Mourad) (Z-Library)
287 páginas
4.1 PROMPTS de Tesis Con ChatGPT
100% (10)
4.1 PROMPTS de Tesis Con ChatGPT
20 páginas
MANUAL Logistica
95% (21)
MANUAL Logistica
1051 páginas
Administracion de Operaciones PDF
92% (12)
Administracion de Operaciones PDF
192 páginas
Probabilidad y Estadística para Ingenieros
100% (5)
Probabilidad y Estadística para Ingenieros
752 páginas
Administracion de Operaciones. - Richard B. Chase
71% (7)
Administracion de Operaciones. - Richard B. Chase
810 páginas
TensorFlow en 1 Día Haz Tu Propia Red Neuronal (Spanish Edition) by Krishna Rungta (Rungta, Krishna)
100% (10)
TensorFlow en 1 Día Haz Tu Propia Red Neuronal (Spanish Edition) by Krishna Rungta (Rungta, Krishna)
450 páginas
Ejercicios Balanceo de Lineas
57% (7)
Ejercicios Balanceo de Lineas
14 páginas
MUESTRA Como Ser Mas Productivo
Aún no hay calificaciones
MUESTRA Como Ser Mas Productivo
27 páginas
Simulación con Promodel: Guía Completa
Aún no hay calificaciones
Simulación con Promodel: Guía Completa
36 páginas
Tecnicas de Almacen
68% (25)
Tecnicas de Almacen
238 páginas
MAYNARD. Manual Del Ingeniero Industrial I - William K. Hodson
100% (21)
MAYNARD. Manual Del Ingeniero Industrial I - William K. Hodson
975 páginas
Libro - AdministracionDeLosSistemasDeProduccion
78% (9)
Libro - AdministracionDeLosSistemasDeProduccion
287 páginas
Estudio de Tiempos y Movimientos para La Manufactura Ágil Meyers
86% (22)
Estudio de Tiempos y Movimientos para La Manufactura Ágil Meyers
347 páginas
Introducción Machine Learning
100% (2)
Introducción Machine Learning
39 páginas
Metodos Cuantitativos para Los Negocios
92% (12)
Metodos Cuantitativos para Los Negocios
226 páginas
Ingeniería de Mantenimiento y Confiabilidad Aplicada en La Gestión de Activos
100% (10)
Ingeniería de Mantenimiento y Confiabilidad Aplicada en La Gestión de Activos
328 páginas
Logistica de Ultima Milla
100% (3)
Logistica de Ultima Milla
132 páginas
Ejercicios Resueltos Mediante El Software Flexsim - María Verdecho
100% (11)
Ejercicios Resueltos Mediante El Software Flexsim - María Verdecho
138 páginas
Administración de Operaciones y Cadena de Suministros (AOCS) 15 Ed.
100% (18)
Administración de Operaciones y Cadena de Suministros (AOCS) 15 Ed.
785 páginas
Logistica de Aprovisionamiento
100% (2)
Logistica de Aprovisionamiento
230 páginas
Investigacion de Operaciones
100% (7)
Investigacion de Operaciones
244 páginas
Libro
100% (2)
Libro
480 páginas
Como Usar La IA para Optimizar Las Operaciones de Contenido
100% (3)
Como Usar La IA para Optimizar Las Operaciones de Contenido
17 páginas
Estadística Descriptiva: Medidas Clave
Aún no hay calificaciones
Estadística Descriptiva: Medidas Clave
16 páginas
TEMA9
Aún no hay calificaciones
TEMA9
30 páginas
Estadistica Semana 4
Aún no hay calificaciones
Estadistica Semana 4
25 páginas
Distribución Normal y Estandarización
Aún no hay calificaciones
Distribución Normal y Estandarización
32 páginas
Análisis de Base de Datos para La Base de Datos Mtcars
Aún no hay calificaciones
Análisis de Base de Datos para La Base de Datos Mtcars
9 páginas
Análisis Estadístico de Datos Muestrales
100% (1)
Análisis Estadístico de Datos Muestrales
8 páginas
Estadistica Aplicada
Aún no hay calificaciones
Estadistica Aplicada
4 páginas
Diapositivas de Prueba de Hipótesis para La Media
Aún no hay calificaciones
Diapositivas de Prueba de Hipótesis para La Media
38 páginas
MSE en Modelos de Regresión Estadística
Aún no hay calificaciones
MSE en Modelos de Regresión Estadística
1 página
Informe Tecnico Medida de Espesores
Aún no hay calificaciones
Informe Tecnico Medida de Espesores
11 páginas
Medidas de Tendencia y Dispersión Estadística
Aún no hay calificaciones
Medidas de Tendencia y Dispersión Estadística
4 páginas
Practica 13 Ekiraaaa
Aún no hay calificaciones
Practica 13 Ekiraaaa
6 páginas
Teoría de Cartera: Riesgo y Rendimiento
Aún no hay calificaciones
Teoría de Cartera: Riesgo y Rendimiento
23 páginas
Estadísticas en Excel - para Ingeniería y Ciencias
100% (2)
Estadísticas en Excel - para Ingeniería y Ciencias
133 páginas
Medidas Resumen 1 PDF
Aún no hay calificaciones
Medidas Resumen 1 PDF
19 páginas
Intervalos de Confianza en Estadística
Aún no hay calificaciones
Intervalos de Confianza en Estadística
3 páginas
Análisis de Tendencias Centrales y Estadísticas
0% (1)
Análisis de Tendencias Centrales y Estadísticas
9 páginas
Actividad 8 Metodología de Optimización de Procesos
Aún no hay calificaciones
Actividad 8 Metodología de Optimización de Procesos
11 páginas
Estudio Socioeconómico en Balcones de la Calera
Aún no hay calificaciones
Estudio Socioeconómico en Balcones de la Calera
21 páginas
Clasificación de la Bioestadística
Aún no hay calificaciones
Clasificación de la Bioestadística
4 páginas
Medidas de Tendencia Central y Cuartiles
Aún no hay calificaciones
Medidas de Tendencia Central y Cuartiles
17 páginas
Ejercicios Minitab
Aún no hay calificaciones
Ejercicios Minitab
80 páginas
Confiabilidad en Sistemas de Distribución
Aún no hay calificaciones
Confiabilidad en Sistemas de Distribución
17 páginas
ACT2 - EJERCICIO - Usando T
Aún no hay calificaciones
ACT2 - EJERCICIO - Usando T
7 páginas
Control de Taquímetros Topográficos
Aún no hay calificaciones
Control de Taquímetros Topográficos
14 páginas
Diseño Robusto Implementado A Un Avión Planeador de Papel
Aún no hay calificaciones
Diseño Robusto Implementado A Un Avión Planeador de Papel
5 páginas
Probabilidades Estadísticas
100% (1)
Probabilidades Estadísticas
14 páginas
Lean Construction: Optimización en Proyectos
Aún no hay calificaciones
Lean Construction: Optimización en Proyectos
6 páginas
Análisis Estadístico de Datos INACAP
Aún no hay calificaciones
Análisis Estadístico de Datos INACAP
8 páginas
Análisis de Ventas Pelikan Store
Aún no hay calificaciones
Análisis de Ventas Pelikan Store
5 páginas
U1-1 Fundamentos de Gestión de Carteras. Rentabilidad
Aún no hay calificaciones
U1-1 Fundamentos de Gestión de Carteras. Rentabilidad
35 páginas