0% encontró este documento útil (0 votos)
92 vistas34 páginas

Introducción a la Estadística Descriptiva

Este documento presenta una introducción a la estadística descriptiva. Explica que la estadística descriptiva se utiliza para organizar, resumir, representar y analizar datos. Luego define conceptos clave como población, muestra, variables cualitativas y cuantitativas. Finalmente, describe formas comunes de presentar y agrupar datos, como matrices de datos y agrupación en intervalos o clases.

Cargado por

laura
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
92 vistas34 páginas

Introducción a la Estadística Descriptiva

Este documento presenta una introducción a la estadística descriptiva. Explica que la estadística descriptiva se utiliza para organizar, resumir, representar y analizar datos. Luego define conceptos clave como población, muestra, variables cualitativas y cuantitativas. Finalmente, describe formas comunes de presentar y agrupar datos, como matrices de datos y agrupación en intervalos o clases.

Cargado por

laura
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

1

Tema 1

ESTADÍSTICA DESCRIPTIVA

La Estadı́stica Descriptiva constituye el primer bloque de la asignatura. La denominación “Des-


criptiva” no sólo alude a una simple descripción de los datos (la información disponible) sino que
además utiliza técnicas para organizar,resumir, representar y analizar adecuadamente los mismos.
Será importante razonar las medidas caracterı́sticas para discernir correctamente su significado,
más allá de recordar las múltiples fórmulas para su obtención. Si lo hacemos ası́ habremos recorrido
una buena parte del camino ...
Las diferentes representaciones gráficas, adecuadamente elegidas, nos ayudarán a conseguir el fin
último: interpretar adecuadamente los resultados.
Estudiaremos primero los aspectos relativos a una única variable (Estadı́stica Descriptiva Univa-
riante) y, a continuación, se afrontan la posibles relaciones entre dos variables (Estadı́stica Descriptiva
Bivariante) aunque empezaremos por unas breves definiciones previas.

1
Definiciones previas

Definición 1.1 Población es cualquier conjunto de datos, objetivo de nuestro interés, que caracteriza
un fenómeno que nos interesa.

Definición 1.2 Muestra es un subconjunto de una población determinada. Interesan aquellas muestras
que representan fielmente a la población.

En ocasiones se utilizan las palabras población y muestra para referirse a los datos que se someten
a medición.

Definición 1.3 La Inferencia Estadı́stica tiene por objeto obtener conocimientos sobre ciertas pobla-
ciones a partir de las observaciones relativas a una muestra. Su instrumento matemático es el Cálculo
de Probabilidades.

Ambas materias, el Cálculo de Probabilidades y la Inferencia Estadı́stica serán tratados en temas


posteriores.

2
Variables estadı́sticas

Se va a trabajar con conjuntos de datos asociados al carácter o caracterı́stica objeto de estudio, que
denominaremos variable estadı́stica y se representará por una letra mayúscula: X, Y, Z, . . . A partir de
ahora nos referiremos a los conjuntos de datos como variables.
Tema 1 Estadı́stica Descriptiva 2

Como en esta parte se va a tratar de describir y analizar estas variables, debemos distinguir los
distintos tipos de variables que hay, lo cual nos va a permitir utilizar las herramientas estadı́sticas
apropiadas.

2 1 Tipos de variables

Las variables estadı́sticas pueden ser de dos tipos:


1. Variables cualitativas o atributos: describen cualidades y no toman valores numéricos. Ejemplos:
provincia de nacimiento, nivel de estudios, meses del año, clasificar una pieza como aceptable o
defectuosa, . . .

2. Variables cuantitativas: toman valores numéricos. A su vez pueden ser:


Discretas: sólo toman un número finito o infinito numerable de valores distintos (general-
mente números naturales o enteros). Ejemplos: número de hijos, el año de fabricación de
un vehı́culo, número de entradas de cine vendidas en un intervalo de tiempo, resultado de
lanzar un dado, . . .
Continuas: toman valores en un intervalo de R. Generalmente corresponden a medir magni-
tudes continuas, por ejemplo, peso, altura, temperatura, intensidad de corriente, el tiempo
entre dos llamadas telefónicas, el tiempo de servicio o de operación de una máquina, etc.
Una caracterı́stica esencial de este tipo de variables es que sus valores nunca son observa-
bles con exactitud, sino que dependen (las observaciones) de la precisión del instrumento
de medida.

Los distintos valores que puede presentar una variable estadı́stica se denominan modalidades.
Ejemplo: la caracterı́stica “gusto” puede presentar cuatro modalidades: dulce, amargo, salado y ácido;
el “sexo” dos: hombre y mujer; la estatura puede estar agrupada en intervalos o clases: (1.40, 1.50],
(1.50, 1.60], (1.60, 1.70], . . ..

tipos de variables

cuantitativas cualitativas

nominal ordinal
continuas discretas (no ordenada) (ordenada)

Las variables cualitativas también pueden tomar valores numéricos y, entonces, la diferencia entre
variables cualitativas y cuantitativas puede ser algo más sutil. Por ejemplo, la “clase social” codificada
con modalidades baja=1, media=2, alta=3, es una variable cualitativa con escala ordinal; el “estado
civil” con modalidades soltero=1, casado=2, separado=3, divorciado=4, viudo=5, es una variable
cualitativa con escala nominal.
Para distinguir cualitativas de cuantitativas podemos acudir a una regla fácil: en las cualitativas no
es interpetrable ninguna operación aritmética entre sus valores y los valores asignados son arbitrarios
(podrı́a ser soltero=π si alguien lo considera útil), aunque en el caso de las ordinales es precisamente
la existencia de un orden la caracterı́stica relevante.
Cuando los datos se observan con una pauta fija temporal (cada hora, semana, etc.), constituyen
una serie temporal, y su análisis requiere otras técnicas donde el orden de los datos influye.

2 2 Presentación de datos

La forma más elemental de presentar los datos es por medio de una matriz en la que aparecen
en la primera columna los individuos, representados de alguna forma (en muchas ocasiones se suele
Tema 1 Estadı́stica Descriptiva 3

prescindir de esta columna) y en las restantes columnas las observaciones de las distintas variables (o
caracterı́sticas) en estudio para cada uno de los individuos. Se la conoce como matriz de datos y es la
presentación tı́pica de hojas de cálculo y muchos programas estadı́sticos, en particular, Statgraphics.
Ejemplo

Individuo edad Grado sexo


AGS 21 Tecnologı́as Industriales mujer
BRM 19 Electrónica Industrial y Automática hombre
CRV 19 Ingenierı́a Eléctrica hombre
FMV 18 Electrónica Industrial y Automática mujer
GRR 20 Tecnologı́as Industriales hombre
.. .. .. ..
. . . .

Normalmente se reserva el nombre de matriz de datos a la obtenida de la anterior, eliminando la


primera columna.

Cuando se estudia una sola variable, otra forma usual de presentar los datos es por medio de una
matriz en la que cada valor corresponde a un individuo de la población.
Ejemplo
Las edades de 40 individuos encuestados han sido:
12 17 16 23 39 32 23 33
36 23 23 15 36 26 17 24
11 34 37 24 17 39 19 31
16 11 13 40 34 18 14 29
33 14 26 26 26 31 35 18

2 3 Agrupación en clases o intervalos

En ocasiones, y con objeto de facilitar la toma o presentación de datos cuantitativos, estos se


agrupan en intervalos o clases. Por ejemplo, es más sencillo anotar cuántos individuos hay en una
muestra con una estatura entre 1.70 y 1.80, que anotar exactamente la estatura de todos.
No obstante, siempre se producirá una pérdida de información al agrupar los datos en intervalos, y
dado que el uso habitual de ordenadores y programas de cálculo se suelen tratar los datos sin agrupar
salvo para algunos resúmenes gráficos, cuando el número de valores distintos que toma una variable
discreta sea grande, o cuando ésta sea continua.
La primera cuestión que se nos plantea es elegir el número de clases y la longitud de cada clase.
Si es posible, es recomendable que todas las clases tengan la misma longitud. En cuanto al número
de clases, en general, se recomienda utilizar entre 5 y 15 ó 20 clases, de forma que ninguna contenga
menos de 5 datos.
Existen distintos criterios, para determinar un número adecuado de clases, todos ellos en función
del número de datos. Nosotros utilizaremos para obtener una aproximación al número de clases k la
fórmula de Sturges donde k es el entero más próximo a 1 + 103 log10 N siendo N el√número de datos o
individuos. Existen otros criterios, por ejemplo tomar k el entero más próximo a N .
En general, el número de clases debe ser suficientemente grande para que no se pierda excesiva
información, pero sin perder la simplicidad en la representación.
Las clases o intervalos en que se agrupen los datos deben cumplir:
Ser disjuntas: un dato no puede estar en dos clases a la vez.
Ser exhaustivas: es decir, abarcar todo el rango de posibles valores de la variable.
Tema 1 Estadı́stica Descriptiva 4

Estar ordenadas de menor a mayor.


En general, los intervalo o clases serán de la forma:

(L0 , L1 ], (L1 , L2 ], . . . (Lk−1 , Lk ]

Elementos asociados a las clases o intervalos:

Lı́mites: Li−1 , Li (lı́mite inferior y lı́mite superior, respectivamente).

Amplitud de la clase: bi = Li − Li−1 .

Marca de la clase: ci = Li +2Li−1

Observación 1.4 La marca de clase se considera el valor representativo de todos los valores de su
intervalo. Por ello, deben elegirse los intervalos de forma que la marca sı́ sea un valor representativo.
Puede ocurrir que la marca de clase tenga más cifras decimales que los datos (es decir, que no
corresponda a un valor realmente observable) y lo mismo puede ocurrir con los lı́mites de clase.
A veces, el primer y último intervalo, tienen respectivamente, el extremo inferior y superior
indeterminados, con objeto de incluir observaciones poco frecuentes.

Ejemplo
Para los datos de las edades de 40 individuos (pág. 3) se obtiene la siguiente agrupación en clases:
Clases N o de datos
(10,15] 7
(15,20] 8
(20,25] 6
(25,30] 5
(30,35] 8
(35,40] 6

En este caso el número de clases es 6, los lı́mites son 10, 15, 20, 25, 30, 35 y 40; la amplitud en
todas las clases es 5, y las marcas son, respectivamente: 12.5, 17.5, 22.5, 27.5, 32.5 y 37.5.
Tema 1 Estadı́stica Descriptiva 5

3
Estadı́stica Descriptiva Univariante

Ahora vamos a considerar datos correspondientes a una sola variable estadı́stica, que denominare-
mos X. En la práctica se corresponde a tratar con una de las columnas de la matriz de datos.

3 1 Distribución de frecuencias

Para los datos de cualquier variable estadı́stica (cualitativa o cuantitativa) se calculan las siguientes
frecuencias:

Frecuencia total: número total de individuos observados o número total de datos, N .

Frecuencia absoluta de la modalidad Mi (valor xi o intervalo Ii ): número de individuos o número


de datos que presentan esta modalidad, ni .
ni
Frecuencia relativa de la modalidad Mi (valor xi o intervalo Ii ): fi = .
N
Si la variable considerada es cuantitativa, se pueden definir además:

Frecuencia absoluta acumulada hasta la modalidad Mi , (valor xi o intervalo Ii ): número de


individuos o número de datos, Ni , que presentan una modalidad menor o igual que ésta; se
define como Ni = n1 + n2 + · · · + ni = ij=1 nj .
P

Ni
Frecuencia relativa acumulada hasta la modalidad Mi , (valor xi o intervalo Ii ): Fi = o,
Pi N
equivalentemente, Fi = f1 + f2 + · · · + fi = j=1 fj .

Definición 1.5 Se dice que se ha dado la distribución de frecuencias de la variable estadı́stica X si


se dan las distintas modalidades de la variable y las correspondientes frecuencias (absolutas, relativas,
absolutas acumuladas, relativas acumuladas) de cada modalidad.

La forma de dar estos valores es por medio de tablas, en las que aparecen una primera columna con
las distintas modalidades de la variable (ordenadas de menor a mayor, si la variable es cuantitativa)
y columnas correspondientes a las frecuencias absolutas, relativas, absolutas acumuladas y relativas
acumuladas (éstas dos últimas, cuando tengan sentido).

Mi ni fi Ni Fi
M1 n1 f1 N1 F1
M2 n2 f2 N2 F2
.. .. .. .. ..
. . . . .
Mk nk fk Nk = N Fk = 1

Propiedades 1.6 Propiedades de las tablas de frecuencias:


k
P
- ni = N .
i=1

k
P
- fi = 1.
i=1

- Nk = N .

- Fk = 1.
Tema 1 Estadı́stica Descriptiva 6

- Las frecuencias relativas y las frecuencias relativas acumuladas pueden interpretarse como por-
centajes:

- 100fi % es el porcentaje de datos o individuos que están en la modalidad Mi .


- 100Fi % es el porcedntaje de datos o individuos que están en las modalidades M1 , M2 , . . . Mi .

Tablas para datos agrupados en intervalos

Cuando los datos aparecen agrupados en intervalos, se habla de frecuencias absolutas, relativas,
absolutas acumuladas y relativas acumuladas de cada clase. En este caso, las tablas de frecuencias
tienen la forma:

(Li−1 − Li ] ci ni fi Ni Fi
(L0 , L1 ] c1 n1 f1 N1 F1
(L1 , L2 ] c2 n2 f2 N2 F2
.. .. .. .. ..
. . . . .
(Lk−1 , Lk ] ck nk fk Nk Fk

Para los datos de la página 3:

(Li−1 − Li ] ci ni fi Ni Fi
(10, 15] 12.5 7 0.175 7 0.175
(15, 20] 17.5 8 0.200 15 0.375
(20, 25] 22.5 6 0.150 21 0.525
(25, 30] 27.5 5 0.125 26 0.650
(30, 35] 32.5 8 0.200 34 0.850
(35, 40] 37.5 6 0.150 40 1.000

Se observa cómo en este caso, la marca de clase puede no ser un valor posible de la variable, pero
conserva su significado de valor representativo de todos los datos del intervalo.

Observación 1.7 Al escribir una tabla es conveniente tener en cuenta los siguientes convenios para
evitar ambigüedades:
- Indicar la unidad de medida de cada variable.
- Indicar con un 0 los valores con frecuencia 0, no con un guión (-) o cualquier otra indicación
similar, que se interpreta como ausencia de información sobre la frecuencia del valor.
- Escribir todos los datos con igual número de decimales.

3 2 Medidas caracterı́sticas

Vamos a definir en esta sección algunos valores numéricos que proporcionan información sobre
cómo se distribuye un conjunto de datos homogéneo. Estas medidas, además, permiten comparar
distribuciones y serán de utilidad para obtener conclusiones sobre la población cuando se trabaja con
una muestra.

a Medidas de posición o localización


1. Medidas de tendencia central.
Son valores resumen “en torno” a los cuales se encuentran los datos. Las diferentes medidas
de tendencia central se obtienen a partir de las diferentes formas de precisar lo que significa el
término “en torno”.
Tema 1 Estadı́stica Descriptiva 7

Media o media aritmética.

Definición 1.8 Si x1 , . . . , xN son los datos directos de la variable, se def ine la media como:
N
X xi
x̄ =
N
i=1

Observación 1.9 Si los datos vienen dados por medio de una tabla de frecuencias:
xi ni fi
x1 n1 f1
x2 n2 f2
.. .. ..
. . .
xk nk fk

entonces
k k
X xi ni X
x̄ = = xi fi
N
i=1 i=1

Si los datos están agrupados en intervalos y no se dispone de todos los datos originales, se
usan como xi las correspondiente marcas de clase ci .

Propiedades 1.10 a) La media es el valor que equilibra las desviaciones positivas y ne-
N
P
gativas de los datos directos respecto a su valor: (xi − x̄) = 0. En ese sentido, se la
1
puede considerar como centro de gravedad o centro geométrico de los datos.
b) Utiliza toda la información contenida en los datos (pues utiliza todos los datos).

Mediana.

Definición 1.11 Llamaremos mediana y la denotaremos por M e al valor numérico que


verifica que ordenados los datos de menor a mayor, el 50 % son menores o iguales que este
valor y el 50 % son mayores o iguales.

Cálculo de la mediana: Denotaremos por x(i) el dato que ocupa el lugar i-ésimo una vez
ordenados los datos de menor a mayor.
x +x((N/2)+1)
Si el número de datos, N , es par, el valor mediana es (N/2) 2 , mientras que si el
número de datos es impar, el valor mediana es x((N +1)/2) .
Moda.

Definición 1.12 La moda, se define como el valor o los valores más frecuentes de la
variable, es decir, a los que corresponde la mayor frecuencia.

Cuando los datos están agrupados por clases, no puede determinarse qué valor es la moda;
en este caso llamaremos clase modal a aquella a la que corresponde la mayor altura en el
histograma (que no tiene porqué coincidir con la clase de mayor frecuencia).

Comparación entre las medidas de tendencia central


Como ya hemos señalado al definirla, la media es una medida que utiliza toda la información
disponible, pues tiene en cuenta el valor de todos los datos. En cambio, la mediana es, en ese
sentido, menos informativa, pues sólo tiene en cuenta la posición y no el valor.
Por esa misma razón, la media es muy sensible a valores extremos. Por ello, un error en los datos
puede modificarla por completo.
Tema 1 Estadı́stica Descriptiva 8

Ejemplo
Para los datos 10, 15, 21, 50, la media es 24, desplazada hacia el valor 50 que es un valor extremo.
Si los datos correctos hubiesen sido 10, 15, 21, 20, la media serı́a 16.5. Sin embargo, la mediana
queda menos afectada por ese dato extremo: en el primer caso serı́a 18 y en el segundo, 17.5.

Observación 1.13 A veces, el conjunto de datos está dividido en subgrupos, por ejemplo, los
individuos de una clase divididos en hombres y mujeres, y se conoce la media de una caracterı́stica
en cada subgrupo. A partir de esta información se puede obtener la media del conjunto total de
datos: si x̄1 , x̄2 , . . . , x̄s son las medias en s subgrupos (disjuntos) con n1 , n2 , . . . , ns individuos
cada uno, la media total será:

n1 x̄1 + n2 x̄2 + · · · + ns x̄s


x̄ =
n1 + n2 + · · · + ns

2. Otras medidas de posición: Percentiles.

Definición 1.14 Para cada valor p ∈ (0, 1), se denomina p-cuantil, y también percentil 100×p, y
se denota por qp , al valor de la variable que divide a la distribución de frecuencias en dos partes,
de forma que al menos el 100p % de los datos son menores o iguales que qp .

Cálculo de los percentiles:




 x([pN ]+1) si pN no es entero
qp = x + x(pN +1)
 (pN )
 si pN es entero,
2
donde [pN ] denota la parte entera de pN .

Definición 1.15 Se denominan cuartiles a los percentiles que dividen a la distribución en 4


partes iguales, es decir,
- el percentil 25, llamado primer cuartil, y denotado por Q1 .
- el percentil 50, que es la mediana. Se denota, también, por Q2 .
- el percentil 75, llamado tercer cuartil, y denotado por Q3 .

Definición 1.16 Se denominan deciles a los percentiles que dividen a la distribución en 10


partes iguales. Se denotan por d1 , d2 , . . . , d9 , siendo di = q i , esto es, el percentil 10×i, para
10
i = 1, 2, · · · , 9.

Observación 1.17 A veces solo disponemos de la información de los datos agrupados en clases y
no el valor de los datos, en esos casos se calculan valores aproximados de los percentiles, tomando
como valor qp el valor del eje X en el que el polı́gono de frecuencias relativas acumuladas tiene
por altura p: Si F1 , F2 , . . . , Fk son las frecuencias relativas acumuladas de las clases en que se
agrupan los datos, existe i ∈ {1, 2, . . . k} con Fi−1 ≤ p < Fi . (Se considera F0 = 0). El percentil
100×p será:
p − Fi−1
qp = Li−1 + bi
fi
Tema 1 Estadı́stica Descriptiva 9

b Medidas de dispersión
Estas medidas indican lo próximos o alejados que están los datos, bien entre sı́, o respecto a alguna
medida de centralización.

Rango o recorrido.

Definición 1.18 Si x(1) , x(2) , . . . , x(N ) son los datos, ordenados de menor a mayor, se denomina
recorrido a x(N ) − x(1) , es decir, a la diferencia entre el mayor y el menor dato.

El recorrido es fácil de calcular, lo que hace que sea una medida muy utilizada, por ejemplo en
control de calidad. Además tiene idénticas unidades que la variable. Sin embargo, presenta el
inconveniente de ser una medida muy sensible a valores extremos.

Varianza.

Definición 1.19 Se define la varianza de los datos directos x1 , x2 , . . . , xN , y se denota por s2 ,


al valor:
N N
2
X (xi − x̄)2  1 X 2 
s = = xi − x̄ 2 = x2 − x̄ 2
N N
i=1 i=1

Observación 1.20 Si los datos vienen dados por medio de una tabla de frecuencias, entonces
k k
X (xi − x̄)2 ni X
s2 = = (xi − x̄)2 fi
N
i=1 i=1

La varianza tiene en cuenta todos los datos, es fácil de calcular, pero no tiene las mismas unidades
que la variable; este inconveniente se salva considerando su raı́z cuadrada, que se denomina
desviación tı́pica.

Observación 1.21 Por razones que veremos más adelante, en muchos casos se utiliza otra
medida, llamada cuasivarianza, y que a la hora de hacer inferencias, tiene mejores propiedades
que la varianza. Se define la cuasivarianza de los datos directos x1 , x2 , . . . , xN , y se denota por
s2c al valor:
N
2
X (xi − x̄)2
sc =
N −1
i=1

Notar que N s2 = (N − 1) s2c , y que si N es grande, la diferencia entre ambas medidas (varianza
y cuasivarianza) es pequeña.

Observación 1.22 En muchos programas de software estadı́stico, se llama varianza a la cuasi-


varianza (entre ellos el programa de Statgraphics).

Desviación tı́pica.

Definición 1.23 Se define la desviación tı́pica o estándar de los datos directos x1 , x2 , . . . , xN , y


se denota por s, al valor: v
u N
u X (xi − x̄)2
s = t
N
i=1
Tema 1 Estadı́stica Descriptiva 10

Observación 1.24 Si los datos vienen dados por medio de una tabla de frecuencias, entonces
v v
u k u k
u X (xi − x̄)2 ni uX
s = t = t (xi − x̄)2 fi
N
i=1 i=1

Observación 1.25 Se define también la cuasidesviación tı́pica como:


v
u N
u X (xi − x̄)2
sc = t
N −1
i=1

La desviación estándar se expresa en las mismas unidades que la variable, dando una idea más
precisa de la variabilidad respecto de la media, como veremos en el teorema siguiente.

Teorema 1.26 (Desigualdad de Chebychev) Sea X una variable estadı́stica y k ∈ R con


k ≥ 1. Entonces, en el intervalo [x̄−ks, x̄+ks] se halla más del (1− k12 )100 % de las observaciones.
(Expresándolo de otra forma: la frecuencia relativa del intervalo [x̄ − ks, x̄ + ks] es mayor que
(1 − k12 ).)

Demostración:
Vamos a denotar por fr la frecuencia relativa de un conjunto de datos y por x1 , x2 , . . . , xN los
valores directos de la variable X.
Sean A1 = {xi : |xi − x̄| > ks} y A2 = {xi : |xi − x̄| ≤ ks}. A partir de la definición de varianza,
se obtienen las siguientes desigualdades:
N
X (xi − x̄)2 X (xi − x̄)2 X (xi − x̄)2
s2 = = + ≥
N N N
i=1 xi ∈A1 xi ∈A2

X (xi − x̄)2 X (ks)2


≥ > = (ks)2 fr (A1 )
N N
xi ∈A1 xi ∈A1

1
Despejando, fr (A1 ) < k2 . Como fr (A1 ) + fr (A2 ) = 1, se tiene que
 1
fr (A2 ) = fr {xi : |xi − x̄| ≤ ks} > 1 − 2
k
y teniendo en cuenta la interpretación de la frecuencia relativa como tanto por ciento, se obtiene
el resultado.

Observación 1.27 Tomando k = 2, en el intervalo [x̄ − 2s, x̄ + 2s] se encuentra como mı́nimo
el 75 % de los datos.
Tomando k = 3, en el intervalo [x̄ − 3s, x̄ + 3s] se encuentra como mı́nimo el 89 % de los datos.

Rango intercuartı́lico.

Definición 1.28 Se define el rango intercuartı́lico, y se denota por IQR, a:

IQR = Q3 − Q1 .

El rango intercuartı́lico es una medida de dispersión utilizada en relación con la mediana e indica
la dispersión del 50 % central de los datos.
Tema 1 Estadı́stica Descriptiva 11

c Medidas de posición y de variación utilizadas para comparar conjuntos de datos


Valores z o tipificación
Los valores z indican la posición relativa de un dato, respecto del conjunto.

xi −x̄
Definición 1.29 Se define el valor z del dato xi como el valor zi = s .

Nos indica cuántas desviaciones tı́picas se aleja el dato respecto del valor de la media.

Coeficiente de variación.

Definición 1.30 Para datos todos positivos o todos negativos, se define el coeficiente de variación
de Pearson de la variable estadı́stica X como:
s
CV = .
|x̄|

Es una medida adimensional de la variabilidad relativa, pues considera la variabilidad de los


datos en relación al tamaño de su media (no es lo mismo una variabilidad de 200 euros en
ganancias del orden de 1000 euros, que en ganancias del orden de 1 millón). Por ello, es la
medida adecuada para comparar la variabilidad de dos conjuntos de datos distintos. Se puede
interpretar el CV como el promedio del error de medida.

d Medidas de forma
1. Asimetrı́a. (En Statgraphics Sesgo)
Diremos que una distribución es simétrica si al considerar la representación gráfica de la
distribución de frecuencias y trazar una perpendicular al eje de abcisas por x̄ ocurre lo siguiente:
Hay el mismo número de valores a ambos lados de la perpendicular, equidistantes de x̄ dos a
dos y tales que cada par de valores equidistantes a x̄ tienen la misma frecuencia. En este caso,
la mediana coincide con x̄.
Las medidas de asimetrı́a existentes son válidas para las denominadas distribuciones con forma de
campana o campaniformes (distribuciones unimodales simétricas o con cierta asimetrı́a) y para
las distribuciones en forma de U. Indicar que las distribuciones en forma de campana son las
más usuales. Cuando la distribución de los datos es campaniforme, las distribuciones asimétricas
se clasifican en distribuciones asimétricas con cola a la derecha o asimetrı́a positiva (Sesgo > 0)
y distribuciones asimétricas con cola a la izquierda o asimetrı́a negativa (Sesgo < 0); el valor de
x̄ − M e proporciona información del tipo de asimetrı́a, aunque puede no ser concluyente.

Figura 1.1: Tipos de asimetrı́a


Tema 1 Estadı́stica Descriptiva 12

2. Apuntamiento o curtosis.
Llamamos curtosis o apuntamiento al grado de concentración de los datos alrededor de la media.
Las medidas de curtosis se aplican a distribuciones campaniformes y para estudiarlas es necesario
definir previamente una distribución “tipo”, que vamos a tomar como modelo de referencia. Esta
distribución va a ser la llamada distribución normal, que corresponde a fenómenos muy corrientes
en la naturaleza y cuya representación gráfica es una campana de Gauss, dada por la fórmula:
2
1 1 (x−µ)
f (x) = √ e− 2 σ2 ,
σ 2π
donde µ y σ son respectivamente la media y la desviación tı́pica.
A esta distribución se le llama normal porque se presenta en numerosos casos, e implica que la
mayorı́a de los valores de la variable están cerca de la media, y aquellos que se encuentran muy
distanciados de ella, a ambos lados, son poco numerosos.
Tomando esta distribución como referencia diremos que una distribución puede ser más apuntada
que la normal, en cuyo caso se denomina leptocúrtica (curtosis> 0) o menos apuntada, es decir,
platicúrtica (curtosis< 0) . A la distribución normal, desde el punto de vista de la curtosis, se
le llama mesocúrtica (curtosis= 0).

Figura 1.2: Tipos de distribuciones según apuntamiento

En definitiva, aquı́ lo que se estudia es la deformación, en sentido vertical, respecto de la normal,


de una distribución.

3 3 Representación gráfica de variables estadı́sticas unidimensionales

La representación gráfica de una distribución de frecuencias va a depender del tipo de variable


considerada.

a Representación gráfica de variables cualitativas y de variables cuantitativas con pocas modalidades


Para ilustrar las principales representaciones gráficas, vamos a utilizar los datos relativos a 93
vehı́culos que se han clasificado según su “tipo”, obteniéndose la siguiente distribución de frecuencias
absolutas:

tipo frecuencias
deportivo 14
furgoneta 9
gran turismo 11
monovolumen 16
pequeño 21
tamaño medio 22

Diagrama de barras.
Esta representación gráfica consiste en construir tantos rectángulos como modalidades presente
la variable cualitativa en estudio, todos ellos con base de igual amplitud (elegida más o menos
Tema 1 Estadı́stica Descriptiva 13

arbitrariamente) y la altura proporcional a la frecuencia absoluta o relativa (según cuál estemos


representando), obteniendo rectángulos con áreas proporcionales a las frecuencias que se quieran
representar. La figura 1.3 representa el diagrama de barras de “tipo”.

Figura 1.3: Diagrama de barras para la variable “tipo” de vehı́culo

Diagrama de Pareto.

Es un diagrama de barras en el que los rectángulos se presentan en orden decreciente de altura. Se


utilizan para variables cualitativas y son muy frecuentes en control de calidad y procesos, donde
las alturas de los rectángulos a menudo representan frecuencias de problemas en el proceso de
producción. Como los rectángulos están dispuestos en orden decreciente por altura, resulta fácil
identificar las cuestiones que presentan mayor número de problemas. La figura 1.4 representa el
diagrama de Pareto de “tipo”.

Figura 1.4: Diagrama de Pareto para la variable “tipo” de vehı́culo

Diagrama de sectores.

Esta representación consiste en dividir un cı́rculo en tantos sectores circulares como modalidades
presente la variable cualitativa, donde cada sector circular tendrá un área proporcional a la
frecuencia absoluta (o relativa). La figura 1.5 (pág. 14) representa el diagrama de sectores de
“tipo”.
Tema 1 Estadı́stica Descriptiva 14

Figura 1.5: Diagrama de sectores para la variable “tipo” de vehı́culo

b Representación gráfica de variables cuantitativas con muchas modalidades


Histograma.
Es la representación gráfica más frecuente y se realiza a partir de una agrupación de los datos
en intervalos. Consiste en un conjunto de rectángulos construidos de la siguiente forma:
- Tiene como eje horizontal una escala de valores de la variable que se mide. Se marcan los lı́mites
de las clases sobre la escala.
- Como eje vertical, tiene una escala de alturas.
Sobre cada clase se eleva un rectángulo tal que su área Ai = base · altura = (Li − Li−1 )hi sea
proporcional a la frecuencia absoluta (o relativa) de la clase, es decir, λni ; entonces, despejando
tenemos que la altura es hi = L − λni .
L i i−1

Ejemplo
Para los datos de las edades de 40 individuos (pág. 3) se obtiene el siguiente histograma después
de una elección adecuada del número de clases, lı́mite inferior y lı́mite superior en Statgraphics:

Figura 1.6: Histograma para la variable “edad”

Ejemplo
Supongamos que la distribución de una variable en clases no equiespaciadas es:
(Li−1 − Li ] ci ni
(1.5, 3.5] 2.5 3
(3.5, 6.5] 5 4
Tema 1 Estadı́stica Descriptiva 15

En este caso, un histograma correcto tendrı́a un primer rectángulo de altura 32 λ y un segundo


rectángulo de altura 43 λ, dónde λ es un número real positivo cualquiera. Por ejemplo, para λ = 6,
el histograma serı́a:

9
8

1.5 3.5 6.5

Polı́gono de frecuencias acumuladas.


Se construye de la siguiente forma:
-Tiene como eje horizontal una escala de valores de la variable que se mide. Sobre él se marcan
los lı́mites de las clases.
- La escala vertical es una escala de frecuencias acumuladas (absolutas o relativas).
En este plano, partiendo desde el punto sobre el eje OX que corresponde al lı́mite inferior del
primer intervalo, se sitúan los pares formados por el lı́mite superior de clase y la correspondiente
frecuencia acumulada de la clase y los puntos se unen por medio de segmentos, dando lugar a una
gráfica creciente, que alcanza altura N, si se utilizan frecuencias acumuladas absolutas, o altura
100 si se utilizan porcentajes acumulados. Esta gráfica se conoce como ojiva de frecuencias.

Figura 1.7: Polı́gono de frecuencias acumuladas absolutas para la variable “edad”

Diagrama de tallo-hojas. (Stem and leaf)


Se trata de un procedimiento semigráfico de presentar la información de variables cuantitativas,
útil cuando el número de datos es pequeño (menor que 50), aunque con los ordenadores es posible
utilizarlo con más datos.
Los pasos para su construcción son:

1. Expresar los datos en unidades convenientes, redondearlos a dos o tres cifras significativas
y ordenarlos de menor a mayor.
2. Colocarlos en una tabla con dos columnas separadas por una lı́nea como sigue:
Tema 1 Estadı́stica Descriptiva 16

- Para los datos con dos dı́gitos, escribir a la izquierda de la lı́nea los dı́gitos de las decenas
(que forman el tallo) y a la derecha los de las unidades (que forman las hojas).
- Para datos con tres dı́gitos, el tallo estará formado por las centenas y decenas, escritos a
la izquierda, y las hojas serán las unidades.
3. Cada tallo define una clase y se escribe una sola vez; el número de hojas representa la
frecuencia de la clase correspondiente al tallo.

Ejemplo
Para los datos de las edades de 40 individuos (pág. 3), se tiene el siguiente diagrama de tallo-
hojas:
15 1 1 1 2 3 4 4 5 6 6 7 7 7 8 8 9
(11) 2 3 3 3 3 4 4 6 6 6 6 9
14 3 1 1 2 3 3 4 4 5 6 6 7 9 9
1 4 0

Los valores que aparecen a la izquierda se llaman profundidades e indican las frecuencias
acumuladas, comenzando por arriba (de menor a mayor) y por abajo (de mayor a menor),
hasta llegar al tallo en el que se encuentra el valor de la mediana, tallo en el que se recoge, entre
paréntesis, la frecuencia absoluta de ese tallo.

Observación 1.31 Para facilitar la construcción del diagrama, para una cantidad numerosa de
datos, puede ser conveniente escribir en primer lugar un diagrama “desordenado.anotando los
tallos y las hojas sin ordenar de menor a mayor, y a partir de esta primera aproximación,
construir el diagrama.

A veces conviene subdividir los tallos para obtener mayor claridad, colocando por una parte las
hojas del 0 al 4 y por otra las hojas de 5 a 9, en otros casos, las hojas 0 y 1, las 2 y 3, las 4 y 5,
las 6 y 7 y, por último, las 8 y 9. Por ejemplo el anterior diagrama de tallo y hojas aparece en
Statgraphics en la forma:
6 1 1 1 2 3 4 4
15 1 5 6 6 7 7 7 8 8 9
(6) 2 3 3 3 3 4 4
19 2 6 6 6 6 9
14 3 1 1 2 3 3 4 4
7 3 5 6 6 7 9 9
1 4 0

Puede observarse que si se gira el diagrama, se obtiene una apariencia similar a la del histograma
correspondiente.

c Diagramas de caja o “Box-Plot”


Este diagrama que permite observar las caracterı́sticas principales de la distribución y detectar
posibles valores atı́picos. Son especialmente útiles para comparar la distribución de una variable en
distintos subgrupos de una misma población.
Los pasos para su construcción son:
1. Ordenar los datos de menor a mayor y obtener los cuartiles Q1 , Q2 y Q3 . Se obtienen también
otros dos valores, llamados lı́mite inferior (LI) y lı́mite superior (LS), dados por:

LI = Q1 − 1.5IQR

LS = Q3 + 1.5IQR
Tema 1 Estadı́stica Descriptiva 17

2. A continuación se sitúan en un eje graduado estos 5 valores y tomando como base el segmento
[Q1 , Q3 ] se dibuja un rectángulo con altura arbitraria; en él se indica la posición de la mediana,
mediante una lı́nea vertical que divide al rectángulo.

3. Desde el centro de los lados verticales del rectángulo se dibujan sendas lı́neas hasta el menor
dato mayor o igual que LI y el mayor dato menor o igual que LS, es decir, los datos más extremos
del intervalo [LI , LS].

4. Los datos que queden fuera del intervalo [LI , LS] se marcan con un punto o un asterisco, a la
altura de las dos lı́neas dibujadas. Se denominan datos atı́picos y se clasifican en próximos y
lejanos, según estén en [Q1 − 3 IQR , Q3 + 3 IQR] o aún más alejados.

Ejemplo
Para los datos de la edad de 40 individuos (pág. 3), los cinco valores son: Q1 = 17, Q3 = 33,
Me = 24, LI = −7 y LS = 57, y el Box-Plot:

Figura 1.8: Gráfico de caja y bigotes (Box-Plot) para la variable “Edad”

Ejemplo
Las distancias de frenado, en metros, para 20 automóviles conducidos sobre una pista húmeda con
la misma velocidad son:
35.8 30.5 35.9 41.6 35.9
39.2 41.9 38.6 39.2 37.3
35.3 37.3 35.6 38.0 36.7
40.1 36.1 37.0 39.5 38.3

Figura 1.9: Gráfico de caja y bigotes (Box-Plot) para la distancia de frenado


Tema 1 Estadı́stica Descriptiva 18

Los cinco valores de estos datos para el Box-Plot son: Q1 = 35.9, Q3 = 39.2, Me = 37.3,
LI = 30.95 y LS = 44.15, su diagrama de cajas se encuentra en la figura 1.9 (pág. 17).
Observación 1.32 El Box-Plot permite visualizar fácilmente caracterı́sticas como asimetrı́a, apunta-
miento, variabilidad y puesto que se basa en la mediana y los cuartiles, medidas poco influenciables
por datos extremos, proporciona en general una imagen adecuada de la distribución.
También permite hacer comparaciones entre conjuntos distintos de datos, o subgrupos.
El siguiente diagrama de caja corresponde al tiempo de aceleración (segundos en pasar de 0 a 100
Km/h) de 93 vehı́culos, clasificados en 6 tipos diferentes (pág. 12). Es fácil observar en el gráfico, por
ejemplo, que las furgonetas son las que presentan menor variabilidad – si no fuera por el dato atı́pico –
y los de tamaño pequeño son los de mayor variación.

Figura 1.10: Gráfico múltiple de caja y bigotes (Box-Plot) para la variable “distfrenado”

3 4 Datos atı́picos en distribuciones univariantes

Son datos que se alejan del conjunto global de datos, por ser inusualmente grandes o pequeños.
Pueden ser datos reales, como una puntuación de 10 en un examen en el que la mayorı́a de las
puntuaciones están entre 3 y 6, o la estatura de un individuo que mide 2.10 m en una clase de
individuos con estaturas “normales”. También en ocasiones, aparecen como consecuencia de haber
registrado de forma incorrecta un dato. No existe un criterio único para determinar qué datos son o
no atı́picos; dos de los criterios más usuales son:
El proporcionado por el diagrama de caja: considerar como atı́picos todos los datos fuera del
intervalo [LI , LS]. En el ejemplo de la distancia de frenado, serı́a el dato 30.5.

El criterio de 3s: considerar como atı́pico todo dato que se aleje más de 3s de la media de los
datos (recordar que según la desigualdad de Chebysev, al menos el 88.89 % de los datos está
en el intervalo [x̄ − 3s, x̄ + 3s]). En el ejemplo de la distancia de frenado, con este criterio no
existirı́an datos atı́picos.

3 5 Transformaciones de una variable

El objetivo de la descripción de datos es obtener una visión lo más clara posible de los datos, por
ello, en muchas ocasiones será necesario hacer traslaciones o cambios de escala para obtener datos lo
más simples y manejables posible.
En otras ocasiones, como los principales métodos estadı́sticos son aplicables sólo a distribuciones
simétricas, nos interesará transformar unos datos asimétricos en otros que no lo sean tanto.

Vamos a distinguir entre dos tipos de transformaciones:


Tema 1 Estadı́stica Descriptiva 19

Transformaciones lineales
Son del tipo Y = aX + b, con a, b ∈ R; a 6= 0, es decir, traslaciones y cambios de escala; por tanto,
producen cambios en cuanto a posición y dispersión, pero no varı́an la forma de la distribución: si
x1 , . . . , xN son los datos directos de la variable X, sus transformados serán los datos y1 , . . . , yN , con
yi = axi + b.

Propiedades 1.33 1. ȳ = ax̄ + b.


En efecto: N N
X yi X axi + b
ȳ = = =
N N
i=1 i=1
N
X xi
= a + b = ax̄ + b
N
i=1

2. s2Y = a2 s2X
En efecto: N N
X (yi − ȳ)2 X (axi + b − (ax̄ + b))2
s2Y = = =
N N
i=1 i=1
N
X (xi − x̄)2
= a2 = a2 s2X
N
i=1

3. sY = |a| sX

4. Me (Y ) = a Me (X) + b
En efecto, si a > 0, los datos conservan su orden y por tanto, la mediana de la variable X se
transforma en la mediana de la variable Y . Si a < 0, entonces los datos invierten su orden,
pero entonces, la transformada de la mediana sigue dejando un 50 % de los datos a cada lado.

5. Si a > 0 entonces Q1 (Y ) = a Q1 (X) + b y Q3 (Y ) = a Q3 (X) + b. Si a < 0 entonces


Q1 (Y ) = a Q3 (X) + b y Q3 (Y ) = a Q1 (X) + b.
(Se razona de igual forma que en la propiedad anterior).

6. M oda(Y ) = a M oda(X) + b

7. IQR(Y ) = |a| IQR(X).

Transformaciones no lineales

Las transformaciones no lineales más usuales son: Y = X 2 , Y = X, Y = ln X e Y = X1 . Producen,
además de cambios en la posición y dispersión, cambios en la forma. Se utilizan principalmente para
promover simetrı́a.
Tema 1 Estadı́stica Descriptiva 20

4
Estadı́stica Descriptiva Bivariante

Se va a estudiar la situación en la que los datos representan observaciones, correspondientes a dos


variables o caracteres, efectuadas en los individuos de una determinada población. Su estudio conjunto
nos va a permitir determinar las relaciones entre ellas.
Ambas variables pueden ser cuantitativas, una cualitativa y la otra cuantitativa, o las dos cualita-
tivas.
Vamos a denotar por X e Y las variables estadı́sticas objeto de estudio; A1 , A2 , .., Al serán las
modalidades de la variable X, B1 , B2 , ..., Bk las modalidades de la variable Y . El par (xi , yi ) denotará,
en general, el valor de las variables X e Y sobre el elemento i-ésimo de la población.

4 1 Tablas de doble entrada

Una primera forma de resumir la información contenida en los datos es por medio de tablas de
frecuencias.

Definición 1.34 i. Se denomina frecuencia total al número total de individuos observados o


número total de datos, N.

ii. Se denomina frecuencia absoluta del par (Ai , Bj ), al número de individuos, nij , de entre los N ,
que poseen la modalidad Ai de X, y la modalidad Bj de Y a la vez.
nij
iii. Se denomina frecuencia relativa del par (Ai , Bj ), al cociente fij = N .

Definición 1.35 Se dice que se ha dado la distribución conjunta de las variables estadı́sticasX e Y si
se dan las modalidades de las variables y las correspondientes frecuencias (absolutas o relativas) con
que aparece cada par.

La forma de dar estos valores es por medio de tablas en las que aparecen las distintas modalidades
de las variables (ordenadas de menor a mayor, si la variable es cuantitativa). En la tabla pueden
aparecer frecuencias relativas en lugar de absolutas y en ocasiones, se indican ambas.
H
HH Y
B1 B2 ... Bk
X H
HH

A1 n11 n12 ... n1k


A2 n21 n22 ... n2k
.. .. .. .. ..
. . . . .
Al nl1 nl2 ... nlk
N

Si las dos variables X e X son cualitativas, la tabla correspondiente recibe el nombre de


tabla de contingencia.

l X
X k
Propiedades 1.36 1. nij = N
i=1 j=1

l X
X k
2. fij = 1
i=1 j=1
Tema 1 Estadı́stica Descriptiva 21

Ejemplo
Distribución conjunta de frecuencias absolutas y relativas de los alumnos de 2o curso de la E.I.I.
por Grado y sexo:
PP
P PP Sexo Hombre Mujer
Grado PPPP

Tecnologı́as 27 5
Industriales 27 5
/285 /285
Electrónica Indust. 85 22
y Automática 85 22
/285 /285
90 23
Ingenierı́a Eléctrica
90 23
/285 /285
19 14
Diseño Industrial
19 14
/285 /285
285
1

4 2 Distribuciones marginales

A partir de una distribución conjunta de dos variables es posible estudiar la distribución de cada
una de las dos variables que intervienen.
Los valores de las frecuencias para las variables X e Y se obtienen a partir de la tabla conjunta,
anotando en los márgenes de la tabla la suma de los valores de cada fila y de cada columna y por ello
estas distribuciones ası́ obtenidas se denominan “marginales”:

HH
Y
H B1 B2 ... Bk
X HH
H
A1 n11 n12 ... n1k n1·
A2 n21 n22 ... n2k n2·
.. .. .. .. .. ..
. . . . . .
Al nl1 nl2 ... nlk nl·
n·1 n·2 ··· n·k N

Propiedades 1.37 1. Las frecuencias relativas y absolutas, respectivamente, de la modalidad Ai de


la variable X son:
k
X X k
fi·· = fij ni· = nij
j=1 j=1

2. Las frecuencias relativas y absolutas, respectivamente, de la modalidad Bj de la variable Y son:

l
X l
X
f·j = fij n·j = nij
i=1 i=1
Tema 1 Estadı́stica Descriptiva 22

Observación 1.38 Las distribuciones marginales de X e Y son distribuciones univariantes; en este


sentido, se puede aplicar todo lo estudiado en la sección de Estadı́stica Descriptiva Univariante. En
particular, si son variables cuantitativas, podemos hablar de media, varianza, etc.

Ejemplo
Distribución conjunta y distribuciones marginales de los alumnos de 2o curso de la E.I.I. por Grado
y sexo:
PP
PP Sexo
P Hombre Mujer
Grado PP
PP

Tecnologı́as 27 5 32
Industriales 27 5 32
/285 /285 /285
Electrónica Indust. 85 22 107
y Automática 85 22 107
/285 /285 /285
90 23 113
Ingenierı́a Eléctrica
90 23 113
/285 /285 /285
19 14 33
Diseño Industrial
19 14 33
/285 /285 /285
221 64 285
221 64
/285 /285 1

La distribución marginal de la variable “Grado” es:

Tecnologı́as Electrónica Indust. Ingenierı́a Diseño


Grado
Industriales y Automática Eléctrica Industrial

Frecuencia absoluta 32 107 113 33


32 107 113 33
Frecuencia relativa /285 /285 /285 /285

Y la de “Sexo”:

Sexo Hombre Mujer

Frecuencia absoluta 221 64


221 64
Frecuencia relativa /285 /285

4 3 Distribuciones condicionadas

Definición 1.39 Se define define la distribución condicionada de Y cuando X = Ai (respectivamente,


de X condicionada a Bj ), que se denota por Y /(X = Ai ) (respectivamente X/(Y = Bj )) como la
distribución de la variable Y (respectivamente X) sobre los elementos de la población que tienen la
caracterı́stica Ai (respectivamente, Bj ).

Observación 1.40 Un aspecto importante de las distribuciones condicionadas es que la población


objeto de estudio no es la misma que la de partida, sino que es una subpoblación.
Tema 1 Estadı́stica Descriptiva 23

Los valores de las frecuencias para la variables Y /(X = Ai ) y X/(Y = Bj ) se obtienen a partir de
la tabla conjunta:

Las frecuencias absolutas de la variable Y cuando X = Ai son las de la fila correspondiente a


Ai .
f ij
Las frecuencias relativas de la variable Y cuando X = Ai son: fj/i = (también se representan
fi·
por f (Bj /(X = Ai ))).
nij nij /N fij
En efecto, fj/i = = =
ni· ni· /N fi·
Las frecuencias absolutas de la variable X cuando Y = Bj son las de la columna correspondiente
a Bj .
fij
Las frecuencias relativas de la variable X cuando Y = Bj son: fi/j = (también se representan
f·j
por f (Ai /(Y = Bj ))).

Ejemplo
La distribución de Grado condicionada a Mujer, es decir, la distribución de frecuencias de las
mujeres (subpoblación) según el Grado es:

Tecnologı́as Electrónica Indust. Ingenierı́a Diseño


Grado/(Sexo=Mujer)
Industriales y Automática Eléctrica Industrial

Frecuencia absoluta 5 22 23 14
5 22 23 14
Frecuencia relativa /64 /64 /64 /64

Y la de Sexo condicionado a Ingenierı́a Eléctrica, es decir, la distribución por sexo de los alumnos
de Ingenierı́a Eléctrica (subpoblación):

Sexo/(Grado=Ingenierı́a
Hombre Mujer
Eléctrica)

Frecuencia absoluta 90 23
90 23
Frecuencia relativa /113 /113

Proposición 1.41 Dadas las distribuciones condicionadas de la variable X a cada modalidad de la


variable Y , y dada la distribución marginal de Y (respectivamente, de Y a cada modalidad de X, y la
marginal de X), queda determinada la distribución conjunta de (X, Y ).

En efecto, basta observar que fij = fi/j f·j = fj/i fi· .

4 4 Independencia

El concepto de independencia juega un importante papel en Estadı́stica y aparecerá en otras partes


de la asignatura. Numerosas técnicas utilizadas depende en buena parte de la condición de independen-
cia entre las variables. La dificultad de comprensión reside, habitualmente, en posibles confusiones con
el uso del término en el lenguaje coloquial y debemos aprender a discernir claramente estas situaciones;
en nuestro caso, hablamos de “estadı́sticamente independientes” aunque, en ocasiones, omitamos el
término “estadı́sticamente”.
Tema 1 Estadı́stica Descriptiva 24

Definición 1.42 Se dice que las variables estadı́sticas X e Y son estadı́sticamente independientes si
se verifica: fi/j = fi· para i = 1, 2, . . . , l, j = 1, 2, . . . , k.
Se dice que dos modalidades Ai y Bj son estadı́sticamente independientes si se verif ica: fi/j = fi·

La definición anterior significa que la distribución de la variable X no depende de los valores que
tome la variable Y , y recı́procamente.

Proposición 1.43 Las siguientes condiciones son equivalentes:

1. Las variables estadı́sticas X e Y son independientes,

2. fij = fi· f·j , para i = 1, 2, . . . , l, j = 1, 2, . . . , k.

3. fj/i = f·j para i = 1, 2, . . . , l, j = 1, 2, . . . , k.

Ejemplo

Variables no independientes Variables independientes


H
HH Y H
HH Y
B1 B2 B3 B1 B2 B3
X H
HH X H
H H
1 1 1 1 1 1
A1 /3 0 0 /3 A1 /9 /9 /9 /3
1 1 1 1 1 1
A2 0 /3 0 /3 A2 /9 /9 /9 /3
1 1 1 1 1 1
A3 0 0 /3 /3 A3 /9 /9 /9 /3
1 1 1 1 1 1
/3 /3 /3 1 /3 /3 /3 1

4 5 Representaciones gráficas de las distribuciones bidimensionales de frecuencias

Las distribuciones marginales y condicionadas son distribuciones unidimensionales, como ya se


ha indicado y, por tanto, sus representaciones gráficas se ajustarán a las vistas en la sección de
distribuciones unidimensionales de frecuencias.
A continuación se recogen algunas representaciones gráficas de distribuciones bidimensionales que
se usan habitualmente.

Figura 1.11: Diagrama de mosaico para “Grados” según “Sexo”


Tema 1 Estadı́stica Descriptiva 25

Diagrama de Mosaico. Sobre el eje Y se representan las modalidades de una de las variables y
sobrecada una se levanta un rectángulo con área proporcional a la frecuencia marginal de la
modalidad. Cada rectángulo se subdivide en subrectángulos de base proporcional a la frecuencia
condicionada de cada valor de la otra variable a esta modalidad. De esa manera se da también
una imagen gráfica de la distribución conjunta de ambas variables (proporcionada por el área
de cada subrectángulo). Para los datos de alumnos por Grado y Sexo se obtiene la figura 1.11
(pág 24).

Diagramas de barras. Se utiliza para representar la distribución cuando ambas variables tienen
pocas modalidades. Consiste en dibujar para cada par (Ai , Bj ) una barra de longitud propor-
cional a la frecuencia (relativa o absoluta). Las barras se pueden disponer de diversas formas.
Damos dos ejemplos:

Figura 1.12: Diagrama de barras para “Grados” según “Sexo”


en frecuencias absolutas: apilado (izquierda) y no apilado (derecha)

Histograma tridimensional. Se utiliza para representar la distribución cuando ambas variables


son continuas y agrupadas en intervalos. Consiste en representar las clases de cada variable en un
plano y levantar sobre cada rectángulo un paralelepı́pedo de volumen proporcional a la frecuencia
relativa o absoluta. Si los rectángulos base de todas las clases son iguales, los paralelepı́pedos
que se levantan, y que tienen que verificar que su volumen sea proporcional a la frecuencia de
la clase, tendrán como altura un valor proporcional a las frecuencias (relativas o absolutas).

Diagrama de dispersión o nube de puntos. Se utiliza para variables cuantitativas sin agrupar en
clases. Consiste en representar cada par de puntos (xi , yj ) en un plano. Permite obtener también
una representación gráfica de las distribuciones marginales de X e Y si se proyectan los puntos
sobre cada eje (se obtiene ası́ el diagrama de puntos para cada variable).

En la figura 1.13 (pág. 26) se representa el tiempo de espera entre las erupciones y las duraciones
de las mismas del géiser Old Faithful en el Parque Nacional Yellowstone, en Wyoming, EE.UU.
Este gráfico parece sugerir la existencia de dos “tipos” de erupciones: uno de corta espera y
corta duración y otro de larga espera y larga duración.1

1
https://commons.wikimedia.org/wiki/File:Oldfaithful3.png. Publicado bajo la licencia Dominio público vı́a Wikime-
dia Commons.
Tema 1 Estadı́stica Descriptiva 26

Figura 1.13: Erupciones del géiser Old Faithful

4 6 Dependencia lineal

Una de las formas de dependencia de más interés entre variables continuas es la dependencia lineal,
por varias razones:

En muchos problemas prácticos la relación entre las variables es lineal.

Aún cuando la relación no sea lineal, frecuentemente es linealizable, mediante transformaciones.

Si el rango de valores es pequeño, la aproximación lineal puede ser válida.

Vamos a introducir a continuación medidas de la relación lineal entre las variables:

1. Covarianza.

Definición 1.44 Sea (X, Y ) una distribución bidimensional, se define la covarianza de (X,Y) y
se representa por Cov(X,Y) ó sXY como:
l X
X k
Cov(X,Y) = (xi − x̄) (yj − ȳ) fij
i=1 j=1

Observación 1.45 La fórmula anterior es válida cuando se tiene la distribución de frecuencias


de (X, Y ). Si lo que se tiene son los N pares de datos en la forma (xi , yi ) ∀i = 1, 2, . . . , N la
expresión anterior queda de la forma:
N
X (xi − x̄)(yi − ȳ)
Cov(X,Y) =
N
i=1

Si los datos están agrupados en frecuencias absolutas, entonces


l,k
X (xi − x̄)(yj − ȳ)nij
Cov(X,Y) =
N
i,j=1
Tema 1 Estadı́stica Descriptiva 27

A la hora de realizar cálculos sin ordenador o, incluso, para manipulaciones algebraicas, puede
resultar de utilidad la expresión obtenida para la covarianza en el siguiente desarrollo:

N N
1 X 1 X
Cov(X,Y) = (xi − x̄) (yi − ȳ) = (xi yi − xi ȳ − x̄yi + x̄ȳ) =
N N
i=1 i=1
N N N N
!
1 X X X 1 X
= xi yi − ȳ xi − x̄ yi + N x̄ȳ = xi yi − ȳx̄ − x̄ȳ + x̄ȳ =
N N
i=1 i=1 i=1 i=1
N
1 X
xi yi − ȳx̄ = xy − x̄ ȳ.
N
i=1

Observación 1.46 El valor de la covarianza proporciona información sobre la posible relación


lineal entre dos variables; cuando los datos parecen disponerse entorno a una recta de pendiente
positiva, la covarianza es positiva; si parecen disponerse en torno a una recta de pendiente
negativa, la covarianza es negativa; si no parece haber relación lineal, la covarianza es próxima
a cero. La figura 1.14 en la página 28 hace referencia a esta cuestión.

Propiedades 1.47 Sean X e Y dos variables estadı́sticas.

1. Si X e Y son independientes, entonces Cov(X,Y) = 0. (El recı́proco no es en general cierto:


ver el ejemplo a continuación).
En efecto, si X e Y son independientes, para cada i,j se tiene que fij = fi· f·j y por tanto,
l X
X k l X
X k
Cov(X,Y) = xi yi fij − x̄ȳ = xi yi fi· f·j − x̄ȳ =
i=1 j=1 i=1 j=1

l
! k

X X
= xi fi·  yj f·j  − x̄ȳ = 0
i=1 j=1

2. Si a, b, c, d ∈ R, y U = aX + b, V = cY + d, entonces Cov(U,V) = a c Cov(X,Y).

N
1 X
Cov(U,V) = Cov(aX+b,cY+d) = (axi + b − (ax̄ + b)) (cyi + d − (cȳ + d)) =
N
i=1

N
1 X
= (axi − ax̄) (cyi − cȳ) = a c Cov(X,Y)
N
i=1

Ejemplo
Las variables X e Y cuya distribución viene dada por la siguiente tabla conjunta, tienen
Cov(X,Y) = 0, pero no son independientes. Demuéstralo y verifica que Y = X 2 .
H
HH Y
0 1
X H
HH
1 1
-1 0 /3 /3
1 1
0 /3 0 /3
1 1
1 0 /3 /3
1 2
/3 /3 1
Tema 1 Estadı́stica Descriptiva 28

2. Coeficiente de correlación.
Uno de los principales inconvenientes de la covarianza es que depende de las unidades de medida
de las variables. El coeficiente de correlación es, en cambio, una medida adimensional.

Definición 1.48 Se define el coeficiente de correlación lineal entre dos variables X e Y y se


Cov(X,Y)
denota por r, como: r = .
sX sY

Propiedades 1.49 1. Es un coeficiente adimensional.


2. El valor de r no varı́a si multiplicamos X por a e Y por b con a y b números reales del
mismo signo.
3. −1 ≤ r ≤ 1.
4. |r| = 1 si, y sólo si, existe relación lineal exacta entre las variables, es decir, si existen
a, b ∈ R tales que yi = axi + b, i = 1, . . . , N . Además, si a > 0, es r=1 y si a < 0 es r = −1.
5. SiX e Y son estadı́sticamente independientes, entonces r = 0.

Figura 1.14: Interpretación del coeficiente de correlación lineal

De las propiedades anteriores se deduce que si r es próximo a ±1 se puede sospechar la existencia


de relación lineal entre las variables y que si r es próximo a 0, se puede sospechar la inexistencia
de tal relación. En cualquier caso, el coeficiente de correlación es una medida resumen de la
estructura de un diagrama de dispersión, y por tanto siempre conviene dibujar el diagrama que
es el que contiene toda la información.
Tema 1 Estadı́stica Descriptiva 29

5
Ejercicios

1. Para los distintos conjuntos de datos calcula los valores pedidos y contesta a las preguntas:

I. Datos: 23, 12, 15, 17, 8.


II. Datos: 1, 3, 1, 1, 5, 6.
III. Datos: -1, -2, -7, 0, 1, 1, -1.
IV. Datos: 25.1, 10.2, 10.4, 7.3, 3.6, 6.2, 5.5, 5.7.

a) Media
b) Mediana
c) Moda
d ) Desviación tı́pica
e) Cuartiles
f ) Rango intercuartı́lico
g) Lı́mites LI y LS
h) 80 percentil
i ) Los datos atı́picos
j ) La distribución de datos ¿es simétrica? Comenta la asimetrı́a.

2. Para los distintos conjuntos de datos calcula los valores pedidos y contesta a las preguntas:

I. Datos:
(Li−1 , Li ] ni
(0,10] 3
(10,20] 7
(20,40] 7
(40,50] 5
II. Datos:
(Li−1 , Li ] fi
(0,3] 0.13
(3,6] 0.27
(6,9] 0.11
(9,12] 0.30
(12,15] 0.19
III. Datos:
(Li−1 , Li ] Fi
(-30,-15] 0.2
(-15,0] 0.5
(0,10] 0.9
(10,20] 1.0

a) Media
b) Mediana
c) Desviación tı́pica
d ) Cuartiles
e) Rango intercuartı́lico
Tema 1 Estadı́stica Descriptiva 30

f ) Altura de las barras correspondientes del histograma.


g) 80 percentil
h) La distribución, ¿es campaniforme?.
i ) La distribución de datos ¿es simétrica?.

3. Se sabe que el 4 % de los dı́as de un mes de 25 dı́as laborables un trabajador de cierta empresa
utiliza 15 minutos o menos para wasapear. El 40 % de los dı́as este tiempo no supera los
25 minutos. En 11 dı́as supera los 30 minutos, y el 24 % de los dı́as wasapea entre 30 y 35
minutos. Además, ningún dı́a ha superado los 50 minutos. Construir la tabla de frecuencias de
la distribución del tiempo dedicado a wasapear por este trabajador.

4. En una encuesta realizada a 100 familias se ha obtenido la siguiente distribución de frecuencias


relativas acumuladas de X=”No de miembros que componen la unidad familiar”.
Xi 1 2 3 4 5 6 7
Fi 0.15 0.32 0.57 0.74 0.87 0.96 1
a) Determina la proporción de familias con un máximo de cuatro miembros.
b) Determina el no de familias en la muestra con exactamente 4 miembros.
c) Determina el tamaño mı́nimo que debe tener una familia para estar entre las 10 familias
con más miembros.
d ) Las 32 familias menos numerosas tienen menos de ¿qué número de miembros?

5. Calcula x̄, s2 y la mediana para los datos resumidos en esta tabla de frecuencias:
xi fi
-1 0.3
2 0.3
3 0.4

6. Las cinco primeras desviaciones con respecto a la media muestral ( xi − x̄ ) de un conjunto de


seis observaciones de medición de resistencia son: −2, 3, 7, 4 y −1. ¿Cuál es el valor de la sexta
desviación con respecto a la media? Dar una muestra que tenga las desviaciones anteriores con
respecto a la media. ¿Cuántas muestras pueden construirse con esta caracterı́stica? Razonar la
respuesta.

7. De una empresa con 1500 trabajadores se sabe que la media de los salarios es de 800 euros, con
una desviación estándar de 100 euros. ¿Es posible que haya 150 trabajadores que cobren más de
1100 euros?

8. Una población está dividida en dos subgrupos. En el primero, la media de edad es de 25 años y
en el segundo grupo de 29. ¿Será cierto que la media de la población total está en el intervalo
(25,29)? Razonar la respuesta.

9. La puntuación media obtenida por los alumnos en un examen fue de 5 con una desviación
estándar de 1. Si la puntuación z (valor tipificado) de un estudiante en este examen fue de 1.8,
¿cuál es su calificación en el examen?

10. Sea X una variable estadı́stica con valores {x1 , x2 , . . . , xN }. ¿Para qué valor de k se verifica
PN
(xi − k) = 0?
i=1

N
X x2 i
11. ¿Puede ser que un conjunto de datos x1 , x2 , . . . , xN tenga x̄ = 3 y = 8?
N
i=1
Tema 1 Estadı́stica Descriptiva 31

12. Dadas dos variables estadı́sticas, X e Y , ¿cuál tiene mayor dispersión/variabilidad, X con media
20 y varianza 64 ó Y con media 25 y varianza 81? Razonar la respuesta.

13. Consideramos un conjunto de datos con media 7 y varianza 3. Entre ellos hay dos datos iguales
a 7. Supongamos que eliminamos del conjunto uno de los datos iguales a 7.

a) ¿Cuál es la media del nuevo conjunto de datos? Justificar la respuesta.


b) La varianza del nuevo conjunto de datos, ¿aumenta, disminuye o sigue siendo igual a 3?
Justificar la respuesta.

14. Estamos interesados en la variable X= Tiempo de vida (en semanas) de bombillas fabricadas con
cierto filamento. En una muestra grande se han obtenido resultados resumidos en la siguiente
tabla:
Percentil 30 50 70 100
Tiempo de Vida 18 22 26 30

Construir con estos datos una tabla de frecuencias relativas y hallar el tiempo medio de vida
usando como dato la marca de clase.

15. En una clase grande hay 150 estudiantes masculinos y 100 femeninos; los estudiantes promedian
en altura 175 cm. con una desviación estandar de 19 cm y las estudiantes promedian 165 cm con
desviación estandar de 25 cm. Tomando conjuntamente los hombres y las mujeres,

a) La altura promedio serı́a:


b) La desviación estándar de las alturas serı́a ¿un poco mayor de 25 cm., menor que 25 cm, o
exactamente 25 cm?

16. Los salarios de los 20 empleados de una empresa son: 10 cobran 600 euros, 9 cobran 900 euros,
uno cobra 9900 euros. Se pide:

a) Determinar cuál de las medidas de centralización representa mejor a la variable Y =salarios


de la empresa. Calcular e interpretar las medidas de dispersión.
b) Construir e interpretar el diagrama de caja de Y . Localizar los datos atı́picos.
c) Estudiar cómo incide en las medidas de Y una subida de 180 euros a cada empleado.
d ) Determinar cómo incide en dichas medidas una subida del 10 %.

17. Se ha observado que el número de clientes que acude diariamente a un determinado estableci-
miento es una variable estadı́stica con media 200 y varianza 900. ¿Cuál es el porcentaje máximo
de dı́as en los que acuden más de 235 clientes? ¿y si sabemos que la distribución de los datos es,
además, simétrica?

18. Una empresa multinacional tiene dos oficinas en España, una en Madrid y otra en Barcelona; un
estudio realizado sobre los salarios de los empleados (en euros) arroja los siguientes resultados:

Salario número empleados


(500,1000] 42
(1000,1500] 103
(1500,2000] 35
(2000,3000] 25
(3000,4000] 12
(4000,5000] 3

a) ¿Qué porcentaje de empleados cobran más de 3250 euros?


Tema 1 Estadı́stica Descriptiva 32

b) ¿Qué salario es superado por el 80 % de los empleados?


c) ¿Qué salario no supera el 70 % de los empleados?

19. En la siguiente tabla se presentan las puntuaciones obtenidas por los ocho participantes en la
prueba de paralelas y por los 6 de la prueba de anillas en una competición gimnástica:
Paralelas 9.45 9.55 9.05 9.65 9.25 9.85 9.70 9.40
Anillas 9.50 9.60 9.10 9.45 9.00 9.05
¿En cuál de las dos pruebas tiene mejor nivel el participante con puntuación en negrita? ¿En
qué grupo de puntuaciones existe mayor variación?.

20. De un conjunto de datos numéricos cuyos valores x1 , x2 , . . . , xk con frecuencias absolutas


n1 , n2 , . . . , nk respectivamente y cuya distribución es simétrica y unimodal, se sabe que
Xk Xk Xk
N= ni = 40, ni (xi − a) = 0, para a = 10 y ni x2i = 5 000.
i=1 i=1 i=1

Se pide:
a) Hallar, de forma razonada, la media, la mediana y la moda del conjunto de datos. Calcular
la varianza.
b) Si se sabe que IQR= 12 y el menor de los datos es 1, dibujar el diagrama de caja del
conjunto de datos.

21. De un conjunto de datos x1 , x2 , . . . , xn se conocen Q1 = 3 , Q2 = 4.5 , Q3 = 5 , x(n) = 10 y el


resto de los datos están entre los datos 1 y 6.
Los datos anteriores se transforman mediante Y = −2X + 1. Dibujar el diagrama de caja o
box-plot de los datos transformados.
¿La tranformación afectará a la asimetrı́a del conjunto de datos? ¿Y a la dispersión? ¿Cómo?

22. La Corner Convenience Store siguió la pista del número de clientes que pagaron a mediodı́a
durante 100 dı́as. A continuación se presentan las medidas resultantes, redondeados al entero
más próximo: Media=95, Mediana=97, Moda=98, Rango Medio (semisuma del máximo y del
mı́nimo)=93, Desviación estándar=12, Primer Cuartil=85, Tercer cuartil=107, Rango=56.

a) ¿A cuántos clientes atendió la Corner Convenience Store durante el mediodı́a, más a menudo
que cualquier otro número? Explicar cómo determinó su respuesta.
b) ¿En cuántos dı́as hubo entre 85 y 107 clientes que pagaron al mediodı́a? Explicar cómo
determinó su respuesta.
c) ¿Cuál fue el mayor número de clientes que pagaron durante cualquier hora del mediodı́a?
Explicar cómo determinó su respuesta.
d ) ¿Para cuántos de los 100 dı́as el número de clientes que pagaron está a menos de tres
desviaciones estándar de la media? Explicar cómo determinó su respuesta.
e) Construir, si es posible, el diagrama de caja de este conjunto de datos, comentando a partir
de él la simetrı́a de los datos.

23. Una prestigiosa fruterı́a tiene como norma clasificar los mangos, según su tamaño, en superiores
y normales. Los superiores son aquellos cuyo peso es superior a 450 gr. De una partida, repre-
sentativa de los mangos que se reciben normalmente se han obtenido los siguientes resultados:

Peso (250 , 300] (300 , 350] (350 , 400] (400 , 450] (450 , 500]
0
N de unidades 3 10 15 25 32
Peso (500 , 550] (550 , 600] (600 , 700] (700 , 800]
N0 de unidades 20 19 4 2
Tema 1 Estadı́stica Descriptiva 33

a) Si decide retirar de la venta aquellos mangos cuyo peso sea a lo sumo el del percentil 5,
¿qué peso máximo puede alcanzar un mango que no se vende al público?
b) ¿En qué percentil estará un mango que pesa 580 gr.?
c) Un sibarita ha acordado con el frutero quedarse con los mangos cuyo peso sea superior a
625 gr. ¿Qué porcentaje de mangos se destinará a esta persona?

24. Sean X e Y variables estadı́sticas con distribución conjunta:

H
HH Y
0 1 2
X H
HH

-1 1/ b 0 c
9

0 a 0 1/ 3/
9 9

1 g 1/ d e
9

f 2/ 3/ 1
9 9

a) Completar la tabla y obtener las distribuciones marginales de X e Y .


b) Calcular x̄ y sX . ¿Cuál será la mediana de Y ?
c) ¿Son X e Y independientes?
d ) Obtener la distribución de frecuencias de X condicionada a Y = 2 y la de Y condicionada
a X ≥ 0.
e) Obtener la distribución de la variable Z = X + Y .
f ) Calcular f r(X < 41 , Y < 0) y f r(XY < 32 ).

25. La variable X toma los valores 0 y 1 con fX (0) = 0.4; la variable Y toma los valores 1 y 2 y
se conocen: fY /(X=0) (1) = 0.7 y fY /(X=1) (1) = 0.4. Obtener la tabla de doble entrada para
(X, Y ) .

26. Dada la siguiente tabla y sabiendo que ȳ/(X=A) = 1, ȳ/(X=B) = 1.5


X\ Y 1 2
A 4 n12
B n21 3

a) Calcular n12 y n21


b) Calcular la media de la variable Y.

27. A los alumnos de determinada asignatura del Grado se les ha preguntado sobre el número de
horas semanales que dedican a la asignatura (X) y el número de convocatorias consumidas (Y ),
obteniéndose la siguiente información:

Una quinta parte de los alumnos que estudian 6 horas han consumido 2 convocatorias.
El número medio de convocatorias consumidas por los alumnos que estudian 4 horas es
1.25.
el número medio de convocatorias consumidas es 0.975.
El 10 % de los alumnos estudian 2 horas a la semana y han consumido una sola convocatoria.

El resto de los datos se encuentran resumidos en la siguiente tabla:


Tema 1 Estadı́stica Descriptiva 34

HH X
H
0 2 4 6
Y HH
H
0 10 1 c 0
1 2 b 7 4
2 a 1 4 d

Obtener a, b, c y d.

28. Obtener la distribución conjunta de frecuencias absolutas de (X, Y ) sabiendo que son indepen-
dientes y que

X 1 2 3 Y 4 5
ni·· 4 7 9 n· j 9 11

29. A los visitantes de un museo se les clasifica en Rápidos, Normales y Lentos, siendo los lentos la
tercera parte de los normales, pero 4 de cada 5 visitantes son rápidos. Ahora bien, del 63 % de
los visitantes que compran en la tienda del museo, los lentos son los menos compradores, pues
solo el 3 % de ellos compra, mientras que de los normales compra el 19 %. Completar la tabla de
frecuencias relativas conjuntas. ¿Qué porcentaje de los que compran son rápidos?

Rápido Normal Lento


Compra
No compra

También podría gustarte