Introducción a la Estadística Descriptiva
Introducción a la Estadística Descriptiva
Tema 1
ESTADÍSTICA DESCRIPTIVA
1
Definiciones previas
Definición 1.1 Población es cualquier conjunto de datos, objetivo de nuestro interés, que caracteriza
un fenómeno que nos interesa.
Definición 1.2 Muestra es un subconjunto de una población determinada. Interesan aquellas muestras
que representan fielmente a la población.
En ocasiones se utilizan las palabras población y muestra para referirse a los datos que se someten
a medición.
Definición 1.3 La Inferencia Estadı́stica tiene por objeto obtener conocimientos sobre ciertas pobla-
ciones a partir de las observaciones relativas a una muestra. Su instrumento matemático es el Cálculo
de Probabilidades.
2
Variables estadı́sticas
Se va a trabajar con conjuntos de datos asociados al carácter o caracterı́stica objeto de estudio, que
denominaremos variable estadı́stica y se representará por una letra mayúscula: X, Y, Z, . . . A partir de
ahora nos referiremos a los conjuntos de datos como variables.
Tema 1 Estadı́stica Descriptiva 2
Como en esta parte se va a tratar de describir y analizar estas variables, debemos distinguir los
distintos tipos de variables que hay, lo cual nos va a permitir utilizar las herramientas estadı́sticas
apropiadas.
2 1 Tipos de variables
Los distintos valores que puede presentar una variable estadı́stica se denominan modalidades.
Ejemplo: la caracterı́stica “gusto” puede presentar cuatro modalidades: dulce, amargo, salado y ácido;
el “sexo” dos: hombre y mujer; la estatura puede estar agrupada en intervalos o clases: (1.40, 1.50],
(1.50, 1.60], (1.60, 1.70], . . ..
tipos de variables
cuantitativas cualitativas
nominal ordinal
continuas discretas (no ordenada) (ordenada)
Las variables cualitativas también pueden tomar valores numéricos y, entonces, la diferencia entre
variables cualitativas y cuantitativas puede ser algo más sutil. Por ejemplo, la “clase social” codificada
con modalidades baja=1, media=2, alta=3, es una variable cualitativa con escala ordinal; el “estado
civil” con modalidades soltero=1, casado=2, separado=3, divorciado=4, viudo=5, es una variable
cualitativa con escala nominal.
Para distinguir cualitativas de cuantitativas podemos acudir a una regla fácil: en las cualitativas no
es interpetrable ninguna operación aritmética entre sus valores y los valores asignados son arbitrarios
(podrı́a ser soltero=π si alguien lo considera útil), aunque en el caso de las ordinales es precisamente
la existencia de un orden la caracterı́stica relevante.
Cuando los datos se observan con una pauta fija temporal (cada hora, semana, etc.), constituyen
una serie temporal, y su análisis requiere otras técnicas donde el orden de los datos influye.
2 2 Presentación de datos
La forma más elemental de presentar los datos es por medio de una matriz en la que aparecen
en la primera columna los individuos, representados de alguna forma (en muchas ocasiones se suele
Tema 1 Estadı́stica Descriptiva 3
prescindir de esta columna) y en las restantes columnas las observaciones de las distintas variables (o
caracterı́sticas) en estudio para cada uno de los individuos. Se la conoce como matriz de datos y es la
presentación tı́pica de hojas de cálculo y muchos programas estadı́sticos, en particular, Statgraphics.
Ejemplo
Cuando se estudia una sola variable, otra forma usual de presentar los datos es por medio de una
matriz en la que cada valor corresponde a un individuo de la población.
Ejemplo
Las edades de 40 individuos encuestados han sido:
12 17 16 23 39 32 23 33
36 23 23 15 36 26 17 24
11 34 37 24 17 39 19 31
16 11 13 40 34 18 14 29
33 14 26 26 26 31 35 18
Observación 1.4 La marca de clase se considera el valor representativo de todos los valores de su
intervalo. Por ello, deben elegirse los intervalos de forma que la marca sı́ sea un valor representativo.
Puede ocurrir que la marca de clase tenga más cifras decimales que los datos (es decir, que no
corresponda a un valor realmente observable) y lo mismo puede ocurrir con los lı́mites de clase.
A veces, el primer y último intervalo, tienen respectivamente, el extremo inferior y superior
indeterminados, con objeto de incluir observaciones poco frecuentes.
Ejemplo
Para los datos de las edades de 40 individuos (pág. 3) se obtiene la siguiente agrupación en clases:
Clases N o de datos
(10,15] 7
(15,20] 8
(20,25] 6
(25,30] 5
(30,35] 8
(35,40] 6
En este caso el número de clases es 6, los lı́mites son 10, 15, 20, 25, 30, 35 y 40; la amplitud en
todas las clases es 5, y las marcas son, respectivamente: 12.5, 17.5, 22.5, 27.5, 32.5 y 37.5.
Tema 1 Estadı́stica Descriptiva 5
3
Estadı́stica Descriptiva Univariante
Ahora vamos a considerar datos correspondientes a una sola variable estadı́stica, que denominare-
mos X. En la práctica se corresponde a tratar con una de las columnas de la matriz de datos.
3 1 Distribución de frecuencias
Para los datos de cualquier variable estadı́stica (cualitativa o cuantitativa) se calculan las siguientes
frecuencias:
Ni
Frecuencia relativa acumulada hasta la modalidad Mi , (valor xi o intervalo Ii ): Fi = o,
Pi N
equivalentemente, Fi = f1 + f2 + · · · + fi = j=1 fj .
La forma de dar estos valores es por medio de tablas, en las que aparecen una primera columna con
las distintas modalidades de la variable (ordenadas de menor a mayor, si la variable es cuantitativa)
y columnas correspondientes a las frecuencias absolutas, relativas, absolutas acumuladas y relativas
acumuladas (éstas dos últimas, cuando tengan sentido).
Mi ni fi Ni Fi
M1 n1 f1 N1 F1
M2 n2 f2 N2 F2
.. .. .. .. ..
. . . . .
Mk nk fk Nk = N Fk = 1
k
P
- fi = 1.
i=1
- Nk = N .
- Fk = 1.
Tema 1 Estadı́stica Descriptiva 6
- Las frecuencias relativas y las frecuencias relativas acumuladas pueden interpretarse como por-
centajes:
Cuando los datos aparecen agrupados en intervalos, se habla de frecuencias absolutas, relativas,
absolutas acumuladas y relativas acumuladas de cada clase. En este caso, las tablas de frecuencias
tienen la forma:
(Li−1 − Li ] ci ni fi Ni Fi
(L0 , L1 ] c1 n1 f1 N1 F1
(L1 , L2 ] c2 n2 f2 N2 F2
.. .. .. .. ..
. . . . .
(Lk−1 , Lk ] ck nk fk Nk Fk
(Li−1 − Li ] ci ni fi Ni Fi
(10, 15] 12.5 7 0.175 7 0.175
(15, 20] 17.5 8 0.200 15 0.375
(20, 25] 22.5 6 0.150 21 0.525
(25, 30] 27.5 5 0.125 26 0.650
(30, 35] 32.5 8 0.200 34 0.850
(35, 40] 37.5 6 0.150 40 1.000
Se observa cómo en este caso, la marca de clase puede no ser un valor posible de la variable, pero
conserva su significado de valor representativo de todos los datos del intervalo.
Observación 1.7 Al escribir una tabla es conveniente tener en cuenta los siguientes convenios para
evitar ambigüedades:
- Indicar la unidad de medida de cada variable.
- Indicar con un 0 los valores con frecuencia 0, no con un guión (-) o cualquier otra indicación
similar, que se interpreta como ausencia de información sobre la frecuencia del valor.
- Escribir todos los datos con igual número de decimales.
3 2 Medidas caracterı́sticas
Vamos a definir en esta sección algunos valores numéricos que proporcionan información sobre
cómo se distribuye un conjunto de datos homogéneo. Estas medidas, además, permiten comparar
distribuciones y serán de utilidad para obtener conclusiones sobre la población cuando se trabaja con
una muestra.
Definición 1.8 Si x1 , . . . , xN son los datos directos de la variable, se def ine la media como:
N
X xi
x̄ =
N
i=1
Observación 1.9 Si los datos vienen dados por medio de una tabla de frecuencias:
xi ni fi
x1 n1 f1
x2 n2 f2
.. .. ..
. . .
xk nk fk
entonces
k k
X xi ni X
x̄ = = xi fi
N
i=1 i=1
Si los datos están agrupados en intervalos y no se dispone de todos los datos originales, se
usan como xi las correspondiente marcas de clase ci .
Propiedades 1.10 a) La media es el valor que equilibra las desviaciones positivas y ne-
N
P
gativas de los datos directos respecto a su valor: (xi − x̄) = 0. En ese sentido, se la
1
puede considerar como centro de gravedad o centro geométrico de los datos.
b) Utiliza toda la información contenida en los datos (pues utiliza todos los datos).
Mediana.
Cálculo de la mediana: Denotaremos por x(i) el dato que ocupa el lugar i-ésimo una vez
ordenados los datos de menor a mayor.
x +x((N/2)+1)
Si el número de datos, N , es par, el valor mediana es (N/2) 2 , mientras que si el
número de datos es impar, el valor mediana es x((N +1)/2) .
Moda.
Definición 1.12 La moda, se define como el valor o los valores más frecuentes de la
variable, es decir, a los que corresponde la mayor frecuencia.
Cuando los datos están agrupados por clases, no puede determinarse qué valor es la moda;
en este caso llamaremos clase modal a aquella a la que corresponde la mayor altura en el
histograma (que no tiene porqué coincidir con la clase de mayor frecuencia).
Ejemplo
Para los datos 10, 15, 21, 50, la media es 24, desplazada hacia el valor 50 que es un valor extremo.
Si los datos correctos hubiesen sido 10, 15, 21, 20, la media serı́a 16.5. Sin embargo, la mediana
queda menos afectada por ese dato extremo: en el primer caso serı́a 18 y en el segundo, 17.5.
Observación 1.13 A veces, el conjunto de datos está dividido en subgrupos, por ejemplo, los
individuos de una clase divididos en hombres y mujeres, y se conoce la media de una caracterı́stica
en cada subgrupo. A partir de esta información se puede obtener la media del conjunto total de
datos: si x̄1 , x̄2 , . . . , x̄s son las medias en s subgrupos (disjuntos) con n1 , n2 , . . . , ns individuos
cada uno, la media total será:
Definición 1.14 Para cada valor p ∈ (0, 1), se denomina p-cuantil, y también percentil 100×p, y
se denota por qp , al valor de la variable que divide a la distribución de frecuencias en dos partes,
de forma que al menos el 100p % de los datos son menores o iguales que qp .
Observación 1.17 A veces solo disponemos de la información de los datos agrupados en clases y
no el valor de los datos, en esos casos se calculan valores aproximados de los percentiles, tomando
como valor qp el valor del eje X en el que el polı́gono de frecuencias relativas acumuladas tiene
por altura p: Si F1 , F2 , . . . , Fk son las frecuencias relativas acumuladas de las clases en que se
agrupan los datos, existe i ∈ {1, 2, . . . k} con Fi−1 ≤ p < Fi . (Se considera F0 = 0). El percentil
100×p será:
p − Fi−1
qp = Li−1 + bi
fi
Tema 1 Estadı́stica Descriptiva 9
b Medidas de dispersión
Estas medidas indican lo próximos o alejados que están los datos, bien entre sı́, o respecto a alguna
medida de centralización.
Rango o recorrido.
Definición 1.18 Si x(1) , x(2) , . . . , x(N ) son los datos, ordenados de menor a mayor, se denomina
recorrido a x(N ) − x(1) , es decir, a la diferencia entre el mayor y el menor dato.
El recorrido es fácil de calcular, lo que hace que sea una medida muy utilizada, por ejemplo en
control de calidad. Además tiene idénticas unidades que la variable. Sin embargo, presenta el
inconveniente de ser una medida muy sensible a valores extremos.
Varianza.
Observación 1.20 Si los datos vienen dados por medio de una tabla de frecuencias, entonces
k k
X (xi − x̄)2 ni X
s2 = = (xi − x̄)2 fi
N
i=1 i=1
La varianza tiene en cuenta todos los datos, es fácil de calcular, pero no tiene las mismas unidades
que la variable; este inconveniente se salva considerando su raı́z cuadrada, que se denomina
desviación tı́pica.
Observación 1.21 Por razones que veremos más adelante, en muchos casos se utiliza otra
medida, llamada cuasivarianza, y que a la hora de hacer inferencias, tiene mejores propiedades
que la varianza. Se define la cuasivarianza de los datos directos x1 , x2 , . . . , xN , y se denota por
s2c al valor:
N
2
X (xi − x̄)2
sc =
N −1
i=1
Notar que N s2 = (N − 1) s2c , y que si N es grande, la diferencia entre ambas medidas (varianza
y cuasivarianza) es pequeña.
Desviación tı́pica.
Observación 1.24 Si los datos vienen dados por medio de una tabla de frecuencias, entonces
v v
u k u k
u X (xi − x̄)2 ni uX
s = t = t (xi − x̄)2 fi
N
i=1 i=1
La desviación estándar se expresa en las mismas unidades que la variable, dando una idea más
precisa de la variabilidad respecto de la media, como veremos en el teorema siguiente.
Demostración:
Vamos a denotar por fr la frecuencia relativa de un conjunto de datos y por x1 , x2 , . . . , xN los
valores directos de la variable X.
Sean A1 = {xi : |xi − x̄| > ks} y A2 = {xi : |xi − x̄| ≤ ks}. A partir de la definición de varianza,
se obtienen las siguientes desigualdades:
N
X (xi − x̄)2 X (xi − x̄)2 X (xi − x̄)2
s2 = = + ≥
N N N
i=1 xi ∈A1 xi ∈A2
1
Despejando, fr (A1 ) < k2 . Como fr (A1 ) + fr (A2 ) = 1, se tiene que
1
fr (A2 ) = fr {xi : |xi − x̄| ≤ ks} > 1 − 2
k
y teniendo en cuenta la interpretación de la frecuencia relativa como tanto por ciento, se obtiene
el resultado.
Observación 1.27 Tomando k = 2, en el intervalo [x̄ − 2s, x̄ + 2s] se encuentra como mı́nimo
el 75 % de los datos.
Tomando k = 3, en el intervalo [x̄ − 3s, x̄ + 3s] se encuentra como mı́nimo el 89 % de los datos.
Rango intercuartı́lico.
IQR = Q3 − Q1 .
El rango intercuartı́lico es una medida de dispersión utilizada en relación con la mediana e indica
la dispersión del 50 % central de los datos.
Tema 1 Estadı́stica Descriptiva 11
xi −x̄
Definición 1.29 Se define el valor z del dato xi como el valor zi = s .
Nos indica cuántas desviaciones tı́picas se aleja el dato respecto del valor de la media.
Coeficiente de variación.
Definición 1.30 Para datos todos positivos o todos negativos, se define el coeficiente de variación
de Pearson de la variable estadı́stica X como:
s
CV = .
|x̄|
d Medidas de forma
1. Asimetrı́a. (En Statgraphics Sesgo)
Diremos que una distribución es simétrica si al considerar la representación gráfica de la
distribución de frecuencias y trazar una perpendicular al eje de abcisas por x̄ ocurre lo siguiente:
Hay el mismo número de valores a ambos lados de la perpendicular, equidistantes de x̄ dos a
dos y tales que cada par de valores equidistantes a x̄ tienen la misma frecuencia. En este caso,
la mediana coincide con x̄.
Las medidas de asimetrı́a existentes son válidas para las denominadas distribuciones con forma de
campana o campaniformes (distribuciones unimodales simétricas o con cierta asimetrı́a) y para
las distribuciones en forma de U. Indicar que las distribuciones en forma de campana son las
más usuales. Cuando la distribución de los datos es campaniforme, las distribuciones asimétricas
se clasifican en distribuciones asimétricas con cola a la derecha o asimetrı́a positiva (Sesgo > 0)
y distribuciones asimétricas con cola a la izquierda o asimetrı́a negativa (Sesgo < 0); el valor de
x̄ − M e proporciona información del tipo de asimetrı́a, aunque puede no ser concluyente.
2. Apuntamiento o curtosis.
Llamamos curtosis o apuntamiento al grado de concentración de los datos alrededor de la media.
Las medidas de curtosis se aplican a distribuciones campaniformes y para estudiarlas es necesario
definir previamente una distribución “tipo”, que vamos a tomar como modelo de referencia. Esta
distribución va a ser la llamada distribución normal, que corresponde a fenómenos muy corrientes
en la naturaleza y cuya representación gráfica es una campana de Gauss, dada por la fórmula:
2
1 1 (x−µ)
f (x) = √ e− 2 σ2 ,
σ 2π
donde µ y σ son respectivamente la media y la desviación tı́pica.
A esta distribución se le llama normal porque se presenta en numerosos casos, e implica que la
mayorı́a de los valores de la variable están cerca de la media, y aquellos que se encuentran muy
distanciados de ella, a ambos lados, son poco numerosos.
Tomando esta distribución como referencia diremos que una distribución puede ser más apuntada
que la normal, en cuyo caso se denomina leptocúrtica (curtosis> 0) o menos apuntada, es decir,
platicúrtica (curtosis< 0) . A la distribución normal, desde el punto de vista de la curtosis, se
le llama mesocúrtica (curtosis= 0).
tipo frecuencias
deportivo 14
furgoneta 9
gran turismo 11
monovolumen 16
pequeño 21
tamaño medio 22
Diagrama de barras.
Esta representación gráfica consiste en construir tantos rectángulos como modalidades presente
la variable cualitativa en estudio, todos ellos con base de igual amplitud (elegida más o menos
Tema 1 Estadı́stica Descriptiva 13
Diagrama de Pareto.
Diagrama de sectores.
Esta representación consiste en dividir un cı́rculo en tantos sectores circulares como modalidades
presente la variable cualitativa, donde cada sector circular tendrá un área proporcional a la
frecuencia absoluta (o relativa). La figura 1.5 (pág. 14) representa el diagrama de sectores de
“tipo”.
Tema 1 Estadı́stica Descriptiva 14
Ejemplo
Para los datos de las edades de 40 individuos (pág. 3) se obtiene el siguiente histograma después
de una elección adecuada del número de clases, lı́mite inferior y lı́mite superior en Statgraphics:
Ejemplo
Supongamos que la distribución de una variable en clases no equiespaciadas es:
(Li−1 − Li ] ci ni
(1.5, 3.5] 2.5 3
(3.5, 6.5] 5 4
Tema 1 Estadı́stica Descriptiva 15
9
8
1. Expresar los datos en unidades convenientes, redondearlos a dos o tres cifras significativas
y ordenarlos de menor a mayor.
2. Colocarlos en una tabla con dos columnas separadas por una lı́nea como sigue:
Tema 1 Estadı́stica Descriptiva 16
- Para los datos con dos dı́gitos, escribir a la izquierda de la lı́nea los dı́gitos de las decenas
(que forman el tallo) y a la derecha los de las unidades (que forman las hojas).
- Para datos con tres dı́gitos, el tallo estará formado por las centenas y decenas, escritos a
la izquierda, y las hojas serán las unidades.
3. Cada tallo define una clase y se escribe una sola vez; el número de hojas representa la
frecuencia de la clase correspondiente al tallo.
Ejemplo
Para los datos de las edades de 40 individuos (pág. 3), se tiene el siguiente diagrama de tallo-
hojas:
15 1 1 1 2 3 4 4 5 6 6 7 7 7 8 8 9
(11) 2 3 3 3 3 4 4 6 6 6 6 9
14 3 1 1 2 3 3 4 4 5 6 6 7 9 9
1 4 0
Los valores que aparecen a la izquierda se llaman profundidades e indican las frecuencias
acumuladas, comenzando por arriba (de menor a mayor) y por abajo (de mayor a menor),
hasta llegar al tallo en el que se encuentra el valor de la mediana, tallo en el que se recoge, entre
paréntesis, la frecuencia absoluta de ese tallo.
Observación 1.31 Para facilitar la construcción del diagrama, para una cantidad numerosa de
datos, puede ser conveniente escribir en primer lugar un diagrama “desordenado.anotando los
tallos y las hojas sin ordenar de menor a mayor, y a partir de esta primera aproximación,
construir el diagrama.
A veces conviene subdividir los tallos para obtener mayor claridad, colocando por una parte las
hojas del 0 al 4 y por otra las hojas de 5 a 9, en otros casos, las hojas 0 y 1, las 2 y 3, las 4 y 5,
las 6 y 7 y, por último, las 8 y 9. Por ejemplo el anterior diagrama de tallo y hojas aparece en
Statgraphics en la forma:
6 1 1 1 2 3 4 4
15 1 5 6 6 7 7 7 8 8 9
(6) 2 3 3 3 3 4 4
19 2 6 6 6 6 9
14 3 1 1 2 3 3 4 4
7 3 5 6 6 7 9 9
1 4 0
Puede observarse que si se gira el diagrama, se obtiene una apariencia similar a la del histograma
correspondiente.
LI = Q1 − 1.5IQR
LS = Q3 + 1.5IQR
Tema 1 Estadı́stica Descriptiva 17
2. A continuación se sitúan en un eje graduado estos 5 valores y tomando como base el segmento
[Q1 , Q3 ] se dibuja un rectángulo con altura arbitraria; en él se indica la posición de la mediana,
mediante una lı́nea vertical que divide al rectángulo.
3. Desde el centro de los lados verticales del rectángulo se dibujan sendas lı́neas hasta el menor
dato mayor o igual que LI y el mayor dato menor o igual que LS, es decir, los datos más extremos
del intervalo [LI , LS].
4. Los datos que queden fuera del intervalo [LI , LS] se marcan con un punto o un asterisco, a la
altura de las dos lı́neas dibujadas. Se denominan datos atı́picos y se clasifican en próximos y
lejanos, según estén en [Q1 − 3 IQR , Q3 + 3 IQR] o aún más alejados.
Ejemplo
Para los datos de la edad de 40 individuos (pág. 3), los cinco valores son: Q1 = 17, Q3 = 33,
Me = 24, LI = −7 y LS = 57, y el Box-Plot:
Ejemplo
Las distancias de frenado, en metros, para 20 automóviles conducidos sobre una pista húmeda con
la misma velocidad son:
35.8 30.5 35.9 41.6 35.9
39.2 41.9 38.6 39.2 37.3
35.3 37.3 35.6 38.0 36.7
40.1 36.1 37.0 39.5 38.3
Los cinco valores de estos datos para el Box-Plot son: Q1 = 35.9, Q3 = 39.2, Me = 37.3,
LI = 30.95 y LS = 44.15, su diagrama de cajas se encuentra en la figura 1.9 (pág. 17).
Observación 1.32 El Box-Plot permite visualizar fácilmente caracterı́sticas como asimetrı́a, apunta-
miento, variabilidad y puesto que se basa en la mediana y los cuartiles, medidas poco influenciables
por datos extremos, proporciona en general una imagen adecuada de la distribución.
También permite hacer comparaciones entre conjuntos distintos de datos, o subgrupos.
El siguiente diagrama de caja corresponde al tiempo de aceleración (segundos en pasar de 0 a 100
Km/h) de 93 vehı́culos, clasificados en 6 tipos diferentes (pág. 12). Es fácil observar en el gráfico, por
ejemplo, que las furgonetas son las que presentan menor variabilidad – si no fuera por el dato atı́pico –
y los de tamaño pequeño son los de mayor variación.
Figura 1.10: Gráfico múltiple de caja y bigotes (Box-Plot) para la variable “distfrenado”
Son datos que se alejan del conjunto global de datos, por ser inusualmente grandes o pequeños.
Pueden ser datos reales, como una puntuación de 10 en un examen en el que la mayorı́a de las
puntuaciones están entre 3 y 6, o la estatura de un individuo que mide 2.10 m en una clase de
individuos con estaturas “normales”. También en ocasiones, aparecen como consecuencia de haber
registrado de forma incorrecta un dato. No existe un criterio único para determinar qué datos son o
no atı́picos; dos de los criterios más usuales son:
El proporcionado por el diagrama de caja: considerar como atı́picos todos los datos fuera del
intervalo [LI , LS]. En el ejemplo de la distancia de frenado, serı́a el dato 30.5.
El criterio de 3s: considerar como atı́pico todo dato que se aleje más de 3s de la media de los
datos (recordar que según la desigualdad de Chebysev, al menos el 88.89 % de los datos está
en el intervalo [x̄ − 3s, x̄ + 3s]). En el ejemplo de la distancia de frenado, con este criterio no
existirı́an datos atı́picos.
El objetivo de la descripción de datos es obtener una visión lo más clara posible de los datos, por
ello, en muchas ocasiones será necesario hacer traslaciones o cambios de escala para obtener datos lo
más simples y manejables posible.
En otras ocasiones, como los principales métodos estadı́sticos son aplicables sólo a distribuciones
simétricas, nos interesará transformar unos datos asimétricos en otros que no lo sean tanto.
Transformaciones lineales
Son del tipo Y = aX + b, con a, b ∈ R; a 6= 0, es decir, traslaciones y cambios de escala; por tanto,
producen cambios en cuanto a posición y dispersión, pero no varı́an la forma de la distribución: si
x1 , . . . , xN son los datos directos de la variable X, sus transformados serán los datos y1 , . . . , yN , con
yi = axi + b.
2. s2Y = a2 s2X
En efecto: N N
X (yi − ȳ)2 X (axi + b − (ax̄ + b))2
s2Y = = =
N N
i=1 i=1
N
X (xi − x̄)2
= a2 = a2 s2X
N
i=1
3. sY = |a| sX
4. Me (Y ) = a Me (X) + b
En efecto, si a > 0, los datos conservan su orden y por tanto, la mediana de la variable X se
transforma en la mediana de la variable Y . Si a < 0, entonces los datos invierten su orden,
pero entonces, la transformada de la mediana sigue dejando un 50 % de los datos a cada lado.
6. M oda(Y ) = a M oda(X) + b
Transformaciones no lineales
√
Las transformaciones no lineales más usuales son: Y = X 2 , Y = X, Y = ln X e Y = X1 . Producen,
además de cambios en la posición y dispersión, cambios en la forma. Se utilizan principalmente para
promover simetrı́a.
Tema 1 Estadı́stica Descriptiva 20
4
Estadı́stica Descriptiva Bivariante
Una primera forma de resumir la información contenida en los datos es por medio de tablas de
frecuencias.
ii. Se denomina frecuencia absoluta del par (Ai , Bj ), al número de individuos, nij , de entre los N ,
que poseen la modalidad Ai de X, y la modalidad Bj de Y a la vez.
nij
iii. Se denomina frecuencia relativa del par (Ai , Bj ), al cociente fij = N .
Definición 1.35 Se dice que se ha dado la distribución conjunta de las variables estadı́sticasX e Y si
se dan las modalidades de las variables y las correspondientes frecuencias (absolutas o relativas) con
que aparece cada par.
La forma de dar estos valores es por medio de tablas en las que aparecen las distintas modalidades
de las variables (ordenadas de menor a mayor, si la variable es cuantitativa). En la tabla pueden
aparecer frecuencias relativas en lugar de absolutas y en ocasiones, se indican ambas.
H
HH Y
B1 B2 ... Bk
X H
HH
l X
X k
Propiedades 1.36 1. nij = N
i=1 j=1
l X
X k
2. fij = 1
i=1 j=1
Tema 1 Estadı́stica Descriptiva 21
Ejemplo
Distribución conjunta de frecuencias absolutas y relativas de los alumnos de 2o curso de la E.I.I.
por Grado y sexo:
PP
P PP Sexo Hombre Mujer
Grado PPPP
Tecnologı́as 27 5
Industriales 27 5
/285 /285
Electrónica Indust. 85 22
y Automática 85 22
/285 /285
90 23
Ingenierı́a Eléctrica
90 23
/285 /285
19 14
Diseño Industrial
19 14
/285 /285
285
1
4 2 Distribuciones marginales
A partir de una distribución conjunta de dos variables es posible estudiar la distribución de cada
una de las dos variables que intervienen.
Los valores de las frecuencias para las variables X e Y se obtienen a partir de la tabla conjunta,
anotando en los márgenes de la tabla la suma de los valores de cada fila y de cada columna y por ello
estas distribuciones ası́ obtenidas se denominan “marginales”:
HH
Y
H B1 B2 ... Bk
X HH
H
A1 n11 n12 ... n1k n1·
A2 n21 n22 ... n2k n2·
.. .. .. .. .. ..
. . . . . .
Al nl1 nl2 ... nlk nl·
n·1 n·2 ··· n·k N
l
X l
X
f·j = fij n·j = nij
i=1 i=1
Tema 1 Estadı́stica Descriptiva 22
Ejemplo
Distribución conjunta y distribuciones marginales de los alumnos de 2o curso de la E.I.I. por Grado
y sexo:
PP
PP Sexo
P Hombre Mujer
Grado PP
PP
Tecnologı́as 27 5 32
Industriales 27 5 32
/285 /285 /285
Electrónica Indust. 85 22 107
y Automática 85 22 107
/285 /285 /285
90 23 113
Ingenierı́a Eléctrica
90 23 113
/285 /285 /285
19 14 33
Diseño Industrial
19 14 33
/285 /285 /285
221 64 285
221 64
/285 /285 1
Y la de “Sexo”:
4 3 Distribuciones condicionadas
Los valores de las frecuencias para la variables Y /(X = Ai ) y X/(Y = Bj ) se obtienen a partir de
la tabla conjunta:
Ejemplo
La distribución de Grado condicionada a Mujer, es decir, la distribución de frecuencias de las
mujeres (subpoblación) según el Grado es:
Frecuencia absoluta 5 22 23 14
5 22 23 14
Frecuencia relativa /64 /64 /64 /64
Y la de Sexo condicionado a Ingenierı́a Eléctrica, es decir, la distribución por sexo de los alumnos
de Ingenierı́a Eléctrica (subpoblación):
Sexo/(Grado=Ingenierı́a
Hombre Mujer
Eléctrica)
Frecuencia absoluta 90 23
90 23
Frecuencia relativa /113 /113
4 4 Independencia
Definición 1.42 Se dice que las variables estadı́sticas X e Y son estadı́sticamente independientes si
se verifica: fi/j = fi· para i = 1, 2, . . . , l, j = 1, 2, . . . , k.
Se dice que dos modalidades Ai y Bj son estadı́sticamente independientes si se verif ica: fi/j = fi·
La definición anterior significa que la distribución de la variable X no depende de los valores que
tome la variable Y , y recı́procamente.
Ejemplo
Diagrama de Mosaico. Sobre el eje Y se representan las modalidades de una de las variables y
sobrecada una se levanta un rectángulo con área proporcional a la frecuencia marginal de la
modalidad. Cada rectángulo se subdivide en subrectángulos de base proporcional a la frecuencia
condicionada de cada valor de la otra variable a esta modalidad. De esa manera se da también
una imagen gráfica de la distribución conjunta de ambas variables (proporcionada por el área
de cada subrectángulo). Para los datos de alumnos por Grado y Sexo se obtiene la figura 1.11
(pág 24).
Diagramas de barras. Se utiliza para representar la distribución cuando ambas variables tienen
pocas modalidades. Consiste en dibujar para cada par (Ai , Bj ) una barra de longitud propor-
cional a la frecuencia (relativa o absoluta). Las barras se pueden disponer de diversas formas.
Damos dos ejemplos:
Diagrama de dispersión o nube de puntos. Se utiliza para variables cuantitativas sin agrupar en
clases. Consiste en representar cada par de puntos (xi , yj ) en un plano. Permite obtener también
una representación gráfica de las distribuciones marginales de X e Y si se proyectan los puntos
sobre cada eje (se obtiene ası́ el diagrama de puntos para cada variable).
En la figura 1.13 (pág. 26) se representa el tiempo de espera entre las erupciones y las duraciones
de las mismas del géiser Old Faithful en el Parque Nacional Yellowstone, en Wyoming, EE.UU.
Este gráfico parece sugerir la existencia de dos “tipos” de erupciones: uno de corta espera y
corta duración y otro de larga espera y larga duración.1
1
https://commons.wikimedia.org/wiki/File:Oldfaithful3.png. Publicado bajo la licencia Dominio público vı́a Wikime-
dia Commons.
Tema 1 Estadı́stica Descriptiva 26
4 6 Dependencia lineal
Una de las formas de dependencia de más interés entre variables continuas es la dependencia lineal,
por varias razones:
1. Covarianza.
Definición 1.44 Sea (X, Y ) una distribución bidimensional, se define la covarianza de (X,Y) y
se representa por Cov(X,Y) ó sXY como:
l X
X k
Cov(X,Y) = (xi − x̄) (yj − ȳ) fij
i=1 j=1
A la hora de realizar cálculos sin ordenador o, incluso, para manipulaciones algebraicas, puede
resultar de utilidad la expresión obtenida para la covarianza en el siguiente desarrollo:
N N
1 X 1 X
Cov(X,Y) = (xi − x̄) (yi − ȳ) = (xi yi − xi ȳ − x̄yi + x̄ȳ) =
N N
i=1 i=1
N N N N
!
1 X X X 1 X
= xi yi − ȳ xi − x̄ yi + N x̄ȳ = xi yi − ȳx̄ − x̄ȳ + x̄ȳ =
N N
i=1 i=1 i=1 i=1
N
1 X
xi yi − ȳx̄ = xy − x̄ ȳ.
N
i=1
l
! k
X X
= xi fi· yj f·j − x̄ȳ = 0
i=1 j=1
N
1 X
Cov(U,V) = Cov(aX+b,cY+d) = (axi + b − (ax̄ + b)) (cyi + d − (cȳ + d)) =
N
i=1
N
1 X
= (axi − ax̄) (cyi − cȳ) = a c Cov(X,Y)
N
i=1
Ejemplo
Las variables X e Y cuya distribución viene dada por la siguiente tabla conjunta, tienen
Cov(X,Y) = 0, pero no son independientes. Demuéstralo y verifica que Y = X 2 .
H
HH Y
0 1
X H
HH
1 1
-1 0 /3 /3
1 1
0 /3 0 /3
1 1
1 0 /3 /3
1 2
/3 /3 1
Tema 1 Estadı́stica Descriptiva 28
2. Coeficiente de correlación.
Uno de los principales inconvenientes de la covarianza es que depende de las unidades de medida
de las variables. El coeficiente de correlación es, en cambio, una medida adimensional.
5
Ejercicios
1. Para los distintos conjuntos de datos calcula los valores pedidos y contesta a las preguntas:
a) Media
b) Mediana
c) Moda
d ) Desviación tı́pica
e) Cuartiles
f ) Rango intercuartı́lico
g) Lı́mites LI y LS
h) 80 percentil
i ) Los datos atı́picos
j ) La distribución de datos ¿es simétrica? Comenta la asimetrı́a.
2. Para los distintos conjuntos de datos calcula los valores pedidos y contesta a las preguntas:
I. Datos:
(Li−1 , Li ] ni
(0,10] 3
(10,20] 7
(20,40] 7
(40,50] 5
II. Datos:
(Li−1 , Li ] fi
(0,3] 0.13
(3,6] 0.27
(6,9] 0.11
(9,12] 0.30
(12,15] 0.19
III. Datos:
(Li−1 , Li ] Fi
(-30,-15] 0.2
(-15,0] 0.5
(0,10] 0.9
(10,20] 1.0
a) Media
b) Mediana
c) Desviación tı́pica
d ) Cuartiles
e) Rango intercuartı́lico
Tema 1 Estadı́stica Descriptiva 30
3. Se sabe que el 4 % de los dı́as de un mes de 25 dı́as laborables un trabajador de cierta empresa
utiliza 15 minutos o menos para wasapear. El 40 % de los dı́as este tiempo no supera los
25 minutos. En 11 dı́as supera los 30 minutos, y el 24 % de los dı́as wasapea entre 30 y 35
minutos. Además, ningún dı́a ha superado los 50 minutos. Construir la tabla de frecuencias de
la distribución del tiempo dedicado a wasapear por este trabajador.
5. Calcula x̄, s2 y la mediana para los datos resumidos en esta tabla de frecuencias:
xi fi
-1 0.3
2 0.3
3 0.4
7. De una empresa con 1500 trabajadores se sabe que la media de los salarios es de 800 euros, con
una desviación estándar de 100 euros. ¿Es posible que haya 150 trabajadores que cobren más de
1100 euros?
8. Una población está dividida en dos subgrupos. En el primero, la media de edad es de 25 años y
en el segundo grupo de 29. ¿Será cierto que la media de la población total está en el intervalo
(25,29)? Razonar la respuesta.
9. La puntuación media obtenida por los alumnos en un examen fue de 5 con una desviación
estándar de 1. Si la puntuación z (valor tipificado) de un estudiante en este examen fue de 1.8,
¿cuál es su calificación en el examen?
10. Sea X una variable estadı́stica con valores {x1 , x2 , . . . , xN }. ¿Para qué valor de k se verifica
PN
(xi − k) = 0?
i=1
N
X x2 i
11. ¿Puede ser que un conjunto de datos x1 , x2 , . . . , xN tenga x̄ = 3 y = 8?
N
i=1
Tema 1 Estadı́stica Descriptiva 31
12. Dadas dos variables estadı́sticas, X e Y , ¿cuál tiene mayor dispersión/variabilidad, X con media
20 y varianza 64 ó Y con media 25 y varianza 81? Razonar la respuesta.
13. Consideramos un conjunto de datos con media 7 y varianza 3. Entre ellos hay dos datos iguales
a 7. Supongamos que eliminamos del conjunto uno de los datos iguales a 7.
14. Estamos interesados en la variable X= Tiempo de vida (en semanas) de bombillas fabricadas con
cierto filamento. En una muestra grande se han obtenido resultados resumidos en la siguiente
tabla:
Percentil 30 50 70 100
Tiempo de Vida 18 22 26 30
Construir con estos datos una tabla de frecuencias relativas y hallar el tiempo medio de vida
usando como dato la marca de clase.
15. En una clase grande hay 150 estudiantes masculinos y 100 femeninos; los estudiantes promedian
en altura 175 cm. con una desviación estandar de 19 cm y las estudiantes promedian 165 cm con
desviación estandar de 25 cm. Tomando conjuntamente los hombres y las mujeres,
16. Los salarios de los 20 empleados de una empresa son: 10 cobran 600 euros, 9 cobran 900 euros,
uno cobra 9900 euros. Se pide:
17. Se ha observado que el número de clientes que acude diariamente a un determinado estableci-
miento es una variable estadı́stica con media 200 y varianza 900. ¿Cuál es el porcentaje máximo
de dı́as en los que acuden más de 235 clientes? ¿y si sabemos que la distribución de los datos es,
además, simétrica?
18. Una empresa multinacional tiene dos oficinas en España, una en Madrid y otra en Barcelona; un
estudio realizado sobre los salarios de los empleados (en euros) arroja los siguientes resultados:
19. En la siguiente tabla se presentan las puntuaciones obtenidas por los ocho participantes en la
prueba de paralelas y por los 6 de la prueba de anillas en una competición gimnástica:
Paralelas 9.45 9.55 9.05 9.65 9.25 9.85 9.70 9.40
Anillas 9.50 9.60 9.10 9.45 9.00 9.05
¿En cuál de las dos pruebas tiene mejor nivel el participante con puntuación en negrita? ¿En
qué grupo de puntuaciones existe mayor variación?.
Se pide:
a) Hallar, de forma razonada, la media, la mediana y la moda del conjunto de datos. Calcular
la varianza.
b) Si se sabe que IQR= 12 y el menor de los datos es 1, dibujar el diagrama de caja del
conjunto de datos.
22. La Corner Convenience Store siguió la pista del número de clientes que pagaron a mediodı́a
durante 100 dı́as. A continuación se presentan las medidas resultantes, redondeados al entero
más próximo: Media=95, Mediana=97, Moda=98, Rango Medio (semisuma del máximo y del
mı́nimo)=93, Desviación estándar=12, Primer Cuartil=85, Tercer cuartil=107, Rango=56.
a) ¿A cuántos clientes atendió la Corner Convenience Store durante el mediodı́a, más a menudo
que cualquier otro número? Explicar cómo determinó su respuesta.
b) ¿En cuántos dı́as hubo entre 85 y 107 clientes que pagaron al mediodı́a? Explicar cómo
determinó su respuesta.
c) ¿Cuál fue el mayor número de clientes que pagaron durante cualquier hora del mediodı́a?
Explicar cómo determinó su respuesta.
d ) ¿Para cuántos de los 100 dı́as el número de clientes que pagaron está a menos de tres
desviaciones estándar de la media? Explicar cómo determinó su respuesta.
e) Construir, si es posible, el diagrama de caja de este conjunto de datos, comentando a partir
de él la simetrı́a de los datos.
23. Una prestigiosa fruterı́a tiene como norma clasificar los mangos, según su tamaño, en superiores
y normales. Los superiores son aquellos cuyo peso es superior a 450 gr. De una partida, repre-
sentativa de los mangos que se reciben normalmente se han obtenido los siguientes resultados:
Peso (250 , 300] (300 , 350] (350 , 400] (400 , 450] (450 , 500]
0
N de unidades 3 10 15 25 32
Peso (500 , 550] (550 , 600] (600 , 700] (700 , 800]
N0 de unidades 20 19 4 2
Tema 1 Estadı́stica Descriptiva 33
a) Si decide retirar de la venta aquellos mangos cuyo peso sea a lo sumo el del percentil 5,
¿qué peso máximo puede alcanzar un mango que no se vende al público?
b) ¿En qué percentil estará un mango que pesa 580 gr.?
c) Un sibarita ha acordado con el frutero quedarse con los mangos cuyo peso sea superior a
625 gr. ¿Qué porcentaje de mangos se destinará a esta persona?
H
HH Y
0 1 2
X H
HH
-1 1/ b 0 c
9
0 a 0 1/ 3/
9 9
1 g 1/ d e
9
f 2/ 3/ 1
9 9
25. La variable X toma los valores 0 y 1 con fX (0) = 0.4; la variable Y toma los valores 1 y 2 y
se conocen: fY /(X=0) (1) = 0.7 y fY /(X=1) (1) = 0.4. Obtener la tabla de doble entrada para
(X, Y ) .
27. A los alumnos de determinada asignatura del Grado se les ha preguntado sobre el número de
horas semanales que dedican a la asignatura (X) y el número de convocatorias consumidas (Y ),
obteniéndose la siguiente información:
Una quinta parte de los alumnos que estudian 6 horas han consumido 2 convocatorias.
El número medio de convocatorias consumidas por los alumnos que estudian 4 horas es
1.25.
el número medio de convocatorias consumidas es 0.975.
El 10 % de los alumnos estudian 2 horas a la semana y han consumido una sola convocatoria.
HH X
H
0 2 4 6
Y HH
H
0 10 1 c 0
1 2 b 7 4
2 a 1 4 d
Obtener a, b, c y d.
28. Obtener la distribución conjunta de frecuencias absolutas de (X, Y ) sabiendo que son indepen-
dientes y que
X 1 2 3 Y 4 5
ni·· 4 7 9 n· j 9 11
29. A los visitantes de un museo se les clasifica en Rápidos, Normales y Lentos, siendo los lentos la
tercera parte de los normales, pero 4 de cada 5 visitantes son rápidos. Ahora bien, del 63 % de
los visitantes que compran en la tienda del museo, los lentos son los menos compradores, pues
solo el 3 % de ellos compra, mientras que de los normales compra el 19 %. Completar la tabla de
frecuencias relativas conjuntas. ¿Qué porcentaje de los que compran son rápidos?