0% encontró este documento útil (0 votos)
34 vistas20 páginas

Tema 1. Elementos de Estadística Descriptiva Unidimensional

elementos

Cargado por

Candy vYqez
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
34 vistas20 páginas

Tema 1. Elementos de Estadística Descriptiva Unidimensional

elementos

Cargado por

Candy vYqez
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

lOMoARcPSD|39882616

Tema 1. Elementos de Estadística Descriptiva


Unidimensional
Estadística (Universidad Católica de Valencia San Vicente Mártir)

Escanea para abrir en Studocu

Studocu no está patrocinado ni avalado por ningún colegio o universidad.


Descargado por Candy Joshelyn Vásquez Rodríguez ([email protected])
lOMoARcPSD|39882616

Elementos de Estadística Descriptiva Unidimensional


Estadística Descriptiva
La estadística descriptiva es la rama de la estadística cuyo objetivo es la descripción de un
conjunto de datos, sin ir más allá de los mismos, en contraste con la inferencia estadística, en
la que se considera que los datos son una muestra extraída de un conjunto mayor, la
población, y trata de obtener conclusiones válidas para la misma, a partir de la muestra y
empleando las herramientas del cálculo de probabilidades.
Las herramientas de la estadística tienen por objetivo el ayudarnos a generar, recopilar y
analizar los datos referentes a un problema de interés, con el fin de extraer la información
útil contenida en dichos datos.
La estadística descriptiva es el primer paso que damos en el análisis estadístico de los
mismos. El análisis descriptivo consiste en la tabulación de los datos, la generación de unos
pocos parámetros capaces de capturar las principales características de los datos y la
elaboración de gráficos adecuados, es decir, para describir cómo se distribuyen los datos, se
emplean tres herramientas fundamentales: las tablas de frecuencias, las representaciones
gráficas y los parámetros.
Las herramientas de la estadística descriptiva (tablas, gráficos y parámetros) nos ayudan a extraer la información “oculta” en los
datos, asistiéndonos en la toma de decisiones.
Definiciones básicas
En el estudio de la estadística se emplean términos del lenguaje común que, en el contexto de
la estadística, tienen un significado preciso. Para evitar errores de interpretación definimos
algunos de estos términos:
Individuo: cada persona u objeto que contiene cierta información que se desea estudiar.
Población: conjunto de individuos homogéneo (que tienen ciertas características comunes)
que queremos estudiar, acerca de los cuales queremos obtener conclusiones.
Una población puede ser finita o infinita, según el número de individuos que la
constituyan.
Muestra: subconjunto representativo de la población.
Variable: característica de los individuos de la población cuyo valor (numérico o no
numérico) puede ser diferente para diferentes individuos.
Parámetro: función definida sobre los valores numéricos de características medibles de una
población.
Estadístico: función definida sobre los valores numéricos de características medibles de una
muestra.
Tipos de variables
Clasificamos las variables estadísticas a partir del tipo de dominio, es decir, a partir de los
posibles valores que pueden tener los datos.
Cualitativas: cuando sus posibles modalidades son nominales (Grupo sanguíneo, Color del
pelo, …).
Cuasi‐cuantitativas u Ordinales: aquellas que, aun teniendo modalidades cualitativas,
admiten un orden entre ellas (Grado de satisfacción de un cliente tras un servicio, clasificado
con las modalidades {Nada, Poco, Moderado, Bueno, Muy Bueno}).
Cuantitativas: aquellas cuyo dominio es numérico, permitiendo realizar operaciones
aritméticas. Se distingue entre continuas, cuando entre dos valores cualesquiera de su

Descargado por Candy Joshelyn Vásquez Rodríguez ([email protected])


lOMoARcPSD|39882616

Elementos de Estadística Descriptiva Unidimensional


dominio existe otro valor, también del dominio (Estatura) y discretas, cuando se puede
hablar de elementos consecutivos en su dominio (Número de hijos).
Tablas de frecuencias
La primera aproximación a un conjunto de datos es la tabulación de los mismos. Esta
tabulación supone una organización de los mismos de manera que son más fáciles de
aprehender y es el paso previo para la construcción de las gráficas y para el cálculo de los
parámetros.
Explicaremos lo fundamental de la construcción y la interpretación de las tablas de
frecuencias mediante ejemplos ilustrativos.
Ejemplo 1. Tabla de frecuencias para una variable cualitativa.
Para un grupo de 30 alumnos de primer curso del grado de Medicina se ha registrado el tipo de centro
en el que han cursado el último curso de bachillerato, seleccionando entre las siguientes posibilidades:
{Público (Pu), Concertado (Co), Privado (Pr), Otro (Ot)}.
Pr Pu Pu Ot Pu Co Ot Pu Pu Pu Pu Co Pu Co Pu
Pu Pr Pr Pu Co Co Co Pu Pu Pu Co Co Co Pu Pu
La tabla de frecuencias quedaría:
Xi ni fi
La variable X es el tipo de centro y sus valores posibles son Xi, es decir,
Público 16 0,5333 X1 = “Público”, X2 = “Concertado”, X3 = “Privado”, X4 = “Otro”, se emplea
Concertado 9 0,3000 para indicar los diferentes valores de la variable.
Privado 3 0,1000
Otro 2 0,0667 ni es la frecuencia absoluta de cada valor, es decir el número de
n = 30 individuos que lo presentan. En este caso n1 = 16, n2 = 9, n3 = 3 y n4 =2.
El 9 correspondiente a la frecuencia absoluta de “Concertado” nos
indica que, de los 30 alumnos, 9 proceden de un centro de este tipo.
Al final de la columna de las frecuencias absolutas se ha puesto el número total de individuos, que se
puede calcular sumando las frecuencias absolutas, es decir, .
fi indica la frecuencia relativa, es decir, la proporción de individuos que presentan cada modalidad de
la variable. La proporción se calcula dividiendo la frecuencia absoluta por el número total de datos, es
decir, . El 0,3000 correspondiente a la frecuencia relativa de “Concertado” nos indica que el
30% de los alumnos proceden de este tipo de centro.
Al ser la variable cualitativa, es decir, no numérica, no existe un orden intrínseco en sus valores, por lo
que se suelen ordenar a partir de las frecuencias absolutas, es decir, ordenamos los valores de la
variable cualitativa según frecuencias absolutas decrecientes. A este criterio se le denomina
ordenación de Pareto.
Ejemplo 2. Tabla de frecuencias para una variable cuasi‐cuantitativa u ordinal.
Para un grupo de 30 alumnos de primer curso del grado de Medicina se ha registrado su opinión
acerca de cierta medida académica adoptada por el Decano, entre las opciones {Mala (M); Indiferente
(I); Buena (B)}. Los resultados se exponen en la siguiente tabla:
M M I M B M B B M I B I I I I
I I M I I B M B I I M I I M I
La tabla de frecuencias quedaría:
Xi ni fi Ni Fi
Observamos que en este caso no hemos empleado el orden de
Mala 9 0,3 9 0,3 Pareto. Esto se debe a que, al existir un orden natural en los
Indiferente 15 0,5 24 0,8 valores de la variable, podemos emplear dicho orden en la tabla.
Buena 6 0,2 30 1,0
n = 30 Ni es la frecuencia absoluta acumulada de cada valor, es decir
el número de individuos que presentan un valor menor o igual al

Descargado por Candy Joshelyn Vásquez Rodríguez ([email protected])


lOMoARcPSD|39882616

Elementos de Estadística Descriptiva Unidimensional


actual (Xi). En este caso N2 = 24 se interpreta diciendo que hay 24 alumnos cuya opinión es “menor o
igual” que “Indiferente” , es decir, “Indiferente o Mala”.
Fi indica la frecuencia relativa acumulada, es decir, la proporción de individuos que presentan un
valor menor o igual que el actual (Xi). En este caso F2 = 0,8 se interpreta diciendo que el 80% de los
alumnos manifiestan que su opinión es “menor o igual” que “Indiferente”, es decir, “Indiferente o
Mala”.
En el Ejemplo 1 no se incluyen las frecuencias acumuladas Fi y Ni, ya que implican un orden intrínseco
que no existe en las variables cualitativas.
Ejemplo 3. Tabla de frecuencias para una variable cuantitativa discreta.
Para un grupo de 30 alumnos de primer curso del grado de Medicina se ha registrado el número de
asignaturas suspendidas en el primer cuatrimestre. Los resultados se exponen en la siguiente tabla:
2 0 0 0 0 3 0 4 0 0 0 0 5 1 1
3 2 2 1 0 1 1 0 0 2 0 1 1 4 3
La tabla de frecuencias quedaría:
X i ni fi Ni Fi
La Tabla de frecuencias es, en este caso, similar a la que se puede
0 13 0,4333 13 0,4333 construir para variables cuasi‐cuantitativas u ordinales. En este
1 7 0,2333 20 0,6667 caso podemos decir, por ejemplo, que 24 de los alumnos han
2 4 0,1333 24 0,8000 suspendido 2 o menos asignaturas, o que el 90% de los alumnos
3 3 0,1000 27 0,9000 han suspendido 3 o menos asignaturas.
4 2 0,0667 29 0,9667
5 1 0,0333 30 1,0000
n = 30

El tipo de tabla de frecuencias adecuado para resumir la información contenida en un


conjunto de datos correspondientes a una variable cuantitativa continua lo veremos más
adelante, cuando estudiemos la agrupación de datos en intervalos.
El Diagrama de Barras
El diagrama de barras es una representación gráfica adecuada para visualizar cómo se
distribuye un conjunto de datos correspondiente a variables cualitativas, cuasi‐cuantitativas
(ordinales) o cuantitativas discretas. Para construir el diagrama de barras se ponen los
valores de la variable en el eje horizontal y para cada valor se construye una barra vertical
cuya altura es proporcional a la frecuencia del mismo.
Propiedad fundamental del diagrama de barras: la altura de cada barra es proporcional a la frecuencia de su valor.
Ejemplo 4. Diagrama de barras correspondiente a los datos de los Ejemplos 1, 2 y 3.
Tipo de Centro de Origen Opinión acerca de la Medida Número de Suspensos
18 16 16 15 14 13
16 14 12
14 12 10
12 10 9
10 9 8 7
8
8 6 6
6 6 4
3 4 4 3
4 2 2
2 2 2 1
0 0 0
Público Concertado Privado Otro Mala Indiferente Buena 0 1 2 3 4 5

Párate a pensar
Obviando las limitaciones del instrumento de medición, ¿de qué tipo son las siguientes variables?:
 Nº accidentes de tráfico en una ciudad en un día.  Salario de los empleados de una gran empresa.
 Sector al que pertenece una empresa.  Categoría de un Hotel.
 Color de ojos (marrón / negro / gris / azul / verde, …).  Tiempo entre dos llamadas consecutivas.
 Nº de llamadas recibidas en una hora.  Peso de una naranja, en gramos.

Descargado por Candy Joshelyn Vásquez Rodríguez ([email protected])


lOMoARcPSD|39882616

Elementos de Estadística Descriptiva Unidimensional


El Histograma
La representación gráfica más frecuente para describir como se distribuyen los valores de una
variable cuantitativa continua es el histograma. Para construir un histograma primero
necesitamos agrupar los valores de la variable en intervalos. Un histograma es un conjunto de
rectángulos, uno por cada uno por cada uno de los intervalos en que se han agrupado los
valores de la variable. La base de cada rectángulo es igual a la amplitud del intervalo (la
llamaremos ci), y la altura (a la que llamaremos hi) se determina de manera que el área del
rectángulo sea proporcional a la frecuencia del intervalo (la frecuencia del intervalo es el
número de datos en el mismo y la llamaremos ni). Cuando la amplitud de todos los intervalos
es la misma (el caso más frecuente) basta con que las alturas sean proporcionales a la
frecuencia del intervalo.
Propiedad fundamental del histograma: el área de cada rectángulo es proporcional a la frecuencia de su intervalo.
En la siguiente tabla se muestran los datos correspondientes al tiempo empleado en una
consulta, en minutos, para 60 pacientes:
2.2 2.5 2.5 2.6 2.7 2.9 3.0 3.1 3.2 3.3 3.5 3.6
3.8 4.1 4.4 4.5 4.8 4.8 5.0 5.1 5.1 5.1 5.1 5.2
5.2 5.3 5.4 5.4 5.4 5.6 6.3 6.5 6.6 6.7 6.9 7.6
8.1 8.3 8.4 8.5 8.6 8.9 9.4 10.0 10.1 10.1 10.2 11.0
13.1 13.5 14.5 14.6 14.8 15.7 15.7 16.4 17.3 18.8 19.9 21.6

Agrupación de los datos en intervalos


El primer paso es agrupar los datos en intervalos. En nuestro caso hemos elegido emplear 5
intervalos, aunque podríamos tomar una cantidad menor o mayor. Existen diferentes criterios
para seleccionar los extremos de los intervalos y para ilustrarlo mostraremos 2 de ellas:
Intervalo ni Intervalo ni
[2; 6[ 30 [2; 4[ 13
[6; 10[ 13 [4; 6[ 17
[10; 14[ 7 [6; 9[ 12
[14; 18[ 7 [9; 15[ 11
[18; 22] 3 [15; 22] 7
La misma amplitud. Aproximadamente el mismo número de datos.
La primera consiste en construir intervalos de idéntica amplitud; en nuestro caso,
construimos 5 intervalos de 4 unidades de amplitud. Esta opción es, con diferencia, la más
utilizada, pero en nuestro caso no es la más recomendable, ya que da lugar a intervalos con
frecuencias muy diferentes: el primer intervalo contiene 30 datos, mientras que el último sólo
contiene 3 datos.
La segunda opción es menos frecuente, pero resulta de utilidad cuando los datos no se
distribuyen de manera homogénea (veremos que en nuestro caso los datos presentan una
acusada asimetría positiva).
La propiedad fundamental del histograma indica que el área de cada rectángulo ha de ser
proporcional a su frecuencia, es decir, si un intervalo contiene, por ejemplo, doble número de
datos que otro el área del primero será el doble que la del segundo, mientras que dos
intervalos con el mismo número de datos en su interior tendrán la misma área (no
necesariamente la misma altura, ya que pueden tener diferente amplitud).
En un histograma, a mayor área en un rectángulo le corresponde un mayor número de datos (frecuencia) en el intervalo asociado.
Como el área del i‐ésimo rectángulo se calcula multiplicando su base por su altura, la
propiedad fundamental del histograma se traduce en la siguiente relación: , dónde k
es la constante de proporcionalidad que usualmente se iguala a 1, pero que puede tomar otro
valor si con ello el histograma se interpreta con mayor facilidad.
4

Descargado por Candy Joshelyn Vásquez Rodríguez ([email protected])


lOMoARcPSD|39882616

Elementos de Estadística Descriptiva Unidimensional


Como la base de cada rectángulo, , y su frecuencia, , son conocidas, queda por determinar
el valor de la altura, que se obtiene despejando en la anterior expresión: .
No es necesario que el área de los intervalos coincida con la frecuencia, basta con que sea proporcional a la misma.
Con todo lo anterior queda clara la necesidad de ampliar las tablas anteriores, para incluir,
para cada intervalo, los valores y , según se ilustra a continuación:
Intervalo ni ci hi 4hi Intervalo ni ci hi 6hi
[2; 6[ 30 4 7,50 30 [2; 4[ 13 2 6,50 39
[6; 10[ 13 4 3,25 13 [4; 6[ 17 2 8,50 51
[10; 14[ 7 4 1,75 7 [6; 9[ 12 3 4,00 24
[14; 18[ 7 4 1,75 7 [9; 15[ 11 6 1,83 11
[18; 22] 3 4 0,75 3 [15; 22] 7 7 1,00 6
La misma amplitud. Aproximadamente el mismo nº de datos.
En las dos tablas anteriores se ha empleado la constante de proporcionalidad para conseguir
alturas sin decimales (en el primer caso y en el segundo caso ). Esto no es
necesario, pero puede ser útil para simplificar la escala del eje vertical.
Para cada uno de los casos representaremos el histograma, según se ha definido:

0 2 4 6 8 10 12 14 16 18 20 22 24 26 0 2 4 6 8 10 12 14 16 18 20 22 24 26

La misma amplitud. Aproximadamente el mismo nº de datos.


El polígono de frecuencias
El histograma suele venir acompañado del llamado polígono de frecuencias, que es una línea
poligonal que une los centros de las líneas superiores de los rectángulos, según se puede
apreciar en las siguientes figuras:

0 2 4 6 8 10 12 14 16 18 20 22 24 26 0 2 4 6 8 10 12 14 16 18 20 22 24 26

La misma amplitud. Aproximadamente el mismo nº de datos.


Los extremos del polígono se obtienen alargando cada uno de los rectángulos extremos en la
mitad de su amplitud. En ambos histogramas se aprecia la asimetría positiva antes
mencionada (la cola hacia la derecha).
El polígono de frecuencias indica, para cada punto, la mayor o menor densidad alrededor del
mismo, es decir, un punto para el que el polígono de frecuencias es muy alto indica que hay
muchos datos alrededor de dicho punto (zona de alta densidad), mientras que los puntos para
los que el polígono de frecuencias es muy bajo son puntos de baja densidad, es decir, puntos
alrededor de los cuales hay pocos datos.
El polígono de frecuencias indica lo “apretados” que están los datos alrededor de cada punto (densidad).

Descargado por Candy Joshelyn Vásquez Rodríguez ([email protected])


lOMoARcPSD|39882616

Elementos de Estadística Descriptiva Unidimensional


Si imaginamos que disponemos de una cantidad inmensa de datos para una variable X, que
nos permite construir un histograma con una cantidad inmensa de intervalos, el polígono de
frecuencias se convertirá en una curva suave. Al límite del polígono de frecuencias cuando el
número de intervalos del histograma tiende a infinito, y eligiendo el factor k de manera que la
suma de las áreas de los rectángulos sea exactamente igual a uno, se le denomina función de
densidad de probabilidad de la variable X. La función de densidad de una variable
cuantitativa continua X se denota, habitualmente, con la letra f.
La media y la varianza
La media y la varianza son conceptos fundamentales en la estadística y por ello es de gran
importancia comprender su significado, además de la forma de calcularlos. Veremos que
ambos parámetros están muy relacionados entre sí, por lo que los definiremos de manera
conjunta. Veremos que la mediana es una alternativa a la media, aunque ambas,
conjuntamente, nos proporcionan información útil para entender cómo se distribuye un
conjunto de datos. Los percentiles son una generalización de la mediana.
La Media
Para definir la media recurriremos a un ejemplo con un conjunto de datos muy sencillo: {1; 8;
5; 10}. Si queremos encontrar un número representativo de los cuatro números, en el sentido
de estar lo más cerca posible de los cuatro números, y pensamos, por ejemplo, en el 9.
Podemos restarle a cada uno de los cuatro números el 9 y, para evitar diferencias de signo,
tomar las diferencias elevadas al cuadrado, es decir: , ,
y . Vemos que 9 está muy cerca de 8 y de 10 (su distancia al
cuadrado es 1), pero está muy lejos de 1 y 5 (sus distancias respectivas, al cuadrado, son 64 y
16). En realidad no buscamos un número que esté muy cerca de algunos de los valores, sino lo
más cerca posible del conjunto de todos los valores, y nos preguntamos: ¿para qué número se
minimiza su suma de distancias a los cuatro valores, elevadas al cuadrado?. Para el 9 esta
suma es: . Si en lugar del 9 probamos con el 7 obtenemos:
, es decir, 7 es un mejor representante del
conjunto de datos, según el criterio que hemos definido. Cabe preguntarse si hay una manera
de calcular el número que minimiza la suma de cuadrados de las distancias, al cual, de existir,
llamaremos Media del conjunto de datos y lo denotaremos .
La media de un conjunto de n datos es el valor para el que se minimiza la suma de los cuadrados de las distancias a los n datos.
160
150
140
130
120
110
100
90
80
70 82
60
50
40 50
30 46
20
10
0
0 1 2 3 4 5 6 7 8 9 10 11

Suma de los cuadrados de las distancias de los datos {1; 8; 5; 10} a diferentes valores. El mínimo se alcanza en 6.

La media de un conjunto de n datos se calcula sumando el valor de los n datos y


dividiendo la suma por n, es decir, aplicando la expresión:

La media de un conjunto de n datos se calcula dividiendo por n la suma de los n datos.


La deducción de la expresión para el cálculo de la media se facilita en la Nota Técnica 1.

Descargado por Candy Joshelyn Vásquez Rodríguez ([email protected])


lOMoARcPSD|39882616

Elementos de Estadística Descriptiva Unidimensional


En el caso de nuestro ejemplo sencillo resulta .

La Varianza
Si calculamos la suma de las distancias al cuadrado de los cuatro datos a la media que hemos
calculado ( ), obtenemos: , que es una
medida de cuanto oscilan los datos alrededor de la media, es decir, es una medida de
dispersión a la que llamaremos Suma de Cuadrados. La Suma de Cuadrados, considerada
como una medida de la dispersión de un conjunto de datos alrededor de la media, presenta el
inconveniente de crecer con el número de datos.
Al añadir nuevos datos la suma de cuadrados aumenta, por tener más sumandos, incluso aunque estos nuevos datos estén cerca de la
media y, por lo tanto, el conjunto de los datos sea “menos disperso”.
Para corregir este inconveniente promediamos la Suma de Cuadrados dividiendo por el
número de datos, de manera que diremos que un conjunto de datos es más disperso que otro
cuando el promedio de los cuadrados de las distancias a la media sea mayor (así evitamos que
un conjunto de datos parezca más disperso que otro por el mero hecho de tener más datos).
Al resultado de promediar los cuadrados de las distancias de los datos con la media le
llamaremos Varianza y la denotaremos por , es decir:

La varianza de un conjunto de datos es el promedio de los cuadrados de las distancias de los datos a la media.
En nuestro caso:

Otra interpretación equivalente es pensar en la media como el centro de masas de los datos,
en el sentido que se muestra en la siguiente figura:

Interpretación de la media como centro de masas de los datos.

La media viene representada por el triángulo rojo, que es el punto de equilibrio de las cuatro
masas iguales, de manera que si desplazamos el triángulo a la derecha o hacia la izquierda el
equilibrio se rompe.
Resumiendo, tenemos los datos 1, 8, 5, 10 cuya media es:

y cuya varianza es:

Párate a pensar
Disponemos de un conjunto formado por n datos expresados en Kg:
 ¿En qué unidades vendrá expresada la media?
 ¿En qué unidades vendrá expresada la mediana?
 ¿En qué unidades vendrá expresada la varianza?
La varianza de un conjunto de n datos vs la varianza de una muestra de tamaño n
La fórmula que hemos deducido para calcular la varianza se emplea cuando disponemos de un
conjunto de n datos, del que queremos conocer la varianza. Sin embargo, a veces el conjunto

Descargado por Candy Joshelyn Vásquez Rodríguez ([email protected])


lOMoARcPSD|39882616

Elementos de Estadística Descriptiva Unidimensional


de datos del que disponemos es, en realidad, una muestra de tamaño n de una población
mayor, de manera que estamos interesados en estimar la varianza de la población de origen
de la muestra (no en conocer la varianza de la muestra). En estos casos es frecuente sustituir
la expresión de la varianza anterior por otra, en la que el denominador es , en lugar de n,
es decir, sustituimos la varianza poblacional por la varianza
muestral .

En la expresión de la varianza muestral, es la media de los n datos de la muestra, es decir, la


media muestral: .

Hay que tener en cuenta que es la media de la muestra, que normalmente no coincidirá con
la media de la población de origen, , y esto es lo que provoca la necesidad de dividir por
en la expresión de la varianza muestral.
Cuando los datos son una muestra, la varianza se calcula dividiendo por en lugar de dividir por .
Una forma abreviada de calcular la varianza
Es fácil comprobar que la varianza también se puede calcular como la diferencia entre la
media de los cuadrados de los datos y el cuadrado de la media de los datos, es decir:

Aplicado a nuestro ejemplo sencillo será:

La varianza se puede calcular restando el cuadrado de la media de los datos a la media de los cuadrados de los mismos.
La expresión abreviada para calcular la varianza muestral es:

La deducción de la expresión abreviada para el cálculo de la varianza se facilita en la Nota


Técnica 2.
Ejemplo 5. Cálculo de la media y la varianza para una variable cuantitativa discreta.
Calcula la media y la varianza para una variable cuantitativa discreta a partir de la tabla de
frecuencias:
 Para calcular la media necesitamos la
0 13 columna . 0 13 0 0
1 17  Para calcular la varianza necesitamos la 1 17 17 17
2 12 media de los cuadrados, que se consigue 2 12 24 48
3 11 con la columna . 3 11 33 99
4 7 4 7 28 112
60 102 276
1,7 4,6
La varianza es:

Cálculo de la media y la varianza con datos agrupados en intervalos


Al agrupar los datos en intervalos perdemos el valor individual de cada dato y sólo sabemos el
número de datos que hay en cada intervalo. Para calcular la media y la varianza asociamos a
todos los datos de un intervalo el valor central del mismo, al que llamamos marca de clase. Es
claro que para algunos datos cometemos un error por exceso y para otros por defecto y sólo

Descargado por Candy Joshelyn Vásquez Rodríguez ([email protected])


lOMoARcPSD|39882616

Elementos de Estadística Descriptiva Unidimensional


podemos asumir que unos errores se compensan con los otros si los datos se reparten
uniformemente en el intervalo.
Cuando agrupamos datos en intervalos asumimos que los datos se reparten uniformemente dentro de cada intervalo.
Ejemplo 6. Cálculo de la media y la varianza a partir de datos agrupados en intervalos
Calcula la media y la varianza para una variable cuantitativa continua, si disponemos de la tabla de
frecuencias con los datos agrupados en intervalos:
Intervalo  Como no disponemos del Intervalo MC
[2; 4[ 13 valor de cada dato empleamos [2; 4[ 3,0 13 39,0 117
[4; 6[ 17 las marcas de clase MC (el [4; 6[ 5,0 17 85,0 425
[6; 9[ 12 centro de cada intervalo). [6; 9[ 7,5 12 90,0 675
[9; 15[ 11  Para calcular la media [9; 15[ 12,0 11 132,0 1584
[15; 22] 7 necesitamos la columna . [15; 22] 18,5 7 129,5 2395,75
 Para calcular la varianza 60 475,5 5196,75
necesitamos la media de los 7,925 86,6125
cuadrados, que se consigue
con la columna .
La desviación típica
La varianza, como una medida de dispersión de un conjunto de datos alrededor de su media,
tiene el inconveniente de venir expresada en las unidades de los datos, pero elevadas al
cuadrado, por lo que tiene sentido emplear su raíz cuadrada como medida de dispersión
alternativa. A la raíz cuadrada de la varianza se le llama desviación típica y se denota .
En los ejemplos 5 y 6 resulta y , respectivamente.
La desviación típica es la raíz cuadrada de la varianza y es una medida de dispersión con las mismas unidades que los datos.
Párate a pensar
 Un profesor dispone de las notas de sus 20 alumnos y decide sumarle un punto a cada nota. ¿Cómo
afectará esto a la media, a la varianza y a la desviación típica de las notas?
 Un profesor dispone de las notas de sus 20 alumnos y decide aumentar cada nota en un 20%.
¿Cómo afectará esto a la media, a la varianza y a la desviación típica de las notas?
Cambio en los parámetros al sumar una cantidad fija a los n datos
Dado el conjunto de datos , si a todos los datos les sumamos la cantidad fija k
tenemos el nuevo conjunto , con , para . Calcularemos la
media, la varianza y la desviación típica de este conjunto de datos.

Es decir, si a los n datos les sumamos una cantidad fija k, la media aumenta k unidades.

Es decir, si a los n datos les sumamos una cantidad fija k, la varianza no cambia y, por lo tanto,
la desviación típica tampoco cambia.
Si a cada uno de los n datos de un conjunto les sumamos una cantidad fija, la media se incrementa en la misma cantidad, mientras
que la varianza y la desviación típica no cambian.

Descargado por Candy Joshelyn Vásquez Rodríguez ([email protected])


lOMoARcPSD|39882616

Elementos de Estadística Descriptiva Unidimensional

Cambio en los parámetros al multiplicar los n datos por una cantidad fija
Dado el conjunto de datos , si a todos los datos les multiplicamos una cantidad fija
k tenemos el nuevo conjunto , con , para . Calcularemos la
media, la varianza y la desviación típica de este conjunto de datos.

Es decir, si a los n datos les multiplicamos la cantidad fija k, la media queda multiplicada por k.

Es decir, si a los n datos les multiplicamos la cantidad fija k, la varianza queda multiplicada por
la cantidad, elevada al cuadrado y, por lo tanto, la desviación típica queda multiplicada por el
valor absoluto de dicha cantidad .
Si cada uno de los n datos de un conjunto se multiplican por una cantidad fija, la media queda multiplicada por dicha cantidad, la
varianza queda multiplicada por la cantidad, elevada al cuadrado, y la desviación típica queda multiplicada por el valor absoluto de
dicha cantidad.
La Mediana
Dado un conjunto de datos , para calcular la media hemos minimizado la función:

Los cuadrados se han puesto para evitar que sumandos positivos y negativos se cancelen
entre sí, ya que lo que queremos es contabilizar la distancia de cada dato a ,
independientemente de si está por encima o por debajo de .
Una alternativa a elevar los sumandos al cuadrado es hallar su valor absoluto, definiendo la
función alternativa: . El problema es que la función g
no es derivable en los valores , por lo que no podemos calcular el mínimo de
manera analítica, aunque podemos representarla gráficamente, según se muestra en la
siguiente figura, para los cuatro datos del ejemplo anterior {1; 8; 5; 10}:
26

24

22
20
20

18
16
16

14
12 12
12

10
0 1 2 3 4 5 6 7 8 9 10 11 12

Suma de las distancias de los datos {1; 8; 5; 10} a diferentes valores.

Vemos que la gráfica de la suma de los valores absolutos es una línea poligonal cuyos vértices
están justo en los valores de los datos (este es el motivo por el que g no es derivable, ya que la
pendiente cambia bruscamente en los vértices). Sin embargo vemos que la función alcanza un
valor mínimo, aunque no lo hace en un único punto, sino en un intervalo (en este caso el
intervalo es ), es decir, g alcanza el mínimo para todo valor de η en el intervalo .
Esto se debe a que para cualquier valor entre 5 y 8 tenemos la misma cantidad de datos por
debajo y por encima del mismo, con lo que al desplazarnos hacia la derecha o hacia la
izquierda, sin salirnos del intervalo , nos alejamos de la mitad de los puntos en la misma

10

Descargado por Candy Joshelyn Vásquez Rodríguez ([email protected])


lOMoARcPSD|39882616

Elementos de Estadística Descriptiva Unidimensional


cuantía que nos acercamos a la otra mitad, con lo que la suma de las distancias no cambia en
dicho intervalo.
Nosotros llamaremos mediana de un conjunto de datos a cualquier valor η que minimice la
suma de las distancias de los datos a η, aunque, para evitar la indefinición, cuando tengamos
un intervalo tomaremos sólo el punto medio del mismo. En nuestro ejemplo, diremos que la
mediana es .
La mediana de un conjunto de n datos es el valor para el que se minimiza la suma de las distancias a los n datos.
Si, en lugar de tener 4 datos , tenemos 5, por ejemplo añadiendo el dato , y actualizamos
el gráfico anterior, obtenemos:
28
26
24 23
22
22
20
18 17
16
16
14
14
12
10
0 1 2 3 4 5 6 7 8 9 10 11 12

Suma de las distancias de los datos {1; 8; 5; 10; 3} a diferentes valores.

En este caso el mínimo se alcanza en un único punto, que es , ya que este dato cumple la
propiedad de tener el mismo número de datos por debajo que por encima.
Vemos que la mediana divide el conjunto de los datos ordenados en dos partes con el mismo
número de datos cada una. La mitad de los datos están por debajo de la mediana y la otra
mitad por encima.
La mediana de un conjunto de datos es un número tal que la mitad de los datos están por debajo de él y la otra mitad por encima.
Al número η tal que la suma de las distancias de todos los datos a η es mínima le llamamos
Mediana del conjunto de datos.
Por lo visto en los dos ejemplos anteriores, vemos que si el número de datos es impar la
mediana es el dato central, después de ordenar los datos de menor a mayor, mientras que si el
número de datos es par, la mediana será el valor medio de los dos datos centrales, después de
ordenar los datos de menor a mayor.
Párate a pensar
Hemos visto que la mediana coincide con uno de los datos cuando tenemos un número impar de datos,
pero cuando tenemos un número par de datos, la mediana es el valor medio de dos datos. Piensa un
procedimiento para calcular la mediana de un conjunto de n datos, según tengamos un número par o
impar de datos.
Procedimiento para calcular la mediana de un conjunto de n datos
1º Ordenamos los datos de menor a mayor.
2º Si n es impar, la mediana es el dato que ocupa la posición .
3º Si n es par, la mediana es la media de los datos que ocupan las posiciones y .
Para calcular la mediana de un conjunto de datos lo primero que haremos es ordenarlos de menor a mayor.

11

Descargado por Candy Joshelyn Vásquez Rodríguez ([email protected])


lOMoARcPSD|39882616

Elementos de Estadística Descriptiva Unidimensional

Comparación entre la media y la mediana


Tanto la media como la mediana son medidas de tendencia central, es decir, sirven para
responder a la pregunta: ¿alrededor de qué punto se distribuyen los datos?. Para determinar
si uno de estos dos parámetros es preferible al otro, o si la información que proporcionan es
complementaria, compararemos las características y propiedades de ambos:
Media  Mediana η
 Es el punto para el que se minimiza la suma de los  Es el punto para el que se minimiza la suma de las
cuadrados de las distancias a los n datos. distancias a los n datos.

 Se calcula empleando el valor de todos los datos  Se calcula empleando sólo el dato central, si n es
(todos los datos afectan al valor de la media). impar, o los dos datos centrales, si n es impar.
 Es muy sensible a los datos extremos.  No es sensible a los datos extremos.

La sensibilidad de la media a los datos extremos hace que, en presencia de datos extremos, la
mediana sea preferible a la media como medida de tendencia central. Otra situación en la que
la mediana supera a la media es cuando hay datos censurados, es decir, para algunos de los
datos no conocemos el valor exacto, sólo sabemos que están por debajo o por encima de algún
límite (imagina, por ejemplo, que estamos estudiando el tiempo de supervivencia después de
un tratamiento cuando en el momento de resumir los datos algunos de los pacientes no han
fallecido, no sabemos su tiempo de supervivencia, sólo sabemos que es mayor que el tiempo
transcurrido desde que recibió el tratamiento hasta el momento en que se cerró el estudio).
Cuando el conjunto de datos presenta datos extremos la mediana suele ser preferible a la media como medida de tendencia central.
Cuando el conjunto de datos presenta datos censurados la mediana es preferible, ya que no se puede calcular la media.
Cuando la distribución de los datos es simétrica la media y la mediana coinciden, pero
cuando hay asimetría la media se desplaza en la dirección de la cola más larga, de manera que,
cuando la asimetría es positiva, la media tiende a superar a la mediana, y cuando la
asimetría es negativa, la media tiende a quedar por debajo de la mediana.
De lo anterior se deduce la utilidad de reportar ambos parámetros, ya que conjuntamente nos
dan información acerca de la posible asimetría de la distribución de los datos.

Asimetría negativa Distribución simétrica Asimetría positiva

La media y la mediana, conjuntamente, nos dan información acerca de la simetría de la distribución de los datos.
Párate a pensar
 Un profesor dispone de las notas de sus 20 alumnos y decide premiar a los 5 con mejor nota,
subiéndoles un punto a cada uno. ¿Cómo afectará esto a la media y a la mediana de las notas?
 Para un conjunto de datos cuya distribución tiene una marcada asimetría positiva, ¿dónde
esperamos encontrar más datos, a la izquierda o a la derecha de la media?
Para medir la asimetría de un conjunto de datos empleamos el Coeficiente de Asimetría de
Fisher, que denotaremos con la letra g. La expresión del coeficiente de Fisher es:

12

Descargado por Candy Joshelyn Vásquez Rodríguez ([email protected])


lOMoARcPSD|39882616

Elementos de Estadística Descriptiva Unidimensional


Para calcular el coeficiente de Fisher de manera abreviada podemos emplear la expresión:

Ejemplo 7. Cálculo del coeficiente de asimetría para el conjunto de datos del ejemplo 5.
Para calcular el coeficiente de asimetría necesitamos que en la tabla de frecuencias aparezcan las
columnas , para calcular la media de X ( ), , para calcular la media de X2 ( ) y la columna
, para calcular la media de X ( ).
3

1 0
0 0 0
3
1 17
1 17 17
7
1 96
2 24 48
2
1 297
3 33 99
1
4 7 28 112 448
6 10 858
276
0 2
14,
1,7 4,6
3

El signo de g indica si la asimetría es positiva, negativa, o si los datos son simétricos.


Los percentiles
Hemos visto que la mediana de un conjunto de datos es el valor que divide al conjunto en dos
subconjuntos formados por el mismo número de datos. En el primer subconjunto están los
datos cuyo valor está por debajo de la mediana y en el otro los que la superan.
Es fácil generalizar esta idea, dividiendo el conjunto de datos en más de dos partes con el
mismo número de datos. Los valores que dividen un conjunto de datos en 100 partes, cada
una de ellas con el mismo número de datos, se denominan percentiles. Por ejemplo, el
percentil 32 de un conjunto de datos, que denotaremos P32, es un número tal que el 32% de
los datos están por debajo de él. A partir de la definición anterior es fácil apreciar que el
percentil 50, P50, coincide con la mediana.
Procedimiento para calcular el percentil k‐ésimo, Pk, de un conjunto de n datos
1º Ordenamos los datos de menor a mayor.
2º Calculamos la posición del percentil: .

3º Si pos es un número entero, Pk es la media de los datos con posiciones y .


4º Si pos es un número decimal, Pk es el dato que ocupa la posición , donde es
la parte entera de pos.
El percentil k-ésimo de un conjunto de datos, Pk, es un número que deja por debajo al k% de los datos.
Ejemplo 8. Cálculo de percentiles para una variable cuantitativa discreta.
Calcula los percentiles P50 y P36, para una variable cuantitativa discreta a partir de la tabla de
frecuencias:

13

Descargado por Candy Joshelyn Vásquez Rodríguez ([email protected])


lOMoARcPSD|39882616

Elementos de Estadística Descriptiva Unidimensional


 Para calcular los percentiles necesitamos Cálculo de P50 (mediana)
0 13 localizar los datos por su posición, para lo 0 13 13
1 17 que añadimos la columna (frecuencias 1 17 30
2 12 absolutas acumuladas). 2 12 42 P50 será la media de los
3 11 3 11 53 datos 30º y 31º, es decir:
4 7 4 7 60
60 60
Cálculo de P36:
P36 será el dato que ocupa la posición , Entre los datos 14º y 30º son 1,
es decir: por lo que el dato 22º será 1.
Los percentiles más usados son P25, P50 y P75. Estos percentiles dividen un conjunto de datos
en cuatro subconjuntos, con el mismo número de datos en cada uno de ellos, reciben el
nombre de cuartiles, y se denotan Q1, Q2 y Q3, respectivamente.
Párate a pensar
Comprueba que los cuartiles Q1 y Q3, de los datos anteriores son y .
Procedimiento para estimar el percentil k‐ésimo para datos agrupados en intervalos
Ilustraremos el procedimiento calculando el valor del percentil 64 (P64) para el conjunto de
datos agrupados en intervalos, según se muestra en la siguiente tabla:

Intervalo ni  Para estimar los percentiles necesitamos localizar los datos Intervalo ni Ni ci
[2; 4[ 13 por su posición, para lo que hemos añadido la columna [2; 4[ 13 13 2
[4; 6[ 17 (frecuencias absolutas acumuladas). [4; 6[ 17 30 2
[6; 9[ 12  Añadimos la columna ci con la longitud de cada intervalo. [6; 9[ 12 42 3
[9; 15[ 11  En este caso , es decir, el valor que [9; 15[ 11 53 6
[15; 22] 7 [15; 22] 7 60 7
buscamos está en el intervalo [6; 9[ (en este intervalo está
60 60
desde el dato 31º hasta el dato 42º).
En [6; 9[ hay 12 datos, si suponemos que están uniformemente distribuidos en el intervalo, al
ser la anchura del intervalo , cada dato ocupa . Buscamos la posición
38,4, pero en los intervalos anteriores a [6; 9[ hay acumulados 30 datos, por lo que buscamos
el dato que ocupa la posición . Hemos visto que cada dato ocupa una anchura
igual a 0,25, por lo que el percentil que buscamos será .
Al estimar percentiles a partir de datos agrupados en intervalos asumimos que los datos se distribuyen uniformemente en el intervalo.
El razonamiento seguido se puede realizar en dos pasos, según se muestra a continuación:

Cuando tenemos los datos agrupados en intervalos desconocemos el valor de cada dato, sólo sabemos el intervalo en el que está.
Formalizaremos esto construyendo una expresión general para estimar el percentil k‐ésimo a
partir de un conjunto de datos agrupados en intervalos.
1º Calculamos la posición del percentil Pk, con la expresión .

2º Localizamos el intervalo en el que estará el percentil Pk, que es el primero para el cual
. De este intervalo emplearemos los siguientes elementos:
 Li es el extremo inferior del intervalo seleccionado.
 ni es la frecuencia absoluta del intervalo seleccionado.
 es la frecuencia absoluta acumulada en el intervalo anterior al seleccionado.
 ci es la amplitud del intervalo seleccionado.

14

Descargado por Candy Joshelyn Vásquez Rodríguez ([email protected])


lOMoARcPSD|39882616

Elementos de Estadística Descriptiva Unidimensional


3º Estimaremos el percentil con la expresión:

Hay que notar que en la fórmula anterior el valor de pos se debe introducir según se obtiene en la fórmula , sin necesidad
de redondearlo.

Ejemplo 9. Para la misma tabla del ejemplo anterior, estimaremos el primer cuartil (P25), la
mediana (P50) y el tercer cuartil (P75).
Primer cuartil=P25 Mediana=Segundo cuartil=P50 Tercer cuartil=P75

Intervalo ni Ni ci Intervalo ni Ni ci Intervalo ni Ni ci


[2; 4[ 13 13 2 [2; 4[ 13 13 2 [2; 4[ 13 13 2
[4; 6[ 17 30 2 [4; 6[ 17 30 2 [4; 6[ 17 30 2
[6; 9[ 12 42 3 [6; 9[ 12 42 3 [6; 9[ 12 42 3
[9; 15[ 11 53 6 [9; 15[ 11 53 6 [9; 15[ 11 53 6
[15; 22] 7 60 7 [15; 22] 7 60 7 [15; 22] 7 60 7
60 60 60

Párate a pensar
Si observas detenidamente el apartado anterior verás que se habla de estimar el percentil k‐ésimo a
partir de los datos agrupados en intervalos. ¿Cuál crees que es el motivo de que se hable de estimar y
no de calcular?
Cuando calculamos un parámetro (la media, la mediana, la varianza, un percentil, …),
empleando datos agrupados, hay que tener en cuenta que el resultado depende de la forma de
agrupar elegida, es decir, diferentes agrupaciones darán lugar a resultados diferentes: el valor
obtenido para los parámetros empleando datos agrupados es una aproximación al verdadero
valor, que es el que se obtiene empleando los n datos sin agrupar. En este caso decimos que el
valor calculado es una estimación del verdadero valor del parámetro.
Al emplear datos agrupados para calcular un parámetro obtenemos una estimación del verdadero valor del parámetro.
El Diagrama de Caja
El diagrama de caja es una representación útil para entender cómo se distribuye un conjunto
de datos y, especialmente, para comparar la distribución de dos o más conjuntos de datos.
En la siguiente tabla se muestran los datos correspondientes al tiempo empleado en una
consulta, en minutos, para 60 pacientes. Emplearemos estos datos para ilustrar la
construcción de un diagrama de caja (Box‐Whisker).
2.2 2.5 2.5 2.6 2.7 2.9 3.0 3.1 3.2 3.3 3.5 3.6
3.8 4.1 4.4 4.5 4.8 4.8 5.0 5.1 5.1 5.1 5.1 5.2
5.2 5.3 5.4 5.4 5.4 5.6 6.3 6.5 6.6 6.7 6.9 7.6
8.1 8.3 8.4 8.5 8.6 8.9 9.4 10.0 10.1 10.1 10.2 11.0
13.1 13.5 14.5 14.6 14.8 15.7 15.7 16.4 17.3 18.8 19.9 21.6

Paso 1. Cálculo de los cuartiles (a partir de los datos).


Posición Cálculo del cuartil
Primer cuartil
Segundo cuartil
Tercer cuartil

Paso 2. Cálculo de los límites.

15

Descargado por Candy Joshelyn Vásquez Rodríguez ([email protected])


lOMoARcPSD|39882616

Elementos de Estadística Descriptiva Unidimensional


Rango Intercuartílico
Límite Inferior
Límite Superior
Paso 3. Identificar los posibles datos anómalos (fuera de los límites).
No hay datos menores que LI, por lo que no hay datos anómalos por la izquierda.
Hay tres datos mayores que LS, que serán datos anómalos {18,8; 19,9; 21,6}.
Los límites LI y LS no forman parte del gráfico, sólo se usan para determinar si hay o no datos anómalos.
Paso 4. Identificar los extremos (no confundir los extremos con los límites).
El extremo inferior es el menor dato no anómalo y, como no hay datos anómalos por
la izquierda, será (es el dato de menor valor).
El extremo superior es el mayor dato no anómalo y, como hay 3 datos anómalos por
la derecha, será (hay datos mayores, pero son anómalos).
Por definición, los extremos siempre coincidirán con el valor de un dato. Esto no sucede con los límites.
Un fallo común es confundir los extremos (Paso 4) con los límites (Paso 2). ¡Pon atención para que no te ocurra!
Paso 5. Dibujar el diagrama de caja.

18.8

19.9

21.6
7.875

2.20 17.30

4.45 5.95 10.10


18.575

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

El diagrama permite apreciar la forma en la que se distribuyen los datos. En particular se


aprecia la asimetría positiva y la existencia de datos anómalos por exceso.
También se ha presentado la media de los 60 datos (7,875). En el diagrama se aprecia que la
media es mayor que la mediana, lo cual es un indicio de asimetría positiva.
Párate a pensar
 En el diagrama de caja anterior, ¿dónde esperas encontrar más datos, entre 4,45 y 5,95 o entre 5,95
y 10,10?
 En el diagrama de caja anterior, ¿dónde estarán más apretados los datos, entre 4,45 y 5,95 o entre
5,95 y 10,10?
 En el diagrama de caja anterior, ¿dónde esperas encontrar más datos, por encima de 7,875 o por
debajo?
Obviando los Datos Anómalos, en cada una de las cuatro secciones del diagrama de caja hay la misma cantidad de datos.
El diagrama de caja nos sugiere una medida aproximada de la asimetría, el Coeficiente de
Yule‐Bowley que denotaremos As y cuya expresión es:

El numerador mide la diferencia en la amplitud entre la caja de la derecha y la de la izquierda.


El numerador sirve para que el resultado esté entre y 1.
En la siguiente figura se muestran, en una misma escala, el diagrama de caja y el histograma
correspondientes a estos datos. Se puede observar que la zona en la que más apretados están
los datos en el diagrama de caja (la zona más estrecha conteniendo el 25% de los datos, en
nuestro caso la que va desde el primer cuartil al segundo cuartil) se corresponde con la zona

16

Descargado por Candy Joshelyn Vásquez Rodríguez ([email protected])


lOMoARcPSD|39882616

Elementos de Estadística Descriptiva Unidimensional


de mayor altura en el histograma (y en el polígono de frecuencias), representando una
mayor densidad.

18.8
19.9

21.6
7.875

2.20 17.30

4.45 5.95 10.10


18.575

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
Representación conjunta del diagrama de caja y del histograma para los tiempos de atención.

Estadística descriptiva en Excel


Excel dispone de gran cantidad de opciones útiles en el estudio descriptivo de conjuntos de
datos.
A continuación se proporciona una lista de funciones útiles a este respecto:
 =Promedio(rango) proporciona la media de un conjunto de datos.
 =Var.P(rango) proporciona la varianza de un conjunto de datos, considerado como la
población (dividiendo por ).
 =Var.S(rango) proporciona la varianza de un conjunto de datos, considerado como una
muestra (dividiendo por ).
 =DesvEst.P(rango) proporciona la desviación típica de un conjunto de datos, considerado
como la población (dividiendo por ).
 =DesvEst.M(rango) proporciona la desviación típica de un conjunto de datos, considerado
como una muestra (dividiendo por ).
 =Mediana(rango) proporciona la mediana de un conjunto de datos.
 =Percentil.Inc(rango;k) proporciona el percentil 100k del conjunto de datos contenido en
rango. El valor de k debe estar entre 0 y 1. Si se obtiene el mínimo y si se
obtiene el máximo.
 =Min(rango) proporciona el mínimo de un conjunto de datos.
 =Max(rango) proporciona el máximo de un conjunto de datos.
 =K.Esimo.Menor(rango;k) proporciona el valor que ocupa la posición k si ordenamos los
datos de menor a mayor.
 =K.Esimo.Mayor(rango;k) proporciona el valor que ocupa la posición k si ordenamos los
datos de mayor a menor.
 =Coeficiente.Asimetria(rango) proporciona el coeficiente de asimetría de Fisher para un
conjunto de datos, empleando la expresión: .

17

Descargado por Candy Joshelyn Vásquez Rodríguez ([email protected])


lOMoARcPSD|39882616

Elementos de Estadística Descriptiva Unidimensional


 =Cuartil.Inc(rango;k) proporciona el cuartil k‐ésimo de un conjunto de datos. Si k es 0 se
obtiene el mínimo, si k es 1 se obtiene el primer cuartil, si k es 2 se obtiene el segundo
cuartil (mediana), si k es 3 se obtiene el tercer cuartil y si k es 4 se obtiene el máximo.
 =Desvia2(rango) proporciona la suma de los cuadrados de las diferencias de los datos con
la media.
 =DesvProm(rango) proporciona la media de las desviaciones absolutas de la media
respecto a los datos.
 =Normalizacion(x; med; desv) proporciona la puntuación típica correspondiente al dato
cuyo valor es x, considerando que la media es me y la desviación típica es desv.

Notas técnicas
Nota Técnica 1. Deducción de la expresión para calcular la media
Sea un conjunto de n datos , definimos la función suma de cuadrados:

queremos encontrar el valor de que minimiza dicha función.


Para obtener el mínimo calculamos la derivada de f y la igualamos a 0, obteniendo:

Despejando obtenemos: , que es la conocida fórmula empleada para calcular la


media de n datos.
Como la segunda derivada es , que siempre es positiva, podemos asegurar que el
valor encontrado es un mínimo.
Nota Técnica 2. Deducción de la expresión abreviada para calcular la varianza
Sea un conjunto de n datos , la varianza se calcula empleando la expresión:

La anterior expresión se puede escribir en notación de sumatorios como:

Es decir, la varianza de X se puede calcular como la media de menos el cuadrado de la


media de X.
La expresión anterior se debe adaptar al caso de la varianza muestral:

Cuestiones
1. Cuando calculamos la media o la varianza de un conjunto de datos agrupados en
intervalos empleamos la marca de clase como valor aproximado para todos los datos de
cada intervalo. ¿Qué estamos asumiendo al hacer esto?
2. ¿En qué se diferencia un diagrama de barras de un histograma?

18

Descargado por Candy Joshelyn Vásquez Rodríguez ([email protected])


lOMoARcPSD|39882616

Elementos de Estadística Descriptiva Unidimensional


3. Para un histograma construimos el polígono de frecuencias asociado y observamos que
para un valor x1 la altura del polígono de frecuencias es el doble que para otro valor x2,
¿cómo interpretamos este hecho?
4. El Decano me pide que le resuma las notas de estadística de los 125 alumnos mediante un
único número, con su interpretación, y yo le contesto que 6 es el número para el cual se
minimiza la suma de su distancia a los 125 datos. ¿Qué es y cómo he obtenido el 6?
5. Al estimar la media con datos agrupados en intervalos obtenemos un valor diferente al
que obtenemos al calcularla a partir de los datos. ¿A qué se debe esta diferencia?
6. ¿Qué le sucede a la media y a la varianza de un conjunto de datos si a todos los datos les
sumo una unidad?
7. ¿Qué le sucede a la media y a la varianza de un conjunto de datos si a todos los datos se
multiplican por 2?
8. ¿Qué le sucede a la desviación típica de un conjunto de datos si a todos ellos se les
multiplica por 3?
9. ¿Qué le sucede a la varianza de un conjunto de datos si multiplicamos todos por ?
10. Para datos expresados en Kg, ¿en qué unidades viene expresada la varianza?
11. Para un conjunto de datos con una marcada asimetría positiva, ¿dónde esperas encontrar
más datos, encima o debajo de la mediana?
12. Al construir un diagrama de caja, al mayor dato no anómalo le llamamos:
13. Sea X una variable aleatoria continua y sea c un número para el que se verifica
. ¿Qué nombre le pondrías a c?
14. En un diagrama de caja observamos que la caja de la izquierda es más ancha que la de la
derecha, ¿cómo interpretamos esto?
15. De un conjunto de datos se observa que hay una cantidad notablemente mayor de datos
por debajo de la media que por encima de la misma ¿qué nos sugiere este hecho?
16. ¿Qué son datos censurados? ¿Qué medida de tendencia central recomiendas para este
tipo de datos?
17. Propón una medida de dispersión calculable con datos censurados.
18. Dado un conjunto de n datos , ¿que nombre recibe el valor c que minimiza
la suma de las distancias del valor a los n datos? .
19. Para un conjunto de datos con una marcada asimetría positiva, ¿dónde esperas encontrar
más datos, encima o debajo de la mediana?
20. Para un conjunto de datos, ¿qué nos sugiere el que la distancia entre los dos primeros
cuartiles sea mucho menor que la distancia entre los dos últimos cuartiles
?
21. El extremo inferior de un intervalo es 84 y la marca de clase es 90. ¿Cuál es el extremo
superior del intervalo?

19

Descargado por Candy Joshelyn Vásquez Rodríguez ([email protected])

También podría gustarte