Estadística descriptiva
La estadística descriptiva es una disciplina que se encarga de recoger, almacenar,
ordenar, realizar tablas o gráficos y calcular parámetros básicos sobre el conjunto
de datos.
Adicionalmente, nos ofrecen medidas que resumen la información de una gran
cantidad de datos.
Tipos de variables estadísticas
Dentro de la estadística descriptiva, podemos describir los datos de manera
cualitativa o cuantitativa.
1. Variable cualitativa: Hace referencia a una cualidad. Ejemplos: el color de
ojos de una persona o el color de pelo.
2. Variable cuantitativa: Hace referencia a una medida cuantitativa. Ejemplos:
la altura de una persona en centímetros o el peso de una persona en
kilogramos.
Parámetros estadísticos básicos
Con el objetivo de resumir la información, se idearon diversas fórmulas que
ofrecían medidas de un determinado tipo. Así, están aquellas que nos ofrecen
información sobre el centro, otras sobre la dispersión o variabilidad y otras sobre la
posición de un valor.
Medidas de tendencia central: Denominadas así porque ofrecen información sobre
el centro de conjunto de datos. Por ejemplo, la media es una medida de tendencia
o posición central ya que el promedio nos ofrece un valor centrado del conjunto de
datos. ¿Dónde podríamos decir que se encuentra el punto medio? En el centro, en
la mitad aproximadamente. Otro ejemplo de medida de tendencia central es la
mediana.
Medidas de dispersión: También son conocidas como medidas de variabilidad. Por
ejemplo, la desviación típica es una medida de variabilidad ya que nos dice si los
valores de un conjunto de datos son muy dispares o no. Dos ejemplos más sobre
medidas de dispersión podrían ser la varianza y el rango estadístico.
Medidas de posición: No son las más conocidas, pero se utilizan frecuentemente.
Un ejemplo de ello, se encuentra en los percentiles o los deciles. Cuando un dato
en concreto se encuentra en el percentil 90, quiere decir que por debajo de ese
dato se encuentran el 90% de datos. Existen otras medidas de posición como los
cuartiles o algunas variantes como el primer cuartil.
Muestreo
El muestreo es el proceso mediante el cual se selecciona un grupo de
observaciones que pertenecen a una población. Esto, con el fin de realizar
un estudio estadístico.
Tipos de muestreo
Los tipos de muestreo pueden distinguirse en función de distintos criterios. Así,
según la técnica para seleccionar el subgrupo, se pueden diferenciar los
siguientes:
Muestreo probabilístico
Las observaciones son seleccionadas en base a la aleatoriedad, es decir, al azar.
En esta categoría podemos encontrar:
1. Muestreo aleatorio simple: Todos los individuos de la población tienen la
misma probabilidad de ser elegidos como parte de la muestra. Tiene
ventajas, como el hecho de que es fácil de llevar a cabo a través de
sistemas informáticos. Sin embargo, se requiere el listado completo de toda
la población y, si la muestra es muy pequeña, la selección podría no ser
representativa.
2. Sistemático: Se elige una observación al azar y, para seleccionar el resto de
la muestra, se utilizan intervalos numéricos regulares. Es decir,
supongamos que tengo una población de 10.000 y, aleatoriamente,
selecciono la observación 600, después de lo cual puedo considerar
intervalos de 30 observaciones. En este caso, tomaría las observaciones
600, 630, 660, 690, 720, 750, 780, y así sucesivamente.
3. Aleatorio estratificado: Se divide a la población en estratos, que son grupos
que comparten características en común y son más homogéneos, inclusive,
que la población en su conjunto. Entonces, se selecciona una muestra, ya
sea de manera aleatoria o sistemática, dentro de cada estrato. El objetivo
es lograr una representatividad de cada estrato.
4. Por conglomerados o clústeres: Consiste en crear grupos más pequeños
que la población, los cuales reflejen o compartan todas las características
de esta. Luego, elegimos alguno de los conglomerados como muestra y lo
analizamos de forma detallada.
Muestreo no probabilístico
La selección de la muestra no depende de la probabilidad, sino de la decisión de
los investigadores. Podemos distinguir algunas subcategorías:
1. Por conveniencia: Consiste en que el investigador captará a los sujetos que
estén a su disponibilidad. Por ejemplo, por su proximidad o facilidad de
acceso.
2. Método opinático o intencional: El investigador utiliza su juicio o criterio para
elegir a quienes van a participar como parte de la muestra.
3. Casual o accidental: El investigador selecciona sin juicio previo a los
individuos que van a formar parte de la muestra. Por ejemplo, esto suele
suceder cuando se hacen encuestas en la calle.
4. Bola de nieve: Consiste en que, después de encontrar al primer sujeto (o
primeros sujetos) de la muestra, el investigador le pide ayuda a él (o ellos)
para identificar a otros individuos con esas mismas características. Se trata
de una técnica utilizada cuando es difícil localizar a un grupo específico por
el manejo de datos sensibles, por ejemplo, emigrantes en situación de
ilegalidad.
5. Por cuotas: El investigador, tomando en cuenta la composición de la
población, y dividiendo por grupos o estratos, hará una selección
proporcional de la muestra. Por ejemplo, imaginemos que en la población
hay un 40% de personas menores de 25 años, 35% de personas de entre
25 y 50 años, y 25% de individuos con más de 50 años. Entonces, una
muestra de 4.000 personas tendría 1.600 sujetos menores de 25 años,
1.400 de entre 25 y 50 años, y 1.000 adultos mayores de 50 años o más.
Cabe señalar que los individuos que cubrirán cada cuota serán
seleccionados por algún método no probabilístico, es decir, cualquiera de
las técnicas explicadas líneas arriba.
Clases de estadística
Los tipos de estadística se puede subdividir en dos grandes ramas: descriptiva e
inferencial.
1. Estadística descriptiva: Se refiere a los métodos de recolección,
organización, resumen y presentación de un conjunto de datos. Se trata
principalmente de describir las características fundamentales de los datos y
para ellos se suelen utilizar indicadores, gráficos y tablas.
2. Estadística inferencial: Se trata de un paso más allá de la mera descripción.
Se refiere a los métodos utilizados para poder hacer predicciones,
generalizaciones y obtener conclusiones a partir de los datos analizados
teniendo en cuenta el grado de incertidumbre existente.
La estadística inferencial se subdivide a su vez en dos grandes tipos: estadística
paramétrica y no paramétrica.
1. Estadística paramétrica: Se caracteriza porque asume que los datos tienen
una determinada distribución o se especifican determinados parámetros
que deberían cumplirse. Así por ejemplo, en un análisis paramétrico
podemos trabajar bajo el supuesto de que la población se distribuye como
una Normal (hay que justificar nuestro supuesto) y luego sacar
conclusiones bajo el supuesto que esta condición se cumple.
2. Estadística no paramétrica: En ella no es posible asumir ningún tipo de
distribución subyacente en los datos ni tampoco un parámetro específico.
Un ejemplo de este tipo de análisis es la prueba binomial.
Etapas del proceso estadístico
el proceso estadístico está formado por:
Planteamiento del problema
En el planteamiento del problema se sitúa el eje central sobre el que articular todo
lo demás. Esta fase responde a la siguiente pregunta: ¿Qué necesito estudiar y
por qué? En ocasiones, por increíble que parezca plantear el problema puede
hacernos llegar a la conclusión de que en realidad no necesitamos realizar un
estudio estadístico.
Recogida de datos
Una vez hemos planteado el problema debemos recoger los datos. Aquí es
importante la metodología. De tal modo que existen diferentes consideraciones.
Así pues, debemos establecer el tipo de muestreo, el tamaño de la muestra, el tipo
de recolección de datos (por ejemplo, a través de bases de datos o de encuestas
personalizadas), en persona, por internet o por teléfono, etc.
Organización de los datos
Una vez tenemos todos los datos queda unificarlos y organizarlos. Como en todo,
necesitamos introducir los datos en programa o plataforma que luego nos permita
calcular determinadas métricas y analizar correctamente. Para ello, siempre es
conveniente organizar los datos. Es más, a veces necesitaremos recoger datos de
diferentes bases de datos que ofrecen formatos de archivos diferentes y será
necesario unificarlo todo en el mismo formato.
Análisis de los datos
Una vez planteado el problema, recolectados los datos y organizados podemos
analizarlos de forma eficaz. Dependiendo del planteamiento del problema, se
realizará un tipo de análisis u otro. Por ejemplo, si queremos saber si dos variables
son dependientes, podríamos utilizar un análisis de cointegración. Mientras que si
lo que queremos estudiar es la dispersión total de un activo financiero,
calcularemos el rango estadístico.
Interpretación de los datos
Por último, pero no por ello menos importante, tenemos la interpretación de los
datos. De nada sirve realizar todas las fases del proceso estadístico
correctamente si al final la interpretación es errónea. Esto es debido a que si la
interpretación es errónea, entonces las decisiones tendrá un efecto no deseado.
Por ejemplo, imaginemos que realizamos un estudio sobre la variabilidad de las
ventas de una empresa. Si una vez obtenemos los resultados resulta que hay
mucha dispersión, conviene reducirla y nosotros interpretamos que no, esto podría
afectar negativamente a la empresa.
Los cinco pasos quedan reflejados en el siguiente esquema:
Medidas de tendencia central
Las medidas de tendencia central son parámetros estadísticos que informan sobre
el centro de la distribución de la muestra o población estadística.
A veces, tratamos con una gran cantidad información. Variables que presentan
muchos datos y muy dispares. Datos con muchos decimales, de diferente signo o
longitud. En estos casos, siempre es preferible calcular medidas que nos ofrezcan
información resumida sobre dicha variable. Por ejemplo, medidas que nos
indiquen cuál es el valor que más se repite.
¿Para qué sirven las medidas de tendencia central?
Las medidas de tendencia central, como es obvio, persiguen una serie de
objetivos que justifican su existencia.
En primer lugar, las medidas de tendencia central sirven para conocer en qué
lugar se ubica el elemento promedio, o típico del grupo. Imaginemos que
queremos saber qué grupo de música es el favorito de la clase. Para ello,
podemos utilizar la moda
Asimismo, las medidas de tendencia central sirven para comparar, así como para
interpretar los resultados obtenido con relación a los distintos valores observados.
Imaginemos que la nota media de los alumnos de una clase se sitúa en el 7,
mientras hay alumnos que se sitúan en el 3.
Medidas de tendencia central
A continuación, veamos las principales medidas de tendencia central, así como las
distintas fórmulas que permiten calcular dichas medidas en cualquier caso.
Estas medidas son la media, la moda y la mediana.
Media
La media es el valor promedio de un conjunto de datos numéricos, calculada como
la suma del conjunto de valores dividida entre el número total de valores. A
continuación se muestra la fórmula de la media aritmética:
Mediana
La mediana es un estadístico de posición central que parte la distribución en dos,
es decir, deja la misma cantidad de valores a un lado que a otro. Las fórmulas
propuestas no nos darán el valor de la mediana, lo que nos darán será la posición
en la que está dentro del conjunto de datos. Las fórmulas que indica la posición de
la mediana en la serie son las siguientes:
Cuando el número de observaciones es par:
Mediana = (n+1) / 2 → Media de las posiciones observaciones
Cuando el número de observaciones es impar:
Mediana = (n+1) / 2 → Valor de la observación
Moda
La moda es el valor que más se repite en una muestra estadística o población. No
tiene fórmula en sí mismo. Lo que habría que realizar es la suma de las
repeticiones de cada valor. Por ejemplo, ¿cuál es la moda de la siguiente tabla de
salarios?
Trabajad
Salario
or
€
1
1.236
€
2
1.236
€
3
859
€
4
486
€
5
1.536
€
6
1.536
€
7
1.621
€
8
978
€
9
1.236
€
10
768
La moda sería 1.236€. Si vemos los salarios de los 10 trabajadores, veríamos que
1.236€ se repite en tres ocasiones.
Probabilidad
La probabilidad es la posibilidad de que suceda un fenómeno o un hecho, dadas
determinadas circunstancias. Se expresa como un porcentaje.
1. Simple: La probabilidad simple es el número de veces que puede ocurrir un
determinado suceso en función del número de elementos pueden dar lugar
a dicho suceso.
2. Compuesta: Se trata de la probabilidad que existe de que se produzcan de
forma simultánea dos sucesos.
tipos de gráficos estadísticos
Las principales representaciones para gráficos estadísticos son:
Gráfico de barras
Se utilizan para mostrar la evolución o comportamiento de una variable en el
tiempo. Se compone en un sistema de coordenadas de ejes cartesianos —eje X y
eje Y— en el que barras rectangulares horizontales o verticales representan
gráficamente la variable elegida. Este tipo de gráfico es habitual para representar,
por ejemplo, los ingresos de una compañía por trimestres de actividad o la
evolución del PIB de un país bien sea anual, semestral, trimestral… Permite
introducir diversas variables y observar su evolución paralela a lo largo del mismo
período de tiempo: en uno de los ejes se establece el tiempo y el otro se levantan
las barras marcando el valor que corresponde a la variable.
Gráfico de tarta o diagrama de sectores
Permite visualizar las partes de un todo a través de una circunferencia dividida en
sectores o porciones. Por ejemplo, el porcentaje de alumnos de una clase que
realizan una determinada actividad extraescolar: del 100 % de los alumnos, un 15
% juega al baloncesto, un 10 % aprende programación, un 15 % estudia un
idioma, un 40 % juega al fútbol y el 20 % restante agrupa otras actividades.
Gráfico de líneas o diagrama de frecuencias
Este tipo de gráfico es similar al de barras —los datos se ordenan en base a los
ejes cartesianos— y es útil para observar la evolución de una variable. Por
ejemplo: cómo ha variado la temperatura mínima y máxima durante una semana.
En uno de los ejes tendremos la temperatura y en otro los días de la semana. Se
marcan los valores de la temperatura mínima y se unen con una línea mostrando
la oscilación; con otro color se representa de igual forma la temperatura máxima.
De un vistazo, el lector puede ver cómo han oscilado ambas variables en un
periodo de siete días.
Gráfico de dispersión
El punto de partida son también los ejes cartesianos que muestran todos los
valores de la variable dependiente y de la independiente, o de dos variables para
comprobar si existe relación. El resultado suele ser una nube de puntos que
muestra una dispersión o una concentración y ayuda a los estadistas a determinar
la relación o no entre las [Link] representaciones gráficas permiten
combinaciones diversas, por ejemplo, representar unas variables en barras y otras
en línea, siempre que el tipo de datos a representar lo permita.
Pictogramas
Otra variación son los pictogramas, gráficos donde las barras o las líneas se
sustituyen por dibujos que muestran la temática de los datos que se están
expresando en los gráficos: si se representa la variación del precio de distintas
frutas, el pictograma puede elaborarse con dibujos de esas frutas.