La Estadística es la parte de las Matemáticas que se
encarga del estudio de una determinada característica en una
población, recogiendo los datos, organizándolos en tablas,
representándolos gráficamente y analizándolos para sacar
conclusiones de dicha población.
Según se haga el estudio sobre todos los elementos de la
población o sobre un grupo de ella, vamos a diferenciar dos
tipos de Estadística:
Estadística descriptiva. Realiza el estudio sobre la
población completa, observando una característica de la misma
y calculando unos parámetros que den información global de
toda la población.
Estadística inferencial. Realiza el estudio descriptivo
sobre un subconjunto de la población llamado muestra y,
posteriormente, extiende los resultados obtenidos a toda la
población.
Veamos dos ejemplos que nos aclaren estos dos tipos de
Estadística:
Ejemplo 1. Cuando van a llegar cualquier tipo de
elecciones, por ejemplo, las elecciones generales, es muy
frecuente que los medios de comunicación, nos adelanten los
resultados de encuestas o sondeos en los que se nos indica el
resultado final de dichas elecciones con una precisión y con un
error determinados. Estos sondeos son realizados por distintas
técnicas sobre un grupo (muestra) más o menos numeroso de
personas. Naturalmente, cuánto mayor sea el número de
chilenos con derecho a voto encuestados, mayor será la
fiabilidad de la encuesta, pero también mayor será el coste del
sondeo. El estudio de esta muestra se haría mediante
estadística descriptiva, pero lo que nos interesa no es el
resultado de este estudio reducido sino el resultado final de las
elecciones. El paso de generalizar los resultados de la muestra a
toda la población, se hace mediante técnicas de Estadística
inferencial. La elección de la muestra debe hacerse mediante
métodos de muestreo para que el estudio resulte lo más fiable
posible.
Ejemplo 2. Supongamos que estamos en un instituto con
un número muy elevado de alumnos y alumnas, por ejemplo
500, y queremos hacer un estudio estadístico sobre su altura.
Un método sería pasar clase por clase y medirlos a todos,
esto nos podría llevar un tiempo considerable pero sería la
forma más exacta de hacer dicho estudio, aunque es fácil
encontrarnos con ausencias y tendríamos que volver varios días
y pasar lista para conseguir la estatura de todo el alumnado.
Una vez que tengamos todos los datos en nuestro poder los
resultados los obtendríamos mediante Estadística descriptiva.
Otra posibilidad podría ser pasar clase por clase, decirle a
los alumnos y alumnas que anoten su estatura en un papel y
recogerlos todos. También así tendríamos un estudio de
Estadística descriptiva, aunque seguramente menos fiable que
con el método anterior, pues casi con toda seguridad, y lo digo
por experiencia, algunos alumnos escriban su estatura a cálculo
y otros, con ganas de bromas, muy por encima o muy por
debajo de la realidad.
Y otra posibilidad sería escoger una muestra, es decir un
grupo de por ejemplo 50 personas, hacer el estudio descriptivo
sobre ellas y después generalizarlo a todo el instituto con
Estadística inferencial. En este caso, comprobaríamos por una
parte que cuánto mayor sea la muestra más trabajo tendremos,
pero más fiable será el resultado final y por otra, que la elección
de la muestra debe hacerse de manera que permita también
fiarnos del resultado obtenido. Si estamos en segundo de
bachillerato, ¿podríamos coger como muestra los 50 alumnos de
este curso? ¿Por qué? ¿Qué forma de elegir la muestra se te
ocurre?
En cualquiera de los dos ejemplos, ¿cuáles serían los
resultados más fiables?
Conceptos básicos. Ya hemos hablado de ellos en los
ejemplos anteriores, en cualquier estudio estadístico aparecerán
los conceptos: individuo, cada uno de los elementos, personas
u objetos que se van a estudiar; población, que es el conjunto
formado por todos los elementos a los que les vamos a hacer el
estudio; muestra, el subconjunto de la población que elegimos
para hacer un estudio más reducido.
2. VARIABLES ESTADÍSTICAS.
Al hacer un estudio de una determinada población,
observamos una característica o propiedad de sus elementos o
individuos. Por ejemplo, con los alumnos y alumnas de nuestra
clase, podemos estudiar el lugar de residencia, el número de
hermanos, la estatura, etc. Cada una de estas características
estudiadas se llama variable estadística. Aunque este es el
concepto que vamos a utilizar, también reciben el nombre
de carácter estadístico.
Dependiendo de la característica podemos distinguir varios
tipos de variables:
Variable cualitativa. Es aquella característica que no
podemos expresar con números y hay que expresarla con
palabras. Por ejemplo, el lugar de residencia.
Variable cuantitativa. Es cualquier característica que se
puede expresar con números. Por ejemplo, el número de
hermanos o la estatura. Dentro de esta variable podemos
distinguir dos tipos:
Variable cuantitativa discreta. Es aquella variable
que puede tomar únicamente un número finito de valores. Por
ejemplo, el número de hermanos.
Variable cuantitativa continua. Es aquella variable
que puede tomar cualquier valor dentro de un intervalo real. Por
ejemplo, la estatura.
Naturalmente, siempre que hacemos un estudio
estadístico en una población, el número de individuos será muy
pequeño o muy grande, pero siempre será un número finito. Por
tanto, podríamos decir que todas las variables son discretas. Sin
embargo, mientras que al estudiar el número de hermanos en
un instituto de 500 alumnos y alumnas, nos vamos a encontrar
entre cinco y diez valores distintos; al estudiar la estatura de
todos con dos cifras decimales, nos podemos encontrar muchos
más. En este último caso, aunque podamos tener 30 valores
distintos, que es un número finito, hablaremos de variable
continua. Esto se debe a que para trabajar con estos datos
resulta mucho más fácil agruparlos en intervalos que hacerlo de
forma aislada. Para hacer cálculos con una variable continua,
utilizaremos el punto medio de cada intervalo, al que
llamaremos marca de clase.
Indicar otros ejemplos de distintos tipos de variables
estadísticas.
3. FRECUENCIAS. TABLAS ESTADÍSTICAS.
Para hacer un estudio estadístico de una característica de
una población, necesitamos elegir dicha característica y después
hacer un recuento. Uno de los primeros recuentos que hacemos
en clase es en la elección del delegado o delegada del curso.
Este recuento puede resultar más o menos fácil dependiendo del
número de alumnos y alumnas que tengamos, ¿cuántas veces
nos ha pasado que no nos coincide el recuento final de los votos
con el número de personas que hay?
Una vez que hemos realizado el recuento, hay que
organizar los datos y expresarlos de forma simplificada para que
su interpretación sea fácil y rápida. Esto se hace disponiendo los
datos por columnas o filas formando lo que llamamos una tabla
estadística.
Número de veces que
Valores de la variable
aparecen
x1 f1
x2 f2
... ...
xn fn
N: Número total de
datos
En primer lugar la tabla estará formada por estas dos
columnas, pero más tarde iremos añadiendo más según los
cálculos que necesitemos. Sin hacer muchos cálculos, podemos
ir completando la tabla con las frecuencias, que definimos a
continuación:
Frecuencia absoluta. Es el número de veces que aparece
cualquier valor de la variable. Se representa por f i. En algunos
libros de texto nos la encontraremos representada por n i.
Frecuencia absoluta acumulada. Es la suma de la
frecuencia absoluta de un valor de la variable con todos los
anteriores. Se representa por Fi.
Frecuencia relativa. Es el cociente entre la frecuencia
absoluta y el número de datos (N). Se representa por h i. Al
multiplicarla por 100 obtenemos el porcentaje de individuos que
presentan esta característica.
Frecuencia relativa acumulada. Es la suma de la
frecuencia relativa de un valor de la variable con todos los
anteriores. También se puede definir como el cociente entre la
frecuencia absoluta acumulada y el número total de datos. Se
representa por Hi.
Vamos a realizar tres estudios estadísticos entre nuestros
alumnos y alumnas, cada uno de ellos correspondiente a un tipo
de variable estadística: lugar de residencia, número de
hermanos y estatura. Preguntamos uno a uno sobre estas
características y obtenemos:
lugar de residencia: Padre Las Casas, PLC., PLC., PLC.,
PLC., PLC., PLC., PLC., PLC., Temuco, Temuco.
número de hermanos: 2, 3, 2, 3, 3, 3, 3, 4, 2, 2, 2.
estatura: 1.59, 1.75, 1.71, 1.85, 1.64, 1.62, 1.66, 1.60,
1.63, 1.76, 1.66.
En las siguientes escenas puedes construir la tabla de
frecuencias para variables discretas y continuas.
Escena 1. Tabla de frecuencias para una variable discreta.
Escena 2. Tabla de frecuencias para una variable continua.
Como puedes observar no se han tenido en cuenta las
variables cualitativas. Esto se debe a que al no trabajar con
números no se pueden hacer operaciones. Únicamente tendría
sentido en la tabla construir las columnas de frecuencias
absolutas y relativas, pero no las acumuladas. En el siguiente
apartado de gráficos estadísticos también se podrían
representar, pero para los apartados de cálculo de parámetros
no podremos trabajar con ellas. si tienes interés en alguna
representación, sustituye los valores la variable por los números
que quieras y represéntalas o construye la tabla.
5. PARÁMETROS ESTADÍSTICOS.
Después de haber representado los datos gráficamente,
ahora llega el momento de hacer un estudio de los mismos. Si
estamos estudiando la estatura de todos los alumnos y alumnas
del instituto y necesitamos dar información de este estudio,
parece lógico dar un dato que conocemos todos como media y
que representa la estatura de todo el alumnado estudiado.
Además de este dato existen otros datos (que llamaremos
parámetros) que van a representar a toda la población o que
nos van a indicar si la población está muy concentrada o muy
dispersa.
Parámetros estadísticos. Son datos que resumen el
estudio realizado en la población. Pueden ser de dos tipos:
Parámetros de centralización. Son datos que
representan de forma global a toda la población. Entre ellos
vamos a estudiar la media aritmética, la moda y la mediana.
Parámetros de dispersión. Son datos que informan
de la concentración o dispersión de los datos respecto de los
parámetros de centralización. Por ejemplo el recorrido, la
desviación media, la varianza y la desviación típica.
6. ESTUDIO DE MEDIA Y DESVIACIÓN TÍPICA.
De todas los parámetros estudiados, los más significativos son la
media para las medidas de centralización y la desviación típica para las
medidas de dispersión.
Vamos a hacer un estudio conjunto de ambas para entender
mejor su significado.
La media aritmética es el centro de gravedad de la distribución
estadística. Si nos imaginamos el diagrama de barras o el histograma de
frecuencias apoyado en un punto del eje horizontal de forma que
quedase en equilibrio, el valor de este punto en dicho eje sería el valor
de la media.
Como ya hemos comentado, no es suficiente con un parámetro de
centralización, es necesario un parámetro de dispersión que nos indique
si los datos estudiados están más concentrados o más dispersos. Y este
parámetro de dispersión va a ser la desviación típica. Lógicamente si los
datos están más concentrados la desviación típica será menor, y si los
datos están más dispersos la desviación típica será mayor.
El significado de ambos parámetros se podrá comprender mejor
con la siguiente escena:
Escena 16. Significado de la media y la desviación típica.
Coeficiente de variación. Si hemos realizado un estudio
estadístico en dos poblaciones diferentes, y queremos comparar
resultados, no podemos acudir a la desviación típica para ver la mayor o
menor homogeneidad de los datos, sino a otro parámetro nuevo,
llamado coeficiente de variación y que se define como el cociente entre
la desviación típica y la media.
Por ejemplo, en una exposición de ganado estudiamos un
conjunto de vacas con una media de 500 kilos y una desviación típica de
50 kilos. Y observamos también un conjunto de perros con una media de
40 kilos y una desviación típica de 10 kilos. ¿Qué grupo de animales es
más homogéneo?
Un razonamiento falso sería decir que el conjunto de perros es
más homogéneo porque su desviación típica es más pequeña, pero si
calculamos el coeficiente de variación para ambos:
Vv = 50/500 = 0.1 Vp = 10/40 = 0.25
Por tanto, es más homogéneo el conjunto de las vacas.
Puntuaciones normalizadas. Si antes hemos comparado
variables, también podemos estar interesados en comparar datos de
distribuciones distintas y saber, cuál destaca más o menos dentro de su
grupo según la característica observada. Esto lo vamos a hacer
tipificando la variable con la fórmula:
obteniendo así una nueva variable estadística de media 0 y
desviación típica 1, con la que resultará más fácil poder comparar los
datos.
Por ejemplo, si en la exposición de ganado anterior, escogemos
una vaca que pesa 550 kilos y un perro que pesa 55 kilos, ¿cuál tiene
más peso dentro de su grupo?
Naturalmente no vale decir la vaca que pesa mucho más.
Tipificamos ambos valores y obtenemos:
zv = (550-500)/50 =1 zp = (55-40)/10 = 1.5
Como las dos variables tipificadas tienen la misma media y la
misma desviación típica, tiene más peso el animal que tiene mayor
puntuación normalizada, es decir, el perro.
En la siguiente escena se puede calcular el coeficiente de
variación y las puntuaciones normalizadas o tipificadas:
Escena 17. Coeficiente de variación. Puntuaciones normalizadas.