ESTADÍSTICA UNIDIMENSIONAL Y
BIDIMENSIONAL
1. Estadística unidimensional. Conceptos básicos
La prensa realiza estudios estadísticos Todos estos pasos son los que se van
frecuentemente para informar a la a estudiar a lo • largo de esta unidad.
población de las inquietudes que Comencemos por los dos primeros: la
existen en el momento: políticas, variable y los individuos de estudio.
económicas, sociales... Definimos población como el conjunto
La estadística es, de hecho, la rama de de todos los individuos sobre los que
las matemáticas que organiza y trata se quiere hacer un estudio. La mayor
los datos que extraemos de una parte de las veces, no es posible
encuesta. Tiene dos partes: la estudiar a cada uno de los miembros de
estadística descriptiva, que se ocupa de la población por falta de tiempo,
recolectar y organizar una serie de dinero, o por las propias características
datos para conocer características del del estudio (por ejemplo, al estudiar los
conjunto, como el ejemplo anterior y, efectos secundarios de un cierto
la estadística inferencial, que trata de medicamento no se le puede
extraer conclusiones sobre toda una proporcionar a la población en
población, cuando realmente solo se ha general), y, por ello, lo que se hace es
encuestado a una parte de ella, la seleccionar a unos pocos que sean
muestra. representativos de todo el conjunto: es
la muestra. El muestreo, es decir, la
Comencemos por los pasos que hay que
forma de seleccionar la muestra, debe
seguir al iniciar un estudio estadístico:
ser cuidadoso, de forma que los
• Primero, decidir sobre qué se va a individuos escogidos representen al
realizar la encuesta, es decir, definir las total de la población, para así
variables estadísticas.
conseguir que los resultados sean
• Después, buscar los individuos para fiables. Algunos tipos de muestreo son:
realizar la encuesta, la muestra, y que
representen adecuadamente a toda la
• Muestreos probabilísticos (cada
población a la que se dirige el estudio. individuo tiene la misma
probabilidad de ser elegido). Existen
• Una vez extraídos los datos, se varios tipos: aleatorio (al azar),
organizan en tablas de frecuencias, para
estratificado (escogiendo individuos
manejarlos con mayor comodidad.
de cada subpoblación o estrato), por
• Después se suelen realizar gráficos que conglomerados (escogidos entre
ayuden a visualizar los resultados. pequeños subgrupos de la población
• Y, también, calcular parámetros tomados por el encuestador),
estadísticos que interpreten los datos. sistemático (ordenando y numerando
todos los individuos de la población
• Finalmente, se elabora un resumen con
las conclusiones.
por un criterio, escogiendo uno al
1
UNIDAD
ESTADÍSTICA UNIDIMENSIONAL Y BIDIMENSIONAL
azar, y a partir de él aquellos que • Cualitativa: si describe una
difieran en múltiplos de cierto característica no numérica. Por ejemplo,
número)... el color del pelo.
• Muestreo opinático: aquel muestreo en • Cuantitativa: si la característica que
que el encuestador escoge a quién se estudia se puede medir, o sea, es
realizar la encuesta según sus criterios. numérica. Dentro de este tipo,
• Muestreo sin norma: se escoge la podemos diferenciar dos clases:
muestra sin criterio alguno, con lo cual — Discreta: si la variable solo puede
en algunos casos será representativa y tomar un número finito, «reducido»,
en otros no. de valores. Por ejemplo, el nÚmero de
La característica que se quiere estudiar hijos: 0, l, 2...
en la encuesta es la variable o carácter Continua: si la variable puede
estadístico, que puede ser: tomar «infinitos» (digamos,
muchísimos) valores. Por ejemplo,
el dinero que tenemos en la cuenta:
315,65; 1845,21...
2. Tablas de frecuencias
Asegurando ya la representatividad de la muestra, hay
que organizar los datos extraídos en el estudio para
empezar a trabajar y sacar conclusiones de ellos. Las
tablas de frecuencias son el primer paso para dicha
organización, y constan de varias columnas que se
explican a continuación:
• Columna de datos, Xi : en ella se colocan los datos,
uno de cada tipo, y, si es posible, ordenados de
menor a mayor. Si la variable es continua, se
agrupan los datos por intervalos de igual tamaño,
añadiendo una columna más a la tabla con dichos
intervalos.
En la columna de datos correspondiente a cada intervalo
se coloca el punto medio de cada intervalo, llamado
marca de clase.
El número de intervalos puede variar, pero se puede
considerar apropiado N intervalos, con N el número
total de datos. Además, su amplitud debe ser constante,
por lo que para calcularla solo hay que observar la
diferencia entre el menor y el mayor dato y repartirla
entre el nÚmero de intervalos. Finalmente, estos
2
UNIDAD
ESTADÍSTICA UNIDIMENSIONAL Y BIDIMENSIONAL
intervalos serán siempre semiabiertos y de la forma [ , );
salvo el último intervalo que puede ser cerrado si fuera
necesario.
• Frecuencia absoluta, fi : en esta columna se pone la
cantidad de veces que aparece repetido cada uno de
los datos Xi , o en el caso continuo, la cantidad de
datos que hay en el intervalo correspondiente. La
suma de todas las frecuencias absolutas debe dar el
número total de datos, N. Se escribe N — fi •
• Frecuencia absoluta acumulada, Fi : acumulación de
las frecuencias absolutas. La última de ellas debe ser
N.
3. Parámetros En ambos casos se denota con las letras
Mo.
estadísticos
Uno de los modos más eficaces de • Media aritmética
observar las características de la muestra Es el promedio de todos los datos, por
es por medio de la obtención de tanto, solo exis-
parámetros estadísticos. Existen tres tipos
de parámetros estadísticos, que usaremos te en el caso de variables cuantitativas.
en función de las características de la
Se denota x y se obtiene dividiendo la
muestra a estudiar.
suma de todos los datos recogidos
3.1. Medidas de centralización entre el número total de datos, es decir,
Indican en torno a qué valores se sitúan
los datos. Vamos a estudiar tres: moda,
media y mediana. • Mediana/ Intervalo mediano
Es el valor que se sitúa en la posición
• Moda / Intervalo modal central, una vez colocados todos los
En el caso discreto, es el dato qué más
datos y ordenados de menor a mayor,
aparece, el de mayor frecuencia absoluta.
es decir, que deja a la mitad de los
Siempre existe y no tiene por qué ser
único: si existen varios datos con la misma
datos a su derecha y a la otra mitad a
frecuencia absoluta y esta es la mayor, su izquierda. Como es necesario
todos ellos serían la moda. En el caso ordenar los datos, la mediana solo
continuo, en lugar de señalar un dato, se existe en el caso cuantitativo.
indica el intervalo modal, es decir, aquel o En el caso discreto, si el número de
aquellos intervalos de mayor frecuencia datos es impar, la mediana es el dato
absoluta. central, y si el número de datos es par,
3
UNIDAD
ESTADÍSTICA UNIDIMENSIONAL Y BIDIMENSIONAL
como hay una pareja de datos En el caso continuo se procede del
centrales, la mediana es la media de mismo modo, pero localizando
ese par de datos. Se emplea la columna únicamente el intervalo que contiene a
de las frecuencias absolutas la mediana, que recibe el nombre de
acumuladas para obtener dichos datos intervalo mediano.
centrales.
En ambos casos, se denota Me.
3.2. Medidas de posición
Las medidas de posición dividen los datos
en el número de partes que se desee, de
forma que cada una de las partes tenga la
misma cantidad de elementos. Como
requieren de una colocación en orden
creciente de los datos, solo existirán en el
caso cuantitativo.
• Cuartiles y percentiles
Los cuartiles dividen el conjunto de los
datos en cuatro partes con la misma
cantidad de elementos y los percentiles lo
dividen en 100 partes. El cuartil l, Q1 deja
a su izquierda el 25 % de los datos, y el
75% a su derecha. El cuartil 2, Q2 , dejará
a su izquierda el 50 % de los datos, por lo
que Q2 es también la mediana.
Finalmente, Q3 deja a su izquierda un 75
% de los datos. Igualmente tenemos los
percentiles, en los que deja el k % a su
izquierda, por ejemplo, PIO , = Q1 ,
1040 , = Q2 Me,
En el caso discreto se procede igual que
en la mediana por medio de las
frecuencias absolutas acumuladas. El
percentil es el valor que ocupa la posición
k % de N, siempre redondeada al alza si
da decimal. Si da exacto, se toma la media
de los valores correspondientes a esa
4
UNIDAD
ESTADÍSTICA UNIDIMENSIONAL Y BIDIMENSIONAL
posición y la siguiente, al igual que se
hacía con la mediana.
En el caso continuo, solo se obtendrá el
intervalo que contiene al percentil buscado
procediendo de la misma manera.
3.3. Medidas de dispersión
Estos parámetros aportan información sobre cuánto se alejan los datos respecto de
su media aritmética. Estas medidas complementan a las de centralización, pues
facilitan observar, en distintas muestras con valores centrales similares, la
homogeneidad de las mismas; es decir, si tienen datos similares o muy distantes
entre sí. Dado que
otra vez se están introduciendo nociones relativas a distancias, solo se podrán
obtener estos parámetros si la variable es cuantitativa.
Vamos a estudiar cuatro medidas de dispersión: rango, recorrido intercuartílico,
varianza y desviación típica.
• Recorrido o rango: Es la diferencia entre el dato mayor y el menor. Se denota
con R. Si aparecen valores extremos (se llaman valores atípicos) deja de ser
representativo.
• Recorrido intercuartílico: Es la diferencia entre el cuartil tercero y el primero: Q3 —
Q1 . Se utiliza cuando aparecen valores extremos y se desea saber si aparecen con
mucha o poca frecuencia.
• Varianza: Se denota S 2
y se define como la media de los cuadrados de las des-
5
UNIDAD
ESTADÍSTICA UNIDIMENSIONAL Y BIDIMENSIONAL
viaciones respecto de la media, es decir, S 2 —
• Desviación típica: Como la varianza no tiene las mismas unidades que los datos, al
estar estos elevados al cuadrado, se introduce la desviación típica, S, que es la raíz
cuadrada positiva de la varianza, S = + S2
4. Gráficos estadísticos
Intervalo
Tras analizar e interpretar los datos con los parámetros
[75, 80) 3 estadísticos, podemos también extraer información rápida
y [80, 85) 5 visual
Intervalo
[85, 90) 6 de Xi2 •fi
[75, 80) 77,5 3 232,5 18018,75
[90, 95) 9
[80, 85) 82,5 5 412,5 34031,25
[95, 100) 8
[85, 90) 87,5 6 525 45 937,5
[100, 11
105) [90, 95) 92,5 9 832,5 77 006,25
[105, 6 [95, 100) 97,5 8 780 76050
110) [100, 105) 102, 11 1 127,5 115
[1 10, 2 5 568,75
115) [105, 110) 107,5 6 645 69 337,5
gráficos [1 10, 115) 112,5 2 225 25312,5
estadísticos. Existen
multitud de gráficos diferentes para representar los datos, y en este epígrafe
vamos a detallar tres: los diagramas de barras / histogramas, los diagramas de sectores y
los diagramas de caja y bigotes.
• Diagramas de barras (variable cualitativa o cuantitativa
discreta) / histograma (variable cuantitativa continua)
Gráfico formado por barras verticales del mismo grosor y de altura la frecuencia
absoluta del dato sobre las que se colocan. Los datos se suelen colocar en el eje de
abscisas, por lo que este eje no tiene por qué estar graduado, ya que la variable
puede ser incluso cualitativa (sin embargo, en caso de ser cuantitativa, se
recomienda graduarlo). El eje de ordenadas estará graduado para poder
representar las frecuencias absolutas.
Si la variable que se estudia es cualitativa
o cuantitativa discreta las barras están
separadas unas de otras y el gráfico se
llama diagrama de barras. Si la variable es
continua, las barras aparecen juntas y el
gráfico se llama histograma. En este caso,
al unir los puntos medios de las partes más
altas de cada una de las barras con una
6
UNIDAD
ESTADÍSTICA UNIDIMENSIONAL Y BIDIMENSIONAL
línea se obtiene el polígono de frecuencias
correspondiente.
20000 MW Potencia eólica anual instalada en España470 1390 1601 18263
18000 16000 9 8
11
9910
8462
6240
4 950
3 442
2079
163 407 760 1 467
14000
12 000
10000
8000
6 000
4 000
2000
1996 1997 1998 1999 2000 2001 2002
2003 2004 2005 2006 2007 2008 2009
A
ñ
o
Tiempo de espera del cliente
10 15 20 25 30 35
tiempo (min)
U
• Diagrama de sectores
Gráfico consistente en un círculo dividido en
sectores de amplitud directamente proporcional a
las frecuencias absolutas de cada uno de los datos.
7
UNIDAD
ESTADÍSTICA UNIDIMENSIONAL Y BIDIMENSIONAL
5. Estadística bidimensional. Conceptos
básicos
Una variable estadística bidimensional, denotada (X,
YO, es el conjunto de dos variables
7% 20%
Emisión de CO2 por sectores. Agricultura
Varios
unidimensionales cuantitativas que se estudian sobre
los mismos individuos de una población, por
ejemplo, la estatura y peso de los bebés. Toda
variable estadística bidimensional toma parejas de
valores (Xi, y) que se suelen representar en el plano
formando una nube de puntos.
El estudio de una variable bidimensional, pasa por
estudiar las características principales de las
variables unidimensionales que la forman, que
reciben el nombre de distribuciones marginales.
Al igual que en el caso de las variables unidimensionales,
los datos se presentan habitualmente en tablas.
ID D
6. Covarianza
Definimos covarianza de una variable
bidimensional (X, Y) (o varianza conjunta de X e IO,
y se denota Sxy , el siguiente cociente:
8
UNIDAD
ESTADÍSTICA UNIDIMENSIONAL Y BIDIMENSIONAL
7. Correlación lineal:
coeficiente de correlación
de Pearson
Se llama correlación a la «dependencia»
existente entre las dos variables
unidimensionales que intervienen en una
variable bidimensional. Según la nube de
puntos, la correlación se puede clasificar
en:
Según el crecimiento de Positiva o directa: Si X crece, Y también.
las variables
Negativa o inversa: Si X crece, Y decrece.
Nula: Al azar: X e Y son incorreladas.
Según la forma de su nube Funcional: Los puntos se ajustan por completo a un
de puntos tipo de función, por ejemplo, lineal o curvilínea.
9
UNIDAD
ESTADÍSTICA UNIDIMENSIONAL Y BIDIMENSIONAL
No funcional: No existe Fuerte: Los puntos se
una función que ajuste aproximan bastante a la
correctamente la nube gráfica de cierta función.
de puntos.
Débil: los puntos están
bastante dispersos
respecto a los de la
gráfica de una función.
UNIDAD
0
Si se pretende estudiar el grado de
correlación lineal entre dos variables, hay
que calcular el coeficiente de correlación
de Pearson, r, que es el cociente que
puede tomar valores entre —l y l,
coincidiendo su signo con el de la
covarianza SxY
Signo der Positivo Correlación positiva o directa.
Negativo CorrelaciÓn negativa o inversa.
Nulo No hay correlación.
1 Correlación lineal funcional.
Cercano a I Correlación lineal no funcional muy fuerte
(más fuerte cuanto más próximo a l).
Cercano a 0 Correlación lineal no funcional muy débil
(puede incluso que no exista relación lineal,
pero sí curvilínea).
No hay correlación.
10
UNIDAD
ESTADÍSTICA UNIDIMENSIONAL Y BIDIMENSIONAL
8. Regresión lineal
Si entre dos variables existe una
correlación lineal fuerte, la nube de
puntos se aproxima bastante a una recta.
Si consideramos X como la variable
independiente e Y como la dependiente,
podemos hallar la ecuación de la recta que
se ajusta de forma óptima a los puntos de
la nube: es la recta de regresión de Y
sobre X.
La ecuación de la recta de regresión de Y sobre X es
Si consideramos Y como variable
independiente y X como variable
dependiente, obtenemos la recta de
regresión de X sobre Y, de ecuación
Ambas rectas se cortan en el punto (x, y)
que se denomina el centro de gravedad de
la distribución. Además, se verifica que,
cuanto más pequeño es el ángulo que
forman ambas rectas, más fuerte es la
correlación entre ambas variables.
11
12