Introducción a la Estadística Descriptiva
Introducción a la Estadística Descriptiva
Área de Estadística
Material de apoyo didáctico elaborado por Silvia Sühring
ESTADÍSTICA DESCRIPTIVA
ESTADÍSTICA
La Estadística es una ciencia que proporciona un conjunto de métodos que se
utilizan para recolectar, resumir, clasificar, analizar e interpretar el comportamiento de los
datos referidos a una característica motivo de estudio a fin de describir en forma
apropiada las diversas características de estos datos. Se encarga, por un lado, de obtener
información y describirla, y por otro lado, de usar esta información a fin de predecir “algo”
respecto a la fuente de información o realizar una toma de decisión frente a la
incertidumbre.
Por eso el campo de la estadística está dividido en dos grandes áreas: Estadística
Descriptiva y Estadística Inferencial
ESTADÍSTICA DESCRIPTIVA
Es el conjunto de métodos que implican la recolección, tabulación, caracterización,
presentación y análisis de un conjunto de datos a fin de describir en forma apropiada
las diversas características que presentan.
transforma datos en información
ESTADÍSTICA INFERENCIAL
Es el conjunto de métodos que permiten determinar algún aspecto de la población bajo
estudio a partir de los datos de una muestra. Posibilitan la estimación de una
característica de la población y/o la toma de decisiones con base en la información
parcial de esa población. Nos permite inferir o predecir comportamientos que atañen a
toda la fuente de información de donde provienen los datos
generalización - inferencia - predicción - toma de decisiones
El desarrollo de una investigación incluye ciertos pasos que, de manera muy resumida, y
haciendo énfasis en los aspectos estadísticos serían:
Como todas las disciplinas la Estadística tiene conceptos y símbolos propios que se deben
conocer para poder avanzar en su conocimiento. Algunos de los términos básicos se
definen a continuación.
POBLACIÓN
Es el conjunto de todos los individuos que comparten una característica en común que es
la que se quiere estudiar. Los individuos pueden ser personas, plantas, animales, pero
también pueden ser objetos u observaciones (un litro de agua de río, un fruto, una parcela
de terreno, una porción de tiempo, una colonia de bacterias, etc.)
La población puede ser real o virtual, por eso se la denomina “población de referencia” o
“población estadística”. No es lo mismo que una población biológica.
Una población es real cuando los elementos que la componen tienen existencia, son
concretos y comprobables. Por ejemplo, los estudiantes de la UNSa, los ratones de una
especie que habitan en el Valle de Lerma, las plantas de tabaco en una finca.
Una población es virtual cuando el número de sus elementos es hipotético y no es posible
su comprobación. Por ejemplo, si las observaciones se refieren al rendimiento que
presentan 40 parcelas (muestra) de una nueva variedad de arroz ubicadas en la provincia
de Salta, la población de referencia se refiere al rendimiento que tendrían todas las
parcelas de ese cultivo en esa provincia que en este momento no tienen existencia real,
sino hipotética o potencial.
Población finita es aquella que tiene un número limitado de elementos y puede ser
físicamente listada. Su tamaño se denota por “N”.
Población infinita es aquella que, en la práctica, no puede ser físicamente listada, es decir
no tiene un tamaño definido o no puede conocerse el tamaño.
MUESTRA
Es una parte o subconjunto de elementos de la población que se seleccionan de manera
deliberada para investigar las propiedades de la población de referencia. Su tamaño se
denota por “n”. El proceso de obtener una muestra se denomina “muestreo”. La selección
y el estudio de una muestra tienen por objeto la extracción de conclusiones que sean
válidas para la población de la cual se obtuvo esa muestra, es decir, a través de la muestra
evaluamos a toda la población.
Ejemplo EDAD
El objetivo de mi investigación es conocer la edad promedio de los estudiantes que
cursaron Cálculo Estadístico en 2019. La población de referencia es finita y está compuesta
por todos los alumnos que se inscribieron en la materia en ese año, la unidad estadística
es cada alumno. La característica de interés es la edad (variable). Los datos podrían ser:
19, 18, 20, 19, 23, …,etc.
RECOLECCIÓN DE INFORMACIÓN
La recolección correcta de la información es de fundamental importancia en el proceso de
investigación. Los datos obtenidos deben ser pertinentes, válidos y confiables, es decir
que deben responder a los objetivos planteados y se debe tener cierta seguridad respecto
de la veracidad de los mismos. Por ello se deben planificar los métodos y/o
procedimientos para la obtención de los datos.
Los datos deben registrarse con exactitud y precisión. La exactitud se refiere a la cercanía
del dato medido respecto de su verdadero valor. La precisión se refiere a la cercanía o
semejanza entre los valores de las mediciones repetidas sobre el mismo individuo o
unidad de observación.
El símbolo para representar una variable cualquiera es una letra mayúscula, generalmente
se utilizan X, Y o Z. Los valores que asume la variable se simbolizan con la misma letra,
pero minúscula, con un subíndice.
xi: es el símbolo que se usa para indicar algún valor de la variable X
Ejemplo EDAD: X : edad de los alumnos de Estadística
x1 = 20 años, x2 = 19 años x3 = 21 años, etc.
Variables cualitativas
Son aquellas que expresan una cualidad en las que los valores corresponden a categorías,
clases o modalidades. Según tenga o no sentido ordenar las distintas categorías de la una
variable cualitativa, ésta puede clasificarse en:
Variable cualitativa nominal: las diferentes modalidades o categorías de la variable no
tienen un orden implícito ni lógico. Ejemplos el sexo (con las modalidades masculino y
femenino), color de pelaje (con los valores negro, pardo, blanco, etc.), carrera que
estudian los alumnos de la Facultad de Ciencias Naturales (IA, IRNyMA, LCB, PCB, LG).
Cuando una variable cualitativa sólo se presenta en dos categorías también se la
denomina binaria o dicotómica. Por ejemplo, la variable presencia de tricomas que
tiene dos modalidades: presente y ausente.
Variable cualitativa ordinal: las diferentes modalidades pueden ordenarse y se
pueden establecer relaciones comparativas entre ellas. Ejemplos: grado de infestación
de las plantas de un cultivo (alto, mediano y bajo), estadío reproductivo (neonato,
juvenil y adulto).
Variables cuantitativas
Son aquellas que corresponden a una característica cuantificable o medible (se puede
establecer en qué cantidad se posee una característica) y por lo tanto se expresan por un
número.
Según los posibles valores que pueda tomar este tipo de variable, se las clasifica a su vez
en:
Variables cuantitativas discretas son las que surgen por el procedimiento de conteo y
por lo tanto toman valores enteros. Ejemplos: número de hormigueros por parcela, nº
MATRIZ DE DATOS
Los datos que se han registrado se ordenan en una matriz de datos, en la que
generalmente se dispone a cada UE o caso en una final y a cada variable en una columna.
Por lo tanto, esta matriz tendrá n filas, donde n es el tamaño de la muestra. Podría
incluirse una columna que contenga información que permita identificar a qué UE
corresponde esa fila. Por ejemplo, una matriz con datos referidos a los estudiantes de una
materia podría ser:
TABLAS DE FRECUENCIAS
Una forma útil de resumir grandes conjuntos de datos y presentarlos en forma de cuadros
estadísticos es la tabla de distribución de frecuencias. Es una tabla de resumen que en una
columna agrupa a los valores de la variable en categorías o clases, y en otra columna
indica el número o proporción de unidades que se clasifican dentro de cada una de esas
40
35
30
25
Agronomía
20 Biología
15 Recursos
10
5
0
Agronomía Biología Recursos
70 100%
60 80%
50 A R
40 60%
B B
30 40%
20 R A
10 20%
0 0%
2003 2004 2003 2004
Aunque no es tan fácil de construir, el gráfico de caja brinda mucha información, ya que
en el gráfico se puede “leer”:
− medidas de posición de los datos: mediana y cuartiles, mínimo y máximo
− dispersión de los datos centrales y adyacentes (longitud relativa de la caja y los
bigotes)
− simetría de los datos centrales (forma de la caja)
− simetría de adyacentes (longitud comparativa de las patillas)
− presencia de valores alejados y extremos (asteriscos y
círculos) 91
Para representar datos bivariados (registro de dos variables cuantitativas realizadas sobre
cada unidad estadística), se suele utilizar el diagrama de dispersión.
Diagrama de dispersión
En este gráfico se representan pares ordenados de datos que corresponden al registro de
dos variables medidas sobre la misma unidad experimental. Cada variable se representa
en uno de los ejes de coordenadas. Permite evaluar gráficamente si las variables están
relacionadas y de qué manera.
Ejemplo: Los datos corresponden a la longitud y el peso de truchas arco iris capturadas en
un río de la Puna Salteña. Observando el gráfico se puede deducir que existe una relación
directa entre las variables (si aumenta la longitud aumenta el peso de las truchas).
Longitud (cm) Peso (g) 150
12 28
14 37
peso (g)
100
15 44
16 61 50
16 48
17 54 0
18 67 0 5 10 15 20 25
21 123
longitud (cm)
22 107
Media
DE TENDENCIA
Mediana
CENTRAL
Moda
DE POSICIÓN Cuartiles
Quintiles
DE ORDEN
Deciles
MEDIDAS Percentiles
DESCRIPTIVAS Rango o recorrido
Varianza
DE DISPERSIÓN Desviación Típica
Rango intercuartil
Coeficiente de variación
Asimetría
DE FORMA
Curtosis
Las medidas de posición indican las posiciones relativas que tienen los valores de la
variable en la distribución. Incluyen a las medidas de tendencia central y a las medidas de
orden. Expresan: dónde se ubican los datos, dónde tienden a concentrarse los datos, cuál
es la posición relativa entre ellos.
Las medidas de dispersión miden la cantidad de variabilidad o dispersión de los datos.
Expresan que tan parecidos o qué tan diferentes son los datos entre sí.
Las medidas de forma miden la deformación horizontal y vertical de la curva de la
distribución, es decir, indican qué forma tiene la distribución.
MEDIDAS DE POSICIÓN
Medidas de Tendencia Central
Indican el valor central hacia el cual tienden a agruparse o concentrarse los datos. Su valor
se puede utilizar como representante de todos los datos de una distribución.
MEDIA ARITMÉTICA
Es lo que conocemos como promedio. Se denota x con cuando se refiere a la muestra y
con cuando se refiere a la población.
La fórmula de cálculo para un conjunto de datos es:
Dados los datos x1, x2, x3, ..., xn la media aritmética se calcula:
n
x i
X = i =1
n
A partir de una tabla de frecuencias, donde a los valores x1, x2, x3, ..., xk le corresponden
las frecuencias f1, f2, f3, ..., fk , la media puede calcularse como:
k
x
i =1
i fi
X =
n
Si cada clase de la tabla de frecuencias corresponde a un intervalo de valores, en la
fórmula anterior se reemplaza xi con la marca de clase de cada categoría.
Propiedades de la media
I- La suma de las desviaciones en torno a la media es cero.
n
(x
i =1
i − x) = 0
(x
i =1
i − x ) 2 = minimo
V- Si se reemplazan todos los valores de la variable por el valor de la media, la suma del
total de ellas (es decir n veces x ) sería igual a la suma de los valores de la distribución
original.
VI- Si la variable Y resulta de sumar una constante c a cada valor de la variable X, la media
de Y es igual a la suma de la media de la variable X más la constante.
y = c+ x
VII- Si la variable Y resulta de multiplicar por una constante c a cada valor de la variable X,
la media de Y es igual a la media de la variable por la constante.
Y = c. x
MEDIANA (Me)
Es el valor de la variable que ocupa la posición intermedia cuando los datos están
ordenados. El valor de la mediana divide al conjunto de datos en dos partes iguales, es
decir, que contienen la misma cantidad de datos. La mitad de los valores es menor que la
mediana, y la otra mitad es mayor. Corresponde al cuantil que acumula el 50% de la
distribución.
Propiedad
La suma de las desviaciones de cada valor de la variable respecto de la mediana es un
mínimo.
RELACIÓN ENTRE x , Me y Mo
Si la distribución es simétrica la x , la Me y el Mo coinciden. Si la distribución es asimétrica
no coinciden, la media se aleja de la mediana hacia el extremo alargado de la distribución.
Si la distribución es moderadamente asimétrica y unimodal se cumple aproximadamente
la relación ( x - Mo) 3 ( x - Me), en ese caso si la distribución es asimétrica positiva la Mo
< Me < x y si es asimétrica negativa la x < Me < Mo.
Cuando la distribución es asimétrica, la media no resulta una medida representativa para
la mayoría de los datos, ya que esos datos no están concentrados alrededor del valor de la
media, sino que están concentrados alrededor de la mediana.
Mo Me x
x
Me
Mo
x Me Mo
CUARTILES (Qi)
Los cuartiles son tres y se denominan Q1, Q2 y Q3. El Q1 es el cuantil que acumula el 25%
de las observaciones, es decir que es el valor que deja el 25% de los datos por debajo. El
Q2 es el cuantil que acumula el 50% de los datos y coincide con la mediana. El Q3 es el
cuantil que acumula el 75% de los datos, es decir que es el valor que deja el 75% de los
datos por debajo. Otra manera de expresarlo es: el 75% de los valores de la distribución
son menores que el valor del Q3.
Para calcular la posición que ocupan los cuartiles se calcula:
Posición del Q1 : (1/4) n y Posición del Q3: (3 /4) n
2. MEDIDAS DE DISPERSIÓN
Indican la variación o dispersión de los datos, es decir, qué tanto se diferencian los datos
entre sí. Existen muchas medidas, pero estudiaremos las más utilizadas que son: rango,
varianza, desviación típica, desviación intercuartil y coeficiente de variación. En todos los
casos a mayor valor de la medida mayor dispersión de los datos, es decir, los datos son
más diferentes entre sí.
RANGO (R)
Indica el recorrido o la distancia que existe entre los valores de la variable de un extremo a
otro: R = Xmáx - Xmín
Es una medida muy poco informativa.
Ventajas y desventajas
☺ Es una medida de dispersión muy fácil de calcular y de interpretar.
Es poco precisa, ya que en su cálculo intervienen sólo dos valores, y depende
mucho del tamaño de la muestra.
Es una medida pobre ya que no indica como están dispersos los datos dentro de
ese recorrido.
Sólo se utilizan los valores extremos de la distribución para calcularlo, por lo que
está fuertemente afectado por estos valores.
☺ Tiene la misma unidad de medida que la variable.
(x i − x)2 ( ~x − x) . f
i
2
i
S =
2 i =1
S =
2 i =1
, donde n = fi
n−1 n −1
Propiedades de la varianza
I- La varianza de una constante es cero. V(c) = 0
III- La varianza de una variable X más o menos una constante (c) es igual a la varianza de la
variable.
V(c X) = V(X)
IV- La varianza de una constante (c) por una variable es igual a la constante al cuadrado
por la varianza de la variable.
V(c . X) = c2 .V(X)
Se calcula como: S= S2
Tiene como ventaja que se expresa en la misma unidad de medida que la variable y por
eso es más fácil de interpretar.
Es una buena medida de la variación absoluta de los datos, indica qué tan lejos se
encuentran los datos, ya sea que estén por encima o por debajo, del valor de la media.
Ejemplo: Para una muestra de elefantes el peso promedio es de 7500 kg con una desviación
estándar de 500 kg. Para una muestra de ratones el peso promedio es de 30g con una desviación
estándar de 5 g. Podré suponer (erróneamente) que el peso de los elefantes tienen mayor
variabilidad que el peso de los ratones ya que su desviación estándar es mayor. Sin embargo, si se
calcula el CV de cada muestra se verá que la variabilidad del peso de los elefantes es de 6,7% y que
la del peso de los ratones de 16,67%. Por lo tanto, la variación en el peso de los ratones es mayor
que la de los pesos de los elefantes. Dicho de otro modo, los ratones tienen pesos más diferentes
entre sí, sus pesos cambian más de un ratón a otro. Los elefantes, por otro lado, tienen poca
variación entre sus pesos, son más homogéneos, es decir, son más parecidos entre sí.
3. MEDIDAS DE FORMA
Nos dan una idea de la forma de la distribución. Miden el grado de deformación que tiene
la distribución en estudio con respecto a la distribución de probabilidad normal (que es
simétrica y mesocúrtica).
Otro coeficiente de asimetría más confiable es g1 (es el que aparece en la mayoría de los
programas estadísticos). De acuerdo a su valor decimos que si g1 = 0, la distribución es
simétrica; si g1 0 la distribución es asimétrica positiva y si g1 0, la distribución es
asimétrica negativa
CURTOSIS (K)
La curtosis mide el grado de deformación vertical de la curva de distribución, es decir el
grado de apuntamiento. Indica la mayor o menor altura del valor máximo central, con
respecto a una curva de distribución normal cuya media y desviación típica son iguales a
las de la distribución estudiada.
(Q − Q1 ) / 2
Puede calcularse con el coeficiente de curtosis de Pearson: K= 3
P90 − P10
Este coeficiente puede tomar los valores: 0 < k < 0,5
Si K = 0,25 la curva es mesocúrtica
Si K > 0,25 la curva es platicúrtica
Si K < 0,25 la curva es leptocúrtica
Otro coeficiente de kurtosis más confiable es g2 (es el que aparece en la mayoría de los
paquetes estadísticos, por ejemplo InfoStat). De acuerdo a su valor decimos que si g2 = 0,
la distribución es mesocúrtica; si g2 0 la distribución es leptocúrtica y si g2 0, la
distribución es platicúrtica
Es por eso que es necesario resumir la información para presentarla de una manera que
sea fácil de “leer”. Los datos cualitativos se pueden resumir usando tablas estadísticas o
gráficos.
Tablas de frecuencia simples
Podemos resumir los datos de cada variable por separado, indicando la frecuencia
absoluta o la frecuencia relativa:
También podemos resumir los datos correspondientes a ambas variables en una única
tabla, que se denomina tabla de contingencia. Una de las variables se representa en las
filas, habrá una fila por cada categoría de esa variable, y la otra variable se representa
en las columnas. El resumen se puede expresar como frecuencias absolutas o relativas.
35
30
25
20
Rayado
15
Negro
Blanco 10
0
forma
Ejemplo de aplicación 2
Para presentar los datos de manera más clara se construye la tabla de distribución de
frecuencias. Como la variable toma pocos valores y es discreta, en este caso podemos
establecer una categoría para cada valor de la variable (de 0 a 11):
Media aritmética
x = [0+0+…+1+1+…+2+2+…+8+8+9+10]/60 = 3,82 ejemplares/parcela
Mediana
1° Ordenamos los datos de menor a mayor.
2° Como n es par, calculamos la posición de la mediana como ½ n: ½ 60 = 30
3° Buscamos el valor de la variable que ocupa esa posición y lo promediamos con el
siguiente: Me = (3 + 4)/2 = 3,5 ejemplares/parcela
Cuartiles y Percentiles
Procedemos igual que con la mediana, sólo cambia la posición de las medidas.
Posición de Q1: ¼ n = 15 Posición de Q3: ¾ n = 45
Posición de P10: 10/100 n = 6 Posición de P90: 90/100 n = 54
Si usamos la serie simple buscamos los valores que ocupan cada una de esas
posiciones.
Q1= 2 ejemplares/parcela; Q3 = 5 ejemplares/parcela; P10 = 1 ejemplares/parcela; P90 =
7 ejemplares/parcela
S2 = (0 - 3,82)2 .3+(1 - 3,82)2 .5+(2 - 3,82)2 .9+…+(11 - 3,82)2 .1 /59
= 5,14 (ejemplares/parcela) 2
(3.82 − 3.5).3
Asimetría: As = = 0.42 el valor indica que la distribución es casi simétrica
2.27
(5 − 2) / 2
Curtosis: K= = 0.25 indica que la distribución es mesocúrtica
7 −1
Las medidas de resumen se pueden presentar en una Tabla
Tamaño de la muestra n 60
Mínimo Xmín 0
Máximo Xmáx 11
Rango R 11
Media x 3.82
Mediana Me 3.50
Moda Mo 4
Varianza S2 5.14
Desviación típica S 2.27
Asimetría (Pearson) As 0.42
Asimetría g1 0.73
Curtosis (Pearson) K 0.25
Curtosis g2 0.76
Suma de valores XI 229
Coeficiente de variación CV 59.4
Como la distribución es casi simétrica sería suficiente con calcular la media, desviación
típica, asimetría y curtosis para describirla completamente.
Los gráficos para representar estos datos podrían ser:
Gráfico de barras Diagrama de caja de Tukey o Boxplot
12
14
12
9
nº de ejemplares
10
8 6
4 2
0 -1
0 1 2 3 4 5 6 7 8 9 10 11
Podemos, al igual que en los otros ejemplos, organizar los datos en una distribución de
frecuencias. En este caso la variable toma muchos valores diferentes, además existen
infinitos valores posibles entre ellos. Es por eso que cada categoría de la variable
corresponderá a un rango de valores. Debemos determinar esos rangos = intervalos de
clase, teniendo en cuenta que deben ser contiguos y mutuamente excluyentes.
En este caso se establecen 10 intervalos de calse, con una amplitud de 50 cm cada uno.
Al construir las categorías no es necesario que la primera clase comience con el
mínimo valor de X (en este ejemplo 90); podemos simplificar comenzando con el valor
50.
xi LI LS ~
xi fi ri Fi Ri Ubicación de
medidas de orden
[50,00 100,00] 75 2 0,03 2 0,03
(100,00 150,00] 125 5 0,07 7 0,09
(150,00 200,00] 175 8 0,11 15 0,20 P10
(200,00 250,00] 225 19 0,25 34 0,45 Q1
(250,00 300,00] 275 8 0,11 42 0,55 Me
(300,00 350,00] 325 11 0,14 53 0,70
(350,00 400,00] 375 18 0,24 71 0,93 Q3 y P90
(400,00 450,00] 425 3 0,04 74 0,97
(450,00 500,00] 475 1 0,01 75 0,99
(500,00 550,00] 525 1 0,01 76 1,00
76 1
Media:
x = (90 + 100 + 105 + 116 + . . . + 454 + 509)/76 = 278,62 cm
Mediana:
Es el valor de la variable que ocupa la posición (1/2 76) = 38 promediado con el
siguiente para los datos ordenados: Me = (264 + 272)/2 = 268 cm
Interpretación: el 50% de los cardones miden menos de 268 cm
Moda: El valor que se repite más veces, en este ejemplo hay un valor que se repite 3
veces, Mo = 210 cm.
Cuartiles: ubicamos la posición de cada cuartil para ver a que valor corresponde:
Varianza:
S 2 = (90 − 278,62) 2 + (100 − 278,62) 2 + (105 − 278,62) 2 + ... + (454 − 278,62) 2 + (509 − 278,62) 2 / 75
= 9227,25 cm 2
As =
(278,62 − 268) * 3 = 0,33
96,06
K=
(362 − 208) / 2 = 0,32
(388 − 151)
Interpretación: de acuerdo al valor de K esta distribución es platicúrtica.
medida valor
Media 278,62 cm
D.E. 96,06 cm
Var(n-1) 9227,25 cm2
CV 34,48
Mín 90 cm
Máx 509 cm
Mediana 268 cm
Q1 208 cm
Q3 366 cm
Asimetría (g1) 0,02
Kurtosis (g2) -0,85
P(10) 151 cm
P(90) 390 cm
0,24
0,24
0,18
0,18
frecuencia relativa
frecuencia relativa
0,12 0,12
0,06 0,06
0,00 0,00
25 75 125 175 225 275 325 375 425 475 525 575 25 75 125 175 225 275 325 375 425 475 525 575
altura altura
88,20
530
66,15 437
frec. abs. acumulada
344
44,10
altura
251
22,05
158
0,00
25 75 125 175 225 275 325 375 425 475 525 575
65
altura