0% encontró este documento útil (0 votos)
24 vistas25 páginas

Introducción a la Estadística Descriptiva

Cargado por

andrealamas180
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
24 vistas25 páginas

Introducción a la Estadística Descriptiva

Cargado por

andrealamas180
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Facultad de Ciencias Naturales, UNSa

Área de Estadística
Material de apoyo didáctico elaborado por Silvia Sühring

ESTADÍSTICA DESCRIPTIVA

ESTADÍSTICA
La Estadística es una ciencia que proporciona un conjunto de métodos que se
utilizan para recolectar, resumir, clasificar, analizar e interpretar el comportamiento de los
datos referidos a una característica motivo de estudio a fin de describir en forma
apropiada las diversas características de estos datos. Se encarga, por un lado, de obtener
información y describirla, y por otro lado, de usar esta información a fin de predecir “algo”
respecto a la fuente de información o realizar una toma de decisión frente a la
incertidumbre.

Por eso el campo de la estadística está dividido en dos grandes áreas: Estadística
Descriptiva y Estadística Inferencial

ESTADÍSTICA DESCRIPTIVA
Es el conjunto de métodos que implican la recolección, tabulación, caracterización,
presentación y análisis de un conjunto de datos a fin de describir en forma apropiada
las diversas características que presentan.
 transforma datos en información

ESTADÍSTICA INFERENCIAL
Es el conjunto de métodos que permiten determinar algún aspecto de la población bajo
estudio a partir de los datos de una muestra. Posibilitan la estimación de una
característica de la población y/o la toma de decisiones con base en la información
parcial de esa población. Nos permite inferir o predecir comportamientos que atañen a
toda la fuente de información de donde provienen los datos
 generalización - inferencia - predicción - toma de decisiones

La Estadística es aplicable en todas las ciencias en las que se recopilan, analizan e


interpretan datos. La esencia de la Estadística consiste en el desarrollo y uso de modelos
de pensamiento que nos dirigen hacia la comprensión del mundo real y la predicción del
futuro. La base de la estadística es la filosofía del conocimiento imperfecto. Es una
herramienta para la investigación en cualquier campo, ya que brinda la metodología para
realizar correctamente muchos de sus pasos para generar nuevo conocimiento.

El desarrollo de una investigación incluye ciertos pasos que, de manera muy resumida, y
haciendo énfasis en los aspectos estadísticos serían:

Estadística descriptiva - 2021 1


 Definir el objetivo del estudio y las correspondientes hipótesis de trabajo.
 Definir cuál es la población objeto de estudio y cuál/les serán las características
(variables) de los individuos de esa población que se van a analizar teniendo en cuenta
el objetivo planteado.
 Recolectar la información pertinente, es decir, obtener los datos.
 Organizar, clasificar, resumir, interpretar los datos.
 Evaluar las hipótesis utilizando algún análisis estadístico.
 Extraer las conclusiones dando respuesta al objetivo planteado.

Como todas las disciplinas la Estadística tiene conceptos y símbolos propios que se deben
conocer para poder avanzar en su conocimiento. Algunos de los términos básicos se
definen a continuación.

POBLACIÓN
Es el conjunto de todos los individuos que comparten una característica en común que es
la que se quiere estudiar. Los individuos pueden ser personas, plantas, animales, pero
también pueden ser objetos u observaciones (un litro de agua de río, un fruto, una parcela
de terreno, una porción de tiempo, una colonia de bacterias, etc.)
La población puede ser real o virtual, por eso se la denomina “población de referencia” o
“población estadística”. No es lo mismo que una población biológica.
Una población es real cuando los elementos que la componen tienen existencia, son
concretos y comprobables. Por ejemplo, los estudiantes de la UNSa, los ratones de una
especie que habitan en el Valle de Lerma, las plantas de tabaco en una finca.
Una población es virtual cuando el número de sus elementos es hipotético y no es posible
su comprobación. Por ejemplo, si las observaciones se refieren al rendimiento que
presentan 40 parcelas (muestra) de una nueva variedad de arroz ubicadas en la provincia
de Salta, la población de referencia se refiere al rendimiento que tendrían todas las
parcelas de ese cultivo en esa provincia que en este momento no tienen existencia real,
sino hipotética o potencial.
Población finita es aquella que tiene un número limitado de elementos y puede ser
físicamente listada. Su tamaño se denota por “N”.
Población infinita es aquella que, en la práctica, no puede ser físicamente listada, es decir
no tiene un tamaño definido o no puede conocerse el tamaño.

MUESTRA
Es una parte o subconjunto de elementos de la población que se seleccionan de manera
deliberada para investigar las propiedades de la población de referencia. Su tamaño se
denota por “n”. El proceso de obtener una muestra se denomina “muestreo”. La selección
y el estudio de una muestra tienen por objeto la extracción de conclusiones que sean
válidas para la población de la cual se obtuvo esa muestra, es decir, a través de la muestra
evaluamos a toda la población.

Estadística descriptiva - 2021 2


DATO
En el proceso de observación para cada unidad estadística se registra alguna
característica, el valor particular que toma esta característica constituye un dato. Cada
dato corresponde entonces al valor de la variable que tiene cada unidad estadística.

UNIDAD ESTADÍSTICA (UE)


Es el elemento u objeto indivisible de la población, que será analizado.
Se refiere a qué o quién es analizado, a quien se le mide o registra el valor de la variable.
También se puede denominar Unidad de Muestreo, Unidad Experimental, Unidad de
Observación o Caso, dependiendo del tipo de estudio que se esté realizando.
Ejemplos: una persona, una parcela de cultivo, un grupo de animales, un ml de sangre,
un mes del año, un conjunto de semillas, un fruto, etc.

Ejemplo EDAD
El objetivo de mi investigación es conocer la edad promedio de los estudiantes que
cursaron Cálculo Estadístico en 2019. La población de referencia es finita y está compuesta
por todos los alumnos que se inscribieron en la materia en ese año, la unidad estadística
es cada alumno. La característica de interés es la edad (variable). Los datos podrían ser:
19, 18, 20, 19, 23, …,etc.

RECOLECCIÓN DE INFORMACIÓN
La recolección correcta de la información es de fundamental importancia en el proceso de
investigación. Los datos obtenidos deben ser pertinentes, válidos y confiables, es decir
que deben responder a los objetivos planteados y se debe tener cierta seguridad respecto
de la veracidad de los mismos. Por ello se deben planificar los métodos y/o
procedimientos para la obtención de los datos.

Los datos pueden obtenerse por diferentes métodos o de diferentes fuentes.


 encuestas
 observación
 experimentación
 bases de datos, es decir, registros de entidades públicas o privadas (por ejemplo,
de la Dirección Provincial de Estadísticas y Censos, del Dpto. de Alumnos de la
Fac. de Cs. Naturales, el Ministerio de Salud, etc.)

Los datos deben registrarse con exactitud y precisión. La exactitud se refiere a la cercanía
del dato medido respecto de su verdadero valor. La precisión se refiere a la cercanía o
semejanza entre los valores de las mediciones repetidas sobre el mismo individuo o
unidad de observación.

Estadística descriptiva - 2021 3


VARIABLE
Es una característica que está presente en todos las UE y que varía de un elemento a otro
tanto en la población como en la muestra.

El símbolo para representar una variable cualquiera es una letra mayúscula, generalmente
se utilizan X, Y o Z. Los valores que asume la variable se simbolizan con la misma letra,
pero minúscula, con un subíndice.
xi: es el símbolo que se usa para indicar algún valor de la variable X
 Ejemplo EDAD: X : edad de los alumnos de Estadística
x1 = 20 años, x2 = 19 años x3 = 21 años, etc.

CLASIFICACIÓN DE LAS VARIABLES


Las variables pueden clasificarse según su naturaleza y su escala de medición. Esta
clasificación es importante ya que determina la manera en que pueden resumirse los
valores obtenidos y el tipo de análisis estadístico que puede aplicarse.

CUALITATIVAS O NOMINALES DISCRETAS


CUANTITATIVAS
CATEGÓRICAS ORDINALES CONTINUAS

Variables cualitativas
Son aquellas que expresan una cualidad en las que los valores corresponden a categorías,
clases o modalidades. Según tenga o no sentido ordenar las distintas categorías de la una
variable cualitativa, ésta puede clasificarse en:
Variable cualitativa nominal: las diferentes modalidades o categorías de la variable no
tienen un orden implícito ni lógico. Ejemplos el sexo (con las modalidades masculino y
femenino), color de pelaje (con los valores negro, pardo, blanco, etc.), carrera que
estudian los alumnos de la Facultad de Ciencias Naturales (IA, IRNyMA, LCB, PCB, LG).
Cuando una variable cualitativa sólo se presenta en dos categorías también se la
denomina binaria o dicotómica. Por ejemplo, la variable presencia de tricomas que
tiene dos modalidades: presente y ausente.
Variable cualitativa ordinal: las diferentes modalidades pueden ordenarse y se
pueden establecer relaciones comparativas entre ellas. Ejemplos: grado de infestación
de las plantas de un cultivo (alto, mediano y bajo), estadío reproductivo (neonato,
juvenil y adulto).
Variables cuantitativas
Son aquellas que corresponden a una característica cuantificable o medible (se puede
establecer en qué cantidad se posee una característica) y por lo tanto se expresan por un
número.
Según los posibles valores que pueda tomar este tipo de variable, se las clasifica a su vez
en:
Variables cuantitativas discretas son las que surgen por el procedimiento de conteo y
por lo tanto toman valores enteros. Ejemplos: número de hormigueros por parcela, nº

Estadística descriptiva - 2021 4


de crías de ratones por camada, nº de peces atrapados por red, nº de semillas por
fruto, etc.
Variables cuantitativas continuas son las que surgen cuando se mide alguna
característica, pueden teóricamente tomar cualquier valor real dentro de un intervalo
dado, más allá de los valores que permita registrar el instrumento de medición.
Ejemplos: peso de vacas de un año, altura de plantas de tabaco, porcentaje de frutos
afectados por árbol, concentración de cierto contaminante en el agua, temperatura
en la ciudad de Salta, etc.

MATRIZ DE DATOS
Los datos que se han registrado se ordenan en una matriz de datos, en la que
generalmente se dispone a cada UE o caso en una final y a cada variable en una columna.
Por lo tanto, esta matriz tendrá n filas, donde n es el tamaño de la muestra. Podría
incluirse una columna que contenga información que permita identificar a qué UE
corresponde esa fila. Por ejemplo, una matriz con datos referidos a los estudiantes de una
materia podría ser:

Caso Identificador Sexo Altura …


1 Sofía femenino 1.61
2 Pedro masculino 1.76
3 Ramiro masculino 1.68

n

RESUMEN DE LOS DATOS


Antes de resumir o analizar los datos se deben revisar y corregir, ya que no se pueden
obtener respuestas adecuadas a un problema si el análisis estadístico se basa en
información incorrecta.
Generalmente los datos obtenidos con cualquiera de los métodos enumerados
anteriormente, no se pueden analizar e interpretar en la forma misma en que se recogen.
Para facilitar el análisis debemos organizarlos convenientemente. Una primera
aproximación consiste en ordenar los datos de menor a mayor (si son numéricos), o
agruparlos por sus valores (si son categóricos), aunque esto no resulta práctico para
grandes volúmenes de datos.
La Estadística descriptiva propone básicamente tres maneras de resumir datos: las tablas
estadísticas, los gráficos y las medidas de resumen. Cada una presenta la información de
manera diferente, más fácil de captar o más detallada, y pueden complementarse, pero lo
que “dice” un gráfico o una tabla siempre coincide con lo que expresa una medida
descriptiva.

TABLAS DE FRECUENCIAS
Una forma útil de resumir grandes conjuntos de datos y presentarlos en forma de cuadros
estadísticos es la tabla de distribución de frecuencias. Es una tabla de resumen que en una
columna agrupa a los valores de la variable en categorías o clases, y en otra columna
indica el número o proporción de unidades que se clasifican dentro de cada una de esas

Estadística descriptiva - 2021 5


categorías. Las categorías de la variable deben ser mutuamente excluyentes (no
solapadas), para que cada valor pueda ser asignado a una y solo una clase.
En muchos casos cada categoría corresponde a un único valor posible de la variable.
Ejemplo: Valor Frecuencia
(Número de UE)
Negro 25
Blanco 42

Las categorías que incluyen más de un valor de la variable numérica se denominan


intervalos de clase y tienen las siguientes características:
- están identificados por su límite inferior y superior, estos límites son los que
especifican qué valores de la variable se incluirán en él,
- son contiguos, por lo que incluyen a todos los valores posibles,
- no es solapan, de modo que un valor de la variable puede asignarse a uno y sólo
un intervalo de clase.
- generalmente tienen la misma amplitud.

clase Xi (valor posible Frecuencia Clase Xi Frecuencia


de la variable) (Número (Porcentaje de UE)
de UE)
1 [2, 4) 5 1 1a3 20
2 [4, 6) 11 2 4a6 50
3 [6, 8) 24 3 7a9 9
4 [8, 10) 7 4 10 a 12 31

Cuando se construye la distribución de frecuencias para variables cuantitativas primero se


debe definir el número de clases o categorías (k) que se van a considerar. Existe una regla
práctica para decidir: k = log2(n+1).
Una vez definido el número de clases, teniendo en cuenta el rango (R) de la variable, es
decir la diferencia entre los valores máximo y mínimo, se establece la amplitud de cada
R
intervalo (a): a= , donde R = X máx - X mín
k
La mayoría de los programas computacionales de Estadística construyen tablas de
frecuencias de manera automática, calculando el número óptimo de clases según la
cantidad de datos.
Para cada intervalo de clase se puede definir una marca de clase ( ~x i ), que es su punto
Linf + Lsup
medio: ~
xi =
2
Las frecuencias correspondientes a cada categoría o clase pueden ser frecuencias
absolutas o relativas.

Estadística descriptiva - 2021 6


Frecuencias absolutas (fi)
La frecuencia absoluta de la clase ‘i’ es el número de unidades que se clasifican dentro
de esta clase. La suma de los valores de fi es igual al tamaño de la muestra.  fi = n
Se calculan para distribuciones de variables de cualquier tipo.
Frecuencias relativas (ri)
La frecuencia relativa de la clase ‘i’ es la proporción de unidades que se clasifican
dentro de esta clase. Es el cociente de la frecuencia absoluta de la clase dividido el nº
total de observaciones (n). La suma de los ri es igual a 1.
ri = f i / n  ri = 1
Se calculan para distribuciones de variables de cualquier tipo. Si se multiplica ri por
100 se obtiene la frecuencia relativa expresada en porcentaje.
Además, en el caso de resumir valores de una variable cuantitativa, se pueden calcular las
frecuencias acumuladas para los sucesivos valores/clases de la variable
Frecuencias absolutas acumuladas (Fi)
La frecuencia acumulada de la clase ‘i’ es el número de observaciones menores o
iguales a los valores comprendidos en esa clase. Se calculan sólo para distribuciones
de variables cuantitativas. La frecuencia absoluta acumulada para una categoría se
obtiene sumando la frecuencia absoluta de esa categoría con las de todas las
categorías anteriores.
La Fi correspondiente a la última clase de una distribución de frecuencias siempre es
igual a n.
Frecuencias relativas acumuladas (Ri)
La frecuencia relativa acumulada resulta de dividir la frecuencia acumulada de una
clase por el nº total de observaciones: Ri = Fi / n
La Ri correspondiente a la última clase de una distribución de frecuencias siempre es
igual a 1.

La interpretación de cada uno de estos tipos de frecuencias está en los ejemplos de


aplicación que se presentan más adelante.

REPRESENTACIÓN GRÁFICA DE LOS DATOS


Los gráficos proveen un resumen visual de los datos. Existen muchos tipos de gráficos.
Para poder construir los gráficos generalmente es necesario que primero se organicen los
datos en tablas de frecuencias.
Los datos univariados (se registró una sola variable para cada unidad estadística), se
suelen representar mediante un gráfico de torta o de barras si corresponden a variables
categóricas; mediante un gráfico de barras si corresponden a variables cuantitativas
discretas, y mediante un histograma o un polígono de frecuencias si corresponden a
variables cuantitativas continuas. El gráfico de caja puede representar datos de variables
cuantitativas discretas o continuas.

Estadística descriptiva - 2021 7


45

40
35

30
25
Agronomía
20 Biología
15 Recursos
10
5

0
Agronomía Biología Recursos

Gráficos de barras Gráfico de sectores o de torta

70 100%
60 80%
50 A R
40 60%
B B
30 40%
20 R A
10 20%
0 0%
2003 2004 2003 2004

Gráfico de barras paralelas o dobles Gráfico de barras compuestas proporcionales

Histograma Polígono de frec. absolutas Histograma y Polígono de frec. acumuladas

Gráfico de caja (boxplot)


En este gráfico se muestra la distribución de los
datos a través de algunas medidas descriptivas
(mediana, cuartiles, mínimo, máximo)
representadas por diferentes símbolos. Los datos
se categorizan en función de su ubicación relativa
en: valores centrales (los ubicados entre los
cuartiles), valores adyacentes (los que se ubican
cercanos a los centrales), valores alejados y
extremos (los que en el contexto resultan
atípicos).
La caja representa a los valores centrales y sus
límites corresponden a los cuartiles 1 y 3. La línea

Estadística descriptiva - 2021 8


que divide la caja indica el valor de la mediana. Las patillas o bigotes representan a los
valores adyacentes, por lo que se extienden hacia cada lado de la caja, su límite
corresponde al valor más extremo que se registró en esa categoría. Cada asterisco y
círculo representa a cada uno de los valores alejados y extremos, respectivamente, que se
registraron en ese conjunto de datos. InfoStat representa al valor de la media de los datos
mediante un cuadrado negro y pequeño que generalmente se ubica dentro de la caja.

Aunque no es tan fácil de construir, el gráfico de caja brinda mucha información, ya que
en el gráfico se puede “leer”:
− medidas de posición de los datos: mediana y cuartiles, mínimo y máximo
− dispersión de los datos centrales y adyacentes (longitud relativa de la caja y los
bigotes)
− simetría de los datos centrales (forma de la caja)
− simetría de adyacentes (longitud comparativa de las patillas)
− presencia de valores alejados y extremos (asteriscos y
círculos) 91

El gráfico de caja tiene como ventaja que puede utilizarse 67

para comparar la distribución una misma variable medida en


varios grupos.
PN
43

Ejemplo: gráfico de caja comparativo que representa la


distribución del número de plántulas normales para cada 20

categoría de tamaño de semilla (archivo [Link] del


InfoStat). -4
chicas medianas grandes
Tamaño

Para representar datos bivariados (registro de dos variables cuantitativas realizadas sobre
cada unidad estadística), se suele utilizar el diagrama de dispersión.
Diagrama de dispersión
En este gráfico se representan pares ordenados de datos que corresponden al registro de
dos variables medidas sobre la misma unidad experimental. Cada variable se representa
en uno de los ejes de coordenadas. Permite evaluar gráficamente si las variables están
relacionadas y de qué manera.
Ejemplo: Los datos corresponden a la longitud y el peso de truchas arco iris capturadas en
un río de la Puna Salteña. Observando el gráfico se puede deducir que existe una relación
directa entre las variables (si aumenta la longitud aumenta el peso de las truchas).
Longitud (cm) Peso (g) 150
12 28
14 37
peso (g)

100
15 44
16 61 50
16 48
17 54 0
18 67 0 5 10 15 20 25
21 123
longitud (cm)
22 107

Estadística descriptiva - 2021 9


MEDIDAS DE RESUMEN DE LOS DATOS
Además de la presentación en tablas y la representación gráfica, los datos pueden
resumirse a través de medidas que describan distintos aspectos de la distribución. Estas
medidas permitirán el análisis y la comparación de los datos. Las medidas descriptivas o
medidas de resumen se pueden obtener a partir de los datos de una muestra o los de una
población, distinguiéndose entonces:
PARÁMETRO: Es una medida de resumen que describe una característica de la
población. Se denota con la letra griega .
ESTADÍSTICO: Es una medida de resumen que describe una característica de una
muestra. También se denomina estimador o estadígrafo. Se denota con la misma letra,
pero con acento circunflejo: ˆ .

Las medidas de resumen (o medidas descriptivas) se refieren a distintas características de


la distribución y se clasifican de acuerdo a la siguiente tabla:

Media
DE TENDENCIA
Mediana
CENTRAL
Moda
DE POSICIÓN Cuartiles
Quintiles
DE ORDEN
Deciles
MEDIDAS Percentiles
DESCRIPTIVAS Rango o recorrido
Varianza
DE DISPERSIÓN Desviación Típica
Rango intercuartil
Coeficiente de variación
Asimetría
DE FORMA
Curtosis

Las medidas de posición indican las posiciones relativas que tienen los valores de la
variable en la distribución. Incluyen a las medidas de tendencia central y a las medidas de
orden. Expresan: dónde se ubican los datos, dónde tienden a concentrarse los datos, cuál
es la posición relativa entre ellos.
Las medidas de dispersión miden la cantidad de variabilidad o dispersión de los datos.
Expresan que tan parecidos o qué tan diferentes son los datos entre sí.
Las medidas de forma miden la deformación horizontal y vertical de la curva de la
distribución, es decir, indican qué forma tiene la distribución.

MEDIDAS DE POSICIÓN
Medidas de Tendencia Central
Indican el valor central hacia el cual tienden a agruparse o concentrarse los datos. Su valor
se puede utilizar como representante de todos los datos de una distribución.

Estadística descriptiva - 2021 10


Existen muchas medidas de tendencia central, pero sólo vamos a estudiar la media
aritmética, la mediana y la moda.

MEDIA ARITMÉTICA
Es lo que conocemos como promedio. Se denota x con cuando se refiere a la muestra y
con  cuando se refiere a la población.
La fórmula de cálculo para un conjunto de datos es:
Dados los datos x1, x2, x3, ..., xn la media aritmética se calcula:
n

x i
X = i =1

n
A partir de una tabla de frecuencias, donde a los valores x1, x2, x3, ..., xk le corresponden
las frecuencias f1, f2, f3, ..., fk , la media puede calcularse como:
k

x
i =1
i fi
X =
n
Si cada clase de la tabla de frecuencias corresponde a un intervalo de valores, en la
fórmula anterior se reemplaza xi con la marca de clase de cada categoría.

Propiedades de la media
I- La suma de las desviaciones en torno a la media es cero.
n

 (x
i =1
i − x) = 0

II- La suma de los cuadrados de las desviaciones respecto a la media es un mínimo.


n

 (x
i =1
i − x ) 2 = minimo

III- La unidad de la media es la misma que la de la variable.

IV- La media de una constante es la misma constante.

V- Si se reemplazan todos los valores de la variable por el valor de la media, la suma del
total de ellas (es decir n veces x ) sería igual a la suma de los valores de la distribución
original.

VI- Si la variable Y resulta de sumar una constante c a cada valor de la variable X, la media
de Y es igual a la suma de la media de la variable X más la constante.
y = c+ x

VII- Si la variable Y resulta de multiplicar por una constante c a cada valor de la variable X,
la media de Y es igual a la media de la variable por la constante.
Y = c. x

Estadística descriptiva - 2021 11


VIII- Dadas las variables X e Y, expresadas con la misma unidad de medida, la media de la
suma de las variables es igual a la media de X más la media de Y.
x+y = x+y

Ventajas y desventajas de la media


☺ Es de fácil cálculo e interpretación.
☺ Intervienen todos los datos en su cálculo, por lo tanto, tiene mucha información.
☺ Tiene manipulación algebraica (se puede calcular media de medias).
 No puede calcularse cuando hay intervalos de clase abiertos.
 Sólo puede calcularse para variables cuantitativas.
 Esta muy afectada por valores extremos de la distribución.

MEDIANA (Me)
Es el valor de la variable que ocupa la posición intermedia cuando los datos están
ordenados. El valor de la mediana divide al conjunto de datos en dos partes iguales, es
decir, que contienen la misma cantidad de datos. La mitad de los valores es menor que la
mediana, y la otra mitad es mayor. Corresponde al cuantil que acumula el 50% de la
distribución.

Cálculo para datos crudos:


Primero se ordenan los datos de menor a mayor.
Cuando n es impar se ubica la posición de la mediana como (n+1)/2, correspondiendo el
valor presente en esa posición a la mediana.
Cuando n es par se ubica la posición como n/2, correspondiendo la mediana al promedio
del valor que ocupa esa posición con el valor siguiente.

Propiedad
La suma de las desviaciones de cada valor de la variable respecto de la mediana es un
mínimo.

Ventajas y desventajas de la mediana


☺ Es de fácil interpretación
☺ No se ve afectada por valores atípicos o extremos.
☺ Puede calcularse aún cuando hay intervalos abiertos en la distribución, a menos
que la mediana caiga en ese intervalo.
☺ Se puede encontrar la mediana para datos cualitativos ordinales.
 No posee manipulación algebraica.
 No intervienen todos los datos en su cálculo, por lo que contiene poca
información.
 Se deben ordenar los datos para poder calcularla, resultando una tarea engorrosa
si n es grande.

Estadística descriptiva - 2021 12


MODA (Mo)
Es el valor más frecuente de la variable, es decir, el que se repite más veces.
Es una medida poco informativa que se utiliza como medida diagnóstica en el análisis
exploratorio. Sólo es representativa del conjunto de datos cuando, en la distribución, la
clase que corresponde a la moda tiene una frecuencia mucho mayor que la del resto de las
clases o categorías. Pueden presentarse distribuciones sin moda, así como unimodales,
bimodales y multimodales.

Ventajas y desventajas de la moda


☺ No está afectada por valores extremos.
☺ Puede calcularse cuando hay intervalos abiertos en la distribución.
☺ Es el único indicador de tendencia central que se puede establecer para variables
categóricas.
 No es muy representativa.
 Es afectada por el agrupamiento de datos, ya que si para un mismo conjunto de datos
se establece un número diferente de categorías el valor de la moda puede cambiar.

RELACIÓN ENTRE x , Me y Mo
Si la distribución es simétrica la x , la Me y el Mo coinciden. Si la distribución es asimétrica
no coinciden, la media se aleja de la mediana hacia el extremo alargado de la distribución.
Si la distribución es moderadamente asimétrica y unimodal se cumple aproximadamente
la relación ( x - Mo)  3 ( x - Me), en ese caso si la distribución es asimétrica positiva la Mo
< Me < x y si es asimétrica negativa la x < Me < Mo.
Cuando la distribución es asimétrica, la media no resulta una medida representativa para
la mayoría de los datos, ya que esos datos no están concentrados alrededor del valor de la
media, sino que están concentrados alrededor de la mediana.

Mo Me x
x
Me
Mo

x Me Mo

1.2 Medidas de Orden o Cuantiles


Las medidas de orden sirven para dividir una serie de datos ordenada de menor a mayor
en partes iguales, es decir, cada parte contiene la misma cantidad de datos.
La mediana es el cuantil que divide a la distribución en dos partes, los cuartiles la dividen
en cuatro, los quintiles en cinco, los deciles en diez, los percentiles en cien.

Para calcular cualquier cuantil se establece cuál es su posición calculando p  n

Estadística descriptiva - 2021 13


donde p = nº de orden del cuantil buscado / nº de partes en que se divide a la distribución.
Ejemplos:
Para el percentil 46 la posición se calculará como p  n = (46/100)  n
Para el decil 7 la posición se calculará como p  n = (7/10)  n
Una vez calculada la posición se ubica es el valor que ocupa esa posición en la serie de
datos ordenada de menor a mayor, dando al cuantil ese valor.
La mediana corresponde al percentil 50 (P50), el cuartil 1 corresponde al P25 y el cuartil 3
corresponde al P75.

CUARTILES (Qi)
Los cuartiles son tres y se denominan Q1, Q2 y Q3. El Q1 es el cuantil que acumula el 25%
de las observaciones, es decir que es el valor que deja el 25% de los datos por debajo. El
Q2 es el cuantil que acumula el 50% de los datos y coincide con la mediana. El Q3 es el
cuantil que acumula el 75% de los datos, es decir que es el valor que deja el 75% de los
datos por debajo. Otra manera de expresarlo es: el 75% de los valores de la distribución
son menores que el valor del Q3.
Para calcular la posición que ocupan los cuartiles se calcula:
Posición del Q1 : (1/4)  n y Posición del Q3: (3 /4)  n

2. MEDIDAS DE DISPERSIÓN
Indican la variación o dispersión de los datos, es decir, qué tanto se diferencian los datos
entre sí. Existen muchas medidas, pero estudiaremos las más utilizadas que son: rango,
varianza, desviación típica, desviación intercuartil y coeficiente de variación. En todos los
casos a mayor valor de la medida mayor dispersión de los datos, es decir, los datos son
más diferentes entre sí.

RANGO (R)
Indica el recorrido o la distancia que existe entre los valores de la variable de un extremo a
otro: R = Xmáx - Xmín
Es una medida muy poco informativa.

Ventajas y desventajas
☺ Es una medida de dispersión muy fácil de calcular y de interpretar.
 Es poco precisa, ya que en su cálculo intervienen sólo dos valores, y depende
mucho del tamaño de la muestra.
 Es una medida pobre ya que no indica como están dispersos los datos dentro de
ese recorrido.
 Sólo se utilizan los valores extremos de la distribución para calcularlo, por lo que
está fuertemente afectado por estos valores.
☺ Tiene la misma unidad de medida que la variable.

Estadística descriptiva - 2021 14


VARIANZA
Mide el promedio de las desviaciones (distancias) de cada valor de la variable respecto de
la media, elevadas al cuadrado. Se designa por S2 cuando se refiere a la muestra y por σ2
cuando se refiere a la población.
Valores altos de varianza indican que los datos están más dispersos alrededor de la media.
 La unidad de medida de la varianza está elevada al cuadrado.
 La interpretación es difícil ya que se expresa en distancia al cuadrado.

Cálculo: para series simples para series de frecuencias con intervalos


n k

 (x i − x)2  ( ~x − x) . f
i
2
i
S =
2 i =1
S =
2 i =1
, donde n =  fi
n−1 n −1

El numerador de estas fórmulas, que corresponde a la sumatoria de los desvíos de cada


valor respecto a la media elevados al cuadrado, se denomina “suma de cuadrados”. El
denominador corresponde a los “grados de libertad”.

Propiedades de la varianza
I- La varianza de una constante es cero. V(c) = 0

II- La varianza es siempre un número no negativo. V(X) ≥ 0

III- La varianza de una variable X más o menos una constante (c) es igual a la varianza de la
variable.
V(c  X) = V(X)

IV- La varianza de una constante (c) por una variable es igual a la constante al cuadrado
por la varianza de la variable.
V(c . X) = c2 .V(X)

V- Dadas dos variables X e Y, la varianza de X más Y es igual a la varianza de X más la


varianza de Y ; si las variables X e Y son independientes
V(X+Y) = V(X) + V(Y)

DESVIACIÓN TÍPICA o DESVIACIÓN ESTÁNDAR


La desviación típica corresponde a la raíz cuadrada de la varianza. Se denomina S cuando
se refiere a la muestra y σ cuando se refiere a la población.

Se calcula como: S= S2

Tiene como ventaja que se expresa en la misma unidad de medida que la variable y por
eso es más fácil de interpretar.
Es una buena medida de la variación absoluta de los datos, indica qué tan lejos se
encuentran los datos, ya sea que estén por encima o por debajo, del valor de la media.

Estadística descriptiva - 2021 15


RANGO INTERCUARIL (IQR)
El IQR mide el recorrido entre los cuartiles, es decir de los valores centrales. Es la distancia
o diferencia entre el cuartil 1 y el cuartil 3.
IQR = (Q3 - Q1)
Si los datos se concentran en el centro de la distribución el IQR será pequeño con respecto
al rango. Esta medida no se ve afectada por valores atípicos.

COEFICIENTE DE VARIACIÓN (CV)


El coeficiente de variación es una medida relativa de la dispersión de los datos.
Corresponde a la desviación típica expresada como porcentaje de la media.
S
CV = 100
x

El Coeficiente de Variación indica cuál sería el valor de la desviación estándar si


suponemos que la media es igual a 100 unidades. Aunque se exprese como porcentaje, no
corresponde a una probabilidad, por eso puede tomar valores mayores a 100%.
Si CV es elevado indica gran dispersión. Si el CV es pequeño indica que los datos están más
concentrados alrededor de la media, es decir son más homogéneos o parecidos entre sí.
En este último caso se puede decir que la media es más representativa de esos dato y, por
lo tanto, más confiable.

Esta medida tiene la ventaja de ser independiente de la unidad de medida, se expresa


como porcentaje. Es por eso que se utiliza para comparar la dispersión de dos grupos de
datos, incluso aunque esos datos hayan sido medidos en diferentes unidades. También se
utiliza como medida de confiabilidad de los datos, en general se considera que valores de
CV por debajo de 30% indican que los datos disponibles son confiables, en especial cuando
provienen de experimentos.

Ejemplo: Para una muestra de elefantes el peso promedio es de 7500 kg con una desviación
estándar de 500 kg. Para una muestra de ratones el peso promedio es de 30g con una desviación
estándar de 5 g. Podré suponer (erróneamente) que el peso de los elefantes tienen mayor
variabilidad que el peso de los ratones ya que su desviación estándar es mayor. Sin embargo, si se
calcula el CV de cada muestra se verá que la variabilidad del peso de los elefantes es de 6,7% y que
la del peso de los ratones de 16,67%. Por lo tanto, la variación en el peso de los ratones es mayor
que la de los pesos de los elefantes. Dicho de otro modo, los ratones tienen pesos más diferentes
entre sí, sus pesos cambian más de un ratón a otro. Los elefantes, por otro lado, tienen poca
variación entre sus pesos, son más homogéneos, es decir, son más parecidos entre sí.

3. MEDIDAS DE FORMA
Nos dan una idea de la forma de la distribución. Miden el grado de deformación que tiene
la distribución en estudio con respecto a la distribución de probabilidad normal (que es
simétrica y mesocúrtica).

Estadística descriptiva - 2021 16


ASIMETRIA (As)
La asimetría indica el grado de deformación horizontal de la distribución.
Puede calcularse mediante el coeficiente de asimetría de Pearson:
El coeficiente de Pearson puede tomar los valores: - 3 < As < 3
3( x − Me)
As = Si As = 0 , la distribución es simétrica
S Si As > 0 , la distribución es asimétrica positiva
Si As < 0 , la distribución es asimétrica negativa

asimétrica negativa simétrica asimétrica positiva

Otro coeficiente de asimetría más confiable es g1 (es el que aparece en la mayoría de los
programas estadísticos). De acuerdo a su valor decimos que si g1 = 0, la distribución es
simétrica; si g1  0 la distribución es asimétrica positiva y si g1  0, la distribución es
asimétrica negativa

CURTOSIS (K)
La curtosis mide el grado de deformación vertical de la curva de distribución, es decir el
grado de apuntamiento. Indica la mayor o menor altura del valor máximo central, con
respecto a una curva de distribución normal cuya media y desviación típica son iguales a
las de la distribución estudiada.
(Q − Q1 ) / 2
Puede calcularse con el coeficiente de curtosis de Pearson: K= 3
P90 − P10
Este coeficiente puede tomar los valores: 0 < k < 0,5
Si K = 0,25 la curva es mesocúrtica
Si K > 0,25 la curva es platicúrtica
Si K < 0,25 la curva es leptocúrtica

Otro coeficiente de kurtosis más confiable es g2 (es el que aparece en la mayoría de los
paquetes estadísticos, por ejemplo InfoStat). De acuerdo a su valor decimos que si g2 = 0,
la distribución es mesocúrtica; si g2  0 la distribución es leptocúrtica y si g2  0, la
distribución es platicúrtica

platicúrtica mesocúrtica leptocúrtica

Estadística descriptiva - 2021 17


Ejemplo de aplicación Nº 1
Se tomó una muestra de 57 figuras geométricas (las que están graficadas dentro del
rectángulo de más abajo). A cada figura (unidad de observación o unidad estadística) se le
registró la forma y el color. Ambas variables son cualitativas nominales.

Código para registro de los valores de las


variables
Forma: triángulo (T), cuadrado (C) y
círculo (O)
Color: rayado (V), negro (R) y blanco (A)

Los datos tal como fueron registrados son:


OV OV CV CR OR CA TV OA TR TR CA CA OR TA OA TA CV OR CV OA CV OV CV CR
TV CR TV CA OA CA CA OV OV TA OV OR OR OV OR OA OR CV OV OV OR CR OR
TV TA OR OR TR TA OV OR OR OA
Mirando rápidamente la lista no se puede obtener información interesante. Por ejemplo,
no podemos saber cuál es el color más frecuente o si hay más cuadrados que círculos.
Estos datos podrían ordenarse, pero aún así no nos dice mucho la simple enumeración:
TV TV TV TV TR TR TR TA TA TA TA TA CV CV CV CV CV CV CR CR CR CR CA CA CA
CA CA CA OV OV OV OV OV OV OV OV OV OV OR OR OR OR OR OR OR OR OR OR
OR OR OR OA OA OA OA OA OA

Es por eso que es necesario resumir la información para presentarla de una manera que
sea fácil de “leer”. Los datos cualitativos se pueden resumir usando tablas estadísticas o
gráficos.
Tablas de frecuencia simples
Podemos resumir los datos de cada variable por separado, indicando la frecuencia
absoluta o la frecuencia relativa:

COLOR Frec. Frec. FORMA Frec. Frec.


absoluta relativa absoluta relativa
Rayado 20 0,351 Triángulo 12 0.211
Negro 20 0,351 Cuadrado 16 0.281
Blanco 17 0,298 Círculo 29 0.509
TOTAL 57 1 TOTAL 57 1

También podemos resumir los datos correspondientes a ambas variables en una única
tabla, que se denomina tabla de contingencia. Una de las variables se representa en las
filas, habrá una fila por cada categoría de esa variable, y la otra variable se representa
en las columnas. El resumen se puede expresar como frecuencias absolutas o relativas.

Estadística descriptiva - 2021 18


Tabla de contingencia para frecuencias absolutas
COLOR / FORMA triángulo cuadrado círculo TOTAL
Rayado 4 6 10 20
Negro 3 4 13 20
Blanco 5 6 6 17
TOTAL 12 16 29 57

Tabla de contingencia para frecuencias relativas al total


COLOR / FORMA triángulo cuadrado círculo TOTAL
Rayado 0,070 0,105 0,175 0,351
6
Negro 0,053 0,070 0,228 0,351 = 0.105
57
Blanco 0,088 0,105 0,105 0,298
TOTAL 0,211 0,281 0,509 1

Tabla de frecuencias relativas por fila (por color) 3


= 0.150
20
COLOR / FORMA triángulo cuadrado círculo TOTAL
Rayado 0,200 0,300 0,500 1
Negro 0,150 0,200 0,650 1
Blanco 0,294 0,353 0,353 1
TOTAL 0,211 0,281 0,509 1

Tabla de frecuencias relativas por columna (por forma)


COLOR / FORMA triángulo cuadrado círculo TOTAL
Rayado 0,333 0,375 0,345 0,351
Negro 0,250 0,250 0,448 0,351
Blanco 0,417 0,375 0,207 0,298
5
= 0.417 TOTAL 1 1 1 1
12

Formas de representar gráficamente estos datos

35

30

25

20
Rayado
15
Negro
Blanco 10

0
forma

triángulo cuadrado círculo

Estadística descriptiva – 2021 19


14
100%
12 90%
80%
10
70%
8 Rayado
60% Blanco
Negro
6 Blanco 50% Negro
40% Rayado
4
30%
2
20%
0 10%
triángulo cuadrado círculo 0%
triángulo cuadrado círculo

Ejemplo de aplicación 2

Se registró el número de ejemplares de Acacia caven (churqui) en 60 parcelas de


relevamiento seleccionadas al azar en un área de bosque natural, y se obtuvieron los
siguientes datos:
2 7 11 0 2 3 2 1 3 6 5 3 5 3 1
4 3 7 5 7 3 6 1 0 4 3 2 4 5 1
8 4 2 4 5 4 2 3 6 4 3 6 3 5 3
8 2 4 3 9 6 4 0 2 1 2 4 3 6 4

La variable registrada X es el número de ejemplares por parcela, es de tipo cuantitativa


discreta. Esta variable se registró en cada parcela, que es la unidad estadística. La
población de referencia, la que se está estudiando, es el conjunto de todas las parcelas
del área de estudio.
Sería bueno saber cómo se distribuye la variable que estudiamos, cuál es la cantidad
media de churquis por parcela, qué tanto cambia ese valor entre parcelas, cuál es la
cantidad mínima y máxima de árboles por parcela o qué cantidad de churquis hay en la
mayoría de las parcelas. Para eso debemos resumir los datos de una manera adecuada.
Los datos podrían ordenarse de menor a mayor, aunque este ordenamiento no aporta
casi ninguna información:
0 0 0 1 1 1 1 1 2 2 2 2 2 2 2
2 2 3 3 3 3 3 3 3 3 3 3 3 3 3
4 4 4 4 4 4 4 4 4 4 4 5 5 5 5
5 5 6 6 6 6 6 6 7 7 7 8 8 9 11

Para presentar los datos de manera más clara se construye la tabla de distribución de
frecuencias. Como la variable toma pocos valores y es discreta, en este caso podemos
establecer una categoría para cada valor de la variable (de 0 a 11):

Estadística descriptiva – 2021 20


Nº de ejemplares fi Fi ri Ri
0 3 3 0.05 0.05
1 5 3+5=8 0.08 0.05 + 0.08 = 0.13
2 9 8 + 9 = 17 0.15 0.13 + 0.15 = 0.28
3 13 17 + 13 = 30 0.22 0.28 + 0.22 = 0.50
4 11 30 + 11 = 41 0.18 0.50 + 0.18 = 0.68
5 6 41 + 6 = 47 0.10 0.68 + 0.10 = 0.78
6 6 47 + 6 = 53 0.10 0.78 + 0.10 = 0.88
7 3 53 + 3 = 56 0.05 0.88 + 0.05 = 0.93
8 2 56 + 2 = 58 0.03 0.93 + 0.03 = 0.97
9 1 58 + 1 = 59 0.02 0.97 + 0.02 = 0.98
10 0 59 + 0 = 59 0.00 0.98 + 0.0 = 0.98
11 1 59 + 1 = 60 0.02 0.98 + 0.02 = 1.00

La interpretación de los valores resaltados en negrita en esta tabla (de izquierda a


derecha sería:
Tres de las parcelas analizadas presentaron siete plantas de churqui. En 30 parcelas se
registraron tres o menos plantas de churqui. El 18% de las parcelas presentó cuatro
plantas de churqui. En el 97% de las parcelas analizadas se encontraron 8 o menos
plantas de churqui.

Para describir esta distribución calculamos las medidas de resumen. Es importante


calcular por lo menos una medida de cada tipo, así describimos dónde se ubican los
datos, qué tan dispersos están y cómo es la forma de la distribución.

Media aritmética
x = [0+0+…+1+1+…+2+2+…+8+8+9+10]/60 = 3,82 ejemplares/parcela
Mediana
1° Ordenamos los datos de menor a mayor.
2° Como n es par, calculamos la posición de la mediana como ½  n: ½  60 = 30
3° Buscamos el valor de la variable que ocupa esa posición y lo promediamos con el
siguiente: Me = (3 + 4)/2 = 3,5 ejemplares/parcela

Cuartiles y Percentiles
Procedemos igual que con la mediana, sólo cambia la posición de las medidas.
Posición de Q1: ¼  n = 15 Posición de Q3: ¾  n = 45
Posición de P10: 10/100  n = 6 Posición de P90: 90/100  n = 54
Si usamos la serie simple buscamos los valores que ocupan cada una de esas
posiciones.
Q1= 2 ejemplares/parcela; Q3 = 5 ejemplares/parcela; P10 = 1 ejemplares/parcela; P90 =
7 ejemplares/parcela

Rango: R = X máx – X mín = 11 – 0 = 11


Rango Intercuartil: IQR = Q3 - Q1 = 5 – 2 = 3

Estadística descriptiva – 2021 21


Varianza (usando la serie de frecuencias)

S2 = (0 - 3,82)2 .3+(1 - 3,82)2 .5+(2 - 3,82)2 .9+…+(11 - 3,82)2 .1 /59
= 5,14 (ejemplares/parcela) 2

Desviación típica: S = S 2 = 5.14 = 2.27 ejemplares/ parcela

Coeficiente de variación: CV = (2,27/3,82)  100 = 59,4%

(3.82 − 3.5).3
Asimetría: As = = 0.42 el valor indica que la distribución es casi simétrica
2.27

(5 − 2) / 2
Curtosis: K= = 0.25 indica que la distribución es mesocúrtica
7 −1
Las medidas de resumen se pueden presentar en una Tabla
Tamaño de la muestra n 60
Mínimo Xmín 0
Máximo Xmáx 11
Rango R 11
Media x 3.82
Mediana Me 3.50
Moda Mo 4
Varianza S2 5.14
Desviación típica S 2.27
Asimetría (Pearson) As 0.42
Asimetría g1 0.73
Curtosis (Pearson) K 0.25
Curtosis g2 0.76
Suma de valores  XI 229
Coeficiente de variación CV 59.4

Como la distribución es casi simétrica sería suficiente con calcular la media, desviación
típica, asimetría y curtosis para describirla completamente.
Los gráficos para representar estos datos podrían ser:
Gráfico de barras Diagrama de caja de Tukey o Boxplot
12
14

12
9
nº de ejemplares

10

8 6

4 2

0 -1

0 1 2 3 4 5 6 7 8 9 10 11

Estadística descriptiva – 2021 22


Ejemplo 3:
Para estudiar la distribución de alturas (en cm) de individuos del cardón (Trichocereus
atacamensis) presentes en el Parque Nacional Los Cardones se registró esta variable
en plantas seleccionadas al azar. (Los datos, cedidos por la Dra. Galíndez, se ordenaron
de menor a mayor)
90 100 105 116 118 142 149 151 152 170 180 180
187 187 196 202 203 206 208 209 210 210 210 212
214 220 222 227 231 234 234 237 248 250 251 258
259 264 272 277 279 298 303 309 322 325 326 327
336 337 338 344 350 352 360 362 366 368 369 369
369 370 373 375 377 387 388 388 390 394 400 408
413 449 454 509

X: altura de la planta; unidad de medida: cm; tipo de variable: cuantitativa continua


Unidad estadística: cada planta

Podemos, al igual que en los otros ejemplos, organizar los datos en una distribución de
frecuencias. En este caso la variable toma muchos valores diferentes, además existen
infinitos valores posibles entre ellos. Es por eso que cada categoría de la variable
corresponderá a un rango de valores. Debemos determinar esos rangos = intervalos de
clase, teniendo en cuenta que deben ser contiguos y mutuamente excluyentes.
En este caso se establecen 10 intervalos de calse, con una amplitud de 50 cm cada uno.
Al construir las categorías no es necesario que la primera clase comience con el
mínimo valor de X (en este ejemplo 90); podemos simplificar comenzando con el valor
50.

xi LI LS ~
xi fi ri Fi Ri Ubicación de
medidas de orden
[50,00 100,00] 75 2 0,03 2 0,03
(100,00 150,00] 125 5 0,07 7 0,09
(150,00 200,00] 175 8 0,11 15 0,20 P10
(200,00 250,00] 225 19 0,25 34 0,45 Q1
(250,00 300,00] 275 8 0,11 42 0,55 Me
(300,00 350,00] 325 11 0,14 53 0,70
(350,00 400,00] 375 18 0,24 71 0,93 Q3 y P90
(400,00 450,00] 425 3 0,04 74 0,97
(450,00 500,00] 475 1 0,01 75 0,99
(500,00 550,00] 525 1 0,01 76 1,00
76 1

Interpretación de algunos valores de frecuencias de la tabla:


Valor 19 de la columna fi: 19 cardones tienen una altura en entre 200 y 250 cm.
Valor 53 de la columna Fi: 53 cardones tienen una altura menor o igual a 350 cm.
Valor 0,07 de la columna ri: el 7% de las plantas de cardón tienen una altura de entre
100 y 150 cm.
Valor 0,97 de la columna Ri: el 97% de las plantas tienen una altura menor o igual a 450
cm.

Estadística descriptiva – 2021 23


Cálculo de medidas de resumen:

Media:
x = (90 + 100 + 105 + 116 + . . . + 454 + 509)/76 = 278,62 cm

Mediana:
Es el valor de la variable que ocupa la posición (1/2  76) = 38 promediado con el
siguiente para los datos ordenados: Me = (264 + 272)/2 = 268 cm
Interpretación: el 50% de los cardones miden menos de 268 cm

Moda: El valor que se repite más veces, en este ejemplo hay un valor que se repite 3
veces, Mo = 210 cm.

Cuartiles: ubicamos la posición de cada cuartil para ver a que valor corresponde:

Posición de Q1 es 1/4  n = 19  Q1 = 208 cm Interpretación: el 25% de los cardones


miden menos de 208 cm, el 75% de las plantas miden más de 208 cm.

Posición de Q3 es ¾  n = 57  Q3 = 362 cm Interpretación: el 25% de los cardones


miden más de 362 cm, el 75% de las plantas miden menos de 362 cm.

Rango: R = Xmáx – X mín = 509 – 90 = 419 cm

Rango intercuartil: IQR = 362 – 208 = 154 cm

Percentiles: Utilizando el procedimiento general para los cuantiles se calculan:


Posición de P10 es 10/100  n = 7,6  8  P10 = 151 cm
Posición de P90 es 90/100  n = 68,4  68  P90 = 388 cm

Varianza:

 
S 2 = (90 − 278,62) 2 + (100 − 278,62) 2 + (105 − 278,62) 2 + ... + (454 − 278,62) 2 + (509 − 278,62) 2 / 75
= 9227,25 cm 2

Desviación típica: S = S 2 = 9227,25 = 96,06 cm

Coeficiente de Variación: CV = (96,06/ 278,62) x100 = 34,48%

Asimetría: (coeficiente de Pearson):

As =
(278,62 − 268) * 3 = 0,33
96,06

Interpretación: de acuerdo al valor de As esta distribución es casi simétrica.

Estadística descriptiva – 2021 24


Curtosis: (coeficiente de Pearson):

K=
(362 − 208) / 2 = 0,32
(388 − 151)
Interpretación: de acuerdo al valor de K esta distribución es platicúrtica.

Tabla de medidas de resumen obtenida con InfoStat:

medida valor
Media 278,62 cm
D.E. 96,06 cm
Var(n-1) 9227,25 cm2
CV 34,48
Mín 90 cm
Máx 509 cm
Mediana 268 cm
Q1 208 cm
Q3 366 cm
Asimetría (g1) 0,02
Kurtosis (g2) -0,85
P(10) 151 cm
P(90) 390 cm
0,24
0,24

0,18
0,18
frecuencia relativa
frecuencia relativa

0,12 0,12

0,06 0,06

0,00 0,00
25 75 125 175 225 275 325 375 425 475 525 575 25 75 125 175 225 275 325 375 425 475 525 575
altura altura

88,20
530

66,15 437
frec. abs. acumulada

344
44,10
altura

251
22,05

158

0,00
25 75 125 175 225 275 325 375 425 475 525 575
65
altura

Estadística descriptiva – 2021 25

También podría gustarte