0% encontró este documento útil (0 votos)
66 vistas9 páginas

Medidas de Posición

Este documento describe diferentes medidas de posición y dispersión para analizar datos estadísticos. Explica conceptos como fractiles, cuartiles, deciles y percentiles para medir la posición, así como el rango, la varianza y la desviación estándar para medir la dispersión de los datos.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
66 vistas9 páginas

Medidas de Posición

Este documento describe diferentes medidas de posición y dispersión para analizar datos estadísticos. Explica conceptos como fractiles, cuartiles, deciles y percentiles para medir la posición, así como el rango, la varianza y la desviación estándar para medir la dispersión de los datos.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

IFD N°17 “DR.

RENÉ FAVALORO”- PROFESORADO DE EDUCACIÓN SECUNDARIA EN


MATEMÁTICA –CÁTEDRA: PROBABILIDAD Y ESTADÍSTICA – CURSO: 2DO AÑO – 2019
PROFESORA: GIMENEZ, CAROLINA

Medidas de posición

Definimos como fractiles a aquellos valores de la variable que fraccionan a la distribución en partes
iguales, es decir, en partes que contienen la misma cantidad de datos, la mediana resulta ser un
fractil. Diremos entonces: “la mediana es un fractil que divide a la distribución en dos partes
iguales, siendo la mitad de los datos menor o igual a ella y la otra mitad mayor o igual que ella”.
Existen otros fractiles que dividen la distribución en 4, 10 y 100 partes iguales. Se conocen como
cuartiles, deciles y percentiles.

 Cuartiles: son 3 y dividen a los datos en 4 partes iguales. Se simbolizan Q1, Q2 y Q3. Por
ejemplo, el cuartil 1 deja por debajo el 25% de las observaciones y el 75% restante por encima,
mientras que el cuartil 2 coindice con la mediana, ya que deja a cada lado el 50% de las
observaciones.
 Deciles: son 9 y dividen a los datos en 10 partes iguales. Se simbolizan D1, D2,…, D9. Por
ejemplo, el decil 1 deja por debajo el 10% de las observaciones y el 90% restante por encima.
 Percentiles: Son 99 y dividen a los datos en 100 partes iguales. Si simbolizan con P 1, P2,…, P99.
Por ejemplo, el percentil 1 deja por debajo el 1% de las observaciones y el 99% restante por
encima.

Para calcular cualquiera de los fractiles, se emplea la misma metodología que el cálculo de la
mediana.

Datos no agrupados Datos agrupados en Datos agrupados en


series de frecuencias intervalos de clase
Posición de Cuartiles 𝑟. (𝑛 + 1) 𝑟. 𝑛 𝑟. 𝑛
𝑃𝑜𝑠𝑄𝑟 = 𝑃𝑜𝑠𝑄𝑟 = 𝑃𝑜𝑠𝑄𝑟 =
4 4 4
Posición de Deciles 𝑟. (𝑛 + 1) 𝑟. 𝑛 𝑟. 𝑛
𝑃𝑜𝑠𝐷𝑟 = 𝑃𝑜𝑠𝐷𝑟 = 𝑃𝑜𝑠𝐷𝑟 =
10 10 10
Posición de 𝑟. (𝑛 + 1) 𝑟. 𝑛 𝑟. 𝑛
𝑃𝑜𝑠𝑃𝑟 = 𝑃𝑜𝑠𝑃𝑟 = 𝑃𝑜𝑠𝑃𝑟 =
Percentiles 100 100 100

Resumen de cinco números y diagrama de caja

El resumen de cinco números consta de número más pequeño, el cuartil 1, la mediana, el cuartil 3 y
el número más grande, presentados en orden de menor a mayor:
Min Q1 Mediana Q3 Máx
Por definición, un cuarto de las mediciones del conjunto de datos está entre cada uno de los cuatro
pares adyacentes de números.
El resumen de cinco números sirve para crear una gráfica simple llamada diagrama de caja útil
para dar forma visual a la distribución de datos. Con el diagrama de caja se detecta con rapidez
cualquier sesgo en la forma de la distribución y si hay valores extremos en el conjunto de datos.
IFD N°17 “DR. RENÉ FAVALORO”- PROFESORADO DE EDUCACIÓN SECUNDARIA EN
MATEMÁTICA –CÁTEDRA: PROBABILIDAD Y ESTADÍSTICA – CURSO: 2DO AÑO – 2019
PROFESORA: GIMENEZ, CAROLINA

Para construir una gráfica de caja


 Calcule la mediana, los cuartiles 1 y 3.
 Trace una línea horizontal que represente la escala de medición. Forme una caja justo arriba
de la línea horizontal con los extremos derecho e izquierdo en Q1 y Q3. Trace una línea
vertical por la caja en el lugar de la mediana.

Lím. Q1 Me Q3 Lím.
inferior superior

Detección de los valores extremos: observaciones que están más allá


 Límite inferior: 𝑄1 − 1,5. (𝑄3 − 𝑄1 )
 Límite superior: 𝑄3 + 1,5. (𝑄3 − 𝑄1 )
Los límites superior e inferior se señalan con líneas punteadas. Cualquier medición más allá del
límite superior o inferior es un valor extremo; el resto de las mediciones, dentro de los límites, no
son inusuales. Por último, la gráfica de caja marca el rango de datos usando “bigotes” para conectar
las mediciones menor y mayor (Sin incluir los valores extremos) a la caja.
Cualquier valor extremo, marque con un asterisco (*) en la gráfica.

Los diagramas de caja permiten una fácil lectura e interpretación del tipo de simetría de una
distribución:
 Es simétrica cuando la media, mediana y moda de la distribución coinciden y los datos se
distribuyen de igual forma a ambos lados de esas medidas.
IFD N°17 “DR. RENÉ FAVALORO”- PROFESORADO DE EDUCACIÓN SECUNDARIA EN
MATEMÁTICA –CÁTEDRA: PROBABILIDAD Y ESTADÍSTICA – CURSO: 2DO AÑO – 2019
PROFESORA: GIMENEZ, CAROLINA

 Es asimétrica positiva o sesgada a la derecha, cuando los datos tienden a concentrarse


hacia la parte inferior de la distribución. La media se situaría a la derecha de la mediana.

 Es asimétrica negativa o sesgada hacia la izquierda cuando los datos tienden a concentrarse
hacia la parte superior de la distribución. La media se situaría a la izquierda de la
mediana.

Si una distribución es más o menos simétrica, la media aritmética y la desviación típica son
parámetros muy adecuados para resumirla. Sin embargo cuando se trata de una distribución
marcadamente asimétrica o sesgada resulta más adecuado utilizar el resumen de los cinco
números: valor mínimo, primer cuartil, mediana, tercer cuartil y valor máximo.

Medidas de dispersión o variabilidad

Los conjuntos de datos pueden tener el mismo centro pero con aspecto diferente por la forma en
que los números se dispersan desde el centro. Considere las dos distribuciones que se muestran
en la figura. Ambas distribuciones están centradas en x = 4, pero hay una gran diferencia en la
forma en que las mediciones se dispersan o varían. Las mediciones de la figura a) varían de 3 a
5; en la figura b) las mediciones varían de 0 a 8.
IFD N°17 “DR. RENÉ FAVALORO”- PROFESORADO DE EDUCACIÓN SECUNDARIA EN
MATEMÁTICA –CÁTEDRA: PROBABILIDAD Y ESTADÍSTICA – CURSO: 2DO AÑO – 2019
PROFESORA: GIMENEZ, CAROLINA

La variabilidad o dispersión es una muy importante característica de datos. Por


ejemplo, si usted fabrica tornillos, la variación extrema en los diámetros de los tornillos
causaría un alto porcentaje de productos defectuosos. Por el contrario, si estuviera tratando de
discriminar entre contadores buenos y malos, tendría problemas si el examen siempre produjera
calificaciones con poca variación, lo cual hace muy difícil la discriminación.

Estudiaremos dos tipos de medidas de dispersión:

 Medidas de dispersión absoluta: rango, varianza y desviación estándar.


 Medidas de dispersión relativa: coeficiente de variación.

Rango “R”

El rango, R, de un conjunto de n mediciones se define como la diferencia entre la medición más


grande y la más pequeña.

R = 𝑥𝑚á𝑥 − 𝑥𝑚í𝑛

El rango es fácil de calcular, fácil de interpretar y es una medida adecuada de variación para
conjuntos pequeños de datos. Pero, para conjuntos grandes, el rango no es una medida adecuada de
variabilidad.

Esta medida nos permite tener una somera idea en cuanto a la dispersión o variación de los datos,
pero tiene como inconveniente que sólo toma en cuenta los valores extremos, descuidando los
valores intermedios.
Podría suceder que un valor observado estuviese accidentalmente desplazado. En este caso, el rango
sería exagerado y la dispersión aparecería distorsionada, con lo cual su valor no sería representativo
de los datos.

Desviación

Considere, como ejemplo, las mediciones muestrales 5, 7, 1, 2, 4, mostradas como una gráfica de
puntos en la figura. La media de estas cinco mediciones es:
IFD N°17 “DR. RENÉ FAVALORO”- PROFESORADO DE EDUCACIÓN SECUNDARIA EN
MATEMÁTICA –CÁTEDRA: PROBABILIDAD Y ESTADÍSTICA – CURSO: 2DO AÑO – 2019
PROFESORA: GIMENEZ, CAROLINA

Las distancias horizontales entre cada punto (medición) y la media 𝑥̅ ayudarán a medir la
variabilidad. Si las distancias son grandes, los datos son más dispersos o variables que si las
distancias son pequeñas. Si xi es un punto particular (medición), entonces la desviación de esa
medición desde la media es (xi – 𝑥̅ ). Las mediciones a la derecha de la media producen desviaciones
positivas y, las de la izquierda, negativas.

Los valores de x y las desviaciones para nuestro ejemplo se detallan en las


columnas primera y segunda de la tabla.

Como las desviaciones en la segunda columna de la tabla contienen


información sobre variabilidad, una forma para combinar las cinco
desviaciones en una medida numérica es promediarlas.
Desafortunadamente, el promedio no funcionará porque algunas de las
desviaciones son positivas, algunas son negativas y la suma es siempre
cero (a menos que errores redondeados se hayan introducido en los
cálculos). Observe que las desviaciones en la segunda columna de la tabla suman cero.

Preferimos, no obstante, superar la dificultad causada por los signos de las desviaciones al trabajar
con su suma de cuadrados. De la suma de desviaciones cuadradas, se calcula una sola medida
llamada varianza. Para distinguir entre la varianza de una muestra y la varianza de una población,
usamos el símbolo s2 para una varianza muestral y 𝜎 2 para una varianza de población. La varianza
será relativamente grande para datos muy variables y relativamente pequeña para datos menos
variables.

La varianza de una muestra de n mediciones es la suma de las desviaciones cuadradas de las


mediciones alrededor la media 𝑥̅ dividida entre n.

Cálculo de la varianza:

La calculamos así:
∑𝑛
𝑖=1(𝑥𝑖 −𝑥̅ )
2
 Para datos no agrupados: 𝑆 2 = 𝑛
 Para datos agrupados:
∑𝑛 2
𝑖=1(𝑥𝑖 −𝑥̅ ) .𝑓𝑎𝑖
o Como serie de frecuencias: 𝑆 2 = 𝑛
∑𝑘 (𝑚 −𝑥̅ )2 .𝑓𝑎𝑖
o Como intervalo de clase: 𝑆 2 = 𝑖=1 𝑖
𝑛
Esta medida toma en cuenta, para su cálculo, todos los valores de la variable, pero tiene como
inconveniente que no está expresada en la misma unidad de medida de la variable en estudio sino en
el cuadrado de la misma (por ejemplo: si la variable está expresada en $, la varianza resulta
expresada en $2; si la variable está expresada en km, la varianza resulta expresada en km2; etc.).
Tengamos presente que, mientras más dispersos estén los valores de la variable, mayor será la
magnitud de la varianza.
Observación:
Como dijimos anteriormente, uno de los principales objetivos de la Estadística Inferencial es utilizar
la muestra para calcular estimadores de los valores característicos de una población, es decir,
IFD N°17 “DR. RENÉ FAVALORO”- PROFESORADO DE EDUCACIÓN SECUNDARIA EN
MATEMÁTICA –CÁTEDRA: PROBABILIDAD Y ESTADÍSTICA – CURSO: 2DO AÑO – 2019
PROFESORA: GIMENEZ, CAROLINA

utilizar estadísticos para estimar parámetros. En este caso, la varianza muestral, tal como la hemos
definido, es un buen estimador de la varianza poblacional cuando el tamaño de la muestra n es
mayor o igual que 30 (aproximadamente).
Si n < 30, resulta mejor estimador la llamada varianza muestral corregida que, para el caso de datos
no agrupados, se define así:
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑆2 =
𝑛−1
En el cálculo para datos agrupados, debemos realizar la misma modificación: dividir por n -1 en
lugar de dividir por n.

Desviación estándar

Para subsanar el inconveniente de que la varianza no está expresada en la misma unidad de medida
de la variable en estudio, puede calcularse la desviación estándar que se define como la raíz
cuadrada de la varianza:
∑𝑛
𝑖=1(𝑥𝑖 −𝑥̅ )
2
𝑠 = √𝑠 2 = √ 𝑛−1
para datos no agrupados.
El mismo procedimiento se utiliza para calcular la desviación estándar para datos agrupados.

Propiedades de la desviación estándar

1) Si a los valores de una variable se les suma o resta una constante, la desviación estándar no se
ve afectada por dicha transformación.
Si 𝑦𝑖 = 𝑥𝑖 ± 𝑎 con a constante, sabemos que 𝑦̅ = 𝑥̅ ± 𝑎 por las propiedades que vimos para la
media aritmética. Sin embargo: 𝑆𝑦 = 𝑆𝑥 .
Gráficamente, al sumar (o restar) una constante a la variable, la curva se traslada como un todo
hacia la derecha (o izquierda) sobre el eje x, sin alterar su forma.

2) Si a los valores de una variable se los multiplica por una constante, la desviación estándar se ve
afectada por dicha transformación:
Si 𝑦𝑖 = 𝑥𝑖 ∗ 𝑎 con a constante, entonces 𝑦̅ = 𝑥̅ ∗ 𝑎 y también: 𝑆𝑦 = |𝑎| ∗ 𝑆𝑥
Gráficamente al multiplicar por una constante una variable, la curva que representa el polígono de
frecuencia suavizado altera su forma.

Coeficiente de variación
IFD N°17 “DR. RENÉ FAVALORO”- PROFESORADO DE EDUCACIÓN SECUNDARIA EN
MATEMÁTICA –CÁTEDRA: PROBABILIDAD Y ESTADÍSTICA – CURSO: 2DO AÑO – 2019
PROFESORA: GIMENEZ, CAROLINA

Hasta ahora vimos diferentes medidas de dispersión, que expresan la variabilidad de los datos
considerando unidades absolutas de medida. Cuando se trata de estudiar una sola distribución de
frecuencias, conviene que prevalezca el uso de la unidad en que se miden los datos pero, si
queremos comparar medidas de variabilidad de dos distribuciones distintas, se tropieza con algunas
dificultades. Toda medida de variación absoluta tiene significación solamente con relación al
promedio del cual se midieron las desviaciones. Su uso aislado, es decir, sin referirse al promedio,
carece de sentido. Para efectuar comparaciones, necesitamos entonces medidas expresadas en forma
relativa.
La medida de variación relativa más utilizada es el llamado coeficiente de variación (que a veces, se
expresa como porcentaje):
𝑆
𝐶𝑉 =
𝑥̅
El coeficiente de variación es un número abstracto, una medida de variación relativa de los datos
que se estudian, que puede compararse con valores similares procedentes de otras distribuciones.

Ejemplo:
Una firma comercial tiene dos sucursales: A y B. Los valores de 𝑥̅ y S para los montos de ventas
mensuales en cada una de ellas son las siguientes:
Sucursal A Sucursal B
𝑥̅𝐴 = $10000 𝑥̅𝐵 = $12000
𝑆𝐴 = $1800 𝑆𝐵 = $2000

Calculamos los coeficientes de variación para cada sucursal y resulta:


CVA = 18% y CVB = 16%.
Luego, podemos ver que, a pesar de que la desviación estándar en la sucursal B era mayor que en la
sucursal A. Al relativizarla con respecto al valor de la media aritmética, resulta lo contrario, es
decir, el coeficiente de variación para la sucursal B es menor que el coeficiente de variación para la
sucursal A. Luego, concluimos que, en la sucursal B, las ventas mensuales son más homogéneas
respecto al promedio mensual de ventas.

Acerca de la importancia práctica de la desviación estándar


Veremos ahora un teorema útil desarrollado por el matemático ruso Chevyshev. La demostración
del teorema no es difícil, pero nos interesa más su aplicación que su demostración.

1
Teorema: dado un número k mayor que 1 y un conjunto de n mediciones, por lo menos 1 − 𝑘 2 de las
mediciones estarán dentro de k desviaciones estándar de su media.

El teorema de Chevyshev se aplica a cualquier conjunto de mediciones y se usa para describir tanto
una muestra como una población.
IFD N°17 “DR. RENÉ FAVALORO”- PROFESORADO DE EDUCACIÓN SECUNDARIA EN
MATEMÁTICA –CÁTEDRA: PROBABILIDAD Y ESTADÍSTICA – CURSO: 2DO AÑO – 2019
PROFESORA: GIMENEZ, CAROLINA

La idea relacionada con el teorema de Chevyshev se ilustra a continuación. Se construye un


intervalo midiendo una distancia 𝑘𝜎 a cualquier lado de la media 𝜇. El número k es cualquier
1
número mayor o igual que 1. Entonces el teorema de Chevyshev establece que por lo menos 1 − 𝑘 2
del número total de n mediciones se encuentra en el intervalo construido.

Por lo menos
1
1−
𝑘2

Ejemplificamos:
la media y la varianza de una muestra de n = 25 mediciones son 75 y 100, respectivamente. Use el
teorema de Chevyshev para describir la distribución de mediciones.
Se tiene 𝑥̅ = 75 𝑦 𝑆 2 = 100. La desviación estándar es 𝑠 = √100 = 10. La distribución de las
mediciones se centra en 𝑥̅ = 75 y el teorema de Chevyshev establece que:
 Por lo menos ¾ de las 25 mediciones están en el intervalo 𝑥̅ ± 2𝑠 = 75 ± 2. (10); es decir, 55 a
95.
 Por lo menos 8/9 de las 25 mediciones están en el intervalo 𝑥̅ ± 3𝑠 = 75 ± 3. (10); es decir, 45
a 105.

Puesto que el teorema de Chevyshev se aplica a cualquier distribución, es muy conservador. Esto es
porque en este teorema se enfatiza “por lo menos 1 – (1/k2)”.
Otra regla para describir la variabilidad de un conjunto de
datos no funciona para todos los conjuntos de datos, pero
funciona muy bien para datos que se “apilan” en forma de
campana. Cuando más cercana sea su distribución de datos a
una curva en forma de campana, más exacta será la regla.
Puesto que la distribución de datos con forma de campana
ocurre con frecuencia en la naturaleza, la regla se usa a
menudo en aplicaciones prácticas. Por esta razón, se llama
regla empírica.
Dada una distribución de mediciones que tiene forma de
campana:
 El intervalo (𝜇 ± 𝜎) contiene aproximadamente 68% de las mediciones.
 El intervalo (𝜇 ± 2𝜎) contiene aproximadamente el 95% de las mediciones
 El intervalo (𝜇 ± 3𝜎) contiene aproximadamente el 99.7% de las mediciones.

Medidas de simetría
IFD N°17 “DR. RENÉ FAVALORO”- PROFESORADO DE EDUCACIÓN SECUNDARIA EN
MATEMÁTICA –CÁTEDRA: PROBABILIDAD Y ESTADÍSTICA – CURSO: 2DO AÑO – 2019
PROFESORA: GIMENEZ, CAROLINA

Diremos que una distribución es simétrica cuando su mediana, su moda y su media aritmética
coinciden. Diremos que una distribución es asimétrica a la derecha si las frecuencias (absolutas o
relativas) descienden más lentamente por la derecha que por la izquierda.
Si las frecuencias descienden más lentamente por la izquierda que por la derecha diremos que la
distribución es asimétrica a la izquierda.
Existen varias medidas de la asimetría de una distribución de frecuencias. Una de ellas es el
Coeficiente de Asimetría de Pearson:

Su valor es cero cuando la distribución es simétrica, positivo cuando existe asimetría a la derecha y
negativo cuando existe asimetría a la izquierda.

Otra medida que permite estudiar la simetría de un lote de datos es el coeficiente de Fisher:

También podría gustarte