Trabajo del Curso de Estadística Descriptiva
(Resuelva manualmente)
1. ¿Cuáles son las propiedades de un conjunto de datos numéricos?
Los conjuntos de datos numéricos analizan, procesan y estudian las funciones decisorias en las
estadísticas, fenómenos conjuntos para revelar las leyes de su desarrollo. .Las medidas de
tendencia central son valores que se ubican al centro de un conjunto de datos ordenados según
su magnitud.
2. ¿Qué expresa la propiedad tendencia central?
Las medidas de tendencia central son medidas estadísticas que pretenden resumir en un solo
valor a un conjunto de valores. Representan un centro en torno al cual se encuentra ubicado el
conjunto de los datos. Las medidas de tendencia central más utilizadas son: media, mediana y
moda.
3. ¿Cuáles son las diferencias entre media, mediana y moda, y cuáles son las ventajas y
desventajas de cada una de ellas?
Estos tres estadísticos corresponden a las medidas de tendencia central más comúnmente
utilizadas en análisis descriptivos. La diferencia entre estos radica en como localizar el centro de
los datos. Por un lado, la Media corresponde al punto de equilibrio que toma en cuenta la
ubicación y el peso de cada dato. Mientras que la Mediana solo toma en cuenta la ubicación,
correspondiendo al percentil 50, es decir, divide la muestra en dos grupos con igual cantidad de
datos. Por otro lado, la Moda representa el punto de mayor concentración de datos en una
muestra, pudiéndose incluso obtener varias modas.
Dependiendo de la naturaleza de la variable en estudio se decide cuál de estos tres utilizar. En
el caso de variables cualitativas nominales, el único estadístico de tendencia central
interpretable es la Moda, que en cuyo caso corresponde al dato con mayor frecuencia. Si la
variable es cualitativa ordinal, generalmente se utiliza la Moda, aunque en algunos casos,
dependiendo del contexto, es posible utilizar la Mediana. Con respecto a las variables
cuantitativas, se suele usar la Media, como medida de tendencia central, pero el error que
comúnmente se comete es no tener en cuenta la forma de la distribución de la muestra.
En distribuciones asimétricas la media se ve fuertemente influenciada por datos extremos, en
cambio la Mediana es más robusta a la presencia de este tipo de datos. Por lo tanto, en estas
situaciones es preferible utilizar la Mediana.
Propiedades, ventajas y desventajas de la Media aritmética
La media aritmética se conoce como aquella cantidad total de la variable que está distribuida
en partes iguales entre cada observador. Es también conocida como ¨Media¨ y es una manera
práctica de resumir la información de una distribución, suponiendo que el grupo de
observadores manejen la misma cantidad de variable.
Ahora bien, entre sus propiedades se tiene que :
No posee un valor propio de la variable. Es decir, si la media aritmética de un grupo de
materias escolares es 9, puede que en realidad en ninguno de las materias se haya tenido
como nota específica un 9. La media aritmética es un elemento altamente sensible a los
cambios y valores en los datos.
La media aritmética se comporta de forma muy parecida a las operaciones matemáticas
comunes como la suma
Cuando se habla de ventajas se puede decir que la media aritmética es la más utilizada y es por
ello que casi todos la conocen y hacen de su cálculo algo práctico y sencillo de manejar. Por
otro lado, esta medida permite detectar variaciones en los datos.
En cuanto a sus desventajas se tiene que es muy sensible a las variaciones y esto hace que los
datos de la distribución estadística no sean tan acertados.
medidas de tendencias centrales
Propiedades, ventajas y desventajas de la Media armónica
La media armónica es recíproca a la media aritmética, es decir, es el resultado de un número
de elementos entre la suma de los inversos de cada una de esas cifras.
Entre sus propiedades se tiene que:
Su inversa es la media aritmética de los inversos de las cifras de las variables.
Es menor o igual a la media aritmética en todos los casos.
Si se transforman de forma adecuada los datos pueden pasar de una media armónica a una
media aritmética.
Entre sus ventajas se tiene que todos los valores de la distribución se encuentran dentro del
cálculo y suele ser un poco más representativa que la media aritmética, en algunos casos.
Dentro de sus desventajas está el hecho de que no puede ser calculada en distribuciones cuyo
valor es igual a 0 . Por otro lado se tiene que es muy influenciada por los valores pequeños y
debido a esto no tiene a usarse en este tipo de cálculos.
Propiedades, ventajas y desventajas de la Media geométrica
La media geométrica se utiliza con frecuencia en cálculos de tasas de crecimiento porcentual
promedio de algunas series. Esta se define como la raíz del producto de un conjunto de
números positivos. Todos los valores de un conjunto se multiplican entre si y si, por ejemplo,
alguno de ellos es 0, el resultado final sería 0.
Dentro de sus propiedades se tiene que:
El logaritmo dentro de la media geométrica viene a ser igual a la media aritmética de los
logaritmos de los valores de una variable.
En un conjunto de números positivos, la media geométrica es siempre menor o igual que la
media aritmética.
Al hablar de sus ventajas tenemos que la media geométrica tiene en consideración cada uno
de los valores de una distribución y viene a ser menos sensible que la media aritmética en
cuanto a valores extremos se refiere.
Dentro de sus desventajas podemos encontrar que su significado estadístico viene a ser menos
intuitivo en comparación a la media aritmética y a la vez, su cálculo es un poco más difícil de
realizar. Por otro lado, si alguno de sus valores es igual a cero la media aritmética no queda
determinada ya que se anula.
Relación entre Media, Moda y Mediana
Lo principal es que estas medidas pertenecen a las medidas de tendencia central por lo que
sus valores numéricos tienden a localizar la parte central de un conjunto de datos. Aunado a
esto se tiene que:
Entre ellas existe una asimetría positiva cuando la media es mayor a la mediana y se denomina
Distribución sesgada a la derecha.
También existe una asimetría negativa que se da cuando la media es menor que la mediana y
se denomina Distribución sesgada a la izquierda.
Cuando la distribución viene a ser simétrica, la media, la moda y la mediana coinciden en su
valor.
4. ¿Cómo interpreta el primer cuartil, la mediana y el tercer cuartil?
Los cuartiles son los tres valores —el 1 er cuartil en 25% (Q1), el segundo cuartil en 50% (Q2 o
mediana) y el tercer cuartil en 75% (Q3)— que dividen una muestra de datos ordenados en
cuatro partes iguales. El 1 er cuartil es el percentil 25 e indica que 25% de los datos es menor
que o igual a este valor.
La mediana es el punto medio del conjunto de datos. El valor de este punto medio es el punto
en el cual la mitad de las observaciones está por encima del valor y la otra mitad está por debajo
del valor. La mediana se determina jerarquizando las observaciones y hallando la observación
que ocupe el número [N + 1] / 2 en el orden jerarquizado. Si el número de observaciones es par,
entonces la mediana es el valor promedio de las observaciones jerarquizadas en los números N
/ 2 y [N / 2] + 1.
Para estos datos ordenados, la mediana es 13. Es decir, la mitad de los valores es menor que o
igual a 13 y la otra mitad de los valores es mayor que o igual a 13. Si usted agrega otra
observación igual a 20, la mediana es 13.5, que es el promedio entre la 5ta observación (13) y la
6ta observación (14).
Interpretación
Tanto la mediana como la media miden la tendencia central. Sin embargo, valores poco
comunes, llamados valores atípicos, pueden afectar a la mediana menos de lo que afectan a la
media. Si los datos son simétricos, la media y la mediana son similares.
Simétrica
No simétrica
En la distribución simétrica, la media (línea azul) y la median
5. ¿Qué expresa la propiedad variación?
El coeficiente de variación, también denominado como coeficiente de variación de Pearson, es
una medida estadística que nos informa acerca de la dispersión relativa de un conjunto de datos.
Es decir, nos informa al igual que otras medidas de dispersión, de si una variable se mueve
mucho, poco, más o menos que otra.
6. ¿Cuáles son las diferencias entre las diversas medidas de la variación como rango, rango
intercuartil, varianza, desviación estándar y coeficiente de variación, y cuáles son las ventajas y
desventajas de cada una?
Existen diversas medidas de dispersión, entre las más utilizadas podemos destacar las
siguientes:
1.- Rango: mide la amplitud de los valores de la muestra y se calcula por diferencia entre el valor
más elevado y el valor más bajo.
2.- Varianza: Mide la distancia existente entre los valores de la serie y la media. Se calcula como
sumatorio de las diferencias al cuadrado entre cada valor y la media, multiplicadas por el
número de veces que se ha repetido cada valor. El sumatorio obtenido se divide por el tamaño
de la muestra.
La varianza siempre será mayor que cero. Mientras más se aproxima a cero, más concentrados
están los valores de la serie alrededor de la media. Por el contrario, mientras mayor sea la
varianza, más dispersos están.
3.- Desviación típica: Se calcula como raíz cuadrada de la varianza.
4.- Coeficiente de varización de Pearson: se calcula como cociente entre la desviación típica y la
media.
7. ¿Cómo nos ayuda la regla empírica a explicar de qué maneras se agrupan y distribuyen los
valores de un conjunto de datos numéricos?
Medidas de Dispersión.
Rango.
Ventajas: Es fácil de calcular, y tiene una interpretación intuitiva.
Desventajas: Es muy general, tan solo nos da una idea de cuán amplia es la variación entre
puntajes extremos. No toman en cuenta los valores intermedios de la distribución.
Desviación media
Ventajas:toma en cuenta todos los datos
Desventajas: la desviación media de una muestra no es un buen estimador de la desviación
media de la población, que es lo que en última instancia nos interesa conocer.
Desviación estándar.
Ventajas: las unidades son las mismas de las observaciones, y como es la raíz cuadrada de la
varianza, se pueden hacer inferencias a través de la varianza y dar explicaciones a través de la
desviación estándar.
Desventajas: Es sensible a las unidades de medida.
Varianza.
Ventajas: la varianza de una muestra es un buen estimador de la varianza de la población y hay
toda una teoría de como hacerlo.
Desventajas: como las unidades de la varianza son unidades al cuadrado (personas al
cuadrado, carros al cuadrado, casas al cuadrado) es difícil explicar qué representa.
8. ¿En qué difieren la regla empírica y la regla de Chebyshev?
En estadística, la regla 68-95-99.7, también conocida como regla empírica, es una abreviatura
utilizada para recordar el porcentaje de valores que se encuentran dentro de una banda
alrededor de la media en una distribución normal con un ancho de dos, cuatro y seis veces la
desviación típica, respectivamente. Más exactamente, el 68.27%, el 95.45% y el 99.73% de los
valores se encuentran dentro de bandas con semiancho de una, dos y tres veces la desviación
típica respecto a la media.
En notación matemática, estos hechos se pueden expresar de la siguiente manera, siendo Χ es
una observación de una variable aleatoria normalmente distribuida, μ es la media aritmética de
la distribución y σ es su desviación estándar:
En las ciencias empíricas, la también llamada "regla del pulgar de las tres sigmas" denota un
criterio heurístico convencional que considera que casi todos los valores de una muestra se
encuentran dentro de tres desviaciones estándar de la media, y que por lo tanto en la práctica
es útil tratar el 99.7% de probabilidad como certeza.1La utilidad de esta práctica depende
significativamente de la pregunta que se esté considerando. En las ciencias sociales, un resultado
puede considerarse significativo si su intervalo de confianza del efecto analizado es del orden
de dos sigma (95%), mientras que en física de partículas, existe la convención de que un
determinado nuevo efecto debe constatarse en un intervalo de confianza de cinco sigmas
(99.99994%) para ser calificado como un hecho cierto y considerarse un descubrimiento.
La regla del pulgar de las tres sigmas se relaciona con un resultado también conocido como la
regla de las tres sigma, que establece que incluso para las variables de distribución no normal,
al menos el 88.8% de los casos deben encajar correctamente en intervalos de tres sigma. Este
principio se deduce de la Desigualdad de Chebyshov. Para distribuciones unimodales, la
probabilidad de estar dentro del intervalo es de al menos el 95%. Pueden darse ciertas
suposiciones para una distribución que obliguen a que esta probabilidad sea al menos del 98%.2
9. ¿Qué expresa la propiedad forma?
Una variable aleatoria continua tiene la característica de tomar cada uno de sus valores con
probabilidad infinitesimal, a efectos prácticos, 0. Por tanto, no se pueden expresar en forma
tabular. Sin embargo, aunque no se pueden considerar probabilidades de valores concretos,
puede calcularse la probabilidad de que la variable tome valores en determinados intervalos
(los intervalos en cuestión pueden ser abiertos o cerrados, sin que se modifique la
probabilidad total).
10. ¿En qué difieren la covarianza y el coeficiente de correlación?
La covarianza y la correlación son muy útiles para comprender la relación entre dos variables
continuas. La covarianza indica si ambas variables varían en la misma dirección (covarianza
positiva) o en dirección opuesta (covarianza negativa).
No hay importancia en el valor numérico de covarianza, solo el signo es útil. Mientras que la
correlación explica sobre el cambio en una variable, indica cuánto cambio de proporción en la
segunda variable.
La correlación varía entre -1 a +1. Si el valor de correlación es 0, significa que no existe una
relación lineal entre las variables, sin embargo, puede existir otra relación funcional.
Comprendamos estos términos en detalle:
Covarianza:
En el estudio de la covarianza sólo el signo importa. El valor positivo muestra que ambas
variables varían en la misma dirección y el valor negativo muestra que varían en la dirección
opuesta.
La covarianza entre dos variables x e y se puede calcular de la siguiente manera:
covarianza entre dos variables
Dónde:
x̄ es la media muestral de x
ȳ es la media muestral de y
x_i e y_i son los valores de x e y para el registro i-ésimo en la muestra.
n es el no de registros en la muestra
Importancia de la fórmula:
Numerador: Cantidad de varianza en x multiplicada por cantidad de varianza en y.
Unidad de covarianza: Unidad de x multiplicada por unidad de y
Por lo tanto, si cambiamos la unidad de variables, la covarianza tendrá un nuevo valor, sin
embargo, el signo seguirá siendo el mismo.
Por lo tanto, el valor numérico de la covarianza no tiene ningún significado; sin embargo, si es
positivo, ambas variables varían en la misma dirección; de lo contrario, si es negativo, varían en
la dirección opuesta.
Correlación:
Como la covarianza solo informa sobre la dirección que no es suficiente para comprender la
relación por completo, dividimos la covarianza con la desviación estándar de x e y
respectivamente y obtenemos un coeficiente de correlación que varía entre -1 y +1.
-1 y +1 dice que ambas variables tienen una relación lineal perfecta.
Negativo significa que son inversamente proporcionales entre sí con el valor del factor de
coeficiente de correlación.
Positivo significa que son directamente proporcionales entre sí, la media varía en la misma
dirección con el factor del valor del coeficiente de correlación.
si el coeficiente de correlación es 0, significa que no existe una relación lineal entre las variables,
sin embargo, podría existir otra relación funcional.
Si no hay ninguna relación entre dos variables, entonces el coeficiente de correlación será
ciertamente 0; sin embargo, si es 0, solo podemos decir que no existe una relación lineal, pero
podría existir otra relación funcional.
La correlación entre x e y se puede calcular de la siguiente manera:
correlación entre x e y
Dónde:
S_xy es la covarianza entre x e y.
S_x y S_y son la desviación estándar de x e y respectivamente.
r_xy es el coeficiente de correlación.
El coeficiente de correlación es una cantidad adimensional. Por lo tanto, si cambiamos la unidad
de x e y, también el valor del coeficiente seguirá siendo el mismo.
Comprendamos cuál es la importancia del coeficiente de correlación con la ayuda del siguiente
gráfico:
Coeficiente de correlación
Te recomiendo también leer : ¿Qué es la regresión lineal? Parte: 1
Por favor comparta sus ideas / pensamientos en la sección de comentarios a continuación. Si
tiene alguna duda sobre este tema, puede escribirme un correo electrónico utilizando el
formulario de contacto. Estaré encantado de responder a sus consultas.