La estadística se compone de dos grandes áreas, la descriptiva y la inferencial.
La estadística descriptiva analiza propiedades de conjuntos de datos en su contexto, no como
entidades aisladas. Es crucial comprender el entorno de los datos antes del análisis descriptivo.
El entorno incluye la población en estudio, sus unidades de análisis y los atributos relevantes,
considerando la calidad de los datos. En estudios de campo, a menudo es imposible acceder a
toda la población, por lo que se extraen datos de una muestra representativa. Esta muestra
debe reflejar las características de la población y se obtiene mediante métodos de muestreo
aleatorio. La estadística inferencial busca hacer inferencias sobre la población en un entorno
de incertidumbre debido al azar y la aleatoriedad.
La estadística descriptiva se enfoca en describir y analizar un grupo de datos sin sacar
conclusiones o inferencias sobre un grupo mayor. Por otro lado, la estadística inferencial se
centra en deducir importantes conclusiones sobre una población a partir del análisis estadístico
de una muestra representativa de esa población.
Definiciones:
Población vs Muestra: La población es el conjunto hipotético de todas las
observaciones posibles del tipo que se está investigando, mientras que una muestra es
un conjunto parcial y limitado de esas observaciones extraídas de la población. Se
analizan muestras debido a la imposibilidad, falta de practicidad o costo de observar
toda la población.
Muestreo: La tarea de extraer una muestra de una población se llama muestreo. Para
que la muestra represente adecuadamente a la población, es crucial que el muestreo
se realice al azar. Una muestra al azar es aquella en la que todos los objetos tienen
igual probabilidad de ser seleccionados.
Tamaño de la muestra (n): Es el número de especímenes u objetos que componen la
muestra. A medida que el tamaño de la muestra aumenta, sus propiedades se vuelven
más similares a las de la población que representa.
Unidad de Observación o Unidad Experimental: Es el objeto sobre el cual se realizan
mediciones o se intenta clasificar en categorías. Cada individuo de la población es una
unidad de observación.
Variable (xi): Es cualquier característica o atributo que varía de una unidad de
observación a otra, ya sea en la población o en la muestra.
Las etapas en el análisis estadístico:
I. Planteo de la investigación y recolección de datos: En esta etapa se planifica cómo se llevará a
cabo la investigación para responder a las preguntas planteadas. Se define la población
objetivo, los métodos de selección de muestras, y otros detalles relacionados con la
recolección de datos.
II. Organización y sistematización de la información para su descripción y análisis: Esta etapa
implica resumir y explorar los datos recolectados. Se crean tablas de frecuencia, gráficos y se
calculan medidas de resumen (estadística descriptiva) para comprender mejor la información
recopilada.
1
III. Predicciones a través de la estimación y contrastación de hipótesis: Utilizando la
información organizada en la etapa anterior y métodos estadísticos, se realizan estimaciones y
se contrastan hipótesis para predecir resultados. Esto implica cuantificar la posibilidad de error
en las estimaciones y predicciones (estadística inferencial).
Los datos y su organización:
Los datos son tomados de una cierta población (o universo) objeto de estudio que llamaremos
la población objetivo y cada individuo de ese universo se denomina una unidad de
observación.
Tipos de variables: La variable es una característica o atributo de cada una de las unidades de
observación que se
quiere estudiar.
Las variables se pueden clasificar en:
- Cualitativas o categóricas: cuando los valores que asumen no son números. Por ejemplo, el
estado civil, la ciudad de residencia o la nacionalidad.
Ordinales: admiten un orden según algún criterio, por ejemplo, el nivel de escolaridad
alcanzado por las personas.
Nominales: no admiten un orden, como la nacionalidad.
- Cuantitativas: cuando los valores que toman son numéricos. Por ejemplo, la edad o la
estatura.
Discretas: cuando los valores que asumen son números enteros. Por ejemplo, cantidad
de miembros en la familia.
Continuas: cuando los valores que asumen son números reales, pueden tomar
cualquier número entre dos valores enteros
Tablas de frecuencia:
La frecuencia absoluta de un valor de la variable es la cantidad de veces que ese valor está en
el conjunto de datos (Cada valor de la variable tiene su propia frecuencia.)
La frecuencia relativa de un valor de la variable es la proporción de veces que ese valor está en
el conjunto de datos (el total de individuos observados en casa categoría/el total de frecuencia
absoluta).
La frecuencia porcentual de un valor de la variable es el porcentaje de veces que ese valor está
en el conjunto de datos (pasar la relativa a porcentaje)
Un histograma consiste en colocar los intervalos de clase en el eje de abscisas y sobre ellos un
rectángulo cuya altura es proporcional a la frecuencia. El polígono de frecuencias se obtiene
uniendo los puntos medios de los rectángulos con un segmento.
Medidas Descriptivas de Tendencia Central. Media Aritmética, Mediana y Moda
1. Funciones de Cálculo para Datos Individuales
2
Media Aritmética -Ẋ: es la cantidad total de la variable distribuida a partes iguales entre cada
observación. Se conoce comúnmente como promedio. Se calcula como la suma de los valores
que toma la variable en estudio dividida por el número total de unidades experimentales
observadas.
Mediana - Mₑ: valor de la variable que divide a un conjunto de observaciones (ordenadas en
forma creciente o decreciente) en dos subconjuntos que contienen la misma cantidad de datos.
Las observaciones en una mitad de la serie son menores o iguales al valor mediano y las
observaciones en la otra mitad son mayores o iguales al valor mediano
no puede calcularse con variables categóricas medidas en escala nominal
Con valores impares es el dato del centro, con pares es el promedio de los dos valores centrales
Moda - Mₒ: La moda es el valor de la variable de máxima frecuencia (el que más se repite).
También podemos decir que la moda es el valor de la variable con mayor frecuencia absoluta.
Distribuciones multimodales. Si en un grupo de datos, dos o más valores tienen la misma
frecuencia, y es la frecuencia máxima, entonces la distribución tiene dos o más modas y
decimos que es bimodal (2 modas), o multimodal (varias modas).
2. Funciones de Cálculo para Datos Ordenados en Tablas de Frecuencias sin Intervalos
(agrupamiento en categorías)
Media aritmética para datos agrupados en categorías (variables cuantitativas discretas): Se
obtiene al sumar todos los datos multiplicados por su frecuencia y dividir el resultado entre la
cantidad de datos.
Mediana: La mediana ocupa la posición central si n es impar, y es el promedio de los dos datos
centrales si n es par, cuando todos los datos están ordenados. Se debe encontrar el dato que
ocupa la siguiente posición, y luego, ubicar dicho valor de la variable (x) a partir de la columna
de frecuencias acumuladas (Ni = Fi). Posición =(n+1) /2
Moda. el valor con mayor frecuencia absoluta o el valor que ocurre con más frecuencia. Puede
no existir, incluso si existe puede no ser única (distribuciones bimodales, trimodales, etc.). El
valor de la moda cuando los datos están agrupados en categorías (variables cualitativas o
cuantitativas discretas), corresponde al o a los valores de la variable con máxima frecuencia
absoluta.
3. Funciones de Cálculo para Datos Ordenados en Tablas de Frecuencias por Intervalos de
Clase
Media aritmética para datos agrupados en clases de frecuencia (variables cuantitativas
continuas): sacar la marca de clase, multiplicarla por su frecuencia, y a la sumatoria de todos
los mi*fi/n
Mediana: para identificarla se necesita la frec. Acumulada, buscar la posición (n+1) / 2 y aplicar
la fórmula:
3
Donde:
Li: límite inferior del intervalo en el cual se encuentra la mediana.
n: número de datos del estudio. Es la sumatoria de las frecuencias absolutas.
Fi-1: frecuencia acumulada del intervalo anterior al que se encuentra la mediana.
Ai: amplitud del intervalo en el que se encuentra la mediana.
fi: frecuencia absoluta del intervalo en el que se encuentra la mediana.
Moda : utilizar la fórmula
Donde:
Li: límite inferior del intervalo en el cual se encuentra la moda.
fi-1: frecuencia absoluta del intervalo anterior en el que se encuentra la moda.
fi: frecuencia absoluta del intervalo en el que se encuentra la moda.
fi+1: frecuencia absoluta del intervalo siguiente en el que se encuentra la moda.
Ai: amplitud del intervalo en el que se encuentra la moda.
Medidas Descriptivas de Orden
Funciones de Cálculo
Cuartiles. Son valores que dividen a la distribución en cuatro partes iguales. Se representan por
Q1 , Q2 , Q3 ; se llaman primero, segundo y tercer cuartil (corresponden al 25%, 50%, 75% de
la distribución). El segundo cuartil es igual a la mediana.Q2=Me
Posición Q1 = (n+1)/4
Posición Q2 = (n+1)/2
Posición Q3= 3*(n+1)/4
Deciles. Son valores que dividen a la distribución de frecuencias en diez partes iguales (D1, D2,
etc.). El quinto decil es igual a la mediana. D5=Mediana
Percentiles. Son valores que dividen a los datos en cien partes iguales (P1, P2, etc.). El Percentil
50 es igual a la mediana. P50=Mediana.
1. Cuartiles para datos individuales
Posición Q1 = (n+1)/4 = 8/4 = 2 {5, 6, 8, 9, 11, 11, 12} Q1 =6
Posición Q2 = (n+1)/2 = 8/2 = 4 {5, 6, 8, 9, 11, 11, 12} Q2 =9
2. Cuartiles para datos agrupados en Categorías: buscar el dato que ocupa la siguiente
posición, y luego, ubicar dicho valor de la variable (xi) a partir de la columna de
frecuencias acumuladas (Ni = Fi).
3. Cuartiles para datos agrupados en Intervalos de Frecuencias:
Encontrar el intervalo en el que se encuentran los Cuartiles y calcular los mismos usando las
funciones:
Posición Q1 = (n+1) /4 Q1 = Li + Ai * {[(n/4) - F(i - 1)]} / fi]
Posición Q1 = (n+1)/4 = 8/4 = 2 {5, 6, 8, 9, 11, 11, 12} Q1 =6
Posición Q2 = (n+1)/2 = 8/2 = 4 {5, 6, 8, 9, 11, 11, 12} Q2 =9
4
Posición Q2 = (n+1) /2 Q2 = Me = Li + Ai * {[(n/2) - F(i - 1)] / fi}
Posición Q3= 3*(n+1) /4 Q3 = Li + Ai * {[(3n/4) - F(i - 1)] / fi}
Donde:
Li: límite inferior del intervalo en el cual se encuentran los Cuartiles.
n: número de datos del estudio. Es la sumatoria de las frecuencias absolutas.
Fi-1: frecuencia acumulada del intervalo anterior al que se encuentran los Cuartiles.
Ai: amplitud del intervalo en el que se encuentran los Cuartiles.
fi: frecuencia absoluta del intervalo en el que se encuentran los Cuartiles.
Medidas de dispersión o variabilidad y medidas de forma
La variabilidad es una característica importante de los datos estadísticos, ya que las
mediciones realizadas en cualquier estudio difieren de una unidad experimental a otra.
La forma de la distribución de frecuencias, ya sea simétrica o asimétrica respecto a un
eje, así como la altura de dicha distribución, son características clave en la
representación gráfica de los datos.
Las medidas de tendencia central (posición - centro), como la media, la mediana y la
moda, describen el centro de los datos, pero no proporcionan información sobre la
dispersión o variabilidad de los mismos. En algunos casos, es crucial conocer la
dispersión o separación de los datos, lo cual se logra mediante medidas de dispersión o
variabilidad. Lo mismo ocurre en relación con la forma de la distribución.
Las medidas de dispersión son medidas estadísticas que miden la variabilidad en la distribución
de los datos. Las medidas de forma miden su sesgado y altura.
Dispersión o Variación. Es el grado en que los datos numéricos tienden a extenderse alrededor
de un valor medio. Intuitivamente podemos darnos cuenta de que una medida de posición es
más representativa del total de observaciones, si la variabilidad del conjunto es pequeña.
Las más empleadas son:
1. Rango, amplitud o recorrido. Es la diferencia entre el mayor y menor de todos ellos.
a. Características del rango:
1. Tiene la misma unidad de medida que las observaciones.
2. Se utiliza para tener una idea rápida del grado de dispersión de un conjunto de datos.
3. Es poco confiable.
4. El rango muestral es muy inestable.
5. El valor del rango no varía cuando se suma una constante K a cada observación de un
conjunto de datos.
6. El valor del rango si varía cuando se multiplica por constante K a cada observación de un
conjunto de datos
2. La desviación media.
Datos Individuales (Variables cuantitativas Discretas y Continuas). es la media aritmética
de los valores absolutos de lo que se desvía cada valor respecto a la media aritmética.
5
Datos agrupados en categorías o clases (Variables cuantitativas discretas):
Datos agrupados por intervalos de frecuencia. (Variables cuantitativas continuas).
2. Varianza. La varianza y la desviación estándar son medidas de dispersión o variabilidad, es
decir, indican la dispersión o separación de un conjunto de datos.
Para valores grandes de n (n>30) prácticamente no hay diferencia entre las dos definiciones.
3. Desviación estándar. raíz cuadrada positiva de la varianza.
4. Coeficiente de variación. es una medida de dispersión relativa (libre de unidades de
medida), se define como el cociente de la desviación estándar entre la media aritmética.
Elevando el coeficiente de variación al cuadrado obtenemos la Varianza relativa.
Propiedades de la Desviación Típica.
Para distribuciones normales (simétricas), existe una relación entre el área bajo la curva de la
distribución normal de probabilidad y la distancia respecto de la media medida en términos de
desviación estándar:
1. Aproximadamente el 68 % de todos los valores de una población distribuida
normalmente se encuentran dentro de 1 desviación estándar (tanto positiva como
negativa) respecto de la media.
2. Aproximadamente el 95.5 % de todos los valores en una población con distribución
normal se hallan dentro de 2 desviaciones estándar (tanto positiva como negativa) de
la media.
3. Aproximadamente el 99.7 % de todos los valores de una población distribuida
normalmente se encuentran dentro de 3 desviaciones estándar (tanto positiva como
negativa) respecto de la media.
6
Variable normalizada o tipificada
En la siguiente figura se considera que la desviación típica de la variable X es 10 puntos (desvío
= 10), la media de la variable es 70 puntos (µ= 70 puntos) y un puntaje individual 90 puntos (Xi
= 90 puntos).
De esta forma cuando se expresa la diferencia entre la media y un valor individual en términos
de la desviación típica se dice que la desviación Xi - µ se ha tipificado o normalizado. Este
procedimiento permite hacer comparaciones de la dispersión de los valores individuales en
distribuciones diferentes.
Medidas de Asimetría: La asimetría se refiere al grado de falta de simetría en una distribución.
Si la curva de frecuencias tiene una cola más larga hacia la derecha del máximo central que
hacia la izquierda, se dice que la distribución está sesgada a la derecha, lo que se conoce como
sesgo positivo o asimetría positiva. Por otro lado, si la cola es más larga hacia la izquierda, se
dice que la distribución está sesgada a la izquierda, lo que se denomina sesgo negativo o
asimetría negativa.
Medidas de Curtosis: Es el grado de apuntamiento o curtosis de una distribución, se puede
calcular empleando el momento de cuarto orden:
Se sustraen 3 (que es la curtosis de la Distribución Normal) con objeto de generar un
coeficiente que valga 0 para la Normal y tome a ésta como referencia de apuntamiento.
Tomando la distribución normal como referencia, una distribución puede ser:
Leptocúrtica. Más apuntada y con colas más anchas que la normal.
Platicútica. Menos apuntada y con colas menos anchas que la normal.
Mesocúrtica. Es la distribución normal o de Gauss.
7
Una distribución perfectamente normal posee valores cero de asimetría y curtosis.
Probabilidades
La probabilidad de un evento es un número (entre 0 y 1), que indica las posibilidades de que
ocurra un experimento aleatorio.
Los experimentos tipo A o Deterministas, son aquellos en los que podemos predecir el
resultado antes de realizarlos. Por ejemplo, si dejamos caer una piedra desde una ventana,
sabemos con certeza que caerá al suelo. Incluso si la arrojamos hacia arriba, podemos prever
que subirá durante un cierto tiempo y luego caerá.
Los experimentos tipo B o Aleatorios, son aquellos en los que el resultado depende del azar.
Un experimento aleatorio puede ser repetido bajo las mismas condiciones, y se puede describir
el número de resultados posibles. El resultado no puede ser predicho con certeza antes de
realizarlos. Sin embargo, es posible prever una ley de comportamiento de todos los resultados
8
posibles. Por ejemplo, lanzar un dado es un experimento aleatorio, ya que el resultado
depende del azar y hay seis resultados posibles: los números del uno al seis.
Espacio muestral (S/Ω). Es el conjunto de todos los resultados posibles de un experimento
aleatorio.
Evento o suceso. Conjunto de uno o más resultados del experimento aleatorio
Teoría de probabilidades
Evento elemental: cada elemento que forma parte del espacio muestral.
Evento compuesto: cualquier subconjunto del espacio muestral.
Evento seguro: formado por todos los posibles resultados.
Evento imposible: (Ø) no tiene ningún elemento.
Evento compatible o No Mutuamente Excluyente: dos eventos con intersección mutua, con
elementos en común.
Evento incompatible o Mutuamente Excluyente: dos eventos sin intersección mutua, no hay
elementos en común.
Evento Independiente: cuando la probabilidad de que suceda un evento(A) no depende de que
suceda o no otro evento (B).
Evento dependiente: cuando la probabilidad de que suceda un evento (A) depende de que
haya sucedido o no un evento(B).
Operaciones: diagramas Venn
Intersección: Cuando los conjuntos pueden tener elementos comunes
Intersección de Eventos (A⋂B): se verifica cuando ocurren simultáneamente ‘A y B’.
Inclusión: Si todos los elementos de un conjunto son parte de los elementos de otro, se dice
que el primero es un subconjunto del segundo o que está incluido en el segundo.
Unión de Eventos (A⋃B): se verifica cuando ocurre ‘A o B’, o ambos.
Disyunción: Cuando los conjuntos no tienen elementos comunes, la región de superposición
queda vacía.
Diferencia de Eventos (A - B) : Es el formado por todos los elementos de A que no son de B.
Evento Complementario. Ā = E - A se llama Evento contrario o complementario de A.
La teoría de probabilidades se encarga de asignar un número a cada posible resultado en un
experimento aleatorio, con el fin de cuantificar esos resultados y determinar la probabilidad de
que ocurran. Este enfoque permite comparar la probabilidad de un evento con la de otro.
El desarrollo de la teoría matemática de las probabilidades surgió de esta necesidad de
cuantificar probabilidades. Esta teoría evolucionó hasta llegar a su formalización mediante la
axiomatización. Definición precisa de probabilidad: cualquier número que satisfaga los tres
axiomas fundamentales de la probabilidad es considerado una probabilidad válida.
9
La probabilidad nos ayuda a evaluar cuán confiables son las conclusiones que podemos sacar
de una muestra representativa de una población más grande, cuando esa muestra ha sido
seleccionada al azar y con una probabilidad determinada para cada elemento.
Existen tres teorías para medir la probabilidad:
Teoría clásica: La probabilidad de un evento A se define como el cociente entre el
número de resultados favorables y el número de resultados posibles.
Teoría frecuencial: si se repite un experimento aleatorio un número bastante grande
de veces, la probabilidad de un evento en particular puede asimilarse a la frecuencia relativa.
Asimila que la cantidad de veces que se presenta un evento es la frecuencia absoluta (ni) y la
frecuencia relativa (ni/n=hi) representa la proporción de veces que se presenta un evento en
particular, en la n repeticiones del experimento
Teoría axiomática: condiciones mínimas para que una función definida sobre un
conjunto de Eventos determine consistentemente sus probabilidades.
1. Todo evento en un experimento aleatoria siempre es ≥ 0 = p(A) ≥ 0
2. Probabilidad de todos los resultados posibles de un experimento aleatorio
p(W) = 1.
3. Probabilidad de eventos mutuamente excluyentes p(A⋃B) = p(A) + p(B)
Propiedades (derivan de los axiomas):
1. La probabilidad de un evento imposible es cero P(Ø)=0
2. Regla de complementación o regla del complemento P(Ā)=1-P(A)
3. Rango de variabilidad de las probabilidades. 0 ≤ P(A) ≤ 1
4. Regla de la suma para ev. NO Mutuamente excluyentes P(A⋃B) = P(A) + P(B) −
P(A⋂B)
5. Regla de la suma para eventos Mutuamente excluyentes P(A⋃B) = P(A) +P(B)
Cálculo de probabilidades: es la teoría matemática que construye modelos para la descripción
y análisis de los eventos aleatorios.
Evento aleatorio: es el resultado de un experimento aleatorio.
Experimento aleatorio: es una operación realizada un cierto número de veces, bajo las mismas
condiciones de experimentación. Un resultado no puede preverse cuando se realiza una vez,
pero si se repite un número grande de veces, los resultados del experimento responderán a
una ley de comportamiento regular y previsible
Probabilidades Condicionadas
Se expresa como la probabilidad de que ocurra el evento B una vez ocurrido un evento A.
P(B|A) = P(B∩A) / P(A)
Regla de la multiplicación:
Eventos dependientes. P(A∩B) = P(B/A) * P(A) o P(A∩B) = P(A/B) * P(B)
Eventos independientes. (la ocurrencia de un evento, no afecta a la ocurrencia del otro)
P(A∩B) = P(B) * P(A)
Tablas de Contingencia: método útil para clasificar los datos obtenidos en un recuento.
Diagrama en Árbol: diagrama en árbol se partirá poniendo una rama para cada una de las
posibilidades, acompañada de su probabilidad.
10
11