001.
Repaso Examen
Home Estadística Descriptiva y Probabilidades
Fecha: 2025-04-15 Hora: 08:58
Main Notes
1 Introducción
La estadistica permite:
Minimizar riesgo
Aprovechar oportunidades
Maximizar ganancias
Es la cienci aque estudia la recolección, organización, analisis e interpretatacion y
presentación de datos numeroso con el finde describir fenomenos y toma decisiones
fundamentadas.
Describe los datos y hace la inferencia
1.1 Dato estadistica e indicador
Dato: Unidad minima de información que representa una carateristica de un fenomeno
Estadistica Resultado de un proceso estructurado de recolección y analisis de información
Indicadro medida derivada de la estadistica mediante operaciones matematicas para
facilitar comparaciones.
2 Sistemas nacionales de información de estadística
Es un conjunto coordinado de instituciones, normas, metodología y procesos que garantizan la
producción, recopilación, análisis y difusión y acceso a estadísticas oficiales de un país.
Su propósito es el de proporcionar estadísticas e indicadores confiables y comparables para la
toma de decisiones en políticas públicas.
Instituciones responsables: INE, BCB, Ministerios, gobiernos sub nacionales
Normas y estándares: Aplicación de metodologías
Infraestructura de datos: Uso de censos, encuestas y registros administrativos
Acceso y difusión: Publicación de datos abiertos y disponibles para la sociedad.
Debe ser coherente, transparente, basado en estándares internacionales, independiente e
imparcial
2.1 Que produce Un (SNIE) Sistema nacional de información de
estadística
Estadísticas Básicas
Estadísticas de síntesis
Estadísticas de compilación
3 Estadística descriptiva e inferencia
Estadística descriptiva: Organiza, resume y presenta datos mediante tablas gráficos y
médicas numéricas
Describe un conjunto de datos sin hacer conclusines mas allá de ellos.
Inferencia estadística: Extrae conclusiones sobre una población a partir de una muestra
utilizando probabilidades y estimaciones.
Generaliza resultados de una muestra a una poblacion completa.
4 Medidas de tendencia central
4.1 Media (promedio)
Solamente es el promedio, es decir, la suma de todos los datos dividida por el número tal de
valores.
Es sensible a los valores extremos, es decir valores muy altos o muy bajos, la media puede
desplazarse significativamente.
4.2 Mediana
Valor medio de un conjunto de datos que fue ordenado de menor a mayor, es impar será
exactamente el valor central, si es par la mediana es la media en los dos valores centrales que
se encuentran en el medio.
Fórmula si los datos son impares para calcular la posición donde se encuentra el valor que
representara a la mediana.
(n + 1)/2
Si el total n de todos los datos de la población son pares entonces deberemos tomar en cuenta
el promedio de los dos datos centrales.
4.3 Moda
Es el valor que mas se repite en el conjunto de población que se esta estudiando. (puede ser
unimodal bimoral o multimodal)
4.4 Relación entre media y mediana y sesgo de distribución.
Si la media y la mediana son iguales o cercanamente iguales la distribución tiende a ser
simétrica
SE la media es mayor a la mediana la distribución está segada a la derecha
Si la media es menor a la mediana, lo reverso del ejercicio anterior la distribución tiende a
estar sesgada a la izquierda.
5 Medidas de disperción
Las medidas de dispersión nos indican cuanto se extienden o se dispersan los valores en un
conjunto de datos al rededor de la medida de tendencia central que se esta usando
Generalmente es la media (promedio) dos de las medidas de disperción mas importantes
son la varianza y la desviación estandar.
5.1 La varianza
La varianza es la suma de los cuadrados, es una formula que debe hacerse por partes con
cada uno de los elementos de la población por lo que es un poco extensa su formula es:
Donde primeramente debemos sacar el promedio para luego restarlo por cada uno de los
terminos antes de elevarlo al cuadrado, cabe recalcar que esta es la formula para
POBLACIÓN. La formula para muestra es la misma pero en n se debe restar 1:
5.2 Desviación estandar
La desviación estandar es solamente la raiz cuadrada de la varianza es por eso que es mas
simple, si estamos siguiendo los pasos de manera secuencial.
5.3 Rango
Es demasiado facil es simplemente la diferencia o la resta entre los doa valore extremos, es
decir el valor maximo y el valor minimo.
Rango = M aximo − M inimo
6 Coeficiente de variación (CV)
Se debe calcular después de la varianza, no es más que la varianza dividida entre el promedio
o la media de la suma de los datos obtenidos. Finalmente, para dar la respuesta en
porcentajes se multiplica por 100%
Sirve para ver si los datos varian mucho o no, generalemente se toma en cuenta que los datos
varian mucho cuando el CV es mayo al 25%.
7 Percentiles
Son medidas que dividen un conjunto de datos ordenando en cien partes iguales, el percentil k
indica que el k% de los datos se encuentra por debajo de ese valor.
En el percentil 25 del primer cuartil indica que el 25% de los datos esta por debajo de este
valor.
En el percentil 50 es la mediana, el valor del medio esto indica que el 50% de los datos
esta por debajo de este valor.
Si el puntaje de un estudiante en una prueba se encuentra en el percentil 75 significa que
el 75% de los estudiantes que tomaron la prueba obtuvieron un puntaje igual o inferior al de
este estudiante. En otras palabras, este estudiante supero al 75% de los demás
estudiantes.
Para calcular la posición dentro del percentil usamos:
8 Forma de distribución
Al analizar un conjunto de datos la forma de distribución nos ayuda a entender la forma como
se distribuyen los valores. Una característica importante es su Simetría o asimetría
8.1 Distribución simetrica
Los datos se distribuyen de manera uniforma alrededor del centro.
La media, la mediana y la moda tienden a ser iguales o muy cercanas.
Si se llegara a usar o dibujar una curva de distribución podríamos doblarla por la mitad y
las dos partes coincidirían aproximadamente.
8.2 Distribución sesgada
Esto ocurre cuando la mayoria de los datos se centran en un lado de la distribución dejando
una cola mas larga hacia el lado contrario.
Sesgo a la derecha (positivo)
Se cumple con la media es mayor que la mediana,
Sesgo a la izquierda (negativo)
Se cumple que la media es menor que la mediana
9 Medidas de posición ***
9.1 Percentiles
7 Percentiles
Son medidas que dividen un conjunto de datos ordenando en cien partes iguales, el
percentil k indica que el k% de los datos se encuentra por debajo de ese valor.
En el percentil 25 del primer cuartil indica que el 25% de los datos esta por debajo de
este valor.
En el percentil 50 es la mediana, el valor del medio esto indica que el 50% de los datos
esta por debajo de este valor.
Si el puntaje de un estudiante en una prueba se encuentra en el percentil 75 significa
que el 75% de los estudiantes que tomaron la prueba obtuvieron un puntaje igual o
inferior al de este estudiante. En otras palabras, este estudiante supero al 75% de los
demás estudiantes.
Para calcular la posición dentro del percentil usamos:
Es decir que si tu resultado esta en el p90 significa que superaste el 90% de los casos de la
población total.
9.2 Cuarties
Son perentiles especiales que dividien los datos en 4 partes iguales:
q1 = Percentil 25 (p25) significa que el 25% de los datos esta debajo
q2 = P50 es la mediana, significa que el 50% de los datos esta por debajo
q3 = P75 el 75% de los datos esta por debajo.
Rango intercuartilico : Mide la disperción central de los datos (muy usado para detectar outliers
en bloxpot)
9.3 Z-score
Sirve para comparar datos de diferentes escalas y saver cuan lejos esta un valor de la media o
promedio en undiades de desviación estandar.
Donde:
X Dato
U = Media
o = desviación estandar
INTERPRETACIÓN
Si z = 0 → el dato está en la media.
Si z = 1 → está 1 desviación estándar por encima.
Si z = -1 → está 1 desviación estándar por debajo.
10 Bloxplot y Datos atípicos (Outliers)
Un boxplot es un grafico que resume la distribución de un ocnjuto de datos usando:
Cuartiles
Datos atipicos o outliers
Disperción, rango intercuartilico
10.1 Como detectar datos atipicos (outliers)
Calcular q1 y q3
calculo del IQR
Multiplicar el rango intercuartilico (que es lo mismo que la disperción central) o IQR por 1,5
Calcular los límites
Limite inferior q1-A
Limite superior q3 + A
Los datos que se encuentren menores al limite inferior o mayore al limite superior son
considerados atípicos.
10.2 Sesgo
Sesgo positivo (cola hacia la derecha): Hay valores extremos grandes (ejemplo: ventas
excepcionales).
Sesgo negativo (cola hacia la izquierda): Hay valores extremos pequeños.
Sesgo cero: Distribución simétrica.
11 Medidas de asociación: Correlación
La correlación es una medida que nos dice que tan relacionada esta una variable con otra.
Estas medidas aumentan o disminuyen juntas. pero corralación es distinto de causalidad
que dos cosas esten relacionadas no significa que una cause la otra
11.1 Correlación Pearson
mide la relacion lineal entre dos variables númericas varia entre -1 y 1
Importante formulario
Valor de r Interpretación
r=1 Correlación positiva perfecta
r = -1 Correlación negativa perfecta
r≈0 No hay relación lineal significativa
0.7 a 0.9 Fuerte positiva
0.3 a 0.6 Moderada positiva
0 a 0.2 Débil o casi nula
11.2 Tipos de correlación
Tipo Ejemplo
Positiva +1 → Ambas variables suben juntas
Negativa -1 → Una sube, la otra baja
Nula o débil 0 → No hay relación
Ejemplo práctico (como en tu examen):
Te dieron:
r = 0.02 → esto es casi 0
→ Según la tabla: No hay relación lineal significativa
Como calcular el valor r pearson
12 Distribución y frecuencia tablas
Una distribución de frecuencia es una tabla que muestra cuantas veces es decir la frecuencia F
ocurre cada dato o cada interbalo de datos en un conjjuntos
Resume datos grandes
Visualiza la tendencia a la disperción
Facilita construir grafico como histogramas, poligonos de frecuencia y ojivas.
Intervalo o Frecuencia absoluta Frecuencia relativa Frecuencia
dato (f) (%) acumulada
Ej: 10-20 5 25% 5
Asi es como se ve una tabla de frecuencias donde F es igual al numero de veces que se repite
un dato en ese conjunto y la frecuencia relativa deriva de la siguiente formula
finalmente la frecuencia acumulada no es mas que la suma progresiva de las frecuencias hasta
cierto punto.
Tipos de gráficos basados en tablas de frecuencia (según tus diapos):
1. Gráficos para variables cuantitativas:
Histograma: Barras pegadas (para intervalos de datos continuos).
Polígono de frecuencia: Línea que une los puntos medios de cada barra.
Ojiva: Línea que muestra la frecuencia acumulada.
2. Gráficos para variables cualitativas:
Gráfico de torta (pie): Muestra proporciones relativas.
Gráfico de barras: Usado para contar categorías (ej: tipo de eliminación de basura en
Bolivia, según tu diapositiva).
Gráfico Pareto: Barras ordenadas de mayor a menor frecuencia.
3. Gráfico de dispersión (nube de puntos):
Se usa para comparar dos variables numéricas (como edad vs ventas).
Los puntos importantes son
Concepto Uso
Frecuencia absoluta Número de veces que aparece un dato
Concepto Uso
Frecuencia relativa Porcentaje sobre el total
Frecuencia acumulada Suma progresiva de las frecuencias
Histograma Para datos cuantitativos (barras pegadas)
Gráfico de barras Para datos cualitativos
Ojiva Muestra frecuencias acumuladas
Gráfico Pareto Barras ordenadas de mayor a menor
13 Relación entre dispersión y desviación estándar
Si los datos están más separados entre sí (más dispersos), la desviación estándar será
mayor.
"Mientras mayor sea la desviación estandar la cual es resultado de la varianza, mayor sera la
separación entre los datos del conjunto analizado"
Para calcular estos valores como en el examen pide una comparación debemos de: usar la
formula de la varianza calcularla y luego sacar la raiz cuadrada de la misma.
La formula varia si se trata de una población o de una muestra.
14 Como identificar medidas erróneas
Para identificar estos errores existen 3 formulas basicas correspondientes respectivamente a la
media, la mediana y la moda.
1. La media es afectada por valores extremos
2. La mediana es absoluta, es decir si hay outliers la mediana es mejor resumen central que
la media.
3. La moda siempre existe si hay valores repetidos, si todos los valores son diferente no hay
moda.
14.1 Pregunta del examen
Datos: 3, 3, 4, 4, 5, 5, 8, 8, 50, 50
La media será alta (por los dos valores 50 que son extremos).
La mediana quedará en 5 (no le afecta que haya 50s extremos).
La moda existe: hay repetidos (3, 4, 5, 8, 50 todos se repiten).
Important points
Questions
Summary