0% encontró este documento útil (0 votos)
19 vistas13 páginas

Repaso Examen

El documento proporciona un repaso sobre estadística descriptiva y probabilidades, abordando conceptos clave como la recolección y análisis de datos, medidas de tendencia central (media, mediana, moda), dispersión (varianza, desviación estándar), y correlación. También se discuten sistemas nacionales de información estadística y la importancia de la transparencia y comparabilidad en los datos. Se incluyen ejemplos prácticos y fórmulas para calcular diferentes medidas estadísticas y gráficos para visualizar datos.

Cargado por

Luis Salinas
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
19 vistas13 páginas

Repaso Examen

El documento proporciona un repaso sobre estadística descriptiva y probabilidades, abordando conceptos clave como la recolección y análisis de datos, medidas de tendencia central (media, mediana, moda), dispersión (varianza, desviación estándar), y correlación. También se discuten sistemas nacionales de información estadística y la importancia de la transparencia y comparabilidad en los datos. Se incluyen ejemplos prácticos y fórmulas para calcular diferentes medidas estadísticas y gráficos para visualizar datos.

Cargado por

Luis Salinas
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

001.

Repaso Examen
Home Estadística Descriptiva y Probabilidades
Fecha: 2025-04-15 Hora: 08:58

Main Notes
1 Introducción
La estadistica permite:

Minimizar riesgo

Aprovechar oportunidades

Maximizar ganancias
Es la cienci aque estudia la recolección, organización, analisis e interpretatacion y
presentación de datos numeroso con el finde describir fenomenos y toma decisiones
fundamentadas.
Describe los datos y hace la inferencia

1.1 Dato estadistica e indicador


Dato: Unidad minima de información que representa una carateristica de un fenomeno

Estadistica Resultado de un proceso estructurado de recolección y analisis de información

Indicadro medida derivada de la estadistica mediante operaciones matematicas para


facilitar comparaciones.

2 Sistemas nacionales de información de estadística


Es un conjunto coordinado de instituciones, normas, metodología y procesos que garantizan la
producción, recopilación, análisis y difusión y acceso a estadísticas oficiales de un país.
Su propósito es el de proporcionar estadísticas e indicadores confiables y comparables para la
toma de decisiones en políticas públicas.

Instituciones responsables: INE, BCB, Ministerios, gobiernos sub nacionales

Normas y estándares: Aplicación de metodologías

Infraestructura de datos: Uso de censos, encuestas y registros administrativos

Acceso y difusión: Publicación de datos abiertos y disponibles para la sociedad.


Debe ser coherente, transparente, basado en estándares internacionales, independiente e
imparcial

2.1 Que produce Un (SNIE) Sistema nacional de información de


estadística

Estadísticas Básicas

Estadísticas de síntesis

Estadísticas de compilación

3 Estadística descriptiva e inferencia


Estadística descriptiva: Organiza, resume y presenta datos mediante tablas gráficos y
médicas numéricas
Describe un conjunto de datos sin hacer conclusines mas allá de ellos.

Inferencia estadística: Extrae conclusiones sobre una población a partir de una muestra
utilizando probabilidades y estimaciones.
Generaliza resultados de una muestra a una poblacion completa.

4 Medidas de tendencia central


4.1 Media (promedio)
Solamente es el promedio, es decir, la suma de todos los datos dividida por el número tal de
valores.
Es sensible a los valores extremos, es decir valores muy altos o muy bajos, la media puede
desplazarse significativamente.

4.2 Mediana
Valor medio de un conjunto de datos que fue ordenado de menor a mayor, es impar será
exactamente el valor central, si es par la mediana es la media en los dos valores centrales que
se encuentran en el medio.
Fórmula si los datos son impares para calcular la posición donde se encuentra el valor que
representara a la mediana.

(n + 1)/2

Si el total n de todos los datos de la población son pares entonces deberemos tomar en cuenta
el promedio de los dos datos centrales.

4.3 Moda
Es el valor que mas se repite en el conjunto de población que se esta estudiando. (puede ser
unimodal bimoral o multimodal)

4.4 Relación entre media y mediana y sesgo de distribución.

Si la media y la mediana son iguales o cercanamente iguales la distribución tiende a ser


simétrica

SE la media es mayor a la mediana la distribución está segada a la derecha

Si la media es menor a la mediana, lo reverso del ejercicio anterior la distribución tiende a


estar sesgada a la izquierda.

5 Medidas de disperción
Las medidas de dispersión nos indican cuanto se extienden o se dispersan los valores en un
conjunto de datos al rededor de la medida de tendencia central que se esta usando
Generalmente es la media (promedio) dos de las medidas de disperción mas importantes
son la varianza y la desviación estandar.

5.1 La varianza
La varianza es la suma de los cuadrados, es una formula que debe hacerse por partes con
cada uno de los elementos de la población por lo que es un poco extensa su formula es:
Donde primeramente debemos sacar el promedio para luego restarlo por cada uno de los
terminos antes de elevarlo al cuadrado, cabe recalcar que esta es la formula para
POBLACIÓN. La formula para muestra es la misma pero en n se debe restar 1:

5.2 Desviación estandar


La desviación estandar es solamente la raiz cuadrada de la varianza es por eso que es mas
simple, si estamos siguiendo los pasos de manera secuencial.
5.3 Rango
Es demasiado facil es simplemente la diferencia o la resta entre los doa valore extremos, es
decir el valor maximo y el valor minimo.

Rango = M aximo − M inimo

6 Coeficiente de variación (CV)


Se debe calcular después de la varianza, no es más que la varianza dividida entre el promedio
o la media de la suma de los datos obtenidos. Finalmente, para dar la respuesta en
porcentajes se multiplica por 100%
Sirve para ver si los datos varian mucho o no, generalemente se toma en cuenta que los datos
varian mucho cuando el CV es mayo al 25%.
7 Percentiles
Son medidas que dividen un conjunto de datos ordenando en cien partes iguales, el percentil k
indica que el k% de los datos se encuentra por debajo de ese valor.

En el percentil 25 del primer cuartil indica que el 25% de los datos esta por debajo de este
valor.

En el percentil 50 es la mediana, el valor del medio esto indica que el 50% de los datos
esta por debajo de este valor.
Si el puntaje de un estudiante en una prueba se encuentra en el percentil 75 significa que
el 75% de los estudiantes que tomaron la prueba obtuvieron un puntaje igual o inferior al de
este estudiante. En otras palabras, este estudiante supero al 75% de los demás
estudiantes.
Para calcular la posición dentro del percentil usamos:

8 Forma de distribución
Al analizar un conjunto de datos la forma de distribución nos ayuda a entender la forma como
se distribuyen los valores. Una característica importante es su Simetría o asimetría

8.1 Distribución simetrica


Los datos se distribuyen de manera uniforma alrededor del centro.

La media, la mediana y la moda tienden a ser iguales o muy cercanas.

Si se llegara a usar o dibujar una curva de distribución podríamos doblarla por la mitad y
las dos partes coincidirían aproximadamente.
8.2 Distribución sesgada
Esto ocurre cuando la mayoria de los datos se centran en un lado de la distribución dejando
una cola mas larga hacia el lado contrario.

Sesgo a la derecha (positivo)


Se cumple con la media es mayor que la mediana,

Sesgo a la izquierda (negativo)


Se cumple que la media es menor que la mediana

9 Medidas de posición ***


9.1 Percentiles

7 Percentiles
Son medidas que dividen un conjunto de datos ordenando en cien partes iguales, el
percentil k indica que el k% de los datos se encuentra por debajo de ese valor.

En el percentil 25 del primer cuartil indica que el 25% de los datos esta por debajo de
este valor.

En el percentil 50 es la mediana, el valor del medio esto indica que el 50% de los datos
esta por debajo de este valor.
Si el puntaje de un estudiante en una prueba se encuentra en el percentil 75 significa
que el 75% de los estudiantes que tomaron la prueba obtuvieron un puntaje igual o
inferior al de este estudiante. En otras palabras, este estudiante supero al 75% de los
demás estudiantes.
Para calcular la posición dentro del percentil usamos:
Es decir que si tu resultado esta en el p90 significa que superaste el 90% de los casos de la
población total.

9.2 Cuarties
Son perentiles especiales que dividien los datos en 4 partes iguales:
q1 = Percentil 25 (p25) significa que el 25% de los datos esta debajo
q2 = P50 es la mediana, significa que el 50% de los datos esta por debajo
q3 = P75 el 75% de los datos esta por debajo.

Rango intercuartilico : Mide la disperción central de los datos (muy usado para detectar outliers
en bloxpot)

9.3 Z-score
Sirve para comparar datos de diferentes escalas y saver cuan lejos esta un valor de la media o
promedio en undiades de desviación estandar.

Donde:
X Dato
U = Media
o = desviación estandar
INTERPRETACIÓN

Si z = 0 → el dato está en la media.


Si z = 1 → está 1 desviación estándar por encima.

Si z = -1 → está 1 desviación estándar por debajo.

10 Bloxplot y Datos atípicos (Outliers)


Un boxplot es un grafico que resume la distribución de un ocnjuto de datos usando:

Cuartiles

Datos atipicos o outliers

Disperción, rango intercuartilico

10.1 Como detectar datos atipicos (outliers)

Calcular q1 y q3

calculo del IQR


Multiplicar el rango intercuartilico (que es lo mismo que la disperción central) o IQR por 1,5
Calcular los límites

Limite inferior q1-A

Limite superior q3 + A
Los datos que se encuentren menores al limite inferior o mayore al limite superior son
considerados atípicos.

10.2 Sesgo

Sesgo positivo (cola hacia la derecha): Hay valores extremos grandes (ejemplo: ventas
excepcionales).

Sesgo negativo (cola hacia la izquierda): Hay valores extremos pequeños.

Sesgo cero: Distribución simétrica.

11 Medidas de asociación: Correlación


La correlación es una medida que nos dice que tan relacionada esta una variable con otra.

Estas medidas aumentan o disminuyen juntas. pero corralación es distinto de causalidad


que dos cosas esten relacionadas no significa que una cause la otra

11.1 Correlación Pearson


mide la relacion lineal entre dos variables númericas varia entre -1 y 1
Importante formulario

Valor de r Interpretación
r=1 Correlación positiva perfecta
r = -1 Correlación negativa perfecta
r≈0 No hay relación lineal significativa
0.7 a 0.9 Fuerte positiva
0.3 a 0.6 Moderada positiva
0 a 0.2 Débil o casi nula

11.2 Tipos de correlación

Tipo Ejemplo
Positiva +1 → Ambas variables suben juntas
Negativa -1 → Una sube, la otra baja
Nula o débil 0 → No hay relación

Ejemplo práctico (como en tu examen):

Te dieron:
r = 0.02 → esto es casi 0
→ Según la tabla: No hay relación lineal significativa
Como calcular el valor r pearson

12 Distribución y frecuencia tablas


Una distribución de frecuencia es una tabla que muestra cuantas veces es decir la frecuencia F
ocurre cada dato o cada interbalo de datos en un conjjuntos

Resume datos grandes

Visualiza la tendencia a la disperción

Facilita construir grafico como histogramas, poligonos de frecuencia y ojivas.


Intervalo o Frecuencia absoluta Frecuencia relativa Frecuencia
dato (f) (%) acumulada
Ej: 10-20 5 25% 5

Asi es como se ve una tabla de frecuencias donde F es igual al numero de veces que se repite
un dato en ese conjunto y la frecuencia relativa deriva de la siguiente formula

finalmente la frecuencia acumulada no es mas que la suma progresiva de las frecuencias hasta
cierto punto.

Tipos de gráficos basados en tablas de frecuencia (según tus diapos):

1. Gráficos para variables cuantitativas:

Histograma: Barras pegadas (para intervalos de datos continuos).

Polígono de frecuencia: Línea que une los puntos medios de cada barra.

Ojiva: Línea que muestra la frecuencia acumulada.

2. Gráficos para variables cualitativas:

Gráfico de torta (pie): Muestra proporciones relativas.

Gráfico de barras: Usado para contar categorías (ej: tipo de eliminación de basura en
Bolivia, según tu diapositiva).

Gráfico Pareto: Barras ordenadas de mayor a menor frecuencia.

3. Gráfico de dispersión (nube de puntos):

Se usa para comparar dos variables numéricas (como edad vs ventas).


Los puntos importantes son

Concepto Uso
Frecuencia absoluta Número de veces que aparece un dato
Concepto Uso
Frecuencia relativa Porcentaje sobre el total
Frecuencia acumulada Suma progresiva de las frecuencias
Histograma Para datos cuantitativos (barras pegadas)
Gráfico de barras Para datos cualitativos
Ojiva Muestra frecuencias acumuladas
Gráfico Pareto Barras ordenadas de mayor a menor

13 Relación entre dispersión y desviación estándar


Si los datos están más separados entre sí (más dispersos), la desviación estándar será
mayor.
"Mientras mayor sea la desviación estandar la cual es resultado de la varianza, mayor sera la
separación entre los datos del conjunto analizado"
Para calcular estos valores como en el examen pide una comparación debemos de: usar la
formula de la varianza calcularla y luego sacar la raiz cuadrada de la misma.

La formula varia si se trata de una población o de una muestra.

14 Como identificar medidas erróneas


Para identificar estos errores existen 3 formulas basicas correspondientes respectivamente a la
media, la mediana y la moda.

1. La media es afectada por valores extremos

2. La mediana es absoluta, es decir si hay outliers la mediana es mejor resumen central que
la media.

3. La moda siempre existe si hay valores repetidos, si todos los valores son diferente no hay
moda.

14.1 Pregunta del examen


Datos: 3, 3, 4, 4, 5, 5, 8, 8, 50, 50
La media será alta (por los dos valores 50 que son extremos).

La mediana quedará en 5 (no le afecta que haya 50s extremos).

La moda existe: hay repetidos (3, 4, 5, 8, 50 todos se repiten).

Important points
Questions
Summary

También podría gustarte