0% encontró este documento útil (0 votos)
16 vistas61 páginas

Introducción a la Estadística Descriptiva

El documento presenta una introducción a la práctica de la estadística, enfocándose en los objetivos de describir e inferir datos a través de tablas, gráficos y medidas de tendencia central y dispersión. Se discuten diferentes métodos de presentación de datos cualitativos y cuantitativos, así como la importancia de utilizar gráficos adecuados para representar información. Además, se abordan conceptos clave como la moda, media, mediana y varianza, enfatizando la relevancia de elegir la medida adecuada según la naturaleza de los datos.

Cargado por

Michell Guerra
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PPTX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
16 vistas61 páginas

Introducción a la Estadística Descriptiva

El documento presenta una introducción a la práctica de la estadística, enfocándose en los objetivos de describir e inferir datos a través de tablas, gráficos y medidas de tendencia central y dispersión. Se discuten diferentes métodos de presentación de datos cualitativos y cuantitativos, así como la importancia de utilizar gráficos adecuados para representar información. Además, se abordan conceptos clave como la moda, media, mediana y varianza, enfatizando la relevancia de elegir la medida adecuada según la naturaleza de los datos.

Cargado por

Michell Guerra
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PPTX, PDF, TXT o lee en línea desde Scribd

Introducción a la Práctica de la

Estadística
EGOB-2601
2025 - 1
semana 2

Carlos Willian Rincón


cw.rincon54@[Link]
Descripción de datos

* Estas notas están basadas en las filminas de François Nielsen, University of North Carolina, Chapel Hill, Otoño 2009
Objetivos de la Estadística

• Describir
– Tablas y gráficos
– Tendencia central o localización
– Dispersión o variación
– Formal
• Inferir/estimar
– Probabilidad
– Distribuciones de probabilidad
– Estimación (puntual y por intervalos de confianza)
– Pruebas de hipótesis
– Modelos explicativos
Objetivos de la Estadística

• Describir
– Tablas y gráficos
Presentando datos cualitativos
Conteos y porcentajes
• Una variable categórica puede presentarse:
– En una tabla, los conteos o los porcentajes
observados en cada categoría.
– En un gráfico, de barras o en uno tipo torta.
• Los porcentajes para cada categoría “j” se
calculan así:

– Donde “n” es el tamaño de la muestra (el


número total de individuos).
Presentando datos cualitativos
Conteos y porcentajes
• En la tabla se presentan los resultados de una
encuesta sobre la intención de voto para el plebicito
de 1988 en Chile:
Presentando datos cualitativos
Conteos y porcentajes
• Facilísimo de obtener en Stata:
Presentando datos cualitativos
Conteos y porcentajes
• Ayudan muchísimo las representaciones gráficas.
• Gráfico de barras:
Presentando datos cualitativos
Conteos y porcentajes
• Ayudan muchísimo las representaciones gráficas.
• Gráfico tipo torta:
Gráficos de barras y tipo torta

• Algo que les mencioné antes: es mejor utilizar


gráficos de barra que los tipo torta
– Investigaciones muestran que la gente entiende mejor
diferencias relativas al ver el tamaño de lineas rectas (y
no pedazos de tortas)
Gráficos de puntos (scatter-plots)

• Una alternativa más para graficar datos y


encontrar tendencias
• Como veremos, estos gráficos son muy útiles
cuando tenemos tablas con varias variables
Gráficos mal usados

• Un ejemplo de
un mal uso de
gráficos:
– Cleveland (1994),
figuras 4.19 y
4.40
Presentando datos cuantitativos
Series de tiempo
• Datos de series de tiempo:
– Son datos recogidos para un misma unidad de
observación (individuo) a través de sucesivos periodos
de tiempo
– Los datos son recogidos con la misma periodocidad: cada
hora, día, mes, año, década…
– Hay una sola observación por punto en el tiempo
• Gráficos de series de tiempo:
– Se acostumbra usar graficos de líneas con la variable en
el eje vertical y el tiempo en el eje horizontal
– La idea es buscar tendencias en el tiempo y desviaciones
del patrón general
Presentando datos cuantitativos
Series de tiempo
• Ejemplo: Tasa de arresto de hombres por robo (por
100mil habitantes) en Canadá, 1931-1968
Presentando datos cuantitativos
Series de tiempo
• Ejemplo: Tasa de divorcio (por 1000 mujeres
casadas) en los EEUU, 1920-2000
Presentando datos cuantitativos
Series de tiempo
• Ejemplo: Edad promedio de menarquía en 5 países
occidentales
Presentando datos cuantitativos
Series de tiempo
• Ejemplo: Balanza comercial entre Inglaterra y EEUU, 1770-
1782 (Publicada en 1785!)
Presentando datos cuantitativos
Series de tiempo
• Ejemplo: Balanza comercial entre Dinamarca y Noruega,
1700-1760 (Publicada en 1786!)
Presentando datos cuantitativos
Análisis de información georeferenciada
• El panel de la izquierda muestra la tasa de homicidios por cada 100.000
habitantes a nivel municipal.
• El panel de la derecha muestra el porcentaje de padres que afirman no realizar
ningún tipo de actividad con sus hijos menores de cinco años (i.e., negligencia
parental) por departamento.
• Cálculos propios con base en la ENCV 2013 y Ministerio de Defensa Nacional.
Presentando datos cuantitativos
Análisis de información georeferenciada
• Panel izquierdo: Colegios y homicidios, Cali 2012
• Panel derecho: Colegios en los que se observa un homicidio en
la semana antes de la Prueba SABER 11, Cali 2012
Presentando datos cuantitativos
Histogramas
• Las variables cuantitativas pueden tomar muchos
valores… de hecho, infinitos valores!
• No ayuda mucho presentar directamente la
distribución de la variable (conteos y/o porcentajes)
– En muy pocos casos vamos a observar exactamente el
mismo valor para la variable…
– Lo cual hace que los graficos de barra y las tortas sean
tan complicados que no dicen nada!
– Y terminamos es listando el valor de la variable para cada
caso…
– Por esta razón utilizamos histogramas y curvas de
densidad de kerneles (kernel density curves)
Presentando datos cuantitativos
Histogramas
• Tenemos una base de datos con 105 casos
• Cada caso recoge para un país: los ingresos per
capita (income), las tasa de mortalidad infantil
(infant), la región (region) y la tenencia de petróleo
Presentando datos cuantitativos
Histogramas
• Definamos primero: individuos, variables, casos,
observaciones y tipos de variables (cuantitativa o
cualitativa).
Presentando datos cuantitativos
Histogramas
• Un histograma es un gráfico de barras que muestra el
conteo o porcentaje de casos que caen en unos
“cajones”
– Eje horizontal: el rango de la variable, i.e., cada cajón
– Eje vertical: el conteo o porcentaje de casos en cajón
• Son fáciles de hacer:
1. Se divide el rango de la variable en intervalos del mismo
tamaño: cada intervalo es un cajón
• Cada caso cae en un solo cajón
2. Se cuenta el número de individuos que cae en cada cajón y se
dibuja una barra que representa este número
• Dato curioso: a diferencia de los gráficos de barras, se acostumbra a
que los lados de las barras del histograma sí se tocan para mostrar que
estamos graficando una variable continua!
Presentando datos cuantitativos
Histograma: Mortalidad infantil
• El primer paso es construir
los cajones:
– Por simplicidad escogemos
14 cajones
• Después se determina el
número de casos que caen
en cada cajon del
histograma
Presentando datos cuantitativos
Histograma: Mortalidad infantil
• Y hacemos la
representación gráfica de
estos conteos:
Presentando datos cuantitativos
Análisis de un histograma
Nos interesan principalmente dos cosas cuando
examinamos un histograma:

1. Analizar patrones en los datos que describen la


forma, el centro y la dispersión de la distribución.

2. Buscar y encontrar casos que no sigan el patrón


general, como los valores extremos:
– Valores individuales que caen fuera del patrón general
de los datos.
Objetivos de la Estadística

• Describir

Medidas de tendencia central


– Moda
– Media
– Mediana
Estadísticas descriptivas
La moda
• Definición: es el valor intervalo o categoría con el
mayor número de observaciones (frecuencia)… es
el valor que más se repite!
– Es muy útil para describir datos cualitativos
– Problema: cuando usamos un histograma, la moda
depende de nuestra definición de los cajones
Distribución Bi-modal Distribución Uni-modal
Estadísticas descriptivas
La media:
• La media la representamos con el símbolo (“x-
barra”)
• Se calcula como el promedio arimético:
– Se suman todos los puntajes, y se divide por el número
total de casos
• Es la medida más común de tendencia central
• Pero no siempre es la mejor:
– Si la distribución está sesgada, la media puede no ser la
mejor medida de tendencia central: la media es “halada”
en la dirección del sesgo
Estadísticas descriptivas
La media:
• La fórmula de la media es simple:

• Si tenemos cinco observaciones (3,3,4,2,10), la


media se calcula de la siguiente manera:
Estadísticas descriptivas
La media:
• En el ejemplo pasado, la observación con el puntaje 10 es un valor
extremo (muy atípico)
– Lo que hace es que hala la distribución y crea un sesgo positivo (alarga la
cola derecha)
– A su vez, hala la media a la derecha
• Si omitimos esta observación, la media cae muchísimo:

• Hay una gran diferencia entre las dos medias que obtenemos, lo cual
indica:
– Esta observación es “influyente” (i.e. No incluirla afecta mucho la media)
– La media no es una medida de tendencia central robusta
– Cuando hay observaciones influyentes, la mediana es una mejor medida de
tendencia central
Estadísticas descriptivas
La mediana: M
• En términos simples, la mediana es el punto medio
de la distribución:
– Por definición, la mitad de las observaciones están por
debajo de la media, y la otra mitad por encima
• Para encontrar la mediana de “n” observaciones:
1. Ordena todas las observaciones de la menor a la mayor
2. Encontrar donde se ubica el punto medio: (n+1)/2
3. La mediana es el valor de la observación en la posición o
ranking dado por (n+1)/2
• Cuando se tiene un número impar de observaciones: la
mediana es la observación de la mitad
• Cuando se tiene un número par de observaciones: la mediana
es el promedio de las dos observaciones que están en la mitad
Estadísticas descriptivas
La mediana: M
• Un caso con “n” impar: (2.1, 4.1, 10, 2.3, 3.7)
1. Empezamos por ordenar los puntajes de menor a mayor:
(2.1, 2.3, 3.7, 4.1, 10)
2. Encontramos la ubicación de la mitad: (n+1)/2=(5+1)/2=3
3. Buscamos la observación en el puesto 3, entonces:
M=3.7
• Un caso con “n” par: (2.1, 4.1, 10, 2.3, 11, 3.7)
1. Observaciones ordenadas: (2.1, 2.3, 3.7, 4.1, 10, 11)
2. (n+1)/2=(6+1)/2=3.5… entre la 3er y 4to puesto!
3. Promedio de las observaciones en el 3er y 4to puesto:
M=(3.7+4.1)/2=3.9
Estadísticas descriptivas
La mediana y los valores extremos
• Supongamos que tenemos cinco observaciones:
(2.1, 4.1, 10, 2.3, 3.7)
– Mediana = 3.7
– Media = 4.44
• Claramente la media está más influenciada que la
mediana por el valor extremo (10)
• Mensaje: Cuando tenemos distribuciones muy
sesgadas, la mediana es una mejor medida de
tendencia central que la media!
Medidas de tendencia central y sesgos
Distribuciones sesgadas
30

Moda
25
Mediana Curva de distribución
20 de frecuencias
Medi
15 a
30 Moda, media y
10 mediana
25

5
20

0
15
1 2 3 4 5 6 7 8 9 10 11 12 13
10
A la izquierda (sesgo negativo)
5

30
0
25
Moda 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
Mediana
20 Media
15
Distribución normal
10

0
1 2 3 4 5 6 7 8 9 10 11 12 13

A la derecha (sesgo positivo)


Medidas de tendencia central
Ejemplo:
• Tenemos información sobre el peso de
200 adolescentes
• El análisis de este histograma nos
muestra que hay un valor extremo
• Calculamos:
– Media=65.8
– Mediana=63
• Se encuentra que hubo un problema
de tabulación y a una variable se le
asignó 166 en vez de 66. Luego de la
corrección:
– Media=63.8
– Mediana=63
• Igual, la media sigue siendo halada por
la cola derecha…
Medidas de tendencia central
Ejemplo:
• La mediana puede ser la mejor
medida de tendencia central
cuando tenemos distribuciones
sesgadas…
• PERO con la media podemos
usar métodos estadísticos más
poderosos…
Algunas observaciones importantes

• Cuando los valores de la variable son 0 y 1 la media coincide


con la proporción

• La desviación de una observación con respecto a la media y


es
Objetivos de la Estadística

• Describir

Medidas de dispersión o variación


– Rango
– Varianza y desviación estándar
– Coeficiente de variación

Medidas de posición
– Cuartiles, deciles y percentiles
– Resumen de los 5 números y “Boxplots”
Medidas de dispersión
Curvas de distribución de
frecuencia
Frecuencia
relativa

X
_
X

- Distribuciones con igual media y diferente nivel de dispersión


Medidas de dispersión
El rango
• Definición: es la diferencia entre el máximo y el
mínimo valor encontrado en todas las
observaciones
• Es una medida muy simple de dispersión
• Tiene una utilidad limitada:
– Depende de los valores más grandes y más pequeños…
por eso es muy sensible a los valores extremos
– Es una medida inestable de dispersión de una muestra
cuando esta se saca de una población muy grande…
Medidas de dispersión
Varianza: s2
• Definición: es el promedio de la distancia de las
observaciones a la media, al cuadrado
• Fórmula:

• La unidad de medida de la varianza es la unidad al


cuadrado de la variable original…
– Esta no tiene una interpretación intuitiva!
– Por ejemplo, la varianza para los datos sobre el peso de
los 200 adolescentes es: s2 = 227.9 kg2
Medidas de dispersión
Varianza: s2
• ¿Por qué elevamos al cuadrado cada desviación de la
media?
– Queremos SUMAR estas desviaciones sin que las
“distancias negativas” (de las observaciones por debajo
de la media) SE CANCELEN con las “distancias positivas”
(de las observaciones por encima de la media)
– Dato curioso:
• La SUMA de las desviaciones a la media siempre es CERO!!!
• Para cualquier conjunto de observaciones siempre es verdad que: la suma de las
distancias a la media al cuadrado ES MENOR que la suma de las distancias a
cualquier numero del conjunto al cuadrado
Medidas de dispersión
Varianza: s2
• ¿Por qué en la fórmula de S2 dividimos por (N-1) y no
por N?
– Como la suma de las N desviaciones a la media siempre es
cero, con sólo conocer N-1 desviaciones podemos
encontrar la N-esima desviación.
– Entonces, no estamos promediando N números diferentes.
– Sólo N-1 de las desviaciones al cuadrado varían
“libremente”, y por eso el promedio se hace sobre N-1
números.
• Técnicamente, esta cuestión tiene que ver con los “grados de
libertad” del estimador
Medidas de dispersión
Desviación estándar: s
• También nos interesa la desviación estándar (s),
que simplemente es la raíz cuadrada de la varianza
• Fórmula:

• Esta es la medida más común de dispersión


Medidas de dispersión
Varianza y desviación estándar
• ¿Por qué usamos la desviación estandar (S) y no sólo
la varianza (S2)?
1. En la varianza elevamos al cuadrado las desviaciones. Esto
hace que las unidades de medida (la escala) quede
elevadas al cuadrado también…
• Al aplicarle la raíz cuadrada tenemos una medida de
dispersión que esta en la escala original.
2. Veremos además que S es la medida natural de dispersión
para la distribución Normal
Medidas de dispersión
Calculando s2 y s
• Para calcular s2:
– Listar todas las observaciones
– Calular la media
– Restarle la media a cada observación
– Elevar al cuadrado cada resultado de la resta
– Sumar estos resultados
– Dividir por n-1
• Para calcular s:
– Sacar la raíz cuadrada de s2
Medidas de dispersión
Calculando s2 y s
• Ejemplo: Mortalidad infantil para 10 países
Medidas de dispersión
Los cuartiles: Q1, Q2 y Q3
• Se llaman cuartiles porque dividimos el ranking de
las observaciones en cuartos!
• Para encontrar Q1, Q2 y Q3:
1. Ordenar las observaciones de menor a mayor: crear
ranking
2. Encontramos a mediana (M), este es el segundo cuartil
Q2. Con M ya tenemos la distribución dividida en dos
3. La observación en el medio de la primera mitad de los
datos (es decir, la mediana de la primera mitad) es Q1
4. La observación en el medio de la segunda mitad de los
datos (es decir, la mediana de la primera mitad) es Q3
Medidas de dispersión
Los cuartiles: Q1, Q2 y Q3
• Ejemplo simple:
– Otra vez tenemos esta 6 observaciones: (2.1, 2.3, 3.7,
4.1, 10, 11)
– Ya sabemos que Q2=M=3.9
– Q1 es la mediana de la primera mitad (2.1, 2.3, 3.7):
Q1=2.3
– Q3 es la mediana de la segunda mitad (4.1, 10, 11):
Q3=10
Medidas de dispersión
El resumen de 5 números
1. Mínimo
2. Q1: El punto que tiene el 25% de las observaciones por
debajo
3. Q2=M: El punto que tiene el 50% de las observaciones
por debajo
4. Q3: El punto que tiene el 75% de las observaciones por
debajo
5. Máximo

• En el ejemplo anterior: (2.1, 2.3, 3.9, 10, 11)


– Claro, con tan pocos casos el resumen de 5 números no
ayuda tanto!
Medidas de dispersión
Rango Inter-Cuartil y Boxplot
• Rango Inter-Cuartil (RIC): la diferencia entre Q3 y
Q1
– RIC = Q3 - Q1
– Es una medida de dispersión
• Todas estas medidas de dispersión las podemos
graficar en un BOXPLOT
– Ojo, hay varias definiciones del Boxplot
Medidas de dispersión
Boxplot: segunda forma de pintarlo
Las “antenas” representan Min y Max

Box Plots for Flower Lengths


Bihai Red Yellow
55
Median 47.12 39.16 36.11
Lengths (in mm)

50

45 Q1 46.71 38.07 35.45

40 Min or In
Fence 46.34 37.4 34.57
35
Max or In
30 Fence 50.26 43.09 38.13
Bihai Red Yellow
Flower Color 48.24
Q3 5 41.69 36.82
Medidas de dispersión
Rango Inter-Cuartil y Boxplot

• Podemos construir un criterio para saber si una


observación es un valor extremo:
– Una observación es un valor extremo si:
• Está 1.5*RIC veces por encima de Q3
• Está 1.5*RIC veces por debajo de Q1
Medidas de dispersión
Boxplot: primera forma de pintarlo
Las “antenas” representan el 1.5*RIC
Medidas de dispersión
Boxplot: segunda forma de pintarlo
Las “antenas” representan el 1.5*RIC
• Del ejemplo del peso de 200 adolescentes, total y
por género
Media y dispersión (regla empírica)
Objetivos de la Estadística

• Describir

Análisis de forma
– Simetría
– Curtosis
Análisis de forma
Simetría
Análisis de forma
Curtosis

También podría gustarte