UNIVERSIDAD AUTÓNOMA DE
QUERÉTARO
Facultad de Derecho
METODOLOGÍA CUANTITATIVA
UNIDAD I:
HERRAMIENTAS DE ESTADÍSTICA
DESCRIPTIVA EN LOS PROBLEMAS SOCIALES
Dr. José Manuel Luna Nemesio Dra. Victoria Pacheco Almaraz
[email protected] ([email protected])
Querétaro, México; agosto de 2024 1
UNIDAD 1: H E R R A M I E N TA S D E
E S TA D Í S T I C A D E S C R I P T I VA E N
LOS PROBLEMAS SOCIALES
Subtemas
•Métodos de colecta de
información
•Conceptos de Bases de
datos, escalas de medición y
fuentes de datos
•Métodos de Estadística
Descriptiva
Agosto, 2024
TABLAS DE
FRECUENCIA
DEFINICION DE TABLA DE FRECUENCIAS
• Tabla que muestra en forma ordenada la
agrupación de los datos de una población.
• Se usa para describir variables cualitativas
aunque no de manera exclusiva.
EJEMPLO
Opiniones sobre los créditos de CAME en una muestra de 500
clientes en agosto del 2023.
Opiniones sobre Fecuencias Fecuencias
los créditos Fecuencias Fecuencias absolutas relativas
dre CAME absolutas relativas Acumuladas Acumuladas
Muy buenos 63 0.13 63 0.13
Buenos 260 0.52 323 0.65
Regular 132 0.26 455 0.91
Malos 30 0.06 485 0.97
Muy malos 15 0.03 500 1.00
Totales 500 1.00
EJEMPLO EN SPSS
Tipo de ordeño
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos odeño manual 48 46.6 46.6 46.6
mecánico con
31 30.1 30.1 76.7
ordeñadora portátil
mecánico con
24 23.3 23.3 100.0
ordeñadora fija
Total 103 100.0 100.0
EJEMPLO EN SPSS
REPRESENTACIÓN
GRÁFICA DE
TABLAS DE
FRECUENCIA
EJEMPLO
50
40
30
Frecuencia
20
odeño manual ordeñadora fija
ordeñadora portátil
Tipo de ordeño
50
40
30
20
Porcentaje
10
0
odeño manual ordeñadora fija
ordeñadora portátil
Tipo de ordeño
MEDIDAS QUE
DESCRIBEN UN
CONJUNTO DE
DATOS
CONCEPTOS ESTRUCTURADORES
Parámetros que describen a la población
Parámetro Medida que describe a una variable de la
población. Es constante y desconocido.
Parámetros de posición Parámetros de dispersión
o tendencia central
» Media » Varianza
» Moda » Desviación estándar
» Mediana » Coeficiente de variación
» Rango
» Error estándar
Informan cuál es el centro en Informan sobre cuánto se alejan del
torno al cual se ubica un centro los valores de la distribución
conjunto de datos
Uno de los aspectos más importantes de las poblaciones es que
pueden ser descritas por medio del uso de parámetros. Permiten
compararlas.
Ejemplo comparar el monto del ahorro de las clientas del Valle vs
clientas Ixtapaluca. En ambas poblaciones el ahorro como
variable da origen a dos distribuciones, y eso es lo que
quisiéramos comparar.
Para ello recurrimos a las medidas de tendencia central y a las
medidas de dispersión.
MEDIDAS DE
TENDENCIA
CENTRAL
5.3.1 Medidas de tendencia central: se refieren a
parámetros que describen la ubicación del centro de
los datos.
Los parámetros de posición más comunes son:
media aritmética
mediana,
moda,
Parámetros que
describen a la
población
¿Dónde están los datos?
P
X
Parámetros de posición
¿Qué tan agrupados o dispersos están los datos?
Parámetros de dispersión
2.- Medidas de Tendencia
Central y Dispersión.
Diferente posición:
Se comparan a través de la
media.
Misma posición:
Comparar sólo con la media
no ayuda mucho.
CALCULO DE LOS PARAMETROS DE POSICION MAS USADOS
La media
=
Xi
N
Xi = Valor de la observación i
N = Tamaño de la población
Media Aritmética.
Cuando se calcula en una población
conformada por N individuos se
simboliza por µ y viene dada por la
fórmula.
( x1 x2 ... x N ) i N
µ xi
N i 1
Media Aritmética.
• Cuando se calcula en una muestra compuesta por n
individuos, es el estimador de la media µ de la
población, y se simboliza por “x barra” y viene dada
por la fórmula:
i n
x i
X i 1
n
Media Aritmética.
• Las unidades de medida de una media son las mismas
que las de la variable que describe. Así, por ejemplo, si
hallamos la media de tallas, medidas en cms., esta
tiene centímetros como unidades. Supongamos una
muestra de 5 chicos cuyos pesos al cumplir 15 años
son: 48, 54, 58, 60, 60 kg. La media de estos pesos
vale:
48 54 58 60 60
XV 5
56kg
Media Aritmética.
• Imagine ahora una muestra de 5 chicas cuyos pesos al
cumplir 15 años son: 52, 55, 57, 58, 58 kg; la media de
estos pesos es:
52 55 57 58 58
XH 5
56kg
Media Aritmética.
• Interpretación de la media:
Es el centro de gravedad de la distribución, y es el mismo en ambos
casos, sin embargo dos distribuciones con la misma media no quiere
decir que sean iguales.
Hombres
Media Aritmética.
Mujeres
LA MEDIANA
• Dato que deja la mitad de las observaciones a la derecha y la
mitad de las observaciones a la izquierda.
• Primero ordenar las observaciones de mayor a menor o de
menor a mayor
Elegir la observación del medio si el número de observaciones
es impar
Si el número de observaciones es par se suman las dos del
centro y se promedian
4.- Medidas de Tendencia Central.
4.1 Cálculo de la mediana.
Note que si el último peso en lugar de 60 Kg. hubiese sido 80
Kg. la mediana no se modificaría, mientras que la media
aumentaría considerablemente.
LA MODA
• Se elige el valor de la observación
que más se repite
• En la distribución de una variable
puede haber más de una moda
En una distribución simétrica
coinciden la moda, la mediana y
Mediana la media
Moda Media
Distribución asimétrica cargada hacia la izquierda
Moda
Mediana Moda
Media
Mediana
Media
En una distribución simétrica coinciden la moda, la
mediana y la media.
Mediana
Moda
Prob.
Media
Distribución asimétrica cargada
hacia la derecha
MEDIDAS DE
DISPERSIÓN
5.3.2 Medidas de dispersión
Miden la dispersión de las observaciones alrededor de un
punto que se toma como referencia. Este punto
generalmente es la media.
Las medidas de dispersión más usadas son:
Varianza
Desviación estándar
Coeficiente de variación
Error estándar
Varianza Mide el grado de dispersión de
los valores de una variable en la
población.
( x )2
2
i
N
Nótese que el punto de referencia para estimar las
desviaciones es la media
Varianza.
• Se define como la media de la suma de cuadrados de
las diferencias entre cada valor de la variable (X i) y la
media aritmética de la distribución (µ). Cuando se
calcula en una población con N individuos, la varianza
se simboliza por 2 y está dada por la fórmula:
i N 2
( x
2
) (x
2
) ... ( x )
2
(x )
i
2
1 2 N
i 1
N N
Varianza
• Cuando se calcula en una muestra el estimador de la varianza
es:
i n 2
2
(x i
X ) SC
S i1
n 1
n 1
• El numerador de una varianza se llama suma de cuadrados. Por
lo tanto la varianza es el resultado de una suma de cuadrados,
y tiene como unidades de medida las de la variable que
describe elevadas al cuadrado. La varianza de tallas, medida en
cm., tendrá cm2 como unidades.
Problemas con el uso de la varianza
La varianza está medida en la
misma escala que la variable
original, pero elevada al cuadrado
Por esta razón su magnitud no
puede ser comparada con la de
otras variables.
Varía de cero a infinito en los
números reales positivos.
Varianza
¿Por qué es necesario elevar los valores al
cuadrado?
• Es lógico que un índice de dispersión esté basado en
las diferencias xi-µ, ya que estas diferencias serán tanto
mayores cuanto más alejadas estén las observaciones
xi de la media µ. Dado que al sumar estas diferencias
se anularían entre sí, al ser unas positivas (para valores
xi superiores a µ) y otras negativas (para valores x i
inferiores a µ), en la definición de índice de dispersión
debemos quitarle el signo. Una buena manera de
lograrlo es elevando estas diferencias al cuadrado. Por
este motivo la varianza se define como la media del
cuadrado de estas diferencias.
La desviación estándar
Es la raíz cuadrada positiva de la
varianza y su notación es:
=
2
Su ventaja es que se mide en la misma
escala que la variable, y su dimensión
es más pequeña que la varianza (más
fácil de interpretar)
Interpretación de la Desviación
Estándar.
• Su interpretación se deriva de la fórmula: cuando los
datos están muy dispersos (alejados de la media), el
numerador de la fórmula (cuadrados de las distancias
de cada dato a la media) será grande y, en
consecuencia, obtendremos un valor de la desviación
estándar grande; cuando los datos están muy
agrupados (próximos a la media), el numerador de la
fórmula será pequeño y, en consecuencia obtendremos
una desviación estándar pequeña. Por lo tanto la
desviación estándar es un índice que caracteriza la
dispersión (o el grado de homogeneidad) de una
distribución.
Si la variable original se distribuye
siguiendo la ley normal, entonces la
desviación estándar indica lo siguiente:
La media más menos una desviación
estándar incluye al 68.3% de la población.
La media más menos dos desviaciones
estándar incluye al 95.4% de la población.
Error Estandar de la media.
Error Estandar de la media =
No confundir con
Desviación Estándar;
cuantifican aspectos
diferentes. Mide la
dispersión de una
distribución de medias
muestrales de la misma
población (µ).
Es una desviación estándar
de medias muestrales.
2
S S
Su fórmula es EE y su estimador
n n n
Error Estandar de la media
• Por tratarse de muestras al azar lo más frecuente es que las
medias observadas tengan valores cercanos al de la
verdadera media µ. No obstante el error aleatorio propio del
muestreo producirá algunas muestras con medias alejadas de
µ.
X
• Puesto que la fuente principal de la variabilidad de la
distribución muestral no es la variabilidad de las observaciones
en la población de sujetos sino el error (aleatorio) del
muestreo, la raíz cuadrada de la varianza de esta distribución
muestral no se llama desviación estándar, sino error estándar
de la media cuya fórmula es:
EE
n
Error Estándar de la media.
• Y su estimador es:
S S
EE ó
n n
El coeficiente de variación
Se denota por C.V. y se calcula de la
siguiente manera:
CV *100
Este es un parámetro que se expresa en
porcentaje lo que le otorga la gran virtud de
ser comparable entre diferentes poblaciones
El coeficiente de Variación
• Las medidas de dispersión (absoluta) descritas hasta
ahora dependen de las unidades de medida de la
variable, lo que imposibilita la comparación entre sí de
índices de dispersión obtenidos en diferentes
distribuciones. Sin embargo, el coeficiente de variación
permite eliminar este inconveniente, y se define como
el cociente entre la desviación estándar y la media:
S
CV x100
X
El coeficiente de Variación
• Este cociente carece de dimensiones. Ejemplo:
• Medidas normales de peso y talla de varones en dos
periodos de crecimiento.
Peso (Kg) Talla (cm)
Edad
(años)
X S X S
2 12.4 2.05 87.0 4.1
17 60.8 6.69 147.3 5.9
El coeficiente de Variación
•¿Qué es más variable, el peso o la
talla? ¿Estos parámetros son más
variables a los 2 años o a los 17
años?
El coeficiente de Variación
Edad Peso Talla
2 años 16.5% 4.7%
17 años 11.0% 4.0%
El coeficiente de Variación
• La respuesta a estas preguntas, a partir de la
desviación estándar, es que el peso es más variable
que la talla y que a los 17 años estos parámetros son
más variables que a los 2 años.
• Utilizando los coeficientes de variación podemos
comprobar que las conclusiones correctas son,
precisamente las contrarias a las inicialmente
planteadas.
LOS RANGOS DEL COEFICIENTE DE
VARIACION
En la investigación experimental, en las ciencias
físicas, químicas, biológicas, agronómicas, etc., el
CV de la variable en estudio no debe superar el 5%
Ejemplo tomado de las ciencias médicas
Ensayos repetidos (20) de muestras de sangre venosa con
un medidor marca ONE TOUCH, proporcionaron los
siguientes estimados de presión arterial (coeficiente de
variación, CV):
MEDIA CV
28.7 mg/dL 160.3 3.1%
mg/dL 405.7 3.4%
mg/dL 559.3 4.0%
mg/dL 3.0%
En la investigación social los CV tienden
a ser mas altos. Una escala de
interpretación podría ser:
INTERPRETACION DEL CV
VALOR DEL CV INTERPRETACION
Indica una alta homogeneidad de la variable
Menos del 20%
Del 20 al 50% Indica una variación moderada. Todavía
aceptable.
Del 50 al 100% Indica mucha variación. Los resultados
pueden no ser buenos estimadores de los
parámetros.
Más del 100% Resultados pobres. Es muy probable que los
resultados no sean buenos estimadores de
los parámetros.
ASIMETRIA Y CURTOSIS
Para variables de intervalo o de razón, es decir,
cuantitativas, el índice de asimetría indica si la
distribución es simétrica. Este índice vale cero cuando la
distribución es simétrica. Si el estimador de asimetría o
curtosis es mayor a dos veces su error estándar, se
rechaza el supuesto de normalidad de la variable
Indice + Indice = 0 Indice -
CURTOSIS
Leptocúrtica
Platocúrtica
Cuadro 2. Descripción del volumen de leche captada
y número de productores en termos para el
enfriamiento en Los Altos de Jalisco en el 2002.
Termo colectivo Termo individual
Volumen Número de Volumen Número de
captado productores captado productores
(L/día) (L/día)
Media 4,036 22 1,008 1
Desviación 2,164 15 898 1
estándar
Máximo 8,500 64 3,000 1
Mínimo 1,000 5 300 1
Coeficiente de 54 68 89 0
variación
(%)
Tabla 1. Descripción de las
variables del modelo.
Total de la muestra Altos de Jalisco Xalmimilulco,
Parámetro
(n=162) (n=96) Puebla (n=66)
Vacas en producción 14.8 18.5 23.8 20.8 3.8 3.2
(media DS)
Hectáreas para 9.0 16.2 15.2 19.9 1.5 1.6
producción de
forraje (media
DS)
Relación: 0.4 0.3 0.2 01 0.6 0.4
trabajadores por
vaca ordeñada
(media DS)
Uso de ordeño 36.7 53.4 14.3
mecánico (%)
• Márquez Berber Sergio R.; Almaguer Vargas Gustavo; Schwentesius
Rindermann Rita; Cervantes Escoto Fernando; Khalil Gardezi Abdul. 2008
(Publicado en 2009). Evaluación de PROCAMPO AL final de su primera etapa.
El caso de La comunidad “El Rancho”, Estado de México. Revista Textual No.
51 pp 73-91.
TAREA
De la base de datos leche en Altos de Jalisco:
1. Seleccione cinco variables cualitativas
a) Elabore la tabla de frecuencias correspondiente
b) Elabore un gráfico de pastel
c) Elabore un gráfico con frecuencias absolutas
d) Elabore un gráfico con frecuencias relativas
e) Interprete sus hallazgos
2. Seleccione cinco variables cuantitativas
f) Elabore tabla de frecuencias de cada una e interprete los resultados
g) Elabore histogramas con la curva de distribución normal
h) Reporte en un cuadro las medidas de tendencia central y de
dispersión, tomando el modelo visto en clase. Interprete resultados y
diga si las variables siguen una distribución normal