ESTADISTICA INFERENCIAL
UNIDAD Nº 2
Los fundamentos del muestreo en los estudios de opinión.
1
[Link]
SEMANA 4
Introducción
Ya hemos visto herramientas fundamentales de la estadística inferencial en las
semanas anteriores, tales como conceptos de tendencia central, posición y
dispersión, así como también propiedades del muestreo y otros conceptos que
componen las etapas previas en una investigación, vale decir la recopilación de los
datos. Para proseguir con el estudio, una vez seleccionados los datos y ordenados
se dispone de herramientas para realizar un análisis de lo obtenido. En esta semana
estudiaremos estas herramientas que nos permitan dar con un resultado fidedigno
y representativo.
Trabajaremos con las medidas de posición más recurrentes en el mundo laboral,
como percentiles, cuartiles y deciles y veremos su aplicación, además de aplicar la
representación en tablas de frecuencias y su visualización gráfica en un histograma.
2
[Link]
Ideas Fuerza
Las principales ideas de los contenidos a desarrollar esta semana son los
siguientes:
• Las medidas de tendencia central son estadísticos que ayudan a interpretar
datos agrupados.
• Las medidas de posición corresponden a valores que nos facilitan dividir la
muestra en partes porcentuales que sean iguales.
• Las medidas de dispersión nos indican si los datos analizados están más o
menos agrupados respecto de las medidas de centralización.
• Existen dos tipos generales de tablas para reportar datos usando
frecuencias, estas son: tablas de frecuencias no agrupadas y tablas de
frecuencias agrupadas.
• Los histogramas son una forma de representación gráfica de una distribución
de frecuencia que consiste en representar las frecuencias por medio de áreas
de rectángulos.
3
[Link]
Desarrollo
1. Dispersión y Posición
Al momento de que usted como investigador recoja la información obtenida a partir
de un sondeo, generalmente lo hará con un propósito en mente, el cual es obtener
información descriptiva sobre la población estudiada desde la cual se eligió la
muestra con el fin de probar algunas hipótesis sobre esa población.
Las medidas de posición corresponden a valores que nos facilitan dividir la muestra
en partes porcentuales que sean iguales. Para una distribución de frecuencias es
aquel valor para el cual una porción especifica de la distribución queda en o debajo
de él. Se utilizan principalmente para clasificación de observaciones dentro de la
muestra.
Suponga que se tienen dos muestras que se requieren analizar, y que para ambos
casos, los estadísticos de medidas de tendencia central como la mediana y la media
aritmética dan valores similares, sin embargo, los valores de una muestra están
muchos más dispersos dentro del rango que en la otra muestra. Entonces, las
medidas de tendencia central no son tan representativas de las diferencias entre
ambas muestras, ya que la dispersión de datos en una es mucho mayor que en la
otra. Por tanto concluimos que una medida de centralización, casi nunca es
suficiente por sí sola, para analizar adecuadamente las características de un
conjunto de datos, por lo general, necesitaremos, además, una medida de la
dispersión o variación de los datos.
Las medidas de dispersión, entonces, nos indican si los datos analizados están más
o menos agrupados respecto de las medidas de centralización
2. Medidas de Posición
. A continuación se expondrán las medidas de posición más recurrentes:
o Cuartiles
Una vez los valores son ordenados se pueden obtener los denominados
cuartiles, los cuales sirven para dividir el conjunto en cuatro partes
porcentuales que sean iguales, por tanto existen 3 valores que contienen el
4
[Link]
25%, 50% y 75% de los datos del conjunto y los cuales se denominan Q1,
Q2 y Q3.
Los cuartiles son las medidas de posición relativa correspondiente a un
conjunto ordenado de datos divididos en cuatro partes iguales y se definen
como sigue:
• Q1 = primer cuartil o 25-ésimo percentil.
• Q2 = segundo cuartil o 50-ésimo percentil o también mediana.
• Q3 = tercer cuartil o 75-ésimo percentil.
o Deciles
Una vez los valores son ordenados se pueden obtener los denominados
deciles, los cuales sirven para dividir el conjunto en diez partes porcentuales
que sean iguales, por tanto existen 9 valores que contienen el 10%, 20%,
30%, 40%, 50%, 60%, 70%. 80% y 90% de los datos del conjunto y los cuales
se denominan D1, D2, D3, D4, D5, D6, D7, D8 y D9.
o Percentiles
De igual manera que en las medidas anteriores, los valores previamente son
ordenados para así poder obtener los percentiles, los cuales sirven para
dividir el conjunto en cien partes porcentuales que sean iguales, por tanto
existen 99 valores que contienen desde el 1%, 2%, 3% y así hasta el 99% de
los datos del conjunto y los cuales se denominan desde el P1, P2, P3 hasta
el P99 respectivamente.
Para calcular el p-ésimo percentil de un conjunto de n datos, primero que
todo se deben ordenar los datos de manera ascendente. Una vez en orden,
se calcula un índice i a través de la fórmula i = np/100, siendo p el percentil
de interés y n, la cantidad de datos. Luego se debe decidir de acuerdo a uno
de los dos casos:
• Si el índice i no es entero, se redondea al entero siguiente. Este valor
aproximado de i indica la posición del p-ésimo percentil.
• Si i es entero, el p-ésimo percentil es el promedio de los valores de los
datos ubicados en las posiciones i y i + 1.
5
[Link]
Pregunta de reflexión
Las medidas de posición como los percentiles y cuartiles son recursos
frecuentemente utilizados para clasificar población. ¿Serías capaz identificar
ejemplos y aplicaciones en tu campo laboral?
3. Medidas de Dispersión
. A continuación definiremos las medidas de dispersión más recurrentes:
o Rango
El rango o recorrido de un conjunto de datos se define como la diferencia
entre el dato más alto y el más bajo. Es la medida de dispersión más simple.
Esta medida ya ha sido aprendida en lecciones anteriores. Su ventaja es que
es fácil de calcular. Su desventaja es que considera solo dos de la gran
cantidad de datos que hay en un conjunto de datos, ignorando así el resto.
Por tanto el rango medio se debe utilizar con cuidado. Como sólo incluye la
observación más pequeña y la más grande en un conjunto de datos, el rango
medio es una medida modificada de tendencia central si está presente un
valor extremo. En estas situaciones, el rango medio no es apropiado.
o Rango Intercuartil
Una medida de dispersión que elimina la influencia de los valores extremos
de los datos es el rango Intercuartil. El rango Intercuartil es la diferencia entre
el tercer y el primer cuartil. Cuanto más pequeño sea el valor, menor será la
dispersión.
o Desviación
La desviación de un dato se define como la diferencia entre el dato y la media
del conjunto de datos de donde proviene dicho dato. Una desviación positiva
para una medida, indica que la medida está por encima de la media, mientras
que una desviación negativa nos señala que está por debajo de la media.
Una desviación 0 para un dato indica que el dato es igual a la media. La suma
de las desviaciones de los valores para cualquier conjunto de números x1,
x2, x3 hasta xn es igual a cero.
6
[Link]
o Varianza
Las medidas de uso común que si toman en cuenta la distribución de los
valores de los datos son la varianza y la desviación estándar o típica. Estas
medidas evalúan la manera en que fluctúan los valores respecto a la media.
La varianza de una población de valores se define como el promedio de los
cuadrados de las desviaciones de los valores y se denota por σ2. Por razones
de comodidad en los cálculos, para determinar la varianza de la población se
usa normalmente la fórmula de la media de los cuadrados menos el cuadrado
de la media.
o Desviación Estándar
La desviación estándar (o típica) poblacional de un conjunto de datos,
simbolizada por σ, se define como la raíz cuadrada positiva de la varianza
poblacional de los datos.
4. Sonde de Tendencia: Distribución de frecuencia
• Frecuencia Absoluta
La frecuencia absoluta es el número de veces que un dato se repite dentro de un
conjunto de datos. Se representa como donde la corresponde al número de dato.
La forma de obtener la frecuencia absoluta no es otra que contando las veces que
aparece el dato en el conjunto de datos.
• Frecuencia Relativa
7
[Link]
La frecuencia relativa es la relación entre el número de individuos que en un
momento determinado presentan la característica y el número total de los individuos
que constituyen la muestra. El método con el cual es calcula obedece la siguiente
metodología: en primera instancia es necesario saber el número de individuos que
positivamente se sabe presentan la característica y el de aquellos que positivamente
no la presentan, para finalmente contrastar estos valores, de manera que sobre el
total se conoce cuánta cantidad de personas presentan o no dicha característica.
Muchas veces se desconoce lo que le sucedió a una parte de la muestra, por errores
de muestreo o pérdidas en el seguimiento, ignorando si presentaron o no la
característica de interés; cuando esta proporción de desconocidos sube del 10% del
total, la precisión de la frecuencia relativa obtenida empieza a sufrir pues no siempre
se puede deducir que las proporciones en este grupo serán similares a la de los
efectivamente observados.
La frecuencia acumulada es el resultado de sumar sucesivamente las frecuencias
absolutas o relativas, desde el menor al mayor de sus valores. Para calcular la
frecuencia acumulada hay que ordenar los datos de menor a mayor. Para un cálculo
más sencillo y una imagen más visual, estos se colocan en una tabla. Tras tener los
datos ordenados y tabulados, la frecuencia acumulada se obtiene simplemente de
ir sumando una clase o grupo de la muestra con la anterior (primer grupo + segundo
grupo, primer grupo + segundo grupo + tercer grupo y así sucesivamente hasta
llegar a acumular del primer grupo al último).
o Tabla de frecuencias no agrupadas
Son aquellas en donde cada dato tiene la frecuencia correspondiente. Los
datos que organizados en tablas de frecuencias no agrupadas se
denominan usualmente datos no agrupados.
Para construir una tabla de frecuencias para datos no agrupados, se
considera la siguiente metodología de trabajo:
1. En la primera columna se ordenan de menor a mayor los diferentes
valores que tiene la variable en el conjunto de datos.
2. En las siguientes columnas (segunda y tercera) se ponen las
frecuencias absolutas y las frecuencias absolutas acumuladas.
3. Las columnas cuarta y quinta contienen las frecuencias relativas y
las frecuencias relativas acumuladas.
8
[Link]
o Tabla de frecuencias agrupadas
Otra posibilidad de organizar datos es agruparlos en intervalos y
determinar la llamada frecuencia de clase de cada clase, es decir, el total
de datos que hay en cada clase. Posteriormente, las clases y las
frecuencias de clase se ubican en una tabla que llamaremos tabla de
frecuencias agrupadas. Los datos que organizados en tablas de
frecuencias agrupadas se denominan generalmente datos agrupados.
Se emplea cuando hay un número alto de datos. Estos se agrupan en
intervalos o clases para facilitar su tabulación y análisis. Está indicado
para representarlos en un histograma.
Para formar una tabla de frecuencias con datos agrupados los pasos son:
1. Obtener el rango R de los datos, esto corresponde a la diferencia
entre el dato mayor y el menor de la muestra de valores que toma
la variable que será incluida en la tabla.
R = Xmáx – Xmín
2. Definir cómo se separarán los intervalos, y en cuántas partes. Para
ello, se puede realizar según criterio del investigador o mediante el
método de Sturges.
3. Determinar la amplitud del intervalo o clase I, esto corresponde al
resultado de dividir el rango R por el número de clases o intervalos
que se han fijado.
4. Formar los diferentes intervalos o clases, partiendo del valor
mínimo del nuevo rango R’.
5. Cada intervalo está representado por la llamada marca de clase.
Es la media entre sus extremos. Representará a los valores del
intervalo o clase en los cálculos a partir de la tabla.
6. A partir de la columna de las clases, se formarán las columnas de
las frecuencias, que son las descritas anteriormente y se puede
9
[Link]
retomar desde el paso 1 para crear las tablas de frecuencias para
datos no agrupados.
• Distribución de frecuencias en Histogramas
Los histogramas son una forma de representación gráfica de una distribución de
frecuencia que consiste en representar las frecuencias (absolutas, relativas,
acumuladas o relativas acumuladas) por medio de áreas de rectángulos (barras).
Cuando utilizamos frecuencias absolutas, hablamos de histograma de
frecuencias; cuando usamos frecuencias relativas, histogramas de frecuencias
relativas, etc. Los histogramas pueden construirse para distribuciones de
frecuencias agrupadas y no agrupadas.
La idea de construir un histograma para frecuencia no agrupada de los datos es
representar cada frecuencia por una barra cuya área sea proporcional a ella.
Típicamente, el ancho de cada barra se escoge como 1 y así el área de la barra
es igual a la frecuencia (absoluta, relativa, acumulada o relativa acumulada) del
dato.
Para construir un histograma para datos medidos en una escala de intervalo o
en una escala de razón, se acostumbra a seguir dos pasos: Se organizan los
datos en una tabla de frecuencias (absolutas, relativas, acumuladas o relativas
acumuladas) agrupadas y se construye una gráfica de barras usando las
fronteras de clase para colocar barras, y las frecuencias (absolutas, relativas,
acumuladas o relativas acumuladas) para indicar las alturas de las barras.
10
[Link]
Ejemplo
Un granjero realiza la cosecha de sus tomates y toma nota de la cantidad
de tomates que retira por cada planta que retira, las cuales distribuyó de
la siguiente manera:
4 5 5 1 7 4 4 3 6 5
3 2 4 4 3 6 6 4 5 5
6 4 3 3 4 5 4 3 2 4
5 2 4 7 3 6 2 2 4 1
2 1 3 7 3 1 5 1 7 2
4 4 2 4 5 3 6 3 5 3
Determinemos una tabla que indique las frecuencias de cantidad de
tomates entregados por planta, esto se realiza contando cuántas veces
se repite cada dato:
Cant.
1 2 3 4 5 6 7
Tomates
Frecuencia 5 8 12 15 10 6 4
Este dato nos permite visualizar de mejor manera la información que nos
entrega el granjero y que es más trabajable.
11
[Link]
A partir de la tabla de frecuencia obtenida anteriormente, podemos
determinar la frecuencia relativa de cada dato, con el fin de poder estudiar
el comportamiento de cada frecuencia respecto del total de datos. Esto se
realiza dividiendo la frecuencia por la cantidad total de datos. En este caso
sería de la siguiente manera:
• Cantidad de tomates: 1
o Frecuencia: 5 ocasiones
o Cantidad de datos: 60
o Frecuencia relativa: 5/60 = 8,33%
Replicando este procedimiento para todas las otras y presentando en tabla
nos queda lo siguiente:
Cant.
1 2 3 4 5 6 7
Tomates
Frecuencia 5 8 12 15 10 6 4
Frecuencia
8,33% 13,33% 20% 25% 16,67% 10% 6,67%
Relativa
Para obtener la frecuencia acumulada de cada dato, basta con adicionar la
frecuencia de anterior al dato de estudio para los n datos. Se debe llegar al
total de 60 unidades al final de la tabla. La solución quedaría de la siguiente
manera:
Cant.
1 2 3 4 5 6 7
Tomates
Frecuencia 5 8 12 15 10 6 4
Frecuencia
5 13 25 40 50 56 60
Acumulada
Frecuencia
8,33% 13,33% 20% 25% 16,67% 10% 6,67%
Relativa
12
[Link]
Finalmente, con los datos anteriores, podemos determinar la frecuencia
relativa acumulada de todos los datos. Esto se realiza dividiendo la
frecuencia acumulada por la cantidad total de datos.
Replicando este procedimiento para todas las otras y presentando en tabla
nos queda lo siguiente:
Cant.
1 2 3 4 5 6 7
Tomates
Frecuencia 5 8 12 15 10 6 4
Frecuencia
5 13 25 40 50 56 60
Acumulada
Frecuencia
8,3% 13,3% 20% 25% 16,7% 10% 6,7%
Relativa
Frecuencia
Relativa 8,3% 21,7% 41,7% 66,7% 83,3% 93,3% 100%
Acumulada
Llevemos estos datos a un histograma para entender cómo funcionan las
representaciones gráficas:
30
25
25
20
20
16,67
15 13,33
10
10 8,33
6,67
0
Frecuencia Relativa
Series1 Series2 Series3 Series4 Series5 Series6 Series7
13
[Link]
Y para representar gráficamente la frecuencia relativa acumulada, se
distribuye de la siguiente manera:
100 100
93,33
90 83,33
80
70 66,66
60
50
41,66
40
30
21,66
20
8,33
10
0
Frecuencia Relativa Acumulada
Series1 Series2 Series3 Series4 Series5 Series6 Series7
Cabe destacar que la representación gráfica presentada fue para demostrar
mediante un ejemplo el comportamiento de los histogramas variables y
acumulados. El histograma para las frecuencias no relativas tendrán el
mismo comportamiento, la diferencia recae que tendrán valores
cuantitativos, mientras que la frecuencia relativa se expresa en valores
porcentuales.
Pregunta de reflexión
Reflexione sobre lo aprendido en valores de frecuencia y sus aplicaciones
en su vida laboral diaria
14
[Link]
Síntesis
Iniciamos un capítulo definiendo las medidas de tendencia central, de posición y
dispersión, además de definir los estadísticos de cada uno, herramientas que nos
ayudan a trabajar los datos en una muestra. Estos son:
• Medidas y Estadísticos de Posición
o Cuartiles
Una vez los valores son ordenados se pueden obtener los denominados
cuartiles.
Los cuartiles son las medidas de posición relativa correspondiente a un
conjunto ordenado de datos divididos en cuatro partes iguales y se definen
como sigue:
• Q1 = primer cuartil o 25-ésimo percentil.
• Q2 = segundo cuartil o 50-ésimo percentil o también mediana.
• Q3 = tercer cuartil o 75-ésimo percentil.
o Deciles
Una vez los valores son ordenados se pueden obtener los denominados
deciles, los cuales sirven para dividir el conjunto en diez partes porcentuales
que sean iguales, por tanto existen 9 valores que contienen el 10%, 20%,
30%, 40%, 50%, 60%, 70%. 80% y 90% de los datos del conjunto y los cuales
se denominan D1, D2, D3, D4, D5, D6, D7, D8 y D9.
o Percentiles
Para calcular el p-ésimo percentil de un conjunto de n datos, primero que
todo se deben ordenar los datos de manera ascendente. Una vez en orden,
se calcula un índice i a través de la fórmula i = np/100, siendo p el percentil
de interés y n, la cantidad de datos. Luego se debe decidir de acuerdo a uno
de los dos casos:
15
[Link]
• Si el índice i no es entero, se redondea al entero siguiente. Este valor
aproximado de i indica la posición del p-ésimo percentil.
• Si i es entero, el p-ésimo percentil es el promedio de los valores de los
datos ubicados en las posiciones i y i + 1
• Medidas y Estadísticos de Posición
• Rango
El rango o recorrido de un conjunto de datos se define como la diferencia
entre el dato más alto y el más bajo.
• Rango Intercuartil
Una medida de dispersión que elimina la influencia de los valores extremos
de los datos es el rango Intercuartil. El rango Intercuartil es la diferencia entre
el tercer y el primer cuartil. Cuanto más pequeño sea el valor, menor será la
dispersión.
• Desviación
La desviación de un dato se define como la diferencia entre el dato y la media
del conjunto de datos de donde proviene dicho dato.
• Varianza
Por razones de comodidad en los cálculos, para determinar la varianza de la
población se usa normalmente la fórmula de la media de los cuadrados
menos el cuadrado de la media.
• Desviación Estándar
16
[Link]
La desviación estándar (o típica) poblacional de un conjunto de datos,
simbolizada por σ, se define como la raíz cuadrada positiva de la varianza
poblacional de los datos.
17
[Link]
Bibliografía
Matínez Bencardino, C. (2012). Estadística básica aplicada ([Link].). Ecoe
Ediciones.
Lind, D., Mason, R. D., y Marchal, W. G. (2000). Estadística para administración y
economía. España: McGraw-Hill
Llinás Solano, H. (2017). Estadística descriptiva y distribuciones de probabilidad.
Universidad del Norte. [Link]
Johnson - Kuby. Estadística Elemental (11va Ed.), CENGAGE Learning.
18
[Link]
19
[Link]