Unidad 3:
“Estadística Descriptiva”
INACAP Virtual |Introducción a la Unidad III – Matemática II MATE01. 2
Índice de Contenidos
INTRODUCCIÓN…………………………………………………………………………………...4
Tema 1. Conceptos Estadísticos ..................................................................................... 5
Tema 2. Tabla de distribución de frecuencias .............................................................. 6
Tema 3. Medidas estadísticas ........................................................................................ 8
Tema 4. Estadígrafos de tendencia central .................................................................. 9
Tema 5. Medidas de dispersión ................................................................................... 12
Tema 6. Medidas de posición ...................................................................................... 14
Tema 7. Relación entre dos variables y Ajuste Lineal ................................................ 16
Tema 8. Coeficiente de Correlación ........................................................................... 17
Tema 9. Ajuste Lineal o Regresión Lineal..................................................................... 18
CONCLUSIONES ............................................................................................................. 21
BIBLIOGRAFÍA ................................................................................................................. 22
INACAP Virtual |Introducción a la Unidad III – Matemática II MATE01. 3
INTRODUCCIÓN
El acceso a la información ha evolucionado de forma creciente y las personas
están al alcance de ella en diversos medios, representada en forma gráfica,
tablas de variables relacionadas, ilustraciones, videos, etc. Por esta razón, la
Estadística tiene en la actualidad una importancia relevante, fundamental en la
organización, representación e interpretación de información, nos proporciona
métodos y procedimientos para recolectar, clasificar y analizar datos susceptibles
de estudio, por alguna característica y poder tomar decisiones.
15
La diversidad de gráficos estadísticos C P Distribución de Ingresos
a e
nos permite representar variables n r
10
t s
cuantitativas o variables cualitativas. i o 5
Una variable cualitativa hace d n
a a 0
referencia a un aspecto no numérico d s
200 300 400 500 600 700 800
de un objeto en estudio, a una Ingrsesos en miles de $
cualidad. En cambio, una variable
cuantitativa representa un aspecto numérico de un elemento a estudiar. En el
ejemplo ilustrado se encuentra representada la variable ingresos ($) de 35
personas; corresponde a una variable cuantitativa.
El gráfico circular representa la variable
cualitativa “Fruta Preferida” y se observan
Fruta Preferida
las mayores o menores preferencias, nos Naranja Platano Kiwi Manzana
Melon Sandia Pera
lleva a una interpretación simple, rápida y
8% 5% 20%
atractiva.
15%
Las variables cuantitativas se pueden 17%
clasificar en continuas y discretas, se
23% 12%
caracterizan porque podemos realizar
cálculos estadísticos, tales como; Promedio, Mediana, Moda, etc. Las variables
cuantitativas continuas admiten cualquier valor real; ejemplo: la estatura de un
objeto. En cambio, las variables cuantitativas discretas solo admiten valores
puntuales, enteros, cardinales, etc.
INACAP Virtual |Introducción a la Unidad III – Matemática II MATE01. 4
El análisis estadístico bivariado consiste en estudiar la relación que pueda existir en
dos variables observadas, utilizando medidas de correlación, representación
gráfica y representar mediante un modelo matemático llamado “Ajuste de
Correlación”.
Tema 1. Conceptos Estadísticos
Estudiar variables en un grupo de objetos o población muy grande es muy poco
factible, a menos que se cuente con grandes recursos e infraestructura, como por
ejemplo el Instituto Nacional de Estadística (INE), aplicando el Censo Nacional.
Por esta razón, muchas empresas o personas realizan observaciones o encuestas
en pequeños grupos de personas u objetos; esto se denomina estudio de
muestras y permite estimar parámetros desconocidos en la población.
En estadística, es fundamental lograr inferir el comportamiento de variables
mediante el estudio de un conjunto de observaciones.
Es frecuente organizar en forma de tablas los datos obtenidos de una encuesta u
observación en terreno. Observa el siguiente ejemplo: un estudiante es
contratado para registrar la frecuencia de Taxis en cierta esquina de Santiago,
obteniendo los siguientes resultados durante una tarde: 4’ , 5’ , 8’ , 12’ , 6’ , 5’ , 10‘
, 6’ , 8’ , 15’ , 14’, 9’ , 3’ , 5’ , 6’ , 8’ , 10’, 6’ , 4’ , 8’.
La variable en estudio es cuantitativa discreta (minutos). Se ha tomado una
muestra de 20 observaciones.
Si observas, el menor valor Histograma
que adquiere la variable es 3 8
minutos y el mayor valor es 15 6
Frecuencia
minutos. 4
2
Entonces el RANGO = 15 – 3 = 0
12 minutos. 2-4 4-6 6-8 8-10 10-12 12-14 14-16 16 y
Mayor
Intervalo minutos
Proponemos 8 intervalos para
INACAP Virtual |Introducción a la Unidad III – Matemática II MATE01. 5
organizar los datos recopilados en una tabla de distribución de frecuencia.
El límite inferior del intervalo incluye el valor observado y el límite superior del
intervalo no considera al valor señalado, esto quiere decir, por ejemplo, que los 8
minutos pertenecen al intervalo 8-10 y no al intervalo 6-8.
La suma de las frecuencias corresponde al total de los datos observados, es decir,
∑ .
El Histograma es la representación gráfica más típica de la distribución de
frecuencias como se ilustra en la imagen anterior.
Tema 2. Tabla de distribución de frecuencias
El registro tabular es una herramienta común en la organización de datos, facilita
la representación e interpretación de la información.
Intervalo Minutos Frecuencia
2-4 3
4-6 7
6-8 4
8-10 3
10-12 1
12-14 1
14-16 1
16 y Mayor 0
Suma de observaciones 20
INACAP Virtual |Introducción a la Unidad III – Matemática II MATE01. 6
Nivel de Frecuencia Frecuencia Frecuencia Frecuencia
Remuneraciones Absoluta Acumulada Relativa Relativa %
(Miles de $)
200-250 3 3 3/20 15%
250-300 4 7 1/5 20%
300-350 6 13 3/10 30%
350-400 5 18 1/4 25%
400-450 1 19 1/20 5%
450-500 1 20 1/20 5%
Total n= 20
Para profundizar visita: [Link]
Claramente en el intervalo de $300.000 a $350.000 se encuentra el nivel de
remuneraciones más importante del grupo observado.
En la tabla de distribución de frecuencia anteriormente expuesta, aparecen las
columnas frecuencia absoluta y frecuencia relativa. La frecuencia absoluta
corresponde al número de elementos observados en el intervalo o clase
correspondiente.
La frecuencia relativa corresponde a la razón entre la frecuencia absoluta y el
total de datos observados. Esta razón suele expresarse en forma porcentual.
Para considerar
Una sugerencia para determinar la cantidad aproximada de intervalos es
utilizar la expresión 1 + 3,3 log (n), “Regla de Sturges”, donde n es el total de
datos observados.
INACAP Virtual |Introducción a la Unidad III – Matemática II MATE01. 7
En la tabla anterior, se puede observar que la organización de los datos se realizó
utilizando intervalos, “Intervalos de clase”, que permite agrupar por rangos el
conjunto de datos ordenados y obtener el Histograma correspondiente.
Utilizando la frecuencia acumulada de la tabla de distribución de frecuencias, se
puede obtener el gráfico
Nivel de Remuneraciones conocido como “Ojiva”.
6
En el ejemplo anterior, el
Frecuecnia
4
comportamiento de las
2
0
remuneraciones acumuladas
nos entrega la siguiente
representación gráfica:
Intervalo de remuneraciones en Miles de $
Tema 3. Medidas estadísticas
Obtener medidas representativas para una población es muy útil al momento de
tomar decisiones, analizar si el comportamiento se acerca a un promedio o
moda, determinar el nivel de dispersión respecto a valores de referencia, es el
objetivo del cálculo de estadígrafos.
25
20
Frecuecnia Acumulada
18 19
20
15 13
10 7
5 3
0
180-250 250-300 300-350 350-400 400-450 450-500
Intervalos de Remuneraciones
INACAP Virtual |Introducción a la Unidad III – Matemática II MATE01. 8
Tema 4. Estadígrafos de tendencia central
Determinar tu promedio de notas es una información relevante para el sistema
educacional, es posible saber si apruebas o repruebas un curso, si recibes o no
algún tipo de beca, si te eximes de rendir examen, etc. Este es un clásico ejemplo
de la importancia del promedio aritmético, pero existen otras medidas de
tendencia central como lo son: Moda y Mediana.
∑
̅
Mayor Datos ordenados
Promedio aritmético Frecuencia ascendente
Exploremos la siguiente situación: se aplicó una encuesta a 36 personas acerca
de los minutos de telefonía móvil utilizados en un mes, obteniendo los siguientes
resultados:
120 130 140 150 50 30 90 80 120 120 90 80
150 210 120 130 100 110 140 130 120 70 200 130
220 150 130 110 100 90 120 130 100 80 120 160
El Promedio o media aritmética ̅ , se puede afirmar que en
promedio las personas hablan 120 minutos al mes.
La Moda corresponde al dato más frecuente , esta oportunidad
coincide con el promedio, no necesariamente coinciden siempre.
La Mediana se ubica en el 50% de los datos ordenados en forma ascendente,
en este ejemplo las posiciones 18 y 19, donde están los datos 120 y 120, un
promedio entre ellos no entrega la mediana .
Si los datos están ubicados en una tabla de distribución de frecuencias, los
cálculos de medidas de tendencia central, se pueden realizar utilizando las
siguientes fórmulas:
INACAP Virtual |Introducción a la Unidad III – Matemática II MATE01. 9
x1 f1 x2 f 2 x3 f 3 ....... xn f n
Promedio o media aritmética x
n
Promedio ponderado
En ocasiones los datos observados tienen diferente importancia o “peso
estadístico”, en estos casos el promedio recibe el nombre de Promedio
ponderado. Un caso cercano es el promedio ponderado de tus notas, cada
nota tiene un % o ponderación.
x1 w1 x2 w2 x3 w3 ....... . xn wn
En general x
w1 w2 w3 ......... wn
1
Moda en datos agrupados Mo Li 1 c donde Li 1 es el límite inferior
1 2
de la clase modal, 1 es la diferencia entre la frecuencia modal y la pre-modal.
2 es la diferencia entre la frecuencia modal y la post-modal. c Amplitud del
intervalo de la clase modal.
n
Fi 1
2
Mediana en datos agrupados Me Li 1 c , donde Li 1 es el límite
fi
inferior de la clase de la mediana, Fi 1 es la frecuencia acumulada anterior a la
clase de la mediana.
fi es la frecuencia absoluta de la clase de la mediana.
c es la amplitud del intervalo de la clase de la mediana.
n es el total de observaciones.
INACAP Virtual |Introducción a la Unidad III – Matemática II MATE01. 10
Exploremos este ejemplo: la siguiente tabla muestra la agrupación de puntajes
obtenidos por alumnos de un curso en una prueba que rindieron:
Para recordar Variable Frecuencia Marca de
La marca de clase corresponde al Puntaje Absoluta Clase
punto central de cada clase: se
obtiene al sumar los extremos de la 0 - 10 2
clase y dividir por 2. 10 - 20 2
20 - 30 3
30 - 40 6
40 - 50 4
50 - 60 2
60 - 70 1
Variable Frecuencia Marca de
Puntaje Absoluta Clase
Completando la tabla con la marca
0 - 10 2 5 10
de clase y las otras columnas
10 - 20 2 15 30
señaladas, se determinan las medidas
20 - 30 3 25 75
de tendencia central como se muestra
30 - 40 6 35 210
a continuación.
40 - 50 4 45 180
50 - 60 2 55 110
Media aritmética o promedio:
60 - 70 1 65 65
x
x f
i i
680
34 20 ∑ 680
n 20
INACAP Virtual |Introducción a la Unidad III – Matemática II MATE01. 11
Moda
El intervalo modal es el de mayor frecuencia: en este caso 30 , 40
3
Mo 30 10 36
3 2
Frecuencia
Mediana
Variable Frecuencia Acumulada
El intervalo que contiene el 50% de
Puntaje Absoluta
los datos determina la clase de la
0 - 10 2 2
mediana: en este caso 30 , 40 .
10 - 20 2 4
20 20 - 30 3 7
7
2 30 - 40 6 13
Me 30 10 35
6 40 - 50 4 17
50 - 60 2 19
60 - 70 1 20
Tema 5. Medidas de dispersión
En un conjunto de datos es importante determinar cuan dispersos se encuentran,
esto permite concluir si las medidas de tendencia central son representativas.
Considera los siguientes ejemplos:
a) En un grupo de 20 personas, todas de igual peso 72 Kg., en este grupo no
hay dispersión, es un grupo homogéneo.
b) Un atleta realiza 12 pruebas en los 100 metros planos y obtiene diversos
tiempos; 12”, 11”, 15”, 14”, 13”, 16”, 12”, 14”, 15”, 12”, 13”, 16”, lo tiempos
están dispersos respecto al promedio. Los tiempos son poco homogéneos.
INACAP Virtual |Introducción a la Unidad III – Matemática II MATE01. 12
Para lograr medir los grados de dispersión, se han establecido una serie de
medidas, donde las más reconocidas son: Rango, Desviación Media, Desviación
Típica y Varianza.
Rango = diferencia entre el dato observado de mayor valor y el dato de menor
valor. En el ejemplo del atleta; Rango = 16 – 11 = 5, es decir, un rango de 5” de
dispersión.
Desviación Media = Promedio de las diferencias absolutas entre cada dato
x1 x x2 x x3 x ....... xn x
observado y el promedio. DM
n
12 13.58 11 13.58 15 13.58 ....... 16 13.58 17
En el ejemplo anterior; DM 1.42
12 12
Esta desviación media indica que los datos se encuentran a 1,42 segundos
promedio de distancia del promedio.
Varianza = Promedio de los cuadrados de las diferencias entre cada dato
observado y el promedio. V
x1
2
2
2
x x2 x x3 x ....... xn x
2
En el ejemplo anterior; V
12 13.582 11 13.582 15 13.582 ....... 16 13.582 2,576
12
Desviación Típica o Estándar = Es la medida de dispersión más utilizada y se obtiene a partir
de la varianza, su fórmula corresponde a: S
x
1
2
2
2
x x2 x x3 x ....... xn x 2
En el ejemplo del atleta; la desviación típica es S 2,576 1,605 y se puede
interpretar que los datos están dispersos 1,605 segundos de desviación respecto al
promedio.
INACAP Virtual |Introducción a la Unidad III – Matemática II MATE01. 13
Tema 6. Medidas de posición
En un conjunto ordenado de datos observados correspondientes a una variable
estadística, se definen las medidas de posición; Cuartiles, Quintiles, Deciles y
Percentiles, que se obtienen al subdividir los datos observados en cuatro, cinco,
diez o cien grupos respectivamente. En la práctica, estas medidas se aplican en
grandes colecciones de datos.
Un ejemplo de aplicación frecuente es la selección de personas para beneficios
sociales, “recibirán el beneficio los tres quintiles más pobres”.
Cuartiles = consiste en dividir la muestra en cuatro grupos, el primer cuartil está en
la posición del 25% de los datos ordenados, el segundo cuartil corresponde a la
posición del 50% de los datos ordenados (Coincide con la Mediana) y el tercer
cuartil está ubicado en el 75% de los datos.
Quintiles = consiste en dividir la muestra en cinco grupos, el primer quintil está en
la posición del 20% de los datos ordenados, el segundo quintil está en la
ubicación del 40% de los datos ordenados (Coincide con la Mediana), el tercer
quintil está ubicado en el 60% de los datos y el cuarto quintil está ubicado en el
80% de los datos.
Deciles = consiste en dividir la muestra en 10 grupos, el primer decil está en la
ubicación del 10% de los datos ordenados, el segundo decil se encuentra
ubicado en el 20% de los datos y así sucesivamente el noveno decil se encuentra
ubicado en el 90% de los datos.
Percentiles = consiste en dividir la muestra en 100 grupos, el primer percentil se
ubica en el 1% de los datos, sucesivamente hasta llegar al percentil 99 que se
ubica en el 99% de los datos ordenados. En muchos textos hacen referencias
principalmente a esta medida de posición, pues las otras se pueden expresar en
términos de percentiles.
INACAP Virtual |Introducción a la Unidad III – Matemática II MATE01. 14
En el siguiente ejemplo se ilustran los valores de Cuartiles, Quintiles, Deciles y
Percentiles.
Los siguientes datos corresponden al tiempo, en minutos y segundos, la reacción
de un grupo de pacientes a cierto medicamento: 2:45, 3:30, 5:15, 6:25, 4:50, 3:50,
3:30, 4:00, 5:20, 3:40, 4:10, 6:00, 5:00, 4:30, 5:40, 6:20, 3:40, 4:10, 3:20, 3:10.
Ordenando en forma ascendente: 2:45, 3:10, 3:20, 3:30, 3:30, 3:40, 3:40, 3:50, 4:00,
4:10, 4:10, 4:30, 4:50, 5:00, 5:15, 5:20, 5:40, 6:00, 6:20, 6:25.
En la figura se observa el
gráfico relacionado con
los percentiles, Box-Plot o
gráfico de caja,
conocido también como “Cajón con Bigotes”.
Tu desafío
INACAP Virtual |Introducción a la Unidad III – Matemática II MATE01. 15
Tema 7. Relación entre dos variables y Ajuste Lineal
Estudiar la relación entre dos variables y establecer un modelo matemático que
permita predecir el comportamiento de elementos desconocidos en una
situación cotidiana es una de las aplicaciones por excelencia de la Matemática.
Considera la utilidad para un investigador del tiempo transcurrido y el número de
bacterias reproducidas. Para una empresa la inversión en publicidad y el ingreso
por concepto de ventas. Un simple comerciante establece la relación entre las
unidades de refrescos vendidos y la temperatura máxima esperada en verano.
Podemos encontrar muchos ejemplos donde existe un grado de asociación entre
las variables, esto se conoce como correlación entre variables y su representación
gráfica corresponde a un “Gráfico de Dispersión”.
Explora el siguiente ejemplo: se realizaron 12 observaciones acerca de la estatura
promedio de los padres y la estatura del primer hijo. El objetivo es determinar si
existe relación entre las dos variables estadísticas.
Estatura Estatura
Padres(cm) Hijo(cm)
167 170
156 160
182 178
170 172
174 180
166 168
160 162
168 166
172 174
158 162
Al observar el gráfico de dispersión, podemos verificar que
168 165
a mayor estatura promedio de los padres, la estatura del
169 170
hijo también es mayor. Esta relación se identifica como
INACAP Virtual |Introducción a la Unidad III – Matemática II MATE01. 16
Directa y Fuerte. Existe un coeficiente que permite establecer el grado de
asociación entre las variables, es el coeficiente de correlación.
Tema 8. Coeficiente de Correlación
El coeficiente de correlación r es un número que varía entre -1 y 1, se calcula
n
S xy x y i i
según la expresión: r , donde S xy i 1
x y es la covarianza.
Sx S y n
S x = Desviación típica de la variable x , S y Desviación típica de la variable y .
Debes recordar que siempre se cumple que 1 r 1 , donde el coeficiente de
correlación es:
Relación Directa Relación Inversa Relación Nula
INACAP Virtual |Introducción a la Unidad III – Matemática II MATE01. 17
La covarianza en el ejemplo anterior
Estatura Padres(x) Estatura Hijo(y) x y
de las estaturas corresponde a:
167 170 28390
339976
S xy 167,5 168,9167 37,79 156 160 24960
12
182 178 32396
Por lo tanto el coeficiente de 170 172 29240
correlación es: 174 180 31320
37,79 166 168 27888
r 0,9081594
6,849574 6,075337 160 162 25920
168 166 27888
En este caso, el coeficiente de
172 174 29928
correlación nos indica que la relación
158 162 25596
es fuerte y directa, confirmando la
168 165 27720
visualización gráfica mencionada
169 170 28730
anteriormente. Es probable encontrar cálculos con redondeo a 2
x =167,5 ydecimales.
=168,9167 xy =339976
S x 6,849574 S y 6,075337
Tema 9. Ajuste Lineal o Regresión Lineal
Un modelo matemático puede explicar el comportamiento de la relación entre
dos variables y predecir resultados de la variable dependiente, conocido los
valores de la variable independiente. En Estadística se utilizan modelos lineales,
cuadráticos, exponenciales, logarítmicos y de potencias. En esta unidad se
tratará el modelo lineal, conocido como Regresión Lineal o Ajuste Lineal.
INACAP Virtual |Introducción a la Unidad III – Matemática II MATE01. 18
Revisa el siguiente ejemplo: la siguiente tabla muestra la inversión en publicidad
de una empresa durante el año 2010 y las correspondientes ventas mensuales. Los
ejecutivos de la empresa requieren saber si la inversión en publicidad tuvo
impacto en el nivel de ventas.
Meses Inversión Nivel de
Publicidad Ventas
(Miles de $) (Miles de
$)
Enero 480 24000
Febrero 800 30000
Marzo 1000 32000
Abril 600 25000
Mayo 500 22000
Junio 650 26000
Julio 600 24500
Agosto 800 31000
Septiembre 1100 36000 En la gráfica se puede observar que el
Octubre 800 30500 modelo lineal se ajusta bastante bien a los
Noviembre 1150 35000 datos observados y se puede concluir que
Diciembre 1300 40000 existe una relación directa y fuerte entre la
inversión en publicidad y el nivel de ventas.
La recta de ajuste lineal o regresión lineal se puede obtener mediante la
S xy
expresión: ( y y) ( x x)
S2x
S xy S xy
o bien: y A B x donde A y 2
x, B
S x S2x
En el ejemplo anterior, los valores que permiten obtener la expresión de la recta
de ajuste lineal son:
x 815 , y 29667 , S x 257 , S xy 1335833
INACAP Virtual |Introducción a la Unidad III – Matemática II MATE01. 19
Entonces la ecuación de la recta de regresión lineal corresponde a:
y 13227 20,171 x
Para profundizar visita:
[Link]
Recuerda apoyarte con el uso de la calculadora
El uso de la calculadora puede ser útil, pero
también es posible utilizar la conocida planilla
Excel.
Ambos recursos proporcionan excelentes
herramientas para trabajar con Estadística.
INACAP Virtual |Introducción a la Unidad III – Matemática II MATE01. 20
CONCLUSIONES
Al concluir está unidad de Estadística Descriptiva, se puede afirmar que la
información representada en forma gráfica y tabular permite dar una lectura
simple a los elementos que destacan. Con mayor profundidad se ha tratado el
trabajo con medidas estadísticas, cuyo objetivo es obtener valores
representativos de colecciones de datos observados o que se obtienen de
resultados de encuestas. Las medidas estadísticas que frecuentemente se utilizan
son: Promedios, Moda, Mediana como medidas de centralización. Medidas de
dispersión con el Rango, la desviación media y la más destacada, la Desviación
Típica. Además se trabajó y ejemplificó las medidas de posición; Cuartiles,
Quintiles, Deciles y en general los Percentiles.
Concluimos nuestro estudio con las medidas estadísticas y el modelamiento de
dos variables relacionadas, esta herramienta estadística es muy útil al momento
de determinar si existe algún grado de asociación entre dos variables, ciertos
coeficientes ayudan en esta decisión; el coeficiente de correlación y la
covarianza. El ajuste lineal o regresión lineal es un proceso que consiste en
determinar alguna función lineal que permita modelar el comportamiento de los
datos relacionados y poder predecir comportamientos no observados.
Las herramientas tecnológicas son de gran ayuda al momento de verificar
cálculos y resultados obtenidos, como son; Planilla Excel, Calculadora, Wiris y
Geogebra.
INACAP Virtual |Introducción a la Unidad III – Matemática II MATE01. 21
BIBLIOGRAFÍA
Bibliografía obligatoria
• Triola, Mario. Estadística, Pearson Educación, 2009,9789702612872.
• Gudtafson, R. David; Frisk, Peter D., Álgebra intermedia, Cengage Learning,
2006,9789706865533.
Bibliografía complementaria
Probabilidad y estadística para ingeniería y ciencias
Sheldon M. Ross Segunda edición (2002) McGraw-Hill 9701034562.
Estadística Matemática con Aplicaciones
Freund, John E., Walpole, Ronald E. Tercera edición (1990) Prentice-Hall
9688801895
Probabilidad y Estadística Walpole, Ronald E., Myers, Raymond H. Tercera
Edición(1992) McGraw-Hill 9684229925.
INACAP Virtual |Introducción a la Unidad III – Matemática II MATE01. 22