Introducción
La Estadística, nace de las necesidades reales del hombre. La variada y cuantiosa información
relacionada con éste y que es necesaria para la toma de decisiones, hace que la estadística sea
hoy, una importante herramienta de trabajo.
Entre las tareas principales de la Estadística, está el de reunir la información integrada por un
conjunto de datos, con el propósito de obtener conclusiones válidas del comportamiento de éstos,
como también hacer una inferencia sobre comportamientos futuros.
En cuanto al uso y la aplicación, puede decirse que abarca todo el ámbito humano encontrándose
en las relaciones comerciales, financieras, políticas, sociales, etc. siendo fundamental en el campo
de la investigación y en la toma de decisiones.
Es así también como en el área de las empresas de servicio y manufactura es posible realizar un
análisis profundo del proceso estadístico al control de la productividad y de la calidad
Estadística
Es el conjunto de métodos y procedimientos que implican recopilación, presentación, ordenación y
análisis de datos, con el fin que a partir de ellos puedan inferirse conclusiones.
Pueden distinguirse dos ramas diferentes en Estadística:
- Estadística Descriptiva, la cual es la que se utiliza en la descripción y análisis de
conjuntos de datos o población.
- Inferencia Estadística, la cual hace posible la estimación de una característica de una
población, o la toma de una decisión con respecto a una población, con base únicamente en
resultados muestrales.
Conceptos de elementos utilizados en el análisis estadístico
1) Población o Universo: Conjunto completo de individuos objetos, o medidas los cuales poseen
una característica común observable y que serán considerados en un estudio.
2) Muestra: Es un subconjunto o una porción de la población.
3) Variable: Característica o fenómeno de una población o muestra que será estudiada, la cual
puede tomar diferentes valores.
4) Datos: Números o medidas que han sido recopiladas como resultado de la observación.
5) Estadístico: Es una medida, un valor que se calcula para describir una característica a partir de
una sola muestra.
6) Parámetro: Es una característica cuantificable de una población.
Recopilación de Información
La Estadística Descriptiva tiene como función el manejo de los datos recopilados en cuanto se
refiere a su ordenación y presentación, para poner en evidencia ciertas características en la forma
que sea más objetiva y útil.
Una población o universo objeto de una investigación estadística puede ser finita si sus elementos
se pueden contar. Por ejemplo, número de alumnos de un curso.
Una población o universo es infinita cuando no es finita. En Estadística, el sentido del término
población infinita se refiere a una población con un número tan grande de elementos que no le es
posible al investigador someter a medida cada uno de ellos.
Cuando se miden cualitativamente las características de una población, resultan categorías que
deben ser exhaustivas, es decir, que se pueda clasificar a toda la población, y también deben ser
excluyentes mutuamente , es decir, un mismo elemento no puede pertenecer simultáneamente a dos
o más categorías. Por ejemplo, sexo de una persona: masculino o femenino.
La investigación estadística es toda operación orientada a la recopilación de información sobre una
población.
La investigación puede ser tan simple como la recopilación de datos estadísticos obtenidos de
informaciones provenientes de fuentes oficiales a nivel institucional o de publicaciones de
organismos altamente especializados en estas materias, o tan complejas que requiera de la
colaboración de especialistas en diferentes materias, como ocurre en los censos de población de un
país.
Se denomina variable a fenómenos o características que son medidas en algún tipo de investigación
estadística.
Variables
Es muy probable que un especialista en Estadística que realiza una encuesta desee desarrollar un
instrumento que le permita hacer varias preguntas y manejar diversos fenómenos o
características. A estos fenómenos o características se les denomina variables aleatorias.
Una variable estadística es cada una de las características o cualidades que
poseen los individuos de una población.
Cualitativas: Son aquellas que no aparecen de forma numérica, sino como
categorías o atributos (sexo, profesión, color de ojos).
Cuantitativas: Son aquellas que pueden expresarse numéricamente (temperatura,
salario, número de hijos). A su vez este tipo de variables se dividen de la siguiente
forma:
Variables Discretas: Son el resultado de contar y sólo toman valores enteros
(número de hijos).
Variables Continuas: Son el resultado de medir y pueden contener decimales
(temperatura, peso, altura).
Tabulación de los datos
En los experimentos estadísticos los datos recolectados pueden corresponder a una población o
muestra.
En ambos casos los procedimientos de resumen de datos son análogos y designaremos por:
N= Tamaño de la población estudiada
n= Tamaño de la muestra (parte de la población)
Con el objeto de realizar un mejor estudio de los datos es necesario organizar éstos, mediante el uso
de distribuciones de frecuencia.
Una distribución de frecuencia es una tabla resumen en la que distribución de frecuencia se
disponen los datos divididos en grupos ordenados numéricamente y que se denominan clases o
categorías.
Tabulación de datos cualitativos
La construcción de una distribución de frecuencia de atributos o distribución de frecuencia de
variable cualitativa es simple, basta enumerar los diversos atributos con su respectiva frecuencia de
ocurrencia.
Frecuencias
Frecuencia absoluta
La frecuencia absoluta es el número de veces que aparece un
determinado valor en un estudio estadístico.
Se representa por f i .
La suma de las frecuencias absolutas es igual al número total de datos, que
se representa por N.
Para indicar resumidamente estas sumas se utiliza la letra griega Σ (sigma
mayúscula) que se lee suma o sumatoria.
Frecuencia absoluta: (ƒi) indica el número de veces que se repite un atributo.
Ejemplo:
Considérese una muestra de 400 trabajadores de una cierta empresa de la región los cuales han sido
encuestados sobre su actual estado civil. La información es tabulada de la siguiente manera:
Estado Civil ƒi
Soltero 75
Casado 200
n = 400 (tamaño de la muestra)
Viudo 50 m = 4 (número de clases)
Separado 75
Total 400
Frecuencia relativa
La frecuencia relativa es el cociente entre la frecuencia absoluta de
un determinado valor y el número total de datos.
Se puede expresar en tantos por ciento y se representa por f r .
Frecuencia acumulada
La frecuencia acumulada es la suma de las frecuencias absolutas de
todos los valores inferiores o iguales al valor considerado.
Se representa por F a .
Frecuencia porcentual
Porcentaje de individuos que cumplen una determinada característica.
Se obtiene multiplicando la frecuencia relativa por 100.
Se la representa por f%
Intervalo de clase
Los intervalos de clase se emplean si las variables toman un número grande
de valores o la variable es continua.
Se agrupan los valores en intervalos que tengan la misma
amplitud denominados clases. A cada clase se le asigna su frecuencia
correspondiente.
Marca de clase
Es el punto medio de cada intervalo de clase.
Li + Ls
2
m i=
Fórmula para calcular intervalos de clase
intervalos : nt =1+3 . 33 x log(n )
n=tamaño de muestra
Amplitud: es la diferencia entre el límite superior e inferior de la clase.
R
w=
nt
R=Rango
Distintos tipos de gráficos
Gráficos de barra : Este gráfico es útil para representar datos categóricos nominales u
ordinales. A cada categoría o clase de la variable se le asocia una barra cuya altura
representa la frecuencia o la frecuencia relativa de esa clase. Las barras difieren sólo
en altura, no en ancho. La escala en el eje horizontal es arbitraria y en general, las
barras se dibujan equiespaciadas, por esta razón este tipo de gráfico sólo debe usarse
para variables categóricas. Es importante que el eje vertical comience en cero, de
modo que no se exageren diferencias entre clases. En un gráfico de barras, así como
en cualquier tipo de gráfico se debe indicar el número total de datos ya que el gráfico
sólo muestra porcentajes o frecuencias relativas y la fuente de la que se obtuvieron
los mismos.
Ejemplo.
La gráfica siguiente representa el número de campeonatos de fútbol que han ganado
los países en las 18
ediciones desde 1930
hasta 2006:
Gráficos de torta: En este gráfico, ampliamente utilizado, se representa la frecuencia relativa de
cada categoría como una porción de un círculo, en la que el ángulo se corresponde con la frecuencia
relativa correspondiente. Como en todo gráfico es importante indicar el número total de sujetos.
Esta representación gráfica es muy simple y permite comparar la distribución de una variable
categórica en 2 o más grupos.
Gráfico de bastones: Consiste en levantar, para cada valor de la variable, una barra cuya altura
sea su frecuencia absoluta o relativa, dependiendo de la distribución de frecuencias que estemos
representando.
Histograma de frecuencia
1. Histograma:
Al ser esta representación una representación por áreas, hay que distinguir si los intervalos
en los que aparecen agrupados los datos son de igual amplitud o no.
Si la amplitud de los intervalos es constante, dicha amplitud puede tomarse como unidad y
al serla altura correspondiente a cada intervalo puede tomarse igual a la frecuencia.
Si los intervalos tienen diferente amplitud, se toma alguna de ellas como unidad
(generalmente la menor) y se levantan alturas para cada intervalo de forma que la ecuación
anterior se cumpla.
Polígono de frecuencia
Los polígonos de frecuencias se realizan trazando los puntos que representan la
marca de clase y uniéndolos mediante segmentos.
Curvas de frecuencias más usadas
La curva de una distribución asimétrica negativa indica que los valores estarán más
reunidos en niveles superiores a la media aritmética.
Al centro, la curva muestra la Curva Normal, la asimetría tiene un valor de cero.
A la derecha se muestra una curva asimétrica positiva, lo que nos indica que los valores
tienden a reunirse en la zona de los valores menores a la media.
Medidas de localización
Medidas de tendencia central
El comportamiento de una variable observada en una población o de una muestra, puede
resumirse mediante una serie de valores representativos llamados parámetros o estadísticos,
según sea el caso de una población o de una muestra.
Se denominan medidas de tendencia central o de centralización, a aquellos valores
numéricos en torno a los cuales se agrupan, en mayor o menor medida, los valores de una
variable estadística.
Las tres medidas más usuales de tendencia central son:
La Media aritmética
La Mediana
La Moda
Cuartiles
Media aritmética o promedio
La media aritmética es el valor obtenido al sumar todos
los datos y dividir el resultado entre el número total de datos.
es el símbolo de la media aritmética
n
∑ xi x 1 + x 2 + x 3 +. ..+ x n
x̄= i=1 =
n n
Mediana
Se define como el valor de la variable que divide la distribución en dos partes
iguales. Es decir, el 50% de los datos es menor o igual a él y el restante 50% es
mayor o igual a él.
Se denota Me.
Si el número de observaciones es impar, la mediana es el valor que ocupa el lugar
central.
Si el número es par, la mediana es la media de los dos valores centrales.
Moda
Se define como el valor de la variable que más se repite, es decir, el valor de la
variable que tenga frecuencia máxima.
Se denota con Mo.
Ejemplo:
En este caso frecuencia máxima= 16, por lo tanto,
Mo= 12 meses
En el caso de dato agrupados
3+5
MODA= =4
2
MARCA DE CLASE DEL INTERVALO MODAL
Gráficamente
En las gráficas siguientes muestran las posiciones relativas de la media , la mediana y la
moda para curvas de frecuencias asimétricas a la derecha y a la izquierda. Para curvas
simétricas los 3 valores coinciden
En las curvas distribución de frecuencias tenemos:
En la simétrica la media = Mediana = moda
En la asimétrica sesgada a la derecha la media > mediana > moda
En la asimétrica sesgada a la izquierda la media <mediana < moda
Cuartiles
Los cuartiles son los tres valores de la variable que dividen a
un conjunto de datos ordenados en cuatro partes iguales.
Q 1 , Q 2 y Q 3 determinan los valores correspondientes al 25%, al 50% y al
75% de los datos.
Q 2 coincide con la mediana.
Calculo de cuartiles para datos agrupados
Formulas n
−N j−1
4
1º Cuartil Q1 = y j−1 +cx
N j −N j−1
2n
−N j−1
4
2º Cuartil Q 1 = y j−1 +cx
N j−N j−1
3n
−N j−1
3º Cuartil
4
Q3 = y j−1 +cx
N j −N j−1
Ejemplo:
Sabemos que el límite inferior del intervalo mediano (Yj-1) es 65.5 y que su amplitud es de
9.
Sabemos que Nj (frecuencia absoluta acumulada del intervalo mediano) es 13 y que Nj-1
(frecuencia absoluta acumulada del intervalo anterior al mediano) es 6.
Por ultimo sabemos que n=20.
Con estos datos podemos calcular los cuartiles:
1º Cuartil:
20
−6
4
Q 1 =65 .5+ 9 =
13−6 64.21 Significa que el primer cuartil esta en 6.
2º Cuartil:
2 x 20
−6
4
Q 2 =65 .5+ 9 =
13−6 70.64 Significa que el segundo cuartil se ubica en 13.
3º Cuartil:
3 x 20
−6
4
Q 3 =65 .5+ 9 =
13−6 77 Significa que el tercer cuartil esta en 17.
Calculo de cuartiles para datos NO agrupados
Número impar de datos
2, 5, 3, 6, 7, 4, 9
Número par de datos
2, 5, 3, 4, 6, 7, 1, 9
El primer cuartil, debe dividir a la primera mitad de la serie en dos partes
iguales por lo cual Q 1 se ubicará entre el segundo y tercer valor de la serie.
El tercer cuartil, divide a la segunda mitad de la serie en dos partes iguales.
Gráfico de caja y bigote
El diagrama de caja es una presentación visual que describe al mismo tiempo
varias características importantes de un conjunto de datos, tales como el centro, la
dispersión, la desviación de la simetría y la presencia de valores atípicos.
El diagrama de caja presenta los tres cuartiles, y los valores mínimo y máximo de
los datos sobre un rectángulo en posición horizontal o vertical.
El rectángulo delimita el rango untercuartílico con la arista izquierda ubicada en el
primer cuartil, y la arista derecha ubicada en el tercer cuartil. Se dibuja una línea a
través del rectángulo en la posición que corresponde al segundo cuartil. De
cualquiera de las aristas del rectángulo se extiende una línea, o bigote, que va
hacia los valores extremos.
Representación tallo y hoja
El diagrama "tallo y hojas" (Stem-and-Leaf Diagram) permite obtener simultáneamente una
distribución de frecuencias de la variable y su representación gráfica. Para construirlo basta separar en
cada dato el último dígito de la derecha (que constituye la hoja) del bloque de cifras restantes (que
formará el tallo).
Esta representación de los datos es semejante a la de un histograma pero además de ser fáciles de
elaborar, presentan más información que estos.
Puede ordenar los datos de menor a mayor, esto ayudara a la organización de los datos
(Opcional)
Separe cada número en un tallo y una hoja.
Agrupe los números con los mismos tallos. Ponga los tallos en una lista en orden creciente.
Ejemplo con los siguientes 15 datos:
35, 36, 38, 40, 42, 42, 44, 45, 45, 47, 48, 49, 50, 50, 50
Medidas de dispersión
Las medidas de dispersión cuantifican la separación, la dispersión, la variabilidad de los valores de
la distribución respecto al valor central.
Rango
Es la diferencia entre el valor de las observaciones mayor y el menor. Re = xmax - xmin
Rango intercuartilico
El rango intercuartílico es una medida de variabilidad adecuada cuando la medida de posición
central empleada ha sido la mediana. Se define como la diferencia entre el tercer cuartil (Q 3) y el
primer cuartil (Q1), es decir: RQ = Q3 - Q1.
Se usa para construir los diagramas de caja y bigote (box plots) que sirven para visualizar la
variabilidad de una variable y comparar distribuciones de la misma variable; además de ubicar
valores extremos.
Varianza
Es la media aritmética del cuadrado de las desviaciones respecto a la media de
una distribución estadística.
La varianza se representa por .
n
∑ ( x i − x̄ )2
σ 2= i =1
n
Varianza para datos agrupados
n
∑ ( x i− x̄ )2 xf i
σ 2= i=1
n
donde
x i=marca de clase
f i=frecuencia absoluta de cada clase
Desviación típica
La desviación típica es la raíz cuadrada de la varianza .
La desviación típica se representa por σ.
Para datos no agrupados Para datos agrupados
√ √
n
n
∑ ( x i− x̄ )2 ∑ ( x i− x̄ )2 f i
i=1
σ= σ=
i=1
n n
Coeficiente de variación
El coeficiente de variación es la relación entre la desviación típica de una muestra
y su media.
El coeficiente de variación se suele expresar en porcentajes:
Coeficiente de asimetría
k
∑ ( x i − x̄ )2 ni
1 1=1
a 3= 2
s n
Si a3 <0 la distribución tiene asimetría (sesgo) negativa.
Si a3 >0 la distribución tiene asimetría (sesgo) positiva.
Si a3 =0 la distribución es simétrica.
Curtosis
Esta medida determina el grado de concentración que presentan los valores en la región
central de la distribución. Por medio del Coeficiente de Curtosis, podemos identificar si
existe una gran concentración de valores (Leptocúrtica), una concentración normal
(Mesocúrtica) ó una baja concentración (Platicúrtica).
[ ]
k
1
∑ ( x i − x̄ )4 ni
i=1
a 4= −3
s 4 n
[Link]