ESTADÍSTICA INTRODUCTORIA
DEFINICION DE ESTADÍSTICAS:
Se configura como la tecnología del método científico que proporciona instrumentos para la
toma de decisiones, cuando estas se adoptan en ambiente de incertidumbre, siempre que estas
incertidumbres puedan ser medidas, por ello, la Estadística se preocupa de los métodos de
recolección y descripción de datos, así como de generar técnicas para el análisis e
interpretación de esa información (datos numéricos).
La estadística se divide en estadística DESCRIPTIVA E INFERENCIAL.
DESCRIPTIVA:
Estudia los métodos de recolección, elaboración y análisis básico y presentación de datos.
Se hacen los análisis de medidas de tendencia central y dispersión
INFERENCIAL:
Trata de la obtención de conclusiones, respecto a la fuente de datos, métodos estadísticos de
análisis de chi-cuadrado, correlación, prueba de hipótesis, etc.
POBLACIÓN :
Conjunto o cúmulo de individuos u elementos a analizar, que tienen características comunes.
Se utiliza cuando se hacen censos
MUESTRA:
Es un sub conjunto de casos representativo de la población, se utiliza cuando se hacen
encuestas, aveces se suele emplear el nombre de encuesta exhaustiva como sinónimo de
censo.
VARIABLES
Es una característica de interés acerca de cada elemento de una población o de una muestra.
Existen categóricas y numéricas.
V. DISCRETAS (CATEGÓRICA, CUALITATIVA) :
Se define como aquella variable que entre dos valores próximos puede tomar a lo sumo un
número finito de valores, Ej: número de hijos, número de obreros.
No tiene carácter numérico, es el resultado de un proceso que categoriza o describe un
elemento de una población, cuando el fenómeno es de esta naturaleza la idea atributo
sustituye a la de variable. Colores, sexo, etc. Se analizan por gráficos de barras y porcentajes.
V. CONTINUA (NUMERICA, CUANTITATIVA):
Es aquella que puede tomar los infinitos valores de un intervalo.
Es el resultado de un proceso que cuantifica, cuenta o mide y estos a su vez se divide en
discreta y continua (EDAD, TALLA, ALTURA). Se hacen medias mediana, moda, des.std,
varianza, rango, percentiles, etc.
DATOS:
Es el valor de la variable o atributo asociado a un elemento de una población o muestra.
Puede ser unidimencional si corresponde a una sola variable ( o atributo) o multidimencional
si corresponde a varias variables ( o atributo).
EXPERIMENTO:
Es la actividad realizada según un plan definido cuyos resultados producen un conjunto de
datos.
PARAMETRO:
Es la característica numérica de una población.
TABLAS DE FRECUENCIAS :
El resumen más simple de una muestra, que a menudo es el más útil; es un cuadro de
frecuencias con la que cada valor individual se determinó dentro de la misma.
En la construcción de la tabla de frecuencias los datos ya ordenados los podemos agrupar en
clases y frecuencias.
Las clases son intervalos de números reales , registrando en cada una de las clases, el número
de observaciones que pertenecen a ellas
Una de las propiedades de las clases es que deben ser disjuntas es decir que una observación
sólo debe estar en una clase
RECUENCIAS: Número de observaciones pertenecientes a cada clase.
PROCEDIMIENTO PARA LA CONSTRUCCIÓN DE UNA TABLA DE
FRECUENCIAS.
decidir el número de clases que usará en su tabla, las clases varían entre 5 y 20
Determinar los valores de la menor y mayor observación en la muestra.
La resta de la mayor observación de la menor será el rango R = M-m
Al dividir el rango entre el número de clases, el resultado será la longitud ‘l’
A esta longitud se le resta 1 para obtener la longitud del intervalo L = l-1
Para obtener la primera clase, se suma a la menor de las observaciones de la muestra la
longitud ‘L’.
A los extremos de los este intervalos de clase se les llama, límite inferior y límite
superior.
Cuente el número de observaciones de la muestra que pertenecen a cada una de las clases
Registre en forma tabular al lado de cada clase el número de observaciones que contiene,
este número de observaciones es la frecuencia de cada clase correspondiente.
Una ves construidas las frecuencias, adjuntamos a la tabla lo siguiente:
Marca de clase: Es el punto medio del intervalo asociado con al clase.
Límites reales de clase: Son los límites inferior y superior de cada clase, el inferior
resulta de restar media unidad (0.5) al límite inferior, y el superior resulta de sumar media
unidad (0.5) al límite superior.
Frecuencia porcentual de una clase: Es la frecuencia de una clase expresada como
porcentaje del total de observaciones de la muestra.
Frecuencia acumulada: Es el total de observaciones de la muestra cuyo valor es menor
que le límite real superior de la clase. Se determina generalmente sumando el total de
observaciones de todas las clases precedentes, mas el de la clase en cuestión.
Frecuencia porcentual acumulada: Es la frecuencia acumulada de la clase expresada
como porcentaje del total de observaciones.
Frecuencia relativa: Resulta de la división de cada una de las frecuencias entre el total
de observaciones.
Si bien el agrupamiento de los datos es un auxiliar valioso en la representación y el análisis
de datos es necesario, señalar algunos de los inconvenientes, que este agrupamiento
involucra.
Al agrupar los datos se pierde información, los valores originales de las observaciones son
sustituidos por el número de observaciones en determinado intervalo.
El agrupamiento de los datos involucra arbitrariedad de parte de la persona que efectúa
la agrupación. En general no se recomienda el agrupamiento para el análisis de
observaciones, a menos que el número de estas sea tan grande que resulte imposible el
manejo individual de las mismas.
HISTOGRAMAS.
Es un tipo de gráficos de barras que representa a todo el conjunto de datos. El histograma se
representa en un sistema de coordenadas rectangulares, donde:
En el eje horizontal se indican los límites reales de cada clase como intervalos numéricos
haciendo coincidir el origen con el limite real inferior de la primera clase.
En el eje vertical se señalan las frecuencias haciendo coincidir el origen del eje vertical con la
frecuencia cero.
15
FRECUENCIAS
10
0
LIMITES
Para indicar la frecuencia asociada con cada clase se erige sobre el intervalo real de la clase
correspondiente un rectángulo de altura igual a la frecuencia de la clase y de base igual a la
longitud del intervalo real de clase.
Cuando se cambian los valores de la escala vertical el histograma se transforma en
histograma de frecuencia relativa, la cual es una medida proporcional de la frecuencia de un
suceso.
FORMAS DE LOS HISTOGRMAS:
Normal o simétrica, media, mediana y moda coinciden, esta es una distribución
Mesocúrtica, si lo datos presentaran mayor concentración alrededor del valor central con
un pico acentuado hacia arriba, sería una distribución Leptocúrtica.
6
0
1 e r t r i m.
Uniforme rectangular
2.5
2
1.5
1
0.5
0
1er trim.
Sesgado por la izquierda o asimétrico, la media es mayor que la mediana, si fuese sesgo
por la derecha, la media sería menor que la mediana.
1 0
8
6
4
2
0
1 e r t r i m.
En forma de jota
1 0
0
1 e r t r i m.
Bimodal
10
8
6
4
2
0
1 e r t rim .
¿ Los histogramas se emplean en las representaciones de colecciones discretas y categóricas.¿
Hay que recordar que este tipo de gráfico no puede usarse para distribuciones con clases
abiertas.
Debe tomarse en cuenta que el cuadro presentado por medio de un histograma, puede
llevarnos a falsas conclusiones, si una distribución tiene clases desiguales y no se hace los
ajustes necesarios.
POLIGONOS DE FRECUENCIAS:
Este se representa en un sistema de coordenadas rectangulares donde los puntos (X i, Fi ),
marca de clase y frecuencias corresponden a cada clase.
En le eje horizontal se representan los límites reales de clases y las marcas de clases
En el eje vertical se representan los puntos X i Fi se conectan estos por medio de segmentos
de rectas.
OJIVA:
Es un gráfico de una distribución de frecuencias acumulada y tiene las siguientes
componentes:
Un título que identifica la población
Una escala vertical que identifica las frecuencias acumuladas o las frecuencias relativas
acumuladas.
Una escala horizontal que identifica las fronteras superiores de cada clase. No se puede
estar seguro de haber acumulado, todos lo datos en una clase, hasta que se alcance la
frontera superior de esa clase, por lo tanto la escala horizontal de una ojiva, siempre está
basada en las fronteras superiores de cada clase.
GRAFICOS CIRCULARES Y DE BARRAS
Se utiliza este tipo de gráficos para representar datos cualitativos o atributos, es decir
categóricos.
REPRESENTACIÓN TALLO HOJA
Esta técnica es una combinación de dos procedimientos, uno gráfico y otro de ordenación.
ORDENAR DATOS: es formar una lista de ellos, es un orden dado de acuerdo a su valor
numérico, los valores de los datos se utilizan para efectuar, tal ordenación.
TALLO: Este se forma con el, o los primeros dígitos del dato muestral de menor a mayor
del lado izq.
HOJA: se forma con los dígitos siguientes, que acompaña a cada número o dato de la
muestra. Ej de 58, el 5 irá en el tallo y el 8 en la hoja, si hay un 52, se continúa en la hoja
agregando el 2. ETC.
TALLO HOJA
5 8 2
6 6 2 8
8 2 8 4 6 2
MEDIDAS DE CENTRALIZACIÓN Y DISPERSIÓN
Al analizar un conjunto de datos notaremos las siguientes características
Es muy frecuente que los datos se acumulen alrededor de un valor central, situado entre
los extremos de los valores de la variable que se estudia, y este valor puede ser calculado.
Los datos pueden tender a dispersarse y distribuirse alrededor de un valor central, en
forma tal que ese valor puede ser calculado.
MEDIDA DE CENRTRALIZACIÓN, O MEDIDA DE TENDENCIA CENTRAL:
La medida de centralización son valores numéricos que tienden a localizarse en la pa parte
central de un conjunto de datos, cada una de dichas medidas puede recibir el nombre de valor
promedio.
MEDIA:
Para el caso de datos no agrupados , supongamos que tenemos n observaciones x1,
x2,,,,xn, entonces la media será:
x
i 1
i
X
n
PROPIEDADES DE LA MEDIA:
* La suma de las desviaciones es igual a cero x x 2 = 0.
* La suma de los cuadrados de las desviaciones con respecto a la media es mínima
x x 2 Es mínima.
Para el caso de que nuestros datos estén agrupados , la media será:
X =
Fx
i 1
i i
F i
LA MEDIANA (Datos no agrupados):
Es el valor ocupado por la posición central cuando los datos se ordenan de acuerdo a su
magnitud, se determina de la siguiente forma:
d(x) = n+1
2 donde 1 es la posición de valor más pequeño y n es la posición del dato con el
valor más grande, para encontrarla, primero se ordenan los datos .
Para encontrar la mediana cuando los datos están agrupados se hace de la siguiente
forma:
Utilizando la Ojiva
Mediante el uso de la Ojiva se obtiene con la observación del percentil 50 (P50) .
Por el método de interpolación lineal.
a) Se determina la frecuencia porcentual acumulada en cada clase.
b) Determinar el límite real superior de la clase cuyo porcentaje acumulado es mayor de 50
c) Determinar la frecuencia porcentual de la clase.
d) Utilizar la formula:
l
Xˆ l rs % Facu 50
%F
NOTA: en la medida que los valores de la mediana y la media se alejan, existe más
dispersión y anormalidad.
Ejemplo:
CLASES F %F F. ACUM % F. ACUM lri - lrs
17-26 3 15 3 15 16.5-26.5
27-36 5 25 8 40 26.5-36.5
37-46 8 40 16 80 36.5-46.5
47-56 4 20 20 100 46.5-54.5
20 100
Luego l = 10
Se toma el % F acum. En 80 para poder hacer la resta al percentil 50
Aplicando la formula : X = 46.5-10/40 (80-50)
X = 46.5-1/4 (30)
X = 46.5-7.5
X = 39 mediana
MODA:
Es la calificación que ocurre con mayor frecuencia si los datos no están agrupados, pueden
haber una o mas modas, puede ser bimodal, trimodal,...
Si los datos están agrupados la moda está dada por la marca de clase del intervalo de mayor
frecuencia.
OBSERVACIONES:
La media aritmética es una de las medidas más utilizadas para representar la tendencia
central, debido a las propiedades matemáticas que posee, utiliza todos los datos,
preferiblemente si éstos son homogéneos y tienen una distribución simétrica.
Si la distribución de los datos presenta muy poca simetría se puede utilizar la mediana, la
mediana utiliza menos información ya que sólo toma en cuenta el orden de los datos y no su
magnitud.
La moda es una medida apropiada si se quiere una estimación aproximada y rápida de la
tendencia central, o solamente cuando se quiere conocer el caso típico.
NOTA: Si la distribución de los datos es simétrica, la media, mediana y moda coinciden, en
caso contrario difieren en su valor.
MEDIDAS DE DISPERSIÓN:
Rango (VALOR MAX – MIN)
Varianza (DISTANCI A DE LOS VALORES DE LA MUESTRA AL PROMEDIO)
Desviación Estándar (ES LA INDICADA PARA EL ANALISIS)
Coeficiente de variación de Pearson
El rango se determina con la resta de la observación mayor de la menor.
La varianza para datos no agrupados Para datos agrupados la varianza
está dada por : está dada por:
n n
x i x
2
F x i i x
2
S2 i 1
S2 i 1
n 1 n 1
La Desviación Estándar No Es Más Que La Raíz Cuadrada De La Varianza, tanto en datos
no agrupados y agrupados. Sus propiedades: S2 0, es una medida de dispersión óptima, etc.
Cuanto menor sea el valor de la des.std, la muestra está mejor formada y es más
representativa.
La unión de la media y la desv.std se construyen los intervalos de confianza.
NOTA: Medir la representatividad de las medidas de tendencia central, equivale a
cuantificara la separación de los valores de la distribución, respecto a dicha medida. Por
ejemplo si queremos medir en que grado una media aritmética nos marca una tendencia
central generalizable del comportamiento de todos los elementos del conjunto estudiado
(población o muestra), tendremos que fijarnos en la separación ( por la desviación) de cada
valor respecto a la media. Si todos los valores están cercanos al valor medio, este será
representativo de ellos.
El coeficiente de variación de Pearson (V) no es más que el cociente de la desviación
estándar sobre el promedio , multiplicado por 100.
V = S / x * 100
En primer lugar Vemos que al efectuar al cociente , eliminamos las unidades, y por tanto V es
adimencional, como cabría esperar.
En segundo lugar V representa el número de veces que S contiene a la x , y es claro que
cuanto mayor sea V mas veces contendrá S a x , luego relativamente a mayor V menor
representatividad de la media x.
Este se utiliza en las siguientes situaciones:
Un intento para resolver el problema de comparación de medias aritméticas de dos
distribuciones que pueden venir, en general en unidades diferentes, o en las que las medias no
son iguales en el que K pearson propuso.
MEDIDAS DE POSICIÓN:
* CUARTILES
* CENTILES O PERCENTILES
Estas sirven para describir la localización de un dato específico, en relación con el resto de la
muestra, las medidas de posición más usadas son las llamadas cuartiles y centiles.
CUARTILES:
Es un número que divide a los datos ordenados en cuatro partes, cada conjunto de datos tiene
3 cuartiles. El primer cuartil representado por Q1 es un número tal que a los mas una cuarta
parte de los datos tiene un valor más pequeño que Q 1 y a lo más ¾ partes de los datos tiene
valores mayores.
El segundo cuartil Q2 es la mediana, la cual es una medida de tendencia central que divide a
los datos en dos partes iguales.
El tercer cuartil Q3 es un número tal que a lo más ¾ partes de los datos tienen un valor más
pequeño que Q3 y a lo más un cuarta parte tiene un valor mayor.
25 % 25 % 25 % 25 %
m Q1 Q2 Q3 M
CENTILES O PERCENTILES:
Son números que divide en 100 partes iguales un conjunto de datos ordenados, el conjunto
tiene 99 centiles, se representa por (pk ) y decimos que el k-ésimo percentil es un valor tal que
el k % de los datos tiene valores pequeños que el pk.
Q1 = p25, Q2 = p50, Q3 = p75
3er. Cuartil
Rango Mediana
Intercuartílico
1er. cuartil
PROCEDIMIENTO PARA DETERMINAR EL VALOR DE CUALQUIER CENTIL O
CUARTIL.
Ordenar de forma ascendente el conjunto de datos a analizar.
Debe de determinarse la posición del k-Esimo centil, para esto hay que tener presente, si k
es menor que 50, para esto, calculamos el valor de:
nk
pk donde n es el tamaño de la muestra..
100
Si el valor calculado no es un número entero, entonces la posición es igual al siguiente
entero más grande. Ej: si el resultado es 12.3, tendremos como resultado final 13.
Si el valor calculado es un entero, entonces la posición es igual a:
nk
pk 0.5
100
Ej: si el resultado es 12, tendremos como resultado final 12.5.
Si k es mayor que 50 se resta k de 100 y se emplea el valor 100-k .
n100 k
pk
100
Localice el valor del k-ésimo precentil cuando k es menor que 50, se comienza a contar
a partir del dato menor hasta encontrar el dato que esté en la posición k-Esima.
Si k es mayor que 50 se inicia la cuenta a partir del mayor
Si la posición de pk percentil es un número cero el dato localizado será el valor de pk
Si pk la posición del k-esimo percentil no es un entero entonces el valor de k-esimo
percentil está entre los datos n.k/100 y n.k/100 +1