INSTITUTO ESTATAL DE EDUCACIÓN PÚBLICA DE OAXACA
COORDINACIÓN DE EDUCACIÓN BÁSICA Y NORMAL
ESCUELA NORMAL URBANA FEDERAL DEL ISTMO
CLAVE: 20DNL0002Q
LICENCIATURA EN EDUCACIÓN PRIMARIA
CD. IXTEPEC, OAXACA
ASIGNATURA: Estadística
GRADO: Cuarto semestre
GRUPO: A
NOMBRE DEL DOCENTE: Dr. Antonio Jiménez Gutiérrez
ALUMNO: Paola Monserrat León Torres
LUGAR Y FECHA: Cd. Ixtepec Oaxaca 20 de mayo del 2022
ESTADÍSTICA
[Link]ÍSTICA
La estadística es una disciplina científica que se ocupa de la obtención, orden y análisis de un
conjunto de datos con el fin de obtener explicaciones y predicciones sobre fenómenos
observados.
La estadística consiste en métodos, procedimientos y fórmulas que permiten recolectar
información para luego analizarla y extraer de ella conclusiones relevantes. Se puede decir que es
la Ciencia de los Datos y que su principal objetivo es mejorar la comprensión de los hechos a partir
de la información disponible.
TERMINOS BASICOS DE ESTADISTICA
Toda técnica, arte o disciplina científica maneja una serie de términos o conceptos indispensables.
En estadística estos son los principales:
Datos estadísticos: es un conjunto de valores numéricos que tienen relación significativa entre sí.
Los mismos pueden ser comparados, analizados e interpretados en una investigación cualquiera.
Población o universo: es totalidad de los valores de una característica particular de un grupo
especificado de personas, animales o cosas que se desean estudiar en un momento determinado.
Cada unidad individual es un elemento.
Muestra: es un subconjunto de la población, seleccionado de tal forma, que sea representativo
de la misma, obteniéndose con el fin de investigar alguna o algunas de las propiedades de la
población de la cual procede.
Encuesta: Es una investigación en la cual la información se obtiene de una fracción de la población
llamada muestra.
Censo: Es una investigación que cubre todos los miembros o elementos de una población dada, ya
sea una nación, una comunidad o una determinada organización.
Parámetro: Es una medida de resumen que se calcula con el propósito de describir alguna
característica de la población.
Estadígrafo: Son medidas de resumen que se calculan con el propósito de describir alguna
característica de una sola muestra de la población.
Notación sumatoria: para denotar la suma de una gran cantidad de indicadores estadísticos se
emplea la letra griega ∑ llamada sigma. Esta notación indica: suma total.
Si la variable x toma los valores (x1 + x2 + x3 +. . . . . + xn) entonces su notación sumatoria es:
Esta expresión se lee como, sumatoria de x, desde i = 1 hasta n. Aquí i = 1 debajo de la notación
indica el primer elemento a sumarse. La (n) indica el término final de la suma.
1.1 Importancia del estudio de la estadística
La estadística resulta fundamental para conocer el comportamiento de ciertos eventos, por lo que
ha adquirido un papel clave en la investigación. Se usa como un valioso auxiliar y en los diferentes
campos del conocimiento y en las variadas ciencias. Es un lenguaje que permite comunicar
información basada en datos cuantitativos.
Es tan importante que casi no existe actividad humana en que no esté involucrada la Estadística.
Las decisiones más importantes de nuestra vida se toman con base en la aplicación de la
Estadística.
La estadística es de gran importancia en la investigación científica debido a que:
Permite una descripción más exacta.
Nos obliga a ser claros y exactos en nuestros procedimientos y en nuestro pensar.
Permite resumir los resultados de manera significativa y cómoda.
Nos permite deducir conclusiones generales.
La evolución de la estadística ha llegado al punto en que su proyección se percibe en casi todas las
áreas de trabajo. También abarca la recolección, presentación y caracterización de información
para ayudar tanto en el análisis e interpretación de datos como en el proceso de la toma de
decisiones. La estadística es parte esencial de la forma profesional, es hasta cierto punto una parte
necesaria para toda profesión.
La importancia de la estadística radica fundamentalmente en su aplicación en el proceso de todo
tipo de investigación científica. Ella es de gran utilidad en las ciencias sociales, en las ciencias
naturales y en las ciencias formales. De manera, que la estadística es por sí misma, auxiliar de
todas las ciencias.
1.2 Tablas de distribución de frecuencias y representaciones gráficas
TABLAS DE DISTRIBUCIÓN DE FRECUENCIAS
Una distribución de frecuencias o tabla de frecuencias no es más que la presentación tabular de
las frecuencias con que ocurre cada característica (subclase) en las que ha sido dividida una
variable.
La frecuencia se refiere a la cantidad de cada categoría. En tanto, que a la sumatoria de las
frecuencias le llamaremos total de observaciones que representaremos por (n). Así:
Tenemos que saber que las distribuciones de frecuencias se pueden arreglar de dos forma
diferentes, esto es, para datos agrupados y para datos no agrupados.
Ahora bien, antes de pasar a trabajar con las distribuciones de frecuencias es necesarios que
conozcamos algunos términos fundamentales que nos ayudaran a entender mejor las
distribuciones de frecuencias, tanto para datos no agrupados, así como para datos agrupados.
Frecuencia simple (fi): es el número de veces que aparece el mismo dato estadístico en un
conjunto de observaciones. Aquí (f) se lee como frecuencia, mientras que (i) define el orden de las
clases.
Frecuencia relativa (fr): esta resulta de dividir cada frecuencia simple entre el total de
observaciones. La sumatoria de las frecuencias relativas es igual a 1.
Frecuencia relativa porcentual (fr%): resultan de multiplicar cada frecuencia relativa por 100 La
sumatoria de las frecuencias relativas es igual a 100%.
Frecuencias Acumuladas (Fi): se obtienen de las sumas sucesivas de las frecuencias absolutas.
Frecuencia Acumulada Relativa (Fr): esta resulta de dividir cada una de las frecuencias acumulada
entre el total de observaciones, así:
Frecuencias acumuladas relativas porcentuales (Fr %): resultan de multiplicar cada una de las
frecuencias acumuladas relativas por 100.
Punto medio o maca de clases (Xi): estas se obtienen al dividir el límite inferior y el límite superior
de cada clase entre dos.
PRESENTACIÓN GRÁFICA DE LOS DATOS ESTADÍSTICOS
Los gráficos estadísticos tiene la ventaja que permiten transmitir información de un modo más
expresivo que la tablas, basta una simple observación para apreciar sus características más
relevantes. Así mismo, permiten sacar cualquier conclusión sobre los datos observados.
En la actualidad, parece infinita la posibilidad de diseño de los diferentes tipos de gráficos. Sin
embargo, lo importante es elegir el más adecuado para los tipos de variables que vamos a
presentar. Los gráficos siguientes son los principales:
Histogramas
Polígono de frecuencias
Ojivas
Gráfica circular
Gráficas de barras
Gráfica línea
1.3 Medidas de tendencia central
1- Media aritmética
La media aritmética es la suma de todos los datos dividida entre el número total de datos. Se
calculan dependiendo de cómo vengan ordenados los datos.
La media aritmética de un grupo de datos se calcula así:
Se debe multiplicar cada dato con su respectiva frecuencia, sumar todos estos productos, y el
resultado dividirlo por la suma de los datos.
2- Moda
La moda de un conjunto de datos es el dato que más veces se repite, es decir, aquel que tiene
mayor frecuencia absoluta. Se denota por Mo. En caso de existir dos valores de la variable que
tengan la mayor frecuencia absoluta, habría dos modas. Si no se repite ningún valor, no existe
moda.
Si dos puntuaciones adyacentes tienen la frecuencia máxima, la moda es el promedio de las dos
puntuaciones adyacentes.
3- La mediana
La mediana es el valor que ocupa el lugar central entre todos los valores del conjunto de datos,
cuando estos están ordenados en forma creciente o decreciente.
La mediana se representa por Me.
Calculo de la mediana:
1° Ordenamos los datos de menor a mayor.
- La mediana de un conjunto con un número impar de datos es, una vez ordenados los datos, el
dato que ocupa el lugar central.
- También podemos usar la siguiente fórmula para determinar la posición del dato central:
(n + 1) /2 = mediana datos impares.
- La mediana de un conjunto con un número par de datos es, una vez ordenados, la media de los
dos datos centrales.
4- Rango
El rango da la idea de proximidad de los datos a la media. Se calcula restando el dato menor al
dato mayor.
Este dato permite obtener una idea de la dispersión de los datos, cuanto mayor es el rango, más
dispersos están los datos de un conjunto.
Si el conjunto de datos que se recolecta es muy numeroso, o bien, si el rango es muy amplio, es
conveniente agruparlos y ordenarlos en intervalos o clases.
La amplitud o tamaño de cada intervalo se puede calcular dividiendo el valor del rango por la
cantidad de intervalos que se desean obtener.
1.4 Medidas de posición
Las medidas de posición relativa se llaman en general cuantiles y se pueden clasificar en tres
grandes grupos: Cuartiles, quintiles, deciles, percentiles.
Las medidas de posición como los cuartiles, quintiles, deciles y percentiles dividen a una
distribución ordenada en partes iguales. Para calcular las medidas de posición es necesario que los
datos estén ordenados de menor a mayor.
a - Los Cuartiles (Qn): son los tres valores de la variable de una distribución que la dividen
en cuatro partes iguales, es decir, al 25%, 50% y 75%. Para calcular el valor de uno de los cuatro
Cuartiles, se utiliza la formula:
Qk = k (n/4)
En donde:
Qk = Cuartil número 1, 2, 3 ó 4
n = total de datos de la distribución.
Se advierte que la posición del segundo cuartil corresponde a la ubicación de la mediana, es decir
que el segundo cuartil será siempre igual a la mediana.
Para calcular los cuartiles (datos no agrupados) debes seguir los siguientes pasos:
1º Se ordenan los datos de menor a mayor.
2º Se determina la posición que ocupa cada cuartil mediante la fórmula: Qk = k (n/4)
Para que te quede más claro:
El primer cuartil (Q1) es el valor de la variable que supera a lo más el 25 % de los datos y es
superado por a lo más el 75 % de ellos en la distibución ordenada de menor a mayor.
El segundo cuartil (Q2) es un valor que supera a lo más el 50 % de los datos y es superado por a lo
más el 50 % de ellos, es decir, Q2 coincide con la mediana.
El tercer cuartil (Q3) es un valor que supera a lo más al 75 % de los datos y es superado por a lo
más el 25 % de ellos.
b - Los Deciles: Corresponden a los 9 valores que dividen a estos en 10 partes iguales es decir, al
10%, al 20%... y al 90%. Los Deciles se designan por D1, D2,..., D9
c- Los percentiles (Pn): son los noventa y nueve valores de la variable de una distribución que la
dividen en cien partes iguales es decir, al 1%, al 2%... y al 99% de los datos. Los percentiles se
designan por P1, P2,... P99
P50 coincide con la mediana.
El percentil p (Pp) es un valor de la variable tal que el p% de la muestra está por debajo y el (100p)
% está sobre.
Al tener una tabla de frecuencias, el percentil de orden K (Pk) se calcula siguiendo los siguientes
pasos:
1° Se determina el intervalo al cual pertenece el percentil por calcular en la tabla de frecuencias:
en donde:
K = {1, 2, …, 99}
n es el número de datos. Si es decimal se aproxima al entero más cercano superior.
Buscamos este valor en la columna de la frecuencia acumulada. El cual es el primer valor de x cuya
frecuencia acumulada sobrepasa el resultado de este cálculo.
Calcular el percentil Pk correspondiente al k% de los datos se puede utilizar la siguiente fórmula:
Li es el límite inferior del intervalo donde se encuentra el k% de los datos.
ai es la amplitud del intervalo donde se encuentra el k% de los datos.
fi es la frecuencia absoluta del intervalo donde se encuentra el k% de los datos.
Fi-1 es la frecuencia acumulada anterior al intervalo donde se encuentra el k% de los datos.
n es el total de datos.
1.5 Medidas de dispersión
Las medidas de dispersión muestran la variabilidad de una distribución, indicando por medio de un
número, si las diferentes puntuaciones de una variable están muy alejadas de la media. Cuanto
mayor sea ese valor, mayor será la variabilidad, cuanto menor sea, más homogénea será a la
media. Así se sabe si todos los casos son parecidos o varían mucho entre ellos.
Para calcular la variabilidad que una distribución tiene respecto de su media, se calcula la media
de las desviaciones de las puntuaciones respecto a la media aritmética. Pero la suma de las
desviaciones es siempre cero, así que se adoptan dos clases de estrategias para salvar este
problema. Una es tomando las desviaciones en valor absoluto (desviación media) y otra es
tomando las desviaciones al cuadrado (varianza).
Rango estadístico
El rango o recorrido estadístico es la diferencia entre el valor máximo y el valor mínimo en un
grupo de números aleatorios. Se le suele simbolizar con R.
Requisitos del rango
Ordenamos los números según su tamaño.
Restamos al valor máximo el valor mínimo.
Medio rango o Rango medio
El medio rango o rango medio de un conjunto de valores numéricos es la media del mayor y
menor valor. En consecuencia, el medio rango es:
Varianza
La varianza es una medida estadística que mide la dispersión de los valores respecto a un valor
central (media), es decir, es el cuadrado de las desviaciones:
Desviación típica
El resultado de la varianza a veces no es fácil de interpretar, ya que se mide en unidades
cuadráticas. Para evitar ese problema se define otra medida de dispersión, que es la desviación
típica, o desviación estándar, que se halla como la raíz cuadrada positiva de la varianza. La
desviación típica informa sobre la dispersión de los datos respecto al valor de la media; cuanto
mayor sea su valor, más dispersos estarán los datos. Esta medida viene representada en la
mayoría de los casos por S, dado que es la inicial de su nominación en inglés.
Desviación típica muestral
Desviación típica poblacional
Covarianza
La covarianza entre dos variables es un estadístico resumen indicador de si las puntuaciones están
relacionadas entre sí. La formulación clásica, se simboliza por la letra griega sigma (σ) cuando ha
sido calculada en la población. Si se obtiene sobre una muestra, se designa por la letra "".
La fórmula suele aparecer expresada como:
Este tipo de estadístico puede utilizarse para medir el grado de relación entre dos variables si
ambas utilizan una escala de medida a nivel de intervalo/razón (variables cuantitativas).
La expresión se resuelve promediando el producto de las puntuaciones diferenciales por su
tamaño muestral (n pares de puntuaciones, n-1 en su forma insesgada).
Este estadístico, refleja la relación lineal que existe entre dos variables. El resultado numérico
fluctúa entre los rangos de +infinito a -infinito. Al no tener unos límites establecidos no puede
determinarse el grado de relación lineal que existe entre las dos variables, solo es posible ver la
tendencia.
Coeficiente de Correlación de Pearson
El coeficiente de correlación de Pearson, r, permite saber si el ajuste de la nube de puntos a la
recta de regresión obtenida es satisfactorio. Se define como el cociente entre la covarianza y el
producto de las desviaciones típicas (raíz cuadrada de las varianzas).
Propiedades
El coeficiente de correlación, r, presenta valores entre –1 y +1.
Cuando r es próximo a 0, no hay correlación lineal entre las variables. La nube de puntos está muy
dispersa o bien no forma una línea recta. No se puede trazar una recta de regresión.
Cuando r es cercano a +1, hay una buena correlación positiva entre las variables según un modelo
lineal y la recta de regresión que se determine tendrá pendiente positiva, será creciente.
Cuando r es cercano a -1, hay una buena correlación negativa entre las variables según un modelo
lineal y la recta de regresión que se determine tendrá pendiente negativa: será decreciente.
1.6 Estudio de poblaciones con datos bivariados
Cuando se miden dos variables en una sola unidad experimental; los datos resultantes se llaman
datos bivariados. los métodos para graficar datos bivariados, si las variables son cualitativas o
cuantitativas, permiten estudiar las dos variables
DATOS BIVARIADOS
• Corresponden a la medición de dos variables en una sola unidad de observación • Por lo general,
nos interesa establecer la relación entre las dos variables. • Al igual que los datos univariados, se
utilizan las diferentes herramientas gráficas, dependiendo del tipo de variables que se están
midiendo.
• Cuando trabajamos una variable sobre dos individuos simultáneamente o dos variables sobre un
mismo individuo estamos hablando de los datos bivariados. • Los datos bivariados se expresan a
través de pares de valores, es decir pares ordenados tipo (a,b), cuando se obtienen estos tipos de
valores nos referimos a una distribución bidimensional de la información que estamos analizando.
DISTRIBUCIÓN BIDIMENSIONAL • Las distribuciones bidimensionales son aquellas en las que se
estudian al mismo tiempo dos variables de cada elemento de la población
TABLAS DE DATOS • Los pares de valores se pueden contemplar en tablas de datos, estas tablas de
datos permiten condensar la información que se necesita para un análisis que de origen a la
relación entre ambos elementos, sean X y Y con una variable única o sean X y Y variables con un
mismo individuo
DIAGRAMA DE DISPERSIÓN • El diagrama obtenido mediante el establecimiento de los pares
ordenados de ambas variables o de ambos individuos se conoce con el nombre de diagrama de
dispersión, por que allí están dispersos los datos de ambas variables, este tipo de diagrama es muy
común en el análisis de diferentes datos con respecto al tiempo para estudios científicos, estudios
demográficos, entre otros estudios especializados. En donde se pretende establecer la relación
que puede haber entre una variable y otra, para facilitar un estudio determinado. • Los datos que
corresponden a dos tipos de individuos o a dos variables de un mismo individuo tienen un análisis
particular, estamos hablando de un análisis que busca establecer relaciones es decir, se buscan
correlaciones y a su vez se buscan codesviaciones, es decir covarianzas.
CORRELACIÓN Y COVARIANZA • Existe una relación entre la correlación y la covarianza, puesto que
la covarianza busca el establecimiento de una relación lineal entre las variables X y Y • la
correlación es aquello que indicará la fuerza y la dirección lineal que se establece entre dos
variables aleatorias. • La covarianza de una variable bidimensional, es la media aritmética de los
productos de las desviaciones de cada una de las variables respecto a sus medias respectivas.
RELACIÓN LINEAL • La covarianza entre X y Y se obtiene a través de la sumatoria del producto
entre la desviación de cada Xi con respecto a su media y la desviación de cada Yi con respecto a su
media sobre el número de datos totales de la población o de la muestra este producto utiliza la
misma cantidad de datos por que se supone que para cada X hay una Y, si no, no existiría dicho par
ordenado. • Una vez que se define el valor de covarianza se definen los siguientes elementos que
ocurren. • Cuando la covarianza es mayor que cero, hay una relación directa positiva es decir una
relación lineal con una pendiente mayor que cero • Cuando la covarianza es negativa hay una
correlación lineal inversa con una pendiente menor que cero. • Y cuando la covarianza en igual
que cero no existe una relación lineal entre X y Y.