0% encontró este documento útil (0 votos)
56 vistas9 páginas

Introducción a la Estadística Descriptiva

Este documento presenta una introducción a la estadística descriptiva. Define estadística como la ciencia de recolectar, organizar, presentar, analizar e interpretar datos para ayudar en la toma de decisiones. Explica que la estadística descriptiva se usa para organizar, resumir y presentar datos, mientras que la estadística inferencial se usa para inferir acerca de una población basándose en una muestra. Finalmente, describe algunas medidas estadísticas comunes como la media, mediana y moda que se usan
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
56 vistas9 páginas

Introducción a la Estadística Descriptiva

Este documento presenta una introducción a la estadística descriptiva. Define estadística como la ciencia de recolectar, organizar, presentar, analizar e interpretar datos para ayudar en la toma de decisiones. Explica que la estadística descriptiva se usa para organizar, resumir y presentar datos, mientras que la estadística inferencial se usa para inferir acerca de una población basándose en una muestra. Finalmente, describe algunas medidas estadísticas comunes como la media, mediana y moda que se usan
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Tema 1 Estadística Descriptiva

Tema 1. Estadística descriptiva

Competencia específica a desarrollar.- Conocer y comprender los conceptos básicos de la estadística para el análisis,
organización y presentación de datos.

1. Introducción, notación sumatoria.

¿Qué se entiende por Estadística?


La estadística es una palabra que encontramos frecuentemente en nuestro lenguaje diario. En el uso más común, la
estadística se refiere a información numérica. Como ejemplos de lo anterior tenemos el número promedio de automóviles
Ford vendidos por mes en el último año en la ciudad de Orizaba, el porcentaje de estudiantes del ITO de la generación
2018 que terminarán su educación a nivel licenciatura, el número de muertes por alcoholismo en el último año, etc.

Una estadística es un número o un porcentaje en los ejemplos anteriores. Asimismo, se conoce a una colección de más de
una cifra o dato como estadísticas.

Las estadísticas pueden presentarse en forma gráfica o en forma de enunciado. Generalmente se utiliza una gráfica para
capturar la atención del lector y presentar una gran cantidad de datos en un periodo extendido de tiempo.

Por ejemplo, en la siguiente figura con un solo vistazo se puede determinar que todas las aerolíneas perdieron dinero
durante 1992 y 1993; que United tuvo el mayor ingreso del periodo, ganando más de $1100 millones en 1988, y que
American Airlines tuvo el mayor ingreso neto en 1996.

Definición.-
Estadística. Es la ciencia de recolectar, organizar, presentar, analizar e interpretar datos para ayudar en una
toma de decisiones más efectiva.
Como indica la definición anterior, el primer paso en la investigación de un problema es la recolección de datos, éstos
deben organizarse de cierta manera y presentarse en un gráfico, posteriormente se analiza e interpretar la información
hasta que los datos hayan sido organizados.

1 M.C. Jorge Arturo Ramírez Hdez.


Tema 1 Estadística Descriptiva

Para su estudio, la Estadística se divide en dos categorías: Estadística descriptiva y Estadística inferencial

Estadística descriptiva. Conjunto de métodos para organizar, resumir y presentar los datos de manera
informativa.

Existen técnicas estadísticas disponibles para organizar información de manera significativa. Para facilitar el
procesamiento de la información contenida en el conjunto de datos analizados, es común agruparlos en lo que se
denomina distribución de frecuencias (se analizará más adelante a detalle).

Estadística inferencial. Conjunto de métodos utilizados para saber algo acerca de una población, basándose
en una muestra.

Observe las palabras población y muestra en la definición anterior. Frecuentemente se hace referencia a la población
como las personas que viven en una ciudad o país. Sin embargo, en Estadística la palabra población tiene un significado
más amplio. Una población puede incluir individuos, por ejemplo los estudiantes inscritos en el ITO en el año escolar 2018,
los reclusos en la prisión de La Toma; una población también puede incluir objetos, como las piezas que fabrica un
carpintero en una semana, las cajas de cereal Zucaritas producidas durante el primer turno en la fábrica de Querétaro; una
población también puede estar formadas por un grupo de medidas, como el peso de los jugadores de zumo en el
campeonato mundial, o la estatura de los jugadores de la NBA. Por tanto, una población, en el sentido estadístico, no
siempre se refiere a personas.

Población. Conjunto de todos los posibles individuos, objetos o medidas de interés.

En ocasiones no es posible analizar a la población de interés, por diversas razones. Por ejemplo al someter a una prueba el
contenido de humedad en el trigo, se destruye el mismo, por lo tanto si se realizara esta prueba a la población no
quedaría nada; si los catadores de vino lo probaran todo, no habría vino disponible para su venta; sería físicamente
imposible que unos cuantos biólogos marinos capturaran y marcaran a todas las focas en el océano para su estudio; sería
sumamente costoso comunicarse con millones de electores para saber su preferencia antes de una elección.

Entonces, ¿cómo se puede conocer o saber algo en las situaciones anteriores? En estos casos, se toma una muestra de la
población de interés para inferir (conocer) algo acerca de la misma.

Muestra. Una porción o parte de una población de interés, que es representativa de la misma.

De las situaciones anteriores, se consiguen algunas razones que justifican el uso del muestreo son:

1) Naturaleza destructiva del proceso de investigación.


2) Imposibilidad de revisar todos los elementos de la población.
3) Costo: al obtener los datos de una pequeña porción del total.
4) Tiempo: al considerar solo una parte del total, su recolección y resumen se hará con mayor rapidez.
5) Precisión: las posibilidades de usar personal más capacitado y supervisar cuidadosamente el trabajo de campo y
el procesamiento de la información
Tipos de variables
Existen dos tipos básicos de datos: los obtenidos a partir de una población cualitativa y los obtenidos a partir de una
población cuantitativa.

2 M.C. Jorge Arturo Ramírez Hdez.


Tema 1 Estadística Descriptiva

Cuando la característica o variable en estudio es no numérica, se le denomina variable cualitativa o atributo. Ejemplos de
estas variables son: el género sexual, religión, tipo de automóvil que se posee, el estado donde se nació, color de ojos, etc.

Cuando la variable estudiada se puede expresar numéricamente, entonces se denomina variable cuantitativa. Ejemplos
son: el saldo en la cuenta de cheques, las edades de los alumnos de la materia de Probabilidad, el número de hijos en una
familia, etc. Las variables cuantitativas pueden ser discretas o continuas. Las variables discretas pueden asumir sólo
ciertos valores. Ejemplos son: el núm. de recámaras en una casa, el núm. de autos que pasan por la caseta de Córdoba en
una hora, el núm. de alumnos de la materia de Probabilidad; las variables continuas pueden asumir cualquier valor dentro
de una intervalo específico. Ejemplos son: la presión del aire en una llanta, la estatura y el peso de los alumnos de la
materia de Probabilidad.

2. Obtención de datos estadísticos


Un dato es un número que puede ser comparado, analizado e interpretado. Algunas razones del por qué se recolectan
datos son:
• Proporcionar la introducción imprescindible para un estudio de investigación.
• Medir el desempeño en un servicio o proceso de producción.
• Ayudar en la formulación de alternativas para la toma de decisiones.
• Satisfacer nuestra curiosidad.

Los datos pueden ser simples (no agrupados) y agrupados. A continuación se analizarán a detalle.

3. Datos simples (no agrupados)


Los datos simples son el conjunto de observaciones (por lo general menos de 30) que se presentan en su forma original tal
y como fueron recolectados. Estos datos son analizados para obtener información directamente de ellos.

3.1 Medidas de tendencia central y de posición


Al describir un grupo de observaciones, con frecuencia se desea describir el grupo con un solo valor. Para tal fin, no se usa
el valor más grande ni tampoco el más pequeño, ya que solo representan los valores extremos. Es por eso, es más
adecuado el valor central. Las medidas que describen un valor típico en un grupo de observaciones se conocen como
Medidas de Tendencia Central (o de posición). Las más comúnmente usadas son: la media aritmética, la mediana y la
moda.

3.1.1 Cálculo de la media aritmética.


Es la medida de tendencia central más ampliamente usada, usualmente abreviada como media (o promedio). Cuando se
dispone de los datos originales, es decir, cuando se cuenta con la población total de los datos relativos a un problema o
situación de interés en particular, la media se define como la suma de todas las observaciones dividida entre el número
total de dichas observaciones. La definición anterior se expresa matemáticamente mediante la siguiente ecuación:
Población Muestra
𝑁
∑𝑖=1 𝑥𝑖 ∑𝑛𝑖=1 𝑥𝑖
𝜇= 𝑋̅ =
𝑁 𝑛
Donde: Donde:
µ = Media poblacional 𝑋̅ = Media muestral
xi = Observación i-ésima de la variable aleatoria X xi = Observación i-ésima de la variable aleatoria X
N = Número total de observaciones de la población n = Número total de observaciones de la muestra

3 M.C. Jorge Arturo Ramírez Hdez.


Tema 1 Estadística Descriptiva

Como se analizó con anterioridad, por lo regular se recurre a la utilización de una muestra representativa de la población,
con la finalidad de calcular su medida de tendencia central.

3.1.2 Cálculo de la mediana


La mediana es el valor que se encuentra en el lugar central de un conjunto de datos ordenados de menor a mayor. Su
característica principal es que divide a un conjunto ordenado de datos en dos subconjuntos iguales, en donde se observa
que uno de estos tendrá a todos sus valores igual o menores al valor numérico de la mediana; y el otro tendrá a todos sus
valores igual o mayores que el valor numérico de la mediana.

El cálculo de la mediana se calcula de la siguiente manera:

1. Ordenar los datos disponibles en forma creciente (de menor a mayor).


2. Verificar el número de datos disponibles para determinar si el conjunto de datos es par o impar.
3. Utilizar la fórmula correspondiente para encontrar la ubicación de la mediana y así obtener el valor numérico de la
mediana.
𝑥 𝑛 𝑥 𝑛
( )+ ( +1)
2 2
Conjunto impar: 𝑥̃ = 𝑥(𝑛+1) Conjunto par: 𝑥̃ =
2 2

3.1.3 Cálculo de la moda ( 𝒙̂)


La moda es el valor que con mayor frecuencia se presenta (repite) en un conjunto de datos, ya sea de una población o de
una muestra. Es especialmente útil para describir niveles nominales y ordinales de medición.

Cuando en un conjunto de datos existen 2 modas se dice que es bimodal; si existen más de 2 modas se llama multimodal;
por el contrario, cuando no existe moda el conjunto es amodal. A diferencia de la media, la moda no se ve afectada ante la
ocurrencia de valores extremos. Sin embargo, sólo se utiliza la moda para propósitos descriptivos ya que es la más variable
de las medidas de tendencia central.

Ejemplo. Recolecte la estatura (en cm) de los alumnos de la clase de probabilidad y estadística. Utilizando los datos
anteriores determine:
1. Identifique la variable aleatoria de interés.
2. Calcule el valor de la media e interprete el resultado.
3. Calcule el valor de la mediana e interprete el resultado.
4. Determine la moda e interprete el resultado.

4 M.C. Jorge Arturo Ramírez Hdez.


Tema 1 Estadística Descriptiva

3.2 Medidas de dispersión (o de variación).


Una vez localizado el centro de un conjunto de datos, mediante la aplicación y cálculo de una medida de tendencia
central, el siguiente paso es determinar y medir la variabilidad existente entre dichos datos con relación a su valor central.

Una medida de variabilidad es un número que nos indica el grado de dispersión existente en un conjunto de datos. Si este
valor es grande indica la existencia de poca uniformidad entre los datos; por el contrario, si este valor es pequeño
(respecto a la unidad de medida) se puede concluir que existe una uniformidad entre los datos. Cuando el valor numérico
para la medida de variabilidad es cero, significa que todos los datos son iguales.

Las medidas de dispersión más comúnmente usadas son: la amplitud de variación (o también llamado rango), la varianza
y la desviación estándar.

3.2.1 Cálculo de la amplitud de variación (rango).


La medida de dispersión más sencilla es la amplitud de variación. Se define como la diferencia entre el valor más grande y
el más pequeño de un conjunto de datos. Se utiliza ampliamente en las aplicaciones del control estadístico de proceso
(CEP). La amplitud se expresa como ecuación:

𝑅 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛

3.2.2 Cálculo de la varianza y desviación estándar.


Un defecto importante de la amplitud de variación es que se basa sólo en dos valores, el máximo y el mínimo; no
considera todos los demás. Las medidas de dispersión que a continuación se presentan se utilizan con mayor frecuencia y
sí toman en consideración la forma en que se distribuyen todos los valores de un conjunto de datos.
La varianza y la desviación estándar se basan en las desviaciones con respecto a la media y se definen a continuación:

Varianza. La media aritmética de las desviaciones cuadráticas con respecto a la media.

Las fórmulas difieren un poco si los datos provienen de una población o una muestra de acuerdo con lo siguiente:

Población Muestra
∑𝑁
𝑖=1(𝑋𝑖 − 𝜇)
2 ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2
𝜎2 = 𝑠2 =
𝑁 𝑛−1

Donde: Donde:
2 = Varianza poblacional. Se expresa comúnmente s2 = Varianza muestral
como “sigma cuadrada” Xi = Observación i (i=1,2,..,N) en la muestra
Xi = Observación i (i=1,2,..,N) en la población 𝑋̅ =Es la media muestral
µ = Es la media poblacional n = Es el número total de observaciones en la muestra
N = Es el número total de observaciones de la población

Nota: El uso de n-1 en el denominador proporciona un ajuste para no subestimar la variación de la población. Ya que se
utilizan valores estadísticos de muestra como s2 para calcular parámetros de la población como 2, es mejor usar (n-1) en
vez de N, cuando se define la varianza muestral.

Desviación estándar. La raíz cuadrada positiva de la varianza.

5 M.C. Jorge Arturo Ramírez Hdez.


Tema 1 Estadística Descriptiva

Resulta difícil interpretar la varianza para un conjunto de observaciones. Pues la unidad de medición se encuentra elevada
al cuadrado. Existe una solución a este dilema. Al obtener la raíz cuadrada de la varianza, se regresa a la unidad de
medición original; y se expresa mediante la siguiente fórmula:

Población Muestra
𝜎= √𝜎 2 𝑠 = √𝑠 2

Ejemplo.
Calcule el rango del ejercicio de la estatura de los alumnos e interprete.
Calcule la varianza y la desviación estándar del ejercicio de la estatura de los alumnos e interprete.

4. Datos agrupados.
Los datos agrupados son aquellos que se encuentran ordenados y clasificados. Cuando se tienen 30 o más datos, lo
aconsejable es agrupar los datos en clases que juntas forman una tabla de distribución de frecuencias.

4.1 Tabla de distribución de frecuencias.- Es un ordenamiento tabular de un conjunto de datos cuantitativos,


clasificados y reunidos en clases o intervalos de clase, indicando la frecuencia correspondiente a cada clase.

Nota: Es importante recordar que una variable aleatoria de tipo cuantitativa, puede ser discreta o continua, y el
procedimiento para la elaboración de una tabla de distribución de frecuencias difiere de acuerdo al tipo de variable
en estudio.

El procedimiento para la elaboración de una tabla de distribución de frecuencias es el siguiente:

1. Determinar el rango ( R ).
2. Determinar el número de clases ( k ) en los cuales se dividirá y clasificará el conjunto de datos.
Existen varias sugerencias para establecer el número de clases que contendrá la tabla. Una de ellas es utilizar la
regla de Sturges, la cual se muestra:
k = 1 + 3.322 log n
Donde:
k = Es el número de clases
n = Es el número total de observaciones
Nota: El valor obtenido se redondea al entero inmediato superior

3. Determinar el ancho o amplitud de clase ( I ) :


𝑅
𝐼=
𝑘
Si los datos son discretos el valor obtenido se redondea al entero inmediato superior (UM = 1)
Si los datos son continuos se redondea al inmediato superior (dependiendo la unidad mínima)
Datos UM
Un decimal 0.1
Dos decimales 0.01
Tres decimales 0.001

4. Establecer el intervalo de la primera clase.

6 M.C. Jorge Arturo Ramírez Hdez.


Tema 1 Estadística Descriptiva

LI1 = XMIN LS1 = LI1 + (I – UM)


Donde: Donde:
𝐿𝐼1 = Límite inferior de la primera clase. 𝐿𝑆1 = Límite superior de la primera clase.
𝑋𝑀𝐼𝑁 = Valor mínimo

5. Establecer los intervalos de clase restantes.


𝐿𝐼𝑖 = 𝐿𝐼𝑖−1 + 𝐼 𝐿𝑆𝑖 = 𝐿𝑆𝑖−1 + 𝐼
Donde: Donde:
𝐿𝐼𝑖 = Límite inferior de la clase i (i = 2,3,..,k) 𝐿𝑆𝑖 = Límite superior de la clase i (i = 2,3,..,k)
𝐿𝐼𝑖−1 = Límite inferior anterior al de la clase i 𝐿𝑆𝑖−1 = Límite superior anterior al de la clase i

6. Recorriendo el conjunto de datos, determinar mediante conteo la frecuencia correspondiente a cada clase.

Ejemplo para datos discretos.


Una agencia de viajes, desea ofrecer tarifas especiales en ciertas travesías por el Caribe a ciudadanos de la tercera edad. El
dueño de la agencia quiere información adicional sobre las edades de las personas que viajan. Una muestra aleatoria de
40 clientes que hicieron un crucero el año pasado dio a conocer las siguientes edades (en años):

77 58 45 38 62 63 54 63 50 44
41 60 84 51 71 59 53 71 65 52
60 63 53 83 50 52 61 36 34 26
18 58 66 54 43 58 56 62 61 62

Ejemplo para datos continuos:


Utilizando los siguientes datos, los cuales representan la producción anual (kg/árbol) de cada uno de los 40 árboles de
durazno, elabore una tabla de distribución de frecuencias.

Producción anual (kg/árbol)


11.1 12.5 32.4 7.8 21.0 16.4 11.2 22.3 6.0 15.1
16.4 18.5 32.8 27.5 6.1 4.4 10.7 15.8 25.0 18.2
12.2 12.6 4.7 23.5 26.2 10.0 9.2 7.4 19.1 16.0
22.6 14.8 3.5 16.2 14.5 3.2 8.1 12.9 19.1 13.7

4.2 Medidas de tendencia central

4.2.1 Cálculo de la media


La fórmula para el cálculo de la media para datos agrupados es:
Población Muestra
∑𝑘𝑖=1 𝑓𝑖 ∙ 𝑚𝑖 ∑𝑘𝑖=1 𝑓𝑖 ∙ 𝑚𝑖
𝜇= 𝑋̅ =
𝑁 𝑛

Donde:
𝑓𝑖 = Frecuencia de la clase i (i = 1, 2,.., k)
𝐿𝐼𝑖 +𝐿𝑆𝑖
𝑚𝑖 = Marca o punto medio de la clase i=
2

7 M.C. Jorge Arturo Ramírez Hdez.


Tema 1 Estadística Descriptiva

4.2.2 Cálculo de la mediana


𝑛+1
Identificar a la clase mediana en la columna de frecuencia acumulada ( 𝑓𝑎 ), la que comprende el dato en la posición si
2
𝑛
es impar o si es par, y aplicar la siguiente fórmula:
2
𝑛
− 𝑓𝑎
𝑥̃ = 𝐿𝑅𝐼𝑚𝑒𝑑 + 𝐼 ∙ (2 )
𝑓𝑚𝑒𝑑
Donde:
𝐿𝑅𝐼𝑚𝑒𝑑 = Límite real inferior de la clase mediana
𝑓𝑎 = Frecuencia acumulada de la clase anterior a la clase mediana
𝑓𝑚𝑒𝑑 = Frecuencia de la clase mediana

4.2.3 Cálculo de la moda


Identificar a la clase modal en la columna de frecuencia de clase ( 𝑓𝑖 ), la que tiene el valor mayor, y aplicar la siguiente
fórmula:

𝑓𝑚𝑜𝑑 − 𝑓𝑚𝑜𝑑−1
𝑥̂ = 𝐿𝑅𝐼𝑚𝑜𝑑 + 𝐼 ∙ ( )
(𝑓𝑚𝑜𝑑 − 𝑓𝑚𝑜𝑑−1 ) + (𝑓𝑚𝑜𝑑 − 𝑓𝑚𝑜𝑑+1 )

Donde:
LRImod = Límite real inferior de la clase modal
fmod = Frecuencia de la clase modal
fmod−1 = Frecuencia de la clase anterior a la modal
𝑓𝑚𝑜𝑑+1 = Frecuencia de la clase posterior a la modal

Ejemplo. De los ejercicios de la agencia de viaje y de la producción de árboles de duraznos, calcule e interprete: la media,
mediana y moda.

Actividad 6. De los ejercicios de la actividad 5, calcule e interprete: la media, mediana y moda.

4.3 Medidas de dispersión

4.3.1 Cálculo del rango


La fórmula para la obtención del rango es: 𝑅 = 𝐿𝑆𝑘 − 𝐿𝐼1
Donde: 𝐿𝑆𝑘 = Límite superior de la última clase

4.3.2 Cálculo de la varianza y desviación estándar


La fórmula para la obtención de la varianza depende si los datos provienen de una población o de una muestra, como a
continuación se indica:
Población Muestra
𝑘
∑𝑖=1 𝑓𝑖 ∙ (𝑥𝑖 − 𝜇) 2 ∑𝑘𝑖=1 𝑓𝑖 ∙ (𝑥𝑖 − 𝑋̅)2
𝜎2 = 𝑠2 =
𝑁 𝑛−1

Para obtener la desviación estándar se extrae la raíz cuadrada a la varianza: Población σ2 = √σ, muestra 𝑠 2 = √𝑠

Ejemplo. De los ejercicios de la agencia de viaje y de la producción de árboles de duraznos, calcule e interprete: el rango,
varianza y desviación estándar.

8 M.C. Jorge Arturo Ramírez Hdez.


Tema 1 Estadística Descriptiva

5. Histograma y polígono de frecuencias


Histograma de frecuencias.- Es una gráfica de barras de la distribución de un conjunto de datos, en la cual una barra va
pegada a la otra (no hay espacio entre barras). En el eje horizontal se representan la variable aleatoria o el fenómeno de
interés y en el eje vertical se representa la frecuencia o número, proporción o porcentaje de observaciones para cada
intervalo de clase.

Elaboración.- Para poder elaborar un histograma se necesita tener con anterioridad una distribución de frecuencia de los
datos. Los pasos son los siguientes:

1. Calcular los límites reales de clase. Se disminuirá a la mitad de la unidad mínima los límites inferiores de cada
clase y aumentará la mitad de la unidad mínima los límites superiores de cada clase.
2. Colocar los límites reales sobre el eje horizontal.
3. Ubicar la frecuencia de clase más alta que servirá como guía para establecer la altura máxima del eje vertical.
4. A continuación se levanta un rectángulo ubicado sobre el primer intervalo y hasta su frecuencia correspondiente.
Se dibuja el segundo rectángulo sobre el segundo intervalo, cuidando de no dejar espacio entre los rectángulos.
Al finalizar de ubicar el resto de rectángulos se tiene terminado el histograma.

Polígono de frecuencias.- Es una gráfica que utiliza segmentos lineales uniendo los puntos medios de clase de las bases
superiores de los rectángulos.

Elaboración.- Para poder elaborar un polígono de frecuencias se necesita tener una distribución de frecuencia. Los pasos
son los siguientes:

1. Obtener la marca de clase de cada intervalo. Esto es el punto medio de cada uno de los intervalos.
2. Ubicar la frecuencia de clase más alta que servirá como guía para establecer la altura máxima del eje vertical.
3. Ubicar la posición a la que corresponde cada una de las frecuencias en sus respectivas marcas de clase.
4. Y por último unir los puntos entre sí, iniciando y terminando en el eje horizontal.

Ejemplo. Construya el histograma de frecuencias relativas y el polígono de frecuencias porcentual de los ejercicios de la
agencia de viaje y de la producción de árboles de duraznos y de alguna interpretación de las mismas.

9 M.C. Jorge Arturo Ramírez Hdez.

También podría gustarte