0% encontró este documento útil (0 votos)
123 vistas50 páginas

Estadística Descriptiva: Análisis y Métodos

Este documento describe conceptos básicos de estadística descriptiva como población, muestra, variables cualitativas y cuantitativas, medidas de tendencia central y dispersión. Explica que la estadística descriptiva se utiliza para resumir y visualizar datos mediante tablas y gráficos, lo que facilita el análisis de patrones y tendencias. También introduce los conceptos de población, muestra aleatoria y variables, destacando la importancia de seleccionar muestras representativas para hacer inferencias sobre las poblaciones.

Cargado por

Chriss Mtzz.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
123 vistas50 páginas

Estadística Descriptiva: Análisis y Métodos

Este documento describe conceptos básicos de estadística descriptiva como población, muestra, variables cualitativas y cuantitativas, medidas de tendencia central y dispersión. Explica que la estadística descriptiva se utiliza para resumir y visualizar datos mediante tablas y gráficos, lo que facilita el análisis de patrones y tendencias. También introduce los conceptos de población, muestra aleatoria y variables, destacando la importancia de seleccionar muestras representativas para hacer inferencias sobre las poblaciones.

Cargado por

Chriss Mtzz.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

1

TABLA DE CONTENIDO
OBJETIVO........................................................................................................................................3

INTRODUCCION..............................................................................................................................4

1. ESTADISTICA DESCRIPTIVA..........................................................................................................5

1.1 POBLACIÓN Y MUESTRA ALEATORIA....................................................................................8

1.1.1 USO DE SOFTWARE....................................................................................12

1.2 OBTENCIÓN DE DATOS ESTADISTICOS................................................................................14

1.3 MEDIDAS DE TENDENCIA CENTRAL.....................................................................................18

1.4 MEDIDAS DE DISPERSIÓN...................................................................................................22

1.5 TABLA DE DISTRIBUCIÓN DE FRECUENCIAS........................................................................28

1.6 CUANTILES..........................................................................................................................30

1.7 GRAFICOS............................................................................................................................36

1.8 CAJAS Y ALAMBRES.............................................................................................................38

1.9 DIAGRAMA DE PARETO.......................................................................................................42

CONCLUSIÓN................................................................................................................................47

BIBLIOGRAFIAS.............................................................................................................................48

2
3
OBJETIVO

El objetivo principal de esta investigación es lograr reconocer y familiarizarse con ciertos

conceptos e ideas que algunos aún desconocen, logrando así que se aprenda a resumir

patrones estadísticos utilizando medidas de tendencia, dispersión, ubicación y forma. Analizar

datos para una y dos variables. Familiarícese con el uso de métodos gráficos para mostrar

características importantes de la muestra.

Para llevar a cabo ciertos ejercicios enfocados en los subtemas mencionados, para ser

desarrollados con facilidad y entendimiento, mostrando así que, muchos temas antes no vistos

son interesantes y llamativos.

4|Página
INTRODUCCION

Las matemáticas nacieron desde hace años, por lo que con el tiempo han ido avanzado

más, y aunque las matemáticas no se pueden cambiar, es decir, son un tema ya exacto, por lo

que son ejercicios que cambian en su concepto, sin embargo, la forma de desarrollarlo sigue

siendo la misma.

Mencionando más específicamente, este material habla acerca de una rama muy

importante de dicha materia, en esta se menciona que es una disciplina la cual es la encargada

de ordenar y calcular tipos de parámetros sobre el conjunto de algunos datos, pudiendo así

hablar de la estadística descriptiva.

5|Página
1. ESTADISTICA DESCRIPTIVA

La estadística descriptiva es una disciplina que se encarga de recoger, almacenar,

ordenar, realizar tablas o gráficos y calcular parámetros básicos sobre el conjunto de datos. La

estadística descriptiva es, junto con la inferencia estadística o estadística inferencial, una de las

dos grandes ramas de la estadística. Su propio nombre lo indica, trata de describir algo. Pero

no describirlo de cualquiera forma, sino de manera cuantitativa. Pensemos en el peso de una

caja de verduras, en la altura de una persona o en la cantidad de dinero que gana una

empresa. De estas variables podríamos decir muchas cosas. Por ejemplo, podríamos indicar

que esta o aquella caja de tomates pesan mucho o pesan menos que otras. Siguiendo con otro

ejemplo, podríamos decir que el ingreso de una empresa varía mucho a lo largo del tiempo o

que una persona tiene una altura promedio.

Para dictar las afirmaciones anteriores, sobre mucho, poco, alto, bajo, muy variable o

poco variable necesitamos variables de medidas. Esto es, necesitamos cuantificarlas, ofrecer

un número. Con esto en mente, podríamos utilizar los gramos o los kilogramos como unidad de

medida para saber el peso de tantas cajas de tomates como consideremos. Una vez pesemos

treinta cajas, sabremos cuales pesan más, cuales pesan menos, que cuantía es la que más se

repite o si existe mucha disparidad entre los pesos de las diferentes cajas.

Con esta idea nace la estadística descriptiva, con la de recoger datos, almacenarlos,

realizar tablas o incluso gráficos que nos ofrezcan información sobre un determinado asunto.

Adicionalmente, nos ofrecen medidas que resumen la información de una gran cantidad de

datos.

Dentro de la estadística descriptiva, podemos describir los datos de manera cualitativa o

cuantitativa.

6|Página
Variable cualitativa: Hace referencia a una cualidad. Ejemplos: el color de ojos de una

persona o el color de pelo.

Variable cuantitativa: Hace referencia a una medida cuantitativa. Ejemplos: la altura de

una persona en centímetros o el peso de una persona en kilogramos.

El término “estadística descriptiva” se refiere al análisis, el resumen y la presentación de

los resultados relacionados con un conjunto de datos derivados de una muestra o de toda la

población. La estadística descriptiva comprende tres categorías principales: distribución de

frecuencias, medidas de tendencia central y medidas de variabilidad. Por estadística descriptiva

entendemos, por ejemplo, el cálculo de la media y la mediana, dos indicadores muy

importantes y sobre todo diferentes. La mediana es un indicador que “no tiene en cuenta los

valores extremos, a veces poco frecuentes”, a diferencia de la media, que está muy influida por

estos valores extremos. 

La estadística descriptiva facilita la visualización de los datos. Permiten presentarlos de

forma significativa y comprensible, lo que a su vez da pie a una interpretación simplificada del

conjunto de datos en cuestión. Los datos brutos serían difíciles de analizar, y la determinación

de tendencias y patrones puede ser un reto. Además, los datos en bruto dificultan la

visualización de lo que muestran los datos. Además, el uso de la estadística descriptiva permite

resumir y presentar un conjunto de datos mediante una combinación de descripciones

tabuladas y gráficas. La estadística descriptiva se utiliza para resumir datos cuantitativos

complejos.

La estadística descriptiva es la rama de la estadística que recolecta, analiza y

caracteriza un conjunto de datos (peso de la población, beneficios diarios de una empresa,

temperatura mensual…) con el objetivo de describir las características y comportamientos de

este conjunto mediante medidas de resumen, tablas o gráficos.

7|Página
Una variable estadística es el conjunto de valores que puede tomar cierta característica

de la población sobre la que se realiza el estudio estadístico y sobre la que es posible su

medición. Estas variables pueden ser: la edad, el peso, las notas de un examen, los ingresos

mensuales, las horas de sueño de un paciente en una semana, el precio medio del alquiler en

las viviendas de un barrio de una ciudad, etc. Las variables estadísticas se pueden clasificar

por diferentes criterios. Según su medición existen dos tipos de variables:

Cualitativa (o categórica): son las variables que pueden tomar como valores cualidades

o categorías.

Ejemplos:

Sexo (hombre, mujer)

Salud (buena, regular, mala)

Cuantitativas (o numérica): variables que toman valores numéricos.

Ejemplos:

Número de casas (1, 2…). Discreta.

Edad (12,5; 24,3; 35…). Continua.

8|Página
1.1 POBLACIÓN Y MUESTRA ALEATORIA

En estadística se usa el término de manera más general para significar cualquier

recolección de un conjunto, elementos, artículos o sujetos que gozan de características

comunes con el fin de estudiarlos y de esta forma se sacar conclusiones específicas para

determinar sus resultados. Así podemos hablar de la población de sustantivos en las obras de

Jorge Luis Borges o de la población de notas asignadas en los cursos a nivel universitario.

Podemos distinguir entre poblaciones finitas e infinitas. La población de motocicletas

vendidas en Buenos Aires en septiembre es finita. En cambio, la población de temperaturas

medidas en el Campus de San Martín es infinita, ya que, por lo menos teóricamente, podemos

seguir midiendo para siempre.

Cuando una población finita no es demasiado grande podemos investigar la totalidad de

la población. Pero, si la población es muy grande o potencialmente infinita tenemos que estar

contentos con muestras extraídas de esta población. Por ejemplo: si queremos saber quién va

a ganar las próximas elecciones podríamos preguntar a todo aquel que tiene derecho a votar

cómo piensa votar para sacar el resultado. En la práctica esta metodología resultaría

demasiado costosa, por lo que hacemos una muestra representativa de votantes, les

preguntamos y generalizamos.

Resulta evidente que hay que tener cuidado al seleccionar una muestra para análisis.

Los métodos estadísticos, los que nos permiten generalizar e inferir, suponen que las muestras

están tomadas de manera aleatoria o al azar. Esto no significa que la muestra sea arbitraria,

sino que cualquier unidad de la población que estamos estudiando tiene la misma probabilidad

de ser seleccionada para hacer parte de la muestra.

Para tener una muestra verdaderamente aleatoria de una población deberíamos asignar

un número u otro identificador único a cada una de las unidades de la población –a cada

9|Página
persona si se trata de una población humana– escribir cada número en un papel y echarlos en

una tómbola. Luego de virarla por algún tiempo y mesclar bien los papeles, podríamos de allí

sacar la cantidad de papeles que corresponda al tamaño de nuestra muestra. Obviamente esto

no resulta muy práctico por lo que se suele empezar con una secuencia de números aleatorios

del tamaño de la muestra y extraer unidades de la población basado en ello. Por ejemplo, si

quisiéramos sacar veinte libros al azar de un estante de la biblioteca que contiene doscientos

libros, necesitamos veinte números aleatorios entre uno y doscientos, y sacamos los libros que

desde algún punto de referencia (primer libro del primer nivel) está a esa distancia.

Ahora, ¿dónde encontramos números aleatorios? Hay secuencias en libros de

estadísticas, usados principalmente antes de la existencia de computadoras. También se

pueden generar esas secuencias en línea. Finalmente, R tienen un generador de números

aleatorios que nos permite generar los de números de nuestra muestra con un solo comando

usando la función de R sample.

Población: es el conjunto de elementos que son objeto de estudio estadístico.

Individuo: cada uno de los elementos de la población. El número total de individuos de

la población se suele representar por la letra N.

Aunque tengan estos nombres, esos elementos pueden referirse a cualquier cosa y no

solo a personas. Por ejemplo, podemos estudiar los televisores que se montan en una

determinada fábrica, la cantidad de vehículos que se desplazan por carretera un fin de semana

de agosto, o los programas de televisión más vistos en una determinada franja horaria. Cada

televisor, vehículo o programa televisivo sería un individuo de ese estudio.

A veces, es necesario estudiar a todos los individuos de la población. En este caso se

trata de un estudio exhaustivo. Por ejemplo, cuando se realiza el censo de población de una

determinada ciudad. En general, es muy costoso, en tiempo y dinero; entrevistar a todos los

10 | P á g i n a
elementos objeto del estudio. Por ello, se selecciona solo una parte y en este caso se dice que

se trata de un estudio muestral.

Muestra: es una parte de la población con la que realmente se realiza el estudio.

Tamaño: es el número de elementos del que se compone la muestra y se suele

representar por la letra n.

La elección de la muestra es muy importante para que los resultados que se extraigan

de ella se puedan generalizar a toda la población. Debe haber pocos individuos, para que no

sea muy costosa su realización, pero elegidos de forma que aparezcan todos los estratos

diferentes que forman la población. Por ejemplo, si quisiéramos saber los gustos culinarios de

la juventud actual; no bastaría preguntar a las puertas de una pizzería, pues hay una parte de

jóvenes que prefieren otro tipo de comidas y no visitan este tipo de establecimientos. Si lo

hiciéramos, la muestra seleccionada no sería representativa de toda la población a estudiar.

Vamos a comenzar explicando qué es una población. Una población estadística es el

conjunto de sujetos que reúnen unas ciertas características que queremos estudiar.

Simplificando, como su propio nombre indica, imagina una población como el conjunto de

habitantes de un país.

Cuando la población objeto de estudio es muy grande, normalmente se dificulta obtener

la información necesaria para poder analizar a la totalidad de los sujetos.

En los casos en los que no podemos obtener información de toda la población, ya sea

por falta de medios técnicos o porque los recursos son limitados, hay que hacer uso de una

muestra.

Una muestra estadística es una selección de los sujetos de una población para extraer

la información necesaria para el estudio. Por ejemplo, si queremos saber cuál es el futbolista

11 | P á g i n a
favorito de los habitantes de Ciudad de México, una muestra puede ser una selección aleatoria

de 1.000 individuos.

Es muy importante la selección de la muestra estadística ya que es la que nos va a

aportar la información acerca de la población. Una muestra mal seleccionada nos llevará a

cometer errores en las conclusiones y las predicciones realizadas con el estudio.

La muestra debe ser lo suficientemente grande como para representar a la población y

además los sujetos de los que se obtiene la información deben ser seleccionados de forma

aleatoria. 

Imaginemos que queremos saber la opinión de los ciudadanos españoles acerca de los

políticos. En este caso no podemos preguntar sólo a 10 personas si en el país habitan 46

millones.

Tampoco podremos preguntar únicamente a los jóvenes, habrá que realizar la consulta

a gente de diferentes características relacionadas con la edad, el sexo o la ciudad en la que

residen.

En resumen, la diferencia entre muestra y población reside en que la población es el

conjunto de sujetos que reúnen una característica que desea ser estudiada. En cambio, la

muestra es una parte de esa población que se selecciona para obtener la información con la

que se va a trabajar.

12 | P á g i n a
1.1.1 USO DE SOFTWARE

El software de análisis estadístico permite preparar, mezclar y analizar fácilmente los

datos mediante un flujo de trabajo repetible y, a continuación, desplegar y compartir los análisis

a escala para obtener conocimientos más profundos.

Los programas estadísticos incluyen soluciones especializadas diseñadas para trabajar

con lenguajes estadísticos concretos, así como aplicaciones más generales que automatizan

varias operaciones de manipulación de datos, desde análisis de potencia hasta visualización de

datos.

La estadística es una ciencia aliada a la investigación científica. El personal encargado

en ciertas áreas como en la ecología, medicina, ingeniería e investigación de mercados;

comúnmente emplea software estadístico para realizar análisis multivariados y gráficos de los

cálculos para la representación de datos. La complejidad para organizar un alto volumen de

datos les da protagonismo a las herramientas estadísticas, donde los softwares en la actualidad

pueden programarse para representar gráficos de cada cálculo o modelo predictivo en

segundos.

Las herramientas de análisis estadístico son aliadas de las importantes empresas del

mercado. Hay muchos tipos de programas informáticos estadísticos, algunos de ellos son

complejos y requieren de profesionales en programación para usarlos. Por otro lado, hay otro

tipo de software de uso más intuitivo pero limitado y finalmente se puede programar un

software a la medida

La información cualitativa es importante como la cuantitativa para ofrecer una

perspectiva amplia del objeto de estudio. Los reportes estadísticos deben contar con ambos

13 | P á g i n a
tipos de información, una simple cifra no siempre alcanza a explicar si un impacto es positivo o

negativo.

Utilizar software estadístico en las compañías mejorará su enfoque estratégico para la

planificación de los avances tecnológicos. No solo es atractivo por la eficiencia de reducir

costes, también por las nuevas capacidades empresariales que resultan de un cambio

evolutivo.

Toda gestión de calidad de los procesos debe enfocarse en obtener resultados para

la satisfacción de los clientes. El perfeccionamiento de la capacidad de competir se consigue

desarrollando nuevas capacidades y cualidades. Los softwares analíticos aceleran el potencial

de innovación teniendo en cuenta los aspectos que deben cambiar. Conocer la información a

tiempo les permite a las empresas adaptarse a las condiciones medioambientales.

El software tiene el alcance de monitorear actividades que causan impactos en

diferentes ámbitos. La inteligencia artificial es un importante complemento para los sistemas de

analítica. En las tecnologías Big Data, las ventajas se obtienen del análisis de la información y

la creación de nuevos modelos. El aprendizaje automático se usa para acelerar la rapidez en

que se obtienen los objetivos del procesamiento de los datos.

14 | P á g i n a
1.2 OBTENCIÓN DE DATOS ESTADISTICOS

Existen diferentes métodos mediante los cuales se pueden obtener datos estadísticos.

A continuación, te mencionamos los principales:

Información publicada: Los datos estadísticos pueden obtenerse a través de la

recolección de datos originales. La persona u organización que se encarga de obtenerlos es la

fuente primaria, mientras que la persona que compila la información es la fuente secundaria.

Diseño de un experimento: La experimentación se realiza con un control estricto del

tratamiento que se les ofrece a los participantes del estudio.

Conducción de una encuesta: Este es otro método para obtener datos estadísticos. Se

diseña la encuesta, se recolectan los datos, se editan, se codifican y se tabulan para su

análisis.

Realizar un estudio observacional: El investigador observa el comportamiento de los

individuos que participan en el estudio, mientras se encuentran en su entorno natural. Este

proceso puede realizarse de formas diferentes para ayudar en el proceso de toma de

decisiones.

A continuación, tenemos para ti el siguiente apartado con los diferentes tipos de datos

estadísticos y su clasificación: 

Datos categóricos

Los datos categóricos también conocidos como datos cualitativos, representan

características como el género, el idioma, etc. de una persona. También pueden tomar valores

numéricos, por ejemplo: 1 para mujeres y 0 para hombres. Ten en cuenta que esos números no

tienen significado matemático.

Los tipos de datos estadísticos categóricos se clasifican en: 

15 | P á g i n a
Datos nominales: Otros de los tipos de datos estadísticos son los que tienen valores

nominales que representan unidades discretas y se usan para etiquetar variables que no tienen

un valor cuantitativo. 

Estos datos no tienen un orden, aunque cambiara el orden de sus valores, no cambia su

significado.

Datos ordinales: Los datos ordinales representan unidades discretas y ordenadas. Por

lo tanto, es casi lo mismo que los datos nominales, excepto que su orden es importante. 

Las escalas ordinales generalmente, se usan para medir características no numéricas

como la felicidad, la satisfacción del cliente, etc.

Datos numéricos

Estos tipos de datos estadísticos también se conocen como datos cuantitativos, y se

refieren a una medida o recuento. Se clasifican de la siguiente manera:

Datos discretos: Los datos estadísticos son discretos cuando sus valores son distintos y

separados. Es decir, cuando los datos sólo pueden tomar ciertos valores. 

Este tipo de datos no se puede medir, pero se pueden contar. Básicamente representan

información que se puede clasificar.

Datos continuos: Los datos continuos representan mediciones y, por lo tanto, sus

valores. no se pueden contar, pero se pueden medir. A su vez, estos se clasifican de la

siguiente manera: 

Datos de intervalo: Los datos de intervalo representan unidades ordenadas que tienen

la misma diferencia. Por lo tanto, hablamos de datos de intervalo cuando tenemos una variable

que contiene valores numéricos que están ordenados y donde conocemos las diferencias

exactas entre los valores. 

16 | P á g i n a
El problema con los datos de valores de intervalo es que podemos sumar y restar, pero

no podemos multiplicar, dividir o calcular razones. Debido a que no existe un cero verdadero,

no se pueden aplicar muchas estadísticas descriptivas e inferenciales.

Datos de relación: También son unidades ordenadas que tienen la misma diferencia.

Los datos de relación son los mismos que los valores de intervalo, con la diferencia de que

tienen unos cero absolutos. 

Dentro de la estadística, la necesidad de recolectar datos reside en cuatro razones

importantes:

Proporcionar la introducción imprescindible para un estudio de investigación.

Medir el desempeño de un proceso de producción en curso.

Ayudar en la formulación de cursos alternativos de acción en un proceso de toma de

decisiones.

Satisfacer nuestra curiosidad.

Es entonces que podemos decir que los datos pueden concebirse como información

numérica necesaria para ayudarnos a tomar una decisión con más bases en una situación

particular.

Para que un análisis estadístico sea útil en el proceso de toma de decisiones, los datos

de entrada deben ser apropiados. Por tanto, la recolección de datos es extremadamente

importante. Si los datos están estropeados por sesgos, ambigüedades u otro tipo de error, es

improbable que incluso las metodologías más finas y sofisticadas sean suficientes para

compensar tales deficiencias.

Son números que pueden ser comparados, analizados e interpretados y el campo del

cual son tomados se identifica como población o universo.

17 | P á g i n a
¿Para qué necesitamos recolectar datos?

Proporciona la introducción imprescindible para un estudio de investigación.

Medir el desempeño en un servicio o proceso de producción.

Ayudar en la formulación de alternativas para la toma de decisiones.

Satisfacer nuestra curiosidad.

Hay, por lo menos, tres maneras de obtener datos y son los siguientes:

Utilizar los datos publicados por fuentes gubernamentales, industriales o particulares.

A través de la experimentación.

Realizando encuestas.

18 | P á g i n a
1.3 MEDIDAS DE TENDENCIA CENTRAL

Las medidas de tendencia central son medidas estadísticas que pretenden resumir en

un solo valor a un conjunto de valores. Representan un centro en torno al cual se encuentra

ubicado el conjunto de los datos. Las medidas de tendencia central más utilizadas

son: media, mediana y moda.

Promedio o media

La medida de tendencia central más conocida y utilizada es la media aritmética o promedio

aritmético. Se representa por la letra griega µ cuando se trata del promedio del universo o

población y por Ȳ (léase Y barra) cuando se trata del promedio de la muestra. Es importante

destacar que µ es una cantidad fija mientras que el promedio de la muestra es variable puesto

que diferentes muestras extraídas de la misma población tienden a tener diferentes medias. La

media se expresa en la misma unidad que los datos originales: centímetros, horas, gramos, etc.

Mediana

Otra medida de tendencia central es la mediana. La mediana es el valor de la variable que

ocupa la posición central, cuando los datos se disponen en orden de magnitud. Es decir, el

50% de las observaciones tiene valores iguales o inferiores a la mediana y el otro 50% tiene

valores iguales o superiores a la mediana.

Si el número de observaciones es par, la mediana corresponde al promedio de los dos valores

centrales. Por ejemplo, en la muestra 3, 9, 11, 15, la mediana es (9+11) /2=10.

Moda

La moda de una distribución se define como el valor de la variable que más se repite. En un

polígono de frecuencia la moda corresponde al valor de la variable que está bajo el punto más

alto del gráfico. Una muestra puede tener más de una moda.

19 | P á g i n a
Se llama medidas de posición, tendencia central o centralización a unos valores

numéricos en torno a los cuales se agrupan, en mayor o menor medida, los valores de una

variable estadística. Estas medidas se conocen también como promedios.

Para que un valor pueda ser considerado promedio, debe cumplirse que esté situado

entre el menor y el mayor de la serie y que su cálculo y utilización resulten sencillos en

términos matemáticos.

Se distinguen dos clases principales de valores promedio:

Las medidas de posición centrales: medias (aritmética, geométrica, cuadrática,

ponderada), mediana y moda.

Las medidas de posición no centrales: entre las que destacan especialmente los

cuantiles.

Media aritmética

Se define media aritmética de una serie de valores como el resultado producido al

sumar todos ellos y dividir la suma por el número total de valores. La media aritmética se

expresada como  .

Dada una variable x que toma los valores x1, x2, ..., xn, con frecuencias absolutas

simbolizadas por f1, f2, ..., fn, la media aritmética de todos estos valores vendrá dada por:

Media ponderada

En algunas series estadísticas, no todos los valores tienen la misma importancia.

Entonces, para calcular la media se ponderan dichos valores según su peso, con lo que se

obtiene una media ponderada.

20 | P á g i n a
Si se tiene una variable con valores x1, x2, ..., xn, a los que se asigna un peso mediante

valores numéricos p1, p2, ..., pn, la media ponderada se calculará como sigue:

Mediana

La media aritmética no siempre es representativa de una serie estadística. Para

complementarla, se utiliza un valor numérico conocido como mediana o valor central.

Dado un conjunto de valores ordenados, su mediana se define como un valor numérico

tal que se encuentra en el centro de la serie, con igual número de valores superiores a él que

inferiores. Normalmente, la mediana se expresa como Me.

La mediana es única para cada grupo de valores. Cuando el número de valores

ordenados (de mayor a menor, o de menor a mayor) de la serie es impar, la mediana

corresponderá al valor que ocupe la posición (n + 1) /2 de la serie. Si el número de valores es

par, ninguno de ellos ocupará la posición central. Entonces, se tomará como mediana la media

aritmética entre los dos valores centrales.

Determinación de la mediana de una serie de valores.

Moda

En una serie de valores a los que se asocia una frecuencia, se define moda como el

valor de la variable que posee una frecuencia mayor que los restantes. La moda se simboliza

normalmente por Mo.

Un grupo de valores puede tener varias modas. Una serie de valores con sólo una

moda se denomina unimodal; si tiene dos modas, es bimodal, y así sucesivamente.

21 | P á g i n a
Es conveniente mencionar algunas ventajas y desventajas que estas pueden acarrear:

Ventajas:

Estas medidas permiten realizar un método de trabajo de modo sistemático.

No se basa en ideas infundadas, ya que estas evitan por todos los medios hacer

afirmaciones que no tengan una base.

Las afirmaciones que realizan van guiadas a conseguir mejoras, las cuales se basen en

evidencias con datos verificados y veraces.

Desventajas:

Los parámetros estadísticos son una ayuda a manera de resumen, pero no son

categóricos o definitivos, pueden dar una información de lo que en promedio cabría esperar,

pero no siempre son precisos.

Son sensibles a los valores extremos.

No se recomienda emplearla en distribuciones muy asimétricas.

22 | P á g i n a
1.4 MEDIDAS DE DISPERSIÓN

 Las medidas de dispersión son números que indican si una variable se mueve mucho,

poco, más o menos que otra. La razón de ser de este tipo de medidas es conocer de manera

resumida una característica de la variable estudiada. En este sentido, deben acompañar a

las medidas de tendencia central. Juntas, ofrecen información de un sólo vistazo que luego

podremos utilizar para comparar y, si fuera preciso, tomar decisiones.

Las medidas de dispersión más conocidas son: el rango, la varianza, la desviación

típica y el coeficiente de variación (no confundir con coeficiente de determinación). A

continuación, veremos estas cuatro medidas.

Rango

El rango es un valor numérico que indica la diferencia entre el valor máximo y el mínimo

de una población o muestra estadística. Su fórmula es: R = Máxx – Mínx

Donde:

R → Es el rango.

Máx → Es el valor máximo de la muestra o población.

Mín → Es el valor mínimo de la muestra o población estadística.

x → Es la variable sobre la que se pretende calcular esta medida.

Varianza

La varianza es una medida de dispersión que representa la variabilidad de una serie de

datos respecto a su media. Formalmente se calcula como la suma de los residuos al cuadrado

divididos entre el total de observaciones. Su fórmula es la siguiente:

23 | P á g i n a
X → Variable sobre la que se pretenden calcular la varianza

xi → Observación número i de la variable X. i puede tomará valores entre 1 y n.

N → Número de observaciones.

x̄ → Es la media de la variable X.

Desviación típica

La desviación típica es otra medida que ofrece información de la dispersión respecto a

la media. Su cálculo es exactamente el mismo que la varianza, pero realizando la raíz cuadrada

de su resultado. Es decir, la desviación típica es la raíz cuadrada de la varianza.

X → Variable sobre la que se pretenden calcular la varianza

xi → Observación número i de la variable X. i puede tomará valores entre 1 y n.

N → Número de observaciones.

x̄ → Es la media de la variable X.

Coeficiente de variación

Su cálculo se obtiene de dividir la desviación típica entre el valor absoluto de

la media del conjunto y por lo general se expresa en porcentaje para su mejor comprensión.

24 | P á g i n a
X → Variable sobre la que se pretenden calcular la varianza

σx → Desviación típica de la variable X.

| x̄ | → Es la media de la variable X en valor absoluto con x̄ ≠ 0

Las medidas de dispersión consisten en números que otorgan información acerca de la

variabilidad de los datos. Es decir, se encargan de mostrar qué tan juntos o separados se

encuentran los datos de una distribución. Por lo general, se usa junto con las medidas de

tendencia central, como la media o la mediana, para proporcionar una descripción general de

un conjunto de datos.

Características de las medidas de dispersión

Ahora que ya tienes más claro el concepto de las medidas de dispersión o variabilidad,

te brindaremos algunas de sus características más representativas para que no te pierdas de

ningún detalle:

Las medidas de dispersión indican qué tan diseminados se encuentran los datos de una

distribución.

Permite conocer qué tan cerca o lejos de la media se encuentran los datos.

Las medidas de variabilidad te dan la posibilidad de saber la homogeneidad o

heterogeneidad de las distribuciones de los datos.

Su aplicación es fácil y rápida.

25 | P á g i n a
Sus valores de dispersión siempre son positivos o cero, en caso estos sean iguales.

El uso de las medidas de dispersión se puede aplicar en diversos ámbitos, como el

sector salud, industrial, económico empresarial, etc. 

¿Para qué sirven las medidas de dispersión?

Sabemos que el objetivo de medir la dispersión es determinar el grado de desviación

que existe en los datos y, por lo tanto, los límites dentro de los cuales los datos variarán en

alguna variable, atributo o cualidad medible. En ese sentido, las medidas de dispersión son de

gran importancia y ocupan una posición única en los métodos estadísticos.

Para que puedas comprender cuál es la utilidad de las medidas de dispersión, veamos

sus principales aplicaciones:

1. Ayudan a entender el conjunto de datos

El uso más importante de las medidas de dispersión es que ayudan a comprender la

distribución de los datos. A medida que los datos se vuelven más diversos, el valor de la

medida de dispersión aumenta.

Por eso, el conocimiento de la dispersión es vital en la comprensión de la estadística.

Básicamente, te ayuda a comprender conceptos como la diversificación de los datos, cómo se

distribuyen y cómo se mantienen sobre el valor central o la tendencia central.

Además, las medidas de dispersión en la estadística te brindan una forma de obtener

mejores conocimientos sobre la distribución de datos. Por ejemplo, 3 muestras distintas pueden

tener la misma media, mediana o rango, pero niveles de variabilidad completamente diferentes.

2. Complementan la información dada por las medidas de tendencia central

26 | P á g i n a
Las medidas de dispersión también se denominan promedios de segundo orden, es

decir, promediar por segunda vez las desviaciones de una medida de tendencia central. 

Proporciona una estimación de los fenómenos a los que se refieren los datos

dados (originales). Esto aumenta la precisión del análisis y la interpretación estadísticos, por lo

que podrás estar en posición de sacar inferencias más confiables.

3. Hacen posible la comparación entre diferentes grupos

Si los datos originales se expresan en unidades diferentes, no será posible realizar

comparaciones. Pero con la ayuda de medidas de dispersión relativas, todas estas

comparaciones se pueden hacer fácilmente. La comparación precisa entre la variabilidad de

dos series conducirá a resultados confiables.

4. Sirven como un control útil para evitar conclusiones erróneas en la comparación de

datos

La media aritmética puede ser la misma de dos grupos diferentes, pero no revelará la

prosperidad de un grupo y el atraso de otro. Este tipo de composición interna puede conocerse

mediante la aplicación de las medidas de dispersión.

Por lo tanto, con la ayuda de las medidas de dispersión o variabilidad, no concluirás que

ambos grupos son similares. Puedes encontrar que un grupo es próspero y el otro está

atrasado al conocer la cantidad de variabilidad alrededor de las medidas de tendencia central.

Las medidas de dispersión son de gran valor en un análisis estadístico siempre que se

pongan en práctica los coeficientes de dispersión. De lo contrario, las conclusiones extraídas

no serán fiables en gran medida.

27 | P á g i n a
5. Controlan la variabilidad

Diferentes medidas de dispersión te brindan datos de variabilidad desde diferentes

ángulos, y este conocimiento puede resultar útil para controlar la variación. Sobre todo, en el

análisis financiero de los negocios y la medicina, estas medidas de dispersión pueden resultar

muy útiles.

Además, proporcionan la base para análisis estadísticos posteriores, como el cálculo de

la correlación, la regresión, la prueba de hipótesis, etc.

Las medidas de dispersión son importantes porque nos hablan de la variabilidad que

encontramos en una determinada muestra o población. Cuando hablamos de muestra, esta

dispersión es importante porque condiciona el error que vamos a tener a la hora de hacer

inferencias para medidas de tendencia central, como la media.

Las medidas de dispersión complementan a estas medidas de tendencia central.

Además, son esenciales en una distribución de datos. Esto es porque caracterizan la

variabilidad de los datos. Su relevancia en la formación estadística ha sido señalada por Wild y

Pfannkuch (1999).

En estas medidas, la percepción de la variabilidad de los datos es uno de los

componentes básicos en el pensamiento estadístico. Pues nos da información sobre la

dispersión de los datos con respecto a un promedio o media.

28 | P á g i n a
1.5 TABLA DE DISTRIBUCIÓN DE FRECUENCIAS

Las distribuciones de frecuencias son tablas en que se dispone las modalidades de la

variable por filas. En las columnas se dispone el número de ocurrencias por cada valor,

porcentajes, etc. La finalidad de las agrupaciones en frecuencias es facilitar la obtención de la

información que contienen los datos.

La inspección de los datos originales no permite responder fácilmente a cuestiones

como cuál es la actitud mayoritaria del grupo, y resulta bastante más difícil determinar la

magnitud de la diferencia de actitud entre hombres y mujeres.

Podemos hacernos mejor idea si disponemos en una tabla los valores de la variable

acompañados del número de veces (la frecuencia) que aparece cada valor:

X: Símbolo genérico de la variable.

f: Frecuencia (también se simboliza como ni).

La distribución de frecuencias de los datos del ejemplo muestra que la actitud

mayoritaria de los individuos del grupo estudiado es indiferente.

La interpretación de los datos ha sido facilitada porque se ha reducido el número de

números a examinar (en vez de los 20 datos originales, la tabla contiene 5 valores de la

variable y 5 frecuencias).

Generalmente las tablas incluyen varías columnas con las frecuencias relativas (son el

número de ocurrencias dividido por el total de datos, y se simbolizan "fr" o "pi"), frecuencias

acumuladas (la frecuencia acumulada es el total de frecuencias de los valores iguales o

inferiores al de referencia, y se simbolizan "fa" o "na". No obstante, la frecuencia acumulada

también es definida incluyendo al valor de referencia), frecuencias acumuladas relativas (la

29 | P á g i n a
frecuencia acumulada relativa es el total de frecuencias relativas de los valores iguales o

inferiores al de referencia, y se simbolizan "fr" o "pa")

La reducción de datos mediante el agrupamiento en frecuencias no facilita su

interpretación: La tabla es demasiado grande. Para reducir el tamaño de la tabla agrupamos los

valores en intervalos, y las frecuencias son las de los conjuntos de valores incluidos en los

intervalos:

Ahora es más sencillo interpretar los datos. Por ejemplo, podemos apreciar

inmediatamente que el intervalo con mayor número de datos es el 34-39, o que el 75% de los

datos tiene valor inferior a 46.

Este tipo de tabla es denominado "tabla de datos agrupados en intervalos".

Elementos básicos de las tablas de intervalos:

Intervalo: Cada uno de los grupos de valores de la variable que ocupan una fila en una

distribución de frecuencias

Límites aparentes: Valores mayor y menor del intervalo que son observados en la tabla.

Dependen de la precisión del instrumento de medida. En el ejemplo, los límites aparentes del

intervalo con mayor número de frecuencias son 34 y 39.

Límites exactos: Valores máximo y mínimo del intervalo que podrían medirse si se

contara con un instrumento de precisión perfecta. En el intervalo 34-39, estos límites son 33.5 y

39.5

Punto medio del intervalo (Mco Marca de clase): Suma de los límites dividido por dos.

Mc del intervalo del ejemplo= 36.5

Amplitud del intervalo: Diferencia entre el límite exacto superior y el límite exacto

inferior. En el ejemplo es igual a 6.

30 | P á g i n a
1.6 CUANTILES

Un cuantil es aquel punto que divide la función de distribución de una variable

aleatoria en intervalos regulares. Por tanto, no es más que una técnica estadística para separar

los datos de una distribución. Eso sí, debe cumplirse que los grupos sean iguales. Por eso,

existen diversos tipos de cuantil, como veremos más adelante, en función del número de

particiones que hacen.

Forma de cálculo del cuantil

Los cuantiles pueden calcularse desde un punto de vista paramétrico y no paramétrico.

Veamos ambos con mayor detalle y también la llamada «función cuantil».

Paramétricos: Se utilizan en distribuciones cuya forma conocemos. Es decir, la

distribución será normal, uniforme, exponencial, etcétera. De esta forma, se asume que es

conocida y sus principales parámetros (media aritmética y varianza) también.

No paramétricos: Es adecuado con muestras pequeñas en las que es difícil saber su

forma exacta y, por tanto, no conocemos su función de distribución. Este método aporta valores

similares al anterior cuando la muestra aumenta y, por tanto, es indiferente el uso de ambos.

Función cuantil: Estamos ante una forma de cálculo de tipo probabilístico. El objetivo es

calcular un valor que tenga una probabilidad determinada en una función de distribución. No

entraremos en cuestiones matemáticas que complican el concepto.

Cuantiles más frecuentes

Vamos a mostrar cuales son los cuantiles más utilizados en estadística. La mayoría de

ellos son de uso habitual para poder analizar de forma detallada la distribución de los datos.

Además, otra de sus utilidades es separar los datos en grupos, pudiendo elegir los más altos o

los más bajos. En el ejemplo veremos esto con mayor detalle.

31 | P á g i n a
Cuartil: Separa los valores en cuatro grupos iguales y existen tres cuartiles. Es el más

frecuente. El cuartil uno (Q1) son los datos menores y el tres (Q3) los mayores. Por otro lado, el

cuartil dos (Q2) se corresponde con la mediana (Me) que es un estadístico de posición que

divide la distribución de los datos a la mitad. Los valores del cuantil serían 0.25 (Q1), 0.5(Q2) y

0.75 (Q3).

Quintil: Similar al anterior, es menos frecuente y divide los datos en cinco partes iguales.

Por tanto, hay cuatro quintiles. Los valores del cuantil en este caso serían 0.20, 0.40, 0.60,

0.80.

Decil: En este caso se dividen en diez partes y, por tanto, hay nueve deciles. Una vez

más, este tampoco es demasiado frecuente. Sus valores serían de 0.1 a 0.9.

Percentiles: Estamos ante una variante en que la distribución se divide en cien partes

iguales. Puede ser de interés para muestras muy numerosas. Sus valores van de 0.01 a 0.99.

Ejemplo de cuantil

Veamos un ejemplo en que tenemos una serie de datos de la renta de los habitantes de

cierto municipio. Hemos calculado los tres cuartiles y tres deciles más representativos.

Incluimos las fórmulas utilizadas, teniendo en cuenta que para los deciles utilizamos el

equivalente en percentiles. Recordemos que los datos de Q2 y D5 son equivalentes a la

mediana.

Podemos observar que la renta de los individuos que representan el 25% (Q1) menos

favorecido es de 2.900. En relación al decil, la renta del 10% (D1) de los individuos que menos

reciben es de 2.800. La misma interpretación se hace con los superiores, pero al revés. El 25%

(Q3) que más gana obtiene una renta de 4.100 y el 10% de 4.800. El cuantil refleja, por tanto,

una información relevante para conocer más a fondo una variable.

32 | P á g i n a
En estadística y probabilidad, los cuantiles son puntos de corte que dividen el

rango de una distribución de probabilidad en intervalos continuos con probabilidades

iguales, o dividen las observaciones en una muestra de la misma manera. Hay un

cuantil menos que el número de grupos creados. Los cuantiles comunes tienen

nombres especiales, como cuartiles (cuatro grupos), deciles (diez grupos)

y percentiles (100 grupos). Los grupos creados se denominan mitades, tercios,

cuartos, etc., aunque a veces los términos para el cuantil se utilizan para los grupos

creados, en lugar de los puntos de corte.

q - los cuantiles son valores que dividen un conjunto finito de valores

en q subconjuntos de tamaños (casi) iguales. Hay  q − 1 particiones de los q -

cuantiles, una para cada entero k que satisface 0 < k < q. En algunos casos, es

posible que el valor de un cuantil no se determine de forma única, como puede ser el

caso de la mediana (2 cuantiles) de una distribución de probabilidad uniforme en un

conjunto de tamaño par. Los cuantiles también se pueden aplicar a distribuciones

continuas, lo que proporciona una forma de generalizar las estadísticas de rango a

las variables continuas (ver rango percentil). Cuando se conoce la función de

distribución acumulada de una variable aleatoria, la  q-los cuantiles son la aplicación

de la función cuantil (la función inversa de la función de distribución acumulativa) a

los valores {1/ q, 2/ q, …, (q − 1) / q}.

Cuantiles especializados

Algunos q -cuantiles tienen nombres especiales:

El único cuantil 2 se llama mediana.

Los 3 cuantiles se denominan terciles o terciles → T

33 | P á g i n a
Los 4 cuantiles se denominan cuartiles → Q; la diferencia entre los cuartiles

superior e inferior también se denomina rango intercuartílico,  dispersión media

o cincuenta medios → IQR = Q  3  − Q  1 .

Los 5 cuantiles se llaman quintiles → QU

Los 6 cuantiles se llaman sextiles → S

Los 7 cuantiles se llaman septiles.

Los 8 cuantiles se llaman octiles.

Los 10 cuantiles se llaman deciles → D

Los 12 cuantiles se denominan duodeciles o dodeciles.

Los 16 cuantiles se llaman hexadeciles → H

Los 20 cuantiles se denominan ventiles, vigintiles o semideciles → V

Los 100 cuantiles se llaman percentiles → P

Los cuantiles de 1000 se han llamado permilles o milliles, pero estos son raros

y en gran parte obsoletos.

Cuantiles de una población

Al igual que en el cálculo de, por ejemplo, la desviación estándar, la

estimación de un cuantil depende de si se está operando con una población

estadística o con una muestra extraída de ella. Para una población, de valores

discretos o para una densidad de población continua, el  k -ésimo q - cuantil es el

valor del dato donde la función de distribución acumulada cruza  k / q. Es decir, x es

un k -ésimo q -cuantil para una variable X siPr [ X < x] ≤ k / q o, de manera

equivalente, Pr [ X ≥ x] ≥ 1 − k / q

34 | P á g i n a
yPr [ X ≤ X] ≥ k / q.

Eso es equivalente a decir que x es el valor más pequeño tal que Pr[ X ≤ x ]

≥ k / q. Para una población finita de N valores igualmente probables indexados 1,

…, N de menor a mayor, el k -ésimo q - cuantil de esta población puede calcularse de

manera equivalente a través del valor de  I  p  = N k / q. Si I  p  no es un número entero,

entonces redondee al siguiente número entero para obtener el índice apropiado; el

valor de datos correspondiente es el k -ésimoq -cuantil. Por otro lado, si I  p  es un

número entero, cualquier número desde el valor de datos en ese índice hasta el valor

de datos del siguiente puede tomarse como el cuantil, y es convencional (aunque

arbitrario) tomar el promedio de esos dos (consulte Estimación de cuantiles a partir

de una muestra).

Si, en lugar de utilizar los números enteros k y q, el " p -cuantil" se basa en un

número real p con 0 < p < 1, entonces p reemplaza a k / q en las fórmulas anteriores.

Esta terminología más amplia se utiliza cuando se utilizan cuantiles para

parametrizar distribuciones de probabilidad continuas. Además, algunos programas

de software (incluido Microsoft Excel) consideran el mínimo y el máximo como el

percentil 0 y 100, respectivamente. Sin embargo, esta terminología más amplia es

una extensión más allá de las definiciones estadísticas tradicionales.

Los cuantiles son puntos tomados a intervalos regulares de la función de distribución de

una variable aleatoria. El término cuantil fue usado por primera vez por Kendall en 1940. El

cuantil de orden p de una distribución (con 0 < p < 1) es el valor de la variable  que marca un

corte de modo que una proporción p de valores de la población es menor o igual que por

ejemplo, el cuantil de orden 0,36 dejaría un 36% de valores por debajo y el cuantil de orden

0,50 se corresponde con la mediana de la distribución.

35 | P á g i n a
Los cuantiles suelen usarse por grupos que dividen la distribución en partes iguales;

entendidas estas como intervalos que comprenden la misma proporción de valores. Los más

usados son:

Los cuartiles, que dividen a la distribución en cuatro partes (corresponden a los

cuantiles 0,25; 0,50 y 0,75);

Los quintiles, que dividen a la distribución en cinco partes (corresponden a los cuantiles

0,20; 0,40; 0,60 y 0,80);

Los deciles, que dividen a la distribución en diez partes;

Los percentiles, que dividen a la distribución en cien partes.

36 | P á g i n a
1.7 GRAFICOS

Un gráfico estadístico es una representación visual de una serie de datos estadísticos.

A la hora de representar gráficamente una batería de datos se puede optar

por diferentes visualizaciones, según el tipo de datos, la cantidad de información que desee

aportarse al lector o la dificultad que plantee el tema a expresar.

Las principales representaciones para gráficos estadísticos son:

Gráfico de barras

Se utilizan para mostrar la evolución o comportamiento de una variable en el tiempo. Se

compone en un sistema de coordenadas de ejes cartesianos —eje X y eje Y— en el que barras

rectangulares horizontales o verticales representan gráficamente la variable elegida. Este tipo

de gráfico es habitual para representar, por ejemplo, los ingresos de una compañía por

trimestres de actividad o la evolución del PIB de un país bien sea anual, semestral, trimestral…

Permite introducir diversas variables y observar su evolución paralela a lo largo del mismo

período de tiempo: en uno de los ejes se establece el tiempo y el otro se levantan las barras

marcando el valor que corresponde a la variable.

Permite visualizar las partes de un todo a través de una circunferencia dividida en

sectores o porciones. Por ejemplo, el porcentaje de alumnos de una clase que realizan una

determinada actividad extraescolar: del 100 % de los alumnos, un 15 % juega al baloncesto, un

10 % aprende programación, un 15 % estudia un idioma, un 40 % juega al fútbol y el 20 %

restante agrupa otras actividades.

Este tipo de gráfico es similar al de barras —los datos se ordenan en base a los ejes

cartesianos— y es útil para observar la evolución de una variable. Por ejemplo: cómo ha

variado la temperatura mínima y máxima durante una semana. En uno de los ejes tendremos la

temperatura y en otro los días de la semana. Se marcan los valores de la temperatura mínima y

37 | P á g i n a
se unen con una línea mostrando la oscilación; con otro color se representa de igual forma la

temperatura máxima. De un vistazo, el lector puede ver cómo han oscilado ambas variables en

un periodo de siete días.

El punto de partida son también los ejes cartesianos que muestran todos los valores de

la variable dependiente y de la independiente, o de dos variables para comprobar si existe

relación. El resultado suele ser una nube de puntos que muestra una dispersión o una

concentración y ayuda a los estadistas a determinar la relación o no entre las variables. Estas

representaciones gráficas permiten combinaciones diversas, por ejemplo, representar unas

variables en barras y otras en línea, siempre que el tipo de datos a representar lo permita.

Otra variación son los pictogramas, gráficos donde las barras o las líneas se sustituyen

por dibujos que muestran la temática de los datos que se están expresando en los gráficos: si

se representa la variación del precio de distintas frutas, el pictograma puede elaborarse con

dibujos de esas frutas.

El gráfico, en otras palabras, es una forma de resumir, en una imagen, una información

recogida en un estudio estadístico o base de datos. Este tipo de herramienta visual

complementa el análisis y permite al receptor entender mejor las conclusiones de un

determinado sondeo o estudio.

Por ejemplo, es mucho más fácil entender qué tan pronunciado ha sido el crecimiento

económico de un país si se observa en un gráfico lineal

38 | P á g i n a
1.8 CAJAS Y ALAMBRES

Un diagrama de cajas y bigotes es una manera conveniente de mostrar visualmente

grupos de datos numéricos a través de sus cuartiles. Las líneas que se extienden paralelas a

las cajas se conocen como «bigotes», y se usan para indicar variabilidad fuera de los cuartiles

superior e inferior.

Los diagramas de Caja-Bigotes (boxplots o box and whiskers) son una presentación

visual que describe varias características importantes, al mismo tiempo, tales como la

dispersión y simetría.

Para su realización se representan los tres cuartiles y los valores mínimo y máximo de

los datos, sobre un rectángulo, alineado horizontal o verticalmente.

Construcción:

Comparar distribuciones

Diagrama de Caja a través de Excel

Construcción:

Una gráfica de este tipo consiste en una caja rectangular, donde los lados más largos

muestran el recorrido intercuartílico. Este rectángulo está dividido por un segmento vertical que

indica donde se posiciona la mediana y por lo tanto su relación con los cuartiles primero y

tercero (recordemos que el segundo cuartil coincide con la mediana).

Esta caja se ubica a escala sobre un segmento que tiene como extremos los valores mínimo y

máximo de la variable. Las líneas que sobresalen de la caja se llaman bigotes. Estos bigotes

tienen un límite de prolongación, de modo que cualquier dato o caso que no se encuentre

dentro de este rango es marcado e identificado individualmente

EJEMPLO DISTRIBUCIÓN DE EDADES

39 | P á g i n a
Utilizamos la ya usada distribución de frecuencias (en tallos y hojas), que representan la

edad de un colectivo de 20 personas.

36 25 37 24 39 20 36 45 31 31

39 24 29 23 41 40 33 24 34 40

ORDENAR LOS DATOS

Para calcular los parámetros estadísticos, lo primero es ordenar la distribución

20 23 24 24 24 25 29 31 31 33 34 36 36 37 39 39 40 40 41 45

CALCULO DE CUARTILES

Q1, el cuartil Primero es el valor mayor que el 25% de los valores de la distribución.

Como N = 20 resulta que N/4 = 5; el primer cuartil es la media aritmética de dicho valor y el

siguiente:

Q1=(24 + 25) / 2 = 24,5

Q2, el Segundo Cuartil es, evidentemente, la mediana de la distribución, es el valor de

la variable que ocupa el lugar central en un conjunto de datos ordenados. Como N/2 =10; la

mediana es la media aritmética de dicho valor y el siguiente:

me= Q2 = (33 + 34) / 2 =33,5

Q3, el Tercer Cuartil, es el valor que sobrepasa al 75% de los valores de la distribución.

En nuestro caso, como 3N / 4 = 15, resulta

Q2= (39 + 39) / 2 = 39

40 | P á g i n a
El bigote de la izquierda representa al colectivo de edades (Xmín, Q1)

La primera parte de la caja a (Q1, Q2),

La segunda parte de la caja a (Q2, Q3)

El bigote de la derecha viene dado por (Q3, Xmáx).

INFORMACIÓN DEL DIAGRAMA

Podemos obtener abundante información de una distribución a partir de estas

representaciones. Veamos alguna:

La parte izquierda de la caja es mayor que la de la derecha; ello quiere decir que las

edades comprendidas entre el 25% y el 50% de la población está más dispersa que entre el

50% y el 75%.

El bigote de la izquierda (Xmín, Q1) es más corto que el de la derecha; por ello el 25%

de los más jóvenes están más concentrados que el 25% de los mayores.

El rango intercuartílico = Q3 - Q1 = 14,5; es decir, el 50% de la población está

comprendido en 14,5 años.

Seguro que tú podrás obtener más información (¡Utiliza la mediana!)

Comparar distribuciones

La mayor utilidad de los diagramas caja-bigotes es para comparar dos o más conjuntos

de datos.

Comparación distribución de edades

Comparación entrenamientos de un corredor

Comparación clasificación liga

41 | P á g i n a
•Un Diagrama de caja es un gráfico, basado en cuartiles, mediante el cual se visualiza

un conjunto de datos. Está compuesto por un rectángulo, la "caja", y dos brazos, los "bigotes".

Es un gráfico que suministra información sobre los valores mínimo y máximo,

los cuartiles Q1, Q2 o mediana y Q3, y sobre la existencia de valores atípicos y la simetría de la

distribución. Primero es necesario encontrar la mediana para luego encontrar los 2 cuartiles

restantes.

42 | P á g i n a
1.9 DIAGRAMA DE PARETO

Un diagrama de Pareto es un gráfico en el que la información de los datos analizados

se muestra mediante un diagrama de barras de forma descendente y en función de su

prioridad. También se le denomina curva cerrada o distribución A-B-C. Lo que nos permite es

conocer el orden de importancia de las variables que intervienen en un estudio.

Para qué sirve un diagrama de Pareto

Este diagrama se basa en el principio o ley de Pareto. Este ingeniero, economista,

sociólogo y filósofo italiano, afincado en Suiza hasta su muerte, enunció una regla que parece

cumplirse. Descubrió que el 80% de las actividades que se realizan son triviales y solo suponen

un 20% del resultado y a la inversa. Por tanto, es a las segundas a las que hay que dedicar un

mayor esfuerzo.

Saber cómo interpretar el diagrama de Pareto es esencial en muchas áreas. Por

ejemplo, en marketing parece cumplirse (incluso en la era digital) que aproximadamente el 20%

de clientes genera el 80% del ingreso. Por ese motivo, es en ellos en los que deberemos

centrar el 80% de nuestro tiempo y a la inversa. El diagrama de Pareto nos permite conocer

qué actividades son prioritarias según este principio.

Cómo hacer un diagrama de Pareto

El proceso es sencillo, sobre todo si tenemos nociones básicas de estadística

descriptiva. Eso sí, dependiendo de las variables a analizar se puede complicar algo más,

sobre todo en el trabajo de campo. Los pasos a seguir pueden ayudarnos a ordenar las ideas y

serían los siguientes:

En primer lugar, hay que hacer una lista de dichas variables. Imaginemos que queremos

conocer las causas de compra de los clientes de un determinado producto, la idea es conocer

de forma aproximada cuáles son.

43 | P á g i n a
Una vez las tenemos, realizamos el estudio descriptivo. Podemos usar fuentes

secundarias como otros análisis o fuentes primarias, a través de cuestionarios. La más

recomendable es la última, en la que preguntaremos por qué compran el producto.

Luego hay que ordenar estas variables en función de sus frecuencias absolutas de

manera que permita un orden descendente. Es conveniente superponer la frecuencia

acumulada que permita ver en qué punto estamos.

Toca dibujar el gráfico, con una hoja de cálculo como Excel. Se utilizan los de barras,

para ver claro el descenso, y el de líneas para las acumuladas.

Un diagrama de Pareto es un ejemplo especial de diagrama de barras. En el diagrama

de Pareto las barras se ordenan por conteos de frecuencia, del más alto al más bajo. Estos

diagramas se usan a menudo para identificar áreas en las que centrarse primero en mejora de

procesos. 

Los diagramas de Pareto reflejan los conteos ordenados de frecuencia de valores de los

distintos niveles de una variable categórica o nominal. Estos diagramas se basan en la regla

del 80/20. Esta regla sostiene que aproximadamente el 80 % de los problemas se derivan del

20 % de las causas. Esta regla también se conoce como del «puñado esencial y la multitud

trivial». De nuevo, la idea es que podemos centrarnos en unas pocas causas fundamentales en

la raíz de los problemas e ignorar muchas otras triviales.

¿Qué es el Diagrama de Pareto?

Un diagrama de Pareto es una técnica que permite clasificar gráficamente la

información de mayor a menor relevancia, con el objetivo de reconocer los problemas más

importantes en los que deberías enfocarte y solucionarlos. Esta técnica se basa en el principio

de Pareto o regla 80/20, la cual establece una relación de correspondencia entre los grupos 80-

20, donde el 80 % de las consecuencias provienen del 20 % de las causas. El diagrama de

44 | P á g i n a
Pareto, también conocido como curva de distribución ABC, consiste en una gráfica que clasifica

los aspectos relacionados con una problemática y los ordena de mayor a menor frecuencia, con

lo que permite visualizar de forma clara cuál es la causa principal de una consecuencia.

Muchos negocios no comprenden que la manera de aumentar las ganancias no siempre es

aumentando la variedad de los productos. A veces, nosotros mismos podemos ser el peor

enemigo de nuestros productos quitándole ventas para ofrecer otros.  Entonces, la función del

diagrama de Pareto es que las empresas puedan reconocer cuáles son las necesidades más

importantes a las que debería dirigir sus esfuerzos y no malgasten recursos en asuntos poco

relevantes, de ahí la importancia de siempre hacer un análisis de datos.

Características de un Diagrama de Pareto

Las características más importantes del diagrama de Pareto son:

Es una técnica de cálculos simples.

Analiza las características de un grupo y reconoce los puntos más importantes dentro

de él para darles prioridad.

Observa los elementos y enfoca los esfuerzos hacia un solo objetivo.

Permite tomar decisiones objetivas que se basen en los datos y no en opiniones

personales.

Analiza los elementos y la frecuencia con la que sucede cada uno de los datos.

Elementos que conforman el Diagrama de Pareto

Los elementos que conforman el diagrama de Pareto son:

Eje Y izquierdo. Corresponde a la frecuencia con la que ocurre un problema o situación

analizada.

45 | P á g i n a
Eje Y derecho. Refiere al porcentaje que se acumula a partir del total de ocurrencias.

Eje X. En la parte inferior se describen las categorías de las problemáticas o situaciones

que se están evaluando.

Para qué se utiliza un Diagrama de Pareto

El diagrama de Pareto puede utilizarse para:

Analizar los diferentes productos y servicios que ofreces y mejorar su calidad.

Observar la producción de productos en tiempo y volumen.

Identificar qué productos generan mayores ventas y cuáles tienen más tiempo

almacenados.

Reconocer las oportunidades de mejorar tu negocio.

Identificar cuáles son las razones por las que ocurren algunos problemas y priorizar las

soluciones.

Ventajas del Diagrama de Pareto

Entre las ventajas de utilizar el Diagrama de Pareto para la toma de decisiones

destacan: 

Te ayuda a enfocar los esfuerzos en las mejoras que traerán mayores beneficios.

Ofrece un panorama sencillo y eficaz sobre la prioridad de los problemas.

Evita que los problemas se hagan más grandes.

Es una herramienta fácil de entender y fomenta las ganas de solucionar los problemas

dentro de la organización. 

46 | P á g i n a
El Diagrama de Pareto permite definir las prioridades y enfocarse en conocer las causas

raíz para llegar a la solución de problemas de forma efectiva. Al usar esta herramienta puedes

tomar decisiones objetivas que le traigan más beneficios a tu organización.

47 | P á g i n a
CONCLUSIÓN

Al finalizar esta investigación, en la cual, tomamos en cuenta todos los subtemas que

vienen ligados al tema principal, nos podemos dar cuenta que son un tema muy interesante, ya

que cada uno de ellos te envuelve de una manera que sin saber mucho acerca de ello, vas

notando ciertas conexiones que conllevan.

Al haber leído e investigado cada uno de los puntos tratados se hace notar la relación

que se tiene en nuestro día a día y aunque no nos demos cuenta de ello, solo basta poner un

poco de atención para fijarse que toda esta rama esta en todos lados.

48 | P á g i n a
BIBLIOGRAFIAS

Estadística descriptiva. (2022, 23 enero). Universo Formulas.

[Link]

Ortega, C. (2021, 18 noviembre). Estadística descriptiva. Qué es y su

importancia. QuestionPro. [Link]

Ludeña, J. A. (2022, 10 enero). Diferencia entre muestra y población.

Economipedia. [Link]

[Link]#:%7E:text=En%20resumen%2C%20la%20diferencia%20entre,que%20se

%20va%20a%20trabajar.

1.2 Obtención de datos estadísticos. (s. f.). BLOG.

[Link]

3 Distribución de frecuencias. (s. f.). UV.

[Link]

Arias, E. R. (2021, 14 enero). Cuantil. Economipedia.

[Link]

Diagrama de Pareto. (s. f.). Introducción a la estadística | JMP.

[Link]

[Link]

Euroinnova Business School. (2022, 11 agosto). diferencias entre administracion

y gestion. [Link]

tendencia-central#ventajas

Medidas de tendencia central - hiru. (s. f.). HIRU.

[Link]

49 | P á g i n a
Pérez, M. A. R. M. M. (2021, 4 diciembre). Población y muestra | Estadística.

INTEF.

[Link]

ml

PROBABILIDAD Y ESTADISTICA. (s. f.). BLOG.

[Link]

TodoEstadistica. (2022, 14 julio). Software estadístico: Sistemas de análisis de la

información. [Link]

Velázquez, A. (2021, 9 noviembre). ¿Qué es el diagrama de Pareto?

QuestionPro. [Link]

Villasante, P. (2022, 11 marzo). Las medidas de dispersión en estadística. La

Mente es Maravillosa. [Link]

estadistica/

50 | P á g i n a

También podría gustarte