0% encontró este documento útil (0 votos)
29 vistas33 páginas

Organización y Gráfica de Datos Estadísticos

Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
29 vistas33 páginas

Organización y Gráfica de Datos Estadísticos

Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Trabajo Práctico Nº 1.

Medidas, Organización y Representación gráfica de datos estadísticos.

Bachilleres: Arcia Joel (C.I: 31.624.887)

Maza Rosangel (C.I: 31.483.292 )

Carrera: Medicina

2do año, Sección 5

Tutor: Fernando Velasquez.

Materia: Estadística.

Abril, 2024

1
Índice.

Nº Página:

Introducción ..................................................................................................... 03

Desarrollo ......................................................................................................... 04

1. Organización de datos estadísticos ..................................................... 05

1.1. Tablas de frecuencia ......................................................................... 06

1.2. Distribución de frecuencia para datos agrupados en clases ........ 08

2. Representación gráfica de los datos .................................................... 10

2.1. Representación gráfica para datos sin agrupar ............................. 14

2.2. Representación gráfica para datos agrupados .............................. 14

2.3. Representación gráfica para variables cualitativas ....................... 15

3. Características de una distribución ...................................................... 17

3.1. Medidas de centralización .............................................................. 18

3.1.1. Media aritmética ....................................................................... 19

3.1.2. Mediana ..................................................................................... 21

3.1.3. Moda .......................................................................................... 22

3.1.4. Cuartiles, Deciles y Percentiles ................................................ 23

3.2. Medidas de dispersión .................................................................... 26

3.2.1. Recorridos .................................................................................. 26

3.2.2. Varianza y desviación típica ..................................................... 27

3.2.3. Coeficiente de variación ........................................................... 29

Conclusión ....................................................................................................... 31

Bibliografía ....................................................................................................... 32

Anexos .............................................................................................................. 33

2
Introducción.

El presente trabajo de investigación tiene como objetivo principal describir, analizar y


comprender los diversos métodos y técnicas de organización de datos estadísticos, su
representación en gráficas y las diferentes técnicas de distribución; está realizado por
medio de una técnica de investigación documental.

La Estadística es una rama de las matemáticas que, a través de diversas


metodologías y técnicas, se encarga de la recolección y organización de datos acerca
de personas, sucesos o cosas; adicionalmente la organización de los datos es
necesaria para unificar la información y ayudar a la organización a funcionar de forma
óptima; en conjunto con la representación gráfica nos permiten establecer valores que
no se han obtenido experimentalmente sino mediante la interpolación (lectura entre
puntos) y la extrapolación (valores fuera del intervalo experimental).

El conocimiento de la estadística permite interpretar correctamente y de una manera


crítica los resultados obtenidos. Un buen trabajo de investigación en salud requiere del
empleo adecuado de la estadística ligado a la metodología investigación. Conocer los
medios de recolección, procesamiento, análisis y presentación de los datos y utilizarlos
de forma óptima en los servicios de salud, el estudio, la docencia y la investigación.

Aplicar el método científico al diagnóstico y solución de los problemas de salud, la familia y


la comunidad; y a la búsqueda y recolección activa de la información y su análisis estadístico,
tanto en el ejercicio cotidiano de la profesión como durante la ejecución de investigaciones
biomédicas realizadas en áreas de trabajo, bien de carácter regional o nacional.

3
1. Organización de datos estadísticos.

4
1.1. ordenamiento:

Es la técnica para reunir los datos numéricos, puede ser de forma creciente
(ascendente) o decreciente (descendente), para concretar la magnitud estadística
(rango). (Alvarez, R, (2007) "Estadística aplicada en las ciencias de la salud". España.)

 Orden ascendente: los datos se ordenan alfabéticamente (de la A a la Z) o


mediante valores numéricos ascendentes. Ejemplo: Se obtiene datos numéricos
de un trabajo realizado (calificaciones de estudiantes): 12, 1, 4, 5, 9, 7 ,11, 3 ,6; se
ordenan de la siguiente manera: 1, 3, 4, 5, 6, 7, 9, 11, 12.

 Orden descendente: ordena los datos en orden alfabético inverso (de la Z a la A)


o mediante valores numéricos descendentes. Ejemplo: Se obtiene datos
numéricos de un trabajo realizado (calificaciones de estudiantes): 12, 1, 4, 5, 9, 7
,11, 3 ,6; se ordenan de la siguiente manera: 12, 11, 9, 7, 6, 5, 4, 3, 1.

1.2 Tablas de frecuencia:

Es un método descriptivo numérico que proporciona información evidente de los


posibles valores que una variable puede tomar y las veces que esos valores ocurren
dentro de un grupo o conjunto de observaciones (Murray, R, (1975), "Probabilidad y
estadística").

Es una herramienta que organiza y resume la información sobre la distribución de


datos. Consiste en una estructura de columnas que muestra las distintas categorías o
valores de una variable, junto con el número de veces que cada categoría ocurre en un
conjunto de datos. Esta tabla proporciona una visión general y ordenada de la
frecuencia con la que aparecen los valores en una muestra o población, lo que permite
analizar patrones, identificar tendencias y extraer conclusiones significativas.

Ejemplo:

5
Valor Frecuencia Frecuencia
Absoluta Relativa

1 5 0.23

2 4 0.21

3 6 0.88

Existen varios tipos de tablas de frecuencia que se utilizan para analizar diferentes
aspectos de los datos. Algunos de los tipos más comunes son:

1. Tabla de frecuencia simple: Es la forma más básica de tabla de frecuencia y


muestra la frecuencia absoluta o el recuento de ocurrencias de cada valor o categoría
en una variable.

Edad f. F. fr %

13 2 2 0.04 4

14 5 7 0.1 10

15 13 20 0.26 26

2. Tabla de frecuencia acumulada: Esta tabla muestra la frecuencia acumulada de


los valores o categorías hasta un determinado punto. Puede ser frecuencia acumulada
ascendente, donde se suma el número de ocurrencias desde el valor más bajo hasta
cada valor sucesivo, o frecuencia acumulada descendente, donde se suma desde el
valor más alto hacia abajo.

6
3. Tabla de frecuencia relativa: En esta tabla, en lugar de mostrar la frecuencia
absoluta, se muestra la frecuencia relativa de cada valor o categoría, que se calcula
dividiendo la frecuencia absoluta entre el tamaño total de la muestra. Esto permite
tener una visión proporcional de la distribución de los datos.

Los principales elementos de una tabla de frecuencia son:

1. Valores o categorías: Son los diferentes valores o categorías que se están


analizando en la variable. Por ejemplo, si se está analizando la altura de las
personas, los valores o categorías podrían ser bajo, medio y alto.

2. Frecuencia absoluta: Es el número de veces que cada valor o categoría ocurre en


el conjunto de datos. Esta columna muestra el recuento para cada valor.

3. Frecuencia relativa: Es la proporción o porcentaje de veces que cada valor o


categoría ocurre en el conjunto de datos. Se calcula dividiendo la frecuencia
absoluta de cada valor entre el tamaño total de la muestra y se expresa como un
decimal o un porcentaje.

7
4. Frecuencia acumulada: Es la suma acumulada de las frecuencias absolutas o
relativas a medida que se avanza a través de los valores o categorías en la tabla.
Puede ser ascendente (sumando desde el valor más bajo hasta cada valor
sucesivo) o descendente (sumando desde el valor más alto hacia abajo).

Dependiendo del propósito del análisis, una tabla de frecuencias también puede
incluir otros elementos como frecuencia relativa acumulada, porcentajes acumulados,
rangos, intervalos, entre otros. Estos elementos adicionales proporcionan información
adicional sobre la distribución de los datos y permiten un análisis más detallado.

1.3. Distribución de frecuencia para datos agrupados por clase.

La distribución de frecuencias es la agrupación de datos en categorías mutuamente


excluyentes que indican el número de observaciones en cada categoría. La distribución
de frecuencias agrupadas o tabla con datos agrupados se emplea si las variables
toman un número grande de valores o la variable es continua. Se agrupan los valores en
intervalos que tengan la misma amplitud denominados clases. A cada clase se le
asigna su frecuencia correspondiente. (Alvarez, R, (2007) "Estadística aplicada en las
ciencias de la salud". España.).

Ejemplo: Consultamos a 50 personas sobre cuál era su edad y obtuvimos los


siguientes resultados: 38 – 15 – 10 – 12 – 62 – 46 – 25 – 56 – 27 – 24 – 23 – 21 – 20
– 25 – 38 – 27 – 48 – 35 – 50 – 65 – 59 – 58 – 47 – 42 – 37 – 35 – 32 – 40 – 28 – 14
– 12 – 24 – 66 – 73 – 72 – 70 – 68 – 65 – 54 – 48 – 34 – 33 – 21 – 19 – 61 – 59 – 47
– 46 – 30 – 30.

Paso 1: Identificar el valor máximo y mínimo. 10 (mínimo) y 73 (máximo).

Paso 2: Calcular el Rango (Obtener el rango de edades en que se encuentran los


encuestados, sólo basta con determinar la diferencia que hay entre el más joven y el
más adulto).

Paso 3: Calcular la cantidad de Intervalos presentes y su amplitud.

8
Paso 4: Construcción de los intervalos (El primer intervalo viene con límite inferior
igual al valor mínimo de los datos, en este caso 10 años. Súmale el valor de la amplitud,
es decir, 9 años, y obtendrás el límite superior de 19 años. Eso nos daría el primer
intervalo, en este caso la edad es la representación de la clase.

Una vez construidos los intervalos ya sean agrupados los datos para su
representación gráfica, no obstante solo faltaría calcular la fuerza absoluta, absoluta
acumulada, relativa, relativa acumulada; posteriormente a los cálculos, para culminar
realizamos el cuadro representativo de la siguiente manera:

9
2. Representación gráfica de los datos.

10
2. Gráficas de variable.

La representación gráfica de las variables permite seis tipos distintes de


representación gráfica (Murray, R, (1975), "Probabilidad y estadística") :

1) Histogramas (Diagramas de Columnas): consisten en una sene de rectángulos


verticales que representan las frecuencias de una variable. Las variables que más usan
los histogramas para su representación gráfica son las variables de escalas, de
intervalos, de modalidades, binarias y ordinales. Es decir, prácticamente todas salvo las
variables continuas numéricas.

Ejemplo: Histograma, variable de escala.

2) Poligonos de Frecuencia: es un gráfico de linea, que se origina a partir de un


Histograma. Las variables que más usan los poligonos de frecuencia para su
representación gráfica son las variables de escalas y las variables de Intervalos. No es
muy habitual en las variables de modalidades, las variables binarias y las variables
ordinales.

Ejemplo : Poligono de frecuencia, variable de intervalos.

11
3) Ojivas: las Olivas son gráficos que consiste en la representación de las
frecuencias acumuladas de los datos de una variable. Las variables que más usan las
ojivas para su representación gráfica son las variables de intervalos. No es muy
habitual en las variables de categorias en general, dado que en estas variables no existe
una graduación entre los distintos atributos de las categorías

Ejemplo: Ojiva de línea, variable de intervalos.

4) Diagramas de Barras: son gráficos que utilizan rectángulos horizontales y que se


emplean generalmente para representar tablas de frecuencias, aunque en ocasiones
también se emplean para reflejar tablas de porcentajes. Las variables que más usan los
diagramas de barmas para su representación gráfica son las variables de escalas, de
intervalos y de modalidades. Los diagramas que representados tablas de datos en
porcentajes se emplean sobre todo en las variables de categorias como en los casos
anteriores, no se usa para las variables numéricas.

Ejemplo: Diagrama de barras, variable de escalas.

12
5) Ciclogramas: son gráficos que se emplean para representar tablas de porcentajes,
especialmente de variables de categorias. Las variables que más usan los ciclogramas
para su representación son las variables de modalidades. En menor medida, las
variables de intervalos y las variables binarias. Es menos habitual en otras variables
dado que no se usa para las variables numéricas.

Ejemplo: Ciclograma, variable de intervalos.

6) Gráficos de serie de Datos: son gráficos que se empèsan cuando se tienen series
de un mismo datos en distintos momentos temporales. Las variables que más usan los
gráficos de series de datos para su representación son las variables de escalas, de
intervalos y de modalidades. Es menos habitual en otras variables. No se usa para las
variables numéricas

Ejemplo: gráficos de serie de datos, variables de escalas

13
2.1. Representación gráfica para datos sin agrupar.

El diagrama principal para representar datos de variables discretas no agrupadas es


el diagrama de barras. En este se representan en el eje de abscisas los distintos valores
de la variable y sobre cada uno de ellos se levanta una barra de longitud igual a la
frecuencia correspondiente. Pueden representarse tanto las frecuencias absolutas
como las relativas. (Alvarez, R, (2007) "Estadística aplicada en las ciencias de la salud".
España.)

Ejemplo:

2.2. Representación gráfica para datos agrupados.

La representación gráfica mas usada para datos agrupados es el histograma de


frecuencias absolutas o relativas. Un histograma es un conjunto de rectángulos
adyacentes, cada uno de los cuales representa un intervalo de clase. Las base de cada
rectángulo es proporcional a la amplitud del intervalo. La altura se suele determinar
para que el área de cada rectángulo sea igual a la frecuencia de la marca de clase
correspondiente. Por tanto, la altura de cada rectángulo se puede calcular como el
cociente entre la frecuencia (absoluta o relativa) y la amplitud del intervalo. En el caso
de que la amplitud de los intervalos sea constante, la representación es equivalente a
usar como altura la frecuencia de cada marca de clase, siendo este método mas
sencillo para dibujar rápidamente un histograma. (Alvarez, R, (2007) "Estadística
aplicada en las ciencias de la salud". España.)

14
Ejemplo:

2.3. Representación gráfica para variables cualitativas.

Existe una gran variedad de representaciones para variables cualitativas, de las


cuales vamos a describir únicamente las dos mas usadas.

1) El diagrama de rectángulos es similar al diagrama de barras y el histograma para


las variables cuantitativas. Consiste en representar en el eje de abscisas los diferentes
caracteres cualitativos y levantar sobre cada uno de ellos un rectángulo (de forma no
solapada) cuya altura sea la frecuencia (absoluta o relativa) de dicho carácter. (Alvarez,
R, (2007) "Estadística aplicada en las ciencias de la salud". España.)

Ejemplo 1: diagrama de rectángulos para variables cualitativas.

15
2) Un diagrama muy usado es el diagrama de sectores (también llamado diagrama
de tarta). En él se representa el valor de cada carácter cualitativo como un sector de un
circulo completo, siendo el área de cada sector, o, lo que es lo mismo, el arco
subtendido, proporcional a la frecuencia del carácter en cuestión. De forma practica,
cada arco se calcula como 360º multiplicado por la frecuencia relativa. Es ademas
costumbre escribir dentro, o a un lado, de cada sector la frecuencia correspondiente.
Este tipo de diagrama proporciona una idea visual muy clara de cuales son los
caracteres que mas se repiten. (Alvarez, R, (2007) "Estadística aplicada en las ciencias
de la salud". España.)

Ejemplo 2: Diagrama de sectores para variables cualitativas. (Pie chart de las notas/ notas
de pie)

16
3. Características de una distribución.

17
3. Características de una distribución.

Una distribución describe cómo se distribuyen ciertas características (o datos) en


una población. La distribución normal es el modelo continuo más importante en
estadística, tanto por su aplicación directa (ya que muchas variables de interés general
pueden describirse por dicho modelo), como por sus propiedades, que han permitido el
desarrollo de numerosas técnicas de inferencia estadística. (Murray, R, (1975),
"Probabilidad y estadística").

La distribución normal se trata, pues, de una distribución de probabilidad de una


variable continua. Las variables continuas son aquellas que pueden adoptar cualquier
valor en el marco de un intervalo que ya está predeterminado. Entre dos de los valores,
siempre puede existir otro valor intermedio, susceptible de ser tomado como valor por
la variable continua. Un ejemplo de variable continua más común es el peso (de objetos
y/o corporal)

Algunas de las características que son más representativas de la distribución normal


son:

a) Media y desviación típica: A la distribución normal le corresponde un media cero y


una desviación típica o estándar de uno (1). La desviación típica o estándar indica la
separación que existe entre un valor cualquiera de la muestra y la media.

b) Porcentajes: En una distribución normal, se puede determinar con exactitud qué


porcentaje de los valores estará dentro de cualquier rango específico. Por ejemplo:
Alrededor del 95% de las observaciones está dentro de 2 desviaciones estándar de la
media. El 95% de los valores se ubicará dentro de 1.96 desviaciones estándar con
respecto a la media (entre −1.96 y +1.96). Aproximadamente el 68% de las
observaciones está dentro de una 1 desviación estándar de la media (-1 a +1), y
alrededor del 99.7% de las observaciones estarían dentro de 3 desviaciones estándar
con respecto a la media (-3 a +3).

18
3.1. Medidas de centralización.

La medida de tendencia central, parámetro de una tendencia central o medida de


centralización es un número ubicado hacia el centro de la distribución de los valores de
una serie de observaciones (medidas), en la que se encuentra ubicado el conjunto de
los datos, las medidas de tendencia central más utilizadas son: media, mediana y moda.
(Alvarez, R, (2007) "Estadística aplicada en las ciencias de la salud". España.).

3.1.1. Media aritmética.

Es el parámetro de centralización más utilizado, su valor es el centro aritmético de


los datos. En este texto, cuando se haga referencia a ella se hace denominándola
media, sin el calificativo. Se suele emplear el símbolo "μ" para representar la media
aritmética poblacional y "x" para representar la media aritmética muestral. La media
aritmética es el valor que tendría cada elemento de la serie de datos si todos tuvieran el
mismo valor. La media aritmética se calcula promediando todos los datos:

En la expresión anterior "x", indica el i-ésimo dato; si la suma es desde que "i" es igual
a 1 hasta "n", esto quiere decir la suma de los "n" primeros datos que han sido
seleccionados, el orden en este caso es el de selección no es un orden según el valor
de los datos; aunque el resultado es el mismo sea cual sea el orden de los datos.

La media poblacional se calcula sustituyendo en la expresión anterior "µ" por "x"; y


"N" por "n". En este texto los símbolos "n" y "N" serán utilizados para representar los
tamaños de la muestra y de la población respectivamente. La media aritmética de los
datos 2, 4, 6, 8, y 9, es 5,8.

19
En el caso de datos agrupados en tablas el cálculo no es exacto, y en este caso se
considera que todos los datos correspondientes a una clase tienen el valor de la marca
de su clase. El cálculo de parámetros a partir de tablas se realizaba antes de la
utilización de los medios electrónicos de cálculo, para ahorrar tiempo, aunque se perdía
exactitud. En la actualidad este método de cálculo puede realizarse en el caso de
disponer de una tabla de datos, pero no de los datos originales.

En la fórmula anterior "f" es la frecuencia absoluta de la clase i-ésima, y "x", la marca


de clase de la i-ésima clase. La fórmula también se puede utilizar para calcular la media
aritmética de variables discretas, en este caso "f" es la frecuencia absoluta de la i-ésima
clase que tiene un valor numérico "x", "n" es el número total de observaciones; el
producto de las dos debe ser igual al número total de observaciones.

La expresión anterior también es aplicable en el caso de que haya muchos valores


repetidos, en cuyo caso "f" representa el número de veces que se repite el grupo de
datos i-ésimo según el orden de menor a mayor.

Ejemplo: En una comunidad el número de hijos por pareja viene dado por la tabla
siguiente:

El número medio de hijos por pareja es 2,19.

20
En el caso del ejemplo anterior se trata de la tabulación de una variable aleatoria
discreta.

3.1.2. Mediana.

La mediana de un conjunto de "n" datos ordenados de menor a mayor es el valor


central, es decir, la mediana divide a un conjunto de datos ordenados en dos partes
iguales en cuanto al numero de datos. Sin es impar la mediana es el elemento:

El orden del elemento anterior es en relación a su valor, Si "n" es par, la mediana es la


media aritmética de los dos valores centrales esto es:

Ejemplo: Calcular la mediana de los conjuntos de datos siguientes: 2, 4, 6, 8, 9, 10, 11,


12, 13, 14, 20.

El conjunto de datos anterior tiene un número impar de datos, y el número total de


datos es 11; por lo tanto la mediana es el valor central es decir el sexto M = 10.

El conjunto de datos siguiente: 3, 6, 8, 12, 17, 28, 32, 34, consta de 8 datos, por lo
tanto la mediana es la media aritmética de los dos valores centrales, dichos valores son
el 12 y el 17.

M=14,5

La mediana tiene un sentido geométrico, divide el conjunto de datos ordenados en


dos partes iguales en cuanto al número de datos, por esta circunstancia es menos
sensible que la media aritmética a los valores atípicos, indicando con esta definición a
algún dato que destaca de los demás por ser mucho más pequeño o grande.

21
3.1.3. Moda.

En estadística, la moda es el valor que aparece con mayor frecuencia en un conjunto


de datos. Esto va en forma de una columna cuando encontremos dos modas, es decir,
dos datos que tengan la misma frecuencia absoluta máxima. Una distribución trimodal
de los datos es en la que encontramos tres modas (Murray, R, (1975), "Probabilidad y
estadística"). En el caso de la distribución uniforme discreta, cuando todos los datos
tienen una misma frecuencia, se puede definir las modas como indicado, pero estos
valores no tienen utilidad.

El intervalo modal es el de mayor frecuencia absoluta. La moda, cuando los datos


están agrupados, es un punto que divide al intervalo modal en dos partes de la forma 'p"
y "c-p", siendo "c" la amplitud del intervalo, que verifiquen que:

La moda poblacional de una distribución de probabilidad discreta es el valor en el


que la función de masa de probabilidad alcanza su valor máximo. En otras palabras, es
el valor que tiene más probabilidades de ser muestreado. La moda poblacional de una
distribución de probabilidad continua es el valor en el que la función de densidad de
probabilidad alcanza el valor máximo. En otras palabras, es el valor que se encuentra en
el pico. La moda poblacional tampoco es necesariamente única, ya que la función de
masa de probabilidad o la función de densidad de probabilidad pueden tener el mismo
valor máximo en varios puntos (Murray, R, (1975), "Probabilidad y estadística")

Según la definición anterior, los máximos globales son modas. Cuando una función
de densidad de probabilidad tiene varios máximos locales, es común referirse a todos
los máximos locales como modos de la distribución. Una distribución continua de este
tipo se denomina multimodal (por oposición a unimodal). En las distribuciones
unimodales simétricas, como la distribución normal o la distribución de Gauss (una
distribución cuya función de densidad de probabilidad forma la curva en forma de

22
campana cuando se representa gráficamente), la media, la mediana y la moda
coinciden. En muestras extraídas de distribuciones simétricas, la media puede ser el
Estimador de la moda de la población. Es importante recordar que el valor expresado
como mayoritario en un conjunto de datos no representa necesariamente el valor de la
moda estadística.

3.1.4. Cuartiles, Deciles y Percentiles.

Cuartiles: Los cuartiles dividen al conjunto de datos en cuatro partes iguales en


cuanto al número de datos, en cada una de ellas hay un 25% de los datos. En caso de
que el número de datos no sea divisible por cuatro, los grupos no podrán tener todos
exactamente el mismo número de datos. (Alvarez, R, (2007) "Estadística aplicada en las
ciencias de la salud". España.).

____________________________________________________________

25% Q1. 25% Q 2 25% Q3 25%

Menor o igual que el primer cuartil, "Q₁"están el 25% de los datos y mayor que el "Q1"el
75% de los datos.

________________________________________

25% Q1. 75%

El segundo cuartil coincide con la mediana "M=Q" y por lo tanto tiene sus mismas
propiedades. Menor o igual que el "Q3" están el 75% de los datos, y mayor que el "Q3"el
25% de los datos

____________________________

25% Q3. 25%

La diferencia entre los cuartiles tercero y primero es el recorrido intercuartílico:


"RI = Q3 - Q1" entre el "Q₂" y el "Q1" están el 50% de los datos centrales. Las siglas

23
inglesas del recorrido intercuartílico son "IQR". Por ejemplo, si el tercer cuartil de un
conjunto de tallas correspondientes a un grupo de personas es 175, y el primer cuartil
152, el recorrido intecuartílico RIC = 175 15223 cm; en 23 cm están el 50% de los datos
centrales.

Ejemplo: Calcular el primer cuartil de los datos 2, 3, 5, 6, 7, 8, 9 y 10; la posición se


calcula mediante la fórmula anterior, el primer cuartil es el percentil 25, dividiendo por
100 es 0,25, como hay 8 datos "n" es igual a 8 y la posición para el primer cuartil es 0,25
(8+1) 2,25, esto quiere decir que el primer cuartil es un punto situado en- tre el segundo
y el tercer dato, porque la posición es mayor de 2, la parte decimal, 0,25, indica que está
a un cuarto de la distancia entre el segundo y el tercer dato entre 3 y 5, la diferencia
entre los dos datos es de dos unidades, y la cuarta parte de la diferencia es 0,5, por lo
tanto el valor del primer cuartil es 3,5. Observe la diferencia entre la posición y el valor
del primer cuartil.

Deciles: Los deciles son medidas de dispersión que dividen el conjunto de datos en
10 partes iguales en cuanto al número de datos. En cada una de ellas hay un 10% de los
datos. Entre dos deciles consecutivos hay un 10% de los datos. (Alvarez, R, (2007)
"Estadística aplicada en las ciencias de la salud". España.).

10% 10% 10% 10% 10% 10% 10% 10% 10% 10%
_______________________________________________________________________________
D1 D2 D3 D4 D5 D6 D7 D8 D9

El primer decil "D1" divide el conjunto de datos en dos partes, menor o igual que el
están el 10% de los datos y mayor que él el 90% de los datos. El segundo decil "D2"
divide el conjunto de datos en dos partes, menor o igual que él quedan el 20% de los
datos y mayor el 80%, y así sucesivamente con el resto de los deciles.

El cálculo de la posición de deciles a partir de un grupo de datos ordenados se


calcula aplicando la fórmula comentada en el apartado correspondiente a los cuartiles

24
"P (n + 1)". Por ejemplo, el tercer decil es el percentil 30; en la fórmula en lugar de "P" se
pondría 0,30.

El cálculo de los deciles a partir de datos tabulados se realiza siguiendo las


siguientes expresiones:

Dónde:

Dk: k-ésimo decil.

Lk: Límite inferior de la clase que incluye al dato kn/10.

Fk-1: Frecuencia absoluta acumulada de la clase anterior, que incluye a kn/10.

fk: Frecuencia absoluta de la clase que incluye al dato kn/10.

IC: Intervalo de la clase que incluye al dato kn/10

Percentiles: Otras medidas de dispersión muy utilizadas cuando el número de los


datos es muy grande son los percentiles. Los percentiles son 99 y dividen al conjunto
de datos en 100 partes iguales en cuanto al número de datos, en cada parte hay el 1%
de los datos. Entre dos percentiles consecutivos están el 1% de los datos. Menor o igual
que el primer percentil hay un 1% de los datos y mayor que él el 99%. Menor o igual que
el segundo percentil están el 2% de los datos y mayor que él el 98%, y así
sucesivamente con el resto de los percentiles. (Alvarez, R, (2007) "Estadística aplicada
en las ciencias de la salud". España.).

1%|. |1%

_____________________________

P1 P99

El cálculo de la posición y del valor de percentiles a partir de un grupo de datos


ordenados se realiza a partir de la fórmula comentada en el apartado correspondiente a

25
los cuartiles. El cálculo de los percentiles a partir de datos tabulados se realiza
siguiendo la siguiente expresión:

Dónde:

Pk: k-ésimo percentil.

Lk: Límite inferior de la clase que incluye al dato kn/100.

Fk-1: Frecuencia absoluta acumulada de la clase anterior que incluye a kn/100.

fk: frecuencia absoluta de la clase que incluye al dato kn/100.

IC: Longitud del intervalo de la clase que incluye al elemento kn/100.

3.2. Medidas de dispersión.

Las medidas de dispersión dan información sobre el grado de variabilidad de una


variable estadística. Esto se consigue a través de diferentes fórmulas que nos dan un
valor numérico para valorar el grado de dispersión. (Murray, R, (1975), "Probabilidad y
estadística"). En otras palabras, las medidas de dispersión son números que indican si
una variable se mueve mucho, poco, más o menos que otra. La razón de ser de este
tipo de medidas es conocer de manera resumida una característica de la variable
estudiada. Las medidas de dispersión más conocidas son: el rango (recorridos), la
varianza, la desviación típica y el coeficiente de variación (no confundir con coeficiente
de determinación).

3.2.1. Rango.

Rango o recorrido de una variable se refiere a la diferencia entre el valor máximo y el


valor mínimo de los datos observados. Este parámetro informa sobre el recorrido de la
variable, pero es una visión que en ciertos casos aporta poca información e incluso

26
puede ser engañosa, si alguno de los datos extremos está muy desviado del resto de
los datos. Para tener una visión realista de los datos, el rango debe ser evaluado junto a
otras medidas de dispersión.

El rango es un parámetro que ya ha sido utilizado en la construcción de tablas para


datos cuantitativos.

R = Máxx– Mínx

Dónde:

R: Es el rango

Máx: Es el valor máximo de la muestra o población.

Mín: Es el valor mínimo de la muestra o población estadística.

X: Es la variable sobre la que se pretende calcular esta medida.

Ejemplo: En la medida de la presión arterial sistólica en milímetros de mercurio en un


grupo de pacientes se obtienen los siguientes resultados: 120, 135, 160, 100, 155, 115,
165, 125, 130. Calcular el rango.

Máximo 165. Mínimo 100. Rango = 165 100 = 65

Esto indica que en un intervalo de 65 milímetros de mercurio están todos los valores
observados.

3.2.2. Varianza.

La varianza es una medida de dispersión que representa la variabilidad de una serie


de datos respecto a su media. Formalmente se calcula como la suma de los residuos al
cuadrado divididos entre el total de observaciones, entendiendo como residuo a la
diferencia entre el valor de una variable en un momento y el valor medio de toda la
variable. (López, J, F, (15 de febrero, 2019), Medidas de dispersión: Qué son, para qué
sirven y fórmulas. [Link]).

27
La varianza es una forma de entender cuánto se alejan algunos valores del promedio
de un grupo de ellos. Por ejemplo, imagina que tienes una lista de números que
representan los precios de algunos pisos de tu barrio. La varianza te ayuda a ver si los
precios están muy dispersos o no. Si todos están cerca del promedio, la varianza será
baja, pero si están muy esparcidos, la varianza será alta.

Dónde:

X: Variable sobre la que se pretenden calcular la varianza

xi: Observación número i de la variable X. i puede tomará valores entre 1 y n.

n: Número de observaciones.

x̄ : Es la media de la variable X.

También se puede representar de esta manera, siendo lo mismo:

3.2.3. Desviación típica.

La desviación típica, más comúnmente conocida como desviación estándar, es una


forma de medir cuánto se alejan los valores en un conjunto de datos de la media (el
valor promedio). Siempre es mayor o igual que cero. Para entender algo mejor qué es
la desviación estándar, tienes que saber que es una medida que nos dice cuánto se
alejan algunos datos de su media (López, J, F, (15 de febrero, 2019), Medidas de
dispersión: Qué son, para qué sirven y fórmulas. [Link]).

Por ejemplo, un bol de frutas, se necesita saber si el tamaño de las manzanas es

28
casi igual entre ellas o no. En este caso, la desviación estándar indica si son parecidas,
o si algunas son más grandes o pequeñas que la media. Si la desviación es baja, los
datos estarán más cerca de la media, no obstante, si es alta, los datos serán diferentes.

Por tanto, la desviación estándar nos sirve para saber si un grupo de datos es más
parecido, o por el contrario son más dispersos entre ellos.

Para calcular una desviación típica se puede realizar por medio de fórmulas. La
primera es elevando al cuadrado las desviaciones, dividir entre el número total de
observaciones y por último hacer la raíz cuadrada para deshacer el elevado al cuadrado,
tal que:

Dónde:

X: Variable.

Xi: Observación número i de la variable X.

N: Número de observaciones.

x̄ : Es la media de la variable X.

Alternativamente existiría otra forma de calcularla. Sería haciendo un promedio de la


suma de los valores absolutos de las desviaciones. Es decir, aplicar la siguiente fórmula:

Sin embargo, esta fórmula no es una alternativa de la desviación típica pues arroja
diferentes resultados. En realidad, la fórmula anterior es la desviación respecto de la

29
media. La desviación estándar o típica y la desviación respecto de la media tienen
similitudes pero no son lo mismo. A esta última forma se le conoce como desviación
media.

3.2.4. Coeficiente de variación.

El coeficiente de variación, también denominado como coeficiente de variación de


Pearson, es una medida estadística que nos informa acerca de la dispersión relativa de
un conjunto de datos. Su cálculo se obtiene de dividir la desviación típica entre el valor
absoluto de la media del conjunto y por lo general se expresa en porcentaje para su
mejor comprensión. (López, J, F, (15 de febrero, 2019), Medidas de dispersión: Qué son, para
qué sirven y fórmulas. [Link]).

Dónde:

X: Variable sobre la que se pretenden calcular la varianza

σx: Desviación típica de la variable X.

| x̄ | : Es la media de la variable X en valor absoluto con x̄ ≠0

Dicho de una manera más sencilla, el coeficiente de variación es una herramienta


estadística que nos ayuda a entender qué tan dispersos están los datos en un grupo. Es
decir, qué tan alejados están unos de otros en relación a un punto central, que
usualmente es el promedio o media de esos datos.

Por ejemplo, se tiene un conjunto de números que se necesita analizar. Este


coeficiente nos dice, si estos números están muy esparcidos unos de otros o si están
más bien agrupados.

30
Conclusión.

La organización y representación gráfica de datos estadísticos es fundamental para


comprender y comunicar información relevante. La estadística descriptiva se puede
analizar a través de descripciones gráficas (tabulaciones o representaciones gráficas) y
descripciones numéricas (medidas calculadas con los datos muestrales).

La representación gráfica de datos estadísticos es crucial para mostrar visualmente


la evolución de variables en comparación con otras, permitiendo interpretar, comparar y
presentar los datos de forma visual, atractiva y comprensible para los lectores y
usuarios.

No obstante, procesos de medición de los datos no siempre son concluyentes. Es


importante señalar que el objetivo principal de la organización de los datos es indicar
las propiedades de los mismos conociendo además sus particularidades. Se pueden
realizar análisis exploratorios y análisis clásicos, que utilizan diagramas, medidas
simples, tablas y estadígrafos para analizar los datos. Actualmente existen diferentes
tipos de representaciones gráficas, como histogramas, polígonos de frecuencias, ojivas
y gráficas de barras, que son útiles para visualizar y comprender la distribución de los
datos de una manera más sencilla y precisa.

En resumen, la organización y representación gráfica de datos estadísticos es


esencial para comprender, analizar y comunicar información de manera efectiva,
utilizando herramientas visuales que facilitan la interpretación de los datos.

31
Bibliografía.

 Alvarez, R, (2007) "Estadística aplicada en las ciencias de la salud". (Libro

recuperado de internet) Disponible en: http: [Link]ística aplicada en las

ciencias de la [Link]

 López, J, F, (15 de febrero, 2019), Medidas de dispersión: Qué son, para qué

sirven y fórmulas. [Link].

 Murray, R, (1975), "Probabilidad y estadística. (Libro recuperado de internet)

Disponible en: http: [Link]ística aplicada en las ciencias de la [Link]

32
Anexos.

33

También podría gustarte