0% encontró este documento útil (0 votos)
23 vistas13 páginas

Mu - Big-Dat - CF03 Ua1 T03

estadistica

Cargado por

100347749
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
23 vistas13 páginas

Mu - Big-Dat - CF03 Ua1 T03

estadistica

Cargado por

100347749
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Estadística

Organización de datos. Tablas


Estadística
Organización de datos. Tablas
Índice

Presentación .............................................................................. 3
1. Definiciones de estadística descriptiva ............................................ 4
2. Variables y atributos ................................................................. 4
2.1. Variable ..................................................................................... 4
2.2. Atributo ..................................................................................... 5
3. Distribución unidimensional de frecuencias ...................................... 5
4. Tablas de frecuencias de una variable discreta .................................. 6
5. Tablas de frecuencias de una variable continua ................................. 7
6. Los cuantiles ........................................................................... 7
7. Distribuciones estratificadas ........................................................ 8
8. Un ejemplo conocido ................................................................. 9
Resumen .................................................................................. 11
Referencias bibliográficas ............................................................. 12

© Copyright Universidad Europea de Madrid. Todos los derechos reservados. 2


Estadística
Organización de datos. Tablas

Presentación
Una larga lista de datos desordenados, eso es lo que en general obtenemos de las
máquinas, medidores y fuentes que utilizamos para obtener información acerca de
cualquier tema que estudiemos.

Pero una larga lista de datos desordenados no sirve para nada. Nos aporta poca
información a primera vista, y en análisis más profundo nos abruma.

Para solventar esto están los sistemas de tabulación estadística que nos enseñan a
resumir de forma sistemática estos datos, dándonos como resultado versiones digeridas
y razonadas de los mismos, de los que ya podremos extraer resultados y conclusiones
con mayor facilidad.

En este tema aprenderás a:

• Organizar los datos según sus frecuencias relativas y absolutas.

• Familiarizarte con los tipos de variables, discretas y continuas que existen en


estadística.

• Comprender el concepto de cuantil y a manejar sus dos subconceptos


principales, el cuartil y el percentil.

• Y mucho más.

© Copyright Universidad Europea de Madrid. Todos los derechos reservados. 3


Estadística
Organización de datos. Tablas

1. Definiciones de estadística descriptiva

La estadística descriptiva es la parte de la estadística que se encarga de


dar una descripción numérica, ordenar y simplificar un conjunto de datos
que provienen de la observación de un fenómeno.

Las medidas de centralidad y dispersión se incluyen dentro del ámbito de la


descriptiva y le son herramientas fundamentales para poder llevar a cabo su función.

Tabla 1. Definiciones. Fuente: Elaboración propia

Población Muestra
Es un subconjunto de elementos de una
población. El número de elementos de
Es el conjunto de referencia sobre el que una muestra se llama tamaño muestral y
recaen las observaciones. Los elementos se suele representar con la letra n. Son
se llaman individuos. Pueden ser finitas de interés aquellas muestras que sean
o infinitas. representativas de la población.
Por ejemplo, si estuviésemos llevando a Por ejemplo, en el estudio anterior no es
cabo un estudio estadístico de mercado viable sondear a la totalidad de la
en España, la población podría población acerca de sus hábito de
considerarse el conjunto de los consumo. En lugar de eso se escogen
españoles. muestras representativas y se trata de
extrapolar los resultados muestrales al
conjunto de la población.

2. Variables y atributos

2.1. Variable

Una variable es cualquier característica de una población susceptible de tomar valores


numéricos. Se denota, en general, con una letra del alfabeto latino en mayúsculas,
por ejemplo X o Y.

Un ejemplo de variable puede ser el tiempo que tarda un estudiante en leer un


enunciado de cinco líneas. La variable se puede representar por la letra T y se mide
en unidades de tiempo, segundos (s).

Las variables pueden ser:

a. Discretas. Si toman un número finito de valores dentro de un intervalo.


Generalmente representado por un número natural. Por ejemplo, si
consideramos la variable “hijos en una familia”, los valores de la variable

© Copyright Universidad Europea de Madrid. Todos los derechos reservados. 4


Estadística
Organización de datos. Tablas
pueden ser 1, 2, 3 o incluso 5, pero nunca 2’5. Porque únicamente se puede
hablar de un número natural de hijos.

b. Continuas. Si toman un número infinito de valores en un intervalo finito en el


que están definidos. Generalmente representado por un número real. Por
ejemplo, si consideramos el tiempo que tarda en cruzar la calle una persona.
Porque se pueden utilizar tantos decimales no nulos como se desee.

2.2. Atributo

Un atributo es una característica de la población que no es susceptible de ser medida


numéricamente. Un ejemplo de atributo pueden ser los colores de los coches.

3. Distribución unidimensional de frecuencias


Sea una población determinada y una característica de la misma representada por una
variable X.

Frecuencia absoluta. La frecuencia absoluta de un valor Xi es el número de veces que


se presenta dicho valor en el conjunto de las observaciones. Se representa mediante
ni.

∑ 𝑛𝑖 = 𝑛
∀𝑖

Donde n es el tamaño muestral o número de observaciones.

Frecuencia relativa. La frecuencia relativa de un valor Xi es el cociente entre la


frecuencia absoluta y el número total de observaciones. Se representa mediante fi.
𝑛𝑖
𝑓𝑖 =
𝑛

Frecuencia acumulada absoluta. La frecuencia acumulada absoluta de un valor Xi es


la suma de las frecuencias absolutas de todos los valores iguales o menores que él. Se
usa la notación Ni para representarla.
𝑘

𝑁𝑘 = ∑ 𝑛𝑖 = 𝑛1 + 𝑛2 + ⋯ + 𝑛𝑘
𝑖=1

Frecuencia acumulada relativa. La frecuencia acumulada relativa de un valor Xi es la


suma de las frecuencias relativas de todos los valores iguales o menores que él. Se usa
la notación Fi para representarla.

© Copyright Universidad Europea de Madrid. Todos los derechos reservados. 5


Estadística
Organización de datos. Tablas
𝑘

𝐹𝑘 = ∑ 𝑓𝑖 = 𝑓1 + 𝑓2 + ⋯ + 𝑓𝑘
𝑖=1

Propiedades de las frecuencias

• fi vale como mínimo 0.


• fi vale como máximo 1.

4. Tablas de frecuencias de una variable discreta


Una tabla de frecuencias de una variable discreta es un cuadro en el que se recogen
los valores de la variable con sus frecuencias correspondientes.

En el siguiente ejemplo se ha confeccionado una breve tabla con los hijos por familia
de una muestra de 26 familias tomada en Cáceres (Extremadura) en el año 1998, donde
n=26.

Tabla 2. Número de hijos por familia en una muestra de 26 (Cáceres-98). Fuente: Elaboración propia

Xi ni fi Ni Fi
0 10 0,38 10 0,38
1 3 0,12 13 0,50
2 6 0,23 19 0,73
3 3 0,12 22 0,85
4 2 0,08 24 0,92
5 1 0,04 25 0,96
6 1 0,04 26 1,00

• Fíjate en que cada elemento de la tercera columna es el cociente de los


elementos de la segunda con el total de observaciones. Por ejemplo, en la
cuarta fila 0,12=3/26. Todos los elementos de la tercera columna se encuentran
entre 0 y 1.

• Los elementos de la cuarta y quinta columna se obtienen de la suma acumulada


de los elementos de la segunda y tercera columna respectivamente. Por
ejemplo, el cuarto elemento de Ni, 22 se obtiene sumando los cuatro primeros
elementos de ni: 10+3+6+3=22.

© Copyright Universidad Europea de Madrid. Todos los derechos reservados. 6


Estadística
Organización de datos. Tablas
Para saber si una tabla de frecuencias está bien elaborada, la columna de frecuencias
absolutas acumuladas (la Ni) tiene que acabar en el número total de observaciones (n);
y la columna de frecuencias relativas acumuladas (la Fi) tiene que acabar en 1.

5. Tablas de frecuencias de una variable continua

Las tablas de frecuencias de variables continuas (o de discretas con un


número muy elevado de valores) se representan mediante agrupaciones de
variables.

En la primera columna se representan las franjas de agrupación o clases. Estas clases


son generalmente de tamaños regulares para favorecer las comparaciones.

La siguiente columna se suele destinar a los centros de cada uno de los intervalos
anteriores. Estos centros se llaman marcas de clase y se calculan como la media del
límite inferior y superior de cada clase:

𝐿𝑖 − 𝐿𝑖 − 1
𝑋𝑖 =
2

De esta forma se logra discretizar la variable continua, tratando la tabla de ahí en


adelante como si se tratase de la tabla de una variable discreta cuyos valores de
variable fuesen las marcas de clase.

Como ejemplo se ha utilizado este conjunto de datos de las edades de los 90 empleados
de la empresa acerera española Feinosa en el año 2009, donde n=90.

Tabla 3. Edades de empleados en Feinosa (Madrid – Sept 09). Fuente: Elaboración propia

Li-1 - Li Xi ni fi Ni Fi
20 - 30 25 22 0,24 22 0,24
30 - 40 35 48 0,53 70 0,78
40 - 50 45 10 0,11 80 0,89
50 - 60 55 8 0,09 88 0,98
60 - 70 65 2 0,02 90 1,00

6. Los cuantiles
Si disponemos los valores de la variable ordenados de menor a mayor, los cuantiles son
los valores que dividen la distribución en intervalos de forma que tengan ellos la misma
frecuencia.

© Copyright Universidad Europea de Madrid. Todos los derechos reservados. 7


Estadística
Organización de datos. Tablas
Reciben distintos nombres según sea el número de dichos intervalos. Así:

• Cuartiles. Si el número de intervalos es 4.

• Quintiles. Si el número de intervalos es 5.

• Deciles. Si el número de intervalos es 10.

• Percentiles. Si el número de intervalos es 100.

De todos los cuantiles, los más utilizados son los cuartiles y los percentiles.

Los cuartiles suelen representarse con la letra Qi, de forma que:

a. Q1 es el primer cuartil. Es el valor por debajo del cual se encuentran el 25 % de


los datos.

b. Q2 es el segundo cuartil. Es el valor por debajo del cual se encuentran el 50 %


de los datos. Coincide con el valor de la mediana.

c. Q3 es el tercer cuartil. Es el valor por debajo del cual se encuentran el 75 % de


los datos.

De igual manera, los percentiles se suelen representar con la letra Pi, de forma que
para Pk, el k % de los datos de la distribución se encuentran por debajo de ese valor.

Por ejemplo, en maternidad le suelen indicar a los padres de un neonato en qué


percentil de peso se encuentra este para tener una referencia de su tamaño frente a
la norma. Si un bebé está en el percentil 97, significa que el 97 % de los recién nacidos
pesan menos que él, es decir que únicamente un 3 % de los neonatos le superan en
peso.

7. Distribuciones estratificadas
Si una población o muestra se divide en estratos, el cálculo de la media y la varianza
se realiza de la siguiente forma:

Vamos a realizar el caso de tres grupos que luego es fácilmente


extrapolable a más.

Grupo n media varianza


A nA 𝑥̅𝐴 𝜎𝐴2
B nB 𝑥̅𝐵 𝜎𝐵2
C nC 𝑥̅𝐶 𝜎𝐶2

© Copyright Universidad Europea de Madrid. Todos los derechos reservados. 8


Estadística
Organización de datos. Tablas
Las v de cada estratorianzas se calculan:

∑∀𝑖(𝑥𝑖2 )
𝜎𝐴2 = = (𝑥̅𝐴 )2 = (𝛼2 )𝐴 − (𝑥̅𝐴 )2
⏟ 𝑛𝐴
(𝛼2 )𝐴

∑∀𝑖(𝑥𝑖2 )
𝜎𝐵2 = = (𝑥̅𝐵 )2 = (𝛼2 )𝐵 − (𝑥̅𝐵 )2
⏟ 𝑛𝐵
(𝛼2 )𝐵

∑∀𝑖(𝑥𝑖2 )
𝜎𝐶2 = = (𝑥̅𝐶 )2 = (𝛼2 )𝐶 − (𝑥̅𝐶 )2
⏟ 𝑛𝐶
(𝛼2 )𝐶

A partir de estas se puede calcular el momento de segundo orden total. Con el


momento de segundo orden total se pueden obtener la media y la varianza totales.

Momento de segundo orden total

𝑛𝐴 (𝛼2 )𝐴 + 𝑛𝐵 (𝛼2 )𝐵 + 𝑛𝐶 (𝛼2 )𝐶


(𝛼 2 ) 𝑇 =
𝑛𝐴 + 𝑛𝐵 + 𝑛𝐶

La media y la varianza totales

𝑛𝐴 𝑥̅𝐴 + 𝑛𝐵 𝑥̅𝐵 + 𝑛𝐶 𝑥̅𝐶


𝑥̅ 𝑇 =
𝑛𝐴 + 𝑛𝐵 + 𝑛𝐶

𝜎𝑇2 = (𝛼2 ) 𝑇 − (𝑥̅ 𝑇 )2

8. Un ejemplo conocido
Aprovechemos ahora lo que hemos aprendido y montemos la tabla de frecuencias de
los datos de temperaturas de Los Monegros con la que hemos estado trabajando en
temas anteriores. Recordemos la tabla.

Tabla 4. Temperatura media diaria para los laborables de junio 2007 – Targón (Desierto de los Monegros).
Fuente: Elaboración propia

Temperaturas medidas en ºC
33 32 35 27 33 30 28
31 30 28 40 37 35 40
26 37 27 32 38 38 26

© Copyright Universidad Europea de Madrid. Todos los derechos reservados. 9


Estadística
Organización de datos. Tablas
Si ordenamos los datos de menor a mayor y omitimos los repetidos, obtendríamos un
total de 11 variables que van desde el 26 hasta el 40. Indicamos al lado el número de
repeticiones de cada variable (frecuencia absoluta). Dividamos ahora esa frecuencia
absoluta por el número total de observaciones (21) y obtendremos las frecuencias
relativas.

Las sumas acumuladas de ambos tipos de frecuencias completarán la tabla que quedará
del siguiente modo (n=21):

Xi ni fi Ni Fi
26 2 0,095 2 0,10
27 2 0,095 4 0,19
28 2 0,095 6 0,29
30 2 0,095 8 0,38
31 1 0,048 9 0,43

Xi ni fi Ni Fi
32 2 0,095 11 0,52
33 2 0,095 13 0,62
35 2 0,095 15 0,71
37 2 0,095 17 0,81
38 2 0,095 19 0,90
40 2 0,095 21 1

¿Serías capaz de hacer una igual?

© Copyright Universidad Europea de Madrid. Todos los derechos reservados. 10


Estadística
Organización de datos. Tablas

Resumen
Población es el conjunto de referencia sobre el que recaen las observaciones. Los
elementos se llaman individuos. Pueden ser finitas o infinitas.

Muestra es un subconjunto de elementos de una población. El número de elementos


de una muestra se llama tamaño muestral y se suele representar con la letra n. Son de
interés aquellas muestras que sean representativas de la población.

Una variable es cualquier característica de una población susceptible de tomar valores


numéricos. Se denota, en general, con una letra del alfabeto latino en mayúsculas,
por ejemplo X o Y. Pueden ser: variables discretas (si toman un número finito de
valores dentro de un intervalo, generalmente representado por un número natural) o
variables continuas (si toman un número infinito de valores en un intervalo finito en
el que están definidos, generalmente representado por un número real).

La frecuencia absoluta de un valor Xi es el número de veces que se presenta dicho


valor en el conjunto de las observaciones. Se representa mediante ni; y la frecuencia
relativa de un valor Xi es el cociente entre la frecuencia absoluta y el número total de
observaciones. Se representa mediante fi.

La frecuencia acumulada absoluta/relativa de un valor Xi es la suma de las frecuencias


absolutas/relativas de todos los valores iguales o menores que él. Se usa la notación
Ni/ Fi para representarla.

Los cuantiles son los valores que dividen la distribución en intervalos de forma que
tengan ellos la misma frecuencia. Se llaman cuartiles si el número de intervalos es
cuatro y percentiles si el número de intervalos es cien.

© Copyright Universidad Europea de Madrid. Todos los derechos reservados. 11


Estadística
Organización de datos. Tablas

Referencias bibliográficas
D. C. Montgomery Y G.C. Runger (1996). Probabilidad y estadística aplicadas a la
ingeniería. México: McGraw–Hil.

D. Peña Sánchez de Rivera (1999). Estadística: modelos y métodos (2ª ed). Madrid:
Alianza.

J. L. Devore (1998). Probabilidad y estadística para ingeniería y ciencias. México:


International Thompson Editores.

J. de la Horra Navarro (1995). Estadística aplicada. Madrid: Díaz de Santos

Ruiz Maya, Martín Pliego (2001). Estadística I: probabilidad. Madrid: Editorial AC.

Ruiz Maya, Martín Pliego (2001). Estadística II: inferencia. Madrid: Editorial AC.

T. H. Wonnacott, R. J. Wonnacott (1997). Introducción a la estadística (2ª ed.).


México: Limusa.

© Copyright Universidad Europea de Madrid. Todos los derechos reservados. 12


Estadística
Organización de datos. Tablas

© Todos los derechos de propiedad intelectual de esta


obra pertenecen en exclusiva a la Universidad Europea
de Madrid, S.L.U. Queda terminantemente prohibida la
reproducción, puesta a disposición del público y en
general cualquier otra forma de explotación de toda o
parte de la misma.

La utilización no autorizada de esta obra, así como los


perjuicios ocasionados en los derechos de propiedad
intelectual e industrial de la Universidad Europea de
Madrid, S.L.U., darán lugar al ejercicio de las acciones
que legalmente le correspondan y, en su caso, a las
responsabilidades que de dicho ejercicio se deriven.

© Copyright Universidad Europea de Madrid. Todos los derechos reservados. 13

También podría gustarte