0% encontró este documento útil (0 votos)
24 vistas22 páginas

Tema1 Grado

Este documento introduce conceptos básicos de estadística como población, muestra, variables, atributos y frecuencias. Explica que la estadística se divide en descriptiva e inferencial. La descriptiva resume y analiza datos para describir características de una población, mientras que la inferencial realiza inferencias sobre una población basada en una muestra. También define variables cuantitativas y cualitativas, y sus diferentes tipos, así como cómo calcular y representar frecuencias absolutas, relativas y acumuladas en tablas

Cargado por

Daniel
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
24 vistas22 páginas

Tema1 Grado

Este documento introduce conceptos básicos de estadística como población, muestra, variables, atributos y frecuencias. Explica que la estadística se divide en descriptiva e inferencial. La descriptiva resume y analiza datos para describir características de una población, mientras que la inferencial realiza inferencias sobre una población basada en una muestra. También define variables cuantitativas y cualitativas, y sus diferentes tipos, así como cómo calcular y representar frecuencias absolutas, relativas y acumuladas en tablas

Cargado por

Daniel
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

TEMA 1. Series Estadı́sticas.

Resúmenes numéricos y gráficos

1. Definición de Estadı́stica
En sus orı́genes, el objetivo principal de la Estadı́stica era recopilar datos demográficos, sociológicos
y económicos.
La recopilación de datos y la elaboración de estadı́sticas es una actividad antiquı́sima, y surge como
fruto del interés de los gobiernos por conocer los recursos de los que podı́an disponer para la ejecución
de determinados proyectos.
La palabra Estadı́stica fue utilizada por primera vez en Alemania hacia mediados del siglo XVII, y
se referı́a a la recopilación de datos y documentos útiles para la administración del Estado, aunque
incluso en tiempos anteriores al Imperio Romano, ya se habı́an enumerado o contado las riquezas,
los soldados, los navı́os, las rentas públicas, los habitantes, etc. La raı́z “status”(estado de las cosas)
justifica ası́ la palabra Estadı́stica.
Debido al gran avance de la ciencia, los objetivos iniciales se han ampliado y se recogen en la siguiente
definición:

La Estadı́stica es la ciencia que trata de la teorı́a y la aplicación de métodos apropiados


para coleccionar, representar, resumir datos, analizarlos y hacer inferencias a partir de
ellos.

En la definición de Estadı́stica se distinguen dos partes fundamentales:

Recogida y análisis de datos para dar una descripción de las caracterı́sticas estudiadas sobre un
conjunto de individuos, deduciéndose conclusiones sobre su estructura y las relaciones existentes
con otros colectivos con los cuales se compara.
El conjunto de esta técnicas recibe el nombre de Estadı́stica Descriptiva, que constituye el
contenido de los bloques 1 y 3 de esta asignatura.

Realización de inferencias sobre las caracterı́sticas poblacionales a partir del estudio de un


subconjunto de la población o muestra.
Este es el objetivo de la Estadı́stica inductiva o inferencial, que basándose en el Cálculo de
Probabilidades, infiere, induce o estima leyes generales sobre el comportamiento de la población.
El Cálculo de Probabilidades se estudia en el bloque 2 de la asignatura.

2. Conceptos generales
POBLACIÓN: conjunto de elementos al que está referida la investigación y del que se extraen los
datos.

1
UNIDAD ESTADÍSTICA o INDIVIDUO: cada uno de los elemento que componen la pobla-
ción. Es un ente observable que no tiene por qué ser una persona; puede ser un objeto o incluso
algo abstracto.

CENSO: examen de todos los individuos que componen la población.

MUESTRA: subconjunto de elementos de la población.

CARÁCTER: cualidad o propiedad observable en un individuo.

MODALIDAD: diferentes situaciones posibles o variantes del propio carácter.

Ejemplo 2.1 Población: Conjunto de ordenadores de los laboratorios de la ETSII.


Caracteres: Sistema operativo, velocidad del procesador (GHz), memoria RAM (Gb.)
Modalidades: { Windows, Linux, MacOS, . . . }, { 2.4, 2.8,3.1,3.6. . . }, { 1, 2, 4, 8, 16, 32, 64,.... . . }

3. Tipos de caracteres
CUANTITATIVOS se pueden medir o cuantificar.

CUALITATIVOS no se pueden medir.

• Los caracteres cuantitativos se denominan variables. A cada modalidad se le asigna un número


real denominado valor. Pueden ser de dos tipos:

(a) Variables discretas: entre dos valores consecutivos, la variable no puede tomar otro valor.
Ejemplo: Número de núcleos del procesador, Número de puertos USB.

(b) Variables continuas: entre dos valores cualesquiera, la variable puede tomar infinitos valores.
Ejemplo: Tiempo de arranque, Temperatura del procesador.

• Los caracteres cualitativos se denominan atributos, y pueden ser de dos tipos:

(a) Nominales: dadas dos o más modalidades sólo podemos comprobar si son distintas o no.
Ejemplo: Sistema Operativo: Windows 7, Ubuntu, Redhat, Mac OS, Debian, Windows 10

(b) Ordinales: dadas dos o más modalidades no solo podemos comprobar si son distintas o no,
sino que también se puede establecer un orden.
Ejemplo: Tipo de procesador Intel Core: i3, i5, i7

4. Frecuencias absolutas, relativas y acumuladas


El primer paso en el estudio estadı́stico descriptivo de un conjunto de datos será obtener tablas u
otros tipos de esquemas que permitan resumir y ordenar dichos datos, facilitando ası́ su análisis
posterior. Para ello, necesitamos introducir el concepto de frecuencia absoluta, relativa y acumulada.

2
Consideremos una población o muestra compuesta por n individuos, sobre los que se observa el
carácter X, teniendo ası́ n datos: x1 , x2 , ...., xn .
Sean x1 , . . . , xk las k modalidades distintas observadas (aunque empleemos la misma notación, no
tienen por qué coincidir con las modalidades observadas sobre los k primeros individuos). Si X es
una variable o un atributo ordinal, entonces supondremos x1 , . . . , xk ordenados en sentido creciente,
es decir, x1 < . . . < xk .
La frecuencia (absoluta) de xi , que denotaremos ni , es el número de veces que se observa dicha
modalidad. Se tiene que
k
X
ni = n.
i=1

La frecuencia relativa de xi , que denotaremos fi , es la proporción de individuos que presentan esta


modalidad, es decir,
ni
fi = , 1 ≤ i ≤ k.
n
Se tiene que
k
X
fi = 1.
i=1
La frecuencia relativa se suele en representar %, lo que se denomina porcentaje.
Los siguientes conceptos sólo tienen sentido para variables y atributos ordinales.
La frecuencia (absoluta) acumulada de xi , que denotaremos Ni , es el número de observaciones
con valor menor o igual que xi ,
i
X
Ni = nj , 1 ≤ i ≤ k.
j=1

Se tiene que: N1 = n1 , Nk = n, ni = Ni − Ni−1 , 2 ≤ i ≤ k.


La frecuencia relativa acumulada de xi , que denotaremos Fi , es la proporción de observaciones
con valor menor o igual que xi ,
i
Ni X
Fi = = fj , 1 ≤ i ≤ k.
n j=1

Se tiene que: F1 = f1 , Fk = 1, fi = Fi − Fi−1 , 2 ≤ i ≤ k. La frecuencia relativa acumulada


expresada en % se denomina porcentaje acumulado.

5. Tablas de frecuencias
Las frecuencias se representan en una tabla, denominada tabla de frecuencias, como sigue:
xi ni Ni fi Fi
x1 n1 N1 f1 F1
x2 n2 N2 f2 F2
.. .. .. .. ..
. . . . .
xk nk Nk fk Fk
n 1

3
Nota: Las frecuencias absolutas y relativas tienen sentido tanto en variables cualitativas como cuan-
titativas. Sin embargo las frecuencias acumuladas sólo tendrán sentido en variables cuantitativas
(discretas o continuas). Por lo tanto para las variables cualitativas la tabla de frecuencias se for-
mará exclusivamente con las columnas correspondientes a las frecuencias absolutas y las frecuencias
relativas.
Si X es una variable que toma muchos valores distintos, entonces es usual agruparlos en intervalos.
En esta situación, se definen de manera análoga las frecuencias de los intervalos, que se disponen en
una tabla de la siguiente forma:

(Li−1 , Li ] ni Ni fi Fi xi ai hi
(L0 , L1 ] n1 N1 f1 F1 x1 a1 h1
(L1 , L2 ] n2 N2 f2 F2 x2 a2 h2
.. .. .. .. .. .. .. ..
. . . . . . . .
(Lk−1 , Lk ] nk Nk fk Fk xk ak hk
n 1

donde xi = (Li + Li−1 )/2 es el punto medio de cada intervalo, denominado marca de clase y que
representa al intervalo, ai = Li − Li−1 es la amplitud del intervalo y hi = ni /ai es la densidad de
frecuencia.

Ejemplo 5.1 El número de partes de incidencia por departamento recibidos la pasada semana por
el servicio de informática de una empresa dividida en 15 departamentos han sido:

4, 3, 7, 5, 6, 4, 5, 4, 5, 6, 7, 7, 3, 4, 5

La tabla de frecuencias para estos datos es

xi ni Ni fi Fi
3 2 2 0.133 0.133
4 4 6 0.266 0.4
5 4 10 0.266 0.666
6 2 12 0.133 0.8
7 3 15 0.2 1
15 1

Ejemplo 5.2 Consideremos los siguientes datos referidos a la clasificación de los puestos de trabajo
de 30 trabajadores de una empresa según su nivel de riesgo. Éstos se han calificado como: A=alto,
M=medio y B=bajo.

A B B B B M
M B A M M A
B B B B M M
M M B M M B
B B B M M B

4
Los datos obtenidos pueden ser resumidos en la siguiente tabla de frecuencias, que al ser un atributo
solo tendrá frecuencias absolutas y relativas y no aparecen las frecuencias acumuladas al no tener
sentido:

RIESGO ni f i
B 15 0.5
M 12 0.4
A 3 0.1
30 1

Ejemplo 5.3 Se miden las longitudes en milı́metros de cierta componente de un sistema, obteniéndo-
se los siguientes resultados

0.2, 0.6, 1.1, 1.7, 1.9, 3.7, 3.8, 4.2, 4.5, 4.8, 5.3,
5.7, 6.2, 6.7, 7.5, 8.1, 8.5, 8.7, 9.2, 9.5

Obsérvese que en los datos se repiten muy pocos valores, por lo que casi todas las frecuencias son
1, y en consecuencia, la tabla de frecuencias que se obtendrı́a serı́a demasiado larga. En este caso,
es aconsejable agrupar los datos por intervalos con objeto de resumir y comprender la información
contenida en los datos. El criterio de división no es objetivo, aunque deben respetarse unos princi-
pios elementales: no ha de haber muy pocos intervalos, pues se perderı́a demasiada información, ni
demasiados, pues no se lograrı́a el efecto deseado, aunque sı́ deben abarcar todos los posibles valores y
no solaparse. Tomaremos como criterio general los intervalos de la forma (a, b]. En este caso, hemos
tomado la división (0, 1], (1, 3], (3, 5], (5, 6], (6, 8], (8, 10]. Entonces la tabla quedará como sigue:

(Li−1 , Li ] ni Ni fi Fi xi ai hi
(0,1] 2 2 0.1 0.1 0.5 1 2
(1,3] 3 5 0.15 0.25 2 2 1.5
(3,5] 5 10 0.25 0.5 4 2 2.5
(5,6] 2 12 0.1 0.6 5.5 1 2
(6,8] 3 15 0.15 0.75 7 2 1.5
(8,10] 5 20 0.25 1 9 2 2.5
20 1

Nótese que no todos los intervalos han de tener la misma amplitud.

6. Métodos gráficos
Una buena representación gráfica de los datos puede mostrar de forma clara y concisa las caracterı́sti-
cas de los mismos. No obstante, es necesario recalcar que la representación gráfica no es más que un
elemento auxiliar de análisis y representación, y que por sı́ sola no sirve para un estudio riguroso de
la información contenida en los datos.

5
Una misma información puede ser representada gráficamente de muchas maneras. Existen distintos
tipos de representación según el tipo del carácter, ya sea cuantitativo o cualitativo. Algunos de ellos
son 
 Diagrama de barras
 




Discretas Polı́gono de frecuencias

(no agrupadas)
 

Curva acumulativa

 


Variables 

 Histograma

Continuas

 



Polı́gono de frecuencias


(agrupadas)




Curva acumulativa

 Diagrama de rectángulos


Atributos  Diagrama de sectores


Pictogramas

6.1. Variables no agrupadas


6.1.1. Diagrama de barras

En el eje de abscisas se representan los distintos valores observados de la variable. Para cada valor
observado se levanta un segmento con altura igual a la frecuencia absoluta de dicho valor.

También puede usarse el diagrama de barras para representar las frecuencias relativas. En ese caso,
la altura de cada segmento serı́a fi , en vez de ni .

6.1.2. Polı́gono de frecuencias

El polı́gono de frecuencias es una forma alternativa de representar los mismos datos que el diagrama de
barras. Se construye uniendo los extremos superiores de los segmentos del correspondiente diagrama
de barras. También puede usarse para representar las frecuencias relativas en vez de las absolutas.

6.1.3. Curva acumulativa

Hasta ahora ninguno de los métodos gráficos ha representado las frecuencias acumuladas, ya sean
absolutas o relativas. La curva acumulativa es una forma de representar estas frecuencias, esto es, el
número de observaciones que hay con valor menor o igual que uno dado. Es una función escalonada
que vale 0 desde −∞ hasta el valor observado más pequeño. Entre el primer y el segundo valor más
pequeño, la función vale N1 , la primera frecuencia acumulada. Entre el segundo valor más pequeño
y el tercero, la función vale N2 , etc. A partir del valor más grande, la función es constante e igual
al número de observaciones n. La función dibujada es discontinua en cada valor observado, siendo
continua a la derecha.
También pueden representarse las frecuencias acumuladas relativas, en vez de las absolutas, en cuyo
caso a partir del valor más grande, la función es constante e igual a 1.

6
Ejemplo 6.1 Las representaciones gráficas correspondientes a los datos del ejemplo 5.1 son las
siguientes:

15
4 4 12
3 3 10
2 2 6

2
3 4 5 6 7 3 4 5 6 7 3 4 5 6 7

Diagrama de barras Polı́gono de frecuencias Curva acumulativa

6.2. Variables agrupadas


6.2.1. Histograma

En el eje de abscisas se sitúan los intervalos en los que se han agrupado los datos, y para cada
uno de ellos se levanta un rectángulo con base dicho intervalo y área igual a la frecuencia absoluta
observada. Obsérvese que si ai es la amplitud del intervalo, para que el área del rectángulo sea igual
a ni , entonces su altura ha de ser
ni
hi =
ai
Al igual que en el caso no agrupado, también puede usarse el histograma para representar las frecuen-
cias relativas en vez de las absolutas. En esta situación, la fórmula para la altura de los rectángulos
pasarı́a a ser
fi
hi =
ai
y el área de los rectángulos serı́a fi .

Si todos los intervalos tienen la misma amplitud, las alturas de los rectángulos pueden tomarse
directamente iguales a ni (fi si se representan frecuencias relativas) en lugar de hi , ya que el gráfico
resultante es el mismo, aunque a una escala distinta.

6.2.2. Polı́gono de frecuencias

El polı́gono de frecuencias es una forma alternativa de representar los mismos datos que el histograma.
Para su construcción, se unen los puntos medios de la parte superior de cada rectángulo. Obsérvese
que la coordenada x de cada punto es la marca de clase del intervalo. Al igual que en los casos
anteriores, también puede usarse para representar las frecuencias relativas en vez de las absolutas.

6.2.3. Curva acumulativa

Como en el caso discreto, representa el número de observaciones que hay con valor menor o igual
que uno dado. En el caso continuo, la curva acumulativa es una lı́nea quebrada que vale 0 desde
−∞ hasta L0 . Dentro del primer intervalo, (L0 , L1 ], es un segmento que une los puntos (L0 , 0) y
(L1 , N1 ). En el segundo intervalo, (L1 , L2 ], es un segmento que une los puntos (L1 , N1 ) y (L2 , N2 ), y

7
ası́ sucesivamente. A partir del extremo derecho del último intervalo hasta +∞ su valor será siempre
igual al número de observaciones n.
También pueden representarse las frecuencias acumuladas relativas, en vez de las absolutas, en cuyo
caso a partir del extremo derecho del último intervalo hasta +∞ su valor será siempre 1.

Ejemplo 6.2 Consideremos la variable X=“Número de transacciones de comercio electrónico reali-


zadas en una semana”, observada en n = 50 empresas que operan en Internet.

(Li−1 , Li ] ni ai hi Ni
(150, 160] 4 10 0.4 4
(160, 170] 25 10 2.5 29
(170, 180] 14 10 1.4 43
(180, 200] 7 20 0.35 50

Histograma Polı́gono de frecuencias Curva acumulativa

6.3. Variables cualitativas o atributos


6.3.1. Diagrama de rectángulos

Su construcción es similar al diagrama de barras. Las frecuencias se pueden representar en el eje


horizontal o en el eje vertical. Todos los rectángulos tienen la misma amplitud de base y se encuentran
separados por la misma distancia.

Ejemplo 6.3 La distribución de 12 usuarios según el sistema operativo utilizado es la siguiente:

Sistema Operativo ni
Linux (L) 5
Windows (W) 3
Mac OS (M) 4
12

Estos datos se pueden representar en un diagrama de rectángulos (horizontales o verticales) como


sigue

8
ni 6
5
6

4
L
3
W
2
M
1

- -
1 2 3 4 5 ni L W M

6.3.2. Diagrama de sectores

En un cı́rculo, se asigna a cada modalidad un sector de tamaño proporcional a su frecuencia.

Ejemplo 6.4 Con los datos del ejemplo 6.3 se obtendrı́a el siguiente diagrama de sectores:

Sistema Operativo ni fi fi × 360o


Linux (L) 5 0.4166 150o
Windows (W) 3 0.2500 90o
Mac OS (M) 4 0.3333 120o
12 1 360o

6.3.3. Pictograma

En este tipo de gráficos se emplean figuras relacionadas con el fenómeno que se está estudiando, de
forma que su tamaño o número nos indique la frecuencia asociada a cada modalidad.

Ejemplo 6.5 La siguiente tabla muestra el medio de acceso a Internet utilizado en 1200 hogares de
cierta localidad:
Medio de acceso ni
3G/4G 200
FIBRA ÓPTICA 400
ADSL 600
1200
Pictograma con figuras de tamaño proporcional a las frecuencias:

9
@
@ @
@@ @ @
@@ @
@

ADSL FIBRA ÓPTICA 3G/4G

Pictograma con número de figuras proporcional a las frecuencias:

@ @
@@ @@
=200 3G/4G
@ @
@@ @
@
FIBRA ÓPTICA
@ @ @
@@ @
@ @
@
ADSL

10
7. Problemas
1. Un proveedor de servicios informáticos ha realizado un estudio sobre el porcentaje de hogares con
conexión ADSL en los distintos municipios de una provincia, construyéndose una tabla que poste-
riormente se extravió, quedando sólo la siguiente fotocopia con muchos datos borrados. Reconstruya
a partir de ella la tabla original, y construya el histograma correspondiente:

(Li−1 , Li ] xi ni Ni fi Fi ai hi
(20, 50] 2
( , ] 0.125
(60, ] 10 2.4
( , ] 75 0.225
( , ] 80 1.4

2. Tras realizar una encuesta en el sector empresarial de una ciudad, se han agrupado las empresas
según el número de equipos informáticos utilizados en el desarrollo de su actividad, obteniéndose la
siguiente tabla:

No de equipos Número de empresas


≤ 100 25
100-200 37
200-300 12
300-500 22
500-600 21
Más de 600 13

Determine:

(a) La tabla de frecuencias completa.


(b) El número de empresas con más de 300 equipos.
(c) El porcentaje de empresas con más de 100 equipos y no más de 500.

3. En una empresa de servicios tecnológicos trabajan 60 consultores SAP, cuyos salarios semanales
en cientos de euros, vienen dados en la siguiente tabla:

Salarios N o de consultores
0-10 13
10-20 15
20-30 20
30-40 8
40-50 4

Calcule:

11
(a) Histograma de frecuencias absolutas.
(b) Representación gráfica para las frecuencias absolutas acumuladas.
(c) ¿Qué porcentaje de consultores percibe un sueldo menor o igual que 3000 euros?

4. La distribución de las empresas de cierta comunidad autónoma según el Sistema de Gestión de


Bases de Datos corporativo utilizado, es la siguiente:

SGBD N o de empresas
Oracle 1500
SQL Server 750
IBM DB2 1000
MySQL 500
Sybase 250

Realice un diagrama de rectángulos y el gráfico de sectores.

5. Con los siguientes datos, represente el diagrama de barras y la curva acumulativa.

xi 0 1 2 3 4 5 6
ni 5 3 7 14 8 15 10

6. Las calificaciones obtenidas en la asignatura Estadı́stica por 500 alumnos de la ETSII han sido:

CALIFICACIONES ni
0-5 150
5-7 175
7-9 125
9-10 50

Construya el histograma y la curva acumulativa para las frecuencias relativas.

7. Consultados 350 usuarios de twitter sobre su edad, se ha elaborado la siguiente tabla:

Edad N o de usuarios
15-25 51
25-35 130
35-45 81
45-55 47
55-70 41

(a) ¿Qué porcentaje de usuarios tiene más de 35 años?


(b) Represente el histograma y el polı́gono de frecuencias.
(c) Represente gráficamente las frecuencias relativas acumuladas.

12
8. Las valoraciones otorgadas por 30 programadores a un nuevo entorno de desarrollo de software
han sido:

174 185 166 176 177 171 175 187 162 172
181 161 162 179 188 179 178 176 170 171
173 169 172 181 184 165 183 173 167 180

(a) Represente el histograma, agrupando los datos en intervalos de amplitud 5, con L0 = 160.

(b) Represente la curva acumulativa.

9. El tiempo de CPU empleado por 20 trabajos en un servidor, expresados en segundos ×10−2 , han
sido los siguientes:

179, 188, 173, 185, 177, 182, 171, 179, 181, 184, 194, 177, 176, 187, 178, 173, 193, 195, 171, 188

(a) Construya la tabla de frecuencias agrupando los datos en intervalos de amplitud 5, con L0 =
170.
(b) Represente el histograma y la curva acumulativa.

10. El siguiente gráfico representa la curva acumulativa de una variable estadı́stica X, de la que se
sabe que el número de observaciones es 40.

(a) Obtenga la tabla de frecuencias completa.


(b) ¿Cuántas observaciones hay con un valor inferior o igual a 10? ¿Cuántas superiores a 11?

13
8. Utilización en R

8.1. Tablas de frecuencias


Comenzaremos construyendo la tabla de frecuencias para los datos del Ejemplo 5.1. La forma más
directa de introducir los datos consiste en utilizar el comando c (concatenación).

x1 = c(4,3,7,5,6,4,5,4,5,6,7,7,3,4,5)
x1 # Visualizamos el contenido de x

## [1] 4 3 7 5 6 4 5 4 5 6 7 7 3 4 5

# Otra forma: ejecuta la instrucción y visualiza el resultado


(x1 = c(4,3,7,5,6,4,5,4,5,6,7,7,3,4,5))

## [1] 4 3 7 5 6 4 5 4 5 6 7 7 3 4 5

Las frecuencias absolutas pueden obtenerse por medio del comando table.

FrecAbs1 = table(x1)
FrecAbs1

## x1
## 3 4 5 6 7
## 2 4 4 2 3

El comando length permite obtener el número de elementos de un vector y se utiliza a continuación


para obtener las frecuencias relativas.

FrecRel1 = FrecAbs1/length(x1)
FrecRel1

## x1
## 3 4 5 6 7
## 0.1333333 0.2666667 0.2666667 0.1333333 0.2000000

O bien, con el comando prop.table a partir de la tabla de frecuencias absolutas:

FrecRel1 = prop.table(FrecAbs1)
FrecRel1

## x1
## 3 4 5 6 7
## 0.1333333 0.2666667 0.2666667 0.1333333 0.2000000

14
Calculamos las frecuencias acumuladas por medio del comando cumsum.

AbsAcum1 = cumsum(FrecAbs1)
AbsAcum1

## 3 4 5 6 7
## 2 6 10 12 15

RelAcum1 = cumsum(FrecRel1)
RelAcum1

## 3 4 5 6 7
## 0.1333333 0.4000000 0.6666667 0.8000000 1.0000000

Las distintas frecuencias calculadas pueden combinarse en un único elemento (que será la tabla de
frecuencias) por medio del comando cbind.

tabla1=cbind(FrecAbs1,FrecRel1,AbsAcum1,RelAcum1)
tabla1

## FrecAbs1 FrecRel1 AbsAcum1 RelAcum1


## 3 2 0.1333333 2 0.1333333
## 4 4 0.2666667 6 0.4000000
## 5 4 0.2666667 10 0.6666667
## 6 2 0.1333333 12 0.8000000
## 7 3 0.2000000 15 1.0000000

Agrupación de datos en intervalos


Construiremos la tabla de frecuencias del Ejemplo 5.3, agrupando previamente los datos en los
intervalos (0,1], (1,3], (3,5], (5,6], (6,8] y (8,10].

x2 = c(0.2,0.6,1.1,1.7,1.9,3.7,3.8,4.2,4.5,4.8,5.3,5.7,6.2,6.7,7.5,8.1,8.5,8.7,9.2,9.5)
x2

## [1] 0.2 0.6 1.1 1.7 1.9 3.7 3.8 4.2 4.5 4.8 5.3 5.7 6.2 6.7 7.5 8.1 8.5 8.7 9.2
## [20] 9.5

La agrupación se realiza del comando cut, al que debemos facilitar, además de los datos, los extremos
de los intervalos en que se basará la agrupación.

intervalos = cut(x2,breaks=c(0,1,3,5,6,8,10))
intervalos

15
## [1] (0,1] (0,1] (1,3] (1,3] (1,3] (3,5] (3,5] (3,5] (3,5] (3,5]
## [11] (5,6] (5,6] (6,8] (6,8] (6,8] (8,10] (8,10] (8,10] (8,10] (8,10]
## Levels: (0,1] (1,3] (3,5] (5,6] (6,8] (8,10]

A continuación construimos la tabla de frecuencia.

FrecAbs2 = table(intervalos)
FrecRel2 = FrecAbs2/length(x2) # O bien puede usarse FrecRel = prop.table(FrecAbs)
AbsAcum2 = cumsum(FrecAbs2)
RelAcum2 = cumsum(FrecRel2)

tabla2=cbind(FrecAbs2,FrecRel2,AbsAcum2,RelAcum2)
tabla2

## FrecAbs2 FrecRel2 AbsAcum2 RelAcum2


## (0,1] 2 0.10 2 0.10
## (1,3] 3 0.15 5 0.25
## (3,5] 5 0.25 10 0.50
## (5,6] 2 0.10 12 0.60
## (6,8] 3 0.15 15 0.75
## (8,10] 5 0.25 20 1.00

8.2. Resúmenes gráficos


8.2.1. Variables no agrupadas

Para representar el diagrama de barras se utiliza el comando plot con la opción type=”h”, que
representa lı́neas verticales; el argumento lwd indica la anchura de las lı́neas. A continuación se
representa dicha gráfica para los datos del Ejemplo 5.1.

# Diagrama de Barras
plot(FrecAbs1,type="h",xlab="Partes de Incidencia",ylab="Frecuencia absoluta",lwd=2,
main="Diagrama de barras",col="blue")

16
Diagrama de barras

4
Frecuencia absoluta

3
2
1
0
3 4 5 6 7

Partes de Incidencia

Para representar el polı́gono de frecuencias se utiliza el comando plot con la opción type=”l”, que
une los puntos indicados en FrecAbs mediante segmentos rectos. El argumento lty que se utiliza en la
segunda gráfica permite especificar el tipo de lı́nea que se dibujará; en este caso, el valor 3 indica que
se trata de una lı́nea punteada; obsérvese que se utiliza el comando lines para representar el polı́gono
de frecuencias sobre el diagrama de barras previamente dibujado.

# Polı́gono de frecuencias
plot(FrecAbs1,type="l",xlab="Partes de Incidencia",ylab="Frecuencia absoluta",lwd=2,
main="Polı́gono de frecuencias",col="blue")
# Diagrama de barras + Polı́gono de frecuencias
plot(FrecAbs1,type="h",xlab="Partes de Incidencia",ylab="Frecuencia absoluta",lwd=2,
lty=3,main="Diagrama Barras / Pol. Frecuencias")
lines(FrecAbs1,type="l",lwd=2,col="blue")

Polígono de frecuencias Diagrama Barras / Pol. Frecuencias


4

4
Frecuencia absoluta

Frecuencia absoluta
3

3
2

2
1

1
0

3 4 5 6 7 3 4 5 6 7

Partes de Incidencia Partes de Incidencia

Para representar la curva acumulativa se obtienen en primer lugar las frecuencias acumuladas (me-
diante cumsum) y, posteriormente, se utiliza la opción type=”s” del comando plot, que dibuja una
gráfica escalonada a partir de los puntos indicados.

17
# Curva acumulativa
plot(as.table(AbsAcum1),type="s",xlab="Partes de Incidencia",
ylab="Frecuencia acumulada",lwd=2,main="Curva Acumulativa (incompleta)")
# Incorporamos tramos constantes al principio y al final
valores=as.numeric(names(FrecAbs1)); valores

## [1] 3 4 5 6 7

Rx=(max(x1)-min(x1))
vx=c(min(valores)-0.2*Rx, valores,max(valores)+0.2*Rx );vx

## [1] 2.2 3.0 4.0 5.0 6.0 7.0 7.8

vy=c(0,AbsAcum1,length(x1))
plot(vx,vy,type="s",xlab="Partes de Incidencia",
ylab="Frecuencia acumulada",lwd=2,main="Curva Acumulativa")

Curva Acumulativa (incompleta) Curva Acumulativa


15

15
Frecuencia acumulada

Frecuencia acumulada
10

10
5

5
0

3 4 5 6 7 2 3 4 5 6 7 8

Partes de Incidencia Partes de Incidencia

8.2.2. Variables agrupadas en intervalos

El histograma se representa por medio del comando hist, a la que se debe pasar el vector de datos a
representar y, opcionalmente, los extremos de los intervalos que definirán los rectángulos del histogra-
ma (argumento breaks). La representación gráfica resultante corresponde al histograma construido
utilizando frecuencias relativas; es decir, las alturas de los rectángulos representados son densidades
relativas, calculadas como fi /ai .

Representaremos el histograma correspondiente a los datos del Ejemplo 6.2. Para ello reconstruimos
el vector de datos a partir de la tabla de frecuencias, haciendo uso de los comandos rep (replicate) y
c (concatenación); dado que se desconocen los datos originales, se asume que éstos son iguales a la
marca de clase de los intervalos indicados en el ejemplo.

18
# Histograma
x3 = c(rep(155,4),rep(165,25),rep(175,14),rep(190,7))
x3

## [1] 155 155 155 155 165 165 165 165 165 165 165 165 165 165 165 165 165 165 165
## [20] 165 165 165 165 165 165 165 165 165 165 175 175 175 175 175 175 175 175 175
## [39] 175 175 175 175 175 190 190 190 190 190 190 190

extremos = c(150,160,170,180,200)
hist(x3,breaks=extremos,main="Histograma",col="lightblue",xlab="Transacciones",
ylab="Densidad relativa")

Histograma
0.04
Densidad relativa

0.02
0.00

150 160 170 180 190 200

Transacciones

Para representar el polı́gono de frecuencias se hace uso de la información generada por la propia
función hist. Esta función devuelve un objeto entre cuyas propiedades se encuentra un vector que
contiene los puntos medios de las intervalos (mids) y otro que contiene las alturas de los rectángulos
(density). Por modelo de la función lines se representa la poligonal determinada por la secuencia de
puntos (mids,density).

# Polı́gono de frecuencias
h = hist(x3,breaks=extremos,main="Histograma y Polı́gono de frecuencias",
col="lightblue",xlab="Transacciones",ylab="Densidad relativa")
lines(h$mids,h$density,type="l",col="red",lwd=2)

19
Histograma y Polígono de frecuencias

0.05
0.04
Densidad relativa

0.03
0.02
0.01
0.00
150 160 170 180 190 200

Transacciones

Para representar la curva acumulativa se obtiene las frecuencias acumuladas en la forma habitual y
se dibuja la poligonal que determinan los puntos (extremos,AbsAcum) por medio del comando plot
con la opción type=”l”. Debe tenerse en cuenta que el vector extremos tiene una componente más
que AbsAcum, ya que el incluye el extremo del primer intervalo, cuya frecuencia acumulada (cero) no
se incluye en AbsAcum; por este motivo se añade un cero inicial al vector de frecuencia acumuladas
en el comando plot.

# Curva acumulativa
FrecAbs3=table(x3)
AbsAcum3=cumsum(FrecAbs3)
plot(extremos,c(0,AbsAcum3),type="l",lwd=2,main="Curva Acumulativa (incompleta)",
xlab="Transacciones",ylab="Frecuencia acumulada")
# Incorporamos tramos constantes al principio y al final
Rx=(max(extremos)-min(extremos))
vx=c(min(extremos)-0.2*Rx, extremos ,max(extremos)+0.2*Rx)
vy=c(0,0,AbsAcum3,length(x3))
plot(vx,vy,type="l",lwd=2,main="Curva Acumulativa",xlab="Transacciones",
ylab="Frecuencia acumulada")

Curva Acumulativa (incompleta) Curva Acumulativa


50

50
40

40
Frecuencia acumulada

Frecuencia acumulada
30

30
20

20
10

10
0

150 160 170 180 190 200 140 150 160 170 180 190 200 210

Transacciones Transacciones

20
8.2.3. Variables cualitativas

El diagrama de rectángulos se construye utilizando el comando barplot. Es importante tener presente


que este comando debe recibir la tabla de frecuencias, y no los datos originales. El diagrama de
rectángulos correspondiente a los datos del Ejemplo 6.3 se obtendrı́a de la siguiente forma:

# Diagrama de rectángulos
x4 = c(rep("Linux",5),rep("Windows",3),rep("Mac OS",4))
FrecAbs4 = table(x4)
barplot(FrecAbs4,main="Sistema operativo según uso")
barplot(FrecAbs4,horiz=TRUE,col=c("red","yellow","green"),
main="Sistema operativo según uso")

Sistema operativo según uso Sistema operativo según uso


5

Windows
4
3

Mac OS
2

Linux
1
0

Linux Mac OS Windows 0 1 2 3 4 5

El diagrama de sectores se obtiene por medio del comando pie, que debe recibir la tabla de frecuencias
de la variable a representar, al igual que en el caso anterior.

# Diagrama de sectores
pie(FrecAbs4,main="Sistema Operativo según uso")
# Modificamos los colores de los sectores
pie(FrecAbs4,col=c("red","yellow","green"),main="Sistema Operativo según uso")

21
Sistema Operativo según uso Sistema Operativo según uso

Linux Linux

Mac OS Mac OS
Windows Windows

22

También podría gustarte