0% encontró este documento útil (0 votos)

215 vistas581 páginas

Estadística Descriptiva e Inferencial

El documento es un libro de Antonio Vargas Sabadías sobre estadística descriptiva e inferencial, diseñado para proporcionar un conocimiento profundo del proceso estadístico sin ser un tratado teórico. Se estructura en tres partes: la primera aborda la estadística descriptiva, la segunda introduce conceptos de probabilidad, y la tercera se centra en la estadística inferencial, incluyendo técnicas de contraste de hipótesis y análisis de varianza. El enfoque didáctico se complementa con ejemplos prácticos y ejercicios propuestos.

Cargado por

estadisticatarea08

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

215 vistas581 páginas

Estadística Descriptiva e Inferencial

Cargado por

estadisticatarea08

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Antonio Vargas Sabadías

ESTADÍ
STICA DESCRIPTIVA

E INFERENCIAL

0000 61010
77
010D
10080
1111
514 1
o 101 101010101010
CA1110100000100
1901.0 10100111

COLECCION CIENCIAY TECNICA .

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL

This One

4YLO- LN8 - A5WR

Antonio Vargas Sabadías

Catedrático de Matemáticas de I.B.

Profesor Asociado de la Universidad de Castilla-La Mancha

ESTADÍSTICA DESCRIPTIVA

E INFERENCIAL

Universidad de Castilla-La Mancha

1995
VARGAS SABADÍAS , Antonio
Estadística descriptiva e inferencial / Antonio Vargas Sabadías . - [Cuen-
ca] Servicio de Publicaciones de la Universidad de Castilla-La Mancha,
1995 .
576 p. ; 22 cm. - (Ciencia y técnica ; 8)
I.S.B.N .: 84-88255-87-X
1. Estadística matemática. I. Universidad de Castilla-La Mancha, ed. II.
Título.
519.2

Edita: Servicio de Publicaciones de la

Universidad de Castilla-La Mancha

Diseño colección: García Jiménez

Diseño portada: C.I.D.I. (Universidad de Castilla-La Mancha)

Antonio Vargas Sabadías

I.S.B.N.: 84-88255-87-X
Depósito Legal : MU- 105-1996
Edición de: COMPOBELL, S.L. Murcia
A María Antigua, Antonio, Alberto y Aurelio,
por el regalo de un tiempo que les pertenecía
y la ilusión y el aliento que siempre encontré.
PRÓLOGO

La investigación, como proceso de resolución de problemas científicos, debe

aspirar en todo momento a la objetividad y a la universalidad. El investigador se
encuentra en numerosas ocasiones ante situaciones de incertidumbre, dependiendo
del azar los resultados de sus experimentos, lo que supone la necesidad de recurrir a
los métodos estadísticos.
Ante un experimento aleatorio, siempre hay una primera fase de observación y
recopilación de datos, cuya finalidad es la de darles una interpretación adecuada. En
este primer proceso, interviene la Estadística Descriptiva, cuyo objetivo es el de
resumir o describir numéricamente un conjunto de datos con el fin de facilitar esa
interpretación.
Sin embargo, no es suficiente la obtención de unas características que permitan
sintetizar los resultados de la experimentación y el buen uso de la práctica operacional.
La imposibilidad, por distintas razones, de hacer un estudio de todos los indivi-
duos de la población, obliga a seleccionar de modo conveniente un número relativa-
mente pequeño de datos, desde cuyo conocimiento se pretende extraer conclusiones
acerca de la población completa.
Interviene entonces la Estadística Inferencial, que permite realizar inferencias
acerca de las características de los individuos de la población a partir de las caracte-
rísticas de una muestra de la misma.
Los métodos propios de la Estadística Inferencial, haciendo la selección de las
muestras, creando estrategias y controles para hacer mínimo el error, son las técnicas
que usa una buena parte de la investigación de las Ciencias de la Naturaleza, de la
Sociología, Psicología, Medicina, Ciencias de la Educación , ...
El contraste de hipótesis es una herramienta poderosa para realizar inferencias a
partir de la información proporcionada por una muestra, supuesta una hipótesis de
nulidad inicial, que es rechazada únicamente cuando su veracidad implica unos
resultados «< suficientemente improbables>>.
El concepto de probabilidad proporciona una medida de lo que se entiende por un
suceso << suficientemente improbable» , aportando la razón para utilizar la Estadística
Descriptiva como soporte en el que se apoya la Estadística Inferencial .
10

Las consideraciones que acabo de hacer, mi propia experiencia docente con

estudiantes y la colaboración en trabajos con algunos compañeros que se sirven de
estas técnicas en sus tareas investigadoras, han orientado el diseño de este libro, que
no pretende ser un tratado teórico -matemático ni tampoco un simple formulario. La
intención de conseguir el punto medio, de equilibrio entre ambos extremos, pero
capaz de trasmitir un conocimiento profundo del proceso estadístico, es, tal vez, la
razón última de este texto.
Se distinguen, en él, tres partes fundamentales : la primera, sobre «Estadística
Descriptiva» , comprende los seis primeros capítulos y estudia las características
fundamentales de localización, dispersión y forma de una distribución estadística de
uno y de dos caracteres, abordando también los problemas de regresión y correlación.
Los diversos tipos de gráficos estadísticos son descritos, situándolos en función
de los tipos de caracteres y de sus modalidades , como un complemento que facilita el
análisis exploratorio de los datos .
La segunda parte , «Nociones sobre Cálculo de Probabilidades» , es abordada en
los capítulos séptimo y octavo, y contiene aquellos conceptos básicos de probabilidad
y variable aleatoria, y el estudio de las distribuciones discretas y continuas necesarias
para enlazar de un modo coherente, sin grandes brusquedades, con la «Estadística
Inferencial», que constituye la parte tercera y fundamental del libro, a la que se
dedican otros seis capítulos .
En todo momento, he procurado dar un enfoque didáctico a los temas tratados,
introduciendo la mayor parte de los conceptos a través de ejemplos sencillos de la
vida diaria.
Para evitar que el discurso del razonamiento se aparte de la idea central, en ocasio-
nes he pasado algún proceso de demostración al final del capítulo en forma de apéndice.
La estrategia del contraste de hipótesis es analizada en sus diversas acepciones:
ésta es la herramienta fundamental de que dispone el investigador para inferir los
resultados de sus experiencias a la población, confiriéndoles un carácter de universa-
lidad y generalidad.
El análisis de la varianza, los contrastes de bondad de ajuste, independencia y
homogeneidad de la varianza, así como algunos de los contrastes no paramétricos , de
uso cada día más frecuente , son también tratados y valorados con detalle.
El problema de regresión y correlación ha requerido dos capítulos. En el capítulo
decimocuarto, se complementa el contenido del sexto desde el punto de vista
inferencial. Son muchos los trabajos de investigación que descuidan este aspecto, lo
que les resta generalidad.
La potencia del contraste , que da solidez y rigor a las conclusiones, se aborda
desde su acepción conceptual y se resuelve de modo sencillo mediante la tabla
estadística de Welkowitz, aportando la relación entre ambos métodos .

Toledo , febrero de 1995 . El Autor

ÍNDICE DE MATERIAS

222
INTRODUCCIÓN . 23
I.1 . Sumas indicadas 23
1.2 . Sumas dobles 27

PRIMERA PARTE : ESTADÍSTICA DESCRIPTIVA

1. DISTRIBUCIONES Y GRÁFICAS . 33
1.1 . Concepto y términos 33
1.2. Población, muestra e individuo 33
1.3 . Caracteres y modalidades 34
1.4. Variable estadística ............ 35
1.5 . Distribución de frecuencias ............... 35
1.5.1 . Frecuencia absoluta y relativa .......... 36
1.5.2. Propiedades de las frecuencias 36
1.5.3 . Frecuencias acumuladas 36
1.6. Parámetros y estadísticos 37
1.7. Tablas estadísticas ......... 37
1.7.1 . Tabla de una variable estadística discreta 38
1.7.2 . Agrupación en clases ......... 39
1.7.3 . Tabla de una variable estadística continua ........ 43
1.8 . Representaciones gráficas ......... 44
1.8.1 . Representaciones de caracteres cualitativos 44
1.8.2. Representaciones de caracteres cuantitativos 49
[Link] . Diagramas diferenciales ... 49
[Link]. Diagramas integrales para variable discreta 53
[Link]. Diagramas integrales para variable continua 54
1.9. Simetría y sesgo 56
1.10 . Modalidad 56
1.11 . Apuntamiento 57
12

1.12. Ejercicios propuestos 57

2. CARACTERÍSTICAS DE POSICIÓN. 63
2.1 . Características de una distribución de frecuencias 63
2.2. Características de tendencia central 64
2.3 . Media aritmética .......... 65
2.3.1 . Definición en el caso discreto .......... 65
2.3.2. Propiedades de la media aritmética. 66
2.3.3 . Definición en el caso continuo ........ 68
2.3.4 . Ventajas e inconvenientes de la media aritmética 70
2.4. Otros valores medios ......... 70
2.4.1 . Media geométrica 70
2.4.2 . Media cuadrática .......... 72
2.4.3 . Media armónica ........... 73
2.4.4 . Relación entre las distintas medias . 74
2.5 . Percentiles. Mediana ........ 75
2.5.1 . Definiciones ..... 75
2.5.2 . Cálculo de la mediana ...... 76
[Link] . Comportamiento de la mediana 79
2.5.3 . Problema inverso 80
2.6. Cuartiles, quintiles y deciles ............. 81
2.7. Moda ............ 81
2.7.1 . Definición ................ 81
2.7.2 . Cálculo de la moda 82
2.8. Ejercicios propuestos 84

3. CARACTERÍSTICAS DE DISPERSIÓN Y FORMA. 89

3.1 . Dispersión o variabilidad ………………………………….. 89
3.2 . Medidas de dispersión absolutas .... 90
3.2.1 . Recorrido .......... 90
3.2.2 . Desviaciones cuartílicas ........... 90
[Link] . Recorrido intercuartílico ............ 91
[Link]. Recorrido semiintercuartílico 91
3.2.3 . Diferencias y desviaciones .... 92
3.2.4. Varianza y desviación típica 93
[Link] . Definiciones ...... 94
[Link]. Propiedades de la varianza ..... 94
[Link] . Propiedades de la desviación típica 96
3.3. Medidas de dispersión relativas 97
3.3.1 . Coeficiente de apertura ..... 98
3.3.2. Recorrido relativo ...... 98
13

3.3.3 . Coeficiente de variación de Pearson 98

3.3.4. Coeficiente de variación media ......... 99
3.4. Momentos .................. 100
3.4.1 . Momentos centrales ...... 101
3.4.2. Momentos respecto al origen 101
3.4.3 . Cálculo de momentos 102
3.5. Análisis de la forma .................. 103
3.5.1 . Coeficiente de asimetría de Fisher ........... 104
3.5.2. Coeficiente de asimetría de Pearson 105
3.5.3 . Coeficiente de asimetría de Bowley 105
3.5.4 . Coeficiente absoluto de asimetría ..... 105
3.5.5 . Medidas de apuntamiento o curtosis 105
3.6. Medidas de concentración ..... 107
3.7. Variable tipificada .................. 109
3.8. Puntuaciones derivadas .......... 110
3.8.1 . Puntuaciones T ..... 111
3.8.2. Puntuaciones SAT 111
3.9. Correcciones de agrupamiento de Sheppard 112
3.10. Ejercicios propuestos ......... 113
Apéndice al capítulo 3 : Demostración de las propiedades............... 117

4. ANÁLISIS EXPLORATORIO DE DATOS . 119

4.1 . Estadística exploratoria .......... 119
4.2 . Principios fundamentales 120
4.3 . Índices de localización resistentes 121
4.3.1 . Promedios de cuartiles ...... 121
4.3.2 . Trimedia ........... 121
4.3.3 . Medias recortadas .......... 121
4.4 . Índices de dispersión ........... 123
4.4.1 . Rango intercuartílico pseudo -tipificado 123
4.4.2 . Índice de variación cuartílica 124
4.5 . Índices de forma ........ 124
4.5.1 . Índice de simetría de Yule 124
4.5.2 . Índice de simetría de Kelly 125
4.5.3 . Índice de curtosis . 125
4.6. Diagrama de tronco y hojas 126
4.7. Cuartos y octavos 130
4.8 . Datos anómalos .... 132
4.9. Gráfico en caja y extensión 133
4.10. Promedios de simetría ........ 135
4.11 . Transformaciones de datos 136
14

4.11.1 . Transformaciones de potencias 137

4.11.2 . Método de la pendiente para determinar la potencia. 138
4.11.3 . Transformaciones de raíz cuadrada 140
4.12. Ejercicios propuestos 141

5. DISTRIBUCIONES BIVARIANTES. 145

5.1. Análisis de dos caracteres . 145
5.2. Distribución conjunta 145
5.2.1 . Propiedades de las frecuencias ........ 146
5.3 . Tablas estadísticas ...... 146
5.4 . Distribuciones marginales . 147
5.4.1 . Distribución marginal según el carácter X. 147
[Link] . Propiedades 147
5.4.2 .Distribución marginal según el carácter Y 148
[Link] . Propiedades ..... 148
5.5 Distribuciones condicionadas ........... 149
5.5.1 . Propiedades............. 150
5.6. Medidas de posición y de dispersión ....... 150
5.7. Dependencia e independencia funcional 154
5.7.1 . Independencia 154
5.7.2 . Dependencia. 155
5.8 . Momentos ...... 157
5.8.1 . Momentos centrales o respecto de las medias 157
5.8.2. Momentos respecto al origen 157
5.8.3 . Primeros momentos 158
5.8.4 . Propiedades ......... 158
5.8.5 . Covarianza .... 160
[Link] . Propiedades de la covarianza 161
5.9 . Poblaciones pequeñas 161
5.10. Representaciones gráficas 163
5.11 . Los dos caracteres son cualitativos .... 163
5.11.1 . Los dos caracteres presentan más de dos modalidades ....... 164
5.11.2. Uno de los caracteres es dicotómico ........... 166
5.12 . Un carácter es cualitativo y el otro cuantitativo .......... 167
5.13 . Los dos caracteres son cuantitativos ....... 170
5.13.1 . Las dos variables son discretas ...... 170
5.13.2 . X es una variable continua e Y discreta .. 171
5.13.3 . Las dos variables son continuas ...... 172
[Link] . Representación mediante puntos 172
[Link] . Estereograma .... 173
5.14 . Diagrama de dispersión ..... 174
15

5.15 . Ejercicios propuestos ....... 175

Apéndice al capítulo 4 : Demostración de las propiedades de las frecuen-
cias condicionadas y de los momentos 180

6. REGRESIÓN Y CORRELACIÓN. 183

6.1 . Dependencia aleatoria y funcional ....... 183
6.2 . Regresión y correlación ..... 184
6.3 . Métodos de ajuste........... 185
6.3.1 . Ajuste por el método de mínimos cuadrados 185
6.4. Regresión lineal 186
6.4.1 . Recta de regresión de Y sobre X ...... 187
6.4.2 . Recta de regresión de X sobre Y ........... 189
6.4.3 . Coeficientes de regresión y covarianza ...... 190
6.4.4 . Predicciones 190
6.5. Correlación ........... 192
6.5.1 . Coeficiente de correlación general de Pearson .... 193
[Link] . Propiedades del coeficiente de correlación gene-
ral de Pearson …...... 193
6.5.2 . Coeficiente de correlación lineal de Pearson ............... 194
[Link] . Interpretación del coeficiente de correlación lineal . 195
[Link]. Cálculo del coeficiente de correlación lineal ......... 196
6.5.3 . Variables incorreladas ............ 198
6.5.4. Correlación y causalidad 199
6.6. Otros coeficientes de correlación 200
6.6.1 . Coeficiente de correlación de Spearman 200
6.6.2. Coeficiente de correlación biserial puntual 201
6.6.3 . Coeficiente ............ 202
6.6.4 . Correlación tetracórica o de atributos 204
6.7. Regresión y series de tiempo 205
6.8 . Regresión parabólica 206
6.9. Regresión exponencial y geométrica 208
6.10. Ejercicios propuestos .. 211
Apéndice al capítulo 6: Demostración de las propiedades del coeficien-
te de correlación lineal de Pearson ...... 215

SEGUNDA PARTE : CÁLCULO DE PROBABILIDADES

7. PROBABILIDAD Y VARIABLE ALEATORIA.. 219

7.1 . Experimentos aleatorios .... 219
7.2. Operaciones con sucesos ..... 220
7.2.1 . Propiedades de la unión e intersección de sucesos 221
16

7.2.2. Otras operaciones y relaciones entre sucesos 223

7.2.3. 6-álgebra de sucesos 224
7.3 . Frecuencia de un suceso .... 226
7.4. Definición de Probabilidad 227
7.4.1 . Propiedades de la probabilidad 227
7.4.2. Asignación de probabilidades 229
7.5 . Ejercicios resueltos ............ 230
7.6. Probabilidad condicionada.......... 232
7.6.1 . Sucesos dependientes e independientes 234
7.7. Teoremas de la probabilidad total y de Bayes 236
7.8. Variable estadística y variable aleatoria 238
7.9. Concepto de variable aleatoria ................. 238
7.9.1 . Variable aleatoria discreta y continua. 239
7.10. Distribuciones discretas 240
7.11 . Distribuciones continuas 242
7.12 . Esperanza matemática 244
7.12.1 . Esperanza de una función de una variable aleatoria 246
7.12.2 . Propiedades de la esperanza matemática ..... 246
7.13 . Varianza y desviación típica 247
7.13.1 . Propiedades de la varianza 248
7.14 . Teorema de Tchebycheff ................. 249
7.15 . Cambio de variable ..... 252
7.15.1 . Cambio de variables aleatorias discretas 252
7.15.2. Cambio de variables aleatorias continuas . 253
7.16. Momentos ....... 254
7.16.1 . Momentos respecto al origen 254
7.16.2 . Momentos centrales ...... 254
7.17 . Función generadora de momentos 255
7.18 . Ejercicios propuestos .. 256

8. MODELOS DE DISTRIBUCIONES . 263

8.1 . Distribuciones probabilísticas 263
8.2. Distribuciones discretas......... 264
8.2.1 . Distribución uniforme 264
8.2.2 . Distribución binomial .... 265
[Link] . Ajuste de una distribución de frecuencias por una
binomial ................ 269
8.2.3 . Distribución de Poisson ........... 270
8.3 . Distribución normal general 273
8.3.1 Propiedades ......... 275
8.3.2. Representación gráfica de la normal general .......... 275
17

8.4. Distribución normal tipificada ...... 277

8.4.1 . Propiedades de la normal tipificada 277
8.4.2 . Representación gráfica de la normal tipificada 277
8.4.3 . Función de distribución ...... 278
8.4.4. Areas bajo la curva normal 279
8.5. Aproximación de la binomial .............. 284
8.6. Ejercicios Propuestos.................. 287
Apéndice al capítulo 8: Demostración de las propiedades de la distri-
bución normal ............... 290

TERCERA PARTE : ESTADÍSTICA INFERENCIAL

9. INFERENCIA ESTADÍSTICA . 295

9.1 . Fundamento teórico .......... 295
9.2 . Objetivos ........... 295
9.3 . Población y muestra ........... 297
9.4 . Muestreo aleatorio ......... 297
9.5 . Muestreo aleatorio simple .... 298
9.6. Estadístico ....... 299
9.7. Distribución de los estimadores ..... 301
9.8. Error típico 302
9.9 . Propiedades de los estimadores ....... 302
9.10 . Distribución de la media muestral 303
9.11 . Grados de libertad de un estadístico 305
9.12 . Estimación puntual ................ 305
9.12.1 . Estimadores para una distribución normal . 306
9.12.2. Estimadores para una población binomial 307
9.12.3 . Estimadores para una distribución de Poisson 308
9.12.4. Estimadores de la diferencia de medias ....... 309
9.12.5. Estimaciones del cociente de varianzas ...... 311
9.12.6. Estimadores de la diferencia de datos apareados 312
9.12.7. Estimación de la diferencia de proporciones . 313
9.13 . Estimación por intervalos ........... 314
9.14 . Planteamiento general de un intervalo de confianza ........ 315
9.14.1 . Intervalo de confianza para la media de una distribución
normal de varianza conocida 316
9.14.2 . Intervalo de confianza para la media de una distribución
normal de varianza desconocida ......... 319
9.15 . Relación entre la estimación puntual y por intervalo ............... 321
9.16. Selección del tamaño de la muestra 322
9.17. Intervalo de confianza para la varianza 323
18

9.18 . Intervalo para la razón de varianzas 324

9.19. Ejercicios propuestos 326

10. CONTRASTES DE HIPÓTESIS . 331

10.1 . Consideraciones previas . 331
10.2 . Contraste de hipótesis sobre la media de una distribución 331
10.2.1 . La desviación típica es conocida . 332
10.2.2 . La desviación típica no es conocida 336
10.3 . Contraste de hipótesis unilateral................... 337
10.4 . Relación entre contrastes e intervalos de confianza ...... 339
10.5 . Potencia de un contraste de hipótesis 342
10.5.1 . Idea de potencia ......... 342
10.5.2 . Variables que intervienen para fijar la potencia . 343
10.5.3 . Cálculo de la potencia 344
10.5.4 . Factor de equilibrio.............. 346
10.5.5 . Cálculo práctico de la potencia 346
10.5.6. Curva de potencia 348
10.5.7 . Selección del tamaño de la muestra 349
10.6. Ejercicios propuestos . 351

11. DIFERENCIAS DE MEDIAS Y PORCENTAJES. 355

11.1 . Método de trabajo .......... 355
11.2 . Inferencias sobre diferencias de medias 356
11.3 . Muestras independientes.................... 358
11.3.1 . Contraste de diferencias con muestras grandes .......... 358
[Link] . Análisis de los resultados ....... 360
[Link] . Intervalo de confianza ...... 361
[Link] . Potencia del contraste ...... 362
[Link] . Gráfico de caja y extensión múltiple 366
11.3.2. Contraste de diferencia de medias con pequeñas muestras 367
[Link] . Contraste de diferencia de medias cuando las va-
rianzas poblacionales son conocidas .............. 367
[Link] . Potencia del contraste ....... 368
[Link] . Contraste de homogeneidad de varianzas para
muestras independientes 371
[Link]. Contraste de diferencia de medias procedentes de
poblaciones homogéneas 373
11.3.3 . Contraste de diferencia de medias procedentes de poblacio-
nes no homogéneas................ 374
11.4 . Diferencia de medias para muestras dependientes 377
11.4.1 . Contraste de hipótesis . 378
19

11.4.2. Intervalo de confianza 379

11.5 . Inferencias sobre proporciones y porcentajes ..... 379
11.5.1 . Intervalo de confianza 381
11.5.2 . Potencia del contraste 381
11.5.3 . Determinación del tamaño de la muestra ................ 382
11.6. Contraste de la diferencia de proporciones .... 383
11.7. Ejercicios propuestos 385

12. AJUSTE, INDEPENDENCIA Y HOMOGENEIDAD . 389

12.1 . Contrastes con frecuencias . 389
12.2 . Test de bondad de ajuste ...... 390
12.2.1 . Restricciones en el uso de la x². 393
12.2.2. Pruebas de normalidad 394
[Link] . Prueba de normalidad basada en la x²... 394
[Link] . Prueba de normalidad basada en los residuales ... 395
12.3 . Pruebas de independencia 398
12.3.1 . Corrección de Yates 402
12.4 . Pruebas de homogeneidad . 402
12.5 . Prueba de igualdad de proporciones .......... 404
12.6. Coeficientes de contingencia 406
12.6.1 . Coeficiente 406
12.6.2 . Coeficiente C 407
12.6.3. Coeficiente Cramer
с de 407
12.7 . Ejercicios propuestos . 408

13. ANÁLISIS DE LA VARIANZA. 411

13.1 . Técnica del análisis de la varianza ..... 411
13.2 . Tipos de diseño 411
13.3. Análisis de varianza unidireccional 412
13.3.1 . Modelo matemático ........ 415
13.3.2. Variaciones intragrupo e intergrupos 416
13.3.3. Contraste de la F de Fisher- Snedecor 419
13.3.4. Cálculos y tabla resumen 420
13.3.5 . Comparaciones múltiples 423
[Link] . Prueba LSD ó t protegida . 423
[Link] . Prueba de Scheffè ........... 424
[Link] . Prueba de Duncan 426
[Link] . Prueba de Tukey ..... 427
13.3.6. Intensidad de la relación ..... 428
13.4 . Diseño factorial ........... 428
13.4.1 . Modelo matemático ..... 429
20

13.4.2 . Establecimiento de las hipótesis 431

13.4.3 . Descomposición de las variaciones . 432
13.4.4 . Medias cuadráticas y contrastes 433
13.4.5 . Cálculos y tabla resumen .... 434
13.4.6 . Pruebas de comparaciones múltiples 439
13.4.7 . Prueba de los efectos principales simples 439
13.4.8 . Interpretación de los resultados 442
13.5 . Ejercicios propuestos ........... 445

14. INFERENCIAS SOBRE REGRESIÓN LINEAL Y CORRELACIÓN. 451

14.1 . Fases en la construcción del modelo de regresión 451
14.2 . El modelo de regresión lineal .......... 452
14.3 . Elección del modelo de regresión lineal ......... 452
14.4 . Estimadores de los parámetros de regresión . 454
14.4.1 . Comprobación de hipótesis ..... 456
14.4.2 . Contraste sobre el coeficiente de regresión mediante análi-
sis de la varianza ........ 456
14.4.3 . Inferencias mediante la t de Student 460
14.4.4 . Inferencias acerca de a 461
14.5 . Intervalos para la respuesta media y para una sola respuesta 462
14.5.1 . Intervalo para la respuesta media .......... 462
14.5.2 . Intervalo de predicción para una respuesta ............. 464
14.6 . Contraste sobre la linealidad del modelo de regresión 465
14.7 . Estimación del coeficiente de correlación de Pearson ...... 470
14.7.1 . Contraste basado en la t de Student .... 471
[Link] . Potencia del contraste ........ 473
[Link] . Determinación del tamaño de la muestra 474
14.7.2 . Coeficientes de determinación y de no alineación 474
14.7.3 . Contraste del coeficiente de correlación basado en el análi-
sis de la varianza ........ 475
14.8 . Contraste de la diferencia de coeficientes de correlación 476
14.9 . Ejercicios propuestos ..... 478

15. CONTRASTES NO PARAMÉTRICOS Y DE DISTRIBUCIÓN

LIBRE ......... 483
15.1 . Consideraciones previas . 483
15.2 . Ventajas e inconvenientes de las pruebas no paramétricas 483
15.3 . Pruebas basadas en rangos ...... 485
15.3.1 . Prueba de la suma de rangos 485
15.3.2 . Prueba de Kruskal-Wallis .......... 490
15.3.3 . Prueba de Wilcoxon para dos muestras dependientes .......... 494
21

15.4. Otras pruebas …... 497

15.4.1 . Prueba de la mediana ....... 498
15.4.2. Prueba de rachas de Wald-Wolfowit 501
15.4.3 . Prueba de los signos 503
15.5 . Ejercicios propuestos ..... 505

APÉNDICE A: Tablas estadísticas. 509

Tablas estadísticas 509

APÉNDICE B : Teoría combinatoria 529

Combinatoria ....... 531
B.1 . Variaciones ordinarias 531
B.1.1 . Formación de las variaciones ordinarias 531
B.1.2 . Número de variaciones ordinarias ............ 532
B.2. Variaciones con repetición 533
B.3. Permutaciones .......... 534
B.4. Permutaciones con repetición 534
B.5. Combinaciones 535
B.6. Combinaciones con repetición 536

APÉNDICE C: Otros modelos de distribución 537

Otros modelos de distribución 537
C.1 . Función (gamma) .... 539
C.1.1 . Distribución (gamma) 539
C.1.2 . Distribución exponencial 540
C.1.3 . Distribución X²…………………………… . 540
C.2 . Distribución t de Student 542
C.3 . Distribución F de Fisher- Snedecor 543

RESPUESTA A LOS EJERCICIOS. 545

BIBLIOGRAFÍA . 561

ÍNDICE ALFABÉTICO . 567

INTRODUCCIÓN

I.1. Sumas indicadas

La Matemática, en su afán por definir los conceptos con precisión y expresar los
razonamientos con claridad, emplea un lenguaje simbólico, que resulta difícil de enten-
der si no se conoce bien el significado de los símbolos y signos de que se sirve.
Uno de los símbolos, que aparecerá profusamente a lo largo de las páginas de este
libro, es el símbolo de la suma indicada o « sumatorio» , que representamos con la letra
griega (sigma mayúscula), y que emplearemos para expresar la suma de diversos
conjuntos de números.

Ejemplo I.1

Supongamos que un dependiente de unos grandes almacenes ha ido registrando

los ingresos por las ventas realizadas a lo largo del día, y que tiene almacenados los
datos en una variable con índice :

A, =22600, A,= 15500, A, =8250, A =25200, A,=32400,

A, representa el valor 22600 de los ingresos por la primera venta,

A, representa el valor 13500 de los ingresos por la segunda venta,

La variable con índice A, define así el conjunto de los ingresos por ventas que ha
realizado el dependiente .
Para expresar la suma de todos los ingresos , se procede de acuerdo con el criterio
que establece la siguiente definición:
24

Definición I.1: Dado el conjunto de números reales { A,,A,,...,A } representa-

do por la variable con índice A , la expresión

(1)
ΣΑ
i=1

indica la suma de todos sus elementos : A, +A₂+... +A

y se debe leer como «la suma de» todos los valores que toma la variable A,, empezan-
do por el primero, A, (A, cuando i= 1 ) y terminando por el último, An (A, cuando i=n):
El índice inferior (i= 1 ) especifica que la suma empieza en A,, y el índice superior
(i=n), colocado sobre la Σ, señala el último de los sumandos.
La letra i, que hemos empleado para designar un índice genérico, es una variable
<<muda» , que puede reemplazarse por otra letra que no haya sido utilizada. Así:
n n n
ΣΑΣΑ = ΣΑ
i=1 j=1 k=1

La suma de todos los ingresos por ventas del dependiente de los grandes almace-
nes se expresa como:

ΣΑ
i=1

que, una vez desarrollado , resulta:

ΣΑ == A₁ + A2 + A3 + A4 + A5 = 22600 + 15500 + 8250 + 25200 + 32400 = 103950

i=1
Una generalización de la definición I.1 es la siguiente:

Definición 1.2: Consideremos el conjunto de los números reales {A,,A,,...,A },

y sean p y q dos números naturales , siendo p<q≤n. La expresión

(2)
ΣΑ
i=p
indica la suma A +A +...+A
P p+ 1 q

Esta nueva fórmula permite especificar sumas parciales de cualquier subconjunto

de un conjunto dado, sin más que señalar cuáles son el primero y el último de los
sumandos .
Volviendo al ejemplo I.1 , la expresión

ΣΑ
M

i=2
25

representa la suma de los ingresos por los artículos vendidos en segundo, tercero y
cuarto lugar:

ΣA = 15500 + 8250 + 25200 = 48950

i=2

La especificación del primero y del último de los índices es importante. Sin embar-
go, en muchas ocasiones no se especifican. Cuando suceda esto, debe entenderse
que la suma se extiende a todos los elementos del conjunto que define la variable A..

Propiedades

I. Σ(x + y) = Σx + Σε [3]

Esta propiedad nos dice que, si cada sumando de una suma indicada se descom-
pone en dos, el valor de ésta es el mismo que se obtiene de sumar los resultados de
las dos sumas parciales .

Ejemplo 1.2

Supongamos que el dependiente de los grandes almacenes del ejemplo I.1 cobra
por separado el importe neto del producto y el impuesto (IVA) que lo grava. Los
ingresos anteriores vendrían ahora desglosados en la forma:

Valor del artículo (X) 20179 13839 7366 22500 28929

IVA (Y) 2421 1661 884 2700 3471
Precio de venta (A) 22600 15500 8250 25200 32400

siendo A=X +Yi

La suma de los valores de los artículos libres de impuesto es:

Ex =20179 +13839 + 7366 + 22500 + 28929 = 92813

i=1
y la suma de los impuestos (IVA) de los artículos:
5
2y = 2421 + 1661 + 884 + 2700 + 3471 = 11137
i=1
Comprobamos que efectivamente es
5 5
Σx + ΣΥ = 92813 + 11137 = 103950 = ΣΑ
i=1 i=1 i=1
26

II. ΣΧ - Υ) - ΣΧ - ΣΥ (4)

Esta propiedad nos indica que, para hallar el precio neto, es igual sumar los pre-
cios de venta de los artículos por un lado y los impuestos por otro y restar, que sumar
las diferencias entre el precio de venta y el IVA de cada uno de los artículos:

ΣΑ -ΣΥ = 103950 - 11137 – 92813

i=1 i=1

y
5
Σ (A -Y ) = 20179 + 13839 + 7366 + 22500 + 28929 = 92813
i=1

III. Si k es una constante

ΣΚΑ = ΚΣΑ (5)

Así, por ejemplo, si todos los precios se multiplican por 2, el precio total será
también el doble. Esta propiedad se conoce como «distributiva» , y es la que permite
sacar factor común:

Σ2A₁ = 2A, + 2A₂ + 2A , + 2A , + 2A , = 2 (A , + A₂ + A¸ + A¸ + A¸ ) = 2ΣA,

i=1 i=1

IV. Si k es una constante

N
Σκ = Nk (6)
i=1

Lo comprobamos para k=7 :

Σ7 = 7 + 7+ 7 + 7 +7 = 5x7 = 35
i=1

Como caso particular, tenemos

N
Σi = N (7)
i=1

V. Si k es una constante

N N
Σ (A, -k) = ΣA , -Nk (8)
i=1 i=1
27

La expresión (8 ) surge de aplicar (4) y luego (6) :

N N N n
Σ (A; - k) = ΣA; -Σk = ΣA₁ - Nk
i=1 i=1 i= 1 i= 1

Nos interesa ahora resaltar dos reglas que no cumple la suma indicada:

1) ΣXY + (ΣΧ)(ΣΥ)

es decir, no se obtiene el mismo resultado si se multiplica primero cada valor de X por

cada valor de Y, sumando a continuación los productos , que si se suman, por un lado
las X, y, por otro las Y, multiplicando a continuación las dos sumas.
Tampoco es igual la suma de los cuadrados de los valores de X y el cuadrado de
su suma.

2) Σx + (Σx)

Ejemplo 1.3

Si tenemos los valores X, =2 , X,=6, X, =7 e Y₁ =3 , Y,=5 , Y₂=4 , será:

ΣXY = 2x3 + 6x5 + 7x4 = 6 + 30 + 28 = 64

(Σx)(Σy) = (2 + 6 + 7) × ( 3 + 5 + 4 ) = 15 × 12 = 180

lo que demuestra la desigualdad 1 ) .

Asimismo Ex = 2 +6 + 7 = 4 + 36 +49 = 89

mientras que
(Ex ) = (2 + 6 + 7 ) = 15 = 225

lo que prueba la desigualdad 2) .

1.2. Sumas dobles

Son también numerosas las ocasiones en que nos encontramos con variables con
dos índices . Vamos a servirnos de un ejemplo sencillo para que el lector no habituado
a tratar con matrices descubra la necesidad y el modo de trabajar.

Ejemplo 1.4

Supongamos que un almacenista tiene cuatro tipos de artículos clasificados por el

año de antigüedad (según los tres últimos años) . Una tabla de doble entrada (4 filas
por 3 columnas) le permite representar fácilmente sus datos, que serán guardados en
una variable con dos índices:
28

Años de antigüedad
1 2 3

1234
Artículos A₁ A 12 A13
A2 A2
1 2 A23
A31 A32 A33
4 A41 A42 A43

A,,
11 representa el precio del artículo 1 con 1 año de antigüedad, A,,12 representa el
precio del artículo 1 con 2 años de antigüedad, ...
Si sustituimos los símbolos de las variables (las A. ) por los valores que represen-
tan, quedará la matriz numérica:

1 2 3
1 50 60 35
2 25 30 10
3 16 10 14
4 12 8 24

que, realmente, es un cuadro de números ordenados por filas y por columnas. Los
elementos de la primera fila son los precios del artículo 1 según el año de antigüedad:
50, 60, 35 ; los elementos de la primera columna son los precios de cada artículo con un
año de antigüedad,...
Cuando el número de filas(m) y de columnas(n) es grande , una manera de repre-
sentar la suma de todos los elementos de la matriz es mediante la expresión :
m n
(9)
ΣΣΑ
i=1 j=1

que, en el ejemplo I.4 , es

4 3
ΣΣΑ
i=1 j=1

Por tratarse de sumas de números que cumplen las propiedades asociativa y

conmutativa, el resultado es el mismo cualquiera que sea el orden que sigamos para
sumar.
Se puede proceder comenzando por sumar, en primer lugar, los elementos de cada
columna, y después hallar la suma de sus resultados, o bien comenzar por la suma de
las filas, para después sumar sus totales .

Si sumamos primero las columnas, resulta:

4 3 4 3 4 4 4 4
i3 = ΣA + ΣA12 + ΣA13 =
ΣΣA¸ = Σ [Aµ = Σ(A + A₁₂ + Ais)
i=1 j=1 i=1 j=1 i=1 i=1 i=1 i=1

= (A1 +A2 + A31 + A41 ) + (A12 + A22 + A32 + A42) + (A13 + A23 + A33 + A43) =

= (50 +25 +16 + 12) + (60 + 30 +10 +8) + (35 + 10 + 14 + 24) = 103 +108 +33 = 294

Empezando por la suma de las filas:

4 3 3 4 3 3 3 3 3
ΣΣΑ = Σ
ĹĹA₁ Ź ĹA₁Σ = ΣA ΣΑ
Ĺ(A₁; + A2 + A3 + A4 ) = ΣA1; + ΣA½ + ΣA» + ΣA4
i=1 j=1 j=1 \i=1 j=1 j=1 j=1 J=1 j=1

= (A11 + A12 + A13) + (A21 + A22 + A23) + (A31 + A32 + A33) + (A41 + A42 + A43) =
=
= (50 + 60 +35) + (25 +30 +10) + (16 + 10 + 14) + (12 + 8 + 24) = 145 +65 +40 +44 = 294

Hemos comprobado, por tanto, que el resultado es el mismo cualquiera que sea el
orden que sigamos para sumar, lo que podemos expresar mediante la fórmula:
m n m n n m
ΣΣΑ = Σ Σ Α = Σ ΣΑ (10)
i=1 j=1 i=1 j= 1 j=1 i=1

Propiedades de la suma doble

I. Si k es constante, ΣΣΚΑ = ΚΣΣΑ (11)

Esta propiedad resulta evidente, ya que la constante se puede sacar factor común
en las sumas simples , según hemos visto en (5) . También resultan fáciles de compro-
bar las siguientes :

II. ΣΣΑ + Β ) = ΣΣΑ ΙΣΣΒ (12)

m n
III. ΣΣΚ = mnk = Nk , si mn = N. (13)
m n
IV. ΣΣ1 = mn = N, si mn = N. (14)
i= 1 j=1

V. Cuando cada uno de los términos a, es un producto de dos factores de la forma

bọc , donde cada factor depende de uno de los índices , la suma doble se puede
expresar como producto de sumas simples:
m n m n
ΣΣ =
, - Στ. (15)
Σε
i=1 j=1 i=1 j=1
30

Ejemplo 1.5

4 3 4 3
ΣΣ3: 41 - Σ3 Σ4 = (3 + 32 +33 +34 )(4 + 42 +43 ) = 120.84 = 10080
i=1 j=1 i=1 j=1

En ocasiones , interesa obtener sumas parciales de una suma doble, como puede
ser, en el ejemplo I.4 , la suma de los precios de todos los artículos con un año de
antigüedad (que se corresponde con la suma de los elementos de la primera columna
de la tabla):
4
ΣA₁ = A₁ +A₂21 +A₁₁
31 +A₁₁
41 = 103
i=1
o la suma de los precios de los artículos 1 y 2 (suma de las dos primeras columnas) :

ĹŻA, = Ž(A ,12) = (A,, + A2 + A31 + A

, +A 22 + A32 + A₁2) = 103 + 108 = 211
,411 ) + ( A12 + A2
i=1 j=1 i=1
PRIMERA PARTE

ESTADÍSTICA DESCRIPTIVA
CAPÍTULO 1

DISTRIBUCIONES Y GRÁFICAS

1.1 . Concepto y términos

Podemos definir la Estadística Descriptiva como un método para describir numéri-

camente conjuntos numerosos.
Por tratarse de un método de descripción numérica, la Estadística Descriptiva
utiliza el número como medio para describir un conjunto, que debe ser numeroso, ya
que las permanencias estadísticas no se dan en los casos raros . No es posible, por
tanto, sacar conclusiones concretas y precisas de los datos estadísticos.
La Estadística Descriptiva se inicia con los trabajos que realiza John Graunt sobre
la natalidad y mortalidad en Londres en el período que va de 1604 a 1661. Debido a su
origen, los términos que se utilizan son propios del ámbito de la Demografía.
Conviene hacer una distinción entre lo que llamamos Estadística Descriptiva Di-
recta, que pretende describir las características relevantes de un conjunto de datos, y
la Estadística Inferencial, que utiliza técnicas especiales para conocer los elementos
de un conjunto a partir de los datos de un subconjunto del mismo.
Francis Galton y Karl Pearson, en los últimos años del siglo XIX y en los primeros
del siglo XX , sientan las bases de la Estadística Inferencial, cuyas técnicas se aplican
hoy a casi todos los dominios de la investigación científica, como son la Medicina,
Biología, Economía, Ciencias de la Educación, Psicología, Química,...
La inferencia estadística intenta tomar decisiones basadas en la aceptación o el
rechazo de ciertas relaciones que se toman como hipótesis . Esta toma de decisiones
va acompañada de un margen de error, cuya probabilidad está determinada.

1.2 . Población, muestra e individuo

Llamamos población o universo al conjunto de los elementos que van a ser obser-
34

vados en la realización de un experimento. Cada uno de los elementos que componen

la población es llamado individuo o unidad estadística .
Los individuos no tienen por qué ser personas, sino que pueden ser objetos
cualesquiera. Estos objetos pueden ser simples, como lámparas, automóviles, niños,...
o colectivos , como familias de personas , equipos de fútbol,...
Atendiendo al número de elementos que la componen, una población puede ser
finita o infinita. Aún en el caso de una población finita, el número de individuos que
la forman puede ser suficientemente grande como para que no puedan ser observados
todos ellos.
En otras ocasiones, no es posible la observación de todos los individuos de la
población debido al coste que ello supone . En estas situaciones, se trabaja con un
subconjunto de elementos de la población al que denominamos muestra. El número
de elementos de la muestra es su tamaño.

1.3 . Caracteres y modalidades

Se llama carácter de un individuo a cada una de las facetas bajo las cuales éste
puede ser analizado. El carácter es, por tanto, una propiedad que permite clasificar a
los individuos de la población .
Así, por ejemplo, los estudiantes de una universidad pueden ser analizados , entre
otros, según los siguientes caracteres: sexo, edad, cociente intelectual, calificaciones
en una determinada asignatura, estatura, peso,...
Un mismo carácter puede presentar distintas situaciones, a las que llamaremos
modalidades de dicho carácter. Así, el carácter sexo presenta dos modalidades: sexo
masculino y sexo femenino .
Aquellos caracteres que sólo admiten dos modalidades, como el sexo , se llaman
dicotómicos.

A) Propiedad fundamental :

Las diversas modalidades de un mismo carácter deben ser incompatibles y

exhaustivas

es decir, cada uno de los individuos de la población debe tener una y sólo una de las
modalidades del carácter.
Para un mismo carácter, el número de modalidades que pueden ser analizadas es
variable. Así, el estado matrimonial de una persona puede considerarse bajo dos
modalidades: casado o soltero; tres modalidades : casado, soltero, viudo ; cuatro mo-
dalidades: casado, soltero, viudo , divorciado; cinco modalidades : casado, soltero,
viudo, divorciado, separado; ...
35

B) Tipos de caracteres :

Es conveniente distinguir entre dos tipos de caracteres : cualitativos y cuanti-

tativos.

Un carácter se dice cuantitativo cuando sus diversas modalidades pueden ser

medidas o numeradas. La talla, el peso, la edad, el diámetro de una pieza circular,... son
caracteres cuantitativos.
Un carácter se dice cualitativo cuando sus distintas modalidades no son medibles
ni contables , sino que su variación se pone de manifiesto mediante cualidades que
presentan formas alternativas, como puede ser el estado matrimonial, el sexo ,...

1.4. Variable estadística

En el caso de un carácter cuantitativo , a cada modalidad del mismo se le asocia un

número. Esta correspondencia define lo que llamamos variable estadística, de modo
que los diferentes valores de las distintas modalidades son los posibles valores de
dicha variable estadística.
Cuando los valores posibles de la variable estadística son aislados , se dice que la
variable estadística es discreta. Constituyen una variable estadística discreta el núme-
ro de miembros que pueden convivir en una misma familia, el número de goles que
consiguen los equipos de fútbol de la primera división en una jornada,...
Si los valores posibles de la variable estadística son infinitos o es posible encon-
trar individuos que los posean con una diferencia tan pequeña como se desee , se dice
que la variable estadística es continua .
El diámetro de una pieza circular, la capacidad de una bombona de gas butano, la
talla de los quintos de un reemplazo,... son ejemplos de variable estadística continua.
La distinción entre variable estadística discreta y continua es arbitraria. Suele
considerarse como continua una variable capaz de tomar gran número de valores ,
aunque sean valores aislados, como pueden ser los salarios mensuales de los obreros
de una gran empresa.

1.5 . Distribución de frecuencias

La Estadística Exploratoria recomienda comenzar por el análisis de la estructura de

los datos . Se clasifican éstos de acuerdo con la modalidad del carácter a que pertene-
ce cada uno de los individuos y se ordenan, anotando sus resultados en una tabla.
La ordenación de los datos en la tabla, acompañados de las frecuencias corres-
pondientes, es lo que se llama distribución de frecuencias.
36

A continuación definimos el concepto de frecuencia y sus clases, y exponemos el

diseño general de una tabla estadística.

1.5.1. Frecuencia absoluta y relativa

Se llama frecuencia absoluta, n , de la modalidad C, al número de individuos que

presentan dicha modalidad.
Se llamafrecuencia relativa, f , de la modalidad C, al cociente de dividir su frecuen-
cia absoluta, n , por el número total de individuos de la población, N:
n¡ (1)
fi
N

A veces, la frecuencia relativa se da como porcentaje (frecuencia relativa referida

a 100 individuos), que se obtiene de multiplicar por 100 la frecuencia relativa:

P₁ = 100f (2)

1.5.2. Propiedades de las frecuencias

Como las modalidades C,, C2, ..., C. del carácter C son incompatibles y exhausti-
vas, se verifica:
1. La suma de las frecuencias absolutas es igual al número de individuos de la
población:

Ση = N (3)
i=1

2. La suma de las frecuencias relativas es igual a 1 :

(4)
Σf = 1
i=1

k k
-Z

1
IM

En efecto: Σε = Ση = -N = 1
Σ n₁ = —
i=1 i= 1 N N i=1 N

1.5.3 . Frecuencias acumuladas

Consideremos una población de N individuos , cuyo carácter C es cuantitativo .

Llamamos frecuencia absoluta acumulada en el valor x, a la suma de las frecuencias
absolutas de los valores menores o iguales a x , y la representaremos por N :
37

i
(5)
N₁ = Σnj
j=1

Para obtener las frecuencias absolutas acumuladas, es conveniente ordenar los

valores de la variable x..
Llamamos frecuencia relativa acumulada en x, al cociente de dividir la frecuencia
absoluta acumulada por el número de observaciones; la representamos por F:

IM-
N₁
Fi = (6)
N = Σfj
j=1

1.6. Parámetros y estadísticos

A partir de los datos estadísticos contenidos en la distribución de frecuencias se

obtienen unos valores numéricos , que se utilizan como resúmenes cuantitativos de la
misma, y que se denominan estadísticos o estadígrafos de la distribución . La media
aritmética, que después definiremos, es un estadístico .
Hay dos tipos de estadísticos: descriptivos e inferenciales.
Los estadísticos descriptivos son valores numéricos obtenidos a partir de los
datos de una distribución de frecuencias y que señalan una característica de la misma.
Los estadísticos inferenciales son también valores numéricos obtenidos a partir
de los datos de una distribución estadística, pero que se utilizan para proporcionar
información acerca de la población a que pertenece la muestra cuyos datos forman la
distribución .
Muchos de los estadísticos descriptivos son también utilizados como estadísticos
inferenciales. Por ahora sólo trataremos estadísticos descriptivos . El valor correspon-
diente a un estadístico inferencial en la población se llama parámetro. La media arit-
mética poblacional es un parámetro.
Los valores de los parámetros son, de ordinario, desconocidos, ya que las pobla-
ciones suelen ser demasiado amplias para poder tener un conocimiento directo de
todos sus elementos. Por ello, los parámetros se estiman a partir de los datos de las
muestras, usando técnicas propias de la Estadística Inferencial.

1.7. Tablas estadísticas

Hecho el recuento de los individuos que pertenecen a cada modalidad del carácter
analizado , se recogen los datos ordenados en una tabla.
38

Los paquetes informáticos disponen de módulos orientados al diseño de tablas de

frecuencias, con opciones para dirigir la salida de resultados a la pantalla del ordena-
dor, a la impresora o a un «plotter» .
Supongamos una distribución de N individuos descrita según un carácter C que
presenta k modalidades C,,C,,...,C . La forma general de la tabla es :

Modalidades F. Absolutas F. Relativas Porcentajes

C n f 100xf
C₂ n2 f₂ 100xf2

n 100xf

Ck nk 100xf
Total N 1 100%

Ejemplo 1.1

La tabla siguiente corresponde a la distribución de 50 personas atendiendo al

color de los ojos:

Modalidades F. Absolutas F. Relativas Porcentajes

Azules 16 0'32 32%

Verdes 12 0'24 24%
Castaños 14 0'28 28%
Negros 8 0'16 16%
Total 50 1'00 100%

1.7.1 . Tabla de una variable estadística discreta

Cuando el carácter estudiado es cuantitativo, si la variable estadística es discreta,

las modalidades del carácter son los posibles valores x, de éstas.
39

La tabla estadística correspondiente a una variable discreta se construye ordenan-

do de menor a mayor los distintos valores de la variable y anotando en columnas
sucesivas las frecuencias absolutas, las frecuencias relativas y los porcentajes :

Valor de la variable F. Absoluta F. Relativa Porcentajes

Χ n₁ 100xf
X₂ n₂ 2 100xf₂

n f 100xf

X nk 100xf
Total N 1 100%

La tabla estadística se completa añadiendo los valores de las frecuencias acumu-

ladas, que se suelen situar sobre las líneas con el fin de facilitar su comprensión y los
cálculos posteriores .

Ejemplo 1.2

Elegida al azar una muestra de 50 familias de una ciudad española, se contabiliza-

ron 7 familias sin hijos , 13 familias con un solo hijo, 15 con 2 hijos, 8 con 3 hijos y 7
familias con 4 ó más hijos.
La tabla, completada con las frecuencias acumuladas, es:

X n N f F P%

0 7 0.14 14
7 0,14
1 13 0,26 26
20 0,40
2 15 0,30 30
35 0,70
3 8 0.16 16
43 0,86
4 ó más 7 0,14 14
50 1,00
Total 50 1,00 100%
40

1.7.2. Agrupación en clases

Para facilitar el estudio de los posibles valores de una variable estadística conti-
nua, éstos se agrupan en clases o intervalos de clase , que constituyen las modalida-
des del carácter.
Generalmente se toman los intervalos solapados de forma que cubran todos los
posibles valores de la variable; son intervalos semiabiertos (cerrados por la izquierda
y abiertos por la derecha).
Representaremos la i-ésima clase por

[e,i-1
. ,, e ) (7)

donde e₁, es el extremo inferior del intervalo y e, es el extremo superior, que no forma
parte del mismo.
La amplitud de clase es la distancia entre sus extremos. La amplitud de la clase i-ésima
es, por tanto:
a=e-ei-1 (8)

Las clases pueden tener una amplitud constante o variable, aunque es aconsejable
elegir los intervalos con amplitud constante.
Así, las estaturas de una muestra de estudiantes pueden agruparse en clases de la
siguiente forma:
de 1,55 m. a menos de 1,65 m.
de 1,65 m. a menos de 1,75 m.
de 1,75 m. a menos de 1,85 m.
más de 1,85 m.

La amplitud de las tres primeras clases es de 10 cm., mientras que la amplitud de la

última clase es indeterminada. Se dice que esta clase es abierta . Los extremos de clase
son 1,55 ; 1,65; 1,75; ... Los intervalos de clase son [ 1'55,1'65) , [ 1'65,1'75),... La última
clase no tiene extremo superior.
La elección del número de clases depende del recorrido y de la amplitud de cada uno
de los intervalos. Se define el recorrido o rango de una variable estadística como la
diferencia entre los valores mayor y menor de la variable. Si lo representamos por R, es:

R = máx(x ) - mín(x ) (9)

Se puede fijar el número de intervalos y deducir la amplitud de éstos o bien fijar la

amplitud y calcular el número de intervalos.
Si son todos los intervalos de amplitud constante a =a, el número n de intervalos
de clase, la amplitud y el recorrido verifican la relación:
n = R/a (10)

Se suele actuar de acuerdo con los siguientes criterios :

1 ) El número total de intervalos de clase debe estar comprendido entre 5 y 15. Si se
elige un número menor, pueden darse inexactitudes, y un número mayor de 15 compli-
41

ca excesivamente el proceso. Si se tienen N observaciones, Sturges propone tomar

como número k de intervalos el valor

k= 1 +[3'3 · logN] (11)

2) Siempre que sea posible, se debe procurar que todos los intervalos tengan la
misma amplitud. Cuando se elige previamente la amplitud de clase, se toma, como
valor de la misma, la raíz cuadrada del número de observaciones N:

a=√N (12)

Se llama centro o marca de clase al punto medio de cada intervalo de clase . La

marca de la i -ésima clase es:
ei-1 + ei
C₁ = (13)
2

Es conveniente disponer, al hacer los cálculos , de la distancia entre dos marcas de

clase consecutivas . La distancia entre las marcas de la clase i y de la clase i+ 1 viene
dada por:
ei teitl ei-1 + ei Ci+1-ei-l (14)
di = Ci+1- Ci =
2 2 2

Cuando los datos están agrupados en clases , se considera que todos los indivi-
duos pertenecientes a una clase tienen el valor que señala la marca de clase . Por este
motivo, la utilización de intervalos de clase, si bien supone una mayor comodidad en
los cálculos, también conlleva una pérdida de información , sobre todo si la distribu-
ción de los datos en el intervalo no es homogénea.

Ejemplo 1.3

Se ha realizado un test para evaluar la capacidad de abstracción de un grupo de

treinta alumnos de primer curso de Bachillerato, obteniéndose los resultados que
figuran en el siguiente recuadro:

22 40 45 36 38 24 32 41 50 41 29 44 33 38 28
29 45 34 26 28 28 32 47 50 41 36 31 24 30 36

Para construir la tabla de frecuencias, como el recorrido es 50-22=28 , se pueden

elegir seis o siete clases. Si se opta por seis clases, los datos estarán agrupados de la
siguiente forma:
Intervalos Frecuencias

[22,27) 4
[27,32) 6
[32,37) 7
[37,42) 6
34

[42,47)
[47,52)
42

Es frecuente también el uso de intervalos que no están solapados, como pueden

ser las puntuaciones facilitadas por el siguiente ejemplo:

Ejemplo 1.4

Las calificaciones obtenidas por los alumnos de un colegio han sido reflejadas en
la siguiente tabla:

Intervalos Frecuencias

1-10 30
11-20 15
21-30 63
31-40 84
41-50 50
51-60 46
61-70 32
71-80 14
Total 364

Es evidente que no están recogidas calificaciones no enteras , como puede ser una
puntuación de 50'5 puntos , y, sin embargo, en alguna situación podría ser interesante
disponer de datos como éste .
Por ello, es conveniente elegir nuevos intervalos que contengan estos posibles
valores , manteniendo las frecuencias.
En este ejemplo, basta con tomar como extremos a los puntos medios entre los
extremos superior e inferior de cada dos intervalos contiguos, modificando también
los intervalos de modo que todos ellos tengan la misma amplitud .
La tabla de frecuencias para el ejemplo 1.4 . quedaría así:

Intervalos Frecuencias

0'5-10'5 30
10'5-20'5 15
20'5-30'5 63
30'5-40'5 84
40'5-50'5 50
50'5-60'5 46
60'5-70'5 32
+ ཙྪཱ

70'5-80'5 14
Total 364
43

1.7.3. Tabla de una variable estadística continua

Si la variable estadística es continua, bien por su propia naturaleza, bien porque

así sea considerada, las modalidades del carácter son las diferentes clases elegidas,
que vienen determinadas por sus extremos .
Para facilitar la lectura y comprensión de los datos , las frecuencias acumuladas se
suelen situar sobre las líneas .
Las modalidades extremas a veces son imprecisas , lo cual no es problemático, ya
que las frecuencias correspondientes representan generalmente una fracción muy
pequeña de individuos.

Ejemplo 1.5

Una oficina de reclutamiento del ejército ha medido la estatura de 100 jóvenes de

reemplazo, obteniendo los siguientes resultados (en centímetros) :

183 182 165 179 174 171 179 182 193 188 164 186 170 173 175 177 168
169 191 176 172 181 168 175 160 171 166 164 171 176 181 188 183 188
163 181 187 191 172 176 181 174 176 184 171 169 169 179 178 162 178
177 158 161 179 162 174 167 180 172 185 188 174 177 171 182 163 172
187 168 156 161 168 183 172 186 179 192 157 168 178 173 183 157 166
195 173 178 188 164 163 170 164 168 159 169 187 184 166 169

El recorrido es 195-156=39 cm. que, dividido entre 6, da un resultado próximo a 7.

Tomamos, por tanto, un número de 7 intervalos, cada uno con una amplitud de 6
centímetros .
Si completamos la tabla con las marcas de clase, frecuencias absolutas , frecuen-
cias relativas, frecuencias acumuladas y porcentajes , queda:

Extremos Marcas Fre. ab. Fre. [Link]. Fre. rel. [Link]. Porcentajes

154-160 157 5 5 0'05 0'05 5%

160-166 163 13 18 0'13 0'18 18%
166-172 169 22 40 0'22 0'40 40%
172-178 175 21 61 0'21 0'61 61%
178-184 181 21 82 0'21 0'82 82%
K8

184-190 187 13 95 0'13 0'95 95%

190-196 193 5 100 0'05 1'00 100%
Total 100 1'00 100%
44

1.8 . Representaciones gráficas

La forma tabular de presentar la distribución de un carácter suele ir acompañada

de una gráfica. Un despliegue gráfico proporciona una impresión que ayuda a clarifi-
car la variabilidad y simetría de la distribución que figura en la tabla de frecuencias .
Los programas informáticos permiten el uso de una amplia gama de gráficos esta-
dísticos, cada uno de ellos con múltiples opciones especiales, que ayudan a determi-
nar la estructura de los datos, a encontrar relaciones entre ellos e incluso a comprobar
ciertas hipótesis, de forma que hoy se están utilizando para hacer inferencias.
Los gráficos estadísticos , que constituyen una de las herramientas fundamentales
de que se sirve la Estadística Exploratoria , están siendo utilizados también en la Esta-
dística Inferencial o Confirmatoria.
Hay diferentes tipos de gráficos que dependen, en general, de la naturaleza del
carácter estudiado :
I. Carácter cualitativo : En este caso, se suelen utilizar figuras geométricas, como
rectángulos o círculos; a esta categoría pertenecen los diagramas de rectángulos o
barras y de sectores. También se usan figuras no geométricas, como los pictogramas.
En las Ciencias de la Educación, es muy frecuente el uso de los perfiles ortogonal
y radial.
II. Carácter cuantitativo : Cuando el carácter es cuantitativo, hay diversos tipos
de representaciones, dependiendo además del hecho de que se estudie una o más de
una variable. Los tipos fundamentalmente son dos :
1) Diagrama diferencial: A esta categoría pertenecen el diagrama de barras o
rectángulos, en el caso discreto, y el histograma , en el caso continuo . A estos gráfi-
cos se les asocia el polígono de frecuencias simples, que es usado en ambas situacio-
nes, y la curva de frecuencias en el caso continuo.
2) Diagrama integral: Dentro de esta categoría se encuentra el diagrama de
frecuencias acumuladas y el polígono de frecuencias acumuladas en el caso discre-
to, y la curva acumulativa de frecuencias u ojiva , en el caso continuo .
El análisis exploratorio de datos ha incorporado nuevos tipos de gráficos orienta-
dos , unos a la detección de asimetrías , lagunas y anomalías, y otros con carácter
confirmatorio, que serán analizados en el capítulo que dedicamos al estudio de los
métodos exploratorios .

1.8.1 . Representaciones de caracteres cualitativos

I. Diagrama de rectángulos

El diagrama de rectángulos se construye sobre un sistema de ejes cartesianos ,

situando en uno de los ejes las distintas modalidades del carácter y en el otro los
valores de las frecuencias.
45

Para elegir la unidad de medida, se considera la frecuencia mayor y se toma como

máximo un valor próximo superior a ella. Así, si el mayor valor de la frecuencia fuese
9, se tomaría 10 como valor máximo sobre el eje correspondiente .
Sobre cada modalidad se levantan barras o rectángulos de la misma base, que, por
tratarse de datos discontinuos, no suelen estar solapados, y de altura proporcional a
la frecuencia de la modalidad (se toma habitualmente la altura igual a la frecuencia) .
Según se sitúen las modalidades del carácter sobre el eje de abscisas o de ordena-
das, se tendrán diagramas de rectángulos verticales u horizontales.

Ejemplo 1.6

La tabla siguiente contiene los datos de la distribución de 150 personas de 25 a 45

años de edad, según su estado civil.

Estado Soltero Casado Viudo Divorciado Religioso No declarado

Fr. absoluta 20 78 15 26 7 4

Se consideran las modalidades de soltero, casado, viudo, divorciado o separado,

religioso y no declarado . Las figuras 1.1 y 1.2 contienen los diagramas de rectángulos
vertical y horizontal correspondientes.

ND
80 R
70
60 D
50 V
40
30 C
20
S
10
0 10
R ND 0 20 30 50 60 70 80

Figura 1.1 . Diagrama vertical. Figura 1.2. Diagrama horizontal.

II. Diagrama de sectores

El diagrama de sectores de una distribución se construye trazando una circunfe-

rencia de radio arbitrario y dividiendo su círculo en sectores .
Cada sector circular se asocia con cada una de las modalidades del carácter, de
modo que el ángulo central de cada sector sea proporcional a la frecuencia de la
correspondiente modalidad.
46

S
ND

Figura 1.3 . Diagrama de sectores.

A veces, al diagrama de sectores se le da una profundidad, lo que le confiere un

aspecto de «pastel circular», «< gráfico en ruedas» o «queso en porciones», apelativos
con los que también se le denomina. Los diagramas de sectores se utilizan principal-
mente en Demografía y en Geografía Económica.

III . Pictograma

En este tipo de gráfico, cada modalidad del carácter se representa por una figura
no geométrica, como puede ser un automóvil, un edificio, una herramienta de traba-
jo,... de tamaño proporcional a su frecuencia.
Para evitar confusiones, según se tomen las frecuencias proporcionales a la longi-
tud, a la superficie o al volumen de la figura, debe tenerse en cuenta que, si la razón
de las longitudes es de 1/r, la razón de las superficies es de 1/r2 y la de los volúmenes
de 1/r³ . Un procedimiento alternativo consiste en tomar un dibujo como modelo y
repetirlo un número de veces proporcional a la frecuencia de la modalidad correspon-
diente .

Ejemplo 1.7

Consideremos la producción de determinado modelo de automóvil de una empresa

en sus diversas factorías en cuatro ciudades A, B , C y D:

Ciudad A B C D

N° de automóviles 500 1000 2000 3500

AB C D
47

Representación alternativa:

A:
B:
C:
D:

IV. Perfiles

Los perfiles pueden adoptar forma radial, cuando las modalidades del carácter se
representan sobre radios que parten de un mismo punto, u ortogonal, cuando se
representan sobre unos ejes cartesianos .
La utilidad del perfil en el campo educativo se justifica por el hecho de captar, de
una vez, diversos rasgos o características del alumno.
Según los rasgos que se pretenden ilustrar, hay una gran variedad; hay perfiles
sobre intereses, aptitudes, rendimiento, ... Los perfiles sobre rendimiento académico
reciben el nombre de nosogramas.
Los perfiles, realmente no son gráficos que correspondan a distribuciones de un
carácter. Sin embargo, los hemos incluido aquí, porque cabe la interpretación de las
calificaciones como valor de la frecuencia de cada asignatura.

A) Perfil ortogonal

Dado un sistema de ejes cartesianos , sobre el eje de abscisas se sitúan las diver-
sas modalidades del carácter, como pueden ser las diversas asignaturas que cursa un
alumno: Matemáticas , Física, Química, Dibujo y Biología.
Sobre cada asignatura se marcan con un punto los valores correspondientes a
cada calificación. Uniendo los distintos puntos, se obtiene una línea quebrada, que
constituye el perfil ortogonal. Se suele completar la representación trazando alguna
paralela al eje de abscisas para resaltar un determinado aspecto .

Ejemplo 1.8

La siguiente tabla contiene las calificaciones de un alumno, cuyo perfil ortogonal

se muestra en la figura 1.4 .
48

Asignaturas Calificaciones 91

Matemáticas 6

5879
Física
Química
Dibujo
Biología
Figura 1.4. Perfil ortogonal.

B) Perfil radial

Para construir el perfil radial, se fija un punto del plano como origen.
M A partir de dicho punto se trazan tantos radios como
asignaturas, formando ángulos de la misma amplitud.
B
Sobre cada radio se toman segmentos proporciona-
les a las calificaciones respectivas. La unión de los pun-
tos extremos de los segmentos determina un polígono,
que constituye el perfil radial.
La figura 1.5 muestra el perfil radial correspondiente
al ejemplo 1.8.

Figura 1.5 . Perfil radial.

VI. Cartograma

Se llama cartograma a la representación so-

bre un mapa de las diversas modalidades del
carácter, que se corresponden con determina-
das zonas geográficas.
Se trata de un método de representación por
superficies, que asigna a cada zona un área pro-
porcional a la superficie representada.
Cada zona geográfica se diferencia de otra
por la intensidad luminosa, que viene marcada
por el efecto del color o del tipo de sombreado,
que le confiere una tonalidad específica.
Para que dos zonas geográficas se conside-
Figura 1.6. Cartograma. ren equivalentes deben tener la misma dimen-
sión y la misma tonalidad.
No es conveniente utilizar más de 10 tonalidades diferentes en un cartograma; de
lo contrario se pierde claridad y no resulta fácilmente legible.
49

1.8.2. Representaciones de caracteres cuantitativos

[Link] . Diagramas diferenciales

I. Diagrama de barras o rectángulos

Cuando la variable estadística es discreta y toma pocos valores, el gráfico adecua-

do es el diagrama de barras o rectángulos , que ya se trató en el caso de variables
cualitativas, con la diferencia de que ahora sobre el eje de abscisas se sitúan los
valores de la variable.

0,5

0
0 1 2 3 4 ó más

Figura 1.7. Diagrama de barras para el ejemplo 1.2.

Si se utilizan barras, una vez colocados los valores de la variable en el eje de

abscisas, se levantan sobre ellos unos segmentos (barras) de altura igual a la frecuen-
cia correspondiente.
Según se tome la frecuencia absoluta o relativa, la suma de las longitudes de
todos los segmentos será N ó 1 .

II . Histograma

Cuando la variable estadística es continua, el diagrama diferencial que se utiliza es

el histograma, cuya representación está fundamentada en la proporcionalidad de las
áreas de rectángulos a las frecuencias de cada modalidad .
Para construir el histograma, se levanta sobre cada intervalo de clase un rectángu-
lo de área proporcional a la frecuencia correspondiente a dicho intervalo.
Si se trata de intervalos de la misma amplitud, las alturas de cada uno de ellos se
toman iguales a las frecuencias correspondientes.
Cuando las amplitudes son diferentes, las alturas de cada rectángulo deben de ser
iguales a las frecuencias absolutas divididas por la amplitud correspondiente :
50

Ni
bi = (15)
ai
Se conoce este valor como densidad de frecuencia del intervalo [e,,,e ) . El área del
rectángulo correspondiente a la clase i-ésima es, por lo tanto:
Ni (16)
Si = --ai = ni
ai

y la suma de las áreas de todos los rectángulos es :

n
(17)
S = Σn;= N
i=1

Si se toman frecuencias relativas, la suma de las áreas es igual a 1 .

Ejemplo 1.9

Un grupo de 200 alumnos han sido calificados de 0 a 100 por un profesor, que
facilita los resultados agrupados en intervalos de diferente amplitud , según muestra la
siguiente tabla:
4
Calificac. Núm. alumnos

0-20 22
20-30 26
30-40 31
40-50 38
50-60 30
60-70 25
0 20 30 40 50 60 70 80 100
70-80 12
80-100 16
Figura 1.8 . Histograma correspondiente al ejemplo 1.9.

Las amplitudes de los intervalos de clase son diferentes: la primera y la última

miden 20 unidades y el resto 10.
228

Tomamos la altura de cada rectángulo igual a la densidad de frecuencia:

Rectángulo 1º: base = 20, altura = 1'1
11 2º: 11 11 = 2'6
= 10,
"1 11 11
3º: = 10, = 3'1
11 11 11
11 11 = 0'8
8º: = 20,

El área total es:

S = 20x1'1+ 10x2'6+...+20x0'8 = 200
51

III. Polígono de frecuencias simples

El polígono de frecuencias simples (o polígono de frecuencias) es el método grá-

fico más utilizado para la representación de la distribución de un carácter, lo que se
debe a su fácil interpretación y a la sencillez de su realización.
Vamos a distinguir dos situaciones , según se trate de una variable discreta o
continua.

A) Variable discreta

En este caso, se trazan unos ejes cartesianos ; sobre el eje de abscisas se sitúan
los valores de la variable estadística X, y sobre el eje de ordenadas se llevan los
valores de las frecuencias tal como se hizo para construir el diagrama de barras.
En lugar de trazar la barras
completas, ahora se señalan los 12
puntos superiores de las mis-
10
mas; uniéndolos mediante seg-
mentos rectilíneos , se consigue 8 M
el polígono de frecuencias.
6
Para que la gráfica no quede
colgada, se supone que hay dos
valores más de la variable con fre-
cuencia cero, uno anterior al pri- 2
mero de sus extremos y otro pos-
0
terior al último. De esta forma, se 1 2 3 4 5 6 7 8 9 10
prolonga el polígono en dos seg- Figura 1.9. Calificaciones en Física y Matemáticas.
mentos hasta que sus extremos
toquen el eje de abscisas .
Para hacer comparaciones, a veces sobre un mismo gráfico se representan los
polígonos de frecuencias correspondientes a dos o más distribuciones.

Ejemplo 1.10

La siguiente tabla contiene las frecuencias de las calificaciones, en Matemáticas y

Física, de un grupo de 40 alumnos de COU:

Calificaciones 2 3 4 5 6 7 8 9

Matemáticas 3 4 6 9 10 4 3 1

Física 4 5 9 6 6 6 2 2

La gráfica 1.9 . muestra los polígonos de frecuencias de ambas distribuciones .

B) Variable continua

Si la variable es continua, para construir el polígono de frecuencias, se admite que

la media de los valores correspondientes a cada intervalo se sitúa en el punto medio
del mismo, es decir, se hace coincidir la media de las puntuaciones de cada clase con
la marca de clase.
Los valores de las frecuencias se sitúan en los puntos medios de las bases supe-
riores de cada uno de los rectángulos del histograma.
El polígono de frecuencias es
0'25 la poligonal que se obtiene de la
unión de estos puntos mediante
segmentos rectilíneos.
Como en el caso discreto , se
supone que existen dos interva-
los de clase de frecuencia cero,
uno delante del primer intervalo
y el otro detrás del último, lo que
hace posible prolongar el polígo-
no hasta tocar al eje de abscisas .
0 20 30 40 50 60 70 80 100 La figura 1.10. muestra el polí-
gono de frecuencias correspon-
Figura 1.10. Polígono de frecuencias para el ejemplo 1.9. diente a la distribución del ejem-
plo 1.9 superpuesto al histograma.

IV. Curva de frecuencias

El histograma de una distribución, cuando se toman frecuencias relativas, es tal

que la suma de las áreas de todos los rectángulos es igual a uno . Por ello, todos los
valores de la distribución están bajo la gráfica del polígono de frecuencias simples .
0'25 Se puede expresar, por tanto,
la población como el área bajo
esta gráfica, que está formada por
segmentos rectilíneos.
Los datos de una distribu-
ción habitualmente forman parte
de una muestra extraída de una
población grande, cuyo conoci-
miento es el objetivo final.
El polígono de frecuencias
0 20 30 40 50 60 70 80 100 simples, cuando aumenta el tama-
ño de la muestra y se hacen más
Figura 1.11 . Curva de frecuencias para el ejemplo 1.9.
53

pequeñas las amplitudes de los intervalos de clase , se aproxima a una curva de una
distribución teórica, llamada «curva de frecuencias» .
La curva de frecuencias es una especie de polígono de frecuencias simples suavi-
zado, que proporciona una representación aproximada de la distribución de la pobla-
ción correspondiente.

[Link]. Diagramas integrales para variable discreta

I. Diagrama de frecuencias acumuladas

Cuando la variable estadística es discreta, para construir el diagrama de frecuen-

cias acumuladas, se dibujan unos ejes cartesianos. En el eje de abscisas se sitúan los
valores de la variable, y sobre ellos se toman segmentos perpendiculares de longitud
igual a la frecuencia acumulada.
El diagrama de frecuencias
acumuladas se consigue trazan-
do segmentos de paralelas al eje 1
de abscisas a partir del extremo
superior de cada segmento per-
pendicular hasta tocar al siguien- C, 5
te situado a su derecha.
Esta gráfica se completa con
dos semirrectas horizontales ,
una con origen en la base de la
0 1 2 3 4 ó más
primera barra dirigida hacia la iz-
quierda, y la otra con origen en
la parte superior de la última ba- Figura 1.12 . Diagrama de frecuencias acumuladas.
rra y dirigida hacia la derecha.
También se pueden tomar porcentajes acumulados, en cuyo caso los valores so-
bre el eje de ordenadas estarán comprendidos entre 0 y 100 , siendo 100 la longitud de
la última barra. La línea quebrada (en escalera) así obtenida es la gráfica de una
función del conjunto de los números reales , R , en el intervalo cerrado [ 0,1 ] , que a
cada número real x le hace corresponder la proporción de individuos cuya modalidad
del carácter es menor o igual a x:

F: R → [0,1]
x → F(x)
Esta curva es conocida también como curva de distribución, y la función F como
función de distribución. La figura 1.12 recoge el diagrama de frecuencias acumuladas
del ejemplo 1.2.
54

II. Polígono de frecuencias acumuladas

Para trazar el polígono de frecuencias acumuladas , se procede como en el caso del

diagrama de frecuencias acumuladas , dibujando, en primer lugar, el diagrama de barras
crecientes (la altura de la última barra es 1 ó 100, según se tomen frecuencias relativas
acumuladas o porcentajes acumulados).
Uniendo los extremos supe-
riores del diagrama de barras cre-
1
cientes mediante segmentos
rectilíneos , se obtiene una línea
quebrada creciente, que corres-
05
ponde al polígono de frecuencias
acumuladas.
La figura 1.13 . muestra el po-
0 lígono de frecuencias acumula-
1 2 3 4 5 6 7 8 9 das para la distribución de las
calificaciones en Matemáticas del
ejemplo 1.10.
Figura 1.13 . Polígono de frecuencias acumuladas.

[Link] . Diagramas integrales para variable continua

I. Curva acumulativa de frecuencias u ojiva

Cuando la variable estadística es continua, una vez fijados los intervalos de clase
sobre el eje de abscisas, se llevan sobre el eje de ordenadas las frecuencias relativas
acumuladas o los porcentajes acumulados .
Al trazar el polígono de frecuencias para variable continua, se tomaban los valores
de las frecuencias sobre el punto medio de la base superior de los rectángulos del
histograma.
En cambio, para trazar la curva acumulativa de frecuencias relativas, se toman
sobre la ordenada correspondiente al límite superior de cada intervalo de clase, pues-
to que a cada extremo superior de los intervalos de clase se le asocia el tanto por
ciento de individuos de la población que quedan por debajo de dicho límite .
Trazando segmentos de paralelas al eje de abscisas a partir de cada punto hasta
llegar a la ordenada correspondiente al siguiente extremo de clase, y completando la
gráfica con dos semirrectas horizontales de modo análogo a como se procedió con
variables discretas, se obtendría el polígono de frecuencias acumuladas .
Sin embargo, en el caso continuo, no se suele utilizar el polígono de frecuencias
acumuladas, sino que se aproxima éste por una curva que se adapta a los puntos
obtenidos, sin que necesariamente tenga que tocar a todos.
55

Esta curva tiene forma de arco apuntado, por lo que también recibe el nombre de
ojiva.
Fijado un valor x, de la variable , es decir sobre el eje de abscisas , la ordenada
correspondiente en la ojiva señala el porcentaje de individuos de la población cuyo
carácter es menor o igual a x . Por ello, la ojiva puede ser utilizada para el cálculo
gráfico de los centiles, según veremos .

Ejemplo 1.11

Veamos cómo se procede para trazar la curva acumulativa de frecuencias para la

distribución de los pesos (en kgs . ) de 100 jóvenes dada por la siguiente tabla:

Clase Frec. F.r. F.r.a. Porc. [Link].

21-30 2 0'02 0'02 2% 2%

31-40 8 0'08 0'10 8% 10%
41-50 14 0’14 0'24 14% 24%
51-60 35 0'35 0'59 34% 59%
61-70 17 0'17 0'76 17% 76%
71-80 15 0'15 0'91 15% 91%
81-90 7 0'07 0'98 7% 98%
91-100 2 0'02 1'00 2% 100%

Vamos a utilizar la columna de porcentajes acumulados. Como los intervalos de

clase no están solapados , hay que tomar nuevos extremos de clase , que se sitúan
sobre el eje de abscisas: 20'5, 35'5, 40'5,...
El extremo superior del primer intervalo es 30'5 . A partir de dicho punto se toman
verticalmente 2 unidades (valor que corresponde al porcentaje del 2% de alumnos que
pesan menos de 30'5 kgs. ) , dibujando el primer punto.
Sobre el extremo superior del
segundo intervalo, 40'5, se toman
verticalmente 10 unidades (valor
que corresponde al 10% de alum-
nos con peso menor de 40'5) , y
se dibuja el segundo punto.
Procediendo de este modo, se
trazan los 8 puntos correspon-
dientes a los 8 intervalos de cla-
se. Una vez dibujados, se adap-
30'5 7015 100'5 ta a ellos una línea curva, que
no tiene por qué tocar a todos
Figura 1.14. Ojiva correspondiente al ejemplo 1.11. los puntos .
56

La línea que resulta es la curva acumulativa de frecuencias que buscábamos .

1.9 . Simetría y sesgo

En múltiples ocasiones, interesa conocer el aspecto general de una distribución de

frecuencias, como puede ser la presencia de simetría o sesgo hacia alguno de los
extremos de su curva de frecuencias.
Una distribución es simétrica cuando su curva de frecuencias puede ser dividida
en dos mitades por una recta perpendicular al eje de abscisas, siendo cada una de
ellas la imagen de la otra en un espejo.

Figura 1.15 . Curva simétrica. Figura 1.16. Curva sesgada hacia la derecha.

Las distribuciones simétricas gozan de la propiedad de que las observaciones que

equidistan del valor central tienen la misma frecuencia. Así ocurre con la distribución
de la gráfica de la figura 1.15.
Cuando los datos de una distribución tienden a agruparse en una parte de la
gráfica, con una rama extendiéndose hacia la otra parte (cola) , se dice que es asimétrica
y que está sesgada en la dirección de dicha « cola» .
Así ocurre con la distribución correspondiente a la gráfica de la figura 1.16, que
tiene un sesgo hacia la derecha.

1.10. Modalidad

La modalidad de una distribución esta-

dística hace referencia al número de «pi-
cos» que se distinguen en ella.
Las distribuciones de las figuras 1.15 y
1.16 son unimodales, ya que presentan un
‫سرا‬
solo pico. En cambio, la gráfica de la figura
1.17 corresponde a una distribución bimodal.
Figura 1.17. Curva con dos modas.
57

Las distribuciones que poseen más de dos modas reciben el nombre de

multimodales.

1.11 . Apuntamiento

Tiene también interés conocer el grado de apuntamiento o curtosis de la curva de

frecuencias de una distribución.
Las gráficas de la figura 1.18 corresponden a dos distribuciones simétricas y
unimodales , pero la segunda presenta un mayor apuntamiento, lo que significa que
las diferencias entre las frecuencias de los valores centrales y extremos son mayores
en ésta:

Figura 1.18 . Curvas con distinto apuntamiento.

Las medidas del grado de apuntamiento de una curva así como de su asimetría
serán objeto de estudio en el capítulo 3.

1.12. Ejercicios propuestos

1.1 . Las edades de los visitantes de un museo un día determinado de la semana

han sido:
27 23 37 31 38 23 36 25 22 34 27 28 35 26 34 33 23 32 29 31
30 31 33 24 32 27 34 39 30 29 32 28 29 25 24 37 23 35 24 33
31 30 31 22 35 37 24 24 23 36 22 29 37 33 34 21 22 28 36 29
1) Construir la tabla de frecuencias absolutas, completándola con las frecuencias
acumuladas y porcentajes.
2) Representar la distribución mediante el diagrama integral adecuado.

1.2. Los pesos (en Kgs . ) de los niños recién nacidos en una clínica maternal
durante el último año han sido :

2'5-2'75 2'75-3 3-3'25 3'25-3'5 3'5-3'75 3'75-4 4-4'25 4'25-4'5

27 36 85 144 98 56 32 32
58

1 ) Construir la tabla de frecuencias. 2) Hacer la representación gráfica más adecua-

da.

1.3. Durante el mes de junio se han registrado las siguientes temperaturas máximas
cada día:

26 30 30 28 28 27 26 27 28 27 26 28 28 30 24 25 28 33 31 31 27 30 31 30 29 34 31 30 30 29

1) Construir la tabla de frecuencias. 2) Hacer una representación gráfica de la

distribución.

1.4 . Las calificaciones de un alumno de primero de B.U.P. han sido : 7 ; 6 ; 8'5; 9 ; 6;

6; 5,5 ; 4'5; 8 y 7'5 en las asignaturas de Matemáticas , Lengua, Ciencias de la Natura-
leza, Inglés , Francés , Historia, Formación Religiosa, Educación Física, Dibujo y Músi-
ca, respectivamente. Dibujar sus perfiles ortogonal y radial.

1.5 . Los obreros de una gran industria han sido clasificados por categorías labora-
les, dándose los siguientes resultados:

Especialistas 1250
Oficiales de 2ª 975
Oficiales de 1ª ............ 510
Técnicos de grado medio............ 35
Técnicos superiores 12
Altos cargos ....... 8

1) Representar los datos mediante un diagrama de barras y otro de sectores. 2)

Construir el polígono de frecuencias simples y el polígono de frecuencias acumuladas.

1.6. El número de viajeros (en miles de personas) durante los 6 primeros meses del
año por carretera y ferrocarril ha sido el siguiente:

Mes Enero Febrero Marzo Abril Mayo Junio

Carretera 210 195 320 180 310 390

Tren 170 180 230 260 280 410

1) Dibujar los polígonos de frecuencias de las dos distribuciones.

1.7. Los resultados de un test de visión espacial realizado a un grupo de alumnos

fueron:
59 72 71 68 67 78 57 57 75 61 69 39 80 46 57 94 59 76 54 64 62
61 61 48 48 86 65 65 63 60 64 41 66 68 67 68 27 68 64 76 72 67
59

1) Construir la tabla de frecuencias y dibujar el polígono de frecuencias acumula-

das .

1.8. La producción de trigo y cebada en una cooperativa agrícola durante los 10

últimos años ha sido:

Trigo (fanegas) 487 546 434 465 503 388 405 298 600 446

Cebada (fanegas) 458 730 895 978 802 630 754 790 878 910

Construir la tabla de frecuencias y los polígonos de frecuencias de las dos distri-

buciones .

1.9 . Un saltador de pértiga ha realizado, durante los 10 últimos días , las siguientes
marcas:

4'86 5'01 5'42 5'82 5'12 5'01 6'00 5'92 5'90 5'95

1 ) Construir la tabla de frecuencias . 2) Dibujar el diagrama de barras y el de fre-

cuencias acumuladas.

1.10. La distribución del empleo de los españoles por sectores económicos el

primer trimestre de 1991 era:

Agricultura ..... 14'6%

Construcción 8'5%
Industria ......... 23'7%
Servicios 43'3%
Otros ........... 9'9%

Representar la distribución mediante un diagrama de sectores.

1.11 . Suponiendo que la siguiente tabla muestra la producción de trigo, cebada,

maíz , girasol, uva y aceituna en las cinco provincias de Castilla-La Mancha:

Trigo Cebada Maíz Girasol Uva Aceituna

Albacete 2500 3260 3245 4135 3280 1275

Ciudad Real 3480 2560 2360 3270 5680 1360
Cuenca 1250 2450 3200 5270 2450 980
Guadalajara 2460 1470 4200 5270 1480 1380
Toledo 4250 3270 1580 1890 4250 4270

Construir un cartograma que refleje los datos de la tabla.

1.12 . Las puntuaciones obtenidas por un grupo de universitarios en unas pruebas

de aptitud para aprender inglés han sido las siguientes :

35 48 63 24 46 58 46 32 26 83 84 96 32 94 28 46 53 62 75 76 44 31 59 83 45 22 29
91 60 61 54 42 56 31 64 56 48 59 91 87 78 76 44 58 26 28 40 81 70 70 63 64 37 45

1) Construir la tabla de frecuencias y hacer una representación gráfica adecuada

de los datos.

1.13 . La siguiente tabla contiene los resultados de las calificaciones de un test de

aptitudes realizado entre los obreros de una fábrica:

Puntuación (X) [38,44) [ 44,50) [50,56) [ 56,62) [ 62,68) [ 68,74) [ 74,80)

No Trabajadores 7 8 15 25 18 9 6

1) Construir la tabla de frecuencias, completándola con las marcas de clase, las

distancias entre marcas de clase, las amplitudes de clase, las frecuencias absolutas y
relativas acumuladas y los porcentajes . 2) Dibujar el gráfico más adecuado a esta
distribución.

1.14 . Dada la distribución definida por la siguiente tabla:

X 3 4 9 15 20

n 3 3 8 6 2

Dibujar: 1 ) el diagrama de barras vertical; 2) el diagrama de frecuencias acumula-

das.

1.15 . Las puntuaciones obtenidas en una oposición al cuerpo de auxiliares de la

administración civil del Estado figuran en la siguiente tabla agrupadas en intervalos:

Puntuaciones Hasta 50 50-70 70-100 100-150 150-200 200-300 300-400 más de400

n 15 30 56 85 46 30 22 12

Dibujar el histograma, el polígono de frecuencias, la curva de frecuencias y la

curva acumulativa de frecuencias .

1.16. Representar, mediante un pictograma, la evolución del paro por sectores en el

primero y segundo trimestres de un año , si los datos (en miles de personas) fueron :
61

Sector Primer trimestre Segundo trimestre

Agricultura 438 241

Industria 457 350
Construcción 406 683
Servicios 589 170

1.17. Las temperaturas máximas y mínimas durante los 15 primeros días de julio, en
una ciudad, han sido:

Máximas 37 30 33 28 35 36 36 32 34 30 28 30 36 34 32

Mínimas 16 14 18 15 20 21 19 17 18 16 16 20 20 21 19

1 ) Dibujar los polígonos de frecuencias de las dos distribuciones . 2) ¿ Qué conclu-

siones se pueden sacar de comparar los dos gráficos?

1.18. La siguiente tabla recoge la vida media (en horas) de 500 lámparas:

Vida media [200,299) [300,399) [400,499) [500,599) [600,699) [700,799)

N° lámparas 54 96 130 88 85 47

1) Construir el histograma correspondiente. 2) Dibujar la curva acumulativa de

frecuencias.

1.19. Dibujar la curva de frecuencias y la curva acumulativa de frecuencias para el

ejercicio 1.17.
CAPÍTULO 2

CARACTERÍSTICAS DE POSICIÓN

2.1 . Características de una distribución de frecuencias

Después de agrupar los datos en distribuciones de frecuencias, éstas se describen

por medio de un conjunto de valores, mediante los cuales se pretende sintetizar toda
la información. Entre estos valores, están:
1) las medidas de tendencia central, también llamadas promedios o medidas de
posición, ya que señalan la localización o posición de los valores alrededor de los
cuales fluctúan los demás.
2) las medidas de dispersión, que expresan el grado de desviación de los datos
respecto de las medidas de tendencia central.
3) las medidas de simetría (o asimetría) de la distribución de los datos respecto
del punto de máxima concentración.
4) las medidas de apuntamiento, que señalan el grado de concentración respecto
de la tendencia central.
En este segundo capítulo se estudian las medidas de tendencia central, las restan-
tes medidas serán analizadas en el siguiente.
La media aritmética y la mediana, como medidas más usuales , son tratadas con
detalle. También se aborda el cálculo de percentiles y el problema inverso: dado un
valor de la variable, averiguar el rango del percentil correspondiente. Las medias
geométrica, armónica y cuadrática, y la moda son tratadas evaluando su operatividad
y sus deficiencias.
Las medidas de centralización resistentes , que juegan un papel importante en los
métodos exploratorios, son tratadas en el capítulo 4.
64

2.2. Características de tendencia central

Las tablas de frecuencias y los gráficos que acompañan a los datos de una distri-
bución estadística no cabe la menor duda de que son métodos interesantes para
presentar un resumen de la misma, que puede resultar incluso vistoso y elegante. Sin
embargo, hemos definido, al principio, la Estadística Descriptiva como un método de
<<descripción numérica» . Nuestro interés se centra ahora en encontrar esos valores
numéricos o medidas que, por sí solos, describan la localización de datos de una
distribución .
Nos serviremos de un ejemplo ' sencillo que pone de manifiesto cómo estas medi-
das nacen espontáneamente. En una clase de Matemáticas, surge la necesidad de
medir la longitud del encerado, y, al no disponer de una unidad de medida, el profesor
propone que cada alumno anote en un papel la medida que estime a simple vista. Se
recogen las anotaciones y se disponen en una tabla:

Longitud estimada Nº de alumnos

2'00 5
2'10 6
2'20
2'30 12
2'40 11
2'50 6
2'60 4
2'70 5
2'80 1
2'90 3

Se trata ahora de decidir, ante estos datos, qué valor se debe tomar como medida
de la longitud de la pizarra. Un alumno sugiere como medida 2'30 m. , argumentando
que éste es el valor que más se da (la moda). Al profesor no le parece mal la elección,
pero la encuentra poco democrática, ya que sólo se tiene en cuenta la opinión de una
quinta parte de la clase .
Otro alumno insinúa que se tome 2'35 m.; lo argumenta diciendo que la mitad de la
clase ha dado una medida menor o igual que 2'30, y la otra mitad, una medida mayor
o igual que 2'40 (la mediana).
Tampoco el profesor queda satisfecho del todo porque no se valora en su justa
medida la opinión de cada uno de los alumnos. Así surge la idea de sopesar cada

1 El ejemplo está tomado de un trabajo del Profesor Pascual Ibarra, publicado en 1968 con
el título de «< Democracia y Estadística» .
65

medida de acuerdo con el número de alumnos que la ha anotado en su papel (media

aritmética).
Continuando el razonamiento, se pueden ir descubriendo otras medidas de locali-
zación. Iremos definiéndolas, a lo largo del capítulo, valorando sus ventajas y sus
inconvenientes.
Como resumen, podemos decir que las medidas de tendencia central son valores
numéricos que describen la localización de una distribución de datos , o bien, los
valores alrededor de los cuales se sitúan los demás .
Estas medidas , para proporcionar un valor más preciso de la distribución, deben ir
acompañadas de otras características de dispersión , que serán objeto de estudio en el
capítulo 3.

2.3. Media aritmética

El valor de tendencia central de mayor interés es la media aritmética (o simple-

mente media), que representaremos por .
Aunque se trata de un mismo concepto, debido a las peculiaridades de su cálculo ,
vamos a tratar por separado el caso discreto del caso continuo, distinguiendo también
según estén dados los datos : agrupados (frecuencias absolutas distintas de la uni-
dad) o sin agrupar (frecuencias absolutas iguales a 1 ) .

2.3.1 . Definición en el caso discreto

1) Media aritmética para datos agrupados : Sea X una variable estadística discre-
ta que toma los valores x ,,X,,...,x, con frecuencias absolutas n,,n,,...,n,, respectivamen-
te. Se define la media aritmética como el valor:

Σx,n,
i=1 (1)
X
N N
n
También es: x = ...+ xxƒk , ya que
x, f₁ = x₁ ƒ₁ + x₂ƒ₂ + == fi
i=1 N

Ejemplo 2.1

Supongamos que un grupo de 20 alumnos obtiene las siguientes calificaciones en

la asignatura de Matemáticas:

Calificaciones 2 4 5 6 8 10

Número de alumnos 3 6 5 3 1 2
66

La calificación media de los 20 alumnos en esta asignatura es :

2x3 +4x6 + 5x5 + 6x3 + 8x1+10x2 101

x= = 5,05
20 20

2) Media aritmética para datos no agrupados: En el caso particular de que cada

uno de los k valores de la variable estadística aparezca una sola vez (n , = ,=...=n = 1 ) ,
como caso particular del anterior, la expresión de la media aritmética adopta la forma:
M-

i=1 = (2)
x=
k k

Las edades de tres niños son de 5 , 7 y 9 años . La edad media de los tres es

7+ 8+ 9
x= =8
3

2.3.2. Propiedades de la media aritmética

1. La suma de las desviaciones de todos los valores a la media es cero.

Σ (xi - x )ni = 0 (3)

i=1

k k k
En efecto: Ź ( x; - x)n,; = Ex n₁ = Nx - Nx = 0
x; n; - Źx
i=1 i=1 i=1
La media, por tanto, compensa la suma de las desviaciones positivas y negativas .
Por ello, afirmamos que la media proporciona la localización de la distribución.

2. Si a todos los valores x,1 de una distribución se les suma (resta) un mismo
número c , la media de la nueva distribución, y =x +c, es igual a la media de las
X₁ más (menos) c.

En efecto, sea y₁ = x; ± c. Entonces la media de la nueva variable será:

k k
Σyn (x; ± c) n¡ 1 k k
i=1 i=1
y = Σx₁n; ± c Σn₁
Σ m ]==xx±c
±c
N N NLi=1 i=1
67

3. Si todos los valores x , de una distribución se multiplican (dividen) por un

mismo número d, distinto de cero, la media queda multiplicada (dividida) por d.

En efecto, sea y = dx ; la media de y será:

k
ΣΥ Yini k
i=1 = 1 Σdxin₁ = d
N N i=1 Σ Xi ni = dx
i=1

Consecuencia inmediata de las propiedades 2 y 3 es la siguiente:

4. Si definimos una variable Z a partir de la variable X mediante un cambio de

origen c y un cambio de escala d, siendo d distinto de cero, la media de la
nueva variable
X-C
z=
d

se obtiene a partir de la variable X por medio del mismo cambio de origen y

escala:
X -C
d

Despejando , se obtiene:

(4)
x= c + dz

Esta última fórmula permite hallar la media de X a partir de la media de Z, cuyos

cálculos resultan más sencillos si se eligen adecuadamente el nuevo origen y la escala.

Ejemplo 2.2

Se trata de calcular el diámetro medio de 100 émbolos obtenidos en una cadena de

producción en serie, cuyas medidas (en milímetros) están recogidas en la siguiente
tabla:

Diámetro 153,7 153,8 153,9 154,0 154,1 154,2 154.3

Nº de émbolos 10 15 19 21 14 13 8

Tomando como origen el valor c= 154 y como escala d=0,1 vamos a construir la
tabla con los nuevos datos:
68

Xi-C
Xi ni X -C Zi = Zi ni

||
d

3210123
153,7 10 -0,3 -3 -30
153,8 15 -0,2 -2 -30
153,9 19 -0,1 -1 -19
154,0 21 0 0
154,1 14 0,1 14
154,2 13 0,2 26
154,3 8 0,3 24

Total 100 -15

La media de la variable Z es

1 -15
え Σzin₁ = = -0,15
100 i=1 100

luego la media de X será:

x = 154 + 0,1 - (- 0,15) = 154 -0,015 = 153,985

2.3.3. Definición en el caso continuo

Si la variable estadística es continua, se conviene en tomar como media aritmética

la de una variable discreta cuyos valores son las marcas de clase c , de cada uno de los
intervalos y cuyas frecuencias absolutas n son las de cada clase .
Según advertimos en el capítulo anterior, cuando se agrupan los valores en clases ,
se pierde precisión . En efecto, al calcular la media, sólo se va a tener en cuenta el
número de valores que caen dentro de un intervalo de clase y no la forma en que
están repartidos en su interior.

Ejemplo 2.3

Se ha medido la estatura de 80 jóvenes de 16 años seleccionados al azar de entre

los colegios de una ciudad de 100000 habitantes , dando los siguientes resultados (en
centímetros) :

174 190 183 180 168 163 194 182 168 171 171 188 191 167 167 185
185 189 169 172 175 161 173 170 184 190 166 162 191 174 179 189
189 168 161 165 174 166 167 186 178 178 173 173 181 176 172 180
173 177 182 178 170 175 174 182 181 162 177 180 185 160 161 195
186 160 187 164 171 188 158 186 169 165 159 187 156 159 176 191
69

Vamos a calcular la media, en primer lugar, agrupando todos los valores en clases.
El recorrido es R= 195-156=39 , que, aumentándolo en 1 , resulta 40. Se pueden elegir 7
clases de amplitud 6.
Aunque hoy es menos importante simplificar los cálculos, ya que disponemos de
excelentes calculadoras y paquetes informáticos que los evalúan directamente, vamos
a efectuar un cambio de origen y de escala, reflejando los datos en la tabla para
observar los distintos pasos.
Tomaremos como origen el valor de una de las marcas situadas hacia el centro, por
ejemplo, c= 175 , y, como unidad de escala, la distancia entre dos marcas de clase
consecutivas, d=6.
Calcularemos también la media para valores sin agrupar con el fin de corroborar
cómo efectivamente hay un pequeño sesgo con respecto al valor real de la media,
debido a la suposición tácita de que los datos se distribuyen de una manera homogé-
nea en sus correspondientes intervalos de clase.

Extremos C₁ n c-c Zi z,n,

d
154-160 157 4 -18 -3 -12
160-166 163 11 -12 -2 -22
166-172 169 15 -6 -1 -15
172-178 175 16 0 0 0
123

178-184 181 13 6 13
184-190 187 14 12 28
190-196 193 7 18 21

Total 80 13

La media de la variable auxiliar Z es:

1 13
= Σzini = = 0'1625
80 i=1 80

Haciendo uso de (4), la media de la variable X es:

x = c + dz = 175 + 6x0'1625 = 175 + 0'975 = 175'975

Si efectuamos la media de todos los valores sin agruparlos en clases, obtenemos

la media real:

14032
X = 175'4
80

La media obtenida agrupando los datos difiere en 0'575 de la media real.

2.3.4. Ventajas e inconvenientes de la media aritmética

Las ventajas fundamentales que proporciona el uso de la media aritmética como

medida de localización son:
A) La media aritmética contiene toda la información de los datos de la distribución,
lo que le confiere, como promedio , un carácter muy representativo .
B) La media aritmética siempre puede ser determinada, es fácil de calcular y admite
todas las operaciones aritméticas .
C) La media aritmética es el estadístico más útil para análisis posteriores.
El inconveniente que presenta es su gran sensibilidad al cambio de valores extre-
mos por un lado, que no se compensen por valores extremos en el lado contrario.
Tratemos de aclararlo con un ejemplo sencillo:

Ejemplo 2.4

En la siguiente tabla, se han modificado los datos del ejemplo 2.1 , de modo que los
dos alumnos que tenían una calificación de 10 en Matemáticas, tienen ahora un 1 .

Calificaciones 2 4 5 6 8 1

Nº de alumnos 3 6 5 3 1 2

La media aritmética de la nueva distribución es

2x3 +4x6 + 5x5 + 6x3 + 8x1 + 1x2 83

=4,15
20 20
Su valor disminuye en 0'90, lo que supone más del 17% del valor anterior. Por ello,
se cuestiona el uso de la media aritmética como valor descriptivo de la localización de
un conjunto de datos, si éste se encuentra muy influido por un valor extremo.

2.4. Otros valores medios

Valores medios de uso menos frecuente que la media aritmética son la media
geométrica, la media cuadrática y la media armónica.

2.4.1 . Media geométrica

A) Definición

Dada la variable estadística X, que toma los k valores x ,,X,, ...,X, con frecuencias
absolutas n,,n,,...,n , siendo n, +n,+...+n =N, se define la media geométrica como:
71

(5)
XG = .x nk

En el caso particular de que las frecuencias absolutas de los k valores de la

variable estadística sean todas iguales a 1 (n, = ,=...= n = 1 ) , queda la expresión:

XG = √X1 X2... Xk (6)

B) Cálculo

Para efectuar el cálculo de la media geométrica, se toman logaritmos en los dos

miembros:
nk 1
log x = log √√x" ...x = log ( x'" '...x7+ ) = N= log( x'ï' …… .xï^ ) =
1 1
= [ log( x ; )' ' + ... + log( x )"*] = [ n , log x₁ +... + nk log xk ] = Σnni, log Xi
N N N
Esta última relación nos dice que «el logaritmo de la media geométrica es igual a la
media aritmética de los logaritmos²» .
Para calcular la media geométrica, basta con tomar antilogaritmos en la igualdad
anterior:
Σn , log Xi
i=1
XG = antilog
N

Por tratarse de un caso particular, se procede de igual modo para calcular la media
geométrica cuando los datos no se dan agrupados:

log x = log√xx2...x₁ = log (x , x 2 ... x ) )¹* =

k
1 I
= log(x1 x2 ... Xk) = - (log x₁ + log x2 +... + log xk) = Σ10g xi
=/
k10g(x k k i=1

Σlog xi
i=1
Tomando antilogaritmos, queda: x = antilog
k

Para el ejemplo 2.1 , la media geométrica de las calificaciones será:

3x0,301 + 6x0,602 + 5x0,6989 + 3x0,7781 + 1x0,903 + 2x1

XG = antilog
20

= antilog0,6623921 = 4,596

2 Por cumplir esta propiedad, la media geométrica es llamada por algunos autores <<media
logarítmica» .
72

Ejemplo 2.5

La siguiente tabla contiene las calificaciones de un alumno de COU en sus diver-

sas asignaturas:

Asignaturas L M Q B F D

Calificaciones 7 8 7 6 5 9

La media geométrica de sus calificaciones es:

0'84 + 0'90 + 0'84 + 0'77 + 0'69 + 0'95
XG = antilog
6
5'02
= antilog = antilog0'83 = 6'76
6

B) Ventajas e inconvenientes

La media geométrica es muy útil en el caso de algunas magnitudes, ya que:

a) es menos sensible que la media aritmética al cambio de valores extremos.
b) está determinada siempre que los valores de la variable sean positivos, y se
comporta bien ante las operaciones algebraicas.
c) es representativa, ya que en su cálculo intervienen todos los datos de la distri-
bución.
Sin embargo, si un valor de la variable es cero, la media geométrica vale cero, lo
cual cuestiona su representatividad.
La media geométrica se utiliza siempre que la variable presenta variaciones que se
van acumulando, como sucede en las relaciones de cambio, tasas y porcentajes .

2.4.2. Media cuadrática

A) Definición

Dada la variable estadística X, que toma los k valores x ,, X ,,... ,x, con frecuencias
absolutas n,,n ,...,nk, siendo n,+n +...+n
+ = N, se define la media cuadrática como:

xỉn xỉn ++ xỉn

Xo= (7)
N

605
Su valor para el ejemplo 2.1 es: xo = = 30,25 = 5,5
V 20
73

En el caso particular de que las frecuencias absolutas de los k valores de la

variable estadística sean todas iguales a 1 (n , =n,=...=nk= 1 ) , resulta la expresión:

Χρ (8)
k

B) Ventajas e inconvenientes

a) la media cuadrática es representativa de todos los datos de la distribución .

b) soporta bien las operaciones aritméticas .
Tiene el inconveniente de las unidades en que se expresa: no son unidades sim-
ples.
La media cuadrática se usa en aplicaciones físicas y en la determinación de las
características de dispersión.

2.4.3. Media armónica

A) Definición

Dada la variable estadística X, que toma los k valores x ,,X,,...,x, con frecuencias
absolutas n₁,n,,...,n , siendo n₁+n₂+... +n₁=N, se define la media armónica como:

N N
XA = k N
ni n2 nk i (9)
+ +... +
X1 X2 Xk i= 1 Xi

20
Su valor para el ejemplo 2.1 es : X₁ = =€4,145
4,825

En el caso particular de que las frecuencias absolutas de los k valores de la

variable estadística sean todas iguales a 1 (n, =n,=...=n = 1 ) , se obtiene la expresión :

k k
ΧΑ = 1 1 k 1
1 (10)
+ +. +
XI X2 Xk i= 1 Xi
74

B) Ventajas e inconvenientes

a) es representativa de todos los datos de la distribución.

b) admite bien las operaciones algebraicas.
Presenta un inconveniente cuando la variable toma algún valor igual a cero, en
cuyo caso, la media armónica carece de sentido. También es poco precisa cuando los
valores son pequeños.
Es la más adecuada para hallar promedios de las variaciones con respecto al tiem-
po, como la velocidad de un móvil o el rendimiento de un capital .

2.4.4. Relación entre las distintas medias

Las cuatro medias, que acabamos de definir, están relacionadas entre sí por la
cadena de desigualdades :

XA ≤XG ≤X ≤ XQ (11)

Ejemplo 2.6

Las estaturas de 10 jugadores de un equipo de baloncesto son: 1,90; 1,93; 1,96;

1,98 ; 1,98 ; 1,99 ; 2,01 ; 2,03 ; 2,04 y 2,08 . Vamos a calcular las diferentes medias :

1) Media armónica:

10 10
XA = = 1,9887
1 1 5,02835
+. +
1,90 2,08

2) Media geométrica :

1 1
logXG = (log 1,90 +... + log 2,08) = ·(0,2787+ ... + 0,3180) = 0,2987
10 10

Luego XG = antilog0,2987 = 1,9892

3) Media aritmética:
10 1
x= = -19,9 = 1,99
10 i=1 10
75

4) Media cuadrática:

3,61+ 3,7249+... +4,3264 39,6264

Χρ = = 1,9906
10 10

Comprobamos que se cumple la relación (11):

1'9887≤1'9892 ≤ 1'99 ≤ 1'9906

2.5 . Percentiles. Mediana

Supongamos que el profesor de Matemáticas comunica a uno de sus alumnos que

ha obtenido una calificación de 6 en el examen de nuestro ejemplo 2.1 . El alumno
puede estar interesado en obtener una información adicional que le permita comparar
su calificación con las restantes calificaciones de la clase.
Si el examen ha sido muy fácil para la mayoría de los alumnos, su calificación de 6
puede representar un rendimiento bajo . En cambio, si el examen resultó difícil para la
mayoría de sus compañeros, su calificación de 6 puede ser de las mejores .
Se trata, por tanto, de transformar la puntuación original (llamada directa) en una
nueva puntuación (transformada) , que muestre de modo inmediato la situación de un
estudiante en comparación con los restantes compañeros de clase.
Entre los diferentes valores transformados, están los percentiles (también llama-
dos centiles) , los cuartiles, los quintiles y los deciles. Se utiliza la expresión « cuantil»
para designar al colectivo formado por los percentiles, deciles, cuartiles y quintiles.

2.5.1 . Definiciones

A) Percentil

Sea a un número entero, siendo 1≤a≤100 . Se llama percentil de rango a al valor de

la variable estadística que deja por debajo de él a a% de los valores y al resto por
encima, una vez ordenados éstos por valor creciente del carácter.

B) Mediana

Tiene especial interés el percentil de rango 50, al que denominamos mediana , que
es, por tanto, « el valor de la variable estadística que divide a la población en dos
partes iguales, una vez ordenados los individuos por valor creciente del carácter» .
En el estudio de los percentiles se nos plantean dos cuestiones de interés :
I. Dado un percentil , calcular el valor correspondiente de la variable .
76

II. Dado un valor de la variable, averiguar el rango del percentil correspondiente.

Vamos a tratar de responder con cierto detalle a estos dos interrogantes, que se
utilizan con frecuencia en algunas ramas de la investigación.

2.5.2. Cálculo de la mediana

Como respuesta a la primera cuestión , calcularemos el rango del percentil 50, o, lo

que es igual, la mediana, a la que vamos a denotar por M.
Para efectuar su cálculo, distinguiremos tres posibles situaciones, que van a de-
pender de la forma en que se den los datos :
1 ) La variable es discreta y la frecuencia de cada observación es la unidad .
En esta situación pueden tener lugar dos alternativas:
i) La variable toma un número impar de valores :

X = { 1, 2, 3, 4, 5, 6, 7, 8, 9)

La mediana es el valor que ocupa la posición central: 5 .

ii) La variable toma un número par de valores:

X = { 2, 3, 5 , 7, 8, 9}

Se toma como valor mediano la media aritmética de los dos valores centrales:

5 +7
Ma = =6
2

2) La variable es discreta, pero los datos están agrupados .

Vamos a exponer el proceso de cálculo que se sigue sobre un ejemplo:

Ejemplo 2.7

Las calificaciones en Matemáticas de 20 alumnos están recogidas en la siguiente

tabla de frecuencias :

Calificaciones Frec. Absolutas (n.) Frec. Acumuladas (N.)

998542

213563

10 20
18
6 17
14
9
3
77

Las frecuencias están agrupadas. Para efectuar su cálculo, suponemos , en primer

lugar que todos los datos están distribuidos uniformemente en el intervalo mediano.
Entonces podemos seguir el siguiente proceso de cálculo:
A) Dividimos el número de observaciones, N=20, entre 2 , con lo que tenemos que
la mediana es el valor de la variable que deja 20/2= 10 puntuaciones por debajo y 10
por encima.
B) Comprobamos si este número obtenido, N/2 , se encuentra en la columna de
frecuencias acumuladas N...
Pueden darse dos alternativas :
i) N/2 no figura en la columna de las frecuencias acumuladas, como es el caso de
nuestro ejemplo:

X n N₁
1
20
10 2
18
8 1
17
6 3 0'5
14
5 ← N/2
4 3
2 3
0
0 1 2 3 4 5 6 7 8 9 10

Figura 2.1 . Tabla y curva de frecuencias acumuladas para el ejercicio 2.7.

Se toma como valor mediano el primer valor de la variable que , en la curva de

frecuencias relativas acumuladas, sobrepasa a 1/2 , y que es:

Md =5

ii) El valor N/2 obtenido figura en la columna de las N..

N/2 coincide con la frecuencia absoluta de algún valor x , y, por tanto , la ordenada
de la curva acumulativa de frecuencias corresponde a los infinitos puntos del interva-
lo [X,X ).
Tal es el caso anterior si lo modificamos de la siguiente forma:

X n N.
20 1
10 2 18
8 1
17
6 7
10 << N/2 0'5
5 1
9
6 3
2 3
0
0 1 2 3 4 5 6 7 8 9 10
Figura 2.2. Tabla y curva de frecuencias acumuladas para el ejercicio 2.7. modificado.
78

Tenemos así el intervalo mediano [5,6) . Como valor de la mediana se suele tomar el
punto medio de dicho intervalo:

5 +6
Ma = = 5,5
2

3) La variable es continua

El proceso que se sigue en este caso, para encontrar el valor particular, cuya
frecuencia acumulada sea igual a N/2, es el siguiente:
A) Se divide el número de observaciones N entre 2 .
B) Se lleva el valor N/2 a la columna de frecuencias absolutas acumuladas (N.) .
Ahora puede suceder:
i) Que el valor N/2 se encuentre en la tabla, con lo que N/2 será la frecuencia
absoluta acumulada de un cierto intervalo de clase [e,,,e ), y la mediana será el extre-
mo superior del mismo.
ii) Que N/2 no se encuentre en la columna de las N. Entonces, este valor estará
comprendido entre los valores N. , y N,, que corresponden a las frecuencias absolutas
acumuladas de los intervalos [e,. ,e,.,) y [e,.,,e,) , respectivamente .
Como N/2>N ,, la mediana se encontrará en el intervalo [e,,,e,) , al que llamamos
<<intervalo mediano» . Por interpolación , se halla el incremento de intervalo que co-
rresponde al incremento de la frecuencia hasta llegar a N/2.
La mediana se obtiene de sumar este valor al extremo inferior, e,,,
i-1' del intervalo
mediano [e,,,e,).
i- 1'
El siguiente ejemplo clarifica el proceso:

Ejemplo 2.8

Supongamos que nos interesa averiguar el salario mediano de los 50 empleados de

una empresa, cuya tabla de frecuencias es :

Salario mensual No empleados N₁ 28

50 25
121

100 110 2 15
48
90 100 4
44 13 ↓
80-90 6 38
70 - 80 10
28
60 70 15 N/2=25
13
50 - 60 13
0 0 60 Me 70

Figura 2.3 . Interpolación para calcular la mediana.

En la columna de las frecuencias acumuladas, N , no aparece N/2=25 , valor que

divide a la población en dos partes iguales.
La frecuencia 13 corresponde al 26% de los empleados , y la frecuencia 28 corres-
ponde al 56%, lo que indica que la mediana está por encima del límite inferior del
intervalo correspondiente 60, pero sin llegar al límite superior 70, es decir, se encuen-
tra en el intervalo [60,70).
Por lo tanto, a 60 habrá que sumarle, interpolando, el incremento de intervalo que
corresponda al incremento de la frecuencia:
si la frecuencia aumenta en 28-13= 15 , el intervalo aumenta 10,
si la frecuencia aumenta en 25-13= 12 , el intervalo aumenta: 12x10/15 =8

(25-13)x (70-60) 12x10

X= 8
28-13 15

La mediana es M = 60+ 8= 68 , luego el salario mediano es de 68.000 ptas .

Podemos resumir el razonamiento anterior en la siguiente expresión:

N/2 - Ni-l
= i-1 +
Mde ai (12)
ni

donde: e;-l es el extremo inferior del intervalo mediano,

Ni-1 es la suma de frecuencias absolutas anteriores al intervalo mediano ,
n, es la frecuencia absoluta correspondiente al intervalo mediano,
a es la amplitud del intervalo mediano.

[Link] . Comportamiento de la mediana

α) Si la distribución está sesgada en sentido negativo, la media se desvía hacia el

lado de los valores más pequeños, es decir, disminuye, resultando menor que la me-
diana.
Del mismo modo, en una distribución positivamente sesgada, la media será
mayor que la mediana . Así, en el ejemplo 2.1 , la media es 5,05 , en tanto que la
mediana es M₁ = 5 .
En el ejemplo 2.4 , que supone una modificación del ejemplo 2.1 , en que se altera un
valor extremo (los dos alumnos que tenían 10 pasan a tener un 1) , la media (4,15)
queda notablemente alterada, en tanto que la mediana no varía.
B) Si las observaciones están distribuidas simétricamente , la media y la mediana
coinciden.
Estos razonamientos nos llevan a la conclusión de que la mediana debe usarse en
aquellas distribuciones que presentan un sesgo acusado en los extremos .
Cuando los datos vienen dados en escala ordinal, la mediana es la medida de
tendencia central más representativa de la distribución.
80

2.5.3. Problema inverso

La segunda cuestión que teníamos planteada era: «dado un valor de la variable,

averiguar el rango del percentil correspondiente ».
Para ilustrar su cálculo, tratemos de hallar el rango del percentil correspondiente a
un salario de 83.000 ptas . en el ejemplo 2.8 . Se trata de:
a) Localizar el intervalo al que pertenece dicho salario ; le vamos a llamar «
< intervalo
crítico»; en el ejemplo, es el intervalo [ 80,90) .
b) Localizado el intervalo crítico, se clasifican las frecuencias (n ) en tres catego-
rías:
i) las que corresponden a todos los salarios superiores al intervalo crítico ;
ii) las que corresponden a los salarios del intervalo crítico;
iii) las correspondientes a los salarios que están por debajo del intervalo
crítico.
Como podemos observar, hay 38 personas que perciben menos dinero que las 6
personas del intervalo crítico , y otras 6 personas que tienen un salario superior, lo que
supone unos porcentajes de:
76% con salarios inferiores a los del intervalo crítico
12% están dentro del intervalo crítico
12% con salarios superiores a los del intervalo crítico
Debemos considerar el salario de
Salario mensual No empleados Ni 83.000 ptas. en relación con el tama-
ño del intervalo crítico .
50
100 110 2 Para determinar la situación del
48
90 100 4 salario en cuestión en el intervalo
44
80 90 6 crítico, tomamos el límite inferior real
38
70 80 10 del mismo, que es 80. Luego el sala-
28
60 70 15 38 rio de 83.000 ptas. está 3 puntos por
13 encima del límite inferior real del in-
50 60 13
0 tervalo.
Como el tamaño del intervalo es
10, la amplitud 3 corresponde al 30%
del intervalo. Por tanto, al 76% de los salarios inferiores a los salarios del intervalo
crítico hay que sumarle el 0,3 del 12% de personas del intervalo crítico:

76% +0,3 x (12%) = 76% + 3,6% = 79,6%

El rango del percentil es igual al 79,6% , lo que nos indica que aproximadamente un
80% de los salarios son menores o iguales a 83.000 ptas . y sólo alrededor del 20% de
los salarios están por encima de las 83.000 ptas .
81

2.6. Cuartiles, quintiles y deciles

Además de la mediana, que ya hemos estudiado , algunos otros percentiles reciben

nombres específicos .
Tenemos así los cuartiles , que son tres valores de la variable que corresponden a
los percentiles 25%, 50% y 75%, que se conocen como primero, segundo y tercer
cuartil, y se representan por:

Q1,Q2 Q3
El segundo cuartil coincide con la mediana. El primer cuartil es el valor de la
variable que deja la cuarta parte de las observaciones por debajo de él y las tres
cuartas partes restantes por encima. El tercer cuartil, por tanto, es el valor de la
variable que deja las tres cuartas partes de las observaciones por debajo de él y la
cuarta parte de las mismas por encima.
Los «quintiles» son los valores de la variable que dividen a la población en 5
partes iguales. Son cuatro y se representan por K,, K2, K3, K.
Los «deciles » son los valores que corresponden a los percentiles múltiplos de 10.
Así, «el decil de orden h» es el valor de la variable que deja h/10 partes de las
observaciones por debajo de él y el resto por encima; se representa por D.
Para el cálculo de cualquiera de los cuantiles, se siguen los mismos criterios que
hemos expuesto para la determinación de la mediana.

2.7. Moda

Otra característica de tendencia central es la moda que, como la mediana, sólo

necesita, para su cálculo, que las observaciones estén ordenadas.

2.7.1 . Definición

Se define la moda (M ) como «el valor de la variable estadística que corresponde

al máximo del diagrama diferencial» . Si la variable estadística es discreta, es el valor de
la variable estadística que tiene mayor frecuencia. De la propia definición se despren-
de que la moda no tiene por qué ser única, ya que pudiera haber dos o más valores de
la variable con la misma frecuencia máxima.
Una distribución con dos modas recibe el nombre de bimodal, con tres modas ,
trimodal,...
La moda no tiene en cuenta una parte importante de los datos , por lo que se utiliza
como medida descriptiva de localización, y no suele usarse en la investigación .
Un ejemplo en que tiene interés el uso de la moda es el caso de apostar al número
que aparece en la cara superior de un dado si éste tiene la cara opuesta cargada. Es
82

evidente que al número de dicha cara corresponde la mayor frecuencia, por lo que
este número es al que tenemos que apostar si deseamos ganar.

2.7.2 . Cálculo de la moda

1 ) Si la variable es discreta, la moda queda perfectamente definida: es el valor o

los valores de la variable de mayor frecuencia. En el ejemplo 2.1 , la moda es 4.
2) Si la variable es continua, se habla de intervalo (o clase) modal, que es el
intervalo que tiene mayor frecuencia por unidad de amplitud.
A veces es necesario conocer cuál es la situación puntual del valor de la moda en
el intervalo modal . Para hallar este valor, se pueden seguir distintos criterios, como
puede ser tomar, como valor de la moda, la marca de la clase modal, el extremo inferior
de la misma o el extremo superior.
Si suponemos que todos los valores de la distribución que caen en el intervalo
modal, se distribuyen uniformemente en el mismo, el siguiente razonamiento nos lleva
a un valor más apropiado. Parece razonable que el valor de la moda corresponda a un
punto del intervalo modal más cercano al intervalo contiguo que tenga mayor frecuen-
cia por unidad de amplitud.
En la práctica, vamos a distinguir dos situaciones posibles, según sean los inter-
valos de clase de la misma o de distinta amplitud.

A) Los intervalos tienen la misma amplitud

En este caso, el valor de la moda debe estar más cerca del intervalo contiguo al
intervalo modal de mayor frecuencia. La figura 2.5 permite encontrar el valor del incre-
mento que hay que añadir al valor del extremo de la izquierda, e,,, del intervalo modal,
para obtener un valor puntual de la
moda.
A B En efecto, los triángulos APC y
Р ↑ BPD son semejantes por tener los
h i -1 M N
ángulos iguales: los ángulos P por
Ꭰ ser opuestos por el vértice, y los
ດ

otros dos por ser alternos internos

entre paralelas .
Sus lados homólogos son, por
tanto, proporcionales , y también son
0 ei -1 Ma ei proporcionales sus bases y alturas .
Utilizando las propiedades de la
Figura 2.4. Cálculo de la moda. proporcionalidad, se deduce
83

PN BD PN + MP BD + AC MP AC
= =
> = >
=
MP AC MP AC PN + MP BD + AC

AC -
de donde MP: (PN + MP) = a;
BD + AC
(n₁ — n;+1 ) + (n; − n¡ )

puesto que AC-n -n ,, BD-n1-n , y PN+MP-MN=a .

1 , y h₁ = n -n₁"i+1" se obtiene como valor de la moda:
Si llamamos h₁ =n¸-n₁

hi-1
Moei-1 + ai (13)
hi-l +hi+l

donde:
e , es el extremo inferior de la clase modal,
h , la diferencia de las frecuencias de la clase modal y de la clase inferior contigua,
hi+1, la diferencia de las frecuencias de la clase modal y de la clase superior contigua,
a la amplitud del intervalo modal.

B) Los intervalos no tienen la misma amplitud

En este caso, el intervalo modal es el de mayor frecuencia por unidad de amplitud

(n/a ), luego el valor de la moda debe ser un punto del intervalo modal que estará más
cerca del intervalo contiguo al que corresponda una mayor frecuencia media por
unidad de amplitud.
Un razonamiento similar al que hemos hecho para intervalos de igual amplitud, nos
lleva a la expresión de la moda:
ki-l
= -1 +
Moei ai (14)
ki-1 +ki+1

donde ahora:
ei-l es el extremo inferior de la clase modal ,
k₁i-1, la diferencia de las frecuencias medias por unidad de amplitud de la clase modal
y de la clase inferior,
i+1 la diferencia de las frecuencias medias por unidad de amplitud de la clase
modal y de la clase superior,
a la amplitud del intervalo modal.

Ejemplo 2.9

Se trata de calcular la moda de la distribución descrita en el ejemplo 2.3 . Todos los

intervalos tienen la misma amplitud, por lo que se toma la expresión (13) .
El intervalo modal es el intervalo [ 172,178) y su frecuencia: n = 16 .
84

La frecuencia del intervalo contiguo inferior es n = 15, y la frecuencia del intervalo

contiguo superior es n =13, luego h , = 16-15= 1 y h = 16-13 =3. Como la amplitud de
cada intervalo es a =6, la moda es:

1
M. = 172 + ·6 = 172 + 1′5 = 173'5
1+ 3

2.8. Ejercicios propuestos

2.1 . Los resultados de un test de razonamiento realizado a un grupo de alumnos

fueron los siguientes :

59 72 71 68 67 78 57 57 75 61 69 39 80 46 57 94 59 76 54 64 62
61 61 48 48 86 65 65 63 60 64 41 66 68 67 68 27 68 64 76 72 67

1) Construir la distribución de frecuencias. 2) Hallar la media, la mediana y la moda.

3) Hallar los centiles 10 y 20.

2.2. Un saltador de longitud ha conseguido hacer, durante los 10 últimos días, unas
marcas de:

7'68; 8'04; 7'86; 8'01 ; 7'82 ; 8'12; 8'01 ; 7'92; 8'00; 7'95.

1) Hallar la media de las marcas en esos 10 días . 2) Determinar la mediana y la

moda.

2.3 . En un examen, se han planteado cuatro cuestiones, a las que el profesor ha

asignado distinto peso: 2 puntos para la primera, 3'5 para la segunda, 3 para la tercera
y 1'5 para la cuarta. Si cada cuestión ha sido calificada de 0 a 10, ¿ qué nota le
corresponde a un alumno que ha obtenido 9, 6, 4 y 8?

2.4. Se lanza un dado 30 veces, obteniéndose los siguientes resultados:

2 3 4 5 26 14 3 6 1 5 5 2 3 3 3 2 4 6 6 5 1 2 3 3 1612

Calcular la media, la mediana y la moda.

2.5. La producción de trigo en una cooperativa agrícola durante los 7 últimos años
viene recogida en la siguiente tabla:
85

Año 1986 1987 1988 1989 1990 1991 1992

Nº de fanegas 450 680 525 802 630 754 720

1) Hallar las medias aritmética, geométrica, armónica y cuadrática. 2) Calcular los

deciles de orden 4 y 6. 3) Determinar la moda.

2.6. Las calificaciones de 15 alumnos en la asignatura de Ciencias de la Naturaleza

son:

7; 6; 2; 8'5; 9; 6; 6; 5; 5,5 ; 4'5; 3; 1 ; 8; 7'5; 6'5

1 ) Calcular la mediana y la moda. 2) Hallar los percentiles de orden 20 y 70. 3)

Determinar el rango del percentil correspondiente a una calificación de 5.

2.7. Las temperaturas máximas y mínimas durante los 15 primeros días de julio, en una
ciudad, aparecen en la siguiente tabla:

Máximas 37 30 33 28 35 36 36 32 34 30 28 30 36 34 32

Mínimas 16 14 18 15 20 21 19 17 18 16 16 20 20 21 19

1) Calcular las medias de las temperaturas máximas y mínimas . 2) Hallar las tempe-
raturas medianas máximas y mínimas. 3) Encontrar las modas.

2.8. Dada la distribución expresada por la siguiente tabla:

Clases 36-42 42-48 48-54 54-60 60-66 66-72 72-78

n 5 9 17 26 19 8 4

1) Hallar los cuartiles 1° y 3°. 2) Calcular los percentiles de orden 30 y 90. 3)

Determinar el rango del percentil que corresponde al valor 56.

2.9. Las puntuaciones obtenidas por un grupo de universitarios en unas pruebas para
acceder a un puesto de trabajo en una industria fueron :

Puntuaciones 0-10 10-20 20-30 30-40 40-50 50-60 60-70 70-80 80-90 90-100 100-110

n₁ 10 34 48 72 164 142 118 78 40 34 12

1 ) Calcular la media, la mediana y la moda. 2) Si la empresa piensa rechazar al 40

por ciento de los que han sacado peor puntuación, ¿cuál es la puntuación mínima
requerida para ser admitido?
86

2.10. Según los indicadores económicos facilitados por la CEE, el PIB por habitante de
los diversos países de Europa en el año 1986 era:

Alemania 780.300 Holanda 158.300

Bélgica 99.500 Italia 443.600
Dinamarca 70.100 Irlanda 23.400
España 205.300 Luxemburgo 4.300
Francia 622.400 Portugal 26.400
Grecia 42.100 Reino Unido 533.800

1) Hallar la media, la mediana y la moda. 2) ¿Qué países están por encima de la

media? 3) ¿Qué países están por debajo de la mediana?

2.11 . Un profesor facilita las notas de sus alumnos por medio de la siguiente tabla:

Notas 10-20 20-30 30-50 50-60

N° alumnos 9 13 21 11

1) Determinar el intervalo modal . 2) Suponiendo que los datos se distribuyen de

modo homogéneo en el intervalo modal, hallar el valor más apropiado para la moda.

2.12. Calcular las medias aritmética, geométrica, armónica y cuadrática para la distribu-
ción definida por la siguiente tabla, y comprobar la relación que existe entre ellas :

X 3 4 9 15 20

n₁ 3 3 8 6 2

2.13. Se ha aplicado un test de aptitudes a los empleados de una factoría. Las puntua-
ciones (X), agrupadas en clases, están recogidas en la siguiente tabla:

Puntuación (X) [38,44) [44,50) [50,56) [56,62) [62,68) [68,74) [74,80)

No Trabajadores 7 8 15 25 18 9 6

1 ) Calcular la mediana y la moda. 2) Hallar la puntuación, por encima de la cual

quedan el 30%.

2.14. La oficina central de un banco ha contado la cantidad de dinero que retiraron los
clientes en un determinado día, agrupando las cantidades en clases de 20000 ptas .:
87

Miles de ptas. [0,20) [20,40) [40,60) [60,80) [80,100)

Nº de clientes 33 17 19 14 7

1 ) Hallar la cantidad media de dinero retirada por los clientes . 2) Calcular la media-
na, interpretando su resultado . 3 ) Hallar el rango del percentil correspondiente a 70000
ptas.

2.15. Las calificaciones obtenidas por 1300 alumnos en las pruebas de acceso a la
universidad, que se evaluaron de 0 a 100, han sido:

Puntuaciones (X) ( 17,25 ] (25,33 ] (33,41 ] (41,49 ] (49,57 ] ( 57,65] (65,73 ] (73,81 ] ( 81,89]

N° Alumnos 18 66 132 216 425 212 117 90 18

1 ) Hallar la calificación, por debajo de la cual están el 10% de los alumnos . 2) Si la

universidad sólo admite a mil alumnos , ¿cuál es la nota mínima para que un alumno
sea admitido?

2.16. Hallar los cuartiles para los datos del ejercicio 2.9 e interpretar los resultados que
se obtengan.

2.17. Hallar la media, la mediana y la moda del ejercicio 1.17 del primer capítulo.

2.18 . En una prueba de velocidad lectora realizada a 30 estudiantes, se obtuvieron los

siguientes resultados (en palabras por minuto):

58 76 45 88 93 45 63 56 101 97 52 78 110 89 64 95 49 102 96 58 65 77 95 62 71 83 86 91 58 105

Hallar: 1 ) la mediana y los cuartiles primero y tercero; 2) el rango del percentil

correspondiente a una velocidad lectora de 75 palabras por minuto.
CAPÍTULO 3

CARACTERÍSTICAS DE DISPERSIÓN Y FORMA

3.1 . Dispersión o variabilidad

Se llama variabilidad o dispersión de una distribución a la mayor o menor separa-

ción de sus datos con respecto a una de sus características de posición o promedio.
La mínima dispersión posible es cero, dándose tal situación cuando todos los
valores de la variable son iguales . Éste sería el caso en que todos los alumnos de una
clase obtuvieran la misma nota en una determinada asignatura.
La variabilidad de una distribución pretende medir la representatividad de una
característica de centralización , evaluando la separación de los datos de la distribu-
ción con respecto a dicha característica.
Fijémonos en la figura 3.1 , que contiene una representación de las distribuciones
de las calificaciones obtenidas por 28 alumnos en Física y Biología: en Física, hay 14
alumnos calificados con 3 y otros catorce con 9 , mientras que, en Biología, hay 8
alumnos calificados con 5 , 12 alumnos con 6 y 8 alumnos con 7.
La calificación media es de 6 puntos en ambas asignaturas, pero el 6 es más
representativo de la distribución de las calificaciones de Biología que de las califica-
ciones de Física, donde ninguna de las notas se aproxima a 6.

3 6 9 5 6 7

Figura 3.1 . Diagramas para las calificaciones en Física y Biología.

Son diversos los coeficientes que se definen para medir la dispersión , dependien-
do, en cada caso, de la característica a la que se hace referencia y de si se pretende o
no relacionar una distribución con otra. Atendiendo a este último criterio, se pueden
clasificar en medidas de dispersión absolutas y relativas.

3.2. Medidas de dispersión absolutas

Entre las medidas de dispersión absolutas están el recorrido y las desviaciones

cuartílicas, que proporcionan una primera evaluación de la dispersión, pero sin ofre-
cer una medida del grado de representatividad, ya que no hacen referencia a ningún
promedio.
Las diferencias y desviaciones son otros índices de la dispersión que, haciendo
referencia a alguna característica de tendencia central, presentan algunos inconve-
nientes. La varianza y la desviación típica son las medidas de dispersión más intere-
santes, proporcionando una buena medida del grado de representatividad de la media.

3.2.1 . Recorrido

Se llama <<recorrido o rango» de una distribución a la diferencia entre el valor más

alto y el más bajo de la variable estadística.

R = máx (x) - mín (x) (1)

El recorrido proporciona una primera información interesante de la variabilidad de

una distribución, pero es insuficiente, ya que, si un solo valor de la variable es muy
bajo o muy alto en relación con el resto, la información puede inducir a engaño.
Algunos autores definen el recorrido como la diferencia entre los valores más alto
y más bajo de la variable aumentada en una unidad:

R'=R+ 1

3.2.2. Desviaciones cuartílicas

Cuando la distribución de una variable estadística no es simétrica, juegan un papel

importante la mediana, como característica para localizar la tendencia central y la dife-
rencia entre los cuartiles primero y tercero, como medida de la dispersión.
91

[Link] . Recorrido intercuartílico

Se define el <<recorrido o rango intercuartílico» como la diferencia entre el terce-

ro y el primer cuartil:

R₁ = Q3 -Q₁ (2)

El recorrido intercuartílico nos indica que, en un intervalo de amplitud R₁ , se en-

cuentran el 50% de los valores de la distribución.

[Link] . Recorrido semiintercuartílico

A veces se toma como medida de la variabilidad la mitad del recorrido intercuartílico ,

que recibe el nombre de recorrido semiintercuartílico:
R
SI =
Rst = (3)
2 2

Ejemplo 3.1

En la siguiente tabla figuran las calificaciones de un test de conducta realizado por

un grupo de 80 alumnos. Vamos a calcular las desviaciones cuartílicas :

Clases Frecuencias Frec. acumuladas

10-20 3 3
20-30 6 9
30-40 15 24
40-50 20 44
50-60 21 65
60-70 9 74
70-80 6 80

El primer cuartil, Q,, deja por debajo el 25% de las puntuaciones, que son 20 ; por
tanto Q, cae dentro del intervalo 30-40 .
Hasta el límite inferior del intervalo, 30 , hay 9 puntuaciones; faltan 11 para llegar a
20. Entonces, interpolando , resulta que
si 15 valores corresponden a una amplitud 10 del intervalo,
11 valores corresponden a 11x10/15 =7'33 , luego

Q =30+7'33=37'33

El tercer cuartil , Q,, deja por debajo el 75% de las puntuaciones, que son 60; este
valor es mayor de 44 , por lo que Q, cae dentro del intervalo 50-60 .
92

Hay 44 puntuaciones hasta el límite inferior del intervalo , 50, y faltan 16 para llegar
a 60. Interpolando como antes, resulta
si 21 valores corresponden a una amplitud 10 del intervalo ,
16 valores corresponden a 16x10/21 = 7'62 , luego

Q =50+7'62=57'62

El recorrido intercuartílico es: R - 57'62-37'33=20'09

y el recorrido semiintercuartílico: RS,=20'09/2 =10'045

3.2.3. Diferencias y desviaciones

Dada una característica de tendencia central C y un valor x, de la variable, se

tienen las cantidades :
1 ) x - C, que es la diferencia a la característica de tendencia central C,
2) Ix -Cl, que es la desviación a la característica de tendencia central C.
Las cantidades x - C, cuando varía x,, definen una variable estadística, cuyo prome-
dio puede ser utilizado como medida de la dispersión.
Sin embargo, este promedio tiene un grave inconveniente, puesto que podría dar-
se el caso de una distribución con valores muy dispersos a ambos lados, siendo la
media ponderada de las diferencias x -C pequeña, al contrarrestarse las diferencias
negativas con las positivas . (En el caso de tomar la media como característica de
tendencia central C, la media de las diferencias es cero) .
En cambio, las cantidades lx - Cl, cuando varía x. , definen una variable estadística
positiva, cuyo promedio se puede utilizar como medida de la dispersión.
Según sea la característica de tendencia central C , se obtienen distintos índices de
dispersión. Así, tenemos :
A) Desviación mediana (o probable): Es la mediana de las desviaciones a la
mediana.
B) Desviación media respecto de la mediana : Es la media de las desviaciones a la
mediana.
k (4)
DM₂ = Σxi -Melni
N i=1

Cuando DueMe es grande, la mediana no es representativa, mientras que si De es

pequeña, la mediana es representativa de la distribución.
C) Desviación media respecto de la media: Es la media de las desviaciones a la
media:
k
Dx \x; - x\n¡ (5)
N i=1
93

Ejemplo 3.2

Las puntuaciones de un grupo de 11 alumnos en un test de conducta son :

40 14 20 16 34 12 29 21 25 23 18
Vamos a calcular los recorridos, las diferencias y las desviaciones :
1) Recorrido
R=40-12-28 ; R' =40-12+ 1 =29 es el recorrido aumentado en 1 .
2) Recorridos cuartílicos
Primer cuartil: Q, = 16; segundo cuartil : Q, = 29
Recorrido intercuartílico : R -29-16= 13
Recorrido semiintercuartílico: R -13/2=6'5
3) Desviaciones
Para determinar la desviación mediana, ordenamos los datos de menor a mayor,
determinamos la mediana, y, una vez halladas las desviaciones a la mediana,
reordenamos los datos para evaluar la nueva mediana:

Datos ordenados 12 14 16 18 20 21 23 25 29 34 40

X -X -10'9 -8'9 -6'9 -4'9 -2'9 -1'9 0'1 2'1 6'1 11'1 17'1
10'9 8'9 6'9 4'9 2'9 1'9 0'1 2'1 6'1 11'1 17'1 72'9
X -X
22

-9 -7 -5 -3 -1 0 4 8 33
13 19
X -M
9 7 5 3 1 0 4 8 13 19 71
X -M
Datos reordenados 0 1 2 3 4 5 7 8 9 13 19

Media=252/11 =22'9
Mediana= 21
Desviación media respecto de la mediana=71 /11 =6'45
Desviación media respecto de la media=72'9/11 =6'62
Desviación mediana=5

3.2.4. Varianza y desviación típica

Las desviaciones medias proporcionan medidas interesantes de la dispersión, ya

que se basan en el promedio de las desviaciones a la mediana o a la media. Es
frecuente su uso en algunos campos de la investigación, como la Pedagogía.
Sin embargo, los valores absolutos no son muy adecuados para realizar posterio-
res estudios y cálculos, por lo que se han buscado otras medidas que, siendo fáciles
de interpretar, admitan mejor las operaciones algebraicas.
Cuando los datos se ajustan a la distribución normal, las medidas de dispersión
más representativas son la varianza y la desviación típica.
94

[Link] . Definiciones

La varianza de una distribución se define como el promedio de los cuadrados de

las desviaciones a la media, y se denota por s²:

2 1k
S =
s² - (6)
N

Si la varianza es cero, todos los valores de la variable coinciden con la media, lo

que significa que la dispersión es nula. Cuanto más alejadas estén las observaciones
de la media, mayor será la varianza.
La varianza presenta todavía una dificultad: al estar elevadas al cuadrado todas las
desviaciones , la unidad de medida de la varianza viene dada en cuadrados de las
unidades de los datos originales .
Con el fin de disponer de una medida de la dispersión que venga en unidades de
medida de los datos originales, se utiliza la raíz cuadrada positiva de la varianza, que
se llama desviación típica y se denota por s :

k
S = - x )² ni (7)
i= 1

[Link] . Propiedades de la varianza

La varianza cumple una serie de propiedades interesantes ; basándose en ellas , se

puede simplificar su propio cálculo y hacer comparaciones de datos expresados en
diferentes escalas de medida.
Las enunciamos a continuación sin demostrar. En el apéndice de fin de capítulo
pueden verse las demostraciones .
I. Si todos los valores de una distribución se multiplican (o dividen) por una
constante d (distinta de cero), la varianza de la nueva variable queda multiplicada (o
dividida) por el cuadrado de la constante . Así:

Χ 1
Si y = = Sx (8)
d d²

II. Si a todos los valores de una distribución se les suma (o resta) una constante
k, la varianza de la nueva distribución no varía.

Si y = x + k⇒s} = sx
95

III. La media de los cuadrados de las desviaciones con respecto a la media es

mínima.

1
min (x = Σ (x; - x )
· ²ni (10)
i=1 N i=1

Esta última propiedad nos dice que, si efectuamos la media de los cuadrados de
las desviaciones de los valores de la variable con respecto a un valor C, el valor
mínimo se obtiene cuando C es igual a la media, lo que hace que la varianza sea la
medida cuadrática de dispersión óptima.

IV. Teorema de König: Dado un número real c, la media de los cuadrados de las
desviaciones respecto de c es igual a la varianza más el cuadrado de la distancia entre
la media y c :
k
(11)
Σ(x; − c )² ƒ¡ = Σ(x; − x)² ƒ¿ + (x − c)²
i=1 i=1

En el caso particular en que c=0 , resulta:

k
(xi = Σxifi x² (12)
i=1 i= 1

que nos indica que « la varianza es la diferencia entre la media de los cuadrados y
el cuadrado de la media».
Esta última fórmula (o su expresión con frecuencias absolutas) , que exponemos a
continuación, simplifica notablemente los cálculos :

Σ(x; - x )²n; Σxin Σxini

i=1 i=1 1 i=1
s² Σxin-
N N N i= 1 N (13)

Caso de frecuencias unitarias: Si la frecuencia de cada uno de los valores de la

variable es igual a 1 , resulta:

k
Σχι
Σ(x;-x)
² Σx? i=1
i=1 i=1
Σx?
k i=1 k (14)
制
96

[Link] . Propiedades de la desviación típica

De las propiedades de la varianza se deducen fácilmente, para la desviación típica,

las siguientes:
I. Si todos los valores de una distribución se multiplican (o dividen) por una
constante d (distinta de cero), la desviación típica de la nueva variable queda multipli-
cada (o dividida) por la constante . Así:

X 1
Si y = =
> = SX (15)
d d

II. Si a todos los valores de una distribución se les suma (o resta) una constante
k, la desviación típica de la nueva distribución no varía.

Si y = x + k⇒ Sy = Sx (16)

III. La desviación típica es la raíz cuadrada positiva de la diferencia entre la media

de los cuadrados y el cuadrado de la media.

k
-2
Sx = (17)
N i=1

Ejemplo 3.3

Vamos a calcular la varianza y la desviación típica de la distribución correspon-

diente al ejemplo 2.1 . , donde se conocen las calificaciones de 20 alumnos en Matemá-
ticas:

Calificaciones 2 4 5 6 8 10

Nº de alumnos 3 6 5 3 1 2

La forma más sencilla de evaluar estas características es mediante una calculadora

o alguno de los paquetes informáticos preparados para ordenador. Sin embargo, sobre
todo en los comienzos , es conveniente hacer uso de la definición y de alguna de las
propiedades que ayudan a simplificar los cálculos.
A) Utilizando la definición, el proceso de cálculo se puede seguir en el siguiente
cuadro, donde hemos situado los valores de la variable, las frecuencias, los productos
de los valores de la variable por las frecuencias, las diferencias con respecto a la
media, sus cuadrados y el producto de éstos por las frecuencias. El total de la última
columna dividido por el total de las observaciones es el valor de la varianza:
97

Xi ni Xini Xi-- X (x; -x)2 (x;-x)' ni

2456

3 6 -3,05 9.3025 27,9075

6 24 -1,05 1,1025 6,6150
5 25 -0,05 0,0025 0.0125
3 18 0,95 0,9025 2,7075
8 1 8 2,95 8,7025 8,7025
10 2 20 4,95 24,5025 49,0050

Total 20 101 94,9500

101 94,95
X= = 5,05; s² = 4,7475; s = 2,1788
20 20

B) Haciendo uso de las propiedades y utilizando la fórmula (13) , el proceso segui-

do también está recogido en el siguiente cuadro:

Xi ni Xi ni Xi
n
245

3 6 4 12
6 24 16 96
5 5 25 25 125
6 3 18 36 108
8 1 8 64 64
10 2 20 100 200
8$

Total 20 101 245 605

(101)
= 605- = 4,7475; s = 2,1788
S

-260 20

3.3. Medidas de dispersión relativas

Con frecuencia surge la necesidad de hacer comparaciones entre las dispersiones

de dos distribuciones expresadas en distintas unidades .
Así, puede ser que tengamos necesidad de averiguar cuál de las características de
centralización, C, y C,, de dos distribuciones es más representativa . En principio, no
es posible dar una respuesta, ya que las distribuciones, probablemente, no estarán
dadas en las mismas unidades, y, en el caso de que lo estén, los promedios pueden
ser diferentes .
Esto obliga a encontrar una medida relativa de la variabilidad de una distribución
mediante un número abstracto, independiente de las unidades de medida de las variables.
98

Se definen varias medidas de dispersión relativas, como el coeficiente de apertu-

ra, el recorrido relativo, el coeficiente de variación de Pearson y los coeficientes de
variación media.

3.3.1 . Coeficiente de apertura

Se define el coeficiente de apertura(A) como el cociente de dividir el mayor valor

de la distribución entre el menor:

máx (x )
A (18)
mín(xi)

El coeficiente de apertura es adimensional , y tiene dos graves inconvenientes: en

primer lugar, no hace referencia a ningún promedio, por lo que no sirve para comparar
la representatividad, y, por otra parte, al tener en cuenta sólo los valores extremos ,
puede tomar un valor grande, si éstos están muy separados , estando los restantes
valores agrupados entre sí.

3.3.2. Recorrido relativo

Si x 0 , se define el recorrido relativo como el cociente entre el recorrido y la

media aritmética, y se representa por R

R
R, == (19)
‫ןוא‬

El recorrido relativo indica el número de veces que el recorrido contiene a la media

aritmética.

3.3.3. Coeficiente de variación de Pearson

Si X 0 , se define el coeficiente de variación de Pearson(CV) como:

CV = (20)
X

Se trata de una cantidad sin dimensión, puesto que, al efectuar el cociente, se

eliminan las unidades, y nos indica el número de veces que la desviación típica con-
tiene a la media.
99

El coeficiente de variación se suele utilizar con variables positivas y multiplicado

por 100 , lo que permite emplear un lenguaje de porcentajes :

V = 100xCV (21)

Cuanto mayor sea el coeficiente de variación , menor será la representatividad de la

media.
El coeficiente de variación de Pearson utiliza toda la información de la distribución ,
y su valor mínimo es V=0 , que se obtiene para s=0 , en cuyo caso, no hay dispersión
y la media es totalmente representativa de la distribución.
Cuando la media es cero, el coeficiente de variación de Pearson no es válido .

3.3.4 . Coeficientes de variación media

También se utilizan los coeficientes de variación media respecto a la media y a la

mediana, tomando valores absolutos en el denominador, ya que se trata de coeficien-
tes de variación positivos :
I. Coeficiente de variación media respecto a la media

D
Si X + 0 CMV = (22)
X

II. Coeficiente de variación media respecto a la mediana

DM (23)
SiM₂ + 0 CVMMe =
\Me

Ejemplo 3.4

Los alumnos de un grupo de primer curso han sido calificados en Matemáticas de

0 a 50 y en Física de 0 a 10 por sus respectivos profesores . ¿ Cuál de las dos distribu-
ciones es más homogénea con respecto a la nota media?
Para dar una respuesta, vamos a calcular el coeficiente de variación de Pearson:
La media de las calificaciones en Matemáticas es 39'11 y la desviación típica 8'65 ,
luego el coeficiente de variación de Pearson es:

CV-8'65/39'11=0'221

y expresado en porcentajes :
V=0'221x100-22'1%
100

Matemáticas Física

Calificaciones Nº de alumnos Calificaciones Nº de alumnos

35
15 3 2 12
25 5 3 9
35 8 5 12
40 14 6 5

448
45 16 7
47 5 9
49 3 10

Total 54 54

La calificación media de Física es 5'27 y la desviación típica 2'80, luego el coefi-

ciente de variación de Pearson es:

CV-2'80/5'27-0'531

y expresado en porcentajes:
V=0'531x100-53'1%

Comparando ambos coeficientes, se llega a la conclusión de que hay una mayor

homogeneidad en las calificaciones de Matemáticas .

3.4. Momentos

Tanto la media como la varianza son casos particulares de un concepto más gene-
ral, el de momento. Los momentos de una distribución son unos valores específicos
que se deducen a partir de todos sus datos y que son característicos de cada distri-
bución, de modo que dos distribuciones son iguales si tienen iguales todos sus
momentos.
Se utilizan, en Estadística, dos tipos de momentos (potenciales y factoriales).
Definimos los momentos potenciales, que son los que vamos a necesitar:
Sea r un número entero positivo y c un número real cualquiera. Se llama momento
de orden r respecto de c al valor dado por la expresión:
k
(24)
m, (c) = [ (x, -c )
'ff₁; = N
= { (x,-c)n;
i=1 i=1

Según los diferentes valores de c, vamos a considerar dos clases de momentos

potenciales: los momentos centrales o momentos respecto de la media y los momen-
tos respecto al origen.
101

3.4.1 . Momentos centrales

Cuando c = x se tienen los momentos centrales o momentos respecto de la media:

1 k
m, = (25)
Σ (x; - x )' n¡
N i=1

Los primeros momentos centrales son :

1 k
mo = ΙΣ x; −- xni
x )° n; = =
Σ(x
i= 1 NiŹn;
=1
= 1

1 k
mi = Σ (x; - x ) n ; = 0
N i=1

m₂ = Σ(x; - x )²n; = s²
N i=1

La varianza es, por tanto, el momento central de segundo orden.

3.4.2. Momentos respecto al origen

Cuando c=0 se tienen los momentos respecto al origen . Así, el momento de orden
r respecto al origen, que representaremos por a , es:

k
ar = Σxini (26)
Σ (x; -0)' n; =
NΣ
i=1 N i=1

Los primeros momentos respecto al origen son:

1 k k
ao = Σχιni = Ση = 1
N i=1 N i=1

1 k
Σx₁n₁ = x
N i=1

k
а2 = Σxin
i=1

Con la terminología de momentos, la fórmula ( 13 ) puede escribirse en la forma:

m₂ =a₂-a (27)
102

Esta fórmula relaciona el momento central de orden 2 con los momentos respecto
al origen. Es otra manera de expresar el teorema de König para C=0 .

3.4.3 . Cálculo de momentos

Los momentos centrales y momentos respecto al origen están relacionados entre

sí. El cálculo práctico de los momentos centrales de una variable se realiza a partir de
los momentos respecto al origen .
Las relaciones entre unos y otros momentos se obtienen desarrollando las expre-
siones de su definición por la fórmula del binomio de Newton.

I. Desarrollo de los momentos centrales

k
m, =
= Σ (x₁ - a₁ )' ƒ¡
i=1

Desarrollando esta expresión, resulta:

k
-1
m² = 2 (( 5 )x − ( 1 )x ˜³¹ a₁ + ( 2 )xi˜²a ; -... + ( − 1 ) ( 1 ) a + ]£₁ =

k k k
= xi + -... + ( -1 ) ¹ a₁f; =
1-1

I
-2 ··· + ( − 1 ) ¹a₁
·a₂ −( 1 ) a₁₂- + ( 1 ) a²à¸²¯ ¯à¸²

Para valores particulares de r, se tienen las siguientes fórmulas que dan los prime-
ros momentos centrales en función de los momentos respecto al origen:

m2 = a2 - a (teorema de König) (28)

m3 = a3-3a2a₁ + 2a (29)

= 4a3a +6 aja₂ - 3a
m4a4- (30)

II. Desarrollo de los momentos respecto del origen

k k k
-
a₁ = Σxíƒ₁ = [(x; -a; + a;)' ƒ₁ = [ [(x; − a₁) + a}]′ ƒ;
i=1 i=1 i=1
Desarrollando esta expresión, resulta:

k
a1 = I r-1 I =
a² + ( 1 ) a ˜³¹ ( x − a ) + ... (Xi
103

r-2
am₁
- a² +( 1 )a'm ai m²
, + ( - ) a² m₂ + · · · + m,

Para valores particulares de r, se tienen las siguientes relaciones, que permiten

obtener los momentos respecto del origen en función de los momentos centrales y de
la media:

a₂ = m2 + a} , a3 = m3 +3 m² a₁ + a} ‚ a4 = m4 +4 m² a) +6 m² a₁ + a (31)

Ejemplo 3.5

Un test de aptitudes aplicado a un grupo de 30 alumnos ha dado las siguientes

puntuaciones:

12 13 50 70 35 12 65 74 15 76 40 38 45 20 35
30 25 45 44 76 82 53 60 25 23 57 90 40 35 80

Tratemos de hallar los 4 primeros momentos respecto del origen y respecto de la

media.
1) Momentos respecto del origen:

1365 77601
X = a1 = = 45'5 a₂ = = 2586'7
30 30

5034610 353818317
аз = 167820'33 a4 = 11793943'9
30 30

2) Momentos centrales :

m₁ = 0 m2 = 2586'7-45'52 = 516'45
m₂ = 167820′33 - 3x2586'7x45'5 + 2x45′5³ = 3128'7
m = 11793943'9-4x167820'33x44'5 + 6x45'52x2586'7-3x45'5' - 523501'76

3.5. Análisis de la forma

Cuando los datos estadísticos se adaptan a la distribución normal o, cuando me-

nos, la distribución es simétrica, la media coincide con la mediana, siendo, en tales
situaciones, la media y la desviación típica las características idóneas para resumir la
localización y variabilidad de la distribución.
104

Sin embargo, no siempre sucede esto. A veces, la distribución de frecuencias se

aparta de la normal, contiene datos anómalos o carece de simetría, en cuyas situacio-
nes, la media y la desviación típica no reflejan fielmente la distribución.
Conviene, por lo tanto, conocer la forma de la distribución . Los métodos clásicos
ofrecen unas características, conocidas como «medidas de asimetría», que detectan
la no presencia de simetría con respecto a un valor de tendencia central y miden el
grado de su intensidad.
Una distribución es simétrica cuando posee el mismo número de valores a la
izquierda y a la derecha de la media de modo que cumplen:
1) dos a dos son equidistantes de la media.
2) cada uno de los pares de valores que equidistan de la media tienen la misma
frecuencia.
Otras características, conocidas como «medidas de curtosis» señalan el grado de
concentración respecto de la tendencia central, que se traduce en un mayor o menor
apuntamiento de su gráfica.
Los nuevos métodos exploratorios han dado una especial importancia al estudio
de la forma, aportando nuevos estadísticos y soluciones al problema de la
representatividad, según veremos en el próximo capítulo.

3.5.1 . Coeficiente de asimetría de Fisher

Si una distribución es simétrica, el tercer momento central

1
m3 = NiŹ (x − x )' nj
l

será nulo, ya que se anularán entre sí los cubos de las diferencias positivas con los de
las negativas.
En cambio, si la distribución es asimétrica, el tercer momento central es tanto
mayor en valor absoluto cuanto más acentuada sea la asimetría de la curva. En efecto,
al elevar al cubo las diferencias, los valores extremos influyen más que los valores
próximos a la media en el cálculo de m¸.
Además, el signo de m, coincidirá con el sentido de la asimetría.
Por lo tanto, el momento central de orden 3 es un valor adecuado para obtener una
medida de la asimetría de una distribución. Con el fin de utilizar una magnitud sin
dimensión, se usa el coeficiente de asimetría de Fisher (Ap):

m3 (32)
AF

Si A >0, la distribución presenta asimetría positiva (hacia la derecha).

Si A, 0, la distribución es simétrica.
Si A <0, la distribución presenta asimetría negativa (hacia la izquierda) .
105

3.5.2. Coeficiente de asimetría de Pearson

Otra peculiaridad de la distribución asimétrica es que, cuanto mayor es la asime-

tría, mayor es la distancia entre la media y la moda, de forma que, en una distribución
asimétrica positiva, la media se desplaza a la derecha de la moda, y, en una distribu-
ción asimétrica negativa, la media se desplaza a la izquierda de la moda. En esta
propiedad se basa el uso del coeficiente de Pearson, A , que se define como:

x - Mo
Ap (33)
S

Este coeficiente se utiliza si la distribución es unimodal. El signo del coeficiente

señala el sentido de la asimetría:
si AP>0, la asimetría es positiva,
si A =0, la distribución es simétrica,
P
si A <0 , la asimetría es negativa.

3.5.3. Coeficiente de asimetría de Bowley

El coeficiente de asimetría de Bowley tiene su fundamento en la posición de los

cuartiles primero, segundo y tercero . Si se tiene en cuenta que el segundo cuartil es la
mediana, se define el coeficiente de Bowley como:

Q₂ + Q - 2 Md
AB (34)

La distribución será simétrica si A =0, tendrá asimetría positiva si A >0 y negativa

si A₁<0.

3.5.4. Coeficiente absoluto de asimetría

Con el mismo fundamento que el coeficiente de Bowley se define el coeficiente

absoluto de asimetría como:

Q + Q - 2 Md (35)
AA
S

3.5.5. Medidas de apuntamiento o curtosis

Si dos distribuciones tienen la misma varianza, aquella que tenga mayores frecuen-
106

cias en los valores próximos a la media, tendrá también mayores frecuencias en los
valores extremos y, en cambio , tendrá menores frecuencias en los valores intermedios.
El momento central de orden 4 será, por tanto, mayor en la distribución que tenga
un mayor apuntamiento. Esta es la razón por la que se usa, como medida del apunta-
miento de una distribución, el coeficiente del momento de aplastamiento:

m4
A4 = 4 (36)
S

En el caso de distribuciones unimodales,

leptocúrtica
con una cierta simetría, la mayor o menor
concentración en torno a la media origina
un mayor o menor apuntamiento en la grá-
fica. El grado de apuntamiento se determi-
mesocúrtica
na comparándolo con una distribución que
se toma como modelo, la distribución nor-
mal, que tiene una gráfica en forma de cam-
platicúrtica pana, cuyo estudio se hace en el capítulo 8.
Figura 3.2 . Apuntamiento o curtosis. Para esta curva, el coeficiente del mo-
mento de apuntamiento vale A =3, por lo
que se utiliza, como medida del apuntamiento, el coeficiente de aplastamiento

84 =A4-3 (37)

Si g₁ >0, la curva es más apuntada que la normal de misma media y misma desvia-
ción típica (se dice leptocúrtica),
si g₁ =0, la curva es igual de apuntada que la normal (mesocúrtica) ,
si g <0, la curva es menos apuntada que la normal (platicúrtica) .
En la figura 3.2 tenemos una imagen de tres curvas con distinto apuntamiento.

Ejemplo 3.6

Veamos cuáles son las medidas de asimetría y aplastamiento para la distribución

del ejemplo 3.5 :
1) Coeficiente de asimetría de Pearson :
La distribución es unimodal, siendo la moda M =42, luego

X - M. 45'5-42 3'5
Ар = = = 0'15
S √516'45 22725
El coeficiente de asimetría de Pearson es A =0'15>0, que indica un sesgo hacia la
derecha.
107

2) Coeficiente de asimetría de Fisher:

m3 31287 31287
AF = = 0'266
227253 11736'6

Por ser A =0'266>0, el coeficiente de Fisher confirma el sesgo hacia la derecha.

3) Coeficiente del momento de aplastamiento:

M4 5235327 5235327
A4 = 4 = 1'963
S 227254 266695'42

Luego el coeficiente de apuntamiento de Fisher es:

84 =A4-3 = 1'963-3 = -1'037

Al ser g =-1'037 <0, la curva es platicúrtica, es decir, está más aplastada que la
distribución normal de la misma media y desviación típica.

3.6. Medidas de concentración

Se entiende por concentración el mayor o menor grado de igualdad en el reparto

del total de los valores de la variable.
Se utiliza este concepto fundamentalmente con variables económicas , como son la
producción, los salarios, las rentas,... El interés en la distribución de la renta, más que
en la dispersión, está en el reparto equitativo de la misma. Por ello, Corrado Gini
introduce el concepto de concentración con el fin de medir el grado de equidistribución
de la variable. Se puede estudiar la concentración por métodos gráficos o mediante
algún estadístico .
Sea la distribución dada por los valores de la variable x, y los valores de la frecuen-
cia n . Para estudiar la concentración, necesitamos añadir a la tabla de frecuencias:
i
1 ) los totales acumulados para cada valor de la variable: u₁ = xjnj
j=1
2) las frecuencias relativas acumuladas en forma de porcentajes: p = 100f
Ui
3) los totales acumulados expresados en porcentajes: q = 100
Un

Ejemplo 3.7

Se trata de estudiar la concentración de los salarios de los empleados de una

empresa, cuya distribución viene dada por:

Salarios 70-90 90-110 110-130 130-150 150-170 170-190 190-210

No obreros 60 180 300 200 150 80 30

108

El estudio gráfico se realiza por medio de la curva de concentración o curva de

Lorenz. La curva de Lorenz es la representación de los totales acumulados (q ) en
función de las frecuencias acumuladas (p ) , cuyos valores tenemos calculados en la
tabla de distribución:

Salarios N c.n P q
70-90 60 80 60 4800 4800 6 3'65
90-110 180 100 240 18000 22800 24 17'37
110-130 300 120 540 36000 58800 54 44'81
130-150 200 140 740 28000 86800 74 66'15
150-170 150 160 890 24000 110800 89 84'45
170-190 80 180 970 14400 125200 97 95'42
190-210 30 200 1000 6000 131200 100 100

Para dibujar la curva de Lorenz , se construye un cuadrado de lado 100 , y, tomando

como origen el vértice inferior izquierdo, se sitúan sobre el eje de abscisas las p₁ , y sobre
el eje de ordenadas los q . La poligonal que une los puntos (p ,q,) es la curva de Lorenz.
La curva pasa por los puntos O(0,0) y P( 100,100), y está situada siempre por
debajo de la diagonal que une O y P, siendo cóncava.
La concentración mínima se daría cuando
todos los empleados percibieran el mismo sala-
100
rio, en cuyo caso p =q; para todo i , y la curva
80 de Lorenz coincidiría con la diagonal del cua-
drado. En cambio, la máxima concentración se
60
daría cuando uno de los empleados se llevara
40 todo el dinero de los salarios, no percibiendo
nada el resto de los empleados.
20 En tal caso, la curva de Lorenz estaría for-
mada por los lados inferior y lateral derecho
0
del cuadrado .
0 20 40 60 80 100
Por tanto, cuanto más se aproxime la curva
a la diagonal del cuadrado, menor será la con-
Figura 3.3. Curva de Lorenz. centración y más equitativa será la distribución
de los salarios .
Para medir la concentración , se utiliza el índice de concentración de Gini, que se
define como:
n-1
Σ(Ρ1-4 ) (42)
i=1
IG = --1
ΣΡ
i=1
109

Si la concentración es mínima, es p =q , y, por tanto, I =0; mientras que, si la

concentración es máxima, q , =q,=...=q1n-1=0, e I = 1 . Por tanto, I varía de 0 a 1. Se
comprueba además que el índice de Gini es aproximadamente «< igual al área encerrada
entre la diagonal y la curva dividida por la mitad del área del cuadrado » .
El índice de Gini correspondiente al ejemplo 3.7 es I =0'06 .
Otro índice de concentración interesante es la mediala, que se define como el
valor de la variable x tal que

q(x)=0'5x100%

q(x) es la proporción (en tanto por ciento) de la cantidad total de salarios ganada por
los empleados cuyo salario es menor que x .
La mediala es, por tanto, el salario tal que los empleados que ganan individualmen-
te menos que la mediala ganan globalmente tanto como los empleados cuyo salario
sobrepasa el salario medial.
La mediala cuando los datos están agrupados, se calcula, como la mediana, por
interpolación a partir de los extremos de la clase medial:
50-9₁-1
Mei-1 + (43)
9-9-1
donde :
es el límite inferior de la clase medial ,
9₁-1 es la cantidad acumulada (en porcentaje) inferior a la clase medial ,
q es la cantidad acumulada (en porcentaje) de la clase medial,
a es la amplitud de la clase medial.
En el ejemplo 3.7 , la mediala es M = 130+4'86=134'86 .

3.7. Variable tipificada

En numerosas ocasiones, interesa deducir el valor relativo de un dato con respecto al

grupo al que pertenece, utilizando para ello la media y la desviación típica del grupo.
Supongamos que tenemos que asignar un puesto de trabajo a uno de entre dos
candidatos y que, para seguir un criterio ecuánime, hemos decidido asignar la plaza a
aquel que haya obtenido mejor calificación en una prueba que ambos candidatos
realizaron en sus ciudades de residencia.
Uno de los candidatos obtuvo 55 puntos sobre un total de 80, mientras que el otro
candidato fue calificado con un 7 sobre un total de 10 puntos .
Conocemos además la media y la desviación típica de las distribuciones de ambas
pruebas:

X₁ = 45 y s₁ = 12
X₂ = 6 y s₂ = 2
110

Al no ser iguales las unidades de medida utilizadas, las calificaciones de los can-
didatos no son comparables.
Debemos, por lo tanto, transformar las calificaciones, pasándolas a una escala
común de modo que las transformadas tengan la misma media y la misma desviación
típica.
Si a las calificaciones originales les restamos su media y dividimos por su desvia-
ción típica, se transforman ambas en otras de media cero y desviación típica 1.
Las calificaciones de nuestros dos candidatos son ahora:

X -X = 55-45 =10
Z₁ = 0,83
S1 12 12

X2-X2 7-6 - 1
Z2 = 0,5
$2 2 2
Como estas nuevas calificaciones tienen una distribución de media cero, observa-
mos que las dos están por encima de la media y asimismo, al ser la desviación típi-
ca 1 , comprobamos que la primera calificación está 0,83 desviaciones típicas por en-
cima de la media, en tanto que la segunda está solamente 0,5 desviaciones típicas por
encima de la media.
El proceso que acabamos de seguir, por el cual transformamos los valores x; de
una variable en otros z,, que se obtienen de restar a cada valor x, de la variable su
media y dividir el valor así obtenido por la desviación típica s :

X; -X (44)
Z₁ =
S

se conoce con el nombre de tipificación de la variable, y la nueva variable Z , así

obtenida, se llama variable tipificada.

Proposición: La variable tipificada tiene media cero y desviación típica 1 .

En efecto: 70 , por las propiedades 2) y 3) de la media, y, en virtud de la propie-

dad I de la desviación típica, será:

1
S₂ = s = 1.
S

3.8 . Puntuaciones derivadas

Las puntuaciones tipificadas son cantidades referidas a una misma unidad de

medida, lo que facilita la comparación entre los distintos datos, ya que su valor es
independiente de la distribución de origen.
La tipificación de una variable permite conocer a simple vista si una puntuación
111

queda por encima o por debajo de la media de su distribución , puesto que se sabe que
ésta es igual a cero.
Además, al ser la desviación típica igual a 1 , nos indica cuántas desviaciones
típicas está por encima o por debajo de la media.
Las puntuaciones tipificadas poseen la gran ventaja de que la distribución normal
N(0,1 ) está tabulada y es sencilla de manejar e interpretar.
Sin embargo, el investigador debe comunicar los resultados por él obtenidos y
hacerlos inteligibles a personas no versadas, como puede ser el caso del profesor que
quiere facilitar las calificaciones de sus alumnos a los padres de éstos. Seguramente
algún padre no entenderá que una calificación de cero indica que su hijo está en la
media del curso, ni sabrá interpretar una calificación negativa.
Por este motivo, se han diseñado otras calificaciones de interpretación más fácil.

3.8.1 . Puntuaciones T

Las puntuaciones T se obtienen a partir de las puntuaciones tipificadas Z median-

te un cambio de origen y un cambio de escala que viene dado por la transformación

T = 10Z +50 (45)

De esta forma, una calificación Z=-1 se transforma en

T= 10x(-1)+50=-10+50-40

La nueva variable T tiene media 50 y desviación típica 10. La puntuación T=40

significa que está por debajo de la puntuación media (50) y a una distancia de una
desviación típica de la misma.
Las puntuaciones T son positivas y se pueden redondear a números de dos cifras ,
lo que facilita su comprensión, ya que no hay números negativos ni decimales .
Este tipo de puntuación tuvo gran difusión al ser habitualmente utilizado por las
fuerzas armadas de los Estados Unidos de América.

3.8.2. Puntuaciones SAT

Otro tipo de puntuaciones derivadas muy utilizado en las Ciencias de la Educación

y en Psicología son las puntuaciones SAT (Scholastic Aptitude Test o test de aptitud
escolar) .
Las puntuaciones SAT se obtienen de las puntuaciones tipificadas también por
medio de un cambio de origen y de escala mediante la transformación
112

SAT = 100Z + 500 (46)

Las puntuaciones SAT siguen, por lo tanto, una distribución de media 500 y
desviación típica 100. Así, una puntuación Z= 1 se transforma en una puntuación
SAT= 100x1 +500-600, lo que significa que está por encima de la media (500) y a una
distancia de la misma de una desviación típica.

3.9 . Correcciones de agrupamiento de Sheppard

En alguna ocasión, hemos advertido cómo la agrupación en intervalos de una

distribución de frecuencias produce una cierta pérdida de información , que será tanto
mayor cuanto menor sea la uniformidad de la distribución de los datos dentro de cada
intervalo, dependiendo también de la amplitud de los intervalos .
Esta pérdida de información hace que los resultados que se obtienen cuando
calculamos un momento sean diferentes según se evalúen para la totalidad de los
datos o para la distribución agrupada en intervalos.
W.F. Sheppard estudió estas diferencias y llegó a la conclusión de que entre los
momentos para distribuciones agrupadas (que representamos por m, a) y los momen-
tos de las distribuciones originales (m ' , a' ) , cuando la distribución es de tipo campa-
niforme, no muy asimétrica, y todos los intervalos tienen la misma amplitud c , se dan
las siguientes relaciones :

2i
a'r-zi (47)
a₁ =Σ. (5)
2 (2i + 1), ar-2
i=0

2i
m =Σ 2 -mr-21 (48)
Σ (5)
i=0 (2i + 1)!

donde r2-0, cuando 2i>r.

Si damos valores particulares a r, para los cuatro primeros momentos respecto al
origen , resulta:
c²
a。 = a′。 = 1, a₁ = a′ ) = x, a2 = a′2 + " a3 = a'3 ¯a′1 , a4 = a′4 +
12 80

y, para los momentos centrales :

c² c4
mo = m o = 1 , m = m i = 0, m2 = một 12' m3 = m′3 , M4 = M²4+ 2 m²2 80

A partir de estas relaciones, los momentos corregidos de segundo y cuarto orden

respecto de la media quedan:
1) Momento central de orden 2 corregido:
113

c²
m"2 = m2 (49)
12

2) Momento central de orden 4 corregido:

4 7
C
m'4 =m4 - -m2- = m4- m2 = m4- m2 +
2 80 2 12 80 2 240

luego el momento central de orden cuatro corregido es

2
7 4 (50)
m"4 = m4- m₂ +
2 240

Para los momentos impares m , y m, no es necesario hacer ninguna corrección .

La corrección de Sheppard debe utilizarse con cuidado, únicamente en las condi-
ciones antes reseñadas y después de analizar cada situación, para evitar una correc-
ción excesiva, que incrementaría un error con otro.

Ejemplo 3.8

Los pesos de 50 estudiantes de primer curso de Ciencias Químicas vienen dados

por la siguiente tabla:

Altura 50-56 56-62 62-68 68-74 74-80

N° estudiantes 3 10 14 13 10

Veamos cuáles son la varianza y el momento de cuarto orden respecto de la media

sin la corrección de Sheppard y corregidos.

A) Sin corrección :
m =49'8584 y m =5204'1006.

B) Corregidos:
m', 49'8584-3-46'8384;
m' -5204'1006-397'0912+37'8-4344'8094.

3.10. Ejercicios propuestos

3.1 . En el ejercicio 2.6, teníamos las calificaciones obtenidas por 1300 alumnos en las
pruebas de acceso a la universidad, que se evaluaron de 0 a 100 puntos :
114

Puntuaciones 17-24 25-32 33-40 41-48 49-56 57-64 65-72 73-80 81-88 89-96

N° alumnos 18 66 132 216 425 212 117 90 18 6

1 ) Hallar las desviaciones medias respecto de la media y respecto de la mediana. 2)

Hallar la varianza y la desviación típica. 3) Estudiar la simetría y el apuntamiento .

3.2 . Dada la distribución definida por la siguiente tabla:

X 1 2 3 4 5 6 7 8 9

n 4 8 5 6 4 9 3 2 2

Hallar: 1 ) los 4 primeros momentos respecto al origen; 2) los 4 primeros momentos

centrales .

3.3. Los beneficios repartidos por una empresa aparecen reflejados en la siguiente
tabla:

Cantidad (millares) 35-40 40-45 45-50 50-55 55-60 60-65 65-70 70-75

N° de empleados 8 9 18 25 28 12 14 6

1 ) Estudiar la concentración de los beneficios, trazando la curva de Lorenz y

calculando el índice de Gini y la mediala.

3.4. Las calificaciones en Matemáticas de 313 alumnos de primer curso de un centro

escolar, distribuidas en intervalos de clase, han sido las siguientes :

Calificaciones 3'54 44'5 4'5-5 5-5'5 5'5-6 6-6'5 6'5-7 7-7'5 7'5-8 8-8'5 8'5-9 9-9'5

Na alumnos 6 10 31 38 63 70 41 20 15 8 6 5

Hallar: 1 ) la desviación mediana y las desviaciones medias; 2 ) el recorrido y los

recorridos cuartílicos; 3) la varianza y la desviación típica.

3.5 . Hallar el coeficiente de asimetría de Fisher, el coeficiente del momento de aplasta-

miento y el coeficiente de aplastamiento de la siguiente distribución:

X 3 4 5 6 7 8 9

n 3 5 9 8 6 6 4
115

3.6. Hallar los cuatro primeros momentos respecto al origen de la distribución del
ejercicio 2.11 del capítulo 2 .

3.7. La talla (en metros) de 200 reclutas está recogida en la siguiente tabla

X₁ 1'60-1'64 1'64-1'68 1'68-1'72 1'72-1'76 1'76-1'80 1'80-1'84

n 8 20 60 52 30 20

Calcular: 1 ) la varianza y la desviación típica; 2) el coeficiente de variación de

Pearson; 3) los coeficientes de variación media.

3.8 . Las gratificaciones que han percibido los empleados de una compañía están refle-
jadas en la siguiente tabla, expresadas en miles de pesetas:

X 35-40 40-45 45-50 50-55 55-60 60-65 65-70 70-75

n 80 111 130 166 100 78 40 19

Hallar; 1 ) la varianza y la desviación típica; 2) los coeficientes de asimetría; 3) el

coeficiente de aplastamiento, clasificando la distribución según su apuntamiento.

3.9. Hallar la varianza, la desviación típica y el coeficiente de variación de Pearson del

ejercicio 2.6.

3.10 . Calcular los cuatro primeros momentos centrales de la distribución del ejercicio
2.2 del capítulo 2.

3.11 . Las puntuaciones obtenidas en un test de visión espacial realizado a dos grupos
de alumnos de tercero de Bachillerato en dos institutos de Toledo han sido:

Puntuaciones <20 21-25 26-30 31-35 36-40 41-45 46-50 51-55 > 56

Instituto A 1 8 4 6 1 3 3 1 0

Instituto B 0 3 4 12 4 7 4 2 1

1) Hallar los coeficientes de variación de Pearson correspondientes a cada uno de

los centros. 2) ¿Cuál de ellos tiene una distribución más homogénea?

3.12. La siguiente tabla contiene los cocientes de inteligencia de 100 alumnos de

primero de BUP:
116

Cocientes <70 70-79 80-89 90-99 100-109 110-119 120-129 >129

Nº de alumnos 3 8 18 22 20 17 8 4

Hallar la media, la varianza, la desviación típica y los coeficientes de asimetría.

3.13 . Las calificaciones en Matemáticas de primer curso de las facultades de Químicas

de dos ciudades A y B han sido:

Ciudad A Ciudad B
Calificación Nº de alumnos Calificación Nº de alumnos
456789

4 16 3 7
5 8 4 20
6 22 5 8
6 6
78 10
8 12 10
9 7 8

Total 71 63

¿Cuál de las dos distribuciones es más homogénea?

3.14 . Se ha medido la cantidad de litros de leche que da diariamente una vaca de una
determinada raza durante un período de 15 días , obteniéndose los siguientes resulta-
dos :

20'5 12'6 23'8 19'2 16'4 15 21 18'3 22 17'4 18 18'6 9 17'2 19'4

1 ) Calcular la media, la varianza y la desviación típica. 2) Hallar el recorrido

intercuartílico y el recorrido semiintercuartílico.

3.15 . Las puntuaciones obtenidas por 30 alumnos sometidos a un test de personalidad

de Eysenck han sido las siguientes:

20 17 10 6 15 9 13 10 8 21 18 27 12 31 6
17 5 24 29 11 7 8 20 16 31 15 12 21 24 16

1) Tipificar la variable y convertirlas en puntuaciones T y SAT.

3.16. Se han realizado diez mediciones del diámetro de un émbolo , obteniéndose las
siguientes medidas :

3'97 3'87 3'99 4'05 4'06 4'01 4'01 3'89 3'97 3'99
117

Hallar los cuatro primeros momentos respecto al origen y los coeficientes de asi-
metría de Fisher y de Pearson.

3.17. Las calificaciones obtenidas por veinte alumnos en un ejercicio de Matemáticas

han sido

8456782936548 8755 11 12 14 4661127

1 ) Analizar la simetría y el apuntamiento

Apéndice al capítulo 3 : Demostración de las propiedades

Propiedad I La varianza de y = x; / d es

k k
Xi 1 k
- ni 2 Σ (x; - x)² n; 1
i=1 i=1 d d i=1
S = = =
N N N

Propiedad II: La varianza de y =x +k es

1 k 1 k 1 k
= {
s} = =N 2=1( Y; - ỹ } n; = N =1 ( x; − k −x +k)' n =
; −
Ni-l ° n;= s;
Ź(x; - x )

k
Propiedad III: Llamemos P(c) = [(x; - c)}³ f₁ = N
= [ (x; -c)³n;
i=1 i=1
Desarrollando el cuadrado del último miembro , resulta:
k k k k k
1
P(c) = - Σ (x² -
- 2cx; + c² )n₁ =
+ Σx²n, −2cΣx, n, + c² Σn, = c² − 2cx + = Σx² n
N i=1 N i=1 i=1 i=1 N i=1

k k
Σxini Σxin
i=1
= c² -2cx+ x²- x²+ = (c -x)² + i=1
N N

Como (c-x ) ≥0, el valor mínimo de la expresión se obtiene para c = x.

Propiedad IV: Vamos a expresar P(c) en función de su mínimo:

k k
P(c) = (x - cf; = Σ( x; -x + x - c )²ƒ₁ =
i=1 i=1
Desarrollando el cuadrado y teniendo en cuenta las propiedades de las sumas, queda
k
Xi −- x)² + 2( x; − x )( x − c) + ( x -− c)²] ƒ ; =
P(c) = Σ [(x;
i= 1
118

k k k
= Σ(x; - x )² ƒ¡ + 2( x -− c) Σ( x ; - x ) ƒ¡ + (x - c)²Σƒ¡
i=1 i=1 i=1
k k k
Como ((x -x)
x -5).ƒ¡ = 0 y
y Σf, = 1, P(c) = Σ(x; - x )² ƒ; + ( x - c)²
i=1 i= 1 i=1

lo que demuestra el teorema de König.

CAPÍTULO 4
ANÁLISIS EXPLORATORIO DE DATOS

4.1 . Estadística exploratoria y medios informáticos

La Estadística Exploratoria tiene como objetivo describir los datos, organizán-

dolos y presentándolos de forma que pueda entenderse fácilmente su estructura.
Desde que, en 1977 , J.W. Tukey publicó su obra «Exploratory Data Analysis» , la
Estadística Descriptiva ha ido evolucionando, adquiriendo en ella el aspecto
exploratorio una especial relevancia.
Se han elaborado nuevos métodos de organización y presentación de los datos,
que se han llevado a cabo con una variada gama de detalles gracias a las posibilida-
des ofrecidas por los paquetes informáticos.
Los tres primeros paquetes orientados específicamente hacia la Estadística son:
SPSS (Statistical Package for the Socials Sciences) , SAS (Statistical Analysis System )
y BMD (Biomedical Statistical Software) . El primero de ellos es propio del mundo
de la empresa y de la investigación científica, y los dos últimos, con un carácter más
específico, se dirigen hacia el campo de las Ciencias Sociales y Médico- Sanitarias,
respectivamente .
Con el desarrollo de los ordenadores personales, surgen nuevos paquetes como
STATGRAPHICS , SYSTAT, MINITAB o CSS. Son programas de fácil adquisición,
con una gran potencia y sencillos de manejar.
Estos paquetes , además de facilitar la organización de los datos , permiten su
interpretación y proporcionan los resultados .
Con la ayuda del ordenador, la Estadística Exploratoria ha conseguido aportar
nuevos métodos de representación gráfica, que pueden ser utilizados incluso con
carácter confirmatorio , y una gama de nuevos estadísticos , más resistentes a varia-
ciones extremas que los clásicos .
120

4.2. Principios fundamentales

Los principios fundamentales en que se basan las nuevas técnicas estadísticas

fueron expuestos por Tukey. Mientras que los métodos clásicos tratan de ajustar los
datos a un modelo previamente fijado, en los nuevos métodos de análisis de datos , se
diseña el modelo adecuado a cada serie estadística a partir de la estructura que
presentan los propios datos.
Esta nueva forma de trabajar se caracteriza por:
1 ) El papel relevante que adquieren los «métodos gráficos». Se han aportado
nuevos procedimientos de visualización : diagrama de tronco y hojas, gráfico en
caja y extensión, gráfico de centiles, ... capaces de detectar anomalías que, de otro
modo, pasarían desapercibidas.
2) El uso de modelos de «línea resistente» para tratar el ajuste de distribuciones ,
de forma que se elimine la influencia que pudieran ejercer los casos raros, como
pueden ser los datos muy alejados de los valores centrales .
3) la utilización de « transformaciones» , potenciales y logarítmicas, que clarifi-
can la estructura de los datos .
4) La información adicional que aportan los « residuales» , es decir, las diferen-
cias entre los datos reales y los valores ajustados.
Los métodos exploratorios son considerados por algunos autores como una
nueva rama de la Estadística . Otros, entre los que podemos citar a Good, les restan
importancia. La realidad es que las técnicas que proporcionan, con la ayuda del
ordenador, están adquiriendo cada día mayor relevancia.
Los tres capítulos anteriores se han dedicado fundamentalmente al estudio de
las características de tendencia central y de dispersión clásicas, dando escasa impor-
tancia al análisis de la forma. Dicho tratamiento es correcto cuando la distribución
de los datos es simétrica o se aproxima a la normal.
Las nuevas técnicas ponen el acento en el análisis de la forma, jugando un papel
importante las representaciones gráficas.
La principal dificultad que ofrecía la media aritmética era su sensibilidad a
cambios de valores extremos . Por ello, se buscan nuevos índices de localización
<<resistentes» (poco afectados por el influjo de valores extremos), y « robustos» (poco
influenciables por las desviaciones de los postulados iniciales como la exigencia de
la normalidad del modelo) . La media aritmética carece de estas dos cualidades . La
mediana, sin embargo, aunque no es un índice robusto, sí es resistente, y juega un
papel importante en el «Análisis Exploratorio de Datos>> .
Junto a la mediana, se utilizan como índices de localización: el «promedio de
cuartiles», la « centrimedia» y las « medias recortadas » , entre las que vamos a
considerar la <
« trimedia» y la « mediana extendida» .
121

4.3 . Índices de localización resistentes

Hemos señalado que la media es una medida muy sensible a cambios en los
extremos . En general, siempre que un conjunto de datos estadísticos presente alguna
anomalía o haya motivos para creer que su distribución se aparta de la normal, se
deben utilizar características que ofrezcan una mayor resistencia.
Se dice que una característica es « resistente » cuando es afectada mínimamente
por la presencia de datos anómalos (alejados de los valores centrales) .
La mediana, M., es el índice de localización principal en las nuevas técnicas.
El valor d(M¸ ) señala la distancia de la mediana a los valores extremos, que, en
principio y según la definición establecida en el capítulo 2 , viene determinada por:
1
d(Md)== 2 ·(N + 1 ) (1)

siendo N el número de datos .

A partir de la mediana y de los dos cuartiles se definen el promedio de cuartiles
y la trimedia.

4.3.1 . Promedio de cuartiles

Se define el «promedio de cuartiles» como la media aritmética de los dos

cuartiles:
(2)
Q
2

Este índice recoge el 50% de los valores centrales de la distribución de los datos ,
eliminando así la influencia de valores extremos .

4.3.2. Trimedia

Se define la «<trimedia», que vamos a representar por TRI, como la media

aritmética de la mediana y el promedio de cuartiles , o, lo que es equivalente , como
la media ponderada de los tres cuartiles (el primero y tercer cuartil y la mediana) :

Q + Md 1
TRI = ;( Q₁ +2 Me + Q3 ) (3)
2 4

4.3.3. Medias recortadas

Las «medias recortadas» constituyen una familia de características de loca-

lización resistentes . Se obtienen las medias recortadas eliminando un determi-
122

nado porcentaje de datos extremos y calculando la media aritmética del resto de

los datos .
Es frecuente el uso de tales medidas en las puntuaciones o mediciones de
algunas competiciones deportivas, donde , para evitar posibles tendencias de los
jueces , se eliminan los valores extremos en el cálculo de los promedios .
La «media recortada al 20%» es la media aritmética del 60% de los datos que
quedan después de eliminar el 20% de las observaciones inferiores y el 20% de las
superiores . La media aritmética se puede considerar como la media recortada al 0% ,
mientras que la mediana es una aproximación de la media recortada al 50% . Las
medias recortadas de mayor uso son la «centrimedia» y la «mediana extendida» .

I. Centrimedia o media intercuartílica

La media recortada al 25% se conoce como « centrimedia o media intercuartílica»

y la vamos a representar por MID :

X 26+ X 27 +... + X74

MID = (4)
C

En el numerador aparece la suma de todos los datos comprendidos entre los dos
cuartiles, y en el denominador el número C de tales datos.
Al evaluar la centrimedia, no se deben de tener en cuenta los datos repetidos,
procurando, en todo caso, que el número de valores repetidos que se suprimen sea el
mismo a ambos lados.
Estudiando la posición relativa de la media aritmética y de la centrimedia, se
puede detectar la presencia o no de simetría. Se sabe que un valor de la centrimedia
superior a la media aritmética denota un sesgo hacia la izquierda.

II. Mediana extendida

Para paliar la sensibilidad de la mediana a los errores de redondeo o truncamien-

to, se define la «mediana extendida » (ME ) .
Su definición depende de la paridad y del número de datos:
Si n es impar y 4<n< 13 , se toma la media de los tres valores centrales ;
si n es impar y n>12, se toma la media de los cinco valores centrales ;
si n es par y 4<n< 13 , se toma la media de los cuatro valores centrales ;
si n es par y n>12, se toma la media de los seis valores centrales .

Ejemplo 4.1

Se trata de evaluar los índices que acabamos de introducir para la serie de datos
que constituyen los pesos de 20 jóvenes:
123

39 42 36 34 43 42 45 52 54 37 44 72 33 49 56 62 63 44 44 47

Ordenamos los datos:

33 34 36 37 39 42 42 43 44 44 44 45 47 49 52 54 56 62 63 72

La mediana es: M =44.

Los cuartiles son: Q₁1 = 40'5 y Q₁ =53

40'5 + 53
luego el promedio de cuartiles es: Q = = 46'75
2
Q + Ma 46'75 + 44
El valor de la trimedia es: TRI = = = 45'37
2 2

La media es 46'9, superior a la centrimedia, MID=45'2 , lo que es señal de un

cierto sesgo hacia la derecha.
Mediana extendida: el número de datos es par y mayor que 12 , por lo que se
toma la media de los seis valores centrales, obteniéndose ME -44'5 .

4.4. Índices de dispersión

Los métodos exploratorios utilizan «el rango intercuartílico»(R,) y la «mediana

de las desviaciones absolutas» (MAD) , como medidas de dispersión absolutas . Se
toma, como medida de dispersión relativa, el « coeficiente de variación
cuartílica»(CV ).
El rango intercuartílico y la mediana de las desviaciones absolutas (denominada
desviación mediana o probable), se estudiaron en el capítulo 3.

4.4.1 . Rango intercuartílico pseudo-tipificado

El « rango o amplitud intercuartílica» (R ) , también llamado « dispersión me-

dia», es la distancia entre los dos cuartiles:

R₁ = Q3 - Q₁ (5)

Encierra el 50% de los datos . Si se le compara con la distribución normal

tipificada, el intervalo que contiene la mitad de los valores centrales en ésta es
(-0'6745 y 0'6745) , cuya amplitud es de 2x0'6745 = 1'369.
Entonces, dividiendo la amplitud intercuartílica por 1'349, se obtiene un nuevo
124

índice comparable con los índices tradicionales , SR,, denominado « rango

intercuartílico pseudo-tipificado» :

RI
SRI = (6)
1'349

Para los datos del ejemplo 4.1 , se obtienen los valores:

12'5
R₁ = 53-40'5 = 12'5 Y SRI = = 9′26
1'349

4.4.2. Índice de variación cuartílica

En lugar del coeficiente de variación de Pearson , la unidad de dispersión relativa

más usada por los métodos exploratorios es el « coeficiente de variación
cuartílica» (CV ) , que se define como el cociente de dividir la mitad del rango
intercuartílico por el promedio de cuartiles:

R₁/2 = Q₁ -Q₁
CVc = (7)
Q Q₁ +Q₁

Con los datos del ejemplo 4.1 , resulta: CV = 12'5/93'5 =0'133 .

4.5 . Índices de forma

Ya hemos advertido la importancia que, en los métodos exploratorios adquiere el

estudio de la forma. Se definen nuevos índices de simetría y de curtosis.
Para la simetría, se utilizan el «índice de Yule» y el «índice de Kelly».

4.5.1 . Índice de simetría de Yule

El índice de simetría de Yule(H , ) se basa en la posición relativa entre la mediana

y los cuartiles , por lo que tiene en cuenta solamente el 50% de los datos:

Q + Q3-2 Ma (8)
H =
2 Ma

Su interpretación es la siguiente :
Si H, 0, la distribución es simétrica,
Si H,>0, hay asimetría positiva,
Si H,<0, hay asimetría negativa.
125

4.5.2. Índice de simetría de Kelly

El índice de Kelly hace uso del 80% de los datos . Se define como :

C10 + C90 (9)

H2 = Ma-
2

Este índice ha dado lugar a un nuevo índice adimensional, H₂, de mayor interés:

C10 + C90-2 Ma
H3 = (10)
2 Ma

Se interpreta del mismo modo que el índice de Yule .

4.5.3 Índice de curtosis

Entre los diversos índices para el estudio del apuntamiento, el más interesante es
el índice K, que se define a partir de los centiles de orden 10 y 90 y de los cuartiles:
C90 -C10
K= (11)
1'9(Q;-Q₁)
3

Se interpreta en el siguiente sentido:

Si K= 1 , la distribución es mesocúrtica,
Si K>1 , la distribución es leptocúrtica,
Si K< 1 , la distribución es platicúrtica.

Ejemplo 4.2

Veamos cuáles son los valores de los índices de forma correspondientes a los
datos del ejemplo 4.1:
1) Índice de simetría de Yule:
Q₁ + Q₁-
3 2 Ma 40.5 + 53-2x44
Hi = = 0'062
2 Ma 2x44
lo que indica un insignificante sesgo hacia la derecha.
2) Índice de simetría de Kelly:
C10 + C90-2 Ma 34 +63-2x44
H3 = = = 0'10
2 Md 2x44
que confirma el resultado anterior.
3) Índice de curtosis:
C90 -C10 63-34
K= = = 1'22
1′9(Q3 - Q₁ ) ¯¯ 1′9(53-40'5)
luego la curva es leptocúrtica.
126

4.6. Diagrama de tronco y hojas

Uno de los métodos más ingeniosos que surge del análisis exploratorio de Tukey
es el «diagrama de tronco y hojas » . Se trata de una mezcla entre histograma y tabla
de frecuencias, que permite hacer un análisis transversal detallado de los datos. Se
complementa con el gráfico en caja y extensión, cuyo diseño es de menor precisión.
El enfoque transversal permite , una vez ordenados los datos , seleccionar mejor
la representatividad de los intervalos de clase.
Para describirlo, nos vamos a servir del siguiente ejemplo:

Ejemplo 4.3

Queremos analizar las puntuaciones obtenidas por 45 empleados de una empresa

en un test de aptitud:

545 580 526 503 573 501 606 641 623 705 391 422 365 343 437
428 453 452 526 112 445 726 338 497 563 625 639 451 446 873
536 652 561 734 542 586 573 492 740 920 647 433 565 329 525

Para ello, diseñemos el correspondiente diagrama de tronco y hojas . Atendiendo a

los objetivos que pretendemos conseguir, comprenderemos mejor su estructura:

I. Localizar las características de posición central.

II. Conocer la dispersión con respecto a los valores centrales .
III. Obtener una visión panorámica que muestre la simetría.
Descubrir alguna zona (laguna) en que no haya datos.
Detectar posibles anomalías.
VI. Encontrar valores de uso poco frecuente.

El diagrama de tronco y hojas resalta la parte fundamental de los datos (el

tronco) , mostrando también las ramas, parte secundaria, pero importante para des-
cubrir la forma de la distribución.
En el ejemplo que nos ocupa, el tronco va a estar formado por las centenas. A
cada tronco le sigue una rama, cuyas hojas van a ser los dígitos de las decenas,
(prescindiremos de las unidades simples, ya que la información que aportan es de
menor importancia).
También pueden ponerse todos los dígitos en las ramas ; lo que no conviene es
redondear los últimos dígitos, ya que sería complicado recuperar después el dato
completo.
Los troncos son los que marcan los intervalos de clase, y se sitúan en una
127

columna central ordenada desde el tronco más bajo al más alto, incluyendo todos los
valores intermedios, aunque no formen parte de ningún dato.
La rama que contiene a la mediana (índice fundamental en los métodos
exploratorios) , se resalta en uno de los márgenes de la tabla (la primera columna,
habitualmente) . Esta columna se denomina « columna de frecuencias », y, en ella se
sitúan las frecuencias acumuladas, pero sumándolas en un doble sentido, comenzan-
do por ambos extremos hasta llegar a la fila en que se encuentra la mediana, en cuyo
lugar se pone el valor de la frecuencia absoluta correspondiente a su rama entre
paréntesis.
De este modo, se consigue destacar la rama que divide a la población en dos
partes iguales.
La suma de la frecuencia de la rama que contiene a la mediana y de los dos
valores contiguos en la columna de frecuencias es igual al número N de datos , lo que
puede ser útil como elemento comprobatorio de que no se ha olvidado ningún valor.
La columna de frecuencias facilita el cálculo de la «profundidad» de cada dato.
La «profundidad» de un dato es su distancia al extremo más próximo.
El diagrama de tronco y hojas correspondiente a los datos del ejemplo 4.3 podría
ser entonces:

Frecuencias Troncos Ramas y Hojas

1 1
1
6 3 23469
17 4 2 2 3 3 4 4 5599
( 15) 5 0022234 4 6 6 6 7 7 8 8
13 6 0 2 2 2 4 4456
4 7 02
2 8 7

Tenemos 9 troncos, y detectamos ya una « laguna» en la rama 2 además de la

presencia de algunos datos alejados. Duplicando el número de troncos, se pueden
observar mejor las lagunas y anomalías , puesto que, cuanto menor es la amplitud del
intervalo, mayor es la contribución de cada dato individual.
Tendremos entonces los troncos 3* y 30; al primero le asociaremos las hojas 0,
1 , 2, 3 y 4, y al segundo las restantes: 5, 6, 7 , 8 y 9.
El diagrama de tronco y hojas debe ir acompañado del número de datos , de la
unidad, y de un ejemplo aclaratorio. Se consigue así la siguiente disposición :
128

Frecuencias Troncos Ramas y Hojas

1 1* 1
1 10
1 2*
1 20
4 3* 432
6 30 96
12 4* 232443
17 40 55959
(8) 5* 42002342
20 50 8766876
13 6* 042234
7 60 5
6 7* 0234
2 70
127

2 8*
72

80
9* 2

N=45 UNIDAD=10 3016-360-369

Este último gráfico nos muestra mejor las lagunas que hay entre los troncos 1 y
3 y del 7* al 80. También se aprecia que el 6 es un valor poco frecuente y la
presencia de datos alejados en ambos extremos .
El número de ramas que se elige está en función de la forma de los propios datos ,
por lo que no se siguen las normas de la elección del número de clases que vimos en
el capitulo 1. Dentro de la flexibilidad que hay, uno de los criterios más extendido
consiste en seleccionar un máximo de L ramas, que en función del número N de
datos, es:

L= 2√N , si N ≤ 100 (12)

L= 10logo N, si N > 100 (13)

El número máximo de ramas para el ejemplo, según este criterio, es 12.

Si los datos son muy numerosos (pasan de 300), para evitar un gráfico que
podría resultar confuso, se procede a un « remuestreo», y se trabaja con una
<<submuestra» de los datos.
En función del número de datos se selecciona la amplitud del intervalo, que es el
cociente de dividir el rango de la distribución entre el número de ramas , pero
redondeado a una potencia de 10.
129

Cuando se detecta, en los extremos , la presencia de datos bastante alejados de los

valores centrales, dichos datos se suelen poner separados, en la parte superior o
inferior, utilizando como tronco la palabra ALTOS o BAJOS según sean sus valores,
y situando el dato completo en la rama.
Si elegimos 12 ramas y separamos los datos alejados, la forma en que quedaría
nuestro diagrama en un paquete informático como STATGRAPHICS es :

BAJOS | 112

4 3* 234
6 30 69
12 4* 223344
17 40 55599
(8) 5* 0 0 2 2 2 344
20 50 6 6 6778 8
13 6* 022344
7 60 5
6 7* 0234
2 70
22

8*
80 7

ALTOS | 920

N=45 UNIDAD= 100 3016=360-369

Aún se puede aumentar el número de troncos, por ejemplo, subdividiendo cada

uno en 5 partes. En tal caso, se utilizan, para designar a los nuevos troncos , las
iniciales inglesas de los dígitos : T(two y three) , F(four y five) , S(six y seven); para
cero y uno se utiliza el « * », y para ocho y nueve el símbolo «o» .
En otras ocasiones, cuando el número de datos es pequeño , se pueden agrupar
los troncos, utilizando dos dígitos para designarlos, separados por una coma, mien-
tras que las ramas correspondientes a distintos troncos se separan con dos puntos .
Así, por ejemplo :
2,3 | 14: 6

indica que las hojas 1 y 4 pertenecen al tronco 2 , y la hoja 6 al tronco 3 .

También se diseñan diagramas nominales, en los que las frecuencias se sitúan
como troncos y las diversas categorías como hojas, representándolas con un símbo-
lo, como puede ser la letra inicial de cada categoría.
130

4.7 . Cuartos y octavos

Hasta ahora hemos venido trabajando con la mediana y los cuartiles . Sin embar-
go, los métodos exploratorios suelen utilizar otros índices , los «cuartos» y los
«octavos» ; incluso la mediana se determina siguiendo otro criterio cuando el número
de datos es par.
El criterio que se sigue para determinar la mediana es :
A) Si el número N de datos es par, se toma como valor de la mediana, M., el valor
de la variable que ocupa, en la serie de datos ordenada, el lugar 1/2 (N+ 1 ) - 1/2 , que
representamos por d(M ) ' :

d( Ma ) = {/ (N + 1) / (14)

B) Si el número N de datos es impar, se toma, como valor de la mediana, el valor

habitual, es decir el que ocupa la posición:

d(Ma ) = 1/2 (N ++ 1)
1) (15)

Determinada la mediana, se definen los « cuartos» como aquellos valores de la

variable que dividen en dos partes iguales a cada una de las dos mitades en que la
mediana divide a los datos (mediana de cada mitad) .
El «primer cuarto» o «cuarto inferior», al que vamos a designar por H. , se
define como el valor de la variable, que , situado por debajo de la mediana, tiene una
profundidad igual a la parte entera de 1/2 (d (M¸) +1 ), mientras que el «tercer
cuarto» o «cuarto superior» , al que vamos a designar por H , es el valor de la
variable, que situado por encima de la mediana, tiene una profundidad igual a la
parte entera de 1/2 (d (M¸) +1 ) . Luego:
1
Ma) + 1) (16)
d(H) = ~(d(
2

nos indica la posición de cada cuarto con respecto al extremo más cercano.
Aunque no siempre coinciden, se pueden utilizar, en su lugar, los cuartiles , ya
que, en la práctica, la diferencia no es substancial.
También se suele dividir cada cuarto en dos partes iguales, obteniéndose dos
nuevos índices : <« octavo inferior(E) y superior(E)».
El «octavo inferior» es, por tanto, el valor de la variable que, situado por debajo
del primer cuarto, tiene una profundidad igual a la parte entera de 1/2 (d (H.) +1 ) ,

1 De esta forma, la mediana siempre coincide con uno de los datos , lo que resulta razonable cuando se
trabaja con variables discretas.
131

mientras que el «octavo superior» es el valor de la variable que, situado por encima
del cuarto superior, tiene una profundidad igual a la parte entera de 1/2 (d (H) +1 ) . La
distancia, d(E) , de los octavos al extremo más próximo es

d(E) = = (d(H) + 1) (17)

Estos conceptos dan lugar a nuevos índices: sus promedios y rangos.

El «rango intercuartos » (IQR) es la distancia entre ambos cuartos :

IQR = Hs - Hi (18)

El promedio de cuartos es la media aritmética de los dos cuartos :

H +Hs
H= (19)
2

El «promedio de octavos » es la media de los dos octavos :

E + Es
E= (20)
2

Ejemplo 4.4

Se trata de determinar la mediana, los cuartos y los octavos correspondientes a

los datos del ejemplo 4.1 . Para ello:
1) Se ordenan los datos de menor a mayor, anotando su profundidad (distancia al
extremo más próximo).
2) Se determina la mediana según el nuevo criterio.
3) Se evalúan los cuartos y octavos en función de la profundidad (distancia al
extremo más cercano) .
La figura 4.1 , presenta, de modo esquemático, el proceso seguido:

d (E )= 3 d ( Ma )=10 d (E )= 3
d (H)= 5 d (H) = 5

1 2 3 4 5 6 7 8 9 10 10 9 8 7 6 5 4 3 2 1
33 34 ( 36) 37( 39) 42 42 43 44 44) 45 45 47 49 52( 54) 56( 62) 63 72

H = 39 Hs = 54
E. = 36 Md =44 E = 62
1 S
Figura 4.1 .: Determinación de índices.
132

4.8 . Datos anómalos

Son «datos anómalos» aquellos valores de la variable que se apartan en gran

medida de los valores centrales. Cuando hablamos de datos anómalos, estamos
refiriéndonos al comportamiento de los datos con respecto a un patrón referencial: la
distribución normal.
Para precisar ideas, vamos a definir el concepto de «paso» :
El «paso» es una medida de dispersión que equivale a 1'5 veces el rango
intercuartos :
Pa = 1'5xIQR (21)

Sucede que, si comparamos la serie de datos con que trabajamos con la distribu-
ción normal, la amplitud del rango intercuartos debe ser igual a 1'5 veces la
desviación típica.
Entonces, si consideramos un intervalo formado añadiendo a cada uno de los
extremos del intervalo intercuartos la extensión 1’5 · IQR, el nuevo intervalo cubrirá
todos los valores de la población salvo el 7% de los mismos , dejando un 3'5% en
cada uno de los extremos.
A los valores que quedan fuera de dicho intervalo se les denomina « exteriores» .
Los valores más alejados del centro, pero todavía interiores, son denominados
<<adyacentes».
Se distinguen dos tipos de valores exteriores : «alejados» y « remotos » . Para
definirlos con precisión , se introducen dos pares de límites llamados «límites inter-
nos», que distan un «paso» de los cuartos, y «límites externos», que distan 2
«pasos» de los cuartos .
Entonces los límites internos inferior(L) y superior(L) se obtienen de restar y
sumar un paso a cada uno de los cuartos inferior y superior, respectivamente:

L = Hi - Pa, Ls = Hs + Pa (22)

Los límites externos inferior(T ) y superior(T ) se obtienen de restar y sumar 2

pasos a cada uno de los cuartos inferior y superior, respectivamente :

T = H - 2 Pa , Ts = Hs + 2 Pa (23)

Los valores de la variable que caen en el espacio comprendido entre los límites
internos y los externos, se consideran datos « alejados» , y aquellos que sobrepasan
los límites externos se consideran datos «remotos».
Las fronteras para determinar los datos anómalos se han establecido comparando
estos intervalos con los correspondientes a la normal, de modo que la probabilidad
de que aparezca un dato remoto es inferior a 0'00698.
133

Estos índices se resumen en una tabla en forma de U invertida, que recibe el

nombre de « tabla de letras- índices » (« tabla de 5 letras» si recoge la mediana, los
cuartos y los límites internos , y «<tabla de 7 letras » si contiene además los octavos) .
La tabla de letras-índice incluye el número de datos, las profundidades y los promedios.
La figura 4.2 contiene la tabla de 7 letras para el ejemplo 4.1 .

4.9 . Gráfico en caja y ex-

tensión
n=20
Ma =44
El gráfico en caja y exten- P(M )=10 H₁=39
1 Hs -52
R=46'5
sión tiene también su origen P(H)=5 E1-36 E1-62
en los métodos exploratorios E=49
P (E )=3 L =33 LS =72
introducidos por Tukey y se
basa en los estadísticos des-
criptivos que proporciona la
tabla de letras-índices . Por tan- Figura 4.2.: Tabla de 7letras.
to, debe permitir apreciar fá-
cilmente la situación de la mediana, los cuartos y los límites internos.
El gráfico en caja analiza la parte central de la distribución y las colas , zonas
éstas en las que se suelen dar anomalías. No recoge los datos con la precisión del
diagrama de tronco y hojas, ya que tiene una finalidad distinta: proporcionar una
visión espacial de conjunto. Es recomendable que vaya siempre acompañado del
diagrama de tronco y hojas.

* remotos
T

alejados
Ls adyacentes 2 P
1'5 P
a
Hs
Ma Paso
H1

1'5 P
L a
1 adyacentes 2 P
‫עם‬

0 alejados
T
* remotos

Figura 4.3.: Diseño del gráfico en caja y extensión.

134

Una caja rectangular forma el núcleo del gráfico. Para construirla, se toman
sobre una recta vertical u horizontal, según la posición que se quiera dar al gráfico,
divisiones que abarquen el rango de la distribución.
Se marcan los cuartos y la mediana mediante tres segmentos paralelos con las
medidas que proporciona la tabla de letras-índices . Uniendo sus extremos por dos
segmentos paralelos, queda determinada la caja, que abarca el 50% de los datos. Del
punto medio de ambos costados de la caja salen dos segmentos rectilíneos («< exten-
siones» o «patillas»), cuya longitud máxima es 1'5 pasos.
Los extremos de las patillas coinciden con los datos «adyacentes». La longitud
máxima será nula cuando el dato «< adyacente» coincida con el cuarto correspondien-
te. Más allá de las extensiones se encuentran los datos «alejados» en una zona que
va desde los límites internos hasta los límites externos ; se representan por el
símbolo «o » .
Los datos remotos son los que caen fuera de los límites externos , y se representan
por un «*».
El gráfico en caja y extensión proporciona:
1) La «mediana» (segmento interior a la caja), que nos da una idea de la
localización de los valores centrales .
2) La <
«dispersión» (facilitada por la posición de los cuartos).
3) La «simetría central» (detectada por la posición de la mediana respecto de los
cuartos).
4) La «<simetría de los extremos» (puesta de manifiesto por la longitud de las
extensiones ) .
5) El «apuntamiento» (relación entre la longitud de la caja y las extensiones) .
6) Los datos anómalos», (situados fuera de los límites internos).

Ejemplo 4.5

Las siguientes calificaciones en la asignatura de Física y Química corresponden

a una muestra seleccionada al azar de 31 alumnos de segundo curso de Bachillerato:

Calificaciones 1 2 4 5 6 7 8

Nº de alumnos 1 1 2 7 7 8 5

La tabla de 7 letras puede apreciarse en la figura 4.4 , y, a su derecha, el diagrama

de tronco y hojas nominal correspondiente.
135

BAJOS | 10

234567
N=31 2 0

P(M ) = 16 Ma =6 2
H₁= 5 Hs=7 H= 6 4 00
P (H ) = 8 E =4 E =8
1 1 E= 6 11 0000000
P (E ) = 3 L₁1=2 L =8
(7) 0000000
13 00000000
5 8 00000

Figura 4.4.: Tabla de 7 letras para el ejemplo 4.5. UNIDAD=0'1 112= 1'2

La mediana es el valor de la variable estadística que ocupa la decimosexta

posición: M =6.
Los cuartos están situados en la posición dada por 1/2( 15+ 1 ) , (lo que supone 8
posiciones a partir de cada uno de los extremos) : H =5 y H =7.
Los octavos ocupan la posición que señala la parte entera de 1/2(8+ 1 ) (4 posicio-
nes a partir de cada uno de los extremos): E =4 y E =8.
El paso es P = 1'5x (7-5) =3 . Como 5-3 =2 , el límite interno inferior es L =2 , y 2 es
el valor del « dato adyacente donde se sitúa el extremo de la patilla inferior.
Al ser 8+3= 11 mayor que todos
los datos, y no haber otro dato que
supere al 8, es 8 el límite interno
superior, donde se sitúa el fin de la
patilla correspondiente: L =8.
Los límites externos son: T =7-6= 1
y TS=8.
El gráfico en caja para el ejemplo
4.5 está recogido en la figura 4.5 . 1 3 5 7
Se detecta un dato anómalo (la
calificación 1 ). Figura 4.5 .: Gráfico en caja y extensión.

4.10. Promedios de simetría

Además de los métodos gráficos, un buen procedimiento para detectar la presen-

cia de asimetría consiste en observar la posición relativa de los promedios (mediana,
promedio de cuartos y promedio de octavos), que, analizados conjuntamente, se
comportan del siguiente modo:
A) Si la distribución es simétrica, los promedios toman los mismos valores o
valores muy próximos.
136

B) Si la distribución presenta un sesgo hacia la derecha, los promedios cumplen

la relación:
M&SHSE

C) Si la distribución presenta un sesgo hacia la izquierda, la relación entre los

promedios es:
Ma≥H≥E

Los paquetes informáticos disponen de órdenes que proporcionan la tabla de

promedios.

4.11 . Transformaciones de datos

Las técnicas exploratorias tienen por objeto detectar la presencia de saltos ,

anomalías, asimetrías o algún tipo de relación no lineal cuando se comparan dos o
más series de datos.
La finalidad que, con ello, se persigue es la de corregir dichos inconvenientes .
Cuando, en una serie de datos falla la simetría, los estadísticos clásicos (media y
desviación típica) no son una síntesis adecuada de los mismos.
Si , por medio de las representaciones gráficas o a través de la tabla de prome-
dios, se detecta un cierto sesgo en la serie de datos original X,,,,,X , interesa
buscar una transformación T de los datos originales , de modo que la serie de datos
transformados T(x , ) ,T(x2) ,... ,T(x ) no posea tal inconveniente y pueda ser tratada
por los métodos clásicos en orden a conseguir inferencias para la población.
En el capítulo 3 hemos estudiado una transformación (tipificación de la varia-
ble) , que consiste en un cambio de origen y un cambio de escala. La tipificación
facilita los cálculos y la interpretación de los datos, pero no realiza ninguna altera-
ción en la forma de la distribución, como puede ser la simetría de los datos .
Nos interesa encontrar transformaciones que realicen alteración en el crecimien-
to de la variable. De esta forma, se puede conseguir la aproximación de los datos
alejados y hacer más simétrica la distribución.
No toda transformación de este tipo va a ser válida. Los requisitos exigidos son:
1) Que conserve el orden de los datos, alterando únicamente la distancia entre
los mismos .
2) Que mantenga los índices, es decir, el transformado del primer cuarto sea el
primer cuarto de los transformados ,...
3) Que sea continua, de modo que datos cercanos entre sí se transformen en
datos también próximos entre sí.
Las transformaciones que mejor desempeñan estas funciones son las transforma-
ciones de potencias, con las que pretendemos conseguir la «< simetrización » de los
datos.
137

La razón fundamental por la que tratamos de « simetrizar» los datos reside en el

hecho de que los estadísticos que se utilizan habitualmente son representativos
cuando su distribución se ajusta a la normal. Pero, incluso cuando se dan desviacio-
nes de la normal, estos estadísticos clásicos son válidos para realizar inferencias de
los parámetros de la población siempre que exista una relación de simetría entre los
datos.

4.11.1 . Transformaciones de potencias

Para conseguir la «< simetrización» de una serie de datos, las transformaciones de

potencias que se utilizan son funciones reales de una variable real de la forma:

-X ' , sip <0

T: R → RIX → T(X) = log X, sip = 0
(24)
X", sip > 0

Cuando la potencia p es negativa, se cambia de signo la variable para mantener

el orden de los datos . El problema está en elegir, para cada caso, el valor más
adecuado de la potencia: p . Tukey propone la siguiente «escala de potencias» ,
según el tipo de asimetría:
1 ) Si la asimetría es positiva, se toman valores de p menores que 1 :

p: -2, -1 , -1/2, 0, 1/2

2) Si la asimetría es negativa, se toman valores de p mayores que 1 :

p: 2 , 3

Cuando p=0, la transformación es T(x)=log(x) .

Estas transformaciones se deben de realizar sobre los datos originales , no sobre
los datos tipificados. En otro caso, la transformación afectaría a los índices de
tendencia central y a la propia forma, y nos encontraríamos con valores negativos
que podrían no tener imagen.
Sin embargo, a veces se dan este tipo de valores en los datos originales, en cuyo
caso será conveniente realizar un cambio de origen antes de aplicar la transforma-
ción de potencia.
Para saber cuál es el valor de la potencia más adecuado, una manera de proceder
consiste en ensayar varias transformaciones y calcular los nuevos promedios de cada
serie de datos transformados, eligiendo aquella que dé unos promedios más precisos
entre sí. Existen otros métodos menos laboriosos , como puede ser el de la pendiente,
que exponemos seguidamente.
138

4.11.2. Método de la pendiente para determinar la potencia

Una vez se ha observado el sesgo de la serie de datos, de acuerdo con la relación

de los promedios, se construye un gráfico, que consiste en representar, en unos ejes
cartesianos, los pares de valores dados por los puntos cuya primera componente es

( X - Ma } + ( Ma- X i
uj = (25)
4 Ma

y cuya segunda componente es

Xi + Xs
Vj Ma (26)
2

donde X representa el extremo inferior de los cuartos u octavos (H. ,E ) , y X¸ el

extremo superior de dichos índices (H ,E ) .
Así, (E +E )/2-M es la diferencia entre el promedio de cuartos y la mediana.
Cuando la distribución es simétrica, estas diferencias serán nulas, mientras que
si la serie de datos presenta un sesgo hacia la derecha o la izquierda, tendrán signos
positivos o negativos, respectivamente.
Si se detecta algún tipo de sesgo, se estima la pendiente, m,, de la recta que pasa
por los puntos de coordenadas (u ,v ) y el origen:

Vj
m; = (27)
uj

Como valor m de la pendiente de la recta que aproxima los puntos, se toma la

mediana de dichas pendientes.
El valor de p que da la mejor transformación de potencia para conseguir la
<<<simetrización» de los datos es

p = 1- m (28)

Ejemplo 4.6

Las puntuaciones obtenidas por 15 alumnos en una prueba han sido:

12 16 20 25 30 35 38 40 45 50 57 65 74 76 90

Se trata de encontrar la transformación de potencia más adecuada para hacer

simétrica la distribución de estos datos.
Efectuados los cálculos, la tabla de promedios nos proporciona los valores :
139

Ma = 40, H = 45, E = 46

que cumplen la relación:

Ma≤H
d ≤E

lo que indica un sesgo hacia la derecha, luego debe de ser p< 1 . Apliquemos ahora el
método de las pendientes para determinar el mejor valor de p. La siguiente tabla
recoge un resumen de los resultados :

X X u m

H 25 65 5.3 5 0,94
E 16 76 11,7 6 0,51

La mediana de las pendientes es m=0'51 , que proporciona el valor de

p= 1-0'51 =0'49

que se puede aproximar a 0'5 . Luego la transformación más adecuada es :

T(X) = X 1/2

La serie de nuevos datos que se obtiene aplicando la transformación es :

3'46 4 4'47 5 5'47 5'91 6'16 6'32 6'7 7'07 7’54 8'06 8'6 8'71 9'48

Los datos transformados proporcionan unos promedios más próximos entre sí:

Md = 6'32, H = 6′53, E = 6′35

lo cual es señal de que la nueva serie de datos tiene menos sesgo. Podemos compro-
bar este resultado trazando los diagramas de tronco y hojas correspondientes a las
dos series de datos (los situamos «espalda contra espalda» para compararlos mejor) :

F Datos originales T D. transformados F

247

21 1
23

50 2
850 4 1
(2) 50 4 04 3
567

6 70 049 6
5 137 (3)
3 64 05 6
1 8 0 67 4
1 0 9 4 1

N=15 Unidad= 1 1/2=12 N=15 Unidad=0,1 3/4=34

140

4.11.3 . Transformaciones de raíz cuadrada

El diagrama diferencial clásico para representar una variable estadística conti-

nua es el histograma, cuyo diseño estudiamos en el capítulo 1. No siempre el
histograma es una buena representación de los datos. Sabemos que no refleja bien la
distribución empírica cuando los datos no están repartidos uniformemente a lo largo
de cada uno de los intervalos de clase o cuando el número de intervalos de clase no
es el adecuado.
Para corregir estos inconvenientes, los métodos exploratorios sugieren la cons-
trucción de un histograma suavizado, que consiste en sustituir la «densidad de
frecuencia» por su raíz cuadrada.
Se consigue, de este modo, el « diagrama de raíz cuadrada» , formado por
rectángulos, cuyas bases son las amplitudes a -e - e , de los intervalos de clase y
altura la raíz cuadrada de la densidad de frecuencia del intervalo :

ni
d₁ = (28)
V ai

Como resultado se obtiene una figura «más suave» . La transformación de raíz

cuadrada es un elemento importante para la comprobación de la linealidad del
modelo de regresión y para averiguar si una distribución empírica se ajusta a la
distribución normal .

Ejemplo 4.7

Las puntuaciones de una prueba realizada a 400 estudiantes han sido:

Puntuaciones [ 150,200) [200,250) [250,300) [300,350) [350,400) [ 400,450) [450,500) [500,550) |

Nº de alumnos 11 16 70 120 115 30 24 15

Los histogramas para los datos del enunciado y para sus imágenes por una
transformación de raíz cuadrada pueden apreciarse en las figuras 4.6 y 4.7.

110
90 2
70 1'5
50 1
30
10 0'5

150 250 350 450 550 150 250 350 450 550

Figura 4.6.: Histograma. Figura 4.7.: Diagrama de raíz cuadrada.

141

4.12. Ejercicios propuestos

4.1 Determinar la mediana, los cuartos, los octavos y los límites externos para la
serie de datos:

55 45 29 45 16 28 71 36 92 63 10 11 26 18 32 91 26 18 32 91 26 27 73 31 26

4.2. Construir el diagrama de tronco y hojas para los datos del ejercicio 4.1 .

4.3 . Los resultados de un test de inteligencia realizado a un grupo de 19 estudiantes

han sido:

98 120 130 95 100 110 97 125 128 97 94 105 101 99 90 100 102 93 102

Estudiar la forma de la distribución a partir de los índices de asimetría y

curtosis.

4.4. El volumen de ventas de un determinado artículo en un hipermercado durante

las 16 últimas semanas ha sido:

70 220 205 360 410 800 920 980 770 420 196 190 145 95 350 400

Hallar la tabla de 7 letras y construir el gráfico en caja y extensión.

4.5 . Se ha realizado una encuesta para averiguar el número de personas que convi-
ven en una misma vivienda de un barrio de determinada ciudad, obteniéndose los
resultados :

Nº de personas 1 2 3 4 5 6 7 8

Frecuencias 10 25 56 15 10 8 3 1

1 ) Hallar los índices de localización resistentes (promedio de cuartiles , trimedia ,

centrimedia y mediana extendida). 2) Determinar los índices de dispersión (rango
intercuartílico, rango intercuartílico pseudo-tipificado e índice de variación cuartílica.

4.6. Construir el diagrama de tronco y hojas para la siguiente serie de datos :

18 13 18 19 16 17 14 17 16 15 16 17 14 14 16 13 15 16 13 16 18 18 12 19 12 16 18 16 16

4.7. Se ha contabilizado la duración (en segundos) de 60 conversaciones telefónicas,

obteniéndose los siguientes resultados :
142

404 326 125 65 89 326 145 190 63 109 320 208 190 216 314 60 92 185 280 143
200 66 189 218 63 313 216 180 204 324 109 63 140 105 107 79 88 69 208 400
270 109 66 403 66 360 305 275 180 402 120 208 122 200 55 78 55 202 160 102

1) Agrupar los datos en intervalos de clase. 2) Construir el histograma y el

diagrama de raíz cuadrada, y analizar las diferencias .

4.8 . Preguntados por los gastos que realizan a la semana 850 adolescentes de 12 a
14 años, se han obtenido las siguientes respuestas :

Gasto (0,100] (100,200] (200,300] (300,400] (400,500] (500,600] (600,700] (700,800]

Frecuencias 40 80 100 130 220 160 82 38

1) Dibujar el histograma correspondiente. 2) Realizar una transformación de

raíz cuadrada y construir el histograma correspondiente a los datos transformados.

4.9. Las puntuaciones obtenidas por dos grupos de alumnos en dos pruebas , una de
conocimientos (X ) y otra de capacidad de abstracción (Y ) han sido:

X, 15 15 16 17 17 18 18 18 18 18 19 20 20 21 21 21 22 22 23 23 23 26 29
Yi 17 16 17 18 16 17 18 19 19 20 18 20 19 20 18 19 22 21 18 13 16 22 21

1) Construir el diagrama de tronco y hojas, la tabla de 7 letras y el gráfico en

caja y extensión para las dos series de datos . 2) Hacer un análisis de la simetría,
lagunas, puntos que se repiten y anomalías de las mismas.

4.10. Una empresa ha decidido hacer un reajuste laboral entre sus empleados , con el
acuerdo de asignar las distintas categorías laborales en función de unos baremos
acordados con los trabajadores, de forma que:
1 ) Se ordena la población según la puntuación obtenida, y se divide en cuatro
partes iguales .
2) Se asignan las categorías A, B, C y D, por este orden, a los empleados que se
encuentren en cada una de las partes .

Baremo [200,260) [260,320) [320,380) [380,440) [440,500) [500,560) [560,620) [620,680)

No empleados 12 102 200 260 140 90 70 50

Hallar las puntuaciones que separan a cada categoría.

143

4.11 . El volumen de ventas (en millones de pesetas) realizado por las veinte sucur-
sales de unos grandes almacenes ha sido:

63 60 32 85 44 83 120 150 240 90 38 46 52 24 10 62 74 83 86 90

1 ) Hacer un análisis gráfico de la forma . 2) Determinar si existen datos anóma-

los. 3) Hallar la media recortada al 40% , la trimedia y la mediana extendida.

4.12. La producción de trigo y maíz obtenida en los diez últimos años por una
cooperativa agrícola (expresada en fanegas) ha sido la siguiente:

Trigo 180 195 214 217 220 253 260 300 298 306 302 298
Maíz 95 87 101 103 105 96 107 98 80 76 86 79

Hallar los índices de variación cuartílica de las dos series de datos . ¿Cuál de ellas
es la más homogénea?

4.13 . En una prueba de velocidad lectora realizada a 500 estudiantes, se obtuvieron

las siguientes puntuaciones:

Puntuación [ 40,50) [ 50,60) [ 60,70)

[60,70) [70,80) [80,90) [90,100 ) [ 100,110)

Nº de estudiantes 82 108 123 115 46 16 10

1 ) Construir la tabla de 5 letras y el gráfico en caja y extensión. 2) Analizar la

forma de la serie de datos gráficamente y mediante los coeficientes de asimetría y
curtosis de los métodos exploratorios.

4.14 . Las puntuaciones obtenidas por un grupo de alumnos en una prueba objetiva
han sido :

21 23 25 33 35 37 38 38 39 39 42 42 43 43 44 46 48 48 51 51 52 54 54 55
55 56 58 61 61 61 62 64 65 66 68 68 70 70 70 70 70 70 70 70 71 72 72 73
74 74 75 76 76 76 77 80 81 86 91 92 93 94 94 95 95 98 98 99

Construir el gráfico en caja y extensión correspondiente a las calificaciones.

4.15 . Se han tomado dos muestras de 180 familias para hacer un estudio de las
declaraciones sobre la renta en dos provincias (A y B) de una comunidad autónoma,
obteniéndose los siguientes resultados:
144

Renta sobre 1000 ptas. [0,10) [ 10,20) [20,30) [30,40) [40,50) [50,60) [ 60,70) [ 70,80) [80,90)

No familias de A 18 35 43 29 18 10 12 6 9

No familias de B 12 30 53 39 15 14 9 6 2

1 ) Hallar la mediana y la mediana extendida de las rentas de las familias de cada

provincia.
2) Determinar los cuartos y sus rangos en cada una de las muestras.
3) ¿Cuál es la provincia con una renta más homogénea?
CAPÍTULO 5

DISTRIBUCIONES BIVARIANTES

5.1 . Análisis de dos caracteres

Los individuos de una población pueden ser clasificados atendiendo a dos carac-
teres simultáneamente. Así, puede hacerse un estudio de la población adulta de un
país atendiendo a dos caracteres de sus individuos , como pueden ser la talla y el
peso.
De este modo se obtiene una distribución bivariante de frecuencias , cuyos datos
pretendemos:
a) presentar mediante una tabla estadística de doble entrada;
b) definir sus distribuciones marginales ;
c) definir sus distribuciones condicionadas;
d) estudiar las distintas representaciones gráficas ;
e) analizar los problemas de regresión y correlación.
Los dos caracteres observados , X e Y, no tienen por qué ser del mismo tipo .
Pueden ser los dos cuantitativos , como es el caso de la talla y el peso, los dos
cualitativos , o uno cualitativo y otro cuantitativo.
La representación gráfica de una variable estadística bidimensional depende de la
naturaleza de los caracteres . Según sean los caracteres cualitativos o cuantitativos, y
éstos discretos o continuos, pueden presentarse seis alternativas.

5.2 . Distribución conjunta

Consideremos una población de N individuos , a los que vamos a clasificar aten-

diendo a dos caracteres simultáneamente, X e Y.
Vamos a suponer que el carácter X presenta p modalidades X,,X,,... ,X,, en tanto
que el carácter Y presenta q modalidades Y,,Y,,...,Y.
‫ין‬
146

Sea nj e n de la pobla q p a la vez la modali

l úmer de individ ción ue resentan -
o uos
c
dad X,1 del aráct X y l m
a odali Y, d el arácte . ste alor es la frecuen
c Y E v
er dad r cia
absol
uta del par (X ,Y) .
La frecuencia relativa del par (X ,Y ) será, por tanto :

nij
= (1)
N

5.2.1 . Propiedades de las frecuencias

I. La suma de las frecuencias absolutas extendida a todos los pares de modalida-

des es igual al número de individuos de la población :

ŹŹn₁ = N (2)
i=1_j=1

ya que se supone que tanto las modalidades X, como las modalidades Y, deben ser
incompatibles y exhaustivas.

II. La suma de las frecuencias relativas extendida a todos los pares de modalidades
es igual a la unidad:

ŹŹ f₁ = 1 (3)
i=1 j=1

En efecto:
1 P 9
ΣΣΣΣ . = nij = N=1
i=1 j=1 i=1 j=1 N N i=1 j=1

5.3. Tablas estadísticas

La tabla estadística que describe los N individuos de la población, atendiendo a

dos de sus caracteres, es una tabla de doble entrada. En las filas, figuran las p moda-
lidades X, del carácter X, y, en las columnas, las q modalidades Y, del carácter Y.
En general, p y q serán distintos, ya que el número de modalidades que presenta
el carácter X no tiene por qué coincidir con el número de modalidades que ofrece el
carácter Y.
En la intersección de la fila correspondiente a la modalidad X, con la columna
correspondiente a la modalidad Y,,
j' situaremos el valor n
nij de la frecuencia absoluta del
par (X ,Y) .
147

XIY Y₁ Y.2 Y Y
q
112
n 119
X nil n₁i
12
X, ₪21 n 22 12j 9
X Di ni2 n. n.
l --- iq
X npl n n
P2 pq

5.4. Distribuciones marginales

5.4.1 . Distribución marginal según el carácter X

Si nos fijamos en el número de veces que aparece la modalidad X, del carácter X,

con independencia de las modalidades que presenta el carácter Y, tenemos la frecuen-
cia marginal de X, cuyo valor puede calcularse sumando las frecuencias que aparecen
en la i-ésima fila de la tabla.
Vamos a representar la frecuencia absoluta marginal de X por n , y será:

ni.= Σnij = nil + ni2 +... + Nij +... + Nig (4)

j=1

Para cada i , los valores n, se obtienen de sumar las frecuencias absolutas de cada
fila de la tabla. Los n1. se sitúan en la columna marginal de la derecha, y definen la
distribución marginal del carácter X.
La frecuencia relativa marginal de la modalidad X, es:

ni.
fii. =
f₁ (5)
N

[Link] . Propiedades

I. La suma de las frecuencias marginales según el carácter X es igual al número

total de individuos de la población.

En efecto: Źn = ŹΣng nij = N

i=1 i= 1 j= 1

II. La suma de las frecuencias relativas marginales según el carácter X es igual a la

unidad.
ni. 1 1
En efecto: Σε = = ni. = N= 1
i=1 i= 1 N N i=1 N
148

5.4.2 . Distribución marginal según el carácter Y

Análogamente, se define la distribución marginal del carácter Y. La frecuencia

absoluta de la modalidad Y del carácter Y, con independencia de las modalidades que
presente el carácter X, viene dada por la suma de las frecuencias que aparecen en la
columna j de la tabla.
La representaremos por n j',, y será:
P
n.; = Σnij = n₁j + n²; + ….. + Nij + ….. + Npj (6)
i=1

Para cada j , los valores n , se obtienen de sumar las frecuencias absolutas de cada
una de las columnas de la tabla, se sitúan en una fila marginal en la parte inferior de la
tabla, y definen la distribución marginal del carácter Y.
La frecuencia relativa marginal de la modalidad Y será:
n.j
f = N (7)

[Link] . Propiedades

Las frecuencias absolutas y relativas marginales del carácter Y cumplen propieda-

des análogas a las del carácter X.
I. La suma de las frecuencias marginales según el carácter Y es igual al número
total de individuos de la población.
P
En efecto: Ση - = Σημ
ΣΣnij = N
j=1 j=1 i=1

II. La suma de las frecuencias relativas marginales según el carácter Y es igual a la

unidad. q 9 1 q 1
= Enj =
En efecto: Σf = Σ N= 1
j=1 j=1 N N j=1 N

La tabla estadística de doble entrada se completa añadiendo dos columnas y dos

filas con las frecuencias absolutas y relativas marginales:

XY Y₁ Y₂ Y Y Fa.m. F.r.m.
q
‫نين‬

n n12 n₁. f1.

n 22 D2
21 24 . 2.
111
2 n19 f1.
༤

1 1J
༌

120
X 2 n n np. f
p Пр PJ pq P.
Fa.m. n2 n n N 1
n₁ J q
82
F.r.m. f..1 f. f 1
q
149

5.5 . Distribuciones condicionadas

Fijémonos ahora en los n , individuos de la población que presentan la modalidad

Y del carácter Y, y observemos la columna j -ésima de la tabla; figuran en ella:
los nj individuos que, teniendo la modalidad Y. , poseen la X₁,
los n₂j individ
uos que, teniendo la modalidad Y , poseen la X₂,

los nPj individuos que, teniendo la modalidad Yj', poseen la X ,

Estos nnj individuos forman una población, que es un subconjunto de la población
total. Sobre este subconjunto se define la distribución de X condicionada por Y, a
cuyas frecuencias vamos a denotar por fi, para i= 1,2, ...,p , siendo :
nij
f = (8)
nj

Se trata de una distribución, ya que el cociente n./n , representa la proporción de

individuos de la población que presentan la modalidad X del carácter X, de entre los
individuos que ya tienen la modalidad Y..
Habrá q distribuciones de X condicionadas por cada una de las Y.
La tabla correspondiente que proporciona la distribución del carácter X condicio-
nado por Y, tiene la forma:

X n f

X n₁j f
X, n2 f,

X n.
1J

X n
P pj P
Total n 1
J

De modo análogo, se definen las distribuciones de Y condicionadas por cada una

de las X. Así tendremos la frecuencia relativa de Y, condicionada por X :

nij
(9)
ni.

Habrá p distribuciones de Y condicionadas por cada una de las X..

La tabla correspondiente a la distribución Y condicionada por X será de la forma:
150

Y Y Y₂ Y Total
Y₁
Dil n. [Link] Dn
i.
າງ n₁₂ 1J
f fi f₂ f fi 1
q

5.5.1 . Propiedades
9
I. Źƒ{
Σ = 1 y Σƒ '; = 1 (10)
i=1 j=1

II. f = f₁f = f.; ƒ} (11)

Las demostraciones de estas propiedades están en el apéndice del capítulo.

5.6. Medidas de posición y de dispersión

De acuerdo con las definiciones establecidas en el capítulo 3, las medias y varianzas

marginales son:

Exi
ni.
i= 1 (12)
x= " s} = = { ( x; −- x }³ n;, $x = ² nj
Σ (x; - x )
N N =1 VN i= 1

9
Żyjn.j
j= 1 1 14
= ²nj
(y -5)
N N Σ (y, -ỹ)²nj, sy = N j=1

En la columna j -ésima de la tabla de doble entrada, tenemos las frecuencias abso-

lutas de los n individuos de la población que presentan el valor y del carácter Y
según los valores de la variable X. Esta columna define, la distribución de la variable
X condicionada por Y=y .
Por tanto, la media y la varianza de X condicionada por Y=y; son:
Media de X/Y=y;;

x; = xinij = Exif (13)

n.j i=1 i=1
151

Varianza de X/Y=y;:

I
- = Xi - Xi (14)
n.j i= 1 i=1

Análogamente, la fila i-ésima de la tabla describe la distribución de la variable Y

condicionada por X.. Por tanto:
Media de Y/X=x;;

1
y; = £ y; ƒ'¸
ÿ; = − ¿y;n; = (15)
ni. j=1 j=1

Varianza de Y/X=x :

1 q q
= (16)
ni . j=1 j=1

Ejemplo 5.1

Tratemos de clarificar estos conceptos a través de un ejemplo sencillo , como es el

que representa la siguiente tabla, que se ha obtenido de medir la estatura y de pesar
a 100 jóvenes de una determinada comarca:

XIY 1'5-1'6 1'6-1'7 1'7-1'8 1'8-1'9

40-45 3 2 0 0
45-50 1 1 1
214201

50-55 4 4 5
55-60 7 3 1
46
63222

60-65 6 6
65-70 4 6
70-75 0 3 3
75-80 4 3
80-85 1 2 5 2

Las distribuciones marginales de X e Y vendrán dadas por las columnas y filas

adicionales, que se obtendrán de sumar las frecuencias por filas y por columnas :
152

XY 1'5-1'6 1'6-1'7 1'7-1'8 1'8-1'9 n₁ f

224
40-45 3 0 0 5 0'05
45-50 1 1 1 5 0'05
50-55 2 4 4 5 15 0'15
55-60 1 7 3 1 12 0'12
60-65 4 6 6 4 20 0'20
65-70 2 3222 4 6 15 0'15

345
70-75 0 3 8 0'08
75-80 1 3 10 0'10
80-85 1 2 10 0'10

15 30 30 25 100 1
J
f. 0'15 0'30 0'30 0'25 1

Podemos observar cómo hay 15 jóvenes que miden entre 1,50 y 1,60; 30 jóvenes
que miden de 1,60 a 1,70; 30 jóvenes que miden de 1,70 a 1,80, y 25 jóvenes que miden
de 1,80 a 1,90.
Asimismo, hay 5 jóvenes que dan un peso comprendido entre 40 y 45 kilogramos ;
5 jóvenes con peso entre 45 y 50, etc.
La media de los pesos es:

42,5x5 + 47,5x5 + 52,5x15 +... + 82,5x10 6370

x= == 63,7
100 100

y la media de las estaturas :

1,55x15 + 1,65x30 + 1,75x30 + 1,85x25 171,5

y= = 1,715
100 100

Varianzas y desviaciones típicas:

1 12206
= Σ(x; - 63,7 )² n₁ = == 122,06; $x = 122,06 = 11,04
100 i=1 100

1 4 1,027
= Σ (y, -1,715 ' nj = = 0,0102; s, = √√0,0102 = 0,10
100 100

Veamos ahora cuál es la distribución de los pesos (variable X) , pero únicamente de los
jóvenes que miden de 1,60 a 1,70. Se trata de la distribución de la variable X condicio-
nada por Y= 1,65, que vendrá dada por la siguiente tabla:
153

n₁ Y=1,65 fY=1,65

40-45 2 0,066
45-50 2 0,066

47632
50-55 0,133
55-60 0,233
60-65 0,200
65-70 0,100
70-75 0,066
75-80 2 0,066
80-85 2 0,066
30 1

La media, varianza y desviación típica de esta distribución son:

42,5x2 + 47,5x2 + 52,5x4 +... +82,5x2 6116

XY=1.65 = 61,16
30 100
9
1 3296,4
VY=1,65 (X) = Σ (x; - 61,16 )³ n ;2 = = 109,88
30 i=1 30

Dy -1.65(X)= √109,88 = 10,48

La distribución de las estaturas (variable Y) , pero sólo de los jóvenes que pesan
de 70 a 75 Kilogramos, es decir, la distribución de Y condicionada por X=72,5 vendrá
dada por la tabla:

1,5-1,6 1,6-1,7 1,7-1,8 1,8-1,9

nx=72,5 j 0 2 3 3 8

fX=72,5 0 0,2 0,3 0,5 1

La media, varianza y desviación típica de esta distribución son :

1,55x0 + 1,65x2 + 1,75x3 + 1,85x3 14,1

yx=72,5 = == 1,76
8 8
0,0488
Vx =72.5 (Y) = = Σ (y, -1,76 )³ n7 = = 0,0061
8 j=1 8

Dx =72.5 (Y) = √0,0061 = 0,078

154

5.7. Dependencia e independencia funcional

5.7.1. Independencia

Se dice que el carácter X es independiente del carácter Y si son idénticas las

distribuciones condicionadas de X/Y , para j = 1,2, ... ,q . Por lo tanto, las frecuencias
relativas f no dependen de j .

Proposición 5.1: Si X es independiente de Y, las distribuciones condicionadas

de X/Y, son idénticas a la distribución marginal de X.

En efecto, por ser X independiente de Y, serán:

nil Ni2 nij niq

= =.
n.1 N.2 n.j n.q

Cada una de estas fracciones es igual a la fracción que se obtiene de sumar

numeradores y denominadores :
nij nil + Ni2 +... + Nij +... + Nig = ni.
=
n.j n. + n.2 +... + N .; +... + n.q N

luego ff , c.q.d.

Por lo tanto, si el carácter X es independiente de Y, las distribuciones condiciona-

das X/Y, son todas ellas idénticas a la distribución marginal de X, es decir, las colum-
nas de la tabla de frecuencias son proporcionales entre sí y proporcionales a la colum-
na marginal.

Proposición 5.2: Si X es independiente de Y, Y es independiente de X.

En efecto, por la propiedad II de 5.5.1 , se tiene:

ƒ₁ = ƒ; f'; = ƒ} ƒ{

Al ser X independiente de Y , en virtud de la proposición anterior, será:

f = fi

Luego

= = =

lo que significa que Y/X, tiene la misma distribución que Y, para todo i. Luego Y es
independiente de X, c.q.d.
La proposición 5.2 nos dice que «siempre que un carácter X sea independiente de
155

otro carácter Y, lo será Y de X» . Por ello, se dice que los dos caracteres son indepen-
dientes.

Proposición 5.3: Si X e Y son independientes, se verifica que

nij = ni.n.j

En efecto, al serff , será: f = ff , y, por tanto :

nij ni. n.j

= nij = ni.n.j
N NN

Ejemplo 5.2

La siguiente distribución corresponde a dos caracteres independientes :

Y
Y₁ Y2 Уз Ул Ys n₁
X
55

428
264

X 2 3 15
X2 9 15 12 3 45
X3 4 6 10 2 30
X 8 12 20 16 4 60

n 20 30 50 40 10 150

Basta con observar cómo las frecuencias absolutas de cada modalidad son pro-
porcionales entre sí y a las frecuencias absolutas marginales ; en otras palabras, las
filas son proporcionales entre sí, y también lo son las columnas .

5.7.2. Dependencia

El carácter X depende funcionalmente del carácter Y si a cada modalidad Y, de Y

corresponde una única modalidad posible de X. Por lo tanto, cualquiera que sea j , la
frecuencia absoluta n1J vale cero salvo para un valor i correspondiente a una columna
j tal que n1J=n .
Cada columna tendrá, pues , un único término distinto de cero .
Si a cada modalidad X, de X corresponde una única modalidad posible de Y, será
Y funcionalmente dependiente de X.
La dependencia funcional de X respecto de Y no implica que Y dependa
funcionalmente de X.
Para que la dependencia funcional sea recíproca, los caracteres X e Y deben pre-
sentar el mismo número de modalidades (p=q) , y en cada fila así como en cada colum-
na de la tabla debe haber uno y sólo un término distinto de cero .
156

Ejemplo 5.3

Supongamos el hipotético caso de la distribución de los 1700 matrimonios de una

ciudad, en que las edades de esposo y esposa vienen dadas por la siguiente tabla:

Edad Esposo 25 26 27 28 29
Edad Mujer

19 250 0 0 0 0
20 0 280 0 0 0
000

21 0 320 0 0
22 0 0 440 0
23 0 0 0 410

Es evidente que hay una relación funcional entre las edades de marido y mujer:
cada hombre está casado con una mujer 6 años más joven.

Ejemplo 5.4

En una ciudad próxima a la del ejemplo anterior, al analizar las edades de marido y
mujer entre sus 1500 matrimonios, se obtuvieron los siguientes resultados :

Edad Esposo 25 26 27 28 29 30 31 Total

EdadMujer

19 220 0 0 0 170 0 0 390

20 0 210 0 130 0 0 0 340
21 0 0 230 0 0 0 0 230
22 0 0 0 0 0 0 260 260
23 0 0 0 0 0 280 0 280
Total 220 250 230 130 170 280 260 1540

En esta ciudad, la edad de la mujer depende funcionalmente de la edad del marido.

Así, todo varón casado de 28 años de edad tiene una mujer de 20.
En cambio, si nos dicen que una mujer casada tiene 20 años, no sabemos cuál es
la edad del marido, ya que éste puede tener 26 ó 28 años . Se trata de un claro ejemplo
en que un carácter depende funcionalmente del otro, no siendo recíproca la depen-
dencia.

Ejemplo 5.5

En una tercera ciudad, menos hipotética que las anteriores , al comparar las edades
157

entre marido y mujer de 7500 matrimonios jóvenes, se obtuvieron los siguientes resul-
tados:

Edad Esposo 25 26 27 28 29 30 31 Total

EdadMujer

19 220 150 285 190 125 140 130 1240

20 310 220 225 310 220 230 240 1755
21 150 220 180 260 180 290 195 1475
22 120 300 210 180 230 250 240 1530
23 220 260 185 230 200 190 215 1500
Total 1020 1150 1085 1170 955 1100 1021 7500

En esta última ciudad no hay dependencia funcional entre las edades de esposo y
esposa. No obstante, puede existir una cierta relación de dependencia entre ambas
edades, relación que será estudiada en el capítulo 6.

5.8. Momentos

Supongamos una distribución bivariante determinada por el par (X ,Y ) . Entonces,

dados dos números naturales r y s, y dado el par de números reales (c,d), se llama
momento respecto al par (c,d) de órdenes r y s, y lo representamos por Mrs (c,d) a la
expresión:
P 9
ΣΣ(x; -c)' (y, -d)' nij
i=1 j=1
Mrs(c, d) = (17)
N

Tienen interés los momentos que se obtienen cuando el par (c,d) es el par formado
por las medias marginales o el par formado por las coordenadas (0,0) del origen.

5.8.1 . Momentos centrales o respecto de las medias

P q
ΣΣ(x - x ) (y - y )' nij
i=1 j=1
mrs
N

5.8.2. Momentos respecto al origen

P q P q
ΣΣ (x¡ - 0)' (y¸ - 0) nij ΣΣxy n (19)
i=1 j=1 i=1 j=1
ars =
N N
158

5.8.3. Primeros momentos

ΣΣ xi jnij ΣΣ
i=1 j=1 i=1 j=1
a00 = = =1
N N

p q P 9
ΣΣxi nij
i=1 j=1 i=1 j=1
a10 = = x a01 = = y
N N
P q P q
ΣΣxi nij ΣΣ ¡ nij
i=1 j=1 i=1 j=1
a20 = a02 =
N N

P q P
Σ Σxi yj nij ŹŹ ( x; - x )( Y ; - ỹ) nij
i=1 j=1 i=1 j=1
all = mil =
N N

El momento central m₁, es la covarianza, que será analizada en el apartado 5.8.5 .

Las varianzas marginales son:

P P q
ΣΣΟ - ΧΡΟ - nij
ΣΣ (x - xny
i=1 j=1 i=1 j=1 = s
m20 = =
N N

P 9 p
Nij
ŹΣ(x; − x ) (y ; - ỹ } n¡ ŹΣ ( y, -ỹ } nj
i=1 j=1 i=1 j=1
mo2 = =
N N

5.8.4. Propiedades

1
I. x= = (20)
Σ Xini. N у, п.;
N i=1
1
II. a20 = Σxini. (21)
N i=1 a02 = Ση
N j=1
III . m20 =a20 -α10 m02 =α02 -α01 (22)

Las demostraciones de estas propiedades pueden verse en el apéndice al capítulo.

159

La propiedad III nos permite obtener las varianzas marginales de modo más senci-
llo a partir de los momentos respecto al origen.

Ejemplo 5.6

Un grupo de 25 estudiantes obtuvo las siguientes calificaciones en Matemáticas y

Física:

M 3 3 4 4 4 4 5 5 5 5 5 6 6 6 6 7 7 7 7 8 8 8 8 9 9

F 4 6 4 4 5 6 4 5 6 6 7 5 6 7 7 6 8 8 9 7 8 9 10 9 10

Se trata de: 1 ) construir la tabla de frecuencias, 2 ) hallar las medias y varianzas

marginales .

Solución:

1 ) La variable M toma 7 valores (del 3 al 9) y la variable F toma otros 7 (del 4 al 10) .

La tabla de doble entrada es :

MF 4 5 6 7 8 9 10 Total
3456789

1210OO

245 +442
0 1 0 0 0 0
1 0 0 0 0 4
1 2 1 0 0 0
1 1 2 0 0 0
0 0 0 2 1 0
0 0 0 1 1 2 1
0 0 0 0 1 1 0

Total 4 3 5 4 4 3 1 25

2) Para hallar la media, varianza y desviación típica marginal de las calificaciones en

Matemáticas, completamos su tabla marginal y utilizamos las fórmulas (20), (21) y (22) :

M n Mn M2 M²n
3 2 6 9 18
4 4 16 16 64
5 5 25 25 125
+4423
6849

24 36 144
7 28 49 196
32 64 256
9 18 81 162
25 149 965
160

149
M = a10 = = 5,96
25

965
a20 = = 38,6
25
2
SM = m20 = α20 - α10 = 38,6-35.5216 = 3,0784

SM = √√3,0784 = 1,7545

Completamos ahora la tabla marginal de las calificaciones en Física para calcular

su media, varianza y desviación típica (la dispondremos en columnas para mayor
comodidad):

Fin Fn F²n

4 4 16 16 64
5 3 15 25 75
6 5 30 36 180
7 3 21 49 147
433
888

4 32 64 256
9 27 81 243
10 3 30 100 300

25 171 1265

171
F = α01 = == 6,84
25
1265
a02 = == 50,6
25

= mo2 = a02 - aỗ₁ = 50,6 -46,78 = 3,82

SF = √√3,82 = 1,954

5.8.5. Covarianza

El momento central de orden ( 1,1 ) de la variable estadística bidimensional (X,Y)

recibe el nombre de covarianza de las variables X e Y.
La covarianza es, por tanto, la media ponderada del producto de X- a, por Y- a
Este producto es positivo cuando , a valores grandes de X, les corresponden valores
161

grandes de Y, o, a valores pequeños de X, les corresponden valores pequeños de Y.

En cambio, el producto (X-a, )(Y-a ,) resulta negativo cuando, a valores grandes de X,
correspondan valores pequeños de Y, o, a valores pequeños de Y, corresponden
valores grandes de X.
El signo de la covarianza indica, por tanto , si la relación entre las variables es
positiva o negativa.
La covarianza proporciona una medida del grado de dependencia entre las varia-
bles X e Y. Sin embargo, la covarianza tiene el inconveniente de depender de la
dimensión de las variables.
Como medida adimensional del grado de dependencia entre dos variables, se uti-
liza el coeficiente de correlación de Pearson, que se estudia en el capítulo sexto, y que
se define a partir de la covarianza, por lo que sus propiedades se van a basar en las
propiedades de ésta.

[Link] . Propiedades de la covarianza

1. (23)

Esta propiedad nos indica que la covarianza es la media del producto de las varia-
bles menos el producto de las medias .

2. Si X e Y son dos variables estadísticas independientes, su covarianza es cero.

La recíproca de esta propiedad no es cierta. Puede suceder que la covarianza de

dos variables estadísticas sea nula, y éstas no sean independientes.
Las demostraciones de estas propiedades pueden verse en el apéndice del capítulo.

Ejemplo 5.7

Vamos a calcular la covarianza de las variables del ejemplo 5.6.

Para ello , utilizamos la fórmula (23) , realizando el cálculo de a,, a partir de la tabla
de doble entrada:
7 7
1 1026
n =
a₁ = ΣΣM; Fj nij : (4x3x1 + 6x3x1 +... + 10x10x1) = = 41,04
i=1 j=1 25 25

luego m1 = a11 - a10 ao1 = 41,04 - 5,96x6,84 = 41,04 - 40,76 = 0,28

5.9 . Poblaciones pequeñas

Si la población estudiada según dos caracteres continuos X e Y es pequeña, al

162

hacer una agrupación en clases, éstas serían muy poco numerosas y de gran ampli-
tud, por lo que los cálculos resultarían poco precisos.
En estas situaciones , se estudian los pares de valores (x ,y ) , donde i recorre los N
individuos de la población, considerando la frecuencia absoluta de cada par igual a la
unidad. De esta forma, las medias y varianzas marginales vienen dadas por:

1 N
x= Exi, y (24)
NΣi=1 N i=1
1 N N
V(X) = Σ ( x; - x )
}
² , V(Y) = =
Ni-l ( y; - ÿ }
Σ ² (25)
N i=1

y la covarianza por:
1 N
mil = (26)
N i=1

Ejemplo 5.8

La tabla adjunta representa los pesos y las alturas de los 12 estudiantes de una
clase:

P 71 72 72 73 73 75 75 75 76 76 76 77

F 1'66 1'68 1'68 1'69 1'68 1'68 1'70 1'70 1'73 1'73 1'75 1'77

Vamos a calcular: 1 ) El peso medio; 2 ) la altura media; 3) la altura mediana; 4) las

varianzas y desviaciones típicas marginales; 5) la covarianza.

Solución:
112 891
1 ) Peso medio: P ΣP₁ = = 74,25
12 i=1 12

1 12 20,45
2) Altura media: A= ΣΑ = 1,7041
12 i=1 12

3) Para calcular la altura mediana, ordenamos las alturas en orden creciente :

1,66; 1,68; 1,68 ; 1,68; 1,68; 1,69; 1,70; 1,70; 1,73; 1,73; 1,75; 1,77

Como el número de valores es par, la altura mediana será la media aritmética de los
dos valores centrales :
1,69+1,70
MA = 1,695
2
163

4) Las varianzas y desviaciones típicas son:

Sp = m20 = a20 - a10 = 5516,58-5513,06 = 3,52 ⇒ sp = √√3,52 = 1,876

SA = m02 = A02 - aỗ1 = 2,9052 - 2,9039 = 0,013 ⇒ SA = √0,013 = 0,036

5) Para hallar la covarianza , calculamos primero a₁₁

12
1 1 1520,46
απ = ΣΡΙΑ, = Ξ 12 (71x1,66+... + 77x1,77) =
; = 126,705
12 i=1 12
entonces

m11 = α11 - α10 α01 = 126,705-74,25x1,7041 = 126,705 - 126,529 = 0,176

5.10. Representaciones gráficas

Las alternativas que pueden presentarse según sea la naturaleza de los caracteres
son:
a) los dos caracteres son cualitativos ;
b) X es cualitativo e Y cuantitativo discreto;
c) X es cualitativo e Y cuantitativo continuo;
d) X e Y son cuantitativos discretos ;
e) X e Y son cuantitativos continuos ;
f) X es cuantitativo discreto e Y cuantitativo continuo.
Por otra parte, al hacer la representación gráfica de una variable bidimensional ,
podemos pretender:
i) mostrar la distribución conjunta;
ii) mostrar cada una de las distribuciones condicionadas según un carácter en
función de las modalidades del otro.
Esto da lugar a una gran variedad de representaciones gráficas, dependiendo
también su uso del campo de investigación.

5.11. Los dos caracteres son cualitativos

En este caso, se representan, en un mismo gráfico, la distribución conjunta y una

de las dos familias de distribuciones condicionadas (bien la de X condicionada por las
Y , bien la de Y condicionada por las X.).
Distinguiremos dos situaciones, según el número de modalidades de cada carácter:
i) ambos caracteres presentan más de dos modalidades ;
ii) uno de los caracteres es dicotómico.
164

5.11.1 . Los dos caracteres presentan más de dos modalidades

El método de representación se basa en el uso de rectángulos con una superficie

proporcional a la frecuencia absoluta n...
La base de cada rectángulo es proporcional a la frecuencia marginal absoluta ny
la altura proporcional a la frecuencia condicionada f . Por tanto, el área del rectángulo
es proporcional a
nij
n;f = nj = nij
n.j
Para cada modalidad del carácter X , se construyen los rectángulos correspondien-
tes a las modalidades de Y, superponiéndolos . Al final, se añade un rectángulo que
corresponde a todas las variedades.
Este tipo de gráfico pone de manifiesto :
las frecuencias marginales (bases de los rectángulos) ;
- las frecuencias de la distribución conjunta (áreas de los rectángulos) ;
- las frecuencias condicionales (alturas de los rectángulos) .

Ejemplo 5.9

Queremos representar la distribución bidimensional (X,Y), correspondiente a la

producción anual (X) de carbón , petróleo, hierro y acero (en millones de toneladas) de
cuatro de los principales países productores (Y) , China, [Link]. , Canadá y la URSS ,
según datos del año 1990, que reproduce la siguiente tabla:
2223

XY China [Link]. Canadá URSS Total

Carbón 860 765 80 605 2310

Petróleo 130 460 72 625 1287
Hierro 107 59 20 252 448
Acero 59 90 25 162 336

Total 1156 1374 207 1644 4381

Para representar la producción de los productos según el país, son necesarias las
distribuciones condicionadas acumuladas para cada uno de los productos , que vie-
nen dadas por:

XIY China FEUU. Canadá URSS

Carbón 37'2 70'3 73'7 100

Petróleo 10'1 45'8 51'4 100
Hierro 23'9 37'1 43'8 100
Acero 17'5 44'3 5127 100
Total 26'4 57'7 62'4 100
165

100

URSS

Canadá
50

[Link].

0 China
Carbón Petróleo Hierro Acero Todos

Figura 5.1 : Producción según el país.

En la figura 5.1 se aprecia la producción de los distintos productos según el país

donde se obtienen y el volumen de producción.
Se pueden permutar los caracteres, considerando la distribución según los pro-
ductos de cada país . Para ello , se necesitan las distribuciones condicionadas acumu-
ladas para cada país, que vienen dadas por:

XIY China EEUU. Canadá URSS Total

Carbón 74'4 55'6 38'6 36'8 39'7

Petróleo 85'6 89'1 73'4 74'8 52'5
Hierro 94'8 93'4 87'9 90'1 73'8
Acero 100'0 100'0 100'0 100'0 100'0

La figura 5.2 muestra la distribución de los distintos productos según el volumen

de producción y el país de origen.

100

Acero

50 Hierro

Petróleo

Carbón
China [Link]. Canadá URSS Todos

Figura 5.2: Producción según el volumen.

166

5.11.2. Uno de los caracteres es dicotómico

Cuando uno de los dos caracteres, por ejemplo X, presenta únicamente dos moda-
lidades, se puede utilizar un diagrama de sectores constituido por dos semicírculos de
diferente radio (uno por cada modalidad del carácter), que se elabora de acuerdo con
los siguientes criterios :
i) los radios se toman proporcionales a la raíz cuadrada de las frecuencias absolu-
tas marginales del carácter dicotómico, n ;
ii) los ángulos centrales son proporcionales a las frecuencias relativas condiciona-
das f .
De este modo, se consiguen dos semicírculos de diferente radio, cada uno de los
cuales corresponde a una de las dos modalidades del carácter dicotómico.
Las áreas de los sectores serán, por tanto, proporcionales a las frecuencias abso-
lutas de la distribución conjunta, n , ya que el área del sector es proporcional a la
amplitud del ángulo por el cuadrado del radio:

nij
', (√n.)² = ƒ', n = ni. ni. = nij
ƒ

Ejemplo 5.10

Consideremos la distribución, por razón del sexo y estado civil, de las personas de
40 a 50 años residentes en el año 1990 en una pequeña ciudad, según describe la
siguiente tabla:

SVE Solteros Casados Viudos Divorciados Otros Total

Mujeres 303 6453 728 205 276 7965

Hombres 623 5210 956 126 350 7265

Total 926 11663 1684 331 626 15230

Los radios de los semicírculos deben ser proporcionales a las frecuencias absolu-
tas: 7965 y 7265.
Necesitamos, para determinar los ángulos centrales, las distribuciones condiciona-
das acumuladas según el estado civil para las dos modalidades (mujeres y hombres)
del carácter dicotómico:

SVE Solteros Casados Viudos Divorciados Otros

Mujeres 3'8 84'8 94'0 96'6 100

Hombres 8'6 80'3 93'5 95'3 100
167

Varones (7265 ) Solteros

Casados

Viudos

Divorciados

Otros
Mujeres (7965 )

Figura 5.3 : Diagrama de sectores con uno de los caracteres dicotómico.

En la figura 5.3 puede apreciarse el diagrama de sectores de la distribución de

mujeres y hombres atendiendo al estado civil.

5.12 . Un carácter es cualitativo y el otro cuantitativo

El tipo de representación es similar al expuesto en los apartados anteriores: mues-

tra la distribución global y una de las distribuciones condicionadas mediante diagramas
diferenciales.
Vamos a suponer que el carácter cualitativo es X y el cuantitativo Y. Cuando se
representan las distribuciones del carácter cuantitativo Y condicionado por las moda-
lidades X del carácter cualitativo X, se suelen añadir los diagramas diferenciales
correspondientes a cada una de las modalidades del carácter cualitativo.
Estos últimos gráficos serán diagramas de barras o histogramas, según sea discre-
to o continuo el carácter cuantitativo.

Ejemplo 5.11

La siguiente tabla contiene la distribución del número de hijos por familia según la
clase social a que pertenecen :

CANº H 1 2 3 4 5 Total

Baja 45826 61200 31324 7250 803 146403

Media 35456 32124 28425 5322 1165 102492
Me-Alta 34625 38246 25430 5224 976 104492
Alta 15260 14916 8241 1280 324 40021

Total 131167 146486 93430 19076 3259 15230

168

Construimos la tabla de frecuencias condicionadas acumuladas según el número

de hijos, que nos va a permitir hacer la representación.

CANº H 1 2 3 4 5

Baja 3123 73'1 94'5 99'5 100

Media 34'6 66'0 93'7 98'9 100
Me-Alta 33'2 69'8 94'2 99'2 100
Alta 38'1 75'4 96'8 98'0 100

Total 33'4 70'6 94'4 99'2 100

Las cuatro primeras filas nos proporcionan las alturas acumuladas de los rectán-
gulos que corresponden a las distribuciones condicionadas según el número de hijos,
en tanto que una quinta fila contiene los datos globales .
En la figura 5.4 puede apreciarse su representación . La quinta pila de rectángulos
corresponde a la distribución conjunta.

100

5 hijos

4 hijos

50
3 hijos

2 hijos

1 hijo

C. baja C. media C. m-alta [Link] Conjunta

Figura 5.4: Representación de las clases sociales según el nº de hijos

Para tener la representación gráfica de las distribuciones condicionadas en fun-

ción de la clase social, necesitamos las tablas de frecuencias condicionadas acumula-
das según la clase a que pertenecen:
169

CAN" H 1 2 3 4 5 Total

Baja 34'9 41'8 33'6 38'0 24'6 37'9

Media 62'0 63'7 64'1 65'9 60'6 63'1
Me-Alta 88'4 89'8 91'3 96'3 90'1 89'9
Alta 100 100 100 100 100 100

Tomando las alturas de los rectángulos proporcionales a los valores de cada co-
lumna de la tabla, se obtiene la representación de la distribución global y de las
distribuciones condicionadas según la clase social, tal como recoge la figura 5.5 .

100

[Link]

C.m-alta
50

[Link]

0 [Link]

1 hijo 2 hijos 3 hijos 4 5 Todos

Figura 5.5: Representación según la clase social.

El carácter cuantitativo Y (número de hijos) es discreto, por lo que utilizamos

diagramas de barras para representar las distribuciones condicionadas según el núme-
ro de hijos.
Se añaden al final, por consiguiente, tantos diagramas de barras como modalida-
des (las cuatro clases sociales consideradas) .

1234 5 n de hijos 1 2 3 4 5 n de hijos 1 2 3 4 5 n de hijos 1234 5 no de hijos

Clase baja Clase media Clase media -alta Clase alta
170

5.13 . Los dos caracteres son cuantitativos

Cuando los dos caracteres son cuantitativos , la representación de las distribucio-

nes condicionadas es análoga a la utilizada en el caso de un carácter cualitativo,
utilizándose diagrama de barras o histograma según sea la variable discreta o conti-
nua.
En cambio, para representar la distribución global, se utilizan distintos métodos,
según la naturaleza de los caracteres, algunos de los cuales exponemos en los si-
guientes apartados .

5.13.1. Las dos variables son discretas

Si las dos variables, X e Y, son discretas, las frecuencias absolutas correspondien-

tes a cada par (x ,y ) se representan por círculos con centro en dicho punto y radio
proporcional a la raíz cuadrada de n..
Se consigue, de esta forma, que la superficie de cada círculo sea proporcional a la
frecuencia absoluta n₁ de cada par (x ,y;) .

Ejemplo 5.12

La siguiente tabla recoge las calificaciones de 100 alumnos de primer curso de

bachillerato en Matemáticas y Ciencias de la Naturaleza :

MACN 4 5 6 7 8 9 10 Total
35
23456789

0222 3 4 NO

01122210
2334520

1 0 6
4 0 7
5 4 2 0 17
4522

4 4 0 20
427O

4 1 24
301

0 15
1 1 2 1 8
0 1 1 0 0 1 3

Total 19 22 18 17 13 8 3 100

Se trata de dos variables discretas, cuya distribución global representamos en la

figura 5.6.
171

5.13.2. X es una variable con- 10

tinua e Y discreta
9
Cuando una de las varia-
8
bles es continua y la otra dis-
creta, la distribución global se
7
representa por medio de
histogramas .
1) Habrá tantos histogra-
mas como valores toma la va- 5
riable discreta.
2) Cada histograma tendrá
las bases iguales a las ampli-
tudes de los intervalos de cla-
se de la variable continua X. 2 3 4 5 6 7 8 9
3) Las alturas serán propor-
cionales a las frecuencias me- Figura 5.6: Representación global de variables discretas.
dias por unidad de amplitud.
De este modo, las áreas de los histogramas serán proporcionales a las frecuencias
absolutas marginales de la variable discreta Y.
No todas las bases de los distintos rectángulos se sitúan sobre una misma hori-
zontal, sino que se sitúa en una posición más baja la base del rectángulo al que
corresponde una mayor altura; de este modo se consigue una figura simétrica con
respecto a la línea recta horizontal que divide a cada rectángulo en dos partes iguales .
La figura que se consigue presenta una simetría axial respecto de la horizontal que
parte del valor correspondiente a la variable discreta.

Ejemplo 5.13

Las alturas de 90 niños de edades comprendidas entre 11 y 14 años vienen refle-

jadas en la siguiente tabla:

MACN 11 12 13 14 Total

130-140 0 1 0 0 1
140-150 3 1 0 1 9
222

2553

150-160 7 10 12 6 35
53
30

160-170 12 15 35
170-180 2 5 3 10
2

Total 13 27 15 100
172

130 140 150 160 170 180

Figura 5.7: Gráfica para una variable discreta y otra continua.

Los histogramas de la figura 5.7 muestran la representación de su distribución

global.

5.13.3 . Las dos variables son continuas

Cuando las dos variables son continuas, se puede representar la distribución

global, bien por medio de puntos en el plano cartesiano, o bien se intenta dar una
visión espacial a la representación de la distribución global por medio del estereograma.

[Link] . Representación mediante puntos

Si las variables son continuas, se representan, en un plano cartesiano, los rectán-

gulos correspondientes a los distintos pares de intervalos de clase .
Sobre cada rectángulo, se sitúa un número de puntos proporcional a su frecuencia
absoluta. Así, si se trata de los intervalos [x,,,x ] , [y,,,y;],
j-1' el número de puntos que se
situarán será proporcional a la frecuencia n...
Una pequeña variante consiste en poner el valor de la frecuencia absoluta en cada
rectángulo .

Ejemplo 5.14

La siguiente tabla recoge las alturas y los pesos de 470 jóvenes de una de las
provincias de Castilla-La Mancha:
173

AP 45-50 50-55 55-60 60-65 65-70

150-155 9

938
155-160 10 10 20

==
160-165 11 29 31 9 21
165-170 10 29 60 29 10
170-175 20 20 31 11
175-180 10 20 21 10
180-185 9 11 10

Por ser las frecuencias múltiplos de 10 o valores muy próximos a un múltiplo de 10,
vamos a tomar este valor como razón de la proporcionalidad . Así, para representar
una frecuencia absoluta de 60, dibujaremos 6 puntos .

70
·
65

60
·
55
·
50
· ·
45

150 155 160 165 170 175 180 185

Figura 5.8: Representación mediante puntos.

[Link]. Estereograma

El estereograma es la generalización del histograma para el caso de una variable

bidimensional. Consiste en la representación de la distribución global por medio de
paralelepípedos rectangulares de volumen proporcional a las frecuencias absolutas
correspondientes .
Se construye, para cada par de clases (una correspondiente a la variable X y otra
a la variable Y) , un paralelepípedo, cuya base es el rectángulo de dimensiones iguales
a los intervalos de clase, y, cuya altura es proporcional a sus frecuencias absolutas.
Si se trata de los intervalos de clase [x,,,x ] , [y,,,y; ], cuyas amplitudes son, respec-
tivamente, a = x -x , y b =y -yj,,,
-‫ יו‬la altura del paralelepípedo será:
174

fij fü
y el volumen ab =fü
ab ab

La suma de los volúmenes de todos los paralelepípedos será igual a la unidad, ya

que

i=1 j=1

La representación por medio de estereogramas presenta la dificultad práctica de

que, con frecuencia, algunos paralelepípedos quedan tapados por encontrarse situa-
dos en un plano más lejano, y no se percibe una visión completa de la distribución.
La figura 5.9 contiene el estereograma para los datos del ejemplo 5.14 .

120
080

100

60
49

40
6
20

62
58
0 16 50 5594
150 PESO
155 160 165 170 175 180
ALTURA

Figura 5.9: Estereograma.

5.14. Diagrama de dispersión

Cuando se conoce, para cada individuo de la población, el par de valores que le

corresponden, en el caso de que los dos caracteres sean cuantitativos, la representa-
ción más adecuada consiste en trazar los puntos cuyas coordenadas corresponden a
cada par de valores de las variables sobre un gráfico cartesiano.
Se obtiene, de este modo, el diagrama de dispersión o nube de puntos para la
distribución global .
175

Ejemplo 5.15

La siguiente tabla recoge los pesos y las alturas de 12 jóvenes de 16 años, cuyo
diagrama de dispersión puede apreciarse en la figura 5.10.

(X) 45 53 57 61 67 63 49 54 61 53 49 60

(Y) 165 172 166 174 159 180 169 177 183 180 169 175

195

175 X

155

40 50 60 70 80

Figura 5.10: Diagrama de dispersión.

5.15 . Ejercicios propuestos

5.1. La siguiente tabla contiene las frecuencias absolutas de la distribución conjunta

de dos variables estadísticas X e Y.

XY 100 50 25

14 1 1
18 2 3
22 1 2

Determinar: 1 ) las distribuciones marginales de X e Y; 2) la distribución de X

condicionada por Y= 100; 3) la distribución de Y condicionada por X=22.

5.2. Obtenidas las distribuciones marginales y condicionadas que se piden en el ejer-

cicio 4.1 , hallar:
1 ) las medias, varianzas y desviaciones típicas marginales; 2) la media, varianza y
desviación típica de la distribución de Y condicionada por X=22.
176

5.3 . Poner un ejemplo de variable estadística bidimensional (X ,Y) , en que las variables
X e Y sean independientes , y otro en que sean dependientes .

5.4. Las variables X e Y se distribuyen según muestra la siguiente tabla:

XIY 11 12 13 14 17 18

8 8
9 32 8
10 2
11 10
15 40

¿Qué tipo de relación se da entre ellas?

5.5. La siguiente tabla de doble entrada contiene las frecuencias absolutas de la distri-
bución conjunta de las variables estadísticas X e Y. ¿Son independientes X e Y?
¿Cómo debería ser la tabla para que fueran independientes?

12 1
XIY Y Y3

X 2 3 4
X, 5 15 10

5.6. Determinar, para la distribución del ejercicio 4.1 , los siguientes momentos respecto
al origen:

a20 a02 a , a30 y a03

5.7. La siguiente tabla contiene los pesos y las alturas de 20 jugadores de un equipo
de fútbol:

Peso (X) 73 76 80 73 78 82

Altura (Y) 1'65 1'68 1'76 1'70 1'72 1'76

Nº de jugadores 4 3 4 2 5 2

Hallar: 1 ) la altura mediana; 2) el peso mediano; 3) la altura media y el peso medio;

3) la varianza de las alturas; 4) la covarianza.

5.8. Los ingresos totales (I) de 10 familias y los gastos en transporte (T) durante el
último mes han sido:
177

I 95 115 125 160 178 208 237 128 210 99

T 3 5 10 9 11 11 12 877

Hallar: 1 ) las medias y las varianzas marginales ; 2) la covarianza.

5.9. Las calificaciones de 15 alumnos en el primero (X) y segundo (Y) examen parcial
de Estadística son:

X 6478 4 5 6 7 8 5 6 6 5 37

Y 567 10 6 4 9 7 5 8 6 7 8 37

Hallar: 1 ) la media y la varianza de las dos pruebas; 2) la covarianza; 3 ) ¿hay una

relación de dependencia entre X e Y?

5.10. Se ha impartido un curso de recuperación a 145 alumnos de un colegio de niños

especiales, evaluando el avance de la capacidad psicomotora, cuyos resultados, por
edades, nos muestra la siguiente tabla:

Avance Edad 7 8 9 10 11 12
12 13
13 14
250212

122232
361

10-16
17-23 2
1956

224
139
34

24-30 1 3 1
12

31-37 1
38 - 44 4 2
45-51 9 7 5 1
52-58 2 3 10 6 1

Hallar las distribuciones marginales y la distribución del avance de la capacidad

psicomotora condicionada por una edad de 10 años.

5.11 . Para los datos del ejercicio 5.10, hallar las varianzas marginales y la covarianza.

5.12. La siguiente tabla recoge el espacio (en metros) recorrido por un coche desde que
el conductor pisa el freno hasta que se detiene, para distintas velocidades (en km./h.):

Velocidad 20 30 40 50 60 70

Distancia 18 29 46 67 98 132

Hallar la covarianza y estudiar si hay relación de dependencia.

178

5.13 . Se sabe que los caracteres X e Y de los 50 individuos de una población son
independientes. Si X presenta 4 modalidades e Y seis, construir una tabla en la que
aparezca claramente la independencia de ambos caracteres .

5.14. Los pesos y las alturas de 290 hombres están recogidos en la siguiente tabla:

Y 1'50-1'55 1'55-1'60 1'60-1'65 1'65-1'70 1'70-1'75

X
2752

50-55 1

27222 +
55-60 8
60-65 15 22 1
65-70 12 63 19 5
70-75 7 28 12 12
75-80 2 10 20 7
80-85 11 4 2

Hallar: 1 ) las distribuciones marginales; 2) la distribución de X condicionada por

Y= 1'625; 3) la distribución de Y condicionada por X=62'5; 4) ¿ Hay relación de depen-
dencia entre los pesos y las alturas?

5.15. La producción de automóviles de una nación con un buen nivel de desarrollo

industrial, en el período que va de 1980 a 1989 está reflejada en la siguiente tabla. La
variable X representa el año (0 corresponde a 1980, 1 a 1981 ,... ) y la variable Y al
número de unidades (en centenas de millar)

X 0 1 2 3 4 5 6 7 8 9

Y 6,2 4,3 6,4 8,4 8,6 12,1 11,3 12,9 13,7 14,1

1 ) Hacer la representación gráfica de la distribución conjunta.

2) Representar la distribución del número de automóviles por año de producción.

5.16. La siguiente tabla recoge las edades en que se han casado 20 parejas:

Edad Mujer 25 18 21 29 24 19 23 27 25 23 24 30 19 17 26 20 25 28 27 21

Edad Esposo 28 23 22 30 27 22 22 26 25 24 25 29 22 25 26 24 27 26 27 25

Hacer una representación de la distribución conjunta.

5.17. Hacer una representación gráfica de la distribución conjunta del ejercicio 5.10, y
representar también el avance de la capacidad psicomotora en función de las edades.
179

5.18. La siguiente tabla contiene los pesos y las alturas de los alumnos de una clase:

Pesos (X) 73 76 78 82 80 73

Alturas (Y) 1'70 1'68 1'72 1976 1976 1'65

Nº de alumnos 2 3 5 2 4 4

Representar la distribución conjunta utilizando la forma más adecuada.

5.19. La siguiente tabla contiene la distribución de 270 familias de una ciudad según
los gastos (X) mensuales totales (en miles de ptas . ) y los gastos (Y) que habitualmen-
te dedican a cosas superfluas (en miles de ptas. ) :

XY 0-2 2-4 4-6 6-8 8-10 10-12 12-14 14-16

0-50 2 4 6 0 0 0 0 0

8108
50-60 3 6 7 9 0 0 0
60-70 1 3 5 7 9 11 6
70-80 0 3 5 8 8 12 14 7
420

80-90 0 2 7 6 9 11
90-100 0 0 5 4 9 13 10
100-110 1 1 0 3 3 9 17 10

1 ) Trazar la gráfica más adecuada para representar la distribución conjunta.

5.20 . La producción (X) de trigo , maíz, arroz y mijo en los países de Francia, Australia,
[Link]. y China (en miles de toneladas) en 1990 viene recogida en la siguiente tabla:

XY Francia Australia [Link]. Canadá

Trigo 30000 13803 49315 15502

Maíz 13030 3478 115643 2750
Algodón 230 276 3202 120
Tabaco 88 67 560 45

Hacer una representación de la distribución conjunta y de la producción según el

país.
180

Apéndice al capítulo 5:
Demostración de las propiedades de las frecuencias condicionadas y de los momentos

I. Demostración de ( 10) :

1
= = n.j = 1
ΣΣΣnij =
i=1 i=1 n.j n.j i=1 n.j

ni; _ 1½ 1
y = ½" = nij = ni. = 1
j=1 j=1 ni. ni. j=1 ni.
II. Demostración de (11 ) :

nij = ni. nij =

ƒü = N Nni
.

nij = nj nij
y füij = =
N N n.j

III . Demostración de (20):

12 9 1P 1 q 1
x= Σ Σx ; y; nij = Σxinij = Xi Nij = Xini.
N i=1 j=1 N i=1 j=1 N i=1 j=1 N i=1

1 p q 1P 9 1 q q
= ΣΣxiy¡ nij = = Σν. Ση = Σy ; n.j
N i=1 j=1 N i=1 j=1 i=1 N

IV. Demostración de (21) :

1 р p q
a20 == = ŹŹ x? v;
Ni=1 j=1 y ng = = ŹŹx?ng
Ni=1 j=1 = Nij = N Σxini.
N j=1 i=1

1 1 19 14
a02 = ΣΣxi y²;n₁j = ¡nij = nij = ¡n.j
N i=1 j=1 N i=1 j=1 N j=1 i=1 N j=1

V. Demostración de (22) :

1P
m20 = ΣΣ(x; −- x )
}
² ( y;, --ym
ỹ )º° nij = ΙΣΣx
N ΕΣ
i=1 j=1 N i=1 j=1 - xm =

q 1 P 1 P 9 1 2 P 9
IM

= Σ(x² -
- 2x x; + x² )nij = ΣΣxinij - 2x ŹŹ xi nj + ΤΣΣ =
N i=1 j=1 N i=1 j=1 N i=1 j=1 N i=1 j=1

= a20-2x² + x² = a20 - x² = a20 - ao

181

1 1P q
m02 = - £
ΣΣ Ź ( Xi
x; − x )
P ( y ; -− ỹ } n; = −ŹŹ (y; -• ÿ } n¡
Nij =
N i=1 j=1 N i=1 j= 1

1 1 q 1 P 1 P
= ΣΣΟ -299 , ++ y² )nij = ΣΣν ¡nij 25 ΣΣ»;ni + 2Σnij =
N i=1 j=1 N i=1 j=1 N i=1 j=1 N i=1 j=1

02 -a
= a02-2y² + y² = a02 - y² = aa02-0

VI. Demostración de (23):

1P q 12 q
m11 = ΣΣ(x; - x)(y; - y) nij = − x Y; - ÿx; + xy )nij =
Ni= 1 j=1 N ΣΣ(x¡Y;
i=1 j=1
1 q X P q р 9
= ΣΣxi yj nij ΣΣy; nij y ΣΣxinij + xy ΣŹŹng
=
N i=1 j=1 N i=1 j=1 N i=1 j=1 N i=1 j=1

= a11 - xy -- yx + xy = a11 - xy = a11 - α10 α01 , c.q.d.

VII . Demostración de la propiedad 2 de la covarianza:

Según (23) , la covarianza de Xe Y es:

(*) m11a11a10 α01

Ahora bien:
P q
ΣΣx₁уjnij
(**) i=1 j=1
all =
N

y, al ser independientes X e Y, en virtud de la proposición 5.2 , es

ni.n.j
nij =
N

Sustituyendo este resultado en (**) , se tiene:

1P 9 ni.n.j
all = ΣΣ ); = Xini. yj = α10 α01
N i=1 j=1 N

Llevando este resultado al segundo miembro de (* ) , resulta:

m1] = α11 - α10 α01 = α10α01 - α10 α01 = 0, c.q.d.

CAPÍTULO 6

REGRESIÓN Y CORRELACIÓN

6.1 . Dependencia aleatoria y funcional

Estudiamos , en el capítulo quinto , la dependencia e independencia funcional entre

dos caracteres, analizando las condiciones que debían cumplir sus distribuciones
condicionales y marginales . Son éstas dos situaciones extremas de relación entre
variables estadísticas.
Hay, sin embargo, caracteres entre los que sabemos que, a pesar de no ser inde-
pendientes ni tener una relación funcional, existe una cierta dependencia entre ambos .
Se dice entonces que hay una dependencia aleatoria.
Este es el caso de la estatura y el peso de personas adultas, que no están relacio-
nados mediante una ecuación matemática, pero que , si nos dan la estatura de una
persona, algo podemos predecir acerca de su peso.
Aunque son numerosos los problemas científicos que requieren más de una varia-
ble independiente, nos vamos a limitar al estudio de modelos de regresión en que sólo
interviene una variable independiente.
Supondremos también que tanto la variable independiente como la variable depen-
diente actúan en el modelo de forma lineal. A veces , el planteamiento del problema
sugiere una transformación de los datos, en cuyo caso el modelo se sigue consideran-
do lineal con tal de que sea lineal en los parámetros de la transformación. En este
sentido, se incluyen dentro de la regresión lineal algunos modelos en que intervienen
exponenciales y potencias . Trataremos, no obstante, la regresión parabólica como
ejemplo de ajuste no lineal.
En este capítulo, analizamos la relación de dependencia entre dos variables para
un conjunto de observaciones. Más adelante, en el capítulo 14, se estudiarán las
inferencias sobre la intensidad de la relación entre dos variables poblacionales a partir
de los datos de una muestra.
184

f (x) 6.2. Regresión y correlación

y=f(x)
Sea (X ,Y) una variable esta-
dística bidimensional, cuya nube
de puntos (x ,y ) tenemos repre-
sentada en el plano.
La representación de dichos
puntos pone de relieve la presen-
cia o ausencia de regresión .
En la gráfica de la figura 6.1 ,
el conjunto de puntos muestra
Figura 6.1 : Ajuste de una curva. cómo es posible ajustar una cier-
ta curva.
El problema de ajustar una curva de regresión ' consiste en encontrar una función
y=f(x), cuya gráfica se adapte lo más posible a esa nube de puntos, de forma que nos
proporcione una cierta relación entre las variables X e Y, con el fin de que, conocido
el valor de una de dichas variables, obtengamos un valor aproximado de la otra.
Si la ecuación es una parábola, hablaremos de regresión parabólica; si se trata de
una función exponencial, hablaremos de regresión exponencial; si la ecuación es una
recta, hablaremos de regresión lineal,...
La relación aleatoria entre dos variables puede que sea debida a alguna causa,
pero también es posible que se deba únicamente al azar. Por ello, cuando, en un
problema de regresión se habla de variable dependiente e independiente , no se está
afirmando que exista una dependencia causal de una sobre la otra, sino simplemente
que se está haciendo uso del convencionalismo propio del lenguaje matemático en el
ámbito de la teoría de funciones .
Se llama correlación al estudio del grado de dependencia que existe entre dos
variables. Para cuantificar este grado de dependencia, se definen los coeficientes de
correlación.
En el caso particular en que todo par de valores de la nube de puntos pertenezca
a la curva de regresión, se dice que hay correlación perfecta.
La correlación no será perfecta si cada par de valores de la variable estadística
bidimensional sólo satisface le ecuación de la curva de regresión de modo aproximado.
Se habla de correlación positiva o directa cuando la curva de regresión es cre-
ciente, y de correlación negativa o inversa cuando es decreciente .

1 El término regresión, que hoy usamos con un sentido de «relación » entre variables estadís-
ticas, tiene su origen en un estudio que publicó Francis Galton en 1886, en el que, analizando la
estatura media de los esposos y la estatura media de los hijos, llegó a la conclusión de que hay una
tendencia a aproximarse (regresar) a la estatura media de la población.
185

6.3. Métodos de ajuste

Elegida la variable que se va a considerar independiente (X, por ejemplo) , y dada

la nube de puntos (x , y ) , i = 1,2, ..., p, j = 1,2, ... , q , se selecciona la función que mejor se
puede adaptar. Supongamos que ésta viene dada en la formal

y=f(x, a,, a,,..., a )

donde a,, a,,...,a son n parámetros, que dependen del tipo de función y que han de ser
determinados .
A cada valor x de la variable independiente X le corresponden entonces dos
valores de la variable Y: uno es el valor y que le corresponde en la nube de puntos ,
al que llamaremos observado o real, y otro y , al que llamaremos teórico , que se
obtiene de sustituir x, en la función elegida:

y =f(x,, a,, a,, ... ,a )

Se tienen así dos distribuciones , una real u observada y otra teórica, dependiendo
esta última de los valores que se puedan asignar a los parámetros a,,a,,...,a .
El problema que se plantea es el de determinar estos parámetros de forma que
ambas distribuciones se aproximen lo más posible. Las distintas formas de conseguir-
lo dan lugar a los diversos procedimientos de ajuste .
Una manera de resolver este problema es tratando de igualar los momentos de
ambas distribuciones, lo que constituye el método de los momentos.
Nos vamos a limitar al procedimiento de ajuste más usual, que se conoce como
método de mínimos cuadrados, y cuyo proceso exponemos a continuación .

6.3.1 . Ajuste por el método de mínimos cuadrados

Tratamos de ajustar una función de la forma y=f(x, a ,, a,, ..., a ) a la nube de puntos
(x , y ) , i= 1,2,... ,p , j=1,2, ...,q.
Para cada valor x, de la variable independiente X, tenemos dos valores de Y: el
valor observado y y el valor teórico y , entre los cuales hay una diferencia, que
vamos a llamar residuo y que representaremos por c :

c=y₁-y₁
La idea, en principio, es la de determinar los parámetros a,, a,,..., a de forma que la
suma ponderada de los residuos sea mínima:

N i=1 j=1
186

En esta expresión, habrá

sumandos positivos y negativos ,
que pueden compensarse unos
con otros, dando una suma pe-
queña aún cuando el ajuste no
j sea bueno. Por ello, el método
de mínimos cuadrados consiste
en «<determinar los parámetros
a,,a,,...,a , tratando de hacer mí-
X nima la media ponderada de los
i
cuadrados de los residuos», es
Figura 6.2: Residuo. decir, se trata de hacer mínima la
expresión
1 P q 1 P 9
Nij = N
N i=1 j=1 i=1 j=1

La condición necesaria para que esta expresión sea mínima es que las derivadas
parciales de primer orden respecto de cada uno de los parámetros se anulen. De esta
manera se obtiene el siguiente sistema de ecuaciones lineales, llamadas normales,
cuya resolución nos permite obtener los valores de los parámetros y, por tanto, la
expresión de la función ajustada:

дс q

да = -2ΣΣy, - f(x₁ , a1 , a2, ... , .an)] nj ƒ'₁₁aj =

i=1 j=1
әс р q

даг 2ΣΣ [y; - f(x₁ , a₁ , a2 ,..., a₁ )] nij ƒ'a₂a2 = 0

i=1 j=1

дс P q
=-2 =
дам nij an
i=1 j=1

6.4. Regresión lineal

Elegida una de las variables como independiente y representados los valores de la

variable bidimensional, si observamos que la función que mejor se adapta a la forma
de la nube de puntos es una recta, tendremos un problema de regresión lineal.
Si hemos elegido el carácter X como variable independiente, tendremos la recta de
regresión de Y sobre X. Si elegimos Y como variable independiente, se obtendrá la
recta de regresión de X sobre Y.
187

6.4.1 . Recta de regresión de Y

P(x,y) i
sobre X
i
i
y* De entre todas las rectas del
i
plano, tenemos que determinar la
que mejor se adapta a la nube de
puntos P,i de la distribución.
Sea y=a+bx la ecuación de la
recta. Nuestro problema consiste
en determinar los coeficientes a
X y b, utilizando los datos (x ,y ) que
i
nos proporciona la distribución
Figura 6.3: Recta de regresión de Y sobre X. y sirviéndonos del método de
mínimos cuadrados.
Para simplificar, vamos a suponer que la variable estadística (X,Y) toma los valores
,2),..., (X ,YN) con frecuencia 1 .
(X,,Y₁ ),(X2,Y
A cada valor x, de la variable que hemos considerado independiente le correspon-
den:
i) una ordenada y dada por la distribución ,
ii) un valor teórico y, * , que sería la ordenada correspondiente a x, en la recta de
regresión, es decir, y, * =a+bx .
Sea c =y -y, la diferencia entre ambos valores (desviación vertical o residuo) .
El método de mínimos cuadrados consiste en determinar los coeficientes a y b de
la recta, << haciendo mínima la suma ponderada de los cuadrados de los residuos c.» .
Se trata, por tanto, de hacer mínima la expresión
N
1 (1)
C = Σε
N i=1

Al ser y = bx + a, será c₁ = y₁ -y = y - bx - a, y, por tanto

N
C Σ (y; - b x; - a)²
N i=1

Hemos de hacer mínima una función que depende de dos variables, a y b, lo cual
se consigue igualando a cero las derivadas parciales. No obstante, vamos a tratar de
determinar los parámetros a y b en el supuesto de que sólo se tengan conocimientos
sobre funciones reales de una única variable real.
Tratamos de buscar, para un valor b dado, el valor de a que hace mínimo a C.
Después determinaremos b haciendo mínimo el mínimo parcial que hayamos obtenido
previamente.
Por tanto, supuesto b fijo, la expresión C depende de a, y, si posee algún mínimo ,
éste debe ser una raíz de
188

dC
=0
da
Ahora bien
N N N N
dC 2 2
Σ (y, -bx, -a): Σ - Na
da N i=1 N i=1 i=1 i=1 N

= -2 [y - bx - a]

Entonces, haciendo -2 [y - bx - a] = 0, resulta y - bx - a = 0, de donde

y = bx + a (3)

Esta expresión nos dice que el punto G(x, y) pertenece a la recta, es decir, la recta
de regresión de Y sobre X pasa por el centro de gravedad G de la nube de puntos P.
La expresión (3) nos dice también que el mínimo de C se obtiene para el valor
a = y - bx. El mínimo parcial obtenido será
N
m = min C = 1 x ( y; -b x; −= y + bx )
² =
a N i=1
1 N
=
NiΣ[y
l - y - b( x + x)]

Debemos encontrar ahora el valor de b que hace mínimo a m . Para ello, debe ser b
tal que
dm
0
db
dm 2 N
Σ (x¡ - x)[y₁ - ỹ - b( x¡ − x )]
db N i=1

Igualando a cero, se tiene

2
N; Σ ( x; - x ) [y ; - ỹ - b( x; − x )] = 0

y desarrollando el primer miembro, resulta

N i=1

La expresión entre corchetes debe, por tanto, anularse. Despejando b , en dicha

expresión, resulta
189

N
1 Σ (x¡-x)(Y; -ỹ)
N i=1
b=
1N
N i=1

Para este valor de b, se obtiene como valor de a:

mil
a = y- bx = y- x
S

Como la recta es y=bx+a, sustituyendo los valores hallados para a y b, se tiene

mil mil mil

y= y- x+ 2 x = 2 -(x - x) + y
Sx S Sx
de donde resulta
mil
y-y = 2-(x - x) (4)
ST

que es la ecuación de la recta de regresión de Y sobre X en la forma punto-pendien-

te, y observamos que:

1) pasa por el baricentro G(x, y)

2) su pendiente es bух =

La pendiente de esta recta recibe el nombre de coeficiente de regresión de Y sobre

X, y es, según acabamos de ver

byx (5)

6.4.2. Recta de regresión de X sobre Y

Permutando X e Y, y razonando de modo análogo, se obtiene la recta de regresión

de X sobre Y, que es la recta de mínimos cuadrados de las desviaciones d =x. "-x
tomadas paralelamente al eje de abscisas.
Se trata de hacer mínima la expresión:

1 N 1P 9
D= Σα = ŹŹ (x; Xi - x;}
³ ng =
N i=1 N i=1j=1

1
== ΣΣ(x - d - by, my
N i=1 j=1

Procediendo de modo análogo, se obtiene la ecuación de la recta de regresión de

X sobre Y, que es:
190

m11
r' = x - x = (y- y) (6)
p(x,y) ,
Y
d De la expresión de la recta de
regresión de X sobre Y se sigue que:

1) pasa por el baricentro G(x, y )

2) tiene como pendiente b' =

mil

Figura 6.4: Recta de regresión de X sobre Y. Llamamos coeficiente de regre-

sión de X sobre Y, y lo representa-
mos por xy a la inversa de la pendiente de la recta de regresión de X sobre Y:
mi
b (7)

6.4.3. Coeficientes de regresión y covarianza

El coeficiente de regresión de Y sobre X es el valor de la pendiente de la recta de

regresión de Y sobre X. Su valor absoluto indica la cuantía de la variación del carácter
dependiente (Y) por cada unidad de variación del carácter independiente (X) .
De igual modo, el coeficiente de regresión de X sobre Y señala la cuantía de la
variación de X por cada unidad de variación de Y.
Ahora bien, los coeficientes de regresión tienen el mismo signo, que coincide con
el signo de la covarianza, m,,, puesto que:

bVX y bxv
y

Llegamos, por tanto, a las siguientes conclusiones:

1. Si la covarianza es positiva, los coeficientes de regresión son positivos y las
rectas de regresión son crecientes .
2. Si la covarianza es negativa, los coeficientes de regresión son negativos y las
rectas de regresión son decrecientes.
3. Si la covarianza es nula, los coeficientes de regresión son nulos y las rectas de
regresión son cada una paralela a uno de los ejes de coordenadas, y, por consi-
guiente, perpendiculares entre sí.

6.4.4 . Predicciones

La finalidad que persigue la regresión es la de predecir el comportamiento de una

191

variable para un determinado valor de la otra, de modo que, si la recta de regresión de

Y sobre X tiene por ecuación

y=a+bx

la predicción del valor que tomará Y cuando X=x , vendrá dada por

y₁ =a+bx,

Ejemplo 6.1

Se han seleccionado al azar 15 alumnos de primer curso de Ciencias Químicas,

cuyas calificaciones en Matemáticas (X) y Física (Y) son:

Matemáticas (X) 8 8 6 6 7 8 5 6 7 7 8 7 8 68

Física (Y) 4 6 3 5 4 6 4 4 6 4 5 7 656

Determinar: 1 ) la recta de regresión de Y sobre X; 2) la recta de regresión de X

sobre Y; 3) dibujarlas; 4) estudiarlas a partir de los coeficientes de regresión; 5) hacer
una predicción sobre la nota que tendría en Física un alumno que tuviera un 8 en
Matemáticas.
Aunque hay pares de valores que se repiten, al ser pocos, trataremos todos los
pares de datos con frecuencia 1 .

10=7;
a0 a01=5; a =35'53

= a20-a, 2 = 49'93-49 = 0'93

S 2 = 26'2-25 = 1'2
= a02 a01

=0'96; $ =1'09: m =0'5333

byx=0'5714; bxy=0'4444

1) Recta de regr. de Y sobre X:

y-5=0'57(x-7)

2) Recta de regr. de X sobre Y:

y-5=2'25(x-7)

3) La figura 6.5 contiene las gráficas de las rectas de regresión.

192

X Y XY X²
X2 Y²
Y2
46

8 32 64 16
8 48 64 36
6 3 18 36 9 5 G (7,5 )
6 5 30 36 25
7 4 28 49 16
8 6 48 64 36
5 4 20 25 16
6 4 24 36 16
7 6 42 29 36 7
7 4 28 49 16
8 5 40 64 25 Figura 6.5: Rectas de regresión del ejemplo 6.1.
7 7 49 49 49
4) La covarianza es positiva, luego son positivos
8 6 48 64 36 los coeficientes de regresión, y, por tanto, las dos
6 5 30 36 25 rectas son crecientes .
8 6 48 64 36
En efecto, al ser bух>0, a mayor nota en Física
105 75 533 749 393 corresponde mayor nota en Matemáticas .
5) Se puede predecir que un alumno con un 8 en
Matemáticas tendrá una nota de 5,57 en Física, pues :

y=5+0'57(8-7)=5+0'57=5'57

6.5. Correlación

La correlación hace referencia al grado de relación entre dos variables . El problema

que se nos plantea es el de encontrar una medida que nos indique el grado de inten-
sidad de la relación entre variables.
En otras palabras, pretendemos hallar un valor que nos dé una medida del grado
de ajuste de la curva a la nube de puntos.
Una manera de obtener esa medida es calculando la varianza de los residuos o
varianza residual:

1
Sty = Nij (8)
N i=1 j=1 N j=1

En efecto , cuanto mayores sean las diferencias entre los valores observados y los
valores teóricos de la variable dependiente, menor será la intensidad de la relación
entre las variables .
Se dará una dependencia funcional cuando todos los puntos de la nube caigan
sobre la gráfica de la función ajustada, en cuyo caso la varianza residual será nula.
193

6.5.1 . Coeficiente de correlación general de Pearson

La varianza residual, como medida del grado de dependencia entre dos variables ,
presenta dos inconvenientes:
1) La unidad de medida no permite hacer comparaciones de la dependencia entre
grupos de variables.
2) Proporciona una medida inversa del grado de intensidad entre las variables: si la
varianza residual es grande, los puntos de la nube están alejados de la curva ajustada
y, en consecuencia, la dependencia entre las variables será pequeña.
Estas dos dificultades se resuelven dividiendo la varianza residual por la varianza
marginal de la variable dependiente (Y) , y restando este cociente de la unidad:

con lo cual el valor de la medida que se obtiene armoniza con el sentido de la correla-
ción. A este índice de la correlación se le llama coeficiente de determinación y se le
representa por R2:
2
Sry
R² = 1- (9)

Extrayendo la raíz cuadrada del coeficiente de determinación, se obtiene una medi-

da adimensional, que es el coeficiente de correlación general de Pearson , al que
representamos por R:

Sty (10)
R= 1-

[Link] . Propiedades del coeficiente de correlación general de Pearson

De la expresión del coeficiente de determinación se deduce , para la varianza resi-

dual, la expresión:

S =$ (1- R²) (11)

Si tenemos en cuenta que tanto la varianza residual como la varianza marginal son
no negativas, debe ser también 1− R² ≥ 0 y, por tanto R² ≤1 de donde se deduce que

-1≤R≤1 (12)

Analizando los posibles valores del coeficiente de correlación general de Pearson,

resulta:

1. Si 0<R< 1 , la correlación es positiva , siendo mayor su intensidad cuanto más se

aproxima R a 1 .
194

2. Si -1 <R<0, la correlación es negativa , siendo mayor la intensidad cuanto más

se aproxima R a -1.
3. Si R= 1 6 R=-1 , será s²ry=0 y habrá una relación de dependencia funcional. En
ambos casos se dice que la correlación es perfecta.
i) Si R=1 , las dos variables varían en el mismo sentido y la correlación es positiva
perfecta.
ii) Si R=-1 , las variables varían en sentidos opuestos y la correlación es negativa
perfecta.
4. Si R=0, es s²ry= s3, luego no hay ningún tipo de dependencia, ya que la relación
de Y con X no aporta ninguna explicación sobre Y. Se dice entonces que no hay
correlación o que las variables son incorreladas.

6.5.2. Coeficiente de correlación lineal de Pearson

Cuando la regresión es lineal, el coeficiente de Pearson se conoce como coeficien-

te de correlación lineal de Pearson, y lo representamos por r.
El coeficiente de correlación lineal de Pearson proporciona, por tanto, una medida
del grado de aproximación de la recta de regresión a la nube de puntos.
Para obtener una expresión de r, tenemos que evaluar la varianza residual, sustitu-
yendo los valores teóricos de la variable dependiente y por la expresión obtenida
para la recta de regresión:
1 р q
Sty = nij
N i=1 j=1

Con el fin de simplificar los cálculos , vamos a suponer una vez más que la variable
estadística (X , Y) toma los N valores (x ,y ) con frecuencia 1 .
Tendremos

1 N 1 N - Sxy
S = = y -y- 2-( x; -x) =
N i= 1 N

N N N
Sxy Sxy
ΣΟΥ - 1 1 - 2 Σ( x; − x)( Y ; - ỹ) + Σχε =
i=1 Sx i= 1 i=1

2 xy
+ 2 + =S 2
X
Entonces

Sky
Sry Sxy
r・・・
= 1- =
SxSy SxSy
195

Luego el coeficiente de correlación lineal de Pearson tiene por expresión:

Sxy
r= (13)
SxSy

y cumple las propiedades del coeficiente general.

La expresión del coeficiente de determinación lineal es:
Sxy
= 2 2 (14)
SxSy

[Link] . Interpretación del coeficiente de correlación lineal

Los coeficientes de regresión están relacionados con el coeficiente de correlación.

En efecto:
Sxy Sху Sy Sxy Sy Sy
byx = 2 = 2 = =r
S X yS Sx Sy Sx Sx

lo que permite expresar la recta de regresión de Y sobre X en función de r:

Sy
y - y = r = (x - x ) (15)
Sx

El coeficiente de regresión de X sobre Y en función de r es:

Sx
xy xy Sx Sxy SΧ SX
b xy = 2 = 2 = =r
Sy Sx SxS,y S.y S

lo que permite expresar la recta de regresión de X sobre Y en función de r:

Sx
x- x = r (y- y) (16)
Sy

Podemos utilizar el coeficiente de correlación para analizar la regresión lineal . En

efecto:
1 ) Si r=0, la correlación es nula, y las rectas son paralelas a cada uno de los ejes y
perpendiculares entre sí:

G S

r=0

2) El signo de r señala la dirección de la correlación .

196

3) El valor absoluto de r señala la intensidad de la relación . [r]= 1 indica una corre-

lación perfecta. Un valor absoluto de r grande (próximo a 1 ) indica una fuerte
correlación.
4) El mayor valor de r es 1 , en cuyo caso la varianza residual es cero, por lo que
todos los puntos de la nube están sobre la recta. Se trata de correlación positiva
perfecta.
5) El menor valor de r es -1 , en cuyo caso la varianza residual es también nula, pero
ahora las pendientes son negativas. Se trata de correlación perfecta, pero negativa.
La situación de las rectas, cuando r=-1 o r= 1 , es:

r=-1 r=1

6) Como Irl≤1 , es 11/r≥1 , y, por tanto, la recta de regresión de X sobre Y se aproxima

más a la vertical que la de Y sobre X.
Gráficamente, se darán las siguientes situaciones:

G S

-1<r<0 0<r<1

[Link]. Cálculo del coeficiente de correlación lineal de Pearson

Las siguientes propiedades facilitan el cálculo del coeficiente de correlación lineal

de Pearson:
I. Si X' =aX+b e Y' =cY+d, el coeficiente de correlación lineal de X' e Y' es igual al
coeficiente de correlación lineal de X e Y.
El coeficiente de correlación lineal es, por tanto, invariante, tanto frente a un
cambio de escala como frente a un cambio de origen .
II. Si la variable aleatoria bidimensional (X,Y) toma los N valores (x ,y;) con fre-
cuencia absoluta 1 , es:
N N N
Nx₁Y ΣΥ
i=1 i= 1 i=1
N N N N (17)
ΣΑΣ N ΣΥ
i=1 i= 1 i=1 i= 1
197

La demostración de estas propiedades figura en el apéndice al capítulo 6 .

A veces, los pares de valores no vienen dados con frecuencia absoluta igual a 1 .
Supongamos que se trata de una población de N individuos , tal que la variable esta-
dística bidimensional (X ,Y ) toma n 11 veces cada valor (x ,y; ) , donde
i= 1,2, ..., p señala las p modalidades del carácter X, y
j= 1,2 ,...,q señala las q modalidades del carácter Y.
Entonces, si es n , la frecuencia absoluta del par (X ,Y) , el coeficiente de correla-
ción lineal se puede calcular a partir de la expresión :
Р q p
Żyjn
N
ΝΣΣ - Σxini. j
i=1 j=1 i= 1 j= 1
r=
III. P q
(18)
N ΣXini N
i=1 i= 1 j=1 j=1

Omitimos la demostración, que es un simple ejercicio de desarrollo matemático ,

siguiendo el mismo esquema argumental de la anterior.

Ejemplo 6.2

La siguiente tabla recoge la estatura y el peso de 5 personas adultas :

Estatura (X) 1,60 1,65 1,70 1,75 1,80

Peso (Y) 64 66 68 70 72

Hallar el coeficiente de correlación lineal de Pearson e interpretar su valor.

Vamos a calcularlo utilizando la propiedad II. Para facilitar los cálculos , dispone-
mos los datos en la forma:

X Y X2 Y2 XY

1,60 64 2,56 4096 102,4

1,65 66 2,72 4356 108,9
1,70 68 2,89 4624 115,6
1,75 70 3,06 4900 122,5
1,80 72 3.24 5184 129,6

8,50 340 14,47 23160 579

El coeficiente de correlación lineal es, por tanto:

5x579-8'5x340
r=
√ [5x14'475 - 8′5³][5x23160 - 340³]
198

Luego hay correlación positiva perfecta entre la estatura y el peso.

6.5.3. Variables incorreladas

El coeficiente de correlación de Pearson es un valor adimensional, que da una

medida del grado de relación entre dos variables, bien entendido que la correlación se
refiere únicamente a una relación de dependencia lineal.

Definición: Las variables estadísticas X e Yse dicen incorreladas cuando el

coeficiente de correlación es cero.

El hecho de que dos variables sean incorreladas significa que entre ellas no hay
ninguna relación de dependencia lineal, pero puede haber otro tipo de dependencia.
La relación entre dependencia y correlación la establece la siguiente proposición:

Proposición 6.1: Si X e Y son dos variables independientes, X e Y están

incorreladas.

En efecto, como consecuencia de la proposición 4.2, si X e Y son independientes,

su covarianza es cero, luego
mil 0
= =0
SxSy SxSy

La recíproca de esta proposición no es cierta. Ya decíamos en el capítulo 5 que la

covarianza de dos variables aleatorias X e Y puede ser cero, y no ser éstas independien-
tes. Los conceptos de independencia y ausencia de correlación no son equivalentes.

Ejemplo 6.3

Dada la variable estadística bidimensional (X,Y), cuya distribución de frecuencias

viene dada por la siguiente tabla

Y 4 7 10 13 16 17
X
394493

042240
123456

470
300

0 0
044OO

0
12 0
0 0 0
0 7 0
3 4 0
199

se trata de obtener: 1 ) las ecuaciones de las rectas de regresión ; 2) el coeficiente de

correlación lineal de Pearson.

Solución: Para mayor comodidad en los cálculos, completemos la tabla de doble

entrada con las distribuciones marginales :

Y 4 7 10 13 16 17
X 470
123456

00
30000

39
0 10
0 20
4 12 4 0 20
0 4 2 4 0 20
7 9 4 0 0 20
3 4 3 0 0 0 10
6 22 32 32 8 0 100

Serán entonces:

350 1450
X = = 3,5; s = a20 -X = - 12,25 = 2,25; sx = 1,5
100 100

1042 11830
Y= = 10,42; s = a02 -Y² = - 108,5764 9,7236; s, = 3,1182
100 100
3647
= = 36,47; m = a1 - XY = 36,47-36,47 = 0
100

mil 0
= =0
Luego byx
ух = S 2 2,25

Las rectas de regresión son:

y-10,420 y x- 3,5=0
0
Como r = == 0 , las variables son incorreladas.
SxSy 1,5 × 3,1182

6.5.4. Correlación y causalidad

Establecida la relación de dependencia entre las variables X e Y, y, suponiendo

que el valor del coeficiente de correlación es, en valor absoluto, próximo a 1 , no
podemos concluir, sin embargo, que haya una relación de causalidad entre las varia-
bles, afirmando que una de las variables es causante de los efectos de la otra.
200

El coeficiente de correlación sólo da una medida de la covariación entre ambas

variables.
Es conocida la anécdota narrada por Joan Welkowitz sobre el estudio de la corre-
lación entre el número de cigüeñas y el número de nacimientos de niños en algunas
ciudades europeas, que dio como resultado una correlación positiva alta. Alguien
interpretó este resultado afirmando el influjo que ejercían las cigüeñas en el número
de niños que nacían .
La realidad es más prosaica: el alto número de nacimientos no es debido al mayor
número de cigüeñas, sino al mayor número de habitantes de las ciudades de mayor
extensión y, por tanto, con más chimeneas y torres donde anidar.

6.6. Otros coeficientes de correlación

Cuando las variables cuya relación de dependencia tratamos de averiguar, no son

continuas , bien porque lo sea una sola de ellas, bien porque no lo sea ninguna, o
porque realmente lo que interesa no es tanto la relación entre dichas variables, sino
entre el orden en que aparecen sus valores, se utilizan otros coeficientes de correla-
ción.
Estos otros coeficientes de correlación están basados en el mismo fundamento
conceptual.

6.6.1 . Coeficiente de correlación de Spearman

Cuando los datos proporcionados por los valores de las variables no vienen da-
dos por sus frecuencias absolutas , sino por el orden que éstas ocupan en la observa-
ción, resulta más difícil medir la intensidad de la relación , puesto que se posee menos
información sobre las variables. Consideremos el siguiente ejemplo:

Ejemplo 6.4

Cinco alumnos son evaluados en Física y Química por dos profesores . Estos , en
lugar de dar las calificaciones, han facilitado el lugar que ocupan en las respectivas
asignaturas :
Física Química
24315

Luis 2
53

Carlos 5
Pedro
Manuel 1
Julián 4
201

Manuel es el alumno que mejor calificación ha obtenido en Física. Aunque su

calificación es mejor que la de Luis , no es posible saber, con los datos que proporcio-
na el enunciado, si las calificaciones de Manuel y de Luis son próximas o no.
En este caso, para medir el grado de relación, se utiliza el coeficiente de correla-
ción gradual o de Spearman , r , que viene dado por:

N
6 Σα
i= 1
rs = 1 - (19)
N( N2-1)

donde d, es la diferencia entre el orden obtenido por el i -ésimo individuo en ambas

series de datos.
El coeficiente de Spearman, r,, varía entre -1 y 1 .
Un valor positivo alto de r, indica una fuerte tendencia hacia la igualdad de los
números de orden asociados, mientras que un valor muy negativo de r, indica una
fuerte tendencia hacia la desigualdad de los ordinales asociados .
El valor cero significa que no existe relación entre los dos conjuntos de números
ordinales .
Volviendo al ejemplo 6.4 . , el coeficiente de Spearman será:

6[(2-2 )² + (5-4 )² + (3-3 )² + (1-1 )² + (4-5 )²] 12

rs = 1- = 1- = 1-0′1 = 0′9
5(25-1) 120

El valor obtenido, 0'9, es muy próximo a 1 , lo que indica que los profesores han
dado calificaciones similares.
Un valor muy próximo a -1 habría indicado que los alumnos mejor calificados por
un profesor, serían los peor calificados por el otro.

6.6.2. Coeficiente de correlación biserial puntual

Cuando se dispone de dos variables, una de las cuales es continua y la otra

dicotómica, se utiliza el coeficiente de correlación biserial puntual . Este coeficiente no
es sino un caso particular del coeficiente de Pearson, que se obtiene de asignar un
número fijo (el cero o el uno) a una de las dos categorías que presenta la variable
dicotómica, y cualquier otro número a su alternativa. Estos dos números son conside-
rados como los valores que toma la variable dicotómica.
Los números que se asignan a las categorías de la variable dicotómica no influyen
en el valor del coeficiente, puesto que en él los valores de las variables se dan
tipificados.
El coeficiente de correlación biserial puntual se representa por r
Si designamos por X a la variable dicotómica, siendo Y la variable continua, y
202

asignamos a X los valores 0 y 1 , se obtiene el coeficiente de correlación biserial

puntual evaluando la expresión:

ΝΣΥ -Ν ΣΥ
rbp
(20)
Ν.Ν. Ν ΣΥ - (ΣΥ)

siendo:
N -número de observaciones en las que X = 1,
N -número de observaciones en las que X=0 ,
N=N,+N -número total de observaciones,
EY,=suma de observaciones Y asociadas a una X con valor 1 ,
ΣY=suma de todos los valores de Y,
EY²=suma de los cuadrados de todos los valores de Y.
Una aplicación típica es la relación existente entre el sexo y las aptitudes para
determinados estudios, como puede ser la aptitud para el conocimiento de un idioma
que se plantea en el siguiente ejemplo.

Ejemplo 6.5

Un centro escolar ha seleccionado al azar a 16 alumnos de COU, a los que se les

ha pasado un test de aptitud para el conocimiento del idioma inglés. De los 16 alum-
nos, 9 resultaron ser chicos y 7 chicas .
La siguiente tabla recoge los resultados obtenidos después de haber asignado a la
variable dicotómica sexo los valores 1 y 0 para chico y chica, respectivamente .

Sexo 1 0 010 1 1 1 0 01011 01

Puntuación 24 17 8 31 24 16 25 30 31 17 14 16 20 8 16 24

Si efectuamos los cálculos necesarios, resulta:

N₁ =9, N₁=7 , N=9+7 = 16, £Y, = 192, EY=321 , EY²=7245.

16x192-9x321 183
Rbp = = 0'20
Luego:
9x7 [16x7245-3212 ] 900'76

El valor obtenido, 0'20, nos indica una correlación muy débil entre el sexo y la
aptitud para el idioma inglés.

6.6.3. Coeficiente

Si las dos variables son dicotómicas por su propia naturaleza, se utiliza el coefi-
ciente , cuyo fundamento se estudia en el capítulo 15.
203

Supongamos que las variables dicotómicas admiten las dos modalidades A (acier-
to) y E (error) , y designemos por:
a=número de individuos con la modalidad A de X y la A de Y,
b=número de individuos con la modalidad E de X y la E de Y,
c-número de individuos con la modalidad A de X y la E de Y,
d=número de individuos con la modalidad E de X y la A de Y,
según se recoge en la siguiente tabla

Y
A E
AE

99b
a
X
d

Entonces, el coeficiente viene dado por la expresión:

cd - ab
Φ (21)
√(a + c)(d + b)(a + d)(c + b)

Ejemplo 6.6

Supongamos que se realiza una prueba a 80 estudiantes con dos tandas de pre-
guntas, y se pretende averiguar si existe correlación entre las dos tandas de pregun-
tas a la vista de las respuestas dadas por los estudiantes: 18 respondieron con acierto
a las dos tandas de preguntas, 16 contestaron erróneamente a ambas, 20 respondieron
con acierto a la primera y erróneamente a la segunda, y 26 respondieron erróneamente
a la primera y con acierto a la segunda. El siguiente cuadro recoge los resultados :

Y
A E

A 18 20
X
E 26 16

El coeficiente correspondiente a estos datos es:

20x26-18x16
Φ= = 0'15
(18 +20)(26 + 16)(18 +26)(20 + 16)

lo que supone una correlación muy débil.

204

6.6.4. Correlación tetracórica o de atributos

Surgen, a veces, situaciones, en que, siendo continuas por su naturaleza las varia-
bles , sus resultados se dan dicotomizados . Es éste el caso en que, tras someter a un
conjunto de personas a una serie de pruebas, se les asigna la calificación final de
«apto » o «no apto» .
Cuando deseemos estudiar la relación entre dos variables de naturaleza continua,
cuyos valores se han dicotomizado, si estamos interesados en la relación existente
entre las variables representadas por los datos dicotomizados, se utiliza el coeficiente
de correlación tetracórica o de atributos, que designamos por r.
La expresión de este coeficiente es muy compleja. Vamos a utilizar una expresión
que da una aproximación bastante buena:

180
TT COS
cb (22)
1+ Vad

Los valores a, b, c y d se asignan del mismo modo que en el apartado 6.6.3.

Por tratarse del coseno de un ángulo, este coeficiente varía de -1 a 1 , y tiene una
interpretación análoga a la del coeficiente de Pearson.
El coseno se evalúa en grados sexagesimales.
El coeficiente debe ser utilizado con una cierta cautela, ya que el cambio en la
escala de medida que implica «< dicotomizar» las variables lleva consigo una pérdida
importante en la información.

Ejemplo 6.7

Los 20 empleados de una oficina que tienen relación directa de trato con el público
han sido evaluados a través de una encuesta que ha permitido clasificarlos según su
trato B(bueno) o M(malo) con los clientes .
Un directivo de la empresa piensa que existe una relación entre la forma en que un
empleado trata a los clientes y su dimensión humana. Atendiendo a este criterio, los
empleados han sido clasificados en gruesos(G) y delgados(D), según pasen o no de
55 kgs. de peso.
Se trata de estudiar la correlación entre estas variables, cuyos resultados
dicotomizados se recogen en la siguiente tabla:

Y
G D

B 7 3
X
M 4 6
205

Solución: Se debe utilizar el coeficiente de correlación tetracórica, cuyo valor aproxi-

mado es:
180 180
TT COS = COS = -0'17
3x6 1'8
1+
7x4

Este resultado indica una correlación negativa muy débil entre el peso de los
empleados y su forma de tratar al público .

6.7 . Regresión y series de tiempo

Cuando la variable independiente es el tiempo, los datos de la variable bidimensional

nos muestran los valores de Y en diferentes instantes. Al conjunto de los datos
ordenados en relación al tiempo se le denomina serie de tiempo.
En este caso, la recta de regresión de Y sobre X se llama recta de tendencia, que
se utiliza para hacer predicciones o pronósticos temporales.

Ejemplo 6.8

La siguiente tabla nos muestra el censo de trabajadores (en millones de personas)

del sector primario en Francia durante el período de 1981 a 1988.

Año 1981 1982 1983 1984 1985 1986 1987 1988

Trabajadores 3,1 3,0 2,9 2,8 2,6 2,6 2.5 2,4

Se trata de: 1 ) hallar la ecuación de la recta de tendencia; 2) dibujar la recta de

tendencia; 3 ) predecir el censo de trabajadores del sector primario en el año 2000,
suponiendo que se mantiene la tendencia.

X Y X2 Y2 XY

1981 3,1 3924361 9,61 6141,1

1982 3,0 3928324 9,00 5946,0
1983 2,9 3932289 8,41 5750,7
1984 2.8 3936256 7,84 5555,2
1985 2.6 3940225 6.76 5161,0
1986 2,6 3944186 6,76 5163,6
1987 2,5 3948169 6,25 4967,5
1988 2,4 3952144 5,76 4771,2

15876 21'9 31505964 60'39 43456'3

206

3 G ( 1984 5,2 7375 )

1981 1984

Figura 6.6: Recta de tendencia.

15876 31505964
x= == 1984,5; s = a 20 - -2
x = - 3938240,3 = 5,25; sx = 2,29
8 8
21,9 60,39
y= = 2,7375; s = A02 - = -7,4939 = 0,0548; sy = 0,23
8 8
43456,3
all = == 5432,04; m₁ = a11 - α10 α01 = 5432,04 -5432,57 = -0,53
8
m11 -0,53
El coeficiente de regresión es ẞ ух = 2 = = -0,1
Sx 5,25

y la recta de tendencia es, por tanto :

y-2,7375-0,1(x - 1984,5)
Previsión para el año 2000:

y - 2,7375 = -0,1(2000- 1984,5) = 2,7375 - 1,55 = 1,1875

Si la tendencia no varía, en el año 2000 , habrá 1.187.500 trabajadores del sector

primario en Francia.

6.8 . Regresión parabólica

Supongamos que, observada la nube de puntos, la curva que mejor se adapta es

una parábola. El procedimiento que se utiliza para ajustar una parábola y=ax²+bx +c a
la nube de puntos consiste también en determinar los coeficientes a, b y c, utilizando
el método de mínimos cuadrados .
Si suponemos que cada par de valores de la variable estadística (X,Y) se da una
sola vez, se trata de hacer mínima la expresión:
207

N
D= [ (ax + bx; + c - y; )²
N i=1

Derivando con respecto a las tres variables e igualando a cero, se tiene:

N
ƏD 2
=
да N Σ i=1
(ax + bx; + c- y;) x} = 0

ƏD N
2
= (ax + bx; + c- y₁) x; = 0
дь N i=1
N
ཁྱེ

ƏD 2
== Σ bx; + c - y;) = 0
до N i=1 (ax +

Aplicando las propiedades de la suma indicada, las ecuaciones anteriores quedan

en la forma:

N N N N
aΣxi + bΣxi + cΣxi = Σxi y;
i=1 i= 1 i=1 i=1
N N N N
C
aΣxi + bΣx² + cΣx₁ = Σx₁y;
i= 1 i=1 i=1 i=1
N N N
a Σxi + bĹx , + cN = Žy,
i=1 i= 1 i=1

Resolviendo este sistema, se obtienen los valores de a, b y c, que proporcionan la

ecuación de la parábola.

Ejemplo 6.9

La siguiente tabla muestra los porcentajes de niños fallecidos durante los seis
meses que duró una epidemia:

Mes 1 2 3 4 5 6

Porcentaje 2'2 3'3 5'5 9'4 14'4 22'1

Si se dibuja la nube de puntos , parece lógico ajustar una parábola. Vamos a cons-
truir una tabla para facilitar los cálculos :
208

X Y X2 X3 X4 XY X2Y
123

2'2 1 1 1 2'2 2'2

2 323 4 16 6'6 1322
5'5 9 27 81 16'5 49'5
4 9'4 16 64 256 37'6 150'4
5 14'4 25 125 625 72'0 360'0
6 22'1 36 216 1296 132'6 795'6
21 56'9 91 441 2275 267'5 1370'9

Se llega al sistema:

2275a +441b + 91c = 1370'9

441a + 91b + 21c = 267'5
91a +21b + 6c = 56'9

Resolviéndolo, se obtiene: a=0'789, b=-1'619 y c=3'18

Luego la parábola ajustada es:

y=0'79x²-1'62x+3'18

6.9. Regresión exponencial y geométrica

En numerosos fenómenos del campo de las Ciencias Experimentales, se da una

cierta dependencia entre las variables de tipo exponencial o potencial . Interesa, por
tanto, ajustar a la nube de puntos una curva de uno de los siguientes tipos :
bx
A) u = rp (23) B) u = kth (24)

donde p>0. (Suele tomarse p=e) Tomando logaritmos , se tiene :

Tomando logaritmos de base p, se tiene:
logu logk +blogt
log, u = log,r + bx log, p de donde, si llamamos
de donde, si llamamos
y = logu, x = logt, a = logk,
y = log₁u, a = log,r, resulta:
resulta: y = a + bx (26)
y = a + bx (25)

con lo cual ambos problemas quedan reducidos al caso de regresión lineal, ya que las
ecuaciones (25) y ( 26) son las ecuaciones de una recta.
209

Se procede entonces de modo análogo al caso de regresión lineal, con lo que se

obtienen los valores de a y b. Conocidos a y b, se determina la ecuación (23) o (24) de
la función dada.
Para detectar cuándo se deben utilizar estos tipos de curvas, conviene representar
la nube de puntos de las variables en un papel funcional.
Así, cuando se trata de una relación exponencial (u=rpbx) , la nube de puntos es
lineal en papel semilogarítmico. La transformación adecuada es (X, logU) .
En cambio, si la relación es de tipo geométrico (u=kt ) , la nube de puntos es lineal
en papel logarítmico. La transformación adecuada es (logT, logU) .

Ejemplo 6.10

La siguiente tabla muestra los valores experimentales de la presión P (expresada en

kilogramos por centímetro cuadrado) de una masa de gas y los valores correspondien-
tes del volumen que ocupa (expresados en centímetros cúbicos) :

Volumen(V) (cm³) 950 1081 1267 1552 2075 2386

Presión(P) (Kg/cm²) 4,5 3,7 2,8 2,1 1,4 1,1

Se trata de: 1 ) ajustar una recta de mínimos cuadrados; 2 ) determinar la ecuación

que relaciona P con V; 3) estimar el valor de la presión correspondiente a un volumen
V= 1750 cm³.

Solución: Se puede resolver este ejercicio de dos formas :

I. Haciendo un cambio de variables y tomando logaritmos, con lo que se consigue
una relación lineal , cuya recta de mínimos cuadrados hay que determinar;
II. Representando los datos directamente sobre papel logarítmico, y ajustando
manualmente una recta a la nube de puntos .
Lo vamos a resolver mediante un cambio de variables:
La ley que relaciona la presión P con el volumen V de un gas es:

PV³ = k

donde By k son constantes.

Tomando logaritmos, resulta log P + B log V = logk

de donde se deduce log P = logk - ẞ logV (*)

El cambio de variables consiste en hacer

x = logV, y = log P, a = logk, b = -ß,

con lo cual, la relación (* ) se transforma en

210

y = a + bx

1) Vamos a determinar la recta de mínimos cuadrados de Y sobre X; para ello ,

disponemos los valores necesarios en la siguiente tabla:

X=logV Y=logP X2 Y2 XY

2,9777 0,6532 8,8666 0,4266 1,9450

3,0338 0,5682 9,2039 0,3228 1,7238
3,1027 0,4471 9,6267 0,1998 1,3872
3,1908 0,3222 10,1812 0,1038 1.0280
3,3170 0,1461 11,0024 0,0213 1,4846
3,3776 0,0413 11,4081 0.0017 0,1394

18,9996 2,1781 60,2892 1,0762 6,7082

18,9996 60,2892
x= = 3,1666; s = a20 - x² = - 10,0273 = 0,0208; sx = 0,1444
6 6

2,1781 -2 1,0762
y= == 0,3630; s = a02 - y = - 0,1317 = 0,0476; sy == 0,2181
6 6

6,7080
a11 = == 1,11804; m₁ = α11 - α 10 α01 = 1,11804 - 1,14947 = -0,03143
6
El coeficiente de regresión de Y sobre X será:
m11 -0,03143
В ух = Sx 0,0208 =-1,51

Luego la recta de regresión de Y sobre X es:

y- 0,3630 = -1,51(x - 3,1666)

de donde resulta: y = 5,144566-1,51x

2) Determinación de la ecuación que relaciona P con V:

Como a=5'144566-logk, es k= 139497, y, al ser b=-B=-1,51 , es B=1,51 .
Si deshacemos el cambio de variables, la ecuación que relaciona P con V será:

PV1.51 = 139497

3) Estimación de la presión correspondiente al volumen V= 1750 cm³:

Si V= 1750 cm³, será log P + 1logVlog 139497 , de donde:

log P = log 139497 -1,51 log 1750 = 5,1445-4,8969 = 0,2476

Tomando antilogaritmos, se obtiene como valor de la presión:
P=1,768 Kg/cm²
211

6.9. Ejercicios propuestos

6.1 . Para los datos de los ejercicios 5.1 y 5.2, 1 ) hallar la recta de regresión de Y sobre
X; 2) calcular el coeficiente de correlación, dando una interpretación del valor obteni-
do.

6.2. Calcular el coeficiente de correlación de las variables X e Y, cuyos valores están

recogidos en la siguiente tabla:

X 3 5 7 8 12

Y 24 20 12 10 4

6.3 . Hallar la recta de regresión de Y sobre X y de X sobre Y para los datos del
ejercicio 5.12 . Hacer una predicción de los gastos superfluos que tendrá una familia
cuyos gastos totales son de 85000 ptas .

6.4 . El equipo directivo de un banco ha impartido un cursillo a 10 de sus agentes

encargados del servicio de promoción de nuevos clientes, evaluando al final el nivel
de aprovechamiento adquirido. Transcurrido un período de tiempo, se ha puntuado la
capacidad de captación de nuevos clientes. La siguiente tabla recoge las puntuacio-
nes de los 10 agentes en la evaluación del cursillo junto con el baremo por su capaci-
dad de captación posterior:

Nivel cursillo (X) 7 4 19 13 25 16 22 12 10 15

Escala posterior (Y) 3 7 8 17 4 7 6 20 16 20

1 ) Hallar las desviaciones típicas marginales, la covarianza y el coeficiente de

correlación de X e Y. 2) ¿Desarrolla el cursillo la capacidad de captación de nuevos
clientes?

6.5 . La siguiente tabla contiene el número de meses que lleva entrenando un jugador
de golf y el número de golpes que necesita para hacer el recorrido de un determinado
campo:

Tiempo (X) 1 2 3 4 5 6 7 8 9

Nº de golpes (Y) 80 77 74 71 69 68 68 65 63

1 ) ¿Están correlacionados el tiempo de entrenamiento y el número de golpes en

que se hace el recorrido? 2) ¿De qué tipo de correlación se trata? 3) ¿ Qué se puede
esperar cuando el jugador lleve 12 meses de entrenamiento?
212

6.6. Si, en el ejercicio 6.4 , se multiplica cada valor de X por 3 y se le suma 8, y se

multiplica cada valor de Y por 4 y se le resta 10, hallar las desviaciones típicas margi-
nales, la covarianza y el coeficiente de correlación de las nuevas variables. Comparar
el resultado obtenido con el que se obtuvo en el ejercicio 6.4. , dando una explicación
de lo ocurrido .

6.7. El coeficiente de correlación entre dos variables X e Y es r=0'56, y se conocen las

medias, que son 12 y 24, respectivamente, así como las varianzas , que son s²=3'6 y
s2=2'5. Determinar las ecuaciones de las rectas de regresión de Y sobre X y de X
sobre Y.

6.8. Cien personas son sometidas a dos pruebas , una física y otra de tipo psicotécnico .
Veinticinco personas superaron correctamente ambas pruebas, veinte fallaron en las
dos, dieciocho superaron la prueba física y fallaron en la prueba psicotécnica, y
treinta y siete superaron la prueba psicotécnica y no pasaron la prueba física. Para
estudiar la correlación entre ambas pruebas, ¿ qué coeficiente de correlación se debe
usar? Calcularlo.

6.9 . Con los datos del ejercicio 5.11 , 1 ) ajustar la recta de regresión por el método de
mínimos cuadrados y por el método gráfico; 2 ) hacer una estimación del número de
bacterias que habrá al cabo de 12 horas.

6.10. Las calificaciones en Estadística de 12 alumnos, de los cuales 7 son varones y 5

mujeres, son:

Sexo V V M M V V M M M V V V

Calificación 7 8 679 5 3 4 6 4 3 6

Averiguar si hay correlación entre el sexo y la calificación obtenida en Estadística.

6.11 . La siguiente tabla contiene la distribución de 200 familias según los ingresos totales
(X) y los gastos que por término medio dedican a transporte (Y) (en miles de pesetas):

XY 0-2 2-4 4-6 6-8 8-10 10-12 12-14 14-16

443

546523

0-50 3 4
50-60 2 6 4
60-70 8 8 3
70-80 8 9 8
264
808

80-90 5 10 10 6
90-100 4 8 8 10
100-110 4 6 10 8 4
213

1) Hallar los coeficientes de regresión de Y sobre X y de X sobre Y. 2) Hallar el

coeficiente de correlación.

6.12. Pensando que hay una cierta relación entre el peso y las calificaciones, se han
clasificado los alumnos de una clase de 40 en gordos(G), si pesan más de 50 kgs . y
delgados (D), si pesan menos, y en aplicados(A) , si su calificación supera el 5 , y no
aplicados(N), en otro caso. Los resultados están recogidos en la siguiente tabla:

G D

A 12 10

N 11 7

¿Qué coeficiente de correlación hay que aplicar? ¿Hay alguna relación entre el
peso y las calificaciones?

6.13 . Se ha realizado un cultivo artificial en una incubadora a 30°C y 210 r.p.m. Partien-
do de un pH inicial de 2'5 y un tanto por ciento de oxígeno variable, se mide la
concentración en levadura y glucosa en función del tiempo , obteniéndose los si-
guientes resultados:

Tiempo (horas) 0 1 2 3 4 5 6 7 8 12 13

C. levadura(g/l) 0'10 0'15 0'15 0'17 0'21 0'21 0'26 0'26 0'35 1'03 1'10

C. glucosa(g/l) 10 10 10 8'3 8'3 8'3 8'3 6'3 6'3 5'5 5'5

1 ) Representar el crecimiento de la concentración de la levadura (Y) en función del

tiempo (X) . 2) Analizar el tipo de ajuste, determinando la curva de regresión de Y
sobre X más adecuada.

6.14. Se pretende averiguar si los ingresos familiares influyen en el éxito o fracaso

escolar de un niño. Para ello, se escogen 12 alumnos al azar, cuyos ingresos familiares
en miles de pesetas por cada miembro de la unidad familiar junto con el éxito(E) o
fracaso(F) al final de curso, son recogidos en la siguiente tabla:

Ingresos 3 10 9 3 8 9 3 7 7 4 3 2

Calificación F E F F EEF F E F F F

¿De qué tipo de correlación se trata? Hallar el coeficiente de correlación que co-
rresponda, y analizar la posible dependencia.
214

6.15 . Para los datos del ejercicio 6.13 , representar la curva de regresión de crecimiento
de la concentración de glucosa (Z), y estudiar el tipo de ajuste que conviene, hallando
la curva de regresión de Z sobre X.

6.16. Para los datos del ejercicio 6.11 , 1 ) determinar la recta de regresión de Y sobre X;
2) ¿cuánto se espera que dedique a transporte una familia que tiene unos ingresos
totales de 150000 ptas . al mes?

6.17 . El mismo tipo de cultivo artificial y con los mismos datos iniciales del ejercicio
6.13 , se llevó a cabo en un fermentador, obteniéndose los siguientes resultados para
la concentración de glucosa:

Tiempo (horas) 0 1 2 3 4 5 6 7

C. glucosa(g/l) 4 225 3'1 5'2 8'6 14'2 21'0 29'4

1 ) Representar el crecimiento de la concentración de glucosa (Z) en función del

tiempo (X).
2 ) Estudiar el tipo de ajuste que conviene, y hallar la curva de regresión de Z sobre
X.

6.18 . Diez alumnos del Curso de Orientación Universitaria han sido evaluados por sus
respectivos profesores de Matemáticas y de Física, quienes han facilitado el listado
de los alumnos ordenados atendiendo a la calificación, pero sin especificarla, siendo:

Nombres Carlos Luis Juan José Mario Pedro Antonio Julián Alberto Felipe
Matemáticas 6 1 3 7 8 5 2 10 4 9
Física 8 7 6 4 5 9 10 1 3 2

¿Qué coeficiente se debe utilizar para estudiar la relación entre las calificaciones de
los dos profesores ? Calcularlo.
215

Apéndice al capítulo 6:
Demostración de las propiedades del coeficiente de correlación de Pearson

I. Llamemos m ' ,, a la covarianza de X' e Y' , y a' , y a' , a las medias de X' e Y',
respectivamente . Entonces :

N N
m'11 =
Σ(a x; + b - a′ 10 )(c Y; + d - a'o₁) ƒ ¡ = Σ(a x; + b - ax - b)(c y¸ + d - cỹ - d) ƒ¡¡ =
i=1 i=1
N N
= Σ(ax;
i=1 - ax)(c y; - cỹ)ƒ¡¡ = ac i=
Σ(x;
1 - x)(y; - ÿ)ƒ¡¡ = acm||

Ahora bien, por las propiedades de la desviación típica, es

Sxasx y Sy' = CSY

m'11 асти mil

luego r' = = = " c. q. d.
SX'Sy' asxcsy SX SY

II. Para demostrar esta propiedad, partimos del segundo miembro de la expresión
(13 ), y desarrollamos por separado numerador y denominador:
Desarrollando el numerador multiplicado por N, se obtiene:
N
NS₁y = Nm₁ = (x - x)( y; − y) = Σ(x; y; - x; ỹ - xy; + xy) =
xy; +
i=1 i=1

N N N
=
- Σxy - Σx Xi - X Σy + Nxy =
i=1 i= 1 i=1

N N

i=1
Teniendo en cuenta que x = i=1 ey " resulta
N N

N N N N N N
Σχ Σxi ΣΥ
( i=1
ΣΣΕ ) ΣΕ Σi= 1 i=1 i=1
= +N =
i= 1 N N NN

N N N N N N
W

ΣχεΣ ΣτιΣ N Σχι ΣΥ

N i=1 i=1
i=1 i=1 i=1 i=1
= Σx₁y; -2⋅ =
i= 1 N N i=1 N

Desarrollando ahora el denominador de ( 13) multiplicado por N, y, teniendo en

cuenta las definiciones de s₁ y de s₁, se tiene
216

N
Σxi N ΣΥ
1 N 1 i=1
i=1
NSS = N Exi Συ
N i=1 N N i=1 N

N N
Σχ N ΣΥ
N
= Σx
N‫ال‬
i=1 ‫بنا‬ N
‫البشارة‬

Por lo tanto, será

N N
Σ.Σ.
ΣxiYi- i=1 i=1
N mil i=1 N
r=
N SxSy N N
N Σxi N
ΣΥ
Σxi- i=1 Σ i=1
i=1 i=1
N N

N
Multiplicando por queda finalmente
√N²

N N
ΣΥ
i=1 i=1 i=1
r= c.q.d.
N N N N‫لاخ‬
‫ا‬
N
ΝΣΗΣ ΝΣ - Σ
i=1 i=1 i=1 i= 1
SEGUNDA PARTE

NOCIONES DE CÁLCULO DE PROBABILIDADES

CAPÍTULO 7

PROBABILIDAD Y VARIABLE ALEATORIA

7.1 . Experimentos aleatorios

Llamamos experimento a cualquier proceso que genera un conjunto de datos . En

numerosas ocasiones, los resultados de un experimento dependen del azar, no siendo
posible predecir el resultado que va a tener lugar antes de realizarse .
Un ejemplo típico de experimento dependiente del azar es el lanzamiento de un
dado regular sobre el tablero de la mesa; el número que aparecerá en la cara superior
del dado no puede predecirse.
Precisando algo más , un experimento se dice aleatorio cuando se puede repetir en
las mismas condiciones, sus posibles resultados son conocidos previamente , y el
resultado de cada prueba depende del azar.
En un experimento aleatorio, no suele conocerse la población directamente, sino
que se estudian sus propiedades a partir de una muestra representativa de la misma.
Un problema que se presenta frecuentemente en la investigación científica es el de
tener que decidir a partir de los datos aportados por un experimento sobre la validez
o no de un planteamiento previamente establecido . Este podría ser el caso del peda-
gogo que pretende averiguar si un nuevo método de estudio mejora el rendimiento de
los alumnos a partir de una experiencia con un grupo.
Para ello, el investigador necesita establecer un postulado (hipótesis nula). Ante
este postulado inicial , plantea otro alternativo (hipótesis alternativa) y realiza una
prueba o experiencia con una muestra representativa de la población.
A la vista del resultado de la prueba, el investigador tiene que decidir si acepta la
hipótesis nula o, por el contrario, la rechaza, aceptando en su lugar la hipótesis alter-
nativa.
La decisión está basada en un conjunto de cálculos que le proporcionan la probabi-
lidad de obtener el resultado si se cumple la hipótesis nula. Cuando esta probabilidad, de
verificarse la hipótesis nula, es «suficientemente pequeña» , se rechaza la hipótesis nula.
El concepto de probabilidad es la base que permite adoptar la decisión adecuada.
220

7.2. Operaciones con sucesos

Vamos a llamar espacio muestral, en principio, al conjunto de todos los resultados

posibles de un experimento aleatorio, y lo vamos a representar por E. Más adelante
precisaremos este concepto.
Cuando lanzamos un dado, el espacio muestral está formado por los seis resulta-
dos posibles

E={1 , 2, 3, 4, 5, 6}

y, cuando el químico hace sus mediciones, el espacio muestral está formado por todas
las medidas posibles.
Llamaremos suceso a cada uno de los subconjuntos del espacio muestral. Así,
hablaremos del suceso «obtener par en el lanzamiento de un dado» , que estará forma-
do por

P={2,4,6}

Aquellos sucesos que no se pueden descomponer en otros sucesos más simples

serán llamados sucesos elementales . El suceso «obtener 2 » es un suceso elemental
del experimento que consiste en «< lanzar el dado» .
Sea E el espacio muestral asociado a un experimento aleatorio . Los sucesos aso-
ciados a este experimento se comportan del mismo modo que los conjuntos, admitien-
do las operaciones de unión e intersección, con respecto de las cuales los sucesos
van a tener también una estructura de álgebra de Boole.

Intersección de sucesos : La intersección de dos sucesos A y B, que represen-

taremos por AB, es el suceso que tiene lugar si se verifican a la vez A y B.

En el experimento del lanzamiento de un dado sobre el tablero de la mesa, si

consideramos el suceso A= { obtener número par } y el suceso B= { obtener un número
mayor que 3 } , el suceso intersección será:

A B ={4,6}
Si hay dos sucesos de un mismo experimento que no pueden tener lugar simul-
táneamente, como es el caso de los sucesos P={ obtener número par} e I= { obtener núme-
ro impar} cuando se lanza el dado, se dice que los sucesos P e I son incompatibles.
La intersección de dos sucesos incompatibles, en principio, carece de sentido. Por
ello, se define el suceso imposible como aquel suceso que no puede tener lugar
nunca; de este tipo es el suceso « obtener un número mayor que 6».
Representaremos al suceso imposible por el símbolo Ø , y consideraremos que
forma parte de todo experimento . De esta forma, la intersección de dos sucesos in-
compatibles es el suceso imposible.
221

Unión de sucesos: La unión de dos sucesos A y B, que vamos a representar

por AB, es el suceso que tiene lugar siempre que se verifica A, B o ambos
a la vez.

En el lanzamiento de un dado, si consideramos los sucesos A= { obtener número

par } y B= { obtener un múltiplo de 3 } , el suceso unión de A y B es:

AUB = (2,3,4,6}

Suceso contrario: Se llama suceso contrario del suceso A, y se representa por

A' , a aquel suceso que tiene lugar siempre que no se verifica A.

El suceso contrario del suceso A={ obtener número par} es A' = { obtener número
impar}.
La unión de un suceso con su suceso contrario es un suceso que siempre tiene
lugar. A tal suceso le llamamos suceso seguro .

Relación de contenido: Se dice que el suceso A está contenido en el suceso

B, y se representa por ACB , cuando siempre que tiene lugar A se verifica B.

Esto sucede cuando todo elemento de A está en B.

Cualquier suceso A está contenido en el suceso seguro :

ACE,VA

y también se cumple que el suceso imposible está contenido en todo suceso :

ØCA, VA

Igualdad de sucesos : Los sucesos A y B son iguales, y lo representamos por

A=B , si AC By BCA.

7.2.1. Propiedades de la unión e intersección de sucesos

Las operaciones de unión e intersección de sucesos

1. Son idempotentes : AA = AyAUA = A, VA
2. Son asociativas: An(BOC) = (AB) CyAU (BUC) = (AUB) UC, VA, B, C
3. Son conmutativas: AB = BПA у A¯B = BUA, VA, B
4. Poseen elemento neutro:
El elemento neutro para la intersección es E: AE = A, VA
El elemento neutro para la unión es Ø: AUØ = A, VA
222

5. Cada operación es distributiva respecto de la otra:

An(BUC) = (ANB) u (ANC) y Au (BNC) = ( AUB) n (AUC), VA, B, C

6. Se cumplen las leyes de Morgan:

(ANB) A'B'y (AUB) = A'B', VA, B

Algunas de las demostraciones de estas propiedades son inmediatas. Como ejem-

plo, vamos a demostrar una de ellas: la distributiva de la unión con respecto de la
intersección:

AU(BOC) = (AUB) N(AUC)

El proceso de demostración es el que se utiliza para demostrar una igualdad entre
conjuntos, que consiste en demostrar la doble inclusión . Veamos, en primer lugar que

AU(BOC) C (AUB) n(AUC)

Sea x un suceso elemental cualquiera perteneciente al primer miembro:

XE AU(BOC)
Entonces, por la definición de la unión de sucesos, se tiene:

xe Au ( BoC) = xe A6xe BoC

Si xe A⇒ xe AUByxE AUC, y, por tanto xe (AUB) n(AUC)

Si xe BOC⇒ xe Byx C , luego xe AUByxE AUC, y, por tanto

XE (AUB)N(AUC)
Demostremos ahora la relación de contenido recíproca:

(AUB) N(AUC) C AU(BNC)

Sea x un elemento cualquiera perteneciente al primer miembro:

XE (AUB)N(AUC)
Por la definición de la intersección, se tiene:

xe AUByre AUC
Entonces, puede suceder que xe A , en cuyo caso xe Au (BOC) , y estaría de-
mostrado, o bien x A, en cuyo caso, como xe AUByxE AUC , se verifica que
xe Byxe C, y, por tanto, xE AU(BOC) , lo que completa la demostración.
223

7.2.2. Otras operaciones y relaciones entre sucesos

Diferencia de sucesos: La diferencia de dos sucesos A y B, que vamos a

representar por A-B, es el suceso que tiene lugar cuando se verifica A y no
tiene lugar B.

La diferencia de sucesos A-B se puede expresar en la forma:

A- BA B'

Utilizando un diagrama de Venn para representarlos gráficamente, en la figura 7.1 ,

observamos cómo la diferencia A-B viene dada por los sucesos elementales de A que
no están en B (zona rayada) .
Cuando lanzamos el dado, si A= { 2 , 4 , 6 } y B = { 1 , 2, 4 , 5 } , es A-B= { 6 } .

Diferencia simétrica: La diferencia simétrica de los sucesos A y B, que repre-

sentamos por AAB, se define como el suceso que tiene lugar cuando se veri-
fica uno sólo de los dos A, B.

A B A

Figura 7.1 : Diferencia de sucesos (A-B). Figura 7.2: Diferencia simétrica.

La diferencia simétrica se puede expresar por la igualdad:

AAB = (A- B) (B- A)

Sistema completo de sucesos: Los sucesos A,,A,,...,An forman un sistema

completo de sucesos si verifican las dos siguientes condiciones:
n
AA = Q, si i ‡ j y UA₁ = E
i=1
224

7.2.3. 6- álgebra de sucesos

A una colección de sucesos le llamamos clase o familia de sucesos . Dado un

suceso C, la clase de todos los sucesos contenidos en C es llamada clase de las
partes de C, y se representa por P(C).
Sea U una clase de sucesos. Se dice que U es cerrada para una operación si se
verifica la siguiente condición:

VA; E U⇒ A₁ * A2* A3*…...€ U

Se dice que U es cerrada para contrarios si

VAE UA'E U

o-álgebra: La clase U es una σ-álgebra si verifica las siguientes condiciones :

1. U es cerrada para la unión numerable.
2. U es cerrada para contrarios .
3. U contiene al suceso imposible.

El álgebra de Boole es un caso particular de 6-álgebra , que sólo exige que se cumpla
el primer axioma para la unión finita. La clase de las partes de C es una σ-álgebra.
Con estas definiciones, es posible precisar algunos de los conceptos que hemos
introducido de una manera intuitiva.

Espacio muestral: Dado un experimento S , el espacio muestral asociado es un

par (E,U) , donde E es el conjunto de todos los resultados posibles asociados
al experimento, y U es una σ-álgebra de sucesos de E.

A los elementos de U se les llama sucesos, y a los elementos de E se les llama

puntos muestrales. Si un suceso está formado por un único punto muestral, se le
llama suceso elemental.
Cuando hablamos de E como espacio muestral , estamos dando por supuesto que
E lleva asociada una clase de sucesos , que es una σ-álgebra.
Los espacios muestrales pueden ser de tipo discreto o continuo, según el número
de puntos muestrales que contengan.
Un espacio muestral se dice que es de tipo discreto si contiene , a lo sumo, una
infinidad numerable de puntos muestrales . La clase asociada es la clase de las partes
P(E).

Ejemplo 7.1

La medida del número de piezas defectuosas que produce una máquina es un

ejemplo de espacio muestral discreto, que está formado por el par (E,U), siendo
225

E={0,1,2,3,4,... } y U=P(E)

Un espacio muestral es de tipo continuo si contiene una infinidad no numerable

de puntos muestrales.

Ejemplo 7.2

La selección al azar de un punto del segmento [0,1 ] es un ejemplo de espacio

muestral continuo, que está formado por el par (E,U) , donde

E = {x = R10≤ x ≤ 1}
En un espacio muestral de tipo continuo, la σ-álgebra no tiene por qué coincidir
con P(E).
Un caso particular de espacio muestral discreto se tiene cuando el número de
puntos muestrales es finito. Entonces se dice también que es de tipo finito. La clase
P(E) es un álgebra de Boole.

Ejemplo 7.3

El espacio muestral asociado al experimento consistente en lanzar una moneda al

aire y observar el resultado es un espacio muestral finito, que está formado por el par
(E,U), siendo:

E = {C, X } y U = P(E) = {Ø, C, X, {C, X}}

Para definir el espacio muestral de tipo finito, hemos podido hacerlo por exten-
sión, es decir, enumerando todos y cada uno de los elementos que lo componen.
Cuando se trata de espacios muestrales no finitos, se suelen definir por comprensión,
es decir, enunciando una propiedad característica de todos los puntos muestrales, tal
como acabamos de hacer en el ejemplo 7.3 .
A veces, resulta interesante la descripción de los puntos muestrales por medio de un
diagrama de árbol, lo que también resulta útil para asignar probabilidades a los sucesos.

Ejemplo 7.4 A AA
A
BRC

AB
Un experimento compuesto consis- AR
te en sacar una bola de una urna que BC
B
contiene tres bolas: azul(A), blanca (B) BX
X

y roja(R). Si la bola extraída es azul, se C RC

R
introduce de nuevo en la urna y se vuel- X RX
ve a sacar una bola, mientras que, si no
es azul, se lanza una moneda al aire , ob- Figura 7.3: Diagrama de árbol con los puntos
servando si sale cara(C) o cruz(X) . muestrales del ejemplo 7.4.
226

En la figura 7.3, se observa cómo las distintas trayectorias del diagrama de árbol
proporcionan los diferentes puntos muestrales.

7.3 . Frecuencia de un suceso

El concepto de frecuencia de un suceso nos va a conducir a la idea de probabili-

dad, que nos permitirá establecer una medida de la incertidumbre de que ocurra un
suceso asociado a un determinado experimento aleatorio .
Sea (E,U) el espacio muestral asociado a un experimento aleatorio, y sea A un
suceso de dicho espacio.
Se llama frecuencia absoluta del suceso A, y la representamos por n , al número
de veces que tiene lugar A en una serie de n pruebas o repeticiones del experimento
en las mismas condiciones .
Se llamafrecuencia relativa del suceso A, que representamos por f(A), al cociente
de dividir la frecuencia absoluta del suceso A por el número de pruebas realizadas :

A
f(A) =
n

Propiedades de las frecuencias:

1. Cualquiera que sea el suceso A, f(A) ≥0 y f(A)≤1 .

En efecto, la frecuencia relativa es un cociente de dos números no negativos ,
donde el numerador es siempre menor o igual que el denominador.
2. f(x) = 0
Esta propiedad es evidente, puesto que el suceso imposible nunca puede tener
lugar.
3. f(E)= 1 .
Resulta también evidente, ya que el suceso seguro siempre tiene lugar, por lo que
la frecuencia absoluta coincidirá con el número de pruebas.
4. Si A y B son dos sucesos incompatibles, f(AUB) = f(A) + f(B)
En efecto, por ser A y B incompatibles, no pueden darse a la vez, por lo que el
número de veces que se da la unión es igual a la suma de las veces que tiene lugar A
más las veces que se da B, luego

NAUB ПА + ПВ ПА ПВ
f(AUB) = = + =f(A) + f(B)
n n n n

Estas propiedades que se dan entre las frecuencias de los sucesos aleatorios se
generalizan, dando lugar a la definición axiomática de la probabilidad, establecida por
Kolmogorov en 1933 , cuyos axiomas son el fundamento del modelo matemático gene-
ralmente aceptado para estudiar las probabilidades .
227

7.4 . Definición de Probabilidad

Consideremos un experimento aleatorio, al que tenemos asociado un espacio

muestral (E,U) , siendo U una σ-álgebra de sucesos de E. Se define la probabilidad
como una aplicación P de U en el conjunto de los números reales

P:U → R
que verifica los tres siguientes axiomas:

I. P(A) ≥0, VA E U (1)

II. Si A,, A,,... U, siendo los A, incompatibles dos a dos, se verifica

Р
PA₁ [ P( A )
( A )=
= i= 1
(2)

III . P(E)= 1 . (3)

En esta definición intervienen tres elementos fundamentales: el suceso seguro E,

la σ-álgebra U de sucesos de E y la aplicación P. A la terna (E,U,P) formada por estos
tres elementos se le denomina espacio probabilístico o espacio de probabilidades.

7.4.1 . Propiedades de la probabilidad

Como consecuencia de los axiomas que acabamos de definir, se deducen las pro-
piedades que van a permitir calcular la probabilidad de un suceso cualquiera.

1. Si A' es el suceso contrario de A, es P(A') = 1- P(A), VA Ē U (4)

En efecto, por el tercer axioma, es

P(AUA')= P(E) = 1

y, por el segundo axioma, al ser A y A' incompatibles,

P(A A') = P(A) + P(A')

luego P(A)+P(A )= 1 , de donde resulta P(A' )= 1 - P(A) .

2. P(Ø) = 0 (5)
En efecto, Ø = E' , y, por la propiedad 2 , esP(Ø) = 1 - P(E) = 1-1 = 0

3. Si A,B e Uy ACB P(A) ≤ P(B) (6)

En efecto, si ACB, B = AU (BA) , siendo A y B-A incompatibles . Por el axioma
2, será P(B) = P(A) + P(B - A) , y, como P(B-A)20 por el primer axioma, debe ser
P(A)≤P(B).

4. P(A)≤1 , cualquiera que sea A. (7)

En efecto, cualquiera que sea A, A está contenido en E, luego P(A) ≤P(E)= 1 .
228

5. Dados dos sucesos cualesquiera A y B de U, se verifica

P(AUB) = P(A) + P(B) -P(AB) (8)

En efecto, el suceso AUB se puede poner como la unión de tres sucesos incom-
patibles:

AUB (A- B) (B - A) U(ANB)

de modo que

(*) P(AUB) = P(A- B) + P(B - A) + P(A^B)

También los sucesos A y B se pueden poner como unión de dos sucesos incom-
patibles:

A = (A- B) (AB) y B (B - A) (AB)

A B según puede apreciarse en la figura 7.4.

A- B Entonces
P(A) = P(A - B) + P(A ^ B) y P(B) = P(B - A) + P(A ^B)
B-A Sumando miembro a miembro estas dos últimas
igualdades, resulta:
AOB
P(A)+P(B) = P(A- B) + P(AB) +P(B - A) + P(ANB)
Figura 7.4: Unión de dos sucesos.
Restando P(AB) en los dos miembros , queda:

(**) P(A)+P(B)-P(AB) = P(A- B) + P(B - A) + P(AB)

Si comparamos ( *) y ( **) , tenemos

P(AUB) = P(A) + P(B) - P(AB) , c.q.d.

6. P(AUB) ≤ P(A) + P(B), \A, B = U (9)

Esta propiedad es una consecuencia inmediata de la anterior.

7. Si el espacio muestral está formado por un número finito de sucesos elementa-

les , E={ a,, a,,..., a } , será

P{ a } +P {a } + ...+P{ a }=1 . (10)

Los sucesos elementales son incompatibles dos a dos , luego

P(E) = P({a₁} {a₂}U... {an}) = P{a₁} + P{a2} + ... + P{an} = 1

8. Sea E= { a ,, a ,, .,a } , donde son conocidas P{ a, } , P{ a }, ... ,P { a } . Entonces, si un
suceso A está formado por k sucesos elementales, A= { a,, a,,..., a } , se verifica:
k
(11)
P(A) = P(a;)
i=1
229

En efecto, al ser los sucesos elementales incompatibles dos a dos, la probabilidad

de la unión es la suma de las probabilidades de cada uno de ellos .

7.4.2. Asignación de probabilidades

El tipo de sucesos más frecuente en la práctica diaria nos obliga a hacer una
restricción, que nos va a conducir a la definición clásica de probabilidad o regla de
Laplace.
Sea un espacio muestral finito, donde E= { a,, a,,... ,a } y la s-álgebra de sucesos es
la clase de las partes de E, U=P(E) . Si es admisible el axioma adicional de que << todos
los sucesos elementales son equiprobables» , es decir

P{a } =P{ a } =...= P { a }

será: P(E)=P{ a, } +P{ a₂} +... +P { a } =nP { a } =1
y, por tanto P{ a } = 1/n, para i= 1,2, ..., n .
Entonces, si un suceso A de P(E) está formado por k sucesos elementales , será :
k
1 k
P(A) = ΣP{a}} = k = =
i=1 n n

donde k es el número de veces que se da el suceso A (casos favorables) , en tanto que

n es el número de pruebas realizadas (casos posibles) .
Podemos expresar la relación anterior en la forma:

k n°. de casos favorables

P(A) = (12)
n n°. de casos posibles

Este resultado se conoce como «regla de Laplace», y nos dice que « la probabili-
dad de un suceso es el cociente de dividir el número de casos favorables a dicho
suceso entre el número de casos posibles » , siempre que los sucesos elementales se
puedan considerar todos con la misma probabilidad.
La regla de Laplace permite asignar probabilidades en una gran parte de las situa-
ciones que se presentan: suele tratarse de espacios muestrales finitos , en que los
sucesos elementales son equiprobables .

Ejemplo 7.5

Consideremos el experimento consistente en lanzar una moneda trucada de tal

forma que la probabilidad de cara es el triple que la de cruz .
En este caso, no es aplicable la regla de Laplace, puesto que los sucesos elemen-
tales no tienen la misma probabilidad . Ahora bien, si denotamos por C(cara) y X(cruz)
a los sucesos elementales, en virtud de la propiedad 7 de la probabilidad, se tiene:

P(C)+P(X)= 1
230

Como P(C)=3P(X) , será 3P(X)+P(X)= 1 , y, por tanto 4P(X) = 1 , de donde

P(X)= 1/4 y P(C)=3/4

Ejemplo 7.6

Se selecciona una carta al azar de una baraja española. Describir el espacio

probabilístico, y hallar la probabilidad de que la carta seleccionada sea un rey.
1 ) El espacio muestral está formado por el par (E,U) , donde E es el conjunto de las
cuarenta cartas que tiene la baraja, y U=P(E).
Todas las cartas de la baraja tienen la misma probabilidad de ser extraídas, luego
podemos hacer uso de la regla de Laplace: 1/40 es la probabilidad de cada uno de los
sucesos elementales, lo que determina la función de probabilidad, y, por consiguiente,
el espacio probabilístico (E,U,P).
2) La probabilidad de obtener rey es

P(rey)=4/40= 1/10,

ya que son 40 los casos posibles y 4 los favorables (el nº de reyes de la baraja).
Determinar el número de puntos muestrales en un espacio probabilístico , para
aplicar la regla de Laplace, no siempre resulta fácil . Dependerá, en cada caso, de la
forma en que estén agrupados los puntos muestrales. La teoría combinatoria ' se ocu-
pa del estudio de los distintos tipos de agrupaciones que se pueden hacer con los
elementos de un conjunto.

7.5. Ejercicios resueltos

Ejercicio 7.5.1

Consideremos el experimento consistente en lanzar tres monedas al aire.

1) Describir el espacio probabilístico.
2) Hallar la probabilidad de obtener: i) tres cruces; ii) una cruz; iii) al menos una
cruz; iv) obtener más cruces que caras.

Solución: 1 ) Si designamos por C «cara» y por X « cruz » , el suceso seguro E

estará formado por los 8 puntos muestrales:

E={CCC,CCX, CXC,XCC,CXX,XCX,XXC,XXX}

Se trata de un espacio de tipo finito, por lo que la clase asociada a E es la clase de

las partes P(E).

1 El apéndice A contiene los conceptos fundamentales sobre combinatoria.

231

La función de probabilidad estará determinada si se conocen las probabilidades de

los sucesos elementales. Se puede admitir que todos los sucesos elementales son
equiprobables, y, en consecuencia, aplicar la regla de Laplace .
El número de sucesos elementales es igual al de variaciones con repetición de 2
elementos tomados de 3 en 3 :
VR,³=2³=8

luego la probabilidad de cada uno de los sucesos elementales es

P(a)= 1/8

2) Probabilidad de los sucesos A=« obtener tres cruces » , B =«obtener una cruz » ,
C=<<obtener al menos una cruz » y D=« obtener más cruces que caras» >:
El número de casos posibles a los cuatro sucesos es 8. Veamos los casos favora-
bles a cada uno de los sucesos considerados :
i) hay 1 caso favorable al suceso A: XXX ; luego

P(A)= 1/8

ii) hay 3 casos favorables al suceso B : CCX, CXC y XCC; por lo tanto:

P(B)=3/8

iii) La probabilidad del suceso C , como sucede en general siempre que figura la
condición <<al menos », se halla mejor pasando al suceso contrario, y utilizando la
primera de las propiedades de la probabilidad. Así, el suceso contrario de C es C' =<« no
obtener ninguna cruz» , para el que sólo hay un caso favorable: CCC; luego:

P(C)= 1-P(C )= 1-1/8-7/8

iv) El suceso D se da cuando hay dos o más cruces, por lo que son 4 los casos
favorables: CXX , XCX, XXC y XXX; la probabilidad es:

P(D)=4/8= 1/2

Ejercicio 7.5.2

En una determinada ciudad se publican dos periódicos, P y Q. Se estima que, de la

población adulta, el 54 por ciento lee P, el 30 por ciento lee Q y el 9 por ciento lee P y
Q. Hallar la probabilidad de que un ciudadano adulto cualquiera, elegido al azar: 1 ) lea
alguno de los periódicos; 2) no lea ninguno; 3) lea sólo uno de los dos .

Solución: Designemos por A al suceso « ser lector de P» y por B al suceso <<ser

lector de Q».
1 ) El suceso «< leer alguno de los periódicos » es la unión de los sucesos A y B,
que, al no ser incompatibles, habrá que utilizar la expresión (8) para hallar su probabi-
lidad:
232

P(AUB)= P(A) + P(B) -P(AB) = A B

0'54 +0'30-0'09 = 0'75

22
2) «No leer ningún periódico» es el 45 21
suceso A'B' , luego, utilizando una de las
leyes de Morgan y la primera propiedad
de la probabilidad , resulta:

P(A'B') = P[(AUB)'] = 1- P(AUB) =

= 1-0'75 = 0′25 Figura 7.5: Porcentaje de lectores.

3) El suceso <« leer sólo uno de los

periódicos» es la diferencia simétrica de los sucesos A y B. Entonces :

P(AAB) = P (A - B) (B- A)] = P(A- B) + P(B- A)

Ahora bien, P(A- B) = P(A) - P(A¬B) = 0′54-0′09 = 0'45

y P(B- A) = P(B) - P(AŊB) = 0′30-0′09 = 0′21

luego P(ANB) = 0′45 + 0′21 = 0′66

7.6. Probabilidad condicionada

Sea (E,U,P) un espacio probabilístico y A un suceso de U tal que P(A)>0.

Entonces, para todo suceso B de U se define la «probabilidad del suceso B con-
dicionado por A» , y se representa por P(B/A) , como

P(A B) (13)
P(B / A) =
P(A)

Proposición 7.1 : Dado un espacio probabilístico (E,U,P) , para cada suceso A

de U tal que P(A)>0 , (E,U,P(./A)) es un espacio probabilístico.

Demostración:

1. P(B/A)≥0, cualquiera que sea B perteneciente a U.

En efecto,
P(A B)
P(B / A) =
P(A)
2. Si B,,B22 son sucesos de U, incompatibles dos a dos , entonces

P(B₁UB₂U….. / A) = P( B₁ / A) + P(B₂ / A) + ...

233

En efecto:

(An(BUB₂U...)) P((ANB ) U(ANB₂ ...)

P(BUB₂U..JA) = P·
P(A) P(A)
Como B₁ , B2, ... son incompatibles dos a dos , también lo son los sucesos
AOB , A B2, y, por tanto, el último miembro de la última igualdad anterior es

P(A B )+ P(A B2 ) +... P(AB ) P(A B2 )

= + ...
P(A) P(A) P(A)

3. P(E/A)= 1 .
P(AE) P(A)
En efecto, P(E / A) = =1
P(A) P(A)

Cuando se condiciona la probabilidad de que ocurra un suceso B a la realización

de otro suceso dado A, en realidad se está restringiendo el espacio muestral original
(E,U) a un espacio muestral (A,U ) , donde U es la o-álgebra que constituyen los
sucesos de la forma BOA·
P(./A) es una función de probabilidad sobre U.
Cuando evaluamos la probabilidad condicionada, podemos hacerlo utilizando la
definición o razonando desde el espacio restringido, en cuyo caso, se simplifican
notablemente los razonamientos.

Propiedades:

1. P(A |B) = P(A)P(B / A), P(A) > 0 (14)

Esta propiedad se obtiene de despejar P(A) en (13).

2. P(A BOC) = P(A)P(B / A)P(C /AOB) (15)

En efecto, P(A BOC) = P(AB)P(C / AOB) = P(A)P(B / A)P(C /AB)

Ejemplo 7.7

Una urna contiene 4 bolas blancas y dos rojas . Se extraen dos bolas consecutiva-
mente sin devolución . Si la primera bola extraída resultó blanca, ¿ cuál es la probabili-
dad de que la segunda bola también sea blanca?

Solución: Llamemos A al suceso «la primera bola extraída es blanca » y B al suce-

so «la segunda bola extraída es blanca» . Nos piden la probabilidad de B condicionado
por A.
Si aplicamos la definición, resulta:

P(A)=4/6
234

El suceso AnB es el suceso «obtener dos bolas blancas» . El número de casos

posibles es el de las combinaciones de 6 elementos tomados de 2 en 2, mientras que
los casos favorables son las combinaciones de 4 elementos tomados de 2 en 2 ; por lo
tanto
C4 2
P(A|B) = =
c² 5
Luego la probabilidad pedida es

P(AB) C /C 2/5 3
P(B / A) = = =
P(A) 4/6 2/3 5

Figura 7.6: Espacio muestral original y restringido.

A este resultado podríamos llegar, de modo más sencillo, si trabajáramos en el

espacio muestral restringido, que tiene 3 bolas blancas y 2 rojas. La probabilidad de
dos blancas en este espacio es 3/5 , ya que son 5 los casos posibles y 3 los favora-
bles.

7.6.1 . Sucesos dependientes e independientes

En el ejemplo 7.7, la probabilidad de que tenga lugar B no es la misma que la

probabilidad de ese mismo suceso si se le condiciona a que se haya verificado A.
Se dan también ocasiones en que la condición de que haya tenido lugar un suceso
A no modifica la probabilidad de que se verifique otro suceso B. Cuando P(B/A) es
distinta de P(B), se dice que B depende de A.

Independencia de sucesos : Dados dos sucesos A y B de un espacio

probabilístico (E,U,P) , se dice que el suceso B es independiente de A si

P(B/ A) = P(B)
235

Propiedades

1. Si B es independiente de A, P(A^B) = P(A)P(B) (16)

En efecto, P(AB) = P(A)P(B / A) = P(A)P(B)
al ser B independiente de A.

2. Si B es independiente de A, también A es independiente de B.

P(A B)
En efecto, P(A/ B) = · con P(B)>0. (*)
P(B)

Pero, al ser B independiente de A, es P(AB) = P(A)P(B) .

Sustituyendo en (*) , se obtiene:

P(AB) P(A)P(B)
P(A/ B) = =
= P(A)
P(B) P(B)

Este resultado permite decir que A y B son independientes.

3. Si A y B son independientes, son también independientes A' y B, A y B ' , A' y B ' .
En efecto, por ser A y B independientes, se verifica

P(A/B)=P(A) y P(B/A)= P(B)

Entonces:
i) P(A'/B)= 1 - P(A/B)= 1 - P (A)=P (A' ) , luego A' y B son independientes.
ii) P(B'/A)= 1 - P(B/A)= 1 -P(B)=P(B ' ) , luego B ' y A son independientes.

iii) P(A'B') P[(AUB)] 1-P(AUB)

P(A' /B') = =
P(B') P(B') P(B')

1- P(A) - P(B) + P(A|B) 1 - P(A) - P(B) + P(A)P(B)

=
P(B') P(B′)

(1-P(A))(1- P(B)) P(A')P(B')

= = == P(A')
P(B') P(B')
luego A' y B' son independientes .

Sucesos independientes dos a dos : Los sucesos de una familia S se dice que
son independientes dos a dos cuando VA, BE S⇒ A y B son independien-
tes.

Para la generalización del concepto de independencia a más de dos sucesos, se

establece la siguiente definición:
236

Sucesos mutuamente independientes : Los sucesos de una familia S se dice

que son mutuamente independientes si para toda subfamilia finita {A,,A,, ... ,A₁ }
de sucesos de S, se verifica que

P([Link] ) = P( A1 )P( A2)...P(Ak )

Es evidente que, si los sucesos de una familia son mutuamente independientes ,

son independientes dos a dos.

Ejemplo 7.8

En una escuela universitaria, el 55 por ciento de los estudiantes son chicos y el

resto chicas . Se sabe que el 40 por ciento de los estudiantes de la escuela son fuma-
dores , y que el 25 por ciento de los fumadores son chicas . Se selecciona una chica al
azar. 1) ¿Cuál es la probabilidad de que sea fumadora? 2) ¿Es independiente el suceso
<<ser fumador» del suceso « ser chica»>?

Solución: Designemos por A al suceso «ser chica» y por B al suceso « ser fuma-
dor» .
1) Con los datos del enunciado, tenemos :

P(A) = 0'45, P(B) = 0′40, P(AB) = 0'10

P(AB) 0'10
luego P(B / A) = = = 0'22
P(A) 0'45
2) Como P(B/A)=0’22 y P(B)=0'4 , el suceso B depende de A, y los sucesos «<ser
fumador» y «ser chica» no son independientes.

7.7. Teoremas de la probabilidad total y de Bayes

Sea (E,U,P) un espacio probabilístico, { A,,A,,...,A } un sistema completo de suce-

sos , donde son conocidas las probabilidades P(A.) , y sea B un suceso tal que también
son conocidas las probabilidades P(B/A) . Con estas hipótesis, se verifica:

n
P(B) = ΣP(A;)P(B / A;) (17)
i=1

(18)
P(A)P(B/A )
P(A /B) = n
ΣP(A)P(B /A)
i=1
237

La expresión ( 17 ) se conoce como teorema de la probabilidad total, y la expre-

sión (18) es el teorema de Bayes.
Las probabilidades P(A ) son llamadas «probabilidades a priori» o «causas» , las
probabilidades P(A /B) « probabilidades a posteriori » , y las probabilidades P(B/A )
<<verosimilitudes>> .

Demostración:

I. P(B) = P(B( E) = P[B ^ ( ~

1. , A. )] = P[(B ~ A, JU (B ~ A; )
...]=

como los sucesos A constituyen un sistema completo, son incompatibles dos a dos,
y, por tanto, los sucesos BA, también son incompatibles dos a dos ; luego, en virtud
del segundo axioma de la probabilidad, la expresión anterior es igual a
n n
= P(B ^A, ) + P(B ^ A2) …
+ .. = ΣP(B ~ A; ) = ΣP( A; )P(B / A;)
i= 1 I=1

la última igualdad se deduce de la definición de probabilidad condicionada.

II. Por la definición de probabilidad condicionada, se tiene

P(AB) = P(A)P(B/ A) = P(B)P(A / B)

P(A)P(B/A) P(A )P(B/ A )

luego P(A /B) := = n
P(B)
ΣP(A;)P(B/A;)
i=1

donde la última igualdad surge de aplicar el teorema de la probabilidad total .

Ejemplo 7.9

En una ciudad hay tantos hombres como mujeres . El 30 por ciento de los hombres
son universitarios y el 20 por ciento de las mujeres también lo son. Se elige una
persona al azar que resulta ser universitaria. Hallar la probabilidad de que se trate de
una mujer.

Solución: Designemos por A, al suceso « ser hombre» , por A, al suceso « ser

mujer» y por B al suceso « ser universitario» . Por los datos del enunciado, se tiene:

P(A,)= 1/2, P(A )= 1/2 , P(B/A, )=0’3 y P(B/A,)=0’2

Entonces

P(A2)P(B/ A2 ) 0'5.0′2
P(A2/ B) = = =: 0'4
P(A )P(B / A ) + P( A2 )P(B/ A2) 0'5.0'3 + 05-0′2
238

7.8. Variable estadística y variable aleatoria

Cuando se lleva a cabo un experimento aleatorio, es interesante la construcción de

ciertas funciones numéricas de sus resultados .
Si lanzamos dos monedas al aire , los posibles resultados están formados por el
conjunto de los puntos muestrales

E= { cc, c + , +c, ++}

Sin embargo, nos interesa conocer, no el resultado en sí de cada prueba, sino el

número de caras que resultan. Así obtenemos la función numérica que a cada suceso
elemental le asigna un número:

X(cc)=2 , X(c+)= 1 , X(+c)= 1 , X(++)=0

Si realizamos un cierto número de pruebas , el conjunto de los valores numéricos

asignados a cada uno de los resultados del experimento, acompañados de sus fre-
cuencias, es lo que constituye una distribución estadística de frecuencias, a cuyo
estudio hemos dedicado los seis primeros capítulos.
Si suponemos una infinidad de pruebas del experimento, la infinidad de resultados
posibles, si éstos son numéricos, o una función numérica de los mismos , define una
variable asociada al experimento, que llamaremos variable aleatoria.
Además, esta variable tomará esos posibles valores con unas probabilidades, que
corresponden a los valores límites a que tienden las frecuencias cuando el número de
pruebas es muy grande .
De esta forma, mediante un proceso de abstracción, que hay que precisar, pasa-
mos de los conceptos de variable estadística y frecuencia a los conceptos de variable
aleatoria y probabilidad.
El concepto de variable aleatoria permite definir determinadas funciones reales de
variable real, que conducen a modelos matemáticos que se adaptan a los diversos
fenómenos aleatorios.

7.9. Concepto de variable aleatoria

Una variable aleatoria es una aplicación que asocia a cada suceso elemental un
número real. Conviene definir este concepto con precisión, puesto que es la idea
fundamental que permite dar un tratamiento riguroso a los fenómenos aleatorios .

Variable aleatoria: Sea (E,U,P) un espacio probabilístico asociado a un expe-

rimento aleatorio. Una variable aleatoria es una aplicación X definida sobre E y
que toma valores en el conjunto de los números reales
X: E → Ra → X(a) = R
si se verifica que VxE R, el conjunto (a e El X(a) ≤ x} € U
239

Ejemplo 7.10

Consideremos el experimento consistente en lanzar dos monedas al aire. El espacio

muestral está formado por el par (E,U) , donde

E= { cc , c +, +c, ++ } y U=P(E)

La aplicación que a cada suceso elemental le asocia el número de caras viene dada
por

X(cc)=2, X(c+)=1 , X(+c)= 1 , X(++)=0

Veamos que se trata de una variable aleatoria. Para ello, tenemos que hallar las
imágenes recíprocas de los intervalos de la forma (-∞,x] , y comprobar que pertenecen
a U.
-1
six <0 , X' ( - co , x] = eU ,
si0≤x < l , x ' ( -, x ] = { ++ } EU
si 1≤x<2, x'¹ (-∞ , x] = {c + , + c, ++} € U '
si x≥2, x¹ (-∞∞, x] = {cc, c + , + c, ++} € U.

Luego la aplicación que a cada suceso elemental le asocia el número de caras es

una variable aleatoria.

7.9.1 . Variable aleatoria discreta y continua

Una variable aleatoria X puede tomar un conjunto de valores finito , infinito nume-
rable o una infinidad no numerable de valores reales . Será discreta o continua, por
tanto , según sea su contradominio o imagen.

Variable aleatoria discreta: La variable aleatoria X es discreta cuando toma

un conjunto finito o infinito numerable de valores reales .

La variable aleatoria definida por el número de caras que salen cuando se lanzan
dos monedas es una variable discreta; su contradominio está formado por los puntos
del conjunto:

C={0,1,2}

Hay variables aleatorias que tienen por imagen toda la recta real o algún intervalo
de la misma

(a,b) , [a,b), (a,b] , (-∞ , a), [ a, + ∞0),...

A este tipo de variable aleatoria, que no toma valores aislados, le llamamos varia-
ble aleatoria continua, esto es:
240

Variable aleatoria continua: La variable aleatoria X es continua cuando toma

valores en una escala continua.

Habitualmente , la variable aleatoria continua corresponde a datos medidos, como

distancias, pesos, temperaturas ,... En cambio, la variable aleatoria discreta representa
datos contados, como el número de hijos , el número de piezas defectuosas en un lote,
el número de caras cuando se lanzan varias monedas,...

7.10. Distribuciones discretas

Si tenemos una variable aleatoria discreta, como puede ser el número de caras que
aparecen al lanzar dos monedas, es conveniente representar las probabilidades con
que toma la variable aleatoria cada uno de los valores numéricos x, por una fórmula .
Esta fórmula debe ser una función de x , f(x) , esto es

f(x) = P(X = x) = P({a € E\ X(a) = x})

Al conjunto de los pares ordenados (x, f(x)) le llamaremos distribución de probabi-
lidad o función masa de probabilidad de la variable aleatoria X. Precisando el con-
cepto, establecemos la definición:

Distribución de probabilidad: El conjunto de pares ordenados (x ,f(x)) es una

distribución de probabilidad o función masa de probabilidad de la variable
aleatoria X si, para cada valor posible x, se verifica

1. f(x)20,
2. Σf(x)= 1 ,
3. P(X=x)=f(x).

Ahora estamos en condiciones de asociar a la variable aleatoria X una función real

de una variable real, que permite construir los modelos matemáticos adecuados para
tratar los problemas originados por fenómenos que se rigen por la ley del azar.

Función de distribución: Sea X una variable aleatoria con distribución de

probabilidad f(x) . Se llama función de distribución de la variable aleatoria X a la
función real de una variable real F
F: R → R

tal que F(x) = P(X ≤ x) = Σf(r), Vx € R (19)

r≤x
241

Ejemplo 7.11

Consideremos, una vez más, el experimento consistente en lanzar dos monedas .

Asociada a este experimento tenemos la variable aleatoria X, que hace corresponder a
cada suceso elemental el número de caras .
La distribución está recogida en la siguiente tabla:

X 0 1 2

f(x) 1/4 1/2 1/4

puesto que la variable X toma los valores 0, 1 y 2 con probabilidades:

f(0)=P(X =0)=P { ++ } = 1/4 , f( 1 )=P(X= 1) =P{ c +, +c } = 2/4= 1/2, f(2)=P(X=2)=P { cc }= 1/4

La distribución de probabilidad de X está representada en la figura 7.7, que recoge

los puntos (x ,f(x) ) . Si se unen los puntos por medio de segmentos verticales con el eje
de abscisas, se obtiene un diagrama de barras, gráfico que utilizamos en la primera
parte. También se podrían dibujar rectángulos de la misma base en lugar de segmen-
tos, y se obtendría un diagrama rectangular.
La función de distribución correspondiente a la variable aleatoria X viene dada
por:

0, six < 0
1
si0≤x < l

F(x) = 3
- , sil < x < 2
4'
1, six ≥2

La gráfica de la función de distribución de la variable aleatoria X está dibujada en

la figura 7.8 . Corresponde a la curva de frecuencias acumuladas , que estudiamos en la
primera parte, cuando tratábamos con variables estadísticas.
Podemos observar, en la gráfica 7.8, que se trata de una función en escalera,
monótona no decreciente y acotada entre 0 y 1 .
En efecto, la función de distribución verifica las siguientes propiedades:

1. Está acotada entre 0 y 1 : 0≤ F(x) ≤ 1, √x € R

2. Es monótona no decreciente, es decir si x1 < x2⇒ F( x1 ) ≤ F(x2)

3. Si la variable aleatoria X toma valores en un intervalo acotado (a,b), es :

F(x)=0, para x≤a y F(x)= 1 , para x≥b.

242

F (x)
1
1

0'5
0,5

0 2 0 1 2

Figura 7.7: Distribución de probabilidad. Figura 7.8: Función de distribución.

7.11 . Distribuciones continuas

Si X es una variable aleatoria continua, la probabilidad de que X tome un valor

concreto es cero. En efecto, pensemos en un experimento consistente en medir la
longitud de ciertas plantas, y supongamos que estamos considerando medidas entre
2'30 dm. y 2'40 dm. Entre estas dos medidas hay infinitas, por ello es cero la probabi-
lidad de encontrar una planta que mida exactamente 2'325 dm. , ya que se trata de un
solo caso favorable entre infinitos casos posibles.
Se habla, por esto, en el caso de variable aleatoria continua, de la probabilidad de
que tome valores en un intervalo, como puede ser P(a<X≤b) , siendo a y b números
reales, a<b.
La distribución de probabilidad de una variable aleatoria continua se llama función
de densidad, y vamos a representarla también por f(x).

Función de densidad: La función real de una variable real f(x) es una función
de densidad de la variable aleatoria X si verifica

1. f(x) ≥0, Vxe R (20)

2. S+f(x)dx = 1 (21)

3. P(a < X < b) = ["f(x )dx (22)

Utilizamos el término de « distribución de probabilidad» cuando nos referimos in-

distintamente a variables aleatorias discretas o continuas , reservando el de «función
masa de probabilidad» o «función de densidad» cuando queremos destacar la dife-
rencia entre el carácter discreto o continuo de la variable aleatoria.
La segunda condición nos dice que el área total bajo la gráfica de f(x) y sobre el
eje de abscisas es igual a 1. El área es utilizada así para representar probabilidades, y
la suma de todas las probabilidades es 1.
243

Consecuencia inmediata de la definición anterior son las siguientes propiedades :

1 ) Si X es una variable aleatoria continua, es P (X=a)=0 .
2) Si a y b son dos números reales tales que a<b, se verifica:

P(a≤x≤b)=P(a<X<b)=P(a<X <b)=P(a<X<b)

Función de distribución de una variable aleatoria continua : Sea X una va-

riable aleatoria continua con función de densidad f(x) . Se llama función de
distribución de la variable aleatoria X a la función real de una variable real F(x)
tal que

F(x) = P(X ≤ x) = √' f(t)dt, √x = R (23)

Dos propiedades que se deducen inmediatamente de esta definición son:

1. P(a < X < b) = ['f(x)dx = F(b)− F(a) (24)

dF(x)
2. Si F (x) es derivable, f(x) = (25)
dx

Es conveniente resaltar tres aspectos:

1 ) La función de densidad desempeña, en el caso continuo, el mismo papel que la
función masa de probabilidad en el caso discreto.
2) En el caso continuo, la integral sustituye a la suma.
3) Cuando la variable aleatoria X es continua, la probabilidad de que X tome un
valor aislado es cero.

Ejemplo 7.12

Si la variable aleatoria X tiene como función de densidad

K (x + 2), si0 < x < l

f(x) =
0, resto

1 ) ¿Qué valor debe tener k? 2) ¿ Cuál es la función de distribución?

Solución:

1) Como f es una función de densidad, debe cumplir (21 ) , luego:

1 1 5
**f(x)dx = S'k(x + 2)dx = k { x² + 2x ] = k{( { + 2) = *k· =
[ -1

de donde resulta k=2/5 .

244

La función de densidad es , por tanto

2/5 (x + 2 ), si0 < x < l

f(x) =
0, resto

2) La función de distribución se obtiene integrando f(x) en los distintos intervalos

en que está definida:

0, six < 0

2 4
+ - x, si0≤x < l
F(x) = 5
1, six ≥ 1

Observemos , una vez más, el paralelismo con el estudio de la variable estadística.

La gráfica de la función de densidad (figura 7.9) corresponde a la curva de frecuen-
cias, y la gráfica de la función de distribución (figura 7.10) corresponde a la curva
acumulativa de frecuencias u ojiva.

7.12. Esperanza matemática

1
1

1 1

Figura 7.9. Función de densidad Figura 7.10. Función de distribución

del ejemplo 7.12. del ejemplo 7.12.

El papel que, en la primera parte, desempeñaba la media aritmética ponderada,

como característica más importante de localización , lo va a desempeñar ahora la espe-
ranza matemática² de una variable aleatoria.

2 Este término tan expresivo para designar el valor medio se establece en los orígenes del
"Cálculo de Probabilidades ", hacia el sigo XVII , en que los juegos de azar eran el campo de
aplicación de la Estadística, y el interés del jugador se centraba en la " esperanza" de conseguir un
premio.
245

Esperanza matemática: Sea X una variable aleatoria con distribución de pro-

babilidad f(x) . La esperanza matemática o media de X, que denotamos por μx,
es
(26)
µx = E(X) = Σxf(x),
x
si X es discreta; y, si X es continua, es
+∞
(27)
µ x = E(X) = Ĵ xf(x)dx,
-00

Se supone la convergencia absoluta de la serie y de la integral . Cuando no haya

lugar para la confusión, la esperanza matemática de X se denotará por u en lugar de
μ
...
Veamos cómo la esperanza matemática generaliza el concepto de media aritmética.
Para ello, consideremos un experimento aleatorio en el que se han realizado n pruebas,
habiéndose obtenido n , veces el valor x ,, n, veces el valor x,,..., n veces el valor x ,
siendo n, +n,+...+n = n.
Entonces, la media aritmética ponderada es:

X1N1 + x2n2 + ...+ Xk Nk

X= = 1
n

donde = n₁ es la frecuencia relativa del valor x. , i= 1,2,...,k.

fin
Si suponemos que el número de pruebas es muy grande, la frecuencia relativa
tiende a la probabilidad, es decir:

f₁ = P₁ = P(X = x ; ) , i= 1,2, ... ,k.

y, por tanto, la media tiende al valor

X1P₁ + X2 P₂ + ...+ xk Pk
que es la esperanza matemática de la variable aleatoria X.

Ejemplo 7.13

Vamos a calcular la esperanza matemática de las variables aleatorias de los ejem-

plos 7.10 y 7.12.
1 1 1 1 2
1) E(X) = Σxf(x) = 0 ⋅4+1 2 = +-=1
X 0.7 , + 2 4 2 4

Este resultado se interpreta en el siguiente sentido: si lanzamos dos monedas ,

como promedio, obtendremos una cara cada vez.
00 2 21 201 8
2) = == =
E(X) = √ = (x + 2)dx : 5L3²x² + x²
[-00" xf(x)dx = √'0 x 5
53
+
15
246

7.12.1. Esperanza de una función de una variable aleatoria

Sea (E,U, P) un espacio probabilístico, y sea X una variable aleatoria definida en él .

Consideremos la función real de una variable real h: R → R tal que la imagen de la
variable aleatoria X está contenida en el dominio de h.
Podemos hablar entonces de la función compuesta h· X=h(X) , que es una aplica-
ción de E en R tal que

(h·X)(a)=(h(X))(a)=h(X(a)) , para a perteneciente a E.

Si la imagen inversa por h(X) de cualquier intervalo de la forma (-∞∞ ,x ] es un suceso

de U, h(X) será una variable aleatoria. Una condición suficiente para que h(X) sea una
variable aleatoria es que h sea uniforme y continua.
Dada una variable aleatoria X, si h(X) es una variable aleatoria, se puede hablar de
la esperanza matemática de h(X):

Proposición 7.2: Sea X una variable aleatoria con distribución de probabilidad

f(x) y sea h(X) una variable aleatoria. Entonces la esperanza matemática de
h(X) es
µ h(x) = E[h(X)] = Σh(x)f(x), (28)
X

si X es discreta; y, si X es continua, es

µncx) = E[h(X)] = √ˆh(x)f(x)dx (29)

Ejemplo 7.14

Si, para la variable aleatoria X del ejemplo 7.12, definimos la función h(X)= 2X+ 1 , la
esperanza matemática de esta nueva variable aleatoria será:

2 31
E
B(2x + 1 ) = √ (2x + 1 ) (x + 2) dx = ? ↓ (2x² + 5x + 2) dx = 15

7.12.2. Propiedades de la esperanza matemática

1. Sea X una variable aleatoria. Si las funciones de X, g(X) y h(X), son dos varia-
bles aleatorias tales que existen E[g(X) ] y E[h(X) ] , entonces existe también E[g(X)+h(X) ]
y es

E[g(X)+h(X)] =E[g(X)] +E[h(X)] (30)

247

2. Si g(X) es una función de la variable aleatoria X tal que existe E[g(X)] y es a un

número real cualquiera, existe E[ag(X)] y es

E[ag(X)] =aE[g(X)] (31)

Las propiedades 1 y 2 nos dicen que la esperanza matemática es un operador

lineal, y se deducen inmediatamente de la definición, puesto que la integral y la suma
indicada son dos operadores lineales. En efecto, si la variable aleatoria es continua,
tendremos:

E[ g(X)± h(X)] = g(x)±h(x)} f(x)dx =

='
[*~g(x)f(x )dx ±√
'* h(x)f(x)dx = E[g (X)] ± E[h(Y)]

+00
y E[ag(X)] = √* [ag(x)]f(x)dx = aĴ*^g(x)f(x)dx = aE[g(X)]

3. En particular, si a y b son dos números reales y X una variable aleatoria, se

verifica:

E[aX+b]=aE[X] ±b (32)
E[aX]=aE[X] (33)
E[b]=b (34)

7.13 . Varianza y desviación típica

La varianza de la variable aleatoria X es una buena medida de la dispersión. No

obstante, esta medida no está dada en las mismas unidades que X, por lo que se
utiliza su raíz cuadrada positiva, que conocemos como desviación típica. Para varia-
bles aleatorias, se define:

Varianza: Sea X una variable aleatoria con distribución de probabilidad f(x) . La

varianza de X, que representaremos por σ2 X es la esperanza matemática de la
variable aleatoria (X-u)².

De acuerdo con la definición , si X es una variable aleatoria discreta, es

(35)
σ} = E[ (x - μ
µ )² ] = Σ (x - µ )²f(x)
X
y, si X es una variable aleatoria continua, es

(36)
ox = E[(X - µ }³] = √™
-x (x - µ }
² f(x)dx
248

También aquí se supone la convergencia absoluta de la serie y de la integral. Si no

hay lugar para la confusión, se escribe o² en vez de σ2, para designar la varianza de X.

Desviación típica: La desviación típica de la variable aleatoria X, que se

representa por σ ó σ , es la raíz cuadrada positiva de la varianza de X.

Ejemplo 7.15

Las varianzas y desviaciones típicas correspondientes a las variables aleatorias de

los ejemplos 7.10 y 7.12 son:

1 1 1 1
1) = == + ==
X 2 4 4 4 2

√2
y = =
10-1/
2--- 2

2) 21 2
σ = [{ (x - µ } fix) dx = 3[ 4 x² + 15
1/4 x 208
225 x² + 225
128 x = 450
37
Ο

37
y σ= = 0,28
450

7.13.1 . Propiedades de la varianza

1. Si X es una variable aleatoria, σ = E(X²) - µ (37)

Demostración: Lo demostramos para el caso continuo. (Si la variable fuese discre-

ta, se seguiría el mismo proceso, pero con sumas indicadas) .

ox = E[(X - µ }³'] = √ (x - µ }² f(x)dx = √ (x² - 2µx - µ² )f(x)dx =

ˆx²f(x)dx - 2µ˜¨xf(x)dx + µ² ſˆ_

=[ -00 f(x)dx

Como [ xf(x)dx =µ y [***f(x)dx = 1 , resulta :

ở² = √ˆˆ
-00 x² f(x)dx - 2 µ² + µ² = √ˆˆ
-00 x² f(x)dx - µ² = E( X² ) - µ²
249

2. Sea X una variable aleatoria con distribución de probabilidad f(x) , y sea g(X)
una función de la variable aleatoria X. Entonces la varianza de la variable aleatoria
g(X) es:

μ (38)
•« x) = E{[ 8(X) - µmx] '} = Σ [ 8 (x) -µ «x]* f(x)

si X es una variable aleatoria discreta, y

- μ
8 ( x) -xxx (39)
x = E [ 8(X) -Hx

si X es una variable aleatoria continua.

La demostración es inmediata. Por ser g(X) una variable aleatoria, basta con apli-
car la proposición 7.2.
3. Si a y b son dos números reales , se verifica:

Oax+b =a²ox (40)

Demostración : σ x = E{[(aX + b) - µ ax+b]"}

Como μax+b = E(aX + b) = aE(X) + b = aµ + b

es σax+b = E[(ax + b - aµ - b )'] = E [ (aX - aµ )' ] = a² E[(X - µ )²] = a²ox

4. Si hacemos a=1 en (40) , resulta σ}+ = σ (41)

5. Si hacemos b=0 en (40) , resulta σax = a'ox (42)

7.14 . Teorema de Tchebycheff

La varianza y su raíz cuadrada, la desviación típica, son medidas de la dispersión

de los datos de una