ESTADÍSTICA Y PROBABILIDAD
Alfredo Yerman Cortés Verbel
I.E.S.A.S.
ESTADÍSTICA Y
PROBABILIDAD
Alfredo Yerman Cortés Verbel
I.E.S.A.S.
Creative Commons
Atribución-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4,0). puede
obtener una copia de de licencia en [Link]
by-nc-sa/4.0/[Link]. Usted es libre de: Compartir — copiar y redistribuir el
material en cualquier medio o formato. Adaptar — remezclar, transformar y construir
a partir del material.
"Las cifras no mienten, pero los mentirosos
también usan cifras."
Anónimo
Dedicatoria.
Un pequeño regalo para Luciana.
Sea L el evento : Verte algún día cara a
cara; entonces, P (L) = 1.
Índice general
1 DEFINICIONES Y CONCEPTOS BÁSICOS
1
1.1 Conceptos Básicos. .................................... 2
1.1.1 Origen y desarrollo de la estadística. ........................ 2
1.2 Usos de la estadística. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 Definición de estadística. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.1 División de la Estadística. ................................. 9
1.4 Investigación Estadística. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4.1 Investigación Directa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4.2 Investigación Indirecta. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.5 Pasos en el planteamiento y ejecución de una investiga-
ción estadística. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.5.1 Formulación del problema específico de la investigación. . . . . . . . 13
1.5.2 Desarrollo de un método para la obtención de los datos. . . . . . . . 13
1.5.3 Recolección de los datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.5.4 Clasificación de los datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.5.5 Análisis Estadístico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.5.6 Presentación de los Resultados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.5.7 Interpretación de Resultados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.6 Fuentes y Recolección de Datos. . . . . . . . . . . . . . . . . . . . . . 16
1.6.1 Fuentes de Datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.6.2 Método de recolección de datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
vii
ÍNDICE GENERAL viii
1.6.3 Muestreo y Censo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.6.4 Diseño de muestreo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.7 Selección de una muestra. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.7.1 Tipos de muestreo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.8 Variables y Tipos de Variables. . . . . . . . . . . . . . . . . . . . . . . 22
1.8.1 Variable. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.8.2 Variables cualitativas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.8.3 Variables cuantitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.8.4 Escalas de Medida. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.9 Tipos de datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.9.1 Datos Cualitativos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.9.2 Datos Cuantitativos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
1.9.3 Datos cronológicos o de serie de tiempo. . . . . . . . . . . . . . . . . . . . . 28
1.10 Evaluación por competencias. . . . . . . . . . . . . . . . . . . . . . . . 28
1.10.1 Ejercicios de aplicación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2 DISTRIBUCIONES DE FRECUENCIAS.
32
2.1 Preliminares Matemáticos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.1.1 Sumatoria. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.1.2 Propiedades de la Sumatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.2 Distribuciones de Frecuencia. . . . . . . . . . . . . . . . . . . . . . . . . 38
2.3 Tipos de frecuencia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.4 Disitribución de frecuencia. . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.4.1 Distribución de frecuencias para datos cualitativos. . . . . . . . . . . . . 40
2.4.2 Distribución conjunta de dos variables cualitativas. . . . . . . . . . . . . 42
2.4.3 Distribución de frecuencias para datos cuantitativos. . . . . . . . . . . . 45
ÍNDICE GENERAL ix
2.5 Evaluación por competencias . . . . . . . . . . . . . . . . . . . . . . . . . 56
2.5.1 Ejercicios de aplicación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
2.5.2 Evaluando saberes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3 MEDIDAS DE
TENDENCIA CENTRAL. 62
3.1 Medidas de Tendencia Central. . . . . . . . . . . . . . . . . . . . . . . . 64
3.2 Media aritmética. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.2.1 Media para datos no agrupados. . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.2.2 Media para datos agrupados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.2.3 Propiedades de la media y desventajas de la media . . . . . . . . . . . 71
3.2.4 Media aritmética ponderada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
3.3 Mediana. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.3.1 Mediana para datos no agrupados. . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.3.2 Mediana para datos agrupados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
3.3.3 Ventajas y desventajas de la mediana. . . . . . . . . . . . . . . . . . . . . . . 83
3.4 Moda. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3.4.1 Moda para datos no agrupados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3.4.2 Moda para datos agrupados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3.4.3 Ventajas y desventajas de la moda. . . . . . . . . . . . . . . . . . . . . . . . . . 87
3.5 Fractiles: Cuartiles, Deciles y Percentiles. . . . . . . . . . . . 88
3.5.1 Cuartiles. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
3.5.2 Diagramas de cajas y bigotes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
3.5.3 Deciles. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
3.5.4 Percentiles. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
3.6 Evaluación por competencias . . . . . . . . . . . . . . . . . . . . . . . . . 97
ÍNDICE GENERAL x
3.6.1 Ejercicios de aplicación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
3.6.2 Evaluando saberes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
4 MEDIDAS DE
DISPERSIÓN. 123
4.1 Medidas de Dispersión. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
4.1.1 Rango. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
4.1.2 El rango Intercuartil. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
4.1.3 La varianza y la desviación típica. . . . . . . . . . . . . . . . . . . . . . . . . . 129
4.1.4 Varianza. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
4.1.5 Desviación estándar. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
4.1.6 Coeficiente de variación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
4.2 Evaluación por competencias . . . . . . . . . . . . . . . . . . . . . . . . 136
4.2.1 Ejercicios de aplicación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
4.2.2 Evaluando saberes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
5 MEDIDAS DE
APUNTAMIENTO Y
ASIMETRÍA. 139
5.1 Asimetría y Curtosis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
5.2 Asimetría. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
5.2.1 Coeficiente de asimetría de Fisher. . . . . . . . . . . . . . . . . . . . . . . . . 143
5.2.2 Coeficiente de asimetría de Pearson. . . . . . . . . . . . . . . . . . . . . . . . 145
5.2.3 Coeficiente de asimetría de Bowley. . . . . . . . . . . . . . . . . . . . . . . . 146
5.3 Curtosis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
ÍNDICE GENERAL xi
5.4 Evaluación por competencias . . . . . . . . . . . . . . . . . . . . . . . . 150
5.4.1 Ejercicios de aplicación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
5.4.2 Evaluando saberes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
6 CORRELACIÓN Y
REGRESIÓN LINEAL. 163
6.1 Correlación lineal y Regresión lineal simple. . . . . . . . 166
6.1.1 Correlación lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
6.1.2 Según un estudio estadístico las cigüeñas traen a los bebés. . . . 174
6.2 Regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
6.2.1 Rectas de regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
6.3 Evaluación por competencias . . . . . . . . . . . . . . . . . . . . . . . . 185
6.3.1 Ejercicios de aplicación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
6.3.2 Evaluando saberes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
7 TÉCNICAS DE
CONTEO. 187
7.1 Técnicas de Conteo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
7.1.1 Diagrama de Árbol. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
7.1.2 Factorial y Productoria. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
7.1.3 Regla Multiplicativa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
7.1.4 Permutación sin repeticiones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
7.1.5 Permutación con repeticiones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
7.1.6 Combinatoria sin repetición. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
7.1.7 Combinatoria con repetición. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
ÍNDICE GENERAL xii
7.2 Evaluación por competencias . . . . . . . . . . . . . . . . . . . . . . . . 204
7.2.1 Ejercicios de aplicación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204
7.2.2 Evaluando saberes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
7.2.3 Evaluación de Competencias Lectoras . . . . . . . . . . . . . . . . . . . . . . 205
8 PROBABILIDAD. 206
8.1 Probabilidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
8.1.1 Historia de la Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
8.1.2 Conceptos básicos de Probabilidad. . . . . . . . . . . . . . . . . . . . . . . . . 211
8.1.3 Definición de Probabilidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
8.1.4 Propiedades de la Probabilidad. . . . . . . . . . . . . . . . . . . . . . . . . . . 219
8.1.5 Cálculo de probabilidad usando Diagrama de árbol. . . . . . . . . . . 225
8.1.6 Construcción de un diagrama de árbol. . . . . . . . . . . . . . . . . . . . . . 225
8.1.7 Probabilidad condicional. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
8.1.8 Probabilidad Total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240
8.1.9 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247
8.1.10 ¿Qué es la ecuación de Drake?,¿ cuál es la probabilidad de encontrar
vida extraterrestre? y la Paradoja de Fermi. . . . . . . . . . . . . . . . . . . . . . . 252
8.2 Evaluación por competencias . . . . . . . . . . . . . . . . . . . . . . . . 254
8.2.1 Ejercicios de aplicación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254
8.2.2 Evaluando saberes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257
8.2.3 Evaluación de Competencias Lectoras . . . . . . . . . . . . . . . . . . . . . . 261
9 SCRIPTS EN R. 266
9.1 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267
1
1.1. CONCEPTOS BÁSICOS. 2
1. DEFINICIONES Y
CONCEPTOS BÁSICOS
Conseguimos obtener así la fórmula
estadística para conocer
aproximadamente la posición de un
electrón en un instante
determinado. Pero, personalmente,
no creo que dios juegue a los dados.
Albert Einstein
La frase de Albert Einstein ” Dios no juega a los dados con el universo ”, es uno
de los mejores ejemplos de muchos conceptos científicos y frases de célebres in-
vestigadores han pasado a formar parte de la cultura popular. La cita, sacada de
contexto, se emplea incluso como prueba de que el físico creía en divinidades, en
el destino o que mostraba así su rechazo a la teoría de la evolución de Darwin.
Argumentos de autoridad aparte, la historia tras estas palabras es bien diferente, y
ha suscitado gran cantidad de ensayos al respecto. "La mecánica cuántica es real-
mente imponente. Pero una voz interior me dice que aún no es la buena. La teoría
dice mucho, pero no nos aproxima realmente al secreto del ’viejo’. Yo, en cualquier
caso, estoy convencido de que Él no tira dados". Esa es la cita original en la que
Einstein emplea la metáfora por primera vez, en una carta dirigida a su amigo Max
Born. El físico le cogió el gusto a la frase, que repetiría sin cesar, para fastidio de
sus colegas, en años venideros. La metáfora de Einstein es sólo una crítica a la
mecánica cuántica que el físico alemán rechazaba.
1.1. Conceptos Básicos.
1.1.1. Origen y desarrollo de la estadística.
La palabra Estadística procede del vocablo “Estado”, pues era función princi-
pal de los Gobiernos de los Estados establecer registros de población, nacimien-
tos,defunciones, impuestos, cosechas... La necesidad de poseer datos cifrados sobre
Alfredo Yerman Cortes Verbel.
1.1. CONCEPTOS BÁSICOS. 3
la población y sus condiciones materiales de existencia han debido hacerse sentir
desde que se establecieron sociedades humanas organizadas.
Es difícil conocer los orígenes de la Estadística. Desde los comienzos de la
civilización han existido formas sencillas de estadística, pues ya se utilizaban re-
presentaciones gráficas y otros símbolos en pieles, rocas, palos de madera y paredes
de cuevas para contar el número de personas, animales o ciertas cosas.
Su origen empieza posiblemente en la isla de Cerdeña, donde existen monu-
mentos prehistóricos pertenecientes a los Nuragas, las primeros habitantes de la
isla; estos monumentos constan de bloques de basalto superpuestos sin mortero y
en cuyas paredes de encontraban grabados toscos signos que han sido interpreta-
dos con mucha verosimilidad como muescas que servían para llevar la cuenta del
ganado y la caza.
Hacia el año 3.000 a.C. los babilonios usaban ya pequeñas tablillas de arcilla
para recopilar datos en tablas sobre la producción agrícola y los géneros vendidos
o cambiados mediante trueque.
Los egipcios ya analizaban los datos de la población y la renta del país mucho
antes de construir la pirámides. En los antiguos monumentos egipcios se encontraron
interesantes documentos en que demuestran la sabia organización y administración
de este pueblo; ellos llevaban cuenta de los movimientos poblacionales y continua-
mente hacían censos. Tal era su dedicación por llevar simpre una relación de todo
que hasta tenían a la diosa Safnkit, diosa de los libros y las cuentas. Todo esto era
hecho bajo la dirección del Faraón y fue a partir del año 3050 a.C.
En la Biblia observamos en uno de los libros del Pentateuco, bajo el nombre de
Números, el censo que realizó Moisés después de la salida de Egipto. Textualmente
dice: Çenso de las tribus: El día primero del segundo año después de la salida
de Egipto, habló Yavpe a Moisés en el desierto de Sinaí en el tabernáculo de la
reunión, diciendo: "Haz un censo general de toda la asamblea de los hijos de Israel,
por familias y por linajes, describiendo por cabezas los nombres de todos los varones
aptos para el servicio de armas en Israel. En el llibro bíblico Crónicas describe el
bienestar material de las diversas tribus judías.
En China existían los censos chinos ordenados por el emperador Tao hacia el
año 2.200 a.C. Posteriormente, hacia el año 500 a.C., se realizaron censos en Roma
para conocer la población existente en aquel momento. Se erigió la figura del censor,
cuya misión consistía en controlar el número de habitantes y su distribución por
los distintos territorios.
En la Edad Media, en el año 762, Carlomagno ordenó la creación de un registro
de todas sus propiedades, así como de los bienes de la iglesia.
Después de la conquista normanda de Inglaterra en 1.066, el rey Guillermo I, el
Conquistador, elaboró un catastro que puede considerarse el primero de Europa.
Los Reyes Católicos ordenaron a Alonso de Quintanilla en 1.482 el recuento de
fuegos (hogares) de las provincias de Castilla.
Alfredo Yerman Cortes Verbel.
1.1. CONCEPTOS BÁSICOS. 4
En 1.662 un mercader de lencería londinense, John Graunt, publicó un tratado
con las observaciones políticas y naturales, donde Graunt pone de manifiesto las
cifras brutas de nacimientos y defunciones ocurridas en Londres durante el periodo
1.604-1.661, así como las influencias que ejercían las causas naturales, sociales y
políticas de dichos acontecimientos. Puede considerarse el primer trabajo estadístico
serio sobre la población.
Curiosamente, Graunt no conocía los trabajos de B. Pascal » (1.623-1.662) ni de C.
Huygens (1.629-1.695) sobre estos mismos temas. Un poco más tarde, el astrónomo
Edmund Halley (1.656- 1.742) presenta la primera tabla de mortalidad que se puede
considerar como base de los estudios contemporáneos. En dicho trabajo se intenta
establecer el precio de las anualidades a satisfacer a las compañías de seguros. Es
decir, en Londres y en París se estaban construyendo, casi de manera simultánea,
las dos disciplinas que actualmente llamamos estadística y probabilidad.
En el siglo XIX, la estadística entra en una nueva fase de su desarrollo con
la generalización del método para estudiar fenó menos de las ciencias naturales y
sociales. Galton » (1.822-1.911) y Pearson (1.857-1936) se pueden considerar como
los padres de la estadística moderna, pues a ellos se debe el paso de la estadí stica
deductiva a la estadística inductiva.
Los fundamentos de la estadística actual y muchos de los métodos de inferencia
son debidos a R. A. Fisher. Se intereso primeramente por la eugenesia, lo que le
conduce, siguiendo los pasos de Galton a la investigación estadística, sus trabajos
culminan con la publicación de la obra Métodos estadísticos para investigaciones.
En el aparece la metodología estadística tal y como hoy la conocemos.
A partir de mediados del siglo XX comienza lo que podemos denominar la esta-
dística moderna, uno de los factores determinantes es la aparición y popularización
de los computadores. El centro de gravedad de la metodología estadística se em-
pieza a desplazar técnicas de computación intensiva aplicadas a grandes masas de
datos, y se empieza a considerar el método estadístico como un proceso iterativo
de búsqueda del modelo ideal
Las aplicaciones en este periodo de la Estadística a la Economía conducen a
una disciplina con contenido propio: la Econometría. La investigación estadística en
problemas militares durante la segunda guerra mundial y los nuevos métodos de
programación matemática, dan lugar a la Investigación Operativa.
Estado actual.
Durante el siglo XXI, la creación de instrumentos precisos para asuntos de salud
pública (epidemiología, bioestadística, etc.) y propósitos económicos y sociales (tasa
de desempleo, econometría, etc.) necesitó de avances sustanciales en las prácticas
estadísticas.
Alfredo Yerman Cortes Verbel.
1.1. CONCEPTOS BÁSICOS. 5
Figura 1.1: Tomado de De Leon, M. (2020, octubre 3). Las matemá-
ticas de Mafalda (homenaje a Quino). Matemáticas y sus fronteras.
[Link]
Hoy el uso de la estadística se ha extendido más allá de sus orígenes como un
servicio al Estado o al gobierno. Personas y organizaciones usan la estadística para
entender datos y tomar decisiones en ciencias naturales y sociales, medicina, nego-
cios y otras áreas. La estadística es entendida generalmente no como un sub-área
de las matemáticas sino como una ciencia diferente «aliada». Muchas universidades
tienen departamentos académicos de matemáticas y estadística separadamente. La
estadística se enseña en departamentos tan diversos como psicología, educación y
salud pública.
Al aplicar la estadística a un problema científico, industrial o social, se comienza
con un proceso o población a ser estudiado. Esta puede ser la población de un país,
de granos cristalizados en una roca o de bienes manufacturados por una fábrica en
particular durante un periodo dado. También podría ser un proceso observado en
varios ascos instantes y los datos recogidos de esta manera constituyen una serie
de tiempo.
Por razones prácticas, en lugar de compilar datos de una población entera, usual-
mente se estudia un subconjunto seleccionado de la población, llamado muestra.
Datos acerca de la muestra son recogidos de manera observacional o experimental.
Los datos son entonces analizados estadísticamente lo cual sigue dos propósitos:
descripción e inferencia.
El concepto de correlación es particularmente valioso. Análisis estadísticos de
un conjunto de datos puede revelar que dos variables (esto es, dos propiedades de
la población bajo consideración) tienden a variar conjuntamente, como si hubiera
una conexión entre ellas. Por ejemplo, un estudio del ingreso anual y la edad de
muerte podría resultar en que personas pobres tienden a tener vidas más cortas que
personas de mayor ingreso. Las dos variables se dicen que están correlacionadas.
Sin embargo, no se puede inferir inmediatamente la existencia de una relación de
causalidad entre las dos variables. hoy por hoy la Inteligencia Artificial, la Big Data,
Alfredo Yerman Cortes Verbel.
1.2. USOS DE LA ESTADÍSTICA. 6
Machine learning, son campos de aplicación crecientes de la estadística; estos los
tocaremos con algo de detalle más adelante.
1.2. Usos de la estadística.
Los métodos estadísticos tradicionalmente
se utilizan para propósitos descriptivos, para or-
ganizar y resumir datos numéricos. La estadísti-
ca descriptiva, por ejemplo trata de la tabulación
de datos, supresentación en forma gráfica o ilus-
trativa y el cálculo de medidas descriptivas. Aho-
ra bien, las técnicas estadísticas se aplican de
manera amplia en mercadotecnia, contabilidad,
control de calidad y en otras actividades; estu-
dios de consumidores; análisis de resultados en
deportes; administradores de instituciones; en la
educación; organismos políticos; médicos; y por
otras personas que intervienen en la toma de
decisiones.
El acelerado desarrollo de la estadística du-
rante los últimos años a llegado hasta el punto
de incursionar en la totalidad de las ciencias y
de otros campos no científicos, algunos ejemplos
de estos son: establecer cuál de varios procedi-
mientos o tratamientos es el mejor probarse una
droga es más efectiva que otraen el tratamien-
to de una enfermedad ; elaborar modelos acerca
del comportamiento del inventario de una mate-
ria prima, para determinar el tamaño óptimo del
lote que se requiere pedir, y lapsos de reaprovi-
sionamiento; realizar estudios de colas en ban-
cos o en un supermercado con el propósito de
establecer el número de cajas que se requieren
para atender a los clientes, esclarecer la pater-
Figura 1.2: Tomado de MR. LO-
nidad de un escrito o los caracteres más rele-
VENSTEIN. (2019). Mr. Lovens-
vantes de un idioma.
tein | Kowabunga. [Link]
Los anteriores son algunos ejemplos que
[Link]/comic/608
pueden ser aplicados en campos tan diversos
como la Ingeniería, la Medicina, la Administra-
ción. Pero todos tienen en común un hecho : se acude al estudio de algunos casos,
Alfredo Yerman Cortes Verbel.
1.2. USOS DE LA ESTADÍSTICA. 7
una muestra, con el fin de realizar generalizaciones para ayudar en la toma de
decisiones, y justamente, el Administrador de Empresas es el profesional que fre-
cuentemente se enfrenta a la toma de decisiones, pues tiene diferentes alternativas
entre las cuales debe elegir con el propósito de maximizar la administración empre-
sarial. En el estudio de administración de salarios, la Investigación de Operaciones,
en el Control de calidad, en la investigación de mercados, en comercialización son
campos en los cuales el administrador de empresas se suele mover frecuentemente
y en los cuales sus conocimientos son necesarios para inferir y predecir lo que va
a ocurrir; por lo tanto la estadística se convierte en la herramienta fundamental a
la hora de tomar decisiones de importancia.
Además de las anteriores consideraciones, la Estadística como ciencia de origen
Matemático le ayudará en la obtención de un proceso de racionamiento lógico en la
organización de conjuntos de datos numéricos que le permitirán con mayor eficiencia
enfrentar decisiones en su vida estudiantil o profesional.
Dentro de este contexto, es entonces, que la Estadística se considera una po-
derosa herramienta que le permitirá utilizar procedimientos y técnicas necesarias
como soporte de la toma de decisiones a nivel empresarial.
Inteligencia artificial (IA) - Datos estadísticos.
Inteligencia artificial (IA) es un termino acuñado por el profesor de Stanford John
McCarthy en 1956, para denominar a la disciplina informática que trata de crear
sistemas capaces de aprender y razonar como un ser humano. Tradicionalmente
ha sido objeto de muchas películas de ciencia ficción, pero su presencia ya no se
limita a las pantallas de cine, sino que actualmente forma parte del día a día de las
personas. Gracias a ella, las máquinas pueden realizar diversas tareas "humanas",
desde conducir automóviles hasta proporcionar todo tipo de asistencia virtual. De
hecho, la IA y los robots ya se utilizan ampliamente a nivel industrial y se prevé
que su uso se extienda a casi todas todas las áreas de la vida cotidiana durante los
próximos años. La relación entre las estadísticas y la inteligencia artificial es fuerte
y profunda.
Muchas de las ideas fundamentales que han impulsado el campo de la estadísti-
ca en los últimos 70 años se han desarrollado como resultado de las contribuciones
a la inteligencia artificial.
Gran parte de la investigación que se ha llevado a cabo para construir sistemas
de inteligencia artificial se ha centrado en el desarrollo de estrategias para tomar
decisiones de algún [Link] requiere estimar cantidades, evaluar alternativas,
elegir entre múltiples posibilidades, etc.
Cada una de estas tareas es un problema estadístico en su esencia, y es natu-
ral que las herramientas que los estadísticos han desarrollado para abordar estos
problemas sean útiles para construir sistemas de IA.
Alfredo Yerman Cortes Verbel.
1.2. USOS DE LA ESTADÍSTICA. 8
La estadística y la IA tienen una larga historia de integración. A medida que la
IA crece en importancia, también lo hace la necesidad de profesionales que puedan
desarrollar modelos de datos y realizar análisis estadísticos de los mismos.
La ciencia de los datos, el aprendizaje automático y la IA se basan en la esta-
dística para proporcionar información valiosa que puede ayudar a las empresas y
a los gobiernos a operar de manera más eficiente y eficaz. El uso más común de la
inteligencia artificial es la estadística. Hay dos tipos de estadísticas: descriptiva e
inferencial. La estadística descriptiva se utiliza para describir las principales carac-
terísticas de una colección de información, como la media o la desviación estándar y
la estadística inferencial utiliza el análisis de datos para inferir propiedades sobre
una población que se está estudiando.
Cuando se trabaja con grandes cantidades de datos, resulta tedioso y lento
realizar el análisis estadístico a mano, la inteligencia artificial puede utilizarse
para realizarlo en muy poco tiempo y producir resultados muy precisos y útiles.
Hay dos formas de utilizar la IA para la estadística: el aprendizaje automático
y el análisis predictivo. El aprendizaje automático consiste en crear un algoritmo
que aprende de su propia experiencia, lo que le permite hacer predicciones con una
precisión mayor que la que podría alcanzar un ser humano y el análisis predictivo
consiste en tomar el resultado de un algoritmo de aprendizaje automático y utili-
zarlo para hacer predicciones sobre eventos futuros utilizando datos históricos. El
objetivo principal de la IA es hacer que las máquinas entiendan y piensen de forma
lógica como lo hacen los humanos; para hacerlas inteligentes y más parecidas a los
humanos, se necesitan algoritmos de IA que puedan aprender de la experiencia y
adaptarse a nuevas situaciones y circunstancias. Por ello, la IA necesita de la esta-
dística, ya que nos ayuda a juzgar cualquier decisión que deba tomar la máquina,
basándose en los datos disponibles.
La estadística es una rama de las matemáticas que se ocupa de la recogida,
clasificación, análisis, interpretación y presentación de datos, a menudo se describe
como la ciencia que se ocupa de recoger y analizar datos para ayudar a tomar
decisiones cuando hay incertidumbres; las incertidumbres pueden surgir de la falta
de información o de las ambigüedades de la información disponible. La estadística
proporciona métodos para tratar estas incertidumbres.
La estadística no sólo es útil para apoyar los proyectos de IA, sino que es
fundamental para su éxito. Los profesionales deben entender cómo construir modelos,
aplicarlos e interpretar los resultados que generan. Muchas empresas se benefician
del uso de técnicas de análisis de datos como la inteligencia artificial.
Los siguientes son algunos ejemplos:
Las empresas de comercio electrónico como Amazon utilizan sofisticados algo-
ritmos de recomendación para sugerir productos a los compradores en función
de su historial de búsqueda y sus patrones de compra.
Alfredo Yerman Cortes Verbel.
1.3. DEFINICIÓN DE ESTADÍSTICA. 9
Los anunciantes utilizan algoritmos avanzados para determinar qué consumi-
dores tienen más probabilidades de hacer clic en sus anuncios y gastar dinero
en productos o servicios.
Utilizan esta información para desarrollar campañas de marketing más eficaces y
dirigir los anuncios a grupos demográficos específicos.
Los especialistas en marketing realizan análisis de regresión en bases de
datos que contienen miles de características demográficas para identificar los
rasgos comunes entre las personas que tienen más probabilidades de comprar
un producto o servicio.
Los funcionarios de la sanidad pública utilizan algoritmos de aprendizaje au-
tomático para detectar signos de brotes de enfermedades en la población más
rápido de lo que los humanos pueden hacerlo manualmente.
1.3. Definición de estadística.
Definición 1.1: Estadística
La Estadística es la ciencia cuyo objetivo es reunir una información cuan-
titativa concerniente a individuos, grupos, series de hechos, etc. y deducir
de ello gracias al análisis de estos datos unos significados precisos o unas
previsiones para el futuro. La estadística, en general, es la ciencia que trata
de la recopilación, organización presentación, análisis e interpretación de
datos numéricos con el fin de realizar una toma de decisión más efectiva.
Los estudiantes confunden comúnmente los demás términos asociados con las
Estadísticas, una confusión que es conveniente aclarar debido a que esta palabra
tiene tres significados: la palabra estadística, en primer término se usa para referirse
a la información estadística; también se utiliza para referirse al conjunto de técnicas
y métodos que se utilizan para analizar la información estadística; y el término
estadístico, en singular y en masculino, se refiere a una medida derivada de una
muestra.
1.3.1. División de la Estadística.
La Estadística para su mejor estudio se ha dividido en dos grandes ramas: la
Estadística Descriptiva y la Inferencial.
Alfredo Yerman Cortes Verbel.
1.4. INVESTIGACIÓN ESTADÍSTICA. 10
Estadística Descriptiva:
Definición 1.2: Estadística Descriptiva
Consiste sobre todo en la presentación de datos en forma de tablas y grá-
ficas. Esta comprende cualquier actividad relacionada con los datos y está
diseñada para resumir o describir los mismos sin factores pertinentes adi-
cionales; esto es, sin intentar inferir nada que vaya más allá de los datos,
como tales.
Estadística Inferencial:
Definición 1.3: Estadística Inferencial
Se deriva de muestras, de observaciones hechas sólo acerca de una parte de
un conjunto numeroso de elementos y esto implica que su análisis requiere
de generalizaciones que van más allá de los datos. Como consecuencia, la
característica más importante del reciente crecimiento de la estadística ha
sido un cambio en el énfasis de los métodos que describen a métodos que
sirven para hacer generalizaciones. La Estadística Inferencial investiga o
analiza una población partiendo de una muestra
1.4. Investigación Estadística.
1.4.1. Investigación Directa.
Es aquella en que el investigador observa directamente los casos o individuos
en los cuales se produce el fenómeno, entrando en contacto con ellos; sus resulta-
dos se consideran datos estadísticos originales, por esto se llama también a ésta
Investigación Primaria. Se divide a su vez en exhaustiva o completa, y parcial o in-
completa. Son exhaustivas, aquellas que estudian todos los elementos que integran
el universo, todas sus características o las necesarias para describir totalmente la
población estudiada. Son investigaciones parciales o incompletas, cuando tan sólo
se estudia un número limitado de los casos individuales que forman el universo
o cuando se estudian algunas manifestaciones del fenómeno que no lo describen
totalmente; se utiliza este tipo de investigación cuando es imposible el estudio del
fenómeno en forma completa. Este tipo de investigación puede ser representativa y
no representativa, estamos en el primer caso, cuando las manifestaciones del fenó-
meno estudiado no son suficientes y necesarias para describir el fenómeno;en caso
Alfredo Yerman Cortes Verbel.
1.4. INVESTIGACIÓN ESTADÍSTICA. 11
Figura 1.3: Mentefacto sobre conceptos de la estadística
Alfredo Yerman Cortes Verbel.
1.4. INVESTIGACIÓN ESTADÍSTICA. 12
contrario, caemos dentro de las no representativas. En la Investigación Represen-
tativa, a la parte o modalidades estudiadas del fenómeno, se denominan muestras;
es decir, no son sino la aplicación de la Estadística Inductiva a la Investigación
Estadística.
1.4.2. Investigación Indirecta.
Son aquellas en que el investigador se sirve de informaciones indirectas, de
resultados o cálculos de investigaciones anteriores o en base de los conocimien-
tos que tenga el investigador del fenómeno por experiencias [Link] dividen
estas investigaciones en conjeturas (estimaciones) y secundarias. La investigación
conjetural es aquella que en base a conocimientos parciales,opiniones y cálculos,
proporciona resultados primarios de valor práctico; este tipo de investigación pre-
senta el inconveniente de que, dado el carácter subjetivo de estos conocimientos y
opiniones, se pueden obtener resultados diferentes utilizando varios investigadores
para el estudio de un mismo fenómeno. La investigación secundaria es aquella que
se efectúa por reagrupaciones oreelaboraciones de resultados de otras investiga-
ciones; tiende a su favor este tipode investigación, que el costo y trabajo queda
notablemente reducido. La investigación indirecta conjetural puede ser: por aproxi-
mación, por analogía y por proporción. Por aproximación, es aquella basada en el
convencimiento que sobre el fenómenotiene el investigador, ya sea por experiencia
o por resultados anteriormenteobtenidos. Los datos que se obtienen en esta inves-
tigación serán siempre aproximados al aplicarlos al fenómeno que se estudia, pero
sirven para tener una idea general del mismo. Por analogía, son aquellas basadas
en el estudio de uno o varios fenómenos que guardan cierta semejanza con el fenó-
meno a investigar, determinándose ciertas modalidades y características de dicho
fenómeno por procedimientos inductivos. La investigación conjetural por proporción,
puede hacerse de parte a todo o de unhecho a otro; en el primer caso, se observa
una parte del fenómeno y sin mayor rigor se aplica a todo el fenómeno; en el caso
de un hecho a otro, se relacionandos o más hechos y a través del conocimiento de
uno de ellos se determinan lasmodalidades de los otros. Es conveniente advertir
el peligro que representa para las investigaciones científicas el empleo de estas
conjeturales, por parte de aquellos que no dominan el uso de los métodos estadísti-
cos; ya que llegarían a resultados y conclusiones que tendrían muy poco grado de
exactitud.
Alfredo Yerman Cortes Verbel.
1.5. PASOS EN EL PLANTEAMIENTO Y EJECUCIÓN DE UNA INVESTIGACIÓN
ESTADÍSTICA. 13
1.5. Pasos en el planteamiento y ejecución de una investi-
gación estadística.
Es necesario advertir que los pasos que se van a enumerar se refieren a la
investigación directa por ser ésta la investigación estadística por excelencia; además,
el orden en que se mencionarán estos datos no es necesariamente inmodificable, ya
que en la práctica se sobreponen o se invierten, todo ello en relación al fenómeno
que se estudia. El planteamiento y ejecución de la investigación estadística abarca
los siguientespuntos:
1. Formulación del problema específico de la investigación.
2. Desarrollo de un método para la obtención de los datos.
3. Recolección de los datos.
4. Clasificación de los datos.
5. Análisis estadístico.
6. Presentación de los resultados.
7. Interpretación de los resultados.
1.5.1. Formulación del problema específico de la investigación.
Encierra este paso la definición del fenómeno y la finalidad de la investigación.
Es natural que sea la definición del fenómeno lo primero a realizar, ya que se
debesaber qué es lo que se trata de conocer antes de comenzar a investigarlo. En
lo que se refiere a la finalidad de la investigación, debe hacerse una clara exposición
de la misma, persiguiendo en cuanto sea posible fines utilitarios y científicos.
1.5.2. Desarrollo de un método para la obtención de los datos.
Tiene esta fase un carácter subjetivo, ya que en él se necesita del esfuerzo crea-
tivo y constructivo del investigador; ya sea para el estudio de los antecedentes o
experiencias similares hechas sobre el tema de la investigación, que para la deter-
minación de las posibilidades y recursos con que se cuenta opara la recolección
de los nuevos datos. El estudio de los antecedentes y experiencias similares es
de una gran ayuda al investigador, ya que de esta manera se pueden mejorar los
procedimientos autilizar y se prevé las dificultades que puedan presentarse en la in-
vestigación;además se pueden utilizar los datos de esas experiencias para completar
ocomprobar los obtenidos. En lo que se refiere a la determinación de las posibili-
dades y recursos con que se cuenta para llevar a cabo la investigación,representa
Alfredo Yerman Cortes Verbel.
1.5. PASOS EN EL PLANTEAMIENTO Y EJECUCIÓN DE UNA INVESTIGACIÓN
ESTADÍSTICA. 14
algo esencial dentro del planteamiento de la investigación; ya que son estas posi-
bilidades o recursos que se traducen en tiempo, dinero, persona,materias, etc. las
que limitan el alcance y contenido de la investigación. Sería lamentable que por no
haber previsto estas limitaciones se deba en un momento determinado terminar la
investigación sin haber logrado su finalidad.
1.5.3. Recolección de los datos.
Es el punto más importante dentro de la investigación estadística. En dicho
pasonos proveeremos de los datos necesarios para llegar a conclusiones sobre el-
fenómeno investigado; de allí que deba tenerse la Recolección de Datos como el fin
supremo del planeamiento y ejecución de una investigación estadística. Previo a la
recolección propiamente de los datos, se debe hacer la determinacióndel Universo
Estadístico, de la unidad de la investigación y del momentoestadístico, así como la
elaboración del cuestionario. El Universo Estadístico consiste en fijar cuáles son
los casos individuales que vana ser observados, así como el alcance en el espacio
y en el tiempo de lainvestigación. La unidad de la investigación la constituyen los
casos individuales que se estudian en la investigación a través de los cuales se
llega a laobservación del fenómeno. El momento estadístico es el instante o período
a quese van a referir los datos individuales; entendiéndose por datos individuales
lasdiferentes modalidades que toman los caracteres que constituyen la unidad de
investigación. La elaboración del cuestionario, consiste en preparar una lista de las
preguntascuyas respuestas proporcionarán los [Link] todos estos puntos se
está en condición de realizar el trabajo en elterreno, cuando se realiza la investiga-
ción por primera vez. En caso que se deban utilizar datos ya recolectados, se toman
de los registros y se investiga la forma enque fueron recolectados, para comprobar
la veracidad de ellos.
1.5.4. Clasificación de los datos.
Después que los datos han sido recolectados, éstos se presentan en su forma
primaria sin ninguna organización, lo que hace imposible el análisis de ellos; encon-
secuencia, se hace necesario clasificar estos datos; clasificación que se lleva aefecto
a través de la revisión, el agrupamiento y tabulación de los [Link] la revi-
sión en la inspección de los formularios y de los registros donde sehan reunido los
datos para corregir los errores, las respuestas ilógicas y encontrarlas omisiones; el
resultado de esta revisión debe ser: aprobación, rechazo odevolver el cuestionario al
empadronador para su terminació[Link] significa volcar en una sola hoja
todos los datos contenidos en loscuestionarios separados. Tabulación, se define co-
mo el listado de los datos enclases. Todo este proceso puede realizarse de acuerdo
a la magnitud de lainvestigación en forma manual, semi mecánica o mecánica
Alfredo Yerman Cortes Verbel.
1.5. PASOS EN EL PLANTEAMIENTO Y EJECUCIÓN DE UNA INVESTIGACIÓN
ESTADÍSTICA. 15
1.5.5. Análisis Estadístico.
Después de hacer una clasificación lógica de los datos, éstos se encuentran
en condiciones de ser analizados desde el punto de vista estadístico. Es en este
pasodonde el profesional de la Estadística (estadístico o estadígrafo), tiene su mayor
función, ya que se van a calcular todas las medidas de los métodos descriptivos
einductivos, simples y complejos. En resumen, en este paso al conjunto de los datos
obtenidos a través de la recolección se condensan, se estiman sus medidas en
función del universo total,se determinan sus relaciones y se prueban hipótesis.
1.5.6. Presentación de los Resultados.
Tiene este punto un carácter que podemos llamar publicitario, ya que en él
sepresenta al público no conocedor científicamente del fenómeno, los resultadosob-
tenidos. Esta presentación, puede hacerse en la siguiente forma: textual através de
letras y símbolos algebraicos, tabular o semi tabular a través de loscuadros es-
tadísticos, gráfica a través de esquemas y diagramas, y finalmente, por medio de
modificaciones de la forma gráfica, como son las formas pictóricas y los mapogra-
mas (mapas estadísticos). En la presentación de los resultados debe considerarse
en lo posible hacia quienes va dirigido, tratando siempre de elegir la forma más
comprensible y efectiva.
1.5.7. Interpretación de Resultados.
Consiste en traducir las medidas estadísticas obtenidas en lenguaje relativo al
fenómeno o hecho estudiado; de allí que se necesite al Estadígrafo o al científico
de la materia a que se refiera la investigación; es este último el que interpretará lo
hallado o emitirá principios, leyes, etc., sobre el problema investigado.
Figura 1.4: Tomado de Watterson, B. (1985, diciembre 2). Calvin
and Hobbes by bill Watterson for December 02, 1985. GoComics.
[Link]
Alfredo Yerman Cortes Verbel.
1.6. FUENTES Y RECOLECCIÓN DE DATOS. 16
1.6. Fuentes y Recolección de Datos.
1.6.1. Fuentes de Datos.
Los datos necesarios para la investigación estadística pueden obtenerse a tra-
vésde diferentes fuentes: primarias y secundarias, oficiales y privadas. Son fuentes
primarias, la persona o institución que ha recolectado los datos, ysecundarias si
la persona o agencia que ha publicado los datos no es la que ha efectuado la
investigación. La fuente primaria más notable y de mayor utilización en todos los
países, es la encargada de publicar los datos relativos a los Censos Nacionales;
en la práctica, es aconsejable el utilizar fuente de datos primarios; sin embargo,
de acuerdo a lanaturaleza del fenómeno, si no es posible la utilización de fuen-
tes primarias, seaconseja utilizar las secundarias, siempre y cuando la oficina que
las publiquetenga suficiente solvencia técnica. Cuando los datos son provistos por
cualquiera dependencia gubernamental, se llaman fuentes oficiales; los provistos
por agencia, personas, organizaciones. etc., no gubernamentales, son fuentes priva-
das. Sobre estos dos tipos de fuentes no sepuede dar prioridad de una sobre otra; si
acaso, se recomiendan como utilizables las estadísticas demográficas que practican
los institutos oficiales.
1.6.2. Método de recolección de datos.
Algunas formas en que se puede hacer recolección de datos es a través de:
a) Entrevista personal.
b) Cuestionario por correo.
c) Entrevista por teléfono.
d) Observación directa.
La entrevista personal consiste en enviar un entrevistador directamente al in-
vestigado, formulándole aquél las preguntas necesarias en la investigación. Este
procedimiento permite obtener una información más consistente y con un mayor
número de respuestas, ya que las preguntas pueden hacerse con mayor detalle,
además se puede comprobar la veracidad de las respuestas por medio de la apre-
ciación personal por parte del investigador y corregir ciertos errores quesucedan
en la primera visita a través de una segunda visita al entrevistado. Otra ventaja
muy importante de la entrevista personal es la posibilidad que tiene el investigador
de adaptar el lenguaje de las preguntas a la capacidad o nivel intelectual de las
Alfredo Yerman Cortes Verbel.
1.6. FUENTES Y RECOLECCIÓN DE DATOS. 17
personas interrogadas. Como limitaciones de este método, podemos mencionar su
alto costo, lo que muchas veces hace impracticable la investigación, ya que en inves-
tigaciones extensas se necesita un gran número de agentes, a lo que es necesario
dar una preparación especial y vigilar en el momento de la recolección para que
no vayan a tergiversar las respuestas; naturalmente, todas estas operaciones enca-
recen altamente la investigación. El método del cuestionario por correo consiste en
enviar por esa vía a las personas que se va a investigar la lista de preguntas, con
las instrucciones necesarias. En algunos casos la distribución se hace a través de
agentes, cuya única función es dejarlo a las personas investigadas.
Las ventajas que presenta este mé-
todo consisten en que el costo se re-
duce enormemente en relación al méto-
do anterior. Sin embargo esta forma de
recolección de presenta graves incon-
venientes; uno de ellos es que sólo un
porcentaje bastante bajo de los cues-
tionarios enviados son devueltos; en la
práctica, el porcentaje por promedio que
se devuelve es de un 10 %. Otro inconve-
niente consiste en no poder garantizar
que efectivamente los formularios hayan
sido recibidos por las personas que se
encuentran encapacidad de dar la in-
formación solicitada, lo que trae consi-
go una serie de errores en los resulta-
dos, errores que son imposibles rectifi-
Figura 1.5: Meme; intuición, opinión y es- car por no tener prueba para verificar la
tadística exactitud o sinceridad de las respues-
tas. Cuando se utiliza este sistema es
aconsejable adjuntar una hoja de instrucción, en la cual todas las preguntas se en-
cuentran ampliamente explicadas, para evitar las interpretaciones erróneas de las
mismas por parte del entrevistado. La aparente ventaja de mayor tiempo y como-
didad para responder las preguntas,puede resultar una desventaja cuando no son
devueltos oportunamente los cuestionarios repartidos, lo que alarga el tiempo y la
duración de la investigación. La entrevista por teléfono consiste en telefonear al
entrevistado y formularle las preguntas necesarias. Este sistema tiene la ventaja
de que se logra realizar la investigación en un tiempo relativamente corto, además,
presenta un costo bajo porque la preparación e inspección de los entrevistadores
es fácil.
Cuando se trata de una investigación muestral, la repartición geográfica de las
muestras es sencilla; sin embargo, esta muestra no es casi siempre representativa.
Alfredo Yerman Cortes Verbel.
1.6. FUENTES Y RECOLECCIÓN DE DATOS. 18
Las limitaciones que presenta se refieren, a que el número de preguntas que se
formula son reducidas, y no existe forma de descubrir las respuestas falsas. En la
observación directa se recogen los datos y elementos de juicio a través de agentes
especializados directamente sobre el terreno, sin formular ningún tipo depregunta.
Este método puede dar resultados aceptables y objetivos siempre quese logre eli-
minar la faceta humana y subjetiva del entrevistador; para ello esnecesario contar
con personal especializado y conocedor del fenómeno, capaz deinterpretar los as-
pectos que interesan del fenómeno, capaz de interpretar losaspectos que interesan
del fenómeno y por último puede traducirse en unadesventaja, por ser muy difícil
encontrar el suficiente personal competente y recopilar todos los datos que requiere
la investigación. Cabe observar, que en muchas investigaciones se combinan algu-
nos de los métodos de recolección ya mencionados; esto las hace más completas y
permiteobtener un mayor número de datos con un alto porcentaje de veracidad
1.6.3. Muestreo y Censo.
Una muestra usualmente comprende el estudio de una parte de los elementos
de una población, mientras que el censo consiste en estudiar todos los elementos
de ésta.
En teoría puede ser más conveniente estudiar la población completa, en la prác-
tica ocurre todo lo contrario: es mejor realizar un muestreo que un censo,
Las principales razones para realizar un muestreo son:
La población teóricamente puede ser infinita, en cuyo caso sería imposible
realizar un censo.
Una muestra puede ser más oportuna que un censo. Cuando se requiere rápi-
damente información sobre una población, su estudio completo puede requerir
tanto tiempo que su utilidad sería poca. También puede darse el caso de que
ciertas poblaciones tienden a cambiar rápidamente con el tiempo, por ejemplo
la mayoría de los estudios de opinión requieren hacerse durante un tiempo
muy corto.
En algunos casos el estudio de los elementos requieren la utilización de en-
sayos destructivos.
El costo de efectuar un censo suele ser muy alto.
La exactitud puede verse afectada cuando se realiza un censo de una población
grande. Cuando es necesario procesar gran cantidad de datos es posible que
se introduzcan errores no deseables.
Se puede realizar una mejor planeación y controlen el diseño de la investi-
gación.
Alfredo Yerman Cortes Verbel.
1.7. SELECCIÓN DE UNA MUESTRA. 19
Se puede realizar un estudio más detallado sobre la población.
Sin embargo, pueden existir algunas circunstancias que hacen más ventajoso la
utilización de un censo, por ejemplo:
Cuando la población de interés sea tan pequeña que un costo y tiempo adi-
cional en el estudio de la población esté plenamente justificado.
Si el tamaño de la muestra requerido es relativamente grande comparado con
el tamaño de la población.
Si se requiere una exactitud completa en la información, el censo sería la
única vía de obtenerla.
1.6.4. Diseño de muestreo.
El diseño de un estudio por muestro comprende:
1. Establecer detalladamente cuál es la población de interés, de tal manera que
se pueda establecer si un elemento pertenece o no a ella, esto dependerá de
los objetivos que persiga el estudio.
2. Establecer los parámetros de interés, es decir las medidas de la población
que nos interesa estimar o contrastar.
3. Seleccionar el marco de muestreo. El marco de muestreo es una lista o algún
procedimiento que permite identificar todos los elementos de la población.
4. Determinar el tipo de muestreo que se utilizará, es decir qué procedimiento
aleatorio se utilizará para seleccionar los elementos de la muestra.
5. Establecer el tamaño de muestra que será necesaria.
6. Análisis de los datos.
1.7. Selección de una muestra.
Al seleccionar una muestra, debemos tener presente que la muestra no nos
proporcionará información completa sobre una población. La diferencia entre un
valor real del parámetro en la población y el valor estimado a partir de la muestra
para ese parámetro se llama error de muestreo. Este error siempre estará presente
en el muestreo pero puede ser controlado mediante un buen diseño del muestreo:
selección de un adecuado tamaño de muestra y utilización del tipo de muestreo que
sea más adecuado para la población bajo estudio.
Alfredo Yerman Cortes Verbel.
1.7. SELECCIÓN DE UNA MUESTRA. 20
Sin embargo, en cualquier estudio tendremos otro tipo de error que se puede
introducir y es llamado error de no muestreo, que principalmente se debe a:
Imposibilidad de localizar a los informantes.
Negativa de los informantes a dar las repuestas.
Malas respuestas intencionales de los informantes.
Dificultad de los informantes en recordar las respuestas.
Mal entendimiento de las preguntas debido a una deficiente redacción de
ellas,
Manipulación por parte del entrevistador.
Errores de anotación por parte del entrevistador.
Errores en la codificación o procesamiento de la información.
Estos errores pueden ser minimizados a través de un buen diseño del proyecto de
investigación. La utilización de una PRUEBA PILOTO puede ser un buen instrumento
para corregir algunos de estos errores de no muestreo
1.7.1. Tipos de muestreo.
Existen dos tipos básicos de muestreo: El muestreo No probabilístico y el mues-
treo probabilístico.
El muestreo no probabilístico.
Llamado también muestreo circunstancial se caracteriza por que los elementos
a ser incluidos en la muestra no tienen especificada una probabilidad o ella no se
conoce, si la tienen, de ser incluidos en la muestra y por que el error de muestreo
no puede ser medido. Los principales tipos de muestreo no probabilístico son:
Muestreo por conveniencia :
En el cual se deja la selección de los elementos primordialmente a los entre-
vistadores. En general, los elementos se seleccionaran por su facilidad de acceso o
su conveniencia.
Muestreo por criterio :
Implica seleccionar los elementos que a juicio de quien selecciona la muestra
sean los más representativos de la población.
Alfredo Yerman Cortes Verbel.
1.7. SELECCIÓN DE UNA MUESTRA. 21
Muestreo por cuota :
Un muestreo muy utilizado en investigación de mercados, cuando se desea te-
ner algún conocimiento sobre la opinión de un grupo de consumidores potenciales
sobre un determinado producto. Lamuestra se estructura de tal manera que incluya
números específicos de elementos con características que se sabe o se cree que
afectan el tema de investigación.
A pesar de las dificultades teóricas que presenta el muestreo no probabilísti-
co, principalmente por el hecho de no poder ser utilizado para realizar inferencias,
es extensamente utilizado en investigación de mercados en estudios de tipo ex-
ploratorio, prueba de productos, entrevistas por detención en centros comerciales,
discusiones de grupo, panel de consumidores. Pero un cuidadoso diseño de una
muestra no probabilístico puede generar resultados satisfactorios.
Muestreo probabilístico.
En el muestro probabilístico los elementos son seleccionados por cualquier pro-
cedimiento de azar, teniendo cada muestra posible una probabilidad conocida de ser
seleccionada. Sus resultados pueden ser utilizados para realizar inferencias sobre
los parámetros poblacionales, y además, es posible medir el error de muestreo. Los
principales tipos de muestreo probabilísticos son:
Muestreo aleatorio Simple :
Es el tipo más sencillo de muestreo probabilístico y base para los otros tipos
de muestreo probabilísticos. Se utiliza en poblaciones cuyos elementos son homo-
géneos en las características de interés. Cuando los elementos son homogéneos
(presentan una varianza pequeña), la muestra tiende a ser representativa de la
población. Los elementos son seleccionados mediante cualquier procedimiento de
azar.
Muestreo aleatorio estratificado :
Se utiliza cuando la población en estudio presenta gran heterogeneidad en sus
características. Los elementos se separan formando subgrupos (llamados estratos),
de tal forma que cada uno de los estratos presente homogeneidad interna, pero
que presenten gran heterogeneidad con respecto a los demás estratos. En general,
en el muestreo estratificado se requiere la utilización de una variable auxiliar para
realizar la estratificación. La muestra, entonces, se toma de cada uno de los estratos.
Muestreo sistemático :
En este muestreo, los elementos se seleccionan de la población dentro de un
intervalo uniforme con respecto altiempo, al orden o al espacio, aunque puede ser
Alfredo Yerman Cortes Verbel.
1.8. VARIABLES Y TIPOS DE VARIABLES. 22
inapropiado cuando los elementos presentan un patrón secuencial, presenta una
gran sencillez en la forma de selección de los elementos.
Muestreo por conglomerados :
En este tipo de muestreo se divide la población en grupos, llamados conglome-
rados, y luego se toma una muestra aleatoria de conglomerados. En el muestreo
por conglomerados, cada uno de los conglomerados se espera que cada conglome-
rado sea internamente heterogéneo, es decir, que los elementos presenten una gran
variabilidad en sus características.
La principal ventaja de los muestreos probabilísticos es su precisión, pues con
ellos se logra una muestra que sea representativa de la población en estudio. Debido
a ello son ampliamente utilizados.
1.8. Variables y Tipos de Variables.
1.8.1. Variable.
La Estadística se desarrolla a partir del concepto de variable.
Definición 1.4: Variable.
Una variable se puede definir como cualquier símbolo( X, Y. . . etc.) que puede
tomar diferentes valores de un conjunto dado. Las variables representan las
características que tienen los elementos que se estudian.
Cada elemento que se estudia presenta unas características que interesa co-
nocer. Si los elementos que se estudian son personas, por ejemplo, nos interesaría
conocer de ellas su género, su edad, su ingreso mensual, su estado civil, etc. Si los
elementos que nos interesa estudiar son empresas, de ellas nos interesaría conocer
de ellas, por ejemplo, el sector económico donde desarrolla su actividad, el tipo de
sociedad, el número de empleados que tiene, las ventas realizadas por ellas el mes
pasado, etc. Cada una de estas características son las que nos interesa estudiar
y constituyen las variables, pues cambian de persona a persona o de empresa a
empresa. Las variables pueden clasificarse en dos tipos.
Alfredo Yerman Cortes Verbel.
1.8. VARIABLES Y TIPOS DE VARIABLES. 23
1.8.2. Variables cualitativas.
Definición 1.5: Variables cualitativas.
Son aquellas que representan características observables o atributos que
presentan los elementos.
Ejemplo 1.1
Ejemplo de variables cualitativas sería:
Género de las personas
Estado civil
Lugar de nacimiento
1.8.3. Variables cuantitativas
Definición 1.6: Variables cuantitativas.
Son aquellas que expresan la magnitud de una característica, es decir se
pueden medir o contar.
Ejemplo 1.2
Un ejemplo de variables cuantitativas sería:
Ingreso mensual de una persona.
Número de personas que tiene a cargo.
Cantidad de C O2 a presente en el aire en determinados sitos de la ciudad.
a
dióxido de carbono
Esta características constituyen variables de tipo cuantitativo, pues son suscep-
tibles de ser expresadas numéricamente.
Las variables cuantitativas se suelen, a su vez, clasificar en dos tipos:
Alfredo Yerman Cortes Verbel.
1.8. VARIABLES Y TIPOS DE VARIABLES. 24
Variables cuantitativas discretas.
Definición 1.7: Variables cuantitativas discretas.
Son aquellas que toman un número finito de valores posibles. Estas variables
suelen asumir solo valores enteros.
Por ejemplo el número de hijos de una persona solo admite valores enteros. En
general sus valores se obtienen mediante procesos de conteo.
Variables cuantitativas continuas.
Definición 1.8: Variables cuantitativas continuas.
Son aquellas que pueden tomar cualquier valor real. En general correspon-
den a variables que se obtienen a partir de procesos de medición.
Peso, estatura longitud, ingreso, son algunos ejemplos de variables cuantitativas
continuas.
Esta clasificación es importante puesto que existen procedimientos diferentes
para su tratamiento estadístico según sea el tipo de variable que se analice.
1.8.4. Escalas de Medida.
Para realizar un correcto análisis de los datos es fundamental conocer de an-
temano el tipo de medida de la variable, ya que para cada una de ellas se utiliza
diferentes estadísticos. La clasificación más convencional de las escalas de medida
las divide en cuatro grupos denominados Nominal, Ordinal, Intervalo y Razón.
Escala Nominal.
Definición 1.9: Escala Nominal.
Son variables numéricas cuyos valores representan una categoría o iden-
tifican un grupo de pertenencia. Este tipo de variables sólo nos permite
establecer relaciones de igualdad/desigualdad entre los elementos de la va-
riable. La asignación de los valores se realiza en forma aleatoria por lo que
NO cuenta con un orden lógico.
Un ejemplo de este tipo de variables es el Género ya que nosotros podemos
asignarle un valor a los hombres y otro diferente a las mujeres y por más machistas
o feministas que seamos no podríamos establecer que uno es mayor que el otro.
Alfredo Yerman Cortes Verbel.
1.8. VARIABLES Y TIPOS DE VARIABLES. 25
Ejemplo 1.3
Ejemplos de variables con este tipo de escala nominal son:
Nacionalidad.
Uso de anteojos.
Número de camiseta en un equipo de fútbol.
Número de Cédula Nacional de Identidad.
A pesar de que algunos valores son formalmente numéricos, sólo están siendo
usados para identificar a los individuos medidos.
Escala Ordinal.
Definición 1.10: Escala Ordinal.
Son variables numéricas cuyos valores representan una categoría o identi-
fican un grupo de pertenencia contando con un orden lógico. Este tipo de
variables nos permite establecer relaciones de igualdad/desigualdad y a su
vez, podemos identificar si una categoría es mayor o menor que otra.
Un ejemplo de variable ordinal es el nivel de educación, ya que se puede esta-
blecer que una persona con título de Postgrado tiene un nivel de educación superior
al de una persona con título de bachiller. En las variables ordinales no se puede
determinar la distancia entre sus categorías, ya que no es cuantificable o medible.
Ejemplo 1.4
Otros ejemplos de variables con escala ordinal:
Preferencia a productos de consumo.
Etapa de desarrollo de un ser vivo.
Clasificación de películas por una comisión especializada.
Madurez de una fruta al momento de comprarla.
Alfredo Yerman Cortes Verbel.
1.8. VARIABLES Y TIPOS DE VARIABLES. 26
Escala de Intervalo.
Definición 1.11: Escal de Invervalo.
Son variables numéricas cuyos valores representan magnitudes y la distancia
entre los números de su escala es igual. Con este tipo de variables podemos
realizar comparaciones de igualdad/desigualdad, establecer un orden dentro
de sus valores y medir la distancia existente entre cada valor de la escala. Las
variables de intervalo carecen de un cero absoluto, por lo que operaciones
como la multiplicación y la división no son realizables.
Ejemplo 1.5
Un ejemplo de este tipo de variables es la temperatura, ya que podemos decir
que la distancia entre 10 y 12 grados es la misma que la existente entre 15 y
17 grados. Lo que no podemos establecer es que una temperatura de 10 grados
equivale a la mitad de una temperatura de 20 grados.
Ejemplo 1.6
Los siguientes son otros ejemplos de variables con esta escala:
Ubicación en una carretera respecto de un punto de referencia (Kilómetro
85 Ruta 5).
Sobrepeso respecto de un patrón de comparación.
Nivel de aceite en el motor de un automóvil medido con una vara graduada.
Escala de Razón.
Definición 1.12: Escala de Razón.
Las variables de razón poseen las mismas características de las variables de
intervalo, con la diferencia que cuentan con un cero absoluto; es decir, el valor
cero (0) representa la ausencia total de medida, por lo que se puede realizar
cualquier operación Aritmética (Suma, Resta, Multiplicación y División) y
Lógica (Comparación y ordenamiento). Este tipo de variables permiten el
nivel más alto de medición.
Ejemplo 1.7
Las variables altura, peso, distancia o el salario, son algunos ejemplos de este
tipo de escala de medida.
Alfredo Yerman Cortes Verbel.
1.9. TIPOS DE DATOS. 27
Ejemplo 1.8
Algunos ejemplos de variables con la escala de razón son los siguientes:
Altura de personas.
Cantidad de litros de agua consumido por una persona en un día.
Velocidad de un auto en la carretera.
Número de goles marcados por un jugador de básquetbol en un partido.
La escala de intervalo tiene un cero que se establece por convención y puede
tener variaciones. Es arbitrario. Por otra parte, la escala de razón tiene un cero real,
fijo, no sujeto a variaciones; es propio de la medición hecha.
Figura 1.6: Escalas de medida
1.9. Tipos de datos.
Los datos constituyen registro de los valores de las variables en los elementos
que se estudian. Los procedimientos estadísticos se aplican a conjuntos de datos
que son obtenidos de una población o de una muestra de elementos. Los datos,
según las variables que se estudien, se pueden clasificar en:
1.9.1. Datos Cualitativos.
Son un conjunto de registros que se refieren a un conjunto de elementos que
en un momento dado se han clasificado según una cualidad o atributo. Los datos
cualitativos o categóricos admiten pocos procedimientos estadísticos, tales como
procedimientos de conteo o de asociación.
Alfredo Yerman Cortes Verbel.
1.10. EVALUACIÓN POR COMPETENCIAS. 28
1.9.2. Datos Cuantitativos.
Son un conjunto de registros que se refieren a un conjunto de elementos, que en
un momento dado, se han clasificado según la magnitud de una característica. Los
datos cuantitativos permite utilizar con ellos una gran variedad de procedimientos
estadísticos, tales como medidas que permiten caracterizar a todo el conjunto de
elementos estudiados.
1.9.3. Datos cronológicos o de serie de tiempo.
Son conjuntos de registros que se refieren a un elemento que se ha medido
en diferentes épocas o periodos, generalmente a intervalos iguales de [Link]
datos cronológicos son datos de tipo cuantitativos pero solamente se considera un
elemento en diferentes momentos
1.10. Evaluación por competencias.
1.10.1. Ejercicios de aplicación.
1. A partir de un mapa conceptual, mentefacto o cualquier organizador gráfico
exponga: Los conceptos básicos de la estadística
2. Clasifica las siguientes variables en ordinales o nominales. Explica por qué
son cualitativas.
a) Género musical favorito de los estudiantes de décimo.
b) Actividad preferida por un grupo de estudiantes.
3. Clasifica las siguientes variables estadísticas según sean cualitativas, cuanti-
tativas, discretas o continuas:
a) Marca de coches.
b) Pesos de los coches.
c) Número de coches vendidos.
4. Se pretende hacer un estudio de la popularidad de la policia Colombiana entre
la población adulta. Con este objetivo se decide seleccionar una muestra de
10 personas (seleccionadas al azar) de cada uno de los departamentos de Co-
lombia y preguntarles su opinión sobre la policía con las posibles respuestas
(muy positiva, positiva, ni positiva ni negativa, negativa, muy negativa).
a) Identificar la población, muestra y variable de interés.
b) ¿Qué tipo de variable es?.
Alfredo Yerman Cortes Verbel.
1.10. EVALUACIÓN POR COMPETENCIAS. 29
c) Comentar brevemente las ventajas e inconvenientes del método de se-
leccionar la muestra.
5. Identifique de entre el siguiente listado, los datos que son cualitativos y los
que son cuantitativos:
a) Clase de ocupación.
b) Enfermedades más comunes.
c) Calificación obtenida en un examen.
d) Años de estudio.
e) Votos anulados en las últimas elecciones.
f ) Estado civil.
g) Tipos de vivienda.
h) Color de los ojos.
i) Lugar de nacimiento.
j) Número de hijos.
6. De los datos cuantitativos siguientes, indique los que son de variables discreta
y los que son de variables continua.
a) Cantidad de matrimonios efectuados el año pasado.
b) Temperatura ambiente en un día cualquiera.
c) Número de palabras que se leen por minuto.
d) Tiempo empleado en resolver un examen.
e) Número de personas que viven en su casa.
f ) Distancia de su casa a la universidad.
7. La Gerencia de la Librería desea calcular el costo de los libros de texto para
estudiantes de la universidad. Sea “x ” la variable del costo total de todos
los libros de texto adquiridos por un estudiante este semestre. El plan es
identificar aleatoriamente a 100 estudiantes y obtener sus costos totales por
concepto de libros de texto. El costo medio será utilizado para calcular el
costo medio de todos los estudiantes.
a) Describa el parámetro que desea calcular la oficina de inscripciones.
b) Describa la población.
c) Describa la variable implicada.
d) Describa la muestra.
Alfredo Yerman Cortes Verbel.
1.10. EVALUACIÓN POR COMPETENCIAS. 30
e) Describa el estadístico y cómo utilizaría los 100 datos recolectados para
calcular el estadístico.
8. En una prueba de aptitudes aplicada a los empleados de una gran empresa,
los puntajes de tres trabajadores seleccionados al azar fueron 90, 85 y 80 y de
tres trabajadoras seleccionadas al azar fueron 89, 86 y 92. Para las siguientes
declaraciones realizadas con base a las calificaciones identifíquense aquellas
que se derivan de métodos descriptivos y aquellas que se derivan de inferencia
estadística.
a) La calificación media de los trabajadores es 85, y la calificación media
de las trabajadoras es 89.
b) La aptitud media de todas las trabajadoras es probablemente mayor que
la de los trabajadores.
c) En la siguiente prueba de aptitudes, probablemente los trabajadores re-
cibirán calificaciones más bajas que las trabajadoras.
9. Cuatro neumáticos para automóvil de marca A y tres de marca B se prue-
ban para determinar su duración de servicio. La duración para los neumáticos
marca A es de 29000, 33000, 37000 y 41000 kilómetros; para la marca B,
esde 30000, 32000 y 34000 kilómetros. A partir de las siguientes declaracio-
nes hechas en base a estas cifras, identifíquese las que vienen de métodos
descriptivos y las que provienen de inferencia estadística.
a) La duración media de los cuatro neumáticos de la marca A es mayor que
la de los tres neumáticos de la marca B.
b) Probablemente, la duración de todos los neumáticos marca A sea de casi
35000 millas, mientras que la de los neumáticos marca B es aproxima-
damente de 32000 millas.
c) Conociendo que el precio de todos los neumáticos marca A es el mismo
que el de los neumáticos marca B, usted recomienda los neumáticos
marca B a todos sus amigos.
10. Se realiza una votación preliminar para determinar las preferencias de los
votantes en una elección presidencial. Con este fin, se entrevistan 1100 votan-
tes registrados y entre ellos 660 están a favor del candidato F . Responde lo
siguiente:
a) ¿Qué constituye la muestra?.
b) ¿Qué constituye la población?.
c) ¿La población es finita o infinita?.
Alfredo Yerman Cortes Verbel.
1.10. EVALUACIÓN POR COMPETENCIAS. 31
d) ¿Cuál es el parámetro? .
e) ¿Cuál es el estadístico?.
11. Se realiza un muestreo de opinión para determinar si las amas de casa en
Colombia, prefieren una marca de detergente (A) con respecto a otra (B). Con
este fin, se entrevistan 1500 amas de casa y entre ellas 820 prefieren la marca
A. Responda lo siguiente:
a) ¿Qué constituye la muestra?.
b) ¿Qué constituye la población?.
c) ¿La población es finita o infinita?.
12. Responda los siguiente interrogantes
a) Que quiere decir la frase de Albert Einstein : no creo que dios juegue a
los dados.
b) ¿De la figura 1.1, que reflexión o mensaje podría obtener?, justifique su
respuesta.
c) ¿Considera usted que para poder generar una opinión referente a algún
tema son necesarios los datos? ¿Se puede prescindir de la intuición?, Ver
figura 1.5.
Alfredo Yerman Cortes Verbel.
32
2.1. PRELIMINARES MATEMÁTICOS. 33
2. DISTRIBUCIONES DE
FRECUENCIAS.
Los fundamentos de la estadística
están cambiando, no sólo en el
sentido en que ellos fueron y
continuarán evolucionando, sino
también en el sentido idiomático de
que ningún sistema es
absolutamente estable.
Leonard Jimmie Savage
Leonard Jimmie Savage (20 de noviembre de 1917 – 1 de noviembre de 1971) fue un
matemático estadounidense especializado en estadística. Su obra más conocida es
del año 1954 y se titula Foundations of Statistics (Fundamentos de estadística) en el
que introduce ciertos elementos sobre la teoría de la decisión. En su obra menciona y
elabora subjetividad de la utilidad esperada estableciendo las bases de la inferencia
bayesiana y sus aplicaciones a la teoría de juegos. Leonard estuvo como ayudante
de John Von Neumann, el científico que construyó el primer computador electrónico.
Muchas de las teorías de Savage se aplican en la actualidad en diversos campos
de la matemática financiera. Una de las aportaciones de este autor se denomina
ley Hewitt–Savage para los eventos simétricos.
2.1. Preliminares Matemáticos.
La sumatoria es una notación matemática que permite representar sumas de
varios sumandos, n o incluso infinitos sumandos, evitando el empleo de los puntos
suspensivos o de una explícita notación de paso al límite. Se expresa con la letra
griega sigma mayúscula Σ . Aunque se necesita aclarar que la palabra sumatoria
o sumatorio no es aceptada entre varios matemáticos ya que la forma correcta de
decirlo es suma.
Alfredo Yerman Cortes Verbel.
2.1. PRELIMINARES MATEMÁTICOS. 34
2.1.1. Sumatoria.
Definición 2.1: Suma
Sea a1 , a2 , a3 , a4 · · · an ∈ R entonces
n
X
ai = a1 + a2 + a3 + · · · + an
i=1
de forma general
n
X
ai = am + am+1 + am+2 + · · · + an
i=m
Esto se lee: sumatorio sobre i, desde m hasta n, de a sub-i. La variable i es el
índice de suma al que se le asigna un valor inicial llamado límite inferior, m.
La variable i recorrerá los valores enteros hasta alcanzar el límite superior,
n. Necesariamente debe cumplirse que: m ≤ n. Pudiendo ver además que si
m = n entonces:
Xn Xm
ai = ai = am
i=m i=m
Por convención Si m > n, el resultado de la suma es cero, el elemento neutro
de la suma.
Como el conjunto de índices es un intervalo de enteros, es corriente indicar
el primer índice debajo del símbolo de sumatoria, y el último por encima del
mismo. Las siguientes notaciones son equivalentes
X i=n
X n
X
ai = ai = ai
i∈[m,n] i=m i=m
El número de términos a sumar es entonces n − m + 1, ya que el primer
sumando es am y el último sumando es an .
Ejemplo 2.1
La suma de los cuadrados de los seis primeros enteros estrictamente positivos se
escribe por ejemplo:
Alfredo Yerman Cortes Verbel.
2.1. PRELIMINARES MATEMÁTICOS. 35
6
X
i2 = 12 + 22 + 32 + 42 + 52 + 62
i=1
= 1 + 4 + 9 + 16 + 25 + 36
= 91.
Ejemplo 2.2
7
X
2i − 1 = (2 · 1 − 1) + (2 · 2 − 1) + (2 · 3 − 1) + (2 · 4 − 1) + (2 · 5 − 1) + (2 · 6 − 1) + (2 · 7 − 1)
i=1
= (2 − 1) + (4 − 1) + (6 − 1) + (8 − 1) + (10 − 1) + (12 − 1) + (14 − 1)
= 1 + 3 + 5 + 7 + 9 + 11 + 13
= 49.
Aunque el término sumatorio se refiere a un operador matemático útil para
expresar cierto tipo de suma, no sustituye este término a la palabra suma, por lo
que con esta intención es un fantónimo1 . Se dice: «la suma de dos y tres es cinco»,
y no «el sumatorio de dos y tres es cinco».
Figura 2.1: Tomado de megaconnor. (2013, diciembre 24). Estadísticas. Memedroid.
[Link]
1
Fantónimo es un neologismo que indica una palabra de aspecto que hace que un receptor o
emisor piense que tenga un significado concreto, aunque en realidad tenga otro distinto del pensado
Alfredo Yerman Cortes Verbel.
2.1. PRELIMINARES MATEMÁTICOS. 36
2.1.2. Propiedades de la Sumatoria
Teorema 2.1: Propiedades de la Sumatoria
Sea C un valor constante y sea f (x) una función real entonces tenemos
t
X t
X
C · f (n) = C · f (n)
n=s n=s
t
X t
X t
X
f (n) ± g(n) = [f (n) ± g(n)]
n=s n=s n=s
t t+p
X X
f (n) = f (n − p)
n=s n=s+p
j t t
X X X
f (n) + f (n) = f (n)
n=s n=j+1 n=s
k1 X
X l1 l1 X
X k1
ai,j = ai,j
i=k0 j=l0 j=l0 i=k0
Hay fórmulas para calcular los sumatorios más rápido, estas serán vistas en el
siguiente teorema:
Figura 2.2: DPTO MATEMÁTICAS IESAS
Alfredo Yerman Cortes Verbel.
2.1. PRELIMINARES MATEMÁTICOS. 37
Teorema 2.2: Formulas para la sumatoria
n
X n(n + 1)
i =
2
i=1
n
X
C = C · (n − m + 1)
i=m
Xn n
X n(n + 1)
i = i=
2
i=0 i=1
n
X n(n + 1) m(m − 1) (n + 1 − m)(n + m)
i = − =
i=m
2 2 2
n
X n(n + 1)(2n + 1) n3 3 n2 n
i2 = = +
6 + 2 6
i=1
n 2 " n #2
X n(n + 1) n4 n3 n2 X
i3 = = + + = i
2 4 2 4
i=1 i=1
Xn
n(n + 1)(2n + 1)(3n2 + 3n − 1) n5 n4 n3 n
i4 = = + + −
30 5 2 3 30
i=1
n−1
X am − an
ai = con m < n y a ̸= 1
i=m
1−a
n−1
X 1 − an
ai =
1−a
i=0
n−1
X a − nan + (n − 1)an+1
iai =
(1 − a)2
i=0
La falacia del cuadro estadístico estriba en que es unilateral, en la medida en que
representa sólo el aspecto promedio de la realidad y excluye el cuadro total. La
concepción estadística del mundo es una mera abstracción, y es incluso falaz, en
particular cuando atañe a la psicología del hombre.
Carl Jung2
2
Carl Gustav Jung (1875 - 1961) fue un médico psiquiatra, psicólogo y ensayista suizo, figura clave
en la etapa inicial del psicoanálisis; posteriormente, fundador de la escuela de psicología analítica,
también llamada psicología de los complejos y psicología profunda.
Alfredo Yerman Cortes Verbel.
2.2. DISTRIBUCIONES DE FRECUENCIA. 38
Ejemplo 2.3
1000
X 1000
X 1000
X
2i − 1 = 2i + −1
i=1 i=1 i=1
1000
X
= 2 i + (−1) · 1000
i=1
1000(1000 + 1)
= 2 − 2000
2
= 1000 · 1001 − 2000
= 1001000 − 2000
= 999000
Ejemplo 2.4
500
X 500
X 500
X 500
X
3i2 + 5i + 4 = 3i2 + 5i + 4
i=1 i=1 i=1 i=1
500
X 500
X 500
X
2
= 3 i +5 i+ 4
i=1 i=1 i=1
500(500 + 1)(2 · 500 + 1) 500(500 + 1)
= 3 +5 + 4 · 500
6 2
500 · 501 · 1001 500 · 501
= +5 + 2000
2 2
250750500 1252500
= + + 2000
2 2
= 125375250 + 626250 + 2000
= 126003500
2.2. Distribuciones de Frecuencia.
En estadística, se le llama distribución de frecuencias a la agrupación de datos
en categorías mutuamente excluyentes que indican el número de observaciones en
cada categoría3 . Esto proporciona un valor añadido a la agrupación de datos. La
distribución de frecuencias presenta las observaciones clasificadas de modo que se
3
Jorge Andrés Alvarado Valencia, Juan José Obagi Araújo, (2008), Fundamentos de inferencia esta-
dística, Ed. Universidad Javeriana de Bogotá, pág. 19
Alfredo Yerman Cortes Verbel.
2.3. TIPOS DE FRECUENCIA. 39
pueda ver el número existente en cada clase. Estas agrupaciones de datos suelen
estar agrupadas en forma de tablas.
Una distribución de frecuencias es un formato tabular en la que se organizan
los datos en clases, es decir, en grupos de valores que describen una característica
de los datos y muestra el número de observaciones del conjunto de datos que caen
en cada una de las clases.
La tabla de frecuencias ayuda a agrupar cualquier tipo de dato numérico. En
principio, en la tabla de frecuencias se detalla cada uno de los valores diferen-
tes en el conjunto de datos junto con el número de veces que aparece, es decir,
su Frecuencia. Se puede complementar la frecuencia absoluta con la denominada
frecuencia relativa, que indica la frecuencia en porcentaje sobre el total de datos.
En variables cuantitativas se distinguen por otra parte la frecuencia simple y la
frecuencia acumulada.
La tabla de frecuencias puede representarse gráficamente en un histograma
(Diagrama De Barras). Normalmente en el eje vertical se coloca las frecuencias y
en el horizontal los intervalos de valores.
La distribución de frecuencias o tabla de frecuencias es una ordenación en forma
de tabla de los datos estadísticos, asignando a cada dato su frecuencia correspon-
diente.
2.3. Tipos de frecuencia.
Frecuencia absoluta.
Definición 2.2: Frecuencia absoluta.
La frecuencia absoluta es el número de veces que aparece un determinado
valor en un estudio estadístico. Se representa por fi .
La suma de las frecuencias absolutas es igual al número total de datos de la
muestra, que se representa por n.
f1 + f2 + f3 + ... + fn = n
P
Para indicar resumidamente estas sumas se utiliza la letra griega (sigma
mayúscula) que se lee suma o sumatoria.
n
X
fi = n
i=1
Alfredo Yerman Cortes Verbel.
2.4. DISITRIBUCIÓN DE FRECUENCIA. 40
Frecuencia relativa.
Definición 2.3: Frecuencia Relativa.
La frecuencia relativa es el cociente entre la frecuencia absoluta de un de-
terminado valor y el número total de datos. Se puede expresar en tantos por
ciento y se representa por f ri .
fi
f ri =
n
La suma de las frecuencias relativas es igual a 1.
Frecuencia absoluta acumulada.
Definición 2.4: Frecuencia Absoluta Acumulada.
La frecuencia absoluta acumulada es la suma de las frecuencias absolutas
de todos los valores inferiores o iguales al valor considerado. Se representa
por Fi
X k
Fk = fi
i=1
Frecuencia relativa acumulada.
Definición 2.5: Frecuencia Relativa Acumulada.
La frecuencia relativa acumulada es el cociente entre la frecuencia acumu-
lada de un determinado valor y el número total de datos. Se puede expresar
en tantos por ciento. Se representa por F ri
k
X
Fkr = fir
i=1
2.4. Disitribución de frecuencia.
2.4.1. Distribución de frecuencias para datos cualitativos.
Cuando la variable de análisis es de tipo cualitativo, cada grupo, clase o cate-
goría se forma con cada uno de los diferentes valores que toma la variable, gene-
Alfredo Yerman Cortes Verbel.
2.4. DISITRIBUCIÓN DE FRECUENCIA. 41
ralmente ordenados en forma alfabética
Ejemplo 2.5
En un sector de una ciudad se seleccionó una muestra de 40 empresas y se regis-
tró la actividad económica que desarrollaban, obteniendo los siguientes resulta-
dos:COMERCIO - SERVICIO - COMERCIO - COMERCIO - SERVICIO - SERVICIO
- COMERCIO - COMERCIO - INDUSTRIA - SERVICIO - SERVICIO - COMERCIO
- INDUSTRIA - INDUSTRIA - SERVICIO - SERVICIO - COMERCIO - COMERCIO
- SERVICIO - SERVICIO - COMERCIO - COMERCIO - COMERCIO - SERVICIO -
COMERCIO - INDUSTRIA - COMERCIO - SERVICIO - COMERCIO - COMERCIO
- SERVICIO COMERCIO - SERVICIO - COMERCIO - INDUSTRIA - SERVICIO -
INDUSTRIA – COMERCIO - INDUSTRIA - INDUSTRIA. Los anteriores datos se
pueden ordenar en una tabla de distribución de frecuencias que tiene la siguiente
forma. (Ver cuadro 2.1)
Actividad Económica fi f ri
COMERCIO 18 0,45
INDUSTRIA 8 0,20
SERVICIO 14 0,35
TOTAL 40 1,0
Cuadro 2.1: Distribución de las empresas según actividad económica
Gráficos
Los datos resumidos en una tabla de distribución de frecuencias, suelen presen-
tarse en forma gráfica. Los gráficos son representaciones pictóricas que permiten, a
veces, observar rápidamente de un golpe de vista el comportamiento de la variable
que se estudia y sus características más sobresalientes. Los gráficos apropiados
para representar variables cualitativas son los de barra y los de sectores (circular
o pastel).
Graficos de Barras :
Los gráficos de barra pueden ser horizontales o verticales. En los gráficos de
barras más usuales son los verticales en donde se representa en el eje horizontal
la variable y en el eje vertical el número de elementos que tiene cada cualidad o
categoría de la variable (las frecuencias).(ver figura 2.3)
El gráfico de barras horizontales se construye colocando los ejes en forma in-
versa, es decir, la variable se representa en el eje vertical y las frecuencias en el eje
Alfredo Yerman Cortes Verbel.
2.4. DISITRIBUCIÓN DE FRECUENCIA. 42
Figura 2.3: Gráfica barra vertical
horizontal. Se utiliza principalmente cuando la variable es de tipo geográfico. (ver
frigura 2.4)
Figura 2.4: Gráfica barra horizontal
Grafica circular (Torta o pastel) :
La gráfica circular (torta o pastel) se utiliza para representar el porcentaje de
elementos que pertenecen a cada una de las categorías de la variable. El círculo
se divide en cien partes (100 %) y se divide según el porcentaje correspondiente a
cada categoría. (ver figura 2.5)
2.4.2. Distribución conjunta de dos variables cualitativas.
En muchas ocasiones se desea representar en una misma tabla los datos obte-
nidos para dos variables (o incluso más de dos). Este tipo de ordenamiento permite
Alfredo Yerman Cortes Verbel.
2.4. DISITRIBUCIÓN DE FRECUENCIA. 43
Figura 2.5: Gráfica circular o diagrama de torta
establecer la forma en que podrían estar relacionadas las dos variables. Estas tablas
se conocen con los nombres de tabla de contingencia o de doble entrada.
Ejemplo 2.6
A un grupo de personas se les encuestó sobre el uso de cigarrillo y se obtuvieron
los siguientes datos (Ver cuadro 2.2).
Genero No Fuma Fuma Ns/Nr Total
Femenino 12 15 3 30
Masculino 15 19 1 35
Total 27 34 4 65
Cuadro 2.2: Tabla de frecuencias sobre el uso del cigarrillo por genero.
A partir de esta tabla se puede analizar el comportamiento que presentan los
elementos (personas) para las dos variables
Gráficos
Este tipo de distribución se puede representar gráficamente mediante alguno de
tres tipos de gráficos: barras agrupadas, barras compuestas y barras compuestas
porcentuales.
Gráfico de barras agrupadas :
Para construir un gráfico se selecciona una de las dos variables para ser re-
presentadas en el eje horizontal, y cada una de las cualidades de esta variable se
Alfredo Yerman Cortes Verbel.
2.4. DISITRIBUCIÓN DE FRECUENCIA. 44
divide para representar cada una de las cualidades de la otra variable. En el eje
vertical se representan las frecuencias absolutas, correspondientes a cada cualidad
representada. Este gráfico permite comparar cómo se comportan las dos variables
en los elementos. (ver figura 2.6)
Figura 2.6: Gráfica Barras Agrupadas
Gráfico de barras compuestas :
Este tipo de gráficos se construye en forma semejante a la anterior, solo que las
barras para las cualidades de una variable no se agrupan una al lado de la otra
sino una encima de la otra, además de permitir comparar las dos variables generan
el total de elementos en cada una de las cualidades. (Ver figura 2.7)
Figura 2.7: Gráfica Barras Compuestas
Gráfico de barras porcentuales :
Alfredo Yerman Cortes Verbel.
2.4. DISITRIBUCIÓN DE FRECUENCIA. 45
Se construye seleccionando una de las dos variables como principal, la cual a
su vez se divide según los porcentajes correspondientes a la otra variable que son
los porcentajes que aparecen en la tabla, por filas o columnas) (ver figura 2.8)
Figura 2.8: Gráfica Barras Compuestas porcentuales
2.4.3. Distribución de frecuencias para datos cuantitativos.
Se han clasificado las variables cuantitativas en discretas y continuas. Muchas
variables discretas toman pocos valores diferentes, mientras que por el contrario,
las variables continuas pueden tomar muchos (incuso infinitos) valores diferentes,
por esta razón el tratamiento de los datos para los dos tipos de variable suele ser
diferente
Distribución de frecuencias para variables discretas.
Cada grupo o categoría se forma con cada uno de los diferentes valores que toma
la variable. La tabla de distribución de frecuencias para los datos recolectados para
este tipo de variable se suele construir utilizando cinco columnas cuyos elementos
son los siguientes:
1. Los valores de la variable ordenados en forma ascendente. Los valores de
la variable se suelen simbolizar por xi , i = 1, 2, ..., m; donde representa la
cantidad de valores diferentes que toma la variable.
2. Las frecuencias absolutas (simbolizadas por fi ) que representan el número de
elementos que toman cada uno de los valores de la variable. Se obtienen por
conteo directamente sobre los datos recolectados.
Alfredo Yerman Cortes Verbel.
2.4. DISITRIBUCIÓN DE FRECUENCIA. 46
3.
Las frecuencias
relativas (simbolizadas
f ri ) que representan la proporción
fi fi
f ri = n o el porcentaje f ri % = n 100 de elementos que toman cada uno
de los valores de la variable
4. Las frecuencias absolutas acumuladas (simbolizadas Fi ) que representan el
número de elementos que toman un valor menor o igual al i-esimo valor de
la variable. Se obtienen por sumas sucesivas sobre las frecuencias absolutas.
5. Las frecuencias relativas acumuladas (simbolizadas F ri ) que representan la
proporción o porcentaje de elementos que toman un valor menor o igual al
i-esimo valor de la variable. Se obtienen por sumas sucesivas sobre las fre-
cuencias relativas.
Ejemplo 2.7
Cien familias se han clasificado según el número de hijos, resultando los siguien-
tes datos:
N° de Hijos 0 1 2 3 4 5 6 7 8
N° de familias 11 13 20 25 14 10 4 2 1
Cuadro 2.3: Cantidad de familias de acuerdo a la cantidad de hijos
n = 100, m = 9. (Ver figura 2.9)
30
25
20
15
10
0
0 1 2 3 4 5 6 7 8
Figura 2.9: Gráfica de frecuencias absolutas fi
Distribución de frecuencias:
Alfredo Yerman Cortes Verbel.
2.4. DISITRIBUCIÓN DE FRECUENCIA. 47
Cantidad de hijos fi f ri
0 f1 = 11 f r1 = fn1 = 10011
= 0,11
f2 13
1 f2 = 13 f r2 = n = 100 = 0,13
2 f3 = 20 f r3 = fn3 = 10020
= 0,2
f4 25
3 f4 = 25 f r4 = n = 100 = 0,25
4 f5 = 14 f r5 = fn5 = 10014
= 0,14
f6 10
5 f6 = 10 f r6 = n = 100 = 0,1
6 f7 = 4 f r7 = fn7 = 100 4
= 0,04
f8 2
7 f8 = 2 f r8 = n = 100 = 0,02
f9 1
8 f9 = 1 f r9 = n = 100 = 0,01
Total 100 1
Cuadro 2.4: Frecuencias relativas y absolutas de la cantidad de hijos
La categoría más numerosa es la de familias con 3 hijos y la menos frecuente
es la de familias con 8 hijos (ver gráfica 2.10)
Diagrama de barras
0.30
0.25
0.20
0.15
0.10
0.05
0.00
0 1 2 3 4 5 6 7 8
Figura 2.10: Gráfica de frecuencias relativas fri
En general, las clases vienen ordenadas de forma natural de menor a mayor
por lo que tiene sentido definir la distribución de frecuencias acumulada. Para
construir la distribución de frecuencias acumulada hay que sumar a la frecuencia
Alfredo Yerman Cortes Verbel.
2.4. DISITRIBUCIÓN DE FRECUENCIA. 48
de cada clase (absoluta o relativa) la de las clases anteriores, hay que tener en
cuenta que los valores de la distribución de frecuencias acumulada no decrecen.
La información sobre los datos que proporcionan la distribución de frecuencias y
la distribución de frecuencias acumulada es equivalente. Cada una puede obte-
nerse a partir de la otra.
Cantidad de hijos fi Fi f ri F ri
0 11 11 0,11 0,11
1 13 24 0,13 0,24
2 20 44 0,2 0,44
3 25 69 0,25 0,69
4 14 83 0,14 0,83
5 10 93 0,1 0,93
6 4 97 0,04 0,97
7 2 99 0,02 0,99
8 1 100 0,01 1
Total 100 1
Cuadro 2.5: Tabla de frecuencias
El último valor de la distribución de frecuencias absolutas acumuladas coin-
cide con n.
El último valor de la distribución de frecuencias relativas acumuladas es 1
(salvo error de redondeo).
La distribución de frecuencias acumulada nos permite conocer la proporción
(o el número) de observaciones por debajo de cierto valor, entre dos valores
o por encima de una cantidad.
Preguntas y respuestas a partir de las tablas
• Qué proporción de familias tiene menos de 2 hijos? R/ 0,24
• ¿Cuántas familias tienen menos de 4 hijos? R/ 69
• ¿Qué proporción de familias tiene más de 6 hijos? R/ 0, 03 = 1−0, 97 =
0, 01 + 0, 02
• ¿Qué proporción de familias tiene más de 3 hijos pero menos de 7? R/
0, 28 = 0, 14 + 0, 1 + 0, 04 = 0, 97 − 0, 69
Representación gráfica de la distribución de frecuencias acumulada (ver
figura 2.11)
Alfredo Yerman Cortes Verbel.
2.4. DISITRIBUCIÓN DE FRECUENCIA. 49
1.0
0.8
0.6
0.4
0.2
0.0
0 1 2 3 4 5 6 7 8
Figura 2.11: Gráfica Barras Frecuencias acumuladas
Distribución de frecuencias para variables continuas.
Las variables continuas suelen tomar muchos valores diferentes, por lo cual sus
valores se ordenan mediante intervalos que contengan un conjunto de valores de la
variable. Cada intervalo constituye un grupo o clase de elementos. El procedimiento
para construir este tipo de tabla de distribución de frecuencias es el siguiente:
1. Efectuar el arreglo ordenado (Ascendente o Descendente) de la población o
muestra
2. Obtener la frecuencia absoluta mediante la tabulación o conteo de los datos
(homogenizar los datos)
3. Encontrar el rango o recorrido (R) de los datos:
R = xn − x1 = xmax − xmin
R = Máximo valor - Mínimo valor
4. Encontrar el número de clases o intervalos de clases (m). El número de clases
debe ser tal que se evite el detalle innecesario, pero que no conduzca a la
perdida de más información de la que puede ser convenientemente ignorada.
Para este cálculo se utiliza la formula de Sturges
m = 1 + 3,322 log(n)
Alfredo Yerman Cortes Verbel.
2.4. DISITRIBUCIÓN DE FRECUENCIA. 50
Aunque es de anotar que ésta fórmula es poco usual. En la práctica se es-
tablece el valor de m, atendiendo varios factores tales como la finalidad del
estudio, grado de variabilidad de los datos, necesidad de efectuar compara-
ciones, etc. Sin embargo, y de acuerdo a la experiencia de investigaciones ya
realizadas, se recomienda que este valor no sea menor de 5 ni mayor de 16.
Algunos investigadores utilizan otras estimaciones del valor de m, como
√
m= n
o un criterio para determinar el número de clases es el propuesto por Ryan
en 1982 presentado en la siguiente tabla conocida como la Tabla de Ryan
(ver tabal 2.6)
N° de Datos N° de Clases
8 a 16 4
17 a 32 5
33 a 64 6
65 a 128 7
129 a 256 8
257 a 512 9
513 a 1024 10
Cuadro 2.6: Tabla de Ryan determinar el número de clases (intervalos) de un conjunto
de datos
5. Determinar la amplitud de la clase (a):
R Rango
a= =
m Intervalos
El resultado siempre se aproxima al siguiente entero si excede al número
entero obtenido, no importa el monto de la fracción excedida al entero.
6. El dato menor (x1 ) será el limite inferior de la primera clase. A él se le suma a
y se obtiene el limite superior de la primera clase que también será el limite
inferior de la segunda clase. Luego se suma nuevamente a y se obtiene el li-
mite superior del segundo intervalo e inferior del tercero. Y así sucesivamente
hasta que el limite superior corresponda o supere ligeramente el valor mayor
(xn ), la cantidad de clases obtenidas deberá corresponder con el número m
calculado mediante la formula de Sturges. Los limites de cada clase se repre-
sentaran por intervalos [Li−1 , li ) , donde Li−1 es el limite inferior de la i-esima
clase o intervalo y Li es el limite superior de la i-esima clase.
Alfredo Yerman Cortes Verbel.
2.4. DISITRIBUCIÓN DE FRECUENCIA. 51
7. Se calcula el punto medio de cada clase por la formula
Li + Li−1
ci =
2
a este punto medio se le suele llamar marca de clase
8. Una vez construidos los intervalos se calculan, mediante tabulación de acuerdo
a los limites inferiores y superiores de las clases, las frecuencias absolutas,
relativas, porcentuales y acumuladas correspondientes.
9. Con los datos obtenidos se procede a construir la tabla de distribución de
frecuencia.
Ejemplo 2.8
La tienda Yerman‘s Store estaba interesada en efectuar un análisis de sus cuentas
por comprar. Uno de los factores que más interesaba a la administración de la
tienda era el de los saldos de las cuentas de crédito. Se escogió al azar una
muestra aleatoria de 30 cuentas y se anotó el saldo de cada cuenta (en unidades
monetarias) como siguea :77.97 - 13.02 - 17.97 - 89.19 - 12.18 - 8.15 - 34.40 -
43.13 - 79.61 - 90..99 - 43.66 - 29.75 - 7.42 - 93.91 - 20.64 - 21.10 - 17.64 - 81.59 -
60.94 - 43.97 - 32.67 - 43.66 - 51.69 - 53.40 - 68.13 - 11.10 - 12.98 - 38.74 - 70.15
- 25.68
Ahora efectuar el arreglo ordenado de la población o muestra: x1 = valor
mínimo = 7,42, xn = valor máximo = 93,91
Encontrar el rengo o recorrido de los datos: "R"
R = valor mayor-valor menor = xn − x1 = 93,91 − 7,42 = 86,49
Encontrar en número de clases "m", según la fórmula de Sturges m = 1 +
3,322 log n. En el ejemplo en estudio n = 30 por cuanto que son 30 clientes
en la muestra:
m = 1 + 3,322log(30)
= 1 + 3,322(1,477)
= 1 + 4,9069
= 5,9069
≈ 6
Determinar la amplitud de la clase: "a"
R 86,49
a= = = 14,415
m 6
Alfredo Yerman Cortes Verbel.
2.4. DISITRIBUCIÓN DE FRECUENCIA. 52
Nota: obsérvese que se va a trabajar con una cifra significativa más cómoda,
o sea como los datos están dados en centésimos, se calculo a hasta los
milésimos para evitar que algún dato coincida con el límite de clases
21,835 + 7,420
Calcular el punto medio de cada clase: c1 = = 14,698, c2 =
2
36,250 + 21,835
= 29,043... (Ver 2.7)
2
Clases ci fi f ri Fi F ri
[7,420 − 21,835) 14,628 10 0,33 10 0,33
[21,835 − 36,250) 29,043 4 0,13 14 0,46
[36,250 − 50,665) 43,458 5 0,17 19 0,63
[50,665 − 65,080) 57,873 3 0,10 22 0,73
[65,080 − 79,495) 72,288 3 0,10 25 0,83
[79,495 − 93,910) 86,703 5 0,17 30 1,00
Total 30 1,00
Cuadro 2.7: Tabla de frecuencias
a
[Link]
[Link]#ixzz2GvpEZl4Z
Obsérvese que el límite inferior de la primera clase es el valor mínimo ( x1 =
7,42 ) y el límite superior es el resultado de x1 + a = 7,42 + 14,415 = 21,835.
El límite inferior de la siguiente clase es igual al límite superior de la clase
anterior y el límite superior es el resultado de adicionarle nuevamente la
amplitud de la clase ( a ).
Obsérvese que el límite superior de la última clase es igual al valor mayor (
xn = 93,91 )
Representaciones Gráficas de la Distribución de Frecuencias.
La estadística es una disciplina que nos enseña a organizar los datos recogidos
para poder analizar sus características y posteriormente inferir, a partir de las
muestras tomadas, las características de la población investigada. Los cuadros o
tablas corresponden a arreglos sistemáticos de los datos por filas y columnas y son
un buen complemento del texto en los informes
El primer procedimiento estadístico consiste en tabular los datos según el tipo
de escala de medición utilizada. La tabulación de los datos conlleva a representar la
información a través de tablas que de forma general contiene las siguientes partes
fundamentales:
Alfredo Yerman Cortes Verbel.
2.4. DISITRIBUCIÓN DE FRECUENCIA. 53
1. Numeración (siempre que se presenten dos o más cuadros).
2. Título: es la descripción que precede al cuadro, la cuál deberá estar redactada
en forma breve y clara, de tal manera que exprese su contenido, siguiendo el
ordenamiento del mismo. Es necesario abarcar las características: Qué, Dónde,
Cómo y Cuándo.
3. Encabezamiento: se refiere al número de atributos o variables que se quieren
representar en el cuadro y se anotan como denominaciones de las columnas
y subcolumnas; puede ser unidimensional, bidimensonial o multidimensional.
Los títulos de las columnas van en mayúsculas y los subtítulos en minúsculas.
4. Cuerpo: es el conjunto de columnas y líneas que contiene el cuadro en orden
vertical y horizontal, donde se colocan los datos sobre los hechos observados
5. Pie: se refiere a la información adicional necesaria a saber: notas, llamadas,
fuentes de información y otras. Se anotan en el espacio debajo de la línea
inferior que limita el cuerpo del cuadro.
Gráficos.
El gráfico es quizás el auxiliar más valioso y utilizado para expresar datos
estadísticos, este elemento no le añade novedad a las tablas o cuadros estadísticos,
es de fácil comprensión y accesible a un número mayor de usuarios. El gráfico
además de expresar visualmente los hechos más importantes de la información
numérica, permite una mejor y más fácil comprensión y ahorra tiempo y esfuerzo en
el análisis de datos estadísticos al facilitar su apreciación visual en forma conjunta:
Histogramas de frecuencias: Un histograma es un gráfico que sirve para repre-
sentar una distribución de frecuencias. Este gráfico está formado por un conjunto de
rectángulos (caso de variables continuas) que tienen como base un eje horizontal
(generalmente el eje de las abscisas o de las X), y como centro los puntos medios
de las clases. Los anchos de las clases y las áreas de los rectángulos son propor-
cionales a las frecuencias de las clases. En el caso de las variables discretas el
gráfico consiste de un conjunto de barras verticales en lugar de rectángulos, ha-
llándose cada barra sobre la observación respectiva y con una altura proporcional
a la frecuencia de la observación. Para el ejemplo anterior tenemos el siguiente
histograma: (ver figura 2.12)
Alfredo Yerman Cortes Verbel.
2.4. DISITRIBUCIÓN DE FRECUENCIA. 54
Figura 2.12: Histograma de frecuencias
Figura 2.13: Histograma y polígono de frecuencias
Polígono de frecuencias: El polígono de frecuencias es un gráfico formado por
líneas quebradas, que tiene los centros de las clases representadas en un eje hori-
zontal (eje de las X ) y las frecuencias de las clases en un eje vertical (eje de las Y ).
La frecuencia correspondiente a cada centro de clase se señala mediante un pun-
to y luego los puntos consecutivos se unen por líneas rectas. Del correspondiente
histograma se puede lograr el polígono de frecuencia uniendo los puntos medios de
las bases superiores de cada rectángulos mediante líneas rectas. Para el ejemplo
anterior tenemos el siguiente poligono de frecuencias: (Ver figura 2.15)
Alfredo Yerman Cortes Verbel.
2.4. DISITRIBUCIÓN DE FRECUENCIA. 55
Figura 2.14: Polígono de frecuencias
Ojivas: Las ojivas se refieren a los gráficos que se construyen utilizando una
distribución acumulativa de frecuencias, el orden de acumulación se aplica al cuadro
de distribución de frecuencia.
Figura 2.15: Ojiva
Alfredo Yerman Cortes Verbel.
2.5. EVALUACIÓN POR COMPETENCIAS 56
2.5. Evaluación por competencias
2.5.1. Ejercicios de aplicación
1. Calcular el valor de cada una de las siguientes expresiones
P7
a) i=1 i.
P10 2
b) i=1 i − 3.
P6 2
3
c) k=1 k − 5 .
P10 −1
d) j=1 (−j) .
P10 1
e) m=1 − .
m
P12 2
f) i=7 i + i + 1.
P32 3
g) j=1 5(j) .
P32 3
h) j=1 (5j) .
P50 3
P100 3
i) n=1 4n + n=51 4n .
P50 1 2 P100 1 2
j) n=1 n + p=51 p .
2 2
P5 P4 n.
k) n=1 m=1 m
n
P50 1
l) n=1 .
2
j
P50 1
m) j=1 j .
3
2. Escribir las siguientes expresiones usando notación sigma
a) 5 + 6 + 7 + 8 + 9 + 10 + 11 + 12 + 13
1 1 1 1 1 1
b) 1 + + + + + + · · · +
3 3 5 7 9 51
c) 1 + 2 + 4 + 8 + 16 + 32 + 64 + 128 + 256
d) 1 + 3 + 7 + 15 + 31 + 63 + 127 + 255
1 1 1 1 1 1 1
e) (−1) + + − + ,+ − + + − + ··· +
2 3 4 5 6 7 20
4 6 8 10 12 14 16
f) 2+ + + + + + +
3 5 7 9 11 13 15
Alfredo Yerman Cortes Verbel.
2.5. EVALUACIÓN POR COMPETENCIAS 57
3. Se le pidió a un grupo de personas que indiquen su color favorito, y se obtu-
vo los siguientes resultados: negro, azul, amarillo, rojo, azul, azul, rojo, negro,
amarillo, rojo, rojo, amarillo, amarillo, azul, rojo, negro, azul, rojo, negro, amari-
llo. Con los resultados obtenidos, elaborar una tabla de frecuencias con dichos
valores, la gráfica de la tabla y una explicación de los resultados obtenidos.
4. En una tienda de autos, se registra la cantidad de autos Toyota vendidos en
cada día del mes de Setiembre.0; 1; 2; 1; 2; 0; 3; 2; 4; 0; 4; 2; 1; 0; 3; 0; 0; 3;
4; 2; 0; 1; 1; 3; 0; 1; 2; 1; 2; 3. Con los datos obtenidos, elaborar una tabla de
frecuencias con dichos valores, la gráfica de la tabla y una explicación de los
resultados obtenidos.
5. Las notas de 35 alumnos en el examen final de estadística, calificado del 0 al
10, son las siguientes: 0; 0; 0; 0; 1; 1; 1; 1; 2; 2; 2; 3; 3; 3; 3; 4; 4; 4; 4; 5; 5; 5;
5; 6; 6; 6; 7; 7; 7; 8; 8; 8; 9; 10; 10. Con los datos obtenidos, elaborar una tabla
de frecuencias con 5 intervalos o clases.
6. Un grupo de atletas se está preparando para una maratón siguiendo una dieta
muy estricta. A continuación, viene el peso en kilogramos que ha logrado bajar
cada atleta gracias a la dieta y ejercicios. 0,2- 8,4- 14,3- 6,5- 3,4- 4,6- 9,1- 4,3-
3,5- 1,5- 6,4- 15,2- 16,1- 19,8- 5,4- 12,1- 9,6- 8,7- 12,1- 3,2. Elaborar una tabla
de frecuencias con dichos valores, la gráfica de la tabla y una explicación de
los resultados obtenidos.
7. Se ha realizado una encuesta en 60 hogares en la que se les pregunta el nú-
mero de individuos que conviven en el domicilio habitualmente. Las respuestas
obtenidas han sido las siguientes: 4, 4, 1, 3, 5, 3, 2, 4, 1, 6, 2, 3, 4, 5, 5, 6, 2, 3,
3, 2, 2, 1, 8, 3, 5, 3, 4, 7, 2, 3.
a) Calcule la distribución de frecuencias de la variable obteniendo las fre-
cuencias absolutas, relativas y sus correspondientes acumuladas.
b) ¿Qué proporción de hogares está compuesto por tres o menos personas?
.
c) ¿Qué proporción de individuos vive en hogares con tres o menos miem-
bros?.
d) Dibuje el diagrama de frecuencias absolutas y el diagrama de frecuencias
acumuladas.
e) Agrupe por intervalos de amplitud 2 los valores de la variable, calcu-
le su distribución de frecuencias y represente con los correspondientes
gráficos las frecuencias absolutas y acumuladas.
Alfredo Yerman Cortes Verbel.
2.5. EVALUACIÓN POR COMPETENCIAS 58
8. Establezca, con base estadística, en cuál de las siguientes empresas el salario
está repartido de forma más equitativa. (Ver cuadro 2.8)
Empresa A Empresa B
n° de personas Salario recibido (·1000 pesos) n° de personas Salario recibido (·1000 pesos)
15 800 10 800
20 1000 30 1000
30 1200 35 1200
20 1500 24 1500
15 7500 1 7500
Cuadro 2.8: ¿Cuál de las empresas tiene salario repartido de forma más equitativa?
9. Los datos que se dan a continuación corresponden a los pesos en Kg. de
ochenta personas:
a) Obténgase una distribución de datos en intervalos de amplitud 5, siendo
el primer intervalo [50; 55].
b) Calcúlese el porcentaje de personas de peso menor que 65 Kg.
c) ¿Cuántas personas tienen peso mayor o igual que 70 Kg. pero menor que
85?.
6 0 ; 6 6 ; 7 7 ;70;66; 6 8 ; 5 7 ; 7 0 ; 6 6 ; 5 2 ; 7 5 ; 6 5 ; 6 9 ; 7 1 ; 5 8 ;
6 6 ; 6 7 ; 7 4 ;61;63; 6 9 ; 8 0 ; 5 9 ; 6 6 ; 7 0 ; 6 7 ; 7 8 ; 7 5 ; 6 4 ; 7 1 ;
8 1 ; 6 2 ; 6 4 ;69;68; 7 2 ; 8 3 ; 5 6 ; 6 5 ; 7 4 ; 6 7 ; 5 4 ; 6 5 ; 6 5 ; 6 9 ;
6 1 ; 6 7 ; 7 3 ;57;62; 6 7 ; 6 8 ; 6 3 ; 6 7 ; 7 1 ; 6 8 ; 7 6 ; 6 1 ; 6 2 ; 6 3 ;
7 6 ; 6 1 ; 6 7 ;67;64; 7 2 ; 6 4 ; 7 3 ; 7 9 ; 5 8 ; 6 7 ; 7 1 ; 6 8 ; 5 9 ; 6 9 ;
7 0 ; 6 6 ; 6 2 ;63;66
2.5.2. Evaluando saberes
Las siguientes preguntas son de selección múltiple con única respuesta, TIPO
I. Este tipo de preguntas consta de un enunciado y cuatro opciones de respuesta
identificadas con las letras a, b, c, d . Lea detenidamente cada pregunta y rellene
el paréntesis de la respuesta correcta (solo una).
1. La estatura media de los hombres y las mujeres varia con el tiempo, con el
objeto de conocer la estatura media de los estudiantes colombianos varones
fueron seleccionados aleatoriamente 4000 estudiantes de distintas facultades
y medidas sus estaturas,. En el caso anterior podemos identificar la muestra
como:
Alfredo Yerman Cortes Verbel.
2.5. EVALUACIÓN POR COMPETENCIAS 59
a) 4000 estudiantes cartageneros.
b) estudiantes cartageneros de las facultades de psicología.
c) 4000 estudiantes cartageneros varones.
d) todos los estudiantes cartageneros.
2. En las ultimas elecciones de alcalde de Cartagena se contrataron varias fir-
mas encuestadoras para realizar una estimación del posible resultado. Una de
las firmas pregunta a una muestra de 50,000 personas, seleccionadas alea-
toriamente de la población, su intención de voto, agrupándose sus respuesta
en:
Porcentaje de votos del partido P.
Porcentaje de votos del partido Q.
Porcentaje de votos del partido R.
Porcentaje de personas que no votarán.
Porcentajes de votos en blanco o nulos.
En el anterior caso la población es
a) Todos los cartageneros con derecho a votar.
b) Colombianos mayores de 18 años aptos para votar.
c) Porcentaje de votos del partido P.
d) Porcentaje de votos del partido R.
3. La eficacia en la gestión de los concejos directivos de las empresas es un
tema importante. Por ello se ha planteado un estudio de opinión con el objeto
de indagar si la impresión sobre eficacia guarda algún tipo de relación con
la categoría profesional de los trabajadores. Para ello, las opiniones de 200
encuestados se dividieron, de acuerdo con sus respuestas, en mala, regular
y buena. Los encuestados pertenecían a las siguientes categorías profesiona-
les : Aprendices , trabajadores sin especializar, trabajadores especializados,
mandos intermedios y directivos. En el anterior caso podemos identificar la
población como:
a) 200 trabajadores a los que se le ha pedido su opinión.
b) miembros del consejo directivo.
c) todos los trabajadores de la empresa.
d) Trabajadores sin especializar y especializados.
Alfredo Yerman Cortes Verbel.
2.5. EVALUACIÓN POR COMPETENCIAS 60
4. En la siguiente gráfica, la cantidad de adultos que sufren de estrés es:
Figura 2.16: Enfermedades que se padecen de acuerdo al grupo etareo
a) 4.
b) 3.
c) 1.
d) 8.
5. Se ha realizado una encuesta en 30 hogares en la que se les pregunta el
no de individuos que conviven en el domicilio habitualmente. Las respuestas
obtenidas han sido tabuladas:
Cuadro 2.9: Distrubución de frecuencias de individuos que conviven en el domicilio
Nº de Personas fi fir Fi Fir
0 6 0, 1 6 0, 1
1 13 0, 22 19 0, 32
2 8 0, 13 27 0, 45
3 5 0, 08 32 0, 53
4 13 0, 22 45 0, 75
5 7 0, 12 52 0, 87
6 8 0, 13 60 1
Alfredo Yerman Cortes Verbel.
2.5. EVALUACIÓN POR COMPETENCIAS 61
¿Qué proporción o porcentaje de hogares está compuesta por 5 miembros?
a) 7 %.
b) 12 %.
c) 52 %.
d) 87 %.
6. De acuerdo al Cuadro 8.5 podemos decir que:
a) en el 75 % de los hogares conviven 4 o menos personas.
b) en el 53 % de los hogares conviven 3 personas
c) en el 13 % de los hogares conviven 2 personas o menos.
d) en en 7 hogares conviven 5 personas o menos.
Alfredo Yerman Cortes Verbel.
62
63
3. MEDIDAS DE
TENDENCIA CENTRAL.
La estadística es el único tribunal
de apelación para juzgar el nuevo
conocimiento
Prasanta Chandra Mahalanobis
Prasanta Chandra Mahalanobis (Bangla 29 de junio de 1893 – 28 de junio de 1972)
fue un científico indio que destacó en estadística aplicada. Su contribución más co-
nocida es la distancia de Mahalanobis, una medida de distancia estadística. Realizó
trabajos pioneros en las variaciones antropométricas en la india. Fundó el Instituto
Indio de Estadística, y contribuyó al campo de las encuestas a gran escala. Su padre,
Prabodh Chandra, fue un miembro activo del movimiento religioso Brahmo Samaj.
Su madre, Nirodbasin, perteneció a una familia de gran tradición académica. Se
graduó en física en 1912 por la Universidad presidencial de Calcuta, y completó sus
estudios en el King’s College de Cambridge, tras lo que volvió a Calcuta. Durante
su estancia en Cambridge, fue compañero de habitación de Raquel Welch.
Inspirado por la revista científica Biometrika y por Acharya Brajendranath Seal,
empezó a trabajar en estadística. Empezó analizando resultados de exámenes uni-
versitarios, medidas antropométricas de anglo-indios de Calcuta y problemas me-
teorológicos. También trabajó como meteorólogo durante algún tiempo. En 1924,
mientras trabajaba en la probabilidad de error de los resultados de los experi-
mentos en agricultura, conoció a Ronald Fisher, con quien estableció una amistad
que se mantendría durante toda su vida. También trabajó en modelos para prevenir
inundaciones.
Sus contribuciones más importantes están relacionadas con encuestas a gran escala.
Introdujo el concepto de encuestas piloto y defendió la utilidad de los métodos de
muestreo. Su nombre se asocia también con la distancia multivariable independiente
de la escala, que tomó el nombre de distancia de Mahalanobis. Fundó el Instituto
Indio de Estadística el 17 de diciembre de 1931.
Mostró interés por los logros culturales y fue secretario de Rabindranath Tagore,
particularmente durante sus viajes al extranjero. Recibió un premio Padma Vidhushan,
Alfredo Yerman Cortes Verbel.
3.1. MEDIDAS DE TENDENCIA CENTRAL. 64
uno de los premios más reputados de la India, por sus contribuciones a la ciencia
y sus servicios al país.
Murió el 28 de junio de 1972, un día antes de alcanzar los 79 años de edad. En
sus últimos años continuó su labor investigadora y desempeñando los cargos de
Secretario y Director del Instituto Indio de Estadística y Consejero Honorífico de
Estadística del Gabinete de Gobierno de la India.
3.1. Medidas de Tendencia Central.
Al describir grupos de observaciones, con frecuencia es conveniente resumir la
información con un solo número. Este número que, para tal fin, suele situarse hacia
el centro de la distribución de datos se denomina medida o parámetro de tendencia
central o de centralización. Cuando se hace referencia únicamente a la posición de
estos parámetros dentro de la distribución, independientemente de que ésta esté
más o menos centrada, se habla de estas medidas como medidas de posición1 . En
este caso se incluyen también los cuantiles entre estas medidas. Se debe tener en
cuenta que existen variables cualitativas y variables cuantitativas, por lo que las
medidas de posición o medidas de tendencia se usan de acuerdo al tipo de variable
que se está observando, en este caso se observan variables cuantitativas. Entre las
medidas de tendencia central tenemos:
Media.
Media ponderada.
Media geométrica.
Media armónica.
Mediana.
Moda.
Fractiles.
3.2. Media aritmética.
1
Férnandez Fernández, Santiago; Alejandro Córdoba, José María Cordero Sánchez, Alejandro Cór-
doba (2002). «3.3. Medidas de posición». Estadística Descriptiva (2a edición). ESIC Editorial. p. 134.
ISBN 8473563069.
Alfredo Yerman Cortes Verbel.
3.2. MEDIA ARITMÉTICA. 65
3.2.1. Media para datos no agrupados.
Definición 3.1: Media para datos no agrupados.
Dado un conjunto numérico de n datos, x1 , x2 , ..., xn , se define su media
aritmética como: Pn
xi x1 + x2 + ... + xn
x = i=1 =
n n
Es el valor obtenido por la suma de todos sus valores dividida entre el
número de sumandos.
Ejemplo 3.1
Sean los siguientes valores las calificaciones la asignatura de Estadística de
estudiantes de primer año: 10 - 8 - 6 - 7.5 - 7 - 7.5 - 8 - 9.5 - 10 - 10 - 8 - 6
- 9 - 10 - 7.5 - 6 - 9.5 - 10 - 6.5 - 8 - 6 - 6 - 9 - 10 - 7 - 8 - 9.5 - 5 - 8 - 7.5
Sumando los valores de las 30 calificaciones y dividiéndolas entre los 30 datos
obtendremos: Pn
xi 240
x = i=1 = =8
n 30
por lo que la media de calificaciones obtenida por el grupo considerado es igual
a 8.
3.2.2. Media para datos agrupados.
Definición 3.2: Media para datos agrupados
La media para datos agrupados es la siguiente:
m
1X x1 f1 + x2 f2 + x3 f3 + · · · + xm fm
x= x i fi =
n n
i=1
P
donde n = fi es el total de datos, m es el número total de clase, xi son
los distintos valores de los datos y fi es la frecuencia de datos.
La definición es claramente entendida como una extensión de la definición que
dimos para datos no agrupados, ya que es lógico suponer Pn que datosPmxi que se
repiten con una frecuencia fi pueden simplificar la suma i=1 xi por i=1 xi fi , por
supuesto que los índices de la segunda suma con respecto a la primera corren con
respecto a menor número, es decir, con respecto al número de agrupamientos m.
Alfredo Yerman Cortes Verbel.
3.2. MEDIA ARITMÉTICA. 66
Ejemplo 3.2
Sean los siguientes datos 1, 1, 2, 2, 4, 4, 5, 2, 3, 2, 3, 4, 1, 2, 1. La media para dichos
datos es aproximadamente igual a 2.4666, es decir,
P
15
xi
i=1 1+1+2+2+4+4+5+2+3+2+3+4+1+2+1
x= = = 2,4666
15 15
Sin embargo, el mismo resultado podemos obtener si tomamos la frecuencia con
que aparecen los datos, en este caso:
Dato xi Frecuencia fi Producto de frecuencias y datos fi xi
1 4 4
2 5 10
3 2 16
4 3 12
5 1 5
La obtención de la media finalmente se convierte en
5
1 X 1·4+2·5+3·2+4·3+5·1
x= xi fi = = 2,466
15 15
i=1
para la obtención de la media cuando las frecuencias están sujetas a la elec-
ción de clase bajo los métodos mostrados, se realiza de igual manera, la única
diferencia existe en determinar el valor xi como el punto medio de cada clase,
veamos el siguiente ejemplo.
No existe la suerte. Sólo hay preparación adecuada o inadecuada para hacer
frente a una estadística.
Robert Heinlein2
2
Escritor norteamericano, Robert A. Heinlein es uno de los grandes autores de ciencia ficción del
S. X X , Habitualmente riguroso en cuanto a la base científica en sus historias, incluso sus historias de
fantasía contienen una estructura científica lógica. Una de las características que definen su escritura
fue el introducir en la temática de la ciencia ficción la administración, la política, la economía, la
lingüística, la sociología y la genética. Fue también uno de los abanderados del individualismo, lo
cual quedaba reflejado en la riqueza de los personajes (ejemplo claro es Lazarus Long), tanto en
conocimientos, como en habilidades.
Alfredo Yerman Cortes Verbel.
3.2. MEDIA ARITMÉTICA. 67
Ejemplo 3.3
Supongamos que una clínica de salud, obtiene una tabla de edades de las perso-
nas que son atendidas en un fin de semana, para los que presentan la siguiente
tabla. ¿Cuál será el promedio de edades de los enfermos que acudieron a recibir
atención médica?
Datos Años Punto medio de cada clase xi Frecuencia de cada clase
10 ≤ x < 20 15 8
20 ≤ x < 30 25 20
30 ≤ x < 40 35 14
40 ≤ x < 50 45 8
50 ≤ x < 60 55 2
60 ≤ x < 70 65 2
70 ≤ x < 80 75 1
Por lo que el promedio de personas a las que se les dio servicio es de:
7
1 X 15 · 8 + 25 · 25 + 35 · 14 + 45 · 8 + 55 · 2 + 65 · 2 + 75 · 1
x= xi fi = = 32,45 años
55 55
i=1
Ejemplo 3.4
La demanda de cierto artículo en 48 días fue 1, 4, 1, 0, 2, 1, 1, 3, 2, 1, 1, 0, 3, 2, 4,
3, 4, 1, 2, 1, 1, 2, 2, 2, 1, 3, 3, 3, 1, 4, 4, 0, 2, 1, 4, 0, 3, 1, 3, 3, 4, 2, 2, 1, 0, 1, 2, 4,
mientras que en otros 48 días hubo una demanda de 1 artículo en 13 de ellos, de
2 artículos en 12, de 3 en 10, de 4 en 9 y el resto de los días no hubo demanda.
¿podrías decir en qué conjunto de días hubo mayor demanda diaria?
El objetivo es comparar la demanda diaria de ambas muestras. Se denotará
por xi los datos de la primera muestra y por yj los de la segunda. Las frecuencias
de ambas muestras se recogen en la Tabla tabla 3.1
xi ni yj nj
0 5 0 4
1 15 1 13
2 11 2 |12
3 9 3 10
4 8 4 9
Total 48 Total 48
Cuadro 3.1: Tablas de frecuencias
Alfredo Yerman Cortes Verbel.
3.2. MEDIA ARITMÉTICA. 68
en principio, parece que no tiene sentido hacer esa comparación, porque la
demanda diaria es variable y habrá días en que sea mayor en una muestra y d´ıas
en que sea mayor en la otra. Además, a simple vista no es sencillo comparar tantos
valores a la vez. Sin embargo, si se logra resumir mediante un único valor cómo
es “ aproximadamente ” la demanda diaria en cada conjunto de días, se podrían
comparar esos dos valores. Aunque se pueden hacer las operaciones sustituyendo
directamente en la fórmula, lo habitual para ilustrar todos los cálculos es que se
a~nada una nueva columna en la tabla de frecuencias donde se vayan calculando
los sumandos xi ni , que se completaría con la suma final xT (ver Tabla 3.2).
xi ni xi ni yj nj yj nj
0 5 0 0 4 0
1 15 15 1 13 13
2 11 22 2 12 24
3 9 27 3 10 30
4 8 32 4 9 36
Total 48 96 Total 48 103
Cuadro 3.2: Tablas para las medias.
De esta forma se tendría que
suma de todos los artículos demandados 96
x̄ = = = 2 artículos
número de días 48
suma de todos los artículos demandados 103
ȳ = = = 2,1458 artículos
número de días 48
Para comparar esas dos cantidades se podría utilizar la diferencia y decir que
la demanda media en el segundo conjunto de días fue 0, 1458 artículos superior a
la media del primer conjunto de días. Sin embargo, la demanda diaria está medida
en escala de razón, y en estos casos resulta mucho más informativo utilizar el
cociente, porque los resultados no dependen de las magnitudes. El cociente sería
2, 1458
= 1, 0729.
2
En el primer conjunto de datos la demanda diaria varió alrededor de 2 artícu-
los, mientras que en el segundo conjunto de datos dicha demanda diaria variaba
alrededor de 2, 1458 artículos. Aunque no se puede comparar la demanda diaria
en las dos muestras porque varía de día en día, sí se puede decir que en media
la demanda diaria fue un 7, 29 superior en el segundo conjunto de días.
Alfredo Yerman Cortes Verbel.
3.2. MEDIA ARITMÉTICA. 69
Ejemplo 3.5
De las devoluciones mensuales que se realizan a cierto almacén el 10 % tienen
un importe de 360 dolares a lo sumo. El 40 % son de un importe inferior o igual
a 660 dolares. En la mitad de ellas no se superan las 1385 mientras que el 30 %
están entre 1385 y 2410 dolares.
Si se sabe que en dicho almacén el importe máximo de las devoluciones es
de 3000 dolares, calcula e interpreta el importe medio de las devoluciones.
¿Podrías calcular el importe medio si no se supiera cuál es el importe
máximo de las devoluciones?
El experimento consiste en seleccionar devoluciones (individuos) y observar
su importe (variable), luego la población son todas las devoluciones (no dan nin-
gún tamaño muestral, parece que la información se refiere a toda la población).
Los datos son numéricos, el 0 significa que no hay devolución y, en principio,
cualquier importe (385, 385,46, etc.) es posible, luego la variable es cardinal, de
razón y continua. No se tienen datos aislados, si no rangos (datos agrupados) y
frecuencias.
se calculará la media del importe, porque ese es el objetivo. Más adelante
se justificará por qué esta medida es la mejor para determinar el centro de una
variable de este tipo; se realizarán a partir de la tabla de frecuencias. Como se
conocen sólo los rangos, lo primero es localizar las clases de datos agrupados.
Para ello es útil ir marcando en una recta los valores que determinan los rangos,
así quedarían ya ordenadas dichas clases:
Sólo se tienen frecuencias relativas, no absolutas. En la Tabla 3.3 se han
incluido los datos que proporciona directamente el enunciado y se han utilizado
letras para representar los datos que no conocemos directamente. Para calcular
la media se necesita la columna de fi completa, por lo que se debe completar la
tabla. Fi representa las frecuencias acumuladas, por lo que F2 = 0,4 tiene que
ser F1 más lo que corresponda a f2 . Matemáticamente sería 0,4 = 0,1 + a, por
lo que a = 0,3. De igual forma b = f3 tiene que ser lo que falta para pasar de
F2 = 0,4 a F3 = 0,5, es decir b = 0,5 − 0,4 = 0,1.
Alfredo Yerman Cortes Verbel.
3.2. MEDIA ARITMÉTICA. 70
clase fi Fi xi
[0, 360] 0, 1 0, 1 180
[360, 660] a 0, 4 510
[660, 1385] b 0, 5 1022, 5
[1385, 2410] 0, 3 c 1897, 5
[2410, 3000] d e 2705
Total f - -
Cuadro 3.3: Tabla incompleta de frecuencias.
Además c = F4 tiene que ser todo lo acumulado hasta ese momento. Mate-
máticamente sería c = F3 + 0,3 = 0, 5 + 0,3 = 0, 8 y el último Fi siempre es
1, porque al final se tiene ya todo acumulado, por lo que e = F5 = 1. Por el
mismo motivo, f = 1. Por último, como para que la columna de fi sume 1 falta
0,2, se tiene que d = 0,2. Las frecuencias completas y la columna necesaria para
calcular la media se representan en la Tabla 3.4
clase fi Fi xi xi fi
[0, 360] 0, 1 0, 1 180 180
[360, 660] 0, 3 0, 4 510 153
[660, 1385] 0, 1 0, 5 1022, 5 102, 25
[1385, 2410] 0, 3 0, 8 1897, 5 569, 25
[2410, 3000] 0, 2 1 2705 541
Total f - - 1383, 5
Cuadro 3.4: Tabla de frecuencias.
De este modo, se tiene que
k
X
x̄ = xi fi = 1383, 5 dolares
i=1
el importe medio de las devoluciones mensuales es de 1383, 5 dolares, lo que
significa que el importe de las devoluciones en ese almacén oscila alrededor de
1383, 5 dolares.
El objetivo ahora es calcular la media si no se sabe el importe máximo de
las devoluciones. El planteamiento es el mismo que el del apartado anterior. No
se puede decir hasta dónde llega el último intervalo y eso en matemáticas se
indica utilizando el símbolo ∞ (infinito). Es decir, nuestro último intervalo sería
(2410, ∞) y el resto de la tabla sería igual. Como no se puede calcular el punto
medio de este último intervalo, no se puede calcular la media aritmética.
Alfredo Yerman Cortes Verbel.
3.2. MEDIA ARITMÉTICA. 71
3.2.3. Propiedades de la media y desventajas de la media
Propiedades
Las principales propiedades de la media aritmética son3 :
Su cálculo es muy sencillo y en él intervienen todos los datos.
Su valor es único para una serie de datos dada.
Se usa con frecuencia para comparar poblaciones, aunque es más apropiado
acompañarla de una medida de dispersión.
Se interpreta como "punto de equilibrio o centro de masas"del conjunto de
datos, ya que tiene la propiedad de equilibrar las desviaciones de los datos
respecto de su propio valor:
P
n P
n P
n
(xi − x) xi x
i=1 i=1 i=1
= − =x −x =0
n n n
Minimiza las desviaciones cuadráticas
P
de los datos respecto de cualquier va-
n
(x −k)2
lor prefijado, esto es, el valor de i=1 ni es mínimo cuando k = x. Este
resultado se conoce como Teorema de König. Esta propiedad permite inter-
pretar uno de los parámetros de dispersión más importantes: la varianza; que
estudiaremos ams adelante.
Se ve afectada por transformaciones afines (cambios de origen y escala), esto
es, si xi′ = axi + b entonces x ′ = ax + b, donde x ′ es la media aritmética de
los xi′ , para i = 1, ..., n y a y b números reales.
Es poco sensible a fluctuaciones muestrales, por lo que es un pará metro muy
útil en inferencia estadística.
Inconvenientes de su uso
Para datos agrupados en intervalos (variables continuas) su valor oscila en
función de la cantidad y amplitud de los intervalos que se consideren.
Es una medida a cuyo significado afecta sobremanera la dispersión, de modo
que cuanto menos homogéneos sean los datos, menos información proporciona.
Dicho de otro modo, poblaciones muy distintas en su composición pueden tener
3
Rius Díaz, Francisca (octubre de 1997). «2.3.2 La media». Bioestadística. Métodos y aplicaciones.
Málaga: Universidad de Málaga. ISBN 84-7496-653-1.
Alfredo Yerman Cortes Verbel.
3.2. MEDIA ARITMÉTICA. 72
la misma media4 . Por ejemplo, un equipo de baloncesto con cinco jugadores
de igual estatura, 1,95 m, evidentemente, tendría una estatura media de 1,95
m, valor que representa fielmente a esta población homogénea. Sin embargo,
un equipo de jugadores de estaturas más heterogéneas, 2,20 m, 2,15 m, 1,95
m, 1,75 m y 1,70 m, por ejemplo, tendría también, como puede comprobarse,
una estatura media de 1,95 m, valor que no representa a casi ninguno de sus
componentes.
En el cálculo de la media no todos los valores contribuyen de la misma ma-
nera. Los valores altos tienen más peso que los valores cercanos a cero. Por
ejemplo, en el cálculo del salario medio de un empresa, el salario de un alto
directivo que gane $ 1.000.000 tiene tanto peso como el de diez empleados
"normales"que ganen $ 1.000. En otras palabras, se ve muy afectada por valores
extremos.
No se puede determinar si en una distribución de frecuencias hay intervalos
de clase abiertos
3.2.4. Media aritmética ponderada.
Es una Medida de Tendencia Central, que es apropiada cuando en un conjunto
de datos cada uno de ellos tiene una importancia relativa (o peso) respecto de los
demás datos. Se obtiene del cociente entre la suma de los productos de cada dato
por su peso o ponderación y la suma de los pesos.
Definición 3.3: Media aritmética ponderada.
Si x1 , x2 , ..., xn son nuestros datos y w1 , w2 , ..., wn son sus "pesosrespectivos,
la media ponderada se define de la siguiente forma:
P
n
xi wi
i=1 x1 w1 + x2 w2 + ... + xn wn
x= =
Pn w1 + w2 + ...wn
wi
i=1
Un ejemplo es la obtención de la media ponderada de las notas de en la que
se asigna distinta importancia (peso) a cada una de las pruebas de que consta
4
Wackerly, Dennis D; Mendenhall, William; Scheaffer, Richard L. (2002). «1.3. Descripción de un
conjunto de mediciones: métodos numéricos». Estadística matemática con aplicaciones (6a edición).
Cengage Learning Editores. p. 8. ISBN 9706861947. «Dos conjuntos de mediciones podrían tener
distribuciones de frecuencias muy distintas, pero con la misma media»
Alfredo Yerman Cortes Verbel.
3.2. MEDIA ARITMÉTICA. 73
el examen, entonces se multiplicaría cada nota por su correspondiente peso y el
resultado obtenido se divide entre la suma de los pesos asignados.
Ejemplo 3.6
Un estudiante ha realizado 1 examen que constaba de 3 partes: una teórica, otra
de problemas y otra de prácticas de informática. El profesor le da el doble de
importancia a los problemas que a la teoría y el triple a las prácticas. Si ha
obtenido una calificación de 5, 8 sobre 10 en teoría, 6, 4 sobre 10 en problemas y
7,9 sobre 10 en prácticas, ¿cuál crees que será su calificación final en el examen?.
El objetivo es calcular la calificación final del examen; el experimento consiste
en seleccionar cada parte de examen (individuo) y observar la nota del alumno
en esa parte (variable). Luego la población serían las 3 partes del examen y la
muestra sería igual a la población. La variable es cardinal (porque las notas son
números), de intervalo (porque la escala es subjetiva, el 0 no significa ausencia
de nota, ni un 10 representa el doble de conocimientos que un 5,0 y continua (en
principio, se puede obtener notas de 6, 7 y 6, 789, etc.); la nota final debería ser
la nota media de todas las partes teniendo en cuenta la importancia que tiene
cada una de esas partes. La media ponderada se calculará también a partir de
la tabla de frecuencias. Aunque sólo haya hecho 1 examen de cada tipo, se le da
el doble de importancia a un examen que a otro, lo que implica que a la hora de
calcular la media, ese examen debería tener el doble de peso, es decir, quedaría
multiplicado por 2 (así, las ponderaciones jugarían el papel de las frecuencias en
la fórmula matemática). La tabla de frecuencias sería entonces
xi ni wi wi xi
5, 8 1 1 5, 8
6, 4 1 2 12, 8
7, 9 1 3 23, 7
Total 3 6 42, 3
Cuadro 3.5: Tabla de frecuencias para la media ponderada
por lo tanto
42, 3
x̄w = = 7, 05 puntos
6
la nota final del examen sería de 7, 05 puntos, que representa la media de todas
las partes teniendo en cuenta su importancia.
Alfredo Yerman Cortes Verbel.
3.2. MEDIA ARITMÉTICA. 74
Figura 3.1: Tomado de Florez V., [@VLADDO] [Imagen adjunta], (15 de abril
de 2020) Hablando de estadística, por si se le ofrece a @IvanDuque
o a cualquier alto funcionario del Estado, aquí les dejo. [Tweet].
[Link]
Alfredo Yerman Cortes Verbel.
3.3. MEDIANA. 75
3.3. Mediana.
La mediana, representa el valor de la variable de posición central en un conjunto
de datos ordenados. De acuerdo con esta definición el conjunto de datos menores o
iguales que la mediana representarán el 50 % de los datos, y los que sean mayores
que la mediana representarán el otro 50 % del total de datos de la muestra. Es
decir es el valor que ocupa el lugar central de todos los datos cuando éstos están
ordenados de menor a mayor. La mediana se representa por Me . Se puede hallar
sólo para variables cuantitativas.
3.3.1. Mediana para datos no agrupados.
Definición 3.4: Mediana para datos no agrupados.
Sean x1 ≤ x2 ≤ x3 ≤ x4 ≤ ... ≤ xn un conjunto de n datos de una muestra
ordenada en orden creciente, la mediana se define por:
x n+1 Si n es impar
2
Me =
x 2 + x 2 +1 Si n es par
n n
2
Si el numero de datos es impar: Si n es impar, la mediana es el valor
que ocupa la posición n+1
2 una vez que los datos han sido ordenados
(en orden creciente o decreciente), porque éste es el valor central. Es
decir:
Me = x n+1
2
Si el numero de datos es par: Si n es par, la mediana es la media
aritmética de los dos valores centrales. Cuando n es par, los dos datos
n n
que están en el centro de la muestra ocupan las posiciones y + 1.
2 2
Es decir:
x n + x n2 +1
Me = 2
2
Ejemplo 3.7
Si tenemos 5 datos, que ordenados son: x1 = 3, x2 = 6, x3 = 7, x4 = 8, x5 = 9.
El valor central es el tercero:x 5+1 = x3 . Este valor, que es la mediana de ese
2
conjunto de datos, deja dos datos por debajo x1 = 3, x2 = 6 y otros dos por
encima de él x4 = 8, x5 = 9.
Alfredo Yerman Cortes Verbel.
3.3. MEDIANA. 76
Ejemplo 3.8
Si tenemos 6 datos, que ordenados son: x1 = 3, x2 = 6, x3 = 7, x4 = 8, x5 = 9,
x6 = 10. Hay dos valores que están por debajo del x 6 = x3 = 7 y otros dos que
2
quedan por encima del siguiente dato x 6 +1 = x4 = 8 . Por tanto, la mediana de
2
x3 + x4
este grupo de datos es la media aritmética de estos dos datos: Me = =
2
7+8
= 7,5
2
3.3.2. Mediana para datos agrupados.
Cuando los datos están tabulados, es decir ya han sido ordenados en una tabla
de distribución de frecuencias, es necesario considerar dos situaciones: cuando la
variable es discreta y cuando la variable es continua o los valores se han clasificado
por intervalos.
Mediana para datos agrupados cuando la variable es discreta.
Definición 3.5: Mediana para datos agrupados cuando la variable es discreta.
Cuando la variable es discreta, el procedimiento para ubicar la mediana es
el siguiente:
1. Debe disponerse de la distribución con sus frecuencias acumuladas.
n
2. Se calcula el valor de .
2
n
3. Se ubica la menor frecuencia acumulada que supere a . Esta fre-
2
cuencia se le simboliza por Fk donde k indica la posición de esta
frecuencia.
n
4. Se compara la frecuencia acumulada anterior, es decir Fk−1 con .
2
5. Al realizar esta comparación
pueden ocurrir uno de los dos casos: Que
n n
Fk−1 sea menor que 2 , Fk−1 < , en este caso la mediana será el
2
valor de lavariable que ocupe la posición k.O que Fk−1 sea igual a n2 ,
Fk−1 = n2 , en este caso caso la mediana será la media aritmética de
los valores de la variable que ocupan las posiciones Fk−1 y Fk .
Alfredo Yerman Cortes Verbel.
3.3. MEDIANA. 77
Ejemplo 3.9
Un grupo de personas presentó una prueba de aptitud. El número de respuestas
incorrectas que tuvieron se muestra en la siguiente tabla:
Número de respuestas incorretas número de personas Número acumulado de personas
xi fi Fi
0 3 3
1 7 10
2 20 30
3 30 60
4 15 75
5 10 85
6 3 88
7 2 90
Total 90
A la tabla se le ha añadido la tercera columna, correspondiente a las frecuencias
acumuladas.
n 90
Primero se calcula 2 = 2 = 45
Se ubica la menor frecuencia acumulada que supera a 45. En este caso es
la cuarta frecuencia acumula(60)
Se compara la frecuencia acumulada anterior con , o sea, la tercera, que en
este caso es 30. Como 30 es menor que 45, la mediana será el valor de la
variable que se encuentra en la cuarta posición, esto es 3. Luego,Me = 3
Lo cual significa que la mitad (o el 50 %) de las personas tuvieron 3 o menos de
3 respuestas incorrectas y la otra mitad (o el 50 %) tuvieron 3 o más respuestas
incorrectas.
La estadística es una ciencia que demuestra que si mi vecino tiene dos coches
y yo ninguno, los dos tenemos uno.
George Bernard Shaw5
5
George Bernard Shaw (Dublín, 26 de julio de 1856-Ayot St. Lawrence, Reino Unido; 2 de noviembre
de 1950), fue un dramaturgo, crítico y polemista irlandés cuya influencia en el teatro, la cultura y la
política occidentales se extiende desde 1880 hasta nuestros días. Recibió el Premio Nobel de Literatura
en 1925 y en 1938 compartió el Óscar al mejor guion adaptado por la versión cinematográfica de
Pigmalión, convirtiéndose en la primera persona en recibir el Premio Nobel y un Premio Óscar.
Alfredo Yerman Cortes Verbel.
3.3. MEDIANA. 78
Ejemplo 3.10
El número de empleados que tiene una muestra de pequeñas empresas, se mues-
tra en el cuadro 3.6
Número de respuestas incorretas número de personas Númeroacumulado de personas
xi fi Fi
3 4 4
4 12 16
5 20 36
6 24 60
7 30 90
8 15 105
9 8 113
10 7 120
Total 120
Cuadro 3.6: El número de empleados que tiene una muestra de pequeñas empre-
sas
n 120
Primero se calcula 2 = 2 = 60
Se ubica la menor frecuencia acumulada que supera a 45. En este caso es
la quinta frecuencia acumula (90)
Se compara la frecuencia acumulada anterior con n2 .o sea, la cuarta fre-
cuencia acumulada, que en este caso es 60. Como es igual a n2 o sea también
60, la mediana será la media aritmética de los valores de la variable que
están en las posiciones cuarta y quinta. Luego, Me = 6+7
2 empleados.
Lo cual significa que la mitad (o el 50 %) de las empresas tienen 6.5 em-
pleados o menos y la otra mitad (o el 50 %) tiene 6.5 empleados o más.
Mediana para datos agrupados cuando la variable es continua.
La mediana se encuentra en el intervalo donde la frecuencia acumulada llega
hasta la mitad de la suma de las frecuencias absolutas. Es decir tenemos que buscar
n
el intervalo en el que se encuentre .
2
Alfredo Yerman Cortes Verbel.
3.3. MEDIANA. 79
Definición 3.6: Mediana para datos agrupados cuando la variable es continua.
La mediana puede ser ubicada mediante la siguiente expresión:
n
2 − Fk−1
Me = Lk−1 + ak
fk
en donde se ubica la menor frecuencia acumulada que supere a n2 . Esta
frecuencia se simboliza por Fk . k indica la posición del intervalo en que
se encuentra la frecuencia acumulada que supera a n2 . Lk−1 es el límite
inferior de la clase donde se encuentra la mediana. n2 es la semisuma de las
frecuencias absolutas. Fk−1 es la frecuencia acumulada anterior a la clase
mediana. ak es la amplitud de la clase.
La mediana es independiente de las amplitudes de los intervalos
Ejemplo 3.11
La siguiente tabla muestra gasto (miles $) efectuado el mes pasado en manteni-
miento por una muestra de los buses de una empresa transportadora:
Gastos en mantenimiento Número de buses Número acumulado de buses
[Li−1 , Li ) fi Fi
[100, 200) 3 3
[200, 300) 7 10
[300, 400) 18 28
[400, 500) 12 40
[500, 600) 8 48
[600, 700) 2 50
Total 50
n 50
Se calcula 2 = 2 = 25
Se ubica la menor de las frecuencias acumuladas que supere a 25. En este
caso es la tercera frecuencia acumulada (28), es decir k = 3
Se calcula la mediana utilizando la fórmula anterior.
El límite inferior del tercer intervalo es Lk−1 = 300 ; la amplitud del tercer
intervalo es ak = 100; La frecuencia acumulada del intervalo anterior es
Fk = 10; la frecuencia del tercer intervalo es fk = 18. Entonces, la mediana
será: !
50
2 − 10
Me = 300 + 100 = 383,3
18
Alfredo Yerman Cortes Verbel.
3.3. MEDIANA. 80
Este valor significa que la mitad ( o el 50 %) de los buses gastaron en
mantenimiento 383.3 mil$ o menos y la otra mitad ( o el otro 50 %) gastó
383,3 mil$ o más.
Ejemplo 3.12
Se ha hecho un estudio de los precios de venta del agua y de la leche en cierto
hipermercado. Respecto al agua, se verificó que 3 marcas cuestan 0, 27 dolares,
2 cuestan 0, 21 dolares, 1 cuesta 0, 24 dolares, y otra más cuesta 0, 3 dolares.
En cuanto a la leche, se constató que 4 de las marcas costaban 0, 79 dolares, 3
costaban 0, 61 dolares, 2 costaban 0, 69 dolares, otras 2 costaban 0, 82 dolares y
una costaba 0, 73 dolares. Calcula e interpreta el valor de la mediana del precio
del agua y del precio de la leche.
El objetivo es calcular el precio mediano del agua y de la leche. Se comenzará
con los precios del agua. El experimento consiste en seleccionar marcas de agua
(individuos) y observar su precio (variable). La población son todas las marcas de
agua que hay en ese supermercado y se dispone de una muestra (quizás sean
todas las que hay) de 7 marcas. La variable es cardinal, de razón y continua
(porque los precios son números, 0 significa que no cuesta nada y, en principio,
cualquier precio es válido). Ahora se trata de calcular la mediana porque es lo
que se pide. Es decir, se busca un valor que deje la mitad de los datos por debajo
y la otra mitad por encima, una vez ordenados. Si se ordenan todos los datos
se tiene: 0,21, 0,21, 0,24, 0,27, 0,27, 0,27 y 0,3. El primer valor igual a 0,27 deja
3 marcas por encima y otras 3 por debajo, esto es, es el valor que está en el
medio, así que la mediana sería 0, 27. Calcular así la mediana cuando se tienen
muchos datos resultaría demasiado tedioso, por eso se realizará utilizando las
tablas. En realidad, se necesita conocer el punto en el que se lleva acumulada la
mitad, es decir, el 50 , % de la muestra. Por eso el cálculo se basa en la columna
de frecuencias acumuladas Fi .
xi ni fi Fi
0, 21 2 0, 2857 0, 2857
0, 24 1 0, 1429 0, 4286
0, 27 3 0, 1286 0, 8572
0, 3 1 0, 1429 1
Total 4 1 -
Cuadro 3.7: Tabla de frecuencias (precio del agua)
Según la Tabla 3.7, el 42, 86 % de las marcas cuestan 0, 24 dolares o menos,
mientras que el 85, 72 % de las marcas cuestan 0, 27 dolares o menos, así que
Alfredo Yerman Cortes Verbel.
3.3. MEDIANA. 81
se sobrepasa el 50 % justo cuando se consideran las marcas que cuestan 0, 27
dolares, luego Me = 0, 27 dolares. En general se debe buscar el primer valor
de Fi que sobrepasa el 0, 5, y el valor correspondiente xi será la mediana. En
conclusión el precio mediano del agua son 27 céntimos, que significa que la
mitad de las marcas cuestan 0, 27 dolares o menos y la otra mitad cuestan 0, 27
dolares o más (hay más formas de expresar eso, por ejemplo, se puede decir que
la mitad de las marcas cuestan a lo sumo 0, 27 dolares, etc.). El precio del agua
oscila alrededor de los 27 céntimos. En relación con los precios de la leche, el
planteamiento, el método y la justificación son similares a los del caso anterior;
si se ordena la muestra de menor a mayor se tiene
0, 61 - 0, 61 - 0, 61 - 0, 69 - 0, 69 - 0, 73 - 0, 79 - 0, 79 - 0, 79 - 0, 79 - 0, 82 - 0, 82
| {z } | {z }
La mitad de 12 son 6, el hueco entre el 0, 73 y el 0, 79 separa 6 datos por
debajo y 6 por encima, luego cualquier valor que esté entre esos 2 cumpliría la
condición para ser mediana. Si se necesita un solo número, se puede optar por
0, 73 + 0, 79
dar el número del medio: = 0, 76 dolares (y se asegura que la mitad
2
de las marcas cuestan 0, 76 o menos y la otra mitad 0, 76 dolares o más).
xi ni fi Fi
0, 61 3 0, 25 0, 25
0, 69 2 0, 1667 0, 4167
0, 73 1 0, 0833 0, 5
0, 79 4 0, 3333 0, 8333
0, 82 2 0, 1667 1
Total 12 1 -
Cuadro 3.8: Tabla de frecuencias (precio de la leche)
Al aplicar el método de cálculo con tablas (ver Tabla 3.8) aparece justo el
valor Fi = 0, 5, eso significa que exactamente la mitad de las marcas cuestan
0, 73 dolares o menos (o también 0, 73 dolares o más), pero el mismo razona-
miento es válido para todos los números entre 0, 73 y 0, 79. en consecuencia si el
0, 5 exacto aparece en la columna de Fi , la mediana es cualquier valor entre el
xi correspondiente y el siguiente (en particular, el punto medio podría servir de
representante). En conclusión, el precio mediano de la leche es cualquier valor
entre 73 y 79 céntimos. Se puede decir que la mitad de las marcas cuestan alre-
dedor de 76 céntimos o menos y la otra mitad cuestan alrededor de 76 céntimos
o más. El precio de la leche oscila alrededor de los 76 céntimos.
Alfredo Yerman Cortes Verbel.
3.3. MEDIANA. 82
Figura 3.2: Interpolación para aproximar la mediana.
Ejemplo 3.13
Un comercial dedica al 15 % de sus clientes menos de 10 minutos, al 38 %
entre 10 y 30 minutos y al resto entre 30 y 60 minutos. Calcula e interpreta la
mediana del tiempo de atención por cliente.
El objetivo es calcular la mediana del tiempo de atención por cliente; el expe-
rimento consiste en seleccionar clientes (individuos) y observar el tiempo que les
dedica un comercial (variable). La población son todos sus clientes y la muestra,
en este caso, coincide con la población. La variable es cardinal, de razón y conti-
nua (porque el tiempo se mide con números, 0 significa que no le dedica tiempo y
podría dedicarle cualquier cantidad de tiempo). Se trata entonces de calcular la
mediana, es decir, se busca un valor que deje el 50 % de los clientes por debajo y
el otro 50 % por encima. En primer lugar hay que extraer la tabla de frecuencias.
Para calcular la mediana se necesitan las frecuencias acumuladas
clases fi Fi
[0, 10] 0, 15 0, 15
(10, 30] 0, 38 0, 53
(30, 60] 0, 47 1
Cuadro 3.9: Tabla de frecuencias.
En primer lugar se debe localizar el intervalo donde está la mediana. En la
Tabla 3.9 se observa que cuando se pasa por el 10 se lleva acumulado el 15 %,
en cambio al pasar por el 30 ya es el 53 %. Eso significa que el 50 %, es decir,
el valor que se corresponde a la mediana, está entre 10 y 30. La idea está en
suponer que la Fi se va acumulando paulatinamente desde 0, 15 hasta 0, 53, es
Alfredo Yerman Cortes Verbel.
3.3. MEDIANA. 83
decir, siguiendo la pendiente del triángulo grande de la Figura ??. Así que se
trata de ver cuanto se lleva acumulado hasta 0, 5, es decir, lo que corresponde a
la pendiente del triángulo pequeño. Siguiendo la regla de triángulos semejantes
(base grande es a altura grande lo mismo que base pequeña es a altura pequeña),
se tiene la siguiente regla de tres (ver figura 3.2):
base grande = 30 − 10¯¯˘altura grande = 0,53 − 0, 15
base pequeña = −10¯¯˘alturapeque˜na = 0, 5 − 0,15
Entonces
20 ¯¯˘ 0, 38
x − 10 ¯¯˘ 0, 35
por lo que
20 · 0, 35
x − 10 =
0, 38
x − 10 = 18, 4211
x = 18, 4211 + 10
x = 28, 4211
En conclusión: Me = 28, 4211 minutos, que significa que ese comercial le de-
dica a la mitad de sus clientes 28, 4211 minutos o menos y a la otra mitad les
dedica 28, 4211 o más. Esto es una aproximación, porque se supuso que los tiem-
pos estaban uniformemente repartidos en ese intervalo y esto no tiene porque
ser exactamente así. El tiempo que le dedica el comercial a cada cliente oscila
alrededor de aproximadamente 28, 4211 minutos.
3.3.3. Ventajas y desventajas de la mediana.
Ventajas de la mediana.
No es un promedio matemático, pues no está definida por una fórmula alge-
braica sino por un procedimiento para su localización.
En su cálculo no intervienen todos los valores que toma la variable, únicamente
intervienen los valores centrales.
No se ve afectada por valores extremos o atípicos de la variable.
Alfredo Yerman Cortes Verbel.
3.4. MODA. 84
Es el promedio más adecuado cuando se dispone de una distribución de fre-
cuencias con intervalos de amplitud variable.
También es adecuado como promedio cuando se tienen los datos ordenados
en una distribución de frecuencias con intervalos de amplitud variable.
desentajas de la mediana
Para su calculo se deben intentar ordenar los datos, esto implica un consumo
de tiempo para cualquier conjunto de datos con un gran número de datos
3.4. Moda.
Definición 3.7: Moda.
La moda que se representa por Mo , es el valor con una mayor frecuencia en
una distribución de datos.
Hablaremos de una distribución bimodal de los datos adquiridos en una columna
cuando encontremos dos modas, es decir, dos datos que tengan la misma frecuencia
absoluta máxima. Una distribución trimodal de los datos es en la que encontramos
tres modas. La llamaremos multimodal si tiene mas de tres modas. Si todas las
variables tienen la misma frecuencia diremos que no hay moda.
3.4.1. Moda para datos no agrupados.
Basados en lo dicho anteriormente tenemos que la moda es La moda es el valor
que tiene mayor frecuencia absoluta.
Ejemplo 3.14
La moda de la distribución:2, 3, 3, 4, 4, 4, 5, 5 es Mo = 4
Ejemplo 3.15
La moda de la distribución:1, 1, 1, 4, 4, 5, 5, 5, 7, 8, 9, 9, 9 es Mo = 1, Mo = 5,
Mo = 9. Esta es una distribución multimodal.
3.4.2. Moda para datos agrupados.
Alfredo Yerman Cortes Verbel.
3.4. MODA. 85
Todos los intervalos tienen la misma amplitud
Calculamos el intervalo o clase modal que es el de mayor frecuencia absoluta.
Cuando tratamos con datos agrupados antes de definir la moda, se ha de definir el
intervalo modal.
Definición 3.8: Moda para datos agrupados.
Con la letra k indicamos la posición del intervalo en donde se encuentra la
mayor frecuencia absoluta. luego aplicamos la siguiente formula:
fk − fk−1
Mo = Lk−1 + ak
(fk − fk−1 ) + (fk − fk+1 )
Donde Lk−1 es el límite inferior de la clase modal, fk es la frecuencia absoluta
de la clase modal, fk−1 es la frecuencia absoluta inmediatamente inferior a
la en clase modal, fk−1 es la frecuencia absoluta inmediatamente posterior
a la clase modal, ai es la amplitud de la clase.
También se utiliza otra fórmula de la moda que da un valor aproximado de
ésta:
fk+1
Mo = Lk−1 + ak
fk−1 + fk+1
Ejemplo 3.16
Calcular la moda de una distribución estadística que viene dada por la siguiente
tabla:
Intervalos fi
[60, 63) 5
[63, 66) 18
[66, 69) 42
[69, 72) 27
[72, 75) 8
Total 100
La mayor frecuencia que es de 42, se encuentra en el tercer intervalo, entonces
k = 3; luego f3 = 42,la frecuencia anterior fk−1 = f3−1 = f2 = 18, la frecuencia
posterior fk+1 = f3+1 = f4 = 27. La amplitud del tercer intervalo es ak = a3 = 3
y el limite inferior de la clase modal es Lk−1 = L3−1 = L2 = 66. Entonces la moda
Alfredo Yerman Cortes Verbel.
3.4. MODA. 86
será
f3 − f3−1
Mo = L3−1 + a3
(f3 − f3−1 ) + (f3 − f3+1 )
42 − 18
= 66 + 3
(42 − 18) + (42 − 27)
= 67,8
Los intervalos tienen distinta amplitud
fi
En primer lugar tenemos que hallar las alturas dadas por la formula hi = ai .
La clase modal es la que tiene mayor altura. Luego aplicamos la formula
hk − hk−1
Mo = Lk−1 + ak
(hk − hk−1 ) + (hk − hk+1 )
La fórmula de la moda aproximada cuando existen distintas amplitudes es:
hk+1
Mo = Lk−1 + ak
hk−1 + hk+1
Ejemplo 3.17
En la siguiente tabla se muestra las calificaciones (Insuficiente, básico,aceptable
y sobresaliente) obtenidas por un grupo de 50 alumnos. Calcular la moda.
fi hi
[0, 5) 15 3
[5, 7) 20 10
[7, 9) 12 6
[9, 10) 3 3
Total 50
La clase modal es la del segundo intervalo luego k = 2
h2 − h2−1
Mo = L2−1 + a2
(h2 − h2−1 ) + (h2 − h2+1 )
10 − 3
= 5+ 2
(10 − 3) + (10 − 6)
= 6,33
Alfredo Yerman Cortes Verbel.
3.4. MODA. 87
Ejemplo 3.18
En una encuesta se les preguntó a 16 personas si su hogar era de alquiler o
en propiedad. Las contestaciones fueron: alquiler, alquiler, propiedad, alquiler,
no sabe/no contesta, alquiler, propiedad, alquiler, propiedad, propiedad, alquiler,
alquiler, no sabe/no contesta, alquiler, propiedad, y alquiler. ¿Qué valor representa
el centro de esa distribución?
El objetivo es encontrar el “centro” de la distribución del régimen de propiedad
(alquiler o propiedad). El experimento consiste en seleccionar personas y observar
si su hogar es alquilado o lo tienen en propiedad. La población serán todas las
personas (con hogar) y se tiene una muestra de 16 datos. La variable es nominal,
porque los valores (alquiler/propiedad) son nombres que no se pueden ordenar.
Como la variable es nominal, no se puede utilizar ni la media ni la mediana,
por lo que se utilizará la moda.
Según la distribución de la Tabla 3.10 el mayor ni , que es 9, se corresponde
al alquiler, luego Mo = alquiler.
xi ni
Alquiler 9
Propiedad 5
NS/NC 2
Total 16
Cuadro 3.10: Tabla de frecuencias.
Esto es el centro de la distribución se situaría en la modalidad de alquiler,
por ser la mas frecuente.
3.4.3. Ventajas y desventajas de la moda.
Ventajas.
La moda es un promedio de posición, pues no está definida por una fórmula
algebraica.
En el cálculo de la moda no intervienen todos los valores que toma la variable,
pues solo intervienen los valores más frecuentes.
No se afecta por la presencia de valores atípicos.
Es útil cuando se desea determinar el valor que es típico o característico de
un grupo
Alfredo Yerman Cortes Verbel.
3.5. FRACTILES: CUARTILES, DECILES Y PERCENTILES. 88
Es el promedio más adecuado cuando se encuentre que un valor presenta una
frecuencia grande comparada con las demás
Puede usarse para datos tanto cuantitativos como cualitativos
Desventajas.
No es recomendable utilizarla en distribuciones de frecuencias que tengan
intervalos de amplitud variable
Para conjuntos pequeños de datos su valor no tiene casi utilidad, si es que de
hecho existe.
Solo tiene significado en el caso de una gran cantidad de datos.
No utiliza toda la información disponible.
No siempre existe, si los datos no se repiten
3.5. Fractiles: Cuartiles, Deciles y Percentiles.
Anteriormente se ha visto que la mediana permite dividir a los elementos en dos
grupos de tal forma que en cada grupo queda la mitad de los elementos: la mitad o
el 50 % de los elementos toman un valor menor o igual a la mediana y el otro 50 %
toma un valor mayor o igual a la mediana. Esta idea puede extenderse para dividir
a los elementos en cualquier número determinado de partes iguales. Las cuantilas
o fractiles, son valores del recorrido de la variable que dividen a la distribución en
partes iguales. Los más conocidos son los cuartiles, deciles y percentiles:
3.5.1. Cuartiles.
Son tres valores de la variable que dividen su recorrido en cuatro partes iguales,
dejando en cada parte el 25 % de los elementos. Para dividir en cuatro partes se
requieren tres valores: Q1 o primer cuartil; Q2 o segundo cuartil y Q3 o tercer cuartil.
Q2 coincide con la mediana
Cuartiles para datos no agrupados
Alfredo Yerman Cortes Verbel.
3.5. FRACTILES: CUARTILES, DECILES Y PERCENTILES. 89
Definición 3.9: Cuartiles para datos no agrupados.
Si x1 , x2 , ..., xn son observaciones ordenados en forma ascendente de la va-
riable X ,entonces para t = 1, 2, 3 tenemos
Qt = x 25t(n+1) = x t(n+1)
100 4
Es importante considerar que si el cálculo no corresponde con la posición
exacta entonces se usa interpolación lineal. En el caso en que la posición
no corresponda exactamente con la posición la interpolación se realiza de
la siguiente forma:
t x( tn +1) − x tn
4 4
Qt = x tn + (3.1)
4 4
Cuartiles para datos agrupados.
Definición 3.10: Cuartiles para datos agrupados.
Cuando los datos se encuentran agrupados en una tabla de frecuencias de m
intervalos, primero se debe ubicar el intervalo donde se sabe se encontrará
el cuartil, es decir, un intervalo tal que la frecuencia porcentual acumula-
da hasta él sea al menos 25t % y la frecuencia porcentual acumulada hasta
el intervalo anterior a él sea inferior al 25t %. Es decir se ubica la menor
frecuencia acumulada que supere a tn 4 . Si se denota por Ik a tal intervalo,
donde k indica el número del intervalo en donde se encuentra esta frecuen-
cia; entonces.
tn
− Fk−1
Qt = Lk−1 + 4 ak
fk
Donde: Lk−1 es el límite inferior del intervalo que contiene al cuartil, Fk−1 es
la frecuencia absoluta acumulada hasta el intervalo anterior al intervalo que
contiene al cuartil; Fk es la frecuencia absoluta del intervalo que contiene
al cuartil y ak es la amplitud del intervalo que contiene al cuartil.
Alfredo Yerman Cortes Verbel.
3.5. FRACTILES: CUARTILES, DECILES Y PERCENTILES. 90
3.5.2. Diagramas de cajas y bigotes
Figura 3.3: Diagrama Cajas y Bigotes
Un diagrama de cajas y bigotes es una manera conveniente de mostrar visual-
mente grupos de datos numéricos a través de sus cuartiles.
Las líneas que se extienden paralelas a las cajas se conocen como « bigotes
», y se usan para indicar variabilidad fuera de los cuartiles superior e inferior.
Los valores atípicos se representan a veces como puntos individuales que están en
línea con los bigotes. Los diagramas de cajas y bigotes se pueden dibujar vertical
u horizontalmente.
Normalmente utilizado en estadísticas descriptivas, los gráficos de cajas y bi-
gotes son una excelente forma de examinar rápidamente uno o más conjuntos de
datos gráficamente. Aunque parezcan primitivos en comparación con un Histograma
o un Gráfico de Densidad, tienen la ventaja de ocupar menos espacio, lo cual es útil
cuando se comparan distribuciones entre muchos grupos o conjuntos de datos.
Estas son algunas de las observaciones que se puede hacer al ver un diagrama
de cajas y bigotes:
Cuáles son los valores clave, tales como: el promedio, el percentil 25 medio,
etc.
Si hay valores atípicos y cuáles son sus valores.
Si los datos son simétricos.
Alfredo Yerman Cortes Verbel.
3.5. FRACTILES: CUARTILES, DECILES Y PERCENTILES. 91
Cuán estrechamente se agrupan los datos.
Si los datos están sesgados y si es así, en qué dirección.
Figura 3.4: Descripción de un diagrama cajas y bigotes
Construcción gráficas de cajas y bigotes
Como ya se dijo una gráfica de este tipo consiste en una caja rectangular;
donde los lados más largos muestran el recorrido intercuartílico. Este rectángulo
está dividido por un segmento vertical que indica donde se posiciona la mediana
y por lo tanto su relación con los cuartiles primero y tercero(recordemos que el
segundo cuartil coincide con la mediana). Esta caja se ubica a escala sobre un
segmento que tiene como extremos los valores mínimo y máximo de la variable. Las
lineas que sobresalen de la caja se llaman bigotes. Estos bigotes tienen tienen un
límite de prolongación, de modo que cualquier dato o caso que no se encuentre
dentro de este rango es marcado e identificado individualmente.
Alfredo Yerman Cortes Verbel.
3.5. FRACTILES: CUARTILES, DECILES Y PERCENTILES. 92
Figura 3.5: Distribución de frecuencias, que representan las edades de un grupo de
20 personas.
Ejemplo 3.19: Distribución de Edades
Utilizamos la distribución de frecuencias, que representan la edad de un colectivo
de 20 personas.36 - 25 - 37 - 24 - 39 - 20 - 36 - 45 - 31 - 31-39 - 24 - 29 - 23 -
41 - 40 - 33 - 24 - 34 - 40.
Ordenar Los Datos
Para calcular los parámetros estadístico, lo primero es ordenar la distribución:
20 - 23 - 24 - 24 - 24 - 25 - 29 - 31 - 31 - 33 - 34 - 36 - 36 - 37 - 39 - 39 40 -
40 - 41 - 45.
Calcular los cuartiles
Q1 , el cuartil Primero es el valor mayor que el 25 % de los valores de la
distribución. Como N = 20 resulta que N4 = 5; el primer cuartil es la media
aritmética de dicho valor y el siguiente:
24 + 25
Q1 =
2
= 24, 5
Q2 , el Segundo Cuartil es, evidentemente, la mediana de la distribución, es el
valor de la variable que ocupa el lugar central en un conjunto de datos ordenados.
Como N2 = 10; la mediana es la media aritmética de dicho valor y el siguiente:
me = Q 2
33 + 34
=
2
= 33, 5
Q3 , el Tercer Cuartil, es el valor que sobrepasa al 75 % de los valores de la
distribución. En nuestro caso, como 3N 4 = 15, resulta
39 + 39
Q2 =
2
= 39
Dibujar la caja y bigotes
Alfredo Yerman Cortes Verbel.
3.5. FRACTILES: CUARTILES, DECILES Y PERCENTILES. 93
Veamos la figura 3.5
El bigote de la izquierda representa al colectivo de edades (Xmín , Q1 ).
La primera parte de la caja a (Q1 , Q2 ),
La segunda parte de la caja a (Q2 , Q3 )
El bigote de la derecha viene dado por (Q3 , Xmáx ).
Información del diagrama
Podemos obtener abundante información de una distribución a partir de estas
representaciones. Veamos:
La parte izquierda de la caja es mayor que la de la derecha; ello quiere
decir que las edades comprendidas entre el 25 % y el 50 % de la población
está más dispersa que entre el 50 % y el 75 %.
El bigote de la izquierda (Xmín , Q1 ) es más corto que el de la derecha; por
ello el 25 % de los más jóvenes están más concentrados que el 25 % de los
mayores.
El rango intercuartílico = Q3 − Q1 = 14, 5; es decir, el 50 % de la población
está comprendido en 14, 5 años.
Figura 3.6: Tomado de Montt, A. (2013, octubre 20). Matemáticas, Estadística, Galli-
nas y Alberto Montt. | Matemolivares. [Link]
matematicas-estadistica-gallinas-y-alberto-montt..php
Alfredo Yerman Cortes Verbel.
3.5. FRACTILES: CUARTILES, DECILES Y PERCENTILES. 94
Ejemplo 3.20: Comparación entrenamientos de un corredor
Un corredor entrena para una determinada carrera y se toman los tiempos que
necesita para recorrer los 200 m, durante 10 días consecutivos (cada día se toman
varios tiempos y se calculan mediana, cuartiles, valores mínimo y máximo). Ob-
servamos que el desplazamiento de las gráficas de caja hacia la izquierda indica
que el entrenamiento ha dado resultado, ya que se tardan menos segundos en
recorrer la misma distancia, siendo la diferencia entre el máximo y el mínimo
menor, como así también la diferencia intercuartílica.
Figura 3.7: Comparación entrenamientos de un corredor
3.5.3. Deciles.
Son nueve valores de la variable que dividen su recorrido en diez partes iguales;
dividen a los elementos en 10 grupos iguales, dejando en cada grupo el 10 % de los
elementos. Se requieren nueve valores para dividir en 10 grupos, que son denotados
D1 , D2 , ..., D9 o decil 1, decil 2,. . . , decil 9. D5 coincide con la mediana
Deciles para datos no agrupados.
Alfredo Yerman Cortes Verbel.
3.5. FRACTILES: CUARTILES, DECILES Y PERCENTILES. 95
Definición 3.11: Deciles para datos no agrupados.
Si x1 , x2 , ..., xn son observaciones ordenados en forma ascendente de la va-
riable X ,entonces para t = 1, 2, 3, ..., 9 tenemos
Dt = x 10tn = x tn
100 10
Deciles para datos agrupados.
Definición 3.12: Deciles para datos agrupados.
Cuando los datos se encuentran agrupados en una tabla de frecuencias de
m intervalos, primero se debe ubicar el intervalo donde se sabe se encontrar
á el decil, es decir, un intervalo tal que la frecuencia porcentual acumulada
hasta él sea al menos 10t % y la frecuencia porcentual acumulada hasta
el intervalo anterior a él sea inferior al 10t %. Es decir se ubica la menor
tn
frecuencia acumulada que supere a 10 . Si se denota por Ik a tal intervalo,
donde k indica el número del intervalo en donde se encuentra esta frecuencia,
entonces.
tn
10 − Fk−1
Dt = Lk−1 + ak
fk
Donde: Lk−1 es el límite inferior del intervalo que contiene al decil, Fk−1 es
la frecuencia absoluta acumulada hasta el intervalo anterior al intervalo que
contiene al decil; Fk es la frecuencia absoluta del intervalo que contiene al
decil y ak es la amplitud del intervalo que contiene al decil.
3.5.4. Percentiles.
Son noventa y nueve valores de la variable que dividen su recorrido en cien
partes iguales, es decir dividen a los elementos en cien grupos iguales, dejando en
cada grupo el 1 % de los elementos. Se requieren noventa y nueve valores, denotados
P1 , P2 , ..., P99 o percentil 1, percentil 2, percentil 3,. . . , percentil 99.
Alfredo Yerman Cortes Verbel.
3.5. FRACTILES: CUARTILES, DECILES Y PERCENTILES. 96
Percentiles para datos no agrupados.
Definición 3.13: Percentiles para datos no agrupados.
Si x1 , x2 , ..., xn son observaciones ordenados en forma ascendente de la va-
riable X ,entonces para t = 1, 2, 3, ..., 99 tenemos
Pt = x tn
100
Percentiles para datos agrupados.
Definición 3.14: Percentiles para datos agrupados.
Cuando los datos se encuentran agrupados en una tabla de frecuencias de m
intervalos, primero se debe ubicar el intervalo donde se sabe se encontrará el
percentil, es decir, un intervalo tal que la frecuencia porcentual acumulada
hasta él sea al menos t % y la frecuencia porcentual acumulada hasta el
intervalo anterior a él sea inferior al t %. Es decir se ubica la menor frecuencia
tn
acumulada que supere a 100 . Si se denota por Ik a tal intervalo, donde
k indica el número del intervalo en donde se encuentra esta frecuencia,
entonces.
tn
100 − Fk−1
Pt = Lk−1 + ak
fk
Donde: Lk−1 es el límite inferior del intervalo que contiene al percentil, Fk−1
es la frecuencia absoluta acumulada hasta el intervalo anterior al intervalo
que contiene al percentil; Fk es la frecuencia absoluta del intervalo que con-
tiene al percentil y ak es la amplitud del intervalo que contiene al percentil.
Ejemplo 3.21
Para hallar los cuartiles del conjunto de datos 2, 5, 3, 6, 7, 4, 9;
Primero ordenamos los datos de menor a mayor, x1 = 2, x2 = 3, x3 = 4, x4 =
5, x5 = 6, x6 = 7, x7 = 9
Luego buscamos el lugar que ocupa cada cuartil
Q1 = x 1·(7+1) = x2 = 3
4
Q2 = x 2·(7+1) = x4 = 5
4
Q3 = x 3·(7+1) = x6 = 7
4
Alfredo Yerman Cortes Verbel.
3.6. EVALUACIÓN POR COMPETENCIAS 97
Figura 3.8: Relación entre cuartiles, deciles y percentiles
3.6. Evaluación por competencias
3.6.1. Ejercicios de aplicación
1. En un supermercado trabajan 30 personas con un sueldo medio mensual de
180 dólares. ¿Cuánto ganan mensualmente entre todos?.
2. En una oficina el sueldo medio mensual es de 250 dólares. Si entre todos
los empleados de la oficina ganan 4,500 dólares ¿Cuántos empleados son en
total?
3. Un niño tiene en su bolsillo 7 monedas de 25 centavos, otro tiene 11 monedas
de 10 centavos. Si un tercer niño tiene 15 monedas de 5 centavos; mientras
que un cuarto tiene 3 monedas de un dólar. ¿Cuál es la cantidad media de
dinero que tienen entre los cuatro?.
4. Están reunidos cuatro amigos cuya edad media es 23 años y se incorpora
un nuevo amigo cuya edad es de 43 años. ¿Cuál es la nueva edad media del
grupo?.
5. En una oficina en que laboran 9 empleados el sueldo medio mensual es de
1,200 dólares. El próximo mes se jubilará un empleado que gana 800 dólares y
uno que gana 2,000; mientras que la empresa contratará a un nuevo empleado
joven al que pagará 400 dólares mensuales. ¿Cuál será entonces el nuevo
sueldo medio mensual de la empresa?.
6. El peso medio de 5 señoritas es de 98 libras, mientras que el peso medio de
12 varones es de 110 libras.¿Cuál es el peso medio de las 17 personas?
7. Un grupo de clase formado por 30 varones y 20 señoritas tiene en matemática
una nota media de 6.2. Si la nota media de las señoritas es de 6.8. ¿Cuál es
la media de los varones?.
Alfredo Yerman Cortes Verbel.
3.6. EVALUACIÓN POR COMPETENCIAS 98
8. Seis familiares viven en las ciudades que se detallan en el siguiente diagrama
(las distancias entre ciudad y ciudad aparecen en kilómetros). Ver figura 3.9
Figura 3.9: ¿Dónde deberán hacerlo para que el número medio de kilómetros reco-
rridos por todos sea mínimo?
Si desean reunirse en la casa de uno cualquiera de ellos, para celebrar juntos
la navidad.
a) ¿Dónde deberán hacerlo para que el número medio de kilómetros reco-
rridos por todos sea mínimo?.
b) ¿En qué lugar el número medio de kilómetros recorridos por todos sería
máximo?
9. En un examen calificado del 0 al 10, 3 personas obtuvieron 5 de nota, 5
personas obtuvieron 4 de nota, y 2 personas obtuvieron 3 de nota. Calcular
la mediana. En un examen calificado del 0 al 10, 3 personas obtuvieron 5 de
nota, 5 personas obtuvieron 4 de nota, y 2 personas obtuvieron 3 de nota.
Calcular la moda.
10. Unos grandes almacenes disponen de un parqueo para sus clientes. Los si-
guientes datos que se refieren al número de horas que permanecen en el
parqueo una serie de vehículos: 4 -4 -2 -4 -5 -3 -6 -3 -5 -3-2 -1 -3 -7 -3 -1
-5 -1 -7 -2 -5 -2 -4 -7 -3 -6 -2 -2 -4 -1 -6 -4 -3 -3 -4-5 -4 -3 -2 -4-3 -2 -4
-4 -3 -6 -6 -4 -5 -5 -4 -5 -5 -1 -7 -4 -4 -3 -6 -5. Se pide:
a) Obtener la tabla de frecuencias para ese conjunto de datos. Interpretar
la tabla.
b) Determinar e interpretar el tercera cuartil y el percentil 42 %.
c) Calcular el tiempo medio de permanencia de los vehículos en el parqueo.
Interpretar el resultado y los elementos que intervienen.
11. Se ha pasado un test de 80 preguntas a 600 personas. El número de respuestas
correctas se refleja en la siguiente tabla:
Alfredo Yerman Cortes Verbel.
3.6. EVALUACIÓN POR COMPETENCIAS 99
Respuestas correctas Numero de Personas
[0, 10) 40
[10, 20) 60
[20, 30) 75
[30, 40) 90
[40, 50) 105
[50, 60) 85
[60, 70) 80
[70, 80) 65
Cuadro 3.11
a) Calcular la media.
b) Calcula la mediana, los cuartiles y los percentiles 20 y 85.
c) ¿Cuál es el percentil de una persona que tiene 65 respuestas correctas?
12. En una gasolinera estudian el número de vehículos que repostan a lo largo
de un día, obteniendo:
Horas [0, 4) [4, 8) [8, 12) [12, 16) [16, 20) [20, 24)
N° de Vehiculos 8 14 110 120 150 25
Cuadro 3.12: Calcular Me y Q3 .
Calcular Me y Q3
13. Observados los alquileres de un conjunto de despachos se ha obtenido:
Alquileres en millones fi
[0, 15) 17
[15, 30) 130
[30, 45) 180
[45, 60) 30
[60, 75) 10
[75, 90) 5
Cuadro 3.13: Calcula la moda y la mediana.
Calcula la moda y la mediana.
Alfredo Yerman Cortes Verbel.
3.6. EVALUACIÓN POR COMPETENCIAS 100
14. El índice de masa corporal (IMC) es el peso de una persona en kilogramos
dividido por el cuadrado de la estatura en metros. Es una manera fácil y
económica para detectar categorías de peso que pueden provocar problemas
de salud. Para los niños y adolescentes, el IMC es específico con respecto
a la edad y el sexo, y con frecuencia se conoce como el IMC por edad. En
los niños, una gran cantidad de grasa corporal puede provocar enfermedades
relacionadas con el peso y otros problemas de salud. Tener bajo peso también
puede poner a uno en riesgo de problemas de salud. Un IMC alto puede indicar
una grasa corporal elevada. El IMC no mide la grasa corporal directamente,
pero el IMC se correlaciona con medidas más directas de la grasa corporal.
Peso(K g)
IMC =
estatura2 (mts2 )
Las tablas de crecimiento percentil del IMC6 por edad son indicadores que
se utilizan con mayor frecuencia para medir el tamaño y los patrones de
crecimiento de niños y adolescentes en los Estados Unidos. Las categorías
del nivel de peso del IMC por edad y sus percentiles correspondientes se
muestran en la siguiente tabla.
Categoría de estado de peso Rango percentil
Bajo peso Menos del percentil 5
Peso saludable Percentil 5 hasta por debajo del percentil 85
Sobrepeso Percentil 85 hasta por debajo del percentil 95
Obesidad Igual o mayor al percentil 95
Cuadro 3.14: Categorías de estado de peso según el percentil
Vea el siguiente ejemplo de cómo algunas muestras de números de IMC deben
interpretarse para un varón de 10 años.(ver figura 3.10)
Calcule su IMC y a partir de las gráficas de percentiles del índice de masa
corporal por edad niñas (figura 3.11) o percentiles del índice de masa corporal
6
Después de calcular el IMC para niños y adolescentes, se muestra como un percentil que proviene
de una gráfica o calculadora de percentiles disponible a continuación. Estos percentiles expresan el
IMC de un niño en relación con los niños estadounidenses que participaron en encuestas nacionales
de 1963-65 a 1988-944. El peso y la estatura cambian durante el crecimiento y el desarrollo, al igual
que su relación con la grasa corporal. Debido a esto, el IMC de un niño debe interpretarse en relación
con otros niños del mismo sexo y edad
Alfredo Yerman Cortes Verbel.
3.6. EVALUACIÓN POR COMPETENCIAS 101
Figura 3.10: Percentiles por edad para el indice de masa corporal de varones de 2
a 20 años
Alfredo Yerman Cortes Verbel.
3.6. EVALUACIÓN POR COMPETENCIAS 102
por edad niños (figura 3.12) identifique el rango de percentil en que usted se
encuentra y su categoría de estado de peso; interprete el resultado.
15. A partir de las gráficas de percentiles de estatura por edad y peso por edad
para niñas y para niños (ver figura 3.13 y 3.14) ubique e indique en que
percentil de estatura por edad y peso por edad se encuentra usted;interprete
el resultado.
3.6.2. Evaluando saberes
Las siguientes preguntas son preguntas de selección múltiple con única res-
puesta, TIPO I. Este tipo de preguntas consta de un enunciado y cuatro opciones de
respuesta identificadas con las letras a, b, c, d . Lea detenidamente cada pregunta
y rellene el paréntesis de la respuesta correcta (solo una).
RESPONDA LAS PREGUNTAS DE LA 36 A LA 8 CON BASE EN LA SIGUIENTE
INFORMACIÓN
Psicología, una carrera cada vez más ligada al mundo organizacional7
Si bien no se tienen datos de la realidad en empleabilidad y remuneraciones
de los psicólogos por especialidad, la página Mi Futuro señala que un titulado en
esta materia tiene un 78, 9 % de ser contratado antes de cumplir un año de egreso.
Al segundo año la cifra se eleva hasta el 87, 8 %, lo que refleja la necesidad del
mercado por estos profesionales.
En cuanto a los salarios, el estudio del portal ligado al Ministerio de Educación
indica que en promedio al año de labores un psicólogo puede percibir 528 mil pesos
mensuales. En el mismo período en los extremos, es decir entre el 10 % que más gana
y el 10 % con menores rentas, los números son de 780 mil y 250 mil, respectivamente.
A los cinco años de experiencia se nota un incremento en todos los segmentos,
siendo la renta promedio 815 mil pesos al mes, mientras que el decil con mejor
sueldo llega a los 1, 3 millones. En la otra punta el salario alcanza a los 377 mil. [...]
7
Tomado de [Link]
[Link]
Alfredo Yerman Cortes Verbel.
3.6. EVALUACIÓN POR COMPETENCIAS 103
2 a 20 años: Niñas Nombre
Percentiles del Índice de Masa Corporal por edad # de Archivo
Fecha Edad Peso Estatura IMC* Comentarios
IMC
35
34
33
32
95
31
30
*Para calcular el IMC: Peso (kgs) ÷ Estatura (cm) ÷ Estatura (cm) x 10.000
o Peso (lbs) ÷ Estatura (pulgadas) ÷ Estatura (pulgadas) x 703 29
IMC 28
90
27 27
26 85 26
25 25
24 75 24
23 23
22 22
50
21 21
20 20
25
19 19
10
18 5
18
17 17
16 16
15 15
14 14
13 13
12 12
kgs/m
2
EDAD (AÑOS) kgs/m
2
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Alfredo Yerman Cortes Verbel.
Publicado el 30 de mayo del 2000 (modificado el 16 de octubre del 2000).
FUENTE: Desarrollado por el Centro Nacional de Estadísticas de Salud en colaboración con el
Centro Nacional para la Prevención de Enfermedades Crónicas y Promoción de Salud (2000).
[Link]
Figura 3.11: Percentiles por edad para el indice de masa corporal de niñas de 2 a
20 años
3.6. EVALUACIÓN POR COMPETENCIAS 104
2 a 20 años: Niños Nombre
Percentiles del Índice de Masa Corporal por edad # de Archivo
Fecha Edad Peso Estatura IMC* Comentarios
IMC
35
34
33
32
31
30
*Para calcular el IMC: Peso (kgs) ÷ Estatura (cm) ÷ Estatura (cm) x 10.000 95
o Peso (lbs) ÷ Estatura (pulgadas) ÷ Estatura (pulgadas) x 703 29
IMC 28
90
27 27
26 85 26
25 25
75
24 24
23 23
50
22 22
21 21
25
20 20
10
19 19
5
18 18
17 17
16 16
15 15
14 14
13 13
12 12
kgs/m
2
EDAD (AÑOS) kgs/m
2
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Alfredo Yerman Cortes Verbel.
Publicado el 30 de mayo del 2000 (modificado el 16 de octubre del 2000).
FUENTE: Desarrollado por el Centro Nacional de Estadísticas de Salud en colaboración con el
Centro Nacional para la Prevención de Enfermedades Crónicas y Promoción de Salud (2000).
[Link]
Figura 3.12: Percentiles por edad para el indice de masa corporal de niños de 2 a
20 años
3.6. EVALUACIÓN POR COMPETENCIAS 105
2 a 20 años: Niñas Nombre
Percentiles de Estatura por edad y Peso por edad # de Archivo
12 13 14 15 16 17 18 19 20
Estatura de la Madre Estatura del Padre cm pul.
Fecha Edad Peso Estatura IMC*
EDAD (AÑOS) 76
190
74
185
72 E
180 S
70
97 175 T
68 A
*Para calcular el IMC: Peso (kgs)÷ Estatura (cm) ÷ Estatura (cm) x 90
170 T
10.000 o Peso (lbs) ÷ Estatura (pulgadas) ÷ Estatura (pulgadas) x 703 75 66 U
pul. cm 3 4 5 6 7 8 9 10 11 50
165 R
64 A
160 25 160
62 62
155 10 155
60 3
60
150 150
58
145
56
140 105 230
54
135 100 220
E
52
S 130 95 210
T 50
A 125 90 200 97
T 48 190
120 85
U
46 180
R 115 80
A 44 170
110 90 75
42 160
105 70
150 P
40 75 E
100 65 140
38 S
95 60 130 O
50
36 90 55 120
25
34 85 50 110
10
32 80 3 45 100
30
40 90
80 35 35 80
70 70
30 30
P 60 60
E 25 25
S 50 50
O 20 20
40 40
15 15
30 30
10 10
lbs kgs EDAD (AÑOS) kgs lbs
2 3 4 5 6 7 8 9 Alfredo
10 11 12 13 14 Yerman
15 16 17 18Cortes
19 20Verbel.
Publicado el 30 de mayo del 2000 (modificado el 21 de noviembre del 2000).
FUENTE: Desarrollado por el Centro Nacional de Estadísticas de Salud en colaboración con el
Centro Nacional para la Prevención de Enfermedades Crónicas y Promoción de Salud (2000).
[Link]
Figura 3.13: Percentiles de Estatura por edad y Peso por edad de niñas de 2 a 20
años
3.6. EVALUACIÓN POR COMPETENCIAS 106
2 a 20 años: Niños Nombre
Percentiles de Estatura por edad y Peso por edad # de Archivo
12 13 14 15 16 17 18 19 20
Estatura de la Madre Estatura del Padre cm pul.
Fecha Edad Peso Estatura IMC*
EDAD (AÑOS) 76
95
190
74
90
185
75
72 E
180 S
50 70
175 T
25 68 A
*Para calcular el IMC: Peso (kgs)÷ Estatura (cm) ÷ Estatura (cm) x 170 T
10.000 o Peso (lbs) ÷ Estatura (pulgadas) ÷ Estatura (pulgadas) x 703 10 66 U
pul. cm 3 4 5 6 7 8 9 10 11 5 165 R
64 A
160 160
62 62
155 155
60 60
150 150
58
145
56
E 140 105 230
S 54
135 100 220
T
A
52
130 95 95 210
T 50
U 125 90 200
90
R 48 190
A
120 85
46 180
115 80
75
44 170
110 75
42 160
105 50 70
150 P
40
100 65 140 E
25
38 S
95 60 130 O
10
36 90 5 55 120
34 85 50 110
32 80 45 100
30
40 90
80 35 35 80
P 70 70
30 30
E 60 60
S 25 25
O 50 50
20 20
40 40
15 15
30 30
10 10
lbs kgs EDAD (AÑOS) kgs lbs
2 3 4 5 6 7 8 Alfredo
9 10 11 12 13 14 Yerman
15 16 17 18Cortes
19 20Verbel.
Publicado el 30 de mayo del 2000 (modificado el 21 de noviembre del 2000).
FUENTE: Desarrollado por el Centro Nacional de Estadísticas de Salud en colaboración con el
Centro Nacional para la Prevención de Enfermedades Crónicas y Promoción de Salud (2000).
[Link]
Figura 3.14: Percentiles de Estatura por edad y Peso por edad de niños de 2 a 20
años
3.6. EVALUACIÓN POR COMPETENCIAS 107
Respecto al tipo de contrato que se ofrece, muchas piden un tiempo de prueba antes
de pasar a una relación contractual indefinida. Los años de experiencia solicitados
varían según la responsabilidad del puesto y van desde uno a los 5 años. Por las
fechas en que nos encontramos también es fácil dar con ofertas para quienes deseen
hacer su práctica profesional.[...] Respecto al tipo de contrato que se ofrece, muchas
piden un tiempo de prueba antes de pasar a una relación contractual indefinida.
Los años de experiencia solicitados varían según la responsabilidad del puesto y
van desde uno a los 5 años.
1. El percentil del 90 % (P90 ) de los sueldos de un psicólogo pasado un año su
titulación es de:
a) 250,000 pesos
b) 780,000 pesos
c) 377,000 pesos
d) 528,000 pesos
2. De acuerdo al texto anterior podemos decir que
a) en promedio solo el 78 % de los psicólogos puede conseguir empleo.
b) el 87, 8 % de los psicólogos consigue empleo antes de los dos años de
graduado.
c) El 8, 9 % de los graduados de psicología demora consigue empleo después
de un año de haberse graduado
d) el 87, 8 % de los psicólogos consigue empleo dos años después de obtener
el titulo.
3. Podemos afirmar que el sueldo promedio mensual de un psicólogo al año de
haberse graduado es de
a) 1,300,000 pesos
b) 528,000 pesos
c) 377,000 pesos
d) más de un salario mínimo
4. El percentil del 10 % (P10 ) de los sueldos de un psicólogo un año después de
graduado equivale a:
a) 780,000 pesos
b) 250,000 pesos
Alfredo Yerman Cortes Verbel.
3.6. EVALUACIÓN POR COMPETENCIAS 108
c) 377,000 pesos
d) 1,300,000 pesos
5. Sería correcto afirmar que:
a) El rango del tiempo de experiencia solicitado a un psicógo antes de
contratarlo de forma indefinida es de 1 años
b) El tiempo promedio de experiencia solicitado a un psicógo antes de con-
tratarlo de forma indefinida es de 5 años
c) El tiempo promedio de experiencia solicitado a un psicógo antes de con-
tratarlo de forma indefinida es de 1 años
d) El rango del tiempo de experiencia solicitado a un psicógo antes de
contratarlo de forma indefinida es de 4 años
6. El sueldo promedio ganado por un psicólogo pasado cinco años de su gra-
duación es de:
a) 815,000 pesos
b) 377,000 pesos
c) 528,000 pesos
d) 780,000 pesos
7. ¿Cuál es el noveno decil (decil del 90 %; D9 ) del sueldo de un psicólogo, después
de cinco años de su titulación?
a) 780,000 pesos
b) 1,300,000 pesos
c) 377,000 pesos
d) 815,000 pesos
8. el valor de 377,000 pesos equivale a el
a) decil del 90 % de los sueldos de un psicólogo después de 5 años de
titulado.
b) decil del 10 % de los sueldos de un psicólogo después de 5 años de
titulado.
c) decil del 90 % de los sueldos de un psicólogo después de 1 años de
titulado.
d) decil del 10 % de los sueldos de un psicólogo después de 1 años de
titulado.
Alfredo Yerman Cortes Verbel.
3.6. EVALUACIÓN POR COMPETENCIAS 109
RESPONDA LAS PREGUNTAS DE LA 42 A LA 43 CON BASE EN LA SI-
GUIENTE INFORMACIÓN
La distribución de frecuencia siguiente, representa los pesos en kilogramos
de una muestra de paquetes transportados por una compañía aérea:
Peso(K g) fi
[10 − 11) 1
[11 − 12) 4
[12 − 13) 6
[13 − 14) 8
[14 − 15) 12
[15 − 16) 11
[16 − 17) 8
[17 − 18) 7
[18 − 19) 6
[19 − 20) 2
9. De los datos anteriores podemos decir que la muestra es
a) 15.20 kg
b) 65
c) 15.13
d) 14.80
10. De los datos anteriores podemos decir que la moda es
a) 15.20 kg
b) 6.5
c) 15.13
d) 14.80
WISC IV TEST DE INTELIGENCIA PARA NIÑOS8
8
Tomado de [Link]
Alfredo Yerman Cortes Verbel.
3.6. EVALUACIÓN POR COMPETENCIAS 110
Puntuación Desviación
Percentil
Escalar Tipica
145 +3 99,9
140 +2 2/3 99,6
135 +2 1/3 99
130 2 98
125 +1 2/3 95
120 +1 1/3 91
115 +1 84
110 2/3 75
105 1/3 63
100 0 (Media) 50
95 −1/3 37
90 −2/3 25
85 −1 16
80 −1 1/3 9
75 −1 2/3 5
70 −2 2
65 −2 1/3 1
60 −2 2/3 0, 4
55 −3 0, 1
El W ISC − IV es un instrumento clínico completo que evalúa la inteligen-
cia de niños y adolescentes. El test ofrece un Cociente Intelectual Total (CIT)
y puntuaciones compuestas en dominios específicos (Índice de Comprensión
Verbal, de Razonamiento Perceptivo, de Memoria Operativa y Velocidad de
Procesamiento). Los resultados obtenidos sirven para la planificación de tra-
tamientos y la toma de decisiones en el campo clínico y educativo, y puede
brindar información de gran valor para la evaluación neuropsicológica y para
la investigación. En la siguiente tabla se puede ver la correspondencia entre
las puntuaciones compuestas, desviaciones a la media y percentiles en los
Índices del WISC-IV
11. De acuerdo a la información proporcionada anteriormente podemos afirmar
que un niño que obtenga una puntuación escalar de 125
a) esta por debajo de la media
b) se encuentre por encima del 95 % de los demás infantes
c) es un niño com problemas cognitivos
Alfredo Yerman Cortes Verbel.
3.6. EVALUACIÓN POR COMPETENCIAS 111
d) esta 35 percentiles encima de la media
12. La estatura media de los hombres y las mujeres varia con el tiempo, con el
objeto de conocer la estatura media de los estudiantes colombianos varones
fueron seleccionados aleatoriamente 4000 estudiantes de distintas facultades
y medidas sus estaturas,. En el caso anterior podemos identificar la muestra
como:
a) 4000 estudiantes cartageneros
b) estudiantes cartageneros de las facultades de psicología
c) 4000 estudiantes cartageneros varones
d) todos los estudiantes cartageneros
13. En las ultimas elecciones de alcalde de Cartagena se contrataron varias fir-
mas encuestadoras para realizar una estimación del posible resultado. Una de
las firmas pregunta a una muestra de 50,000 personas, seleccionadas alea-
toriamente de la población, su intención de voto, agrupándose sus respuesta
en:
Porcentaje de votos del partido P
Porcentaje de votos del partido Q
Porcentaje de votos del partido R
Porcentaje de personas que no votarán
Porcentajes de votos en blanco o nulos
En el anterior caso la población es
a) Todos los cartageneros con derecho a votar
b) Colombianos mayores de 18 años aptos para votar
c) Porcentaje de votos del partido P
d) Porcentaje de votos del partido R
14. La eficacia en la gestión de los concejos directivos de las empresas es un
tema importante. Por ello se ha planteado un estudio de opinión con el objeto
de indagar si la impresión sobre eficacia guarda algún tipo de relación con
la categoría profesional de los trabajadores. Para ello, las opiniones de 200
encuestados se dividieron, de acuerdo con sus respuestas, en mala, regular
y buena. Los encuestados pertenecían a las siguientes categorías profesiona-
les : Aprendices , trabajadores sin especializar, trabajadores especializados,
mandos intermedios y directivos. En el anterior caso podemos identificar la
población como:
Alfredo Yerman Cortes Verbel.
3.6. EVALUACIÓN POR COMPETENCIAS 112
a) 200 trabajadores a los que se le ha pedido su opinión
b) miembros del consejo directivo
c) todos los trabajadores de la empresa
d) Trabajadores sin especializar y especializados
15. En la siguiente gráfica, la cantidad de adultos que sufren de estrés es:
Figura 3.15: Enfermedades que se padecen de acuerdo al grupo etareo
a) 4
b) 3
c) 1
d) 8
16. Se ha realizado una encuesta en 30 hogares en la que se les pregunta el
no de individuos que conviven en el domicilio habitualmente. Las respuestas
obtenidas han sido tabuladas:
Cuadro 3.15: Distrubución de frecuencias de individuos que conviven en el domicilio
Nº de Personas fi fir Fi Fir
0 6 0, 1 6 0, 1
1 13 0, 22 19 0, 32
2 8 0, 13 27 0, 45
3 5 0, 08 32 0, 53
4 13 0, 22 45 0, 75
5 7 0, 12 52 0, 87
6 8 0, 13 60 1
Alfredo Yerman Cortes Verbel.
3.6. EVALUACIÓN POR COMPETENCIAS 113
¿Qué proporción o porcentaje de hogares está compuesta por 5 miembros?
a) 7 %
b) 12 %
c) 52 %
d) 87 %
17. De acuerdo al Cuadro 8.5 podemos decir que:
a) en el 75 % de los hogares conviven cuatro o menos personas
b) en el 53 % de los hogares conviven tres personas
c) en el 13 % de los hogares conviven dos personas o menos
d) en en 7 hogares conviven 5 personas o menos
18. Un corredor entrena para una determinada carrera y se toman los tiempos
que necesita para recorrer los 100 m, durante 10 dìas consecutivos (cada día
se toman varios tiempos y se calculan mediana, cuartiles, valores mínimo y
máximo)
Figura 3.16: Comparación entrenamientos de un corredor
es posible inferir de la anterior gráfica que :
a) los datos mostrados indican que los valores del tiempo tomados por el
entrenador son son decrecientes
b) el desplazamiento de las gráficas de caja hacia la izquierda indica que
el entrenamiento ha dado resultado, ya que se tardan menos segundos
en recorrer la misma distancia.
Alfredo Yerman Cortes Verbel.
3.6. EVALUACIÓN POR COMPETENCIAS 114
c) el desplazamiento de las gráficas de caja hacia la derecha en la parte
inferior indica que el entrenamiento no ha dado resultado, ya que se
tardan más segundos en recorrer la misma distancia.
d) los datos mostrados indican que los valores del tiempo tomados por el
entrenador son son crecientes
19. Sea la variable Religión que se profesa [Codificación: 0: Católica; 1: Protes-
tante; 2: Otra; 3: Ninguna], de la que se han obtenido datos para una muestra
de 50 personas, cuya distribución de frecuencias se muestra a continuación:
Cuadro 3.16: Variable : Religión que se profesa
X1 fi fir
0 13 0, 21
1 23 0, 37
2 15 0, 24
3 10 0, 16
1
Del anterior conjunto de datos del cuadro 3.16 podemos decir que
a) son homogeneos
b) heterogeneos
c) con simetria central
d) con asimetria central
20. La razón de variación de los datos del cuadro 3.16 es
a) 0, 98
b) 0, 95
c) 0, 37
d) 0, 62
21. En caso de asimetría, los valores de la media X , de la mediana Mdn y de la
moda Mo difieren.
Alfredo Yerman Cortes Verbel.
3.6. EVALUACIÓN POR COMPETENCIAS 115
Figura 3.17: Asimetria
para la figura 5.1 tenemos que:
a) X > Mdn ≥ Mo
b) X < Mdn ≤ Mo
c) X = Mdn = Mo
d) X = Mdn ≥ Mo
22. En caso de asimetría, los valores de la media X , de la mediana Mdn y de la
moda Mo difieren.
Figura 3.18: Asimetria
para la figura 3.18 tenemos que:
a) X > Mdn ≥ Mo
b) X < Mdn ≤ Mo
c) X = Mdn = Mo
d) X = Mdn ≥ Mo
23. Dada la variable estatura (E) medida en dos grupos A y B tenemos que
E A = 1, 56, E B = 1, 56 y RA = 4, RB = 0, 5 podemos decir que
a) en el grupo A los datos de las estaturas son mas homogeneos
Alfredo Yerman Cortes Verbel.
3.6. EVALUACIÓN POR COMPETENCIAS 116
b) en el grupo B los datos de las estaturas son mas heterogeneos
c) en el grupo A los datos de las estaturas son mas heterogeneos que los
datos del grupo B
d) en el grupo B los datos de las estaturas son mas heterogeneos que los
datos del grupo A
24. A partir de los datos del cuadro (??) tenemos que
a) RIC = 2
b) RIC = 1
c) RIC = 8
d) RIC = 4
25. A partir de los datos del cuadro (??) tenemos que
a) RSIC = 2
b) RSIC = 1
c) RSIC = 8
d) RSIC = 4
26. Dado el siguiente diagrama de caja y bigotes (Ver figura 3.19)
Figura 3.19: Distribución de frecuencias, que representan las edades de un grupo
de 20 personas.
tenemos que
El bigote de la izquierda representa al colectivo de edades (Xmin , Q1 )
La primera parte de la caja a (Q1 , Q2 ),
La segunda parte de la caja a (Q2 , Q3 )
El bigote de la derecha viene dado por (Q3 , Xmax ).
a partir de lo anterior la conclusión errada es:
Alfredo Yerman Cortes Verbel.
3.6. EVALUACIÓN POR COMPETENCIAS 117
a) El RIC = Q3 − Q1 = 14, 5; es decir, el 50 % de la población está com-
prendido en 14, 5 años.
b) El bigote de la izquierda (Xmin , Q1 ) es más corto que el de la derecha;
por ello el 25 % de los más jóvenes están más concentrados que el 25 %
de los mayores.
c) La parte izquierda de la caja es mayor que la de la derecha; ello quiere
decir que las edades comprendidas entre el 25 % y el 50 % de la población
está más dispersa que entre el 50 % y el 75 %.
d) El RIC = Q3 − Q1 ; es decir, el 50 % de la población está comprendido en
33, 5 años.
27. Tras haber recogido datos de estatura (E) para un grupo de n = 500 sujetos,
se ha obtenido que la media es igual a E = 170 cm y la desviación estandar
es igual a σ = 9 cm; Sabiendo que la distribución de la variable se ajusta a
la curva normal: ¿entre que valores de estatura están el 68 % central de los
sujetos?
a) entre 161 y 179
b) entre 170 y 500
c) entre 68 % y 99,7 %
d) entre 115, 6 y 169, 4
28. De acuerdo a los datos del ejercicio anterior tenemos que
a) C V = 5, 2
b) C V = 1, 8
c) C V = 0, 052
d) C V = 0, 018
29. A partir de los datos de la figura 5.1 podemos decir que:
a) los datos son homogeneos
b) los datos son heterogeneos
c) el 50 % de los datos tiene tendencia hacia la derecha
d) el 50 % de los datos tiene tendencia hacia la izquierda
30. Las edades de un grupo de estudiantes son: 10,11,10,11,10,11,12,10,11,12,12,12,10,11.
Este conjunto de datos es:
a) bimodal.
Alfredo Yerman Cortes Verbel.
3.6. EVALUACIÓN POR COMPETENCIAS 118
b) unimodal.
c) amodal.
d) plurimodal.
31. Para la calificación final de una asignatura de estadística, se tendrán en
cuenta:
Nota del examen final: 70 %
Trabajos y ejercicios: 20 %
Asistencia: 10 %
Un alumno que tuvo 6,0 en el examen final; 7,0 en trabajos; y, asistió todos
los días a clase, por lo tanto tuvo 10,0 en asistencia, ¿cuál es su nota final?
a) 7, 6.
b) 6,6.
c) 66.
d) 2,2.
32. El consumo diario de gasolina del carro de Luis en una semana está dado en
el cuadro 3.17; y su consumo promedio semanal es de 8 litros por cada 100
kilometros. De esto podemos decir que el consumo de gasolina el día domingo
fue de:
Días Litros por cada 100 kilómetros
lunes 7
martes 8
miercoles 7
jueves 8
viernes 7
sabado 8
domingo
Cuadro 3.17: Consumos de gasolina semanales
lts
a) 7,5 100km .
lts
b) 12 100km .
lts
c) 7 100lkms .
lts
d) 11 100km .
Alfredo Yerman Cortes Verbel.
3.6. EVALUACIÓN POR COMPETENCIAS 119
33. El conjunto de datos en los que la media y la mediana no coinciden es:
a) 3,3,3,5,5,5,8,8.
b) 3,3,5,5,7,7,12.
c) 3,4,5,6,7,8.
d) 3,4,5,6,7.
34. En un examen calificado de 0 a 10, 3 personas obtuvieron 5 de nota, 5 perso-
nas obtuvieron 4 de nota, y 2 personas obtuvieron 3 de nota. La calificación
promedio es:
a) 4,0.
b) 3,6.
c) 4,1.
d) 3,3.
35. Del siguiente conjunto de datos 3, 3, 5, 5, 6, 6, 7, 7 podemos decir que:
a) están ordenados en forma descendente.
b) no tiene moda.
c) el promedio es 5.
d) la mediana es 5.
36. Un corredor entrena para una determinada carrera y se toman los tiempos
que necesita para recorrer los 200 m, durante 10 días consecutivos (cada día
se toman varios tiempos y se calculan mediana, cuartiles, valores mínimo y
máximo.) Observamos en la figura 3.20a que el desplazamiento de las gráficas
de caja hacia la izquierda indica que el entrenamiento:
a) ha dado resultado, ya que se tardan más segundos en recorrer la misma
distancia, siendo la diferencia entre el máximo y el mínimo mayor, como
así también la diferencia intercuartílica.
b) no ha dado resultado, ya que se tardan mas segundos en recorrer la
misma distancia, siendo la diferencia entre el máximo y el mínimo mayor,
como así también la diferencia intercuartílica.
c) no ha dado resultado, ya que se tardan menos segundos en recorrer la
misma distancia, siendo la diferencia entre el máximo y el mínimo menor,
como así también la diferencia intercuartílica.
Alfredo Yerman Cortes Verbel.
3.6. EVALUACIÓN POR COMPETENCIAS 120
d) ha dado resultado, ya que se tardan menos segundos en recorrer la
misma distancia, siendo la diferencia entre el máximo y el mínimo menor,
como así también la diferencia intercuartílica.
RESPONDA LAS PREGUNTAS DE LA 37 A LA 41 CON BASE EN LA GRÁ-
FICA DE LA FIGURA 3.20b
37. De la figura 3.20b, el curso o cursos donde se presentó la calificación más
alta fue:
a) 11 − 02 con una calificación mediana de 3, 0.
b) 11 − 02 y 11 − 03 con una calificación mediana de 5.
c) 11 − 03 con una calificación mediana de 3, 5.
d) 11 − 02 y 11 − 03 con una calificación de 5, 0.
38. De la figura 3.20b el curso con la nota mediana Q2 más baja fue:
a) 11 − 02 con Q1 = 2,0.
b) 11 − 03 con Q2 = 0,0.
c) 11 − 02 con Q1 = 1,0.
d) 11 − 03 con Q2 = 3,5.
39. Sabiendo que la asignatura de estadística se aprueba con una nota superior
3,0; de la figura 3.20b podemos afirmar que el
a) 50 % de los estudiantes reprobó estadística en 11 − 01.
b) 25 % de los estudiantes reprobó estadística en 11 − 02.
c) 50 % de los estudiantes reprobó estadística en 11 − 03.
d) 25 % de los estudiantes reprobó estadística en 11 − 03.
40. De la figura 3.20b:
a) el 50 % de los estudiantes de 11 − 02 tiene calificaciones entre 3,8 y 5,0
.
b) el 50 % de los estudiantes de 11 − 01 tiene calificaciones entre 3,0 y 5,0
.
c) con relación a 11 − 01, 11 − 02 tiene mejores calificaciones por encima
del tercer cuartil.
d) con relación a 11 − 02, 11 − 01 tiene mejores calificaciones por encima
del tercer cuartil.
Alfredo Yerman Cortes Verbel.
3.6. EVALUACIÓN POR COMPETENCIAS 121
41. Definimos el rango intercuatilico como RIC = Q3 − Q1 De la figura 3.20b
tenemos que el RIC de 11 − 01 es:
a) 1, 5.
b) 3, 5.
c) 3,0.
d) 5, 3.
RESPONDA LAS PREGUNTAS DE LA 42 A LA 43 CON BASE EN LA GRÁ-
FICA DE LA FIGURA 3.5
42. La parte izquierda de la caja es mayor que la de la derecha; ello quiere decir
que las edades comprendidas entre el :
a) 20 y el 24,5 de la población está más dispersa que entre el 39 y el 45.
b) 50 % y el 25 % de la población está más dispersa que entre el 50 % y el
75 %.
c) 25 % y el 50 % de la población está más dispersa que entre el 50 % y el
75 %.
d) 20 y el 24,5 de la población está menos dispersa que entre el 39 y el 45.
43. El rango intercuartílico quiere significar que:
a) la parte central de la población está comprendida alrededor de 33, 5
años.
b) más de la población está comprendida en 14, 5 años.
c) el 50 % de la población está comprendido en 33, 5 años.
d) el 50 % de la población está comprendido en 14, 5 años.
Alfredo Yerman Cortes Verbel.
3.6. EVALUACIÓN POR COMPETENCIAS 122
(a) Tiempos realizados duran-
te el entrenamiento, recorriendo (b) Calificaciones obtenidas por estudiantes de grado
200 mts 11 en la asignatura de estadística
Figura 3.20: Diagramas de caja y bigotes
Alfredo Yerman Cortes Verbel.
123
124
4. MEDIDAS DE
DISPERSIÓN.
Los pobres nunca serán modernos.
Se comunican por anécdotas, no por
estadísticas.
Carlos Monsiváis Aceves
Carlos Monsiváis Aceves (Ciudad de México, 4 de mayo de 1938-Ciudad de México,
19 de junio de 2010) fue un escritor y periodista mexicano. Desde muy joven colaboró
en suplementos culturales y medios periodísticos mexicanos. Estudió en la Facultad
de Economía y en la Facultad de Filosofía y Letras de la Universidad Nacional
Autónoma de México, y teología en el Seminario Teológico Presbiteriano de México.
Asistió al Centro de Estudios Internacionales de la Universidad de Harvard en 1965.
Gran parte de su trabajo lo publicó en periódicos, revistas, suplementos, semanarios
y otro tipo de fuentes hemerográficas. Colaboró en diarios mexicanos como Nove-
dades, El Día, Excélsior, Unomásuno, La Jornada, El Universal, Proceso, la revista
Siempre!, Fractal, Eros, Personas, Nexos, Letras Libres, Este País, la Revista de la
Universidad de México, entre otros. Fue editorialista de varios medios de comuni-
cación.
Sus posiciones políticas y su perspectiva crítica lo llevaron, desde el inicio de su
carrera periodística, a dar cuenta de todos aquellos fenómenos literarios, sociales
y culturales que implicaban un desacato al autoritarismo, al orden establecido y al
conservadurismo. De ahí su interés en el movimiento estudiantil de 1968, los ídolos
populares (El Santo, Cantinflas), el movimiento feminista, las figuras contestatarias
de izquierda y los personajes o acontecimientos que en algún sentido implicaban un
avance de las ideas progresistas y un rechazo a toda posición autoritaria. Promovió
los derechos de las minorías sociales, la educación pública y la lectura. Apoyó
abiertamente la lucha por la diversidad sexual y los derechos de los animales.
Fue un firme partidario de la despenalización del aborto y luchó en contra de la
tauromaquia, lo que le generó muchos detractores en los sectores conservadores.
Alfredo Yerman Cortes Verbel.
4.1. MEDIDAS DE DISPERSIÓN. 125
4.1. Medidas de Dispersión.
En diversos textos de Estadística se hace referencia a la dispersión o variabilidad
como la razón de ser de esta disciplina. En efecto, si no existiese heterogeneidad o
dispersión en las variables que estudiamos, sería muy fácil resumir la información
de las mismas, no haciendo ninguna falta los métodos estadísticos.
La dispersión en los valores de una variable puede deberse a diferentes causas,
a las cuales se suele hacer referencia como fuentes de variabilidad de los datos
en la variable. Por ejemplo, la variabilidad en las calificaciones de Análisis de los
estudiantes del grado décimo en septiembre (ver histograma en figura 4.1), ¿a qué
puede deberse? En este caso, una fuente de variabilidad fundamental será el co-
nocimiento y dominio de la materia. Es de esperar que diferencias individuales en
este aspecto sean la principal causa de la dispersión existente en las calificaciones
de la asignatura.
Figura 4.1: Histograma de frecuencia de grado décimo
Ahora bien, suponiendo que todos los alumnos hubieran tenido el mismo dominio y
nivel de conocimientos de la asignatura, ¿es de esperar que las notas hubiesen sido
las mismas?. Otras posibles fuentes de variabilidad: lo bien que se haya dormido
Alfredo Yerman Cortes Verbel.
4.1. MEDIDAS DE DISPERSIÓN. 126
la noche antes del examen, la capacidad para afrontar situaciones estresantes, la
habilidad para responder al tipo de preguntas planteadas en el examen (objetivas,
abiertas. . . ), la fiabilidad y validez del instrumento de medida (el examen), cómo nos
haya sentado el desayuno o comida previa al examen, etc.
Ejemplo 4.1
Los siguientes polígonos de frecuencias suavizados muestran gráficamente la dis-
tribución de una misma variable (X) en dos grupos distintos de sujetos (A y B),
¿cuál de los dos grupos tiene mayor variabilidad en dicha variable?
Figura 4.2: ¿cuál de los dos grupos tiene mayor variabilidad en dicha variable?
El objetivo del estudio de los parámetros estadísticos es obtener información
resumida del conjunto de datos en los que estamos interesados. Ya hemos resumido
nuestros datos en un número, por ejemplo la media. Pero ¿es representativo ese
valor?
Ejemplo 4.2
Supongamos que dos alumnos han realizado cinco exámenes cada uno. Para
evaluarlos elegimos hacer la media de las cinco notas que han obtenido. Las
notas han sido:
ALUMNO 1: 4- 5- 5- 5- 6. Media = 5
ALUMNO 2: 1- 2- 5- 8- 9. Media = 5
Si vemos los dos tendrían la misma nota, lo que nos haría pensar que los dos
alumnos son similares, pero si observamos sus notas hay una gran diferencia
entre ambos. El alumno 1 tiene unas notas muy homogéneas, muy próximas a la
media mientras que el segundo tiene unos resultados muy dispares.
Alfredo Yerman Cortes Verbel.
4.1. MEDIDAS DE DISPERSIÓN. 127
Para poder analizar bien sus resultados necesitaríamos otro parámetro que nos
mida esa variabilidad. Estamos hablando de las medidas de dispersión.
Ejemplo 4.3
La caja de un kiosco registra las siguientes entradas en miles de pesos, a lo largo
de dos semanas correspondientes a épocas distintas del año
1ª semana 2ª semana
Lunes 10 30
Martes 20 40
Miercoles 30 50
Jueves 50 50
Viernes 60 60
sabado 80 60
Domingo 100 60
Total 350 350
Cuadro 4.1: La media y la mediana de ambas distribuciones es de 50
La media y la mediana de ambas distribuciones coinciden (el valor de ambas
es 50 en los dos casos) y, sin embargo, las consecuencias que se podrían derivar
de una y otra tabla son bien distintas.
Las medidas de dispersión son parámetros estadísticos que nos informan sobre
la variabilidad de los datos, es decir, si la distribución de los datos es más o me-
nos homogénea y por tanto nos dan una medida sobre la representatividad de los
parámetros de centralización (moda, mediana o media)
A continuación se presentan una serie de índices estadísticos y representaciones
gráficas orientados a describir cuál es la dispersión de una variable.
4.1.1. Rango.
El rango se suele definir como la diferencia entre los dos valores extremos que
toma la variable. Es la medida de dispersión más sencilla y también, por tanto, la
que proporciona menos información. Además, esta información puede ser errónea,
pues el hecho de que no influyan más de dos valores del total de la serie puede
provocar una deformación de la realidad.
Alfredo Yerman Cortes Verbel.
4.1. MEDIDAS DE DISPERSIÓN. 128
Definición 4.1: Rango.
Sea xi con 1 ≤ i ≤ n, n valores de una variable, entonces
Rango = Max {xi } − Min {xi }
Ejemplo 4.4
Comparemos, por ejemplo, estas dos series:
Serie 1: 1- 5- 7- 7- 8- 9- 9- 10- 17
Serie 2: 2- 4- 6- 8- 10- 12- 14- 16- 18
Ambas series tienen rango 16, pero están desigualmente agrupadas, pues mien-
tras la primera tiene una mayor concentración en el centro, la segunda se distri-
buye uniformemente a lo largo de todo el recorrido.
En lo que respecta a la interpretación del rango, tanto éste como el resto de
índices de variabilidad que se van a tratar a continuación (exceptuando, parcialmen-
te, el coeficiente de variación) ofrecen resultados que no tienen una interpretación
directa en términos absolutos -¿qué significa un rango de 4 o un rango de 10, mucha
o poca dispersión? - El único caso en que la interpretación de estos índices es ab-
soluta es cuando dan igual a 0, indicando la ausencia de variabilidad en los datos
de la variable -caso por otra parte bastante excepcional. Valores mayores que 0
indicarán dispersión en los datos, tanto mayor cuanto mayor sea ese valor, pero sin
existir un techo que nos permita establecer interpretaciones en términos absolutos.
Ahora bien, sí que es posible con los mismos realizar interpretaciones en términos
relativos, por ejemplo, establecer en dos muestras de las que se tiene datos en una
misma variable, cuál de los dos tiene una mayor dispersión en sus datos o, también,
comparar la dispersión de los datos de una misma variable medida en dos momentos
temporales distintos. No olvidar que no tendrá sentido comparar estos índices de
dispersión cuando se obtengan para variables diferentes -tan solo una salvedad a
esta última afirmación:: cuando se trate de variables que estén expresadas en las
mismas unidades y que tenga sentido comparar (por ejemplo, las variables ingresos
y gastos mensuales para una muestra de consumidores)
Alfredo Yerman Cortes Verbel.
4.1. MEDIDAS DE DISPERSIÓN. 129
4.1.2. El rango Intercuartil.
Definición 4.2: Rango intercualtil. (RIC)
El rango o amplitud intercuartil (RIC) se obtiene como diferencia entre el
tercer y primer cuartil
RIC = Q3 − Q1
Una variante del mismo es el conocido como amplitud o rango semi-intercuartil
Definición 4.3: Rango Semi-Intercuartil. (RSIC)
Q3 − Q1
RSIC =
2
4.1.3. La varianza y la desviación típica.
En teoría, la desviación puede referirse a cada una de las medidas de tendencia
central: media, mediana o moda; pero el interés se suele centrar en la medida de
la desviación con respecto a la media, que llamaremos desviación media.
Definición 4.4: Desviación Media. (DM)
La desviación Media puede definirse como la media aritmética de las desvia-
ciones de cada uno de los valores con respecto a la media aritmética de la
distribución, y se indica así: Sea xi con 1 ≤ i ≤ n, n valores de una variable
Pn
|xi − x|
DM = i=1
n
En el caso en que la DM se obtenga a partir de una distribución de frecuen-
cias
Pn
fi |xi − x|
DM = i=1
n
fi es al frecuencia de cada valor xi .
La DM para datos agrupados en clases (intervalos) esta dada por
Pn
fi |ci − x|
DM = i=1
n
donde ci es la marca de clase o punto medio de la clase
Alfredo Yerman Cortes Verbel.
4.1. MEDIDAS DE DISPERSIÓN. 130
La desviación media viene a indicar el grado de concentración o de dispersión
de los valores de la variable. Si es muy alta, indica gran dispersión; si es muy baja
refleja un buen agrupamiento y que los valores son parecidos entre sí.
La desviación media se puede utilizar como medida de dispersión en todas aque-
llas distribuciones en las que la medida de tendencia central más significativas haya
sido la media. Tratándose de una buena opción, la DM ha sido ampliamente descon-
siderada en la práctica, básicamente por resultar poco manejable a nivel algebraico
en demostraciones matemáticas. Sin embargo, para las mismas distribuciones es
mucho más significativa la desviación típica, que estudiaremos a continuación, y
eso hace que el uso de la desviación media sea cada vez más restringido.
4.1.4. Varianza.
La Varianza es una medida de dispersión que se utiliza para representar la
variabilidad de un conjunto de datos respecto de la media aritmética de los mismo.
Así, se calcula como la suma de los residuos elevados al cuadrado y divididos entre
el total de observaciones. No obstante, se trata de una medida que también puede
calcularse como la desviación típica al cuadrado.
Fue Ronald Fisher1 , un matemático, físico, biólogo y estadístico de nacionalidad
inglesa, quien, en el año 1918, introdujo el término de varianza en uno de sus
estudios sobre biometría. Al mismo también, también fue el primero en introdujo los
estudios sobre el análisis de esta medida de la dispersión y también un prominente
eugenista2 en la parte temprana de su vida.
La varianza es una medida de dispersión ampliamente utilizada en los sectores
1
Ronald Aylmer Fisher (Londres, Reino Unido, 17 de febrero de 1890 – Adelaida, Australia, 29
de julio de 1962) fue un estadístico y biólogo que usó la matemática para combinar las leyes de
Mendel con la selección natural, de manera que ayudó así a crear una nueva síntesis del Darwinismo
conocida como la síntesis evolutiva moderna. Desarrolló el análisis de la varianza para analizar los
inmensos datos de sus cultivos desde 1840, y donde en los próximos años estableció su reputación como
bioestadístico. También fue uno de los mayores fundadores de la genética de poblaciones. Resumió
el principio de Fisher, propuso el denominado modelo de selección sexual runaway y la hipótesis
del hijo sexy, e ideó la ecuación de Fisher, el valor reproductivo y la desigualdad de Fisher. Anders
Hald le llamó un genio quién, casi a solas, creó las fundaciones por la ciencia moderna estadística,
mientras Richard Dawkins lo nombró el biólogo más grande desde Darwin. Fisher fue el padre de la
estadística moderna y diseño experimental. Dio a investigadores de la biología y la medicina con sus
herramientas más importantes, y también con la versión moderna del teorema central de la biología.
Geoffrey Miller dijo de él: Para los biólogos, fue un arquitecto de la síntesis moderna que utilizó
modelos matemáticos para integrar las leyes de Mendel con las teorías de la selección biológica de
Charles Darwin. Para los psicólogos, Fisher fue el inventor de varias pruebas estadísticas que se
deben usar siempre que sea posible en las revistas psicológicas. Para los granjeros, fue el fundador
de investigaciones en la agricultura, y salvó a millones de morir de hambre a través de programas
racionales de cultivo.
2
Eugenesia: filosofía social que defiende la mejora de los rasgos hereditarios humanos mediante
diversas formas de intervención manipulada y métodos selectivos de humanos
Alfredo Yerman Cortes Verbel.
4.1. MEDIDAS DE DISPERSIÓN. 131
de la economía y las finanzas, interpretándose como el riesgo de que el rendimiento
de algún procedimiento en concreto sea distinto del rendimiento esperado de dicho
procedimiento, esta junto con la desviación estándar -ambas medidas muy relacio-
nadas entre sí- son las medidas de dispersión de datos por excelencia, sobre todo
en el mundo de las finanzas.
Definición 4.5: Varianza. Sx 2
Sea xi con 1 ≤ i ≤ n, n valores de una variable. Se define la varianza como:
Pn 2
2 i=1 (xi − x)
Sx =
n
En el caso en que la varianza se obtenga a partir de una distribución de
frecuencias tenemos
Pn
2 i=1 fi (xi − x)2
Sx =
n
Ejemplo 4.5: Tiempo empleado en completar un laberinto.
Para la variable Tiempo empleado en completar un laberinto por una muestra de
20 ratas tenemos
Tiempo (seg) fi
9 3
10 8
11 6
12 2
13 1
Cuadro 4.2: Tiempo empleado por una rata en completar un laberinto
El promedio esta dado por:
9 · 3 + 10 · 8 + 11 · 6 + 12 · 2 + 13 · 1
x =
20
= 10, 5 seg
Alfredo Yerman Cortes Verbel.
4.1. MEDIDAS DE DISPERSIÓN. 132
la varianza será:
3(9 − 10,5)2 + 8(10 − 10,5)2 + 6(11 − 10,5)2 + 2(12 − 10,5)2 + 1(13 − 10,5)2
sx 2 =
20
2
= 1,05 seg
4.1.5. Desviación estándar.
Al calcular la varianza de una variable, las unidades del valor resultante son
el cuadrado de la unidad de medida de la variable en cuestión, lo cual complica
la interpretación del mismo. La desviación típica/estándar , al obtenerse como raíz
cuadrada de la varianza, ya no tiene este inconveniente pues la unidad en que se
exprese será la misma que la de la variable a partir de la que se haya obtenido.
Definición 4.6: Desviación Estándar
La desviación estándar se define como la raíz cuadrada de la media de los
cuadrados de las desviaciones con respecto a la media de la distribución. Es
decir
s
Pn
i=1 (xi − x)2
sx =
n
Ejemplo 4.6
El cálculo de la desviación estándar para la variable Tiempo empleado en com-
pletar un laberinto del ejemplo anterior es:
s
3(9 − 10,5)2 + 8(10 − 10,5)2 + 6(11 − 10,5)2 + 2(12 − 10,5)2 + 1(13 − 10,5)2
sx =
20
p
= 1,05
= 1,02 seg
Alfredo Yerman Cortes Verbel.
4.1. MEDIDAS DE DISPERSIÓN. 133
Figura 4.3: Caricatura de Rayma Suprani. Tomada de NOELIAGOROD.
(2016, junio 25). FIN DE SEMANA DIVERTIDO CON DATOS! @noeliagorod.
[Link] . Rayma
es una de las caricaturistas más destacadas de Venezuela. Miembro de la asociación
Cartooning for Peace, ha sido merecedora del Premio de la Sociedad Interamerica-
na de Prensa (2005) y del Pedro León Zapata como Mejor Dibujante de Venezuela
(2000 y 2009). Durante 19 años publicó una caricatura diaria en uno de los princi-
pales periódicos de Venezuela, El Universal, hasta que tuvo que abandonar el país
en 2014, como tantos millones de venezolanos, cuando su trabajo se hizo incómodo
para el medio en el que estaba y para los jefes de la revolución.
4.1.6. Coeficiente de variación.
La varianza o la desviación típica nos permiten comparar la dispersión de dife-
rentes distribuciones de frecuencias obtenidas para una misma variable en diferen-
tes grupos de sujetos. Por ejemplo, las desviaciones típicas de las variables Peso_G1
(=4,18) y Peso_G2 (=14,55) evidencia la diferente variabilidad de la variable Peso
en los dos grupos en que ha sido medida (ver datos originales debajo de la tabla
de estadísticos).
Alfredo Yerman Cortes Verbel.
4.1. MEDIDAS DE DISPERSIÓN. 134
Nombre variable N Mínimo Máximo Rango Media Desv. típ. CV
Peso_G1 5 70 81 11 75 4, 18 5, 57
Peso_G2 5 59 94 35 75, 2 14, 55 19, 35
PesoElef_G3 5 4800 5100 300 4960 119, 37 2, 40
PesoElef_G4 5 4200 6800 2600 5180 1028, 1 19, 85
Altura_G5 5 1, 68 1, 77 0, 09 1, 72 , 036 2, 12
Altura_G6 5 1, 45 1, 98 0, 53 1, 74 0, 227 13, 04
Cuadro 4.3
Peso_G1 (kg.): {73, 77, 81, 74, 70}
Peso_G2 (kg.): {65, 94, 86, 72, 59}
PesoElef_G3 (kg.): {4800, 4950, 5100, 4900, 5050}
PesoElef_G4 (kg.): {4200, 5500, 6800, 4500, 4900}
Altura_G5 (m.): {1,70, 1,72, 1,77, 1,75, 1,68}
Altura_G6 (m.): {1,45, 1,56, 1,98, 1,91, 1,80}
Esa misma diferencia en variabilidad también se puede observar en los datos
de los dos grupos en que fue medida la variable Altura (Altura_G5 y Altura_G6),
poniéndose de manifiesto como los valores de la desviación estándar están intrín-
secamente vinculados a la escala de medida de la variable considerada. Así, para
la variable Altura son aparentemente bajos los valores de sx , en comparación con
los obtenidos para la variable Peso (Peso_G1 y Peso_G2), aun cuando en el grupo
G6 existe una dispersión considerable en los valores observados de Altura, tal como
se pone de manifiesto si observamos los datos originales de esta variable para ese
grupo. Parece obvio que no resulta coherente comparar la dispersión de variables
de diferente naturaleza con coeficientes que se expresan en las mismas unidades
que las de las variables.
Incluso la comparación de la variabilidad para diferentes subgrupos en una mis-
ma variable puede resultar desacertada en algunos casos al hacerla con la desvia-
ción típica, en concreto, cuando se trate de subgrupos con medias bastante distintas
en la variable en cuestión. Ello es debido a que suele haber en las variables una
asociación entre la posición de los datos y su dispersión: posición mayor =>varia-
bilidad mayor. A modo de ejemplo, si miramos en la tabla las desviaciones típicas
para la variable Peso medida en dos grupos de elefantes (PesoElef_G3 y PesoE-
lef_G4), se observa como son valores muy elevados, por lo menos en comparación
con los obtenidos con los dos grupos de personas. Sin embargo, si nos fijamos en los
Alfredo Yerman Cortes Verbel.
4.1. MEDIDAS DE DISPERSIÓN. 135
datos originales correspondientes a PesoElef_G3 , se pone de manifiesto como, en
realidad, se trata de un conjunto de datos muy homogéneo para lo que sería de es-
perar para una muestra de elefantes. Conclusión, si comparáramos las desviaciones
típicas correspondientes a PesoElef_G3 y Peso_G2 podríamos llegar a conclusiones
totalmente equívocas.
Este problema de la comparación de la variabilidad de subgrupos con medias
bien distintas puede soslayarse a través de un índice propuesto por K. Pearson,
el coeficiente de variación (C V ), el cual relativiza el peso de la desviación típica
dividiéndola por la media (en consecuencia, no tiene unidades)
Definición 4.7: Coeficiente de Variación
El coeficiente de variación, también denominado como coeficiente de varia-
ción de Pearson, es una medida estadística que nos informa acerca de la
dispersión relativa de un conjunto de datos. Se define como la relación entre
la desviación típica de una muestra y su media, esto es:
sx
CV =
x
A mayor valor del coeficiente de variación mayor heterogeneidad de los
valores de la variable (menor homogeneidad); y a menor CV, menor hetero-
geneidad en los valores de la variable (mayor homogeneidad). Por ejemplo, si
el CV es menor o igual al 30 %, significa que la media aritmética es represen-
tativa del conjunto de datos, por ende el conjunto de datos es "Homogéneo".
Por el contrario, si el CV supera al 30 %, el promedio no será representativo
del conjunto de datos (por lo que resultará "Heterogéneo").
Ejemplo 4.7
Pensemos en una población de elefantes y otra de ratones. La población de ele-
fantes tiene un peso medio de 5.000 kilogramos y una desviación típica de 400
kilogramos. La población de ratones tiene un peso medio de 15 gramos y una
desviación típica de 5 gramos. Si comparáramos la dispersión de ambas pobla-
ciones mediante la desviación típica podríamos pensar que hay mayor dispersión
para la población de elefantes que para la de los ratones.
Sin embargo al calcular el coeficiente de variación para ambas poblaciones,
nos daríamos cuenta que es justo al contrario.
400
Elefantes: = 0,08
5000
5
Ratones: = 0,33
15
Si multiplicamos ambos datos por 100, tenemos que el coeficiente de variación
Alfredo Yerman Cortes Verbel.
4.2. EVALUACIÓN POR COMPETENCIAS 136
para los elefantes es de apenas un 8 %, mientras que el de las ratones es de un
33 %. Como consecuencia de la diferencia entre las poblaciones y su peso medio,
vemos que la población con mayor dispersión, no es la que tiene una mayor
desviación típica.
4.2. Evaluación por competencias
4.2.1. Ejercicios de aplicación
1. Un entrenador de fútbol necesita contratar a un delantero, y observa des-
de hace algún tiempo a dos jugadores, que en los últimos 8 encuentros del
campeonato registraron las siguientes cantidades de goles:
Bascuñán 2 1 0 3 2 1 2 3
Zúñiga 4 0 1 2 0 4 2 1
Cuadro 4.4: Registro de goles
El entrenador decide contratar al que registre mayor regularidad en las ano-
taciones de ambos jugadores, y para eso usará como recurso el Coeficiente de
Variación de Pearson. ¿A cuál de los dos jugadores debería entonces contratar?
2. La concentración de alcohol en la sangre de 15 conductores en estado de
ebriedad e implicados en accidentes mortales en un condado de los Estados
Unidos fue: 0, 27 - 0, 17- 0, 17 - 0, 16 - 0, 13 - 0, 24 - 0, 9 - 0, 24 - 0, 14 - 0, 16
- 0, 12 - 0, 16 - 0, 21 - 0, 17 - 0, 18
Calcular: Media aritmética, Desviación media y coeficiente de variación de
estas 15 mediciones.
3. Un agrónomo prueba un nuevo fertilizante para el crecimiento de las plantas.
Para probar su efectividad realiza el siguiente experimento. Mide el tallo de
16 plantas, luego a 8 de ellas le aplica el fertilizante. Al cabo de un tiempo,
mide el crecimiento del tallo de todas ellas, obteniendo las siguientes medidas
(en cms)
Con fertilizante 4 5 4 3 6 5 6 2
Sin fertilizante 3 4 3 5 3 8 5 4
Cuadro 4.5: Crecimiento de tallo de una planta con y sin fertilizante
Alfredo Yerman Cortes Verbel.
4.2. EVALUACIÓN POR COMPETENCIAS 137
El agrónomo considera efectivo el fertilizante si el crecimiento del tallo de la
muestra con fertilizante es más homogéneo que el de la muestra sin fertili-
zante, y para eso usará como recurso el Coeficiente de Variación de Pearson.
¿Es realmente efectivo?
4. Se aplica una misma prueba de Matemática a dos cursos A y B de un mismo
nivel. En A el promedio fue de 5,4 y con desviación estándar 0,8. Mientras
que en el curso B el promedio fue de 5,0 y la desviación estándar 1,2. Luis es
alumno del cuarto A y obtuvo nota 5,8 en la prueba, en tanto, Pedro alumno del
cuarto B obtuvo calificación 5,5. ¿Cuál de los dos logró mejor nota en relación
a su curso?
5. Se muestra las edades de hombres y mujeres que trabajan en una empresa.
Hombres: 22 - 25 - 30 - 45 - 36 - 41 - 56 - 27 - 29 - 36 - 40- 38 -45 -
26 - 49 - 52 - 28 - 46 - 24 - 55 - 34 - 47 - 22- 51-46 - 27 - 58 - 37 - 42
- 50 - 38 - 52 - 41 -37 - 28- 43.
Mujeres: 32 - 24 - 19 - 21 - 30 - 36 - 27 - 32 -29 -30 -42 - 27 - 33 - 38
- 25 - 28 - 31 -45 - 36 - 28-35 - 26- 41-23.
a) Calcular el promedio de edad en ambos grupos.
b) ¿Cuál de los dos grupos presenta MAYOR homogeneidad en sus edades?
6. Se quiere estimar el número de peces que habitan en un lago, para lo cual se
extrae una muestra de 210 peces, se marcan y se devuelven al lago. Después
de unos minutos se extra otra muestra de 70 peces, de los cuales 32 estaban
marcados. ¿Cuántos peces habitan en el lago, aproximadamente?
P
7. . Se definen: n = Total de datos; x = Media aritmética; xi = suma de los
datos; sx = desviación estándar; CV = coeficiente de variación. Complete la
siguiente tabla de mediciones para las 3 muestras y ordénelas desde la menos
homogénea a la más homogénea.
P
n xi x sx CV
Muestra 1 24 8,0 2,08
Muestra 2 69 4,6 0,18
Muestra 3 50 428 2,74
Cuadro 4.6: Complete la siguiente tabla de mediciones
8. En un conjunto de números hay veinte cuatros, cuarenta cincos, treinta seises,
y P sietes. Se sabe que el promedio de todos ellos es 5, 3
Alfredo Yerman Cortes Verbel.
4.2. EVALUACIÓN POR COMPETENCIAS 138
Figura 4.4: Tomado de Musk, E. [elonmusk].
(2023, junio 10). [Link]/vcj99bzzad. Twitter.
[Link]
a) ¿Cuántos sietes contiene el conjunto?
b) ¿Cuál es el coeficiente de variación de los números?
4.2.2. Evaluando saberes
RESPONDA LAS PREGUNTAS DE LA 1 A LA 3 CON BASE EN LA SIGUIENTE
INFORMACIÓN
WISC IV TEST DE INTELIGENCIA PARA NIÑOS3
Puntuación Escalar Desviación Tipica Percentil
145 +3 99,9
140 +2 2/3 99,6
135 +2 1/3 99
130 2 98
125 +1 2/3 95
120 +1 1/3 91
115 +1 84
110 2/3 75
105 1/3 63
100 0 (Media) 50
95 −1/3 37
90 −2/3 25
85 −1 16
80 −1 1/3 9
75 −1 2/3 5
70 −2 2
65 −2 1/3 1
60 −2 2/3 0, 4
55 −3 0, 1
Cuadro 4.7: Puntuaciones, desviaciones a la media y percentiles en los Índices del
WISC-IV
3
Tomado de [Link]
Alfredo Yerman Cortes Verbel.
4.2. EVALUACIÓN POR COMPETENCIAS 139
El W ISC − IV es un instrumento clínico completo que evalúa la inteligencia
de niños y adolescentes. El test ofrece un Cociente Intelectual Total (CIT) y pun-
tuaciones compuestas en dominios específicos (Índice de Comprensión Verbal, de
Razonamiento Perceptivo, de Memoria Operativa y Velocidad de Procesamiento).
Los resultados obtenidos sirven para la planificación de tratamientos y la toma de
decisiones en el campo clínico y educativo, y puede brindar información de gran va-
lor para la evaluación neuropsicológica y para la investigación. En la siguiente tabla
se puede ver la correspondencia entre las puntuaciones compuestas, desviaciones
a la media y percentiles en los Índices del WISC-IV.
1. De acuerdo a la información proporcionada anteriormente podemos afirmar
que un niño que obtenga una puntuación escalar de 125
a) esta por debajo de la media
b) se encuentre por encima del 95 % de los demás infantes.
c) se encuentre por debajo del 95 % de los demás infantes.
d) esta 45 percentiles encima de la media
2. Un infante que obtenga una puntuación escalar entre 90 y 110 hace parte del
:
a) grupo de infantes con desviación tipica de 2/3.
b) 20 % de la población que esta alrededor de la media.
c) grupo de infantes con CIT promedio.
d) 50 % de la población que esta alrededor de la media.
3. Si un niño esta ubicado en Q3 (tercer cuartil), obtuvo una puntuación escalar
de:
a) 110
b) 5.
c) 2/3.
d) 75.
RESPONDA LAS PREGUNTAS DE LA 4 A LA 9 CON BASE EN LA SIGUIEN-
TE INFORMACIÓN.
Se ha realizado una encuesta en 30 hogares en la que se les pregunta el
no de individuos que conviven en el domicilio habitualmente. Las respuestas
obtenidas han sido tabuladas:
Alfredo Yerman Cortes Verbel.
4.2. EVALUACIÓN POR COMPETENCIAS 140
Nº de Personas fi fir Fi Fir
0 6 0, 1 6 0, 1
1 13 0, 22 19 0, 32
2 8 0, 13 27 0, 45
3 5 0, 08 32 0, 53
4 13 0, 22 45 0, 75
5 7 0, 12 52 0, 87
6 8 0, 13 60 1
Cuadro 4.8: Distrubución de frecuencias de individuos que conviven en el domicilio
4. El porcentaje de hogares compuesto por 5 miembros es de:
a) 7 %.
b) 12 %.
c) 52 %.
d) 87 %.
5. El porcentaje de hogares compuesto por 4 miembros o menos es de:
a) 13 %.
b) 22 %.
c) 45 %.
d) 75 %.
RESPONDA LAS PREGUNTAS DE LA 10 A LA 13 CON BASE EN LA GRÁ-
FICA DE LA FIGURA 3.20b
Alfredo Yerman Cortes Verbel.
4.2. EVALUACIÓN POR COMPETENCIAS 141
Figura 4.5: Calificaciones obtenidas por estudiantes de grado 11 en la asignatura
de estadística
6. De la figura 3.20b, el curso o cursos donde se presentó la calificación más
alta fue:
a) 11 − 02, además tiene un rango de 4, 5
b) 11 − 02, además obtuvo la mayor mediana.
c) 11 − 03, además obtuvo la menor mediana.
d) 11 − 03, además tiene un rango de 5, 0.
7. De la figura 3.20b el curso con la nota mediana más baja fue:
a) 11 − 01, además Q1 = 1,0 en este curso.
b) 11 − 02 además Q1 = 3,0 en este curso.
c) 11 − 01 además Q1 = 2,3 en este curso.
d) 11 − 02 además Q1 = 0,0 en este curso.
8. Sabiendo que la asignatura de estadística se aprueba con una nota superior
3,0; de la figura 3.20b podemos afirmar que el:
a) 50 % de los estudiantes reprobó estadística en 11 − 01.
b) 25 % de los estudiantes reprobó estadística en 11 − 02.
c) 50 % de los estudiantes reprobó estadística en 11 − 03.
Alfredo Yerman Cortes Verbel.
4.2. EVALUACIÓN POR COMPETENCIAS 142
d) 25 % de los estudiantes reprobó estadística en 11 − 03.
RESPONDA LAS PREGUNTAS DE LA ?? A LA 16 CON BASE EN LA SI-
GUIENTE INFORMACIÓN
P
Se definen: n = Total de datos; x = Media aritmética; xi = suma de los
datos; sx = desviación estándar; C V = coeficiente de variación.
P
n xi x sx CV
Muestra 1 24 8,0 2,08
Muestra 2 69 4,6 0,18
Muestra 3 50 428 2,74
Cuadro 4.9: Tabla de muestras, promedios, desviaciones entandar y coeficientes de
variación
9. El tamaño de la muestra 2 es de:
a) 15.
b) 37.
c) 69.
d) 74.
10. El coeficiente de variación de la muestra 3 es de:
a) 4,60.
b) 0,18.
c) 0,26.
d) 0,32.
11. Podemos decir que los datos de la muestra 1 son
a) homogéneos .
b) heterogéneos.
c) más homogéneos que la muestra 2.
d) más heterogéneos que la muestra 3.
RESPONDA LAS PREGUNTAS DE LA ?? A LA 18 CON BASE EN LA SI-
GUIENTE INFORMACIÓN
Alfredo Yerman Cortes Verbel.
4.2. EVALUACIÓN POR COMPETENCIAS 143
Una población de elefantes tiene un peso medio de 5000 kg y una desviación
típica de 400 kg. La población de ratones tiene un peso medio de 15 gr y una
desviación típica de 5 gr.
12. Si comparáramos la dispersión de ambas poblaciones tenemos que
a) hay mayor dispersión para la población de elefantes que para la de los
ratones.
b) al calcular el coeficiente de variación para ambas poblaciones hay mayor
dispersión para la población de ratones.
c) hay menor dispersión para la población de ratones que para la de los
elefantes.
d) al calcular el coeficiente de variación para ambas poblaciones hay mayor
dispersión para la población de elefantes.
13. El coeficiente de variacón de la población de elefantes y ratones es respecti-
vamente.
a) 0,08 y 0,33.
b) 12,5 y 3.
c) 3 y 12,5.
d) 0,33 y 0,08.
14. La población de ratones es:
a) homogénea.
b) heterogénea.
c) menos variada que la de elefantes.
d) más pesada que la de elefantes.
15. En el cuadro ??, se muestran la media y la desviación típica de las notas de
Sara y Lucía.
x Sx
Sara 8,5 1,3
Lucia 7,5 1,2
Cuadro 4.10: Media y la desviación típica de las notas de Sara y Lucia
De acuerdo a la información podemos concluir que:
Alfredo Yerman Cortes Verbel.
4.2. EVALUACIÓN POR COMPETENCIAS 144
a) Aunque la desviación estandar de Sara es mayor, las calificaciones de
Lucía son más dispersas pues es mayor el coeficiente de variación.
b) Aunque la desviación típica de Sara es mayor, las calificaciones de Lucía
son menos dispersas pues es menor el coeficiente de variación.
c) Aunque la desviación estandar de lucia es menor, las calificaciones de
Lucía son menos dispersas pues es menor el coeficiente de variación.
d) Aunque la desviación estandar de lucia es menor, las calificaciones de
Lucía son menos dispersas pues es mayor el coeficiente de variación.
16. Los promedios de unidades de sombreros vendidas al mes en dos compañías
A y B son 4400 y 4280, respectivamente. Si sA = 620 y sB = 620; la compañía
que tuvo mayor variabilidad en las ventas fue :
a) La compañia B, con un C V = 0, 1409.
b) La compañia A, con un C V = 0, 1449.
c) La compañia B, con un C V = 0, 1409.
d) La compañia B, con un C V = 0, 1449.
RESPONDA LAS PREGUNTAS DE LA 36 A LA 8 CON BASE EN LA SI-
GUIENTE INFORMACIÓN
Psicología, una carrera cada vez más ligada al mundo organizacional4
Si bien no se tienen datos de la realidad en empleabilidad y remuneraciones
de los psicólogos por especialidad, la página Mi Futuro señala que un titulado
en esta materia tiene un 78, 9 % de ser contratado antes de cumplir un año
de egreso. Al segundo año la cifra se eleva hasta el 87, 8 %, lo que refleja la
necesidad del mercado por estos profesionales.
En cuanto a los salarios, el estudio del portal ligado al Ministerio de Educación
indica que en promedio al año de labores un psicólogo puede percibir 528 mil
pesos mensuales. En el mismo período en los extremos, es decir entre el 10 %
que más gana y el 10 % con menores rentas, los números son de 780 mil y 250
mil, respectivamente.
A los cinco años de experiencia se nota un incremento en todos los segmentos,
siendo la renta promedio 815 mil pesos al mes, mientras que el decil con
mejor sueldo llega a los 1, 3 millones. En la otra punta el salario alcanza a
los 377 mil. [...] Respecto al tipo de contrato que se ofrece, muchas piden un
4
Tomado de [Link]
[Link]
Alfredo Yerman Cortes Verbel.
4.2. EVALUACIÓN POR COMPETENCIAS 145
tiempo de prueba antes de pasar a una relación contractual indefinida. Los
años de experiencia solicitados varían según la responsabilidad del puesto y
van desde uno a los 5 años. Por las fechas en que nos encontramos también
es fácil dar con ofertas para quienes deseen hacer su práctica profesional.[...]
Respecto al tipo de contrato que se ofrece, muchas piden un tiempo de prueba
antes de pasar a una relación contractual indefinida. Los años de experiencia
solicitados varían según la responsabilidad del puesto y van desde uno a los
5 años.
17. El percentil del 90 % (P90 ) de los sueldos de un psicólogo pasado un año su
titulación es de:
a) 250,000 pesos
b) 780,000 pesos
c) 377,000 pesos
d) 528,000 pesos
18. De acuerdo al texto anterior podemos decir que
a) en promedio solo el 78 % de los psicólogos puede conseguir empleo.
b) el 87, 8 % de los psicólogos consigue empleo antes de los dos años de
graduado.
c) El 8, 9 % de los graduados de psicología demora consigue empleo después
de un año de haberse graduado
d) el 87, 8 % de los psicólogos consigue empleo dos años después de obtener
el titulo.
19. Podemos afirmar que el sueldo promedio mensual de un psicólogo al año de
haberse graduado es de
a) 1,300,000 pesos
b) 528,000 pesos
c) 377,000 pesos
d) más de un salario mínimo
20. El percentil del 10 % (P10 ) de los sueldos de un psicólogo un año después de
graduado equivale a:
a) 780,000 pesos
b) 250,000 pesos
Alfredo Yerman Cortes Verbel.
4.2. EVALUACIÓN POR COMPETENCIAS 146
c) 377,000 pesos
d) 1,300,000 pesos
21. Sería correcto afirmar que:
a) El rango del tiempo de experiencia solicitado a un psicógo antes de
contratarlo de forma indefinida es de 1 años
b) El tiempo promedio de experiencia solicitado a un psicógo antes de con-
tratarlo de forma indefinida es de 5 años
c) El tiempo promedio de experiencia solicitado a un psicógo antes de con-
tratarlo de forma indefinida es de 1 años
d) El rango del tiempo de experiencia solicitado a un psicógo antes de
contratarlo de forma indefinida es de 4 años
22. El sueldo promedio ganado por un psicólogo pasado cinco años de su gra-
duación es de:
a) 815,000 pesos
b) 377,000 pesos
c) 528,000 pesos
d) 780,000 pesos
23. ¿Cuál es el noveno decil (decil del 90 %; D9 ) del sueldo de un psicólogo, después
de cinco años de su titulación?
a) 780,000 pesos
b) 1,300,000 pesos
c) 377,000 pesos
d) 815,000 pesos
24. el valor de 377,000 pesos equivale a el
a) decil del 90 % de los sueldos de un psicólogo después de 5 años de
titulado.
b) decil del 10 % de los sueldos de un psicólogo después de 5 años de
titulado.
c) decil del 90 % de los sueldos de un psicólogo después de 1 años de
titulado.
d) decil del 10 % de los sueldos de un psicólogo después de 1 años de
titulado.
Alfredo Yerman Cortes Verbel.
147
5. MEDIDAS DE 148
APUNTAMIENTO Y
ASIMETRÍA.
Ahora bien, basta con dirigirse a las
últimas “Estadísticas Vitales” del
Ministerio de Salud de Argentina
(2018) para constatar que, de las
257 muertes maternas anuales,
apenas 19 correspondieron a
abortos inducidos. Ese año, la
población femenina fue 22.797.803,
lo cual significa que la muerte por
aborto afecta al 0, 00008 % de las
mujeres argentinas.. Toda vida es
sagrada y toda muerte es una
tragedia, pero nadie podría
argumentar seriamente, en vista de
estos números, que nos
encontramos frente a un problema
crucial de salud pública
Agustín Laje Arrigonia
a
Tomado de Laje, A.(2020, noviembre
18). Otra vez el aborto en Argentina, por
Agustín Laje—EL LIBERAL. El Liberal.
[Link]
aborto-en-argentina-por-agustin-laje/
Agustín Laje es un escritor, politólogo y youtuber argentino; es uno de los autores
de ‘El Libro Negro de la Nueva Izquierda’, un best seller de habla hispana en
Amazon y uno de los representantes de la nueva derecha latinoamericana. Sin lugar
a duda, Laje se ha convertido en una figura controversial a lo largo y ancho de las
redes sociales hispanohablantes. Su persona pública es recordada por defender
sus ideas conservadoras ante periodistas, panelistas e interlocutores con ahínco y
solidez argumental -algo que hasta sus más acérrimos contradictores admiten-. Su
Alfredo Yerman Cortes Verbel.
5.1. ASIMETRÍA Y CURTOSIS. 149
contenido es consultado y citado por un público conservador que considera tener
pocos referentes teóricos de su lado.
Una frase que me gusta mucho y que muchas veces uso es que el izquierdismo es
la religión laica de los resentidos sociales. Es una frase que a mucha gente que le
ha gustado también y la han hecho meme, entonces yo la repito a veces.
[...]
Otro concepto que estoy usando mucho es el de generación idiota. Hablan de la
generación de cristal o de la generación débil, pero creo que la palabra idiota
calza mucho mejor. Cuando uno empieza a rastrear qué significaba el idiota en
la Antigüedad clásica, cuando rastreas qué significaba el idiota en el medioevo y
cuando te vas a leer textos donde hablan del idiota en la modernidad industrial, ves
que hay un hilo conductor enorme entre eso que se caracterizó desde hace mucho
tiempo como idiota y lo que hoy queremos decir cuando criticamos a la generación
actual.1
Agustín Laje.
5.1. Asimetría y Curtosis.
Las medidas de apuntamiento y asimetría nos permiten identificar la forma en
que se separan o aglomeran los valores de acuerdo a su representación gráfica.
Estas medidas describen la manera como los datos tienden a reunirse de acuerdo
con la frecuencia con que se hallen dentro de la información. Su utilidad radica
en la posibilidad de identificar las características de la distribución sin necesidad
degenerar el gráfico. Sus principales medidas son la Asimetría y la Curtosis. Es-
tas medidas permiten saber las características de su asimetría y homgeneidad sin
necesidad de representarlos gráficamente.
Figura 5.1: Tipos de asimetría
1
Tomado de Meza Díaz, E. (2022, mayo 1). Agustín Laje en charla con Infobae du-
rante su paso por la Feria del Libro de Bogotá: “Soy un músico frustrado”. infobae.
[Link]
en-su-paso-por-la-filbo-2022-soy-un-musico-frustrado/
Alfredo Yerman Cortes Verbel.
5.2. ASIMETRÍA. 150
5.2. Asimetría.
Esta medida nos permite identificar si los datos se distribuyen de forma uniforme
alrededor del punto central (Media aritmética). La asimetría presenta tres estados
diferentes (ver figura 5.1), cada uno de los cuales define de forma concisa como
están distribuidos los datos respecto al eje de asimetría. Se dice que la asimetría
es positiva cuando la mayoría de los datos se encuentran por encima del valor de la
media aritmética, la curva es Simétrica cuando se distribuyen aproximadamente la
misma cantidad de valores en ambos lados de la media y se conoce como asimetría
negativa cuando la mayor cantidad de datos se aglomeran en los valores menores
que la media.
(a) Distribución sesgada hacia la izquierda:
los datos se concentran hacia la izquierda de
la distribución
(b) Distribución sesgada hacia la derecha: Los (c) Distribuciones asimetricas: No pre-
datos se concentran hacia la derecha de la senta uniformidad dn la distribución de
distribución los datos
Figura 5.2: Distribuciones asimétricas
Alfredo Yerman Cortes Verbel.
5.2. ASIMETRÍA. 151
Relación entre media, mediana y moda
(a) Distribución sesgada a (b) Distribución sesgada a (c) Distribución de frecuen-
la izquierda. la derecha. cia simétrica.
Figura 5.3: Relación entre media, mediana y moda.
En una distribución sesgada a la izquierda, la moda es menor a la mediana,
y esta a su vez menor que la media. Mo < Me < x. Cuando una distribución de
frecuencia es simétrica, la media, mediana y moda coinciden en su valor. En el
caso de una distribución binomial simétrica, es necesario calcular el promedio de
las modas. Mo = Me = x. En una distribución sesgada a la derecha la relación
se invierte, la moda es mayor a la mediana, y esta a su vez mayor que la media.
Mo > Me > x.
5.2.1. Coeficiente de asimetría de Fisher.
Definición 5.1: Coeficiente de asimetría de Fisher.
Si x1 representa cada uno de los valores que toma la variable aleatoria, x
la media de la muestra y ni la frecuencia de cada valor, definimos g1 el
coeficiente de asimetría de Fisher como:
1 Pn 3
n i=1 (xi − x) ni
g1 = 23
1 Pn 2
n i=1 (x 1 − x) ni
y evalúa la proximidad de los datos a su media. El coeficiente de asimetría
de Fisher se puede expresar tambien como:
Pn 3
i=1 (xi − x)
g1 =
n (sx )3
Alfredo Yerman Cortes Verbel.
5.2. ASIMETRÍA. 152
donde sx es la desviación estándar
La anterior ecuación la podemos interpretar de la siguiente manera:
g1 = 0 Se acepta que la distribución es Simétrica, es decir, existe aproxi-
madamente la misma cantidad de valores a los dos lados de la media. Este
valor es difícil de conseguir por lo que se tiende a tomar los valores que son
cercanos ya sean positivos o negativos ±0,5.
g1 > 0 La curva es asimétricamente positiva por lo que los valores setienden
a reunir más en la parte izquierda que en la derecha de la media.
g1 < 0 La curva es asimétricamente negativa por lo que los valores se tienden
a reunir más en la parte derecha de la media.
Desde luego entre mayor sea el número (Positivo o Negativo), mayor será la
distancia que separa la aglomeración de los valores con respecto a la media.
Día 1 2 3 4 5 6 7 8 9 10
Tiempo (minutos) 39 29 43 52 39 44 40 31 44 35
Cuadro 5.1: Tiempos registrados por un empleado de una empresa de transporte
para llegar a su trabajo.
Ejemplo 5.1
Los tiempos registrados por un empleado de una empresa de transporte para
llegar a su trabajo, son consignados en la siguiente tabla, (Ver cuadro 5.1). Se
quiere identificar si existe alguna concentración de interés en las frecuencias de
sus tiempos de llegada utilizando el coeficiente de asimetría de Fisher para poder
prepararse ante posibles eventualidades.
Para estimar el Coeficiente de Asimetría de Fisher se debe calcular primero
el promedio y la desviación estándar de los tiempos de llegada al trabajo:
Para el promedio tenemos:
10
1 X
x T iempo = xi
10
i=1
39 + 29 + 43 + 52 + 39 + 44 + 40 + 31 + 44 + 35
=
n
396
=
10
= 39,6
Alfredo Yerman Cortes Verbel.
5.2. ASIMETRÍA. 153
Para la desviación estándar tenemos:
v
u 10
u1 X 2
Sx = t xi − x T iempo
10
i=1
s
(39 − 39,6)2 + (29 − 39,6)2 + · · · + (44 − 39,6)2 + (35 − 39,6)2
=
10
r
412,4
=
10
p
= 41,25
= 6,42
Ahora el coeficiente de asimetría sería
P10 3
i=1 xi − x T iempo
g1 =
10 · 6,42
(39 − 39,6)3 + (29 − 39,6)3 + (43 − 39,6)3 · · · (35 − 39,6)3
=
10 · 6,42
191, 52
=
64,2
= 2, 98
5.2.2. Coeficiente de asimetría de Pearson.
Definición 5.2: Coeficiente de asimetría de Pearson.
El coeficiente de asimetría de Pearson Asp mide la diferencia entre la media
y la moda respecto a la dispersión del conjunto X = (x1 , x2 , · · · , xn ).
x − Mo
Asp =
Sx
Su interpretación es similar a la del coeficiente de Fisher, siendo nulo para una
distribución simétrica (en ese caso media y moda coinciden) y tanto más positivo,
o negativo, cuando más sesgada este la distribución hacia la derecha, o hacia la
izquierda.
Se trata de un índice adimensional (no tiene unidades de medida) que se aplica
a distribuciones unimodales. Cuando la distribución es simétrica, la media y la moda
Alfredo Yerman Cortes Verbel.
5.2. ASIMETRÍA. 154
coinciden, por lo que el numerador se anula y el valor de Ass = 0. En distribuciones
con asimetría positiva, la media es mayor que la moda, por lo que Asp > 0. Por
otro lado, cuando la asimetría es negativa, el valor de la moda es superior al de la
media y Asp < 0. i.e.
Si Aps < 0: la distribución tiene una asimetría negativa, puesto que la media
es menor que la moda.
Si Aps = 0: la distribución es simétrica.
Si Aps > 0: la distribución tiene una asimetría positiva, ya que la media es
mayor que la moda.
5.2.3. Coeficiente de asimetría de Bowley.
Se define el coeficiente de Bowley como un método para la definición de asime-
tría en una serie de datos. Está basado en la posición de los cuartiles y la mediana,
y utiliza la siguiente expresión:
En una distribución simétrica el tercer cuartil estará a la misma distancia de la
mediana que el primer cuartil.
Definición 5.3: Coeficiente de asimetría de Bowley.
El coeficiente de asimetría de Bowley AsB toma como referencia los cuartiles
para determinar si la distribución es simétrica o no. Para aplicar este coefi-
ciente, se supone que el comportamiento de la distribución en los extremos
es similar. Sea el conjunto X = (x1 , x2 , · · · , xN ), la asimetría de Bowley es:
Q3 + Q1 − 2Me
AsB =
Q − 3 − Q1
Dado que la mediana Me es lo mismo que el segundo cuartil, por lo tanto
la fórmula anterior se puede escribir como:
Q3 + Q1 − 2Q2
AsB =
Q − 3 − Q1
Si AsB < 0: la distribución tiene una asimetría negativa, puesto que la dis-
tancia de la mediana al primer cuartil es mayor que al tercero.
Si AsB = 0: la distribución es simétrica, ya que el primer y tercer cuartil están
a la misma distancia de la mediana.
Alfredo Yerman Cortes Verbel.
5.3. CURTOSIS. 155
Si AsB > 0: la distribución tiene una asimetría positiva, ya que la distancia
de la mediana al tercer cuartil es mayor que al primero.
5.3. Curtosis.
Esta medida determina el grado de concentración que presentan los valores
en la región central de la distribución. Por medio del Coeficiente de Curtosis, po-
demos identificar si existe una gran concentración de valores (Leptocúrtica), una
concentración normal (Mesocúrtica) ó una baja concentración (Platicúrtica)
Definición 5.4: Coeficiente de Curtosis.
Si xi representa cada uno de los valores que toma la variable aleatoria, x
la media de la muestra y ni la frecuencia de cada valor, definimos g2 el
coeficiente de curtosis como:
1 Pn 4
n i=1 (xi − x) ni
g2 = 2 − 3
1 Pn 2
n i=1 (x i − x) ni
La curtosis (o apuntamiento) es una medida de forma que mide cuán escar-
pada o achatada está una curva o distribución. Se puede definir tambien por
la formula:
Pn
i=1 (xi − x)4 ni
g2 =
n (sx )4
La anterior ecuación la podemos interpretar de la siguiente manera:
g2 = 0 la distribución es Mesocúrtica: Al igual que en la asimetría esbastante
difícil encontrar un coeficiente de Curtosis de cero (0), por lo que sesuelen
aceptar los valores cercanos (±0,5 aprox).
g2 > 0 la distribución es Leptocúrtica
g2 < 0 la distribución es Platicúrtica
Alfredo Yerman Cortes Verbel.
5.3. CURTOSIS. 156
Figura 5.4: Tipos de curtosis
Cuando la distribución de los datos cuenta con un coeficiente de asimetría (g1 =
±0,5) y un coeficiente de Curtosis de (g2 = ±0,5), se le denomina Curva Normal.
Este criterio es de suma importancia ya que para la mayoría de los procedi-
mientos de la estadística de inferencia se requiere que los datos se distribuyan
normalmente. La principal ventaja de la distribución normal radica en el supuesto
que el 95 % delos valores se encuentra dentro de una distancia de dos desviaciones
estándar dela media aritmética (ver figura 5.5); es decir, si tomamos la media y le
sumamos dos veces la desviación y después le restamos a la media dos desvia-
ciones, el 95 % de los casos se encontraría dentro del rango que compongan estos
valores
Figura 5.5: Curva normal
Alfredo Yerman Cortes Verbel.
5.3. CURTOSIS. 157
Figura 5.6: Amadeo Artacho (MatematicasCercanas) [@ matescercanas] (23 ene.
2017) Los comentaristas de fútbol y su pasión por las estadísticas. (viñeta de
Alberto Montt) # matematicas # futbol [Tweet] [Imagen adjunta]. Twitter. https:
//[Link]/matescercanas/status/823674454492516352
Alfredo Yerman Cortes Verbel.
5.4. EVALUACIÓN POR COMPETENCIAS 158
5.4. Evaluación por competencias
5.4.1. Ejercicios de aplicación
1. Si dos Trabajadores ejecutan la misma labor pero el Trabajador A, lo hace
en un tiempo promedio de 1 hora con una desviación estándar de 5 min y
el trabajador B, hace el trabajo en un tiempo promedio de 45 min y una
desviación estándar de 5 min. ¿Cuál trabajador es más homogéneo realizando
la labor? , por que?
2. Sea AP el coeficiente de asimetría de Pearson, AP :
Si AP ≤ −1, los datos están muy sesgados negativamente.
Si −1,0 < AP ≤ −0,5, los datos tiene sesgo moderado negativo.
Si −0,5 < AP ≤ 0,5, los datos son razonablemente simétricos, siendo
que si AP = 0 la distribución es simétrica.
Si 0,5 < AP ≤ 1,0, los datos tiene sesgo moderado positivo.
Si 1,0 < AP , los datos están muy sesgados positivamente.
El promedio de las edades de los cartageneros que se han vacunado contra
la fiebre amarilla es de 35,7 años; la edad en la que más se vacunan los
cartageneros es a los 22,5 años y la desviación estándar es de 17,86 años.
Calcular AP e indicar que tipo de sesgo tiene.
3. Un estudiante quiere conocer si los profesores de IESAS, prefieren dictar cla-
ses con ropa formal o con ropa informal. Para ello, realiza una encuesta a 120
profesores de la institución educativa elegidos de forma aleatoria. Identificar:
población, muestra y varible aleatoria.
4. El analista de investigación para la empresa de corretaje de acciones Sidde
Financial, desea comparar la dispersión de las razones precio - rendimiento
en un grupo de acciones comunes, con la dispersión de sus rendimientos
sobre inversión. Para las razones precio - rendimiento la media es 10,9 y la
desviación estándar 1,8. El rendimiento medio sobre inversión es 25 % y la
desviación estándar 5,2 %.
Calcular los coeficientes de variación de las razones precio - rendimiento, y
el rendimiento sobre inversión e identificar cuan tiene mayor variación:
Alfredo Yerman Cortes Verbel.
5.4. EVALUACIÓN POR COMPETENCIAS 159
Figura 5.7: Distribución de edades de un grupo de estudiantes de una escuela
primaria
5. De acuerdo a la figura 5.11 calcular el total de datos
6. De acuerdo a la figura 5.11,calcular la edad promedio.
7. De acuerdo a la figura 5.11, calcular la moda.
8. De acuerdo a la figura 5.11, calcular la mediana.
9. De acuerdo a la figura 5.11, calcular el coeficiente de asimetria de fisher e
indicar que tipo de asimetría presenta.
La figura 5.8 representa un diagrama de caja y bigotes que muestra los minutos
que tarda en hacer efecto un medicamento en una población determinada.
10. De la figura 5.8, ¿A qué porcentaje de la población había hecho efecto al cabo
de 30 minutos?:
11. De De la figura 5.8, ¿Al cabo de cuántos minutos había hecho efecto al 50 %
de la población?. :
12. De De la figura 5.8, ¿cuántos minutos tardó en hacer efecto a toda la población?
:
Alfredo Yerman Cortes Verbel.
5.4. EVALUACIÓN POR COMPETENCIAS 160
Figura 5.8: Minutos que tarda en hacer efecto un medicamento en una población
13. De De la figura 5.8, ¿A qué porcentaje había hecho efecto a los 55 minutos?:
14. Miguel obtuvo la siguiente información a partir de un conjunto de datos de
las edades de las personas que fueron a la piscina un sábado por la mañana:
valor mínimo: 7
Q1 = 10
Q2 = 15
Q3 = 22
valor máximo: 31
Realizar el diagrama de caja y bigotes que represente esta situación
15. Las tres curvas de la figura 5.17 representan los resultados de un examen
aplicado a tres grupos de alumnos de una misma asignatura. ¿cuál es grupo
cuyas calificaciones se representan una curva bastante homogénea, en donde
la mayoría obtuvo una calificación muy cercana al promedio?¿ cual es el grupo
con curva que indica una mayor heterogeneidad , que probablemente contiene
estudiantes promedio, algunos alumnos más aventajados y seguramente otro
tanto menos atentos. ?
Figura 5.9: Resultados de una evaluación aplicada a tres grupos A,B y C
Alfredo Yerman Cortes Verbel.
5.4. EVALUACIÓN POR COMPETENCIAS 161
16. ¿Qué otra conclusión podemos sacar de la gráfica de la figura 5.17?
La gráfica de la figura 5.22 representa la distribución de las edades de un
grupo de personas a las que se les aplico una encuesta sobre el uso de redes
sociales.
Figura 5.10: Distribución de edades de un grupo de personas a las que se les aplico
una encuesta
17. La distribución de las edades de la gráfica de la figura 5.22 ¿ que tipo de
asimetría presenta?:
18. ¿Qué otra conclusión podemos sacar de la gráfica de la figura 5.22?
5.4.2. Evaluando saberes
1. Si dos Trabajadores ejecutan la misma labor pero el Trabajador A, lo hace
en un tiempo promedio de 1 hora con una desviación estándar de 5 min y
el trabajador B, hace el trabajo en un tiempo promedio de 45 min y una
desviación estándar de 5 min. ¿Cuál trabajador es más homogéneo realizando
la labor?
a) el trabajador A dado que tiene un coeficiente de variación de 8,3 %
b) el trabajador B dado que tiene un coeficiente de variación de 11,1 %
c) el trabajador B dado que el trabajador A tiene un coeficiente de variación
de mayor.
d) el trabajador A dado que el trabajador B tiene un coeficiente de variación
de mayor.
Alfredo Yerman Cortes Verbel.
5.4. EVALUACIÓN POR COMPETENCIAS 162
2. Sea AP el coeficiente de asimetría de Pearson, AP :
Si AP ≤ −1, los datos están muy sesgados negativamente.
Si −1,0 < AP ≤ −0,5, los datos tiene sesgo moderado negativo.
Si −0,5 < AP ≤ 0,5, los datos son razonablemente simétricos, siendo
que si AP = 0 la distribución es simétrica.
Si 0,5 < AP ≤ 1,0, los datos tiene sesgo moderado positivo.
Si 1,0 < AP , los datos están muy sesgados positivamente.
El promedio de las edades de los cartageneros que se han vacunado contra
la fiebre amarilla es de 35,7 años; la edad en la que más se vacunan los
cartageneros es a los 22,5 años y la desviación estándar es de 17,86 años.
De acuerdo a lo anterior podemos decir que:
a) la distribución de las edades de los cartageneros está muy sesgada
positivamente, dado que AP = 3,25.
b) la distribución de las edades de los cartageneros tiene sesgo moderado
positivo, dado que AP = 0,73.
c) la distribución de las edades de los cartageneros está muy sesgada
negativamente, dado que AP = −2,31.
d) la distribución de las edades de los cartageneros tiene sesgo moderado
negativo, dado que AP = −0, 73.
3. El analista de investigación para la empresa de corretaje de acciones Sidde
Financial, desea comparar la dispersión de las razones precio - rendimiento
en un grupo de acciones comunes, con la dispersión de sus rendimientos
sobre inversión. Para las razones precio - rendimiento la media es 10,9 y la
desviación estándar 1,8. El rendimiento medio sobre inversión es 25 % y la
desviación estándar 5,2 %. Al Comparar los coeficientes de variación de las
razones precio - rendimiento, y el rendimiento sobre inversión tenemos que:
a) Existe mayor dispersión en el precio-rendimiento cuyo valor es 20, 8 %.
en relación al rendimiento-inversión con su valor de 16, 51 %.
b) tanto el precio-rendimiento como el rendimiento-inversión, presentan la
misma variación dado que tiene el mismo coeficiente de variación.
c) Existe menor dispersión en el precio-rendimiento cuyo valor es 16, 51 %
en relación al rendimiento-inversión con su valor de 20, 8 %.
d) tanto el precio-rendimiento como el rendimiento-inversión, presentan la
distinta variación aunque tienen el mismo coeficiente de variación.
Alfredo Yerman Cortes Verbel.
5.4. EVALUACIÓN POR COMPETENCIAS 163
RESPONDA LAS PREGUNTAS DE LA 4 A LA 9 CON BASE EN LA SIGUIEN-
TE INFORMACIÓN (Ver figura 5.11).
Figura 5.11: Distribución de edades de un grupo de estudiantes de una escuela
primaria
4. De acuerdo a la figura 5.11 tenemos que el total de datos que se tienen es
de:
a) 21 datos.
b) 7 datos.
c) 6 datos.
d) 150 datos.
5. De acuerdo a la figura 5.11, la edad promedio es de:
a) 8,3 años.
b) 21 años.
c) 7,1 años.
d) 8 años.
6. La edad mediana:
a) 6 años.
b) 21 años.
c) 7 años.
Alfredo Yerman Cortes Verbel.
5.4. EVALUACIÓN POR COMPETENCIAS 164
d) 8 años.
7. De acuerdo a la figura 5.11, la moda de las edades es de:
a) 6 años.
b) 21 años.
c) 7 años.
d) 3 años.
8. De acuerdo a la figura 5.11, la moda de las edades es de:
a) 6 años.
b) 21 años.
c) 7 años.
d) 3 años.
9. La distribución de datos de la figura 5.11 es
a) simétrica.
b) asimetrica positiva.
c) asimetrica negativa.
d) antisesgada.
RESPONDA LAS PREGUNTAS DE LA 10 A LA 13 CON BASE EN LA GRÁ-
FICA DE LA FIGURA 5.12
La figura 5.12 representa un diagrama de caja y bogotes que muestra los
minutos que tarda en hacer efecto un medicamento en una población deter-
minada.
Figura 5.12: Minutos que tarda en hacer efecto un medicamento en una población
Alfredo Yerman Cortes Verbel.
5.4. EVALUACIÓN POR COMPETENCIAS 165
10. De la figura 5.12, ¿A qué porcentaje de la población había hecho efecto al
cabo de 30 minutos?:
a) 100 %.
b) 85 %.
c) 30 %.
d) 0 %.
11. De De la figura 5.12, ¿Al cabo de cuántos minutos había hecho efecto al 50 %
de la población?. :
a) 100 minutos.
b) 85 minutos.
c) 80 minutos.
d) 55 minutos.
12. De De la figura 5.12, ¿cuántos minutos tardó en hacer efecto a toda la pobla-
ción? :
a) 140 minutos.
b) 130 minutos.
c) 100 minutos.
d) 75 minutos.
13. De De la figura 5.12, ¿A qué porcentaje había hecho efecto a los 55 minutos?:
a) 75 %.
b) 55 %.
c) 50 %.
d) 25 %.
14. Miguel obtuvo la siguiente información a partir de un conjunto de datos de
las edades de las personas que fueron a la piscina un sábado por la mañana:
valor mínimo: 7
Q1 = 10
Q2 = 15
Q3 = 22
Alfredo Yerman Cortes Verbel.
5.4. EVALUACIÓN POR COMPETENCIAS 166
valor máximo: 31
Miguel dibujó un diagrama de caja y bigotes usando los datos. ¿Cuál de los
siguientes es el diagrama que dibujó Miguel?:
Figura 5.13: a)
Figura 5.14: b)
Figura 5.15: c)
Alfredo Yerman Cortes Verbel.
5.4. EVALUACIÓN POR COMPETENCIAS 167
Figura 5.16: d)
15. Un estudiante quiere conocer si los profesores de IESAS, prefieren dictar
clases con ropa formal o con ropa informal. Para ello, realiza una encuesta a
120 profesores de la institución educativa elegidos de forma aleatoria. De la
anterior situación podemos identificar como:
a) • Población: conjunto de todos los profesores de IESAS.
• Muestra: 120 profesores de IESAS.
• variable cuantitativa: tipo de ropa que prefieren los profesores.
b) • Población: conjunto de todos los profesores de IESAS.
• Muestra: 120 profesores de IESAS.
• variable cualitativa: tipo de ropa que prefieren los profesores.
c) • Población: 120 profesores de IESAS..
• Muestra: conjunto de todos los profesores de IESAS
• variable cualitativa: tipo de ropa que prefieren los profesores.
d) • Población: 120 profesores de IESAS.
• Muestra: conjunto de todos los profesores de IESAS.
• variable cuantitativa: tipo de ropa que prefieren los profesores.
16. Las tres curvas de la figura 5.17 representan los resultados de un examen
aplicado a tres grupos de alumnos de una misma asignatura. De lo anterior
podemos inferir que:
Figura 5.17: Resultados de una evaluación aplicada a tres grupos A,B y C
Alfredo Yerman Cortes Verbel.
5.4. EVALUACIÓN POR COMPETENCIAS 168
a) hay muchos mas estudiantes en el grupo A que en el grupo B.
b) El resultado promedio del grupo A es mayor al resultado promedio del
grupo C .
c) los resultados del grupo C con curva platicurtica,indican una menor hete-
rogeneidad en el grupo, que probablemente contiene estudiantes prome-
dio, algunos alumnos más aventajados y seguramente otro tanto menos
atentos.
d) El grupo cuyas calificaciones se representa por la curva A leptocúrtica,
es bastante homogéneo, la mayoría obtuvo una calificación promedio o
cercana.
17. Se han medido los tiempos requeridos por un grupo de conductores de 4
empresas para desplazarse entre dos ciudades. la gráfica que representa una
mayor heterogeneidad en el grupo y un comportamiento platicurtico es:
Figura 5.18: a)
Figura 5.19: b)
Alfredo Yerman Cortes Verbel.
5.4. EVALUACIÓN POR COMPETENCIAS 169
Figura 5.20: c)
Figura 5.21: d)
RESPONDA LAS PREGUNTAS DE LA 18 A LA 20 CON BASE EN LA SI-
GUIENTE INFORMACIÓN
La gráfica de la figura 5.22 representa la distribución de las edades de un
grupo de personas a las que se les aplico una encuesta sobre el uso de redes
sociales.
Alfredo Yerman Cortes Verbel.
5.4. EVALUACIÓN POR COMPETENCIAS 170
Figura 5.22: Distribución de edades de un grupo de personas a las que se les aplico
una encuesta
18. De la gráfica de la figura 5.22 podemos decir que:
a) la distribución de datos es positiva y la edad promedio a quienes se les
aplicó la encuesta es próxima a 30 años.
b) la distribución de datos es positiva y la edad promedio a quienes se les
aplicó la encuesta es 50 años.
c) la distribución de datos es negativa y la edad promedio a quienes se les
aplicó la encuesta es 50 años.
d) la distribución de datos es negativa y la edad promedio a quienes se les
aplicó la encuesta es 30 años.
19. De la gráfica de la figura 5.22 podemos decir que la encuesta fue aplicada a :
a) menos de 10 personas de 50 años.
b) 20 personas de 50 años.
c) 30 personas de 20 años.
d) mas de 40 personas de 10 años.
20. La distribución de las edades de la gráfica de la figura 5.22 es:
a) positiva.
b) negativa.
c) curtosis.
d) platicurtica.
Alfredo Yerman Cortes Verbel.
171
172
6. CORRELACIÓN Y
REGRESIÓN LINEAL.
Para entender los pensamientos de
Dios debemos estudiar las
estadísticas, dado que éstas son las
medidas de su voluntad.
Florence Nightingale
Florence Nightingale
(Florencia, 12 de mayo de 1820-Londres, 13 de agosto de 1910), fue una enfermera,
escritora y estadística británica, considerada precursora de la enfermería profesional
contemporánea y creadora del primer modelo conceptual de enfermería. Desde muy
joven destacó en matemáticas, y culminó sus estudios y aplicó sus conocimientos de
estadística a la epidemiología y a la estadística sanitaria. Fue la primera mujer ad-
mitida en la Royal Statistical Society británica, y miembro honorario de la American
Statistical Association. Pese a las reticencias de sus padres, Florence Nightinga-
le consiguió convencerlos en 1840 de que la dejaran estudiar matemáticas y, más
tarde, enfermería. Aprendió aritmética, geometría y álgebra, y dedicó un tiempo a
dar clases particulares a niños en estas materias. En el Museo Británico se pueden
leer planes de lecciones con su letra, incluidos problemas de cuentos basados en la
vida de los niños a los que estaba enseñando, donde muestra preocupación por la
educación de las niñas. Durante la guerra de Crimea en 1854, dirigió a un grupo de
enfermeras que lograron descender la tasa de mortalidad de los heridos británicos
del 40 % al 2 %, recopilando datos estadísticos y cambiando las pésimas condiciones
higiénicas en las que se encontraban.
Su trabajo con las estadísticas médicas fue tan impactante que en 1858 fue elegida
como miembro de la Sociedad de Estadística de Inglaterra. Fue una de las pioneras
en la representación gráfica de datos, ya que inventó coloridos diagramas de áreas
polares. Aunque no fue la primera persona que utilizó diagramas, es posible que sí
fuera la primera en utilizarlos para persuadir a las autoridades de la necesidad de
introducir cambios. Durante la Guerra Civil estadounidense, Nightingale fue con-
sultora sobre salud del ejército del gobierno de Estados Unidos. También asesoró a
Alfredo Yerman Cortes Verbel.
173
la oficina de guerra británica sobre la atención médica del ejército en Canadá. Sus
actividades matemáticas incluían determinar la velocidad promedio del transporte
en trineo y calcular el tiempo necesario para transportar a los enfermos a través
de las inmensas distancias de Canadá. De fe anglicana, creía que Dios la había
inspirado para ser enfermera. Alcanzó fama mundial por sus trabajos precursores
de enfermería en la asistencia a los heridos durante la guerra de Crimea. A partir
de ese momento fue conocida como «la dama de la lámpara», por su costumbre de
realizar rondas nocturnas con una lámpara para atender a sus pacientes. En 1883,
la reina Victoria le otorgó la Real Cruz Roja, y en 1907 se convirtió en la primera
mujer en recibir la Orden de Mérito del Reino Unido. En 1908, le fueron otorgadas
las Llaves de la Ciudad de Londres. El juramento Nightingale efectuado por los
enfermeros al graduarse, fue creado en su honor en 1893. El Día Internacional de
la Enfermería se celebra en la fecha de su cumpleaños.
Figura 6.1: Diagrama de las causas de mortalidad elaborado por Florence Nightin-
gale.
Alfredo Yerman Cortes Verbel.
6.1. CORRELACIÓN LINEAL Y REGRESIÓN LINEAL SIMPLE. 174
6.1. Correlación lineal y Regresión lineal simple.
La correlación lineal y la regresión lineal simple son métodos estadísticos que
estudian la relación lineal existente entre dos variables. Antes de profundizar en
cada uno de ellos, conviene destacar algunas diferencias:
La correlación cuantifica como de relacionadas están dos variables, mientras
que la regresión lineal consiste en generar una ecuación (modelo) que, ba-
sándose en la relación existente entre ambas variables, permita predecir el
valor de una a partir de la otra.
El cálculo de la correlación entre dos variables es independiente del orden o
asignación de cada variable a X e Y , mide únicamente la relación entre ambas
sin considerar dependencias. En el caso de la regresión lineal, el modelo varía
según qué variable se considere dependiente de la otra (lo cual no implica
causa-efecto).
A nivel experimental, la correlación se suele emplear cuando ninguna de las
variables se ha controlado, simplemente se han medido ambas y se desea
saber si están relacionadas. En el caso de estudios de regresión lineal, es
más común que una de las variables se controle (tiempo, concentración de
reactivo, temperatura. . . ) y se mida la otra.
Por norma general, los estudios de correlación lineal preceden a la generación
de modelos de regresión lineal. Primero se analiza si ambas variables están
correlacionadas y, en caso de estarlo, se procede a generar el modelo de
regresión.
6.1.1. Correlación lineal
El principal objetivo de la regresión simple es construir un modelo funcional
y = f (x) que explique lo mejor posible la relación entre dos variables X (variable
independiente) e Y (variable dependiente) medidas en una misma muestra. Gene-
ralmente, el modelo construido se utiliza para realizar inferencias predictivas de Y
en función de X en el resto de la población. Pero aunque la regresión garantiza que
el modelo construido es el mejor posible, dentro del tipo de modelo elegido (lineal,
polinómico, exponencial, logarítmico, ver cuadro 6.3.), puede que aún así, no sea un
buen modelo para hacer predicciones, precisamente porque no haya relación de ese
tipo entre X e Y . Así pues, con el fin de validar un modelo para realizar predicciones
fiables, se necesitan medidas que nos hablen del grado de dependencia entre X e
Y , con respecto a un modelo de regresión construido. Estas medidas se conocen
como medidas de correlación. Dependiendo del tipo de modelo ajustado, habrá dis-
tintos tipos de medidas de correlación. Así, si el modelo de regresión construido
Alfredo Yerman Cortes Verbel.
6.1. CORRELACIÓN LINEAL Y REGRESIÓN LINEAL SIMPLE. 175
(a) Cuando X crece, Y crece. Casi to- (b) Cuando X crece, Y decrece. Ca-
dos los puntos pertenecen a los cua- si todos los puntos pertenecen a los
drantes primero y tercero. cuadrantes segundo y cuarto.
Figura 6.2: Interpretación geometrica de la covarianza Sxy
es una recta, hablaremos de correlación lineal; si es un polinomio, hablaremos de
correlación polinómica; si es una función exponencial, hablaremos de correlación ex-
ponencial, etc. En cualquier caso, estas medidas nos hablarán de lo bueno que es el
modelo construido, y como consecuencia, de si podemos fiarnos de las predicciones
realizadas con dicho modelo.
Para estudiar la relación lineal existente entre dos variables continuas es ne-
cesario disponer de parámetros que permitan cuantificar dicha relación. Uno de
estos parámetros es la covarianza, que indica el grado de variación conjunta de dos
variables aleatorias.
Definición 6.1: Covarianza Muestral
Sea x̄ e ȳ la media de cada variable y xi e yi el valor de las variables para la
observación i, N el total de datos. se define la Covarianza Muestral notada
por C ov(X , Y ) o Sxy como:
Pn
(xi − x̄)(yi − ȳ)
C ov(x, y) = Sxy = i=1
n−1
Ejemplo 6.1
Supongamos que los resultados de medir a 8 estudiantes en las variables horas
de estudio empleadas en la asignatura de estadística (X) y su nota en la misma
de 0 a 10 (Y) están en el cuadro 6.1. La covarianza esta dada por
Alfredo Yerman Cortes Verbel.
6.1. CORRELACIÓN LINEAL Y REGRESIÓN LINEAL SIMPLE. 176
Estudiante X Y (x − x̄) (y − ȳ) (x − x̄)(y.ȳ)
1 4 3 −3,25 −3,75 12,19
2 5 5 −2,25 −1,75 3,94
3 7 8 −0,25 1,25 −0,31
4 12 10 4,75 3,25 15,44
5 10 9 2,75 2,25 6,19
6 9 9 1,75 2,25 3,94
7 8 8 0,75 1,25 0,94
8 3 2 −4,75 −4,75 22,56
P
Promedio = 62,51
Cuadro 6.1: La variable X representa las horas de estudio de la asignatura estadís-
tica y Y la calificación obtenida.
Pn
i=1 (xi
− x̄)(yi − ȳ)
C ov(x, y) = Sxy =
n−1
62,51
=
7
= 8,93
Supongamos que la nota en la asignatura de estadística se hubiera medido en
una escala de 0 a 20 por ejemplo, si el examen constara de 20 preguntas en lugar
de la escala de 0 a 10 del ejemplo anterior 6.1; si mantenemos las mismas notas
previas, es decir, teniendo igual rendimiento por alumno que antes pero en esta
última escala, las puntuaciones hubieran sido , por ejemplo, 5 en una escala de 0 a
10 se corresponde con una de 10 en la escala de 0 a 20. En esta nueva escala de
la variable Y , la medida de covariación entre las dos variables será 17,85 (El lector
podrá verificar este dato fácilmente). Este valor casi dobla el de antes (17,85 > 8,93).
Esto NO quiere decir que el grado de asociación entre X e Y resulta superior en
este segundo caso, cuando sabemos que las puntuaciones de Y son las mismas que
antes pero medidas en otra escala. La explicación está en la amplitud de la escala
de medición de la segunda de nuestras variables.
La medida de la covariación entre dos variables depende del tipo de escala
utilizada. Cuanto más alto es el rango de variación de las escalas más alto es el re-
sultado de la covariación entre los datos manteniendo equivalente las puntuaciones
de los sujetos en la nueva escala respecto a la original. Es por eso que necesitamos,
para establecer comparativas entre datos provenientes de diferentes escalas (o de
diferentes investigaciones) y para los mismos conceptos o temas, de una medida de
covariación que no dependa de ellas. Esta medida es la correlación de Pearson.
Alfredo Yerman Cortes Verbel.
6.1. CORRELACIÓN LINEAL Y REGRESIÓN LINEAL SIMPLE. 177
Coeficiente de Correlación lineal de Pearson
El estimador muestral más utilizado para evaluar la asociación lineal entre dos
variables X e Y es el coeficiente de correlación de Pearson (r). Se trata de un
índice que mide si los puntos tienen tendencia a disponerse en una línea recta.
Puede tomar valores entre 1 y −1. Representado el primero un valor de correlación
perfecta positiva entre las variables y el último de correlación perfecta negativa. Un
valor de r = 0 significa la ausencia total de correlación entre las variables. (Ver
cuadro 6.2.)
Definición 6.2: Coeficiente de Correlación lineal de Pearson
El Coeficiente de Correlación lineal de Pearson se nota r y se define como la
covarianza muestral entre X e Y dividida por el producto de las desviaciones
típicas de cada variable; i.e.:
Sxy
r =
Sx Sy
Pn
i=1 (xi− x̄)(yi − ȳ)
! rP !
r = r Pn n
(x − x̄) 2 (y − ȳ) 2
i=1 i i=1 i
(n − 1)
n−1 n−1
Propiedades del coeficiente de correlación de Pearson r.
No tiene dimensión, y siempre toma valores en [−1, 1].
Si las variables son independientes, entonces r = 0, pero el inverso no tiene
por qué ser cierto.
Si existe una relación lineal exacta entre X e Y , entonces r valdría 1 (relación
directa) ó −1 (relación inversa).
Si r > 0, esto indica una relación directa entre las variables (es decir, que si
aumentamos X , también aumenta Y ).
Si r < 0, la correlación entre las variables es inversa (si aumentamos una, la
otra disminuye).
Alfredo Yerman Cortes Verbel.
6.1. CORRELACIÓN LINEAL Y REGRESIÓN LINEAL SIMPLE. 178
Figura 6.3: r = ±1 es lo mismo que decir que las observaciones de ambas variables
están perfectamente alineadas. El signo de r, es el mismo que el de SX Y , por tanto
nos indica el crecimiento o decrecimiento de la recta. La relación lineal es tanto
más perfecta cuanto r está cercano a ±1.
Interpretación
Valor
Dirección Rango Fuerza
r = −1 Perfecta
−1 < r ≤ −0,8 Muy fuerte
−0,8 < r ≤ −0,6 Fuerte
−1 ≤ r < 0 Negativa
−0,6 < r ≤ −0,4 Moderada
−0,4 < r ≤ −0,2 Débil
−0,2 < r ≤ 0 Muy débil
r=0 No hay relación
0 < r ≤ 0,2 Muy débil
0,2 < r ≤ 0,4 Débil
0,4 < r ≤ 0,6 Moderada
0<r≤1 Positiva
0,6 < r ≤ 0,8 Fuerte
0,8 < r < 1 Muy fuerte
r=1 Perfecta
Cuadro 6.2: Interpretación de coeficiente de correlación de Pearson.
Alfredo Yerman Cortes Verbel.
6.1. CORRELACIÓN LINEAL Y REGRESIÓN LINEAL SIMPLE. 179
Definición 6.3: Coeficiente de determinación r 2
Dado el coeficiente de correlación lineal de Pearson, notamos por r 2 al coefi-
ciente de determinación. El coeficiente de determinación puede interpretarse
como la proporción de variabilidad de Y que es explicada por X . Mide la
proximidad de la recta ajustada a los valores observados de Y .
Propiedades del Coeficiente de determinación de Pearson r 2
0 ≤ r 2 ≤ 1.
no tiene unidades.
r 2 = 0 indica que existe independencia en la relación lineal planteada por el
modelo de regresión.
r = 1 indica dependencia funcional.
Por tanto, cuanto mayor sea r 2 , mejor será el modelo de regresión.
r 2 simboliza la cantidad de variabilidad explicada por X en la determinación
de los valores de Y . O dicho de otra forma, la proporción de la variabilidad de los
valores de Y que es debida al efecto de X . Mientras que r proporciona la información
sobre el sentido de la correlación (positiva o negativa), r 2 informa sobre su fuerza.
Así que un valor de r = −0,9 se corresponde con un r 2 = 0,81 (el mismo coeficiente
de determinación que para una r = 0,9). La diferencia entre los dos casos es el
sentido en que X afecta a Y .
Ejemplo 6.2
A continuación calculamos el valor del coeficiente de correlación lineal de Pearson
r para el conjunto de datos del ejemplo anterior 6.1 (primero para las notas de
examen en la escala de 0 a 10). Tenemos que las varianzas están dadas por .
s
Pn
− x̄)2
i=1 (xi
Sx =
n−1
r
67,5
=
7
≈ 3,10
Alfredo Yerman Cortes Verbel.
6.1. CORRELACIÓN LINEAL Y REGRESIÓN LINEAL SIMPLE. 180
s
Pn
− ȳ)2
i=1 (yi
Sy =
n−1
r
63,49
=
7
≈ 3,01
Finalmente, el coeficiente de correlación de Pearson valdrá:
Sxy
r =
Sx Sy
8,93
=
(3,1)(3,01)
= 0,95
Este es un valor de correlación muy fuerte positivo. Ello indica que cuantas más
horas de estudio se emplee para estudiar la materia más altas son las notas
obtenidas.
Ejemplo 6.3
A continuación calculamos r para los datos en el caso en que los datos Y se
toman en la escala de 0 a 20 (Ver ejemplo 6.1)
s
Pn
− x̄)2
i=1 (xi
Sx =
n−1
r
67,5
=
7
≈ 3,10
s
Pn
− ȳ)2
i=1 (yi
Sy =
n−1
r
254
=
7
≈ 6,02
Finalmente, r valdrá:
Alfredo Yerman Cortes Verbel.
6.1. CORRELACIÓN LINEAL Y REGRESIÓN LINEAL SIMPLE. 181
Figura 6.4: r = −0, 276
Sxy
r =
Sx Sy
17,85
=
(3,1)(6,02)
= 0,95
Observemos cómo el coeficiente de correlación entre X e Y no varía cambiando
la escala en que se puntúa Y . Tanto en el primer caso (escala de 0 a 10) como
en el segundo (escala de 0 a 20) el valor de r es 0,955.
Ejemplo 6.4
En la Figura 6.4 se presenta el diagrama de dispersión entre el índice de masa
corporal, medida de obesidad que se obtiene de dividir el peso en kilogramos por
la altura en metros al cuadrado, y el colesterol HDL en un estudio realizado a
533 individuos. A simple vista, se aprecia un cierto grado de dependencia lineal
negativa entre ambas variables; esto es, el colesterol HDL tiende a decrecer
conforme aumenta el índice de masa corporal. Esta apreciación visual se confirma
mediante el cálculo del coeficiente de correlación muestral de Pearson que indica
una asociación lineal negativa moderada entre el índice de masa corporal y el
colesterol HDL.
Alfredo Yerman Cortes Verbel.
6.1. CORRELACIÓN LINEAL Y REGRESIÓN LINEAL SIMPLE. 182
6.1.2. Según un estudio estadístico las cigüeñas traen a los bebés.
¿Será esto cierto?
Todos sabemos perfectamente que los bebés no vienen al mundo después de un
largo viaje pilotado por cigüeñas, sino que vienen como resultado de la unión de un
óvulo y un espermatozoide. Esto es cierto, pero que un estudio que afirma que las
cigüeñas traen a los bebés de París también lo es. Pero, aún sabiendo que esto es
imposible, ¿cómo es que alguien ha obtenido resultados en una investigación para
poder afirmar tal locura?.
Porque no todo lo que leemos, aunque lleve el adjetivo de “científico”, realmente
lo es. Sobre todo, cuando una sola investigación está demostrando algo tan revolu-
cionario. Pero estos son los titulares que venden y en que cierto modo son ciertos,
en las siguientes líneas te explicamos el por qué.
Historias de la ciencia: Cigüeñas con bebés, niños miopes y premios Nobel
golosos.
Cuando una persona realiza diferentes estudios estadísticos hay una regla que
siempre debe de tener en cuenta: correlación no implica causalidad, es decir,
no implica una relación causa-efecto. Explicado de forma más sencilla, dos cosas
pueden estar relacionadas o variar conjuntamente sin que ninguna sea la causa de
la otra.
“La ignorancia afirma o niega
rotundamente; la ciencia duda.”
Voltaire.
Un reciente estudio estadístico observó una cierta coincidencia entre el número
de parejas de cigüeñas y el número de nacimientos anuales de bebés (humanos)
en 17 países europeos. En estadística se calcula un valor, llamado coeficiente de
correlación, para expresar el grado de coincidencia entre dos variables, que en
este caso son, para cada uno de los países estudiados, el número de parejas de
cigüeñas y el número de bebés nacidos. El valor del coeficiente de correlación
obtenido en este estudio no era demasiado alto, pero tampoco muy bajo; es decir,
parecía cumplirse que cuantas más parejas de cigüeñas, mayor número de bebés.
Estas y otras inferencias estadísticas, también mal interpretadas, parecían apoyar
la absurda hipótesis de que la causa de los nacimientos de bebés era su transporte
y entrega por parte de parejas de cigüeñas, como cuenta la leyenda (aunque no se
decía nada de si procedían de París).
Alfredo Yerman Cortes Verbel.
6.1. CORRELACIÓN LINEAL Y REGRESIÓN LINEAL SIMPLE. 183
Figura 6.5: Tomado de Gigi. (2015, verano 5). Imágenes y Carteles de CIGUENA.
[Link]. [Link]
Alfredo Yerman Cortes Verbel.
6.1. CORRELACIÓN LINEAL Y REGRESIÓN LINEAL SIMPLE. 184
Un ejemplo de estudio más serio (publicado en la prestigiosa revista Nature), en
el que una fuerte correlación se interpreta como causalidad, es el de la miopía en
los niños en relación con la luz ambiental con la que duermen. Los datos recogidos
por los autores mostraban que los niños que dormían con más luces encendidas
eran los que más miopía padecían, y a partir de ello se podía formular la hipótesis
de que altos niveles de luz ambiental durante el sueño provocaba el desarrollo de
miopía (para probar esta relación causal habría que encontrar el mecanismo biofí-
sico que relacionase ambas circunstancias, algo seguramente muy complejo). Pero
otros autores propusieron enseguida una explicación causal mucho más plausible,
introduciendo una nueva variable en el estudio: existía una fuerte correlación entre
padres miopes e hijos también miopes, sustentada en muchos más estudios y con
una probable causa genética; los padres miopes tendían a dejar luces encendidas
en la casa durante la noche, precisamente por sus problemas de visión. Es decir, la
causa común de la miopía de los niños y de las luces nocturnas era la miopía de
los padres.
Un último ejemplo muy llamativo, publicado también en una prestigiosa revista,
The New England Journal of Medicine, relacionaba el consumo de chocolate con la
mejora de la capacidad cognitiva. Las dos variables empleadas en el estudio eran el
consumo de chocolate per cápita y el número de premios Nobel recibidos por cada
millón de habitantes en diferentes países, y la correlación entre ambas resultaba
muy alta. La conclusión era, por tanto, que la causa de una mayor capacidad cogni-
tiva en los habitantes de ciertos países era su mayor consumo de chocolate. Como
se ha puesto de manifiesto en análisis posteriores, parece mentira que el autor de
este estudio no valorase la posibilidad de que ambas variables sean consecuencia
de una causa común (y no una la causa de la otra), como por ejemplo el diferente
nivel de vida de cada país. En realidad, seguramente serán muchas circunstancias,
relacionadas de formas muy complejas, las que influyan en la capacidad cognitiva
de la población. El efecto del chocolate en la cognición se asocia a unas sustancias
llamadas flavonoides, pero ¿por qué no se estudiaron los patrones de consumo de
otros alimentos que también contienen flavonoides, como el té o el vino tinto? Y, en
cualquier caso, ¿realmente la capacidad cognitiva de la población se puede medir
por el número de premios Nobel conseguidos? 1
Muchos estudios dan por cierta la influencia de una variable en el resultado
sin tener en cuenta todas las demás variables que pueden estar contaminando esta
influencia. Así es como llegamos a las conocidas como correlaciones espurias. Las
correlaciones espurias o relaciones espurias se producen cuando dos variables
que no tienen una relación causal pueden llevar a pensar a alguien que sí la
tienen.
1
Tomado de Díaz, Ó. M. (s/f). Historias de la ciencia: Cigüeñas con bebés, niños miopes y premios
Nobel golosos. [Link]. Recuperado el 6 de febrero de 2023, de [Link]
Alfredo Yerman Cortes Verbel.
6.1. CORRELACIÓN LINEAL Y REGRESIÓN LINEAL SIMPLE. 185
Es decir, las correlaciones espurias son una relación matemática en la cual
dos acontecimientos no tienen conexión lógica, aunque se puede implicar que la
tienen debido a un tercer factor no considerado aún, llamado “factor de confusión” o
“variable escondida”. Un ejemplo sería afirmar que, en los alumnos de los colegios
españoles a mayor estatura, mayor conocimiento de la situación política. Esto puede
ser así, pero igual la variable escondida de la edad también tiene algo que ver.
¿Cómo saber si un estudio cuenta con la validez suficiente?
Cuando se lee que se ha demostrado que la lechuga previene el cáncer o el café
lo beben las personas con mayor inteligencia, se debe pensar que detrás de esta
asociación puede haber una interpretación deformada de los cálculos estadísticos,
dando lugar así a conclusiones totalmente falsas. Pero, entonces, ¿cómo saber si lo
que leo es cierto? En definitiva, ¿cómo saber si el estudio del que habla cualquier
artículo cuenta con la validez suficiente?
Conviene estar muy atento a todo lo que se lee. También se podría tener en
cuenta las siguientes preguntas:
¿Podría interpretarse el estudio de modo que se llegue a conclusiones dife-
rentes? Si es así, la causalidad no puede aplicarse.
¿Hay alguna deficiencia metodológica en el estudio que haya que tener en
cuenta a la hora de sacar conclusiones? Por ejemplo, hablar de que las mujeres
que toman café en el desayuno son más inteligentes y no incluir a hombres
para demostrar que a ellos no les sucede, o no incluir a mujeres que desayunan
otra cosa -como grupo control- para demostrar que efectivamente es el café y
no simplemente el hecho de desayunar.
¿Pueden aplicarse los resultados del estudio a otros grupos? Si afirmas que
son las cigüeñas las que traen a los bebés, ¿esto sucede solo en las grandes
ciudades o también en la población rural? Con esta pregunta el estudio de las
cigüeñas habría perdido validez.
¿Cómo encaja este trabajo en el conjunto de las investigaciones llevadas a cabo
sobre el tema en cuestión a lo largo del tiempo? Si de repente leemos que un
estudio demuestra que la panceta no sube el colesterol, cuando durante toda
la vida diversos estudios han sugerido lo contrario, como mínimo, sospecha.
¿Se diseñó adecuadamente el estudio para el logro de su finalidad? Desde
tener en cuenta la edad de la muestra para la conclusión o su sexo, como la
aleatorización y el control de variables es muy importante. Esto lo podemos
observar en la metodología del estudio.
¿Quién financia el estudio? Quizás esta es la pregunta más importante. Hay
que buscar que el estudio no sea parcial, es decir, por ejemplo, que no hable
Alfredo Yerman Cortes Verbel.
6.2. REGRESIÓN 186
de las bondades de los yogures y esté patrocinado por una marca de ese
producto.
No hay que dejarse engañar con correlaciones como causalidades o relaciones
espurias como relaciones matemáticas auténticas2 .
6.2. Regresión
La regresión es la parte de la estadística que trata de determinar la posible
relación entre una variable numérica Y , que suele llamarse variable dependiente,
y otro conjunto de variables numéricas, X1 , X2 , X3 , · · · Xn , conocidas como variables
independientes, de una misma población. Dicha relación se refleja mediante un
modelo funcional y = f (x1 , x2 , x3 , · · · , xn ). El caso más sencillo se da cuando sólo
hay una variable independiente X , y entonces se habla de regresión simple. En
este caso el modelo que explica la relación entre X e Y es una función de una
variable y = f (x). Dependiendo de la forma de esta función, existen muchos tipos
de regresión simple, los más comunes aparecen en el cuadro 6.3:
Familia de curvas Ecuación genérica
Lineal y = b0 + b1 x
Cuadrática y = b0 + b1 x + b2 x 2
Cúbica y = b0 + b1 x + b2 x 2 + b3 x 3
Potencia y = b0 x b1
Exponencial y = b0 eb1 x
Logarítmica y = b0 + b1 Ln(x)
b1
Inversa y = b0 +
x
Compuesto y = b0 bx1
Crecimiento y = eb0 +b1 x
b−1
G (Curva-S) y = eb0 + x
Cuadro 6.3: Tipos de regresión lineal simple
Para elegir un tipo de modelo u otro, se suele representar el diagrama de
dispersión , que consiste en dibujar sobre unos ejes cartesianos correspondientes a
las variables X e Y , los pares de valores (xi , yi ) observados en cada individuo de la
muestra.
2
González, L. V. (2017, enero 10). Según un estudio las cigüeñas traen a los bebés. La Mente es
Maravillosa. [Link]
Alfredo Yerman Cortes Verbel.
6.2. REGRESIÓN 187
Ejemplo 6.5
En la figura 6.6 aparece el diagrama de dispersión correspondiente a una muestra
de 30 individuos en los que se ha medido la estatura en cm (X ) y el peso en kg
(Y ). En este caso la forma de la nube de puntos refleja una relación lineal entre
la estatura y el peso.
Figura 6.6: Diagrama de dispersión de Estaturas y Pesos. El punto (179, 85) indicado
corresponde a un individuo de la muestra que mide 179 cm y pesa 85 Kg
Según la forma de la nube de puntos del diagrama, se elige el modelo más
apropiado (figura 6.7), y se determinan los parámetros de dicho modelo para que la
función resultante se ajuste lo mejor posible a la nube de puntos.
El criterio que suele utilizarse para obtener la función óptima, es que la distancia
de cada punto a la curva, medida en el eje Y, sea lo menor posible. A estas distancias
se les llama residuos o errores en Y (ver figura 6.8). La función que mejor se ajusta a
la nube de puntos será, por tanto, aquella que hace mínima la suma de los cuadrados
de los residuos. El cuadrado es para evitar que se compensen los residuos positivos
con los negativos.
Alfredo Yerman Cortes Verbel.
6.2. REGRESIÓN 188
(a) Sin relación. (b) Relación Lineal. (c) Relación polinómica.
(d) Relación exponencial. (e) Relación logarítmica. (f) Relación inversa.
Figura 6.7: Diagramas de dispersión correspondientes a distintos tipos de relaciones
entre variables
Alfredo Yerman Cortes Verbel.
6.2. REGRESIÓN 189
Figura 6.8: Residuos o errores en Y . El residuo correspondiente a un punto (xi , yj )
es la diferencia entre el valor yj observado en la muestra, y el valor teórico del
modelo f (xi ) =, es decir eij = yj − f (xi ).
6.2.1. Rectas de regresión
En el caso de que la nube de puntos tenga forma lineal y optemos por explicar la
relación entre X e Y mediante una recta y = a + bx, los parámetros a determinar
son a (punto de corte con el eje de ordenadas) y b (pendiente de la recta). Los
valores de estos parámetros que hacen mínima la suma de residuos al cuadrado,
determinan la recta óptima. Esta recta se conoce como recta de regresión de Y
sobre X y explica la variable Y en función de la variable X .
Definición 6.4: Modelo de regresión lineal Simple
Dados (x1 , y1 ), (x2 , y2 ), (x3 , y3 ), · · · , (xn , yn ) puntos que relacionan las varia-
bles X e Y . La recta y = a + bx, con los parámetros a y b que mejor se
ajusta al conjunto de puntos que determinan la recta óptima se conoce como
recta de regresión de Y sobre X y esta dada por la expresión:
Sxy
y = ȳ + (x − x̄)
Sx2
En donde x̄ e ȳ denotan las medias muestrales de X e Y (respectivamente),
Sx2 es la varianza muestral de X y Sxy es la covarianza muestral entre X e
Y . Los parámetros a y b están dados por
Alfredo Yerman Cortes Verbel.
6.2. REGRESIÓN 190
Sxy
b =
Sx2
a = ȳ − bx̄
La cantidad b se denomina coeficiente de regresión de Y sobre X ; en algunas
ocasiones se representa por bY /X
El coeficiente de regresión bY /X nos da información sobre el comportamiento de
la variable Y frente a la variable X , de manera que:
Si bY /X = 0, para cualquier valor de X la variable Y es constante (es decir,
no cambia).
Si bY /X > 0, esto nos indica que al aumentar el valor de X , también aumenta
el valor de Y .
Si bY /X < 0 , esto nos indica que al aumentar el valor de X , el valor de Y
disminuye.
Ejemplo 6.6
En la figura 6.9 aparecen las rectas de regresión de Estatura sobre Peso y de
Peso sobre Estatura del ejemplo 6.5.
Figura 6.9: Rectas de regresión de Estatura sobre Peso y de Peso sobre Estatura.
Las rectas de regresión siempre se cortan en el punto de medias (x̄, ȳ).
Alfredo Yerman Cortes Verbel.
6.2. REGRESIÓN 191
(a) Dependencia funcional lineal. (b) Independencia lineal.
Figura 6.10: Distintos grados de dependencia. En el primer caso, la relación es
perfecta. En el segundo caso no existe relación lineal y la pendiente de la recta es
nula.
La pendiente de la recta de regresión de Y sobre X se conoce como coeficiente
de regresión de Y sobre X , y mide el incremento que sufrirá la variable Y por cada
unidad que se incremente la variable X , según la recta. La recta de regresión no
sólo permite formalizar la relación entre las variables estudiadas asignándole un
referente gráfico sino que, lo que es casi más importante, permite predecir valores
de Y a partir de valores de X que no se encuentran inicialmente en la muestra
de partida. A este respecto, sin embargo, conviene apuntar la conveniencia de no
estimar valores de X fuera del rango de medida sobre la que ha versado la muestra
original ya que lo que en principio puede ser una relación de tipo lineal puede no
serlo cuando se exploran medidas de X fuera (hacia arriba o abajo) del rango en
un principio contemplado.
Ejemplo 6.7
En el estudio de la relación entre el índice de masa corporal y el colesterol
HDL, del ejemplo 6.4 resulta natural considerar el índice de masa corporal como
variable independiente X y el colesterol HDL como variable dependiente Y . El
objetivo es, estimar los cambios en el nivel medio del colesterol HDL conforme
aumenta el índice de masa corporal utilizando un modelo de regresión lineal
Alfredo Yerman Cortes Verbel.
6.2. REGRESIÓN 192
Figura 6.11: Recta de ajuste lineal y = 1,69 − 0,023x
simple. Las estimaciones de los parámetros a y b son:
SX Y
b = = −0, 023
Sx2
a = ȳ − bx̄ = 1,9
La constante a = 1, 69 mmol/l es una estimación del valor esperado del colesterol
HDL para un sujeto con un imc igual a 0 kg/m2, extrapolación que carece de
sentido biológico. La pendiente b = −0, 023 estima que, por cada incremento de
1 kg/m2 en el índice de masa corporal, el nivel medio de colesterol HDL disminuye
en 0, 023 mmol/l. La recta de regresión (figura 6.11) estimada del colesterol HDL
sobre el índice de masa corporal es:
y = 1,69 − 0,023x
Esta recta de regresión puede utilizarse para estimar o predecir el valor
esperado del colesterol HDL en función del índice de masa corporal. Por ejemplo,
para un índice de masa corporal de 25 kg/m2 , el modelo estima un nivel medio
de colesterol HDL de
y(25) = 1,69 − 0,023(25)
= 1,11 mmol/l
Alfredo Yerman Cortes Verbel.
6.3. EVALUACIÓN POR COMPETENCIAS 193
Figura 6.12: Tomado de Tropea, J. A. [aletropea]. (2019, noviembre 3). Aho-
ra podés ver mi viñeta “Investigación básica”, de mi blog “Universo a la vis-
ta”, en el Instituto Balseiro, en el PDF del libro “Mecánica clásica - Notas
de clase”. Para verla accedé al PDF en [Link] y allí a la
página 187 poniendo “Tropea” en “buscar”. [Link]/tn37gz0dub. Twitter.
[Link]
6.3. Evaluación por competencias
6.3.1. Ejercicios de aplicación
1. Se determina la pérdida de actividad que experimenta un medicamento desde
el momento de su fabricación a lo largo del tiempo, obteniéndose el siguiente
resultado (Cuadro 6.4)
Tiempo (años) 1 2 3 4 5
Actividad restante 96 84 70 58 52
Cuadro 6.4: Porcentaje de perdida de actividad de un medicamento
Alfredo Yerman Cortes Verbel.
6.3. EVALUACIÓN POR COMPETENCIAS 194
se desea calcular
a) La relación fundamental(recta de regresión) entre actividad restante y
tiempo transcurrido.
b) ¿En qué porcentaje disminuye la actividad cada año que pasa?
c) ¿Cuándo tiempo debe pasar para que el fármaco tenga una actividad
del 80 %? ¿Cuándo será nula la actividad? ¿Son igualmente fiables estas
predicciones?
2. Al realizar un estudio sobre la dosificación de un cierto medicamento, se
trataron 6 pacientes con dosis diarias de 2 mg, 7 pacientes con 3 mg y otros
7 pacientes con 4 mg. De los pacientes tratados con 2 mg, 2 curaron al cabo
de 5 días, y 4 al cabo de 6 días. De los pacientes tratados con 3 mg diarios, 2
curaron al cabo de 3 días, 4 al cabo de 5 días y 1 al cabo de 6 días. Y de los
pacientes tratados con 4 mg diarios, 5 curaron al cabo de 3 días y 2 al cabo
de 5 días. Se pide:
a) Calcular la recta de regresión del tiempo de curación con respecto a la
dosis suministrada.
b) Calcular el coeficiente de regresión. Interpretar los resultados.
c) Determinar el tiempo esperado de curación para una dosis de 5 mg
diarios. ¿Es fiable esta predicción?.
d) ¿Qué dosis debe aplicarse si queremos que el paciente tarde 4 días en
curarse? ¿Es fiable la predicción?.
6.3.2. Evaluando saberes
Alfredo Yerman Cortes Verbel.
195
196
7. TÉCNICAS DE
CONTEO.
No se puede dirigir si no se sabe
analizar, y no se puede analizar si
no hay datos verídicos; y si no hay
todo un sistema de recolección de
datos confiables, sin mentiras y
globos, si no hay toda una
preparación de un sistema
estadístico y de hombres
habituados a recoger el dato y
transformarlo en números. Esta es
una tarea esencial.
Ernesto Che Guevaraab
a
Guerrillero Heroico, fotografía de Al-
berto Korda tomada el 5 de marzo de
1960.
b
Frase atribuida a Che Gue-
vara, tomado de: Jesús Jank Cur-
belo. (2015, noviembre 22). Más
que números › Cuba › Gran-
ma—Órgano oficial del PCC. [Link].
[Link]
29/mas-que-numeros-29-11-2015-21-
11-21
Che Guevara [Ernesto Guevara]
(Rosario, Argentina, 1928 - Higueras, Bolivia, 1967) Revolucionario iberoamericano.
Junto con Fidel Castro, a cuyo movimiento se unió en 1956, fue uno de los princi-
pales artífices del triunfo de la revolución cubana (1959). Desempeñó luego cargos
de gran relevancia en el nuevo régimen, pero, insatisfecho con la inoperancia de los
despachos y fiel a su propósito de extender la revolución a otros países de Latinoa-
mérica, en 1966 retomó su actividad guerrillera en Bolivia, donde sería capturado y
ejecutado un año después.
Alfredo Yerman Cortes Verbel.
7.1. TÉCNICAS DE CONTEO. 197
Entregada así su vida en la lucha contra el imperialismo y la dictadura, el Che
Guevara se convirtió en el máximo mito revolucionario del siglo XX. Fue de inmediato
un icono de la juventud del Mayo del 68, y su figura ha quedado como símbolo
atemporal de unos ideales de libertad y justicia que, como los héroes de antaño,
juzgó más valiosos que la propia vida. Todavía en nuestros días se exhibe con
frecuencia, en las acciones contestatarias, aquel perfil suyo basado en la célebre
fotografía de Alberto Korda1 .
7.1. Técnicas de Conteo.
Las técnicas de conteo son estrategias matemáticas usadas en probabilidad y
estadística que permiten determinar el número total de resultados que pueden haber
a partir de hacer combinaciones dentro de un conjunto o conjuntos de objetos. Este
tipo de técnicas se utilizan cuando es prácticamente imposible o demasiado pesado
hacer de forma manual combinaciones de diferentes elementos y saber cuántas de
ellas son posibles. Veamos algunas definiciones que se utilizaran más adelante.
7.1.1. Diagrama de Árbol.
Un árbol de probabilidad (que veremos a detalle más adelante) es una he-
rramienta que se utiliza para determinar si en realidad en el cálculo de muchas
opciones se requiere conocer el número de objetos que forman parte del espacio
muestral, estos se pueden determinar con la construcción de un diagrama de árbol.
Definición 7.1: Diagrama de árbol
Un diagrama de árbol, es una representación gráfica de todos los posibles
resultados de un experimento junto con sus probabilidades.
Para la construcción de un diagrama en árbol se partirá poniendo una rama
para cada una de las posibilidades. Cada una de estas ramas se conoce como rama
de primera generación.
En el final de cada rama de primera generación se constituye, un nudo del
cual parten nuevas ramas conocidas como ramas de segunda generación, según las
posibilidades del siguiente paso, salvo si el nudo representa un posible final del
experimento (nudo final).
Hay que tener en cuenta que la construcción de un árbol no depende de tener el
mismo número de ramas de segunda generación que salen de cada rama de primera
1
Tomado de Fernández, Tomás y Tamaro, Elena. «Biografia de Che Guevara [Ernesto Guevara]». En
Biografías y Vidas. La enciclopedia biográfica en línea [Internet]. Barcelona, España, 2004. Disponible
en [Link] [fecha de acceso: 20 de enero de 2023].
Alfredo Yerman Cortes Verbel.
7.1. TÉCNICAS DE CONTEO. 198
generación.
Ejemplo 7.1
Al lanzar una moneda existen dos posibles resultados: que caiga cruz o que
caiga cara. Veamos el diagrama de árbol que se obtiene al lanzar una moneda
tres veces.
Sello (Sello,Sello, Sello)
Sello
Cara (Sello,Sello, Cara)
Sello
Sello (Sello,Cara, Sello)
Lanzar Cara
una Cara (Sello,Cara, Cara)
moneda
tres Sello (Cara,Sello,Sello)
veces Sello
Cara (Cara,Sello, Cara)
Cara
Sello (Cara,Cara, Sello)
Cara
Cara (Cara,Cara, Cara)
La primera vez que se lanzó la moneda solo se podrían obtener dos resultados.
A partir de este punto, el número de posibles consecuencias se incrementa, pues
en el segundo lanzamiento se pueden presentar cuatro distintos resultados (dos
por cada uno de los anteriores), y en el tercero, ocho.
Ejemplo 7.2
Marcela almuerza en el casino de su trabajo de lunes a viernes, y siempre hay
para la entrada consumé de pollo o papas al ajillo y de plato fuerte pescado sal-
teado, arroz de pollo o carne en bistec ¿Cuántos menús distintos puede escoger?
Para seleccionar un plato de entrada: tiene dos opciones
• Consumé de pollo.
• Papas al ajillo.
Para seleccionar un plato de fuerte: tiene tres opciones.
• Pescado salteado.
• Arroz de pollo.
Alfredo Yerman Cortes Verbel.
7.1. TÉCNICAS DE CONTEO. 199
• Carne en bistec.
Carne en
(Papas al Ajillo,Carne en Bistec)
Bistec
Papas Arroz
(Papas al Ajillo,Arroz de Pollo)
al Ajillo de Pollo
Pescado
(Papas al Ajillo,Pescado Salteado)
Salteado
Opciones
de Menú
Carne en
(Consumé de Pollo,Carne en Bistec)
Bistec
Consumé Arroz
(Consumé de Pollo,Arroz de Pollo)
de Pollo de Pollo
Pescado
(Consumé de Pollo,Pescado Salteado)
Salteado
Al contar las ramas de la segunda elección, se cuentan cuántos posibles menús
hay. En este caso se aprecian seis: 6 = 2 · 3
Cuando se tienen muchas opciones graficar el diagrama de árbol se torna muy
complejo, por eso mas adelante estudiaremos el principio multiplicativo, que simpli-
ficará los cálculos.
7.1.2. Factorial y Productoria.
Definición 7.2: Factorial.
El factorial de un entero positivo n , el factorial de n o n factorial, notado
por n!, se define en principio como el producto de todos los números enteros
positivos desde 1 (es decir, los números naturales) hasta n, i.e.
n! = 1 · 2 · 3 · 4 · · · (n − 1) · n
Ejemplo 7.3
5! = 1 · 2 · 3 · 4 · 5 = 120
10! = 1 · 2 · 3 · · · 9 · 10 = 3628800
Alfredo Yerman Cortes Verbel.
7.1. TÉCNICAS DE CONTEO. 200
1! = 1
Teorema 7.1
0! = 1
n! = (n − 1)! · n
Ejemplo 7.4
11! = (11 − 1)! · 11
= 10! · 11
= 3628800 · 11
= 39916800.
Figura 7.1: 12! = 1 · 2 · 3 · 4 · 5 · 6 · 7 · 8 · 9 · 19 · 11 · 12
Alfredo Yerman Cortes Verbel.
7.1. TÉCNICAS DE CONTEO. 201
Definición 7.3: Productoria.
Sea a1 , a2 , a3 , a4 · · · an ∈ R entonces
n
Y
ai = a1 · a2 · a3 · · · + an
i=1
de forma general
n
Y
ai = am · am+1 · am+2 · · · · · an
i=m
Esto se lee: productoria sobre i, desde m hasta n, de a sub-i. La variable i
es el índice de producto al que se le asigna un valor inicial llamado límite
inferior, m. La variable i recorrerá los valores enteros hasta alcanzar el límite
superior, n.
El número de términos a multiplicar es entonces n − m + 1, ya que el primer
sumando es am y el último sumando es an . Necesariamente debe cumplirse
que:m ≤ n. Pudiendo ver además que si m = n entonces:
n
Y m
Y
ai = ai = am
i=m i=m
Ejemplo 7.5
5
Y
i2 = 12 · 22 · 32 · 42 · 52
i=1
= 1 · 4 · 9 · 16 · 25
= 14400
Ejemplo 7.6
6
Y
2i = 21 · 22 · 23 · 24 · 25 · 26
i=1
= 2 · 4 · 8 · 16 · 32 · 64
= 2097152
Alfredo Yerman Cortes Verbel.
7.1. TÉCNICAS DE CONTEO. 202
7.1.3. Regla Multiplicativa.
Este tipo de técnica de conteo, junto con el principio aditivo, permiten compren-
der fácilmente y de forma práctica cómo funcionan elas técnicas de conteo.
Si una operación, llamemosla n1 , puede ocurrir de varias formas, y otra operación,
n2 , puede ocurrir de otras tantas, entonces, los eventos conjuntamente pueden ocurrir
de n1 · n2 formas.
Este principio se utiliza cuando la acción es secuencial, es decir, está conformada
por eventos que ocurren de forma ordenada, como son la construcción de una casa,
el número de placas de vehículos que se pueden elaborar, etc.
Definición 7.4: Regla Multiplicativa
Si una operación se escribe como la relación de k actividades separadas,
donde la actividad i tiene ni formas independientes, con i = 1, · · · , k enton-
ces el número de formas en las que se puede realizar la operación será:
k
Y
ni
i=1
Ejemplo 7.7
Supongamos que un restaurante ofrece 4 entradas, 5 platos principales y 2 pos-
tres. ¿De cuántas formas un cliente puede ordenar una comida?.
Se aplica el principio de multiplicación; tenemos 3 actividades (k = 3), en-
tonces:
Actividad 1: escoger entrada, por tanto el número de formas de la actividad
es n1 = 4.
Actividad 2: escoger plato principal, por tanto el número de formas de la
actividad es n2 = 5.
Actividad 3: escoger postre, por tanto por tanto el número de formas de la
actividad es n3 = 2.
luego hay
3
Y
ni = n1 · n2 · n3
i=1
= 4·5·2
= 40
formas diferentes de ordenar una comida.
Alfredo Yerman Cortes Verbel.
7.1. TÉCNICAS DE CONTEO. 203
Ejemplo 7.8
Una familia tiene 3 niños y 2 niñas.
i) ¿De cuántas formas pueden sentarse en una fila?
ii) ¿Cuántas formas hay si los niños desean sentarse separados de las niñas?
Resolvamos cada caso
i) En total hay 5 niños luego tenemos 5 actividades
• Actividad 1: escoger un niño o niña que se siente en el primer de la
fila; luego por tanto el número de formas u opciones posibles en la
actividad 1 es n1 = 5.
• Actividad 2: escoger un niño o niña que se siente en el segundo puesto
de la fila; luego el número de formas u opciones posibles en la actividad
2 es n2 = 4, dado que uno ya fue ubicado y restan 4.
• Actividad 3: escoger un niño o niña que se siente en el tercer puesto de
la fila; luego el número de formas u opciones posibles en la actividad
es n3 = 3, dado que dos fueron ubicados y restan 3.
• Actividad 4: escoger un niño o niña que se siente en el cuarto puesto
de la fila; luego por tanto el número de formas u opciones posibles en
la actividad 4 es n4 = 2, dado que tres ya fueron ubicados y restan 2.
• Actividad 5: escoger un niño o niña que se siente en el quinto puesto de
la fila; luego el número de formas u opciones posibles en la actividad
1 es n5 = 1. (Dado que cuatro ya fueron ubicados y solo falta uno por
ubicar.
por tanto
5
Y
ni = n1 · n2 · n3 · n4 · n5
i=1
= 5·4·3·2·2·1
= 120
formas diferentes de sentarse en una fila. Este ejemplo también lo podemos
resolver usando el concepto de permutación que veremos en la definición
7.5 y el ejemplo 7.11.
Si desean sentarse separados, hay 2 formas de distribuirlos, primero las
niñas y luego los niños o viceversa, primero los niños y luego las niñas;en
cada caso los niños pueden sentarse de 3! formas diferentes y las niñas de
2! Por lo que hay 3!x2!x2! = 24 formas.
Alfredo Yerman Cortes Verbel.
7.1. TÉCNICAS DE CONTEO. 204
Ejemplo 7.9
¿Cuántas placas de los carros se pueden fabricar en Colombia si estas tienen 3
letras y 3 números?
Para cada letra hay 26 opciones (la ñ no se incluye) y para cada número hay
10 opciones. i.e.
Actividad 1: escoger la primera letra de la placa; aquí se tiene n1 = 26
formas diferentes.
luego se tendrá 26 · 26 · 26 · 10 · 10 · 10 = 263 · 103 = 17576000
Ejemplo 7.10
De acuerdo al ejemplo 7.9 ¿cuántas placas tiene todas sus letras diferentes?.
Puesto que cada casilla de letras no puede repetir letras que ya aparezcan
en la placa, la primera casilla tiene 26 opciones, la segunda tiene 25 opciones
y la tercera 24 opciones; los números no tiene restricciones, entonces se tienen
26 · 25 · 24 · 10 · 10 · 10 = 15600000 formas.
Definición 7.5: El número de permutaciones.
Dado un conjunto finito A de n elementos distintos, se entiende como per-
mutaciones de ellos a las distintas formas en las que pueden ordenarse. El
número de permutaciones (órdenes) distintos de los n elementos es n!, es
decir, el factorial del número de elementos. y se nota
Pn = n!
Ejemplo 7.11
Se requiere acomodar a 8 personas en una mesa de honor y se le solicita que
haga un listado de las diferentes formas de ordenar a las personas. ¿cuántas
formas diferentes existen?.
Para el primer puesto hay 8 opciones, para el segundo, 7, para el tercero 6, y
así sucesivamente. Entonces hay 8 · 7 · 6 · 5 · 4 · 3 · 2 · 1 = 8! Formas de acomodar
a las personas: 40320.
7.1.4. Permutación sin repeticiones.
Una permutación de un conjunto es, en términos generales, una disposición de
sus miembros en una secuencia u orden lineal, o si el conjunto ya está ordenado,
una variación del orden o posición de los elementos de un conjunto ordenado o una
Alfredo Yerman Cortes Verbel.
7.1. TÉCNICAS DE CONTEO. 205
tupla. La palabra "permutación"también se refiere al acto o proceso de cambiar el
orden lineal de un conjunto ordenado. Esto quiere decir que una permutación es
un cambio de la manera en la que se disponen los elementos. En esta técnica de
conteo se considera que existe el orden en la muestra, pero no es posible repetir
ningún elemento de la población en su conformación.
Definición 7.6: Permutación sin repetición.
Se define como permutación a un arreglo ordenado de un conjunto de objetos.
La cantidad Prn se define como el número de permutaciones o acomodos de
r elementos tomados de un conjunto de n elementos distintos.
n!
Prn =
(n − r)!
Prn también suele escribirse como n Pr .
Ejemplo 7.12
Alfredo, Diana e Isaac van a formar un comité para administrar una empresa. Los
cargos que habrá en el comité son: presidente, vicepresidente y secretario. ¿De
cuantas formas se puede constituir el comité?
En este caso se considera que hay un orden jerárquico: presidente, vicepresi-
dente y secretario. Además, una persona no puede ocupar dos cargos, luego, no
es posible la repetición. En este caso n = 3 y r = 3, ya que la población consta
de tres elementos (personas), y en cada muestra se toman los tres. Aplicando la
definición de permutación:
3!
P33 =
(3 − 3)!
3!
=
0!
1·2·3
=
1
6
=
1
= 6
Como este es un ejemplo sencillo, con pocos elementos, se puede organizar una
tabla donde se puedan apreciar las formas de constituir el comité. (ver cuadro
7.1)
Alfredo Yerman Cortes Verbel.
7.1. TÉCNICAS DE CONTEO. 206
Presidente Vicepresidente Secretario
1 Alfredo Diana Isaac
2 Alfredo Isaac Diana
3 Diana Alfredo Isaac
4 Diana Isaac Alfredo
5 Isaac Diana Alfredo
6 Isaac Alfredo Diana
Cuadro 7.1: Formas distintas de constituir los comités del ejemplo 7.12
Ejemplo 7.13
¿De cuantas maneras pueden obtener las medallas de oro, plata y bronce 9 atletas
que participan en un competencia?
En este ejemplo, se pretende formar grupos de 3 individuos con los 9 partici-
pantes. Es decir, para este caso n = 9 y r = 3. Por lo tanto:
9!
P39 =
(9 − 3)!
9!
=
6!
362880
=
720
= 504
7.1.5. Permutación con repeticiones.
Una permutación con repetición consiste en una permutación de m elementos,
de los cuales hay varios que son iguales entre sí. Y por tanto, a la hora de calcular
las distintas formas de ordenar los m elementos hay diferencias con respecto a si
no hubiese elementos iguales.
Definición 7.7: Permutación con repetición.
Sea A un conjunto
Pk de n elementos tales que hay k grupos con ni elementos
idénticos, i=1 ni = n. Llamaremos permutaciones con repetición de esos
n elementos a las posibles agrupaciones que podamos hacer, teniendo en
cuenta que dos elementos de un mismo grupo son indistinguibles. El número
Alfredo Yerman Cortes Verbel.
7.1. TÉCNICAS DE CONTEO. 207
de permutaciones con repetición viene dado por:
n! n!
PRnn1 n2 ···nk = Qk =
i=1 (ni )!
n1 ! · n2 ! · · · nk !
i.e. permutaciones con repetición de n elementos en las que el primer ele-
mento se repite n1 veces, el segundo se repite n2 veces ... y el último se repite
nk veces son los distintos grupos de n elementos que se pueden hacer de for-
ma que en cada grupo, cada elemento aparezca el número de veces indicado
y que dos grupos se diferencian únicamente en el orden de colocación.
Ejemplo 7.14
En una urna hay 9 bolas, 3 blancas, 2 rojas y 4 negras. ¿De cuantas formas
distintas se pueden extraer las bolas de la urna?
Al tener tres bolas blancas, a efectos de ordenación se consideran iguales, lo
mismo ocurre con las rojas y las negras. Las posibles ordenaciones son:
3,2,4 9!
PR9 =
3! · 2! · 4!
362880
=
6 · 2 · 24
362880
=
288
= 1260
Ejemplo 7.15
En una competición deportiva participan 4 equipos de 3 atletas cada uno. ¿De
cuántas formas diferentes pueden llegar los equipos?.
A la hora de elaborar la clasificación por equipos los atletas se consideran
idénticos. El número de posibles clasificaciones es:
3,3,3,3 12!
PR12 =
3! · 3! · 3! · 3!·
479001600
=
6 · 6 · 6 · 6·
479001600
=
1296
= 369600
Alfredo Yerman Cortes Verbel.
7.1. TÉCNICAS DE CONTEO. 208
Ejemplo 7.16
¿Cuántos números de 5 cifras se pueden formar con 1, 1, 1, 2, 2?
3,2 5!
P5 =
3!2!
120
=
12
= 10
Figura 7.2: Steven Arthur Pinker (Montreal, 18 de septiembre de 1954) es un psi-
cólogo experimental, científico cognitivo, lingüista y escritor canadiense. Es pro-
fesor en el Harvard College y titular del “Johnstone Family Professorship” en el
Departamento de Psicología de la Universidad de Harvard. Es conocido por su
defensa enérgica y de gran alcance de la psicología evolucionista y de la teo-
ría computacional de la mente. Sus especializaciones académicas son la percep-
ción y el desarrollo del lenguaje en niños; es conocido por argumentar que el
lenguaje es un instinto o una adaptación biológica modelada por la selección
natural. (Fotografía de De Steven Pinker - Rebecca Goldstein, CC BY-SA 3.0,
[Link]
7.1.6. Combinatoria sin repetición.
Las agrupaciones combinatorias denominadas combinaciones son las que se
obtienen al seleccionar de un conjunto A de n elementos grupos de r, de tal forma
que cada grupo es diferente de los demás si, y sólo si, contiene algún elemento
diferente, sea cual sea su orden de colocación en el grupo.
Alfredo Yerman Cortes Verbel.
7.1. TÉCNICAS DE CONTEO. 209
Definición 7.8: Combinatoria sin repetición
El número de combinaciones ordinarias (sin repetición) que se pueden formar
con n elementos tomados de r en r se calcula a partir de la siguiente fórmula:
n n!
= . (7.1)
r (n − r)! · r!
La expresión 7.1 también se nota por n Cr o por Crn y se llama coeficiente
binomial.
Ejemplo 7.17
En un pelotón militar de 12 soldados, el capitán del ejército quiere formar grupos
de 2 soldados para que se infiltren tras las líneas enemigas por distintos puntos,
¿cuántos grupos distintos podría formar?
Se debe que identificar el número total de elementos. En este caso son n = 12
soldados en total. Como el capitán quiere grupos de 2, ya sabemos cual es nuestra
r = 2. Sabiendo esto, podríamos sustituir en la fórmula y tener el número de
combinaciones de grupos de 2.
n n!
=
r (n − r)! · r!
12 12!
=
2 (12 − 2)! · 2!
12!
=
(10)! · 2!
1 · 2 · 3 · 4 · 5 · 6 · 7 · 8 · 9 · 10 · 11 · 12
=
(1 · 2 · 3 · 4 · 5 · 6 · 7 · 8 · 9 · 10) · 1 · 2
11 · 12
=
2
= 11 · 6
= 66
Ejemplo 7.18
A una reunión asisten 10 personas y se intercambian saludos entre todos. ¿Cuán-
tos saludos se han intercambiado?.
Tengamos en cuenta que:
No entran todos los elementos. Esto debido a que un saludo lo podemos
analizar como un grupo de dos personas (ya que solo se efectúa entre dos
Alfredo Yerman Cortes Verbel.
7.1. TÉCNICAS DE CONTEO. 210
personas).
No importa el orden. Esto ya que es lo mismo que Juan haya saludado a
María a que María haya saludo a Juan.
No se repiten los elementos. Notemos que el asumir que se repiten es como
pensar que una persona se pudo saludar a sí misma, esto no tendría sentido.
Entonces tenemos para n = 10 y r = 2
n n!
=
r (n − r)! · r!
10 10!
=
2 (10 − 2)! · 2!
10!
=
(8)! · 2!
1 · 2 · 3 · 4 · 5 · 6 · 7 · 8 · 9 · 10
=
(1 · 2 · 3 · 4 · 5 · 6 · 7 · 8) · 1 · 2
9 · 10
=
2
= 9·5
= 45
7.1.7. Combinatoria con repetición.
La combinatoria con repetición son los diferentes conjuntos que se pueden formar
con n elementos, seleccionados de r en r, permitiendo que estos se puedan repetir.
Cada conjunto se debe diferenciar del anterior en al menos uno de sus elementos
(el orden no importa).
Definición 7.9: Combinatoria con repetición.
Las combinaciones con repetición de n elementos tomados de r en r con
n ≤ r, son los distintos grupos formados por r elementos de manera que:
No entran todos los elementos.
No importa el orden.
Sí se repiten los elementos.
Al número de combinaciones con repetición se de denotará por C Rrn y se
define por:
Alfredo Yerman Cortes Verbel.
7.1. TÉCNICAS DE CONTEO. 211
n+r−1 (n + r − 1)!
C Rrn = =
r r!(n − 1)!
Ejemplo 7.19
En una bodega hay cinco tipos diferentes de botellas. ¿De cuántas formas se
pueden elegir cuatro botellas?
Se debe tener en cuenta que no entran todos los elementos. Sólo elije 4, no
importa el orden. Da igual que elija 2 botellas de anís y 2 de ron, que 2 de ron
y 2 de anís y sí se repiten los elementos. Puede elegir más de una botella del
mismo tipo. Entonces para n = 5 y r = 4
n+r−1 (n + r − 1)!
C Rrn = =
r r!(n − 1)!
(5 + 4 − 1)! 8!
C R45 = =
4!(5 − 1)! 4! · 4!
1·2·3·4·5·6·7·8
=
1·2·3·4·1·2·3·4
= 5 · 2 · 7 = 70
Ejemplo 7.20
¿Cuántas fichas tiene el juego del dominó?
Una ficha de dominó es un rectángulo en el que hay dos partes, en cada una
de ellas hay una serie de puntos que indican la puntuación de esa parte. Estas
puntuaciones van de blanca (0 puntos) a 6, es decir n = 6. Tenemos pares de
puntuaciones de 0 a 6, es decir r = 2. i.e. el total de fichas será:
n+r−1 (n + r − 1)!
C Rrn = =
r r!(n − 1)!
(7 + 2 − 1)! 8!
C R27 = =
2!(7 − 1)! 2! · 6!
1·2·3·4·5·6·7·8
= =
1·2·1·2·3·4·5·6
= 7 · 4 = 28
Alfredo Yerman Cortes Verbel.
7.2. EVALUACIÓN POR COMPETENCIAS 212
7.2. Evaluación por competencias
7.2.1. Ejercicios de aplicación
1. Si se arrojan d dados y m monedas, ¿cuántos resultados diferentes se pueden
elegir?
2. Con los dígitos 1, 2, 3 y 4 forme usando el diagrama de árbol tantos números
de tres dígitos como pueda sin repetir ninguno.
3. Con los dígitos 6 y 2, usando el diagrama de árbol forme tantos números de
tres dígitos como pueda.
4. De cuántas formas pueden quedar clasificados 10 equipos de baloncesto que
participan en un campeonato?.
5. De cuántas maneras se pueden disponer 12 personas en una fila?.
6. De cuántas maneras se pueden disponer 9 estudiantes en una fila?.
7. De cuántas maneras se pueden disponer en una mesa 5 hermanas? ( Manuela,
Claudia, Francisca, Leonor y Patricia).
8. De cuántas maneras pueden quedar clasificados 7 corredores que intervienen
en una carrera?.
9. De cuántas formas pueden quedar clasificados 3 equipos de fútbol que parti-
cipan en un torneo?.
10. Una madre decide llamar a cenar 4 de sus 7 hijos ( Amelia, Bertha, Carolina,
Daniel, Esther, Federico y Gonzalo). De cuantas maneras diferentes puede
llamarlos?.
11. De cuántas maneras se puede seleccionar un equipo de 5 integrantes de un
grupo de 9 personas?.
12. De los 15 mejores estudiantes del grado 7º del colegio Carrasquilla, se quieren
seleccionar 10, para representar al colegio en un concurso de ortografía. De
cuántas maneras diferentes se puede seleccionar este grupo de alumnos?.
13. Se tienen los 4 ases de una baraja y se quieren tomar al azar tres cartas.
Cuántas combinaciones pueden resultar?.
14. Cuántas banderas tricolor se pueden confeccionar con 8 colores?.
15. Una chica tiene en su armario 10 vestidos y quiere elegir 6 para un viaje. De
cuántas maneras puede hacerlo?.
Alfredo Yerman Cortes Verbel.
7.2. EVALUACIÓN POR COMPETENCIAS 213
16. Una madre decide llamar a cenar 3 de sus 9 hijos (Carolina, Daniel, Esther,
Patricia, Federico, Amelia, Bertha, Daniela, y Gonzalo). De cuantas maneras
diferentes puede llamarlos?.
17. ¿Cuántos números diferentes pueden formarse con las cifras del número 458870?
18. En el grado 7º hay 20 alumnos, y se quiere elegir al azar 16 alumnos para
representar al grupo en una competencia de ajedrez. Cuántas combinaciones
pueden resultar?.
19. Se dispone de 12 bebidas distintas para formar combinados. Cuántos combi-
nados distintos se pueden preparar utilizando cada vez 4 de las 12 bebidas?.
20. Un alumno decide presentar 6 de las 10 evaluaciones ( Aritmética, Geometría,
Estadística, Español, Inglés, Religión, Sociales, Biología, Informática, Ética)
que tiene pendiente en su colegio. De cuantas maneras diferentes puede elegir
esas evaluaciones?.
21. De los 11 mejores estudiantes del grado 7º del Carrasquilla, se quieren se-
leccionar 5, para conformar una comisión que participará en un encuentro
intercolegial. De cuántas maneras diferentes se puede seleccionar la comi-
sión?.
22. Una chica tiene en su armario 8 vestidos y quiere elegir 5 para regalárselos
a una amiga. De cuántas maneras puede seleccionarlos?.
23. De cuántas formas pueden quedar clasificados 8 equipos de baloncesto que
participan en un campeonato?.
24. De cuántas maneras se pueden disponer 15 personas en una fila?.
25. De cuántas maneras pueden quedar clasificados 6 corredores que intervienen
en una carrera?.
26. De cuántas formas pueden quedar clasificados 5 equipos de fútbol que parti-
cipan en un torneo?.
27. De cuántas maneras se pueden disponer 14 estudiantes en una fila?.
28. De cuántas maneras se pueden disponer en una mesa 4 hermanas?.
29. ¿Cuántos números de cinco cifras distintas se pueden formar con las cifras
impares 1, 3, 5, 7, 9 ?, ¿Cuántos de ellos son mayores de 70000?
7.2.2. Evaluando saberes
7.2.3. Evaluación de Competencias Lectoras
Alfredo Yerman Cortes Verbel.
214
215
8. PROBABILIDAD.
Una no debe perder de vista lo que
quiere conseguir. Por ello he
tratado de no preocuparme por
minucias o cosas insignificantes .
Kimiko Osada Bowman
Kimiko Osada Bowman cómo usar la estadística para mejorar las condiciones
laborales de las personas con discapacidades
Kimiko Osada Bowman nació en Japón en 1927 pero emigró a los Estados Unidos
en 1951. Comenzó estudiando economía doméstica en el Radford College (Virginia)
porque sabía que le resultaría fácil, pero pronto el decano le aconsejó cambiar a
ciencias donde, según él, “tendría mucho mejor futuro”. De modo que acabó cursando
matemáticas y química, y consiguió graduarse solo cinco años después de llegar a
América. Posteriormente consiguió una beca en estadística matemática en el Virgina
Tech, financiada por los Institutos Nacionales de Salud, y, en tres años, acabó un
Máster y un Doctorado en estadística por la reputada institución académica (1963).
Continuó una colaboración de gran éxito durante 45 años con su supervisor de tesis,
Leonard Shenton, que les llevó a publicar avances de gran relevancia estadística
como el método de momentos para la estimación de parámetros poblacionales. Tam-
bién implementaron un algoritmo de series divergentes para grandes computadoras
que, como Shenton reconoció en su momento, “funcionó gracias a la Dra. Bowman”.
Como investigadora senior en el Oak Ridge National Laboratory continuó su trabajo
en estimadores para datos no-normales y, gracias a su asociación profesional con
el Office of Naval Research, combinó su trabajo con viajes frecuentes a su Japón
natal. Después de 50 años de servicio, se jubiló en 1994, aunque seguiría realizando
colaboraciones esporádicas con la organización, donde siempre la recordaron como
una trabajadora incansable y entusiasta.
Bowman fue la autora o coautora de más de 200 artículos científicos y tres libros.
Fue elegida miembro de la American Association for the Advancement of Science
en 1970, miembro de la American Statistical Association en 1976, del International
Alfredo Yerman Cortes Verbel.
8.1. PROBABILIDAD. 216
Statistical Institute en 1978 y del Institute of Mathematical Statistics en 1987. En ese
mismo año, la Universidad de Tokyo le otorgo un doctorado honorario, convirtiéndose
en la primera persona “extranjera” en recibir dicho honor (se había nacionalizado
estadounidense en 1958).
Defensora de los derechos de las personas con discapacidades
Su trabajo estadístico es bien conocido, pero posiblemente su mayor impacto en la
sociedad vino de la mano de su lucha por ayudar a las personas con discapacidades.
Ella misma fue víctima de la polio en su juventud, causándole una parálisis casi total
de la que se recuperaría en gran medida dos años después. Es por ello que trató
de mejorar las condiciones de otras personas investigadoras en su condición desde
su posición como miembro del Comité Asesor sobre Igualdad de Oportunidades en
Ciencia e Ingeniería y del Comité de Personas con Discapacidades que dirigió, am-
bos de la de la National Science Foundation. Gracias a sus informes estadísticos,
consiguió establecer becas que aseguraran la adecuación del alojamiento y equi-
pamiento científico, y así promover el empleo de otras personas con discapacidades
en Academia. Pero su lucha llegó más lejos y dirigió la Comisión Especial de Se-
guimiento Estadístico del Empleo de Personas con Discapacidades para informar al
Comité del Presidente en dichas materias. Tanto fue así, que consiguió influenciar
las preguntas al respecto en el Censo de 2000, para que se vieran reflejadas con
precisión las dificultades de la comunidad.
Murió el 13 de enero de 2019 dejando tras de sí contribuciones fundamentales en
el mundo de la estadística pese a los obstáculos que se encontró en el camino.
Se definía como una “minoría por partida triple”, por ser asiática, mujer y disca-
pacitada, pero le restaba importancia diciendo “Una no debe perder de vista lo
que quiere conseguir. Por ello he tratado de no preocuparme por minucias o cosas
insignificantes”1 .
.
8.1. Probabilidad.
La probabilidad es una medida de la certidumbre de que ocurra un evento. Su
valor es un número entre 0 y 1, donde un evento imposible corresponde a cero y
uno seguro corresponde a uno.
Una forma empírica de estimar la probabilidad consiste en obtener la frecuen-
cia con la que sucede un determinado acontecimiento mediante la repetición de
experimentos aleatorios, bajo condiciones suficientemente estables. En algunos ex-
perimentos de los que se conocen todos los resultados posibles, la probabilidad
1
Tomado de Stadler, M. M. (2021, septiembre 22). Kimiko Bowman o cómo usar la esta-
dística para mejorar las condiciones laborales de las personas con discapacidades. Mujeres
con ciencia. [Link]
para-mejorar-las-condiciones-laborales-de-las-personas-con-discapacidades/
Alfredo Yerman Cortes Verbel.
8.1. PROBABILIDAD. 217
de estos sucesos pueden ser calculadas de manera teórica, especialmente cuando
todos son igualmente probables
La teoría de la probabilidad es la rama de la matemática que estudia los experi-
mentos o fenómenos aleatorios. Se usa extensamente en áreas como la estadística,
la física, la economía (ciencia económica), las finanzas, la ciencia de datos, la In-
vestigación médica, en mediano grado en algunas de las demás ciencias sociales y
en menor grado en la filosofía para conocer la viabilidad de sucesos y la mecánica
subyacente de sistemas complejos.
8.1.1. Historia de la Probabilidad
Podemos afirmar que este término surge en en el año 1553 con el escrito rea-
lizado por Gerolamo Cardano (1501-1576), en el que la menciona por primera vez.
En cambio, Pierre Fermat (1601-1665) y Blaise Pascal (1623-1662) son conocidos
como los padres de la teoría de la probabilidad debido las grandes aportaciones
que realizaron sobre este campo.
Posteriormente, surgen autores como Abraham de Moivre, el cual asentó las ba-
ses del Teorema Central del Límite. Dicho teorema sería demostrado años más tarde
por Laplace, otro gran contribuyente al desarrollo del conocimiento relacionado con
la probabilidad.
Por otro lado los juegos de azar tienen una antigüedad de más de 40000 años; así
por ejemplo, los dados se utilizaron tanto en el juego como en ceremonias religiosas.
Las civilizaciones antiguas explicaban el azar mediante la voluntad divina. En el
Renacimiento el abandono progresivo de explicaciones teológicas conduce a una
reconsideración de los experimentos aleatorios. Ya en el siglo XVI, los matemáticos
italianos comenzaron a interpretar los resultados de experimentos aleatorios simples
y a finales del siglo XVI, existía un análisis empírico de los resultados aleatorios.
El desarrollo del análisis matemático de los juegos de azar se produce lenta-
mente durante los siglos XVI y XVII. El cálculo de probabilidades se consolida como
disciplina independiente en el período que transcurre desde la segunda mitad del
siglo XVII hasta comienzos del siglo XVIII. La historia de la probabilidad comien-
za en el siglo XVII cuando Fermat y Pascal tratan de resolver algunos problemas
relacionados con los juegos de azar. Aunque algunos marcan sus inicios cuando
Cardano (jugador donde los haya) escribió sobre 1520 El Libro de los Juegos de
Azar (aunque no fue publicado hasta más de un siglo después, sobre 1660) no es
hasta dicha fecha que comienza a elaborarse una teoría aceptable sobre los juegos.
La teoría de la probabilidad fue aplicada con buenos resultados a las mesas
de juego y con el tiempo a otros problemas socioeconómicos. Durante el siglo XVIII
el cálculo de probabilidades se extiende a problemas físicos y actuariales (seguros
marítimos). El factor principal impulsor es el conjunto de problemas de astronomía
y física que surgen ligados a la contrastación empírica de la teoría de Newton.
Alfredo Yerman Cortes Verbel.
8.1. PROBABILIDAD. 218
Estas investigaciones van a ser de importancia fundamental en el desarrollo de la
Estadística.
La industria de los seguros, que nació en el siglo XIX, requería un conocimiento
exacto del riesgo de perder pues de lo contrario no se podían calcular las pólizas.
Posteriormente, se estudia la probabilidad como un instrumento que permitiría
entender los fenómenos sociales.
La necesidad de comparar con exactitud los datos observados con la teoría
requería un tratamiento riguroso del mismo, que va a dar lugar a la teoría de
errores. Durante el siglo XVIII, debido muy particularmente a la popularidad de los
juegos de azar, se publicaron varios documentos de este tipo. Jakob Bernouilli (1654-
1705) Ars Conjectandi (publicado en 1713 aunque escrito sobre 1690) y Auguste De
Moivre (1667-1754) contribuyeron de forma importante a este desarrollo.
Jacob Bernoulli proporciona la primera solución al problema de estimar una
cantidad desconocida a partir de un conjunto de mediciones de su valor que, por el
error experimental, presentan variabilidad. Fue pionero en la aplicación del cálculo
infinitesimal al cálculo de probabilidades.
También, además de Abraham de Moivre, el reverendo Thomas Bayes y Joseph
Lagrange inventaron fórmulas y técnicas de probabilidad. El impulso fundamental
proviene de la obra de Pierre Simon, Marqués de Laplace, publicó Théorie analy-
tique des probabilités en el que expone un análisis matemático sobre los juegos
de azar, y fue quien indujo la primera definición explícita de probabilidad. También
desarrolló la ley normal como modelo para describir la variabilidad de los errores
de medida, formuló y estimó el primer modelo explicativo estadístico. Por su parte,
Gauss hizo su aportación en la estimación de modelos estadísticos.
Bravais, geólogo y astrónomo, es el primero en considerar la relación entre
errores de medida dependientes entre sí; Benjamín Pierce propone el primer criterio
para rechazar observaciones heterogéneas con el resto y S. Newcomb, el más famoso
astrónomo americano del siglo XIX, introduce los primeros métodos de estimación
cuando hay errores fuertes en algunos datos (Estimación Robusta).
Desde los orígenes la principal dificultad para poder considerar la probabilidad
como una rama de la matemática fue la elaboración de una teoría suficientemente
precisa como para que fuese aceptada como una forma de matemática. A principios
del siglo XX el matemático ruso A. Kolmogorov la definió de forma axiomática y
estableció una teoría más amplia como es la teoría de la medida. En la actualidad
la teoría matemática de la probabilidad constituye el fundamento de las aplicaciones
estadísticas tanto en la investigación social como en la toma de decisiones.
La necesidad de sortear la incertidumbre nos lleva a estudiar y aplicar la teoría
de la probabilidad. Para tener éxito en la toma de decisiones, se necesita la capa-
cidad de tratar sistemáticamente con la incertidumbre misma mediante cuidadosas
evaluaciones y aplicaciones de métodos estadísticos concernientes a las actividades
de los negocios.
Alfredo Yerman Cortes Verbel.
8.1. PROBABILIDAD. 219
Las aplicaciones de métodos estadísticos en las diferentes áreas son numerosas.
8.1.2. Conceptos básicos de Probabilidad.
Definición 8.1: Aleatoriedad.
La aleatoriedad se refiere a eventos, procesos o modelos en los que algunos
de los resultados son esencialmente imprevisibles, por efectos relacionados
con el azar.
Definición 8.2: Experimento aleatorio.
Un experimento aleatorio es aquel que bajo el mismo conjunto aparente de
condiciones iniciales, puede presentar resultados diferentes, es decir, no se
puede predecir o reproducir el resultado exacto de cada experiencia parti-
cular.
Ejemplo 8.1
Cuando se lanza una moneda, se sabe que solo puede aparecer cara o cruz. Sin
embargo no se puede predecir al momento de lanzar la moneda en cuál lado
caerá.
Ejemplo 8.2
Cuando se lanza un dado se sabe que en la cara superior puede aparecer cual-
quiera de los números 1,2,3,4,5, o 6 pero no se puede predecir cuál aparecerá.
Definición 8.3: Espacio muestral.
Todos los resultados posibles de un experimento aleatorio en su conjunto,
forman el Espacio de la muestra. Se suele notar con la letra S o la letra
griega Ω (Omega mayúscula).
Ejemplo 8.3
Cuando lanzamos un dado se puede obtener cualquier resultado del 1 al 6. Todos
los números posibles que pueden aparecer en la cara superior forman el Espacio
Muestral. El espacio muestral de una tirada de dados es
S = {1, 2, 3, 4, 5, 6}
Alfredo Yerman Cortes Verbel.
8.1. PROBABILIDAD. 220
Definición 8.4: Resultado.
Cualquier elemento posible del espacio muestral S de un experimento alea-
torio se llama Resultado.
Ejemplo 8.4
:
3 es uno de los resultados de lanzar un dado.
Cara es uno de los resultados de lanzar una moneda.
Definición 8.5: Evento aleatorio.
Un evento aleatorio o fuente de sucesos aleatorio es un subconjunto de
un espacio muestral S, es decir, un conjunto de posibles resultados que se
pueden dar en un posible pero muy lejano experimento aleatorio. Los eventos
se suelen notar con la letra E.
Definición 8.6: Suceso.
Es un subconjunto del espacio muestral, A ⊂ Ω Se dice que ocurre un suceso
si ocurre alguno de los sucesos elementales que lo componen.
Cuando se produce un resultado que pertenece al subconjunto E, se dice que
ha ocurrido un suceso. Mientras que, cuando un resultado que no pertenece al
subconjunto E tiene lugar, el Evento no ha ocurrido.
Ejemplo 8.5
Considérese el experimento de lanzar un dado. Aquí el espacio muestral
S = {1, 2, 3, 4, 5, 6}
Sea E el evento de "que aparezca un número menor de 4". Así, el suceso
E = {1, 2, 3}
Si aparece el número 1, se dice que el suceso E ha ocurrido. Del mismo modo, si
los resultados son 2 ó 3, se puede afirmar que se ha producido el Suceso E, ya
que estos resultados pertenecen al subconjunto E.
Alfredo Yerman Cortes Verbel.
8.1. PROBABILIDAD. 221
Figura 8.1: ¿veo la tele o me quedo en la cama?
Ejemplo 8.6
Algunos ejemplos de sucesos:
Al tirar un dado, obtener 5 como puntuación.
Al lanzar 10 monedas, que 7 de ellas den cara.
Ejemplo 8.7
Si el resultado de un experimento consiste en determinar el sexo de un recién
nacido, el espacio muestral está dado por
E = {niña, niño}
Ejemplo 8.8
Si el experimento se trata del lanzamiento de 2 monedas, una después de la otra,
entonces
E = {(cara, cara), (cara, cruz), (cruz, cara), (cruz, cruz)}
Ejemplo 8.9
En el lanzamiento de 3 monedas, una después de la otra, un suceso elemental es
(cruz, cara, cara)
Ejemplo 8.10
En el lanzamiento de 3 monedas, que en la primer moneda salga cara es un
suceso compuesto.
{(cara, cara, cara), (cara, cara, cruz), (cara, cruz, cara), (cara, cruz, cruz)}
Alfredo Yerman Cortes Verbel.
8.1. PROBABILIDAD. 222
Definición 8.7: Suceso seguro.
Un suceso seguro, E, está formado por todos los posibles resultados (es decir,
por el espacio muestral).
Ejemplo 8.11
Que un recién nacido sea niño o niña es un suceso seguro
Definición 8.8: Suceso imposible.
Un suceso imposible, ∅, es el que no tiene ningún elemento.
Ejemplo 8.12
Al tirar un dado obtener una puntuación igual a 7 es un suceso imposible.
Definición 8.9: Eventos mutuamente excluyentes
A y B son eventos mutuamente excluyentes si no pueden ocurrir al mismo
tiempo. Dicho de otra manera, si A ocurrió entonces B no puede ocurrir y
viceversa. Esto significa que A y B no comparten ningún resultado
Ejemplo 8.13
Supongamos que
H = el evento de obtener una cara en el primer lanzamiento seguido de
una cara o una cruz en el segundo lanzamiento.
J = el evento de obtener siempre cruces.
J y H no tienen nada en común así que son mutuamente excluyentes.
8.1.3. Definición de Probabilidad.
La idea de probabilidad es uno de esos conceptos que cualquier ser humano
tiene preaprendiido. Todos tenemos conocimiento intuitivo de lo que supone que
una cosa sea muy difícil que ocurra (acertar en la lotería) o de algo que sea más
fácil que ocurra (lanzar una moneda y que salga cara). Otra cosa es la definición
matemática. Desde el punto de vista formal, el concepto de probabilidad se puede
abordar desde tres puntos de vista diferentes.
Alfredo Yerman Cortes Verbel.
8.1. PROBABILIDAD. 223
Con estas definiciones se pretende expresar de manera objetiva y precisa el
grado de ocurrencia de ciertos resultados de un fenómeno aleatorio.
Definición 8.10: Probabilidad (Definición de Bernoulli).
La probabilidad de un suceso A de un experimento aleatorio se puede definir
como el número al que se aproximan las frecuencias relativas de dicho suce-
so cuando el experimento se repite un número indefinido de veces. i.e. dado
un suceso A que se repite un número de veces, si observamos la frecuen-
cia con que se repite ese suceso, obtendremos las probabilidades asociadas
asignando la frecuencia relativa a cada suceso. Se llama frecuencia absoluta
de un suceso A al número de veces que se verifica A al realizar el experi-
mento un número determinado de veces. Se llama frecuencia relativa de un
suceso A al cociente entre su frecuencia absoluta y el número de veces que
se realiza el experimento, que viene dada por:
fa (A)
fr (A) =
n
donde n el número de veces que se repite el experimento.
Entonces matemáticamente la probabilidad se expresa por:
P(A) = limn→∞ fr (A)
fa (A)
= limn→∞
n
Definición 8.11: Probabilidad (Definición de Laplace).
Si un espacio muestral consta de un número finito de sucesos simples y todos
ellos tienen la misma posibilidad de suceder (equiprobables). Se define la
probabilidad de cualquier suceso A como:
Número de casos favorables
P(A) =
Número de casos posibles
i.e. La probabilidad de cualquier suceso A es igual al cociente entre el número
de resultados favorables o resultados que integran el suceso A y el número
total de elementos o posibles resultados del espacio muestral E.
Alfredo Yerman Cortes Verbel.
8.1. PROBABILIDAD. 224
Definición 8.12: Probabilidad (Definición de Kolmogorov).
Se llama probabilidad asociada al álgebra de Boole a una aplicación A → R
tal que, a cada valor de A le hace corresponder una probabilidad, que verifica
los siguientes axiomas:
Axioma 1: La probabilidad siempre es positiva.
P : A → [0, 1] ⊂ R
A ⊂ E, A ∈ A → 0 ≤ P [A] ≤ 1
Axioma 2: La probabilidad siempre estará ente 0 y 1.
P(∅) = 0
P(E) = 1
Axioma 3: Sea A1 · · · An sucesos tales que son disjuntos dos a dos (es
decir, la intersección es ∅) Ai ∩ Aj = ∅, la probabilidad es la suma de
todas las probabilidades de sucesos.
n
X
P (∪Ai ) = P (Ai )
i=1
Del tercer axioma se desprende que si A = A1 ∪ A2 · · · ∪ An conAi ∩ Aj = ∅ ,
entonces
P[A] = P[A1 ] + P[A2 ] + · · · + P[An ]
X
P [∪Ai ] = P (Ai )
Las definiciones 8.10,8.11 y 8.12 son equivalentes entre tanto que la definición
de Laplace (8.11) sirve para realizar estimaciones sobre las posibilidades de un
suceso que no es muy frecuente, además es más fácil de calcular; esta será la que
trabajaremos de aquí en adelante.
Alfredo Yerman Cortes Verbel.
8.1. PROBABILIDAD. 225
Figura 8.2: Probabilidades de lanzar varios números con dos dados. De Tim Stell-
mach - Trabajo propio using Inkscape and Open Office Draw software., Dominio
público, [Link]
Cuando se trata de experimentos que son aleatorios y bien definidos en un
entorno puramente teórico (como lanzar una moneda justa), la probabilidad puede
describirse numéricamente por el número de resultados deseados, dividido por el
número total de todos los resultados (esto lo veremos a detalle más adelante.). Por
ejemplo, si se lanza una moneda al aire dos veces, se obtendrán resultados de cara-
cara, cara-cruz, cruz-cara y cruz-cruz. La probabilidad de obtener un resultado
de cara-cara es 1 de cada 4 resultados, o, en términos numéricos, 1/4, 0, 25 o
25 %. Sin embargo, en lo que respecta a la aplicación práctica, existen dos grandes
categorías de interpretaciones de la probabilidad que compiten entre sí, y cuyos
partidarios mantienen puntos de vista diferentes sobre la naturaleza fundamental
de la probabilidad:
Los Objetivistas asignan números para describir algún estado de cosas ob-
jetivo o físico. La versión más popular de la probabilidad objetiva es la pro-
babilidad frecuentista, que afirma que la probabilidad de un evento aleatorio
denota la frecuencia relativa de ocurrencia del resultado de un experimento
cuando este se repite indefinidamente. Esta interpretación considera que la
Alfredo Yerman Cortes Verbel.
8.1. PROBABILIDAD. 226
probabilidad es la frecuencia relativa a largo plazo de los resultados. Una
modificación de esto es la probabilidad de propensión, que interpreta la pro-
babilidad como la tendencia de algún experimento a producir un determinado
resultado, incluso si se realiza solo una vez.
Los subjetivistas asignan números por probabilidad subjetiva, es decir, como
un grado de creencia. El grado de creencia se ha interpretado como el precio
al que se compraría o vendería una apuesta que paga 1 unidad de utilidad
si E, 0 si no E. La versión más popular de la probabilidad subjetiva es la
probabilidad bayesiana, que incluye el conocimiento de los expertos así como
datos experimentales para calcular probabilidades.
Relación con el azar y la probabilidad en la mecánica cuántica
En un universo determinista, basado en los conceptos de la mecánica newto-
niana, no habría probabilidad si se conocieran todas las condiciones (demonio de
Laplace2 ), pero hay situaciones en las que la sensibilidad a las condiciones ini-
ciales supera nuestra capacidad de medirlas, es decir, de conocerlas. En el caso
de una ruleta, si se conoce la fuerza de la mano y el período de esa fuerza, el
número en el que se detendrá la bola sería una certeza (aunque, como cuestión
práctica, esto probablemente sólo sería cierto en una ruleta que no hubiera sido
exactamente nivelada -como reveló el Casino Newtoniano de Thomas A. Bass). Esto
también supone el conocimiento de la inercia y la fricción de la rueda, el peso,
la suavidad y la redondez de la bola, las variaciones en la velocidad de la mano
durante el giro, etc. Así, una descripción probabilística puede ser más útil que la
mecánica newtoniana para analizar el patrón de resultados de las repetidas tiradas
de una ruleta. Los físicos se enfrentan a la misma situación en la teoría cinética
de los gases, donde el sistema, aunque determinista en principio, es tan complejo
(con el número de moléculas típicamente del orden de magnitud de la constante de
Avogadro, 6, 02 < e < 23) que sólo es posible una descripción estadística de sus
propiedades.
La teoría de la probabilidad es necesaria para describir los fenómenos cuánti-
cos. Un descubrimiento revolucionario de la física de principios del siglo XX fue el
carácter aleatorio de todos los procesos físicos que ocurren a escalas subatómicas
y que se rigen por las leyes de la mecánica cuántica. La función de onda objetiva
evoluciona de forma determinista pero, según la interpretación de Copenhague, se
trata de probabilidades de observar, explicándose el resultado por un colapso de
2
En la historia de la ciencia, el demonio de Laplace es la primera articulación publicada de
determinismo causal o científico por Pierre-Simon Laplace en 1814. Según el determinismo de Laplace,
si alguien (el Demonio) supiera la ubicación precisa y momento de cada átomo en el universo, sus
valores pasados y futuros para cualquier tiempo dado serían deducibles de esos datos; podrían ser
calculados de las leyes de mecánica clásica.
Alfredo Yerman Cortes Verbel.
8.1. PROBABILIDAD. 227
la función de onda cuando se realiza una observación. Sin embargo, la pérdida del
determinismo en aras del instrumentalismo no contó con la aprobación universal.
Albert Einstein famosamente remarcó en una carta a Max Born: Estoy convencido
de que Dios no juega a los dados. Al igual que Einstein, Erwin Schrödinger, que
descubrió la función de onda, creía que la mecánica cuántica es una aproximación
estadística de una realidad determinista subyacente. En algunas interpretaciones
modernas de la mecánica estadística de la medición, se invoca la decoherencia
cuántica para explicar la aparición de resultados experimentales subjetivamente
probabilísticos.
8.1.4. Propiedades de la Probabilidad.
Sean A,B y C eventos cualquiera de un espacio muestral S:
i) P(φ) = 0.
ii) P(S) = 1.
iii) P(A) = 1 − P A′ .
iv) P (A ∩ B) = P(A) − P A ∩ B ′ .
v) Si los eventos no son mutuamente excluyentes (definición 8.9 ).
a) P(A ∪ B) = P(A) + P(B) − p(A ∩ B).
1. P(A ∪ B ∪ C ) = P(A) + P(B) + P(C ) − P(A ∩ B) − P(A ∩ C ) − P(B ∩ C ) −
P(A ∩ B ∩ C ).
b) Si A ⊆ B → P(A) ≤ P(B).
Figura 8.3: Mientras más se acerca el valor de la probabilidad a 0, disminuye la
posibilidad de que ocurra el evento. Mientras más se acerca el valor a 1, aumenta
la posibilidad de que ocurra. La probabilidad de que ocurra un evento es 0, si es
imposible que ocurra ese evento. Por otro lado, la probabilidad de que ocurra un
evento es 1, si es seguro que ocurrirá ese evento.
Alfredo Yerman Cortes Verbel.
8.1. PROBABILIDAD. 228
Ejemplo 8.14
¿Cuál es la probabilidad de obtener un 5 al lanzar un dado?
Si A es el evento obtener un 5 Al lanzar un dado, primero calculamos el número
total de casos posibles que se dan al lanzar un dado. En este problema, son 6
casos posibles, ya que el dado puede arrojar 1, 2, 3, 4, 5 o 6. Ahora, calculamos
el número de casos favorables. Si lanzamos un dado, tenemos 1 caso en el que
se obtiene 5. Por lo tanto:
Casos favorables 1
P(A) = = = 0, 166.. (8.1)
Total de casos 6
La respuesta sería: 0, 1667 o 16, 67 %.
Figura 8.4: Probabilidad o suerte
Alfredo Yerman Cortes Verbel.
8.1. PROBABILIDAD. 229
Ejemplo 8.15
Sea un experimento aleatorio que consiste en lanzar al aire los dados que no
están a , y se considera espacio muestral el resultado de la suma de los valores
obtenidos, calcular:
Espacio muestral:
E = {12, 11, 10, 9, 8, 7, 6, 5, 4, 3, 2}
11 elementos.
La probabilidad del suceso A = {2}:
1
P(A) =
11
La probabilidad del suceso B = Número par:
6
11
La probabilidad del suceso C = {12, 11, 10}:
3
11
La probabilidad de A ∪ B:
A ∪ B = {2, 4, 6, 8, 10, 12}
6
P (A ∪ B) =
11
a
Decimos que un dado de seis caras está cargado cuando las probabilidades de que salgan
uno o más resultados son más altas que el resto.
Ejemplo 8.16
Baloto es una Lotería. El premio mayor consiste en acertar 5 números en cual-
quier orden y sin repetición de una urna con balotas del 1 al 43 y otra llamada
"superbalota", en una urna con números 1 al 16. Se juega a través de un tarjetón
donde el apostador señala los 6 números que escoge. ¿Cuál es la probabilidad
de ganar el premio mayor del baloto?.
hay una primera bolsa con 43 números, y en una segunda bolsa con 16. De la
Alfredo Yerman Cortes Verbel.
8.1. PROBABILIDAD. 230
primera bolsa se sacan 5 números, y luego un sexto número sale de la segunda
bolsa. La primera tanda, de 5 números escogidos de entre 43, que no se repiten
y que no importa el orden da usando la formula de combinatoria sin repetición:
43!
43 C5 =
(43 − 5)! · 5!
43!
=
(38)! · 5!
= 962598
combinaciones posibles. Pero esas se combinan a su vez con 16 posibilidades de
la segunda bolsa.
Luego en total se tiene por la regla multiplicativa: 16 · 962598 = 15401568
combinaciones totales posibles. Dado que el ganador es quien saque el número
ganador y este es solamente uno, La probabilidad de sacar el premio gordo es
de:
1
P= = 0,00000006492845404
15401568
i.e. la probabilidad de ganarse el Baloto es de aproximadamente 0,000006492 %
Educación Hombre Mujer
Primaria (P) 22 45
Secundaria (S) 28 50
Universidad (U) 38 17
Cuadro 8.1: ¿Cuál es la probabilidad de que una persona escogida al azar no tenga
como máximo grado de educación secundaria?
Ejemplo 8.17
Los resultados de una encuesta en la que se consulta el máximo nivel educativo
alcanzado por un grupo de personas se muestran tabulados en la tabla 8.1. Cuál
es la probabilidad de que una persona escogida al azar no tenga como máximo
grado de educación secundaria?
Sea X = máximo nivel educativo. De la tabla 8.1 se tiene que hay 22 + 45 =
67 personas cuyo máximo nivel educativo es primaria, 38 + 17 = 55 personas
cuyo máximo nivel educativo es universitario y un total de 200 personas. Como
los eventos P =La primaria es el máximo nivel educativo alcanzado y U =La
universidad es el máximo nivel educativo alcanzado son mutuamente excluyentes;
Alfredo Yerman Cortes Verbel.
8.1. PROBABILIDAD. 231
nos queda que:
67 + 55
P (X = Primaria o Universitario) =
200
122
=
200
= 0,61
Ejemplo 8.18
Una urna tiene $ 4000 en monedas de $ 1000, y $ 1000 pesos en monedas de
$ 500. Se extraen tres de ellas de forma aleatoria y sin remplazo. ¿Cuál es la
probabilidad de que la suma de los valores de estas tres monedas sea menor a
$ 2800?
Del ejemplo tenemos 4 monedas de $ 1000 y 2 monedas de $ 500. Los posibles
resultados de la extracción de tres monedas sin importar el orden son:
a) $ 1000,$ 1000,$ 1000.
b) $ 1000,$ 1000,$ 500.
c) $ 1000,$ 500,$ 500.
Los resultados que nos interesan son a) $ 2500 y b) $ 2000, dado que suman
menos de $ 2800. Veamos el número de formas en que se puede obtener dichas
cantidades.
Para obtener b) se debe elegir de entre las 4 monedas de $ 1000 solamente
2 y 1 moneda de $ 500 de las 2 que hay en la urna; sin importar el orden. Lo
anterior corresponde a la siguiente combinatoria:
4!
4 C2 =
(4 − 2)! · 2!
4!
=
2! · 2!
= 6
2!
2 C1 =
(2 − 1)! · 1!
2!
=
1! · 1!
= 2
Alfredo Yerman Cortes Verbel.
8.1. PROBABILIDAD. 232
Para que la suma sea $ 2000,es decir para que se de c) se debe seleccionar una
moneda de $ 1000 de las 4 posibles y dos monedas de $ 500 de las dos presente
sin importar el orden. Lo anterior corresponde a las siguientes combinatorias:
4!
4 C1 =
(4 − 1)! · 1!
4!
=
3! · 1!
= 4
2!
2 C2 =
(2 − 2)! · 2!
2!
=
0! · 1!
= 1
Ahora bien, el total de posibles resultados del experimento aleatorio es sacar
3 monedas del total de 6 monedas es decir:
6!
6 C3 =
(6 − 3)! · 3!
6!
=
3! · 3!
= 20
Tomando x =Suma de los valores de las monedas extraídas, y usando la regla
multiplicativa calculamos la probabilidad
(4 C2 ) · (2 C1 ) + (4 C1 ) · (2 C2 )
P (X < 2800) =
6 C3
6·2+4·1
=
20
16
=
20
= 0,8
Alfredo Yerman Cortes Verbel.
8.1. PROBABILIDAD. 233
8.1.5. Cálculo de probabilidad usando Diagrama de árbol.
En la definición 7.1 estudiamos el diagrama de árbol, como se construía y la
utilidad de este para representar gráficamente todos los posibles resultados de
un espacio muestral; veamos ahora la utilidad de este para calcular probabilidades.
Recordemos que un diagrama de árbol se hace de manera que cada resultado (nudo)
se ramifica en nuevos posibles resultados (ramas) hasta llegar a los resultados
finales. Una forma de representar eventos y sus probabilidades asociadas en un
diagrama de árbol esta dado en la figura 8.5
) B1
P (B 1
A1 P (B
2)
B2
)
( A1
P
) B1
P (B 1
P(A2 )
Evento A2 P (B
2)
P B2
(A
3)
) B1
P (B 1
A3 P (B
2)
B2
Figura 8.5: Diagrama de árbol con las probabilidades asociadas
Se debe tener en cuenta que la suma de las probabilidades de todas las ramas
que salen de un nudo debe ser igual a 1.
8.1.6. Construcción de un diagrama de árbol.
Para hacer un diagrama de árbol debes seguir los siguientes pasos:
1. El primer paso para hacer un diagrama de árbol es dibujar una rama por cada
resultado posible. Estas serán las ramas de primera generación.
Alfredo Yerman Cortes Verbel.
8.1. PROBABILIDAD. 234
2. Luego se añade la probabilidad asociada a cada evento a su rama correspon-
diente.
3. El final de cada rama de primera generación es un nudo del cual se deben
representar las ramas de los siguientes posibles sucesos.
4. Al igual que en las primeras ramas, se deben agregar las probabilidades de
los sucesos representados.
5. Repetir los pasos 3 y 4 hasta llegar a los nudos finales, es decir, a los posibles
finales del experimento.
Cabe destacar que el número de ramas de un nivel no tiene por qué ser igual
al número de ramas de un nivel diferente. Asimismo, el número de ramas que salen
de un posible resultado puede variar incluso dentro de un mismo nivel.
Ejemplo 8.19
Dado el lanzamiento de tres monedas independientes, calcular la probabilidad
de obtener cara en los tres lanzamientos.
En el lanzamiento de una moneda solo hay dos posibles resultados, podemos
obtener cara o cruz; sea A : obtener cara en el lanzamiento de la moneda y B :
obtener cruz; por lo tanto, la probabilidad de obtener cara o cruz al lanzar una
moneda es:
1
P(A) = = 0,5
2
1
P(B) = = 0,5
2
procedemos a representar el diagrama de árbol.
Como los lanzamientos de las monedas son independientes, la probabilidad
de sacar cara o cruz siempre será la misma en cada lanzamiento. Por lo tanto,
para construir el diagrama de árbol se deben representar dos ramas (cara y cruz)
con la misma probabilidad por cada lanzamiento que se realiza. Y una vez hemos
hecho el diagrama de árbol solo nos queda determinar la probabilidad de sacar
cara en los tres lanzamientos de monedas. Para calcular la probabilidad de un
posible resultado de un diagrama de árbol se deben multiplicar las probabilidades
de todas las ramas contiguas.
Alfredo Yerman Cortes Verbel.
8.1. PROBABILIDAD. 235
Cara (Cara,Cara, Cara)
)
P (A
1
2
Cara
) P (B
P (A 1
)
1 2
2 (Cara,Cara, Cruz)
Cruz
Cara
P (B Cara (Cara,Cruz, Cara)
)
1
) P (A
A)
2 1
P(
2
1
Cruz
2
P (B
)
Lanzar 1
tres 2
Cruz (Cara,Cruz, Cruz)
monedas
Cara (Cruz,Cara, Cara)
indepen- )
dientes P (A
1
2
Cara
P(
) P (B
B)
P (A )
1
2
1
1 2
2 (Cruz, Cara, Cruz)
Cruz
Cruz
P (B Cara (Cruz,Cruz, Cara)
)
1
) P (A
2 1
2
Cruz
P (B
)
1
2
Cruz (Cruz,Cruz,Cruz)
debemos multiplicar todas las probabilidades de obtener cara, ya que son las pro-
babilidades del camino que nos lleva a nuestro resultado deseado.
1 1 1 1
P(C ara, C ara, C ara) = · · = = 0, 125
2 2 2 8
i.e., la probabilidad de conseguir tres veces cara de manera consecutiva es del
12,5
Alfredo Yerman Cortes Verbel.
8.1. PROBABILIDAD. 236
Ejemplo 8.20
En el barrio de Santa Clara solo hay 3 guarderías: en la guardería A van el 60 %
de los niños, en la guardería B el 30 % y en la guardería C el 10 %. Además, en las
tres guarderías el 55 % de los estudiantes son chicas, y el resto chicos. Construir
el diagrama de árbol y calcular las siguientes probabilidades:
Probabilidad de que al seleccionar al azar un estudiante, sea una chica de
la guardería B
Probabilidad de que al seleccionar al azar un estudiante de cualquier guar-
dería sea un chico.
Si la proporción de chicas en todas las guarderías es del 55 %, el porcentaje
de chicos se calcula simplemente restando 1 menos 0,55:
P(C hico) = 1 − 0,55 = 0,45
Ahora que se conocen todas las probabilidades, podemos hacer el diagrama
de árbol:
iña) niña (Guarderia A,Niña)
P (N
Guarderia 55
P (0N,
A iño)
0,45
niño (Guarderia A,Niño)
)
(A
P 6
0,
iña) niña (Guarderia B,Niña)
Estudiantes P(B) P (N
Guarderia 55
en guar- P (0N,
0,3 B iño)
derias 0,45
niño (Guarderia B,Niño)
P
(C
0, )
1
iña) niña (Guarderia C,Niña)
P (N
Guarderia 55
P (0N,
C iño)
0,45
niño (Guarderia C,Niño)
Por lo tanto, la probabilidad de seleccionar aleatoriamente una niña de la
guardería B se calcula de la siguiente manera:
P(chica guardería B) = 0, 30 · 0, 55 = 0, 165
Alfredo Yerman Cortes Verbel.
8.1. PROBABILIDAD. 237
Por otro lado, para determinar la probabilidad de seleccionar un niño de cualquier
guardería primero debemos hallar la probabilidad de escoger un chico para cada
guardería y luego sumarlas:
P(niño guardería A) = 0,6 · 0,45 = 0,27
P(niño guardería B) = 0,30 · 0,45 = 0,135
P(niño guardería C) = 0,10 · 0,45 = 0,045
P(niño guardería A, B o C) = 0,27 + 0,135 + 0,045 = 0,45
El Problema de Monty Hall es un problema de probabilidad que está inspirado
por el concurso de televisión estadounidense Let’s Make a Deal(Hagamos un trato). ,
famoso entre 1963 y 1986. Su nombre proviene del presentador, Monty Hall. Veamos
en que consiste.
Ejemplo 8.21: El problema de Monty Hall
En un concurso, el concursante escoge una puerta entre tres, y su premio consiste
en lo que se encuentra detrás. Una de ellas oculta un coche, y tras las otras dos
hay una cabra. Sin embargo, antes de abrirla, el presentador, que sabe donde
esta el premio, abre una de las otras dos puertas y muestra que detrás de ella
hay una cabra. Ahora tiene el concursante una última oportunidad de cambiar la
puerta escogida. ¿Cúal sería la opción correcta?
Quedarse con la puerta inicial
Cambiar a la otra puerta
Es irrelevante cambiar o no cambiar
La figura 8.7 representa un diagrama de árbol con 3 ramas que representan
las 3 puertas. Aquí claramente se tiene únicamente un tercio de probabilidad de
ganar. Si se elige una puerta perdedora. El presentador abre y quita del juego
la otra puerta perdedora. A partir de aquí, se tiene 2 posibilidades de cambiar o
no cambiar. Cómo se elige una incorrecta, si no se cambia, se pierde, pero si se
cambia, se gana, luego si se elige la otra puerta perdedora es a , si se cambia se
gana y si no se cambia se pierde, pero en caso de elegir la puerta ganadora, si
no se cambia, se gana, pero si se cambia, se pierde. Si se cambia de puerta se
gana 2 de cada 3 veces, porque 2 de cada 3 veces vas a elegir mal. No cambiar,
por otro lado, hace que se gane únicamente 1 de cada 3. Es verdad que una
vez que se elige se convierte en un problema de 50/50, pero hay que tomar en
cuenta el panorama completo para entender porque siempre es mejor cambiar.
más adelante analizaremos este problema usando el concepto de probabilidad
condicional.
Alfredo Yerman Cortes Verbel.
8.1. PROBABILIDAD. 238
a
Latinismo que significa literalmente lo mismo.
1/3 1/3
1/3
Participante
Cabra A Cabra B Coche
elije:
1 1 1/2 1/2
Presentador
Cabra B Cabra A Cabra B Cabra A
muestra:
1/3 1/3 1/6 1/6
No cambiar: Cabra A Cabra B Coche Coche
Cambiar: Coche Coche Cabra A Cabra B
Figura 8.6: Árbol de decisión para el problema de Monty Hall.
By Booyabazooka - Own work based on: Monty [Link], CC0,
[Link]
De la figura 8.6 vemos que la probabilidad de ganar cambiando esta dada por:
1 1 2
P=
+ = = 0, 66
3 3 3
y la probabilidad de perder al cambiar esta dada por
1 1 1
P= + = = 0, 33
6 6 3
Alfredo Yerman Cortes Verbel.
8.1. PROBABILIDAD. 239
Figura 8.7: La paradoja de Monty Hall.
Ejemplo 8.22
Hallar la probabilidad de que al levantar unas fichas de dominó se obtenga un
número de puntos mayor que 9 o que sea múltiplo de 4.
Sea A las fichas donde el total de puntos de cada una es mayor a 9, y B las
fichas donde la cantidad de puntos de cada una es múltiplo de 4:
A = {(4, 6), (5, 5), (5, 6), (6, 6)}
B = {(0, 4), (1, 3), (2, 2), (2, 6), (3, 5), (4, 4), (6, 6)⟩
en este caso observamos que la ficha (6, 6) ∈ A y (6, 6) ∈ B, en otras palabras
A ∩ B ̸= φ. Esto significa que ahora debemos emplear la fórmula dada en la
sección 8.1.4 para la probabilidad de la unión de dos eventos.
Dado que existen 28 fichas de dominó, los valores quedan de la siguiente
forma:
P(A ∪ B) = P(A) + P(B) − p(A ∩ B)
4 7 1
= + −
28 28 28
5
=
14
Alfredo Yerman Cortes Verbel.
8.1. PROBABILIDAD. 240
8.1.7. Probabilidad condicional.
La noción de probabilidad condicional se emplea en el ámbito de la estadís-
tica. La expresión alude a la probabilidad existente de que suceda un evento A,
conociendo que además ocurre otro evento B.
Es importante tener en cuenta que no es necesario que exista una relación
temporal o causal entre A y B. Esto quiere decir que A puede producirse antes que
B, después o al mismo tiempo, y que A puede ser el origen o la consecuencia de B
o no tener un vínculo de causalidad.
Definición 8.13: Probabilidad Condicionada
Dado un espacio de probabilidad F y dos eventos (o sucesos) A, B ∈ F con
P(B) > 0, la probabilidad condicional de A dado B está definida como:
P(A ∩ B)
P(A | B) =
P(B)
De la definición tenemos que
P(A ∩ B) = P(B)P(A | B) = P(A)P(B | A)
Debemos resaltar que en el campo de la probabilidad no hay espacio para los
conceptos de relaciones temporales o relaciones causales, aunque pueden jugar un
rol determinado según la interpretación que el observador les dé a los sucesos.
Ejemplo 8.23
Se sabe que el 50 % de la población fuma y que el 10 % fuma y es hipertensa.
¿Cuál es la probabilidad de que un fumador sea hipertenso?
A = {ser hipertenso}
B = {ser fumador}
A ∩ B = {ser hipertenso y fumador}
0,1
P (A | B) = = 0,2
0,5
Ejemplo 8.24
Calcular la probabilidad de obtener un 4 al tirar un dado sabiendo que ha salido
Alfredo Yerman Cortes Verbel.
8.1. PROBABILIDAD. 241
par.
A = {Obtener un 4 en un dado} = {4}
1
P(A) =
6
B = {Obtener un par} = {2, 4, 6}
3 1
P(B) = =
6 2
A ∩ B = {4}
1
P(A ∩ B) =
6
1
6
P(A | B) = 1
2
1
P(A | B) =
3
Ejemplo 8.25
Supongamos que tenemos un aula con 30 alumnos, siendo el 50 % de 14 años y
el otro 50 % de 15 años. Además, sabemos que 12 integrantes del salón tienen 14
años y usan resaltador en sus libros ¿Cuál es la probabilidad de que un estudiante
del salón use resaltador si tiene 14 años?
Sea el evento A = El estudiante use resaltador, y B =El estudiante tenga 14
años. Luego
P(B) = 0,5
La probabilidad que de que un estudiante tenga 14 años y use resaltador
esta dada por:
12
P(A ∩ B) = = 0,4
30
La probabilidad de que un estudiante use resaltador si tiene 14 años se
calcularía de la siguiente forma:
0,4
P(A | B) = = 0,8
0,5
Es decir, existe un 80 % de probabilidad de que un estudiante use resaltador si
tiene 14 años.
Alfredo Yerman Cortes Verbel.
8.1. PROBABILIDAD. 242
Ejemplo 8.26
Una mujer es portadora de la enfermedad de Duchennea ¿Cuál es la probabilidad
de que su próximo hijo tenga la enfermedad?.
Según las leyes de Mendel, todos los posibles genotipos de un hijo de una
madre portadora (xX ) y un padre normal (X Y ) son xX , xY , X X , X Y y tienen
la misma probabilidad. El espacio muestral es Ω = {xX , xY , X X , X Y } el suceso
A = {hijo enfermo} corresponde al genotipo xY , por tanto, según la definición
clásica de probabilidad:
1
P(A) = = 0, 25
4
La mujer tiene el hijo y es varón ¿qué probabilidad hay de que tenga la
enfermedad?
Se define el suceso B = {ser varón} = {xY , X Y }.
la probabilidad pedida es P(A | B) y aplicando la definición anterior:
P(B) = 0, 5
A ∩ B = {xY }
P(A ∩ B) = 0, 25
0,25
P(A | B) = = 0, 5
0,5
Si sabemos que es varón, el espacio muestral ha cambiado, ahora es B. Por lo
tanto se puede calcular P(A | B) aplicando la definición clásica de probabilidad
al nuevo espacio muestral P(A | B) = 12 = 0, 5.
a
Es un trastorno hereditario. Este implica debilidad muscular, la cual empeora rápidamente. La
distrofia muscular de Duchenne es una forma de distrofia muscular que empeora rápidamente. Otras
distrofias musculares (incluida la distrofia muscular de Becker) empeoran mucho más lentamente. La
distrofia muscular de Duchenne es causada por un gen defectuoso para la distrofina (una proteína
en los músculos). Sin embargo, a menudo se presenta en personas con familias sin antecedentes
conocidos de esta afección. La afección afecta con mayor frecuencia a los niños debido a la manera
en que la enfermedad se hereda. Los hijos de mujeres portadoras de la enfermedad (mujeres con un
cromosoma defectuoso, pero que no presentan síntomas) tienen cada uno un 50 % de probabilidades
de tener la enfermedad y las hijas tienen cada una un 50 % de probabilidades de ser portadoras.
En ocasiones muy poco frecuentes, una mujer puede ser afectada por la enfermedad. La distrofia
muscular de Duchenne se presenta en aproximadamente 1 de cada 3600 varones. Debido a que
se trata de un trastorno hereditario, los riesgos incluyen antecedentes familiares de la distrofia
muscular de Duchenne.
Lo opuesto a la probabilidad condicional es la probabilidad independiente. Es
decir, aquella que no depende de la ocurrencia de otro evento. Dos sucesos, A y
B, son independientes cuando la probabilidad de que suceda A no se ve afectada
porque haya sucedido, o no, B. Si tiramos dos veces una moneda, el segundo resul-
Alfredo Yerman Cortes Verbel.
8.1. PROBABILIDAD. 243
tado que obtenemos no está influenciado por el primer resultado obtenido. Veamos
la definición formal.
Definición 8.14: Sucesos Independientes.
Si dos sucesos A y B son independientes, entonces:
P(A ∩ B) = P(A)P(B)
Por tanto, si P(B) ̸= 0, de la definición de probabilidad condicional resulta que:
P(A)P(B)
P (A | B) = = P(A)
P(B)
En otras palabras, si dos sucesos A y B son independientes, entonces la pro-
babilidad condicional de A cuando se sabe que B ha ocurrido es la misma que la
probabilidad incondicional de A cuando no se dispone de información sobre B. El
resultado recíproco también es cierto, si:
P (A | B) = P(A)
entonces los sucesos A y B deben ser independientes.
Ejemplo 8.27
Una urna contiene tres bolas rojas y siete blancas. Se extraen dos bolas al azar.
Escribir el espacio muestral y hallar la probabilidad de:
Extraer las dos bolas con reemplazamiento:
Sea R extraer una bola rojas y B extraer una bola blancas, el espacio
muetral esta dado por:
E = {RR, RB, BR, BB}
Al extraer una bola y posteriormente regresarla a la urna (reemplazamiento),
las condiciones de la primera y la segunda extracción son exactamente
iguales, significa que son sucesos independientes; entonces tenemos que:
P(R ∩ R) = P(R)P(R) Primera extracción roja y segunda extracción roja
3 3
= ·
10 10
9
=
100
Alfredo Yerman Cortes Verbel.
8.1. PROBABILIDAD. 244
P(B ∩ R) = P(B)P(R) Primera extracción blanca y segunda extracción roja
7 3
= ·
10 10
21
=
100
P(R ∩ B) = P(R)P(B) Primera extracción roja y segunda extracción blanca
3 7
= ·
10 10
21
=
100
P(B ∩ B) = P(B)P(B) Primera extracción blanca y segunda extracción blanca
7 7
= ·
10 10
49
=
100
Sin reemplazamiento:
La extracción de la primera bola modifica las condiciones de la segunda
extracción, esto significa que son sucesos dependientes (por ejemplo si en la
primer extracción se obtuvo bola roja, significa que en la segunda extracción
hay una bola roja menos en la urna, es decir 2 rojas, y además una bola
menos en total, es decir 9).
P(R ∩ R) = P(R)P(R) Primera extracción roja y segunda extracción roja
3 2
= ·
10 9
6
=
90
P(B ∩ R) = P(B)P(R) Primera extracción blanca y segunda extracción roja
7 3
= ·
10 9
21
=
90
Alfredo Yerman Cortes Verbel.
8.1. PROBABILIDAD. 245
P(R ∩ B) = P(R)P(B) Primera extracción roja y segunda extracción blanca
3 7
= ·
10 9
21
=
90
P(B ∩ B) = P(B)P(B) Primera extracción blanca y segunda extracción blanca
7 6
= ·
10 9
42
=
90
Propiedades de la probabilidad condicional.
P(A | B) + P(Ā | B) = 1
Esto significa que la probabilidad de A dado B, más la probabilidad del com-
plemento de A (los elementos del universo que no pertenece a A) dado B, es
igual a 1.
B ⊆ A → P(A | B) = 1
Esta propiedad implica que si A es un subconjunto de B (o son dos conjuntos
iguales), la probabilidad de que ocurra A dado B es 1.
P(A) = P(A | B) · P(B) + P(A | B̄) · P(B̄) Lo anterior quiere decir que la
probabilidad de A es igual a la probabilidad de A dado B por la probabilidad
de B más la probabilidad de A, dado el complemento de B por el complemento
de B.
A menudo se confunde este concepto con el de posibilidad, aunque tengan claras
diferencias: la probabilidad surge de un análisis objetivo mientras que la posibilidad
roza la suposición. En un concurso de canto, si Carla es claramente más talentosa
que Pedro, tiene más probabilidades de ganar; sin embargo, existe la posibilidad
de que gane cualquiera de los dos porque hay muchos más factores en juego que
el talento de cada uno.
Ejemplo 8.28
Una maestra de matemáticas le da a su clase dos exámenes. El 30 % de la clase
paso ambos exámenes y el 45 % de la clase paso el primer examen. Qué porcentaje
de aquellos que pasaron el primer examen también pasaron el segundo?
Alfredo Yerman Cortes Verbel.
8.1. PROBABILIDAD. 246
Sea A= Estudiantes que pasaron el primer examen de matemáticas, P(A) =
0,45 y B= Estudiantes que pasaron el segundo examen de matemáticas, P(A ∩
B) = 0,3. Entonces
0,3 2
P(A | B) = = =≈ 0,666
0,45 3
Dos tercios o aproximadamente el 66.7 % de la clase paso el segundo examen.
Ejemplo 8.29: El problema de Monty Hall
Veamos el problema de Monty Hall nuevamente.
Sean los sucesos:
A = El jugador selecciona la puerta que contiene el coche en su selección
inicial.
B = El jugador selecciona una puerta que contiene una cabra en su selec-
ción inicial.
G = El jugador gana el coche.
Se asume que hay dos tipos de jugador, los que nunca cambian de puerta y los
que cambian siempre; en este caso la pregunta se limita a ver que tipo de jugador
tiene la mayor probabilidad de ganar el coche. Veamos P(G) para cada tipo de
jugador.
Notar que
G = (G ∩ A) ∪ (G ∩ B)
ya que A ∩ B = φ y A ∪ B = Ω.
P(G) = P((G ∩ A) ∪ (G ∩ B))
= P(G ∩ A) + P(G ∩ B)
= P(G | A)P(A) + P(G | B)P(B)
1 2
En cualquier caso, P(A) = y P(B) = , pues hay un coche y dos cabras.
3 3
Jugador que nunca se cambia.
En este caso P(G | A) = 1 y P(G | B) = 0 pues el jugador se queda con su
Alfredo Yerman Cortes Verbel.
8.1. PROBABILIDAD. 247
Figura 8.8: El problema de Monty Hall es un problema de probabilidad inspirado en
un viejo concurso de televisión llamado “Let ’s Make a Deal”. El problema consiste en
que un concursante tiene delante tres puertas, detrás de una de ellas hay un auto
nuevo y en las otras dos hay cabras, el concursante debe adivinar en cuál puerta
está el vehículo. Sin embargo, una vez el concursante elige una de las puertas,
Monty Hall (El presentador que sabe que hay detrás de cada puerta) abre una de
las puertas donde haya una cabra y le da la opción al concursante de cambiar de
puerta que eligió. Por ello podríamos preguntarnos ¿Cambiar de puerta puede influir
en el resultado del concurso? Al tener ahora dos puertas a elegir pensaríamos que
tenemos 50 % de probabilidad de acertar, sin embargo, esto no es así y resulta que
tenemos un 66.66 % de probabilidad de ganar si cambiamos la puerta que elegimos
inicialmente.
Alfredo Yerman Cortes Verbel.
8.1. PROBABILIDAD. 248
selección inicial. Por lo tanto
P(G) = P(G | A)P(A) + P(G | B)P(B)
1 2
= 1· +0·
3 3
1
=
3
Jugador que siempre se cambia.
En este caso P(G | A) = 0 y P(G | B) = 1 pues el jugador se cambia a la
única puerta cerrada que queda (y sabemos que como el presentador sabe
donde esta el coche, siempre mostrará una cabra).
P(G) = P(G | A)P(A) + P(G | B)P(B)
1 2
= 0· +1·
3 3
2
=
3
Claramente la mejor estrategia es cambiar siempre, pues la probabilidad efec-
tiva de ganar es el doble de la correspondiente al jugador que no cambia nunca.
8.1.8. Probabilidad Total
En las empresas de fabricación de coches, muchas veces ocurren fallos en la
producción. Por esto mismo, se hacen controles de calidad por cada lote de produc-
to. Pero, una misma empresa puede tener varias fábricas y cada fábrica producir
cantidades distintas de coches. Entonces, si de un lote al azar de todas las fábricas
se elige un coche, ¿cuál sería la probabilidad de que el coche elegido tenga un
fallo?
Este es un problema típico sobre el teorema de la probabilidad total. Cuando
se tiene un suceso (que un coche tenga un fallo) que puede producirse en distintas
particiones (cada una de las fábricas), hay que tener en cuenta la probabilidad de
que el coche sea de una fábrica en concreto y la probabilidad de obtener un coche
con fallo. En esta sección se verá algunas el Teorema de la Probabilidad Total.
Definición 8.15: Partición.
Los sucesos A1 ,A2 ,A3 ,· · · ,An . forman una partición del espacio muestral E, si
cumplen con que:
Son incompatibles entre sí. i.e.:
Alfredo Yerman Cortes Verbel.
8.1. PROBABILIDAD. 249
Ai ∩ Aj = φ, ∀i ̸= j
Decimos que dichos eventos son son mutuamente excluyentes.
Todos suman el espacio muestral. i.e.:
A1 ∪ A2 ∪ A3 ∪ · · · An = E
Decimos también que dichos eventos son colectivamente exhaustivos.
Ver figura 8.10
Figura 8.9: Partición: sucesos disjuntos que recubren el total.
Ejemplo 8.30
Los trabajadores de una empresa se dividen en 5 departamentos distintos. Se
podría elegir un trabajador al azar y anotar el departamento en el que trabaja.
Los sucesos que llamamos AJ son pertenecer al departamento j y forman una
partición del espacio muestral, puesto que la unión de todos los departamentos
A1 ∪ A2 ∪ A3 ∪ A4 ∪ A5 = E forman el espacio muestral que sería ser un trabajador
de la empresa (todos los departamentos juntos forman la totalidad de la empresa).
Además los sucesos son incompatibles entre sí, porque un trabajador no puede
ser de dos departamentos a la vez.
Teorema 8.1: Teorema de la Probabilidad Total
Sea A1 , A2 , ..., An una partición sobre el espacio muestral y sea B un suceso
cualquiera del que se conocen las probabilidades condicionales P(B | Ai ),
Alfredo Yerman Cortes Verbel.
8.1. PROBABILIDAD. 250
entonces la probabilidad del suceso B viene dada por la expresión:
n
X
P(B) = P (B | Ai ) P (Ai )
i=1
P(B) = P(A1 ) · P(B | A1 ) + P(A2 ) · P(B | A2 ) + · · · + P(An ) · P(B | An )
Figura 8.10: los sucesos A1 ,A2 ,A3 ,· · · ,An forman una partición del espacio muestral
Ω, siendo B es un suceso cualquiera.
Esto quiere decir que la probabilidad de un suceso que puede darse en cual-
quiera de las particiones es la suma de la probabilidad de tener esa partición,
multiplicada por la probabilidad de tener ese suceso en esa partición en concreto.
Ejemplo 8.31
En un acuario se tienen solo 2 especies de peces, el 40 % son de la especie azul
y el 60 % son de la especie roja. De la especie azul, el 30 % son machos; mientras
que, de la especie roja, el 40 % son hembras. ¿Cuál es la probabilidad de que un
pez elegido aleatoriamente en el acuario sea macho?
Sean los eventos
A1 : Elegir un pez azul, entonces P(A1 ) = 0,4
A2 : Elegir un pez rojo, entonces P(A2 ) = 0,6
B: Elegir un pez macho.
Alfredo Yerman Cortes Verbel.
8.1. PROBABILIDAD. 251
El ejemplo dice dicen que de la especie azul, el 30 % son machos. Por ello, la
probabilidad de que un pez sea macho, dado que es de la especie azul, es de:
P(B | A1 ) = 0,3
y que el 40 % de los peces de la especia roja son hembras, por ello, el 60 %
serán machos. Entonces, la probabilidad de que un pez sea macho, dado que es
de la especie roja esta dado por:
P(B | A2 ) = 0,6
Por el Teorema de Probabilidad Total:
2
X
P(B) = P (B | Ai ) P (Ai )
i=1
= P(A1 ) · P(B | A1 ) + P(A2 ) · P(B | A2 )
= 0,4 · 0,3 + 0,6 · 0,6
= 0,12 + 0,36
= 0,48
La probabilidad de que un pez elegido aleatoriamente sea macho 48 %.
Figura 8.11: El ejemplo 8.31 tambien se pudia resolver usando el diagrama de árbol.
Para calcular probabilidades usando el diagrama de árbol: cuando avanzamos de
izquierda a derecha, multiplicamos las probabilidades; cuando avanzamos de arriba
hacia abajo, sumamos las probabilidades. La probabilidad de encontrar un macho,
seleccionando un pez de forma aleatoria es de 0,48 o 48 %.
Alfredo Yerman Cortes Verbel.
8.1. PROBABILIDAD. 252
Ejemplo 8.32
La tienda online favorita del 33 por ciento de los socios de un foro es Pccom-
ponendas, un 8 por ciento prefiere Medianamart, el 2 por ciento prefiere Evoy
y el resto prefieren comprar en Amazonas. La probabilidad de que el pedido se
pierda y no llegue al destinatario, según la casa que lo envíe, es 0.8, 0.9, 0.7 y
0.6 respectivamente. Pedro Anzoátegui del 20-03, ha pedido el último modelo de
linterna. Si acaba de entrar al foro y el primer hilo que abre ya es para insultar,
¿crees que está cabreado porque no ha recibido el envío? Solución
Definimos los sucesos:
A1 = Pedido a Pccomponendas, entonces P(A1 ) = 0,33.
A2 = Pedido a Medianamart, entonces P(A2 ) = 0,08.
A3 = Pedido a Evoy, entonces P(A3 ) = 0,02.
A4 = Pedido a Amazonas, entonces P(A4 ) = 0,57.
B = El pedido no llega a tiempo.
Como vemos, los sucesos A1 ,A2 ,A3 y A4 son incompatibles y sus probabilidades
suman 1. Ademas se tiene que:
P(B | A1 ) = 0,8.
P(B | A2 ) = 0,9.
P(B | A3 ) = 0,7.
P(B | A4 ) = 0,6.
Por el teorema de las probabilidades totales, la probabilidad de que el pedido
no se ha recibido es
P(B) = P(B | A1 ) · P(A1 ) + P(B | A2 ) · P(A2 ) + P(B | A3 ) · P(A3 ) + P(B | A4 ) · P(A4 )
= 0,8 · 0,33 + 0,9 · 0,08 + 0,7 · 0,02 + 0,6 · 0,57
= 0,692
Vemos que la probabilidad de el Sr Anzoátegui no haya recibido el envío es
más alta qué la probabilidad de que sí lo haya recibido, es entendible su enfado.
Alfredo Yerman Cortes Verbel.
8.1. PROBABILIDAD. 253
Ejemplo 8.33
Se dispone de tres cajas con bombillas. La primera contiene diez bombillas, de
las cuales hay cuatro fundidas; en la segunda hay seis bombillas, estando una de
ellas fundida, y la tercera caja hay tres bombillas fundidas de un total de ocho.
¿Cuál es la probabilidad de que al tomar una bombilla al azar de una cualquiera
de las cajas, esté fundida?
Denotemos los siguientes eventos:
A1 : Sacar bombilla de la Primera Caja.
A2 : Sacar bombilla de la Segunda Caja.
A3 : Sacar bombilla de la tercera caja.
F : Escoger una bombilla fundida.
B: Escoger una bombilla buena.
Bombilla
( B | A 1) Buena
P
Primera 6
P (F 10
Caja | A1 )
4
10
Bombilla
1
) Fundida
(A
P 1
3
Bombilla
| A 2)
Tomar P (B Buena
P (A2 ) Segunda 5
una P (F 6
1 caja | A2 )
bombilla 3
6
1 Bombilla
P Fundida
(A
3)
1
3
bombilla
| A 3)
P (B Buena
Tercera 5
P (F 8
caja | A3 )
8
3 Bombilla
Fundida
Considerando el teorema de probabilidad total, tenemos que:
P(F ) = P(A1 ) · P(F | A1 ) + P(A2 ) · P(F | A2 ) + P(A3 ) · P(F | A3 )
Alfredo Yerman Cortes Verbel.
8.1. PROBABILIDAD. 254
La probabilidad de elegir una bombilla de cualquier caja es 31 y la probabilidad
de elegir una bombilla fundida de cada una de las cajas depende del número total
de bombillas en la caja y del número de bombillas fundidas en esta misma caja.
La probabilidad de elegir una bombilla fundida es la suma de probabilidades
de elegir una bombilla fundida de cada caja y la podemos calcular de la siguiente
manera:
1 4 1 1 1 3
P (F ) = · + · + ·
3 10 3 6 3 8
4 1 3
= + +
30 18 24
113
=
360
= 0,313
Figura 8.12: Gráficas de Halloween
Alfredo Yerman Cortes Verbel.
8.1. PROBABILIDAD. 255
8.1.9. Teorema de Bayes
El Teorema de Bayes es uno de los resultados más conocidos y útiles en el
área de la probabilidad y estadística, y en particular en el estudio de la proba-
bilidad condicional. Básicamente, el Teorema de Bayes nos dice cómo calcular la
probabilidad de un suceso teniendo información a priori sobre dicho suceso.
Este teorema es una herramienta altamente usada por su simpleza y su rápida
aplicación en distintas áreas del conocimiento, por ejemplo en medicina, biología,
tecnología, negocios, o en cualquier área en la que se necesite tener una certeza
sobre algún suceso dada información de antemano. Además, es común utilizar dicha
herramienta consecutivamente para obtener una mayor certeza si el problema así
lo requiere.
El teorema de Bayes vincula la probabilidad de un evento A dado un evento B
con la probabilidad de B dado A. Es decir, por ejemplo, que sabiendo la probabilidad
de tener un dolor de cabeza dado que se tiene gripe, se podría saber (si se tiene
algún dato más), la probabilidad de tener gripe si se tiene un dolor de cabeza.
Muestra este sencillo ejemplo la alta relevancia del teorema en cuestión para la
ciencia en todas sus ramas, puesto que tiene vinculación íntima con la comprensión
de la probabilidad de aspectos causales dados los efectos observados.
Teorema 8.2: Teorema de Bayes
Sea {A1 , A2 , ..., Ai , ..., An } un conjunto de sucesos mutuamente excluyentes y
exhaustivos, i.e. A1 ∪ A2 ∪ A3 · An = E tales que la probabilidad de cada uno
de ellos es distinta de cero P[Ai ] ̸= 0; para i = 1, 2, . . . , n. Si B es un suceso
cualquiera del que se conocen las probabilidades condicionales P (B | Ai )
entonces la probabilidad P (Ai | B) viene dada por la expresión:
P (B | Ai ) P (Ai )
P (Ai | B) =
P(B)
donde:
P (Ai ) representa la probabilidad del evento Ai , denominada probabi-
lidad a priori.
P (B | Ai ) es la probabilidad de B en la hipótesis Ai .
P (Ai | B) representa la probabilidad del evento Ai dado el evento B,
tambien conocida como probabilidad a posteriori.
E Espacio muestral.
Alfredo Yerman Cortes Verbel.
8.1. PROBABILIDAD. 256
, Con base en la definición de probabilidad condicionada se obtiene la Fór-
mula de Bayes, también conocida como Regla de Bayes:
P (B | Ai ) P (Ai )
P (Ai | B) = Pn
k=1 P (B | Ak ) P (Ak )
En términos modernos, deberíamos referirnos al Teorema de Bayes-Price. Price
descubrió el trabajo de Bayes, reconoció su importancia, lo corrigió, contribuyó al
artículo y le encontró un uso. La convención moderna de emplear sólo el nombre de
Bayes es injusta.
Figura 8.13: La visualización del teorema de Bayes por la superposición de dos
árboles de decisión. De Qniemiec - File:Bayes& # 039;_ Theorem_ [Link], CC BY-
SA 3.0, [Link]
Alfredo Yerman Cortes Verbel.
8.1. PROBABILIDAD. 257
Ejemplo 8.34
El 20 % de los empleados de una empresa son ingenieros y otro 20 % son eco-
nomistas. El 75 % de los ingenieros ocupan un puesto directivo y el 50 % de los
economistas también, mientras que los no ingenieros y los no economistas so-
lamente el 20 % ocupa un puesto directivo. ¿Cuál es la probabilidad de que un
empleado directivo elegido al azar sea ingeniero?.
Sean los siguientes eventos:
A1 : Los empleados son ingenieros, entonces P(A1 ) = 0,2.
A2 : Los empleados son economistas, entonces P(A2 ) = 0,2.
A3 : Los empleados tienen otra carrera, entonces P(A3 ) = 0,6.
B: El empleado ocupa un puesto directivo, entonces
• P(B | A1 ) = 0,75
• P(B | A2 ) = 0,5
• P(B | A3 ) = 0,2
Se debe calcular P(A1 |B) , i.e., la probabilidad de que un empleado sea inge-
niero dado que a priori sabemos que es directivo. Siguiendo la fórmula de Bayes
tenemos que
P(B|A1 )P(A1 )
P(A1 |B) = P3
i=1 P(B|Ai )P(Ai )
(0,75)(0,2)
=
(0,75)(0,2) + (0,5)(0,2) + (0,2)(0,6)
≈ 0,405.
Ejemplo 8.35
La probabilidad de que haya un accidente en una fábrica que dispone de alarma
es 0.1. La probabilidad de que suene esta sí se ha producido algún incidente es
de 0.97 y la probabilidad de que suene si no ha sucedido ningún incidente es
0.02. En el supuesto de que haya funcionado la alarma, ¿cuál es la probabilidad
de que no haya habido ningún incidente?
Sea
I: Se produce un incidente, entonces P(I) = 0,1.
Alfredo Yerman Cortes Verbel.
8.1. PROBABILIDAD. 258
I: No se produce un incidente, entonces P(I) = 0,9.
A: Suena la alarma, entonces
• P(A|I) = 0,97
• P(A|I) = 0,02
A: No suena la alarma, entonces
• P(A|I) = 0,03
• P(A|I) = 0,98
Se desea conocer P(I|A), i.e., la probabilidad de que no haya ocurrido ningún
incidente dado que ha sonado la alarma. Siguiendo la fórmula de Bayes tenemos
que
P(A|I)P(I)
P(I|A) =
P(A|I)P(I) + P(A|I)P(I)
(0,02)(0,9)
=
(0,02)(0,9) + (0,97)(0,1)
≈ 0,157.
Ejemplo 8.36
Un análisis de sangre de laboratorio tiene una eficacia del 95 % para detectar
una determinada enfermedad cuando, de hecho, está presente. Sin embargo, la
prueba también arroja un resultado "falso positivo"para el 1 % de las personas
sanas analizadas. (Es decir, si se hace la prueba a una persona sana, entonces,
con una probabilidad de 0.01, el resultado de la prueba implicará que tiene la
enfermedad). Si el 5 % de la población en realidad tiene la enfermedad, ¿cuál es
la probabilidad de que una persona tiene la enfermedad dado que el resultado
de la prueba es positivo?.
Sea el evento
E: Tiene la enfermedad, P(E) = 0,005.
F : El resultado es positivo.
E: No tiene la enfermedad, P(E) = 1 − P(E) = 1 − 0,005 = 0,995
F : El resultado es negativo, P(F | E) = 0,01.
Alfredo Yerman Cortes Verbel.
8.1. PROBABILIDAD. 259
El laboratorio tiene una eficacia del 95 % para detectar una determinada en-
fermedad cuando en realidad se tiene, entonces tenemos que P(F | E) = 0,95.
Se quiere calcular P(E | F ) , i.e., la probabilidad de que una persona esté
enferma dado que la prueba haya dado positivo. Siguiendo la fórmula de Bayes
tenemos que
P(F | E)P(E)
P(E | F ) =
P(F | E)P(E) + P(F | E)P(E)
(0,95)(0,005)
=
(0,95)(0,005) + (0,01)(0,995)
≈ 0,323.
Ejemplo 8.37
Una fábrica de clavos dispone de 2 máquinas que elaboran el 30 % y 70 % de los
clavos que producen. El porcentaje de clavos defectuosos de cada máquina es del
2 % y 3 % , respectivamente. Si se selecciona al azar un clavo de la producción y
este fue defectuoso, ¿cuál es la probabilidad de que haya sido fabricado por la
máquina 1?
Sea los eventos:
M1 : Clavos fabricados por la máquina 1, P(M1 ) = 0,3.
M2 : Clavos fabricados por la máquina 2, P(M2 ) = 0,7.
D: Los clavos fabricados son defectuosos
P(D | M1 ) = 0,02
P(D | M2 ) = 0,03
Se quiere calcular P(M1 | D) , es decir, la probabilidad de que un clavo seleccio-
nado al azar de la producción haya sido fabricado por la máquina 1 dado que ha
salido defectuoso. Siguiendo la fórmula de Bayes tenemos que
P(D|M1 )P(M1 )
P(M1 | D) =
P(D|M1 )P(M1 ) + P(D|M2 )P(M2 )
(0,02)(0,3)
=
(0,02)(0,3) + (0,03)(0,7)
≈ 0,222.
Alfredo Yerman Cortes Verbel.
8.1. PROBABILIDAD. 260
8.1.10. ¿Qué es la ecuación de Drake?,¿ cuál es la probabilidad de en-
contrar vida extraterrestre? y la Paradoja de Fermi.
En 1961 el astrónomo estadounidense Frank Drake formuló su famosa ecuación
para calcular qué probabilidad existía de que otra civilización pudiera comunicarse
con nosotros. La ecuación de Drake estima la cantidad de civilizaciones en nuestra
galaxia, la Vía Láctea, susceptibles de poseer emisiones de radio detectables. Sus
cálculos arrojaron un resultado de 0,00000003 %. Parece una posibilidad mínima,
pero el hecho es que Drake fue criticado por arrojar una estimación demasiado
optimista.
Teniendo en cuenta que pueden contabilizarse entre 200 y 400 millones de
estrellas en la Vía Láctea, la ecuación de Drake supondría que hasta 10 civilizaciones
de nuestra galaxia poseerían vida inteligente y serían capaces de comunicarse con
nosotros.
A pesar de las críticas recibidas, la ecuación de Drake identifica los factores
específicos que, se cree, tienen un papel importante en el desarrollo de las civiliza-
ciones. Aunque en la actualidad no hay datos suficientes para resolver la ecuación
la ecuación de Drake fue la primera formulación matemática aceptada por la co-
munidad científica para determinar la existencia o no de vida inteligente fuera de
nuestro planeta.
Así, la fórmula de Drake es la siguiente:
N = R ∗ · fp · n e · fl · fi · fc · L
donde:
Símbolo Nombre
N Número de civilizaciones que podrían comunicarse en nuestra galaxia, la Vía Láctea.
R∗ Ritmo anual de formación de estrellas adecuadas en la galaxia.
fp Fracción de estrellas que tienen planetas en su órbita.
Número de esos planetas orbitando dentro de la zona de habitabilidad de la estrella
ne (las órbitas cuya distancia a la estrella no sea tan próxima como para ser demasiado
calientes, ni tan lejana como para ser demasiado frías para poder albergar vida)
Fracción de esos planetas dentro de la zona de habitabilidad en los que la vida
fl
se ha desarrollado.
fi Fracción de esos planetas en los que la vida inteligente se ha desarrollado.
Fracción de esos planetas donde la vida inteligente ha desarrollado una tecnología
fc
e intenta comunicarse.
Lapso, medido en años, durante el que una civilización inteligente y comunicativa
L
puede existir
Cuadro 8.2: Detalles de la ecuación de Drake. N = R ∗ · fp · ne · fl · fi · fc · L
Alfredo Yerman Cortes Verbel.
8.1. PROBABILIDAD. 261
Actualmente es casi imposible precisar con exactitud algunos factores de su fór-
mula, como el número de planetas que pudieran albergar vida inteligente o, en un
paso más allá, cuántos de ellos contarían con la tecnología adecuada para comuni-
carse con la Tierra.
Aunque matemáticamente está bien formulada, la ecuación de Drake tal vez no
aporte nunca un resultado fidedigno acerca de si estamos solos o no. Sin embargo,
representa una aproximación teórica a tener en cuenta sobre una de las dudas más
recurrentes de la mente humana.
Para los más pesimistas, el resultado de la ecuación de Drake arrojará un solita-
rio 1. Es decir, estaríamos solos en el universo o no habría ninguna otra civilización
capaz de comunicarse con la nuestra. O, de haberla, tal vez no habríamos coincidido
en el mismo espacio-tiempo para permitir una interacción.
Drake y su equipo asignaron los siguientes valores a cada parámetro:
Valor Descripción
R∗ = 10 10 estrellas se forman cada año
fp = 0,5 La mitad de esas estrellas cuentan con planetas
ne = 2 Cada una de esas estrellas contiene dos planetas habitables
fl = 1 El 100 % de esos planetas desarrolla vida
fi = 0,01 Solo el 1 % albergaría vida inteligente
fc = 0,01 Solo el 1 % de tal vida inteligente se puede comunicar
L = 10000 Cada civilización duraría 10000 años trasmitiendo señales
Cuadro 8.3: N = 10 posibles civilizaciones detectables.
Desde que Drake publicó los valores anteriores dados a cada parámetro muchos
científicos han tenido considerables desacuerdos y han hecho sus propios cálculos
variando los valores de los parámetros.
La paradoja de Fermi.
La paradoja de Fermi es la aparente contradicción que hay entre las estimacio-
nes que afirman que hay una alta probabilidad de que existan otras civilizaciones
inteligentes en el universo observable y la ausencia de evidencia de dichas civili-
zaciones.
Enrico Fermi fue un astrofísico italiano, nacido en 1901, que gracias a sus apor-
taciones se hizo acreedor al Premio Nobel, es el responsable de plantear la paradoja
en cuestión. Se dice que la teoría surgió en 1950 cuando el científico realizó un co-
mentario referente a la ausencia de pruebas de vida extraterrestre.
Paradoja de Fermi: La creencia común de que el universo posee numerosas
civilizaciones avanzadas tecnológicamente, combinada con nuestras observacio-
nes que sugieren todo lo contrario, es paradójica, sugiriendo así que nuestro
Alfredo Yerman Cortes Verbel.
8.2. EVALUACIÓN POR COMPETENCIAS 262
conocimiento o nuestras observaciones son defectuosas o incompletas.
Esta trata de responder a la pregunta: ¿Somos los seres humanos la única civi-
lización avanzada en el Universo?. La ecuación de Drake para estimar el número de
civilizaciones extraterrestres con las que finalmente podríamos ponernos en contac-
to parece implicar que tal tipo de contacto no es extremadamente raro. La respuesta
de Fermi a esta conclusión es que si hubiera numerosas civilizaciones avanzadas
en nuestra galaxia entonces, ¿Dónde están? ¿Por qué no hemos encontrado trazas
de vida extraterrestre inteligente, por ejemplo, sondas, naves espaciales o transmi-
siones?.
8.2. Evaluación por competencias
8.2.1. Ejercicios de aplicación
1. Realice un resumen de la historia de la Probabilidad.
2. Escriba en no menos de 1000 palabras la importancia de la probabilidad hoy
en día.
3. ¿Qué relación tiene la I.A. (Inteligencia Artificial) y la Probabilidad?
4. ¿Cúal es la probabilidad de ganarse el premio mayor de la Loteria el Sinuano?
5. ¿Cúal es la probabilidad de ganarse el premio mayor de la Loteria el Super
Astro?
6. Según el Centro de Control y Prevención de Enfermedades de Estados Unidos,
las posibilidades de que nos caiga un rayo en un año dado son de cerca de 1
en 500000. Suponiendo que compras un billete de la lotería Baloto, ¿Que es
más probable, ganarte el premio mayor de la lotería baloto o que te caiga un
rayo?
7. Se sabe que en una bolsa llena de bolas la mitad son naranjas y la otra mitad
son verdes. Además, un tercio de todas las bolas son naranjas y, al mismo
tiempo, están marcadas con una señal. ¿Cuál es la probabilidad de que al
sacar una bola naranja, esta tenga la señal?
8. Si en una caja tenemos seis bolígrafos azules y tres bolígrafos negros, calcula
la probabilidad de sacar un solo bolígrafo azul y la probabilidad de sacar dos
bolígrafos azules consecutivamente.
Alfredo Yerman Cortes Verbel.
8.2. EVALUACIÓN POR COMPETENCIAS 263
Figura 8.14: Tomado de Enseñame de Ciencia,. [@Ensede-
Ciencia]. (2023, mayo 17). [Link]/7vnwlozpff. Twitter.
[Link]
Alfredo Yerman Cortes Verbel.
8.2. EVALUACIÓN POR COMPETENCIAS 264
9. ¿Cuál es la probabilidad condicionada de al tirar un dado obtener el número
4 dado que en el lanzamiento de una moneda salga cara?
10. Consultar la paradoja del La paradoja del falso positivo.
11. Tenemos tres concursantes, cada uno de los cuales ha elegido un cofre dis-
tinto. El presentador abre uno de los cofres vacíos, con lo que el concursante
correspondiente queda eliminado. Ahora, los dos restantes, que conocen la
solución al problema de Monty Hall, cambian sin dudar sus respectivos co-
fres para doblar sus posibilidades: pero esto es absurdo!Entre ambos tienen
siempre el 100 % de posibilidades, es imposible que doblen sus probabilidades
ambos a la vez. Por otro lado, no vemos que ninguno de los dos concursantes
pueda tener ventaja alguna sobre el otro...¿Qué sucede aquí?
12. De una baraja de 48 cartas se extraen simultáneamente dos de ellas. Calcular
la probabilidad de que:
a) Las dos sean copas.
b) Al menos una sea copa.
c) Una sea copa y la otra espada
13. Ante un examen de estadística , un estudiante sólo ha estudiado 15 de los 25
temas correspondientes a la materia del mismo. Éste se realiza en trayendo
al azar dos temas y dejando que el alumno escoja uno de los dos para ser
examinado del mismo. Hallar la probabilidad de que el alumno pueda elegir
en el examen uno de los temas estudiados.
14. Una clase está formada por 10 chicos y 10 chicas; la mitad de las chicas y la
mitad de los chicos han elegido francés como asignatura optativa.
a) ¿Cuál es la probabilidad de que una persona elegida al azar sea chico
o estudio francés?
b) ¿Y la probabilidad de que sea chica y no estudie francés ?
15. En una cierta etapa de una investigación criminal, el inspector a cargo está
convencido en un 60 % de la culpabilidad de cierto sospechoso. Supongamos,
sin embargo, que se descubre una nueva prueba que muestra que el delin-
cuente tiene una determinada característica. Si el 20 % de la población posee
esta característica, ¿qué tan seguro debe estar el inspector de la culpabilidad
del sospechoso ahora si resulta que el sospechoso tiene esta característica?
16. Una empresa tiene una fábrica en Estados Unidos que dispone de tres má-
quinas A, B y C, que producen envases para botellas de agua. Se sabe que
Alfredo Yerman Cortes Verbel.
8.2. EVALUACIÓN POR COMPETENCIAS 265
la máquina A produce un 40 % de la cantidad total, la máquina B un 30 %, y
la máquina C un 30 %. También se sabe que cada máquina produce envases
defectuosos. De tal manera que la máquina A produce un 2 % de envases de-
fectuosos sobre el total de su producción, la máquina B un 3 %, y la máquina
C un 5 %.
a) Si un envase ha sido fabricado por la fábrica de esta empresa en Estados
Unidos ¿Cuál es la probabilidad de que sea defectuoso?
b) Siguiendo con la pregunta anterior, si se adquiere un envase y este es
defectuoso ¿Cuáles es la probabilidad de que haya sido fabricado por la
máquina A? ¿Y por la máquina B? ¿Y por la máquina C?
17. En la clase de estadistica de grado 10, la probabilidad de que a un alumno
seleccionado al azar le guste el helado es del 70 %, mientras que la probabi-
lidad de que a un alumno le guste la torta es del 46 %. Además, se sabe que
la probabilidad de que a un alumno le guste la torta dado que le gusta el
helado es del 35 %. Calcular la probabilidad de que a un alumno le guste el
helado, dado que le gusta la torta.
8.2.2. Evaluando saberes
1. Si dado dos sucesos A y B, tene- d) 36 elementos.
mos que P(A) = 0,8 y P(B) es el
doble de P(A). entonces: 3. Si A es un suceso cualquiera tene-
mos que :
a) el suceso B es más seguro
a) P(A) = 1.
que el A.
b) P(A) = 0.
b) se han hecho doble número
de pruebas. c) 0 ≤ P(A) ≤ 1.
d) 0 < P(A) < 1.
c) no es posible el suceso B.
d) el suceso A esta incluido en 4. Sea D el suceso lanzar un dado y
el suceso B. obtener un número primo y par, en-
tonces:
2. Al lanzar dos dados y ver que nú-
meros se obtiene el espacio mues- a) P(D) = 0.
tral esta formado por : 1
b) P(D) = .
6
a) 2 elementos. 1
c) P(D) = .
b) 6 elementos. 3
1
c) 12 elementos. d) P(D) = .
2
Alfredo Yerman Cortes Verbel.
8.2. EVALUACIÓN POR COMPETENCIAS 266
5. Un suceso A = E−A se llama suce-
so contrario o complementario de 5, 2, 6, 5, 9, 5, 2, 8, 2, 2, 3, 5, 5, 5, 6, 8, 9
A. El suceso A = E − A es también
complementario de A, es decir, se .
verifica siempre y cuando no se ve-
rifique A. Ejemplo: Consideramos el 7. De la anterior información es co-
experimento que consiste en lanzar rrecto afirmar que:
un dado, si A = sacar par, tenemos a) se jugaron 18 partidos y el va-
A = {2, 4, 6}, el suceso contrario lor de la mediana de los goles
es A = {1, 3, 5}. Sea B y B suce- anotados es 6.
sos contrarios, entonces P(B) =
b) se jugaron 20 partidos y el va-
a) P B . lor de la mediana de los goles
anotados es 5.
b) 1 − P B .
c) P (B). c) se jugaron 20 partidos y el va-
lor de la mediana de los goles
d) P B − 1.
anotados es 6.
6. Los resultados al lanzar un dado d) se jugaron 18 partidos y el va-
200 veces vienen dados por la ta- lor de la mediana de los goles
bla 8.4. Si se sabe que la puntua- anotados es 5.
ción promedio es 3.6; los valores de
a y b son 8. La moda de las anotaciones reali-
zadas por partido es:
Resultado 1 2 3 4 5 6
fi a 32 35 33 b 35 a) 2.
b) 3.
Cuadro 8.4: Hallar los valores de a y b.
c) 5.
a) a = 29 y b = 36. d) 6.
b) a = 31 y b = 34.
RESPONDA LAS PREGUNTAS 9
c) a = 30 y b = 35. A LA 11 CON BASE EN LA SI-
d) a = 32 y b = 33. GUIENTE INFORMACIÓN.
Se ha realizado una encuesta en 60
RESPONDA LAS PREGUNTAS hogares en la que se les pregun-
7 A LA 8 CON BASE A LA SI- ta el no de individuos que conviven
GUIENTE INFORMACIÓN. en el domicilio habitualmente. Las
Mario recolectó una serie de datos respuestas obtenidas han sido ta-
que corresponde a los goles anota- buladas en la tabla del cuadro 8.5,
dos en cada partido de un torneo donde fi es la frecuencia absolu-
que se realizó en su escuela: ta, fir es la frecuencia relativa, Fi
Alfredo Yerman Cortes Verbel.
8.2. EVALUACIÓN POR COMPETENCIAS 267
es la frecuencia absoluta acumula- a) en el 75 % de los hogares con-
da y Fir es la frecuencia relativa viven cuatro o menos perso-
acumulada. nas.
Nº de Personas fi fir Fi Fir b) en el 53 % de los hogares con-
0 6 0, 1 6 0, 1 viven tres personas.
1 13 0, 22 19 0, 32 c) en el 13 % de los hogares con-
2 8 0, 13 27 0, 45 viven dos personas o menos.
3 5 0, 08 32 0, 53 d) en en 7 hogares conviven 5
4 13 0, 22 45 0, 75 personas o menos.
5 7 0, 12 52 0, 87
6 8 0, 13 60 1 RESPONDA LAS PREGUNTAS
12 A LA 15 CON BASE EN LA
Cuadro 8.5: Distrubución de frecuencias SIGUIENTE INFORMACIÓN.
de individuos que conviven en el domici-
lio Se quiere conformar un equipo pa-
ra practicar en unas olimpiadas in-
tercurso. Se han postulado 7 can-
9. De acuerdo al Cuadro 8.5, ¿Qué didatos y solamente se pueden es-
porcentaje de hogares está com- coger 4
puesta por 5 miembros?:
12. ¿Cuantos equipos distintos pueden
a) 7 %. conformarse?
b) 12 %. a) 1.
c) 52 %. b) 15.
d) 87 %. c) 20.
10. A partir del cuadro 8.5, tenemos d) 35.
que el porcentaje de hogares que
13. ¿Cual es la probabilidad de que
contiene 3 habitantes o menos es
una persona sea seleccionada para
de:
conformar el equipo?
a) 5 %. 1
a) .
b) 32 %. 7
1
c) 8 %. b) .
4
d) 53 %. 4
c) .
7
11. De acuerdo al Cuadro 8.5, podemos 4
decir que: d) .
35
Alfredo Yerman Cortes Verbel.
8.2. EVALUACIÓN POR COMPETENCIAS 268
14. Si se desea que cada una de cuantas maneras se puede formar
las personas que conforman el el comité si se desea que ninguno
equipo cumplan funciones distin- de los hermanos esté en el comité?:
tas, ¿Cuantas veces se aumenta el
número de posibles equipos que se a) 20 · 19 · 18.
pueden conformar respecto a los b) P320 .
equipos obtenidos sin que existan c) C320 .
funciones? d) P317 .
a) 4 veces. e) C317 .
b) 6 veces. 18. En una empresa se distribuyen 15
c) 12 veces. aparatos ortopédicos en tres líneas
d) 24 veces. diferentes, con 5 aparatos en cada
línea. si dos de los aparatos son
15. Si el comité se conforma por 5 per- defectuosos, la regla de la multipli-
sonas, la cantidad de posibilidades cación que explica de cuantas ma-
neras se pueden distribuir los apa-
3
a) se reduce a sus 5 partes. ratos en las 5 líneas, si los dos de-
b) aumentaria 2 veces. fectuosos quedan en la línea 1 es:
3
c) se aumentaría 5 partes. Línea 1 Línea 2 Línea 3
z }| { z}|{ z}|{
d) se disminuiría 2 veces. a) C22 · C313 · C210 · C55
Línea 1 Línea 2 Línea 3
16. Se tiene 5 libros de física, 3 de z}|{ z }| { z}|{
química, 7 de matemáticas, todos b) C513 · C22 · C38 · C55 .
ellos diferentes. ¿Cuantos arreglos Línea 1 Línea 2
z}|{ z}|{ z }| {
Línea 3
de tres libros que contengan un li- c) C513 · C58 · C22 · C33 .
bro de cada tema se pueden formar Línea 1 Línea 2 Línea 3
con todos los libros si primero van z }| { z }| { z }| {
los de física, seguidos por química d) C22 · C313 · C22 · C38 · C22 · C33 .
y matemáticas? :
RESPONDA LAS PREGUNTAS
a) 5 · 3 · 7. 19 A LA 20 CON BASE EN LA
SIGUIENTE INFORMACIÓN.
b) 5 · 5 · 5 · 3 · 3 · 3 · 7 · 7 · 7.
En un negocio se tienen los si-
c) 53 · 33 · 73.
guientes juegos de azar:
d) 5 + 3 + 7.
Juego 1: Lanzamiento de dos
17. Se va a formar un comité con pre- dados donde se gana si so ob-
sidente, secretario y tesorero, de tienen 7 u 11, sumando los
un grupo de 20 personas entre puntos de las caras superio-
las cuales hay tres hermanos. ¿de res de los dados.
Alfredo Yerman Cortes Verbel.
8.2. EVALUACIÓN POR COMPETENCIAS 269
Juego 2: Juego de reuleta di- 20. Respecto a la probabilidad de ga-
vidida en 7 regiones de igual nar en el juego 1 y el juego 2 es
área, numerada del 1 al 7. Se correcto afirmar que :
gira la ruleta y cuando se de-
tiene apunta a uno de los nú- a) la probabilidad de ganar el
meros. Si al girarla 3 veces en juego 2 es más de 2 veces de
2 de ellas se obtiene el mismo ganar en el juego 1.
número el jugador gana. b) la probabilidad de ganar el
juego 1 es mayor que la pro-
19. ¿Cual es la probabilidad de ganar
babilidad de ganar en el jue-
el juego 1?:
go 2, pero no alcanza al doble.
1
a) . c) las probabilidades de ganar
11 en los dos juegos son iguales.
2
b) . d) las probabilidades de ganar
11
1 en los dos juegos no son com-
c) . parables, porque en el juego 1
9
2 se tienen dados y en el juego
d) . 2 una ruleta.
9
8.2.3. Evaluación de Competencias Lectoras
Con base en la lectura MIEDOS A LA IZQUIERDA: YO, ANTES DE TI de César
Brandon reponda las preguntas.
MIEDOS A LA IZQUIERDA: YO, ANTES DE TI3 .
Alma N°86
Uno no quería contar con nadie. Y Uno no entendía porque era impar, si antes
de él, había alguien. Uno no quería contar con nadie. Y uno sentía que después de él
venia el infinito y, a uno lo sempiterno le daba miedo. Así que Uno, muerto de pavor,
se fijó en Cero. Y cuando Uno vio a Cero pensó que Cero era el número más bonito
que había visto y, que, aun viniendo antes de él, era... entero. Uno pensó que aquello
era amor verdadero; que en Cero había encontrado a su par. Y Uno sintió que ya
nunca más podría vivir sin Cero, así que decidió ser sincero con Cero y decirle que,
aunque era una Cero a la izquierda era el Cero que le daría valor y sentido a su
vida. Eso de ser primero ya no le iba y, le dio a Cero una gran bienvenida. Juntos
eran pura alegría. Se completaban. Uno tenía cero tolerancias al alcohol, pero con
Cero se podía tomar una cerveza cero por su aniversario, aunque para eso tuviesen
que inventarse un día cero en el calendario.
3
César Brandon Ndjocu. (2018). Alma N°86: Miedos a la izquierda: yo, antes de ti. En Las Almas
de Brandon (5.a ed., pp. 199-201). Planeta Colombia S.A.
Alfredo Yerman Cortes Verbel.
8.2. EVALUACIÓN POR COMPETENCIAS 270
Cero era algo cerrada y le costaba representar textos, pero junto a Uno hacían
el perfecto código binario. Eran los putos dígitos del barrio y, procesaban el amor a
diario. Pero, uno no sabe lo que tiene hasta que lo pierde. Pues, Uno perdió a Cero.
Y para cuando Uno se dio cuenta, Cero ya contaba de la mano con Menos Uno, que
a pesar de ser algo negativo le trataba como a una reina. A Cero le encantaba que
a Menos Uno fuera original, que ella tuviese un hueco y el un pequeño guion con el
que podían jugar. A Cero le gustaba que Menos Uno no fuera uno más, que Menos
Uno no fuera... ordinal; que fuera justamente competitivo y que cuando jugasen al
uno menos uno no le dejase ganar. Cero sentía que Menos Uno si la trataba como
un número de verdad. Y Menos Uno...bueno. Nunca ponía peros; ni pretendía darle
valor a Cero poniendo comas entre ellos.
Menos Uno no tenía complejos. Y cuando hacían el amor, a Menos Uno le en-
cantaba estar bajo Cero. Así que Uno, una vez más volvió a quedarse solo, separado,
como una unidad. Sin Cero, su vida se consumía como una vela. Sin Cero, el tiempo
de él hacía mella. Se dio cuenta de que acostumbrarse era otra forma de morir, que
él se había acostumbrado a vivir con Cero y le pidió disculpa a la vida por todas
las veces en las que se había acostumbrado a.. . . ellas. Y Uno empezó a contar, pero
sin Cero. Se olvidó de los besos de Cero; del seso de Cero; del sexo con Cero; de
los celos de Cero y hasta de los "te quiero"de Cero. Uno se olvidó de Cero y le dijo
adiós. Uno se olvidó de Cero y tal vez hasta del amor. Y comenzó a contar, hacia lo
que más miedo le daba, hasta el infinito, o ¿tal vez hasta dos?
1. La palabra sempiterno en el primer párrafo del texto significa:
a) que se acaba pronto.
b) que está cerca.
c) aquello perenne.
d) aquello lejano.
2. En la Expresión que en Cero había encontrado a su par quiere decir que:
a) cero es un número par.
b) Uno es un número par.
c) Cero y Uno son un solo número.
d) Cero y Uno forman una pareja.
3. El tipo de relación entre Cero y Uno era de tipo:
a) homosexual, Uno y Cero representan al género femenino.
b) heterosexual, Uno representaba un personaje de género masculino y Cero
de género femenino.
Alfredo Yerman Cortes Verbel.
8.2. EVALUACIÓN POR COMPETENCIAS 271
c) heterosexual, Uno representaba un personaje se género femenino y Cero
de género masculino.
d) homosexual, Uno y Cero representan al género masculino.
4. Uno es impar; tal afirmación es:
a) Falsa, dado que Uno y Cero son pares consecutivos.
b) Verdadera, dado que Uno sabia de su condición de impar, aunque no la
entendía.
c) Falsa, dado que Uno y Cero son impares consecutivos.
d) Verdadera, dado que uno estaba solo y no quería estar con nadie.
LA CORUJA Y LOS PÁJAROS4
Manuel heredó de sus padres una pequeña parcela de terreno, de apenas un
par de celemines5 , con un pajero6 , que hoy le sirve de cuarto de aperos y pequeña
bodega, al que de vez en cuando me invita a probar sus buenos vinos con sabor a
tea. Estábamos charlando, como casi siempre, de las cosas de la naturaleza, cuando
nos sorprendió el aletear de un gran número de pájaros. No daba crédito a lo que
veía: una bandada de pájaros de distintas especies perseguía amenazadoramente
a una coruja7 , que pudo escabullirse entre las frondes de grandes helechos que
cubrían un risco próximo.
Sonriendo, Manuel me comentó que él creía saber la razón de tales hechos, y
sin que yo se lo pidiera, pero conocedor de mi curiosidad por sus relatos, a veces
no exentos de fantasía, comenzó a contarme lo que sigue: «Hace algún tiempo,
esas aves perseguidoras se reunieron con las rapaces de esta zona con el fin de
establecer algunas normas que pudieran garantizar la supervivencia de todas las
especies. Por los acuerdos alcanzados, se le asignó a cada rapaz los lugares de
caza, se fijó la frecuencia de captura y se puso la condición de que las aves que se
podían cazar sólo fueran enfermas o debiluchas, y que completaran su alimentación
4
Tomado de José Antonio Martín Corujo. (2020). LA CORUJA Y LOS PÁJAROS. En Cuentos y
Matemáticas. Materiales Curriculares Innova. (TENYDEA, S. L.-Tlfno.: 922 23 75 60-Santa Cruz
de Tenerife., pp. 24-27). LA DIRECCIÓN GENERAL DE ORDENACIÓN E INNOVACIÓN EDU-
CATIVA DE LA CONSEJERÍA DE EDUCACIÓN, CULTURA Y DEPORTES DEL GOBIERNO
DE CANARIAS. [Link]
content/uploads/sites/20/2016/10/[Link]
5
El celemín es una medida agraria que se utilizaba en algunas partes de España antes de que
fuera obligatorio el sistema métrico decimal. En Galicia se conoce como ferrado, aunque la unidad de
superficie varía de unas zonas a otras. en la isla de La Palma se sigue utilizando como medida de
superficie. Aproximadamente equivalente a 5.247,63 m2.
6
Construcción rústica campesina. Su uso fundamental es servir de habitáculo del ganado.
7
Búho chico, ave rapaz nocturna de mediano tamaño, de colores en general pardos y marrones,
aunque con zonas de motas oscuras y claras, pico corvo y ojos amarillentos colocados en la parte
anterior de la cabeza, sobre la cual tiene unas plumas alzadas que figuran orejas.
Alfredo Yerman Cortes Verbel.
8.2. EVALUACIÓN POR COMPETENCIAS 272
con roedores». Aquí, en mi terreno –prosiguió Manuel–, a esa coruja que acabas
de ver le corresponde cazar un pájaro cada 7 días y un roedor cada 5. Suele ser
bastante cumplidora con los acuerdos establecidos, pero de vez en cuando, el mismo
día caza un pájaro y un roedor, lo cual enfurece a los demás pájaros, y ese es el
motivo del enfado y del acoso a la coruja que acabamos de ver. Sin embargo, dada
esa sabiduría que siempre se le ha atribuido a las corujas, yo creo que tiene razón,
que ella no hace otra cosa que cumplir los acuerdos y, ciertos días, tiene derecho
a comerse un pájaro y un roedor. De seguir así las cosas, no le va a quedar otro
remedio que acudir ante el Defensor Alado».
De vuelta a mi casa estuve cavilando sobre si la coruja tenía o no razón. Hice
cálculos para saber cuántos días después se volvería a repetir la extraña persecu-
ción, con la intención de volver al terreno de Manuel y contemplarla. ¿Por qué no
lo intentan ustedes?
1. Si la coruja caza un roedor y un ave hoy, volverá a cazar nuevamente un
roedor y un ave dentro de
a) 2 días.
b) 1.4 días.
c) 12 días.
d) 35 días.
2. El mes de enero tiene 31 días, si una coruja caza un roedor y un ave el
domingo primero de enero, volverá a cazar dos presas un día:
a) jueves.
b) viernes.
c) sábado.
d) domingo.
3. Si una coruja caza un roedor y un ave el domingo primero de enero, a lo largo
de un año, una coruja comerá:
a) más roedores que aves, dado que en un año comerá alrededor de 52 aves
y 73 roedores.
b) más aves que roedores, dado que en un año comerá alrededor de 73 aves
y 52 roedores.
c) igual número de aves que de roedores, es decir comerá aproximadamente
10 aves y roedores.
d) menos aves que roedores, dado que en un año comerá alrededor de 73
aves y 52 roedores.
Alfredo Yerman Cortes Verbel.
8.2. EVALUACIÓN POR COMPETENCIAS 273
4. ¿Podemos decir que la coruja está incumpliendo los acuerdos?
a) Si, al tener frecuencias de caza distintas nunca coinciden los días de
caza.
b) No, porque el mínimo común múltiplo de 7 y 5 es 35, es decir, cada 35
días coinciden los días de caza.
c) Si, porque al ser 5 y 7 números primos, estos no tienen divisores comunes.
d) No, porque al adicionar 7 días y 5 días, obtenemos 12 días, es decir, cada
12 días coinciden los días de caza.
Alfredo Yerman Cortes Verbel.
274
9.1. EJERCICIOS 275
9. SCRIPTS EN R.
Los estadistas, como los artistas,
tienen la mala costumbre de
enamorarse de sus modelos.
George E.P. Box
George Edward Pelham Box (18 de octubre de 1919 – 28 de marzo de 2013) fue
un estadístico británico que trabajó en las áreas de control de calidad, análisis de
series temporales, diseño de experimentos, y la inferencia bayesiana, es considerado
como una de las mentes más brillantes de la estadística del siglo XX. Fue autor,
junto con George C. Tiao, del celebrado “Bayesian Inference in Statistical Analysis”
libro de cabecera de muchos estadísticos.
9.1. Ejercicios
En esta sección se utilizara R software, que es un entorno y lenguaje de pro-
gramación diseñado para el análisis estadístico, es un ambiente de programación
formado por un conjunto de herramientas muy flexibles que pueden ampliarse fácil-
mente mediante paquetes, librerías o definiendo nuestras propias funciones. Además
es gratuito y de código abierto. Para trabajar con el software R se usa R-Studio,
este es un entorno de desarrollo integrado (IDE) para el lenguaje de programación
R, dedicado a la computación estadística y gráficos. Incluye una consola, editor de
sintaxis que apoya la ejecución de código, así como herramientas para el traza-
do, la depuración y la gestión del espacio de trabajo. La versión R en la que se
han corrido todos los Script de este módulo es R version 4.3.0 (2023-04-21 ucrt)
1
Esta sección perfectamente podría ser omitida dado que con el advenimiento de las Inteligencias
Artificiales (I.A.) cualquiera, usando las aplicaciones disponibles en la web en cuestión de segundos
puede realizar los Script; pero pensando en los muchos estudiantes que carecen de las competencias
mínimas en programación se opta por incluirla y desarrollar los Script lo más sencillos posible.
Alfredo Yerman Cortes Verbel.
9.1. EJERCICIOS 276
Copyright (C) 2023 The R Foundation for Statistical Computing Platform: x86 _
64-w64-mingw32/x64 (64-bit) y la versión de R-Studio es RStudio 2023.03.1+446
Cherry Blossom.
Aunque no lo parezca resulta mucho más provechoso y facil hacer el manejo de
datos en un software de calculo numérico como R-Studio en lugar de usar suite
ofimáticas como Excel. R posee mayor capacidad estadística que Excel.
Ejemplo 9.1
Script en R-Studio que calcula
1000
X
5i3 + 4i2 − 6i − 9
i=1
Script en R Studio
1 #Sumatoria desde i =1 h a s t a 0=5000 de 5 i ^3+4 i ^2 =6 i =9
2 sum=0
3 for ( i in 1:5000)
4 {sum=sum+5∗ i ^3+4∗ i ^2 =6∗ i =9
5 }
6 sum
7 p r i n t ( sum )
El resultado que obtenemos es:
1 > p r i n t ( sum )
2 [ 1 ] 7 . 8 1 7 2 9 2 e+14
Otra forma de resolver el ejemplo anterior es definiendo una función en R-
Studio y luego evaluandola para el valor deseado:
Script en R Studio
1 # D e f i n i r una f u n c i o n que c a l c u l e l a s u m a t o r i a de 5 i ^3+4 i ^2 =6 i =9
2 sum = f u n c t i o n ( n ) {
3 sum = 0
4 for ( i in 1: n ) {
5 sum= sum + 5∗ i ^3+4∗ i ^2 =6∗ i =9
6 }
7 r e t u r n ( sum )
8 }
9 sum ( 5 0 0 0 )
Existe una gran cantidad de funciones, comandos y librerías en R-Studio que
realizan y simplifican los cálculos anteriores,algunas de estas serán usadas más
adelante; pero lo que se pretende es aplicar los conceptos estudiados a través de
Alfredo Yerman Cortes Verbel.
9.1. EJERCICIOS 277
la programación en R.
Ejemplo 9.2
Dada la varia aleatoria T Temperatura medida en grados centigrados, tomada a
un grupo de 100 estudiantes de la grado 10 de IESAS, realizar el histograma de
frecuencias.
37,8- 37,7- 36,2- 37,4- 38,9- 35,5- 37,0- 36,4- 37,9- 36,2- 35,8- 35,6- 37,1- 35,8-
36,8- 37,6- 37,5- 36,9- 35,8- 38,0- 38,1- 38,6- 35,5- 35,6- 37,2- 36,3- 37,4- 37,2-
35,4- 36,8- 36,1- 38,5- 38,2- 36,7- 36,9 - 36,6 - 36,1- 35,7- 36,7- 35,4- 37,4- 37,4-
36,0- 36,2- 37,0- 39,0- 38,6- 35,3- 37,2- 37,5- 38,0- 37,8- 35,7- 38,9- 35,9 - 35,8 -
38,9- 38,6 - 36,1 - 38,2- 35,9 - 37,7- 39,0 - 36,8 - 35,2 - 38,5 - 35,1 - 36,1 - 35,8 -
36,5- 35,3- 37,2 - 37,2- 38,0- 37,7- 35,2- 38,1- 37,3- 38,3- 35,5- 37,7 - 35,8- 36,8-
38,0 - 35,9- 38,1- 38,9- 37,7 - 36,7 36,2- 36,7- 36,0 35,4- 37,5- 37,5- 36,8- 38,3-
36,3- 38,1 - 38,8
Script en R Studio
1 T=c ( 3 6 . 0 , 37.9 , 37.7 , 37.9 , 38.7 , 38.3 , 36.2 , 35.3 ,
38.5 , 35.9 , 35.3 , 37.1 , 37.4 , 39.0 , 36.5 , 36.4 ,
35.9 , 37.2 , 35.7 , 36.6 , 37.1 , 37.4 , 36.2 , 37.5 ,
38.8 , 37.2 , 35.6 , 38.5 , 36.8 , 35.2 , 38.0 , 36.5 ,
35.7 , 38.2 , 37.0 , 36.0 , 38.9 , 38.2 , 36.6 , 37.8 ,
36.1 , 35.9 , 38.6 , 36.8 , 35.8 , 35.4 , 37.3 , 37.5 ,
36.6 , 37.2 , 37.1 , 35.8 , 38.9 , 35.6 , 38.6 , 38.6 ,
37.5 , 38.1 , 36.7 , 38.4 , 38.2 , 36.9 , 37.2 , 37.0 ,
38.2 , 35.8 , 36.2 , 35.5 , 38.5 , 38.6 , 37.7 , 37.5 ,
35.1 , 38.9 , 36.0 , 38.5 , 38.5 , 36.2 , 35.4 , 35.2 ,
38.2 , 38.6 , 35.6 , 37.4 , 36.1 , 37.0 , 36.2 , 36.6 ,
38.9 , 37.4 , 37.4 , 38.6 , 37.1 , 37.3 , 37.4 , 35.1 ,
35.1 , 36.3 , 35.4 , 35.9)
2 n=l e n g t h ( T )
3 k<= n c l a s s . S t u r g e s ( T )
4 i n t e r v a l o s<= c u t ( x , b r e a k s = k )
5 rango<=max ( T )=min ( T )
6 a<=rango / k
7 h i s t o g r a m a=h i s t ( x , b r e a k s = seq ( min ( T ) , max ( T ) , by=a ) )
8 library ( agricolae )
9 Tabla _ F r e c u e n c i a s =( t a b l e . f r e q ( h i s t o g r a m a ) )
10 Tabla _ F r e c u e n c i a s
El resultado obtenido es:
1 Lower Upper Main Frequency P e r c e n t a g e CF CPF
2 1 35.1000 35.5875 35.34375 11 11 11 11
3 2 35.5875 36.0750 35.83125 15 15 26 26
4 3 36.0750 36.5625 36.31875 11 11 37 37
5 4 36.5625 37.0500 36.80625 11 11 48 48
6 5 37.0500 37.5375 37.29375 20 20 68 68
7 6 37.5375 38.0250 37.78125 6 6 74 74
Alfredo Yerman Cortes Verbel.
9.1. EJERCICIOS 278
8 7 38.0250 38.5125 38.26875 13 13 87 87
9 8 38.5125 39.0000 38.75625 13 13 100 100
la gráfica que se genera esta dada en la figura 9.1
Figura 9.1: Histograma de frecuencia de la variable aleatoria T , realizada en R-
Studio
Ejemplo 9.3
Para el conjunto de datos de la variable aleatoria del ejemplo anterior, realizar
un scrit que calcule el promedio.
Script en R Studio
1 #C a l u l a r l a media de un c o n j u n t o de d a t o s
2 T=c ( 3 6 . 0 , 3 7 . 9 , 3 7 . 7 , 3 7 . 9 , 3 8 . 7 , 3 8 . 3 , 3 6 . 2 , 3 5 . 3 , 3 8 . 5 , 3 5 . 9 , 3 5 . 3 ,
Alfredo Yerman Cortes Verbel.
9.1. EJERCICIOS 279
37.1 , 37.4 , 39.0 , 36.5 , 36.4 , 35.9 , 37.2 , 35.7 , 36.6 , 37.1 , 37.4 ,
36.2 , 37.5 , 38.8 , 37.2 , 35.6 , 38.5 , 36.8 , 35.2 , 38.0 , 36.5 , 35.7 ,
38.2 , 37.0 , 36.0 , 38.9 , 38.2 , 36.6 , 37.8 , 36.1 , 35.9 , 38.6 , 36.8 ,
35.8 , 35.4 , 37.3 , 37.5 , 36.6 , 37.2 , 37.1 , 35.8 , 38.9 , 35.6 , 38.6 ,
38.6 , 37.5 , 38.1 , 36.7 , 38.4 , 38.2 , 36.9 , 37.2 , 37.0 , 38.2 , 35.8 ,
36.2 , 35.5 , 38.5 , 38.6 , 37.7 , 37.5 , 35.1 , 38.9 , 36.0 , 38.5 , 38.5 ,
36.2 , 35.4 , 35.2 , 38.2 , 38.6 , 35.6 , 37.4 , 36.1 , 37.0 , 36.2 , 36.6 ,
38.9 , 37.4 , 37.4 , 38.6 , 37.1 , 37.3 , 37.4 , 35.1 , 35.1 , 36.3 , 35.4 ,
35.9)
3 sum=0
4 n=l e n g t h ( T )
5 for ( i in 1: n )
6 {sum=sum+T [ i ]
7 }
8 Promedio=sum / n
9 p r i n t ( Promedio )
Lo cual arroja el siguiente resultado
1 > #C a l u l a r l a media de un c o n j u n t o de d a t o s
2 > T=c ( 3 6 . 0 , 3 7 . 9 , 3 7 . 7 , 3 7 . 9 , 3 8 . 7 , 3 8 . 3 , 3 6 . 2 , 3 5 . 3 , 3 8 . 5 , 3 5 . 9 ,
35.3 , 37.1 , 37.4 , 39.0 , 36.5 , 36.4 , 35.9 , 37.2 , 35.7 , 36.6 , 37.1 ,
37.4 , 36.2 , 37.5 , 38.8 , 37.2 , 35.6 , 38.5 , 36.8 , 35.2 , 38.0 , 36.5 ,
35.7 , 38.2 , 37.0 , 36.0 , 38.9 , 38.2 , 36.6 , 37.8 , 36.1 , 35.9 , 38.6 ,
36.8 , 35.8 , 35.4 , 37.3 , 37.5 , 36.6 , 37.2 , 37.1 , 35.8 , 38.9 , 35.6 ,
38.6 , 38.6 , 37.5 , 38.1 , 36.7 , 38.4 , 38.2 , 36.9 , 37.2 , 37.0 , 38.2 ,
35.8 , 36.2 , 35.5 , 38.5 , 38.6 , 37.7 , 37.5 , 35.1 , 38.9 , 36.0 , 38.5 ,
38.5 , 36.2 , 35.4 , 35.2 , 38.2 , 38.6 , 35.6 , 37.4 , 36.1 , 37.0 , 36.2 ,
36.6 , 38.9 , 37.4 , 37.4 , 38.6 , 37.1 , 37.3 , 37.4 , 35.1 , 35.1 , 36.3 ,
35.4 , 35.9)
3 > sum=0
4 > n=l e n g t h ( T )
5 > for ( i in 1: n )
6 + {sum=sum+T [ i ]
7 + }
8 > Promedio=sum / n
9 > p r i n t ( Promedio )
10 [ 1 ] 37.039
Tambien se puede usar la función mean
1 #C a l u l a r l a media de un c o n j u n t o de d a t o s
2 T=c ( 3 6 . 0 , 37.9 , 37.7 , 37.9 , 38.7 , 38.3 , 36.2 , 35.3 , 38.5 , 35.9 , 35.3 ,
37.1 , 37.4 , 39.0 , 36.5 , 36.4 , 35.9 , 37.2 , 35.7 , 36.6 , 37.1 , 37.4 ,
36.2 , 37.5 , 38.8 , 37.2 , 35.6 , 38.5 , 36.8 , 35.2 , 38.0 , 36.5 , 35.7 ,
38.2 , 37.0 , 36.0 , 38.9 , 38.2 , 36.6 , 37.8 , 36.1 , 35.9 , 38.6 , 36.8 ,
35.8 , 35.4 , 37.3 , 37.5 , 36.6 , 37.2 , 37.1 , 35.8 , 38.9 , 35.6 , 38.6 ,
38.6 , 37.5 , 38.1 , 36.7 , 38.4 , 38.2 , 36.9 , 37.2 , 37.0 , 38.2 , 35.8 ,
36.2 , 35.5 , 38.5 , 38.6 , 37.7 , 37.5 , 35.1 , 38.9 , 36.0 , 38.5 , 38.5 ,
36.2 , 35.4 , 35.2 , 38.2 , 38.6 , 35.6 , 37.4 , 36.1 , 37.0 , 36.2 , 36.6 ,
38.9 , 37.4 , 37.4 , 38.6 , 37.1 , 37.3 , 37.4 , 35.1 , 35.1 , 36.3 , 35.4 ,
Alfredo Yerman Cortes Verbel.
9.1. EJERCICIOS 280
35.9)
3 Promedio=mean ( T )
4 p r i n t ( Promedio )
Ejemplo 9.4
Para la V.A. (Variable aleatoria) temperatura del ejercicio anterior realizar un
Script que calcule la mediana, la moda.
Script en R Studio
1 T=c ( 3 6 . 0 , 3 7 . 9 , 3 7 . 7 , 3 7 . 9 , 3 8 . 7 , 38.3 , 36.2 , 35.3 , 38.5 , 35.9 , 35.3 ,
37.1 , 37.4 , 39.0 , 36.5 , 36.4 , 35.9 , 37.2 , 35.7 , 36.6 , 37.1 , 37.4 ,
36.2 , 37.5 , 38.8 , 37.2 , 35.6 , 38.5 , 36.8 , 35.2 , 38.0 , 36.5 , 35.7 ,
38.2 , 37.0 , 36.0 , 38.9 , 38.2 , 36.6 , 37.8 , 36.1 , 35.9 , 38.6 , 36.8 ,
35.8 , 35.4 , 37.3 , 37.5 , 36.6 , 37.2 , 37.1 , 35.8 , 38.9 , 35.6 , 38.6 ,
38.6 , 37.5 , 38.1 , 36.7 , 38.4 , 38.2 , 36.9 , 37.2 , 37.0 , 38.2 , 35.8 ,
36.2 , 35.5 , 38.5 , 38.6 , 37.7 , 37.5 , 35.1 , 38.9 , 36.0 , 38.5 , 38.5 ,
36.2 , 35.4 , 35.2 , 38.2 , 38.6 , 35.6 , 37.4 , 36.1 , 37.0 , 36.2 , 36.6 ,
38.9 , 37.4 , 37.4 , 38.6 , 37.1 , 37.3 , 37.4 , 35.1 , 35.1 , 36.3 , 35.4 ,
35.9)
2 Moda = names ( which . max ( t a b l e ( T ) ) )
3 Mediana=median ( T )
4 p r i n t ( Moda )
5 p r i n t ( Mediana )
Lo cual nos muestra:
1 > p r i n t ( Moda )
2 [ 1 ] " 37.4 "
3 > p r i n t ( Mediana )
4 [ 1 ] 37.1
Ejemplo 9.5
Dados los datos de la V.A. P1001=Peso medido en kilogramos de los estudian-
tes de grado 10-01 y P1002=Peso medido en kilogramos de los estudiantes de
grado 10-02, realizar un diagrama de caja y bigote que compare los pesos de los
estudiantes de los dos cursos.
P1001 = 53.9, 60.9, 57.6, 53.7, 56.5, 53.1, 50.5, 51.6, 59.2, 58.1, 50.3, 55.8, 56.0, 50.6,
54.3, 58.4, 60.9, 59.5, 54.3, 57.3, 56.5, 58.8, 58.5, 57.0, 57.8, 51.0, 59.0, 53.0, 52.4, 51.4,
60.6, 51.5, 52.0, 55.0, 60.6, 50.3, 51.1, 56.8, 51.9, 50.7
P1002 = 60.4, 57.2, 46.4, 53.0, 61.0, 46.8, 51.7, 63.1, 59.2, 55.5, 47.4, 57.2, 53.3, 51.5,
60.9, 58.5, 45.7, 63.3, 56.9, 52.5, 58.2, 56.0, 65.5, 53.4, 51.3, 46.4, 55.1, 61.8, 47.3, 62.8,
49.3, 45.2, 48.0, 47.9, 51.8, 61.2, 47.8, 60.4, 64.6, 50.5, 49.5, 49.8, 64.2, 55.9
Alfredo Yerman Cortes Verbel.
9.1. EJERCICIOS 281
Script en R Studio
1 P1001 = c ( 5 3 . 9 , 6 0 . 9 , 57.6 , 53.7 , 56.5 , 53.1 , 50.5 , 51.6 ,
59.2 , 58.1 , 50.3 , 55.8 , 56.0 , 50.6 , 54.3 , 58.4 ,
60.9 , 59.5 , 54.3 , 57.3 , 56.5 , 58.8 , 58.5 , 57.0 ,
57.8 , 51.0 , 59.0 , 53.0 , 52.4 , 51.4 , 60.6 , 51.5 ,
52.0 , 55.0 , 60.6 , 50.3 , 51.1 , 56.8 , 51.9 , 50.7)
2 P1002 = c ( 6 0 . 4 , 5 7 . 2 , 46.4 , 53.0 , 61.0 , 46.8 , 51.7 , 63.1 ,
59.2 , 55.5 , 47.4 , 57.2 , 53.3 , 51.5 , 60.9 , 58.5 ,
45.7 , 63.3 , 56.9 , 52.5 , 58.2 , 56.0 , 65.5 , 53.4 ,
51.3 , 46.4 , 55.1 , 61.8 , 47.3 , 62.8 , 49.3 , 45.2 ,
48.0 , 47.9 , 51.8 , 61.2 , 47.8 , 60.4 , 64.6 , 50.5 ,
49.5 , 49.8 , 64.2 , 55.9)
3 b o x p l o t ( P1001 , P1002 , h o r i z o n t a l = TRUE , names = c ( " 10 =01 " , " 10 =02 " ) , main=
" Pesos de l o s C u rs o s 10 =01 y 10 =02 " , c o l= " L i g h t S a l m o n " )
La figura 9.2 muestra el resultado obtenido
Figura 9.2: Diagrama de caja y bigotes de dos grupos de estudiantes de grado 10
Alfredo Yerman Cortes Verbel.
9.1. EJERCICIOS 282
Para los siguientes ejemplos primero se construirá la función y luego se utilizará
una de las que R-Studio trae por defecto
Ejemplo 9.6
Con los datos de la V.A. P1001 calcular los cuartiles
Script en R Studio
1 P1001 = c ( 5 3 . 9 , 6 0 . 9 , 57.6 , 53.7 , 56.5 , 53.1 , 50.5 , 51.6 ,
59.2 , 58.1 , 50.3 , 55.8 , 56.0 , 50.6 , 54.3 , 58.4 ,
60.9 , 59.5 , 54.3 , 57.3 , 56.5 , 58.8 , 58.5 , 57.0 ,
57.8 , 51.0 , 59.0 , 53.0 , 52.4 , 51.4 , 60.6 , 51.5 ,
52.0 , 55.0 , 60.6 , 50.3 , 51.1 , 56.8 , 51.9 , 50.7)
2 n=l e n g t h ( P1001 )
3 Datos _ Ordenados=P1001 [ o r d e r ( P1001 ) ]
4 Q_1=Datos _ Ordenados [ ( n+1) ∗ 25 / 1 0 0 ]
5 p r i n t (Q_ 1 )
6 Q_2=Datos _ Ordenados [ ( n+1) ∗ 30 / 1 0 0 ]
7 p r i n t (Q_ 2 )
8 Q_3=Datos _ Ordenados [ ( n+1) ∗ 75 / 1 0 0 ]
9 p r i n t (Q_ 3 )
Lo cual da como resultado
1 > p r i n t (Q_ 1 )
2 [ 1 ] 51.6
3 > Q_2=Datos _ Ordenados [ ( n+1) ∗ 30 / 1 0 0 ]
4 > p r i n t (Q_ 2 )
5 [ 1 ] 52
6 > Q_3=Datos _ Ordenados [ ( n+1) ∗ 75 / 1 0 0 ]
7 > p r i n t (Q_ 3 )
8 [ 1 ] 58.1
Ejemplo 9.7
Con los datos de la V.A. P1002 calcular los cuartiles
Script en R Studio
1 P1002 = c ( 6 0 . 4 , 5 7 . 2 , 46.4 , 53.0 , 61.0 , 46.8 , 51.7 , 63.1 ,
59.2 , 55.5 , 47.4 , 57.2 , 53.3 , 51.5 , 60.9 , 58.5 ,
45.7 , 63.3 , 56.9 , 52.5 , 58.2 , 56.0 , 65.5 , 53.4 ,
51.3 , 46.4 , 55.1 , 61.8 , 47.3 , 62.8 , 49.3 , 45.2 ,
48.0 , 47.9 , 51.8 , 61.2 , 47.8 , 60.4 , 64.6 , 50.5 ,
49.5 , 49.8 , 64.2 , 55.9)
2 Q_1= q u a n t i l e ( P1002 , c ( 0 . 2 5 ) , t y p e = 6 )
3 Q_1
4 Q_2 = q u a n t i l e ( P1002 , c ( 0 . 5 0 ) , t y p e = 6 )
5 Q_2
Alfredo Yerman Cortes Verbel.
9.1. EJERCICIOS 283
6 Q_3 = q u a n t i l e ( P1002 , c ( 0 . 7 5 ) , t y p e = 6 )
7 Q_3
Lo cual da como resultado
1 > P1002 = c ( 6 0 . 4 , 57.2 , 46.4 , 53.0 , 61.0 , 46.8 , 51.7 ,
63.1 , 59.2 , 55.5 , 47.4 , 57.2 , 53.3 , 51.5 , 60.9 ,
58.5 , 45.7 , 63.3 , 56.9 , 52.5 , 58.2 , 56.0 , 65.5 ,
53.4 , 51.3 , 46.4 , 55.1 , 61.8 , 47.3 , 62.8 , 49.3 ,
45.2 , 48.0 , 47.9 , 51.8 , 61.2 , 47.8 , 60.4 , 64.6 ,
50.5 , 49.5 , 49.8 , 64.2 , 55.9)
2 > Q_1= q u a n t i l e ( P1002 , c ( 0 . 2 5 ) , t y p e = 6 )
3 > Q_1
4 25 %
5 49.35
6 > Q_2 =q u a n t i l e ( P1002 , c ( 0 . 5 0 ) , t y p e = 6 )
7 > Q_2
8 50 %
9 54.25
10 > Q_3 = q u a n t i l e ( P1002 , c ( 0 . 7 5 ) , t y p e = 6 )
11 > Q_3
12 75 %
13 60.4
Ejemplo 9.8
Calular los Percentiles del conjunto de datos de la V.A. P1002
Script en R Studio
1 P1002 = c ( 6 0 . 4 , 5 7 . 2 , 46.4 , 53.0 , 61.0 , 46.8 , 51.7 , 63.1 ,
59.2 , 55.5 , 47.4 , 57.2 , 53.3 , 51.5 , 60.9 , 58.5 ,
45.7 , 63.3 , 56.9 , 52.5 , 58.2 , 56.0 , 65.5 , 53.4 ,
51.3 , 46.4 , 55.1 , 61.8 , 47.3 , 62.8 , 49.3 , 45.2 ,
48.0 , 47.9 , 51.8 , 61.2 , 47.8 , 60.4 , 64.6 , 50.5 ,
49.5 , 49.8 , 64.2 , 55.9)
2 P e r c e n t i l e s = q u a n t i l e ( P1002 , c ( 0 . 1 , 0 . 2 , 0 . 3 , 0 . 4 0 , 0 . 5 , 0.60 ,0.7 ,
0 . 8 0 , 0 . 9 ) , type = 6)
3 Percentiles
Lo cual da como resultado
1 > P e r c e n t i l e s = q u a n t i l e ( P1002 , c ( 0 . 1 , 0 . 2 , 0 . 3 , 0 . 4 0 , 0 . 5 , 0 . 6 0 , 0 . 7 ,
0 . 8 0 , 0 . 9 ) , type = 6)
2 > Percentiles
3 10 % 20 % 30 % 40 % 50 % 60 % 70 % 80 % 90 %
4 46.60 47.90 50.15 51.80 54.25 56.90 58.85 61.00 63.20
Alfredo Yerman Cortes Verbel.
9.1. EJERCICIOS 284
Ejemplo 9.9
Sea la E la V.A. Edad de un grupo de estudiantes de 10-03
E=16, 14, 15, 14, 14, 14, 15, 15, 15, 14, 16, 16, 16, 14, 15, 15, 15, 15, 14, 16,
14, 15, 16, 16, 14, 15, 16, 14, 15, 15, 17, 15, 15, 16, 14, 16, 15, 15, 15, 15, 17, 14, 14, 18
Calcular, desviación media, varianza y desviación estándar. Script en R Stu-
dio
1 E=c ( 1 6 , 1 4 , 15 , 14 , 14 , 14 , 15 , 15 , 15 ,
14 , 16 , 16 , 16 , 14 , 15 , 15 , 15 ,
15 , 14 , 16 , 14 , 15 , 16 , 16 , 14 ,
15 , 16 , 14 , 15 , 15 , 17 , 15 , 15 ,
16 , 14 , 16 , 15 , 15 , 15 , 15 , 17 ,
14 , 14 , 18)
2 n=l e n g t h ( E )
3 Suma=0
4 for ( i in 1: n )
5 {Suma=Suma+E [ i ]
6 }
7 Promedio=Suma / n
8 p r i n t ( Promedio )
9 Suma_ V a r i a c i o n e s =0
10 for ( i in 1: n )
11 {Suma_ V a r i a c i o n e s=Suma_ V a r i a c i o n e s+abs ( E [ i ] = Promedio )
12 }
13 D e s v i a c i o n _ Media=Suma_ V a r i a c i o n e s / n
14 p r i n t ( D e s v i a c i o n _ Media )
15 Suma_ Cuadrado _ V a r i a c i o n e s =0
16 for ( i in 1: n )
17 {Suma_ Cuadrado _ V a r i a c i o n e s=Suma_ Cuadrado _ V a r i a c i o n e s +( abs ( E [ i ] =
Promedio ) ) ^2
18 }
19 V a r i a n z a=Suma_ Cuadrado _ V a r i a c i o n e s / n
20 p r i n t ( Varianza )
21 D e s v i a c i o n _ E s t a n d a r=s q r t ( V a r i a n z a )
22 p r i n t ( Desviacion _ Estandar )
Arroja como resultado
1 > E=c ( 1 6 , 14 , 15 , 14 , 14 , 14 , 15 , 15 ,
15 , 14 , 16 , 16 , 16 , 14 , 15 , 15 ,
15 , 15 , 14 , 16 , 14 , 15 , 16 , 16 ,
14 , 15 , 16 , 14 , 15 , 15 , 17 , 15 ,
15 , 16 , 14 , 16 , 15 , 15 , 15 , 15 ,
17 , 14 , 14 , 18)
2 > n=l e n g t h ( E )
3 > Suma=0
4 > for ( i in 1: n )
5 + {Suma=Suma+E [ i ]
Alfredo Yerman Cortes Verbel.
9.1. EJERCICIOS 285
6 + }
7 > Promedio=Suma / n
8 > p r i n t ( Promedio )
9 [ 1 ] 15.09091
10 > Suma_ V a r i a c i o n e s =0
11 > for ( i in 1: n )
12 + {Suma_ V a r i a c i o n e s=Suma_ V a r i a c i o n e s+abs ( E [ i ] = Promedio )
13 + }
14 > D e s v i a c i o n _ Media=Suma_ V a r i a c i o n e s / n
15 > p r i n t ( D e s v i a c i o n _ Media )
16 [1] 0
17 > Suma_ Cuadrado _ V a r i a c i o n e s =0
18 > for ( i in 1: n )
19 + {Suma_ Cuadrado _ V a r i a c i o n e s=Suma_ Cuadrado _ V a r i a c i o n e s +( abs ( E [ i ] =
Promedio ) ) ^2
20 + }
21 > V a r i a n z a=Suma_ Cuadrado _ V a r i a c i o n e s / n
22 > p r i n t ( Varianza )
23 [ 1 ] 0.9008264
24 > D e s v i a c i o n _ E s t a n d a r=s q r t ( V a r i a n z a )
25 > p r i n t ( Desviacion _ Estandar )
26 [ 1 ] 0.9491188
Lo anterior podría ser resumido en:
E=c ( 1 6 , 1 4 , 15 , 14 , 14 , 14 , 15 , 15 , 15 , 14 ,
sd ( E)# D e s v i a c i o n t i p i c a
v a r ( E)# V a r i a n z a
Ejemplo 9.10
Calcular la asimetria y curtosis de los datos de la V.A. del ejemplo anterior
Script en R Studio
1 E=c ( 1 6 , 1 4 , 15 , 14 , 14 , 14 , 15 , 15 , 15 ,
14 , 16 , 16 , 16 , 14 , 15 , 15 , 15 ,
15 , 14 , 16 , 14 , 15 , 16 , 16 , 14 ,
15 , 16 , 14 , 15 , 15 , 17 , 15 , 15 ,
16 , 14 , 16 , 15 , 15 , 15 , 15 , 17 ,
14 , 14 , 18)
2 l i b r a r y ( moments )
3 skewness ( E ) #nos da e l v a l o r de l a a s i m e t r i a de l o s d a t o s de l a V . A . E
4 k u r t o s i s ( E ) #nos da e l a c h a t a m i e n t o de l a d i s t r i b u c i o n de l o s d a t o s de
la V . A . E .
Obteniendo
1 > skewness ( E ) #Da e l v a l o r de l a a s i m e t r i a de l o s d a t o s de l a V . A . E
2 [ 1 ] 0.7750484
Alfredo Yerman Cortes Verbel.
9.1. EJERCICIOS 286
3 > k u r t o s i s ( E ) #Da e l a c h a t a m i e n t o de l a d i s t r i b u c i o n de l o s d a t o s de
la V . A . E .
4 [ 1 ] 3.456864
Recordemos que si este ultimo valor es nulo, la distribución se dice normal
(similar a la distribución normal de Gauss) y recibe el nombre de mesocurtica.
Si el coeficiente es positivo, la distribución se llama leptocurtica, hay una mayor
concentración de los datos en torno a la media. Si el coeficiente es negativo, la
distribución se llama platicurtica y hay una menor concentración de datos en torno
a la media
Ejemplo 9.11
Dada la V.A. Perímetro Craneal medido en centímetros de un grupo de infantes y
su respectivo peso medido en kilogramos:
Perimetro craneal = 35.3, 37.4, 37.8, 40.1 ,39.8, 42.2, 41.8, 44.2 ,44.5, 46.7, 46.7,
48.6, 48.7
Peso =3.6, 5.2, 5.0, 6.3, 6.8, 8.2, 7.8,10.1 ,9.9, 11.4 ,11.2, 12.7, 12.9
Hacer análisis de correlación y regresión lineal.
Podemos preceder de varias maneras, aquí un par de ellas Script en R Studio
1 P e r i m e t r o _ c r a n e a l=c ( 3 5 . 3 , 37.4 , 37.8 , 40.1 , 39.8 , 42.2 ,
41.8 , 44.2 , 44.5 , 46.7 , 46.7 , 48.6 , 48.7)
2 Peso=c ( 3 . 6 , 5.2 , 5.0 , 6.3 , 6.8 , 8.2 , 7.8 , 10.1 ,
9.9 , 11.4 , 11.2 , 12.7 , 12.9)
3 p a i r s ( P e r i m e t r o _ c r a n e a l ~ Peso )
Obteniendo la gráfica de la figura 9.3
Otra forma seria
Script en R Studio
1 P e r i m e t r o _ c r a n e a l=c ( 3 5 . 3 , 37.4 , 37.8 , 40.1 , 39.8 , 42.2 ,
41.8 , 44.2 , 44.5 , 46.7 , 46.7 , 48.6 , 48.7)
2 Peso=c ( 3 . 6 , 5.2 , 5.0 , 6.3 , 6.8 , 8.2 , 7.8 , 10.1 ,
9.9 , 11.4 , 11.2 , 12.7 , 12.9)
3 library ( PerformanceAnalytics )
4 Datos = data . frame ( P e r i m e t r o _ c r a n e a l , Peso )
5 c h a r t . C o r r e l a t i o n ( Datos )
Obteniendo la gráfica de la figura 9.4
Alfredo Yerman Cortes Verbel.
9.1. EJERCICIOS 287
Figura 9.3: Correlación y Regresión Lineal del perímetro craneal y el peso de un
grupo de infantes
Figura 9.4: Correlación y Regresión Lineal del perímetro craneal y el peso de un
grupo de infantes
Alfredo Yerman Cortes Verbel.
9.1. EJERCICIOS 288
Figura 9.5: Cuando Dios creo los estadisticos
Alfredo Yerman Cortes Verbel.