UNIVERSIDAD NACIONAL SANTIAGO ANTÚNEZ DE MAYOLO
FACULTAD DE INGENIERÍA CIVIL
TRABAJO MONOGRAFICO
ÁNCASH – 2025
PRESENTADO POR:
Alcantara Corpus Franck Josseeph 241.0909.027
Camones García Steff Jhonn 232.0909.005
Castillo Rímac Williams Andrés 232.0909.007
Valentin Romero Cristian Kenedy 232.0909.030
23 DE JULIO DE 2025
Resumen Ejecutivo
La estadística descriptiva constituye la piedra angular del análisis de datos,
proporcionando las herramientas esenciales para organizar, resumir y presentar la información
de manera comprensible. Esta monografía explora en profundidad los conceptos
fundamentales de esta disciplina, desde la definición de población y muestra hasta la
clasificación de variables y escalas de medición. Se aborda la organización y presentación de
datos a través de tablas de frecuencia y representaciones gráficas, destacando las mejores
prácticas para una comunicación efectiva.
El núcleo del análisis descriptivo se centra en las medidas de tendencia central (media,
mediana, moda), de posición no centralizada (cuartiles, deciles, percentiles), de dispersión
(rango, desviación media, varianza, desviación estándar, coeficiente de variación) y de forma
(asimetría y curtosis). Para cada concepto, se proporciona una explicación detallada, sus
fórmulas correspondientes y, crucialmente, problemas resueltos paso a paso. Este enfoque
dual, teórico y práctico, busca no solo impartir conocimiento conceptual sino también
desarrollar la capacidad de aplicar estas herramientas en la investigación y en la resolución de
problemas reales, permitiendo una comprensión profunda de la naturaleza de los datos y sus
implicaciones.
1. Introducción a la Estadística Descriptiva
1.1. ¿Qué es la Estadística Descriptiva?
La estadística es una ciencia cuyo propósito principal es la recolección, organización,
resumen, análisis e interpretación de datos para extraer conclusiones válidas o realizar
proyecciones futuras. En esta rama se divide entre la estadística descriptiva y la estadística
inferencial.
La estadística descriptiva se concentra en la presentación de datos mediante el uso de
tablas y gráficos, así como en el cálculo de medidas que sintetizan o caracterizan el
comportamiento de un conjunto de datos. Su alcance se limita a describir los datos observados
sin extender las conclusiones a una población más amplia de la cual provienen los datos.
Los orígenes de la estadística se remontan a civilizaciones antiguas, evidenciando su
utilidad práctica desde tiempos inmemoriales. Por ejemplo, en el antiguo Egipto, alrededor del
3050 a.C., se realizaban censos de población y riqueza, una práctica fundamental para la
planificación de la construcción de pirámides y la estimación de impuestos. De manera similar,
los romanos llevaban a cabo censos cada cinco años para registrar nacimientos, defunciones,
matrimonios e inventariar bienes, lo que subraya la importancia histórica de la estadística
como una herramienta para la gestión y el control social.
La relevancia de la estadística descriptiva en la investigación contemporánea radica en
su capacidad para proporcionar una comprensión inicial y estructurada de las características de
un fenómeno estudiado. La raíz histórica de la estadística en necesidades prácticas, como los
censos y la recaudación de impuestos 1, demuestra que sus conceptos fundamentales no son
meramente abstractos. Por el contrario, surgieron como soluciones directas a problemas
concretos de la sociedad. Esta conexión intrínseca entre la teoría estadística y su aplicación
práctica subraya la importancia de incluir problemas resueltos en cualquier estudio de la
disciplina. La estadística es, por su propia naturaleza, una herramienta diseñada para abordar y
resolver desafíos del mundo real, y la integración de ejercicios prácticos es esencial para
capturar esta esencia pragmática.
1.2. Población y Muestra
En el ámbito de la investigación estadística, la población o universo se define como el
conjunto total de individuos, objetos o elementos sobre los cuales se desea obtener
información y que poseen una característica específica de interés para el estudio.
Existen dos clasificaciones principales para las poblaciones:
● Población Finita: Se refiere a una población cuya cantidad de individuos es limitada y
puede ser conocida o contada con exactitud. Ejemplos incluyen todos los árboles de un
bosque específico o la totalidad de habitantes de una ciudad determinada.1
● Población Infinita: Se caracteriza por tener una cantidad ilimitada de elementos o un
número tan grande que no puede conocerse con exactitud. Un ejemplo sería todos los
mamíferos del océano o los resultados de lanzar un dado un número ilimitado de veces.
Dado que en muchas investigaciones no es factible estudiar a toda la población debido
a su elevado número, el costo asociado o el tiempo requerido, se recurre al concepto de
muestra. Una muestra es un subconjunto o una parte de la población que se selecciona para
llevar a cabo el estudio.
La utilidad de la muestra radica en que, a partir de ella, se pueden extraer conclusiones
(inferencias) que se aplican a la población de la cual fue extraída. Para que estas conclusiones
sean válidas y puedan generalizarse a la población (lo que se conoce como validez externa), es
fundamental que la muestra sea lo más representativa posible de la población diana. Esto
implica que la muestra debe reflejar las características básicas del conjunto total.
El trabajo con muestras en la investigación ofrece varias ventajas significativas, tales
como la reducción del tiempo y los gastos del estudio, la posibilidad de profundizar en el
análisis de las variables y un mayor control sobre las mismas. Convencionalmente, el número
total de individuos en la población se denota con la letra N, mientras que el número de
individuos en la muestra se representa con n.
La necesidad de emplear una muestra en lugar de una población completa surge
directamente de limitaciones prácticas como el tiempo, el costo y la magnitud inabarcable de
la población. Esta realidad implica que, si bien el objetivo final de la investigación es
comprender la población, la mayoría de los estudios se basan en inferencias derivadas de
muestras.
Tabla 1: Comparación entre Población y Muestra
Característica Población Muestra
Definición Conjunto total de elementos Subconjunto seleccionado
bajo estudio de la población
Tamaño N (grande, a veces infinito) n (menor que N)
Objetivo del estudio Conocer características del Inferir sobre la población
universo
Notación N n
Generalización No aplica (es el universo) Requiere representatividad
para ser válida
1.3. Variables Estadísticas
Las variables estadísticas son características o cualidades de una persona, animal u
objeto que pueden ser medidas y que, por su naturaleza, pueden cambiar, adquiriendo
diferentes valores. Estas variables son el objeto de estudio en cualquier análisis estadístico y su
correcta identificación y clasificación son fundamentales para la aplicación de métodos
adecuados.
Se distinguen dos tipos principales de variables:
● Variables Cualitativas (Categóricas): Describen atributos o cualidades que no pueden
expresarse numéricamente. Se manifiestan a través de palabras o categorías. Aunque a
veces se les asignan códigos numéricos, estos no tienen un significado cuantitativo, sino
que sirven como etiquetas para facilitar la entrada de datos.
Ejemplos:
El color de ojos (azul, marrón, verde), el género (masculino, femenino), el estado civil
(soltero, casado, divorciado, viudo) o la marca de un producto (Ford, BMW, Seat).
● Variables Cuantitativas (Numéricas): Representan características que pueden ser
expresadas con números y sobre las cuales es posible realizar operaciones aritméticas con
sentido lógico.
Ejemplos: La edad, los ingresos económicos, el peso, la altura, la presión arterial o el
número de hermanos.
A su vez, las variables cuantitativas se subdividen en:
Discretas: Son aquellas que solo pueden tomar ciertos valores fijos,
generalmente números enteros, y son el resultado de un conteo. No permiten
valores decimales entre dos números consecutivos.
-Ejemplos: El número de pacientes en un hospital, el número de alumnos en una clase
o el número de hijos en una familia.
Continuas: Pueden tomar cualquier valor dentro de un intervalo dado,
permitiendo la existencia de números decimales. Son el resultado de una
medición.
-Ejemplos: La estatura de una persona (1.75 m), el peso (68.3 kg), el tiempo
transcurrido, la temperatura o la distancia entre dos puntos.
La naturaleza de una variable (cualitativa, cuantitativa discreta o continua) determina
directamente los métodos de organización, presentación y análisis estadístico que son válidos y
significativos. Por ejemplo, intentar calcular una media para una variable cualitativa nominal,
como el color de cabello, carece de sentido estadístico, ya que el promedio de "rubio" y
"castaño" no produce una categoría interpretable. En contraste, para una variable cuantitativa
continua, como la altura, el cálculo de la media es una medida fundamental y altamente
interpretable. Esta relación directa entre el tipo de variable y la aplicabilidad de las
herramientas estadísticas es un pilar metodológico. Una clasificación incorrecta de las
variables puede llevar a la aplicación de técnicas inadecuadas, resultando en conclusiones
erróneas o sin significado.
Tabla 2: Tipos de Variables Estadísticas
Tipo de Variable Descripción Ejemplos
Cualitativa Características no Color de ojos, Género,
numéricas, expresadas con Estado civil
palabras o categorías
Cuantitativa Discreta Conteo de valores enteros, Número de hijos, Número
no admite decimales entre de pacientes
valores consecutivos
Cuantitativa Continua Medición con valores en un Edad, Peso, Altura,
rango, permite decimales Temperatura
1.4. Parámetros y Estadígrafos
En estadística, la distinción entre un parámetro y un estadígrafo (o estadístico) es
fundamental para comprender si una cantidad numérica se refiere a la totalidad de una
población o a una parte de ella.
● Un parámetro es una cantidad numérica calculada sobre una población completa y que
resume los valores que esta toma en algún atributo específico. Su propósito es condensar
toda la información disponible en la población en unos pocos números representativos.
Ejemplo: Si se midiera la altura de todos los sujetos en un país y se calculara su
promedio, ese valor sería la altura media poblacional, un parámetro.8 Los parámetros suelen
representarse con letras griegas, como
μ(media poblacional)o σ (desviación estándar poblacional).
● Un estadístico (o estadígrafo) es una cantidad numérica calculada sobre una muestra de
la población y que resume su información sobre algún aspecto. Dado que estudiar a toda
la población es a menudo impracticable debido a su tamaño, costo o tiempo, se calcula un
estadístico a partir de una muestra con la expectativa de que sea una buena aproximación
al parámetro real de la población. Cuando un estadístico se utiliza para aproximar un
parámetro, se le denomina estimador.
Ejemplo: Si se toma una muestra de 500 personas de un país y se calcula su altura
media, ese valor sería la altura media muestral, un estadístico. Los estadígrafos se representan
comúnmente con letras latinas, como
x (media muestral)o S(desviaciónestándar muestral).
La distinción entre parámetro y estadístico es crucial para la interpretación de los
resultados de cualquier investigación. En la práctica de la investigación, es raro poder calcular
un parámetro real, ya que esto implicaría realizar un censo completo de la población. Por lo
tanto, la mayoría de los valores numéricos que un investigador calcula son estadígrafos. Estos
estadígrafos actúan como estimadores de los parámetros poblacionales, lo que significa que
cualquier "verdad" reportada a partir de un estudio basado en una muestra es inherentemente
una aproximación y está sujeta a un grado de incertidumbre, conocido como error de muestreo.
Esta realidad subraya la necesidad de la estadística inferencial, que se encarga de cuantificar
esta incertidumbre y permitir la generalización de los hallazgos muestrales a la población con
un nivel de confianza determinado.
Tabla 3: Parámetros vs. Estadistico
Característica Parámetro Estadígrafo (Estadístico)
Base de cálculo Población Muestra
Símbolo Letras griegas (μ, σ, ρ) Letras latinas ( x , s, r)
Propósito Describe una característica Resume información de la
de la población total muestra, estima el parámetro
poblacional
Ejemplos Media poblacional, Media muestral, Desviación
Desviación estándar estándar muestral
poblacional
1.5. Escalas de Medición
Las escalas de medición son sistemas que permiten asignar valores numéricos a las
características medibles de las variables. La elección de la escala es una decisión metodológica
crucial, ya que determina directamente la codificación, el tratamiento informático y los tipos
de análisis estadísticos que son válidos y significativos para los datos.
Existen cuatro tipos principales de escalas de medición, ordenadas de menor a mayor
cantidad de información que proporcionan:
● Nominal: Esta escala clasifica los objetos de estudio en categorías que son mutuamente
excluyentes, sin que exista un orden o jerarquía inherente entre ellas. Los números que se
asignan a estas categorías son simplemente etiquetas o códigos y no tienen ningún
significado cuantitativo; su función es únicamente facilitar la entrada y manejo de datos.
Ejemplos: El sexo (masculino/femenino), el estado civil (soltero, casado, divorciado,
viudo), o el color de cabello.
● Ordinal: Además de clasificar en categorías, esta escala establece un orden o jerarquía
entre ellas. Esto significa que se puede determinar si una categoría es "mayor que" o
"menor que" otra. Sin embargo, las distancias o intervalos entre las categorías no son
necesariamente iguales o significativas. Los números asignados solo indican la posición
relativa.
Ejemplos: La clase social (baja, media, alta), los grados de estudio (grados 1ro, 2do, 3ro,
4to), o el nivel de acuerdo con una afirmación (completo desacuerdo, acuerdo parcial, acuerdo
total).
● De Intervalo: Esta escala posee todas las características de la escala ordinal, y además,
los intervalos entre sus clases son iguales y significativos. Esto implica que las diferencias
entre los valores son consistentes. Sin embargo, el punto cero en una escala de intervalo
es arbitrario y no representa la ausencia total de la característica medida. Por esta razón,
se pueden realizar operaciones de suma y resta, pero las multiplicaciones o divisiones no
tienen un significado inherente de razón.
Ejemplos: La temperatura en grados Celsius o Fahrenheit (0°C no significa ausencia
de temperatura), las fechas en un calendario o las puntuaciones de pruebas estandarizadas
como el IQ.
● De Razón (o Proporción): Es la escala de medición más potente y proporciona la mayor
cantidad de información. Posee todas las propiedades de la escala de intervalo, pero con
una diferencia crucial: tiene ceros absolutos, lo que significa que el valor cero indica la
ausencia total de la característica medida. Esto permite realizar todas las operaciones
aritméticas (suma, resta, multiplicación y división), y las razones entre los valores son
significativas.
Ejemplos: El peso, la altura, los ingresos económicos, la concentración de glucosa en
una muestra o la tasa de mortalidad.
La elección de la escala de medición para una variable es una decisión metodológica
fundamental que restringe o habilita directamente los tipos específicos de análisis estadísticos
que pueden aplicarse. Por ejemplo, intentar calcular la media de variables nominales u
ordinales (como el estado civil o la clase social) carece de sentido matemático y puede llevar a
conclusiones erróneas. De manera similar, realizar operaciones de razón (como decir que algo
es "el doble" de otro) en escalas de intervalo (como la temperatura en Celsius) es incorrecto
porque el cero no es absoluto. Esta implicación significa que una comprensión profunda de las
escalas de medición es un prerrequisito indispensable para la aplicación correcta de cualquier
técnica estadística, ya sea descriptiva o inferencial. Un error en esta fase inicial de la
investigación invalidaría cualquier análisis posterior, por muy sofisticado que este sea.
Tabla 4: Escalas de Medición de Variables Estadísticas
Escala Características Operaciones Ejemplos
Clave Válidas
Nominal Clasificación sin Conteo, Moda Género, Estado civil
orden ni jerarquía
Ordinal Orden o jerarquía, Conteo, Moda, Nivel
intervalos desiguales Mediana socioeconómico,
Grado de acuerdo
De Intervalo Orden, intervalos Conteo, Moda, Temperatura (C/F),
iguales, cero Mediana, Suma, Fechas
arbitrario Resta
De Razón Orden, intervalos Todas las Peso, Altura,
iguales, cero absoluto operaciones Ingresos
(ausencia) aritméticas (suma,
resta, multiplicación,
división)
2. Organización y Presentación de Datos Unidimensionales
La organización y presentación de datos son pasos iniciales cruciales en cualquier
análisis estadístico. Permiten transformar conjuntos de datos brutos en formatos comprensibles
y visualmente accesibles, facilitando la identificación de patrones, tendencias y características
clave.
2.1. Tablas de Frecuencia
Una tabla de frecuencias es una herramienta estadística fundamental que organiza un
conjunto de datos de manera sistemática, asignando a cada valor o categoría una frecuencia
que indica cuántas veces se repite. Estas tablas pueden utilizarse tanto para variables
cuantitativas como cualitativas.
Las tablas de frecuencia se componen de varios tipos de frecuencias:
● Frecuencia Absoluta (fi ): Es el número de veces que un dato específico o una categoría
aparece en el conjunto de datos.
● Frecuencia Absoluta Acumulada (Fi ) : Es la suma de las frecuencias absolutas de un
valor y todos los valores anteriores a él en la distribución ordenada.
● Frecuencia Relativa (hi ) : Representa la proporción de veces que un dato se repite en
relación con el total de datos. Se expresa como un valor decimal o, comúnmente, como un
porcentaje. Se calcula dividiendo la frecuencia absoluta de un dato entre el número total
de datos.
● Frecuencia Relativa Acumulada (Hi ) : Es la suma de las frecuencias relativas de un
valor y todos los valores anteriores a él.
● Porcentaje Válido (Hi % o hi %): Este tipo de frecuencia relativa indica el porcentaje de
una característica, pero solo considera los casos que tienen respuestas válidas, excluyendo
los valores perdidos o no respondidos. Su inclusión es aconsejable para evitar que los
estadísticos se distorsionen por datos incompletos.
La construcción de una tabla de frecuencias generalmente sigue estos pasos: recopilar y
organizar los datos, calcular la frecuencia absoluta para cada valor, sumar las frecuencias
absolutas en diagonal para obtener las frecuencias acumuladas, y luego calcular las frecuencias
relativas (en decimales y porcentajes) y sus acumulados.
La forma de construir la tabla varía según el tipo de datos:
● Datos No Agrupados: Se utilizan cuando la muestra es pequeña (generalmente menos de
30 datos) o cuando la variable tiene pocas categorías. En este caso, cada dato individual o
categoría se considera una clase.
● Datos Agrupados: Son necesarios cuando el número de datos es muy grande o cuando la
variable es cuantitativa continua. Los datos se organizan en "clases", "grupos" o
"categorías" de valores, que son intervalos. La construcción de estos intervalos implica
determinar el rango de los datos (diferencia entre el valor máximo y mínimo), calcular el
número de intervalos apropiado (a menudo utilizando la fórmula de Sturges) y definir la
amplitud de cada intervalo.
La inclusión del "porcentaje válido" en las tablas de frecuencia 12 es una práctica
crucial que va más allá de la mera presentación de datos. Su uso implica una conciencia
metodológica sobre la existencia de "valores perdidos" (missing data), un problema común en
la investigación real, especialmente en encuestas. Al diferenciar entre el porcentaje total
(basado en todos los casos, incluidos los no respondidos) y el porcentaje válido (calculado solo
sobre los casos con respuestas), se evita que las estadísticas se distorsionen por datos
incompletos. Esta distinción lleva a una interpretación más precisa y confiable de la
distribución de las variables, lo que es fundamental para la toma de decisiones informadas y la
credibilidad del informe de investigación.
A continuación, se presentan ejemplos de la estructura de tablas de frecuencia para
datos no agrupados y agrupados:
Tabla 5: Estructura de una Tabla de Frecuencias (Datos No Agrupados)
Dato (fi) (Fi) (hi) (Hi) (hi ¿%) ( Hi %)
f1
Valor 1 f1 F 1 =f 1 h 1 = H 1 =h 1 h 1(100) H1(100)
N
f2
Valor 2 f2 F 2 =f 1 + f 2 h 2 = H 2 = h1 + h 2 h 2 ¿) H2(100)
N
... ... ... ... ... ... ...
fk
Valor k fk F k =N h k= Hk=1 hk (100) 100
N
Total N 1 100%
Tabla 6: Estructura de una Tabla de Frecuencias (Datos Agrupados)
I (xi) (fi) (Fi) (hi) (Hi) (hi ¿%) ( Hi %)
( L1 + L 2 ) f1
¿ f1 F 1 =f 1 h 1 = H1 h 1(100) H1(100)
2 N
L2 + L 3 f2
¿ f2 F2 h 2 = H2 h 2 ¿) H2(100)
2 N
... ... ... ... ... ... ... ...
Lk+(Lk +1) fk
[ Lk , Lk +1 ] fk F k =N h k= Hk=1 hk (100) 100
2 N
Total N 1 100%
2.2. Representaciones Gráficas
Las representaciones gráficas son herramientas visuales poderosas que complementan
las tablas de frecuencia, facilitando la comunicación de información estadística de manera
efectiva y permitiendo la identificación rápida de patrones y relaciones en los datos.6 La
elección del tipo de gráfico depende intrínsecamente de la naturaleza de la variable que se
desea representar.
Para las variables cualitativas, se utilizan principalmente los siguientes tipos de
gráficos:
● Diagramas de Barras: En estos gráficos, las categorías de la variable se representan en
un eje (comúnmente el horizontal) y las frecuencias (absolutas o relativas) en el otro
(generalmente el vertical). La altura de cada barra es directamente proporcional a la
frecuencia de la categoría que representa. Son particularmente útiles para comparar una
variable cualitativa entre diferentes poblaciones. En tales comparaciones, es aconsejable
emplear frecuencias relativas (porcentajes) para evitar interpretaciones engañosas que
podrían surgir si los tamaños de las poblaciones difieren significativamente.
A continuación, se muestra un gráfico de barras que representa una encuesta para
identificar cual es la mejor fruta de una muestra.
Imagen 1. Diagrama de barras
● Diagramas de Sectores (o "Tartas"): Consisten en un círculo dividido en porciones,
donde cada porción representa una categoría de la variable. El tamaño del arco de cada
porción es proporcional a la frecuencia (absoluta o relativa) de la categoría. Son ideales
para mostrar la composición de un todo en sus partes, pero se vuelven menos efectivos
con un gran número de categorías.
Por ejemplo, a continuación se tiene un diagrama de sectores que representa los
deportes practicados
Imagen 2. diagrama de sectores
● Pictogramas: Emplean dibujos o íconos alusivos al tema de estudio para representar las
frecuencias de las modalidades de la variable. El escalamiento de los dibujos debe
asegurar que el área de cada uno sea proporcional a la frecuencia que representa, no solo
su altura. Son gráficos populares en los medios de comunicación, diseñados para ser
comprendidos por un público no especializado sin necesidad de explicaciones complejas.
Imagen 3. pictograma
Para las variables cuantitativas, especialmente las continuas o de escala métrica, el
gráfico más común es:
● Histogramas: A diferencia de los diagramas de barras, en un histograma, las barras están
adyacentes y representan intervalos de clase de una variable continua. La altura de cada
barra indica la frecuencia de los datos dentro de ese intervalo. Son fundamentales para
visualizar la distribución de frecuencias de variables cuantitativas.
Imagen 4. histograma
La elección del tipo de gráfico no es arbitraria, sino que está directamente determinada
por la naturaleza de la variable (cualitativa versus cuantitativa) y el objetivo específico de la
presentación (por ejemplo, comparar la distribución de una característica entre diferentes
poblaciones). Una selección inadecuada del gráfico puede distorsionar la percepción de los
datos y llevar a interpretaciones erróneas. Por ejemplo, el uso de frecuencias absolutas en
diagramas de barras para comparar poblaciones de tamaños dispares puede sugerir diferencias
de magnitud que no existen en términos proporcionales. La práctica de usar frecuencias
relativas (porcentajes) en gráficos comparativos es una mejor práctica que previene estos
sesgos visuales, asegurando que la comunicación de los resultados sea precisa y no engañosa.
Esta consideración es vital para la validez de las conclusiones presentadas en cualquier
informe de investigación.
3. Análisis Estadístico Descriptivo: Medidas de Tendencia Central y Posición
El análisis descriptivo de datos no solo implica su organización y presentación, sino
también la síntesis de sus características principales a través de medidas numéricas. Estas
medidas se dividen en aquellas que indican la centralidad de los datos y aquellas que señalan
puntos específicos dentro de la distribución.
3.1. Medidas de Tendencia Central
Las medidas de tendencia central son valores numéricos que indican el punto
alrededor del cual los datos de una distribución tienden a agruparse.9 Su propósito principal es
resumir grandes volúmenes de información en un solo valor representativo, permitiendo
identificar el elemento "típico" o "promedio" de un grupo y facilitando la comparación entre
diferentes conjuntos de datos.16 Las principales medidas son la media, la mediana y la moda.
● Media Aritmética (Promedio): Es la medida de tendencia central más común y
ampliamente utilizada. Se calcula sumando todos los valores de un conjunto de datos y
dividiendo el resultado entre el número total de datos.9 Se interpreta como el "centro de
gravedad" de los datos.
○ Fórmula para Datos No Agrupados:
x=n ∑ xi Donde ∑ xi es la suma de todos los valores y n es el número total de datos.
○ Fórmula para Datos Agrupados:
x=N ∑( xi⋅ fi )Donde xi es la marca de clase (punto medio del intervalo), fi es la
frecuencia absoluta de cada clase y N es el número total de datos.
○ Una característica importante de la media es su sensibilidad a valores atípicos
(extremos). Unos pocos valores muy grandes o pequeños pueden distorsionar
significativamente la media, haciendo que no sea representativa del resto de los datos.
● Mediana: Es el valor central de un conjunto de datos una vez que estos han sido
ordenados de menor a mayor. La mediana divide la distribución en dos partes iguales, de
modo que el 50% de los datos se encuentran por debajo de ella y el otro 50% por encima.
A diferencia de la media, la mediana es menos sensible a la presencia de valores
extremos, lo que la convierte en una medida de tendencia central más robusta en
distribuciones asimétricas.
Cálculo para Datos No Agrupados:
Si el número de datos (n) es impar, la mediana es el valor que ocupa la posición
(n+1)
central (ej. la posición .
2
Si el número de datos (n) es par, la mediana es el promedio de los dos valores
centrales.
Fórmula para Datos Agrupados:
(
[
−F )
]
N
i−1
2 Donde Li es el límite inferior de la clase mediana, N es el número
Me=Li + ⋅A
fi
total de datos, F i−1 es la frecuencia acumulada de la clase anterior a la mediana, fi es la
frecuencia absoluta de la clase mediana, y A es la amplitud del intervalo de clase.
● Moda: Es el valor o los valores que aparecen con mayor frecuencia en un conjunto de
datos.9 Una distribución puede ser unimodal (una moda), bimodal (dos modas),
multimodal (varias modas) o no tener moda si ningún valor se repite. La moda es la única
medida de tendencia central que puede utilizarse para variables cualitativas.
Cálculo para Datos Agrupados:
Para datos agrupados, la moda es la marca de clase del intervalo que presenta la mayor
frecuencia absoluta. Existen fórmulas más complejas para una estimación más precisa de la
moda en este tipo de datos.
La elección entre la media y la mediana como medida de tendencia central presenta un
dilema crucial en el análisis de datos. Mientras que la media es el "centro de gravedad" de la
distribución, su alta sensibilidad a los valores atípicos puede llevar a una representación
engañosa del valor "típico" si la distribución de los datos es asimétrica o contiene valores
extremos. En contraste, la mediana, al ser una medida de posición que no se ve afectada por la
magnitud de los valores extremos, ofrece una descripción más precisa y robusta del centro en
tales casos. Esto implica que un analista debe evaluar la forma de la distribución de los datos
antes de seleccionar la medida central más apropiada para el informe, lo que conecta
directamente con la necesidad de analizar las medidas de forma, como la asimetría. La
decisión informada sobre qué medida utilizar es vital para la validez y la honestidad de la
interpretación de los datos.
Problema Resuelto 1: Cálculo de Media, Mediana y Moda para Datos No
Agrupados
Enunciado: Un grupo de 8 estudiantes obtuvo las siguientes calificaciones en un
examen de estadística: {2, 5, 5, 6, 8, 8, 9, 11}. Calcular la media, la mediana y la moda de
estas calificaciones.
Solución:
1. Cálculo de la Media Aritmética:
La media se obtiene sumando todos los datos y dividiendo por el número total de datos.
xˉ=82+5+5+6+8+8+9+11=854=6.75
La media de las calificaciones es 6.75.17
2. Cálculo de la Mediana:
Primero, se deben ordenar los datos de menor a mayor. En este caso, los datos ya están
ordenados: {2, 5, 5, 6, 8, 8, 9, 11}.
Dado que el número de datos (n=8) es par, la mediana es el promedio de los dos valores
centrales. Las posiciones centrales son n/2=8/2=4 y (n/2)+1=4+1=5.
Los valores en estas posiciones son 6 (4ª posición) y 8 (5ª posición).
Me=26+8=214=7
La mediana de las calificaciones es 7.17
3. Cálculo de la Moda:
La moda es el valor que más se repite en el conjunto de datos.
En el conjunto {2, 5, 5, 6, 8, 8, 9, 11}:
○ El 2, 6, 9 y 11 aparecen una vez.
○ El 5 aparece dos veces.
○ El 8 aparece dos veces.
Dado que el 5 y el 8 aparecen con la misma máxima frecuencia (dos veces), este
conjunto de datos es bimodal.
Las modas son 5 y 8.17
Interpretación:
● La media (6.75) indica que el promedio de las calificaciones de los estudiantes es de
6.75.
● La mediana (7) significa que la mitad de los estudiantes obtuvo una calificación igual o
inferior a 7, y la otra mitad obtuvo una calificación igual o superior a 7.
● Las modas (5 y 8) revelan que las calificaciones de 5 y 8 fueron las más frecuentes en
este grupo de estudiantes.
Problema Resuelto 2: Cálculo de Media, Mediana y Moda para Datos Agrupados
Enunciado: Se realizó un estudio sobre el peso (en kg) de 40 estudiantes de una
universidad, y los datos se agruparon en la siguiente tabla de frecuencias:
Masa corporal (kg) Frecuencia absoluta (fi) Marca de clase (xi)
[50,55) 6 52.5
[55,60) 13 57.5
[60,65) 9 62.5
[65,70) 8 67.5
[70,75 4 72.5
Total 40
Calcular la media, la mediana y la moda de la masa corporal de estos estudiantes.
Solución:
Para facilitar los cálculos, se amplía la tabla con columnas adicionales:
Masa corporal
fi xi xi⋅fi Fi
(kg)
[50,55) 6 52.5 315.0 6
[55,60) 13 57.5 747.5 19
[60,65) 9 62.5 562.5 28
[65,70) 8 67.5 540.0 36
[70,75 4 72.5 290.0 40
Total 40 2455.0
1. Cálculo de la Media Aritmética:
Se utiliza la fórmula para datos agrupados:
x=N ∑( xi⋅ fi ) x=402455.0 = 61.375 kgLa media de la masa corporal es
aproximadamente 61.38 kg.
2. Cálculo de la Moda:
La clase modal es el intervalo con la mayor frecuencia absoluta. En este caso, la mayor
frecuencia es 13, que corresponde al intervalo [55,60).
La moda para datos agrupados se estima como la marca de clase de la clase modal.
Mo=57.5 kg
La moda de la masa corporal es 57.5 kg.
3. Cálculo de la Mediana:
Primero, se identifica la clase mediana. Se busca el intervalo donde se encuentra la
posición
N 40
= =20.En la columna de frecuencia acumulada (Fi), el valor 20 se encuentra en el
2 2
intervalo [60,65), ya que su Fi es 28 (el primer Fi que supera 20).
Los valores para la fórmula de la mediana son:
○ Li (límite inferior de la clase mediana) = 60
○ N (número total de datos) = 40
○ Fi−1 (frecuencia acumulada de la clase anterior a la mediana) = 19 (la Fi del intervalo
[55,60))
○ fi (frecuencia absoluta de la clase mediana) = 9
○ A (amplitud del intervalo de clase) = 65−60=5
Aplicando la fórmula:
(
[ −F )
]
N
i−1
2
Me=Li + ⋅A
fi
(
[ ]
−19 )
40
2
Me=60+ ⋅5
9
Me=60+
[]1
9
⋅5
Me=60+ 0.55555=60.5555 kg
La mediana de la masa corporal es aproximadamente 60.56 kg.
Interpretación:
● La media (61.38 kg) indica que el peso promedio de los estudiantes es de 61.38 kg.
● La moda (57.5 kg) sugiere que la masa corporal de 57.5 kg es la más frecuente entre los
estudiantes, al ser la marca de clase del intervalo con mayor concentración de datos.
● La mediana (60.56 kg) significa que el 50% de los estudiantes tiene una masa corporal
igual o inferior a 60.56 kg, y el otro 50% tiene una masa corporal igual o superior a esta
cantidad.
3.2. Medidas de Posición No Centralizada
Las medidas de posición no centralizada son estadísticos que dividen un conjunto
ordenado de datos en grupos con la misma cantidad de individuos.8 A diferencia de las
medidas de tendencia central que buscan el "centro" de la distribución, las medidas de posición
no centralizada proporcionan información sobre puntos específicos de la distribución, más allá
del valor central. Son particularmente útiles para comprender la dispersión y la forma de los
datos, así como para identificar segmentos o subgrupos dentro de una población o muestra.
Las principales medidas de posición no centralizada son:
● Cuartiles (Q K ):Dividen la distribución de datos en cuatro partes iguales, lo que resulta en
tres puntos de división:
○ Primer Cuartil (Q1): El valor por debajo del cual se encuentra el 25% de las
observaciones y por encima del cual se encuentra el 75% restante.
○ Segundo Cuartil (Q2): El valor que divide la distribución exactamente por la mitad,
con el 50% de las observaciones por debajo y el 50% por encima. Es equivalente a la
mediana (Me) y al percentil 50 (P50).
○ Tercer Cuartil (Q3): El valor por debajo del cual se encuentra el 75% de las
observaciones y por encima del cual se encuentra el 25% restante.
● Deciles ( D K ): Dividen la distribución de datos en diez partes iguales, lo que resulta en
nueve puntos de división (desde D1 hasta D9), correspondientes al 10%, 20%,..., 90% de
los datos. El quinto decil (D5) es equivalente a la mediana y al segundo cuartil.
● Percentiles ( P K ): Dividen la distribución de datos en cien partes iguales, lo que resulta en
noventa y nueve puntos de división (desde P1 hasta P99), correspondientes al 1%, 2%,...,
99% de los datos. El percentil 50 (P50) es equivalente a la mediana, al segundo cuartil y al
quinto decil. De igual manera, el percentil 25 (P25) es equivalente al primer cuartil (Q1), y
el percentil 75 (P75) es equivalente al tercer cuartil (Q3).
Las fórmulas para encontrar la posición de estas medidas varían si los datos están
agrupados o no:
● Para Datos No Agrupados:
k ( n+ 1 )
○ Posición del Cuartil Q K :
4
k ( n+ 1 )
○ Posición del Decil D K :
10
k ( n+1 )
○ Posición del Percentil Pk :
100
Una vez calculada la posición, se busca el valor correspondiente en los datos
ordenados. Si la posición es decimal, se interpola entre los valores adyacentes.
● Para Datos Agrupados:
N
○ Posición del Cuartil Qk : k ⋅
4
N
○ Posición del Decil Dk : k ⋅
10
N
○ Posición del Percentil Pk :k ⋅
100
Una vez identificada la clase (intervalo) donde se encuentra la posición, se utiliza una
fórmula general para calcular el valor de la medida:
(
[k ⋅ )−F
]
N
i−1
X Donde Mk es la medida de posición (cuartil, decil o
M =Li +
k ⋅A
fi − F i−1
percentil) que se desea calcular, Li es el límite inferior de la clase donde se localiza la
medida, N es el número total de datos, X es 4 para cuartiles, para 10 deciles o 100
para percentiles, F i−1 es la frecuencia acumulada de la clase anterior a la clase de la
medida, fi es la frecuencia absoluta de la clase de la medida, y A es la amplitud del
intervalo de clase.
Las medidas de posición no centralizada ofrecen un valor añadido significativo en la
investigación al permitir la segmentación y el análisis detallado de subgrupos dentro de un
conjunto de datos. Por ejemplo, en un contexto empresarial, la capacidad de identificar las
plantas que se encuentran "por debajo del cuartil inferior" en términos de producción permite a
la gerencia enfocar sus esfuerzos de mejora de manera precisa. Esto implica que estas medidas
no solo sirven para describir la distribución de los datos, sino que también actúan como
herramientas directas para la toma de decisiones estratégicas y la identificación de áreas de
interés o problemas específicos dentro de una población o muestra. Su aplicación va más allá
de la mera descripción, convirtiéndolas en instrumentos de diagnóstico y gestión en diversos
campos de estudio.
Problema Resuelto 3: Cálculo de Cuartiles, Deciles y Percentiles para Datos No
Agrupados
Enunciado: Un profesor registró las evaluaciones de un examen para 20 estudiantes:
{5, 5, 8, 7, 9, 10, 7, 6, 8, 7, 8, 9, 10, 10, 8, 7, 6, 5, 9, 6}. Calcular el Primer Cuartil (Q1), el
Quinto Decil (D5) y el Percentil 75 (P75).
Solución:
1. Ordenar los datos:
Primero, se ordenan los 20 datos de menor a mayor:
{5, 5, 5, 6, 6, 6, 7, 7, 7, 7, 8, 8, 8, 8, 9, 9, 9, 10, 10, 10}
2. Cálculo del Primer Cuartil (Q1):
k ( n+ 1 )
Se utiliza la fórmula de posición para datos no agrupados: Q K : . Para Q1, k=1 y
4
n=20.
1 ( 20+1 ) 21
QK : = =5.25Como la posición es decimal, el valor de Q1 se encuentra entre la
4 4
5ª y la 6ª posición de los datos ordenados.
El valor en la 5ª posición es 6.
El valor en la 6ª posición es 6.
Dado que ambos valores son iguales, Q1=6. Si fueran diferentes, se interpolaría.
El Primer Cuartil (Q1) es 6.
3. Cálculo del Quinto Decil (D5):
k ( n+ 1 )
Se utiliza la fórmula de posición para datos no agrupados: D K : . Para D5, k=5 y
10
n=20.
5 ( 20+1 ) 21 105
D5 : .=5 ⋅ = =10.5 Como la posición es decimal, el valor de D5 se
10 10 10
encuentra entre la 10ª y la 11ª posición de los datos ordenados.
El valor en la 10ª posición es 7.
El valor en la 11ª posición es 8.
Se interpola: D 5 =7 +0.5 ⋅(8−7)=7 +0.5 ⋅1=7.5
El Quinto Decil (D5) es 7.5
4. Cálculo del Percentil 75 (P75):
k ( n+1 )
Se utiliza la fórmula de posición para datos no agrupados: Pk : . Para P75, k=75 y
100
n=20.
75 ( 20+1 ) 21 1575
P75 : .=75 ⋅ = =15.75Como la posición es decimal, el valor de P75 se
100 100 100
encuentra entre la 15ª y la 16ª posición de los datos ordenados.
El valor en la 15ª posición es 9.
El valor en la 16ª posición es 9.
Dado que ambos valores son iguales, P75=9. Si fueran diferentes, se interpolaría.
El Percentil 75 (P75) es 9.
Interpretación:
● El Primer Cuartil (Q1=6) indica que el 25% de los estudiantes obtuvo una calificación
de 6 o menos.
● El Quinto Decil (D5 =7.5) indica que el 50% de los estudiantes obtuvo una calificación de
7.5 o menos. Este valor coincide con la mediana.
● El Percentil 75 (P75=9) indica que el 75% de los estudiantes obtuvo una calificación de 9
o menos. Este valor coincide con el Tercer Cuartil (Q3).
Problema Resuelto 4: Cálculo de Cuartiles, Deciles y Percentiles para Datos
Agrupados
Enunciado: Se realizó una encuesta a 50 personas sobre su edad y los datos se
agruparon en la siguiente tabla de frecuencias:
Edad (años) Frecuencia absoluta (fi) Frecuencia acumulada (Fi)
[10,19) 5 5
[19,28) 11 16
[28,37) 8 24
[37,46) 5 29
[46,55) 8 37
[55,64) 6 43
$$ 7 50
Total 50
Calcular el Tercer Cuartil (Q3), el Cuarto Decil (D4) y el Percentil 70 (P70).
Solución:
1. Cálculo del Tercer Cuartil (Q3):
Paso 1: Calcular la posición de Q3: Se utiliza la fórmula para datos agrupados:
k ( n)
Posición Q K : . Para Q3, k=3 y N=50.
4
3 ( 50 ) 150
Q3 : = =37.5
4 4
Paso 2: Identificar la clase de Q3: Se busca en la columna de Frecuencia
Acumulada (Fi) el primer valor que sea igual o superior a 37.5. El valor 37 no es
suficiente, por lo que se toma el 43, que corresponde al intervalo [55,64).
La clase de Q3 es [55,64).
Paso 3: Aplicar la fórmula del cuartil:
[ (( ) ) ]
N
k⋅ −F i−1
4 Donde:
Qk=Li+ ⋅A
fi
■ Li (límite inferior de la clase Q3) = 55
■ (k ⋅ N /4) (posición de Q3) = 37.5
■ F i−1 (frecuencia acumulada de la clase anterior a Q3) = 37 (del intervalo [46,55))
■ fi (frecuencia absoluta de la clase Q3) = 6
■ A (amplitud del intervalo) = 64−55=9
Q 3 =55+
[ 37.5−37
6 ]
⋅9Q 3 =55+[60.5 ] ⋅9
Q 3 =55+(0.0833)⋅9=55+0.75=55.75 a ñ os .
2. Cálculo del Cuarto Decil (D4):
N
○ Paso 1: Calcular la posición de D4: Posición D K =k ⋅ . Para D4, k=4 y N=50.
10
4 ⋅50 200
D4 = = =20.24
10 10
○ Paso 2: Identificar la clase de D4: Se busca en la columna de Frecuencia Acumulada
(Fi) el primer valor que sea igual o superior a 20. El valor 16 no es suficiente, por lo
que se toma el 24, que corresponde al intervalo [28,37).
La clase de D4 es [28,37).
Donde:
Li=28
N
(k ⋅ )=20
10
F i−1 =16 D 4 =28+[84 ]⋅9D 4 =28+(0.5)⋅9=28+4.5=32.5 a ñ os .
3. Cálculo del Percentil 70 (P70):
N
○ Paso 1: Calcular la posición de P70: Posición Pk =k ⋅ . Para P70, k=70 y N=50.
100
70 ⋅50 3500
P70= = =35.24
100 100
○ Paso 2: Identificar la clase de P70: Se busca en la columna de Frecuencia
Acumulada (Fi) el primer valor que sea igual o superior a 35. El valor 29 no es
suficiente, por lo que se toma el 37, que corresponde al intervalo [46,55).
La clase de P70 es [46,55).
○ Paso 3: Aplicar la fórmula del percentil:
[
( 100 )
]
N
k⋅ −F i−1
Donde:
Pk=Li + ⋅A
fi
■ Li = 46
N
■ (k ⋅ )=35
100
■ F i−1 = 29 (del intervalo [37,46))
■ fi = 8
■ A=9
P 70 = 46+
[ ( 35−29 )
8 ]
⋅ 9P 70 = 46+[86 ]⋅9
P 70 = 46+(0.75)⋅ 9=46+6.75=52.75 a ñ os .
Interpretación:
● El Tercer Cuartil (Q3=55.75 años) indica que el 75% de las personas encuestadas tiene
55.75 años o menos, y el 25% restante tiene más de 55.75 años.
● El Cuarto Decil (D4=32.5 años) significa que el 40% de las personas encuestadas tiene
32.5 años o menos, y el 60% restante tiene más de 32.5 años.
● El Percentil 70 (P70=52.75 años) indica que el 70% de las personas encuestadas tiene
52.75 años o menos, y el 30% restante tiene más de 52.75 años.
4. Análisis Estadístico Descriptivo: Medidas de Dispersión y Forma
Además de conocer el centro y la posición de los datos, es fundamental entender cómo
se distribuyen y cuán homogéneos o heterogéneos son. Las medidas de dispersión y forma
proporcionan esta información crucial.
4.1. Medidas de Dispersión Absolutas
Las medidas de dispersión son valores numéricos que cuantifican la variabilidad de
un conjunto de datos, indicando cuán separados o juntos están los valores entre sí y con
respecto a una medida de tendencia central (generalmente la media). Un valor pequeño en una
medida de dispersión sugiere que los datos están concentrados alrededor del centro, mientras
que un valor grande indica que están más dispersos o alejados. Las medidas de dispersión
absolutas se expresan en las mismas unidades de medida que la variable original (o en sus
unidades al cuadrado).
Las características generales de estas medidas incluyen que sus valores son siempre
positivos o cero (si todos los datos son idénticos, la dispersión es cero). Son aplicables en
diversos campos, desde la salud hasta la economía.
Las principales medidas de dispersión absolutas son:
● Rango (o Recorrido): Es la medida de dispersión más simple y se define como la
diferencia entre el valor máximo y el valor mínimo de un conjunto de datos.8
Fórmula para Datos No Agrupados: R=Xmax −Xmin .
Para Datos Agrupados: Se calcula como la diferencia entre el límite superior de la
última clase y el límite inferior de la primera clase.
Su principal limitación es que solo considera los dos valores extremos, ignorando la
distribución de los datos intermedios, lo que lo hace muy sensible a valores atípicos.
● Desviación Media: Es el promedio de los valores absolutos de las desviaciones de cada
dato con respecto a la media aritmética del conjunto. A diferencia del rango, utiliza todas
las observaciones para su cálculo.
Fórmula para Datos No Agrupados:
∑ ∣ x i−x ∣
Dm=
n
Fórmula para Datos Agrupados:
∑ ∣ x i−x ∣
Dm= ⋅fi
N
(donde xi es la marca de clase).
● Varianza (σ 2): Es el promedio del cuadrado de las desviaciones de los datos respecto a la
media.8 Se expresa en las unidades de la variable original elevadas al cuadrado, lo que
puede dificultar su interpretación directa en el contexto real de los datos.
Fórmula Poblacional (Datos No Agrupados):
2
2 ∑ ( xi−μ )
σ =
N
Fórmula Muestral (Datos No Agrupados):
2
2 ∑ ( x−x )
s=
n−1
La división por n−1 en la varianza muestral se utiliza para obtener un estimador
insesgado de la varianza poblacional.
Fórmula para Datos Agrupados:
2
2 ∑( xi−x) ⋅fi
s=
N−1
(para muestra, donde xi es la marca de clase).
● Desviación Estándar (o Típica) (σ o s ): Es la raíz cuadrada de la varianza. A diferencia
de la varianza, se expresa en la misma unidad de medida que la variable original, lo que
facilita enormemente su interpretación y la convierte en la medida de dispersión más
utilizada y comprensible en la práctica.
La varianza, aunque es una medida fundamental en estadística, se expresa en unidades
cuadradas, lo que dificulta su interpretación directa en el contexto original de los datos. Por
ejemplo, hablar de "seguros cuadrados” carece de sentido intuitivo. La desviación estándar
resuelve este problema al devolver la medida de dispersión a las unidades originales de la
variable mediante la extracción de la raíz cuadrada. Esta implicación significa que, si bien la
varianza es un paso necesario en el cálculo, la desviación estándar es la medida de dispersión
absoluta preferida para la mayoría de las interpretaciones prácticas en informes de
investigación, ya que es más intuitiva y directamente comparable con la media.
Problema Resuelto 5: Cálculo de Medidas de Dispersión Absolutas para Datos No
Agrupados
Enunciado: Calcular el rango, la desviación media, la varianza y la desviación
estándar para el siguiente conjunto de edades de 6 alumnos: {14, 15, 16, 17, 18, 18}.27
Solución:
Primero, calculamos la media aritmética, ya que es necesaria para las demás medidas:
xˉ=614+15+16+17+18+18=698≈16.33 años.
1. Cálculo del Rango:
R=Xmax− Xmin =18−14=4 a ñ os .
2. Cálculo de la Desviación Media:
∑ ∣ x i−x ∣
Dm=
n
∣14−16.33 ∣+∣15−16.33∣+∣16−16.33 ∣+∣ 17−16.33 ∣+ ∣18−16.33 ∣+∣18−16.33∣
Dm=
6
∣−2.33 ∣+ ∣−1.33∣+∣−0.33 ∣+ ∣0.67 ∣+ ∣1.67 ∣+∣ 1.67 ∣
Dm=
6
Dm=62.33+1.33+0.33+ 0.67+1.67+1.67 =68.67 ≈1.445 a ñ os .
3. Cálculo de la Varianza (muestral):
2
∑ ( x−x )
s2=
n−1
( 14−16.33 )2 + ( 15−16.33 )2+ (16−16.33 )2 + ( 17−16.33 )2 + ( 18−16.33 )2+ ( 18−16.33 )2
s2=
6−1
2
s =55.4289+1.7689+ 0.1089+0.4489+2.7889+ 2.7889
2
s =513.3334 ≈ 2.667 a ñ os
4. Cálculo de la Desviación Estándar (muestral):
s= √ 2.667 ≈ 1.633 años .
Interpretación:
● El rango (4 años) indica que la diferencia entre la edad del alumno mayor y la del menor
es de 4 años.
● La desviación media (1.445 años) significa que, en promedio, las edades de los alumnos
se desvían 1.445 años de la media.
● La varianza (2.667 años$^2$) es una medida de la dispersión cuadrática promedio
alrededor de la media. Su interpretación directa es limitada debido a las unidades
cuadradas.
● La desviación estándar (1.633 años) es la medida más interpretable. Indica que, en
promedio, las edades de los alumnos se desvían aproximadamente 1.633 años de la edad
media (16.33 años). Un valor bajo sugiere que las edades están relativamente agrupadas
alrededor de la media.
Problema Resuelto 6: Cálculo de Medidas de Dispersión Absolutas para Datos
Agrupados
Enunciado: Utilizando la tabla de frecuencias de la masa corporal de 40 estudiantes
del Problema Resuelto 2, calcular el rango, la varianza y la desviación estándar.
Masa corporal
fi xi xi⋅fi Fi
(kg)
[50,55) 6 52.5 315.0 6
[55,60) 13 57.5 747.5 19
[60,65) 9 62.5 562.5 28
[65,70) 8 67.5 540.0 36
$$ 4 72.5 290.0 40
Total 40 2455.0
Recordemos que la media ( x ) calculada previamente es 61.375 kg.
Solución:
1. Cálculo del Rango:
Para datos agrupados, el rango se calcula como la diferencia entre el límite superior de la
última clase y el límite inferior de la primera clase.
R=75−50=25 kg .
2. Cálculo de la Varianza (muestral):
Para calcular la varianza, se añaden columnas para ( xi − xˉ ), (xi−xˉ)2 y (xi−xˉ)2⋅fi:
Masa
2 2
corporal fi xi xi⋅fi (xi− x ) ( xi−x ) ( xi−x ) . fi
(kg)
[50,55) 6 52.5 315.0 -8.875 78.7656 472.5936
[55,60) 13 57.5 747.5 -3.875 15.0156 195.2028
[60,65) 9 62.5 562.5 1.125 1.2656 11.3904
[65,70) 8 67.5 540.0 6.125 37.5156 300.1248
$$ 4 72.5 290.0 11.125 123.7656 495.0624
Total 40 2455.0 1474.374
Se utiliza la fórmula de la varianza muestral para datos agrupados:
2
2 ∑( xi−x) ⋅fi
s=
N−1
2 1474.374
s=
40−1
2
s =37.804 kg
3. Cálculo de la Desviación Estándar (muestral):
s= √ 37.804 ≈ 6.148 kg
Interpretación:
● El rango (25 kg) indica que la diferencia entre el límite superior de la masa corporal más
alta y el límite inferior de la más baja en la distribución es de 25 kg.
● La varianza (37.804 kg) cuantifica la dispersión promedio de los datos al cuadrado
alrededor de la media. Su interpretación directa es compleja debido a las unidades
cuadradas.
● La desviación estándar (6.148 kg) es la medida más interpretable. Significa que, en
promedio, las masas corporales de los estudiantes se desvían aproximadamente 6.148 kg
de la masa corporal media (61.375 kg). Un valor de desviación estándar de 6.148 kg, en
relación con una media de 61.375 kg, sugiere una dispersión moderada de los pesos en la
muestra.
5. Fundamentos de la probabilidad un enfoque teórico y práctico
En un mundo caracterizado por la incertidumbre inherente a la mayoría de los
fenómenos naturales, sociales y económicos, la probabilidad emerge como una disciplina
matemática fundamental para comprender, cuantificar y tomar decisiones frente a lo aleatorio.
Desde el pronóstico del tiempo hasta el diseño de experimentos científicos, la gestión de
riesgos financieros o la toma de decisiones en inteligencia artificial, la capacidad de modelar y
predecir la ocurrencia de eventos inciertos es una habilidad indispensable. La probabilidad, en
esencia, proporciona el lenguaje y las herramientas para navegar en este paisaje de
incertidumbre, permitiendo a profesionales de diversas áreas transformar la mera intuición en
un análisis riguroso y sistemático.
En el tema número 3 titulado como “Probabilidad un enfoque teórico y práctico se
presentará los fundamentos esenciales de la probabilidad, desglosando conceptos clave la
metodología que permite su aplicación en diversos contextos, a su vez se presentarán
problemas en cada subtema orientado a la aplicación a la ingeniería civil.
5.1. Experimentos aleatorios, espacio muestral.
El estudio de la probabilidad se asienta sobre la comprensión de los fenómenos
aleatorios y la capacidad de cuantificar sus posibles resultados. Para ello, es indispensable
definir un conjunto de conceptos básicos que permiten modelar y analizar la incertidumbre
inherente a estos fenómenos.
5.1.1. Experimento Aleatorio
Un experimento aleatorio, también conocido como experimento estocástico, es un
proceso o acción cuyo resultado no puede ser predicho con certeza antes de que ocurra, pero
del cual se conocen todos los posibles resultados. Para que un proceso sea considerado un
experimento aleatorio, debe cumplir con las siguientes características fundamentales:
- Es repetible: El experimento puede ser realizado bajo las mismas condiciones cuantas
veces se desee.
- Resultados conocidos: Todos los posibles resultados del experimento son conocidos de
antemano.
- Resultado incierto: A pesar de conocer todos los resultados posibles, el resultado
particular de cada repetición es impredecible.
- Patrón a largo plazo: Aunque el resultado de una sola repetición es aleatorio, si el
experimento se repite un gran número de veces, las frecuencias relativas de los
resultados tienden a estabilizarse hacia valores determinados.
Algunos ejemplos de experimentos aleatorios son:
- Lanzar una moneda al aire y observar la cara superior.
- Lanzar un dado y registrar el número que aparece en la cara superior.
- Extraer una carta de una baraja bien barajada.
- Medir el tiempo de vida de un componente electrónico.
- Contar el número de vehículos que pasan por un peaje en una hora determinada.
5.1.2. Espacio Muestral denotado por (Ω)
El espacio muestral de un experimento aleatorio es el conjunto de todos los posibles
resultados o puntos muestrales. Se denota comúnmente con la letra griega omega (Ω). Cada
elemento del espacio muestral es un resultado único y elemental del experimento. La
naturaleza del espacio muestral puede variar, lo que tiene implicaciones en cómo se calcula la
probabilidad:
a) Espacio muestral finito: Contiene un número limitado y contable de resultados.
- Ejemplo 1: Al lanzar un dado, el espacio muestral es Ω= {1,2,3,4,5,6}.
- Ejemplo 2: Al lanzar una moneda dos veces, el espacio muestral es Ω=
{CC, CS, SC, SS}.
b) Espacio muestral infinito numerable: Contiene un número infinito de resultados que pueden
ser contados o enumerados en una secuencia (es decir, pueden ponerse en correspondencia
uno a uno con los números naturales).
- Ejemplo: Contar el número de lanzamientos de una moneda hasta obtener la primera
cara:
Ω= {1,2,3, 4, …}.
c) Espacio muestral continuo: Contiene un número infinito no numerable de resultados,
típicamente en un intervalo de números reales.
- Ejemplo: Medir el tiempo de vida de una bombilla (en horas): Ω= {t / t ≥ 0}, donde t
puede ser cualquier valor real positivo.
- Ejemplo: La temperatura ambiente en un lugar específico: Ω= {T/ T mín ≤T ≤T máx },
donde T puede tomar cualquier valor real dentro de un rango.
5.1.3. Eventos (Sucesos)
Un evento (o suceso) es cualquier subconjunto del espacio muestral de un experimento
aleatorio. Representa uno o más resultados de interés del experimento. Los eventos se denotan
comúnmente con letras mayúsculas como A, B, C, etc.
a) Evento elemental (o simple): Es un subconjunto del espacio muestral que contiene un
único punto muestral.
- Ejemplo: Al lanzar un dado, el evento "obtener un 4" es un evento elemental: A= {4}.
b) Evento compuesto: Es un subconjunto del espacio muestral que contiene dos o más
puntos muestrales.
- Ejemplo: Al lanzar un dado, el evento "obtener un número par" es un evento
compuesto: B = {2,4,6}.
c) Evento imposible (∅): Es el subconjunto vacío del espacio muestral, es decir, el evento
que nunca puede ocurrir.
- Ejemplo: Al lanzar un dado, el evento "obtener un 7" es imposible: C=∅.
d) Evento seguro (Ω): Es el propio espacio muestral, es decir, el evento que siempre
ocurrirá.
- Ejemplo: Al lanzar un dado, el evento "obtener un número entre 1 y 6" es seguro:
D= {1,2,3,4,5,6} =Ω.
Operaciones con Eventos
Dado que los eventos son conjuntos, se pueden aplicar las operaciones básicas de la
teoría de conjuntos para combinarlos y generar nuevos eventos. Estas operaciones son
fundamentales para el cálculo de probabilidades de eventos más complejos. Sean A y B dos
eventos dentro de un espacio muestral Ω:
a) Unión de Eventos (A∪B):
Definición: El evento A∪B ocurre si el evento A ocurre, o el evento B ocurre, o ambos
ocurren. Representa el conjunto de todos los puntos muestrales que pertenecen a A, a B, o a
ambos.
- Ejemplo: Al lanzar un dado, sea A el evento "obtener un número par" (A= {2,4,6}) y B
el evento "obtener un número mayor que 3" (B= {4,5,6}). Entonces, A∪B= {2,4,5,6}.
Diagrama de Venn: La unión se representa como la región que abarca ambos círculos,
incluyendo la intersección.
b) Intersección de Eventos (A∩B o AB):
Definición: El evento A∩B ocurre si y solo si tanto el evento A como el evento B
ocurren simultáneamente. Representa el conjunto de todos los puntos muestrales que son
comunes a A y a B.
- Ejemplo: Usando los eventos A y B del ejemplo anterior: A= {2,4,6} y B={4,5,6}.
Entonces, A∩B= {4,6}.
Diagrama de Venn: La intersección se representa como la región donde los círculos de
A y B se superponen.
c) Complemento de un Evento ( Ac o A′):
Definición: El evento Ac ocurre si el evento A no ocurre. Representa el conjunto de
todos los puntos muestrales en el espacio muestral Ω que no pertenecen al evento A.
- Ejemplo: Al lanzar un dado, sea A el evento "obtener un número par" (A= {2,4,6}).
Entonces, el complemento de A es Ac = {1,3,5} (obtener un número impar).
Diagrama de Venn: El complemento de A es la región fuera del círculo de A, pero
dentro del rectángulo que representa el espacio muestral.
d) Eventos Mutuamente Excluyentes (o Disjuntos):
Definición: Dos eventos A y B son mutuamente excluyentes si no pueden ocurrir
simultáneamente en el mismo experimento. Es decir, su intersección es el conjunto vacío:
A∩B=∅.
- Ejemplo: Al lanzar un dado, sea A el evento "obtener un número par" (A= {2,4,6}) y C
el evento "obtener un 1" (C= {1}). A y C son mutuamente excluyentes porque A∩C=∅.
Diagrama de Venn: Los círculos de A y B no se superponen.
e) Eventos Colectivamente Exhaustivos:
Definición: Una colección de eventos E1 , E2 , E 3 , … , En es colectivamente exhaustiva
si su unión cubre todo el espacio muestral, es decir, E1 ∪ E2∪ E3 ∪…∪ En =Ω. Esto significa que
al menos uno de los eventos debe ocurrir.
- Ejemplo: Al lanzar un dado, los eventos "número par" ( E1= {2,4,6}) y "número impar"
( E2= {1,3,5}) son colectivamente exhaustivos, ya que E1∪ E2= {1,2,3,4,5,6} = Ω.
La comprensión de estos conceptos básicos es esencial para construir el marco sobre el
cual se calcularán las probabilidades de eventos más complejos, utilizando las reglas y
teoremas que se abordarán en secciones posteriores.
Problema 1:
Se lanza una moneda balanceada tres veces consecutivas. Define el experimento
aleatorio.
Solución:
El experimento aleatorio es el lanzamiento de una moneda balanceada tres veces
consecutivas, observando la secuencia de caras (C) y cruces (S) obtenidas en cada
lanzamiento.
Problema 2:
Una urna contiene 4 bolas rojas (R1, R2, R3, R4) y 2 bolas azules (A1, A2). Se extraen
dos bolas consecutivamente y sin reemplazo (es decir, la primera bola extraída no se devuelve
a la urna antes de extraer la segunda). Construye el espacio muestral (Ω) de todos los posibles
resultados. Cada resultado debe ser un par ordenado que indique el orden de extracción.
Solución:
Hay un total de 6 bolas al inicio (4 rojas + 2 azules). Los resultados son pares
ordenados (bola 1, bola 2), donde la bola 2 es diferente de la bola 1.
Ω = { (R1,R2), (R1,R3), (R1,R4), (R1,A1), (R1,A2), (R2,R1), (R2,R3), (R2,R4),
(R2,A1), (R2,A2), (R3,R1), (R3,R2), (R3,R4), (R3,A1), (R3,A2), (R4,R1), (R4,R2), (R4,R3),
(R4,A1), (R4,A2), (A1,R1), (A1,R2), (A1,R3), (A1,R4), (A1,A2), (A2,R1), (A2,R2), (A2,R3),
(A2,R4), (A2,A1) }
Se cuenta con 30 elementos en el espacio muestral.
Problema 3 (Aplicado a la ingeniería civil):
Una empresa constructora recibe lotes de 40 sacos de cemento de un proveedor. Para
asegurar la calidad, un ingeniero civil selecciona aleatoriamente tres sacos de cemento de cada
lote para una inspección detallada. Durante la inspección, cada saco se clasifica como
"Aceptable" (A) o "Defectuoso" (D) según sus propiedades de resistencia y fraguado.
a) Define el experimento aleatorio.
b) Construye el espacio muestral (Ω) de los posibles resultados para la inspección de
los tres sacos.
Solución:
a) El experimento aleatorio es la selección y clasificación de tres sacos de cemento de
un lote, registrando si cada saco es Aceptable (A) o Defectuoso (D) en el orden en que son
inspeccionados.
b) Dado que cada uno de los tres sacos puede ser clasificado como A (Aceptable) o D
(Defectuoso), y hay 2 posibilidades para cada saco, el número total de resultados posibles es 23
=8. El espacio muestral es: Ω= {AAA, AAD, ADA, DAA, ADD, DAD, DDA, DDD}.
5.2. Conteo de puntos muestrales:
En muchos experimentos aleatorios, el espacio muestral puede ser grande, lo que
dificulta la enumeración directa de todos sus puntos muestrales. Las técnicas de conteo,
también conocidas como análisis combinatorio, proporcionan métodos sistemáticos para
determinar el número de posibles resultados sin necesidad de listarlos explícitamente. Estas
herramientas son cruciales para el cálculo de probabilidades cuando se aplica el enfoque
clásico, y son la base para comprender la estructura de muchos eventos.
5.2.1. Principio de Multiplicación:
Este principio establece que, si una operación puede realizarse de n1 maneras, y una
segunda operación puede realizarse de n2 maneras, y así sucesivamente hasta una k-ésima
operación que puede realizarse de n k maneras, entonces el número total de maneras en que
pueden realizarse las k operaciones juntas es el producto: n1×n2 ×…×n k.
- Ejemplo: Si se puede elegir una camisa de 3 colores, un pantalón de 4 colores y unos
zapatos de 2 colores, el número total de combinaciones de vestimenta es 3×4×2=24.
5.2.2. Variaciones:
Las variaciones se refieren a las diferentes formas de seleccionar y ordenar un
subconjunto de elementos de un conjunto mayor. El orden de los elementos sí importa.
a) Variaciones sin repetición (Permutaciones de n elementos tomando k a la vez): Se
utilizan cuando se seleccionan k elementos de un conjunto de n elementos distintos, y
el orden en que se seleccionan es relevante. Una vez que un elemento ha sido
seleccionado, no se puede volver a seleccionar. La fórmula para calcular el número de
variaciones sin repetición de n elementos tomados de k en k es:
n!
V (n ,k )=P (n , k )=
(n−k )!
b) Variaciones con repetición: Se utilizan cuando se seleccionan k elementos de un
conjunto de n elementos, y el orden importa, permitiendo que los elementos se repitan.
La fórmula es:
k
VR(n , k )=n
5.2.3. Permutaciones:
Las permutaciones son un caso especial de variaciones sin repetición donde se utilizan
todos los elementos del conjunto (k=n). Es decir, las permutaciones son las diferentes maneras
de ordenar un conjunto completo de n elementos distintos. El orden es fundamental.
a) Permutaciones de n elementos distintos: La fórmula para calcular el número de
permutaciones de n elementos distintos es:
P(n)=n!
b) Permutaciones con objetos repetidos: Cuando se tienen n elementos donde n1 son de
un tipo, n2 de otro tipo, ..., n k de un k-ésimo tipo, y n1 +n2+…+n k =¿ n, el número de
permutaciones distintas es:
n!
P ¿,n2,…,n k¿=
n1 !+ n2 ! +…+n k !
5.2.4. Combinaciones:
se refieren a las diferentes formas de seleccionar un subconjunto de elementos de un
conjunto mayor, donde el orden de los elementos seleccionados no importa.
a) Combinaciones sin repetición: Se utilizan cuando se seleccionan k elementos de un
conjunto de n elementos distintos, y el orden de selección no es relevante. La fórmula
para calcular el número de combinaciones de n elementos tomados de k en k es:
C ( n , k )=
n!
()
=
k ! ( n−k ) ! k
n
Problemas:
Problema 1:
Un sistema de seguridad en una obra requiere un código de 4 dígitos. Si los dígitos
pueden ser del 0 al 9 y se permite la repetición, ¿cuántos códigos diferentes son posibles?
Solución:
Aquí, n=10 (dígitos del 0 al 9) y k=4 (longitud del código).
VR (10,4) =104=10,000 códigos diferentes.
Problema 2:
En un proyecto de construcción, se deben asignar 3 ingenieros (de un grupo de 8
disponibles) a 3 roles distintos: jefe de Obra, Supervisor de Seguridad y Encargado de Control
de Calidad. ¿De cuántas maneras diferentes se pueden asignar los roles?
Solución:
n=8 (total de ingenieros) y k=3 (roles a asignar).
El orden importa, ya que no es lo mismo ser jefe de Obra que Supervisor de Seguridad.
8!
V ( 8 , 3 )= =336 maneras
( 8−3 ) !
Problema 3:
Solución:
Un ingeniero civil debe organizar la secuencia de 5 inspecciones de rutina en una
jornada laboral. ¿De cuántas maneras diferentes puede planificar la secuencia de estas
inspecciones?
Solución:
n=5 (inspecciones).
P(5)=5 !=5 × 4 ×3 ×2 ×1=120 maneras .
Problema 4:
De un equipo de 10 ingenieros, se necesita formar un comité de 4 ingenieros para
evaluar un nuevo sistema de gestión de proyectos. ¿De cuántas maneras diferentes se puede
formar el comité?
Solución:
n=10 (total de ingenieros) y k=4 (miembros del comité). El orden no importa, ya que
ser miembro del comité es lo mismo, independientemente de cómo se haya elegido.
(104)= 4 ! ( 10−4
10 !
)!
=210 maneras
5.3. Probabilidad de un evento:
Una vez que se han definido los experimentos aleatorios, los espacios muestrales y los
eventos, el siguiente paso fundamental en el estudio de la probabilidad es la asignación de un
valor numérico a la ocurrencia de un evento. Este valor, conocido como probabilidad,
cuantifica la verosimilitud de que un evento ocurra. A lo largo de la historia, se han
desarrollado diferentes enfoques para definir y calcular la probabilidad de un evento, cada uno
con sus propias bases y aplicaciones.
5.3.1. Enfoque clásico:
El enfoque clásico, propuesto por Pierre Simón Laplace, es el más intuitivo y se aplica
cuando todos los resultados posibles de un experimento aleatorio son igualmente probables. Se
define la probabilidad de un evento A como la razón entre el número de resultados favorables
al evento A y el número total de resultados posibles en el espacio muestral.
Definición: Si un experimento aleatorio tiene N resultados posibles igualmente
probables, y de estos N resultados, n(A) son favorables al evento A, entonces la probabilidad
del evento A se calcula como:
n ( A ) Número de resultados favorables a A
P ( A )= =
N Número total de resultados posibles
Este enfoque requiere que el espacio muestral sea finito y que todos los puntos
muestrales tengan la misma probabilidad de ocurrir (sean equiprobables). La principal
limitación de este enfoque es que no siempre es posible asumir que todos los resultados son
igualmente probables, ni que el espacio muestral es finito.
5.3.2. Enfoque Frecuentista:
El enfoque frecuentista, también conocido como probabilidad empírica o estadística, se
basa en la observación de la frecuencia relativa de un evento cuando un experimento se repite
un gran número de veces bajo condiciones similares.
Definición: La probabilidad de un evento A se estima como la frecuencia relativa con
la que ocurre el evento en una larga serie de repeticiones del experimento. A medida que el
número de repeticiones (n) tiende a infinito, la frecuencia relativa se aproxima a la
probabilidad real del evento;
Número de vecesque ocurre A
P ( A )=lim
n→∞ n
Este enfoque es útil cuando no se pueden enumerar los resultados igualmente probables
o cuando la naturaleza del fenómeno es incierta. Es la base de las estadísticas inferenciales y el
control de calidad.
5.3.3. Enfoque Axiomático:
El enfoque axiomático, formulado por el matemático ruso Andréi Kolmogórov,
proporciona una base matemática rigurosa para la teoría de la probabilidad, sin depender de la
equiprobabilidad o la repetición de experimentos. Este enfoque define la probabilidad como
una función que asigna un número real a cada evento en un espacio muestral, y establece un
conjunto de axiomas que esta función debe satisfacer.
Sea Ω el espacio muestral y F la colección de todos los eventos (uniones e
intersecciones de los subconjuntos del espacio muestral). Una función de probabilidad P es
una función P: F→R que satisface los siguientes tres axiomas:
- Axioma 1 (No negatividad): La probabilidad de cualquier evento A es un número no
negativo.
- Axioma 2 (Normalización): La probabilidad del evento seguro (el espacio muestral
completo) es igual a 1.
- Axioma 3 (Aditividad): Para cualquier secuencia de eventos mutuamente excluyentes
(disjuntos) A1 , A 2 , A3 , …(es decir , A i ∩ A j=∅ para i/ j), la probabilidad de su unión es
la suma de sus probabilidades individuales.
A partir de estos axiomas, se pueden deducir otras propiedades importantes de la
probabilidad:
- La probabilidad del evento imposible es cero: P (∅) = 0.
- La probabilidad de que un evento no ocurra (su complemento) es 1 menos la
probabilidad de que ocurra: P ( Ac )=1 − P(A).
- Si A ⊆ B, entonces P(A) ≤ P(B).
- Para dos eventos cualesquiera A y B (no necesariamente mutuamente excluyentes):
P(A∪B) =P(A)+P(B)−P(A∩B).
Este enfoque es la base matemática moderna de la probabilidad, permitiendo el
desarrollo de modelos probabilísticos complejos y la integración con la teoría de la medida.
Aunque es más abstracto, valida y unifica los enfoques clásico y frecuentista bajo un marco
coherente.
Problemas:
Problema 1:
Un ingeniero de calidad inspecciona un lote de 100 componentes electrónicos para un
sistema de automatización. Se sabe que 5 de estos componentes son defectuosos. Si el
ingeniero selecciona un componente al azar, ¿cuál es la probabilidad de que sea defectuoso?
Solución:
Resultados favorables (componentes defectuosos) n(A)=5.
Total de resultados posibles (total de componentes) N=100.
P(Defectuoso)=1005=0.05.
Problema 2:
Para determinar la probabilidad de que un tipo particular de viga de hormigón falle
bajo una carga específica, un laboratorio realiza 1000 pruebas. Si 8 de estas vigas fallan, ¿cuál
es la probabilidad empírica?
Solución:
P(Falla)=10008=0.008
5.4. Cálculo de probabilidades según el tipo de espacio muestral.
El método para calcular la probabilidad de un evento varía significativamente
dependiendo de la naturaleza del espacio muestral. Como se mencionó anteriormente, los
espacios muestrales pueden ser finitos, infinitos numerables o continuos, cada uno requiriendo
un enfoque específico para la asignación y el cálculo de probabilidades.
5.4.1. Cálculo de Probabilidades en Espacios Muestrales Finitos
Cuando el espacio muestral Ω de un experimento aleatorio es finito y consta de N
resultados posibles (N<∞ ), el cálculo de probabilidades a menudo se basa en el enfoque
clásico o en la asignación de probabilidades a cada punto muestral.
a) Enfoque de Puntos Muestrales Equiprobables:
Si todos los N puntos muestrales en Ω son igualmente probables, entonces la
probabilidad de cada punto muestral es 1/N. La probabilidad de cualquier evento A se
calcula sumando las probabilidades de los puntos muestrales que lo componen, lo que
equivale a la fórmula clásica:
n ( A) Número de puntos muestrales en A
P ( A )= =
N Número total de puntos muestrales en Ω
Las técnicas de conteo (variaciones, permutaciones, combinaciones) son
indispensables aquí para determinar n(A) y N.
b) Enfoque de Puntos Muestrales No Equiprobables:
En algunos casos, los puntos muestrales en un espacio finito pueden no ser
igualmente probables. En este escenario, a cada punto muestral se le asigna una
probabilidad pi tal que
- 0 ≤ pi ≤1 para todo i .
N
- ∑ pi =1
i=1
La probabilidad de un evento A es entonces la suma de las probabilidades de todos
lo puntos muestrales que pertenecen a A.
5.4.2. Cálculo de Probabilidades en Espacios Muestrales Infinitos Numerables:
En un espacio muestral infinito numerable, los resultados del experimento pueden ser
contados (ej. 1, 2, 3, ...), pero el número de resultados es infinito. En este caso, no es posible
asignar una probabilidad uniforme a cada punto muestral (ya que 1/∞ no se comportaría como
una probabilidad). En su lugar, se utiliza una función de masa de probabilidad (FMP), P(x),
que asigna una probabilidad a cada valor discreto x que puede tomar la variable aleatoria.
Definición de FMP: Para una variable aleatoria discreta X sobre un espacio muestral
infinito numerable, una función P(x) es una FMP si satisface:
- P(x)≥0 para todos los valores x posibles.
- ∑ P (x)=1, donde la suma se extiende sobre todos los valores posibles de x. La
x
probabilidad de un evento A se calcula sumando las probabilidades de los valores x
que pertenecen al evento A:
P ( A )= ∑ P(x )
X∈A
5.4.3. Cálculo de Probabilidades en Espacios Muestrales Continuos
Los resultados del experimento pueden tomar cualquier valor dentro de un intervalo (o
varios intervalos) de números reales. En este caso, la probabilidad de que una variable
aleatoria tome un valor específico es cero, P(X=x) =0. En su lugar, se calcula la probabilidad
de que la variable caiga dentro de un rango de valores. Esto se hace utilizando una función de
densidad de probabilidad (FDP), f(x).
Definición de FDP: Para una variable aleatoria continua X, una función f(x) es una
FDP si satisface:
- f (x)≥ 0 para todos los valores de x
- El área de la curva de f (x) es ∫ f ( x ) dx = 1, la probabilidad de que X tome un valor en
−∞
un intervalo (a, b) se calcula con el área bajo FDP en ese intervalo:
b
P ( a ≤ X ≤b )=∫ f ( x ) dx
a
Función de Distribución Acumulada (FDA o CDF): Para ambos tipos de espacios
muestrales (discretos y continuos), la FDA, F(x)=P (X≤ x), es una función que da la
probabilidad de que la variable aleatoria X tome un valor menor o igual a x. Es una
herramienta muy útil para calcular probabilidades de rangos. Para variables continuas,
x
F ( x )= ∫ f ( t ) dt
−∞
Problemas:
Problema 1:
Un ingeniero de estructuras selecciona al azar 2 vigas de un lote de 10 vigas idénticas
(V1, V2, ..., V10) para una prueba de resistencia. ¿Cuál es la probabilidad de que las vigas V1
y V2 sean seleccionadas?
Solución:
El número total de formas de seleccionar 2 vigas de 10, donde el orden no importa, se
calcula con combinaciones: 45 pares posibles.
Evento A (Vigas V1 y V2 son seleccionadas): Solo hay una forma de que este evento
ocurra:
A= {{V1, V2}}. Así, n(A)=1.
n ( A) 1
P ( A )= =
N 45
Problema 2:
Un ingeniero de software calcula el número de errores de programación (bugs)
encontrados en un módulo de código de un programa de simulación de estructuras hasta que el
primer bug es detectado. El número de revisiones hasta encontrar el primer bug (X) es una
variable aleatoria que puede tomar valores 1,2, 3, … (un espacio muestral infinito numerable).
Solución:
Supongamos que la probabilidad de encontrar el primer bug en la x-ésima revisión está
dada por la función P(x)=(0.7) x−1 (0.3) para x=1,2, 3, …
Evento C (El primer bug se encuentra en la tercera revisión): C = {3}
Cálculo de Probabilidad: P(C)= P (3) = (0.7)3−1 (0.3) = (0.7)3−1 ¿0.3) = 0.49×0.3 =
0.147.
Evento D (El primer bug se encuentra en menos de 3 revisiones): D = {1,2}.
Cálculo de Probabilidad: P(D) = P (1) +P (2) = (0.7)0 (0.3) + (0.7)1 (0.3) = 0.3+0.21=
0.51.
Problema 3:
El tiempo de vida (en años) de un tipo de sensor de deformación utilizado en puentes
sigue una distribución continua con una función de densidad de probabilidad dada por f(t)=0.2
−0.2 t
(e ) para t≥0, y f(t)=0 para t < 0. (Esto corresponde a una distribución exponencial).
Solución:
Evento E (El sensor dura entre 3 y 5 años): E = {t/3 ≤ t ≤ 5}.
5
P ( 3 ≤t ≤ 5 ) =∫ 0.2(e)
−0.2 t
dx
3
Calculando la integral:
−0.2 x 5
(−e ) −(−e )−0.2 x 3= 0.1809
La probabilidad de que el sensor dure entre 3 y 5 años es aproximadamente 0.1809.
5.5. Probabilidad condicional:
En el ámbito de la probabilidad, a menudo nos encontramos con situaciones en las que
la ocurrencia de un evento afecta la probabilidad de que otro evento ocurra. La probabilidad
condicional es una herramienta esencial que permite cuantificar esta relación, calculando la
probabilidad de que un evento suceda dado que otro evento ya ha ocurrido. Este concepto es
fundamental para el análisis de la dependencia entre eventos y es la base para el desarrollo de
reglas más complejas como el Teorema de Bayes.
5.5.1. Definición de Probabilidad Condicional:
La probabilidad condicional del evento A, dado que el evento B ha ocurrido, se denota
como P(A∣B) y se define de la siguiente manera:
P( A ∩ B)
P ( A / B )=
P(B)
Esta fórmula es válida siempre que P(B)>0.
Interpretación: P(A/B) representa la probabilidad de que el evento A ocurra, sabiendo
que el evento B ya ha ocurrido. En esencia, la ocurrencia de B restringe el espacio muestral
original a solo aquellos resultados donde B es verdadero, y dentro de ese nuevo espacio
reducido, se evalúa la probabilidad de A.
Si consideramos el espacio muestral original, P(A∩B) es la probabilidad de que ambos
eventos A y B ocurran. Al "condicionar" sobre B, estamos diciendo que solo nos interesan los
casos en los que B ha sucedido. Por lo tanto, dividimos por P(B) para "re-escalar" las
probabilidades dentro del nuevo espacio muestral definido por B, de modo que la suma de las
probabilidades dentro de ese espacio condicional sea 1.
Problemas:
Problema 1:
En un estudio de fiabilidad de componentes estructurales, se sabe que:
- La probabilidad de que un componente tenga una grieta interna (G) es P(G)=0.08.
- La probabilidad de que un componente tenga una grieta interna Y falle prematuramente
(F) es P(G∩F) = 0.03.
- La probabilidad de que un componente falle prematuramente (F) es P(F)=0.05.
¿Cuál es la probabilidad de que un componente tenga una grieta interna, dado que ya se sabe
que ha fallado prematuramente?
Solución:
Aplicando la fórmula de probabilidad condicional:
0.03
P ( G/ F ) = =0.60
0.05
Esto significa que, si un ingeniero ya ha identificado que un componente ha fallado
prematuramente, la probabilidad de que esa falla se deba a una grieta interna aumenta
significativamente al 60%. Esto es crucial para el diagnóstico y la mejora de procesos de
fabricación.
Problema 2:
Un ingeniero de control de calidad está inspeccionando lotes de concreto fresco. Se
sabe que:
- La probabilidad de que un lote tenga una consistencia adecuada (C) es P(C) = 0.90.
- La probabilidad de que un lote tenga una resistencia a la compresión adecuada (R) es
P(R)=0.85.
- La probabilidad de que un lote tenga ambas propiedades adecuadas (C y R) es P(C∩R)
= 0.80.
Si se selecciona un lote y se verifica que tiene una consistencia adecuada, ¿cuál es la
probabilidad de que también tenga una resistencia a la compresión adecuada? Es decir,
queremos calcular P(R/C).
Solución:
Aplicando la fórmula de probabilidad condicional:
0.80
P ( R/C )= =0.8889
0.90
Si se ha confirmado que un lote de concreto tiene la consistencia correcta, la
probabilidad de que también cumpla con la resistencia a la compresión adecuada es de
aproximadamente 88.89%. Esta información es valiosa para la toma de decisiones en obra,
permitiendo proceder con la colocación del concreto con mayor confianza.
5.6. Eventos independientes
El concepto de eventos independientes es fundamental en probabilidad, ya que
simplifica considerablemente el cálculo de probabilidades conjuntas y la modelación de
fenómenos donde la ocurrencia de un suceso no tiene influencia sobre otro. A diferencia de la
probabilidad condicional, donde la información de un evento modifica la probabilidad de otro,
la independencia implica una falta de interconexión probabilística
Dos eventos, A y B, son considerados independientes si la ocurrencia de uno no afecta
la probabilidad de ocurrencia del otro. Formalmente, la independencia puede definirse de
varias maneras equivalentes:
- Definición 1: Usando probabilidad condicional
P(A/B) = P(A), siempre que P(B)>0. Esto significa que la probabilidad de A es la
misma, se sepa o no que B ocurrió.
- Definición 2: Usando la regla de la multiplicación
P(A∩B) = P(A)P(B). Esto establece que la probabilidad de que ambos eventos A y B
ocurran es simplemente el producto de sus probabilidades individuales. Esta es la
condición más utilizada para probar la independencia.
Es importante destacar que, si se cumple una de estas condiciones, se cumplen todas las
demás. Si A y B no satisfacen estas condiciones, se les denomina eventos dependientes.
5.6.1. Diferencias entre Eventos Independientes y Mutuamente Excluyentes:
a) Eventos Mutuamente Excluyentes: Dos eventos A y B son mutuamente excluyentes si
no pueden ocurrir al mismo tiempo; es decir, A∩B=∅. Esto implica que P(A∩B) =0. Si
P(A)>0 y P(B)>0, entonces no pueden ser independientes, ya que P(A)P(B)≠ 0. Por lo
tanto, si dos eventos con probabilidad no nula son mutuamente excluyentes, ¡son
necesariamente dependientes! La ocurrencia de uno de ellos (por ejemplo, A) nos
asegura que el otro (B) no puede ocurrir, cambiando drásticamente su probabilidad de
cero.
b) Eventos Independientes: Dos eventos A y B son independientes si la ocurrencia de uno
no afecta la probabilidad del otro. Como se vio, esto implica P(A∩B) = P(A)P(B).
Los eventos mutuamente excluyentes no pueden ocurrir juntos, mientras que los
eventos independientes pueden ocurrir juntos, y la ocurrencia de uno no da información sobre
la ocurrencia del otro.
Problemas:
Problema 1:
Un ingeniero de materiales realiza dos pruebas de resistencia idénticas y separadas en
dos muestras diferentes de un nuevo lote de acero.
- Sea A el evento de que la primera muestra de acero pase la prueba de resistencia.
P(A)=0.95.
- Sea B el evento de que la segunda muestra de acero pase la prueba de resistencia.
P(B)=0.95.
Dado que las dos muestras son diferentes y las pruebas se realizan de manera
independiente, es razonable asumir que los eventos A y B son independientes.
¿Cuál es la probabilidad de que ambas muestras pasen la prueba de resistencia?
Solución:
Si A y B son independientes, entonces: P(A∩B) = P(A)P(B) = 0.95×0.95 = 0.9025.
La independencia de los eventos permite multiplicar directamente sus probabilidades
para encontrar la probabilidad de su ocurrencia conjunta, lo cual simplifica enormemente el
cálculo.
Problema 2:
Un sistema hidráulico en una estación de bombeo de agua para una ciudad consta de
dos bombas (B1 y B2) que operan de forma independiente.
- La probabilidad de que la Bomba 1 falle en un mes es P ( F 1) = 0.02.
- La probabilidad de que la Bomba 2 falle en un mes es P ( F 2) = 0.03.
¿Cuál es la probabilidad de que ambas bombas fallen en un mes determinado?
¿Cuál es la probabilidad de que al menos una bomba falle en un mes?
Solución:
Dado que las fallas son independientes: P ( F 1∩ F 2 ) = P ( F 1) P ( F 2) = 0.02×0.03 =
0.0006.
Podemos usar la regla de la adición para eventos no mutuamente excluyentes:
P(F1∪F2) = P ( F 1) + P ( F 2) – P ( F 1∩ F 2)
P(F1∪F2) = 0.02 + 0.03 − 0.0006 = 0.05 − 0.0006 = 0.0494.
Alternativamente, usando el complemento:
P (al menos una falle) = 1−P (ninguna falle)
P (ninguna falle) = P ( F c1∩ F c2) Como F 1 y F 2 son independientes, sus complementos F c1 y F c2
también lo son.
P ( F c1 ) =1−0.02=0.98
P ( F c2 ) =1−0.03=0.97
P ( F c1 ∩ F c2) =P(F1c) P ( F c2) =0.98×0.97=0.9506.
P (al menos una falle) =1−0.9506=0.0494.
5.7. Reglas de la Multiplicación:
Las reglas de la multiplicación son un conjunto de principios fundamentales en
probabilidad que permiten calcular la probabilidad de que dos o más eventos ocurran
conjuntamente (es decir, la probabilidad de su intersección). La forma específica de la regla
depende de si los eventos son dependientes o independientes. Estas reglas derivan
directamente de la definición de probabilidad condicional y son esenciales para el análisis de
secuencias de eventos.
5.7.1. Regla General de la Multiplicación (para Eventos Dependientes):
Esta regla se aplica cuando la ocurrencia de un evento sí afecta la probabilidad de
ocurrencia del otro. Es una reordenación de la fórmula de probabilidad condicional
La probabilidad de que dos eventos, A y B, ocurran conjuntamente es igual a la
probabilidad de que ocurra el primer evento (A), multiplicada por la probabilidad condicional
de que ocurra el segundo evento (B), dado que el primer evento (A) ya ocurrió.
P( A ∩ B)=P( A) P ( A /B )
Alternativamente, también puede expresarse como:
P( A ∩ B)=P(B)P ( A/ B )
Siempre que P(A)>0 y P(B)>0 respectivamente.
- Extensión para múltiples eventos: Esta regla puede extenderse para calcular la
probabilidad de la intersección de más de dos eventos. Por ejemplo, para tres eventos
A, B y C:
P( A ∩ B ∩C)=P( A )P ( B / A ) P ( C / A ∩B )
5.7.2. Regla de la Multiplicación para Eventos Independientes:
Cuando los eventos son independientes, la ocurrencia de uno no influye en la
probabilidad de ocurrencia del otro. En este caso, la regla general de la multiplicación se
simplifica significativamente.
Si dos eventos, A y B, son independientes, la probabilidad de que ambos ocurran
conjuntamente es simplemente el producto de sus probabilidades individuales.
P( A ∩ B)=P ( A ) P (B)
- Extensión para múltiples eventos independientes: Para una serie de eventos
independientes
P ( A 1 ∩ A 2 ∩ … ∩ A k ) =P ( A 1 ) P ( A 2) … P ( Ak )
Las reglas de la multiplicación son herramientas esenciales para el cálculo de
probabilidades conjuntas, permitiendo a los ingenieros modelar y analizar situaciones que
involucran la secuencia o concurrencia de eventos, ajustando los cálculos según la
dependencia o independencia de los mismos.
Problemas:
Problema número 1:
Una caja contiene 5 planos de proyectos de estructuras (P) y 3 planos de proyectos de
cimentación (C). Un ingeniero selecciona al azar dos planos de la caja, uno tras otro, sin
reemplazo. ¿Cuál es la probabilidad de que ambos planos seleccionados sean de estructuras?
Solución:
Sea P1 el evento de que el primer plano seleccionado sea de estructuras.
P ( P1) = 5/8
Sea P2 el evento de que el segundo plano seleccionado sea de estructuras. Dado que el
primer plano de estructuras no fue reemplazado, ahora quedan 4 planos de estructuras y un
total de 7 planos.
P ( P1 / P2) = 4/7
Usando la regla general de la multiplicación:
5x 4 5
P ( P 1 ∩ P 2) = P ( P 1 ) P ( P 2/ P 1 ) = = =0.3571
8 x 7 14
La probabilidad de obtener dos planos de estructuras consecutivamente, sin reemplazo,
es aproximadamente 35.71%. Este cálculo es común en escenarios donde la población de la
cual se muestrea se ve afectada por cada extracción.
Problema 2:
En un sistema de señalización de tráfico en una carretera, dos semáforos (S1 y S2)
operan de forma independiente.
La probabilidad de que el Semáforo 1 funcione correctamente en un día determinado es
P( S 1C) = 0.98.
La probabilidad de que el Semáforo 2 funcione correctamente en un día determinado es
P( S 2C ) = 0.97.
¿Cuál es la probabilidad de que ambos semáforos funcionen correctamente en un día dado?
Solución:
Dado que los eventos son independientes:
P ( S 1C∩ S 2C ) = P ( S 1C) P ( S 2C ) = 0.98×0.97 = 0.9506
La probabilidad de que ambos semáforos operen sin fallas, asumiendo su
independencia, es del 95.06%. Esta simplificación es clave en el análisis de fiabilidad de
sistemas con componentes no interconectados.
5.8. Regla de la Probabilidad Total y Regla de Bayes
La probabilidad total y el Teorema de Bayes son herramientas poderosas en el campo
de la inferencia probabilística. La Regla de la Probabilidad Total permite calcular la
probabilidad de un evento combinando las probabilidades de escenarios mutuamente
excluyentes y exhaustivos que conducen a ese evento. El Teorema de Bayes, por su parte, es
fundamental para la actualización de probabilidades a la luz de nueva información o evidencia,
transformando probabilidades "a priori" en probabilidades "a posteriori"
5.8.1. Regla de la Probabilidad Total
La Regla de la Probabilidad Total es útil cuando un evento B puede ocurrir en conjunto
con varios eventos mutuamente excluyentes y colectivamente exhaustivos. Si A1 , A 2 ,… , A n
son una partición del espacio muestral entonces la probabilidad de cualquier evento B se puede
calcular como la suma de las probabilidades de las intersecciones de B cada Ai :
n
P ( B )=∑ P(B ¿ ∩ A i)¿
i=1
Aplicando la regla de la multiplicación, la fórmula se expresa comúnmente como:
P ( B )=P ( A 1 ) P (B / A 1)+ P ( A2 ) P( B/ A2 )+… P ( A 3 ) P(B / A 3 )
5.8.2. Teorema de Bayes:
El Teorema de Bayes es una de las fórmulas más importantes en estadística y
probabilidad. Permite calcular la probabilidad condicional inversa, es decir, actualizar la
probabilidad de una "causa" o "hipótesis" dada la observación de un "efecto" o "evidencia".
Si A1 , A 2 ,… , A nconstituyen una partición del espacio muestral (eventos mutuamente
excluyentes y colectivamente exhaustivos), y B es un evento tal que P(B)>0, entonces la
probabilidad condicional de cualquier A j dado B es:
P( A ¿¿ 1∩ B)
P( A j /B)= ¿
P( B)
Sustituyendo P ( A j ∩ B) con P ( A j) P ( B/ A j) (de la regla de la multiplicación) y P(B)
con la Regla de la Probabilidad Total, obtenemos la forma más conocida del Teorema de
Bayes:
P( A j) P( B/ A j)
P( A j /B)= n
∑ P( A i ¿ )P(B/ Ai ) ¿
i=1
Problemas:
Problema 1:
Una empresa constructora utiliza tres proveedores ( P1, P2, P3) para el hormigón, con
las siguientes proporciones de suministro:
- P1 suministra el 50% del hormigón (P( P1) = 0.50).
- P2 suministra el 30% del hormigón (P( P2) = 0.30).
- P3 suministra el 20% del hormigón (P( P3) = 0.20).
Se sabe que el porcentaje de hormigón que no cumple con las especificaciones de
resistencia es:
- 4% para P1 (P (No Cumple/ P1) = 0.04).
- 6% para P2 (P (No Cumple/ P2) = 0.06).
- 3% para P3 (P (No Cumple/ P3) = 0.03).
Si un ingeniero selecciona un lote de hormigón al azar, ¿cuál es la probabilidad de que
no cumpla con las especificaciones de resistencia? Sea NC el evento "el hormigón no cumple".
Solución:
Aplicando la regla de la probabilidad total:
P ( NC )=P ( P1 ) P(NC / P1 )+ P ( P2 ) P(NC /P 2)+… P ( P3 ) P ( NC / P3)
P ( NC )= (0.50) (0.04) + (0.30) (0.06) + (0.20) (0.03)
P ( NC ) = 0.020 + 0.018 + 0.006
P ( NC )= 0.044
La probabilidad general de que un lote de hormigón seleccionado al azar no cumpla
con las especificaciones es del 4.4%. Esta regla permite consolidar las probabilidades de un
evento que puede manifestarse a través de diferentes "causas" o "estados".
Problema 2:
Retomando el ejemplo anterior de los proveedores de hormigón. Supongamos que un
ingeniero de calidad recibe un lote de hormigón y, al inspeccionarlo, descubre que no cumple
con las especificaciones de resistencia ( NC ) .¿Cuál es la probabilidad de que este lote provenga
del proveedor P2?
Solución:
Aplicando el teorema de Bayes para P(P¿¿ 2 /NC )¿:
P(P¿¿ 2)P (NC / P2)
P(P¿¿ 2 /NC )= ¿¿
PC (NC )
( O .30 ) ( 0.06 ) 0.018
P(P¿¿ 2 /NC )= = =0.4091 ¿
0.044 0.044
Una vez que se observó que el lote no cumplía con las especificaciones, la probabilidad
de que proviniera de P2 se actualizó y aumentó a aproximadamente 40.91%. Esto se debe a
que el hormigón de P2 tiene una tasa de incumplimiento relativamente más alta.