0% encontró este documento útil (0 votos)
32 vistas67 páginas

Notas Probabilidad

El documento es un material académico sobre probabilidad y estadística, diseñado para estudiantes de la Facultad de Ingeniería de la Benemérita Universidad Autónoma de Puebla. Incluye definiciones, conceptos y técnicas relacionadas con la estadística y la probabilidad, así como un índice detallado de los temas tratados. Su objetivo es aplicar conceptos de álgebra lineal en la resolución de problemas relacionados con sistemas de ecuaciones lineales y transformaciones matriciales.

Cargado por

ftosdianalsg
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
32 vistas67 páginas

Notas Probabilidad

El documento es un material académico sobre probabilidad y estadística, diseñado para estudiantes de la Facultad de Ingeniería de la Benemérita Universidad Autónoma de Puebla. Incluye definiciones, conceptos y técnicas relacionadas con la estadística y la probabilidad, así como un índice detallado de los temas tratados. Su objetivo es aplicar conceptos de álgebra lineal en la resolución de problemas relacionados con sistemas de ecuaciones lineales y transformaciones matriciales.

Cargado por

ftosdianalsg
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

1

Benemérita Universidad Autónoma de Puebla

Facultad de Ingenierı́a

Notas de probabilidad y estadı́stica

Autor

M. C. Luis Fernando Gómez Ceballos

Otoño 2025
2

Materia: Probabilidad y estadı́stica


Área de conocimientoi:Ciencias básicas y matemáticas
Ubicación curricular: Nivel básico.

Objectives: To harness the concepts of linear algebra in the solution of problems which involve
systems of linear ecuations, matrix algebra, linear transformations and matrix diagonalisation.
Figura 1: Probabilidad y estadı́stica
4
Índice general

I Estadı́stica 7
1. Estadı́stica 9
1.1. Definiciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.1.1. Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.1.2. Variables y tipos de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2. Tamaño de la muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3. Clases de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.1. Cantidad de clases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.2. longitud y amplitud de la clase . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.3. Clases de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.4. Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3.5. Diagrama de tallo y hoja . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.4. Medidas de tendencia central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.5. Medidas de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.6. Cuartiles y percentiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.6.1. Percentil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.6.2. Cuartiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.6.3. Diagrama de caja y bigotes . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.7. Medidas de forma (sesgo y curtosis) . . . . . . . . . . . . . . . . . . . . . . . . . . 20

II Probabilidad 23
2. Probabilidad 25
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2. Álgebra de eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2.1. Diagrama de Venn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2.2. Leyes del álgebra de eventos . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.3. Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.3.1. Axiomas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.4. Técnicas de conteo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.4.1. Permutaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.4.2. Permutaciones con elementos indistinguibles . . . . . . . . . . . . . . . . . 34
2.4.3. Combinaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.5. Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.5.1. Regla del producto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5
6 ÍNDICE GENERAL
2.6. Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

3. Variables aleatorias y distribuciones 41


3.1. Conceptos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.2. Variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.3. Distribución de probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.3.1. Función de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.3.2. Función de distribución acumulada . . . . . . . . . . . . . . . . . . . . . . 43
3.3.3. Valor esperado de una vad . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.3.4. Distribución binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.3.5. Distribución de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.4. Distribución continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.4.1. Función de densidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.4.2. Valor esperado y varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.4.3. Distribución normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.4.4. Distribución exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

4. Regresión lineal y correlación 61


4.1. Regresión lineal simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.1.1. Diagrama de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.1.2. Métodos de mı́nimos cuadrados . . . . . . . . . . . . . . . . . . . . . . . . 63
4.1.3. Error estándar de estimación . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.2. Covarianza y coeficiente de correlación de Pearson . . . . . . . . . . . . . . . . . . 66
Parte I

Estadı́stica

7
Capı́tulo 1

Estadı́stica

1.1. Definiciones
Definicion 1.1 (Estadı́stica). La estadı́stica es la rama de las matemáticas que proporciona méto-
dos para reunir, organizar y analizar información y usarla para obtener diversas conclusiones que
pueden ayudar a resolver problemas en la toma de decisiones y el diseño de experimentos [4]

Definicion 1.2 (Población). Se entiende por población al conjunto o muestra a estudiar y que
tiene ciertas caracterı́sticas con las cuales se les puede agrupar para conocer su comportamiento
sobre dichas caracterı́sticas.

Supongamos que tenemos una población de interés, esto es, un conjunto arbitrario de personas,
mediciones u objetos cualesquiera, y deseamos conocer cierta información de esta población, en
algunas ocasiones la población es tan grande que serı́a imposible de tener información de todos y
cada uno de los elementos de la población, entonces, es cuando se debe tomar un subconjunto lo
suficientemente grande que pueda ser representativo de la población total, a este subcojunto se le
conoce como muestra (ver figura 1.1) [3].

P oblacion

M uestra

Figura 1.1: Muestra representativa cuando la población es muy grande

1.1.1. Datos
Los datos es la información de la población obtenida y que conviene almacenarlos en formato
de tablas u hojas de cálculo, ya que son compatibles en casi todos los sistemas de software analı́tico
[1].
9
10 CAPÍTULO 1. ESTADÍSTICA
1.1.2. Variables y tipos de datos
Definicion 1.3 (Variable). Una variable es una caracterı́stica de un elemento en una población.

Por ejemplo, si la población consta de automóviles, las posibles variables de interés puede ser:
Marcas, color, transpote (pasajeros, carga), segmentación (pequeño,mediano,grande, gamma alta,
lujo), dependiendo lo que se desea averiguar serán las variables que se eligen.
Las variables se clasifican en cuantitativas, cuando el valor es un número y cualitativas, estas
son cuando solo se registran una cualidad o atributo del objeto de estudio. En una población de
personas, la edad, el peso son ejemplos de variables cuantitativas, mientras, el sexo y el estado
civil son variables cualitativas.
Las variables cuantitativa puede ser discreta o continua, la primera sucede cuando solo toma
valores discretos (por ejemplo, edad) , la segunda es cuando puede tomar valores dentro de un
intervalo (a, b) (por ejemplo, cantidad de agua que toma a diario) figura 1.2.

Variable

Cuantitativa Cualitativas

Discreta Continua

Figura 1.2: Clasificación de las variables

Las variables cualitativas pueden ser clasificadas de acuerdo a dos escalas: nominal u ordinal.
Mientras que las variables cuantitativas pueden clasificarse por: escala de intervalo o de razón.
Una variable se llama nominal cuando sus posibles valores no tienen alguna relación de orden
o magnitud entre ellos, por ejemplo sexo se etiqueta como Femenino (F ), Masculino (M ) Prefiero
no decir (P) los sı́mbolos F , M y P son etiquetas arbitrarias y no existe un orden en ellas no
podemos realizar operaciones arı́tmeticas [3].
La ordinal tiene un orden pero no se pueden hacer operaciones aritméticas entre estos valores
pues no hay noción de distancia entre ellos. Por ejemplo, expresar su experiencia en visitar una
tienda la cual se puede valores como 0=pésima, 1= mala, 2=regular, 3=buena, 4= excelente [3].
En la escala de intervalo existe un orden, además de existe una noción de distancia, sin embargo
no se pueden realizar operaciones. Por ejemplo el peso de una persona, se debe tener claro que en
este caso no existe valor natural de cero, ver figura 1.3.
Por último, la escla de razón tiene sentido fı́sico y existe el cero absoluto, por ejemplo la
distancia de dos automóviles cuando pasan por cierta carretera.
La clasificación de una variable no es tan clara, puesto que, depende del tratamiento que le de
el investigador.

1.2. Tamaño de la muestra


Lo primero que hay que realizar es delimitar el tamaño de la muestra porque si es muy pequeña
no representarı́a a la población y si es muy grande es posible que no se pueda manipular o se este
1.3. CLASES DE FRECUENCIAS 11
Escala de medición

Cuantativa Cualitativas

Intervalo Razón Nominal Ordinal

Figura 1.3: Clasificación de las variables acorde a la escala de medición

trabajando de más, es por esta causa que decidir el tamaño de la muestra resulta ser importante en
la fase previa de cualquier investigación cientı́fica o de mercado, puesto que esto determina el grado
de confiabilidad, es por esta razón que la muestra debe contar con las siguientes caracterı́sticas.

Representativa. Todos y cada uno de los elementos de la población deben tener la misma
oportunidad de ser tomados en cuenta para ser parte de la muestra.

Adecuada y válida. Reducir el error a su mı́nima expresión con respecto a la población.

Confiabilidad. El tamaño de la muestra debe obtenerse mediante algún proceso matemático


que elimine la incidencia del error.

El problema de decidir el tamaño de la muestra, no es tan sencillo, se requieren de conocimientos


que se veran más adelante, como el intervalo de confianza y la prueba de hipótesis, entre otras
consideraciones.

1.3. Clases de frecuencias


Cuando los datos son cosiderable se recomienda distribuir los datos en intervalos o clases.

Definicion 1.4. Dado un conjunto de datos se llama intervalos de clase o clases de fre-
cuencia a los intervalos que por parejas son ajenos o disjuntos y contienen a todos los datos del
conjunto [4].

Nota Por lo general a las clases de frecuencia simplimente se les denomina clases.
¿En cuántos intervalos se deben distribuir los datos?

1.3.1. Cantidad de clases


En general no hay una regla determinante para seleccionar el número de clases, sin embargo,
en la práctica se emplean diferentes reglas para encontrar la que posiblemete se puede decir que
es la más idonea, lo que si se debe tomar en cuenta que el número de datos no sea excesiva o muy
pequeña.
Sea n el número total de la muestra, entonces, las reglas más comunes para calcular las clases
son:

1. De forma empı́rica es determinar el entero más cercano n.
12 CAPÍTULO 1. ESTADÍSTICA
2. La regla que considera el entero más cercano log2 n.

3. La llamada regla de Sturges, donde la cantidad de clases se toma como el entero más cercano
a 1 + 10
3
log n.

Ejemplo 1.1. Sea n = 300 el total de datos de la muestra, entonces:



Con la primera regla 300 = 17.32, luego, se recomiendan 14 clases.
Con la segunda regla log2 300 = 8.22, entonces, se recomiendan 8 clases.
Con la tercera regla 1 + 10
3
log 300 = 9.25, ası́ se recomiendan 9 clases.

1.3.2. longitud y amplitud de la clase


Toda clase de frecuencias tiene un lı́mite inferior li y uno superior ls , entonces para calcular el
intervalo de la longitud de la clase se toma la diferencia de los lı́mites y se divide entre el número
de clases m, esto es

ls − li
x= (1.1)
m
luego, para calcular primero se calculan los lı́mites superior e inferior de cada intervalo de la
siguiente manera:

x1 = li + x
x2 = x1 + x
x3 = x2 + x
·
xm − 1 = xm−2 + x

Para obtener los intervalor, solo se toman los valores (xi , xi+1 ] que deben ser igual al número
de clases m, cabe destacar que el primer intervalo debe ser cerrado por ambos lados.

1.3.3. Clases de frecuencias


Después de obtener las clases se van clasificando los datos acorde al intervalo que pertenezca el
dato, a este proceso se le llama clase de frecuencia o simplemente frecuencias fi , la información
de frecuencias siempre se presenta en una tabla como se muestra en el ejemplo 1.2

Definicion 1.5 (Frecuencia relativa). La frecuencia relativa es igual al número de datos en un


intervalo (frecuencia) entre el total de datos de la muestra.

fi
fr = (1.2)
n
donde n es el número total de datos.
1.3. CLASES DE FRECUENCIAS 13
1.3.4. Histograma
La información que brinda una distribución de frecuencias relativas en forma tabular es más
facı́l de entender si se presenta en forma de grafica. Con los puntos medios de cada intervalo y las
frecuencias relativas correspondientes construimos un histograma de frecuencias relativas.

Ejemplo 1.2.

Consideremos los datos de la tabla 1.1. Los datos representan la resistencia al estallamiento en
libras por pulgada cuadrada de cien botellas con capacidad de un litro, ejemplo tomado del [1].

Tabla 1.1: Resistencia la estallamiento, en libras por pulgada cuadrada de 100 botellas de vidrio
con capacidad de un litro, tabla tomada del Hines [1]
265 197 346 280 265 200 221 265 261 278
205 286 317 242 254 235 176 262 248 250
263 274 242 260 281 246 248 271 260 265
307 243 258 321 294 328 263 245 274 270
220 231 276 228 223 296 231 301 337 298
268 267 300 250 260 276 334 280 250 257
260 281 208 299 308 264 280 274 278 210
234 265 187 258 235 269 265 253 254 280
299 214 264 267 283 235 272 287 274 269
215 318 271 293 277 290 283 258 275 251

Solución

Tabla 1.2: Tabla que muestra los cálculos del rango, el número de clases y la longitud de las clases
del ejemplo 1.2
Total de datos 100
Rango de los datos 346√− 176 = 170
100 = 10,
Número de clases log2 (100) = 6.64,
1 + 103
log 100 = 7.66
Longitud de las clases x = (170/10) = 17

Entonces,la tabla de frecuencias queda de la siguiente manera

luego, el histograma de frecuencias (ver figura 1.4) queda de la siguiente manera :


Se dice que una distribución es simétrica si se puede doblar a lo largo de un eje vertical. Si
una distribución carece de simetrı́a respecto de un eje vertical, se dice que está sesgada [2]. Puede
ser sesgada a la derecha o a la izquierda dependiendo si la cola esta a la derecha o a la izquierda
alargada (ver figura 1.5).
14 CAPÍTULO 1. ESTADÍSTICA
Tabla 1.3: Clases de frecuencias y frecuencias relativas del ejemplo 1.2
Clase intervalo frecuencia frecuencias relativas
l i fi fr = fi /n
1 176-193 2 0.02
2 193-210 4 0.04
3 210-227 6 0.06
4 227-244 10 0.10
5 244-261 19 0.19
6 261-278 29 0.29
7 278-295 15 0.15
8 295-312 8 0.08
9 312-329 4 0.04
10 329-346 3 0.03
Total n=100 1

Figura 1.4: Histograma del ejemplo 1.2, realizado en Python.


1.3. CLASES DE FRECUENCIAS 15

Figura 1.5: Histogramas sesgados a) sesgado a la derecha de rojo, b) sesgado a la izquierda de


azul.

1.3.5. Diagrama de tallo y hoja


Definicion 1.6 (Diagrama de tallo y hoja). Un Diagrama de tallo y hoja es una forma
gráfica de representar de manera ordenada todos los datos del conjunto en estudio mediante clases
de frecuencias; debido a su estructura se le da este nombre.

Tabla 1.4: datos en forma de tallo-hoja con diez tallos del ejemplo 1.2.

178.5 176, 187


195.5 197, 200, 205, 208
212.5 221, 220, 223, 210, 214, 215
229.5 242, 235, 242, 243, 231, 228, 231, 234, 235, 235
246.5 254, 248, 250, 260, 246, 248, 260, 258, 245, 250, 260, 250, 257, 260, 258, 253, 254, 258, 251
263.5 265, 265, 265, 261, 262, 263, 274, 271, 265, 263, 274, 270, 276, 268, 267, 276, 264,
274, 265, 269, 265, 264, 267, 272, 274, 269, 271, 277, 275
280.5 280, 278, 286, 281, 294, 280, 281, 280, 278, 280, 283, 287, 293, 290, 283
296.5 307, 296, 301, 298, 300, 299, 308, 299
314.5 317, 321, 328, 318
331.5 346, 337, 334

Ejercicio 1.1.

i. Investigar como se grafican en Python: frecuencias acumuladas, frecuencias acumuladas re-


lativas, gráfico poligonal, ojivas, diagramas de tallo, diagrama circular o de pastel.

ii. Realizar las gráficas del inciso i. con los datos del ejemplo 1.2 (Ver figuras 1.6 y 1.7).
16 CAPÍTULO 1. ESTADÍSTICA
Tabla 1.5: frecuencias y frecuencias acumuladas del ejemplo 1.2.
Valor medio frecuencia frecuencia absoluta
178.5 2 2
195.5 4 6
212.5 6 12
229.5 10 22
246.5 19 41
263.5 29 70
280.5 15 85
296.5 8 93
314.5 4 97
331.5 3 100

Figura 1.6: Frecuencia acumulada del ejemplo 1.2

1.4. Medidas de tendencia central


Definicion 1.7 (Media).

La media de los datos númericos xi , i = 1, 2, 3, · · · , n denotada por x̄, es el promedio de los


1.5. MEDIDAS DE DISPERSIÓN 17

Figura 1.7: Diagrama circular o de pastel del ejemplo 1.2

datos, es decir
n
X xi
x̄ = (1.3)
i=1
n
donde n es el número total de datos.
Definicion 1.8 (Moda).
La moda (xm ) es el valor que aparece con mayor frecuencia.
Si existe un único valor que se repite más veces, es la moda y entonces se dice que es unimodal,
Si existen dos valores que además de que se repiten más veces, en cantidad son iguales, entonces
los dos son moda y se dice que es bimodal. Si hay tres o más valores que se repiten más veces
entonces se dice que es multimodal [3].
Definicion 1.9 (Mediana).
Dado que las observaciones en una muestra son xi , i = 1, 2, 3, · · · , n, acomodadas en orden de
mágnitud creciente, la mediana de la muestra es
(
x n+1 si n es par,
x̃ = 1 2  (1.4)
2
x n/2 + x (n/2)+1 si n es impar.

Tomando los datos de la tabla correspondiente es la tabla 1.1 se tiene los siguientes resultados:

1.5. Medidas de dispersión


Las primeras veces que realizamos analı́sis de datos de forma estadı́stica, se piensa, que basta
con calcular las medidas de tendencia central, sin embargo, no necesariamente proporcionan sufi-
18 CAPÍTULO 1. ESTADÍSTICA
Tabla 1.6: Resultados de la media, moda y mediana del ejemplo 1.2, calculados en Python

Medida de
tendencia valor
central
x̄ 264.06
xm 265
x̃ 265

ciente información para describir los datos de manera adecuada. Es por esta manera que se deben
estudiar que tan dispersos están los datos.

Definicion 1.10 (Varianza).

La varianza denotada por σ 2 o s2 , se define como sigue:


n
2 1 X
σ = (x1 − x̄)2 , (1.5)
n − 1 i=1

Nota: La ecuación (1.5) se le conoce como varianza insesgada o muestral, existe otra que se
le conoce como varianza sesgada o poblacional 1 . La varianza sesgada refleja perfectamente el
significado de una medida de dispersión como un promedio de los cuadrados de las desviaciones,
y tiene una gran aplicación en el estudio de las probabilidades, mientras que la varianza insesgada
es más propicia para cálculos estadı́sticos y se usa en las muestras [4]. Se define la desviación
estándar como la raı́z de la Varianza.
Luego, la varianza y desviación estandar para el ejemplo 1.2 son:

σ 2 = 1014.9 (1.6)
σ = 31.86 (1.7)

Resultados obtenidos en Python.

Ejercicio 1.2.

Se deja investigrar las siguientes valores medios: Media geométrica, media armónica y media
ponderada.

1.6. Cuartiles y percentiles


1.6.1. Percentil
Los percentiles son ciertos números que dividen los datos ordenados en cienpartes porcentuales
iguales. los percentiles (pi , i ∈ {1, 2, · · · , 99}) muestran la variable que deja detrás una frecuencia
acumulada igual al valor del percentil.
1
El lector debe investigar la ecuación correspondiente
1.6. CUARTILES Y PERCENTILES 19
1.6.2. Cuartiles
Los cuartiles son tres valores que dividen al conjunto de datos ordenados en cuatro partes
porcentuales iguales.
El primer cuartil Q1 , es el menor valor que es mayor que una cuarta parte de los datos, es
decir, indica que sólo existe un 25 % de probabilidad de que el valor de la variable esté por debajo
de esa cifra.
El segundo cuartil Q2 , es el menor valor que es mayor que la mitad de los datos, es decir el
50 % de las observaciones son mayores que la mediana y el 50 % son menores, el cuartil coincide
con la mediana.
El tercer cuartil Q3 , es el menor valor que es mayor de tres cuartas partes de los datos, es
decir, indica que existe un 75 % de probabilidad de que el valor de la variable esté por debajo de
esa cifra [5].
Continuando con el ejemplo 1.2 y tomando los datos de la tabla 1.2, se tienen que:

Q1 = 248.0, Q2 = 265.0 Q3 = 280

Resultados obtenidos con Python.


Observe que Q2 = x̃
Nota El segundo cuartil siempre es igual a la mediana.

1.6.3. Diagrama de caja y bigotes


La mejor forma de visualizar la importancia de los cuartiles es de forma gráfica y está se
representa mediante un diagrama de caja (ver figura 1.8).
La figura 1.8 muestra el diagrama de caja y los bigotes, el intervalo de x0 a Q1 es el bigote
izquierdo, la primera parte de la caja esta representada por el color azul y constituye el intervalo
(Q1 , Q2 ) y la segunda parte de la caja de color café representa el intervalo (Q2 , Q3 ) y por último
tenemos el bigote que viene dado entre los valores Q3 y xn .

x0 Q1 Q2 Q3 xn

Figura 1.8: Diagrama de caja y bigotes, x0 y xn representan los lı́mites mı́nimos y máximos de la
muestra

Tomando la muestra del ejemplo 1.2 se tiene el diagrama de caja mostrado en la figura 1.9,
en donde se observa que la parte superior de la caja es ligeramente menor que la parte inferior de
la caja, esto significa que la resistencia de estallamiento se encuentran práctivamente distribuidas
20 CAPÍTULO 1. ESTADÍSTICA
uniformemente, en el caso de los bigotes ambas partes también son del mismo tamaño, esto nos
indica que la distribución es normal, por último, los cı́rculos que aparecen fuera de los bigotes son
valores dispersos (atı́picos) que si no son muchos se pueden despreciar.

Figura 1.9: Diagrama de caja de los datos presentados en la tabla 1.1

El diagrama de caja es útil al comparar dos o más muestras.

1.7. Medidas de forma (sesgo y curtosis)


Otras medidas, que proporcionan información sobre la distribución de la muestra y que son
adimensionales se conocen como estimadores de sesgo y curtosis

Definicion 1.11 (Sesgo).

Sean x1 , x2 , · · · , xn , n datos con media x̄ y desviación estandar muestral σn−1 , entponces, se


llama coeficiente de sesgo o coeficiente de asimetrı́a a la medida que representa el grado
de asimetrı́a de la gráfica y la denotaremos por CA, en la literatura se usan comúnmente dos
fórmulas para el cálculo:
n  3
n X xi − x̄
CA1 = (1.8)
(n − 1)(n − 2) i=1 σn−1
n  3
m3 1 X xi − x̄
CA2 = = (1.9)
(σn−1 )3 n i=1 σn−1

donde n
1X
m3 = (xi − x̄)3
n i=1

y σn−1 es la desviación estándar correspondiente a la varianza insesgada2 [4].


En la figura 1.10 se aprecia los casos de asimetrı́a positiva a) o sesgado a la derecha y asimetrı́a
negativa b) o sesgada a la izquierda.
2
cuándo n es muy grande las ecuaciones 1.8 y 1.9 prácticamente coinciden.
1.7. MEDIDAS DE FORMA (SESGO Y CURTOSIS) 21

Figura 1.10: Histogramas sesgados a) sesgado a la derecha de rojo, b) sesgado a la izquierda de


azul.

El calculo del sesgo no solo indica si la cola se encuentra a la izquierda o a la derecha, sino que
también, que tan dispersos están los datos, entre mayor o menor sea el valor del sesgo es mayor
la dispersión, esto es:

0,
 La distribución de los datos es simétrica.
CA = < 0 Los datos están sesgados a la izquierda.

> 0 Los datos están sesgados a la derecha.

Si los datos presentan un grado alto de simetrı́a, surge la interrogante sobre la normalidad de
la muestra.
Si la muestra presenta simetrı́a se define otra otra medida que compara muestras simétricas
con la distribución normal. La caracterı́stica que determina la forma de los datos simétricos con
respecto a la normal se llama curtosis, elevación o achatamiento relativo de la distribución de los
datos comparada con la distribución normal [4].
Definicion 1.12 (Curtosis).
Sean x1 , x2 , · · · , xn datos con media x̄ y desciación estándar muestral σn−1 entonces llamamos
curtosis a la medida que representa el achatamiento relativo de la distribución de los datos al
compararse con la distribución normal. Se tiene varias fórmulas para calcular la curtosos, las cuales
coinciden cuando n es grande [4].
En estas notas solo se presenterá una, pero si quiere conocer las otras tres revisar el libro de
Gutierrez González [4].
n 4
3(n − 1)2

n(n + 1) X xi − x̄
CU = − (1.10)
(n − 1)(n − 2)(n − 3) i=1 σn−1 (n − 1)(n − 2)
entonces, para saber que tan achatada esta, se tiene la siguiente consideración

0,
 para una normal, se llama mesocúrtica.
CU = < 0, menos puntada que la normal, se llama platicúrtica. (1.11)

> 0, más apuntada que la normal, se llama leptocúrtica.

La figura 1.11 muestra los tres tipos de curtosis.


22 CAPÍTULO 1. ESTADÍSTICA

f (x)

Leptocúrtica

Mesocúrtica

Platicúrtica

x
0 200 400 600 800 1000 1200

Figura 1.11: Tipos de curtosis, imagen tomada y modificada de [6]


Parte II

Probabilidad

23
Capı́tulo 2

Probabilidad

2.1. Introducción
En el capı́tulo anteriore básicamente se estudió la presentación e interpretación de resultados
fortuitos que ocurren en un estudio planeado o en una investigación cientı́fica, que representan
conteos o mediciones, o datos categóricos que se podrı́an clasificar de acuerdo con algún crı́terio
[2].
En el presente capı́tulo, al referirnos a cualquier registro de información, ya sea numérico o
categórico, se empleará el término observación.
En estadı́stica se utiliza la palabra experimento para describir el proceso que genere un
conjunto de datos. En general la estadı́stica lo que interesa son aquellas observaciones que se
repiten varias veces en un experimento, sin embargo, no se consideran que los resultados dependen
del azar, y por lo tanto no se puede predecir con certeza, esto es, están sujetos a la incertidumbre.

Definicion 2.1 ( Modelos probabilı́sticos).

Los modelos probabilı́sticos o modelos estocásticos son aquellos modelos matemáticos


de los fenómenos en los cuales no se pueden controlar los factores que intervienen en su estudio,
además de que dichos factores ocurren de tal manera que no es posible predecir sus resultados [4]

Definicion 2.2 (Espacio muestral).

Al conjunto de todos los resultados posibles de un experimento estadı́stico se le llama espacio


muestral y se representa con el sı́mbolo S [2].
Llamamos experimento aleatorio al proceso de obtención una observación en que se cumple
alguna de las siguientes condiciones

a) Todos los resultados posibles son conocidos.

b) Antes de realizar el experimento el resultado es desconocido.

c) Es posible repetir el experimento en condiciones ideales.

A cada resultado en un espacio muestral se le llama elemento o miembro del espacio muestral,
o simplemente punto muestral.

Ejemplo 2.1. Considerar el experimento de lanzar un dado


25
26 CAPÍTULO 2. PROBABILIDAD
a) Si lo que interesa es el número que va aparecer,entonces, el espacio muestral es:

S = {1, 2, 3, 4, 5, 6}

b) Si lo que interes si el resultado es par o impar, entonces, el espacio muestral es:

S = {par, impar}

El ejemplo anterior ilustra el hecho de que en un mismo experimento se pueden tener diferentes
espacios muestrales, dependiendo lo que se quiera analizar. Cuando los elementos del espacio
muestral son pequeños se puede utilizar un diagrama de árbol.
Para ejemplificar el diagrama de árbol tomaremos el ejemplo De lanzar tres veces una moneda
y ver si cae águila(a) o sol(s).
El espacio muestral es:

S = {aaa, aas, asa, ass, saa, sas, ssa, sss}

representado en forma de árbol se tiene

sss
s
s
a ssa
s
s sas
a
a saa

s ass
s
a asa
a
s aas
a
a aaa

Figura 2.1: Diagrama de árbol para el evento de tres tiradas de una moneda

Ejercicio 2.1. Suponga que se seleccionan, de forma aleatoria, cuatro artı́culos de un proceso de
fabricación. Cada artı́culo se inspecciona y se clasifica como defectuoso, D, o no defectuoso, N .
Realice el diagrama de árbol para dicho proceso.

2.2. Álgebra de eventos


El espacio muestral se denota con la letra S, los eventos con las letras mayúsculas, A, B, C,
etcétera, mientras que los resultados del experimento que cumplen las condiciones del evento se
representa con las letras minúsculas a, b, etcétera.
2.2. ÁLGEBRA DE EVENTOS 27
Definicion 2.3 (Complemento).

El complemento de un evento A respecto de S es el subconjunto de todos los elementos de


S que no están en A y se denota con el sı́mbolo A′ .

A = {x|x ∈ S, x ∈
/ A}

Ejemplo 2.2.

Sea el conjunto una baraja ordinaria S, tomemos a R como el evento de que se seleccione una
carta roja. Entonces R′ es el evento de que la carta seleccionada de la baraja sea negra.

2.2.1. Diagrama de Venn


En muchas ocasiones es preferible utilizar una representación gráfica de los eventos de un
experimento, como se trabajan con conjuntos es factible representarlos el espacio muestral con
diagramas de Venn.

R′

Figura 2.2: Diagrama de Venn del conjunto universal S, el cual, contiene al evento R y su com-
plemento R′

Unión entre eventos


La unión de los eventos A y B, correspondientes a un mismo experimento, constituye, en si
mismo otro evento formado por los resultados que pertenecen al evento A o al evento B o a ambos
(ver figura 2.3). La unión la representamos A ∪ B

B ∪ A = {x|x ∈ A ∨ x ∈ B}

Ejemplo 2.3. Unión entre dos eventos

Sean los eventos A = [2, 5) y B = [4, 7]. Luego A ∪ B = [2, 7].


28 CAPÍTULO 2. PROBABILIDAD

S
A B

Figura 2.3: Reprersentación general de la unión entre dos eventos de color verde.

Intersección entre eventos


La intersección entre los eventos A y B, correspondientes a un mismo experimento, es otro
evento formado por los elementos que pertenecen a ambos eventos. (ver figura 2.4). La intersección
la representamos A ∩ B.

A ∩ B = {x|x ∈ A ∧ x ∈ B} (2.1)

U
A B

Figura 2.4: Representación general de la intersección entre A y B sección de color amarillo.

Ejemplo 2.4. Intersección entre dos eventos

Sean los eventos A = [2, 5) y B = [4, 7]. Luego A ∩ B = [4, 5).

Definicion 2.4 (mutuamente excluyentes).

Dos eventos A y B son mutuamente excluyentes o disjuntos si A ∩ B = ∅; es decir, si A


y B no tienen elementos en común.
2.3. PROBABILIDAD 29
Diferencia entre eventos
La diferencia del evento A menos el evento B, correspondientes a un mismo experimento, es
otro evento formado por los elementos del evento A y que no pertenecen al evento B (ver figura
2.5). La diferencia la simbolizaremos de la siguiente manera: A − B.

A − B = {x|x ∈ A ∧ x ∈
/ B}

S
A B

Figura 2.5: Representación general de la diferencia A − B sección de color rojo.

Definicion 2.5.

Ejemplo 2.5. Diferencia entre dos conjuntos

Sean los eventos A = [2, 25) y B = [14, 27]. Luego A − B = [2, 14).

Ejemplo 2.6 (Operaciones entre eventos). Dado el espacio muestral

S = Z, y los eventos A = {2, 3, 5, 7, 11, 13, 17} , B = {5, 6, 7, 8, · · · , 25} , c = {−1, 0, 1, 2, 3, · · · , 9}


y D = {−6, −4, · · · , 10, 12}, encuentre:

i) A ∩ B, ii) A ∪ B, iii) C ∩ D, A − B, iv) C − A, v) A ∩ D, vi)(B ∪ C) ∩ D

Dibuje el diagrama de Venn del ejemplo 2.6.

2.2.2. Leyes del álgebra de eventos


En la tabla 2.1 se muestran las leyes del álgebra de eventos.

2.3. Probabilidad
Consideremos los experimentos para los cuales el espacio muestral contiene un número finito de
elementos. La probabilidad de la ocurrencia de un evento que resulta de tal experimento estadı́stico
30 CAPÍTULO 2. PROBABILIDAD
Tabla 2.1: Leyes del algebra de eventos

A∩A =U idempotencia A∪B =∅
(A ∩ B) ∩ C = A ∩ (B ∩ C) asociativas (A ∪ B) ∪ C = A ∪ (B ∪ C)
A∩B =B∩A conmutativa A∪B =B∪A
A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) distributivas A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
A∪∅=A identidad A∪S =S
A∩∅=∅ A∩S =A
A ∪ A′ = S complemento A ∩ A′ = ∅
(A′ )′ = A S ′ = ∅, ∅′ = S
′ ′ ′
(A ∪ B) = A ∩ B Morgan (A ∩ B)′ = A′ ∪ B ′

se evalúa utilizando un conjunto de números reales denominados pesos o probabilidades, que


van de 0 a 1.
0 ≤ P (A) ≤ 1, P (∅) = 0, P (S) = 1 (2.2)
Para todo punto en el espacio muestral asignamos una probabilidad tal que la suma de todas las
probabilidades es 1[2].
En la corriente clásica se consideran espacios muestrales uniformes, es decir, se asignan pro-
babilidades a eventos con base en resultados equiprobables (es decir 1/n, donde n es el número de
eventos posibles) [4].
Como ejemplos tenemos el lanzamiento de una moneda , o de un dado.

2.3.1. Axiomas
Dado un experimento con espacio muestral S y una familia de eventos A de S tal que sus
elementos cumplen con las leyes del álgebra de eventos, llamaremos probabilidad axiomática a
la función numérica P , cuyo dominio es A y rango de intervalo [0, 1], y es tal que los valores P (E)
para cualquier E en A, cumple con los siguientes tres axiomas llamados axiomas de Kolmogórov,
para familias finitas:
Axioma 2.1. Para cualquier evento E de A se cumple P (E) ≥ 0.
Considerando espacios muestrales finitos, simbolizando por n(S) la cantidad de elementos del
espacio muestral y por n(E) la cantidad de elementos de algún evento [Link]́s, que los elementos
de espacio son equiprobables, entonces
n(E)
P (E) = (2.3)
n(S)
Axioma 2.2. Para el espacio muestral S, P (S) = 1.
Axioma 2.3. Para cualquier sucesión infinita (o finita) de eventos mutuamente excluyentes de
A, E1 , E2 , · · · , se cumple


! ∞
[ X
P Ei = P (Ei ) (2.4)
i=1 i=1
2.3. PROBABILIDAD 31
Teorema 2.1. Para cualquier evento E, P (E ′ ) = 1 − P (E)

Teorema 2.2. Si A y B son eventos de un mismo espacio muestral, tales que A ⊂ B, entonces

P (A) ≤ P (B) (2.5)

Teorema 2.3. Para dos eventos cualesquiera A y B de un mismo espacio muestral, se cumple
que:

P (A ∪ B) = P (A) + P (B) − P (A ∩ B) (2.6)

Teorema 2.4.

k
! k k k
[ X X X
P Ai = P (Ai )− P (Ai ∩Aj )+ P (Ai ∩Aj ∩Al )+· · ·+(−1)k−1 P (A1 ∩A2 ∩· · ·∩Al )
i=1 i=1 i<j=2 i<j<l=3
(2.7)

Teorema 2.5. Para dos eventos cualesquiera A y B de un mismo espacio muestral, se cumplen
que:

P (A − B) = P (A) − P (A ∩ B) (2.8)

Ejercicio 2.2.

a) Sean los eventos A y B correspondientes a un mismo espacio muestrales tales que P (A′ ) =
0.6, P (B ′ ) = 0.7 y P (A ∩ B) = 0.2. Calcule P (A ∪ B).

b) Sean los eventos A y B correspondientes a un mismo espacio muestral, tales que: P ((A ∪
B)′ ) = 0.2, P (A′ ) = 0.2 y P (A ∩ B) = 0.2. Calcule P (A) y P (B).

c) Sean los eventos A y B, correspondientes a un mismo espacio muestral, tales que P (A′ ) = 0.4,
P (B) = 0.5 y P (A ∪ B) =0.7. Calcule P (A − B) y P (A′ − B ′ ).

Ejercicio 2.3.

¿Cuál es la probabilidad de obtener un total de 7 u 11 cuando se lanza un par de dados?


solución P (E) = 2/9.
32 CAPÍTULO 2. PROBABILIDAD

A B
0.4 0.1
0.2
0.3

Figura 2.6: Diagrama de Venn-Euler de probabilidades para el ejercicio 2.2 a, modificado de [4].

Diagrama de Venn de probabilidades


El diagrama de Venn-Euler se obtiene al agregar las probabilidades a los sectores del diagrama
que resultan de las condiciones del problema. Tomando el ejercicio 2.2 a, su representación en
diagrama de Venn-Euler es:
Ejercicio 2.4.
Suponga que 75 % de los residentes de una ciudad trotan (T), a 20 % les gusta el helado (H)
y a 40 % les gusta la música (M). Además, suponga que 15 % trotan y les gusta el helado, 30 %
trotan y les gusta la música, a 10 % les gusta el helado y la música y a 5 % les gusta los tres tipos
de actividades.
a) Encuentre la probabilidad de que un residente se comprometa al menos en una de las tres
actividades.
Ayuda: Utilice el teorema 2.4.

b) Encuentre la probabilidad de que un residente se comprometa en exactamente un tipo de


actividad, esto es:

P (T ∩ H ′ ∩ M ′ ) + P (T ′ ∩ H ∩ M ′ ) + P (T ′ ∩ H ′ ∩ M )

c) Represente el problema en un diagrama de Venn

2.4. Técnicas de conteo


Uno de los problemas que se deben considerar e intentar evaluar es el elemento de aleatoriedad
asociado con la ocurrencia de ciertos eventos cuando se realiza un experimento. Estos problemas
pertenecen al campo de la probabilidad, temas que se verán en la siguiente sección. En muchos
casos debemos ser capaces de resolver un problema de probabilidad mediante el conteo del número
de puntos en el espacio muestral, sin listar realmente cada elemento. El principio fundamental del
conteo, a menudo denominado regla de multiplicación [2].
2.4. TÉCNICAS DE CONTEO 33
Ejercicio 2.5.
Se tienen 6 bolas enumeradas en una bolsa que no es transparente, considere los siguientes
eventos.
a) Se saca una bola, se registra el número que tiene la bola y se vuelve a introducir para volver
a sacar otra bola y se anota el número que tiene la bola.
b) Dibuje el diagrama de árbol de la muestra del inciso anterior.
c) Se saca una bola, se registra el número que tiene la bola, no se vuelve a introducir, se saca
otra bola y se registra el número que tiene la bola.
d) Dibuje el diagrama de árbol de la muestra del inciso anterior.
e) ¿Son iguales los árboles? ¿cuál es la diferencia?
Podemos decir que los arreglos son con repetición o reemplazo cuando después de elegido
un elemento puede volverse a seleccionar. Es decir, si tenemos un conjunto A con n elementos
diferentres y realizamos una extracción, lo cual se puede hacer n formas diferentes. Pero, si además
condicionamos el experimento a regresar el elemento extraı́do al conjunto original (reemplazarlo),
al realizar una segunda extracción se puede hacer otra vez de n formas [2]. Entonces, ¿cuándo se
obtiene un arreglo con reemplazo?
Definicion 2.6.
Si una operación se puede llevar a cabo en n1 formas, y si para cada una de éstas se puede
realizar una segunda operación en n2 formas, y ası́ sucesivamente hasta nk formas, entonces las
operaciones se pueden ejecutar juntas de n1 n2 · · · nk formas.
Ejemplo 2.7.
¿Cuantos puntos muestrales hay en el espacio muestral cuando se lanza una moneda tres veces?
Ejercicio 2.6.
¿Cuántas placas diferentes de automóvil se pueden formar con los números dı́gitos y las letras
del alfabeto, si cada número de placa consta de tres letras y tres dı́gitos? Suponga que se permite
la repetición.

2.4.1. Permutaciones
Los arreglos son sin repetición o reemplazo cuando después de elegido un elemento, este ya no
puede volverse a seleccionar.
Una permutación es un arreglo de distintos objetos. Una permutación difiere de otra si el orden
del arreglo o su contenido son distintos.
Definicion 2.7 (Permutación).
Llamamos permutación de k elementos escogidos de un total n (todos diferentes) a:
n n!
n P r = Pk = , 0 ≤ k ≤ n. (2.9)
(n − k)!
Ejercicio 2.7.
Calcular el número de permutaciones del ejercicio 2.5 c. ¿Es igual al número de eventos obte-
nidos en el árbol del ejercicio 2.5 d.
34 CAPÍTULO 2. PROBABILIDAD
2.4.2. Permutaciones con elementos indistinguibles
En los casos en que se quiere formar arreglos con todos los elementos de un conjunto, entre los
cuales existen algunos que son iguales o indistinguibles, tenemos lo siguiente.
De forma general, cuando hay n1 elementos iguales, n2 elementos iguales, y ası́ sucesivamente
hasta tener nk elementos iguales, tales que: n1 + n2 + · · · + nk = n, el resultado es la cantidad
total de ordenamiento diferentes, considerando todos los n elementos en cada arreglo.
 
n n!
= Pnn1 n2 ···nk = (2.10)
n1 n2 · · · nk n1 !n2 ! · · · nk !

Ejemplo 2.8.

Durante un entrenamiento de fútbol universitario, (donde se tiene jugadores de diferente tiempo


de ingreso, contado por el año de ingreso y experiencia), el entrenador necesita hacer un barrera
para practicar, la barrera debe tener 10 jugadores parados en fila. Entre estos 10 jugadores deben
haber 1 de primer año, 2 de segundo año, 4 de tercer año y 3 de cuarto año, respectivamente. ¿De
cuántas formas diferentes se pueden arreglar en una fila si lo único que los distingue es el grado
en el cual están?
Solución R = 12600

2.4.3. Combinaciones
Una combinación es un arreglo de distintos objetos; una combinación difiere de otra sólo si el
contenido de sus arreglos es distinto. Aqui el orden no importa.

Definicion 2.8 (Combinación).

Dado un conjunto con n elementos diferentes, llamamos combinación a cualquiedr subcon-


junto no ordenado de tamaño k . Entonces, el número de combinaciones de n objetos distintos
tomados de k a la vez es:
 
n n!
= Ckn = , 0≤k≤n (2.11)
k k!(n − k)!

Ejemplo 2.9.

Un niño le pide a su madre que le lleve cinco juguetes de su colección de 10 carritos y 5


muñecos. ¿De cuántas maneras podrı́a su madre llevarle 3 carritos y dos muñecos?
Solución
C310 = 120, C25 = 10
Si se utiliza la regla de la multiplicación de la definición 2.6, se tiene que (120)(10) = 1200 formas.

Ejercicio 2.8.

Se desea mandar un equipo de ingenieros para revisar los edificios en una comunidad, el equi-
po debe contar con tres civiles, un topógrafo y un geofı́sico. Se cuentan con cinco civiles, tres
topografos y dos geofı́sicos. ¿cuántos arreglos diferentes se pueden hacer?
2.5. PROBABILIDAD CONDICIONAL 35
2.5. Probabilidad condicional
La probabilidad de que ocurra un evento B cuando se sabe que ya ocurrió algún evento A se
llama probabilidad condicional y se denota con P (A|B), el cual se lee como: la probabilidad de
que ocurra B, dado que ocurrió A o simplemenmte, la probabilidad de B, dado A [2].
Definicion 2.9.
La probabilidad condicional de B dado A se define como:
P (A ∩ B)
P (A|B) = , siempre que P (A) > 0 (2.12)
P (A)
Ejemplo 2.10.
Suponga que tenemos un espacio muestral S constituido por la población de adultos de una
pequeña ciudad que cumplen con los requisitos para obtener un tı́tulo universitario. Debemos
clasificarlo de acuerdo con su género y situación laboral mostrada en la tabla 2.2, ejercicio tomado
del libro [2].

Tabla 2.2: Clasificación de los adultos de una pequeña ciudad, del ejemplo 2.10
Empleado Desempleado total
Hombre 460 40 500
Mujer 140 260 400
total 600 300 900

Se seleccionara al azar a uno de estos individuos para que realice un viaje a través del paı́s con
el fin de promover las ventajas de establecer industrias nuevas en la ciudad.
Nos interan los siguientes eventos:
M: Se elige a un hombre.
E: el elegido tiene empleo.
Solución
Para resolver este problema tomaremos la ecuación 2.12,primero calculamos P (E ∩M ) y P (E).
460 600
P (E ∩ M ) = y P (E) =
900 900
entonces
P (M |E) = 23/30

2.5.1. Regla del producto


Despejando P (A ∩ B) de la ecuación 2.12 obtenemos:
P (A ∩ B) = P (A)P (A|B) (2.13)
También de forma equivalente a partir P (B ∩ A) y P (A) > 0, tenemos:
P (B ∩ A) = P (B)P (B|A) (2.14)
36 CAPÍTULO 2. PROBABILIDAD
Ejemplo 2.11.

Suponga que tenemos una caja de fusibles que contiene 20 unidades, de las cuales 5 están
defecuosas. si se seleccionan 2 fusibles al azar y se retiran de la caja, uno después del otro, sin
reemplazar el primero, ¿cuál es la probabilidad de que ambos fusibles estén defectuosos?
Solución
Sean A el evento de que el primer fusible esté defectuoso y B el evento de que el segundo
esté defectuoso; entonces, interpretamos A ∩ B como el evento que ocurra A, y entonces B ocurre
después de que haya ocurrido A.
La probabilidad de sacar el primero defectuoso es:

5 1
P (A) = =
20 4

La probabilidad de obtener un segundo fusible defectuoso si el primero lo fue es:

4
P (B|A) =
19

Luego
1
P (A ∩ B) =
19

Ejemplo 2.12.

Un sistema eléctrico consta de cuatro componentes, como se ilustra en la figura 2.7. El sistema
funciona si los componentes A y B funcionan, y si funciona cualquiera de los componentes C o
D. La confiabilidad (probabilidad de que funcionen) de cada uno de los componentes también se
muestra en la figura 2.7. Calcule la probabilidad de a) que el sistema completo funcione y de b)
que el componente C no funcione, dado que el sistema completo funciona. Suponga que los cuatro
componentes funcionan de manera independiente.

0.8

C
0.9 0.9

0.7
A B
D

Figura 2.7: Sistema eléctrico para el 2.12, modificado de [2]

Solución
2.6. TEOREMA DE BAYES 37
a) Es evidente que la probabilidad de que el sistema completo funcione se puede calcular de la
siguiente manera: 1

P [A ∩ B ∩ (C ∪ D)] = P (A)P (B)P (C ∪ D) = P (A)P (B) [1 − P (C ′ ∩ D′ )]


= P (A)P (B) [1 − P (C ′ )P (D′ )]
= (0.9)(0.9) [1 − (1 − 0.8)(1 − 0.8)] = 0.778

b) Para calcular la probabilidad condicional en este caso, observe que

P (el sistema funciona pero C no funciona)


P =
P (el sistema funciona)
P (A ∩ B ∩ C ′ ∩ D) (0.9)(0.9)(1 − 0.8)(0.8)
= = = 0.167
P (el sistema funciona) 0.778
Teorema 2.6.

Si, en un experimento, pueden ocurrir los eventos A1 , A2 , · · · , Ak , entonces

P (A1 ∩ A2 ∩ · · · Ak ) = P (A1 )P (A2 |A1 )P (A3 |A1 ∩ A2 ) · · · P (Ak |A1 ∩ A2 ∩ · · · ∩ Ak−1 ). (2.15)

Si los eventos A1 , A2 , · · · , Ak son independientes, entonces

P (A1 ∩ A2 ∩ · · · Ak ) = P (A1 )P (A2 )P (A3 ) · · · P (Ak ). (2.16)

Ejercicio 2.9.

Una empresa de construcción decide hacer una encuesta a un conjunto habitacional que consta
de 52 casas, el conjunto consta de 4 tipos diferentes de casas, se sabe que viven familias que
económicamente se clasifican en el nivel medio alto, medio, medio bajo y alto bajo, 12 familias
son del medio alto, 15 del nivel medio, 15 del medio bajo y el resto del alto bajo, también se sabe
que el 97 % de los que habitan tienen automóvil.
Realizar:

a) Trace el diagrama que represente las diferentes acciones.

b) Trace el diagrama de árbol de probabilidades de los eventos posibles.

c) Encuentre la probabilidad de que se tenga el siguiente evento A1 ∩ A2 ∩ A3 , donde A1 es el


evento: la casa encuestada sea del tipo 2, A2 el evento: quien habita la casa elegida sea de
clase media y A3 tenga automóvil.

2.6. Teorema de Bayes


Sea S un espacio muestral, se dice que los eventos E1 , E2 , · · · , En forman una partición de S,
si cumplen con lo siguiente:

a) P (Ek ) ̸= 0, para toda k = 1, 2, · · · , n.


1
Las igualdades son válidas debido a la independencia entre los cuatro componentes
38 CAPÍTULO 2. PROBABILIDAD
b)
n
[
S= Ek
k=1

c) Para cualquier par de eventos Ei y Ej , con i ̸= j, de la partición se cumple Ei ∩ Ej = ∅.


Teorema 2.7 (Teorema de la probabilidad total).
Si S es un espacio muestral, A un evento en S y E1 , E2 , · · · , En una partición de S, entonces:

P (A) = P (A|E1 )P (E1 ) + P (A|E2 )P (E2 ) + · · · + P (A|En )P (En ). (2.17)

S
E3
E4
E2
E5
E6
E1 A

· · · En

Figura 2.8: Representación gráfica del teorema de la probabilidad total, de gris el evento A.

Como se observa en la figura 2.8, pueden existir eventos de la partición que tienen intersección
con A.
Ejemplo 2.13.
Tres máquinas de cierta planta dse ensamble, B1 , B2 y B3 , montan 30 %, 45 % y 25 % de los
productos, respectivamente. Se saben por experiencia que 2 %, 3 % y 2 % de los productos ensam-
blados por cada máquina, respectivamente, tienen defectos. Ahora bien, suponga que se selecciona
de forma aleatoria un producto terminado. ¿Cuál es la probabilidad de que este defectuoso?
Solución Sean A el producto defectuoso, B1 el producto ensamblado en la máquina B1 , B2 el
producto ensamblado en la máquina B2 y B3 el producto ensamblado en la máquina B3 .
Entonces para responder la pregunta se debe calcular P (A), tomando el teorema de la proba-
bilidad total 2.7, Tenemos que:

P (A) = P (A|B1 )P (B1 ) + P (A|B2 )P (B2 )P (A|B3 )P (B3 ) = 0.025

Esté ejemplo se puede visualizar de forma gráfica como se muestra en la figura 2.9.
Teorema 2.8 (Teorema de Bayes).
2.6. TEOREMA DE BAYES 39

B1 P (A|B1 )
A

1)
P (B
P (B2 ) B P (A|B2 )
2 A

P (B
3) B3 A
P (A|B3 )

Figura 2.9: Diagrama de árbol para el ejemplo 2.13, modificado de [4]

Si S es un espacio muestral, A un evento en S y E1 , E2 , · · · , En una partición de S, entonces


para cualquier evento k de la partición tendremos que:

P (A|Ek )P (Ek ) P (A ∩ Ek )
P (Ek |A) = Pn = Pn (2.18)
i=1 P (Ei )P (A|Ei ) i=1 P (A ∩ Ei )

Ejemplo 2.14.

Con referencia al ejemplo 2.13, si se elige al azar un producto y se encuentra que está defectuoso,
¿Cuál es la probabilidad de que haya sido ensamblado con la máquina B3 ?
solución P (B3 |A) = 10/49.
40 CAPÍTULO 2. PROBABILIDAD
Capı́tulo 3

Variables aleatorias y distribuciones

3.1. Conceptos
Definicion 3.1 (Variable aleatoria).

Una Variable aleatoria es una función que asocia un número real con cada elemento del
espacio muestral

Ejemplo 3.1.

Se lanzan tres monedas, se desea saber la cantidad de águilas que resulten del experimento.
Notamos que pueden ocurrir que salgan 0,1,2 o 3 águilas. ahora bien, el espacio muestral de
dicho evento es:
S = {sss, ass, sas, ssa, aas, asa, saa, aaa}

donde s es el evento sol y A el evento de águila.


como no interesa en que moneda sale el águila, podemos establecer una correspondencia entre
los puntos muestrales y los valores numéricos, que asignamos al experimento de la siguiente manera

sss → 0
ass, sas, ssa → 1
aas, asa, saa → 2
aaa → 3

La variable aleatoria X se define como X: Cantidad de águilas en el lanzamiento de las tres


monedas, entonces

X(sss) = 0, X(ass) = X(sas) = X(ssa) = 1, X(aas) = X(asa) = X(saa) = 2, X(aaa) = 3

cada evento tiene la misma probabilidad (equiprobables), luego

P (X = 2) = 3/8
41
42 CAPÍTULO 3. VARIABLES ALEATORIAS Y DISTRIBUCIONES
3.2. Variables aleatorias
Definicion 3.2 (Espacio muestral discreto).

Si un espacio muestral contiene un número finito de posibilidades, o una serie interminable con
tantos elementos como números enteros existen, se llama espacio muestral discreto.

Definicion 3.3 (Espacio muestral continuo).

Si un espacio muestral contiene un número infinito de posibilidades, igual al número de puntos


en un segmento de recta, se le denomina espacio muestral continuo.

Definicion 3.4 (Variable aleatoria discreta).

Dado un experimento aleatorio y una variable aleatoria X, que lo representa con rango Rx
llamamos a X: variable aleatoria discreta (vad), cuando el conjunto Rx resulta finito o a lo
más infinito numerable.

3.3. Distribución de probabilidades


3.3.1. Función de probabilidad
Definicion 3.5 (Función de probabilidad).

El conjunto de pares ordenados (x, f (x)) es una función de probabilidad, una función de
masa de probabilidad o una distribución de probabilidad de la variable aleatoria discreta
X si, para cada resultado x posible,

1. f (x) ≥ 0,
P
2. x f (x) = 1,

3. P (X = x) = f (x).

Ejemplo 3.2.

Un embarque de 20 computadoras portátiles similares para una tienda minorista contiene 3 que
están defectuosas. Si una escuela compra al azar 2 de estas computadoras, calcule la distribución
de probabilidad para el número de computadoras defectuosas.
Solución
Sea X = {x| x está defectuosa}, luego
3 17
 
68
f (0) = P (X = 0) = 0 202 = ,
2
95
3 17
 
51
f (1) = P (X = 1) = 1 201 = ,
190
2 
3 17
3
f (2) = P (X = 2) = 2 200 = .
2
190
3.3. DISTRIBUCIÓN DE PROBABILIDADES 43
x 0 1 2
f(x) 68/95 51/190 3 /190

Figura 3.1: Función de distribución de probabilidad del ejemplo 3.2

Por consiguiente, la distribución de probabilidad de X es:


En la figura 3.1 se presenta de forma gráfica la función de distribución de probabilidad del
ejemplo 3.2.

Ejercicio 3.1. Se deja al estudiante investigar cómo graficar en Python, la frecuencia de distri-
bución acumulada y el histograma de probabilidad.

3.3.2. Función de distribución acumulada


Dado un experimento y una variable aleatoria discreta X en este, con rango Rx = {x1 , x2 , · · · , xn }
(puede ser infinito numerablew) y función de probabilidad p(x) llamamos función de distribu-
ción acumulada (fda) de variable aleatoria discreta X a la función posiotiva y bno decreciuente
definida en todos los reales y discontinua en cada punto xk ∈ Rx , tal que:
X
F (X) = p(xk ), para toda xk ∈ Rx y xk ≤ x. (3.1)
k

Para F (x) se tiene que:

a) F (X) es una función creciente, es decir, para todo x < y, se tiene F (x) < F (y).

b) lı́m F (x) = 0 y lı́m F (x) = 1.


x→−∞ x→∞
44 CAPÍTULO 3. VARIABLES ALEATORIAS Y DISTRIBUCIONES
c) La gráfica de F (X) es una función escalonada, en donde cada salto representa la probabilidad
del punto de discontinuidad a la derecha.

Ejemplo 3.3.

Tomando el ejemplo 3.1 y X: representa la cantidad de águilas en el, lanzamiento de las tres
monedas.
Está claro que Rx = {0, 1, 2, 3}; por otro lado, se calcularon las probabilidades para los ele-
mentos de la variable y se obtuvo:

P (X = 0) = 1/8, P (X = 1) = 3/8, P (X = 2) = 3/8 P (X = 3) = 1/8

es decir 
1/8, para x = 0, 3

p(x) = 3/8, para x = 1, 2

0, para otro valor

entonces, la función de distribución acumulada, según la definición anterior se muestra a conti-


nuación: 

 0, si x < 0

1/8, si 0 ≤ x < 1



F (X) = 4/8, si 1 ≤ x < 2

7/8, si 2 ≤ x < 3





1, si 3 ≤ x

gráficamente se tiene:

Figura 3.2: Gráfica de distribución acumulada del ejemplo 3.3


3.3. DISTRIBUCIÓN DE PROBABILIDADES 45
3.3.3. Valor esperado de una vad
Dado un experimento y una variable aleatoria discreta X en él, con rango Rx = {x1 , x2 , · · · , xn },
puede ser infinito numerable, y función de probabilidad P (x), llamaremos valor esperado de X
(o esperanza matemática de X), a la cantidad que denotaremos por E(X) 0 µx , y se calcula
X
E(X) = xk p(xk ) (3.2)
k≥1

Ejemplo 3.4.
Sea el experimento del lanzamiento de dos dados se define a la variable aleatoria discreta X:
la suma de los puntos de los dados que quedan hacia arriba. a) describa el espacio muestral y el
rango de X, b) Calcule la esperanza matemática.
Definicion 3.6 (Varianza).
Dado un experimento y una variable aleatoria discreta X en el rango Rx = {x1 , x2 , · · · , xn },
puede ser infinito numerable y función de probabilidad p(x). Llamamos varianza o variancia de
X a la cantidad que simbolizamos con (X) o σx2 , y se calcula como:
X
V (x) = (xk − E(X))2 p(xk ) (3.3)
k≥1

se define la desviación estándar


p de la variable aleatoria discreta X, a la raı́z cuadrada
positiva de la variancia: σx = V (X)
Ejemplo 3.5.
Calcular la variancia y desviación estándar del ejemplo 3.4.
Teorema 3.1.
Dado un experimento y una variable aleatoria discretga X en él, con rango Rx = {x1 , x2 , · · · , xn },
puede ser infinito numerable, y función de probabilidad p(x); entonces:

V (X) = E(X 2 ) − E(X)2 (3.4)

Ejemplo 3.6.
Sea (xk , p(xk )) la distribución de probabilidad de una variable aleatoria discreta X, según se
muestra explicitamente en la tabla 3.1.

Tabla 3.1: Distribución de probabilidad del ejemplo 3.6 .

X=x -3 -2 -1 1 2
p(x) 0.35 0.05 0.3 0.2 0.1

En una gráfica se ve como:


calcule:
46 CAPÍTULO 3. VARIABLES ALEATORIAS Y DISTRIBUCIONES

a) La esperanza matemática.
b) La variancia de X.
Solución
a) E(X) = −1.25
b) Utilizando la ecuación 3.4, tenemos
V (X) = 2.69

3.3.4. Distribución binomial


Un experimento aleatorio se llama de Bernoulli, cuando solo tiene dos resultados posibles, a
los que denominamos éxito o fracaso, y son denotados por p y q respectivamente [4].
Definicion 3.7.
Un experimento aleatorio se llama binomial cuando cumple las siguientes condiciones:
1. El experimento consta de n (número finito) pruebas independientes, tipo Bernoulli.
2. Cada prueba tiene solo dos resultados: éxito o fracaso.
3. La probabilidad de éxito en una prueba es p y la de fracaso q = 1 − p , y ambas se mantienen
constantes de prueba a prueba
A la variable aleatoria X definida en un experimento binomial que representa la cantidad de
éxitos en n ensayos de Bernoulli le llamamos variable aleatoria binomial.
Sea P (X = k) = b(k; n, p): la probabilidad de que en el experimento de Bernoulli ocurra k
éxitos de un total de n ensayos1 , en la figura 3.3 se tiene la gráfica de distribución de Bernoulli
para k = 3, n = 12 y p = 0.3.
1
la probabilidad binomial se puede encontrar de varias formas, algunas de ellas: Bin(k; n, p) o B(k; n; p)
3.3. DISTRIBUCIÓN DE PROBABILIDADES 47

Figura 3.3: Distribución binomial con k = 3, n = 12 y p = 0.3.

Teorema 3.2.
Si X es una variable aleatoria binomial y Rx = {0, 1, 2, · · · , n}, con éxito P y fracaso q = 1 − p,
entonces se cumplirá:
P (X = k) = b(k; n, p) = Ckn pk q n − k, k = 0, 1, 2 · · · , n. (3.5)
El conjunto de parejas (k, B(k; n, p)), para k = 0, 1, 2 · · · , n se le conoce como distribución
de probabilidad binomial.
Teorema 3.3.
Si X es una variable aleatoria binomial, con distribución (k, B(k; n, p)), para k = 0, 1, 2, · · · , n
con exito p y fracaso q = 1 − p, entonces:
n
X n
X
B(k; n, p) = Ckn pk q n−k = 1 (3.6)
k=0 k=0

Teorema 3.4.
Si X es una variable aleatoria discreta con distribución binomial, que consta de n ensayos,
probabilidad de éxito p y probabilidad de fracaso q = 1 − p, entonces:
a) E(X) = np.
b) V (X) = npq.
Notación de la función de distribución acumulada:
(
0, x ∈ (−∞, 0)
F (x) = P[x] n k n−k
k=0 Ck p (1 − p) , x ∈ [[x] , [x] + 1) 1, x ∈ [n, ∞)
48 CAPÍTULO 3. VARIABLES ALEATORIAS Y DISTRIBUCIONES
Ejemplo 3.7.

Ejemplo: Un proveedor de DVDs regrabables afirma que solamente el 4 % de los artı́culos


suministrados son defectuosos. Si un cliente compra un lote de 25 DVDs, ¿cuál es el número
esperado de DVDs defectuosos en el lote? Si el cliente encuentra que 4 de los DVDs comprados
son defectuosos, ¿debe dudar de la afirmación del vendedor?

Figura 3.4: Grafica del ejemplo 3.7 , se puede observar que para 4 o más defectuosos la probabilidad
es mı́nima.

Ejemplo 3.8.

Un sistema de tres radares para detectar automóviles a gran velocidad se instaló en una
carretera. Cada radar funciona de manera independiente, con probabilidad de detectar un vehı́culo
que viaje a gran velocidad igual a 0.99. Consideremos la variable aleatoria:

X: Cantidad de radares que detectan el automóvil que viaja a gran velocidad.

Calcule:

1. ¿Es un problema de tipo binomial?

2. Calcule Rx

3. Distribución de probabilidad para X.

4. Valor esperado y varianza de X.

5. Gráfique la distribución de probabilidades.


3.3. DISTRIBUCIÓN DE PROBABILIDADES 49
Solución
[Link] que es de tipo binomial

El experimento consta de tres ensayos, cada uno detecta de forma independiente.

Al pasar un automóvil solo se tienen dos posibilidades: ser o no detectado (p o q).

Cada detector toene posibilidad de éxito de 0.99 y de fracaso de 0.01.

Por lo anteriormente expresado se concluye que es un experimento de tipo binomial.


2. Rx = {0, 1, 2, 3}.
3. Tomando 3.2 para p=0.99 y q=0.01 resulta

P (X = 0) = 0.000001, P (X = 1) = 0.0002967, P (X = 2) = 0.029403, P (X = 3) = 0.970299

4.
E(X) = 2.97, V (X) = 0.0297

3.3.5. Distribución de Poisson


Un experimento o proceso de Poisson debe cumplir con las siguientes condiciones [4]:

Los resultados de intervalos que no tienen puntos en común, son independientes. Esto es, los
resultados que ocurren en (t1 , t2 ) son independientes de los que transcurran en el intervalo
(t3 , t4 ), cuando los intervalos son disjuntos. Se dice que el experimento de Poisson en su
ejecución no tiene memoria.

La probabilidad de que un resultado ocurra en un intervalo de tiempo mucho muy pequeño


(t, t + δt) es una cantidad de orden δt. Esto es, la probabilidad de obtener exactamente
un resultado en un intervalo, suficientemente pequeño, es proporcional a la longitud del
intervalo.

La probabilidad de que ocurra más de un resultado en el transcurso del intervalo (t, t+δt), es
una cantidad mucho más pequeña en comporación con δt. Esto significa que la probabilidad
de obtener dos o más resultados en un intervalo sumamente pequeño es despreciable.

Luego X en Poisson es discreta con valores en Z + , además, los intervalos dependen del expe-
rimento.

Definicion 3.8 (Distribución de Poisson).

La distribución de probabilidad de la variable aleatoria de Poisson X, la cual representa el


número de resultados que ocurren en un intervalo de tiempo dado o región especı́ficos y se denota
con t, es
(λt)k −λt
P (k; λt) = e , k = 0, 1, 2, · · · (3.7)
k!
Se llama distribución de probabilidad de Poisson, a las parejas (k, p(k, λt)), para k =
0, 1, 2, · · · .

Teorema 3.5.
50 CAPÍTULO 3. VARIABLES ALEATORIAS Y DISTRIBUCIONES
Si X es una variable aleatoria de Poisson en un intervalo de longitud t y Rx = {0, 1, 2, · · · },
con parámetro λ, entonces:
P∞
i) k=0 p(λ; λt) = 1

ii) µ = E(x) = λt

iii) σ 2 = V (X) = λt

Ejemplo 3.9.

En una tienda los clientes llegan al mostrador conforme a una distribución de Poisson con un
promedio de 10 por hora. En una determinada hora. ¿cuál es la probabilidad de que lleguen al
menos cinco clientes?
Solución Tenemos X: Cantidad de clientes que llegan en una hora.
λ = 10 clientes/hora, en un intervalo de hora dad, es decir, t = 1 h.
Luego µ = λt = 10 clientes, entonces

p(X ≥ 5) = 1−p(X ≤ 4) = 1−(P (X = 0)+P (X = 1)+P (X = 2)+P (X = 3)+P (X = 4) = 0.9707

Ejemplo 3.10.

El número promedio de camiones-tanque que llega cada dı́a a cierto complejo industrial es
10. Las instalaciones en el complejo pueden alojar a lo sumo 15 camiones por dı́a. ¿Cuál es la
probabilidad de que en un dı́a determinado lleguen más de 15 camiones y se tenga que rechazar
algunos? ¿Cuál es el número de camiones esperado?, calcule la varianza
Solución
P (X > 15) = 0.0487, µ = 10, σ 2 = 10

Algunos ejemplos de histogrmas de la distribución de Poisson. En todos podemos observar que


la distribución de probabilidad se concentra alrededor del valor esperado.

Figura 3.5: Histogramams para la distribución de poisosn, los valores se concentran alrededor del
valor esperado.
3.4. DISTRIBUCIÓN CONTINUAS 51
3.4. Distribución continuas
3.4.1. Función de densidad
Sea X una variable aleatoria continua, para resolver el problema sobre el cálculo de probabi-
lidades de la variable, se introduce una función f (x) definida en todo R y dada en la definición
siguiente:
A la función sumable f (x) en todos los reales que cumple con las condiciones siguientes le
llamamos función de densidad de probabilidad (fdp), de la variable aleatoria continua X [4].
a) f (x) ≤ 0.
R∞
b) −∞ f (x)dx = 1
Para el intervalo a ≤ x ≤ b, se tiene
Z b
P (a ≤ X ≤ b) = f (x)dx (3.8)
a

Propiedades
1. Z ∞
f (x)dx = 1
−∞

2. Z b
P (a ≤ X ≤ b) = f (x)dx ≥ 0
a

3. Z a
P (a ≤ X ≤ a) = f (x)dx = 0
a

Ejemplo 3.11.
Dada una variable aleatoria continua X y una función f (x) (mostrada en la figura 3.6), definida
en todos los reales, verifique que es una función de densidad.

−1/2,
 si x ∈ (0, 2)
f (x) = x − 2, si x ∈ (2, 3)

0, para cualquier otro valor

Solución Z ∞
f (x)dx = 1
−∞

Ejercicio 3.2.
Dada la variable aleatoria continua X y una función f (x), definida en todos los reales, determine
el valor de k con el que f (x) es una función de densidad X.

 kx,
 si 0 ≤ x ≤ 2
f (x) = k(4 − x), si 2 < x ≤ 4

0, para cualquier otro caso

52 CAPÍTULO 3. VARIABLES ALEATORIAS Y DISTRIBUCIONES
Función de densidad
1

0.5
f (x)

−0.5
−1 0 1 2 3 4
x

Figura 3.6: Gráfica del ejemplo 3.11

3.4.2. Valor esperado y varianza


Dado un experimento y en este una variable aleatoria continua X, con función de densidad,
f (x), llamamos valor esperado de X (o esperanza matemática de X), al valor que denotaremos
por E(x) o µx , y se calcula por:
Z ∞
µx = E(X) = xf (x)dx (3.9)
−∞

Teorema 3.6.
Dado un experimento y una variable aleatoria continua X en este, con función de densidad de
probabilidad f (x), Si Y = h(X) es una función de X, entonces:
Z ∞
E(Y ) = E(h(X)) = h(x)f (x)dx (3.10)
−∞

Dado un experimento y una variable aleatoria continua X en este, con función de densidad
f (x), llamamos variancia de X al valor que denotamos por V (X) o σx2 , y se calcula:
Z ∞
2
σx = V (X) = (x − µx )2 f (x)dx (3.11)
−∞

Teorema 3.7.
Sea X una variable aleatoria continua con función de densidad de probabilidad f (x), entonces:

V (X) = E(X 2 ) − E 2 (X). (3.12)


3.4. DISTRIBUCIÓN CONTINUAS 53
Ejercicio 3.3.
Sea la variable aleatoria continua X, con función de densidad f (x),

 1/4,
 si 0 ≤ x ≤ 2
f (x) = x − 2, si 2 < x ≤ 3

0, para cualquier otro caso

calcule:
i) P (X ≤ 2)

ii) P (1 ≤ X ≤ 5)

iii) La esperanza matemática

iv) La varianza de X
Teorema 3.8 (Teorema de Chebyshev).
Sea X una variable aleatoria continua con función de densidad de probabilidad f (x) y varianza
finita σ 2 ; entonces, parea cualquier k > 0 2 :
1 1
P (|X − µ| ≥ kσ) ≤ o P (|X − µ| < kσ) > 1 − , (3.13)
k2 k2

3.4.3. Distribución normal


Ahora se estudiará el modelo continuo más importante y con mayor aplicación en la probabi-
lidad y estadı́stica la distribución normal Su gráfica se denomina curva normal o campana
de Gauss (figura 3.7).
Una variable aleatoria continua X que tiene la distribución en forma de campana se denomina
variable aleatoria normal. LA ecuación matemática para la distribución de probabilidad de la
variable normal depende de los dos parámetros µ y σ, media y desviación estándar, respectivamente
[2].
Definicion 3.9.
Sea X una variable aleatoria continua. Se dice que X tiene una distribución normal o de
Gauss, con parámetro µ y σ (positivo) en todos los reales cuando su función de densidad de
probabilidades es:
1 2 2
f (x) = √ e−(x−µ) /2σ , x ∈ (−∞, ∞) (3.14)
2πσ
Notación
La densidad de la variable aleatoria norma X, con media µ y varianza σ 2 también suele
denotarse como: n(x; µ, σ).
La clase de variables aleatorias con distribución normal y parámetros µ y σ 2 suele denotarse:
N (µ, σ 2 ).
2
El teorema también se cumple para variables aleatorias discretas, para tal efecto se cambia la función de
densidad de probabilidad p(x)
54 CAPÍTULO 3. VARIABLES ALEATORIAS Y DISTRIBUCIONES

(µ − σ) µ (µ + σ)

Figura 3.7: La curva normal, conocida como campana de Gauss, modificada de [6]

Teorema 3.9.

Si X es una variable aleatoria continua distribuida normalmente en (−∞, ∞) y f (x) es una


función de densidad de probabilidad, entonces:

a) E(x) = µ, V (x) = σ 2 (3.15)

Por cursos de cálculo se sabe que la integral de la ecuación (3.15) no se puede resolver con
funciones elementales, y por consiguiente el cálculo de probabilidades resulta en extremo engo-
rroso, pero debido a su importancia se cuentan con: métodos aproximados (ver curso de métodos
numéricos), tablas y programas para calcular las probabilidades. Por lo anteriormente expresado
se requiere de algún método con el que no se tenga la necesidad de resolver integrales para dife-
rentes valores de µ y σ. La solución a este problema se le conoce como la estandarización de la
variable normal.
La fórmula Z es una regla de transformación, puesto que la estandarización X − µ, representa
un desplazamiento del eje de las ordenadas (ver figura 3.8). Mientras que la división entre la
desviación estándar influye en la amplitud de la función (veáse figura 3.9).
Cuando se realiza la estandarización resulta que:

E(Z) = 0 y V (Z) = 1

o bien N (0, 1) (veáse figura 3.10).


La integral para la función acumulada de la variable aleatoria Z, es decir, la distribución normal
en su forma estándar se calcula
Z −∞
1 2
F (z0 ) = √ ez /2 dz = Φ(z0 )
2π z0

Gráfica se puede visualizar como se muesytra en la figura 3.11.


3.4. DISTRIBUCIÓN CONTINUAS 55

Figura 3.8: Gráficas de la distribución normal con la misma desviación estándar, pero diferente
valor esperado µ

Figura 3.9: Gráficas de la distribución normal con el mismo valor esperado, pero diferente desvia-
ción estándar σ

Propiedades de la distribución normal estándar


1. Propiedad de simetrı́a. La función f (z) es simétrica con respecto al eje de las ordenadas
(ver figura 3.11), es decir, P (Z < −z0 ) = P (Z > z0 )
2. Propiedad del complemento. En los casos de P (Z > z0 ) se puede emplear la simétrı́a,
inciso 1, o el complemento, es decir, P (Z > z0 ) = 1 − P (Z ≤ z0 )
3. P (−1 < Z < 1) = 0.6827
56 CAPÍTULO 3. VARIABLES ALEATORIAS Y DISTRIBUCIONES

Figura 3.10: Gráfica de la distribución normal estándar

4. P (−2 < Z < 2) = 0.9545

5. La suma de las probabilidades fuera del intervalo ).4, 4), no puede ser mayor a 0,0001, es
decir, prácticamente valen cero.

Uso de tablas de la función acumulada Como anteriormente se mencionó, el cálculo de la


integral de la función de distribución es un poco laboriosa se utilizan tablas para el cálculo de las
probabilidades, las cuales se incluyen en un archivo [Link] inutı́l establecer tablas separadas
para cada posible valor de µ y σ. Por fortuna podemos transformar todas las observaciones de
cualquier variable aleatoria normal X en un nuevo conjunto de observaciones de una variable
aleatoria normal Z con media 0.4 y varianza 1. Esto se puede realizar mediante la transformación
X −µ
Z= (3.16)
σ
Ejemplo 3.12.

Cierto tipo de baterı́a de almacenamiento dura, en promedio 3.0 años, con una desviación
estándar de 0.5 años. Suponga que la duración de la baterı́a se distribuye normalmente y calcule
la probabilidad de que una baterı́a determinada dure menos de 2.3 años.
Solución
2.3 − 3
Z= = −1.4
0.5
utilizando la tabla tenemos que:

P (X < 2.3) = P (Z < −1.4) = 1 − P (Z > 1.4) = 1 − 0.9192 = 0.0808.

Ejercicio 3.4.
3.4. DISTRIBUCIÓN CONTINUAS 57

Figura 3.11: Función acumulada de la distribución normal acumulada para z0 = 1

1. Una empresa de material eléctrico fabrica bombillas de luz cuya duración, antes de quemarse,
se distribuye normalmente con una media igual a 800 horas y una desviación estándar de 40
horas. Calcule la probabilidad de que una bombilla se queme entre 778 y 834 h. solución
51.11 %

2. En un proceso insdustrial el diámetro de un cojinete de bolas es una medida importante.


El comprador establece que las especificaciones en el diámetro sean 3.00 ± 0, 01 cm. Esto
implica que no se aceptará ninguna parte que no cumpla estas especificaciones. Se sabe que
en el proceso el diámetro de un cojinete tiene una distribución normal con media µ = 3.00
y una desviación estándar σ = 0.005. En promedio, ¿Cuántos de los cojinetes fabricados se
descartarán? Solución P (2.99 < X < 3.01) = 0.0456, esto es, se descartarán 4.56 % de los
cojinetes fabricados.

3. La duración de un determinado componente electrónico, en horas, es una variable aleatoria


que se distribuye según una N(2000,40). ¿Cuál es la probabilidad de que la duración de una
de esas componentes sea superior a 1900 horas? ¿y de que esté entre 1850 y 1950 horas?

3.4.4. Distribución exponencial


Definicion 3.10 (Distribución exponencial).

La variable aleatoria continua X tiene una distribución exponencial, con parámetro β, si


su función de densidad esta dada por
(
1 −x/β
β
e , x > 0,
f (x) = (3.17)
0, en otro caso,

donde β > 0.
58 CAPÍTULO 3. VARIABLES ALEATORIAS Y DISTRIBUCIONES

Figura 3.12: Gráfica de distribución normal ejemplo 3.12

Es una función de densidad porque no es negativa, además de que


Z ∞ Z ∞
1 −x/β
f (x)dx = e dx = 1
−∞ 0 β

Teorema 3.10.

Si X es una variable aleatoria continua distribuida de manera exponencial en [0, ∞) y f (x) es


su función de densidad de probabilidades, entonces:

a) µ = E(x) = β, b) σ 2 = V (x) = β 2

Corolario
Si X es una variable aleatoria continua, con distribución exponencial y parámetro β, entonces
con a > 0:

a) P (X > a) = ea/β

b) P (X < a) = 1 − ea/β

c) P (A < X < b) = ea/β − eb/β

Ejemplo 3.13.

El tiempo de espera de los clientes en un restaurante para ser atendidos es una variable aleatoria
continua X con una distribución exponencial y media µ = 5 minutos.

a) Calcule la probabilidad de que la siguiente persona que entre sea atendida después de seis
minutos.
3.4. DISTRIBUCIÓN CONTINUAS 59
b) Si se sabe que Panblo fue atendido después de cuatro minutos, calcule la probabilidad de
que hay sido atendido despues de seis minutos.

c) Calcule la probabilidad de que Pablo sea atendido después de dos minutos. compare el
resultado con el obtenido en el inciso b).

Ejercicio 3.5.

Considere una retroescabadora que tiene una vida media de 15 años. Si la vida util del motor
de la retroescabadora puede considerarse como una variable aleatoria distribuida de forma expo-
nencial, ¿cuál es el tiempo de garantı́a que deben tener estas retroescabadoras si se desea que a
lo más 20 % de estas fallen antes de que expire su garantı́a?
60 CAPÍTULO 3. VARIABLES ALEATORIAS Y DISTRIBUCIONES
Capı́tulo 4

Regresión lineal y correlación

El análisis de regresión es una técnica estadı́stica utilizada para la estimación de las rela-
ciones entre las variables, que incluye muchas técnicas para modelar y analizar varias variables,
cuando la atención se centra en la relación entre una variable dependiente y una o más variables
independientes.
Para el análisis de la regresión simple con los datos muestrales, primero se ubican los datos
de dos variables en un gráfico de dispersión, para determinar si existe un comportamiento lineal,
en tal caso se procede al cálculo de la correlación lineal para tener cuantitativamente su grado de
relación; después, con el propósito de predecir los valores de una variable, se procede a crear el
modelo recta de regresión, para ajustar los datos graficados en la dispersión, y con la evidencia
muestral se aplica una prueba de hipótesis estadı́stica para determinar si una relación muestral
puede o no extenderse a toda la población [4].

4.1. Regresión lineal simple


El principal problema de la probabilidad y estadı́stica es proponer modelos que ayuden a
comprender el fenómeno aleatorio. En este capı́tulo trataremos un tipo de problema estadı́stico en
el que deseamos conocer como influyen diferentes valores x1 , x2 , · · · , xn , que han sido seleccionados
de forma independiente de una variable controlable (no aleatoria), para predecir o estimar un valor
medio o un valor futuro de una variable dependiente o variable de respuesta.
Los modelos que se emplean para relacionar una variable dependiente y con otra u otras varia-
bles independientes x1 , x2 , · · · , xn se denominan modelos de regresión 0 modelos estadı́sticos
porque expresan el valor medio de y para valores dados x1 , x2 , · · · , xn .
En un modelo de regresión, a la variable ya sea para predecir o modelar, y, la denominamos
variable dependiente o de respuesta, y a las variabñles que se utilizan para predecir o modelar
a y las denominamos variables independientes o predictoras.

4.1.1. Diagrama de dispersión


El diagrama de dispersión es una representación gráfica de dos variables cuantitativas que se
analizan de manera simultánea.
Un diagrama de dispersión que despliega la relación (x, y) en términos gráficos nos ayuda para
visualizar el posible comportamiento de la dependencia entre dichas variables en la figura 4.1 se
muestran algunos patrones de comportamiento para examinar una relación (x, y).
61
62 CAPÍTULO 4. REGRESIÓN LINEAL Y CORRELACIÓN

Figura 4.1: Diagramas de dispersión que muestran algunos patrones de la relación entre x y y [4].

Ejemplo 4.1.
Un gerente quiere saber si el volumen semanal de ventas en millones de pesos de su empresa
se puede ajustar a una lı́nea recta con el número de anuncios de publicidad para televisión. Con
los datos de la tabla 4.1 trace una gráfica de dispersión.

Tabla 4.1: Anuncios contra volumen de ventas


observación Anuncios de Volumen semanal ventas
i publicidad (x) en millones de pesos (y)
1 3 125
2 5 152
3 4 131
4 4 133
5 5 142
6 3 116
7 3 127
8 6 163

La ventaja de un diagrama de dispersión consiste en permitir visualizar la relación (x, y) en


4.1. REGRESIÓN LINEAL SIMPLE 63
forma gráfica. Esto se puede apreciar en la figura 4.2, puesto que conforme aumentan los anuncios
de publicidad también lo hace el volument de ventas. Luego, puede existir una relación lineal entre
x y y, perto antes de tomar la decisión sobre la existencia de una relación, se recomienda elegir
una muestra mucho más grande y ver si el comportamiento se conserva.

Figura 4.2: Diagrama de dispersión del ejemplo 4.1.

El tipo más sencillo de curva de aproximación en un modelo es una lı́nea recta. Cuando
se examina la relación de dos variables, en general, se hace con el propósito de uasr una para
pronosticar la otra. La mayor parte de los estudios de regresión se inicia con el deseo de examinar
y explicar el valor cambiante de esta variable, la cual, como en el análisis de regresión, se llama
variable dependiente. Para terminar, podemos decir que cuando se identifica solo una variable
independiente, el análisis se llama regresión simple.
Un modelo de regresión lineal simple para toda la población está dado por:

y = β0 + β1 x + ϵ, (4.1)

donde ϵ es un error aleatorio; β0 , y β1 son parámetros desconocidos, tales que β0 =ordenada en el


origen (intersección con el eje y) y β1 =pendiente de la recta.
La distribución probabilı́stica de ϵ determina el grado en que el modelo de regresión describe
la relación entre las variables independientes y dependientes.

4.1.2. Métodos de mı́nimos cuadrados


Ajustar los datos con un modelo se puede cometer un error aleatorio, de manera que la recta
que mejor ajuste será aquella que proporcione un menor error. El método de mı́nimos cuadrados
es el mejor método para optimizar el error (ϵ).
En general, no se conocen los valores exactos de los parámetros de regresión β0 y β1 , ni del
error ϵ. Por tal razón, debido a que se trata de situaciones aleatorias en los errores y variables
dependientes, buscamos estimaciones de estos parámetros a partir de datos muestrales, con lo cual
64 CAPÍTULO 4. REGRESIÓN LINEAL Y CORRELACIÓN
determinamos la lı́nea recta que mejor ajusta a este conjunto de puntos y la llamamos recta de
regresión muestral.:
ỹ = β̃0 + β̃1 x, (4.2)
donde ỹ = valor pronosticado de la variable dependiente, x = variable independiente, β̃0 = b0 =
valor estimado de la ordenada al origen de la población. β̃1 = b1 = valor estimado de la pendiente
de la recta poblacional.
Teorema 4.1.
Sean las parejas de observaciones (x1 , y1 ), (x2 , y2 ), · · · , (xn , yn ), donde xi representa el valor de
la variable independiente x con valor de respuesta yi , entonces los valores de los estimadores β0 y
β1 que mejor ajustan un modelo lineal están dados como:
n ni=1 yi xi − ni=1 xi ni=1 yi
P P P
b1 = 2 ; (4.3)
n ni=1 x2i − ( ni=1 xi )
P P

b0 = ȳ − b1 x̄. (4.4)

donde: x̄ es el promedio de los valores de x y ȳ es el promedio de los valores de y.


Ejemplo 4.2.
Tomando los datos de la tabla 4.1 del ejemplo 4.1, se obtienen la siguiente tabla:

Tabla 4.2: Productos y cuadrados de las observaciones de la tabla 4.1


observación Anuncios de Volumen semanal ventas xi yi x2i yi2
i publicidad (x) en millones de pesos (y)
1 3 125 375 9 15625
2 5 152 760 25 23104
3 4 131 524 16 17161
4 4 133 532 16 17689
5 5 142 710 25 20164
6 3 116 384 9 13456
7 3 127 381 9 16129
8 6 163 978 36 26569
sumas 33 1089 4608 145 149897

luego
y = 82.269 + 13.056x
Cuya curva se muestra en la figura 4.3, De la ecuación de regresión se puede observar que un
aumento de una unidad en x implica que el valor de y aumente en promedio 13.056. En términos
prácticos, la ecuación de regresión sugiere que para cada comercial de televisión que se contrate
se puede esperar un promedio de 13.056 millones de pesos de ventas adicionales [4].
Esta información puede ser útil para planear el presupuesto de publicidad para años subse-
cuentes.
Ejercicio 4.1.
4.1. REGRESIÓN LINEAL SIMPLE 65

Figura 4.3: Recta de mı́nimos cuadrados para el ajuste de los puntos (x, y).

El analista de una empresa debe determinar si existe una relación positiva entre el material
de desperdicio (x), en miles de pesos, y las ventas (y) de la lı́nea complementaria con el uso de
los desperdicios, en millones de pesos. Para ello, toma 12 observaciones con diferentes valores del
desperdicio y calcula las ventas de lı́nea complementaria, obteniendo los resultados que se muestran
en las primeras tres columnas de la tabla 4.3. Trace un diagrama de dispersión y encuentre la recta
de regresión que mejor ajuste las observaciones e interprete los valores obtenidos.

Tabla 4.3: Material de desperdicio y venta complementaria.

Observación Material de desperdicio en Ventas de lı́nea complementaria


i miles de pesos (x) en millones de pesos (y)
1 5.3 21
2 6.5 28
3 4.5 20
4 4.7 22
5 5.5 28
6 6.8 32
7 7.2 35
8 6.0 30
9 6.8 35
10 5.1 24
11 4.6 17
12 5.7 24
66 CAPÍTULO 4. REGRESIÓN LINEAL Y CORRELACIÓN
4.1.3. Error estándar de estimación
La diferencia (e = y − ỹ) mide el error que ocurre al pronosticarse la variable dependiente. El
error residual es la desviación vertical de la y observada a partir de la recta de regresión muestral
que es conocida. Ası́ un residual es la diferencial entre un valor real ỹ y el valor pronosticado por
la ecuación de regresión muestral.
Ya se vio que en las medidas de dispersión que la desviación estándar de un conjunto de datos
representa una medida de variabilidad o dispersión de los datos alrededor de la media. De igual
manera, el error estándar de estimación se usa paraa medir la variabilidad o dispersión de los
valores de y observados en la muestra alrededor de la recta de regresión.
Ası́ el error estándar de estimación lo denotaremos por s y lo calcularemos mediante:
sP
n 2
i=1 (y1 − ỹ)
s= (4.5)
n−2
Donde:
s = error estándar de estimación,
yi = valores muestrales de y.
ỹi = valores de y calculados con la ecuación de regresión.
n = tamaño de la muestra.
El valor n − 2 representa el número de grados de libertad de los residuales alrededor de la recta
de regresión ajustada.
Ejemplo 4.3.
Usando los datos de la tabla 4.2

Tabla 4.4: Observaciones de la tabla 4.2


observación Anuncios de Volumen semanal ventas ỹi ei = yi − ỹi e2i
i publicidad (x) en millones de pesos (y)
1 3 125 121.4 3.6 12.7
2 5 152 147.5 4.5 19.8
3 4 131 134.5 -3.5 12.2
4 4 133 134.5 -1.5 2.2
5 5 142 147.5 -5.5 30.8
6 3 116 121.4 -5.4 29.6
7 3 127 121.4 5.6 30.9
8 6 163 160.6 2.4 5.7
Suma 144

luego
?‘s = 4.9
donde s = 4.9 es el error estándar de la estimación para la recta de regresión, es decir, la desviación
estándar o tı́pica entre los valores muestrales y.

4.2. Covarianza y coeficiente de correlación de Pearson


Bibliografı́a

[1] Hines, W. W. Montgomery, D. C. Goldsman D. M. Borror C. M. (2005). Probabilidad y es-


tadı́stica para ingenierı́a. (4a ed.). México, CECSA.

[2] Walpole R., Myers R., Myers S, Ye K. (2012) Probabilidad y estadı́stica para ingenierı́a y
ciencias. (9a edición) México, Pearson.

[3] Rincón L. (2007) Curso elemental de probabilida y estadı́stica. México UNAM.

[4] Gutiérrez González E., Vladimirivna Panteleeva O., (2014) Probabilidad y estadı́stica (aplica-
ciones a la ingenierı́a y ciencia) México, Patria.

[5] Colegio de matemáticas UNAM, Percentiles y cuartiles. (26 de noviembre de 2023) .

[6] [Link], https:⧸⧸[Link] ⧸ normal-distribution

67

También podría gustarte