Notas Probabilidad
Notas Probabilidad
Facultad de Ingenierı́a
Autor
Otoño 2025
2
Objectives: To harness the concepts of linear algebra in the solution of problems which involve
systems of linear ecuations, matrix algebra, linear transformations and matrix diagonalisation.
Figura 1: Probabilidad y estadı́stica
4
Índice general
I Estadı́stica 7
1. Estadı́stica 9
1.1. Definiciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.1.1. Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.1.2. Variables y tipos de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2. Tamaño de la muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3. Clases de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.1. Cantidad de clases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.2. longitud y amplitud de la clase . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.3. Clases de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.4. Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3.5. Diagrama de tallo y hoja . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.4. Medidas de tendencia central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.5. Medidas de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.6. Cuartiles y percentiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.6.1. Percentil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.6.2. Cuartiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.6.3. Diagrama de caja y bigotes . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.7. Medidas de forma (sesgo y curtosis) . . . . . . . . . . . . . . . . . . . . . . . . . . 20
II Probabilidad 23
2. Probabilidad 25
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2. Álgebra de eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2.1. Diagrama de Venn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2.2. Leyes del álgebra de eventos . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.3. Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.3.1. Axiomas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.4. Técnicas de conteo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.4.1. Permutaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.4.2. Permutaciones con elementos indistinguibles . . . . . . . . . . . . . . . . . 34
2.4.3. Combinaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.5. Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.5.1. Regla del producto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5
6 ÍNDICE GENERAL
2.6. Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Estadı́stica
7
Capı́tulo 1
Estadı́stica
1.1. Definiciones
Definicion 1.1 (Estadı́stica). La estadı́stica es la rama de las matemáticas que proporciona méto-
dos para reunir, organizar y analizar información y usarla para obtener diversas conclusiones que
pueden ayudar a resolver problemas en la toma de decisiones y el diseño de experimentos [4]
Definicion 1.2 (Población). Se entiende por población al conjunto o muestra a estudiar y que
tiene ciertas caracterı́sticas con las cuales se les puede agrupar para conocer su comportamiento
sobre dichas caracterı́sticas.
Supongamos que tenemos una población de interés, esto es, un conjunto arbitrario de personas,
mediciones u objetos cualesquiera, y deseamos conocer cierta información de esta población, en
algunas ocasiones la población es tan grande que serı́a imposible de tener información de todos y
cada uno de los elementos de la población, entonces, es cuando se debe tomar un subconjunto lo
suficientemente grande que pueda ser representativo de la población total, a este subcojunto se le
conoce como muestra (ver figura 1.1) [3].
P oblacion
M uestra
1.1.1. Datos
Los datos es la información de la población obtenida y que conviene almacenarlos en formato
de tablas u hojas de cálculo, ya que son compatibles en casi todos los sistemas de software analı́tico
[1].
9
10 CAPÍTULO 1. ESTADÍSTICA
1.1.2. Variables y tipos de datos
Definicion 1.3 (Variable). Una variable es una caracterı́stica de un elemento en una población.
Por ejemplo, si la población consta de automóviles, las posibles variables de interés puede ser:
Marcas, color, transpote (pasajeros, carga), segmentación (pequeño,mediano,grande, gamma alta,
lujo), dependiendo lo que se desea averiguar serán las variables que se eligen.
Las variables se clasifican en cuantitativas, cuando el valor es un número y cualitativas, estas
son cuando solo se registran una cualidad o atributo del objeto de estudio. En una población de
personas, la edad, el peso son ejemplos de variables cuantitativas, mientras, el sexo y el estado
civil son variables cualitativas.
Las variables cuantitativa puede ser discreta o continua, la primera sucede cuando solo toma
valores discretos (por ejemplo, edad) , la segunda es cuando puede tomar valores dentro de un
intervalo (a, b) (por ejemplo, cantidad de agua que toma a diario) figura 1.2.
Variable
Cuantitativa Cualitativas
Discreta Continua
Las variables cualitativas pueden ser clasificadas de acuerdo a dos escalas: nominal u ordinal.
Mientras que las variables cuantitativas pueden clasificarse por: escala de intervalo o de razón.
Una variable se llama nominal cuando sus posibles valores no tienen alguna relación de orden
o magnitud entre ellos, por ejemplo sexo se etiqueta como Femenino (F ), Masculino (M ) Prefiero
no decir (P) los sı́mbolos F , M y P son etiquetas arbitrarias y no existe un orden en ellas no
podemos realizar operaciones arı́tmeticas [3].
La ordinal tiene un orden pero no se pueden hacer operaciones aritméticas entre estos valores
pues no hay noción de distancia entre ellos. Por ejemplo, expresar su experiencia en visitar una
tienda la cual se puede valores como 0=pésima, 1= mala, 2=regular, 3=buena, 4= excelente [3].
En la escala de intervalo existe un orden, además de existe una noción de distancia, sin embargo
no se pueden realizar operaciones. Por ejemplo el peso de una persona, se debe tener claro que en
este caso no existe valor natural de cero, ver figura 1.3.
Por último, la escla de razón tiene sentido fı́sico y existe el cero absoluto, por ejemplo la
distancia de dos automóviles cuando pasan por cierta carretera.
La clasificación de una variable no es tan clara, puesto que, depende del tratamiento que le de
el investigador.
Cuantativa Cualitativas
trabajando de más, es por esta causa que decidir el tamaño de la muestra resulta ser importante en
la fase previa de cualquier investigación cientı́fica o de mercado, puesto que esto determina el grado
de confiabilidad, es por esta razón que la muestra debe contar con las siguientes caracterı́sticas.
Representativa. Todos y cada uno de los elementos de la población deben tener la misma
oportunidad de ser tomados en cuenta para ser parte de la muestra.
Definicion 1.4. Dado un conjunto de datos se llama intervalos de clase o clases de fre-
cuencia a los intervalos que por parejas son ajenos o disjuntos y contienen a todos los datos del
conjunto [4].
Nota Por lo general a las clases de frecuencia simplimente se les denomina clases.
¿En cuántos intervalos se deben distribuir los datos?
3. La llamada regla de Sturges, donde la cantidad de clases se toma como el entero más cercano
a 1 + 10
3
log n.
ls − li
x= (1.1)
m
luego, para calcular primero se calculan los lı́mites superior e inferior de cada intervalo de la
siguiente manera:
x1 = li + x
x2 = x1 + x
x3 = x2 + x
·
xm − 1 = xm−2 + x
Para obtener los intervalor, solo se toman los valores (xi , xi+1 ] que deben ser igual al número
de clases m, cabe destacar que el primer intervalo debe ser cerrado por ambos lados.
fi
fr = (1.2)
n
donde n es el número total de datos.
1.3. CLASES DE FRECUENCIAS 13
1.3.4. Histograma
La información que brinda una distribución de frecuencias relativas en forma tabular es más
facı́l de entender si se presenta en forma de grafica. Con los puntos medios de cada intervalo y las
frecuencias relativas correspondientes construimos un histograma de frecuencias relativas.
Ejemplo 1.2.
Consideremos los datos de la tabla 1.1. Los datos representan la resistencia al estallamiento en
libras por pulgada cuadrada de cien botellas con capacidad de un litro, ejemplo tomado del [1].
Tabla 1.1: Resistencia la estallamiento, en libras por pulgada cuadrada de 100 botellas de vidrio
con capacidad de un litro, tabla tomada del Hines [1]
265 197 346 280 265 200 221 265 261 278
205 286 317 242 254 235 176 262 248 250
263 274 242 260 281 246 248 271 260 265
307 243 258 321 294 328 263 245 274 270
220 231 276 228 223 296 231 301 337 298
268 267 300 250 260 276 334 280 250 257
260 281 208 299 308 264 280 274 278 210
234 265 187 258 235 269 265 253 254 280
299 214 264 267 283 235 272 287 274 269
215 318 271 293 277 290 283 258 275 251
Solución
Tabla 1.2: Tabla que muestra los cálculos del rango, el número de clases y la longitud de las clases
del ejemplo 1.2
Total de datos 100
Rango de los datos 346√− 176 = 170
100 = 10,
Número de clases log2 (100) = 6.64,
1 + 103
log 100 = 7.66
Longitud de las clases x = (170/10) = 17
Tabla 1.4: datos en forma de tallo-hoja con diez tallos del ejemplo 1.2.
Ejercicio 1.1.
ii. Realizar las gráficas del inciso i. con los datos del ejemplo 1.2 (Ver figuras 1.6 y 1.7).
16 CAPÍTULO 1. ESTADÍSTICA
Tabla 1.5: frecuencias y frecuencias acumuladas del ejemplo 1.2.
Valor medio frecuencia frecuencia absoluta
178.5 2 2
195.5 4 6
212.5 6 12
229.5 10 22
246.5 19 41
263.5 29 70
280.5 15 85
296.5 8 93
314.5 4 97
331.5 3 100
datos, es decir
n
X xi
x̄ = (1.3)
i=1
n
donde n es el número total de datos.
Definicion 1.8 (Moda).
La moda (xm ) es el valor que aparece con mayor frecuencia.
Si existe un único valor que se repite más veces, es la moda y entonces se dice que es unimodal,
Si existen dos valores que además de que se repiten más veces, en cantidad son iguales, entonces
los dos son moda y se dice que es bimodal. Si hay tres o más valores que se repiten más veces
entonces se dice que es multimodal [3].
Definicion 1.9 (Mediana).
Dado que las observaciones en una muestra son xi , i = 1, 2, 3, · · · , n, acomodadas en orden de
mágnitud creciente, la mediana de la muestra es
(
x n+1 si n es par,
x̃ = 1 2 (1.4)
2
x n/2 + x (n/2)+1 si n es impar.
Tomando los datos de la tabla correspondiente es la tabla 1.1 se tiene los siguientes resultados:
Medida de
tendencia valor
central
x̄ 264.06
xm 265
x̃ 265
ciente información para describir los datos de manera adecuada. Es por esta manera que se deben
estudiar que tan dispersos están los datos.
Nota: La ecuación (1.5) se le conoce como varianza insesgada o muestral, existe otra que se
le conoce como varianza sesgada o poblacional 1 . La varianza sesgada refleja perfectamente el
significado de una medida de dispersión como un promedio de los cuadrados de las desviaciones,
y tiene una gran aplicación en el estudio de las probabilidades, mientras que la varianza insesgada
es más propicia para cálculos estadı́sticos y se usa en las muestras [4]. Se define la desviación
estándar como la raı́z de la Varianza.
Luego, la varianza y desviación estandar para el ejemplo 1.2 son:
σ 2 = 1014.9 (1.6)
σ = 31.86 (1.7)
Ejercicio 1.2.
Se deja investigrar las siguientes valores medios: Media geométrica, media armónica y media
ponderada.
x0 Q1 Q2 Q3 xn
Figura 1.8: Diagrama de caja y bigotes, x0 y xn representan los lı́mites mı́nimos y máximos de la
muestra
Tomando la muestra del ejemplo 1.2 se tiene el diagrama de caja mostrado en la figura 1.9,
en donde se observa que la parte superior de la caja es ligeramente menor que la parte inferior de
la caja, esto significa que la resistencia de estallamiento se encuentran práctivamente distribuidas
20 CAPÍTULO 1. ESTADÍSTICA
uniformemente, en el caso de los bigotes ambas partes también son del mismo tamaño, esto nos
indica que la distribución es normal, por último, los cı́rculos que aparecen fuera de los bigotes son
valores dispersos (atı́picos) que si no son muchos se pueden despreciar.
donde n
1X
m3 = (xi − x̄)3
n i=1
El calculo del sesgo no solo indica si la cola se encuentra a la izquierda o a la derecha, sino que
también, que tan dispersos están los datos, entre mayor o menor sea el valor del sesgo es mayor
la dispersión, esto es:
0,
La distribución de los datos es simétrica.
CA = < 0 Los datos están sesgados a la izquierda.
> 0 Los datos están sesgados a la derecha.
Si los datos presentan un grado alto de simetrı́a, surge la interrogante sobre la normalidad de
la muestra.
Si la muestra presenta simetrı́a se define otra otra medida que compara muestras simétricas
con la distribución normal. La caracterı́stica que determina la forma de los datos simétricos con
respecto a la normal se llama curtosis, elevación o achatamiento relativo de la distribución de los
datos comparada con la distribución normal [4].
Definicion 1.12 (Curtosis).
Sean x1 , x2 , · · · , xn datos con media x̄ y desciación estándar muestral σn−1 entonces llamamos
curtosis a la medida que representa el achatamiento relativo de la distribución de los datos al
compararse con la distribución normal. Se tiene varias fórmulas para calcular la curtosos, las cuales
coinciden cuando n es grande [4].
En estas notas solo se presenterá una, pero si quiere conocer las otras tres revisar el libro de
Gutierrez González [4].
n 4
3(n − 1)2
n(n + 1) X xi − x̄
CU = − (1.10)
(n − 1)(n − 2)(n − 3) i=1 σn−1 (n − 1)(n − 2)
entonces, para saber que tan achatada esta, se tiene la siguiente consideración
0,
para una normal, se llama mesocúrtica.
CU = < 0, menos puntada que la normal, se llama platicúrtica. (1.11)
> 0, más apuntada que la normal, se llama leptocúrtica.
f (x)
Leptocúrtica
Mesocúrtica
Platicúrtica
x
0 200 400 600 800 1000 1200
Probabilidad
23
Capı́tulo 2
Probabilidad
2.1. Introducción
En el capı́tulo anteriore básicamente se estudió la presentación e interpretación de resultados
fortuitos que ocurren en un estudio planeado o en una investigación cientı́fica, que representan
conteos o mediciones, o datos categóricos que se podrı́an clasificar de acuerdo con algún crı́terio
[2].
En el presente capı́tulo, al referirnos a cualquier registro de información, ya sea numérico o
categórico, se empleará el término observación.
En estadı́stica se utiliza la palabra experimento para describir el proceso que genere un
conjunto de datos. En general la estadı́stica lo que interesa son aquellas observaciones que se
repiten varias veces en un experimento, sin embargo, no se consideran que los resultados dependen
del azar, y por lo tanto no se puede predecir con certeza, esto es, están sujetos a la incertidumbre.
A cada resultado en un espacio muestral se le llama elemento o miembro del espacio muestral,
o simplemente punto muestral.
S = {1, 2, 3, 4, 5, 6}
S = {par, impar}
El ejemplo anterior ilustra el hecho de que en un mismo experimento se pueden tener diferentes
espacios muestrales, dependiendo lo que se quiera analizar. Cuando los elementos del espacio
muestral son pequeños se puede utilizar un diagrama de árbol.
Para ejemplificar el diagrama de árbol tomaremos el ejemplo De lanzar tres veces una moneda
y ver si cae águila(a) o sol(s).
El espacio muestral es:
sss
s
s
a ssa
s
s sas
a
a saa
s ass
s
a asa
a
s aas
a
a aaa
Figura 2.1: Diagrama de árbol para el evento de tres tiradas de una moneda
Ejercicio 2.1. Suponga que se seleccionan, de forma aleatoria, cuatro artı́culos de un proceso de
fabricación. Cada artı́culo se inspecciona y se clasifica como defectuoso, D, o no defectuoso, N .
Realice el diagrama de árbol para dicho proceso.
A = {x|x ∈ S, x ∈
/ A}
Ejemplo 2.2.
Sea el conjunto una baraja ordinaria S, tomemos a R como el evento de que se seleccione una
carta roja. Entonces R′ es el evento de que la carta seleccionada de la baraja sea negra.
R′
Figura 2.2: Diagrama de Venn del conjunto universal S, el cual, contiene al evento R y su com-
plemento R′
B ∪ A = {x|x ∈ A ∨ x ∈ B}
S
A B
Figura 2.3: Reprersentación general de la unión entre dos eventos de color verde.
A ∩ B = {x|x ∈ A ∧ x ∈ B} (2.1)
U
A B
A − B = {x|x ∈ A ∧ x ∈
/ B}
S
A B
Definicion 2.5.
Sean los eventos A = [2, 25) y B = [14, 27]. Luego A − B = [2, 14).
2.3. Probabilidad
Consideremos los experimentos para los cuales el espacio muestral contiene un número finito de
elementos. La probabilidad de la ocurrencia de un evento que resulta de tal experimento estadı́stico
30 CAPÍTULO 2. PROBABILIDAD
Tabla 2.1: Leyes del algebra de eventos
′
A∩A =U idempotencia A∪B =∅
(A ∩ B) ∩ C = A ∩ (B ∩ C) asociativas (A ∪ B) ∪ C = A ∪ (B ∪ C)
A∩B =B∩A conmutativa A∪B =B∪A
A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) distributivas A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
A∪∅=A identidad A∪S =S
A∩∅=∅ A∩S =A
A ∪ A′ = S complemento A ∩ A′ = ∅
(A′ )′ = A S ′ = ∅, ∅′ = S
′ ′ ′
(A ∪ B) = A ∩ B Morgan (A ∩ B)′ = A′ ∪ B ′
2.3.1. Axiomas
Dado un experimento con espacio muestral S y una familia de eventos A de S tal que sus
elementos cumplen con las leyes del álgebra de eventos, llamaremos probabilidad axiomática a
la función numérica P , cuyo dominio es A y rango de intervalo [0, 1], y es tal que los valores P (E)
para cualquier E en A, cumple con los siguientes tres axiomas llamados axiomas de Kolmogórov,
para familias finitas:
Axioma 2.1. Para cualquier evento E de A se cumple P (E) ≥ 0.
Considerando espacios muestrales finitos, simbolizando por n(S) la cantidad de elementos del
espacio muestral y por n(E) la cantidad de elementos de algún evento [Link]́s, que los elementos
de espacio son equiprobables, entonces
n(E)
P (E) = (2.3)
n(S)
Axioma 2.2. Para el espacio muestral S, P (S) = 1.
Axioma 2.3. Para cualquier sucesión infinita (o finita) de eventos mutuamente excluyentes de
A, E1 , E2 , · · · , se cumple
∞
! ∞
[ X
P Ei = P (Ei ) (2.4)
i=1 i=1
2.3. PROBABILIDAD 31
Teorema 2.1. Para cualquier evento E, P (E ′ ) = 1 − P (E)
Teorema 2.2. Si A y B son eventos de un mismo espacio muestral, tales que A ⊂ B, entonces
Teorema 2.3. Para dos eventos cualesquiera A y B de un mismo espacio muestral, se cumple
que:
Teorema 2.4.
k
! k k k
[ X X X
P Ai = P (Ai )− P (Ai ∩Aj )+ P (Ai ∩Aj ∩Al )+· · ·+(−1)k−1 P (A1 ∩A2 ∩· · ·∩Al )
i=1 i=1 i<j=2 i<j<l=3
(2.7)
Teorema 2.5. Para dos eventos cualesquiera A y B de un mismo espacio muestral, se cumplen
que:
P (A − B) = P (A) − P (A ∩ B) (2.8)
Ejercicio 2.2.
a) Sean los eventos A y B correspondientes a un mismo espacio muestrales tales que P (A′ ) =
0.6, P (B ′ ) = 0.7 y P (A ∩ B) = 0.2. Calcule P (A ∪ B).
b) Sean los eventos A y B correspondientes a un mismo espacio muestral, tales que: P ((A ∪
B)′ ) = 0.2, P (A′ ) = 0.2 y P (A ∩ B) = 0.2. Calcule P (A) y P (B).
c) Sean los eventos A y B, correspondientes a un mismo espacio muestral, tales que P (A′ ) = 0.4,
P (B) = 0.5 y P (A ∪ B) =0.7. Calcule P (A − B) y P (A′ − B ′ ).
Ejercicio 2.3.
A B
0.4 0.1
0.2
0.3
Figura 2.6: Diagrama de Venn-Euler de probabilidades para el ejercicio 2.2 a, modificado de [4].
P (T ∩ H ′ ∩ M ′ ) + P (T ′ ∩ H ∩ M ′ ) + P (T ′ ∩ H ′ ∩ M )
2.4.1. Permutaciones
Los arreglos son sin repetición o reemplazo cuando después de elegido un elemento, este ya no
puede volverse a seleccionar.
Una permutación es un arreglo de distintos objetos. Una permutación difiere de otra si el orden
del arreglo o su contenido son distintos.
Definicion 2.7 (Permutación).
Llamamos permutación de k elementos escogidos de un total n (todos diferentes) a:
n n!
n P r = Pk = , 0 ≤ k ≤ n. (2.9)
(n − k)!
Ejercicio 2.7.
Calcular el número de permutaciones del ejercicio 2.5 c. ¿Es igual al número de eventos obte-
nidos en el árbol del ejercicio 2.5 d.
34 CAPÍTULO 2. PROBABILIDAD
2.4.2. Permutaciones con elementos indistinguibles
En los casos en que se quiere formar arreglos con todos los elementos de un conjunto, entre los
cuales existen algunos que son iguales o indistinguibles, tenemos lo siguiente.
De forma general, cuando hay n1 elementos iguales, n2 elementos iguales, y ası́ sucesivamente
hasta tener nk elementos iguales, tales que: n1 + n2 + · · · + nk = n, el resultado es la cantidad
total de ordenamiento diferentes, considerando todos los n elementos en cada arreglo.
n n!
= Pnn1 n2 ···nk = (2.10)
n1 n2 · · · nk n1 !n2 ! · · · nk !
Ejemplo 2.8.
2.4.3. Combinaciones
Una combinación es un arreglo de distintos objetos; una combinación difiere de otra sólo si el
contenido de sus arreglos es distinto. Aqui el orden no importa.
Ejemplo 2.9.
Ejercicio 2.8.
Se desea mandar un equipo de ingenieros para revisar los edificios en una comunidad, el equi-
po debe contar con tres civiles, un topógrafo y un geofı́sico. Se cuentan con cinco civiles, tres
topografos y dos geofı́sicos. ¿cuántos arreglos diferentes se pueden hacer?
2.5. PROBABILIDAD CONDICIONAL 35
2.5. Probabilidad condicional
La probabilidad de que ocurra un evento B cuando se sabe que ya ocurrió algún evento A se
llama probabilidad condicional y se denota con P (A|B), el cual se lee como: la probabilidad de
que ocurra B, dado que ocurrió A o simplemenmte, la probabilidad de B, dado A [2].
Definicion 2.9.
La probabilidad condicional de B dado A se define como:
P (A ∩ B)
P (A|B) = , siempre que P (A) > 0 (2.12)
P (A)
Ejemplo 2.10.
Suponga que tenemos un espacio muestral S constituido por la población de adultos de una
pequeña ciudad que cumplen con los requisitos para obtener un tı́tulo universitario. Debemos
clasificarlo de acuerdo con su género y situación laboral mostrada en la tabla 2.2, ejercicio tomado
del libro [2].
Tabla 2.2: Clasificación de los adultos de una pequeña ciudad, del ejemplo 2.10
Empleado Desempleado total
Hombre 460 40 500
Mujer 140 260 400
total 600 300 900
Se seleccionara al azar a uno de estos individuos para que realice un viaje a través del paı́s con
el fin de promover las ventajas de establecer industrias nuevas en la ciudad.
Nos interan los siguientes eventos:
M: Se elige a un hombre.
E: el elegido tiene empleo.
Solución
Para resolver este problema tomaremos la ecuación 2.12,primero calculamos P (E ∩M ) y P (E).
460 600
P (E ∩ M ) = y P (E) =
900 900
entonces
P (M |E) = 23/30
Suponga que tenemos una caja de fusibles que contiene 20 unidades, de las cuales 5 están
defecuosas. si se seleccionan 2 fusibles al azar y se retiran de la caja, uno después del otro, sin
reemplazar el primero, ¿cuál es la probabilidad de que ambos fusibles estén defectuosos?
Solución
Sean A el evento de que el primer fusible esté defectuoso y B el evento de que el segundo
esté defectuoso; entonces, interpretamos A ∩ B como el evento que ocurra A, y entonces B ocurre
después de que haya ocurrido A.
La probabilidad de sacar el primero defectuoso es:
5 1
P (A) = =
20 4
4
P (B|A) =
19
Luego
1
P (A ∩ B) =
19
Ejemplo 2.12.
Un sistema eléctrico consta de cuatro componentes, como se ilustra en la figura 2.7. El sistema
funciona si los componentes A y B funcionan, y si funciona cualquiera de los componentes C o
D. La confiabilidad (probabilidad de que funcionen) de cada uno de los componentes también se
muestra en la figura 2.7. Calcule la probabilidad de a) que el sistema completo funcione y de b)
que el componente C no funcione, dado que el sistema completo funciona. Suponga que los cuatro
componentes funcionan de manera independiente.
0.8
C
0.9 0.9
0.7
A B
D
Solución
2.6. TEOREMA DE BAYES 37
a) Es evidente que la probabilidad de que el sistema completo funcione se puede calcular de la
siguiente manera: 1
P (A1 ∩ A2 ∩ · · · Ak ) = P (A1 )P (A2 |A1 )P (A3 |A1 ∩ A2 ) · · · P (Ak |A1 ∩ A2 ∩ · · · ∩ Ak−1 ). (2.15)
Ejercicio 2.9.
Una empresa de construcción decide hacer una encuesta a un conjunto habitacional que consta
de 52 casas, el conjunto consta de 4 tipos diferentes de casas, se sabe que viven familias que
económicamente se clasifican en el nivel medio alto, medio, medio bajo y alto bajo, 12 familias
son del medio alto, 15 del nivel medio, 15 del medio bajo y el resto del alto bajo, también se sabe
que el 97 % de los que habitan tienen automóvil.
Realizar:
S
E3
E4
E2
E5
E6
E1 A
· · · En
Figura 2.8: Representación gráfica del teorema de la probabilidad total, de gris el evento A.
Como se observa en la figura 2.8, pueden existir eventos de la partición que tienen intersección
con A.
Ejemplo 2.13.
Tres máquinas de cierta planta dse ensamble, B1 , B2 y B3 , montan 30 %, 45 % y 25 % de los
productos, respectivamente. Se saben por experiencia que 2 %, 3 % y 2 % de los productos ensam-
blados por cada máquina, respectivamente, tienen defectos. Ahora bien, suponga que se selecciona
de forma aleatoria un producto terminado. ¿Cuál es la probabilidad de que este defectuoso?
Solución Sean A el producto defectuoso, B1 el producto ensamblado en la máquina B1 , B2 el
producto ensamblado en la máquina B2 y B3 el producto ensamblado en la máquina B3 .
Entonces para responder la pregunta se debe calcular P (A), tomando el teorema de la proba-
bilidad total 2.7, Tenemos que:
Esté ejemplo se puede visualizar de forma gráfica como se muestra en la figura 2.9.
Teorema 2.8 (Teorema de Bayes).
2.6. TEOREMA DE BAYES 39
B1 P (A|B1 )
A
1)
P (B
P (B2 ) B P (A|B2 )
2 A
P (B
3) B3 A
P (A|B3 )
P (A|Ek )P (Ek ) P (A ∩ Ek )
P (Ek |A) = Pn = Pn (2.18)
i=1 P (Ei )P (A|Ei ) i=1 P (A ∩ Ei )
Ejemplo 2.14.
Con referencia al ejemplo 2.13, si se elige al azar un producto y se encuentra que está defectuoso,
¿Cuál es la probabilidad de que haya sido ensamblado con la máquina B3 ?
solución P (B3 |A) = 10/49.
40 CAPÍTULO 2. PROBABILIDAD
Capı́tulo 3
3.1. Conceptos
Definicion 3.1 (Variable aleatoria).
Una Variable aleatoria es una función que asocia un número real con cada elemento del
espacio muestral
Ejemplo 3.1.
Se lanzan tres monedas, se desea saber la cantidad de águilas que resulten del experimento.
Notamos que pueden ocurrir que salgan 0,1,2 o 3 águilas. ahora bien, el espacio muestral de
dicho evento es:
S = {sss, ass, sas, ssa, aas, asa, saa, aaa}
sss → 0
ass, sas, ssa → 1
aas, asa, saa → 2
aaa → 3
P (X = 2) = 3/8
41
42 CAPÍTULO 3. VARIABLES ALEATORIAS Y DISTRIBUCIONES
3.2. Variables aleatorias
Definicion 3.2 (Espacio muestral discreto).
Si un espacio muestral contiene un número finito de posibilidades, o una serie interminable con
tantos elementos como números enteros existen, se llama espacio muestral discreto.
Dado un experimento aleatorio y una variable aleatoria X, que lo representa con rango Rx
llamamos a X: variable aleatoria discreta (vad), cuando el conjunto Rx resulta finito o a lo
más infinito numerable.
El conjunto de pares ordenados (x, f (x)) es una función de probabilidad, una función de
masa de probabilidad o una distribución de probabilidad de la variable aleatoria discreta
X si, para cada resultado x posible,
1. f (x) ≥ 0,
P
2. x f (x) = 1,
3. P (X = x) = f (x).
Ejemplo 3.2.
Un embarque de 20 computadoras portátiles similares para una tienda minorista contiene 3 que
están defectuosas. Si una escuela compra al azar 2 de estas computadoras, calcule la distribución
de probabilidad para el número de computadoras defectuosas.
Solución
Sea X = {x| x está defectuosa}, luego
3 17
68
f (0) = P (X = 0) = 0 202 = ,
2
95
3 17
51
f (1) = P (X = 1) = 1 201 = ,
190
2
3 17
3
f (2) = P (X = 2) = 2 200 = .
2
190
3.3. DISTRIBUCIÓN DE PROBABILIDADES 43
x 0 1 2
f(x) 68/95 51/190 3 /190
Ejercicio 3.1. Se deja al estudiante investigar cómo graficar en Python, la frecuencia de distri-
bución acumulada y el histograma de probabilidad.
a) F (X) es una función creciente, es decir, para todo x < y, se tiene F (x) < F (y).
Ejemplo 3.3.
Tomando el ejemplo 3.1 y X: representa la cantidad de águilas en el, lanzamiento de las tres
monedas.
Está claro que Rx = {0, 1, 2, 3}; por otro lado, se calcularon las probabilidades para los ele-
mentos de la variable y se obtuvo:
es decir
1/8, para x = 0, 3
p(x) = 3/8, para x = 1, 2
0, para otro valor
gráficamente se tiene:
Ejemplo 3.4.
Sea el experimento del lanzamiento de dos dados se define a la variable aleatoria discreta X:
la suma de los puntos de los dados que quedan hacia arriba. a) describa el espacio muestral y el
rango de X, b) Calcule la esperanza matemática.
Definicion 3.6 (Varianza).
Dado un experimento y una variable aleatoria discreta X en el rango Rx = {x1 , x2 , · · · , xn },
puede ser infinito numerable y función de probabilidad p(x). Llamamos varianza o variancia de
X a la cantidad que simbolizamos con (X) o σx2 , y se calcula como:
X
V (x) = (xk − E(X))2 p(xk ) (3.3)
k≥1
Ejemplo 3.6.
Sea (xk , p(xk )) la distribución de probabilidad de una variable aleatoria discreta X, según se
muestra explicitamente en la tabla 3.1.
X=x -3 -2 -1 1 2
p(x) 0.35 0.05 0.3 0.2 0.1
a) La esperanza matemática.
b) La variancia de X.
Solución
a) E(X) = −1.25
b) Utilizando la ecuación 3.4, tenemos
V (X) = 2.69
Teorema 3.2.
Si X es una variable aleatoria binomial y Rx = {0, 1, 2, · · · , n}, con éxito P y fracaso q = 1 − p,
entonces se cumplirá:
P (X = k) = b(k; n, p) = Ckn pk q n − k, k = 0, 1, 2 · · · , n. (3.5)
El conjunto de parejas (k, B(k; n, p)), para k = 0, 1, 2 · · · , n se le conoce como distribución
de probabilidad binomial.
Teorema 3.3.
Si X es una variable aleatoria binomial, con distribución (k, B(k; n, p)), para k = 0, 1, 2, · · · , n
con exito p y fracaso q = 1 − p, entonces:
n
X n
X
B(k; n, p) = Ckn pk q n−k = 1 (3.6)
k=0 k=0
Teorema 3.4.
Si X es una variable aleatoria discreta con distribución binomial, que consta de n ensayos,
probabilidad de éxito p y probabilidad de fracaso q = 1 − p, entonces:
a) E(X) = np.
b) V (X) = npq.
Notación de la función de distribución acumulada:
(
0, x ∈ (−∞, 0)
F (x) = P[x] n k n−k
k=0 Ck p (1 − p) , x ∈ [[x] , [x] + 1) 1, x ∈ [n, ∞)
48 CAPÍTULO 3. VARIABLES ALEATORIAS Y DISTRIBUCIONES
Ejemplo 3.7.
Figura 3.4: Grafica del ejemplo 3.7 , se puede observar que para 4 o más defectuosos la probabilidad
es mı́nima.
Ejemplo 3.8.
Un sistema de tres radares para detectar automóviles a gran velocidad se instaló en una
carretera. Cada radar funciona de manera independiente, con probabilidad de detectar un vehı́culo
que viaje a gran velocidad igual a 0.99. Consideremos la variable aleatoria:
Calcule:
2. Calcule Rx
4.
E(X) = 2.97, V (X) = 0.0297
Los resultados de intervalos que no tienen puntos en común, son independientes. Esto es, los
resultados que ocurren en (t1 , t2 ) son independientes de los que transcurran en el intervalo
(t3 , t4 ), cuando los intervalos son disjuntos. Se dice que el experimento de Poisson en su
ejecución no tiene memoria.
La probabilidad de que ocurra más de un resultado en el transcurso del intervalo (t, t+δt), es
una cantidad mucho más pequeña en comporación con δt. Esto significa que la probabilidad
de obtener dos o más resultados en un intervalo sumamente pequeño es despreciable.
Luego X en Poisson es discreta con valores en Z + , además, los intervalos dependen del expe-
rimento.
Teorema 3.5.
50 CAPÍTULO 3. VARIABLES ALEATORIAS Y DISTRIBUCIONES
Si X es una variable aleatoria de Poisson en un intervalo de longitud t y Rx = {0, 1, 2, · · · },
con parámetro λ, entonces:
P∞
i) k=0 p(λ; λt) = 1
ii) µ = E(x) = λt
iii) σ 2 = V (X) = λt
Ejemplo 3.9.
En una tienda los clientes llegan al mostrador conforme a una distribución de Poisson con un
promedio de 10 por hora. En una determinada hora. ¿cuál es la probabilidad de que lleguen al
menos cinco clientes?
Solución Tenemos X: Cantidad de clientes que llegan en una hora.
λ = 10 clientes/hora, en un intervalo de hora dad, es decir, t = 1 h.
Luego µ = λt = 10 clientes, entonces
Ejemplo 3.10.
El número promedio de camiones-tanque que llega cada dı́a a cierto complejo industrial es
10. Las instalaciones en el complejo pueden alojar a lo sumo 15 camiones por dı́a. ¿Cuál es la
probabilidad de que en un dı́a determinado lleguen más de 15 camiones y se tenga que rechazar
algunos? ¿Cuál es el número de camiones esperado?, calcule la varianza
Solución
P (X > 15) = 0.0487, µ = 10, σ 2 = 10
Figura 3.5: Histogramams para la distribución de poisosn, los valores se concentran alrededor del
valor esperado.
3.4. DISTRIBUCIÓN CONTINUAS 51
3.4. Distribución continuas
3.4.1. Función de densidad
Sea X una variable aleatoria continua, para resolver el problema sobre el cálculo de probabi-
lidades de la variable, se introduce una función f (x) definida en todo R y dada en la definición
siguiente:
A la función sumable f (x) en todos los reales que cumple con las condiciones siguientes le
llamamos función de densidad de probabilidad (fdp), de la variable aleatoria continua X [4].
a) f (x) ≤ 0.
R∞
b) −∞ f (x)dx = 1
Para el intervalo a ≤ x ≤ b, se tiene
Z b
P (a ≤ X ≤ b) = f (x)dx (3.8)
a
Propiedades
1. Z ∞
f (x)dx = 1
−∞
2. Z b
P (a ≤ X ≤ b) = f (x)dx ≥ 0
a
3. Z a
P (a ≤ X ≤ a) = f (x)dx = 0
a
Ejemplo 3.11.
Dada una variable aleatoria continua X y una función f (x) (mostrada en la figura 3.6), definida
en todos los reales, verifique que es una función de densidad.
−1/2,
si x ∈ (0, 2)
f (x) = x − 2, si x ∈ (2, 3)
0, para cualquier otro valor
Solución Z ∞
f (x)dx = 1
−∞
Ejercicio 3.2.
Dada la variable aleatoria continua X y una función f (x), definida en todos los reales, determine
el valor de k con el que f (x) es una función de densidad X.
kx,
si 0 ≤ x ≤ 2
f (x) = k(4 − x), si 2 < x ≤ 4
0, para cualquier otro caso
52 CAPÍTULO 3. VARIABLES ALEATORIAS Y DISTRIBUCIONES
Función de densidad
1
0.5
f (x)
−0.5
−1 0 1 2 3 4
x
Teorema 3.6.
Dado un experimento y una variable aleatoria continua X en este, con función de densidad de
probabilidad f (x), Si Y = h(X) es una función de X, entonces:
Z ∞
E(Y ) = E(h(X)) = h(x)f (x)dx (3.10)
−∞
Dado un experimento y una variable aleatoria continua X en este, con función de densidad
f (x), llamamos variancia de X al valor que denotamos por V (X) o σx2 , y se calcula:
Z ∞
2
σx = V (X) = (x − µx )2 f (x)dx (3.11)
−∞
Teorema 3.7.
Sea X una variable aleatoria continua con función de densidad de probabilidad f (x), entonces:
calcule:
i) P (X ≤ 2)
ii) P (1 ≤ X ≤ 5)
iv) La varianza de X
Teorema 3.8 (Teorema de Chebyshev).
Sea X una variable aleatoria continua con función de densidad de probabilidad f (x) y varianza
finita σ 2 ; entonces, parea cualquier k > 0 2 :
1 1
P (|X − µ| ≥ kσ) ≤ o P (|X − µ| < kσ) > 1 − , (3.13)
k2 k2
(µ − σ) µ (µ + σ)
Figura 3.7: La curva normal, conocida como campana de Gauss, modificada de [6]
Teorema 3.9.
Por cursos de cálculo se sabe que la integral de la ecuación (3.15) no se puede resolver con
funciones elementales, y por consiguiente el cálculo de probabilidades resulta en extremo engo-
rroso, pero debido a su importancia se cuentan con: métodos aproximados (ver curso de métodos
numéricos), tablas y programas para calcular las probabilidades. Por lo anteriormente expresado
se requiere de algún método con el que no se tenga la necesidad de resolver integrales para dife-
rentes valores de µ y σ. La solución a este problema se le conoce como la estandarización de la
variable normal.
La fórmula Z es una regla de transformación, puesto que la estandarización X − µ, representa
un desplazamiento del eje de las ordenadas (ver figura 3.8). Mientras que la división entre la
desviación estándar influye en la amplitud de la función (veáse figura 3.9).
Cuando se realiza la estandarización resulta que:
E(Z) = 0 y V (Z) = 1
Figura 3.8: Gráficas de la distribución normal con la misma desviación estándar, pero diferente
valor esperado µ
Figura 3.9: Gráficas de la distribución normal con el mismo valor esperado, pero diferente desvia-
ción estándar σ
5. La suma de las probabilidades fuera del intervalo ).4, 4), no puede ser mayor a 0,0001, es
decir, prácticamente valen cero.
Cierto tipo de baterı́a de almacenamiento dura, en promedio 3.0 años, con una desviación
estándar de 0.5 años. Suponga que la duración de la baterı́a se distribuye normalmente y calcule
la probabilidad de que una baterı́a determinada dure menos de 2.3 años.
Solución
2.3 − 3
Z= = −1.4
0.5
utilizando la tabla tenemos que:
Ejercicio 3.4.
3.4. DISTRIBUCIÓN CONTINUAS 57
1. Una empresa de material eléctrico fabrica bombillas de luz cuya duración, antes de quemarse,
se distribuye normalmente con una media igual a 800 horas y una desviación estándar de 40
horas. Calcule la probabilidad de que una bombilla se queme entre 778 y 834 h. solución
51.11 %
donde β > 0.
58 CAPÍTULO 3. VARIABLES ALEATORIAS Y DISTRIBUCIONES
Teorema 3.10.
a) µ = E(x) = β, b) σ 2 = V (x) = β 2
Corolario
Si X es una variable aleatoria continua, con distribución exponencial y parámetro β, entonces
con a > 0:
a) P (X > a) = ea/β
b) P (X < a) = 1 − ea/β
Ejemplo 3.13.
El tiempo de espera de los clientes en un restaurante para ser atendidos es una variable aleatoria
continua X con una distribución exponencial y media µ = 5 minutos.
a) Calcule la probabilidad de que la siguiente persona que entre sea atendida después de seis
minutos.
3.4. DISTRIBUCIÓN CONTINUAS 59
b) Si se sabe que Panblo fue atendido después de cuatro minutos, calcule la probabilidad de
que hay sido atendido despues de seis minutos.
c) Calcule la probabilidad de que Pablo sea atendido después de dos minutos. compare el
resultado con el obtenido en el inciso b).
Ejercicio 3.5.
Considere una retroescabadora que tiene una vida media de 15 años. Si la vida util del motor
de la retroescabadora puede considerarse como una variable aleatoria distribuida de forma expo-
nencial, ¿cuál es el tiempo de garantı́a que deben tener estas retroescabadoras si se desea que a
lo más 20 % de estas fallen antes de que expire su garantı́a?
60 CAPÍTULO 3. VARIABLES ALEATORIAS Y DISTRIBUCIONES
Capı́tulo 4
El análisis de regresión es una técnica estadı́stica utilizada para la estimación de las rela-
ciones entre las variables, que incluye muchas técnicas para modelar y analizar varias variables,
cuando la atención se centra en la relación entre una variable dependiente y una o más variables
independientes.
Para el análisis de la regresión simple con los datos muestrales, primero se ubican los datos
de dos variables en un gráfico de dispersión, para determinar si existe un comportamiento lineal,
en tal caso se procede al cálculo de la correlación lineal para tener cuantitativamente su grado de
relación; después, con el propósito de predecir los valores de una variable, se procede a crear el
modelo recta de regresión, para ajustar los datos graficados en la dispersión, y con la evidencia
muestral se aplica una prueba de hipótesis estadı́stica para determinar si una relación muestral
puede o no extenderse a toda la población [4].
Figura 4.1: Diagramas de dispersión que muestran algunos patrones de la relación entre x y y [4].
Ejemplo 4.1.
Un gerente quiere saber si el volumen semanal de ventas en millones de pesos de su empresa
se puede ajustar a una lı́nea recta con el número de anuncios de publicidad para televisión. Con
los datos de la tabla 4.1 trace una gráfica de dispersión.
El tipo más sencillo de curva de aproximación en un modelo es una lı́nea recta. Cuando
se examina la relación de dos variables, en general, se hace con el propósito de uasr una para
pronosticar la otra. La mayor parte de los estudios de regresión se inicia con el deseo de examinar
y explicar el valor cambiante de esta variable, la cual, como en el análisis de regresión, se llama
variable dependiente. Para terminar, podemos decir que cuando se identifica solo una variable
independiente, el análisis se llama regresión simple.
Un modelo de regresión lineal simple para toda la población está dado por:
y = β0 + β1 x + ϵ, (4.1)
b0 = ȳ − b1 x̄. (4.4)
luego
y = 82.269 + 13.056x
Cuya curva se muestra en la figura 4.3, De la ecuación de regresión se puede observar que un
aumento de una unidad en x implica que el valor de y aumente en promedio 13.056. En términos
prácticos, la ecuación de regresión sugiere que para cada comercial de televisión que se contrate
se puede esperar un promedio de 13.056 millones de pesos de ventas adicionales [4].
Esta información puede ser útil para planear el presupuesto de publicidad para años subse-
cuentes.
Ejercicio 4.1.
4.1. REGRESIÓN LINEAL SIMPLE 65
Figura 4.3: Recta de mı́nimos cuadrados para el ajuste de los puntos (x, y).
El analista de una empresa debe determinar si existe una relación positiva entre el material
de desperdicio (x), en miles de pesos, y las ventas (y) de la lı́nea complementaria con el uso de
los desperdicios, en millones de pesos. Para ello, toma 12 observaciones con diferentes valores del
desperdicio y calcula las ventas de lı́nea complementaria, obteniendo los resultados que se muestran
en las primeras tres columnas de la tabla 4.3. Trace un diagrama de dispersión y encuentre la recta
de regresión que mejor ajuste las observaciones e interprete los valores obtenidos.
luego
?‘s = 4.9
donde s = 4.9 es el error estándar de la estimación para la recta de regresión, es decir, la desviación
estándar o tı́pica entre los valores muestrales y.
[2] Walpole R., Myers R., Myers S, Ye K. (2012) Probabilidad y estadı́stica para ingenierı́a y
ciencias. (9a edición) México, Pearson.
[4] Gutiérrez González E., Vladimirivna Panteleeva O., (2014) Probabilidad y estadı́stica (aplica-
ciones a la ingenierı́a y ciencia) México, Patria.
67