0% encontró este documento útil (0 votos)
10 vistas280 páginas

Nociones PyE CC

El documento es un curso sobre rudimentos de probabilidades y estadística dirigido a estudiantes de ciencia de la computación. Incluye temas como probabilidades, variables aleatorias, teoremas límites, estadística básica y modelos de regresión. Está estructurado en secciones que abordan tanto conceptos teóricos como aplicaciones prácticas.

Cargado por

Miguel Asin
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
10 vistas280 páginas

Nociones PyE CC

El documento es un curso sobre rudimentos de probabilidades y estadística dirigido a estudiantes de ciencia de la computación. Incluye temas como probabilidades, variables aleatorias, teoremas límites, estadística básica y modelos de regresión. Está estructurado en secciones que abordan tanto conceptos teóricos como aplicaciones prácticas.

Cargado por

Miguel Asin
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Rudimentos

de Probabilidades y Estadística
Curso para Ciencia de la Computación

Luis A. Salomón Hernández

Z x
1 − t2
φ(x) = √ e 2 dt
−∞ 2π

P (B ∩ N2 ) =?
N2

B2
B 3 2 3
2 5 P (B ∩ B2 ) = 5
· 5
5

B2
P (N ∩ B2 ) =?
1
2

P (B|Ak )P (Ak )
P (Ak |B) = Pn
i=1 P (B|Ai )P (Ai )

Facultad de Matemática y Computación


Universidad de La Habana
Rudimentos
de Probabilidades y Estadística
Curso para Ciencia de la Computación

Luis A. Salomón Hernández


Facultad de Matemática y Computación

EDIFICIO FELIPE POEY

COPERNICO NEWTON LINNEO PASTEVR CUVIER J·D·DANA BROCA DARWIN

MDCCXXVII MCMXXXIX
i

Índice general

Prefacio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1 Probabilidades. Nociones elementales . . . . . . . . . . . . . . . . . . . . . . . 3


1.1 Introducción al concepto de probabilidad 3
1.1.1 Probabilidad Clásica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.2 Probabilidad Geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.3 Probabilidad Frecuencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Probabilidad axiomática 7
1.2.1 Propiedades elementales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.2 Esquema binomial e hipergeométrico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2.3 Probabilidad condicional e independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2.4 Teorema de Bayes y Fórmula de la Probabilidad Total . . . . . . . . . . . . . . . . . . . . . . . 12
1.3 Variables aleatorias 15
1.3.1 Generalidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.3.2 Variables aleatorias discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.3.3 Variables aleatorias continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.3.4 Transformaciones de variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.3.5 Características numéricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.4 Vectores aleatorios 30
1.4.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
1.4.2 Vectores aleatorios discretos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
1.4.3 Vectores aleatorios continuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
1.4.4 Covarianza y correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
1.5 Teoremas Límites 49
1.5.1 Nociones de convergencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
1.5.2 Ley de los Grandes Números . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
1.5.3 Teorema Central del Límite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
1.6 Generación de variables aleatorias 55
1.6.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
1.6.2 Resultados generales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
1.6.3 Método de Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
ii ÍNDICE GENERAL

1.7 Cadenas de Markov y Procesos de Poisson 65


1.7.1 Introducción a procesos estocásticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

2 Estadística básica. Aplicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67


2.1 Estadística descriptiva 68
2.1.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
2.1.2 Medidas descriptivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
2.1.3 Representaciones gráficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
2.2 Nociones elementales de estimación 80
2.2.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
2.2.2 Estimación puntual. Modelo paramétrico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
2.2.3 Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
2.2.4 Estimación en la práctica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
2.2.5 Estimación bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
2.2.6 Estimación de densidades por Kernel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
2.3 Rudimentos de pruebas de hipótesis 109
2.3.1 Conceptos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
2.3.2 Pruebas para una población . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
2.3.3 Pruebas para dos poblaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
2.4 Test no paramétricos 124
2.4.1 Bondad de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
2.4.2 Test de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
2.4.3 Independencia y homogeneidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
2.4.4 Test de rachas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
2.5 Análisis de Varianza 132
2.5.1 ANOVA. Clasificación Simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
2.5.2 Estimación de parámetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
2.5.3 Test de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
2.5.4 Aplicación de ANOVA en un ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
2.6 Introducción a las Redes Bayesianas 143
2.6.1 Nociones elementales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
2.6.2 Construcción de una red bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
2.6.3 Propagación de información . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
2.6.4 Análisis del método de propagación en un ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 161
2.7 Modelos de Regresión 168
2.7.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
2.7.2 Regresión Lineal Simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
2.7.3 Regresión Lineal Múltiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
2.7.4 Regresión Logística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
ÍNDICE GENERAL iii

2.8 Métodos de Clasificación 191


2.8.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
2.8.2 Bayes Naïve . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
2.8.3 Análisis de Clúster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
2.8.4 Precisión y error . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
2.9 Diseño de Experimentos 191
2.9.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
2.9.2 Muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
2.9.3 Minería de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191

3 Ejercicios de Probabilidades y Estadística . . . . . . . . . . . . . . . . 193


3.1 Ejercicios del Capítulo 1 194
3.2 Ejercicios del Capítulo 2 213

Anexos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225

A Teoría de Conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225


A.1 Conjuntos 225
A.2 Propiedades de las operaciones entre conjuntos 225

B Matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
B.1 Definiciones elementales 227
B.2 Propiedades básicas 229

C Conceptos de Combinatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231

D Distribuciones de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233


D.1 Distribuciones discretas 233
D.1.1 Uniforme discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
D.1.2 Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
D.1.3 Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
D.1.4 Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
D.1.5 Geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
D.1.6 Binomial negativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
D.1.7 Hipergeométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
D.2 Distribuciones continuas 236
D.2.1 Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236
D.2.2 Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236
D.2.3 Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236
iv ÍNDICE GENERAL

D.2.4 Exponencial Negativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236


D.2.5 Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237
D.2.6 Chi-cuadrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237
D.2.7 F de Fisher-Snedecor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237
D.2.8 t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237
D.2.9 Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238
D.2.10 Normal multivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238

E Identidades y desigualdades importantes . . . . . . . . . . . . . . . . . 239

F Transformaciones de variables aleatorias . . . . . . . . . . . . . . . . . . 241

G Tablas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
G.1 Tabla de la distribución Binomial 244
G.2 Tabla de la distribución χ2 245
G.3 Tabla de la distribución t-Student 247
G.4 Tabla de la distribución Normal 248
G.5 Tabla de la distribución F de Fisher-Snedecor 249
G.6 Tabla del Test de Rachas 264
G.7 Tabla del Test de Kolmogorov–Smirnov 265

Bibliografía . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267

Indice Alfabético . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269


1

Prefacio

El objetivo principal de este curso de probabilidades se enfoca en los conceptos básicos


que debe conocer un estudiante de Ciencia de la Computación. Muchos de los resultados
que se muestran en el texto se enuncian sin demostración y en algunos casos solamente se
ofrecerá una especie de resumen de las propiedades o fórmulas necesarias para el desarrollo
del curso. Es importante aclarar que el presente texto no es exactamente un libro de texto,
son simples notas de apoyo al curso de probabilidades. Al lector le podemos sugerir los
excelentes libros de ......
2 Prefacio
3

Capítulo 1

Probabilidades. Nociones elementales

1.1 Introducción al concepto de probabilidad


El objetivo principal de la teoría de las probabilidades consiste en describir los fe-
nómenos al azar. En la vida cotidiana se presentan muchas situaciones donde una serie
consecutiva de pasos no lleva siempre al mismo lugar o solución. O sea que no se tiene
certeza alguna delo que puede suceder cuando se analiza el problema antes de realizarlo.
Este tipo de problemas se denominan aleatorios y en caso contrario se utiliza el término
determinista. Ejemplos de estos fenómenos aleatorios hay muchos: el lanzamiento de un
dado, el tiempo en llegar a un lugar determinado, los juegos de azar, entre muchos otros.
La probabilidad es una medida que permite evaluar la aleatoriedad de un suceso alea-
torio cualquiera.
Con los trabajos de Kolmogorov se logra un formalismo matemático para las proba-
bilidades utilizando, fundamentalmente conceptos de la teoría de la medida y el álgebra
de conjuntos. Otras ramas matemáticas como el análisis y la numérica se integraron de
igual manera a la teoría de las probabilidades en los años sucesivos para conformar una
extensa rama de las matemáticas.
Antes de continuar debemos mencionar algunos de los conceptos básicos que vamos a
utilizar en el texto y que son elementos esenciales en la teoría de probabilidades
Definición 1.1.1 (Experimento aleatorio) Se le llama así a los experimentos, que
dado un conjunto de condiciones, no permiten conocer con antelación el resultado
final.
Ejemplos sencillos son el lanzamiento de un dado, conocer de antemano el valor de una
carta sacada de un mazo, el número de nacimientos en una zona específica, entre muchos
otros.
Definición 1.1.2 (Evento simple o elemental) A cada posible resultado de un expe-
rimento aleatorio se le llama evento simple o suceso elemental.

En el caso del lanzamiento de un dado (experimento aleatorio), existen 6 eventos simples,


es decir que salga cada una de las caras del dado. Cuando se lanza una moneda los
sucesos elementales son 2: cara o cruz. Es importante notar que los sucesos asociados a
un experimentos son de naturaleza variada, no siempre estos sucesos elementales están
asociados a valores numéricos, aunque se pueda establecer una analogía con dichos valores
4 1. Probabilidades. Nociones elementales

numéricos.
Definición 1.1.3 (Espacio muestral) Al conjunto Ω de todos los eventos simples rela-
cionados con un experimento aleatorio se le conoce como espacio muestral. Al conjunto
Ω se le conoce también como el evento cierto.
Por ejemplo en el lanzamiento de un dado
Ω = {1, 2, 3, 4, 5, 6},
en el caso de la moneda
Ω = {cara, cruz}.
El complemento de Ω es evidentemente el conjunto vacío ∅, o sea es el evento que nunca
ocurre y se le conoce como evento imposible o conjunto vacío. El espacio muestral puede ser
finito, infinito numerable o infinito. Más adelante volveremos sobre este tema en particular
Definición 1.1.4 (Campo de Eventos) No es más que el conjunto A de partes de Ω
que cumple:

1. Ω ∈ A.

2. Si A ∈ A entonces Ac ∈ A.
P
3. Si (Ai )i∈N ∈ A entonces i∈N Ai ∈ A.

Al campo de eventos se le conoce también como σ-álgebra.


Es evidente entonces que ∅ ∈ A. Cuando el espacio muestral Ω es finito, entonces el
cardinal1 de A es conocido, o sea si
|Ω| = n, entonces |A| = 2n .

Definición 1.1.5 (Evento Aleatorio) No es más que un conjunto A de partes de Ω, es


decir A es un evento o suceso aleatorio si A ∈ A.
Si se retoma el ejemplo del lanzamiento del dado se pueden definir los siguientes sucesos
A: que salga el número 6, o B que salga una cifra impar.
Es evidente que los eventos aleatorios son intrínsecamente conjuntos, por tanto las
operaciones con eventos aleatorios, recaen en las propiedades de los conjuntos (ver Anexo
A). En el texto utilizaremos los signos + y · para la unión (∪) y la intersección (∩) de
eventos.
Si se tienen dos sucesos A y B, entonces A · B no es más que la ocurrencia simultánea
de ambos sucesos, A + B es la ocurrencia de al menos uno de los dos eventos. Note que
la interpretación es exactamente igual a la que se utiliza en la teoría de conjuntos. Se
dice además que un conjunto de k sucesos A1 , A2 , · · · , Ak son mutuamente excluyentes si
Ai · Aj ∅ para todo i 6= j.
Nos podemos percatar que hasta el momento solamente se han mencionado las carac-
terísticas relacionadas con los sucesos aleatorios. ¿Qué es entonces la probabilidad? Como
1
Se le llama cardinal de A al número de elementos que forman al conjunto A y se denota por |A| o
card(A).
1.1. Introducción al concepto de probabilidad 5

mencionamos en un inicio, la probabilidad no es más que una forma de medir cuán plausi-
ble es la ocurrencia de un suceso determinado. En ese sentido existen algunas definiciones
básicas que nos van a permitir comprender mejor este concepto.

1.1.1 Probabilidad Clásica


La definición clásica de probabilidad proviene de los juegos de azar y se basa en
dos condiciones fundamentales que debe satisfacer el espacio muestral Ω el cual debe
estar conformado por eventos equiprobables (con la misma probabilidad) y mutuamente
excluyentes.
Definición 1.1.6 (Probabilidad Clásica) Sea Ω un espacio muestral finito formado por
sucesos simples equiprobables y mutuamente excluyentes. Sea A el campo de eventos
asociado a Ω y A ∈ A, entonces la probabilidad del evento A se halla a partir del
cociente entre el número de casos favorables al evento A sobre el número de casos
favorables al espacio muestral Ω, es decir
card A
P (A) = .
card Ω
Esta definición es en general muy útil pero tiene dos desventajas: no se puede aplicar a
conjuntos que no sean equiprobables y en algunos casos no es una tarea sencilla hallar los
cardinales de A u Ω o de ambos.
Analicemos el experimento de lanzar dos dados balanceados. Debe ser sencillo perca-
tarse que el espacio muestral está formado por 36 elementos, que en este caso son pares
ordenados. Sea el suceso A: la suma de los dados es 10, entonces es inmediato que A
solamente tiene 3 elementos favorables a él:

A = {(4, 6); (5, 5); (6, 4)},

por tanto
card A 3 1
P (A) = = = .
card Ω 36 12
Antes de continuar es importante hacer algunos comentarios acerca del muestreo con
reemplazo y el muestreo sin reemplazo. A veces se utiliza el término muestreo con re-
posición o sin reposición. El primer caso, muestreo con reemplazo, está relacionado con
situaciones donde las condiciones que definen a un experimento aleatorio se mantiene
invariantes si dicho experimento se repite más de una vez.
Un ejemplo sencillo es cuando se tiene una urna que contiene 5 bolas blancas y 4 bolas
azules. Supongamos que el experimento consiste en sacar una bola de la urna. En ese caso
si se asume que estamos utilizando muestreo con reemplazo entonces al sacar una bola, se
anota o se registra el color que se observa y se repone a la caja una bola del mismo color,
o lo que es lo mismo se devuelve la bola a la urna. Si se repite el experimento una vez más
las condiciones son exactamente las mismas y por ejemplo la probabilidad de sacar una
bola azul de la urna sería siempre 49 . O sea de cierta forma los experimentos no afectan a
las probabilidades que nos interesan
Si el mismo problema se analiza a partir del muestreo sin remplazo, entonces la proba-
bilidad de sacar una bola azul la primera vez sería en efecto 49 . Sin embargo, si se asume
6 1. Probabilidades. Nociones elementales

que realmente se sacó una bola azul la primera vez, entonces la probabilidad de sacar una
bola azul la segunda vez sería 38 , porque la primera bola sacada fue azul. Si la primera bola
que se sacó fue blanca, entonces es inmediato la probabilidad de sacar una bola azul la
segunda vez se convierte a 48 . Note que en este caso, la probabilidad de sacar una segunda
bola azul, depende de hecho del resultado de la primera extracción.
Estos dos conceptos estan muy relacionados con la independencia de sucesos, la cuál
veremos más adelante.

1.1.2 Probabilidad Geométrica


Esta formulación de probabilidad, como su nombre lo indica, está muy relacionado con
espacios geométricos. En particular se puede como una extensión de la definición clásica
para espacio muestrales infinitos que se pueden asociar a conjuntos geométricos y carece
desentido contar los casos favorables y los casos posibles.
Definición 1.1.7 (Probabilidad Geométrica) Si Ω ⊂ Rn es un espacio muestral
infinito y equiprobable. Sea A el campo de eventos asociado a Ω y A ∈ A un evento
aleatorio, entonces:
med A
P (A) = .
med Ω
En la definición anterior “med A” se interpreta como la medida asociada al evento A.
Cuando estamos en R, “med A” coincide con la longitud de A, en R2 con el área de A y
en R3 con su volumen.
Uno de los ejemplos más conocidos, es el llamado problema del encuentro. Dos enamo-
rados deciden encontrarse en un parque entre las 4:00 y las 5:00 de la tarde. Ambos
acuerdan no esperar más de 15 minutos por el otro y si en ese tiempo el otro no llega, el
primero que llegó se va. Si se asume que ambos llegan en ese intervalo de tiempo con la
misma probabilidad, cuál es la probabilidad de que se encuentren.
Para resolver el problema se pueden definir los siguientes eventos Ax : Hora de llegada
de la mujer y By : hora de llegada del hombre. Es inmediato que la pareja se encuentra
siempre y cuando
|Ax − By | ≤ 15.
Esta situación se puede representar de la siguiente forma

By
60 E = {|Ax − By | ≤ 15}

45

30

15

Ax
0 15 30 45 60
1.2. Probabilidad axiomática 7

Note que en este caso, el espacio muestral es un cuadrado de lado 60 y el evento


aleatorio está en azul. Utilizando elementos básicos de geometría se puede obtener sin
dificultad el área total y el área sombreada, por tanto

med E 602 − 452 9 7


P (|Ax − By | ≤ 15) = = = 1 − = .
med Ω 602 16 16

1.1.3 Probabilidad Frecuencial


Otro enfoque muy utilizado para hallar probabilidades se basa justamente en la repe-
tición de un mismo experimento un número determinado de veces. La definición formal
es la siguiente
Definición 1.1.8 (Probabilidad Frecuencial o Estadística) Si denotamos por µn
el número de ocurrencias del evento A en n ensayos independientes bajo las mismas
condiciones, entonces para n suficientemente grande se tiene que:
µn
P (A) ≈ fr (A) = .
n
Cuando un experimento aleatorio se repite una gran cantidad de veces bajo las mismas
condiciones, entonces el número de ocurrencias de un evento A obedece a leyes estables.
Este enfoque se puede utilizar, por ejemplo, para hallar la probabilidad aproximada de
obtener cara en una moneda, de la cual no tenemos ninguna información. Este enfoque es
intuitivo y no se puede aplicar en muchos casos, ya que por ejemplo no siempre resulta fácil
replicar un mismo experimento un número grande de veces. Aún así, se puede demostrar
que bajo ciertas condiciones se cumple que
µn
fr (A) = −−−→ P (A).
n n→∞

1.2 Probabilidad axiomática


Los conceptos de probabilidad vistos en la sección anterior nos permiten dar respuesta a
diversos problemas de la vida real que dependen de condiciones aleatorias. Sin embargo se
necesita una formalización de estos conceptos que permita tratar problemas de otra índole.
En ese sentido, como mencionamos en un inicio, los trabajos de Kolmogorov brindaron el
fundamento teórico de la teoría de las probabilidades.

1.2.1 Propiedades elementales


La definición formal se puede plantear de la siguiente forma
Definición 1.2.1 (Probabilidad axiomática(Kolmogorov)) Dado un espacio mues-
tral Ω y un campo de eventos A una función P : Ω → R+ es una probabilidad si verifica
los siguientes tres axiomas:

k1) P (A) ≥ 0 ∀ A ∈ A.

k2) P (Ω) = 1.
8 1. Probabilidades. Nociones elementales

k3) Si A1 , A2 , · · · ∈ A son eventos mutuamente excluyentes entonces



! ∞
X X
P Ai = P (Ai )
i=1 i=1

Usualmente a la terna (Ω, A, P ) se le llama espacio de probabilidad. Es importante


puntualizar, que una probabilidad no es una magnitud que se pueda definir sin su co-
rrespondiente espacio muestral y campo de eventos correspondientes. O sea, en muchas
ocasiones se calculan probabilidades sin considerar explícitamente su espacio muestral;
sin embargo hay que tener en cuenta que dicho espacio muestral está en estrecha relación
con la probabilidad hallada, es decir, una probabilidad no está bien definida si no está
asociada a un determinado espacio muestral con su correspondiente campo de eventos:
(Ω, A).
A partir de la definición anterior se obtienen los siguientes resultados

Teorema 1.2.1 (Propiedades de la Probabilidad) Sea (Ω, A, P ) un espacio de pro-


babilidad cualquiera, entonces

i. P (∅) = 0.

ii. P ( ni=1 Ai ) = ni=1 P (Ai )


P P
A1 , A2 , · · · , An ∈ A y Ai · Aj = ∅, ∀i 6= j.

iii. P (Ac ) = 1 − P (A).

iv. P (A\B) = P (A) − P (AB) y si B ⊂ A, entonces P (A\B) = P (A) − P (B).

v. (Propiedad de la monotonía.) Si A ⊂ B entonces P (A) ≤ P (B).

vi. P (A + B) = P (A) + P (B) − P (A · B) ∀ A, B ∈ A.

vii. 0 ≤ P (A) ≤ 1 ∀ A ∈ A.

Para demostrar el teorema, debemos usar solamente la definición de la probabilidad axio-


mática.

Demostración
i. Para demostrar que P (∅) = 0 escribamos lo siguiente

Ω = Ω ∪ ∅ ∪ ∅ · · · ∪ ∅.

Utilizando k3) se obtiene que



X
P (Ω) = P (Ω) + P (∅),
i=1

Por tanto

X
P (∅) = 0.
i=1
1.2. Probabilidad axiomática 9

Se sabe por k1) que P (A) ≥ 0 para todo A ∈ A, en particular ∅ ∈ A, por tanto es
inmediato que
P (∅) = 0.

ii. Para demostrar P ( ni=1 Ai ) = ni=1 P (Ai ), A1 , A2 , · · · , An ∈ A donde Ai · Aj = ∅,


P P
∀i 6= j se utiliza un argumento similar al utilizado en el inciso anterior:
n
! n
[ X
P Ai = P (A1 ∪ A2 · · · ∪ An ∪ ∅ ∪ ∅ ∪ · · · ) = P (Ai ).
i=1 i=1

iii. Es inmediato, utilizar el inciso anterior y el axioma k2) para Ω = A + Ac .

iv. Se desea demostrar que P (A\B) = P (A) − P (AB). Note que

A = A(B + B c ) = (A · B c ) + (A · B) = (A\B) ∪ (A · B).

Utilizando el inciso ii. se obtiene el resultado deseado

P (A\B) = P (A) − P (AB).

La segunda parte es inmediata si notamos que cuando B ⊂ A, entonces A · B = B.

v. Es inmediato, basta con escribir B = A + B · Ac .

vi. En este caso, escribamos

A + B = (A\A · B) + (B\A · B) + (A · B),

entonces como son eventos excluyentes


  
P (A + B) = P A\A · B + P B\A · B + P A · B

= P (A) − P (A · B) + P (B) − P (A · B) + P A · B
= P (A) + P (B) − P (A · B).

vii. Es inmediato.

Otro resultado importante es el siguiente

Corolario 1.2.2 Sea (Ω, A, P ) un espacio de probabilidad y sean los sucesos


A1 , A2 , · · · , An ∈ A, entonces
n
! n
X X
P Ai ≤ P (Ai ).
i=1 i=1

La demostración se basa en inducción matemática y se deja al lector su desarrollo.


10 1. Probabilidades. Nociones elementales

1.2.2 Esquema binomial e hipergeométrico


¿Qué se entiende por esquema? En el marco de las probabilidades vamos a llamar
esquema a un conjunto de condiciones que permitan caracterizar a un experimento deter-
minado. Los esquemas binomial e hipergeométrico son los más conocidos.
Esquema Binomial
Diremos que estamos en presencia de un esquema binomial cuando se tiene un conjunto
de n experimentos independientes, en los cuales se analiza la ocurrencia de un mismo
suceso A con probabilidad fija p en cada experimento. Por ejemplo, que el evento A sea
“sale cara” en el lanzamiento de una moneda.
Bajo el esquema binomial definamos el suceso Ank como: el evento A ocurre exactamente
k veces en los n experimentos independientes. Se puede demostrar sin dificultad que
 
n n k
P (Ak ) = p (1 − p)n−k .
k

Este esquema está muy relacionado con el concepto de muestreo con reemplazamiento.
Esquema Hipergeométrico
Este esquema a su vez se relaciona con el muestreo sin reemplazamiento y consiste en
un experimento donde se tiene una muestra de N individuos clasificados en dos grupos
G1 y G2 , el primero con n elementos y el segundo con N − n elementos y el experimento
consiste en sacar m elementos, sin reemplazamiento, de la población. Bajo estas condicio-
nes podemos definir el suceso Bk como el número de elementos del grupo G1 que fueron
seleccionados entre los m de la muestra. En ese caso se puede verificar que
n N −n
 
k m−k
P (Bk ) = N
 .
m

Un ejemplo sencillo de este esquema es el siguiente. Suponga que se tiene una urna con 6
bolas rojas y 4 bolas azules. Se extraen sin reemplazamiento 5 bolas, cuál es la probabilidad
de que se hayan sacado 2 bolas rojas:
6 4
 
10
P (B3 ) = 2 103 = .
5
21

Este esquema se puede generalizar sin dificultad para poblaciones que tengan más de
dos grupos.

1.2.3 Probabilidad condicional e independencia


Un concepto de mucho interés en probabilidad, es el de probabilidad condicional. Este
concepto nos va a permitir calcular sucesos cuyos resultados dependen de experimentos
o resultados previos y como es de suponer existen disímiles situaciones donde se puede
aplicar. La definición formal es la siguiente.
1.2. Probabilidad axiomática 11

Definición 1.2.2 (Probabilidad condicional) Sea (Ω, A, P ) un espacio de probabili-


dad, y sean A, B dos sucesos definidos en A tal que P (B) > 0, entonces la probabilidad
de que ocurra el evento A dado que ocurrió el evento B se calcula como

P (AB)
P (A|B) = .
P (B)

P (A|B) se conoce como la probabilidad condicional de A dado B. La probabilidad


P (B|A) se define de forma análoga.

Es importante puntualizar que la probabilidad condicional es también una probabilidad


desde el punto de vista axiomático. La demostración se basa en los axiomas de Kolmogorov
y se recomienda al lector su verificación.
La probabilidad condicional es una probabilidad sobre el espacio que define el conjunto
B. Es decir si denotamos a Ω|B como el espacio condicionado por B y A|B su respectivo
campo de eventos, entonces (Ω|B, A|B, P (·|B)) es el espacio de probabilidad condicionado
por B.
Para hallar probabilidades condicionales se puede proceder de dos formas. La primera
utilizando la fórmula de la probabilidad condicional, o trabajando directamente sobre el
espacio condicional. Esta última variante puede ser más intuitiva, pero en muchos casos
no resulta trivial definir correctamente dicho espacio condicional.
Veamos el siguiente ejemplo. Supongamos que se lanzan dos dados homógeneos y nos
interesa hallar la probabilidad que la suma de sus valores sea 9 si se sabe que en el primer
dado salió una cifra par. Utilicemos la definición, sea A: suma de sus valores igual a 9 y
B: el primer dado salió una cifra par. Nos interesa hallar P (A|B), entonces
2
P (AB) 36 1
P (A|B) = = 18 = .
P (B) 36
9

El mismo problema analizado desde el punto de vista del espacio condicional es muy
sencillo. En este caso el espacio condicional tiene solamente 18 elementos en vez de 36.
Utilizando los conceptos de probabilidad clásica es sencillo verificar que solamente hay
dos pares que son favorables a que la suma de sus valores sea 9, por tanto se llega al
mismo resultado.
Veamos un concepto que juega un papel muy importante en la teoría de probabilidades:
la independencia. Este concepto ha sido muy importante en el desarrollo de resultados
teóricos y aplicados en el marco de las probabilidades. A pesar de su importancia en
muchos casos resulta difícil verificar la independencia. En otros casos, por intuición, se
puede asumir que se satisface en algunos problemas concretos. Sin embargo, asumir que
existe independencia ha servido para encontrar modelos iniciales que permiten describir
situaciones complejas.

Definición 1.2.3 (Sucesos independientes) Sean A, B dos sucesos definidos en


(Ω, A, P ), se dice que A y B son independientes si y solo si

P (A|B) = P (A),
12 1. Probabilidades. Nociones elementales

o equivalentemente
P (AB) = P (A)P (B).
La definición anterior se puede generalizar para dos o más sucesos:
Definición 1.2.4 (Sucesos mutuamente independientes) Sean A1 , A2 , · · · , An un
conjunto de sucesos definidos en (Ω, A, P ), se dice que se dice que A y B son mutua-
mente independientes si son independientes dos a dos, tres a tres, · · · , n a n, o sea si
se cumple que

P (Ai1 Ai2 · · · Aik ) = P (Ai1 )P (Ai2 ) · · · P (Aik ), ∀ k : 1 ≤ k ≤ n,

y
1 ≤ i1 < i2 < · · · ik ≤ n.
Otro resultado interesante que involucra a la probabilidad condicional es el siguiente

Corolario 1.2.3 Sean A1 , A2 , · · · , An un conjunto de sucesos definidos en (Ω, A, P ),


entonces
P (A1 A2 · · · An ) = P (A1 |A2 A3 · · · An )P (A2 |A3 A4 · · · An ) · · · P (An−2 |An−1 An )P (An−1 |An )P (An ).

La demostración es sencilla y se basa en la utilización sucesiva de la definición de proba-


bilidad condicional. Por ejemplo en el caso de tres sucesos A, B y C se obtiene

P (ABC) = P (A|BC)P (B|C)P (C).

Note que la selección de los sucesos con los que se calculan las probabilidades condicio-
nales son arbitrarios y dependen de cada problema en particular. Se recomienda que el
estudiante deduzca la fórmula correspondiente para el caso de n sucesos A1 , A2 , · · · , An .

1.2.4 Teorema de Bayes y Fórmula de la Probabilidad Total


Son dos de los resultados más importantes relacionados con la probabilidad condicio-
nal. La Fórmula de Probabilidad Total (FPT), es crucial en el cálculo de probabilidades.
Más allá de su expresión, la FPT permite hallar probabilidades de sucesos a partir de
probabilidades condicionales. No pudieramos preguntar para qué necesitamos, en princi-
pio, complejizar el cálculo de una probabilidad y la respuesta es sencilla. Existen muchos
casos o experimentos que dependen de experimentos previos, en esos casos puede resultar
difícil determinar de forma directa la probabilidad que nos intersa.
1.2. Probabilidad axiomática 13

Teorema 1.2.4 (Fórmula de la Probabilidad Total (FPT)) Sea (Ω, A, P ) un espa-


cio de probabilidad y sean los sucesos aleatorios B y A1 · · · , An , tales que los Ai son
mutuamente excluyentes y B ⊂ A1 + · · · + An , entonces
n
X
P (B) = P (B|Ak )P (Ak ).
k=1

Demostración
Para comprender mejor las hipótesis del teorema veamos la siguiente figura para un
caso particular con n = 5:

A4 A5

A1 A2 A3 Ω

En el ejemplo los Ai forman una partición del espacio muestral Ω, sin embargo no es
una condición necesaria. En el caso general se asume que B ⊂ A1 + · · · + An , por tanto

B = B · (A1 + A2 + · · · + An ) = B · A1 + B · A2 + · · · + B · An .

Como los Ai son mutuamente excluyentes entonces

P (B) = P (B · (A1 + A2 + · · · + An )) = P (B · A1 + B · A2 + · · · + B · An )
= P (B · A1 ) + P (B · A2 ) · · · + P (B · An )
= P (B|A1 )P (A1 ) + P (B|A2 )P (A2 ) · · · + P (B|An )P (An )
Xn
= P (B|Ak )P (Ak ).
k=1

El Teorema de Bayes es un resultado cuya demostración es muy sencilla, pero sus aplica-
ciones se pueden encontrar en muchas ramas del conocimiento.
14 1. Probabilidades. Nociones elementales

Teorema 1.2.5 (Bayes) Sea (Ω, A, P ) un espacio de probabilidad y sean B y A1 · · · , An


sucesos aleatorios, tales que los Ai son mutuamente excluyentes y B ⊂ A1 + · · · + An ,
entonces
P (B|Ak )P (Ak )
P (Ak |B) = Pn .
P (B|Ai )P (Ai )
i=1

Demostración
Utilicemos la definición de probabilidad condicional y la Fórmula de Probabilidad
Total
P (Ak B) P (BAk ) P (B|Ak )P (Ak )
P (Ak |B) = = =
P (B) P (B) P (B)
P (B|Ak )P (Ak )
= Pn .
P (B|Ai )P (Ai )
i=1


Veamos algunos ejemplos. El primero relacionado con una situación de diagnóstico en
médicina. Suponga que en una región determinada se conoce que cierta enfermedad está
presente en 20 de cada 100 hombres y en 10 de cada 100 mujeres. Si se conoce que
en la población un cuarto es masculina, entonces si se selecciona una persona al azar
que padece la enfermedad, cuál es la probabilidad que sea un hombre. Para resolver el
problema definamos los eventos de trabajo:
E: Padecer la enfermedad.
H: Ser hombre.
M : Ser mujer.
Nos interesa calcular la siguiente probabilidad condicional P (H|E). Es obvio que dicha
probabilidad “no está en el sentido correcto”, es decir, intuitivamente tiene más sentido
hallar P (E|H), ya que la enfermedad se comporta diferente de acuerdo al género. Este
razonamiento ligado al hecho que conocemos que
1 1 1 3
P (E|H) = , P (M |H) = , P (H) = , P (M ) = 1 − P (H) = ,
5 10 4 4
nos induce a pensar en utilizar Bayes, o sea
1
P (E|H)P (H) 5
· 14 2
P (H|E) = = 1 = .
P (E|H)P (H) + P (E|M )P (M ) 5
· 41 + 10 1
· 3
4
5

O sea, en dicha población si se selecciona una persona enferma, la probabilidad de que


sea un hombre es 52 .
Veamos el siguiente problema. Se tienen 2 urnas cada una con 4 bolas blancas y 6
bolas negras. De la primera se extraen a la vez 3 bolas y se pasan a la segunda caja, de
esta última se extrae una bola blanca, cuál es la probabilidad de que se hayan pasado 2
bolas negras de la primera caja a la segunda.
1.3. Variables aleatorias 15

Para darle solución al problema debemos definir los eventos correspondientes. Escri-
bamos
B1 : Sacar una bola blanca de la primera urna.
N1 : Sacar una bola negra de la primera urna.
B2 : Sacar una bola blanca de la segunda urna.
A partir de estas definiciones de eventos es inmediato que nos interesa hallar

P (B1 2N1 |B2 ).

Como en el caso anterior, es mejor utilizar Bayes. El problema adicional aquí es el número
de elementos que influyen en la acción de extraer una bola de la segunda urna. Un rápido
análisis de la situación nos lleva a que existen 4 casos posibles. Definamos
4 4 4 4
C1 = 3B1 , C2 = 2B1 N1 , C3 = B1 2N2 , C4 = 3N1 .
A partir del esquema hipergeométrico es fácil hallar las probabilidades asociadas a los Ci :
4 4
  6 4
 6 6

3 4 2 1 36 1 2 60 3 20
P (C1 ) = 10
 = , P (C2 ) = 10
 = , P (C3 ) = 10
 = , P (C4 ) = 10
 = ,
3
120 3
120 3
120 3
120

entonces nos queda


5 60
P (B2 |C3 )P (C3 ) 13 · 120
P (B1 2N1 |B2 ) = P (C3 |B2 ) = 4
= 7 4 6 36 5 60 4 20
P 13 · 120 + 13 · 120 + 13 · 120 + 13 · 120
P (B2 |Ci )P (Ci )
i=1
300 25
= = .
624 52
En muchas ocasiones ayuda utilizar un diagrama de árbol que facilite la comprensión del
problema bajo análisis. En el caso anterior quedaría de la siguiente forma.

C1 (3B1 ) C2 (2B1 N1 ) C3 (B1 2N1 ) C4 (3N1 )

B2

El diagrama anterior es muy sencillo y no es necesario para obtener una solución al


problema; sin embargo, en casos más complejos puede ser una herramienta muy útil.

1.3 Variables aleatorias


Hasta el momento hemos trabajado con situaciones en las cuales se definen los sucesos
correspondientes a la naturaleza del experimento y a las preguntas que se deriven del
mismo. Este método de trabajo aunque efectivo en muchos casos nos puede conducir a
las siguiente interrogante ¿es posible generalizar los resultados de dos experimentos que
no tengan el mismo espacio muestral? La respuesta a esta pregunta es positiva y para eso
nos vamos a apoyar en el concepto de variable aleatoria.
16 1. Probabilidades. Nociones elementales

1.3.1 Generalidades
Una variable aleatoria no es más que un caso particular de una función medible,
concepto que proviene de la teoría de la medida. No es objetivo de este curso adentrarse
en los aspectos téoricos relacionados con el concepto de variable aleatoria, sin embargo
ofrecemos su definición formal
Definición 1.3.1 (Variable Aleatoria) Sea (Ω, A, P ) un espacio de probabilidad. Di-
remos que la función X : Ω → R es una variable aleatoria si su preimagen pertenece
al campo de eventos, i.e.:

X −1 (B) = {ω ∈ Ω : X(ω) ∈ B} ∈ A ∀ B ∈ B(R).

B(R) es conocida como la σ-álgebra de los Borelianos en R, o sea es la mínima σ-álgebra


que contiene a todos los intervalos reales del tipo (a, b], donde −∞ ≤ a < b < ∞. Los
conjuntos que pertenecen a B(R) se les denomina borelianos.

En R, todos los intervalos cerrados, abiertos o semiabiertos pertenecen a la σ-álgebra de


los Borelianos. Este resultado se puede demostrar sin dificultad a partir de la condición
de uniones infinitas numerables que se satisface en todas las σ-álgebras, en particular en
B(R).
Es importante que el estudiante interiorice que al final, una variable aleatoria no es
más que una función que cumple ciertas propiedades, pero que sigue siendo una función.
Antes de poner algunos ejemplos sencillos de variables aleatorias enunciemos algu-
nas de las propiedades más relevantes con respecto al trabajo con variables aleatorias:

Teorema 1.3.1 Sea X(ω) una variable aleatoria definida sobre (Ω, A, P ) y que toma va-
lores en (R, B(R)). Sea además una función f una función boreliana, entonces f (X(ω))
es también una variable aleatoria.
El concepto de función boreliana está relacionado con conceptos de medida y no es de
interés del curso, sin embargo un resultado que puede resultar más útil es el siguiente

Teorema 1.3.2 Toda función continua f : R → R es una función boreliana.

De esta forma utilizando transformaciones de variables aleatorias a partir de funciones


continuas se obtienen entonces variables aleatorias, por ejemplo es inmediato que X 2 , |X|
y aX + b, con a, b constantes son variables aleatorias.
Utilizando otras herramientas matemáticas se puede obtener el siguiente resultado:

Teorema 1.3.3 Sean X y Y dos variables aleatorias, entonces también son variables
aleatorias: X + Y , X − Y , máx(X, Y ), mı́n(X, Y ), X · Y y X
Y
si Y (ω) 6= 0, ω ∈ Ω.

Veamos ahora algunos ejemplos.

1. La función constante es una variable aleatoria.


1.3. Variables aleatorias 17

2. Si suponemos que A ⊂ Ω entonces la función indicadora 1A definida de la siguiente


forma 
1, ω ∈ A
1A (ω) =
0, ω ∈/A
es una variable aleatoria.
3. Supongamos que se lanza una moneda balanceada 3 veces, en ese caso podemos
obtener sin dificultad los 8 elementos que conforma su espacio muestral
Ω = {|{z}
eee , |{z}
eec , |{z}
ece , |{z}
cee , |{z}
ecc , |{z}
cec , |{z} ccc }.
cce , |{z}
ω1 ω2 ω3 ω4 ω5 ω6 ω7 ω8

Para este caso podemos definir la siguiente variable aleatoria


Y (ωi ) = i.
Aunque no es el objetivo del curso no resulta complicado verificar que ciertamente
Y es una variable aleatoria. Para este mismo problema se puede definir otra variable
aleatoria X como:
X(ω1 ) = 3
X(ω2 ) = X(ω3 ) = X(ω4 ) = 2
X(ω5 ) = X(ω6 ) = X(ω7 ) = 1
X(ω8 ) = 0
Al igual que Y , es fácil comprobar que X es ciertamente una variable aleatoria,
pero que además se puede identificar como el número de escudos que salen en los 3
lanzamientos de la moneda.

En un principio hemos analizado los problemas de probabilidades sobre un espacio de


probabilidad (Ω, A, P ). Si ahora trabajamos con variables aleatorias es lógico suponer que
existe un equivalente a dicho espacio de probabilidad. A partir de la definición de variable
aleatoria, es inmediato que el espacio muestral de una variable aleatoria, en su versión
más general, es R y su campo de eventos B(R). Es inmediato que necesitamos entonces
definir una probabilidad sobre el espacio (R, B(R)):
Definición 1.3.2 (Función de Distribución de Probabilidad) Sea X una variable
aleatoria definida sobre (Ω, A, P ) y que toma valores en (R, B(R)), entonces se define

PX (B) = P (ω ∈ Ω : X(ω) ∈ B), ∀ B ∈ B(R),

como la función de distribución de probabilidad asociada a X.


Es decir el espacio de probabilidad inducido por la variable aleatoria X es (R, B(R), PX ),
o sea X es una función definida de la siguiente forma
X : (Ω, A, P ) (R, B(R), PX ).
En particular durante el curso vamos a trabajar con la siguiente definición
18 1. Probabilidades. Nociones elementales

Definición 1.3.3 (Función de Distribución) Sea X una variable aleatoria definida so-
bre (Ω, A, P ) y que toma valores en (R, B(R), PX ), entonces su función de distribución
se define como

FX (t) = PX ((−∞, t]) = P (ω ∈ Ω : X(ω) ≤ t) = P (X(ω) ≤ t), ∀ t ∈ R,

como la función de distribución de probabilidad asociada a X.


Por simplicidad en las notaciones, en lo adelante cuando trabajemos con variables aleato-
rias X(ω) escribiremos simplemente X. Usualmente se utilizan letras mayúsculas X, Y ,
Z, para denotar a las variables aleatorias y letras minúsculas para sus valores: x, y, z.
En cuanto a la función de distribución de variables aleatorias se tienen las siguientes
propiedades generales
Teorema 1.3.4 Sea FX la función de distribución de una variable aleatoria X, entonces

1. FX es no decreciente.

2. FX es continua por la derecha.

3. Tiene a lo sumo una cantidad numerable de saltos.

4. P (a < X ≤ b) = FX (b) − FX (a).

5. P (X = x) = FX (x) − FX (x− ).

6. FX (−∞) = lı́m FX (t) = 0 y FX (+∞) = lı́m FX (t) = 1.


t→−∞ t→+∞

En algunos textos se define la función de distribución como FX (t) = P (X < t). Esta
definición no afecta la formulación general, solamente algunas propiedades particulares.
Los conceptos de independencia y probabilidad condicional se discutirán más adelante
cuando se trate el tema de vectores aleatorios.
Existen muchos tipos de variables aleatorias. En el curso vamos a trabajar con las
variantes clásicas: variables aleatorias discretas y variables aleatorias continuas. En cada
caso ofreceremos las propiedades asociadas a cada caso.

1.3.2 Variables aleatorias discretas


La definición formal es la siguiente
Definición 1.3.4 (Variable aleatoria discreta) Sea X una variable aleatoria definida
sobre (Ω, A, P ). Se dice que X es una variable aleatoria discreta si su espacio muestral
Ω es finito o a lo sumo infinito numerable.
1.3. Variables aleatorias 19

En el caso de variables aleatorias discretas se tiene además la siguiente definición

Definición 1.3.5 (Función de probabilidad) Sea X una variable aleatoria discreta


definida sobre (Ω, A, P ). Se define su función de probabilidad como

PX (x) = P (X = x),

y su función de distribución se calcula a partir de la siguiente expresión


X
FX (x) = P (X ≤ x) = P (X = t).
t≤x

A partir de la definiciones anteriores se obtienen los siguientes resultados elementales:

Teorema 1.3.5 Sea X una variable aleatoria discreta definida sobre (Ω, A, P ) entonces

1. P (a ≤ X ≤ b) = FX (b) − FX (a) + P (X = a).

2. P (a < X < b) = FX (b) − FX (a) − P (X = b).

3. P (a ≤ X < b) = FX (b) − FX (a) − P (X = b) + P (X = a).


P
4. P (X ∈ B) = P (X = x).
x∈B
P
5. P (X = x) = FX (+∞) = 1.
x∈R

El siguiente resultado concierne a la suma y al cociente de variables aleatorias indepen-


dientes
Teorema 1.3.6 Sean X y Y variables aleatorias independientes discretas y sean las
X
variables aleatorias S = X + Y y C = Y
, para Y 6= 0, entonces

X X
P (S = s) = P (X = s − y)P (Y = y) = P (X = x)P (Y = s − x),
y∈R x∈R

y X
P (C = c) = |y|P (X = cy)P (Y = y).
y∈R

Veamos ahora algunas de las variables aleatorias discretas clásicas:


1. Variable aleatoria Bernoulli (X ∼ Bernouilli(p)):
Es una de las más utilizadas por su sencillez y aplicabilidad y se define como una
variable dicotómica asociada a la ocurrencia de un suceso A con probabilidad fija p,
o sea 
1, ocurre A
X= .
0, no ocurre A
20 1. Probabilidades. Nociones elementales

Se puede obtener sin dificultad su función de probabilidad

P (X = x) = px (1 − p)1−x .

2. Variable aleatoria Binomial (X ∼ B(n, p)):


Esta variable la hemos visto antes y está relacionada con el muestreo con reempla-
zamiento. Se define como la variable que cuenta el número de veces que ocurre un
suceso A con probabilidad fija p en n experimentos independientes. Esta variables
toma los valores 0, 1, 2, · · · , n y su función de probabilidad es
 
n x
P (X = x) = p (1 − p)n−x .
x

3. Variable aleatoria geométrica (X ∼ Geom(p)):


Bajo el esquema binomial esta variable se define como el número de experimentos
que se realizan hasta que aparece el suceso A por primera vez. También se puede
analizar como el número de fallos hasta que ocurre el primer éxito, es decir A. Esta
variables toma los valores 1, 2, · · · , y su función de probabilidad es

P (X = x) = (1 − p)x−1 p.

En algunos textos esta variable se define como el número de éxitos hasta el primer
fallo. Es importante aclarar que esta definición en sí no reporta cambio alguno,
solamente basta con redefinir el éxito como Ac y escribir p0 = 1 − p y el resultado
es exactamente el mismo.

4. Variable aleatoria Binomial negativa (X ∼ BN (r, p)):


Esta variable aleatoria se define como el número de experimentos a realizar hasta
que el suceso A ocurra exactamente r veces, o como el número de experimentos
hasta el r-ésimo éxito. Esta variabla toma los valores r, r + 1, r + 2, · · · y su función
de probabilidad es  
x−1 r
P (X = x) = p (1 − p)x−r .
r−1

5. Variable aleatoria hipergeométrica (X ∼ HG(n, m, N )):


Esta variable aleatoria se relaciona con el muestreo sin reemplazo y el esquema hi-
pergeométrico que se mencionó antes. Si se tiene una población formada por dos
grupos, entonces la variable cuenta el número de elementos x del grupo de n ele-
mentos de una población de N que se seleccionan al azar a partir de una muestra
sin reemplazamiento de tamaño m. O sea
n N −n
 
x m−x
P (X = x) = N
 , x ∈ [máx(0, m − (N − n)), mı́n(m, n)].
m
1.3. Variables aleatorias 21

6. Variable aleatoria Poisson (X ∼ P oisson(λ)):


Esta variable se puede definir simplemente como la variable que toma los valores
0, 1, 2, · · · y su función de probabilidad es

λx e−λ
P (X = x) = .
x!
Una variable con distribución de Poisson se asocia a problemas donde se analizan
sucesos con probabilidades muy pequeñas. En general una variable Poisson se in-
terpreta como el número de veces que ocurre un suceso determinado en un cierto
intervalo de tiempo o una región específica, donde λ representa el número de veces
que se espera que ocurra el suceso en consideración.
La distribución de Poisson tiene un extenso rango de aplicaciones, usualmente se
puede utilizar para analizar el número de desintegraciones de átomos radioactivos,
el número de errores en una página de un libro, demandas de servicio, problemas de
colas, por mencionar algunos. También se puede obtener la distribución de Poisson
como la distribución límite de una binomial cuando n tiende a infinito, p tiende a
cero y np tiende a λ.
Analicemos esta última afirmación en un ejemplo. Supongamos que se tiene un
recinto con un volumen V con un número muy grande N de individuos que se
encuentran distribuidos uniformemente y se selecciona una parte de dicho recinto
cuyo volumen es D. ¿Cuál es la probabilidad de que se hallen x individuos en la
muestra? Por la formulación es inmediato que se debe utilizar una distribución de
Poisson, pero ¿cómo se debe proceder?
Si suponemos que los individuos están distribuidos al azar uniformemente en el
recinto en cuestión, entonces en la muestra seleccionada, la probabilidad de encontrar
individuos por unidad de volumen es D V
la cual puede considerarse constante para
una muestra con volumen D. De esa forma se obtiene que la probabilidad buscada
es
   x  N −x
N D D
P (X = x) = 1− .
x V V
La expresión anterior se puede reescribir de la siguiente forma
   x  N −x
N D D
P (X = x) = 1−
x V V
 x  N −x
N! DN DN
= 1−
x!(N − x)! V N VN
 x  N −x
N (N − 1) · · · (N − x + 1) DN DN
= 1− .
x!N x V VN

Si se supone que cuando N y V tienden al infinito, DNV


se mantiene constante e
DN
igual a λ (note que V es equivalente a np en una binomial), entonces la expresión
22 1. Probabilidades. Nociones elementales

anterior se puede escribir de la siguiente forma


 N −x
N (N − 1) · · · (N − x + 1) x λ
P (X = x) = λ 1−
x!N x N
λ N
1 1 − N1 1 − N2 · · · 1 − x−1
   
1 −
= N
λx N
x .
x! 1 − Nλ

Cuando N tiende a infinito es inmediato que

λx e−λ
P (X = x) = .
x!

1.3.3 Variables aleatorias continuas


La definición usual es la siguiente
Definición 1.3.6 (Variable aleatoria continua) Sea X una variable aleatoria definida
sobre (Ω, A, P ). Se dice que X es una variable aleatoria continua o absolutamente
continua si su espacio muestral Ω es infinito no numerable y su función de distribución
se puede representar como Z x
FX (x) = f (t)dt.
−∞

A la función f se le da el nombre de densidad de probabilidad o función de densidad,


la cual determina de manera única a la variable aleatoria.
A partir de la definición se obtienen las siguientes propiedades:

Teorema 1.3.7 Sea X una variable aleatoria continua definida sobre (Ω, A, P ) entonces

1. f (t) ≥ 0, ∀ t ∈ R.
∂FX (t)
2. f (t) = ∂t
.
+∞
R
3. FX (+∞) = f (t)dt = 1.
−∞

4. FX es una función continua.

5. P (X = x) = 0, ∀ x ∈ R.
Rb
6. P (a < X ≤ b) = FX (b) − FX (a) = a
f (t)dt.

7. P (a ≤ X ≤ b) = P (a ≤ X < b) = P (a < X < b) = FX (b) − FX (a).


R
8. P (X ∈ B) = f (t)dt.
x∈B
1.3. Variables aleatorias 23

Es interesante anotar que las variables aleatorias discretas se pueden escribir de forma
general desde el punto de vista de funciones de densidad. Sea X una variable aleatoria
discreta cuya imagen pertence a un cierto conjunto B ∈ R finito o a lo sumo numerable.
Supongamos P que X toma los valores (bi )i∈I con probabilidad pi = P (X = bi ), para todo
i ∈ I tal que i∈I pi = 1 entonces
X Z x
FX (x) = P (X = t) = δ(t)dt,
t≤x −∞

donde X
δ(t) = pi 1bi (t).
i∈I
Al igual que el caso discreto se obtiene el siguiente resultado concierne a la suma y al
cociente de variables aleatorias independientes
Teorema 1.3.8 Sean X y Y variables aleatorias independientes continuas con funciones
X
de densidad f y g respectivamente. Sean las variables aleatorias S = X + Y y C = Y
,
para Y 6= 0, entonces
Z Z
fS (s) = f (s − y)g(y)dy = f (x)g(s − x)dx,
R R

y Z
fC (c) = |y|f (cy)g(y)dy.
R

Veamos algunos ejemplos de distribuciones continuas. En general las variables aleatorias


continuas se definen a partir de su función de densidad. En ese sentido es importante que
el estudiante sea capaz de reconocer dichas funciones. Veremos tres casos importantes, en
el Anexo D.2 se pueden encontrar otros ejemplos.
1. Variable aleatoria Uniforme (X ∼ U (a, b)):
Es la variable que se puede interpretar como intervalo contenido dentro de (a, b)
tiene la misma probabilidad, o sea es la variante continua de la distribución uniforme
discreta. Su función de densidad se define como
1
f (x) = 1(a,b) (x), a < b,
b−a
y su función de distribución es
x−a
FX (x) = 1(a,b) (x).
b−a
2. Variable aleatoria exponencial (X ∼ Exp(λ)):
Es una variable que toma solamente valores positivos y cuya función de densidad es
f (x) = λe−λx 1(0,+∞) (x), λ > 0,
y su función de distribución es
FX (x) = 1 − e−λx , x > 0.
24 1. Probabilidades. Nociones elementales

3. Variable aleatoria normal o Gaussiana (X ∼ N (µ, σ 2 )):


Esta variable es sin duda alguna la más importante y trascendente entre todas las
variables aleatorias. Sus aplicaciones cubren una extensa gama de áreas del conoci-
miento como las medicina, en la física, en matemática financiera, en la industria, por
solamente mencionar algunos. Su función de densidad está definida por la siguiente
expresión
1 1 2
f (x) = √ e− 2σ2 (x−µ) , x ∈ R, µ ∈ R, σ 2 > 0.
2πσ
Es evidente a partir de resultados elementales de la teoría de análisis matemático
que la función de densidad normal no tiene primitiva, o sea no existe una expresión
explícita para su función de distribución. A partir de las propiedades particulares
de esta distribución existen tabulaciones de la distribución normal estándar, o sea
N (0, 1), a partir de la cual se pueden hallar las probabilidades asociadas a variables
aleatorias Gaussianas.
La distribución normal estándar usualmente se denota por φ y una variable aleatoria
normal estándar por Z. En general la distribución normal es simétrica con respecto
a µ. Cuando µ = 0, en particular para φ se cumple que

φ(−x) = 1 − φ(x).

Esta propiedad es inherente a todas las distribuciones continuas que sean simétricas
con respecto a cero.

1.3.4 Transformaciones de variables aleatorias


La transformación de variables aleatorias reales es muy utilizado para obtener las
distribuciones de variables aleatorias desconocidas a partir variables aleatorias conocidas.
En el caso real el resultado principal es el siguiente
Teorema 1.3.9 (Cambio de variable en una dimensión) Sea X una variable aleato-
ria absolutamente continua con función de densidad f . Sea ϕ una función real estricta-
mente monótona y derivable, entonces la variable Y = ϕ(X) tiene la siguiente función
de densidad:
 ∂ −1
g(y) = f ϕ−1 (y) ϕ (y) .
∂y

Por ejemplo, sea X ∼ N (µ, σ 2 ), definamos


X −µ
Y = .
σ
x−µ
En este caso es obvio que ϕ(x) = σ
, la cual es evidentemente monótona y derivable,
por ende
ϕ−1 (y) = µ + σy,
y
∂ −1
ϕ (y) = σ.
∂y
1.3. Variables aleatorias 25

Por tanto
 ∂ −1
g(y) = f ϕ−1 (y) ϕ (y) = f (µ + σy) |σ|
∂y
1 1 2 1 y2
= √ e− 2σ2 (µ+σy−µ) σ = √ e− 2 .
2πσ 2π

Es decir Y sigue una distribución normal estándar, i.e. : Y ∼ N (0, 1).


En otros casos se puede proceder de forma directa a partir de la función de probabili-
2
dad. Por ejemplo si χ2 ∼ χ2 (2m), entonces para λ > 0 se cumple que χ2λ ∼ Γ(λ, m). Sea
2
Y = χ2λ , entonces
 2 
χ
P (Y ≤ t) = P ≤ t = P (χ2 ≤ 2λt),

por tanto derivando
fY (t) = 2λfχ2 (2λt) .
El resultado es inmediato utilizando la expresión de la densidad de la χ2 .
Cuando Z ∼ N (0, 1), entonces se cumple que Z 2 ∼ χ2 (1). Este resultado se demuestra
utilizando un argumento similar, o sea
 √ √ √
P (Z 2 ≤ t) = P − t ≤ Z ≤ t = 2FZ ( t) − 1,

y por ende al derivar se obtiene que

1 √
fZ 2 (t) = √ fZ ( t),
t

la cual coincide con la densidad de una χ2 (1).


Utilizando las expresiones de las funciones de densidad se verifica que si X ∼ Exp(λ),
entonces X ∼ Γ(λ, 1) y cuando X ∼ χ2 (n), entonces X ∼ Γ( 21 , n2 ).

Suma de variables aleatorias


Pn
Teorema 1.3.10 Sea Sn = i=1 Xi , donde X1 , X2 , · · · Xn son variables aleatorias inde-
pendientes, entonces
1. Si Xi ∼ Bernoulli(p), ∀ i entonces Sn ∼ B(n, p).
P
2. Si Xi ∼ B(ni , p), ∀ i entonces Sn ∼ B( ni , p).

3. Si Xi ∼ Geom(p), ∀ i entonces Sn ∼ BN (p, n).

4. Si Xi ∼ N (µi , σi2 ), ∀ i entonces Sn ∼ N ( µi , σi2 ).


P P

P
5. Si Xi ∼ P oisson(λi ), ∀ i entonces Sn ∼ P oisson( λi ).

6. Si Xi ∼ χ2 (ni ), ∀ i entonces Sn ∼ χ2 ( ni ).
P

P
7. Si Xi ∼ Γ(λ, αi ), ∀ i entonces Sn ∼ Γ(λ, σi ).
26 1. Probabilidades. Nociones elementales

Note que este teorema nos permite obtener relaciones muy interesantes e intuitivas, como
por ejemplo que una variable aleatoria binomial es la suma de variables aleatorias inde-
pendientes con distribución Bernoulli y que la binomial negativa se puede expresar de la
misma forma a partir de variables aleatorias independientes con distribución geométrica.

1.3.5 Características numéricas


Las características numéricas asociadas a una variable aleatoria no son más que va-
lores numéricos que permiten caracterizar o describir a la variable aleatoria. En el curso
discutiremos las más importantes el valor esperado o esperanza matemática (se denota
por E) y la varianza (se denota por V ).
Definición 1.3.7 (Valor esperado) Sea X una variable aleatoria entonces

1. si X es una variable aleatoria discreta su valor se calcula como


X
E(X) = xP (X = x).
x∈R

2. Si X es una variable aleatoria continua su valor se calcula como


Z
E(X) = tf (t)dt.
R

El valor esperado se puede interpretar como el valor que se espera que tome una variable
aleatoria, como una especie de promedio o media. Es importante aclarar que algunos casos
el valor esperado no es exactamente un valor que tome la variable aleatoria como tal. Esto
puede suceder frecuentemente con variables aleatorias discretas, es por ese motivo que se
debe prestar atención a la interpretación de E(X) en cada caso.

Teorema 1.3.11 Sean X y Y dos variables aleatorias entonces

1. E(aX + bY ) = aE(X) + bE(Y ), o sea, el valor esperado es lineal. En particular


E(X + Y ) = E(X) + E(Y ).

2. Si h es una función real, entonces


 P

 h(x)P (X = x), Si X es una variable aleatoria discreta
  x∈R
E h(X) = R .
 h(t)f (t)dt, Si X es una variable aleatoria continua


R

3. Si X y Y son independientes, entonces E(XY ) = E(X)E(Y ).

La definición formal de E(XY ) se discutirá más adelante cuando veamos el tema de


vectores aleatorios.
1.3. Variables aleatorias 27

En cuanto a la varianza se tiene la siguiente definición


Definición 1.3.8 (Varianza) Sea X una variable aleatoria entonces la varianza de X
se define como 2
V (X) = E X − E(X) = E(X 2 ) − E2 (X).

La varianza se interpreta como una medida de dispersión de los datos alrededor de su


valor esperado. Las aplicaciones de este concepto y sus implicaciones juegan un papel
preponderante en la estadística. Note que la varianza depende completamente de cálculos
que involucran valores esperados. Veamos algunas de sus propiedades más importantes.

Teorema 1.3.12 Sean X y Y dos variables aleatorias entonces

1. V (X) ≥ 0. En particular V X = 0 nos indica que la variable aleatoria realmente


es una constante.

2. V (cX) = c2 V (X) si c ∈ R. O sea, la varianza no es lineal.

3. V (X + Y ) = V (X) + V (Y ) + 2E[(X − EX)(Y − EY )].

4. V (X + Y ) = V (X) + V (Y ), si X y Y son independientes.

Veamos algunos ejemplos donde se calculan el valor esperado y la varianza


1. Sea X ∼ B(n, p).
n n   n
X X n k X n!
E(X) = kP (X = k) = k p (1 − p)n−k = k pk (1 − p)n−k
k k!(n − k)!
k=0 k=0 k=0
n
X (n − 1)!
= np pk−1 (1 − p)n−1−(k−1)
(k − 1)!(n − k)!
k=1
(Escribamos en la sumatoria n0 = n − 1, k 0 = k − 1)
n0  0 
X n k0 0 0
= np 0
p (1 − p)n −k = np.
0
k
k =1

Para hallar la varianza solamente se necesita hallar E(X 2 ):


n n  
2
X
2
X
2 n k
E(X ) = k P (X = k) = k p (1 − p)n−k
k
k=0 k=0
n n
X n! X n!
= k2 pk (1 − p)n−k = k pk (1 − p)n−k
k!(n − k)! (k − 1)!(n − k)!
k=0 k=1
n n
X n! X n!
= pk (1 − p)n−k + pk (1 − p)n−k
(k − 2)!(n − k)! (k − 1)!(n − k)!
k=2 k=1
(Escribamos en la primera sumatoria n0 = n − 2, k 0 = k − 2)
n0  0 
X n k0 0 0
= n(n − 1)p 2
0
p (1 − p)n −k + np = n(n − 1)p2 + np.
0
k
k =1
28 1. Probabilidades. Nociones elementales

Por tanto

V (X) = E(X 2 ) − E2 (X)


= n(n − 1)p2 + np − (np)2
= np(1 − p).

El valor esperado y la varianza de una binomial se puede hallar de una forma


mucho más sencilla. Sea X ∼ Bernouilli(p), entonces es inmediato que E(X) = p
y V (X) = p(1 − p). Si se tienen entoncesPuna sucesión de n variables Bernouilli
independientes X1 , · · · , Xn , entonces X = ni=1 Xi ∼ B(n, p) y por la condición de
independencia se obtiene que
n
! n
X X
E(X) = E Xi = E (Xi ) = np
i=1 i=1
n
! n
X X
V (X) = V Xi = V (Xi ) = np(1 − p).
i=1 i=1

Es obvio que este razonamiento se puede aplicar para la suma de otras variables
aleatorias independientes, con lo cual se puede reducir el número de cálculos a
realizar si el problema así lo permite.
2. Sea X ∼ Geom(p).

X ∞
X ∞
X
k−1
E(X) = kP (X = k) = kp(1 − p) =p k(1 − p)k−1
k=1 k=1 k=1
(Escribamos en la sumatoria q = 1 − p < 1)
∞ ∞
X
k−1
X ∂ k
= p kq =p q
∂q
k=1 k=1
(Intercambiamos sumatoria con derivada)

!
∂ X k 1 1
= p q =p· 2
= .
∂q (1 − q) p
k=1

El paso donde sePintercambia derivada con sumatoria se puede realizar debido a que
la serie infinita ∞ k
k=1 q es convergente.
Hallemos E(X 2 ):

X ∞
X ∞
X
2 2 2 k−1
E(X ) = k P (X = k) = k p(1 − p) =p k 2 (1 − p)k−1
k=1 k=1 k=1
(Escribamos en la sumatoria q = 1 − p < 1)
∞ ∞ ∞ ∞
X
2 k−1
X ∂ k
X ∂ k
 X ∂ k
= p k q =p (kq ) = p (k + 1)q − p q
∂q ∂q ∂q
k=1 k=1 k=1 k=1

!
∂ 2 X k+1 1 2 1 2 1
= p 2 q − =p· 3
− = 2− .
∂q p (1 − q) p p p
k=1
1.3. Variables aleatorias 29

Por tanto

V (X) = E(X 2 ) − E2 (X)


 2
2 1 1
= 2− −
p p p
1−p
= .
p2

3. Sea X ∼ Exp(λ).
Z Z ∞
E(X) = tf (t)dt = λte−λt dt
R 0
(Integrando por partes)
(u = t, dv = λe−λt dt ⇒ du = dt, v = −e−λt )
Z ∞

−λt
= −te + λe−λt dt
0 0
1 ∞ 1
= − e−λt = .
λ 0 λ

Para hallar E(X 2 ) se realiza un procedimiento similar, pero integrando por partes
dos veces. Se recomienda al estudiante que realice el cálculo y compruebe que

2
E(X 2 ) = .
λ2

Por tanto

V (X) = E(X 2 ) − E2 (X)


 2
2 1
= 2

λ λ
1
= .
λ2

4. Sea X ∼ N (µ, σ 2 ).
Z Z
t 1 2
E(X) = tf (t)dt = √ e− 2σ2 (t−µ) dt
R R 2πσ
t − µ − 12 (t−µ)2
Z Z
1 1 2
= µ √ e− 2σ2 (t−µ) dt + √ e 2σ dt
R 2πσ R 2πσ
(Realizando un cambio de variable en la segunda integral x = t − µ)
Z
x x2
= µ+ √ e− 2σ2 dx
R 2πσ
(La función en la integral es impar sobre un intervalo simétrico)
= µ.
30 1. Probabilidades. Nociones elementales

En el caso de la varianza se procede de forma directa

(t − µ)2 − 12 (t−µ)2
Z
2
V (X) = E X − E(X) = √ e 2σ dt
R 2πσ
 
t−µ
Realizando un cambio de variable en la integral x =
σ
2 Z
σ x2
= √ x2 e− 2 dx
2π R
(Utilizando la identidad de la función Gamma (ver Anexo E))
= σ2.

1.4 Vectores aleatorios


En esta sección discutiremos algunos resultados relacionados con vectores aleatorios.

1.4.1 Introducción
¿Cómo definir un vector aleatorio?
Definición 1.4.1 (Vector Aleatorio) Se dice que X = (X1 , · · · , Xn ) es un vector
aleatorio definido sobre el espacio de probabilidad (Ω, A, P ) si X es una función del
espacio muestral en Rn , tal que

X−1 (B) = {ω : X(ω) ∈ B} ∈ A, ∀ B ∈ B(Rn ).

Esta definición se puede interpretar como una generalización del concepto de variable
aleatoria. Sin embargo para los efectos del curso vamos a utilizar una definición más
intuitiva y que en algunos textos se presenta como teorema. Su demostración excede los
objetivos de este curso y por tal motivo la presentamos como una caracterización del
concepto de vector aleatorio.
Definición 1.4.2 (Vector Aleatorio. Segunda formulación) Diremos que el vector
X = (X1 , · · · , Xn ) es un vector aleatorio si cada una de sus componentes es una variable
aleatoria.
Como es de esperar se tiene además la siguiente definición
Definición 1.4.3 (Función de Distribución Conjunta) Sea X = (X1 , · · · , Xn ) un
vector aleatorio definido en (Ω, A, P ) que toma sus valores en Rn , entonces su función
de distribución conjunta se define como

FX (x) = P (X ≤ x) = P (X1 ≤ x1 ; X2 ≤ x2 , · · · , Xn < xn ) x = (x1 , · · · , xn ) ∈ Rn .

A partir de la definición anterior se obtiene el siguiente resultado referente a las propie-


dades generales de la función de distribución conjunta.
1.4. Vectores aleatorios 31

Teorema 1.4.1 (Propiedades de la Función de Distribución Conjunta) Sea un


vector aleatorio X = (X1 , · · · , Xn ) definido en (Ω, A, P ) con función de distribución
conjunta FX , entonces

1. FX es no decreciente en cada una de las variables.

2. FX es continua por la derecha en cada variable, dejando las demás fijas.

3. Límites al infinito:
lı́m FX (x1 , x2 , · · · , xn ) = 0,
xj →−∞

para cada j = 1, · · · , n,

lı́m FX (x1 , x2 , · · · , xn ) = 1.
xj →+∞
j=1,··· ,n

lı́m FX (x1 , x2 , · · · , xj , · · · , xn ) = FXj (t1 , t2 , · · · , xj−1 , xj+1 , · · · , xn ),


xj →+∞

donde Xj = (X1 , X2 , · · · , Xj−1 , Xj , · · · , Xn ) es un vector aleatorio en Rn−1 .

Además se tiene el siguiente resultado relacionado con las distribuciones asociadas a cada
componente del vector aleatorio

Teorema 1.4.2 Sea un vector aleatorio X = (X1 , · · · , Xn ) definido en (Ω, A, P ) con


función de distribución conjunta FX , entonces la función de distribución asociada a
cada componente Xk se obtiene de la siguiente forma:

FXk (xk ) = lı́m FX (x1 , x2 , · · · , xn ).


xj →+∞
j6=k

A FXk se le conoce como función de distribución marginal asociada a la variable Xk .

Es importante aclarar que el concepto de función de “distribución marginal” en el marco


de los vectores aleatorios coincide con el concepto de función de distribución de variables
aleatorias definido previamente.
En la sección anterior se mencionó el concepto de independencia de variables aleatorias.
Veamos la definición general.
Definición 1.4.4 (Variables aleatorias mutuamente independientes) Sea un vec-
tor aleatorio X = (X1 , · · · , Xn ) definido en (Ω, A, P ), se dice que las variables que
conforman al vector son mutuamente independientes la distribución si se cumple que

FXi1 ,Xi2 ,··· ,Xik (xi1 , xi2 , · · · , xik ) = FXi1 (x1 )FXi2 (x2 ) · · · FXik (xk ), ∀ k : 1 ≤ k ≤ n,

y
1 ≤ i1 < i2 < · · · ik ≤ n.
32 1. Probabilidades. Nociones elementales

O sea un conjunto de n variables aleatorias son mutuamente independientes si para cual-


quier vector de tamaño k ≤ n la función de distribución conjunta correspondiente se
puede escribir como el producto de las funciones de distribuciones marginales asociadas a
sus componentes. Esta formulación la discutiremos en particular para vectores aleatorios
discretos y continuos en R2 .
El siguiente teorema ofrece una forma de encontrar la densidad de un vector aleatorio
a partir de una transformación. En el caso de variables aleatorias se presentó su versión
en R.
Teorema 1.4.3 (Cambio de variable) Sean los vectores aleatorios n-dimensionales
X = (X1 , X2 , · · · , Xn ) y Y = (Y1 , Y2 , · · · , Yn ) con funciones de densidad fX y fY
respectivamente. Supongamos que existe una función ϕ de (Rn , B(Rn )) en (Rn , B(Rn ))
tal que
Y = ϕ(X) = (ϕ1 (X), · · · , ϕn (X)),
y además existe ϕ−1 para todo valor de X ∈ Ω, o sea

X = ϕ−1 (Y) = (ϕ−1 −1


1 (Y), · · · , ϕn (Y)).

Supongamos que además existen las derivadas parciales:


∂ −1
ϕ (y) ∀ i = 1, · · · , n.
∂yi i
Entonces la densidad de probabilidad de Y, fY está dada por:

fY (y) = fX (ϕ−1 (y) )|Jϕ−1 |1{fX 6=0} (ϕ−1 (y)),

donde J es el jacobiano de la transformación, o sea:


 ∂ −1
ϕ (y) · · · ∂y∂ 1 ϕ−1

∂y1 1 n (y)
Jϕ−1 = 
 .. .. .. 
. . . 
∂ −1 ∂ −1
ϕ (y) · · · ∂yn ϕn (y)
∂yn 1

En el curso solamente se discutirá con más detenenimiento las propiedades de vectores


aleatorios bidimensionales.

1.4.2 Vectores aleatorios discretos


Con el mismo espíritu es lógico asumir la siguiente definición
Definición 1.4.5 (Vector aleatorio discreto) El vector X = (X1 , · · · , Xn ) es un vector
aleatorio discreto si cada una de sus componentes es una variable aleatoria discreta.
En lo adelante nos centraremos en vectores aleatorios del tipo (X, Y ). Al igual que en el
caso de variables aleatorias discretas se tiene la siguiente definición
1.4. Vectores aleatorios 33

Definición 1.4.6 (Función de Probabilidad Conjunta) Sea (X, Y ) un vector alea-


torio definido en (Ω, A, P ) que toma sus valores en R2 , entonces su función de pro-
babilidad conjunta no es más que la probabilidad que X = x y Y = y y se denota
por
PX,Y (x, y) = P (X = x, Y = y).

Asociado con el concepto de probabilidad conjunta está el de probabilidad marginal co-


rrespondiente a cada variable, o sea
Definición 1.4.7 (Función de Probabilidad Marginal) Sea (X, Y ) un vector alea-
torio definido en (Ω, A, P ) que toma sus valores en R2 con función de probabilidad
conjunta PX,Y , entonces las funciones de probabilidad marginales se obtienen a partir
de las siguientes expresiones
X X
P (X = x) = PX,Y (x, y) = P (X = x, Y = y)
y∈R y∈R
X X
P (Y = y) = PX,Y (x, y) = P (X = x, Y = y).
x∈R x∈R

En ese caso la distribución conjunta se define como sigue


Definición 1.4.8 (Función de Distribución Conjunta. Caso discreto) Sea (X, Y )
un vector aleatorio definido en (Ω, A, P ) que toma sus valores en R2 , entonces su
función de distribución conjunta se define como
XX
FX,Y (x, y) = P (x ≤ x, Y ≤ y) = P (X = s, Y = t).
s≤x t≤y

Siguiendo el mismo razonamiento utilizado en el caso general se obtiene la definición


de distribución marginal
Definición 1.4.9 (Función de Distribución Marginal. Caso discreto) Sea (X, Y )
un vector aleatorio definido en (Ω, A, P ) que toma sus valores en R2 , entonces las
funciones de distribución marginal para cada componente se definen de la siguiente
forma
XX
FX (x) = lı́m FX,Y (x, y) = FX,Y (x, +∞) = P (X = s, Y = y)
y→+∞
s≤x y∈R
XX
GY (y) = lı́m FX,Y (x, y) = FX,Y (+∞, y) = P (X = x, Y = t).
x→+∞
x∈R t≤x

Usualmente escribiremos F en vez de FX y G en vez de GY .


Veamos las siguientes propiedades
34 1. Probabilidades. Nociones elementales

Teorema 1.4.4 Sea un vector aleatorio discreto (X, Y ) definido en (Ω, A, P ) con función
de distribución conjunta FX,Y , entonces

1. FX,Y es no decreciente en cada una de las variables.

2. FX,Y es continua por la derecha en cada variable, dejando las demás fijas.

3. Límites al infinito:

FX,Y (−∞, y) = lı́m FX,Y (x, y) = 0


x→−∞
FX,Y (x, −∞) = lı́m FX,Y (x, y) = 0
y→−∞

XX
FX,Y (+∞, +∞) = lı́m FX,Y (x, y) = P (X = x, Y = y) = 1.
x→+∞
y→+∞ x∈R y∈R

4. P (a < X ≤ b, c < Y ≤ d) = FX,Y (b, d) − FX,Y (a, d) − FX,Y (b, c) + FX,Y (a, c).

5. Probabilidad sobre un conjunto B:


 X
P (X, Y ) ∈ B = P (X = x, Y = y).
(x,y)∈B

En cuanto a la independencia entre dos variables aleatorias se tiene el siguiente resul-


tado

Definición 1.4.10 (Variables aleatorias independientes. Caso discreto) Sea un


vector aleatorio (X, Y ) definido en (Ω, A, P ), se dice que X y Y son independientes si
y solo si
FX,Y (x, y) = F (x)G(y), ∀ x, y ∈ R.
O equivalentemente si y solo si

P (X = x, Y = y) = P (X = x)P (Y = y), ∀ x, y ∈ R.

Teorema 1.4.5 (Suma y división de dos variables aleatorias. Caso discreto)


X
Sean X y Y dos variables aleatorias independientes, y sean S = X + Y y C = Y
, para
Y 6= 0, entonces
X X
P (S = s) = P (X = s − y, Y = y) = P (X = s − y)P (Y = y),
y∈R y∈R
y X X
P (C = c) = |y|P (X = cy, Y = y) = |y|P (X = cy)P (Y = y).
y∈R y∈R

Veamos ahora algunas definiciones relacionadas con probabilidades condicionales de va-


riables aleatorias.
1.4. Vectores aleatorios 35

Definición 1.4.11 (Distribución condicional) Sea un vector aleatorio (X, Y ) definido


en (Ω, A, P ), tal que P (Y = y) > 0, entonces la distribución condicional de X dado
Y = y se define como

P (X ≤ x, Y = y)
F (x|Y = y) = P (X ≤ x|Y = y) = , ∀x ∈ R.
P (Y = y)

Además se tiene que


X X P (X = s, Y = y)
P (X ≤ x|Y = y) = P (X = s|Y = y) = ,
s≤x s≤x
P (Y = y)

donde P (X = s|Y = y) se conoce como la función de probabilidad condicional de


X = s dado Y = y.
En el caso discreto es muy sencillo obtener otro tipo de probabilidades condicionales como
por ejemplo sea B = {(x, y) : x ∈ B1 , y ∈ B2 }, tal que P (Y ∈ B2 ) > 0 entonces

P (X, Y ) ∈ B
P (X ∈ B1 |Y ∈ B2 ) = .
P (Y ∈ B2 )

Utilizando el concepto de probabilidad condicional podemos definir el valor esperado


condicional
Definición 1.4.12 (Valor esperado condicional. Caso discreto) Sea un vector alea-
torio (X, Y ) definido en (Ω, A, P ), tal que P (Y = y) > 0, entonces el valor esperado
condicional de X dado Y = y se define como
X
E(X|Y = y) = xP (X = x|Y = y).
x∈R

Esa definición tiene propiedades muy similares a las vistas antes para el valor esperado
de variables aleatorias, en particular cuando X y Y son independientes se cumple que

E(X|Y = y) = E(X).

Se deja al lector su verificación.


En el caso de una función real h se cumple también que
 X
E h(X)|Y = y = h(x)P (X = x|Y = y).
x∈R

De esa forma se obtiene que


36 1. Probabilidades. Nociones elementales

Definición 1.4.13 (Varianza condicional. Caso discreto) Sea un vector aleatorio


(X, Y ) definido en (Ω, A, P ), tal que P (Y = y) > 0, entonces la varianza condicional
de X dado Y = y se define como

V (X|Y = y) = E(X 2 |Y = y) − E2 (X|Y = y)


!2
X X
= x2 P (X = x|Y = y) − xP (X = x|Y = y) .
x∈R x∈R

Analicemos el siguiente ejemplo. Supongamos que se tiene un dado balanceado. Si sale


el número 1 el dado no se vuelve a lanzar, si sale un número entre 2 y 4 incluidos, se lanza
entonces el dado una vez más y en otro caso se lanza el dado dos veces más. Sea X la
variable aleatoria número de dados lanzados y Y el número de veces que salió el 3.
Obtengamos la función de probabilidad conjunta del vector (X, Y ). El primer paso
consiste en determinar los valores posibles que puede tomar cada variable. A partir de
la información que se ofrece en el problema es sencillo comprobar que X ∈ {1, 2, 3} y
Y ∈ {0, 1, 2}. Utilizando un razonamiento probabilístico se puede obtener lo siguiente:

X
1 2 3 PY
1 10 50 146
0 6 36 216 216

Y 7 20 62
1 0 36 216 216
1 2 8
2 0 36 216 216
1 1 1
PX 6 2 3

Se recomienda al estudiante que realice los cálculos correspondientes para verificar los
resultados que se muestran en la tabla anterior.
Note además como en la misma tabla donde se describe la función de probabilidad
conjunta se pueden escribir también las funciones de probabilidad marginal para cada
variable. En el caso de la función de distribución conjunta se obtiene la siguiente tabla
utilizando la definición

X
1 2 3
1 16 146
0 6 36 216

Y 146 188 208


1 216 216 216
208 214
2 216 216
1
1.4. Vectores aleatorios 37

Es muy sencillo después obtener las distribuciones marginales en cada caso

x −∞ 1 2 3 y −∞ 0 1 2
208 214 146 188
F (x) 0 216 216
1 G(y) 0 216 216
1

Es importante aclarar que las distribuciones marginales se pueden hallar por dos vías,
la primera a partir de la probabilidad marginal de la variable aleatoria en cuestión o a
partir del límite de la distribución conjunta. Este resultado es inmediato a partir de la
definición, o sea para el caso de X por ejemplo
X
F (x) = P (X ≤ x) = P (X = s)
s≤x
XX
= P (X = s, Y = y) = FX,Y (x, +∞) = lı́m FX,Y (x, y)
y→+∞
s≤x y∈R
X
= P (X = x, Y = y),
(x,y)∈Bs

donde Bs = {(x, y) ∈ R2 : x = s, y ∈ R}.


De la misma forma se obtiene un resultado similar para el valor esperado:
X
E(X) = xP (X = x)
x∈R
X X
= x P (X = x, Y = y)
x∈R y∈R
X
= xP (X = x, Y = y).
(x,y)∈R2

Continuemos con el ejemplo anterior y calculemos

1. P (X ≤ Y ).
Escribamos el conjunto B = {(1, 1); (1, 2); (2, 2)}, por tanto
 X
P (X ≤ Y ) = P (X, Y ) ∈ B = P (X = x, Y = y)
(x,y)∈B

= P (X = 1, Y = 1) + P (X = 1, Y = 2) + P (X = 2, Y = 2)
1 1
= 0+0+ = .
36 36

2. La función de distribución condicional F (x|Y = 2).


A partir de la definición

P (X ≤ x, Y = 2)
F (x|Y = 2) = P (X ≤ x|Y = 2) = , ∀x ∈ {1, 2, 3},
P (Y = 2)
38 1. Probabilidades. Nociones elementales

por ende resulta inmediato que debemos calcular

P (X = s, Y = 2)
P (X = s|Y = 2) = , ∀s ∈ {1, 2, 3},
P (Y = 2)
o sea

x 1 2 3
3 1
P (X = x|Y = 2) 0 4 4

Por tanto

x −∞ 1 2 3
3
F (x|Y = 2) 0 0 4
1

1.4.3 Vectores aleatorios continuos


Al igual que en el caso discreto, la definición para vectores aleatorios continuos se
puede enunciar de la siguiente forma
Definición 1.4.14 (Vector aleatorio continuo) El vector X = (X1 , · · · , Xn ) es un
vector aleatorio continuo si cada una de sus componentes es una variable aleatoria
continua y su función de distribución conjunta se puede escribir de la siguiente forma
Z x1 Z x1 Z xn
FX (x) = ··· f (t1 , t2 , · · · , tn )dt1 dt2 · · · dtn ,
−∞ −∞ −∞

donde f (t1 , t2 , · · · , tn ) es una función no negativa llamada función de densidad marginal


conjunta.
En lo adelante nos centraremos en vectores aleatorios del tipo (X, Y ). La definición previa
se puede escribir de la siguiente forma para vectores bidimensionales.
Definición 1.4.15 (Función de distribución y densidad conjunta) Sea (X, Y ) un
vector aleatorio definido en (Ω, A, P ) que toma sus valores en R2 , entonces su función de
densidad conjunta f (x, y) es una función no negativa tal que la función de distribución
conjunta F(X,Y ) se puede escribir de la siguiente forma
Z x Z y
FX,Y (x, y) = P (X ≤ x, Y ≤ y) = f (u, v)dudv.
−∞ −∞
1.4. Vectores aleatorios 39

Asociado con el concepto de densidad conjunta está el de densidad marginal, o sea


Definición 1.4.16 (Función de Densidad Marginal) Sea (X, Y ) un vector aleatorio
definido en (Ω, A, P ) que toma sus valores en R2 con función de densidad conjunta
f (x, y), entonces las funciones de densidades marginales se obtienen a partir de las
siguientes expresiones
Z +∞
f (x) = f (x, y)dy
−∞
Z +∞
g(y) = f (x, y)dx.
−∞

Al igual que en el caso discreto se tiene la siguiente definición


Definición 1.4.17 (Función de Distribución Marginal. Caso continuo) Sea (X, Y )
un vector aleatorio definido en (Ω, A, P ) que toma sus valores en R2 , entonces las
funciones de distribución marginal para cada componente se obtienen como sigue
Z x Z +∞
FX (x) = lı́m FX,Y (x, y) = FX,Y (x, +∞) = f (u, y)dydu
y→+∞ −∞ −∞
Z y Z +∞
GY (y) = lı́m FX,Y (x, y) = FX,Y (+∞, y) = f (x, v)dxdv.
x→+∞ −∞ −∞

Usualmente escribiremos F en vez de FX y G en vez de GY .


Y al igual que antes podemos escribir lo siguiente
Z x
F (x) = P (X ≤ x) = f (u)du
−∞
Z x Z +∞
= f (u, y)dydu = FX,Y (x, +∞) = lı́m FX,Y (x, y).
−∞ −∞ y→+∞

Y para el valor esperado se obtiene


Z +∞
E(X) = xf (x)dx
−∞
Z +∞ Z +∞
= xf (x, y)dydx.
−∞ −∞
40 1. Probabilidades. Nociones elementales

Veamos las siguientes propiedades

Teorema 1.4.6 Sea un vector aleatorio continuo (X, Y ) definido en (Ω, A, P ) con función
de distribución conjunta FX,Y , entonces

1. FX,Y es no decreciente en cada una de las variables.

2. FX,Y es continua por la derecha en cada variable, dejando las demás fijas.

3. Relación diferencial entre densidad y distribución conjunta:

∂2
f (x, y) = FX,Y (x, y).
∂x∂y

4. Límites al infinito:

FX,Y (−∞, y) = lı́m FX,Y (x, y) = 0


x→−∞
FX,Y (x, −∞) = lı́m FX,Y (x, y) = 0
y→−∞
Z +∞ Z +∞
FX,Y (+∞, +∞) = lı́m FX,Y (x, y) = f (x, y)dxdy = 1.
x→+∞ −∞ −∞
y→+∞

5. P (a < X ≤ b, c < Y ≤ d) = FX,Y (b, d) − FX,Y (a, d) − FX,Y (b, c) + FX,Y (a, c).

6. P (X = x, Y = y) = 0.

7. Probabilidad sobre un conjunto B:


 x
P (X, Y ) ∈ B = f (x, y)dxdy.
(x,y)∈B

Teorema 1.4.7 Sea X y Y dos variables aleatorias independientes con densidades f (x)
y g(y) respectivamente. Sea f (x, y) la densidad conjunta del vector (X, Y ), y sean
S =X +Y y C = X Y
, para Y 6= 0, entonces
Z Z
fS (s) = f (s − y, y) = f (s − y)g(y)dy,
R R
y Z Z
fC (c) = |y|f (cy, y)dy = |y|f (cy)g(y)dy.
R R
1.4. Vectores aleatorios 41

El teorema de cambio de variable en dos dimensiones se puede escribir de la siguiente


forma
En cuanto a la independencia entre dos variables aleatorias se tiene el siguiente resul-
tado
Definición 1.4.18 (Variables aleatorias independientes. Caso continuo) Sea un
vector aleatorio (X, Y ) definido en (Ω, A, P ), se dice que X y Y son independientes si
y solo si
F(X,Y ) (x, y) = F (x)G(y), ∀ x, y ∈ R.
O equivalentemente si y solo si

f (x, y) = f (x)g(y), ∀ x, y ∈ R.

En el caso de la distribución condicional se tiene la siguiente definición


Definición 1.4.19 (Distribución condicional) Sea un vector aleatorio (X, Y ) definido
en (Ω, A, P ), tal que g(y) 6= 0, entonces la distribución condicional de X dado Y = y
se define como
Z x
F (x|Y = y) = P (X ≤ x|Y = y) = f (u|y)du∀x ∈ R.
−∞

Además se tiene que


f (x, y)
f (x|y) = ,
g(y)
donde f (x|y) se conoce como la función de densidad condicional de X dado Y = y.

En el caso continuo se tiene el siguiente resultado


Z
P (X ∈ B1 |Y = y) = f (u|y)du.
B1

En algunos casos con distribuciones continuas es sencillo hallar también otro tipo de
probabilidades condicionales tales como

P (X ∈ B1 , Y ∈ B2 )
P (X ∈ B1 |Y ∈ B2 ) = .
P (Y ∈ B2 )

Por ejemplo si Y = X, entonces

P (X ∈ B1 ∩ B2 )
P (X ∈ B1 |X ∈ B2 ) = .
P (X ∈ B2 )

Utilizando el concepto de densidad condicional podemos definir el valor esperado condi-


cional para el caso continuo de forma análoga al caso discreto
Definición 1.4.20 (Valor esperado condicional. Caso continuo) Sea un vector alea-
torio (X, Y ) definido en (Ω, A, P ), tal que g(y) 6= 0, entonces el valor esperado condi-
42 1. Probabilidades. Nociones elementales

cional de X dado Y = y se define como


Z +∞
E(X|Y = y) = xf (x|y)dx.
−∞

Al igual que antes, cuando X y Y son independientes se cumple que

E(X|Y = y) = E(X).

Y por supuesto en el caso de una función real h se cumple también que


Z +∞
E h(X)|Y = y = h(x)f (x|y)dx.
−∞

De esa forma se obtiene que


Definición 1.4.21 (Varianza condicional. Caso continuo) Sea un vector aleatorio
(X, Y ) definido en (Ω, A, P ), tal que g(y) 6= 0, entonces la varianza condicional de X
dado Y = y se define como

V (X|Y = y) = E(X 2 |Y = y) − E2 (X|Y = y)


Z +∞ Z +∞ 2
2
= x f (x|y)dx − xf (x|y)dx .
−∞ −∞

Veamos un ejemplo. Sea (X, Y ) un vector aleatorio con función de densidad conjunta

8xy 0 ≤ y ≤ x ≤ 1
f (x, y) =
0 otro caso

Y nos interesa

1. Obtener la función de distribución conjunta del vector.

2. Halle las funciones de densidad marginal de X y Y .

3. Determinar la distribución marginal de X

4. Calcular P (X + Y ≤ 1).

Cuando se trabaja con vectores aleatorios continuos, se recomienda graficar la región en


la cual la densidad marginal es diferente de cero, siempre que sea posible. En este ejemplo
en particular, si escribimos

B = {(x, y) ∈ R2 : 0 ≤ y ≤ x ≤ 1},

entonces el conjunto de positividad de la densidad conjunta se puede representar de la


siguiente forma
1.4. Vectores aleatorios 43

0.5
B

x
0 1
0.5

1. Para hallar la distribución conjunta, es muy importante determinar geométrica-


mente la región de definición de trabajo. Es inmediato que cuando se tiene un par
coordenado (x, y) ∈ B, entonces la función de distribución se obtiene sin dificultad.
¿Qué sucede cuando (x, y) ∈/ B? En esa situación se debe realizar un análisis ad hoc
del problema en cuestión para determinar las regiones donde la integración de la
función de densidad tiene expresiones similares.
En general supongamos que B es el conjunto de R2 donde la densidad conjunta es
diferente de cero. Si queremos hallar FX,Y (s, t) donde (s, t) es un punto de R2 , note
que 
FX,Y (s, t) = P (X, Y ) ∈ A(s,t) ,
donde A(s,t) = {(x, y) ∈ R2 : x ≤ s, y ≤ t}. Por ende para que FX,Y (s, t) tome valores
no nulos es necesario que A(s,t) ∩ B 6= ∅. En el caso particular que A(s,t) ∩ B = B,
entonces FX,Y (s, t) = 1.

• Sea B0 = {(x, y) ∈ R2 : x ≤ 0} ∪ {(x, y) ∈ R2 : y ≤ 0}. Si (s, t) ∈ B0 entonces


es evidente que A(s,t) ∩ B = ∅ y por tanto
FX,Y (s, t) = 0.

• Sea Bx = {(x, y) ∈ R2 : 0 ≤ x ≤ 1, x < y}. Si (s, t) ∈ Bx entonces es inmediato


que A(s,t) ∩ B = {(x, y) ∈ R2 : 0 ≤ x ≤ s, y ≤ x}, por tanto
Z sZ x
FX,Y (s, t) = 8xy dydx = s4 .
0 0

• Sea By = {(x, y) ∈ R2 : x ≥ 1, 0 ≤ y ≤ 1}. Si (s, t) ∈ By entonces se obtiene


que
A(s,t) ∩B = {(x, y) ∈ R2 : 0 ≤ x ≤ t, 0 ≤ y ≤ x}∪{(x, y) ∈ R2 : t ≤ x ≤ 1, 0 ≤ y ≤ t},
por tanto
Z tZ x Z 1 Z t
FX,Y (s, t) = 8xy dydx + 8xy dydx = t2 (2 − t2 ).
0 0 t 0
44 1. Probabilidades. Nociones elementales

• De forma similar se trabaja cuando (s, t) ∈ B, o sea


A(s,t) ∩B = {(x, y) ∈ R2 : 0 ≤ x ≤ t, 0 ≤ y ≤ x}∪{(x, y) ∈ R2 : t ≤ x ≤ s, 0 ≤ y ≤ t},

por tanto
Z tZ x Z sZ t
FX,Y (s, t) = 8xy dydx + 8xy dydx = t2 (2s2 − t2 ).
0 0 t 0

• Y finalmente sea B1 = {(x, y) ∈ R2 : x ≥ 1, y ≥ 1}, entonces A(s,t) ∩ B = B y


por ende
FX,Y (s, t) = 1.

Resumiendo se obtiene que




 0 (s, t) ∈ B0
 s4 (s, t) ∈ Bx


FX,Y (s, t) = t2 (2 − t2 ) (s, t) ∈ By
t2 (2s2 − t2 ) (s, t) ∈ B




1 (s, t) ∈ B1

Note que FX,Y (s, t) = F (s) si (s, t) ∈ Bx y FX,Y (s, t) = G(t) si (s, t) ∈ By .
2. Para hallar las densidades marginales se puede proceder de dos formas. Si tenemos
las funciones de distribución marginales para X y Y , entonces
∂ ∂ 4
f (s) = F (s) = (s ) = 4s3 .
∂s ∂s
∂ ∂
g(y) = G(t) = (t2 (2 − t2 )) = 4t − 4t3 .
∂t ∂t
O simplemente se pueden hallar a partir de la densidad conjunto, o sea
Z Z x
f (x) = f (x, y)dy = 8xy dy = 4x3 , x ∈ [0, 1].
ZR Z0 1
g(y) = f (x, y)dx = 8xy dx = 4y − 4y 3 , y ∈ [0, 1].
R y

3. Para determinar la distribución condicional de X dado Y = 21 debemos hallar pri-


mero f (x|y) para y = 21 . A partir del ejemplo y usando la fórmula correspondiente
se obtiene que
f (x, 12 ) 4x 8
f (x|1/2) = 1 = 3 = x,
g( 2 ) 2
3
Es importante notar que en este caso la función de densidad condicional se define
sobre el conjunto { 12 ≤ x ≤ 1}, por tanto
Z x Z x
8 4x2 − 1
F (x|Y = 1/2) = P (X ≤ x|Y = 1/2) = f (u|1/2)du = udu = .
1 3 3
−∞ 2
1.4. Vectores aleatorios 45

4. Para calcular P (X + Y ≤ 1) se recomienda graficar el conjunto A de R2 que define


X + Y ≤ 1, y su intersección con B o sea

A B
0.5

A∩B
x
0 1
0.5

Por tanto si f (x, y) = 8xy1B (x, y), entonces


x x
P (X + Y ≤ 1) = f (x, y) dydx = 8xy dydx
A A∩B
1
Z
2
Z x Z 1 Z 1−x
= 8xy dydx + 8xy dydx
1
0 0 2
0
1   1
4
2
4 8 3 2
= x + x − x + 2x
0 3 1
2
5
= .
12

1.4.4 Covarianza y correlación


Veamos dos conceptos que se utilizan para medir la relaciones entre dos variables
aleatorias. Es obvio que en la vida cotidiana existen ejemplos donde resulta importante
conocer de cierta forma la relación entre dos magnitudes. En ese sentido se define la
covarianza:
Definición 1.4.22 (Covarianza) Sea un vector aleatorio (X, Y ) definido en (Ω, A, P ),
entonces la covarianza entre X y Y es una magnitud que mide la relación entre ambas
variables cuando varían conjuntamente y se calcula a partir de la siguiente expresión
 
cov(X, Y ) = E (X − EX)(Y − EY )
= E(XY ) − EXEY.
46 1. Probabilidades. Nociones elementales

En la definición de la covarianza aparece un valor esperado que involucra a las dos


variables: E(XY ) y se define como
 P P
 xyP (X = x, Y = y), Vector aleatorio discreto
 x∈R y∈R

E(XY ) = RR .
xyf (x, y)dxdy, Vector aleatorio continuo



R R

¿Cómo interpretar la covarianza? Algunos autores consideran a la covarianza como


una generalización de la varianza, o sea se puede interpretar como una medida de la
variabilidad o variación conjunta de dos variables aleatorias. Bajo este concepto los valores
que toma la covarianza nos indica la relación entre las variables, es decir si cov(X, Y ) > 0,
significa que valores grandes en una variable están asociados con valores grandes de la
otra, o sea que existe una relación positiva entre ambas. Si cov(X, Y ) < 0 entonces cuando
una de las variables crece, la otra tiene tendencia a disminuir, o lo que es lo mismo, existe
una relación negativa entre ambas y por último cuando cov(X, Y ) = 0 o cov(X, Y ) ≈ 0
entonces se dice que las variables no están relacionadas.
Veamos entonces algunas de las propiedades más importante de la covarianza.

Teorema 1.4.8 (Propiedades de la Covarianza) Sean X y Y dos variables aleatorias,


entonces la covarianza entre X y Y satisface que

1. cov(X, X) = V (X).
p
2. cov(X, Y ) ≤ V (X)V (Y ). (Desigualdad de Cauchy-Schwartz)

3. cov(X, Y ) = cov(Y, X).

4. cov(X, c) = 0, para todo c ∈ R.

5. cov(aX, bY ) = ab cov(X, Y ), para todo a, b ∈ R.

6. cov(X + c, Y + d) = cov(X, Y ), para todo c, d ∈ R.


7. La covarianza es bilineal. O sea, si X1 y Y1 son otras dos variables aleatorias,
entonces para todo a, b, c, d ∈ R se cumple que

cov(aX +cX1 , bY +dY1 ) = ab cov(X, Y )+ad cov(X, Y1 )+cb cov(X1 , Y )+cd cov(X1 , Y1 ).

8. Si X y Y son independientes entonces cov(X, Y ) = 0. El recíproco no se cumple


siempre.
Como hemos mencionado la covarianza es una medida de la variabilidad conjunta de
dos variables, o lo que es lo mismo, una medida del grado y tipo de su relación. Sin
embargo la covarianza tiene un inconveniente: depende de las medidas de las variables,
por ese motivo no es posible establecer comparaciones entre pares diferentes de variables
aleatorias a partir de los valores de la covarianza. En ese sentido se define entonces la
correlación, la cual es una medida conceptualmente equivalente a la covarianza, pero que
no se afecta por los valores de la variables.
1.4. Vectores aleatorios 47

Definición 1.4.23 (Correlación) Sea un vector aleatorio (X, Y ) definido en (Ω, A, P ),


entonces la correlación entre X y Y es una magnitud que mide la fuerza de la relación
lineal entre dos variables aleatorias
cov(X, Y )
ρ(X, Y ) = p .
V (X)V (Y )

A ρ(X, Y ) se le llama también coeficiente de correlación de Pearson.

Es importante aclarar que tanto la covarianza como la correlación se le aplica a varia-


bles cuantitativas y no a variables cualitativas. Veamos algunas de las propiedades más
importantes de la correlación

Teorema 1.4.9 (Propiedades de la Correlación) Sean X y Y dos variables aleatorias,


entonces la correlación entre X y Y satisface que

1. |ρ(X, Y )| ≤ 1.

2. |ρ(X, Y )| = 1 si solo si Y = a + bX, ∀ a, b ∈ R, a 6= 0.

3. Si ρ(X, Y ) es positivo y toma valores cercanos a uno, entonces la relación lineal


entre X y Y es positiva. Si ρ(X, Y ) toma valores negativos cercanos a -1, entonces
la relación lineal entre las variables es negativa. Cuando ρ(X, Y ) ≈ 0 se dice que
X y Y están incorrelacionadas.
A pesar de que la correlación no depende de la escala, hay que ser cuidadoso a la hora
de interpretar su valor numérico, o sea ¿cuándo se puede decir que |ρ(X, Y )| es grande
como para indicar relación entre dos variables aleatorias? Usualmente se asume que si
|ρ(X, Y )| ≥ 0,7, entonces existe relación lineal entre las variables, sin embargo esto puede
no ser suficiente para algunos problemas aplicados.
Se deja propuesto al lector el cálculo de la correlación en los dos ejemplos analizados
previamente de vectores discretos y continuos.
48 1. Probabilidades. Nociones elementales

Resumen de fórmulas

Vectores Discretos Vectores Continuos


Función de Probabilidad Conjunta Función de Densidad Conjunta

PX,Y (x, y) = P (X = x, Y = y) f (x, y) : R2 → R no negativa.

Función de Distribución Conjunta Función de Distribución Conjunta

PP Rx Ry
FX,Y (x, y) = P (X = s, Y = t) FX,Y (x, y) = f (u, v)dudv
s≤x t≤y −∞ −∞

Propiedades Generales Propiedades Generales


P P RR
P (X = x, Y = y) = 1 f (x, y)dxdy = 1
x∈R y∈R R R

P s
P ((X, Y ) ∈ B) = P (X = x, Y = y) P ((X, Y ) ∈ B) = f (x, y)dxdy
(x,y)∈B B

∂2
f (x, y) = F (x, y).
∂x∂y X,Y

Función de Distribución Marginal Función de Distribución Marginal

FX (x) = lı́m FX,Y (x, y) FX (x) = lı́m FX,Y (x, y)


y→+∞ y→+∞

Función de Probabilidad Marginal Función de Densidad Marginal


P R
P (X = x) = P (X = x, Y = y) f (x) = f (x, y)dy
y∈R R
1.5. Teoremas Límites 49

1.5 Teoremas Límites


1.5.1 Nociones de convergencia
Antes de discutir los aspectos más importantes relacionados con los teoremas límites
debemos definir primero algunos conceptos de convergencia el el marco de la teoría de
probabilidades:
Definición 1.5.1 (Modos de convergencia) Sea (Ω, A, P ) un espacio de probabilidad y
{Xn } una sucesión de variables aleatorias, entonces

1. (Casi segura) Diremos que Xn converge casi seguramente a X, o con probabilidad uno
si:  
P {ω ∈ Ω : Xn (ω) −−−→ X(ω)} = 1,
n→∞

y se denota como
c.s.
Xn −−−→ X.
n→∞

2. (En probabilidad ) Diremos que Xn converge en probabilidad a X o estocásticamente si:

lı́m P (|Xn − X| > ε) = 0 ∀ > 0.


n→∞

y se denota por
P
Xn −−−→ X.
n→∞

3. (En distribución) Diremos que Xn con función de distribución Fn converge en distribu-


ción o en ley a X cuya función de distribución se denota por FX si:

P (Xn ≤ x) = Fn (x) → FX (x),

en todo punto de continuidad de FX y se denota por


D
Xn −−−→ X.
n→∞

Estos modos de convergencia son muy utilizados en la práctica. Existen otros tipos de conver-
gencia, pero que no son objetivo de este curso. Además se tiene el siguiente resultado

Teorema 1.5.1 (Teorema de la función continua) Sean X y {Xn } variables aleatorias y


g : Rk → Rm una función continua en C ∈ Rk casi seguramente, entonces:
D D
1. Si Xn −−−→ X entonces g(Xn ) −−−→ g(X).
n→∞ n→∞

P P
2. Si Xn −−−→ X entonces g(Xn ) −−−→ g(X).
n→∞ n→∞
c.s. c.s.
3. Si Xn −−−→ X entonces g(Xn ) −−−→ g(X).
n→∞ n→∞

Conjuntamente con el teorema anterior enunciaremos dos resultados sin demostración que se
utilizan para obtener muchos resultados asintóticos de utilidad práctica y teórica.
50 1. Probabilidades. Nociones elementales

D
Teorema 1.5.2 (Slutsky): Sean Xn , Yn , X variables aleatorias tales que Xn −−−→ X y
n→∞
P
Yn −−−→ c entonces:
n→∞

D
1. Xn + Yn −−−→ X + c.
n→∞

D
2. Xn · Yn −−−→ X · c.
n→∞

D
3. Xn · Yn−1 −−−→ X · c−1 si c 6= 0.
n→∞

Teorema 1.5.3 (Método Delta) Sean X1 , X2 , · · · , Xn , · · · y X variables aleatorias reales


tales que
D
an (Xn − c) −−−→ X,
n→∞

donde {an } es una sucesión creciente al infinito, o sea an % ∞ y c una constante en R, entonces
para toda función ψ diferenciable en c se cumple que
D
an (ψ(Xn ) − ψ(c)) −−−→ ψ 0 (c)X.
n→∞

1.5.2 Ley de los Grandes Números


Veamos entonces uno de los resultados clásicos de teoremas límites
Definición 1.5.2 (Ley de los Grandes Números) Se dice que la sucesión {Xn } de variables
aleatorias satisface la Ley de los Grandes Números si

1. Ley Fuerte de los Grandes Números


n n
1X 1X c.s.
Xk − E(Xi ) −−−→ 0.
n n n→∞
i=k i=1

2. Ley Débil de los Grandes Números


n n
1X 1X P
Xk − E(Xi ) −−−→ 0.
n n n→∞
i=k i=1

En la práctica se utilizan los siguientes teoremas para verificar la ley de los grandes números:

Teorema 1.5.4 (Khinchin) Sea {Xn } una sucesión de variables aleatorias i.i.d. tales que
EXk = µ < +∞ para Ptodo k = 1, 2, · · · . Entonces {Xn } satisface la Ley Fuerte de los Grandes
Números, o sea Sn = nk=1 Xk cumple que

Sn c.s.
X= −−−→ µ.
n n→∞
1.5. Teoremas Límites 51

Teorema 1.5.5 (Chebyshev) Sea {Xn } una sucesión de variables aleatorias independientes
que E(Xk ) = µk < +∞ para todo k = 1, 2, · · · , y V (Xn ) ≤ M para todo n. Sea
tales P
Sn = nk=1 Xk , entonces:
n
Sn 1X P
X= − µk −−−→ 0.
n n n→∞
k=1

O sea, {Xn } satisface la Ley Débil de los Grandes Números.

Pn
Teorema 1.5.6 (Markov) Sea {Xn } una sucesión de variables aleatorias. Sea Sn = k=1 Xk ,
si Sn satisface que
1
V (Sn ) −−−→ 0,
n2 n→∞
entonces:
n
Sn 1X P
X= − µk −−−→ 0.
n n n→∞
k=1

O sea, {Xn } satisface la Ley Débil de los Grandes Números.

Teorema 1.5.7 (Kolmogorov) Sea {Xn } una sucesión de variables Pn aleatorias tales que
2
E(Xk ) = µk < +∞ y V (Xk ) = σk para todo k = 1, 2, · · · . Sea Sn = k=1 Xk , si
+∞ 2
X σ k
< +∞,
k2
k=1

entonces:
n
Sn 1X c.s.
X= − µk −−−→ 0.
n n n→∞
k=1

O sea, {Xn } satisface la Ley Fuerte de los Grandes Números.

Es importante aclarar que estos teoremas solamente ofrecen condiciones necesarias para que
se cumpla la ley de los grandes números, o sea, si en un problema no se satisfacen las condiciones
de uno de estos teoremas, entonces lo que ocurre es que no podemos verificar si se cumple o no
la ley de los grandes números. Al menos con los teoremas presentados aquí.
Veamos un ejemplo sencillo. Supongamos que se desea verificar si la siguiente sucesión de
variables aleatorias satisface la Ley de los Grandes Números. Sean {Xk } independientes para
k ≥ 2 con la siguiente función de probabilidad

√ √
xk − k 1 k
P (Xk = xk ) √1 1− √2 √1
k k k
52 1. Probabilidades. Nociones elementales

Es inmediato que no se puede utilizar el Teorema de Khinchin porque las variables no son
i.i.d.. Calculemos su valor esperado y varianza
√ √
 
1 2 1 2
E(Xk ) = − k · √ + 1 · 1 − √ + k· √ =1− √
k k k k
   2
1 2 1 2
V (Xk ) = k · √ + 1 · 1 − √ +k· √ − 1− √
k k k k
√ 2 4
= 2 k+ √ − .
k k
Es inmediato que no existe M tal que
√ 2 4
V (Xk ) = 2 k + √ − < M, ∀ k = 2, 3, · · · .
k k
Por tanto, no se puede aplicar el Teorema de Chebyshev. Note sin embargo que
n n n 
!
1 X √

1 X 1 X 2 4
V Xk = V (Xk ) = 2 2 k+ √ −
n2 n2 n k k
k=1 k=2 k=2
n 
1 X √

2
≤ 2 k+ √ .
n2 k
k=2

Note que
n n n r
1 X √
r r r
2X k 1 2X 1 1
2 k = ≤ <2
n2 n n n n n n
k=2 k=2 k=2
n n
1 X 2 1 X 2(n − 1) 2
√ ≤ 2= < .
n2 k n2 n 2 n
k=2 k=2

O sea
n
! r
1 X 1 2
V Xk ≤ 2 +
n2 n n
k=1

Por tanto
n
!
1 X
V Xk −−−→ 0.
n2 n→∞
k=1
De esa forma por el Teorema de Markov se cumple que
Pn n
Sn k=1 Xk P 1X
X= = −−−→ µ = 0.
n n n→∞ n
k=1

y por tanto {Xk } satisface la Ley de los Grandes Números.

1.5.3 Teorema Central del Límite


El Teorema Central del Límite es sin lugar a dudas uno de los resultados más trascendentales
e importantes de la teoría de probabilidades, veamos dos de las formulaciones clásicas
1.5. Teoremas Límites 53

Teorema 1.5.8 (Moivre-Laplace) Sea {Xn } una sucesión de variables aleatorias P Bernoulli
i.i.d tales que E(Xk ) = p y V (Xk ) = p(1 − p) para todo k = 1, 2, · · · , n. Sea Sn = nk=1 Xk ,
entonces Pn
k=1 Xk − np D
p −−−→ Z ∼ N (0, 1).
np(1 − p) n→∞

Teorema 1.5.9 (Linderbeg-Lévy) Sea {Xn } una sucesión de variables aleatorias tales que
E(Xk ) = µk < +∞ para todo k = 1, 2, · · · , n y V (Sn ) < +∞ donde Sn = nk=1 Xk , entonces
P

Pn
Xk − nk=1 µk D
P
k=1 p
−−−→ Z ∼ N (0, 1).
V (Sn ) n→∞

Si las variables son i.i.d. tales E(Xk ) = µ < +∞ y V (Xk ) = σ 2 < +∞ para todo k =
1, 2, · · · , n entonces Pn
k=1√Xk − nµ D
−−−→ Z ∼ N (0, 1).
nσ n→∞

Note que el Teorema 1.5.8 es un caso particular del Teorema 1.5.9. ¿En qué radica la impor-
tancia de la formulación de Linderbeg-Lévy? Una de las características más notables es que no
se requiere conocer la forma de la densidad de probabilidad de un conjunto de variables alea-
torias para poder realizar cálculos de probabilidad sobre las mismas. Además nos dice que si n
1 Pn
es suficientemente grande entonces X = n i=1 Xi sigue una distribución normal. Usualmente
el valor de n “suficientemente grande” que se utiliza en la práctica es 30. Para determinar las
probabilidades correspondientes a un problema donde se utilice el Teorema Central del Límite
se emplea la Tabla de los valores tabulados de la normal estándar.
Veamos dos ejemplos donde se aplica estos teoremas.
1. Sea X ∼ B(100, 0,1) y supongamos que se desea hallar P (X ≥ 13). En este caso se conoce
la distribución de X que es una Binomial y por tanto
100 100  
X X 100
P (X ≥ 13) = P (X = k) = (0,1)k (0,9)100−k .
k
k=13 k=13
Note que a pesar de que la probabilidad que deseamos hallar tiene una expresión exacta,
no resulta trivial hallar su valor numérico. Utilizando un software posiblemente se pueda
obtener su valor, no sin el correspondiente costo computacional y numérico asociado a dicha
expresión.
P100 ¿Cómo proceder entonces? Utilicemos el Teorema Central del Límite para X =
k=1 Xk , donde Xk ∼ Bernouilli(0,1). Es inmediato que las Xk satisfacen las condiciones
del Teorema 1.5.8 de Moivre-Laplace, es decir, son i.i.d, EXk = 0,1 y V (Xk ) = 0,09, por
tanto P100
X − 100 · 0,1
√ k
k=1
≈ Z ∼ N (0, 1),
100 · 0,09
entonces
100
!
X
P (X ≥ 25) = P Xk ≥ 13
k=1
P100 !
X − 100 · 0,1 13 − 100 · 0,1
= P √ k
k=1
≥ √
100 · 0,09 100 · 0,09
≈ P (Z ≥ 1) = 1 − P (Z < 1) = 1 − φ(1) = 1 − 0,8413 = 0,1587.
54 1. Probabilidades. Nociones elementales

2. Supongamos ahora que en un programa de P hyton, el número de veces que la clase


RandomT est se utiliza sigue una distribución de Poisson de parámetro λ = 1. ¿Cuál
es la probabilidad de que en 144 corridas del programa la clase RandomT est haya sido
utilizada más de 130 veces? Asuma independencia entre cada corrida del programa.
Si definimos Xk como el número de veces P que la clase RandomT est es llamada en el
programa, entonces nos interesa hallar P ( 144k=1 Xk > 130). Es sencillo percatarse de que
EXk = V (Xk ) = 1 debido a que las Xk siguen una distribución de Poisson. Por el Teorema
Central del Límite se tiene entonces que
P144
k=1√Xk − 144 · 1
≈ Z ∼ N (0, 1),
144 · 1
por tanto
144
! P144 !
k=1√Xk − 144 · 1 130 − 144 · 1
X
P Xk > 130 = P > √
k=1
144 · 1 144 · 1
 
14
≈ P Z> = 1 − P (Z ≤ −1,66)
12
= 1 − φ(−1,66) = 1 − (1 − φ(1,66)) = 0,8770.
1.6. Generación de variables aleatorias 55

1.6 Generación de variables aleatorias


1.6.1 Introducción
Cuando hablamos de experimentos aleatorios o variables aleatorias es muy sencillo determinar
su carácter aleatorio a partir del problema que se analiza. Por ejemplo a todos nos queda claro
que lanzar un dado es un experimento aleatorio, lo mismo si hablamos de obtener una escalera
en un juego de póker. En estos ejemplos y en la gran parte de los experimentos que se producen
en la práctica el carácter aleatorio se manifiesta de forma natural. ¿Qué sucede entonces cuando
se desea hacer un programa que recree el valor que se obtiene al lanzar un dado? ¿De qué forma
la computadora puede generar un valor aleatorio? ¿Si lo hace, es realmente aleatorio?
Comencemos por el final. Una computadora no puede crear un número completamente al
azar. Esto es un hecho si se parte del supuesto que todo programa computacional está formado
por un conjunto de algoritmos y por tanto sea cual sea el programa o algoritmo que se utilice
para crear un supuesto número aleatorio siempre estará determiando por un conjunto de pasos
o métodos, con lo cual se pierde el concepto de incertidumbre propio de la aleatorieadad.
Para resolver el problema de generar números aleatorios por una computadora se desarrollan
los llamados generadores de números pseudoaleatorios o PRNG de sus siglas en inglés (pseudo-
random number generators). O sea, son algoritmos computacionales que permiten crear una
serie de números cuyas propiedades se asemejan a las propiedades de un conjunto de números
aleatorios. Los generadores usualmente dependen de pequeño grupo de valores iniciales llamados
el estado del generador. Uno de los elementos básicos en los generadores es la semilla, o elemento
inicial para obtener la secuencia pseudoaleatoria.
Otro elemento importante de los generadores es el período, el cual se define como el tamaño
de la mayor secuencia o sucesión que se puede obtener a partir de un estado inicial (usualmente
la semilla va a definir el estado inicial). Los generadores siempre reproducen la misma sucesión
a partir de un estado inicial predeterminado. Es evidente entonces la importancia de obtener
generadores con períodos grandes. En algunos casos la repetición de un elemento de la sucesión
no indica que se alcanzó el final del período correspondiente. Por ejemplo supongamos que se
desean generar 25 valores de los números 1, 2 y 3. Si el generador funciona correctamente estos
números se deben repetir pero eso no significa que el generador haya alcanzado su período cuando
se repita el primer valor:

2, 2, 1, 2, 3, 3, 1, 1, 2, 3, 2, 2, 1, 2, 3, 3, 1, 1, 2, 3, 2, 2, 1, 2, 3 .
| {z }| {z }| {z }
Período 10 Período 10 5 números

Los generadores de números pseudoaleatorios son muy importantes para muchos problemas
ya que sirven para recrear situaciones reales a partir de modelos creados en una computadora.
En simulación, por ejemplo, juega un papel preponderante porque permiten modelar situaciones
complejas que dependen justamente de la generación de variables aleatorias: suponga que se
desea simular el número de mensajes que recibe un servidor, en ese caso se generar variables
aleatorias exponenciales para recrear su comportamiento. En algunos juegos de computadora
también resulta vital contar con buenos generadores de números aleatorios, imagine que sucedería
en un juego de estrategia si los rivales siempre utilizan el mismo patrón de ataque, resultaría
aburrido ¿no cree?
En general lo que se quiere usualmente es un generador de números pseudoaleatorios con
distribución uniforme en el intervalo (0, 1), el por qué se discutirá más adelante. En cuanto a los
generadores en sí, varias preguntas pueden surgir ¿Cuántos generadores hay? ¿Cuál es el mejor
para un problema dado? ¿Cuán bueno es un PRNG?
56 1. Probabilidades. Nociones elementales

Para responder a esta última interrogante debemos mencionar que existen algunos aspectos
que afectan la fortaleza o calidad de un generador, como por ejemplo: períodos más cortos que lo
esperado, correlación de valores sucesivos, no uniformidad de los resultados, por solo mencionar
algunos. Estos problemas entre otros, aparecen en algunos generadores; por ese motivo trabajar
con un generador “bueno” es crucial para validar muchos resultados aplicados. Como es de esperar
existen varias clases de generadores y en dentro de cada clase sus variantes. Uno de los más
conocidos es el llamado generador lineal congruente
Definición 1.6.1 (Generador lineal congruente) Se le llama así a un generador de números
pseudoaleatorios (Xn )n≥0 , donde la sucesión se obtiene a partir de la siguiente expresión
recurrente:
Xn+1 = (aXn + b) mód m,
donde X0 es conocido como la semilla (seed en inglés), a se le conoce como multiplicador, b se
toma usualmente como 0 y m es el mayor entero que se puede representar en una computadora.

Durante los años se han propuesto diferentes pares (a, m) para los generadores lineales con-
gruentes cuando b = 0, como por ejemplo: (23, 108 +1) propuesto por Lehmer en 1948, (65539, 229 )
utilizado por IBM en el programa RANDU pero que ofrecía resultados correlacionados cuando se
trabajaba en grandes dimensiones, (69069, 232 ) recomendado por Marsaglia en 1972 o el basado
en el criterio de l‘Ecuyer (742938285, 231 − 1).
Para generar variables pseudoaleatorias uniformes en el intervalo (0, 1) a partir de un gene-
rador lineal congruente, simplemente se divide el valor Xn+1 por su perído; o sea, si queremos
hallar una sucesión (Un )n≥0 con distribución pseudouniforme, entonces se procede como sigue:

Xn+1 = (aXn + b) mód m


Xn+1
Un+1 = .
m
Entre otros generadores podemos mencionar el basado en los cuadrados: se toma un número
X, se eleva al cuadrado y se toman los dígitos centrales del mismo tamaño que X y se repite el
proceso; o el método basado en la serie de Fibonacci qu utiliza operaciones lógicas entre elementos
de la serie. Ahora, sin lugar a dudas, el generador más utilizado en la actualidad es el conocido
por Mersenne Twister, su nombre proviene de su relación con los números primos de Mersenne,
que no son más que los números primos que se pueden escribir como Mp = 2p − 1, donde p es a
su vez un número primo.
El generador Mersenne Twister genera valores en el intervalo (0, 1) y tiene un período de
longitud 219937 − 1 ≈ 4,3 × 106001 . Este generador fue diseñado por Matsumoto and Nishimura
[12] considerando las fallas existentes en los PRNG existentes. Su popularidad proviene de las
propiedades que posee: la longitud de su período, rápidez en la generación, uso eficiente de la
memoria de la computadora y la uniformidad de la distribución por mencionar algunas.
El generador Mersenne Twister está presente en diversos programas como por ejemplo: R,
Python, Ruby, PHP, MATLAB, Microsoft Visual C++, por mencionar algunos de los más co-
nocidos.
1.6. Generación de variables aleatorias 57

1.6.2 Resultados generales


Veamos ahora como utilizar los generadores de números pseudoaleatorios en el intervalo (0, 1)
para obtener números aleatorios de otras variables. El resultado más importante en esa dirección
es el llamado método de la transformada inversa:
Teorema 1.6.1 (Método de la transformada inversa) Sea U una variable aleatoria uni-
forme en el intervalo (0, 1). Sea F la función de distribución de una variable aleatoria continua,
entonces la variable aleatoria
Y = F −1 (U ),
tiene a F como su función de distribución.

Demostración
Digamos que G es la distribución de la variable aleatoria Y , entonces

G(t) = P (Y ≤ t) = P (F −1 (U ) ≤ t).

Como se asume que F es la distribución de una variable aleatoria continua, entonces solamente
existe un valor para el cual F −1 (U ) = t cualquiera sea el valor de t, por tanto el conjunto
{F −1 (U ) ≤ t} es equivalente a {U ≤ (t)}. Si denotamos por HU la distribución de U , entonces
como HU (t) = t se obtiene que

G(t) = P (Y ≤ t) = P (F −1 (U ) ≤ t)
= P (U ≤ F (t)) = HU (F (t))
= F (t).

Y de esa forma se concluye la demostración.

Este sencillo resultado es fundamental para generar variables aleatorias continuas. Por ejem-
plo supongamos que se desea generar un valor de la distribución exponencial de parámetro θ. En
ese caso la distribución es
F (x) = 1 − e−θx ,
por ende
1
F −1 (U ) = − ln(1 − U ),
θ
sigue una distribución exponencial de parámetro θ. Note que la variable 1 − U sigue una dis-
tribución uniforme en (0, 1), por tanto una variable aleatoria exponencial Y de parámetro θ se
puede generar como
1
Y = − ln(U ),
θ
Veamos ahora el siguiente resultado relacionado con la generación de variables aleatorias en
un conjunto determinado.
58 1. Probabilidades. Nociones elementales

Corolario 1.6.2 (Método de la transformada inversa) Sea U una variable aleatoria uni-
forme en el intervalo (0, 1). Sea F la función de distribución de una variable aleatoria continua,
entonces la variable aleatoria
Y = F −1 (U ),
sigue una distribución condicional.

Demostración
Digamos que G es la distribución de la variable aleatoria Y , entonces

G(t) = P (Y ≤ t) = P (F −1 (U ) ≤ t).

Como se asume que F es la distribución de una variable aleatoria continua, entonces solamente
existe un valor para el cual F −1 (U ) = t cualquiera sea el valor de t, por tanto el conjunto
{F −1 (U ) ≤ t} es equivalente a {U ≤ (t)}. Si denotamos por HU la distribución de U , entonces
como HU (t) = t se obtiene que

G(t) = P (Y ≤ t) = P (F −1 (U ) ≤ t)
= P (U ≤ F (t)) = HU (F (t))
= F (t).

Y de esa forma se concluye la demostración.


1.6. Generación de variables aleatorias 59

Otro método utilizado para generar variables aleatorias continuas es el siguiente

Teorema 1.6.3 (Método de aceptación- rechazo) Sean dos variables aleatorias X y Y con
funciones de densidad f y g respectivamente y se desea generar un valor de X a partir de Y .
Sea c un valor tal que
f (y)
≤ c, ∀y ∈ R,
g(y)
entonces el siguiente algoritmo produce un valor de la variable aleatoria X con densidad f :

1. Generar una variable aleatoria U ∼ U (0, 1) y una variable aleatoria Y con densidad g.
f (Y )
2. Si U ≤ cg(Y ) , entonces X = Y , si no, regresar al paso anterior.

Demostración
Sea k el número de iteraciones realizadas para obtener un valor de X, denotemos por Xk
dicho valor, entonces

 
f (Y )
P (Xk ≤ x) = P Y ≤xU ≤ .
cg(Y )
Como las variables Y y U son independientes, entonces
f (y, u) = g(y), u ∈ (0, 1),
por tanto
 
f (Y )
P (Xk ≤ x) = P Y ≤xU ≤
cg(Y )
  f (y)

P Y f (Y )
≤ x, U ≤ cg(Y Zx cg(y)
Z
) 1
=   =   f (y, u)dudy
f (Y ) f (Y )
P U ≤ cg(Y ) P U≤ cg(Y ) −∞ 0
f (y) Rx
Zx cg(y)
Z f (y)dy
1 −∞
=   g(y)dudy =  .
f (Y ) f (Y )
P U≤ cg(Y ) −∞ 0
cP U ≤ cg(Y )

Cuando x → +∞ se deduce que


 
f (Y )
cP U ≤ = 1.
cg(Y )
Por tanto
Zx
P (Xk ≤ x) = f (y)dy = P (X ≤ x).
−∞

Y de esa forma se concluye la demostración.



En el caso de las variables aleatorias discretas se utiliza el siguiente resultado:
60 1. Probabilidades. Nociones elementales

Teorema 1.6.4 Sea X una variable aleatoria discreta que toma valores (xk )k≥1 , tales que
X
P (X = xk ) = pk , pk = 1.
k≥1

Sea U una variable aleatoria uniforme en (0, 1), entonces


k−1
X k
X
pj < U ≤ pj ⇒ X = xk .
j=1 j=1

Demostración
Es inmediata, solo basta comprobar que
 
k−1
X k
X
P (X = xk ) = P  pj < U ≤ pj  = pk .
j=1 j=1


Los métodos discutidos previamente no son los únicos para generar variables aleatorias. Exis-
ten diferentes acercamientos en el asunto. Una de las variantes más utilizadas es a partir de
transformaciones de variables aleatorias. Por ejemplo si Z se tiene a partir de un generador de
variables normales estándar (N (0, 1)) es inmediato que

X = µ + σZ ∼ N (µ, σ 2 ).

O cuando se utiliza la suma de variables aleatorias como en el caso de las variables independientes
Bernoulli y la distribución Binomial, ver Teorema 1.3.10 para otros casos donde se puede utilizar
la suma de variables aleatorias independientes para generar variables aleatorias.
En el caso de la distribución normal veremos un método que se utiliza para generar valores
de dicha distribución:

Transformación de Box-Muller
Sean Z1 y Z2 variables aleatorias independientes
 deuna distribución normal estándar. Sean
2 2 2 Z1
además las variables D = Z1 + Z2 y Θ = arctan Z 2
. A partir del Teorema 1.4.3 de cambio
de variable para n = 2 se puede demostrar que D2 y Θ son independientes y además

D2 ∼ χ2 (2)
Θ ∼ U (0, 2π).

Se recomienda que el estudiante compruebe la afirmación previa. Sean U1 y U2 dos variables alea-
torias independientes con distribución uniforme en (0, 1). A partir del método de la transformada
inversa se obtiene que
p
Zu,1 = −2 ln(U1 ) sin(2πU2 )
p
Zu,2 = −2 ln(U1 ) cos(2πU2 ),

son dos variables aleatorias cuya distribución es normal estándar.


Se recomienda a los estudiantes que vean otros métodos de simulación de variables aleatorias,
en especial los relacionados con la distribución normal (ver Ross [17] para más detalles).
1.6. Generación de variables aleatorias 61

1.6.3 Método de Monte Carlo


Veamos ahora un método basado en la generación de números aleatorios a partir de una
computadora llamado Método de Monte Carlo. El nombre del método proviene justamente del
famoso casino de Monte Carlo situado en el Principado de Mónaco, uno de los exponentes clásicos
de los juegos de azar.
La creación del método en sí se remonta a los trabajos realizados por Stan Ulam y John
Von Neumann a finales de los 40 en el laboratorio de Los Alamos, Estados Unidos, cuando
investigaban el movimiento aleatorio de los neutrones y se desarrollaba el estudio de las armas
nucleares durante la Segunda Guerra Mundial.
En años posteriores el método ha sido aplicado en una extensa variedad de campos y tiene
entre sus ventajas que puede ser utilizado incluso en situaciones determinísticas como la apro-
ximación de integrales múltiples; se utiliza también en problemas relacionados con el análisis de
inversiones o en otras áreas como la informática.
El método de Monte Carlo es una técnica que utiliza conceptos de probabilidades y una
computadora para recrear o simular, mediante modelos matemáticos, el comportamiento alea-
torio de ciertos problemas reales. Uno de los aspectos importantes del método es el modelo
matemático asociado al problema que se desea analizar. Para un problema específico se deben
identificar las variables que determinan el comportamiento global del sistema, acto seguido se
realizan N experimentos aleatorios utilizando la computadora para analizar el comportamiento
del problema en cuestión ante los valores generados. A partir de las N observaciones se puede
obtener información acerca del comportamiento del sistema y así comprender mejor su funcio-
namiento.
Por ejemplo supongamos que se desea hallar de forma aproximada P (0,2 < Z ≤ 0,85),
donde Z sigue una distribución normal estándar. Utilizando la tabla de la normal en los anexos,
podemos hallar un aproximado de su valor, o sea:
Z 0,85
1 x2
P (0,2 < Z ≤ 0,85) = √ e− 2 dx ≈ 0,8023 − 0,5793 = 0,2230.
0,2 2π
El máximo de la función de densidad en el caso de la normal estándar se alcanza en 0 y toma
el valor √12π ≈ 0,3989. Utilicemos el método de Monte Carlo y para ello se generan N puntos
con distribución uniforme en el conjunto [0.2, 0.85]×[0, 0.3989] y se calcula la frecuencia relativa
de los puntos que se encuentran bajo la curva de la densidad de la normal estándar. Si m es el
número de valores que cumplen esa condición, entonces.
m
P (0,2 < Z ≤ 0,85) ≈ .
N
En la siguiente tabla se muestran los resultados alcanzados para diferentes valores de N :
m
N N
102 0.1900
103 0.2120
104 0.2152
105 0.2196
106 0.2216

Los valores que se muestran en la tabla están asociados a una realización del método de
Monte Carlo para cada N . Es importante que el estudiante esté consciente que dichos valores
62 1. Probabilidades. Nociones elementales

varían cada vez que se realice un experimento para un N fijo. El proceso previo se basa en una
aproximación de la probabilidad geométrica, incluso si no hablamos de cálculo de probabilidades
como tal, pero puede ser costoso y no ofrecer buenos resultados.
Veamos la aplicación más importante, en mi opinión, del método de Monte Carlo: la apro-
ximación de valores esperados. Supongamos que se tiene una función h real y se desea hallar
de forma aproximada E(h(X)), donde X es una variable aleatoria continua con densidad de
probabilidad f y se supone además que |E(h(X))| < +∞. O sea nos interesa calcular
Z
E(h(X)) = h(x)f (x)dx.
R

En general la integral anterior se puede aproximar utilizando métodos numéricos como el de


Newton-Cotes, la regla de los trapecios, el método de Simpson o el de Romberg, por mencionar
algunos. Los resultados que se alcanzan utilizando métodos numéricos para este problema son
muy buenos en general. ¿Cómo utilizar Monte Carlo en este caso?

Teorema 1.6.5 (Monte Carlo. Valor Esperado) Sea X1 , X2 , · · · , XN un conjunto de N


P densidad f . Si se asume que E(h(Xi )) = µ < ∞ y
variables aleatorias independientes con
σ 2 = V (h(Xi )) < +∞. Sea µmc = N1 N i=1 h(Xi )

c.s.
µmc −−−−→ µ,
N →∞

y
µmc − µ D
q −−−−→ Z ∼ N (0, 1).
σ2 N →∞
N

Demostración
La primera parte del teorema es una aplicación directa del Teorema de Khinchin y la segunda
parte es inmediata a partir del Teorema de Linderbeg-Lévy.

Note que la segunda parte del teorema se puede escribir de la siguiente forma
√ D
N (µmc − µ) −−−−→ Z ∼ N (0, σ 2 ).
N →∞

1
Es decir, la velocidad de convergencia de µmc a µ es N − 2 . Esta propiedad del método es muy
importante porque nos habla de la calidad de la aproximación a partir del número de variables
aleatorias que se generan. Más adelante discutiremos la velocidad de convergencia cuando estemos
en presencia de problemas de integrales múltiples.
En nuestro caso, para aproximar E(h(X)) se generan N variables aleatorias2 con densidad
f : x1 , x2 , · · · , xN y por tanto
Z N
1 X
E(h(X)) = h(x)f (x)dx ≈ µ
bmc = h(xi ).
R N
i=1

2
Es importante recordar que el valor de N debe ser suficientemente grande para que se puedan aplicar
los teoremas límites.
1.6. Generación de variables aleatorias 63

Este sencillo resultado nos ofrece una vía alternativa para la aproximación de valores espe-
rados. No obstante, el método de Monte Carlo descrito depende de generar variables aleatorias
con densidad f . Es evidente que esto pudiera resultar un problema extra si se desconoce como
generar estas variables aleatorias o resulta muy costoso desde el punto de vista computacional.
En ese sentido se puede realizar algunas modificaciones que permitan aplicar el método utilizan-
do solamente variables aleatorias con distribución uniforme en el intervalo (0, 1). La idea se basa
en llevar la integral de interés al intervalo (0, 1) utilizando cambios de variable. Veamos como
funcionaría en general para las siguientes integrales:
Rb
1. Sea una integral del tipo: a m(x)dx. Si se realiza el cambio

x = a + (b − a)t, dx = (b − a)dt,

entonces Z b Z 1
m(x)dx = (b − a) m(a + (b − a)t)dt.
a 0
Rb
2. Sea una integral del tipo: −∞ m(x)dx. Si se realiza el cambio

dt
x = b + ln(t), dx = ,
t
entonces Z b Z 1
m(b + ln(t))
m(x)dx = dt.
−∞ 0 t
R∞
3. Sea una integral del tipo: a m(x)dx, con a > 0. Si se realiza el cambio
dt
x = a − ln(1 − t), dx = ,
1−t
entonces
∞ 1
m(a − ln(1 − t))
Z Z
m(x)dx = dt.
a 0 1−t
R +∞
4. Sea una integral del tipo: −∞ m(x)dx. Si se realiza el cambio

dt
x = ln(t) − ln(1 − t), dx = ,
t − t2
entonces
+∞ 1
m(ln(t) − ln(1 − t))
Z Z
m(x)dx = dt.
−∞ 0 t − t2

O sea, las 4 integrales tipo se pueden llevar a una integral definida en el intervalo (0, 1).
Ahora si U es una variable uniforme definida en (0, 1) es inmediato que para cualquier función
n definida en el intervalo se cumple que
Z 1
E(n(U )) = n(t)dt.
0

Supongamos que se desea hallar


Z b
E(h(X)) = h(x)f (x)dx.
a
64 1. Probabilidades. Nociones elementales

Si se generan N variables uniformes: (u1 , u2 , · · · , un ) entonces


Z b Z 1
E(h(X)) = h(x)f (x)dx = (b − a) h(a + (b − a)t)f (a + (b − a)t)dt
a 0
N
b−aX
bumc =
≈ µ h(a + (b − a)ui )f (a + (b − a)ui ).
N
i=1

Se deja como ejercicio la obtención de expresiones similares para las restantes integrales tipo.
Considero importante anotar que el método de Monte Carlo se puede utilizar también para
el cálculo de probabilidades. Sea X una variable aleatoria continua con densidad f , entonces
Z Z
P (X ∈ B) = f (x)dx = 1B (x)f (x)dx = E(1B (X)).
B R

El método de Monte Carlo se utiliza con el mismo espíritu en el caso multidimensional. Suponga
que se tienen d variables aleatorias independientes X1 , X2 , · · · , Xd . Sea h una función definida
en Rd con valores en R. Sean N realizaciones del vector X = (X1 , X2 , · · · , Xd ). Escribamos

Yi = h(X1i , X2i , · · · , Xdi ), i = 1, 2, · · · , N.

Entonces
Y1 + Y2 + · · · + YN c.s.
−−−−→ E(h(X)),
N N →∞

siempre y cuando E(h(X)) < ∞. La convergencia en distribución se obtiene de la misma forma


que en el caso unidimensional, asumiendo una vez que la varianza sea finita.
Note que en este caso para obtener un valor de Yi se necesitan d generaciones de variables
1
aleatorias X1 , X2 , · · · , Xd . A pesar de que la velocidad de convergencia se mantiene igual a N − 2
sin importar la dimensión, el costo computacional se incrementa debido al número de variables
aleatorias que se deben generar. No obstante Monte Carlo resulta una potente herramienta en
un ámbito multidimensional.
1.7. Cadenas de Markov y Procesos de Poisson 65

1.7 Cadenas de Markov y Procesos de Poisson


1.7.1 Introducción a procesos estocásticos
66 1. Probabilidades. Nociones elementales
67

Capítulo 2

Estadística básica. Aplicaciones

Estadísticamente es más difícil capturar a un pez bayesiano que a otro frecuentista, incluso
si se utiliza un algoritmo estocástico.
68 2. Estadística básica. Aplicaciones

2.1 Estadística descriptiva


2.1.1 Introducción
La concepción usual de un individuo acerca del término“estadística” descansa sobre el supues-
to de que es una herramienta que se utiliza para trabajar con datos, sacar promedios y realizar
sumas. A pesar de que estos elementos están incluidos en el quehacer de la estadística, su formu-
lación es mucho más abarcadora. En sus inicios la estadística estaba ligada a la recolección de
datos cuantitativos y cualitativos relacionados con la humanidad tales como encuestas, estudios
demográficos. A partir del siglo XVI comienza su desarrollo como ciencia en sí.
Hoy en día la estadística es un poderosa herramienta para el desarrollo científico. Podemos
definirla como una rama de la matemática que se basa en un conjunto de técnicas para obtener
cierta cantidad de información acerca de aspectos específicos de un problema o situación determi-
nada. A lo largo de los años la estadística se ha nutrido de una amplia gama de operaciones, por
llamarlas de alguna forma, como son el diseño de experimentos, la reducción de la información,
toma de decisiones, estimaciones, modelación, entre otras. O sea, la “estadística matemática” va
mucho más allá de sumar y contar.
En el curso vamos a tocar solamente algunos aspectos de la estadística. Para comenzar
veremos lo que se considera como el análisis preliminar de todo procesamiento estadístico.
Como su nombre lo indica la estadística descriptiva tiene como principal objetivo describir.
Se puede decir que es el primer paso en un estudio estadístico y se puede interpretar como un
conjunto de procedimientos que permiten describir el comportamiento de una variable o datos
estadísticos. La estadística descriptica es la rama que se ocupa de: la recolección, organización,
tabulación, presentación y reducción de la información a partir de tablas o gráficos, lo que le
permite al investigador crearse una idea general de los datos con los cuales va a trabajar.
Antes de continuar debemos hacer algunas consideraciones importantes. En el marco de la
estadística es evidente que se trabaja con datos aleatorios, pero más importante aún es que se
trabaja con valores observados de variables aleatorias. Es decir, en probabilidades nos concen-
tramos en trabajar con situaciones teóricas, distribuciones de probabilidad asociadas a variables
aleatorias. No obstante en estadística se trabaja con muestras de dichas variables aleatorias.
En general digamos que se tiene una población determinada, conocida o no. En muchos casos
el tamaño de la población en sí es muy grande: el número de personas que mayores de 20 años
en una ciudad capital; otras poblaciones no están concentradas en un solo lugar: estudiantes
que pasan de grado en un país. Es evidente que se pueden definir muchos tipos de poblaciones
sobre las cuales se desea conocer algo en específico, ¿cómo proceder entonces para obtener esa
información? Usualmente se trabaja con muestras de la población bajo análisis y es a partir de
estas muestras que se infieren resultados acerca de la población, lo cual es uno de los objetivos
fundamentales de la estadística. En lo adelante asumiremos que se tiene una muestra indepen-
diente X = (X1 , X2 , · · · , Xn ) con valores x = (x1 , x2 , · · · , xn ). Las Xi siguen una distribución
F conocida o no y pueden ser definidas como variables o vectores aleatorios según corresponda.
Por el momento trabajaremos con variables definidas en R.
Uno de las primeras acciones que se realizan frente a una muestra X = (X1 , X2 , · · · , Xn )
es justamente su clasificación. Ya hemos visto una previamente, nos referimos a las variables
continuas o discretas. No obstante una muestra se puede clasificar de la siguiente forma

Definición 2.1.1 (Escalas de medición) Sea X una variable aleatoria, diremos que X es:

1. Cualitativa nominal: si dicha variable está asociada a fenómenos cualitativos y sola-


mente permite identificar atributos o rasgos de individuos para clasificar.
2.1. Estadística descriptiva 69

2. Cualitativa ordinal: si es una variable de escala nominal que tiene ímplicita una
relación de orden.

3. Cuantitativa de intervalo: si es una variable asociada a datos cuantitativos que


permite operaciones aritméticas entre sus valores y el valor 0 no indica la ausencia de
la característica o atributo bajo análisis. O sea, es una variable con escala ordinal y una
distancia definida entre sus valores.

4. Cuantitativa de razón: si es una variable con escala de intervalo, pero con un cero
absoluto, es decir, el valor 0 indica la ausencia total de la característica.
Veamos algunos ejemplos de cada caso:
1. Nominal: color de los ojos, sexo, tipo de pelo, sabores de helados.
2. Ordinal: grados militares, notas en la universidad, categorías docentes.
3. Intervalo: temperatura en grados Celsius, notas en base a 100, test de inteligencia.
4. Razón: temperatura en grados Kelvin, distancia recorrida, peso.
Es importante notar que en el caso de la escala de intervalo no tiene sentido analizar el
cociente entre dos valores. O sea, si en un examen un estudiante saca una nota de 80 y
otro estudiante saca una nota de 40, no significa que el primero es dos veces mejor el que
el segundo, simplemente se dice que el primer estudiante tiene una nota que supera en 40
a la del segundo estudiante. No obstante en la escala de razón si tiene sentido analizar el
cociente entre valores, o sea una persona de 90kg pesa tres veces más que otra de 30Kg.
En cuanto a los datos en sí, una cuestión que surge es la siguiente: ¿cómo organizarlos?
Cuando se tiene una muestra de pocos valores es muy sencillo observar los patrones
inherentes al experiemento, pero ¿qué sucede cuando se tiene una gran cantidad de datos?
Una de las variantes usuales es organizar los datos a partir de una tabla de frecuencia.
Sea una variable aleatoria discreta que toma un conjunto de k valores: {d1 , d2 , · · · , dk }.
Si se toma una muestra de n valores {x1 , x2 , · · · , xn } del conjunto {d1 , d2 , · · · , dk } entonces
los datos se pueden organizar de la siguiente forma:

Tabla de Frecuencias
Frecuencia Frecuencia absoluta Frecuencia Frecuencia relativa
Clases
absoluta acumulada relativa acumulada
di ni Ni fi Fi
n1
d1 n1 N1 = n1 f1 = n
F1 = f1
n2
d2 n2 N2 = n1 + n2 f2 = n
F2 = f1 + f2
n3
d3 n3 N3 = n1 + n2 + n3 f2 = n
F2 = f1 + f2 + f3
.. .. .. .. ..
. . . . .
k k
P nk P
dk nk Nk = ni = n fk = n
Fk = fi = 1
i=1 i=1

En el caso continuo se procede de forma similar, pero evidententemente no podemos


crear clases para cada valor de la variable, por tanto se crean intervalos y estos se consi-
deran como clases. Supongamos que se tienen n valores de una variable de tipo continuo
70 2. Estadística básica. Aplicaciones

y supongamos que sedesean establecer k clases para dichos datos. Sea x(1) el mínimo de
los valores observados y x(n) el máximo, escribamos R = x(n) − x(1) . Es evidente que R
nos ofrece el rango de valores en los cuales se mueven los datos continuos que se analizan.
Si denotamos por h = Rk , entonces podemos crear k intervalos de la misma longitud h.
Sea la sucesión de valores L0 , L1 , · · · , Lk tales que L0 = x(1) , Lk = x(n) y Li = Li−1 + i · h,
entonces se obtiene la siguiente tabla de frecuencias

Tabla de Frecuencias
Clases Marca Frecuencia Frecuencia absoluta Frecuencia Frecuencia relativa

(Intervalos) de clase absoluta acumulada relativa acumulada

Ii mi ni Ni fi Fi
L1 +L0 n1
[L0 , L1 ) m1 = 2
n1 N1 = n1 f1 = n
F1 = f1
L2 +L1 n2
[L1 , L2 ) m2 = 2
n2 N2 = n1 + n2 f2 = n
F2 = f1 + f2
.. .. .. .. .. ..
. . . . . .
k k
Lk +Lk−1 P nk P
[Lk−1 , Lk ] mk = 2
nk Nk = ni = n fk = n
Fk = fi = 1
i=1 i=1

Note que la tabla anterior es muy similar a la tabla del caso discreto. En la tabla
aparece un nuevo elemento: marca de clase, que se utiliza para identificar el intervalo y
funciona como la clase del caso discreto, en cuanto a identificación de clase, no representa
ningún valor de los datos, incluso cuando coincida con algún xi . Un hecho que ocurre en las
tablas de frecuencia de datos continuos es la pérdida de información. Si solamente se tiene
una tabla de frecuencia, pero no los datos originales, es evidente que para un intervalo
determinado no podremos identificar exactamente cuáles son los valores que pertenecen
a dicho intervalo, únicamente podremos decir la cantidad de elementos que contiene. En
el caso continuo, aunque usualmente los intervalos tienen la misma amplitud, en algunos
casos, atendiendo a su naturaleza se crean intervalos de diferente amplitud.
Note además que tanto en el caso discreto como continuo, la frecuencia relativa se
puede asociar a conceptos de probabilidad de variables aleatorias: función de densidad
en el caso continuo y función de probabilidad en el caso discreto. De la misma forma, la
frecuencia relativa acumulada se puede interpretar como la función de distribución.
Veamos un ejemplo. Suponga que se crea un algoritmo estocástico1 para descifrar
contraseñas. El algoritmo funciona de la siguiente forma: toma una contraseña y la clasifica
en cuanto a su fortaleza (fuerte, media, débil) y además ofrece el tiempo que consumió el
proceso para descifrarla. Supongamos que se analizaron 150 contraseñas y se obtuvieron
los valores correspondientes a fortaleza y tiempo en las variables (Ci )1≤i≤150 y (Ti )1≤i≤150
respectivamente. Para analizar el comportamiento de la fortaleza se tienen solamente 3
clases. En el caso del tiempo se deben crear intervalos, pero cuántos. Tiene sentido que
1
El término estocástico se refiere al concepto de aleatoriedad, o sea, que para un mismo estado inicial,
el resultado final no siempre es el mismo.
2.1. Estadística descriptiva 71

se creen 3 si se asume que el algoritmo debe ser consecuente con el tipo de contraseña
que analiza. Si se sabe que el tiempo mínimo en minutos fue de 5 y el máximo de 200,
entonces se obtienen las siguientes tablas de frecuencia.

Tabla de Frecuencias (Fortaleza)


Frecuencia Frecuencia absoluta Frecuencia Frecuencia relativa
Clases
absoluta acumulada relativa acumulada

ci ni Ni fi Fi
70 70
c1 = 1 (Débil) 70 70 f1 = 150
F1 = 150
50 120
c2 = 2 (Media) 50 120 f2 = 150
F2 = 150
30
c3 = 3 (Fuerte) 30 150 f3 = 150
F3 = 1

Tabla de Frecuencias (Tiempo)


Clases Marca Frecuencia Frecuencia absoluta Frecuencia Frecuencia relativa

(Intervalos) de clase absoluta acumulada relativa acumulada

Ii ti ni Ni fi Fi
55 55
[5, 70) t1 = 37,5 55 55 f1 = 150
F1 = 150
67 122
[70, 135) t2 = 102,5 67 122 f2 = 150
F2 = 150
28
[135, 200] t3 = 167,5 28 150 f3 = 150
F3 = 1

2.1.2 Medidas descriptivas


Hasta el momento hemos discutido las clasificaciones de las variables o datos en cuanto
a su escala de medición y la forma en que se puede recolectar la información subyacente
a partir de las tablas de frecuencia.
Además de la clasificación se definen ciertas medidas que ayudan a comprender la
naturaleza de los datos y son las llamadas medidas descriptivas. Solamente discuiremos
brevemente dos grandes grupos: medidas de tendencia central, las medidas de dispersión
y de posición.

Medidas de tendencia central


Como su nombre lo indica son valores que nos hablan del comportamiento central de
las variables. Veamos las 3 medidas más usuales

1. Media o promedio (en inglés mean):


72 2. Estadística básica. Aplicaciones

Es la más utilizada en cualquier investigación estadística y se define justamente


como la suma de los valores de todas las observaciones divididas por el número total
de datos.
Si los datos no están agrupados, entonces
n
1X
x= xi ,
n i=1

si los datos están agrupados en k clases, entonces


k
1X
x= ni mi ,
n i=1

donde mi es la marca de clase (en el caso discreto es evidente que mi = di ) y ni es


la frecuencia absoluta de la clase.
Entre sus propiedades más importantes se encuentran:

• Tiene sentido en las escalas cuantitativas. En las escalas de tipo cualitativas se


debe prestar atención a su interpretación.
• Un conjunto de valores solamente posee una sola media.
• Resulta muy útil para comparar dos o más poblaciones.

Como desventaja fundamental se debe mencionar que la media se afecta por valores
extremos y, por ende se debe tener cuidado con su valor porque puede conducir a
interpretaciones erróneas.
2.1. Estadística descriptiva 73

2. Mediana (en inglés median):


La mediana no es más que el valor central de los datos ordenados, o sea, es el valor
que divide a la muestra ordenada en dos conjuntos con la misma cantidad de elemen-
tos. Para una muestra (x1 , x2 , · · · , xn ), sea la muestra ordenada (x(1) , x(2) , · · · , x(n) ),
entonces la mediana se define como

 x n = 2m + 1
m+1
xmed = .
 xm +xm+1 n = 2m
2

Si los datos están agrupados la mediana se obtiene, de forma aproximada, a partir


de la siguiente expresión:
n
− Nimed −1

2
xmed ≈ Limed + himed ,
nimed

donde imed es el índice de la clase que contiene a la posición n2 , Limed es el límite


inferior de dicha clase, Nimed −1 es la frecuencia absoluta acumulada de la clase an-
terior, nimed es la frecuencia absoluta de la clase y himed es la amplitud de la clase.
En el caso discreto note que Limed = dimed y himed = 0.
Su propiedad más importante es que la mediana es robusta, o sea, no se ve afectada
por los valores extremos de los datos.

3. Moda (en inglés mode):


Su nombre prácticamente lo dice todo, es el valor o valores que más se repiten en
los datos. Usualmente un conjunto de valores puede tener una moda (unimodal),
dos modas (bimodal), o varias (multimodal). En algunos casos incluso no existe el
valor de la moda, piense, por ejemplo, en datos que sean de tipo uniforme continuo
en un intervalo determinado.
Sin embargo cuando se trabaja con datos agrupados de tipo continuo, a pesar de
algunos autores reportan fórmulas para determinar la moda basados en el intervalo
de mayor frecuencia, no es recomendable su uso.

¿Cómo interpretar estos valores como un todo? Existe una relación que resulta muy
útil para comprender la naturaleza de datos unimodales a partir del análisis conjunto de
estos tres valores y se puede resumir de la siguiente forma:

1. Si x = xmed = xmod , entonces se dice que la distribución de los datos es simétrica.

2. Si x > xmed > xmod , entonces se dice que la distribución de los datos es asimétrica a
la derecha, o sea, la mayor parte de los datos se ubican a la izquierda de la media.

3. Si x < xmed < xmod , entonces se dice que la distribución de los datos es asimétrica a
la izquierda, o sea, la mayor parte de los datos se ubican a la derecha de la media.
74 2. Estadística básica. Aplicaciones

Medidas de posición
Las medidas de posición están relacionadas con la distribución de la variable aleatoria.

1. Percentil:
Desde el punto de vista de probabilidades se tiene la siguiente definición

Definición 2.1.2 (Percentil) Sea X una variable aleatoria, diremos que Xα es el


percentil de nivel α asociado a X, con α ∈ (0, 1) si cumple que:

P (X ≤ Xα ) = α.

Los percentiles se llaman también puntos críticos de la distribución.


Sea la muestra ordenada (x(1) , x(2) , · · · , x(n) ), el percentil utilizando los datos se
obtiene de la siguiente forma

 x αn no es entero
([αn+1])
xα = x +x
.
 (αn) (αn+1) αn es entero
2

o sea xα es tal que


x(1) + · · · + xα
≤ α.
n
Si los datos están agrupados se utiliza la siguiente fórmula
 
αn − Niα −1
xα ≈ Liα + hiα ,
niα

donde iα es el índice de la clase que satisface que


α −1
iX iα
X
fi ≤ α, fi > α.
i=1 i=1

2. Cuartil:
Son tres valores que dividen a la muestra en 4 grupos con la misma cantidad de
elementos. Es un caso particular de percentil, usualmente se denotan por Q1 , Q2 y
Q3 :
Q1 = x0,25 ,
Q2 = x0,50 ,
Q3 = x0,75 .

Note que
xmed = Q2 = x0,50 .
2.1. Estadística descriptiva 75

Medidas de dispersión
Las medidas de dispersión son aquellas que nos permiten analizar la variabilidad de
los datos que se analizan.
1. Varianza muestral:
Este concepto está relacionado con el de varianza que se definió previamente para
variables aleatorias y justamente es la medida más utiliza para analizar la varia-
bilidad de los datos alrededor de la media, para una muestra su valor se define
como n
2 1X
sn = (xi − x)2 ,
n i=1
también se utiliza la expresión
n
2 1 X
s = (xi − x)2 .
n − 1 i=1

La diferencia entre estas expresiones es ligera si n es grande, más adelante veremos


la diferencia teórica entre ambas.
Cuando los datos están agrupados se utiliza la siguiente expresión
k
1X
s2n = ni (mi − x)2 ,
n i=1
o
k
1 X
s2n = ni (mi − x)2 .
n − 1 i=1
La varianza tiene entre sus desventajas que depende de la escala en la cual están
definidas las variables que se analizan. En ese sentido utilizar solamente la varianza
muestral como medida de variabilidad puede conducir a interpretaciones incorrectas
en cuanto a la dispersión de los datos. Piense por ejemplo en una varianza muestral
de 1000 para datos que miden la distancia en kilómetros de la Tierra a 200 cuerpos
celestes fuera del sistema solar, o una varianza de 0.01 cuando los datos miden la
distancia en milímetros entre un conjunto de átomos. En ambos casos la varianza no
ofrece una idea de la variabilidad real de los datos. Se recomienda siempre analizar
su valor asociado a la media correspondiente para obtener una información más
precisa.
2. Desviación estándar muestral:
Es otra medida de variabilidad estrechamente relacionada con la varianza muestral.
De hecho se define como la raíz de la varianza:
p
sn = s2n ,
o √
s= s2 .
76 2. Estadística básica. Aplicaciones

En cuanto a información, es inmediato que la interpretación es la misma que cuando


se utiliza la varianza muestral.

3. Coeficiente de variación:
Esta es una muy útil medida de variación que tiene como principal ventaja que no
se afecta por los valores de escala de medición de las variables y se define como
s
CV = × 100.
x
El coeficiente de variación se utiliza fundamentalmente para comparar la variabilidad
entre dos o más poblaciones.

4. Rango:
Es una medida que solamente utiliza dos valores y se define como

R = x(n) − x(1) .

O sea, es el rango donde se mueven las variables bajo análisis. Es una medida que
se afecta por los valores extremos y no disminuye cuando n aumenta, es decir, o se
queda invariante o aumenta.
En ese mismo sentido se define el rango intercuartil que mide la variabilidad de la
mitad central de los datos:

RQ = Q3 − Q1 = x0,75 − x0,25 .

Esta medida se ve menos afectada por valores extremos y se utiliza en muchas


ocasiones para acompañar a la mediana de la misma forma que lo hace la varianza
con la media.
Además del rango de un muestra y el rango intercuartil también se define el rango
de los valores de una muestra. El rango de una observación en un conjunto de datos
se obtiene al ordenar la muestra y asignarle su posición como valor de su rango. Sea
un muestra x1 , x2 , · · · , xn formada por valores diferentes y sea x(1) , x(2) , · · · , x(n) la
muestra ordenada. El rango Ri de la observación xi se define como el número de
orden de la observación en la muestra ordenada. Es decir, si xi se transforma en
x(io ) , entonces
Ri = io .
Cuando la muestra tiene valores iguales se le asigna el valor del rango promedio de
los rangos que les hubieran correspondido si fuesen diferentes.

Se exhorta a los estudiantes que calculen todas las medidas posibles en los ejemplos
descritos antes.

2.1.3 Representaciones gráficas


Existen muchos tipos de gráficos para representar la información subyacente en los
datos que se analizan, en el curso solamente veremos algunos de ellos.
2.1. Estadística descriptiva 77

Histogramas
Es uno de los gráficos más utilizados en la estadística y popularmente se les conoce
como gráficos de barras, pero en el curso le llamaremos histogramas.
Los histogramas son una forma de representar los valores de la frecuencia absoluta
de una tabla de frecuencias en forma de gráfica. A veces se utiliza la frecuencia relativa,
pero a los efectos visuales el comportamiento es exactamente el mismo. El histograma
simplemente gráfica los valores de la frecuencia absoluta para cada marca de clase. En los
ejemplos anteriores los histogramas correspondientes serían:

fi fi

80 80

60 60

40 40

20 20

ci mi
c1 c2 c3 m1 m2 m3
Fortaleza Tiempo

Los histogramas tienen una desventaja cuando se analizan datos continuos. Su forma
puede cambiar de forma abrupta si los intervalos varían. Por ejemplo supongamos que se
crean ahora 5 intervalos en vez de 3 con una amplitud de 39. En ese caso el histograma
para los datos del tiempo queda de la siguiente forma
fi

80

60

40

20

mi
m1 m2 m3 m4 m5

Tiempo
78 2. Estadística básica. Aplicaciones

Polígonos de frecuencia
Los polígonos de frecuencia son representaciones de la frecuencia relativa y relativa
acumulada en forma de puntos conectados por líneas rectas. Por ejemplo para el caso del
tiempo con 5 clases o intervalos tendríamos los siguientes polígonos de frecuencia:

fi Fi

0.48 1

0.36 0.75

0.24 0.5

0.12 0.25

mi mi
m1 m2 m3 m4 m5 m1 m2 m3 m4 m5
2.1. Estadística descriptiva 79

Cajas y Bigotes
El nombre proviene de la frase en inglés box and whiskers y es un tipo de gráfico que
se utiliza para variables de tipo continuo e integra varias de las medidas descriptivas que
hemos presentado aquí. Para crear la gráfica de cajas y bigotes se puede trabajar con las
medidas de una tabla de frecuencia, pero se recomienda utilizar siempre que se pueda, los
datos originales.

210
xU(n) = x0,75 + 1,5(Q3 − Q1 )
180
x0,75 = Q3
150

120 x0,5 = xmed

90 x

60 x0,25 = Q1

30
xL(1) = x0,25 − 1,5(Q3 − Q1 )

Tiempo
80 2. Estadística básica. Aplicaciones

2.2 Nociones elementales de estimación


2.2.1 Introducción
El concepto de estimación en sí resulta intuitivo, no obstante ¿qué entendemos por es-
timación? Sin entrar en detalles, una estimación se puede interpretar como una valoración
o aproximación de una magnitud o situación determinada. En el ámbito matemático esta
idea se especifíca como un conjunto de herramientas que permiten determinar parámetros
o distribuciones de una población a partir de una muestra de dicha población. En ese
sentido la estimación es un valor determinado. Asociado con el concepto de estimación
está el de estimador, que no es más que la herramienta que permite obtener la estimación.
Realizando un paralelismo con el concepto de función se puede decir que un estimador es
a una función lo que una estimación es al valor de dicha función.
La estimación en estadística entra en el campo de la inferencia estadística. En particu-
lar, en estadística, la inferencia se asocia con el hecho de “inferir”, a partir de la observación
parcial de un fenómeno, el verdadero valor de un aspecto o característica cuantitativa de
este fenómeno.
Antes de entrar en algunos detalles formales del concepto de estimación y estimador
debemos mencionar que existen diferentes modelos y enfoques en estadística, entre los
más importantes se pueden citar:

z Enfoque frecuentista: Es el enfoque más utilizado en la práctica y basa su análisis


en la repetición y solamente utiliza la información de la muestra para inferir resul-
tados. O sea, es un enfoque donde no existen subjetividades referentes al modelo
que se define a priori por el especialista, el cual permanece estático durante todo el
estudio.

z Enfoque bayesiano: Es un enfoque alternativo al frecuentista y está basado en el


teorema de Bayes. El rasgo que lo define y a su vez lo separa del enfoque frecuen-
tista es la incorporación de información externa al estudio que se esté realizando,
de manera que si conocemos la probabilidad de que ocurra un suceso, su valor será
modificado cuando dispongamos de esa información. Así pues, las fuentes de infor-
mación “a priori” se ven trasformadas en probabilidad “a posteriori” y se utilizan a
continuación para realizar la inferencia.

• Modelo paramétrico: Se supone que la muestra proviene de una familia de distribu-


ciones que depende de un parámetro o un conjunto de ellos. Ejemplos clásicos de
este modelo son las distribuciones como la Normal, Gamma, Binomial, entre otras.

• Modelo no paramétrico: La distribución de probabilidad de la muestra no se especí-


fica por parámetros. Una situación donde se utiliza este modelo es cuando se trabaja
con las familias de distribuciones de funciones continuas.

En cada uno de estos modelos las técnicas de estimación son diferentes. Durante el
curso veremos nociones básicas relacionadas con los enfoques estadísticos mencionados.
2.2. Nociones elementales de estimación 81

2.2.2 Estimación puntual. Modelo paramétrico


El modelo paramétrico como su nombre lo indica se refiere a los casos donde la muestra
proviene de una población que se rige por una función de distribución de probabilidad
indexada por un parámetro o un conjunto de ellos. En otras palabras, se asume que la
muestra que se observa tiene una ley de distribución de probabilidad que depende, diga-
mos, de un parámetro desconocido sobre el cual se desea hacer el proceso de estimación.
Por ejemplo una muestra X = (X1 , X2 , · · · , Xn ) tal que las Xi ∼ N (µ, σ 2 ), donde µ
y σ 2 son desconocidos o si las Xi ∼ Exp(λ), con λ desconocido. Es de sentido común
que en un problema de estimación paramétrica la muestra se rige por una distribución de
probabilidad con al menos un parámetro desconocido. En caso contrario carece de sentido
plantearse un problema de estimación.
Se define el modelo estadístico paramétrico como una terna (Ω, Pθ , Pθ ) tal que

Pθ = {Pθ (x) : x ∈ Ω, θ ∈ Θ} .

En lo adelante escribiremos X = (X1 , X2 , · · · , Xn ) para denotar una muestra aleatoria


que se asume i.i.d., a no ser que se específique otra cosa; por x = (x1 , x2 , · · · , xn ) se
entenderá el valor que toma dicha muestra. La definición de estimador se puede plantear
de la siguiente forma:
Definición 2.2.1 (Estimador) Sea (Ω, Pθ , Pθ ) un modelo estadístico. Diremos que T es
un estimador de τ (θ) ∈ Θ si es una función medible de las observaciones y cumple que:

T : Ω ⊂ Rn → Θ ⊂ Rk , k∈N
x T (x).

La definición previa resulta muy útil para eliminar teóricamente posibles estimadores,
pero resulta de muy poco ayuda para elgir un buen estimador. Por ejemplo si se desea
estimar la varianza de una muestra X = (X1 , X2 , · · · , Xn ) con valores x = (x1 , x2 , · · · , xn )
y se utiliza para ello el siguiente estimador
n
1X 2
T− (X) = − X .
n i=1 i

Es inmediato que T− solamente depende de la muestra, sin embargo es evidente que no


puede ser un estimador de la varianza porque sus valores son negativos para cualquier
valor de la muestra y sabemos que la varianza es siempre positiva. Por otro lado, se puede
definir para el mismo problema el siguiente estimador para la varianza

Tc (X) = 1.

El estimador constante cumple con los requerimientos de la definición, no obstante su


carácter constante no le confiere ninguna utilidad práctica para estimar el valor de la
varianza. Es en ese sentido que la definición previa de estimador no es adecuada para
fines prácticos.
Se impone entonces encontrar una forma de hallar estimadores “buenos” en algún
sentido.
82 2. Estadística básica. Aplicaciones

Método de máxima verosimilitud


Este acercamiento es uno de los más importantes y utilizados en la inferencia estadís-
tica y está intrínsecamente relacionado con la función de verosimilitud.
Definición 2.2.2 Sea un evento aleatorio E generado por una de las distribuciones de
probabilidad Pθ ∈ Pθ . Llamaremos función de verosimilitud o verosimilitud inducida
por el evento E en la familia de distribuciones Pθ y la denotaremos por L(θ; E) a toda
magnitud proporcional a Pθ (E), i.e.:

L(θ; E) = c(E)Pθ (E),

donde c(E) es una cantidad constante con respecto al parámetro θ.

El concepto de verosimilitud parte del hecho de que, una vez asumida una familia de
distribuciones de probabilidad como la clase de distribuciones de probabilidad que rige el
comportamiento de un fenómeno observado, la relación entre el fenómeno observado y las
diferentes distribuciones de probabilidad en la familia está dada en la probabilidad de ocu-
rrencia que le asignan al fenómeno observado las diferentes distribuciones de probabilidad
incluidas en la familia considerada.
Bajo el enfoque frecuentista y con un modelo paramétrico la definición previa se escribe
de la siguiente forma
Definición 2.2.3 (Verosimilitud) Sea X = (X1 , · · · , Xn ) una muestra con distribución
Pθ ∈ Pθ . Entonces llamaremos función de verosimilitud o verosimilitud L(θ, x) asociada
a la muestra aleatoria X con valores x = (x1 , · · · , xn ) a:

L(θ; x) = c(x)Pθ (X = x), (2.1)

donde c(x) es una cantidad constante con respecto al parámetro θ.

En el caso paramétrico, el análisis de estas cantidades de probabilidad asociadas a


cada realización del fenómeno pueden servir para discernir que valor del parámetro es el
“mejor”. En otras palabras, cuál de todas las distribuciones en la familia es la “verdadera”.
Se coloca en primer lugar el parámetro que es lo que varía y en segundo lugar el elemen-
to que se fija. En el caso de la función de probabilidad el primer argumento de la función
es lo que varía, es decir, la variable aleatoria y el segundo argumento, el parámetro del
modelo, se asume como fijo. Cuando se evalúa la función de probabilidad en x, se obtiene
la probabilidad de que la variable tome el valor x bajo el supuesto de que la distribución
de probabilidad está fijada por un valor del parámetro, digamos θ0 . Sin embargo, cuando
se evalúa la función de verosimilitud en θ0 se obtiene nuevamente la probabilidad de que
la variable aleatoria tome el valor fijo x con la distribución que es indizada por θ0 . En
otras palabras la función de verosimilitud explica cuán verosímil o plausible es el evento
{X = x} bajo las diferentes distribuciones que componen el modelo.
En el caso de variables aleatorias discretas i.i.d. con función de probabilidad P la
verosimilitud en (2.1) se puede escribir como
n
Y
L(θ; x) = c(x)Pθ (X = x) = c(x) P (Xi = xi ).
i=1
2.2. Nociones elementales de estimación 83

¿Qué sucede entonces cuando estamos en presencia de variables continuas? Es evidente


que Pθ (X = x) = 0 y por tanto la verosimilitud sería nula en todo momento sin importar
la muestra. Sin embargo, con un pequeño artificio, la función de verosimilitud se ha
establecido análogamente al caso discreto. Es sencillo comprobar que

{X = x} ⇐⇒ {x1 − ε1 < X1 < x1 + ε1 , · · · , xn − εn < Xn < xn + εn },

para todo εi > 0. En ese caso se puede escribir que

Pθ (X = x) = Pθ (x − ε < X ≤ x + ε),

donde ε = (ε1 , · · · , εn ). Utilizando la independencia entre las observaciones de la muestra


y asumiendo que existe la función de densidad f (x; θ) entonces
x−ε
Z i −εi
n xZ
Y
Pθ (X = x) = Pθ (x − ε < X ≤ x + ε) = f (y; θ)dy = f (y; θ)dy
x+ε i=1x +ε
i i
 
 Usando el teorema del valor medio 
= 2ε1 f (ξ1 ; θ) · · · 2εn f (ξn ; θ)
 ξ ∈ (x − ε ; x + ε ) ∀i 
i i i i i
n
Y n
Y
= 2εi f (ξi ; θ)
i=1 i=1

Cuando los εi toman valores bien pequeños se puede asumir que f es prácticamente
constante en (xi − εi ; xi + εi ) y entonces ξi coincide con xi y se obtiene una especie
de verosimilitud aproximada que coincide con la expresión de (2.1). En consecuencia, la
función de verosimilitud es “proporcional” a la función de densidad.
n
Y
L(θ; x) = c(x)Pθ (X = x) = c(x)f (x; θ) = c(x) f (xi ; θ), (2.2)
i=1

Conocido el concepto de verosimilitud, no es difícil deducir que este método consiste en


maximizar la verosimilitud y a partir de aquí determinar la estimación máximo verosímil.
En primer lugar hay que establecer con todo el rigor posible en qué consiste la estimación
máximo verosímil.
Definición 2.2.4 (Estimador máximo verosímil) Para un modelo de probabilidad
indizado por el parámetro θ y caracterizado por la función de probabilidad o de den-
sidad f (x; θ), la estimación máximo verosímil de θ es aquel valor θbemv de θ, tal que
L(θbemv ; x) ≥ L(θ; x) para todo θ ∈ Θ, donde x un valor en el espacio muestral Ω. En
otras palabras el estimador máximo verosímil es el valor del parámetro θ que maximiza
la verosimilitud, i.e.:
θbemv = arg máx L(θ; x) (2.3)
θ∈Θ

La idea general que sigue el método de máxima verosimilitud es la de hallar el valor


del parámetro θ, que para una población determinada, maximiza la ocurrencia del evento
observado y reflejado en la muestra. El método por lo general que se utiliza se basa en las
84 2. Estadística básica. Aplicaciones

técnicas del análisis matemático, o sea, hallar los ceros de la derivada de la función con
respecto al parámetro de interés θ y de ahí escoger de los valores críticos que se obtengan
(en caso de que sea más de uno).
En muchas ocasiones resulta muy conveniente para facilitar la determinación de la
estimación máximo verosímil, considerar el logaritmo natural de la función de verosimi-
litud, ya que por ser la función logaritmo continua y estrictamente creciente el punto de
máximo, en caso de existir, es el mismo para ambas. Aplicar el logaritmo en muchos de
los casos facilita enormemente el monto de cálculos a realizar.
Definición 2.2.5 (log-verosimilitud) Para un modelo de probabilidad (Ω, Pθ , Pθ ) indi-
zado por el parámetro θ con una verosimilitd asociada L(θ; x) a partir de una muestra
x = (x1 , x2 , · · · , xn ) se define la log-verosilitud como el logaritmo de la verosimilitud

l(θ; x) = ln L(θ; x).

Varias aclaraciones son oportunas:


X La estimación máximo verosímil es el valor del parámetro con el cual se logra el
supremo (máximo en la mayoría de los casos) de la función de verosimilitud.

X Hay que cerciorarse que la estimación máximo verosímil sea exactamente un punto
de máximo global. En caso de ser necesario un gráfico de la función a maximizar
suele ser de mucha ayuda.
La aplicación del método de la máxima verosimilitud se puede resumir en los siguientes
momentos o pasos:

1. Determinar la función de verosimilitud de acuerdo al modelo y los datos de los cuales


se disponga.

2. Hallar el logaritmo de la función de verosimilitud. Por lo general, teniendo en cuenta


la forma de la función de densidad de cada variable o del vector, es mucho mas
cómodo trabajar con la llamada “log-verosimilitud”.

3. Hallar el punto de máximo de l(θ; x). Para este propósito funciona de manera muy
general hallar la primera derivada de l(θ; x) respecto a θ e igualarla a cero. La
solución de esta ecuación (denominada ecuación de verosimilitud ) es la candidata a
ser la estimación máximo verosímil. Por lo tanto, hay que verificar que se obtiene
un máximo global. En el caso de que existan varias soluciones de la ecuación de
verosimilitud con más razón hay que discriminar cuál de ellas es la que maximiza a
l(θ; x).

En resumen podemos decir que hallar el estimador máximo verosímil de una distribu-
ción paramétrica se reduce en una gran parte de los casos a resolver el sistema (o ecuación)
siguiente con respecto a θ:
∂l(θ; x) ∂ ln L(θ; x)
= =0
∂θ ∂θ
En los casos en los cuales el “método clásico” no puede ser empleado, la forma de hallar
el estimador máximo verosímil en cada caso es ad hoc.
2.2. Nociones elementales de estimación 85

Sea un modelo Poisson y una muestra x = (x1 , x2 , · · · , xn ). La función de verosimilitud


está dada por
n
P
xi
−nλ
L(λ; x) = e λi=1 .
La log-verosimilitud se obtiene sin dificultad:
n
X
l(λ; x) = −nλ + xi ln λ.
i=1

La ecuación de verosimilitud queda de la siguiente forma


n
P
xi
∂l(λ; x) i=1
= −n + =0 (2.4)
∂λ λ
Por ser el modelo probabilístico el de Poisson, las variables pueden tomar el valor
cero. En caso de que esto ocurriera para todas las observaciones, su suma sería cero y la
ecuación de verosimilitud no tendrá solución respecto a λ. Luego la solución de la ecuación
anterior estará condicionada a que la suma de las observaciones sea diferente de cero. Por
tanto un simple despeje de λ en (2.4) conduce a que
n
P
xi
i=1
λ
b= = x.
n
En la expresión anterior se define x como el valor de la media muestral. O sea, x es el
candidato como estimación máximo verosímil. Hay que comprobar que se ha alcanzado
un punto de máximo global. Como la ecuación de verosimilitud tiene una sola solución,
de alcanzarse el máximo este será único y por tanto será global. La comprobación de que
es la media muestral un punto de máximo y por ende la estimación máximo verosímil de
λ se deja propuesto al lector.
Veamos otro ejemplo. Supongamos que tenemos una muestra aleatoria X = (X1 , · · · , Xn )
con observaciones x = (x1 , · · · , xn ), que provienen de un modelo uniforme U ((0, θ]), en-
tonces se tiene que
Y Y
f (x; θ) = 1(xi >0) 1(xi ≤θ) θ−n
L(θ; x) = c(x)f (x; c)
Y
L(θ; x) = 1(xi ≤θ) θ−n = 1(x(n) ≤θ) θ−n ,

y por tanto
l(θ; x) = −n ln θ.
Se puede constatar que este caso el método usual no puede ser utilizado, porque la
ecuación de verosimilitud no tiene solución respecto a θ cuando se deriva. En consecuencia
por esta vía no es posible determinar el máximo de la función logaritmo de la verosimilitud.
Sin embargo, este tipo de modelo admite una estimación máximo verosímil de θ, pero su
86 2. Estadística básica. Aplicaciones

determinación hay que obtenerla desde la función de verosimilitud. No es difícil ver que La
función de verosimilitud en cuestión es decreciente respecto a θ, por lo tanto ella alcanzará
un valor máximo para un valor mínimo “permisible” de θ. Si se tomase como valor de θ un
valor más pequeño que alguno de los valores de las xi ’s la función de verosimilitud sería
cero y con ello no se alcanzaría un valor máximo. Sin embargo, si se toma el valor de θ
como el máximo de las xi ’s , entonces la función de verosimilitud sería diferente de cero y
ese sería su valor máximo. Por tanto, la estimación máximo verosímil de θ está dada por
el máximo de las observaciones.
θb = x(n) = máx xi .
Esto demuestra que no siempre es posible usar la técnica de derivar la función logaritmo de
la verosimilitud. Existen modelos indizados por más de un parámetro, como por ejemplo,
el modelo Normal con media µ y varianza σ 2 , el modelo Gamma con parámetros α y β y un
modelo Multinomial, por solo mencionar unos pocos. La estimación máximo verosímil se
define de manera
 similar, solamente que ahora hay que determinar el vector de parámetros
θ,
b tal que L θ; b x ≥ L (θ; x) para todo θ ∈ Θ. Obviamente en la determinación del valor
máximo se puede utilizar la técnica de derivación, lo que en esta ocasión habrá que derivar
tantas veces como parámetros se deseen estimar y en cada ocasión respecto a cada uno
de ellos. De este proceso resultará entonces un sistema de ecuaciones de verosimilitud de
tantas incógnitas como ecuaciones. La comprobación de que se ha obtenido un punto de
máximo se realiza mediante el cálculo de la matriz de las segundas derivadas evaluadas
en el punto de extremo; si esta matriz resulta ser definida negativa, para lo cual bastará
que los menores principales de ella tengan signos alternos comenzando por el signo menos,
entonces el extremo alcanzado es un máximo.
En el siguiente ejemplo se considera un modelo Normal. La decisión de tomar este
modelo para ilustrar la estimación máximo verosímil para el caso de más de un parámetro
responde al hecho de la gran importancia que este modelo tiene en muchas aplicaciones
de la estadística.
Sea una muestra aleatoria de tamaño n de la variable aleatoria X con modelo proba-
bilístico Normal de parámetros (µ, σ 2 ). La función de verosimilitud esta dada por
" n
#
− n 1 X
L µ, σ 2 ; x = σ 2 2 exp − 2 (xi − µ)2 .
 
2σ i=1
De esta última expresión se obtiene la función logaritmo de la verosimilitud, la cual es
n
n 1 X
l µ, σ 2 , x = − ln σ 2 − 2 (xi − µ)2 .

2 2σ i=1
El sistema de ecuaciones de verosimilitud se obtiene entonces derivando la función
anterior respecto a µ y a σ 2 .
n
∂l (µ, σ 2 , x) 1 X
= (xi − µ) = 0.
∂µ σ 2 i=1
n
∂l (µ, σ 2 , x) n 1 X
2
= − 2+ 2 2
(xi − µ)2 = 0.
∂σ 2σ (2σ ) i=1
2.2. Nociones elementales de estimación 87

De la primera ecuación del sistema anterior se obtiene

µ
b = x,

y de la segunda, al sustituirse µ por x y despejarse σ 2


n
1X
σ2
b = (xi − x)2 .
n i=1

Hay que comprobar que (b b2 ) es un punto de máximo. Para ello se determinan las
µ, σ
segundas derivadas respecto a µ y σ 2 , y se sustituyen los valores de µ y σ 2 por µ b2 en
byσ
la matriz resultante de donde se obtiene que
 
− σ̂n2 0
 .
n
0 − 2(σ̂2 )2

Para que el punto (b b2 ) sea un punto de máximo debe ocurrir que esta última ma-
µ, σ
triz sea definida negativa, para lo cual basta con que el término a11 sea negativo y el
determinante de la matriz positivo. Precisamente eso es lo que ocurre y se puede afirmar
que el par (b b2 ) es la estimación máximo verosímil de (µ, σ 2 ). La comprobación de los
µ, σ
elementos de la matriz se deja propuesta al lector.
Veamos el siguiente resultado que resulta muy útil para hallar estimadores máximo
verosímiles:
Teorema 2.2.1 (Invarianza del estimador máximo verosímil) Sea (Ω, Pθ , Pθ ) un
modelo estadístico. Sea θbemv el estimador máximo verosímil del parámetro θ y sea τ
una función definida sobre el espacio paramétrico Θ, o sea τ : Θ → Θ, entonces τ (θbemv )
es el estimador máximo verosímil de τ (θ).

Método de los momentos


Veamos primero algunas definiciones necesarias para definir el método.
Definición 2.2.6 (Momentos teóricos) Sea X una variable aleatoria definida en un
modelo (Ω, P, P ). Sea r un número natural, entonces se define el momento de orden r
de X como
µr = EX r ,
y el momento centrado de orden r como

µcr = E(X − µr )r .

Es inmediato que µ1 = EX y µc2 = V (X). Como es de esperar, si el modelo está indizado


por un parámetro, los momentos dependerán de ese parámetro.
A partir de una muestra se definen de forma similar los momentos muestrales, o sea:
88 2. Estadística básica. Aplicaciones

Definición 2.2.7 (Momentos muestrales) Sea X = (X1 , · · · , Xn ) una muestra de


variables aleatorias para un modelo de probabilidad. Sea r un número natural, entonces
se define el momento muestral de orden r como el promedio o media aritmética de las
observaciones o datos elevados a la potencia r
n
1X r
µ
br = x,
n i=1 i

y el momento muestral centrado de orden r como


n
1X
bcr
µ = br )r .
(xi − µ
n i=1

El método de los momentos es un procedimiento muy sencillo y se puede enunciar de la


siguiente forma
Definición 2.2.8 (Método de los momentos) Sea (Ω, Pθ , Pθ ) un modelo estadístico
y sea θ = (θ1 , · · · , θk ) ∈ Θ ⊂ Rk . Supongamos que se tiene una muestra que sigue una
distribución de la familia considerada. Sea x = (x1 , · · · , xn ) una realización de X. El
método de los momentos consiste en igualar los primeros k momentos teóricos a sus
respectivas versiones muestrales, o sea

µi = µ
bi , i = 1, 2, · · · , k.

Siempre y cuando el sistema tiene una solución única θb = (θb1 , · · · , θbk ) y pertenezca al
espacio paramétrico, se dice que θb es el estimador de θ por el método de los momentos.
En general el método se puede resumir en los siguientes pasos

1. Determinar los momentos de la variable aleatoria comenzando por el orden uno


hasta el orden k.

2. Determinar la misma cantidad de momentos muestrales.

3. Igualar los momentos muestrales con los teóricos.

4. Despejar los parámetros de interés en función de momentos muestrales.

Veamos ahora como funciona este procedimiento. Supongamos una vez más que se
tiene una muestra del modelo de Poisson. El primer momento teórico de una variable
con distribución de Poisson es λ. Ya con este momento teórico tenemos el parámetro que
se desea estimar. El momento muestral correspondiente, es decir de orden uno, es preci-
samente la media aritmética o promedio, llamada también media muestral. Al igualarse
ambos momentos se tiene que
n
1X
λ= Xi = X.
n i=1
El cuarto paso es inmediato, es decir, despejar λ en función del momento muestral. En
consecuencia, el estimador que produce el método de los momentos es la media muestral,
2.2. Nociones elementales de estimación 89

es decir, el estimador λ b = X, donde λ b representa el estimador y cuando se evalúa en la


muestra producirá la estimación.
Si el modelo es el Normal y se asume la varianza conocida, puede comprobarse que el
estimador que produce el método de los momentos es la media muestral. Este cálculo se
deja al lector para que lo realice.
De los ejemplos comentados anteriormente parecería lógico concluir que el método
de los momentos produce siempre como estimador del parámetro a la media muestral.
Realmente esto no es siempre así. Lo que ha sucedido en los ejemplos analizados es que
el parámetro es precisamente el valor esperado de la variable aleatoria. Para ver un caso
diferente, considérese el modelo Uniforme en (0, θ).
Supóngase como siempre que se posee una muestra aleatoria de tamaño n de y que
queremos estimar θ. En este caso el parámetro no es la esperanza matemática de las
variables, que es 2θ . Al aplicarse el método de los momentos resulta la ecuación X = 2θ ,
con lo cual al despejarse el parámetro en función del momento muestral de orden uno,
resulta que el estimador de θ es el doble de la media muestral.
Por otro lado, no siempre es necesario calcular un solo momento aún cuando el modelo
esté indizado por un solo parámetro. Hay situaciones donde se necesita calcular más de
uno. Por ejemplo, si se considera un modelo Normal con media µ conocida y lo que se
desea estimar es precisamente la varianza σ 2 , al aplicarse el método de los momentos,
el primer momento resulta ser µ, el cual es conocido y por tanto, nada nos aporta a
nuestro propósito de estimar la varianza. El cálculo del segundo momento produce el
2 2
resultado
1
Pµn 2 = σ2 + µ . Por otra parte, el momento muestral de orden dos es2 obviamente
b2 = n i=1 Xi . De aquí que al igualarse ambos momentos y despejarse σ en función
µ
del momento muestral resulta que el estimador de la varianza es
n
1X 2
b2 =
σ X − µ2 .
n i=1 i

En esta misma situación otro estimador puede obtenerse si se consideran los momentos
muestrales respecto a la media. Puede comprobarse que tanto el momento central de orden
uno muestral y teórico resultan en este caso ser cero, por lo que nuevamente el primer
momento no aporta información para obtener el estimador; no obstante,

n
1X
bc2 =
µ (Xi − µ)2
n i=1
µc2 = σ 2 .

De lo cual resulta que al igualar los momentos centrales muestral y teórico, se obtiene
de manera inmediata que el estimador de la varianza es
n
1X
σ2
b = (Xi − µ)2 .
n i=1

Con este ejemplo se ha visto que para un mismo problema puede existir más de un
estimador.
90 2. Estadística básica. Aplicaciones

Supongamos ahora que estamos en un caso donde tanto µ como σ 2 son desconocidos.
Los estimadores de µ y σ 2 por el método de los momentos consistiría en igualar los
momentos muestrales de orden uno y dos con los correspondientes momentos teóricos. De
esto resulta que

b1 = X = µ.
µ
n
1X 2
µ
b2 = X = σ 2 + µ2 .
n i=1 i

De la primera ecuación se obtiene el estimador de µ, el cual es precisamente la media


muestral. Despejando de la segunda ecuación σ 2 se obtiene que
n
1X 2
σ2 = Xi − µ2 ,
n i=1

pero como µ ya se sabe que se estima mediante X, el estimador de σ 2 es


n
2 1X 2
σ
b = Xi − X .
n i=1

Propiedades generales de los estimadores


Hemos visto dos formas diferentes que permiten hallar estimadores bajo el enfoque
frecuentista en modelos paramétricos. Sin embargo, una pregunta sigue aún sin respuesta:
¿cómo se mide la calidad de un estimador? O dicho de otra forma, ¿cómo saber cuán bueno
es un estimador? En ese sentido veremos algunas propiedades deseables de un estimador
que nos van a ayudar a identificarlos según su calidad:

1. Consistencia:
La consistencia de un estimador es una propiedad asintótica del mismo y está rela-
cionada con la capacidad que tiene un estimador de se acerque al verdadero valor
que está estimando con probabilidad 1 cuando el tamaño de la muestra crece. For-
malmente se tiene la siguiente definición:

Definición 2.2.9 (Consistencia) Supongamos que se tiene una sucesión de esti-


madores {Tbn }, tales que los Tbn dependen de una muestra X = (X1 , · · · , Xn ) de
una densidad f (x; θ). Se dice que el estimador es consistente, o consistente en
P
sentido débil, para una cierta magnitud τ (θ) si y solo si θbn −−−→ θ, i.e.:
n→∞

lı́m Pθ [Tbn → τ (θ)] = 1.


n→∞

c.s.
Si se cumple que Tbn −−−→ τ (θ) se dice que es consistente en sentido fuerte.
n→∞

Es fácil percatarse que el concepto de consistencia está estrechamente relacionado


con la Ley de los Grandes Números.
2.2. Nociones elementales de estimación 91

2. Normalidad asintótica
La noción de normalidad asintótica de un estimador está relacionada con el Teorema
Central del Límite. La definición es la siguiente

Definición 2.2.10 (Normalidad Asintótica) Sea {Tbn } una sucesión de estima-


dores tales que Tbn depende de la muestra X = (X1 , · · · , Xn ) para el parámetro
θ ∈ Θ ⊂ R en un modelo (Ω, Pθ , Pθ ). Se dice que Tbn es un estimador asintótica-
mente normal si se cumple que
D
Tbn − τ (θ) [Vn (θ)]−1/2 −−−→ N (0, 1),

n→∞

donde Vn (θ) es la varianza de Tbn .

Esta definición se extiende sin dificultad para el caso multiparamétrico, pero no es


interés del curso su discusión.
3. Insesgadez
El concepto de insesgadez no es más que la capacidad del estimador de que su valor
esperado coincida con la magnitud a estimar, o sea:

Definición 2.2.11 (Estimador Insesgado) Sea (Ω, Pθ , Pθ ) un modelo estadístico


y X = (X1 , · · · , Xn ) una muestra, sea Tbn = Tbn (X) un estimador de τ (θ), diremos
que Tbn es insesgado para τ (θ) si

Eθ (Tbn (X)) = τ (θ).

4. Eficiencia
El concepto de eficiencia está relacionado con la variablidad de un estimador. ¿Qué
entenderemos por variabilidad? Una posible respuesta sería la varianza del estima-
dor. La definición formal es la siguiente

Definición 2.2.12 (Error Cuadrático Medio (ECM )) Sea (Ω, Pθ , Pθ ) un mo-


delo estadístico y X = (X1 , · · · , Xn ) una muestra, sea Tbn un estimador de τ (θ),
entonces se define el error cuadrático medio del estimador como

ECMτ (θ) (Tbn ) = Eθ (Tbn (X) − τ (θ))2 .

Note que la definición del Error Cuadrático Medio es muy similar al concepto de
varianza. De hecho si se conoce que Eθ (Tbn (X)) = τ (θ), entonces

V (Tbn (X)) = ECMτ (θ) (Tbn ).


En general se cumple que
ECMτ (θ) (Tbn ) = V (Tbn (X)) + b2τ (θ) ,
92 2. Estadística básica. Aplicaciones

donde bτ (θ) se conoce como el sesgo del estimador.

Definición 2.2.13 (Sesgo) Sea X = (X1 , · · · , Xn ) una muestra definida sobre


el modelo estadístico (Ω, Pθ , Pθ ) y sea Tbn un estimador de τ (θ). El sesgo del
estimador se define como

bτ (θ) = Eθ (Tbn (X)) − τ (θ).

Note que un estimador insesgado se puede definir como aquel con sesgo cero.
Es evidente que un buen estimador es aquel con el menor ECMτ (θ) (Tbn ). El con-
cepto en sí de eficiencia está ligado a la capacidad del estimador de alcanzar cierta
cota para su varianza o Error Cuadrático Medio. Más adelante volveremos a tocar
este tema. Veamos algunos resultados preliminares antes de discutir el concepto de
eficiencia.

Teorema 2.2.2 (Desigualdad de Cramér-Rao) Sea (Ω, Pθ , Pθ ) un modelo es-


tadístico uniparamétrico que satisface las condiciones de regularidad clásicas. Su-
pongamos que se tiene una X = (X1 , · · · , Xn ) asociada al modelo. Sea Tbn un
estimador de τ (θ) tal que Eθ [Tbn (X)] = Ψ(θ), donde Ψ es derivable con respecto a
θ.

a) Para el caso general se tiene que:



2
∂θ
Ψ(θ)
ECMτ (θ) (Tbn ) ≥ .
I(θ)

b) Si el estimador es insesgado para θ, entonces


1
V (Tbn (X)) ≥ .
I(θ)

La magnitud I(θ) se conoce como la información de Fisher.

En el teorema anterior se mencionan las condiciones de regularidad. Su definición


es la siguiente

Definición 2.2.14 (Condiciones de Regularidad) Sea X = (X1 , · · · , Xn ) una


muestra definida en el espacio de probabilidad (Ω, Pθ , Pθ ), tal que Xi tiende
densidad de probabilidad f (x; θ), con θ ∈ Θ ⊂ Rk . Se dice que el modelo Pθ
satisface las condiciones de regularidad si para todo x ∈ Ω y θ ∈ Θ se cumple
que

1. El espacio paramétrico Θ contiene un abierto de Rk y el verdadero valor del


parámetro θ0 es un punto interior de un abierto Θ0 ⊂ Θ.
2. El parámetro θ es identificable, i.e.: para todo θ 6= θ? se cumple f (x; θ) 6=
2.2. Nociones elementales de estimación 93

f (x; θ? ).
3. La familia tiene soporte común, o sea el conjunto A = {x ∈ Ω : f (x; θ) > 0}
no depende de θ y f es diferenciable en A con respecto a θ.
4. Se puede derivar bajo el signo de la integral
Z  Z
∂ ∂f (x; θ)
f (x; θ)dx = dx,
∂θ S S ∂θ

donde S ⊂ Ω.
5. La función f (x; θ) es tres veces diferenciable
R con respecto a θ, la tercera
derivada es un función continua y S f (x; θ)dx puede ser derivada tres veces
bajo el signo de la integral.
6. Para cualquier θ? ∈ Θ existe M y c, que pueden depender o no de θ? tal que

∂ 3 ln f (x; θ)
≤ M (x), ∀x ∈ Ω, θ ∈ (θ? − c, θ? + c),
∂θ3

con Eθ (M (X)) < +∞.

Para definir la Información de Fisher debemos presentar el concepto de Score:

Definición 2.2.15 (Score) Sea X = (X1 , · · · , Xn ) una muestra definida en el es-


pacio de probabilidad (Ω, Pθ , Pθ ), tal que Xi ∼ f (x; θ). Entonces si se supone que
el conjunto A = {x ∈ Ω : f (x; θ) > 0} no depende de θ y que f es diferenciable
en A con respecto a θ, entonces llamaremos función de Score U (θ; x) a la derivada
con respecto a θ ∈ Θ ⊂ R de la log-verosimilitud, o sea:

∂ ln f (x; θ)
U (θ; x) = ∈ R.
∂θ
Además se cumple que
Eθ [U (θ; X)] = 0,
y
n n
X X ∂ ln f (xi ; θ)
U (θ; x) = U (θ; xi ) = .
i=1 i=1
∂θ

Las distribuciones clásicas como la normal, exponencial, Gamma, entre otras satisfa-
cen las condiciones de regularidad. Otras dsitribuciones conocidas como la uniforme
en [0, θ], sin embargo, no cumple la tercera condición de regularidad.

El concepto de información de Fisher no es más que una cantidad que mide la


información que una muestra tiene acerca del parámetro, formalmente se define en
el caso uniparamétrico de la siguiente forma
94 2. Estadística básica. Aplicaciones

Definición 2.2.16 (Información de Fisher) Sea X = (X1 , · · · , Xn ) una muestra


con distribución Pθ ∈ Pθ , tal que Xi ∼ f (x; θ), donde θ ∈ Θ ⊂ R. Se llama
Información de Fisher de X a la función definida como la varianza del Score y la
denotaremos por I(θ), o sea:
" 2 #
∂ ln f (X; θ)
I(θ) = V (U (θ; X)) = Eθ (U 2 (θ; X)) = Eθ .
∂θ

Cuando Θ ⊂ Rk la medida de Información de Fisher es evidentemente una matriz


y se le llama matriz de Información de Fisher.

Un resultado que es posible demostrar es el siguiente:

Teorema 2.2.3 Si un modelo Pθ , con θ ∈ Θ ⊂ R satisface las condiciones de


regularidad entonces se cumple que

∂ 2 ln f (x; θ)
 
I(θ) = −Eθ .
∂θ2

Nótese además que la información asociada a la muestra aleatoria, resulta la suma


de las informaciones de las variables que la componen en el caso de que estemos
trabajando con variables independientes, es decir
n
X
I(θ) = Ii (θ).
i=1

En cuanto a la eficiencia de un estimador se tiene la siguiente definición

Definición 2.2.17 (Estimador eficiente) Sea {Tbn } una sucesión de estimadores


tales que Tbn depende de la muestra X = (X1 , · · · , Xn ) para el parámetro θ ∈
Θ ⊂ R en un modelo (Ω, Pθ , Pθ ). Se dice que Tbn es un estimador eficiente para θ
si
D
Tbn − θ [In (θ)]−1/2 −−−→ N (0, 1),

n→∞

donde In (θ) es la información de Fisher de Tbn .

Además del concepto de eficiencia de un estimador se tiene también la siguiente


definición para comparar dos estimadores.

Definición 2.2.18 (Eficiencia relativa) Sean dos estimadores T y S de τ (θ),


donde θ ∈ Θ ⊂ R es el parámetro que rige al modelo (Ω, Pθ , Pθ ). La eficiencia
relativa entre los dos estimadores se define como
ECMτ (θ) (T )
ERτ (θ) (T, S) = .
ECMτ (θ) (S)
2.2. Nociones elementales de estimación 95

Si ambos estimadores son insesgados se tiene que

V (T )
ERτ (θ) (T, S) = .
V (S)

Se puede decir entonces que cuando se habla de eficiencia nos referimos entonces a
estimadores que tienen la menor varianza posible cuando aumenta el tamaño de la
muestra.

El estimador máximo verosímil bajo ciertas condiciones es consistente, eficiente y asin-


tóticamente normal; en muchos casos también es insesgado pero no siempre es así, un
ejemplo de esto es el estimador máximo verosímil de (µ, σ 2 ) en una distribución Normal.
Es evidente entonces que el estimador máximo verosímil tiene muy buenas propiedades y
por tal motivo se prefiere su uso.

2.2.3 Intervalos de confianza


Hemos discutido hasta ahora formas de estimar puntualmente el valor de un parámetro
o un conjunto de ellos. No obstante en muchas ocasiones se necesita algo más que esa
información puntual. Por ejemplo, supongamos que el tiempo de vida de un cierto equipo
eléctronico sigue una distribución exponencial de parámetro λ. El tiempo de vida medio es
justamente el valor esperado de la distribución, o sea λ1 . Supongamos que se desea estimar
ese tiempo de vida promedio a partir de una muestra. Después de tomada la muestra se
obtiene una estimación, digamos λ b = 2,5. Esta información nos ayuda a conocer el tiempo
de vida medio de los equipos. No obstante si además se puede asegurar que el tiempo de
vida medio se encuentra entre 1 y 3 con una probabilidad de 0,95, entonces es evidente
que con esta última información se obtiene un mayor conocimiento del problema en sí.
Lo que acabamos de describir se conoce como estimación por intervalos y en el caso
de un solo parámetro la estimación por intervalo se puede entender como una medida de
precisión o fiabilidad a la estimación puntual que se puede obtener para el parámetro.
Como vamos a trabajar con θ ∈ Θ ⊂ R, de ahora en adelante, se hablará de intervalos
de confianza, en el caso multiparamétrico se habla de regiones de confianza. Veamos la
definición formal
Definición 2.2.19 (Intervalo de Confianza ) Sea X = (X1 , · · · , Xn ) una muestra
aleatoria cuya distribución depende de un parámetro θ desconocido. Diremos que una
estimación por intervalo para una función g(θ) del parámetro escalar θ, es cualquier par
de funciones L(X) y U (X) que satisfacen que L(x) ≤ U (x) para todo punto muestral
x ∈ Ω del espacio muestral, entonces IC1−α = [L(x); U (x)] es un intervalo de confianza
para g(θ) con confianza 1 − α si la probabilidad de cubrimiento o la probabilidad de
que el intervalo aleatorio cubra al verdadero valor del estimando satisface que

P L(X) ≤ g(θ) ≤ U (X) = 1 − α.

Usualmente 1 − α se conoce como nivel de confianza del intervalo.


96 2. Estadística básica. Aplicaciones

En algunas situaciones donde las variables bajo análisis son discretas, puede que no sea
posible hallar un intervalo de confianza IC1−α cuya probabilidad de cubrimiento sea exac-
tamente 1 − α. Por ese motivo a veces se utiliza

P L(X) ≤ g(θ) ≤ U (X) ≥ 1 − α.

Es importante notar que tanto en la expresión anterior como en la expresión dada en


la Definición 2.2.19 la interpretación correcta es que la probabilidad de que el intervalo
aleatorio IC1−α contenga a g(θ), es al menos 1 − α. Note además que cuando se tiene una
muestra dada x = (x1 , · · · , xn ), entonces IC1−α = [L(x); U (x)] es fijo y carece de sentido
hablar de probabilidad de cubrir o no a g(θ), ya que el valor en cuestión pertenecerá o no
a ese intervalo fijo con probabilidad 1 ó 0.
Es por ese motivo que se utiliza el término confianza, ya que de esta forma reforzamos
el concepto de que un intervalo obtenido a partir de una muestra concreta debe cubrir la
magnitud bajo análisis un 100(1 − α) % de las veces que se tomen muestras de la misma
distribución.
Métodos para hallar intervalos de confianza
Existen varios métodos para hallar intervalos de confianza. Por su importancia nos
centraremos en el método que se basa en las funciones pivotes. Dicho método es posible-
mente, uno de los más utilizados en la práctica por su versatilidad y fácil aplicación. Su
origen se remonta a los trabajos de Fisher (1930).
Definición 2.2.20 (Pivotes) Sea X = (X1 , · · · , Xn ) una muestra aleatoria cuya distri-
bución depende de un parámetro θ desconocido no necesariamente en R. Sea Qp una
función de X y θ. Se dice que Qp es un pivote o cantidad pivotal si su distribución FQp
es independiente del parámetro, o sea, el modelo es el mismo para todo θ.
Según la definición de pivote es evidente que no existe el concepto de unicidad del
mismo. O sea, para un mismo problema se pueden definir diferentes pivotes. En ese sentido
nos debemos apoyar en algún criterio que nos permita escoger una de estas cantidades
pivotales. Para determinar efectivamente un intervalo de confianza para la magnitud de
interés θ a partir del pivote se requiere que Qp (X, θ) sea una función monótona en θ para
X fijo, es decir necesitamos poder hallar su inversa. El procedimiento es muy simple y
se puede describir de la siguiente forma para el caso en que la Qp sea creciente, el caso
contrario se deduce de la misma forma:

P (a ≤ Qp (X, θ) ≤ b) = P Q−1 −1

p (a, θ) ≤ θ ≤ Qp (b, θ) = FQp (b) − FQp (a).

Si además se calcula o se se conoce que FQp (b) − FQp (a) = 1 − α, entonces

IC1−α = [Tα (x), T α (x)] = [Q−1 −1


p (a, θ), Qp (b, θ)].

Selección de intervalos de confianza


¿Cómo seleccionar entonces el mejor entre todos los intervalos posibles a un mismo
nivel para un problema determinado? Note que hay dos aspectos que pueden incidir sobre
la evaluación de los intervalos de confianza: la probabilidad de cobertura y la amplitud
de los intervalos.
2.2. Nociones elementales de estimación 97

Obviamente que es preferible un intervalo con un coeficiente alto y una amplitud


pequeña. Es trivial que entre dos intervalos con niveles de confianza diferentes es mejor
seleccionar aquel intervalo con mayor nivel. Por tanto el tema que queda pendiente es
como seleccionar el de menor amplitud. En ese sentido veamos el siguiente teorema para
densidades unimodales. Se dice que una densidad f es unimodal si existe x? tal que f es
no decreciente para x ≤ x? y no creciente para x ≥ x? . Al punto x? se le conoce como la
moda de la distribución. Esta característica es propia de muchas distribuciones como la
normal, t-student, entre otras.

Teorema 2.2.4 Sea f una densidad unimodal; si un intervalo [a, b] satisface las siguientes
condiciones
Rb
1. a f (x)dx = 1 − α, para un α determinado.

2. f (a) = f (b) > 0.

3. a ≤ x? < b, con x? la moda de f ,

entonces [a, b] es el intervalo de menor longitud entre todos los intervalos que satisfagan
la primera condición.

Demostración
Supongamos que se tiene un intervalo [c; d] tal que d − c < b − a. Vamos a demostrar
Rd
entonces que para [c; d] se cumple que c f (x)dx < 1 − α. Con respecto a c pueden ocurrir
dos cosas: c ≤ a o c > a. Solamente se demostrará el resultado para el primer caso, para
el segundo se puede proceder de la misma forma.
Supongamos que c ≤ a, de esa forma pueden ocurrir 3 casos, el más elemental y trivial
es que d ≥ b y por ende d − c ≥ b − a y carece de sentido su análisis. Entonces nos quedan
dos casos que se deben analizar: d ≤ a y a < d ≤ b. Comencemos con el primero, o sea
c ≤ a y d ≤ a. Como se supone que a ≤ x? < b entonces f es no decreciente en [c; d], por
tanto
Z d Z b
f (x)dx ≤ f (d)(d − c) ≤ f (a)(d − c) < f (a)(b − a) ≤ f (x)dx
c a
= 1 − α.

Y por tanto el intervalo no alcanza el nivel de confianza prefijado 1 − α. Veamos ahora el


caso c ≤ a y a < d ≤ b:
Z d Z b Z a Z b 
f (x)dx ≤ f (x)dx + f (x)dx − f (x)dx
c a c d
Z a Z b 
= 1−α+ f (x)dx − f (x)dx
c d
≤ 1 − α + [f (a)(a − c) − f (b)(b − d)] = 1 − α + f (a) [(b − a) − (d − c)]
< 1 − α.

Y de esa forma se concluye la demostración.


98 2. Estadística básica. Aplicaciones

A partir del teorema anterior se obtiene el siguiente resultado

Corolario 2.2.5 Sea X una variable aleatoria con densidad continua f (x; θ) unimodal y
simétrica con respecto a la moda x? = g(θ) entonces

[X α2 ; X1− α2 ],

es el intervalo de confianza para x? con nivel de confianza 1 − α de menor longitud.


Es un hecho que determinar el intervalo de longitud mínima es muy útil ya que para
un nivel de confianza determinado, este intervalo nos ofrece una estimación del parámetro
más precisa que el resto de los intervalos con el mismo nivel de confianza.
Ahora veremos algunos de los intervalos de confianza más utilizados en la práctica
relacionados con la distribución normal, debido a su importancia en problemas reales. En
muchas ocasiones a pesar de que la muestra no es de la familia Gausiana, se utilizan los
intervalos de confianza aproximados a partir del Teorema Central del Límite.
2.2. Nociones elementales de estimación 99

Intervalo de confianza para la media con varianza conocida


Sea una muestra X = (X1 , · · · , Xn ) con distribución Normal: N (µ, σ 2 ), entonces
X − µ√
Z(X) = n ∼ N (0, 1),
σ
es un pivote para µ y por tanto se obtiene que
 
σ σ
IC1−α (µ) = x − Z1− α2 √ , x + Z1− α2 √ .
n n
Intervalo de confianza para la media con varianza desconocida
Sea una muestra X = (X1 , · · · , Xn ) con distribución Normal: N (µ, σ 2 ), entonces se
tiene que
X − µ√
T (X) = n ∼ t(n − 1),
s
es un pivote para µ donde
n
2 1 X
s = (Xi − X)2 .
n − 1 i=1
Por tanto  
s s
IC1−α (µ) = x − t 1− α (n − 1) √ , x + t1− 2 (n − 1) √ .
α
2
n n
Intervalo de confianza para la varianza con media conocida
Sea una muestra X = (X1 , · · · , Xn ) con distribución Normal: N (µ, σ 2 ), entonces se
tiene que  2
2 Xi − µ
χ (X) = ∼ χ2 (n),
σ
es un pivote para σ 2 . Uno de los intervalos de confianza a un nivel 1 − α más utilizados
para σ 2 viene dado por
" #
2 σ2
nb σ2
nb
IC1−α (σ ) = , ,
χ21− α (n) χ2α (n)
2 2

donde Pn
2 i=1 (Xi − µ)2
σ
b = .
n
Intervalo de confianza para la varianza con la media desconocida
Sea una muestra X = (X1 , · · · , Xn ) con distribución Normal: N (µ, σ 2 ), entonces se
tiene que
 2
2 Xi − X
χ (X) = ∼ χ2 (n − 1),
s
2
es un pivote para σ . Al igual que en el caso anterior el intervalo de confianza a un nivel
1 − α más utilizado para σ 2 es
" #
2 2
ns ns
IC1−α (σ 2 ) = ,
χ21− α (n − 1) χ2α (n − 1)
2 2
100 2. Estadística básica. Aplicaciones

Intervalos de confianza asintóticos.


En algunos casos existen problemas en los cuales no es inmediato encontrar una fun-
ción pivote que permita hallar un intervalo de confianza para la magnitud en cuestión.
La práctica más usual para este tipo de problemas es justamente el Teorema Central
del Límite que permite encontrar probabilidades aproximadas a partir de la distribución
normal. En muchos casos se utilizan los conceptos de normalidad asintótica cuando la
función pivote depende del estimador máximo verosímil.
Este resultado es muy útil para el trabajo con poblaciones que no son normales.
Intervalo de confianza para la proporción
Sea una muestra X = (X1 , · · · , Xn ) con distribución Bernoulli de parámetro p. Sea
pb el estimador máximo verosímil para el parámetro. A partir del Teorema Central del
Límite se sabe que
pb − p D
q −−−→ N (0, 1).
p(1−p) n→∞
n

Note sin embargo que a pesar que la función pivote tiene una distribución conocida, puede
resultar complicado despejar p de tal forma que se obtenga un intervalo de confianza
adecuado. Escribamos entonces
s
pb − p √ pb − p √ p(1 − p)
p n= p n .
pb(1 − pb) p(1 − p) pb(1 − pb)

A partir del Teorema 1.5.2 de Slutsky y el teorema de la función continua es inmediato


que s
p(1 − p) P
−−−→ 1,
pb(1 − pb) n→∞
por tanto
pb − p √ D
p n −−−→ N (0, 1).
pb(1 − pb) n→∞

De esa forma se deduce que el intervalo de confianza asintótico de nivel 1 − α para p es


" r r #
pb(1 − pb) pb(1 − pb)
IC1−α (p) = pb − Z1− α2 ; pb + Z1− α2 .
n n
2.2. Nociones elementales de estimación 101

2.2.4 Estimación en la práctica


¿Cómo se procede en situaciones reales? Es cierto que los métodos descritos previa-
mente resultan muy útiles para una extensa gama de problemas, pero no es menos cierto
que depeden de que el investigador asuma o conozca la distribución que siguen los datos
que está analizando.
¿Qué sucede cuando no se conoce dicha distribución? Usualmente y atendiendo a las
carcaterísticas de la muestra se asume normalidad. Este supuesto en muchos casos no
es el correcto pero permite obtener resultados iniciales para los datos que se analizan.
Es evidente que este procedimiento puede servir en algunos casos, no obstante si no
contamos con ninguna información de los datos y no se desea especificar una densidad
de probabilidad para la muestra, que evidentemente se asume aleatoria, ¿qué se puede
hacer?
Para responder a esa interrogante nos apoyaremos en los conceptos básicos de esta-
dística descriptiva, en particular en las medidas de tendencia central: media, mediana o
moda y las medidas de dispersión: varianza y rango.
Supongamos que se tiene una muestra aleatoria X = (X1 , · · · , Xn ) tal que para todo
i = 1, 2, · · · , n se cumple que EXi = µ y V (Xi ) = σ 2 , ambos finitos y desconocidos. En
ausencia de información acerca de la distribución no se puede aplicar la estimación máximo
verosímil, no obstante se pueden obtener estimaciones de µ y σ 2 a partir del método de
Monte Carlo. Para los efectos del método X = (X1 , · · · , Xn ) se puede interpretar como
una realización de Monte Carlo, por tanto
n
1X
µbM C = Xi
n i=1
n n
!2
2 1 X 1 X
σ
bM C = X2 − Xi
n i=1 i n i=1
n
1X
= (Xi − X)2 .
n i=1
Note que este resultado se puede obtener de forma similar utilizando el método de los
momentos. Escribamos entonces
µ
bM C = X
n
2 1X
σ
bM C = (Xi − X)2 .
n i=1
Estos estimadores son clásicos para estimar la media y la varianza de una muestra cual-
quiera y ambos son consistentes y asintóticamente normales, con lo cual cumplen con dos
de las propiedades deseables de un estimador. En cuanto a la insesgadez, se puede verificar
2
de inmediato que µbM C es insesgado, no siendo así el caso de σ
bM C:
n n
2 1X 2 1X
σ
bM C = (X i − X) = (Xi − µ + µ − X)2
n i=1 n i=1
n
1X
= (Xi − µ)2 − (X − µ)2 .
n i=1
102 2. Estadística básica. Aplicaciones

Por tanto
n
!
2 1X
σM
E(b C) = E (Xi − µ)2 − (X − µ)2
n i=1
n
1X
= E(Xi − µ)2 − E(X − µ)2
n i=1
σ2 n−1 2
= σ2 − = σ .
n n
2 2
O sea σbM C no es insesgado para σ . No obstante se puede construir un nuevo estimador
insesgado a partir del razonamiento anterior:
n
1 X n
s2 = (Xi − X)2 = b2 .
σ
n − 1 i=1 n − 1 MC

El estimador s2 se le conoce como varianza muestral y es uno de los más utilizados en la


práctica. Cuando los datos provienen de una distribución normal se cumple además que

s2
(n − 1) ∼ χ2 (n − 1).
σ2
En el Anexo F se pueden encontrar otras propiedades interesantes relacionadas con la
distribución normal y la varianza muestral s2 .

2.2.5 Estimación bayesiana


EL enfoque bayesiano dista en su concepto del enfoque frecuentista de la inferencia.
Si analizamos el problema en sí, el enfoque frecuentista asume la no aleatoriedad del
parámetro o parámetros que definen al modelo, sin embargo, desde un sentido crítico,
pudieramos preguntarnos por qué tiene que ser de esa forma. Es ahí donde el enfoque
bayesiano comienza a jugar su papel cambiando este supuesto que es la base del enfo-
que frecuentista. Evidentemente la elección de la distribución del parámetro esta sujeta
a valoraciones subjetivas del investigador, pero no es menos cierto que en el mismo en-
foque frecuentista muchas veces se asumen condiciones para darle solución a problemas
específicos.
Antes de continuar veamos dos definiciones fundamentales del enfoque bayesiano.

Definición 2.2.21 (Distribución a priori) Sea θ ∈ Θ una variable aleatoria, entonces


la distribución o familia de distribuciones que rige su comportamiento se conoce con
el nombre de distribución o familia de distribuciones a priori o inicial y se denota por
Π(θ) con función de densidad π(θ), en el caso de que exista.

A partir de la densidad a priori π(θ) de θ y el Teorema de Bayes se obtiene de forma


inmediata la siguiente definición
2.2. Nociones elementales de estimación 103

Definición 2.2.22 (Distribución a posteriori) Sea X = (X1 , · · · , Xn ) una muestra


aleatoria cuya densidad f (x; θ) depende del valor la variable aleatoria θ, cuya función
de densidad a priori se denota por π(θ), entonces la densidad de θ dado el conocimiento
a priori de X se conoce como densidad a posteriori o final de θ y se denota por π(x|θ):

f (x; θ)π(θ)
π(θ|x) = R ,
f (x; t)π(t)dt
Θ

donde la densidad marginal de X es


Z
f (x) = f (x, t)π(t)dt.
Θ

La distribución a posteriori se interpreta como una actualización de la distribución a


priori, ya que de alguna manera explica el comportamiento estocástico de θ después que
los datos son obtenidos. Es evidente además que f (x) no depende de θ y es un valor qu
usualmente no se calcula. En muchas ocasiones se define
Z −1
1
K(x) = = f (x, t)π(t)dt > 0,
f (x) Θ

como el valor que hace posible que

K(x)f (x; θ)π(θ),

sea en verdad una función de densidad, además es inmediato que se puede afirmar lo
siguiente
π(θ|x) ∝ L(θ; x)π(θ),
donde L(θ; x) es la función de verosimilitud de X.
La inferencia según el paradigma bayesiano se deriva a partir de la distribución a
posteriori, considerándose que en la distribución a posteriori está contenida toda la in-
formación sobre el parámetro objeto de estimación que brinda por un lado la muestra
y por otro la información de la distribución de probabilidad del parámetro fijada por la
distribución a priori.
Para hallar las distribuciones a posteriori se prefiere trabajar con distribuciones que
cumplan ciertas propiedades, ya que de esa forma los cálculos son más sencillos. Por su
importancia solamente veremos las llamadas distribuciones conjugadas
Definición 2.2.23 (Distribuciones conjugas) Sea un modelo o familia de distribu-
ciones Pθ indizado por θ para una muestra X = (X1 , · · · , Xn ). Un modelo o familia de
distribuciones a priori Π se dice a priori conjugado para el modelo o familia Fθ si la
distribución a posteriori pertenece a Π, o sea si π(θ|x) ∈ Π para toda f (·, θ) ∈ Pθ y
toda π(θ) ∈ Π.

En la Tabla 2.1 algunas de las distribuciones a priori conjugadas para algunos modelos
de probabilidad
104 2. Estadística básica. Aplicaciones

π(θ) f (x, θ) π(θ|x)

Normal Normal Normal


 
nxτ 2 +µσ 2 2 σ2
N (µ, τ 2 ) N (θ, σ 2 ) N nτ 2 +σ 2
, nττ2 +σ 2

Gamma Poisson Gamma


Γ(λ, α) P oisson(θ) Γ (λ + n, α + nx)
Gamma Exponencial Gamma
Γ(λ, α) Exp(θ) Γ(λ + nx, α + n)
Beta Bernoulli Beta
Beta(α, β) B(1, θ) Beta(nx + α, n − nx + β)
Beta Binomial Beta
Beta(α, β) B(m, θ) Beta(nx + α, nm − nx + β)
Beta Geométrica Beta
Beta(α, β) Geom(θ) Beta(α + n, β + nx)
Beta Binomial Negativa Beta
Beta(α, β) BN (θ, r) Beta(α + rn, β + nx)

Tabla 2.1: Distribuciones a priori conjugadas más utilizadas para ciertos modelos clásicos.

Es importante aclarar que existen otros tipos de distribuciones a priori como la de


Jeffreys, o las no informativas, pero que no son objetivo de este curso. Recomendamos al
lector el texto de Robert [15].
Una vez encontrada la distribución a posteriori, el estimador de Bayes se define como
el valor esperado de esta distribución de probabilidad. Obviamente, dicho valor esperado
dependerá de X por ser una esperanza condicionada a X y no dependerá de θ por ser
justamente el valor esperado (condicional) de dicha variable. Luego es en última instancia
un estadístico, ya que no depende del parámetro.
Vale aclarar que la dificultad esencial de este enfoque es la definición de la distribución
a priori. Una vez definida, el procedimiento para obtener el estimador de Bayes es siempre
el mismo, aunque suele complicarse un tanto en el cálculo de la integral o de la sumatoria
que aparece en la definición de la densidad a posteriori. Realmente el parámetro, como
variable aleatoria, en la inmensa mayoría de las veces, será del tipo continuo. No obstante,
un procedimiento de validez bastante general, sobre todo cuando nos movemos dentro de
distribuciones bastantes conocidas y que evitan el cálculo de la integral o la sumatoria es
trabajar solamente con el numerador de la expresión que aparece en la definición de la
distribución a posteriori y finalmente, una vez obtenida, completar para que el resultado
sea una función de densidad.
2.2. Nociones elementales de estimación 105

Supóngase que se tiene una muestra X = (X1 , · · · , Xn ) de una distribución Bernoulli


con parámetro θ. Si no se tiene mucha experiencia sobre el supuesto comportamiento
estocástico del parámetro θ podríamos asulir que la distribución a priori es la Uniforme
en el intervalo (0, 1). Se puede comprobar que

(θ|x) ∼ Beta(nx + 1, n + 1 − nx).


Por tanto el estimador bayesiano es
nx + 1
θbB = E(θ|x) = .
n+2
Si se asume una densidad a priori Beta(α, β), entonces

(θ|x) ∼ Beta(nx + α, n + β − nx).


Por tanto el estimador bayesiano es
nx + α
θbB = E(θ|x) = .
n+α+β
La expresión anterior puede formularse también como
Pn   
n i=1 x i α + β α
θbB = + .
n+α+β n n+α+β α+β
Un análisis de la última expresión puede brindar cierta lógica de la estimación baye-
siana. Por ejemplo, si no se considera alguna distribución a priori, es decir, si no se asume
el problema de la estimación de la perspectiva bayesiana,
Pn la estimación del parámetro se
xi
obtendría mediante la evaluación del estimador θb = i=1 n
, que dicho sea de paso, desde
el enfoque frecuentista es el estimador insesgado óptimo. Si por el contrario se asume la
distribución a priori Beta(α, β) , sería lógico tomar el valor esperado de ella para estimar
α
θ, y como se conoce dicho valor esperado es α+β . El estimador bayesiano lo que hace es
combinar estos dos estimadores.

2.2.6 Estimación de densidades por Kernel


Hasta el momento hemos discutido como hallar estimadores de los parámetros de las
distribuciones que rigen el comportamiento de una muestra, ya sea por el enfoque frecuen-
tista o el bayesiano. No obstante, cuando no existe información acerca de la naturaleza de
la distribución asociada a la muestra, los métodos anteriores no son del todo aplicables.
En los casos en los que simplemente se asume un conocimiento previo de la distribución de
los datos o sus parámetros, puede suceder que la realidad de la muestra no se corresponda
con dicho supuesto.
Sería bueno tener un método que permita, a partir de una muestra, obtener una es-
timación de la función de densidad de probabilidad. En ese sentido se pudiera pensar
en utilizar una herramienta descriptiva que ya discutimos previamente: el histograma.
Recordemos que el histograma es una representación gráfica de las frecuencias relativas
de una muestra, o sea, si nuestro objetivo final es estimar o aproximar la densidad de
probabilidad de la muestra, el histograma pudiera servir como una aproximación inicial.
106 2. Estadística básica. Aplicaciones

No obstante recordemos que el histograma tiene una desventaja que puede malograr el
sentido de la estimación en sí: cuando los datos son continuos el histograma adopta con-
figuraciones diferentes a partir de los intervalos que se definan en la tabla de frecuencia.
Es por ese motivo que no resulta confiable como estimación de la función de densidad de
probabilidad.
La estimación por Kernel es una herramienta no paramétrica que trata de evitar los
inconvenientes que surgen al utilizar los histogramas como medida de representación de
la densidad de una muestra. Veamos la definición de Kernel:
Definición 2.2.24 (Kernel) Se dice que la función K : R → R+ es un Kernel si es
integrable y además Z
K(u)du = 1.
R
Se dice que K es de orden ` si:
Z
µ` (K) = = u` K(u)du 6= 0,
ZR
µj (K) = = uj K(u)du = 0, ∀j = 1, · · · , ` − 1.
R

Entre los Kernel más conocidos se encuentran los siguientes:

Kernel K(u)

1
Uniforme 1
2 (−1,1)
(u)
Triangular (1 − |u|)1(−1,1) (u)
3
Epanechnikov 4
(1 − u2 )1(−1,1) (u)
15 2
Biweight 16
(1 − u2 ) 1(−1,1) (u)
Gaussiano √1 exp(− 12 u2 )

Tabla 2.2: Algunos de los Kernel más usuales

A partir del Kernel se define entonces el estimador por Kernel para la función de
densidad de probabilidad.
Definición 2.2.25 (Estimador por Kernel) Sea una muestra X = (X1 , · · · , Xn ) con
valores x = (x1 , · · · , xn ). Supongamos que los Xi siguen una distribución F con función
de densidad f . Se define el estimador por Kernel de f a partir de la muestra en un
punto x como
n
1X
fbh (x) = Kh (x − xi ),
n i=1
2.2. Nociones elementales de estimación 107

donde
 
1 x − xi
Kh (x − xi ) = K .
h h
El valor h se conoce como ancho de banda del estimador.
Note que el estimador por Kernel fbh (x) depende tanto del Kernel escogido como del ancho
de banda h. La determinación del Kernel no es decisiva en el proceso de estimación.
Sin embargo, la elección del ancho de banda es crucial para determinar la calidad del
estimador. El ancho de banda está relacionado con la suavidad del estimador. Valores
muy pequeños ofrecen estimaciones muy irregulares y valores grandes tienden a producir
estimaciones muy suaves de la densidad a partir de la muestra. Si se desea medir la calidad
del estimador por Kernel se debe analizar el Error Cuadrático medio correspondiente:

h i2
M SEf (fbh , x0 ) = E fbh (x0 ) − f (x0 )
= σf2b (x0 ) + b2fb (x0 ),
h h

donde σf2b (x0 ) representa la varianza del estimador y bfbh (x0 ) el sesgo del mismo en el punto
h
x0 . Cuando el Kernel es simétrico y de orden 2 y se asume que la densidad desconocida
f ∈ C 2 entonces la varianza y el sesgo se pueden escribir de la siguiente forma:

h2 00
b2fb (x) = f (x)µ2 (K) + o(h2 )
h 2  
2 1 2 1
σfb (x) = kKk2 f (x) + o .
h nh nh
R
En la expresión anterior k · k22 se define para una función f como kf k22 = R f 2 (u)du.
Note además que el valor de h define el comportamiento del sesgo y la varianza de forma
opuesta: valores pequeños de h generan valores grandes en la varianza y el estimador en
sí prioriza los valores cercanos a los puntos xi de la muestra y se producen estimaciones
muy irregulares; cuando h es grande el sesgo aumenta y el estimador tiende a tratar por
igual a todos los puntos y como resultados obtenemos una densidad estimada demasiado
suave. Es por ese motivo que es extremadamente importante encontrar un buen ancho de
banda para el problema que se está analizando, porque como es de esperar no existe un
ancho de banda universal.
Muchos matemáticos han propuesto diversas formas para determinar el ancho de banda
para una muestra determinada. Por su importancia veremos el método llamado Rule-of-
Thumb. Definamos primero dos conceptos relacionados con el Error Cuadrático Medio
que se utilizan para hallar el ancho de banda óptimo bajo el método Rule-of-Thumb

Definición 2.2.26 (MISE y AMISE) Sea una muestra X = (X1 , · · · , Xn ) con densidad
f ∈ C 2 y que toma valores x = (x1 , · · · , xn ). Sea K un Kernel simétrico de orden 2,
entonces el Error Cuadrático Medio Integrado (MISE de sus siglas en inglés Mean
108 2. Estadística básica. Aplicaciones

Integrated Squared Error ) se define como


Z
M ISE(fbh ) = M SE(fbh , x)dx
R
h4 2
 
2 1 1
µ2 (K)kf 00 k2 + o h4 + kKk22 + o

= ,
4 nh nh

y el Error Cuadrático Medio Integrado Asintótico (AMISE de sus siglas en inglés,


Asymptotic Mean Integrated Squared Error ) se define por la siguiente expresión

h4 2 1
AM ISE(fbh ) = µ2 (K)2 kf 00 k2 + kKk22 .
4 nh

Método Rule-of-Thumb
El método Rule-of-Thumb fue propuesto por Silverman en 1986 y se basa en hallar
el valor de h que minimiza el AM ISE cuando se asumen ciertas condiciones sobre la
densidad f . En general el valor de h que minimiza el AM ISE se puede hallar a partir de
la siguiente expresión:
 4 
h 2 00 2 1 2
hopt (n) = arg mı́n µ (K)kf (x)k2 + kKk2
4 2 nh
 15
kKk22

= .
nµ22 (K)kf 00 k22
El valor de hopt (n) nos ofrece un compromiso entre el sesgo y la varianza del estimador
para no caer en los casos extremos cuando la varianza es muy grande o el sesgo lo es. Note
sin embargo que hopt (n) aún depende de la densidad desconocida f . En ese sentido, hopt (n)
no representa ninguna utilidad práctica porque necesita conocer previamente quién es la
densidad f , la misma que se desea estimar.
En ese sentido Silverman propone utilizar una función conocida en vez de f para
determinar hopt (n). Su propuesta se basó utilizar la densidad de una distribución normal
de media µ y varianza σ 2 . De esa forma se obtiene que
3
kf 00 k22 = σ −5 √ ,
8 π
Digamos que σ
b es el estimador insesgado de σ a partir de la muestra, entonces
1/5
8πkKk22

hopt (n) = σ
b .
3µ22 (K)n
b

El supuesto normalidad utilizado por Silverman para hallar b hopt (n) ha sido amplia-
mente utilizado en diversos problemas debido a su versatilidad y fácil implementación
computacional. No obstante es necesario aclarar que este método ofrece buenos resulta-
dos cuando las densidades desconocidas no difieren mucho de una normal o sea densidades
unimodales, con cierta simetría y con un comportamiento asintotótico similar al Gaus-
siano. Eso no significa que para otro tipo de densidades no ofrezca resultados aceptables,
incluso buenos.
2.3. Rudimentos de pruebas de hipótesis 109

Una variación del método fue propuesta también por Silverman con el objetivo de
eliminar la influencia de valores extremos que se hayan observado en la muestra. La
idea se basó en un estimador más robusto para la variabilidad del estimador: el rango
intercuartil. Bajo el supuesto de normalidad de la muestra es fácil comprobar que

RQ = x0,75 − x0,25
= (µ + σz0,75 ) − (µ + σz0,25 )
= σ (z0,75 − z0,25 )
≈ 1,34σ.

Por tanto
 √ 1/5
8 πkKk22

RQ
hrot (n) = mı́n σ
b b,
1,34 3µ22 (K)n
1
Si además trabajamos con el Kernel Gaussiano se puede verificar que que kKk22 = √
2 π
y µ22 (K) = 1. Luego, el ancho de banda toma la forma:

   1/5
R 4
hrot (n) = mı́n σ
b b,
1,34 3n
 
R
≈ 1,06 mı́n σb, n1/5
1,34

2.3 Rudimentos de pruebas de hipótesis


2.3.1 Conceptos básicos
El problema de pruebas de hipótesis, es uno de los más controvertidos dentro de la
Inferencia Estadística y es al propio tiempo de los problemas más frecuentes en la práctica
estadística.
Muchas disciplinas en diferentes áreas del conocimiento científico proceden a acumular
conocimiento sobre la base de tesis preexistentes, hasta que nuevas evidencias cuestionan
las tesis existentes y conducen a la formulación de nuevas hipótesis, que deben ser de-
mostradas. Cuando se trata de evidencias empíricas muchas veces la constatación de las
hipótesis se lleva a cabo mediante pruebas de hipótesis estadísticas.
El desarrollo de nuevos fármacos es un área que no existiría sin las pruebas de hipótesis
estadísticas.
Recordemos que la inferencia estadística comienza con la adopción de un modelo para
el fenómeno estudiado y su primera tarea es justamente evaluar lo adecuado del modelo
para el fenómeno que modela a partir de los datos observados. Una vez aceptado el modelo
entonces se procede a obtener conocimientos sobre el fenómeno resolviendo problemas de
estimación, como los que ya hemos visto o problemas de pruebas de hipótesis.
¿Qué debe entenderse por hipótesis?
110 2. Estadística básica. Aplicaciones

Definición 2.3.1 Una hipótesis estadística o sencillamente una hipótesis es una afir-
mación o conjetura sobre la distribución de una o más variables aleatorias.
Obviamente si se trabaja bajo el supuesto de un modelo paramétrico, la familia de dis-
tribuciones posibles o modelo está indizado por un parámetro, la conjetura o afirmación
de la distribución se traducirá en el valor o valores que respectivamente pueda tomar el
parámetro. Usualmente para dar respuesta a la interrogante que se plantea en una prueba
de hipótesis se necesita un mecanismo que nos permita tomar una decisión. En ese sentido
se tiene la siguiente definición
Definición 2.3.2 Un test estadístico asociado a una prueba de hipótesis no es más que
una regla que permite a partir de la realización de la muestra llevarnos a concluir la
aceptación o rechazo de la prueba de hipótesis planteada.
En general, la toma de decisiones bajo la teoría de pruebas de hipótesis no consiste
en rechazar o aceptar la hipótesis que se plantea, más bien se trata de determinar la
información que ofrecen los datos en contra de la misma. Esto se puede ver como una
demostración por contradicción en matemática, pero en este caso no se llegan a contra-
dicciones lógicas, ya que en las aplicaciones estadísticas rara vez existen inconsistencias
lógicas entre los datos y la hipótesis.
Realmente, ¿en qué consiste el problema de pruebas de hipótesis? Ya desde el momento
en que se trata de definir en que consiste el problema comienzan las controversias.
Para la escuela de estadística inglesa, cuya modernidad fundara Fisher, se trata de
encontrar formas de medir la evidencia contenida en los datos, a favor o en contra de lo
que se ha hipotetizado. Como norma no se puede pretender probar la veracidad o falsedad
de una hipótesis estadística.
Si por ejemplo observamos cien realizaciones de un experimento binomial y las 100
resultan en éxitos, eso no demuestra que la probabilidad de ocurrencia de éxito en nuestro
experimento sea 1. La única certeza que podríamos tener en esa circunstancia es que la
probabilidad de éxito es mayor que 0. Si hubiésemos hipotetizado que la probabilidad de
ocurrencia de éxito es un valor pequeño, digamos 0.15. Los resultados obtenidos serían
ciertamente una fuerte evidencia en contra de esa hipótesis, pues es un evento muy poco
probable que con esa probabilidad de ocurrencia, resulten 100 éxitos en 100 repeticiones
del experimento.
La escuela moderna norteamericana, surgida bajo la influencia de los trabajos de
Neyman en la década del 30 del pasado siglo XX se plantea el problema en términos de
aceptar o rechazar una de dos hipótesis opuestas, confrontadas. En última instancia el
problemas es decidir cuál de las dos hipótesis se aceptará como cierta y cuál como falsa.
Como mencionamos anteriormente, rara vez, por la propia naturaleza aleatoria del
problema, se está en condiciones de decidir con certeza a partir de los datos si una hipótesis
estadística es cierta o falsa. A esto se suma que el propio modelo es una idealización y por
consiguiente parece poco relevante enfrascarse en el problema de si una hipótesis relativa
a esa idealización es verdadera o falsa.
Por otra parte es cierto que luego resolver un problema de pruebas de hipótesis, las
consecuencias desde el punto de vista práctico resultan en que se actúa como si la hipótesis
no rechazada fuese realmente cierta y se adoptan decisiones, de importancia sobre la base
de esos resultados.
2.3. Rudimentos de pruebas de hipótesis 111

Neyman en defensa de su punto de vista argumentaba que no se trataba de determinar


si una hipótesis era cierta o falsa, que lo relevante era llegar en la consideración del
problema a un procedimiento que en la gran mayoría de las veces nos conduce a una
decisión correcta. Este punto de vista es el que de hecho ha primado en la práctica
estadística.
El mismo problema de toma de decisiones se basa ahora en la formulación de un
problema de prueba de hipótesis con dos hipótesis: nula y la alternativa. La primera se
denota como H0 y la segunda como H1 o HA . De forma general, si el parámetro que indiza
a la distribución se denotase por θ y el conjunto de posibles valores, es decir, el espacio
paramétrico por Θ, una formulación general pudiese ser

H0 : θ ∈ Θ0
HA : θ ∈ ΘA

usualmente Θ = Θ0 ∪ ΘA .
Existen varios planteamientos relacionados con las pruebas de hipótesis, nosotros va-
mos a comenzar con el caso más sencillo, o sea cuando la familia de distribuciones esta
bien definida para cada hipótesis, este tipo de problemas se le conoce como simple contra
simple.
Una vez formuladas las hipótesis nula y alternativa, resta decidir a partir de la infor-
mación que brindan los datos (muestra) si no se rechaza la hipótesis nula o si se rechaza
y por tanto se acepta la alternativa. El no rechazar la hipótesis nula es equivalente en el
lenguaje común y corriente a aceptarla, pero en el marco de las pruebas de hipótesis la
connotación de no rechazar es un poco diferente a decir que se acepta. Esta sutil diferencia
se comprenderá más adelante.
Como la decisión se toma a partir de la información que brindan los datos, no se está
exento de error. Es posible que los datos indiquen una evidencia en contra de la hipótesis
nula y la rechacemos siendo ella cierta o que no la rechacemos y ella sea falsa. En el
primero de los casos se dice que se comete un error de tipo I y en el segundo, un error de
tipo II. La siguiente tabla resume el comportamiento general de la toma de decisiones:

Rechazar H0 Aceptar H0
H0 es cierta Error tipo I No se comete Error
H0 es falsa No se comete Error Error tipo II

La aspiración máxima sería determinar una regla de decisión que evitase cometer cualquie-
ra de los dos errores; pero esto, al igual que en la estimación estadística, sería equivalente
a realizar la prueba sin ningún tipo de error, lo cual ya se conoce que es imposible lograr-
lo en el trabajo estadístico. Antes esta imposibilidad pudiésemos conformarnos con una
regla que minimice la probabilidad de cometer cada uno de los errores. Es decir, que si
denotamos por

α = P (Rechazar H0 ; H0 ) β = P (Aceptar H0 ; HA ).
112 2. Estadística básica. Aplicaciones

Sin embargo, esta minimización simultánea es, desde el punto de vista matemático,
imposible, excepto para situaciones donde carece de utilidad práctica. Ante esta dificultad
se ha procede a fijar el tamaño o riesgo de uno de los dos errores y buscar entonces reglas
de decisiones que minimicen el tamaño o riesgo de cometer el otro error. Tradicionalmente
lo que se fija es el tamaño del error de tipo I, es decir, la probabilidad de cometerlo. El
tamaño del error se acostumbra a que sea un valor pequeño, los más comunes son: 0.10,
0.05, 0.01 y 0.001, aunque esto no impide que puedan fijarse otros.
Este proceder trae consigo una consecuencia inmediata y es la siguiente. Si a partir de
los datos observados se decide rechazar la hipótesis nula y esta es cierta, se puede aceptar
la hipótesis alternativa con el conocimiento de cual es la probabilidad de estar errados,
ya que esa ha sido fijada de antemano. Sin embargo, si no se rechazara la hipótesis nula,
aceptarla automáticamente no escaparía al riesgo de hacerlo con una probabilidad de error
lo suficientemente grande como para no estar seguro de la decisión que se toma. Y esto es
así, ya que no se conoce cuál es la probabilidad de cometer el error de tipo II. Hasta tanto
no se sepa el tamaño de este error, la ética estadística aconseja solamente declarar que
no hay suficiente evidencia en contra de la hipótesis nula, por lo tanto no se rechaza, lo
cual no significa que se acepte. Otra consecuencia es que en la hipótesis alternativa debe
colocarse lo que de aceptarse (cuando se rechace la hipótesis nula) se haga con un error
tan pequeño como se estime pertinente. Esto se puede comprender mejor analizando la
tabla anterior pero a partir de las probabilidades de error:

Rechazar H0 Aceptar H0
H0 es cierta α 1−α
H0 es falsa 1−β β
Como la regla de decisión para no rechazar o rechazar H0 se establece a partir de la
observación de la muestra, esto automáticamente está indicando que el espacio muestral se
particiona en dos subconjuntos (obviamente disjuntos), de manera tal que la pertenencia
del punto muestral observado a uno y solo uno de ellos indicará el rechazo o no de la
hipótesis nula. El nivel de significación en este marco se denota por α ∈ (0, 1)
Definición 2.3.3 (Regiones Críticas) Diremos que ωα es una región crítica (o de
rechazo) de tamaño α si a ωα pertenecen todos los puntos del espacio muestral que nos
dan evidencia en contra de H0 al nivel α, o sea

ωα = {x ∈ Ω : Se rechaza H0 } y sup P (X ∈ ωα ; H0 ) = α.
θ∈Θ0

En caso de que supθ∈Θ0 P (X ∈ ωα ; H0 ) ≤ α, se dice que la prueba, dócima o región crítica


es de nivel α. Cuando una región crítica sea de tamaño α también será de nivel α. Muchos
autores identifican el término nivel de significación α como una prueba de nivel α. Siempre
que no haya dudas se pueden utilizar indistintamente. Es importante aclarar que los
términos “nivel de significación”, “tamaño de la región crítica”, “probabilidad de rechazar
H0 cuando es cierta”, “error de tipo I” son todos equivalentes y se utilizan indistintamente
dependiendo del problema o los autores.
2.3. Rudimentos de pruebas de hipótesis 113

¿Cómo se obtiene en la práctica una región crítica? Por lo general las regiones críticas
están definidas por una condición. Cuando la muestra verifica esa condición se dice que
pertenece a la región crítica. Supongamos que la región crítica se puede escribir de la
siguiente forma
ωα = {x ∈ Ω : Se rechaza H0 } = {x ∈ Ω : T (x) ∈ Aα },
donde Aα es un conjunto que depende del nivel de significación α y T (x) es una función
que depende de la muestra y se le llama estadígrafo del test o simplemente estadígrafo2 ,
el cual debe cumplir que su distribución bajo la hipótesis nula H0 debe ser conocido.
Esta última propiedad es fundamental para determinar la región crítica. Para conocer o
determinar Aα se utiliza la expresión
α = sup P (X ∈ ωα ; H0 ) = sup P (T (X) ∈ Aα ; H0 ).
θ∈Θ0 θ∈Θ0

Veamos un ejemplo. Supongamos que se tiene una muestra X = (X1 , · · · , Xn ) que proviene
de una distribución normal N (µ, 25) y nos interesa la siguiente prueba de hipótesis

H0 : µ = 2
HA : µ > 2
Utilizando el Lema de Neyman y Pearson, que veremos más adelante, se puede determinar
que la región crítica para el problema es
( n
)
X
ωα = {x ∈ Ω : Se rechaza H0 } = x ∈ Ω : xi ≥ d α .
i=1
Pn
En este caso T (x) = i=1 xi y Aα = {x ∈ R : x ≥ dα }. Para determinar el valor de dα se
procede como sigue
α = sup P (X ∈ ωα ; H0 ) = Pµ0 (T (X) ∈ Aα ; µ = 2)
θ∈Θ0
n
!
X
= Pµ0 Xi ≥ dα ; µ = 2
i=1

En este ejemplo es evidente que


Pn
i=1 Xi − 2n H
= Zn ∼0 N (0, 1).
5
Por tanto
n
!
X
α = Pµ0 Xi ≥ dα ; µ = 2
i=1
P n 
Xi − 2n
i=1 dα − 2n
= Pµ0 ≥ ;µ = 2
5 5
1 − α = Pµ0 (Zn ≤ Z1−α ; µ = 2) .
2
Un estadígrafo en general se define como cualquier función que solamente dependa de la muestra. En
algunos textos se le llama también estadístico.
114 2. Estadística básica. Aplicaciones

Con lo cual dα = 5Z1−α + 2n y por ende


Aα = {x ∈ R : x ≥ 5Z1−α + 2n}.
La región crítica queda de la siguiente forma
( n
)
X
ωα = {x ∈ Ω : Se rechaza H0 } = x∈Ω: xi ≥ 5Z1−α + 2n .
i=1

Es lógico además que un test estadístico debe estar definido por un conjunto de regiones
críticas que satisfagan que
Si α1 < α2 , entonces ωα1 ⊂ ωα2 .
P (X ∈ ωα ; H0 ) ≤ α
El complemento de la región crítica se denomina región de no rechazo o de aceptación,
aunque debe recordarse que si el punto muestral pertenece a esta región no se puede
aceptar automáticamente la hipótesis nula, debiéndose determinar el tamaño del error del
tipo II para saber si con cierta seguridad puede aceptarse.
Por ejemplo, si en un problema de prueba de hipótesis se establece que la hipó-
tesis nula se rechaza siempre que la media muestral de las observaciones sea mayor
que una cierta cantidad k, la región crítica puede describirse de manera general como
ωα = {x ∈ Ω : x > k}.
Las hipótesis en general, y por tanto la nula y la alternativa, se clasifican en simples
o compuestas.
Así por ejemplo, si se formula la hipótesis H0 : θ = 2 vs HA : θ > 2 para un modelo
de Poisson, la primera es una hipótesis simple, ya que bajo la misma, la distribución
de probabilidad es Poisson con media 2. Sin embargo, la segunda solo especifica que la
distribución posible es una Poisson con media mayor que 2, pero no dice exactamente cuál
es. Cuando una hipótesis una desigualdad en algún sentido ( <, >, ≤, ≥) se dicen que
son unilaterales, mientras que si la desigualdad es total, en cualquier sentido (6=) se dice
que bilateral. Obviamente las hipótesis unilaterales o bilaterales son del tipo compuestas.
En ocasiones el parámetro que indiza al modelo es un vector de parámetros, pensemos en
el modelo Normal con media µ y varianza σ 2 , ambas desconocidas y se formula la hipótesis
nula H0 : µ = 4. Esta hipótesis es compuesta, ya que aunque se especifica cuál es la media
de la distribución, no se establece un valor para el otro parámetro, la varianza.
Existen varias formas de determinar regiones críticas para un mismo problema. Por
su importancia solamente mencionaremos dos de las formulaciones más conocidas.
Test de la razón de verosimilitud
Aquí propondremos un test basado en la razón de verosimilitud que gana en utilidad
cuando las hipótesis son del tipo compuesto. Para el caso de simple contra simple el
resultado es también aplicable y lo veremos más adelante como un caso particular del
Teorema de Neyman-Pearson. La razón de verosimilitud generalizada para un problema
de pruebas de hipótesis
H0 : θ ∈ Θ0
HA : θ ∈ ΘA
2.3. Rudimentos de pruebas de hipótesis 115

se define como
supθ∈Θ0 L(θ; x)
Λ= . (2.5)
supθ∈Θ L(θ; x)
En el caso de Θ0 = {θ0 } entonces

L(θ0 ; x)
Λ= .
L(θbemv ; x)

Si centramos nuestra atención en el numerador de la ecuación (2.5) es inmediato que se


interpreta como la mejor evidencia de los datos a favor de la hipótesis nula y por otro
lado supθ∈Θ L(θ; x) se interpretaría como la mejor evidencia para θ sin tener en cuenta
ninguna restricción. Entonces es lógico pensar que valores pequeños de Λ indicarían que
supθ∈Θ0 L(θ; x) toma valores pequeños en comparación con supθ∈Θ L(θ; x). Es decir que si
la mejor evidencia a favor de H0 es débil, entonces se debería rechazar la hipótesis nula.

Definición 2.3.4 (Test de Razón de Verosimilitud) Para el problema de pruebas de


hipótesis

H0 : θ ∈ Θ0
.
HA : θ ∈ ΘA
Asumiendo que se satisfacen las condiciones de regularidad entonces la región crítica
para el test a nivel α se define como

ωα = {x ∈ Ω : Λ ≤ Λ0 } ,

donde Λ0 satisface que


sup Pθ (X ∈ Ω; Λ ≤ Λ0 ) ≤ α.
θ∈Θ0

Por la propia naturaleza de la razón de verosimilitud es fácil percatarse que Λ0 ≤ 1


siempre, pero el caso Λ0 = 1 no presenta ningún interés práctico ya que lo que nos dice
que lo especificado en la hipótesis nula no presenta ninguna restricción para el parámetro,
o la distribución.
Con el objetivo de determinar el mejor test estadístico es lógico que se concentre la
búsqueda de condiciones “buenas” para las regiones críticas teniendo en cuenta que estas
últimas definen completamente al test.
Definición 2.3.5 (Función de Potencia) Sea ωα una región crítica a nivel α relacio-
nada con el problema de prueba de hipótesis:

H0 : θ ∈ Θ0
HA : θ ∈ ΘA = Θ − Θ0
116 2. Estadística básica. Aplicaciones

Entonces se define la función de potencia del test a nivel α como:

pow(ωα ) = P (X ∈ ωα ; θ ∈ Θ).
Es decir, la función de potencia depende del parámetro que se somete a prueba. Cuando
θ ∈ Θ0 la función de potencia se convierte en la probabilidad del error tipo I, o sea α y
cuando θ ∈ ΘA se transforma en la potencia del test, o sea 1 − β, definido formalmente
como
Definición 2.3.6 (Potencia del test) Sea ωα una región crítica a nivel α relacionada
con el problema de prueba de hipótesis:

H0 : θ ∈ Θ0
HA : θ ∈ ΘA = Θ − Θ0
Entonces se define la potencia del test a nivel α como:

pot(ωα ) = P (X ∈ ωα ; HA ) = P (X ∈ ωα ; θ ∈ ΘA ).

Lema de Neyman-Pearson
Como hemos mencionado antes, la cuestión más importante en un problema de pruebas
de hipótesis es la búsqueda de una región crítica que maximice la potencia y que controle
el error de tipo I, es decir

máx pot(ωα )
s.a : P (X ∈ ωα ; θ ∈ Θ0 ) ≤ α

Una región crítica de nivel α que verifique la condición anterior sería preferible a otra
con el mismo nivel de significación. En ese sentido se define la siguiente región crítica

Definición 2.3.7 Para un problema de prueba de hipótesis de simple contra simple

H0 : θ = θ0
HA : θ = θA

la región crítica de la razón de verosimilitud o lRAO se define como

ωα = {x ∈ Ω : lRAO (x) ≥ cα },

donde
L(θA ; x)
lRAO (x) = . (2.6)
L(θ0 ; x)

No es ilógico definir una región crítica de esta forma, ya que guarda cierta relación con la
región crítica definida previamente a partir de la razón de verosimilitud generalizada. La
región crítica de la razón de verosimilitud es muy importante porque nos va a permitir
encontrar una región crítica óptima para una gran variedad de test estadísticos.
2.3. Rudimentos de pruebas de hipótesis 117

El siguiente teorema se debe a Neyman y Pearson, y es sin duda alguna uno de los
más importantes y trascendentales resultados de la teoría de las pruebas de hipótesis.
Teorema 2.3.1 (Neyman-Pearson) Para el problema de pruebas de hipótesis de simple
contra simple

H0 : θ = θ0
.
HA : θ = θA
La región crítica de la razón de verosimilitud es la más potente a nivel α para
cualquier otra dócima ωα0 de nivel α, o sea

pot(ωα ) ≥ pot(ωα0 ),

Demostración
Supongamos que tenemos una muestra de variables aleatorias X = (X1 , · · · , Xn ) que
siguen una distribución Fθ con densidad f (x; θ) para cada Xi . Sea ωα la región crítica de la
razón de verosimilitud asociada y ωα0 otra región crítica del mismo tamaño α. Supongamos
además que nos estamos en un problema de simple contra simple, o sea

H0 : θ = θ0 H0 : f (x; θ) = f (x; θ0 )
⇐⇒ .
HA : θ = θA HA : f (x; θ) = f (x; θA )

Como ambas regiones tienen el mismo tamaño α, entonces la probabilidad de rechazar


H0 siendo cierta es la misma para cada región crítica, o sea

P (X ∈ ωα ; H0 ) = P (X ∈ ωα0 ; H0 ) = α,
Q
entonces si f (x; θ) = f (xi ; θ)
Z Z
α = f (x; θ0 )dx = f (x; θ0 )dx
ωα 0
ωα
Z Z Z Z
= f (x; θ0 )dx + f (x; θ0 )dx = f (x; θ0 )dx + f (x; θ0 )dx
0
ωα \ωα 0
ωα ∩ωα 0 \ω
ωα 0
ωα ∩ωα
α
Z Z
⇒ f (x; θ0 )dx = f (x; θ0 )dx
0
ωα \ωα 0 \ω
ωα α

Ahora
ωα \ωα0 ⊂ ωα ⇔ f (x; θA ) ≥ cα f (x; θ0 )
.
ωα0 \ωα ⊂ ωα0 ⇔ f (x; θA ) < cα f (x; θ0 )
Por lo tanto Z Z
f (x; θA )dx ≥ f (x; θA )dx
0
ωα \ωα 0 \ω
ωα α
118 2. Estadística básica. Aplicaciones


Z Z
f (x; θA )dx ≥ f (x; θA )dx
ωα 0
ωα


pot(ωα ) ≥ pot(ωα0 )
De lo cual se deduce que la región crítica de la razón de verosimilitud para el problema
de simple contra simple es la óptima, es decir la que tiene mayor potencia para un tamaño
determinado α.

Este resultado es en extremo importante porque nos dice que no existe mejor región crítica
para un problema de simple contra simple, que la región crítica que define el lRAO . Bajo
ciertas condiciones generales sobre la distribución de los datos, el Lema de Neyman y
Pearson se puede extender para problemas compuestos en las hipótesis, no obstante su
desarrollo y discusión excede los objetivos del presente texto.
Pruebas de hipótesis en la práctica
Como analizar un problema de pruebas de hipótesis en la realidad. El método, digamos,
clásico se basa en verificar si la muestra pertenece o no a la región crítica correspondiente
al problema en cuestión. En ese sentido se calculan los llamados estadígrafos asociados
al test y se verifica que cumplan o no la condición de la región crítica. Por ejemplo
supongamos que se tiene una muestra de tamaño 50 de una distribución de Poisson de
parámetro λ y se plantea la siguiente prueba

H0 : λ = 15
HA : λ < 15

y nos interesa hallar la región crítica de nivel α. Para este problema digamos que la región
crítica correspondiente es
( r )
X λ0
ωα = x ∈ Ω : xi ≤ λ0 + Zα ,
n

donde λ0 = 15 y Zα es el percentil de nivel α de la normal estándar. Supongamos que


α = 0,01, entonces la región crítica toma la siguiente forma
( r )
X 15
ω0,01 = x∈Ω: xi ≤ 15 + Z0,01
50
X
= {x ∈ Ω : xi ≤ 13,7293}.
P
Diremos entonces que el estadígrado para la prueba es T (x) = xi . En el caso de la
muestra en cuestión supongamos que T (x) = 12. ¿Qué decisión tomaría usted? Es evidente
2.3. Rudimentos de pruebas de hipótesis 119

que la muestra pertenece a la región crítica porque T (x) = 12 satisface la condición de


la región. Luego podemos decir que el valor de λ < 15 con seguridad de que nos estamos
equivocando con una probabilidad α = 0,01. Si por el contrario se hubiese obtenido que
T (x) = 14 entonces la muestra no pertenece a la región crítica porque el estadígrafo no
satisface la condición y solamente podemos decir que no tenemos suficiente evidencia para
rechazar la hipótesis nula.
Cuando se utiliza un programa para realizar una prueba de hipótesis, usualmente no
se utiliza el procedimiento anterior. En general los programas trabajan con el llamado
“p-value”:
4
pobs = ı́nf{α? : x ∈ ωα? }.
O sea, es el valor de la probabilidad de error de tipo I más pequeña a partir del cual se
rechaza la hipótesis nula que se está considerando. Por tanto cuando se desea interpretar
los resultados que ofrece el programa se debe comparar pobs con el valor de α que se desea
obtener. Si para el ejemplo anterior se hubiese utilizado un software la salida sería de la
siguiente forma

Estadígrafo (Tp (x)) p-value

12 0,0003
14 0,0231

Por lo general los programas ofrecen el estadígrafo Tp (x) con el cual determinan el
p-value. Es importante aclarar que no tienen porqué coincidir el estadígrafo Tp (x) que se
utiliza en cada programa con el estadígrafo T (x) que se utiliza por el método descrito
antes. El programa, por supuesto, ofrece los valores de los p-value de cada prueba, que
son los valores que nos van a permitir tomar una decisión. En el primer caso se obtuvo
que pobs = 0,0003 < 0,01 = α, por tanto se rechaza la hipótesis nula y en el segundo caso
pobs = 0,0231 > 0,01 = α, por lo cual no existe evidencia para rechazar la hipótesis. Note
sin embargo que con este procedimiento se puede decir que el segundo caso rechaza la
hipótesis nula si se hubiese fijado α = 0,05. En ese sentido es muy útil conocer el valor del
p-value porque nos permite formarnos una idea de cuán fuerte es la evidencia que se tiene
en contra de H0 . Ahora si en algún problema se obtiene que pobs > 0,1, entonces podemos
asegurar que la evidencia en contra de H0 no es suficiente para rechazarla, al menos para
los valores clásicos de α que mencionamos antes.
120 2. Estadística básica. Aplicaciones

2.3.2 Pruebas para una población


Contraste de hipótesis para la media de una distribución normal
Sea X = (X1 , · · · , Xn ), donde Xi ∼ N (µ, σ 2 ).

Test para la media. Varianza conocida


Caso I Caso II Caso III
H0 : µ = µ0 H0 : µ = µ0 H0 : µ = µ0
Hipótesis vs vs vs
HA : µ > µ0 HA : µ < µ0 HA : µ 6= µ0

X − µ0 √ H 0
Estadígrafo Z= n ∼ N (0, 1)
σ

Región Crítica Z > Z1−α Z < −Z1−α |Z| > Z1− α2

Test para la media. Varianza desconocida


Caso I Caso II Caso III
H0 : µ = µ0 H 0 : µ = µ0 H0 : µ = µ0
Hipótesis vs vs vs
HA : µ > µ0 HA : µ < µ0 HA : µ 6= µ0

X − µ0 √ H 0 1
n
n ∼ t(n − 1), s2 = (Xi − X)2
P
Estadígrafo T = n−1
s i=1

Región Crítica T > t1−α (n − 1) T < −t1−α (n − 1) |T | > t1− α2 (n − 1)

Contraste de hipótesis para proporciones


Supongamos que se tiene una muestra X = (X1 , · · · , Xn ), tal que Xi ∼ Bernoulli(p),
entonces
Test para la proporción. Muestras grandes (n > 30)
Caso I Caso II Caso III
H0 : p = p0 H0 : p = p0 H0 : p = p0
Hipótesis vs vs vs
HA : p > p0 HA : p < p0 HA : p =6 p0

pb − p0 √ H0 m
Estadígrafo Z=p n ∼ N (0, 1), pb = n, m : Casos favorables
p0 (1 − p0 )

Región Crítica Z > Z1−α Z < −Z1−α |Z| > Z1− α2


2.3. Rudimentos de pruebas de hipótesis 121

Contraste de hipótesis para la varianza de una distribución normal


Test para la varianza. Media desconocida
Caso I Caso II Caso III
2 2
H0 : σ = σ 0 2 2
H0 : σ = σ0 H0 : σ 2 = σ02
Hipótesis vs vs vs
2
HA : σ > σ02 2 2
HA : σ < σ0 HA : σ 2 6= σ02

s2 H0 2 1
n
s2 = (Xi − X)2
P
Estadígrafo χ = (n − 1) ∼ χ (n − 1), n−1
σ02 i=1

χ < χ2α (n − 1)
2
Región Crítica χ > χ21−α (n − 1) χ < χ2α (n − 1) o
χ > χ21− α (n − 1)
2

Test para la varianza. Media conocida


Caso I Caso II Caso III
H0 : σ 2 = σ02 H0 : σ 2 = σ02 H0 : σ 2 = σ02
Hipótesis vs vs vs
HA : σ 2 > σ02 HA : σ 2 < σ02 HA : σ 2 6= σ02

b2 H0 2
σ 1
n
b2 = (Xi − µ)2
P
Estadígrafo χ=n ∼ χ (n), σ n
σ02 i=1

χ < χ2α (n − 1)
2
Región Crítica χ > χ21−α (n) χ < χ2α (n) o
χ > χ21− α (n)
2

2.3.3 Pruebas para dos poblaciones


Contraste de hipótesis para la comparación de dos medias de distribuciones normales
Sean X = (X1 , · · · , Xn1 ) y Y = (Y1 , · · · , Yn2 ) dos muestras independientes provenien-
tes de una distribución normal, Xi ∼ N (µ1 , σ12 ) y Yi ∼ N (µ2 , σ22 ).

Test para las medias. Varianzas conocidas


Caso I Caso II Caso III
H0 : µ1 = µ2 H0 : µ1 = µ2 H0 : µ1 = µ2
Hipótesis vs vs vs
HA : µ1 > µ2 HA : µ1 < µ2 HA : µ1 6= µ2

X −Y H0
Estadígrafo Z=q 2 2
∼ N (0, 1)
σ1 σ2
n1 + n2

Región Crítica Z > Z1−α Z < −Z1−α |Z| > Z1− α2


122 2. Estadística básica. Aplicaciones

Test para las medias. Varianzas desconocidas pero iguales


Caso I Caso II Caso III
H0 : µ1 = µ2 H0 : µ1 = µ2 H0 : µ1 = µ2
Hipótesis vs vs vs
HA : µ1 > µ2 HA : µ1 < µ2 HA : µ1 =6 µ2

X −Y H0
Estadígrafo T = q ∼ t(n1 + n2 − 2)
1 1
s n1 + n2

(n1 − 1)s21 + (n2 − 1)s22


s2 = , donde
n1 + n2 − 2
1 n 2 n
1 X 1 X
s21 = (Xi − X)2 , s22 = (Yi − Y )2
n−1 n−1
i=1 i=1

Región Crítica T > t1−α (n1 + n2 − 2) T < −t1−α (n1 + n2 − 2) |T | > t1− α2 (n1 + n2 − 2)

Test para las medias. Varianzas desconocidas y desiguales


Caso I Caso II Caso III
H0 : µ1 = µ2 H0 : µ1 = µ2 H0 : µ1 = µ2
Hipótesis vs vs vs
HA : µ1 > µ2 HA : µ1 < µ2 HA : µ1 6= µ2
 2 
s21 s22

X −Y H0 n1 + n2
Estadígrafo T =q 2 ∼ t(ν), ν =   2 2 − 2
 
2
s22 s22

s1 s1 1 1
n1 + n2 n1 n1 −1 + n2 n2 −1

1 n 2 n
1 X 1 X
s21 = 2 2
(Xi − X) , s2 = (Yi − Y )2
n−1 n−1
i=1 i=1

Región Crítica T > t1−α (ν) T < −t1−α (ν) |T | > t1− α2 (ν)

Contraste de hipótesis para proporciones

Sean X y Y dos variables independientes de una distribución binomial, X ∼ B(n1 , p1 )


y Y ∼ B(n2 , p2 ).
2.3. Rudimentos de pruebas de hipótesis 123

Test para las proporciones. Muestras grandes (n > 30)


Caso I Caso II Caso III
H0 : p1 = p2 H0 : p1 = p2 H0 : p1 = p2
Hipótesis vs vs vs
HA : p1 > p2 HA : p1 < p2 6 p2
HA : p 1 =

pb1 − pb2 H0
Estadígrafo Z=r   ∼ N (0, 1)
pb(1 − pb ) n11 + 1
n2

m1 + m2 m1 m2
pb = , pb1 = , pb2 = , m1 , m2 : Casos favorables
n1 + n2 n1 n2

Región Crítica Z > Z1−α Z < −Z1−α |Z| > Z1− α2

Contraste de hipótesis para la comparación de dos varianzas de distribuciones normales

Test para la varianza


Caso I Caso II Caso III
H0 : σ12 = σ22 H0 : σ12 = σ22 H0 : σ12 = σ22
Hipótesis vs vs vs
HA : σ12 > σ22 HA : σ12 < σ22 HA : σ12 6= σ22

s21 H0
Estadígrafo F = ∼ F (n1 − 1, n2 − 1),
s22
n1 n2
2 1 X 2 2 1 X
s1 = (Xi − X) s2 = (Yi − Y )2
n1 − 1 i=1 n2 − 1 i=1

F < F α (n1 − 1, n2 − 1)
Región Crítica 2
F > F1−α (n1 − 1, n2 − 1) F < Fα (n1 − 1, n2 − 1) o
F > F1− α (n1 − 1, n2 − 1)
2

Contraste de hipótesis para la comparación de dos medias de distribuciones normales. Datos


pareados

Sean X = (X1 , · · · , Xn ) y Y = (Y1 , · · · , Yn ) dos muestras dependientes provenientes


de una distribución normal, Xi ∼ N (µ1 , σ12 ) y Yi ∼ N (µ2 , σ22 ).
A partir de los datos se construye una nueva variable aleatoria Z = (Z1 , · · · , Zn ),
donde Zi = Xi − Yi . En ese caso

2 2
Zi ∼ N (µD , σD ), donde µD = µ1 − µ2 , σD = σ12 + σ22 .
124 2. Estadística básica. Aplicaciones

Test para las medias. Datos pareados. Varianzas conocidas o muestras grandes (n > 30)
Caso I Caso II Caso III
H0 : µD = 0 H0 : µD = 0 H0 : µD = 0
Hipótesis vs vs vs
HA : µD > 0 HA : µD < 0 HA : µD 6= 0

Z √ H
Estadígrafo Z= n ∼ N (0, 1)
0

σD

Región Crítica Z > Z1−α Z < −Z1−α |Z| > Z1− α

Test para las medias. Datos pareados. Varianzas desconocidas


Caso I Caso II Caso III
H0 : µD = 0 H0 : µD = 0 H0 : µD = 0
Hipótesis vs vs vs
HA : µD > 0 HA : µD < 0 HA : µD 6= 0
n
Z √ H0 1 X
Estadígrafo T = n ∼ t(n − 1), sD = (Zi − Z)2
sD n − 1 i=1

Región Crítica T > t1−α (n − 1) T < −t1−α (n − 1) |T | > t1− α2 (n − 1)

2.4 Test no paramétricos


Las pruebas de hipótesis no paramétricas son aquellos test en los cuales la hipóte-
sis nula es más general que una familia de distribuciones o no depende específicamente
de la distribución de las variables. El nombre de pruebas no paramétricas, aunque su
nombre sugiere que no está pensado para problemas paramétricos, no es así, en algunas
ocasiones este tipo de pruebas se pueden utilizar para resolver problemas que dependan
de parámetros.
Por ejemplo, supongamos que tenemos unas variables aleatorias X = (X1 , · · · , Xn ) que
son i.i.d. con distribución F desconocida. En muchos casos de la vida práctica nos puede
interesar conocer si dichas variables siguen una distribución determinada F0 , o queremos
tener una idea acerca del comportamiento de la mediana asociada a la muestra, o nos
interesa comprobar si existe una cierta tendencia con respecto a otra muestra aleatoria
Y = (Y1 , · · · , Yn ) o si existe alguna dependencia entre X y Y.
Uno de los puntos a favor de los test no paramétricos es que requieren muy escasos
supuestos en su formulación. Si se compara con los métodos paramétricos se debe tener
en cuenta lo siguiente
1. Si una prueba paramétrica es apropiada para darle respuesta a un problema deter-
minado, entonces la prueba no paramétrica correspondiente, entraña siempre una
pérdida de potencia respecto a la prueba paramétrica.
2.4. Test no paramétricos 125

2. Las pruebas no paramétricas se utilizan principalmente en problemas donde se em-


plean datos nominales. Su variante paramétrica requiere trabajar con datos en una
escala de intervalo o al menos de razón.

3. De forma general se disponen de pruebas no paramétricas para problemas poco


estructurados, como la existencia de tendencia, comparación de tendencias centrales
de grupos, etc; pero para problemas más estructurados como por ejemplo comprobar
el paralelismo de dos rectas no se disponen de test no paramétricos.

4. Los test no paramétricos son más sencillos matemáticamente que los paramétricos
y se deducen, claro está, de expresiones más sencillas y dado que las hipótesis de
aplicación son menos restrictivas es más fácil su comprensión.

5. Con frecuencia no hay mucha diferencia entre el test no paramétrico y el paramétrico


análogo y casi siempre es más fácil aplicar el primero.

6. Los test de no paramétricos lo que evitan por lo general son los supuestos acerca de
la forma de la función de distribución.

Los test no paramétricos además de permitir estudiar una población cuando se des-
conoce la distribución de la misma, tiene otra utilidad como es la de comprobar que las
hipótesis exigidas para llevar a cabo un contraste paramétrico realmente son satisfechas.

2.4.1 Bondad de ajuste


Existen varios métodos que se utilizan para analizar la bondad de ajuste de datos
observados en general el test χ2 de bondad de ajuste es una prueba no paramétrica de
formulación sencilla y puede ser aplicada a un gran número de problemas debido a su
versatilidad. A grandes rasgos esta prueba descansa en el supuesto de que los valores ob-
servados se puedan clasificar en un conjunto de k clases, lo que ocurre de forma inmediata
en el caso de variables discretas y en el caso continuo se crean intervalos convenientes
para cada problema. Evidentemente en el caso continuo este proceder acarrea pérdida de
información y por supuesto depende mucho de la elección de los intervalos. Sin embargo
es una herramienta que puede resultar muy útil para muchos casos
Es evidente que la prueba χ2 de bondad de ajuste se basa en la creación de una tabla de
frecuencias absolutas observadas en clases previamente determinadas. La idea subyacente
para esta prueba es medir cuán cerca están las frecuencias observadas (Oi ) con respecto
a las esperadas (Ei ), bajo H0 , para todas las clases creadas (i = 1, · · · , k).
Supongamos que nuestros datos observados X = (X1 , · · · , Xn ) provienen de una dis-
tribución de probabilidad P desconocida (o sea Xi ∼ P ). La hipótesis de bondad de ajuste
se puede plantear de la siguiente forma:

H0 : P = P0
.
6 P0
HA : P =
Bajo H0 se plantea que los datos siguen una distribución P0 conocida y determinada
previamente atendiendo al problema en cuestión. Por ende en la hipótesis alternativa se
establece que la distribución de X no es P0 . Es importante aclarar que en algunos casos
126 2. Estadística básica. Aplicaciones

bajo H0 no se especifican todos los parámetros de la distribución P , sin embargo esto no


impide que se pueda plantear el test.
Los pasos a seguir para la correcta aplicación del test son los siguientes
1. Crear clases A1 , · · · , Ak atendiendo al tipo de variable (continua o discreta).

2. Hallar las frecuencias absolutas observadas O1 , · · · , Ok en las clases creadas. Obvia-


mente se cumple que O1 + O2 + · · · + Ok = n.

3. Hallar las frecuencias absolutas esperadas E1 , · · · , Ek en las clases creadas: Ei = nPi ,


donde Pi = P (X ∈ Ai ). Por lo general se exige que mı́ni Ei ≥ 5. Cuando esto no se
verifica es necesario agrupar clases para conseguir que se cumpla la restricción.

4. Construir el estadígrafo de Pearson


k
2
X (Oi − Ei )2
χ = .
i=1
Ei

La distribución de χ2 se puede obtener de forma aproximada a partir de la razón de


verosimilitud generalizada.
χ2 ∼ χ2 (k − 1).
Cuando k ≤ 4 se le debe aplicar al estadígrafo la corrección de Yates
k
X (|Oi − Ei | − 0,5)2
χ2 = .
i=1
Ei

Note que esta corrección puede reducir el valor del estadígrafo y esto conllevaría a
aumentar la posibilidad de no rechazar la hipótesis nula.

5. Región crítica: n o
ωα = x ∈ Ω : χ2 > χ21−α (k − r − 1) ,
donde r es el número de parámetros libres bajo H0 , o sea, es el número de parámetros
que se han de estimar para el cálculo de las probabilidades.

2.4.2 Test de Kolmogorov-Smirnov


Esta prueba conocida como K-S es también una prueba de bondad de ajuste porque
al igual que en el caso de la prueba χ2 permite determinar si una muestra determinada
proviene de una distribución específica. La prueba de de bondad de ajuste se basa en com-
parar las función de distribución asociada a la muestra bajo análisis con una distribución
predeterminada. En ese sentido difiere de la prueba χ2 de bondad de ajuste que trabaja
con funciones de probabilidad.
Supongamos que tenemos una muestra X = (X1 , · · · , Xn ), donde Xi ∼ F desconocida,
entocnes la prueba K-S de bondad de ajuste se puede escribir como

H0 : F (x) = F0 (x)
.
HA : F (x) 6= F0 (x)
2.4. Test no paramétricos 127

Para obtener una región crítica para esta prueba se necesitaría determinar un estadí-
grafo que bajo H0 nos mida de cierta forma la cercanía entre F y F0 . En ese sentido se
puede plantear
D = máx |F (x) − F0 (x)|.
x

Es inmediato que este estadígrafo sería el adecuado, pero evidentemente depende de la


magnitud desconocida F . Para evitar ese problema se utiliza una aproximación de F :
n
1X
Fbn (x) = 1{xi ≤x} .
n i=1

Por ende se obtiene el siguiente estadígrafo

Dn (F ) = máx |Fbn (x) − F0 (x)|.


x

Cuando la variable aleatoria es continua, sean


 
+
h i i
Dn = máx Fn (x) − F0 (x) = máx
b − F0 (x(i) ) .
x i n
 

h i i−1
Dn = máx F0 (x) − Fn (x) = máx F0 (x(i) ) −
b .
x i n

Note que F0 (x(i) ) es la distribución uniforme del i-ésimo estadígrafo de orden de una
uniforme en [0, 1]. Ahora podemos escribir

Dn = máx Dn+ , Dn− .




Evidentemente Dn no depende de F , por tanto bajo H0 la distribución del estadígrafo Dn


es conocida.
La región crítica del test viene dada por

ωα = {x ∈ Ω : Dn ≥ Dα },

donde Dα se determina a partir de la distribución de Kolmogorov de la variable aleatoria

K = sup |B(t)|,
t∈[0,1]

donde B es un proceso estocástico llamado puente Browniano. La distribución de K es



2
X
FK (x) = P (K ≤ x) = 1 − 2 (−1)j−1 e−2(jt) .
j=1

Entonces se tiene que √


lı́m P ( nDn ≤ t) = P (K ≤ t).
n→∞

Por ende
K1−α
Dα = √
n
128 2. Estadística básica. Aplicaciones

2.4.3 Independencia y homogeneidad


Las siguientes dos pruebas no paramétricas se basan en la conocidas tablas de contin-
gencia o de doble entrada. Supongamos que se tienen dos tipos de variables X y Y, las
cuales pueden ser divididas en k clases disjuntas A1 , · · · , Ak para X y r clases disjuntas
B1 , · · · , Br para Y. Cada conjunto de estas clases se crea atendiendo a si las variables en
cuestión son continuas o discretas.
Después de definidas las clases correspondientes se crea la tabla de contingencia:

X
B1 B2 · · · Br Total
A1 O11 O12 · · · O1r n1•
A2 O21 O22 · · · O2r n2•
.. .. .. .. .. ..
Y . . . . . .
Ak Ok1 Ok2 · · · Okr nk•
Total n•1 n•2 · · · n•r n

En dicha tabla se tiene que Oij denota la cantidad de individuos, o casos que pertenecen
a las categorías Ai yPBj al mismo tiempo, ni• denota el total de casos que pertenecen a la
categoría Ai (ni• = rj=1 Oij ) y n•j denota el total de casos que pertenecen a la categoría
Bj (n•j = ki=1 Oij ) y además
P

k X
X r k
X r
X
n= Oij = ni• = n•j .
i=1 j=1 i=1 j=1

Independencia
Estamos interesados en determinar si dos cualidades o variables referidas a individuos
de una población están relacionadas. Se diferencia de otros contrastes en que en este
caso estamos interesados en ver la relación existente entre dos variables de una misma
población, no queremos contrastar la distribución teórica de una variable (prueba de
bondad de ajuste) ni en comparar la distribución de una única variable en dos poblaciones
(prueba de homogeneidad).
Supongamos que se tiene una muestra de n elementos de una población se han ob-
servado dos características X = (X1 , · · · , Xn ). Sobre la base de dichas observaciones se
desea contrastar si las características poblacionales X y Y son independientes o no. La
hipótesis de independencia se plantea de la siguiente manera:
H0 : X y Y son independientes
HA : X y Y no son independientes
Los pasos a seguir para este test son los siguientes

1. Crear la tabla de contingencia. O sea definir las clases disjuntas A1 , · · · , Ak y


B1 , · · · , Br para X y Y, convenientemente atendiendo al tipo de variable (conti-
nua o discreta).

2. Hallar las frecuencias absolutas observadas (Oij )1≤i≤k en las clases creadas.
1≤j≤r
2.4. Test no paramétricos 129

3. Hallar las frecuencias absolutas esperadas (Eij )1≤i≤k en las clases creadas:
1≤j≤r
Eij = nPi Pj , donde Pi = P (Ai ), Pj = P (Bj ):
ni• n•j ni• · n•j
Eij = n · Pi · Pj = n · =
n n n

4. Construir el estadígrafo:
k X r
2
X (Oij − Eij )2
χ = .
i=1 j=1
Eij

El valor del estadígrafo sigue una distribución χ2 .

5. Región crítica:
n o
2 2
ωα = (x, y) ∈ Ω : χ > χ1−α (k − 1)(r − 1) .

Homogeneidad
Estamos interesados en determinar si los datos correspondientes a dos o más muestras
aleatorias provienen de la misma población. Para este caso se utilizan también las tablas
de contingencia con una modificación conceptual. Ahora la variable o característica X va
a denotar el número de muestras bajo análisis (k) y Y se divide en r conjuntos disjuntos
B1 , · · · , Br pero clasificando en ellos las observaciones de cada muestra. O sea ahora Oij
representa el número de observaciones de la muestra i que pertenecen al conjunto Bj . La
hipótesis de homogeneidad se plantea de la siguiente manera:
H0 : Las k muestras provienen de la misma población
HA : Las k muestras no provienen de la misma población
La hipótesis de que las m poblaciones son homogéneas, se traduce en que cada conjunto
Bj debe tener una probabilidad teórica Pj , desconocida, pero que no cambia de la muestra
i a la muestra i0 . Esto debe verificarse para todas las categorías, i.e., las categorías deben
ser homogéneas en las diversas muestras.
Los pasos a seguir para este test son los siguientes

1. Crear la tabla de contingencia. O sea definir el número de poblaciones distintas


A1 , · · · , Ak y las clases disjuntas B1 , · · · , Br convenientemente atendiendo al tipo
de variable (continua o discreta).

2. Hallar las frecuencias absolutas observadas (Oij )1≤i≤k en las clases creadas.
1≤j≤r

3. Hallar las frecuencias absolutas esperadas (Eij )1≤i≤k en las clases creadas:
1≤j≤r
Eij = nPi Pj , donde Pi = P (Ai ), Pj = P (Bj ):
ni• n•j ni• · n•j
Eij = n · Pi · Pj = n · =
n n n
130 2. Estadística básica. Aplicaciones

4. Construir el estadígrafo:
k X r
X (Oij − Eij )2
χ2 = .
i=1 j=1
E ij

El valor del estadígrafo sigue una distribución χ2 .

5. Región crítica:
n o
2 2
ωα = (x, y) ∈ Ω : χ > χ1−α (k − 1)(r − 1) .

2.4.4 Test de rachas


La aleatoriedad de los datos con los cuales se trabaja es un propiedad que usualmen-
te se asume como un hecho. Como proceder entonces cuando no se puede asegurar la
aleatoriedad de las variables bajo análisis. En ese sentido se define el test de rachas:

H0 : La muestra es aleatoria
.
HA : La muestra no es aleatoria

Esta prueba de hipótesis nos va a permitir analizar el carácter aleatorio de la muestra


que se analiza. Su funcionamiento es muy sencillo y se basa en el número de rachas que
exhiben los datos. Se define una racha como una sucesión de elementos idénticos que
pueden estar o no separados por otros elementos. Por ejemplo, sea la siguiente sucesión
de 22 símbolos:
FFFDDFFDFFDFDDFFDDDFFD.
En la sucesión anterior se pueden identificar 12 rachas

DD FF |{z}
FFF |{z} D FF |{z} DD FF DDD
D F |{z} FF D .
| {z } |{z} |{z} |{z} |{z} | {z } |{z} |{z}
1 2 3 4 5 6 7 8 9 10 11 12

La idea subyacente de la prueba consiste en analizar el número de rachas de los dos


elementos definidos para decidir sobre la aleatoriedad de la muestra. Note que para aplicar
el método se debe conocer el orden en el cual se seleccionó la muestra. Este conocimiento
acerca del orden es fundamental para el test en sí. Para variables de tipo Bernoulli la
identificación de los dos elementos que definen las rachas es inmediato. En los casos
donde los datos son de tipo cuantitativo continuo, la manera de determinar los elementos
de ambos tipos se basa en el cálculo de la mediana y asignar el mismo símbolo a todos los
elementos por debajo de la mediana y otro símbolo diferente a los datos que la superen,
eliminándose a su vez, los elementos que coincidan con ella.
¿Cómo interpretar intuitivamente el comportamiento del número de rachas? Por ejem-
plo, la escasez de rachas nos puede indicar que la muestra favorece la ocurrencia de un
tipo de elemento de la muestra o que existen ciertas tendencias en los datos. En el ejemplo
anterior si el orden hubiese sido el siguiente

FFFFFFFFFFFDDDDDDDDDDD,
2.4. Test no paramétricos 131

es fácil percatarse que solamente se observan dos rachas y es evidente que la aleatoriedad
es muy poco probable. Por otro lado si las rachas son muchas comparadas con el total de
la muestra se pudiera pensar que la muestra es aleatoria. No obstante, este caso puede
indicar la existencia de comportamientos cíclicos de corta duración que evidentemente
afectan el carácter aleatorio de los datos. Suponga que en el mismo ejemplo se obtuvo el
siguiente orden:
FDFDFDFDFDFDFDFDFDFDFD.
En este caso hay 22 rachas y es inmediato que hay un comportamiento cíclico en los datos,
por lo cual la aleatoriedad no debe ser cierta. Un hecho curioso es que en ambos casos si
se utiliza la prueba χ2 de bondad de ajuste se hubiese obtenido que la muestra pudiera
provenir de una variable aleatoria Bernouilli con probabilidad 0.5; sin embargo en ambos
casos falla la aleatoriedad de la muestra. Evidentemente si se desconoce el orden de la
muestra no se puede aplicar el test como tal.
Para la formulación de la prueba se definen los siguientes valores, n1 : número de rachas
asociadas al primer símbolo y n2 : número de rachas del segundo símbolo. Sea Rs la variable
aleatoria que cuenta el número de rachas, entonces se cumple que
2n1 n2
µR = E(Rs ) = + 1.
n1 + n2
2n1 n2 (2n1 n2 − n1 − n2 )
σR2 = V (Rs ) = .
(n1 + n2 )2 (n1 + n2 − 1)

Cuando n1 o n2 son mayores que 20 se utiliza la aproximación normal para obtener una
región crítica aproximada:
n o
ωα = r ∈ Ω : |Zr | > Z1− α2 ,

donde r es el valor que toma Rs y


r − µR
Zr = .
σR
Cuando ambos valores n1 y n2 son menores o iguales que 20 se utiliza la siguiente región
crítica:
n o
ωα = r ∈ Ω : r ∈/ [R 2 (n1 , n2 ), R1− 2 (n1 , n2 )] ,
α α

donde R α2 (n1 , n2 ) y R1− α2 (n1 , n2 ) son valores que se pueden encontrar en tablas específicas.
En el Anexo G, en la Tabla G.20 y en la Tabla G.21 se pueden hallar los valores de
R α2 (n1 , n2 ) y R1− α2 (n1 , n2 ) respectivamente.
132 2. Estadística básica. Aplicaciones

2.5 Análisis de Varianza


El análisis de varianza (ANOVA de sus siglas en inglés: Analysis of Variance) es una
técnica estadística que se utiliza para comparar las medias de varias poblaciones. Sus
inicios se remontan a problemas agrícolas en los que se deseaba comparar la eficiencia
de diferentes tipos de abonos en el rendimiento de los cultivos. La técnica de análisis de
varianza se ha ido desarrollado a lo largo de los años para alcanzar su propia formulación
y por supuesto, ha extendido su campo de aplicación.
Se puede decir que el análisis de varianza es una prueba de hipótesis para comparar
medias de varias poblaciones a partir del comportamiento de sus varianzas y es parte
fundamental en muchos diseños de experimentos: si se desea conocer la influencia de
diferentes vacunas en el tratamiento de una enfermedad; o si se desea analizar la influencia
de diferentes tipos de materiales para analizar la durabilidad de una estructura o se desea
analizar el rendimiento académico a partir de diferentes programas de aprendizaje; por
solo mencionar algunos ejemplos.
Por lo general, en los problemas donde se aplica el análisis de varianza se desea estudiar
el comportamiento de una variable respuesta cuantitativa, que se supone afectada por los
valors de una o varias variables. En el marco de ANOVA, a dichas variables se les conoce
como factores. Se asume que cada factor tiene varios niveles, que se conocen también
como tratamientos y estos pueden ser cualitativos o cuantitativos. El análisis de varianza
permite analizar la influencia de dichos factores con sus niveles en la variable respuesta.
La forma en que estos factores se relacionan determinan el modelo de Análisis de Varianza
que se debe utilizar para cada problema. En el curso veremos la clasificación simple o de
un solo factor, que es el modelo más sencillo de esta teoría: asume que la variable respuesta
solamente se ve afectada por los niveles de un factor.

2.5.1 ANOVA. Clasificación Simple


Como mencionamos antes, el Análisis de Varianza, clasificación simple es un modelo
donde se asume que la variable respuesta Y se ve afectada por los valores de un factor con
k niveles. En general se asume que la variable respuesta está influenciada por una variedad
de factores y la idea consiste en modelar su comportamiento a partir de la suma de dos
magnitudes: la primera asociada al efecto del factor de interés y la segunda relacionada con
el efecto producido por el resto de los factores, que se consideran como una componente
aleatoria en la modelación del problema.
Definición 2.5.1 (ANOVA. Clasificación simple) Se dice que un problema se puede
describir por un modelo ANOVA de clasificación simple con respecto a un factor de k
niveles cuando la variable Yij se puede representar de la siguiente forma:

Yij = µi + εij i = 1, 2, · · · , k. j = 1, 2, · · · , ni ,

donde ni es el número de observaciones o réplicas en el nivel i, µi es el correspondiente


valor esperado y se interpreta como la influencia del nivel o lo que explica dicho nivel i
en el valor de la variable respuesta. La variable εij es la variación causada por factores
i.i.d.
desconocidos y se le conoce como error experimental. Se asume que εij ∼ N (0, σ 2 ).
2.5. Análisis de Varianza 133

El modelo anterior se puede escribir de forma análoga si se escribe µi = α + αi , o sea:

Yij = α + αi + εij i = 1, 2, · · · , k
j = 1, 2, · · · , ni ,

donde α se interpreta como la influencia común de todos los niveles y αi es la influencia


específica de cada nivel. Bajo el supuesto de normalidad e independencia de los errores
experimentales se cumple que

1. E[Yij ] = µi = α + αi .

2. V [Yij ] = V (εij ) = σ 2 .

3. Los Yij son independientes y por ende Yij ∼ N (µi , σ 2 ).

El modelo de ANOVA se puede escribir de la siguiente forma

Yij = µ + δi + εij i = 1, 2, · · · , k
j = 1, 2, · · · , ni ,

donde µ = α + α y δi = αi − α = µi − µ y α = k1 ki=1 αi .
P

Esta última formulación resulta útil por sus propiedades. Note que

k
X k
X
δi = (αi − α) = 0.
i=1 i=1

Estos nuevos parámetros se pueden interpretar de forma sencilla: µ se puede ver como
la media global del modelo y los δi como el efecto diferencial respecto a la media global
del i-ésimo nivel. En particular, note que si los niveles aportan la misma información,
entonces µi son iguales y por ende lo son los αi . Específicamente se cumple que αi = α y
por ende δi = 0. O sea, no se diferencian los efectos de cada nivel.
Establecido el modelo, quedan dos problemas por analizar: validación del modelo, la
estimación de sus parámetros y las pruebas de hipótesis relacionadas con la igualdad o no
de los efectos de los niveles del factor analizado.

2.5.2 Estimación de parámetros


En el modelo ANOVA de clasificación simple los parámetros a estimar son µi para
i = 1, 2, · · · , k y σ 2 o equivalentemente µ, δi para i = 1, 2, · · · , k y σ 2 . Supongamos que
se tienen los n valores de la variable respuesta Y : {yij } y supongamos como antes que se
tienen k niveles, donde el nivel i tiene exactamente ni réplicas; es inmediato que

k
X
n= ni .
i=1
134 2. Estadística básica. Aplicaciones

Definamos ahora los siguientes valores


ni
X
yi• = yij i = 1, 2, · · · , k
j=1
k
X ni
k X
X
y•• = yi• = yij
i=1 i=1 j=1
ni
yi• 1 X
y i• = = yij i = 1, 2, · · · , k
ni ni j=1
i k n
y•• 1 XX
y •• = = yij
n n i=1 j=1

Note que y •• se puede interpretar como la media de toda muestra y y i• se puede


considerar como la media del i-ésimo nivel.
En general se utiliza el método de los mínimos cuadrados para hallar las estimaciones
de µ y δi , o sea los estimadores µ
b y δbi son los valores que minimizan
ni
k X
X
(yij − µ − δi )2 .
i=1 j=1

Cuando se procede con el método, o sea, derivar con respecto a µ y a todos los δi se llegan
a k + 1 ecuaciones. Es muy fácil comprobar que el sistema en cuestión no tiene solución
única. Con el objetivo de obtener una única solución se añade la siguiente reestricción
k
X
ni δbi = 0.
i=1

De esa forma se obtiene que


b = y ••
µ
δbi = y i• − y •• , i = 1, 2, · · · , k.
µbi = y i• , i = 1, 2, · · · , k.
Note que la estimación de los errores se puede escribir como
εbij = yij − µ
b − δbi
= yij − y •• − (y i• − y •• ).
Recordemos que V (εij ) = σ 2 . El procedimiento para estimar σ 2 se basa en las propiedades
de las variables εij . Se puede verificar que
ik n
2 1 XX
σ
b = (yij − yi• )2
n i=1 j=1
k ni k ni
1 XX 2 1 XX
= yij − y •• − (y i• − y •• ) = εb 2 .
n i=1 j=1 n i=1 j=1 ij
2.5. Análisis de Varianza 135

El lector puede confirmar utilizando las propiedades de la distribución χ2 que el esti-


mador no es insesgado para σ 2 . Utilizando las modificaciones correspondientes se obtiene
el estimador insesgado para σ 2 :
k ni
2 1 XX
sb = (yij − yi• )2 .
n − k i=1 j=1

Luego se pueden obtener sus distribuciones respectivas

σ2
 
µ
bi ∼ N µi , , i = 1, · · · , k.
ni
sb2
(n − k) 2 ∼ χ2 (n − k) .
σ
De esa forma se pueden obtener intervalos de confianza para los µi utilizando la relación
de la normal con la t-student y la χ2 . En particular se tiene que
 
√ y i• − µi
ni ∼ t(n − k).
sb

Por ende  
sb sb
IC1−α (µi ) = y i• − t1− α2 (n − k) √ ; y i• + t1− α2 (n − k) √ .
ni ni

2.5.3 Test de hipótesis


El problema fundamental del Análisis de Varianza es justamente la prueba de hipótesis
que se realiza para confirmar si la influencia de los niveles son todas iguales o existe al
menos una diferente. En ese sentido se plantea la prueba:

H0 : µ1 = µ2 = · · · = µk = µ
HA : ∃i : µi 6= µ.

¿Por qué utilizar una prueba de hipótesis con esas características? ? ¿No se pudiera
pensar que la hipótesis del ANOVA se pudiera constrastar utilizando comparaciones dos
a dos con las medias de todos los niveles en lugar de una sola prueba? La respuesta a esta
última pregunta es positiva. Evidentemente si para un factor de k niveles se realizan las
(k − 1)! pruebas indepedientes entre las medias de los niveles, entonces obtendremos una
respuesta al problema en sí.
Suponga que estamos en una situación con solamente 4 factores y la probabilidad del
error de tipo I para H0 : la igualdad de sus medias es α. Si se realizan las 6 pruebas dos a
dos y en al menos una se rechaza H0ij (hipótesis de igualdad entre las medias del i-ésimo
y j-ésimo nivel) con probabilidad de error de tipo I igual a α, entonces se rechaza la
igualdad H0 entre todas las medias y por ende se puede concluir que la influencia de los
4 niveles no es la misma sobre la variable respuesta. ¿Qué sucede cuando no se rechaza
136 2. Estadística básica. Aplicaciones

ninguna hipótesis del tipo H0ij ? En ese caso, la probabilidad de no rechazar H0ij es 1 − α
cuando H0ij es cierta. A partir de la independencia de estas pruebas, la probabilidad de no
rechazar H0 cuando la hipótesis es cierta se convierte en (1 − α)6 , que es un valor menor
que el 1 − α que se debería obtener si se realiza la prueba para H0 .
El Análisis de Varianza, como hemos comentado antes, se basa en la descomposición
de la variabilidad total de los datos. Veamos la siguiente definición
Definición 2.5.2 (ANOVA. Variabilidad) En un modelo ANOVA, clasificación simple
se definen las siguientes medidas de variabilidad:
ni
k X
X 2
SCT = yij − y ••
i=1 j=1
ni
k X
X 2
SCD = yij − y i•
i=1 j=1
ni
k X k
X 2 X 2
SCE = yi• − y •• = ni yi• − y •• .
i=1 j=1 i=1

SCT se interpreta como la variabilidad de las observaciones respecto a la media y


se le conoce como Suma de Cuadrados Total ; SCD denota la variabilidad inherente de
cada nivel y se le suele llamar Suma de Cuadrados Dentro y de la misma forma SCE
explica la variabilidad que existe entre los diferentes niveles y se le conoce como Suma
de Cuadrados Entre o Residual.
Es muy sencillo confirmar que

X ni
k X k
X ni
X
(yij − y i• )(y i• − y •• ) = (y i• − y •• ) (yij − y i• ) = 0,
i=1 j=1 i=1 j=1
| {z }
=0

A partir de la expresión anterior se puede verificar que


ni ni
k X
X
2
X 2
SCT = (yij − y•• ) = yij − y i• − (y i• − y •• )
j=1 i=1 j=1
k ni
k X
X 2 X 2
= ni yi• − y •• + yij − y i•
i=1 i=1 j=1
= SCE + SCD.

Las sumas de cuadrados SCD y SCE aumentan con el tamaño de la muestra, con el
objetivo de mitigar este efecto se definen los cuadrados medios para dichas variabilidades
SCE
CM E = (Cuadrado Medio Entre)
k−1
SCD
CM D = (Cuadrado Medio Dentro).
n−k
2.5. Análisis de Varianza 137

¿Cómo utilizar las medidas definidas previamente para crear una región crítica para el
problema? Note que

k ni
SCD 1 XX
CM D = = (yij − yi• )2 = sb2 .
n−k n − k i=1 j=1

Por tanto
E(CM D) = σ 2 .

En cuanto a CM E se puede demostrar que


Pk Pni 2
2 i=1 j=1 δi
E(CM E) = σ + .
k−1

Luego E(CM E) ≥ E(CM D). Note que la igualdad se cumple solamente cuando todos los
δi = 0. Recuerde que δi = αi − α = µi − µ. En ese sentido, si el cociente

E(CM E)
,
E(CM D)

toma valores cercanos a uno se pudiera decir que la influencia de los niveles del factor son
muy similares; y si toma valores significativamente mayores que uno, entonces se puede
asegurar que existen diferencias entre ellos. Es evidente que el cociente anterior no se
puede calcular en la práctica, por lo que se trabaja con el siguiente estadígrafo

CM E
F = .
CM D

Como variable aleatoria se puede verificar que F sigue una distribución de Fisher-Snedecor,
o sea, F = F (Y ) ∼ F (k − 1, n − k). Los valores k − 1 y n − k se conocen usualmente como
grados de libertad del modelo.
Luego para el problema

H0 : µ1 = µ2 = · · · = µk = µ
HA : ∃i : µi 6= µ,

la región crítica ωα se define como


n o
ωα = {yij } ∈ Ω : F > F1−α k − 1, n − k

Usualmente los resultados de un Análisis de Varianza, clasificación simple se resumen en


lo que se conoce como la Tabla ANOVA:
138 2. Estadística básica. Aplicaciones

Variación Suma de Cuadrados Grados de Libertad Cuadrado Medio Estadígrafo

ni
k X
X 2 SCE CM E
Entre SCE = yi• − y •• k−1 CM E = F =
i=1 j=1
k−1 CM D
k X ni
X 2 SCD
Dentro SCD = yij − y i• n−k CM D = ×
i=1 j=1
n−k

Total SCT = SCE + SCD n−1 × ×

Contrastes múltiples. Test de Bonferroni


Supongamos que para la prueba de hipótesis en el modelo ANOVA de clasificación
simple
H0 : µ1 = µ2 = · · · = µk = µ
HA : ∃i : µi 6= µ,
se concluye que se debe rechazar H0 , o sea, existe al menos un nivel cuya influencia
es diferente del resto. En ese caso pudiera resultar de interés conocer cuáles de estos
niveles son en sí, diferentes. En ese sentido presentaremos una pruebas de hipótesis que
se utiliza para darle respuesta a esa interrogante: Test de Bonferroni. Este procedmiento
se clasifican como test de comparaciones múltiples
El test de Bonferroni se basa en el comportamiento de la diferencia de las medias para
dos niveles diferentes. La prueba se puede escribir como

H0 : µr = µs
6 µs ,
HA : µr =

Note que esta prueba es muy similar a la prueba de comparación de medias de dos
poblaciones normales. En este caso aunque la región crítica se determina utilizando la
distribución t-student, también tiene en cuenta el número de comparaciones que se desean
realizar.
En un modelo ANOVA de clasificación simple con k niveles se pueden hacer k2 com-


paraciones. Supongamos que se desean realizar mk comparaciones, mk ≤ k2 . En ese caso




se obtiene la siguiente región:


n o
ωα = {yij } ∈ Ω : trs > t1− 2mα n − k ,
k

donde
|y − y s• |
trs = qr• .
sb n11 + n12
Note que el test de Bonferroni aunque se realiza para comparar dos medias específicas
s) y tiene en consideración el número total de
utiliza información de toda la muestra (b
comparaciones que se desean realizar (mk ).
2.5. Análisis de Varianza 139

Existen otras variantes para analizar hacer comparaciones múltiples, se pueden men-
cionar por ejemplo el Test de Tukey, el Test de rango múltiple de Duncan; el Test de
Newman-Keuls o el Test de Scheffé, por solo mencionar algunos.
Validación del Modelo
Como es de esperar, antes de utilizar un modelo ANOVA se deben confirmar que las
hipótesis del modelo se satisfacen. Recordemos que el modelo ANOVA de clasificación
simple:
Yij = µ + δi + εij i = 1, 2, · · · , k
j = 1, 2, · · · , ni ,
se basa en la aleatoriedad de la muestra {Yij }, la normalidad de εij ∼ N (0, σ 2 ) y en la
homocedasticidad de los errores (σ 2 constante).

1. Aleatoriedad:
Para analizar la aleatoriedad se hace uso del Test de Rachas que se estudió previa-
mente.

2. Normalidad:
En cuanto a la normalidad se puede utilizar el test clásico de Kolmogorov-Smirnov
o una prueba de bondad de ajuste χ2 .

3. Homocedasticidad:
Para analizar la homocedasticidad del modelo, o lo que es lo mismo, si en cada nivel
la varianza es la misma, se utilizan ciertas pruebas de hipótesis para la comparación
múltiple de varianzas, o sea:

H0 : σ12 = σ22 = · · · = σk2 = σ 2


,
HA : ∃i =6 j : σi2 6= σj2

donde σi2 es la varianza asociada al i-ésimo nivel.


Para esta prueba se puede utilizar el llamado Test de Bartlett
En las k subpoblaciones se definen las varianzas muestrales:
i n
1 X
s2i = (yij − y i• )2 , i = 1, 2, · · · , k.
ni − 1 j=1

La región crítica para la igualdad de varianzas de nivel α se define como


n o
2 2
ωα = {yij } ∈ Ω : χ > χ1−α (k − 1) ,

donde
k
s2 ) − (ni − 1) ln (s2i )
P
(n − k) ln (b
χ2 =  ki=1  ,
1
P 1 1
1 + 3(k−1) ni −1
− n−k
i=1
140 2. Estadística básica. Aplicaciones

y
k
2 1 X
sb = (ni − 1)s2i .
n − k i=1

En problemas reales, la aleatoriedad de la muestra muchas veces se garantiza a partir


del diseño del experimento que se realiza y por ende la prueba de las rachas no es necesaria;
en otros casos, como habíamos mencionado antes, no se utiliza porque se desconoce el
orden en el cual se seleccionó. La normalidad y homocedasticidad son supuestos que
deben ser verificados.
Cuando alguna de las hipótesis del modelo no se cumplen se emplean test no para-
métricos para analizar la igualdad de los efectos de los niveles. Entre los métodos más
conocidos están el test de Kruskal–Wallis que se utiliza en ausencia de la normalidad o la
homocedasticidad, pero requiere la independencia de las observaciones; el test de Welch
que se emplea cuando falla la condición de homocedasticidad y el test Q de Cochran
cuando ninguna de las hipótesis del modelo ANOVA se satisface, y la variable respuesta
es dicotómica y el número de elementos por nivel es el mismo.

2.5.4 Aplicación de ANOVA en un ejemplo


Para comprender mejor como utilizar el modelo ANOVA de clasificación simple vea-
mos un ejemplo sencillo. Suponga que se desea conocer el tiempo que demora un algoritmo
estocástico3 que determina el máximo de una función determinada cuando se utilizan cua-
tro tipos de programas diferentes: MATLAB, C++, Phyton y R. Para eso se tienen 45
computadoras con las mismas características. Si se asume que el tiempo depende solamen-
te del programa utilizado, entonces se puede pensar en utilizar un modelo de ANOVA,
clasificación simple donde el factor es “tipo de programa” con cuatro niveles.
Con el objetivo obtener los resultados se deben correr los programas con las mismas
condiciones iniciales. ¿Cómo proceder? Con el objetivo de minizar la influencia de los fac-
tores externos que no son de interés para el problema se debe garantizar que las unidades
de prueba o experimentales, digamos las computadoras, son similares. La condición de
homogeneidad de las unidades experimentales es crucial para el desarrollo del ANOVA.
Este supuesto se satisface en el ejemplo porque se asume que todas las computadoras
poseen las mismas características. El segundo paso consiste en asignar un número de ob-
servaciones para cada nivel, o sea los ni . Una forma de hacer esto consiste en generar 45
valores aleatorios discretos uniformes en el conjunto {1, 2, 3, 4}. Acto seguido se procede
a realizar el experimento y al finalizar se analizan los datos obtenidos para comprobar si
existe o no una influencia de los niveles del factor “programa” en el tiempo de ejecución
del algoritmo. Más adelante en el curso se discutirán algunos aspectos relacionados con
este procedimiento de diseño de experimentos.
Después de concluido el experimento se obtuvieron los siguientes resultados

3
Un algoritmo estocástico se puede interpretar, en su formulación más simple, como un método que
produce valores aleatorios para el mismo estado inicial.
2.5. Análisis de Varianza 141

Tiempos de ejecución
MATLAB C++ Phyton R
12,94 12,33 12,27 11,53 13,82 12,24 14,38 12,16
12,00 12,31 10,75 12,52 13,49 12,31 12,29 14,77
12,60 11,63 10,80 12,80 13,77 11,86 13,22
13,70 12,68 8,80 10,88 13,78 13,31 13,63
12,62 10,23 10,68 11,52 15,11 12,15
11,46 9,61 13,54 13,13 13,95
11,64 10,61 12,91 13,41

Realizando los cálculos correspondientes se obtiene la tabla ANOVA:

Variación Suma de Cuadrados Grados de Libertad Cuadrado Medio Estadígrafo

Entre SCE = 40,18 3 CM E = 13,39 F = 14,44

Dentro SCD = 30,02 41 CM D = 0,93 ×

Total SCT = 70,20 44 × ×

Sea la prueba
H0 : µ1 = µ2 = µ3 = µ4 = µ
HA : ∃i : µi 6= µ,
Si α = 0,01, entonces
 
F1−α k − 1, n − k = F0,99 3, 41 = 4,29.

Luego F = 14,44 > 4,29 = F0,99 3, 41 , o sea la muestra pertenece a la región crítica:
n o
ωα = {yij } ∈ Ω : F > F1−α k − 1, n − k ,

por tanto existe evidencia en contra la igualdad de las medias en H0 . Es decir, el tiempo
de cálculo por cada uno de los programas no es el mismo. Este resultado puede resultar
intuitivo, incluso antes de realizar el análisis, si se conocen las características generales
reportadas para cada programa. No obstante, pudiera suceder que algunas propiedades del
algoritmo en sí se adaptaran mejor a las características de uno o varios de estos programas.
Antes de continuar se deberían verificar los supuestos del modelo. La aleatoriedad ya
está implícita por el diseño. Para analizar la normalidad de los datos debemos hallar los
ruidos, o sea εbij , recordemos que

εbij = yij − y i• , ∀i = 1, 2, 3, 4; j = 1, 2, · · · , ni .
142 2. Estadística básica. Aplicaciones

Realizando los cálculos a partir de un programa estadístico se obtiene que el estadígrafo


para la prueba, Dn = D45 = 0,07. A partir de la Tabla G.22 se obtiene para αKS = 0,05
que
1,36
DαKS = D0,05 = √ ≈ 0,205.
45
Luego D45 = 0,07 < 0,205 = D0,05 y por tanto no se tiene evidencia en contra de la
normalidad de los datos. Recuerde que la región crítica del test de Kolmogorov-Smirnov
es: La región crítica del test viene dada por
ωαKS = {x ∈ Ω : Dn ≥ DαKS }.
Para verificar la homocedasticidad utilizaremos el test de Bartlett. En este caso la
región crítica para la igualdad de varianzas de nivel αBt se define como
n o
ωαBt = {yij } ∈ Ω : χ2 > χ21−αBt (k − 1) .

Realizando los cálculos correspondientes se obtiene para αBt = 0,05 que


χ2 ≈ 3,55,
y
χ21−αBt (k − 1) = χ20,95 (3) = 7,81.
Por ende no hay evidencia en contra de la igualdad de varianza en el modelo.
Al concluir esta prueba podemos asegurar que el modelo satisface todas las hipótesis
requeridas.
En este ejemplo en particular, como se rechazó la igualdad de medias se puede rea-
lizar el test de Bonferroni. Como tenemos 4 niveles se pueden realizar m4 = 42 = 6
comparaciones con la siguiente región crítica de nivel αBr
n o
ωαBr = {yij } ∈ Ω : trs > t1− αBr n − k ,
2mk

En nuestro caso  
t1− αBr n − k = t0,9958 41 = 2,772.
2mk

En la siguiente tabla se obtienen los valores de trs correspondientes a las seis pruebas:
Test de Bonferroni
Prueba Estadígrafo Decisión
H0 : µ1 = µ2 t12 = 3,482 Se rechaza H0
H0 : µ1 = µ3 t13 = 1,583 No se rechaza H0
H0 : µ1 = µ4 t14 = 2,489 No se rechaza H0
H0 : µ2 = µ3 t23 = 4,910 Se rechaza H0
H0 : µ2 = µ4 t24 = 6,178 Se rechaza H0
H0 : µ3 = µ4 t34 = 0,711 No se rechaza H0

Analizando la tabla anterior se puede notar que el segundo programa (C++) tiene una
media diferente al resto de los programas y a su vez no se pueden establecer diferencias
entre las medias del resto de los programas.
2.6. Introducción a las Redes Bayesianas 143

2.6 Introducción a las Redes Bayesianas


2.6.1 Nociones elementales
Una red bayesiana no es más que un modelo gráfico que permite describir un fenómeno
o situación determinada a partir de un conjunto de variables aleatorias y sus relaciones de
dependencia. En general una red bayesiana permite estudiar la relación entre las variables
e inferir patrones entre ellas y, de esa forma, descubrir la relevancia de las variables en un
modelo específico.
Las redes bayesianas ofrecen una solución a problemas reales en diversos campos: teoría
de la información, reconocimiento de patrones, redes celulares, inteligencia artificial, entre
otras tantos. En cada caso se apoya de un basamento matemático que permite expresar
relaciones entre las variables que se analizan de una forma clara y precisa y, como su
nombre lo indica, sus fundamentos descansan en el Teorema de Bayes.
Para definir una red bayesiana debemos enunciar algunos conceptos elementales de la
teoría de grafos.
Definición 2.6.1 (Grafo) Un grafo G está formado por conjunto finito de nodos o
vértices, denotado por V = {v1 , v2 , · · · , vk } y por un conjunto de aristas o arcos E
definidas sobre V × V , o sea G = (V, E).

Se dice que el grafo es simple si E no contiene ningún arco del tipo (vi , vi ), ∀i, y el
arco (vi , vj ) ∈ E solamente aparece una sola vez.
Si (vi , vj ) ∈ E diremos que el arco es directo y lo escribiremos como vi vj y, vi se
considera el “padre” de vj y a su vez vj es llamado “hijo” de vi . Si además se cumple que
(vj , vi ) ∈ E, entonces el arco es llamado indirecto y lo denotaremos por vi ! vj . Si todos
los arcos de un grafo son directos, entonces se dice que el grafo es dirigido.
Definición 2.6.2 (Trayectoria) Sea un grafo G = (V, E). Se dice que T(`) es una tra-
yectoria entre dos nodos a y b si existe una sucesión de nodos diferentes (τ0 , τ1 , · · · , τ` )
tales que τ0 = a, τ` = b y τi−1 τi , i = 1, 2, · · · , `. Se dice que la trayectoria tiene
longitud `. Si ocurre que b = a, o sea, τ0 = τ` se dice que existe un ciclo de longitud `.
Se dice que el grafo es acíclico si no existe ningún ciclo de longitud ` > 1.
Se dice que el grafo es conexo si para cualquier par de vértices de G existe una
trayectoria entre ellos.
Una red bayesiana se puede definir formalmente como sigue

Definición 2.6.3 (Red Bayesiana) Una red bayesiana RB es un grafo G = (V, E) diri-
gido y acíclico (DAG de su nombre en inglés: acyclic directed graph), donde cada nodo
Xi de G representa a una variable aleatoria con un número finito de estados mutua-
mente excluyentes y además, cada nodo Xi contiene la distribución de probabilidad
condicional que solamente depende de los nodos padres de Xi , o sea, si RB tiene k
nodos (X1 , X2 , · · · , Xk ), entonces para cada Xi se cumple que

P (Xi |X1 , X2 , · · · , Xi−1 , Xi , · · · , Xk ) = P (Xi |Π(Xi )),


144 2. Estadística básica. Aplicaciones

donde Π(Xi ) es el conjunto de nodos padres de Xi . Esta propiedad le concede un


caracter Markoviano a la red bayesiana. En lo adelante escribiremos Πi en lugar de
Π(Xi ).

Un resultado que se deja como ejercicio es el siguiente


k
Y
P (X1 , X2 , · · · , Xk ) = P (Xi |Π(Xi )).
i=1

Cuando se trabaja con redes bayesianas los nodos son usualmente variables aleatorias
discretas. En algunos ejemplos se trabajan nodos con valores continuos, sin embargo en el
curso solamente se discutirá el caso discreto. Veamos la siguiente definición:
Definición 2.6.4 (Independencia condicional) Sean las variables discretas X, Y y
Z, diremos que X y Y son condicionalmente independientes dado Z si se cumple que

P (X = x, Y = y, Z = z) = P (X = x|Z = z)P (Y = y|Z = z)P (Z = z).

Sea una red bayesiana RB de k nodos (X1 , X2 , · · · , Xk ). Escribamos para cada Xi los
conjuntos siguientes: Πi : conjunto de nodos padres de Xi , Φi : conjunto de nodos hijos de
Xi y Θi : conjunto de los nodos restantes sin contar a Xi , o sea
{X1 , X2 , · · · , Xk } = {Xi } ∪ Πi ∪ Φi ∪ Θi .
Sea ahora Y ⊂ Φi ∪ Θi , entonces por la propiedad Markoviana de la red bayesiana se
cumple que
P (Xi |Y, Πi ) = P (Xi |Πi ).
A partir de la definición usual de probabilidad condicional se tiene que
P (Xi , Y, Πi )
P (Xi |Y, Πi ) = .
P (Y, Πi )
Entonces
P (Xi , Y, Πi ) = P (Xi |Y, Πi )P (Y, Πi )
= P (Xi |Πi )P (Y, Πi )
= P (Xi |Πi )P (Y |Πi )P (Πi ).
O sea, Xi es condicionalmente independiente con Y ⊂ Φi ∪ Θi dado Πi .

2.6.2 Construcción de una red bayesiana


El primer paso para construir una red bayesiana radica en reconocer que ciertamente
el problema en cuestión se puede modelar utilizando esta técnica. En ese sentido debemos
identificar un modelo de dependencia entre las variables que caracterizan la situación que
se analiza, además de que se debe confirmar que existe cierta causalidad entre las mismas.
Cuando hablamos de causalidad nos referimos a que existe un cierto orden de ocurren-
cia entre las variables que se analizan. Un caso extremo donde no se puede establecer
causalidad es aquel donde todas las variables del problema son independientes entre sí.
2.6. Introducción a las Redes Bayesianas 145

O sea, para crear una red bayesiana se necesita la información inicial del modelo:
probabilidad a priori de los estados de cada variable, orden parcial entre los nodos, las
probabilidades condicionales. Es importante que la red sea una representación adecuada
de la realidad que se analiza, si no carece de sentido su utilización. Finalmente, si para
un problema en específico se pudieran construir varias redes bayesianas, debemos escoger
por lo general, la red bayesiana más simple.
Supongamos X, Y son dos nodos en una red bayesiana, donde X es el padre de Y , o
sea X Y . Supongamos que X tiene k estados y su padre tiene m estados. En ese caso,
para el nodo X se deben conocer los siguientes valores
• El vector de dimensión k de las probabilidades a priori de los estados de X:
0
πX = (π10 , · · · , πk0 )t = (P (X = x1 ), · · · , P (X = xk ))t .

• La matriz de probabilidades condicionales de los estados del hijo dado los estados
del padre
 
P (Y = y1 |X = x1 ) · · · P (Y = ym |X = x1 )
.. ..
 
MY |X = P (Y = yj |X = xi ) 1≤i≤k = 
 .. 
.
. . . 
1≤j≤m
P (Y = y1 |X = xk ) · · · P (Y = ym |X = xk ) k×m

0
Utilizando el Teorema de Bayes con πX y MY |X se obtienen las probabilidades a priori
0
de los estados del hijo: πY , o sea,

πY0 = MtY |X · πX0


   
P (Y = y1 |X = x1 ) · · · P (Y = y1 |X = xk ) P (X = x1 )
.. .. .. ..
=  ·
   
. . . . 
P (Y = ym |X = x1 ) · · · P (Y = ym |X = xk ) P (X = xk )
 Pk   
i=1 P (Y = y1 |X = xi )P (X = xi ) P (Y = y1 )
=  .. ..
= .
   
. .
Pk
i=1 P (Y = ym |X = xi )P (X = xi )
P (Y = ym )

Veamos ahora un ejemplo concreto. Un juego de beisbol se puede jugar con una proba-
bilidad dada solo si ese día no llueve, pero la probabilidad de que llueva depende si llovió
el día anterior y a su vez el que haya llovido el día anterior o no, influye en la probabilidad
de que el transporte llegue a un nivel dado: bueno, normal o malo. Se sabe además que
la calidad del transporte a su vez influye en la puntualidad de comienzo del juego.
Para construir la red debemos identificar los posibles nodos. Es inmediato que se
pueden definir 5:
• A: Llueve el día del juego (Dos estados: llueve (A1 ) o no llueve(A2 )).

• B: Llueve el día anterior (Dos estados: llueve (B1 ) o no llueve(B2 )).

• C: Juego (Dos estados: se juega (C1 ) o no se juega (C2 )).

• D: Transporte (Tres estados: bueno (D1 ), normal (D2 ), malo(D3 )).


146 2. Estadística básica. Aplicaciones

• E: Puntualidad (Dos estados: comienza puntual (E1 ) o se demora (E2 )).

Analizando la causalidad entre dichas variables podemos determinar la red bayesiana


correspondiente:

B = (B1 , B2 )

A = (A1 , A2 ) D = (D1 , D2 , D3 )

C = (C1 , C2 ) E = (E1 , E2 )

Supongamos que se conocen las 4 matrices de probabilidades condicionales asociadas a la


red, o sea:
   
0,9 0,1 0,1 0,5 0,4
MA|B = , MD|B =
0,4 0,6 0,4 0,4 0,2
 
  0,8 0,2
0,2 0,8
MC|A = , ME|D =  0,4 0,6  .
1 0
0,05 0,95

Si se conoce que P (B = B1 ) = 0,3, entonces se pueden obtener todas las probabilidades


a priori de los estados, es decir:

πB0 = (0,3; 0,7)t .


   
0,9 0,4 0,3
πA0 = MtA|B · πB0= · = (0,55; 0,45)t .
0,1 0,6 0,7
   
0,2 1 0,55
πC0 = t 0
MC|A · πA = · = (0,56; 0,44)t .
0,8 0 0,45
 
0,1 0,4  
0 t 0 0,3
πD = MD|B · πB =  0,5 0,4  · = (0,31; 0,43; 0,26)t .
0,7
0,4 0,2
 
  0,31
0,8 0,4 0,05
πE0 = MtE|D · πD
0
= ·  0,43  = (0,433; 0,567)t .
0,2 0,6 0,95
0,26

O sea,
2.6. Introducción a las Redes Bayesianas 147

B = (B1 , B2 )
0 = (0,3; 0,7)t
πB
MA|B MD|B
A = (A1 , A2 )
0 D = (D1 , D2 , D3 )
πA = (0,55; 0,45)t
0 = (0,31; 0,43; 0,26)t
πD
MC|A
ME|D
C = (C1 , C2 )
0 = (0,56; 0,44)t E = (E1 , E2 )
πC
0 = (0,433; 0,567)t
πE

2.6.3 Propagación de información


Uno de los aspectos más importantes de una red bayesiana es su capacidad de in-
teractuar o aprender de factores internos o externos. Es de sentido común que una red
bayesiana que no sea capaz de pasar información a sus nodos, o recibir un mensaje por
alguno de ellos, no es una herramienta útil para problemas reales.
Existen varios métodos que permiten actualizar los valores de una red bayesiana. En
el curso solamente veremos el caso más sencillo basado en un algoritmo de propagación
en árboles (cada nodo tiene exactamente un solo padre).
Un mensaje no es más que toda nueva información que llega a la red bayesiana. Los
mensajes se puede dividir en dos tipos: mensajes provenientes de los nodos de la red o
mensajes que afectan a un nodo de la red a partir de factores externos. El primer tipo de
mensaje se refiere a los casos donde se conoce el valor que toma un nodo o variable de la
red, en esos casos se dice que la variable se instancia. Es decir, una variable instanciada
es aquella que toma un valor determinado en el conjunto de sus estados. Un mensaje
externo se puede considerar como información adicional sobre uno de los nodos de la red
y por convenio se considera como hijo de ese nodo. Usualmente el mensaje se asocia con
el nodo para el cuál se conocen todas las probabilidades condicionales del mensaje dado
los estados del nodo en cuestión. Esta situación es muy frecuente en la realidad porque
es muy difícil que una red bayesiana sea capaz de modelar todos los escenarios posibles
para una problema determinado.
En el curso solamente veremos al algoritmo de propagación en redes bayesianas con
estructura de árbol.

Redes bayesianas con estructura de árbol


En general debemos tener en cuenta algunos aspectos antes de pasar a analizar el
proceso de propagación de mensajes. Por ejemplo, para un nodo específico es conveniente
separar la información que entra por su padre o alguno de sus hijos para evitar que se
duplique la información, o sea, si Y “avisa” de algo a X y X no “sabe” que esta información
viene de Y , entonces se la puede volver a enviar. Un ejemplo clásico de redundancia es el
siguiente: un estado mayor tiene diez unidades menores en batalla y en una de ellas hay
una baja, el mensaje “soldado caído” es enviado al estado mayor y a cada unidad, a su
vez cada unidad que recibe vuelve a enviar el mensaje al resto de la red, el estado mayor
148 2. Estadística básica. Aplicaciones

cuenta nueve bajas más; si este proceso sigue, se tendría en poco tiempo la información
de que toda la tropa está muerta por causa de una sola baja.
Para ilustrar la propagación de un mensaje o información vamos a trabajar con los
nodos X = (Xi )1≤i≤k , Y = (Yi )1≤i≤m y Z = (Zi )1≤i≤r de una red bayesiana RB , tal que
X Y Z, o sea, X es padre de Y y este a su vez es padre de Z. Supongamos además
que Y tiene d hijos entre los cuales se encuentra Z. En lo adelante vamos a asumir que
X es el nodo raíz de la red.
Para evitar duplicidad de información en la red cada nodo de la red se va a equipar
con tres campos: uno con las probabilidades a priori (β·|π ), otro con la memoria de los
mensajes que ha recibido la red directamente por este nodo o por sus hijos (λM |· ) y un
tercero con las probabilidades actualizadas a posteriori de todos los estados (π·|λ∩π ). Por
ejemplo, los campos de Y se pueden escribir como

t
βY |π = P (Y1 | ∩ Mπ ), · · · , P (Ym | ∩ Mπ )
t
λM |Y = P (∩Mλ |Y1 ), · · · , P (∩Mλ |Ym )
t
πY |λ∩π = P (Y1 | ∩ Mπ ∩ Mλ ), · · · , P (Ym | ∩ Mπ ∩ Mλ ) ,

donde ∩Mλ es la información que ha recibido la red directamente por el nodo Y o por sus
hijos y ∩Mπ es la información que proviene del padre de Y .
El primer paso consiste en la inicialización de la red. En ese caso no existe información
adicional en la red y se asume en todos los nodos que

∩Mπ = ∩Mλ = Ω.

A partir de las matrices condicionales correspondientes se obtienen los valores de las


probabilidades a priori en cada nodo. En el caso de Y sus componentes quedan de la
siguiente forma

t
βY |π = πY0 = MtY |X · πX 0
= P (Y1 ), · · · , P (Ym )
t t
λM |Y = P (Ω|Y1 ), · · · , P (Ω|Ym ) = 1, · · · , 1
t
πY |λ∩π = P (Y1 |Ω), · · · , P (Ym |Ω) = πY0 .

Cuando un mensaje entra a la red se propagará de hijos a padres a partir de λ (se le


llamará λ-mensaje) y de padres a hijos a partir de π y se le conoce como π-mensaje.
2.6. Introducción a las Redes Bayesianas 149

El algoritmo de propagación se puede escribir como sigue

1. Inicialización de los nodos


2. Actualización de los nodos. Llegada de un mensaje
2.1. Mensaje en el nodo: La variable se instancia en un valor
2.2. La variable no está instanciada. Mensaje del hijo (λ-mensaje)
2.3. La variable no está instanciada. Mensaje del padre (π-mensaje)
3. Propagación de los mensajes

En una red con estructura de árbol el algoritmo se describe de la siguiente forma:

1. Inicialización de los nodos


1.1. Asumir en toda la red: ∩Mπ = ∩Mλ = Ω.
1.2. Determinar los tres campos en el nodo raíz

t t 0
βX|π = P (X1 |Ω), · · · , P (Xk |Ω) = P (X1 ), · · · , P (Xk ) = πX .
t t
λM |X = P (Ω|X1 ), · · · , P (Ω|Xk ) = 1, · · · , 1 .
t
πX|λ∩π = P (X1 |Ω), · · · , P (Xk |Ω) = βX|π .

1.3. Actualizar las probabilidades a priori de los hijos del nodo raíz

t
βY |π = MtY |X · βX|π = P (Y1 ), · · · , P (Ym ) = πY0 .
t t
λM |Y = P (Ω|Y1 ), · · · , P (Ω|Ym ) = 1, · · · , 1 .
πY |λ∩π = βY |π .

1.4. Actualizar el resto de la red de padres a hijos utilizando 1.3.


2. Actualización de los nodos. Llegada de un mensaje
2.1. Mensaje en el nodo: La variable se instancia en un valor: Yi .
2.1.1. Actualizar λ·|Y .
Sea M0 = {Yi } = {Y = yi }. El nodo puede o no tener mensajes almace-
nados ∩Mλ . El nuevo mensaje M se construye como

M = M0 ∩ (∩Mλ ).

Por tanto

   
P (M |Y1 ) P (M0 ∩ (∩Mλ )|Y1 )
λM |Y = .. ..
=
   
 . . 
P (M |Ym ) P (M0 ∩ (∩Mλ )|Ym )
   
P (M0 |Y1 ) P (∩Mλ |Y1 )
.. ..
= • ,
   
 . .
P (M0 |Ym ) P (∩Mλ |Ym )
150 2. Estadística básica. Aplicaciones

donde • representa el producto componente a componente. La fórmula


anterior se obtiene a partir de la propiedad de independencia condicional.
Supongamos que Y tiene d hijos, entonces para cada j = 1, 2, · · · , m se
cumple que
Yd
P (∩Mλ |Yj ) = P (Mλi |Yj ),
i=1

donde P (Mλi |Yj ) se define como la probabilidad condicional del mensaje


del hijo i dado el estado Yj .
Si denotamos
t
λ0|Y = P (M0 |Y1 ), · · · , P (M0 |Ym )
t
λ·|Y = P (∩Mλ |Y1 ), · · · , P (∩Mλ |Ym ) ,

entonces
λM |Y = λ0|Y • λ·|Y . (2.7)

Note además que


t
λ0|Y = P (M0 |Y1 ), · · · , P (M0 |Ym )
t
= P (Yi |Y1 ), · · · , P (Yi |Ym ) ,

o sea, λ0|Y es un vector de zeros, excepto en la posición i que toma el valor


uno, luego
t
λM |Y = 0, · · · , 0, P (∩Mλ |Yi ), 0 · · · , 0 .

Si el nodo no ha recibido mensajes de sus hijos, entonces ∩Mλ = Ω y por


ende
t
λM |Y = 0, · · · , 0, 1, 0 · · · , 0 .

2.1.2. Actualizar las probabilidades a priori β·|π


Note que realmente β·|π no se afecta porque no hay información nueva del
padre de Y , o sea:
t
βY |π = β·|π = P (Y1 | ∩ Mπ ), · · · , P (Ym | ∩ Mπ ) .

2.1.3. Actualizar las probabilidades a posteriori π·|λ∩π


El valor de π·|λ∩π se actualiza a partir de la siguiente fórmula

πY |λ∩π = α · λM |Y • βY |π , (2.8)

donde
m
X
α−1 = P (∩Mλ |Yj )P (Yj | ∩ Mπ ).
j=1
2.6. Introducción a las Redes Bayesianas 151

Veamos como se obtiene la expresión en (2.8). Para cada j = 1, 2, · · · , m


sean
βyj |∩π = P (Yj | ∩ Mπ ).
λM |yj = P (∩Mλ |Yj ).
πyj |λ∩π = P (Yj | ∩ Mλ ∩ Mπ ).
Utilizando el Teorema de Bayes y la propiedad de independencia condi-
cional en la red
P (∩Mλ |Yj , ∩Mπ ) = P (∩Mλ |Yj ),
se obtiene

P (Yj , ∩Mλ , ∩Mπ )


πyj |λ∩π =
P (∩Mλ ∩ Mπ )
P (∩Mλ |Yj , ∩Mπ )P (Yj | ∩ Mπ )P (∩Mπ )
=
P (∩Mλ ∩ Mπ )
P (∩Mλ |Yj )P (Yj | ∩ Mπ )P (∩Mπ )
=
P (∩Mλ ∩ Mπ )
P (∩Mπ )
= λM |yj · βyj |∩π · .
P (∩Mλ ∩ Mπ )
A partir de la Fórmula de Probabilidad Total y utilizando una vez más la
propiedad de independencia condicional se deduce que

m
P (∩Mλ ∩ Mπ ) X P (∩Mλ ∩ Mπ |Yi )P (Yi )
=
P (∩Mπ ) P (∩Mπ )
j=1
Xm
= P (Yj | ∩ Mπ )P (∩Mλ |Yj )
j=1
Xm
= λM |yj βyj |∩π = α−1 .
j=1

Recordemos que en este paso se tiene que


t
λM |Y = 0, · · · , 0, λM |yi , 0 · · · , 0
t
βY |π = βy1 |∩π , · · · , βym |∩π .
Es inmediato que
m
X
−1
α = λM |yj βyj |∩π = λM |yi βyi |∩π ,
j=1

por tanto
t
πY |λ∩π = α · λM |Y • βY |π = 0, · · · , 0, 1, 0 · · · , 0 .
152 2. Estadística básica. Aplicaciones

2.2. La variable Y no está instanciada. Mensaje del hijo Z (λ-mensaje)


2.2.1. Actualizar λ·|Y
Sea MZ el mensaje proveniente del hijo Z. El nodo puede o no tener
mensajes almacenados ∩Mλ . El nuevo mensaje M se construye como

M = MZ ∩ (∩Mλ ).

Utilizando la misma idea del paso 2.1.1. y la ecuación (2.7) se obtiene


que

λM |Y = λMZ |Y • λ·|Y ,
o sea:
   
P (MZ |Y1 ) P (∩Mλ |Y1 )
= λMZ |Y • λ·|Y .. ..
λM |Y = • .
   
. .
P (MZ |Ym ) P (∩Mλ |Ym )

En la expresión anterior λMZ |Y se obtiene de la siguiente forma

λMZ |Y = MZ|Y · λMZ |Z


   
P (Z1 |Y1 ) · · · P (Zr |Y1 ) P (MZ |Z1 )
.. .. .. ..
=  ·
   
. . . . 
P (Z1 |Ym ) · · · P (Zr |Ym ) P (MZ |Zr )
 r 
P
P (Z |Y
i 1 )P (M |Z
Z i  )  

 i=1  P (MZ |Y1 )
=  .. ..
= .
   
 r .  .
 P
P (Zi |Ym )P (MZ |Zi )
 P (MZ |Ym )
i=1

La última igualdad se obtiene a partir de la propiedad de independencia


condicional. En la j-ésima componente de λMZ |Y se tiene que

r
X r
X
P (Zi |Yj )P (MZ |Zi ) = P (Zi |Yj )P (MZ |Zi , Yj )
i=1 i=1
r
1 X
= P (Zi |Yj )P (MZ |Zi , Yj )P (Yj )
P (Yj )
i=1
P (MZ Yj )
= = P (MZ |Yj ).
P (Yj )

Por tanto

λM |Y = MZ|Y · λMZ |Z • λ·|Y . (2.9)

Es importante que se realice el producto usual de matrices antes de efec-


tuar el producto componente a componente.
2.6. Introducción a las Redes Bayesianas 153

Note además que si un hijo le pasa un mensaje por segunda vez a su padre,
entonces se replicaría la información. Es por ese motivo que cuando un
nodo recibe la información de un hijo por λ, se debe eliminar primero la
información previa que esta guardada en λ·|Y . O sea, cuando se actualiza la
red a partir de un hijo, digamos Z, se debe utilizar la siguiente expresión:
Y
b·|Y = P (M 0 |Y ) •
λ •P (Mλ |H),
λ
H∈H:H6=Z
Q
donde H representa al conjunto los hijos de Y . Se define además • como
la productoria término a término de vectores y P (Mλ0 |Y ) es el valor de
λM |Y con la información externa que ha entrado a la red por el nodo Y .
Luego, se debe utilizar

λM |Y = MZ|Y · λMZ |Z • λ b·|Y . (2.10)

2.2.2. Actualizar las probabilidades a priori β·|π


Aquí ocurre lo mismo que en 2.1.2.. El valor de β·|π no se afecta porque
no hay información nueva del padre de Y , o sea:
t
βY |π = β·|π = P (Y1 | ∩ Mπ ), · · · , P (Ym | ∩ Mπ ) .

2.2.3. Actualizar las probabilidades a posteriori π·|λ∩π


El valor de π·|λ∩π se actualiza a partir de la fórmula (2.8):

πY |λ∩π = α · λM |Y • βY |π ,

donde m
X
−1
α = λM |yj βyj |∩π .
j=1

2.3. La variable Y no está instanciada. Mensaje del padre X (π-mensaje)


2.3.1. Actualizar λ·|Y
Como el mensaje proviene del padre entonces λM |Y no se ve afectada, o
sea
t
λM |Y = λ·|Y = P (Mλ |Y1 ), · · · , P (Mλ |Ym ) .

2.3.2. Actualizar las probabilidades a priori β·|π


En este paso se debe prestar atención. Para hallar βY |π se necesita πX|λ∩π :
βY |π = MtY |X · πX|λ∩π .
En el proceso de actualización el valor πX|λ∩π se obtiene como
πX|λ∩π = αX · λM X |X • βX|π ,
donde
k
X
α−1 = λM X |xj βxj |∩π .
j=1
154 2. Estadística básica. Aplicaciones

Es sencillo verificar que si X tiene r hijos incluyendo a Y , entonces


r
Y
λM X |X = P (Mλ0 |X) • •P (Mλi |HX
i
),
i=1
i i
donde HX es el i-ésimo
Qr hijo de X y Mλ es el mensaje proveniente del
hijo i. Como antes, i=1 • denota la productoria término a término de
vectores y P (Mλ0 |X) es el valor de λM |X asociado con todos los mensajes
externos que han entrado a la red por X. Note que cuando el nodo no ha
recibido información realmente P (Mλ0 |X) es un vector de unos, y en ese
1
caso no afecta el valor de λM X |X . Por simplicidad digamos que HX =Y
i
y por ende Mλ = Mλ . O sea, si utilizamos πX|λ∩π actualizaríamos el valor
de βY |π con información Mλ que ya se encuentra guardada en el nodo Y ,
específicamente en λ·|Y . Por tanto cuando actualicemos πY |λ∩π se replicaría
la información. Para evitar ese problema se definen los siguientes valores
Y
bj X
λ = P (M 0
|X) • •P (Mλi |HX
i
)
M |X λ
i6=j
j bj X • βX|π
π
bX|λ∩π bX · λ
= α M |X
k
X
(b
αX ) −1
= bj X βx |∩π .
λM |xs s
s=1

O sea, cuando se pasa la información de un padre a su hijo se elimina toda


la información que proviene del mismo. Por simplicidad denotemos π bX|λ∩π
como la probabilidad a posteriori de X dado todos los mensajes de la red,
excepto por el mensaje proveniente de Y . La probabilidad a posteriori de
Y se actualiza a partir de la expresión:

βY |π = MtY |X · π
bX|λ∩π . (2.11)

Digamos que el mensaje que proviene del padre es Mλ∩π entonces


t
bX|λ∩π = P (X1 |Mλ∩π ), · · · , P (Xk |Mλ∩π ) .
π
Por tanto
βY |π = MtY |X · π
bX|λ∩π
   
P (Y1 |X1 ) · · · P (Y1 |Xk ) P (X1 |Mλ∩π )
.. .. .. ..
=  ·
   
. . . . 
P (Ym |X1 ) · · · P (Ym |Xk ) P (Xk |Mλ∩π )
 Pk   
i=1 P (Y1 |Xi )P (Xi |Mλ∩π ) P (Y1 |Mλ∩π )
=  .. ..
= .
   
. .
Pk
i=1 P (Ym |Xi )P (Xi |Mλ∩π )
P (Ym |Mλ∩π )
La última igualdad se obtiene a partir de la independencia condicional.
Al igual que antes veamos que sucede en el j-ésimo elemento:
2.6. Introducción a las Redes Bayesianas 155

k
X k
X
P (Yj |Xi )P (Xi |Mλ∩π ) = P (Yj |Xi , Mλ∩π )P (Xi |Mλ∩π )
i=1 i=1
k
1 X
= P (Yj |Xi , Mλ∩π )P (Xi |Mλ∩π )P (Mλ∩π )
P (Mλ∩π ) i=1
k
1 X
= P (Yj , Xi , Mλ∩π )
P (Mλ∩π ) i=1
P (Yj , Mλ∩π )
= = P (Yj |Mλ∩π ).
P (Mλ∩π )

2.3.3. Actualizar las probabilidades a posteriori π·|λ∩π


El valor de π·|λ∩π se actualiza como antes a partir de la fórmula (2.8):

πY |λ∩π = α · λM |Y • βY |π ,

donde m
X
−1
α = λM |yj βyj |∩π .
j=1

3. Propagación de los mensajes


3.1. Nodo instanciado
En ese caso el algoritmo se detiene en el nodo.
3.2. Nodo no instanciado
3.2.1. Mensaje del hijo
Recibe un λ-mensaje: λM |Z .
3.2.2. Mensaje del padre
Recibe un π-mensaje: π bX|λ∩π .
Note que para enviar este π-mensaje se requiere conocer de donde vino la
información de los hijos, por tanto el campo relativo a λ se debe crear un
vector de dimensión d + 2 para un padre con d hijos para guardar los λ-
mensajes correspondientes. Las dos componentes extras son para guardar
la información inicial y final del nodo referida a λ.

Como nos podemos percatar hemos descrito al algoritmo de propagación de informa-


ción en una red bayesiana cuando los mensajes los produce la propia red. ¿Qué hacer
ahora cuando llega un mensaje externo a la red? La respuesta es simple, dicho mensaje
Me debe guardar alguna relación con un nodo de la red, digamos Y . En ese caso el mensaje
se interpreta como un hijo de ese nodo y le pasa la información por un λ-mensaje: λMe |Y .
Note que en este caso para actualizar Y se utiliza el paso 2.2.:

λM |Y = λMe |Y • λ·|Y .

Lo usual es que se conozca λMe |Y , en caso contrario se debe tener la matriz de probabili-
dades condicionales del “nodo mensaje” E dado el padre Y : ME|Y , donde Me es un estado
156 2. Estadística básica. Aplicaciones

del nodo E y además conocer λMe |E para utilizar

λMe |Y = ME|Y · λMe |E .

No obstante, lo más probable es que se conozca el mensaje en sí y no se requiera utilizar


la fórmula anterior.
El proceso anterior se puede extender para las redes bayesianas, en las cuales un nodo
puede tener más de un padre y a su vez los padres son independientes entre sí. Para
otras redes más complejas existen otros métodos pero no es objetivo del curso analizar su
formulación. Para un análisis más detallado le sugerimos al lector el texto de Kærulff and
Madsen [9].
Si en una red bayesiana un nodo tiene más de un padre, se dice que la red tiene una
estructura de poliárbol. En ese caso se asume que los padres del nodo en cuestión son
independientes entre sí y condicionalmente dependientes dado los estados del nodo hijo.
Ahora analizaremos como pasar la información en una red con estructura de poliárbol.
Para ilustrar el procedimiento vamo a suponer que se tiene una red donde un nodo tiene
a lo sumo dos padres. El caso general es mucho más complejo en cuanto a notaciones.
Supongamos que se tiene el siguiente fragmento de la red bayesiana

B C

Tanto B como C pueden tener otros hijos y otros padres, al igual que A puede tener
otros hijos. Veamo como ajustar el método de propagación de la información en redes
con estructura de árbol adaptada a este caso. Note que si la situación anterior solamente
se repite una sola vez en la red, entonces la actualización de los restantes nodos se hace
utilizando el método usual.
En esta situación supongamos que el nodo B tiene k estados: B = (Bi )1≤i≤k ; el nodo C
tiene r estados: C = (Cj )1≤j≤r y el nodo A tiene m estados: A = (Au )1≤u≤m . A partir de la
relación descrita entre los nodos A, B y C es inmediato que las probabilidades conjuntas
de los estados de ambos padres son necesarias para determinar las probabilidades de los
estados del hijo. Este razonamiento lógico induce el primer cambio del método: ahora
se tiene una nueva matriz de probabilidades condicionales de los estados del hijo, dado
los estados conjuntos de los padres. En este caso particular se tienen n = k · r “nuevos
estados”, digamos D = (D` )1≤`≤n , donde D` = Bi` · Cj` ,

i` = k − (` mód k), i` ∈ {1, 2, · · · , k}


j` = r − (` mód r), j` ∈ {1, 2, · · · , r}.

y  
P (A1 |D1 ) · · · P (Am |D1 )
.. ..
 
MA|BC = MA|D = P (Aj |D` ) 1≤`≤n = 
 .. 
.
. . . 
1≤j≤m
P (A1 |D` ) · · · P (Am |D` ) `×m
2.6. Introducción a las Redes Bayesianas 157

En este tipo de red la matriz MA|BC permanece invariante. Si se tiene en cuenta el orden
que se utilizó para obtener D, entonces la matriz MA|BC se puede descomponer de la
siguiente forma:
 
MtA|D = MtA|D1,1:r MtA|D2,1:r · · · MtA|Dk,1:r ,

donde  
P (A1 |Bi · C1 ) · · · P (A1 |Bi · Cr )
MtA|Di,1:r =
 .. .. .. 
.
. . . 
P (Am |Bi · C1 ) · · · P (Am |Bi · Cr ) m×r

De la misma forma se puede establecer otro orden para MA|BC . Sea E = (E` )1≤`≤n , donde
E` = Bj` · Ci` ,

i` = r − (` mód r), i` ∈ {1, 2, · · · , r}


j` = k − (` mód k), j` ∈ {1, 2, · · · , k}.

y
 
P (A1 |E1 ) · · · P (Am |E1 )
.. ..
 
MA|BC = MA|E = P (Aj |E` ) 1≤`≤n = 
 .. 
.
. . . 
1≤j≤m
P (A1 |E` ) ··· P (Am |E` ) `×m

Como antes se obtiene que:


 
MtA|E = MtA|E1,1:k MtA|E2,1:k ··· MtA|Er,1:k ,

donde  
P (A1 |Ci · B1 ) · · · P (A1 |Ci · Bk )
MtA|Ei,1:r =
 .. .. .. 
.
. . . 
P (Am |Ci · B1 ) · · · P (Am |Ci · Bk ) m×k

A partir de la descomposición previa se pueden obtener las matrices MA|B y MA|C .


Escribamos

πB0 = (P (B1 ), · · · , P (Bk ))t


πC0 = (P (C1 ), · · · , P (Cr ))t .

Utilizando la independencia entre B y C se puede verificar sin dificultad que


 
MtA|B = MtA|D1,1:r · πC0 MtA|D2,1:r · πC0 · · · MtA|Dk,1:r · πC0
 
MtA|C = MtA|E1,1:k · πB0 MtA|E2,1:k · πB0 · · · MtA|Er,1:k · πB0 .

Note por ejemplo que


158 2. Estadística básica. Aplicaciones

   
P (A1 |Bi · C1 ) · · · P (A1 |Bi · Cr ) P (C1 )
MtA|Di,1:r · πC
0 .. .. .. ..
=  ·
   
. . . . 
P (Am |Bi · C1 ) · · · P (Am |Bi · Cr ) P (Cr )
 Pr   P r 
P (A1 |Bi · Cj )P (Cj ) P (A1 |Bi · Cj )P (Cj |Bi )
 j=1   j=1 
   
=  .. ..
=
   
 r .   r . 

 P   P
P (Am |Bi · Cj )P (Cj ) P (Am |Bi · Cj )P (Cj |Bi )

j=1 j=1
 
P (A1 |Bi )
=  ..
.
 
.
P (Am |Bi )

Note que a partir de las expresiones que se obtuvieron para las matrices MA|B y MA|C
ambas se van a modificar cuando la red se actualice. No obstante, pueden existir situacio-
nes en las cuales se conozcan algunos valores de MA|B o MA|C . En esos casos se producen
sistemas de ecuaciones que determinan el comportamiento de MA|D y por ende de MA|E .
Luego, en el proceso de actualización los valores que se conocen a priori no sufren cambios
durante el proceso de actualización.
Supongamos que se tiene la siguiente red bayesiana genérica:

R1 B C

En la red previa, R es el nodo raíz y R1 denota una rama formada por uno o varios
nodos donde cada uno tiene solamente un solo padre. Vamos a asumir que no se tiene
información acerca de MA|B o MA|C . Veamos como se actualiza específicamente la red en
los nodos A, B y C:
1. Inicialización de los nodos
Nodo C: Es un nodo raíz se actualiza como R.
Nodo B: Utilizando el procedimiento usual.
Nodo A: Se utiliza MA|D y D = (D` )1≤`≤n
t
βA|π = MtA|D · βD|π = P (A1 ), · · · , P (Am ) = πA
0
.
t
λM |A = 1, · · · , 1 .
πA|λ∩π = βA|π .

Se puede utilizar de la misma forma MA|E y E = (E` )1≤`≤n


2. Actualización de los nodos. Llegada de un mensaje
2.6. Introducción a las Redes Bayesianas 159

2.1. Mensaje en el nodo: La variable se instancia en un valor.


Se utiliza el procedimiento usual para los tres nodos A, B y C.
2.2. La variable no está instanciada. Mensaje desde el hijo A (λ-mensaje)
2.2.1. Actualizar λ·|B y λ·|C
Por tanto

λM |B = MA|B · λMA |A • λ b·|B

λM |C = MA|C · λMA |A • λ b·|C .

donde
 
MtA|B t t t
= MA|D1,1:r · πC|λ∩π MA|D2,1:r · πC|λ∩π · · · MA|Dk,1:r · πC|λ∩π
 
MtA|C = MtA|E1,1:k · πB|λ∩π MtA|E2,1:k · πB|λ∩π · · · MtA|Er,1:k · πB|λ∩π .

Note que tanto πB|λ∩π como πC|λ∩π son los valores de ambos nodos sin
actualizar con la nueva información que proviene de A. Al igual que an-
tes, se debe efectuar el producto usual de matrices antes que el producto
componente a componente.
2.2.2. Actualizar las probabilidades a priori β·|π
El valor de β·|π no se afecta porque no hay información nueva del padre,
o sea:
t
βB|π = P (B1 | ∩ Mπ ), · · · , P (Bk | ∩ Mπ )
t
βC|π = P (C1 | ∩ Mπ ), · · · , P (Cr | ∩ Mπ ) .

2.2.3. Actualizar las probabilidades a posteriori π·|λ∩π


El valor de π·|λ∩π se actualiza de la forma usual:

πB|λ∩π = αB · λM |B • βB|π
πC|λ∩π = αC · λM |C • βC|π ,

donde
k
X
−1
αB = λM |bi βbi |∩π
i=1
r
X
αC−1 = λM |cj βcj |∩π .
j=1

2.3. La variable no está instanciada. Mensaje del padre B o C (π-mensaje)


2.3.1. Actualizar λ·|A
Como el mensaje proviene del padre entonces λM |A no se ve afectada:
t
λM |A = λ·|A = P (Mλ |A1 ), · · · , P (Mλ |Am ) .
160 2. Estadística básica. Aplicaciones

2.3.2. Actualizar las probabilidades a priori β·|π

βA|π = MtA|D · π
bD|λ∩π .

Como antes, en la expresión π bD|λ∩π están las probabilidades condicionales


de los D = (D` )1≤`≤n , D` = Bi` · Cj` sin considerar la información que
tienen los padres de A. O sea, π
bD|λ∩π se obtiene a partir de π
bB|λ∩π y π
bC|λ∩π .
Como en ambos casos la información de A se elimina entonces se puede
utilizar la propiedad de independencia entre los nodos B y C:
P (D` |M
cλ∩π ) = P (Bi |M
cλ∩π ) · P (Cj |M
`
cλ∩π ),
`

donde Mcλ∩π denota la información en la red sin considerar aquella que


proviene de A. Note que de la misma forma se puede trabajr con MtA|E .
2.3.3. Actualizar las probabilidades a posteriori π·|λ∩π
El valor de π·|λ∩π se actualiza de la forma usual

πA|λ∩π = α · λM |A • βA|π ,

donde m
X
−1
α = λM |au βau |∩π .
u=1
3. Propagación de los mensajes
3.1. Nodo instanciado
3.1.1. Algún padre instanciado: B o C
En ese caso el algoritmo se detiene en el nodo en cuestión
3.1.2. El hijo instanciado: A
La información del nodo A no cambia, no obstante si el nuevo mensaje
proviene de B, se debe pasar la información al nodo C. Este compor-
tamiento se debe a que la matriz MA|C cambia si los estados de B se
actualizan y por ende, cambian las probabilidades de los estados de C. De
forma equivalente se procede si la información proviene de C.
Si el nodo A tuviera hijos el algoritmo se detiene en el nodo.
3.2. Nodo no instanciado
3.2.1. Mensaje del hijo
Recibe un λ-mensaje: λM |A .
En este caso se debe tener en cuenta que se requiere la información de los
otros padres del nodo A. No es necesario crear campos nuevos.
3.2.2. Mensaje del padre
Recibe un π-mensaje: π bD|λ∩π .
Note que para enviar este π-mensaje se requiere conocer de donde vino la
información de los hijos, por tanto el campo relativo a λ se debe crear un
vector de dimensión d + 2 para un padre con d hijos para guardar los λ-
mensajes correspondientes. Las dos componentes extras son para guardar
la información inicial y final del nodo referida a λ.
2.6. Introducción a las Redes Bayesianas 161

2.6.4 Análisis del método de propagación en un ejemplo


Continuemos con el ejemplo del juego de beisbol. Recordemos los nodos:
• A: Llueve el día del juego (Dos estados: llueve (A1 ) o no llueve(A2 )).
• B: Llueve el día anterior (Dos estados: llueve (B1 ) o no llueve(B2 )).
• C: Juego (Dos estados: se juega (C1 ) o no se juega (C2 )).
• D: Transporte (Tres estados: bueno (D1 ), normal (D2 ), malo(D3 )).
• E: Puntualidad (Dos estados: comienza puntual (E1 ) o se demora (E2 )).
Hasta el momento solamente hemos hallado las probabilidades a priori de la red en su
estado inicial. Utilizando el primer paso del algoritmo de propagación se obtiene la red
completamente inicializada:
B = (B1 , B2 )
βB|π = (0,3; 0,7)t
λM |B = (1; 1)t
πB|λ∩π = (0,3; 0,7)t

MA|B MD|B

A = (A1 , A2 ) D = (D1 , D2 , D3 )
t
βA|π = (0,55; 0,45) βD|π = (0,31; 0,43; 0,26)t
λM |A = (1; 1)t λM |D = (1; 1; 1)t
πA|λ∩π = (0,55; 0,45)t πD|λ∩π = (0,31; 0,43; 0,26)t

MC|A ME|D

C = (C1 , C2 ) E = (E1 , E2 )
t
βC|π = (0,56; 0,44) βE|π = (0,433; 0,567)t
λM |C = (1; 1)t λM |E = (1; 1)t
πC|λ∩π = (0,56; 0,44)t πE|λ∩π = (0,433; 0,567)t

Supongamos que el se conoce que el transporte el día del juego estuvo bueno, o sea D = D1 ,
¿qué información nos brinda sobre los restantes nodos? El mensaje es M = {D1 }, entonces
1. Nodo D:
λM |D = (1; 0; 0)t (Paso 2.1.1.)
βD|π = (0,31; 0,43; 0,26)t (Paso 2.1.2. : No cambia)
πD|λ∩π = (1; 0; 0)t (Paso 2.1.3.)

2. Nodo E:

λM |E = (1; 1)t (Paso 2.3.1. : No cambia)


βE|π = (0,8; 0,2)t (Paso 2.3.2.)
πE|λ∩π = (0,8; 0,2)t (Paso 2.3.3.)
162 2. Estadística básica. Aplicaciones

3. Nodo B:
λM |B = (0,1; 0,4)t (Paso 2.2.1.)
βB|π = (0,3; 0,7)t (Paso 2.2.2. : No cambia)
t
πB|λ∩π = (0,097; 0,903) (Paso 2.2.3.)

4. Nodo A:
λM |A = (1; 1)t (Paso 2.3.1. : No cambia)
t
βA|π = (0,448; 0,552) (Paso 2.3.2.)
πA|λ∩π = (0,448; 0,552)t (Paso 2.3.3.)

5. Nodo C:
λM |C = (1; 1)t (Paso 2.3.1. : No cambia)
t
βC|π = (0,642; 0,358) (Paso 2.3.2.)
πC|λ∩π = (0,642; 0,358)t (Paso 2.3.3.)

O sea la red queda de la siguiente forma

B = (B1 , B2 )
βB|π = (0,3; 0,7)t
λM |B = (0,1; 0,4)t
πB|λ∩π = (0,097; 0,903)t

MA|B MD|B

A = (A1 , A2 ) D = (D1 , D2 , D3 )
t
βA|π = (0,448; 0,552) βD|π = (0,31; 0,43; 0,26)t
λM |A = (1; 1)t λM |D = (1; 0; 0)t
πA|λ∩π = (0,448; 0,552)t πD|λ∩π = (1; 0; 0)t

MC|A ME|D

C = (C1 , C2 ) E = (E1 , E2 )
t
βC|π = (0,642; 0,358) βE|π = (0,8; 0,2)t
λM |C = (1; 1)t λM |E = (1; 1)t
πC|λ∩π = (0,642; 0,358)t πE|λ∩π = (0,8; 0,2)t

Note por ejemplo como aumentó la probabilidad de que se haya realizado el juego, de 0,56
a 0,642; de la misma forma ocurre con la probabilidad de comenzar puntual, de 0,433 a
0,8 y al mismo tiempo la probabilidad de que haya llovido el día anterior se redujo de 0,3
a 0,097. Todas estas probabilidades son las asociadas a π·|λ∩π , o sea, las probabilidades a
posteriori de los nodos.
Ahora si se conoce que se ha accidentado un pelotero el día del juego y esto ocurre
con probabilidad 0,2 si hay juego y 0,1 si no lo hay. ¿Cómo afecta esta información al
resto de la red? Primero note que el mensaje entraría a la red por la variable juego. Sea
Me = Accidente, entonces
λMe |C = (0,2; 0,1)t .
O sea
2.6. Introducción a las Redes Bayesianas 163

B = (B1 , B2 )
βB|π = (0,3; 0,7)t
λM |B = (0,1; 0,4)t
πB|λ∩π = (0,097; 0,903)t

MA|B MD|B

A = (A1 , A2 ) D = (D1 , D2 , D3 )
t
βA|π = (0,448; 0,552) βD|π = (0,31; 0,43; 0,26)t
λM |A = (1; 1)t λM |D = (1; 0; 0)t
πA|λ∩π = (0,448; 0,552)t πD|λ∩π = (1; 0; 0)t
M

λMe |C = (0,2; 0,1)t MC|A ME|D

C = (C1 , C2 ) E = (E1 , E2 )
t
βC|π = (0,642; 0,358) βE|π = (0,8; 0,2)t
λM |C = (1; 1)t λM |E = (1; 1)t
πC|λ∩π = (0,642; 0,358)t πE|λ∩π = (0,8; 0,2)t

Procedamos a actualizar la red a partir de esta nueva información: M = Me ∩ {D1 }.


Comencemos por C
1. Nodo C:
λM |C = (0,2; 0,1)t (Paso 2.2.1.)
βC|π = (0,642; 0,348)t (Paso 2.2.2. : No cambia)
πC|λ∩π = (0,782; 0,218)t (Paso 2.2.3.)
2. Nodo A:

λM |A = (0,12; 0,2)t (Paso 2.2.1.)


t
βA|π = (0,448; 0,552) (Paso 2.2.2. : No cambia)
πA|λ∩π = (0,328; 0,672)t (Paso 2.2.3.)
3. Nodo B:
λM |B = (0,013; 0,067)t (Paso 2.2.1.)
βB|π = (0,3; 0,7)t (Paso 2.2.2. : No cambia)
πB|λ∩π = (0,075; 0,925)t (Paso 2.2.3.)
4. Nodo D:
λM |D = (1; 0; 0)t (No cambia)
t
βD|π = (0,31; 0,43; 0,26) (No cambia)
πD|λ∩π = (1; 0; 0)t (No cambia)
5. Nodo E:

λM |E = (1; 1)t (No cambia)


βE|π = (0,8; 0,2)t (No cambia)
πE|λ∩π = (0,8; 0,2)t (No cambia)
164 2. Estadística básica. Aplicaciones

La red nos queda de la siguiente forma

B = (B1 , B2 )
βB|π = (0,3; 0,7)t
λM |B = (0,013; 0,067)t
πB|λ∩π = (0,075; 0,925)t

MA|B MD|B

A = (A1 , A2 ) D = (D1 , D2 , D3 )
βA|π = (0,448; 0,552)t βD|π = (0,31; 0,43; 0,26)t
λM |A = (0,12; 0,2)t λM |D = (1; 0; 0)t
πA|λ∩π = (0,328; 0,672)t πD|λ∩π = (1; 0; 0)t
Me

λMe |C = (0,2; 0,1)t MC|A ME|D

C = (C1 , C2 ) E = (E1 , E2 )
t
βC|π = (0,642; 0,358) βE|π = (0,8; 0,2)t
λM |C = (0,2; 0,1)t λM |E = (1; 1)t
πC|λ∩π = (0,782; 0,218)t πE|λ∩π = (0,8; 0,2)t

Supongamos ahora que se tiene una nueva información. La temperatura depende de las
condiciones del tiempo. Digamos que las temperaturas son bajas cuando llueve con una
probabilidad de 0.8 y con una probabilidad de 0.3 cuando no lo hace. Si se conoce que el
día anterior al juego las temperaturas fueron bajas, ¿cómo se afecta la red?

Note que en este caso el mensaje entra a la red por el nodo raíz B. Denotemos el nuevo
mensaje por Mt = T emperatura, entonces

λMt |B = (0,8; 0,3)t .

O sea,
2.6. Introducción a las Redes Bayesianas 165

B = (B1 , B2 )

Mt βB|π = (0,3; 0,7)t


λMt |B = (0,8; 0,3) t λM |B = (0,013; 0,067)t
πB|λ∩π = (0,075; 0,925)t

MA|B MD|B

A = (A1 , A2 ) D = (D1 , D2 , D3 )
t
βA|π = (0,448; 0,552) βD|π = (0,31; 0,43; 0,26)t
λM |A = (0,12; 0,2)t λM |D = (1; 0; 0)t
πA|λ∩π = (0,328; 0,672)t πD|λ∩π = (1; 0; 0)t
Me

λMe |C = (0,2; 0,1)t MC|A ME|D

C = (C1 , C2 ) E = (E1 , E2 )
t
βC|π = (0,642; 0,358) βE|π = (0,8; 0,2)t
λM |C = (0,2; 0,1)t λM |E = (1; 1)t
πC|λ∩π = (0,782; 0,218)t πE|λ∩π = (0,8; 0,2)t

Procedamos a actualizar la red a partir de esta nueva información: M = Mt ∩Me ∩{D1 }.


Comencemos por B

1. Nodo B:
λM |B = (0,010; 0,020)t (Paso 2.2.1.)
βB|π = (0,3; 0,7)t (Paso 2.2.2. : No cambia)
πB|λ∩π = (0,176; 0,824)t (Paso 2.2.3.)

Note que en este paso, la información que se trasmite del nodo B a su hijo A contiene
la información que previamente A le envió cuando pasó el mensaje Me . Es evidente
que se debe eliminar esa información de πB|λ∩π , o sea, se debe hallar π
bB|λ∩π . Como
mencionamos antes, el nodo B debe tener la siguiente información

λD1 |D λMe |A λMt |B λM |B


0.1 0.128 0.8 0.01
0.4 0.168 0.3 0.02

Por tanto

λD1 |D λMt |B λ
bM |B

0.1 0.8 0.08


0.4 0.3 0.12
166 2. Estadística básica. Aplicaciones

De esa forma se utiliza


π b·λ
bB|λ∩π = α bM |B • βB|π ,

para obtener la información que se le pasará al hijo A

λbM |B = (0,08; 0,12)t (Paso 2.2.1.)


t
βB|π = (0,3; 0,7) (Paso 2.2.2. : No cambia)
t
π
bB|λ∩π = (0,222; 0,778) (Paso 2.2.3.)

Es importante que quede claro que λ


bM |B y π
bB|λ∩π solamente se utilizan para actua-
lizar la información de A.

2. Nodo A:
Utilizando π
bB|λ∩π se obtiene que

λM |A = (0,12; 0,2)t (Paso 2.3.1. : No cambia)


t
βA|π = (0,511; 0,489) (Paso 2.3.2.)
πA|λ∩π = (0,385; 0,615)t (Paso 2.3.3.)

Al igual que en el caso del nodo B se deben hallar λ


bM |A y π
bA|λ∩π . Es muy simple
verificar que

λbM |A = (1; 1)t (Paso 2.2.1.)


βA|π = (0,511; 0,489)t (Paso 2.2.2. : No cambia)
bA|λ∩π = (0,511; 0,489)t (Paso 2.2.3.)
π

3. Nodo C:
Utilizando π
bA|λ∩π se obtiene que

λM |C = (0,2; 0,1)t (Paso 2.3.1. : No cambia)


t
βC|π = (0,591; 0,409) (Paso 2.3.2.)
πC|λ∩π = (0,743; 0,257)t (Paso 2.3.3.)

4. Nodo D:
λM |D = (1; 0; 0)t (No cambia)
t
βD|π = (0,31; 0,43; 0,26) (No cambia)
πD|λ∩π = (1; 0; 0)t (No cambia)

5. Nodo E:

λM |E = (1; 1)t (No cambia)


t
βE|π = (0,8; 0,2) (No cambia)
πE|λ∩π = (0,8; 0,2)t (No cambia)

La red queda actualizada de la siguiente forma


2.6. Introducción a las Redes Bayesianas 167

B = (B1 , B2 )

Mt βB|π = (0,3; 0,7)t


λMt |B = (0,8; 0,3) t λM |B = (0,010; 0,020)t
πB|λ∩π = (0,176; 0,824)t

MA|B MD|B

A = (A1 , A2 ) D = (D1 , D2 , D3 )
t
βA|π = (0,511; 0,489) βD|π = (0,31; 0,43; 0,26)t
λM |A = (0,12; 0,2)t λM |D = (1; 0; 0)t
πA|λ∩π = (0,385; 0,615)t πD|λ∩π = (1; 0; 0)t
Me

λMe |C = (0,2; 0,1)t MC|A ME|D

C = (C1 , C2 ) E = (E1 , E2 )
t
βC|π = (0,591; 0,409) βE|π = (0,8; 0,2)t
λM |C = (0,2; 0,1)t λM |E = (1; 1)t
πC|λ∩π = (0,743; 0,257)t πE|λ∩π = (0,8; 0,2)t
168 2. Estadística básica. Aplicaciones

2.7 Modelos de Regresión


2.7.1 Introducción
La análisis de regresión es un procedimiento estadístico que modela la relación funcio-
nal entre un conjunto de variables. Los inicios de esta teoría se remontan a los principios
del siglo XIX con los trabajos de Gauss y Legendre relacionados con los métodos de mí-
nimos cuadrados. La regresión es una herramienta muy versátil y se encarga de describir
o estimar los valores de una variable a partir de otra o un conjunto de ellas.
A lo largo de los años se han empleado métodos de regresión para describir muchas
situaciones como por ejemplo las relaciones sociales: ¿qué relación existe entre la per-
sonalidad de un individuo y el lugar de procedencia de los padres?; en el campo de la
medicina para predecir la presencia o no de una enfermedad a partir de los resultados de
diagnósticos no invasivos; en el área de las finanzas para describir el comportamiento de
activos financieros a partir del precio de acciones y otros elementos financieros; por solo
mencionar algunos ejemplos.
La regresión se enfoca en determinar la relación entre una variable Y llamada variable
respuesta o dependiente y un conjunto de variables X = (X1 , X2 , · · · , Xk ) conocidas como
variables predictoras, explicativas, regresoras o independientes o simplemente covariables.
La relación funcional se establece a partir de cierta función f utilizando el siguiente
modelo general:
Y = f (X ) + ε,
donde ε es un ruido aleatorio.
A partir de las características de X , Y y f se definen diferentes modelos en la regresión.
En el curso veremos tres de ellos:

1. La regresión lineal simple: El conjunto de las variables explicativas está formada


por una sola variable X = X1 , la variable respuesta Y es continua y la función f es
lineal.

2. La regresión lineal múltiple: Es una generalización del caso anterior donde se utilizan
k variables predictoras X = (X1 , X2 , · · · , Xk ).

3. La regresión logística: La variable Y es de tipo cualitativa. Usualmente se utiliza en


problemas donde la variable respuesta es dicotómica.
2.7. Modelos de Regresión 169

2.7.2 Regresión Lineal Simple


Posiblemente el modelo de regresión lineal simple sea uno de los más sencillos que se
pueden definir en el marco del análisis de regresión y permite definir una relación lineal
entre dos variables. La formulación es la siguiente:
Definición 2.7.1 (Regresión Lineal Simple) Se dice que la variable respuesta Y con-
tinua se puede describir de forma lineal a partir de una variable explicativa X1 de la
siguiente forma:
Y = β0 + β1 X1 + ε,
donde ε ∼ N (0, σ 2 ) sigue una distribución normal, β0 , β1 son parámetros que se deben
estimar y β0 + β1 X1 se conoce como la recta de regresión. 
Para una muestra (X1 , Y) = (X11 , Y1 ), (X21 , Y2 ), · · · , (Xn1 , Yn ) , el modelo se es-
cribe de la siguiente forma:

Yi = β0 + β1 Xi1 + εi , i = 1, 2, · · · , n,

donde εi ∼ N (0, σ 2 ) o en su forma matricial

Y = Xβ + ε,

donde      
Y1 1 X11   ε1
Y =  ...  , X = 
   .. ..  , β = β0 , ε =  .. 
. .  β1
 . 
Yn 1 Xn1 εn

Más adelante veremos en qué consiste que una variable Y se pueda describir por un
modelo de regresión lineal. Cuando nos enfrentamos a un problema de regresión lineal,
además de la característica de continuidad de la variable respuesta, es importante que el
estudiante tenga presente que se debe siempre verificar que los ruidos son variables alea-
torias independientes cuya distribución es N (0, σ 2 ). Este supuesto es el más problemático
en el análisis de regresión y en muchas ocasiones no se comprueba correctamente.
¿Cómo determinar si un problema se corresponde con un análisis de regresión lineal
simple? El primer paso para aplicar un método de regresión, sea cual sea el modelo, con-
siste en establecer si existe o no una relación entre la variable respuesta y el conjunto de
variables explicativas. En ese sentido puede suceder que la variable respuesta intuitiva-
mente dependa de la variable o variables explicativas: la estatura depende de la edad, la
producción de azúcar depende del número de campos sembrados, la calidad de la caña y
la temperatura.
Supongamos que estamos en presencia de un problema donde ciertamente existe una
relación entre la variable respuesta y la variable explicativa. En ese caso se debe analizar
la gráfica de los valores observados de Y y X1 , la cual se conoce como diagrama de
dispersión. A partir de la observación de dicha gráfica se determina o no continuar con
el procedimiento de ajuste por un modelo de regresión lineal simple. Es decir, si en el
diagrama de dispersión no se distingue un comportamiento lineal en los datos, carece de
sentido aplicar un ajuste de regresión lineal simple a los mismos. No se debe perder de
vista que un método de regresión se construye con el objetivo de modelar un problema, por
170 2. Estadística básica. Aplicaciones

ende, si los datos no siguen un comportamiento lineal, la utilidad de la recta de regresión


para ajustar los datos es ínfima o nula.
Veamos los siguientes diagramas de dispersión para 3 problemas genéricos:

200 18 2

190 0
16
180 −2
Y Y
Y

170 −4
14
160 −6

150 12 −8
40 50 60 70 80 90 100 6 8 10 12 14 0 10 20 30 40 50 60
X1 X1 X1

Figura 2.1: Diagramas de dispersión para tres problemas genéricos.

Note que la figura previa, las situaciones correspondientes a los gráficos de los extremos
muestran cierto comportamiento lineal, creciente para el primero y decreciente para el
último. En ambos casos se justifica visualmente que un modelo de regresión lineal simple
pudiera explicar la relación entre ambas variables. No obstante, en la situación de la
segunda gráfica los valores parecen completemante aleatorios y no se observa ninguna
relación inmediata entre las variables. O sea, aplicar un modelo de regresión lineal simple
en este caso carece de sentido.
Coeficiente muestral de correlación lineal
Es evidente que la utilización de los diagramas de dispersión para analizar la posible
dependencia de los datos no ofrece una medida exacta de dicha relación. En ese sentido
se utiliza el coeficiente de correlación lineal de Pearson para medir la fuerza de la relación
lineal entre dos variables X y Y :
cov(X, Y )
ρ(X, Y ) = p .
V (X)V (Y )
Si se tienen (x1 , y1 ), (x2 , y2 ), · · · , (xn , yn ) observaciones asociadas a las variables X y
Y entonces el coeficiente muestral de correlación lineal se obtiene a partir de la siguiente
expresión:
Pn
(xi − x)(yi − y)
σ
bxy i=1
ρbxy = =rn n
,
σ
bx σby P 2
P 2
(xi − x) (yi − y)
i=1 i=1
donde n
P
(xi − x)(yi − y)
i=1
σ
bxy =
,
n
es la estimación de la covarianza entre X, Y y se conoce como covarianza muestral. De la
misma forma σ bx2 y σ
by2 son las estimaciones de las varianzas respectivas de X y Y :
n n
1X 1X
bx2
σ = (xi − x)2 , by2
σ = (yi − y)2 .
n i=1 n i=1
2.7. Modelos de Regresión 171

El coeficiente muestral de correlación lineal es la medida estándar que se utiliza para


efectivamente determinar si procede utilizar un modelo de regresión lineal simple. Por lo
general se asume que existe una relación lineal aceptable cuando |b ρxy | ≈ 0,8. Asociada
2
con el valor de ρbxy se define también el coeficiente de determinación muestral Rxy como
el cuadrado de ρbxy :
n 2
P
2 (xi − x)(yi − y)
2 2
σ
bxy i=1
Rxy = ρbxy = 2 2 = P n n .
σ
bx σ
by 2
P 2
(xi − x) (yi − y)
i=1 i=1
2
Es evidente que 0 ≤ ≤ 1 y se utiliza de igual forma que ρbxy . La expresión anterior
Rxy
del coeficiente de determinación es específica para el modelo de regresión lineal simple.
Estimación de parámetros
Supongamos que en un problema específico después de analizado el diagrama de dis-
persión y el coeficiente muestra de correlación lineal ρbxy se determina que un ajuste por
regresión lineal simple pudiera ser adecuado. En ese caso se debe determinar la recta de
regresión que mejor ajuste los datos y además estimar la varianza de los errores ¿Cómo
determinar dicha recta y la varianza? En cuanto a la recta, el procedimiento usual se basa
en el método de mínimos cuadrados que consiste en minimizar la suma de los cuadrados
del error que se comente en cada punto de la muestra y el estimador de la varianza se
puede obtener a partir de los métodos clásicos como máxima verosimilitud. 
Supongamos que se tiene una muestra (X, Y)  = (X 1 , Y1 ), (X 2 , Y2 ), · · · , (X n , Yn ) , que
toma los valores (x1 , y1 ), (x2 , y2 ), · · · , (xn , yn ) y sea la recta de regresión
f (x) = β0 + β1 x.
El error que se comete en el punto (xi , yi ), para valores específicos de β0 y β1 , se puede
escribir como
i = yi − f (xi ) = yi − β0 − β1 xi .
En la siguiente gráfica se muestran dichos errores para un problema con 10 observaciones:
8

6 f (x) = β0 + β1 x

4
Y
2

−2
0 2 4 6 8 10
X
172 2. Estadística básica. Aplicaciones

Es evidente que si todos los errores fueran nulos, los datos en cuestión estarían en la
recta β0 + β1 x. Es evidente que resulta muy poco probable que esta situación ocurra. El
razonamiento lógico nos indica que se deberían buscar valores que minimicen todos estos
errores. El procedimiento habitual consiste en hallar los valores de β0 y β1 que minimicen
la suma de los cuadrados de estos errores:
n
X n
X
SCEβ = 2i = (yi − β0 − β1 xi )2 .
i=1 i=1

Se trabaja con los cuadrados porque de esta forma se evita que se puedan cancelar los
errores debido a los cambios de signos que pueden presentar los mismos. Un análisis similar
se puede hacer utilizando |i | en lugar de 2i , no obstante se prefiere este último por las
ventajas teóricas y prácticas que tiene.
Para hallar los valores que minimizan
n
X
SCEβ = (yi − β0 − β1 xi1 )2 ,
i=1

se hallan las derivadas correspondientes con respecto a β0 y β1 y se igualan a cero para


obtener el posible punto de mínimo del problema. De esa forma se obtiene el llamado
sistema de ecuaciones normales:
n
∂ X
0 = SCEβ = −2 (yi − β0 − β1 yi )
∂β0 i=1
n
∂ X
0 = SCEβ = −2 xi (yi − β0 − β1 xi ).
∂β1 i=1

Al trabajar en el sistema anterior utilizado los valores de una muestra se obtiene


n n nn
x2i −
P P P
P
yi · xi y i · xi
i=1 i=1 i=1 i=1
βb0 =  n 2
n
2
P P
n xi − xi
i=1 i=1
n
P n
P n
P
n xi yi − xi · yi
i=1 i=1 i=1
βb1 =  2 .
n n
x2i −
P P
n xi
i=1 i=1

La solución anterior se puede expresar de una forma más simple:


n
P
xi yi − nx · y
σ
bxy i=1
βb1 = = n
bx2
σ
x2i − nx2
P
i=1

βb0 = y − βb1 x.
2.7. Modelos de Regresión 173

A partir de estas estimaciones se puede obtener el valor aproximado de la variable


respuesta en un punto x? :
yb? = βb0 + βb1 x? .
La estimaciones que se producen por el método de mínimos cuadrados para los parámetros
que definen la recta de regresión β0 y β1 tienen las siguientes propiedades
• Los estimadores βb0 y βb1 son insesgados, i.e.:

E(βb0 ) = β0 , E(βb1 ) = β1 .

• Ambos estimadores siguen una distribución normal4


2
 2 !!
σ x
βb0 ∼ N β0 , 1+ .
n σ
bx
 2 !
1 σ
βb1 ∼ N β1 , .
n σ bx

Para obtener una estimación para la varianza de los ruidos σ 2 se utiliza el método de
máxima verosimilitud y el supuesto de normalidad de los errores. A partir de la estimación
de la recta de regresión se pueden estimar los residuos del modelo:

i = yi − ybi = yi − βb0 − βb1 xi ,


b i = 1, 2, · · · , n.

Estos residuos cumplen con las siguientes propiedades


n
P
• i = 1.
b
i=1

n
P
• i xi = 0.
b
i=1

n
P
• i ybi = 0.
b
i=1

La varianza estimada por el método de máxima verosimilitud para σ 2 tiene la siguiente


expresión:
n n
2 2 1X 2 1X 2
σ
bemv = σ
by = (yi − ybi ) =  .
n i=1 i
b
n i=1
Este valor como estimador no es insesgado para la varianza. Por ese motivo se utiliza:
n n
1 X 1 X 2
s2 = (yi − ybi )2 =  ,
n − 2 i=1 n − 2 i=1 i
b

donde
E(s2 ) = σ 2 .
4
Esta propiedad se basa en el supuesto de normalidad de los errores.
174 2. Estadística básica. Aplicaciones

Intervalos de confianza
A partir de las propiedades de los estimadores puntuales obtenidos previamente se
pueden obtener intervalos de confianza para β0 , β1 y para cualquier valor y0 ∈ [y(1) ; y(n) ]
dado x0 .

• Intervalo de confianza para β0 :


 s s 
 2  2
s x s x
IC1−α (β0 ) = βb0 − t1− α2 (n − 2) √ 1+ ; βb0 + t1− α2 (n − 2) √ 1+ .
n σ
bx n σ
bx

• Intervalo de confianza para β1 :


 
s s
IC1−α (β1 ) = βb1 − t1− α2 (n − 2) √ ; β1 + t1− α (n − 2) √ .
b
σx n 2 σx n

• Intervalo de confianza para y0 ∈ [y(1) ; y(n) ] dado x0 :


 
s s
IC1−α (y0 ) = yb0 − t1− 2 (n − 2) √ Dy0 ; yb0 + t1− 2 (n − 2) √ Dy0 ,
α α
n n

donde

yb0 = βb0 + βb1 x0


 2
2 x − x0
Dy0 = n + 1 + .
σ
bx

Note que cuando x0 se aleja de x el intervalo de confianza para y0 se hace más


grande.

Pruebas de hipótesis
Usualmente se realizan las siguientes pruebas de hipótesis sobre los parámetros de la
recta de regresión:

Test para β0
Caso I Caso II Caso III
H0 : β0 = β0? H0 : β0 = β0? H0 : β0 = β0?
Hipótesis vs vs vs
HA : β0 > β0? HA : β0 < β0? HA : β0 6= β0?

βb0 − β0? H0
 h i2 
s2
Estadígrafo T = ∼ t(n − 2), s2β0 = n 1 + σbxx
sβ−

Región Crítica T > t1−α (n − 2) T < −t1−α (n − 2) |T | > t1− α2 (n − 2)

En cuanto a β1 se define una prueba similar:


2.7. Modelos de Regresión 175

Test para β1
Caso I Caso II Caso III
H0 : β1 = β1? H0 : β1 = β1? H0 : β1 = β1?
Hipótesis vs vs vs
HA : β1 > β1? HA : β1 < β1? HA : β1 6= β1?

βb1 − β1? H0 1
h
s
i2
Estadígrafo T = ∼ t(n − 2), s2β1 = n σ
sβ1 bx

Región Crítica T > t1−α (n − 2) T < −t1−α (n − 2) |T | > t1− α2 (n − 2)

Para β1 existe otra prueba basada en el análisis de varianza cuando β1? = 0. Es intuitivo
que en un modelo de regresión lineal simple la variación del sistema se debe solamente a
dos fuentes principales: una debida a la regresión en sí y la otra al error. Al igual que en
el caso de ANOVA (clasificación simple), se puede plantear lo siguiente
n
X n
X n
X
2 2
(yi − y) = yi − y) +
(b (yi − ybi )2 .
|i=1 {z } |i=1 {z } |i=1 {z }
SST SSR SSE

En la expresión anterior SST se interpreta como la suma de cuadrados total, SSR es la


suma deP cuadrados de la regresión y SSE es la suma de cuadrados del error. Note que
SSE = ni=1 b i2 . Para la prueba

H0 : β1 = 0
HA : β1 6= 0,
se tiene la siguiente tabla ANOVA

Variación Suma de Cuadrados Grados de Libertad Cuadrado Medio Estadígrafo

n
X SSR M SR
Regresión SSR = yi − y)2
(b 1 M SR = F =
i=1
1 M SE
n
X SSE
Error SSE = (yi − ybi )2 n−2 M SE = ×
i=1
n−2
Total SST = SSR + SSE n−1 × ×

donde la región crítica se define por


n o
ωα = {yi } ∈ Ω : F > F1−α 1, n − 2 .

El no rechazo de esta prueba nos dice que el ajuste del modelo de regresión lineal para el
problema pudiera no ser el adecuado.
176 2. Estadística básica. Aplicaciones

Validación del modelo. Análisis de los residuos


Uno de los pasos más importantes en el proceso de modelación por regresión lineal
simple es la validación del modelo. Usualmente dicho proceso de validación se basa en el
análisis de los residuos: independencia, normalidad, homocedasticidad.
Los métodos clásicos se basan en el análisis de los gráficos de los residuos contra los va-
lores estimados. Si un modelo de regresión lineal simple es adecuado para un problema en
particular es de esperar que los residuos exhiban un comportamiento aleatorio con la mis-
ma variabilidad. En la próxima figura se muestra, a modo de ejemplo, el comportamiento
de residuos aleatorios y homocedásticos:

i
b 0

−2

0 5 10 15 20
ybi

En la siguiente figura se muestra un ejemplo donde los residuos exhiben un compor-


tamiento que sugiere la no linealidad de los datos. En la gráfica se muestran dos líneas en
rojo a −3σ y 3σ. Bajo el supuesto de normalidad los residuos deben encontrarse dentro
de esas bandas con una probabilidad cercana a 0.99. En la práctica se utiliza el estimador
insesgado de σ 2 , es decir s2 .

i
b 0

−3σ

0 5 10 15 20
ybi

Figura 2.2: Ausencia de linealidad.


2.7. Modelos de Regresión 177

En cuanto a la homocedasticidad, resulta evidente que si los residuos tienen un com-


portamiento como el que se describe en la Figura 2.3, entonces la varianza no es constante,
por ende son heterocedásticos.

i
b 0

−3σ

0 5 10 15 20
ybi

Figura 2.3: Ausencia de homocedasticidad. Los residuos son heterocedásticos.

En la Figura 2.4 se muestran residuos con un comportamiento cíclico, lo cual es una


fuerte evidencia en contra de la independencia de los mismos.

i
b 0

−3σ

0 5 10 15 20
ybi

Figura 2.4: Ausencia de independencia.

Nos podemos percatar que el análisis de los residuos a partir de los gráficos resulta
muy informativo. En cuanto a la normalidad se procede de la forma usual, es decir se
utiliza el test de normalidad de Kolmogorov-Smirnov.
Transformaciones
Como hemos visto el modelo de regresión lineal simple puede resultar muy útil para
una gran variedad de problemas. No obstante, y como es lógico, uno de sus mayores
inconvenientes radica en que este modelo no es capaz de captar otros comportamientos
178 2. Estadística básica. Aplicaciones

lineales: cuadráticos, exponenciales o logarítmico, por solo mencionar algunos. En este


tipo de modelos y en muchos otros el coeficiente muestral de correlación lineal no resulta
confiable para decidir si existe o no una relación. Es importante recordar que el coeficiente
en sí solamente mide la fuerza de la relación lineal entre las dos variables, pero no es
capaz de medir ningún otro tipo de relación. Es por ese motivo que se deben analizar en
un problema específico tanto dicho coeficiente como el diagrama de dispersión.
Aún así, existen algunos métodos que permiten transformar los datos de tal forma que
el modelo de regresión lineal simple ofrezca buenos resultados. Los modelos que se pueden
transformar a modelos lineales se les conoce como linealizables. En la siguiente tabla se
muestra un resumen de estos modelos:

Modelo real (desconocido) Transformación Modelo lineal


Y = β0 + β1 X k Z = Xk Y = β0 + β1 Z
Y = β0 + β1 ln(X) Z = ln(X) Y = β0 + β1 Z
X 1 1
Y = β0 X+β1
W = Y
, Z= X
W = β0 + β1 Z
Y = β0 eβ1 X W = ln(Y ) W = ln(β0 ) + β1 X
Y = β0 X β1 W = ln(Y ) W = ln(β0 ) + β1 ln(X)

Predicción
Uno de las principales aplicaciones de la regresión en general es la de predecir. Uno
de los principales aspectos a tener en cuenta cuando se desea realizar una predicción a
partir de un modelo de regresión lineal simple es ¿dónde se puede realizar? Supongamos
que sedesea conocer el valor estimado de una variable Y en un punto x? . Supongamos
además que se realizó un ajuste  de regresión lineal simple y se obtuvo para una muestra
(x1 , y1 ), (x2 , y2 ), · · · , (xn , yn ) la recta de regresión:

y = βb0 + βb1 x.

El valor estimado de yi se obtiene evaluando xi en la expresión anterior:

ybi = βb0 + βb1 xi .

Para hallar el estimado yb? asociado a x? se debe cumplir siempre que

x? ∈ (x(1) , x(n) ).

Si este supuesto se viola, no existen garantías de que el estimador sea razonable. Luego
la predicción o estimación deseada es

yb? = βb0 + βb1 x? .

Veamos un ejemplo. Supongamos que se desea establecer una relación entre la edad de las
personas y su estatura. En ese sentido se tomó una muestra de 40 personas con edades
2.7. Modelos de Regresión 179

comprendidas entre los 7 y los 50 años. Después de realizar la medición correspondiente


de sus estaturas se obtuvo el siguiente diagrama de dispersión

173
Estatura(cm)

130

88

7 16 25 35 50
Edad

Figura 2.5: Diagrama de Dispersión.

Como se puede observar en el diagrama de dispersión los datos exhiben un compor-


tamiento lineal. Luego es lógico utilizar el modelo de regresión lineal simple para ajustar
los datos. A partir de las fórmulas que se presentaron para los parámetros del modelo se
obtiene que
βb0 = 77,22, y βb0 = 1,97.

Luego la recta de regresión es


y = 77,22 + 1,97x.

173
ρb = 0,9885
Estatura(cm)

130
y = 77,22 + 1,97x

88

7 16 25 35 50
Edad

Figura 2.6: Ajuste de regresión lineal simple para el problema de la estatura y edad. Recta
de regresión y coeficiente muestral de correlación lineal.
180 2. Estadística básica. Aplicaciones

Es evidente entonces que la estatura depende de la edad de forma lineal entre las
edades de 7 y 50 años. Nos queda entonces analizar el comportamiento de los residuos. A
partir de los datos del problema se obtiene que s ≈ 3,74, luego

11,225

i 0
b

−11,225

ybi

Figura 2.7: Análisis de los residuos.

Al analizar la gráfica de los residuos nos podemos percatar que su comportamiento


no exhibe rasgos de dependencia y a pesar de que puede parecer que la varianza no es la
misma, note que se tienen menos datos en las edades finales y esto puede contribuir al
comportamiento de los residuos.
En cuanto a la predicción, note que se puede realizar mientras la edad se encuentre
entre los 7 y los 50 años. Por ejemplo si se una persona tiene 38 debe medir aproximada-
mente:
y38 = 77,22 + 1,97 · 38 = 152,08cm.
No obstante si la persona tiene 90 años, lo lógico es no aplicar el modelo, ya que un
razonamiento lógico nos indica que la estatura se estabiliza en cierto valor, en dependencia
del lugar donde se tomen los datos, e incluso debe disminuir ligeramente cuando la persona
envejece, pero si se utiliza el modelo anterior resulta erróneamente que

y90 = 77,22 + 1,97 · 90 = 254,52cm.

2.7.3 Regresión Lineal Múltiple


El modelo de regresión lineal simple solamente permite establecer relaciones entre
dos variables. No obstante, resulta lógico que en ciertos problemas, se tenga un conjunto
de variables independientes que influyan o determinen el comportamiento de la variable
respuesta. En ese sentido el modelo de regresión lineal múltiple se puede interpretar como
una generalización del modelo lineal simple.
2.7. Modelos de Regresión 181

Definición 2.7.2 (Regresión Lineal Múltiple) Se dice que la variable respuesta Y


continua se puede describir de forma lineal a partir de un conjunto de k variables
explicativas X = (X1 , X2 , · · · , Xk ) de la siguiente forma:
k
X
Y = β0 + βj Xj + ε,
j=1

donde ε ∼ N (0, σ 2 ) sigue una distribución normal, β0 , βj , para j = 1, 2, · · · , k son los


parámetros del modelo.
Para una muestra el modelo se escribe de la siguiente forma:
k
X
Yi = β0 + βj Xij + εi , i = 1, 2, · · · , n,
j=1

donde εi ∼ N (0, σ 2 ) o en su forma matricial para una muestra

y = Xβ + ε,

donde
       
y 1 x11 · · · x1k β ε
 1   0  1 
 .  .. .. . . .   .  . 
  
y =  ..  , X =  . ..  , β =  ..  , ε =  ..  .
 
. .
       
yn 1 xn1 · · · xnk βk εn

En el caso del modelo de regresión lineal múltiple la estimación de los parámetros se


basa en el mismo principio de mínimos cuadrados. A partir de la expresión matricial del
modelo se pueden obtener los parámetros asociados. Se desean hallar β b que minimicen:

mı́n ky − Xβk.
β

Al trabajar en la expresión previa y utilizando conceptos de elementales del álgebra de


matrices se deduce que el problema de minimización es equivalente a obtener la solución
de la siguiente expresión

Xt y = Xt Xβ.
La ecuación anterior forma un conjunto de ecuaciones lineales y es justamente la expresión
general de las ecuaciones normales que vimos en el caso del modelo de regresión lineal
simple. Este sistema tiene solución única si y solo si existe la matriz inversa (Xt X)−1 . En
ese caso se obtiene
b = (Xt X)−1 Xt y.
β
Si sucede que no existe (Xt X)−1 , entonces β
b no es único y la solución al problema de
minimización puede ser cualquier valor que satisfaga

Xt y = Xt Xβ.
182 2. Estadística básica. Aplicaciones

A partir de β
b se obtienen los valores aproximados de y:

y b = X(Xt X)−1 Xt y.
b = Xβ

Usualmente se escribe
y
b = Hy,
donde H = X(Xt X)−1 Xt se conoce como hat matrix.

Propiedades de los estimadores puntuales


Al igual que en el caso lineal se obtienen las siguientes propiedades generales para β
b

• β
b es insesgado, i.e.:
E(β)
b = β.

• β
b sigue una distribución normal multivariada

b ∼ Nk+1 β, σ 2 (Xt X)−1 .



β

O sea

βbi ∼ N βi , σ 2 (Xt X)−1



ii .

Los residuos del modelo se obtienen de la misma forma que antes en el modelo lineal
simple:
ε=y−y
b b = (In − H)y.
De la misma forma que antes podemos escribir
n
X n
X n
X
2 2
(yi − y) = yi − y) +
(b (yi − ybi )2 .
|i=1 {z } |i=1 {z } |i=1 {z }
SST SSR SSE

En particular para SSE podemos escribir

εt · b
SSE = b b t Xt y = yt (In − H)y.
ε = yt · y − β

Para la varianza se puede demostrar que su estimador insesgado es


n
2 1 X
2 SSE εt · b
ε
(yi − ybi ) =
b
s = = .
n − k − 1 i=1 n−k−1 n−k−1

Además se cumple que


s2
(n − k − 1) ∼ χ2 (n − k − 1).
σ2
A partir de estos resultados se pueden obtener entonces los intervalos de confianza corres-
pondientes:
2.7. Modelos de Regresión 183

• Intervalo de confianza para los βi :


 q q 
t −1 b t −1
IC1−α (βi ) = βi − t1− 2 (n − k − 1)s (X X)ii ; βi + t1− 2 (n − k − 1)s (X X)ii .
b α α

• Intervalo de confianza para y0 ∈ [y(1) ; y(n) ] dado x0 = (1, x01 , x02 , · · · , x0k )t :
h i
IC1−α (y0 ) = yb0 − t1− α2 (n − k − 1)Dy0 ; yb0 + t1− α2 (n − k − 1)Dy0 ,

donde
yb0 = xt0 β
b
Dy0 = s 1 + xt0 (Xt X)−1 x0 .
2 2


Pruebas de Hipótesis
De forma similar al caso de regresión lineal simple se pueden realizar pruebas para los
parámetros βi . El test general se puede escribir de la siguiente forma:
Test para βi
Caso I Caso II Caso III
H0 : βi = βi? H0 : βi = βi? H0 : βi = βi?
Hipótesis vs vs vs
HA : βi > βi? HA : βi < βi? HA : βi 6= βi?

βbi − βi? H0
Estadígrafo T = ∼ t(n − k − 1), s2βi = s2 (Xt X)−1
ii
sβi

Región Crítica T > t1−α (n − k − 1) T < −t1−α (n − k − 1) |T | > t1− α2 (n − k − 1)

Para analizar la validez del modelo se utiliza la prueba basada en el Análisis de Varian-
za. O sea, la prueba que de cierta forma mide la validez del modelo de regresión múltiple
se puede escribir de la siguiente forma:

H0 : β1 = β2 = · · · = βk = 0
.
HA : βj 6= 0, para algún j
Para este problema de prueba de hipótesis se tiene la siguiente tabla ANOVA

Variación Suma de Cuadrados Grados de Libertad Cuadrado Medio Estadígrafo

n
X SSR M SR
Regresión SSR = yi − y)2
(b k M SR = F =
i=1
k M SE
n
X SSE
Error SSE = (yi − ybi )2 n−k−1 M SE = ×
i=1
n−k−1
Total SST = SSR + SSE n−1 × ×
184 2. Estadística básica. Aplicaciones

La región crítica se define por


n o
ωα = {yi } ∈ Ω : F > F1−α k, n − k − 1 .

El no rechazo de esta prueba nos dice que el ajuste del modelo de regresión múltiple para
el problema pudiera no ser el adecuado.

Coeficiente de determinación muestral


También para determinar la calidad del ajuste por un modelo de regresión lineal
2 2
múltiple se utiliza el coeficiente de determinación muestral Rxy (en algunos textos Rxy es
llamado coeficiente muestral de correlación múltiple), el cual se define como
Pn Pn
2 SSR SSE i=1 yi − y)2
(b i=1 (yi − ybi )2
Rxy = =1− = Pn 2
= 1 − P n 2
.
SST SST i=1 (yi − y) i=1 (yi − y)

En otras palabras, el coeficiente de determinación muestral no es más que la proporción


de variabilidad explicada por la regresión entre la variabilidad total.
2
Se puede comprobar sin dificultad que 0 ≤ Rxy ≤ 1. Como antes, valores cercanos a
uno nos dicen que el modelo ajusta bien los datos y en caso contrario que el modelo no
es el adecuado para el problema. En algunas situaciones cuando se aumenta el número
de variables predictoras, (significativas o no para el modelo) puede suceder que aumente
2
el valor de Rxy . Es evidente que algo así puede llevar a interpretaciones incorrectas de la
situación que se analiza. En ese sentido se define el coeficiente de determinación muestral
ajustado que penaliza la inclusión de nuevas variables en el modelo y se define como

2 2 n−1 SSE/(n − k − 1)
R
bxy = 1 − (1 − Rxy ) =1− .
n−k−1 SST /(n − 1)

Validación del modelo. Análisis de los residuos


Al igual que en el caso de la regresión lineal simple se debe llevar a cabo un análisis de
los residuos para verificar si se cumplen las condiciones impuestas al modelo de regresión
lineal múltiple. O sea, se debe confirmar que los residuos son independientes, normales,
de varianza constante (homocedasticidad) y sin valores atípicos (outliers). Para verificar
estos supuestos del modelo se pueden realizar los siguientes análisis:

• Normalidad: Usualmente se utiliza alguna prueba visual como el QQ-plot (técnica


gráfica que permite verificar la normalidad) o se analiza el histograma. En este
último caso si se observa simetría y un único pico en el centro del mismo, se asume
la normalidad. Una prueba de Kolmogorov-Smirnov también se puede utilizar.

• Homocedasticidad: Típicamente se analiza el gráfico de los residuos contra los


valores predichos por el modelo de regresión lineal múltiple y comprueba si la va-
riabilidad de los datos no fluctúa.

• Outliers: A partir de la misma gráfica se comprueba que los valores de los residuos
se encuentren dentro de un intervalo específico alrededor de cero, por lo general se
utiliza ±3s.
2.7. Modelos de Regresión 185

• Independencia: Se analiza la gráfica de b ε contra yb para comprobar si existe al-


guna relación entre los valores estimados de los residuos que indique ausencia de
independencia o la presencia de alguna relación entre los mismos.
Selección de variables
Uno de los tópicos en la modelación por regresión múltiple sobre el cual se debe pres-
tar atención es el número de variables que resultan importantes para el modelo. Hasta el
momento hemos analizado las propiedades generales asumiendo que las k variables se uti-
lizan en la regresión. No obstante, es lógico preguntarse si se requieren todas para ajustar
el modelo. Usualmente, para decidir por un ajuste en cuanto al número de variables, se
utilizan alguno de los métodos que describiremos a continuación:

• Eliminación hacia atrás (Backward elimination):

1. Se fija un nivel de significación SLS para permanecer en el modelo.


2. Se ajusta un modelo con todas las variables explicativas.
3. Se le realizan las pruebas de hipótesis a los coeficientes β0 , β1 , · · · , βk y se
elimina del modelo aquella variable cuyo estadígrafo T tenga el menor valor
absoluto, o si se realizan las pruebas a partir de un programa, aquella variable
con mayor valor de p-value (debe ser mayor que SLS).
4. Después que se identifica la variable en cuestión, se elimina del modelo y no
puede entrar en los pasos subsiguientes.
5. Repetir los pasos anteriores con las variables restantes hasta que no se cumplan
las condiciones descritas antes para el estadígrafo o el p-value.

• Selección hacia adelante (Forward selection):

1. Se fija un nivel de significación SLS para permanecer en el modelo.


2. Se ajusta un modelo de regresión lineal simple utilizando la variable explicativa
que tenga el mayor coeficiente correlación muestral con los valores de la variable
respuesta.
3. A todas las variables explicativas que no están en el modelo se analiza su
estadígrafo T si se incluyera en el modelo (o su correspondiente p-value).
4. Se selecciona aquella variable cuyo estadígrafo T tenga el mayor valor absoluto,
o el menor valor de p-value (debe ser menor que SLS) y no puede salir del
modelo después que se incluye.
5. Repetir los pasos anteriores con las variables restantes hasta que no se cumplan
las condiciones descritas antes para el estadígrafo o el p-value.
186 2. Estadística básica. Aplicaciones

• Paso a paso (Stepwise):

1. Se fija un nivel de significación SLS para permanecer en el modelo.


2. Se ajusta un modelo de regresión lineal simple utilizando la variable explicativa
que tenga el mayor coeficiente correlación muestral con los valores de la variable
respuesta.
3. A todas las variables explicativas que no están en el modelo se les analiza su
estadígrafo T si se incluyeran en el modelo (o su correspondiente p-value).
4. Se selecciona aquella variable cuyo estadígrafo T tenga el mayor valor absoluto,
o el menor valor de p-value (debe ser menor que SLS) y se incluye en el modelo.
5. Se analiza el modelo ajustado para analizar si alguna de las variables presentes
debe ser eliminada (como en Eliminación hacia atrás). Si su p-value es mayor
que SLS se elimina del modelo.
6. Repetir los pasos anteriores hasta que no se puedan incluir nuevas variables o
eliminar variables que ya están en el modelo.

2.7.4 Regresión Logística


Como mencionamos al inicio de esta sección, la regresión logística es un método que
se utiliza para ajustar datos cuando la variable respuesta o dependiente es cualitativa. En
el curso solamente se analizará la formulación clásica asociada a una variable dicotómica.
La definición formal es la siguiente
Definición 2.7.3 (Regresión Logística) Se dice que la variable respuesta Y dicotó-
mica, Y ∼ Bernoulli(θx ), se puede describir a partir de un conjunto de k variables
explicativas X = (X1 , X2 , · · · , Xk ) utilizando una regresión logística si se satisface el
siguiente modelo para θx = θ(x):
  k
θx X
ln = β0 + βj Xj .
1 − θx j=1

El modelo para una muestra se puede escribir como

yi = θx + εi ,

donde εi = 1 − θx si yi = 1 y εi = −θx si yi = 0.
Note que los ruidos asociados al modelo de regresión logística no pueden ser Gaussianos.
Enrealidad
 son variables aleatorias de tipo Bernoulli. En la definición previa, a la cantidad
θx θx
ln 1−θx se le conoce como logit y a la razón π(x, β) = 1−θ x
, como odds ratio o cociente
de probabilidades. La probabilidad θx se obtiene a partir del modelo como sigue:
eβ0 +β1 x1 +···+βk xk
θx = .
1 + eβ0 +β1 x1 +···+βk xk
Note que
θx = P (Y = 1|X = x).
2.7. Modelos de Regresión 187

Estimación de parámetros
El método clásico de mínimos cuadrados no es el adecuado para determinar los es-
timadores de los parámetros involucrados en el modelo debido a las características de
la variable respuesta (dicótomica y por ende no continua). En este caso se utiliza el
enfoque máximo verosímil para determinar dichas estimaciones. Si se desean hallar los
valores de β = (β0 , β1 , · · · , βk )t que maximizan la ocurrencia del evento aleatorio de-
finido por los valores de y = (y1 , y2 , · · · , yn )t a partir de x = (x1 , x2 , · · · , xn )t , donde
xi = (xi1 , xi2 , · · · , xik )t . En ese caso para cada valor de i = 1, 2, · · · , n, se cumple que

eβ0 +β1 xi1 +···+βk xki


θxi = .
1 + eβ0 +β1 xi1 +···+βk xki
La verosimilitud asociada a dicho suceso aleatorio se puede escribir de la siguiente forma:
n
Y
L(β; x, y) = θxyii (1 − θxi )1−yi .
i=1

Utilizando la log-verosimilitud se obtiene el siguiente desarrollo:

l(β; x, y) = ln L(β; x, y)
Xn
 
= yi ln θxi + (1 − yi ) ln(1 − θxi )
i=1
n n  
X   X θxi
= ln 1 − θxi + yi ln
i=1 i=1
1 − θxi
n   n  k 
β0 + kj=1 βj xij
X P X X
= − ln 1 + e + y i β0 + βj xij .
i=1 i=1 j=1

Si se asume que existen las derivadas parciales de l(β; y) con respecto a β se obtiene para
cada j = 0, 1, · · · , k que
Pk
n
X eβ0 + j=1 βj xij n
∂ X
l(β; x, y) = − Pk xij + yi xij
∂βj i=1 1 + e β0 + j=1 βj xij
i=1
Xn  
= yi − θxi (β) xij .
i=1

Es evidente que a partir de estas k ecuaciones no se pueden obtener expresiones cerradas


para los parámetros del modelo. Usualmente se utilizan métodos numéricos para obtener
la solución, en especial el de Newton-Raphson.
Además de las estimaciones puntuales para los βj , se pueden obtener estimaciones
para sus varianzas correspondientes. Al igual que antes escribamos la matriz de diseño
asociada al modelo:  
1 x11 · · · x1k
X =  ... ... . . . ...  .
 
1 xn1 · · · xnk
188 2. Estadística básica. Aplicaciones

A partir de dicha matriz se puede obtener un estimador de la matriz de varianzas y


covarianzas de β:
 −1
(β) t b (π)
V
b = XD X ,

b (π) es una matriz diagonal tal que


donde D

b (π) = π
D b(xi )(1 − π
b(xi )), i = 1, 2, · · · , n,
ii

yπb(xi ) es el estimador máximo verosímil de π(xi ).


Como el procedimiento utilizado para estimar β fue el de máxima verosimilitud, en-
tonces los βbj , para j = 0, 1, · · · , k son asintóticamente normales, o sea:

βbj − βj D
(x)
−−−→ Z ∼ N (0, 1),
sbj n→∞

donde q
(x) (β)
sbj = Vbjj .
De esa forma se obtienen los intervalos de confianza correspondientes para los parámetros
del modelo:

• Intervalo de confianza para los βj :


h i
(x) b (x)
IC1−α (βj ) = βj − Z1− 2 sbj ; βj + Z1− 2 sbj .
b α α

Interpretación de los coeficientes


En el marco de los modelos clásicos de regresión, la interpretación de los coeficientes
es muy sencilla e intuitiva. ¿Qué sucede en el caso de la regresión logística? Denotemos
por π(x, β) el odds ratio:

θx P (Y = 1|X = x)
π(x, β) = = .
1 − θx P (Y = 0|X = x)

Supogamos que estamos en una situación en donde π b ≈ 4. En ese caso pode-


b(x, β)
mos decir que la ocurrencia del suceso (Y = 1) es cuatro veces más probable que la no
ocurrencia del mismo (Y = 0).
Una forma de analizar los coeficientes se basa en interpretar su comportamiento en el
modelo ajustado 
ln π b = βb0 + βb1 x1 + · · · + βbk xk .
b(x, β)
En ese caso, la interpretación es similar a la que se realiza en la regresión lineal múltiple:
el valor del coeficiente está asociado con el cambio de unidades de la variable respuesta a
partir del cambio de unidad de la variable independiente que se analiza, siempre y cuando
el resto de las variables explicativas permanezcan invariantes. En la regresión logística se
analiza de la misma forma, pero esta vez la variable dependiente será el logaritmo del
odds ratio π(x, β).
2.7. Modelos de Regresión 189

Si por ejemplo, un coeficiente estimado es positivo, entonces el valor del odds ratio
π(x, β) aumentará cuando el valor de la variable explicativa correspondiente aumente.
De forma similar el odds ratio disminuirá cuando el coeficiente sea negativo. Si dicho
coeficiente estimado es cero, entonces nos indica que la influencia de la variables explicativa
en cuestión no aporta información acerca del comportamiento del odds ratio.

Pruebas de Hipótesis
En cuanto a los test de hipótesis relacionados con la regresión logística, solamente
mencionaremos algunos de los más importantes.
En ese caso se puede utilizar el test de Wald:
Definición 2.7.4 (Test de Wald) Sea una muestra x = (x1 , x2 , · · · , xn ) cuya función de
distribución depende de un parámetro real θ0 ∈ R. Si θb es un estimador asintóticamente
normal de θ0 con desviación estándar σθ (x), entonces para la prueba

H0 : θ = θ0
6 θ0
HA : θ =

la región crítica de nivel α se define de la siguiente forma:


n o
ωα = {xi } ∈ Ω : |TW | > Z1− α2 ,

donde
θb − θ0
TW = .
σθ (x)

De acuerdo a la definición previa es inmediato que se puede establecer la región crítica


correspondiente a los parámetros del modelo:

Test para βj
Caso I Caso II Caso III
H0 : βj = βj H0 : βj = βj?
?
H0 : βj = βj?
Hipótesis vs vs vs
HA : βj > βj HA : βj < βj?
?
HA : βj 6= βj?

βbj − βj? H0 (x)


q
(β)
Estadígrafo TW = (x)
∼ N (0, 1), sbj = Vbjj
sbj

Región Crítica TW > Z1−α TW < −Z1−α |TW | > Z1− α2

En algunos textos se utiliza un prueba similar, pero utilizando el estadígrafo:


!2
2
βbj − βj? H0
χW = TW = (x)
∼ χ2 (1).
sbj
190 2. Estadística básica. Aplicaciones

Antes de analizar el procedimiento que se utiliza para la bondad de ajuste definamos el


concepto de deviance
Definición 2.7.5 (Deviance) Supongamos que se tienen dos modelos anidados M † y
M ‡ ; o sea, el modelo M † es un caso particular del modelo M ‡ . La deviance asociada a
los datos x se define como
  
† ‡
 
Dx = −2 ln L(θbemv ; x) − ln L(θbemv ; x) ,

† ‡
donde θbemv y θbemv son los estimador máximo verosímiles de los parámetros que definen
a los modelos M , M ‡ respectivamente.

La deviance en la regresión logística se utiliza para analizar la calidad del modelo


ajustado. Por lo general se plantea una prueba de hipótesis que tiene en H0 a M † (modelo
ajustado) y en la alternativa a M ‡ (un modelo más complejo, usualmente se trabaja con
el modelo saturado).
Se le llama modelo saturado al modelo que tiene tantos parámetros como datos, por
ejemplo en el caso de una regresión lineal simple es como trabajar con 2 datos (n = 2).
La prueba de hipótesis se plantea de la siguiente forma
H0 : M † (modelo ajustado) es el modelo correcto
.
HA : M ‡ (modelo saturado) es el modelo correcto
A partir de la formulación general de la regresión logística la deviance adopta la siguiente
forma:
  
† ‡
 
Dx,y = −2 ln L(θbemv ; x, y) − ln L(θbemv ; x, y)
n
" ! !#
X θbxi 1 − θbxi
= −2 yi ln + (1 − yi ) ln ,
i=1
y i 1 − y i

donde θbxi es el estimador máximo verosímil de θxi para el modelo ajustado, o sea

θbemv = θbxi .
La región crítica para la prueba se define por
n o
ωα = {xi , yi } ∈ Ω : Dx,y > χ21−α (N − K) ,

donde N es el número de parámetros del modelo saturado y K es el número de parámetros


del modelo ajustado.

Ahora, de la propia definición de un modelo ajustado se puede deducir que θbemv = yi .
Cuando la variable respuesta es dicotómica entonces
n
Y

L(θbemv ; x, y) = L(y; x, y) = yiyi (1 − yi )1−yi = 1.
i=1

Luego

 
Dx,y = −2 ln L(θbemv ; x, y) .
2.8. Métodos de Clasificación 191

2.8 Métodos de Clasificación


2.8.1 Introducción
2.8.2 Bayes Naïve
2.8.3 Análisis de Clúster
Introducción
Medidas y métodos
2.8.4 Precisión y error
2.9 Diseño de Experimentos
2.9.1 Introducción
2.9.2 Muestreo
2.9.3 Minería de Datos
192 2. Estadística básica. Aplicaciones
193

Capítulo 3

Ejercicios de Probabilidades y
Estadística

En este capítulo se ofrecen los ejercicios para el trabajo individual y en las clases
prácticas del curso.
194 3. Ejercicios de Probabilidades y Estadística

3.1 Ejercicios del Capítulo 1

Probabilidad Clásica
1.1 Se colocan aleatoriamente los 7 tomos de una obra en un estante. Halle la probabi-
lidad de que queden en orden.
1.2 Tres atletas A, B, C toman parte en una competencia, si se sabe que los lugares
pueden ser compartidos. ¿Cuál es la probabilidad de que B llegue solo en primer
lugar a la meta?
1.3 Se lanzan 2 dados homogéneos al mismo tiempo. ¿Cuál es la probabilidad de que la
suma de sus valores sea 8?
1.4 Se desconocen las últimas 3 cifras de un número telefónico y solamente se sabe que
son diferentes. ¿Cuál es la probabilidad de marcar el número correcto?
1.5 Hallar la probabilidad de obtener carabina en un juego de cubilete en un solo lan-
zamiento o tirada.
1.6 Se tiene una caja con 6 bolas azules, 3 bolas blancas y 5 bolas negras. Se toman
5 de ellas sin reposición. Hallar la probabilidad de que estas sean 2 bolas azules, 2
bolas blancas y 1 bola negra.
1.7 Si en la pregunta anterior las bolas se toman una a una pero con reposición y se
extraen 3 bolas. ¿Cuál es la probabilidad de que hayan exactamente 2 bolas azules
entre las 3 bolas extraídas?
1.8 Un dado balanceado es lanzado 12 veces. Halle la probabilidad de obtener una
secuencia de resultados en la que cada número aparezca exactamente 2 veces.
1.9 Doce bolas numeradas son colocadas en doce urnas al azar de manera tal que cada
bola tiene la misma probabilidad de caer en cualquier urna.
1. Hallar la probabilidad de que las bolas caigan en diferentes urnas.
2. Hallar la probabilidad de que la primera urna contenga exactamente dos bolas.
3. Resolver el mismo problema pero asumiendo que las bolas no están numeradas.
1.10 En una fila de un aula se sientan 3 niñas y 3 niños al azar en seis sillas. Halle la
probabilidad de que:
1. Se sientan los 3 varones juntos.
2. Se sientan alternados varones y hembras.
3. Analice el inciso a) asumiendo que son 7 sillas. ¿Cree usted que se necesiten
consideraciones adicionales?
1.11 En una mesa redonda de siete puestos se sienta a comer una familia compuesta por 7
personas ¿Cuál es la probabilidad de que las dos personas de mayor edad se ubiquen
en dos puestos consecutivos?
3.1. Ejercicios del Capítulo 1 195

Probabilidad Geométrica. Probabilidad Axiomática

1.12 (Problema del cumpleaños) Hallar en un grupo de N personas la probabilidad de que


al menos 2 cumplan años el mismo día. Realice un programa sencillo para calcular
esta probabilidad para N = 10, 20, 35, 60. Comente los resultados obtenidos.

1.13 Se tiene una moneda homogénea de radio r y se lanza sobre una mesa cuadrada de
lado `. Si se asume que la moneda cae siempre por una de sus caras y no se mueve,
entonces cuál es la probabilidad de que si la moneda toca la mesa no se caiga de la
misma.

1.14 Se lanzan 2 dados homogéneos al mismo tiempo. Calcule la probabilidad de los


siguientes eventos:

1. Que el producto de las caras sea un cuadrado perfecto y que la suma de las
caras sea no menor que 5
2. Que la suma de las caras sea un número par o mayor que 7
3. Que en el primer dado salga un primo y en el segundo un impar o que los dos
dados tengas cifras mayores que 3

1.15 Se lanzan 3 monedas balanceadas y se definen los sucesos A: sale exactamente una
cara, B: sale al menos una cara y C: no salen caras. Calcule la probabilidad de los
siguientes eventos A · B, A + B, B\C c , A + B + C, Ac · B.

1.16 ¿Cuál sería la probabilidad de obtener carabina con un juego de cubiletes en a lo


sumo 3 tiradas?

1.17 Sea OL un segmento de longitud ` > 1. Si se ubican al azar 3 puntos A, B y C,


calcule la probabilidad que OA + OB + OC sea menor o igual que 1.

1.18 (Paradoja de Bertrand ) Considere una circunferencia de radio 1. Halle la probabili-


dad de que una cuerda de esta circunferencia, elegida al azar, sea mayor que el lado
del triángulo equilátero inscrito en la circunferencia.

Independencia. Probabilidad condicional

1.19 En los siguientes circuitos la probabilidad de fallo de cada resistencia en 200 horas
de trabajo es 0.1 y se asume que los cables no fallan. Hallar la probabilidad de
que circule corriente entre A y B. Las resistencias fallan independientemente una de
otras.

1.
A R1 R2 B
196 3. Ejercicios de Probabilidades y Estadística

2.
R1
A B
R2

3.
R1 R4
A R3 B
R2 R5

1.20 Se tienen dos agujeros donde se lanzan 3 bolas rojas y 3 verdes. Cada bola roja tie-
ne la misma probabilidad de caer en cada hueco y las verdes caen con probabilidad
3/4,1/4 en los huecos 1 y 2 respectivamente. Halle la probabilidad de los sucesos
A: Hay sólo una bola roja en el hueco 1,
B: Hay exactamente 1 bola verde en el hueco 2 y
C: Hay exactamente 1 bola en el hueco 1.

1.21 Se lanzan dos dados. ¿Cuál es la probabilidad de que su suma sea 8 si se conoce que
en el primero de ellos hay un número par?

1.22 Se colocan al azar bolas en N cajas hasta que quede ocupada la primera caja. Halle
la probabilidad de que el proceso termine en el paso n.

1.23 Si se sabe que al lanzar cinco veces una moneda balanceada aparecieron al menos 2
caras, cuál es la probabilidad de que número exacto de caras haya sido 3.

1.24 En una urna se encuentran diez bolas: 3 blancas y 7 negras. Se selecciona una
primera bola y sin reponerla se selecciona una segunda. Sea A el evento de haber
seleccionado la primera vez una bola blanca, sea B el evento de haber seleccionado
la segunda vez una bola blanca y sea C el evento de que al menos una de las dos
bolas seleccionadas sea blanca. Determine

1. P (B|A)
2. P (A|B)
3. P (A|C)

1.25 Cuatro bolas numeradas son colocadas en cuatro celdas de modo que cada arreglo
es igualmente probable. Dado que las 2 primeras bolas están en diferentes celdas,
cuál es la probabilidad de que una celda contenga tres bolas.

1.26 Se tienen 2 eventos A y B. Demuestre que

1. Si P (A|B) = P (A) entonces se cumple que P (B|A) = P (B).


2. Si A y B son independientes, entonces lo son Ac y B.
3. Si A y B son excluyentes, entonces son eventos dependientes.
3.1. Ejercicios del Capítulo 1 197

1.27 Considere a las familias con exactamente dos hijos

1. ¿Cuál es la probabilidad de que ambos hijos sean varones?


2. Si el primer hijo es varón. ¿Cuál es la probabilidad de que el segundo también
lo sea?
3. Si se sabe que una familia con dos hijos tiene un hijo varón. ¿Cuál es la pro-
babilidad de que el último sea varón?

1.28 Dos gestores de información A y B reciben al azar las peticiones que van llegando a
un servidor con probabilidades de 3/5 y 2/5 respectivamente cuando están funcio-
nando. El primer gestor queda fuera de servicio un 80 % del tiempo en el que debería
estar trabajando y B un 25 %. Calcule la probabilidad de que un gestor funcione
cuando llega una petición.

1.29 (Paradoja de Monty Hall ) Considere tres puertas, una de las cuales contiene un
premio. Usted selecciona una de las puertas al azar, y luego, de las dos restantes,
un moderador le muestra una puerta vacía. A continuación puede seguir una de las
dos siguientes estrategias:

i. Quedarse con la puerta seleccionada al azar.


ii. Seleccionar la otra puerta que queda, de contenido desconocido.

Calcule las probabilidades de obtener el premio con cada una de las estrategias.

Bayes y Fórmula de Probabilidad Total

1.30 Se tienen dos urnas, la primera tiene 2 bolas blancas y 7 negras, la segunda tiene
5 blancas y 6 negras. Se lanza una moneda y se selecciona una bola de la primera
urna si sale cara y de la segunda si sale escudo. Halle la probabilidad de que salió
cara si la bola que se seleccionó es blanca.

1.31 Si un avión se encuentra en cierta región del Medio Oriente un radar registra su
presencia con probabilidad 0,9. Si ninguno se encuentra presente, el radar puede
registrar una señal falsa de presencia de avión con probabilidad 0,1. Se supone que
la probabilidad de que algún avión se encuentre en la región es 0,2.

1. ¿Cuál es la probabilidad de que el radar de una señal incorrecta acerca de la


presencia o no de un avión?
2. ¿Cuál es la probabilidad de que dado que el radar dió una señal de presencia
de avión exista realmente un avión?

1.32 Se tienen 2 urnas, en la primera hay 6 bolas negras y 4 blancas y en la segunda 3


blancas y 2 negras. De la primera urna se sacan 3 bolas simultáneamente y las bolas
del mismo color, que son mayoría, se meten en la segunda urna. Luego se extrae al
azar una bola de la segunda caja. ¿Cuál es la probabilidad de que sea blanca?
198 3. Ejercicios de Probabilidades y Estadística

1.33 En un cajón hay 20 pelotas de las cuales 15 son nuevas y 5 están usadas, se extraen
dos pelotas para un juego y después se vuelven a colocar en la caja. Si se toman dos
pelotas de la misma caja para un nuevo juego. ¿Cuál es la probabilidad de que este
segundo juego se lleve a cabo con pelotas nuevas?

1.34 Una urna contiene 3 bolas negras, 3 blancas y 2 rojas. Se sacan 3 bolas y se colocan
en una caja negra, después se extraen 3 bolas y se colocan en una caja blanca y
las dos restantes en una caja roja. ¿Cuál es la probabilidad de que todas las bolas
caigan en cajas de su mismo color?

1.35 En una industria se producen equipos de ensamblaje en dos líneas de producción.


La probabilidad de que un equipo salga defectuoso es de 0.1 para la línea 1 y de 0.2
para la línea 2 y la primera ensambla 3 veces más rápido que la segunda. De cada
equipo defectuoso, la probabilidad de que sea porque alguna pieza de las utilizadas
esté defectuosa es de 0.6, sin importar la línea de producción de la que proviene.
Se toma un equipo ensamblado al azar, ¿cuál es la probabilidad que el equipo haya
sido ensamblado en la línea 1 si se conoce que contiene piezas defectuosas.

1.36 Se tienen 3 cajas con bolas, cada una con 6 bolas blancas y 4 bolas negras. Se pasan
2 bolas de la primera caja a la segunda y se toman 2 bolas de la segunda y se pasan
a la tercera caja. Si se toma una bola de la tercera caja, cuál es la probabilidad de
que las bolas que se pasaron de la primera a la segunda caja sean del mismo color
dado que la bola que se extrajo de la tercera caja sea negra.

Bayes y Fórmula de la Probabilidad Total. Esquemas

1.37 Diez estudiantes contestan preguntas independientemente uno del otro, y cada uno
hasta el primer fallo. Si la probabilidad de fallar al contestar una pregunta no de-
pende de los anteriores resultados y es de 0.8 para cualquier pregunta. ¿Cuál es la
probabilidad de que al menos 8 estudiantes lleguen a la quinta ronda de preguntas?

1.38 Una fábrica usa en su sistema de producción crudo de dos pozos petroleros distintos.
Del primer pozo le enviaron 10 barriles de crudo y del segundo, 8 barriles. Si la
fábrica utiliza 5 barriles de crudo diario y estos son tomados al azar entre los dos
lotes. Calcule la probabilidad de que al tercer día solamente quede crudo del primer
lote.

1.39 Hay 6 cajas con 12 tornillos, buenos y malos. Una caja contiene 8 buenos y 4 malos,
2 cajas tienen 6 buenos y 6 malos y 3 cajas tienen 4 buenos y 8 malos. Se elige una
caja al azar y se extraen 3 tornillos sin reemplazamiento de los cuales 2 son buenos
y 1 malo. ¿Cuál es la probabilidad de que la caja elegida tenía 6 tornillos buenos y
6 tornillos malos?

1.40 Se tienen 2 cajas con bolas, la primera con 5 bolas blancas y 5 bolas negras, la
segunda con 3 bolas blancas y 7 bolas negras. Se toman aleatoriamente 2 bolas de
cada caja y se unen. Si entre las 4 bolas hay 3 bolas negras y una bola blanca. ¿Cuál
es la probabilidad de que se haya sacado una bola blanca de la primera caja?
3.1. Ejercicios del Capítulo 1 199

1.41 Se tienen dos cajas de bolas con bolas amarillas, blancas y rojas, tres de cada color
en cada caja. Se sacan bolas sin reposición de la primera caja hasta que salga una
amarilla y luego se toman todas las que se sacaron y se arrojan en la segunda caja,
si de esta última se tomó una bola y fue blanca, ¿cuál es la probabilidad de que
provenga de la primera caja?

1.42 Se tienen dos cajas con tres bolas blancas, tres bolas azules y tres bolas rojas. Se
toman aleatoriamente 2 bolas de la primera caja y se echan en la segunda y luego
se toman 2 de la segunda y se echan en la primera. ¿Cuál es la probabilidad de que
la composición de ambas cajas sea la misma al final?

1.43 Dos baterías de 6 cañones cada una disparan a un mismo blanco, la primera está a
3 Km. del blanco y la probabilidad de impacto para cada cañón es de 0.2 en cada
disparo y la segunda batería está a 5 Km. y la probabilidad de impacto en cada
disparo de cañón es de 0.1. Diga cuál es la probabilidad de que en una andanada de
disparos independientes para cada batería, den al menos 2 impactos en el blanco.

1.44 En un campo de tiro 6 tiradores disparan a un blanco hasta que logran el tercer
impacto. La probabilidad de impacto en cada disparo es de 0.3 y los disparos son
independientes uno del otro para el mismo tirador y de tirador a tirador. Si se conoce
que un tirador realizó al menos 5 disparos. Calcule la probabilidad de qué el primer
tirador haya efectuado al menos 8 disparos.

1.45 Una batería antitanque se compone de 10 cañones y para el primer grupo de 6 caño-
nes las probabilidades de que, al producirse un disparo, ocurra un impacto corto, un
impacto bueno o un impacto largo son iguales a 0, 3; 0, 5 y 0, 2 respectivamente. Para
cada uno de los 4 restantes estas probabilidades son: 0, 2; 0, 6 y 0, 2 respectivamen-
te. Tres cañones escogidos al azar realizan tres disparos contra un blanco y de ellos
exactamente 2 producen como resultado un impacto largo, uno bueno y uno corto.
¿Cuál es la probabilidad de que los dos cañones con este resultado pertenezcan al
primer grupo?

1.46 Se tienen 5 lámparas que funcionan en forma independiente.


R t −2x Para cada una la pro-
babilidad de fallo hasta un tiempo t horas es de 0 2e dx. Si al final del día de
trabajo se reponen todas las lámparas rotas, ¿Cuál es la probabilidad de que, du-
rante una semana de trabajo (lunes a sábado), se mantenga parte de la jornada con
menos de cuatro lámparas funcionando en tres de los días?

1.47 Se tiene una caja con 3 bolas blancas y 4 bolas negras. Se selecciona indistintamente
y al azar si se van a hacer las extracciones con o sin reposición y luego se sacan cinco
bolas de la caja en forma sucesiva. Si al final se sacaron exactamente tres blancas,
¿cuál es la probabilidad de que la primera bola fuera blanca?

1.48 Tres deportistas realizan pruebas eliminatorias para una competencia, son cinco
pruebas que se realizan en forma consecutivas con posibilidad de ser eliminado en
cualquiera de ellas y no seguir en la competencia. Las probabilidades de éxito para
el primer deportista son: 0, 5; 0, 8; 0, 9; 0, 4; 0, 7 para el segundo estas probabilidades
200 3. Ejercicios de Probabilidades y Estadística

son 0, 8; 0, 3; 0, 9; 0, 6; 0, 8 y para el tercero 0, 7 para cada prueba. ¿Cuál es la pro-


babilidad de que, si quedó clasificado un solo deportista, el vencedor sea el primero?
¿Cuál es la probabilidad de que dos de los tres clasifiquen?

1.49 Cinco aviones salen a una misión de combaten y se dividen en dos grupos de 2 y
3 aviones respectivamente, el más pequeño va a bombardear una fábrica de arma-
mento donde la artillería antiaérea puede derribar a cada avión con probabilidad
0, 2. El segundo grupo se dirige primero hacia un emplace de tanques donde pue-
den ser derribados cada uno con probabilidad 0, 4 y posteriormente a bombardear
una hidroeléctrica cercana donde la probabilidad de derribar k aviones de los n que
2(k+1)
vienen juntos al ataque es de (n+1)(n+2) . ¿Cuál es la probabilidad de que más de 4
aviones regresen a la base? Si regresó un solo avión, ¿Cuál es la probabilidad de que
estuviera en la hidroeléctrica?

Variables aleatorias discretas

1.50 La probabilidad de que cada aparato falle durante un experimento no depende de los
fallos de los demás aparatos y es igual a 0, 2. Se han ensayado 9 aparatos. La variable
aleatoria X es el número de aparatos que han fallado durante las pruebas. Calcule
la función de distribución de X y las probabilidades de los sucesos: A = {X = 0},
B = {X < 3} y C = {X ≥ 6}.

1.51 Una variable aleatoria discreta X toma los valores {−2, −1, 0, 1, 2}. Se conoce que
1 1 3
FX (−1) = , FX (0) = , FX (2) = .
8 2 4
Halle la función de distribución y de probabilidad de X, si se conoce además que
P (X = 1) = 3P (X = 0).

1.52 Un libro de Estadística de 500 páginas contiene 300 erratas. Considerando aplicable
una ley de Poisson con parámetro igual al promedio de erratas por página, hallar el
número más probable de erratas en una página de texto y la probabilidad de este
número.

1.53 Una moneda es lanzada tres veces. Considere la variable aleatoria definida como el
número de caras obtenidas en los tres lanzamientos.

1. Escriba su función de probabilidad y de distribución.


2. Calcule la probabilidad de obtener en el experimento exactamente 2 caras.
3. Calcule la probabilidad de obtener menos de 2 caras.

1.54 Un grupo de 9 estudiantes se divide a su vez en 3 subgrupos de 2, 3 y 4 integrantes.


Para responder la primera pregunta se toma completamente azar un nombre entre
los 9 para responder. En la segunda ronda de preguntas se procede de la misma
forma con los 9 nombres y así sucesivamente. Si se realizaron 15 preguntas, calcule la
probabilidad que del primer grupo fueron escogidos 6 veces alguno de sus integrantes
y del último grupo 4 de sus integrantes.
3.1. Ejercicios del Capítulo 1 201

1.55 Se realizan disparos contra un blanco que se aleja. Con el primer disparo, la proba-
bilidad de dar en el blanco es de 0, 8 y en cada disparo sucesivo la probabilidad de
impacto disminuye a la mitad.

1. Describa la función de probabilidad del número de impactos con dos disparos.


2. Diga cuál es el mínimo de disparos que tendrán que efectuarse para que la
probabilidad de impacto no sea menor que 0, 9.

1.56 En un cierto juego de tiro con arco, cada jugador tiene una probabilidad de acertar
en el blanco de 13 . Si acierta recibe dos flechas y en caso contrario pierde la flecha
lanzada. Un jugador tiene al inicio 5 flechas y el juego termina cuando se llega a
la tercera ronda de lanzamiento. Halle la función de probabilidad para la variable
aleatoria número de flechas al concluir el juego para un jugador.
k
1.57 Sea X una variable aleatoria con función de probabilidad P (X = x) = x
, para
x = 1, 2, 3, 4. Halle el valor de k y P (1 < X < 4).

1.58 Se tienen 2 urnas. En la primera urna hay 6 bolas blancas y 4 negras y en la segunda 6
negras y 4 blancas. Se saca al azar una bola de la primera caja, se observa y se repone
y luego, cualquiera que haya sido el resultado se pasa una bola de la segunda caja a
la primera y se repite toda la operación una segunda vez. ¿Cuál es la probabilidad
del número de bolas blancas que con mayor probabilidad fue sacado de la primera
caja?

1.59 Un jugador tiene una probabilidad de 0.5 de ganar una determinada partida cada
vez. Diga qué es más probable ganar 3 partidas de 4, 5 u 8.

1.60 Se lanzan una vez tres dados iguales. La variable aleatoria S toma el valor 1 si al
menos en un dado sale el 6; vale 0 si el 6 no aparece pero sale al menos un 5 y toma
el valor −1 en los demás casos. Describa su función de probabilidad y calcule su
función de distribución.

Variables aleatorias continuas

1.61 Sea U una variable aleatoria con distribución uniforme: U (a, b). Calcular la proba-
bilidad de que como resultado de un experimento, U tome valores entre (a + b)/4 y
(a + b)/2.

1.62 Sea la siguiente función


( x
ke− 5 si x > 0
f (x) =
0 otro caso .

1. Determine el valor de k para que la función anterior sea una función de densidad
de una variable aleatoria X.
2. Hallar P (X > 2) y P (1 ≤ X < 5).
202 3. Ejercicios de Probabilidades y Estadística

1.63 El tiempo de duración de un cierto tipo de lámpara es una variable aleatoria conti-
nua, cuya densidad es:
Ax
f (x, A) = si 5 ≤ x ≤ 10
50
y cero en otro caso.

1. Calcule el valor de A.
2. Hallar la probabilidad de que una lámpara funcione más de 8 horas.
3. Si 7 lámparas funcionan independientemente, hallar la probabilidad de que
menos de 3 funcionen más de 8 horas.

1.64 Una variable aleatoria en el intervalo [0, 2] tiene la siguiente función de distribución:
1 a
FX (x) = (x + 4)2 − .
20 5
Determine la densidad de X y halle el valor de a.

1.65 Sea la variable aleatoria X con distribución N (µ, σ 2 ). Halle la probabilidad de que
X se encuentre en los siguientes intervalos:

1. [µ − σ; µ + σ].
2. [µ − 2σ; µ + 2σ].
3. [µ − 3σ; µ + 3σ].

1.66 Se selecciona un número real X del intervalo [2, 10] con densidad

f (x) = Cx,

donde C es una constante real.

1. Halle C.
2. Halle P (E), donde E = [a, b] es un subintervalo de [2, 10].
3. Halle P (X > 5), P (X < 7), y P (X 2 − 12X + 35 > 0).

1.67 Sea X una variable aleatoria continua con función de densidad




 0 si x<1

1/2 si 1≤x<a
fX (x) =


 2 si a≤x≤2

0 si x > 2.

donde a es una constante real que cumple 1 < a ≤ 2.

1. Halle el valor de a.
2. Calcule P (X > 1) y P ( 13 < X < 74 ).
3.1. Ejercicios del Capítulo 1 203

3. Si se asume que la densidad de X es fX (x) = a2 cuando 1 ≤ x < a y se mantiene


igual en los otros intervalos, determine el valor de a.

Variables aleatorias. Características Numéricas

1.68 Halle el valor esperado y la varianza de las siguientes distribuciones

1. Poisson de parámetro λ.

λx e−λ
P (X = x) = , x = 0, 1, 2, · · · .
x!

2. Exponencial de parámetro θ

f (x) = θe−θx 1(0,+∞) (x).

3. Gamma de parámetros α y λ.

λ(λx)α−1 e−λx
f (x) = 1(0,+∞) (x).
Γ(α)

1.69 Un equipo que mide y almacena continuamente la actividad sísmica es colocado


en una región remota. El tiempo T , de rotura del equipo sigue una distribución
exponencial de media 3 años. Dado que el equipo no se revisa en los primeros dos
años, el tiempo de detección de rotura es X = máx(T, 2). Determine E[X].

1.70 Si el tiempo está bueno (lo cual ocurre con probabilidad 0,6), Alice va caminando
2 km a la universidad a una velocidad de 5 km/h, si el tiempo es malo entonces va
en bicicleta a una velocidad de 20 km/h. Halle el tiempo medio que le toma a Alice
llegar a clases.

1.71 Dos equipos juegan un torneo determinado. Cada juego es ganado por el equipo
A con probabilidad p y por B con probabilidad 1 − p. El ganador del torneo es el
equipo que primero gane 4 juegos. Halle el valor esperado de del número de juegos
que se deben realizar para terminar el torneo.

1.72 La función de distribución de cierta variable aleatoria X está definida de la siguiente


forma 
0
 x<0
2
F (x) = 2x − x 0 ≤ x < 1

1 x ≥ 1.

Halle el valor esperado y la varianza de X.

1.73 Una moneda se lanza n veces. La probabilidad de obtener cara es p. Se dice que
hay un cambio cuando el resultado del lanzamiento es diferente al anterior. Halle el
valor esperado del número de cambios realizados en n intentos.
204 3. Ejercicios de Probabilidades y Estadística

1.74 Una compañía aseguradora paga por día de hospitalización 100 $, durante los tres
primeros días y 50 los siguientes. Considerando que los días de hospitalización X es
una variable aleatoria discreta con función de probabilidad
(
6−k
para k = 1, 2, 3, 4, 5
P (X = k) = 15
0 en otro caso.

Determine el valor esperado de pago por hospitalización por parte de la compañía.

1.75 Sea X una variable aleatoria con valor esperado EX = − 12 y función de densidad
(
1
kx + 2
x ∈ [−1, 1]
f (x) =
0 en otro caso.
Determine el valor de k y halle la varianza de X.

1.76 Una moneda perfecta se lanza 6 veces. La variable aleatoria X es la diferencia entre
el número de caras que han salido y el de escudos. Halle su función de probabilidad,
su función de distribución, así como su valor esperado y varianza.

1.77 Considere el siguiente juego donde a una persona se le proponen dos preguntas para
responder. La pregunta A puede ser respondida correctamente con probabilidad
0,8, y en tal caso la persona obtendría un premio de 100e mientras que la pregunta
B tiene una probabilidad de 0,5 de ser respondida correctamente y un premio de
200e. Si la persona responde correctamente la primera pregunta seleccionada gana el
premio correspondiente y tiene derecho a responder la segunda pregunta. Diga cuál
pregunta debe responder la persona primero para maximizar la ganancia esperada.

Vectores aleatorios discretos

1.78 Un servidor de correo envía un mensaje por minuto. Se conoce que dicho servidor
tiene una probabilidad de 0.7 de enviar correctamente el mensaje. Si el servidor
falla en el envío entonces el correo se pierde. Si el servidor falla un total de 3 veces
se desconecta y entra a funcionar otro servidor que envía su primer mensaje con
probabilidad 0.9, pero después falla en cada mensaje con probabilidad 0.6.

1. Halle la probabilidad de que se envíen todos los mensajes en 6 minutos.


2. Calcule la probabilidad de enviar 2 mensajes en 4 minutos.
3. Si se conoce que el primer servidor se desconectó a los 10 minutos. Calcule la
probabilidad de que no se hayan enviado más de 10 mensajes en 20 minutos.

1.79 Sea (X, Y ) un vector aleatorio discreto con función de probabilidad conjunta dada
por
3.1. Ejercicios del Capítulo 1 205

X 1. Determine los valores de a y b si se co-


2 4 6 noce que EX = 3,8.
1 0.1 a 0 2. Halle la función de probabilidad mar-
Y 3 0 0.2 0.2 ginal para cada variable.
5 0.3 0 b
3. Diga si X y Y son independientes.
4. Calcule E(2X − 3Y ).

1.80 Sea (X, Y ) un vector aleatorio discreto cuya función de probabilidad está represen-
tada en la siguiente tabla:

X Calcule
2 3 4
1 0.2 0.1 0.2 1. Calcule PX , PY y F(X,Y )
Y
4 0.1 0.3 0.1 2. FY
3. PX|Y =4
4. E[Y |X > 2]
5. V [X|Y = 4]

1.81 Sea (X, Y ) un vector aleatorio discreto con función de probabilidad dada por

X
4 6 8 10
0 0 0.1 0.2 0.1
Y 1 0 0 0 0.2
2 0.2 0.1 0 a

1. Halle el valor de a.
2. Halle las funciones de probabilidad marginales y la distribución conjunta.
3. Halle V [Y ] y E[X|Y = 2].
4. Diga si X y Y son independientes. Justifique.

1.82 Se lanza 3 veces un dado homogéneo y se definen las variables aleatorias siguientes:
X: número de veces que aparece el 6; Y : número de apariciones de una cifra impar.

1. Determine la función de probabilidad del par (X, Y ).


2. Calcule las funciones de distribución marginal para cada variable
3. ¿Son independientes las variables aleatorias?

1.83 Sea (X, Y ) un vector aleatorio discreto con función de probabilidad conjunta dada
por
206 3. Ejercicios de Probabilidades y Estadística

X Calcule
-1 0 1
-1 1/6 0 1/6 1. La función de distribución conjunta y
Y 0 0 1/3 0 las probabilidades marginales
1 1/6 0 1/6 2. P (X < 0, Y < 1) y P (X ≥ 0, Y = 1)
3. PX|Y =1
4. V [X]
5. V [Y |X > −1]
6. P (X > Y )

1.84 Sea (X, Y ) un vector aleatorio discreto con función de probabilidad conjunta dada
por

Y
1 3 6 8
0 0.1 0.1 0.1 0
X 2 0.1 0.2 0.1 0
4 0.1 0.1 0 0.1

y sea Z una variable aleatoria con distribución Binomial en el intervalo B(3, 31 )


independiente de Y .

1. Halle E[X|Y ≤ 3].


2. Calcule E(X − 2Z).
3. Diga si X y Y son independientes.
4. Determine V (3Z − Y ).
5. Halle V [Y |Z < 3].
6. Diga si P (X ≥ 3) ≤ P (Z ≥ 3). Argumente.

1.85 Cuatro amigos deciden enviar cada uno una carta a cualquiera de los otros 3 del
grupo. Sea X la v.a. número de cartas que recibe el primero de ellos y Y la v.a.
número de cartas que recibe el segundo de ellos. Complete en la tabla la función de
probabilidad conjunta.

X
0 1 2 3
0 4/81
1 10/81 17/81
Y
2 8/81
3 2/81

1. Halle PY y FY .
2. Halle E[X/Y = 1].
3.1. Ejercicios del Capítulo 1 207

3. Calcule FX/Y >0 .


4. Diga si X y Y son independientes. Justifique.

Vectores aleatorios continuos

1.86 Compruebe que f (x, y) definida por



 2/3 0 < x ≤ 1, 0 < y < x
f (x, y) = 4/3 1 < x < 2, 0 < y < 2 − x
0 otro caso

es una densidad conjunta para un vector aleatorio (X, Y ). Determine las distribu-
ciones marginales de ambas variables y calcule P (X ≤ 1,5, Y ≤ 0,5).
1.87 La función de densidad de un vector aleatorio continuo es:

f (x, y) = c(xy + y 2 )

cuando 0 ≤ x ≤ 2; 0 ≤ y ≤ 1.
1. Determine el valor de la constante c.
2. Determine si las variables X y Y son independientes.
3. Halle las funciones de distribución marginal.
1.88 Sea (X, Y ) un vector aleatorio continuo con distribución conjunta
(1 − e−βx )(1 − e−λy ) x ≥ 0, y ≥ 0

F (x, y) =
0 otro caso
1. Encuentre las distribuciones y densidades marginales de X y Y .
2. Calcule la probabilidad asociada a los siguientes eventos:
A = {X ≤ 1, Y ≤ 1}.
B = {1 < X ≤ 2, 2 < Y < 5}.
1.89 Sea (X, Y ) un vector aleatorio con función de densidad conjunta
 1
2x2
|x| < 1, 0 ≤ y ≤ x2
f (x, y) =
0 otro caso
1. Halle las funciones de densidad marginal de X y Y .
2. Calcule P (Y > 0,25) y P (X > −0,5, Y < 0,64).
3. Diga si las variables son independientes.
1.90 La densidad conjunta del vector aleatorio (X, Y ) está definida por la siguiente ex-
presión 
cxy(1 − x) 0 < x < 1, 0 < y < 1
f (x, y) =
0 otro caso
208 3. Ejercicios de Probabilidades y Estadística

1. Determine el valor de c
2. Halle las distribuciones marginales de X y Y .
3. Calcule V X y V Y .
4. Diga si las variables son independientes.

1.91 Sea (X, Y ) un vector aleatorio con función de densidad conjunta


 y
2x
1 ≤ x ≤ e, 0 ≤ y ≤ a
f (x, y) =
0 otro caso

1. Determine el valor de la constante a.


2. Halle las funciones de densidad marginal de X y Y .
3. Calcule P (X > Y ).
4. Determine EX y V Y .

1.92 La función de densidad de un vector aleatorio continuo es:

f (x, y) = c(x + y)1A (x, y),

donde A = {(x, y) : 0 ≤ y ≤ x ≤ 2}.

1. Determine el valor de la constante c.


2. Halle las funciones de densidad marginal en cada caso.
3. Determine la función de densidad condicional de X dado Y = y. Calcule P (X >
1
2
/Y = 15 ).
4. Determine si las variables X y Y son independientes.

1.93 Sea (X, Y ) un vector aleatorio continuo, cuya densidad f (x, y) = k está definida en
la región limitada por las rectas x = 0, y = 0, x + y = 1

1. Encuentre el valor de k.
2. Calcule P (X > 0, Y < 21 )
3. Calcule V X.

Vectores aleatorios. Covarianza y correlación

1.94 Sea (X, Y ) un vector aleatorio con función de probabilidad conjunta

X
1 2 3
-1 0 0.1 0.1
Y 0 a 0 0.2
1 0.3 b 0
3.1. Ejercicios del Capítulo 1 209

Además se conoce que la variable aleatoria X toma sus valores con probabilidad
0,75, 0,25 y 0 cuando Y = 1.
1. Halle el valor de las constantes a y b.
2. Halle la esperanza de X y la varianza de Y .
3. Calcule el coeficiente de correlación entre ambas variables.
1.95 Diga si X y Y son independientes si la función de densidad conjunta es
1. f (x, y) = 4xy si 0 < x < 1 y 0 < y < 1, y f (x, y) = 0 en otro caso.
2. f (x, y) = x + y si 0 < x < 1 y 0 < y < 1, y f (x, y) = 0 en otro caso.
Halle la correlación entre X y Y .
1.96 El número X se escoge al azar en un conjunto de números enteros {1; 2; 3}. Luego
se escoge aleatoriamente, en el mismo conjunto, el número Y , que es mayor o igual
que X.
1. Calcule las funciones de probabilidades marginales.
2. Diga si las dos variables aleatorias son independientes.
3. ¿Están incorrelacionadas las variables aleatorias?
1.97 Sea un vector aleatorio continuo (X, Y ) con función de densidad conjunta definida
por la siguiente expresión
 −(x+y)
2e 0 < y ≤< x
f (x, y) =
0 otro caso
Halle corr(X, Y ).
1.98 Se colocan al azar 3 bolas numeradas en 5 urnas. Cada urna puede contener más
de una bola. Sean las siguientes variables aleatorias, X: número bolas en la primera
urna, Y : número de urnas ocupadas.
1. Halle la función de probabilidad conjunta del par (X, Y ).
2. Calcule el coeficiente de correlación lineal entre ambas variables.
1.99 Sea un vector aleatorio continuo (X, Y ) con función de densidad conjunta definida
por la siguiente expresión
 −(x+y)
xe x > 0, y > 0
f (x, y) =
0 otro caso
Halle cov(X, Y ).
1.100 Se tiene una urna con una pelota negra, tres pelotas blancas y dos pelotas rojas. Se
toman pelotas al azar y sin reemplazamiento hasta que salga una bola blanca. Sea
X la v.a. número de pelotas extraídas y Y la v.a. número de pelotas rojas extraídas.
Complete en la tabla la función de probabilidad conjunta.
210 3. Ejercicios de Probabilidades y Estadística

X
1 2 3 4
0 0.5 0.1
Y 1
2

1. Halle P (X < 2; Y > 0).


2. ¿Son X y Y independientes? Justifique.
3. Calcule corr(X, Y ).

Teorema Central del Límite y Ley de los Grandes Números

1.101 Sugiera un generador de números aleatorios de una distribución normal N (µ, σ 2 ) a


partir de un generador de números aleatorios uniformes en [0, 1].

1.102 El ancho de banda que utiliza un usuario de la universidad es una variable aleatoria
independiente para cada usuario y con la misma distribución. Se conoce que su valor
esperado es 1kbps y la varianza 0,25kbps. Suponga que hay 100 usuarios conectados
en un momento determinado. Calcule la probabilidad de que el ancho de banda que
se está utilizando sobrepasé los 256kbps.

1.103 Se conoce que los errores de redondeo distribuyen U (−5 × 10−k ; 5 × 10−k ) donde k es
la precisión del resultado. Si en un método numérico el error total puede considerarse
como la suma de todos los errores de redondeo, los cuales son independientes y se
realizaron 104 operaciones, ¿Cuál es la probabilidad de que el resultado tenga dos
cifras exactas?

1.104 Se tiene una caja con 3 bolas blancas y 2 bolas negras y se toma al azar una bola,
después de anotar el color se devuelve a la caja. Si esta experiencia se repite 1000
veces de forma independiente, cuál es la probabilidad de que al menos 410 bolas
hayan sido bolas negras.

1.105 Sea un grupo de N personas, donde N es muy grande. A cada persona se le pregunta
si conoce el Teorema de Bayes y se obtiene que la probabilidad de conocer dicho
teorema es p = 0,2. Si se vuelve a formular la misma pregunta pero a un grupo de
n personas del mismo grupo, cuál es el menor valor de n que se debe tomar para
que la probabilidad observada de conocer el Teorema de Bayes en el nuevo grupo
pn cumpla que P (|pn − p| < 0,03) > 0,95.

1.106 Se tiene una línea de producción con 500 tornos iguales que trabajan en forma
independiente. En un tiempo de cinco minutos la pieza se termina y se revisa.
Existe una probabilidad de 0.2 de que la pieza no tenga problemas, pero si los tiene
se repara con una probabilidad de 0.6. Si en 5 minutos solamente se puede terminar
una pieza con el proceso de revisión incluido, diga cuál es la probabilidad de que se
obtengan al menos 360 piezas sin defectos en cinco minutos.
3.1. Ejercicios del Capítulo 1 211

1.107 Un programa de reconocimiento de texto tiene una probabilidad de 0.5 de reconocer


erróneamente una palabra larga, digamos más de 7 caracteres, y se equivoca con
probabilidad de 0.1 en palabras cortas, o sea con 7 caracteres o menos. Sea un
texto de 500 palabras donde se conoce que hay 100 palabras largas. Diga cuál es la
probabilidad de que el número de errores se encuentre entre 90 y 130.

 independientes {Xk } para k ≥ 1


1.108 Diga si la siguiente sucesión de variables aleatorias
cumple la Ley de los Grandes Números si Xk ∈ − 21k , 0, 21k , donde estos tres valores
que toma la variable aleatoria tienen la misma probabilidad.

1.109 Demuestre que las siguiente sucesiones de variables aleatorias cumplen la Ley de los
Grandes Números

1. Sean {Xk } independientes para k ≥ 1 con la siguiente función de probabilidad

xk −1 2 4
1 1 1
P (Xk = xk ) 4 4 2

2. Sean {Xk } independientes para k ≥ 2 con la siguiente función de probabilidad

xk − ln k 0 ln k
1 2 1
P (Xk = xk ) k2
1− k2 k2

3. Sean {Xk } independientes para k ≥ 2 con la siguiente función de probabilidad


√ √
xk − k 1 k
1 √1 1
P (Xk = xk ) √
2 k
1− k

2 k

1.110 Sea una sucesión de variables aleatorias independientes {Xk } para k ≥ 1 tales que
1
P (Xk = −k a ) = P (Xk = k a ) = ,
2
para a < 12 . Demuestre que la sucesión cumple con la Ley de los Grandes Números.
212 3. Ejercicios de Probabilidades y Estadística

Generación de variables aleatorias

1.111 (Programación) Use el método de Monte Carlo para obtener un algoritmo de


cálculo aproximado del número π.

1.112 Sea Ω = {1, 2, . . . , N }. Demuestre que con la expresión [N U ] + 1, donde U es un


punto seleccionado al azar del intervalo (0, 1), se puede simular la selección de los
puntos de Ω cada uno con probabilidad 1/N . Por [x] hemos denotado la parte entera
de x.

1.113 (Programación) Se desea generar los resultados del lanzamiento al azar de una
moneda simétrica, pero solo se posee una moneda sesgada que tiene probabilidad p
desconocida de aparición de escudo. Compruebe que con el siguiente procedimiento
la probabilidad de aparición de cada cara es igual a 1/2:

1. Lanzar la moneda.
2. Lanzar la moneda otra vez.
3. Si en ambos lanzamientos aparece la misma cara reiniciar con el paso a).
4. El resultado del último lanzamiento es el resultado deseado.

1.114 (Programación) Sea U ∼ U (0, 1) y 0 < q < 1. Compruebe que la variable aleatoria
X = [ log U
log q
] + 1, donde [x] denota la parte entera de x, tiene distribución geométrica
con parámetro 1 − q.

1.115 Una variable aleatoria X con densidad f (x) = λ2 e−λ|x| , x ∈ R, λ > 0, se dice que
tiene distribución de Laplace con parámetro λ. Sean X ∼ Exp(λ) y U ∼ U (0, 1)
variables aleatorias independientes. Compruebe que la variable aleatoria Y tal que

X si U ≤ 1/2
Y = ,
−X si U > 1/2

tiene distribución de Laplace y proponga un método para simular una variable


aleatoria con dicha distribución.

1.116 (Programación) Proponga un método para generar variables aleatorias con distri-
bución Γ(λ, n).

1.117 (Programación) Proponga un algoritmo que permita generar al azar una permu-
tación de los primeros n números naturales.
3.2. Ejercicios del Capítulo 2 213

3.2 Ejercicios del Capítulo 2

Estadística descriptiva

2.1 (Programación) En el ejercicio 1.111, calcule el valor de π utilizando diferentes


tamaños de muestra N . Replique el método de Monte Carlo k veces para cada
valor de N . Analice el comportamiento de la media y la varianza de los resultados
obtenidos cuando aumenta el valor de N . Comente los resultados.

2.2 (Programación) En el ejercicio 1.114 se propone un método de simulación de la


distribución geométrica. Compare este método con la variante usual para generar
variables aleatorias con distribución geométrica cuando 1 − q toma valores pequeños
(0.1 y 0.05). Comete los resultados utilizando solamente representaciones gráficas.

2.3 Sea x = (x1 , x2 , · · · , xn ) los valores de una cierta muestra aleatoria. Determine, a
partir de x, el valor cv que minimiza
n
X
(xi − cv )2 .
i=1

2.4 (Programación) Se conoce que la estatura en centímetros en un grupo de estu-


diantes está entre 156cm y 189cm en una muestra de tamaño 100. Los datos de la
muestra no se conocen. Simule los 100 valores de la variable estatura en el intervalo
antes mencionado, utilice un generador de variables uniformes o normales. Justifi-
que, según su criterio, cuál de los dos tipos de variables es la mejor para el problema.
Realice un estudio descriptivo completo de los datos simulados: tabla de frecuencia,
medidas descriptivas, gráficos. Comente los resultados.

2.5 (Programación) Suponga que se desea realizar una encuesta en una de cinco uni-
versidades donde se estudia Ciencia de la Computación. La encuesta consiste en
preguntarles a los estudiantes su opinión acerca de la calidad de su universidad en
cuanto a la docencia: Excelente, Buena, Normal, Regular y Mala. Se sabe que las
opiniones en cada una de las universidades se comportan de forma diferente. Simu-
le la selección al azar de una universidad si se supone que todas tienen la misma
probabilidad de ser elegidas. Después de seleccionada la universidad, simule los re-
sultados de la encuesta si se supone que la muestra fue de 120 estudiantes. Debe
tener en cuenta que los resultados en cada universidad deben ser, de cierta forma,
diferentes. Explique cómo lograría usted obtener comportamientos diferentes de for-
ma simulada para cada universidad. Realice un estudio descriptivo completo de los
datos simulados: tabla de frecuencia, medidas descriptivas, gráficos. Comente los
resultados. Compare estos resultados con otra simulación donde se seleccione una
universidad diferente.

2.6 Sea x = (x1 , x2 , · · · , xn ) los valores de una cierta muestra aleatoria. Demuestre que
n
P
1. (xi − x) = 0.
i=1
214 3. Ejercicios de Probabilidades y Estadística

n n
(xi − x)2 = x2i − n(x)2 .
P P
2.
i=1 i=1

2.7 A partir de los valores de una muestra de una variable aleatoria discreta X se obtuvo
el siguiente histograma

fi

40

30

20

10

xi
1 2 3 4 5
X

Utilice el histograma para extraer la mayor cantidad de información de la muestra.


Estimación puntual

2.8 Una muestra de n artículos son examinados en una jornada por un equipo deter-
minado, la muestra es tomada de una población. El número de artículos buenos en
una jornada sigue una distribución binomial de parámetros n y p(probabilidad de
que un artículo no esté defectuoso). La jornada es aceptada si los n artículos son
buenos y no lo es en otro caso.
De m jornadas x son aceptadas. Halle el estimador máximo verosímil de p.
2.9 La longitud (en centímetros) de los huevos en un nido de una especie ave están en
la siguiente tabla:
22 23.9 20.9 23.8 25 24 21.7
23.8 22.8 23.1 23.1 23.5 23 23

Se desea una estimación de la longitud promedio de los huevos procedentes de esta


especie de aves. Si se asume que la variable aleatoria “longitud de los huevos” obedece
a un modelo cuya función de distribución que lo caracteriza está dado por

 0 x<0
α
F (x; α, β) = (x/β) 0 ≤ x ≤ β
1 x>β

y se asume que las observaciones constituyen una muestra aleatoria de X, determine


estimación de la longitud promedio de los huevos por:
3.2. Ejercicios del Capítulo 2 215

1. El método de los momentos.


2. El método de la máxima verosimilitud.

2.10 Sea X una variable aleatoria que sigue una distribución hipergeométrica HG(n, m, N )
con función de probabilidad definida por
n N −n
 
x m−x
f (x; n, m, N ) = N
 .
m

Si n y m son conocidos, halle el estimador máximo verosímil de N .

2.11 Sean θb1 y θb2 dos estimadores insesgados para un cierto parámetro θ. Demuestre que
para α ∈ (0, 1) el estimador θbα = αθb1 + (1 − α)θb2 es también insesgado para el
parámetro.

2.12 (Programación) El algoritmo de Newton-Raphson es un método numérico que


permite encontrar la solución de una ecuación no lineal. Sea g una función tal que
existe g 0 . Si se desea hallar el valor x? para el cual g(x? ) = 0, entonces el algoritmo

g(xk )
xk+1 = xk − ,
g 0 (xk )

se utiliza para obtener un valor aproximado de x? cuando se cumpla la condición


de parada del algoritmo. Adapte el método de Newton-Raphson para hallar el es-
timador máximo verosímil. Utilice la log-verosimilitud como función g. Aplique el
procedimiento utilizando x0 = 1 para estimar λ en una distribución Γ(λ, 4). Genere
una muestra de tamaño 50 de dicha distribución para λ = 1 y verifique los resul-
tados obtenidos por el método de Newton-Raphson. Seleccione al azar 100 valores
x0 en el intervalo [1, 10] y compare las estimaciones obtenidas para la misma mues-
tra en cuanto al número de iteraciones utilizadas para alcanzar un error específico.
¿Considera usted importante la selección del valor inicial de acuerdo a los resultados
obtenidos?

2.13 Se observan los tiempos de vida de n elementos a partir de un mismo instante t0 hasta
un instante de tiempo determinado t. De los n elementos, k concluyen su ciclo de
vida con tiempos y1 , · · · , yk y n − k siguen con vida en el instante t. Suponiendo que
los tiempos de vida sigan una distribución exponencial de parámetro β. Determine la
verosimilitud inducida de este hecho y además calcule el estimador máximo verosímil
para β.
Estimación por intervalos

2.14 En una zona del país se ha seleccionado aleatoriamente la cantidad de 100 niños
entre 4 y 10 años de edad, reportándose que 36 de ellos padecen de asma. De una
estimación puntual y por intervalo de confianza al nivel 0.90 de la proporción de
niños que padecen de asma.
216 3. Ejercicios de Probabilidades y Estadística

2.15 Por experiencia se conoce que la longitud de los camarones que se crían en una
represa posee una desviación típica de 0.35cm. Se desea realizar una estimación por
intervalo de la longitud promedio por camarón en uno de los tanques donde se crían
los mismos. Si se fija un coeficiente de confianza de 0.95 ¿Cuántos camarones hay
que seleccionar aleatoriamente para que la amplitud del intervalo sea de 0.22cm?
Asuma normalidad en los datos.

2.16 Una fábrica de baterías de celulares ha recibido en los últimos meses quejas de
clientes por la poca duración de su producto. El gerente se plantea realizar un
estudio para controlar el nivel de calidad que ofrece. Suponiendo que la variable
aleatoria que mide la duración de las baterías sigue una distribución Exponencial,
selecciona una muestra de 200 baterías obteniendo que su duración es de 30 horas.
¿Cuáles son el número mínimo y máximo de horas que puede ofrecer el gerente para
la duración media de las baterías, con una confianza de 0,95?

2.17 Un analista desea obtener una aproximación de los ingresos de las familias residentes
en un barrio. El analista dispone de información referente a 50 familias seleccionadas
aleatoriamente, de forma que los ingresos totales de las 50 familias ascienden a
10 millones de euros con una desviación típica de 2000 euros. ¿Podría dar una
estimación de la renta familiar media con una confianza del .95 ?

2.18 Un banco determinado, estudia la posibilidad de cerrar una sucursal situada en cierto
barrio. La dirección decide cerrar la sucursal si el número de clientes promedio no
sobrepasa los 22 servicios diarios. Para efectuar el estudio se considera el número de
clientes que demandan diariamente servicios en la sucursal sigue una distribución de
Poisson. Después de registrar el número de servicios prestados durante 150 días, se
concluye que la media es 20 servicios al día. Obtener un intervalo de confianza del
.95 al estimar el número medio de servicios prestados diariamente. ¿Cree usted que
esta información es suficiente para tomar una decisión? En caso contrario proponga
una solución al problema.

2.19 En una central telefónica hay un único teléfono público con línea internacional.
La variable aleatoria que mide el tiempo de espera en la cola de dicho teléfono se
admite que sigue una distribución exponencial. La dirección quiere averiguar cuál
el tiempo medio de espera de los usuarios, con vistas a ampliar el número de líneas
internacionales. Preguntando a 150 clientes seleccionados al azar, se ha obtenido un
tiempo medio de espera para los mismos de 20 minutos. Obtenga un intervalo para
el tiempo promedio de espera con una confianza de ,99.

Pruebas de Hipótesis Paramétricas

2.20 En una imprenta existen dos responsables distintos A y B de los trabajos de impre-
sión. De los resultados del último año se conoce que el número medio de erratas por
página cometidas por el responsable A es de 0.15 y el de B es de 0.10. A cierto autor
le han impreso un libro de 180 páginas y se han encontrado un total 25 erratas, y
se asume que el responsable de su impresión fue A. Suponiendo que el número de
3.2. Ejercicios del Capítulo 2 217

erratas por página se modela por una distribución de Poisson y utilizando un nivel
de significación del 0.05, decida si efectivamente el responsable de la impresión fue
A y no B.

2.21 El Ayuntamiento de una ciudad desea averiguar si el inicio de las obras del metro,
ha repercutido de alguna forma en la fluidez del tráfico. Para ello decide centrar el
análisis en el servicio que realiza una línea de autobus urbano. Antes de iniciarse
las obras, a las horas centrales del día, un autobús tardaba un tiempo medio de
60 minutos en completar su recorrido, con una desviación típica de 5 min. En la
actualidad después de medir el tiempo de recorrido de 36 autobuses, se calcula para
los mismos un tiempo medio de recorrido de 65 min con una desviación de 8 min.
¿Puede asegurarse que las obras de la construcción del Metro han modificado la
fluidez del tráfico en la ciudad?

2.22 Un supermercado adquiere las bolsas de naranja de dos proveedores distintos A y


B. Las procedentes del primero poseen un peso medio de 5 kg y las procedentes
del segundo de 6 kg. En ambos casos se admite un modelo Normal para el peso,
con desviación típica común de 0.8 kg. Desde hace algún tiempo el gerente del
supermercado sólo le está comprando al proveedor B y le parece que las bolsas del
mismo, no pesan lo establecido. Para comprobar su suposición, realiza una selección
aleatoria de las 25 bolsas de dicho proveedor y encuentra que el peso medio de estas
es de 5.3 kg. ¿Qué ud le diría al gerente del supermercado respecto a su suposición?
Utilice un nivel de significación del 0.05.

2.23 Se desea comprobar si es más frecuente el nacimiento de varones que el de hembras.


Para esto el investigador tomó una muestra de 3000 nacimientos; de los cuales 1540
nacimientos fueron de varones ¿Puede afirmarse lo anterior a nivel de significación
del 0.05?

2.24 Un combinado lácteo tiene como normas producir leche con un promedio de cinco
gramos de mantequilla por litro. En un control de la calidad; se tomó una muestra
aleatoria de 16 litros, obteniéndose una media de 4,7 gramos de mantequilla por
litro con una desviación típica de 0,8 gramos por litro ?

1. ¿Puede concluirse por el valor obtenido en la muestra, que la leche se está


produciendo según el parámetro establecido para α = 0,05?
2. Suponga ahora que la varianza es conocida e igual a 0.36, pruebe lo anterior
con esta nueva condición.
3. Comente sobre la diferencia de los resultados que se obtienen.

2.25 El instituto de protección e higiene del trabajo calibra periódicamente el efecto que
produce la aplicación de determinadas normas. En una comprobación de 30 centros
de trabajos se halló que la variabilidad fue de 0,9; la cual es mayor que la establecida
de 0,7 ¿Puede afirmarse que para α = 0, 05 la variabilidad del efecto que produce
las normas ha cambiado respecto a la establecida a partir de los datos obtenidos?
218 3. Ejercicios de Probabilidades y Estadística

2.26 Como resultado de observaciones prolongadas una clínica ha establecido que la pro-
babilidad de curación completa de un enfermo que toma el medicamento A es 0,8.
La clínica ha experimentado un nuevo medicamento B en 800 enfermos y 660 de
ellos se curaron totalmente. Se puede considerar el nuevo medicamento más eficaz
que el medicamento A con un nivel de significacio?n del 5 %.

2.27 Una organización llevo a cabo dos encuestas idénticas en 1990 y en 2000. Una de las
preguntas planteadas a las mujeres eran ¿la mayoría de los hombres son amables,
atentos y gentiles?. En 1990, de 3000 mujeres interrogadas, 2010 dijeron que si. En
2000, 1530 de las 3000 encuestas contestaron afirmativamente. ¿Puede concluirse
que en el año 2000 las mujeres creen que los hombres son menos amables, atentos y
gentiles que en el 1990 para α = 0,05?

2.28 Se desea comparar si los estudiantes que ingresaron en la Universidad de La Haba-


na en la carrera de Ciencias de la Computación obtuvieron mejores resultados en
los exámenes de ingreso de matemática en el año 2009, que los estudiantes de la
Universidad Central de las Villas en la misma carrera. Analizando los resultados de
una muestra de 60 estudiantes de la UH y 55 de la UCLV se observó que para la
UH se obtuvo un promedio de 87, con una varianza muestral de 24 y para UCLV el
promedio observado fue de 86 y una varianza de 18. Se puede asegurar que efecti-
vamente con un nivel de significación α = 0,05 los estudiantes de la UH obtuvieron
mejores resultados. Asuma normalidad en los datos.

2.29 El total de alumnos que promueven de secundaria, mostró una variabilidad durante
el quinquenio 2000 al 2005 de 0,4. Una muestra aleatoria de 100 estudiantes corres-
pondientes al quinquenio 2005 al 2010, mostró una desviación típica de 0,5. ¿Hay
razones suficientes para creer que la variabilidad de los alumnos que promueven
fuera menos estable durante el quinquenio 2005 al 2010 que durante el quinquenio
2000 al 2005? Considere α = 0, 05.

2.30 Se consideran válvulas eléctricas del mismo tipo, procedentes de dos fábricas distin-
tas. La duración de las válvulas es una variable aleatoria normal de parámetros µ
y σ 2 . Para la primera fábrica, dicha distribución es N (µ1 ; 242 ), y para la segunda,
N (µ1 ; 282 ). Se extraen en las dos fábricas muestras aleatorias simples de tamaños
respectivos n1 = 10 y n2 = 200. La duración media de las válvulas de la primera
muestra es X = 1452h, mientras que en la segunda se obtiene Y = 1459h. Pue-
de admitirse con un nivel de significación α = 0,1 que la segunda fábrica produce
válvulas con mayor duración media que la primera?

2.31 El departamento de investigaciones de una compañía de seguros investiga conti-


nuamente las causas de los accidentes automovilísticos, las características de los
conductores, etc. En una muestra de 400 pólizas de seguros que adquirieron per-
sonas solteras, se encontró que 120 habían tenido por lo menos un accidente en
los últimos 3 años. De manera similar, en una muestra de 600 pólizas de personas
casadas se encontró que 150 habían tenido por lo menos un accidente. Al nivel de
significación α = 0,05 ¿hay una diferencia significativa entre las proporciones de las
personas solteras y casadas que tuvieron algún accidente en los últimos 3 años.
3.2. Ejercicios del Capítulo 2 219

2.32 Especialistas británicos desean demostrar que la variabilidad en el tiempo de arran-


que de dos sistemas operativos es diferente. Con el objetivo de demostrar su afirma-
ción tomaron los tiempos correspondientes para cada sistema en dos computadoras
con las mismas características (45 para el primer sistema operativo y 36 para el
segundo). La varianza observada fue de 25,2 segundos y 23,5 segundos respectiva-
mente. Considera usted que tienen razón con un nivel de significación α = 0,05.
Asuma normalidad en los datos.
2.33 Dos grupos de 50 estudiantes, cada uno seleccionado aleatoriamente es interrogado
acerca de la importancia de la personalidad del presidente estudiantil en el desarrollo
del grupo. Los grupos se diferenciaban sólo en el año que están cursando (primero
y segundo). En el primero de los grupos de 30 estudiantes atribuyeron una impor-
tancia decisiva a la personalidad del jefe de brigada, mientras que en el segundo
25 estudiantes atribuyeron una importancia similar. ¿Se puede afirmar al nivel de
significación del 5 % que los estudiantes de primer año conceden mayor importancia
a la personalidad del líder que los de segundo año de la carrera?
2.34 Una característica importante en los algoritmos estocásticos de búsqueda de mínimos
es la estabilidad de la solución encontrada. Un programador implementa dos métodos
estocásticos diferentes para hallar de forma aproximada el mínimo de una función.
Utilizando como función de prueba f (x) = (x − 1)2 obtuvo, después de realizar 50
simulaciones con cada algoritmo, para el primero un valor promedio de 1,09 con una
desviación asociada de 0,03 y para el segundo un valor promedio de 0,98 con una
desviación asociada de 0,09. Se puede afirmar con un nivel de significación α = 0,05
que uno de los dos algoritmos es más estable que el otro. Asuma normalidad en los
datos.
2.35 En un estudio reciente se comparó el tiempo que pasan juntos los matrimonios en los
que solo una persona trabaja, con las parejas en las que ambos trabajan. De acuerdo
con los registros elaborados por las esposas durante el estudio, la cantidad media
de tiempo que pasan juntos viendo televisión las parejas en las que solamente el
esposo trabaja es 61 min por día, con desviación estándar 15.5. En los matrimonios
donde los dos trabajan, la cantidad media de minutos ante el televisor es 48.4,
con desviación estándar 18.1 min. ¿Se puede concluir que, las parejas en las que
solamente unos de los cónyuge trabaja, pasa el promedio mayor tiempo juntos viendo
la televisión con un nivel de significación α = 0,01? Se estudiaron 15 parejas en las
que solo un cónyuge trabaja y 12 en las que ambos lo hacen. Asuma que los datos
provienen de una distribución normal con la misma varianza.

Test no paramétricos

2.36 Una cadena de supermercados europea necesita conocer la frecuencia del número de
veces en la semana que las familias van a una de sus dependencias. Se realizó una
encuesta a 100 familias y los resultados fueron los siguientes:
xi 0 1 2 3
Oi 22 42 28 8
220 3. Ejercicios de Probabilidades y Estadística

Para su análisis asumieron que el número de veces en la semana que las familias van
a una de sus dependencias sigue una distribución binomial B(3, 0.5). Cree usted que
tengan razón con un nivel de significación α = 0,05.

2.37 Analice el problema anterior sin especificar el valor de p en la binomial. O sea, asuma
que los datos provienen de B(3, p). Cree usted que tengan razón con un nivel de
significación α = 0,05.

2.38 Un estudio sobre tabaquismo en tres comunidades, mediante tres muestras aleatorias
de tamaño 100, proporciona los siguientes resultados:

Comunidad Fumadores No Fumadores


A 13 87
B 17 83
C 18 82

Pueden considerarse homogéneas las 3 poblaciones en análisis al nivel α = 0,05

2.39 Se desea verificar que un dado está balanceado. Con ese objetivo se lanzó 60 veces,
obteniendo los siguientes resultados
xi 1 2 3 4 5 6
Oi 7 12 10 11 8 12

Se puede asegurar a un nivel α = 0,05 que el dado está balanceado.

2.40 Estamos interesados en estudiar la fiabilidad de cierto componente informático con


relación al distribuidor que nos lo suministra. Para realizar esto, tomamos una mues-
tra de 100 componentes de cada uno de los 3 distribuidores que nos sirven el producto
comprobando el número de defectuosos en cada lote. La siguiente tabla muestra el
número de defectuosos en para cada uno de los distribuidores.

Distribuidor Componentes Componentes


Defectuosos Correctos
1 16 94
2 24 76
3 9 91

Pueden considerarse homogéneas las 3 poblaciones en análisis al nivel α = 0,05

2.41 Se desea evaluar la efectividad de una nueva vacuna antigripal. Para ello se sumi-
nistra de manera voluntaria y gratuita, en una pequeña comunidad. La vacuna se
administra en dos dosis, separadas por un período de dos semanas, de forma que
algunas personas han recibido una sola dosis, otras han recibido las dos, y otras
personas no han recibido ninguna. La siguiente tabla indica los resultados que se
registraron durante la siguiente primavera en 1000 habitantes de la comunidad ele-
gidos al azar.
3.2. Ejercicios del Capítulo 2 221

No Vacunados Vacunados Vacunados


(Una Dosis) (Dos Dosis)
Gripe 24 9 13
No Gripe 289 100 565

Proporcionan estos datos suficiente evidencia estadística (al nivel α = 0,05) para
indicar dependencia entre el número de dosis recibidas y la protección frente a la
gripe.

2.42 Investigadores de seguridad social de una localidad francesa desean conocer si el


tiempo que dedican los padres a jugar con sus hijos en las vacaciones sigue una
distribución normal. Con ese objetivo se analizó una muestra de 200 padres y se
crearon las siguientes clases atendiendo al interés de los investigadores

(Li−1 ; Li ] Oi
(1; 1,25] 2
(1,25; 1,5] 6
(1,5; 1,75] 29
(1,75; 2] 20
(2; 2,25] 64
(2,25; 2,5] 16
(2,5; 2,75] 31
(2,75; 3] 10
(3; 3,25] 5
(3,25; 3,5] 12
(3,5; 3,75] 3
(3,75; 4] 2

Se puede asegurar el planteamiento para un nivel de significación α = 0,01.

2.43 Un estudio que se realizó con 81 personas referente a la relación entre la cantidad
de violencia vista en los video juegos y la edad del televidente produjo los siguientes
resultados

16-34 35-55 56 o más


Poca Violencia 8 12 21
Mucha Violencia 18 15 7

Proporcionan estos datos suficiente evidencia estadística (al nivel α = 0,01) para
indicar dependencia entre la violencia y la edad de las personas.

Redes Bayesianas
222 3. Ejercicios de Probabilidades y Estadística

2.44 (Programación) A una consulta llegan pacientes con tres posibles enfermedades: A
(50 %), B (20 %) y C (30 %). Se realizan dos análisis de sangre a cada persona y una
radiografía. La probabilidad de tener la enfermedad A si la radiografía tiene manchas
aproximadamente circulares es de 0.9 y de tener la enfermedad B es de 0.1. Si se ven
manchas sin forma la probabilidad de tener A es de 0.5, la de B es de 0.3 y la de C de
0.2. Si no se observan manchas las probabilidades son 0.1, 0.2 y 0.7 respectivamente.
El primer examen de sangre de positivo con probabilidad 0.1 si la persona tiene la
enfermedad A, 0.9 si tiene la enfermedad B y 0.7 si tiene la enfermedad C; para
el segundo examen las probabilidades son 0.3, 0.9 y 0.2. Construya el diagrama
de la red. Cree un programa que permita actualizar el comportamiento de la red
bayesiana.

2.45 (Programación) Supongamos que una persona desea saber si su esposa está en la
casa por la noche. En ese sentido se tiene la siguiente información. Si la esposa sale de
casa, usualmente (pero no siempre) enciende la luz de la entrada. Hay otras ocasiones
en las que también se enciende la luz de la entrada. Cuando no hay nadie en casa,
el perro está afuera. Si el perro tiene problemas intestinales, también se deja fuera.
Si el perro está afuera, oigo sus ladridos, aunque pudiera escuchar ladridos y pensar
que son de mi perro aunque no fuera así. Construya el diagrama de la red. Cree un
programa que permita actualizar el comportamiento de la red bayesiana. Genere los
valores iniciales de la red de forma tal que se correspondan con la información del
problema.

2.46 (Programación) Suponga que usted tiene un carro y sabe que cuando tiene poco
combustible el carro arranca con probabilidad 0.3 y después tiene una probabilidad
0.8 de moverse más de 100 metros. Por otro lado si la batería está en buenas con-
diciones el radio se escucha sin dificultad con probabilidad 0.8 y el carro arranca
con una probabilidad de 0.9; cuando la batería no funciona bien el radio se oye con
una probabilidad de 0.1 y el carro se enciende con probabilidad 0.2. La salud de
la batería depende del tiempo de uso. La probabilidad de que la batería esté en
buenas condiciones se calcula como P (X ≥ t/4) donde X es la variable aleatoria:
tiempo en meses de uso de la batería y sigue una distribución de P oisson(2). Si el
carro lleva 20 meses en explotación, construya el diagrama de la red y obtenga las
probabilidades iniciales de la misma. Genere valores para las probabilidades que no
conozca si usted lo considera necesario. Cree un programa que permita actualizar el
comportamiento de la red bayesiana.

2.47 (Programación) Usted cree que su esposa le es infiel. Usted puede crearse una
opinión a partir de tres situaciones: su esposa está cenando con otro hombre en un
restaurante de lujo, su esposa es vista saliendo en la noche de la casa y se reciben
llamadas misteriosas en la casa. Construya el diagrama de la red y genere las pro-
babilidades iniciales. Cree un programa que permita actualizar el comportamiento
de la red bayesiana.

2.48 (Programación) Una tarde, Juan va a visitar a sus amigos Pablo y Lara. De
repente, comienza a estornudar. Juan piensa que se ha resfriado, hasta que observa
3.2. Ejercicios del Capítulo 2 223

que los muebles de la casa están arañados. Entonces, especula con la posibilidad
de que sus amigos tengan un gato y sus estornudos se deban a una crisis de la
alergia a los gatos que tiene diagnosticada (rinitis). Construya el diagrama de la red
y genere las probabilidades iniciales de acuerdo a la información del problema. Cree
un programa que permita actualizar el comportamiento de la red bayesiana.

2.49 (Programación) Una casa tiene una alarma antirrobos. La alarma tiene una pro-
babilidad 0.9 de sonar si entra algún ladrón, pero también suena cuando se producen
temblores. Cerca de la casa viven dos vecinos Juan y María que han prometido lla-
mar a la policía si escuchan la alarma. Ambos pudieran no llamar aunque la alarma
sonara, en el caso de María porque escucha música y en el caso de Juan porque
trabaja en el sótano de su casa. Incluso puede suceder que ambos llamen aunque no
hubiese sonado la alarma porque escucharon un ruido similar. Construya el diagra-
ma de la red y genere las probabilidades iniciales de acuerdo a la información del
problema. Cree un programa que permita actualizar el comportamiento de la red
bayesiana.
224 3. Ejercicios de Probabilidades y Estadística

Algoritmos Estocásticos

Análisis de Clúster

Regresión Lineal

Regresión Logística
225

Apéndice A

Teoría de Conjuntos

A.1 Conjuntos
1. (Conjunto vacío) Se denota por ∅ y se define como el conjunto que no tiene ningún
elemento.

2. (Universo) Se denota por Ω y se define como el conjunto que contiene a todos los
posibles conjuntos de espacio.

3. (Conjuntos disjuntos) Se dice que dos conjuntos A y B son disjuntos si no poseen


elementos comunes, o sea, A ∩ B = ∅.

4. (Complemento) Se denota por Ā o Ac y se define como el conjunto que contiene a


todos los elementos de Ω que no pertenecen a A.

5. (Diferencia) Sean A y B dos conjuntos. El conjunto diferencia se denota por A\B y


se define como los elementos que están en A, pero no están en B, o sea A\B = A∩B c .

6. (Partición) Los conjuntos A1 , A2 , A3 , · · · , Ak forman una partición o un sistema


completo de sucesos, si son disjuntos dos a dos y la unión de todos ellos es todo Ω,
es decir:

a) Ai ∩ Aj = ∅ ∀i 6= j.
b) A1 ∪ A2 ∪ A3 ∪ · · · ∪ Ak = Ω

A.2 Propiedades de las operaciones entre conjuntos


1. Ley conmutativa.

a) A ∪ B = B ∪ A.
b) A ∩ B = B ∩ A.

2. Ley asociativa

a) (A ∪ B) ∪ C = A ∪ (B ∪ C).
b) (A ∩ B) ∩ C = A ∩ (B ∩ C).
226 A. Teoría de Conjuntos

3. Ley distributiva.

a) A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C).
b) A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C).

4. Complemento

a) A ∩ Ac = ∅ y A ∪ Ac = Ω.
b) Ωc = ∅ y ∅c = Ω.
c) (Ac )c = A.

5. Leyes de Morgan:

a) (A ∪ B)c = Ac ∩ B c .
b) (A ∩ B)c = Ac ∪ B c .
227

Apéndice B

Matrices

B.1 Definiciones elementales


Recordemos algunos de los conceptos básicos relacionados con el álgebra de matrices.

Definición B.1 (Rango) Sea la matriz


 
a11 · · · a1n
A = (aij )1≤i≤m =  ... .. ..  ∈ Mm×n .

. . 
1≤j≤n
am1 · · · amn m×n

El rango de A está relacionado con el número de filas o columnas linealmente inde-


pendientes de la matriz y se denota por rg(A). O sea, si rg(A) = r entonces A tiene
r filas linealmente independientes y r columnas linealmente independientes; además se
cumple que rg(A) ≤ mı́n(m, n). Si la matriz es cuadrada, es decir m = n y rg(A) = m
se dice que la matriz es de rango completo y no singular.

Definición B.2 (Traza) Sea la matriz cuadrada A = (aij )1≤i,j≤n ∈ Mn . Se define la


traza de la matriz como la suma de todos los elementos de la diagonal principal y se
denota por tr(A):
Xn
tr(A) = aii .
i=1
228 B. Matrices

Definición B.3 (Determinante) Sea la matriz cuadrada A = (aij )1≤i,j≤n ∈ Mn . El


determinante de la matriz se denota por det(A) o |A| y se define como

X n
Y
det(A) = sign(π) aiπi ,
π i=1

donde π es una permutación del conjunto ordenado {1, 2, · · · , n} y πi es el i-ésimo


elemento de dicha permutación. El signo de la permutación sign(π) está relacionado
con la paridad de la permutación:

+1 π es par
sign(π) = .
−1 π es impar

Se dice que una permutación es par cuando el número de inversiones es par, se dice
que es impar en el caso contrario. En una permutación los elementos i, j forman una
inversión si i > j pero en dicha permutación el elemento i se encuentra antes del
elemento j.

Definición B.4 (Tipos de Matrices) Sea la matriz cuadrada A = (aij )1≤i,j≤n ∈ Mn ,


entonces

1. Matriz inversa: A−1


Se dice que existe la matriz inversa de A si det(A) 6= 0 (o equivalentemente si
rg(A) = n) y además cumple que

A · A−1 = A−1 · A = In ,

donde In es la matriz cuadrada de orden n cuya diagonal está formada por unos
y el resto de los elementos son nulos y se le conoce como la matriz identidad.

2. Matriz traspuesta: At
Se dice que B = (bij ) es la matriz traspuesta de A si ∀i, j se cumple que

bij = aji .

Se escribe entonces que B = At . Las matrices traspuestas se definen para todo


tipo de matrices, no solamente para las matrices cuadradas.
B.2. Propiedades básicas 229

B.2 Propiedades básicas


−1
• (A−1 ) = A.
t
• (At ) = A.

• (A · B)−1 = B −1 · A−1 .
−1 t
• (At ) = (A−1 ) .

• (A · B)t = B t · At .

• (A + B)t = At + B t .

• det(A · B) = det(A) · det(B).

• det(A−1 ) = (det(A))−1 .
230 B. Matrices
231

Apéndice C

Conceptos de Combinatoria

Una de las herramientas más utilizadas en la teoría de probabilidades se basa en la


capacidad de contar. En ese sentido ofrecemos algunos de los conceptos más importantes
de combinatoria que pueden ser de ayuda para resolver problemas prácticos de probabi-
lidades.
Definición C.1 (Principio de Multiplicación) Si se tienen k experimentos:
E1 , E2 , · · · , Ek tales que cada Ei tiene ni posibles resultados diferentes, entonces el
experimento E = E1 · E2 · . . . · Ek puede ocurrir de n1 · n2 · . . . · nk formas diferentes.

1. (Permutación de n elementos): Cuenta el número de formas en las que se pueden


organizar n objetos diferentes:

Pn = n! = n · (n − 1) · (n − 2) · . . . · 2 · 1.

Esta expresión se basa en el Principio de Multiplicación. Cuando los objetos no son


todos distinguibles la fórmula anterior se modifica.
Si de n elementos, n = n1 + n2 + · · · + nk , existen n1 exactamente iguales, n2
exactamente iguales, · · · , nk exactamente iguales, entonces
n!
Pn,k = .
n1 ! · n2 ! · . . . · nk !

2. (Combinación de n en k) Cuenta el número de grupos diferentes de k elementos que


se pueden formar a partir de un conjunto de n elementos:
 
n n n!
Ck = = .
k k!(n − k)!

3. (Variación de n en k) Cuenta el número de grupos diferentes de k elementos que se


pueden formar a partir de un conjunto de n elementos cuando importa el orden de
selección:
n!
Vkn = Ckn · Pk = .
(n − k)!
232 C. Conceptos de Combinatoria
233

Apéndice D

Distribuciones de probabilidad

D.1 Distribuciones discretas

D.1.1 Uniforme discreta

X ∼ U D(a1 , · · · , am )
1
P (X = x) m
,x ∈ {a1 , · · · , am }.
m
P
ai
i=1
E(X) a= m
.
Uniforme discreta m
P
(a−a)2
i=1
V (X) m
.
Parámetros ai ∈ R, m = 1, 2, · · · .

D.1.2 Binomial

X ∼ B(n, p)
n x

P (X = x) x
p (1 − p)n−x , x = 0, 1, 2, · · · , n.
E(X) np.
Binomial
V (X) np(1 − p).
Parámetros p ∈ [0, 1], n ∈ N.
234 D. Distribuciones de probabilidad

D.1.3 Bernoulli

X ∼ Bernoulli(p) o X ∼ B(1, p)

P (X = x) px (1 − p)1−x , x = 0, 1.
E(X) p.
Bernoulli
V (X) p(1 − p).
Parámetros p ∈ [0, 1].

D.1.4 Poisson

X ∼ P oisson(λ)
λx e−λ
P (X = x) x!
,x = 0, 1, 2, · · · .
E(X) λ.
Poisson
V (X) λ.
Parámetros λ > 0.

D.1.5 Geométrica

X ∼ Geom(p)

P (X = x) (1 − p)x−1 p, x = 1, 2, · · · .
1
E(X) p
.
Geométrica
1−p
V (X) p2
.
Parámetros p ∈ [0, 1].

D.1.6 Binomial negativa

X ∼ BN (p, r)
x−1 r

P (X = x) r−1
p (1 − p)x−r , x = r, r + 1, · · · .
r
E(X) p
.
Binomial negativa
r(1−p)
V (X) p2
.
Parámetros p ∈ [0, 1], r = 1, 2, · · · .
D.1. Distribuciones discretas 235

D.1.7 Hipergeométrica

X ∼ HG(n, m, N )
−n
(nx)(Nm−x )
P (X = x) N , x ∈ [máx(0, m − (N − n)), mı́n(m, n)].
(m)
mn
E(X) N
.
Hipergeométrica
mn(N −n)(N −m)
V (X) N 2 (N −1)
.

Parámetros n, m = 1, 2, · · · ; N ≥ mı́n(n, m).


236 D. Distribuciones de probabilidad

D.2 Distribuciones continuas


D.2.1 Uniforme

X ∼ U (a, b)
1
f (x) 1 (x).
b−a (a,b)
a+b
E(X) 2
.
Uniforme
(b−a)2
V (X) 12
.
Parámetros a, b ∈ R, a < b.

D.2.2 Normal

X ∼ N (µ, σ 2 )
1 2
f (x) √ 1 e− 2σ2 (x−µ) , x ∈ R.
2πσ

E(X) µ.
Normal
V (X) σ2.
Parámetros µ ∈ R, σ 2 > 0.

D.2.3 Exponencial

X ∼ Exp(λ)

f (x) λe−λx 1(0,+∞) (x).


1
E(X) λ
.
Exponencial
1
V (X) λ2
.
Parámetros λ > 0.

D.2.4 Exponencial Negativa

X ∼ ExpN eg(θ) o X ∼ Exp( 1θ )


1 − xθ
f (x) θ
e 1(0,+∞) (x).
E(X) θ.
Exponencial Negativa
V (X) θ2 .
Parámetros θ > 0.
D.2. Distribuciones continuas 237

D.2.5 Gamma

X ∼ Γ(λ, α)
λ(λx)α−1 e−λx
f (x) Γ(α)
1(0,+∞) (x).
α
E(X) λ
.
Gamma
α
V (X) λ2
.
Parámetros α, λ > 0.

D.2.6 Chi-cuadrado

X ∼ χ2 (n) o X ∼ Γ( 21 , n2 )

f (x) 1
2n/2 Γ(n/2)
xn/2−1 e−x/2 1(0,+∞) (x).
E(X) n.
Chi-cuadrado
V (X) 2n.
Parámetros n = 1, 2, · · · .

D.2.7 F de Fisher-Snedecor

X ∼ F (m, n)
m n m −1
m 2 n 2 Γ( m+n ) x 2
f (x) Γ( m )
2
· m+n 1(0,+∞) (x).
2 (mx+n) 2

n
E(X) n−2
, n > 2.
F de Fisher-Snedecor
2n2 (m+n−2)
V (X) m(n−2)2 (n−4)
, n > 4.

Parámetros m, n = 1, 2, · · · .

D.2.8 t de Student

X ∼ t(n)
− n+1
Γ( n+1 )

x2 2
f (x) √ 2 n
nπΓ( 2 )
· 1+ n
, x ∈ R.

E(X) 0.
t de Student
n
V (X) (n−2)
, n > 2.

Parámetros n = 1, 2, · · · .
238 D. Distribuciones de probabilidad

D.2.9 Beta

X ∼ Beta(α, β)

Γ(α+β)
f (x) Γ(α)Γ(β)
· xα−1 (1 − x)β−1 1(0,1) (x).

α
E(X) α+β
.
Beta
αβ
V (X) (α+β+1)(α+β)2
.

Parámetros α, β > 0.

D.2.10 Normal multivariada


Usualmente se dice que un vector X = (X1 , X2 , · · · , Xn ) sigue una una distribución
normal multivariada si cualquier combinación lineal de sus componentes sigue también
una distribución Normal y se denota por X ∼ N (µ, Σ).
Otra definición equivalente es la siguiente. Sea X = (X1 , X2 , · · · , Xn ) un vector n-
dimensional tal que µ = (E(X1 ), · · · , E(X1 )) con matriz de varianzas y covarianzas

Σ = Σij 1≤i≤n , detΣ = |Σ| > 0,
1≤j≤n

donde  
Σij = E (Xi − EXi )(Xj − EXj ) ,
entonces X ∼ N (µ, Σ) si y solo si su densidad f (x; µ, Σ) viene dada por la siguiente
expresión:
1 − 12 (x−µ)Σ−1 (x−µ)t
f (x; µ, Σ) = √ n 1 e .
( 2π) 2 |Σ|− 2
Si las Xi son i.i.d. se obtiene
1 − 12
Pn 2
i=1 (xi −µ) .
f (x; µ, Σ) = f (x; µ, σ 2 ) = √ n e 2σ
( 2πσ 2 ) 2

1. Sea X ∼ N (µ, Σ) un vector n-dimensional, entonces sea Ik = {i1 , i2 , · · · , ik } una


colección de índices, tales que Ik ⊂ {1, 2, · · · , n}, entonces XIk = (Xi1 , Xi2 , · · · , Xik )
sigue una distribución normal k-variada. Es decir, cualquier subconjunto de compo-
nentes de X forma un nuevo vector con distribución normal multivariada.

2. Sea X ∼ N (µ, Σ) y Y = ΛX + λ, entonces

Y ∼ N (Λµ + λ, ΛΣΛt ).
239

Apéndice E

Identidades y desigualdades
importantes

Aquí veremos, sin demostración, algunas de las desigualdades más utilizadas en la


teoría de probabilidades y la identidad de Stein para la distribución normal.
1. (Desigualdad de Markov ) Sea X una variable aleatoria y g una función no decre-
ciente, entonces
Eg(X)
P (|X| ≥ x) ≤ .
g(x)
En el caso particular de g(x) = xr se obtiene
E|X|r
P (|X| ≥ x) ≤ .
xr
2. (Desigualdad de Chebyshev ) Sea X una variable aleatoria, entonces
V (X)
P (|X − EX| ≥ x) ≤ .
x2
3. (Desigualdad de Cauchy-Schwartz ) Sean X y Y dos variables aleatorias, entonces
E2 XY ≤ EX 2 EY 2 .


4. (Desigualdad de Jensen) Sea X una variable aleatoria y h una función convexa,


entonces 
h EX ≤ Eh(X).
5. (Desigualdad de Lyapunov ) Sea X una variable aleatoria entonces para r > s se
cumple
1 1
E r |X|r ≥ E s |X|s .
1 1
6. (Desigualdad de Hölder ) Sean X y Y dos variables aleatorias tales que r
+ s
=1
para r, s > 1 entonces se cumple
1 1
E(XY ) ≤ E r |X|r E s |Y |s .
240 E. Identidades y desigualdades importantes
241

Apéndice F

Transformaciones de variables
aleatorias

A partir del teorema de cambio de variable se pueden obtener los siguientes resultados1 :
• Sean Z ∼ N (0, 1), T ∼ t(n) y χ2 ∼ χ2 (n), entonces
Z
T =q
χ2
n

• Sean χ2m ∼ χ2 (m), χ2n ∼ χ2 (n) y F ∼ F (m, n), entonces


χ2m /m
F =
χ2n /n

Si Z ∼ N (0, 1), entonces se cumple que Z 2 ∼ χ2 (1). Este resultado se demuestra


utilizando un argumento similar, o sea
 √ √ √
2
P (Z ≤ t) = P − t ≤ Z ≤ t = 2FZ ( t) − 1,

y por ende
1 √
fZ 2 (t) = √ fZ ( t).
t
P 2
A partir de este resultado es inmediato que si tenemos Zi ∼ N (0, 1), ∀ i entonces Zi ∼
χ2 (n) y se obtiene el siguiente resultado para Xi ∼ N (µ, σ 2 )
n  2
X Xi − µ
∼ χ2 (n)
i=1
σ

Supongamos que Xi ∼ N (µ, σ 2 ), entonces


n  2
X Xi − X
∼ χ2 (n − 1).
i=1
σ
1
En muchas ocasiones estas transformaciones se utilizan para definir las variables t-Student y F de
Fisher-Snedecor.
242 F. Transformaciones de variables aleatorias

Definamos para una muestra (X1 , X2 , · · · , Xn ) de variables aleatorias i.i.d. tales que
E(Xi ) = µ y V (Xi ) = σ 2 , los siguientes valores
n
1X
b2 =
σ (Xi − µ)2 (µ conocido)
n i=1
n
2 1 X
s = (Xi − X)2
n − 1 i=1

Supongamos que las variables aleatorias provienen de una distribución N (µ, σ 2 ), entonces
2
1. X ∼ N (µ, σn ).
X−µ √
2. σ
n ∼ N (0, 1).
Pn
3. i=1 Zi2 ∼ χ2 (n).
n 2
4. σ2
σ
b ∼ χ2 (n).
(n−1) 2
5. σ2
s ∼ χ2 (n − 1).
X−µ √
6. σ
b
n ∼ t(n).
X−µ √
7. s
n ∼ t(n − 1).
243

Apéndice G

Tablas
244 G. Tablas

G.1 Tabla de la distribución Binomial

Tabla G.1: Distribución Binomial


n k 0.01 0.05 0.10 0.150.20 0.25 0.30 1/3 0.35 0.40 0.45 0.50
2 0 0.9801 0.9025 0.8100 0.7225
0.6400 0.5625 0.4900 0.4444 0.4225 0.3600 0.3025 0.2500
1 0.9999 0.9975 0.9900 0.9775
0.9600 0.9375 0.9100 0.8889 0.8775 0.8400 0.7975 0.7500
2 1.0000 1.0000 1.0000 1.0000
1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
3 0 0.9703 0.8574 0.7290 0.6141
0.5120 0.4219 0.3430 0.2963 0.2746 0.2160 0.1664 0.1250
1 0.9997 0.9928 0.9720 0.9392
0.8960 0.8438 0.7840 0.7407 0.7182 0.6480 0.5748 0.5000
2 1.0000 0.9999 0.9990 0.9966
0.9920 0.9844 0.9730 0.9630 0.9571 0.9360 0.9089 0.8750
3 1.0000 1.0000 1.0000
1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
4 0 0.9606 0.8145 0.6561 0.5220
0.4096 0.3164 0.2401 0.1975 0.1785 0.1296 0.0915 0.0625
1 0.9994 0.9860 0.9477 0.8905
0.8192 0.7383 0.6517 0.5926 0.5630 0.4752 0.3910 0.3125
2 1.0000 0.9995 0.9963 0.9880
0.9728 0.9492 0.9163 0.8889 0.8735 0.8208 0.7585 0.6875
3 1.0000 0.9999 0.9995
0.9984 0.9961 0.9919 0.9876 0.9850 0.9744 0.9590 0.9375
4 1.0000 1.0000
1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
5 0 0.9510 0.7738 0.5905 0.4437
0.3277 0.2373 0.1681 0.1317 0.1160 0.0778 0.0503 0.0312
1 0.9990 0.9774 0.9185 0.8352
0.7373 0.6328 0.5282 0.4609 0.4284 0.3370 0.2562 0.1875
2 1.0000 0.9988 0.9914 0.9734
0.9421 0.8965 0.8369 0.7901 0.7648 0.6826 0.5931 0.5000
3 1.0000 0.9995 0.9978
0.9933 0.9844 0.9692 0.9547 0.9460 0.9130 0.8688 0.8125
4 1.0000 0.9999
0.9997 0.9990 0.9976 0.9959 0.9947 0.9898 0.9815 0.9688
5 1.0000
1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
6 0 0.9415 0.7351 0.5314 0.3771
0.2621 0.1780 0.1176 0.0878 0.0754 0.0467 0.0277 0.0156
1 0.9986 0.9672 0.8857 0.7765
0.6553 0.5339 0.4202 0.3512 0.3191 0.2333 0.1636 0.1094
2 1.0000 0.9978 0.9842 0.9527
0.9011 0.8306 0.7443 0.6804 0.6471 0.5443 0.4415 0.3438
3 0.9999 0.9987 0.9941
0.9830 0.9624 0.9295 0.8999 0.8826 0.8208 0.7447 0.6562
4 1.0000 0.9999 0.9996
0.9984 0.9954 0.9891 0.9822 0.9777 0.9590 0.9308 0.8906
5 1.0000 1.0000
0.9999 0.9998 0.9993 0.9986 0.9982 0.9959 0.9917 0.9844
6 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
7 0 0.9321 0.6983 0.4783 0.32116 0.2097 0.1335 0.0824 0.0585 0.0490 0.0280 0.0152 0.0078
1 0.9980 0.9556 0.8503 0.7166 0.5767 0.4449 0.3294 0.2634 0.2338 0.1586 0.1024 0.0625
2 1.0000 0.9962 0.9743 0.9262 0.8520 0.7564 0.6471 0.5706 0.5323 0.4199 0.3164 0.2266
3 0.9998 0.9973 0.9879 0.9667 0.9294 0.8740 0.8267 0.8011 0.7102 0.6083 0.5000
4 1.0000 0.9998 0.9988 0.9953 0.9871 0.9712 0.9547 0.9444 0.9037 0.8471 0.7734
5 1.0000 0.9999 0.9996 0.9987 0.9962 0.9931 0.9910 0.9812 0.9643 0.9375
6 1.0000 1.0000 0.9999 0.9998 0.9995 0.9994 0.9984 0.9963 0.9922
7 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
8 0 0.9227 0.6634 0.4305 0.2725 0.1678 0.1001 0.0576 0.0390 0.0319 0.0168 0.0084 0.0039
1 0.9973 0.9428 0.8131 0.6572 0.5033 0.3671 0.2553 0.1951 0.1691 0.1064 0.0632 0.0352
2 0.9999 0.9942 0.9619 0.8948 0.7969 0.6785 0.5518 0.4682 0.4278 0.3154 0.2201 0.1445
3 1.0000 0.9996 0.9950 0.9786 0.9437 0.8862 0.8059 0.7413 0.7064 0.5941 0.4770 0.3633
4 1.0000 0.9996 0.9971 0.9896 0.9727 0.9420 0.9121 0.8939 0.8263 0.7396 0.6367
5 1.0000 0.9998 0.9988 0.9958 0.9887 0.9803 0.9747 0.9502 0.9115 0.8555
6 1.0000 0.9999 0.9996 0.9987 0.9974 0.9964 0.9915 0.9819 0.9648
7 1.0000 1.0000 0.9999 0.9998 0.9998 0.9993 0.9983 0.9961
8 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
9 0 0.9135 0.6302 0.3874 0.2316 0.1342 0.0751 0.0404 0.0260 0.0207 0.0101 0.0046 0.0020
1 0.9965 0.9288 0.7748 0.5995 0.4362 0.3003 0.1960 0.1431 0.1211 0.0705 0.0385 0.0195
2 0.9999 0.9916 0.9470 0.8591 0.7382 0.6007 0.4628 0.3772 0.3373 0.2318 0.1495 0.0898
3 1.0000 0.9994 0.9917 0.9661 0.9144 0.8343 0.7297 0.6503 0.6089 0.4826 0.3614 0.2539
4 1.0000 0.9991 0.9944 0.9804 0.9511 0.9012 0.8552 0.8283 0.7334 0.6214 0.5000
5 0.9999 0.9994 0.9969 0.9900 0.9747 0.9576 0.9464 0.9006 0.8342 0.7461
6 1.0000 1.0000 0.9997 0.9987 0.9957 0.9917 0.9888 0.9750 0.9502 0.9102
7 1.0000 0.9999 0.9996 0.9990 0.9986 0.9962 0.9909 0.9805
8 1.0000 1.0000 0.9999 0.9999 0.9997 0.9992 0.9980
9 1.0000 1.0000 1.0000 1.0000 1.0000
10 0 0.9044 0.5987 0.3487 0.1969 0.1074 0.0563 0.0282 0.0173 0.0135 0.0060 0.0025 0.0010
1 0.9958 0.9139 0.7361 0.5443 0.3758 0.2440 0.1493 0.1040 0.0860 0.0464 0.0233 0.0107
2 1.0000 0.9885 0.9298 0.8202 0.6778 0.5256 0.3828 0.2991 0.2616 0.1673 0.0996 0.0547
3 0.9990 0.9872 0.9500 0.8791 0.7759 0.6496 0.5593 0.5138 0.3823 0.2660 0.1719
4 0.9999 0.9984 0.9901 0.9672 0.9219 0.8497 0.7869 0.7515 0.6331 0.5044 0.3770
5 1.0000 0.9999 0.9986 0.9936 0.9803 0.9527 0.9234 0.9051 0.8338 0.7384 0.6230
6 1.0000 0.9999 0.9991 0.9965 0.9894 0.9803 0.9740 0.9452 0.8980 0.8281
7 1.0000 0.9999 0.9996 0.9984 0.9966 0.9952 0.9877 0.9726 0.9453
8 1.0000 1.0000 0.9999 0.9996 0.9995 0.9983 0.9955 0.9893
9 1.0000 1.0000 1.0000 0.9999 0.9997 0.9990
10 1.0000 1.0000 1.0000
G.2. Tabla de la distribución χ2 245

G.2 Tabla de la distribución χ2

Tabla G.2: Puntos Críticos: Distribución χ2


0.9995 0.995 0.9875 0.975 0.95 0.875 0.85 0.8 0.75 0.7 0.65 0.6 0.55
1 12.115 7.8794 6.2385 5.0239 3.8415 2.3535 2.0722 1.6424 1.3233 1.0742 0.8735 0.7083 0.5707
2 15.201 10.597 8.7641 7.3778 5.9915 4.1589 3.7942 3.2189 2.7726 2.4079 2.0996 1.8326 1.5970
3 17.731 12.838 10.861 9.3484 7.8147 5.7394 5.3170 4.6416 4.1083 3.6649 3.2831 2.9462 2.6430
4 19.998 14.860 12.762 11.143 9.4877 7.2140 6.7449 5.9886 5.3853 4.8784 4.4377 4.0446 3.6871
5 22.106 16.750 14.544 12.832 11.070 8.6248 8.1152 7.2893 6.6257 6.0644 5.5731 5.1319 4.7278
6 24.102 18.548 16.244 14.449 12.592 9.9917 9.4461 8.5581 7.8408 7.2311 6.6948 6.2108 5.7652
7 26.018 20.278 17.885 16.013 14.067 11.326 10.748 9.8032 9.0371 8.3834 7.8061 7.2832 6.8000
8 27.867 21.955 19.478 17.535 15.507 12.636 12.027 11.030 10.219 9.5245 8.9094 8.3505 7.8325
9 29.667 23.589 21.034 19.023 16.919 13.926 13.288 12.242 11.389 10.656 10.006 9.4136 8.8632
10 31.419 25.188 22.558 20.483 18.307 15.198 14.534 13.442 12.549 11.781 11.097 10.473 9.8922
11 33.138 26.757 24.056 21.920 19.675 16.457 15.767 14.631 13.701 12.899 12.184 11.530 10.920
12 34.821 28.300 25.530 23.337 21.026 17.703 16.989 15.812 14.845 14.011 13.266 12.584 11.946
13 36.477 29.819 26.985 24.736 22.362 18.939 18.202 16.985 15.984 15.119 14.345 13.636 12.972
14 38.109 31.319 28.422 26.119 23.685 20.166 19.406 18.151 17.117 16.222 15.421 14.685 13.996
15 39.717 32.801 29.843 27.488 24.996 21.384 20.603 19.311 18.245 17.322 16.494 15.733 15.020
16 41.308 34.267 31.250 28.845 26.296 22.595 21.793 20.465 19.369 18.418 17.565 16.780 16.042
17 42.881 35.718 32.644 30.191 27.587 23.799 22.977 21.615 20.489 19.511 18.633 17.824 17.065
18 44.434 37.156 34.027 31.526 28.869 24.997 24.155 22.760 21.605 20.601 19.699 18.868 18.086
19 45.974 38.582 35.399 32.852 30.144 26.189 25.329 23.900 22.718 21.689 20.764 19.910 19.107
20 47.498 39.997 36.760 34.170 31.410 27.376 26.498 25.038 23.828 22.775 21.826 20.951 20.127
21 49.010 41.401 38.113 35.479 32.671 28.559 27.662 26.171 24.935 23.858 22.888 21.992 21.147
22 50.510 42.796 39.458 36.781 33.924 29.737 28.822 27.301 26.039 24.939 23.947 23.031 22.166
23 51.999 44.181 40.794 38.076 35.172 30.911 29.979 28.429 27.141 26.018 25.006 24.069 23.185
24 53.478 45.558 42.124 39.364 36.415 32.081 31.132 29.553 28.241 27.096 26.063 25.106 24.204
25 54.948 46.928 43.446 40.646 37.652 33.247 32.282 30.675 29.339 28.172 27.118 26.143 25.222
26 56.407 48.290 44.762 41.923 38.885 34.410 33.429 31.795 30.435 29.246 28.173 27.179 26.240
27 57.856 49.645 46.071 43.195 40.113 35.570 34.574 32.912 31.528 30.319 29.227 28.214 27.257
28 59.299 50.994 47.375 44.461 41.337 36.727 35.715 34.027 32.620 31.391 30.279 29.249 28.274
29 60.734 52.335 48.674 45.722 42.557 37.881 36.854 35.139 33.711 32.461 31.331 30.283 29.291
30 62.160 53.672 49.967 46.979 43.773 39.033 37.990 36.250 34.800 33.530 32.382 31.316 30.307
35 69.197 60.275 56.365 53.203 49.802 44.753 43.640 41.778 40.223 38.859 37.623 36.475 35.386
40 76.096 66.766 62.665 59.342 55.758 50.424 49.244 47.269 45.616 44.165 42.848 41.622 40.459
50 89.560 79.490 75.039 71.420 67.505 61.647 60.346 58.164 56.334 54.723 53.258 51.892 50.592
60 102.70 91.952 87.184 83.298 79.082 72.751 71.341 68.972 66.981 65.226 63.628 62.135 60.713
80 128.26 116.32 110.99 106.63 101.88 94.709 93.106 90.405 88.130 86.120 84.284 82.566 80.927
100 153.16 140.17 134.34 129.56 124.34 116.43 114.66 111.67 109.14 106.91 104.86 102.95 101.11
120 177.60 163.65 157.37 152.21 146.57 137.99 136.06 132.81 130.05 127.62 125.38 123.29 121.28
246 G. Tablas

Tabla G.3: Puntos Críticos: Distribución χ2


0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.125 0.1 0.05 0.025 0.01 0.005
1 0.4549 0.3573 0.2750 0.2059 0.1485 0.1015 0.0642 0.0358 0.0247 0.0158 0.0039 0.0010 0.0002 0.0000
2 1.3863 1.1957 1.0217 0.8616 0.7133 0.5754 0.4463 0.3250 0.2671 0.2107 0.1026 0.0506 0.0201 0.0100
3 2.3660 2.1095 1.8692 1.6416 1.4237 1.2125 1.0052 0.7978 0.6924 0.5844 0.3518 0.2158 0.1148 0.0717
4 3.3567 3.0469 2.7528 2.4701 2.1947 1.9226 1.6488 1.3665 1.2188 1.0636 0.7107 0.4844 0.2971 0.2070
5 4.3515 3.9959 3.6555 3.3251 2.9999 2.6746 2.3425 1.9938 1.8082 1.6103 1.1455 0.8312 0.5543 0.4118
6 5.3481 4.9519 4.5702 4.1973 3.8276 3.4546 3.0701 2.6613 2.4411 2.2041 1.6354 1.2373 0.8721 0.6757
7 6.3458 5.9125 5.4932 5.0816 4.6713 4.2549 3.8223 3.3583 3.1063 2.8331 2.1673 1.6899 1.2390 0.9893
8 7.3441 6.8766 6.4226 5.9753 5.5274 5.0706 4.5936 4.0782 3.7965 3.4895 2.7326 2.1797 1.6465 1.3444
9 8.3428 7.8434 7.3570 6.8763 6.3933 5.8988 5.3801 4.8165 4.5070 4.1682 3.3251 2.7004 2.0879 1.7349
10 9.3418 8.8124 8.2955 7.7832 7.2672 6.7372 6.1791 5.5701 5.2341 4.8652 3.9403 3.2470 2.5582 2.1558
11 10.341 9.7831 9.2373 8.6952 8.1479 7.5841 6.9887 6.3364 5.9754 5.5778 4.5748 3.8157 3.0535 2.6032
12 11.340 10.755 10.182 9.6115 9.0343 8.4384 7.8073 7.1138 6.7288 6.3038 5.2260 4.4038 3.5706 3.0738
13 12.340 11.729 11.129 10.532 9.9257 9.2991 8.6339 7.9008 7.4929 7.0415 5.8919 5.0087 4.1069 3.5650
14 13.339 12.703 12.078 11.455 10.821 10.165 9.4673 8.6963 8.2662 7.7895 6.5706 5.6287 4.6604 4.0747
15 14.339 13.679 13.030 12.381 11.721 11.037 10.307 9.4993 9.0479 8.5468 7.2609 6.2621 5.2294 4.6009
16 15.338 14.656 13.983 13.310 12.624 11.912 11.152 10.309 9.8370 9.3122 7.9616 6.9077 5.8122 5.1422
17 16.338 15.633 14.937 14.241 13.531 12.792 12.002 11.125 10.633 10.085 8.6718 7.5642 6.4077 5.6973
18 17.338 16.611 15.893 15.174 14.440 13.675 12.857 11.946 11.435 10.865 9.3904 8.2307 7.0149 6.2648
19 18.338 17.589 16.850 16.109 15.352 14.562 13.716 12.773 12.242 11.651 10.117 8.9065 7.6327 6.8439
20 19.337 18.569 17.809 17.046 16.266 15.452 14.578 13.604 13.055 12.443 10.851 9.5908 8.2604 7.4338
21 20.337 19.548 18.768 17.984 17.182 16.344 15.445 14.439 13.873 13.240 11.591 10.283 8.8972 8.0336
22 21.337 20.529 19.729 18.924 18.101 17.240 16.314 15.279 14.695 14.041 12.338 10.982 9.5425 8.6427
23 22.337 21.510 20.690 19.866 19.021 18.137 17.187 16.122 15.521 14.848 13.091 11.689 10.196 9.2604
24 23.337 22.491 21.652 20.808 19.943 19.037 18.062 16.969 16.351 15.659 13.848 12.401 10.856 9.8862
25 24.337 23.472 22.616 21.752 20.867 19.939 18.940 17.818 17.184 16.473 14.611 13.120 11.524 10.520
26 25.336 24.454 23.579 22.697 21.792 20.843 19.820 18.671 18.021 17.292 15.379 13.844 12.198 11.160
27 26.336 25.437 24.544 23.644 22.719 21.749 20.703 19.527 18.861 18.114 16.151 14.573 12.878 11.808
28 27.336 26.419 25.509 24.591 23.647 22.657 21.588 20.386 19.704 18.939 16.928 15.308 13.565 12.461
29 28.336 27.402 26.475 25.539 24.577 23.567 22.475 21.247 20.550 19.768 17.708 16.047 14.256 13.121
30 29.336 28.386 27.442 26.488 25.508 24.478 23.364 22.110 21.399 20.599 18.493 16.791 14.953 13.787
35 34.336 33.306 32.282 31.246 30.178 29.054 27.836 26.460 25.678 24.797 22.465 20.569 18.509 17.192
40 39.335 38.233 37.134 36.021 34.872 33.660 32.345 30.856 30.008 29.051 26.509 24.433 22.164 20.707
50 49.335 48.099 46.864 45.610 44.313 42.942 41.449 39.754 38.785 37.689 34.764 32.357 29.707 27.991
60 59.335 57.978 56.620 55.239 53.809 52.294 50.641 48.759 47.680 46.459 43.188 40.482 37.485 35.534
80 79.334 77.763 76.188 74.583 72.915 71.145 69.207 66.994 65.722 64.278 60.391 57.153 53.540 51.172
100 99.334 97.574 95.808 94.005 92.129 90.133 87.945 85.441 83.999 82.358 77.929 74.222 70.065 67.328
120 119.33 117.40 115.46 113.48 111.42 109.22 106.81 104.04 102.44 100.62 95.705 91.573 86.923 83.852
G.3. Tabla de la distribución t-Student 247

G.3 Tabla de la distribución t-Student

Tabla G.4: Puntos Críticos: Distribución t-Student


0.9995 0.995 0.9875 0.975 0.95 0.875 0.85 0.8 0.75 0.7 0.65 0.6 0.55
1 636.58 63.656 25.452 12.706 6.3137 2.4142 1.9626 1.3764 1.0000 0.7265 0.5095 0.3249 0.1584
2 31.600 9.9250 6.2054 4.3027 2.9200 1.6036 1.3862 1.0607 0.8165 0.6172 0.4447 0.2887 0.1421
3 12.924 5.8408 4.1765 3.1824 2.3534 1.4226 1.2498 0.9785 0.7649 0.5844 0.4242 0.2767 0.1366
4 8.6101 4.6041 3.4954 2.7765 2.1318 1.3444 1.1896 0.9410 0.7407 0.5686 0.4142 0.2707 0.1338
5 6.8685 4.0321 3.1634 2.5706 2.0150 1.3009 1.1558 0.9195 0.7267 0.5594 0.4082 0.2672 0.1322
6 5.9587 3.7074 2.9687 2.4469 1.9432 1.2733 1.1342 0.9057 0.7176 0.5534 0.4043 0.2648 0.1311
7 5.4081 3.4995 2.8412 2.3646 1.8946 1.2543 1.1192 0.8960 0.7111 0.5491 0.4015 0.2632 0.1303
8 5.0414 3.3554 2.7515 2.3060 1.8595 1.2403 1.1081 0.8889 0.7064 0.5459 0.3995 0.2619 0.1297
9 4.7809 3.2498 2.6850 2.2622 1.8331 1.2297 1.0997 0.8834 0.7027 0.5435 0.3979 0.2610 0.1293
10 4.5868 3.1693 2.6338 2.2281 1.8125 1.2213 1.0931 0.8791 0.6998 0.5415 0.3966 0.2602 0.1289
11 4.4369 3.1058 2.5931 2.2010 1.7959 1.2145 1.0877 0.8755 0.6974 0.5399 0.3956 0.2596 0.1286
12 4.3178 3.0545 2.5600 2.1788 1.7823 1.2089 1.0832 0.8726 0.6955 0.5386 0.3947 0.2590 0.1283
13 4.2209 3.0123 2.5326 2.1604 1.7709 1.2041 1.0795 0.8702 0.6938 0.5375 0.3940 0.2586 0.1281
14 4.1403 2.9768 2.5096 2.1448 1.7613 1.2001 1.0763 0.8681 0.6924 0.5366 0.3933 0.2582 0.1280
15 4.0728 2.9467 2.4899 2.1315 1.7531 1.1967 1.0735 0.8662 0.6912 0.5357 0.3928 0.2579 0.1278
16 4.0149 2.9208 2.4729 2.1199 1.7459 1.1937 1.0711 0.8647 0.6901 0.5350 0.3923 0.2576 0.1277
17 3.9651 2.8982 2.4581 2.1098 1.7396 1.1910 1.0690 0.8633 0.6892 0.5344 0.3919 0.2573 0.1276
18 3.9217 2.8784 2.4450 2.1009 1.7341 1.1887 1.0672 0.8620 0.6884 0.5338 0.3915 0.2571 0.1274
19 3.8833 2.8609 2.4334 2.0930 1.7291 1.1866 1.0655 0.8610 0.6876 0.5333 0.3912 0.2569 0.1274
20 3.8496 2.8453 2.4231 2.0860 1.7247 1.1848 1.0640 0.8600 0.6870 0.5329 0.3909 0.2567 0.1273
21 3.8193 2.8314 2.4138 2.0796 1.7207 1.1831 1.0627 0.8591 0.6864 0.5325 0.3906 0.2566 0.1272
22 3.7922 2.8188 2.4055 2.0739 1.7171 1.1815 1.0614 0.8583 0.6858 0.5321 0.3904 0.2564 0.1271
23 3.7676 2.8073 2.3979 2.0687 1.7139 1.1802 1.0603 0.8575 0.6853 0.5317 0.3902 0.2563 0.1271
24 3.7454 2.7970 2.3910 2.0639 1.7109 1.1789 1.0593 0.8569 0.6848 0.5314 0.3900 0.2562 0.1270
25 3.7251 2.7874 2.3846 2.0595 1.7081 1.1777 1.0584 0.8562 0.6844 0.5312 0.3898 0.2561 0.1269
26 3.7067 2.7787 2.3788 2.0555 1.7056 1.1766 1.0575 0.8557 0.6840 0.5309 0.3896 0.2560 0.1269
27 3.6895 2.7707 2.3734 2.0518 1.7033 1.1756 1.0567 0.8551 0.6837 0.5306 0.3894 0.2559 0.1268
28 3.6739 2.7633 2.3685 2.0484 1.7011 1.1747 1.0560 0.8546 0.6834 0.5304 0.3893 0.2558 0.1268
29 3.6595 2.7564 2.3638 2.0452 1.6991 1.1739 1.0553 0.8542 0.6830 0.5302 0.3892 0.2557 0.1268
30 3.6460 2.7500 2.3596 2.0423 1.6973 1.1731 1.0547 0.8538 0.6828 0.5300 0.3890 0.2556 0.1267
35 3.5911 2.7238 2.3420 2.0301 1.6896 1.1698 1.0520 0.8520 0.6816 0.5292 0.3885 0.2553 0.1266
40 3.5510 2.7045 2.3289 2.0211 1.6839 1.1673 1.0500 0.8507 0.6807 0.5286 0.3881 0.2550 0.1265
50 3.4960 2.6778 2.3109 2.0086 1.6759 1.1639 1.0473 0.8489 0.6794 0.5278 0.3875 0.2547 0.1263
60 3.4602 2.6603 2.2990 2.0003 1.6706 1.1616 1.0455 0.8477 0.6786 0.5272 0.3872 0.2545 0.1262
80 3.4164 2.6387 2.2844 1.9901 1.6641 1.1588 1.0432 0.8461 0.6776 0.5265 0.3867 0.2542 0.1261
100 3.3905 2.6259 2.2757 1.9840 1.6602 1.1571 1.0418 0.8452 0.6770 0.5261 0.3864 0.2540 0.1260
120 3.3734 2.6174 2.2699 1.9799 1.6576 1.1559 1.0409 0.8446 0.6765 0.5258 0.3862 0.2539 0.1259
248 G. Tablas

G.4 Tabla de la distribución Normal

Tabla G.5: Distribución Normal


0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998
3.5 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998
3.6 0.9998 0.9998 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.7 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.8 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.9 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
G.5. Tabla de la distribución F de Fisher-Snedecor 249

G.5 Tabla de la distribución F de Fisher-Snedecor

Tabla G.6: Distribución F de Fisher-Snedecor (p = 0.5)


n 1

n2
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
1 1.000 1.500 1.709 1.823 1.894 1.942 1.977 2.004 2.025 2.042 2.056 2.067 2.077 2.086 2.093 2.100
2 0.667 1.000 1.135 1.207 1.252 1.282 1.305 1.321 1.334 1.345 1.354 1.361 1.367 1.372 1.377 1.381
3 0.585 0.881 1.000 1.063 1.102 1.129 1.148 1.163 1.174 1.183 1.191 1.197 1.203 1.207 1.211 1.215
4 0.549 0.828 0.941 1.000 1.037 1.062 1.080 1.093 1.104 1.113 1.120 1.126 1.131 1.135 1.139 1.142
5 0.528 0.799 0.907 0.965 1.000 1.024 1.041 1.055 1.065 1.073 1.080 1.085 1.090 1.094 1.098 1.101
6 0.515 0.780 0.886 0.942 0.977 1.000 1.017 1.030 1.040 1.048 1.054 1.060 1.065 1.069 1.072 1.075
7 0.506 0.767 0.871 0.926 0.960 0.983 1.000 1.013 1.022 1.030 1.037 1.042 1.047 1.051 1.054 1.057
8 0.499 0.757 0.860 0.915 0.948 0.971 0.988 1.000 1.010 1.018 1.024 1.029 1.034 1.038 1.041 1.044
9 0.494 0.749 0.852 0.906 0.939 0.962 0.978 0.990 1.000 1.008 1.014 1.019 1.024 1.028 1.031 1.034
10 0.490 0.743 0.845 0.899 0.932 0.954 0.971 0.983 0.992 1.000 1.006 1.012 1.016 1.020 1.023 1.026
11 0.486 0.739 0.840 0.893 0.926 0.948 0.964 0.977 0.986 0.994 1.000 1.005 1.010 1.013 1.017 1.020
12 0.484 0.735 0.835 0.888 0.921 0.943 0.959 0.972 0.981 0.989 0.995 1.000 1.004 1.008 1.012 1.014
13 0.481 0.731 0.832 0.885 0.917 0.939 0.955 0.967 0.977 0.984 0.990 0.996 1.000 1.004 1.007 1.010
14 0.479 0.729 0.828 0.881 0.914 0.936 0.952 0.964 0.973 0.981 0.987 0.992 0.996 1.000 1.003 1.006
15 0.478 0.726 0.826 0.878 0.911 0.933 0.949 0.960 0.970 0.977 0.983 0.989 0.993 0.997 1.000 1.003
16 0.476 0.724 0.823 0.876 0.908 0.930 0.946 0.958 0.967 0.975 0.981 0.986 0.990 0.994 0.997 1.000
17 0.475 0.722 0.821 0.874 0.906 0.928 0.943 0.955 0.965 0.972 0.978 0.983 0.988 0.991 0.995 0.997
18 0.474 0.721 0.819 0.872 0.904 0.926 0.941 0.953 0.962 0.970 0.976 0.981 0.985 0.989 0.992 0.995
19 0.473 0.719 0.818 0.870 0.902 0.924 0.939 0.951 0.961 0.968 0.974 0.979 0.984 0.987 0.990 0.993
20 0.472 0.718 0.816 0.868 0.900 0.922 0.938 0.950 0.959 0.966 0.972 0.977 0.982 0.985 0.989 0.992
21 0.471 0.717 0.815 0.867 0.899 0.921 0.936 0.948 0.957 0.965 0.971 0.976 0.980 0.984 0.987 0.990
22 0.470 0.715 0.814 0.866 0.898 0.919 0.935 0.947 0.956 0.963 0.969 0.974 0.979 0.982 0.986 0.988
23 0.470 0.714 0.813 0.864 0.896 0.918 0.934 0.945 0.955 0.962 0.968 0.973 0.977 0.981 0.984 0.987
24 0.469 0.714 0.812 0.863 0.895 0.917 0.932 0.944 0.953 0.961 0.967 0.972 0.976 0.980 0.983 0.986
25 0.468 0.713 0.811 0.862 0.894 0.916 0.931 0.943 0.952 0.960 0.966 0.971 0.975 0.979 0.982 0.985
26 0.468 0.712 0.810 0.861 0.893 0.915 0.930 0.942 0.951 0.959 0.965 0.970 0.974 0.978 0.981 0.984
27 0.467 0.711 0.809 0.861 0.892 0.914 0.930 0.941 0.950 0.958 0.964 0.969 0.973 0.977 0.980 0.983
28 0.467 0.711 0.808 0.860 0.892 0.913 0.929 0.940 0.950 0.957 0.963 0.968 0.972 0.976 0.979 0.982
29 0.467 0.710 0.808 0.859 0.891 0.912 0.928 0.940 0.949 0.956 0.962 0.967 0.971 0.975 0.978 0.981
30 0.466 0.709 0.807 0.858 0.890 0.912 0.927 0.939 0.948 0.955 0.961 0.966 0.971 0.974 0.978 0.980
35 0.465 0.707 0.804 0.856 0.887 0.909 0.924 0.936 0.945 0.952 0.958 0.963 0.968 0.971 0.974 0.977
40 0.463 0.705 0.802 0.854 0.885 0.907 0.922 0.934 0.943 0.950 0.956 0.961 0.965 0.969 0.972 0.975
50 0.462 0.703 0.800 0.851 0.882 0.903 0.919 0.930 0.940 0.947 0.953 0.958 0.962 0.966 0.969 0.972
60 0.460 0.701 0.798 0.849 0.880 0.901 0.917 0.928 0.937 0.945 0.951 0.956 0.960 0.964 0.967 0.969
70 0.460 0.700 0.796 0.847 0.879 0.900 0.915 0.927 0.936 0.943 0.949 0.954 0.958 0.962 0.965 0.968
80 0.459 0.699 0.795 0.846 0.878 0.899 0.914 0.926 0.935 0.942 0.948 0.953 0.957 0.961 0.964 0.967
90 0.459 0.699 0.795 0.846 0.877 0.898 0.913 0.925 0.934 0.941 0.947 0.952 0.956 0.960 0.963 0.966
100 0.458 0.698 0.794 0.845 0.876 0.897 0.913 0.924 0.933 0.940 0.946 0.951 0.956 0.959 0.962 0.965
120 0.458 0.697 0.793 0.844 0.875 0.896 0.912 0.923 0.932 0.939 0.945 0.950 0.955 0.958 0.961 0.964
∞ 0.455 0.693 0.789 0.839 0.870 0.891 0.907 0.918 0.927 0.934 0.940 0.945 0.949 0.953 0.956 0.959
250 G. Tablas

Tabla G.7: Distribución F de Fisher-Snedecor (p = 0.5)


n 1

n2 17 18 19 20 25 30 35 40 45 50 60 70 80 90 120 ∞
1 2.105 2.110 2.115 2.119 2.135 2.145 2.153 2.158 2.163 2.166 2.172 2.175 2.178 2.180 2.185 2.198
2 1.385 1.388 1.391 1.393 1.403 1.410 1.414 1.418 1.421 1.423 1.426 1.428 1.430 1.432 1.434 1.442
3 1.218 1.220 1.223 1.225 1.234 1.239 1.243 1.246 1.249 1.251 1.254 1.256 1.257 1.258 1.261 1.268
4 1.145 1.147 1.150 1.152 1.160 1.165 1.169 1.172 1.174 1.176 1.178 1.180 1.182 1.183 1.185 1.191
5 1.104 1.106 1.109 1.111 1.118 1.123 1.127 1.130 1.132 1.134 1.136 1.138 1.139 1.140 1.143 1.149
6 1.078 1.080 1.083 1.084 1.092 1.097 1.100 1.103 1.105 1.107 1.109 1.111 1.112 1.114 1.116 1.122
7 1.060 1.062 1.064 1.066 1.074 1.079 1.082 1.085 1.087 1.088 1.091 1.093 1.094 1.095 1.097 1.103
8 1.047 1.049 1.051 1.053 1.060 1.065 1.069 1.071 1.073 1.075 1.077 1.079 1.080 1.081 1.083 1.089
9 1.037 1.039 1.041 1.043 1.050 1.055 1.058 1.061 1.063 1.064 1.067 1.068 1.070 1.071 1.073 1.079
10 1.029 1.031 1.033 1.035 1.042 1.047 1.050 1.053 1.055 1.056 1.059 1.060 1.062 1.062 1.064 1.070
11 1.022 1.025 1.027 1.028 1.035 1.040 1.043 1.046 1.048 1.050 1.052 1.054 1.055 1.056 1.058 1.064
12 1.017 1.019 1.021 1.023 1.030 1.035 1.038 1.041 1.042 1.044 1.046 1.048 1.049 1.050 1.052 1.058
13 1.012 1.015 1.017 1.019 1.026 1.030 1.033 1.036 1.038 1.039 1.042 1.043 1.045 1.046 1.048 1.053
14 1.009 1.011 1.013 1.015 1.022 1.026 1.030 1.032 1.034 1.036 1.038 1.040 1.041 1.042 1.044 1.049
15 1.005 1.008 1.010 1.011 1.018 1.023 1.026 1.029 1.031 1.032 1.034 1.036 1.037 1.038 1.040 1.046
16 1.003 1.005 1.007 1.009 1.015 1.020 1.023 1.026 1.028 1.029 1.032 1.033 1.034 1.035 1.037 1.043
17 1.000 1.002 1.004 1.006 1.013 1.017 1.021 1.023 1.025 1.027 1.029 1.031 1.032 1.033 1.035 1.040
18 0.998 1.000 1.002 1.004 1.011 1.015 1.018 1.021 1.023 1.024 1.027 1.028 1.030 1.030 1.032 1.038
19 0.996 0.998 1.000 1.002 1.009 1.013 1.016 1.019 1.021 1.022 1.025 1.026 1.027 1.028 1.030 1.036
20 0.994 0.996 0.998 1.000 1.007 1.011 1.015 1.017 1.019 1.020 1.023 1.024 1.026 1.027 1.029 1.034
21 0.992 0.995 0.997 0.998 1.005 1.010 1.013 1.015 1.017 1.019 1.021 1.023 1.024 1.025 1.027 1.032
22 0.991 0.993 0.995 0.997 1.004 1.008 1.011 1.014 1.016 1.017 1.020 1.021 1.022 1.023 1.025 1.031
23 0.990 0.992 0.994 0.996 1.002 1.007 1.010 1.013 1.014 1.016 1.018 1.020 1.021 1.022 1.024 1.030
24 0.988 0.991 0.993 0.994 1.001 1.006 1.009 1.011 1.013 1.015 1.017 1.019 1.020 1.021 1.023 1.028
25 0.987 0.989 0.991 0.993 1.000 1.005 1.008 1.010 1.012 1.014 1.016 1.017 1.019 1.020 1.022 1.027
26 0.986 0.988 0.990 0.992 0.999 1.003 1.007 1.009 1.011 1.013 1.015 1.016 1.018 1.019 1.020 1.026
27 0.985 0.988 0.989 0.991 0.998 1.003 1.006 1.008 1.010 1.012 1.014 1.015 1.017 1.018 1.020 1.025
28 0.984 0.987 0.989 0.990 0.997 1.002 1.005 1.007 1.009 1.011 1.013 1.015 1.016 1.017 1.019 1.024
29 0.984 0.986 0.988 0.990 0.996 1.001 1.004 1.006 1.008 1.010 1.012 1.014 1.015 1.016 1.018 1.023
30 0.983 0.985 0.987 0.989 0.996 1.000 1.003 1.006 1.008 1.009 1.011 1.013 1.014 1.015 1.017 1.022
35 0.980 0.982 0.984 0.986 0.992 0.997 1.000 1.002 1.004 1.006 1.008 1.010 1.011 1.012 1.014 1.019
40 0.977 0.980 0.981 0.983 0.990 0.994 0.998 1.000 1.002 1.003 1.006 1.007 1.008 1.009 1.011 1.017
50 0.974 0.976 0.978 0.980 0.987 0.991 0.994 0.997 0.999 1.000 1.002 1.004 1.005 1.006 1.008 1.013
60 0.972 0.974 0.976 0.978 0.984 0.989 0.992 0.994 0.996 0.998 1.000 1.002 1.003 1.004 1.006 1.011
70 0.970 0.972 0.974 0.976 0.983 0.987 0.990 0.993 0.995 0.996 0.998 1.000 1.001 1.002 1.004 1.009
80 0.969 0.971 0.973 0.975 0.982 0.986 0.989 0.992 0.993 0.995 0.997 0.999 1.000 1.001 1.003 1.008
90 0.968 0.970 0.972 0.974 0.981 0.985 0.988 0.991 0.993 0.994 0.996 0.998 0.999 1.000 1.002 1.007
100 0.968 0.970 0.972 0.973 0.980 0.984 0.988 0.990 0.992 0.993 0.996 0.997 0.998 0.999 1.001 1.007
120 0.966 0.969 0.971 0.972 0.979 0.983 0.986 0.989 0.991 0.992 0.994 0.996 0.997 0.998 1.000 1.005
∞ 0.961 0.963 0.965 0.967 0.974 0.978 0.981 0.984 0.985 0.987 0.989 0.991 0.992 0.993 0.995 1.000
G.5. Tabla de la distribución F de Fisher-Snedecor 251

Tabla G.8: Distribución F de Fisher-Snedecor (p = 0.75)


n 1

n2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
1 5.828 7.500 8.200 8.581 8.820 8.983 9.102 9.192 9.263 9.320 9.367 9.406 9.440 9.468 9.493 9.515
2 2.571 3.000 3.153 3.232 3.280 3.312 3.335 3.353 3.366 3.377 3.386 3.393 3.400 3.405 3.410 3.414
3 2.024 2.280 2.356 2.390 2.409 2.422 2.430 2.436 2.441 2.445 2.448 2.450 2.452 2.454 2.455 2.456
4 1.807 2.000 2.047 2.064 2.072 2.077 2.079 2.080 2.081 2.082 2.082 2.083 2.083 2.083 2.083 2.083
5 1.692 1.853 1.884 1.893 1.895 1.894 1.894 1.892 1.891 1.890 1.889 1.888 1.887 1.886 1.885 1.884
6 1.621 1.762 1.784 1.787 1.785 1.782 1.779 1.776 1.773 1.771 1.769 1.767 1.765 1.764 1.762 1.761
7 1.573 1.701 1.717 1.716 1.711 1.706 1.701 1.697 1.693 1.690 1.687 1.684 1.682 1.680 1.678 1.676
8 1.538 1.657 1.668 1.664 1.658 1.651 1.645 1.640 1.635 1.631 1.627 1.624 1.622 1.619 1.617 1.615
9 1.512 1.624 1.632 1.625 1.617 1.609 1.602 1.596 1.591 1.586 1.582 1.579 1.576 1.573 1.570 1.568
10 1.491 1.598 1.603 1.595 1.585 1.576 1.569 1.562 1.556 1.551 1.547 1.543 1.540 1.537 1.534 1.531
11 1.475 1.577 1.580 1.570 1.560 1.550 1.542 1.535 1.528 1.523 1.518 1.514 1.510 1.507 1.504 1.501
12 1.461 1.560 1.561 1.550 1.539 1.529 1.520 1.512 1.505 1.500 1.495 1.490 1.486 1.483 1.480 1.477
13 1.450 1.545 1.545 1.534 1.521 1.511 1.501 1.493 1.486 1.480 1.475 1.470 1.466 1.462 1.459 1.456
14 1.440 1.533 1.532 1.519 1.507 1.495 1.485 1.477 1.470 1.463 1.458 1.453 1.449 1.445 1.441 1.438
15 1.432 1.523 1.520 1.507 1.494 1.482 1.472 1.463 1.456 1.449 1.443 1.438 1.434 1.430 1.426 1.423
16 1.425 1.514 1.510 1.497 1.483 1.471 1.460 1.451 1.443 1.437 1.431 1.426 1.421 1.417 1.413 1.410
17 1.419 1.506 1.502 1.487 1.473 1.460 1.450 1.441 1.433 1.426 1.420 1.414 1.409 1.405 1.401 1.398
18 1.413 1.499 1.494 1.479 1.464 1.452 1.441 1.431 1.423 1.416 1.410 1.404 1.399 1.395 1.391 1.388
19 1.408 1.493 1.487 1.472 1.457 1.444 1.432 1.423 1.414 1.407 1.401 1.395 1.390 1.386 1.382 1.378
20 1.404 1.487 1.481 1.465 1.450 1.437 1.425 1.415 1.407 1.399 1.393 1.387 1.382 1.378 1.374 1.370
21 1.400 1.482 1.475 1.459 1.444 1.430 1.419 1.409 1.400 1.392 1.386 1.380 1.375 1.370 1.366 1.362
22 1.396 1.477 1.470 1.454 1.438 1.424 1.413 1.402 1.394 1.386 1.379 1.374 1.368 1.364 1.359 1.355
23 1.393 1.473 1.466 1.449 1.433 1.419 1.407 1.397 1.388 1.380 1.374 1.368 1.362 1.357 1.353 1.349
24 1.390 1.470 1.462 1.445 1.428 1.414 1.402 1.392 1.383 1.375 1.368 1.362 1.357 1.352 1.347 1.343
25 1.387 1.466 1.458 1.441 1.424 1.410 1.398 1.387 1.378 1.370 1.363 1.357 1.352 1.347 1.342 1.338
26 1.384 1.463 1.454 1.437 1.420 1.406 1.393 1.383 1.374 1.366 1.359 1.352 1.347 1.342 1.337 1.333
27 1.382 1.460 1.451 1.433 1.417 1.402 1.390 1.379 1.370 1.361 1.354 1.348 1.342 1.337 1.333 1.329
28 1.380 1.457 1.448 1.430 1.413 1.399 1.386 1.375 1.366 1.358 1.350 1.344 1.338 1.333 1.329 1.325
29 1.378 1.455 1.445 1.427 1.410 1.395 1.383 1.372 1.362 1.354 1.347 1.340 1.335 1.330 1.325 1.321
30 1.376 1.452 1.443 1.424 1.407 1.392 1.380 1.369 1.359 1.351 1.343 1.337 1.331 1.326 1.321 1.317
35 1.368 1.443 1.432 1.413 1.395 1.380 1.367 1.355 1.345 1.337 1.329 1.323 1.317 1.311 1.306 1.302
40 1.363 1.435 1.424 1.404 1.386 1.371 1.357 1.345 1.335 1.327 1.319 1.312 1.306 1.300 1.295 1.291
50 1.355 1.425 1.413 1.393 1.374 1.358 1.344 1.332 1.321 1.312 1.304 1.297 1.291 1.285 1.280 1.275
60 1.349 1.419 1.405 1.385 1.366 1.349 1.335 1.323 1.312 1.303 1.294 1.287 1.280 1.274 1.269 1.264
70 1.346 1.414 1.400 1.379 1.360 1.343 1.329 1.316 1.305 1.296 1.287 1.280 1.273 1.267 1.262 1.257
80 1.343 1.411 1.396 1.375 1.355 1.338 1.324 1.311 1.300 1.291 1.282 1.275 1.268 1.262 1.256 1.251
90 1.341 1.408 1.393 1.372 1.352 1.335 1.320 1.307 1.296 1.287 1.278 1.270 1.263 1.257 1.252 1.246
100 1.339 1.406 1.391 1.369 1.349 1.332 1.317 1.304 1.293 1.283 1.275 1.267 1.260 1.254 1.248 1.243
120 1.336 1.402 1.387 1.365 1.345 1.328 1.313 1.300 1.289 1.279 1.270 1.262 1.255 1.249 1.243 1.237
∞ 1.324 1.387 1.370 1.347 1.326 1.307 1.292 1.278 1.266 1.255 1.246 1.238 1.230 1.223 1.217 1.211
252 G. Tablas

Tabla G.9: Distribución F de Fisher-Snedecor (p = 0.75)


n 1

n2 17 18 19 20 25 30 35 40 45 50 60 70 80 90 120 ∞
1 9.535 9.552 9.567 9.581 9.634 9.670 9.695 9.714 9.729 9.741 9.759 9.772 9.782 9.789 9.804 9.848
2 3.418 3.421 3.424 3.426 3.436 3.443 3.448 3.451 3.454 3.456 3.459 3.462 3.464 3.465 3.468 3.476
3 2.458 2.459 2.459 2.460 2.463 2.465 2.466 2.467 2.468 2.469 2.470 2.470 2.471 2.471 2.472 2.474
4 2.083 2.083 2.083 2.083 2.083 2.082 2.082 2.082 2.082 2.082 2.082 2.082 2.081 2.081 2.081 2.081
5 1.884 1.883 1.882 1.882 1.880 1.878 1.877 1.876 1.876 1.875 1.874 1.874 1.873 1.873 1.872 1.869
6 1.760 1.759 1.758 1.757 1.753 1.751 1.749 1.748 1.747 1.746 1.744 1.743 1.742 1.742 1.741 1.737
7 1.675 1.674 1.672 1.671 1.667 1.663 1.661 1.659 1.658 1.657 1.655 1.654 1.653 1.652 1.650 1.645
8 1.613 1.612 1.610 1.609 1.603 1.600 1.597 1.595 1.593 1.591 1.589 1.588 1.586 1.586 1.584 1.578
9 1.566 1.564 1.563 1.561 1.555 1.551 1.547 1.545 1.543 1.541 1.539 1.537 1.536 1.535 1.533 1.526
10 1.529 1.527 1.525 1.523 1.517 1.512 1.508 1.506 1.503 1.502 1.499 1.497 1.495 1.494 1.492 1.484
11 1.499 1.497 1.495 1.493 1.486 1.481 1.477 1.474 1.471 1.469 1.466 1.464 1.463 1.461 1.459 1.451
12 1.474 1.472 1.470 1.468 1.460 1.454 1.450 1.447 1.445 1.443 1.439 1.437 1.435 1.434 1.431 1.422
13 1.453 1.451 1.449 1.447 1.438 1.432 1.428 1.425 1.422 1.420 1.416 1.414 1.412 1.411 1.408 1.398
14 1.435 1.433 1.431 1.428 1.420 1.414 1.409 1.405 1.403 1.400 1.397 1.394 1.392 1.391 1.387 1.377
15 1.420 1.417 1.415 1.413 1.404 1.397 1.392 1.389 1.386 1.383 1.380 1.377 1.375 1.373 1.370 1.359
16 1.407 1.404 1.401 1.399 1.390 1.383 1.378 1.374 1.371 1.369 1.365 1.362 1.360 1.358 1.354 1.343
17 1.395 1.392 1.389 1.387 1.377 1.370 1.365 1.361 1.358 1.355 1.351 1.348 1.346 1.344 1.341 1.329
18 1.384 1.381 1.379 1.376 1.366 1.359 1.354 1.350 1.346 1.344 1.340 1.336 1.334 1.332 1.328 1.317
19 1.375 1.372 1.369 1.367 1.356 1.349 1.344 1.339 1.336 1.333 1.329 1.326 1.323 1.321 1.317 1.305
20 1.367 1.363 1.361 1.358 1.348 1.340 1.335 1.330 1.327 1.324 1.319 1.316 1.313 1.311 1.307 1.295
21 1.359 1.356 1.353 1.350 1.340 1.332 1.326 1.322 1.318 1.315 1.311 1.307 1.305 1.303 1.298 1.285
22 1.352 1.349 1.346 1.343 1.332 1.324 1.319 1.314 1.310 1.307 1.303 1.299 1.296 1.294 1.290 1.276
23 1.346 1.342 1.339 1.337 1.326 1.318 1.312 1.307 1.303 1.300 1.295 1.292 1.289 1.287 1.282 1.268
24 1.340 1.337 1.333 1.331 1.319 1.311 1.305 1.300 1.297 1.293 1.289 1.285 1.282 1.280 1.275 1.261
25 1.335 1.331 1.328 1.325 1.314 1.306 1.299 1.294 1.291 1.287 1.282 1.279 1.276 1.273 1.269 1.254
26 1.330 1.326 1.323 1.320 1.309 1.300 1.294 1.289 1.285 1.282 1.277 1.273 1.270 1.268 1.263 1.248
27 1.325 1.322 1.318 1.315 1.304 1.295 1.289 1.284 1.280 1.276 1.271 1.267 1.264 1.262 1.257 1.242
28 1.321 1.317 1.314 1.311 1.299 1.291 1.284 1.279 1.275 1.271 1.266 1.262 1.259 1.257 1.252 1.236
29 1.317 1.313 1.310 1.307 1.295 1.286 1.280 1.275 1.270 1.267 1.262 1.258 1.254 1.252 1.247 1.231
30 1.313 1.310 1.306 1.303 1.291 1.282 1.276 1.270 1.266 1.263 1.257 1.253 1.250 1.247 1.242 1.226
35 1.298 1.294 1.291 1.288 1.275 1.266 1.258 1.253 1.248 1.245 1.239 1.234 1.231 1.228 1.223 1.205
40 1.286 1.283 1.279 1.276 1.263 1.253 1.245 1.240 1.235 1.231 1.225 1.220 1.217 1.214 1.208 1.189
50 1.270 1.266 1.263 1.259 1.245 1.235 1.227 1.221 1.216 1.212 1.205 1.200 1.196 1.193 1.186 1.165
60 1.260 1.255 1.252 1.248 1.234 1.223 1.215 1.208 1.203 1.198 1.191 1.186 1.182 1.178 1.172 1.148
70 1.252 1.248 1.244 1.240 1.225 1.214 1.206 1.199 1.193 1.189 1.181 1.176 1.171 1.168 1.161 1.135
80 1.246 1.242 1.238 1.234 1.219 1.208 1.199 1.192 1.186 1.181 1.174 1.168 1.163 1.160 1.152 1.125
90 1.242 1.237 1.233 1.229 1.214 1.202 1.194 1.186 1.180 1.176 1.168 1.162 1.157 1.153 1.145 1.117
100 1.238 1.234 1.229 1.226 1.210 1.198 1.189 1.182 1.176 1.171 1.163 1.157 1.152 1.148 1.140 1.110
120 1.233 1.228 1.224 1.220 1.204 1.192 1.183 1.175 1.169 1.164 1.156 1.149 1.144 1.140 1.131 1.100
∞ 1.206 1.201 1.196 1.192 1.174 1.161 1.150 1.141 1.134 1.128 1.117 1.109 1.103 1.097 1.085 1.019
G.5. Tabla de la distribución F de Fisher-Snedecor 253

Tabla G.10: Distribución F de Fisher-Snedecor (p = 0.9)


n 1

n2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
1 39.86 49.50 53.59 55.83 57.24 58.20 58.91 59.44 59.86 60.19 60.47 60.71 60.90 61.07 61.22 61.35
2 8.526 9.000 9.162 9.243 9.293 9.326 9.349 9.367 9.381 9.392 9.401 9.408 9.415 9.420 9.425 9.429
3 5.538 5.462 5.391 5.343 5.309 5.285 5.266 5.252 5.240 5.230 5.222 5.216 5.210 5.205 5.200 5.196
4 4.545 4.325 4.191 4.107 4.051 4.010 3.979 3.955 3.936 3.920 3.907 3.896 3.886 3.878 3.870 3.864
5 4.060 3.780 3.619 3.520 3.453 3.405 3.368 3.339 3.316 3.297 3.282 3.268 3.257 3.247 3.238 3.230
6 3.776 3.463 3.289 3.181 3.108 3.055 3.014 2.983 2.958 2.937 2.920 2.905 2.892 2.881 2.871 2.863
7 3.589 3.257 3.074 2.961 2.883 2.827 2.785 2.752 2.725 2.703 2.684 2.668 2.654 2.643 2.632 2.623
8 3.458 3.113 2.924 2.806 2.726 2.668 2.624 2.589 2.561 2.538 2.519 2.502 2.488 2.475 2.464 2.454
9 3.360 3.006 2.813 2.693 2.611 2.551 2.505 2.469 2.440 2.416 2.396 2.379 2.364 2.351 2.340 2.330
10 3.285 2.924 2.728 2.605 2.522 2.461 2.414 2.377 2.347 2.323 2.302 2.284 2.269 2.255 2.244 2.233
11 3.225 2.860 2.660 2.536 2.451 2.389 2.342 2.304 2.274 2.248 2.227 2.209 2.193 2.179 2.167 2.156
12 3.177 2.807 2.606 2.480 2.394 2.331 2.283 2.245 2.214 2.188 2.166 2.147 2.131 2.117 2.105 2.094
13 3.136 2.763 2.560 2.434 2.347 2.283 2.234 2.195 2.164 2.138 2.116 2.097 2.080 2.066 2.053 2.042
14 3.102 2.726 2.522 2.395 2.307 2.243 2.193 2.154 2.122 2.095 2.073 2.054 2.037 2.022 2.010 1.998
15 3.073 2.695 2.490 2.361 2.273 2.208 2.158 2.119 2.086 2.059 2.037 2.017 2.000 1.985 1.972 1.961
16 3.048 2.668 2.462 2.333 2.244 2.178 2.128 2.088 2.055 2.028 2.005 1.985 1.968 1.953 1.940 1.928
17 3.026 2.645 2.437 2.308 2.218 2.152 2.102 2.061 2.028 2.001 1.978 1.958 1.940 1.925 1.912 1.900
18 3.007 2.624 2.416 2.286 2.196 2.130 2.079 2.038 2.005 1.977 1.954 1.933 1.916 1.900 1.887 1.875
19 2.990 2.606 2.397 2.266 2.176 2.109 2.058 2.017 1.984 1.956 1.932 1.912 1.894 1.878 1.865 1.852
20 2.975 2.589 2.380 2.249 2.158 2.091 2.040 1.999 1.965 1.937 1.913 1.892 1.875 1.859 1.845 1.833
21 2.961 2.575 2.365 2.233 2.142 2.075 2.023 1.982 1.948 1.920 1.896 1.875 1.857 1.841 1.827 1.815
22 2.949 2.561 2.351 2.219 2.128 2.060 2.008 1.967 1.933 1.904 1.880 1.859 1.841 1.825 1.811 1.798
23 2.937 2.549 2.339 2.207 2.115 2.047 1.995 1.953 1.919 1.890 1.866 1.845 1.827 1.811 1.796 1.784
24 2.927 2.538 2.327 2.195 2.103 2.035 1.983 1.941 1.906 1.877 1.853 1.832 1.814 1.797 1.783 1.770
25 2.918 2.528 2.317 2.184 2.092 2.024 1.971 1.929 1.895 1.866 1.841 1.820 1.802 1.785 1.771 1.758
26 2.909 2.519 2.307 2.174 2.082 2.014 1.961 1.919 1.884 1.855 1.830 1.809 1.790 1.774 1.760 1.747
27 2.901 2.511 2.299 2.165 2.073 2.005 1.952 1.909 1.874 1.845 1.820 1.799 1.780 1.764 1.749 1.736
28 2.894 2.503 2.291 2.157 2.064 1.996 1.943 1.900 1.865 1.836 1.811 1.790 1.771 1.754 1.740 1.726
29 2.887 2.495 2.283 2.149 2.057 1.988 1.935 1.892 1.857 1.827 1.802 1.781 1.762 1.745 1.731 1.717
30 2.881 2.489 2.276 2.142 2.049 1.980 1.927 1.884 1.849 1.819 1.794 1.773 1.754 1.737 1.722 1.709
35 2.855 2.461 2.247 2.113 2.019 1.950 1.896 1.852 1.817 1.787 1.761 1.739 1.720 1.703 1.688 1.674
40 2.835 2.440 2.226 2.091 1.997 1.927 1.873 1.829 1.793 1.763 1.737 1.715 1.695 1.678 1.662 1.649
50 2.809 2.412 2.197 2.061 1.966 1.895 1.840 1.796 1.760 1.729 1.703 1.680 1.660 1.643 1.627 1.613
60 2.791 2.393 2.177 2.041 1.946 1.875 1.819 1.775 1.738 1.707 1.680 1.657 1.637 1.619 1.603 1.589
70 2.779 2.380 2.164 2.027 1.931 1.860 1.804 1.760 1.723 1.691 1.665 1.641 1.621 1.603 1.587 1.572
80 2.769 2.370 2.154 2.016 1.921 1.849 1.793 1.748 1.711 1.680 1.653 1.629 1.609 1.590 1.574 1.559
90 2.762 2.363 2.146 2.008 1.912 1.841 1.785 1.739 1.702 1.670 1.643 1.620 1.599 1.581 1.564 1.550
100 2.756 2.356 2.139 2.002 1.906 1.834 1.778 1.732 1.695 1.663 1.636 1.612 1.592 1.573 1.557 1.542
120 2.748 2.347 2.130 1.992 1.896 1.824 1.767 1.722 1.684 1.652 1.625 1.601 1.580 1.562 1.545 1.530
∞ 2.707 2.304 2.085 1.946 1.848 1.775 1.718 1.671 1.633 1.600 1.572 1.547 1.525 1.506 1.489 1.473
254 G. Tablas

Tabla G.11: Distribución F de Fisher-Snedecor (p = 0.9)


n 1

n2 17 18 19 20 25 30 35 40 45 50 60 70 80 90 120 ∞
1 61.46 61.57 61.66 61.74 62.05 62.26 62.42 62.53 62.62 62.69 62.79 62.87 62.93 62.97 63.06 63.32
2 9.433 9.436 9.439 9.441 9.451 9.458 9.463 9.466 9.469 9.471 9.475 9.477 9.479 9.480 9.483 9.491
3 5.193 5.190 5.187 5.184 5.175 5.168 5.163 5.160 5.157 5.155 5.151 5.149 5.147 5.145 5.143 5.134
4 3.858 3.853 3.848 3.844 3.828 3.817 3.810 3.804 3.799 3.795 3.790 3.786 3.782 3.780 3.775 3.761
5 3.223 3.217 3.212 3.207 3.187 3.174 3.165 3.157 3.152 3.147 3.140 3.135 3.132 3.129 3.123 3.105
6 2.855 2.848 2.842 2.836 2.815 2.800 2.789 2.781 2.775 2.770 2.762 2.756 2.752 2.749 2.742 2.723
7 2.615 2.607 2.601 2.595 2.571 2.555 2.544 2.535 2.528 2.523 2.514 2.508 2.504 2.500 2.493 2.471
8 2.446 2.438 2.431 2.425 2.400 2.383 2.371 2.361 2.354 2.348 2.339 2.333 2.328 2.324 2.316 2.293
9 2.320 2.312 2.305 2.298 2.272 2.255 2.242 2.232 2.224 2.218 2.208 2.202 2.196 2.192 2.184 2.160
10 2.224 2.215 2.208 2.201 2.174 2.155 2.142 2.132 2.124 2.117 2.107 2.100 2.095 2.090 2.082 2.056
11 2.147 2.138 2.130 2.123 2.095 2.076 2.062 2.052 2.043 2.036 2.026 2.019 2.013 2.009 2.000 1.973
12 2.084 2.075 2.067 2.060 2.031 2.011 1.997 1.986 1.977 1.970 1.960 1.952 1.946 1.942 1.932 1.904
13 2.032 2.023 2.014 2.007 1.978 1.958 1.943 1.931 1.923 1.915 1.904 1.896 1.890 1.886 1.876 1.847
14 1.988 1.978 1.970 1.962 1.933 1.912 1.897 1.885 1.876 1.869 1.857 1.849 1.843 1.838 1.828 1.798
15 1.950 1.941 1.932 1.924 1.894 1.873 1.857 1.845 1.836 1.828 1.817 1.808 1.802 1.797 1.787 1.756
16 1.917 1.908 1.899 1.891 1.860 1.839 1.823 1.811 1.801 1.793 1.782 1.773 1.766 1.761 1.751 1.719
17 1.889 1.879 1.870 1.862 1.831 1.809 1.793 1.781 1.771 1.763 1.751 1.742 1.735 1.730 1.719 1.686
18 1.864 1.854 1.845 1.837 1.805 1.783 1.766 1.754 1.744 1.736 1.723 1.714 1.707 1.702 1.691 1.658
19 1.841 1.831 1.822 1.814 1.782 1.759 1.743 1.730 1.720 1.711 1.699 1.690 1.683 1.677 1.666 1.632
20 1.821 1.811 1.802 1.794 1.761 1.738 1.721 1.708 1.698 1.690 1.677 1.667 1.660 1.655 1.643 1.608
21 1.803 1.793 1.784 1.776 1.742 1.719 1.702 1.689 1.678 1.670 1.657 1.647 1.640 1.634 1.623 1.587
22 1.787 1.777 1.768 1.759 1.726 1.702 1.685 1.671 1.661 1.652 1.639 1.629 1.622 1.616 1.604 1.568
23 1.772 1.762 1.753 1.744 1.710 1.686 1.669 1.655 1.645 1.636 1.622 1.613 1.605 1.599 1.587 1.550
24 1.759 1.748 1.739 1.730 1.696 1.672 1.654 1.641 1.630 1.621 1.607 1.597 1.590 1.584 1.571 1.534
25 1.746 1.736 1.726 1.718 1.683 1.659 1.641 1.627 1.616 1.607 1.593 1.583 1.576 1.569 1.557 1.519
26 1.735 1.724 1.715 1.706 1.671 1.647 1.629 1.615 1.604 1.594 1.581 1.570 1.562 1.556 1.544 1.505
27 1.724 1.714 1.704 1.695 1.660 1.636 1.617 1.603 1.592 1.583 1.569 1.558 1.550 1.544 1.531 1.492
28 1.715 1.704 1.694 1.685 1.650 1.625 1.607 1.592 1.581 1.572 1.558 1.547 1.539 1.533 1.520 1.479
29 1.705 1.695 1.685 1.676 1.640 1.616 1.597 1.583 1.571 1.562 1.547 1.537 1.529 1.522 1.509 1.468
30 1.697 1.686 1.676 1.667 1.632 1.606 1.588 1.573 1.562 1.552 1.538 1.527 1.519 1.512 1.499 1.457
35 1.662 1.651 1.641 1.632 1.595 1.569 1.550 1.535 1.523 1.513 1.497 1.486 1.478 1.471 1.457 1.413
40 1.636 1.625 1.615 1.605 1.568 1.541 1.521 1.506 1.493 1.483 1.467 1.455 1.447 1.439 1.425 1.378
50 1.600 1.588 1.578 1.568 1.529 1.502 1.481 1.465 1.452 1.441 1.424 1.412 1.402 1.395 1.379 1.328
60 1.576 1.564 1.553 1.543 1.504 1.476 1.454 1.437 1.424 1.413 1.395 1.382 1.372 1.364 1.348 1.293
70 1.559 1.547 1.536 1.526 1.486 1.457 1.435 1.418 1.404 1.392 1.374 1.361 1.350 1.342 1.325 1.267
80 1.546 1.534 1.523 1.513 1.472 1.443 1.420 1.403 1.388 1.377 1.358 1.344 1.334 1.325 1.307 1.246
90 1.536 1.524 1.513 1.503 1.461 1.432 1.409 1.391 1.377 1.365 1.346 1.332 1.321 1.312 1.293 1.230
100 1.528 1.516 1.505 1.494 1.453 1.423 1.400 1.382 1.367 1.355 1.336 1.321 1.310 1.301 1.282 1.216
120 1.516 1.504 1.493 1.482 1.440 1.409 1.386 1.368 1.353 1.340 1.320 1.305 1.294 1.284 1.265 1.195
∞ 1.458 1.445 1.433 1.422 1.377 1.344 1.318 1.297 1.280 1.265 1.242 1.224 1.209 1.197 1.171 1.037
G.5. Tabla de la distribución F de Fisher-Snedecor 255

Tabla G.12: Distribución F de Fisher-Snedecor (p = 0.95)


n 1

n2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
1 161.4 199.5 215.7 224.6 230.2 234.0 236.8 238.9 240.5 241.9 243.0 243.9 244.7 245.4 245.9 246.5
2 18.51 19.00 19.16 19.25 19.30 19.33 19.35 19.37 19.38 19.40 19.40 19.41 19.42 19.42 19.43 19.43
3 10.13 9.552 9.277 9.117 9.013 8.941 8.887 8.845 8.812 8.785 8.763 8.745 8.729 8.715 8.703 8.692
4 7.709 6.944 6.591 6.388 6.256 6.163 6.094 6.041 5.999 5.964 5.936 5.912 5.891 5.873 5.858 5.844
5 6.608 5.786 5.409 5.192 5.050 4.950 4.876 4.818 4.772 4.735 4.704 4.678 4.655 4.636 4.619 4.604
6 5.987 5.143 4.757 4.534 4.387 4.284 4.207 4.147 4.099 4.060 4.027 4.000 3.976 3.956 3.938 3.922
7 5.591 4.737 4.347 4.120 3.972 3.866 3.787 3.726 3.677 3.637 3.603 3.575 3.550 3.529 3.511 3.494
8 5.318 4.459 4.066 3.838 3.688 3.581 3.500 3.438 3.388 3.347 3.313 3.284 3.259 3.237 3.218 3.202
9 5.117 4.256 3.863 3.633 3.482 3.374 3.293 3.230 3.179 3.137 3.102 3.073 3.048 3.025 3.006 2.989
10 4.965 4.103 3.708 3.478 3.326 3.217 3.135 3.072 3.020 2.978 2.943 2.913 2.887 2.865 2.845 2.828
11 4.844 3.982 3.587 3.357 3.204 3.095 3.012 2.948 2.896 2.854 2.818 2.788 2.761 2.739 2.719 2.701
12 4.747 3.885 3.490 3.259 3.106 2.996 2.913 2.849 2.796 2.753 2.717 2.687 2.660 2.637 2.617 2.599
13 4.667 3.806 3.411 3.179 3.025 2.915 2.832 2.767 2.714 2.671 2.635 2.604 2.577 2.554 2.533 2.515
14 4.600 3.739 3.344 3.112 2.958 2.848 2.764 2.699 2.646 2.602 2.565 2.534 2.507 2.484 2.463 2.445
15 4.543 3.682 3.287 3.056 2.901 2.790 2.707 2.641 2.588 2.544 2.507 2.475 2.448 2.424 2.403 2.385
16 4.494 3.634 3.239 3.007 2.852 2.741 2.657 2.591 2.538 2.494 2.456 2.425 2.397 2.373 2.352 2.333
17 4.451 3.592 3.197 2.965 2.810 2.699 2.614 2.548 2.494 2.450 2.413 2.381 2.353 2.329 2.308 2.289
18 4.414 3.555 3.160 2.928 2.773 2.661 2.577 2.510 2.456 2.412 2.374 2.342 2.314 2.290 2.269 2.250
19 4.381 3.522 3.127 2.895 2.740 2.628 2.544 2.477 2.423 2.378 2.340 2.308 2.280 2.256 2.234 2.215
20 4.351 3.493 3.098 2.866 2.711 2.599 2.514 2.447 2.393 2.348 2.310 2.278 2.250 2.225 2.203 2.184
21 4.325 3.467 3.072 2.840 2.685 2.573 2.488 2.420 2.366 2.321 2.283 2.250 2.222 2.197 2.176 2.156
22 4.301 3.443 3.049 2.817 2.661 2.549 2.464 2.397 2.342 2.297 2.259 2.226 2.198 2.173 2.151 2.131
23 4.279 3.422 3.028 2.796 2.640 2.528 2.442 2.375 2.320 2.275 2.236 2.204 2.175 2.150 2.128 2.109
24 4.260 3.403 3.009 2.776 2.621 2.508 2.423 2.355 2.300 2.255 2.216 2.183 2.155 2.130 2.108 2.088
25 4.242 3.385 2.991 2.759 2.603 2.490 2.405 2.337 2.282 2.236 2.198 2.165 2.136 2.111 2.089 2.069
26 4.225 3.369 2.975 2.743 2.587 2.474 2.388 2.321 2.265 2.220 2.181 2.148 2.119 2.094 2.072 2.052
27 4.210 3.354 2.960 2.728 2.572 2.459 2.373 2.305 2.250 2.204 2.166 2.132 2.103 2.078 2.056 2.036
28 4.196 3.340 2.947 2.714 2.558 2.445 2.359 2.291 2.236 2.190 2.151 2.118 2.089 2.064 2.041 2.021
29 4.183 3.328 2.934 2.701 2.545 2.432 2.346 2.278 2.223 2.177 2.138 2.104 2.075 2.050 2.027 2.007
30 4.171 3.316 2.922 2.690 2.534 2.421 2.334 2.266 2.211 2.165 2.126 2.092 2.063 2.037 2.015 1.995
35 4.121 3.267 2.874 2.641 2.485 2.372 2.285 2.217 2.161 2.114 2.075 2.041 2.012 1.986 1.963 1.942
40 4.085 3.232 2.839 2.606 2.449 2.336 2.249 2.180 2.124 2.077 2.038 2.003 1.974 1.948 1.924 1.904
50 4.034 3.183 2.790 2.557 2.400 2.286 2.199 2.130 2.073 2.026 1.986 1.952 1.921 1.895 1.871 1.850
60 4.001 3.150 2.758 2.525 2.368 2.254 2.167 2.097 2.040 1.993 1.952 1.917 1.887 1.860 1.836 1.815
70 3.978 3.128 2.736 2.503 2.346 2.231 2.143 2.074 2.017 1.969 1.928 1.893 1.863 1.836 1.812 1.790
80 3.960 3.111 2.719 2.486 2.329 2.214 2.126 2.056 1.999 1.951 1.910 1.875 1.845 1.817 1.793 1.772
90 3.947 3.098 2.706 2.473 2.316 2.201 2.113 2.043 1.986 1.938 1.897 1.861 1.830 1.803 1.779 1.757
100 3.936 3.087 2.696 2.463 2.305 2.191 2.103 2.032 1.975 1.927 1.886 1.850 1.819 1.792 1.768 1.746
120 3.920 3.072 2.680 2.447 2.290 2.175 2.087 2.016 1.959 1.910 1.869 1.834 1.803 1.775 1.750 1.728
∞ 3.843 2.998 2.607 2.374 2.216 2.100 2.011 1.940 1.882 1.833 1.791 1.754 1.722 1.694 1.668 1.646
256 G. Tablas

Tabla G.13: Distribución F de Fisher-Snedecor (p = 0.95)


n 1

n2 17 18 19 20 25 30 35 40 45 50 60 70 80 90 120 ∞
1 246.9 247.3 247.7 248.0 249.3 250.1 250.7 251.1 251.5 251.8 252.2 252.5 252.7 252.9 253.3 254.3
2 19.44 19.44 19.44 19.45 19.46 19.46 19.47 19.47 19.47 19.48 19.48 19.48 19.48 19.48 19.49 19.50
3 8.683 8.675 8.667 8.660 8.634 8.617 8.604 8.594 8.587 8.581 8.572 8.566 8.561 8.557 8.549 8.527
4 5.832 5.821 5.811 5.803 5.769 5.746 5.729 5.717 5.707 5.699 5.688 5.679 5.673 5.668 5.658 5.629
5 4.590 4.579 4.568 4.558 4.521 4.496 4.478 4.464 4.453 4.444 4.431 4.422 4.415 4.409 4.398 4.366
6 3.908 3.896 3.884 3.874 3.835 3.808 3.789 3.774 3.763 3.754 3.740 3.730 3.722 3.716 3.705 3.670
7 3.480 3.467 3.455 3.445 3.404 3.376 3.356 3.340 3.328 3.319 3.304 3.294 3.286 3.280 3.267 3.231
8 3.187 3.173 3.161 3.150 3.108 3.079 3.059 3.043 3.030 3.020 3.005 2.994 2.986 2.980 2.967 2.929
9 2.974 2.960 2.948 2.936 2.893 2.864 2.842 2.826 2.813 2.803 2.787 2.776 2.768 2.761 2.748 2.708
10 2.812 2.798 2.785 2.774 2.730 2.700 2.678 2.661 2.648 2.637 2.621 2.609 2.601 2.594 2.580 2.539
11 2.685 2.671 2.658 2.646 2.601 2.570 2.548 2.531 2.517 2.507 2.490 2.478 2.469 2.462 2.448 2.406
12 2.583 2.568 2.555 2.544 2.498 2.466 2.443 2.426 2.412 2.401 2.384 2.372 2.363 2.356 2.341 2.297
13 2.499 2.484 2.471 2.459 2.412 2.380 2.357 2.339 2.325 2.314 2.297 2.284 2.275 2.267 2.252 2.208
14 2.428 2.413 2.400 2.388 2.341 2.308 2.284 2.266 2.252 2.241 2.223 2.210 2.201 2.193 2.178 2.132
15 2.368 2.353 2.340 2.328 2.280 2.247 2.223 2.204 2.190 2.178 2.160 2.147 2.137 2.130 2.114 2.067
16 2.317 2.302 2.288 2.276 2.227 2.194 2.169 2.151 2.136 2.124 2.106 2.093 2.083 2.075 2.059 2.011
17 2.272 2.257 2.243 2.230 2.181 2.148 2.123 2.104 2.089 2.077 2.058 2.045 2.035 2.027 2.011 1.962
18 2.233 2.217 2.203 2.191 2.141 2.107 2.082 2.063 2.048 2.035 2.017 2.003 1.993 1.985 1.968 1.918
19 2.198 2.182 2.168 2.155 2.106 2.071 2.046 2.026 2.011 1.999 1.980 1.966 1.955 1.947 1.930 1.879
20 2.167 2.151 2.137 2.124 2.074 2.039 2.013 1.994 1.978 1.966 1.946 1.932 1.922 1.913 1.896 1.844
21 2.139 2.123 2.109 2.096 2.045 2.010 1.984 1.965 1.949 1.936 1.916 1.902 1.891 1.883 1.866 1.813
22 2.114 2.098 2.084 2.071 2.020 1.984 1.958 1.938 1.922 1.909 1.889 1.875 1.864 1.856 1.838 1.784
23 2.091 2.075 2.061 2.048 1.996 1.961 1.934 1.914 1.898 1.885 1.865 1.850 1.839 1.830 1.813 1.758
24 2.070 2.054 2.040 2.027 1.975 1.939 1.912 1.892 1.876 1.863 1.842 1.828 1.816 1.808 1.790 1.734
25 2.051 2.035 2.021 2.007 1.955 1.919 1.892 1.872 1.855 1.842 1.822 1.807 1.796 1.787 1.768 1.712
26 2.034 2.018 2.003 1.990 1.938 1.901 1.874 1.853 1.837 1.823 1.803 1.788 1.776 1.767 1.749 1.692
27 2.018 2.002 1.987 1.974 1.921 1.884 1.857 1.836 1.819 1.806 1.785 1.770 1.758 1.749 1.731 1.673
28 2.003 1.987 1.972 1.959 1.906 1.869 1.841 1.820 1.803 1.790 1.769 1.754 1.742 1.733 1.714 1.656
29 1.989 1.973 1.958 1.945 1.891 1.854 1.827 1.806 1.789 1.775 1.754 1.738 1.726 1.717 1.698 1.639
30 1.976 1.960 1.945 1.932 1.878 1.841 1.813 1.792 1.775 1.761 1.740 1.724 1.712 1.703 1.683 1.624
35 1.924 1.907 1.892 1.878 1.824 1.786 1.757 1.735 1.718 1.703 1.681 1.665 1.652 1.643 1.623 1.560
40 1.885 1.868 1.853 1.839 1.783 1.744 1.715 1.693 1.675 1.660 1.637 1.621 1.608 1.597 1.577 1.511
50 1.831 1.814 1.798 1.784 1.727 1.687 1.657 1.634 1.615 1.599 1.576 1.558 1.544 1.534 1.511 1.440
60 1.796 1.778 1.763 1.748 1.690 1.649 1.618 1.594 1.575 1.559 1.534 1.516 1.502 1.491 1.467 1.391
70 1.771 1.753 1.737 1.722 1.664 1.622 1.591 1.566 1.546 1.530 1.505 1.486 1.471 1.459 1.435 1.355
80 1.752 1.734 1.718 1.703 1.644 1.602 1.570 1.545 1.525 1.508 1.482 1.463 1.448 1.436 1.411 1.327
90 1.737 1.720 1.703 1.688 1.629 1.586 1.554 1.528 1.508 1.491 1.465 1.445 1.429 1.417 1.391 1.304
100 1.726 1.708 1.691 1.676 1.616 1.573 1.541 1.515 1.494 1.477 1.450 1.430 1.415 1.402 1.376 1.286
120 1.709 1.690 1.674 1.659 1.598 1.554 1.521 1.495 1.474 1.457 1.429 1.408 1.392 1.379 1.352 1.257
∞ 1.625 1.606 1.589 1.573 1.508 1.461 1.425 1.396 1.373 1.353 1.321 1.296 1.277 1.260 1.225 1.048
G.5. Tabla de la distribución F de Fisher-Snedecor 257

Tabla G.14: Distribución F de Fisher-Snedecor (p = 0.975)


n 1

n2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
1 647.8 799.5 864.2 899.6 921.8 937.1 948.2 956.6 963.3 968.6 973.0 976.7 979.8 982.5 984.9 986.9
2 38.51 39.00 39.17 39.25 39.30 39.33 39.36 39.37 39.39 39.40 39.41 39.41 39.42 39.43 39.43 39.44
3 17.44 16.04 15.44 15.10 14.88 14.73 14.62 14.54 14.47 14.42 14.37 14.34 14.30 14.28 14.25 14.23
4 12.22 10.65 9.979 9.604 9.364 9.197 9.074 8.980 8.905 8.844 8.794 8.751 8.715 8.684 8.657 8.633
5 10.01 8.434 7.764 7.388 7.146 6.978 6.853 6.757 6.681 6.619 6.568 6.525 6.488 6.456 6.428 6.403
6 8.813 7.260 6.599 6.227 5.988 5.820 5.695 5.600 5.523 5.461 5.410 5.366 5.329 5.297 5.269 5.244
7 8.073 6.542 5.890 5.523 5.285 5.119 4.995 4.899 4.823 4.761 4.709 4.666 4.628 4.596 4.568 4.543
8 7.571 6.059 5.416 5.053 4.817 4.652 4.529 4.433 4.357 4.295 4.243 4.200 4.162 4.130 4.101 4.076
9 7.209 5.715 5.078 4.718 4.484 4.320 4.197 4.102 4.026 3.964 3.912 3.868 3.831 3.798 3.769 3.744
10 6.937 5.456 4.826 4.468 4.236 4.072 3.950 3.855 3.779 3.717 3.665 3.621 3.583 3.550 3.522 3.496
11 6.724 5.256 4.630 4.275 4.044 3.881 3.759 3.664 3.588 3.526 3.474 3.430 3.392 3.359 3.330 3.304
12 6.554 5.096 4.474 4.121 3.891 3.728 3.607 3.512 3.436 3.374 3.321 3.277 3.239 3.206 3.177 3.152
13 6.414 4.965 4.347 3.996 3.767 3.604 3.483 3.388 3.312 3.250 3.197 3.153 3.115 3.082 3.053 3.027
14 6.298 4.857 4.242 3.892 3.663 3.501 3.380 3.285 3.209 3.147 3.095 3.050 3.012 2.979 2.949 2.923
15 6.200 4.765 4.153 3.804 3.576 3.415 3.293 3.199 3.123 3.060 3.008 2.963 2.925 2.891 2.862 2.836
16 6.115 4.687 4.077 3.729 3.502 3.341 3.219 3.125 3.049 2.986 2.934 2.889 2.851 2.817 2.788 2.761
17 6.042 4.619 4.011 3.665 3.438 3.277 3.156 3.061 2.985 2.922 2.870 2.825 2.786 2.753 2.723 2.697
18 5.978 4.560 3.954 3.608 3.382 3.221 3.100 3.005 2.929 2.866 2.814 2.769 2.730 2.696 2.667 2.640
19 5.922 4.508 3.903 3.559 3.333 3.172 3.051 2.956 2.880 2.817 2.765 2.720 2.681 2.647 2.617 2.591
20 5.871 4.461 3.859 3.515 3.289 3.128 3.007 2.913 2.837 2.774 2.721 2.676 2.637 2.603 2.573 2.547
21 5.827 4.420 3.819 3.475 3.250 3.090 2.969 2.874 2.798 2.735 2.682 2.637 2.598 2.564 2.534 2.507
22 5.786 4.383 3.783 3.440 3.215 3.055 2.934 2.839 2.763 2.700 2.647 2.602 2.563 2.528 2.498 2.472
23 5.750 4.349 3.750 3.408 3.183 3.023 2.902 2.808 2.731 2.668 2.615 2.570 2.531 2.497 2.466 2.440
24 5.717 4.319 3.721 3.379 3.155 2.995 2.874 2.779 2.703 2.640 2.586 2.541 2.502 2.468 2.437 2.411
25 5.686 4.291 3.694 3.353 3.129 2.969 2.848 2.753 2.677 2.613 2.560 2.515 2.476 2.441 2.411 2.384
26 5.659 4.265 3.670 3.329 3.105 2.945 2.824 2.729 2.653 2.590 2.536 2.491 2.452 2.417 2.387 2.360
27 5.633 4.242 3.647 3.307 3.083 2.923 2.802 2.707 2.631 2.568 2.514 2.469 2.429 2.395 2.364 2.337
28 5.610 4.221 3.626 3.286 3.063 2.903 2.782 2.687 2.611 2.547 2.494 2.448 2.409 2.374 2.344 2.317
29 5.588 4.201 3.607 3.267 3.044 2.884 2.763 2.669 2.592 2.529 2.475 2.430 2.390 2.355 2.325 2.298
30 5.568 4.182 3.589 3.250 3.026 2.867 2.746 2.651 2.575 2.511 2.458 2.412 2.372 2.338 2.307 2.280
35 5.485 4.106 3.517 3.179 2.956 2.796 2.676 2.581 2.504 2.440 2.387 2.341 2.301 2.266 2.235 2.207
40 5.424 4.051 3.463 3.126 2.904 2.744 2.624 2.529 2.452 2.388 2.334 2.288 2.248 2.213 2.182 2.154
50 5.340 3.975 3.390 3.054 2.833 2.674 2.553 2.458 2.381 2.317 2.263 2.216 2.176 2.140 2.109 2.081
60 5.286 3.925 3.343 3.008 2.786 2.627 2.507 2.412 2.334 2.270 2.216 2.169 2.129 2.093 2.061 2.033
70 5.247 3.890 3.309 2.975 2.754 2.595 2.474 2.379 2.302 2.237 2.183 2.136 2.095 2.059 2.028 1.999
80 5.218 3.864 3.284 2.950 2.730 2.571 2.450 2.355 2.277 2.213 2.158 2.111 2.071 2.035 2.003 1.974
90 5.196 3.844 3.265 2.932 2.711 2.552 2.432 2.336 2.259 2.194 2.140 2.092 2.051 2.015 1.983 1.955
100 5.179 3.828 3.250 2.917 2.696 2.537 2.417 2.321 2.244 2.179 2.124 2.077 2.036 2.000 1.968 1.939
120 5.152 3.805 3.227 2.894 2.674 2.515 2.395 2.299 2.222 2.157 2.102 2.055 2.014 1.977 1.945 1.916
∞ 5.027 3.692 3.119 2.788 2.569 2.411 2.290 2.194 2.116 2.051 1.995 1.947 1.905 1.868 1.835 1.806
258 G. Tablas

Tabla G.15: Distribución F de Fisher-Snedecor (p = 0.975)


n 1

n2 17 18 19 20 25 30 35 40 45 50 60 70 80 90 120 ∞
1 988.7 990.3 991.8 993.1 998.1 1001 1004 1006 1007 1008 1010 1011 1012 1013 1014 1018
2 39.44 39.44 39.45 39.45 39.46 39.46 39.47 39.47 39.48 39.48 39.48 39.48 39.49 39.49 39.49 39.50
3 14.21 14.20 14.18 14.17 14.12 14.08 14.06 14.04 14.02 14.01 13.99 13.98 13.97 13.96 13.95 13.90
4 8.611 8.592 8.575 8.560 8.501 8.461 8.433 8.411 8.394 8.381 8.360 8.346 8.335 8.326 8.309 8.259
5 6.381 6.362 6.344 6.329 6.268 6.227 6.197 6.175 6.158 6.144 6.123 6.107 6.096 6.087 6.069 6.017
6 5.222 5.202 5.184 5.168 5.107 5.065 5.035 5.012 4.995 4.980 4.959 4.943 4.932 4.923 4.904 4.850
7 4.521 4.501 4.483 4.467 4.405 4.362 4.332 4.309 4.291 4.276 4.254 4.239 4.227 4.218 4.199 4.144
8 4.054 4.034 4.016 3.999 3.937 3.894 3.863 3.840 3.821 3.807 3.784 3.768 3.756 3.747 3.728 3.672
9 3.722 3.701 3.683 3.667 3.604 3.560 3.529 3.505 3.487 3.472 3.449 3.433 3.421 3.411 3.392 3.334
10 3.474 3.453 3.435 3.419 3.355 3.311 3.279 3.255 3.237 3.221 3.198 3.182 3.169 3.160 3.140 3.081
11 3.282 3.261 3.243 3.226 3.162 3.118 3.086 3.061 3.042 3.027 3.004 2.987 2.974 2.964 2.944 2.884
12 3.129 3.108 3.090 3.073 3.008 2.963 2.931 2.906 2.887 2.871 2.848 2.831 2.818 2.808 2.787 2.726
13 3.004 2.983 2.965 2.948 2.882 2.837 2.805 2.780 2.760 2.744 2.720 2.703 2.690 2.680 2.659 2.597
14 2.900 2.879 2.861 2.844 2.778 2.732 2.699 2.674 2.654 2.638 2.614 2.597 2.583 2.573 2.552 2.489
15 2.813 2.792 2.773 2.756 2.689 2.644 2.610 2.585 2.565 2.549 2.524 2.506 2.493 2.482 2.461 2.397
16 2.738 2.717 2.698 2.681 2.614 2.568 2.534 2.509 2.488 2.472 2.447 2.429 2.415 2.405 2.383 2.318
17 2.673 2.652 2.633 2.616 2.548 2.502 2.468 2.442 2.422 2.405 2.380 2.362 2.348 2.337 2.315 2.249
18 2.617 2.596 2.576 2.559 2.491 2.445 2.410 2.384 2.364 2.347 2.321 2.303 2.289 2.278 2.256 2.189
19 2.567 2.546 2.526 2.509 2.441 2.394 2.359 2.333 2.312 2.295 2.270 2.251 2.237 2.226 2.203 2.135
20 2.523 2.501 2.482 2.464 2.396 2.349 2.314 2.287 2.266 2.249 2.223 2.205 2.190 2.179 2.156 2.087
21 2.483 2.462 2.442 2.425 2.356 2.308 2.273 2.246 2.225 2.208 2.182 2.163 2.148 2.137 2.114 2.044
22 2.448 2.426 2.407 2.389 2.320 2.272 2.237 2.210 2.188 2.171 2.145 2.125 2.111 2.099 2.076 2.005
23 2.416 2.394 2.374 2.357 2.287 2.239 2.204 2.176 2.155 2.137 2.111 2.091 2.077 2.065 2.041 1.970
24 2.386 2.365 2.345 2.327 2.257 2.209 2.173 2.146 2.124 2.107 2.080 2.060 2.045 2.034 2.010 1.937
25 2.360 2.338 2.318 2.300 2.230 2.182 2.146 2.118 2.096 2.079 2.052 2.032 2.017 2.005 1.981 1.907
26 2.335 2.314 2.294 2.276 2.205 2.157 2.120 2.093 2.071 2.053 2.026 2.006 1.991 1.979 1.954 1.880
27 2.313 2.291 2.271 2.253 2.183 2.133 2.097 2.069 2.047 2.029 2.002 1.982 1.966 1.954 1.930 1.855
28 2.292 2.270 2.251 2.232 2.161 2.112 2.076 2.048 2.025 2.007 1.980 1.959 1.944 1.932 1.907 1.831
29 2.273 2.251 2.231 2.213 2.142 2.092 2.056 2.028 2.005 1.987 1.959 1.939 1.923 1.911 1.886 1.809
30 2.255 2.233 2.213 2.195 2.124 2.074 2.037 2.009 1.986 1.968 1.940 1.920 1.904 1.892 1.866 1.789
35 2.183 2.160 2.140 2.122 2.049 1.999 1.961 1.932 1.909 1.890 1.861 1.840 1.824 1.811 1.785 1.704
40 2.129 2.107 2.086 2.068 1.994 1.943 1.905 1.875 1.852 1.832 1.803 1.781 1.764 1.751 1.724 1.639
50 2.056 2.033 2.012 1.993 1.919 1.866 1.827 1.796 1.772 1.752 1.721 1.698 1.681 1.667 1.639 1.548
60 2.008 1.985 1.964 1.944 1.869 1.815 1.775 1.744 1.719 1.699 1.667 1.643 1.625 1.611 1.581 1.485
70 1.974 1.950 1.929 1.910 1.833 1.779 1.739 1.707 1.681 1.660 1.628 1.604 1.585 1.570 1.539 1.438
80 1.948 1.925 1.904 1.884 1.807 1.752 1.711 1.679 1.653 1.632 1.599 1.574 1.555 1.540 1.508 1.403
90 1.929 1.905 1.884 1.864 1.787 1.731 1.690 1.657 1.631 1.610 1.576 1.551 1.531 1.516 1.483 1.374
100 1.913 1.890 1.868 1.849 1.770 1.715 1.673 1.640 1.614 1.592 1.558 1.532 1.512 1.496 1.463 1.351
120 1.890 1.866 1.845 1.825 1.746 1.690 1.647 1.614 1.587 1.565 1.530 1.504 1.483 1.467 1.433 1.314
∞ 1.779 1.754 1.732 1.711 1.629 1.569 1.523 1.487 1.457 1.432 1.392 1.361 1.337 1.317 1.273 1.057
G.5. Tabla de la distribución F de Fisher-Snedecor 259

Tabla G.16: Distribución F de Fisher-Snedecor (p = 0.99)


n 1

n2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
1 4052 4999 5404 5624 5764 5859 5928 5981 6022 6056 6083 6107 6126 6143 6157 6170
2 98.50 99.00 99.16 99.25 99.30 99.33 99.36 99.38 99.39 99.40 99.41 99.42 99.42 99.43 99.43 99.44
3 34.12 30.82 29.46 28.71 28.24 27.91 27.67 27.49 27.34 27.23 27.13 27.05 26.98 26.92 26.87 26.83
4 21.20 18.00 16.69 15.98 15.52 15.21 14.98 14.80 14.66 14.55 14.45 14.37 14.31 14.25 14.20 14.15
5 16.26 13.27 12.06 11.39 10.97 10.67 10.46 10.29 10.16 10.05 9.963 9.888 9.825 9.770 9.722 9.680
6 13.75 10.92 9.780 9.148 8.746 8.466 8.260 8.102 7.976 7.874 7.790 7.718 7.657 7.605 7.559 7.519
7 12.25 9.547 8.451 7.847 7.460 7.191 6.993 6.840 6.719 6.620 6.538 6.469 6.410 6.359 6.314 6.275
8 11.26 8.649 7.591 7.006 6.632 6.371 6.178 6.029 5.911 5.814 5.734 5.667 5.609 5.559 5.515 5.477
9 10.56 8.022 6.992 6.422 6.057 5.802 5.613 5.467 5.351 5.257 5.178 5.111 5.055 5.005 4.962 4.924
10 10.04 7.559 6.552 5.994 5.636 5.386 5.200 5.057 4.942 4.849 4.772 4.706 4.650 4.601 4.558 4.520
11 9.646 7.206 6.217 5.668 5.316 5.069 4.886 4.744 4.632 4.539 4.462 4.397 4.342 4.293 4.251 4.213
12 9.330 6.927 5.953 5.412 5.064 4.821 4.640 4.499 4.388 4.296 4.220 4.155 4.100 4.052 4.010 3.972
13 9.074 6.701 5.739 5.205 4.862 4.620 4.441 4.302 4.191 4.100 4.025 3.960 3.905 3.857 3.815 3.778
14 8.862 6.515 5.564 5.035 4.695 4.456 4.278 4.140 4.030 3.939 3.864 3.800 3.745 3.698 3.656 3.619
15 8.683 6.359 5.417 4.893 4.556 4.318 4.142 4.004 3.895 3.805 3.730 3.666 3.612 3.564 3.522 3.485
16 8.531 6.226 5.292 4.773 4.437 4.202 4.026 3.890 3.780 3.691 3.616 3.553 3.498 3.451 3.409 3.372
17 8.400 6.112 5.185 4.669 4.336 4.101 3.927 3.791 3.682 3.593 3.518 3.455 3.401 3.353 3.312 3.275
18 8.285 6.013 5.092 4.579 4.248 4.015 3.841 3.705 3.597 3.508 3.434 3.371 3.316 3.269 3.227 3.190
19 8.185 5.926 5.010 4.500 4.171 3.939 3.765 3.631 3.523 3.434 3.360 3.297 3.242 3.195 3.153 3.116
20 8.096 5.849 4.938 4.431 4.103 3.871 3.699 3.564 3.457 3.368 3.294 3.231 3.177 3.130 3.088 3.051
21 8.017 5.780 4.874 4.369 4.042 3.812 3.640 3.506 3.398 3.310 3.236 3.173 3.119 3.072 3.030 2.993
22 7.945 5.719 4.817 4.313 3.988 3.758 3.587 3.453 3.346 3.258 3.184 3.121 3.067 3.019 2.978 2.941
23 7.881 5.664 4.765 4.264 3.939 3.710 3.539 3.406 3.299 3.211 3.137 3.074 3.020 2.973 2.931 2.894
24 7.823 5.614 4.718 4.218 3.895 3.667 3.496 3.363 3.256 3.168 3.094 3.032 2.977 2.930 2.889 2.852
25 7.770 5.568 4.675 4.177 3.855 3.627 3.457 3.324 3.217 3.129 3.056 2.993 2.939 2.892 2.850 2.813
26 7.721 5.526 4.637 4.140 3.818 3.591 3.421 3.288 3.182 3.094 3.021 2.958 2.904 2.857 2.815 2.778
27 7.677 5.488 4.601 4.106 3.785 3.558 3.388 3.256 3.149 3.062 2.988 2.926 2.872 2.824 2.783 2.746
28 7.636 5.453 4.568 4.074 3.754 3.528 3.358 3.226 3.120 3.032 2.959 2.896 2.842 2.795 2.753 2.716
29 7.598 5.420 4.538 4.045 3.725 3.499 3.330 3.198 3.092 3.005 2.931 2.868 2.814 2.767 2.726 2.689
30 7.562 5.390 4.510 4.018 3.699 3.473 3.305 3.173 3.067 2.979 2.906 2.843 2.789 2.742 2.700 2.663
35 7.419 5.268 4.396 3.908 3.592 3.368 3.200 3.069 2.963 2.876 2.803 2.740 2.686 2.639 2.597 2.560
40 7.314 5.178 4.313 3.828 3.514 3.291 3.124 2.993 2.888 2.801 2.727 2.665 2.611 2.563 2.522 2.484
50 7.171 5.057 4.199 3.720 3.408 3.186 3.020 2.890 2.785 2.698 2.625 2.563 2.508 2.461 2.419 2.382
60 7.077 4.977 4.126 3.649 3.339 3.119 2.953 2.823 2.718 2.632 2.559 2.496 2.442 2.394 2.352 2.315
70 7.011 4.922 4.074 3.600 3.291 3.071 2.906 2.777 2.672 2.585 2.512 2.450 2.395 2.348 2.306 2.268
80 6.963 4.881 4.036 3.563 3.255 3.036 2.871 2.742 2.637 2.551 2.478 2.415 2.361 2.313 2.271 2.233
90 6.925 4.849 4.007 3.535 3.228 3.009 2.845 2.715 2.611 2.524 2.451 2.389 2.334 2.286 2.244 2.206
100 6.895 4.824 3.984 3.513 3.206 2.988 2.823 2.694 2.590 2.503 2.430 2.368 2.313 2.265 2.223 2.185
120 6.851 4.787 3.949 3.480 3.174 2.956 2.792 2.663 2.559 2.472 2.399 2.336 2.282 2.234 2.191 2.154
∞ 6.640 4.609 3.786 3.323 3.021 2.806 2.643 2.515 2.411 2.324 2.251 2.188 2.133 2.085 2.042 2.004
260 G. Tablas

Tabla G.17: Distribución F de Fisher-Snedecor (p = 0.99)


n 1

n2 17 18 19 20 25 30 35 40 45 50 60 70 80 90 120 ∞
1 6181 6191 6201 6209 6240 6260 6275 6286 6296 6302 6313 6321 6326 6331 6340 6366
2 99.44 99.44 99.45 99.45 99.46 99.47 99.47 99.48 99.48 99.48 99.48 99.48 99.48 99.49 99.49 99.50
3 26.79 26.75 26.72 26.69 26.58 26.50 26.45 26.41 26.38 26.35 26.32 26.29 26.27 26.25 26.22 26.13
4 14.11 14.08 14.05 14.02 13.91 13.84 13.79 13.75 13.71 13.69 13.65 13.63 13.61 13.59 13.56 13.47
5 9.643 9.609 9.580 9.553 9.449 9.379 9.329 9.291 9.262 9.238 9.202 9.176 9.157 9.142 9.112 9.023
6 7.483 7.451 7.422 7.396 7.296 7.229 7.180 7.143 7.115 7.091 7.057 7.032 7.013 6.998 6.969 6.882
7 6.240 6.209 6.181 6.155 6.058 5.992 5.944 5.908 5.880 5.858 5.824 5.799 5.781 5.766 5.737 5.652
8 5.442 5.412 5.384 5.359 5.263 5.198 5.151 5.116 5.088 5.065 5.032 5.007 4.989 4.975 4.946 4.861
9 4.890 4.860 4.833 4.808 4.713 4.649 4.602 4.567 4.539 4.517 4.483 4.459 4.441 4.426 4.398 4.313
10 4.487 4.457 4.430 4.405 4.311 4.247 4.201 4.165 4.138 4.115 4.082 4.058 4.039 4.025 3.996 3.911
11 4.180 4.150 4.123 4.099 4.005 3.941 3.895 3.860 3.832 3.810 3.776 3.752 3.734 3.719 3.690 3.605
12 3.939 3.910 3.883 3.858 3.765 3.701 3.654 3.619 3.592 3.569 3.535 3.511 3.493 3.478 3.449 3.363
13 3.745 3.716 3.689 3.665 3.571 3.507 3.461 3.425 3.398 3.375 3.341 3.317 3.298 3.284 3.255 3.168
14 3.586 3.556 3.529 3.505 3.412 3.348 3.301 3.266 3.238 3.215 3.181 3.157 3.138 3.124 3.094 3.006
15 3.452 3.423 3.396 3.372 3.278 3.214 3.167 3.132 3.104 3.081 3.047 3.022 3.004 2.989 2.959 2.871
16 3.339 3.310 3.283 3.259 3.165 3.101 3.054 3.018 2.990 2.967 2.933 2.908 2.889 2.875 2.845 2.755
17 3.242 3.212 3.186 3.162 3.068 3.003 2.956 2.920 2.892 2.869 2.835 2.810 2.791 2.776 2.746 2.655
18 3.158 3.128 3.101 3.077 2.983 2.919 2.871 2.835 2.807 2.784 2.749 2.724 2.705 2.690 2.660 2.568
19 3.084 3.054 3.027 3.003 2.909 2.844 2.797 2.761 2.732 2.709 2.674 2.649 2.630 2.614 2.584 2.492
20 3.018 2.989 2.962 2.938 2.843 2.778 2.731 2.695 2.666 2.643 2.608 2.582 2.563 2.548 2.517 2.424
21 2.960 2.931 2.904 2.880 2.785 2.720 2.672 2.636 2.607 2.584 2.548 2.523 2.503 2.488 2.457 2.363
22 2.908 2.879 2.852 2.827 2.733 2.667 2.620 2.583 2.554 2.531 2.495 2.469 2.450 2.434 2.403 2.308
23 2.861 2.832 2.805 2.780 2.686 2.620 2.572 2.536 2.506 2.483 2.447 2.421 2.401 2.386 2.354 2.258
24 2.819 2.789 2.762 2.738 2.643 2.577 2.529 2.492 2.463 2.440 2.403 2.377 2.357 2.342 2.310 2.213
25 2.780 2.751 2.724 2.699 2.604 2.538 2.490 2.453 2.424 2.400 2.364 2.337 2.317 2.302 2.270 2.172
26 2.745 2.715 2.688 2.664 2.569 2.503 2.454 2.417 2.388 2.364 2.327 2.301 2.281 2.265 2.233 2.134
27 2.713 2.683 2.656 2.632 2.536 2.470 2.421 2.384 2.354 2.330 2.294 2.267 2.247 2.231 2.198 2.099
28 2.683 2.653 2.626 2.602 2.506 2.440 2.391 2.354 2.324 2.300 2.263 2.236 2.216 2.200 2.167 2.067
29 2.656 2.626 2.599 2.574 2.478 2.412 2.363 2.325 2.296 2.271 2.234 2.207 2.187 2.171 2.138 2.037
30 2.630 2.600 2.573 2.549 2.453 2.386 2.337 2.299 2.269 2.245 2.208 2.181 2.160 2.144 2.111 2.009
35 2.527 2.497 2.470 2.445 2.348 2.281 2.231 2.193 2.162 2.137 2.099 2.072 2.050 2.034 2.000 1.894
40 2.451 2.421 2.394 2.369 2.271 2.203 2.153 2.114 2.083 2.058 2.019 1.991 1.969 1.952 1.917 1.808
50 2.348 2.318 2.290 2.265 2.167 2.098 2.046 2.007 1.975 1.949 1.909 1.880 1.857 1.839 1.803 1.686
60 2.281 2.251 2.223 2.198 2.098 2.028 1.976 1.936 1.904 1.877 1.836 1.806 1.783 1.764 1.726 1.604
70 2.234 2.204 2.176 2.150 2.050 1.980 1.927 1.886 1.853 1.826 1.785 1.754 1.730 1.711 1.672 1.544
80 2.199 2.169 2.141 2.115 2.015 1.944 1.890 1.849 1.816 1.788 1.746 1.714 1.690 1.671 1.630 1.498
90 2.172 2.142 2.114 2.088 1.987 1.916 1.862 1.820 1.787 1.759 1.716 1.684 1.659 1.639 1.598 1.461
100 2.151 2.120 2.092 2.067 1.965 1.893 1.839 1.797 1.763 1.735 1.692 1.659 1.634 1.614 1.572 1.431
120 2.119 2.089 2.060 2.035 1.932 1.860 1.806 1.763 1.728 1.700 1.656 1.623 1.597 1.576 1.533 1.385
∞ 1.969 1.937 1.908 1.882 1.776 1.700 1.642 1.596 1.559 1.527 1.477 1.439 1.409 1.384 1.330 1.068
G.5. Tabla de la distribución F de Fisher-Snedecor 261

Tabla G.18: Distribución F de Fisher-Snedecor (p = 0.995)


n 1

n 2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
1 16212 19997 21614 22501 23056 23440 23715 23924 24091 24222 24334 24427 24505 24572 24632 24684
2 198.5 199.0 199.2 199.2 199.3 199.3 199.4 199.4 199.4 199.4 199.4 199.4 199.4 199.4 199.4 199.4
3 55.55 49.80 47.47 46.20 45.39 44.84 44.43 44.13 43.88 43.68 43.52 43.39 43.27 43.17 43.08 43.01
4 31.33 26.28 24.26 23.15 22.46 21.98 21.62 21.35 21.14 20.97 20.82 20.70 20.60 20.51 20.44 20.37
5 22.78 18.31 16.53 15.56 14.94 14.51 14.20 13.96 13.77 13.62 13.49 13.38 13.29 13.21 13.15 13.09
6 18.63 14.54 12.92 12.03 11.46 11.07 10.79 10.57 10.39 10.25 10.13 10.03 9.950 9.878 9.814 9.758
7 16.24 12.40 10.88 10.05 9.522 9.155 8.885 8.678 8.514 8.380 8.270 8.176 8.097 8.028 7.968 7.915
8 14.69 11.04 9.597 8.805 8.302 7.952 7.694 7.496 7.339 7.211 7.105 7.015 6.938 6.872 6.814 6.763
9 13.61 10.11 8.717 7.956 7.471 7.134 6.885 6.693 6.541 6.417 6.314 6.227 6.153 6.089 6.032 5.983
10 12.83 9.427 8.081 7.343 6.872 6.545 6.303 6.116 5.968 5.847 5.746 5.661 5.589 5.526 5.471 5.422
11 12.23 8.912 7.600 6.881 6.422 6.102 5.865 5.682 5.537 5.418 5.320 5.236 5.165 5.103 5.049 5.001
12 11.75 8.510 7.226 6.521 6.071 5.757 5.524 5.345 5.202 5.085 4.988 4.906 4.836 4.775 4.721 4.674
13 11.37 8.186 6.926 6.233 5.791 5.482 5.253 5.076 4.935 4.820 4.724 4.643 4.573 4.513 4.460 4.413
14 11.06 7.922 6.680 5.998 5.562 5.257 5.031 4.857 4.717 4.603 4.508 4.428 4.359 4.299 4.247 4.201
15 10.80 7.701 6.476 5.803 5.372 5.071 4.847 4.674 4.536 4.424 4.329 4.250 4.181 4.122 4.070 4.024
16 10.58 7.514 6.303 5.638 5.212 4.913 4.692 4.521 4.384 4.272 4.179 4.099 4.031 3.972 3.920 3.875
17 10.38 7.354 6.156 5.497 5.075 4.779 4.559 4.389 4.254 4.142 4.050 3.971 3.903 3.844 3.793 3.747
18 10.22 7.215 6.028 5.375 4.956 4.663 4.445 4.276 4.141 4.030 3.938 3.860 3.793 3.734 3.683 3.637
19 10.07 7.093 5.916 5.268 4.853 4.561 4.345 4.177 4.043 3.933 3.841 3.763 3.696 3.638 3.587 3.541
20 9.944 6.987 5.818 5.174 4.762 4.472 4.257 4.090 3.956 3.847 3.756 3.678 3.611 3.553 3.502 3.457
21 9.829 6.891 5.730 5.091 4.681 4.393 4.179 4.013 3.880 3.771 3.680 3.602 3.536 3.478 3.427 3.382
22 9.727 6.806 5.652 5.017 4.609 4.322 4.109 3.944 3.812 3.703 3.612 3.535 3.469 3.411 3.360 3.315
23 9.635 6.730 5.582 4.950 4.544 4.259 4.047 3.882 3.750 3.642 3.551 3.474 3.408 3.351 3.300 3.255
24 9.551 6.661 5.519 4.890 4.486 4.202 3.991 3.826 3.695 3.587 3.497 3.420 3.354 3.296 3.246 3.201
25 9.475 6.598 5.462 4.835 4.433 4.150 3.939 3.776 3.645 3.537 3.447 3.370 3.304 3.247 3.196 3.152
26 9.406 6.541 5.409 4.785 4.384 4.103 3.893 3.730 3.599 3.492 3.402 3.325 3.259 3.202 3.151 3.107
27 9.342 6.489 5.361 4.740 4.340 4.059 3.850 3.687 3.557 3.450 3.360 3.284 3.218 3.161 3.110 3.066
28 9.284 6.440 5.317 4.698 4.300 4.020 3.811 3.649 3.519 3.412 3.322 3.246 3.180 3.123 3.073 3.028
29 9.230 6.396 5.276 4.659 4.262 3.983 3.775 3.613 3.483 3.376 3.287 3.211 3.145 3.088 3.038 2.993
30 9.180 6.355 5.239 4.623 4.228 3.949 3.742 3.580 3.451 3.344 3.255 3.179 3.113 3.056 3.006 2.961
35 8.976 6.188 5.086 4.479 4.088 3.812 3.607 3.447 3.318 3.212 3.124 3.048 2.983 2.926 2.876 2.831
40 8.828 6.066 4.976 4.374 3.986 3.713 3.509 3.350 3.222 3.117 3.028 2.953 2.888 2.831 2.781 2.737
50 8.626 5.902 4.826 4.232 3.849 3.579 3.376 3.219 3.092 2.988 2.900 2.825 2.760 2.703 2.653 2.609
60 8.495 5.795 4.729 4.140 3.760 3.492 3.291 3.134 3.008 2.904 2.817 2.742 2.677 2.620 2.570 2.526
70 8.403 5.720 4.661 4.076 3.698 3.431 3.232 3.076 2.950 2.846 2.759 2.684 2.619 2.563 2.513 2.468
80 8.335 5.665 4.611 4.028 3.652 3.387 3.188 3.032 2.907 2.803 2.716 2.641 2.577 2.520 2.470 2.425
90 8.282 5.623 4.573 3.992 3.617 3.352 3.154 2.999 2.873 2.770 2.683 2.608 2.544 2.487 2.437 2.393
100 8.241 5.589 4.542 3.963 3.589 3.325 3.127 2.972 2.847 2.744 2.657 2.583 2.518 2.461 2.411 2.367
120 8.179 5.539 4.497 3.921 3.548 3.285 3.087 2.933 2.808 2.705 2.618 2.544 2.479 2.423 2.373 2.328
∞ 7.886 5.304 4.284 3.720 3.355 3.096 2.901 2.749 2.625 2.523 2.437 2.363 2.298 2.241 2.191 2.146
262 G. Tablas

Tabla G.19: Distribución F de Fisher-Snedecor (p = 0.995)


n 1

n 2 17 18 19 20 25 30 35 40 45 50 60 70 80 90 120 ∞
1 24728 24766 24803 24837 24959 25041 25101 25146 25183 25213 25254 25284 25306 25325 25358 25462
2 199.4 199.4 199.4 199.4 199.4 199.5 199.5 199.5 199.5 199.5 199.5 199.5 199.5 199.5 199.5 199.5
3 42.94 42.88 42.83 42.78 42.59 42.47 42.38 42.31 42.26 42.21 42.15 42.10 42.07 42.04 41.99 41.83
4 20.31 20.26 20.21 20.17 20.00 19.89 19.81 19.75 19.71 19.67 19.61 19.57 19.54 19.52 19.47 19.33
5 13.03 12.98 12.94 12.90 12.76 12.66 12.58 12.53 12.49 12.45 12.40 12.37 12.34 12.32 12.27 12.15
6 9.709 9.664 9.625 9.589 9.451 9.358 9.291 9.241 9.201 9.170 9.122 9.088 9.062 9.042 9.001 8.882
7 7.868 7.826 7.788 7.754 7.623 7.534 7.471 7.422 7.385 7.354 7.309 7.276 7.251 7.232 7.193 7.079
8 6.718 6.678 6.641 6.608 6.482 6.396 6.334 6.288 6.251 6.222 6.177 6.145 6.121 6.102 6.065 5.953
9 5.939 5.899 5.864 5.832 5.708 5.625 5.564 5.519 5.483 5.454 5.410 5.379 5.356 5.337 5.300 5.190
10 5.379 5.340 5.306 5.274 5.153 5.071 5.011 4.966 4.931 4.902 4.859 4.828 4.805 4.787 4.750 4.641
11 4.959 4.921 4.886 4.855 4.736 4.654 4.595 4.551 4.516 4.488 4.445 4.414 4.391 4.373 4.337 4.228
12 4.632 4.595 4.561 4.530 4.412 4.331 4.272 4.228 4.193 4.165 4.123 4.092 4.069 4.051 4.015 3.907
13 4.372 4.334 4.301 4.270 4.153 4.073 4.015 3.970 3.936 3.908 3.866 3.835 3.812 3.794 3.758 3.649
14 4.159 4.122 4.089 4.059 3.942 3.862 3.804 3.760 3.725 3.697 3.655 3.625 3.602 3.584 3.547 3.439
15 3.983 3.946 3.913 3.883 3.766 3.687 3.629 3.585 3.550 3.523 3.480 3.450 3.427 3.409 3.372 3.263
16 3.834 3.797 3.764 3.734 3.618 3.539 3.481 3.437 3.403 3.375 3.332 3.302 3.279 3.261 3.224 3.114
17 3.707 3.670 3.637 3.607 3.492 3.412 3.355 3.311 3.276 3.248 3.206 3.175 3.152 3.134 3.097 2.987
18 3.597 3.560 3.527 3.498 3.382 3.303 3.245 3.201 3.167 3.139 3.096 3.065 3.042 3.024 2.987 2.876
19 3.501 3.464 3.432 3.402 3.287 3.208 3.150 3.106 3.071 3.043 3.000 2.970 2.946 2.928 2.891 2.779
20 3.416 3.380 3.348 3.318 3.203 3.123 3.066 3.022 2.987 2.959 2.916 2.885 2.861 2.843 2.806 2.693
21 3.342 3.305 3.273 3.243 3.128 3.049 2.991 2.947 2.912 2.884 2.841 2.810 2.786 2.768 2.730 2.617
22 3.275 3.239 3.206 3.176 3.061 2.982 2.924 2.880 2.845 2.817 2.774 2.742 2.719 2.700 2.663 2.548
23 3.215 3.179 3.146 3.116 3.001 2.922 2.864 2.820 2.785 2.756 2.713 2.682 2.658 2.639 2.602 2.487
24 3.161 3.125 3.092 3.062 2.947 2.868 2.810 2.765 2.730 2.702 2.658 2.627 2.603 2.584 2.546 2.431
25 3.111 3.075 3.043 3.013 2.898 2.819 2.761 2.716 2.681 2.652 2.609 2.577 2.553 2.534 2.496 2.379
26 3.067 3.031 2.998 2.968 2.853 2.774 2.716 2.671 2.636 2.607 2.563 2.532 2.508 2.489 2.450 2.333
27 3.026 2.990 2.957 2.927 2.812 2.733 2.674 2.630 2.594 2.565 2.522 2.490 2.466 2.447 2.408 2.290
28 2.988 2.952 2.919 2.890 2.775 2.695 2.636 2.592 2.556 2.527 2.483 2.451 2.427 2.408 2.369 2.250
29 2.953 2.917 2.885 2.855 2.740 2.660 2.601 2.557 2.521 2.492 2.448 2.416 2.391 2.372 2.333 2.213
30 2.921 2.885 2.853 2.823 2.708 2.628 2.569 2.524 2.488 2.459 2.415 2.383 2.358 2.339 2.300 2.179
35 2.791 2.755 2.723 2.693 2.577 2.497 2.438 2.392 2.356 2.327 2.282 2.249 2.224 2.204 2.164 2.039
40 2.697 2.661 2.628 2.598 2.482 2.401 2.342 2.296 2.259 2.230 2.184 2.150 2.125 2.105 2.064 1.935
50 2.569 2.533 2.500 2.470 2.353 2.272 2.211 2.164 2.127 2.097 2.050 2.015 1.989 1.968 1.925 1.790
60 2.486 2.450 2.417 2.387 2.270 2.187 2.126 2.079 2.041 2.010 1.962 1.927 1.900 1.878 1.834 1.692
70 2.428 2.392 2.359 2.329 2.211 2.128 2.067 2.019 1.980 1.949 1.900 1.864 1.837 1.815 1.769 1.622
80 2.385 2.349 2.316 2.286 2.168 2.084 2.022 1.974 1.935 1.903 1.854 1.817 1.789 1.767 1.720 1.568
90 2.353 2.316 2.283 2.253 2.134 2.051 1.988 1.939 1.900 1.868 1.818 1.781 1.752 1.730 1.682 1.525
100 2.326 2.290 2.257 2.227 2.108 2.024 1.961 1.912 1.873 1.840 1.790 1.752 1.723 1.700 1.652 1.490
120 2.288 2.251 2.218 2.188 2.069 1.984 1.921 1.871 1.831 1.798 1.747 1.709 1.679 1.655 1.606 1.436
∞ 2.105 2.069 2.035 2.004 1.882 1.794 1.727 1.674 1.631 1.595 1.538 1.494 1.460 1.431 1.370 1.076
G.5. Tabla de la distribución F de Fisher-Snedecor 263

Tabla G.20: Puntos Críticos: Test de Rachas


2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
2 2 2 2 2 2 2 2 2 2
3 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3
4 2 2 2 3 3 3 3 3 3 3 3 4 4 4 4 4
5 2 2 3 3 3 3 3 4 4 4 4 4 4 4 5 5 5
6 2 2 3 3 3 3 4 4 4 4 5 5 5 5 5 5 6 6
7 2 2 3 3 3 4 4 5 5 5 5 5 6 6 6 6 6 6
8 2 3 3 3 4 4 5 5 5 6 6 6 6 6 7 7 7 7
9 2 3 3 4 4 5 5 5 6 6 6 7 7 7 7 8 8 8
10 2 3 3 4 5 5 5 6 6 7 7 7 7 8 8 8 8 9
11 2 3 4 4 5 5 6 6 7 7 7 8 8 8 9 9 9 9
12 2 2 3 4 4 5 6 6 7 7 7 8 8 8 9 9 9 10 10
13 2 2 3 4 5 5 6 6 7 7 8 8 9 9 9 10 10 10 10
14 2 2 3 4 5 5 6 7 7 8 8 9 9 9 10 10 10 11 11
15 2 3 3 4 5 6 6 7 7 8 8 9 9 10 10 11 11 11 12
16 2 3 4 4 5 6 6 7 8 8 9 9 10 10 11 11 11 12 12
17 2 3 4 4 5 6 7 7 8 9 9 10 10 11 11 11 12 12 13
18 2 3 4 5 5 6 7 8 8 9 9 10 10 11 11 12 12 13 13
19 2 3 4 5 6 6 7 8 8 9 10 10 11 11 12 12 13 13 13
20 2 3 4 5 6 6 7 8 9 9 10 10 11 12 12 13 13 13 14
264 G. Tablas

G.6 Tabla del Test de Rachas

Tabla G.21: Puntos Críticos: Test de Rachas


2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
2
3
4 9 9
5 9 10 10 11 11
6 9 10 11 12 12 13 13 13 13
7 11 12 13 13 14 14 14 14 15 15 15
8 11 12 13 14 14 15 15 16 16 16 16 17 17 17 17 17
9 13 14 14 15 16 16 16 17 17 18 18 18 18 18 18
10 13 14 15 16 16 17 17 18 18 18 19 19 19 20 20
11 13 14 15 16 17 17 18 19 19 19 20 20 20 21 21
12 13 14 16 16 17 18 19 19 20 20 21 21 21 22 22
13 15 16 17 18 19 19 20 20 21 21 22 22 23 23
14 15 16 17 18 19 20 20 21 22 22 23 23 23 24
15 15 16 18 18 19 20 21 22 22 23 23 24 24 25
16 17 18 19 20 21 21 22 23 23 24 25 25 25
17 17 18 19 20 21 22 23 23 24 25 25 26 26
18 17 18 19 20 21 22 23 24 25 25 26 26 27
19 17 18 20 21 22 23 23 24 25 26 26 27 27
20 17 18 20 21 22 23 24 25 25 26 27 27 28
G.7. Tabla del Test de Kolmogorov–Smirnov 265

G.7 Tabla del Test de Kolmogorov–Smirnov

Tabla G.22: Puntos Críticos: Test de Kolmogorov–Smirnov

α
n
0.20 0.15 0.10 0.05 0.01
1 0.900 0.925 0.950 0.975 0.995
2 0.684 0.726 0.776 0.842 0.929
3 0.565 0.597 0.642 0.708 0.828
4 0.494 0.525 0.564 0.624 0.733
5 0.446 0.474 0.510 0.565 0.669
6 0.410 0.436 0.470 0.521 0.618
7 0.381 0.405 0.438 0.486 0.577
8 0.358 0.381 0.411 0.457 0.543
9 0.339 0.360 0.388 0.432 0.514
10 0.322 0.342 0.368 0.410 0.490
11 0.307 0.326 0.352 0.391 0.468
12 0.295 0.313 0.338 0.375 0.450
13 0.284 0.302 0.325 0.361 0.433
14 0.274 0.292 0.314 0.349 0.418
15 0.266 0.283 0.304 0.338 0.404
16 0.258 0.274 0.295 0.328 0.392
17 0.250 0.266 0.286 0.318 0.381
18 0.244 0.259 0.278 0.309 0.371
19 0.237 0.252 0.272 0.301 0.363
20 0.231 0.246 0.264 0.294 0.356
25 0.21 0.22 0.24 0.27 0.32
30 0.19 0.20 0.22 0.24 0.29
35 0.18 0.19 0.21 0.23 0.27
> 35 1.07
√ 1.14
√ 1.22
√ 1.36
√ 1.63

n n n n n
266 G. Tablas
267

Bibliografía

[1] George C. Canavos. Probabilidad y Estadística. Aplicaciones y Métodos. Mc-GRAW-


HILL. México, 1988.

[2] George Casella and Roger L. Berger. Statistical Inference. Thomson Learning, 2002.

[3] Jr. David W. Hosmer, Stanley Lemeshow, and Rodney X. Sturdivant. Applied Logistic
Regression (third edition). John Wiley & Sons, 2013.

[4] George Fishman. Monte Carlo; Concepts, Algorithms, and Applications. New York:
Springer, 1996.

[5] James E. Gentle. Computational Statistics. New York: Springer, 2009.

[6] Allan Gut. An Intermediate Course in Probability. Springer, 2009.

[7] Jiawei Han and Micheline Kamber. Data Mining: Concepts and Techniques, (Second
edition). Elsevier, 2006.

[8] Wolfgang Härdle, Marlene Müler, Stefan Sperlich, and Axel Werwatz. Nonparame-
trics an semiparametrics models. An introduction. Springer. Berlin, 2004.

[9] Uffe B. Kærulff and Anders L. Madsen. Bayesian Networks and Influence Diagrams.
A guide to construction and analysis. New York: Springer, 2013.

[10] Timo Koski and John M. Noble. Bayesian Networks: An introduction. United King-
dom: Wiley and Sons, 2009.

[11] Bernard Lapeyre, Étienne Pardoux, and Rémi Sentis. Méthodes de Monte-Carlo pour
les équations de transport et de diffusion. Berlin: Springer-Verlag, 1998.

[12] Makoto Matsumoto and Takuji Nishimura. Mersenne twister: a 623-dimensionally


equidistributed uniform pseudo-random number generator. ACM Transactions on
Modeling and Computer Simulation, 8, 1998.

[13] John F. Monahan. Numerical Methods of Statistics. Cambridge University Press,


2011.

[14] Kevin P. Murphy. Machine Learning. A Probabilistic Perspective. MIT Press. Cam-
bridge, Massachusetts, 2012.
268 BIBLIOGRAFÍA

[15] Christian P. Robert. The Bayesian Choice. From Decision-Theoretic Foundations to


Computational Implementation. Springer, 2007.

[16] Sheldon Ross. Introduction to probability models, (Ninth edition). Elsevier, 2007.

[17] Sheldon Ross. A first course in probability, (Eighth edition). Pearson Prentice Hall,
2010.

[18] George A. F. Seber. A matrix handbook for statisticans. Wiley Series in Probability
and Statistics. Wiley-Interscience. Hoboken, NJ: John Wiley & Sons. xix, 559 p.
EUR 82.80;, 2008.

[19] B.W. Silverman. Density estimation for statistics and data analysis. Chapman &
Hall, London, 1986.

[20] Christian Walck. Hand-book on statistical distributions for experimentalists. Uni-


versity of Stockholm. Internal Report, 2007.
269

Índice alfabético

Convergencia
casi segura . . . . . . . . . . . . . . . . . . . . . . . . . . 49
A en distribución . . . . . . . . . . . . . . . . . . . . . . 49
en probabilidad . . . . . . . . . . . . . . . . . . . . . 49
Análisis de Varianza . . . . . . . . . . . . . . . . . . . 132 Correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
Clasificación simple . . . . . . . . . . . . . . . . 132 Cota de Cramér-Rao. . . . . . . . . . . . . . . . . . . .92
Validación del modelo . . . . . . . . . . . . . 139 Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
Factor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 Muestral. . . . . . . . . . . . . . . . . . . . . . . . . . .170
Niveles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 Cuartil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
Tabla ANOVA . . . . . . . . . . . . . . . . . . . . . 137
Tratamientos . . . . . . . . . . . . . . . . . . . . . . 132
Variabilidad . . . . . . . . . . . . . . . . . . . . . . . 136 D
ANOVA . . . . . . . . véase Análisis de Varianza
Desviación estándar muestral . . . . . . . . . . . 75
Diagrama de Dispersión . . . . . . . . . . . . . . . 169
B Distribución
a posteriori . . . . . . . . . . . . . . . . . . . . . . . . 103
Borelianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 a priori . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
σ-álgebra . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 conjugadas, 104
conjugada . . . . . . . . . . . . . . . . . . . . . . . . . 103

C
E
Coeficiente
Correlación de Pearson . . . . . . . . . . . . . 47 Enfoque
determinación muestral . . . . . . . . . . . . 184 bayesiano . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
determinación muestral ajustado . . . 184 frecuentista . . . . . . . . . . . . . . . . . . . . . . . . . 80
Coeficiente de variación . . . . . . . . . . . . . . . . . 76 Error cuadrático medio . . . . . . . . . . . . . . . . . 91
Combinación . . . . . . . . . . . . . . . . . . . . . . . . . . 227 Escala
Condiciones de regularidad . . . . . . . . . . . . . 92 de intervalo . . . . . . . . . . . . . . . . . . . . . . . . . 69
Conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221 de razón . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
complemento . . . . . . . . . . . . . . . . . . . . . . 221 nominal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
diferencia . . . . . . . . . . . . . . . . . . . . . . . . . . 221 ordinal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
disjunto . . . . . . . . . . . . . . . . . . . . . . . . . . . 221 Espacio de probabilidad. . . . . . . . . . . . . . . . . .8
Propiedades . . . . . . . . . . . . . . . . . . . . . . . 221 Espacio muestral. . . . . . . . . . . . . . . . . . . . . . . . .4
Universo . . . . . . . . . . . . . . . . . . . . . . . . . . . 221 Esperanza matemáticavéase Valor esperado
Vacío . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221 Esquema
Consistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
270 ÍNDICE ALFABÉTICO

Hipergeométrico . . . . . . . . . . . . . . . . . . . . 10 Marginal, 31
Estimación de probabilidad . . . . . . . . . . . . . . . . . . . . . 19
por Kernel . . . . . . . . . . . . . . . . . . . . . . . . . 105 Indicadora . . . . . . . . . . . . . . . . . . . . . . . . . . 17
Estimación por Kernel Potencia . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
AMISE . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 Función de densidad condicional
Error Cuadático Medio . . . . . . . . . . . . 107 variable continua . . . . . . . . . . . . . . . . . . . 41
MISE. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .107 Función de distribución condicional
Estimador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 variable continua . . . . . . . . . . . . . . . . . . . 41
Bayesiano . . . . . . . . . . . . . . . . . . . . . . . . . 104 variable discreta . . . . . . . . . . . . . . . . . . . . 35
Kernel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 Función de probabilidad condicional
máximo verosímil . . . . . . . . . . . . . . . . . . . 83 variable continua . . . . . . . . . . . . . . . . . . . 35
método de los momentos . . . . . . . . . . . . 88
eficiencia relativa . . . . . . . . . . . . . . . . . . . 94
eficiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
insesgado . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 G
Estimador máximo verosímil . . . . . . . . . . . . 83
invarianza . . . . . . . . . . . . . . . . . . . . . . . . . . 87 Generación de variables aleatorias
multiparamétrico . . . . . . . . . . . . . . . . . . . 86 Método de aceptación- rechazo . . . . . . 59
Evento Método de la transformada inversa . . 57
aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Generador de números pseudoaleatorios . 55
cierto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 lineal congruente. . . . . . . . . . . . . . . . . . . .56
imposible . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Grafo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .143
Evento nulo. . . . . . . .véase Evento imposible Trayectoria . . . . . . . . . . . . . . . . . . . . . . . . 143
Evento simple . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Eventos
mutuamente excluyente . . . . . . . . . . . . . . 4
mutuamente independientes . . . . . . . . . 12
I
Experimento aleatorio . . . . . . . . . . . . . . . . . . . 3 Independencia
Condicional. . . . . . . . . . . . . . . . . . . . . . . .144
sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
F variables aleatorias continuas . . . . . . . 41
Fórmula de la Probabilidad Total . . . . . . . 13 variables aleatorias discretas . . . . . . . . 34
frecuencia Información de Fisher . . . . . . . . . . . . . . . . . . 94
absoluta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 Matriz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
absoluta acumulada . . . . . . . . . . . . . . . . . 69 Intervalo de confianza. . . . . . . . . . . . . . . . . . .95
relativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 mínimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
relativa acumulada . . . . . . . . . . . . . . . . . . 69 asintótico . . . . . . . . . . . . . . . . . . . . . . . . . . 100
Función media con varianza conocida . . . . . . . . 99
de densidad . . . . . . . . . . . . . . . . . . . . . . . . . 22 media con varianza desconocida . . . . . 99
de Distribución . . . . . . . . . . . . . . . . . . . . . 18 nivel de confianza . . . . . . . . . . . . . . . . . . . 96
de Distribución de Probabilidad . . . . . 17 probabilidad de cubrimiento . . . . . . . . 96
Pivote . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 proporción . . . . . . . . . . . . . . . . . . . . . . . . . 100
de Distribución varianza con media conocida . . . . . . . . 99
Conjunta, 30 varianza con media desconocida . . . . . 99
ÍNDICE ALFABÉTICO 271

centrados de orden r, 87
orden r, 87
K Muestreo
con reemplazo . . . . . . . . . . . . . . . . . . . . . . . 5
Kernel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .106 sin reemplazo . . . . . . . . . . . . . . . . . . . . . . . . 5

L N
Ley de los Grandes Números . . . . . . . . . . . . 50 Normalidad Asintótica . . . . . . . . . . . . . . . . . . 91
Débil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
Fuerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
Log-verosimilitud . . . . . . . . . . . . . . . . . . . . . . . 84 P
Percentil. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .74
M Permutación . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
Principio de Multiplicación . . . . . . . . . . . . 227
Método Probabilidad
de los momentos . . . . . . . . . . . . . . . . . . . . 87 Axiomática . . . . . . . . . . . . . . . . . . . . . . . . . . 8
máxima verosimilitud . . . . . . . . . . . . . . . 82 Clásica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Método de los momentos . . . . . . . . . . . . . . . 88 condicional . . . . . . . . . . . . . . . . . . . . . . . . . 11
Método de Monte Carlo . . . . . . . . . . . . . . . . 61 Frecuencial . . . . . . . . . . . . . . . . . . . . . . . . . . 7
Método Delta. . . . . . . . . . . . . . . . . . . . . . . . . . .50 Geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . 6
Matriz Pruebas de Hipótesis . . . . . . . . . . . . . 109, 111
Determinante . . . . . . . . . . . . . . . . . . . . . . 224 Error Tipo I . . . . . . . . . . . . . . . . . . . . . . . 111
inversa . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224 Error Tipo II . . . . . . . . . . . . . . . . . . . . . . 111
Rango . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223 Errores . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
traspuesta . . . . . . . . . . . . . . . . . . . . . . . . . 224 nivel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
Traza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223 nivel de significación . . . . . . . . . . . . . . . 111
Media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 p-value . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 Probabilidad Error Tipo I . . . . . . . . . 111
Medida de Información de Fisher . . . . . . . 94 Probabilidad Error Tipo II . . . . . . . . 111
Medidas Región crítica . . . . . . . . . . . . . . . . . . . . . 112
de dispersión . . . . . . . . . . . . . . . . . . . . . . . 75 Región de aceptación . . . . . . . . . . . . . . 114
de posición . . . . . . . . . . . . . . . . . . . . . . . . . 74 Puntos críticos . . . . . . . . . . . . . véase Percentil
de tendencia central . . . . . . . . . . . . . . . . 71
Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
Modelo R
no paramétrico . . . . . . . . . . . . . . . . . . . . . 80
paramétrico. . . . . . . . . . . . . . . . . . . . . . . . .80 Rango . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
Modos de convergencia . . . . . . . . . . . . . . . . . 49 intercuartil . . . . . . . . . . . . . . . . . . . . . . . . . 76
Momentos observaciones . . . . . . . . . . . . . . . . . . . . . . . 76
Muestrales . . . . . . . . . . . . . . . . . . . . . . . . . . 88 Red Bayesiana. . . . . . . . . . . . . . . . . . . . . . . . .143
centrados de orden r, 88 variable instanciada. . . . . . . . . . . . . . . .147
orden r, 88 Red bayesiana
Teóricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 mensaje . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
272 ÍNDICE ALFABÉTICO

Región crítica . . . . . . . . . . . . . . . . . . . . . . . . . 112 Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14


Razón de verosimilitud . . . . . . . . . . . . 116 Cambio de variable . . . . . . . . . . . . . . . . . 32
Regresión. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .168 una dimensión, 24
Modelo general . . . . . . . . . . . . . . . . . . . . 168 Chebyshev . . . . . . . . . . . . . . . . . . . . . . . . . . 51
Variable respuesta . . . . . . . . . . . . . . . . . 168 función continua . . . . . . . . . . . . . . . . . . . . 49
Variables predictoras . . . . . . . . . . . . . . 168 Khinchin . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
Regresión lineal múltiple. . . . . . . . . . . . . . .180 Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . 51
Estimadores puntuales . . . . . . . . . . . . . 182 Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
Intervalos de confianza . . . . . . . . . . . . . 182 Slutsky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
Pruebas de hipótesis . . . . . . . . . . . . . . . 183 Teorema Central del Límite
Selección de variables . . . . . . . . . . . . . . 185 Linderbeg-Lévy . . . . . . . . . . . . . . . . . . . . . 53
Eliminación hacia atrás, 185 Moivre-Laplace . . . . . . . . . . . . . . . . . . . . . 53
Paso a paso, 186 Test
Selección hacia adelante, 185 Bonferroni . . . . . . . . . . . . . . . . . . . . . . . . . 138
Validación . . . . . . . . . . . . . . . . . . . . . . . . . 184 Potencia . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
Regresión lineal simple . . . . . . . . . . . . . . . . 169 razón de verosimilitud . . . . . . . . . . . . . 115
Coeficiente de determinación muestral Test de Hipótesis . . . . . . . . véase Pruebas de
171 Hipótesis
Coeficiente muestral de correlación li- Test no paramétricos
neal . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 de Bartlett . . . . . . . . . . . . . . . . . . . . . . . . 139
Estimación . . . . . . . . . . . . . . . . . . . . . . . . 171 Rachas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
Intervalos de confianza . . . . . . . . . . . . . 174 Bondad de Ajuste . . . . . . . . . . . . . . . . . 125
Predicción . . . . . . . . . . . . . . . . . . . . . . . . . 178 Homogeneidad . . . . . . . . . . . . . . . . . . . . . 129
Pruebas de Hipótesis . . . . . . . . . . . . . . 174 Independencia . . . . . . . . . . . . . . . . . . . . . 128
residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 Kolmogorov-Smirnov . . . . . . . . . . . . . . 126
Transformaciones . . . . . . . . . . . . . . . . . . 177
Validación del modelo . . . . . . . . . . . . . 176
Regresión Logística . . . . . . . . . . . . . . . . . . . . 186 V
logit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
odds . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 Valor esperado. . . . . . . . . . . . . . . . . . . . . . . . . .26
condicional continuo . . . . . . . . . . . . . . . . 41
condicional discreto . . . . . . . . . . . . . . . . . 35
S Variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . 16
Características numéricas . . . . . . . . . . . 26
Score . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
continua . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
Suceso aleatorio . . . . véase Evento aleatorio
función de densidad, 22
Suceso elemental . . . . . . véase Evento simple
función de distribución, 22
Suma de variables aleatorias . . . . . . . . . . . . 25
discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
Función de distribución, 19
T Función de probabilidad, 19
Variables aleatorias
Tabla de frecuencias Escalas de medición. . . . . . . . . . . . . . . . .68
variables discretas . . . . . . . . . . . . . . . 69, 70 mutuamente independientes . . . . . . . . . 31
Teorema Variables aleatorias continuas
Neyman-Pearson. . . . . . . . . . . . . . . . . . .117 Densidad condicional . . . . . . . . . . . . . . . 41
ÍNDICE ALFABÉTICO 273

Distribución condicional . . . . . . . . . . . . 41
independencia . . . . . . . . . . . . . . . . . . . . . . 41
Variables aleatorias discretas
Distribución condicional . . . . . . . . . . . . 35
independencia . . . . . . . . . . . . . . . . . . . . . . 34
Probabilidad condicional . . . . . . . . . . . . 35
Variación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
Varianza. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .27
condicional continua . . . . . . . . . . . . . . . . 42
condicional discreta . . . . . . . . . . . . . . . . . 36
Varianza muestral . . . . . . . . . . . . . . . . . . . . . . 75
Vector aleatorio. . . . . . . . . . . . . . . . . . . . . . . . .30
continuo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
discreto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
Función de distribución conjunta . . . . 30
Función de distribución marginal. . . .31
Vector aleatorio continuo
Función de densidad conjunta . . . . . . . 38
Función de densidad marginal. . . . . . .39
Función de distribución conjunta . . . . 38
Función de distribución marginal. . . .39
Vector aleatorio discreto
Función de distribución conjunta . . . . 33
Función de distribución marginal. . . .33
Función de probabilidad conjunta . . . 33
Función de probabilidad marginal . . . 33
Verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
log-verosimilitud . . . . . . . . . . . . . . . . . . . . 84
274 ÍNDICE ALFABÉTICO

También podría gustarte