0% encontró este documento útil (0 votos)

163 vistas189 páginas

CDF de distribuciones uniformes y transformadas

Este libro presenta varios métodos computacionales para el análisis numérico. Incluye capítulos sobre shell scripting en Bash y Git/GitHub, programación en Python con ejemplos como factoriales y sucesión de Fibonacci, derivación e integración numérica mediante métodos como trapecio y Simpson, el método de Monte Carlo para integración, álgebra lineal con métodos como Jacobi y Gauss-Seidel, y probabilidad con distribuciones discretas y continuas.

Cargado por

Samurlo Sancho

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

163 vistas189 páginas

CDF de distribuciones uniformes y transformadas

Cargado por

Samurlo Sancho

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

The university of los Andes

Book

Métodos Computacionales

Manuel Alejandro Segura Delgado

PhD
ii
Contents

List of figures vii

List of Tables xi

1 Shell-scripting 3
1.1 Bash . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Git y GitHub . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2 Python 7
2.0.1 Números factoriales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.0.2 Máximos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.0.3 Sucesión de Fibonnaci . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.0.4 Números primos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.0.5 Espiral de arquı́medes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.0.6 Figura de Lissajous . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.0.7 Fitting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.0.8 Choques de duración finita . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.0.9 Cinemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3 Derivación e integración numérica 1

3.1 Algoritmo babilónico para la función raı́z cuadrada . . . . . . . . . . . . . . . . 1
3.2 Taylor Series . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
3.3 Error de redondeo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
3.4 Error de truncamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
3.5 Derivación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.5.1 Derivada Progresiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

iii
iv Contents

3.5.2 Derivada Regresiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

3.5.3 Derivada Central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.5.4 Error Local . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.6 Segunda Derivada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.7 Ejercicios: Derivación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.8 Método de Newton-Raphson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.8.1 Criterio de parada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.9 Método de bisección . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.10 Ejercicios: Raı́ces de polinomios . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.11 Interpolación de Lagrange . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.11.1 Error . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.12 Interpolación de Newton-Gregory . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.13 Ejercicios: Interpolación de Lagrange . . . . . . . . . . . . . . . . . . . . . . . . 21
3.14 Integración . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.14.1 Método de trapecio simple . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.14.2 Método de trapecio compuesto . . . . . . . . . . . . . . . . . . . . . . . . 25
3.14.3 Método de Simpson simple 1/3 . . . . . . . . . . . . . . . . . . . . . . . 26
3.14.4 Método de Simpson compuesto . . . . . . . . . . . . . . . . . . . . . . . 28
3.14.5 Cuadratura Gaussiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.14.6 Cuadratura de Gaus-Legendre . . . . . . . . . . . . . . . . . . . . . . . . 32
3.14.7 Doble cuadratura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.14.8 Ejercicios: Integración . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

4 Método de MonteCarlo 45
4.1 Generación pseudo-aleatoria de números . . . . . . . . . . . . . . . . . . . . . . 45
4.2 Integración MonteCarlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.3 Ley de grandes números . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.4 Método de la transformada inversa . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.5 Método de aceptación y rechazo . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.6 Incertidumbre del método de MonteCarlo . . . . . . . . . . . . . . . . . . . . . . 49
4.7 Ejercicios: Método de MonteCarlo . . . . . . . . . . . . . . . . . . . . . . . . . . 50

5 Álgebra lineal 55
5.1 Método de Jacobi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
Contents v

5.2 Norma matricial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

5.2.1 Radio espectral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.3 Método de Gauss-Seidel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.4 Método de relajación sucesiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.5 Método generalizado de Newton-Raphson . . . . . . . . . . . . . . . . . . . . . . 62
5.6 Método del descenso gradiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.7 Propagacion del error en una red neuronal . . . . . . . . . . . . . . . . . . . . . 64
5.8 Ejercicios: Álgebra lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

6 Probabilidad 77
6.1 Definición de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
6.1.1 Definición frecuentista de probabilidad . . . . . . . . . . . . . . . . . . . 79
6.2 Ejercicios: Axiomas de la probabilidad . . . . . . . . . . . . . . . . . . . . . . . 80
6.2.1 Independencia de eventos . . . . . . . . . . . . . . . . . . . . . . . . . . 81
6.2.2 Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
6.2.3 Teorema de la probabilidad total . . . . . . . . . . . . . . . . . . . . . . 82
6.3 Ejercicios: Probabilidad condicional y total . . . . . . . . . . . . . . . . . . . . . 84
6.4 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
6.5 Ejercicios: Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
6.6 Técnicas de conteo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
6.7 Ejercicios: Técnicas de conteo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
6.8 Ejercicios: Generales de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . 91
6.9 Distribuciones discretas de probabilidad . . . . . . . . . . . . . . . . . . . . . . 94
6.9.1 Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
6.9.2 Correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
6.9.3 Distribución de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
6.9.4 Distribución Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
6.9.5 Distribución de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
6.10 Ejercicios: Distribuciones discretas de probabilidad . . . . . . . . . . . . . . . . 98
6.11 Distribuciones continuas de probabilidad . . . . . . . . . . . . . . . . . . . . . . 99
6.11.1 Distribución normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
6.11.2 Distribución χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
6.11.3 Distribución t-Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
vi Contents

6.12 Ejercicios: Distribuciones continuas de probabilidad . . . . . . . . . . . . . . . . 100

6.13 Procesos de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
6.14 Ejercicios: Cadenas de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
6.15 Metropolis-Hasting algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
6.16 Ejercicios: Metropolis-Hastings . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
6.17 Hidden Markov models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
6.18 Ejercicios: Hidden Markov models . . . . . . . . . . . . . . . . . . . . . . . . . . 114

7 Estadı́stica 117
7.1 Muestreo (sampling) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
7.1.1 Aleatorio (probabilı́stico) . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
7.1.2 Muestreo aleatorio simple . . . . . . . . . . . . . . . . . . . . . . . . . . 119
7.1.3 Muestreo aleatorio estratificado . . . . . . . . . . . . . . . . . . . . . . . 119
7.1.4 Muestreo aleatorio sistemático . . . . . . . . . . . . . . . . . . . . . . . . 120
7.1.5 Muestreo no aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
7.2 Distribución de frecuencias (Histogramas) . . . . . . . . . . . . . . . . . . . . . 121
7.3 Estadı́sticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
7.4 Valor medio muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
7.5 Desviación estándar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
7.6 Teorema del lı́mite central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
7.7 Ejercicios: Muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

8 Estimación de parámetros 129

8.1 Mı́nimos cuadrados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
8.1.1 Espacio Columna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
8.2 Varianza de la estimación de parámetros . . . . . . . . . . . . . . . . . . . . . . 132
8.3 Función de costo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
8.4 Ejercicios: Mı́nimos cuadrados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
8.5 Función de verosimilitud (Likelihood) . . . . . . . . . . . . . . . . . . . . . . . . 137
8.6 Método de máxima verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . 138
8.6.1 Unbinned likelihood fit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
8.6.2 Binned likelihood fit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
8.6.3 Varianza de los estimadores . . . . . . . . . . . . . . . . . . . . . . . . . 140
8.7 Ejercicios: Parameter Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . 140
Contents vii

9 Confidence Intervals 145

9.1 Intervalos de confianza para la media . . . . . . . . . . . . . . . . . . . . . . . . 145
9.2 Intervalo de confianza para la diferencia de medias . . . . . . . . . . . . . . . . . 146
9.3 Intervalo de confianza para una proporción . . . . . . . . . . . . . . . . . . . . . 146
9.4 Intervalo para la varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
9.5 Ejercicios: Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . 147

10 Pruebas de Hipótesis 151

10.1 Ejercicios: Tablas de contingencia . . . . . . . . . . . . . . . . . . . . . . . . . . 152
10.2 Prueba de hipótesis para generadores de números aleatorios . . . . . . . . . . . . 154
10.3 Ejercicios: Hypotesis testing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155

References 163
viii Contents
List of Figures

2.1 Serie de datos y sus máximos locales. . . . . . . . . . . . . . . . . . . . . . . . . 8

2.2 Primero 20 números de Fibbonacci (izquierda), Estimación de la relación aurea
y su valor exacto (derecha). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3 Primeros 1000 números primos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.4 Espiral de arquı́medes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.5 Figuras de Lissajous para los desfases: δ = [0, π/4, π/2] respectivamente. . . . . 12

3.1 Campo de velocidades cerca de un cilindro sólido. . . . . . . . . . . . . . . . . . 8

3.2 Electric field of an electric charge close to grounded conducting plane. Note that
the Gauss’ Law is satisfied because of the electric field is normal in the surface.
Nice! . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.3 Propagación de la luz en dos medios minimizando el tiempo de viaje. . . . . . . 16
3.4 Interpolación usando el método de Newton-Gregory para el conjunto de datos
descritos en el problema. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.5 Domo esférico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.6 Accurracy vs n-points for the Gauss-Laguerre quadrature. . . . . . . . . . . . . 40
3.7 Banda prohibida de la fase superconductora de un material con Tc ≈ 12.1278.
El valor en ∆(T = 0), es independiente del material del superconductor. . . . . . 43

4.1 Correlaciones en los primeros k-vecinos para un mal generador (izquierda) y un

buen generador (drand48) de números aleatorios. . . . . . . . . . . . . . . . . . 47
4.2 Primeros k = 10 vecinos del generador Numpy como función del número de eventos
generados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.3 Correlaciones de los primeros k = 30 vecinos del generador Numpy como función
de k-esimo vecino. Note que el valor debe fluctuar alrededor del valor teórico
C(k) = 1/4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

ix
x List of Figures

4.4 Generación de eventos cartesiana (izquierda) y esférica para R = 1 (derecha). . . 52

5.1 Esquema de colisión de dos discos rı́gidos. . . . . . . . . . . . . . . . . . . . . . 68

5.2 Esquema para la conservación del momentum angular. . . . . . . . . . . . . . . 69
5.3 Conservación del momento lineal total antes y después del choque. . . . . . . . . 71
5.4 Conservación del momento angular total antes y después del choque. . . . . . . 71
5.5 Variables cinemáticas los dos discos después del choque. . . . . . . . . . . . . . . 72
5.6 Estrella naciente: Puntos originales (azul), los ejes principales del cuerpo (rojo)
y puntos sobre los ejes principales (verde.) . . . . . . . . . . . . . . . . . . . . . 72
5.7 Esquema del espejo del telescopio espacial. Los vértices del cuadrado registran
las temperaturas en grados kelvin. En la parte derecha, se ilustra una rotación
para minimizar la temperatura en el punto P = (0, 0.5). . . . . . . . . . . . . . 73
5.8 Mapa de temperatura al interior del espejo del telescopio. . . . . . . . . . . . . 74

6.1 Probabilidad P(n ≤ 80) de que tengan una edad diferente. . . . . . . . . . . . . 93

6.2 Superficie de probabilidad del evento A. . . . . . . . . . . . . . . . . . . . . . . 94
6.3 Probabilidades de transición de los estados para n = 10 pasos. . . . . . . . . . . 105
6.4 Relación entre la distancia cuadrática media y el número de pasos de un proceso
Markoviano. Entender este proceso fue uno de los pasos definitvos para aceptar
la existencia de las moléculas empezando el siglo XX. . . . . . . . . . . . . . . . 108
6.5 Nube electrónica encontrada con el algoritmo de Metropolis asociada al electrón
en cada núcleo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
6.6 Valor esperado de la energı́a potencial eléctrica de la molécula de Hidrógeno.
Note que existe un estado ligado que conocemos como enlace covalente, la energı́a
del pozo de potencial está alrededor de Umin ≈ 2.0 eV y se da a una separación
nuclear de dequilibrium ≈ 2.1a0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
6.7 Valor esperado de la energı́a potencial eléctrica de la molécula de Hidrógeno
incluyendo el efecto de Heitler y London. Note que existe un estado ligado que
conocemos como enlace covalente, la energı́a del pozo de potencial está alrededor
de Umin ≈ 2.05 eV y se da a una separación nuclear de dequilibrium ≈ 2.3a0 . . . . 111
6.8 Probabilidad de cada secuencia oculta para el estado ΩO = [V, A, R]. . . . . . . . 113
6.9 Probabilidad de cada secuencia oculta para el estado observado ΩO =
[S, C, C, C, S, C, S, C]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
List of Figures xi

7.1 Distribución de muestreo (izquierda) y distribución acumuladad de probabilidad

(derecha). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

8.1 Distancia ||A~x∗ −~b|| en la región rectangular definida en el problema. La distancia

mı́nima debe corresponder con el resultado del método de mı́nimos cuadrados. . 134
8.2 Gráfica de curvas de nivel de la función L(µ, ) (izquierda) y superficie (derecha). 143
8.3 Medida del equipo de 3 canales. . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

10.1 Trayectoria de la partı́cula (Toy model). En este experimento la partı́cula le

tomo 33 pasos salir de la caja. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
10.2 Ajuste a los datos usando la distribución de Weibull exponencial. . . . . . . . . 158
10.3 Comparación entre la distribución observada y esperada para el número de pasos
de escape de la partı́cula. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
10.4 Distribución χ299 , el valor observado es menor que el valor crı́tico de la
distribución. p − value = 0.111, se acepta H0 . . . . . . . . . . . . . . . . . . . . 160
10.5 Distribución χ2999 , el valor observado es menor que el valor crı́tico de la
distribución. p − value = 0.190, se acepta H0 . . . . . . . . . . . . . . . . . . . . 162
xii List of Figures
List of Tables

5.1 Parámetros del cálculo. Recuerde que el momento de inercia de un sólido respecto
a su centro de masas es I = kmr2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

6.1 Tabla de contingencia de genero y el uso de gafas. . . . . . . . . . . . . . . . . . 85

6.2 Distribución de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
6.3 Distribución de probabilidad del número de microchips defectuosos. . . . . . . . 98

7.1 Distribución de estudiantes según su carrera universitaria. . . . . . . . . . . . . 119

7.2 Distribución muestral según su carrera universitaria. . . . . . . . . . . . . . . . . 120
7.3 Distribución de pesos y distribución acumulada de pesos para un conjunto de
mediciones de 100 estudiantes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
7.4 Distribución de salarios para 65 empleados de la empresa anónima. . . . . . . . 126

10.1 Tabla de contingencia entre artı́culos vendidos y los dı́as de la semana . . . . . . 152
10.2 Tabla de contingencia asociada a la encuesta realizada por la universidad. . . . . 153

1
2 List of Tables
Chapter 1

Shell-scripting

Section 1.1
Bash

1. Escriba un programa que calcule el factorial de un número n.

2. Escriba un verificador de parámetros desde consola:

a) Escriba una funcion de ayuda (help), que le diga a la usuario que debe ingresar 3
parámetros: posición inicial, velocidad inicial y tiempo total.

b) Use una sentencia if para verificar que el número de parámetros $# es tres. Si el

número de parámetros es diferente de tres, llamar la función de ayuda y salir (exit 1;)
de lo contrario, escribir en pantalla: corriendo programa.

3. Escriba un verificador de entradas desde consola:

a) Declare una variable (pass) y asigne el valor 0.

b) Defina una función de verificación (checkvalue), cuyo primer parámetro ($1) verifique
si es cero o uno. Si esta condición es verdadera, se asigna (pass=1). En caso contrario,
se le pide al usuario que intente de nuevo.

c) Use un ciclo while para leer una variable usando (read) y pasar ese valor como primer
parámetro a la función de verificación. El ciclo while se repite si la variable pass tiene
un valor cero, en caso contrario, el ciclo termina.

3
4 Chapter 1. Shell-scripting

4. Escriba un programa que verifique si una carpeta llamada (data) existe en su pwd. Si la
carpeta no existe crear dicha carpeta en esa ubicación actual.

5. Escriba un programa que calcule las variaciones sin repetición dadas por la siguiente
expresión:

n!
Vrn = . (1.1)
(n − r)!
donde n = 20 y r = 3. Esto puede significar el número de formas que puedo acomodar
20 partı́culas en 3 estados.

6. Cuál es la complejidad computacional del algoritmo del ejercicio anterior O(np rq )?

7. Modificar la función factorial para que reciba el número (n) como un parámetro. Usar
un for loop para calcular e imprimir en pantalla los primeros 20 números factoriales.

8. Leer un archivo de datos que tiene la ruta de 10 archivos de texto y guardar la ruta un
array de bash. Imprimir en pantalla el tercer elemento.

Section 1.2
Git y GitHub

1. Crear un video en YouTube y enviar el link describiendo las siguiente etapas de desarrollo
de un proyecto:

(a) Crear una carpeta llamada: Project

(b) Entrar a la carpeta e inicializar el repositorio local: git init
(c) Agregar un script de bash que sume los dos primeros parámetros: git add
script [Link]
(d) Realizar un commit: git commit -m "first tracking"
(e) Cambiar el nombre de la rama principal: git branch -M main
(f) Crear un el repositorio llamadado Project en GitHub
(g) Agregar el repositorio remoto: git remote add origin [Link]
(h) Subir el repositorio local: git push -u origin main
——————————————————————
1.2. Git y GitHub 5

(i) Ramificar el proyecto, creando una rama llamada Product: git branch Product
(j) Cambiar de rama Product: git checkout Product
(k) En la nueva rama crear un script de bash que multiplique los dos primeros
parámetros: git add script [Link]
(l) Realizar commit: git commit -m "script 2"
(m) Subir la rama Product al repositorio remoto: git push -u origin Product
(n) Fusionar la rama Product a la rama main: Estando en la rama principal ejecutar:
git merge Product
(o) Subir cambios a la rama main. git push origin main
(p) Eliminar la rama auxiliar Product: git branch -d Product
(q) Eliminar la rama auxiliar remota Product: git push origin --delete Product
6 Chapter 1. Shell-scripting
Chapter 2

Python

2.0.1 Números factoriales

1. Escriba una función que calcule el factorial de n, con n ∈ N.

n! = n(n − 1)(n − 2)...1 (2.1)

Calcule los primeros 20 números factoriales.

2. Escriba una función que calcule las variaciones sin repetición de n elemenos tomados de
r en r:
n!
Vrn = (2.2)
(n − r)!

a) Calcule de cuantas maneras puedo ubicar 6 carros en 3 estacionamientos. Ans: 120

3. Escriba una función que calcule las combinaciones sin repetición de n elementos tomados
de m en m, con n > m.
n n!
Cm = (2.3)
m!(n − m)!

Calcule cuantos equipos de 11 jugadores puedo formar con 22 jugadores disponibles.

Suponga que:

a) Cualquiera puede ser el arquero. Ans: 705432

b) Ya sabemos quién será el arquero. Ans: 352716

7
8 Chapter 2. Python

2.0.2 Máximos
1. Descargue los datos de: [Link]
main/MetodosComputacionalesReforma/[Link] Diseñe un algoritmo
para encontrar todos los máximos locales en esta serie de datos. La Figura [2.1] muestra
la serie de datos y los máximos locales.

1.6
1.5
1.4
1.3
1.2
1.1
1.0
0.9
3.4 3.5 3.6 3.7 3.8 3.9 4.0 4.1

Figure 2.1: Serie de datos y sus máximos locales.

2.0.3 Sucesión de Fibonnaci

1. La sucesión de Fibonnaci está definida por la siguiente definición recurrente:

f0 = 0
f1 = 1
fn = fn−1 + fn−2 (2.4)

Encuentre los primeros 20 terminos de esta sucesión.

2. Graficar la sucesión de Fibonnaci.

3. El numéro áureo está dado por:

√
1+ 5
ϕ= (2.5)
2

La sucesión de Fibonnaci se relaciona con este número de la siguiente forma:

fn+1
ϕ = lim , (2.6)
n→∞ fn

Usando la sucesión de números de Fibonnaci, calcular el número aureo y comparar con

el valor exacto.

7000
Serie Fibonacci 2.0 Estimación usando la serie
Numero Aureo
6000
1.8
5000

4000 1.6

3000
1.4
2000
1.2
1000

0 1.0
0 5 10 15 20 0.0 2.5 5.0 7.5 10.0 12.5 15.0 17.5

Figure 2.2: Primero 20 números de Fibbonacci (izquierda), Estimación de la relación aurea y

su valor exacto (derecha).

2.0.4 Números primos

1. Escriba un código que calcule los primeros 1000 números primos.

2. Imprima en pantalla los primos 10 números primos.

3. Graficar los números como función de su posición, es decir, 2 es el primero, 3 es el

segundo,...
10 Chapter 2. Python

8000
7000
6000
5000
4000
3000
2000
1000
0
0 200 400 600 800 1000

Figure 2.3: Primeros 1000 números primos.

2.0.5 Espiral de arquı́medes

(a) La espiral de arquı́medes está descrita por la siguiente ecuación en coordenadas

polares:

r = a + bθ (2.7)

Haga a = 0 y b = 1 y calcule las posiciones r entre θ ∈ [0., 2π].

(b) Haga el cambio de coordenadas y gráfique la espiral.

2.0.6 Figura de Lissajous

(a) Las figuras de Lissajous se pueden obtener mediante la superposición ortogonal de

dos movimientos armónicos simples:

x = Asin(ωx t)
y = Asin(ωy t + δ) (2.8)

Podemos realizar un representación gráfica usando la siguiente relación entre las

frecuencias:
11

0
y

15 10 5 0 5 10 15 20
x

Figure 2.4: Espiral de arquı́medes.

ωx /ωy = 1/1, 1/2, 1/3, 1/4, 1/5, 2/2, 2/3, 2/4, 2/5, 3/3, 3/4, 3/5, 4/4, 4/5, 5/5 (2.9)

Ajuste A = 1, ωx = ωy = 1 y número de lados como nsides = 5, use los siguientes

valores de desfase: δ = [0, π/4, π/2]. Note que ωx t = nx θ, donde θ ∈ [0, 2π] y
nx = [1, 2, 3, 4, 5]; con nx < ny . Debe realizar un doble for loop donde se cambie
el valor de nx y ny . Adicionalmente, debe tener un iterador entero que agregue un
nuevo sub-plot:

fig = [Link](nsides,nsides,k)
k += 1

Quitar los ejes con:

[Link]("off")

Finalmente, se obtiene:

2.0.7 Fitting
1. Bajar los datos disponibles en [Link]
main/MetodosComputacionales/[Link]
12 Chapter 2. Python

Figure 2.5: Figuras de Lissajous para los desfases: δ = [0, π/4, π/2] respectivamente.

a) Graficar los datos para visualizar la función.

b) Hacer un ajuste a los datos para encontrar los parámetros A y B.

A
f (t) = . (2.10)
1 + e−Bt

2.0.8 Choques de duración finita

Utilice el template de la clase partı́cula vista en clase para simular una colisión de duración
finita. Para la interacción de las dos partı́culas use la siguiente fuerza de contacto
(Landau-Lifshitz volumen 7).

 3

 K R + R − |~r − ~r | n̂ si |~r − ~r | < R + R
1 2 1 2 1 2 1 2
f~(~r1 , ~r2 ) = (2.11)

 0 En otro caso.

donde K = 100 N/m3 , R1 , R2 son los radios de las esferas y ~n = cos(θ)î + sen(θ)ĵ es el
vector normal al plano de contacto. Note que c = R1 + R2 − |~r1 − ~r2 | es la deformación de las
esferas. Usar m = 1 kg y R1 = R2 = 2 m, con las siguientes condiciones iniciales:
13

Bola 1 :

~r0 = (−15, 1)
~v0 = (10, 0)
~a0 = (0, 0) (2.12)

Bola 2 :

~r0 = (0, −1.5)

~v0 = (0, 0)
~a0 = (0, 0) (2.13)

1. Crear el método de clase que calcule la fuerza entre partı́culas en la clase Particle.
Recuerde que un cuerpo no se puede aplicar fuerza a si mismo. Cada vez que se avance
en el tiempo, debe reiniciar la fuerza y la aceleración a cero, y verificar las paredes (mirar
video en bloque-neon).

2. Qué significa fı́sicamente K.

2.0.9 Cinemática
1. La ecuación de movimiento para una caı́da libre está dada por:

d2 y
m = −mg, (2.14)
dt2
donde y representa la posición de la partı́cula, m su masa y g es la aceleración debida
a la gravedad (Use g = 9.8 m/s2 ). Esta ecuación está sujeta a las condiciones iniciales
(y0 = 0, v0 = +50 m/s), que representan la posición y velocidad iniciales respectivamente.
La solución analı́tica de esta ecuación está dada por:

1
y(t) = y0 + v0 t − gt2 . (2.15)
2
Dibuje la posición y velocidad como función del tiempo, iterando hasta que el sistema
llegue hasta la posición inicial.
14 Chapter 2. Python

Ahora asuma que el sistema está sometido a una fuerza resistiva proporcional al cuadrado
de la velocidad instantánea, tal que:

d2 y 1
m 2
= −mg + CρAv 2 , (2.16)
dt 2
donde C = 0.8 es un factor experimental asociado a la resistencia del aire, ρ =
1.225 kg/m3 es la densidad del aire y A = πR2 es el área eficaz de la esfera (tomar
inicialmente R = 0.05 m).

a) Demuestre que la solución analı́tica a esta ecuación diferencial está dada por:

1
cosh(tanh−1 ( γv
√ 0 ))
g

y(t) = y0 + 2 ln √ , (2.17)
γ cosh(−γ gt + tanh−1 ( γv √ 0 ))
g
√
g √ −1 γv0
v(t) = tanh − γ gt + tanh √
γ g
q
CρA
donde γ = 2m
es el parámetro de amortiguamiento, con m = 1 kg. Note que existe
γv0
una restricción cinemática en este sistema −1. < √
g
< +1.
b) Dibuje la posición y velocidad como función del tiempo en la misma gráfica del caso
ideal.
c) ¿Cuál es el tiempo de vuelo para ambos casos?
d) Estudie el comportamiento del tiempo de vuelo como función de C y R (variar los
parámetros hasta encontrar diferencias). ¿Cuál parámetro tiene mayor impacto en el
tiempo de llegada de este sistema.
Chapter 3

Derivación e integración numérica

Section 3.1
Algoritmo babilónico para la función raı́z cuadrada

El algoritmo para la aproximación de la raı́z cuadrada de cualquier número real está definido
por la siguiente formula recursiva:

f0 (x) = x

1 x
fn (x) = + fn−1 (x) (3.1)
2 fn−1 (x)
√
donde fn (x) es la n-ésima aproximación a x, De esta forma:

√
f∞ (x) = x. (3.2)

Section 3.2
Taylor Series

Let f (x) be a function of class C ∞ . The Taylor polynomial is defined as:

∞
X
pn (x) = an (x − x0 )n , (3.3)
n=0

where x0 is a specific point, where one makes the expansion. Using x0 = 0 (Maclaurin serie),
the representation of the f (x) is therefore given by:

1
2 Chapter 3. Derivación e integración numérica

∞
X
f (x) = an x n . (3.4)
n=0

One inside for obtaining the coefficients is driven by the value of the function and its
derivatives; Hence:

f (0) = a0 + a1 0 + a2 02 + ...
f 0 (0) = a1 + 2a2 0 + ...
00
f (0) = 2a2 + 3 × 2a3 0 + ... (3.5)

Note that, a0 = f (0), a1 = f 0 (0)/1!, a2 = f 00 (0)/2!, in general, we get:

f (n) (x)
an = (3.6)
n!
This expression is known as the Maclaurin serie of f (x).

∞
X f (n) (x)
f (x) = xn . (3.7)
n=0
n!

For expanding in any arbitrary point (a), the expression is:

∞
X f (n) (a)
f (x) = (x − a)n . (3.8)
n=0
n!

We are interesting in any point of the discretization (x0 ) and its neighborhood x0 + h, where
h << 1. The expansion to around x0 is given by:

∞
X f (n) (x0 )
f (x) = (x − x0 )n . (3.9)
n=0
n!

Therefore, the value of the function in x0 + h is:

∞ ∞
0
X f (n) (x0 ) 0 0 n
X f (n) (x0 )
f (x + h) = (x + h − x ) = (h)n (3.10)
n=0
n! n=0
n!
Which is an useful formulae. the expansion up to first order is given by:

f (x + h) = f (x) + hf 0 (x) + O(h2 ) (3.11)

3.3. Error de redondeo 3

Section 3.3
Error de redondeo

Es la diferencia entre el valor exacto de un número y la aproximación calculada debida al

redondeo. Por ejemplo, π = 3.1415926535... si se aproxima a 3.1416 el error es 7.3464 × 10−6 ,
entonces la pregunta natural es: ¿cuál es el número más pequeño que podemos aproximar
usando el computador? en otras palabras ¿cuál es el valor de para que se cumpla 1 + = 1.

Section 3.4
Error de truncamiento

El error de truncamiento aparece cuando se usan aproximaciones en lugar de las expresiones

exactas, en general, este tipo de error depende del tipo de aproximación que se realiza. Por
ejemplo, cuando expandimos una cierta función alrededor de un punto y despreciamos términos
de orden superior, se introducen error de truncamiento a nuestras estimaciones.

sin(x) ∼
= x + O(x3 )
x3
sin(x) ∼
= x− + O(x5 ) (3.12)
3!
tiene diferente error de truncamiento para la estimación de la función sin(x).
4 Chapter 3. Derivación e integración numérica

Section 3.5
Derivación

Para construir la derivada numérica se define la siguiente discretización de puntos nodales

equi-espaciados.

xj = x0 + jh, (3.13)

donde h se denomina paso, siendo una variación ”pequeña” de la función. El conjunto de

puntos nodales con sus respectivas imágenes se denomina conjunto soporte de la discretización:

Ω = {(x0 , f (x0 )), (x1 , f (x1 )), ..., (xn , f (xn ))} (3.14)

En el caso de más dimensiones, el conjunto soporte debe estar bien definido:

Ω2 = {(x0 , y0 , f (x0 , y0 )), (x1 , y1 , f (x1 , y1 )), ..., (xn , yn , f (xn , yn ))} (3.15)

3.5.1 Derivada Progresiva

Dada esta condición podemos hacer una expansión en series de Taylor de f (x) (el dominio son
los puntos nodales).

h2 00
f (x + h) = f (x) + hf 0 (x) + f (x) + ... para h << 1 (3.16)
2
despejando la primera derivada tenemos:

f (x + h) − f (x) h 00
f 0 (x) = − f (x) (3.17)
h |2 {z }
O(h)

para algún punto de la partición:

f (xj+1 ) − f (xj )
f 0 (xj ) ∼
= (3.18)
h
La última expresión se denomina la derivada progresiva del punto xj , la cuál tiene orden
O(h) en la estimación.
3.5. Derivación 5

3.5.2 Derivada Regresiva

Para obtener la derivada regresiva se expande:

h2 00
f (x − h) = f (x) − hf 0 (x) + f (x) + ... para h << 1 (3.19)
2
despejando la primera derivada tenemos:

f (x) − f (x − h) h 00
f 0 (x) = + f (x) (3.20)
h |2 {z }
O(h)

para algún punto de la partición:

f (xj ) − f (xj−1 )
f 0 (xj ) ∼
= (3.21)
h
Para la derivada regresiva se tiene un orden de aproximación de orden O(h).

3.5.3 Derivada Central

Para estimar la derivada central se compara las expresiones de ambos desarrollos de Taylor.

h2 00 h3
f (x + h) = f (x) + hf 0 (x) + f (x) + f 000 (x) + ...
2 3!
2 3
h h
f (x − h) = f (x) − hf 0 (x) + f 00 (x) − f 000 (x) + ... (3.22)
2 3!

Restamos las dos expresiones tenemos:

f (x + h) − f (x − h) h2 000
f 0 (x) = − f (x) (3.23)
2h |3 {z }
O(h2 )

para algún punto de la partición:

f (xj+1 ) − f (xj−1 )
f 0 (xj ) ∼
= . (3.24)
2h
Notar que la estimación central tiene un orden O(h2 ) en la estimación.
6 Chapter 3. Derivación e integración numérica

3.5.4 Error Local

Una medida del error local es la distancia (euclidiana) entre el valor estimado y el valor real.

σ(Dn f (xj )) = |f n (xj ) − Dexact

n
f (xj )| (3.25)

Section 3.6
Segunda Derivada

Para estimar la segunda derivada numérica, se suma los dos desarrollos de Taylor en la
Ecuación (3.22).

f (x + h) − 2f (x) + f (x − h)
f 00 (x) = + O(h2 ) (3.26)
h2
para algún punto de la partición:

f (xj+1 ) − 2f (xj ) + f (xj−1 )

f 00 (xj ) ∼
= (3.27)
h2
Notar que la estimación tiene un orden O(h2 ) en la estimación.

Section 3.7
Ejercicios: Derivación

1. (Theoretical) Demuestre la formula alternativa para la estimación de la segunda derivada

discreta:

d2 f (xi ) f (xi+2 ) − 2f (xi ) + f (xi−2 )

2
= (3.28)
dx 4h2
2. Usando la definición de derivada central (con h = 0.05) estime la derivada de la función:

1
f (x) = √ , (3.29)
1 + e−x2

a) En el intervalo −10 ≤ x ≤ 10.

b) Para el intervalo anterior, estimar el error en cada punto nodal.

3.7. Ejercicios: Derivación 7

3. (Machine Learning analogy) La convolución discreta entre dos señales y[m] y x[m] a
tiempo discreto está dada por:

∞
X
y[m] ∗ x[m] = h[n]x[m − n], (3.30)
n=−∞

donde h[n] es una función de entrada y se denomina kernel de convolución. El operador

derivada central se puede definir a través de una operación de convolución con el siguiente
kernel K:

K = [1, 0, −1] (3.31)

De modo que el operador primera derivada central queda definido por:

∞
1 1 X
D f (xm ) = K[n + 1]f (xm−n ). (3.32)
2h n=−∞

Como el kernel tiene dimensión 3, la suma corre sobre los valores n = −1, 0, 1. No
obstante, en Python las listas tienen como primer valor n = 0, por esa razón el kernel se
translada a n + 1. Implemente este algoritmo para calcular la derivada de la función del
punto 2).

4. Diseñe un kernel de convolución para definir el operador segunda derivada central.

a) Dar la expresión matemática: D2 f (xm ) =?.

b) Implementar el cálculo de esta derivada a la función del punto 2).

5. (Theoretical) Show that the D4 f operator is given by:

f (xj+2 ) − 4f (xj+1 ) + 6f (xj ) − 4f (xj−1 ) + f (xj−2 )

D4 f (xj ) ∼
= (3.33)
h4

For this operator, what is the order (O(hk )) of the approximation?

6. Calcular el campo de velocidades cerca de la superficie de un cilindro de radio R = 2 cm.

Para esta tarea realizar los siguientes pasos:
8 Chapter 3. Derivación e integración numérica

a) Definir una discretización en los ejes x e y, donde la región es: A ∈ [−4, 4] con 25
puntos en cada eje.

b) Definir la función potencial del flujo dada por:

R2

φ(x, y) = V x 1 − (3.34)
x2 + y 2

donde V = 2 cm/s

c) Calcule y guarde adecuadamente el campo de velocidades usando la definición de

derivada parcial central como:

∂φ
vx =
∂x
∂φ
vy = − (3.35)
∂y

use h = 0.001. Note que al interior del cilindro el campo de velocidades debe ser igual
a cero.

d) Dibuje el campo de velocidades usando el método: [Link](x[i],y[j],Vx[i,j],Vy[i,j]).

Deberı́a obtener algo como 3.2:

1
y[cm]

4 3 2 1 0 1 2 3 4
x[cm]

Figure 3.1: Campo de velocidades cerca de un cilindro sólido.

3.7. Ejercicios: Derivación 9

7. A classical electrodynamics problem is the following: suppose a point charge q held a

distance d above an infinite grounded conducting plane. The electric potential is given
by:

q 1 1
V (x, y) = p −p (3.36)
4π0 (x − r~q [0])2 + (y − d)2 (x − r~q [0])2 + (y + d)2

For this numerical estimation the position of the charge is r~q = (0.51, 0.21) m. Note that
d = r~q [1].

q
a) Calculate the electric field in arbitrary units where 4π0
= 1.

~ = −∇V (x, y)
E (3.37)

The derivation region is R ∈ [0., 1.] × [0., 1.] m2 and the step of discretization is
h = 0.05.
b) Plot the vectorial field using: [Link](x[i],y[j],Ex[i,j],Ey[i,j])
The result looks like this 3.2:

1.0 Conducting plane

Electric Charge

0.8

0.6
y[m]

0.4

0.2

0.0
0.2 0.4 0.6 0.8 1.0
x[m]

Figure 3.2: Electric field of an electric charge close to grounded conducting plane. Note that
the Gauss’ Law is satisfied because of the electric field is normal in the surface. Nice!

8. Es posible construir una aproximación de orden O(h2 ) para la derivada progresiva. Para
tal propósito, se escribe el polinomio de interpolación de grado 2 para el conjunto soporte
10 Chapter 3. Derivación e integración numérica

Ω = {(x0 , f (x0 )), (x1 , f (x1 )), (x2 , f (x2 ))}, y posteriormente se calcula la derivada de este
polinomio.

a) Calcular analı́ticamente el polinomio que interpola el conjunto soporte.

b) Derivar el polinomio interpolador para encontrar la derivada en el punto x0 :

1
f 0 (x0 ) ≈ p0 (x0 ) =(−3f (x0 ) + 4f (x1 ) − f (x2 )). (3.38)
2h
Si la discretización es equidistante, tenemos:

1
f 0 (x) ∼
= (−3f (x) + 4f (x + h) − f (x + 2h)). (3.39)
2h
p
c) (Python) Para f (x) = tan(x) estimar la derivada progresiva de orden O(h2 )
(expresión anterior) en el intervalo [0.1, 1.1] con h = 0.01.
p
d) (Python) Para f (x) = tan(x) estimar la derivada central de orden O(h2 ) en el
intervalo [0.1, 1.1] con h = 0.01.
e) Calcule analı́ticamente la derivada de la función f (x), y grafique con la estimación
central y progresiva de orden O(h2 ).
f) Grafique el error nodal para ambas aproximaciones. ¿Tienen efectivamente el mismo
orden de precisión ambos resultados?

9. (SymPy) El operador derivada central de orden superior se puede ver como una
combinación lineal de las imágenes del conjunto soporte:

n
df (x) ∼ X
= ci+n f (x + ih). (3.40)
dx i=−n

donde n representa el número de vecinos del punto de la estimación, por ejemplo, para
n = 2 se tiene: X = {−2h, −h, 0, h, 2h}. La primera derivada es entonces:

df (x) ∼
= c0 f (x − 2h) + c1 f (x − h) + c2 f (x) + c3 f (x + h) + c4 f (x + 2h). (3.41)
dx
El procedimiento de interpolación permite calcular el valor de los coeficientes y establecer
el orden de aproximación de la derivada (O(hk )). Los coeficientes del operador están dados
por las derivadas de las funciones cardinales evaluadas en el punto central X[2] = 0:
3.7. Ejercicios: Derivación 11

dLi (x)
ci = . (3.42)
dx x=0

Para cinco puntos nodales los coeficientes son:

1 2 2 1
~c = + , − , 0, + , − (3.43)
12h 3h 3h 12h

Usando elementos de álgebra lineal pueden ver: [Link]

En esta parte del curso, para encontrar los coeficientes les propongo la siguiente estrategia:

(a) Crear un sı́mbolo para evaluar la base cardinal:

x = [Link](’x’,real=True)

(b) Crear un sı́mbolo para el paso de derivación:

h = [Link](’h’,real=True)

(c) Crear una lista de sı́mbolos:

X=[-2*h,-1*h,0*h,1*h,2*h]

(d) Use la función Lagrange de la clase de interpolación para calcular la base cardinal
de cada punto. Debe cambiar en la lı́nea prod=1.0 a prod=1 para que no aproxime
los coeficientes a decimales.

(e) Cree una función que calcule los coeficientes y los guarde en otra lista. La función
debe tener como entrada el sı́mbolo x, la lista de simbolos X y el punto de evaluación
p.
def GetCoefficients(x,p,X):
Coefficients = []

(f) En la función, haga un for loop encontrando la base cardinal de cada punto de la
discretización.
for i in range(len(X)):
Li = Lagrange(x,X,i)

(g) Luego calcule la derivada:

dLi = [Link](Li,x,1)
12 Chapter 3. Derivación e integración numérica

(h) Calcule el coeficiente como la derivada evaluada en el punto p = 2.

C=[Link](x,X[p])
(i) Guarde el coeficiente.
[Link](C)
(j) Al iterar todos los puntos de la discretización retorne la lista de coeficientes.
(k) Deberı́a obtener el resultado deseado, Ecuación (3.43).
(l) Cuál es el orden de aproximación O(hk )?
Hint: Recuerde el error asociado al polinomio de interpolación de orden n.
3.8. Método de Newton-Raphson 13

Section 3.8
Método de Newton-Raphson

Es un método iterativo para encontrar las raı́ces reales polinomios usando conceptos de cálculo
diferencial. Tomemos un punto cualquiera xn y construimos la ecuación de la recta usando la
derivada de f (x) en xn .

f (xn+1 ) − f (xn )
Df (xn ) = (3.44)
xn+1 − xn
Se pretende que el siguiente punto en la iteración sea un raı́z de f (xn+1 ) = 0, por tanto:

f (xn )
xn+1 = xn − (3.45)
f 0 (xn )
Este es conocida como la forma iterativa de Newton-Raphson. Otro camino para deducir
esta formula consiste en expandir f (x) alrededor de xn .

(x − xn )2 00
f (x) = f (xn ) + f 0 (xn )(x − xn ) + f (xn ) + ... (3.46)
2!
Si se trunca la función hasta orden O(x2 ) y se evalúa en el siguiente punto xn+1 , el cuál se
considera un raı́z de f (x); se llega a la formula deseada.

3.8.1 Criterio de parada

Podemos usar el error relativo en cada iteración para detener el método.

|xk+1 − xk |
= (3.47)
|xk+1 |
el cual detiene el método cuando sea menor a una tolerancia, i.e, < 10−6 .

Section 3.9
Método de bisección

Este método consiste en obtener una estimación de la raı́ces de una función, la cuales se suponen
existe en cierto intervalo [a,b]. La existencia de las raı́ces (el teorema no establece cuántas raı́ces
existen en dicho intervalo) se garantizan por medio del teorema de Bolzano, que establece lo
siguiente:
14 Chapter 3. Derivación e integración numérica

Sea f : [a, b] → R una función continua en [a,b] tal que f (a) < 0 < f (b). Entonces, existe
al menos un punto c ∈ [a, b] tal que f (c) = 0.

Si se cumple el teorema de Bolzano en nuestro intervalo de estudio, podemos acercarnos a

la raı́z de la solución dividiendo el intervalo en su punto medio iterativamente.

a+b
xm = (3.48)
2
De los dos intervalos elegimos el intervalo que cumpla la condición de Bolzano: f (a)f (xm ) <
0 o f (xm )f (b) < 0. Repitiendo el proceso hasta que el intervalo sea lo suficientemente pequeño
para acotar la raı́z solución dentro de una vecindad arbitrariamente pequeña. La noción de
distancia está dada por:

|xk − xk−1 | < k (3.49)

El algoritmo de bisección se puede describir como sigue:

a) En el intervalo [a,b] se debe cumplir la condición de Boltzano: f (a)f (b) < 0. De lo contrario,
no existe la raı́z en dicho intervalo.

b) De Divide el intervalo en su punto medio, donde tenemos dos intervalos: [a, xm ] y [xm , b].

c) Si f (xm ) = 0, el punto medio es la raı́z, con un cierto error y la iteración termina.

d) Si f (a)f (xm ) < 0. la raı́z está en [a, xm ]. Hacer b = xm y repetir paso b). De lo contrario,
la raı́z está en [xm , b]. Hacer a = xm y repetir el paso b).

Dado que en cada paso la longitud del intervalo se divide por dos, la longitud del intervalo
b−a
después de k pasos se reduce a 2k
. La aproximación a la raı́z será el punto medio de dicho
intervalo, de este modo, el error en la aproximación está dada por:

1b−a
|k | < . (3.50)
2 2k
|k | es asignado arbitrariamente. Para cierta precisión se tiene la siguiente expresión del
número de pasos que acotan la solución en esa vecindad (|xk − xexacta | < k ):

ln((b − a)/k )
k> −1 (3.51)
ln(2)
3.10. Ejercicios: Raı́ces de polinomios 15

Section 3.10
Ejercicios: Raı́ces de polinomios

1. ¿De qué tipo es el error asociado a la estimación de raı́ces usando el método de

Newton-Raphson?

2. ¿Cómo ajustar la precisión para estimar raı́ces con el método de Newton-Raphson?

3. Calcular todas las raı́ces reales de:

f (x) = 3x5 + 5x4 − x3

(3.52)

4. (SymPy) Calcular todas las raı́ces reales de los primeros 20 polinomios de Legendre. La
formula de rodrigues es:

1 dn 2
pn (x) = (x − 1)n . (3.53)
2n n! dxn
El intervalo donde existen las raı́ces es: −1 ≤ x ≤ 1.

5. (SymPy) Calcular todas las raı́ces reales de los primeros 20 polinomios de Laguerre. La
formula de rodrigues es:

ex dn −x n
Ln (x) = (e x ). (3.54)
n! dxn
El intervalo donde existen las raı́ces es: 0 ≤ x ≤ ∞.

6. Un transmisor de un barco requiere enviar un pulso de luz a un submarino que se encuentra

sumergido. El transmisor de encuentra en la posición T~ = (−3, 2) m, el submarino se
~ = (2, −2) m y la superficie del agua de encuentra en el plano
encuentra en la posición R
y = 0. Como ustedes saben la luz se propaga a velocidad constante en el vacı́o y cambia
de velocidad al cambiar de medio. El comportamiento de la refracción está definido por
la ley de Snell:

n0 sin(α0 ) = n1 sin(α1 ) (3.55)

16 Chapter 3. Derivación e integración numérica

donde n es el ı́ndice de refracción del medio, y es la relación entre la velocidad de la luz

en el vació y la velocidad de la luz en el medio: n = c/v. Esta caracterı́stica óptica hace
imposible mandar el pulso de luz en lı́nea recta entre el transmisor y el emisor.

En su parcial deben lograr la comunicación con alta precisión, no pueden usar la

ley de refracción dado que no se tiene el ángulo de incidencia (α0 ) del pulso de luz.
Adicionalmente, la ley de Snell no involucra directamente los puntos donde están el barco
y el submarino. No obstante, la luz es muy bondadosa minimizando el tiempo de viaje
(principio de Fermat). Les propongo la siguiente estrategia:

Air
Transmitter Water

0
y[m]

Receiver
x[m]

Figure 3.3: Propagación de la luz en dos medios minimizando el tiempo de viaje.

(a) (Theoretical) Muestre que el tiempo de viaje del pulso de luz está dado por:

p p
t(x) = n0 (x − T [0])2 + T [1]2 + n1 (x − R[0])2 + R[1]2 (3.56)

donde x es el punto donde se debe apuntar el láser para alcanzar el receptor. Use
n0 = 1 para el aire y n1 = 1.33 para el agua.

(b) Implemente el tiempo de viaje en Python y dibújelo para algunos valores de x. Antes
de nada, identifique cualitativamente el lugar donde se minimiza el tiempo de viaje
del pulso.
3.10. Ejercicios: Raı́ces de polinomios 17

(c) Encuentre el mı́nimo del tiempo usando el método de Newton-Raphson con una
precisión de = 1 × 10−6 . Recuerde que la condición del mı́nimo es:

dt(x)
=0 (3.57)
dx x=xmin

Hint: Deberá implementar la primera y segunda derivada centrales (h = 1 × 10−5 ).

(d) Con la información vectorial del punto de ingreso del láser (xmin , 0), estime el ángulo
de incidencia α0 y ángulo de refracción α1 respecto al eje y (Figura 3.3).
(e) Se cumple la ley de Snell?
Hint: Puede calcular:

n0 sin(α1 )
= (3.58)
n1 sin(α0 )
18 Chapter 3. Derivación e integración numérica

Section 3.11
Interpolación de Lagrange

Teorema 1. (Teorema de aproximación de Weierstrass). Sea f ∈ [a, b], dado > 0 existe un
polinomio p(x) definido en [a, b] tal que:

|f (x) − p(x)| < ∀x ∈ [a, b]. (3.59)

Descubierto por Edwarg Waring en 1779 y redescubierto por Leonhard Euler en 1783, fue
publicado por Lagrange en 1795. Sea el conjunto soporte Ω = {(x0 , y0 ), (x1 , y1 ), ..., (xn , yn )} de
n + 1 puntos diferentes, existe un polinomio interpolador de grado n:

n
X
pn (x) = f (xi )Li (x), (3.60)
i=0

donde Li (x) es la base de Lagrange (también conocidas como funciones cardinales).

n
Y x − xj
Li (x) = (3.61)
j=0,j6=i
xi − xj

Este polinomio cumple que p(xk ) = yk para todo k en {0, ..., n}.

Ejemplo:
Encontrar las funciones cardinales (Li (x)) y el polinomio interpolador para el siguiente conjunto:
Ω = {(5, 10), (10, 15)}.

x − 10 1
L0 (x) = = − (x − 10) (3.62)
5 − 10 5

x−5 1
L1 (x) = = (x − 5) (3.63)
10 − 5 5
Por tanto, el polinomio interpolador es:

p1 (x) = 10L0 (x) + 15L1 (x)

p1 (x) = x + 5 (3.64)
3.12. Interpolación de Newton-Gregory 19

3.11.1 Error
Sea f : I → R, {xi }ni=0 ⊆ I, xi 6= xj para i 6= j y suponemos que f es derivable n + 1 veces. El
error asociado a la interpolación está dado por:

f n+1 (ξx )
E = f (x) − p(x) = (x − x0 )(x − x1 )...(x − xn ) (3.65)
(n + 1)!
donde p(x) es el polinomio interpolador en {xi }ni=0 y ξx ∈ al intervalo que contiene los puntos.

proof:
Si x es un punto xk la identidad se satisface para cualquier ξ. De lo contrario, si x es fijo y
diferente xk se considera una función auxiliar:

f (x) − p(x)
F (t) = f (t) − p(t) − cL(t), donde c= (3.66)
L(x)
Qn
L(x) = i=0 (x−xi ). Si evaluamos la función auxiliar en los puntos xk , F (xk ) = yk −yk −0 =
0 para todo k. Por tanto, F tiene n+1 ceros. Adicionalmente F (x) = f (x) − p(x) − cL(x) = 0,
dada la definición de c. entonces la función F tiene n + 2 ceros en el intervalo I. Ahora, por
el teorema de Rolle, F 0 debe tener al menos n+1 ceros en el intervalo que tiene a los puntos
xk ; entonces la (n+1)-ésima derivada debe tener al menos un cero. Sea ξx ese cero. Entonces
derivamos (n + 1) veces y evaluamos en ξx :

F n+1 (ξx ) = f n+1 (ξx ) − c(n + 1)! = 0 (3.67)

debido a que la (n+1)-ésima derivada de p(x) es cero. Entonces:

f n+1 (ξx ) 1
c= → cL(x) = f (x) − p(x) = f n+1 (ξx )L(x) (3.68)
(n + 1)! (n + 1)!

Section 3.12
Interpolación de Newton-Gregory

Sean los n + 1 puntos de la discretización x0 , x1 , ..., xn , tal que xi − xi−1 = h y sus respectivas
imágenes: f (x0 ), f (x1 ), ..., f (xn ). Se propone el polinomio de interpolación:

p(x) = a0 + a1 (x − x0 ) + a2 (x − x0 )(x − x1 ) + ... + an (x − x0 )(x − x1 )...(x − xn−1 ) (3.69)

20 Chapter 3. Derivación e integración numérica

Se requiere el cálculo de los coeficientes del este polinomio. Se establece la notación f (x0 ) =
f0 , evaluando el polinomio en x0 :

p(x0 ) = f0 (3.70)
Entonces a0 = f0 : evaluando en x1 :

p(x1 ) = f1
f1 = f0 + a1 (x1 − x0 )
f1 = f0 + a1 h (3.71)

Note que a1 es la derivada derecha. Evaluando en x2 :

p(x2 ) = f2
f2 = f0 + a1 (x2 − x0 ) + a2 (x2 − x0 )(x2 − x1 )
f1 − f0
f2 = f0 + (2h) + a2 (2h)(h) (3.72)
h
Entonces a2 se relaciona con la segunda derivada central:

f2 − 2f1 + f0
a2 = (3.73)
2h2
Pensemos en un término general para los coeficientes:

∆n f0
an = (3.74)
n!hn
donde ∆n+1 fi = ∆n fi+1 − ∆n fi , que se conoce como las diferencias finitas de la función.
Por ejemplo: podemos ver los primeros términos:

∆0+1 fi = ∆0 fi+1 − ∆0 fi
= fi+1 − fi (3.75)

∆1+1 fi = ∆1 fi+1 − ∆1 fi
= fi+2 − fi+1 − (fi+1 − fi )
= fi+2 − 2fi+1 + fi (3.76)
3.13. Ejercicios: Interpolación de Lagrange 21

∆2+1 fi = ∆2 fi+1 − ∆2 fi
= fi+3 − 2fi+2 + fi+1 − (fi+2 − 2fi+1 + fi )
= fi+3 − 3fi+2 + 3fi+1 − fi (3.77)

∆3+1 fi = ∆3 fi+1 − ∆3 fi
= fi+4 − 3fi+3 + 3fi+2 − fi+1 − (fi+3 − 3fi+2 + 3fi+1 − fi )
= fi+4 − 4fi+3 + 6fi+2 − 4fi+1 + fi (3.78)

El cálculo de estas diferencias resulta más evidente en el marco de matrices. Por ejemplo:
 
∆0 ∆1 ∆2 ∆3 ∆4 ∆5 ∆6
 
 39 0 0 0 0 0 0
 
−20
 
 19 0 0 0 0 0
 
−21 −40 −20 0 0 0 0
∆= (3.79)
 

−57 −36 4 24 0 0 0
 
−65 −8 28 24 0 0 0
 
 
−21 44 52 24 0 0 0
 
99 120 76 24 0 0 0
En este caso, el polinomio interpolador será de orden tres.

Section 3.13
Ejercicios: Interpolación de Lagrange

1. (Theoretical) Demuestre que el polinomio interpolador es único.

2. (Theoretical) Compruebe que las funciones cardinales son base (i.e, Li (x) = δij para
cada j ∈ {0, 1, ..., n}).
√
3. ¿Con qué grado de exactitud podemos calcular 114 mediante la interpolación de de
√
Lagrange para la función f (x) = x, si elegimos los puntos x0 = 100, x1 = 121, x2 = 144.
Rpta: |E| ' 1.8 × 10−3 .
22 Chapter 3. Derivación e integración numérica

4. En el lanzamiento de una bala, una cámara fotográfica registra las siguientes posiciones
en metros respecto al arma homicida (tome ~g = −9.8 m/s2 ĵ):
[Link]
[Link]
Estime el vector velocidad inicial, que estarı́a definido por la magnitud y dirección. Rpta:
V0 = 10 m/s y θ = 20◦ . Hint: Encuentre el termino lineal y cuadrático de la interpolación
y compare con la ecuación de trayectoria de la bala.

5. Interpolación Newton-Gregory: Para el siguiente conjunto de puntos:

[Link]
[Link]
Encuentre el polinomio interpolante de menor grado usando el método Newton-Gregory.

p(x) = a0 + a1 (x − x0 ) + a2 (x − x0 )(x − x1 ) + ... + an (x − x0 )(x − x1 )...(x − xn−1 ) (3.80)

Recuerde que las pendientes están definidas de forma recursiva:

f0 (xi ) = términos de la secuencia

f0 (x1 ) − f0 (x0 )
f1 (x0 , x1 ) =
x1 − x0
f1 (x1 , x2 ) − f1 (x0 , x1 )
f2 (x0 , x1 , x2 ) =
x2 − x0
fi−1 (x1 , ..., xi−1 , xi ) − fi−1 (x0 , x1 , ..., xi−1 )
fi (x0 , x1 , ..., xi−1 , xi ) = (3.81)
xi − x0
Usando las pendientes, el polinomio de grado n queda definido por:

p0 (x) = f0 (x0 )
p1 (x) = p0 (x) + f1 (x0 , x1 )(x − x0 )
p2 (x) = p1 (x) + f2 (x0 , x1 , x2 )(x − x0 )(x − x1 )
i−1
Y
pi (x) = pi−1 (x) + fi (x0 , x1 , ..., xi−1 , xi ) (x − xj ) (3.82)
j=0

El resultado se muestra en la Figura [3.4]:

3.13. Ejercicios: Interpolación de Lagrange 23

10 Interpolacion
Data
0

0 1 2 3 4 5 6

Figure 3.4: Interpolación usando el método de Newton-Gregory para el conjunto de datos

descritos en el problema.
24 Chapter 3. Derivación e integración numérica

Section 3.14
Integración

Para el calculo de integrales definidas existe una familia de métodos denominados Métodos de
Newton-Côtes, los cuales se basan en cambiar el integrando f (x) a un polinomio interpolador
que aproxima a f (x) en el intervalo de integración. El grado del polinomio interpolador queda
definido por el número de puntos a considerar, por ejemplo, en los casos más simples de
interpolación lı́neal (Regla de trapecio) e interpolación cuadrática (Regla de simpson), se tiene
expresiones sencillas que son fáciles de implementar computacionalmente.

3.14.1 Método de trapecio simple

Para la integral definida:
Z b
I= f (x)dx, (3.83)
a

el método de trapecios simple cambia el integrando por un polinomio interpolador de grado

uno. Este polinomio interpolador esta definido en el conjunto Ω = {(a, f (a)), (b, f (b))} que
finalmente conduce a la siguiente aproximación:

x−b x−a
f (x) ≈ p1 (x) = f (a) + f (b), ∀x ∈ [a, b]. (3.84)
a−b b−a
De modo que la integral tiene un valor aproximado:

b b
b−a
Z Z
I= f (x)dx ∼
= p1 (x)dx = (f (a) + f (b)) (3.85)
a a 2
El error en la estimación está asociado al procedimiento de interpolación. Suponiendo que
f (x) es continua y derivable de clase C 2 en el intervalo [a,b]:

f (x) = p1 (x) + (x), (3.86)

donde

f 00 (ξ)
(x) = (x − a)(x − b), a ≤ ξ ≤ b. (3.87)
2
Entonces el error asociado a la integración por le método del trapecio está dado por (h =
b − a):
3.14. Integración 25

b
h3 00
Z
E= (x)dx = − f (ξ) (3.88)
a 12
De esta forma el error alcanza un valor máximo para algún valor de ξ, donde la segunda
derivada de f (x) se maximice; de modo que podemos acotar el error máximo en esta estimación.

h3
|E| ≤ max |f 00 (ξ)|. (3.89)
12 |{z}
a≤ξ≤b

Notar que el error es de orden O(h3 ).

3.14.2 Método de trapecio compuesto

Para la integral definida:
Z b
I= f (x)dx, (3.90)
a

el método de trapecios compuesto genera una partición equi-espaciada tal que: xi+1 −xi = h,
∀i = [1, ..., n] sobre el conjunto Ω = {(x0 , f (x0 )), (x1 , f (x1 )), ..., (xn , f (xn ))}. Las condiciones
de borde corresponden con los lı́mites de integración (x0 = a y xn = b), definiendo el paso de
b−a
integración h = n
. La integral se puede escribir como:
Z b Z x1 Z x2 Z xn
f (x)dx = f (x)dx + f (x)dx + ... + f (x)dx, (3.91)
a x0 x1 xn−1

aplicando el método de trapecios simple se tiene:

Z b
h h h
f (x)dx ≈ (f (x0 ) + f (x1 )) + (f (x1 ) + f (x2 )) + ... + (f (xn−1 ) + f (xn )), (3.92)
a 2 2 2

tenemos la expresión para la regla de trapecio compuesta:

Z b n−1
h X
f (x)dx ≈ (f (a) + f (b)) + h f (xi ). (3.93)
a 2 i=1

La estimación del error se calcula sumando los errores en cada sub-intervalo.

n
X h2 00
E= Ei = − (f (ξ1 ) + f 00 (ξ2 ) + ... + f 00 (ξn )) (3.94)
i=1
12
26 Chapter 3. Derivación e integración numérica

El error puede ser acotado por el valor máximo promedio que tome la segunda derivada en
el intervalo [a, b].

h2 (b − a)
|E| ≤ max |f 00 (ξ)|. (3.95)
12 |{z}
a≤ξ≤b

Notar que el error es de orden O(h2 ).

3.14.3 Método de Simpson simple 1/3

Para la integral definida:
Z b
I= f (x)dx, (3.96)
a

el método de Simpson simple cambia el integrando por un polinomio interpolador

de grado dos. Este polinomio interpolador esta definido en el conjunto Ω =
a+b
{(a, f (a)), (xm , f (xm )), (b, f (b))}, donde xm = 2
es el punto medio del intervalo. La
interpolación conduce a la siguiente aproximación:

(x − b)(x − xm ) (x − a)(x − b) (x − a)(x − xm )

f (x) ≈ p2 (x) = f (a)+ f (xm )+ f (b), ∀x ∈ [a, b].
(a − b)(a − xm ) (xm − a)(xm − b) (b − a)(b − xm )
(3.97)
De modo que la integral tiene un valor aproximado:
Z b Z b
h
f (x)dx ∼
= p2 (x)dx = (f (a) + 4f (xm ) + f (b)). (3.98)
a a 3
Adicionalmente, es importante mencionar que la discretización debe ser par. El error de la
aproximación tiene una caracterı́stica interesante, dado que el error de la interpolación genera
un resultado idénticamente nulo. Suponiendo que f (x) es continua y derivable de clase C 3 en
el intervalo [a,b]:

f (x) = p2 (x) + (x), (3.99)

donde

b b
f 000 (ξ)
Z Z
E= (x)dx = (x − a)(x − b)(x − (a + b)/2)dx = 0, a ≤ ξ ≤ b. (3.100)
a a 4!
3.14. Integración 27

Esto significa que la regla de Simpson es exacta a orden O(h3 ), entonces necesitamos otro
camino para calcular el error de la estimación a orden O(h4 ). Para tal propósito, se va a
expandir en series de Taylor alrededor del punto medio xm a f (x) y al polinomio interpolador
p2 (x). Suponiendo que f (x) es continua y derivable de clase C 4 en el intervalo [a,b], a orden
O(h4 ) se tiene:

f 00 (xm ) f 000 (xm )

f (x) = f (xm ) + f 0 (xm )(x − xm ) + (x − xm )2 + (x − xm )3 + (x), (3.101)
2! 3!
donde el error es de orden O(h4 ).

f (4) (ξ)
(x) = (x − xm )4 . (3.102)
4!
Para reemplazar en la regla simple de Simpson, se debe encontrar f (a) y f(b), entonces:

0 f 00 (xm ) 2 f 000 (xm )

f (a) = f (xm − h) = f (xm ) + f (xm )(−h) + (−h) + (−h)3 + (xm − h)
2! 3!
00 000
f (x m ) f (x m)
f (b) = f (xm + h) = f (xm ) + f 0 (xm )(+h) + (+h)2 + (+h)3 + (xm + h)
2! 3!
(3.103)

Por tanto, la regla de Simpson queda expresada como (Notar como el término de orden
O(h3 ) no contribuye):

h h
(f (a) + 4f (xm ) + f (b)) = (6f (xm ) + f 00 (xm )h2 + (xm + h) + (xm − h))
3 3
h 1
= (6f (xm ) + f 00 (xm )h2 + f (4) (ξ)h4 ) (3.104)
3 12
Ahora integrando el desarrollo de Taylor dado por la Ecuación (3.101):

b
f 00 (xn ) 3 f (4) (ξ) 5
Z
f (x)dx = 2hf (xm ) + h + h. (3.105)
a 3 60
De modo que es posible calcular el error como la diferencia en las dos integrales.

Z b Z b
E = f (x)dx − p2 (x)dx
a a
(4) (4)
f (ξ) 5 f (ξ) 5 1
= h − h = − f (4) (ξ)h5 (3.106)
60 36 90
28 Chapter 3. Derivación e integración numérica

El error puede ser acotado por el valor máximo promedio que tome la cuarta derivada en el
intervalo [a, b]; notar que el error es de orden O(h5 ).

1 5
|E| ≤ h max |f (4) (ξ)|. (3.107)
90 |{z}
a≤ξ≤b

3.14.4 Método de Simpson compuesto

Para la integral definida:
Z b
I= f (x)dx, (3.108)
a

el método de Simpson compuesto genera una partición equi-espaciada tal que: xi+1 −xi = h,
∀i = [1, ..., n] sobre el conjunto Ω = {(x0 , f (x0 )), (x1 , f (x1 )), ..., (xn , f (xn ))}. Las condiciones
de borde corresponden con los lı́mites de integración (x0 = a y xn = b). Definiendo el paso de
b−a
integración como h = n
, la integral se puede escribir:
Z b Z x2 Z x4 Z b
f (x)dx = f (x)dx + f (x)dx + ... + f (x)dx (3.109)
a a x2 xn−2

Notar que el número de puntos de la partición deber ser par y que los puntos medios serı́an
el sub-conjunto {x2n+1 }. Aplicando el método simple a cada integral tenemos:

Z b
h
f (x)dx ≈ f (a)+4f (x1 )+f (x2 )+f (x2 )+4f (x3 )+f (x4 )+...+f (xn−2 )+4f (xn−1 )+f (b)
a 3
(3.110)
En general, podemos escribir la expresión final para el método de Simpson compuesto:

Z b n−1 n−2
h X X
f (x)dx ≈ f (a) + 4 f (xi ) + 2 f (xi ) + f (b) (3.111)
a 3 i=1,impares i=2,pares

Para la estimación del error total, se debe considerar el error cometido en cada una de las
integrales. De este modo:

1 5 (4) (4) (4)
|E| = h f (ξ1 ) + f (ξ2 ) + ... + f (ξn/2 ). (3.112)
90
Finalmente, acotando superiormente la estimación tenemos el error de la regla de Simpson
compuesta a orden O(h4 ).
3.14. Integración 29

b−a 4
|E| ≤ h max |f (4) (ξ)|. (3.113)
180 |{z}
a≤ξ≤b

Cabe resaltar que la regla de Simpson compuesta que aproxima el integrando por un
polinomio de orden tres, reduce en dos ordenes el error cometido por método de trapecio
compuesto.

Ejemplo:
Para la integral:
Z 1 p
1 + e−x2 dx, (3.114)
−1

Usando la regla de Simpson compuesta, ¿cuál debe ser el número de puntos para aproximar
la integral con un error menor a 0.001?

Usando el operador discreto D4 f (xj ) se estima el máximo en M = 3.183. Entonces:

r
4 (b − a)5
n≥ M ≈ 4.87 = 6 Intervalos (3.115)
E180
debido que el número de intervalos debe ser par!

3.14.5 Cuadratura Gaussiana

La idea es aproximar la integral a una suma ponderada de la función f (x), que use los valores
más óptimos posibles para su determinación. En general, la formula de cuadratura está dada
por:

n Z 1
∼
X (n) (n)
GM (f ) = wi f (xi ) = f (x)dx. (3.116)
i=1 −1

(n) (n)
Donde {wi } son los pesos de ponderación y los {xi } son los puntos de Gauss, ambos
cantidades dependen del número de puntos que se elijan. A diferencia de los métodos anteriores,
queremos encontrar una regla que nos permita maximizar el grado de precisión en nuestras
estimaciones. En general, para calcular los coeficientes se exige que la regla sea exacta para el
polinomio de mayor grado que se tenga. Tenemos entonces:
30 Chapter 3. Derivación e integración numérica

Z 1 n
X (n) (n)
xk dx = wi (xi )k k = 0, 1, ..., N (3.117)
−1 i=1

donde N es tan grande como sea posible. Necesitamos 2n condiciones para integrar
polinomios de grado 2n − 1, esto se denomina la regla de n puntos, para el grado polinomial
2n − 1.

(n)
Lema 1: Si N = 2n, entonces no existe el conjunto {wi } tal que se verifique la igualdad.

Qn n 2
Supongamos que existe dicho polinomio, si definimos L(x) = j=1 (x − xj ) entonces
R1 P (n) (n)
L(x) ≥ 0 y por tanto la integral −1 L(x)dx > 0. Sin embargo, wi L(xi ) = 0, entonces
hay una contradicción.

(n) (n)
Lema 2: Sea {wi } los pesos y {xi } los puntos de Gaus tal que se cumpla la
Ecuación (3.117) para k = 0, 1, 2, ..., N = 2n − 1, los pesos deben satisfacer:

Z 1
(n) (n)
wi = Li (x)dx, (3.118)
−1

con

n (n)
(n)
Y x − xk
Li (x) = (n) (n)
(3.119)
k=1,k6=i xi − xk
(n)
Las bases cardinales son de grado ≤ 2n − 1 y Li (xj ) = δij , como la regla de cuadratura
debe ser exacta para los polinomios de grado 2n − 1, entonces:

Z 1 n
X n
X
(n) (n) (n) (n) (n)
Li (x)dx = wj Li (xj ) = wj δij = wi (3.120)
−1 j=1 j=1

Qn (n)
Ahora, tenemos un polinomio de grado n, Pn (x) = i=1 (x − xi ) y supongamos que
tenemos un polinomio cualquier Q(x) de grado ≤ n − 1, de modo que la multiplicación tiene
grado ≤ 2n − 1. Por tanto la identidad de la cuadratura se debe satisfacer.

Z 1 n
X (n) (n)
Pn (x)Q(x)dx = wi Pn (xni )Q(xi ). (3.121)
−1 i=1
3.14. Integración 31

Por la definición de Pn (x) la integral es nula y los polinomios deben formar una base
ortonormal. Adicionalmente, el conjunto {xni } deben ser las raı́ces de los Pn (x).

En particular, tomemos una regla de cuadratura con 2 puntos nodales:

Z 1
pn (x)dx = w0 pn (x0 ) + w1 pn (x1 ). (3.122)
−1

Adicionalmente, se toma una base genérica b = {1, x, x2 , x3 }, imponiendo que la regla de

cuadratura sea exacta hasta el grado polinomial más alto.

Z 1
x0 dx = w0 + w1
−1
Z 1
x1 dx = w0 x0 + w1 x1
−1
Z 1
x2 dx = w0 x20 + w1 x21
−1
Z 1
x3 dx = w0 x30 + w1 x31 (3.123)
−1

Lo que conduce al siguiente sistema de ecuaciones no-lineales:

2 = w0 + w1 (3.124)
0 = w0 x0 + w1 x1 (3.125)
2/3 = w0 x20 + w1 x21 (3.126)
0 = w0 x30 + w1 x31 (3.127)

De las ecuaciones homogéneas, adecuadamente divida la Ecuación (3.127) por la

Ecuación (3.126) para encontrar que x0 = −x1 . De la Ecuación (3.125) muestre que w0 = w1 ,
con la Ecuación (3.126) muestre que w0 = w1 = 1, y finalmente, muestre que la ecuación (3.127)
√ √
conduce a x0 = −1/ 3 y x1 = 1/ 3. Con los anteriores resultados, la regla de cuadratura es:
Z 1 √ √
pn (x)dx = pn (−1/ 3) + pn (+1/ 3), n = 0, 1, 2, 3. (3.128)
−1

Ejemplo:
32 Chapter 3. Derivación e integración numérica

Obtener la regla de cuadratura para de f (x) en el intervalo [−3, 3] usando la siguiente

partición P = {−1, 0, 1}.

Calculando las funciones de Lagrange:

1
L1 (x) = x(x − 1)
2
L2 (x) = −(x + 1)(x − 1)
1
L3 (x) = x(x + 1) (3.129)
2
Integrando dichas funciones en el intervalo [−3, 3] obtenemos el conjunto de pesos:

wi3 = {9, −12, 9} (3.130)

Entonces la regla de cuadratura es:

Z 3
f (x)dx ≈ 3[3f (−1) − 4f (0) + 3f (1)]. (3.131)
−3

Note que es exacta para f (x) = x2 .

3.14.6 Cuadratura de Gaus-Legendre

De la necesidad del uso de polinomios ortonormales y el cálculo de sus raı́ces, surge la cuadratura
de Gaus-Legendre. Este calculo usa los polinomios de Legendre como conjunto ortonormal.

1 dn 2
pn (x) = (x − 1)n , (3.132)
2n n! dxn
Los primeros polinomios son:

p0 (x) = 1
p1 (x) = x
1
p2 (x) = (3x2 − 1)
2
1
p3 (x) = (5x3 − 3x) (3.133)
2
cumplen con la siguiente relación de completez:
3.14. Integración 33

(
1
0 m 6= n
Z
pn (x)pm (x)dx = 2
(3.134)
−1 2n+1
m=n
y las siguientes relaciones de recurrencia.

(n + 1)pn+1 (x) = (2n + 1)xpn (x) − npn−1 (x). (3.135)

dpn
(x2 − 1)= nxpn − npn−1 . (3.136)
dx
Adicionalmente se tiene el siguiente coeficiente director.

(2n)!
an = (3.137)
2n (n!)2
Para calcular los pesos de la cuadratura de Gauss-Legendre, se requiere escribir las funciones
cardinales en términos de los polinomios de Legendre. Si definimos las funciones base de
Lagrange como:

pn (x)
L(x) = (3.138)
x − xk
Tenemos una forma indeterminada cuando x = xk . Para conocer dicho lı́mite, si existe,
usemos la regla de L’Hôpital.

dpn (x)
= p0n (xk )
dx

lim L(x) =
d(x−xk )
(3.139)
x→xi
dx x=xk

como las funciones de Lagrange deben ser base y valor 1 justo en cada raı́z, se tiene la
siguiente expresión.

1 pn (x)
L(x) = (3.140)
p0n (xk ) x − xk
Por tanto, los pesos pueden ser evaluados por:
Z 1
1 pn (x)
wk = 0 dx (3.141)
pn (xk ) −1 x − xk
Ejemplo:

Calcular los pesos de ponderación para dos puntos (n = 2). El polinomio de Legendre serı́a
p2 (x) = 12 (3x2 − 1), cuyas raı́ces son: x0 = √1 ,
3
x1 = − √13 . Los pesos están dados por:
34 Chapter 3. Derivación e integración numérica

1 1
(3x2 − 1)
Z
1 2
w0 = dx = 1. (3.142)
3( √13 ) −1 x− √1
3

1 1
(3x2 − 1)
Z
1 2
w1 = dx = 1. (3.143)
3(− √13 ) −1 x+ √1
3

Por tanto, la regla de cuadratura para dos puntos es:

Z 1
1 1
f (x)dx = f ( √ ) + f (− √ ) (3.144)
−1 3 3
para integrales que tiene un lı́mite de integración diferente al de los polinomios de Legendre,
es posible hacer un cambio de variable de modo que -1 coincida con el lı́mite inferior y 1 con el
lı́mite superior de la integral. Planteando la siguiente proporción:

x−a t − (−1)
= , (3.145)
b−a 1 − (−1)
de manera que:

1
x =[t(b − a) + a + b]
2
1
dx = (b − a) (3.146)
2
Usando este cambio de variable, podemos escribir la regla de cuadratura para cualquier
intervalo de integración.
Z b n
1 X 1
f (x)dx = (b − a) wk f ( [tk (b − a) + a + b]) (3.147)
a 2 k=0
2
La Ecuación (3.141) aunque es correcta, resulta poco útil para calcular los pesos a alto orden
computacionalmente. Es posible encontrar una versión integrada de dicha expresión usando el
siguiente teorema:

Teorema 2. (Identidad de Christoffel-Darboux) Sea {pn(x) }∞

n=0 el sistema ortonormal de
polinomios respecto a un peso ω(x). Entonces, para todo x, y ∈ R, x 6= y y n ≥ 1 se cumple.

n−1
X an−1 pn (x)pn−1 (y) − pn−1 (x)pn (y)
pk (x)pk (y) = (3.148)
k=0
an x−y
siendo pn (x) = an xn + ... y an > 0
3.14. Integración 35

Usando esta identidad y haciendo y = xk las raı́ces de los polinomios tenemos.

n−1
X an−1 pn (x)pn−1 (xk )
pk (x)pk (xk ) = (3.149)
k=0
an x − xk
Integrando, tenemos:
Z 1
an−1 pn (x)
1= pn−1 (xk ) dx (3.150)
an −1 x − xk
Por tanto, podemos escribir la Ecuación (3.141) como:

an
wk = (3.151)
an−1 pn−1 (xk )p0n (xk )
an
Un cálculo sencillo muestra que an−1
= 2/n y usando la Ecuación (3.136).

2
wk = , k = 1, ..., n (3.152)
(1 − x2k )[p0n (xk )]2
Esta última expresión permite calcular los pesos usando librerias como Simpy.

3.14.7 Doble cuadratura

En el caso de integración doble:
Z d Z b
I= f (x, y)dxdy (3.153)
c a
Tenemos un extensión de la regla de cuadratura denominada doble cuadratura. Recordemos
el cambio de variable para llevar la integral al intervalo [−1, 1].

d 1
b−a
Z Z
1
I= f ( (t1 (b − a) + a + b), y)dt1 dy (3.154)
c 2 −1 2
Aplicando el cambio de variable nuevamente para la variable y.

1 1
(b − a)(d − c)
Z Z
1 1
I= f ( (t1 (b − a) + a + b), (t2 (d − c) + c + d))dt1 dt2 . (3.155)
4 −1 −1 2 2
Aplicando la regla de cuadratura de n puntos, tenemos:

n n
(b − a)(d − c) X X (n) (n) 1 (n) 1 (n)
I∼
= wi wj f ( (xi (b − a) + a + b), (xj (d − c) + c + d)). (3.156)
4 i=1 j=1
2 2
36 Chapter 3. Derivación e integración numérica

En el caso del cáscaron esférico, los limites de integración son variables. En efecto, x2 =
R1
R2 − y 2 y dA = 2πxdx. El volumen del cáscaron será 0 A(y)dy. En términos de integrales
dobles tenemos:

Z 1 Z √R2 −y2
2
2πxdxdy = π, R = 1. (3.157)
0 0 3
Esto involucra una dificultad adicional para aplicar la regla de cuadrátura, dado que:
q
(n) (n)
b(xi ) = R2 − (xi )2 . (3.158)

Por inspección, usted puede comprobar que para lı́mites variables la cuadratura está dada
por:

n X
X n
d−c 1 (n) 1 (n)
I∼
(n) (n) (n)
= wi (b(xi )−a)wj f ( (xi (b−a)+a+b), (xj (d−c)+c+d)). (3.159)
4 j=1 i=1
2 2

3.14.8 Ejercicios: Integración

1. (Theoretical) Hacer pasos intermedios para regla de trapecio simple, Ecuación (3.85).

2. (Theoretical) Encontrar el error para regla de trapecio simple, Ecuación (3.88).

3. (Theoretical) Hacer los pasos intermedios para encontrar la regla de Simpson simple,
Ecuación (3.98).

4. (Theoretical) Verificar el resultado presentado en la Ecuación (3.100).

5. Resolver la siguiente integral con el método del trapecio:

Z 1
2
e−x dx (3.160)
0

usando la condición que el error debe ser menor a 0.005 en el cálculo (si el número de
puntos (n) es decimal tomar el mayor entero).

6. Para encontrar la inductancia exacta de una bobina toroidal es necesario calcular la

integral:
3.14. Integración 37

√
Z a
a2 − x 2 √
dx = π(R − R2 − a2 ), (3.161)
−a R+x

donde R = 0.5 cm es el radio al centro del toriode y a = 0.01 cm es el radio de la

sección transversal del toriode. Estimar la integral con el método del trapecio y la regla
de Simpson 1/3, con un error menor al 0.5%. Realizar la integral es un verdadero reto
analı́tico.

7. Una forma de generalizar el método de integración del trapecio para una integral doble
de una función f (x, y) consiste en dividir el plano xy en un grilla de cuadrados iguales y
calcular el promedio del valor de la función de cada uno de los 4 vértices de cada cuadrado
pequeño de la grilla. Calcule numéricamente el volumen de una semiesfera [3.5] de radio
R = 1 como sigue:

a) Cree una grilla entre −R y R en el plano xy, donde el número de cuadrados en cada
lado de la grilla sea n. Es decir, la grilla tendrı́a n + 1 puntos en cada eje, y n2
cuadrados pequeños.

b) Para cada cuadrado pequeño calculo el promedio de la función en los cuatro vértices
y multiplique por el área del cuadrado pequeño. Si el punto queda fuera de la esfera
asuma que el valor de la función f (x, y) es cero.

1.0
0.8
0.6
0.4
0.2
0.0
1.00
0.75
0.50
0.25
1.000.75 0.00
0.500.25 0.25
0.000.25 0.50
0.500.75 0.75
1.00 1.00

Figure 3.5: Domo esférico

38 Chapter 3. Derivación e integración numérica

8. Implemente la regla de doble cuadratura dada por la Ecuación (3.159) para solucionar el
problema del cáscaron esferico.

9. (Sympy) La regla de Simpson 3/8 consiste en aproximar el integrando por un polinomio

interpolador de orden 3.

a) Encontrar las funciones cardinales de dicha interpolación e integrar para demostrar

que:
Z b
∼ 3h 2a + b a + 2b
f (x) = f (a) + 3f ( ) + 3f ( ) + f (b) . (3.162)
a 8 3 3
El número de puntos de la discretización debe ser múltiplo de tres.
Hint: Use la siguiente discretización {0, h, 2h, 3h}.
2a+b a+2b
b) Dado que h = (b − a)/3, muestre que los puntos intermedios son 3
y 3
respectivamente.

10. (Sympy) Muestre que el error asociado a la regla de Simpson 3/8 simple está dado por:

b
f (4) (ξ)
Z
3 5 (4)
E= (x − x0 )(x − x1 )(x − x2 )(x − x3 )dx = − h f (ξ). (3.163)
4! a 80

Hint: Considere la siguiente integral:

Z 3h
I= (x)(x − h)(x − 2h)(x − 3h)dx (3.164)
0

11. (Theoretical) Muestre que para la regla de Simpson 3/8 compuesta, el error puede ser
acotado por:

(b − a) 4 (4)
|E| ≤ |{z} |f (ξ)|.
h max (3.165)
80
a≤ξ≤b

12. Using the Simpson’s 3/8 rule, calculate the following integral:

Z 1 p
I= 1 + e−x2 dx ≈ 2.6388571169 (3.166)
−1
3.14. Integración 39

13. Evaluar:

Z 2
1
dx, (3.167)
1 x2

por medio de la cuadratura de Gauss-Legendre con dos y tres puntos. Rpta: I2 =

0.497041, I3 = 0, 499874.

10
14. Escribir el polinomio p(x) = 3 + 5x + x2 en la base de Legendre. Rpta: p(x) = 3 0
p (x) +
5p1 (x) + 32 p2 (x)

15. (Sympy) Dada la aproximación de cuadratura gausiana:

Z 1 n
X
f (x) = wk f (xk ), (3.168)
−1 k=0

donde w0 , w1 , ...wn son los coeficientes ponderados ó pesos.

(a) Halle los ceros de los primeros 20 polinomios de Legendre.

(b) Halle los pesos de ponderación para los primeros 20 polinomios de Legendre.

16. Estime la siguiente integral usando el método de cuadratura de Gaus-Legendre:

Z ∞
1
≈ 1.110721 (3.169)
0 x4 +1

Hint: Dividir la integral para tener dos integrales con lı́mites [-1,1] y [0,1].

17. In the black-body radiation problem the following integral appears:

∞
x3 π4
Z
dx = . (3.170)
0 ex − 1 15

a) Compute this integral using the Gauss-Laguerre quadrature method for n=3 evaluation
points.

b) For this estimation, plot the relative error (r (n) = Iestimated (n)/Iexact ) as a function
of the evaluation points, with n = [2, 3, ..., 10] [3.6].
40 Chapter 3. Derivación e integración numérica

Hint: For the Gauss-Laguerre method, the weights are given by:

xk
wk = (3.171)
(n + 1) [Ln+1 (xk )]2
2

1.000

0.998

0.996

0.994
(n)

0.992

0.990

0.988 Laguerre quadrature acurracy

2 3 4 5 6 7 8 9 10
n

Figure 3.6: Accurracy vs n-points for the Gauss-Laguerre quadrature.

18. (Sympy) La cuadratura de Gaus-Hermite está definida para integrales de la forma:

Z ∞
2
I= f (x)e−x dx (3.172)
−∞

que tiene la siguiente representación en cuadraturas:

N
I∼
X
= wi f (xi ) (3.173)
i=1

donde los puntos xi son las raı́ces de los polinomios de Hermite dado por la formula de
Rodrigues:

2 dn −ξ2
Hn (ξ) = (−1)n eξ e (3.174)
dξ n
La formula de los pesos de Gaus-Hermite está dada por:

√
2n−1 n! π
wi = 2 (3.175)
n Hn−1 (xi )2
3.14. Integración 41

(a) Encontrar los primeros 20 ceros de los polinomios y los correspondientes pesos de la
cuadratura.
(b) El estado de un oscilador armónico en mecánica cuántica está dado por la funciones
de probabilidad:

1 mω 1/4 −ξ2 /2
ψn (ξ) = √ ( ) e Hn (ξ) (3.176)
2 n! π~
n
p mω p mω
donde ξ = ~
x. Haga ~
= 1, es decir, ξ = x para la aplicación numérica.
Estime numéricamente el valor cuadrático medio de la posición de la partı́cula en el
primer estado exitado (n = 1). El valor exacto de la integral está dado por:
Z ∞
2
< x >= |ψ1 (x)|2 x2 dx = 3/2 (3.177)
−∞

El polinomio de Hermite de orden 1 está dado por:

H1 (x) = 2x (3.178)

19. Superconductividad: BSC(Bardeen,Schrieffer,Cooper) Temperatura crı́tica

En este modelo de superconductividad a temperaturas cerca del cero absoluto, surge una
ecuación denominada la ecuación de banda prohibida.

p
~ωD
2 + ∆(T )2 /2kB T )
Z
1 1 tanh(
= pk dk (3.179)
N0 V 2 −~ωD 2k + ∆(T )2
donde las constantes definen un sistema termodinámico a nivel cuántico y ∆(T ) define
el valor de la banda prohibida (Note que la función no tiene anti-derivada y requiere
un procedimiento completamente numérico). Definamos la temperatura de Debye como
~ωD
TD = kB
= 300 K y N0 V = 0.3. Por inspección, la integral toma la forma:

1
p
tanh( x2 + ∆0 (T )2 TD /2T )
Z
1 1
= p dx (3.180)
N0 V 2 −1 x2 + ∆0 (T )2
Note que ∆0 (T ) = ~ωD ∆(T ) (banda prohibida primada). Existe una temperatura a la
cuál la banda prohibida tiende a cero ∆(T ) → 0, dicha temperatura es la temperatura
crı́tica Tc donde el material se convierte en superconductor. Para estimar Tc de este
material les propongo la siguiente estrategia:
42 Chapter 3. Derivación e integración numérica

(a) Implemente la función a integrar en Python. Esta función debe tener la temperatura
T y el tamaño de la banda prohibida ∆0 (T ) como parámetros.

(b) Cargar los puntos y los pesos de la cuadratura de Gaus-Legendre a orden n = 20.

(c) Debe variar la temperatura del material entre 1 a 20 y hacer el cálculo de la integral.
La temperatura crı́tica será justamente cuando la integral sea aproximadamente igual
a:

1
≈ Integral(T = Tc , ∆0 (Tc ) = 0). (3.181)
N0 V
(d) En ese sentido deberá usar algún criterio de parada del algoritmo. Por ejemplo:
if [Link](I-1/(N0V)) < 1e-3: return Tc. La temperatura crı́tica es: Tc ≈
12.1278 K (Pag 97) [1].

20. Superconductividad 2: BSC(Bardeen,Schrieffer,Cooper) banda prohibida

superconductora
En este problema se calculará la banda prohibida como función de la temperatura en la
fase superconductora. Usando el problema anterior, implemente la siguiente rutina:

(a) Debe variar los parámetros T y ∆0 (T ). La temperatura debe variar como:

t = [Link](0.05,20.,50) y la banda prohibida primada como:
delta = [Link](0.,1.,10000)
Para cada valor de temperatura, debe encontrar el valor de la banda prohibida
primada donde la integral sea aproximadamente igual a:

1
≈ Integral(T = t, ∆0 (T ) = delta). (3.182)
N0 V
(b) Guarde los valores de temperatura y banda como: T = t/Tc y ∆(T ) = delta(TD /Tc ).
Este cálculo se debe al cambio de variable en la integral y a la forma de graficar la
banda prohibida.

(c) Dibuje la banda prohibida ∆(T )/kb Tc como función de la temperatura crı́tica
T /Tc . Si guardo correctamente los datos del numeral anterior, deberı́a obtener algo
como (Pag 96) [1]:

(d) Estime el valor de la banda prohibida en el cero absoluto:

3.14. Integración 43

1.75
1.50
1.25

(T)/kbTc
1.00
0.75
0.50
0.25
0.00
0.2 0.4 0.6 0.8 1.0
T/Tc
Figure 3.7: Banda prohibida de la fase superconductora de un material con Tc ≈ 12.1278. El
valor en ∆(T = 0), es independiente del material del superconductor.

∆T (0)/kb Tc ≈ 1.763 (3.183)

Este valor no depende del material del que está hecho el superconductor y es uno de
los resultados más hermosos de la fı́sica del siglo XX.
44 Chapter 3. Derivación e integración numérica
Chapter 4

Método de MonteCarlo

Section 4.1
Generación pseudo-aleatoria de números

En general, no es posible generar auténticos números aleatorios por computador. Para obtener
una secuencia aparentemente aleatoria, se utilizan métodos deterministas con altos periodos de
repetición. Los métodos de congruencia lineal están definidos por:

xn+1 = (axn + c)mod m n ≥ 0, (4.1)

donde 0 ≤ a < m se denomina multiplicador, 0 ≤ c < m es el incremento y m es

el módulo del método. En la secuencia x0 se denomina la semilla del generador y debe
ser ajustada inteligentemente para obtener secuencias diferentes en cada generación. En la
expresión congruencial, el modulo representa el resto entre (axn + c) y m, Por ejemplo si
x0 = 1, a = 16, c = 0 y m = 7 tenemos la siguiente secuencia x1 = 2, x2 = 4, .... Uno de los
generadores más conocidos y usados tanto en C++ como en Python está definido por:

a = 5DEECE66D (base 16)

c = B (base 16)
m = 248 (4.2)

Para obtener un secuencia de números normalizada entre cero y uno (0 ≤ r ≤ 1), se debe
normalizar al modulo (m) la ecuación congruencial.

45
46 Chapter 4. Método de MonteCarlo

xn+1 (axn + c)mod m

r= = (4.3)
m m
Para obtener una distribución de número en otro intervalo cualquiera (A ≤ x ≤ B) se tiene
debe escalar la distribución U(0, 1).

x = A + (B − A)r. (4.4)

Por otro lado, es importante garantizar la aleatoriedad de la secuencia, para tal propósito,
se tienen algunas pruebas a la función de distribución de dicha secuencia [3], por ejemplo,
podemos usar el momento de la distribución (P (x)):

N
1 X k∼ 1 k
Z
1 1
xi = x P (x)dx ∼
= + O( √ ) (4.5)
N i=1 0 k+1 N

También se puede estudiar las correlación entre los k-vecinos cercanos, donde k es pequeño:

N
1 X
C(k) = xi xi+k , k = 1, 2, ... (4.6)
N i=1

Si la secuencia es aproximadamente uniforme podemos aproximar la suma como:

N Z 1 Z 1
1 X ∼ 1
xi xi+k = dx dyxyP (x, y) = . (4.7)
N i=1 0 0 4

De modo que, si la distribución de números pseudo-aleatorio sigue una función de

distribución uniforme, C(k) debe tener como máximo 1/4. La Figura [4.1] muestra las
correlaciones de los primeros 30 vecinos para un generador de números aleatorios malo y uno
bueno. Note que un buen generador de eventos debe mantener las correlaciones alrededor de
1/4.

Section 4.2
Integración MonteCarlo

La integración Montecarlo es un método de integración de funciones generales que se sustenta

en la ley de grandes números.
4.3. Ley de grandes números 47

0.34 0.34

0.32 0.32

0.30 0.30

0.28 0.28
C(k)

0.26 0.26

0.24 0.24

0.22 0.22

0.20 0.20
0 5 10 15 20 25 30 0 5 10 15 20 25 30
k-esimo, Mal Generador k-esimo, Generador drand48

Figure 4.1: Correlaciones en los primeros k-vecinos para un mal generador (izquierda) y un
buen generador (drand48) de números aleatorios.

Section 4.3
Ley de grandes números

Sea {xi } un conjunto de puntos muestrales (observaciones o datos simulados por computador)
y el promedio muestral de dicho conjunto.

N
1 X
x̄ = xi . (4.8)
N i=1
Al aumentar el tamaño de la muestra, el promedio muestra converge al valor esperado con
probabilidad i.

Muestral → P oblacional
x̄ → E(x)
R1
De esta manera, el operador integración 0 f (x)dx puede verse como el valor esperado de
E(f (x)) donde x ∼ U(0, 1) tiene una distribución uniforme. De este modo, tomemos una
muestra x1 , x2 , ... ∼ U(0, 1) y evaluamos en la función f (x1 ), f (x2 ), ..., entonces:

N
1 X
→ E(f (x))
f (xi ) |{z} (4.9)
N i=1
N →∞
48 Chapter 4. Método de MonteCarlo

El valor promedio de una función está dado por:

Z b
1
f¯ = f (x)dx, (4.10)
b−a a
en consecuencia:

N Z b
1 X 1
lim f (xi ) = f (x)dx. (4.11)
N →∞ N
i=1
b − a a

Otro resultado interesante es que si x es una variable aleatoria con densidad de probabilidad
f y g es una función g : R → R, entonces:

Z ∞ N
X
E(g(x)) = g(x)f (x)dx = g(xi )f (xi ). (4.12)
−∞ i=1

Section 4.4
Método de la transformada inversa

Rx
Sea x una variable aleatoria con densidad de probabilidad f , y sea F (x) = −∞
f (s)ds la función
acumulada de f . Dado que, la función acumulada de probabilidad es monotona creciente resulta
ser inyectiva. De manera que, existe un único valor en el rango tal que:

F −1 (u) = x. (4.13)

Por tanto, podemos generar una distribución uniforme y tomar la pre-imagen en la

distribución acumulada. El resultado es el siguiente:

Sea U ∼ U(0, 1) y F una distribución acumulada, entonces F es injectiva en algún intervalo

pre-imagen de [0,1]. Si X se define como F −1 (U ) = X, entonces X tiene distribución F .

proof:

Queremos ver si P (X ≤ x) = F (x), lo que significa que x tiene distribución F . Por definición
de X:

P (X ≤ x) = P (F −1 (U ) ≤ x) (4.14)
4.5. Método de aceptación y rechazo 49

Como F es monotona creciente en el intervalo [0,1] es invertible:

P (X ≤ x) = P (F (F −1 (U )) ≤ F (x))
= P (U ≤ F (x))
= F (x) (4.15)

El último paso se justifica dado que U tiene distribución uniforme U ∼ U(0, 1). El algoritmo
se resume como sigue:

1. Generar un número aleatorio que siga una distribución uniforme U ∼ U(0, 1).

2. Tomar la pre-imagen de U , X = F −1 (U ).

Section 4.5
Método de aceptación y rechazo

En la gran mayoria de los casos es imposible encontrar la función inversa para usar el método
de transformada inversa. En estos casos, se utiliza el método de aceptación y rechazo, el
cual mediante la distribución uniforme de números puede calcular el área bajo la curva de
distribuciones complicadas. Este método consiste se base en los siguientes pasos:

1. Generamos un xi que siga una distribución uniforme entre contenido en el intervalo de

integración [a,b].

2. Para xi , generamos un yi que siga una distribución uniforme entre 0 y el máximo de f(x).

3. Si yi < f (xi ) incluimos el valor xi en la lista, de otro modo, no incluimos el valor xi .

Section 4.6
Incertidumbre del método de MonteCarlo

La incertidumbre en el método de MonteCarlo se estima propagando el error cometido en cada

uno de los puntos muestrales xi . Recordemos que la media muestral está dada por:

N
1 X
x̄ = xi (4.16)
N i=1
50 Chapter 4. Método de MonteCarlo

entonces:

∂ x̄ 1
= (4.17)
∂xi N
Teniendo en cuenta que cada medición es independiente la varianza asociada a la media
muestra es:

N 2 N
X ∂ x̄ X 1 2
V ar(x̄) = δi2 = δ (4.18)
i=1
∂xi i=1
N2 i

Por tanto, la incertidumbre está dada por:

δ
V ar(x̄) ∼
p
=√ (4.19)
N
δ es despreciable con el número de eventos simulados, en general se ajusta a 1 para tener
√
una relación exacta con 1/ N .

√
En esta ecuación es importante resaltar que la precisión del Método disminuye con N,
lo cuál debe tenerse en cuenta para cada calculo realizado con esta técnica. En el cálculo del
número aureo usando la sucesión Fibonnaci aunque los puntos no provienen de un proceso
aleatorio, la precisión del método tiene una dependencia similar.

Section 4.7
Ejercicios: Método de MonteCarlo

1. Demostrar la Ecuación (4.4).

2. Programar un mal generador de números aleatorios y usar drand48 en Python para

reproducir la Figura [4.1].

3. Un test simple para probar la calidad de un generador de eventos es evaluar los momentos
de la distribución de datos, la cual difiere del valor de la distribución uniforme en un orden
de aproximación O( √1N ); esto se debe al error asociado al método de MonteCarlo.

N
1 X k∼ 1 k
Z
1 1
xi = x P (x)dx ∼
= + O( √ ) (4.20)
N i=1 0 k+1 N
4.7. Ejercicios: Método de MonteCarlo 51

a) Implemente un código que estime los primeros k = 10 momentos de la distribución

de datos generados por Numpy. Genere [Link](2,6,5) eventos y grafique el eje
x en escala logaritmica. Lo momentos de la distribución de datos de muestran en la
Figura [4.2]

0.6 k=1
k=2
k=3
k=4
k=5
0.5 k=6
k=7
k=8
k=9
k = 10

0.4
k-moment value

0.3

0.2

0.1

0.0

102 103 104 105 106

N Points

Figure 4.2: Primeros k = 10 vecinos del generador Numpy como función del número de eventos
generados.

4. Otro método para probar la calidad de un generador de eventos es evaluar las correlaciones
con los k -vecinos más cercanos, donde k ∼ 30.

N
1 X
C(k) = xi xi+k , (k = 1, 2, 3...) (4.21)
N i=1

a) Implemente un código que estime los coeficientes de correlación para los primeros k=30
vecinos, con N = 104 eventos de la distribución de datos generados por Numpy. Las
correlaciones se muestran en la Figura [4.3].

5. Escriba un código que genere una secuencia uniforme de eventos, contenidas en una esfera
de radio R = 2 como se muestra en la Figura [4.4].

6. Usando la generación de puntos sobre una esfera estime los momentos de inercia de la
esfera respecto a los ejes de rotación Ixx , Iyy , Izz . Los momentos están dados por:
52 Chapter 4. Método de MonteCarlo

Generador Numpy
0.30

0.28

0.26

C(k) 0.24

0.22

0.20
0 5 10 15 20 25 30
k-esimo vecino

Figure 4.3: Correlaciones de los primeros k = 30 vecinos del generador Numpy como función de
k-esimo vecino. Note que el valor debe fluctuar alrededor del valor teórico C(k) = 1/4.

1.0 1.0

0.8
0.5

0.6
0.0
0.4

0.5
0.2

0.0 1.0
0.0 1.0
0.2 0.5
0.4
0.6 0.2 0.0 0.0 0.5 1.0
0.8 0.6 0.4 0.5 0.5 0.0
1.01.0 0.8 1.01.0

Figure 4.4: Generación de eventos cartesiana (izquierda) y esférica para R = 1 (derecha).

Z
Ixx = (y 2 + z 2 )dxdydz
ZV
Iyy = (x2 + z 2 )dxdydz
ZV
Izz = (x2 + y 2 )dxdydz (4.22)
V
4.7. Ejercicios: Método de MonteCarlo 53

En este problema estamos asumiendo que la densidad de la esfera es ρ = 1 kg/m3 con

volumen unitario. Usando el método de MonteCarlo las integrales se pueden estimar
como (por ejemplo para Ixx ):

N
1 X
Ixx ≈ (y[i]2 + z[i]2 ) (4.23)
N i=1

Compare con el resultado exacto Iij = 2/5 para i = x, y, z con i = j. Adicionalmente,

estime el producto de inercia Ixy :

Z
Ixy = − xydxdydz. (4.24)
V

Qué puede concluir sobre la simetrı́a de rotación de la esfera?

7. Usando la generación de puntos sobre una esfera estime la siguiente integral para {x2 +
y 2 + z 2 ≤ 1}:

Z Z Z √
x2 +y 2 +z 2
e dxdydz = 4π(e − 2) (4.25)

8. Haga una gráfica entre la precisión (Iestimated /Iexact ) y el número de puntos muestrales,
el cuál debe tener un rango de valores adecuado para ver el comportamiento. ¿Qué
dependecia se observa?

9. La distribución Beta está dada por:

Γ(α + β) α−1
f (x; α, β) = x (1 − x)β−1 , 0≤x≤1 (4.26)
Γ(α)Γ(β)
donde Γ(n) = (n − 1)!. Para f(x; 2,4), halle el área bajo la curva usando el método de
aceptación y rechazo con una incertidumbre del 1%.

10. La siguiente integral multidimensional:

Z 1 Z 1 8
X 2
−7
··· 2 xi dx1 dx2 ...dx8 , (4.27)
0 0 i=1

25
tiene el valor exacto 192
, usando el método de MonteCarlo estime esta integral con tres
cifras de precisión.
54 Chapter 4. Método de MonteCarlo
Chapter 5

Álgebra lineal

Section 5.1
Método de Jacobi

El método de Jacobi es usado para resolver sistemas lineales del tipo Ax = b, el cuál construye
una sucesión descomponiendo la matriz A.

A=D+R (5.1)

donde D es la matriz diagonal y R es la suma de la matriz triangular inferior y la matriz

triangular superior.

Dx = Rx + b
x = D−1 (b − Rx) (5.2)

si aii 6= 0 tenemos un método iterativo.

1 X
xk+1
i = bi − k
aij xj (5.3)
aii i6=j

A nivel iterativo se necesitan todos los valores del vector x en el paso k para calcular el valor
del vector en k + 1.

Ejemplo: Sea el sistema lineal:

55
56 Chapter 5. Álgebra lineal

3x − y − z = 1
−x + 3y + z = 3
2x + y + 4z = 7 (5.4)

encontrar la ecuación iterativa del método de Jacobi.

    
1/3
1 0
1/3 0
−1
    
D b= 0 1/3 0  3 =  1 
    (5.5)
0 0 1/4 7 7/4
    
1/3 0 0 0 −1 −1 0 −1/3 −1/3
D−1 R = 
    
0 1/3 0  −1 0 1  = −1/3 0 1/3  (5.6)
    
0 0 1/4 2 1 0 1/2 1/4 0
Finalmente:
   
  
xk+1 1/3 0 −1/3 −1/3 xk
      
y k+1  =  1  − −1/3 0 1/3   k (5.7)
      y 
z k+1 7/4 1/2 1/4 0 zk
Este método se puede interpretar como una sucesión de vectores que ocurre en un punto
arbitrario del espacio vectorial al vector solución, la cuál es generada por un operador de
traslación T definido por el sistema de ecuaciones.

xk+1 = c + Txk (5.8)

A nivel computacional para detener el método se calcula una métrica entre el vector solución
y el vector calculado. Se define el residuo como:
v
u n
uX
Re = ||x − y|| = t (xi − yi )2 (5.9)
i=1

para detener el método se usa la siguiente condición:

||b − Ax|| < δ (5.10)

5.2. Norma matricial 57

Convergencia débil: El método de Jacobi converge a la solución del problema lineal si la

matriz asociada al sistema de ecuaciones es diagonal dominante.

Convergencia Fuerte: La sucesión xk+1 = Txk + c, para k ≥ 0 converge a la sucesión

única x = Tx + c si y sólo si ρ(T) < 1.

Section 5.2
Norma matricial

Una norma matricial sobre el conjunto de las matrices n × n (Mn (R)) es una aplicación:

||.|| : Mn (R) −→ R

que satisface las siguientes propiedades:

a) ||A|| ≥ 0, ∀A ∈ Mn (R).

b) ||A|| = 0, si y solo si aij = 0, 1 ≤ i, i ≤ n.

c) ||αA|| = |α|||A|| ∀α ∈ R y ∀A ∈ Mn (R).

d) ||A + B|| ≤ ||A|| + ||B||, ∀A, B ∈ Mn (R).

e) ||A · B|| ≤ ||A|| · ||B||, ∀A, B ∈ Mn (R).

Tenemos un par de ejemplos útiles:

n
X
||A||1 = max
|{z} |aij | (5.11)
1≤j≤n i=1
n
X
||A||∞ = max
|{z} |aij | (5.12)
1≤i≤n j=1

Hagamos un ejemplo especı́fico:

 
−1 0 3
 
A =  4 −2 1

 (5.13)
0 6 5
Hence,
58 Chapter 5. Álgebra lineal

||A||1 = max[5, 8, 9] = 9 (5.14)

||A||∞ = max[4, 7, 11] = 11 (5.15)

5.2.1 Radio espectral

El radio espectral de una matriz A ∈ Mn (R), con notación ρ(A), se define como:

ρ(A) = max{|λ| : λ valor propio de A} (5.16)

Recordar que los valores propios de una matriz A son las raı́ces de la ecuación caracterı́stica
det(A − λI) = 0. Note que, si el valor propio es un número complejo, digamos λ = α + iβ, con
p
α, β ∈ R, entonces |λ| = α2 + β 2 .

El radio espectral no es una norma! puesto que ρ(A) = 0 con A 6= 0

Teorema: Si A ∈ Mn (R) entonces,

ρ(A) ≤ ||A||, (5.17)

para cualquier norma matricial inducida definida por:

||Ax||
||A|| = max (5.18)
|{z} ||x||
x6=0

Elijamos el auto-vector x asociado al radio espectral de A.

||Ax|| ||λx|| |λ|||x||

ρ(A) = = = =λ (5.19)
||x|| ||x|| ||x||
cuando elijamos un valor propio diferente al valor propio mas grande tenemos:

ρ(A) ≤ ||A||. (5.20)

Necesitamos un último resultado:

Teorema: Sea A ∈ Mn (R) entonces,
5.3. Método de Gauss-Seidel 59

lim Ak = 0 si y solo si ρ(A) < 1. (5.21)

k→∞

consideremos que limk→∞ Ak = 0 y tomemos algún valor de propio de A, entonces Ak x = λk x

con x 6= 0. Entonces, necesariamente limk→∞ λk = 0; lo cual se cumple solo sı́ |λ| < 1. Como
λ es un valor propio cualquiera y por la definición de radio espectral tenemos que ρ(A) < 1.
Finalmente, para entender la convergencia fuerte definamos el error en la aproximación
k-ésima:

ek = x(k) − x (5.22)

x representa el vector solución. Por otro lado, x = T x + c de manera que:

ek+1 = xk+1 − x = Txk + c − (Tx + c) = T(xk − x) = Tek (5.23)

por lo que podemos ver el error en el paso k como la sucesión matricial por el error inicial
e = Tk e0 . Debido al teorema anterior, ek = 0 solo sı́ limk→∞ Tk = 0 y eso solo es posible si
k

ρ(T ) < 1.

Section 5.3
Método de Gauss-Seidel

EL método de Gauss-Seidel se basa en el método de Jacobi con la única diferencia que cada
variable se actualiza con cada iteración interna. Usando el ejemplo anterior se evidencia como
funciona:

1+y+z
x =
3
3+x−z
y =
3
7 − 2x − y
z =
4
(5.24)

Si la iteración empieza en el vector nulo tenemos que los valores en la siguiente iteración
son:
60 Chapter 5. Álgebra lineal

1+0+0
x = = 1/3
3
3 + 1/3 + 0
y = = 10/9
3
7 − 2/3 − 10/9
z = = 47/36
4
(5.25)

Teniendo la misma condición de convergencia del método de Jacobi, el método de

Gauss-Seidel acelera el tiempo de convergencia a la solución. En general se tiene:

1 + yk + zk
xk+1 =
3
3 + xk+1 − z k
y k+1 =
3
7 − 2xk+1 − y k+1
z k+1 =
4
(5.26)

Section 5.4
Método de relajación sucesiva

Estos métodos realizan un ponderación de la solución de un sistema lineal en una iteración

especı́fica. La expresión general para un peso w dado es:

xji = wxji + (1 − w)xj−1

i (5.27)

donde el ı́ndice i se relaciona al valor incógnita y j al valor de la iteración. Dependiendo

del valor del peso, se tiene la siguiente calificación.

• Sub-relajación 0 < w < 1. No convergente (para movimiento de fluidos puede converger).

• No modificado w = 1.

• Sobre-relación 1 < w < 2. Acelera convergencia.

• Divergente w > 2.
5.4. Método de relajación sucesiva 61

Encontrar el valor adecuado del peso dada una discretización es un asunto complicado del
álgebra matricial numérica. Por ejemplo, para una discretización cuadrada de N puntos, el
peso optimo está dado por:

2
w= (5.28)
1 + Nπ
Ejemplo:

Encontrar x13 usando el método de sobre-relajación del siguiente sistema de ecuaciones

lineales. Considere w = 1.25. y ~x0 = (0, 0, 0).

4x1 − x2 = 0
−x1 + 4x2 − x3 = 6
−x2 + 4x3 = 2 (5.29)

Usando el acercamiento por Gauss-Seidel tenemos:

2 + x02 2+0
x11 = = = 0.5
4 4
6 + x11 + x03 6 + 0.5 + 0
x12 = = = 1.625
4 4
2 + x12 2 + 1.625
x13 = = = 0.906 (5.30)
4 4
Ahora usemos sobre-relajación (para mostrar como funciona).

2 + x02 2+0
x11 = = = 0.5
4 4
x11 = (1.25)(0.5) + (1 − 1.25)(0) = 0.625
6 + x11 + x03 6 + 0.625 + 0
x12 = = = 1.656
4 4
x12 = (1.25)(1.656) + (1 − 1.25)(0) = 2.070
2 + x12 2 + 2.070
x13 = = = 1.017
4 4
x13 = (1.25)(1.017) + (1 − 1.25)(0) = 1.271 (5.31)

Aunque la solución exacta para x3 = 27/28, el método de sobre-relajación parece más

distantes de la solución exacta. Sin embargo, se deja al lector la implementación de ambas
62 Chapter 5. Álgebra lineal

rutinas para verificar la potencial del método de relajación sucesiva. Adicionalmente, es posible
imponer un criterio de convergencia del método:
j
xi − xj−1

i

< (5.32)
xji
donde es arbitrariamente pequeño. Podemos pensar en la siguiente factorización para la
implementación de la relajación sucesiva en ecuaciones diferenciales parciales:

uli,j = ul−1 l l−1

i,j + w[ui,j − ui,j ] (5.33)

definiendo ri,j := uli,j − ul−1

i,j se tiene:

uli,j = ul−1
i,j + wri,j (5.34)

Generalmente ri,j ≤ 10−10 .

Section 5.5
Método generalizado de Newton-Raphson

Sea el sistema de ecuaciones lineales o no lineales:

f1 (x, y) = 0
f2 (x, y) = 0 (5.35)

Suponemos que las funciones son diferenciables, de modo que podemos expandir en series
de Taylor alrededor de (x0 , y0 ) a primer orden. Tenemos:

∂f1 (x0 , y0 ) ∂f1 (x0 , y0 )

f1 (x0 , y0 ) + ∆x + ∆y ≈ 0
∂x ∂y
∂f2 (x0 , y0 ) ∂f2 (x0 , y0 )
f2 (x0 , y0 ) + ∆x + ∆y ≈ 0 (5.36)
∂x ∂y
con x = x0 + ∆x y y = y0 + ∆y. Vectorizando estas ecuaciones ~x = (x, y), tenemos:

F~ (~x0 ) + J(x0 )(~x − ~x0 ) ≈ 0 (5.37)

Donde definimos el Jacobiano del sistema:

5.6. Método del descenso gradiente 63

!
∂f1 ∂f1
∂x ∂y
J= ∂f2 ∂f2
(5.38)
∂x ∂y

Si el Jacobiano del sistema es invertible, tenemos:

~x = ~x0 − J−1 (~x0 )F~ (~x0 ) (5.39)

La solución al sistema de ecuaciones significa encontrar la sucesión de Cauchy dada por:

~xn+1 = ~xn − J−1 (~xn )F~ (~xn ). (5.40)

Section 5.6
Método del descenso gradiente

~ x):
Vamos a pensar el problema de sistemas de ecuaciones como un vector de funciones. Sea G(~
 
f1 (x1 , x2 , ..., xn )
 
 f (x , x , ..., x ) 
 2 1 2 n 
 
~ x) = 
 . 
G(~  (5.41)

 . 

 

 . 

fn (x1 , x2 , ..., xn )

Este vector tendrá una norma asociada. Se define una función a minimizar usando dicha
norma.

1 ~T
F~ (~x) = G ~ x)
(~x)G(~ (5.42)
2
La solución al sistema de ecuaciones estará definida por:

||F~ (~x)|| = ~0. (5.43)

Debemos movernos en contra del gradiente de la función vectorial.

~x1 = ~x0 − γ∇F~ (~x0 ), (5.44)

64 Chapter 5. Álgebra lineal

donde γ se denomina tasa de aprendizaje. Lo que brinda la información direccional del

gradiente de una función vectorial es la matriz jacobiana.

∂fi
Jij = (5.45)
∂xj
El jacobiano es la matriz de derivadas parciales de primer orden de las funciones del vector
~ x). Suponemos F~ : Rn −→ Rm y que es diferenciable, entonces x ∈ Rn y F~ (~x) ∈ Rm .
G(~
Finalmente, el descenso del gradiente sobre una función vectorial está dada por:

~ xn ).
~xn+1 = ~xn − γJT (~xn ) · G(~ (5.46)

Note que la función gradiente es el transpuesto del Jacobiano, debido a que el gradiente es
un vector fila definido sobre el complemento ortogonal; mientras que el vector de soluciones es
un vector columna.

Section 5.7
Propagacion del error en una red neuronal

Comencemos por las definiciones. Tenemos que el vector δ l está definido como:

∂C
δil = ,
∂zil
donde z l se define más adelante. Sea al los valores de las funciones de activación en la
l-ésima capa. Tenemos que la función de costo es C = C(aL ), ya que esta solo depende de la
función de activación en la última capa. Adicionalmente, sea z l el input de la capa l. Siendo f
la función de activación, tenemos que

al = f l (z l ), z l = W l f l−1 (z l−1 ).

Utilizamos el vector de derivadas como la derivada con respecto al vector. Esto es:

∂C ∂C
= .
∂z l i ∂zil
Usando la regla de la cadena, tenemos que

∂C ∂C ∂aL
= .
∂ziL ∂aL ∂ziL
5.7. Propagacion del error en una red neuronal 65

En notación de vectores, por ende, tenemos que

∂C ∂aL
δL = .
∂aL ∂z L
Para las demás capas, nótese que z l−1 solo afecta a C a través de z l . Esto quiere decir que
tenemos

∂C X ∂C ∂zjl
δil−1 = l−1 = .
∂zi j
∂zjl ∂zil−1

Ahora, tenemos que los al son, en general, vectores. alk serı́a la función de activación de
l
la k-ésima neurona de la capa l. Similarmente, tenemos que Wjk serı́a el peso que la j-ésima
neurona de la capa l le asigna a la k-ésima salida de la capa l − 1. Por ende, tenemos que

X
l l−1
zjl = Wjk ak .
k

Derivando con respecto a zil−1 :

∂zjl X
l ∂al−1
k
= Wjk .
∂zil−1 k
∂zil−1
Reemplazando en nuestra expresión para δil :

X X ∂C l−1
l ∂ak
δil−1 = W .
j k
∂zjl jk ∂zil−1

Reconocemos δjl en la suma, tal que

l−1
l ∂ak
XX
δil−1 = l
δj Wjk l−1 .
j k
∂zi
Generalizando la notación de derivadas de vectores introduciendo antes, definimos la
derivada de un vector con respecto a otro como

∂al−1 ∂al−1

k
= .
∂zil−1 ∂z l−1 ki

Representando δ l como una matriz y reemplazando con esta definición, tenemos que

∂al−1
XX
δil−1 = (δ l l
)j1 Wjk .
j k
∂z l−1 ki
66 Chapter 5. Álgebra lineal

Transponemos δ l para obtener un producto matricial:

∂al−1
XX
δil−1 = l T
((δ ) l
)1j Wjk .
j k
∂z l−1 ki

Reconociendo el producto matricial, llegamos al resultado deseado:

l−1
l−1 l T l ∂a
δ = (δ ) W .
∂z l−1

Section 5.8
Ejercicios: Álgebra lineal

1. Implemente el algoritmo de Gaus-Seidel para resolver el sistema de ecuaciones visto en

clase.

2. En Python, implemente una clase para solucionar sistemas lineales. El constructor de clase
deber recibir la matriz y el vector independiente. El primer método de clase resuelve el
sistema usando el método de Jacobi, y el segundo método resuelve el sistema usando el
método de Gaus-Seidel. En la pantalla debe aparecer el número de iteraciones necesarias
para resolver el problema.

3. Implemente un algoritmo que realice la multiplicación de dos matrices. Use el algoritmo

para calcular:

  
1 0 0 4 −2 1
  
AB = 
 5 1 0 0 3 7
  (5.47)
−2 3 1 0 0 2

4. (Theoretical) Muestre con detalle que la sustitución hacia adelante se expresa como:

i−1
X
x i = bi − Aij xj (5.48)
j=0

5. (Theoretical) Muestre con detalle que la sustitución hacia atrás se expresa como:

Pn
bi − j=i+1 Aij xj
xi = (5.49)
Aii
5.8. Ejercicios: Álgebra lineal 67

donde i = n, n − 1, ..., 0. Note que la diagonal de la matriz triangular superior puede

tener cualquier valor.

6. Usando los métodos de Newton-Raphson y descenso del gradiente, encuentre la solución

de los siguientes sistemas de ecuaciones no lineales:

ln(x21 + x22 ) − sin(x1 x2 ) = ln(2) + ln(π),

ex1 −x2 + cos(x1 x2 ) = 0. (5.50)

Use x(0) = (2, 2)

6x1 − 2cos(x2 x3 ) − 1 = 0,
q
9x2 + x21 + sin(x3 ) + 1.06 + 0.9 = 0,
60x3 + 3e−x1 x2 + 10π − 3 = 0. (5.51)

Use x(0) = (0, 0, 0)

Ejercicios tomados de Numerical Analysis - Burden and Faires, Ninth Edition, Chapter
10.

7. (Machine Learning application) La 3-esfera está definida por todos los puntos
equidistantes de un punto dado en R4 , generalmente definida por:

S 3 = {(x1 , x2 , x3 , x4 ) ∈ R4 | x21 + x22 + x23 + x24 = 1} (5.52)

Dado que no podemos visualizar la 3-esfera, se usa el método de descenso del gradiente
para encontrar sistemáticamente los puntos que pertenecen a S 3 . Posteriormente, se hace
una proyección sobre R3 . Para hacer el mapeo de S 3 se sugiere la siguiente estrategia:

a) Modifique el código de la clase para que S 3 sea el único elemento del vector de
funciones.

b) Calcule la métrica de minimización como la magnitud del vector de funciones.

c) Modifique el Jacobiano a una dimensión (1 × 4).

68 Chapter 5. Álgebra lineal

d) Genere un punto aleatorio uniformemente distribuido en R4 (es decir, un vector

aleatorio de 4 componentes) en el intervalo [-1,1].

e) Corra el algoritmo de aprendizaje para que el vector aleatorio se ubique en algún punto
de S 3 . El código aprende a mover el punto minimizando la métrica.

f) Repita el proceso de aprendizaje para al menos 103 puntos.

g) Verifique que los puntos obtenidos pertenezcan a la 3-esfera.

h) Con los puntos obtenidos de S 3 , dibuje la proyección espacial (X, Y, Z), es decir, las
primeras tres columnas. ¿Qué figura geométrica resulta?

Hint: Primero haga el caso de la 2-esfera para entender el problema. Note que la
proyección de la 2-esfera en el plano es el circulo.

8. La Figura [5.1] representa la colisión de dos discos de masa m1 y m2 , y radios r1 y r2

respectivamente. El primer disco tiene una velocidad inicial ~u1 antes del choque y el
segundo disco se encuentra en reposo ~u2 = 0. El parámetro de impacto b, que es la
distancia entre la dirección de la velocidad ~u1 y el centro del segundo disco caracteriza la
interacción.

Figure 5.1: Esquema de colisión de dos discos rı́gidos.

Los siguientes son resultados teóricos que deben deducir y justificar fı́sicamente.

a) De la conservación del momento lineal demuestre que:

m1 u1 = m1 v1x + m2 v2x (5.53)

0 = m1 v1y + m2 v2y (5.54)
5.8. Ejercicios: Álgebra lineal 69

Figure 5.2: Esquema para la conservación del momentum angular.

b) De la conservación del momento angular respecto del punto de contacto demuestre

que (ver Figura [5.2]):

−m1 r1 u1 sin(θ) = I1 ω1 − m1 r1 (v1x sen(θ) + v1y cos(θ)) (5.55)

0 = I2 ω2 + m2 r2 (v2x sen(θ) + v2y cos(θ)) (5.56)

c) De la definición del coeficiente de restitución demuestre que:

(v1x cos(θ) − v1y sen(θ)) − (v2x cos(θ) − v2y sin(θ))

e=− (5.57)
u1 cos(θ)

d) Si no se considera deslizamiento de un disco respecto al otro en el punto de contacto P .

Las velocidades de los discos en el punto P son iguales. Muestre que esta restricción
conduce a:

r1 w1 + v1x sen(θ) + v1y cos(θ) = −r2 w2 + v2x sen(θ) + v2y cos(θ) (5.58)

El sistema lineal queda descrito como:

     
sinθ cosθ −senθ −cosθ 1 1 v1x 0
     
 0 M 0 1 0 0  v1y   0 
 
   
     
 M 0 1 0 0 0   v2x   M u1 
−cosθ senθ cosθ −senθ 0 0 · 
   = 
   v2y  eu1 cosθ
 
     
 senθ cosθ
 0 0 −k 0  
  r1 ω1   u1 senθ 
  
0 0 senθ cosθ 0 k r2 ω2 0
70 Chapter 5. Álgebra lineal

Parámetros
m1 3 kg
m2 1 kg
M 3
r1 0.1 m
r2 0.2 m
k 1/2
e 0.8
~u1 2î m/s

Table 5.1: Parámetros del cálculo. Recuerde que el momento de inercia de un sólido respecto
a su centro de masas es I = kmr2 .

Para la aplicación numérica definamos los parámetros del problema:

Variar el ángulo de incidencia (0 < θ < π/2) para describir algunos estados finales
después del choque. Debe verificar que los principios de conservación se cumplan en este
fenómeno, esto significa que el momento lineal y angular se mantengan constantes. La
energı́a no se conserva porque hay restitución (e) en la colisión, si todo va bien, graficar
las seis variables cinemáticas de los discos para entender como se mueven los cuerpos
después del proceso de ”scattering”. Serı́a muy interesante realizar la animación de este
fenómeno, sin embargo, las dificultades para animar la traslación + rotación de los discos
son enormes.

Para que tengan una guı́a de los resultados, las graficas de este problema son:

9. En un instante de tiempo una estrella naciente está compuesta por un conjunto

de masas unitarias (m = 1 kg). Las posiciones de cada una de las
partı́culas están escritas en: [Link]
MetodosComputacionales/[Link]

Para un sistema de N partı́culas con masa mk y posiciones rk , el tensor de inercia se

define como:
5.8. Ejercicios: Álgebra lineal 71

1.00
6.3 Momento X inicial Momento Y inicial
Momento X final 0.75 Momento Y final
6.2
0.50
6.1 0.25
px[kgm/s]

py[kgm/s]
6.0 0.00

5.9 0.25
0.50
5.8
0.75
5.7
1.00
0 20 40 60 80 0 20 40 60 80

Figure 5.3: Conservación del momento lineal total antes y después del choque.

0.0 Momento Angular Inicial

Momento Angular Final
0.1

0.2
Lz[kgm2/s]

0.3

0.4

0.5

0.6
0 20 40 60 80

Figure 5.4: Conservación del momento angular total antes y después del choque.

N
X
I= mk ((rk · rk )E − rk ⊗ rk ) (5.59)
k=1

donde E es el tensor unitario e1 ⊗ e1 + e2 ⊗ e2 + e3 ⊗ e3

a) Muestre que el tensor de inercia para esta estrella está dado por:
 
4 0 −1
1.1163 × 10 2.0524 × 10 7.4286 × 10
 
0 3
I=
 2.0524 × 10 8.9520 × 10 −2.3483 × 103 

−1 3 3
7.4286 × 10 −2.3483 × 10 4.2341 × 10

Note que el tensor es simétrico Iij = Iji como es esperado.

b) Encuentre los auto-valores y auto-vectores. Si dos valores propios son cercanos o
iguales ¿Qué interpretación tienen los auto-valores respecto a las simetrı́as de este
sistema?
72 Chapter 5. Álgebra lineal

0 1
2

2
[rad/s]

5
0 20 40 60 80

v1x v2x
1.75 v1y 2.5 v2y
1.50 2.0
1.25 1.5
v1[m/s]

v2[m/s]
1.00 1.0
0.75 0.5

0.50 0.0

0.25 0.5

0.00 1.0
0 20 40 60 80 0 20 40 60 80

Figure 5.5: Variables cinemáticas los dos discos después del choque.

c) Haga una gráfica en 3D de las estrella, los auto-vectores de la estrella y las estrella
sobre sus ejes principales. (ver Figura [5.6])

3
2
1
Z 0

1
3
2 2
1
0
3 1 X
3 2 2
1 0 1 2 3 3
Y

Figure 5.6: Estrella naciente: Puntos originales (azul), los ejes principales del cuerpo (rojo) y
puntos sobre los ejes principales (verde.)
5.8. Ejercicios: Álgebra lineal 73

10. Imagine que uno de los espejos del telescopio espacial James Webb tiene una forma
cuadrada como ilustra la Figura [5.7]. Los vértices están ubicados en las siguientes
posiciones con sus respectivas temperaturas:

P1 = (+1, +1); T (P1 ) = 1 K

P2 = (−1, +1); T (P2 ) = 2 K
P3 = (−1, −1); T (P3 ) = 0.5 K
P4 = (+1, −1); T (P4 ) = 0.3 K (5.60)

Lastimosamente en el punto P = (0, 0.5) se daño el sensor de la temperatura, lo que

genera preocupación en los ingenieros de la NASA.

T= 1 K

(-1,1) (1,1)
T= 2 K T= 1 K

T= 2 K
P=(0,0.5) P=(0,0.5)

T = 0.3 K

T = 0.5 K T = 0.3 K
(-1,-1) (1,-1)
T = 0.5 K

Figure 5.7: Esquema del espejo del telescopio espacial. Los vértices del cuadrado registran las
temperaturas en grados kelvin. En la parte derecha, se ilustra una rotación para minimizar la
temperatura en el punto P = (0, 0.5).

La NASA quiere hacer una estimación de la temperatura en el punto donde se daño el

sensor, usando la restricción de la temperatura en los vértices. Adicionalmente, se quiere
rotar el espejo hasta que la temperatura tome el valor más bajo posible y garantizar la vida
útil del espejo. Los estudiantes del curso de Métodos computacionales proponen calcular
una interpolación espacial de la temperatura en el espejo para estimar la temperatura
74 Chapter 5. Álgebra lineal

en el punto P , y luego aplicar un operador de rotación para evaluar como cambia la

temperatura en P a medida que se rota el espejo. Les propongo la siguiente estrategia:

a) Proponga que la temperatura en la región del espejo está dada por una aproximación
bilineal:

1 X
1
T (x, y) ∼
X
= aij xi y j (5.61)
i=0 j=0

Programar esta función que define la interpolación de la temperatura en el espejo. Usar

Sympy para verificar que la función es de la forma T (x, y) = a00 + a10 x + a01 y + a11 xy.
La función debe tener un parámetro p para llenar la matriz de coeficientes, tal que:
a00 = p0 , a10 = p1 , a01 = p2 , y a11 = p3 .

b) Defina el vector de posición de los vértices como: position = [Link]((4,2)) .

Llene los vectores en el orden que aparecen en (5.60)

c) Para calcular la matriz de coeficientes de la interpolación, debe resolver el problema

matricial que aparece de exigir que la temperatura en los vértices tenga los valores
presentados en (5.60). Por ejemplo, se debe cumplir 1 = a00 +a10 (1)+a01 (1)+a11 (1)(1).

d) Verifique que la temperatura en los vértices cumpla con las condiciones de frontera.

e) Grafique el mapa de temperatura en la región donde está el espejo. Deberı́a obtener

algo como: Figura [5.8].

1.00

0.75

0.50 2.00
1.75
0.25 1.50
T(x,y)

1.25
1.00
0.00 0.75
0.50
0.25 0.25
1.0
0.50 0.5
1.0 0.0
0.75 0.5
0.0 0.5 y
x 0.5
1.0 1.0
1.00
1.0 0.5 0.0 0.5 1.0

Figure 5.8: Mapa de temperatura al interior del espejo del telescopio.

f) Estime la temperatura en el punto donde se daño el sensor: T (0, 0.5) ≈ 1.225 K. (Si
llegas hasta este punto tienes 3.0)
5.8. Ejercicios: Álgebra lineal 75

g) Para el proceso de minimización, defina una función que rote el vector de los vértices
del espejo.

! ! !
Pxi (θ) cos(θ) −sin(θ) Pxi
= (5.62)
Pyi (θ) sin(θ) cos(θ) Pyi

donde i = 0, 1, 2, 3 es cada vértice del espejo. Dentro de la función debe realizar la

rotación de los cuatro vértices.

h) Una vez rote los cuatro vértices, realice nuevamente la interpolación usando los mismos
valores de temperatura de los vértices y calcule la temperatura en el punto donde se
daño el sensor.

i) Defina una sucesión de ángulos, por ejemplo:

theta = [Link](0,2*[Link],200),
¿Para cuál ángulo se minimiza la temperatura del espejo en el punto P . (Si encuentras
el ángulo donde la temperatura en P es mı́nima tienes 5.0)

11. Descargue los datos del generador parabólico ubicados en: [Link]
asegura4488/DataBase/blob/main/MetodosComputacionales/[Link].

a) En cualquier fuente confiable de aprendizaje automático puede encontrar el algoritmo

de k-vecinos más cercanos. Implemente una clase en Python que realice la clasificación
de los puntos que caen fuera del cı́rculo (0) y los puntos internos (1). Esta clase
debe tener como mı́nimo un constructor, un método de entrenamiento y un predictor.
Podrı́a tener un método para calcular el score del método; pero es opcional.

b) Mida el score del clasificador durante el entrenamiento (Training sample), que significa
medir cuál es el porcentaje de eventos que se clasifican bien del total (My result is
around 98% using k = 3, which is ”quite good”).

c) Haga una optimización hiper-paramétrica del número de vecinos. Lo que significa

variar el valor k hasta que el score sea lo más grande posible.

d) Usando el código del generador parabólico genere una muestra nueva de 1000 eventos
(Testing sample) y mida el score de la muestra de prueba. Esta sobre-entrenado
(overfitting) su algoritmo? Justifique.
Este video podrı́a ayudar: [Link]
76 Chapter 5. Álgebra lineal

12. Modifique el código sobre redes neuronales para entrenar una red neuronal sencilla. La
red neuronal debe comportarse como una compuerta XNOR. Dicha compuerta tiene la
siguiente tabla de verdad:

A B Output
0 0 1
1 0 0
0 1 0
1 1 1

La red debe tener la topologı́a más simple posible (un par de neuronas en un capa o dos
neuronas en dos capas) y entrenada usando solo números aleatorios.
Chapter 6

Probabilidad

Section 6.1
Definición de probabilidad

Para definir intuitivamente el concepto de probabilidad debemos definir el concepto de evento

aleatorio. Un evento aleatorio es un suceso que puede ocurrir de diversas maneras, por ejemplo,
¿va a llover?, ¿cuánto va a tardar el próximo transporte?, ¿qué cara del lado va a salir?, etc.
Para los antiguos griegos la ocurrencia de eventos se atribuye a la voluntad divina y por tanto
no era posible determinar lo que iba a suceder. Por otro lado, los romanos consideraban que
los eventos ocurren por cuestiones de suerte o azar. Esta naturaleza intrı́nseca de los eventos
aleatorios llevan asociada un incertidumbre en el resultado. La probabilidad busca cuantificar
el grado de plausibilidad de cada evento que puede suceder, en ese sentido, esta disciplina nos
permite conocer aplicando algunas reglas, los eventos que pueden suceder con mayor frecuencia
en un experimento.

Un evento en probabilidad está definido por el concepto de conjunto, el conjunto que contiene
a todos los conjuntos se denomina espacio muestral Ω. Tomemos un conjunto genérico A
del espacio muestral, este conjunto debe pertenecer a una estructura denominada σ−álgebra;
para ser considerado un evento válido. El concepto de σ−álgebra aparece en una rama de la
matemática denominada teorı́a de la medida.

Sea Ω un espacio muestral y definamos a F una colección de sub-conjuntos de Ω. Esta

colección se denomina σ−álgebra, si cumple las siguientes condiciones.

77
78 Chapter 6. Probabilidad

• ∅ ∈ F.

• A ⊂ F, entonces Ac ⊂ F.

• {An }n∈N ∈ F, entonces ∪∞

i=1 Ai ∈ F.

De esta manera, (Ω, F) se denomina un espacio medible. Por ejemplo, tomemos el siguiente
espacio medible:

Ω = {0, 1, 2}
F = {∅, Ω, {0, 1}, {2}} (6.1)

El lector se puede convencer que se cumplen todas las condiciones de espacio medible. Dada
la definición de espacio medible, podemos definir lo que es una medida de probabilidad. Sea P
una aplicación que mapea desde la σ−álgebra a los números reales R.

P : F −→ R. (6.2)

Esta aplicación asigna un número real a un conjunto de la σ−álgebra.

A −→ P(A) (6.3)

En 1933, Kolmogórov formula el sistema de axiomas para que los espacios medibles sean
espacios de probabilidad. Los axiomas son los siguientes:

1. P(Ω) = 1

2. ∀A ∈ F, P(A) ≥ 0
Pn
3. P(∪∞
i Ai ) = i=1 P(Ai ), si Ai ∩ Aj = ∅ ∀i 6= j.

La estructura (Ω, F, P) se denomina espacio de probabilidad. A nivel práctico, estamos

interesados en contestar las siguientes preguntas:

1. ¿Cuál es la probabilidad de que ocurra A1 y A2 ?, P(A1 ∩ A2 ).

2. ¿Cuál es la probabilidad de que ocurra A1 o A2 ?, P(A1 ∪ A2 ).

6.1. Definición de probabilidad 79

3. ¿Cuál es la probabilidad de que ocurra A1 pero no ocurra A2 , P(A1 − A2 ).

4. ¿Cuál es la probabilidad de que no ocurra A, P(Ac ).

Para contestar estas preguntas, se requiere establecer la regla de cálculo en esos espacios
de probabilidad. Esencialmente, la cardinalidad de un conjunto es una medida del número de
elementos de un conjunto y permite calcular la probabilidad de un evento A en un espacio
muestral Ω. En particular, cuando los resultados de un evento aleatorio son equiprobables se
tiene la regla de Laplace. La regla de Laplace establece que la probabillidad del evento A, es
la cardinalidad del evento dividido entre el cardinal del espacio muestral completo:

|A|
P(A) = . (6.4)
|Ω|
La regla de Laplace también se cumplira en la composición de experimentos aleatorios
independientes con resultados equiprobables. Por ejemplo, el lanzamiento de una moneda
equilibrada, seguido del lanzamiento de un dado equilibrado.

Ejemplo 1: En una ciudad el 30% de sus ciudadanos leen sobre ciencia, el 60% leen sobre
arte, y el 80% uno de los dos. ¿Cuál es la probabilidad de que una persona elegida al azar lea
ambos?

Nombremos A = Leer sobre ciencia B = Leer sobre arte. Entonces P(A) = 0.3 y P(B) = 0.6.
Leer uno o el otro es P(A ∪ B) = 0.8. Usamos:

P(A ∩ B) = P(A) + P(B) − P(A ∪ B) = 0.3 + 0.6 − 0.8 = 0.1 (6.5)

6.1.1 Definición frecuentista de probabilidad

En términos prácticos, la probabilidad se mide en términos de la frecuencia de aparición de
un evento especı́fico A. Sea N el número de veces que se repite una experiencia aleatoria.
Denominamos la frecuencia absoluta del evento A, al número de veces que ocurre A y se
denomina como f (A). De la misma forma, definimos la frecuencia relativa como la proporción
de eventos que aparece A, la cual está dada por:

f (A)
fr (A) = (6.6)
N
80 Chapter 6. Probabilidad

Cuando se realiza la experiencia aleatoria un número grande de veces y siguiendo la ley

de los grandes números, la frecuencia relativa del evento A se aproxima asintóticamente a la
probabilidad de ocurrencia.

lim fr (A) = P(A). (6.7)

N →+∞

Esto liga las experiencias aleatorias numéricas como: MonteCarlo, Bootstrapping,

estimación de parámetros, etc; con las predicciones teóricas que provienen de la probabilidad.

Section 6.2
Ejercicios: Axiomas de la probabilidad

1. Sean P1 y P2 dos medidas de probabilidad. Definamos P = a1 P1 + a2 P2 , donde a1 + a2 = 1

y a1 , a2 ∈ R+ . ¿Es P una medida de probabilidad?
Hint: Verifique los axiomas de Kolmogorov para P.

2. Sea Ω = {1, 2}, F = σ(Ω) y P una aplicación definida sobre F dada por:



 0 si A = {∅}


 1/3 si A = {1}
P(A) = (6.8)


 2/3 si A = {2}

1 si A = {1, 2}


1
Muestre detalladamente que P es una medida de probabilidad.

3. Sea (Ω, F, P) un espacio de probabilidad. Demuestre las siguientes propiedades básicas

de esta medida usando los axiomas de Kolmogorov y diagramas de Venn:

a) P(∅) = 0.

b) P(Ac ) = 1 − P(A).

c) Si dos eventos A y B son tales que A ⊂ B, entonces P(B) = P(A) + P(B − A).

d) Dado un evento A, P(A) ≤ 1, ∀A ∈ F. Use el teorema anterior.

1
Tomado de Probabilidad, Liliana Blanco Castañeda UNAL.
6.2. Ejercicios: Axiomas de la probabilidad 81

e) A ⊆ B, entonces P(A) ≤ P(B).

f) P(A ∪ B) = P(A) + P(B) − P(A ∩ B).

g) P(A ∪ B ∪ C) = P(A) + P(B) + P(C) − P(A ∩ B) − P(A ∩ C) − P(B ∩ C) + P(A ∩ B ∩ C).

h) Probabilidad de la diferencia: Use A − B = A ∩ B c , para mostrar: P(A − B) =

P(A) − P(A ∩ B).

i) Probabilidad de la diferencia simétrica: Use (A − B) ∪ (B − A), para mostrar: P((A ∩

B c ) ∪ (B ∩ Ac )) = P(A) + P(B) − 2P(A ∩ B). Esto significa la probabilidad que ocurra
A o B pero no ambos eventos al tiempo.

6.2.1 Independencia de eventos

Uno de los conceptos más importantes en probabilidad es la independencia de eventos. Se
establece que dos eventos A y B son independientes, si la probabilidad de la intersección está
dada por:

P(A ∩ B) := P(A) · P(B). (6.9)

Esto significa que el hecho de que ocurra A no influye en B y recı́procamente.

6.2.2 Probabilidad condicional

En otras ocasiones el resultado del evento B puede influir en el resultado del evento A. En este
caso, se define la probabilidad de A condicionado al evento B como:

P(A ∩ B)
P(A/B) := (6.10)
P(B)
Esto puede interpretarse siguiendo la noción de cardinalidad. Dado que ya ocurrió B, el
espacio completo de redujo al conjunto B y el numerador indica el cardinalidad del conjunto
donde ocurre A y B a la vez. Note que es posible, dada la probabilidad condicional, calcular
la probabilidad de la intersección.

P(A ∩ B) = P(A/B)P(B). (6.11)

Esta formula es válida para eventos no independientes.

82 Chapter 6. Probabilidad

6.2.3 Teorema de la probabilidad total

Supongamos que tenemos una partición del espacio muestral Ω tal que:

A1 , A2 , ..., An ⊆ Ω, (6.12)

que cumple las siguientes condiciones:

a) Ω = A1 ∪ A2 ∪ ... ∪ An

b) Ai ∩ Aj = ∅, i 6= j

Si tenemos un suceso B de una partición de un espacio muestral. El teorema de la

probabilidad total establece que la probabilidad P(B) es:

n
X
P(B) = P(B/Ai )P(Ai ). (6.13)
i=1

donde P(B/Ai ) es la probabilidad del suceso B restringido a cada uno de los elementos de
la partición y P (Ai ) es la probabilidad de que ocurra ese elemento de la partición.

Ejemplo 1: En una sala de aeropuerto, 15 hombre y 20 mujeres. De los 15 hombres, 5

llevan gafas y de las 20 mujeres, 8 llevan gafas.

a) Si se elige una persona al azar, ¿cuál es probabilidad de que tenga gafas?

Identificamos las cantidades P(H) = 15/35, P(M ) = 20/35. Note que la probabilidad
condicional de que lleve gafas dado que es hombre es: P(G/H) = 5/15 y la probabilidad
condicional de que lleve gafas dado que es mujer es: P(G/M ) = 8/20. La probabilidad total
está dada por:

P(G) = P(G/H)P(H) + P(G/M )P(M )

= (5/15)(15/35) + (8/20)(20/35) = 13/35 ≈ 0.37 (6.14)

b) Si se elige una persona al azar, ¿cuál es probabilidad de que no tenga gafas?

6.2. Ejercicios: Axiomas de la probabilidad 83

Identificamos las cantidades P(H) = 15/35, P(M ) = 20/35. Note que la probabilidad
condicional de que no lleve gafas dado que es hombre es: P(Ḡ/H) = 10/15 y la probabilidad
condicional de que no lleve gafas dado que es mujer es: P(Ḡ/M ) = 12/20. La probabilidad
total está dada por:

P(Ḡ) = P(Ḡ/H)P(H) + P(Ḡ/M )P(M )

= (10/15)(15/35) + (12/20)(20/35) = 22/35 ≈ 0.63 (6.15)

Ejemplo 2: Se lanzan tres monedas al aire. Calcular la probabilidad de:

1. Obtener 3 caras.
Identificamos las probabilidades de obtener cara o cruz, P(c) = P(x) = 1/2
respectivamente. En el caso, P(ccc) = P(c) · P(c) · P(c) = (1/2)(1/2)(1/2) = 1/8, dado
que el lanzamiento de cada moneda es independiente.

2. Obtener 2 caras y una cruz.

Identificamos las probabilidades de obtener cara o cruz, P(c) = P(x) = 1/2
respectivamente, y la probabilidad de obtener dos caras y una cruz con P(A). En este
caso, hay tres ramas diferentes del diagrama de árbol que cumplen con la condición:
P(ccx), P(cxc) y P(xcc). La probabilidad total será:

P(A) = P(ccx) + P(cxc) + P(xcc)

= P(c) · P(c) · P(x) + P(c) · P(x) · P(c) + P(x) · P(c) · P(c)
= 1/8 + 1/8 + 1/8 = 3/8 (6.16)

Este problema también se puede solucionar usando combinaciones sin repetición dado que
no importa el orden.

2 2
3 1 1 3! 1 1
P(A) = = = 3/8. (6.17)
2 2 2 (3 − 2)!2! 2 2
Formula que resulta más útil en los problemas donde el conteo no es sencillo de calcular
usando el diagrama de árbol.
84 Chapter 6. Probabilidad

Ejemplo 3: Se tienen 2 urnas A y B, en la urna A se tienen 3 bolas negras y 4 blancas y

en la urna B se tienen 5 bolas negras y 3 blancas. Se saca una bola de la urna A, y sin verla,
se introduce en la urna B. Si se saca una segunda bola de la urna B, calcule la probabilidad
de los siguientes sucesos:

a) La segunda bola sea negra: P(N2 ).

b) La segunda bola sea blanca: P(B2 ).

Calculemos las probabilidades de la primera bola: la probabilidad de que la primera bola sea
negra es: P(N1 ) = 3/7 y la probabilidad de que la primera sea blanca es: P(B1 ) = 4/7. Notar
que si la primera bola es negra, en la urna B quedan 6 bolas negras y 3 blancas; de este modo
la probabilidad condicional de obtener una bola negra y una bola blanca es P(N2 /N1 ) = 6/9 y
P(B2 /N1 ) = 3/9. Si por el contrario, la primera bola es blanca, en la urna B quedan 5 bolas
negras y 4 blancas; de este modo la probabilidad condicional de obtener una bola negra y una
bola blanca es P(N2 /B1 ) = 5/9 y P(B2 /B1 ) = 4/9. Lo que conduce a la regla de probabilidad
total:

P(N2 ) = P(N2 /N1 )P(N1 ) + P(N2 /B1 )P(B1 )

= (6/9)(3/7) + (5/9)(4/7) = 38/63 (6.18)

La probabilidad de que la segunda bola sea blanca es:

P(B2 ) = P(B2 /N1 )P(N1 ) + P(B2 /B1 )P(B1 )

= (3/9)(3/7) + (4/9)(4/7) = 25/63 (6.19)

Section 6.3
Ejercicios: Probabilidad condicional y total

1. En una conferencia hay 1000 participantes distribuidos del siguiente modo: 185 hombres
usan gafas, 415 hombres no usan gafas, 115 mujeres que usan gafas. Determine la
probabilidad de:

a) Ser hombre P(H) = 3/5.

6.4. Teorema de Bayes 85

b) Ser Mujer P(M ) = 2/5.

c) Usar gafas P(G) = 3/10.

P(G∩M )
d) Que lleve gafas si sabemos que es mujer P(G/M ) = P(M )
= 23/80.

Hombres Mujeres Totales

Usa gafas 185 115 300
No usa gafas 415 285 700
Totales 600 400 1000

Table 6.1: Tabla de contingencia de genero y el uso de gafas.

2. Lanzamos un dado de 6 caras. Si sale 1 o 2 extraemos una bola de la urna 1. Si sale

3,4,5,6 extraemos una bola de la urna 2. En la urna 1 tenemos 3 bolas rojas, 1 negra y 6
verdes, y en la urna 2 tenemos 6 bolas rojas, 2 negras y 2 verdes. Calcular la probabilidad
de que la bola obtenida:

a) Sea roja: P(R) = 1/2.

b) sea negra: P(N ) = 1/6.

c) Sea de la urna 1 si se ha obtenido una bola negra: P(1/N ) = 1/5.

d) Sea de la urna 2 si se ha obtenido una bola negra: P(2/N ) = 4/5.

3. Tengo una bolsa con dos dulces de limón y tres de fresa. Si me como un dulce y después
otro, ¿cuál es la probabilidad de que ambos hayan sido de fresa. P(F ∩ F ) = 3/10

Section 6.4
Teorema de Bayes

El teorema de Bayes responde la pregunta inversa de la probabilidad total. Dado que ya ocurrió
el evento B, este teorema establece la regla para calcular la probabilidad de que ocurra el i-ésimo
elemento de la partición.
86 Chapter 6. Probabilidad

P(B/Ai )P(Ai )
P(Ai /B) =
P(B)
P(B/Ai )P(Ai )
= Pn (6.20)
i=1 P(B/Ai )P(Ai )

Ejemplo 1: En el curso de Métodos computacionales, el 20% de la población estudia

Matemáticas, 30% estudia Geociencias y el resto estudia Fı́sica. El 30% de los estudiantes de
matemáticas son mujeres, el 50% en Geociencias y el 45% en Fı́sica.

a) Si un estudiante es elegido al azar y es mujer, ¿qué probabilidad habrá de que sea estudiante
de matemáticas?

Identificamos las cantidades: P(M ate) = 0.2, P(Geo) = 0.3, P(F isi) = 0.5. Adicionalmente,
tenemos las probabilidades condicionales de ser mujer. P(M/M ate) = 0.3, P(M/Geo) = 0.5,
P(M/F isi) = 0.45.

Lo que se pide calcular es:

P(M/M ate)P(M ate)

P(M ate/M ) = (6.21)
P(M )

Usemos el teorema de probabilidad total para calcular que sea mujer:

P(M ) = P(M/M ate)P(M ate) + P(M/Geo)P(Geo) + P(M/F isi)P(F isi)

= (0.3)(0.2) + (0.5)(0.3) + (0.45)(0.5) = 0.435 (6.22)

Entonces:
P(M/M ate)P(M ate) (0.3)(0.2)
P(M ate/M ) = = = 4/29 ≈ 0.14 (6.23)
P(M ) 0.435

b) Si un estudiante es elegido al azar y es hombre, ¿qué probabilidad habrá de que sea estudiante
de Matemáticas?
6.5. Ejercicios: Teorema de Bayes 87

Identificamos las cantidades: P(M ate) = 0.2, P(Geo) = 0.3, P(F isi) = 0.5. Adicionalmente,
tenemos las probabilidades condicionales de ser hombre. P(H/M ate) = 0.7, P(H/Geo) =
0.5, P(H/F isi) = 0.55.

Lo que se pide calcular es:

P(H/M ate)P(M ate)

P(M ate/H) = (6.24)
P(H)
Usemos el teorema de probabilidad total para calcular que sea hombre:

P(H) = P(H/M ate)P(M ate) + P(H/Geo)P(Geo) + P(H/F isi)P(F isi)

= (0.7)(0.2) + (0.5)(0.3) + (0.55)(0.5) = 0.565 (6.25)

Entonces:
P(H/M ate)P(M ate) (0.7)(0.2)
P(M ate/H) = = = 28/113 ≈ 0.25 (6.26)
P(H) 0.565

Ejemplo 2: En el ejemplo 3 de la probabilidad total. Calcule la probabilidad de que la

bola extraı́da en la urna A sea negra, dado que el resultado de la urna B es blanca P(N1 /B2 ).
Usando los valores calculados anteriormente:

P(B2 /N1 )P(N1 )

P(N1 /B2 ) =
P(B2 /N1 )P(N1 ) + P(B2 /B1 )P(B1 )
(4/9)(4/7)
= = 16/25 (6.27)
(25/63)

Section 6.5
Ejercicios: Teorema de Bayes

1. Un médico ha observado que el 40% de sus pacientes fuma. De este 40% el 75% son
hombres. Entre los pacientes que no fuman, el 60% son mujeres. Si se selecciona un
paciente al azar:

a) ¿Cuál es la probabilidad de que sea mujer? P(M ) = 23/50.

88 Chapter 6. Probabilidad

b) ¿Cuál es la probabilidad de que sea hombre y fume? P(F ∩ H) = 3/10.

c) Si el paciente es mujer, ¿cuál es la probabilidad de que fume? P(F/M ) = 5/23.

2. Suponga que se quiere estimar el número medio de estudiantes que se aproximan a la

secretaria de fı́sica siguiendo una distribución de Poisson. El problema podrı́a tener
información inicial que puede ser utilizada como una función a priori de probabilidad. Esto
asigna probabilidades a los posibles valores del parámetro λ. Supongamos que el número
medio a priori de estudiantes es: 1,2,3,4 con las probabilidades Π(λ) = [0.4, 0.3, 0.2, 0.1]
según las secretarias 1,2,3 y 4 (información subjetiva). El número de estudiantes
observados durante cierto intervalo de tiempo es x = 4.

a) Haga la estimación inicial del parámetro λ̂.

b) Calcule la función de verosimilitud de la observación para cada modelo P(x/λi ) =
L(x/λi ) donde i = 1, 2, 3, 4.
c) Aplicando el teorema de Bayes, calcule la función de distribución a posteriori para
cada modelo:

L(x/λi )Π(λi )
P(λi /x) = P i, j = 1, 2, 3, 4 (6.28)
∀j L(x/λj )Π(λj )

d) Verifique que la distribución posterior está normalizada.

e) Indique el modelo que más probablemente explique los datos.
f) Usando la información subjetiva de cada secretaria y la verosimilitud de la observación
(i,e. la distribución a posteriori). Calcule el mejor parámetro λ̂.

Section 6.6
Técnicas de conteo

Dado que es necesario contar el número de elementos asociados a conjuntos finitos, necesitamos
los axiomas fundamentales de conteo y algunas herramientas de combinatoria. Los axiomas
fundamentales de conteo son los siguientes:

1. Principio multiplicativo: Si un evento A puede ocurrir de n maneras diferentes y otro

evento B puede ocurrir de m diferentes, entonces ambos eventos pueden ocurrir de n · m
maneras distintas.
6.6. Técnicas de conteo 89

2. Principio sumativo: Si un evento A puede ocurrir de n maneras diferentes o m maneras

diferentes, siendo incompatibles las unas con las otras, entonces existen n + m maneras
de ocurrir A.

Adicionalmente, las posibles configuraciones depende si importa o no el orden en los

sub-conjuntos. Si importa el orden se calculan las variaciones y permutaciones, y si no importa
el orden, calculamos la combinaciones. Además, podrı́an o no repetirse elementos en cada
sub-conjunto.

Variaciones sin repetición:

n!
Vrn = (6.29)
(n − r)!
Variaciones con repeticion:

Vrn = nr (6.30)

Permutaciones sin repetición:

P n = n! (6.31)

Permutaciones con repetición:

n!
Pnn1 ,n2 ,...,n2 = (6.32)
n1 !n2 !...nn !
Por otro lado, cuando no importa el orden de las configuraciones:

Combinaciones sin repetición:

n n!
Crn = = (6.33)
r r!(n − r)!
Combinaciones con repetición:

n+r−1 (n + r − 1)!
Crn = = (6.34)
r r!(n − 1)!
90 Chapter 6. Probabilidad

Section 6.7
Ejercicios: Técnicas de conteo

Realizar los siguientes cálculos estableciendo si es variación, permutación o combinación; con o

sin repetición.

1. Carlos, Manuel, Sandra correrán los 100 metros planos. ¿De cuántas formas puede quedar
el podio de primer y segundo lugar? Solo competirán ellos tres. R:6

2. ¿De cuántas formas se puede preparar una ensalada de frutas con solo 2 ingredientes, si
se cuenta con plátano, manzana y uva? R:3

3. ¿De cuantas formas pueden hacer cola 5 amigos para entrar al cine? R:120

4. ¿De cuántas formas puede un juez otorgar el primero, segundo y tercer premio en un
concurso que tiene 8 participantes R:336

5. El capitán de un barco solicita 2 marineros para realizar un trabajo, sin embargo, se

presentan 10. ¿De cuántas formas podrá seleccionar a los 2 marineros? R:45

6. Eduardo tiene 7 Libros, ¿De cuántas maneras podrá acomodar cinco de ellos de un
estante? R:2520

7. En un salón de 10 alumnos, ¿de cuántas maneras se puede formar un comité formado por
2 de ellos? R:45

8. ¿Cuántas palabras diferentes se puede formar con las letras de la palabra REMEMBER?
R:1680

9. Un club de basketball tiene 12 jugadoras, una de ellas es la capitana Marı́a. ¿Cuántos

equipos diferentes de 6 jugadoras se pueden formar, sabiendo que en todos ellos siempre
debe estar la capitana Marı́a. R:462

10. Con 4 frutas diferentes, ¿cuántos jugos surtidos se pueden preparar?. Un jugo surtido se
debe preparar con al menos 2 frutas. R:11

11. En un curso de 10 estudiantes se desea escoger presidente, vicepresidente y secretario.

¿De cuántas formas de pueden seleccionar los 3 estudiantes? R:720
6.8. Ejercicios: Generales de probabilidad 91

12. En un campeonato compiten 8 equipos ¿de cuántas maneras diferentes se podrı́an ganar
los premios de campeón y sub-campeón? R:56

13. ¿Cuántos números de 3 cifras distintas se pueden formar con los dı́gitos del 1 al 7? R:210

14. ¿Cuántos números de 3 cifras se pueden formar con los dı́gitos del 1 al 7? R:343

15. De un grupo de 10 estudiantes se quiere seleccionar un comité al azar de 3 estudiantes.

¿De cuántas maneras diferentes se puede seleccionar el comité? R:120

16. ¿Cuántas placas diferentes se pueden hacer con 3 letras y 3 dı́gitos? R:17576000

17. n Personar van a jugar cartas alrededor de una mesa, ¿de cuántas maneras diferentes se
pueden sentar? R:(n − 1)!

18. En una heladerı́a ofrecen 7 diferentes sabores, ¿cuántas combinaciones de helado de 3

sabores se pueden hacer? R:84

19. En un almacén venden 6 diferentes sabores de gaseosas, ¿de cuántas formas se pueden
seleccionar 3 gaseosas?. ¿De cuántas formas diferentes se pueden seleccionar 3 gaseosas?
R:56, R:20

20. Demostrar la formula de combinaciones con repetición.

n n+r−1
Cr = (6.35)
r

21. Calcular la probabilidad de ganar el Baloto comprando un solo billete. R:7.1511 × 10−8

22. Cuántas sumas de 3 enteros no negativos dan 10. R:66

23. Se tienen 9 llaves: 3 rojas, 3 azules y 3 verdes. Si elegimos 4, ¿de cuántas formas se
pueden distribuir los colores? R:12

Section 6.8
Ejercicios: Generales de probabilidad

Algunos tomados del libro de probabilidad y estadı́stica de Walpole [5].

1. Se lanza un dado equi-probable dos veces. Dados los siguientes eventos:

92 Chapter 6. Probabilidad

A) La suma de los resultados es menor o igual a 3.

B) El resultado del primer lanzamiento es impar.

Calcular P(A) = 1/12, P(B) = 1/2, P(A ∪ B) = 19/36 y P(Ac ) = 11/12

2. Se prueban 5 celulares de un lote de 50 equipos donde existen 2 defectuosos. Si el

muestreo se realiza sin reposición. Hallar la probabilidad que al menos un celular sea
defectuoso. P(A) = 47/245. Piense en Ac y en el principio multiplicativo o en una
estrategia combinatoria.

3. En una cierta ciudad el 60% de los propietarios están suscritos al diario y el 80% al cable.
Adicionalmente, el 50% están suscritos a ambos. Si un propietario es elegido al azar:

(a) ¿Cuál es la probabilidad que esté suscrito a uno de los dos servicios? P(A∪B) = 0.9.
(b) ¿Cuál es la probabilidad que esté suscrito al diario o al cable, pero no a ambos
servicios? P((A ∩ B c ) ∪ (B ∩ Ac )) = 0.4.

4. Calcular la probabilidad que n personas (n ≤ 365) tengan fechas diferentes de cumpleaños,

i.e, escribir la formula general de cálculo. Grafique la probabilidad P(n ≤ 80) como
función de n. Los números son demasiado grandes, pero Python puede manejar dichas
cantidades.
[Link]

5. Se lanzan dos dados equi-probables y se observan los siguientes eventos:

a) La suma es 8: P(A) = 5/36.

b) El segundo dado es impar: P(B) = 1/2.

Calcule P(A ∩ B) y P(A) · P(B). ¿Qué podrı́a concluir?

6. Se lanza simultáneamente 3 dados de 6 caras. ¿Cuál es la probabilidad de obtener 1 par?

P(A) = 5/12. Realice el cálculo de esta probabilidad usando un experimento virtual con
N = 105 eventos.

7. Se lanza simultáneamente 5 dados de 6 caras. ¿Cuál es la probabilidad de obtener?

a) 1 par: P(A) = 25/54.

6.8. Ejercicios: Generales de probabilidad 93

1.0

0.8

Pn 0.6

0.4

0.2

0.0
0 10 20 30 40 50 60 70 80
Personas
Figure 6.1: Probabilidad P(n ≤ 80) de que tengan una edad diferente.

b) 2 pares distintos: P(B) = 25/108.

c) 4 de la misma cara: P(C) = 25/1296.

Realice el cálculo de la probabilidad de los numerales a) y b) usando un experimento

virtual con N = 105 eventos.

8. Se lanzan simultáneamente 4 monedas. Determine la probabilidad de obtener dos caras

y dos sellos P(A) = 3/8. Realice el cálculo de esta probabilidad usando un experimento
virtual con N = 105 eventos, y etiquetando los resultados con +1 y -1 para cara y sello
respectivamente.

9. En el ejercicio anterior, imagine que las monedas están truncadas de tal manera que la
probabilidad de que la moneda 1 sea cara es p1 y que sea sello es 1−p1 . Usando el árbol de
probabilidad, ¿cuál es la expresión de la probabilidad de obtener dos caras y dos sellos de
este evento? Si el truncamiento de las monedas 1 y 2 puede variar como: 0.1 < p1 < 0.9 y
0.1 < p2 < 0.5, use el árbol de probabilidad para graficar la superficie de probabilidad del
evento A. ¿En qué punto la probabilidad es mı́nima y máxima, y cuáles son sus valores?

10. En un juego de Poker que consta de 5 cartas, encuentre la probabilidad de tener:

94 Chapter 6. Probabilidad

0.44
0.42
0.40
0.38
0.36
0.34
0.32
0.30
0.10
0.15
0.20
0.25
0.30
0.35
p1
0.40
0.45
0.50
0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1
p2

Figure 6.2: Superficie de probabilidad del evento A.

a) 3 ases: P(A) = 94/54145

b) 4 cartas de corazones y 1 de bastos: P(B) = 143/39984

11. Si se seleccionan al azar 3 libros de un estante que contiene 5 novelas, 3 libros de poemas
y un diccionario, ¿cuál es la probabilidad de que:

a) se tome el diccionario: P(A) = 1/3

b) se escojan 2 novelas y un libro de poemas: P(B) = 5/14

Section 6.9
Distribuciones discretas de probabilidad

Necesitamos una expresión que nos permita representar todas las probabilidades de una variable
aleatoria X, esta función se representa por f (x) y tiene la siguiente connotación:

f (x) = P(X = x) (6.36)

el conjunto de pares ordenados (x, f (x)) se denomina función de densidad de probabilidad.

Definición 1. El conjunto de pares ordenados (x, f (x)) se denomina función de densidad de

probabilidad de la variable aleatoria X si, para cada resultado posible x:
6.9. Distribuciones discretas de probabilidad 95

f (x) ≥ 0
X
f (x) = 1
x
P(X = x) = f (x) (6.37)

x 0 1 3
P(X = x) 1/3 1/2 1/6

Table 6.2: Distribución de probabilidad

Definición 2. Sea X una variable aleatoria con distribución de probabilidad f (x). La media o
valor esperado de X es:

X
µ̂ = E(X) = xf (x) (6.38)
x

Del ejemplo anterior el valor esperado será:

2
X
µ̂ = xi f (xi ) = x0 f (x0 ) + x1 f (x1 ) + x2 f (x2 ) = 0(1/3) + 1(1/2) + 3(1/6) = 1 (6.39)
i=0

Se tienen algunos resultados útiles para la esperanza de una variable aleatoria.

E(c) = c
E(cX) = cE(X)
E(c + X) = c + E(X)
E(X + Y ) = E(X) + E(Y ) (6.40)

donde c es constante.

Definición 3. Sea X una variable aleatoria con distribución de probabilidad f (x). La varianza
de X es:

X
σˆ2 = V ar(X) = (x − E(x))2 f (x). (6.41)
x
96 Chapter 6. Probabilidad

Esto es una medida de la dispersión en los datos. Se tienen algunos resultados útiles para
la varianza de una variable aleatoria.

V ar(c) = 0
V ar(cX) = c2 V ar(X)
V ar(X + c) = V ar(X)
V ar(X + Y ) = V ar(X) + V ar(Y ), X, Y independientes (6.42)

donde c es constante. En el caso donde las variables X y Y no sean independientes, tenemos

la definición de covarianza.

6.9.1 Covarianza

Definición 4. Sea X e Y dos variables aleatoria con distribución de probabilidad conjunta

f (x, y). La covarianza de X y Y está dada por:

X
σ̂xy = Cov(X, Y ) = (x − E(x))(y − E(y))f (x, y). (6.43)
x,y

Proof: Definamos µX = E(X) y µY = E(Y ) y usando la propiedad de la esperanza

E(X + Y ) = E(X) + E(Y ) = µX + µY . Entonces:

V ar(X + Y ) = E((X + Y − (µX + µY ))2 )

= E(((X − µX ) + (Y − µY ))2 )
= E((X − µX )2 ) + E((Y − µY )2 ) + 2E((X − µX )(Y − µY )) (6.44)

En la última lı́nea se uso la linealidad de la esperanza, donde el último término representa

la covarianza entre variables. Por tanto:

V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X, Y ). (6.45)

La covarianza satisface algunas propiedades:

6.9. Distribuciones discretas de probabilidad 97

Cov(aX, bY ) = abCov(X, Y )
Cov(X, X) = V ar(X)
Cov(X, Y ) = E(XY ) − E(X)E(Y ) (6.46)

6.9.2 Correlación
La covarianza nos indicar el nivel de asociación linea que existe entre las variables, sin embargo,
los valores dependen de las unidades en que se midan X y Y . En ese sentido, podemos definir
un estimador independiente de unidades denominado coeficiente de correlación. El coeficiente
de correlación de Pearson está dado por:

Cov(X, Y )
ρ= . (6.47)
σX σY

6.9.3 Distribución de Bernoulli

Sea X una variable aleatoria discreta X ∼ Bernoulli(p), descrita por un único experimento
con dos posibles resultados denominados éxito y fracaso, y con parámetro 0 < p < 1, donde p
es la probabilidad de éxito. Esta función de probabilidad está dada por:

P (X = x) = px (1 − p)1−x , x = 0, 1 (6.48)
Se puede demostrar que el valor medio está dado por E(X) = p.

6.9.4 Distribución Binomial

Sea X una variable aleatoria discreta X ∼ Bin(n, p) con parámetros n ∈ N y 0 < p < 1. Esta
función de probabilidad está dada por:

n x
P (X = x) = p (1 − p)1−x , x = 0, 1, ..., n (6.49)
x
Esta distribución está conectada con a distribución de Bernoulli. Si X1 , X2 , ..., Xn son n
variables aleatorias con distribución de Bernoulli Xi ∼ Bernoulli(p), entonces:

n
X
Xi ∼ Bin(n, p). (6.50)
i
98 Chapter 6. Probabilidad

Se puede demostrar que el valor medio está dado por E(X) = np.

6.9.5 Distribución de Poisson

Sea X una variable aleatoria discreta X ∼ P ois(λ) con parámetro λ ∈ R+ . Esta función de
probabilidad está dada por:

e−λ λk
P (X = k) = , k = 0, 1, ... (6.51)
k!
donde k es el número de ocurrencias del suceso.
Se puede demostrar que el valor medio está dado por E(X) = λ.

Section 6.10
Ejercicios: Distribuciones discretas de probabilidad

1. ¿Cuál es valor esperado del experimento de lanzar un dado? Ans: µ̂ = 3.5

2. ¿Cuál es valor esperado del experimento de lanzar dos dados y sumar sus resultados?
Ans: µ̂ = 7.0

3. Un embarque de 10 microchips similares que se envı́a a distribución tiene 3 aparatos

defectuosos. Si una empresa realiza un compra aleatoria de 2 de estos microchips.

a) Muestre que la distribución de probabilidad del número de microchips defectuosos.

7 3

2−x x
f (x) = 10
(6.52)
2

x 0 1 2
P(X = x) 7/15 7/15 1/15

Table 6.3: Distribución de probabilidad del número de microchips defectuosos.

b) ¿Cuál es valor esperado de microchips defectuosos? Ans: µ̂ = 3/5 = 0.6

4. Una caja cuántica tiene 3 electrones, 2 protones y 3 neutrones. Se selecciona una muestra
aleatoria de 4 partı́culas. Si x es el número de electrones e y es el número de protones.
6.11. Distribuciones continuas de probabilidad 99

a) Muestre que la distribución de probabilidad conjunta f (x, y) es:

3
2 3

x y 4−x−y
f (x, y) = 8
(6.53)
4

b) Hallar las distribuciones marginales g(x) y h(y).

c) Halle el valor esperado de electrones: E(x) = 105/70.
d) Halle el valor esperado de protones: E(y) = 1.
e) Calcular la covarianza usando: σxy = E(xy) − E(x)E(y) = −3/14
f) Calcular la covarianza usando: σxy = E((x − µ̂x )(y − µ̂y )) = −3/14
g) Son las variables x e y independientes?

Section 6.11
Distribuciones continuas de probabilidad

Definición 5. La función f (x) es una función de densidad de probabilidad para la variable

aleatoria continua X, definida en el conjunto de los números reales, si:

f (x) ≥ 0 para toda x ∈ R

Z ∞
f (x)dx = 1
−∞
Z b
P (a < X < b) = f (x)dx (6.54)
a

Definición 6. Sea X una variable aleatoria con distribución de probabilidad f (x). La media o
valor esperado de X es:
Z ∞
µ̂ = E(X) = xf (x)dx (6.55)
−∞

6.11.1 Distribución normal

La función de densidad de probabilidad normal está dada por:

1 1 x−µ 2
f (x, µ, σ) = √ e− 2 ( σ
)
, (6.56)
2πσ 2
100 Chapter 6. Probabilidad

donde µ ∈ R y σ 2 ∈ R+ son los parámetros que caracterizan las distribución. Se puede

demostrar que el valor medio está dado por E(X) = µ.

6.11.2 Distribución χ2
Si tenemos Z1 , Z2 , ..., Zk variables aleatorias con Zi ∼ N (0, 1) para i = 1, 2, ..., k, entonces la
variables aleatoria:

k
X
Zi2 ∼ χ2 (k), (6.57)
i=1

donde k > 0 es el número de grados de libertad de la distribución. La función de densidad

de probabilidad está dada por:

( 21 )k k −1 −x/2
χ2 (x, k) = x2 e . (6.58)
Γ( k2 )
Con x > 0 y Γ es la función gamma.

6.11.3 Distribución t-Student

Si tenemos una variable aleatoria X1 ∼ N (0, 1) y otra variable aleatoria X2 ∼ χ2 (n). Se define
la variable aleatoria:

X1
Xn = q (6.59)
X2
n

tiene una función de densidad t-Student dada por:

Γ((ν + 1)/2)
f (x, ν) = √ (1 + x2 /ν)−(ν+1)/2 , (6.60)
πνΓ(ν/2)
donde ν ∈ R+ es el número de grados de libertad y Γ es la función gamma.

Section 6.12
Ejercicios: Distribuciones continuas de probabilidad

1. Dada la función de probabilidad conjunta:

6.12. Ejercicios: Distribuciones continuas de probabilidad 101

(
2
3
(x + 2y) 0 ≤ x ≤ 1, 0 ≤ y ≤ 1.
f (x, y) = (6.61)
0 otro caso

encuentre analı́ticamente y a través del paquete SymPy los siguientes valores:

a) Verifique que sea una función de densidad conjunta válida.

b) Hallar las distribuciones marginales g(x) y h(y).

10
c) E(x) = 18

11
d) E(y) = 18

e) Calcular la covarianza usando: σxy = E(xy) − E(x)E(y) = −0.00617

f) Calcular la covarianza usando: σxy = E((x − µ̂x )(y − µ̂y )) = −0.00617

g) Son las variables x e y independientes?

2. Suponga que el error en la temperatura en un experimento controlado de laboratorio

es una variable aleatoria continua X, que tiene la siguiente función de densidad de
probabilidad:

(
x2
3
si −1 ≤ x ≤ 2
f (x) = (6.62)
0 en otro caso

Encuentre las siguientes probabilidades:

(a) P(0 < X ≤ 1) = 1/9

(b) P(1 < X ≤ 2) = 7/9

3. Una variable aleatoria continua X que puede asumir valores entre x = 2 y x = 3 tiene
una función de densidad f (x) = 1/2.

a) Demuestre que el área bajo la curva es igual a 1.

b) Encuentre P(2 < X < 2.5) = 1/4

c) Encuentre P(X ≤ 2.6) = 0.3

102 Chapter 6. Probabilidad

4. Una variable aleatoria continua X tiene una función densidad:

(
e−x si x>0
f (x) = (6.63)
0 en otro caso

Encuentre el valor esperado de g(X) = e2X/3 = 3. Recuerde que el valor esperado de la

variable aleatoria g(X) está dada por:

Z ∞
µ̂g(X) = g(x)f (x)dx (6.64)
−∞

Section 6.13
Procesos de Markov

Definición 7. Un proceso de Markov es un proceso estocástico discreto {xn : n = 0, 1, ...}, con

espacio de estados discreto S ⊆ {0, 1, ...} que satisfacen la propiedad de Markov.

P(Xn+1 = xn+1 /X0 = x0 , ..., Xn = xn ) = P(Xn+1 = xn+1 /Xn = xn ) (6.65)

Esto significa que la probabilidad de que la variable aleatoria tome el valor xn+1 , dado que
el proceso ha pasado por los pasos anteriores x0 , x1 , ..., xn ; solo depende del estado anterior xn .
Equivalentemente, se puede escribir la probabilidad de que la variable aleatoria tome el valor
xn+1 como:

P(X0 = x0 , X1 = x1 , ..., Xn+1 = xn+1 ) = P(X0 = x0 )P(X1 = x1 /X0 = x0 )P(Xn+1 = xn+1 /Xn = xn )

Note que el proceso completo, requiere un conjunto de probabilidades para el estado inicial.

Definición 8. La distribución de la variable aleatoria X0 se denomina distribución inicial, es

decir, {P(X0 = 0), P(X0 = 1), ...}. Se suponen que la distribución inicial es conocida.

Por otro lado, el conjunto de probabilidades condicionales que describen al proceso se

denominan probabilidades de transición.
6.13. Procesos de Markov 103

Definición 9. La probabilidad P(Xn+1 = i/Xn = j) = Pij (n, n + 1) se denomina probabilidad

de transición del estado j en el tiempo n al estado i en el tiempo n + 1.

Se supone que los valores de la probabilidades de transición son independientes del valor
especı́fico de n, en ese caso, la cadena es estacionaria.

Pij (0, 1) = Pij (1, 2) = ... = Pij (n, n + 1). (6.66)

Ejemplo 1:
Imaginemos que una partı́cula puede estar en cuatro diferentes estados 1,2,3 y 4. Esta
partı́cula puede mantener o cambiar su estado con ciertas probabilidades. Medimos el estado
de la partı́cula en intervalos de tiempo iguales t0 , t1 , ..., tn . Se tienen las siguientes reglas de
transición:

P(1/1) = 0.30, P(1/2) = 0.25, P(1/3) = 0.15, P(1/4) = 0.10

P(2/1) = 0.30, P(2/2) = 0.25, P(2/3) = 0.55, P(2/4) = 0.20
P(3/1) = 0.30, P(3/2) = 0.50, P(3/3) = 0.10, P(3/4) = 0.30
P(4/1) = 0.10, P(4/2) = 0.00, P(4/3) = 0.20, P(4/4) = 0.40 (6.67)

Por ejemplo: P(4/1) es la probabilidad de que pase al estado 4, dado que está en el estado
1.

a) Si en t0 el estado de la partı́cula es 1, ¿cuál es la probabilidad de que esté en el estado 4 en

t2 ?
Para pasar del estado 1 al estado 4 en dos pasos, la regla de probabilidad total define
cuatro caminos independientes: E1 → E1 → E4 , E1 → E2 → E4 , E1 → E3 → E4 , y
E1 → E4 → E4 . Entonces, la probabilidad es:

P(1 → 4) = P(1/1)P(4/1) + P(2/1)P(4/2) + P(3/1)P(4/3) + P(4/1)P(4/4)

= (0.3)(0.1) + (0.3)(0.0) + (0.3)(0.2) + (0.1)(0.4) = 0.13 (6.68)

b) Si en t0 el estado de la partı́cula es 1, ¿En cuál estado la partı́cula está con mayor

probabilidad?
104 Chapter 6. Probabilidad

De las reglas de transición, calculamos las probabilidades restantes:

P(1 → 1) = 0.22
P(1 → 2) = 0.35
P(1 → 3) = 0.30 (6.69)

Lo que significa que la transición más probable es P(1 → 2).

Note que en el ejemplo anterior hay una estructura intrı́nseca matricial. Por ejemplo, si
pensamos en P(1 → 4) como la multiplicación de elementos de una matriz tenemos:

X
P(1 → 4) = p41 p11 + p42 p21 + p43 p31 + p44 p41 = p4k pk1 = P41 . (6.70)
k=4

Que corresponde con la multiplicación del cuarto renglón por la primera columna de la
matriz de probabilidades de transición.

Definición 10. Para un proceso de Markov, la matriz de probabilidad de transición

(estacionaria) de un paso es:
 
P00 P01 · · · P0n
 
 P10 P11 · · · P1n 
P= . (6.71)
 
 .. .. . . .. 
 . . . 

Pn0 Pn1 · · · Pnn
donde la información de la probabilidad de transición Pij debe entenderse como la
probabilidad de ir de la columna j al renglón i.

Esta matriz debe cumplir la propiedad básica de que la suma de probabilidades de cada
columna debe ser igual a uno:

X
Pij = 1, ∀j≤n (6.72)
i

Del ejemplo 1 de una cadena de dos pasos, la probabilidad de transición del estado 1 a todos
~
los estados, puede calcularse como el producto matricial P2 E:
6.14. Ejercicios: Cadenas de Markov 105

 2    
0.3 0.25 0.15 0.10 1 0.22
     
2~
0.3 0.25 0.55 0.20 0 0.35
P(1 → 1, 2, 3, 4) = P E = 
0.3 0.50 0.10 0.30 0 = 0.30
     (6.73)
     
0.1 0.00 0.20 0.40 0 0.13

1.0 Pn(0)
Pn(1)
0.8 Pn(2)
Pn(3)
0.6
Pn

0.4

0.2

0.0
0 2 4 6 8 10
n
Figure 6.3: Probabilidades de transición de los estados para n = 10 pasos.

Section 6.14
Ejercicios: Cadenas de Markov

1. Calcule las probabilidades de transición estacionarias del ejemplo 1.

Section 6.15
Metropolis-Hasting algorithm

Suppose you wish to sample the random variable x ∼ f (x), but you can not use the direct
simulation, the inverse CDF or accept-reject methods. But you can evaluate f (x) at least up
to a proportionality constant; then you can use the Metropolis-Hastings algorithm.

Let f (x) be the (possible unnormalized) target density, xj be a current value and q(x/xj )
be a proposal distribution, which might depend on the current value xj . The algorithm is
106 Chapter 6. Probabilidad

summarized as follows:

a) Sample x∗ ∼ q(x/xj ).

b) Calculate the acceptance probability:

f (x∗ )q(xj /x∗ )

j ∗
ρ(x , x ) = min 1, , (6.74)
f (xj )q(x∗ /xj )

if ρ(xj , x∗ ) > r, x∗ is accepted. Where r ∼ U(0, 1).

c) Set xj+1 = x∗ with probability ρ(xj , x∗ ), otherwise set xj+1 = xj .

In general, this sequence is not independent, moreover, we concentrate on symmetry chains

(random walks) where q(x/xj ) = q(xj /x). The acceptance probability is, therefore:

f (x∗ )

j ∗
ρ(x , x ) = min 1, (6.75)
f (xj )
How this algorithm works?

Let Dn (x) be the points density xn around x and Dn (y) the points density yn around y. x
will be accepted or rejected. We can quantify the flux of points on the neighborhood x as:

δDn (x) = δDn+1 (x) − δDn (x) (6.76)

X X
δDn (x) = Dn (y)P (y → x) − Dn (x)P (x → y) (6.77)
y y
| {z } | {z }
Gain Lost

X P (y → x) Dn (x)
Dn (y)P (x → y) − (6.78)
y
P (x → y) Dn (y)
We have two properties:

1. The equilibrium is achieved asymptotically.

2. There is flux toward y, which tends Dn (x) to the equilibrium.

P (y → x) Dn (x)
< (6.79)
P (x → y) Dn (y)
6.16. Ejercicios: Metropolis-Hastings 107

As a reminder ρ(x, y) > r is the acceptance condition. We can calculate P (x → y) as pxy Axy ,
where pxy is the probability of generation of y given x, and Axy is the acceptance probability.
Since the Metropolis estrategy is symmetric (pxy = pyx ), we get:

P (y → x) Ayx f (x)
= = ρ(x, y) = (6.80)
P (x → y) Axy f (y)
Therefore, the equilibrium distribution is given by:

Deq = D(x) = f (x) (6.81)

Section 6.16
Ejercicios: Metropolis-Hastings

1. Se lanza una moneda n = 10 veces y se encuentra que r = 7 veces cae cara. Usando el
algoritmo de Metrópolis:

a) Encuentre el parámetro asociado a la probabilidad de éxito p̂ de la distribución

binomial, es decir, encuentre el máximo de la distribución posterior.

b) Usando la varianza binomial y los cuantiles de la distribución posterior, encuentre los

+
errores asociados al parámetro p̂ a un nivel de confianza del 68% (i.e, σ− ).

c) ¿Podemos decir que la moneda está truncada?

Utilice la siguiente distribución a priori para el espacio de parámetros:

(
1 si 0 < p < 1
π(p) = (6.82)
0 si Otro caso

2. Resuelva el problema anterior usando el paquete Emcee.

[Link]

3. Usando el algoritmo de Metrópolis, realice el muestreo de N = 1000 eventos de una

distribución normal: A ∼ N (x; µ = 2, σ = 0.5).

4. Usando el algoritmo de Metrópolis, realice el muestreo de N = 1000 eventos de una

distribución estándar de Cauchy: A ∼ f (x; 0, 1).
108 Chapter 6. Probabilidad

1
f (x; 0, 1) = (6.83)
π(1 + x2 )
5. Genere un ensamble de al menos 30 caminatas aleatorias como las generadas en clase.
Calcule la distancia cuadrática desde el inicio del movimiento hasta el final, es decir
R2 = x2 + y 2 dado que se inicia siempre en [0,0] [6.4]. Calcule la distancia cuadrática
media para cada uno de los siguientes pasos:

N = {10, 100, 500, 1000, 5000, 10000, 20000, 100000} (6.84)

Deberı́a obtener algo como:

Figure 6.4: Relación entre la distancia cuadrática media y el número de pasos de un proceso
Markoviano. Entender este proceso fue uno de los pasos definitvos para aceptar la existencia
de las moléculas empezando el siglo XX.

6. Sea el volumen d−dimensional (Vd ):

Z ∞
Vd = cos(||r||)exp(−||r||2 )drd , (6.85)
−∞
qP
d
donde ||r|| = i=1 x2i y drd = dx1 · · · dxd , con el factor de normalización:

d
fn = (2πσ 2 ) 2 (6.86)
6.16. Ejercicios: Metropolis-Hastings 109

a) Usando el método de Metrópolis-Hasting para N = 105 eventos y σ = √1 , muestre

2
que los volúmenes d = 2, 3 son respectivamente V2 ≈ 1.817671646 y V3 ≈ 2.167233695.

7. La molécula de Hidrógeno está compuesta por dos núcleos separados una distancia L. En
torno a cada núcleo existe un electrón que supondremos que está en el nivel más bajo de
energı́a, en un órbital s. La función de onda que describe a cada electrón está dada por:

~ = p1 e−|~r−R|/a
ψ(~r, R)
~ 0
(6.87)
3
πa0

~ es la posición del núcleo respecto al sistema

donde a0 = 0.529 Å es el radio de Borh y R
de referencia. Adicionalmente, el operador de energı́a electrostática de la molécula (en
electronvoltios), que incluye la interacción entre electrones y núcleos está dado por:

~ 1, R
~ 2) = 1 1 1 1 1 1
U (~r1 , ~r2 , R + − − − −
~1 − R
|~r1 − ~r2 | |R ~ 2 | |~r1 − R
~ 1 | |~r2 − R
~ 1 | |~r1 − R
~ 2 | |~r2 − R~ 2|
(6.88)

Usar un sistema de unidades donde a0 = 1 y poner los núcleos en las posiciones: R ~1 =

~ 2 = [0, 0, −L/2]. La idea es calcular el valor esperado de la energı́a potencial
[0, 0, L/2] y R
como función de la separación de los núcleos de la molécula. Este promedio está dado
(sin considerar el espı́n electrónico) por:

Z
< U >= ~ 1 )|2 |ψ(~r2 , R
d3 r1 d3 r2 |ψ(~r1 , R ~ 2 )|2 U (~r1 , ~r2 , R
~ 1, R
~ 2) (6.89)

a) Note que esta integral se puede ver como el valor promedio de la energı́a potencial
evaluada en el muestreo de la densidad de probabilidad de cada electrón. Usando el
algoritmo de Metropolis en coordenadas cartesianas, hacer el muestreo del cuadrado
de la función de onda fijando L = 2 y 105 pasos en la cadena. La distribución de
puntos de la nube electrónica asociada a cada electrón está dada por [6.5]:

b) Calcule el valor esperado de la energı́a potencial para el siguientes separaciones

nucleares.
l = [Link](1.0,3.0,10). Deberı́a obtener algo similar a [6.7]:

c) Incluya el efecto de Heitler y London (buscar el sentido fı́sico):

110 Chapter 6. Probabilidad

Figure 6.5: Nube electrónica encontrada con el algoritmo de Metropolis asociada al electrón en
cada núcleo.

1.90

1.92

1.94
<U(r)>

1.96

1.98

2.00

2.02

2.04
1.00 1.25 1.50 1.75 2.00 2.25 2.50 2.75 3.00
r[A]

Figure 6.6: Valor esperado de la energı́a potencial eléctrica de la molécula de Hidrógeno.

Note que existe un estado ligado que conocemos como enlace covalente, la energı́a del pozo
de potencial está alrededor de Umin ≈ 2.0 eV y se da a una separación nuclear de dequilibrium ≈
2.1a0 .

Z
< U >= ~ 1 )ψ(~r2 , R
d3 r1 d3 r2 |ψ(~r1 , R ~ 2 ) + ψ(~r2 , R
~ 1 )ψ(~r1 , R
~ 2 )|2 U (~r1 , ~r2 , R
~ 1, R
~ 2 ) (6.90)

d) Note que los valores están de acuerdo a los observados en la naturaleza: La distancia
de separación de los protones es dequlibrium = 2.4a0 y la energı́a de ligadura es 2.8 eV .
Nice isn’t it!
6.17. Hidden Markov models 111

1.86

1.88

1.90

<U(r)>
1.92

1.94

1.96

1.00 1.25 1.50 1.75 2.00 2.25 2.50 2.75 3.00

r[A]

Figure 6.7: Valor esperado de la energı́a potencial eléctrica de la molécula de Hidrógeno

incluyendo el efecto de Heitler y London. Note que existe un estado ligado que conocemos
como enlace covalente, la energı́a del pozo de potencial está alrededor de Umin ≈ 2.05 eV y se
da a una separación nuclear de dequilibrium ≈ 2.3a0 .

Section 6.17
Hidden Markov models

Un proceso de Markov oculto es un proceso estocástico definido por dos variables aleatorias,
la variable oculta x(t) toma valores en el paso t y la variable observada y(t) toma valores en
el paso t. La variable x(t) toma valores siguiendo la matriz de transición T y la variable y(t)
toma valores siguiendo la matriz de emisión E. Por ejemplo, definimos las siguientes matrices
de transición y emisión:
 
F T
 
T=
 F 0.7 0.5
 (6.91)
T 0.3 0.5
 
F T
 
R 0.8 0.2
E=
  (6.92)
V 0.1 0.3


A 0.1 0.5
Las columnas de estas matrices representan las probabilidades de los estados en el tiempo
t − 1 y las filas las probabilidades asociadas al tiempo t. La suma de todos los valores en una
columna debe ser igual a 1. Definamos los estados de transición como el estados de animo de una
persona; Feliz y Triste como: S = [F, T ] con las siguientes probabilidades a priori π = [0.4, 0.6].
112 Chapter 6. Probabilidad

De esta forma, la probabilidad de estar feliz al dı́a (t − 1) y luego estar triste al siguiente dı́a (t)
es: T10 = 0.3. Los estados de transición que siguen este proceso aleatorio no son observables
por lo que se denominan ocultos. Sin embargo, esta probabilidad de transición se propaga
influyendo en la manera de vestir de la persona. Definamos los estados de emisión como el
color de la ropa que usa la persona al tiempo t − 1; Rojo, Verde, Azul como E = [R, V, A].
En este contexto, la probabilidad de que la persona use ropa azul dado que está feliz es E20 = 0.1.

La secuencia de n eventos observados es:

ΩO = {y(t1 ), y(t2 ), ..., y(tn )} (6.93)

Usando la propiedad de los procesos de Markov, se busca encontrar la secuencia de eventos

ocultos más probable.

Ωhidden = {x(t1 ), x(t2 ), ..., x(tn )} (6.94)

Suponga la siguiente secuencia de ropa usada por la persona: ΩO = [V, A, R].

a) Encuentre la probabilidad de cada secuencia de estados (ocultos) de ánimo.

b) Encuentre el estado de animo más probable que tuvo la persona durante esos tres dı́as.

c) Calcule las probabilidades de cada estado observable (i) como la suma de las probabilidades
de todos los estados ocultos. Verifique que sumando todos los estados observables la medida
es 1.
X
Pi = 1 (6.95)

Remarks:
nh es el número de estados ocultos y no es el número de estados observados. El número de
secuencias posibles (ns ) está dada por las variaciones con repetición de estas cantidades:

ns = nnho = 8 (6.96)

De las ocho secuencias ocultas posibles, supongamos que la secuencia oculta es S1 =

[F, F, T ]. Entonces:
!
F F T
S1 = (6.97)
V A R
6.17. Hidden Markov models 113

0.0175
0.0150
0.0125
0.0100 Probabilidad por secuencia
MaxP = 0.018
0.0075
0.0050
0.0025
0.0000
1 2 3 4 5 6 7 8

Figure 6.8: Probabilidad de cada secuencia oculta para el estado ΩO = [V, A, R].

Recordemos la probabilidad condicional de dos sucesos:

P(A ∩ B) = P(A/B)P(B) (6.98)

Recordemos las matrices involucradas:

 
F T
 
T = F 0.7 0.5

 (6.99)
T 0.3 0.5
 
F T
 
R 0.8 0.2
E=   (6.100)
 V 0.1 0.3 

A 0.1 0.5
Por tanto, la probabilidad de la secuencia es:

P(V, A, R ∩ F, F, T ) = P(V /F )P(A/F )P(R/T ) × P(F ) P(F/F )P(T /F )

| {z } | {z } | {z }
Emission Matrix Prior Transition Matrix
= E10 E20 E01 P0 T00 T10
= 0.1 · 0.1 · 0.2 × 0.4 · 0.7 · 0.3 = 1.68 × 10−4 (6.101)

En general:

n
Y n
Y
P(Oi , qi ) = P(Oi /qi ) P(qi /qi−1 ) (6.102)
i=1 i=1
114 Chapter 6. Probabilidad

Section 6.18
Ejercicios: Hidden Markov models

1. Un casino tiene dos tipos monedas una justa (J) y una sesgada (B), las probabilidades
de obtener cara y sello son: PJ = [0.5, 0.5] y PB = [0.9, 0.1] respectivamente. El tipo de
moneda se escoge siguiendo esta ley de transición:

 
J B
 
T =  J 0.8 0.2

 (6.103)
B 0.2 0.8

Por otro lado, la matriz de emisión está dada por:

 
J B
 
E=
 C 0.5 0.9
 (6.104)
S 0.5 0.1

Se realiza un experimento de 8 lanzamientos y se obtiene la siguiente secuencia:

ΩO = [S, C, C, C, S, C, S, C] (6.105)

a) Use la siguiente distribución de probabilidad a-priori π = [0.2, 0.8] para la moneda

justa y sesgada.

b) Encuentre la secuencia oculta más probable del tipo de moneda que se eligió en cada
lanzamiento y su respectiva probabilidad Pi .

c) Calcule las probabilidades de cada estado observable (o) como la suma de las
P
probabilidades de todos los estados ocultos, Po = i Pi .

d) Verifique que la suma de todos los estados observables es 1.

X
Po = 1 (6.106)

e) ¿Depende el resultado de la probabilidad a-priori?

6.18. Ejercicios: Hidden Markov models 115

0.000200
Probabilidad por secuencia
0.000175 MaxP = 0.0002
0.000150
0.000125
0.000100
0.000075
0.000050
0.000025
0.000000
0 50 100 150 200 250

Figure 6.9: Probabilidad de cada secuencia oculta para el estado observado ΩO =

[S, C, C, C, S, C, S, C].

2. Las bases nitrogenadas fundamentales que componen el ADN son: Adenina (A), Citosina
(C), Guanina (G) y Timina (T). Un gen se puede representar a través de una secuencia
ordenada de dichas bases. Suponga la siguiente matriz de transición entre bases:

 
A C G T
 
A 0.4 0.2 0.2 0.2 
 
T = C 0.25 0.25 0.25 0.25 (6.107)
 
 
G 0.3 0.3 0.1 0.3 
 
T 0.1 0.1 0.1 0.7

La probabilidad a-priori está dada por:

π = [0.25, 0, 0.5, 0.25] (6.108)

Encuentre la probabilidad de obtener el siguiente gen:

g = [T, G, C, T, C, A, A, A] (6.109)

Pg = 7.5 × 10−6
116 Chapter 6. Probabilidad
Chapter 7

Estadı́stica

La estadı́stica estudia la organización y análisis de datos para dar conclusiones y tomar

decisiones válidas. Es imposible estudiar el grupo completo de datos denominado población, en
su lugar, se toma un sub-conjunto llamado muestra (que debe ser representativo). En general,
la población puede ser finita o infinita. La descripción y análisis de unicamente la muestra,
se denomina estadı́stica descriptiva. Si por el contrario se desea inferir conclusiones sobre la
población, con base a la muestra, se denomina estadı́stica inferencial.

Section 7.1
Muestreo (sampling)

Debido a que en general es imposible tener la población completa, se requiere una metodologı́a
sistemática y que sea imparcial para elegir elementos de una población. La técnica para elegir
una muestra de una población de denomina muestreo. Suponiendo un tamaño de población N
y de muestra (n) determinado, el muestreo debe permitir hacer el estudio y estimaciones de las
caracterı́sticas de la población, por ejemplo, promedios, desviaciones tı́picas, etc. La muestra
debe ser representativa para generalizar los resultados a la población.

Ventajas:

1. Permite tener un sub-conjunto de toda la población.

2. Si la muestra es representativa, el muestreo permite inferir los resultados de la muestra a

la población.

117
118 Chapter 7. Estadı́stica

3. Cuesta menos dinero.

4. Se pueden obtener resultados más rápido.

Desventajas:

1. Existe posibilidad de sesgo, i.e, preguntar sobre la preferencia de un candidato presidencial

a un solo tipo de población.

2. Margen de error.

3. Dificultad para obtener los datos.

Se tienen las siguientes técnicas de muestreo:

7.1.1 Aleatorio (probabilı́stico)

Es un método adecuado para seleccionar una muestra lo suficientemente representativa de una
población, esta información se puede inferir al conjunto completo con cierto nivel de confianza.
Este tipo de muestreo tiene las siguientes caracterı́sticas:

a) Se basa en que todos los elementos de la población tiene la misma probabilidad de ser
elegidos.

b) Este tipo de muestreo garantiza la representatividad de la muestra. (procesos de inferencia

válidos).

c) Permite la estimación de caracterı́stica poblacionales (promedios, total, proporciones, etc).

d) Las estimaciones se realizan a través de funciones matemáticas denominadas estimadores

estadı́sticos.

e) Los errores se cuantifican mediante varianzas y desviaciones de los estimadores estadı́sticos.

En particular, se tienen las siguientes técnicas aleatorias:

7.1. Muestreo (sampling) 119

7.1.2 Muestreo aleatorio simple

Es método consiste en seleccionar una muestra de tamaño n, cuyos elementos tienen igual
probabilidad dentro de una población N . Esta muestra se obtiene elemento por elemento de
forma aleatoria, adicionalmente, la construcción de la muestra no dependen del orden en que
se obtiene la secuencia. Los elementos pueden ser elegidos con y sin reposición, cuando hace
el muestreo con reposición, se puede obtener el mismo elemento más de una vez, en cuyo caso
todas las muestras son equiprobables. Cuando realiza el muestreo sin reposición, cada elemento
puede aparecer una sola vez en la muestra y cada muestra es equiprobable. La probabilidad de
que un elemento de la población pertenezca a una muestra es:

Número de muestras que contienen el elemento i

Pi = (7.1)
Número de muestras totales

N −1
(N −1)!
n−1 (n−1)!(N −n)! n
Pi = N
= N!
= (7.2)
n n!(N −n)!
N

7.1.3 Muestreo aleatorio estratificado

Es posible construir la muestra a través de estratos o categorı́as (L) que pueden ser etiquetadas
como: n1 , n2 , ..., ni , ..., nL Este esquema de muestreo está influenciado principalmente por tres
factores: el número total de elementos en cada estrato, la variabilidad de las observaciones
y en casos reales, por el costo de adquirir la muestra. El muestreo estratificado es óptimo
y homogéneo, cuando se minimiza la desviación estándar de cada estrato, sin embargo, esta
minimización resulta difı́cil de alcanzar en los casos reales. Para el muestreo estratificado,
tenemos asignación igual o proporcional. Tomemos el siguiente ejemplo: Para cierta universidad
tenemos el siguiente número de estudiantes por carrera:

Carrera Estrato Población

Medicina 1 1000
Ing. Industrial 2 500
Mercadeo 3 450
Fı́sica 4 50

Table 7.1: Distribución de estudiantes según su carrera universitaria.

120 Chapter 7. Estadı́stica

Se requiere formar una muestra aleatoria estratificada de n = 400 usando asignación igual
y proporcional. Para asignación igual, se tiene el siguiente tamaño de estrato:

400
ni = = 100 (7.3)
4
Para asignación proporcional tenemos los siguientes tamaños de estrato.

Ni
Carrera Estrato Población (Ni ) Muestra ni = n × N
Medicina 1 1000 200
Ing. Industrial 2 500 100
Mercadeo 3 450 90
Fı́sica 4 50 10
N = 2000 n = 400

Table 7.2: Distribución muestral según su carrera universitaria.

7.1.4 Muestreo aleatorio sistemático

Este método consiste en obtener los elementos de la muestra de una manera ordenada, donde
los elementos se seleccionan en intervalos regulares. En particular, este método arroja buenos
resultados cuando la variable de interés está ordenada de mayor a menor. Si la disposición
de los elementos es aleatoria, el muestreo sistemático equivale al método aleatorio simple. El
intervalo de selección de los elementos está dado por:

N
k= (7.4)
n
El primer valor (S0 ) se elige aleatoriamente de la lista entre el primer valor y k. Para
seleccionar los siguientes k − 1 cantidades se realiza una traslación sistemática de k unidades
desde el primer valor:

i0 = [Link](k)
in+1 = in + nk, con n = 1, 2, ..., k − 1 (7.5)

Tomemos la siguiente población:

7.2. Distribución de frecuencias (Histogramas) 121

Ω = [0, −1, −3, −5, 5, 7, 4, 10, 12, 15, 20, 19, 50, 55, 60, 45] (7.6)

Tomando k = 16/4 = 4 y empezando con la lista ordenada en Ωsorted

1 = 55, tenemos la
muestra de tamaño k = 4:

S = [55, 19, 7, −1] (7.7)

7.1.5 Muestreo no aleatorio

Son técnicas de muestreo donde la muestra se obtienen en procesos donde cada individuo no
tienen la misma probabilidades de ser seleccionado.

1. Investigaciones exploratorias (por cuotas, intensional, bola de nieve).

2. La forma de selección, hace que la muestra no sea representativa. (procesos de inferencia

no aplicables).

Section 7.2
Distribución de frecuencias (Histogramas)

Una de las operaciones más sencillas de realizar en un conjunto de datos es la ordenación en

términos de la frecuencia de repetición de los datos. Para tal fin, vamos a definir algunos
parámetros de la muestra que nos permite ordenar la información.

1. Rango de la población: Es la diferencia entre el mayor y el menor valor encontrado en la

muestra. Por ejemplo, se mide el peso de 300 estudiantes donde el valor mayor es 100 kg
y el menor es 65.4 kg. El rango de la muestra es: 34.6 kg.

2. Frecuencia de clase: Es apropiado definir categorı́as o clases (Ci ) en los datos para separar
la muestra en n clases. El número de datos pertenecientes a la clase Ci se denomina
frecuencia de clase. Las clases tienen las siguientes propiedades:

(a) Ci 6= ∅

(b) Ci ∩ Cj = ∅

3. Lı́mite de clase: En el ejemplo del peso de los estudiantes, si tomáramos la clase C1

como todos los estudiantes que pesan entre 65 y 75 kg, entonces los lı́mites de clase serı́a
precisamente dichos valores.

4. Tamaño de clase: Es la diferencia entre los lı́mites de clase, por ejemplo: 75 - 65 kg = 10

kg es el tamaño de clase de C1 .

5. Marca de clase: Es el punto medio de cada clase, el cuál se obtiene promediando el valor
de los lı́mites de clase.

Con estas definiciones podemos definir el concepto de histograma. Un histograma es el

conjunto de clases, que pueden ser representadas gráficamente como los rectángulos, cuya base
esta centrada en las marcas de clase y su altura es la frecuencia de clase. Note que, el área
total histograma es proporcional al tamaño total de la muestra. En ciertos casos resulta muy
útil hacer que el área del histograma sea igual a 1 para comparar la forma de la distribución
con otras distribuciones.

Ası́ mismo, podemos definir una distribución de frecuencias acumulada, que nos da
información de como se acumula la información en los datos para valores menores a una marca
de clase especı́fica. La grafica de la distribución acumulada de frecuencia se denomina ojiva.
Imaginemos la siguiente situación:

Peso [kg] Frecuencia Acumulada

60 - 70 6 Menor a 60 0
70 - 80 35 Menor a 70 6
80 - 90 40 Menor a 80 41
90 - 100 19 Menor a 90 81
Menor a 100 100

Table 7.3: Distribución de pesos y distribución acumulada de pesos para un conjunto de

mediciones de 100 estudiantes.

Una descripción sencilla de la distribución acumulada es que 81 estudiantes tienen un peso

menor a 90 kg.
7.3. Estadı́sticos 123

Section 7.3
Estadı́sticos

Sea X una variable aleatoria y sean Ω = {X1 , X2 , ..., Xn } variables aleatorias con la misma
distribución que X. Diremos que el conjunto Ω es una muestra aleatoria de tamaño n de X.
Dada una muestra de una población, un estadı́stico es una función real de la muestra:

T = f (X1 , X2 , ..., Xn ) (7.8)

como el estadı́stico es una variable aleatoria, entonces será en si mismo una variable aleatorio.
Esto significa que tendrá una distribución, una media, etc. En general, la distribución que siga
el estadı́stica se denomina distribución muestral.

Section 7.4
Valor medio muestral

En el caso de la media aritmética si los números x1 , x2 , ..., xn ocurren f1 , f2 , ..., fn veces,

respectivamente. La media muestral está dada por:
P
f1 x1 + f2 x2 + ... + fn xn f i xi
X̄ = = P . (7.9)
f1 + f2 + ... + fn fi
Del mismo modo, es posible definir pesos estadı́sticos que ponderen cada punto muestral.
{w1 , w2 , ..., wn } tienen las siguiente caracterı́sticas:

n
X
wi = 1
i=1
wi ≥ 0 ∀i , i = 1, 2, ..., n (7.10)

La media ponderada está dada por:

n
w1 x1 + w2 x2 + ... + wn xn X
X̄ = = w i xi (7.11)
w1 + w2 + ... + wn i=1

Esta definición resulta muy útil en el caso de la media móvil, dado que, para todo punto i
de la secuencia de observaciones y n puntos anteriores, la media móvil del siguiente punto i + 1
queda definida por:
124 Chapter 7. Estadı́stica

n−1
X
m
X̄i+1 (n) = wj xj+i−n+1 (7.12)
j=0

donde i ≥ n. Esto significa que no es posible calcular la media móvil X̄2m (3), dado que en el
punto muestral x2 solo se cuentan con dos observaciones anteriores {x1 , x2 }. Entonces, para los
puntos i < n se mantienen los valores observados. Adicionalmente, es posible optimizar el valor
de los pesos estadı́sticos para tener la mejor estimación posible. Para realizar la optimización
se define un función de costo que tenga en cuenta la distancia entre las observaciones y las
predicciones de la media móvil en cada punto muestral. La función de costo está dada por:

N
1 X m
C(n) = |X̄ (n) − xi | (7.13)
N i≥n i

La optimización se realiza bajo las restricciones dadas por la ecuación (7.10); usando algún
paquete de minimización (i.e, [Link]).

La media armónica es útil en algunos casos particulares:

1 1 X1
= (7.14)
H N x

Section 7.5
Desviación estándar

1. La desviación estándar nos da una medida de la dispersión de los datos alrededor de la

media. Para el caso poblacional está dada por:

v
u
u1 X N
p
σ= t (xi − µ̂)2 = E(x2 ) − (E(x))2 (7.15)
N i=1

En el caso muestral, la desviación estándar está dada por:

v
u N
u 1 X
S=t (xi − x̄)2 (7.16)
N − 1 i=1
7.6. Teorema del lı́mite central 125

Section 7.6
Teorema del lı́mite central

Sean X1 , X2 , ..., Xn variables aleatorias independientes e idénticamente distribuidas con E(X) =

µ y Var(X) = σ 2 < ∞. Se define:

1
Pn
n
Xn − µ
i=1
Zn := √ , (7.17)
σ/ n
La función de distribución de Zn converge hacia la distribución normal estándar cuando
n → ∞. Entonces:
Z z
1 −x2
lim P(Zn < z) = Φ(z) = √ e− 2 dx. (7.18)
n→∞ −∞ 2π
El teorema exige la existencia de la media y la varianza, sin embargo, no especı́fica la
distribución de la variable X; es un resultado general [4].

Section 7.7
Ejercicios: Muestreo

1. Use los datos almacenados en: [Link]

Herramientas/blob/main/Data/Sesion2/[Link] para realizar un
muestreo estratificado con n = 200 y n = 300. Verifique que la suma total de personas
encuestadas en cada salón sea n.

2. Guarde la información final en el formato .xls para su distribución.

3. Use los datos almacenados en: [Link]

Herramientas/blob/main/Data/Sesion2/Datos_Sistematico.csv para realizar un
muestreo sistemático con n = 200.

4. Guarde la información final en el formato .xls para su distribución.

5. La calificación de matemáticas de 80 estudiantes están en el siguiente archivo: https://

[Link]/asegura4488/DataBase/blob/main/MetodosComputacionalesReforma/Matematicas.
txt. Hallar la siguiente información:

a) La calificación más alta.

126 Chapter 7. Estadı́stica

b) La más baja.
c) El rango.
d) La cinco más bajas.
e) Las cinco más altas.
f) La décima de mayor y menor.
g) El número de estudiantes con calificación de 75 o más.
h) El porcentaje de estudiantes con calificaciones mayores que 65 pero no superiores a
85.
i) Las calificaciones de 0 a 100 que no aparecen en las notas.

6. La Tabla [7.4] muestra la distribución de frecuencia de los salarios de los empleados de

una empresa anónima. Calcule la distribución acumulada de porcentajes y su respectiva
gráfica.

Salarios Número de empleados

250 - 259 8
260 - 269 10
270 - 279 16
280 - 299 14
290 - 300 10
300 - 309 5
310 - 319 2

Table 7.4: Distribución de salarios para 65 empleados de la empresa anónima.

7. Usando la distribución (empı́rica) de notas de matemáticas vista en clase, hacer las

siguientes estimaciones:

a) Calcular la media de la nota con [Link](data).

b) Calcular la mediana de la nota con [Link](data,50)
c) Calcular la distribución de frecuencia acumulada y la distribución acumulada de
probabilidad P(X <= x). En este caso, la mediana es el valor que toma la variable
aleatoria que divide en 2 partes iguales la función de masa de probabilidad p(X = x).
7.7. Ejercicios: Muestreo 127

d) Usando la técnica de re-muestreo (Bootstrapping), obtenga la función de distribución

de la media con [Link], donde el tamaño de muestra sea igual al poblacional.
En este caso, se analiza la variabilidad de la población respecto a la media.

e) Hacer el fit gaussiano para obtener el valor de la media y su desviación estándar

(Figura [7.1]).

f) Calcular la mediana de la distribución bootstrapped usando la función acumulada de

probabilidad (Figura [7.1]).

g) Comparar todas las estimaciones.

Fit results: = 75.25, = 1.15

0.35 Gaussian fit 1.0 cdf boostrapped
Bootstrapping dist
0.30
0.8
0.25
0.6
0.20

0.15 0.4

0.10
0.2
0.05
0.0
0.00
70 72 74 76 78 80 70 72 74 76 78 80
x

Figure 7.1: Distribución de muestreo (izquierda) y distribución acumuladad de probabilidad

(derecha).

8. Encuentre los valores óptimos de los pesos asociados a la predicción de las ventas. La
pregunta puede ser muy complicada de responder!

9. Una persona viaja de A a B con una velocidad media de 30 millas por hora y regresa de
B a A a una velocidad de media de 60 millas por hora. Hallar la velocidad media en el
viaje completo. Ans: 40 mi/h
128 Chapter 7. Estadı́stica

10. Un avión vuela d1 , d2 , d3 millas a velocidades v1 , v2 , v3 mi/h, respectivamente. Demuestre

que su velocidad media es V, dada por:

d1 + d2 + d3 d1 d2 d3
= + + (7.19)
V v1 v2 v3
es una media armónica ponderada.

11. Considere la variable aleatoria definida por una combinación lineal de otras variables
aleatorias: X = a1 X1 + a2 X2 + ...an Xn , donde las variables aleatorias (Xi ) no son
necesariamente idénticamente distribuidas, y las componentes [a1 , a2 , ..., an ] ∈ R. La
~ con la definición usual de producto
variable aleatoria X puede ser escrita como: X = aT X
interno entre vectores. El primer y segundo momento de la variable X queda entonces
expresados por:

~ = aT E(X)
E(X) = E(aT X) ~
~ = aT Cov(X)a
V ar(X) = V ar(aT X) ~ (7.20)

~ es la matriz de covarianza de X.
Donde Cov(X) ~ Sea X1 ∼ Γ(2, 3), X2 ∼ N (5, 2) y
X3 ∼ U (0, 10), Genere N = 104 eventos (que estabilice el valor de los momentos) para
obtener la distribución de X = X1 + 2X2 − X3 . Calcule el primer y segundo momento de
X a través de dos estrategias:

a) Usando directamente el array de X.

b) Usando las definiciones generales dadas en la Ecuación (7.20).
c) Calcule el coeficiente de correlación de Pearson para las tres variables.
d) Demuestre que la formula de la varianza de la media se puede escribir escalarmente
como:

N N N N
1 X 1 X 2 X X
V ar( Xi ) = 2 V ar(Xi ) + 2 Cov(Xi , Xj ) (7.21)
N i=1 N i=1 N i=1 j=i+1

Hint: Encuentre el resultados para N = 2 y use la intuición adquirida para el caso

general.
Chapter 8

Estimación de parámetros

Section 8.1
Mı́nimos cuadrados

El método de mı́nimos cuadrados surge como necesidad de plantear una solución aproximada
al problema lineal A~x = ~b, donde la solución exacta no existe. Para entender el planteamiento
desde el álgebra lineal se requiere el concepto de espacio columna de A.

8.1.1 Espacio Columna

Sea A un matriz genérica de dimensiones m × n, que se puede escribir como un arreglo de
vectores columna ~vm×1 :

Am×n = ~v1 , ~v2 , ... ~vn (8.1)

Cada uno se esos vectores tiene m componentes, por tanto ~vi ∈ Rm , donde i = 1, 2, ...n.
Entonces se puede definir al espacio columna de la matriz C(A), como todas las combinaciones
lineales de los vectores columnas de A. Tomemos un vector genérico de ese subespacio:

~a = c1~v1 + c2~v2 + ... + cn~vn (8.2)

Notemos que el vector cero pertenece al espacio columna, dado que es una combinación
lineal válida con ci = 0, con i = 1, 2, ...n. Adicionalmente, vemos que es cerrado bajo la
multiplicación por escalar.

129
130 Chapter 8. Estimación de parámetros

k~a = kc1~v1 + kc2~v2 + ... + kcn~vn (8.3)

~b = d1~v1 + d2~v2 + ... + dn~vn (8.4)

Entonces ~b ∈ C(A). Finalmente, se puede demostrar que el espacio columna es cerrado

frente a la suma. Dado que, ~a ∈ C(A) y ~b ∈ C(A) entonces ~a + ~b ∈ C(A).

Por otro lado, para que el producto A~x esté bien definido, ~x ∈ Rn . Usando la representación
de la matriz A se puede escribir:

A~x = x1~v1 + x2~v2 + ... + xn~vn , (8.5)

dado que estamos tomando todas las combinaciones lineales posibles por que ~x es un vector
genérico, la expresión anterior debe ser el espacio vectorial generado por los vectores columnas
de la matriz A, es decir, C(A). En el contexto de los mı́nimos cuadrados, el sistema lineal
A~x = ~b no tiene solución por que ~b ∈
/ C(A).

Una vez demostrado que el vector ~b ∈

/ C(A), se quiere encontrar un método que permita
encontrar una solución aproximada lo más exacta posible. Entonces definimos A~x∗ como la
proyección del vector ~b en el espacio columna:

P royC(A) (~b) := A~x∗ . (8.6)

Por construcción la distancia entre la proyección de ~b en el espacio columna y el vector ~b,

está dada por:

d~ = A~x∗ − ~b (8.7)

El método de mı́nimos cuadrados encuentra el vector ~x∗ que minimiza esta distancia.

min(||A~x∗ − ~b||) (8.8)

Note que explı́citamente se tiene:

8.1. Mı́nimos cuadrados 131

 2
P − b1
 1 
P − b 
 2 2
 
 . 
~ =
|d|2  (8.9)
 . 
 
 
 . 
 
P n − bn

Adicionalmente, note que el vector d~ es ortogonal a C(A) y por tanto, d~ ∈ C ⊥ (A) que es el
complemento ortogonal de A. Se tiene:

C ⊥ = {~x ∈ Rn | ~x · ~v = 0 ∀~v ∈ C} (8.10)

El complemento ortogonal es el espacio nulo izquierdo de la matriz transpuesta de A:

C ⊥ (A) = N (AT ) (8.11)

Recordemos que el espacio nulo de una matriz está dado por:

N (A) = {~x ∈ Rn | A~x = ~0}. (8.12)

proof: Formemos una matriz cuyas filas son los n vectores de la base de C(A) (es decir,
T
A ):
 
−~v −
 1 
 −~v2 − 
AT =  .  (8.13)
 
 .. 
 
−~vn −
de la definición de C ⊥ (A), si ~x ∈ C ⊥ (A) entonces debe ser perpendicular a todos los
elementos de la base de C(A):

~x · ~v1 = ~x · ~v2 = · · · = ~x · ~vn = ~0. (8.14)

esta expresión es la multiplicación matricial AT ~x = 0, que es la definición de espacio nulo

de AT :

N (AT ) = {~x ∈ Rn | AT ~x = ~0}. (8.15)

132 Chapter 8. Estimación de parámetros

Por tanto, C ⊥ (A) es el espacio nulo de la matriz cuyas filas son una base de C(A); es decir,
N (AT ).

Usando el último resultado se tiene:

AT (A~x∗ − ~b) = 0 (8.16)

AT A~x∗ = AT~b (8.17)

Section 8.2
Varianza de la estimación de parámetros

En el caso de mı́nimos cuadrados, es posible encontrar expresiones cerradas y útiles

computacionalmente para estimar la varianza de los parámetros encontrados usando este
método. Se parte de la definición general de varianza:

n
2 1 X
σ̂ = (yi − ŷi )2
n − p i=1
n
1 X
= (yi − Ai β̂)2
n − p i=1
1
= (Y − Aβ̂)T (Y − Aβ̂) (8.18)
n−p

donde p es el número de parámetros que se ajustan en el modelo y β̂ son los parámetros

encontrados. De esta forma, la desviación tı́pica asociada a los parámetros está dada por:

√
σ̂ = σ̂ 2 . (8.19)

Más generalmente, la matriz de covarianza de los parámetros está dada por:

V ar(β̂) = σ̂ 2 (AT A)−1 . (8.20)

8.3. Función de costo 133

Section 8.3
Función de costo

En el contexto de la estimación de parámetros es necesario introducir funciones de costo. En un

marco conceptual Bayesiano, las funciones de costo miden una distancia entre los datos (que se
consideran fijos) y el mejor modelo ajustado, por tal razón, la función de costo es una función
de los parámetros a estimar. La función más sencilla y directamente relacionada con el método
de mı́nimos cuadrados es χ2 (θ), la cual está definida por:

N 2
2
X yi − M (xi , θ)
χ (θ) = . (8.21)
i=1
σi

donde M (xi , θ) es el modelo que se propone para ajustar los datos. Los parámetros que
mı́nimizan la función de costo, son los valores óptimos que describen el mejor modelo que se
ajusta a los datos. En general, están dados por:

N 2
2
X yi − M (xi , θ)
θ̂ = arg min χ (θ) = arg min . (8.22)
θ θ
i=1
σi

Section 8.4
Ejercicios: Mı́nimos cuadrados

1. Se tienen tres lı́neas en R2 :

2x − y = 2
x + 2y = 1
x+y = 4 (8.23)

(a) Con el método de mı́nimos cuadrados encuentre el punto común a las tres lı́neas.
Grafique las tres lı́neas y el punto solución, ¿qué interpretación puede dar?

(b) Realice una búsqueda iterativa entre −5 ≤ x ≤ 5 y −5 ≤ y ≤ 5 con un paso de

h = 0.01 para encontrar la menor distancia del problema. Grafique la distancia y
compare con el resultado obtenido con mı́nimos cuadrados.
134 Chapter 8. Estimación de parámetros

min(||A~x∗ − ~b||) (8.24)

20.0
17.5
15.0
d(x* )

12.5
10.0
7.5
5.0

4
2 4
0 2
y 2 0
2 x
4 4

Figure 8.1: Distancia ||A~x∗ − ~b|| en la región rectangular definida en el problema. La distancia
mı́nima debe corresponder con el resultado del método de mı́nimos cuadrados.

2. Descargue los datos: [Link]

[Link]. Realice el ajuste usando el método de mı́nimos cuadrados para
encontrar los parámetros de:

f (x) = a0 + a1 x (8.25)

Grafique los datos y el ajuste mostrando el valor de las constantes en la etiqueta de la

grafica.

3. Descargue los datos: [Link]

[Link]. Realice el ajuste usando el método de mı́nimos cuadrados para
encontrar los parámetros de:

f (x) = a0 + a1 x + a1 x2 (8.26)

Grafique los datos y el ajuste mostrando el valor de las constantes en la etiqueta de la

grafica.
8.4. Ejercicios: Mı́nimos cuadrados 135

4. Utilice el método curve fit de Python para obtener los dos ajustes. Compare con los
resultados anteriores.

5. Encontrar el intervalo de confianza a 1σ = 68% de los parámetros del ejercicio de mı́nimos

cuadrados de Bootstrapping.

a) Haga un remuestreo con reemplazo con un tamaño de muestra igual al tamaño de los
datos. resample = [Link](sample, size=len(sample),replace=True)
b) Realice el ajuste del remuestreo usando los pasos del problema anterior.
c) Guarde el valor de cada parámetro en una lista diferente. Realice la experiencia
aleatoria N = 105 veces.
d) Dibuje el histograma asociado a la distribución de muestreo de cada parámetro.
e) De la distribución de muestreo estime el intervalo de confianza al 68% de cada
parámetro del ajuste. ¿Cuál es más preciso?

6. En el caso de ajustes, es posible definir funciones de costo que midan la distancia entre
los puntos muestrales y el modelo de ajuste. En el caso de mı́nimos cuadrados la función
es χ2 . Para n puntos y un modelo lineal la función de costo es:

n
X
2
χ (a0 , a1 ) = (yi − (a0 + a1 xi ))2 (8.27)
i=1

Si hablamos en terminos Bayesianos, Ω = {a0 , a1 } define el conjunto de modelos

lineales que pueden explicar los n puntos muestrales. Al minimizar χ2 (a0 , a1 ) muestre
(analı́ticamente) que los parámetros están dados por:

a0 = ȳ − a1 x̄
P P
xy − xn y
P
a1 = P P 2 (8.28)
x2 − ( nx)

donde x̄ y ȳ son los valores medios de puntos y sus imágenes. Para n puntos y un modelo
cuadrático la función de costo es:

n
X
2
χ (a0 , a1 , a2 ) = (yi − (a0 + a1 xi + a2 x2i ))2 (8.29)
i=1
136 Chapter 8. Estimación de parámetros

Minimize χ2 (a0 , a1 , a2 ) para encontrar el siguiente sistema de ecuaciones. Nota alguna

regularidad?

n
X
[a0 + xi a1 + x2i a2 = yi ]
i=1
n
X
[a0 xi + a1 x2i + a2 x3i = xi yi ]
i=1
Xn
[a0 x2i + a1 x3i + a2 x4i = x2i yi ] (8.30)
i=1

Opcionalmente: Encuentre los parámetros usando estas expresiones para los problemas
2) y 3)

7. (Machine Learning: Logistic Regresion) Descargue los datos de: [Link]

[Link]/asegura4488/Database/main/MetodosComputacionalesReforma/
[Link]

a) Defina el modelo de ajuste como:

~ = θ0
M (x; θ) (8.31)
θ1 + e−θ2 x

donde el θ~ es el vector de parámetros del ajuste.

b) Defina la métrica (función de costo) a minimizar como:

N ~ 2
~ =
2
X yi − M (xi , θ)
χ (θ) . (8.32)
i=1
σi
donde σi = 1 ∀i, es decir, no se consideran los errores de yi .
c) Muestre que las derivadas parciales de la métrica están dadas por:

~ N ~
∂χ2 (θ) X
~ ∂M (xi , θ)
= −2 (yi − M (xi , θ)) (8.33)
∂θi i=1
∂θi

d) Muestre que vectorialmente, el descenso del gradiente queda definido por:

N
X
θ~j+1 = θ~j − γ −2 ~ ~
(yi − M (xi , θj ))∇θ M (xi , θj ) (8.34)
i=1
8.5. Función de verosimilitud (Likelihood) 137

donde el gradiente es respecto a los parámetros:

h i
~ = ~
∂M (xi ,θ) ~
∂M (xi ,θ) ~
∂M (xi ,θ)
∇θ M (xi , θ) ∂θ0
, ∂θ1
, ∂θ2
(8.35)

e) Use una taza de aprendizaje γ = 1 × 10−3 o γ = 5 × 10−4 , θ~0 = [1, 1, 1], un error de
parada = 0.01 y un máximo de iteraciones de 1 × 104 .
f) Grafique los datos y the best fit model con sus parámetros.

8. Calcule la proyección ortogonal del vector ~b = (−3, −3, 8, 9) sobre el sub-espacio W

generado por los vectores:

~u1 = (3, 1, 0, 1)
~u2 = (1, 2, 1, 1)
~u3 = (−1, 0, 2, −1) (8.36)

a) Usando mı́nimos cuadrados matriciales. La proyección ortogonal es pW (b) = Ax, donde

las columnas de A son los vectores base y x es la solución de mı́nimos cuadrados.
b) Con el proceso de Grand-Schmidt obtener una base ortonormal (v1 , v2 , v3 ) y luego
calcular la proyección sobre dicha base: pW (b) = c1 v1 + c2 v2 + c3 v3 , donde ci =< [Link] >
para i = 1, 2, 3. Respuesta: pW (b) = (−2, 3, 4, 0)

Recuerde que el procedimiento de Grand-Schmidt es:

k−1
X < vk , uj >
uk = vk − uj . (8.37)
j=1
< uj , uj >

Section 8.5
Función de verosimilitud (Likelihood)

Sea ~x(x1 , x2 , ..., xn ) un vector aleatorio, donde cada componente está definida como un canal
de observación. Cada canal está asociado a una función de densidad de probabilidad que
depende de m parámetros θ1 , θ2 , ..., θm dado un conjunto de datos, la función de verosimilitud
está definida como:
138 Chapter 8. Estimación de parámetros

L(~x; θ1 , θ2 , ..., θm ) = fθ1 ,θ2 ,...,θm (~x). (8.38)

la cual es la función de densidad de probabilidad evaluada en el vector aleatorio ~x. Si la

muestra de datos es independiente e idénticamente distribuida (iid ), la función de verosimilitud
puede ser escrita como:

L(~x; θ1 , θ2 , ..., θm ) = f (x1 ; θ1 , θ2 , ..., θm )f (x2 ; θ1 , θ2 , ..., θm )...f (xn ; θ1 , θ2 , ..., θm ),

Yn
= f (xi ; θ1 , θ2 , ..., θm ) (8.39)
i=1

Section 8.6
Método de máxima verosimilitud

Este método de estimación de parámetros consiste en maximizar la función de verosimilitud

L(~x; θ1 , θ2 , ..., θm ). El valor del parámetro que maximiza la función se denota por θ̂, y se
conoce como estimador máximo verosı́mil. En la práctica, el calculo de la función conjunta
de verosimilitud conduce a cantidades muy grandes debido a la productoria, en ese sentido, se
opta por calcular el logaritmo de la función de verosimilitud que transforma las productorias
en sumatorios; y realizar un proceso de minimización cambiando de signo a la función.
Adicionalmente, se tienen dos casos de estimación: la estimación de parámetros para datos
no agrupados (unbinned likelihood fit) y estimación para datos agrupados (binned likelihood
fit).

8.6.1 Unbinned likelihood fit

En este caso tenemos que minimizar:

X
θ̂ = arg min − Ln(L(xi ; θ)) (8.40)
θ
xi

donde el ı́ndice i de la suma correo sobre todo el conjunto de datos.

Ejemplo 1:
8.6. Método de máxima verosimilitud 139

Sea A(x1 , x2 , ..., xn ), donde A ∼ P ois(λ) tiene distribución de Poisson con parámetro λ.

n Pn
Y e−λ λxi e−nλ λ i=1 xi
L(~x; λ) = = Qn (8.41)
i=1
xi ! i=1 xi !
Tomando logaritmo natural tenemos:

n
X n
Y
Ln(L(~x; λ)) = −nλ + xi Ln(λ) − Ln( xi !) (8.42)
i=1 i=1

El parámetro máximo verosı́mil es la media muestral.

n
1X
λ̂ = xi = X̄. (8.43)
n i=1
Ejemplo 2:

Sea A(x1 , x2 , ..., xn ), donde A ∼ Exp(α) tiene distribución exponencial con parámetro α.

n n P
Y 1 −xi /α 1 n
L(~x; α) = e = e− i=1 xi /α (8.44)
i=1
α α
Tomando el logaritmo natural de la función de verosimilitud.

n
X xi
Ln(L(~x; α)) = nLn(1/α) − . (8.45)
i=1
α

Al maximizar Ln(L(~x; α)), el parámetro máximo verosı́mil es la media muestral.

n
1X
α̂ = xi = X̄ (8.46)
n i=1

8.6.2 Binned likelihood fit

En el caso de datos agrupados la función de verosimilitud debe ser evaluada en las marcas de
clase de la distribución de frecuencia. Para tal propósito, se debe construir el histograma que
agrupa a los datos y se usará el ı́ndice j para aclarar que la suma no es sobre el conjunto de
datos (~x) si no sobre cada clase (x̄) del histograma. Si tenemos m clases:

x̄ = {x̄0 , x̄1 , ..., x̄m }. (8.47)

140 Chapter 8. Estimación de parámetros

El histograma por definición está dado por:

~h = {h0 , h1 , ..., hm }, (8.48)

donde hj es el número de eventos contenidos en la j-ésima clase. El método de estimación

de parámetros está dado por:

X
θ̂ = arg min − hj Ln(L(x̄j ; θ)). (8.49)
θ
j

8.6.3 Varianza de los estimadores

Vamos a expandir la función de verosimilitud alrededor del estimador, lo que significa que
estamos en el punto máximo.

2

∂Ln(L(θ)) 1 ∂ Ln(L(θ))
Ln(L(θ)) ∼

= Ln(L(θ̂)) + (θ − θ̂) + (θ − θ̂)2 (8.50)
∂θ 2 ∂θ 2
θ=θ̂ θ=θ̂

Dado que estamos en el máximo:

(θ − θ̂)2
Ln(L(θ)) ∼
= Ln(L(θ̂)) − (8.51)
2σ̂ 2
donde hemos definido:
2 −1
2 ∂ Ln(L(θ))
σ̂ = − (8.52)
∂θ2
Note que si evaluamos la función de verosimilitud en θ = θ̂ ± σ̂ obtenemos

Ln(L(θ̂ ± σ̂)) = Ln(L(θ̂)) − 1/2 (8.53)

Esto significa que a 1σ de desviación estándar el logaritmo de la función de verosimilitud

evaluada desde el máximo debe cambiar en 1/2.

Section 8.7
Ejercicios: Parameter Estimation

1. (Theoretical) Sea A(x1 , x2 , ..., xn ), donde A ∼ N (µ, σ) con parámetros µ y σ. Muestre

que los estimadores máximo verosı́miles son:
8.7. Ejercicios: Parameter Estimation 141

n
1X
µ̂ = xi
n i=1
n
1X
σ̂ 2 = (xi − x̄)2 (8.54)
n i=1

2. Para el ejercicio anterior, muestre que la matriz Hessiana evaluada en los estimadores es:

!
−n(σ̂ 2 )−1 0
H(µ̂, σ̂ 2 ) =
0 − n2 (σ̂ 2 )2

¿Es esta matriz definida positiva o negativa?

3. Implemente el algoritmo de Metrópolis Hastings para hacer el ajuste de un histograma

cuyas frecuencias relativas siguen una distribución normal.

a) Descargue los datos de: Gaussian Data

b) Utilice la siguiente distribución a priori uniforme:
(
1 si 3 ≤ µ ≤ 5, 0.5 ≤ σ ≤ 3.5
π(µ, σ) = (8.55)
0 si Otro caso

c) Escriba la función de Likelihood Gaussiana.

N
Y 1 2 /2σ 2
L(x/µ, σ) = √ e−(µ−xi ) (8.56)
i=1 2πσ 2

d) Calcule el logaritmo de la distribución posterior.

ln(P(µ, σ/x)) ∼ ln(L(x/µ, σ)π(µ, σ)) (8.57)

Dado que la distribución encontrada no está normalizada, la relación que existe es de

proporcionalidad.
e) Use el algoritmo de Metrópolis para realizar el muestreo de ln(P(µ, σ/x)) con N =
2 × 104 eventos.
f) Estime el mejor valor de los parámetros del modelo (µ̂, σ̂).
142 Chapter 8. Estimación de parámetros

+
g) Encuentre los errores σ− de los parámetros en un intervalo de confianza del CL = 68%.

4. Resuelva el problema anterior usando el paquete Emcee.

[Link]

5. En general la varianza de estimadores es no calculable:

V (θ̂) = E(θ̂2 ) − E(θ̂)2 (8.58)

En el caso de la distribución exponencial tenemos un valor analı́tico dado por:

Z ∞ Z ∞
X n 2
1 1 −x1 /θ 1 −xn /θ
V (θ̂) = ... xi e ... e dx1 ...dxn
0 0 n i=1 θ θ
Z ∞ Z ∞ X n 2
1 1 −x1 /θ 1 −xn /θ
− ... xi e ... e dx1 ...dxn
0 0 n i=1 θ θ
θ2
= (8.59)
n
a) Intente encontrar este resultado analı́ticamente.
b) Con el método de MonteCarlo compruebe este resultado para un conjunto de n=20
variables aleatorias xi ...xn ∼ Exp(θ = 2). Generar varias muestras de distribuciones
exponenciales para tener un buen promedio en el ensamble, por ejemplo: N = 106 (Se
obtiene algo como V ar(θ̂) = 0.199).

6. En fı́sica de altas energı́as el siguiente Toy Model es relevante. Se tiene un número

observado de eventos totales (n = 10), un número de eventos de fı́sica conocida b = 9 y
un número de eventos esperados de nueva fı́sica s = 4. La distribución está caracterizada
por la siguiente función de Likelihood:

L(µ, ) = P oisson(n; µs + b)Gauss(; 1., 0.1) (8.60)

1 −(µs+b) 1 (−1)2
L(µ, ) = e (µs + b)n √ e− 2σ2 (8.61)
n! 2πσ 2
Donde es la eficiencia de reconstrucción de los eventos de fı́sica conocida tiene valor
medio ¯ = 1. y desviación estándar σ = 0.1. La contribución Gaussiana modela el error
8.7. Ejercicios: Parameter Estimation 143

sistemático asociado a la estimación de b. µ se conoce como signal strength, el cuál es

muy importante para descartar o no, nuevas teorı́as es fı́sica. Con esta información:

(a) Reproduzca las gráficas de la Figura [8.2]. Los parámetros pueden variar como
0. < µ < 2. y 0. < < 2.

(b) Usando el algoritmo de Metropolis-Hastings encuentre µ̂ y ˆ y los errores asociados

a cada parámetro.

2.00 0.475
1.75 0.425
1.50 0.375
0.325
1.25 0.4
0.275 0.3
1.00
(,)

0.225 0.2
0.75
0.175 0.1
0.50 0.125 0.0 0.00
0.25
0.00
0.25 0.50
0.25 0.075 0.50
0.751.00 0.75
1.00
1.251.50 1.25
1.50
0.00 0.025 1.752.00 1.75
2.00
0.00 0.25 0.50 0.75 1.00 1.25 1.50 1.75 2.00

Figure 8.2: Gráfica de curvas de nivel de la función L(µ, ) (izquierda) y superficie (derecha).

7. Un equipo de medición de 3 canales detecta los pulsos de una posible señal extraterrestre.
En un momento determinado del tiempo se tiene la estadı́stica descrita por la siguiente
Figura [8.3]:

20.0 Data
Background
17.5 Signal
15.0
12.5
10.0
7.5
5.0
2.5
0.0
0.0 0.5 1.0 1.5 2.0 2.5 3.0

Figure 8.3: Medida del equipo de 3 canales.

144 Chapter 8. Estimación de parámetros

El conjunto de datos es: Data=[10,20,5], el background o la señal esperada sin existencia

extraterrestre bkg=[6,15,10] y un modelo de señal extraterrestre Signal=[2,10,3]. La
función de Likelihood que describe esta observación para un canal está dada por:

Li (µ, ) = P oisson(n; µs + b)Gauss(; 1., 0.1), (8.62)

1 −(µs+b) 1 (−1)2
Li (µ, ) = e (µs + b)n √ e− 2σ2 . (8.63)
n! 2πσ 2
Donde es la eficiencia de reconstrucción de los eventos sin existencia extraterreste y
σ = 0.1 su desviación estándar. µ es la fortaleza de la señal y es una medida para
comprobar o descartar, en este caso, la señal extraterrestre. La función de Likelihood
(the joint probability function) de todos los canales está dada por :

N Channels
Y
L(µ, ) = Li (µ, ). (8.64)
i=1

a) Use el algoritmo de Metropolis-Hastings para encontrar los mejores estimadores que

describen esta observación µ̂ y ˆ con sus respectivos errores (asuma que todos los
canales tiene la misma resolución experimental (σ)). Los parámetros pueden variar
para 0. ≤ µ ≤ 3. y para 0.5 ≤ ≤ 1.5. Tenga cuidado cuando la caminata aleatoria
tome valores negativos para µ /.
b) Si µ es cercano a cero indica que los datos están bien descritos por la hipótesis de
no existencia extraterrestre. Por el contrario, si µ se acerca a uno podrı́a indicar que
existe vida extraterrestre. ¿Qué conclusiones reportarı́a usted sobre la observación
realizada?. Nota: En realidad se debe hacer una prueba de hipótesis pero se pierde la
alineación entre lo visto en clase y la evaluación.
Chapter 9

Confidence Intervals

Section 9.1
Intervalos de confianza para la media

Sean x1 , x2 , ..., xn variables aleatorias independiente con E(xi ) = µ y V ar(xi ) < ∞, entonces:

x̄ − µ
zn := √ (9.1)
σ/ n
la función de distribución de zn , converge a una función de distribución normal estándar
z ∼ N (0, 1).
El intervalo de confianza para la media con varianza conocida está dada por:

σ σ
IC1−α = x̄ − zα/2 √ < µ < x̄ + z1−α/2 √ (9.2)
n n
Este intervalo es válido para población aproximada normal, u otra distribución poblacional
con n >= 30.

Cuando no se conoce la varianza poblacional y la muestra es pequeña, se necesita hacer

una estimación del intervalo usando la distribución T-Student. El intervalo de confianza para
la media está dado por:

S S
IC1−α = x̄ − tα/2,n−1 √ < µ < x̄ + t1−α/2,n−1 √ (9.3)
n n
donde S es la varianza muestral.

145
146 Chapter 9. Confidence Intervals

Section 9.2
Intervalo de confianza para la diferencia de medias

Para encontrar un intervalo de confianza para la diferencia de medias (n ≤ 30), se tiene la

siguiente expresión:

s s
s21 s22 s21 s2

IC1−α = (x̄1 − x̄2 ) − tα/2,ν + < µ1 − µ2 < (x̄1 − x̄2 ) + t1−α/2,ν + 2 (9.4)
n1 n2 n1 n2
Los grados de libertad se obtienen usando:

s2 s22 2
( n11 + n2
)
ν= s2 s2
(9.5)
( n1 )2 ( n2 )2
1
n1 −1
+ 2
n2 −1

Para encontrar un intervalo de confianza para la diferencia de medias (n > 30), se tiene la
siguiente expresión:

s s
σ12 σ22 σ12 σ22

IC1−α = (x̄1 − x̄2 ) − zα/2 + < µ1 − µ2 < (x̄1 − x̄2 ) + zα/2 + (9.6)
n1 n2 n1 n2

Section 9.3
Intervalo de confianza para una proporción

Para estimar el intervalo de confianza de un proporción, se tiene:

r r
p̂(1 − p̂) p̂(1 − p̂)
IC1−α = p̂ − zα/2 < P < p̂ + z1−α/2 (9.7)
n n
donde se considera la aproximación binomial a la normal si np̂ ≥ 10 y n(1 − p̂) ≥ 10.

Section 9.4
Intervalo para la varianza

El estimador de la varianza muestral está dada por:

n
2 1 X
s = (xi − x̄)2 (9.8)
n − 1 i=1
9.5. Ejercicios: Intervalos de confianza 147

Este estadı́stico es un estimador insesgado de la varianza poblacional puesto que:

E(s2 ) = σ 2 (9.9)

Con base a los criterios de la ley de los grandes números y suponiendo que las muestras
siguen una distribución normal, X ∼ N (µ, σ 2 ). La varianza muestral como variable aleatoria
sigue una función de distribución χ2n−1 (s) de n − 1 grados de libertad.

s2
(n − 1) ∼ χ2n−1 (9.10)
σ2
En problemas donde la varianza poblacional no es conocida, la distribución permite
encontrar intervalos de confianza para la varianza poblacional; dada la varianza muestral.

Section 9.5
Ejercicios: Intervalos de confianza

1. El contenido de botellas de un litro tienen una distribución aproximadamente normal con

varianza de 0.15 litros2 . Se toma una muestra aleatoria de cajas y se mide el contenido,
obteniendo el siguiente resultado.

S = [0.974, 0.950, 0.932, 1.104, 1.038, 0.920, 0.935, 0.907, 0.810, 0.915] (9.11)

a) Construya el intervalo de confianza del 95% para la media población.

IC95% = 0.708 < µ < 1.188 (9.12)

b) Construya el intervalo de confianza del 95% usando el método de Bootstrapping (N =

50000 toy experiments).

IC95% = 0.903 < µ < 1.00 (9.13)

Notar que los IC no son consistentes, esto puede indicar que la población que describe
a los datos no es normal. Usted puede calcular el IC en el caso de varianza desconocida
y comprobar que se obtiene un mejor resultado.
148 Chapter 9. Confidence Intervals

2. Construir un IC de 90% de nivel de confianza para la estatura media de un grupo de

estudiantes. Se sabe que la estatura (en cm) es aproximadamente normal y está dada
por:

S = [175, 176, 180, 164, 170, 170, 181, 169, 163, 190, 170, 171] (9.14)

IC90% = 169.28 < µ < 177.21 (9.15)

3. Se tienen dos muestras de la medida de la resistencia eléctrica de un lote de dispositivo

electrónicos, las cuales están dadas por:

S1 = [6.0, 5.0, 6.5, 5.0, 4.0, 5.0, 5.0, 5.0, 7.0, 5.5, 4.5]
S2 = [7.0, 8.0, 8.5, 7.4, 8.9, 6.7, 9.0, 8.4, 7.8, 5.3, 8.1] (9.16)

Determine el intervalo al 95% de nivel de confianza. ¿Pertenecen las muestras a la misma

población?

IC95% = − 3.16 < µ1 − µ2 < −1.60 (9.17)

Las muestras no pertenecen a la misma población, presenta una desviación a ∼ 4σ.

4. Una moneda equilibrada es lanzada 500 veces. Sea X la variable aleatoria asociada al
número de soles que aparecen en los n lanzamientos. Usando la distribución Binomial y
la aproximación a la normal, estime:

a) P(X ≤ 260.) = 0.8261 Binomial, 0.8144 Normal.

b) P(230 ≤ X ≤ 260) = 0.926 Binomial, 0.926 Normal.

5. Se estudia la intención de voto de un candidato A a la presidencia de un paı́s. Para ello,

se toma una muestra aleatoria de 800 habitantes y 325 de ellos responden a la intención
de votar por A. Encontrar el intervalo de confianza a 98%, para la proporción de votantes
con intensión de voto por el candidato A.

IC98% = 0.365 < P < 0.446 (9.18)
9.5. Ejercicios: Intervalos de confianza 149

6. Una empresa de equipo médico quiere saber la proporción de clientes que prefieren su
marca. El gerente afirma que el 30% de los clientes del mercado prefieren sus productos.
Una muestra de 100 clientes indicó que 24 usan dicha marca. Calcule el intervalo de
confianza al 90% e indicar si el gerente tiene la razón.

IC90% = 0.169 < P < 0.310 (9.19)

El gerente está en lo correcto dentro de la confianza de la hipótesis nula.

7. Demuestre que E(s2 ) = σ 2 . Hint: Recuerde que V ar(x) = σ 2 .

8. Genere una muestra de números x ∼ N (0, 9) de tamaño 100.

a) Escriba las funciones para calcular la varianza muestral y χ2n−1 .

b) Con el método de re-muestreo (Bootstrapping) genere (N = 50000 toy experiments)
muestras con reemplazo para encontrar la distribución de la varianza.
c) Dibuje el histograma y la función de distribución de probabilidad χ2n−1 , usando
[Link](x_,df=n-1).
d) Calcule el valor medio de la distribución usando el histograma y usando
[Link](df=df).
e) Calcule el valor medio de la varianza poblacional (deberı́a ser cercano a 9).
f) Calcule el intervalo de confianza de este estimador a un nivel de confianza del 95%
(significancia α = 0.05).

(n − 1)S 2 (n − 1)S 2

2
IC95% = < σ < (9.20)
χ21−α/2 χ2α/2

9. A un grupo de individuos en un hospital se sometió a un medicamento experimental, al

final se midió el nivel de glóbulos blancos en sangre. En una escala especı́fica los resultados
fueron los siguientes:

S = [6.0, 6.4, 7.0, 5.8, 6.0, 5.8, 5.9, 6.7, 6.1, 6.5, 6.3, 5.8] (9.21)

Suponiendo que la población es normalmente distribuida, determine un intervalo de

confianza al 95% para la varianza poblacional del nivel de colesterol.
150 Chapter 9. Confidence Intervals

2
IC95% = 0.0770 < σ < 0.4428 (9.22)

10. Un fabricante de parte de automóvil garantiza que sus baterı́as duran en promedio 3 años
con una desviación estándar de 1 año, si 5 baterı́as presentan una varianza de 0.815.
Realice su estudio al 99% de nivel de confianza.

a) ¿Está la observación de acuerdo con la afirmación del fabricante de que la desviación

estándar es de 1 año?
b) ¿Cuál es el p-value de la observación? p = 0.620.
c) ¿Cuál es valor lı́mite (crı́tico) que puede tener la varianza de las baterı́as para mantener
2
la afirmación del fabricante? Sup = 3.715.

11. Encuentre la probabilidad de que una muestra aleatoria de 30 observaciones de una

población normal con varianza σ 2 = 10. Tenga una varianza muestral:

(a) P(S 2 ≥ 9.) = 0.379

(b) P(3.5 ≤ S 2 ≤ 11.) = 0.675
(c) Calcule el p-value de observar S 2 = 15, p = 0.04
Chapter 10

Pruebas de Hipótesis

El procedimiento estadı́stico para determinar si los datos de una muestra son compatibles con
las caracterı́sticas de una población. Para contextualizar el problema se realizan las siguientes
definiciones:

• Una hipótesis estadı́stica es una proposición sobre los parámetros de una población.

• Se denomina hipótesis nula a la hipótesis que se desea contrastar, la denominamos H0 .

La hipótesis alternativa la denominamos con H1 .

• Un estadı́stico de prueba es un estadı́stico utilizado para determinar si se rechaza o no la

hipótesis nula H0 .

• Región de no rechazo es el conjunto de valores del estadı́stico de prueba, para los cuales
no rechazamos la hipótesis nula. Su región complementaria se llama la región de rechazo
de H0 en favor de H1 .

• Dado que hay una probabilidad de que el estadı́stico genere un valor en la región de
rechazo, se tienen dos tipos de errores: Error tipo-1 es rechazar la hipótesis nula cuando
es verdadera y el Error tipo-2 es no rechazar la hipótesis nula cuando es falsa.

• El nivel de significación del test determina la probabilidad de que el estadı́stico genere

un valor en la región de rechazo de H0 . Se denomina α y está restringido al intervalo
0 ≤ α ≤ 1.

151
152 Chapter 10. Pruebas de Hipótesis

Section 10.1
Ejercicios: Tablas de contingencia

1. En cierta empresa, se calcula que la cantidad promedio de artı́culos vendidos por semana
es 2000. Se quiere averiguar si hay una relación entre el dı́a de la semana y la cantidad
de artı́culos que se venden. La Tabla [10.1] muestra las observaciones.

< 1800 1800-2200 > 2200

Lunes-Miércoles 38 55 52
Jueves-Viernes 39 65 55
Sábado-Domingo 43 60 63

Table 10.1: Tabla de contingencia entre artı́culos vendidos y los dı́as de la semana

a) Calcule el número total de observaciones.

b) Calcule los vectores de frecuencias marginales.
c) Calcule los vectores de probabilidad marginales.
d) Calcule la matriz de probabilidad.
e) Calcule la matriz de frecuencias esperadas.
f) Calcule la función de costo: χ2 dada por:

n
2
X (fe − fo )2
χ = (10.1)
i=1
fe

donde fe es la frecuencia esperada y fo es la frecuencia observada de cada punto de la

tabla.
g) Calcule el número de grados de libertad (ν).
h) Dibuje la distribución χ2ν con el número correcto de grados de libertad.
i) Describa la hipótesis nula y la alternativa.
j) Calcule el p-value observado.
k) ¿Cuál es valor crı́tico de la distribución para un nivel de confianza del 95%?
l) Indique si se rechaza o no, la hipótesis nula.
10.1. Ejercicios: Tablas de contingencia 153

2. La universidad de los Andes realiza una encuesta a N = 100 estudiantes sobre la intención
de voto de tres candidatos a la presidencia, los candidatos son: A, B y C. Adicionalmente,
se tuvo en cuenta el género de cada estudiante. Los resultados se pueden resumir en la
siguiente Tabla:

A B C
Mujeres 11 15 34
Hombre 23 6 11

Table 10.2: Tabla de contingencia asociada a la encuesta realizada por la universidad.

Los resultados mostrados en la Tabla [10.2] representan la frecuencias observadas (fo )

de la intención de voto de cada candidato. La universidad desea saber si las variables
género y candidato son o no independientes con un nivel de confianza del 95%. Para tal
propósito, planteamos las siguientes hipótesis:

a) H0 : Las variables género y candidato son independientes. (Hipótesis nula)

b) H1 : Las variables género y candidato no son independientes. (Hipótesis alternativa)

Note que la hipótesis alternativa es la negación de la hipótesis nula H1 = ¬H0 .

Suponemos que la hipótesis nula es verdadera para calcular las frecuencias
esperadas (fe ). Entonces:

a) Si las variables son independientes entonces P(A ∩ B) = P(A) · P(B). Entonces, deberá
calcular las probabilidades marginales y luego calcular el valor de la probabilidad de
cada entrada en la tabla. Usando el producto de Kronecker serı́a muy eficiente y claro.

b) La frecuencia esperada en cada posición es: fei = P(A ∩ B)i · N , i.e, la probabilidad de
cada evento multiplicado por el tamaño de muestra.

La matriz de probabilidad P(x, y) = G(x) ⊗ H(y), puede ser escrita como el producto de
Kronecker de los vectores de probabilidad marginal (serı́a interesante que implementaran
esta operación en su código). Finalmente, para medir la discrepancia entre las frecuencias
esperadas y observadas se tiene el estadı́stico de prueba (muy conocido) χ2 dado por:
154 Chapter 10. Pruebas de Hipótesis

k
2
X (f i − f i )2
o e
χ = (10.2)
i=1
fei

Este valor se compará con la distribución χ2α,(r−1)(c−1) . En esta definición, α = 0.05 se

refiere al nivel de significación de la prueba, r es el número de filas y c el número de
columnas. (r − 1)(c − 1) son los grados de libertad (conceptos por definir) asociados a
nuestra prueba estadı́stica; entonces para nuestro ejemplo, χ20.05,2 ≈ 5.991 nos definirá el
valor crı́tico del estadı́stico a un nivel de confianza del 95%.

En Python:

from [Link] import chi2

[Link](0.95,df=2)

ppf devuelve el percentil asociado a un (p-value) p = 0.05, para una distribución χ2 de

dos grados de libertad. Calcule el χ2 ≈ 16.50, que es un valor más extremo que el valor
crı́tico, por lo cuál, debemos rechazar la hipótesis nula con un nivel de confianza del 95%.
Las variables son dependientes estadı́sticamente.

Remark:

Efectivamente, como muestra la tabla, las mujeres prefieren el candidato C y los hombres
el candidato A.

Section 10.2
Prueba de hipótesis para generadores de números aleatorios

¿Sabı́as que el generador de números de Numpy (Mersenne - Twister 1998), tiene uniformidad en
d=623 dimensiones al 95% de nivel de confianza? Para probar la uniformidad de los números
aleatorios generados por pseudo-generadores es posible realizar una prueba de hipótesis. Por
lo cuál, se tienen las siguientes hipótesis:

a) H0 : La secuencia de números sigue una distribución uniforme en k-dimensiones.

10.3. Ejercicios: Hypotesis testing 155

b) H1 : La secuencia de números no sigue una distribución uniforme en k-dimensiones.

Section 10.3
Ejercicios: Hypotesis testing

1. (Binomial) Se realiza un experimento aleatorio del lanzamiento de 5 monedas N =

1000, cuyo espacio muestral está definido por Ω = {C, S}. Se mide el número
x de caras que se observan durante el experimento. El resultado del experimento
se resume en: [Link]
MetodosComputacionalesReforma/[Link]. Note que es un archivo para
cargar en Pandas. Se desea saber si el número de caras tiene una distribución binomial
x ∼ Bin(n = 5, p). Se tienen las siguientes hipótesis:

a) H0 : El número de caras tiene distribución binomial x ∼ Bin(n = 5, p = p̂).

b) H1 : El número de caras tiene distribución binomial.

Suponemos que la hipótesis nula es verdadera, de este modo, necesitamos realizar los
siguientes pasos para realizar la bondad del ajuste:

a) Estimar el parámetro de la distribución p̂ = 0.4946

b) Suponiendo que H0 es verdadera, estimar la probabilidad de que se presenten el número
de caras encontrados en el experimento. Ejemplo: la probabilidad de obtener 0 caras
en un experimento es:

5
P(X = 0|p̂ = 0.4946) = 0.49460 (1 − 0.4946)5−0 = 0.0329 (10.3)
0
c) Estimar las frecuencias esperadas asociadas a el número de errores fei (x) = Pi (x) × N .
d) Dibuje los histogramas correspondientes a las distribución esperada y observada.
e) Medir la discrepacia que existe entre las frecuencias esperadas y observadas a través
del estadı́stico de prueba χ2 .

k
2
X (f i − f i )2
o e
χ = (10.4)
i=1
fei

f) Cuál es el p-value de esta observación.

156 Chapter 10. Pruebas de Hipótesis

g) Calcular el valor crı́tico de la distribución χ2α,k−t−1 , donde la significancia es α = 0.05.

k = 10 es el número de categorı́as, t es el número de parámetros que se estimaron en
el proceso, en este caso, se estimo λ̂. Note que los grados de libertad son gl = 4.
h) Si el estadı́stico de prueba es menor que el valor crı́tico no rechazamos la hipótesis
nula.
i) Dar la conclusión.

2. (Poisson) Una empresa de motos realiza la construcción de N = 440 motos. Durante las
pruebas mecánicas y eléctricas, la empresa reportó el número de fallas que presenta cada
artı́culo. El archivo que resume esta información es: [Link]
com/asegura4488/Database/main/MetodosComputacionalesReforma/[Link].
Note que es un archivo para cargar en Pandas. La empresa quiere saber si la distribución
de errores es una distribución de Possion y cuál es el estimador máximo verosimil que
describe dicha distribución. De esta manera, se tienen las siguientes hipótesis.

a) H0 : El número de errores tiene distribución Poisson n ∼ P oiss(λ = λ̂).

b) H1 : El número de errores no tiene distribución Poisson.

Suponemos que la hipótesis nula es verdadera, de este modo, necesitamos realizar los
siguientes pasos para realizar la bondad del ajuste:

a) Estimar el parámetro de la distribución λ̂ = 3.047

b) Suponiendo que H0 es verdadera, estimar la probabilidad de que se presenten el número
de errores encontrados en las motos. Ejemplo: la probabilidad de obtener 0 errores en
una moto es:

e−3.047 3.0470
P(x = 0|λ̂ = 3.047) = = 0.04746 (10.5)
0!
c) Estimar las frecuencias esperadas asociadas a el número de errores fei (x) = Pi (x) × N .
d) Dibuje los histogramas correspondientes a las distribución esperada y observada.
e) Medir la discrepacia que existe entre las frecuencias esperadas y observadas a través
del estadı́stico de prueba χ2 .

k
2
X (f i − f i )2
o e
χ = (10.6)
i=1
fei
10.3. Ejercicios: Hypotesis testing 157

f) Cuál es el p-value de esta observación.

g) Calcular el valor crı́tico de la distribución χ2α,k−t−1 , donde la significancia es α = 0.05.
k = 10 es el número de categorı́as, t es el número de parámetros que se estimaron en
el proceso, en este caso, se estimo λ̂. Note que los grados de libertad son gl = 8.
h) Si el estadı́stico de prueba es menor que el valor crı́tico no rechazamos la hipótesis
nula.
i) Dar la conclusión.

3. Una partı́cula se mueve aleatoriamente desde el centro de una caja cuadradada de longitud
l = 5. El ángulo para realizar el paso se genera uniformemente entre 0 y 2π y luego se
actualiza la posición actual:

x += lstep * [Link](theta)
y += lstep * [Link](theta)

lstep es el tamaño del paso, use lstep = 0.4 para este experimento. Se quiere medir el
número de pasos promedio que le toma a una partı́cula salir de la caja. Genere N = 200
experimentos guardando el número de pasos que le toma a la partı́cula salir de la caja.
Una posible trayectoria se describe en la Figura [10.1]

a) Eliga una distribución de clases que tenga su valor mı́nimo y máximo en los valores
mı́nimo y máximo de la lista y un ancho de paso h = 15 steps:
bins = [Link](min_,max_+h,h)

b) Calcule el histograma de la distribución.

c) Normalice el histograma a la unidad.
H1Norm = H1 / [Link](H1*w)

d) Realice el ajuste de la distribución usando la densidad de Weibull exponencial:

from [Link] import exponweib

a,c,d,e = [Link](lista)
158 Chapter 10. Pruebas de Hipótesis

Y 3

0
0 1 2 3 4 5
X
Figure 10.1: Trayectoria de la partı́cula (Toy model). En este experimento la partı́cula le tomo
33 pasos salir de la caja.

lbox=5
Exponential Weibull a= 1.47, b=1.10, n=51.57
0.016 Observed

0.014

0.012

0.010

0.008

0.006

0.004

0.002

0.000
25 50 75 100 125 150 175 200
Nsteps

Figure 10.2: Ajuste a los datos usando la distribución de Weibull exponencial.

deberı́a obtener un resultado similar a Figura [10.2]:

e) Calcule el valor medio de pasos usando los métodos de scipy: mean = [Link](a,c,d,e)

f) Ahora se quiere realizar la bondad en el ajuste. Genere la distribución esperada usando

el método de generación de Scipy, con mismo número de eventos observados N = 200.
[Link]([Link](a,c,d,e))
10.3. Ejercicios: Hypotesis testing 159

Deberı́a obtener distribuciones similares como se muestra en la Figura [10.3].

lbox=5
Expected
Observed
50

0
25 50 75 100 125 150 175 200
Nsteps

Figure 10.3: Comparación entre la distribución observada y esperada para el número de pasos
de escape de la partı́cula.

g) Calcule el estadı́stico de prueba χ2 : (Ignore las clases que tengan menos de 5 entradas,
es decir las colas de la distribución).

k
X (f i − f i )2
o e
χ2 = (10.7)
i=1
fei

h) Calcular el valor crı́tico de la distribución χ2α,k−t−1 , donde la significancia es α = 0.05. k

es el número de categorı́as, t es el número de parámetros que se estimaron en el proceso,
en este caso, se estimo n̂. Note que los grados de libertad son gl = #Clases − 1 − 1.

i) Si el estadı́stico de prueba es menor que el valor crı́tico no rechazamos la hipótesis

nula.

j) Dar la conclusión.

4. En el caso 2D, se divide el espacio entre [0, 1] en k d celdas de igual área, luego se genera
una muestra aleatoria de tamaño 2n (note que el número de eventos es par), podemos
construir n pares no solapados (x0 , x1), (x2 , x3 ), ..., (x2n−1 , x2n ) y estimar la frecuencia
observada de puntos en cada celda. Si suponemos que la hipótesis nula es verdadera, la
frecuencia esperada de puntos en cada celda es:
160 Chapter 10. Pruebas de Hipótesis

n
fei = (10.8)
kd

El estadı́stico de prueba que mide la discrepancia entre la frecuencia esperada y observada

está dado por el estadı́stico χ2 :

k
2
X (f i − f i )2o e
χ = (10.9)
i=1
fei

Calcule el valor crı́tico de la distribución χ2α,kd −1 , donde la significancia es α = 0.05. k es

el número de celdas en las que se divide el dominio. Note que los grados de libertad son
gl = k d − 1.

(a) Genere una muestra de 2 ∗ (1000) números aleatorios con el generador de Numpy.

(b) Use una partición de k = 10 celdas.

(c) Calcule las frecuencias observadas y estadı́stico de prueba. Guardar los conteos en
objetos M = [Link]((k,k)). En este caso, es posible usar histogramas 2D para
contar los puntos en cada celda.

(d) Calcule el p-value de la observación.

(e) ¿Valida o rechaza la hipótesis al 95% de nivel de confianza de que los números tienen
una distribución uniforme en d = 2 dimensiones?

0.030
pmf 99
2 (x)
Upper Limit: 123.23
0.025 Observed: 116.40

0.020

0.015

0.010

0.005

0.000
60 80 100 120 140 160
2

Figure 10.4: Distribución χ299 , el valor observado es menor que el valor crı́tico de la distribución.
p − value = 0.111, se acepta H0 .
10.3. Ejercicios: Hypotesis testing 161

5. En el caso 3D, se divide el espacio entre [0, 1] en k d celdas de igual volumen, luego se
genera una muestra aleatoria de tamaño 3n (note que el número de eventos es multiplo de
3), podemos construir n pares no solapados (x0 , x1 , x2 ), (x3 , x4 , x5 ), ..., (x3n−2 , x3n−1 , x3n )
y estimar la frecuencia observada de puntos en cada celda. Si suponemos que la hipótesis
nula es verdadera, la frecuencia esperada de puntos en cada celda es:

n
fei = (10.10)
kd

El estadı́stico de prueba que mide la discrepancia entre la frecuencia esperada y observada

está dado por el estadı́stico χ2 :

k
2
X (f i − f i )2
o e
χ = (10.11)
i=1
fei

Calcule el valor crı́tico de la distribución χ2α,kd −1 , donde la significancia es α = 0.05. k es

el número de celdas en las que se divide el dominio. Note que los grados de libertad son
gl = k d − 1.

(a) Genere una muestra de 3 ∗ (1000) números aleatorios con el generador de Numpy.
(b) Use una partición de k = 10 celdas.
(c) Calcule las frecuencias observadas y estadı́stico de prueba. Guardar los conteos en
objetos M = [Link]((k,k,k)).
(d) Calcule el p-value de la observación.
(e) ¿Valida o rechaza la hipótesis al 95% de nivel de confianza de que los números tienen
una distribución uniforme en d = 3 dimensiones?
162 Chapter 10. Pruebas de Hipótesis

pmf 999
2 (x)

0.008 Upper Limit: 1073.64

Observed: 1038.00

0.006

0.004

0.002

0.000
850 900 950 1000 1050 1100 1150
2

Figure 10.5: Distribución χ2999 , el valor observado es menor que el valor crı́tico de la distribución.
p − value = 0.190, se acepta H0 .
References

[1] Roland Combescot. Superconductivity: An Introduction. Cambridge university press, 2022.

[2] William Ogilvy Kermack and Anderson G McKendrick. A contribution to the mathematical
theory of epidemics. Proceedings of the royal society of london. Series A, Containing
papers of a mathematical and physical character, 115(772):700–721, 1927, https://
[Link]/doi/pdf/10.1098/rspa.1927.0118.

[3] Rubin H Landau, José Páez, Manuel José Páez Mejı́a, and Cristian C Bordeianu. A survey
of computational physics: introductory computational science. Princeton University Press,
2008, [Link]

[4] Sheldon M Ross. Introduction to probability and statistics for engineers and scientists.
Academic press, 2020.

[5] Ronald E Walpole, Raymond H Myers, Sharon L Myers, and Keying Ye. Probabilidad y
estadı́stica para ingenierı́a y ciencias. 4 Edición, 2007.

163

También podría gustarte

Metodos Computacionales
Aún no hay calificaciones
Metodos Computacionales
217 páginas
Metodos Computacionales
Aún no hay calificaciones
Metodos Computacionales
167 páginas
Guía Completa de Álgebra y Estadística
100% (1)
Guía Completa de Álgebra y Estadística
174 páginas
Metodos - Numericos TEMA 3
Aún no hay calificaciones
Metodos - Numericos TEMA 3
26 páginas
ApuntesMN2016 2
Aún no hay calificaciones
ApuntesMN2016 2
84 páginas
Apunte 2016 - Cálculo Numérico
Aún no hay calificaciones
Apunte 2016 - Cálculo Numérico
266 páginas
Anbook
Aún no hay calificaciones
Anbook
322 páginas
Metodos Numericos Examen
Aún no hay calificaciones
Metodos Numericos Examen
209 páginas
Metodos - Numericos TEMA 4
Aún no hay calificaciones
Metodos - Numericos TEMA 4
37 páginas
Template MA 1er 2018 VF PDF
Aún no hay calificaciones
Template MA 1er 2018 VF PDF
262 páginas
Simulación Estocástica Avanzada
Aún no hay calificaciones
Simulación Estocástica Avanzada
228 páginas
Curso Topicos USACH
Aún no hay calificaciones
Curso Topicos USACH
155 páginas
Métodos Numéricos - Cordero
100% (2)
Métodos Numéricos - Cordero
234 páginas
Metodos Numericos Notas Felix PDF
Aún no hay calificaciones
Metodos Numericos Notas Felix PDF
211 páginas
Metodos Numericos Patricio
Aún no hay calificaciones
Metodos Numericos Patricio
232 páginas
Metodos Numericos
Aún no hay calificaciones
Metodos Numericos
174 páginas
METODOS NUMERICOS CON MATLAB (2) - Resolver Ejercicios de Capitulo 2 y 4
Aún no hay calificaciones
METODOS NUMERICOS CON MATLAB (2) - Resolver Ejercicios de Capitulo 2 y 4
163 páginas
Metodos Numericos Con Matlab
Aún no hay calificaciones
Metodos Numericos Con Matlab
163 páginas
Libro Completo
Aún no hay calificaciones
Libro Completo
251 páginas
Métodos Numéricos y Teoría de Error
Aún no hay calificaciones
Métodos Numéricos y Teoría de Error
251 páginas
Metodos Numericos
100% (1)
Metodos Numericos
251 páginas
Métodos Numéricos y Teoría de Error
Aún no hay calificaciones
Métodos Numéricos y Teoría de Error
251 páginas
Matemática Compleja en Ingeniería
Aún no hay calificaciones
Matemática Compleja en Ingeniería
262 páginas
Metodos Numericos
Aún no hay calificaciones
Metodos Numericos
229 páginas
Matlab Con Metodos Numericos
Aún no hay calificaciones
Matlab Con Metodos Numericos
163 páginas
Métodos Numéricos II-2021
Aún no hay calificaciones
Métodos Numéricos II-2021
191 páginas
Métodos Numéricos para Ingenieros
Aún no hay calificaciones
Métodos Numéricos para Ingenieros
221 páginas
Apuntes de Métodos Numéricos
Aún no hay calificaciones
Apuntes de Métodos Numéricos
319 páginas
Metodos Numericos y Simulaciones
Aún no hay calificaciones
Metodos Numericos y Simulaciones
0 páginas
Simuacion Estocástica
100% (1)
Simuacion Estocástica
195 páginas
Apunte Del Curso
Aún no hay calificaciones
Apunte Del Curso
184 páginas
EstadisticaR MonteCarlo V8
Aún no hay calificaciones
EstadisticaR MonteCarlo V8
49 páginas
Métodos Numéricos II-2020
Aún no hay calificaciones
Métodos Numéricos II-2020
64 páginas
Calculo Ejercicios de Aplicacion
Aún no hay calificaciones
Calculo Ejercicios de Aplicacion
42 páginas
Resumen EstadÃ Stica III - V2 3
Aún no hay calificaciones
Resumen EstadÃ Stica III - V2 3
152 páginas
Apuntes de Estadistica Especialidad Telematica PDF
100% (1)
Apuntes de Estadistica Especialidad Telematica PDF
310 páginas
FTC PrimeraEdicion
Aún no hay calificaciones
FTC PrimeraEdicion
270 páginas
Resumen Proba
Aún no hay calificaciones
Resumen Proba
38 páginas
Prog Num Pato
Aún no hay calificaciones
Prog Num Pato
253 páginas
Probabilidades al lanzar dados de 8 caras
Aún no hay calificaciones
Probabilidades al lanzar dados de 8 caras
168 páginas
LIBRO
Aún no hay calificaciones
LIBRO
110 páginas
Libro 2017 A5
Aún no hay calificaciones
Libro 2017 A5
268 páginas
Metodos Numericos
Aún no hay calificaciones
Metodos Numericos
141 páginas
Manual
Aún no hay calificaciones
Manual
135 páginas
Modelos Estocasticos
Aún no hay calificaciones
Modelos Estocasticos
62 páginas
Métodos Numéricos en Scilab
100% (3)
Métodos Numéricos en Scilab
398 páginas
Progresión Geométrica para Tercero de Secundaria
100% (1)
Progresión Geométrica para Tercero de Secundaria
5 páginas
Funciones Polinómicas: Conceptos y Aplicaciones
100% (1)
Funciones Polinómicas: Conceptos y Aplicaciones
24 páginas
S1 Diapositiva La Derivada
Aún no hay calificaciones
S1 Diapositiva La Derivada
24 páginas
Formulario Calculo 2
Aún no hay calificaciones
Formulario Calculo 2
2 páginas
Funcion-Cuadratica para CPEM41
Aún no hay calificaciones
Funcion-Cuadratica para CPEM41
8 páginas
Serie 05 Variación de Funciones
Aún no hay calificaciones
Serie 05 Variación de Funciones
14 páginas
Logaritmos: Ejemplos y Soluciones
Aún no hay calificaciones
Logaritmos: Ejemplos y Soluciones
17 páginas
Modelamiento de Sistemas Dinámicos
Aún no hay calificaciones
Modelamiento de Sistemas Dinámicos
4 páginas
Cálculo de límites y continuidad en gráficas
Aún no hay calificaciones
Cálculo de límites y continuidad en gráficas
4 páginas
Tarea#9# Algebra
100% (1)
Tarea#9# Algebra
8 páginas
Distribución Normal y Ejercicios Prácticos
Aún no hay calificaciones
Distribución Normal y Ejercicios Prácticos
18 páginas
Teoremas y Axiomas
Aún no hay calificaciones
Teoremas y Axiomas
3 páginas
Sílabus Álgebra Repaso San Marcos
Aún no hay calificaciones
Sílabus Álgebra Repaso San Marcos
4 páginas
Deflexiones en Vigas: Métodos de Cálculo
Aún no hay calificaciones
Deflexiones en Vigas: Métodos de Cálculo
26 páginas
Media, Mediana y Moda para Datos Agrupados
Aún no hay calificaciones
Media, Mediana y Moda para Datos Agrupados
13 páginas
Vida y legado de Évariste Galois
Aún no hay calificaciones
Vida y legado de Évariste Galois
11 páginas
Informe Estadistica
Aún no hay calificaciones
Informe Estadistica
14 páginas
1.2 - SistemasEcuaciones (SoluciónSistemas)
100% (1)
1.2 - SistemasEcuaciones (SoluciónSistemas)
5 páginas
Sol Taller Previo Ep - Matematica para Ingenieros II
Aún no hay calificaciones
Sol Taller Previo Ep - Matematica para Ingenieros II
8 páginas
Teoría de Exponentes y Ejercicios
Aún no hay calificaciones
Teoría de Exponentes y Ejercicios
49 páginas
Verificación de Operaciones Matemáticas
Aún no hay calificaciones
Verificación de Operaciones Matemáticas
3 páginas
4 - Transformada de Fourier
Aún no hay calificaciones
4 - Transformada de Fourier
6 páginas
Unidad IV B Espacios Vectoriales Generales - Espacio Columna
Aún no hay calificaciones
Unidad IV B Espacios Vectoriales Generales - Espacio Columna
9 páginas
Tarea s7 Investigacion de Operaciones Elias Chavez.
100% (1)
Tarea s7 Investigacion de Operaciones Elias Chavez.
7 páginas
Trabajo Coalborativo 2 Grupo 100412 - 261
Aún no hay calificaciones
Trabajo Coalborativo 2 Grupo 100412 - 261
23 páginas
Expresiones Algebraicas y Polinomios
Aún no hay calificaciones
Expresiones Algebraicas y Polinomios
6 páginas
Soluciones Ejercicios 1 A 3 Tema 7 Integrales Dobles
Aún no hay calificaciones
Soluciones Ejercicios 1 A 3 Tema 7 Integrales Dobles
14 páginas
Centroide por Integración Directa
Aún no hay calificaciones
Centroide por Integración Directa
13 páginas
Cómo calcular la media aritmética
Aún no hay calificaciones
Cómo calcular la media aritmética
11 páginas