CDF de distribuciones uniformes y transformadas
CDF de distribuciones uniformes y transformadas
Book
Métodos Computacionales
List of Tables xi
1 Shell-scripting 3
1.1 Bash . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Git y GitHub . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2 Python 7
2.0.1 Números factoriales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.0.2 Máximos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.0.3 Sucesión de Fibonnaci . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.0.4 Números primos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.0.5 Espiral de arquı́medes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.0.6 Figura de Lissajous . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.0.7 Fitting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.0.8 Choques de duración finita . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.0.9 Cinemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
iii
iv Contents
4 Método de MonteCarlo 45
4.1 Generación pseudo-aleatoria de números . . . . . . . . . . . . . . . . . . . . . . 45
4.2 Integración MonteCarlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.3 Ley de grandes números . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.4 Método de la transformada inversa . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.5 Método de aceptación y rechazo . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.6 Incertidumbre del método de MonteCarlo . . . . . . . . . . . . . . . . . . . . . . 49
4.7 Ejercicios: Método de MonteCarlo . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5 Álgebra lineal 55
5.1 Método de Jacobi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
Contents v
6 Probabilidad 77
6.1 Definición de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
6.1.1 Definición frecuentista de probabilidad . . . . . . . . . . . . . . . . . . . 79
6.2 Ejercicios: Axiomas de la probabilidad . . . . . . . . . . . . . . . . . . . . . . . 80
6.2.1 Independencia de eventos . . . . . . . . . . . . . . . . . . . . . . . . . . 81
6.2.2 Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
6.2.3 Teorema de la probabilidad total . . . . . . . . . . . . . . . . . . . . . . 82
6.3 Ejercicios: Probabilidad condicional y total . . . . . . . . . . . . . . . . . . . . . 84
6.4 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
6.5 Ejercicios: Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
6.6 Técnicas de conteo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
6.7 Ejercicios: Técnicas de conteo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
6.8 Ejercicios: Generales de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . 91
6.9 Distribuciones discretas de probabilidad . . . . . . . . . . . . . . . . . . . . . . 94
6.9.1 Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
6.9.2 Correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
6.9.3 Distribución de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
6.9.4 Distribución Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
6.9.5 Distribución de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
6.10 Ejercicios: Distribuciones discretas de probabilidad . . . . . . . . . . . . . . . . 98
6.11 Distribuciones continuas de probabilidad . . . . . . . . . . . . . . . . . . . . . . 99
6.11.1 Distribución normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
6.11.2 Distribución χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
6.11.3 Distribución t-Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
vi Contents
7 Estadı́stica 117
7.1 Muestreo (sampling) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
7.1.1 Aleatorio (probabilı́stico) . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
7.1.2 Muestreo aleatorio simple . . . . . . . . . . . . . . . . . . . . . . . . . . 119
7.1.3 Muestreo aleatorio estratificado . . . . . . . . . . . . . . . . . . . . . . . 119
7.1.4 Muestreo aleatorio sistemático . . . . . . . . . . . . . . . . . . . . . . . . 120
7.1.5 Muestreo no aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
7.2 Distribución de frecuencias (Histogramas) . . . . . . . . . . . . . . . . . . . . . 121
7.3 Estadı́sticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
7.4 Valor medio muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
7.5 Desviación estándar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
7.6 Teorema del lı́mite central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
7.7 Ejercicios: Muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
References 163
viii Contents
List of Figures
ix
x List of Figures
5.1 Parámetros del cálculo. Recuerde que el momento de inercia de un sólido respecto
a su centro de masas es I = kmr2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
10.1 Tabla de contingencia entre artı́culos vendidos y los dı́as de la semana . . . . . . 152
10.2 Tabla de contingencia asociada a la encuesta realizada por la universidad. . . . . 153
1
2 List of Tables
Chapter 1
Shell-scripting
Section 1.1
Bash
a) Escriba una funcion de ayuda (help), que le diga a la usuario que debe ingresar 3
parámetros: posición inicial, velocidad inicial y tiempo total.
b) Defina una función de verificación (checkvalue), cuyo primer parámetro ($1) verifique
si es cero o uno. Si esta condición es verdadera, se asigna (pass=1). En caso contrario,
se le pide al usuario que intente de nuevo.
c) Use un ciclo while para leer una variable usando (read) y pasar ese valor como primer
parámetro a la función de verificación. El ciclo while se repite si la variable pass tiene
un valor cero, en caso contrario, el ciclo termina.
3
4 Chapter 1. Shell-scripting
4. Escriba un programa que verifique si una carpeta llamada (data) existe en su pwd. Si la
carpeta no existe crear dicha carpeta en esa ubicación actual.
5. Escriba un programa que calcule las variaciones sin repetición dadas por la siguiente
expresión:
n!
Vrn = . (1.1)
(n − r)!
donde n = 20 y r = 3. Esto puede significar el número de formas que puedo acomodar
20 partı́culas en 3 estados.
7. Modificar la función factorial para que reciba el número (n) como un parámetro. Usar
un for loop para calcular e imprimir en pantalla los primeros 20 números factoriales.
8. Leer un archivo de datos que tiene la ruta de 10 archivos de texto y guardar la ruta un
array de bash. Imprimir en pantalla el tercer elemento.
Section 1.2
Git y GitHub
1. Crear un video en YouTube y enviar el link describiendo las siguiente etapas de desarrollo
de un proyecto:
(i) Ramificar el proyecto, creando una rama llamada Product: git branch Product
(j) Cambiar de rama Product: git checkout Product
(k) En la nueva rama crear un script de bash que multiplique los dos primeros
parámetros: git add script [Link]
(l) Realizar commit: git commit -m "script 2"
(m) Subir la rama Product al repositorio remoto: git push -u origin Product
(n) Fusionar la rama Product a la rama main: Estando en la rama principal ejecutar:
git merge Product
(o) Subir cambios a la rama main. git push origin main
(p) Eliminar la rama auxiliar Product: git branch -d Product
(q) Eliminar la rama auxiliar remota Product: git push origin --delete Product
6 Chapter 1. Shell-scripting
Chapter 2
Python
2. Escriba una función que calcule las variaciones sin repetición de n elemenos tomados de
r en r:
n!
Vrn = (2.2)
(n − r)!
3. Escriba una función que calcule las combinaciones sin repetición de n elementos tomados
de m en m, con n > m.
n n!
Cm = (2.3)
m!(n − m)!
7
8 Chapter 2. Python
2.0.2 Máximos
1. Descargue los datos de: [Link]
main/MetodosComputacionalesReforma/[Link] Diseñe un algoritmo
para encontrar todos los máximos locales en esta serie de datos. La Figura [2.1] muestra
la serie de datos y los máximos locales.
1.6
1.5
1.4
1.3
1.2
1.1
1.0
0.9
3.4 3.5 3.6 3.7 3.8 3.9 4.0 4.1
f0 = 0
f1 = 1
fn = fn−1 + fn−2 (2.4)
√
1+ 5
ϕ= (2.5)
2
fn+1
ϕ = lim , (2.6)
n→∞ fn
7000
Serie Fibonacci 2.0 Estimación usando la serie
Numero Aureo
6000
1.8
5000
4000 1.6
3000
1.4
2000
1.2
1000
0 1.0
0 5 10 15 20 0.0 2.5 5.0 7.5 10.0 12.5 15.0 17.5
8000
7000
6000
5000
4000
3000
2000
1000
0
0 200 400 600 800 1000
r = a + bθ (2.7)
x = Asin(ωx t)
y = Asin(ωy t + δ) (2.8)
15
10
0
y
10
15
15 10 5 0 5 10 15 20
x
ωx /ωy = 1/1, 1/2, 1/3, 1/4, 1/5, 2/2, 2/3, 2/4, 2/5, 3/3, 3/4, 3/5, 4/4, 4/5, 5/5 (2.9)
fig = [Link](nsides,nsides,k)
k += 1
[Link]("off")
Finalmente, se obtiene:
2.0.7 Fitting
1. Bajar los datos disponibles en [Link]
main/MetodosComputacionales/[Link]
12 Chapter 2. Python
Figure 2.5: Figuras de Lissajous para los desfases: δ = [0, π/4, π/2] respectivamente.
A
f (t) = . (2.10)
1 + e−Bt
Utilice el template de la clase partı́cula vista en clase para simular una colisión de duración
finita. Para la interacción de las dos partı́culas use la siguiente fuerza de contacto
(Landau-Lifshitz volumen 7).
3
K R + R − |~r − ~r | n̂ si |~r − ~r | < R + R
1 2 1 2 1 2 1 2
f~(~r1 , ~r2 ) = (2.11)
0 En otro caso.
donde K = 100 N/m3 , R1 , R2 son los radios de las esferas y ~n = cos(θ)î + sen(θ)ĵ es el
vector normal al plano de contacto. Note que c = R1 + R2 − |~r1 − ~r2 | es la deformación de las
esferas. Usar m = 1 kg y R1 = R2 = 2 m, con las siguientes condiciones iniciales:
13
Bola 1 :
~r0 = (−15, 1)
~v0 = (10, 0)
~a0 = (0, 0) (2.12)
Bola 2 :
1. Crear el método de clase que calcule la fuerza entre partı́culas en la clase Particle.
Recuerde que un cuerpo no se puede aplicar fuerza a si mismo. Cada vez que se avance
en el tiempo, debe reiniciar la fuerza y la aceleración a cero, y verificar las paredes (mirar
video en bloque-neon).
2.0.9 Cinemática
1. La ecuación de movimiento para una caı́da libre está dada por:
d2 y
m = −mg, (2.14)
dt2
donde y representa la posición de la partı́cula, m su masa y g es la aceleración debida
a la gravedad (Use g = 9.8 m/s2 ). Esta ecuación está sujeta a las condiciones iniciales
(y0 = 0, v0 = +50 m/s), que representan la posición y velocidad iniciales respectivamente.
La solución analı́tica de esta ecuación está dada por:
1
y(t) = y0 + v0 t − gt2 . (2.15)
2
Dibuje la posición y velocidad como función del tiempo, iterando hasta que el sistema
llegue hasta la posición inicial.
14 Chapter 2. Python
Ahora asuma que el sistema está sometido a una fuerza resistiva proporcional al cuadrado
de la velocidad instantánea, tal que:
d2 y 1
m 2
= −mg + CρAv 2 , (2.16)
dt 2
donde C = 0.8 es un factor experimental asociado a la resistencia del aire, ρ =
1.225 kg/m3 es la densidad del aire y A = πR2 es el área eficaz de la esfera (tomar
inicialmente R = 0.05 m).
a) Demuestre que la solución analı́tica a esta ecuación diferencial está dada por:
1
cosh(tanh−1 ( γv
√ 0 ))
g
y(t) = y0 + 2 ln √ , (2.17)
γ cosh(−γ gt + tanh−1 ( γv √ 0 ))
g
√
g √ −1 γv0
v(t) = tanh − γ gt + tanh √
γ g
q
CρA
donde γ = 2m
es el parámetro de amortiguamiento, con m = 1 kg. Note que existe
γv0
una restricción cinemática en este sistema −1. < √
g
< +1.
b) Dibuje la posición y velocidad como función del tiempo en la misma gráfica del caso
ideal.
c) ¿Cuál es el tiempo de vuelo para ambos casos?
d) Estudie el comportamiento del tiempo de vuelo como función de C y R (variar los
parámetros hasta encontrar diferencias). ¿Cuál parámetro tiene mayor impacto en el
tiempo de llegada de este sistema.
Chapter 3
Section 3.1
Algoritmo babilónico para la función raı́z cuadrada
El algoritmo para la aproximación de la raı́z cuadrada de cualquier número real está definido
por la siguiente formula recursiva:
f0 (x) = x
1 x
fn (x) = + fn−1 (x) (3.1)
2 fn−1 (x)
√
donde fn (x) es la n-ésima aproximación a x, De esta forma:
√
f∞ (x) = x. (3.2)
Section 3.2
Taylor Series
∞
X
pn (x) = an (x − x0 )n , (3.3)
n=0
where x0 is a specific point, where one makes the expansion. Using x0 = 0 (Maclaurin serie),
the representation of the f (x) is therefore given by:
1
2 Chapter 3. Derivación e integración numérica
∞
X
f (x) = an x n . (3.4)
n=0
One inside for obtaining the coefficients is driven by the value of the function and its
derivatives; Hence:
f (0) = a0 + a1 0 + a2 02 + ...
f 0 (0) = a1 + 2a2 0 + ...
00
f (0) = 2a2 + 3 × 2a3 0 + ... (3.5)
f (n) (x)
an = (3.6)
n!
This expression is known as the Maclaurin serie of f (x).
∞
X f (n) (x)
f (x) = xn . (3.7)
n=0
n!
∞
X f (n) (a)
f (x) = (x − a)n . (3.8)
n=0
n!
We are interesting in any point of the discretization (x0 ) and its neighborhood x0 + h, where
h << 1. The expansion to around x0 is given by:
∞
X f (n) (x0 )
f (x) = (x − x0 )n . (3.9)
n=0
n!
∞ ∞
0
X f (n) (x0 ) 0 0 n
X f (n) (x0 )
f (x + h) = (x + h − x ) = (h)n (3.10)
n=0
n! n=0
n!
Which is an useful formulae. the expansion up to first order is given by:
Section 3.3
Error de redondeo
Section 3.4
Error de truncamiento
sin(x) ∼
= x + O(x3 )
x3
sin(x) ∼
= x− + O(x5 ) (3.12)
3!
tiene diferente error de truncamiento para la estimación de la función sin(x).
4 Chapter 3. Derivación e integración numérica
Section 3.5
Derivación
xj = x0 + jh, (3.13)
Ω = {(x0 , f (x0 )), (x1 , f (x1 )), ..., (xn , f (xn ))} (3.14)
Ω2 = {(x0 , y0 , f (x0 , y0 )), (x1 , y1 , f (x1 , y1 )), ..., (xn , yn , f (xn , yn ))} (3.15)
h2 00
f (x + h) = f (x) + hf 0 (x) + f (x) + ... para h << 1 (3.16)
2
despejando la primera derivada tenemos:
f (x + h) − f (x) h 00
f 0 (x) = − f (x) (3.17)
h |2 {z }
O(h)
f (xj+1 ) − f (xj )
f 0 (xj ) ∼
= (3.18)
h
La última expresión se denomina la derivada progresiva del punto xj , la cuál tiene orden
O(h) en la estimación.
3.5. Derivación 5
h2 00
f (x − h) = f (x) − hf 0 (x) + f (x) + ... para h << 1 (3.19)
2
despejando la primera derivada tenemos:
f (x) − f (x − h) h 00
f 0 (x) = + f (x) (3.20)
h |2 {z }
O(h)
f (xj ) − f (xj−1 )
f 0 (xj ) ∼
= (3.21)
h
Para la derivada regresiva se tiene un orden de aproximación de orden O(h).
h2 00 h3
f (x + h) = f (x) + hf 0 (x) + f (x) + f 000 (x) + ...
2 3!
2 3
h h
f (x − h) = f (x) − hf 0 (x) + f 00 (x) − f 000 (x) + ... (3.22)
2 3!
f (x + h) − f (x − h) h2 000
f 0 (x) = − f (x) (3.23)
2h |3 {z }
O(h2 )
f (xj+1 ) − f (xj−1 )
f 0 (xj ) ∼
= . (3.24)
2h
Notar que la estimación central tiene un orden O(h2 ) en la estimación.
6 Chapter 3. Derivación e integración numérica
Section 3.6
Segunda Derivada
Para estimar la segunda derivada numérica, se suma los dos desarrollos de Taylor en la
Ecuación (3.22).
f (x + h) − 2f (x) + f (x − h)
f 00 (x) = + O(h2 ) (3.26)
h2
para algún punto de la partición:
Section 3.7
Ejercicios: Derivación
1
f (x) = √ , (3.29)
1 + e−x2
3. (Machine Learning analogy) La convolución discreta entre dos señales y[m] y x[m] a
tiempo discreto está dada por:
∞
X
y[m] ∗ x[m] = h[n]x[m − n], (3.30)
n=−∞
∞
1 1 X
D f (xm ) = K[n + 1]f (xm−n ). (3.32)
2h n=−∞
Como el kernel tiene dimensión 3, la suma corre sobre los valores n = −1, 0, 1. No
obstante, en Python las listas tienen como primer valor n = 0, por esa razón el kernel se
translada a n + 1. Implemente este algoritmo para calcular la derivada de la función del
punto 2).
a) Definir una discretización en los ejes x e y, donde la región es: A ∈ [−4, 4] con 25
puntos en cada eje.
R2
φ(x, y) = V x 1 − (3.34)
x2 + y 2
donde V = 2 cm/s
∂φ
vx =
∂x
∂φ
vy = − (3.35)
∂y
use h = 0.001. Note que al interior del cilindro el campo de velocidades debe ser igual
a cero.
1
y[cm]
4 3 2 1 0 1 2 3 4
x[cm]
q 1 1
V (x, y) = p −p (3.36)
4π0 (x − r~q [0])2 + (y − d)2 (x − r~q [0])2 + (y + d)2
For this numerical estimation the position of the charge is r~q = (0.51, 0.21) m. Note that
d = r~q [1].
q
a) Calculate the electric field in arbitrary units where 4π0
= 1.
~ = −∇V (x, y)
E (3.37)
The derivation region is R ∈ [0., 1.] × [0., 1.] m2 and the step of discretization is
h = 0.05.
b) Plot the vectorial field using: [Link](x[i],y[j],Ex[i,j],Ey[i,j])
The result looks like this 3.2:
0.8
0.6
y[m]
0.4
0.2
0.0
0.2 0.4 0.6 0.8 1.0
x[m]
Figure 3.2: Electric field of an electric charge close to grounded conducting plane. Note that
the Gauss’ Law is satisfied because of the electric field is normal in the surface. Nice!
8. Es posible construir una aproximación de orden O(h2 ) para la derivada progresiva. Para
tal propósito, se escribe el polinomio de interpolación de grado 2 para el conjunto soporte
10 Chapter 3. Derivación e integración numérica
Ω = {(x0 , f (x0 )), (x1 , f (x1 )), (x2 , f (x2 ))}, y posteriormente se calcula la derivada de este
polinomio.
1
f 0 (x0 ) ≈ p0 (x0 ) =(−3f (x0 ) + 4f (x1 ) − f (x2 )). (3.38)
2h
Si la discretización es equidistante, tenemos:
1
f 0 (x) ∼
= (−3f (x) + 4f (x + h) − f (x + 2h)). (3.39)
2h
p
c) (Python) Para f (x) = tan(x) estimar la derivada progresiva de orden O(h2 )
(expresión anterior) en el intervalo [0.1, 1.1] con h = 0.01.
p
d) (Python) Para f (x) = tan(x) estimar la derivada central de orden O(h2 ) en el
intervalo [0.1, 1.1] con h = 0.01.
e) Calcule analı́ticamente la derivada de la función f (x), y grafique con la estimación
central y progresiva de orden O(h2 ).
f) Grafique el error nodal para ambas aproximaciones. ¿Tienen efectivamente el mismo
orden de precisión ambos resultados?
9. (SymPy) El operador derivada central de orden superior se puede ver como una
combinación lineal de las imágenes del conjunto soporte:
n
df (x) ∼ X
= ci+n f (x + ih). (3.40)
dx i=−n
donde n representa el número de vecinos del punto de la estimación, por ejemplo, para
n = 2 se tiene: X = {−2h, −h, 0, h, 2h}. La primera derivada es entonces:
df (x) ∼
= c0 f (x − 2h) + c1 f (x − h) + c2 f (x) + c3 f (x + h) + c4 f (x + 2h). (3.41)
dx
El procedimiento de interpolación permite calcular el valor de los coeficientes y establecer
el orden de aproximación de la derivada (O(hk )). Los coeficientes del operador están dados
por las derivadas de las funciones cardinales evaluadas en el punto central X[2] = 0:
3.7. Ejercicios: Derivación 11
dLi (x)
ci = . (3.42)
dx x=0
1 2 2 1
~c = + , − , 0, + , − (3.43)
12h 3h 3h 12h
En esta parte del curso, para encontrar los coeficientes les propongo la siguiente estrategia:
(d) Use la función Lagrange de la clase de interpolación para calcular la base cardinal
de cada punto. Debe cambiar en la lı́nea prod=1.0 a prod=1 para que no aproxime
los coeficientes a decimales.
(e) Cree una función que calcule los coeficientes y los guarde en otra lista. La función
debe tener como entrada el sı́mbolo x, la lista de simbolos X y el punto de evaluación
p.
def GetCoefficients(x,p,X):
Coefficients = []
(f) En la función, haga un for loop encontrando la base cardinal de cada punto de la
discretización.
for i in range(len(X)):
Li = Lagrange(x,X,i)
Section 3.8
Método de Newton-Raphson
Es un método iterativo para encontrar las raı́ces reales polinomios usando conceptos de cálculo
diferencial. Tomemos un punto cualquiera xn y construimos la ecuación de la recta usando la
derivada de f (x) en xn .
f (xn+1 ) − f (xn )
Df (xn ) = (3.44)
xn+1 − xn
Se pretende que el siguiente punto en la iteración sea un raı́z de f (xn+1 ) = 0, por tanto:
f (xn )
xn+1 = xn − (3.45)
f 0 (xn )
Este es conocida como la forma iterativa de Newton-Raphson. Otro camino para deducir
esta formula consiste en expandir f (x) alrededor de xn .
(x − xn )2 00
f (x) = f (xn ) + f 0 (xn )(x − xn ) + f (xn ) + ... (3.46)
2!
Si se trunca la función hasta orden O(x2 ) y se evalúa en el siguiente punto xn+1 , el cuál se
considera un raı́z de f (x); se llega a la formula deseada.
|xk+1 − xk |
= (3.47)
|xk+1 |
el cual detiene el método cuando sea menor a una tolerancia, i.e, < 10−6 .
Section 3.9
Método de bisección
Este método consiste en obtener una estimación de la raı́ces de una función, la cuales se suponen
existe en cierto intervalo [a,b]. La existencia de las raı́ces (el teorema no establece cuántas raı́ces
existen en dicho intervalo) se garantizan por medio del teorema de Bolzano, que establece lo
siguiente:
14 Chapter 3. Derivación e integración numérica
Sea f : [a, b] → R una función continua en [a,b] tal que f (a) < 0 < f (b). Entonces, existe
al menos un punto c ∈ [a, b] tal que f (c) = 0.
a+b
xm = (3.48)
2
De los dos intervalos elegimos el intervalo que cumpla la condición de Bolzano: f (a)f (xm ) <
0 o f (xm )f (b) < 0. Repitiendo el proceso hasta que el intervalo sea lo suficientemente pequeño
para acotar la raı́z solución dentro de una vecindad arbitrariamente pequeña. La noción de
distancia está dada por:
a) En el intervalo [a,b] se debe cumplir la condición de Boltzano: f (a)f (b) < 0. De lo contrario,
no existe la raı́z en dicho intervalo.
b) De Divide el intervalo en su punto medio, donde tenemos dos intervalos: [a, xm ] y [xm , b].
d) Si f (a)f (xm ) < 0. la raı́z está en [a, xm ]. Hacer b = xm y repetir paso b). De lo contrario,
la raı́z está en [xm , b]. Hacer a = xm y repetir el paso b).
Dado que en cada paso la longitud del intervalo se divide por dos, la longitud del intervalo
b−a
después de k pasos se reduce a 2k
. La aproximación a la raı́z será el punto medio de dicho
intervalo, de este modo, el error en la aproximación está dada por:
1b−a
|k | < . (3.50)
2 2k
|k | es asignado arbitrariamente. Para cierta precisión se tiene la siguiente expresión del
número de pasos que acotan la solución en esa vecindad (|xk − xexacta | < k ):
ln((b − a)/k )
k> −1 (3.51)
ln(2)
3.10. Ejercicios: Raı́ces de polinomios 15
Section 3.10
Ejercicios: Raı́ces de polinomios
4. (SymPy) Calcular todas las raı́ces reales de los primeros 20 polinomios de Legendre. La
formula de rodrigues es:
1 dn 2
pn (x) = (x − 1)n . (3.53)
2n n! dxn
El intervalo donde existen las raı́ces es: −1 ≤ x ≤ 1.
5. (SymPy) Calcular todas las raı́ces reales de los primeros 20 polinomios de Laguerre. La
formula de rodrigues es:
ex dn −x n
Ln (x) = (e x ). (3.54)
n! dxn
El intervalo donde existen las raı́ces es: 0 ≤ x ≤ ∞.
Air
Transmitter Water
0
y[m]
Receiver
x[m]
(a) (Theoretical) Muestre que el tiempo de viaje del pulso de luz está dado por:
p p
t(x) = n0 (x − T [0])2 + T [1]2 + n1 (x − R[0])2 + R[1]2 (3.56)
donde x es el punto donde se debe apuntar el láser para alcanzar el receptor. Use
n0 = 1 para el aire y n1 = 1.33 para el agua.
(b) Implemente el tiempo de viaje en Python y dibújelo para algunos valores de x. Antes
de nada, identifique cualitativamente el lugar donde se minimiza el tiempo de viaje
del pulso.
3.10. Ejercicios: Raı́ces de polinomios 17
(c) Encuentre el mı́nimo del tiempo usando el método de Newton-Raphson con una
precisión de = 1 × 10−6 . Recuerde que la condición del mı́nimo es:
dt(x)
=0 (3.57)
dx x=xmin
n0 sin(α1 )
= (3.58)
n1 sin(α0 )
18 Chapter 3. Derivación e integración numérica
Section 3.11
Interpolación de Lagrange
Teorema 1. (Teorema de aproximación de Weierstrass). Sea f ∈ [a, b], dado > 0 existe un
polinomio p(x) definido en [a, b] tal que:
Descubierto por Edwarg Waring en 1779 y redescubierto por Leonhard Euler en 1783, fue
publicado por Lagrange en 1795. Sea el conjunto soporte Ω = {(x0 , y0 ), (x1 , y1 ), ..., (xn , yn )} de
n + 1 puntos diferentes, existe un polinomio interpolador de grado n:
n
X
pn (x) = f (xi )Li (x), (3.60)
i=0
n
Y x − xj
Li (x) = (3.61)
j=0,j6=i
xi − xj
Este polinomio cumple que p(xk ) = yk para todo k en {0, ..., n}.
Ejemplo:
Encontrar las funciones cardinales (Li (x)) y el polinomio interpolador para el siguiente conjunto:
Ω = {(5, 10), (10, 15)}.
x − 10 1
L0 (x) = = − (x − 10) (3.62)
5 − 10 5
x−5 1
L1 (x) = = (x − 5) (3.63)
10 − 5 5
Por tanto, el polinomio interpolador es:
3.11.1 Error
Sea f : I → R, {xi }ni=0 ⊆ I, xi 6= xj para i 6= j y suponemos que f es derivable n + 1 veces. El
error asociado a la interpolación está dado por:
f n+1 (ξx )
E = f (x) − p(x) = (x − x0 )(x − x1 )...(x − xn ) (3.65)
(n + 1)!
donde p(x) es el polinomio interpolador en {xi }ni=0 y ξx ∈ al intervalo que contiene los puntos.
proof:
Si x es un punto xk la identidad se satisface para cualquier ξ. De lo contrario, si x es fijo y
diferente xk se considera una función auxiliar:
f (x) − p(x)
F (t) = f (t) − p(t) − cL(t), donde c= (3.66)
L(x)
Qn
L(x) = i=0 (x−xi ). Si evaluamos la función auxiliar en los puntos xk , F (xk ) = yk −yk −0 =
0 para todo k. Por tanto, F tiene n+1 ceros. Adicionalmente F (x) = f (x) − p(x) − cL(x) = 0,
dada la definición de c. entonces la función F tiene n + 2 ceros en el intervalo I. Ahora, por
el teorema de Rolle, F 0 debe tener al menos n+1 ceros en el intervalo que tiene a los puntos
xk ; entonces la (n+1)-ésima derivada debe tener al menos un cero. Sea ξx ese cero. Entonces
derivamos (n + 1) veces y evaluamos en ξx :
f n+1 (ξx ) 1
c= → cL(x) = f (x) − p(x) = f n+1 (ξx )L(x) (3.68)
(n + 1)! (n + 1)!
Section 3.12
Interpolación de Newton-Gregory
Sean los n + 1 puntos de la discretización x0 , x1 , ..., xn , tal que xi − xi−1 = h y sus respectivas
imágenes: f (x0 ), f (x1 ), ..., f (xn ). Se propone el polinomio de interpolación:
Se requiere el cálculo de los coeficientes del este polinomio. Se establece la notación f (x0 ) =
f0 , evaluando el polinomio en x0 :
p(x0 ) = f0 (3.70)
Entonces a0 = f0 : evaluando en x1 :
p(x1 ) = f1
f1 = f0 + a1 (x1 − x0 )
f1 = f0 + a1 h (3.71)
p(x2 ) = f2
f2 = f0 + a1 (x2 − x0 ) + a2 (x2 − x0 )(x2 − x1 )
f1 − f0
f2 = f0 + (2h) + a2 (2h)(h) (3.72)
h
Entonces a2 se relaciona con la segunda derivada central:
f2 − 2f1 + f0
a2 = (3.73)
2h2
Pensemos en un término general para los coeficientes:
∆n f0
an = (3.74)
n!hn
donde ∆n+1 fi = ∆n fi+1 − ∆n fi , que se conoce como las diferencias finitas de la función.
Por ejemplo: podemos ver los primeros términos:
∆0+1 fi = ∆0 fi+1 − ∆0 fi
= fi+1 − fi (3.75)
∆1+1 fi = ∆1 fi+1 − ∆1 fi
= fi+2 − fi+1 − (fi+1 − fi )
= fi+2 − 2fi+1 + fi (3.76)
3.13. Ejercicios: Interpolación de Lagrange 21
∆2+1 fi = ∆2 fi+1 − ∆2 fi
= fi+3 − 2fi+2 + fi+1 − (fi+2 − 2fi+1 + fi )
= fi+3 − 3fi+2 + 3fi+1 − fi (3.77)
∆3+1 fi = ∆3 fi+1 − ∆3 fi
= fi+4 − 3fi+3 + 3fi+2 − fi+1 − (fi+3 − 3fi+2 + 3fi+1 − fi )
= fi+4 − 4fi+3 + 6fi+2 − 4fi+1 + fi (3.78)
El cálculo de estas diferencias resulta más evidente en el marco de matrices. Por ejemplo:
∆0 ∆1 ∆2 ∆3 ∆4 ∆5 ∆6
39 0 0 0 0 0 0
−20
19 0 0 0 0 0
−21 −40 −20 0 0 0 0
∆= (3.79)
−57 −36 4 24 0 0 0
−65 −8 28 24 0 0 0
−21 44 52 24 0 0 0
99 120 76 24 0 0 0
En este caso, el polinomio interpolador será de orden tres.
Section 3.13
Ejercicios: Interpolación de Lagrange
2. (Theoretical) Compruebe que las funciones cardinales son base (i.e, Li (x) = δij para
cada j ∈ {0, 1, ..., n}).
√
3. ¿Con qué grado de exactitud podemos calcular 114 mediante la interpolación de de
√
Lagrange para la función f (x) = x, si elegimos los puntos x0 = 100, x1 = 121, x2 = 144.
Rpta: |E| ' 1.8 × 10−3 .
22 Chapter 3. Derivación e integración numérica
4. En el lanzamiento de una bala, una cámara fotográfica registra las siguientes posiciones
en metros respecto al arma homicida (tome ~g = −9.8 m/s2 ĵ):
[Link]
[Link]
Estime el vector velocidad inicial, que estarı́a definido por la magnitud y dirección. Rpta:
V0 = 10 m/s y θ = 20◦ . Hint: Encuentre el termino lineal y cuadrático de la interpolación
y compare con la ecuación de trayectoria de la bala.
p0 (x) = f0 (x0 )
p1 (x) = p0 (x) + f1 (x0 , x1 )(x − x0 )
p2 (x) = p1 (x) + f2 (x0 , x1 , x2 )(x − x0 )(x − x1 )
i−1
Y
pi (x) = pi−1 (x) + fi (x0 , x1 , ..., xi−1 , xi ) (x − xj ) (3.82)
j=0
10 Interpolacion
Data
0
10
20
30
0 1 2 3 4 5 6
Section 3.14
Integración
Para el calculo de integrales definidas existe una familia de métodos denominados Métodos de
Newton-Côtes, los cuales se basan en cambiar el integrando f (x) a un polinomio interpolador
que aproxima a f (x) en el intervalo de integración. El grado del polinomio interpolador queda
definido por el número de puntos a considerar, por ejemplo, en los casos más simples de
interpolación lı́neal (Regla de trapecio) e interpolación cuadrática (Regla de simpson), se tiene
expresiones sencillas que son fáciles de implementar computacionalmente.
x−b x−a
f (x) ≈ p1 (x) = f (a) + f (b), ∀x ∈ [a, b]. (3.84)
a−b b−a
De modo que la integral tiene un valor aproximado:
b b
b−a
Z Z
I= f (x)dx ∼
= p1 (x)dx = (f (a) + f (b)) (3.85)
a a 2
El error en la estimación está asociado al procedimiento de interpolación. Suponiendo que
f (x) es continua y derivable de clase C 2 en el intervalo [a,b]:
donde
f 00 (ξ)
(x) = (x − a)(x − b), a ≤ ξ ≤ b. (3.87)
2
Entonces el error asociado a la integración por le método del trapecio está dado por (h =
b − a):
3.14. Integración 25
b
h3 00
Z
E= (x)dx = − f (ξ) (3.88)
a 12
De esta forma el error alcanza un valor máximo para algún valor de ξ, donde la segunda
derivada de f (x) se maximice; de modo que podemos acotar el error máximo en esta estimación.
h3
|E| ≤ max |f 00 (ξ)|. (3.89)
12 |{z}
a≤ξ≤b
el método de trapecios compuesto genera una partición equi-espaciada tal que: xi+1 −xi = h,
∀i = [1, ..., n] sobre el conjunto Ω = {(x0 , f (x0 )), (x1 , f (x1 )), ..., (xn , f (xn ))}. Las condiciones
de borde corresponden con los lı́mites de integración (x0 = a y xn = b), definiendo el paso de
b−a
integración h = n
. La integral se puede escribir como:
Z b Z x1 Z x2 Z xn
f (x)dx = f (x)dx + f (x)dx + ... + f (x)dx, (3.91)
a x0 x1 xn−1
Z b
h h h
f (x)dx ≈ (f (x0 ) + f (x1 )) + (f (x1 ) + f (x2 )) + ... + (f (xn−1 ) + f (xn )), (3.92)
a 2 2 2
Z b n−1
h X
f (x)dx ≈ (f (a) + f (b)) + h f (xi ). (3.93)
a 2 i=1
n
X h2 00
E= Ei = − (f (ξ1 ) + f 00 (ξ2 ) + ... + f 00 (ξn )) (3.94)
i=1
12
26 Chapter 3. Derivación e integración numérica
El error puede ser acotado por el valor máximo promedio que tome la segunda derivada en
el intervalo [a, b].
h2 (b − a)
|E| ≤ max |f 00 (ξ)|. (3.95)
12 |{z}
a≤ξ≤b
donde
b b
f 000 (ξ)
Z Z
E= (x)dx = (x − a)(x − b)(x − (a + b)/2)dx = 0, a ≤ ξ ≤ b. (3.100)
a a 4!
3.14. Integración 27
Esto significa que la regla de Simpson es exacta a orden O(h3 ), entonces necesitamos otro
camino para calcular el error de la estimación a orden O(h4 ). Para tal propósito, se va a
expandir en series de Taylor alrededor del punto medio xm a f (x) y al polinomio interpolador
p2 (x). Suponiendo que f (x) es continua y derivable de clase C 4 en el intervalo [a,b], a orden
O(h4 ) se tiene:
f (4) (ξ)
(x) = (x − xm )4 . (3.102)
4!
Para reemplazar en la regla simple de Simpson, se debe encontrar f (a) y f(b), entonces:
Por tanto, la regla de Simpson queda expresada como (Notar como el término de orden
O(h3 ) no contribuye):
h h
(f (a) + 4f (xm ) + f (b)) = (6f (xm ) + f 00 (xm )h2 + (xm + h) + (xm − h))
3 3
h 1
= (6f (xm ) + f 00 (xm )h2 + f (4) (ξ)h4 ) (3.104)
3 12
Ahora integrando el desarrollo de Taylor dado por la Ecuación (3.101):
b
f 00 (xn ) 3 f (4) (ξ) 5
Z
f (x)dx = 2hf (xm ) + h + h. (3.105)
a 3 60
De modo que es posible calcular el error como la diferencia en las dos integrales.
Z b Z b
E = f (x)dx − p2 (x)dx
a a
(4) (4)
f (ξ) 5 f (ξ) 5 1
= h − h = − f (4) (ξ)h5 (3.106)
60 36 90
28 Chapter 3. Derivación e integración numérica
El error puede ser acotado por el valor máximo promedio que tome la cuarta derivada en el
intervalo [a, b]; notar que el error es de orden O(h5 ).
1 5
|E| ≤ h max |f (4) (ξ)|. (3.107)
90 |{z}
a≤ξ≤b
el método de Simpson compuesto genera una partición equi-espaciada tal que: xi+1 −xi = h,
∀i = [1, ..., n] sobre el conjunto Ω = {(x0 , f (x0 )), (x1 , f (x1 )), ..., (xn , f (xn ))}. Las condiciones
de borde corresponden con los lı́mites de integración (x0 = a y xn = b). Definiendo el paso de
b−a
integración como h = n
, la integral se puede escribir:
Z b Z x2 Z x4 Z b
f (x)dx = f (x)dx + f (x)dx + ... + f (x)dx (3.109)
a a x2 xn−2
Notar que el número de puntos de la partición deber ser par y que los puntos medios serı́an
el sub-conjunto {x2n+1 }. Aplicando el método simple a cada integral tenemos:
Z b
h
f (x)dx ≈ f (a)+4f (x1 )+f (x2 )+f (x2 )+4f (x3 )+f (x4 )+...+f (xn−2 )+4f (xn−1 )+f (b)
a 3
(3.110)
En general, podemos escribir la expresión final para el método de Simpson compuesto:
Z b n−1 n−2
h X X
f (x)dx ≈ f (a) + 4 f (xi ) + 2 f (xi ) + f (b) (3.111)
a 3 i=1,impares i=2,pares
Para la estimación del error total, se debe considerar el error cometido en cada una de las
integrales. De este modo:
1 5 (4) (4) (4)
|E| = h f (ξ1 ) + f (ξ2 ) + ... + f (ξn/2 ). (3.112)
90
Finalmente, acotando superiormente la estimación tenemos el error de la regla de Simpson
compuesta a orden O(h4 ).
3.14. Integración 29
b−a 4
|E| ≤ h max |f (4) (ξ)|. (3.113)
180 |{z}
a≤ξ≤b
Cabe resaltar que la regla de Simpson compuesta que aproxima el integrando por un
polinomio de orden tres, reduce en dos ordenes el error cometido por método de trapecio
compuesto.
Ejemplo:
Para la integral:
Z 1 p
1 + e−x2 dx, (3.114)
−1
Usando la regla de Simpson compuesta, ¿cuál debe ser el número de puntos para aproximar
la integral con un error menor a 0.001?
n Z 1
∼
X (n) (n)
GM (f ) = wi f (xi ) = f (x)dx. (3.116)
i=1 −1
(n) (n)
Donde {wi } son los pesos de ponderación y los {xi } son los puntos de Gauss, ambos
cantidades dependen del número de puntos que se elijan. A diferencia de los métodos anteriores,
queremos encontrar una regla que nos permita maximizar el grado de precisión en nuestras
estimaciones. En general, para calcular los coeficientes se exige que la regla sea exacta para el
polinomio de mayor grado que se tenga. Tenemos entonces:
30 Chapter 3. Derivación e integración numérica
Z 1 n
X (n) (n)
xk dx = wi (xi )k k = 0, 1, ..., N (3.117)
−1 i=1
donde N es tan grande como sea posible. Necesitamos 2n condiciones para integrar
polinomios de grado 2n − 1, esto se denomina la regla de n puntos, para el grado polinomial
2n − 1.
(n)
Lema 1: Si N = 2n, entonces no existe el conjunto {wi } tal que se verifique la igualdad.
Qn n 2
Supongamos que existe dicho polinomio, si definimos L(x) = j=1 (x − xj ) entonces
R1 P (n) (n)
L(x) ≥ 0 y por tanto la integral −1 L(x)dx > 0. Sin embargo, wi L(xi ) = 0, entonces
hay una contradicción.
(n) (n)
Lema 2: Sea {wi } los pesos y {xi } los puntos de Gaus tal que se cumpla la
Ecuación (3.117) para k = 0, 1, 2, ..., N = 2n − 1, los pesos deben satisfacer:
Z 1
(n) (n)
wi = Li (x)dx, (3.118)
−1
con
n (n)
(n)
Y x − xk
Li (x) = (n) (n)
(3.119)
k=1,k6=i xi − xk
(n)
Las bases cardinales son de grado ≤ 2n − 1 y Li (xj ) = δij , como la regla de cuadratura
debe ser exacta para los polinomios de grado 2n − 1, entonces:
Z 1 n
X n
X
(n) (n) (n) (n) (n)
Li (x)dx = wj Li (xj ) = wj δij = wi (3.120)
−1 j=1 j=1
Qn (n)
Ahora, tenemos un polinomio de grado n, Pn (x) = i=1 (x − xi ) y supongamos que
tenemos un polinomio cualquier Q(x) de grado ≤ n − 1, de modo que la multiplicación tiene
grado ≤ 2n − 1. Por tanto la identidad de la cuadratura se debe satisfacer.
Z 1 n
X (n) (n)
Pn (x)Q(x)dx = wi Pn (xni )Q(xi ). (3.121)
−1 i=1
3.14. Integración 31
Por la definición de Pn (x) la integral es nula y los polinomios deben formar una base
ortonormal. Adicionalmente, el conjunto {xni } deben ser las raı́ces de los Pn (x).
Z 1
x0 dx = w0 + w1
−1
Z 1
x1 dx = w0 x0 + w1 x1
−1
Z 1
x2 dx = w0 x20 + w1 x21
−1
Z 1
x3 dx = w0 x30 + w1 x31 (3.123)
−1
2 = w0 + w1 (3.124)
0 = w0 x0 + w1 x1 (3.125)
2/3 = w0 x20 + w1 x21 (3.126)
0 = w0 x30 + w1 x31 (3.127)
Ejemplo:
32 Chapter 3. Derivación e integración numérica
1
L1 (x) = x(x − 1)
2
L2 (x) = −(x + 1)(x − 1)
1
L3 (x) = x(x + 1) (3.129)
2
Integrando dichas funciones en el intervalo [−3, 3] obtenemos el conjunto de pesos:
1 dn 2
pn (x) = (x − 1)n , (3.132)
2n n! dxn
Los primeros polinomios son:
p0 (x) = 1
p1 (x) = x
1
p2 (x) = (3x2 − 1)
2
1
p3 (x) = (5x3 − 3x) (3.133)
2
cumplen con la siguiente relación de completez:
3.14. Integración 33
(
1
0 m 6= n
Z
pn (x)pm (x)dx = 2
(3.134)
−1 2n+1
m=n
y las siguientes relaciones de recurrencia.
dpn
(x2 − 1)= nxpn − npn−1 . (3.136)
dx
Adicionalmente se tiene el siguiente coeficiente director.
(2n)!
an = (3.137)
2n (n!)2
Para calcular los pesos de la cuadratura de Gauss-Legendre, se requiere escribir las funciones
cardinales en términos de los polinomios de Legendre. Si definimos las funciones base de
Lagrange como:
pn (x)
L(x) = (3.138)
x − xk
Tenemos una forma indeterminada cuando x = xk . Para conocer dicho lı́mite, si existe,
usemos la regla de L’Hôpital.
dpn (x)
= p0n (xk )
dx
lim L(x) =
d(x−xk )
(3.139)
x→xi
dx x=xk
como las funciones de Lagrange deben ser base y valor 1 justo en cada raı́z, se tiene la
siguiente expresión.
1 pn (x)
L(x) = (3.140)
p0n (xk ) x − xk
Por tanto, los pesos pueden ser evaluados por:
Z 1
1 pn (x)
wk = 0 dx (3.141)
pn (xk ) −1 x − xk
Ejemplo:
Calcular los pesos de ponderación para dos puntos (n = 2). El polinomio de Legendre serı́a
p2 (x) = 12 (3x2 − 1), cuyas raı́ces son: x0 = √1 ,
3
x1 = − √13 . Los pesos están dados por:
34 Chapter 3. Derivación e integración numérica
1 1
(3x2 − 1)
Z
1 2
w0 = dx = 1. (3.142)
3( √13 ) −1 x− √1
3
1 1
(3x2 − 1)
Z
1 2
w1 = dx = 1. (3.143)
3(− √13 ) −1 x+ √1
3
x−a t − (−1)
= , (3.145)
b−a 1 − (−1)
de manera que:
1
x =[t(b − a) + a + b]
2
1
dx = (b − a) (3.146)
2
Usando este cambio de variable, podemos escribir la regla de cuadratura para cualquier
intervalo de integración.
Z b n
1 X 1
f (x)dx = (b − a) wk f ( [tk (b − a) + a + b]) (3.147)
a 2 k=0
2
La Ecuación (3.141) aunque es correcta, resulta poco útil para calcular los pesos a alto orden
computacionalmente. Es posible encontrar una versión integrada de dicha expresión usando el
siguiente teorema:
n−1
X an−1 pn (x)pn−1 (y) − pn−1 (x)pn (y)
pk (x)pk (y) = (3.148)
k=0
an x−y
siendo pn (x) = an xn + ... y an > 0
3.14. Integración 35
n−1
X an−1 pn (x)pn−1 (xk )
pk (x)pk (xk ) = (3.149)
k=0
an x − xk
Integrando, tenemos:
Z 1
an−1 pn (x)
1= pn−1 (xk ) dx (3.150)
an −1 x − xk
Por tanto, podemos escribir la Ecuación (3.141) como:
an
wk = (3.151)
an−1 pn−1 (xk )p0n (xk )
an
Un cálculo sencillo muestra que an−1
= 2/n y usando la Ecuación (3.136).
2
wk = , k = 1, ..., n (3.152)
(1 − x2k )[p0n (xk )]2
Esta última expresión permite calcular los pesos usando librerias como Simpy.
d 1
b−a
Z Z
1
I= f ( (t1 (b − a) + a + b), y)dt1 dy (3.154)
c 2 −1 2
Aplicando el cambio de variable nuevamente para la variable y.
1 1
(b − a)(d − c)
Z Z
1 1
I= f ( (t1 (b − a) + a + b), (t2 (d − c) + c + d))dt1 dt2 . (3.155)
4 −1 −1 2 2
Aplicando la regla de cuadratura de n puntos, tenemos:
n n
(b − a)(d − c) X X (n) (n) 1 (n) 1 (n)
I∼
= wi wj f ( (xi (b − a) + a + b), (xj (d − c) + c + d)). (3.156)
4 i=1 j=1
2 2
36 Chapter 3. Derivación e integración numérica
En el caso del cáscaron esférico, los limites de integración son variables. En efecto, x2 =
R1
R2 − y 2 y dA = 2πxdx. El volumen del cáscaron será 0 A(y)dy. En términos de integrales
dobles tenemos:
Z 1 Z √R2 −y2
2
2πxdxdy = π, R = 1. (3.157)
0 0 3
Esto involucra una dificultad adicional para aplicar la regla de cuadrátura, dado que:
q
(n) (n)
b(xi ) = R2 − (xi )2 . (3.158)
Por inspección, usted puede comprobar que para lı́mites variables la cuadratura está dada
por:
n X
X n
d−c 1 (n) 1 (n)
I∼
(n) (n) (n)
= wi (b(xi )−a)wj f ( (xi (b−a)+a+b), (xj (d−c)+c+d)). (3.159)
4 j=1 i=1
2 2
3. (Theoretical) Hacer los pasos intermedios para encontrar la regla de Simpson simple,
Ecuación (3.98).
Z 1
2
e−x dx (3.160)
0
usando la condición que el error debe ser menor a 0.005 en el cálculo (si el número de
puntos (n) es decimal tomar el mayor entero).
√
Z a
a2 − x 2 √
dx = π(R − R2 − a2 ), (3.161)
−a R+x
7. Una forma de generalizar el método de integración del trapecio para una integral doble
de una función f (x, y) consiste en dividir el plano xy en un grilla de cuadrados iguales y
calcular el promedio del valor de la función de cada uno de los 4 vértices de cada cuadrado
pequeño de la grilla. Calcule numéricamente el volumen de una semiesfera [3.5] de radio
R = 1 como sigue:
a) Cree una grilla entre −R y R en el plano xy, donde el número de cuadrados en cada
lado de la grilla sea n. Es decir, la grilla tendrı́a n + 1 puntos en cada eje, y n2
cuadrados pequeños.
b) Para cada cuadrado pequeño calculo el promedio de la función en los cuatro vértices
y multiplique por el área del cuadrado pequeño. Si el punto queda fuera de la esfera
asuma que el valor de la función f (x, y) es cero.
1.0
0.8
0.6
0.4
0.2
0.0
1.00
0.75
0.50
0.25
1.000.75 0.00
0.500.25 0.25
0.000.25 0.50
0.500.75 0.75
1.00 1.00
8. Implemente la regla de doble cuadratura dada por la Ecuación (3.159) para solucionar el
problema del cáscaron esferico.
10. (Sympy) Muestre que el error asociado a la regla de Simpson 3/8 simple está dado por:
b
f (4) (ξ)
Z
3 5 (4)
E= (x − x0 )(x − x1 )(x − x2 )(x − x3 )dx = − h f (ξ). (3.163)
4! a 80
Z 3h
I= (x)(x − h)(x − 2h)(x − 3h)dx (3.164)
0
11. (Theoretical) Muestre que para la regla de Simpson 3/8 compuesta, el error puede ser
acotado por:
(b − a) 4 (4)
|E| ≤ |{z} |f (ξ)|.
h max (3.165)
80
a≤ξ≤b
12. Using the Simpson’s 3/8 rule, calculate the following integral:
Z 1 p
I= 1 + e−x2 dx ≈ 2.6388571169 (3.166)
−1
3.14. Integración 39
13. Evaluar:
Z 2
1
dx, (3.167)
1 x2
10
14. Escribir el polinomio p(x) = 3 + 5x + x2 en la base de Legendre. Rpta: p(x) = 3 0
p (x) +
5p1 (x) + 32 p2 (x)
Z 1 n
X
f (x) = wk f (xk ), (3.168)
−1 k=0
(b) Halle los pesos de ponderación para los primeros 20 polinomios de Legendre.
Z ∞
1
≈ 1.110721 (3.169)
0 x4 +1
Hint: Dividir la integral para tener dos integrales con lı́mites [-1,1] y [0,1].
∞
x3 π4
Z
dx = . (3.170)
0 ex − 1 15
a) Compute this integral using the Gauss-Laguerre quadrature method for n=3 evaluation
points.
b) For this estimation, plot the relative error (r (n) = Iestimated (n)/Iexact ) as a function
of the evaluation points, with n = [2, 3, ..., 10] [3.6].
40 Chapter 3. Derivación e integración numérica
Hint: For the Gauss-Laguerre method, the weights are given by:
xk
wk = (3.171)
(n + 1) [Ln+1 (xk )]2
2
1.000
0.998
0.996
0.994
(n)
0.992
0.990
Z ∞
2
I= f (x)e−x dx (3.172)
−∞
N
I∼
X
= wi f (xi ) (3.173)
i=1
donde los puntos xi son las raı́ces de los polinomios de Hermite dado por la formula de
Rodrigues:
2 dn −ξ2
Hn (ξ) = (−1)n eξ e (3.174)
dξ n
La formula de los pesos de Gaus-Hermite está dada por:
√
2n−1 n! π
wi = 2 (3.175)
n Hn−1 (xi )2
3.14. Integración 41
(a) Encontrar los primeros 20 ceros de los polinomios y los correspondientes pesos de la
cuadratura.
(b) El estado de un oscilador armónico en mecánica cuántica está dado por la funciones
de probabilidad:
1 mω 1/4 −ξ2 /2
ψn (ξ) = √ ( ) e Hn (ξ) (3.176)
2 n! π~
n
p mω p mω
donde ξ = ~
x. Haga ~
= 1, es decir, ξ = x para la aplicación numérica.
Estime numéricamente el valor cuadrático medio de la posición de la partı́cula en el
primer estado exitado (n = 1). El valor exacto de la integral está dado por:
Z ∞
2
< x >= |ψ1 (x)|2 x2 dx = 3/2 (3.177)
−∞
H1 (x) = 2x (3.178)
p
~ωD
2 + ∆(T )2 /2kB T )
Z
1 1 tanh(
= pk dk (3.179)
N0 V 2 −~ωD 2k + ∆(T )2
donde las constantes definen un sistema termodinámico a nivel cuántico y ∆(T ) define
el valor de la banda prohibida (Note que la función no tiene anti-derivada y requiere
un procedimiento completamente numérico). Definamos la temperatura de Debye como
~ωD
TD = kB
= 300 K y N0 V = 0.3. Por inspección, la integral toma la forma:
1
p
tanh( x2 + ∆0 (T )2 TD /2T )
Z
1 1
= p dx (3.180)
N0 V 2 −1 x2 + ∆0 (T )2
Note que ∆0 (T ) = ~ωD ∆(T ) (banda prohibida primada). Existe una temperatura a la
cuál la banda prohibida tiende a cero ∆(T ) → 0, dicha temperatura es la temperatura
crı́tica Tc donde el material se convierte en superconductor. Para estimar Tc de este
material les propongo la siguiente estrategia:
42 Chapter 3. Derivación e integración numérica
(a) Implemente la función a integrar en Python. Esta función debe tener la temperatura
T y el tamaño de la banda prohibida ∆0 (T ) como parámetros.
(b) Cargar los puntos y los pesos de la cuadratura de Gaus-Legendre a orden n = 20.
(c) Debe variar la temperatura del material entre 1 a 20 y hacer el cálculo de la integral.
La temperatura crı́tica será justamente cuando la integral sea aproximadamente igual
a:
1
≈ Integral(T = Tc , ∆0 (Tc ) = 0). (3.181)
N0 V
(d) En ese sentido deberá usar algún criterio de parada del algoritmo. Por ejemplo:
if [Link](I-1/(N0V)) < 1e-3: return Tc. La temperatura crı́tica es: Tc ≈
12.1278 K (Pag 97) [1].
1
≈ Integral(T = t, ∆0 (T ) = delta). (3.182)
N0 V
(b) Guarde los valores de temperatura y banda como: T = t/Tc y ∆(T ) = delta(TD /Tc ).
Este cálculo se debe al cambio de variable en la integral y a la forma de graficar la
banda prohibida.
(c) Dibuje la banda prohibida ∆(T )/kb Tc como función de la temperatura crı́tica
T /Tc . Si guardo correctamente los datos del numeral anterior, deberı́a obtener algo
como (Pag 96) [1]:
1.75
1.50
1.25
(T)/kbTc
1.00
0.75
0.50
0.25
0.00
0.2 0.4 0.6 0.8 1.0
T/Tc
Figure 3.7: Banda prohibida de la fase superconductora de un material con Tc ≈ 12.1278. El
valor en ∆(T = 0), es independiente del material del superconductor.
Este valor no depende del material del que está hecho el superconductor y es uno de
los resultados más hermosos de la fı́sica del siglo XX.
44 Chapter 3. Derivación e integración numérica
Chapter 4
Método de MonteCarlo
Section 4.1
Generación pseudo-aleatoria de números
En general, no es posible generar auténticos números aleatorios por computador. Para obtener
una secuencia aparentemente aleatoria, se utilizan métodos deterministas con altos periodos de
repetición. Los métodos de congruencia lineal están definidos por:
Para obtener un secuencia de números normalizada entre cero y uno (0 ≤ r ≤ 1), se debe
normalizar al modulo (m) la ecuación congruencial.
45
46 Chapter 4. Método de MonteCarlo
x = A + (B − A)r. (4.4)
Por otro lado, es importante garantizar la aleatoriedad de la secuencia, para tal propósito,
se tienen algunas pruebas a la función de distribución de dicha secuencia [3], por ejemplo,
podemos usar el momento de la distribución (P (x)):
N
1 X k∼ 1 k
Z
1 1
xi = x P (x)dx ∼
= + O( √ ) (4.5)
N i=1 0 k+1 N
También se puede estudiar las correlación entre los k-vecinos cercanos, donde k es pequeño:
N
1 X
C(k) = xi xi+k , k = 1, 2, ... (4.6)
N i=1
N Z 1 Z 1
1 X ∼ 1
xi xi+k = dx dyxyP (x, y) = . (4.7)
N i=1 0 0 4
Section 4.2
Integración MonteCarlo
0.34 0.34
0.32 0.32
0.30 0.30
0.28 0.28
C(k)
0.26 0.26
0.24 0.24
0.22 0.22
0.20 0.20
0 5 10 15 20 25 30 0 5 10 15 20 25 30
k-esimo, Mal Generador k-esimo, Generador drand48
Figure 4.1: Correlaciones en los primeros k-vecinos para un mal generador (izquierda) y un
buen generador (drand48) de números aleatorios.
Section 4.3
Ley de grandes números
Sea {xi } un conjunto de puntos muestrales (observaciones o datos simulados por computador)
y el promedio muestral de dicho conjunto.
N
1 X
x̄ = xi . (4.8)
N i=1
Al aumentar el tamaño de la muestra, el promedio muestra converge al valor esperado con
probabilidad i.
Muestral → P oblacional
x̄ → E(x)
R1
De esta manera, el operador integración 0 f (x)dx puede verse como el valor esperado de
E(f (x)) donde x ∼ U(0, 1) tiene una distribución uniforme. De este modo, tomemos una
muestra x1 , x2 , ... ∼ U(0, 1) y evaluamos en la función f (x1 ), f (x2 ), ..., entonces:
N
1 X
→ E(f (x))
f (xi ) |{z} (4.9)
N i=1
N →∞
48 Chapter 4. Método de MonteCarlo
N Z b
1 X 1
lim f (xi ) = f (x)dx. (4.11)
N →∞ N
i=1
b − a a
Otro resultado interesante es que si x es una variable aleatoria con densidad de probabilidad
f y g es una función g : R → R, entonces:
Z ∞ N
X
E(g(x)) = g(x)f (x)dx = g(xi )f (xi ). (4.12)
−∞ i=1
Section 4.4
Método de la transformada inversa
Rx
Sea x una variable aleatoria con densidad de probabilidad f , y sea F (x) = −∞
f (s)ds la función
acumulada de f . Dado que, la función acumulada de probabilidad es monotona creciente resulta
ser inyectiva. De manera que, existe un único valor en el rango tal que:
F −1 (u) = x. (4.13)
proof:
Queremos ver si P (X ≤ x) = F (x), lo que significa que x tiene distribución F . Por definición
de X:
P (X ≤ x) = P (F −1 (U ) ≤ x) (4.14)
4.5. Método de aceptación y rechazo 49
P (X ≤ x) = P (F (F −1 (U )) ≤ F (x))
= P (U ≤ F (x))
= F (x) (4.15)
El último paso se justifica dado que U tiene distribución uniforme U ∼ U(0, 1). El algoritmo
se resume como sigue:
1. Generar un número aleatorio que siga una distribución uniforme U ∼ U(0, 1).
2. Tomar la pre-imagen de U , X = F −1 (U ).
Section 4.5
Método de aceptación y rechazo
En la gran mayoria de los casos es imposible encontrar la función inversa para usar el método
de transformada inversa. En estos casos, se utiliza el método de aceptación y rechazo, el
cual mediante la distribución uniforme de números puede calcular el área bajo la curva de
distribuciones complicadas. Este método consiste se base en los siguientes pasos:
2. Para xi , generamos un yi que siga una distribución uniforme entre 0 y el máximo de f(x).
Section 4.6
Incertidumbre del método de MonteCarlo
N
1 X
x̄ = xi (4.16)
N i=1
50 Chapter 4. Método de MonteCarlo
entonces:
∂ x̄ 1
= (4.17)
∂xi N
Teniendo en cuenta que cada medición es independiente la varianza asociada a la media
muestra es:
N 2 N
X ∂ x̄ X 1 2
V ar(x̄) = δi2 = δ (4.18)
i=1
∂xi i=1
N2 i
δ
V ar(x̄) ∼
p
=√ (4.19)
N
δ es despreciable con el número de eventos simulados, en general se ajusta a 1 para tener
√
una relación exacta con 1/ N .
√
En esta ecuación es importante resaltar que la precisión del Método disminuye con N,
lo cuál debe tenerse en cuenta para cada calculo realizado con esta técnica. En el cálculo del
número aureo usando la sucesión Fibonnaci aunque los puntos no provienen de un proceso
aleatorio, la precisión del método tiene una dependencia similar.
Section 4.7
Ejercicios: Método de MonteCarlo
3. Un test simple para probar la calidad de un generador de eventos es evaluar los momentos
de la distribución de datos, la cual difiere del valor de la distribución uniforme en un orden
de aproximación O( √1N ); esto se debe al error asociado al método de MonteCarlo.
N
1 X k∼ 1 k
Z
1 1
xi = x P (x)dx ∼
= + O( √ ) (4.20)
N i=1 0 k+1 N
4.7. Ejercicios: Método de MonteCarlo 51
0.6 k=1
k=2
k=3
k=4
k=5
0.5 k=6
k=7
k=8
k=9
k = 10
0.4
k-moment value
0.3
0.2
0.1
0.0
Figure 4.2: Primeros k = 10 vecinos del generador Numpy como función del número de eventos
generados.
4. Otro método para probar la calidad de un generador de eventos es evaluar las correlaciones
con los k -vecinos más cercanos, donde k ∼ 30.
N
1 X
C(k) = xi xi+k , (k = 1, 2, 3...) (4.21)
N i=1
a) Implemente un código que estime los coeficientes de correlación para los primeros k=30
vecinos, con N = 104 eventos de la distribución de datos generados por Numpy. Las
correlaciones se muestran en la Figura [4.3].
5. Escriba un código que genere una secuencia uniforme de eventos, contenidas en una esfera
de radio R = 2 como se muestra en la Figura [4.4].
6. Usando la generación de puntos sobre una esfera estime los momentos de inercia de la
esfera respecto a los ejes de rotación Ixx , Iyy , Izz . Los momentos están dados por:
52 Chapter 4. Método de MonteCarlo
Generador Numpy
0.30
0.28
0.26
C(k) 0.24
0.22
0.20
0 5 10 15 20 25 30
k-esimo vecino
Figure 4.3: Correlaciones de los primeros k = 30 vecinos del generador Numpy como función de
k-esimo vecino. Note que el valor debe fluctuar alrededor del valor teórico C(k) = 1/4.
1.0 1.0
0.8
0.5
0.6
0.0
0.4
0.5
0.2
0.0 1.0
0.0 1.0
0.2 0.5
0.4
0.6 0.2 0.0 0.0 0.5 1.0
0.8 0.6 0.4 0.5 0.5 0.0
1.01.0 0.8 1.01.0
Z
Ixx = (y 2 + z 2 )dxdydz
ZV
Iyy = (x2 + z 2 )dxdydz
ZV
Izz = (x2 + y 2 )dxdydz (4.22)
V
4.7. Ejercicios: Método de MonteCarlo 53
N
1 X
Ixx ≈ (y[i]2 + z[i]2 ) (4.23)
N i=1
Z
Ixy = − xydxdydz. (4.24)
V
7. Usando la generación de puntos sobre una esfera estime la siguiente integral para {x2 +
y 2 + z 2 ≤ 1}:
Z Z Z √
x2 +y 2 +z 2
e dxdydz = 4π(e − 2) (4.25)
8. Haga una gráfica entre la precisión (Iestimated /Iexact ) y el número de puntos muestrales,
el cuál debe tener un rango de valores adecuado para ver el comportamiento. ¿Qué
dependecia se observa?
Γ(α + β) α−1
f (x; α, β) = x (1 − x)β−1 , 0≤x≤1 (4.26)
Γ(α)Γ(β)
donde Γ(n) = (n − 1)!. Para f(x; 2,4), halle el área bajo la curva usando el método de
aceptación y rechazo con una incertidumbre del 1%.
Z 1 Z 1 8
X 2
−7
··· 2 xi dx1 dx2 ...dx8 , (4.27)
0 0 i=1
25
tiene el valor exacto 192
, usando el método de MonteCarlo estime esta integral con tres
cifras de precisión.
54 Chapter 4. Método de MonteCarlo
Chapter 5
Álgebra lineal
Section 5.1
Método de Jacobi
El método de Jacobi es usado para resolver sistemas lineales del tipo Ax = b, el cuál construye
una sucesión descomponiendo la matriz A.
A=D+R (5.1)
Dx = Rx + b
x = D−1 (b − Rx) (5.2)
1 X
xk+1
i = bi − k
aij xj (5.3)
aii i6=j
A nivel iterativo se necesitan todos los valores del vector x en el paso k para calcular el valor
del vector en k + 1.
55
56 Chapter 5. Álgebra lineal
3x − y − z = 1
−x + 3y + z = 3
2x + y + 4z = 7 (5.4)
A nivel computacional para detener el método se calcula una métrica entre el vector solución
y el vector calculado. Se define el residuo como:
v
u n
uX
Re = ||x − y|| = t (xi − yi )2 (5.9)
i=1
Section 5.2
Norma matricial
Una norma matricial sobre el conjunto de las matrices n × n (Mn (R)) es una aplicación:
||.|| : Mn (R) −→ R
a) ||A|| ≥ 0, ∀A ∈ Mn (R).
n
X
||A||1 = max
|{z} |aij | (5.11)
1≤j≤n i=1
n
X
||A||∞ = max
|{z} |aij | (5.12)
1≤i≤n j=1
Recordar que los valores propios de una matriz A son las raı́ces de la ecuación caracterı́stica
det(A − λI) = 0. Note que, si el valor propio es un número complejo, digamos λ = α + iβ, con
p
α, β ∈ R, entonces |λ| = α2 + β 2 .
||Ax||
||A|| = max (5.18)
|{z} ||x||
x6=0
ek = x(k) − x (5.22)
por lo que podemos ver el error en el paso k como la sucesión matricial por el error inicial
e = Tk e0 . Debido al teorema anterior, ek = 0 solo sı́ limk→∞ Tk = 0 y eso solo es posible si
k
ρ(T ) < 1.
Section 5.3
Método de Gauss-Seidel
EL método de Gauss-Seidel se basa en el método de Jacobi con la única diferencia que cada
variable se actualiza con cada iteración interna. Usando el ejemplo anterior se evidencia como
funciona:
1+y+z
x =
3
3+x−z
y =
3
7 − 2x − y
z =
4
(5.24)
Si la iteración empieza en el vector nulo tenemos que los valores en la siguiente iteración
son:
60 Chapter 5. Álgebra lineal
1+0+0
x = = 1/3
3
3 + 1/3 + 0
y = = 10/9
3
7 − 2/3 − 10/9
z = = 47/36
4
(5.25)
1 + yk + zk
xk+1 =
3
3 + xk+1 − z k
y k+1 =
3
7 − 2xk+1 − y k+1
z k+1 =
4
(5.26)
Section 5.4
Método de relajación sucesiva
• No modificado w = 1.
• Divergente w > 2.
5.4. Método de relajación sucesiva 61
Encontrar el valor adecuado del peso dada una discretización es un asunto complicado del
álgebra matricial numérica. Por ejemplo, para una discretización cuadrada de N puntos, el
peso optimo está dado por:
2
w= (5.28)
1 + Nπ
Ejemplo:
4x1 − x2 = 0
−x1 + 4x2 − x3 = 6
−x2 + 4x3 = 2 (5.29)
2 + x02 2+0
x11 = = = 0.5
4 4
6 + x11 + x03 6 + 0.5 + 0
x12 = = = 1.625
4 4
2 + x12 2 + 1.625
x13 = = = 0.906 (5.30)
4 4
Ahora usemos sobre-relajación (para mostrar como funciona).
2 + x02 2+0
x11 = = = 0.5
4 4
x11 = (1.25)(0.5) + (1 − 1.25)(0) = 0.625
6 + x11 + x03 6 + 0.625 + 0
x12 = = = 1.656
4 4
x12 = (1.25)(1.656) + (1 − 1.25)(0) = 2.070
2 + x12 2 + 2.070
x13 = = = 1.017
4 4
x13 = (1.25)(1.017) + (1 − 1.25)(0) = 1.271 (5.31)
rutinas para verificar la potencial del método de relajación sucesiva. Adicionalmente, es posible
imponer un criterio de convergencia del método:
j
xi − xj−1
i
< (5.32)
xji
donde es arbitrariamente pequeño. Podemos pensar en la siguiente factorización para la
implementación de la relajación sucesiva en ecuaciones diferenciales parciales:
uli,j = ul−1
i,j + wri,j (5.34)
Section 5.5
Método generalizado de Newton-Raphson
f1 (x, y) = 0
f2 (x, y) = 0 (5.35)
Suponemos que las funciones son diferenciables, de modo que podemos expandir en series
de Taylor alrededor de (x0 , y0 ) a primer orden. Tenemos:
!
∂f1 ∂f1
∂x ∂y
J= ∂f2 ∂f2
(5.38)
∂x ∂y
Section 5.6
Método del descenso gradiente
~ x):
Vamos a pensar el problema de sistemas de ecuaciones como un vector de funciones. Sea G(~
f1 (x1 , x2 , ..., xn )
f (x , x , ..., x )
2 1 2 n
~ x) =
.
G(~ (5.41)
.
.
fn (x1 , x2 , ..., xn )
Este vector tendrá una norma asociada. Se define una función a minimizar usando dicha
norma.
1 ~T
F~ (~x) = G ~ x)
(~x)G(~ (5.42)
2
La solución al sistema de ecuaciones estará definida por:
∂fi
Jij = (5.45)
∂xj
El jacobiano es la matriz de derivadas parciales de primer orden de las funciones del vector
~ x). Suponemos F~ : Rn −→ Rm y que es diferenciable, entonces x ∈ Rn y F~ (~x) ∈ Rm .
G(~
Finalmente, el descenso del gradiente sobre una función vectorial está dada por:
~ xn ).
~xn+1 = ~xn − γJT (~xn ) · G(~ (5.46)
Note que la función gradiente es el transpuesto del Jacobiano, debido a que el gradiente es
un vector fila definido sobre el complemento ortogonal; mientras que el vector de soluciones es
un vector columna.
Section 5.7
Propagacion del error en una red neuronal
Comencemos por las definiciones. Tenemos que el vector δ l está definido como:
∂C
δil = ,
∂zil
donde z l se define más adelante. Sea al los valores de las funciones de activación en la
l-ésima capa. Tenemos que la función de costo es C = C(aL ), ya que esta solo depende de la
función de activación en la última capa. Adicionalmente, sea z l el input de la capa l. Siendo f
la función de activación, tenemos que
al = f l (z l ), z l = W l f l−1 (z l−1 ).
Utilizamos el vector de derivadas como la derivada con respecto al vector. Esto es:
∂C ∂C
= .
∂z l i ∂zil
Usando la regla de la cadena, tenemos que
∂C ∂C ∂aL
= .
∂ziL ∂aL ∂ziL
5.7. Propagacion del error en una red neuronal 65
∂C ∂aL
δL = .
∂aL ∂z L
Para las demás capas, nótese que z l−1 solo afecta a C a través de z l . Esto quiere decir que
tenemos
∂C X ∂C ∂zjl
δil−1 = l−1 = .
∂zi j
∂zjl ∂zil−1
Ahora, tenemos que los al son, en general, vectores. alk serı́a la función de activación de
l
la k-ésima neurona de la capa l. Similarmente, tenemos que Wjk serı́a el peso que la j-ésima
neurona de la capa l le asigna a la k-ésima salida de la capa l − 1. Por ende, tenemos que
X
l l−1
zjl = Wjk ak .
k
∂zjl X
l ∂al−1
k
= Wjk .
∂zil−1 k
∂zil−1
Reemplazando en nuestra expresión para δil :
X X ∂C l−1
l ∂ak
δil−1 = W .
j k
∂zjl jk ∂zil−1
l−1
l ∂ak
XX
δil−1 = l
δj Wjk l−1 .
j k
∂zi
Generalizando la notación de derivadas de vectores introduciendo antes, definimos la
derivada de un vector con respecto a otro como
∂al−1 ∂al−1
k
= .
∂zil−1 ∂z l−1 ki
Representando δ l como una matriz y reemplazando con esta definición, tenemos que
∂al−1
XX
δil−1 = (δ l l
)j1 Wjk .
j k
∂z l−1 ki
66 Chapter 5. Álgebra lineal
∂al−1
XX
δil−1 = l T
((δ ) l
)1j Wjk .
j k
∂z l−1 ki
l−1
l−1 l T l ∂a
δ = (δ ) W .
∂z l−1
Section 5.8
Ejercicios: Álgebra lineal
2. En Python, implemente una clase para solucionar sistemas lineales. El constructor de clase
deber recibir la matriz y el vector independiente. El primer método de clase resuelve el
sistema usando el método de Jacobi, y el segundo método resuelve el sistema usando el
método de Gaus-Seidel. En la pantalla debe aparecer el número de iteraciones necesarias
para resolver el problema.
1 0 0 4 −2 1
AB =
5 1 0 0 3 7
(5.47)
−2 3 1 0 0 2
4. (Theoretical) Muestre con detalle que la sustitución hacia adelante se expresa como:
i−1
X
x i = bi − Aij xj (5.48)
j=0
5. (Theoretical) Muestre con detalle que la sustitución hacia atrás se expresa como:
Pn
bi − j=i+1 Aij xj
xi = (5.49)
Aii
5.8. Ejercicios: Álgebra lineal 67
6x1 − 2cos(x2 x3 ) − 1 = 0,
q
9x2 + x21 + sin(x3 ) + 1.06 + 0.9 = 0,
60x3 + 3e−x1 x2 + 10π − 3 = 0. (5.51)
7. (Machine Learning application) La 3-esfera está definida por todos los puntos
equidistantes de un punto dado en R4 , generalmente definida por:
Dado que no podemos visualizar la 3-esfera, se usa el método de descenso del gradiente
para encontrar sistemáticamente los puntos que pertenecen a S 3 . Posteriormente, se hace
una proyección sobre R3 . Para hacer el mapeo de S 3 se sugiere la siguiente estrategia:
a) Modifique el código de la clase para que S 3 sea el único elemento del vector de
funciones.
e) Corra el algoritmo de aprendizaje para que el vector aleatorio se ubique en algún punto
de S 3 . El código aprende a mover el punto minimizando la métrica.
h) Con los puntos obtenidos de S 3 , dibuje la proyección espacial (X, Y, Z), es decir, las
primeras tres columnas. ¿Qué figura geométrica resulta?
Hint: Primero haga el caso de la 2-esfera para entender el problema. Note que la
proyección de la 2-esfera en el plano es el circulo.
Los siguientes son resultados teóricos que deben deducir y justificar fı́sicamente.
r1 w1 + v1x sen(θ) + v1y cos(θ) = −r2 w2 + v2x sen(θ) + v2y cos(θ) (5.58)
sinθ cosθ −senθ −cosθ 1 1 v1x 0
0 M 0 1 0 0 v1y 0
M 0 1 0 0 0 v2x M u1
−cosθ senθ cosθ −senθ 0 0 ·
=
v2y eu1 cosθ
senθ cosθ
0 0 −k 0
r1 ω1 u1 senθ
0 0 senθ cosθ 0 k r2 ω2 0
70 Chapter 5. Álgebra lineal
Parámetros
m1 3 kg
m2 1 kg
M 3
r1 0.1 m
r2 0.2 m
k 1/2
e 0.8
~u1 2î m/s
Table 5.1: Parámetros del cálculo. Recuerde que el momento de inercia de un sólido respecto
a su centro de masas es I = kmr2 .
Variar el ángulo de incidencia (0 < θ < π/2) para describir algunos estados finales
después del choque. Debe verificar que los principios de conservación se cumplan en este
fenómeno, esto significa que el momento lineal y angular se mantengan constantes. La
energı́a no se conserva porque hay restitución (e) en la colisión, si todo va bien, graficar
las seis variables cinemáticas de los discos para entender como se mueven los cuerpos
después del proceso de ”scattering”. Serı́a muy interesante realizar la animación de este
fenómeno, sin embargo, las dificultades para animar la traslación + rotación de los discos
son enormes.
Para que tengan una guı́a de los resultados, las graficas de este problema son:
1.00
6.3 Momento X inicial Momento Y inicial
Momento X final 0.75 Momento Y final
6.2
0.50
6.1 0.25
px[kgm/s]
py[kgm/s]
6.0 0.00
5.9 0.25
0.50
5.8
0.75
5.7
1.00
0 20 40 60 80 0 20 40 60 80
Figure 5.3: Conservación del momento lineal total antes y después del choque.
0.2
Lz[kgm2/s]
0.3
0.4
0.5
0.6
0 20 40 60 80
Figure 5.4: Conservación del momento angular total antes y después del choque.
N
X
I= mk ((rk · rk )E − rk ⊗ rk ) (5.59)
k=1
a) Muestre que el tensor de inercia para esta estrella está dado por:
4 0 −1
1.1163 × 10 2.0524 × 10 7.4286 × 10
0 3
I=
2.0524 × 10 8.9520 × 10 −2.3483 × 103
−1 3 3
7.4286 × 10 −2.3483 × 10 4.2341 × 10
0 1
2
2
[rad/s]
5
0 20 40 60 80
v1x v2x
1.75 v1y 2.5 v2y
1.50 2.0
1.25 1.5
v1[m/s]
v2[m/s]
1.00 1.0
0.75 0.5
0.50 0.0
0.25 0.5
0.00 1.0
0 20 40 60 80 0 20 40 60 80
Figure 5.5: Variables cinemáticas los dos discos después del choque.
c) Haga una gráfica en 3D de las estrella, los auto-vectores de la estrella y las estrella
sobre sus ejes principales. (ver Figura [5.6])
3
2
1
Z 0
1
3
2 2
1
0
3 1 X
3 2 2
1 0 1 2 3 3
Y
Figure 5.6: Estrella naciente: Puntos originales (azul), los ejes principales del cuerpo (rojo) y
puntos sobre los ejes principales (verde.)
5.8. Ejercicios: Álgebra lineal 73
10. Imagine que uno de los espejos del telescopio espacial James Webb tiene una forma
cuadrada como ilustra la Figura [5.7]. Los vértices están ubicados en las siguientes
posiciones con sus respectivas temperaturas:
T= 1 K
(-1,1) (1,1)
T= 2 K T= 1 K
T= 2 K
P=(0,0.5) P=(0,0.5)
T = 0.3 K
T = 0.5 K T = 0.3 K
(-1,-1) (1,-1)
T = 0.5 K
Figure 5.7: Esquema del espejo del telescopio espacial. Los vértices del cuadrado registran las
temperaturas en grados kelvin. En la parte derecha, se ilustra una rotación para minimizar la
temperatura en el punto P = (0, 0.5).
a) Proponga que la temperatura en la región del espejo está dada por una aproximación
bilineal:
1 X
1
T (x, y) ∼
X
= aij xi y j (5.61)
i=0 j=0
d) Verifique que la temperatura en los vértices cumpla con las condiciones de frontera.
1.00
0.75
0.50 2.00
1.75
0.25 1.50
T(x,y)
1.25
1.00
0.00 0.75
0.50
0.25 0.25
1.0
0.50 0.5
1.0 0.0
0.75 0.5
0.0 0.5 y
x 0.5
1.0 1.0
1.00
1.0 0.5 0.0 0.5 1.0
f) Estime la temperatura en el punto donde se daño el sensor: T (0, 0.5) ≈ 1.225 K. (Si
llegas hasta este punto tienes 3.0)
5.8. Ejercicios: Álgebra lineal 75
g) Para el proceso de minimización, defina una función que rote el vector de los vértices
del espejo.
! ! !
Pxi (θ) cos(θ) −sin(θ) Pxi
= (5.62)
Pyi (θ) sin(θ) cos(θ) Pyi
h) Una vez rote los cuatro vértices, realice nuevamente la interpolación usando los mismos
valores de temperatura de los vértices y calcule la temperatura en el punto donde se
daño el sensor.
11. Descargue los datos del generador parabólico ubicados en: [Link]
asegura4488/DataBase/blob/main/MetodosComputacionales/[Link].
b) Mida el score del clasificador durante el entrenamiento (Training sample), que significa
medir cuál es el porcentaje de eventos que se clasifican bien del total (My result is
around 98% using k = 3, which is ”quite good”).
d) Usando el código del generador parabólico genere una muestra nueva de 1000 eventos
(Testing sample) y mida el score de la muestra de prueba. Esta sobre-entrenado
(overfitting) su algoritmo? Justifique.
Este video podrı́a ayudar: [Link]
76 Chapter 5. Álgebra lineal
12. Modifique el código sobre redes neuronales para entrenar una red neuronal sencilla. La
red neuronal debe comportarse como una compuerta XNOR. Dicha compuerta tiene la
siguiente tabla de verdad:
A B Output
0 0 1
1 0 0
0 1 0
1 1 1
La red debe tener la topologı́a más simple posible (un par de neuronas en un capa o dos
neuronas en dos capas) y entrenada usando solo números aleatorios.
Chapter 6
Probabilidad
Section 6.1
Definición de probabilidad
Un evento en probabilidad está definido por el concepto de conjunto, el conjunto que contiene
a todos los conjuntos se denomina espacio muestral Ω. Tomemos un conjunto genérico A
del espacio muestral, este conjunto debe pertenecer a una estructura denominada σ−álgebra;
para ser considerado un evento válido. El concepto de σ−álgebra aparece en una rama de la
matemática denominada teorı́a de la medida.
77
78 Chapter 6. Probabilidad
• ∅ ∈ F.
• A ⊂ F, entonces Ac ⊂ F.
De esta manera, (Ω, F) se denomina un espacio medible. Por ejemplo, tomemos el siguiente
espacio medible:
Ω = {0, 1, 2}
F = {∅, Ω, {0, 1}, {2}} (6.1)
El lector se puede convencer que se cumplen todas las condiciones de espacio medible. Dada
la definición de espacio medible, podemos definir lo que es una medida de probabilidad. Sea P
una aplicación que mapea desde la σ−álgebra a los números reales R.
P : F −→ R. (6.2)
A −→ P(A) (6.3)
En 1933, Kolmogórov formula el sistema de axiomas para que los espacios medibles sean
espacios de probabilidad. Los axiomas son los siguientes:
1. P(Ω) = 1
2. ∀A ∈ F, P(A) ≥ 0
Pn
3. P(∪∞
i Ai ) = i=1 P(Ai ), si Ai ∩ Aj = ∅ ∀i 6= j.
Para contestar estas preguntas, se requiere establecer la regla de cálculo en esos espacios
de probabilidad. Esencialmente, la cardinalidad de un conjunto es una medida del número de
elementos de un conjunto y permite calcular la probabilidad de un evento A en un espacio
muestral Ω. En particular, cuando los resultados de un evento aleatorio son equiprobables se
tiene la regla de Laplace. La regla de Laplace establece que la probabillidad del evento A, es
la cardinalidad del evento dividido entre el cardinal del espacio muestral completo:
|A|
P(A) = . (6.4)
|Ω|
La regla de Laplace también se cumplira en la composición de experimentos aleatorios
independientes con resultados equiprobables. Por ejemplo, el lanzamiento de una moneda
equilibrada, seguido del lanzamiento de un dado equilibrado.
Ejemplo 1: En una ciudad el 30% de sus ciudadanos leen sobre ciencia, el 60% leen sobre
arte, y el 80% uno de los dos. ¿Cuál es la probabilidad de que una persona elegida al azar lea
ambos?
Nombremos A = Leer sobre ciencia B = Leer sobre arte. Entonces P(A) = 0.3 y P(B) = 0.6.
Leer uno o el otro es P(A ∪ B) = 0.8. Usamos:
f (A)
fr (A) = (6.6)
N
80 Chapter 6. Probabilidad
Section 6.2
Ejercicios: Axiomas de la probabilidad
2. Sea Ω = {1, 2}, F = σ(Ω) y P una aplicación definida sobre F dada por:
0 si A = {∅}
1/3 si A = {1}
P(A) = (6.8)
2/3 si A = {2}
1 si A = {1, 2}
1
Muestre detalladamente que P es una medida de probabilidad.
a) P(∅) = 0.
b) P(Ac ) = 1 − P(A).
c) Si dos eventos A y B son tales que A ⊂ B, entonces P(B) = P(A) + P(B − A).
P(A ∩ B)
P(A/B) := (6.10)
P(B)
Esto puede interpretarse siguiendo la noción de cardinalidad. Dado que ya ocurrió B, el
espacio completo de redujo al conjunto B y el numerador indica el cardinalidad del conjunto
donde ocurre A y B a la vez. Note que es posible, dada la probabilidad condicional, calcular
la probabilidad de la intersección.
A1 , A2 , ..., An ⊆ Ω, (6.12)
a) Ω = A1 ∪ A2 ∪ ... ∪ An
b) Ai ∩ Aj = ∅, i 6= j
n
X
P(B) = P(B/Ai )P(Ai ). (6.13)
i=1
donde P(B/Ai ) es la probabilidad del suceso B restringido a cada uno de los elementos de
la partición y P (Ai ) es la probabilidad de que ocurra ese elemento de la partición.
Identificamos las cantidades P(H) = 15/35, P(M ) = 20/35. Note que la probabilidad
condicional de que lleve gafas dado que es hombre es: P(G/H) = 5/15 y la probabilidad
condicional de que lleve gafas dado que es mujer es: P(G/M ) = 8/20. La probabilidad total
está dada por:
Identificamos las cantidades P(H) = 15/35, P(M ) = 20/35. Note que la probabilidad
condicional de que no lleve gafas dado que es hombre es: P(Ḡ/H) = 10/15 y la probabilidad
condicional de que no lleve gafas dado que es mujer es: P(Ḡ/M ) = 12/20. La probabilidad
total está dada por:
1. Obtener 3 caras.
Identificamos las probabilidades de obtener cara o cruz, P(c) = P(x) = 1/2
respectivamente. En el caso, P(ccc) = P(c) · P(c) · P(c) = (1/2)(1/2)(1/2) = 1/8, dado
que el lanzamiento de cada moneda es independiente.
Este problema también se puede solucionar usando combinaciones sin repetición dado que
no importa el orden.
2 2
3 1 1 3! 1 1
P(A) = = = 3/8. (6.17)
2 2 2 (3 − 2)!2! 2 2
Formula que resulta más útil en los problemas donde el conteo no es sencillo de calcular
usando el diagrama de árbol.
84 Chapter 6. Probabilidad
Calculemos las probabilidades de la primera bola: la probabilidad de que la primera bola sea
negra es: P(N1 ) = 3/7 y la probabilidad de que la primera sea blanca es: P(B1 ) = 4/7. Notar
que si la primera bola es negra, en la urna B quedan 6 bolas negras y 3 blancas; de este modo
la probabilidad condicional de obtener una bola negra y una bola blanca es P(N2 /N1 ) = 6/9 y
P(B2 /N1 ) = 3/9. Si por el contrario, la primera bola es blanca, en la urna B quedan 5 bolas
negras y 4 blancas; de este modo la probabilidad condicional de obtener una bola negra y una
bola blanca es P(N2 /B1 ) = 5/9 y P(B2 /B1 ) = 4/9. Lo que conduce a la regla de probabilidad
total:
Section 6.3
Ejercicios: Probabilidad condicional y total
1. En una conferencia hay 1000 participantes distribuidos del siguiente modo: 185 hombres
usan gafas, 415 hombres no usan gafas, 115 mujeres que usan gafas. Determine la
probabilidad de:
3. Tengo una bolsa con dos dulces de limón y tres de fresa. Si me como un dulce y después
otro, ¿cuál es la probabilidad de que ambos hayan sido de fresa. P(F ∩ F ) = 3/10
Section 6.4
Teorema de Bayes
El teorema de Bayes responde la pregunta inversa de la probabilidad total. Dado que ya ocurrió
el evento B, este teorema establece la regla para calcular la probabilidad de que ocurra el i-ésimo
elemento de la partición.
86 Chapter 6. Probabilidad
P(B/Ai )P(Ai )
P(Ai /B) =
P(B)
P(B/Ai )P(Ai )
= Pn (6.20)
i=1 P(B/Ai )P(Ai )
a) Si un estudiante es elegido al azar y es mujer, ¿qué probabilidad habrá de que sea estudiante
de matemáticas?
Identificamos las cantidades: P(M ate) = 0.2, P(Geo) = 0.3, P(F isi) = 0.5. Adicionalmente,
tenemos las probabilidades condicionales de ser mujer. P(M/M ate) = 0.3, P(M/Geo) = 0.5,
P(M/F isi) = 0.45.
Entonces:
P(M/M ate)P(M ate) (0.3)(0.2)
P(M ate/M ) = = = 4/29 ≈ 0.14 (6.23)
P(M ) 0.435
b) Si un estudiante es elegido al azar y es hombre, ¿qué probabilidad habrá de que sea estudiante
de Matemáticas?
6.5. Ejercicios: Teorema de Bayes 87
Identificamos las cantidades: P(M ate) = 0.2, P(Geo) = 0.3, P(F isi) = 0.5. Adicionalmente,
tenemos las probabilidades condicionales de ser hombre. P(H/M ate) = 0.7, P(H/Geo) =
0.5, P(H/F isi) = 0.55.
Entonces:
P(H/M ate)P(M ate) (0.7)(0.2)
P(M ate/H) = = = 28/113 ≈ 0.25 (6.26)
P(H) 0.565
Section 6.5
Ejercicios: Teorema de Bayes
1. Un médico ha observado que el 40% de sus pacientes fuma. De este 40% el 75% son
hombres. Entre los pacientes que no fuman, el 60% son mujeres. Si se selecciona un
paciente al azar:
L(x/λi )Π(λi )
P(λi /x) = P i, j = 1, 2, 3, 4 (6.28)
∀j L(x/λj )Π(λj )
Section 6.6
Técnicas de conteo
Dado que es necesario contar el número de elementos asociados a conjuntos finitos, necesitamos
los axiomas fundamentales de conteo y algunas herramientas de combinatoria. Los axiomas
fundamentales de conteo son los siguientes:
n!
Vrn = (6.29)
(n − r)!
Variaciones con repeticion:
Vrn = nr (6.30)
P n = n! (6.31)
n!
Pnn1 ,n2 ,...,n2 = (6.32)
n1 !n2 !...nn !
Por otro lado, cuando no importa el orden de las configuraciones:
n n!
Crn = = (6.33)
r r!(n − r)!
Combinaciones con repetición:
n+r−1 (n + r − 1)!
Crn = = (6.34)
r r!(n − 1)!
90 Chapter 6. Probabilidad
Section 6.7
Ejercicios: Técnicas de conteo
1. Carlos, Manuel, Sandra correrán los 100 metros planos. ¿De cuántas formas puede quedar
el podio de primer y segundo lugar? Solo competirán ellos tres. R:6
2. ¿De cuántas formas se puede preparar una ensalada de frutas con solo 2 ingredientes, si
se cuenta con plátano, manzana y uva? R:3
3. ¿De cuantas formas pueden hacer cola 5 amigos para entrar al cine? R:120
4. ¿De cuántas formas puede un juez otorgar el primero, segundo y tercer premio en un
concurso que tiene 8 participantes R:336
6. Eduardo tiene 7 Libros, ¿De cuántas maneras podrá acomodar cinco de ellos de un
estante? R:2520
7. En un salón de 10 alumnos, ¿de cuántas maneras se puede formar un comité formado por
2 de ellos? R:45
8. ¿Cuántas palabras diferentes se puede formar con las letras de la palabra REMEMBER?
R:1680
10. Con 4 frutas diferentes, ¿cuántos jugos surtidos se pueden preparar?. Un jugo surtido se
debe preparar con al menos 2 frutas. R:11
12. En un campeonato compiten 8 equipos ¿de cuántas maneras diferentes se podrı́an ganar
los premios de campeón y sub-campeón? R:56
13. ¿Cuántos números de 3 cifras distintas se pueden formar con los dı́gitos del 1 al 7? R:210
14. ¿Cuántos números de 3 cifras se pueden formar con los dı́gitos del 1 al 7? R:343
16. ¿Cuántas placas diferentes se pueden hacer con 3 letras y 3 dı́gitos? R:17576000
17. n Personar van a jugar cartas alrededor de una mesa, ¿de cuántas maneras diferentes se
pueden sentar? R:(n − 1)!
19. En un almacén venden 6 diferentes sabores de gaseosas, ¿de cuántas formas se pueden
seleccionar 3 gaseosas?. ¿De cuántas formas diferentes se pueden seleccionar 3 gaseosas?
R:56, R:20
21. Calcular la probabilidad de ganar el Baloto comprando un solo billete. R:7.1511 × 10−8
23. Se tienen 9 llaves: 3 rojas, 3 azules y 3 verdes. Si elegimos 4, ¿de cuántas formas se
pueden distribuir los colores? R:12
Section 6.8
Ejercicios: Generales de probabilidad
3. En una cierta ciudad el 60% de los propietarios están suscritos al diario y el 80% al cable.
Adicionalmente, el 50% están suscritos a ambos. Si un propietario es elegido al azar:
(a) ¿Cuál es la probabilidad que esté suscrito a uno de los dos servicios? P(A∪B) = 0.9.
(b) ¿Cuál es la probabilidad que esté suscrito al diario o al cable, pero no a ambos
servicios? P((A ∩ B c ) ∪ (B ∩ Ac )) = 0.4.
1.0
0.8
Pn 0.6
0.4
0.2
0.0
0 10 20 30 40 50 60 70 80
Personas
Figure 6.1: Probabilidad P(n ≤ 80) de que tengan una edad diferente.
9. En el ejercicio anterior, imagine que las monedas están truncadas de tal manera que la
probabilidad de que la moneda 1 sea cara es p1 y que sea sello es 1−p1 . Usando el árbol de
probabilidad, ¿cuál es la expresión de la probabilidad de obtener dos caras y dos sellos de
este evento? Si el truncamiento de las monedas 1 y 2 puede variar como: 0.1 < p1 < 0.9 y
0.1 < p2 < 0.5, use el árbol de probabilidad para graficar la superficie de probabilidad del
evento A. ¿En qué punto la probabilidad es mı́nima y máxima, y cuáles son sus valores?
0.44
0.42
0.40
0.38
0.36
0.34
0.32
0.30
0.10
0.15
0.20
0.25
0.30
0.35
p1
0.40
0.45
0.50
0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1
p2
11. Si se seleccionan al azar 3 libros de un estante que contiene 5 novelas, 3 libros de poemas
y un diccionario, ¿cuál es la probabilidad de que:
Section 6.9
Distribuciones discretas de probabilidad
Necesitamos una expresión que nos permita representar todas las probabilidades de una variable
aleatoria X, esta función se representa por f (x) y tiene la siguiente connotación:
f (x) ≥ 0
X
f (x) = 1
x
P(X = x) = f (x) (6.37)
x 0 1 3
P(X = x) 1/3 1/2 1/6
Definición 2. Sea X una variable aleatoria con distribución de probabilidad f (x). La media o
valor esperado de X es:
X
µ̂ = E(X) = xf (x) (6.38)
x
2
X
µ̂ = xi f (xi ) = x0 f (x0 ) + x1 f (x1 ) + x2 f (x2 ) = 0(1/3) + 1(1/2) + 3(1/6) = 1 (6.39)
i=0
E(c) = c
E(cX) = cE(X)
E(c + X) = c + E(X)
E(X + Y ) = E(X) + E(Y ) (6.40)
donde c es constante.
Definición 3. Sea X una variable aleatoria con distribución de probabilidad f (x). La varianza
de X es:
X
σˆ2 = V ar(X) = (x − E(x))2 f (x). (6.41)
x
96 Chapter 6. Probabilidad
Esto es una medida de la dispersión en los datos. Se tienen algunos resultados útiles para
la varianza de una variable aleatoria.
V ar(c) = 0
V ar(cX) = c2 V ar(X)
V ar(X + c) = V ar(X)
V ar(X + Y ) = V ar(X) + V ar(Y ), X, Y independientes (6.42)
6.9.1 Covarianza
X
σ̂xy = Cov(X, Y ) = (x − E(x))(y − E(y))f (x, y). (6.43)
x,y
Cov(aX, bY ) = abCov(X, Y )
Cov(X, X) = V ar(X)
Cov(X, Y ) = E(XY ) − E(X)E(Y ) (6.46)
6.9.2 Correlación
La covarianza nos indicar el nivel de asociación linea que existe entre las variables, sin embargo,
los valores dependen de las unidades en que se midan X y Y . En ese sentido, podemos definir
un estimador independiente de unidades denominado coeficiente de correlación. El coeficiente
de correlación de Pearson está dado por:
Cov(X, Y )
ρ= . (6.47)
σX σY
P (X = x) = px (1 − p)1−x , x = 0, 1 (6.48)
Se puede demostrar que el valor medio está dado por E(X) = p.
n
X
Xi ∼ Bin(n, p). (6.50)
i
98 Chapter 6. Probabilidad
Se puede demostrar que el valor medio está dado por E(X) = np.
e−λ λk
P (X = k) = , k = 0, 1, ... (6.51)
k!
donde k es el número de ocurrencias del suceso.
Se puede demostrar que el valor medio está dado por E(X) = λ.
Section 6.10
Ejercicios: Distribuciones discretas de probabilidad
2. ¿Cuál es valor esperado del experimento de lanzar dos dados y sumar sus resultados?
Ans: µ̂ = 7.0
7 3
2−x x
f (x) = 10
(6.52)
2
x 0 1 2
P(X = x) 7/15 7/15 1/15
4. Una caja cuántica tiene 3 electrones, 2 protones y 3 neutrones. Se selecciona una muestra
aleatoria de 4 partı́culas. Si x es el número de electrones e y es el número de protones.
6.11. Distribuciones continuas de probabilidad 99
3
2 3
x y 4−x−y
f (x, y) = 8
(6.53)
4
Section 6.11
Distribuciones continuas de probabilidad
Definición 6. Sea X una variable aleatoria con distribución de probabilidad f (x). La media o
valor esperado de X es:
Z ∞
µ̂ = E(X) = xf (x)dx (6.55)
−∞
1 1 x−µ 2
f (x, µ, σ) = √ e− 2 ( σ
)
, (6.56)
2πσ 2
100 Chapter 6. Probabilidad
6.11.2 Distribución χ2
Si tenemos Z1 , Z2 , ..., Zk variables aleatorias con Zi ∼ N (0, 1) para i = 1, 2, ..., k, entonces la
variables aleatoria:
k
X
Zi2 ∼ χ2 (k), (6.57)
i=1
( 21 )k k −1 −x/2
χ2 (x, k) = x2 e . (6.58)
Γ( k2 )
Con x > 0 y Γ es la función gamma.
X1
Xn = q (6.59)
X2
n
Γ((ν + 1)/2)
f (x, ν) = √ (1 + x2 /ν)−(ν+1)/2 , (6.60)
πνΓ(ν/2)
donde ν ∈ R+ es el número de grados de libertad y Γ es la función gamma.
Section 6.12
Ejercicios: Distribuciones continuas de probabilidad
(
2
3
(x + 2y) 0 ≤ x ≤ 1, 0 ≤ y ≤ 1.
f (x, y) = (6.61)
0 otro caso
11
d) E(y) = 18
(
x2
3
si −1 ≤ x ≤ 2
f (x) = (6.62)
0 en otro caso
3. Una variable aleatoria continua X que puede asumir valores entre x = 2 y x = 3 tiene
una función de densidad f (x) = 1/2.
(
e−x si x>0
f (x) = (6.63)
0 en otro caso
Z ∞
µ̂g(X) = g(x)f (x)dx (6.64)
−∞
Section 6.13
Procesos de Markov
Esto significa que la probabilidad de que la variable aleatoria tome el valor xn+1 , dado que
el proceso ha pasado por los pasos anteriores x0 , x1 , ..., xn ; solo depende del estado anterior xn .
Equivalentemente, se puede escribir la probabilidad de que la variable aleatoria tome el valor
xn+1 como:
P(X0 = x0 , X1 = x1 , ..., Xn+1 = xn+1 ) = P(X0 = x0 )P(X1 = x1 /X0 = x0 )P(Xn+1 = xn+1 /Xn = xn )
Note que el proceso completo, requiere un conjunto de probabilidades para el estado inicial.
Se supone que los valores de la probabilidades de transición son independientes del valor
especı́fico de n, en ese caso, la cadena es estacionaria.
Ejemplo 1:
Imaginemos que una partı́cula puede estar en cuatro diferentes estados 1,2,3 y 4. Esta
partı́cula puede mantener o cambiar su estado con ciertas probabilidades. Medimos el estado
de la partı́cula en intervalos de tiempo iguales t0 , t1 , ..., tn . Se tienen las siguientes reglas de
transición:
Por ejemplo: P(4/1) es la probabilidad de que pase al estado 4, dado que está en el estado
1.
P(1 → 1) = 0.22
P(1 → 2) = 0.35
P(1 → 3) = 0.30 (6.69)
Note que en el ejemplo anterior hay una estructura intrı́nseca matricial. Por ejemplo, si
pensamos en P(1 → 4) como la multiplicación de elementos de una matriz tenemos:
X
P(1 → 4) = p41 p11 + p42 p21 + p43 p31 + p44 p41 = p4k pk1 = P41 . (6.70)
k=4
Que corresponde con la multiplicación del cuarto renglón por la primera columna de la
matriz de probabilidades de transición.
Esta matriz debe cumplir la propiedad básica de que la suma de probabilidades de cada
columna debe ser igual a uno:
X
Pij = 1, ∀j≤n (6.72)
i
Del ejemplo 1 de una cadena de dos pasos, la probabilidad de transición del estado 1 a todos
~
los estados, puede calcularse como el producto matricial P2 E:
6.14. Ejercicios: Cadenas de Markov 105
2
0.3 0.25 0.15 0.10 1 0.22
2~
0.3 0.25 0.55 0.20 0 0.35
P(1 → 1, 2, 3, 4) = P E =
0.3 0.50 0.10 0.30 0 = 0.30
(6.73)
0.1 0.00 0.20 0.40 0 0.13
1.0 Pn(0)
Pn(1)
0.8 Pn(2)
Pn(3)
0.6
Pn
0.4
0.2
0.0
0 2 4 6 8 10
n
Figure 6.3: Probabilidades de transición de los estados para n = 10 pasos.
Section 6.14
Ejercicios: Cadenas de Markov
Section 6.15
Metropolis-Hasting algorithm
Suppose you wish to sample the random variable x ∼ f (x), but you can not use the direct
simulation, the inverse CDF or accept-reject methods. But you can evaluate f (x) at least up
to a proportionality constant; then you can use the Metropolis-Hastings algorithm.
Let f (x) be the (possible unnormalized) target density, xj be a current value and q(x/xj )
be a proposal distribution, which might depend on the current value xj . The algorithm is
106 Chapter 6. Probabilidad
summarized as follows:
a) Sample x∗ ∼ q(x/xj ).
f (x∗ )
j ∗
ρ(x , x ) = min 1, (6.75)
f (xj )
How this algorithm works?
Let Dn (x) be the points density xn around x and Dn (y) the points density yn around y. x
will be accepted or rejected. We can quantify the flux of points on the neighborhood x as:
X X
δDn (x) = Dn (y)P (y → x) − Dn (x)P (x → y) (6.77)
y y
| {z } | {z }
Gain Lost
X P (y → x) Dn (x)
Dn (y)P (x → y) − (6.78)
y
P (x → y) Dn (y)
We have two properties:
P (y → x) Dn (x)
< (6.79)
P (x → y) Dn (y)
6.16. Ejercicios: Metropolis-Hastings 107
As a reminder ρ(x, y) > r is the acceptance condition. We can calculate P (x → y) as pxy Axy ,
where pxy is the probability of generation of y given x, and Axy is the acceptance probability.
Since the Metropolis estrategy is symmetric (pxy = pyx ), we get:
P (y → x) Ayx f (x)
= = ρ(x, y) = (6.80)
P (x → y) Axy f (y)
Therefore, the equilibrium distribution is given by:
Section 6.16
Ejercicios: Metropolis-Hastings
1. Se lanza una moneda n = 10 veces y se encuentra que r = 7 veces cae cara. Usando el
algoritmo de Metrópolis:
(
1 si 0 < p < 1
π(p) = (6.82)
0 si Otro caso
1
f (x; 0, 1) = (6.83)
π(1 + x2 )
5. Genere un ensamble de al menos 30 caminatas aleatorias como las generadas en clase.
Calcule la distancia cuadrática desde el inicio del movimiento hasta el final, es decir
R2 = x2 + y 2 dado que se inicia siempre en [0,0] [6.4]. Calcule la distancia cuadrática
media para cada uno de los siguientes pasos:
Figure 6.4: Relación entre la distancia cuadrática media y el número de pasos de un proceso
Markoviano. Entender este proceso fue uno de los pasos definitvos para aceptar la existencia
de las moléculas empezando el siglo XX.
Z ∞
Vd = cos(||r||)exp(−||r||2 )drd , (6.85)
−∞
qP
d
donde ||r|| = i=1 x2i y drd = dx1 · · · dxd , con el factor de normalización:
d
fn = (2πσ 2 ) 2 (6.86)
6.16. Ejercicios: Metropolis-Hastings 109
7. La molécula de Hidrógeno está compuesta por dos núcleos separados una distancia L. En
torno a cada núcleo existe un electrón que supondremos que está en el nivel más bajo de
energı́a, en un órbital s. La función de onda que describe a cada electrón está dada por:
~ = p1 e−|~r−R|/a
ψ(~r, R)
~ 0
(6.87)
3
πa0
~ 1, R
~ 2) = 1 1 1 1 1 1
U (~r1 , ~r2 , R + − − − −
~1 − R
|~r1 − ~r2 | |R ~ 2 | |~r1 − R
~ 1 | |~r2 − R
~ 1 | |~r1 − R
~ 2 | |~r2 − R~ 2|
(6.88)
Z
< U >= ~ 1 )|2 |ψ(~r2 , R
d3 r1 d3 r2 |ψ(~r1 , R ~ 2 )|2 U (~r1 , ~r2 , R
~ 1, R
~ 2) (6.89)
a) Note que esta integral se puede ver como el valor promedio de la energı́a potencial
evaluada en el muestreo de la densidad de probabilidad de cada electrón. Usando el
algoritmo de Metropolis en coordenadas cartesianas, hacer el muestreo del cuadrado
de la función de onda fijando L = 2 y 105 pasos en la cadena. La distribución de
puntos de la nube electrónica asociada a cada electrón está dada por [6.5]:
Figure 6.5: Nube electrónica encontrada con el algoritmo de Metropolis asociada al electrón en
cada núcleo.
1.90
1.92
1.94
<U(r)>
1.96
1.98
2.00
2.02
2.04
1.00 1.25 1.50 1.75 2.00 2.25 2.50 2.75 3.00
r[A]
Z
< U >= ~ 1 )ψ(~r2 , R
d3 r1 d3 r2 |ψ(~r1 , R ~ 2 ) + ψ(~r2 , R
~ 1 )ψ(~r1 , R
~ 2 )|2 U (~r1 , ~r2 , R
~ 1, R
~ 2 ) (6.90)
d) Note que los valores están de acuerdo a los observados en la naturaleza: La distancia
de separación de los protones es dequlibrium = 2.4a0 y la energı́a de ligadura es 2.8 eV .
Nice isn’t it!
6.17. Hidden Markov models 111
1.86
1.88
1.90
<U(r)>
1.92
1.94
1.96
Section 6.17
Hidden Markov models
Un proceso de Markov oculto es un proceso estocástico definido por dos variables aleatorias,
la variable oculta x(t) toma valores en el paso t y la variable observada y(t) toma valores en
el paso t. La variable x(t) toma valores siguiendo la matriz de transición T y la variable y(t)
toma valores siguiendo la matriz de emisión E. Por ejemplo, definimos las siguientes matrices
de transición y emisión:
F T
T=
F 0.7 0.5
(6.91)
T 0.3 0.5
F T
R 0.8 0.2
E=
(6.92)
V 0.1 0.3
A 0.1 0.5
Las columnas de estas matrices representan las probabilidades de los estados en el tiempo
t − 1 y las filas las probabilidades asociadas al tiempo t. La suma de todos los valores en una
columna debe ser igual a 1. Definamos los estados de transición como el estados de animo de una
persona; Feliz y Triste como: S = [F, T ] con las siguientes probabilidades a priori π = [0.4, 0.6].
112 Chapter 6. Probabilidad
De esta forma, la probabilidad de estar feliz al dı́a (t − 1) y luego estar triste al siguiente dı́a (t)
es: T10 = 0.3. Los estados de transición que siguen este proceso aleatorio no son observables
por lo que se denominan ocultos. Sin embargo, esta probabilidad de transición se propaga
influyendo en la manera de vestir de la persona. Definamos los estados de emisión como el
color de la ropa que usa la persona al tiempo t − 1; Rojo, Verde, Azul como E = [R, V, A].
En este contexto, la probabilidad de que la persona use ropa azul dado que está feliz es E20 = 0.1.
b) Encuentre el estado de animo más probable que tuvo la persona durante esos tres dı́as.
c) Calcule las probabilidades de cada estado observable (i) como la suma de las probabilidades
de todos los estados ocultos. Verifique que sumando todos los estados observables la medida
es 1.
X
Pi = 1 (6.95)
Remarks:
nh es el número de estados ocultos y no es el número de estados observados. El número de
secuencias posibles (ns ) está dada por las variaciones con repetición de estas cantidades:
ns = nnho = 8 (6.96)
0.0175
0.0150
0.0125
0.0100 Probabilidad por secuencia
MaxP = 0.018
0.0075
0.0050
0.0025
0.0000
1 2 3 4 5 6 7 8
Figure 6.8: Probabilidad de cada secuencia oculta para el estado ΩO = [V, A, R].
En general:
n
Y n
Y
P(Oi , qi ) = P(Oi /qi ) P(qi /qi−1 ) (6.102)
i=1 i=1
114 Chapter 6. Probabilidad
Section 6.18
Ejercicios: Hidden Markov models
1. Un casino tiene dos tipos monedas una justa (J) y una sesgada (B), las probabilidades
de obtener cara y sello son: PJ = [0.5, 0.5] y PB = [0.9, 0.1] respectivamente. El tipo de
moneda se escoge siguiendo esta ley de transición:
J B
T = J 0.8 0.2
(6.103)
B 0.2 0.8
J B
E=
C 0.5 0.9
(6.104)
S 0.5 0.1
ΩO = [S, C, C, C, S, C, S, C] (6.105)
b) Encuentre la secuencia oculta más probable del tipo de moneda que se eligió en cada
lanzamiento y su respectiva probabilidad Pi .
c) Calcule las probabilidades de cada estado observable (o) como la suma de las
P
probabilidades de todos los estados ocultos, Po = i Pi .
0.000200
Probabilidad por secuencia
0.000175 MaxP = 0.0002
0.000150
0.000125
0.000100
0.000075
0.000050
0.000025
0.000000
0 50 100 150 200 250
2. Las bases nitrogenadas fundamentales que componen el ADN son: Adenina (A), Citosina
(C), Guanina (G) y Timina (T). Un gen se puede representar a través de una secuencia
ordenada de dichas bases. Suponga la siguiente matriz de transición entre bases:
A C G T
A 0.4 0.2 0.2 0.2
T = C 0.25 0.25 0.25 0.25 (6.107)
G 0.3 0.3 0.1 0.3
T 0.1 0.1 0.1 0.7
g = [T, G, C, T, C, A, A, A] (6.109)
Pg = 7.5 × 10−6
116 Chapter 6. Probabilidad
Chapter 7
Estadı́stica
Section 7.1
Muestreo (sampling)
Debido a que en general es imposible tener la población completa, se requiere una metodologı́a
sistemática y que sea imparcial para elegir elementos de una población. La técnica para elegir
una muestra de una población de denomina muestreo. Suponiendo un tamaño de población N
y de muestra (n) determinado, el muestreo debe permitir hacer el estudio y estimaciones de las
caracterı́sticas de la población, por ejemplo, promedios, desviaciones tı́picas, etc. La muestra
debe ser representativa para generalizar los resultados a la población.
Ventajas:
117
118 Chapter 7. Estadı́stica
Desventajas:
2. Margen de error.
a) Se basa en que todos los elementos de la población tiene la misma probabilidad de ser
elegidos.
N −1
(N −1)!
n−1 (n−1)!(N −n)! n
Pi = N
= N!
= (7.2)
n n!(N −n)!
N
Se requiere formar una muestra aleatoria estratificada de n = 400 usando asignación igual
y proporcional. Para asignación igual, se tiene el siguiente tamaño de estrato:
400
ni = = 100 (7.3)
4
Para asignación proporcional tenemos los siguientes tamaños de estrato.
Ni
Carrera Estrato Población (Ni ) Muestra ni = n × N
Medicina 1 1000 200
Ing. Industrial 2 500 100
Mercadeo 3 450 90
Fı́sica 4 50 10
N = 2000 n = 400
N
k= (7.4)
n
El primer valor (S0 ) se elige aleatoriamente de la lista entre el primer valor y k. Para
seleccionar los siguientes k − 1 cantidades se realiza una traslación sistemática de k unidades
desde el primer valor:
i0 = [Link](k)
in+1 = in + nk, con n = 1, 2, ..., k − 1 (7.5)
Ω = [0, −1, −3, −5, 5, 7, 4, 10, 12, 15, 20, 19, 50, 55, 60, 45] (7.6)
Section 7.2
Distribución de frecuencias (Histogramas)
2. Frecuencia de clase: Es apropiado definir categorı́as o clases (Ci ) en los datos para separar
la muestra en n clases. El número de datos pertenecientes a la clase Ci se denomina
frecuencia de clase. Las clases tienen las siguientes propiedades:
(a) Ci 6= ∅
(b) Ci ∩ Cj = ∅
(c) ni=1 Ci = Ω
S
122 Chapter 7. Estadı́stica
5. Marca de clase: Es el punto medio de cada clase, el cuál se obtiene promediando el valor
de los lı́mites de clase.
Ası́ mismo, podemos definir una distribución de frecuencias acumulada, que nos da
información de como se acumula la información en los datos para valores menores a una marca
de clase especı́fica. La grafica de la distribución acumulada de frecuencia se denomina ojiva.
Imaginemos la siguiente situación:
Section 7.3
Estadı́sticos
Sea X una variable aleatoria y sean Ω = {X1 , X2 , ..., Xn } variables aleatorias con la misma
distribución que X. Diremos que el conjunto Ω es una muestra aleatoria de tamaño n de X.
Dada una muestra de una población, un estadı́stico es una función real de la muestra:
como el estadı́stico es una variable aleatoria, entonces será en si mismo una variable aleatorio.
Esto significa que tendrá una distribución, una media, etc. En general, la distribución que siga
el estadı́stica se denomina distribución muestral.
Section 7.4
Valor medio muestral
n
X
wi = 1
i=1
wi ≥ 0 ∀i , i = 1, 2, ..., n (7.10)
n
w1 x1 + w2 x2 + ... + wn xn X
X̄ = = w i xi (7.11)
w1 + w2 + ... + wn i=1
Esta definición resulta muy útil en el caso de la media móvil, dado que, para todo punto i
de la secuencia de observaciones y n puntos anteriores, la media móvil del siguiente punto i + 1
queda definida por:
124 Chapter 7. Estadı́stica
n−1
X
m
X̄i+1 (n) = wj xj+i−n+1 (7.12)
j=0
donde i ≥ n. Esto significa que no es posible calcular la media móvil X̄2m (3), dado que en el
punto muestral x2 solo se cuentan con dos observaciones anteriores {x1 , x2 }. Entonces, para los
puntos i < n se mantienen los valores observados. Adicionalmente, es posible optimizar el valor
de los pesos estadı́sticos para tener la mejor estimación posible. Para realizar la optimización
se define un función de costo que tenga en cuenta la distancia entre las observaciones y las
predicciones de la media móvil en cada punto muestral. La función de costo está dada por:
N
1 X m
C(n) = |X̄ (n) − xi | (7.13)
N i≥n i
La optimización se realiza bajo las restricciones dadas por la ecuación (7.10); usando algún
paquete de minimización (i.e, [Link]).
1 1 X1
= (7.14)
H N x
Section 7.5
Desviación estándar
v
u
u1 X N
p
σ= t (xi − µ̂)2 = E(x2 ) − (E(x))2 (7.15)
N i=1
v
u N
u 1 X
S=t (xi − x̄)2 (7.16)
N − 1 i=1
7.6. Teorema del lı́mite central 125
Section 7.6
Teorema del lı́mite central
1
Pn
n
Xn − µ
i=1
Zn := √ , (7.17)
σ/ n
La función de distribución de Zn converge hacia la distribución normal estándar cuando
n → ∞. Entonces:
Z z
1 −x2
lim P(Zn < z) = Φ(z) = √ e− 2 dx. (7.18)
n→∞ −∞ 2π
El teorema exige la existencia de la media y la varianza, sin embargo, no especı́fica la
distribución de la variable X; es un resultado general [4].
Section 7.7
Ejercicios: Muestreo
b) La más baja.
c) El rango.
d) La cinco más bajas.
e) Las cinco más altas.
f) La décima de mayor y menor.
g) El número de estudiantes con calificación de 75 o más.
h) El porcentaje de estudiantes con calificaciones mayores que 65 pero no superiores a
85.
i) Las calificaciones de 0 a 100 que no aparecen en las notas.
0.15 0.4
0.10
0.2
0.05
0.0
0.00
70 72 74 76 78 80 70 72 74 76 78 80
x
8. Encuentre los valores óptimos de los pesos asociados a la predicción de las ventas. La
pregunta puede ser muy complicada de responder!
9. Una persona viaja de A a B con una velocidad media de 30 millas por hora y regresa de
B a A a una velocidad de media de 60 millas por hora. Hallar la velocidad media en el
viaje completo. Ans: 40 mi/h
128 Chapter 7. Estadı́stica
d1 + d2 + d3 d1 d2 d3
= + + (7.19)
V v1 v2 v3
es una media armónica ponderada.
11. Considere la variable aleatoria definida por una combinación lineal de otras variables
aleatorias: X = a1 X1 + a2 X2 + ...an Xn , donde las variables aleatorias (Xi ) no son
necesariamente idénticamente distribuidas, y las componentes [a1 , a2 , ..., an ] ∈ R. La
~ con la definición usual de producto
variable aleatoria X puede ser escrita como: X = aT X
interno entre vectores. El primer y segundo momento de la variable X queda entonces
expresados por:
~ = aT E(X)
E(X) = E(aT X) ~
~ = aT Cov(X)a
V ar(X) = V ar(aT X) ~ (7.20)
~ es la matriz de covarianza de X.
Donde Cov(X) ~ Sea X1 ∼ Γ(2, 3), X2 ∼ N (5, 2) y
X3 ∼ U (0, 10), Genere N = 104 eventos (que estabilice el valor de los momentos) para
obtener la distribución de X = X1 + 2X2 − X3 . Calcule el primer y segundo momento de
X a través de dos estrategias:
N N N N
1 X 1 X 2 X X
V ar( Xi ) = 2 V ar(Xi ) + 2 Cov(Xi , Xj ) (7.21)
N i=1 N i=1 N i=1 j=i+1
Estimación de parámetros
Section 8.1
Mı́nimos cuadrados
El método de mı́nimos cuadrados surge como necesidad de plantear una solución aproximada
al problema lineal A~x = ~b, donde la solución exacta no existe. Para entender el planteamiento
desde el álgebra lineal se requiere el concepto de espacio columna de A.
Am×n = ~v1 , ~v2 , ... ~vn (8.1)
Cada uno se esos vectores tiene m componentes, por tanto ~vi ∈ Rm , donde i = 1, 2, ...n.
Entonces se puede definir al espacio columna de la matriz C(A), como todas las combinaciones
lineales de los vectores columnas de A. Tomemos un vector genérico de ese subespacio:
Notemos que el vector cero pertenece al espacio columna, dado que es una combinación
lineal válida con ci = 0, con i = 1, 2, ...n. Adicionalmente, vemos que es cerrado bajo la
multiplicación por escalar.
129
130 Chapter 8. Estimación de parámetros
Por otro lado, para que el producto A~x esté bien definido, ~x ∈ Rn . Usando la representación
de la matriz A se puede escribir:
dado que estamos tomando todas las combinaciones lineales posibles por que ~x es un vector
genérico, la expresión anterior debe ser el espacio vectorial generado por los vectores columnas
de la matriz A, es decir, C(A). En el contexto de los mı́nimos cuadrados, el sistema lineal
A~x = ~b no tiene solución por que ~b ∈
/ C(A).
d~ = A~x∗ − ~b (8.7)
El método de mı́nimos cuadrados encuentra el vector ~x∗ que minimiza esta distancia.
2
P − b1
1
P − b
2 2
.
~ =
|d|2 (8.9)
.
.
P n − bn
Adicionalmente, note que el vector d~ es ortogonal a C(A) y por tanto, d~ ∈ C ⊥ (A) que es el
complemento ortogonal de A. Se tiene:
proof: Formemos una matriz cuyas filas son los n vectores de la base de C(A) (es decir,
T
A ):
−~v −
1
−~v2 −
AT = . (8.13)
..
−~vn −
de la definición de C ⊥ (A), si ~x ∈ C ⊥ (A) entonces debe ser perpendicular a todos los
elementos de la base de C(A):
Por tanto, C ⊥ (A) es el espacio nulo de la matriz cuyas filas son una base de C(A); es decir,
N (AT ).
Section 8.2
Varianza de la estimación de parámetros
n
2 1 X
σ̂ = (yi − ŷi )2
n − p i=1
n
1 X
= (yi − Ai β̂)2
n − p i=1
1
= (Y − Aβ̂)T (Y − Aβ̂) (8.18)
n−p
√
σ̂ = σ̂ 2 . (8.19)
Section 8.3
Función de costo
N 2
2
X yi − M (xi , θ)
χ (θ) = . (8.21)
i=1
σi
donde M (xi , θ) es el modelo que se propone para ajustar los datos. Los parámetros que
mı́nimizan la función de costo, son los valores óptimos que describen el mejor modelo que se
ajusta a los datos. En general, están dados por:
N 2
2
X yi − M (xi , θ)
θ̂ = arg min χ (θ) = arg min . (8.22)
θ θ
i=1
σi
Section 8.4
Ejercicios: Mı́nimos cuadrados
2x − y = 2
x + 2y = 1
x+y = 4 (8.23)
(a) Con el método de mı́nimos cuadrados encuentre el punto común a las tres lı́neas.
Grafique las tres lı́neas y el punto solución, ¿qué interpretación puede dar?
20.0
17.5
15.0
d(x* )
12.5
10.0
7.5
5.0
4
2 4
0 2
y 2 0
2 x
4 4
Figure 8.1: Distancia ||A~x∗ − ~b|| en la región rectangular definida en el problema. La distancia
mı́nima debe corresponder con el resultado del método de mı́nimos cuadrados.
f (x) = a0 + a1 x (8.25)
f (x) = a0 + a1 x + a1 x2 (8.26)
4. Utilice el método curve fit de Python para obtener los dos ajustes. Compare con los
resultados anteriores.
a) Haga un remuestreo con reemplazo con un tamaño de muestra igual al tamaño de los
datos. resample = [Link](sample, size=len(sample),replace=True)
b) Realice el ajuste del remuestreo usando los pasos del problema anterior.
c) Guarde el valor de cada parámetro en una lista diferente. Realice la experiencia
aleatoria N = 105 veces.
d) Dibuje el histograma asociado a la distribución de muestreo de cada parámetro.
e) De la distribución de muestreo estime el intervalo de confianza al 68% de cada
parámetro del ajuste. ¿Cuál es más preciso?
6. En el caso de ajustes, es posible definir funciones de costo que midan la distancia entre
los puntos muestrales y el modelo de ajuste. En el caso de mı́nimos cuadrados la función
es χ2 . Para n puntos y un modelo lineal la función de costo es:
n
X
2
χ (a0 , a1 ) = (yi − (a0 + a1 xi ))2 (8.27)
i=1
a0 = ȳ − a1 x̄
P P
xy − xn y
P
a1 = P P 2 (8.28)
x2 − ( nx)
donde x̄ y ȳ son los valores medios de puntos y sus imágenes. Para n puntos y un modelo
cuadrático la función de costo es:
n
X
2
χ (a0 , a1 , a2 ) = (yi − (a0 + a1 xi + a2 x2i ))2 (8.29)
i=1
136 Chapter 8. Estimación de parámetros
n
X
[a0 + xi a1 + x2i a2 = yi ]
i=1
n
X
[a0 xi + a1 x2i + a2 x3i = xi yi ]
i=1
Xn
[a0 x2i + a1 x3i + a2 x4i = x2i yi ] (8.30)
i=1
Opcionalmente: Encuentre los parámetros usando estas expresiones para los problemas
2) y 3)
~ = θ0
M (x; θ) (8.31)
θ1 + e−θ2 x
N ~ 2
~ =
2
X yi − M (xi , θ)
χ (θ) . (8.32)
i=1
σi
donde σi = 1 ∀i, es decir, no se consideran los errores de yi .
c) Muestre que las derivadas parciales de la métrica están dadas por:
~ N ~
∂χ2 (θ) X
~ ∂M (xi , θ)
= −2 (yi − M (xi , θ)) (8.33)
∂θi i=1
∂θi
N
X
θ~j+1 = θ~j − γ −2 ~ ~
(yi − M (xi , θj ))∇θ M (xi , θj ) (8.34)
i=1
8.5. Función de verosimilitud (Likelihood) 137
h i
~ = ~
∂M (xi ,θ) ~
∂M (xi ,θ) ~
∂M (xi ,θ)
∇θ M (xi , θ) ∂θ0
, ∂θ1
, ∂θ2
(8.35)
e) Use una taza de aprendizaje γ = 1 × 10−3 o γ = 5 × 10−4 , θ~0 = [1, 1, 1], un error de
parada = 0.01 y un máximo de iteraciones de 1 × 104 .
f) Grafique los datos y the best fit model con sus parámetros.
~u1 = (3, 1, 0, 1)
~u2 = (1, 2, 1, 1)
~u3 = (−1, 0, 2, −1) (8.36)
k−1
X < vk , uj >
uk = vk − uj . (8.37)
j=1
< uj , uj >
Section 8.5
Función de verosimilitud (Likelihood)
Sea ~x(x1 , x2 , ..., xn ) un vector aleatorio, donde cada componente está definida como un canal
de observación. Cada canal está asociado a una función de densidad de probabilidad que
depende de m parámetros θ1 , θ2 , ..., θm dado un conjunto de datos, la función de verosimilitud
está definida como:
138 Chapter 8. Estimación de parámetros
Section 8.6
Método de máxima verosimilitud
X
θ̂ = arg min − Ln(L(xi ; θ)) (8.40)
θ
xi
Ejemplo 1:
8.6. Método de máxima verosimilitud 139
Sea A(x1 , x2 , ..., xn ), donde A ∼ P ois(λ) tiene distribución de Poisson con parámetro λ.
n Pn
Y e−λ λxi e−nλ λ i=1 xi
L(~x; λ) = = Qn (8.41)
i=1
xi ! i=1 xi !
Tomando logaritmo natural tenemos:
n
X n
Y
Ln(L(~x; λ)) = −nλ + xi Ln(λ) − Ln( xi !) (8.42)
i=1 i=1
n
1X
λ̂ = xi = X̄. (8.43)
n i=1
Ejemplo 2:
Sea A(x1 , x2 , ..., xn ), donde A ∼ Exp(α) tiene distribución exponencial con parámetro α.
n n P
Y 1 −xi /α 1 n
L(~x; α) = e = e− i=1 xi /α (8.44)
i=1
α α
Tomando el logaritmo natural de la función de verosimilitud.
n
X xi
Ln(L(~x; α)) = nLn(1/α) − . (8.45)
i=1
α
n
1X
α̂ = xi = X̄ (8.46)
n i=1
X
θ̂ = arg min − hj Ln(L(x̄j ; θ)). (8.49)
θ
j
2
∂Ln(L(θ)) 1 ∂ Ln(L(θ))
Ln(L(θ)) ∼
= Ln(L(θ̂)) + (θ − θ̂) + (θ − θ̂)2 (8.50)
∂θ 2 ∂θ 2
θ=θ̂ θ=θ̂
(θ − θ̂)2
Ln(L(θ)) ∼
= Ln(L(θ̂)) − (8.51)
2σ̂ 2
donde hemos definido:
2 −1
2 ∂ Ln(L(θ))
σ̂ = − (8.52)
∂θ2
Note que si evaluamos la función de verosimilitud en θ = θ̂ ± σ̂ obtenemos
Section 8.7
Ejercicios: Parameter Estimation
n
1X
µ̂ = xi
n i=1
n
1X
σ̂ 2 = (xi − x̄)2 (8.54)
n i=1
2. Para el ejercicio anterior, muestre que la matriz Hessiana evaluada en los estimadores es:
!
−n(σ̂ 2 )−1 0
H(µ̂, σ̂ 2 ) =
0 − n2 (σ̂ 2 )2
N
Y 1 2 /2σ 2
L(x/µ, σ) = √ e−(µ−xi ) (8.56)
i=1 2πσ 2
+
g) Encuentre los errores σ− de los parámetros en un intervalo de confianza del CL = 68%.
Z ∞ Z ∞
X n 2
1 1 −x1 /θ 1 −xn /θ
V (θ̂) = ... xi e ... e dx1 ...dxn
0 0 n i=1 θ θ
Z ∞ Z ∞ X n 2
1 1 −x1 /θ 1 −xn /θ
− ... xi e ... e dx1 ...dxn
0 0 n i=1 θ θ
θ2
= (8.59)
n
a) Intente encontrar este resultado analı́ticamente.
b) Con el método de MonteCarlo compruebe este resultado para un conjunto de n=20
variables aleatorias xi ...xn ∼ Exp(θ = 2). Generar varias muestras de distribuciones
exponenciales para tener un buen promedio en el ensamble, por ejemplo: N = 106 (Se
obtiene algo como V ar(θ̂) = 0.199).
1 −(µs+b) 1 (−1)2
L(µ, ) = e (µs + b)n √ e− 2σ2 (8.61)
n! 2πσ 2
Donde es la eficiencia de reconstrucción de los eventos de fı́sica conocida tiene valor
medio ¯ = 1. y desviación estándar σ = 0.1. La contribución Gaussiana modela el error
8.7. Ejercicios: Parameter Estimation 143
(a) Reproduzca las gráficas de la Figura [8.2]. Los parámetros pueden variar como
0. < µ < 2. y 0. < < 2.
(c) Elimine el error sistemático dado por la parte gaussiana. ¿Cuál serı́a el valor de µ̂?.
A qué conclusiones llega?
2.00 0.475
1.75 0.425
1.50 0.375
0.325
1.25 0.4
0.275 0.3
1.00
(,)
0.225 0.2
0.75
0.175 0.1
0.50 0.125 0.0 0.00
0.25
0.00
0.25 0.50
0.25 0.075 0.50
0.751.00 0.75
1.00
1.251.50 1.25
1.50
0.00 0.025 1.752.00 1.75
2.00
0.00 0.25 0.50 0.75 1.00 1.25 1.50 1.75 2.00
Figure 8.2: Gráfica de curvas de nivel de la función L(µ, ) (izquierda) y superficie (derecha).
7. Un equipo de medición de 3 canales detecta los pulsos de una posible señal extraterrestre.
En un momento determinado del tiempo se tiene la estadı́stica descrita por la siguiente
Figura [8.3]:
20.0 Data
Background
17.5 Signal
15.0
12.5
10.0
7.5
5.0
2.5
0.0
0.0 0.5 1.0 1.5 2.0 2.5 3.0
1 −(µs+b) 1 (−1)2
Li (µ, ) = e (µs + b)n √ e− 2σ2 . (8.63)
n! 2πσ 2
Donde es la eficiencia de reconstrucción de los eventos sin existencia extraterreste y
σ = 0.1 su desviación estándar. µ es la fortaleza de la señal y es una medida para
comprobar o descartar, en este caso, la señal extraterrestre. La función de Likelihood
(the joint probability function) de todos los canales está dada por :
N Channels
Y
L(µ, ) = Li (µ, ). (8.64)
i=1
Confidence Intervals
Section 9.1
Intervalos de confianza para la media
Sean x1 , x2 , ..., xn variables aleatorias independiente con E(xi ) = µ y V ar(xi ) < ∞, entonces:
x̄ − µ
zn := √ (9.1)
σ/ n
la función de distribución de zn , converge a una función de distribución normal estándar
z ∼ N (0, 1).
El intervalo de confianza para la media con varianza conocida está dada por:
σ σ
IC1−α = x̄ − zα/2 √ < µ < x̄ + z1−α/2 √ (9.2)
n n
Este intervalo es válido para población aproximada normal, u otra distribución poblacional
con n >= 30.
S S
IC1−α = x̄ − tα/2,n−1 √ < µ < x̄ + t1−α/2,n−1 √ (9.3)
n n
donde S es la varianza muestral.
145
146 Chapter 9. Confidence Intervals
Section 9.2
Intervalo de confianza para la diferencia de medias
s s
s21 s22 s21 s2
IC1−α = (x̄1 − x̄2 ) − tα/2,ν + < µ1 − µ2 < (x̄1 − x̄2 ) + t1−α/2,ν + 2 (9.4)
n1 n2 n1 n2
Los grados de libertad se obtienen usando:
s2 s22 2
( n11 + n2
)
ν= s2 s2
(9.5)
( n1 )2 ( n2 )2
1
n1 −1
+ 2
n2 −1
Para encontrar un intervalo de confianza para la diferencia de medias (n > 30), se tiene la
siguiente expresión:
s s
σ12 σ22 σ12 σ22
IC1−α = (x̄1 − x̄2 ) − zα/2 + < µ1 − µ2 < (x̄1 − x̄2 ) + zα/2 + (9.6)
n1 n2 n1 n2
Section 9.3
Intervalo de confianza para una proporción
Section 9.4
Intervalo para la varianza
n
2 1 X
s = (xi − x̄)2 (9.8)
n − 1 i=1
9.5. Ejercicios: Intervalos de confianza 147
E(s2 ) = σ 2 (9.9)
Con base a los criterios de la ley de los grandes números y suponiendo que las muestras
siguen una distribución normal, X ∼ N (µ, σ 2 ). La varianza muestral como variable aleatoria
sigue una función de distribución χ2n−1 (s) de n − 1 grados de libertad.
s2
(n − 1) ∼ χ2n−1 (9.10)
σ2
En problemas donde la varianza poblacional no es conocida, la distribución permite
encontrar intervalos de confianza para la varianza poblacional; dada la varianza muestral.
Section 9.5
Ejercicios: Intervalos de confianza
S = [0.974, 0.950, 0.932, 1.104, 1.038, 0.920, 0.935, 0.907, 0.810, 0.915] (9.11)
IC95% = 0.708 < µ < 1.188 (9.12)
IC95% = 0.903 < µ < 1.00 (9.13)
Notar que los IC no son consistentes, esto puede indicar que la población que describe
a los datos no es normal. Usted puede calcular el IC en el caso de varianza desconocida
y comprobar que se obtiene un mejor resultado.
148 Chapter 9. Confidence Intervals
S = [175, 176, 180, 164, 170, 170, 181, 169, 163, 190, 170, 171] (9.14)
IC90% = 169.28 < µ < 177.21 (9.15)
S1 = [6.0, 5.0, 6.5, 5.0, 4.0, 5.0, 5.0, 5.0, 7.0, 5.5, 4.5]
S2 = [7.0, 8.0, 8.5, 7.4, 8.9, 6.7, 9.0, 8.4, 7.8, 5.3, 8.1] (9.16)
IC95% = − 3.16 < µ1 − µ2 < −1.60 (9.17)
4. Una moneda equilibrada es lanzada 500 veces. Sea X la variable aleatoria asociada al
número de soles que aparecen en los n lanzamientos. Usando la distribución Binomial y
la aproximación a la normal, estime:
IC98% = 0.365 < P < 0.446 (9.18)
9.5. Ejercicios: Intervalos de confianza 149
6. Una empresa de equipo médico quiere saber la proporción de clientes que prefieren su
marca. El gerente afirma que el 30% de los clientes del mercado prefieren sus productos.
Una muestra de 100 clientes indicó que 24 usan dicha marca. Calcule el intervalo de
confianza al 90% e indicar si el gerente tiene la razón.
IC90% = 0.169 < P < 0.310 (9.19)
(n − 1)S 2 (n − 1)S 2
2
IC95% = < σ < (9.20)
χ21−α/2 χ2α/2
S = [6.0, 6.4, 7.0, 5.8, 6.0, 5.8, 5.9, 6.7, 6.1, 6.5, 6.3, 5.8] (9.21)
2
IC95% = 0.0770 < σ < 0.4428 (9.22)
10. Un fabricante de parte de automóvil garantiza que sus baterı́as duran en promedio 3 años
con una desviación estándar de 1 año, si 5 baterı́as presentan una varianza de 0.815.
Realice su estudio al 99% de nivel de confianza.
Pruebas de Hipótesis
El procedimiento estadı́stico para determinar si los datos de una muestra son compatibles con
las caracterı́sticas de una población. Para contextualizar el problema se realizan las siguientes
definiciones:
• Una hipótesis estadı́stica es una proposición sobre los parámetros de una población.
• Región de no rechazo es el conjunto de valores del estadı́stico de prueba, para los cuales
no rechazamos la hipótesis nula. Su región complementaria se llama la región de rechazo
de H0 en favor de H1 .
• Dado que hay una probabilidad de que el estadı́stico genere un valor en la región de
rechazo, se tienen dos tipos de errores: Error tipo-1 es rechazar la hipótesis nula cuando
es verdadera y el Error tipo-2 es no rechazar la hipótesis nula cuando es falsa.
151
152 Chapter 10. Pruebas de Hipótesis
Section 10.1
Ejercicios: Tablas de contingencia
1. En cierta empresa, se calcula que la cantidad promedio de artı́culos vendidos por semana
es 2000. Se quiere averiguar si hay una relación entre el dı́a de la semana y la cantidad
de artı́culos que se venden. La Tabla [10.1] muestra las observaciones.
Table 10.1: Tabla de contingencia entre artı́culos vendidos y los dı́as de la semana
n
2
X (fe − fo )2
χ = (10.1)
i=1
fe
2. La universidad de los Andes realiza una encuesta a N = 100 estudiantes sobre la intención
de voto de tres candidatos a la presidencia, los candidatos son: A, B y C. Adicionalmente,
se tuvo en cuenta el género de cada estudiante. Los resultados se pueden resumir en la
siguiente Tabla:
A B C
Mujeres 11 15 34
Hombre 23 6 11
a) Si las variables son independientes entonces P(A ∩ B) = P(A) · P(B). Entonces, deberá
calcular las probabilidades marginales y luego calcular el valor de la probabilidad de
cada entrada en la tabla. Usando el producto de Kronecker serı́a muy eficiente y claro.
b) La frecuencia esperada en cada posición es: fei = P(A ∩ B)i · N , i.e, la probabilidad de
cada evento multiplicado por el tamaño de muestra.
La matriz de probabilidad P(x, y) = G(x) ⊗ H(y), puede ser escrita como el producto de
Kronecker de los vectores de probabilidad marginal (serı́a interesante que implementaran
esta operación en su código). Finalmente, para medir la discrepancia entre las frecuencias
esperadas y observadas se tiene el estadı́stico de prueba (muy conocido) χ2 dado por:
154 Chapter 10. Pruebas de Hipótesis
k
2
X (f i − f i )2
o e
χ = (10.2)
i=1
fei
En Python:
Remark:
Efectivamente, como muestra la tabla, las mujeres prefieren el candidato C y los hombres
el candidato A.
Section 10.2
Prueba de hipótesis para generadores de números aleatorios
¿Sabı́as que el generador de números de Numpy (Mersenne - Twister 1998), tiene uniformidad en
d=623 dimensiones al 95% de nivel de confianza? Para probar la uniformidad de los números
aleatorios generados por pseudo-generadores es posible realizar una prueba de hipótesis. Por
lo cuál, se tienen las siguientes hipótesis:
Section 10.3
Ejercicios: Hypotesis testing
Suponemos que la hipótesis nula es verdadera, de este modo, necesitamos realizar los
siguientes pasos para realizar la bondad del ajuste:
k
2
X (f i − f i )2
o e
χ = (10.4)
i=1
fei
2. (Poisson) Una empresa de motos realiza la construcción de N = 440 motos. Durante las
pruebas mecánicas y eléctricas, la empresa reportó el número de fallas que presenta cada
artı́culo. El archivo que resume esta información es: [Link]
com/asegura4488/Database/main/MetodosComputacionalesReforma/[Link].
Note que es un archivo para cargar en Pandas. La empresa quiere saber si la distribución
de errores es una distribución de Possion y cuál es el estimador máximo verosimil que
describe dicha distribución. De esta manera, se tienen las siguientes hipótesis.
Suponemos que la hipótesis nula es verdadera, de este modo, necesitamos realizar los
siguientes pasos para realizar la bondad del ajuste:
e−3.047 3.0470
P(x = 0|λ̂ = 3.047) = = 0.04746 (10.5)
0!
c) Estimar las frecuencias esperadas asociadas a el número de errores fei (x) = Pi (x) × N .
d) Dibuje los histogramas correspondientes a las distribución esperada y observada.
e) Medir la discrepacia que existe entre las frecuencias esperadas y observadas a través
del estadı́stico de prueba χ2 .
k
2
X (f i − f i )2
o e
χ = (10.6)
i=1
fei
10.3. Ejercicios: Hypotesis testing 157
3. Una partı́cula se mueve aleatoriamente desde el centro de una caja cuadradada de longitud
l = 5. El ángulo para realizar el paso se genera uniformemente entre 0 y 2π y luego se
actualiza la posición actual:
x += lstep * [Link](theta)
y += lstep * [Link](theta)
lstep es el tamaño del paso, use lstep = 0.4 para este experimento. Se quiere medir el
número de pasos promedio que le toma a una partı́cula salir de la caja. Genere N = 200
experimentos guardando el número de pasos que le toma a la partı́cula salir de la caja.
Una posible trayectoria se describe en la Figura [10.1]
a) Eliga una distribución de clases que tenga su valor mı́nimo y máximo en los valores
mı́nimo y máximo de la lista y un ancho de paso h = 15 steps:
bins = [Link](min_,max_+h,h)
Y 3
0
0 1 2 3 4 5
X
Figure 10.1: Trayectoria de la partı́cula (Toy model). En este experimento la partı́cula le tomo
33 pasos salir de la caja.
lbox=5
Exponential Weibull a= 1.47, b=1.10, n=51.57
0.016 Observed
0.014
0.012
0.010
0.008
0.006
0.004
0.002
0.000
25 50 75 100 125 150 175 200
Nsteps
e) Calcule el valor medio de pasos usando los métodos de scipy: mean = [Link](a,c,d,e)
lbox=5
Expected
Observed
50
40
30
20
10
0
25 50 75 100 125 150 175 200
Nsteps
Figure 10.3: Comparación entre la distribución observada y esperada para el número de pasos
de escape de la partı́cula.
g) Calcule el estadı́stico de prueba χ2 : (Ignore las clases que tengan menos de 5 entradas,
es decir las colas de la distribución).
k
X (f i − f i )2
o e
χ2 = (10.7)
i=1
fei
j) Dar la conclusión.
4. En el caso 2D, se divide el espacio entre [0, 1] en k d celdas de igual área, luego se genera
una muestra aleatoria de tamaño 2n (note que el número de eventos es par), podemos
construir n pares no solapados (x0 , x1), (x2 , x3 ), ..., (x2n−1 , x2n ) y estimar la frecuencia
observada de puntos en cada celda. Si suponemos que la hipótesis nula es verdadera, la
frecuencia esperada de puntos en cada celda es:
160 Chapter 10. Pruebas de Hipótesis
n
fei = (10.8)
kd
k
2
X (f i − f i )2o e
χ = (10.9)
i=1
fei
(a) Genere una muestra de 2 ∗ (1000) números aleatorios con el generador de Numpy.
(c) Calcule las frecuencias observadas y estadı́stico de prueba. Guardar los conteos en
objetos M = [Link]((k,k)). En este caso, es posible usar histogramas 2D para
contar los puntos en cada celda.
(e) ¿Valida o rechaza la hipótesis al 95% de nivel de confianza de que los números tienen
una distribución uniforme en d = 2 dimensiones?
0.030
pmf 99
2 (x)
Upper Limit: 123.23
0.025 Observed: 116.40
0.020
0.015
0.010
0.005
0.000
60 80 100 120 140 160
2
Figure 10.4: Distribución χ299 , el valor observado es menor que el valor crı́tico de la distribución.
p − value = 0.111, se acepta H0 .
10.3. Ejercicios: Hypotesis testing 161
5. En el caso 3D, se divide el espacio entre [0, 1] en k d celdas de igual volumen, luego se
genera una muestra aleatoria de tamaño 3n (note que el número de eventos es multiplo de
3), podemos construir n pares no solapados (x0 , x1 , x2 ), (x3 , x4 , x5 ), ..., (x3n−2 , x3n−1 , x3n )
y estimar la frecuencia observada de puntos en cada celda. Si suponemos que la hipótesis
nula es verdadera, la frecuencia esperada de puntos en cada celda es:
n
fei = (10.10)
kd
k
2
X (f i − f i )2
o e
χ = (10.11)
i=1
fei
(a) Genere una muestra de 3 ∗ (1000) números aleatorios con el generador de Numpy.
(b) Use una partición de k = 10 celdas.
(c) Calcule las frecuencias observadas y estadı́stico de prueba. Guardar los conteos en
objetos M = [Link]((k,k,k)).
(d) Calcule el p-value de la observación.
(e) ¿Valida o rechaza la hipótesis al 95% de nivel de confianza de que los números tienen
una distribución uniforme en d = 3 dimensiones?
162 Chapter 10. Pruebas de Hipótesis
pmf 999
2 (x)
0.006
0.004
0.002
0.000
850 900 950 1000 1050 1100 1150
2
Figure 10.5: Distribución χ2999 , el valor observado es menor que el valor crı́tico de la distribución.
p − value = 0.190, se acepta H0 .
References
[2] William Ogilvy Kermack and Anderson G McKendrick. A contribution to the mathematical
theory of epidemics. Proceedings of the royal society of london. Series A, Containing
papers of a mathematical and physical character, 115(772):700–721, 1927, https://
[Link]/doi/pdf/10.1098/rspa.1927.0118.
[3] Rubin H Landau, José Páez, Manuel José Páez Mejı́a, and Cristian C Bordeianu. A survey
of computational physics: introductory computational science. Princeton University Press,
2008, [Link]
[4] Sheldon M Ross. Introduction to probability and statistics for engineers and scientists.
Academic press, 2020.
[5] Ronald E Walpole, Raymond H Myers, Sharon L Myers, and Keying Ye. Probabilidad y
estadı́stica para ingenierı́a y ciencias. 4 Edición, 2007.
163