Los probabilísticos: qué distribución sigue una muestra de una data, con que sea p esta bien
A los estadísticos qué les interesa calcular los parámetros para ver la probabilidad versus el
trabajo empírico, pruebas de hipótesis tiene un enfoque paramétrico.
Variable aleatoria: ¿qué lo hace ser una variable aleatoria? En la regresión la variable aletoria
está en el error?
Lo que uno defina que es una variable aleatoria define cómo se va comprender el estudio y
define otros cálculos
T(x)=X
Sobre esto se puede calcular el promedio, estos estadísticos a su vez son variables aleatorias
El estadístico no tiene por qué ser beta
La distribución condiciona los tipos de probabilidad, por ejemplo T, Z
Cuántas distribucicones de probabilidad hay? Hay infinitas distribución de probabilidad como
variables aleatorias,
Cambiar la distribución cambia todo
Poisson, binomial: glm
Cuando se asume que hay variables aleatorias, se asume que hay errores, se
E= 600
C=700
Aproximarnos a una población
En el mundo del censo
En una encuesta cuál es la variable aleatoria: indicatriz que selecciona quién ingresa y quién no
a la muestra. La probabilidad de distribución en la muestra es la variable aleatoria, las otras no
son se puede asumir eso.
Metapoblación basada en el modelo IBM
Regresión ineal bajo diseños muestrales complejos
Cuando N es muy grande, no hay mucho problema, pero cuando N es muy pequeño toca
tomar ciertos cuidados
1-Hipótesis
2-Estadístico de prueba. El p valor viene de los datos
3-Alpha (nivel de significancia)
Tengo la distribución los datos me va dar uno, el T observado. De todos los posibles valores
que podría tomar T hay uno en específico de una hipótesis nula
Regla de oro, si mi p valor es mejor a Alpha entonces rechazo Ho
T y F dependen del tamaño de la muestra
KS Test
Para comparar dos poblaciones, la función de Quito y la función de Gye
La distancia entre la distribución de probabilidad acumulada de la población 1 versus la
población 2. Ese KS tiene asociado un p valor, si esto es significativo me muestra si es
diferente, comparación en distribución que es más potente, más que en un valor de uno o lo
otro
El KS también se utiliza para analizar normalidad
Comparar dos poblaciones, incluso una de ellas puede ser teórica, cuando esto sea 0 la
población que estoy poniendo a prueba sigue esa distribución de probabilidad
KS sea lo más grande posible que discrime entre la población 1 y la población 2. Si quiero
probar normalidad necesito que el KS sea más chico
IA el bosque
El aprendizaje supervisado tiene una variable dependiente principal, este tipo de
problemáticas es súper trasversal. Poder computacional se puede hacer aplicaciones de
aprendizaje supervisado, se puede hacer a través de google collab
Aprendizaje no supervisado: nace en los 60 para identificar patrones
Aprendizaje por refuerzo:
Inteligencia artificial generativa: elementos por refuerzo, lo usa como un apalancamiento,
producir la palabra con muchos esteroides.
Ingenería de datos: variedad, diferentes fuentes de información
Big data: Volumen, variedad
Qué es grande es relativo, un millón ya no es mucho
Facturación electrónica la puedes construir con información macroeconómica
Ciencias sociales se empiezan a enfrentar grandes fuentes de volumen
Volumen: es referencial y comparativo
Variedad: de distinto tipo información diversa
Desafío diferente: tienen que guardar una imagen si es pixelado, vectorial
Velocidad: todo lo que sale de nuestro celular, como sistematizar la información con rapidez,
donde viven las personas y dónde trabajan las personas, la gente no actualiza la información
Valor:
Veracidad:
Gobierno de datos, quiénes van a ser los policías que no existan datos faltantes
Gobernar el dato,
Etapa de maduración de la institución
Supervisado: yo observo la Y
X: independientes, vector de características, para cada fila yo puedo tener múltiples
características (columnas)
Algoritmo a priori análisis de canasto, primeros pininos de lo que hoy se conoce como este
tipo de algoritmos
Combinar distintos métodos, clustering descubre etiqutas con características más claras, árbol
de decisiones
Como te despliego la percha en tu primer pantallazo, imagen para la misma película
Los métodos lineales son más fáciles de interpretar, pero los que se acercan más a los puntos
no son tanfáciles de interpretar
F: función que me permite acercarme a los valores y más crcanos a distintas configuraciones
de X
Datos de entrenamiento, test data
Train y test
Distribución de probabilidad sean iguales en promedio, em machine leargning la distribución
de train sea igual a la distribución de probabilidad de train
Distribución gignate, lo que estamos asumiendo que la distribución de probabilidad de train es
igual a la de train. Esto en experimento es fácil, pero en la vida real es complejo, betas en train
La distribución la probabilidad sobre la que voy hacer la predicción sea similar a la que voy a
hacer el entrenamiento
Polinomios son buenos para aproximar funciones, incluso hacer que pase punto a punto
Miniza el error de test
La línea en verde no hace un mejor trabajo, la línea en verde se pega tanto a los puntos que
cuando yo quiero predecir se vuelve malo, porque permite incorporar nueva información
Se llega más rápido al punto de error, entre más linealidad exista, menos complejidad
necesito.
Implementar un logit es una ecuación, a través de un objeto
Te decantas por una F, esto es elegir un método, como hacer un metal algoritmo que también
te elija el método
Cuál es la compensación entre sesgo y varianza
Error irreducible, por muchoque mejore su modelo no disminuye de la volatilidad de los datos,
en la F uno puede intentar reducir los errores de producción (Bias). A medida que aumenta la
complejidad aumenta la volatilidad de los datos, al aumentar la complejidad me aproximo más
a la real.
Mínimo error de predicción no coincide con la mínima varianza
Predicción
Varianza
Error
Cros valildación
Boostrap: guardar un promedio, una distribución del promedio
Cross validación para múltiples métodos: es necesario tener este principio claro
Rigde y Lasso: seleccionar variables, esto no me implica que debe crear columnas objetivo de
crear distintas x
Índice compuesto cuando hay dos variables muy parecidas, importa el tema de la
interpretabilidad
Tangente hiperbólica
Hay problemas cuando n tiende a p, el problema es que se tiende a inflar la desviación
estándar de los datos
Esto no me permite generalizar, overfit
Temas de multicolinialidad
N tiende a p
N es mayor que p
Métodos de regularización: los algorimos son inspirados en fuerza bruta, se va puliendo la
aproximación de la teoría, selección de las mejores variables
Modelo nulo sin predictores: solo predice la media muestral
X1, X2….p
Cuántos posibles modelos podría haber si hay cinco variables cuántos modelos podrían existir
R2: trata de ajustar por lo que perdí por los parámetros que estime, si yo tengo poca
información yo tengo que jugar bien las cartas, métricas y de más
Si tengo muchos datos la importancia del N de observaciones disminuye
Matriz de diseño, tienen una y
Importancia de las matrices para los cálculos
Todo el train (datos de entrenamiento) debe ser pulido y luego el test (datos teóricos)
Rich y Lazzo
Los betas deben ser comparables, sino se estandariza no puedo comparar los betas
Logaritmo de odd
Los resultados
0.3 por cada unidad de x el logaritmo del log aumenta
Logit una vez realizada la predicción
Matrices de confusión:
Accurracy no es lo mismo que presiciión
Logist y árboles de decisión cómo decidir y qué hacer
Basilea 3 el “riesgo” del modelo
Modelo predicho, modelo real
Cuando está en productivo lo que analizamos es x
Riesgo del modelo
Datos
Fuentes
Mecanismo de implementación el que cambio, el modelo es tu primera capa de ataque,
contrastar los resultados
Model risk management
188 modelos operando todo el tiempo, administración de los modelos MLLops es una de las
formas de operativizar el modelo
Data y meta data ´
Los modelos dejan metadatos: variable predicha a quién califico cuando califico:
Cuando la probabilidad es igual a 0.5 tengo más información: algo que me ayude a tomar
decisiones, que me ayude a decidir
Hay más información es cuando se aleja del 0.5 donde hay más información es donde hay
máxima entropía
La entropía es un mecanismo que me permite tener más información para decidir (¿decidir
qué?)
InfoGain(F)= entropy(s1)-entropy (s2)
Algoritmo va probando dónde tiene el mayor infogain ese es el corte
Entre más grande sea el infogain es mucho mejor
K-means
Tres algoritmos que nacen de tres conceptos fundamentales:
Trabajo de predicción
El entregable script código que resuelve lo más comentado posible, nombres de los
participantes- El código lo más comentado posible
Archivo CSV con la predicción realizada, el archivo CSV. Al agregar esa columna están
agregando el poder predictivo que ustedes hayan obtenido
La métrica F! score el grupo con el mejor de la clase obentrá la nta máxima. Las demás
calificaciones linealmente confome se lajen del F1 máximo
Algoritmo K-Means
Aprendizaje no supervisado, ¿conceptos de la estadística multivariante? Análisis de
conglomerados
Varianza interna baja y varianza externa alta
ACP: es una combinación lineal al combinar las calificaciones de las personas descubrir una
variable latente, el promedio en los datos no existe. Esto permite reducir la dimensionalidad
del conjunto de datos originales
1. Controlar las columnas
2. Matriz de varianza y covarianza (matriz cuadrada)
3. Vectores y valores propios de S
Vectores lambda: estos vectores de que dimensión son, p*p cada vector es de dimensión P:
tres vectores de dimensión de dimensión 3: valor propio
Z1 recoge información de todas las x: resumen la matriz x
Z1 tiene la mayor varianza explicada el lambda asociado a ese z representa la varianza
asociada a ese z
Grupo 1, 2,3: asignar una etiqueta pequeña regla para identificar: en general el clustering tu
puedes hacer
Cómo representar la matriz p por p, valores y vectores propios
Columnas de z si la columna x está muy cargada de correlación
Panorama de la inteligencia artificial
¿Qué va a pasar?
Judea Pearl “The book of why”
Cómo toda esta pelea con la estadística clásica cambia con los nuevos datos o los problemas
siguen ahí
Estas nuevas tecnologías son una varita mágica
¿Cuál es la utilidad de estas nuevas técnicas?
Escalera de la causalidad
Ver (Hume) ---> Hacer ---> Imaginar (contrafactuales) ---> ¿complejidad? --->
Econometría clásica: ver y hacer, poco en el tres: imaginar
P(X1.,, xm, y) predecir estimar un modelo depende de unos ciertos parámetros, minizar una
función de costo
Modelo lineal: y=xb+error
B=(xx)xy
Inferencia: llegar a una conclusión sobre valores poblaciones con base en lo que observmos en
el modelo
Exógenidad fuerte, no solamente la débil para ver lo causal, estimadores insesgados
homocedasticidad y no correlación
Dos fenómenos: número de observaciones y número de variables que tenemos: t+ecmocas de
machine learning
Teorema del límite central cuando N crece la distribución va tender hacia lo normal: ventaja de
la revolución que estamos viendo
Riesgo de sobreajuste: que termine ajustándose al error y no sirva para la predicción, lasso y
richie, estamos penalizando la inclusión de nuevos parámetros
Validación cruzada: número de parámetros
La paradoja de Simpson: La paradoja de Simpson es un fenómeno estadístico
fascinante y contraintuitivo que ocurre cuando:
Una tendencia que aparece en varios grupos de datos desaparece o se invierte
cuando esos grupos se combinan.
Mientras más variables se vayan incluyendo va tender a 1 sin que sea real y que sea espurea
Más variables implican signficancias no tan estables
Hacer
Diseño experimental
Diferencias en diferencias
Variables instrumentales
IA auto-Ml: autogluon)
Los resultados de las predicciones de cada modelo los alimienta a modelos simliares, alimenta
modelos similiares con las predicciones
Mejores modelos los va a combinar y va sacar un modelo modelo
Cómo
Shap valor de shaple para juegos cooperativos
La importancia de la variable en todo el modelo,
Los betas eran variables aleatorias y nos importaba conocer la distribución de esas variables
aleatorias
Bootstrap
Test de normalidad de los errores: Bootstrap con las observaciones, coeficientes de shap
Ordenar las contribuciones de la IA abordar el tema del crecimiento de la información
Automática desde a perspectiva del algebra
DAG: gráficos directos aciclicos
Probablidad conjunta de todas las varialbes viendo el gráfico y con respecto a qué tienes
condicionar tu regresión
Cage: funciona en la medida en que el investigador promueva un diagrama causal, la
concepción que tiene el investigador de cómo funciona las cosas, independencias causales y la
maquina puede chequear el diagrama causal
Ecuaciones diferenciales: equilibrios múltiples,
Causalidad circular: ecuaciones diferenciales
Independencia condicional
Redes neuronales: qué son, ver el modelo
Qué es una neurona: denditras reciben información, se enciende 0 y 1 sipnasis
Impulsos que son valores pueden ser continuos
Función de activación no lineal
Softmax: función de activaciónpuede: los a
Red neuronal explicación
Un recorrido de la muestra se llama una época, refrescando los parámetros del modelo en
cada bache
Algoritmos genéticos: tu modelo depende un vector de parámetros, minimizar alguna función
que le voy a llamar P
Cuáles son las funciones de activación que voy a utilizar?
Símil en
¿Por qué es
Bloque ¿Qué hacemos? econometría /
necesario?
ciencia política
Garantiza que
Elegir
el ejemplo sea
set.seed() en
1. reproducible:
Cargamos bibliotecas y fijamos R o set seed
Importaciones mismos datos
torch.manual_seed(0). en Stata antes de
& semilla aleatorios →
simular una
mismos
encuesta.
resultados.
Son “botones”
que controlan
Decidir cuántas
el
2. iteraciones corre
Definimos tasa de aprendizaje LR, entrenamiento
Hiperparámet el optimizador
número de épocas EPOCHS, etc. : cuánto y
ros BFGS de
cuántas veces
mlogit.
ajustamos los
coeficientes.
PyTorch
necesita Leer la base
Creamos X (predictor) y Y tensores LAPOP y
3. Datos (resultado). En proyectos reales, aquí (matrices) seleccionar
cargarías tu CSV o Stata. para poder columnas para
derivar con un reg en Stata.
autograd.
Encapsula los
parámetros (w,
b) y cómo Declarar un
class SimpleLinReg(nn.Module) transformar modelo en
4. Modelo define Y^=wX+b\hat{Y}=wX+b. los datos en fórmula de R:
predicciones lm(Y ~ X).
(el “forward
pass”).
Símil en
¿Por qué es
Bloque ¿Qué hacemos? econometría /
necesario?
ciencia política
Convierte la
discrepancia
entre datos y El sum of
nn.MSELoss() calcula predicciones squared
5. Función de
1n∑(Y−Y^)2\frac{1}{n}\sum (Y- en un número residuals que
pérdida
\hat{Y})^2. que el minimizas en
optimizador OLS.
pueda
minimizar.
Decide cómo
mover los
torch.optim.SGD(model.paramete
coeficientes El algoritmo de
6. para que la Newton o Quasi-
rs(), lr=LR) implementa descenso
Optimizador pérdida baje; Newton que usa
por gradiente estocástico.
lr es el logit en Stata.
tamaño de
cada paso.
Este bucle va
“escalando” la
Por cada época: 1) Forward: recta para que
producimos Y^\hat{Y}.2) Loss: se acerque a
medimos error.3) Backward: los puntos. El “iter =
loss.backward() aplica la regla de Repetirlo 0/1/2/…converg
7. Ciclo de
la cadena y obtiene ∂Loss/∂w, muchas veces ed” que ves en la
entrenamiento
∂Loss/∂b.4) step(): actualiza los es análogo a consola cuando
parámetros.5) zero_grad(): pone los iterar en un corres mlogit.
gradientes a cero para la siguiente método
vuelta. numérico
hasta la
convergencia.
Ya no
queremos
aprender, solo El paso posterior
Con torch.no_grad() desactivamos
medir a la estimación
8. Evaluación el cálculo de gradientes y sacamos
desempeño y donde obtienes
preds = model(X).
extraer coef, se, R².
coeficientes
para el paper.
Una imagen
vale mil El gráfico de
tablas: dispersión con
9.
Graficamos puntos rojos (datos) + muestra ajuste línea OLS que
Visualización /
línea azul (recta ajustada). y outliers. incluyes en un
guardado
También apéndice
podríamos metodológico.
torch.save(
Símil en
¿Por qué es
Bloque ¿Qué hacemos? econometría /
necesario?
ciencia política
) para
reproducibilid
ad.
Objeto, atributos,
Red neuronal, larga y compleja
Aprendizaje por refuerzo
Optimización se desarrolló en la II Guerra Mundial
El estado actual define cuál es tu estado futuro, si yo estoy empleado ahora y hago un esfuerzo
puedo modificar la probabilidad.-
Recompensa al futo, pateando el problema al infinita en una secuencia de acciones
El tiempo es finito, t mayúscula en lugar de infinito
Teorema del punto fijo, tiene una relacón con lo anterior
Cómo calcular sobre un tiempo infinito
Quick learning y Deep learning
Teorema del punto fijo
Explicación matemática, creo que sirve para corregir por favor punto fijo,
Una de las claves de la matemática es ponerle un nombre a lo que no sabemos
Matrices tridimensionales, el valor presente de todas las recompensas, las recompensas del
futuro en el día 1000 depende lo que hayas hecho en el presente.
Mecanismo de agregación de estimaciones para tomar decisiones, con base en datos
estimados con las variaciones, las predicciones que hacen estos modelos sirven de insumo
para las siguientes fases. Nuestra variable dependiente es binomial (dicotómica)
La agregación ¿cómo se hace? Está tomando los valores de los distintos estadísticos como
insumos.
Los modelos destacaban distintas formas: descomponiendo la imagen la pregunta en sus
distintas partes, tendencias, estacionalidad, probabilidades, el tipo de ruido que va quedando
libre, se puede hacer esa descomposición
Cuando esto funciona, cuando hay un solo criterio que es la capacidad predictiva
Inferir hacer
Shap values
Los riesgos que corremos, shap values cómo causalidad,
Shapley gano un premio nobel grupo que estaba en Pricenton
Valor de Shapley cuánto vale la contribucón de cada individuo
Newman La metodología para hacer ciencia era hacer axiomas, esa idea la tomo Nash, qué
características debería tener mi resultado
Si todos votan por algo, ese algo debería ser electo, no hay ningún mecanismo de la
imposibilidad de Arrow
Enfoque de los axiomas vino desde la matemática: Arrow, Nash
Valor que tiene Shapley, valores son eficiencia
Cada uno de los nombres va hacer esa variable, una forma objetiva de controla cuanto
contribuye cada uno. La intución es que entre más numeroso, menos peso tenga cada una de
las observaciones, tu quieres darle menos peso a una observación si la clase a la que pertenece
es más común
Cada clase se da por el tamaño de la coalición electoral
Número de observaciones que tienes en cada clase y nos aseguramos que los pesos sumen 1
Los individuos se transforman en variables
Shapley values
Cuáles son los pesos?
Un promedio de sus contribuciones,
Sumatoria, peso contribución de “i” a la coalición S)
Cuántas coaliciones de tamaño 3 puedo obtener
Modelos Shapler
Tiens serios limitaciones con el Shap, que ya es globla