0% encontró este documento útil (0 votos)
29 vistas40 páginas

Los Probabilísticos

El documento aborda conceptos fundamentales de estadística y aprendizaje automático, incluyendo la importancia de las distribuciones de probabilidad y la regresión. Se discuten métodos de validación, regularización y la relación entre sesgo y varianza en modelos predictivos. Además, se exploran técnicas de inteligencia artificial y su aplicación en el análisis de datos, enfatizando la necesidad de un gobierno de datos y la interpretación de resultados.

Cargado por

jtacosanchezfl
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
29 vistas40 páginas

Los Probabilísticos

El documento aborda conceptos fundamentales de estadística y aprendizaje automático, incluyendo la importancia de las distribuciones de probabilidad y la regresión. Se discuten métodos de validación, regularización y la relación entre sesgo y varianza en modelos predictivos. Además, se exploran técnicas de inteligencia artificial y su aplicación en el análisis de datos, enfatizando la necesidad de un gobierno de datos y la interpretación de resultados.

Cargado por

jtacosanchezfl
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Los probabilísticos: qué distribución sigue una muestra de una data, con que sea p esta bien

A los estadísticos qué les interesa calcular los parámetros para ver la probabilidad versus el
trabajo empírico, pruebas de hipótesis tiene un enfoque paramétrico.

Variable aleatoria: ¿qué lo hace ser una variable aleatoria? En la regresión la variable aletoria
está en el error?

Lo que uno defina que es una variable aleatoria define cómo se va comprender el estudio y
define otros cálculos

T(x)=X

Sobre esto se puede calcular el promedio, estos estadísticos a su vez son variables aleatorias

El estadístico no tiene por qué ser beta

La distribución condiciona los tipos de probabilidad, por ejemplo T, Z

Cuántas distribucicones de probabilidad hay? Hay infinitas distribución de probabilidad como


variables aleatorias,

Cambiar la distribución cambia todo

Poisson, binomial: glm

Cuando se asume que hay variables aleatorias, se asume que hay errores, se

E= 600

C=700

Aproximarnos a una población


En el mundo del censo

En una encuesta cuál es la variable aleatoria: indicatriz que selecciona quién ingresa y quién no
a la muestra. La probabilidad de distribución en la muestra es la variable aleatoria, las otras no
son se puede asumir eso.

Metapoblación basada en el modelo IBM

Regresión ineal bajo diseños muestrales complejos

Cuando N es muy grande, no hay mucho problema, pero cuando N es muy pequeño toca
tomar ciertos cuidados

1-Hipótesis

2-Estadístico de prueba. El p valor viene de los datos

3-Alpha (nivel de significancia)

Tengo la distribución los datos me va dar uno, el T observado. De todos los posibles valores
que podría tomar T hay uno en específico de una hipótesis nula

Regla de oro, si mi p valor es mejor a Alpha entonces rechazo Ho

T y F dependen del tamaño de la muestra

KS Test
Para comparar dos poblaciones, la función de Quito y la función de Gye

La distancia entre la distribución de probabilidad acumulada de la población 1 versus la


población 2. Ese KS tiene asociado un p valor, si esto es significativo me muestra si es
diferente, comparación en distribución que es más potente, más que en un valor de uno o lo
otro

El KS también se utiliza para analizar normalidad

Comparar dos poblaciones, incluso una de ellas puede ser teórica, cuando esto sea 0 la
población que estoy poniendo a prueba sigue esa distribución de probabilidad

KS sea lo más grande posible que discrime entre la población 1 y la población 2. Si quiero
probar normalidad necesito que el KS sea más chico

IA el bosque

El aprendizaje supervisado tiene una variable dependiente principal, este tipo de


problemáticas es súper trasversal. Poder computacional se puede hacer aplicaciones de
aprendizaje supervisado, se puede hacer a través de google collab

Aprendizaje no supervisado: nace en los 60 para identificar patrones

Aprendizaje por refuerzo:

Inteligencia artificial generativa: elementos por refuerzo, lo usa como un apalancamiento,


producir la palabra con muchos esteroides.

Ingenería de datos: variedad, diferentes fuentes de información

Big data: Volumen, variedad


Qué es grande es relativo, un millón ya no es mucho

Facturación electrónica la puedes construir con información macroeconómica

Ciencias sociales se empiezan a enfrentar grandes fuentes de volumen

Volumen: es referencial y comparativo

Variedad: de distinto tipo información diversa

Desafío diferente: tienen que guardar una imagen si es pixelado, vectorial

Velocidad: todo lo que sale de nuestro celular, como sistematizar la información con rapidez,
donde viven las personas y dónde trabajan las personas, la gente no actualiza la información

Valor:

Veracidad:

Gobierno de datos, quiénes van a ser los policías que no existan datos faltantes

Gobernar el dato,

Etapa de maduración de la institución

Supervisado: yo observo la Y

X: independientes, vector de características, para cada fila yo puedo tener múltiples


características (columnas)
Algoritmo a priori análisis de canasto, primeros pininos de lo que hoy se conoce como este
tipo de algoritmos

Combinar distintos métodos, clustering descubre etiqutas con características más claras, árbol
de decisiones

Como te despliego la percha en tu primer pantallazo, imagen para la misma película

Los métodos lineales son más fáciles de interpretar, pero los que se acercan más a los puntos
no son tanfáciles de interpretar
F: función que me permite acercarme a los valores y más crcanos a distintas configuraciones
de X

Datos de entrenamiento, test data

Train y test

Distribución de probabilidad sean iguales en promedio, em machine leargning la distribución


de train sea igual a la distribución de probabilidad de train

Distribución gignate, lo que estamos asumiendo que la distribución de probabilidad de train es


igual a la de train. Esto en experimento es fácil, pero en la vida real es complejo, betas en train

La distribución la probabilidad sobre la que voy hacer la predicción sea similar a la que voy a
hacer el entrenamiento
Polinomios son buenos para aproximar funciones, incluso hacer que pase punto a punto

Miniza el error de test

La línea en verde no hace un mejor trabajo, la línea en verde se pega tanto a los puntos que
cuando yo quiero predecir se vuelve malo, porque permite incorporar nueva información
Se llega más rápido al punto de error, entre más linealidad exista, menos complejidad
necesito.

Implementar un logit es una ecuación, a través de un objeto

Te decantas por una F, esto es elegir un método, como hacer un metal algoritmo que también
te elija el método

Cuál es la compensación entre sesgo y varianza


Error irreducible, por muchoque mejore su modelo no disminuye de la volatilidad de los datos,
en la F uno puede intentar reducir los errores de producción (Bias). A medida que aumenta la
complejidad aumenta la volatilidad de los datos, al aumentar la complejidad me aproximo más
a la real.

Mínimo error de predicción no coincide con la mínima varianza

Predicción

Varianza

Error

Cros valildación

Boostrap: guardar un promedio, una distribución del promedio

Cross validación para múltiples métodos: es necesario tener este principio claro

Rigde y Lasso: seleccionar variables, esto no me implica que debe crear columnas objetivo de
crear distintas x
Índice compuesto cuando hay dos variables muy parecidas, importa el tema de la
interpretabilidad

Tangente hiperbólica

Hay problemas cuando n tiende a p, el problema es que se tiende a inflar la desviación


estándar de los datos

Esto no me permite generalizar, overfit

Temas de multicolinialidad

N tiende a p

N es mayor que p

Métodos de regularización: los algorimos son inspirados en fuerza bruta, se va puliendo la


aproximación de la teoría, selección de las mejores variables

Modelo nulo sin predictores: solo predice la media muestral

X1, X2….p

Cuántos posibles modelos podría haber si hay cinco variables cuántos modelos podrían existir
R2: trata de ajustar por lo que perdí por los parámetros que estime, si yo tengo poca
información yo tengo que jugar bien las cartas, métricas y de más

Si tengo muchos datos la importancia del N de observaciones disminuye

Matriz de diseño, tienen una y

Importancia de las matrices para los cálculos

Todo el train (datos de entrenamiento) debe ser pulido y luego el test (datos teóricos)

Rich y Lazzo
Los betas deben ser comparables, sino se estandariza no puedo comparar los betas

Logaritmo de odd

Los resultados

0.3 por cada unidad de x el logaritmo del log aumenta

Logit una vez realizada la predicción

Matrices de confusión:

Accurracy no es lo mismo que presiciión

Logist y árboles de decisión cómo decidir y qué hacer

Basilea 3 el “riesgo” del modelo

Modelo predicho, modelo real

Cuando está en productivo lo que analizamos es x

Riesgo del modelo

Datos

Fuentes

Mecanismo de implementación el que cambio, el modelo es tu primera capa de ataque,


contrastar los resultados

Model risk management

188 modelos operando todo el tiempo, administración de los modelos MLLops es una de las
formas de operativizar el modelo

Data y meta data ´

Los modelos dejan metadatos: variable predicha a quién califico cuando califico:
Cuando la probabilidad es igual a 0.5 tengo más información: algo que me ayude a tomar
decisiones, que me ayude a decidir

Hay más información es cuando se aleja del 0.5 donde hay más información es donde hay
máxima entropía

La entropía es un mecanismo que me permite tener más información para decidir (¿decidir
qué?)

InfoGain(F)= entropy(s1)-entropy (s2)

Algoritmo va probando dónde tiene el mayor infogain ese es el corte

Entre más grande sea el infogain es mucho mejor

K-means

Tres algoritmos que nacen de tres conceptos fundamentales:

Trabajo de predicción

El entregable script código que resuelve lo más comentado posible, nombres de los
participantes- El código lo más comentado posible
Archivo CSV con la predicción realizada, el archivo CSV. Al agregar esa columna están
agregando el poder predictivo que ustedes hayan obtenido

La métrica F! score el grupo con el mejor de la clase obentrá la nta máxima. Las demás
calificaciones linealmente confome se lajen del F1 máximo

Algoritmo K-Means

Aprendizaje no supervisado, ¿conceptos de la estadística multivariante? Análisis de


conglomerados

Varianza interna baja y varianza externa alta

ACP: es una combinación lineal al combinar las calificaciones de las personas descubrir una
variable latente, el promedio en los datos no existe. Esto permite reducir la dimensionalidad
del conjunto de datos originales

1. Controlar las columnas


2. Matriz de varianza y covarianza (matriz cuadrada)
3. Vectores y valores propios de S

Vectores lambda: estos vectores de que dimensión son, p*p cada vector es de dimensión P:
tres vectores de dimensión de dimensión 3: valor propio

Z1 recoge información de todas las x: resumen la matriz x

Z1 tiene la mayor varianza explicada el lambda asociado a ese z representa la varianza


asociada a ese z

Grupo 1, 2,3: asignar una etiqueta pequeña regla para identificar: en general el clustering tu
puedes hacer

Cómo representar la matriz p por p, valores y vectores propios

Columnas de z si la columna x está muy cargada de correlación


Panorama de la inteligencia artificial

¿Qué va a pasar?

Judea Pearl “The book of why”

Cómo toda esta pelea con la estadística clásica cambia con los nuevos datos o los problemas
siguen ahí

Estas nuevas tecnologías son una varita mágica

¿Cuál es la utilidad de estas nuevas técnicas?

Escalera de la causalidad

Ver (Hume) ---> Hacer ---> Imaginar (contrafactuales) ---> ¿complejidad? --->

Econometría clásica: ver y hacer, poco en el tres: imaginar

P(X1.,, xm, y) predecir estimar un modelo depende de unos ciertos parámetros, minizar una
función de costo

Modelo lineal: y=xb+error

B=(xx)xy
Inferencia: llegar a una conclusión sobre valores poblaciones con base en lo que observmos en
el modelo

Exógenidad fuerte, no solamente la débil para ver lo causal, estimadores insesgados


homocedasticidad y no correlación

Dos fenómenos: número de observaciones y número de variables que tenemos: t+ecmocas de


machine learning

Teorema del límite central cuando N crece la distribución va tender hacia lo normal: ventaja de
la revolución que estamos viendo

Riesgo de sobreajuste: que termine ajustándose al error y no sirva para la predicción, lasso y
richie, estamos penalizando la inclusión de nuevos parámetros

Validación cruzada: número de parámetros

La paradoja de Simpson: La paradoja de Simpson es un fenómeno estadístico


fascinante y contraintuitivo que ocurre cuando:

Una tendencia que aparece en varios grupos de datos desaparece o se invierte


cuando esos grupos se combinan.
Mientras más variables se vayan incluyendo va tender a 1 sin que sea real y que sea espurea

Más variables implican signficancias no tan estables

Hacer

Diseño experimental

Diferencias en diferencias

Variables instrumentales

IA auto-Ml: autogluon)

Los resultados de las predicciones de cada modelo los alimienta a modelos simliares, alimenta
modelos similiares con las predicciones

Mejores modelos los va a combinar y va sacar un modelo modelo

Cómo

Shap valor de shaple para juegos cooperativos

La importancia de la variable en todo el modelo,

Los betas eran variables aleatorias y nos importaba conocer la distribución de esas variables
aleatorias

Bootstrap

Test de normalidad de los errores: Bootstrap con las observaciones, coeficientes de shap

Ordenar las contribuciones de la IA abordar el tema del crecimiento de la información

Automática desde a perspectiva del algebra

DAG: gráficos directos aciclicos

Probablidad conjunta de todas las varialbes viendo el gráfico y con respecto a qué tienes
condicionar tu regresión
Cage: funciona en la medida en que el investigador promueva un diagrama causal, la
concepción que tiene el investigador de cómo funciona las cosas, independencias causales y la
maquina puede chequear el diagrama causal

Ecuaciones diferenciales: equilibrios múltiples,

Causalidad circular: ecuaciones diferenciales

Independencia condicional

Redes neuronales: qué son, ver el modelo

Qué es una neurona: denditras reciben información, se enciende 0 y 1 sipnasis

Impulsos que son valores pueden ser continuos

Función de activación no lineal

Softmax: función de activaciónpuede: los a


Red neuronal explicación
Un recorrido de la muestra se llama una época, refrescando los parámetros del modelo en
cada bache

Algoritmos genéticos: tu modelo depende un vector de parámetros, minimizar alguna función


que le voy a llamar P

Cuáles son las funciones de activación que voy a utilizar?

Símil en
¿Por qué es
Bloque ¿Qué hacemos? econometría /
necesario?
ciencia política
Garantiza que
Elegir
el ejemplo sea
set.seed() en
1. reproducible:
Cargamos bibliotecas y fijamos R o set seed
Importaciones mismos datos
torch.manual_seed(0). en Stata antes de
& semilla aleatorios →
simular una
mismos
encuesta.
resultados.
Son “botones”
que controlan
Decidir cuántas
el
2. iteraciones corre
Definimos tasa de aprendizaje LR, entrenamiento
Hiperparámet el optimizador
número de épocas EPOCHS, etc. : cuánto y
ros BFGS de
cuántas veces
mlogit.
ajustamos los
coeficientes.
PyTorch
necesita Leer la base
Creamos X (predictor) y Y tensores LAPOP y
3. Datos (resultado). En proyectos reales, aquí (matrices) seleccionar
cargarías tu CSV o Stata. para poder columnas para
derivar con un reg en Stata.
autograd.
Encapsula los
parámetros (w,
b) y cómo Declarar un
class SimpleLinReg(nn.Module) transformar modelo en
4. Modelo define Y^=wX+b\hat{Y}=wX+b. los datos en fórmula de R:
predicciones lm(Y ~ X).
(el “forward
pass”).
Símil en
¿Por qué es
Bloque ¿Qué hacemos? econometría /
necesario?
ciencia política
Convierte la
discrepancia
entre datos y El sum of
nn.MSELoss() calcula predicciones squared
5. Función de
1n∑(Y−Y^)2\frac{1}{n}\sum (Y- en un número residuals que
pérdida
\hat{Y})^2. que el minimizas en
optimizador OLS.
pueda
minimizar.
Decide cómo
mover los
torch.optim.SGD(model.paramete
coeficientes El algoritmo de
6. para que la Newton o Quasi-
rs(), lr=LR) implementa descenso
Optimizador pérdida baje; Newton que usa
por gradiente estocástico.
lr es el logit en Stata.
tamaño de
cada paso.
Este bucle va
“escalando” la
Por cada época: 1) Forward: recta para que
producimos Y^\hat{Y}.2) Loss: se acerque a
medimos error.3) Backward: los puntos. El “iter =
loss.backward() aplica la regla de Repetirlo 0/1/2/…converg
7. Ciclo de
la cadena y obtiene ∂Loss/∂w, muchas veces ed” que ves en la
entrenamiento
∂Loss/∂b.4) step(): actualiza los es análogo a consola cuando
parámetros.5) zero_grad(): pone los iterar en un corres mlogit.
gradientes a cero para la siguiente método
vuelta. numérico
hasta la
convergencia.
Ya no
queremos
aprender, solo El paso posterior
Con torch.no_grad() desactivamos
medir a la estimación
8. Evaluación el cálculo de gradientes y sacamos
desempeño y donde obtienes
preds = model(X).
extraer coef, se, R².
coeficientes
para el paper.
Una imagen
vale mil El gráfico de
tablas: dispersión con
9.
Graficamos puntos rojos (datos) + muestra ajuste línea OLS que
Visualización /
línea azul (recta ajustada). y outliers. incluyes en un
guardado
También apéndice
podríamos metodológico.
torch.save(
Símil en
¿Por qué es
Bloque ¿Qué hacemos? econometría /
necesario?
ciencia política
) para
reproducibilid
ad.

Objeto, atributos,

Red neuronal, larga y compleja

Aprendizaje por refuerzo

Optimización se desarrolló en la II Guerra Mundial


El estado actual define cuál es tu estado futuro, si yo estoy empleado ahora y hago un esfuerzo
puedo modificar la probabilidad.-

Recompensa al futo, pateando el problema al infinita en una secuencia de acciones


El tiempo es finito, t mayúscula en lugar de infinito

Teorema del punto fijo, tiene una relacón con lo anterior

Cómo calcular sobre un tiempo infinito

Quick learning y Deep learning


Teorema del punto fijo
Explicación matemática, creo que sirve para corregir por favor punto fijo,

Una de las claves de la matemática es ponerle un nombre a lo que no sabemos

Matrices tridimensionales, el valor presente de todas las recompensas, las recompensas del
futuro en el día 1000 depende lo que hayas hecho en el presente.
Mecanismo de agregación de estimaciones para tomar decisiones, con base en datos
estimados con las variaciones, las predicciones que hacen estos modelos sirven de insumo
para las siguientes fases. Nuestra variable dependiente es binomial (dicotómica)

La agregación ¿cómo se hace? Está tomando los valores de los distintos estadísticos como
insumos.

Los modelos destacaban distintas formas: descomponiendo la imagen la pregunta en sus


distintas partes, tendencias, estacionalidad, probabilidades, el tipo de ruido que va quedando
libre, se puede hacer esa descomposición

Cuando esto funciona, cuando hay un solo criterio que es la capacidad predictiva

Inferir hacer

Shap values

Los riesgos que corremos, shap values cómo causalidad,

Shapley gano un premio nobel grupo que estaba en Pricenton


Valor de Shapley cuánto vale la contribucón de cada individuo

Newman La metodología para hacer ciencia era hacer axiomas, esa idea la tomo Nash, qué
características debería tener mi resultado

Si todos votan por algo, ese algo debería ser electo, no hay ningún mecanismo de la
imposibilidad de Arrow

Enfoque de los axiomas vino desde la matemática: Arrow, Nash

Valor que tiene Shapley, valores son eficiencia

Cada uno de los nombres va hacer esa variable, una forma objetiva de controla cuanto
contribuye cada uno. La intución es que entre más numeroso, menos peso tenga cada una de
las observaciones, tu quieres darle menos peso a una observación si la clase a la que pertenece
es más común

Cada clase se da por el tamaño de la coalición electoral

Número de observaciones que tienes en cada clase y nos aseguramos que los pesos sumen 1

Los individuos se transforman en variables

Shapley values
Cuáles son los pesos?

Un promedio de sus contribuciones,

Sumatoria, peso contribución de “i” a la coalición S)

Cuántas coaliciones de tamaño 3 puedo obtener


Modelos Shapler

Tiens serios limitaciones con el Shap, que ya es globla

También podría gustarte