0% encontró este documento útil (0 votos)
14 vistas48 páginas

Resumen Datos

El documento es una introducción a la ciencia de datos, que abarca desde su definición hasta la obtención y análisis de datos. Se exploran conceptos clave como inferencia estadística, tipos de variables y modelos, así como la importancia de la exploración de datos para la formulación de modelos adecuados. Además, se discuten las distintas formas de datos y su obtención, así como técnicas de análisis exploratorio.

Cargado por

Andres Mancini
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
14 vistas48 páginas

Resumen Datos

El documento es una introducción a la ciencia de datos, que abarca desde su definición hasta la obtención y análisis de datos. Se exploran conceptos clave como inferencia estadística, tipos de variables y modelos, así como la importancia de la exploración de datos para la formulación de modelos adecuados. Además, se discuten las distintas formas de datos y su obtención, así como técnicas de análisis exploratorio.

Cargado por

Andres Mancini
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Introducción a la ciencia de datos

Clase 1 - ¿Qué es la ciencia de datos?................................................................................ 2


Clase 2 - Obtención y lectura de datos................................................................................ 5
Clase 3 - Análisis exploratorio de los datos - Datos independientes............................... 9
Clase 4 - Analisis exploratorio de datos (Parte 2) - Datos correlacionados...................17
Clase 5 - Repaso de probabilidad.......................................................................................21
Clase 6 - Introduccion a la inferencia estadística............................................................. 30
Clase 7 - Introducción a la inferencia estadística parte 2................................................ 35
Clase 8 - Uso y evaluación de modelos............................................................................. 40
Clase 1 - ¿Qué es la ciencia de datos?

La ciencia de datos tiene distintas definiciones según los autores que lo describan. Algunas
de las más conocidas son las siguientes:

- “Es el estudio de la extracción generalizable de conocimiento de los datos”


- “Es el campo interdisciplinario que usa sistemas computacionales para extraer
conocimiento de datos estructurados y no-estructurados”
- “…obtener datos, entenderlos, procesarlos, extraer valor, visualizarlos y
comunicarlos…” (la mas facil de entender)

Se puede notar que a pesar de ser 3 definiciones distintas, todas tienen algo en común. Es
decir, que la ciencia de datos no es más que obtener los datos (pueden venir en forma de
imagen, tabla, pulsos, etc), y mediante un conjunto de procesos sacarles provecho, o
dicho de otra forma extraer información significativa.

Y para qué nos sirve? ¿Por qué necesitamos de la ciencia de datos?

Pueden servir para muchas aplicaciones, como por ejemplo:


- Poder predecir y simular escenarios futuros
- Filtrar información
- Armar una base de datos
- Entender el comportamiento de materiales

Además de estos ejemplos genéricos, existen muchas más aplicaciones en específico.


Como lo puede ser por ejemplo el de determinar la resistencia de los bulones en un control
de calidad, o determinar la intensidad sísmica a partir de un registro de vibraciones por
pulso, entre otros.

En definitiva, la ciencia de datos nace porque quiero responder preguntas en el mundo


real. Pongamos un ejemplo:

¿Cuál es la resistencia de los bulones?

Para responder esta pregunta necesitamos DATOS, por lo que sacamos una muestra y
ensayamos obteniendo este resultado:

Y si ahora pregunto de vuelta, cual es la resistencia de los bulones? la sabemos?

No exactamente, pero lo que sí sabemos es que está dentro de un determinado rango de


valores. Por lo que para obtener la respuesta, necesitamos proponer un “modelo” y realizar
una inferencia. Un ejemplo de modelo para este caso podría ser el de proponer que la
resistencia de los bulones es igual a 4 más/menos un error. Pero podría venir otra persona,
y proponer otro modelo que también sea válido. (Ahí ya extrajimos los datos, y estamos
transitando el proceso para extraerles valor)

Estos modelos/métodos se pueden clasificar en:

1. Inductivos (Lo que vamos a estudiar)


Son aquellos en los que se parte de observaciones y luego se generaliza un
resultado. Por ejemplo: A partir de “x” bulones, determinar la resistencia de los
restantes.

2. Deductivos
Aquellos en los que a partir de premisas, se deduce lógicamente la conclusión.

Entonces, para hacer inferencias necesitamos proponer un modelo (una explicación) para
los datos. Pero, ¿qué es una inferencia?

Volviendo al ejemplo de los bulones, yo medí la resistencia de los bulones de la muestra


pero no es el resultado que me interesa. Sino que me interesa saber que resistencia tienen
los OTROS bulones. Entonces, este proceso de determinar la resistencia de los bulones
restantes se llama inferencia estadística. La respuesta no está en la muestra, sino en la
población, y es por eso que se requiere de un modelo.

Algunas aclaraciones sobre las inferencias:

1. Las inferencias son siempre inciertas


- Variabilidad en la población
- Errores en la medición
- Variabilidad en el modelo
2. El modelo tiene que reflejar la variabilidad en la población y en el proceso de
medición
3. Los detalles (parámetros) del modelo se infieren a partir de los datos
Algunas definiciones:
● Dato: Medición de una variable
● Variable: Atributo potencialmente medible (Ej: Resistencia, diámetro, longitud,
temperatura, color, etc)

¿Qué tipos de modelos usamos?


todas las respuestas o datos que saquemos de
una muestra que no medí totalmente la damos en
términos pobrabilísticos
Para construir un modelo necesitamos: la inferencia cuantifica la incertidumbre en la
1. Entender las observaciones que tenemos población a partir de la variabilidad de los datos
2. Proponer un modelo probabilístico que describa la población y la recolección de
datos (mecanismo de generación de datos)
3. Inferir los detalles (parámetros) del modelo a partir de las observaciones
4. Chequear que el modelo (las hipótesis) sean compatible con las observaciones

En resumen, para resolver un problema a partir de la ciencia de datos, se debe seguir el


siguiente orden cronológico:

1. Plantear una pregunta relevante (porque a veces no se pueden responder)


2. Obtener mediciones (ver que forma, orden, etc tienen)
3. Explorar los datos
4. Construir modelo de generación de datos (en lo que nos vamos a enfocar)
- Conceptualización
- Programación
- Inferencia
- Validación
5. Comunicar y visualizar resultados

Para responder las preguntas relevantes que se planteen, se pueden usar distintos tipos de
modelos. Entre ellos están:

● Puramente estadísticos o físico matemáticos


Tal como su nombre lo indica, infieren resultados a partir de técnicas estadísticas o
matemáticas. Como lo pueden ser las curvas de regresión lineal.
● Lineales, no lineales o no paramétricos
A diferencia de los anteriores, estos modelos en general no tienen una relación entre
las variables estudiadas y las variables objetivo. Por lo que se caracterizan por ser
más flexibles.

Clase 2 - Obtención y lectura de datos

Variable: Atributo (característica) medible de un objeto de una población


Dato: Mediciones (a veces imperfectas) de una variable asociada a la
población

Las variables se pueden diferenciar de la siguiente manera:

1. Numéricas (aquellas que se pueden cuantificar con un número)


1.1. Continua (Están asociadas a un número dentro de un conjunto de números
continuos). Como por ejemplo:
- Resistencia de los bulones en una fábrica [entre 4 y 3 kg]
- Resistencia del hormigón
- Velocidad del viento

1.2. Discreta (Asociadas a un número, dentro de un conjunto discreto de


números). Como por ejemplo:
- Volumen de tráfico (no pueden haber 2,5 autos)
- Cantidad de sismos en determinado tiempo (no existen 8,7 sismos)
2. Categóricas (aquellas que se pueden cuantificar de manera cualitativa)
2.1. Nominal (No tienen un orden jerárquico). Como por ejemplo:
- Uso del suelo
- Tipo de máquinas
- Materiales de construcción
- Colores

2.2. Ordinal (Tienen un orden jerárquico, es decir, que interesa como se


enumeran). Como por ejemplo:
- Medida de daño (baja, media, alta, total)
- Escala de Richter para medir sismos (1, 2, 3, ….., 10)
- Nivel de servicio (A, B, …., F)

Es importante conocer con qué tipo de variable estamos trabajando, porque en función de
eso voy a elegir el tipo de modelo/metodología para trabajar con esa variable.

Además, las variables se pueden clasificar de otra manera menos conocida en:
● De respuesta (Y)
● Predictoras (X)

Los datos, a pesar de ser un concepto distinto al de las variables, se pueden clasificar de
manera análoga.

Como explicación y ejemplos se podrían utilizar los anteriormente mencionados, pero cabe
aclarar que los datos son distintos a las variables porque ya están procesados mediante
un mecanismo de medición.

Otra clasificación de los datos es la siguiente:


1. Independientes (Son observaciones independientes de una misma variable. Misma
variable en distintos objetos). Como por ejemplo:
- Medir la resistencia (variable) de los bulones (objeto)
- Medir la resistencia (variable) del asfalto (objeto)

2. Correlacionados (Las observaciones se correlacionan entre sí)


2.1. Series de tiempo (Observaciones de distintas variables asociadas a un punto
en el tiempo). Como por ejemplo:
- La variable “velocidad del viento” está asociada a una componente
del tiempo. Ya que si yo mido a las 14:00 un viento fuerte, entonces
es muy probable que a las 14:30 el viento siga siendo fuerte.

2.2. Series espaciales (Observaciones de distintas variables asociadas a un


punto en el espacio). Como por ejemplo:
- El tipo de suelo/uso de suelo. Ya que si en un punto de la
pampa mido que el suelo es rocoso, entonces es
probable que cerca de ese punto el suelo también sea
rocoso”. Es decir, las observaciones dependen de las
observaciones próximas.

¿De donde salen los datos?

Estos salen de instrumentos de medición. Que pueden ser:


● Dispositivos específicamente diseñados para medir (estaciones meteorológicas,
pluviómetros, calibres, etc)
● Siempre tienen cierto error
● Muchas variables no son fáciles de medir (o cuantificar)

¿Cómo se obtienen los datos?


Se realizan experimentos o ensayos. Que consisten en la selección del tipo de mediciones a
realizar y medición. Estos pueden dividirse según:

● Ensayos experimentales (Ej: realizar ensayos de resistencia en bulones)


- Entorno controlado y cantidad de muestras a elección
- Manipulación de las variables de interés
- Control de las variables relevantes

● Ensayos observacionales (Imágenes satelitales, estaciones meteorológicas)


- Los datos se toman del proceso físico como “ocurre naturalmente”
- No podemos controlar las variables
- Cantidad de muestras a elección o solo las disponibles

¿Qué forma tienen los datos?

Los datos pueden venir en forma de imágenes, tablas, pulsos, vectores, etc. Y es por eso
que existen distintas formas de almacenamiento:

- Texto en tablas (.csv, .xlsx)


- Texto en formato arbitrario
- Mapas de bits (.png, .tiff, .asc)
- Archivo de vectores (.shp)

Una vez almacenados, se debe proceder al paso de acceso y lectura.

Ejemplo de la imagen: pasar de un archivo de “texto en formato arbitrario” a una tabla


O por ejemplo, pasar de un archivo almacenado en formato “mapa de bits” a una matriz

Bases de datos y APIs (Application Programming Interface): Los grandes volúmenes


de datos suelen estar almacenados en servidores. Podemos comunicarnos
mediante ‘scripts’ para bajarlos de manera automatizada.

Una base de datos es una recopilación de datos sistemática y almacenada


electrónicamente, que puede contener cualquier tipo de datos.

Mientras que un API (Application Programming Interface) es conjunto de funciones y


procedimientos que permite integrar sistemas, permitiendo que sus funcionalidades
puedan ser reutilizadas por otras aplicaciones o software.

Clase 3 - Análisis exploratorio de los datos -


Datos independientes

El análisis y la exploración de datos consiste básicamente en


entenderlos y poder caracterizarlos. Es necesario caracterizarlos y
visualizarlos porque con ello luego vamos a hacer inferencias y se
requiere de un modelo. Por lo que para proponer un buen modelo
que se ajuste a los datos, es necesario poder comprenderlos. Este
modelo se puede proponer a través de:

- Valores resumen (estadístico)


- Visualizaciones

Para los tipos de datos “individuales”, se muestran distintas formas de mostrar los datos:

- Histograma: Cantidad/frecuencia de ocurrencia de distintos “niveles” de la variable


medida. Me permite poner la cantidad de datos por cada categoría.
El histograma es sensible al ancho del “bin” o “segmento”:
● Todos los datos tienen que estar incluidos
● Más datos, mayor cantidad de bins
● Regla se Sturges: 𝐾 = 1 + 3. 222 𝐿𝑜𝑔(𝑁)

Se observa que a medida que se disminuye el ancho de los “bins”, comienzan a aparecer
espacios vacíos en el histograma. Ya que la probabilidad de que cada valor caiga dentro de
un segmento es cada vez menor.

Los histogramas son gráficos estadísticos, que se van armando a partir de “proporciones”.
Donde cada valor toma una probabilidad de ocurrencia distinta y se calcula su posición
como:

𝐶𝑎𝑛𝑡𝑖𝑑𝑎𝑑 𝑑𝑒 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖𝑜𝑛𝑒𝑠
𝑝𝑟𝑜𝑝𝑜𝑟𝑐𝑖ó𝑛 = 𝐶𝑎𝑛𝑡. 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖𝑜𝑛𝑒𝑠 𝑡𝑜𝑡𝑎𝑙𝑒𝑠

Otro parámetro posible de medir es la densidad


empírica por ventanas (frecuencia de ocurrencia
de distintos “niveles” por unidad de medida). Que
a diferencia del anterior, en esta se tiene en
cuenta el ancho de bin. Es útil calcular
densidades, porque se ajustan los resultados
según el ancho del bin (ya que es más probable
que en los extremos los segmentos sean más
grandes que en el centro). Es análogo a suavizar
un histograma.

𝐶𝑎𝑛𝑡𝑖𝑑𝑎𝑑 𝑑𝑒 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖𝑜𝑛𝑒𝑠
𝑑𝑒𝑛𝑠𝑖𝑑𝑎𝑑 = 𝐶𝑎𝑛𝑡. 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖𝑜𝑛𝑒𝑠 𝑡𝑜𝑡𝑎𝑙𝑒𝑠 * ∆𝑥

Esta curva, se obtiene como la suma de funciones “K” centradas en los datos. Obtiene la
sigla “K” por la función “Kernel”, y se caracteriza por 2 cosas:
- Debe valer 1 donde se encuentra el dato f(xi)
- En algún momento llega a 0 en sus extremos

Es importante tener en cuenta que el resultado depende fuertemente del ancho de las
funciones “K”. No debe ser ni muy ancha, ya que sino la curva de densidad tendería a ser
una recta uniforme (caso verde). Ni muy angosta, ya que en ese caso se obtendría una
función densidad muy puntiaguda (caso azul).

Otra forma de distribución de los datos es con la función “Distribución acumulada


empírica”. Que muestra la proporción de puntos por encima (o por debajo) de un valor
dado. Es decir, para cada valor posible de la variable, cuantos datos cayeron más
abajo/arriba de ese valor.
Por ejemplo, en este gráfico, se muestra que hay una probabilidad del 60% de que los
valores sean menores a 10. Cabe aclarar que este gráfico SIEMPRE arranca de 0.

Ahora veamos, ¿alrededor de qué valor se distribuyen las mediciones?


Existen los “Estimadores de locación”, que son valores típicos o representativos de la
muestra:

- Valor medio: Suma de los valores dividido la cantidad de


muestras (promedio)
● Es el valor cuya distancia cuadrática acumulada a los
2
puntos es mínima. 𝑑 = (𝑥𝑚 − 𝑥𝑖) . Busco el valor de
“xm” tal que haga mínima la distancia.
● Es el centro de gravedad de los datos
● Como desventaja tiene que es más sensible a los valores extremos que la
mediana, entonces pueden tenerse datos distorsionados.
● En datos discretos, el valor medio NO es un valor posible
● NO tiene sentido en datos categóricos nominales

- Mediana: Valor que supera a la mitad de los datos


● Es el valor cuya distancia absoluta acumulada a los puntos es mínima.
𝑑 = |𝑥 − 𝑥𝑖|
● Es SIEMPRE uno de los valores dato (ventaja), por lo que es más
representativo
● NO tiene sentido en datos categóricos nominales
● Es menos sensible a los valores extremos que el valor medio (outliers)
● Es más representativo del “dato típico”
Un buen ejemplo para entender esto es mirar el siguiente ejemplo. Se
observa que la gran mayoría de las casas salen USD 1000, pero sin embargo
hay 2 mansiones a un valor de USD 20.000. Es lógico que si alguien me
pregunte cual es el valor de las propiedades en esa zona, la respuesta más
acertada sea la de USD 1000 por ser mayoria (Valor de la moda porque
supera el 50% de los datos), mientras que el valor promedio (USD 4800) ni
siquiera es representativo del valor de una propiedad.

- Moda: Valor más repetido (más veces observado)


● Es uno de los valores dato en las variables discretas y categóricas
● En datos continuos puede aproximarse a partir del histograma o densidad. Es
muy sensible a la discretización, ya que es el máximo valor de la campana
suavizada. Y cuanto más discreta sea, más puntuda se espera que sea la
campana.

¿Qué posición ocupa cada valor dentro de la muestra?


- Percentiles: Valor que supera a una proporción “p” de los datos
● Es uno de los valores dato
● Es el “orden” o “posición” de cada dato dentro del conjunto. Sirven para
determinar probabilidades de ocurrencia y así diseñar con alto grado de
seguridad.

Existen distintas formas de visualización:


BOXPLOTS
BOXENPLOTS

¿Cuánto se alejan las mediciones de los valores centrales?


Medidas de dispersión: Son valores que describen que tanto se alejan las observaciones
respecto de los valores centrales. Dentro de ellos tenemos:

- Varianza y desvío estándar: Promedio de las distancias al cuadrado de los datos al


valor medio

- Desviación media absoluta: Promedio de las distancias al cuadrado de los datos al


valor medio
- Rango intercuartil (IQR): 𝐼𝑄𝑅 = 𝑝75% − 𝑝25%. Tiene la ventaja, respecto al desvío
estándar, de que es poco sensible a los valores extremos.

Datos bivariados:
El mismo concepto de “frecuencia” de ocurrencia puede adoptarse para el caso de
mediciones de dos variables:

¿Cuántos valores ocurrieron para cada combinación de valores posibles?

Se observa que en este caso las variables están correlacionadas entre sí. Y mediante estos
gráficos se puede entender esa correlación. Las medidas de asociación son las
siguientes:

- Correlación: medida de asociación lineal entre los datos observados


El coeficiente “r” es el coeficiente de correlación de Pearson y varía entre [-1;1]. Mide
cómo varía una variable, respecto de la otra, respecto de su valor medio. Una
correlación 0 no indica falta de asociación, sino falta de asociación lineal. Ya que se
puede dar el caso de que la asociación sea del orden cuadrático.

- Ajuste de curvas: medida de asociación polinomial


● Buscamos el polinomio cuya “distancia” a los datos sea mínima
● Ajuste por cuadrados mínimos:

- Tablas de contingencia: proporciones por categorías

¿Y entre una variable continua y una categórica?


No hay un orden entre las categorías por lo que “crecer” en una no es una indicación de
nada

Y entre dos variables categóricas?


Ploteos y tablas de contingencia para proporciones por categoría.

Transformaciones de datos:
Transformar los datos es realizar una misma operación matemática a cada uno con el fin de
obtener una mejor descripción. Puede ser por estandarización o por transformación
logarítmica.
Clase 4 - Analisis exploratorio de datos (Parte 2) - Datos correlacionados

Los datos correlacionados son aquellos en los que la medición de una variable se ve
condicionada por la medición anterior. Como por ejemplo la velocidad del viento, o la
temperatura. Por eso, las formas de medición y entendimiento de estos datos son distintas.

Series de tiempo:
Nos muestra en una serie temporal, la evolución del valor de la variable. Permitiendo
identificar los momentos en los que se alcanzaron picos y valles.

Series espaciales:
En este caso se identifican la medición de las variables en un espacio determinado y se las
muestra en un gráfico espacial

El objetivo del AED (Análisis exploratorio de datos) es entender los datos para poder
proponer un modelo de inferencia, a través de:
- Valores resumen (estadísticos)
- Visualizaciones

Por ejemplo, ¿está bien mostrar la siguiente serie a través de un histograma?

Se observa sobre el margen izquierdo un histograma casi uniforme. Por lo que no se suelen
representar de esta manera cuando las variables varían en el tiempo. Para eso lo que se
hace es realizar una segmentación por bloques

En este caso, a partir de “x” mediciones se crea una nueva. Puede ser por ejemplo una
serie de valor medio año a año.

Los valores estadísticos también varían con el tiempo.


- Media móvil:
● Permite “remover” variabilidad en periodos cortos de tiempo (Variabilidad
aleatoria?) - lo transformo en una línea continua
● Útil para detectar tendencias en la serie
● El resultado depende fuertemente de la cantidad de muestras promediadas a
la vez (grado de suavizado)

Los valores estadísticos también varían con el tiempo. Detectar cómo varían implica
detectar tendencias y estacionalidades.

- Remover tendencia: 𝑌 * = 𝑌 − 𝑡𝑒𝑛𝑑𝑒𝑛𝑐𝑖𝑎

- Gráficos de estacionalidad:
- Autocorrelacion: Determina la correlación (medidas de asociación lineal) entre
observaciones separados por “k” mediciones

Una correlación = 0, significa que son independientes. Por ejemplo, el caudal de hoy
no me dice nada del caudal en 3 semanas.
● Las tendencias aparecen como una R(k) que decae lentamente
● Las estacionalidades aparecen como sinusoides en R(k). (frecuencia
coincidente con frecuencia de estacionalidad)
● La tendencia puede esconder la estacionalidad en R(k). Es recomendable
remover la tendencia de la serie original
● Una serie de con autocorrelacion baja para todo número mayor a 0 es una
serie independiente del tiempo.

¿Qué es un SIG? (PREGUNTAR SI ENTRA)


Un sistema de información geográfica (SIG o GIS) es un conjunto de herramientas
informáticas capaces de gestionar información espacial. Permite capturar, almacenar,
consultar, analizar y mostrar datos geoespaciales.
Los datos geoespaciales describen tanto la ubicación como las características de los
elementos representados. Los datos son representados por capas, esto permite:

- manipular y almacenar los datos de forma independiente


- tener mapas temáticos de un mismo lugar, en una misma escala y extensión
territorial,
- realizar comparaciones y operaciones entre ellos
- aplicar sobre ellos distintos algoritmos o procesos con el propósito de analizar el
territorio.

¿Dónde se usa un SIG?


El campo de aplicación de los GIS es muy amplio, pudiendo utilizarse en la mayoría de las
actividades con una componente espacial.

- Seguimiento de obras de infraestructura pública y Obra privada.


- Generación de cartografía oficial y gestión de límites administrativos territoriales.
- Estudio del clima y tiempo mediante sensores remotos.
- Registro y modelado de contaminación ambiental.
- Estudios geográficos y topográficos.
- Elaboración de mapa de riesgo y planes de contingencia ante catástrofes naturales.
- Análisis de tránsito.
- Mapeo de tuberías y redes de drenaje urbano.
- Modelado y simulación de redes de agua potable, gas natural y aguas residuales.
- Monitoreo de cultivos de producción por teledetección.
- Estudio de impacto ambiental.
- Censo poblacional y de viviendas.

Tipos de datos:
Los objetos del mundo real se pueden dividir en dos abstracciones: objetos discretos (una
casa) y continuos (cantidad de lluvia caída, elevación).
Existen dos formas de almacenar los datos en un SIG: raster y vectorial.

- Modelo de objetos: VECTORIAL


Los datos geográficos se representan en forma de coordenadas. Las unidades
básicas de información geográfica en los datos vectoriales son: puntos, líneas y
polígonos.

- Modelo de superficie: RASTER


Cualquier tipo de imagen digital representada en mallas (pixels). Divide el espacio en
celdas regulares donde c/u de ellas representa un único valor.
Clase 5 - Repaso de probabilidad

Para construir un modelo de generación de datos, necesitamos hacer INFERENCIA


ESTADÍSTICA. Que como el nombre lo indica, requiere conocimientos de probabilidad y
estadística.

El objetivo es inferir el valor de mediciones no observadas:


- Son valores que no podemos conocer con certeza porque existen
INCERTIDUMBRES (producto de la variabilidad del ensayo, naturaleza del material,
etc).
- Pueden ser:
● Aleatorias (habla de la variabilidad de la población. Por ejemplo, errores de
medición, materiales y geometría, etc)
● Epistémicas (Producto de la falta de conocimiento del proceso que quiero
modelar. Por ejemplo, no conozco la resistencia del bulón, porque no se de
que material es).

Usamos el término “Probabilidad” de manera informal para expresar nuestra información y


confianza sobre valores desconocidos. Ejemplos:
- Una moneda es igualmente probable que caiga cara o seca
- La probabilidad de que una persona mida menos de 1,60 m es 40%
- La probabilidad de que la resistencia del suelo sea mayor a 30 MPa es 80%
- Es muy probable que llueva mañana

Este término se puede definir siguiendo 2 lineas de conceptos:

1. Frecuentista (o clásica)
- Es una medida de frecuencia de ocurrencia de un evento de resultado
incierto
- Frecuencia de ocurrencia de un evento “E” en un número grande de
repeticiones de un experimento “P=nE/n” (Cantidad de resultados favorables
dividido la cantidad de resultados posibles y equiprobables)
- Es una propiedad del objeto (objetiva)

Ejemplos:
La probabilidad de que una moneda caiga cara o seca:

La probabilidad de que me elijan, dentro de un grupo de


personas:

2. Bayesiana
- Es subjetiva, y está sujeta a cambiar si tengo más información sobre el
evento.
- Es una medida de incertidumbre (de “grado de confianza”)
- Representación del grado de incertidumbre sobre la ocurrencia de un evento
“E”
- Es una propiedad del modelador (subjetiva)

Ejemplos:
¿Cuál es la probabilidad de que la resistencia del suelo supere
determinado valor? (en este caso el resultado no es una incógnita. El
suelo tiene una determinada resistencia, el único problema es que yo no
la conozco)

Probabilidad: Número que asociamos a un determinado evento (puede ser o no aleatorio)


para definir su grado de plausibilidad (tiene que ser positiva y con valores entre 0 y 1).

Evento: Resultado de un experimento dentro de un universo de resultados posibles

Axiomas de la probabilidad:
1. Siempre debe ser mayor o igual que 0 (Pe > 0)
2. Cuando la probabilidad es del 100%, su valor es 1 P(S) =1
3. La probabilidad de 2 eventos excluyentes, es la suma de sus probabilidades

Otra definición (un poco más coloquial), es: Lista de todos los resultados posibles de la
variable aleatoria con sus correspondientes probabilidades. Ejemplo:
Se observa como para los primeros 3 casos, se tratan de variables discretas (que se
pueden contar), mientras que para el último de la resistencia del suelo se trata de una
variable continua, como varía entre un rango determinado de valores, se muestra en un
gráfico de densidad de probabilidad. En este último caso de variables continuas, la
probabilidad de un valor es nula (ya que es el resultado que salió sobre la cantidad infinita
de resultados). Además, cabe aclarar que el gráfico de densidad de probabilidad tiene
unidades [1/unidad de VA].

Variable aleatoria: es la función que mapea cada resultado posible del evento a un número
de la recta real. O dicho de otra manera, es el conjunto de resultados posibles expresado
como un subconjunto del dominio real.
Descriptores: Son un conjunto de elementos que sirven para describir la forma de las
funciones. Entre ellos se encuentran:

- Valores centrales

- Dispersión

Como observaciones, se pueden destacar 2 cosas:


- Obs 1: Dos variables con el mismo valor medio y desvío pueden tener distribuciones
de probabilidad muy distintas. Los descriptores no describen toda la VA!
- Obs 2: Existen descriptores que miden otras propiedades de la distribución, como su
simetría (skew) o el peso de la cola (curtosis).
A la vez, existen distintas formas de “describir” las distribuciones de probabilidad, ya que es
esperable que lo que describe bien una función no sirva para otra.

- Intervalos con percentiles

- De máxima densidad (es el conjunto de los valores más probables que suman
probabilidad alfa. Es decir, es el intervalo más corto que suma la probabilidad alfa)

Distribución de probabilidad conjunta:


Es una función que indica la probabilidad (o densidad) de que ambas (todas) las variables
tomen ciertos valores.
Distribuciones marginales:
Es la distribución de cada variable independiente de las otras

Probabilidad condicional:
Se denomina probabilidad condicional a la probabilidad de ocurrencia de un determinado
evento, sabiendo que ocurrió otro evento.
Ejemplo: La probabilidad de que las estructuras de mampostería tengan un nivel de daño
igual a 2.

Teorema de la probabilidad total:


En muchos problemas de modelación, es más sencillo modelar “Y” como función de “X”, y
estimar “Y” a partir de “X”. Es decir:
Teorema de Bayes:
Este teorema dice que se puede invertir el orden de la condicionalidad de la siguiente
manera:

Independencia:
- Dos variables aleatorias son independientes si al obtener un valor de alguna, no
modifica la probabilidad de los valores de la otra (y viceversa)

- Si las variables aleatorias son independientes, alcanza con conocer sus


distribuciones marginales
- Dos eventos son EXCLUYENTES (uno u otro) cuando su probabilidad condicional es
nula

Distribuciones típicas:
1. Bernoulli
2. Binomial

3. Categórica
4. Multinomial

5. Normal

6. LogNormal
7. Poisson (cuenta eventos en una ventana de tiempo/espacio)

Otra forma de caracterizar una VA es a través de SIMULACIONES de la misma (ya que


contar y sumar es mucho más fácil que integrar). Las estimaciones realizadas a partir de
una muestra son aproximadas, mientras más grande la muestra mejor será la aproximación.

Clase 6 - Introduccion a la inferencia estadística

La inferencia estadística es el proceso de sacar conclusiones DE LO QUE NO MEDIMOS a


partir de una muestra.

Para hacer inferencia necesitamos proponer una explicación (modelo) para los datos

Las inferencias son SIEMPRE inciertas, debido a:


- Variabilidad en la población (la muestra puede no ser representativa)
- Errores de medición
- Variabilidad en el modelo (desconocimiento de él y la relación que hace)

¿Qué es un modelo?
- Representación matemática simplificada del proceso de obtención de datos
- Es probabilístico (tiene que representar la variabilidad en los datos)
- Está definido por una estructura general cuyos detalles particulares (parámetros)
tenemos que inferir a partir de los datos
El modelo tiene que reflejar la variabilidad en la población y en el proceso de medición.
ejemplo:

A partir del modelo propuesto, podemos actualizar nuestro conocimiento sobre los
parámetros del modelo a partir de las observaciones

si no se cual valor es más "posible" que otro (no se que valor toma pi en cada ruta), puedo
tomar cualquiera (por ej 0.5) , tambien puedo decir que tiene una distribución uniforme YA
QUE NO LO CONOZCO
Inferencia en un modelo de observaciones binarias independientes

La distribución posterior de los parámetros nos puede decir:


- el intervalo central 90% (puedo asegurar con el 90% de exito que pi esta en x
rango)
- Intervalo de máxima densidad (Todos los valores dentro del intervalo tienen una
densidad mayor a todos los de afuera)

Ademas puedo obtener la distribución posterior predictiva (nuevas observaciones)


ej: pedirle cual es la probabilidad que la siguiente observación tome x valor

Inferencia bayesiana
La distribución de probabilidad de los parámetros del modelo dados los datos que fueron
observados se estima de la siguiente manera:

- Trata a los parámetros como VAs y los datos como fijos


- Las inferencias se basan en la actualización de la incertidumbre sobre el valor de los
parámetros
- Requieren información ‘a priori’
- Las inferencias devuelven la probabilidad de los valores de los parámetros en base a
los datos y nuestro conocimiento
Influencia de los datos:
variabilidad ----> NO INFLUYE
cantidad ----> SI

- Los datos entran en la inferencia a través de la función de verosimilitud que es la


que describe el modelo de generación de datos
- La verosimilitud indica qué valores del parámetro son más probables…según los
datos!
- A mayor cantidad de datos, menos dispersión en la función de verosimilitud y, por
lo tanto, en la distribución posterior

influencia en la distribución a priori:


- La distribución posterior es una síntesis de lo que aportan los datos (función de
verosimilitud) y lo que aporta el modelador (distribución a priori)
- Si la distribución a priori es ”muy concentrada”, entonces incide más en la
distribución posterior. Si es “muy plana” (difusa) la distribución posterior se va a
parecer mucho a la función de verosimilitud
- Si hay muchas observaciones, entonces la función de verosimilitud es “más
concentrada” e incide más en la distribución posterior (es más insensible a la
distribución a priori)
La posterior es siempre una combinación de la priori y verosimilitud, que tan parecida
depende de qué cantidad de datos tenga cada una.

ejemplos:
- Me lo movió más cerca de la distribución a priori

- si tengo muchos más datos la verosimilitud es mucho más concentrada, los datos
siempre MANDAN!

resumen inferencia:

➔ Un modelo se define a través de una distribución para las observaciones y una


distribución ‘a priori’ para los parámetros
➔ La función de verosimilitud es la probabilidad de los datos dados los parámetros
➔ Distribución posterior de los parámetros
➔ Distribución posterior predictiva (nuevas observaciones)

Clase 7 - Introducción a la inferencia estadística parte 2

Función de verosimilitud: es la distribución de la probabilidad conjunta de todas las


observaciones, que depende de parámetros que en principio no conozco

Método bayesiano de inferencia:


1. ¿Cuál es la probabilidad de observar los datos en el modelo propuesto?
2. ¿Qué valores de los parámetros son más probables antes de ver los datos?
distribución a priori
3. ¿Qué valores de los parámetros son más probables luego de observar los datos?
distribución posterior
4. ¿Qué valores son más probables para una nueva observación? distribución
posterior predictiva

La distribución a priori puede tener diferentes funciones:


- Reflejar el conocimiento (o ignorancia) sobre el proceso, por fuera de los datos
- Tres tipos:
1) Distribuciones no-informativas (u objetivas/difusas): dejan la
inferencia SÓLO a los datos (la azul uniforme no agrega información
a la inferencia)
2) Distribuciones poco-informativas: agregan un mínimo de
información para condicionar la inferencia a regiones razonables
3) Distribuciones informativas: Incluyen conocimiento valioso para el
modelador (ej: tengo info que la distribución de probabilidad no puede
ser menor a 0,3. por alguna razón: muy dificil de que pase)

- Regularizar, solucionar problemas numéricos, etc. (lo vemos más adelante!)


Distribuciones no-informativas
- Solo expresan información objetiva: por ej. “la variable es positiva”, o “la variable es
un número entre 0 y 1”
- La distribución a priori no-informativa depende del modelo y de la definición de
‘no-informativa’ (puede haber varias para un mismo modelo!)
- Suelen dar resultados similares a la inferencia clásica (frecuentista)
PROBLEMAS:
- No siempre existe una distribución no-informativa (o única)
- A veces usar una distribución a priori impropia puede generar una distribución
posterior impropia
- Muchas veces conlleva a peores modelos!
- No se llevan bien con métodos numéricos (vemos más adelante)

Distribuciones poco informativas (preferibles antes que las no informativas aunque sean
difusas)
- Agregan un mínimo de información para condicionar la inferencia a regiones
razonables, pero sin afectar significativamente la distribución posterior
- Todos los problemas tienen hipótesis razonables que permiten establecer una
distribución a priori (el parámetro está dentro de un rango razonablemente amplio)
ej. se que la cantidad de sismos no pueden ser más de 1.000.000
- Siempre es útil hacer predicciones del modelo usando la distribución a priori, para
poder interpretar qué información está incorporando al modelo.
- En la mayoría de los casos prácticos, los resultados se asemejan mucho a usar una
no-informativa
- La distribución posterior siempre es propia
- Es importante chequear la sensibilidad de la posterior respecto de la distribución a
priori

Inferencia computacional:
1. Integración analítica: soluciones analíticas y distribuciones conjugadas
2. Integración numérica: Cuadratura
3. Integración numérica: Simulación
4. Aproximación distribucional: inferencia variacional

1. Integración analítica: soluciones analíticas y distribuciones conjugadas

Cómo calcular C? Cuando la distribución posterior de los parámetros es de la misma


“familia” que la distribución a priori se conoce como distribuciones conjugadas. Si se cual
es, puedo calcular C analiticamente:
ejemplo: resistencia de los bulones
MODELO: distribución normal
Para calcular lo que me pide la normativa debo usar la de los bulones (la predictiva)

prob de q resist sea mayor a 30MPa es 0.9


Distribuciones a priori conjugadas
- Es un tipo específico de distribución de probabilidad que hace que la distribución
posterior tenga solución analítica (No necesito preocuparme por 𝐶)
- La distribución a priori 𝑝 𝜃 y la posterior 𝑝 𝜃|𝐲 pertenencen a la misma familia
(familias conjugadas)
- La distribución a priori conjugada dependerá del modelo de datos (verosimilitud)
- En general, pero no siempre, la distribución predictiva también tendrá solución
analítica
- También tiene solución analítica para la priori no-informativa (son un caso particular!)
- Sólo existen distribuciones conjugadas en los modelos más sencillos (pero muy
usados)
- No siempre la distribución a priori que quiero usar puede ser modelada por la familia
conjugada

2. Integración numérica: Cuadratura (cuando no puedo hacer la opción 1)

La constante de integración puede estimarse integrando numéricamente:


- Ventajas
- Muy sencillo de implementar
- Robusto. Sirve cualquiera sea la forma de la posterior
- Desventajas
- Prohibitivamente lento desde dimensiones relativamente bajas (𝑘 ≥ 4)
3. Integración numérica: Simulación
- En lugar de obtener una expresión para 𝑝 𝜃|𝑦 , se busca simular realizaciones 𝜃𝑖 que
sigan esa distribución de probabilidad
- Cualquier estimación posterior de interés (valores medios, dispersión, intervalos de
confianza, cdf, percentiles, etc.) se pueden calcular a partir de la población de
simulaciones 𝜃i

Cómo simulamos?
a) El método de aceptación (o de rechazo)

b) Monte Carlo via Cadenas de Markov (MCMC)


Para que converga tiene que parecer un RUIDO BLANCO, tengo que verificar que converga
dentro de la cadena (individualmente) y entre cadenas

- Diagnóstico de MCMC
- Hay que chequar convergencia de cada cadena (estacionariedad)
- Hay que chequear convergencia entre cadenas o Índice de Rubin ≅ 1
- La convergencia depende de muchas cosas!
- El tipo de distribución para proponer candidatos
- El tamaño del salto en cada paso (la dispersión)
- La forma de la distribución de probabilidad objetivo

este metodo permite:


- Obtener realizaciones de 𝑝 𝜃|𝐲 solo conociendo su version nonormalizada
- Simular inferencias de modelos arbitrariamente complejos (muchos parámetros
correlacionados entre sí) y de dimensionalidad alta

Puede ser difícil (computacionalmente demandante) obtener buena convergencia!

Resumen:
El rol de la distribución a priori
- No-informativa
- Poco informativas
- Informativas
Otros modelos de observaciones (Poisson y Normal)
Calculando la distribución posterior cuando no hay solución analítica
- Cuadratura
- Simulación con cadenas de Markov

Clase 8 - Uso y evaluación de modelos

Construcción de modelo de datos:


1) Proponer una distribución de probabilidad conjunta para las observaciones: 𝑝 𝐲|𝜃
2) Proponer una distribución a priori para los parámetros: 𝑝 𝜃
3) Estimar la distribución posterior de los parámetros: 𝑝 𝜃|𝐲
(proporcional a la probab de observar los datos dado un valor del parámetro)
4) Estimar la distribución de nuevas observaciones (posterior predictiva)

Antes de los datos: Como no sabemos nada, elegimos una distribución uniforme,
Después de los datos: donde se que de una muestra de N=50, 18 fueron =1 (ya no tengo la
misma probabilidad de 0.5)

Siempre tengo que escribir la pregunta que le quiero hacer al modelo, como una hipótesis,
llamándola hipótesis nula.
Density ratios: BAYES FACTOR.
- Un factor BF muy alto indica que los datos favorecen esa hipótesis
- Puede servir para tener un idea rápida, pero no es muy bueno

Tenemos que pensar tambien en la evidencia de las hipótesis complementarias H1.

Y plantear la hipótesis como un RANGO DE EQUIVALENCIA PRÁCTICA: ROPE. Que la H0


sea si 𝜋 ∈ 0.45,0.55 (no que : 𝜋=0.5) y 𝐻1: 𝜋 ∉ 0.45,0.55.

Plantearlo como intervalo en vez de puntual. Como rango que, a efectos prácticos me da lo
mismo para responder la pregunta de qué ruta es mejor.

ejemplo: resistencia del hormigón, comparacion de con/sin aditivo


- 2 poblaciones: con y sin aditivo

Queremos evaluar la influencia en la Resistencia del hormigón de un nuevo aditivo. Para


eso se ensayaron numerosas muestras con y sin aditivo
1) Ajustamos un modelo Normal a cada población
2) Usamos distribuciones a priori no-informativas
3) Distribuciones posteriores de la media:

Viendo la media, parece mucho mejor el hormigón con aditivo que el sin

4) Distribuciones posteriores de nuevas observaciones:

Cuando veo la distribución posterior de nuevas resistencias (probeta de un grupo


contra una probeta del otro grupo) , no hay TANTAS diferencias. Esto siempre es
más difícil, por lo que las distribuciones estan mas achatadas.
5) ¿Mejora la Resistencia el aditivo?

6) Siempre usamos las distribuciones posteriores para responder preguntas


7) Siempre la respuesta a la pregunta está condicionada al modelo? SI, siempre.
POR ESO HAY QUE EVALUAR Y MEJORAR EL MODELO!!!
¡ANTES DE RESPONDER LAS PREGUNTAS!
Evaluación del modelo:
1) Proponemos un modelo para los datos
2) Proponemos distribuciones a priori para los parámetros
3) Calculamos la distribución posterior de los parámetros

4) Calculamos la distribución posterior predictiva de nuevas obs.


(en 30 años hubo 63 picos de caudal)

5) ¿Es bueno el modelo?


Chequeo posterior predictivo
Comparo las observaciones con la función posterior predictiva.
(usando la predictiva, sumulo 63 observaciones y me fijo si son parecidos a las
observaciones)
- Para evaluar el modelo tenemos que comparar las predicciones que hace
con las observaciones disponibles.
hay que ponerlo en otra escala, porque a veces es bueno para un lado pero malo
para el otro:

- Tenemos que simular 𝑁 datos nuevos de la distribución posterior predictiva


de los datos

SIEMPRE EL OBJETIVO ES COMPARAR LAS SIMULACIONES CON EL OBSERVADO

Estadísticos y p-valores

bpv: p valor bayesiano: probabilidad de observar valores más extremos que los simulados
bajo el modelo

El valor medio suele ser muy similar entre el modelo y las observaciones, esto ocurre
porque es lo que usamos para ajustar (calibrar) el modelo, por eso mu y sigma ajustan
BIEN.
El problema se da cuando comparo otras cosas: por ejemplo en la descarga maxima y la
minima

Mediante el chequeo posterior predictivo queremos ver si el modelo es consistente con las
observaciones. Es útil para verificar la consistencia interna del modelo
- Los datos observados deben parecer “típicos” al ser comparados con los
datos simulados por el modelo
- Cualitativo
- Cuantitativo
- El objetivo principal es explorar y visualizar como el modelo captura distintos
aspectos de la distribución de los datos. explorar donde falla el modelo
- Se identifican los aspectos en los que el modelo falla.
- No es el objetivo verificar si es el “modelo correcto”. Sólo si es un
modelo útil con lo que yo quiero responder. No va a ser el modelo
correcto, aunque lo ajuste mejor.

Siguiendo con el ejemplo, al proponer otro modelo (LN), vemos que el P valor toma valores
que son inconsistentes, por eso lo descarto.
Al proponer una monótonamente decreciente desde 0, veo que ajusta mucho mejor

Para ver si el modelo es bueno o no, debo realizar:


Chequeo a priori predictivo: Simulamos nuevos conjuntos de observaciones usando la
distribución a priori de los parámetros
Sensibilidad de la posterior: Proponemos distintas distribuciones poco informativas, y la
posterior no debería variar mucho. (En funcion de 2 a priori veo que la posterior no tenga
cambios)

Validación interna del modelo:


Qué tan similares son las predicciones del modelo con los datos que tenemos (ver si es
consistente con las observaciones en las variables que me interese evaluar! ver donde falla)
Validación externa del modelo:
¿Qué tan bien predice el modelo nuevas observaciones? (que no hayan sido usadas para
inferir)
Resumen:
Cómo usamos el modelo para responder preguntas?
- Tenemos que modelar la pregunta como una hipótesis matemática del tipo 𝐻0
- Estimamos 𝑝 𝐻0|𝐲 y comparamos frente a 𝑝 𝐻1|𝐲
- Podemos comparar HPD contra ROPE

Pero es bueno el modelo?


- El objetivo principal es explorar y visualizar como el modelo captura distintos
aspectos de la distribución de los datos.
- Simulamos conjuntos de datos que replican las observaciones 𝑦 𝑟𝑒𝑝 y comparamos
densidades con las observaciones
- Para analizar aspectos puntuales de los datos, definimos estadísticos 𝑇 𝐲 y
comparamos contra T evaluado en y rep.

También podría gustarte