0% encontró este documento útil (0 votos)
191 vistas6 páginas

Amelia II: Imputación de Datos Faltantes

Amelia II es un programa que permite a los usuarios realizar imputación múltiple de datos con valores faltantes para completar ("imputar") conjuntos de datos incompletos. Usa un algoritmo basado en el método de estimación-maximización (EM) combinado con un enfoque de bootstrap para generar múltiples conjuntos de datos completos que reflejan la incertidumbre sobre los datos faltantes. Esto permite aplicar análisis estadísticos que requieren datos completos a toda la información en los datos originales incompletos. Amelia

Cargado por

Julian Cuta
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
191 vistas6 páginas

Amelia II: Imputación de Datos Faltantes

Amelia II es un programa que permite a los usuarios realizar imputación múltiple de datos con valores faltantes para completar ("imputar") conjuntos de datos incompletos. Usa un algoritmo basado en el método de estimación-maximización (EM) combinado con un enfoque de bootstrap para generar múltiples conjuntos de datos completos que reflejan la incertidumbre sobre los datos faltantes. Esto permite aplicar análisis estadísticos que requieren datos completos a toda la información en los datos originales incompletos. Amelia

Cargado por

Julian Cuta
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Amelia II: Un programa para datos perdidos

Contenido
1. Introducción
2. ¿Qué hace Amelia?
2.1 Supuestos
2.2 Algoritmo
2.3 Análisis
3. Versiones de Amelia
3.1 Instalación y actualización de R
3.2 Instalación en Windows de Amelia View como un programa independiente
3.3 Linux (instalación loca)
4. Una guía del usuario
4.1 Datos y resultados iniciales
4.2 Imputación múltiple
4.2.1 Guardar conjuntos de datos imputados
4.2.2 Combinando múltiples corridas de Amelia
4.2.3 Salida de pantalla
4.3 Imputación paralela utilizando CPUs multinúcleo
4.4 Transformaciones que mejoran la imputación.
4.4.1 Ordinal
4.4.2 Nominal
4.4.3 Log natural
4.4.4 Raíz cuadrada
4.4.5 Logístico
4.5 Identificación de Variables
4.6 Serie temporal, o serie temporal de datos en sección transversal
4.6.1 Lags and Leads
4.7 Incluyendo información previa
4.7.1 Ridge Priors para altas falta, pequeñas o grandes correlaciones
4.7.2 Anteriores del nivel de observación
4.7.3 Limites lógicos
4.8 Diagnostico
4.8.1 Comparando densidades
4.8.2 Sobreestimado
4.8.3 Valores de inicio sobredispersos
4.8.4 Parcelas de series de tiempo
4.8.5 Mapas de los perdidos
4.9 Transformación post imputación
4.10 Modelos de análisis
4.11 La clase de Amelia
5. Amelia menú de la guía
5.1 Cargando vista de Amelia
5.2 Cargando un conjunto de datos en la vista de Amelia
5.3 Variable dashboard
5.4 Opciones de Amelia
5.4.1 Opciones numéricas
5.4.2 Añadir distribuciones prior
5.4.3 Añadir rango prior
5.5 Imputación y comprobación de diagnósticos
5.5.1 Dialogo de diagnostico
5.6 Sesiones

Introducción
Los datos que faltan son un problema ubicuo en los datos de las ciencias sociales. Los
encuestados no responden a todas las preguntas, los países no recopilan estadísticas cada
año, los archivos están incompletos, los temas abandonan los paneles. Sin embargo, la
mayoría de los métodos de análisis estadístico suponen la ausencia de datos faltantes y solo
pueden incluir observaciones para las que se mide cada variable. Amelia II permite a los
usuarios imputar ("completar" o rectangularizar) conjuntos de datos incompletos para que
los análisis que requieren observaciones completas puedan usar adecuadamente toda la
información presente en un conjunto de datos con datos faltantes, y evitar los sesgos, las
ineficiencias y las estimaciones de incertidumbre incorrectas que pueden resultado de
descartar todas las observaciones observadas parcialmente del análisis.
Amelia II realiza imputación múltiple, un enfoque de propósito general para datos con
valores faltantes. Se ha demostrado que la imputación múltiple reduce el sesgo y aumenta
la eficiencia en comparación con la eliminación por listas. Además, los métodos ad hoc de
imputación, como la imputación media, pueden llevar a sesgos serios en varianzas y
covarianzas. Desafortunadamente, la creación de múltiples imputaciones puede ser un
proceso oneroso debido a la naturaleza técnica de los algoritmos involucrados. Amelia
proporciona a los usuarios una forma sencilla de crear e implementar un modelo de
imputación, generar conjuntos de datos imputados y verificar su ajuste mediante
diagnósticos.
El programa Amelia II va varios pasos importantes más allá de las capacidades de la
primera versión de Amelia. (Honaker, Joseph, King, Scheve and Singh., 1998-2002). Por
un lado, el algoritmo EMB basado en bootstrap incluido en Amelia II puede imputar
muchas más variables, con muchas más observaciones, en mucho menos tiempo. La gran
simplicidad y potencia del algoritmo EMB hizo posible escribir Amelia II para que
prácticamente nunca se bloquee, lo que, según nuestro conocimiento, lo hace único entre
todos los software de imputación múltiple existentes, y es mucho más rápido que las
alternativas.
Amelia II también tiene características para realizar imputaciones válidas y mucho más
precisas para los datos de sección transversal, serie temporal y serie transversal temporal, y
permite la incorporación de información previa de observación y nivel de celda de datos-
celda. Además de todo esto, Amelia II proporciona muchas funciones de diagnóstico que
ayudan a los usuarios a verificar la validez de su modelo de imputación. Este software
implementa las ideas desarrolladas en Honaker and King (2010)
2. ¿Qué hace Amelia?
La imputación múltiple implica imputar valores m veces para cada celda faltante en su
matriz de datos y crear m conjuntos de datos "completos". En estos conjuntos de datos
completados, los valores observados son los mismos, pero los valores faltantes se
completan con una distribución de imputaciones que reflejan la incertidumbre sobre los
datos faltantes. Después de la imputación con el algoritmo EMB de Amelia II, puede
aplicar cualquier método estadístico que hubiera utilizado si no hubiera faltado ningún
valor en cada uno de los m conjuntos de datos, y usar un procedimiento simple, que se
describe a continuación, para combinar los resultados.
En circunstancias normales, solo necesita imputar una vez y luego puede analizar los m
conjuntos de datos imputados tantas veces y con tantos fines como desee. La ventaja de
Amelia II es que combina la velocidad comparativa y la facilidad de uso de nuestro
algoritmo con el poder de la imputación múltiple, para permitirle concentrarse en sus
preguntas de investigación sustantivas en lugar de dedicar tiempo a desarrollar modelos
específicos de aplicaciones complejas para no responder en cada nuevo conjunto de datos.
A menos que la tasa de faltantes sea muy alta, m = 5 (el valor predeterminado del
programa) es probablemente adecuado.
2.1 Supuestos
El modelo de imputación en Amelia II asume que los datos completos (es decir, observados
y no observados) son multivariables normales. Si denotamos el conjunto de datos (n x k)
como D (con Dobs de la parte observada y Dmis de la parte no observada), este supuesto es
D N k (μ , Σ)

Que establece que D tiene una distribución normal multivariable con vector medio μ y
matriz de covarianza Σ. La distribución normal multivariable es a menudo una
aproximación burda a la distribución real de los datos, aunque existe evidencia de que este
modelo funciona tan bien como otros modelos más complicados, incluso en el caso de
datos categóricos o mixtos (ver Schafer, 1997; Schafer y Olsen, 1998). Además, las
transformaciones de muchos tipos de variables a menudo pueden hacer que esta suposición
de normalidad sea más plausible (ver 4.4 para más información sobre cómo implementar
esto en Amelia).
El problema esencial de la imputación es que solo observamos a Dobs, no a la totalidad de
D. Con el fin de ganar tracción, debemos hacer el supuesto habitual en la imputación
múltiple de que los datos faltan al azar (MAR)). Esta suposición significa que el patrón de
falta solo depende de los Dobs de datos observados, no de los Dmis de datos no
observados. Deje que M sea la matriz de falta, con celdas mij = 1 si dijéramos Dmis y mij =
0 de lo contrario. En pocas palabras, M es una matriz que indica si falta una celda en los
datos o no.
En pocas palabras, M es una matriz que indica si falta o no una celda en los datos. Con esto,
podemos definir el supuesto MAR como

p ( M|D )= p(M ∨Dobs )


Tenga en cuenta que MAR incluye el caso cuando los valores faltantes se crean de forma
aleatoria mediante, por ejemplo, lanzamientos de monedas, pero también incluye muchos
modelos de falta más sofisticados. Cuando la falta de información no depende de los datos,
decimos que los datos faltan completamente al azar (MCAR). Amelia requiere tanto la
normalidad multivariable como el supuesto MAR (o el caso especial más simple de
MCAR). Tenga en cuenta que la suposición de MAR puede hacerse más plausible al incluir
variables adicionales en el conjunto de datos D en el conjunto de datos de imputación que
solo las que eventualmente se previeron utilizar en el modelo de análisis.

2.2 Algoritmo
En la imputación múltiple, nos ocupamos de los parámetros de datos completos, θ=(μ , Σ).
Al escribir un modelo de los datos, queda claro que nuestros datos observados son en
realidad Dobs y M, la matriz de faltantes. Por lo tanto, la probabilidad de nuestros datos
observados es p(Dobs , M ∨θ). Usando el supuesto MAR, podemos dividir esto,

p ( D obs , M |θ ) =p ( M |D obs ) p ( D obs|θ )


Como solo nos interesa la inferencia en los parámetros de datos completos, podemos
escribir la probabilidad como

L ( θ|D obs ) ∝ p ( D obs|θ )


Que podemos reescribir usando la ley de expectativas iteradas como

p ( Dobs|θ )=∫ p ( D|θ ) d Dmis

Con esta probabilidad y un plano antes de θ, podemos ver que la parte posterior es

p ( θ|Dobs ) ∝ p ( Dobs|θ )=∫ p ( D|θ ) d D mis

La principal dificultad computacional en el análisis de los datos incompletos es sacar


conclusiones de esta parte posterior. El algoritmo EM (Dempster, Laird y Rubin, 1977) es
un enfoque computacional simple para encontrar el modo de la parte posterior. Nuestro
algoritmo EMB combina el algoritmo EM clásico con un enfoque de arranque para tomar
dibujos de esta parte posterior. Para cada sorteo, reiniciamos los datos para simular la
incertidumbre de la estimación y luego ejecutamos el algoritmo EM para encontrar el modo
de la posterior para los datos bootstrap, lo que también nos da una incertidumbre
fundamental (consulte Honaker y King (2010) para obtener detalles del algoritmo EMB). ).
Una vez que tenemos trazados de la parte posterior de los parámetros de datos completos,
hacemos imputaciones al dibujar los valores de Dmis a partir de su distribución condicional
en Dobs y los trazos de theta, que es una regresión lineal con parámetros que se pueden
calcular directamente desde theta.
2.3 Análisis
Para combinar los resultados en m conjuntos de datos, primero decida la cantidad de interés
a calcular, como una media univariada, coeficiente de regresión, probabilidad predicha o
primera diferencia. Entonces, la forma más sencilla es dibujar simulaciones de 1 / m de q de
cada uno de los m conjuntos de datos, combinarlos en un conjunto de simulaciones de m, y
luego usar los métodos estándar de interpretación basados en simulación comunes para
conjuntos de datos individuales (King , Tomz y Wittenberg, 2000).
Alternativamente, puede combinar directamente y usar como la estimación de imputación
múltiple de este parámetro, q, el promedio de las m estimaciones separadas, qj (j = 1,… m):
m
1
q= ∑q
m j=1 j

La varianza de la estimación puntual es el promedio de las varianzas estimadas dentro de


cada conjunto de datos completado, más la varianza muestral en las estimaciones puntuales
entre los conjuntos de datos (multiplicado por un factor que corrige el sesgo porque m <1).

Sea SE (q j ¿2 la varianza estimada (error estándar cuadrado) de q j del conjunto de datos j, y


m 2
2 ( q j−q ) es la varianza de la muestra en las estimaciones de m puntos. El error
Sq =∑
(m−1)
j=1
estándar de la estimación del punto de imputación múltiple es la raíz cuadrada de
m
1 1
2
SE ( q ) = ∑
m j=1
2
( )
SE ( q j ) +S 2q 1+
m

3. Versiones de Amelia
Están disponibles dos versiones de Amelia II, cada una con sus propias ventajas e
inconvenientes, pero ambas utilizan el mismo código y algoritmos subyacentes. Primero,
Amelia II existe como un paquete para el paquete de software estadístico R. Los usuarios
pueden utilizar su conocimiento del lenguaje R para ejecutar Amelia II en la línea de
comandos o para crear secuencias de comandos que ejecutarán Amelia II y preservarán los
comandos para uso futuro. Como alternativa, puede preferir AmeliaView, donde una
Interfaz Gráfica de Usuario (GUI) interactiva le permite configurar opciones y ejecutar
Amelia sin ningún conocimiento del lenguaje de programación R.
Ambas versiones de Amelia II están disponibles en las plataformas Windows, Mac OS X y
Linux, y Amelia II for R se ejecuta en cualquier entorno que R pueda. Todas las versiones
de Amelia requieren el software R, que está disponible gratuitamente en http: //www.r-
[Link] /.
Antes de instalar Amelia II, debe tener instalada la versión R 2.1.0 o superior, que está
disponible gratuitamente en [Link]

4.2 Imputación múltiple


Al realizar la imputación múltiple, el primer paso es identificar las variables que se
incluirán en el modelo de imputación. Es crucial incluir al menos tanta información como
se utilizará en el modelo de análisis. Es decir, cualquier variable que estará en el modelo de
análisis también debe estar en el modelo de imputación. Esto incluye cualquier
transformación o interacción de variables que aparecerán en el modelo de análisis.
De hecho, a menudo es útil agregar más información al modelo de imputación que estará
presente cuando se ejecute el análisis. Dado que la imputación es predictiva, cualquier
variable que aumentaría el poder predictivo debería incluirse en el modelo, incluso si la
inclusión en el modelo de análisis produciría un sesgo en la estimación de un efecto causal
(como en el caso de las variables posteriores al tratamiento) o la colinealidad excluiría la
determinación qué variable tenía una relación con la variable dependiente (como la
inclusión de múltiples medidas alternativas del PIB). En nuestro caso, incluimos todas las
variables en freetrade en el modelo de imputación, aunque nuestro modelo de análisis se
centra en polity, pop y [Link]
Para crear múltiples imputaciones en Amelia, simplemente podemos ejecutar

Tenga en cuenta que nuestro conjunto de datos de ejemplo es deliberadamente pequeño


tanto en variables como en elementos de sección transversal. Los conjuntos de datos típicos
a menudo pueden tener cientos o posiblemente un par de miles de pasos para el algoritmo
EM. Las cadenas largas deberían recordar al analista que considere si las transformaciones
de las variables serían más cercanas a las suposiciones normales multivariadas del modelo
(las transformaciones correctas pero omitidas reducirán el número de pasos y mejorarán la t
de las imputaciones), pero no denotan necesariamente problemas con El modelo de
imputación.

También podría gustarte