Manejo de herramientas
estadísticas para estudios clínicos
Desireé Villalta
Luis Araya
Agenda
Como cargar una
01 Problemas
frecuentes en la 02 base de datos en
RStudio
base de datos
03 Cruce de variables
04 Intervalos de confianza
para media
05
Intervalos de confianza
para proporciones
Problemas frecuentes en las
bases de datos (Excel)
3
Importante!!!
◉ Antes de llenar una base de datos se recomienda mantener el mismo
formato de escritura con letras mayúscula/ minúscula.
◉ Si un grupo de persona va a llenar la información, se le deben dar
indicaciones de cómo llenar las casillas para que no se presenten
incongruencias.
◉ Se debe revisar la base de datos durante y al final del llenado de la
información, para prevenir errores.
4
Revisemos esta base de datos
de Excel
Considera usted que presenta
algún problema?
5
Algunas observaciones
◉ Mezcla de letras mayúsculas/
minúsculas al escribir.
◉ Hay espacios sin información.
◉ La columna C, relacionada con laCI
están con punto, con V-, v-, E-, E.
◉ Filas vacías.
◉ Intercambio de apellido con nombre
◉ CASADA, CASADO, casada, etc.
6
Base de datos apta para trabajar
7
¿Cómo cargar una base de
datos en RStudio?
8
Lectura de datos
Rstudio cuenta con una gran gama de comandos para leer y cargar archivos
de datos, entre los más usuales están:
1. read.table: Lee archivos de datos en formato libre.
2. read.csv: Lee hoja de cálculos donde los datos están separados por
comas (,) y decimales por puntos (.)
3. read.csv2: Lee hoja de cálculos donde los datos están separados por
punto y coma (;) y decimales por comas (,)
4. read.xlsx: Lee una hoja de cálculo XLSX en una tabla. Requiere la
libería xlsx. Se necesita una librería extra.
9
¿Cómo cargar en RStudio el
archivo donde estan los datos?
10
Cargar si
◉ Usa RStudio desde la nube
◉ Usa RStudio desde el escritorio
11
Cargar el archivo (base de datos)
desde el computador a la nube
(servidor)
12
Aquí se busca la carpeta donde
tengan los datos guardados
Ya están cargados los datos al servidor Verificamos que están los
datos seleccionados 13
Cargar el archivo (base de datos) en
RStudio usando read.xlsx
A partir de estos pasos se aplican tanto para RStudio en la nube como el
instalado en la computadora
14
1
15
4
16
7
En este paso RStudio descargará la librería readxl, puede tardar unos minutos 17
¡Ya está cargada la base de datos! 18
Se sugiere copiar y pegar la salida de la cónsola en un script
19
Para mayores detalles puede visitar el link
https://r-coder.com/leer-excel-r/
20
Vamos a trabajar con
un ejemplo
21
Caso de estudio
En cierto estudio el tamaño de la muestra fue de 150 pacientes.
Las variables que se registraron:
Altura (cm)
Sexo ( Mujer=1, Hombre=0)
Presión arterial (alta / baja) (mmHg)
Ciudad de origen (Caracas = 1 vs. San
Colesterol total (mg/dl)
Fernando de Apure= 0)
Tabaquismo (SI= 1, NO= 0)
Edad (años)
Peso (kg)
22
Base de datos de interés en Excel
23
OJO!!!
Antes de seguir,
guardemos el script
(editor) en el que estamos
trabajando!
24
Guardar si
◉ Usa RStudio desde el escritorio
◉ Usa RStudio desde la nube
25
Guardar el script (código)
desde el escritorio
26
Buscar la carpeta donde guarda los datos
27
Guardar el script (código)
desde la nube
28
B
Verificamos que se guardó
el script con el nombre 29
Vamos a trabajar con la
base de datos
30
Lectura de la base de datos
Primero, ubicar la carpeta donde
están los datos
31
Para recordar los nombres de las variables, usar la
función names(datos)
32
Para que RStudio reconozca el nombre de las variables de la
base de datos, usar la función attach (datos)
33
Trabajemos
en RStudio
Realicemos un análisis
descriptivo de los datos
35
Análisis descriptivo de la
variable Colesterol
36
Análisis descriptivo de la
variable Edad de los pacientes
37
Análisis descriptivo de las variables
Sexo y Ciudad
38
Respondamos las
preguntas
1. ¿Existe relación entre el IMC y la presión arterial?
2. ¿Existe relación entre la presión arterial alta (sistólica)
y el tabaquismo?
7
Respuesta
1. ¿Existe relación entre el IMC y la
presión arterial?
40
Recuerde que el índice de masa corporal (IMC) se define como
Peso
IMC
( Altura / 100) 2
Recuerde que la variable Altura está expresada en unidades de cm y se debe pasar a m
41
Cruce de variables
La función redondea a la cantidad
de decimales que se indica (2)
Cálculo del coeficiente de correlación entre el IMC y la presión
La relación entre las variables es muy baja
Respuesta
2. ¿Existe relación entre la presión arterial alta (sistólica) y el tabaquismo?
44
Observaciones:
• La mediana de la presión arterial
de las personas que fuman es
mayor a las que no
• Se presentan 3 datos atípicos en el
grupo de las personas que fuman
• La variabilidad es menor en las
personas que fuman
Inferencia estadística
Trabajemos con intervalos de
confianza (IC) y pruebas de
hipótesis (H0 y H1 )
Recuerde que
𝜇 = Media problacional
𝜎 2 = Varianza problacional
𝑝 = Proporción problacional
𝑥ҧ = Media muestral
𝑆 2 = Varianza muestral
𝑝Ƹ = Proporción muestral
Intervalos de confianza
^ ^
^
Intervalo de confianza
Definición
Un intervalo de confianza (IC) es una técnica de estimación utilizada en inferencia
estadística que permite acotar un par o varios pares de valores, dentro de los cuales se
encontrará la estimación puntual buscada (con una determinada probabilidad).
Un intervalo de confianza nos va a permitir calcular dos valores alrededor de una
media o proporción muestral (uno superior y otro inferior). Estos valores van a acotar
un rango dentro del cual, con una determinada probabilidad, se va a localizar el parámetro
poblacional.
IC = media ± margen de error
IC = proporción ± margen de error
Intervalo de confianza
Conocer el verdadero parámetro poblacional (por ejemplo, la media µ), por lo general, suele ser
algo muy complicado.
Pensemos en una población de 4 millones de personas. ¿Podríamos saber el gasto medio en
consumo por hogar de esa población?
En principio sí. Simplemente tendríamos que hacer una encuesta entre todos los hogares y
calcular la media. Sin embargo, seguir ese proceso sería laborioso y complicaría bastante el estudio.
Ante situaciones así, se hace más factible seleccionar una muestra estadística. Por ejemplo, 500
personas y sobre dicha muestra, calcular la media muestral (𝑥).ҧ Aunque seguiríamos sin saber el verdadero
valor poblacional, podríamos suponer que este se va a situar cerca del valor muestral. A esa media le
sumamos y restamos el margen de error y tenemos un valor del intervalo de confianza. Entre esos dos
valores estará la media poblacional con cierto nivel de confianza (1-α).
P 𝜇 𝜖 𝑥ҧ ± 𝑒𝑟𝑟𝑜𝑟 = 1 − α
Nota: usualmente, se usa α=0,05
Componentes de una
distribución
Como no se conoce la media
poblacional (µ) se utiliza la
media muestral (𝑥)ҧ
Como no se conoce la varianza
poblacional (𝜎 2 ) se utiliza la
varianza (𝑆 2 )
Por ejemplo, ¿por qué el nivel de confianza (1-α) es
del 95%?
La línea azul representa el IC para cada muestra de la población
Supongamos que todo este conjunto de
muestras pertenece a una población.
Un porcentaje (5%) queda por fuera de
La media poblacional (µ)
Media muestral
Intervalos de confianza
Para la media (n ≥ 30) y 𝝈2 conocida Para la media (n< 30) y 𝝈2 desconocida
𝜎 𝑆
IC para una muestra 𝐼𝐶 = 𝑥ҧ ± 𝑍𝛼/2 𝐼𝐶 = 𝑥ҧ ± 𝑡𝛼,(𝑛−1)
𝑛 2 𝑛
1 1 𝑆12 𝑆22
IC para dos muestras 𝐼𝐶 = (𝑥1 − 𝑥2 ) ± 𝑍𝛼/2 𝜎 + 𝐼𝐶 = (𝑥1 − 𝑥2 ) ± 𝑡𝛼,(𝑛 +
𝑛1 𝑛2 2 1 +𝑛2 −2) 𝑛1 𝑛2
Suponiendo varianzas poblacionales iguales
𝑛 = es el tamaño de la muestra 𝑆 = es la desviación estándar de la muestra
𝜎 = es la desviación de la población 𝑆12 = es la varianza de la muestra 1
𝑛1 = es el tamaño de la muestra 1 𝑆22 = es la varianza de la muestra 2
𝑛2 = es el tamaño de la muestra 2 𝛼 = es el nivel de significancia
𝑍 = es el valor normal estandarizado 𝑡= es el valor de la distribución t-student
Comparación entre la distribución t-student y la distribución Normal
Ejemplo de tablas de la distribución t-student y Normal
Intervalos de confianza
Para la proporción
𝑝(1
Ƹ − 𝑝)Ƹ
IC para una muestra 𝐼𝐶 = 𝑝Ƹ ± 𝑍𝛼/2
𝑛
IC para dos muestras 𝑝
ෞ1 (1 − 𝑝
ෞ1 ) 𝑝ෞ2 (1 − 𝑝
ෞ2 )
𝐼𝐶 = (ෞ
𝑝1 − 𝑝
ෞ2 ) ± 𝑍𝛼/2 +
𝑛1 𝑛2
𝑥
𝑝Ƹ = es el estimador puntual de la proporción
𝛼 = es el nivel de significancia 𝑛
𝑥1
𝑛1 = es el tamaño de la muestra 1 ෞ1 = es el estimador puntual de la proporción 1
𝑝
𝑛1
𝑛2 = es el tamaño de la muestra 2 𝑥2
𝑝
ෞ2 = es el estimador puntual de la proporción 2
𝑛2
𝑍 = es el valor normal estandarizado
𝑛 = es el tamaño de la muestra 𝑥 = es el número de éxitos en n pruebas
Intervalos de
confianza
En RStudio
Para calcular el intervalo de confianza de la media se usa la
función t.test()
Calcular el IC para la edad en general
𝑆
𝐼𝐶 = 𝑥ҧ ± 𝑡𝛼,(𝑛−1)
2 𝑛
La edad promedio de la muestra es de 47 años y la edad poblacional oscila entre (45.17, 49.08) para un
nivel de confianza (1-𝛼) del 95%
Modificando el nivel de confianza a 90%
(1-α)
𝑆
𝐼𝐶 = 𝑥ҧ ± 𝑡𝛼,(𝑛−1)
2 𝑛
La edad promedio de la muestra es de 47 años y la edad poblacional oscila entre (45.49, 48.77) para un
nivel de confianza (1-𝛼) del 90%
Calcule el IC para el peso en general
El peso promedio de la muestra es de 82.59 kg y el peso poblacional oscila entre (79.69, 85.46) para un
nivel de confianza (1-𝛼) del 95%
IC por sexo con un nivel de confianza de 95%
Calcular el IC para la media de la edad por sexo Recuerde que Sexo ( Mujer=1, Hombre=0)
La edad promedio de las mujeres oscila entre (45.06, 50.58)
La edad promedio de los hombres oscila entre (43.63, 49.28)
para un nivel de confianza (1-𝛼) del 95%
IC para diferencia de medias a nivel de confianza de 95%
Calcular el IC para la diferencia de medias de las edades entre sexo
Parece haber un solapamiento de las edades por sexo
de los pacientes
La diferencia de edades promedios entre hombres y mujeres oscila entre (-2.55, 5.27). Como el 0 está incluido
en el IC no se puede asegurar que el promedio de las edades de las mujeres sea diferente que la de los
hombres.
IC para proporciones
Calcular el IC para la proporción de pacientes que fuman en general
El intervalo de confianza para la
proporción de personas que fuman
es (0.07, 0.19) y la proporción
muestral es 0.12; esto se puede
interpretar como, el 12% de la
muestra fuma, y la proporción
poblacional oscila entre el 7% y 19%,
con un nivel de confianza de 95%.
0.07 0.12 0.19
IC para proporciones
Calcular el IC para la diferencia de proporciones en pacientes que fuman entre sexo
La diferencia de proporciones de tabaquismo por sexo oscila entre (-0.13, 0.10). Como el 0 está incluido en el IC no se puede
asegurar que la proporción de mujeres sea diferente que la de los hombres
IC para proporciones
Calcular el IC para la diferencia de proporciones en pacientes que no fuman entre ciudades
La diferencia de proporciones de no tabaquismo por ciudad oscila entre (-0.31, -0.08). Como el IC<0 se puede asegurar que la
proporción de personas de que no fuman en Caracas es menor que la proporción de personas de que no fuman en San Fernando
de Apure. Notando además que la proporción de no fumadores de Caracas es 0.77 y la de San Fernando de Apure 0.97,
respectivamente.
¡Gracias!
¿ Preguntas ?
69