0% encontró este documento útil (0 votos)
39 vistas67 páginas

Clase 7

Cargado por

cesimartejera
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
39 vistas67 páginas

Clase 7

Cargado por

cesimartejera
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Manejo de herramientas

estadísticas para estudios clínicos

Desireé Villalta
Luis Araya
Agenda
Como cargar una
01 Problemas
frecuentes en la 02 base de datos en
RStudio
base de datos

03 Cruce de variables
04 Intervalos de confianza
para media

05
Intervalos de confianza
para proporciones
Problemas frecuentes en las
bases de datos (Excel)

3
Importante!!!
◉ Antes de llenar una base de datos se recomienda mantener el mismo
formato de escritura con letras mayúscula/ minúscula.
◉ Si un grupo de persona va a llenar la información, se le deben dar
indicaciones de cómo llenar las casillas para que no se presenten
incongruencias.
◉ Se debe revisar la base de datos durante y al final del llenado de la
información, para prevenir errores.

4
Revisemos esta base de datos
de Excel

Considera usted que presenta


algún problema?

5
Algunas observaciones

◉ Mezcla de letras mayúsculas/


minúsculas al escribir.
◉ Hay espacios sin información.
◉ La columna C, relacionada con laCI
están con punto, con V-, v-, E-, E.
◉ Filas vacías.
◉ Intercambio de apellido con nombre
◉ CASADA, CASADO, casada, etc.
6
Base de datos apta para trabajar

7
¿Cómo cargar una base de
datos en RStudio?

8
Lectura de datos
Rstudio cuenta con una gran gama de comandos para leer y cargar archivos
de datos, entre los más usuales están:

1. read.table: Lee archivos de datos en formato libre.


2. read.csv: Lee hoja de cálculos donde los datos están separados por
comas (,) y decimales por puntos (.)
3. read.csv2: Lee hoja de cálculos donde los datos están separados por
punto y coma (;) y decimales por comas (,)
4. read.xlsx: Lee una hoja de cálculo XLSX en una tabla. Requiere la
libería xlsx. Se necesita una librería extra.

9
¿Cómo cargar en RStudio el
archivo donde estan los datos?

10
Cargar si

◉ Usa RStudio desde la nube


◉ Usa RStudio desde el escritorio

11
Cargar el archivo (base de datos)
desde el computador a la nube
(servidor)

12
Aquí se busca la carpeta donde
tengan los datos guardados

Ya están cargados los datos al servidor Verificamos que están los


datos seleccionados 13
Cargar el archivo (base de datos) en
RStudio usando read.xlsx
A partir de estos pasos se aplican tanto para RStudio en la nube como el
instalado en la computadora

14
1

15
4

16
7

En este paso RStudio descargará la librería readxl, puede tardar unos minutos 17
¡Ya está cargada la base de datos! 18
Se sugiere copiar y pegar la salida de la cónsola en un script

19
Para mayores detalles puede visitar el link
https://r-coder.com/leer-excel-r/

20
Vamos a trabajar con
un ejemplo

21
Caso de estudio

En cierto estudio el tamaño de la muestra fue de 150 pacientes.


Las variables que se registraron:

 Altura (cm)
 Sexo ( Mujer=1, Hombre=0)
 Presión arterial (alta / baja) (mmHg)
 Ciudad de origen (Caracas = 1 vs. San
 Colesterol total (mg/dl)
Fernando de Apure= 0)
 Tabaquismo (SI= 1, NO= 0)
 Edad (años)
 Peso (kg)

22
Base de datos de interés en Excel
23
OJO!!!

Antes de seguir,
guardemos el script
(editor) en el que estamos
trabajando!
24
Guardar si

◉ Usa RStudio desde el escritorio


◉ Usa RStudio desde la nube

25
Guardar el script (código)
desde el escritorio

26
Buscar la carpeta donde guarda los datos

27
Guardar el script (código)
desde la nube

28
B

Verificamos que se guardó


el script con el nombre 29
Vamos a trabajar con la
base de datos

30
Lectura de la base de datos

Primero, ubicar la carpeta donde


están los datos

31
Para recordar los nombres de las variables, usar la
función names(datos)

32
Para que RStudio reconozca el nombre de las variables de la
base de datos, usar la función attach (datos)

33
Trabajemos
en RStudio
Realicemos un análisis
descriptivo de los datos

35
Análisis descriptivo de la
variable Colesterol

36
Análisis descriptivo de la
variable Edad de los pacientes

37
Análisis descriptivo de las variables
Sexo y Ciudad

38
Respondamos las
preguntas

1. ¿Existe relación entre el IMC y la presión arterial?

2. ¿Existe relación entre la presión arterial alta (sistólica)


y el tabaquismo?

7
Respuesta

1. ¿Existe relación entre el IMC y la


presión arterial?

40
Recuerde que el índice de masa corporal (IMC) se define como

Peso
IMC 
( Altura / 100) 2

Recuerde que la variable Altura está expresada en unidades de cm y se debe pasar a m

41
Cruce de variables

La función redondea a la cantidad


de decimales que se indica (2)
Cálculo del coeficiente de correlación entre el IMC y la presión

La relación entre las variables es muy baja


Respuesta

2. ¿Existe relación entre la presión arterial alta (sistólica) y el tabaquismo?

44
Observaciones:

• La mediana de la presión arterial


de las personas que fuman es
mayor a las que no

• Se presentan 3 datos atípicos en el


grupo de las personas que fuman

• La variabilidad es menor en las


personas que fuman
Inferencia estadística
Trabajemos con intervalos de
confianza (IC) y pruebas de
hipótesis (H0 y H1 )
Recuerde que
𝜇 = Media problacional
𝜎 2 = Varianza problacional
𝑝 = Proporción problacional

𝑥ҧ = Media muestral
𝑆 2 = Varianza muestral
𝑝Ƹ = Proporción muestral
Intervalos de confianza

^ ^
^
Intervalo de confianza
Definición

Un intervalo de confianza (IC) es una técnica de estimación utilizada en inferencia


estadística que permite acotar un par o varios pares de valores, dentro de los cuales se
encontrará la estimación puntual buscada (con una determinada probabilidad).

Un intervalo de confianza nos va a permitir calcular dos valores alrededor de una


media o proporción muestral (uno superior y otro inferior). Estos valores van a acotar
un rango dentro del cual, con una determinada probabilidad, se va a localizar el parámetro
poblacional.
IC = media ± margen de error
IC = proporción ± margen de error
Intervalo de confianza
Conocer el verdadero parámetro poblacional (por ejemplo, la media µ), por lo general, suele ser
algo muy complicado.

Pensemos en una población de 4 millones de personas. ¿Podríamos saber el gasto medio en


consumo por hogar de esa población?

En principio sí. Simplemente tendríamos que hacer una encuesta entre todos los hogares y
calcular la media. Sin embargo, seguir ese proceso sería laborioso y complicaría bastante el estudio.

Ante situaciones así, se hace más factible seleccionar una muestra estadística. Por ejemplo, 500
personas y sobre dicha muestra, calcular la media muestral (𝑥).ҧ Aunque seguiríamos sin saber el verdadero
valor poblacional, podríamos suponer que este se va a situar cerca del valor muestral. A esa media le
sumamos y restamos el margen de error y tenemos un valor del intervalo de confianza. Entre esos dos
valores estará la media poblacional con cierto nivel de confianza (1-α).

P 𝜇 𝜖 𝑥ҧ ± 𝑒𝑟𝑟𝑜𝑟 = 1 − α
Nota: usualmente, se usa α=0,05
Componentes de una
distribución

 Como no se conoce la media


poblacional (µ) se utiliza la
media muestral (𝑥)ҧ

 Como no se conoce la varianza


poblacional (𝜎 2 ) se utiliza la
varianza (𝑆 2 )
Por ejemplo, ¿por qué el nivel de confianza (1-α) es
del 95%?
La línea azul representa el IC para cada muestra de la población

Supongamos que todo este conjunto de


muestras pertenece a una población.

Un porcentaje (5%) queda por fuera de


La media poblacional (µ)

Media muestral
Intervalos de confianza

Para la media (n ≥ 30) y 𝝈2 conocida Para la media (n< 30) y 𝝈2 desconocida

𝜎 𝑆
IC para una muestra 𝐼𝐶 = 𝑥ҧ ± 𝑍𝛼/2 𝐼𝐶 = 𝑥ҧ ± 𝑡𝛼,(𝑛−1)
𝑛 2 𝑛

1 1 𝑆12 𝑆22
IC para dos muestras 𝐼𝐶 = (𝑥1 − 𝑥2 ) ± 𝑍𝛼/2 𝜎 + 𝐼𝐶 = (𝑥1 − 𝑥2 ) ± 𝑡𝛼,(𝑛 +
𝑛1 𝑛2 2 1 +𝑛2 −2) 𝑛1 𝑛2
Suponiendo varianzas poblacionales iguales

𝑛 = es el tamaño de la muestra 𝑆 = es la desviación estándar de la muestra


𝜎 = es la desviación de la población 𝑆12 = es la varianza de la muestra 1
𝑛1 = es el tamaño de la muestra 1 𝑆22 = es la varianza de la muestra 2
𝑛2 = es el tamaño de la muestra 2 𝛼 = es el nivel de significancia
𝑍 = es el valor normal estandarizado 𝑡= es el valor de la distribución t-student
Comparación entre la distribución t-student y la distribución Normal
Ejemplo de tablas de la distribución t-student y Normal
Intervalos de confianza

Para la proporción

𝑝(1
Ƹ − 𝑝)Ƹ
IC para una muestra 𝐼𝐶 = 𝑝Ƹ ± 𝑍𝛼/2
𝑛

IC para dos muestras 𝑝


ෞ1 (1 − 𝑝
ෞ1 ) 𝑝ෞ2 (1 − 𝑝
ෞ2 )
𝐼𝐶 = (ෞ
𝑝1 − 𝑝
ෞ2 ) ± 𝑍𝛼/2 +
𝑛1 𝑛2
𝑥
𝑝Ƹ = es el estimador puntual de la proporción
𝛼 = es el nivel de significancia 𝑛
𝑥1
𝑛1 = es el tamaño de la muestra 1 ෞ1 = es el estimador puntual de la proporción 1
𝑝
𝑛1
𝑛2 = es el tamaño de la muestra 2 𝑥2
𝑝
ෞ2 = es el estimador puntual de la proporción 2
𝑛2
𝑍 = es el valor normal estandarizado
𝑛 = es el tamaño de la muestra 𝑥 = es el número de éxitos en n pruebas
Intervalos de
confianza
En RStudio
Para calcular el intervalo de confianza de la media se usa la
función t.test()
Calcular el IC para la edad en general

𝑆
𝐼𝐶 = 𝑥ҧ ± 𝑡𝛼,(𝑛−1)
2 𝑛

La edad promedio de la muestra es de 47 años y la edad poblacional oscila entre (45.17, 49.08) para un
nivel de confianza (1-𝛼) del 95%
Modificando el nivel de confianza a 90%
(1-α)

𝑆
𝐼𝐶 = 𝑥ҧ ± 𝑡𝛼,(𝑛−1)
2 𝑛

La edad promedio de la muestra es de 47 años y la edad poblacional oscila entre (45.49, 48.77) para un
nivel de confianza (1-𝛼) del 90%
Calcule el IC para el peso en general

El peso promedio de la muestra es de 82.59 kg y el peso poblacional oscila entre (79.69, 85.46) para un
nivel de confianza (1-𝛼) del 95%
IC por sexo con un nivel de confianza de 95%

Calcular el IC para la media de la edad por sexo Recuerde que Sexo ( Mujer=1, Hombre=0)

La edad promedio de las mujeres oscila entre (45.06, 50.58)


La edad promedio de los hombres oscila entre (43.63, 49.28)
para un nivel de confianza (1-𝛼) del 95%
IC para diferencia de medias a nivel de confianza de 95%
Calcular el IC para la diferencia de medias de las edades entre sexo

Parece haber un solapamiento de las edades por sexo


de los pacientes

La diferencia de edades promedios entre hombres y mujeres oscila entre (-2.55, 5.27). Como el 0 está incluido
en el IC no se puede asegurar que el promedio de las edades de las mujeres sea diferente que la de los
hombres.
IC para proporciones

Calcular el IC para la proporción de pacientes que fuman en general

El intervalo de confianza para la


proporción de personas que fuman
es (0.07, 0.19) y la proporción
muestral es 0.12; esto se puede
interpretar como, el 12% de la
muestra fuma, y la proporción
poblacional oscila entre el 7% y 19%,
con un nivel de confianza de 95%.

0.07 0.12 0.19


IC para proporciones
Calcular el IC para la diferencia de proporciones en pacientes que fuman entre sexo

La diferencia de proporciones de tabaquismo por sexo oscila entre (-0.13, 0.10). Como el 0 está incluido en el IC no se puede
asegurar que la proporción de mujeres sea diferente que la de los hombres
IC para proporciones
Calcular el IC para la diferencia de proporciones en pacientes que no fuman entre ciudades

La diferencia de proporciones de no tabaquismo por ciudad oscila entre (-0.31, -0.08). Como el IC<0 se puede asegurar que la
proporción de personas de que no fuman en Caracas es menor que la proporción de personas de que no fuman en San Fernando
de Apure. Notando además que la proporción de no fumadores de Caracas es 0.77 y la de San Fernando de Apure 0.97,
respectivamente.
¡Gracias!

¿ Preguntas ?

69

También podría gustarte