Texto Base Bioestadística
Texto Base Bioestadística
BIOESTADÍSTICA E
INFORMÁTICA APLICADA
Gestión: 2021
Bioestadística e Informática Aplicada 2
Índice.
2. Capítulo 1
2.1 HISTORIA DE LA BIOESTADÍSTICA
El primer médico que utilizó métodos matemáticos para cuantificar variables de pacientes y sus
enfermedades fue el francés Pierre Charles-Alexandre Louis (1787-1872), en un estudio de la
tuberculosis, que influyó en toda una generación de estudiantes. Sus discípulos, a su vez,
reforzaron la nueva ciencia de la epidemiología con el método estadístico.
Otros eventos a considerar son los deWilliam Heaton Hamer (1862-1936) propuso un modelo
temporal discreto en un intento de explicar la ocurrencia regular de las epidemias de sarampión.
John Brownlee (1868-1927), luchó durante veinte años con problemas de cuantificación de la
infectividad epidemiológica. Ronald Ross (1857-1932) exploró la aplicación matemática de la teoría
de las probabilidades con la finalidad de determinar la relación entre el número de mosquitos y la
incidencia de malaria en situaciones endémicas y epidémicas. El cambio más radical en la
dirección de la epidemiología se debe a Austin Bradford Hill (1897-1991) con el ensayo clínico
aleatorizado y, en colaboración con Richard Doll (1912),el épico trabajo que correlacionó el tabaco
y el cáncer de pulmón.
El precursor histórico y llamado padre de la Bioestadística fue el inglés: Sir Francis Galton(1822-
1911), introdujo un método matemático para el ajuste de curvas a puntos experimentales: el de los
mínimos cuadrados. Además formuló los conceptos de Regresión y Correlación.
Bioestadística e Informática Aplicada 4
Ronald A. Fisher (1890-1962), considerado el creador del 50% de la Bioestadística actual. Fisher
realizó muchos avances en la estadística, siendo una de sus más importantes contribuciones, la
inferencia estadística creada por él en1920. En Cambridge en 1912, estudió la teoría de errores.
Se dedicó al estudio pionero de los principios del diseño de experimentos (The Design of
Experiments, 1935). Elaboró sus trabajos sobre el Análisis de Varianza (procedimiento utilizado en
todo el mundo).
Por lo tanto la Estadística es un método con procedimientos lógicos que logran el máximo de la
experimentación científica. A pesar de la sencilla caracterización de Estadística, ésta nos permite
entrever vastos campos de acción, pudiéndose decir que no hay prácticamente rama del saber
humano en donde no tenga utilización. Sin embargo, lo anterior no quiere decir que la Estadística,
sea el único mecanismo a través del cual puedan obtenerse nuevos conocimientos o que el solo
hecho de manejar una gran cantidad de datos numéricos implique un trabajo científico.
Especificando de una vez se define a la Estadística, como una ciencia que estudia la recolección,
análisis e interpretación de datos, ya sea para ayudar en la toma de decisiones o para explicar
condiciones regulares o irregulares de algún fenómeno, problema o estudio aplicado, de ocurrencia
en forma aleatoria o condicional. Sin embargo estadística es más que eso, en otras palabras, es
el vehículo que permite llevar a cabo el proceso relacionado con la investigación científica. Es una
ciencia transversal a una amplia variedad de disciplinas, desde la física hasta las ciencias sociales,
desde las ciencias de la salud hasta el control de calidad. Se usa para la toma de decisiones en
áreas de negocios o instituciones gubernamentales.
El pensamiento estadístico aplicado a las ciencias de la salud no sólo resuelve y entiende compleja
metodología para dar respuesta a hipótesis, sino que es capaz de organizar el “sistema” que
involucra la investigación desde el diseño general de experimentos en el área específica, diseño
de muestreo, control de calidad de la información, análisis y presentación de resultados.
La ciencia se desarrolla onservando hechos, formulando leyes que los explican y realizando
experimentos para validar o rechazar dichas leyes
Los modelos que crea la ciencia son de tipo aleatorio (estocastico)
La Estadistica se uliliza como tecnología al servicio de las ciencias donde la variabilidad y
la incertidumbre forman parte de su naturaleza.
“La Bioestadistica, enseña y ayuda a investigar en todas las áreas de las Ciencias de la
vida donde la variabilidad no es la excepción sino la regla” Carrasco de la peña (1982)
1.5 Definición.
La estadística es la ciencia de la:
Sistematizacion, recolección, ordenación y presentación de los datos
referentes a un fenómeno que presenta variabilidad o incertidumbre para su
estudio metodológico, con objeto de
Y poder de esa forma hacer previsiones sobre los mismos, tomar decisiones
y obtener conclusiones.
1.7 La Estadística Inferencial, es una parte de la Estadística que hace referencia a los
procedimientos y técnicas de muestreo, diseños experimentales, inferencias y predicciones de una
población, para hacer pruebas de hipótesis, estimaciones, correlaciones, regresiones,
modelamiento de datos.
Ejemplo:
Población finita: El conjunto de neonatos según el sexo en el Hospital Universitario de Los
Andes, durante el último año.
Población infinita: El conjunto de neonatos según el sexo en Bolivia, durante el último año.
conoce con la denominación de parámetro, por lo tanto este resultado muestra el comportamiento
del total de datos que constituyen una población.
SOLUCIÓN
Tipo de Población: Finita.
Población: El conjunto de estudiantes de la Escuela de Medicina de la Universidad de
Los Andes, Bolivia, durante el presente año.
Muestra: El conjunto de estudiantes de primer año de la Escuela de Medicina de la
Universidad de Los Andes, Bolivia, durante el presente año(n=43).
Dato: Cada uno de los estudiantes de primer año de la Escuela de Medicina de la
Universidad de Los Andes, Mérida, Bolivia, durante el presente año.
Unidad Estadística: Cada uno de los estudiantes de la Escuela de Medicina de la
Universidad de Los Andes, Bolivia, durante el presente año.
Estadístico: El 60% de los 43 estudiantes son de sexo femenino
Parámetro: 20 años es la edad promedio de los estudiantes de la Escuela de Medicina.
ESCALA NOMINAL: Es una clasificación categórica no ordenada de las cosas o eventos que se
estudian, por lo tanto, sólo se permite la diferencia entre categorías. Las categorías (es cada uno
de los conjuntos básicos en los que puede clasificarse cada variable) son mutuamentes
excluyentes, ejemplo: sano o enfermo, si o no. La práctica de utilizar números para distinguir
entre diversos diagnósticos médicos constituye una medición sobre una escala nominal.
ESCALA ORDINAL: Es una sucesión de tipo categórica de las cosas o eventos que se estudian.
Este tipo de escala, no sólo permite la diferencia de categoría a categoría, sino que además
pueden ordenarse por grados de acuerdo con algún criterio de orden (Glass y Stanley, 1986).
Ejemplos: Niveles de una enfermedad, Rango académico, Edad (menor igual a 18 años; mayor a
18 años y menor a 40 años; mayor igual a 40 años).
3.6 VARIABLE.
Una variable es una característica observable que varía entre los diferentes individuos de una
población. La información que disponemos de cada individuo es resumida en variables.
Ejemplos:
El grupo sanguíneo
o {A, B, AB, O} var. Cualitativa
Su nivel de felicidad “declarado”
o {Deprimido, Ni fu ni fa, Muy feliz} var. Ordinal
El número de hijos
o {0,1,2,3,….} var. Numérica discreta
La altura
o {1.62, 1.74, ….} var. Numérica continua
Frecuencia cardiaca
Los tipos de variables son: cualitativas nominales, cualitativas ordinales, cuantitativas discretas
y cuantitativas continuas.
Cualitativas
Si sus valores (modalidades) no se pueden asociar naturalmente a un número (no se
pueden hacer operaciones algebraicas con ellos)
o Nominales: si sus valores no se pueden ordenar
Ej.: sexo, grupo sanguíneo, Religion, Nacionalidad ( Si/No)
Cuantitativas o Numericas
Si sus valores son numéricos (tiene sentido hacer operaciones algebraicas con ellos)
o Discretas: Si toma valores enteros
Ej. Número de hijos, Numero de cigarrillos, Núm. De “cumpleaños”
3.7 Modalidades
Los posibles valores de un variable suelen denominarse modalidades
Las modalidades pueden agruparse en clases (intervalos)
Ej. de Edades: Menos de 20 años, de 20 a 50 años, mas de 50 años.
Ej. de hijos: Menos de 3 hijos, de 3 a 5 hijos, 6 o mas hijos
Las modalidades/clases deben formar un sistema exhaustivo y excluyente
Exaustivo: No podemos olvidar ningún posible valor de la variable
Mal ¿Cuál es su color del pelo?: (Rubio, Moreno) ?????
Bien ¿Cuál es su grupo sanguíneo?
Bioestadística e Informática Aplicada 12
Ejemplo 1:
Bioestadística e Informática Aplicada 13
CLASIFICACIÓN
Los datos obtenidos en la primera etapa suelen ser registrados en el orden en que se recopilan,
para facilitar su interpretación y el análisis correspondiente debemos organizarlos o clasificarlos
de manera sistemática y una manera sencilla de hacerlo es ordenar los datos según su
magnitud y/o agruparlos de acuerdo a sus características en grupos más condensados; este
último equivale a sub-dividir los datos en subgrupos o clases; a este proceso se le conoce como
Clasificación.
Haremos algunas definiciones en base al siguiente ejemplo: Clasificar los siguientes datos
recopilados del número de cabezas de ganado vacuno que poseen cada una de las 40 familias
de las comunidades campesinas de Potosí, elegidos al azar.
1 2 0 3 5 1 0 8 1 2
4 3 3 5 12 0 4 3 0 10
0 0 4 9 0 1 3 2 1 3
5 4 6 8 2 0 1 3 2 0
Observamos que los datos tal como fueron registrados en el proceso de recopilación están en
completo desorden y no sugieren ninguna interpretación. Procedamos a organizarlos en orden
creciente de sus magnitudes.
0 0 0 0 0 0 0 0 0 1
1 1 1 1 1 2 2 2 2 2
3 3 3 3 3 3 3 4 4 4
4 5 5 5 6 8 8 9 10 12
Bioestadística e Informática Aplicada 14
O bien:
0 1 2 3 4 5 6 8 9 10 12
0 1 2 3 4 5 8
0 1 2 3 4 5
0 1 2 3 4
0 1 2 3
0 1 3
0 3
0
0
Observamos que el mínimo es 0 y el máximo es 12; y además, el dato que más se repite es el
0. Pero, clasificándolos, podremos distinguir otras características, a la par de conseguir una
mayor simplificación o condensación de los datos bajo estudio.
ALCANCE (A)
Es del intervalo cerrado definido por los datos de menor y mayor valor (mínimo y máximo). En
el ejemplo, A = [0, 12]
0 12
RANGO
En una serie de datos, constituye la diferencia entre el Valor Máximo (MAX) y el valor mínimo (MIN) de la
variable.
K = 1 + 3.322 log(N)
A= Rango/K
CLASE (Intervalo)
Para agrupar los datos es necesario definir el límite inferior de la clase. La diferencia entre los limites
determina el ancho.
MARCA DE CLASE
La marca de clase es el punto medio del intervalo, se obtiene sumando los límites inferior y superior y
dividiendo por2.
X= (Li + Ls )/2
Bioestadística e Informática Aplicada 16
INTERVALO Frecuencia F X
(Estatura) Nº Estudiantes
Numero de intervalo = 5
[60 – 62) 5 61 En el intervalo 60 – 62 el límite inferior es = 60
[63 – 65) 18 64
[66 – 68) 42 Y el límite superior es 62
[69 – 71) 27
[72 – 74] 8 Intervalo de clase= 2
Total 100 X= (Li + Ls)/2
X=(60+62)/2
X= 61
Frecuencia Absoluta (f). Cantidad de elementos que existen por categoría o valor, la suma
de la frecuencia absoluta debe ser igual al total de datos de la muestra.
Frecuencia absoluta
hi= fi / N
Frecuencia Acumulada (F): Cantidad de elementos que existen por cada categoría o valor de
manera acumulada, es decir que se va sumando de manera ordenada, la última frecuencia
acumulada debe ser igual al total de la muestra.
3.3 Histogramas: Son graficas de rectángulos cuyas bases representan los intervalos de clase
y las alturas las Frecuencias absolutas o Relativas o Porcentuales. Nos permiten comparar
frecuencias. Los rectángulos deben tocarse unos a otros sin brechas, excepto para clases vacías.
3.4 Polígono de frecuencias: Es una poligonal construida uniendo, mediante segmentos de recta,
los puntos medios de los “techos” de los rectángulos del Histograma.
Bioestadística e Informática Aplicada 17
Son círculos o eclipses en los que los sectores angulares representan propiciamente los
porcentajes correspondientes. Comúnmente se le denomina “Pastel”.
Se recomienda colorear o distinguir de alguna manera cada sector y/o asociarle una leyenda que
explique claramente su significado o la característica que representa.
Bioestadística e Informática Aplicada 18
PROBLEMAS RESUELTOS
A) Tablas de frecuencia
1) Los siguientes datos son los puntajes obtenidos por 50 estudiantes en un examen.
33, 64, 35, 54, 41, 42, 45, 47, 48, 65,
50, 52, 65, 39, 55, 57, 59, 60, 60, 50,
61, 35, 65, 65, 53, 66, 77, 67, 68, 61,
69, 81, 73, 73, 74, 76, 66, 77, 78, 66,
80, 71, 84, 85, 88, 89, 91, 94, 97, 97
Clasificar estos datos convenientemente en intervalos de clase de igual amplitud u construir los
gráficos respectivos.
Rango= MAX - MIN
Solución
I) Rango = 97 – 33 = 64 Formula de sturges
II) K = 1 + 3.32 * log(50) = 1+ 3.22(1.699) = 6.64
K = 1 + 3.322 log(N)
Redondeando al entero inmediato superior K=7
A= Rango/K
III) Ancho de clase A= 64/7 = 9.14
A=10
Para facilitar el conteo de las frecuencias, tomaremos como límite inferior de la primera
clase 33.
Histograma
14
12
12
10
Frecuencias
8 9 9
6
6 6
4 5
2 3
0
33 - 43 43 - 53 53 - 63 63 - 73 73 - 83 83 - 93 93 - 103
Puntos
Poligono de frecuencias
14
12 12
10
Frecuencias
9 9
8
6 6 6
5
4
3
2
0
33 - 43 43 - 53 53 - 63 63 - 73 73 - 83 83 - 93 93 - 103
Puntos
Series1
D) Grafica de torta
Bioestadística e Informática Aplicada 20
Grafica de porcentajes
93 - 103
6%
33 - 43
83 - 93 12%
10%
43 - 53
12%
73 - 83
18%
53 - 63
18%
63 - 73
24%
1 2 0 3 5 1 0 8 1 2
4 3 3 5 12 0 4 3 0 10
0 0 4 9 0 1 3 2 1 3
5 4 6 8 2 0 1 3 2 0
Bioestadística e Informática Aplicada 21
Ejemplo de Mediana
Si la cantidad de valores es impar
Si se tienen los valores: 9,5,4,2,7,
se ordenan: 2, 4, 5, 7, 9.
El elemento de en medio es el 5, ya que se encuentra dos valores por encima y dos valores
por debajo.
Si la cantidad de valores es par
Si se tienen los valores 9,5,4,2,
se ordenan: 2,4,5,9.
En este caso se toman los dos valores centrales 5 y 4, la mediana es el promedio de ambos: 4.5
Por último, se conoce como moda adyacente cuando dos valores continuos tienen la misma
cantidad de repeticiones. En este caso se saca el promedio de ambos.
Ejemplo de Moda
Mediana
Divide a la distribución en dos partes iguales
Nos da una idea de donde está la mitad de la distribución
Es una mejor medida de tendencia central cuando la distribución es asimétrica
Cuartiles
Bioestadística e Informática Aplicada 25
Q2
Q1 Q3
1. Ingresamos a SPSS
2. Creamos las 3 variables en spss
Bioestadística e Informática Aplicada 26
7. clic en continuar
Estadísticos
puntaje
N Válido 20
Perdidos 0
Mínimo 1
Máximo 97
Percentiles 25 45,00
50 54,50
75 69,50
14,14,15,15,15,16,17,17,18
̅ = 15.6 ñ
= 15
= 15
Interpretacion quiere decir que quiere decir cada uno de los datos
X EL PROMEDIO DE ………………. ES ………………..
Me EL 50% DE ………….. ES MENOR O IGUAL A …………….
Mo LA EDAD CON MAS FRECUENCIA……………..
̅ = 72.11 ℎ Horas f
= 72,2 ℎ 55 - 60 5
60 – 65 18
= 74,28 ℎ 65 – 70 20
70 – 75 50
75 – 80 17
Interpretacion quiere decir que quiere decir cada uno de los datos
80 – 85 16
X EL PROMEDIO DE ……………DE LAS …. ES ……………….. 85 – 90 4
Me EL 50% DE ………….. ES MENOR O IGUAL A ……………. 50
Mo …………..CON MAS FRECUENCIA……………..
̅ = 3ℎ
= 2,2 ℎ
=2ℎ
Interpretación quiere decir que quiere decir cada uno de los datos
X EL PROMEDIO DE ……………DE LAS …. ES ………………..
Me EL 50% DE ………….. ES MENOR O IGUAL A …………….
Mo …………..CON MAS FRECUENCIA……………..
̅ = 1000,000
= 947,000 .
= 950,000 .
Interpretacion quiere decir que quiere decir cada uno de los datos
X EL PROMEDIO DE ……………DE LAS …. ES ………………..
Bioestadística e Informática Aplicada 30
• El requisito más importante del muestreo probabilístico es que todos en una población
tengan la misma oportunidad de ser seleccionados.
• Ahora elegimos al azar un número entre 1 y k=5. Suponemos que nos sale i=2. La muestra
resultado mediante el muestreo sistemático será:
Bioestadística e Informática Aplicada 33
Cuando utilizarlo
• La ventaja del método de muestreo sistemático respecto al muestreo aleatorio simple es
su sencillez.
• El método de muestreo sistemático es más potente que el muestreo simple cuando el orden
de los datos influye en que los sujetos próximos son semejantes.
Ejemplo:
• Por ejemplo, suponemos que se está haciendo un estudio sobre la toma de pastillas para
dormir en una ciudad de 100.000 habitantes.
Bioestadística e Informática Aplicada 35
• Por el procedimiento de muestreo elegido obtenemos una muestra de 750 sujetos. Para
asignar el número de componentes a los tres estratos de edad, aplicaremos la fórmula
anterior:
7. Tema 6: SPSS
Objetivos
El Editor de Datos
Al iniciar SPSS se muestra la siguiente ventana donde se puede seleccionar ¿Qué desea hacer? Así, si se
desea analizar un conjunto de datos nuevo, se marca la opción Introducir datos
Ventana de bienvenida
El Editor de datos de SPSS es el marco de trabajo inicial que se utiliza para introducir los datos y elegir el
procedimiento adecuado para el análisis. Esta ventana está formada por:
La Barra de menú que contiene el Menú principal de SPSS con todas sus opciones
Cada
una de estas opciones contiene distintos procedimientos que se muestran pulsando en cada una de ellas.
la Barra de herramientas, formada por diferentes iconos que permiten acceder directamente a los
procedimientos más comunes
El
significado de cada uno de estos iconos, que se muestra posicionando el ratón sobre el icono, de izquierda a
derecha es el siguiente:
Variables
Buscar
Insertar caso
Insertar variable
Segmentar archivo
Ponderar casos
Seleccionar casos
Etiquetas de valor
Utilizar conjuntos de variables
Mostrar todas las variables
Corregir ortografía.
El Editor de datos SPSS está formado por celdas. Cada fila representa un elemento del conjunto de datos y
cada columna representa una variable y se muestra cuando se tiene activada la casilla Vistas de datos en
la Barra de presentación
Marcando cada una de estas variables y pulsando el botón secundario del ratón se muestran las
opciones Insertar variables, Ordenar de forma ascendente y Ordenar de forma descendente los datos.
Bioestadística e Informática Aplicada 39
Análogamente se pueden insertar casos marcando una de las filas y pulsando el botón secundario del ratón.
En Vista de variables cada una de las filas corresponde a una variable y cada columna determina una
característica de ésta.
Etiqueta: Las variables pueden ser etiquetadas para que en los análisis posteriores aparezca dicha etiqueta
Valores: Permite introducir las modalidades de las variables tipo cadena
Valores Perdidos: SPSS permite codificar los valores perdidos de forma discreta o en un rango determinado
Columnas: Permite introducir el ancho de la columna que también puede cambiarse en la Vista de
datos pulsando y arrastrando los bordes de la columna
Alineación: Permite elegir entre alinear los datos introducidos a la Izquierda, Derecha o Centrado
Bioestadística e Informática Aplicada 43
o Ordinal: Los valores de los datos representan categorías con un orden intrínseco (Ej: grande, medio,
pequeño; suspenso, aprobado, notable, sobresaliente)
o Nominal: Los valores de los datos representan categorías sin un orden intrínseco (Ej: rojo, amarillo,
verde)
Rol: Funciones, roles que se pueden asignar a las variables para el análisis
o
Entrada: La variable se utiliza como una entrada (por ejemplo: predictor, variable
independiente)
Objetivo: La variable se utiliza como salida o de destino (por ejemplo: variable dependiente)
Ambos: La variable se utiliza como entrada y salida
Ninguna: La variable no tiene una asignación de funciones
Partición: La variable se utiliza para dividir los datos en muestras separadas
Segmentar: Las variables con este papel no se utilizan como variables de un archivo
segmentado.
Por defecto, a todas las variables se les asigna el papel de entrada. Esto incluye los datos de los archivos
externos y archivos de datos de versiones de SPSS Statistics anteriores a la versión 18.
Desde la barra del Menú principal se puede acceder a todos los menús del Editor de Datos. Los primeros
menús: Archivo, Edición, Ver, Ventana y Ayuda son habituales en los programas bajo Windows. El resto de
menús son específicos de SPSS, estos permiten realizar cambios en los datos, obtener resultados estadísticos,
numéricos, gráficos……A continuación se muestran los distintos menús desplegables, así como la finalidad
de alguna de las opciones.
El menú Archivo
Bioestadística e Informática Aplicada 44
Practica 1:
Bioestadística e Informática Aplicada 45
Encuesta
1. Casado, 2. Soltero
Ejercicio propuesto 1.