Bioestadística en Enfermería: Fundamentos y Práctica
Bioestadística en Enfermería: Fundamentos y Práctica
BIOESTADISTICA
\
LICENCIATURA EN ENFERMERÍA
UNIDAD ACADÉMICA: FACULTAD DE MEDICINA-UBA
PROYECTO DE CÁTEDRA
Pág. 1
FUNDAMENTACIÓN DE LA CÁTEDRA
Pág. 2
OBJETIVOS
PROGRAMA ANALÍTICO:
UNIDAD 1
Introducción a la Bioestadística. Conceptos de: estadística y bioestadística, dato, variable, errores,
sesgos, población y muestra. Cálculo de tamaño muestra!. Criterios de selectividad. Recolección de datos:
fuentes primarias y secundarias. Tipos de datos y variables. Métodos de recolección de datos: físico y
electrónicos.
UNIDAD 2
Estadística descriptiva. Medidas de tendencia central: media, moda, mediana, frecuencia (absoluta,
relativa, acumulada y porcentual). Medidas de dispersión: varianza y desviación estándar. Intervalo de
confianza. Intervalos y clases, rangos, cuartiles y percentiles.
UN1DAD3
Estadística demográfica. Tasas, Índices, Razones y Proporciones.
UNIDAD4
Tablas y Gráficos. Diseño y selección de resultados. Presentación (estándares para informes de
investigación, artículos y proyectos). Gráficos: barra, circular, poligonal, histograma, caj a, incidencia y
prevalencia.
UNIDAD 5
Estadística inferencial. Variables: distribución y caractenzación. Estudios de comparación entre
variables medidas en distintas escalas. Criterios de normalidad y anormalidad.
Pág. 3
UNIDAD 6
Test de correlación y comparación. Chi cuadrado, Odd Ratio, T de Student, .[Link], Me Nemar,
Mann Whitley. Significación estadistica.
ESTRATEGIAS METODOLÓGICAS
0 Clases teóricas a cargo del docente con utilización de ejemplos, presentación de análisis
información y trabajos grupales (basados en el aprendizaje cooperativo).
0 Clases con referato bibliográfico y experiencias prácticas en base a actividades de aplicación.
RECURSO MATERIAL
BIBLIOGRAFÍA
W Dawson, B., Trapp, R.G. (2005). Bioestadística Médica. 4a ed. México DF: Manual Moderno.
m Fletcher, R.H., Fletcher, S.W. (2007). Epidemiología Clínica. 4a ed. Philadephia: Wolters Kluwer.
W Hemández Martín, Z. (2012). Métodos de análisis de datos: apuntes. Logroño: Universidad de La Rioja.
W Cobo, E., Muñoz, P., & González, J. A. (2007). Bioestadística para no estadísticos. Barcelona:Elsevier.
mJ Montanero Fernández, J., & Minuesa Abril, C. (2018). Estadística básica para Ciencias de la Salud.
Cáceres: Universidad de Extremadura.
Pág. 4
l!JJ Sitios Web:
,/ http:// [Link] (Telesalud)
,/ [Link]
,/ http:// [Link]
,/ [Link]
,/ [Link]
,/ [Link]
,/ [Link]
,/ [Link] [Link]
Encuentro
FECHA DÍA UNIDAD
Académico
l. 22/ 10/2019 MARTES Orientación para la Producción Práctica. Unidad 1.
2. 29/ 10/2019 MARTES Unidad 2. Teoría y Práctica
3. 05/ 11/2019 MARTES Unidad 3. Teoría y Práctica
4. 12/ 11/2019 MARTES Unidad 4. Teoría y Práctica
5. 19/11/2019 MARTES Unidad 5. Teoría y Práctica
6. 26/ 11/2019 MARTES Unidad 6. Teoría y Práctica
7. /fl3712/2019 MARTES-
___, Examen Parcial: Taller de casos estadísticos
'--
8. (¡...--r{)/12/2019 MARTE~ Examen Parcial: Práctica simulada de bioestadística
9. ( i....--1711212019 MARTES Examen Final (Integración)
Pág. 5
Encuentro
FECHA DÍA UNIDAD
Académico
l. 26/10/2019 SÁBADO Orientación para la Producción Práctica. Unidad 1.
2. 02/11/2019 SÁBADO Unidad 2. Teoría y Práctica
3. 09/11/2019 SÁBADO Unidad 3. Teoría y Práctica
4. 16/11/2019 SABADO Unidad 4. Teoría y Práctica
5. 23/11/2019 SABADO Unidad 5. Teoría y Práctica
6. 30/11/2019 SABADO Unidad 6. Teoría y Práctica
7. 07/12/2019 SABADO Examen Parcial: Taller de casos estadísticos
8. 14/12/2019 SABADO Examen Parcial: Práctica simulada de bioestadística
9. 21/12/2019 SABADO Examen Final (Integración)
EVALUACIÓN
Para aprobar la materia el estudiante deberá:
./ Rendir un parcial escrito en carácter de trabajo práctico áulico o su respectiva instancia
recuperatoria, con puntaje mínimo de aprobación equivalente a 4 (cuatro) .
./ Mantener la condición de regularidad con asistencia del 100% de los encuentros teórico-prácticos.
./ Rendir examen final en las fechas estipuladas por la institución educativa.
./ Características de la promoción/acreditación: La acreditación de la asignatura implica mantener la
condición de alumna/o regular, la aprobación de la evaluación parcial (con calificación mínima 4
[cuatro]), asistencia del 100% y final con un mínimo de 4 [cuatro] puntos.
Pág. 6
Material de Estudio
Bioestadística
Licenciatura en Enfermería
Concepto de bioestadística
Se denomina bioestadística la aplicación particular de la estadística a las ciencias
biológicas y de la salud. Es decir, la obtención y el análisis de datos biológicos o de
salud mediante la utilización de métodos estadísticos. Por ejemplo, la bioestadística
se puede usar para ayudar a comprender las posibles causas de un cáncer o con
qué frecuencia se presenta una enfermedad en un determinado grupo de personas.
En algunos ámbitos también se denomina biometría.
Áreas de la estadística
La estadística ofrece métodos para analizar series de datos de modo descriptivo o
inferencia!. Según esto, podemos distinguir entre estadística descriptiva y
estadística inferencia/.
.
probabilidades y a partir de los datos obtenidos de una muestra, trata de sacar
conclusiones acerca de las características de una población.
Conceptos preliminares
La estadística obtiene y estudia datos sobre diferentes individuos, que no tienen que
ser necesariamente personas, hombres o mujeres. El conjunto de todos los
individuos posibles constituye el universo.
En general, no interesan los datos de todos los individuos, de todo un universo, sino
que se estudian poblaciones. Aún así, obtener y analizar los datos de toda una
población suele ser imposible, por lo que, en la práctica, suele seleccionarse una
muestra de individuos de la población; únicamente en estos individuos
estudiaremos los datos que nos interesan.
Individuo
Es cada elemento que lleva asociada una medida, un número de orden o una
característica predeterminada.
Universo
Es el conjunto, finito o infinito, de todos los posibles individuos que cumplen ciertas
propiedades.
Población
Es el conjunto de todos los individuos que cumplen ciertas propiedades y de quienes
deseamos estudiar ciertos datos. Podemos entender que una población abarca todo
el conjunto de elementos de los cuales podemos obtener información, entend iendo
que todos ellos han de poder ser identificados. La población deberá ser definida
sobre la base de las características que la delimitan , que la identifican y que
permiten la posterior selección de unos elementos que se puedan e ntender como
representativos (muestra).
Hay que distinguir entre población diana o población objetivo (aq uella población a
la que se desea extrapolar los resultados del estudio) y población accesible (aquella
población cuyos individuos son directamente accesibles al investigador para
seleccionar la muestra).
Asimismo, una población puede ser finita (por ejemplo, todos los enfermos de los
hospitales de Cataluña o los estudiantes de enfermería de España) o infinita (los
posibles resultados de sucesivas tiradas de una moneda o el conjunto de los
números pares).
Muestra
Una muestra es una porción de algo. Si deseamos preguntar a un conjunto de cinco
mil personas su opinión sobre un determinado fe nómeno, tenemos dos opciones:
efectuar las preguntas persona por persona o efectuar las preguntas solamente a
una muestra de estas personas, es decir, a un grupo de elementos representativos
de ese conjunto.
Evidentemente, si se exam ina toda la población, mediante un censo, podemos
conocer exactamente cuál es la distribución de la variable o las variables de interés
en esta población. Sin embargo, en la mayoría de las ocasiones los censos resultan
inviables, caros y lentos, además de innecesarios. La alternativa al censo es estimar
la distribución de la variable en una parte representativa de la población, es decir,
en una muestra, lo que tiene la ventaja de ser más rápido y más barato, y si la
muestra se ha elegido correctamente, perm ite obtener una información que aporta
una estimación razonable de la situación de la variable en la población.
Así, la muestra es una parte o un subconjunto de la población en el que se obser.:a
el fenómeno a estudiar y de donde sacaremos unas conclusiones generalizables a
toda la población. En general, se considera que una muestra es grande cuando el
número de individuos seleccionados es igual o superior a 30, y una muestra es
pequeña cuando los individuos son menos de 30.
Para que una muestra sea representativa de la población , deberá cumplir unas
cond iciones básicas:
• Han de delimitarse y definirse claramente las características que conforman
la totalidad de la población .
• Ha de haber garantías de que cada elemento de la población tiene las
mismas posibilidades de figurar en la muestra. En consecuencia , deberá
utilizarse el procedimiento de muestreo adecuado.
• La muestra deberá tener el tamaño adecuado para poder extrapolar los
resu ltados obtenidos al conjunto de la población con garantías de fiabilidad .
Muestreo
El muestreo es el método o procedimiento destinado a obtener una muestra
adecuada que reproduzca las características básicas de la población . Existen
diferentes criterios de clasificación de los procedimientos de muestreo, aunque, en
general, pueden dividirse en dos grandes grupos: métodos aleatorios o
probabilísticos y métodos no aleatorios o no probabilísticos.
Tipos de muestreo
Aleatorio (probabilístico o al azar) No aleatorio (no probabilístico o no al azar)
Simple Accidental
Sistemático )Atencionadv
Estratificado Proporcional Por cuotas
No proporcional
Por conglomerados
Muestreo aleatorio
El muestreo aleatorio, probabilístico o muestreo al azar, parte de una igualdad
absoluta de todos los elementos de la p;¡;jact&.n para ser seleccionados, de manera
1
Muestreo no aleatorio
En el muestreo no aleatorio o no probabilístico los sujetos se seleccionan siguiendo
determinados criterios, de manera que no todos los elementos de la población
tienen la misma probabilidad de figurar en la muestra. Este tipo de muestreo sólo
es justificable en determinados casos, por ejemplo, en estudios exploratorios, donde
un muestreo aleatorio puede resultar difícil o excesivamente costoso.
-
Se caracteriza por la inclusión deliberada en la muestra de aquellos elementos
cuyas características son similares a las de la población elegida, en un esfuerzo por
obtener muestras supuestamente representativas. Es decir, el investigador
selecciona los elementos que a su juicio son representativos, lo que exige un
conocimiento previo de la población que se investiga. Este tipo de muestreo es
frecuentemente utilizado en estudios cualitativos.
generalmente van del I al IV, donde cada uno representa un grado más avanzado
de la enfermedad que el estadio precedente, pero no podemos afirmar que la
diferencia entre el Estadio II y el 111 sea igual que la que existe entre el III y el IV. El
Nivel de Conocimientos, también constituye una variable ordinal politómica.
'J Variable Cualitativa Ordinal Dicotómica: La variable solo puede tomar dos
valores posibles, pero entre estos se puede establecer un criterio de orden
porque uno representa ventaja o superioridad sobre el otro. Ejemplo: Vivo-
Fallecido; Eutrófico-Distrófico.
Variable Cualitativa Nominal: Este tipo de variable se caracteriza porque los
valores que toma no pueden ser sometidos a un criterio de orden. Ejemplos
la raza y el sexo. Puede ser clasificada igualmente en politómica y
dicotómica.
Fuente primaria:
Aquella de la que el investigador obtiene directamente la información utilizando
diversas técnicas y métodos. Ej. Observación, entrevista y cuestionario, entre otros.
Fuente secundaria:
Aquella que existe independientemente del estudio y el investigador solo la utiliza.
Ej. Registro de nacimiento, historias clínicas, entre otros.
UNIDAD 2
Estadística descriptiva. Medidas de tendencia central : media, moda, mediana,
frecuencia (absoluta, relativa, acumulada y porcentual ). Medidas de dispersión:
varianza y desviación estándar. Intervalo de confianza. Intervalos y clases, rangos,
cuartiles y percentiles.
Medidas de posición
Las medidas de posición, son unos valores alrededor de los cuales se agrupan los
valores de la variable, y que nos resumen la posición de la distribución sobre el eje
horizontal.
Existen dos tipos de medidas de posición: las centrales y las no centrales.
De las medidas de posición central o promedios, las más utilizadas son: la media
aritmética, la mediana y la moda.
Las medidas de posición no central son los cuantiles.
La media aritmética
La media aritmética: se define como la suma de todos los valores observados de la
distribución, dividida por el número total de observaciones.
Si agrupamos los valores que se repiten, la expresión de la media es:
Este es el promedio más utilizado en la práctica y esto es así por las ventajas que
tiene y que son fundamentalmente :
• Tiene en cuenta todos los valores observados.
• Es fácil de calcular y ·tiene un claro significado estadístico. Es única.
Por otra parte tiene el inconveniente de la influencia que ejercen los valores
extremos de la distribución sobre ella.
La moda
En una distribución, la moda (Mo) se define como aquel valor de la variable cuya
frecuencia no es superada por la frecuencia de ningún otro valor. Esta definición
corresponde a la denominada moda absoluta. La moda relativa se define como el
valor de la variable cuya frecuencia no es superada por la de sus valores contiguos.
Puede darse el caso de que la máxima frecuencia corresponda a dos o más valores
de la variable , en ese caso las distribuciones reciben el nombre de bimodales o
multimodales.
/ ~ .<"Í·, ./f\
,r, __....,. 1 \
/ ¡ / j ' ••/ 1 \
/ 1 \ / 1 1 \
La mediana
Para una distribución discreta no agrupada en intervalos, se define la mediana
(Me), como el valor de la variable que ocupa el lugar central, supuestos ordenados
los valores de menor a mayor. También se puede definir como el va lor de la variable
que divide a la distribución en dos partes con el mismo número de observaciones.
Si el número de observaciones es impar, entonces el valor de la mediana es
inmediato (el valor que ocupe el lugar (N + 1)/2).
Si el número de datos es par, suele tomarse como valor de la mediana, la
media aritmética de los dos valores centrales, es decir, de los que ocupan los
lugares N/2 y (N/2 + 1).
Naturalmente cuando estos dos valores son iguales, la mediana coincide con el
valor común .
En el supuesto de una distribución agrupada en intervalos, la mediana será
alguno de los valores contenidos en el intervalo al que corresponda una frecuencia
acumulada inmediatamente superior a N/2 ; el cual se denomina intervalo
mediano.
No podemos determinar exactamente cuál de los va lores del intervalo es la
mediana, y se pueden seguir varios criterios para elegir uno de ellos. Por simplificar
nosotros tomaremos como mediana, la marca de clase del intervalo mediano.
Propiedad:
La mediana no depende de los valores extremos y por tanto, puede calcularse
aún cuando estos se desconozcan; basta con conocer su frecuencia.
Medidas de dispersión
Las medidas de tendencia central ofrecen una idea aproximada del
comportamiento de una serie estadística . No obstante, no resultan suficientes para
expresar sus características: una misma media puede provenir de valores
cercanos a la misma o resultar de la confl uencia de datos estadísticos
enormemente dispares. Para conocer en que grado las medidas de tendencia
central son representativas de la serie, se han de complementar con medidas de
dispersión como la va rianza o la desviación típica.
Concentración y dispersión
Las medidas de centralización ayudan a determinar el «centro de gravedad)) de una
distribución estadística. Para describir el comportamiento general de la serie se
necesita, sin embargo, una información complementaria para saber si los datos
están dispersos o agrupados.
Así, las medidas de dispersión pueden definirse como los valores numéricos cuyo
objeto es analizar el grado de separación de los valores de una serie estadística con
respecto a las medidas de tendencia central consideradas.
Las medidas de dispersión son de dos tipos :
• Medidas de dispersión absoluta: como recorrido, desviación media,
varianza y desviación típica, que se usan en los análisis estad ísticos generales.
• Medidas de dispersión relativa: que determinan la dispersión de la
distribución estadística independientemente de las unidades en que se exprese la
variable. Se trata de parámetros más técnicos y utilizados en estudios específicos,
y entre ellas se encuentran los coeficientes de apertura, el recorrido relativo , el
coeficiente de variación (índ ice de dispersión de Pearson) y el índice de dispersión
mediana.
X - 2cr X + cr X X + cr X + 2CJ
La distribución normal, o campana de Gauss, es una función simétrica (con la media
aritmética en el centro de la serie) con un grado de dispersión bajo (la mayoría de
los valores están comprendidos dentro del valor de la desviación típica).
Recorrido
La medida de dispersión más inmed iata es el recorrido de la distribución
estadística, también llamado rango o amplitud. Dada una serie de valores x1, x2,
... , Xn, su recorrido es la diferencia aritmética entre el máximo y el mínimo de estos
valores:
Desviación media
Como medida de dispersión más frecuentemente utilizada , la desviación media
se define como la media aritmética de los valores absolutos de la desviación de
cada valor de la variable con respecto a la media. Su formu lación matemática es la
siguiente:
f1 iX ¡ - X! + f 2 ¡ X2 - Xi + .. + [ 1 X 11 - X1
DM=--- - - - - - - - -- - - - -- 11
f1 + f2 + .. . + fn
~ f; lx1- xi
- - - - - co n i = l ~2. 3, ~~ -, 1J.
:::= ri
~ Frecuencia absoluta:
La frecuencia absoluta de una variable estadística es el número de veces que
aparece en la muestra dicho va lor de la variable, la representaremos por n ;
¡<J Frecuencia relativa:
La frecuencia absoluta, es una medida que está influida por el tamaño de la muestra,
al aumentar el tamaño de la muestra aumentará también el tamaño de la frecuencia
absoluta. Esto hace que no sea una medida útil para poder comparar. Para esto es
necesario introducir el concepto de frecuencia relativa , que es el cociente entre la
frecuencia absoluta y el tamaño de la muestra. La denotaremos por f ¡
~ Porcentaje Acumulado:
Análogamente se define el Porcentaje Acumulado y lo vamos a denotar por P ¡ como
la frecuencia relativa acumulada multiplicada por 1OO.
Ejemplo :
Cuando se manejan conjuntos extensos de datos, el proced imiento preliminar más
adecuado consiste en distribuirlos en clases o categorías de acuerdo con el
número de casos que pertenecen a cada una de dichas clases.
Por ejemplo, se quiere estudiar el puntaje que alcanzan los alumnos universitarios
en la asignatura de Educación Física. La escala de notas va del 0% al 100%,
obteniéndose la sigu iente colección de valores:
75- 82 - 68 - 90 · 62 - 88 - 88 - 73
60- 93 - 71 - 59 - 75 - 87 - 74 - 62
95- 78 - 82 - 75 - 94 - 77 - 69 - 74
89- 83 - 75 - 95 - 60 - 79 - 97 - 97
78- 85 - 76 - 65 - 73 - 67 - 88 - 78
62- 76 - 73 - 81 - 72 - 63 - 76 - 75
Para facilitar el análisis de los datos, éstos se ordenan en forma creciente , es decir,
de menor a mayor (también puede ordenarse en forma decreciente).
El modo más sencillo de agrupar los datos, es mediante una tabla de datos, que
indique, para cada uno de los valores de la colección , el número de veces que
aparece, es decir, su frecuencia de aparición.
Distribuciones de frecuencia
Frecuencia absoluta (n 1) : corresponde al número de veces que se observa dicho
va lor, o en otras palabras al número de veces que se presenta un cierto dato.
Para agrupar los datos por su frecuencia, se deben seguir los siguientes pasos:
1) Se ordenan los datos en orden creciente o decreciente.
2) Se cuenta la frecuencia absoluta de cada valor (cuántas veces se repite cada
magnitud)
De acuerdo a los datos anteriores, se observa que el número menor es 59 y el
número mayor es 97.
Puntaje Frecuencia absoluta (n 1)
59 1
60 2
61 o
62 3
63 1
64 o
65 1
66 o
67 1
68 1
69 1
70 o
71 1
72 1
73 3
74 2
75 5
76 3
77 1
78 3
79 1
80 o
81 1
82 2
83 1
84 o
85 1
86 o
87 1
88 3
89 1
90 1
91 o
92 o
93 1
94 1
95 2
96 o
97 2
Frecuencia total (N) 48
95 2 46
96 o 46
97 2 48
Frecuencia
(N) 48
total
Frecuencia
Frecuencia absoluta Frecuencia relativa
Puntaje absoluta
( n ;) ( f ;)
acumulada ( N;)
59 1 1 0,02083 (1 : 48 )
60 2 3 0,0416 (2 : 48)
61 o 3 o
62 3 6 0,0625
63 1 7 0,02083
64 o 7 o
65 1 8 0,02083
66 o 8 o
67 1 9 0,02083
68 1 10 0,02083
69 1 11 0,02083
70 o 11 o
71 1 12 0,02083
72 1 13 0,02083
73 3 16 0,0625
74 2 18 0,0416
75 5 23 o,10416
76 3 26 0,0625
77 1 27 0,02083
78 3 30 0,0625
79 1 31 0,02083
80 o 31 o
81 1 32 0,02083
82 2 34 0,0416
83 1 35 0,02083
84 o 35 o
85 1 36 0,02083
86 o 36 o
87 1 37 0,02083
88 3 40 0,0625
89 1 41 0,02083
90 1 42 0,02083
91 o 42 o
92 o 42 o
93 1 43 0,02083
94 1 44 0,02083
95 2 46 0,0416
96 o 46 o
97 2 48 0,0416
)
Frecuencia 1
(N) 48 1
total
96 o 46 o o
97 2 48 0,0416 4,1 6
Frecuencia total (N) 48 1 100 %
Rango:
El rango, también conocido como recorrido es la diferencia entre el valor más alto y
el más bajo de un conjunto de datos. En cierto modo, se puede considerar que es
el mismo concepto que el dominio de una función continua.
Corresponde a la diferencia (resta ) entre el mayor y el menor de los datos
u Q(u)
0.5 Mediana
0.25, 0.75 Cuartiles
0.1, ... , 0.99 Deciles
0.01, ... , 0.99 Gentiles
CUARTILES
Los cua rtiles son los tres valores que dividen al conjunto de datos ordenados en
cuatro partes porcentualmente iguales.
Hay tres cuarti les denotados usualmente 01, 02, Q3. El segundo cuartil es
precisamente la mediana. El primer cuartil , es el valor en el cual o por debajo del
cual queda un cuarto (25%) de todos los valores de la sucesión (ordenada ); el tercer
cuartil, es el valor en el cual o por debajo del cual quedan las tres cuartas partes
(75%) de los datos.
Datos Agrupados
Qk = Lk +
k( )-F
11
4 k *e
fk
Como los cuartiles adquieren su mayor importancia cuando contamos un número
grande de datos y tenemos en cuenta que en estos casos genera lmente los datos
son resumidos en una tabla de frecuencia. La fórmula para el cá lculo de los cuartiles
cuando se trata de datos agrupados es la siguiente:
Ir- 1,2,3
Donde:
Lk =Límite real inferior de la clase del cuartil k
n = Número de datos
Fk = Frecuencia acumulada de la clase que antecede a la clase del cuartil k.
fk = Frecuencia de la clase del cuartil k
Donde:
L1 = limite inferior de la clase que lo contiene
P = valor que representa la posición de la medida
f1 = la frecuencia de la clase que contiene la medida solicitada.
Fa-1 = frecuencia acum ulada anterior a la que contiene la medida solicitada.
le = intervalo de clase
Q = l. + P-fa- 1 * ¡ P= 2n
4
1 1 Íi e
Donde:
L 1 = limite inferior de la clase que lo contiene
P = valor que representa la posición de la medida
f1 = la frecuencia de la clase que contiene la medida solicitada.
Fa-1 = frecuencia acum ulada anterior a la que contiene la medida solicitada.
le = intervalo de clase
• El tercer cuartil Q3, es el menor valor que es mayor que tres cuartas partes de
los datos, es decir aquel valor de la variable que supera al 75% y es superado por
el 25% de las observaciones.
Q =l. +
P- f a- 1 *J
P = 3n
1 1 Íi e
4
Donde:
L1 = limite inferior de la clase que lo contiene
P= valor que representa la posición de la medida
f1 = la frecuencia de la clase que contiene la medida solicitada.
Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada.
le= intervalo de clase .
Otra manera de verlo es partir de que todas las medidas no son sino casos
particulares del percentil, ya que el primer cuartil es el 25% percentil y el tercer cuartil
75% percentil.
Cuando n es impar:
l (n + 1)
4
Cuando n es impar:
3(n + 1)
4
DECILES
Los deciles son ciertos números que dividen la sucesión de datos ordenados en
diez partes porcentualmente iguales. Son los nueve valores que dividen al conjunto
de datos ordenados en diez partes iguales, son también un caso particular de los
percenti les. Los deciles se denotan 01, 02, ..., 09, que se leen primer decil, segundo
decil, etc.
Los deciles, al igual que los cuartiles, son ampliamente utilizados para fijar el
aprovecham iento académico.
Datos Agrupados
Para datos agrupados los deciles se calculan mediante la fórmula.
k= 1,2,3, ... 9
Donde:
Lk = Límite real inferior de la clase del decil k
n = Número de datos
Fk = Frecuencia acumulada de la clase que antecede a la clase del decil k.
fk = Frecuencia de la clase del decil k
e = Longitud del intervalo de la clase del decil k
D =l . +
P - J,a-i * I P= 4n
4 , Ji e JO
P = 9n
10
D = l. + p - Ía-1* I
9 i J; e
A(n + l)
10
Cuando n es impar:
Datos Agrupados
Cuando los datos están agrupados en una tabla de frecuencias , se calculan
mediante la fórmula:
k= 1,2,3,... 99
Donde:
Lk = Límite real inferior de la clase del decil k
n = Número de datos
Fk = Frecuencia acumulada de la clase que antecede a la clase del decil k.
fk = Frecuencia de la clase del decil k
e = Longitud del intervalo de la clase del decil k
P=~
100
P. = l. + P - Í a-1 *¡
l , J; e
P. = l. + P - Jra-1 * ¡ P = 60n
60 1 J; e 100
P- r p = 99n
p = l. +
99 , J;J a-1 * I e 100
A(n + 1)
100
Cuando n es impar:
Es fácil ver que el primer cuartil coincide con el percentil 25; el segundo cuartil con
el percentil 50 y el tercer cuartil con el percentil 75.
EJEMPLO
Determinación del primer cuartil, el séptimo decil y el 30 percentil, de la siguiente
tabla:
Salarios No. De fa
( l. De Empleados
Clases) (f1)
200-299 85 85
300-299 90 175
400-499 120 295
500-599 70 365
600-699 62 427
700-800 36 463
P- r
p =l. + J a- 1 * I
1 J; e
Siendo,
n
P=-
4
La posición del primer cuartil.
P= 7n
10
P= 30n
100
Li =300, le = 100 , fi = 90
30 75
Q1 = 300 + · * 100 = 334
90
El 7 decil:
Li= 500, fi = 70
29
D7 =500+ .1*100=541.57
70
El percentil 30
Posición:
138.9 - 85 = 53.9
fi = 90
53 9
p30 = 300 + · *100 = 359.88
90
Estos resultados nos indican que el 25% de los empleados ganan salarios por
debajo de $ 334; que bajo 541.57 gana el 57%de los empleados y sobre $359.88,
gana el 70% de los empleados.
UNIDAD 3
Estadística demográfica. Tasas, Índices, Razones y Proporciones.
RAZON
Es un cociente en el que el numerador no está incluido en el denominador. A
menudo las cantidades se miden en las mismas unidades, pero no es esencial. El
rango oscila entre O e infinito.
Ejemplos
Cociente entre el número de casos de TBC en varones y mujeres en 2005:
Razón= 135/53= 2,55
Cociente entre los casos de TBC ocurridos en individuos con edades superiores a
55 y el grupo de individuos con edades inferiores a 55 :
Razón=95/93=1 ,02
PROPORCION
Es un cociente en el que el numerador está incluido en el denominador. Una
proporción no es más que la expresión de la probabilidad de que un suceso ocurra.
El rango esta comprendido entre O y 1 o bien en términos porcentuales de 0% a
100%, y no tiene dimensión.
Ejemplos
Cociente entre el número de casos ocurridos en varones y el total de casos en el
año 2005.
135/188=0,72 El 72% de los casos han ocurrido en varones.
Cociente entre el número de casos ocurrido en individuos con más de 65 años y el
total de casos en el año 2005.
77/188=0,41 El 41 % de los casos se han detectado en personas mayores de 65
años.
TASA
Una tasa es un cuociente formado por tres elementos:
• El número de veces que ocurre un determinado fenómeno en un lugar y tiempo
determinado (numerador).
• Número de personas (población) expuesta al riesgo de que le suceda el
fenómeno del numerador.
• Una constante que multiplica al cuociente, que ayuda a la interpretación de la
tasa .
El numerador y el denominador deben coincidir en tres aspectos:
• Naturaleza del hecho: el conjunto de elementos del numerador forma parte de la
población que va en el denominador y por lo tanto se dice que son de la misma
naturaleza.
• Zona geográfica.
, Tiempo en que ocurre el hecho: las tasas generalmente se calculan para períodos
de un año. Como la población es variable durante el año, se considera como
población representativa del período a la población estimada al 30 de junio.
Tipos de tasas
Se pueden separar en dos grandes grupos: crudas o brutas, y específicas.
Específicas son las que en el denominador tienen una población específica , por
ejemplo: los menores de 15 años.
Ejemplos de tasas de mortalidad usadas en salud:
Tasa de letalidad
Esta tasa mide el riesgo de morir por una determinada enfermedad que tienen 1
que están enfermos de esa enfermedad. Se construye dividiendo el número
defunciones por causa de una enfermedad por el número de enfermos de e
enfermedad. El resultad o se multiplica por 100. También se considera a la tasa
letalidad como un indicador de la gravedad de una enfermedad.
Tasas de morbilidad
En la medición de la morbilidad nos interesarán dos aspectos de la enfermedad
estudio: la frecuencia y la gravedad.
Tasa de incidencia
Considera el número de casos nuevos en el período, en el numerador, y la poblaci·
a mitad de período, en el denominador. Todo esto multiplicado por 100.000.
Tasa de prevalencia
Considera, en el numerador, a todos los casos de la enfermedad presentes duran
el período (nuevos + antiguos), y en el denominador a la población a mitad d
período. El resultado se amplifica por 100.000.
UNIDAD 4
Tablas y Gráficos. Diseño y selección de resultados. Presentación (estándares
para informes de investigación , artículos y proyectos). Gráficos: barra, circu lar,
poligonal, histograma, caja, incidencia y prevalencia.
Método Empírico: este método depende del criterio del evaluador de los datos, por
lo tanto es arbitrario. Dice lo siguiente.
5 :2:: k :2:: 20
Una tabla es un cuadro que consiste en la disposición conjunta, ordenada y
normalmente totalizada , de las sumas o frecuencias totales obtenidos en la
tabulación de los datos, referentes a las categorías o dimensiones de una variable
o de varias variables relacionadas entre sí. Las tablas sistematizan los resultados
cuantitativos y ofrecen una visión numérica, sintética y global del fenómeno
observado y de las relaciones entre sus diversas características o variables. En ella,
culmina y se concreta definitivamente la fase clasificatoria de la investigación
cuantitativa.
Teniendo la definición de lo que es una tabla, podemos trabajar entonces cada uno
de los tipos de tablas pedidos:
• Tabla de entrada de datos: Es una tabla en la cual solo aparecen los datos que
se obtuvieron de la investigación científica o del experimento. Es la tabla más
sencilla y se utiliza cuando no se necesita mayor información a cerca de los datos,
estas tablas se construyen por medio de la tabulación de los datos, este
procedim iento es relativamente sencillo, para realizarlo nos ocupamos de un
conjunto de datos estadísticos obtenidos al registrar los resultados de una serie de
n repeticiones de algún experimento u observación aleatoria , suponiendo que las
repeticiones son mutuamente independientes y se realizan en condiciones
uniformes, es importante decir que el resultado de cada observación puede
expresarse de forma numérica, para este tipo de tablas de entrada de datos se
puede trabajar con una ó mas variables, de manera que nuestro material estadístico
consiste en n valores observados de la variable Xj .
Los valores observados se suelen registrar, en primer lugar en una lista, si él numero
de observaciones no excede de 20 ó 30, estos datos se registran en orden creciente
de magnitud .
Con los datos de esta tabla pueden hacerse diversas representaciones gráficas y
calcularse determinadas características numéricas como la media, la [Link].
EJ: Agmpar en una tabla de datos
7,4, 3, 8
10, 1,6,9,2, 5,
¡x 11 12 13 14 1s 16 17 Iª 19 110
• Tablas de frecuencias : Una tabla de frecuencia está formada por las categorías
o valores de una variable y sus frecuencias correspond ientes. Esta tabla es lo
mismo que una distribución de frecuencias. Esta tabla se crea por medio de la
tabulación y agrupación, la cual es un método sencillo como lo habíamos empezado
a ver en la tabla de datos, Se realiza el mismo procedimiento de tabu lación
anteriormente descrito si el número de valores observados para la variable, se
trabaja con una sola variable, descontando los repetidos son pequeños, si existen
repetidos la frecuencia f es el número de repeticiones de un va lor de X dado, Sin
embargo, cuando el conjunto de datos es mayor, resulta laborioso trabajar
directamente con los valores individuales observados y entonces se lleva a cabo,
por lo general, algún tipo de agrupación como paso preliminar, antes de iniciar
cualquier otro tratamiento de los datos. Las reglas para proceder a la agrupación
son diferentes según sea la variable, discreta o continua, para una variable discreta
suele resultar conveniente hacer una tabla e n cuya primera columna figuren todos
los valores de la variable X representados en el material, y en la segunda, la
frecuencia f con que ha aparecido cada va lor de X en las observacio nes.
Para una variable continua, el procedimiento de agrupación es algo más
complicado. Se toma un intervalo adecuado sobre el eje de la variable que contenga
los n valores observados, y divídase el intervalo en cierto número de intervalos de
iase. Todas las observaciones que pertenecen al mismo intervalo de clase se
número que res ulte representa la frecuencia de clase
intervalo, luego se forma una tabla, en cuya primera
columna figuran los límites de cada intervalo de clase, y en la segunda aparecen las
correspondientes frecuencias.
Estas clases de tablas son las más usadas y brindan mayor información de los datos
que las tablas de entradas de datos, efectivamente, una tabla de este tipo dará en
forma abreviada , una información completa acerca de la distribución de los va lores
observados. Con estas se pueden utilizar más a fondo los métodos gráficos al igual
q ue los métodos aritméticos.
Ej : Agrupar e n una tabla 1, 1, 2, 2, 2, 2, 3, 3, 3, 4, 5
X F
1 2
2 4
3 3
4 1
5 1
í:11
Agrupar en una tabla las sig uientes estaturas: 160, 168, 175, 183, 170, 164, 170,
184, 171 ,168,187,161,183,175,185,186,187,164,165,175, 162,188,169,163,
166, 172, 173, 167, 174, 176, 178, 179, 177
X F
160-165 6
265-270 6
170- 175 6
175-180 7
180-185 3
185-190 5
í:33
T1fT2 SI NO
SI 12 2
NO 10 4
de representaciones gráficas
se muestran los datos estadísticos a través de representaciones gráficas,
ha de adaptar el contenido a la infonnación visual que se pretende transmitir.
ello, se barajan múltiples formas de representación:
Diagramas de barras : muestran los valores de la s frecuencias absolutas sobre
sistema de ejes cartesianos, cuando la variable es discreta o cualitativa.
Histogramas: formas especiales de diagramas de barras para distribuciones
• Polígonos de frecuencias: formados por lín eas poligonales abiertas sobre un
sistema de ejes cartesianos.
• Gráficos de sectores: circulares o de tarta, dividen un círculo en porciones
proporcionales según el va lor de las frecuencias relativas.
• Pictogramas : o representaciones visuales figurativas. En realidad son
diagramas de barras en los que las barras se sustituyen con dibujos alusivos a la
variable.
• Cartogramas: expresiones gráficas a modo de mapa.
• Pirámides de población : para clasificaciones de grupos de población por sexo
y edad.
Diagramas de barras e histogramas
Los diagramas de barras se usan para representar gráficamente series
estadísticas de valores en un sistema de ejes cartesianos, de manera que en las
abscisas se indica el valor de la va riable estadística y en las ordenadas se señala
su frecuencia absoluta.
Estos gráficos se usan en representación de caracteres cualitativos y cuantitativos
discretos. En va riables cuantitativas continuas , se emplea una variante de los
mismos llamada histograma.
CJ 1993 D 1994
10.000 l--- - -- l - + - - - - - - - - - - - - - -
4 000
2.000
0
Enero Feb. Mar Abril Mayo Jun io Julio Agos Sep. Oct lfov. D1c.
Diagrama de barras.
68.209
Progresión anual
de objetores
42.454
28.051
27.3gg
Histograma.
Polígonos de frecuencias
Pictogramas y cartogramas
Argentina - 2017
Populat1onPyram1d net Pob lación : 44,272,125
A,'"·¡ B
Representación gráfica de la unión y la intersección de dos sucesos compatibles.
• Regla de Laplace, según la cual la probabilidad de un suceso estocástico
formado por h sucesos elementales equiprobables en un espacio muestra! de n
elementos se determina como el cociente entre el número de casos favorables (h )
yel número de casos posibles (n).
N " casos Íil\'orables (] 1)
p (A) = - - - - - - - --
N'' caso~ p osib le s (ll)
e [Link] : = ~
:: ~
.....::::::::=::
CCC
CCX
CXC
CXX
Moneda< X -[Link] : ......::;;::::::==~ xcc
:xcx
e xxc
IC = Cara. X = Cruz.] X XXX
A,R l
3
l
3
5
3
5
3
~ 3 10
1 7
~ N [Link]
3 10
1 4
A!R
A.i ~ R 3 8
% N AJN
l
3
"
8
Teorema de Bayes
Cuando se calcula la probabilidad de un fenómeno después de que éste se haya
producido, se habla de probabilidad a posteríori. Por ejemplo, supóngase que en
el experimento de la extracción de una bola de entre varias bolsas se sabe que se
ha sacado una bola roja ; ahora bien, ¿de qué bolsa procede? La respuesta se
obtiene de la ley de la probabilidad a posteriori.
Si se divide el espacio muestra! E en un conjunto de n sucesos incompatibles A1,
A2, ... , An, donde E = A1 É A2 E ¿ É An, y se considera un suceso cualquiera B,
conocida la probabilidad de B (que ha de ser distinta de cero), la probabilidad a
posteriori para cada A¡ (con i = 1, 2, ¿, n) se obtiene mediante el llamado teorema
de Bayes:
Distribución probabilística
Cuando se analiza un experimento aleatorio, se descubren factores de
comportamiento de la probabilidad que siguen modelos propios y distintivos. Por
ello, es frecuente asociar a estos experimentos una «función de probabilidad», que
puede adoptar diversas formas y regirse por principios diferentes y cuyo estudio
arroja luz sobre la naturaleza y las características del fenómeno físico o social ligado
al experimento.
Variables aleatorias
En un experimento aleatorio cabe definir una aplicación que asigne a cada suceso
estocástico del espacio muestra! un cierto número. Esta aplicación recibe el
nombre de variable aleatoria , y el conjunto de valores que puede asumir una
variable aleatoria es su recorrido . Según el número de elementos del recorrido, se
distinguen dos tipos de variables aleatorias:
• Variable aleatoria continua , de recorrido infinito, donde el número al que se
hace corresponder la aplicación pertenece al conjunto de los números reales R.
• Variable aleatoria discreta, que produce como resultado un número finito de
valores predeterminados, por lo que su recorrido es finito.
En general, una variable aleatoria discreta se define como una aplicación f (x¡) tal
que:
f (X¡J =p (X = X¡) = p ¡
Esta expresión se conoce comúnmente por los nombres de distribución de
probabilidad , función de probabilidad o función de cuantía.
6/ 36
5/ 36
4/ 36
"O
r.
:§ 3/ 36 ·
~
~ 2/ 3 6
1/ 36
1 I_ -
? 3 4 5 6 - 8 9 10 11 12
Suma de datos
Ejemplo de variable aleatoria discreta: al lanzar dos dados, la suma de los puntos
de ambos puede tomar un conjunto finito de valores.
Función de distribución
Dada una variable aleatoria X , se llama función de distribución a aquella que
proporciona la probabilidad de que la variable aleatoria tome un valor menor o igual
que Xi. Es decir:
r, (X¡l = p (X < X¡)
Esperanza matemática
En un experimento a leatorio, la esperanza matemática se define como la suma del
producto de cada valor de la variable aleatoria considerada por su probabilidad.
Cuando la variable aleatoria X es discreta, el valor de la esperanza matemática
asociada viene dado por:
n
F 1X 1 =p ¡ X¡ + p;;: X z + ... + Pn Xn = S: p, X 1
1- 1
Distribución binomial
Una forma corriente de descripción de los experimentos aleatorios equiprobables
con variable discreta es la distribución binomial. En este tipo de distribución se
estudia la probabilidad de que se produzca un cierto resultado, que se describe por
med io de dos parámetros: el número de repeticiones realizadas del experimento y
la probabilidad individual del suceso aleatorio que se persigue como resultado .
Condiciones para una distribución binomial
Una distribución se denomina binomial cuando se cumplen las condiciones
siguientes:
• El experimento aleatorio de base se repite n veces, y todos los resultados
obtenidos son mutuamente independientes.
• En cada prueba se tiene una misma probabilidad de éxito (suceso A),
expresada por p. Asimismo, existe en cada prueba una misma probabilidad de
fracaso (suceso A ), que es igual a q = 1 - p.
• El objetivo de la distribución binomial es conocer la probabilidad de que se
produzca un cierto número de éxitos. La variable aleatoria X , que indica el número
de veces que aparece el suceso A (éxito), es discreta, y su recorrido es el conjunto
{O, 1, 2, 3, ..., n}.
La distribución binomial se expresa como B (n, p), siendo n el número de veces
que se repite el experimento y p la probabilidad de que se produzca un éxito.
?A y lA 4
Función de probabilidad
La distribución binomial se caracteriza porque su función de probabilidad viene
dada por la expresión sigu iente:
r) \A= l')
'V '
= nr
i-
=
])
r
I' (X ~ J) =P (X = O) + P (X = J)
Esperanza, varianza y desviación típica
En una distribución binomial denotada por B (n, p ), donde n es el número de
repeticiones del experimento y p la probabilidad de que se produzca un cierto
suceso (éxito), la esperanza matemática de la variable aleatoria X viene dada por
la expresión siguiente:
E !XI = n · p
CT = Vn · p · q
Ajuste de una distribución binomial
En ocasiones, el cálculo de la probabilidad de una distribución binomial del tipo B
(n, p) resulta muy complicado . Según demostró el matemático francés Abraham de
Moivre (1667-1754), la probabilidad de una distribución binomial B (n, p) puede
aproximarse por medio de una distribución normal de tipo N (np, \ npq ), que
resulta particularmente adecuada cuando:
• El va lor den es muy elevado.
• Tanto np y nq son 3 que 5. (Obsérvese que cuanto mayor es n y más se aproxima
p a 0,5 tanto mejor es la aproximación realizada) .
Para transformar una distribución binomial (de variable discreta) en una normal (de
variable contin ua), és preciso proceder a la siguiente transformación :
Va riable X x·
Distribucíc,n B ín. p1 X (r q:,. , .:~ )
Distribución normal
Entre las distribuciones probabilísticas de variable continua, la más ampliamente
utilizada es la llamada distribución normal, cuya representación gráfica tiene una
forma muy conocida en el ámbito de la estadística y las ciencias naturales: la
campa na de Gauss.
Concepto y función de probabilidad
Dado un experimento de variable aleatoria continua X, se llama distribución
normal a aquella que queda perfectamente descrita por su media aritmética xy su
desviación típica s. Las distribuciones normales, también llamadas gaussianas, se
denotan por la expresión N (x , s ).
X
La gráfica de una distribución normal es la conocida campana de Gauss.
La función de densidad de la distribución normal sigue la ecuación que determina la
conocida campana de Gauss, cuya expresión matemática es la siguiente:
(.,; ; } .'./1
(' 20'
X = V[Link] • J; . 1- ::,.1::-.: j~' ir-.1:;rv.,1,..
~
f (xi =
= M,=.j·¡, :::-.-; !e va-iab!,:, a' -~: oria x oV2n:
(> = D;;s-.~3c,Jn n::::io d, ~ [Link].i ::ileatoriri x
7 = ---
X-x
(j
Tabla de tipificación
La distribución normal tipificada tiene por ecuación de su función de densidad:
Para determinar la probabilidad de que esta función sea menor que un va lor dado
a, se utiliza un método aproximativo y una tabla de tipificación muy conocida.
¡
(1 0,.00 0,01 0,02 i 0,03 O.!» 1
0,05 1
0,0 0,5000
o, 1 0,539B
0,5040 0,5080 0,5 120 v,5160 lo,s199 l
0,5438 0,5478 0,5517 0,5557 0,5595
0,2 0,5793 0,5832 0,5871 0,591 0 0,5948 0,5987 ?
0,3 0,6179 0,6217 0,5255 0,6293 -0,6331 o, 6368
0,4 0,6554 0,6591 0,6628 0,6654 0,6700 0,6735 \
0,5 0,691 5 0,6950 o,6985101019 07054 1o, 7088 /
0,6 , 0,7257 O, 7291 0,7324 0,7357 C,7389 0,7422 \
0,7 0,7560 0,7611 0,7642 0,7673 0,7704 0.7734 (
0,8 0,78S1 0,7910
0,9 0,8159 0,8l86
0,7939 0,7967
0,8212 0,8238
o,7995 8023
0,8264
º·
0,8289 \1
.
0,3
0,2
º· 1
o 4 10 i2 14 15 11:, 2G 22
Ejemplo gráfico de aproximación de una distribución binomial mediante una norma!.
Como se aprecia, la exactitud de la aproximación aumenta conforme se incrementa
el número de experimentos (n).
Muestreo estadístico
Un estudio estadístico ideal sería aquel que considerara en detalle los caracteres y
parámetros de todos los elementos del espacio muestra!. Sin embargo, por motivos
de coste , operatividad o limitación de recursos, normalmente los estudios se refieren
a grupos representativos dentro de un colectivo, llamados muestras, cuya elección
ha de seguir unas normas que garanticen su idoneidad y su facilidad de manejo.
Población y muestra
En una investigación estadística, se llama población al conjunto o colectivo de
elementos considerados en la misma. El número de elementos de este conjunto se
conoce como tamaño de la muestra, que puede ser finito o infinito.
Normalmente, las observaciones no se realizan de modo exhaustivo para toda una
población estadística , sino que se restringen a un subconjunto representativo de la
misma. Cada uno de estos subconjuntos recibe el nombre de muestra. Para que
una muestra pueda considerarse significativa de una población, debe cumplirse
que:
• El tamaño de la muestra y el de la población estén proporcionados.
• Los elementos no presenten distorsiones importantes.
• La muestra sea representativa de la población.
Muestreo aleatorio
Se llama muestreo a la operación que consiste en elegir unidades estadísticas
significativas dentro del conjunto de una población. Existen diversos métodos para
seleccionar las muestras, que han de regirse siempre por el principio aleatorio:
todos los elementos de la población deben tener una misma probabilidad de ser
elegidos para la muestra. Los dos procedimientos más sencillos de muestreo son :
• Muestreo aleatorio simple , que consiste en seleccionar n elementos en una
población de tamaño N, de forma que no existe reemplazamiento y todas las
muestras que se pueden formar tienen la misma probabilidad de ser eleg idas.
• Muestreo aleatorio sistemático, en el que se as igna un número a cada
elemento de la población y se aplica después un procedimiento de selección al azar
utilizando este número.
En técnicas de muestreo aleatorio simple, la probabilidad de eleg ir un a muestra es
la inversa de las combinaciones sin repetición de N elementos to mados en grupos
den:
1 1 1 (N - n ) !
P =--= ---
CN,n N! N!
{N - n)!
Coeficiente de elevación
En la técnica de muestreo aleatorio sistemático, se numeran primero los elementos
de la población, de 1 a N, y se determina un coeficiente de elevación dado por:
N
h= -
n
Distribución muestra!
A partir de las muestras seleccionadas de una población pueden construirse
variables aleatorias alternativas, de cuyo análisis se desprenden interesantes
propiedades estadísticas . Las dos formas más comunes de estas variables
corresponden a las distribuciones muestrales de las medias y de las proporciones.
Distribución muestra! de las medias
Dada una población constitu ida por un número n de elementos, cuya media
aritmética es m y donde la desviación típica viene dada s , pueden formarse n2
muestras con reemplazamiento distintas, formadas por dos elementos de la
población .
Para cada una de estas muestras es posible una media muestra!, que denotaremos
con el símbolo x. Un ejemplo de la tabla de muestras de tamaño 2, tomada de la
población {1, 3, 5}, con sus medias aritméticas reflejadas, sería:
3., ¡
\luc>~trn 1 1.1 L3 L5 3, 1 . .:l 3 .5 S1 5 3 i 5.5
l\·IE:•dia Xi 1 l 2 3 z 3 4 3 4 1
5
r;: = G-'\T}
-
Hnlt.. u =u ll; =u
(1'{•
,:';; = c ·\T1 r:. = :.,\ n ·, .,,.
(:.,...
{ --n- í-=-=
T-:-, _---=-
¡,
' - - - - - ' -- - - ' -- --
Parámetros estadísticos de una distribución muestra! de las medias de tamaño n:
lnuiu ll = u ll = ll
l(X1 " _._ - - ' - - - --1
1 "r = \ pq/n 0. = \ y,q; nl · \ t;, - rn/(N - 1)
Inferencia estadística
En las técnicas de muestreo, se persigue como objetivo analizar estadísticamente
las propiedades de una población a partir del estudio de muestras representativas
de todo el conjunto. La extrapolación de las conclusiones obtenidas para las
muestras a toda la población se denomina inferencia estadística. Para valorar el
grado de val idez de una inferencia de esta clase, es preciso indicar algunas
características esenciales de las muestras: errores contemplados, tamaño de la
muestra e intervalos de confianza.
Aproximación mediante una distribución muestra!
Para expresar las propiedades de una población estadística a través de un
muestreo se determinan muestras representativas de la población y se procede a
ana lizar sus parámetros estadísticos según dos té[Link] posibles: distribución
muestra! de las medias o distribución muestra! de las proporciones.
Al tratarse de una aproximación, por exacta que sea, el muestreo introduce una
diferencia entre las propiedades de la muestra y el valor real que se obtendría si se
analiza ra el conjunto de toda la población.
Por ejemplo, dada una población de tamaño N con media aritmética m y
desviación típicas , y obtenida por distribución muestra! de las medias una muestra
de la misma de tamaño n, media aritmética P;: y desviación típica (i;c , el error
absoluto introducido en el cálculo de cada med ia tendría el valor lm - µ , 1- A escala
global, la media de las medias de la distribución coincide con la media de la
población, así que las diferencias lm - ~i.:¡ serán bajas, aunque en general no nulas.
/
/!\ '¡ \
/
/ i
1
/ i
+ -;::::,__ _ _....· _ _ __;;:.........,i..., ,
µ=u
X
l - í1 = ]·) í
'
!.u - .U-: 1 s;, I\
)(
Tamaño de la muestra
En la realización de estudios estadísticos, el tamaño n de una muestra
representativa depende del tamaño de la población N, del error máximo admisible
d y del nivel de confianza (1 - a), según las expresiones siguientes para determinar
el tamaño de una muestra representativa :
Ili,;trihucita:. mueztmJ d,e D.ír:trib:-.J.oíó::i ?O.\led:n,J ó.e
1m: medi:s, lo:• Jll·[Link].n.e;
Intervalos de confianza
A partir de la normalización de estudios estadísticos mediante distribuciones
muestrales, es posible determinar parámetros de una población a través de sus
valores estadísticos. Normalmente, no se indica un valor único para el parámetro
desconocido, sino un rango de valores denominado, intervalo de confianza.
Estimación paramétrica
Cuando se conoce la distribución que sigue una población estadística y se desea
determinar el valor de alguno de sus parámetros, puede elegirse una muestra
representativa de la población y aplicar las fórmulas de sus va lores estadísticos.
Este tipo de operación se denomina estimación paramétrica.
Al realizar una estimación paramétrica, pueden obtenerse dos tipos de resultados:
• Estimación puntual, con un único valor para el parámetro desconocido.
• Intervalo de confianza , que ofrece para dicho parámetro un rango de valores
comprendidos entre dos límites.
Cálculo de intervalos de confianza
En una estimación paramétrica, el intervalo de confianza [a , b] debe contener en su
interior a la media de la población m con una probabilidad igual a 1 - a, expresión
que se conoce como nivel de confianza. Es decir:
P Íi1 s ~l :5 h) = 1- u
En una distribución muestra! de las proporciones de tipo N (p, \ P'l 111 ), puede
determinarse el intervalo de confianza , para el cual existe una proporción p de
elementos que poseen una cierta característica, a partir de una muestra
representativa, donde la proporción es p¿, por medio de la siguiente expresión:
Contraste de hipótesis
Otra operación común en el manejo de distribuciones muestrales es la que consiste
en contrastar una hipótesis de partida a través de los resultados de una muestra
obtenida de una población estad ística . El procedimiento que se sigue consta de los
pasos sig uientes:
• Proponer una hipótesis que se considera como verdadera, llamada hipótesis
nula .La inversa de la hipótesis nula se llama hipótesis alternativa.
• Definir las leyes de probabilidad de la población y de la muestra (en general, se
considera una distribución normal).
• Determinar la zona de aceptación de la hipótesis nula, mediante intervalos de
confianza . .
Nivel de significación
En la contrastación de hipótesis puede producirse un riesgo de rechazo de la
hipótesis para algún valor concreto del intervalo de confianza aunque la hipótesis
sea válida en el resto del intervalo. Esta probabilidad se denomina riesgo de error
o nivel de significación, y se denota por a.
• Si se acepta la hipótesis, se considera que la diferencia entre el valor del
parámetro contemplado en la hipótesis nula y el que le corresponde según la
muestra es no significativa.
• Cuando se rechaza la hipótesis nula para un valor de a = 5%, la diferencia se
dice que es significativa.
• Si la hipótesis nula se rechaza con un valor de a= 10% , se dice que la diferencia
es muy significativa.
UNIDAD 6
Test de correlación y comparación. Chi cuadrado, Odd Ratio, T de Student,
ANOVA, Me Nemar, Mann Whitley. Significación estadística.
PRUEBA DE F
Prueba estadística que sirve para comparar va rianzas.
El estadístico F experimental es el estadístico de contraste en el ANOVA y otras
pruebas de comparación de varianzas.
PRUEBA DE MCNEMAR.
Prueba estadística que sirve para comparar proporciones en datos pareados.
Prueba de significación estadística para probar la hipótesis nula de inexistencia de
cambios en la proporción de sujetos que experimentan un acontecimiento, cuando
cada individuo es evaluado dos veces (en condiciones diferentes) y los datos están
emparejados.
PRUEBA BINOMIAL
En estadística, la prueba binomial es una prueba exacta de la significación
estadística de desviaciones de una distribución teóricamente prevista de
observaciones en dos categorías.
El uso más común de la prueba binomial es en el caso donde la hipótesis nula es
que dos categorías son igualmente probables ocurrir.
COEFICIENTE DE KAPPA
El Kappa es un índice ómnibus de aceptación en los estudios ínter-observadores,
indica el grado de interrelación ínter-observador.
Permite cuantifica r el nivel del acuerdo ínter-observador para disminuir la
subjetividad del método utilizado (test de movilidad) y si el grado de acuerdo se debe
al azar (a la suerte).
El porcentaje de acuerdo acompañado del índice de Kappa se utiliza para las
variables cualitativas.
Se habla del coeficiente de Kappa de Cohen para dos terapeutas y de Fleiss para
más de dos terapeutas.
Este coeficiente está comprendido entre O y 1. O, corresponde a una correlación que
es idéntica a la encontrada por casualidad y 1 una correlación perfecta entre los
exámenes.
Los valores negativos indican habitualmente que existe un desacuerdo en la manera
de realizar el método entre los terapeutas.
Se calcu la como la proporción de acuerdo, aparte del que ya sería de esperar por
azar, que ha sido observado entre dos repeticiones del mismo instrumento (por
ejemplo, un juicio realizado por dos observadores por separado).
El coeficiente máximo de concordancia es de 1.00.
Un valor de 0.00 indica ninguna concordancia.
• entre 0.00 y 0.20 : ligera.
• entre 0 .21 y 0.40: pasable
• entre 0.41 y 0.60: moderada
• entre 0.61 y 0.80: importante
• entre 0.81 y 1.00: perfecta.
Un coeficiente de 0.4 puede considerarse como el límite de fiabilidad aceptable de
una prueba
El kappa es"un corrector de la medida de acuerdo".
Como test de estadística, el kappa puede verificar que el acuerdo exceda los niveles
de suerte
bloque C2-C4 bloque CS-6
Todos los bloques
Valor del Kappa K = 0.675 K = 0.756 K = 0.460
SE = 0.041 SE = 0.045 SE = 0.091
Z = 17.067 Z = 16.823 Z = 5.039
Especificidad 98% 98% 91%
Sensibilidad 74% 78% 55%
K = coeficiente de Kappa, SE = error estándar, Z =Test de especificidad de la
estadística.
COEFICIENTE DE CORRELACIÓN INTRACLASE (ICC)
El coeficiente de correlación intraclase (ICC) para las variables cuantitativas.
Utiliza el modelo 2 de Landis y Koch para la fiabilidad interexaminador, y el modelo
3 para la fiabilidad intraexaminadores (Landis RJ et Koch GG , 1977).
Este índice está también comprendido entre O y 1.
- El valor 1 corresponde a una reproductividad perfecta entre las mediciones.
- El valor O indicaría que existe la misma variancia entre las mediciones tomadas
sobre un único paciente que las mediciones tomadas entre diferentes pacientes.
TESTS ICC KAPPA
Altura crestas ilíacas 52 0.26
Altura EIPS 75 0.54
TFD 82 0.62
TFS 63 0.26
Gillet 60 0.18
Elev. activa pierna extendida 93 0.81
Joint play 75 0.61
Thigh thrust 81 0.73
Separación 58 0.17
Gaenslen 80 0.51
Patrick 80 0.65
Sacral thrust 68 0.38
Sensibilidad ligamento SI. 91 0.83
Compresión 85 0.59
PRUEBA DE SHAPIRO-WILKS.
Aunque esta prueba es menos conocida es la que se recomienda para contrastar el
ajuste de nuestros datos a una distribución normal, sobre todo cuando la muestra
es pequeña (n<30).
Mide el ajuste de la muestra a una recta, al dibujarla en papel probabilístico normal.
TEST DE MANN-WHITNEY
La prueba de Mann-Whitney U es una de las pruebas de significación más
conocidas.
Es apropiada cuando dos muestras independientes de observaciones se 'miden en
un nivel ordinal, es decir que podemos decir cuál es la mayor de estas dos
observaciones.
Determina si el grado de coincidencia entre dos distribuciones observadas es
inferior a la esperada por suerte en la hipótesis nula que las dos muestras vienen
de una misma población.
Prueba de significación estadística no paramétrica para probar la hipótesis nula de
que el parámetro de localización (generalmente la mediana) es el mismo cuando se
comparan dos grupos independientes, cualquiera que sea el tipo de distribución de
la variable (distribución normal o de otro tipo).
Se usa cuando se quiere comparar dos poblaciones usando muestras
independientes, es decir; es una prueba alterna a la prueba de t para comparar dos
medias usando muestras independientes.
La hipótesis nula es que la mediana de las dos poblaciones son iguales y la hipótesis
alterna puede ser que la mediana de la población 1 sea mayor (menor ó distinta) de
la mediana de la población 2.
Prueba de Mann-Whitney para muestras independientes:
• Si tenemos dos series de valores de una variable continua obtenidas en dos
muestras independientes: X1 , X2, ... , Xn, Y1, Y2 , .. . , Ym , procederemos a ordenar
conjuntamente todos los valores en sentido creciente, asignándoles su rango,
corrigiendo con el rango medio los empates.
• Calculamos luego la suma de rangos para las observaciones de la primera
muestra Sx, y la suma de rangos de la segunda muestra Sy.
• Si los valores de la población de la que se extrajo la muestra aleatoria de X se
localizan por debajo de los valores de Y, entonces la muestra de X tendrá
probablemente rangos más bajos, lo que se reflejará en un valor menor de Sx del
teóricamente probable.
• Si la menor de las sumas de rangos es excesivamente baja, muy improbable en
el caso de que fuera cierta la hipótesis nula, ésta será rechazada.
PRUEBA DE KRUSKAL-WALLIS
Prueba de significación estadística no paramétrica para contrastar la hipótesis nula
cuando los parámetros de localización de dos o más grupos son iguales.
La prueba de Kruskal-Wallis, es una alternativa a la prueba F del análisis de
varianza para diseños de clasificación simple. En este caso se comparan varios
grupos pero usando la mediana de cada uno de ellos, en lugar de las medias.
La prueba de Kruskal-Wallis, es una alternativa a la prueba F del análisis de
varianza para diseños de clasificación simple.
En este caso se comparan varios grupos pero usando la mediana de cada uno de
ellos, en lugar de las medias.
• Ho: La mediana de las k poblaciones consideradas son iguales y,
• Ha: Al menos una de las poblaciones tiene mediana distinta a las otras.
H = 12
n(n+l)
±
M
RJ -J(n+l)
11¡
PRUEBAS NO-PARAMÉTRICAS
El análisis de la variació n asume que las distribuciones subyacentes están
distribuidas normalmente y que las variaciones de las distribuciones que son
comparadas son similares.
El coeficiente de correlación de Pearson asume normalid ad.
Mientras que las técnicas paramétricas son robustas (es decir, conserva n a menudo
un poder considerable para detectar diferencias o semejanzas incluso cuando se
violan estas asunciones), algunas distribuciones violan tanto que un alternativa no
paramétrica es más deseable para detectar una diferencia o un a semejanza .
16
"&1-r.,,· gnóstico de situación de salud de un área, se recogen los datos de •
pacientes y se realizó el procesamiento estadístico a la variable hemoglobina (Hb) y se
obtuvo la tabla de distribución de frecuencia que a continuación se muestra. Responda
las preguntas siguientes.
Hb (g/dl) Fa Fr Faa Far f,. ~ ~ a, e~ ~[Link]-J
-;:-(.,,.-1;o.l').
100:5 X :5 111 11 0,14
-20.-· o,a~.. .
-¡,1. q ¡1¡
111 < X :5 122
1 ' (¿. ( : ~-=- \.,~-~-~)
-· :!, 1 D .ti.O
Total 76
/.<XJ ~ _/
Ejercicio 4.
Para un estudio en la sala de Cirugía de un hospital, un grupo de investigadores recogió datos de las
historias clínicas del grupo de pacientes ingresados en la última semana de noviembre de 2017. Como
resultado del procesamiento de obtuvo la siguiente información acerca del peso de éstos:
b. Clasifique la variable peso y diga qué gráfico se puede usar para representar sus
frecuencias absolutas.
c. Complete la tabla estadística
d. Interprete:
la frecuencia absoluta de la primera clase
- la frecuencia acumulada absoluta de la tercera clase
la frecuencia relativa de la última clase
la frecuencia acumulada relativa de la segunda clase.
e. Calcule e interprete la razón entre las clases 5y 4.
f. Calcule e interprete el índice entre las clases 5 y 4.
g. Diga qué porcentaje de sujetos tienen entre 40 y 45 kilogramos de peso.
h. ¿Cuántos pacientes pesan más de 60 kg?
i. Mencione las medidas de tendencia central, de dispersión y de posición relativa que se
pueden calcular con esta variable.
Ejercicio 6. .,
A continuación se dan frecuencias absolutas de otra variable importante para el referido
estud io:
-.,.
~
?-aa t f' ~
• 9 r11·5. J
- No
Pasto eratorias
Total
- .3'?
5(() -
(i ~Z.
•---
11 :)0.
L-
'
j. Clasifique la variable y diga qué tipo de gráfico se puede usar para representar sus
frecuencias absolutas.
k. ¿Por qué no tienen sentido las frecuencias acumuladas para esta variable?
l. Calcule las frecuencias que faltan. ¿Qué relación hay entre las frecuencias relativas y los
porcentajes?
0m. Calcule e interprete la razón entre la categoría No y la categoría lntraoperatorias. ¿cuál
sería el índice entre estas categoría~?
n. Interprete todas las frecuencias de la 3ra categoría.
o. ¿Cuáles de las medidas descriptivas que conoces no se pueden calcular con esta
variable? Justifique su respuesta.
p. Mencione 4 medidas descriptivas que se pueden calcular con esta variable? Justifique su
respuesta.
L. -
'' '
C'
o-
Clase Práctica 2.
Asignatura:
Bioestadística
Tema: 3, 4 y 5.
Titulo: Ejercicios sobre estadística demográfica, tab las y gráficos, y est adística
inferencia l.
Objetivos:
1. Identificar los principa les gráficos y el tipo de variable donde se uti lizan .
Posto eratorias
Total r 1Y ·1)
b. Clasifique la variable y diga qué tipo de gráfico se- puede usar para represe ntar
sus frecuencias absolutas.
,. c. Interprete la categoría Complicaciones quirúrgicas lntraoperatorias.
-..__ .Q_ Interprete todas las frecuencias de la 3ra categoría .
·2. Identifique el tipo de gráfico y diga un tipo de variable (cualitativa, cuantitativa o
ambas) podrían representarse en ellos:
Tasa de Mortalidad Infantil 2007
:1111111111 Hul111111f tl
TASA DE MORTALIDAD INFANTIL por 1.000 nacidos vivos
Arsentin a 2000-2017
,.
2000 2001 1001 2003 2()()11 2DOS 2.006 1001 toog 2009 7010 2011 2011 20U 20J4 201S 2016 2017
b.
) ..
--
. i
\...;
-~-
··"··--.....,,,,-
E :..Oll
•• ,,u
i....L.,. _ _ _ _
c.
Ciit.,.),,f1('A-'
DEFl~C101''ES ~[Link]..."-:AS POR CAL'~ tUú
(O'Tl:>i Cló01ti...t
1Jl.t:'"!'!•~r,c.10i8
d. [Link]:.[Link]
~...., ' ,.. ,.8· -i.:o- Q_ '- .,.,e__ ..,J ,,L . CtJ-,::, ~ -
(..1,(\ /.). ) ~ .
@~~ ~,~ p.-o~~' l) i, ~-
@(¿- D/~~ . IGX) ~~
0 1
0 0:S ~<o? ~ ~