Texto - Bioestadística
Texto - Bioestadística
TEXTO BÁSICO
BIOESTADÍSTICA
Riobamba - Ecuador
TEXTO BÁSICO
BIOESTADÍSTICA
Primera Edición.
Centro de Reproducción Digital ESPOCH. 2009
Riobamba - Ecuador
88
CAPITULO XI PRUEBAS PARAMÉTRICAS 89
Prueba “t” de student. 89
Prueba “t” de student para muestras pequeñas (< 30 datos) 89
INTRODUCCIÓN
La salud de la población, tratada en este amplio marco requiere del uso de indicadores
que revelen la realidad en cuanto al desarrollo del proceso salud – enfermedad en su
dimensión social. A partir de esta necesidad se plantea la recolección y elaboración de
grandes volúmenes de datos que exigen para su análisis y tratamiento, de métodos
adecuados al resumen, presentación y evaluación de esta información
CAPÍTULO I
INTRODUCCIÓN A LA BIOESTADÍSTICA
OBJETIVOS
• Definir conceptualmente a la estadística y bioestadística
• Identificar las aplicaciones de la bioestadística en el ámbito de la salud
CONTENIDOS
• Concepto de Estadística y Bioestadística
• Estadística. Clasificación
• Usos de la Bioestadística para el Profesional de Salud
• Ejercicio Integrador I
La palabra estadística tiene dos diferencias: “la palabra estadísticas con minúsculas y
en plural se entiende como cualquier conjunto de datos así: estadísticas vitales, estadísticas de
población. Mientras que la Estadística con mayúscula y en singular es la ciencia que
proporciona diferentes técnicas y procedimientos que permiten recolectar, organizar, procesar,
resumir, presentar, analizar e interpretar la información recogida” 1.
Bioestadística
Estadística Clasificación.
Estadística Descriptiva.
Estadística Inferencial.
Ofrece las técnicas y procedimientos para realizar el análisis de los datos recogidos, y
nos permiten hacer inferencias o sacar conclusiones de un aspecto estudiado. La estadística
inferencial basa estudio en una muestra y estos resultados se infieren a una población.
Usos de la Bioestadística para el Profesional de Salud
Así como también solo a través de la Estadística podemos analizar el efecto de un nuevo
tratamiento, se deben a la casualidad o si pueden ser lógicamente atribuidos al nuevo
tratamiento.
La planificación de las actividades de Salud Pública, el control de los programas que se estén
desarrollando y la evaluación final de sus rendimientos y eficiencia solo podrá llevarse a cabo
mediante procedimientos estadísticos.
EJERCICIO INTEGRADOR I.
3 Señale varios usos de la estadística como herramienta de trabajo para la Atención Primaria
de Salud y la Promoción y Educación para la Salud.
CAPÍTULO II
EL MÉTODO CIENTÍFICO Y LA ESTADÍSTICA
OBJETIVOS
• Analizar los elementos teóricos y conceptuales sobre los cuáles se fundamenta el
estudio de la estadística
CONTENIDOS
• Método
• Método Científico
• Etapas del Método Científico. Como Abordar el Problema. Formulación de Problemas
• La Estadística y el Método Científico
Método
“La palabra método deriva del griego meta que significa hacia y odos que significa camino,
etimológicamente significa un camino que conduce a una meta” 1.
Existen métodos universales, generales y particulares del conocimiento científico, los mismos
que se basan principalmente en el método universal del conocimiento que se resume en el
sistema y leyes del materialismo dialéctico.
Método Científico.
“El método científico es aquel que proporciona a todas las ciencias una serie de etapas que
permiten comprobar hechos a través de la observación objetiva de diferentes fenómenos” 1.
Sin embargo no puede hablarse del método científico como un único camino que conduce al
descubrimiento de la verdad y mucho menos como un esquema rígido e inmodificable fuera
del cuál la investigación pierde su carácter científico.
En realidad no hay reglas fijas que indiquen al científico cuál debe ser el punto de partida para
su investigación o que limiten la escogencia de los procedimientos que se debe utilizar, ya que
ellos variarán de acuerdo a sus intereses e inquietudes, a su preparación previa y a los recursos
y presupuesto con que cuenta.
“Es la pregunta relativa a una situación que el investigador desconoce o desea conocer y es el
punto de partida de la investigación”3.
"Es una necesidad de conocimiento, es una incógnita o duda que requiere una respuesta
científica.
En general se puede hablar de tres tipos de necesidades de conocimiento que dan salida a
problemas:
DESCRIPTIVOS.
EXPLICATIVOS.
PREDICTIVOS.
Son aquellos problemas que me permiten medir o evaluar la magnitud y frecuencia de una
situación. Ejemplo:
Son aquellos que buscan las causas que producen un efecto, es decir que para plantearnos este
tipo de problemas debemos hacernos la siguientes preguntas.
¿Cuáles son los factores sociales que influyen en el inicio temprano del consumo de alcohol,
en los estudiantes de los sextos cursos del Colegio Maldonado, Riobamba 2000?
Es decir que si se quieren investigar cinco factores de riesgo, se debe formular para cada uno,
un problema diferente. Pues una investigación puede tener más de un problema, y por lo tanto
por cada problema una conclusión y una recomendación.
Son aquellos que predicen una situación, estos implican que el investigador sea un
protagonista, para facilitar su confección podemos preguntarnos:
¿La administración de estatina es eficaz para reducir el colesterol LDL en los pacientes
hipercolesterolémicos del servicio de cardiología del Hospital Docente Riobamba 2000?
En la formulación de este tipo de problema es necesario desagregar los efectos deseados las
predicciones o desenlaces que se desea estudiar.
Además que para cada desenlace esperado debe haber un problema, y formular en el estudio
tantos problemas como se requiera y como la factibilidad de recursos, tiempo, lo permitan.
A los problemas los podemos abordar desagregándolos en componentes que pueden ser
denominadas: áreas y subáreas, con el objetivo principal de que lo problemas se traten de
aspectos concretos y dimensionen un aspecto que se pueda abordar para estudiarlo
minuciosamente. Por Ejemplo:
Si nosotros queremos estudiar y nuestro problema es, "la desnutrición " presente en un Lugar
X,
De esto nosotros podemos concluir que cuando se limita el problema, este se vuelve más
completo, específico.
Otra de las dimensiones que nos permiten limitar adecuadamente un problema de estudio, es
tomar siempre en cuenta las variables de PERSONA, LUGAR Y TIEMPO, esto
principalmente cuando se trata de un problema de tipo descriptivo.
Los problemas deben ser formulados en forma de preguntas, como reglas generales podemos
seguir las siguientes:
Por ejemplo: "Bajo peso", "Edad materna", "Tabaquismo", "Exposición al Plomo", etc.
En los problemas Descriptivos, no existe relación entre fenómenos, pues es una simple
descripción.
3. El planteamiento del problema debe dejar claro la intención de la pregunta, es decir poder
establecer si se trata de un problema descriptivo, explicativo o predictivo.
4. En el problema se debe definir o dar respuesta a las preguntas: ¿Qué? ¿Cómo? ¿Cuándo?
Y ¿Dónde?
2. OBSERVACION.
Es un proceso perceptual, mediante el cuál se dirige o enfoca la atención sobre algunas cosas
o fenómenos que estamos interesados en conocer.
La observación científica debe hacerse de forma tal que la misma pueda ser repetida por
diferentes observadores.
Se pueden establecer diferentes elementos que forman parte de la estructura del Método de
Observación Científica:
El Objeto.
El Sujeto.
Los Medios.
Abarcan los sentidos, así como instrumentos y recursos capaces de ampliar las capacidades,
perfeccionando la imagen senso - perceptiva del mundo que nos rodea.
Incluye las circunstancias que se dan alrededor del sujeto y el objeto de la observación.
El Sistema de Conocimientos.
Sirve de base a los objetivos trazados para la observación y permite explicar e interpretar sus
resultados.
Es importante acotar que en este complejo proceso, pueden producirse errores en las
observaciones y que estos están determinados por los factores o elementos que intervienen en
toda observación.
3. HIPÓTESIS.
Una Hipótesis es una proposición que se refiere a hechos no sujetos hasta ahora a la
experiencia o, en general, no sometibles a la misma, esta puede ser susceptible de corrección
o rectificación en función de un nuevo conocimiento adquirido. Su característica principal es
su capacidad de predecir hechos no observados.
En resumen una hipótesis bien formulada guía y orienta una investigación, y luego de su
comprobación contribuye a la generación de conocimientos y pasa a formar parte de un
campo del saber humano
"El nivel socio - económico de los estudiantes de los sextos cursos del Colegio Maldonado,
influye en el consumo temprano de alcohol".
Existen diferentes tipos de hipótesis, sin embargo no es objeto de este texto profundizar en
ello, sin embargo es necesario plantear algunos aspectos generales del proceso de
formulación, que pueden ser las siguientes:
Las hipótesis deben ser redactadas en términos claros y sencillos, es decir que la propuesta
deber ser explícita y comprensible.
Las hipótesis deben ser específicas. Este lineamiento está ligado al anterior y significa
que cuanto más concreta sea la relación entre variables es más fácil su comprobación.
Las hipótesis deben formularse como aseveraciones y evitar expresiones de valor o de
juicio. Estos postulados no deben comenzar con verbos ni exponerse en forma
interrogativa.
Las hipótesis formuladas deben ser congruentes con hechos confirmados. Se estima que
los hechos deben tener relación con los principios o postulados ya comprobados en una
teoría, en algunos casos cuando no existe una teoría desarrollada de un tema en particular,
es necesarios fundamentar la investigación con la información existente sobre el
problema.
Primer Paso: Observó ciertas formaciones bacilares en los esputos de pacientes tuberculosos.
Segundo paso: Como hipótesis de trabajo, atribuyó a las formaciones bacilares la causa de la
enfermedad.
Tercer paso: Comprobó que el bacilo se encontraba en los esputos de individuos tuberculosos
y nunca en los procedentes de individuos sin la enfermedad.
No hay que creer que los pasos esbozados son privativos de las grandes investigaciones
solamente, pues no es difícil entrever como ellos se siguen rutinariamente, quizás
inconscientemente, aún en algo tan sencillo como una historia clínica de cualquier paciente,
ejemplo:
Primero se recogen los datos sobre los antecedentes de la enfermedad, se complementan con
inspección, palpación, percusión, auscultación. Es decir se realizan varias Observaciones.
La Estadística cumple diferente papel en cada uno de los pasos del método científico, siendo
importante en la observación de los fenómenos y en la verificación de las hipótesis. En la
formulación de las hipótesis también tiene importancia, aunque ello es un proceso en el cual
intervienen sobre todo la intuición y la imaginación de los investigadores.
Los principios generales del método estadístico son universales en su utilización, no importa
cuál sea la investigación que se realice o ramo de la ciencia que se aplique
1. Planificación de la investigación.
2. Recolección de la Información.
3. Elaboración de los datos recogidos.
4. Análisis e interpretación.
EJERCICIO INTEGRADOR II
CAPÍTULO III
PRINCIPIOS BÁSICOS DE LA RECOLECCIÓN DE
INFORMACIÓN
OBJETIVO
• Analizar los elementos teóricos y conceptuales sobre los cuáles se fundamenta el estudio de
la estadística
CONTENIDOS
• Fuentes de Obtención de la Información
• Principales Métodos de Recolección de la Información
• Reglas Básicas para la Construcción de los Formularios
• Opciones en la Formulación de Preguntas
• Esta temática presenta una importancia capital, debido a que los datos que en ella se
recogen serán la base a partir de la cuál se obtendrán los resultados.
Se define como fuentes de obtención de información a los elementos que originan los datos.
Las fuentes de obtención de información, pueden ser: Primarias y Secundarias.
Fuentes Primarias.
Son aquellas en las que el dato se recoge directamente del elemento que la origina, es decir de
los individuos en donde puede suceder el fenómeno o encontrarse la característica que se está
estudiando.
Para recoger los datos de una fuente primaria, se pueden utilizar dos procedimientos:
La Observación.
El Interrogatorio.
La Observación.
El Interrogatorio.
Interrogatorio Directo.
Interrogatorio Indirecto.
Fuentes Secundarias.
Son aquellas fuentes en las cuáles el dato no se recoge directamente de su origen, sino
media un instrumento que permite la recolección de dicho dato. En este caso el o los datos se
encuentran registrados o publicados en textos, revistas, periódicos, fichas, etc.; por lo tanto es
fácil encontrarlo en bibliotecas, departamentos estadísticos.
El método que se utilice, dependerá del propósito del estudio y naturaleza de la investigación,
podemos clasificar en tres principales métodos de recolección de la información: Encuestas,
Censos y Sistema de Registros.
Encuestas.
Los Censos.
Sistema de Registros.
Estos datos incluyen: el nombre, la edad, sexo, resistencia, fecha de estudio, estado civil, etc.,
hay que tener en cuenta que el algunos estudios no se requieren este tipo de datos, pues según
la característica o propósito del estudio, esta puede mantenerse en el anonimato.
Incluyen los ítems referentes al propósito mismo del estudio, se basan en los indicadores y
variables que se estén investigando, puede ser: conductas y actividades, juicio, motivaciones,
participación social, predisposiciones a actuar, respecto de personas, objetos, situaciones o
procesos sociales.
Reglas:
5. Las preguntas no deben exigir mucho esfuerzo de la memoria, siempre que haya
necesidad de pedir este tipo de esfuerzo al interrogado, debe ser el mínimo posible.
6. Cuando haya que abordar aspectos controvertidos o embarazosos, las preguntas deben ser
construidas de forma tal que no constituyan un conflicto para el "yo" del sujeto.
7. El orden de las preguntas a lo largo del cuestionario debe disponerse con arreglo a las
características psicológicas de las preguntas, en primer lugar, cuando el caso lo requiera,
se deben preguntar datos sociodemográficos, como sexo, edad, nombre, que tienen un
carácter periférico respecto al tema central que se aborda; luego las preguntas generales
que le van llevando hacia las preguntas más complejas, por lo tanto debemos ir desde lo
más simple a lo más complejo, de lo más impersonal a lo más personal.
9. Se debe incluir una pregunta final que recoja la impresión del interrogado respecto al
estudio, esto permite, además de saber su opinión sobre el cuestionario, controlar su
interés y que efecto produjo en él.
10. Es de suma importancia probar la operatividad del formulario, es decir validar antes de
que sea impreso, es conveniente probarlo en el terreno mediante un estudio piloto, para
darse cuenta de las fallas que aún pueden presentar y hacer las correcciones necesarias.
11. No se debe olvidar de redactar las instrucciones necesarias, estas pueden imprimirse en el
mismo formulario cuando no son muy extensas, o en una hoja a parte en el caso contrario.
Las preguntas en los formularios las podemos clasificar de acuerdo a tres criterios:
▪ Abiertas.
▪ Cerradas.
▪ Mixtas.
▪ Filtro.
▪ Control.
▪ Contenido.
▪ Subjetivas.
▪ Objetivas.
Abiertas.
Son aquellas en las cuáles se da completa libertad al interrogado para que responda, es decir
no se limita la respuesta y explora el mundo subjetivo del interrogado.
Ejemplo:
Según su criterio: ¿Cómo se ve reflejado la posición de la mujer en el actual Código de la
familia?
Cerradas.
Son aquellas que, en contraposición con las abiertas, les limita las posibilidades de respuesta a
los individuos, producto de que se determinan, previamente, diferentes opciones de respuesta
que aparecen acompañando a la pregunta., y a las cuales los interrogados deben
circunscribirse de manera estricta, Las respuestas cerradas pueden clasificarse, a su vez en dos
tipos: Dicotómicas y Politómicas.
Cerradas Dicotómicas.
Cerradas Politómicas.
¿Cree usted que para contraer matrimonio es necesario tener en cuenta la diferencia de
escolaridad en la pareja?
Sí ------- No -------- Depende -------
En las respuestas politómicas hay un tipo especial que expresan gradaciones y son aquellas
cuyas respuestas plantean diferentes valoraciones sobre una misma pregunta. Por Ejemplo:
¿Cuál es su criterio en relación con los servicios de Emergencia del Hospital Policlínico de
Riobamba?
Como vemos, cada una de las alternativas de respuesta posible, expresa un grado diferente de
preferencia, en este caso respecto al servicio en cuestión, que va desde la preferencia mayor,
hasta el mayor rechazo.
Mixtas.
Son las preguntas en las que se combinan las preguntas abiertas con las cerradas. Por ejemplo:
Filtro.
Control.
Para dicho fin se redacta una pregunta sobre los temas que nos interesa y luego se redacta otra
pregunta sobre el mismo tema y contenido, pero cambiando su forma de expresión.
Estas preguntas deben ir bien separadas entre sí en el cuestionario para lograr así su
efectividad. Comparando sus respuestas entre sí podemos comprobar la veracidad del
entrevistado al responder a la preguntas. Por ejemplo:
¿Marque con una cruz una característica del Servicio de Emergencia del Hospital Policlínico
de Riobamba?
Contenido.
Son todas aquellas que se realizan en el cuestionario y que están directamente relacionadas
con los indicadores que se manejan en la investigación, o aquellas que recogen información
sobre el propósito mismo del estudio además de datos complementarios sobre el
entrevistados, y que son de interés para el investigador.
Subjetivas.
Son aquellas relacionadas con las actividades, opiniones y motivaciones de los individuos
entrevistados. Por Ejemplo:
¿Cuál su opinión con relación a las causas de violencia intrafamiliar?
Objetivas.
Son aquellas encaminadas a buscar datos o información que, por su naturaleza tienen una
existencia independientemente de la voluntad, motivos, opiniones o deseos de los
entrevistados. Por Ejemplo:
2. Escoja un problema que pueda ser observado en la realidad, elabore una guía de
observación, recolecte la información y presente los resultados de la misma.
"La vida humana representa, la mayor parte de las veces, una ecuación entre el pasado
y el futuro."
José Ingenieros
CAPÍTULO IV
TÉCNICAS DE MUESTREO
OBJETIVOS
• Identificar y aplicar las técnicas de muestreo
CONTENIDOS
En la práctica, ocurre muy a menudo que tales colectivos de elementos a observar son a veces
muy grandes, lo que hace casi imposible el observar a cada uno de sus componentes. Por
ejemplo, si se quiere estudiar el comportamiento de la talla de los estudiantes de secundaria en
el país, se tendría que emplear un tiempo excesivamente grande en hacerlo. En casos como
este y en otros semejantes lo que se debe hacer es tomar una parte o un número determinado
de individuos u objetos.
Universo o Población
“Una población de elementos se define como el mayor grupo de elementos por los cuáles
se tiene un cierto interés en un memento dado”2. Las poblaciones pueden ser finitas o
infinitas , son finitas cuando consta con un número fijo de valores y es infinita cuando
consta de una sucesión sin fin de valores.
Muestra
“Es una parte de la población” 2
Existen algunas razones por las cuales es preferible el estudio en una muestra que en la
totalidad del universo, así tenemos:
Por ejemplo si tenemos los siguientes datos referentes a la edad de estudiantes en la ESPOCH,
19 20 21 22 23 24 25 años. El promedio de edad de los estudiantes es 22 años, si d estos
obtenemos una muestra de 3 estudiantes y tenemos: 19 24 25 el promedio es 23 años, la
diferencia de los promedios en la muestra y el universo son debidas al error de muestreo.
Sin embargo el error por muestreo suele ser menor al error que se puede cometer por el
observador, lo observado y el método de observación. Además que el error por muestro puede
medirse estadísticamente y disminuirse a voluntad, tan solo con aumentar el tamaño de la
muestra. “La variación natural se llama error termino que en este caso no significa
equivocación, sino variación entre los sujetos, y no se puede eliminar” 5.
Que la muestra sea buena en cantidad significa que debe incluir el número óptimo y mínimo
de los individuos. El tamaño va a depender de:
Para determinar la cantidad de individuos en la muestra tenemos algunas fórmulas que nos
pueden ayudar a calcular el tamaño de la muestra:
m n= tamaño de la muestra
n=------------------------- m=tamaño de la población
e2 (m-1) + 1 e=error máximo admisible (0.05)
n = tamaño de la muestra
NZ2S2
N =tamaño de la población
n=-------------------------
Z = Si P=68.3%, Z=1
Z2S2 +Nd2
Si P=95.5%, Z=2
2
S = varianza
d= error admisible en términos absolutos
n= -------------------------
d2
• Calidad de la muestra
La calidad de la muestra significa que las muestra debe ser representativa cualitativamente, es
decir que debe reflejar fielmente las características del universo, por ejemplo debe tomar en
cuanta la composición de acuerdo a características como la edad, el sexo, el estado civil el
nivel de ocupación, instrucción, etc, debe ser diferente al universo solo en número. Si
quisiéramos estudiar las características de los estudiantes en la ESPOCH y si estudiamos
únicamente a los estudiantes de la facultad de Salud Pública, aunque los estudiemos a todos,
la muestra no sería representativa.
Clases de Muestras
Significan que las muestras son escogidas en base a la opinión de expertos, a los que se les
considera como representantes del universo. Si quisiéramos estudiar la composición de los
estudiantes por sexo en la ESPOCH, podríamos escoger a una Facultad que nos parezca más
representativa en función al sexo, sin embargo la validez de los resultados dependerá del
acierto de haber escogido la Facultad.
• Muestras Probabilísticas
Una muestra es probabilísticas cuando todos los individuos o elementos a ser estudiados en
una muestra tienen una probabilidad conocida de participar en la investigación y donde no
interviene el hecho de que el investigador escoja a sus elementos de estudio, sino que estos se
escogen por sorteo sin que intervenga la voluntad del investigador. Es similar a un juego de
lotería, bingo o sorteó en donde es la suerte o el azar el que define las unidades de estudio.
Es importante indicar que los resultados dados por el azar son muy variables sin embargo la
variación no es anárquica, sino perfectamente ordenada y previsible y generalmente presentan
cierta simetría.
2. La tabla de números al azar. Son tablas con miles de números obtenidos por un
procedimiento como lotería. Para utilizar estas tablas se deben numerar a las unidades
de estudio desde el número 1 y luego se extráen tantos números según el tamaño de la
muestra. La tabla puede empezarse a leer en cualquier parte, pero debe escogerse al
azar la columna y fila de comienzo, para lo cual es suficiente colocar a ciegas un dedo
sobre el cuerpo de la tabla y empezar desde ese sitio la lectura. (Ver ANEXO 1.
Tabla de números al Azar)
Para escoger las unidades de estudio de la muestra de entre todas las unidades de la población
se puede proceder a usar los siguientes tipos de muestras probabilísticas:
Es un sorteo simple, en donde colocamos a todas las unidades del universo en un recipiente y
luego extraemos tantas fichas según el número de unidades determinadas en la muestra.
Si queremos escoger a 100 estudiantes del total de 1000 estudiantes de la Facultad de Salud
Pública, entonces en un recipiente colocamos a los 1000 nombres de los estudiantes y luego
procedemos a extraer 100 nombres.
Muestras Sistemáticas
Muestreo estratificado
Consiste en dividir a nuestra población en estratos, por ejemplo en una universidad, los
estratos pueden ser las facultades y dentro de ella las escuelas y si queremos podemos seguir
estratificando la muestra en cada escuela según sexo, en fin según las características de
interés. En cada uno de los estratos se escoge a las unidades de la muestra al azar. Ejemplo:
“El universo estuvo constituido por 6630 estudiantes de Escuela Superior Politécnica de
Chimborazo, matriculados para el período Octubre – Abril de 2002”6.
N. p. q
N = Universo n =
p = Probabilidad a favor (0.5) (N – 1) E2 / K2 + p . q
q = Probabilidad en contra (0.5)
E = Error (10%)
K = Nivel de Confianza. (1.96) 6630 (0.50) (0.50)
n =
(6630-1) 0.0006507 + (0.50) (0.50)
n = 363
Luego de obtener el tamaño de la muestra, el procedimiento para elegir a los individuos se
realizó utilizando un muestreo probabilístico estratificado. Cada Facultad de la Politécnica de
Chimborazo constituyó un estrato, del cual se tomaron los datos de una parte representativa
de cada una de las Facultades, al multiplicar el número de estudiantes de cada facultad por el
factor n / N, de esta manera se obtuvo el tamaño de cada estrato.
Muestreo de Conglomerados
Cuando se aplica este tipo de muestreo no se escogen a los individuos sino que se escogen a
grupos o conglomerados. Un conglomerado puede ser entendido como una población en
miniatura.
Supongamos que necesitamos estudiar en escuelas primarias de una país en donde estén 400
escuelas con un mínimo de 50 alumnos en cada escuela y necesitamos estudiar 2000
estudiantes, basta con escoger 40 escuelas y tendremos a los 2000 estudiantes. La ventaja es
que no se necesita contar con una lista detallada de los alumnos, pues basta con numerar las
400 escuelas del país para mediante un procedimiento al azar escoger las que se estudiarán.
Además de evitar la dispersión, pues por más lejana que quede una escuela al llegar al lugar
se lo hará por 50 estudiantes y no por unos o dos, esto significa un ahorro de tiempo, dinero y
esfuerzos. Sin embargo no suelen dar resultados tan precisos como cuando se trabaja con el
muestreo estratificado
Esta combinación de estudio resulta muy ventajoso, pues si las muestra por conglomerados
evitan la dispersión de la muestra y como a su vez las muestras estratificadas aseguran la
representatividad de los estratos o sectores de la población, entonces su combinación elimina
las desventajas de cada uno.
EJERCICIO INTEGRADOR IV
N = 9800
E = 4% (0,04)
PQ = 0,25
K= 2
N = 9800
N= 5600
S2 = 1200
P= 68,3
d = 30%
4. Se requiere realizar una investigación en la ESPOCH para caracterizar los estilos de vida
los empleados politécnicos, el universo de estudio es de N = 392 empleados.
(4 puntos)
CAPÍTULO V
CLASIFICACIÓN Y COMPUTACIÓN DE LOS DATOS
ESTADÍSTICOS
OBJETIVO
Clasificar los datos estadísticos de acuerdo a características extrínsecas e intrínsecas que le son
comunes
CONTENIDOS
• Variables o Escalas de Clasificación
• Tipos de Variables o Escalas de Clasificación
• Condiciones para Elaborar una Escala Cuantitativa
• Clasificación de los Datos
o Distribuciones de Frecuencias
• Redondeo de Datos
• Tipos de Frecuencias
• Tablas de Intervalos o Clases
• Tipos de Intervalos o Clases
• Regla de Sturges
• Límites de clase
• Punto Medio o Marca de clase
• Amplitud de Clase
o Datos de Asociación
o Series Cronológicas
Una vez captada la información de cada uno de los elementos en estudio, esta tiene que ser
revisada, clasificada, presentada de forma resumida para permitir su análisis e interpretación.
- Determinar si se ha recibido todos los datos o cuando menos en una proporción que sea
suficiente para no invalidar las conclusiones.
- Verificar que estén registradas todas las respuestas requeridas.
Concepto de Variables.
Son características presentes en un individuo o elemento que estamos estudiando y que tienen
diferentes valores para cada objeto o individuo estudiado.
“Una Variable es una características que toman distintos valores en los diferentes sujetos
, eventos lugares o momentos. Cuando esa variable solo puede ser medida acorde con
una cierta catalogación o categorización recibe el nombre de variable categórica o
cualitativa. Si las variables pueden ser designadas con una cifra que permite una
medición numérica reciben el nombre de variables numéricas o cuantitativas” 7
• Nominales - Dicotómicas
• Variables Cualitativas. - Politómicas
• Ordinales
• Continuas
• Variables Cuantitativas
• Discretas o discontinuas.
Variable Cualitativa.
Son aquellas que clasifican a las personas u objetos de estudio de acuerdo a características o
cualidades que le son comunes. Ejemplo. Al clasificar a un grupo de personas por el sexo,
raza, estado civil, etc. Esta se subdivide en:
• Politómicas. Son aquellas variables que toman más de dos valores. Ejemplo:
Variable Cualitativa Ordinal. Son aquellas variables que presentan categorías ordenadas,
existe relación de subordinación. Es decir que sirven para establecer relaciones de
comparación. Ejemplo.
Variables Cuantitativas Continuas. Son aquellas variables que toman un infinito número de
valores entre dos números enteros, surgen por medición. Ejemplo: La edad de una persona,
puede ser 40 años, 40 años y 10 meses, o aun podrían expresarse como 40 años, 10 meses, 5
días, 18 horas, 14 minutos, etc.
Variables Cuantitativas Discretas o Discontinuas. Son aquellas que toman valores finitos o
enteros, surgen por conteo de las personas u objetos que posean determinada característica.
Ejemplo: Las familias clasificadas según el número de hijos, los escolares según el número de
caries dentales, el número de abortos, etc. En estas variables ningún valor fraccionado tendrá
significado.
Para que se considere una correcta escala debe reunir las siguientes condiciones.
2. Que sean mutuamente excluyentes es decir, que cada objeto o individuo se cuentan
una sola vez. Ejemplo:
Se comprende fácilmente que los individuos que se estudian pueden clasificarse según una
escala única variable o de acuerdo a dos o más escalas o variables a la vez. Teniendo en
cuenta esta noción los datos estadísticos podrán clasificarse en los tres tipos que a
continuación se describen:
• Distribuciones de Frecuencias.
• Datos de Asociación.
• Series Cronológicas.
Tipos de Frecuencias.
Las frecuencias más utilizadas son las simples, sin embargo la ventaja de utilizar las
frecuencias acumuladas, es que nos permite conocer en un momento dado de la distribución la
suma parcial o los porcentajes de datos hasta ese momento.
Para elaborar la tabla de frecuencias, los datos o posibilidades (X), deben estar
necesariamente ordenados. Por otra parte la tabla puede ser ascendente o descendente.
Cada uno de los grupos, valores o datos que se adoptan en una tabla de frecuencias se
denominan posibilidades (x1, x2, x3,.........Xn) las veces que se repite una posibilidad se
denomina frecuencia (f), la suma de frecuencias siempre será igual al total de los datos
investigados el mismo que se señala con una (n).
Ejemplo:
Las razones para hacer este tipo de agrupamiento son: por una parte es antieconómico y poco
práctico tratar con un gran número de datos distribuidos en muchas posibilidades a menos que
se disponga de tecnología adecuada, y por otra parte algunos de los datos tienen asociada una
frecuencia tan baja que no justifica mantenerlos como entidades distintas y separadas. Como
factor negativo podemos indicar que si el número de clases o intervalos de clase que
escogemos es muy grande, tendrá el inconveniente de que habrá tantos detalles, que
relaciones importantes entre las observaciones estudiadas pasarán inadvertidos, por el
contrario si determinamos muy pocas clases, probablemente pasaremos por alto importantes
características de los individuos.
Por tanto el número de clases debe ser tal que se evite el detalle innecesario pero que no
conduzca a la perdida de información.
Algunos autores señalan que deben tomarse entre 10 y 20 clases, otros que entre 8 y 15 y
algunos dicen que no deben ser menos de 6, ni más de 15, pero en definitiva, cualquier
selección del número de intervalos de clase o clases, dependerá de las características de los
datos.
Ejemplo:
Edad f fc f% fc%
38-50 35 35 12.20 12.20
51-77 181 216 63.10 75.30
78-81 26 242 9.04 84.34
82-93 30 272 10.44 94.78
94-100 15 287 5.22 100.00
287 100.00
2. Intervalos Iguales. Se puede realizar de dos maneras, la una de acuerdo al número de datos
que se desea que intervengan en el intervalo y la segunda de acuerdo al número de intervalos
que se deseen obtener, en este segundo caso se puede trabajar con la denominada Regla de
Sturges.
Para el primer intervalo se añade al límite inferior de los datos el número que se requiere que
intervenga en cada intervalo, obteniéndose el límite superior del primer intervalo, para el
segundo intervalo, se toma el límite superior y se le suma 1, e igualmente se le añade el
número de datos propuesto.
Para saber previamente cuántos intervalos nos van ha resultar al aplicar este método,
utilizamos la siguiente fórmula:
a
No. Intervalos = + 1
i
Donde,
Ejemplo:
a
No. Intervalos = + 1
i
432 – 34
No. Intervalos = + 1
15
No. Intervalos = 7
Este resultado quiere decir que al sumar 15 datos por intervalo, vamos a obtener 7 intervalos
iguales.
(i – 1 = ) 15 – 1 = 14
Límite superior del primer intervalo + 1 = límite inferior del segundo intervalo + 14.
356 + 1 = 357
1. Se encuentra la diferencia entre el valor mayor y el valor menor de los datos que se
analizan, y ha este resultado le sumo 1.
3. Se toma el valor más bajo de los datos originales y se le añade i - 1, a fin de obtener
el primer intervalo de clase; para el segundo intervalo se toma el número consecutivo
superior, al resultado antes obtenido también se le añade i – 1, para los otros
intervalos se sigue el mismo procedimiento.
Ejemplo:
Con los datos de la Tabla No.6 obtenga una tabla de 11 intervalos iguales.
432 – 342
i= + 1 = 91/11
11
i–1 = 9 -1 =8
Su fórmula es:
K = 1 + 3, 3 log n
n = Número de Observaciones.
log n = Logaritmo de n.
Ejemplo:
K = 1 + 3,3 lg. n
K = 1 + 3.3 lg. 69
K = 1 + 3.3 (1,838849)
K = 1 + 6,o68202
K = 7.07
K = 7 Intervalos Iguales.
n 69
Límites de Clase. Cada uno de los intervalos de clase consta de sus límites inferiores y
superiores.
Al primer valor de cada clase se le denomina límite inferior, y al segundo valor, límite
superior.
Cuando al presentar la tabla existe la diferencia de una unidad (según el grado decimal con
que se trabaja) entre uno y otro intervalo, se dice que tenemos los límites aparentes o de
notación, estos son los que están propiamente en el intervalo.
Se denominan límites reales simplemente aquellos en los cuáles no existe dicha diferencia. Si
consideramos que el valor de un número varía en forma real desde la mitad de la unidad
anterior, hasta la mitad de la unidad posterior, podemos indicar que el límite real inferior de
un intervalo será el mismo número menos la mitad de la unidad que se consideró en el trabajo,
y el límite real superior, será el mismo número más la mitad de dicha unidad.
Ejemplos:
TABLA No. 9 Límites aparentes de la variable edad
EDAD
68 – 72
73 – 81
82 – 84
85 – 96
97 – 100
81.5 – 84.5
84.5 – 96.5
96.5 – 100.5
Otra forma de obtener el límite real, es sumando el límite aparente superior más el límite
aparente inferior y dividiendo para 2. Así el primer intervalo de esta tabla sería:
72 + 73 / 2 = 72.5
El conocimiento de los límites aparentes y reales me permite hallar el punto medio o marca de
clase.
Punto Medio o Marca de Clase. Se simboliza (mc) y es la semisuma de los límites reales de
clase y dividido para dos.
Ejemplo:
TABLA No.13 Límites aparentes, reales y marca de clase de la variable edad
Amplitud de Clase. Sirve para determinar de dónde a dónde irá cada una de las clases.
Existen intervalos de igual amplitud y otros en los que la amplitud es diferente para cada
clase.
Amplitud de clase = Diferencia entre los límites reales de cada clase
AMPLITUD DE CLASE
68 – 72 + 1 = 5
73 – 81 + 1 = 9
82 – 84 + 1 = 3
85 – 96 + 1 = 12
97 – 100 + 1 = 4
Series Cronológicas. Sirven para cuando se utiliza la escala de tiempo, para mostrar la
evolución de un fenómeno en relación con él. Ejemplo:
EJERCICIO INTEGRADOR V.
Clasificación de Variables.
1. Los datos que aparecen a continuación corresponden a las variables que se estudiaron en
un grupo de trabajadores de la Industria Azucarera para determinar la frecuencia de accidentes
del trabajo y enfermedades profesionales, así como se relaciona con el resto de la información
obtenida.
• Edad
• Sexo
• Nivel de escolaridad
• Estatura
• Estado Civil
• Número de hijos
• Años de trabajo en la ocupación actual
• Número de Accidentes sufridos.
• Existencia de Enfermedad profesional
200 280 232 250 230 230 200 260 251 260 232 217 246
235 256 241 216 256 217 232 261 261 230 215 228 248
241 260 266 226 280 217 241 262 217 255 208 232 228
260 217 243 226 271 221 217 230 220 255 217 215 232
208 209 217 208 266 230 220 241 215 266 210 221 212
217 241 221 200 277 266 232 252 208 217 208 272 280
217 250 250 215 240 217 217 230 209 217 209 217 230
232 261 232 220 221 208 258 251 215 220 215 220 280
245 262 246 221 222 209 258 230 215 222 221 231 200
X f
126 132
130 204 a) 7 Intervalos Desiguales
138 315 b) 13 Intervalos Desiguales
150 121 a) 5 Datos por Intervalo
155 58 b) 17 Datos por Intervalo
166 33 c) 4 Intervalos Iguales
171 170 d) 13 Intervalos Iguales
177 258
194 43
205 120
210 70
219 18
228 150
247 52
250 26
n 1770
X f
0,0072 25
0,0084 15 a) 3 y 12 Intervalos
0,0096 10 Desiguales.
0,0099 30 b) 17 y 8 Datos por Intervalos.
0,0108 150 c) 5 y 11 Intervalos Iguales.
0,0125 250 d) Aplicar la regla de Sturges.
0,0144 15
0,0156 43
0,0170 25
0,0180 15
0,0193 100
0,0200 150
n 828
43 39 43 47 50
"El hombre encuentra a Dios detrás de cada puerta que la ciencia logra abrir."
Albert Einstein
CAPITULO VI
FORMAS DE ORGANIZAR, RESUMIR Y
PRESENTAR LA INFORMACIÓN ESTADÍSTICA
OBJETIVOS
CONTENIDOS
▪ Presentación de datos mediante texto
▪ Presentación Tabular o Cuadros Estadísticos
▪ Tipos de Tablas Estadísticas
▪ Partes de una Tabla Estadística
▪ Errores en la Presentación Tabular
▪ Formas de Leer Tablas Estadísticas
▪ Formas de Presentación Gráfica
▪ Formas de Presentación Gráfica, Variables Cualitativas y Cuantitativas Discretas con
Clases de Igual Amplitud
▪ Formas de Presentación Gráfica, Variables Cuantitativas Continuas y discretas con
clases de desigual amplitud
▪ Gráfico de Frecuencias Acumuladas
▪ Gráfico Aritmético Simple
Presentación de datos
“Las tres formas fundamentales de presentación de la información son: texto, las tablas o
cuadros estadísticos y los gráficos, que se combinan generalmente para lograr mayor claridad,
transparencia e interpretabilidad de la información” 8
“Corresponde a la forma más sencilla de presentar datos. Como su nombre lo indica, se hace
una descripción narrativa de la información. Las dos formas más comunes de la presentación
textual de la información corresponden a:
Presentación de todos y cada uno de los datos obtenidos, para lo cuál se presenta un pequeño
párrafo que explica el origen de los datos y a continuación una nube de datos” 8 Esta forma
de presentación es poco práctica cuando se pretende describir el comportamiento de una
variable de interés en uno dos o más grupos, pues no se puede determinar a simple vista
diferencias entre los grupos ni la magnitud de la diferencia.
Aunque la disposición del cuadro variará de acuerdo a los datos que se intenta resumir, hay
algunos principios comunes que deben tenerse en cuenta.
1. Identificación.
2. El título.
3. El cuadro propiamente dicho.
4. Las notas explicativas.
1. Identificación. Siempre se tiene que poner una identificación a la tabla, que indique el
número, así: Tabla No. 1 o Cuadro No. 1, se pueden utilizar números arábicos o romanos.
2. Título. Como los cuadros deben entenderse fácilmente, sin necesidad de recurrir al texto
que acompañan, el título debe reunir dos condiciones:
a. Ser completo,
Un título que sea completo, debe indicar claramente cuál es el contenido del cuadro. En
otras palabras, debe responder a las preguntas:
El título debe ser breve, lo más conciso posible, aunque no debe sacrificarse la claridad y
la concisión. Observe como el primero de los dos títulos siguientes es completo, pero le falta
brevedad y no añade nada nuevo al segundo de ellos.
Título no recomendable:
Título correcto:
“Defunciones por edad y sexo. Hospital General Docente “Alfonso Chávez”. Riobamba,
2005”.
Ejemplo:
Tabla No.18
Distribución de Camas, Según Servicio de Atención. Hospital General Docente
Riobamba. 2005
SERVICIO DE ATENCIÓN No. CAMAS PORCENTAJE
Medicina General 267 25.1
Cirugía 266 25.0
Gíneco-Obstetricia 221 20.8
Emergencia 45 4.2
Otros Servicios 263 24.8
TOTAL 1062 100
FUENTE: Estadísticas del Hospital General Docente. Riobamba. 2005.
Entre los errores que se cometen al elaborar un cuadro estadístico, deben evitarse
especialmente los siguientes:
Los gráficos son la representación del fenómeno que se estudia por medio de figuras
geométricas, por lo tanto es una forma auxiliar para presentar los resultados, su propósito
fundamental es dar la idea general del comportamiento del fenómeno que se estudia. Al ser
una forma de presentación auxiliar la fuente de un gráfico es la tabla de donde procede y se
utilizan cuando los datos de la tabla no son comprensibles a simple vista.
“La utilidad de los gráficos es doble , ya que pueden servir no solo como sustitutos de las
tablas, sino que también constituyen una poderosa herramienta para el análisis de datos ,
siendo en ocasiones el medio más efectivo no sólo para describir y resumir la información,
sino también para analizarla”8
1. Identificación
2. Título
3. Gráfico Propiamente dicho.
4. Notas aclaratorias.
5. Fuente.
Cuando se presenta los resultados de una investigación, se puede poner tabla y gráfico,
también se puede poner solo la tabla sin gráfico, pero no puede haber gráfico sin tabla.
Los gráficos que se utilizan para presentar estas variables son: el gráfico de barras y el de
sector o pastel.
Gráficos de Barras. Son aquellos gráficos en el cual los fenómenos que se estudian quedan
representados por una serie de rectángulos o barras, los cuáles pueden dibujarse horizontal o
verticalmente. En estos gráficos es la longitud de la figura (altura) la que es proporcional a la
magnitud del valor que representamos.
Para todos los tipos de gráficos en el eje de las X se representa la Categoría de las Variables y
en el eje de las Y se representan las frecuencias.
En el gráfico de barras no se debe interrumpir el eje, por lo que siempre debe empezar desde
0, se pueden presentar frecuencias absolutas o relativas.
Los gráficos de barras se pueden clasificar en: simples, múltiples (dobles, triples, etc.) y
compuestos o proporcionales.
Gráfico de Barras Simples. Se utilizan para distribución de frecuencias de una sola variable
o una sola escala de clasificación, se pueden presentar series cronológicas cuando no son
muchos años o períodos que se quiere presentar. Ejemplo:
Tabla No.19
Distribución de Camas, Según Servicio de Atención. Hospital General Docente
Riobamba 2005.
Gráfico No. 1
Distribución de Camas, Según Servicio de Atención. Hospital
General Docente Riobamba.2005
300
250
Número de Camas.
200
150
100
50
0
Medicina Cirugía Gíneco Emergencia Otros
General Obstetricia Servicios
Servicio de Atención.
Siempre que sea posible se deben ordenar las frecuencias de mayor a menor antes de
representarlas en el gráfico.
Ejemplo:
Tabla No. 20
Estudiantes, según el color de la piel y el sexo. Escuela Nutrición. ESPOCH.
Riobamba 2005.
Sexo
Color de la Piel Masculino Femenino
No. % No. %
Blanca 56 42.4 40 32.8
Negra 30 22.7 34 27.8
Mestiza 36 27.3 44 36.1
Amarilla 10 7.6 4 3.3
Total 132 100 122 100
FUENTE: Entrevistas aplicadas. Escuela de Nutrición. ESPOCH. 2005
Grafico No.2
Distribución de los estudiantes, según color de la piel y el
sexo. Escuela Leonardo Favio. Riobamba. 1995.
60
50
No. de estudiantes.
40
30
20
10
0
Blanca Negra Mestiza Amarilla
Color de la Piel.
En este caso es necesario incluir la leyenda para expresar a lo que se refieren cada uno de los
rectángulos. De esta misma forma se podría entonces representar 3,4 o más características y
entonces construir gráficos de barras triples, cuádruples, etc.
En relación con la Tabla No.3, si queremos representar los diferentes tipos de piel en un
mismo rectángulo, indicando que proporción de cada color de la piel teníamos en relación con
el sexo, el gráfico quedaría de la siguiente forma:
Grafico No. 3
Distribución de los estudiantes, según color de la piel y sexo. Escuela Nutrición.
ESPOCH. Riobamba 20055.
120
100 7,6 3,3
80 Amarilla
Porcentaje.
27,3 36,1
60 22,7
Mestiza
27,8
40 Negra
20 42,4 32,8 Blanca
0
Masculino Femenino
Sexo.
Gráfico de Pastel o Sectores. Otro de los gráficos que se utiliza para representar las
variables cuantitativas discretas y cualitativas es el de sector o pastel. Su uso más frecuente es
con fines comparativos, cuando se quiere mostrar los diversos componentes de una serie. La
figura geométrica utilizada es la circunferencia, se usa cuando la tabla no tiene muchas clases
o intervalos, ya que puede haber muchas divisiones y no se logre divisar lo que se quiere. Este
círculo se divide en sectores tales que sus medidas angulares sean proporcionales a las
magnitudes de los valores que representan. Para hallar la medida angular de cada sector
representativo de los datos se procede así:
Ahora, la circunferencia está dividida en grados y no en porcentaje, por esto debemos llevar
de porcentaje a grados.
Sabemos que los 360 grados de la circunferencia deben corresponder con el cien porciento de
los datos. Aplicando la regla de 3 tenemos:
Ejemplo:
Tabla No. 21
Distribución de Camas en los servicios de Ginecología y Obstetricia. Hospital
General Docente. Riobamba. 1995.
GRAFICO No. 4
Distribución de camas según servicio de Ginecologia y
Obstetricia. Hospital Policlínico. Riobamba. 1995.
22%
Ginecología
Obstetricia
78%
Estos datos pueden ser presentados en dos tipos de gráficos: histogramas, polígonos de
frecuencias, gráfico de frecuencias acumuladas y gráfico aritmético simple.
Tabla No.22
Pacientes con Tuberculosis por grupos de edades. Chambo 2005.
Grafico No. 5
Pacientes con Tuberculosis según grupo de edad. Chambo.
2005
250
200
Frecuencias
150
100
50
0
25 - 29 30 – 34 35 – 39 40 – 54 55 – 59 60 – 69 70 – 90
Edad
Es aquel en el que, las clases tienen la misma amplitud y en ese caso no es necesario la
transformación de los datos en frecuencias por unidad, ya que al dividir todos son
proporcionales al porcentaje y se realiza el Histograma con las frecuencias relativas o
porcentajes.
TABLA No. 23
EDAD DE PADRES Y MADRES DE ADOLESCENTES. ENTRE 12 Y 18 AÑOS.
RIOBAMBA 2005
EDAD No. %
28 - 33 39 20
34 - 39 77 39
40 - 45 59 30
46 - 51 18 9
52 - 57 7 4
TOTAL 200 100
FUENTE: Encuesta Educación Sexual Familiar. ESPOCH. 2005
GRAFICO No. 6
Edad de padres y Madres de familia de adolescentes entre
12 y 18 años de edad. Riobamba. 2005
90
80
70
FRECUENCIA
60
50
40
30
20
10
0
28 - 33 34 - 39 40 - 45 46 - 51 52 - 57
EDAD
Polígono de Frecuencia.
Son gráficos de líneas se realizan cuando se tiene que presentar más de una característica en
el mismo gráfico. Se procede de la misma manera que para realizar el histograma:
Y luego:
“Un ejemplo puede ser la variable edad de la primera relación sexual de los estudiantes de la
ESPOCH según el sexo”6.
TABLA No. 24
GRÁFICO No. 7
EDAD DE LA PRIMERA RELACIÓN SEXUAL. ESPOCH. 2002
35
ESTUDIANTES SEGÚN SEXO
30
25
20 MASCULINO
FEMENINO
15
10
0
10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
EDAD PRIMERA RELACIÓN
Si se desea se pueden también agrupar los datos en intervalos de clases y obtener el gráfico de
la misma forma, tomando en cuenta la amplitud igual para los intervalos.
Se utiliza para representar frecuencias en escala cuantitativa con fines analíticos para resumir
series cronológicas cuando se tiene interés en el efecto acumulado a través del tiempo, es
decir la situación del fenómeno en un momento determinado.
Ejemplo:
Tabla No. 25
Defunciones por accidentes. Frecuencias acumuladas por grupos de edad.
Ecuador 2003.
GRAFICO No. 8
Defunciones por accidentes. frecuencias acumuladas por grupos de
edad. Ecuador. 2003
3500
3000
Frecuencias Acumuladas
2500
2000
1500
1000
500
0
0 - 9 10_18 19 - 29 30 - 39 40 - 49 50 - 59 60 - 69 70 - 79 80 - 89
Edad
2. ¿ De las defunciones totales, qué porcentaje ocurrió por debajo de determinada edad?
En este caso trazamos una vertical ha la curva y se proyecta a la escala de los porcentajes, si
observamos en el ejemplo anterior, aproximadamente las muertes ocurridas en menores de 35
años representan un 65 % de las defunciones.
Si nosotros queremos saber antes de que edad ocurrió el 50% de las defunciones se traza una
horizontal desde esta cifra hasta la curva del diagrama y bajando luego una vertical hasta la
clase de la variable, en este caso vemos que el 50 % de las defunciones ocurrieron antes de los
26 años.
Este gráfico es usado para series cronológicas, pues su curva estadística presenta las
oscilaciones de los datos presentados.
1. El eje horizontal (eje x), se llama escala cronológica, aquí se inscribe el tiempo
(años, meses, días, horas, etc.).
2. El eje vertical (eje y) llamado escala numérica de valores, aquí se inscriben las
frecuencias simples absolutas, las frecuencias simples relativas o las tasas.
Un ejemplo sería:
Tabla No. 26
Casos de Tosferina. Área de Salud Chambo. Riobamba. 1956 - 1960.
AÑOS CASOS %
1956 2824 17.20
1957 1420 8.64
1958 938 5.71
1959 4476 27.25
1960 6764 41.20
TOTAL 16422 100.0
FUENTE: Anuario Estadístico. Ecuador 1961.
GRAFICO No. 8
Casos de Tos Ferina. Area de Salud Chambo.Riobamba. 1956 -
1960
8000
7000
6000
5000
Número
4000
3000
2000
1000
0
1956 1957 1958 1959 1960
Años
Realice una tabla con todas sus partes, considerando las siguientes combinaciones:
Nota. Cada una de estas condiciones que se pueden observar en la presentación tabular son
importantes, pues de estos detalles depende el tipo de gráfico que se realizará para la
presentación tabular.
Entre los 509 trabajadores portadores de perforación del tabique nasal, solo 1 había
permanecido en la industria durante menos de 6 meses; 46 lo habían hecho durante un período
de 6 meses a 3 años; 205 habían trabajado durante 4 a 10 años en ambientes saturados de
derivados crómicos; y 257 estaban hacía más de 10 años en la industria del cromo.
El servicio de cirugía contó con 266 camas. El servicio de Gíneco – Obstetricia, dispuso de
221 camas, de las cuales 172 pertenecían a Obstetricia. Hubo además 50 camas de Urología;
de Neurología; 29 de Otorrinolaringología; 28 de Dermatología; 45 de Oftalmología; 45 del
servicio de Emergencias; 58 Psiquiatría; y 12 de la Unidad de Cuidados Intensivos.
Los pesos de las niñas fueron: más de 4500 gms: 20 casos; 133, entre 4001 y 4500 gms; 855,
entre 3501 y 4000; 2079 entre 3001 y 3500 gms; 1656 pesaron entre 2501 y 3000 gms; 522,
entre 2001 y 2500 gms; 153 nacidas vivas entre 1501 y 2000 gms; 72, entre 1001 y 1500 gms;
11 casos de niñas menos de 1000 gms, en 17 casos de nacimientos de niñas no se conoció el
peso.
6. Según datos reflejados en el anuario estadístico del MSP del año de 1974. Las tasas de
fecundidad por edades de la madre por 1000 mujeres para los años 90, 93 y 94 se
comportaron de la siguiente forma.
Para el año 1990, para el grupo de 15 – 19 años la tasa fue de 77.5 de 20 – años, 113.0 de 97.4
para el grupo de 25 – 29 años, 56.1 para el de 30 – 34 años, para el grupo de 35 – 39 años,
17.5 para el de 40 – 44 años, 3.3 y para el de 45 – 49 años, 0.3. la tasa global total fue de 62.1
Para los años 93 y 94 siguiendo el mismo ordenamiento de los grupos etáreos las tasas fueron:
1993 1994
68.0 63.9
95.0 93.7
79.0 78.2
39.5 39.4
15.5 14.9
2.3 2.1
0.4 6.4
49.9 48.2
Además en el anuario se aclara que los datos del año 94 son provisionales.
7. Las 5 primeras causas de muerte según los datos del Anuario Estadístico del año 1996 para
Cuba expresado en tasas por 100000 habitantes, fueron:
Enfermedades del corazón en una tasa de 217.9 para hombres y 172.5 para las mujeres.
Tumores Malignos. Con tasas de 153 para el sexo masculino y 112.2 para el femenino.
Enfermedades Cardiovasculares donde los hombres presentan una tasa de 67.5 y 73.4 las
mujeres. Accidentes con tasas de 0.6 y 30.9 para varones y hembras y por último Influenza y
neumonía con 30.7 y 29.2 tasas para hombres y mujeres.
1989 2.1
1990 3.5
1991 4.0
1992 4.2
1993 6.6
1994 6.5
1995 5.6
9. Los datos sobre los casos positivos de cáncer cérvico uterino en las mujeres examinadas
para el programa en las diferentes etapas clínicas para Cuba en el año 1995 aparecen en el
anuario estadístico del mismo años. En la etapa I se encuentra el 1.5 % de los casos, estaban
en etapa II el 0.7%, en la III, o.4% y el la IV etapa el 0.1 %.
"No hay un solo tema científico, que no pueda ser explicado a nivel popular."
Sagan, Carl
CAPITULO VII
MEDIDAS DESCRIPTIVAS
OBJETIVO
CONTENIDOS
Las variables cualitativas se resumen y se analizan por medidas que en general son: razones,
índices, proporciones, porcentajes y tasas.
Razón. (Expresa relación). Es la relación entre 2 partes sin tener en cuenta el total es decir
independientemente de este, es una fracción de la forma: a/b donde a y b se refieren a hechos
diferentes.
Ejemplo: Una determinada población de 396 estudiantes está formado por 297 hombres y 99
mujeres, aunque es evidente el predominio de hombres, la intensidad de esa relación se
apreciará mejor, al dividir el número de hombres por el de mujeres, así:
297 / 99 = 3
Con lo cuál esta razón expresa que hay 3 hombres por cada mujer en dicho grupo de
estudiantes.
Índice. Es el producto de multiplicar una razón por 100. Es una fracción de la forma: a/b x
100. En el ejemplo anterior sería:
Este índice nos indica que existen 300 hombres por cada 100 mujeres.
% = a / total x 100.
Tasas. (Expresan riesgo). Es la relación por cociente entre el número de veces en que sucede
un determinado fenómeno y la población expuesta al riesgo de ocurrencia de ese fenómeno.
a/a+b x 10 a la n.
Donde a es la frecuencia con la cual ha ocurrido un evento durante algún período de tiempo
especificado. a + b es el número de personas expuestas al riesgo durante el mismo
período de tiempo.
Para que el denominador sea correcto hay que tomar en cuanta la población a mitad de
período es decir la del primero de Julio, pues se considera que dicha población es la
intermedia entre la de principios y final de año, pues esta continuamente esta cambiando
producto de los nacimientos, la mortalidad y las migraciones.
Estas tasas pueden calcularse para toda la población y por todas las causas las que se llaman
ha estas se las denomina tasas crudas, totales, globales y generales o separadamente para
algunos de sus segmentos, por ejemplo para un determinado grupo de edad o sexo, y por
alguna causa se conocen con el nombre de tasas específicas. Una tasa puede hacerse tan
específica como se quiera.
Nacimientos vivos
La Constante por la que se multiplican las tasas, no siempre son posibles y en la realidad
depende del tamaño de la población sobre la cual se analiza el riesgo, lo importante es
multiplicar por 10n .
“Las cifras descriptivas que se obtienen como función de una muestra, es decir, como función
de un conjunto de datos que representan una parte de un todo mayor , se llama estadígrafos o
estadísticos”9
Son las que se definen o dan idea del comportamiento de un grupo mediante un número
central, alrededor del cuál se mueven todas las demás observaciones. Las medidas
fundamentales son:
“Entre los estadígrafos más importantes de tendencia Central, que deben su nombre al hecho
de que sus valores tienden a ocupar posiciones centrales o intermedias entre los valores menos
y mayor del conjunto de datos a partir del cuña se calculan” 9
Un ejemplo Tenemos:
Si se tienen 5 adultos a los que se tomaron los latidos del corazón por minuto, cuyos
resultados fueron:
Una desventaja de utilizar la media aritmética es que está afectada por los valores extremos, y
los valores que se alejan mucho afectan el resultado, ya que estos valores extremos pueden
aumentar o disminuir el valor.
10 + 10 + 10 + 10.5 + 20
X = = 12.1
5
Al obtener el promedio del valor de este producto vemos que el valor 12.1 se aleja, del valor
real ya que la mayoría de valores están alrededor del 10 y por la existencia de este valor
mayor 20, la media se aleja. Cuando esto ocurre es preferible utilizar la Mediana.
En conclusión tenemos que utilizar el promedio aritmético cuando la serie de datos es
simétrica, de lo contrario si esta serie es asimétrica se corre el riesgo que los extremos alejen
los datos de la medida central que se busca.
Se aplica cuando hemos realizado una tabla de intervalos o clases, en este caso no se conoce
el valor real de cada observación, por lo tanto se utiliza como referencia el punto medio o
marca de clase de cada intervalo, es decir calculando un promedio con cada límite inferior y
superior de cada intervalo. Una vez que obtenemos la marca de clase se multiplican por las
frecuencias simples de cada intervalo. La suma total de estos valores se dividen para el
número total de frecuencias obteniendo el valor promedio.
La fórmula es:
En dónde:
f = Frecuencias simples absolutas.
fxmc
X = mc = Marca de Clase.
n n = Total de frecuencias.
Ejemplo:
TABLA No. 27
Peso en kilogramos
Peso en Kilos f mc f x mc
20 -24 4 22 88
25 - 29 8 27 216
30 - 34 9 32 288
35 - 39 10 37 370
40 - 44 7 42 294
45 - 49 6 47 282
50 - 54 6 52 312
TOTAL 50 1850
1850
X = = 37 Kilos.
50
“La media Aritmética es una de las medidas descriptivas más utilizadas, entre cuyas
propiedades más importantes sobresalen las siguientes:
La mediana se define como el valor que divide al grupo de datos en dos partes iguales,
quiere decir que a partir de ese valor esta el 50% de los valores y antes esta el otro 50 % de
los valores. El valor encontrado representa el comportamiento de los valores, esta
comprobado que mientras más simétricos son los datos u observaciones, más se parecen la
media y la mediana. Estas dos medidas tienen la misma aplicación, sin embargo se utiliza la
mediana cuando los datos son asimétricos, es decir cuando la serie de datos se encuentren
afectados por los valores extremos como se explicó anteriormente.
10 15 16 19 21
1 2 Posición 4 5
15 21 16
3 10 19
En este caso la mediana es 16, es decir que se puede analizar el comportamiento de estas
edades con este valor central, sin que los datos se vean afectados por los extremos.
8 11 13 15 17 25
La posición de la mediana en este caso es la semisuma de las posiciones y divido para dos:
3 4
POSICIONES
8 11 13 15 17 25
(13 + 15)/ 2 = 14
Me =
14.
Mediana en Datos Agrupados.
Cuando los datos se encuentran agrupados en intervalos, la mediana no se puede localizar con
precisión, pero si el intervalo comparte en partes iguales a las frecuencias que en cada uno se
encuentran, es posible realizar un cálculo que permita una aproximación a la mediana.
1. La mediana en este caso está ubicada en la posición n/2, es decir el total de observaciones
dividido para 2. En el caso anterior de tabla tenemos:
TABLA No. 27
Peso en Kilogramos
Peso en Kilos Frecuencia Frecuencia Acumulada
20 -24 4 4
25 - 29 8 12
30 - 34 9 21 25
35 - 39 10 31
40 - 44 7 38
45 - 49 6 44
50 - 54 6 50
TOTAL 50
35 (50/2 - 21) 5
Me = = 37
10
Podemos decir que el promedio y la mediana tiene la misma aplicación, solamente que la
mediana se utiliza cuando existen valores extremos ya que su fórmula toma en cuenta a todos
los valores, pero no permite que los valores extremos se alejen de su valor real.
El valor modal es el que más se repite, este valor puede o no existir, o puede haber varias o
una, si hay dos valores que se repiten en iguales cantidades, entonces los 2 valores son las
clases modales.
2 2 5 7 9 9 9 10 10 11 Mo = 9
3 5 8 10 12 16 No hay Moda.
2 3 4 4 4 5 5 7 7 7 8 Mo = 4 y 7
Para obtener el valor modal en tablas de intervalos o clases, debemos observar el intervalo
con mayor frecuencia, y de este el punto medio o marca de clase, al mismo número que se
puede considerar como la moda o valor modal.
Nota. Entre la Media, la Mediana y la Moda, la medida que más se utiliza es la media cuando
los datos son simétricos y no están afectados por valores extremos, de lo contrario es
preferible utilizar la mediana.
Estas medidas se utilizan ya que las medidas de tendencia central no son suficientes para
caracterizar y analizar un conjunto de datos, por ejemplo:
Si tenemos dos series de datos que a pesar de tener el mismo promedio, las dos varían en
forma diferente:
1 Serie: 42 44 46 48 50 Promedio X = 46
2 Serie: 6 26 46 66 86 Promedio X = 46
Por lo tanto es necesario tener una medida que indique cuanto se aleja un valor en relación al
valor central o como se distribuyen esos valores en relación a ese valor central, en este caso
el promedio o la mediana. En el segundo grupo de datos hay más dispersión que el primer
grupo, pues los datos están más alejados de su media aritmética.
“Las medidas de dispersión nos van a dar la idea sobre la representatividad de las medidas
centrales, a mayor dispersión menor representatividad” 10
▪ La Desviación Estándar..
▪ Varianza.
▪ Coeficiente de Variación.
1. Averiguar el (X) Promedio Aritmético, por medio del procedimiento indicado, tomando
en cuenta si los datos son agrupados o sin agrupar.
2. Buscar la diferencia entre cada observación y el promedio aritmético. Es necesario poner
el signo + o - para distinguir entre quienes están por debajo o por encima del promedio, la
suma de esta columna es igual a 0.
3. Para evitar que la suma de esta columna sea 0, se eleva al cuadrado cada desviación y
estos cuadrados se totalizan.
4. Este total se divide por el número de observaciones. El resultado quiere decir que en
promedio este valor cuadrado difiere en unidades cuadradas del promedio general del
grupo.
5. Como a cada desviación la habíamos elevado al cuadrado y no tiene ningún significado
hablar en unidades cuadradas, con el fin de volver a las unidades primitivas, se extraerá la
raíz cuadrada, y este valor es la desviación estándar.
S = 2 ( X − X ) (n − 1)
2
Ejemplo:
X = (1+2+3+7+11+12+13) / 7 = 7
X = 7 5 días
Quiere decir que en promedio cada paciente difiere en 5 días del promedio general del grupo
en este caso 7 días.
(mc )
. f − (mc . f ) n
2 2
S=
n −1
TABLA No. 29
Estatura de Estudiantes
Aplicando la formula:
675025 − (4185 )
2
s= 26
26 − 1
S = 7,5
Varianza. (S2)
La varianza se expresa en unidades cuadradas de los datos originales, por o tanto se puede
utilizar la misma fórmula de la desviación estándar elevada al cuadrado.
(mc . f ) − (mc. f )
2 2
S2 = n
n −1
675025 − (4185 )
2
S2 = 26
26 − 1
S2 = 56
Coeficiente de Variación.
Es más aunque se use la misma unidad de medición, las dos medidas pueden ser bastante
diferentes. Si se compara la desviación estándar de los pesos de los jóvenes de primer año de
secundaria, es posible que se encuentre que la desviación estándar de estos últimos es
numéricamente mayor que la de los primeros, porque los propios pesos son mayores, no
porque la dispersión sea mayor. Lo que se necesita en situaciones como esta es una medida de
variación relativa, en lugar de una de variación absoluta. Esa medida se encuentra en el
coeficiente de variación, el cuál expresa a la desviación estándar como un porciento de la
media. La fórmula esta dada por:
S
C.V . = .100
X
Supóngase que dos grupos de personas del sexo masculino proporcionan los resultados
siguientes:
Grupo 1 Grupo2
Edad 25 años 11 años
Peso Medio 72,5 Kg 40 Kg
Desviación Estándar 5 Kg 5 Kg
Una comparación de las desviaciones estándar podría conducir a la conclusión de que los dos
grupos poseen igual variabilidad. Sin embargo, si se calculan los coeficientes de variación,
para los de veinticinco años de edad se tiene:
1. Con los datos del último censo de población y de vivienda calcular y analizar:
▪ 10 Índices
▪ 10 razones
▪ 10 Proporciones
2. Obtenga los datos que le permitan obtener las diferentes tipos de tasas, en el Ecuador y la
provincia de Chimborazo.
3. Se quieren compara la variación de los datos de dos variables peso y talla que se estudiaron
en el mismo grupo de individuos. Diga en que variable existe mayor variación.
Edad Talla
Peso Medio 52.1 Kg 152.3 cm
Desviación Estándar 3.5 Kg 3.5 cm
4. En un grupo homogéneos de 1000 pacientes se miden factores biológicos que tienen como
media 10 mm y en el otro la media es 1000 leucocitos y las varianzas de esos factores son: 4
mm2 y 4000 leucocotos2 ¿Cuál de las dos distribuciones estaría más concentrada?
5. Se tienen dos grupos de pacientes a los cuales se les ha medido su capacidad pulmonar vital
en litros de aire.
TABLA No. 30
DISTRIBUCIÓN DE LA MUESTRA, SEGÚN EDAD Y SEXO. ESPOCH. 2002
SEXO
MASCULINO FEMENINO TOTAL*
EDAD
No. % No. % No. %
17 – 21 89 46.84 101 53.16 190 52.3
22 – 26 93 60.39 61 39.61 154 44.4
CAPITULO VIII
CALCULO DE PROBABILIDADES
OBJETIVO
CONTENIDOS
▪ Probabilidad
• Utilización de la desviación estándar (Distribución Normal)
• Cálculo de las áreas por debajo de la curva normal
• Calculo de la distribución normal o típica
Probabilidad
Se ha dicho que la desviación estándar indica en que forma se distribuyen las desviaciones
alrededor del valor central en este caso el promedio aritmético. Su utilidad se debe a que la
desviación estándar junto con el promedio ayudan a determinar los límites dentro de los
cuáles se encuentran las observaciones que se estudian. La interpretación se basa
principalmente en las propiedades de la llamada CURVA NORMAL O CAMPANA DE
GAUSS. Esta es una curva en forma de campana, perfectamente simétrica, de tal manera que
una perpendicular que pase por el vértice lo divide en 2 mitades exactamente iguales, la
misma que representa el promedio aritmético.
Así cuando trabajamos con variables cuantitativas, como regla general decimos que los
resultados dados por el azar siguen una curva normal. Se ha visto además que todas las
constantes fisiológicas de los individuos (peso, estatura, presión arterial, etc) y en general
características de la población, se distribuyen formando una curva normal.
Distribución Normal
95
99
7. Las diferencias que se encuentran en cada área se conoce con el nombre de margen de
error aceptable o zona de rechazo de las hipótesis.
Para el cálculo de las áreas por debajo de la curva norma, utilizamos la tabla de valores z o de
la distribución normal (Anexo No. 1), en la misma se encuentran determinados todas las
áreas posibles por debajo de la curva norma. Con esta tabla podemos determinar la
probabilidad de que una variable tome diferentes valores .
Por ejemplo:
Dada la distribución normal , encontrar los siguientes valores por debajo de la curva normal:
0 1.43
2. La probabilidad de que una z elegida al azar tenga un valor menor entre z = 2.87
2.87
X−X
Z=
S
Ejemplo. Un fisioterapeuta nota que las calificaciones que se obtienen de cierta prueba
habitual manual, están distribuidas de forma normal, con una media de 10 y una desviación
estándar de 2.5, si un individuo elegido al azar realiza la prueba ¿Cuál es la probabilidad de
que obtenga una calificación de mas de 15?
X = > 15
X = 10
S = 2.5
15 − 10
Z= Z = 2, esto quiere decir valores de z > 2.
2.5
Observando este valor en la tabla de valores Z (Anexo No. 2) equivale a una probabilidad de
0.4772.
0.50 0.5 – 0.4772 = 0,0228.
Z = >2
En este sentido se puede obtener cualquier valor por debajo de la curva normal
2. Supóngase que las edades en las que se adquiere cierta enfermedad están distribuidas en
forma aproximadamente normal con una media de 11.5 años y una desviación estándar de 3.
un niño acaba de contraer esta enfermedad ¿Cuál es la probabilidad de que el niño tenga entre
8.5 y 14.4 años?
3. La estatura de un ecuatoriano adulto es una variable que se distribuye en forma normal con
una media de 1.70 centímetros y varianza 0.09, que probabilidad hay de que un ecuatoriano
elegido al azar mida:
a. más de 1.73
b. entre 1.70 y 1.79
c. menos de 1.64
d. menos de 1.10
CONTENIDOS
• Parámetros
• Limites de Confianza para el promedio y porcentaje
• Valores Críticos de z (mayores de 30 datos) y t (menores a 30 datos)
parte de esa población. Desde un punto de vista práctico una población es generalmente un
grupo tan grande que impide hacer observaciones directas. En su lugar, las observaciones se
hacen en un segmento pequeño de la población. Este pequeño segmento se denomina muestra
y las conclusiones o estimaciones respecto a la población se derivan de las observaciones de
la muestra” 5.
Para entender la primer área que trataremos en este capítulo pongamos un ejemplo:
Estimación de Parámetros
Parámetros
Son todas aquellas medidas que describen numéricamente la característica de una población,
se denominan también valores verdaderos, o límites de confianza.
Supongamos que se realiza una investigación en una muestra de estudiantes para determinar
la estatura promedio de 20.000 estudiantes que representan determinado universo, al realizar
el estudio se toma la estatura de 400 estudiantes que representan la muestra de estudio, los
resultados que se obtengan de estos datos únicamente sirven para caracterizar a la muestra
de 400 estudiantes, al obtener los límites de confianza se puede utilizar este rango para inferir
los resultados al universo de estudio..
S% = p*q/ n
En donde:
q=1 -p
Luego de hallar el error estándar es necesario encontrar los valores críticos o niveles de
significancia que se utilizarán para determinar los límites de confianza, los valores de
confiabilidad más utilizados son los que se obtienen con un nivel del 95% y 99% de
confiabilidad , debiendo para esto obtener los valores críticos que ya están determinados , en
este sentido existen tablas de resumen de los valores críticos, sin embargo es importante
determinarlos de la siguiente forma tomando en cuanta estas situaciones:
Cuando la muestra es grande, es decir si n es mayor que 30 datos, se utilizan los valores
críticos de la tabla z, y entonces el estadígrafo para los límites de confianza quedan
determinados de la siguiente forma:
X Z ( / 2)Sx
% Z ( / 2)S %
Y, cuando la muestra es pequeña, es decir n es menor a 30 datos, los valores críticos que se
utilizan son los de la tabla t y entonces el estadígrafo para los límites de confianza quedan
determinados de la siguiente forma:
X t ( / 2)Sx
% t ( / 2)S %
Valores Críticos de t (n 30)
gl = grados de libertad (n – 1)
Grados de Libertad
“La distribución t de student esta relacionada con el concepto de grados de libertad. Para
expresarlo en forma significada, los grados de libertad asociados a una distribución están
determinados por el número de variables o datos que pueden estar contenidas en una
distribución, es decir que esta asociado al tamaño de la muestra ; es decir mientras más grande
sea la muestra, más grados de libertad habrá” 5
Datos
n = 120
75 vacunados ( 62%)
p = 0,62
q = 1 – 0,62
q = 0,38
53 % y 71%
EJERCICIO INTEGRADOR IX
1. En una muestra de 25 niños de 10 años tuvieron un peso medio y una desviación estándar
de 36,5 Kg y 5 Kg respectivamente. ¿Encontrar los intervalos de confianza al 90, 95 y 99% de
la población?
"El hombre que hace que las cosas difíciles parezcan fáciles, es el educador".
Emerson, Ralph Waldo
CAPITULO X
PRUEBAS DE HIPÓTESIS
OBJETIVOS
• Calcular e interpretar la prueba de hipótesis
CONTENIDOS
• Hipótesis
• Prueba z
• Comparación de una media de la muestra con una media de la población
“Otro tipo de inferencia estadística son las pruebas de hipótesis. El propósito de las pruebas
de hipótesis es ayudar a tomar una decisión en torno a una población, examinando una
muestra de ella. Una hipótesis se define como una afirmación acerca de una o más
poblaciones. 2”
Una Hipótesis es una proposición la cuál requiere una toma de decisión para aceptar o
rechazar la proporción sobre un parámetro (valor numérico de una población). La proposición
se llama hipótesis y la toma de decisión se conoce con el nombre de prueba de hipótesis.
Hipótesis Nula (Ho). Platea la igualdad. Las dos técnicas no son diferentes. Es decir que el
puntaje del promedio de la técnica A es igual al puntaje del promedio de la técnica B.
En el ejemplo anterior la Ho: platearía que la técnica de control del estrés A es igual a la
técnica de control del estrés B. No hay diferencias estadísticamente significativas
O simplemente: Ho: A = B
Hipótesis Alternativa. (H1) . Plantea la diferencia y establece que las dos técnicas son
diferentes. Es decir que el puntaje del promedio de la técnica A es diferente al puntaje del
promedio de la técnica B.
O simplemente:
Al aprobar cualquier hipótesis estadística hay cuatro situaciones que determinan si la decisión
final es correcta o incorrecta. Lo podemos resumir en la siguiente tabla:
1. Plantear las hipótesis y decidir si es de dos colas o de una cola tomando en cuanta para
esto a la H1.
2. Selección de un nivel de significancia, los más utilizados al 95 o 99% de confiabilidad
es decir con un error de 0,05 o 0,01, respectivamente.
3. Se decide que distribución es la apropiada si t o z, y se escoge el estadígrafo de
acuerdo a la siguiente tabla:
4. Aplicación del estadístico y comparación de los valores calculados con los valores
críticos observados en la tabla de valores z o t respectivamente. También se puede
realizar una gráfica y observar las zonas de rechazo o aceptación y en base a esto
tomar una decisión de que hipótesis es la que se va a aceptar. Y aplico la siguiente
regla de decisión:
Si los valores del estadígrafo calculado (Zc o tc) son mayores al valor del estadígrafo de la
tabla (Zt o Tt) Entonces rechazo la Ho y acepto la hipótesis alternativa.
Estadígrafo:
Promedios Proporciones
P+q=1
X−X X − n* p q = 1 -p
Zc = Zc =
S n* p*q
Veamos un ejemplo:
Un profesional de la salud, sostiene que su programa de control del parto sin dolor tiene un
80% de efectividad, en una muestra de 300 mujeres parturientas, el programa controló el
dolora 220 personas ¿Determinar si la afirmación del educador es cierta al 95% de
confiabilidad?
Datos:
n = 300
p = 0,80 (80%)
q=1–p
q = 0,20
Zc = -2,88
Con un 95% de confiabilidad se puede decir que la afirmación del Educador para la Salud no
es verdadera.
239. 3 y 240.78
Con un 95% de confiabilidad podemos decir los verdaderos valores se encuentran entre 239.3
y 240.78
Ho: = X
Ho. La media de pulsaciones en la muestra, es igual al promedio considerado normal en la
población.
H1: X
H1: > X
H1: < X
En este ejemplo:
H1: La media de pulsaciones por minuto en la muestra son mayores a la media considerada
normal en la población
Para comprobar la hipótesis debemos hacerlo utilizando la prueba de valores Z para compara
la media de la muestra con la media de la población:
X − S
Zc = SX =
SX n
Datos:
n= 16
= 70 puls/min
X = 74 puls/min
S= 9
S X −
SX = Zc =
n SX
9 74 − 70
SX = = 2,25 Zc = = 1,77
16 2.25
X = 74 puls/min
9
X t ( / 2)Sx SX = = 2,25
16
74 2,131* 2,25 El valor de t / 2 al 95 % de confiabilidad gl = 15; 2,131
Con un 95% de confiabilidad los valores verdaderos del promedio se encuentran entre 69,5 y
78,5
EJERCICIO INTEGRADO IX
CAPITULO XI
PRUEBAS PARAMÉTRICAS
OBEJTIVOS
• Calcular e interpretar pruebas estadísticas para muestras pequeñas
• Calcular e interpretar pruebas de hipótesis para comparar dos muestras.
CONTENIDOS
Probablemente el primer análisis estadístico que uno realiza es la comparación de dos medias.
Esta situación se plantea cuando se están comparando dos grupos (normalmente dos
Las hipótesis o asunciones para poder aplicar la t de Student son que en cada grupo la
variable estudiada siga una distribución Normal y que la dispersión en ambos grupos
sea homogénea. Si no se verifica que se cumplen estas asunciones los resultados de la prueba
t de Student no tienen ninguna validez.
Por otra parte no es obligatorio que los tamaños de los grupos sean iguales, ni tampoco es
necesario conocer la dispersión de los dos grupos.
RESUMEN DE FÓRMULAS
Estadístico para probar hipótesis acerca de la media de una población, con muestras pequeñas.
t calculada
t tabulada:
Ho = 1 = 2
Regla de decisión:
Estadístico para probar hipótesis acerca de las medias de dos poblaciones, con muestras
pequeñas y con varianzas desconocidas:
t tabulada:
(n1 + n2 – 2 grados de libertad) y observamos los valores críticos en la tabla t (Anexo No. 3)
Ho = 1 = 2
Regla de decisión:
Ejemplo:
Una prueba fue diseñada para estimar la efectividad de un programa dirigido a preparar a
futuras madres en el cuidado de sus bebes, se encontró que en el grupo 1 (atendidas) habían
asistido a las sesiones sobre cuidados prenatales impartidas en el departamento de Educación
para la Salud. El grupo 2 (no atendidas), no asistió a las mencionadas sesiones. Los datos son
los siguientes:
¿Proporcionan estos datos evidencias suficientes que indiquen que quienes fueron atendidas
en promedio obtuvieron mayores calificaciones que quienes no fueron atendidas?
sp2 = 1.302
4.75 − 3.0
t= tc = 5.66
1 1
1.30 +
32 40
En este modelo estadístico, el agregado de Welch consiste en una ecuación para calcular los
grados de libertad, de manera que disminuye el error por la no homogeneidad de las
varianzas. Por otra parte, existe una modificación de la ecuación original de la
correspondiente t de Student, que es la siguiente:
Donde:
t = estadístico equivalente a t de Student.
1 = media aritmética del grupo 1.
2 = media aritmética del grupo 2.
σ21 = varianza del grupo 1.
σ 22 = varianza del grupo 2.
n1 = tamaño de la muestra del grupo 1.
n2 = tamaño de la muestra del grupo 2.
Donde:
σ 21 = varianza del grupo 1.
σ 22 = varianza del grupo 2.
n1 = tamaño de la muestra del grupo 1.
n2 = tamaño de la muestra del grupo 2.
Pasos:
Ejemplo:
Un investigador realiza un estudio para mostrar que los niveles de ansiedad de las personas
obsesas que asisten de manera constante a tratamiento para control de peso corporal es mayor
que el de los obesos que no asisten a tratamiento.
Planteamiento de Hipótesis.
Nivel de significación.
Para todo valor de probabilidad igual o menor que 0.05, se acepta H1 se rechaza Ho.
Zona de rechazo.
Para todo valor de probabilidad mayor que 0.05, se acepta Ho y se rechaza H1.
Aplicamos la ecuación t.
El valor t calculado (5.93), con 21 grados de libertad, se comparan con la tabla, y se observa
que al valor crítico (tt) de 2.080 corresponde a una probabilidad de 0.05. De esta manera, el
estadístico t 5.93 tiene una probabilidad menor que 0.05.
Decisión.
Como la probabilidad no se ubica en la zona de rechazo, se rechaza Ho y se acepta H1.
Interpretación.
Las personas obesas que asisten a un tratamiento constante para bajar de peso, tienen un nivel
de ansiedad mayor que las personas obesas que no asisten a tratamiento.
En los datos pareados para cada una de las observaciones de la primera muestra hay una
observación en la segunda muestra para el mismo sujeto.
Ejemplo: estudios donde se analiza la misma medida en el mismo individuo en dos instantes
diferentes.
Los datos pareados se utilizan para intentar controlar fuentes de variación: si al mismo
individuo se le administran dos tratamientos distintos, entonces cierta cantidad de la
variabilidad biológica que existe entre individuos es eliminada, y por lo tanto se utilizan para
realizar comparaciones más precisas.
exige dependencia entre ambas, en las que hay dos momentos uno antes y otro después. Con
ello se da a entender que en el primer período, las observaciones servirán de control o testigo,
para conocer los cambios que se susciten después de aplicar una variable experimental.
Con la prueba t se comparan las medias y las desviaciones estándar de grupo de datos y se
determina si entre esos parámetros las diferencias son estadísticamente significativas o si sólo
son diferencias aleatorias.
Pasos:
1. Ordenar los datos en función de los momentos antes y después, y obtener las
diferencias entre ambos.
2. Calcular la media aritmética de las diferencias ( ).
3. Calcular la desviación estándar de las diferencias (σd).
4. Calcular el valor de t por medio de la ecuación.
5. Calcular los grados de libertad (gl) gl = N - 1.
6. Comparar el valor de t calculado con respecto a grados de libertad en la tabla
respectiva, a fin de obtener la probabilidad.
7. Decidir si se acepta o rechaza la hipótesis.
Ejemplo:
a. Las mediciones son cuantitativas con variables continuas y una escala de intervalo.
b. Número de observaciones n = 10.
c. Una Variable Dependiente numérica: puntajes de 10 jóvenes no asertivos que asisten a
la Clínica Universitaria
d. Una Variable Independiente con 2 niveles: Antes y después del entrenamiento.
e. Dos muestras relacionadas: los mismos sujetos evaluados en dos momentos diferentes.
Planteamiento de la hipótesis.
Nivel de significación.
Para todo valor de probabilidad igual o menor que 0.05, se acepta H1 y se rechaza Ho. = 0.05
Zona de rechazo.
Para todo valor de probabilidad mayor que 0.05, se acepta Ho y se rechaza H1.
Confiabilidad = 0.05
gl = 9
tc = 5.79
tt = 2.262
El valor calculado o obtenido de t (5.79) se compara con los valores críticos de la distribución
t (tabla), y se observa que a una probabilidad de 0.05 le corresponde 2.262 de t. Por tanto, el
calculo tiene un probabilidad menor que 0.05.
Decisión.
Como tc es de 5.79, con 9 grados de libertad, tiene un valor de probabilidad menor que 0.05,
entonces se acepta H1 y se rechaza Ho.
tc > tt se rechaza Ho. Hay una reducción en los niveles de ansiedad en 10 jóvenes no asertivos
que asisten a la Centro Universitario después de un entrenamiento.
P(0.05) < = 0.05 se rechaza Ho.
Interpretación.
El nivel de ansiedad de jóvenes no asertivos disminuye después de participar en un
entrenamiento en habilidades sociales, existiendo diferencias significativas entre antes y
después.
EJERCICIO INTEGRADOR XI
4. En una universidad, la encargada de bienestar social piensa que la responsabilidad por los
estudios de los estudiantes de primer año hace que disminuyan la actividad física. Como esta
está muy correlacionada con un correcto peso corporal, tomó una muestra de los pesos de 12
estudiantes, al comenzar el primer año y al finalizar. Los pesos fueron (en kilogramos):
Antes 85 70 54 56 72 103 88 77 76 69 45 91
Después 87 73 51 56 73 125 87 85 75 60 46 107
Dentro de un nivel de confianza del 99%, ¿puede afirmarse que ha aumentado el peso
corporal de los estudiantes durante el primer año?
“La medida social del hombre está en la duración de sus obras: la inmortalidad es el
privilegio de quienes las hacen sobrevivientes a los siglos, y por ellas se mide”
José Ingenieros
CAPITULO XII
PRUEBAS NO PARAMETRICAS PRUEBA “JI”
CUADRADO (X2)
OBJETIVO
CONTENIDOS
En la investigación biomédica nos encontramos con frecuencia con datos o variables de tipo
cualitativo, mediante las cuales un grupo de individuos se clasifican en dos o más categorías
mutuamente excluyentes. Las proporciones son una forma habitual de expresar frecuencias
cuando la variable objeto de estudio tiene dos posibles respuestas, como presentar o no un
evento de interés (enfermedad, muerte, curación, etc.). Cuando lo que se pretende es comparar
dos o más grupos de sujetos con respecto a una variable categórica, los resultados se suelen
presentar a modo de tablas de doble entrada que reciben el nombre de tablas de contingencia.
Así, la situación más simple de comparación entre dos variables cualitativas es aquella en la
que ambas tienen sólo dos posibles opciones de respuesta (es decir, variables dicotómicas). En
esta situación la tabla de contingencia se reduce a una tabla dos por dos como la que se muestra
en la Tabla siguiente:
Característica B Característica A
Presente Ausente Total
Presente a b a+b
Ausente c d c+d
Total a+c b+d n
Supongamos que se quiere estudiar la posible asociación entre el hecho de que una gestante
fume durante el embarazo y que el niño presente bajo peso al nacer. Por lo tanto, se trata de
ver si la probabilidad de tener bajo peso es diferente en gestantes que fumen o en gestantes
que no fumen durante la gestación. Para responder a esta pregunta se realiza un estudio de
seguimiento sobre una cohorte de 2000 gestantes, a las que se interroga sobre su hábito
tabáquico durante la gestación y se determina además el peso del recién nacido. Los
resultados de este estudio se muestran en la siguiente tabla
Ante una tabla de contingencia como la anterior pueden planteársenos distintas cuestiones.
En primer lugar, se querrá determinar si existe una relación estadísticamente significativa
entre las variables estudiadas. En segundo lugar, nos interesará cuantificar dicha relación y
estudiar su relevancia clínica. Esta última cuestión podrá resolverse mediante las
denominadas medidas de asociación o de efecto (riesgo relativo (RR), odds ratio (OR),
reducción absoluta del riesgo (RAR).
Por otro lado, para responder a la primera pregunta, la metodología de análisis de las tablas
de contingencia dependerá de varios aspectos como son: el número de categorías de las
variables a comparar, del hecho de que las categorías estén ordenadas o no, del número de
grupos independientes de sujetos que se estén considerando o de la pregunta a la que se desea
responder
Para realizar este contraste se disponen los datos en una tabla de frecuencias. Para cada valor
o intervalo de valores se indica la frecuencia absoluta observada o empírica (Oi). A
continuación, y suponiendo que la hipótesis nula es cierta, se calculan para cada valor o
intervalo de valores la frecuencia absoluta que cabría esperar o frecuencia esperada (Ei=n·pi ,
donde n es el tamaño de la muestra y pi la probabilidad del i-ésimo valor o intervalo de
valores según la hipótesis nula). El estadístico de prueba se basa en las diferencias entre la Oi
y Ei y se define como:
E = Valores Esperados
Este estadístico tiene una distribución Chi-cuadrado con k-1 grados de libertad si n es
suficientemente grande, es decir, si todas las frecuencias esperadas son mayores que 5. En la
práctica se tolera un máximo del 20% de frecuencias inferiores a 5.
Si existe concordancia perfecta entre las frecuencias observadas y las esperadas el estadístico
tomará un valor igual a 0; por el contrario, si existe una gran discrepancias entre estas
frecuencias el estadístico tomará un valor grande y, en consecuencia, se rechazará la hipótesis
nula. Así pues, la región crítica estará situada en el extremo superior de la distribución Chi-
cuadrado con k-1 grados de libertad.
Criterios de decisión :
gl= (r-1)(k-1). Donde r es el número de filas y k el de columnas. (Ver ANEXO No.4. valores
críticos de chi cuadrado)
Criterio de decisión:
Ejemplo:
Se realizó una prueba para probar la efectividad de un alimento fortificado con Fe, los datos
se presentan en la siguiente tabla de contingencia:
X 2
=
(15 − 9.58)2 + (8 − 13.41) 2 + (3.5 − 40.41) 2 + (62 − 56.58) 2
c
9.58 13.41 40.41 56.58
X2 c = 6.43
Regla de decisión:
Interpretación:
Con un 95% de confiabilidad se puede afirmar que el alimento fortificado con Fe fue efectivo
para mejorar el nivel de Hb en sangre de los menores de cinco años.
1. Se desea conocer la posible relación entre obesidad e hipertensión, para ello se estudiaron
200 individuos de una comunidad y se clasificaron de acuerdo a la presencia o no de estas
alteraciones, los resultados son: (6 Puntos)
▪ Obesidad si Hipertensión si 32
▪ Obesidad si Hipertensión no 18
▪ Obesidad no Hipertensión si 28
▪ Obesidad no Hipertensión no 122
a) Esquematice el tipo de estudio, e identifique las variables de estudio.
b) Realice una tabla de dos por dos para los datos y mida la asociación de variables,
plantee hipótesis y diga las conclusiones.
“Aunque tuviera la ciencia de todas las cosas y plenitud de fe, de nada sirve si no tengo
caridad y la practico”
San Pablo
CAPITULO XIII
CORRELACIÓN Y REGRESIÓN LINEAL SIMPLE
OBJETIVOS
• Determinar las medidas de análisis en dependencia de la asociación de variables
cuantitativas
CONTENIDOS
• Correlación Simple
• Regresión Simple
Correlación
modo asociada con la variación de otra, entonces se puede decir que las dos variables están
correlacionadas”5
¿Qué tan estrechamente relacionadas se encuentran las variables? y ¿es real la relación, o
podría haber ocurrido por un accidente debido a la casualidad? Para responder a la primera
pregunta, necesitamos una medida definida de la estrechez de la relación entre dos variables.
Esta medida recibe el nombre de coeficiente de correlación, representado por la letra r.
Después de definir algunos otros términos estaremos listos para mostrar cómo se calcula este
valor, y cómo se interpreta, podemos obtener la respuesta a la segunda si consultamos las
tablas de probabilidad apropiadas.
Regresión
El término correlación puede reconocerse también como “relación” entre dos o mas variables;
entonces empezaremos por clasificar a la correlación como:
Simple: cuando se la estima (r) entre una variable independiente Xi y una dependiente Yi
Múltiple: cuado (R) se la estima entre algunas variables independientes Xi (X1, X2, …,Xn) y
una dependiente Yi.
EJEMPLO:
“Calcular el grado de asociación o relación entre las variables EDAD y PESO de estudiantes
de la ESPOCH, como se muestra en el siguiente cuadro de resultados” 11:
FACTORES DE CORRECCION:
Sr = 0.20098561
tCAL = 0.84206113 / 0.20098561
tCAL = 4.18965872
tCAL = 4.1897> t.01 con 23 g.l.=2.807 ; por tanto hay asociación significativa, más allá del
99
% de certeza y menos del 1 % de error
Análisis de regresión
COEFICIENTE DE REGRESION (byx)
Mide la cantidad de cambio de Y por cada unidad de cambio de X; en nuestro ejemplo:
PLANTEAMIENTO DE HIPOTESIS:
Ecuación de regresión:
Conclusión:
Por cuanto fisher calculado = 55.79 > fisher .01 = 7.881, se deduce que la regresión es
significativa por tanto rechazo Ho y acepto H1 con el 99 % de certeza y 1 % de error. los
cambios que se producen en el peso de los estudiantes están significativamente influenciados
por la edad.
x y
24 1,62
25 1,68
26 1,48
27 1,50
28 1,60
29 1,70
30 1,73
31 1,50
BIBLIOGRAFIA:
1. CITAS BIBLIOGRÁFICAS
2. BIBLIOGRAFÍA CONSULTADA