Análisis de Datos Bivariados en Estadística
Análisis de Datos Bivariados en Estadística
Sesión 05
Anteriormente se estudio datos provenientes de una sola variable, sin embargo con frecuencia es necesario
analizar la relación entre dos variables. Supongamos que se toma una muestra de tamaño “n” de una
población que se está investigando.
Sean X e Y las variables a estudiar, tal que los datos obtenidos son:
Para el caso de dos variables cualitativas con dos modalidades o categorías, la tabla sería:
Y
X
Categoría 1 Categoría 2 Total
Categoría 1 Celda f11 Celda f12 Total marginal f1.
Categoría 2 Celda f21 Celda f22 Total marginal f2.
Total de
Total Total
Total individuos
marginal f.1 marginal f.2
n
Yi
Xi
Y1 Y2 Total
X1 Celda f11 Celda f12 Total marginal f1.
X2 Celda f21 Celda f22 Total marginal f2.
X3 Celda f31 Celda f32 Total marginal f3.
Total de
Total Total
Total individuos
marginal f.1 marginal f.2
n
También se pueden construir tablas de contingencia para una variable cuantitativa y una cualitativa, la tabla
sería:
Yi
Xi
Categoría 1 Categoría 2 Total
X1 Celda f11 Celda f12 Total marginal f1.
X2 Celda f21 Celda f22 Total marginal f2.
X3 Celda f31 Celda f32 Total marginal f3.
Total de
Total Total 86
Total individuos
marginal f.1 marginal f.2
n
Cuando sólo interesa conocer la frecuencia de ocurrencia de cada una de las variables por separado se
habla de Frecuencia Marginal de la variable. Cuando el interés es conocer la frecuencia combinada de las
dos variables, nos referimos a la Frecuencia Conjunta.
Ejemplo 1:
HABITOS DE FUMAR
SEXO TOTAL
SI NO
VARON DISTRIBUCION
DISTRIBUCION CONJUNTA
MUJER MARGINAL
TAMAÑO DE
TOTAL DISTRIBUCION MARGINAL
MUESTRA
HABITOS DE FUMAR
SEXO TOTAL
SI NO
VARON 800 1200 2000
MUJER 1000 2000 3000
TOTAL 1800 3200 5000
Categoría Categoría
X/Y Total
variable Y variable Y
Categoría Marginal
h11=f11/ n h12=f12/n
variable X h1.=f1./n
Categoría Marginal
h21=f21/n h22=f22/n
variable X h2.=f2./n
Marginal Marginal
Total (n/n)=1
h.1=f.1/n h.2=f.2/n
HABITOS DE FUMAR
SEXO TOTAL
SI NO
VARON 0,16 0,24 0,40 87
MUJER 0,20 0,40 0,60
TOTAL 0,36 0,64 1,00
Categoría Categoría
X/Y Total
variable Y variable Y
Categoría Marginal
p11=h11*100% p12=h12*100%
variable X p1.=h1.*100%
Categoría Marginal
p21=h21*100% p22=h22*100%
variable X p2.=h2.*100%
Marginal Marginal
Total 100%
p.1=h.1*100% p.2=h.2*100%
HABITOS DE FUMAR
SEXO TOTAL
SI NO
VARON 16,0% 24,0% 40,0%
MUJER 20,0% 40,0% 60,0%
TOTAL 36,0% 64,0% 100,0%
Ejemplo 2:
Cuando se “pregunta” por la frecuencia absoluta, relativa y/o porcentual de una de las variables, digamos
X, restringida a los elementos observados de una clase dada de la otra (Y); esto es, estudiar el
comportamiento de una variable dado un valor fijo de la otra.
Y
X Categoría Categoría
variable Y variable Y
Categoría 1 f11 / f.1 f12/f.2
89
Categoría 2 f21/f.1 f22/f.2
Total 1 1
Continuando el ejemplo anterior; contamos con la tabla de contingencia de frecuencias absolutas conjunta
y marginal.
Se dice que la variable “Y” se distribuye independientemente de la variable “X” si para todas las
. .ೕ
frecuencias conjuntas fij se cumple: ݂ =
Consumo anual Localización Geográfica : regiones Se observa que los valores f୧୨
Total
por persona Costa Sierra Selva
Más de 10 cajas 29,4 32,7 35,9 98 de la primera tabla son
de 5 a 10 cajas 34,2 38,0 41,8 114 diferentes a los
Menos de 5 cajas 26,4 29,3 32,3 88
݂ de la segunda tabla; por lo
Total 90 100 110 300
tanto, la variable consumo anual por persona y la variable localización geográfica son dependientes.
90
. .ೕ
Nota: si al menos uno de las f୧୨es diferente a , las variables no son independientes.
EJERCICIOS RESUELTOS Nº 5.
1. El interés de una institución educativa es conocer las perspectivas de estudios según su género, para
esto se tomaron 65 jóvenes de 5to de educación secundaria del Colegio Miguel De Cervantes Saavedra
entre 15 y 16 años de edad y se les clasificó según perspectiva (universitaria, no universitaria) y al área
que destaca obteniéndose los siguientes datos:
Tabla Nº 1: Tabla de contingencia de jóvenes entre 15 y 16 años de edad según área en que destaca y
perspectivas de estudio, Colegio Miguel de Cervantes Saavedra, año 2010.
Área en que Perspectivas de Estudio
Total
destaca No universitario Universitario
Arte 8 5 13
C.T.A. 4 2 6
CC.SS. 2 6 8
Comunicación 1 10 11
Matemática 2 7 9
Técnica 4 14 18
Total 21 44 65
Fuente: Oficina de OBE Colegio Miguel De Cervantes Saavedra
Los jóvenes con perspectivas de estudios universitarios, en mayor porcentaje se relaciona con los
alumnos que destacan en el área Técnica con un 31.82%. Por otro el 38.10% representa el mayor
porcentaje de alumnos que no tienen perspectivas universitario siendo el área que destaca Arte. En
conclusión los alumnos con mayores perspectivas universitarias destacan en Técnica, mientras que los
que no tienen perspectivas universitarias destacan en el área de Arte.
2. Los siguientes datos corresponden a la información obtenida de los alumnos del cuarto de primaria de
la sección C del IE 2080 del Distrito de Rímac. Los datos corresponde a las variables: Genero y Actividad
Basica_Percibe, expresa y controla su respiración elevando y bajando al abdomen con dificultad. Se
pide elaborar la distribución conjunta de los siguientes datos.
Tabla Nº 3: Información obtenida de los alumnos del cuarto de primaria la sección B según género y
Actividad Básica; IE 2080 del Distrito del Rímac, año 2010.
Actividad Básica: Actividad Básica:
Percibe su respiración Percibe su respiración
Genero Genero
inhalando aire por la inhalando aire por la
(*) (*)
nariz y expeliendo por nariz y expeliendo por
la boca (**) la boca (**)
2 0 2 0
1 0 2 0
1 0 1 0
2 0 1 0
1 1 2 0
1 0 1 0
2 0 1 0
2 1 1 0
1 0 2 0
1 1 1 0
1 0 1 0
1 0
(*): Donde 1 corresponde a masculino, y 2 a femenino.
(**): Donde 0 corresponde a no y 1 a sí.
Respuesta: La tabla de distribución conjunta correspondiente es:
Percibe
GENERO Total
Si No
Masculino 2 13 15
Femenino 1 7 8 92
Total 3 20 23
. .ೕ
Vamos a determinar si las variables son independientes; hallamos cada uno de los valores de
Percibe
GENERO Total
Si No
Masculino 2.0 13.0 15
Femenino 1.0 7.0 8
Total 3 20 23
Vemos que las frecuencias conjuntas de la tabla inicial son iguales a los resultados obtenidos en la segunda
tabla; por lo tanto afirmamos que las variables género y actividad básica del niño son independientes.
EJERCICIOS PROPUESTOS N° 5.
ÁREA: INGENIERÍA
2. La Dirección General de Salud Ambiental desea conocer la asociación entre el número de empleados y
la producción mensual de residuos sólidos (toneladas) en todas las fábricas del distrito de los Olivos. La
información se presenta en al siguiente tabla.
1. En 1000 operaciones de venta, un concesionario de vehículos observa los siguientes datos referentes al
color de coche (blanco, azul, verde, negro) y a la forma de pago (contado/financiado). Analice la
independencia de estas variables.
3. En la siguiente tabla se muestra los resultados de medir la variables sexo y categoría laboral de los
trabajadores de una empresa.
Categoría Laboral
Sexo
Administrativo Seguridad Directivo
Hombre 157 27 74
Mujer 206 0 10
a) Calcule la distribución marginal de las dos variables.
94
4. La siguiente tabla de contingencia muestra la tabulación cruzada de las variables ingreso anual (dividido
en tres categorías) y la última marca de coche comprada (dividida en tres marcas) por los clientes.
b) Interpretar el porcentaje de clientes que tienen ingreso anual de $. 20,000 a más y el último auto comprado
es de la marca Renault.
c) De los clientes que compraron autos de la marca Toyota, que porcentaje tiene ingreso anual mayor a
$.40,000.
5. Considere un estudio sobre consumo que está interesado en investigar las preferencias de las familias
por diferentes tamaños de lavadoras. A priori, uno pensaría que sería más probable que familias más
numerosas compraran lavadoras más grandes y que familias con menos miembros compraran
lavadoras de menor carga. Supongamos que para investigar esta relación el fabricante de lavadoras
toma una muestra aleatoria de tamaño n=300 de todas aquellas familias que compraron lavadoras.
8. La dirección de un determinado hotel pretende saber si a todos los clientes se les trata con la misma
consideración con independencia de sus precios de sus habitaciones. Para ello se seleccionó una
muestra aleatoria de 155 clientes recientes y se les preguntó sobre el servicio que había recibido
durante su estancia en el hotel. Se obtuvieron los siguientes datos:
9. Una compañía evalúa una propuesta para fusionarse con una corporación. El consejo de directores
desea muestrear la opinión de los accionistas para determinar si esta es independiente del número de
acciones que posee cada uno. Una muestra aleatoria de 250 accionistas da los siguientes resultados:
Número de Opinión
Totales
acciones A favor En contra Indecisos
Menos de 200 38 29 9 76
200-1000 30 42 7 79
Más de 1000 32 59 4 95
Totales 100 130 20 250
Con base en esta información; se puede decir que la opinión con respecto a la propuesta es independiente del
número de acciones que posee el accionista.
96
1. En el siguiente cuadro se muestran los resultados obtenidos al aplicar una encuesta a 750 personas, en
Lima Metropolitana, para medir la intención de voto en las próximas elecciones municipales. Estos
resultados se encuentran desagregados por grupos de edad de las personas entrevistadas:
Grupos de Edad
Intención de voto
18 a 29 30 a 44 45 a 70 Total
Candidato 1 117 109 59 285
Candidato 2 45 45 26 116
Candidato 3 25 31 31 87
Candidato 4 17 14 4 35
Otros 30 33 25 88
Blanco o viciado 46 48 45 139
Total 280 280 190 750
a) Calcule la distribución marginal de las dos variables.
2. En la siguiente tabla se muestra la distribución de los asistentes a una charla informativa sobre un
nuevo programa de especialización ofrecido por cierta escuela de postgrado, según su profesión y
condición de universidad.
Condición de
Profesión Universidad
Nacional Particular
Ingeniería 5 19
Administración 3 5
Contabilidad 6 4
Economía 6 9
Derecho 1 2
a) Construya un gráfico que permita observar la composición porcentual de los asistentes, según profesión y
condición de universidad a la charla informativa.
b) A partir del gráfico usted puede concluir que la participación de los asistentes al evento se ve influenciada
por la profesión y la condición de universidad.
3. Los siguientes datos corresponden a la información obtenida de los alumnos del segundo de primaria
de la sección A del IE 1101 del Distrito de San Miguel; las variables son Genero y Conocimiento Corporal
(Señala la rodilla y los pies en sí mismo y la de sus compañeros). Se pide elaborar la distribución conjunta
97
de los siguientes datos.
b) La distribución de frecuencia de la Marginal respecto a la variable Señala la rodilla y los pies en sí mismo y
la de sus compañeros.
5. Los siguientes datos están relacionados a una encuesta realizada por un medio de comunicación a si un
determinado comercial emitido por TV tiene o no carácter racista.
Respuesta del
Genero (*)
Entrevistado (**)
2 0
1 0
1 1
2 1
1 1
1 1
2 1
2 1
(*) 1 masculino 2 femenino
(**) 0 no 1 si
Se pide elaborar la distribución conjunta y la condicional respecto a la variable Respuesta del Entrevistado.
6. Interpretar la información obtenida por los alumnos de la Facultad de Derecho de la UCV relacionados 98
con el género y las infracciones de Tránsito.
Tabla Nº 6: Información obtenida por los alumnos de la Escuela de Derecho de la UCV relacionado a
infracciones de tránsito.
Infracciones de Transito
Género Total
Si No
Masculino 15 5 20
Femenino 25 5 30
Total 40 10 50
7. Completar e interpretar los datos de la siguiente tabla, relacionados con un estudio hecho a los alumnos
de la institución de nivel inicial IE Jesús el Redentor del Distrito del Rímac, durante el presente año.
Tabla Nº 7: Información de Pre Test, obtenida de los alumnos de la sección A del IE Jesús el Redentor
del Distrito del Rímac sobre la variable Salta y zapatea adecuadamente al ritmo de la danza y la variable
Genero.
Salta y Zapatea
Género Total
Si No
Masculino 0.30 0.40
Femenino 0.10 0.60
Total 0.80 1.00
8. Para determinar si la frecuencia de escuchar radio es independiente del sexo, se entrevistó a un grupo
de estudiantes, los resultados se muestran en la tabla siguiente:
Frecuencia de Sexo
Escuchar Radio Masculino Femenino
Diariamente 258 507
Casi todos los días 91 241
Ocasionalmente 48 41
nunca 12 47
NS/NR 3 29
a) Calcule la distribución marginal de las dos variables.
d) Construya un gráfico que permita observar la composición porcentual de los estudiantes, frecuencia de
escuchar radio y sexo.
e) A partir del gráfico usted puede concluir que la frecuencia de escuchar radio depende del sexo del
estudiante.
ÁREA: SALUD
1. Entre los empleados de una empresa se ha realizado una encuesta sobre el consumo del tábaco; se 99
Hábito
Sexo
Fumadores No fumadores Total
Varones 49 64 113
Mujeres 43 37 80
Total 92 101 193
a) Se pide elaborar la distribución relativa conjunta y marginal.
2. Determinar si existe una asociación significativa entre la frecuencia de personas con caries y la
deficiencia en ellas de vitamina C. Un estudio arrojó los siguientes datos.
CARIES
VITAMINA C
Presentes Ausentes
Con Deficiencia 90 125
Sin Deficiencia 100 104
a) Se pide elaborar la distribución relativa conjunta y marginal.
3. Supongamos que se quiere estudiar la relación entre fumar (Si, No) y padecer cáncer de pulmón (Si,
No), para lo cual se cuenta con la siguiente información.
Cáncer de Fumar
Pulmón Si No
Si 123 58
No 26 108
a) Elaborar la distribución relativa conjunta y marginal.
4. En un estudio acerca del uso de vitaminas en áreas urbanas y rurales; se plantea que el área de
residencia y el uso de vitaminas son independientes entre sí. Se obtiene una muestra aleatoria de 100
personas donde se miden las 2 variables, la cual se presenta en la siguiente tabla:
Área de Residencia
Uso de vitaminas
Urbana Rural
Si 36 34
No 24 6
a) Determinar si las dos variables son independientes.
b) De las personas que viven en el área urbana, ¿Qué porcentaje usa vitaminas?.
5. Un estudio fue realizado para determinar si el tipo de cáncer difería entre oficinistas, obreros y 100
desempleados.
Una muestra de 100 empleados de cada tipo de trabajador diagnosticado con cáncer fue dividida en
categorías por tipo de cáncer. Los resultados se presentan en la siguiente tabla de frecuencias
observadas
Tipo de cáncer
Ocupación Totales
Pulmón Estómago Otros
Oficinista 53 17 30 100
Obrero 10 67 23 100
Desempleado 30 30 40 100
Totales 93 114 93 300
a) Calcule la distribución marginal de las dos variables.
Desarrollo de caries
Tratamiento Totales
Bajo Medio Alto
A 8 40 34 82
B 84 22 12 118
Totales 92 62 46 200
a) Calcule la distribución Porcentual: conjunta y marginal
c) De los niños que utilizaron el método A, ¿Qué porcentaje tuvo desarrollo alto de caries?
MISCELÁNEA
1. En el distrito universitario de Jauja los 2000 estudiantes se distribuyen entre las tres carreras que
pueden cursarse del siguiente modo: el 20% estudian arquitectura, el 35% medicina y el 45% economía.
El porcentaje de alumnos que finalizan sus estudios en cada caso es del 5%, 12% y del 18%.
2. La siguiente tabla contiene la información correspondiente a la marca del último automóvil comprado 101
por una muestra aleatoria de 800 jefes de hogar de cada uno de los niveles socioeconómicos: A, B, C, D.
MARCA
N.S.E. OTRAS NO
TOYOTA NISSAN
MARCAS TIENEN
A 350 251 170 29
B 247 203 250 100
C 109 154 348 189
D 80 70 240 410
a) Presente la información en un gráfico de barras agrupadas.
3. Se seleccionaron al azar 225 personas de ambos sexos en una universidad, a quienes se les preguntó su
campo de estudio. Los resultados de este estudio se muestran a continuación:
4. A partir de la siguiente distribución bivariada (X, Y), calcule si son independientes las variables.
X\Y 1 2 3
-1 0 1 0
0 1 0 1
1 0 1 0
5. A partir de la siguiente distribución bivariada (X, Y),
X\Y 1 2 3 4 5
-1 2 4 6 10 8
0 1 2 3 5 4
1 3 6 9 15 12
2 4 8 12 20 16
a) Calcule la distribución de X condicionada a que Y=4.
6. Tenemos la siguiente tabla de contingencia. Determine si las dos variables son independientes.
X\Y 5 7
100 8 4
250 n21 6
102
X\Y 5 15 40 70
10 3 7 6 4
20 6 14 12 8
40 5 10 9 6
60 1 4 3 2
a) Calcule la distribución de la variable Y condicionada a que X= 20.
a) Elabore la distribución de frecuencias absolutas y relativas (conjuntas y condicionales) para las variables
género y nivel de satisfacción con el trabajo.
c) Globalmente, ¿quiénes están más satisfechos con el trabajo, los varones o las mujeres?
10. Para ver si existe dependencia entre el trabajo profesional de una persona y su religión, se seleccionó
una muestra aleatoria de 638 individuos de la población formada por el conjunto total de médicos
administradores e ingenieros. Los resultados muestrales aparecen reflejados en la siguiente tabla:
Profesionales
Religión
Médicos Administradores Ingenieros
Protestante 64 110 152
Católico 60 86 78
Judío 57 21 10
¿Qué conclusiones puede extraer?
11. En la siguiente tabla muestra la reacción de los estudiantes de Administración al nuevo reglamento del
consejo universitario de acuerdo con el nivel, siendo “División inferior” los estudiantes de primero y
segundo año y “División superior” los estudiantes de tercero y cuarto año.
Nivel escolar
Reacción División División
inferior Superior 103
A Favor 20 19
En contra 10 16
Obtenga sus conclusiones.