CLASE 1 Mastrer
CLASE 1 Mastrer
Qué hacemos ?
Maestría en Ingeniería en Seguridad Industrial
con mención en Prevención de Riesgos Laborales
Análisis estadísticos de Datos 1. Introducción a la Estadística
1.1 Introducción
Generación
Depuración
Nominales
Cualitativas A B C
(categórica) Ordinales
I II III
Variable
Discretas
Cuantitativas 2 4 12
(numéricas) Continuas
-1.345 80.9
Artículos
Nº Cliente Género Edad Gasto Antiguedad
adquiridos
1 Masculino 19 15 20.01 79
2 Masculino 21 15 27.16 43
3 Femenino 20 16 23.95 48
4 Femenino 23 16 28.60 60
5 Femenino 31 17 69.32 153
Cualitativa Cuantitativa Cuantitativa Cuantitativa Cuantitativa
Nominal Discreta/ Discreta Continua Discreta
Continua
La población y muestra de este estudio serán los alumnos del módulo de la maestría, y
la variable de estudio será el número de horas de estudio en la semana antes del
examen final. Para este caso, la variable será cuantitativa continua.
MODALIDADES
FRECUENCIA
cada fila de la tabla Básica 10
Estado Civil: casado, soltero, soltero, casado, casado, viudo, viudo, soltero,
soltero, divorciado
Tabla 1.- Estado Civil de Encuestados
Número de
Estado Civil
Personas
Soltero 4
Casado 3 Tabla de frecuencias para variables
Divorciado 1
cualitativas (Escala Nominal)
Viudo 2
TOTAL 10
Clase Social: baja, baja, baja, media, baja, alta, alta, media, baja, alta
Número de
Estado Civil
Personas
Baja 5
Media 2
Tabla de frecuencias para variables
cualitativas (Escala Ordinal)
Alta 3
TOTAL 10
Número de
Edad
Personas
9 4
10 3
Tabla de frecuencias para variables
cuantitativas (Escala de intervalo o
11 3
razón)
TOTAL 10
Frecuencia absoluta: ni
Notación - Frecuencias Simples
Frecuencia relativa : fi=ni/N; Σfi=1
Edad
30 30 19 18 20 21 20 19
27 25 28 23 25 32 35 26
27 28 27 22 30 28 27 28
35 34 35 25 20 30 32 29
Edad Xi ni fi % Ni Fi %A
TOTAL 32 1 100
LI - LS Xi ni fi % Ni Fi %A
F2 = F1 + f2
LI2 LS2 X2 n2 f2 %f2 N2 = N1 + n2 F2 *100
⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮
TOTAL N 1 100%
34, 45, 34, 54, 34, 32, 35, 50, 45, 50, 45
Parámetros
Estadísticos
Coeficiente Coeficiente de
Media Mediana Moda Cuartiles Deciles Percentiles de asimetrÍa apuntamiento
x
i 1
i
x
N
Puede haber más de una moda en el caso en que dos o más valores
de la variable presenten la misma frecuencia. Por otro lado, la moda
puede no existir cuando en un conjunto de datos, todos éstos son
diferentes entre sí y no hay ningún dato que se repita más de una vez.
PRIMER CUARTIL C1. Valor que deja por debajo el 25% de los datos y por encima el 75%
de los datos.
SEGUNDO CUARTIL C2. Coincide con la mediana. Deja el 50% de los valores por
debajo y por encima.
TERCER CUARTIL C3. Valor que deja por debajo el 75% de los datos y por encima el 25%
de los datos
Maestría en Ingeniería en Seguridad Industrial
con mención en Prevención de Riesgos Laborales
Análisis estadísticos de Datos 1. Introducción a la Estadística
1.1.1.b Principales parámetros estadísticos
MEDIDAS DE POSICION NO CENTRAL
Para calcular C1 y C3, ordenados los datos de menor a mayor, se
procede de la siguiente forma:
Cuando N es par: Cuando N es impar:
N 1
C1 = mediana de N/2 primeros datos Opción 1 es impar
2
C3 = mediana de N/2 últimos datos C1 = mediana de N-1/2 primeros datos
C3 = mediana de N-1/2 últimos datos
N 1
Opción 1 es par
2
C1 = mediana de los primeros N-1/2 + C2 datos
C3 = mediana de los segundos N-1/2 + C2 datos
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
2 25 26 32 33 34 40 42 55 56 60 63 64 84 91
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
2 25 26 32 33 34 40 42 55 56 60 63 64 84 91
= = 8 = C2
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
2 25 26 32 33 34 40 42 55 56 60 63 64 84 91
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
2 25 26 32 33 34 40 42 55 56 60 63 64 84 91
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
2 25 26 32 33 34 40 42 55 56 60 63 64 84 91
Maestría en Ingeniería en Seguridad Industrial
con mención en Prevención de Riesgos Laborales
Análisis estadísticos de Datos 1. Introducción a la Estadística
1.1.1.b Principales parámetros estadísticos
Rango
x i x
2
S i 1
N 1
Maestría en Ingeniería en Seguridad Industrial
con mención en Prevención de Riesgos Laborales
Análisis estadísticos de Datos 1. Introducción a la Estadística
1.1.1.b Principales parámetros estadísticos
Varianza y Desviación típica
N
ix x 3
CA i 1
( N 1)·S 3
N
ix x 3
CA i 1
( N 1)·S 3
Experimento Aleatorio
Son aquellos experimentos en los que no se puede predecir el
resultado.
Cara
Sello
2
𝑃 3 𝑜 6 = = 33.33%
6
Regla de Laplace
0
# 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑞𝑢𝑒 𝑠𝑎𝑡𝑖𝑠𝑓𝑎𝑐𝑒𝑛 𝑚𝑖𝑠 𝑐𝑜𝑛𝑑𝑖𝑐𝑖𝑜𝑛𝑒𝑠 𝑃 3 𝑦 6 = = 0%
𝑃(𝐴) = 6
# 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑝𝑜𝑠𝑖𝑏𝑙𝑒𝑠
3
1 𝑃 𝑝𝑎𝑟 = = 50%
𝑃 𝐴 = = 50% 6
2
Maestría en Ingeniería en Seguridad Industrial
con mención en Prevención de Riesgos Laborales
Análisis estadísticos de Datos 1. Introducción a la Estadística
1.1.2 Probabilidades
Espacio Muestral: S - Ω
Es el conjunto de todos los resultados posibles de un experimento
aleatorio.
Evento o Suceso
Uno o varios posibles resultados
CRUZ
2
2.- Sacar una bola azul? 7
= 28.6%
3
4.- Sacar una bola amarilla o azul? 7
= 42,9%
B B B
E espacio muestral
• 0≤P(A) ≤1 A
B
• P(AUB)=P(A)+P(B) si A∩B=Ø
• Ø es el conjunto vacío.
P(AÇ B)
P(A | B) A
P(B) B
Error frecuentíiiiiiisimo:
No confundir probabilidad condicionada con intersección.
En ambos medimos efectivamente la intersección, pero…
En P(A∩B) con respecto a P(E)=1
En P(A|B) con respecto a P(B)
Maestría en Ingeniería en Seguridad Industrial
con mención en Prevención de Riesgos Laborales
Análisis estadísticos de Datos 1. Introducción a la Estadística
1.1.2 Probabilidades
A A
B
B
B
B
• P(A’) = 1 - P(A)
Ejemplo (III)
NO SI Total
CLASIFICACION NORMAL 189 280 469
OMS OSTEOPENIA 108 359 467
OSTEOPOROSIS 6 58 64
Total 303 697 1000
• Otra forma:
P ( Menop Osteoporos is ) P ( Menop ) P (Osteoporos is | Menop )
697 58
58 / 1000 0,058
1000 697
Maestría en Ingeniería en Seguridad Industrial
con mención en Prevención de Riesgos Laborales
Análisis estadísticos de Datos 1. Introducción a la Estadística
1.1.2 Probabilidades
Ejemplo (III) Recuento
MENOPAUSIA
NO SI Total
CLASIFICACION NORMAL 189 280 469
OMS OSTEOPENIA 108 359 467
OSTEOPOROSIS 6 58 64
Total 303 697 1000
• A es independiente de B
P(A|B) = P(A)
• ¿Otra forma?
• P(Menop ∩ Osteoporosis) = 58/1000 = 0,058
• P(Menop) P(Osteoporosis)= (697/1000) x (64/1000) = 0,045
• La probabilidad de la intersección no es el producto de
probabilidades. No son independientes.
Maestría en Ingeniería en Seguridad Industrial
con mención en Prevención de Riesgos Laborales
Análisis estadísticos de Datos 1. Introducción a la Estadística
1.1.2 Probabilidades
Sistema exhaustivo y excluyente de sucesos
Son una colección de sucesos
A1 A2
A1, A2, A3, A4…
A3 A4
A2
Suceso
seguro
A3
B
A1 B
A2 B
A3 A4 Suceso
seguro
A3 B
Nos permite descomponer el problema B en
subproblemas más simples. Creeme . Funciona. A4 B
Maestría en Ingeniería en Seguridad Industrial
con mención en Prevención de Riesgos Laborales
Análisis estadísticos de Datos 1. Introducción a la Estadística
1.1.2 Probabilidades
Teorema de la probabilidad total
Si conocemos la probabilidad de B en cada uno de los
A1 A2 componentes de un sistema exhaustivo y excluyente de
sucesos, entonces…
Mujer
0,9
• ¿Qué porcentaje de casados hay? 0,7
Soltera
P(C) = P(M∩C) + P(H∩C) Estudiante
= P(M)P(C|M) + P(H)P(C|H)
0,3 0,2
= 0,7 x 0,1 + 0,3 x 0,2 Casado
Hombre
= 0,13 =13%
•Los caminos a través de nodos representan intersecciones. 0,8
Soltero
•Las bifurcaciones representan uniones disjuntas.
Maestría en Ingeniería en Seguridad Industrial
con mención en Prevención de Riesgos Laborales
Análisis estadísticos de Datos 1. Introducción a la Estadística
1.1.2 Probabilidades
Ejemplo II: En la UNACH hay dos Laboratorios para realizar
análisis de la calidad del agua. El 1º se usa el 75% de veces
para el análisis. En el 1º la frec. de infección de la muestra es
del 5% y en el 2º del 10%.
Infec
0,05
• ¿Qué probabilidad de infección hay?
• P(I) = P(L1∩I) + P(L2∩I) L1
0,75 0,95
= P(L1)P(I|L1) + P(L2)P(I|L2) No infec
Acc
0,30
P(B Ai)
P(Ai| B)
A3 A4 P(B)
donde P(B) se puede calcular usando el teorema de la probabilidad total:
P( H Ç C
F ) P( H ) P(C
F | H) Estudiante
F)
P( H | C
P (C
F) P( FC) 0,2
0,3 Casada
0,3 0,2 Hombre
0,46
0,13
0,8
Maestría en Ingeniería en Seguridad Industrial
Soltera
con mención en Prevención de Riesgos Laborales
Análisis estadísticos de Datos 1. Introducción a la Estadística
1.1.2 Probabilidades
Ejemplo (V): En la UNACH hay dos Laboratorios para realizar análisis de
la calidad del agua. El 1º se usa el 75% de veces para el análisis. En el
1º la frec. de infección de la muestra es del 5% y en el 2º del 10%.
0,9
Maestría en Ingeniería en Seguridad Industrial No infec
con mención en Prevención de Riesgos Laborales
Análisis estadísticos de Datos 1. Introducción a la Estadística
1.1.2 Probabilidades
Ejemplo (VI): El 20% del tiempo que se está en una casa transcurre
en la cocina, el 10% en el baño y el resto entre el salón y el
dormitorio. Por otro lado la probabilidad de tener un accidente
doméstico estando en la cocina es de 0,30 de tenerlo estando en el
baño es de 0,20 y de tenerlo fuera de ambos de 0,10. Se ha
producido un accidente, ¿cuál es la probabilidad de que haya sido
en la cocina? P(A) = 0,15 (ya calculado)
Acc
0,30
P (C Ç A) P (C ) P ( A | C )
0,20
Cocina
0,70
No Acc
P (C | A)
P ( A) P( A)
Acc
0,20 0,30
0,10
0,20
0,4
Casa Baño No Acc 0,15
0,80
• Valores por encima de 110 mg/dL se asocian con un posible estado pre-diabético.
• Pero no es seguro. Otras causas podrían ser: hipertiroidismo, cancer de páncreas,
pancreatitis, atracón reciente de comida…
• Supongamos que los enfermos de diabetes, tienen un valor medio de 126mg/dL.
• Probabilidad de acierto:
• Para enfermos
• Verdadero positivo
(sensibilidad)
• Para sanos
• Verdadero negativo
(especificidad)
• Probabilidad de error
• Para enfermos
• Falso –
• Para sanos
Maestría en Ingeniería en Seguridad Industrial
• Falso +
con mención en Prevención de Riesgos Laborales
Análisis estadísticos de Datos 1. Introducción a la Estadística
1.1.2 Probabilidades
¿Cómo definir el punto de corte de la prueba diagnóstica?
• Para confirmar la sospecha, usamos una prueba diagnóstica. Ha sido evaluada con
anterioridad sobre dos grupos de individuos: sanos y enfermos. Así de modo frecuentista
se ha estimado:
• P(+ | Enfermo)= Sensibilidad (verdaderos +)= Tasa de acierto sobre enfermos.
• P(- | Sano) = Especificidad (verdaderos -)= Tasa de acierto sobre sanos.
Falsos - T-
Individuo
Falsos +
T+
Sano
Especificidad, T-
Verdaderos -
Maestría en Ingeniería en Seguridad Industrial
con mención en Prevención de Riesgos Laborales
Análisis estadísticos de Datos 1. Introducción a la Estadística
1.1.2 Probabilidades Individuo
Ejemplo: Índices predictivos
0,98 0,02
• La diabetes afecta al 2% de
los individuos.
• La presencia de glucosuria
se usa como indicador de
diabetes.
• Su sensibilidad es de 0,945.
• La especificidad de 0,977. 0,055 0,945
• Calcular los índices 0,977 0,023
predictivos.
T+ T- T+
T-
P(Sano T ) P(Sano)P(T | Sano) P(Enf T ) P(Enf )P(T | Enf )
P(Sano| T ) P(Enf | T )
P(T ) P(Sano)P(T | Sano) P(Enf )P(T | Enf ) P(T ) P(Sano)P(T | Sano) P(Enf )P(T | Enf )
0,98 0,977 0,02 0,945
0,999 0,456
0,98 0,977 0,02 0,055 0,02 0,945 0,98 0,023
Maestría en Ingeniería en Seguridad Industrial
con mención en Prevención de Riesgos Laborales
Análisis estadísticos de Datos 1. Introducción a la Estadística
1.1.2 Probabilidades
-¿Qué probabilidad
Observaciones tengo de estar
enfermo?
• En el ejemplo anterior, al llegar un individuo a
la consulta tenemos una idea a priori sobre la - En principio un 2%. Le
probabilidad de que tenga una enfermedad. haremos unas pruebas.