Estadistica Ciencia de Datos UTN
Estadistica Ciencia de Datos UTN
2
Presentación
Temas que se desarrollarán:
3
Herramientas y recursos disponibles en ciencia de datos.
Introducción. Lenguajes de Programación. Entornos de Desarrollo Integrados
(IDEs) y Plataformas. Herramientas para Análisis y Manipulación de Datos.
Herramientas para Visualización de Datos. Herramientas para Machine Learning
e Inteligencia Artificial. Bases de Datos y Almacenamiento. Recursos y
Comunidades en Ciencia de Datos.
4
Objetivos
Que los participantes logren…
5
Bloques temáticos
6
Introducción a la Ciencia de Datos. Ciclo de
Vida y Aplicaciones.
7
¿Por qué es importante la Ciencia de Datos?
La Ciencia de Datos ha cobrado gran relevancia en los últimos años debido a la
convergencia de diversos factores tecnológicos y económicos que han
transformado la manera en que generamos, almacenamos y analizamos datos.
Entre las principales razones que explican su auge, podemos destacar:
8
de herramientas que permitan extraer valor real y convertir estos datos en
conocimiento útil para la toma de decisiones.
• Avances en infraestructura computacional y almacenamiento: Gracias a la
evolución de las tecnologías de almacenamiento y procesamiento en la
nube, hoy es posible trabajar con grandes volúmenes de datos sin
necesidad de contar con infraestructura propia costosa. Empresas y
profesionales pueden acceder a servicios escalables de procesamiento y
almacenamiento a través de plataformas como Amazon Web Services
(AWS), Google Cloud y Microsoft Azure, lo que permite democratizar el
acceso a herramientas de análisis avanzado. Además, el desarrollo de
nuevas arquitecturas de procesamiento ha facilitado el análisis en tiempo
real y la aplicación de modelos de aprendizaje automático a gran escala.
• Impacto demostrado del análisis de datos en diversas industrias: Empresas
tecnológicas de vanguardia como Google, Facebook y Amazon han
demostrado cómo el uso estratégico de los datos puede transformar
modelos de negocio y mejorar la eficiencia operativa. Más allá del sector
tecnológico, el impacto de la Ciencia de Datos se ha extendido a campos
como la medicina (diagnóstico asistido por IA), el deporte (análisis de
desempeño en equipos profesionales) y la política (predicción electoral
basada en datos masivos). Estos casos de éxito han impulsado la demanda
de profesionales capacitados en el manejo y análisis de datos.
9
almacenamiento, procesamiento y análisis de estos datos es fundamental para
aprovechar su potencial y extraer conocimiento valioso.
10
- Obtener y almacenar datos: Recopilar y guardar tanto los datos como los
resultados obtenidos.
11
- Conocimiento de arquitecturas de datos: Dominar la gestión de datos y procesos
de extracción, transformación y carga.
Algunos conjuntos de datos están bien estructurados, como las tablas en una
base de datos o en un programa de hojas de cálculo. Normalmente, los datos
se representan en forma de matriz, donde las filas representan elementos o
registros distintos, y las columnas representan las características de estos
elementos. Por ejemplo, un conjunto de datos sobre ciudades podría contener
una fila por ciudad y columnas con atributos como el estado, la población y el
área.
12
Cuando nos enfrentamos a una fuente de datos no estructurada, como una
colección de tweets en Twitter, el primer paso suele ser convertirla en una
estructura organizada. Un enfoque común es el modelo de bolsa de palabras
(Bag of Words), que crea una matriz donde cada fila representa un tweet y
cada columna representa una palabra del vocabulario más frecuente. En esta
matriz, la entrada 𝑀[𝑖, 𝑗] indica el número de veces que el tweet 𝑖 contiene la
palabra 𝑗.
Por el contrario, los datos categóricos son etiquetas que describen las
propiedades de los objetos en estudio, como el género, el color de cabello o la
ocupación. Esta información descriptiva puede ser tan precisa y significativa
como los datos numéricos, pero no puede analizarse con las mismas técnicas.
13
imagen impresa, y aún más difíciles de interpretar conceptualmente. ¿Cómo
podemos entender algo que ni siquiera podemos ver?
3. Modelos Simples y la Necesidad de Datos: Los modelos simples no
requieren grandes volúmenes de datos para ajustarse o evaluarse. Una
tarea típica en ciencia de datos puede ser tomar una decisión, como
determinar si se debe ofrecer un seguro de vida a una persona, basándose
en un pequeño número de variables como edad, género, altura, peso y la
presencia o ausencia de condiciones médicas preexistentes. Si tenemos
estos datos de un millón de personas junto con sus resultados de vida,
deberíamos ser capaces de construir un buen modelo general para evaluar
el riesgo de cobertura. Sin embargo, tener estos datos de cientos de
millones de personas probablemente no mejoraría sustancialmente el
modelo. Los criterios de decisión basados en solo unas pocas variables
(como edad y estado civil) no pueden ser demasiado complejos y deberían
ser robustos en una gran cantidad de solicitantes. Cualquier patrón que sea
tan sutil que requiera un volumen masivo de datos para detectarlo
probablemente sea irrelevante para un negocio que opera a gran escala.
A primera vista, el enfoque de Big Data parece ofrecer más información debido al
gran volumen de datos analizados. Sin embargo, esto no garantiza que los datos
sean representativos ni que las conclusiones sean precisas. Las redes sociales
14
contienen sesgos importantes: no toda la población está representada en ellas,
los usuarios expresan opiniones de manera selectiva y los algoritmos de las
plataformas pueden distorsionar la percepción real de la opinión pública.
Clasificación y Regresión
Dos tipos de problemas aparecen repetidamente en la ciencia de datos tradicional
y en aplicaciones de reconocimiento de patrones: los problemas de clasificación
y los de regresión. Es útil introducir brevemente estos conceptos ahora.
Ciclo de Vida
Introducción
15
El ciclo de vida de la ciencia de datos es un proceso estructurado que permite
convertir datos en conocimiento útil para la toma de decisiones. Este ciclo consta
de varias etapas interconectadas que abarcan desde la identificación del problema
hasta la implementación de soluciones basadas en datos. Cada fase tiene un
propósito específico y requiere herramientas y metodologías adecuadas para su
desarrollo.
16
- Establecer métricas clave para evaluar el éxito del modelo.
Ejemplo:
Fuentes de Datos
Los datos pueden provenir de diversas fuentes, entre las que se incluyen:
17
• APIs y servicios web (Google Analytics, Twitter API, Open Data).
Métodos de Adquisición
• Uso de APIs con peticiones HTTP mediante librerías como requests y json
en Python.
Estadísticas Descriptivas
18
• Análisis de correlaciones entre variables.
Visualización de Datos
Los datos raramente están listos para ser analizados en su forma original. La
presencia de datos erróneos, duplicados o incompletos puede afectar la calidad
de los modelos y generar resultados poco confiables. La limpieza de datos es una
de las etapas más críticas en el ciclo de vida de la ciencia de datos, ya que impacta
directamente en la calidad del análisis.
19
• Normalización de formatos (fechas, unidades de medida, nombres de
variables).
4. Modelado de Datos
4.1 Selección del Modelo
Tipos de Modelos
20
• Evaluar métricas como precisión, recall, RMSE, R².
Métricas de Evaluación
o Precisión (Accuracy)
o Precisión y recall
o F1-score
o Matriz de confusión
o AUC-ROC
21
Después de evaluar el rendimiento, se pueden aplicar diferentes estrategias para
mejorar el modelo:
Técnicas de Optimización
22
• Latencia: ¿El tiempo de respuesta del modelo es aceptable para su
aplicación?
23
6.3.1 Monitoreo de Rendimiento
Aplicaciones
Introducción
El ciclo de vida de la ciencia de datos no solo define la metodología para
transformar datos en conocimiento, sino que también tiene aplicaciones en
diversos sectores. Cada industria aprovecha este proceso para mejorar la toma
de decisiones, optimizar operaciones y desarrollar nuevos productos o servicios.
En este documento, exploraremos cómo se aplica el ciclo de vida de la ciencia de
datos en diferentes áreas, comenzando con el sector financiero.
Aplicaciones en Finanzas
24
El sector financiero es uno de los que más ha adoptado la ciencia de datos debido
a la gran cantidad de datos transaccionales, históricos y en tiempo real que
maneja. A continuación, se detallan algunas aplicaciones clave en esta industria:
25
• Uso de modelos de recomendación para ofrecer productos financieros
adaptados a cada cliente.
26
• Análisis de datos genéticos y de historial clínico para diseñar tratamientos
personalizados.
27
comprender el comportamiento de los clientes, optimizar estrategias de ventas y
mejorar la experiencia del usuario. A continuación, se presentan algunas
aplicaciones clave en este sector.
28
4. Gestión de Inventarios y Logística
29
• Monitoreo en tiempo real de vehículos mediante Internet de las Cosas
(IoT) y análisis de datos.
30
6. Automatización y Vehículos Autónomos
1. Mantenimiento Predictivo
31
• Uso de modelos de machine learning para predecir fallos en maquinaria
y reducir tiempos de inactividad.
2. Optimización de la Producción
32
• Implementación de algoritmos de optimización logística para mejorar la
distribución de insumos y productos.
33
Fundamentos de Estadística Descriptiva:
Medidas de centralización y dispersión
Introducción
Definición de Estadística
División de la Estadística
34
con los datos y está diseñada para resumir o describir los mismos sin
factores pertinentes adicionales; esto es, sin intentar inferir nada que vaya
más allá de los datos, como tales.
✓ Estadística Inferencial: se deriva de muestras, de observaciones hechas
sólo acerca de una parte de un conjunto numeroso de elementos y esto
implica que su análisis requiere de generalizaciones que van más allá de
los datos. La Estadística Inferencial investiga o analiza una población
partiendo de una muestra tomada.
Población y Muestra
Variables
35
puede describir (no medir), por ser una característica cualitativa. En este sentido,
las variables pueden diferenciarse en dos grupos: cualitativas y cuantitativas
dependiendo del tipo de datos que representan.
a) Discretas, cuando solo pueden tomar una cantidad (finita o infinita) numerable
de valores, es decir pueden tomar un cierto conjunto de valores posibles. En
general, aparecen por conteo. Por ejemplo, el número de electrones de un átomo,
cantidad de personas que viven en un departamento.
36
La distinción entre datos discretos y continuos es la diferencia básica que existe
entre contar y medir. Considérese, por ejemplo, la variable edad. Edad es
continua, pero si se la registra en años resulta ser discreta. En estudios con
adultos, en que la edad va de 20 a 70 años, por ejemplo, no hay problemas en
tratarla como continua, ya que el número de valores posibles es muy grande. Pero
en el caso de niños en edad preescolar, si la edad se registra en años debe
tratarse como discreta, en tanto que si se la registra en meses puede tratarse
como continua.
Variable Aleatoria
Supongamos que se realiza el siguiente experimento aleatorio: Arrojar tres veces
al aire una moneda equilibrada. El espacio muestral de este experimento aleatorio
está compuesto por los siguientes resultados,
Por lo tanto, nos queda definido una variable que asume, en este ejemplo
particular, los siguientes resultados, 𝛺(𝑋) = {0,1,2,3}.
37
En función del dominio del Espacio Muestral las variables aleatorias se pueden
clasificar en:
A partir de los valores que asuma la variable aleatoria y los resultados posibles
del Experimento Aleatorio, podemos definir probabilidades de ocurrencia
asociadas con cada evento aleatorio.
38
Los valores del conjunto pueden agruparse en una tabla de probabilidades,
también conocida como distribución de probabilidades. Es decir, que a cada valor
posible que asuma la variable se le asocia un valor de probabilidad.
X P(X=x)
0 0.125
1 0.375
2 0.375
3 0.125
Total 1.000
X P(X=x) F(X=x)
0 0.125 0.125
1 0.375 0.500
2 0.375 0.875
3 0.125 1.000
Total 1.000
39
𝐸[𝑋] = ∑ 𝑥𝑖 𝑃(𝑋 = 𝑥𝑖 )
𝑖
1. Linealidad:
𝐸[𝑐] = 𝑐
4. Si 𝑋 y 𝑌 son independientes:
𝐸[𝑋𝑌] = 𝐸[𝑋]𝐸[𝑌]
Varianza
• Definición:
Propiedades de la varianza
40
2. Si 𝑎, 𝑏 son constantes, entonces: 𝑉𝑎𝑟(𝑎𝑋 + 𝑏) = 𝑎2 𝑉𝑎𝑟(𝑋)
𝑥𝑖 𝑛𝑖 𝑓𝑖 𝑁𝑖 𝐹𝑖
𝑥1 𝑛1 𝑓1 𝑁1 𝐹1
𝑥2 𝑛2 𝑓2 𝑁2 𝐹2
. . . . . . . . . . . . . . .
𝑥𝑘 𝑛𝑘 𝑓𝑘 𝑁𝑘 𝐹𝑘
41
0 ≤ 𝑛𝑖 ≤ 𝑁
𝑘
∑ 𝑛𝑖 = 𝑁
𝑖=1
0 ≤ 𝑓𝑖 ≤ 1
𝑘 𝑘
𝑛𝑖 ∑𝑘𝑖=1 𝑛𝑖
∑ 𝑓𝑖 = ∑ = =1
𝑁 𝑁
𝑖=1 𝑖=1
Estas frecuencias también pueden expresarse en tantos por ciento del tamaño de
la muestra, para lo cual simplemente debe multiplicarse por 100. Por ejemplo, si
el valor 𝑥𝑖 de la variable 𝑥 tiene por frecuencia relativa 𝑓𝑖 = 0.2; significa que el
valor 𝑥𝑖 se repite en el 20% de la muestra.
Ejemplo:
42
Se registró el número de hijos de una muestra de 20 familias: 2 1 1 3 1 2 5 1 2 3
4 2 3 2 1 4 2 3 2 1. Elaborar la tabla de frecuencias.
Recorrido: 5– 1 = 4
𝑥𝑖 𝑛𝑖 𝑓𝑖 𝑁𝑖 𝐹𝑖
1 6 0,30 6 0,30
2 7 0,35 13 0,65
3 4 0,20 17 0,85
4 2 0,10 19 0,95
5 1 0,05 20 1,00
𝑛2 = 7 significa que 7 familias tienen 2 hijos, es decir que el 35% (𝑓𝑖 = 0,35) de
las 20 familias tienen 2 hijos.
𝑛3 = 17 significa que 17 familias tienen 3 o menos hijos, es decir que el 85% (𝑓𝑖 =
0,85) de las 20 familias tienen 3 o menos hijos.
43
entre el extremo superior e inferior de cada intervalo se denomina amplitud del
intervalo. Normalmente se trabaja con intervalos de amplitud constante.
𝑎𝑖 – 𝑎𝑖+1 𝑐𝑖 𝑛𝑖 𝑓𝑖 𝑁𝑖 𝐹𝑖
𝑎1 – 𝑎2 𝑐1 𝑛1 𝑓1 𝑁1 𝐹1
𝑎2 – 𝑎3 𝑐2 𝑛2 𝑓2 𝑁2 𝐹2
. . . . . . . . . . . . . . . . . .
𝑐𝑘
𝑎𝑘 – 𝑎𝑘+1 𝑛𝑘 𝑓𝑘 𝑁𝑘 𝐹𝑘
b) Decidir el número de intervalos de clase (𝑘) en que se van a agrupar los datos:
Por lo general 5 ≤ 𝑘 ≤ 20 dependiendo del caso que se estudia, 𝑘 será más
grande cuanto más dato posea la muestra. Una regla que se suele seguir es elegir
𝑘 como el entero más próximo a √𝑁, recordando que 𝑁 es el tamaño de la
muestra.
44
c) Determinar la amplitud (constante) de cada intervalo, dividiendo el recorrido o
rango de los datos entre el número de intervalos (𝑘): No es necesario que esta
amplitud sea exactamente el resultado de esa división, sino que normalmente se
puede redondear hacia un número ligeramente mayor.
e) Calcular las marcas de clase de cada intervalo como el valor medio entre los
límites inferior y superior de cada intervalo de clase: Aquí se debe intentar que las
marcas de clase coincidan con las medidas de la muestra, disminuyéndose así la
pérdida de información debida al agrupamiento. Una vez determinados los
intervalos se debe hacer un recuento cuidadoso del número de observaciones que
caen dentro de cada intervalo, para construir así la tabla de frecuencias.
Ejemplo:
60; 66; 77; 70; 66; 68; 57; 70; 66; 52; 75; 65; 69; 71; 58; 66; 67; 74; 61; 63; 69; 80;
59; 66; 70; 67; 78; 75; 64; 71; 81; 62; 64; 69; 68; 72; 82; 56; 65; 74; 67; 54; 65; 65;
69; 61; 67; 73; 57; 62; 67; 68; 63; 67; 71; 68; 76; 61; 62; 63; 76; 61; 67; 67; 64; 72;
64; 73; 79; 58; 67; 71; 68; 59; 69; 70; 66; 62; 63; 66.
a) Recorrido: 82 − 52 = 30
45
d) Extremos de los intervalos. Para evitar coincidencias se toma un decimal más.
El primer extremo se toma algo menor que el valor mínimo, pero calculándolo de
forma que el último extremo sea algo mayor que el valor máximo. Si se toma 𝑎1 =
51.5 se verifica que es menor que 52 (valor mínimo) y el último extremo será
51.5 + 9 ∗ 3.4 = 82.1 que resulta ser mayor que el valor máximo, 82.
ai-ai+1 ci ni fi=ni/N Ni Fi
51.5-54.9 53.2 2 0.025 2 0.025
54.9-58.3 56.6 5 0.0625 7 0.0875
58.3-61.7 60.0 7 0.0875 14 0.175
61.7-65.1 63.4 16 0.2 30 0.375
65.1-68.5 66.8 21 0.2625 51 0.6375
68.5-71.9 70.2 13 0.1625 64 0.8
71.9-75.3 73.6 8 0.1 72 0.9
75.3-78.7 77.0 4 0.05 76 0.95
78.7-82.1 80.4 4 0.05 80 1
Total 80
Gráficos
Luego de haber construido la tabla de frecuencias de una muestra, es conveniente
la representación gráfica de la distribución de los datos. Esto permite una
visualización rápida de la información obtenida. Dependiendo del tipo de datos y
de cómo estén organizados, se pueden utilizar distintos tipos de representaciones
gráficas.
xi ni fi Ni Fi
1 6 0.3 6 0.3
2 7 0.35 13 0.65
46
3 4 0.2 17 0.85
4 2 0.1 19 0.95
5 1 0.05 20 1
6
5
4
3
2
1
0
1 2 3 4 5
Familias x
47
Número de hijos por familia
25
20
20 19
Cantidad de hijos Fi
17
15 13
10
6
5
0
1 2 3 4 5
Familias x
ai-ai+1 ci ni fi=ni/N Ni Fi
51.5-54.9 53.2 2 0.025 2 0.025
54.9-58.3 56.6 5 0.063 7 0.0875
58.3-61.7 60 7 0.088 14 0.175
48
61.7-65.1 63.4 16 0.200 30 0.375
65.1-68.5 66.8 21 0.263 51 0.6375
68.5-71.9 70.2 13 0.163 64 0.8
71.9-75.3 73.6 8 0.100 72 0.9
75.3-78.7 77 4 0.050 76 0.95
78.7-82.1 80.4 4 0.050 80 1
Peso de Alumnos
25
21
20
16
15 13
10 7 8
5 4 4
5 2
ni
49
Peso de Alumnos
90 80
80 76
72
70 64
60 51
50
40 30
30
20 14
7
10 2
0
Ni
50
Ingreso de Libros Nuevos
60%
50%
40%
30%
50%
20%
17% 20%
10%
3%
50%
Tablas de Contingencia
En la mayoría de los estudios estadísticos se emplea el análisis unidimensional
para interpretar su comportamiento de forma aislada o individualmente. Sin
embargo, los vínculos que tienen las diferentes personas, objetos o fenómenos,
facultan el establecimiento de relaciones entre las características o variables que
51
ellas presentan. Estas relaciones permiten analizar simultáneamente el
comportamiento de dos variables, ya sean cualitativas o cuantitativas, usando
para ello la tabulación cruzada o tablas de contingencia. En el siguiente ejemplo
se demuestra el procedimiento para la elaboración de una tabla de contingencia:
52
posible observar que hay 84 instituciones con buena calidad académica, 150 muy
buena y 66 excelente. De forma similar, se puede observar en la margen inferior
la distribución de frecuencias de la antigüedad: 78 instituciones tienen entre 10 y
19 años, 118 entre 20 y 29, 76 entre 30 y 39 y 28 entre 40 y 49.
Antigüedad
Calidad académica Total
(años)
10 a 20 a 30 a 40 a
19 29 39 49
Buena 42 40 2 0 84
Muy buena 34 64 46 6 150
Excelente 2 14 28 22 66
Total 78 118 76 28 300
Antigüedad (años)
Calidad académica Total
10 a 19 20 a 29 30 a 39 40 a 49
Buena 50.0% 47.6% 2.4% 0.0% 100.0%
Muy buena 22.7% 42.7% 30.7% 4.0% 100.0%
Excelente 3.0% 21.2% 42.4% 33.3% 100.0%
53
Total 26.0% 39.3% 25.3% 9.3% 100.0%
Antigüedad (años)
Calidad académica Total
10 a 19 20 a 29 30 a 39 40 a 49
Buena 53.8% 33.9% 2.6% 0.0% 28.0%
Muy buena 43.6% 54.2% 60.5% 21.4% 50.0%
Excelente 2.6% 11.9% 36.8% 78.6% 22.0%
Total 100.0% 100.0% 100.0% 100.0% 100.0%
Estadística Descriptiva
Después de haber construido tablas de frecuencias y haber realizado alguna
representación gráfica, el siguiente paso para llevar a cabo un estudio de los datos
es el cálculo de diferentes medidas características de la distribución.
54
• Este proceso permite simplificar la comprensión y la comunicación de los
datos.
• Estas medidas resumen van a permitir comparar distintas muestras y dar
una idea rápida de cómo se distribuyen los datos.
• Es evidente que todas estas medidas solo pueden definirse para variables
cuantitativas.
Medidas de Centralización
Entre las medidas características de una distribución se destacan las llamadas
medidas de centralización, que indican el valor promedio de los datos, o en torno
a qué valor se distribuyen estos. Es decir que estas medidas describen un valor
alrededor del cual se encuentran las observaciones.
a) Media aritmética.
∑𝑁
𝑖=1 𝑥𝑖
𝑥=
𝑁
Vale decir que la media es básicamente un promedio y se calcula sumando los
distintos valores de la variable 𝑥 y dividiendo por la cantidad de datos. En el caso
de que los diferentes valores de la variable aparezcan repetidos, tomando los
valores 𝑥1 , 𝑥2 , . . . , 𝑥𝑘 con frecuencias absolutas 𝑛1 , 𝑛2 , . . . , 𝑛𝑘 , la media se determina
∑𝑁 𝑥 𝑛
como 𝑥 = 𝑖=1 𝑖 𝑖, pudiéndose expresar también en función de las frecuencias
𝑁
relativas como: 𝑥 = ∑𝑁
𝑖=1 𝑥𝑖 𝑓𝑖 . Calcular la media aritmética de los siguientes datos:
xi ni fi xini xifi
1.0 6.0 0.30 6.0 0.30
2.0 7.0 0.35 14.0 0.70
3.0 4.0 0.20 12.0 0.60
4.0 2.0 0.10 8.0 0.40
5.0 1.0 0.05 5.0 0.25
Total 20.0 1.00 45.0 2.25
55
∑𝑁
𝑖=1 𝑥𝑖 𝑛𝑖 45
𝑥= = = 2.25
𝑁 20
O bien
𝑁
𝑥 = ∑ 𝑥𝑖 𝑓𝑖 = 2.25
𝑖=1
∑𝑘𝑖=1 𝑐𝑖 𝑛𝑖
𝑥=
𝑁
Calcular la media aritmética del ejemplo.
ci ni ci*ni
53.2 106.4 5660.5
56.6 283.0 16017.8
60.0 420.0 25200.0
63.4 1014.4 64313.0
66.8 1402.8 93707.0
70.2 912.6 64064.5
73.6 588.8 43335.7
77.0 308.0 23716.0
80.4 321.6 25856.6
Total 5357.6 361871.1
∑𝑘𝑖=1 𝑐𝑖 𝑛𝑖 361871
𝑥= = = 67.54
𝑁 5358
Esto significa que en promedio el peso de los alumnos pertenecientes a un curso
de un colegio del nivel medio de la localidad de Mar del Plata es de 68kg.
56
Es decir, la media equilibra las desviaciones positivas y negativas respecto a su
valor. Esto se expresa como:
𝑁
∑(𝑥𝑖 − 𝑥 ) = 0
𝑖=1
Por ejemplo, sean los datos: 10, 11, 12, 12, 13 y 14 cuya media es 12. En la
siguiente tabla comprobamos, para este ejemplo, la propiedad enunciada.
xi xi-xmedio
10 -2.0
11 -1.0
12 0.0
12 0.0
13 1.0
14 2.0
Total 0.0
Por lo tanto, una segunda propiedad de la media aritmética es que representa una
especie de centro de gravedad, o centro geométrico, del conjunto de datos. Se
puede imaginar a los datos como un sistema físico en el que cada uno tiene una
“masa” unitaria. Si se ubican los datos sobre una barra horizontal en la posición
correspondiente a su valor; la media representa la posición en que se deberá
ubicar el punto de apoyo para que el sistema esté en equilibrio.
Continuando con el ejemplo anterior 10, 11, 12, 12, 13 y 14 con media de 12, si
ahora se tiene 10, 11, 12, 12, 13, 14 y 68 la media es 20. La media aritmética es
por tanto muy dependiente de observaciones extremas.
57
con valores diferentes de la variable se define como la raíz enésima (𝑁 es el
tamaño de la muestra) del producto de los valores de la variable:
𝑥𝐺 = 𝑁√𝑥1 𝑥2 … 𝑥𝑁
b) Mediana
En segundo lugar, supongamos que se tiene una variable discreta con valores
repetidos sobre la cual se ha elaborado una tabla de frecuencias; se calcula en
primer lugar el número de observaciones, 𝑁, dividido entre 2. Se pueden distinguir
aquí dos casos. El primero de ellos es cuando el valor 𝑁/2 coincide con la
frecuencia absoluta acumulada 𝑁𝑗 de un valor 𝑥𝑗 de la variable o, lo que es lo
mismo, cuando la frecuencia relativa acumulada 𝐹𝑗 = 0,5. En este caso la mediana
se ha de situar entre este valor de la variable y el siguiente ya que de esta forma
dividirá la distribución de frecuencias en dos partes. Es decir, se calcula como la
media aritmética de dicho valor de la variable y su superior
𝑥𝑗 + 𝑥𝑗+1
𝑀𝑒 =
2
58
Se modificará levemente el ejemplo para calcular la mediana, acorde a lo
enunciado precedentemente.
xi ni
1 6
2 10
3 15
4 17
5 20
𝑁
Se tiene 1 1 1 1 1 1 2 2 2 2 3 3 3 3 3 4 4 5 5 5 como = 10 = 𝑁2 entonces la
2
mediana se calculará como:
𝑥2 + 𝑥2+1 2 + 3
𝑀𝑒 = = = 2.5
2 2
Si el valor 𝑁/2 no coincidiese con ningún valor de la columna de frecuencias
acumuladas (segundo subcaso) la mediana sería el primer valor de 𝑥𝑗 con
frecuencia absoluta acumulada 𝑁𝑗 mayor que 𝑁/2, ya que el valor central de la
distribución correspondería a una de las medidas englobadas en ese 𝑥𝑗 .
Continuando con el ejemplo calcular la mediana.
xi ni
1 6
2 13
3 17
4 19
5 20
𝑁
Se tiene 1 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 3 4 4 5 como = 10 entonces la mediana
2
será el primer valor de 𝑥𝑖 con frecuencia absoluta acumulada 𝑁𝑖 > 10, es decir:
𝑀𝑒 = 𝑥2 = 2.
59
Por ejemplo, todos los siguientes conjuntos de datos siguientes tienen mediana
12:
i) 10 11 12 13 14
ii) 10 11 12 13 100
iii) 0 11 12 12 12
iv) 10 11 12 100 100.
Por otro lado, la mayor ventaja de la media es que utiliza toda la información de la
distribución de frecuencias (todos los valores particulares de la variable), en
cambio la mediana solo utiliza el orden en que se distribuyen los valores de la
variable. Podría entonces considerarse, desde este punto de vista, que la media
aritmética es una medida más fiable del valor central de los datos. Sin embargo,
recuérdese que la media es muy poco robusta, en el sentido de que es muy
sensible a valores extremos de la variable y, en consecuencia, a posibles errores
en las medidas. La mediana, es una medida robusta, ya que no es afectada por
valores que se desvíen mucho o que sean atípicos.
60
Pudiese ocurrir también el caso inverso. Por ejemplo, las longitudes (en cm) de
barras de hierro, inicialmente idénticas calentadas a temperaturas desconocidas
en distintos recipientes: 1.80; 1.82; 1.85; 1.90 y 2.00, cuya media y mediana son
𝑥 = 1,874 𝑦 𝑀𝑒 = 1.85 respectivamente. Si la temperatura de uno de esos
recipientes varía y la longitud mayor aumenta de 2.00 a 2.20 cm, la mediana no
varía, pero la media ahora es 𝑥 = 1,914.
c) Moda
Se define moda 𝑀𝑜 de una muestra como aquel valor de la variable que tiene una
frecuencia máxima, es decir que la moda es el valor que más se repite. Hay que
indicar que puede suceder que la moda no sea única, o sea que aparezcan varios
máximos en la distribución de frecuencias, en ese caso se dice que la distribución
es bimodal, trimodal, etc.
xi ni fi Ni Fi
1 6 0.3 6 0.3
2 7 0.35 13 0.65
3 4 0.2 17 0.85
4 2 0.1 19 0.95
5 1 0.05 20 1
El valor que más se repite es 2 hijos, que ocurre en siete familias de la muestra
(𝑛𝑖 = 7). Por lo tanto, la moda es 𝑀𝑜 = 2 y en este ejemplo coincide con la
mediana.
Para esto, supongamos que sea (𝑎𝑗 ; 𝑎𝑗+1 ) el intervalo modal cuya frecuencia
máxima es 𝑛𝑗 . Si 𝑛𝑗−1 𝑦 𝑛𝑗+1 son las frecuencias de los intervalos anterior y
61
posterior al modal, se define 𝛿1 = 𝑛𝑗 − 𝑛𝑗−1 𝑦 𝛿2 = 𝑛𝑗 − 𝑛𝑗+1 como se muestra en
el siguiente gráfico.
Es decir que la moda estará más próxima a 𝑎𝑗 cuanto menor sea la diferencia de
frecuencias con el intervalo anterior y al revés.
Si, por ejemplo 𝑛𝑗−1 = 𝑛𝑗 (𝛿1 = 0) la moda será efectivamente 𝑎𝑗 . Por el contrario,
si ocurre que 𝑛𝑗+1 = 𝑛𝑗 (𝛿2 = 0) la moda será 𝑎𝑗+1 estando situada entre dos
intervalos. Calcular la moda.
ai-ai+1 ci ni
51.5-54.9 53.2 2
54.9-58.3 56.6 5
58.3-61.7 60.0 7
61.7-65.1 63.4 16
65.1-68.5 66.8 21
68.5-71.9 70.2 13
71.9-75.3 73.6 8
75.3-78.7 77.0 4
62
78.7-82.1 80.4 4
El intervalo modal
𝑗=5
𝑛𝑗−1 = 16
𝑛𝑗 = 21
𝑛𝑗+1 = 13
𝛿1 = 𝑛𝑗 − 𝑛𝑗−1 = 21 − 16 = 5
𝛿2 = 𝑛𝑗 − 𝑛𝑗+1 = 21 − 13 = 8
𝛿1 5
𝑀𝑜 = 𝑎𝑗 + (𝑎𝑗+1 − 𝑎𝑗 ) = 65.1 + (68.5 − 65.1) = 66.41
𝛿1 + 𝛿2 5+8
𝑀𝑜 < 𝑀𝑒 < 𝑥.
Por lo tanto, una medida de centralización es un valor que pretende indicar dónde
se encuentra el centro de la distribución de un conjunto de datos. Pero, ¿cómo
identificar el centro de una distribución? El centro es fácil de identificar si la
distribución es simétrica.
63
Pero si la distribución es asimétrica, resulta difícil identificar el centro.
Por esta razón, no existe una única medida de centralización para resumir una
distribución. Si la distribución es simétrica diferentes medidas conducirán a
resultados similares. Si la distribución es claramente asimétrica diferentes
propuestas apuntarán a distintos conceptos de “centro” y por lo tanto los valores
serán diferentes. Para salvar este inconveniente es necesario analizar las distintas
medidas calculadas y ver cuál de ellas es la que mejor se adapta a la distribución
de datos que se analiza.
64
definir de manera similar los cuartiles como aquellos tres valores que dividen a la
muestra en cuatro partes iguales.
De esta manera el primer cuartil será la medida tal que el 25% de los datos sean
inferiores a su valor y el 75% de los mismos sean superiores. El segundo cuartil
coincide con la mediana, mientras que el tercer cuartil determinará el valor tal que
el 75% de las observaciones sean inferiores a él y el 25% sean superiores.
xi Ni
1 6
2 13
3 17
4 19
5 20
𝑁 20
= = 5 = 𝑄1 = 1
4 4
65
𝑁 20
= = 10 = 𝑄2 = 𝑀𝑒 = 2
2 2
3𝑁 3 ∗ 20 60
= = = 15 = 𝑄3 = 3
4 4 4
En el caso de las medidas agrupadas en intervalos de clase se trabaja de la misma
manera que para determinar la mediana. Calcular los cuartiles para el ejemplo.
ai-ai+1 ni Ni
51.5-54.9 2 2
54.9-58.3 5 7
58.3-61.7 7 14
61.7-65.1 16 30
65.1-68.5 21 51
68.5-71.9 13 64
71.9-75.3 8 72
75.3-78.7 4 76
78.7-82.1 4 80
𝑁
= 20 < 30 por lo tanto 𝑄1 se sitúa en el intervalo 61.7 − 65.1
4
𝑁
= 40 < 51 por lo tanto 𝑄2 se sitúa en el intervalo 65.1 − 68.5
2
3𝑁
= 60 < 64 por lo tanto 𝑄3 se sitúa en el intervalo 68.5 − 71.9
4
𝑁
− 𝑁𝑗−1 20 − 14
𝑄1 = 𝑎𝑗 + 4 (𝑎𝑗+1 − 𝑎𝑗 ) = 61.7 + (65.1 − 61.7) = 62.98
𝑛𝑗 13
𝑁
− 𝑁𝑗−1 40 − 30
𝑄2 = 𝑎𝑗 + 2 (𝑎𝑗+1 − 𝑎𝑗 ) = 65.1 + (68.5 − 65.1) = 67.72
𝑛𝑗 13
3𝑁
− 𝑁𝑗−1 60 − 51
𝑄3 = 𝑎𝑗 + 4 (𝑎𝑗+1 − 𝑎𝑗 ) = 68.5 + (71.9 − 68.5) = 70.85
𝑛𝑗 13
De forma similar se puede definir los deciles como aquellos valores de la variable
que dividen la muestra, ordenada, en diez partes iguales. Estos valores,
denotados por 𝐷𝑘 , con 𝑘 = 1,2, … ,9, tienen un valor tal que el decil k–esimo deja
por debajo de él al 10% de los datos de la muestra. De la misma manera se
66
definen los percentiles como aquellos valores de la variable, denotados por 𝑃𝑘 ,
con 𝑘 = 1,2, … ,99, que dividen a la muestra en cien partes iguales. Esto equivale
a decir que el percentil 𝑃𝑘 deja por debajo de él al 𝑘 por ciento de la muestra
ordenada. La forma de calcular deciles y percentiles es igual a la de la mediana y
𝑁
los cuartiles, sustituyendo por la fracción del número total de datos
2
correspondiente.
Medidas de Dispersión
Las medidas de tendencia central reducen la información recogida de la muestra
a un solo valor; dando una idea de dónde se encuentra el centro de la distribución.
Sin embargo, dicho valor central o medio, será más o menos representativo de los
valores de la muestra dependiendo de la dispersión que las medidas individuales
tengan respecto a dicho centro. Es decir, que las medidas de tendencia central no
indican cuán disperso es el conjunto de datos. Por ejemplo, considérese los
siguientes conjuntos de datos:
• Muestra A: 55 55 55 55 55 55 55
• Muestra B: 47 51 53 55 57 59 63
• Muestra C: 39 47 53 55 57 63 71
En los tres casos 𝑥 = 𝑀𝑒 = 55, pero, como es evidente, las muestras difieren
notablemente.
67
Para analizar la representatividad de las medidas de centralización se definen las
llamadas medidas de dispersión. Estas indican la variabilidad de los datos en torno
a su valor promedio, es decir si se encuentran muy o poco esparcidos en torno a
su centro. Se pueden definir diversas medidas de desviación o dispersión, siendo
éstas fundamentales para la descripción estadística de la muestra.
a) Rango o recorrido
• Muestra A: 55 − 55 = 0
• Muestra B: 63 − 47 = 16
• Muestra C: 71 − 39 = 32
Una de las propiedades del rango es de ser una medida extremadamente sensible
a la presencia de datos atípicos, de existir estos datos, estarán en los extremos
que son los datos que se usan para calcular el rango. Una segunda característica
es la de ignorar la mayoría de los datos puesto que solo usa dos observaciones:
la mayor y la menor.
𝑅𝐼 = 𝑄3 − 𝑄1 .
Está claro que este recorrido brinda, entonces, el rango que ocupan el 50% central
de los datos.
Sin lugar a dudas la medida más usada para estimar la dispersión de los datos es
la desviación estándar. Ésta es especialmente aconsejable cuando se usa la
media aritmética como medida de tendencia central. Está basada en un valor
promedio de las desviaciones respecto a la media.
En este caso, en vez de tomar valores absolutos de las desviaciones, para evitar
así que se compensen desviaciones positivas y negativas, se usan los cuadrados
68
de las desviaciones. Esto hace además que los datos con desviaciones grandes
influyan mucho en el resultado final. Por lo tanto, se define, en primer lugar, la
varianza de una muestra con datos repetidos de la siguiente manera:
2
∑𝑘𝑖=1(𝑥𝑖 − 𝑥 )2 𝑛𝑖
𝑠 =
𝑁−1
Evidentemente la varianza no tiene las mismas unidades que los datos de la
muestra. Para conseguir las mismas unidades se define la desviación estándar
como la raíz cuadrada de la varianza, o sea que:
∑𝑘𝑖=1(𝑥𝑖 − 𝑥 )2 𝑛𝑖
𝑠=√
𝑁−1
2
∑𝑘𝑖=1(𝑥𝑖 − 𝑥 )2 𝑛𝑖
𝑠 =
𝑁−1
∑𝑘𝑖=1(𝑥𝑖 − 𝑥 )2 𝑛𝑖
𝑠=√
𝑁−1
69
Calcular la varianza y la desviación estándar de los datos, cuya media aritmética
es 2.25
xi ni xprom ((xi-xprom)^2)ni
1 6 2.25 9.38
2 7 2.25 0.44
3 4 2.25 2.25
4 2 2.25 6.13
5 1 2.25 7.56
Total 20 25.75
∑𝑘𝑖=1(𝑥𝑖 − 𝑥 )2 𝑛𝑖 25.75
𝑠2 = = = 1.355
𝑁−1 19
∑𝑘𝑖=1(𝑥𝑖 − 𝑥 )2 𝑛𝑖
𝑠=√ = √1.355 = 1.16
𝑁−1
ci ni xprom ((xi-xprom)^2)ni
53.2 2 67.0125 381.57
56.6 5 67.0125 542.10
60.0 7 67.0125 344.23
63.4 16 67.0125 208.80
66.8 21 67.0125 0.95
70.2 13 67.0125 132.08
73.6 8 67.0125 347.16
77.0 4 67.0125 399.00
80.4 4 67.0125 716.90
Total 80.0 3072.8
2
∑𝑘𝑖=1(𝑥𝑖 − 𝑥 )2 𝑛𝑖 3072.80
𝑠 = = = 38.90
𝑁−1 79
70
∑𝑘𝑖=1(𝑥𝑖 − 𝑥 )2 𝑛𝑖
𝑠=√ = √38.90 = 6.24
𝑁−1
71
Esta regla es válida para distribuciones no necesariamente acampanadas, pero
puede ser errónea cuando se aplica a distribuciones fuertemente asimétricas.
Nótese que la desviación estándar no es una medida robusta de la dispersión. El
hecho de que se calcule evaluando los cuadrados de las desviaciones hace que
sea muy sensible a observaciones extremas.
c) Coeficiente de variación
72
d) Asimetría y Curtosis
Coeficiente de asimetría
73
Con el fin de cuantificar el grado de asimetría de una distribución se pueden definir
los coeficientes de asimetría. Aunque no son los únicos, existen dos coeficientes
principales:
∑𝑘𝑖=1(𝑥𝑖 − 𝑥 )3 𝑛𝑖
𝐴𝐹 = 𝑁−1
𝑠3
Y para datos sin agrupar es:
∑𝑘𝑖=1(𝑥𝑖 − 𝑥 )3
𝐴𝐹 =
𝑁 ∗ 𝑠3
En el caso de una distribución simétrica, las desviaciones respecto a la media
aritmética se anularán y el coeficiente de asimetría será nulo. En caso contrario,
𝐴𝐹 tendrá valores positivos para una asimetría positiva (a la derecha) y negativos
cuando la asimetría sea en el otro sentido. Nótese que la división por el cubo de
la desviación estándar se hace para que el coeficiente sea adimensional y, por lo
tanto, comparable entre diferentes muestras.
74
Su interpretación es similar a la del coeficiente de Fisher, siendo nulo para una
distribución simétrica y tanto más positivo, o negativo, cuando más sesgada esté
la distribución hacia la derecha o hacia la izquierda.
Ejemplo:
xi ni xprom ((xi-xprom)^3)ni
1 6 2.25 -11.7188
2 7 2.25 -0.1094
3 4 2.25 1.6875
4 2 2.25 10.7188
5 1 2.25 20.7969
Total 20 21.375
∑𝑘𝑖=1(𝑥𝑖 − 𝑥 )3 𝑛𝑖 21.375
𝐴𝐹 = 𝑁−1 = 20 − 1 = 0.72
𝑠3 1.5609
𝑥 − 𝑀𝑜 2.25 − 2
𝐴𝑃 = = = 0.215
𝑠 1.16
Coeficiente de curtosis
1 El prefijo griego “lepto” significa delgado, fino. Curtosis o apuntamiento. Leptocurtica, un apuntamiento alargado.
2 Plati, prefijo procedente del griego “platys” que significa ancho.
3 Meso, prefijo procedente del griego “mésos” que signfica medio.
75
Esta característica del agrupamiento de los datos se denomina curtosis y para
cuantificarla se define el coeficiente de curtosis 𝐶𝑐 de la siguiente manera para
datos agrupados:
∑𝑘𝑖=1(𝑥𝑖 − 𝑥 )4 𝑛𝑖
𝐶𝑐 = 𝑁−1
𝑠4
Y para datos no agrupados:
∑𝑘𝑖=1(𝑥𝑖 − 𝑥 )4
𝐶𝑐 =
𝑁 ∗ 𝑠4
Este coeficiente sin dimensión alcanza valores mayores cuanto más puntiaguda
es la distribución, teniendo un valor de 3 para la distribución mesocúrtica (o
normal), mayor que 3 para la leptocúrtica y menor que 3 para la platicúrtica.
Calcular la curtosis para el ejemplo anterior.
∑𝑘𝑖=1(𝑥𝑖 − 𝑥 )4 𝑛𝑖 91.8906
𝐶𝑐 = 𝐶𝑐 = 𝑁 − 1 = 19 = 2.67
𝑠 4 1.8106
76
Distribuciones de Frecuencias
Los valores de una variable sirven para describir o clasificar individuos o distinguir
entre ellos. La mayoría de nosotros hacemos algo más que simplemente describir,
clasificar o distinguir, porque tenemos ideas respecto a las frecuencias relativas
de los valores de una variable. En estadística decimos que la variable tiene una
función de probabilidad, una función de densidad de probabilidad o simplemente
una función de distribución.
Distribuciones Discretas
Las distribuciones de probabilidad están relacionadas con la distribución de
frecuencias. De hecho, podemos pensar en la distribución de probabilidad como
una distribución de frecuencias teórica. Una distribución de frecuencias teórica es
una distribución de probabilidades que describe la forma en que se espera que
varíen los resultados. Debido a que estas distribuciones tratan sobre expectativas
de que algo suceda, resultan ser modelos útiles para hacer inferencias y tomar
decisiones de incertidumbre.
La distribución binomial
Una distribución de probabilidad de una variable aleatoria discreta utilizada
ampliamente es la distribución binomial. Esta distribución aparece de forma
natural al realizar repeticiones independientes de un experimento que tenga
respuesta binaria, generalmente clasificada como “éxito” o “fracaso”; este
experimento recibe el nombre de experimento de Bernoulli en honor al matemático
Suizo Jacob Bernoulli (1654-1705) en donde la obtención del resultado deseado
se considera como éxito "𝑝" y el resultado no deseado como fracaso "𝑞", donde,
𝑞 = 1– 𝑝.
77
Características del proceso de Bernoulli
𝑝 𝑥 (1 − 𝑝)𝑛−𝑥
78
Entonces el número de formas en que podemos obtener 𝑥 éxitos en 𝑛 ensayos es
el número de combinaciones de 𝑥 objetos seleccionados de un conjunto de 𝑛
objetos (𝑛/𝑥) y así llegamos al siguiente resultado:
𝑛
𝑃(𝑥) = ( ) 𝑝 𝑥 𝑞𝑛−𝑥
𝑥
Donde,
𝑝 = probabilidad de éxito.
𝑞 = (1 − 𝑝) = probabilidad de fracaso.
𝑝 𝑥 = probabilidad favorable.
Aunque esta fórmula pueda parecer un tanto complicada, se le puede utilizar con
bastante facilidad. El símbolo ! significa factorial. Por ejemplo, factorial cinco (5! =
5 ∗ 4 ∗ 3 ∗ 2 ∗ 1 = 120) o 0! = 1.
Ejemplo:
Se lanza una moneda corriente 6 veces, donde llamamos cara a un éxito. Por
consiguiente 𝑛 = 6 y 𝑝 = 𝑞 = 1/2. Solo pueden ocurrir dos cosas (𝑝 𝑜 𝑞) por lo
tanto la probabilidad de que ocurra una de ellas es la mitad, es decir ½.
6! 1 2 1 6−2 15
𝑃 (𝑥 ) = ( ) ( ) = = 23.44%
2! (6 − 2)! 2 2 64
79
6! 1 4 1 6−4 15
𝑃 (4) = ( ) ( ) =
4! (6 − 4)! 2 2 64
6! 1 5 1 6−5 6
𝑃 (5) = ( ) ( ) =
5! (6 − 5)! 2 2 64
6! 1 6 1 6−6 1
𝑃 (6) = ( ) ( ) =
6! (6 − 6)! 2 2 64
Entonces,
15 6 1 22
𝑃 (𝑥 ) = + + = = 34.38%
64 64 64 64
Propiedades de la distribución binomial
1. la media: 𝜇 = 𝑛𝑝
2. la varianza: 𝜎 2 = 𝑛𝑝𝑞
3. la desviación estándar: 𝜎 = √𝑛𝑝𝑞
4. cuando 𝑝 es menor que 0.5, la distribución binomial está sesgada hacia la
derecha.
5. conforme 𝑝 aumenta, el sesgo es menos notable.
6. cuando 𝑝 = 0.5, la distribución binomial es simétrica.
7. cuando 𝑝 es mayor que 0.5, la distribución esta sesgada hacia la izquierda.
Distribución Hipergeométrica
La distribución hipergeométrica suele aparecer en procesos muestrales sin
reemplazo, en los que se investiga la presencia o ausencia de cierta característica.
Por ejemplo, en un procedimiento de control de calidad en una empresa
farmacéutica, durante el cual se extraen muestras de las cápsulas fabricadas y se
someten a análisis para determinar su composición. Durante las pruebas, las
cápsulas son destruidas y no pueden ser devueltas al lote del que provienen. En
esta situación, la variable que cuenta el número de cápsulas que no cumplen los
criterios de calidad establecidos sigue una distribución hipergeométrica. Por tanto,
esta distribución es la equivalente a la binomial, pero cuando el muestreo se hace
sin reemplazo, de forma que la probabilidad de éxito no permanece constante a
lo largo de las 𝑛 pruebas, a diferencia de la distribución binomial.
80
Esta distribución se puede ilustrar del modo siguiente: se tiene una población finita
con 𝑁 elementos, de los cuales 𝑅 tienen una determinada característica que se
llama “éxito” (diabetes, obesidad, hábito de fumar, etc.). El número de “éxitos” en
una muestra aleatoria de tamaño 𝑛, extraída sin reemplazo de la población, es
una variable aleatoria con distribución hipergeométrica de parámetros 𝑁, 𝑅 𝑦 𝑛.
Donde:
81
Medidas de tendencia central y de dispersión para la distribución
hipergeométrica
𝑛 = número de muestras.
𝑁 = tamaño de la población.
82
𝑟 (𝑁 − 𝑟 ) 𝑛 (𝑁 − 𝑛 )
𝜎2 =
𝑁 2 (𝑁 − 1)
𝑟 (𝑁 − 𝑟 ) 𝑛 (𝑁 − 𝑛 )
𝜎=√
𝑁 2 (𝑁 − 1)
En la que:
𝜎 2 = la variancia.
𝜎 = la desviación estándar.
𝑁 = 20
𝑛=3
𝑟 = 2 (computadoras defectuosas)
Entonces,
20−2
𝐶22 𝐶3−2 1 ∗ 18
𝑃 (2) = = = 1.58%
𝐶320 1140
2! 2
𝐶22 = = =1
2! (2 − 2)! 2(0)
18! 18!
𝐶118 = = = 18
1! (18 − 1)! 17!
20! 20!
𝐶320 = = = 1140
3! (20 − 3)! 3! ∗ 17!
83
Distribuciones Continuas
Una variable aleatoria continua es la que puede tomar un número infinitamente
grande de valores que corresponden a los puntos en un intervalo de una recta.
Las estaturas y los pesos de las personas, el tiempo entre dos eventos o la vida
útil de un equipo de oficina, son ejemplos típicos de variables aleatorias continuas.
84
áreas bajo la mayoría de las distribuciones de probabilidades continuas más
empleadas.
Distribución Normal
La distribución normal es, sin duda, la distribución más importante del cálculo de
probabilidades y de la Estadística. Fue descubierta, como aproximación de la
distribución binomial, por Abraham De Moivre (1667-1754) y publicada en 1733
en su libro The Doctrine of Chances; estos resultados fueron ampliados por
Pierre-Simon Laplace (1749-1827), quién también realizó aportaciones
importantes.
Existen dos razones básicas por las cuales la distribución normal ocupa un lugar
tan prominente en la estadística.
85
b) La distribución normal casi se ajusta a las distribuciones de frecuencias
reales observadas en muchos fenómenos, incluyendo características
humanas (peso, altura, IQ), resultados de procesos físicos y muchas otras
medidas de interés para los investigadores, tanto en el sector público como
en el privado.
𝜇 = la media.
𝜎² = la varianza.
𝜎 = la desviación típica.
𝜋 = constante 3.14159.
𝑒 = 2.71828.
86
1 1 2
𝑌= 𝑒 −2𝑧
𝜎√2𝜋
La probabilidad se denota por 𝑃{𝑎 < 𝑥 < 𝑏}, y se calcula mediante la fórmula:
𝑥−𝜇
[𝑧 = ]
𝜎
Cuando se expresa la variable 𝑥 en unidades estándares, las áreas
comprendidas entre 𝑧 = ±1, 𝑧 = ±2, 𝑦 𝑧 = ±3 son iguales, respectivamente, a
68.27%, 95.45% y 99.73% del área total, que es 1. La tabla de 𝑍 en cualquier
libro de estadística muestra las áreas bajo esta curva acotadas por las
ordenadas 𝑧 = 0 y cualquier valor positivo de 𝑧. De esta tabla se puede deducir
el área entre todo par de coordenadas usando la simetría de la curva respecto
de 𝑧 = 0.
87
Tabulaciones de las áreas de la distribución de la probabilidad normal
88
Solución: De la tabla de 𝑧 de las áreas bajo la curva normal a la derecha de la
media, solamente se necesita encontrar el valor tabulado correspondiente a 𝑧 =
1.63. Se baja por la columna de la izquierda de la tabla hasta el renglón
correspondiente a 𝑧 = 1.6 y se va luego por el renglón superior hasta la columna
marcada con 0.03. La intersección de esta combinación de renglón da el área 𝐴 =
0.4484. Por lo tanto, 𝑃(0 < 𝑧 < 1.63) = 0.4484.
Solución: Sea 𝑥 una variable aleatoria distribuida normalmente con una media de
30.5 y una desviación estándar de 4.5. Se desea encontrar el valor de 𝑥0 tal que
Se encuentra el valor de 𝑧0 tal que el área a la izquierda sea igual a 0.95. Puesto
que el área a la izquierda de 𝑧 = 0 es 0.5, 𝑧0 será el valor de 𝑧 en la Tabla que
corresponde a un área igual a 0.45. Este valor es 𝑧0 = 1.645.
𝑥0 − 30.5
1.645 =
4.5
𝑥0 = 4.5 ∗ 1.645 + 30.5 = 37.9
89
La distribución normal como una aproximación de la distribución binomial
Observe el área bajo la curva normal entre 5 ± ½. Nos damos cuenta de que esta
área es de aproximadamente el mismo tamaño que el área de la barra que
representa la probabilidad binomial de obtener 5 caras. Los dos ½ que agregamos
y restamos se conocen como factores de corrección de continuidad y se utilizan
para mejorar la precisión de la aproximación.
90
La aproximación normal a la distribución binomial resulta muy conveniente, pues
nos permite resolver el problema sin tener que consultar grandes tablas de la
distribución binomial. Debemos hacer notar que se necesita tener algo de cuidado
al utilizar esta aproximación, que es bastante buena siempre y cuando 𝑛𝑝 y 𝑛𝑞
sean de al menos cinco.
Distribución de Poisson
La distribución de probabilidad de Poisson debe su nombre a Siméon Denis
Poisson (1781-1840), un francés que desarrollo la distribución en el año 1834. La
distribución de Poisson se utiliza mucho en área de la administración de empresas
para modelar la distribución de frecuencias relativas del número de accidentes
industriales por unidad de tiempo o por administradores de personal, para
modelar la distribución de frecuencias relativas del número de accidentes de los
empleados o el número de reclamaciones de seguros, por unidad de tiempo.
Para que una variable recuento siga una distribución de Poisson deben cumplirse
varias condiciones:
91
La distribución de Poisson tiene iguales la media y la varianza igual a 𝑛𝑝. Para
valores de 𝜆 mayores de 20 la distribución de Poisson se aproxima a una
distribución normal de media y varianza iguales a 𝜆.
La distribución de probabilidad de Poisson, tiene que ver con ciertos procesos que
pueden ser descritos por una variable aleatoria discreta. La letra 𝑋 por lo general
representa a esta variable discreta y puede tomar valores enteros (0, 1, 2, 3, 4,
etc.). La probabilidad de tener exactamente 𝑥 presentaciones en una distribución
de Poisson se calcula con la fórmula:
𝑒 −𝜆 𝜆𝑥
𝑃 (𝑥 ) = 𝑓 (𝑥 ) =
𝑥!
Donde:
92
𝑒 −𝜆 = 2.71828 elevada a la lamda potencia negativa.
𝑒 −3 32
𝑃 (𝑥 = 2) = 𝑓 (2) = = 0.225
2!
b) ¿Cuál es la probabilidad de que en un día particular no ocurra ni una sola
admisión de emergencia?
𝑒 −3 30 (0.05 ∗ 1)
𝑓 (𝑥 ) = = = 0.05
0! 1
c) En un día particular sean admitidos 3 o 4 casos de emergencia.
Dado que los dos eventos son mutuamente exclusivos se usa la regla de
adición:
93
mes ocurran 4 accidentes. Podemos utilizar la tabla de Poisson aplicando la
fórmula:
𝑒 −𝜆 𝜆𝑥
𝑃 (𝑥 ) =
𝑥!
𝑒 −5 54
𝑃 (4) = = 0.17552
4!
Para utilizar esta tabla, todo lo que necesitamos saber son los valores de 𝑥 y de
𝜆, en este ejemplo 4 y 5, respectivamente. Ahora busque en la tabla, primero
encuentre la columna cuyo encabezado es 5; luego recórrala hacia abajo hasta
que esté a la altura del 4 y lea la respuesta directamente, 0.1755.
Media 𝜇 𝜇 = 𝑛𝑝 𝜇=𝜆
Varianza 𝜎2 𝜎 2 = 𝑛𝑝𝑞 𝜎2 = 𝜆
94
Una buena aproximación de la distribución binomial cuando 𝑛 es igual o mayor
que 20 y cuando 𝑝 es igual o menor que 0.05. En los casos en que se satisfacen
tales condiciones, podemos sustituir la media de la distribución binomial 𝑛𝑝 en
lugar de la media de la distribución de Poisson 𝜆 de modo que la formula será:
(𝑛𝑝)𝑥 𝑒 −𝑛𝑝
𝑃 (𝑥 ) =
𝑥!
Ejemplo: Supongamos que tenemos un hospital con 20 máquinas de diálisis renal
y que la probabilidad de que una de ellas no funcione bien durante un día
cualquiera es de 0.02 ¿Cuál es la probabilidad de que exactamente 3 queden
fuera de servicio en un mismo día?
(𝑛𝑝)𝑛 𝑒 −𝑛𝑝 𝑛!
𝑃 (𝑥 ) = 𝑃 (𝑥 ) = ⌈ ⌉ (𝑝 𝑥 𝑞𝑛−𝑥 )
𝑥! (𝑛 − 𝑥 )!
(20∗0.02)3 𝑒 −20∗0.02 𝑃 (𝑥 )
𝑃 (𝑥 ) = =
3! 20!
0.00715 =⌈ ⌉ (0.023 0.9820−3 )
(20 − 3)!
= 0.0065
Distribución Logística
Pierre François Verhulst (1804-1849) describió por primera vez la curva logística
en un trabajo, publicado en 1845, que versaba sobre las investigaciones
matemáticas en las leyes que gobiernan el crecimiento de la población.
95
𝑥−𝜇
𝑒− 𝜎
𝑓 (𝑥 ) = 𝑥−𝜇 2
𝜎 (1 + 𝑒 − 𝜎 )
donde:
- 𝜇 = es la media (o localización).
- 𝑥 = es la variable aleatoria.
Propiedades
96
Ejemplo:
Supongamos que una variable aleatoria 𝑋 sigue una distribución logística con 𝜇 =
10 y 𝜎 = 2. Queremos calcular la probabilidad de que 𝑋 sea menor o igual a 12.
Solución:
Distribución Chi-Cuadrada
97
Un caso especial se obtiene cuando 𝑎 = 1/2 y 𝑝 = 𝑛/2, y es conocida por el
nombre de distribución Chi-cuadrada con 𝑛 grados de libertad (se denota por 𝜒𝑛2 ).
Esta distribución, que debe su nombre al matemático inglés Karl Pearson (1857-
1936), es fundamental en inferencia estadística y en los test estadísticos de
bondad de ajuste. Se emplea, entre otras muchas aplicaciones, para realizar la
prueba de hipótesis de homogeneidad, de independencia o la prueba de bondad
de ajuste (todas ellas denominadas pruebas Chi-cuadrada) y para determinar los
límites de confianza de la varianza muestral de una población normal.
Distribución t de Student
Esta distribución fue propuesta y tabulada por William Sealy Gosset (1876-1937),
más conocido por el seudónimo de Student, como resultado de un estudio sobre
la estimación de la media cuando el tamaño de muestra es pequeño. La
98
distribución t de Student queda completamente definida por medio de sus grados
de libertad, 𝑛, y se denota por 𝑡𝑛 .
Surge cuando se plantea estudiar el cociente entre una variable aleatoria con
distribución normal estándar y la raíz cuadrada del cociente entre una variable
aleatoria con distribución Chi-cuadrada y sus grados de libertad (𝑛), siendo las
dos variables independientes. Esta distribución desempeña un papel muy
importante en la inferencia estadística asociada a la teoría de muestras pequeñas
y es usada habitualmente en el contraste de hipótesis para la media de una
población o para comparar medias de dos poblaciones.
La función de densidad de probabilidad para una variable aleatoria que sigue una
distribución t con 𝑘 grados de libertad es:
𝑘+1 𝑘+1
2 − 2
Γ( ) 𝑥
𝑓 (𝑥 ) = 2 (1 + )
𝑘 𝑘
√𝑘𝜋Γ (2)
donde:
- Γ = es la función gamma.
Propiedades
99
Aplicaciones
Distribución F de Snedecor
Otra de las distribuciones importantes asociadas a la normal es la que se define
como el cociente de dos variables aleatorias independientes con distribución Chi-
cuadrada divididas entre sus respectivos grados de libertad, 𝑛 y 𝑚; la variable
aleatoria resultante sigue una distribución F de Snedecor de parámetros 𝑛 y 𝑚
100
(denotada por 𝐹𝑛,𝑚 ). Debe su nombre al matemático y estadístico americano
George Waddel Snedecor (1881-1974).
Aplicaciones
101
Teorema Central del Límite
El teorema central del límite es un resultado matemático que garantiza que, si
sumamos variables cualesquiera (no necesariamente normales), la variable suma
también seguirá una distribución normal (esto siempre que se cumplan algunas
condiciones básicas).
Con un tamaño típico se quiere garantizar que las contribuciones tienen que “estar
controladas”, esto es, las contribuciones extremas tienen que estar controladas
por una probabilidad muy pequeña (En jerga matemática las contribuciones tienen
que tener varianza finita).
𝑛 𝑛
𝑆 − ∑𝑛𝑖=1 𝜇𝑖
𝑆 ≈ 𝑁 (∑ 𝜇𝑖 , √∑ 𝜎𝑖2 ) ⇒ 𝑍 = → 𝑁(0; 1)
𝑖=1 𝑖=1
√∑𝑛𝑖=1 𝜎𝑖2
102
Si, en vez de sumar variables, realizamos la media aritmética de las mismas,
también podemos utilizar el teorema central del límite (puesto que la media
aritmética es sumar y luego dividir por una constante). Este teorema (del que
damos únicamente una idea general, sin establecer las hipótesis matemáticas
reales) establece la importancia de la distribución normal.
Ejemplo:
μ1 = E[X1 ] = 5
X1 ~ ? ⇒ {
σ12 = Var[X1 ] = 4
μ2 = E [ X 2 ] = 6
X2 ~ ? ⇒ {
σ22 = Var[X 2 ] = 3
μ2 = E [ X 2 ] = 4
X3 ~ ? ⇒ {
σ22 = Var[X 2 ] = 2
𝑆 − 480
𝑆 ≈ 𝑁(480,16,46) ⇒ 𝑍 = → 𝑁(0; 1)
16,46
103
σ2S = 4σ12 + 3σ22 + 2σ23 ⇒ σ2S = 20 ∗ 4 + 30 ∗ 3 + 50 ∗ 2 = 270 ⇒ σS = √270
≅ 16,46
S − 480
S ≈ N(480,16,46) ⇒ Z = → N(0; 1)
16,46
104
Herramientas y recursos disponibles en ciencia
de datos.
El ecosistema de herramientas en Ciencia de Datos es amplio y diverso,
permitiendo abordar desde la manipulación de datos hasta la implementación de
modelos de inteligencia artificial. La elección de herramientas depende de las
necesidades específicas del proyecto, el volumen de datos y el objetivo del
análisis. El acceso a recursos educativos y comunidades en línea es clave para
mantenerse actualizado en este campo en constante evolución. A continuación,
se presentan las principales herramientas utilizadas en Ciencia de Datos,
clasificadas por categorías.
Lenguajes de Programación:
Los lenguajes de programación son fundamentales en Ciencia de Datos, ya que
permiten manipular datos, construir modelos y automatizar procesos. Los más
utilizados son:
105
- Scikit-learn: Ofrece herramientas para el aprendizaje automático y modelado
estadístico.
f) Comunidad Activa y Recursos: Python cuenta con una comunidad global activa,
proporcionando soporte, documentación extensa y recursos de aprendizaje
gratuitos.
106
- shiny: Creación de dashboards y aplicaciones web interactivas.
e) Integración con Otras Tecnologías: R se puede integrar con Python, C++, SQL,
Spark y Hadoop, lo que permite trabajar con Big Data y aprendizaje automático a
gran escala.
107
- ORDER BY: Ordenamiento de resultados.
- Roles y Permisos: Control sobre quién puede leer, escribir o modificar la base
de datos.
108
atractiva para la ciencia de datos, el aprendizaje automático y la modelización
estadística. Características Claves de Julia en Ciencia de Datos:
109
Entornos de Desarrollo Integrados (IDEs) y
Plataformas:
Para trabajar de manera eficiente en Ciencia de Datos, se utilizan entornos que
facilitan la programación y ejecución de código:
e) Reproducibilidad y Compartición:
110
- Integración con GitHub: Permite versionar notebooks y compartir código.
111
- Conexión nativa con bases de datos SQL mediante DBI y dplyr.
112
d) Soporte para Ciencia de Datos y Machine Learning:
- Carga de datos desde múltiples fuentes: Archivos CSV, SQL, APIs, Google
Drive, etc.
f) Reproducibilidad y Exportación
VS Code y PyCharm: son dos de los entornos de desarrollo integrado (IDE) más
populares para programación en Python, incluyendo aplicaciones en ciencia de
datos y machine learning. Ambos ofrecen herramientas avanzadas para la
manipulación de datos, visualización, depuración y optimización de código.
Características de VS Code en Ciencia de Datos:
113
- Soporte para TensorFlow y PyTorch para deep learning.
114
e) Integración con Bases de Datos y Control de Versiones:
115
Recursos y Comunidades en Ciencia de Datos:
Kaggle: es una plataforma en línea que ofrece un entorno colaborativo para
científicos de datos y analistas, proporcionando herramientas para desarrollar
proyectos de machine learning, participar en competencias y acceder a conjuntos
de datos de alta calidad. Características Claves de Kaggle en Ciencia de Datos:
- Acceso a GPUs y TPUs gratuitas, ideal para entrenar modelos de deep learning.
116
e) Integración con Herramientas Externas:
117
- Ejecución de scripts de ETL, limpieza de datos y actualización de modelos de
machine learning.
e) Documentación y Wiki:
118
Bibliografía utilizada y sugerida
Libros y otros manuscritos:
Anderson, D., Sweeney, D., & Williams, T. (2012). Estadística para Negocios y
Economía. Onceava Edición. Cengage Learning.
Walpole, R., Myers, R., Myers, S. & Ye, K. (2012). Probabilidad y Estadística para
Ingeniería y Ciencias. Novena Edición. Pearson.
119