0% encontró este documento útil (0 votos)
81 vistas119 páginas

Estadistica Ciencia de Datos UTN

Diplomatura en Ciencia de Datos Avanzado Estadistica Descriptiva

Cargado por

Frandom86
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
81 vistas119 páginas

Estadistica Ciencia de Datos UTN

Diplomatura en Ciencia de Datos Avanzado Estadistica Descriptiva

Cargado por

Frandom86
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Diplomatura Ciencia de

Datos y Análisis Avanzado


(DCDDyAA)
Unidad 1:

Introducción a la Ciencia de Datos y


Estadística Descriptiva

2
Presentación
Temas que se desarrollarán:

¿Qué es la ciencia de datos? Ciclo de vida y Aplicaciones.


¿Qué es la ciencia de datos? ¿Por qué es importante la ciencia de datos? Pensar
como un científico de datos. Propiedades de los datos. Big Data y datos
relevantes. Clasificación y regresión. Ciclo de Vida. Introducción y Definición del
Problema. Adquisición y Exploración de Datos. Preparación y Limpieza de Datos.
Modelado de Datos. Evaluación y Optimización del Modelo. Implementación y
Despliegue del Modelo. Aplicaciones. Introducción. Aplicaciones en: Finanzas,
Salud y Medicina, Comercio y Marketing, Transporte y Logística e Industria
Manufacturera. Tarea clase 01.

Fundamentos de estadística descriptiva: medidas de


centralización y dispersión.
Definición de estadística. División de la estadística. Población y muestra.
Variables. Variable Aleatoria. Variable Aleatoria Discreta. Esperanza Matemática.
Varianza. Propiedades de la Esperanza Matemática y La Varianza. Tabla de
frecuencias de una variable discreta. Agrupamiento en intervalos de clases.
Gráficos. Tablas de Contingencia. Estadística Descriptiva. Medidas de
centralización. Media aritmética. Media geométrica. Media armónica. Mediana.
Moda. Cuartiles, deciles y percentiles. Medidas de dispersión. Rango. Varianza y
desvío estándar. Coeficiente de variación. Asimetría y curtosis. Tarea clase 02.

Distribuciones de frecuencia y representaciones gráficas.


Distribuciones Discretas. Distribución Binomial. Distribución Hipergeométrica.
Distribuciones Continuas. Distribución Normal. Distribución de Poisson.
Relaciones entre la distribución Normal, Binomial y Poisson. Distribución
Logística. Distribución Chi-Cuadrada. Distribución t de Student. Distribución F de
Snedecor. Teorema Central del Límite. Tarea clase 03.

3
Herramientas y recursos disponibles en ciencia de datos.
Introducción. Lenguajes de Programación. Entornos de Desarrollo Integrados
(IDEs) y Plataformas. Herramientas para Análisis y Manipulación de Datos.
Herramientas para Visualización de Datos. Herramientas para Machine Learning
e Inteligencia Artificial. Bases de Datos y Almacenamiento. Recursos y
Comunidades en Ciencia de Datos.

4
Objetivos
Que los participantes logren…

Introducir los fundamentos de la ciencia de datos, familiarizarse con el proceso de


análisis de datos y los conceptos de estadística descriptiva.

5
Bloques temáticos

1. INTRODUCCIÓN A LA CIENCIA DE DATOS. CICLO DE VIDA Y APLICACIONES.

2. FUNDAMENTOS DE ESTADÍSTICA DESCRIPTIVA: MEDIDAS DE CENTRALIZACIÓN Y


DISPERSIÓN.

3. DISTRIBUCIONES DE FRECUENCIAS Y REPRESENTACIONES GRÁFICAS.

4. HERRAMIENTAS Y RECURSOS DISPONIBLES EN CIENCIA DE DATOS.

6
Introducción a la Ciencia de Datos. Ciclo de
Vida y Aplicaciones.

Introducción a la Ciencia de Datos.


¿Qué es la ciencia de datos?
Se puede encuadrar a la ciencia de datos como la intersección entre la estadística,
las bases de datos, la visualización de la información, el reconocimiento de
patrones, la inteligencia artificial y la minería de datos.

La ciencia de datos es un campo interdisciplinario que combina principios y


prácticas de matemáticas, estadística, inteligencia artificial e ingeniería
informática para analizar grandes volúmenes de datos y extraer información
significativa que apoye la toma de decisiones empresariales. En la ciencia de
datos confluyen la estadística, las bases de datos, la visualización de la
información, el reconocimiento de patrones, la inteligencia artificial, machine
learning y minería de datos.

Esta disciplina abarca el desarrollo de modelos que permiten procesar y analizar


datos complejos mediante programación computacional, transformándolos en
información útil para la toma de decisiones.

La ciencia de datos implica la recopilación, procesamiento, análisis y visualización


de datos para obtener conocimientos que faciliten la toma de decisiones
informadas en diversos contextos.

7
¿Por qué es importante la Ciencia de Datos?
La Ciencia de Datos ha cobrado gran relevancia en los últimos años debido a la
convergencia de diversos factores tecnológicos y económicos que han
transformado la manera en que generamos, almacenamos y analizamos datos.
Entre las principales razones que explican su auge, podemos destacar:

• Explosión de datos y nuevas fuentes de información: La digitalización de la


vida cotidiana ha generado volúmenes masivos de datos provenientes de
redes sociales, dispositivos conectados (IoT), registros de actividad en
plataformas digitales y sensores industriales. Empresas, gobiernos y
organizaciones de todo tipo están recopilando datos a una velocidad sin
precedentes. Frente a esta abundancia de información, surge la necesidad

8
de herramientas que permitan extraer valor real y convertir estos datos en
conocimiento útil para la toma de decisiones.
• Avances en infraestructura computacional y almacenamiento: Gracias a la
evolución de las tecnologías de almacenamiento y procesamiento en la
nube, hoy es posible trabajar con grandes volúmenes de datos sin
necesidad de contar con infraestructura propia costosa. Empresas y
profesionales pueden acceder a servicios escalables de procesamiento y
almacenamiento a través de plataformas como Amazon Web Services
(AWS), Google Cloud y Microsoft Azure, lo que permite democratizar el
acceso a herramientas de análisis avanzado. Además, el desarrollo de
nuevas arquitecturas de procesamiento ha facilitado el análisis en tiempo
real y la aplicación de modelos de aprendizaje automático a gran escala.
• Impacto demostrado del análisis de datos en diversas industrias: Empresas
tecnológicas de vanguardia como Google, Facebook y Amazon han
demostrado cómo el uso estratégico de los datos puede transformar
modelos de negocio y mejorar la eficiencia operativa. Más allá del sector
tecnológico, el impacto de la Ciencia de Datos se ha extendido a campos
como la medicina (diagnóstico asistido por IA), el deporte (análisis de
desempeño en equipos profesionales) y la política (predicción electoral
basada en datos masivos). Estos casos de éxito han impulsado la demanda
de profesionales capacitados en el manejo y análisis de datos.

Pensar como un científico de datos


Los futuros científicos de datos deben aprender a pensar como tales, dado que su
trabajo consistirá en convertir números en conocimiento. Históricamente, la
ciencia basada en hipótesis se ha centrado en formular preguntas específicas
sobre el mundo y luego generar los datos necesarios para confirmarlas o
refutarlas. En la actualidad, este enfoque se complementa con la ciencia basada
en datos, que busca recopilar y analizar datos a escalas sin precedentes con la
creencia de que los nuevos descubrimientos surgirán a partir de su análisis
adecuado. Ambos enfoques son esenciales en Ciencia de Datos y pueden
formularse en las siguientes preguntas clave:

• Dado un problema, ¿qué datos disponibles pueden ayudarnos a resolverlo?


• Dado un conjunto de datos, ¿a qué problemas interesantes podemos
aplicarlo?

A una escala global, como en el caso de plataformas como Facebook o Twitter,


los desafíos de infraestructura para gestionar grandes volúmenes de datos (Big
Data) se vuelven críticos. El diseño de arquitecturas eficientes para el

9
almacenamiento, procesamiento y análisis de estos datos es fundamental para
aprovechar su potencial y extraer conocimiento valioso.

La metodología de trabajo para la Ciencia de Datos es iterativa para la resolución


de problemas, por lo que es recomendable regresar a etapas previas para hacer
ajustes conforme se adquiere más experiencia, de modo que habrá que repetirlo
para que se ajusten a las condiciones cambiantes.

La explosión en la adquisición y almacenamiento de datos en los últimos años ha


sido impresionante. Se estima que el 90% de los datos globales han sido
generados en apenas los cinco últimos años. Estos datos provienen de diversas
fuentes, como sensores climáticos, publicaciones en redes sociales, imágenes y
videos digitales, registros de compras y transacciones, y señales de
posicionamiento de celulares, entre otros. Para aprovechar eficientemente esta
información, es crucial contar con un científico de datos para:

- Definir preguntas estratégicas: Basándose en los objetivos de la organización,


identificar qué preguntas responder y cómo su resolución podría impactar en el
negocio.

- Evaluar y acceder a los datos: Determinar qué datos están disponibles, su


formato y la mejor manera de acceder a ellos.

10
- Obtener y almacenar datos: Recopilar y guardar tanto los datos como los
resultados obtenidos.

- Limpiar los datos: Aplicar estrategias de limpieza adecuadas según el problema,


como eliminar registros incompletos o completarlos con modelos estadísticos.

- Explorar los datos: Utilizar herramientas estadísticas y gráficas para analizarlos.

- Desarrollar modelos estadísticos y predictivos: Implementar técnicas de minería


de datos y modelos predictivos según sea necesario.

- Interpretar y presentar resultados: Comunicar los hallazgos de manera


comprensible mediante gráficos, tablas y visualizaciones.

Para ser un científico de datos, es ideal poseer ciertas características clave:

- Sensibilidad hacia los problemas empresariales: Capacidad para traducir


problemas de negocio en datos y viceversa.

- Experiencia en manejo de grandes conjuntos de datos: Poder procesar decenas


de millones de registros en un plazo razonable.

- Capacidad de exploración: Analizar los datos de manera efectiva.

- Escepticismo hacia los modelos: No confiar ciegamente en ellos.

- Uso estratégico de técnicas de Big Data: Considerarlas como último recurso.

- Comunicación efectiva a nivel gerencial: Presentar resultados de manera clara y


comprensible.

- Conciencia del retorno de inversión: Entender cómo su trabajo aporta valor


económico a la organización.

- Identificar soluciones simples y escalables: Optar por soluciones prácticas


cuando sea posible.

- Pasión por el análisis: Disfrutar del proceso de descubrimiento.

- Experiencia práctica con casos de éxito: Haber logrado resultados tangibles en


el pasado.

11
- Conocimiento de arquitecturas de datos: Dominar la gestión de datos y procesos
de extracción, transformación y carga.

- Habilidades básicas de computación: Tener una buena base en programación.

- Conocimiento de algoritmos: Entender los algoritmos existentes, sus fortalezas


y limitaciones.

Para el caso de inteligencia de negocios, por ejemplo, el punto de partida es definir


la pregunta que se busca responder. Esto determina el tipo de análisis necesario
y la estrategia general. Las preguntas pueden clasificarse según su complejidad:

1. Descriptiva: Describe los datos para entender su contenido (por ejemplo,


encuestas).

2. Exploratoria: Busca conexiones entre variables, sin asumir causalidad.

3. Inferencial: Usa muestras para inferir sobre poblaciones más grandes.

4. Predictiva: Utiliza datos para predecir valores futuros mediante algoritmos de


minería de datos.

5. Causal: Analiza cómo el cambio en una variable afecta a otra.

6. Mecánica: Modela cambios exactos entre variables usando ecuaciones


empíricas.

Propiedades de los datos


En este punto se presenta una breve clasificación de las propiedades de los datos,
lo que nos ayudará a comprender mejor la naturaleza de la información con la que
trabajaremos.

Datos Estructurados vs. Datos No Estructurados:

Algunos conjuntos de datos están bien estructurados, como las tablas en una
base de datos o en un programa de hojas de cálculo. Normalmente, los datos
se representan en forma de matriz, donde las filas representan elementos o
registros distintos, y las columnas representan las características de estos
elementos. Por ejemplo, un conjunto de datos sobre ciudades podría contener
una fila por ciudad y columnas con atributos como el estado, la población y el
área.

12
Cuando nos enfrentamos a una fuente de datos no estructurada, como una
colección de tweets en Twitter, el primer paso suele ser convertirla en una
estructura organizada. Un enfoque común es el modelo de bolsa de palabras
(Bag of Words), que crea una matriz donde cada fila representa un tweet y
cada columna representa una palabra del vocabulario más frecuente. En esta
matriz, la entrada 𝑀[𝑖, 𝑗] indica el número de veces que el tweet 𝑖 contiene la
palabra 𝑗.

Datos Cuantitativos vs. Datos Categóricos:

Los datos cuantitativos consisten en valores numéricos, como la altura y el


peso. Este tipo de datos puede integrarse directamente en fórmulas
algebraicas y modelos matemáticos, o representarse en gráficos y tablas
convencionales.

Por el contrario, los datos categóricos son etiquetas que describen las
propiedades de los objetos en estudio, como el género, el color de cabello o la
ocupación. Esta información descriptiva puede ser tan precisa y significativa
como los datos numéricos, pero no puede analizarse con las mismas técnicas.

Big Data vs. Small Data:

En la percepción pública, la ciencia de datos se ha asociado con el big data,


que implica el análisis de conjuntos de datos masivos generados a partir de
registros y dispositivos sensores. En principio, tener más datos siempre es
mejor que tener menos, ya que siempre se puede reducir el tamaño de la
muestra si es necesario. Sin embargo, en la práctica, trabajar con grandes
volúmenes de datos presenta desafíos. Algunos de los principales desafíos del
big data incluyen:

1. El tiempo de análisis se incrementa con el tamaño de los datos: El


procesamiento de los datos tarda más cuando el volumen aumenta. Un
archivo pequeño en una hoja de cálculo ofrece respuestas instantáneas, lo
que permite experimentar y hacer preguntas tipo "¿qué pasaría si...?". Sin
embargo, las hojas de cálculo más grandes pueden volverse lentas y
difíciles de manejar, y cuando los datos son lo suficientemente masivos,
puede llevar horas o días obtener respuestas. Aunque los algoritmos
avanzados pueden lograr cosas sorprendentes con big data, trabajar con
volúmenes pequeños permite un análisis más rápido y ágil.
2. Los grandes volúmenes de datos son difíciles de visualizar: Los gráficos
con millones de puntos son imposibles de mostrar en una pantalla o en una

13
imagen impresa, y aún más difíciles de interpretar conceptualmente. ¿Cómo
podemos entender algo que ni siquiera podemos ver?
3. Modelos Simples y la Necesidad de Datos: Los modelos simples no
requieren grandes volúmenes de datos para ajustarse o evaluarse. Una
tarea típica en ciencia de datos puede ser tomar una decisión, como
determinar si se debe ofrecer un seguro de vida a una persona, basándose
en un pequeño número de variables como edad, género, altura, peso y la
presencia o ausencia de condiciones médicas preexistentes. Si tenemos
estos datos de un millón de personas junto con sus resultados de vida,
deberíamos ser capaces de construir un buen modelo general para evaluar
el riesgo de cobertura. Sin embargo, tener estos datos de cientos de
millones de personas probablemente no mejoraría sustancialmente el
modelo. Los criterios de decisión basados en solo unas pocas variables
(como edad y estado civil) no pueden ser demasiado complejos y deberían
ser robustos en una gran cantidad de solicitantes. Cualquier patrón que sea
tan sutil que requiera un volumen masivo de datos para detectarlo
probablemente sea irrelevante para un negocio que opera a gran escala.

Big Data y Datos Relevantes


El big data se considera en ocasiones como "bad data" porque muchas veces los
datos son recolectados como un subproducto de sistemas y procesos, en lugar de
ser recopilados con un propósito específico en mente. Como resultado, se
generan enormes volúmenes de información que pueden ser confusos,
incompletos o irrelevantes para el análisis que se desea realizar.

En numerosas ocasiones, se invierten grandes esfuerzos en limpiar, estructurar e


interpretar datos simplemente porque están disponibles, sin garantizar que
aporten valor real. Por ejemplo, si el objetivo es medir la opinión pública en una
elección presidencial, podríamos considerar dos enfoques contrastantes:

- Enfoque de Big Data: Analizar grandes volúmenes de publicaciones en


redes sociales como Twitter o Facebook, buscando patrones en los textos,
hashtags y menciones para inferir preferencias de los votantes.
- Enfoque de Small Data: Realizar una encuesta estructurada a una muestra
representativa de ciudadanos, preguntando directamente su intención de
voto y tabulando los resultados.

A primera vista, el enfoque de Big Data parece ofrecer más información debido al
gran volumen de datos analizados. Sin embargo, esto no garantiza que los datos
sean representativos ni que las conclusiones sean precisas. Las redes sociales

14
contienen sesgos importantes: no toda la población está representada en ellas,
los usuarios expresan opiniones de manera selectiva y los algoritmos de las
plataformas pueden distorsionar la percepción real de la opinión pública.

En contraste, el Small Data, a pesar de basarse en menos información, puede


proporcionar resultados más precisos si se diseña correctamente la muestra y se
formulan las preguntas de manera adecuada. Por lo tanto, no siempre el conjunto
de datos más grande es el mejor. La clave está en la relevancia y calidad de los
datos en relación con la pregunta que se quiere responder. Elegir la estrategia de
análisis adecuada depende del contexto y de la confiabilidad de las fuentes de
información disponibles.

Clasificación y Regresión
Dos tipos de problemas aparecen repetidamente en la ciencia de datos tradicional
y en aplicaciones de reconocimiento de patrones: los problemas de clasificación
y los de regresión. Es útil introducir brevemente estos conceptos ahora.

- Clasificación: A menudo, necesitamos asignar una etiqueta a un elemento


a partir de un conjunto discreto de opciones. Algunos ejemplos de
problemas de clasificación incluyen:
✓ Predecir el ganador de un evento deportivo (¿Equipo A o Equipo B?).
✓ Determinar el género de una película (¿Comedia, drama o
animación?).

Estos son problemas de clasificación, ya que cada uno requiere


seleccionar una etiqueta entre varias opciones posibles.

- Regresión: Otro problema común en ciencia de datos es predecir un valor


numérico continuo. Algunos ejemplos de problemas de regresión incluyen:
✓ Predecir la altura de una persona.
✓ Estimar cuánta lluvia caerá en un año determinado.
Aquí, el objetivo es estimar el valor de una variable numérica en función
de valores anteriores y otras características relevantes.

Ciclo de Vida
Introducción

15
El ciclo de vida de la ciencia de datos es un proceso estructurado que permite
convertir datos en conocimiento útil para la toma de decisiones. Este ciclo consta
de varias etapas interconectadas que abarcan desde la identificación del problema
hasta la implementación de soluciones basadas en datos. Cada fase tiene un
propósito específico y requiere herramientas y metodologías adecuadas para su
desarrollo.

1. Definición del Problema


La primera etapa del ciclo de vida de la ciencia de datos consiste en definir el
problema que se desea resolver. Esta fase es crucial, ya que determina el enfoque
del análisis, los datos necesarios y las herramientas a utilizar. Una mala definición
del problema puede llevar a resultados irrelevantes o inexactos.

1.1 Identificación del Problema de Negocio

Antes de comenzar a trabajar con los datos, es esencial comprender el contexto


en el que se aplicará el análisis. Para ello, se deben responder preguntas como:

- ¿Cuál es el objetivo del análisis?

- ¿Qué impacto se espera lograr con los resultados?

- ¿Quiénes son las partes interesadas en este proyecto?

Ejemplos de problemas en diferentes industrias:

- Finanzas: Predecir el riesgo de crédito de los clientes.

- Salud: Identificar patrones en enfermedades a partir de datos clínicos.

- Retail: Optimizar la gestión de inventarios con base en patrones de compra.

- Marketing: Mejorar la segmentación de clientes para campañas publicitarias.

1.2 Conversión del Problema de Negocio en un Problema de Datos

Una vez identificado el problema de negocio, es necesario traducirlo en términos


cuantificables y operativos para su análisis mediante técnicas de ciencia de datos.
Esto implica:

- Definir qué variables son relevantes para el estudio.

- Determinar si el problema es de clasificación, regresión o clustering.

16
- Establecer métricas clave para evaluar el éxito del modelo.

Ejemplo:

- Problema de negocio: Reducir la tasa de cancelación de suscripciones en un


servicio de streaming.

- Problema de datos: Construir un modelo predictivo que identifique clientes con


alta probabilidad de cancelar su suscripción dentro de los próximos tres meses.

- Métricas clave: Precisión, recall, F1-score del modelo.

1.3 Alcance y Limitaciones

Es importante definir los límites del proyecto para evitar desviaciones en el


análisis. Algunos aspectos a considerar incluyen:

- Disponibilidad y calidad de los datos.

- Restricciones de tiempo y recursos computacionales.

- Posibles sesgos en los datos que puedan afectar los resultados.

La etapa de definición del problema es la base sobre la cual se construye todo el


análisis de datos. Una correcta formulación del problema garantiza que el enfoque
sea adecuado y que los resultados obtenidos sean relevantes y accionables. En
la próxima parte, exploraremos la siguiente fase del ciclo de vida: la adquisición y
exploración de datos.

2. Adquisición y Exploración de Datos


2.1 Adquisición de Datos

Una vez definido el problema, el siguiente paso en el ciclo de vida de la ciencia de


datos es la adquisición de datos. Esta fase consiste en recopilar la información
necesaria para el análisis, asegurando que los datos sean representativos y
relevantes para el problema planteado.

Fuentes de Datos

Los datos pueden provenir de diversas fuentes, entre las que se incluyen:

• Bases de datos relacionales (SQL, PostgreSQL, MySQL).

17
• APIs y servicios web (Google Analytics, Twitter API, Open Data).

• Archivos locales (CSV, Excel, JSON, XML).

• Big Data y almacenamiento en la nube (Google Cloud Storage, AWS S3,


Azure Data Lake).

• Datos generados internamente (logs de servidores, sensores IoT).

Métodos de Adquisición

Dependiendo del tipo de fuente, se pueden utilizar diferentes técnicas para


obtener los datos:

• Extracción directa de bases de datos mediante consultas SQL.

• Scraping web con herramientas como BeautifulSoup y Scrapy.

• Uso de APIs con peticiones HTTP mediante librerías como requests y json
en Python.

• Carga de archivos manual o automatizada desde servidores locales o en


la nube.

2.2 Exploración de Datos

Antes de proceder con la limpieza y modelado de los datos, es fundamental


realizar una exploración preliminar para entender sus características y calidad.
Este proceso incluye:

Análisis de la Estructura de los Datos

• Revisión del número de filas y columnas.

• Identificación de los tipos de datos (numéricos, categóricos, textuales).

• Detección de valores nulos o faltantes.

Estadísticas Descriptivas

• Cálculo de medidas como media, mediana, moda, desviación estándar.

• Distribución de variables y detección de valores atípicos (outliers).

18
• Análisis de correlaciones entre variables.

Visualización de Datos

El uso de gráficos permite detectar patrones y anomalías de manera intuitiva:

• Histogramas y boxplots para analizar distribuciones.

• Diagramas de dispersión para identificar relaciones entre variables.

• Matrices de correlación para evaluar dependencias entre datos.

La adquisición y exploración de datos son pasos fundamentales para garantizar


la calidad del análisis. La correcta selección de fuentes y la inspección inicial de
los datos permiten detectar problemas tempranos y definir estrategias de limpieza
y transformación, las cuales serán abordadas en la siguiente parte del documento.

3. Preparación y Limpieza de Datos


3.1 Importancia de la Limpieza de Datos

Los datos raramente están listos para ser analizados en su forma original. La
presencia de datos erróneos, duplicados o incompletos puede afectar la calidad
de los modelos y generar resultados poco confiables. La limpieza de datos es una
de las etapas más críticas en el ciclo de vida de la ciencia de datos, ya que impacta
directamente en la calidad del análisis.

3.2 Pasos en la Limpieza de Datos

3.2.1 Manejo de Valores Faltantes

• Eliminación de registros con valores nulos si la cantidad de datos faltantes


es pequeña.

• Imputación de valores mediante técnicas estadísticas (media, mediana,


moda) o modelos avanzados.

3.2.2 Eliminación de Duplicados

• Identificación y eliminación de filas duplicadas para evitar sesgos en el


análisis.

3.2.3 Corrección de Errores en los Datos

19
• Normalización de formatos (fechas, unidades de medida, nombres de
variables).

• Detección y corrección de valores atípicos mediante reglas de negocio o


estadísticas.

3.3 Transformación de Datos

• Creación de variables derivadas para enriquecer el análisis.

• Conversión de variables categóricas en variables numéricas (one-hot


encoding, label encoding).

• Escalado y normalización de variables para mejorar el rendimiento de


modelos.

La preparación y limpieza de datos garantiza que los datos sean precisos,


coherentes y utilizables en el análisis posterior. Una limpieza adecuada reduce
errores y mejora la eficacia de los modelos predictivos, lo que abordaremos en la
siguiente etapa del documento.

4. Modelado de Datos
4.1 Selección del Modelo

Después de la limpieza y transformación de los datos, se debe seleccionar el


modelo de machine learning o estadístico más adecuado para el problema
definido.

Tipos de Modelos

• Regresión: Modelos como regresión lineal, regresión logística.

• Clasificación: Árboles de decisión, Random Forest, SVM, redes


neuronales.

• Clustering: K-means, DBSCAN, clustering jerárquico.

4.2 Entrenamiento del Modelo

• Dividir los datos en conjuntos de entrenamiento y prueba.

• Ajustar los hiperparámetros para mejorar el rendimiento.

20
• Evaluar métricas como precisión, recall, RMSE, R².

4.3 Validación del Modelo

• Validación cruzada para evitar sobreajuste.

• Comparación con modelos base y selección del mejor rendimiento.

El modelado de datos es una etapa clave en la ciencia de datos, donde se aplican


algoritmos para generar predicciones y clasificaciones precisas. En la siguiente
parte, abordaremos la evaluación y optimización de los modelos.

5. Evaluación y Optimización del Modelo


5.1 Evaluación del Modelo

Una vez que el modelo ha sido entrenado, es fundamental evaluar su rendimiento


para asegurarse de que sea preciso y generalizable. Para ello, se utilizan
diferentes métricas según el tipo de problema:

Métricas de Evaluación

• Para problemas de clasificación:

o Precisión (Accuracy)

o Precisión y recall

o F1-score

o Matriz de confusión

o AUC-ROC

• Para problemas de regresión:

o Error cuadrático medio (MSE)

o Raíz del error cuadrático medio (RMSE)

o Coeficiente de determinación (R²)

5.2 Optimización del Modelo

21
Después de evaluar el rendimiento, se pueden aplicar diferentes estrategias para
mejorar el modelo:

Técnicas de Optimización

• Ajuste de hiperparámetros usando Grid Search o Random Search.

• Validación cruzada para mejorar la generalización del modelo.

• Uso de técnicas de regularización (L1, L2) para evitar sobreajuste.

• Selección de características para eliminar variables irrelevantes y reducir la


complejidad del modelo.

5.3 Comparación entre Modelos

Para determinar cuál modelo es el mejor, es común entrenar y evaluar múltiples


modelos utilizando las mismas métricas y datos. Algunas estrategias incluyen:

• Comparar modelos base con modelos más complejos.

• Aplicar ensambles como Bagging, Boosting o Stacking.

• Analizar el trade-off entre interpretabilidad y rendimiento.

La evaluación y optimización de modelos es una etapa clave en el ciclo de vida


de la ciencia de datos. Mediante el uso de métricas adecuadas y técnicas de
optimización, se pueden mejorar los modelos para que sean más precisos y
generalizables. En la siguiente parte, abordaremos la implementación y el
despliegue del modelo en entornos productivos.

6. Implementación y Despliegue del Modelo


6.1 Preparación para la Implementación

Después de evaluar y optimizar el modelo, el siguiente paso es su implementación


en un entorno productivo. Esto implica convertir el modelo entrenado en un
sistema que pueda utilizarse en la toma de decisiones en tiempo real o en
procesos automatizados.

Consideraciones Clave Antes del Despliegue

• Escalabilidad: ¿El modelo puede manejar grandes volúmenes de datos?

22
• Latencia: ¿El tiempo de respuesta del modelo es aceptable para su
aplicación?

• Mantenimiento: ¿El modelo puede actualizarse y monitorearse con


facilidad?

• Interpretabilidad: ¿Los usuarios pueden entender y confiar en los resultados


del modelo?

6.2 Métodos de Despliegue

Existen diversas formas de desplegar un modelo de ciencia de datos dependiendo


del caso de uso y la infraestructura disponible.

6.2.1 Despliegue en Servidores Locales

• Implementación en entornos locales con frameworks como Flask o FastAPI.

• Uso de contenedores Docker para facilitar la portabilidad y escalabilidad.

6.2.2 Despliegue en la Nube

• Implementación en plataformas como AWS, Google Cloud o Azure.

• Uso de servicios específicos como AWS Lambda, Google AI Platform o


Azure ML.

• Integración con bases de datos y APIs para consumir y almacenar


predicciones.

6.2.3 Integración en Aplicaciones

• Embebido en aplicaciones web o móviles para ofrecer predicciones en


tiempo real.

• Uso de APIs REST para conectar el modelo con otros sistemas.

• Incorporación en pipelines de datos mediante herramientas como Apache


Airflow.

6.3 Monitoreo y Mantenimiento del Modelo

Una vez desplegado, el modelo debe ser monitoreado para garantizar su


rendimiento continuo y evitar la degradación con el tiempo.

23
6.3.1 Monitoreo de Rendimiento

• Seguimiento de métricas de precisión y error en datos en producción.

• Comparación entre predicciones y valores reales para detectar drift en los


datos.

• Alerta ante cambios significativos en el comportamiento del modelo.

6.3.2 Retrabajo y Actualización

• Retrain del modelo con nuevos datos periódicamente.

• Evaluación de nuevas arquitecturas o mejoras en los hiperparámetros.

• Automatización de la actualización mediante pipelines de CI/CD.

La implementación y el despliegue de modelos es la última fase del ciclo de vida


de la ciencia de datos, asegurando que el modelo entrenado pueda ser utilizado
en entornos reales. La clave del éxito en esta etapa radica en garantizar
escalabilidad, mantenibilidad y monitoreo continuo del rendimiento del modelo.
Con esto, se cierra el ciclo de vida de la ciencia de datos, permitiendo la
optimización y mejora continua de los modelos con base en datos actualizados.

Aplicaciones
Introducción
El ciclo de vida de la ciencia de datos no solo define la metodología para
transformar datos en conocimiento, sino que también tiene aplicaciones en
diversos sectores. Cada industria aprovecha este proceso para mejorar la toma
de decisiones, optimizar operaciones y desarrollar nuevos productos o servicios.
En este documento, exploraremos cómo se aplica el ciclo de vida de la ciencia de
datos en diferentes áreas, comenzando con el sector financiero.
Aplicaciones en Finanzas

24
El sector financiero es uno de los que más ha adoptado la ciencia de datos debido
a la gran cantidad de datos transaccionales, históricos y en tiempo real que
maneja. A continuación, se detallan algunas aplicaciones clave en esta industria:

1. Evaluación y Predicción de Riesgo Crediticio

• Uso de modelos de machine learning para evaluar la solvencia de clientes.

• Aplicación de técnicas de clasificación para determinar la probabilidad de


incumplimiento de pago.

• Implementación de modelos de regresión y clustering para segmentar


clientes según su perfil financiero.

2. Detección de Fraude Financiero

• Análisis de transacciones en tiempo real para identificar patrones


sospechosos.

• Uso de redes neuronales y modelos de aprendizaje supervisado para


detectar fraudes en tarjetas de crédito.

• Implementación de sistemas de alerta temprana para mitigar riesgos en


operaciones bancarias.

3. Optimización de Portafolios de Inversión

• Aplicación de modelos de series temporales para predecir tendencias del


mercado.

• Uso de algoritmos de optimización matemática para distribuir activos de


manera eficiente.

• Implementación de estrategias de trading algorítmico basadas en


modelos predictivos.

4. Personalización de Servicios Financieros

25
• Uso de modelos de recomendación para ofrecer productos financieros
adaptados a cada cliente.

• Implementación de asistentes virtuales basados en procesamiento de


lenguaje natural (NLP).

• Análisis de datos de clientes para diseñar campañas de marketing


financiero más efectivas.

El ciclo de vida de la ciencia de datos ha revolucionado el sector financiero,


permitiendo automatizar decisiones, mejorar la seguridad y ofrecer productos más
personalizados. En la siguiente parte, exploraremos su impacto en la industria de
la salud y la medicina.
Aplicaciones en Salud y Medicina
El sector de la salud y la medicina ha experimentado una transformación
significativa con la integración de la ciencia de datos. Desde la optimización de
diagnósticos hasta el descubrimiento de nuevos medicamentos, el uso de datos
ha permitido mejorar la calidad y eficiencia de los servicios médicos. A
continuación, exploramos algunas de sus principales aplicaciones.

1. Diagnóstico y Detección de Enfermedades

• Uso de redes neuronales convolucionales (CNN) para el análisis de


imágenes médicas, como resonancias magnéticas y radiografías.

• Aplicación de algoritmos de machine learning para identificar patrones en


análisis de sangre y datos genéticos.

• Implementación de sistemas de diagnóstico asistido por inteligencia


artificial para apoyar a los médicos en la toma de decisiones.

2. Medicina Personalizada y Predicción de Enfermedades

• Uso de modelos predictivos para identificar el riesgo de desarrollar


enfermedades crónicas como diabetes o enfermedades cardiovasculares.

26
• Análisis de datos genéticos y de historial clínico para diseñar tratamientos
personalizados.

• Aplicación de aprendizaje automático para ajustar dosis de medicamentos


según las características individuales del paciente.

3. Optimización de Procesos Hospitalarios

• Uso de modelos de series temporales para predecir la demanda de


camas en hospitales.

• Implementación de sistemas de gestión de inventarios para optimizar el


suministro de medicamentos y equipos médicos.

• Aplicación de análisis de datos en tiempo real para reducir los tiempos de


espera y mejorar la eficiencia operativa.

4. Descubrimiento de Fármacos y Desarrollo de Vacunas

• Uso de simulaciones computacionales para identificar compuestos con


potencial terapéutico.

• Aplicación de modelos de aprendizaje profundo para analizar


interacciones entre proteínas y fármacos.

• Análisis de grandes volúmenes de datos clínicos para acelerar ensayos


clínicos y validar tratamientos.

El impacto de la ciencia de datos en la salud y la medicina es significativo,


permitiendo diagnósticos más precisos, tratamientos personalizados y una mejor
gestión hospitalaria. En la siguiente parte, exploraremos su aplicación en el sector
del comercio y el marketing.
Aplicaciones en Comercio y Marketing
El comercio y el marketing han evolucionado drásticamente con la llegada de la
ciencia de datos. Las empresas utilizan técnicas avanzadas de análisis para

27
comprender el comportamiento de los clientes, optimizar estrategias de ventas y
mejorar la experiencia del usuario. A continuación, se presentan algunas
aplicaciones clave en este sector.

1. Análisis del Comportamiento del Cliente

• Uso de análisis de cohortes para entender cómo los clientes interactúan


con los productos a lo largo del tiempo.

• Aplicación de técnicas de segmentación como clustering para agrupar


clientes con características similares.

• Implementación de modelos de customer lifetime value (CLV) para


predecir el valor futuro de los clientes.

2. Personalización de la Experiencia del Usuario

• Aplicación de modelos de recomendación basados en filtrado


colaborativo y deep learning para sugerir productos.

• Uso de sistemas de optimización de precios dinámicos según la


demanda y el comportamiento de los clientes.

• Implementación de chatbots con procesamiento de lenguaje natural


(NLP) para mejorar la atención al cliente.

3. Optimización de Campañas de Marketing

• Uso de análisis predictivo para identificar qué estrategias de marketing


generan mayor conversión.

• Aplicación de A/B testing para evaluar el impacto de diferentes campañas


publicitarias.

• Implementación de modelos de atribución para determinar qué canales


contribuyen más a las ventas.

28
4. Gestión de Inventarios y Logística

• Aplicación de series temporales y modelos de machine learning para


predecir la demanda de productos.

• Optimización de rutas de distribución con algoritmos de optimización


combinatoria.

• Implementación de sistemas de gestión de stock en tiempo real para


evitar sobreproducción o escasez de productos.

El comercio y el marketing han sido transformados por la ciencia de datos,


permitiendo una mejor toma de decisiones basada en datos, estrategias de
marketing más efectivas y una experiencia de usuario altamente personalizada.
En la siguiente parte, exploraremos cómo la ciencia de datos está revolucionando
la industria del transporte y la logística.
Aplicaciones en Transporte y Logística
El sector del transporte y la logística ha evolucionado significativamente con la
adopción de la ciencia de datos. Las empresas utilizan análisis avanzados para
mejorar la eficiencia en la gestión de flotas, optimizar rutas y reducir costos
operativos. A continuación, se presentan algunas de sus aplicaciones más
relevantes.

1. Optimización de Rutas y Distribución

• Uso de modelos de optimización para reducir tiempos de entrega y costos


de transporte.

• Aplicación de algoritmos de machine learning para predecir la demanda


y ajustar la distribución.

• Implementación de sistemas de tráfico en tiempo real para mejorar la


eficiencia logística.

2. Gestión Inteligente de Flotas

29
• Monitoreo en tiempo real de vehículos mediante Internet de las Cosas
(IoT) y análisis de datos.

• Uso de mantenimiento predictivo para reducir fallos mecánicos y mejorar


la seguridad.

• Optimización del consumo de combustible con modelos de análisis de


eficiencia energética.

3. Predicción de Demanda y Gestión de Inventarios

• Aplicación de series temporales para estimar la demanda futura de


productos y mejorar el almacenamiento.

• Uso de sistemas de reposición automática para evitar quiebres de stock.

• Análisis de patrones de compra para mejorar la cadena de suministro.

4. Seguridad y Reducción de Riesgos

• Implementación de modelos de análisis de riesgos para identificar posibles


accidentes y minimizar su impacto.

• Uso de visión por computadora y análisis de sensores para detectar


comportamientos inseguros en conductores.

• Aplicación de sistemas de geolocalización y monitoreo para prevenir robos


y mejorar la seguridad en el transporte de mercancías.

5. Sostenibilidad y Reducción del Impacto Ambiental

• Optimización de rutas y cargas para reducir la huella de carbono.

• Uso de análisis de datos para promover el uso de combustibles alternativos


y mejorar la eficiencia energética.

• Implementación de sistemas inteligentes para la gestión de residuos en


operaciones logísticas.

30
6. Automatización y Vehículos Autónomos

• Desarrollo de modelos de inteligencia artificial para la conducción autónoma y la


optimización de trayectos.

• Uso de análisis predictivo para mejorar la toma de decisiones en sistemas de


transporte automatizados.

• Integración de drones y robots en la logística de última milla para mejorar la


eficiencia y tiempos de entrega.

7. Experiencia del Cliente y Personalización del Servicio

• Implementación de modelos de recomendación para optimizar la asignación de


vehículos y mejorar la experiencia del usuario.

• Uso de análisis de sentimiento y procesamiento de lenguaje natural (NLP) para


evaluar la satisfacción del cliente.

• Aplicación de modelos de personalización en servicios de movilidad, como el


ride-sharing y la distribución bajo demanda.

La ciencia de datos ha revolucionado el sector del transporte y la logística,


permitiendo a las empresas mejorar su eficiencia operativa, reducir costos y
ofrecer un mejor servicio a sus clientes. Con la incorporación de tecnologías
emergentes como el IoT, la inteligencia artificial y el big data, el futuro de la
industria apunta hacia una mayor automatización, sostenibilidad y capacidad de
adaptación a las demandas del mercado.
Aplicaciones en la Industria Manufacturera
La industria manufacturera ha sido transformada por la ciencia de datos,
permitiendo mejorar la eficiencia operativa, optimizar el mantenimiento de
maquinaria y reducir costos de producción. A continuación, se presentan algunas
de las aplicaciones más relevantes en este sector.

1. Mantenimiento Predictivo

31
• Uso de modelos de machine learning para predecir fallos en maquinaria
y reducir tiempos de inactividad.

• Implementación de sensores IoT para monitorear el estado de los equipos


en tiempo real.

• Análisis de patrones de fallos para optimizar programas de mantenimiento


preventivo.

2. Optimización de la Producción

• Aplicación de modelos de simulación para mejorar la planificación y


distribución de recursos.

• Uso de análisis de datos en tiempo real para ajustar la producción según


la demanda del mercado.

• Implementación de redes neuronales para detectar anomalías en


procesos de fabricación y reducir desperdicios.

3. Control de Calidad Automatizado

• Uso de visión artificial para inspeccionar productos en la línea de


producción.

• Aplicación de aprendizaje profundo para detectar defectos en tiempo real


y reducir errores humanos.

• Análisis de datos de sensores para mejorar la consistencia y calidad de los


productos manufacturados.

4. Gestión de la Cadena de Suministro

• Uso de modelos de series temporales para predecir la demanda y


optimizar inventarios.

32
• Implementación de algoritmos de optimización logística para mejorar la
distribución de insumos y productos.

• Análisis de datos en tiempo real para mitigar riesgos en la cadena de


suministro y mejorar la resiliencia operativa.

La ciencia de datos ha revolucionado la manufactura al proporcionar herramientas


avanzadas para mejorar la eficiencia, reducir costos y garantizar productos de
mayor calidad. En la siguiente parte, exploraremos su impacto en el sector
energético y medioambiental.

33
Fundamentos de Estadística Descriptiva:
Medidas de centralización y dispersión
Introducción
Definición de Estadística

El término estadística fue acuñado en 1760 por Godofredo Achenwall, profesor de


la Universidad de Gotinga, a partir del italiano statista (estadista). Para definir la
Estadística es preciso mencionar que su objetivo es recopilar información de
orden cualitativa o cuantitativa, perteneciente a individuos, grupos, hechos o
fenómenos, y deducir a partir del análisis de los datos respuestas a interrogantes
o proyecciones futuras. Es la ciencia cuyo objetivo es reunir información
cuantitativa concerniente a individuos, grupos, series de hechos, etc. y deducir a
partir de ello, mediante el análisis de datos, unos significados precisos o unas
previsiones para el futuro. La estadística es la ciencia que trata de la recopilación,
organización, presentación, análisis e interpretación de datos numéricos con el fin
de facilitar la toma de decisiones de forma más efectiva. En general, estudia los
métodos empleados en la recolección, organización, resumen, análisis e
interpretación de datos, con el fin de obtener validez en las conclusiones y tomar
decisiones de manera razonable y efectiva.

Es común que se confundan los demás términos asociados con la Estadística,


una confusión que es conveniente aclarar debido a que esta palabra tiene tres
significados:

1) la palabra estadística, en primer término, se usa para referirse a la información


estadística.

2) también se utiliza para referirse al conjunto de técnicas y métodos que se


utilizan para analizar la información estadística.

3) el término estadístico se refiere a una medida derivada de una muestra.

División de la Estadística

La Estadística se ha dividido en dos grandes ramas: la Estadística Descriptiva y


la Inferencial.

✓ Estadística Descriptiva: consiste sobre todo en la presentación de datos en


forma de tablas y gráficos. Esta comprende cualquier actividad relacionada

34
con los datos y está diseñada para resumir o describir los mismos sin
factores pertinentes adicionales; esto es, sin intentar inferir nada que vaya
más allá de los datos, como tales.
✓ Estadística Inferencial: se deriva de muestras, de observaciones hechas
sólo acerca de una parte de un conjunto numeroso de elementos y esto
implica que su análisis requiere de generalizaciones que van más allá de
los datos. La Estadística Inferencial investiga o analiza una población
partiendo de una muestra tomada.

Población y Muestra

Al realizar un estudio es necesario tener bien en claro la diferencia entre población


y muestra.

✓ Población: Se llama población al conjunto completo de elementos que se


estudia y que tienen una característica en común, que es el objeto de
estudio.
✓ Muestra: A un subconjunto de elementos de la población se le conoce como
muestra. El número de elementos de la muestra recibe el nombre de:
tamaño de la muestra. El caso particular de una muestra que incluye a todos
los elementos de la población es conocido como censo.

En todos estos casos, la población representa el conjunto total de elementos que


se desean estudiar, mientras que la muestra es un subconjunto representativo de
esa población, seleccionado para hacer inferencias sin necesidad de analizar a
todos los individuos.

Variables

Se considera como variable cualquier característica o propiedad general de una


población que sea posible medir con distintos valores o describir con diferentes
modalidades, por ejemplo: las calificaciones de los estudiantes de un grupo
pueden tener diferentes valores, o el nivel educativo de los empleados de una
organización puede estar caracterizado como secundario, terciario, universitario,
entre otros. Así, estas dos características se consideran variables porque, como
el término lo indica, varían al medirse o caracterizarse de una unidad de análisis
a otra.

En algunos casos, las características de las unidades de análisis pueden ser


medidas, mientras que en otros solo es posible describirlas. Para el ejemplo
anterior, las calificaciones es posible medirlas en los estudiantes, lo cual obedece
a una característica cuantitativa y el nivel educativo en los empleados solo se

35
puede describir (no medir), por ser una característica cualitativa. En este sentido,
las variables pueden diferenciarse en dos grupos: cualitativas y cuantitativas
dependiendo del tipo de datos que representan.

Las variables categóricas o cualitativas resultan de registrar la presencia de un


atributo. Las categorías de este tipo de variables deben ser mutuamente
excluyentes y exhaustivas, es decir que, cada unidad de observación debe ser
clasificada sin ambigüedad en una y sólo una de las categorías posibles y que
existe una categoría para clasificar a todo individuo.

Es importante contemplar todas las posibilidades cuando se construyen variables


categóricas, incluyendo una categoría tal como No sabe/No contesta, o No
registrado u Otras, que asegura que todos los individuos observados serán
clasificados con el criterio que define la variable. Los datos categóricos pueden
ser

a) Dicotómicos: La unidad de observación puede ser asignada a solo una de


dos categorías. En general, se trata de la presencia o ausencia de un
atributo. La ventaja de este tipo de datos es la de poder asignar código 0 a
la ausencia y 1 a la presencia. Ejemplos, Varón / Mujer o Embarazada / No
embarazada
b) Más de dos categorías: En este tipo de datos, si no existe un orden obvio
entre las categorías, se denominan nominales. Por ejemplo: país de origen,
estado civil. De existir un orden natural entre las categorías se denominan
ordinales. Un ejemplo clásico es cuando se debe manifestar el acuerdo o
no, respecto de una cuestión: Totalmente en desacuerdo, En desacuerdo,
Indiferente, De acuerdo y Totalmente de acuerdo.

Una variable es cuantitativa cuando el resultado de la observación o medición es


un número. Estas variables pueden ser

a) Discretas, cuando solo pueden tomar una cantidad (finita o infinita) numerable
de valores, es decir pueden tomar un cierto conjunto de valores posibles. En
general, aparecen por conteo. Por ejemplo, el número de electrones de un átomo,
cantidad de personas que viven en un departamento.

b) Continuas, generalmente son el resultado de una medición que se expresa en


unidades. Las mediciones pueden tomar teóricamente un conjunto infinito de
valores posibles dentro de un rango. En la práctica los valores posibles de esta
variable están limitados por la precisión del método de medición o por el modo de
registro. Por ejemplo, la velocidad de un auto o el peso de una persona.

36
La distinción entre datos discretos y continuos es la diferencia básica que existe
entre contar y medir. Considérese, por ejemplo, la variable edad. Edad es
continua, pero si se la registra en años resulta ser discreta. En estudios con
adultos, en que la edad va de 20 a 70 años, por ejemplo, no hay problemas en
tratarla como continua, ya que el número de valores posibles es muy grande. Pero
en el caso de niños en edad preescolar, si la edad se registra en años debe
tratarse como discreta, en tanto que si se la registra en meses puede tratarse
como continua.

Por otra parte, las variables cuantitativas se pueden clasificar en


unidimensionales, cuando solo se mide un carácter o dato de los elementos de la
muestra, o bidimensionales, tridimensionales, y en general n–dimensionales,
cuando se estudian simultáneamente varios caracteres de cada elemento. Por
ejemplo, la temperatura o la presión atmosférica (por separado), son variables
unidimensionales. La temperatura y la presión atmosférica (estudiadas
conjuntamente) o la longitud y el peso de una barra conductora, son ejemplos de
variables bidimensionales. La velocidad, carga eléctrica y masa de unión es
tridimensional.

Variable Aleatoria
Supongamos que se realiza el siguiente experimento aleatorio: Arrojar tres veces
al aire una moneda equilibrada. El espacio muestral de este experimento aleatorio
está compuesto por los siguientes resultados,

𝑆 = {𝐶𝐶𝐶, 𝐶𝐶𝑋, 𝐶𝑋𝐶, 𝑋𝐶𝐶, 𝐶𝑋𝑋, 𝑋𝐶𝑋, 𝑋𝑋𝐶, 𝑋𝑋𝑋}

Y supongamos que queremos cuantificar la cantidad de caras que salen al realizar


este experimento aleatorio, es decir estamos interesados en determinar cuántas
veces sale cara,

𝑋 = 𝐶𝑎𝑛𝑡𝑖𝑑𝑎𝑑 𝑑𝑒 𝐶𝑎𝑟𝑎𝑠 𝑞𝑢𝑒 𝑠𝑎𝑙𝑒𝑛 𝑎𝑙 𝑙𝑎𝑛𝑧𝑎𝑟 3 𝑣𝑒𝑐𝑒𝑠 𝑢𝑛𝑎 𝑚𝑜𝑛𝑒𝑑𝑎 𝑎𝑙 𝑎𝑖𝑟𝑒

Por lo tanto, nos queda definido una variable que asume, en este ejemplo
particular, los siguientes resultados, 𝛺(𝑋) = {0,1,2,3}.

37
En función del dominio del Espacio Muestral las variables aleatorias se pueden
clasificar en:

• Variable Aleatoria Discreta: Espacio Muestral Finito


• Variable Aleatoria Continua: Espacio Muestral Infinito Numerable

Variable Aleatoria Discreta:

A partir de los valores que asuma la variable aleatoria y los resultados posibles
del Experimento Aleatorio, podemos definir probabilidades de ocurrencia
asociadas con cada evento aleatorio.

A cada valor que asume la variable aleatoria se le asignó un valor de probabilidad.


Se entiende que cada valor que asume 𝑋 representan eventos mutuamente
excluyentes que forman un sistema exhaustivo.

38
Los valores del conjunto pueden agruparse en una tabla de probabilidades,
también conocida como distribución de probabilidades. Es decir, que a cada valor
posible que asuma la variable se le asocia un valor de probabilidad.

X P(X=x)
0 0.125
1 0.375
2 0.375
3 0.125
Total 1.000

Función de Distribución (de Probabilidad): Esta función es análoga a la Frecuencia


Relativa Acumulada en Estadística Descriptiva. Indica la probabilidad acumulada
desde el mínimo valor que asume la variable hasta un valor específico.

X P(X=x) F(X=x)
0 0.125 0.125
1 0.375 0.500
2 0.375 0.875
3 0.125 1.000
Total 1.000

De la tabla anterior se observa que la probabilidad acumulada a 2 es 7/8, es decir


que hay una probabilidad de 7/8 de que la variable asuma un valor de como
máximo igual a 2,

𝐹𝑋 (2) = 𝐹[𝑋 = 2] = 𝑃[𝑋 ≤ 2] = 𝑃[𝑋 = 0] + 𝑃[𝑋 = 1] + 𝑃[𝑋 = 2] = 7/8

Ahora, si quisiéramos la probabilidad de que la variable aleatoria se encuentre


entre 1 y 3 podría plantearse lo siguiente,

𝑃[1 ≤ 𝑋 ≤ 3] = 𝑃[𝑋 = 1] + 𝑃[𝑋 = 2] + 𝑃[𝑋 = 3] = 3/8 + 3/8 + 1/8 = 7/8

Esperanza Matemática y Varianza

La esperanza matemática de una variable aleatoria 𝑋, denotada como 𝐸[𝑋], es


una medida del valor promedio que tomaría 𝑋 si el experimento se repitiera un
número infinito de veces. Es una especie de "centro de gravedad" de la
distribución de 𝑋.

• Para una variable discreta con función de probabilidad 𝑃(𝑋 = 𝑥𝑖 ):

39
𝐸[𝑋] = ∑ 𝑥𝑖 𝑃(𝑋 = 𝑥𝑖 )
𝑖

• Para una variable continua con función de densidad de probabilidad 𝑓(𝑥):



𝐸 [𝑋 ] = ∫ 𝑥𝑓(𝑥) 𝑑𝑥
−∞

Propiedades de la esperanza matemática

1. Linealidad:

𝐸[𝑎𝑋 + 𝑏𝑌] = 𝑎𝐸[𝑋] + 𝑏𝐸[𝑌]

para cualquier constante 𝑎, 𝑏 y variables aleatorias 𝑋, 𝑌.

2. Esperanza de una constante:

𝐸[𝑐] = 𝑐

para cualquier constante 𝑐.

3. Si 𝑋 es una variable aleatoria y 𝑔(𝑋) es una función de 𝑋, entonces:

𝐸[𝑔(𝑋)] = ∑𝑔(𝑥)𝑃(𝑋 = 𝑥)(𝑑𝑖𝑠𝑐𝑟𝑒𝑡𝑎)

𝐸[𝑔(𝑋)] = ∫ 𝑔(𝑥)𝑓(𝑥) 𝑑𝑥(𝑐𝑜𝑛𝑡𝑖𝑛𝑢𝑎)

4. Si 𝑋 y 𝑌 son independientes:

𝐸[𝑋𝑌] = 𝐸[𝑋]𝐸[𝑌]

Varianza

La varianza de una variable aleatoria 𝑋, denotada como 𝑉𝑎𝑟(𝑋) o 𝜎 2 , mide la


dispersión de 𝑋 respecto a su esperanza matemática 𝐸[𝑋].

• Definición:

𝑉𝑎𝑟(𝑋) = 𝐸[(𝑋 − 𝐸[𝑋])2 ]

Propiedades de la varianza

1. Si 𝑐 es una constante, entonces 𝑉𝑎𝑟(𝑐) = 0.

40
2. Si 𝑎, 𝑏 son constantes, entonces: 𝑉𝑎𝑟(𝑎𝑋 + 𝑏) = 𝑎2 𝑉𝑎𝑟(𝑋)

3. Si 𝑋 y 𝑌 son independientes: 𝑉𝑎𝑟(𝑋 + 𝑌) = 𝑉𝑎𝑟(𝑋) + 𝑉𝑎𝑟(𝑌)

4. La varianza nunca es negativa: 𝑉𝑎𝑟(𝑋) ≥ 0

5. Si 𝑋 tiene una distribución simétrica respecto a su media, su varianza solo


depende de la dispersión de los valores respecto a 𝐸[𝑋].

Tabla de Frecuencia para una variable discreta

Supongamos que se tiene una muestra de tamaño 𝑁, donde la variable estadística


𝑥 toma los valores distintos 𝑥1 , 𝑥2 ,. . . 𝑥𝑘 . En primer lugar, hay que ordenar los
diferentes valores que toma la variable estadística en orden (normalmente
creciente).

En el caso de variables discretas, generalmente, un mismo valor de la variable


aparecerá repetido más de una vez (es decir 𝑘 < 𝑁). De forma que el siguiente
paso es la construcción de una tabla en la que se indiquen los valores posibles de
la variable y su frecuencia de aparición. Esta es la tabla de frecuencias de una
variable discreta:

Valores de Frecuenci Frecuenci Frecuencias Frecuencias


la variable as as absolutas relativas

estadística absolutas relativas acumuladas acumuladas

𝑥𝑖 𝑛𝑖 𝑓𝑖 𝑁𝑖 𝐹𝑖

𝑥1 𝑛1 𝑓1 𝑁1 𝐹1

𝑥2 𝑛2 𝑓2 𝑁2 𝐹2

. . . . . . . . . . . . . . .

𝑥𝑘 𝑛𝑘 𝑓𝑘 𝑁𝑘 𝐹𝑘

Frecuencia absoluta 𝑛𝑖 , definida como el número de veces que aparece repetido


el valor en cuestión de la variable estadística en el conjunto de las observaciones
realizadas. Si 𝑁 es el tamaño de la muestra, las frecuencias absolutas cumplen
las siguientes propiedades:

41
0 ≤ 𝑛𝑖 ≤ 𝑁
𝑘

∑ 𝑛𝑖 = 𝑁
𝑖=1

Frecuencia relativa 𝑓𝑖 , definida como el cociente entre la frecuencia absoluta y el


𝑛
tamaño de la muestra 𝑓𝑖 = 𝑖. Las frecuencias relativas cumplen con las siguientes
𝑁
propiedades:

0 ≤ 𝑓𝑖 ≤ 1
𝑘 𝑘
𝑛𝑖 ∑𝑘𝑖=1 𝑛𝑖
∑ 𝑓𝑖 = ∑ = =1
𝑁 𝑁
𝑖=1 𝑖=1

Estas frecuencias también pueden expresarse en tantos por ciento del tamaño de
la muestra, para lo cual simplemente debe multiplicarse por 100. Por ejemplo, si
el valor 𝑥𝑖 de la variable 𝑥 tiene por frecuencia relativa 𝑓𝑖 = 0.2; significa que el
valor 𝑥𝑖 se repite en el 20% de la muestra.

Frecuencia absoluta acumulada 𝑁𝑖 , definida como la suma de las frecuencias


absolutas de los valores inferiores o iguales a 𝑥𝑖 . Es decir que 𝑁𝑖 = ∑𝑖𝑗=1 𝑛𝑗 . Esta
frecuencia se puede definir en forma recursiva: 𝑁𝑖 = 𝑁𝑖−1 + 𝑛𝑖 . Además, el valor
de la frecuencia acumulada del último valor será igual al tamaño de la muestra,
vale decir que: 𝑁𝑘 = 𝑁.

Frecuencia relativa acumulada 𝐹𝑖 , definida como la suma de las frecuencias


relativas de los valores inferiores o iguales a 𝑥𝑖 . Es decir que 𝐹𝑖 = ∑𝑖𝑗=1 𝑓𝑗 . Otra
forma de definir esta frecuencia es mediante el cociente entre la frecuencia
absoluta acumulada y el tamaño de la muestra.
𝑖 𝑖
𝑁𝑖 ∑𝑖𝑗=1 𝑛𝑗 𝑛𝑗
𝐹𝑖 = = = ∑ = ∑ 𝑓𝑗
𝑁 𝑁 𝑁
𝑗=1 𝑗=1

El valor de la frecuencia relativa acumulada del último valor será 1, o sea, 𝐹𝑘 = 1.


Esta frecuencia se puede expresar como un porcentaje y su significado será el
tanto por ciento de medidas con valores por debajo o igual que 𝑥𝑖 .

Ejemplo:

42
Se registró el número de hijos de una muestra de 20 familias: 2 1 1 3 1 2 5 1 2 3
4 2 3 2 1 4 2 3 2 1. Elaborar la tabla de frecuencias.

Variable: número de hijos que tiene la familia (𝑥𝑖 )

Tamaño de la muestra: 20 (𝑁)

Número de valores posibles que puede asumir 𝑥𝑖 : 5 (𝑘).

Recorrido: 5– 1 = 4

𝑥𝑖 𝑛𝑖 𝑓𝑖 𝑁𝑖 𝐹𝑖

1 6 0,30 6 0,30

2 7 0,35 13 0,65

3 4 0,20 17 0,85

4 2 0,10 19 0,95

5 1 0,05 20 1,00

𝑛2 = 7 significa que 7 familias tienen 2 hijos, es decir que el 35% (𝑓𝑖 = 0,35) de
las 20 familias tienen 2 hijos.

𝑛3 = 17 significa que 17 familias tienen 3 o menos hijos, es decir que el 85% (𝑓𝑖 =
0,85) de las 20 familias tienen 3 o menos hijos.

Agrupamiento en Intervalos de Clases

Cuando el número de valores distintos que toma la variable estadística es


demasiado grande o la variable es continua, no resulta útil elaborar una tabla de
frecuencias como la vista anteriormente. En estos casos se puede realizar un
agrupamiento de los datos en intervalos y se hace un recuento del número de
observaciones que caen dentro de cada uno de ellos.

Estos intervalos se denominan intervalos de clase y al valor de la variable en el


centro de cada intervalo se denomina marca de clase. De esta forma se sustituye
cada medida por la marca de clase del intervalo a que corresponda. La diferencia

43
entre el extremo superior e inferior de cada intervalo se denomina amplitud del
intervalo. Normalmente se trabaja con intervalos de amplitud constante.

La tabla de frecuencias resultante es similar a la vista anteriormente. En el caso


de una distribución en 𝑘 intervalos ésta sería:

Frecuenci Frecuenci Frecuencias Frecuencias


Marca as as absolutas relativas
Intervalos
de clase de clase absolutas relativas acumuladas acumuladas

𝑎𝑖 – 𝑎𝑖+1 𝑐𝑖 𝑛𝑖 𝑓𝑖 𝑁𝑖 𝐹𝑖

𝑎1 – 𝑎2 𝑐1 𝑛1 𝑓1 𝑁1 𝐹1

𝑎2 – 𝑎3 𝑐2 𝑛2 𝑓2 𝑁2 𝐹2

. . . . . . . . . . . . . . . . . .

𝑐𝑘
𝑎𝑘 – 𝑎𝑘+1 𝑛𝑘 𝑓𝑘 𝑁𝑘 𝐹𝑘

La ventaja de realizar el agrupamiento en intervalos de clase es la simplificación


del trabajo, pero, esto tiene por contrapartida la perdida de información ya que no
se tiene en cuenta cómo se distribuyen los datos dentro de cada intervalo. Para
que dicha pérdida sea mínima es necesario elegir con cuidado los intervalos.
Aunque no existen reglas estrictas para la elección de estos, los pasos a seguir
son los siguientes:

a) Determinar el recorrido o rango de los datos: Vale decir, calcular la diferencia


entre el mayor y el menor de los valores que toma la variable.

b) Decidir el número de intervalos de clase (𝑘) en que se van a agrupar los datos:
Por lo general 5 ≤ 𝑘 ≤ 20 dependiendo del caso que se estudia, 𝑘 será más
grande cuanto más dato posea la muestra. Una regla que se suele seguir es elegir
𝑘 como el entero más próximo a √𝑁, recordando que 𝑁 es el tamaño de la
muestra.

44
c) Determinar la amplitud (constante) de cada intervalo, dividiendo el recorrido o
rango de los datos entre el número de intervalos (𝑘): No es necesario que esta
amplitud sea exactamente el resultado de esa división, sino que normalmente se
puede redondear hacia un número ligeramente mayor.

d) Determinar los extremos de los intervalos de clase: Evidentemente el extremo


superior de cada intervalo ha de coincidir con el extremo inferior del siguiente. Es
importante que ninguna observación coincida con alguno de los extremos, para
evitar así una ambigüedad en la clasificación de este dato. Una forma de
conseguir esto es asignar a los extremos de los intervalos una cifra decimal más
que las medidas de la muestra. Por ejemplo, si la variable estadística toma valores
enteros: 10, 11, 12, etc., los extremos de los intervalos podrían ser: 9.5-11.5, 11.5-
13.5, etc.

e) Calcular las marcas de clase de cada intervalo como el valor medio entre los
límites inferior y superior de cada intervalo de clase: Aquí se debe intentar que las
marcas de clase coincidan con las medidas de la muestra, disminuyéndose así la
pérdida de información debida al agrupamiento. Una vez determinados los
intervalos se debe hacer un recuento cuidadoso del número de observaciones que
caen dentro de cada intervalo, para construir así la tabla de frecuencias.

Ejemplo:

Se registró el peso de 80 alumnos de un curso perteneciente a un colegio del nivel


medio de la localidad de Mar del Plata. Elaborar una tabla de frecuencias con
datos agrupados en intervalos de clases.

60; 66; 77; 70; 66; 68; 57; 70; 66; 52; 75; 65; 69; 71; 58; 66; 67; 74; 61; 63; 69; 80;
59; 66; 70; 67; 78; 75; 64; 71; 81; 62; 64; 69; 68; 72; 82; 56; 65; 74; 67; 54; 65; 65;
69; 61; 67; 73; 57; 62; 67; 68; 63; 67; 71; 68; 76; 61; 62; 63; 76; 61; 67; 67; 64; 72;
64; 73; 79; 58; 67; 71; 68; 59; 69; 70; 66; 62; 63; 66.

a) Recorrido: 82 − 52 = 30

b) 𝑘 = √80 = 8.94 entonces 𝑘 = 9 Como se redondea por exceso, la amplitud del


intervalo multiplicada por el número de intervalos será mayor que el recorrido y no
se tendrá problemas en los extremos.
30
c) Amplitud del intervalo: = 3.3
9

45
d) Extremos de los intervalos. Para evitar coincidencias se toma un decimal más.
El primer extremo se toma algo menor que el valor mínimo, pero calculándolo de
forma que el último extremo sea algo mayor que el valor máximo. Si se toma 𝑎1 =
51.5 se verifica que es menor que 52 (valor mínimo) y el último extremo será
51.5 + 9 ∗ 3.4 = 82.1 que resulta ser mayor que el valor máximo, 82.

ai-ai+1 ci ni fi=ni/N Ni Fi
51.5-54.9 53.2 2 0.025 2 0.025
54.9-58.3 56.6 5 0.0625 7 0.0875
58.3-61.7 60.0 7 0.0875 14 0.175
61.7-65.1 63.4 16 0.2 30 0.375
65.1-68.5 66.8 21 0.2625 51 0.6375
68.5-71.9 70.2 13 0.1625 64 0.8
71.9-75.3 73.6 8 0.1 72 0.9
75.3-78.7 77.0 4 0.05 76 0.95
78.7-82.1 80.4 4 0.05 80 1
Total 80

Gráficos
Luego de haber construido la tabla de frecuencias de una muestra, es conveniente
la representación gráfica de la distribución de los datos. Esto permite una
visualización rápida de la información obtenida. Dependiendo del tipo de datos y
de cómo estén organizados, se pueden utilizar distintos tipos de representaciones
gráficas.

a) Si se trata de una variable discreta sin agrupar, se usa principalmente el


diagrama de barras. En este diagrama se representan sobre el eje de las abscisas
los distintos valores de la variable y sobre cada uno de ellos se levanta una barra
de longitud igual a la frecuencia correspondiente. Se pueden representarse tanto
las frecuencias absolutas 𝑛𝑖 como las relativas 𝑓𝑖 .

Éste diagrama puede completarse con el polígono de frecuencias que se obtiene


uniendo con rectas los puntos medios de los extremos superiores de las barras
del diagrama de barras. De la misma forma, pueden representarse frecuencias
absolutas, relativas, o ambas a la vez. En el ejemplo que sigue se elaboró la
siguiente tabla, correspondiente al número de hijos de una muestra de 20 familias.

xi ni fi Ni Fi
1 6 0.3 6 0.3
2 7 0.35 13 0.65

46
3 4 0.2 17 0.85
4 2 0.1 19 0.95
5 1 0.05 20 1

El diagrama de barras y polígono de frecuencias correspondientes, es el siguiente.

Número de hijos por familia


8
7
Cantidad de hijos n

6
5
4
3
2
1
0
1 2 3 4 5
Familias x

Gráfico 1. Diagrama de barra y polígono de frecuencia.

Para representar las frecuencias (absolutas o relativas) acumuladas se usa el


diagrama de frecuencias acumuladas. Este gráfico, en forma de escalera se
construye representando en el eje de las abscisas los distintos valores de la
variable 𝑥𝑖 y en sobre el eje de las ordenadas la frecuencia acumulada (𝑁𝑖 𝑜 𝐹𝑖 )
del valor de 𝑥𝑖 correspondiente. Los puntos se unen con tramos horizontales y
verticales. Evidentemente la escalera resultante ha de ser siempre ascendente.

47
Número de hijos por familia
25

20
20 19
Cantidad de hijos Fi

17

15 13

10
6
5

0
1 2 3 4 5
Familias x

Gráfico 2. Diagrama de frecuencias acumuladas (𝑁𝑖 ).

b) Si se trata de datos agrupados la representación gráfica más utilizada es el


histograma de frecuencias absolutas o relativas. Un histograma es un conjunto de
rectángulos adyacentes, cada uno de los cuales representa un intervalo de clase.
La base de cada rectángulo es proporcional a la amplitud del intervalo. Por lo
tanto, el centro de la base de cada rectángulo corresponde a la marca de clase
del intervalo que representa. La altura se suele determinar para que el área de
cada rectángulo sea igual a la frecuencia de la marca de clase correspondiente.

En consecuencia, la altura de cada rectángulo se puede calcular como el cociente


entre la frecuencia (absoluta o relativa) y la amplitud del intervalo. En el caso de
que la amplitud de los intervalos sea constante, la representación es equivalente
a usar como altura la frecuencia de cada marca de clase, siendo este método más
sencillo para dibujar rápidamente un histograma. Al igual que en las variables no
agrupadas, otro tipo de representación es el polígono de frecuencias. Este se
obtiene uniendo con líneas rectas los puntos medios de cada segmento superior
de los rectángulos en el histograma. En el ejemplo, se elaboró la siguiente tabla
correspondiente al peso de 80 alumnos de un curso perteneciente a un colegio
del nivel medio de la localidad de Mar del Plata.

ai-ai+1 ci ni fi=ni/N Ni Fi
51.5-54.9 53.2 2 0.025 2 0.025
54.9-58.3 56.6 5 0.063 7 0.0875
58.3-61.7 60 7 0.088 14 0.175

48
61.7-65.1 63.4 16 0.200 30 0.375
65.1-68.5 66.8 21 0.263 51 0.6375
68.5-71.9 70.2 13 0.163 64 0.8
71.9-75.3 73.6 8 0.100 72 0.9
75.3-78.7 77 4 0.050 76 0.95
78.7-82.1 80.4 4 0.050 80 1

El histograma y polígono de frecuencias correspondientes, es el siguiente.

Peso de Alumnos
25
21
20
16
15 13

10 7 8
5 4 4
5 2

ni

Gráfico 3. Histograma y polígono de frecuencias.

El polígono de frecuencias acumuladas sirve para representar las frecuencias


acumuladas de datos agrupados por intervalos. En el eje de las abscisas se
representan los diferentes intervalos de clase. Sobre el extremo superior de cada
intervalo se levanta una línea vertical de altura igual a la frecuencia (absoluta o
relativa) acumulada de ese intervalo. A continuación, se unen por segmentos
rectos los extremos de las líneas anteriores. El polígono parte de una altura cero
para el extremo inferior del primer intervalo. Evidentemente, la altura que se
alcanza al final del polígono es 𝑁, para frecuencias absolutas, o 1, para
frecuencias relativas.

49
Peso de Alumnos
90 80
80 76
72
70 64
60 51
50
40 30
30
20 14
7
10 2
0

Ni

Gráfico 4. Polígono de frecuencias acumuladas (𝑁𝑖 ).

c) Existe una gran variedad de representaciones gráficas para variables


cualitativas, pero son dos las más usadas. El diagrama de rectángulos, que es
similar al diagrama de barras y el histograma para las variables cuantitativas y
consiste en representar en el eje de abscisas los diferentes caracteres cualitativos
y levantar sobre cada uno de ellos un rectángulo (de forma no solapada) cuya
altura sea la frecuencia (absoluta o relativa) de dicho carácter.

El otro diagrama muy usado es el diagrama de sectores, también llamado


diagrama de torta. En él se representa el valor de cada carácter cualitativo como
un sector de un círculo completo, siendo el área de cada sector proporcional a la
frecuencia del carácter en cuestión. Es habitual escribir dentro, o a un lado, de
cada sector la frecuencia correspondiente. Este tipo de diagrama proporciona una
idea visual muy clara de cuáles son los caracteres que más se repiten.

Este es uno de los ejemplos ya vistos se elaboró la tabla correspondiente al


género de 70 libros nuevos que ingresaron a una biblioteca. El diagrama de
rectángulos y diagrama de sectores correspondientes, son los siguientes.

50
Ingreso de Libros Nuevos
60%

50%

40%

30%
50%
20%

10% 20% 17%


10%
0% 3%
Narrativa Biografía Poesía Cuento Teatro

Gráfico 5. Diagrama de rectángulos.

Ingreso de Libros Nuevos

17% 20%

10%
3%
50%

Narrativa Biografía Poesía Cuento Teatro

Gráfico 6. Diagrama de sectores.

Tablas de Contingencia
En la mayoría de los estudios estadísticos se emplea el análisis unidimensional
para interpretar su comportamiento de forma aislada o individualmente. Sin
embargo, los vínculos que tienen las diferentes personas, objetos o fenómenos,
facultan el establecimiento de relaciones entre las características o variables que

51
ellas presentan. Estas relaciones permiten analizar simultáneamente el
comportamiento de dos variables, ya sean cualitativas o cuantitativas, usando
para ello la tabulación cruzada o tablas de contingencia. En el siguiente ejemplo
se demuestra el procedimiento para la elaboración de una tabla de contingencia:

Un informe sobre instituciones de educación superior de una región muestra, entre


sus resultados, la calidad académica de la institución y la antigüedad en años de
funcionamiento. La calidad académica corresponde a una variable cualitativa,
calificada como excelente, muy buena y buena. La antigüedad, como variable
cuantitativa continua, oscila entre 10 y 49 años. La muestra fue de 300
instituciones. En la tabla 1 sólo se muestran los datos para las primeras 10
instituciones.

Tabla 1: Calidad académica y antigüedad de las instituciones de educación


superior.

Institución Calidad académica Antigüedad en años


1 Buena 18
2 Muy buena 22
3 Buena 28
4 Excelente 38
5 Muy buena 33
6 Buena 28
7 Muy buena 19

El formato general para la tabla de contingencia o tabulación cruzada se describe


en la tabla que sigue, con la síntesis de los datos para las instituciones de
educación superior. En los costados izquierdo y superior se ubican los
encabezados de las variables y en las demás posiciones, el número de
instituciones que presentan simultáneamente la calidad y antigüedad
correspondientes. De esta manera, en cada intervalo de antigüedad se cuenta el
número de instituciones con evaluación en cada categoría (buena, muy buena y
excelente).

En la siguiente tabla se observa que la mayor cantidad de instituciones educativas


(64) tienen calidad “muy buena”, y que la antigüedad está entre 20 y 29 años. Sólo
hay dos instituciones con calidad “excelente” y antigüedad entre 10 y 19 años. De
forma análoga se interpretan las demás frecuencias. Como se observa en la tabla,
los totales de los costados derecho e inferior indican la distribución de frecuencias
de la calidad académica y de la antigüedad de la institución, respectivamente. Es

52
posible observar que hay 84 instituciones con buena calidad académica, 150 muy
buena y 66 excelente. De forma similar, se puede observar en la margen inferior
la distribución de frecuencias de la antigüedad: 78 instituciones tienen entre 10 y
19 años, 118 entre 20 y 29, 76 entre 30 y 39 y 28 entre 40 y 49.

Tabla 2: Tabulación cruzada o tabla de contingencia de la calidad académica y la


antigüedad de las instituciones de educación superior

Antigüedad
Calidad académica Total
(años)
10 a 20 a 30 a 40 a
19 29 39 49
Buena 42 40 2 0 84
Muy buena 34 64 46 6 150

Excelente 2 14 28 22 66
Total 78 118 76 28 300

A partir de los resultados de la tabla, la mayor antigüedad parece estar asociada


con una mayor calidad académica de la institución y la antigüedad más baja con
una menor calidad académica.

Tabla de contingencia de porcentaje de fila

Al convertir las frecuencias de la tabla anterior en porcentajes de fila o de columna,


es posible tener un panorama más amplio de la relación existente entre las
variables. Para obtener los porcentajes de fila, se divide cada frecuencia entre su
respectivo total de la fila. Por ejemplo, el porcentaje de instituciones con buena
calidad y antigüedad entre 10 y 19 años (50%), se obtiene dividiendo 42 entre 84.

Tabla 3. Tabulación cruzada o tabla de contingencia de porcentaje de fila para la


calidad académica y la antigüedad de las instituciones de educación superior.

Antigüedad (años)
Calidad académica Total
10 a 19 20 a 29 30 a 39 40 a 49
Buena 50.0% 47.6% 2.4% 0.0% 100.0%
Muy buena 22.7% 42.7% 30.7% 4.0% 100.0%
Excelente 3.0% 21.2% 42.4% 33.3% 100.0%

53
Total 26.0% 39.3% 25.3% 9.3% 100.0%

Tabla de contingencia de porcentaje de columna

Los porcentajes de columna se obtienen de forma similar, es decir, dividiendo


cada frecuencia de la columna entre el total de cada una de ellas. Por ejemplo, el
porcentaje de instituciones con antigüedad entre 10 y 19 años con buena calidad
académica (53,8%), se consigue dividiendo 42 entre 78; estos resultados se
ilustran en la tabla siguiente.

Tabla 4: Tabulación cruzada o tabla de contingencia de porcentaje de columna


para la calidad académica y la antigüedad de las instituciones de educación
superior.

Antigüedad (años)
Calidad académica Total
10 a 19 20 a 29 30 a 39 40 a 49
Buena 53.8% 33.9% 2.6% 0.0% 28.0%
Muy buena 43.6% 54.2% 60.5% 21.4% 50.0%
Excelente 2.6% 11.9% 36.8% 78.6% 22.0%
Total 100.0% 100.0% 100.0% 100.0% 100.0%

De las tablas anteriores se deduce que, en la categoría de buena calidad


académica, el 50% de las instituciones tiene antigüedad entre 10 y 19 años, el
47,6% entre 20 y 29 años, el 2,4% entre 30 y 39 años y ninguna entre 40 y 49
años. Mientras que en las instituciones menos antiguas (ubicadas entre 10 y 19
años), el 53,8% tuvieron buena calidad académica, 43,5% como muy buena y
2,7% como excelente.

Estadística Descriptiva
Después de haber construido tablas de frecuencias y haber realizado alguna
representación gráfica, el siguiente paso para llevar a cabo un estudio de los datos
es el cálculo de diferentes medidas características de la distribución.

La rama de la estadística que presenta técnicas para describir conjuntos de


mediciones se denomina estadística descriptiva. Se pueden calcular diversas
medidas que son capaces de resumir toda la información obtenida en un pequeño
número de valores. Estas mediciones se llaman parámetros cuando se asocian
con la población y se denominan estadísticas cuando se calculan a partir de
mediciones muestrales.

54
• Este proceso permite simplificar la comprensión y la comunicación de los
datos.
• Estas medidas resumen van a permitir comparar distintas muestras y dar
una idea rápida de cómo se distribuyen los datos.
• Es evidente que todas estas medidas solo pueden definirse para variables
cuantitativas.

Medidas de Centralización
Entre las medidas características de una distribución se destacan las llamadas
medidas de centralización, que indican el valor promedio de los datos, o en torno
a qué valor se distribuyen estos. Es decir que estas medidas describen un valor
alrededor del cual se encuentran las observaciones.

a) Media aritmética.

Supongamos que tenemos una muestra de tamaño 𝑁, donde la variable


estadística 𝑥 toma los valores 𝑥1 , 𝑥2 , . . . , 𝑥𝑛 . Se define la media aritmética 𝑥, o
simplemente media de la muestra como:

∑𝑁
𝑖=1 𝑥𝑖
𝑥=
𝑁
Vale decir que la media es básicamente un promedio y se calcula sumando los
distintos valores de la variable 𝑥 y dividiendo por la cantidad de datos. En el caso
de que los diferentes valores de la variable aparezcan repetidos, tomando los
valores 𝑥1 , 𝑥2 , . . . , 𝑥𝑘 con frecuencias absolutas 𝑛1 , 𝑛2 , . . . , 𝑛𝑘 , la media se determina
∑𝑁 𝑥 𝑛
como 𝑥 = 𝑖=1 𝑖 𝑖, pudiéndose expresar también en función de las frecuencias
𝑁
relativas como: 𝑥 = ∑𝑁
𝑖=1 𝑥𝑖 𝑓𝑖 . Calcular la media aritmética de los siguientes datos:

xi ni fi xini xifi
1.0 6.0 0.30 6.0 0.30
2.0 7.0 0.35 14.0 0.70
3.0 4.0 0.20 12.0 0.60
4.0 2.0 0.10 8.0 0.40
5.0 1.0 0.05 5.0 0.25
Total 20.0 1.00 45.0 2.25

55
∑𝑁
𝑖=1 𝑥𝑖 𝑛𝑖 45
𝑥= = = 2.25
𝑁 20
O bien
𝑁

𝑥 = ∑ 𝑥𝑖 𝑓𝑖 = 2.25
𝑖=1

𝑥 = 2.25 significa que en promedio las familias que intervinieron en la muestra


tienen dos hijos.

En el caso de tener una muestra agrupada en 𝑘 intervalos de clase la media se


puede calcular, a partir de las marcas de clase 𝑐𝑖 y el número 𝑛𝑖 de datos en cada
intervalo, utilizando la expresión:

∑𝑘𝑖=1 𝑐𝑖 𝑛𝑖
𝑥=
𝑁
Calcular la media aritmética del ejemplo.

ci ni ci*ni
53.2 106.4 5660.5
56.6 283.0 16017.8
60.0 420.0 25200.0
63.4 1014.4 64313.0
66.8 1402.8 93707.0
70.2 912.6 64064.5
73.6 588.8 43335.7
77.0 308.0 23716.0
80.4 321.6 25856.6
Total 5357.6 361871.1

∑𝑘𝑖=1 𝑐𝑖 𝑛𝑖 361871
𝑥= = = 67.54
𝑁 5358
Esto significa que en promedio el peso de los alumnos pertenecientes a un curso
de un colegio del nivel medio de la localidad de Mar del Plata es de 68kg.

Una propiedad importante de la media aritmética es que la suma de las


desviaciones (o distancias) de un conjunto de datos respecto a su media es cero.

56
Es decir, la media equilibra las desviaciones positivas y negativas respecto a su
valor. Esto se expresa como:
𝑁

∑(𝑥𝑖 − 𝑥 ) = 0
𝑖=1

Por ejemplo, sean los datos: 10, 11, 12, 12, 13 y 14 cuya media es 12. En la
siguiente tabla comprobamos, para este ejemplo, la propiedad enunciada.

xi xi-xmedio
10 -2.0
11 -1.0
12 0.0
12 0.0
13 1.0
14 2.0
Total 0.0
Por lo tanto, una segunda propiedad de la media aritmética es que representa una
especie de centro de gravedad, o centro geométrico, del conjunto de datos. Se
puede imaginar a los datos como un sistema físico en el que cada uno tiene una
“masa” unitaria. Si se ubican los datos sobre una barra horizontal en la posición
correspondiente a su valor; la media representa la posición en que se deberá
ubicar el punto de apoyo para que el sistema esté en equilibrio.

Una tercera propiedad de la media como medida de tendencia central es que es


poco “robusta”, es decir depende mucho de valores atípicos de los datos. Si, por
ejemplo, en una muestra se introduce un nuevo dato con un valor mucho mayor
que el resto, la media aumenta apreciablemente.

Continuando con el ejemplo anterior 10, 11, 12, 12, 13 y 14 con media de 12, si
ahora se tiene 10, 11, 12, 12, 13, 14 y 68 la media es 20. La media aritmética es
por tanto muy dependiente de observaciones extremas.

Existen otras definiciones de media que pueden tener su utilidad en algunos


casos. La primera de éstas es la media geométrica 𝑥𝐺 . En el caso de una muestra

57
con valores diferentes de la variable se define como la raíz enésima (𝑁 es el
tamaño de la muestra) del producto de los valores de la variable:

𝑥𝐺 = 𝑁√𝑥1 𝑥2 … 𝑥𝑁

La media armónica 𝑥𝐴 se define como la inversa de la media aritmética de las


inversas de los valores de la variable. Es decir, para variables no agrupadas y
agrupadas respectivamente, sería:
𝑁 𝑁
𝑥𝐴 = = 𝑛𝑖
1 ∑𝑘𝑖=1
∑𝑁
𝑖=1 𝑥𝑖
𝑥𝑖

b) Mediana

Una medida de tendencia central importante es la mediana 𝑀𝑒; que se define


como una medida central tal que, con los datos ordenados de menor a mayor, la
mitad de estos son inferiores a su valor y la otra mitad tienen valores superiores.
Es decir, la mediana divide en dos partes iguales la distribución de frecuencias.

Se distinguen distintos casos para el cálculo de la mediana. Supongamos, en


primer lugar, que los diferentes valores de la variable no aparecen, en general,
repetidos. En este caso y suponiendo que se tienen los datos ordenados, la
mediana será el valor central, si el tamaño de la muestra 𝑁, es impar o la media
aritmética de los dos valores centrales, si 𝑁 es par.

Por ejemplo, si 𝑥 = 1, 4, 6, 7, 9 entonces 𝑀𝑒 = 6; por otro lado, si 𝑥 = 1, 4, 6, 7 la


4+6
mediana es 𝑀𝑒 = = 5.
2

En segundo lugar, supongamos que se tiene una variable discreta con valores
repetidos sobre la cual se ha elaborado una tabla de frecuencias; se calcula en
primer lugar el número de observaciones, 𝑁, dividido entre 2. Se pueden distinguir
aquí dos casos. El primero de ellos es cuando el valor 𝑁/2 coincide con la
frecuencia absoluta acumulada 𝑁𝑗 de un valor 𝑥𝑗 de la variable o, lo que es lo
mismo, cuando la frecuencia relativa acumulada 𝐹𝑗 = 0,5. En este caso la mediana
se ha de situar entre este valor de la variable y el siguiente ya que de esta forma
dividirá la distribución de frecuencias en dos partes. Es decir, se calcula como la
media aritmética de dicho valor de la variable y su superior
𝑥𝑗 + 𝑥𝑗+1
𝑀𝑒 =
2

58
Se modificará levemente el ejemplo para calcular la mediana, acorde a lo
enunciado precedentemente.

xi ni
1 6
2 10
3 15
4 17
5 20
𝑁
Se tiene 1 1 1 1 1 1 2 2 2 2 3 3 3 3 3 4 4 5 5 5 como = 10 = 𝑁2 entonces la
2
mediana se calculará como:
𝑥2 + 𝑥2+1 2 + 3
𝑀𝑒 = = = 2.5
2 2
Si el valor 𝑁/2 no coincidiese con ningún valor de la columna de frecuencias
acumuladas (segundo subcaso) la mediana sería el primer valor de 𝑥𝑗 con
frecuencia absoluta acumulada 𝑁𝑗 mayor que 𝑁/2, ya que el valor central de la
distribución correspondería a una de las medidas englobadas en ese 𝑥𝑗 .
Continuando con el ejemplo calcular la mediana.

xi ni
1 6
2 13
3 17
4 19
5 20
𝑁
Se tiene 1 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 3 4 4 5 como = 10 entonces la mediana
2
será el primer valor de 𝑥𝑖 con frecuencia absoluta acumulada 𝑁𝑖 > 10, es decir:

𝑀𝑒 = 𝑥2 = 2.

• Una de las propiedades de la mediana es que puede ser utilizada no sólo


para datos numéricos sino además para datos ordinales, ya que para
calcularla sólo es necesario establecer un orden en los datos.
• Una segunda propiedad es que la mediana es insensible a la distancia de
las observaciones al centro, ya que solamente depende del orden de los
datos. Esta característica la hace robusta.

59
Por ejemplo, todos los siguientes conjuntos de datos siguientes tienen mediana
12:

i) 10 11 12 13 14
ii) 10 11 12 13 100
iii) 0 11 12 12 12
iv) 10 11 12 100 100.

Si se comparan las dos medidas de tendencia central estudiadas, la mediana tiene


propiedades muy distintas respecto de la media aritmética, presentando sus
ventajas e inconvenientes respecto de esta. En primer lugar, si la distribución de
los datos es aproximadamente simétrica la media y la mediana serán
aproximadamente iguales. Pero si la distribución de los datos es asimétrica, la
media y la mediana diferirán según el siguiente patrón:

• Asimetría derecha (cola larga hacia la derecha), entonces 𝑥 > 𝑀𝑒


• Asimetría izquierda (cola larga hacia la izquierda), entonces 𝑥 < 𝑀𝑒

Por ejemplo, si la variable 𝑥 toma los valores

i) 12, 13, 14, 15, 16, entonces 𝑥 = 𝑀𝑒 = 14


ii) 12, 13, 14, 15, 20, entonces 𝑥 ≅ 15 > 𝑀𝑒 = 14
iii) 2, 13, 14, 15, 16, entonces 𝑥 = 12 < 𝑀𝑒 = 14.

Por otro lado, la mayor ventaja de la media es que utiliza toda la información de la
distribución de frecuencias (todos los valores particulares de la variable), en
cambio la mediana solo utiliza el orden en que se distribuyen los valores de la
variable. Podría entonces considerarse, desde este punto de vista, que la media
aritmética es una medida más fiable del valor central de los datos. Sin embargo,
recuérdese que la media es muy poco robusta, en el sentido de que es muy
sensible a valores extremos de la variable y, en consecuencia, a posibles errores
en las medidas. La mediana, es una medida robusta, ya que no es afectada por
valores que se desvíen mucho o que sean atípicos.

Por ejemplo, supóngase que la variable 𝑥 toma los valores: 2, 4, 5, 7 y 8, la media


aritmética y la mediana serían en este caso muy parecidas: 𝑥 = 5,2 𝑦 𝑀𝑒 = 5.
Pero si reemplazamos el último valor 8 por 30, la nueva media se ve muy afectada
𝑥 = 9,6 no siendo en absoluto una medida de la tendencia central, mientras que
el valor de la mediana no cambia.

60
Pudiese ocurrir también el caso inverso. Por ejemplo, las longitudes (en cm) de
barras de hierro, inicialmente idénticas calentadas a temperaturas desconocidas
en distintos recipientes: 1.80; 1.82; 1.85; 1.90 y 2.00, cuya media y mediana son
𝑥 = 1,874 𝑦 𝑀𝑒 = 1.85 respectivamente. Si la temperatura de uno de esos
recipientes varía y la longitud mayor aumenta de 2.00 a 2.20 cm, la mediana no
varía, pero la media ahora es 𝑥 = 1,914.

En general, lo mejor es considerar media aritmética y mediana como medidas


complementarias. Es más, la comparación de sus valores puede suministrar
información muy útil sobre la distribución de los datos.

c) Moda

Se define moda 𝑀𝑜 de una muestra como aquel valor de la variable que tiene una
frecuencia máxima, es decir que la moda es el valor que más se repite. Hay que
indicar que puede suceder que la moda no sea única, o sea que aparezcan varios
máximos en la distribución de frecuencias, en ese caso se dice que la distribución
es bimodal, trimodal, etc.

Evidentemente, en el caso de una variable discreta que no tome valores repetidos,


la moda no tiene sentido. Cuando sí existen valores repetidos su cálculo es directo
ya que puede leerse directamente de la tabla de distribución de frecuencias.
Ejemplo: calcular la moda.

xi ni fi Ni Fi
1 6 0.3 6 0.3
2 7 0.35 13 0.65
3 4 0.2 17 0.85
4 2 0.1 19 0.95
5 1 0.05 20 1
El valor que más se repite es 2 hijos, que ocurre en siete familias de la muestra
(𝑛𝑖 = 7). Por lo tanto, la moda es 𝑀𝑜 = 2 y en este ejemplo coincide con la
mediana.

En el caso de variables continúas agrupadas en intervalos de clase, existirá un


intervalo en el que la frecuencia sea máxima, llamado intervalo modal. Es posible
asociar la moda a un valor determinado de la variable dentro del intervalo modal.

Para esto, supongamos que sea (𝑎𝑗 ; 𝑎𝑗+1 ) el intervalo modal cuya frecuencia
máxima es 𝑛𝑗 . Si 𝑛𝑗−1 𝑦 𝑛𝑗+1 son las frecuencias de los intervalos anterior y

61
posterior al modal, se define 𝛿1 = 𝑛𝑗 − 𝑛𝑗−1 𝑦 𝛿2 = 𝑛𝑗 − 𝑛𝑗+1 como se muestra en
el siguiente gráfico.

Puede demostrarse que el valor exacto de la moda es


𝛿1
𝑀𝑜 = 𝑎𝑗 + (𝑎 − 𝑎𝑗 )
𝛿1 + 𝛿2 𝑗+1

Es decir que la moda estará más próxima a 𝑎𝑗 cuanto menor sea la diferencia de
frecuencias con el intervalo anterior y al revés.

Si, por ejemplo 𝑛𝑗−1 = 𝑛𝑗 (𝛿1 = 0) la moda será efectivamente 𝑎𝑗 . Por el contrario,
si ocurre que 𝑛𝑗+1 = 𝑛𝑗 (𝛿2 = 0) la moda será 𝑎𝑗+1 estando situada entre dos
intervalos. Calcular la moda.

ai-ai+1 ci ni
51.5-54.9 53.2 2
54.9-58.3 56.6 5
58.3-61.7 60.0 7
61.7-65.1 63.4 16
65.1-68.5 66.8 21
68.5-71.9 70.2 13
71.9-75.3 73.6 8
75.3-78.7 77.0 4

62
78.7-82.1 80.4 4
El intervalo modal

(𝑎𝑗+1 − 𝑎𝑗 ) = (68.5 − 65.1)

𝑗=5

𝑛𝑗−1 = 16

𝑛𝑗 = 21

𝑛𝑗+1 = 13

𝛿1 = 𝑛𝑗 − 𝑛𝑗−1 = 21 − 16 = 5

𝛿2 = 𝑛𝑗 − 𝑛𝑗+1 = 21 − 13 = 8

𝛿1 5
𝑀𝑜 = 𝑎𝑗 + (𝑎𝑗+1 − 𝑎𝑗 ) = 65.1 + (68.5 − 65.1) = 66.41
𝛿1 + 𝛿2 5+8

Si la distribución de datos que se analiza fuese perfectamente simétrica, las tres


medidas de tendencia central, media aritmética, mediana y moda coincidirían en
el mismo valor. Sin embargo, cuando la distribución es claramente asimétrica, en
general, la posición relativa entre las tres medidas suele ser la siguiente: la
mediana se sitúa entre la moda y la media.

𝑀𝑜 < 𝑀𝑒 < 𝑥.

Se comprueba lo enunciado anteriormente en el ejemplo donde se obtuvieron los


siguientes valores 𝑀𝑜 = 66.41 < 𝑀𝑒 = 66.72 < 𝑥 = 66.97.

Por lo tanto, una medida de centralización es un valor que pretende indicar dónde
se encuentra el centro de la distribución de un conjunto de datos. Pero, ¿cómo
identificar el centro de una distribución? El centro es fácil de identificar si la
distribución es simétrica.

63
Pero si la distribución es asimétrica, resulta difícil identificar el centro.

Por esta razón, no existe una única medida de centralización para resumir una
distribución. Si la distribución es simétrica diferentes medidas conducirán a
resultados similares. Si la distribución es claramente asimétrica diferentes
propuestas apuntarán a distintos conceptos de “centro” y por lo tanto los valores
serán diferentes. Para salvar este inconveniente es necesario analizar las distintas
medidas calculadas y ver cuál de ellas es la que mejor se adapta a la distribución
de datos que se analiza.

d) Cuartiles, deciles y percentiles

El concepto de mediana puede ser generalizado. Se vio que esta, es el valor de


la variable que divide a la muestra, ordenada, en dos partes iguales. Se puede

64
definir de manera similar los cuartiles como aquellos tres valores que dividen a la
muestra en cuatro partes iguales.

De esta manera el primer cuartil será la medida tal que el 25% de los datos sean
inferiores a su valor y el 75% de los mismos sean superiores. El segundo cuartil
coincide con la mediana, mientras que el tercer cuartil determinará el valor tal que
el 75% de las observaciones sean inferiores a él y el 25% sean superiores.

La forma de calcular los cuartiles es igual a la ya vista para la mediana, pero


𝑁 𝑁 3𝑁
sustituyendo por y para 𝑄1 y 𝑄3 respectivamente. Continuando con el
2 4 2
ejemplo calcular los cuartiles.

xi Ni
1 6
2 13
3 17
4 19
5 20

𝑁 20
= = 5 = 𝑄1 = 1
4 4

65
𝑁 20
= = 10 = 𝑄2 = 𝑀𝑒 = 2
2 2
3𝑁 3 ∗ 20 60
= = = 15 = 𝑄3 = 3
4 4 4
En el caso de las medidas agrupadas en intervalos de clase se trabaja de la misma
manera que para determinar la mediana. Calcular los cuartiles para el ejemplo.

ai-ai+1 ni Ni
51.5-54.9 2 2
54.9-58.3 5 7
58.3-61.7 7 14
61.7-65.1 16 30
65.1-68.5 21 51
68.5-71.9 13 64
71.9-75.3 8 72
75.3-78.7 4 76
78.7-82.1 4 80
𝑁
= 20 < 30 por lo tanto 𝑄1 se sitúa en el intervalo 61.7 − 65.1
4

𝑁
= 40 < 51 por lo tanto 𝑄2 se sitúa en el intervalo 65.1 − 68.5
2

3𝑁
= 60 < 64 por lo tanto 𝑄3 se sitúa en el intervalo 68.5 − 71.9
4

𝑁
− 𝑁𝑗−1 20 − 14
𝑄1 = 𝑎𝑗 + 4 (𝑎𝑗+1 − 𝑎𝑗 ) = 61.7 + (65.1 − 61.7) = 62.98
𝑛𝑗 13

𝑁
− 𝑁𝑗−1 40 − 30
𝑄2 = 𝑎𝑗 + 2 (𝑎𝑗+1 − 𝑎𝑗 ) = 65.1 + (68.5 − 65.1) = 67.72
𝑛𝑗 13

3𝑁
− 𝑁𝑗−1 60 − 51
𝑄3 = 𝑎𝑗 + 4 (𝑎𝑗+1 − 𝑎𝑗 ) = 68.5 + (71.9 − 68.5) = 70.85
𝑛𝑗 13

De forma similar se puede definir los deciles como aquellos valores de la variable
que dividen la muestra, ordenada, en diez partes iguales. Estos valores,
denotados por 𝐷𝑘 , con 𝑘 = 1,2, … ,9, tienen un valor tal que el decil k–esimo deja
por debajo de él al 10% de los datos de la muestra. De la misma manera se

66
definen los percentiles como aquellos valores de la variable, denotados por 𝑃𝑘 ,
con 𝑘 = 1,2, … ,99, que dividen a la muestra en cien partes iguales. Esto equivale
a decir que el percentil 𝑃𝑘 deja por debajo de él al 𝑘 por ciento de la muestra
ordenada. La forma de calcular deciles y percentiles es igual a la de la mediana y
𝑁
los cuartiles, sustituyendo por la fracción del número total de datos
2
correspondiente.

Es importante mencionar que algunos valores de cuartiles, deciles y centiles


coinciden, cumpliéndose, por ejemplo: 𝑃50 = 𝐷5 = 𝑄2 = 𝑀𝑒.

Medidas de Dispersión
Las medidas de tendencia central reducen la información recogida de la muestra
a un solo valor; dando una idea de dónde se encuentra el centro de la distribución.
Sin embargo, dicho valor central o medio, será más o menos representativo de los
valores de la muestra dependiendo de la dispersión que las medidas individuales
tengan respecto a dicho centro. Es decir, que las medidas de tendencia central no
indican cuán disperso es el conjunto de datos. Por ejemplo, considérese los
siguientes conjuntos de datos:

• Muestra A: 55 55 55 55 55 55 55
• Muestra B: 47 51 53 55 57 59 63
• Muestra C: 39 47 53 55 57 63 71

En los tres casos 𝑥 = 𝑀𝑒 = 55, pero, como es evidente, las muestras difieren
notablemente.

67
Para analizar la representatividad de las medidas de centralización se definen las
llamadas medidas de dispersión. Estas indican la variabilidad de los datos en torno
a su valor promedio, es decir si se encuentran muy o poco esparcidos en torno a
su centro. Se pueden definir diversas medidas de desviación o dispersión, siendo
éstas fundamentales para la descripción estadística de la muestra.

a) Rango o recorrido

Una evaluación rápida de la dispersión de los datos se puede realizar calculando


el rango o recorrido o diferencia entre el valor máximo y mínimo que toma la
variable estadística. El rango de 𝑛 observaciones 𝑥1 , 𝑥2 , . . . , 𝑥𝑛 es la diferencia
entre el valor máximo y mínimo que toma la variable, 𝑅 = 𝑚𝑎𝑥(𝑥𝑖 ) − 𝑚𝑖𝑛(𝑥𝑖 ).
Calcular el rango para cada una de las muestras dadas en el ejemplo anterior:

• Muestra A: 55 − 55 = 0
• Muestra B: 63 − 47 = 16
• Muestra C: 71 − 39 = 32

Una de las propiedades del rango es de ser una medida extremadamente sensible
a la presencia de datos atípicos, de existir estos datos, estarán en los extremos
que son los datos que se usan para calcular el rango. Una segunda característica
es la de ignorar la mayoría de los datos puesto que solo usa dos observaciones:
la mayor y la menor.

Con el fin de eliminar la excesiva influencia de los valores extremos en el recorrido,


se puede definir el recorrido intercuartílico como la diferencia entre el tercer y
primer cuartil.

𝑅𝐼 = 𝑄3 − 𝑄1 .

Está claro que este recorrido brinda, entonces, el rango que ocupan el 50% central
de los datos.

b) Varianza y desvío estándar

Sin lugar a dudas la medida más usada para estimar la dispersión de los datos es
la desviación estándar. Ésta es especialmente aconsejable cuando se usa la
media aritmética como medida de tendencia central. Está basada en un valor
promedio de las desviaciones respecto a la media.

En este caso, en vez de tomar valores absolutos de las desviaciones, para evitar
así que se compensen desviaciones positivas y negativas, se usan los cuadrados

68
de las desviaciones. Esto hace además que los datos con desviaciones grandes
influyan mucho en el resultado final. Por lo tanto, se define, en primer lugar, la
varianza de una muestra con datos repetidos de la siguiente manera:

2
∑𝑘𝑖=1(𝑥𝑖 − 𝑥 )2 𝑛𝑖
𝑠 =
𝑁−1
Evidentemente la varianza no tiene las mismas unidades que los datos de la
muestra. Para conseguir las mismas unidades se define la desviación estándar
como la raíz cuadrada de la varianza, o sea que:

∑𝑘𝑖=1(𝑥𝑖 − 𝑥 )2 𝑛𝑖
𝑠=√
𝑁−1

Si los datos no se repiten, estas definiciones se simplifican a:

2
∑𝑘𝑖=1(𝑥𝑖 − 𝑥 )2 𝑛𝑖
𝑠 =
𝑁−1

∑𝑘𝑖=1(𝑥𝑖 − 𝑥 )2 𝑛𝑖
𝑠=√
𝑁−1

Se puede definir varianza y desviación estándar utilizando 𝑁 en vez de 𝑁 − 1 en


el denominador, representando entonces la varianza una verdadera media
aritmética del cuadrado de las desviaciones. Está claro que ambas definiciones
llevan a valores muy parecidos cuando 𝑁 es grande. El motivo de haber optado
por la definición con 𝑁 − 1 es que ésta da una mejor estimación de la dispersión
de los datos.

Téngase en cuenta que como la suma de las desviaciones 𝑥𝑖 − 𝑥 es siempre 0, la


desviación del último dato puede calcularse una vez que se conozcan las 𝑁 − 1
anteriores. Esto quiere decir que sólo se tienen 𝑁 − 1 desviaciones
independientes y se promedia entonces dividiendo por 𝑁 − 1, ya que no tiene
mucho sentido promediar 𝑁 números no independientes.

Nótese, además, cuando solo se tiene un dato (𝑁 = 1), en el caso de la definición


con 𝑁 en el denominador se obtendría una varianza 0, que no tiene mucho
sentido, mientras que en la definición con 𝑁 − 1 la varianza estaría indeterminada.

69
Calcular la varianza y la desviación estándar de los datos, cuya media aritmética
es 2.25

xi ni xprom ((xi-xprom)^2)ni
1 6 2.25 9.38
2 7 2.25 0.44
3 4 2.25 2.25
4 2 2.25 6.13
5 1 2.25 7.56
Total 20 25.75

∑𝑘𝑖=1(𝑥𝑖 − 𝑥 )2 𝑛𝑖 25.75
𝑠2 = = = 1.355
𝑁−1 19

∑𝑘𝑖=1(𝑥𝑖 − 𝑥 )2 𝑛𝑖
𝑠=√ = √1.355 = 1.16
𝑁−1

Ahora, calcular la varianza y desviación estándar de los datos, cuya media


aritmética es 67.0125. Como los datos están agrupados en intervalos, 𝑥𝑖
representa la marca de clase del i-ésimo intervalo.

ci ni xprom ((xi-xprom)^2)ni
53.2 2 67.0125 381.57
56.6 5 67.0125 542.10
60.0 7 67.0125 344.23
63.4 16 67.0125 208.80
66.8 21 67.0125 0.95
70.2 13 67.0125 132.08
73.6 8 67.0125 347.16
77.0 4 67.0125 399.00
80.4 4 67.0125 716.90
Total 80.0 3072.8

2
∑𝑘𝑖=1(𝑥𝑖 − 𝑥 )2 𝑛𝑖 3072.80
𝑠 = = = 38.90
𝑁−1 79

70
∑𝑘𝑖=1(𝑥𝑖 − 𝑥 )2 𝑛𝑖
𝑠=√ = √38.90 = 6.24
𝑁−1

La desviación estándar es útil para comparar la variabilidad de dos conjuntos de


datos en los que la variable ha sido medida en las mismas unidades. Por ejemplo,
si en una muestra 𝑠 = 2.3 y en otra 𝑠 = 8.4 se puede asegurar que los datos de la
segunda muestra están más dispersos que los de la primera. Pero ¿cómo se
interpreta el valor 𝑠 = 2.3? La desviación estándar da la idea de la distancia
promedio de los datos a la media (estrictamente hablando no es el promedio).
Pero la interpretación de 𝑠 requiere algún conocimiento de la distribución de los
datos. Es por ello que se puede dar la siguiente regla empírica. Por lo tanto, si el
histograma de los datos es aproximadamente simétrico y acampanado entonces:

• Aproximadamente el 68.3% de las observaciones caen en el intervalo 𝑥 − 𝑠


y𝑥+𝑠
• Aproximadamente el 95.4% de las observaciones caen en el intervalo 𝑥 − 𝑠
y𝑥+𝑠
• Prácticamente todas las observaciones, 99.7%, caen en el intervalo 𝑥 − 3𝑠
y 𝑥 + 3𝑠

71
Esta regla es válida para distribuciones no necesariamente acampanadas, pero
puede ser errónea cuando se aplica a distribuciones fuertemente asimétricas.
Nótese que la desviación estándar no es una medida robusta de la dispersión. El
hecho de que se calcule evaluando los cuadrados de las desviaciones hace que
sea muy sensible a observaciones extremas.

O sea que, la desviación estándar no es una buena medida de dispersión cuando


existe algún dato muy alejado de la media. El rango intercuartílico daría, en ese
caso, una idea más aproximada de cuál es la dispersión de los datos. El que la
desviación estándar sea la medida de dispersión más común se debe a su íntima
conexión con la distribución normal.

c) Coeficiente de variación

Las medidas de dispersión vistas presentan un inconveniente ya que vienen


expresadas en las unidades en que se ha medido la variable. Es decir, son
medidas absolutas y con el único dato de su valor no es posible decir si se tiene
una dispersión importante o no. Para solucionar esto, se definen unas medidas de
dispersión relativas, independiente de las unidades usadas. Estas dispersiones
relativas van a permitir además comparar la dispersión entre diferentes muestras
(con unidades diferentes). Entre estas medidas hay que destacar el coeficiente de
variación de Pearson, definido como el cociente entre la desviación estándar y la
media aritmética:
𝑠
𝐶𝑉 =
|𝑥 |

Normalmente CV se expresa en porcentaje, multiplicando su valor por 100.


Evidentemente, cuanto mayor sea CV, mayor dispersión tendrán los datos.

Calcular el coeficiente de variación de los datos, cuya media aritmética es 2.25 y


la desviación estándar 1.16
𝑠 1.16
𝐶𝑉 = = = 0.515 = 51.5%
|𝑥 | 2.25

Ahora, calcular el coeficiente de variación de los datos, cuya media aritmética es


67.0125 y la desviación estándar 6.24
𝑠 6.24
𝐶𝑉 = = = 0.093 = 9.3%
|𝑥 | 67.0125

72
d) Asimetría y Curtosis

La descripción estadística de una muestra de datos incluye además de las


medidas de tendencia central y de dispersión, el grado de simetría de los mismos
respecto a su medida central y la concentración de este alrededor de dicho valor.
De esta forma se dará una descripción completa de la muestra.

Coeficiente de asimetría

Se dice que una distribución de medidas es simétrica cuando, valores de la


variable equidistantes del valor central, tienen la misma frecuencia. Es decir, en
este caso se tendría simetría en el histograma (o en el diagrama de barras)
alrededor de una recta vertical trazada por el punto central. En el caso de una
distribución perfectamente simétrica los valores de la media aritmética, mediana
y moda coinciden (𝑥 = 𝑀𝑒 = 𝑀𝑜). Esto se muestra en el siguiente gráfico.

En el caso de no tener simetría, se tiene entonces, asimetría a la derecha (o


positiva) o a la izquierda (o negativa) dependiendo de que el histograma muestre
una cola de medidas hacia valores altos o bajos de la variable, respectivamente.
También se puede decir que la distribución está sesgada a la derecha (sesgo
positivo) o a la izquierda (sesgo negativo). En el caso de una distribución
asimétrica, la media, mediana y moda no coinciden, siendo 𝑥 ≥ 𝑀𝑒 ≥ 𝑀𝑜 para una
asimetría positiva y 𝑥 ≤ 𝑀𝑒 ≤ 𝑀𝑜 para una asimetría negativa. Como se muestra
en los siguientes gráficos.

73
Con el fin de cuantificar el grado de asimetría de una distribución se pueden definir
los coeficientes de asimetría. Aunque no son los únicos, existen dos coeficientes
principales:

1. Coeficiente de asimetría de Fisher, para datos agrupados se define como:

∑𝑘𝑖=1(𝑥𝑖 − 𝑥 )3 𝑛𝑖
𝐴𝐹 = 𝑁−1
𝑠3
Y para datos sin agrupar es:

∑𝑘𝑖=1(𝑥𝑖 − 𝑥 )3
𝐴𝐹 =
𝑁 ∗ 𝑠3
En el caso de una distribución simétrica, las desviaciones respecto a la media
aritmética se anularán y el coeficiente de asimetría será nulo. En caso contrario,
𝐴𝐹 tendrá valores positivos para una asimetría positiva (a la derecha) y negativos
cuando la asimetría sea en el otro sentido. Nótese que la división por el cubo de
la desviación estándar se hace para que el coeficiente sea adimensional y, por lo
tanto, comparable entre diferentes muestras.

2. Coeficiente de asimetría de Pearson. Este coeficiente también


adimensional se define como:
𝑥 − 𝑀𝑜
𝐴𝑃 =
𝑠

74
Su interpretación es similar a la del coeficiente de Fisher, siendo nulo para una
distribución simétrica y tanto más positivo, o negativo, cuando más sesgada esté
la distribución hacia la derecha o hacia la izquierda.

Ejemplo:

Calcular el coeficiente de asimetría de los datos, cuya media aritmética es 2.25,


la desviación estándar 1.16 y la moda es 2.

xi ni xprom ((xi-xprom)^3)ni
1 6 2.25 -11.7188
2 7 2.25 -0.1094
3 4 2.25 1.6875
4 2 2.25 10.7188
5 1 2.25 20.7969
Total 20 21.375
∑𝑘𝑖=1(𝑥𝑖 − 𝑥 )3 𝑛𝑖 21.375
𝐴𝐹 = 𝑁−1 = 20 − 1 = 0.72
𝑠3 1.5609
𝑥 − 𝑀𝑜 2.25 − 2
𝐴𝑃 = = = 0.215
𝑠 1.16
Coeficiente de curtosis

Otra característica importante de la forma en la que se distribuyen los datos de la


muestra, además de la simetría, es cómo se agrupan en torno al valor central. Los
datos se pueden distribuir de forma que se tenga un gran apuntamiento o pico,
alrededor del valor central, en cuyo caso se dice que la distribución es
leptocúrtica1, o en el extremo contrario, la distribución puede ser muy aplanada,
lo que se caracteriza diciendo que es platicúrtica2. En el caso intermedio, se dice
que la distribución es mesocúrtica3 y el agrupamiento corresponderá al de una
distribución normal o en forma de campana de Gauss.

1 El prefijo griego “lepto” significa delgado, fino. Curtosis o apuntamiento. Leptocurtica, un apuntamiento alargado.
2 Plati, prefijo procedente del griego “platys” que significa ancho.
3 Meso, prefijo procedente del griego “mésos” que signfica medio.

75
Esta característica del agrupamiento de los datos se denomina curtosis y para
cuantificarla se define el coeficiente de curtosis 𝐶𝑐 de la siguiente manera para
datos agrupados:

∑𝑘𝑖=1(𝑥𝑖 − 𝑥 )4 𝑛𝑖
𝐶𝑐 = 𝑁−1
𝑠4
Y para datos no agrupados:

∑𝑘𝑖=1(𝑥𝑖 − 𝑥 )4
𝐶𝑐 =
𝑁 ∗ 𝑠4
Este coeficiente sin dimensión alcanza valores mayores cuanto más puntiaguda
es la distribución, teniendo un valor de 3 para la distribución mesocúrtica (o
normal), mayor que 3 para la leptocúrtica y menor que 3 para la platicúrtica.
Calcular la curtosis para el ejemplo anterior.

∑𝑘𝑖=1(𝑥𝑖 − 𝑥 )4 𝑛𝑖 91.8906
𝐶𝑐 = 𝐶𝑐 = 𝑁 − 1 = 19 = 2.67
𝑠 4 1.8106

76
Distribuciones de Frecuencias
Los valores de una variable sirven para describir o clasificar individuos o distinguir
entre ellos. La mayoría de nosotros hacemos algo más que simplemente describir,
clasificar o distinguir, porque tenemos ideas respecto a las frecuencias relativas
de los valores de una variable. En estadística decimos que la variable tiene una
función de probabilidad, una función de densidad de probabilidad o simplemente
una función de distribución.

Distribuciones Discretas
Las distribuciones de probabilidad están relacionadas con la distribución de
frecuencias. De hecho, podemos pensar en la distribución de probabilidad como
una distribución de frecuencias teórica. Una distribución de frecuencias teórica es
una distribución de probabilidades que describe la forma en que se espera que
varíen los resultados. Debido a que estas distribuciones tratan sobre expectativas
de que algo suceda, resultan ser modelos útiles para hacer inferencias y tomar
decisiones de incertidumbre.

La distribución binomial
Una distribución de probabilidad de una variable aleatoria discreta utilizada
ampliamente es la distribución binomial. Esta distribución aparece de forma
natural al realizar repeticiones independientes de un experimento que tenga
respuesta binaria, generalmente clasificada como “éxito” o “fracaso”; este
experimento recibe el nombre de experimento de Bernoulli en honor al matemático
Suizo Jacob Bernoulli (1654-1705) en donde la obtención del resultado deseado
se considera como éxito "𝑝" y el resultado no deseado como fracaso "𝑞", donde,
𝑞 = 1– 𝑝.

La variable discreta que cuenta el número de éxitos en 𝑛 pruebas independientes


de ese experimento, cada una de ellas con la misma probabilidad de “éxito” igual
a 𝑝, sigue una distribución binomial de parámetros 𝑛 y 𝑝, que se denota por
𝐵𝑖(𝑛, 𝑝). Este modelo se aplica, principalmente, a poblaciones finitas de las que
se toman elementos al azar con reemplazo.

77
Características del proceso de Bernoulli

Podemos utilizar el resultado del lanzamiento de una moneda no alterada un cierto


número de veces como ejemplo de proceso de Bernoulli. Podemos describir el
proceso de la manera siguiente:

1. Cada ensayo conduce a uno de dos resultados posibles, mutuamente


exclusivos, uno denominado éxito y el otro fracaso.

2. La probabilidad del resultado de cualquier intento permanece fijo con


respecto al tiempo.

3. Los ensayos son estadísticamente independientes, es decir, el


resultado de un ensayo en particular no es afectado por el resultado de
cualquier otro ensayo.

Si 𝑝 y 1 − 𝑝 son las probabilidades de éxito y fracaso respectivamente en cada


ensayo, entonces, la probabilidad de obtener 𝑥 éxitos y 𝑛 − 𝑥 fracasos en algún
orden específico se da por la siguiente ecuación:

𝑝 𝑥 (1 − 𝑝)𝑛−𝑥

78
Entonces el número de formas en que podemos obtener 𝑥 éxitos en 𝑛 ensayos es
el número de combinaciones de 𝑥 objetos seleccionados de un conjunto de 𝑛
objetos (𝑛/𝑥) y así llegamos al siguiente resultado:
𝑛
𝑃(𝑥) = ( ) 𝑝 𝑥 𝑞𝑛−𝑥
𝑥
Donde,

𝑛 = número de ensayos realizados.

𝑝 = probabilidad de éxito.

𝑞 = (1 − 𝑝) = probabilidad de fracaso.

𝑛 − 𝑥 = número de fracasos deseados.

𝑝 𝑥 = probabilidad favorable.

Mediante la fórmula de combinaciones la ecuación anterior se transformará en:


𝑛!
𝑃 (𝑥 ) = 𝑝 𝑥 𝑞𝑛−𝑥
𝑥! (𝑛 − 𝑥)!

Aunque esta fórmula pueda parecer un tanto complicada, se le puede utilizar con
bastante facilidad. El símbolo ! significa factorial. Por ejemplo, factorial cinco (5! =
5 ∗ 4 ∗ 3 ∗ 2 ∗ 1 = 120) o 0! = 1.

Ejemplo:

Se lanza una moneda corriente 6 veces, donde llamamos cara a un éxito. Por
consiguiente 𝑛 = 6 y 𝑝 = 𝑞 = 1/2. Solo pueden ocurrir dos cosas (𝑝 𝑜 𝑞) por lo
tanto la probabilidad de que ocurra una de ellas es la mitad, es decir ½.

a) La probabilidad de que suceda 2 caras exactamente (o sea 𝑥 = 2) es:

6! 1 2 1 6−2 15
𝑃 (𝑥 ) = ( ) ( ) = = 23.44%
2! (6 − 2)! 2 2 64

b) La probabilidad de conseguir por lo menos cuatro caras (o sea 𝑥 = 4, 5 𝑜 6)


es:

79
6! 1 4 1 6−4 15
𝑃 (4) = ( ) ( ) =
4! (6 − 4)! 2 2 64

6! 1 5 1 6−5 6
𝑃 (5) = ( ) ( ) =
5! (6 − 5)! 2 2 64

6! 1 6 1 6−6 1
𝑃 (6) = ( ) ( ) =
6! (6 − 6)! 2 2 64

Entonces,
15 6 1 22
𝑃 (𝑥 ) = + + = = 34.38%
64 64 64 64
Propiedades de la distribución binomial

1. la media: 𝜇 = 𝑛𝑝
2. la varianza: 𝜎 2 = 𝑛𝑝𝑞
3. la desviación estándar: 𝜎 = √𝑛𝑝𝑞
4. cuando 𝑝 es menor que 0.5, la distribución binomial está sesgada hacia la
derecha.
5. conforme 𝑝 aumenta, el sesgo es menos notable.
6. cuando 𝑝 = 0.5, la distribución binomial es simétrica.
7. cuando 𝑝 es mayor que 0.5, la distribución esta sesgada hacia la izquierda.

Distribución Hipergeométrica
La distribución hipergeométrica suele aparecer en procesos muestrales sin
reemplazo, en los que se investiga la presencia o ausencia de cierta característica.
Por ejemplo, en un procedimiento de control de calidad en una empresa
farmacéutica, durante el cual se extraen muestras de las cápsulas fabricadas y se
someten a análisis para determinar su composición. Durante las pruebas, las
cápsulas son destruidas y no pueden ser devueltas al lote del que provienen. En
esta situación, la variable que cuenta el número de cápsulas que no cumplen los
criterios de calidad establecidos sigue una distribución hipergeométrica. Por tanto,
esta distribución es la equivalente a la binomial, pero cuando el muestreo se hace
sin reemplazo, de forma que la probabilidad de éxito no permanece constante a
lo largo de las 𝑛 pruebas, a diferencia de la distribución binomial.

80
Esta distribución se puede ilustrar del modo siguiente: se tiene una población finita
con 𝑁 elementos, de los cuales 𝑅 tienen una determinada característica que se
llama “éxito” (diabetes, obesidad, hábito de fumar, etc.). El número de “éxitos” en
una muestra aleatoria de tamaño 𝑛, extraída sin reemplazo de la población, es
una variable aleatoria con distribución hipergeométrica de parámetros 𝑁, 𝑅 𝑦 𝑛.

Cuando el tamaño de la población es grande, los muestreos con y sin reemplazo


son equivalentes, por lo que la distribución hipergeométrica se aproxima en tal
caso a la binomial.

Recuérdese que, si se selecciona una muestra aleatoria de 𝑛 consumidores de


una población de 𝑁 consumidores, el número 𝑥 de usuarios que favorecen un
producto específico tendría una distribución binomial cuando el tamaño de
muestra 𝑛 es pequeño respecto al número de 𝑁 de consumidores en la población,
el número 𝑥 a favor del producto tiene una distribución de probabilidad
hipergeométrica, cuya fórmula es:
𝑁−𝑟
𝐶𝑥𝑟 𝐶𝑁−𝑥
𝑃 (𝑥 ) =
𝐶𝑛𝑁
𝑁!
𝐶𝑛𝑁 =
𝑛! (𝑁 − 𝑛)!

Donde:

𝑁 = número de elementos en la población.

𝑟 = número de elementos que tienen una característica especifica, por ejemplo,


el número de personas a favor un producto particular.

𝑛 = número de elementos en la muestra.

81
Medidas de tendencia central y de dispersión para la distribución
hipergeométrica

La distribución hipergeométrica al igual que otras distribuciones de probabilidades


tiene un valor esperado o media (𝜇) y una desviación estándar (𝜎), y vamos a ver
la forma en que ambas medidas estadísticas se pueden calcular. Simbólicamente,
podemos representar la media de una distribución hipergeométrica como:
𝑛𝑟
𝜇=
𝑁
En la que:

𝑛 = número de muestras.

𝑟 = número de elementos de la muestra con ciertas características.

𝑁 = tamaño de la población.

Y podemos calcular la variancia y la desviación estándar de una distribución


hipergeométrica haciendo uso de la fórmula:

82
𝑟 (𝑁 − 𝑟 ) 𝑛 (𝑁 − 𝑛 )
𝜎2 =
𝑁 2 (𝑁 − 1)

𝑟 (𝑁 − 𝑟 ) 𝑛 (𝑁 − 𝑛 )
𝜎=√
𝑁 2 (𝑁 − 1)

En la que:

𝜎 2 = la variancia.

𝜎 = la desviación estándar.

Ejemplo: Una camioneta contenía 20 computadoras electrónicas grandes, 2 de


las cuales estaban defectuosas. Si se seleccionan al azar tres computadoras del
furgón ¿cuál será la probabilidad de que dos de ellas tengan desperfectos?
Solución:

𝑁 = 20

𝑛=3

𝑟 = 2 (computadoras defectuosas)

𝑥 = número de computadoras con averías en la muestra

Entonces,
20−2
𝐶22 𝐶3−2 1 ∗ 18
𝑃 (2) = = = 1.58%
𝐶320 1140

2! 2
𝐶22 = = =1
2! (2 − 2)! 2(0)
18! 18!
𝐶118 = = = 18
1! (18 − 1)! 17!
20! 20!
𝐶320 = = = 1140
3! (20 − 3)! 3! ∗ 17!

Entonces la probabilidad de sacar 𝑥 = 2 computadoras defectuosas en una


muestra de 𝑛 = 3 es: 1.58%.

83
Distribuciones Continuas
Una variable aleatoria continua es la que puede tomar un número infinitamente
grande de valores que corresponden a los puntos en un intervalo de una recta.
Las estaturas y los pesos de las personas, el tiempo entre dos eventos o la vida
útil de un equipo de oficina, son ejemplos típicos de variables aleatorias continuas.

El modelo probabilístico para la distribución de frecuencias de una variable


aleatoria continua implica la selección de una curva, generalmente regular o
aislada, a la que se llama distribución de probabilidad o función de densidad de
probabilidad de una variable aleatoria.

Entonces las afirmaciones probabilísticas acerca de las variables aleatorias


continuas siempre corresponden a áreas bajo la distribución de probabilidad sobre
un intervalo, por ejemplo, de 𝑎 o 𝑏, y se expresan como 𝑃(𝑎 < 𝑥 < 𝑏). Hay muchas
distribuciones de probabilidad continuas y cada una se representa mediante una
ecuación 𝑓(𝑥), que se escoge de la manera que el área total bajo la curva de
distribución de probabilidad sea igual a 1.

Una vez que conocemos la ecuación 𝑓(𝑥) de una distribución de probabilidad


particular se pueden encontrar probabilidades específicas como que 𝑥 esté en el
intervalo 𝑎 < 𝑥 < 𝑏, mediante las tablas donde se han calculado y tabulado las

84
áreas bajo la mayoría de las distribuciones de probabilidades continuas más
empleadas.

Distribución Normal
La distribución normal es, sin duda, la distribución más importante del cálculo de
probabilidades y de la Estadística. Fue descubierta, como aproximación de la
distribución binomial, por Abraham De Moivre (1667-1754) y publicada en 1733
en su libro The Doctrine of Chances; estos resultados fueron ampliados por
Pierre-Simon Laplace (1749-1827), quién también realizó aportaciones
importantes.

En 1809, Carl Friedrich Gauss (1777-1855) publicó un libro sobre el movimiento


de los cuerpos celestes donde asumía errores normales, por este motivo esta
distribución también es conocida como distribución Gaussiana.

La importancia de la distribución normal queda totalmente consolidada por ser la


distribución límite de numerosas variables aleatorias, discretas y continuas. Junto
a lo anterior, no es menos importante el interés que supone la simplicidad de sus
características y de que de ella derivan, entre otras, tres distribuciones (Chi-
cuadrado, t de Student y F de Snedecor) que se mencionarán más adelante, de
importancia clave en el campo de la contrastación de hipótesis estadísticas.

La distribución normal queda totalmente definida mediante dos parámetros: la


media (𝜇) y la desviación estándar o desviación típica (𝜎). Su función de densidad
es simétrica respecto a la media y la desviación estándar nos indica el mayor o
menor grado de apertura de la curva que, por su aspecto, se suele llamar
campana de Gauss. Esta distribución se denota por 𝑁(𝜇, 𝜎).

Cuando la distribución normal tiene como parámetros 𝜇 = 0 y 𝜎 = 1 recibe el


nombre de distribución normal estándar. Cualquier variable 𝑥 que siga una
distribución normal de parámetros 𝜇 y 𝜎 se puede transformar en otra variable
𝑥−𝜇
[𝑧 = ] que sigue una distribución normal estándar; este proceso se denomina
𝜎
estandarización, tipificación o normalización.

Existen dos razones básicas por las cuales la distribución normal ocupa un lugar
tan prominente en la estadística.

a) Tiene algunas propiedades que la hacen aplicable a un gran número de


situaciones en las que es necesario hacer inferencias mediante la toma de
muestras.

85
b) La distribución normal casi se ajusta a las distribuciones de frecuencias
reales observadas en muchos fenómenos, incluyendo características
humanas (peso, altura, IQ), resultados de procesos físicos y muchas otras
medidas de interés para los investigadores, tanto en el sector público como
en el privado.

Trata de enseñar a encontrar la probabilidad de un suceso por medio de la curva


normal y la tabla de las áreas bajo la curva normal. La distribución normal se utiliza
cuando existe una variable aleatoria continua, donde dicha variable puede asumir
cualquier valor de una gama de ellos y por tanto la distribución de probabilidad es
continua. La distribución normal representa las siguientes propiedades:

1. La curva es simétrica, tiene un solo pico, por consiguiente, es unimodal,


presenta una forma de campana.
2. La media de una población distribuida normalmente se encuentra en el
centro de su curva normal.
3. A causa de la simetría de la distribución normal de probabilidad, la media,
la moda y la mediana de la distribución se encuentran también en el centro;
en consecuencia, para una curva normal, la media, la mediana y la moda
tienen el mismo valor.
4. Teóricamente, la curva se extiende en ambas direcciones, y tiende
gradualmente a unirse con el eje horizontal. Sin embargo, se extiende al
infinito, sin tocar nunca el eje de la abscisa.

Por consiguiente, viene definida por la ecuación:


1 1 2 /𝜎 2
𝑌= 𝑒 −2(𝑥−𝜇)
𝜎√2𝜋
Donde:

𝜇 = la media.

𝜎² = la varianza.

𝜎 = la desviación típica.
𝜋 = constante 3.14159.

𝑒 = 2.71828.

La ecuación de una distribución normal con µ = 0 y 𝜎 = 1 (una distribución normal


estandarizada) es igual a:

86
1 1 2
𝑌= 𝑒 −2𝑧
𝜎√2𝜋

La probabilidad se denota por 𝑃{𝑎 < 𝑥 < 𝑏}, y se calcula mediante la fórmula:
𝑥−𝜇
[𝑧 = ]
𝜎
Cuando se expresa la variable 𝑥 en unidades estándares, las áreas
comprendidas entre 𝑧 = ±1, 𝑧 = ±2, 𝑦 𝑧 = ±3 son iguales, respectivamente, a
68.27%, 95.45% y 99.73% del área total, que es 1. La tabla de 𝑍 en cualquier
libro de estadística muestra las áreas bajo esta curva acotadas por las
ordenadas 𝑧 = 0 y cualquier valor positivo de 𝑧. De esta tabla se puede deducir
el área entre todo par de coordenadas usando la simetría de la curva respecto
de 𝑧 = 0.

87
Tabulaciones de las áreas de la distribución de la probabilidad normal

No importa cual sean los valores de 𝜇 y 𝜎 para una distribución de probabilidad


normal, el área total bajo la curva es 1, de manera que podemos pensar en áreas
bajo la curva como si fuera probabilidades.

Recordemos que la probabilidad de una variable aleatoria continua toma un valor


en el intervalo de 𝑎 hasta 𝑏, es el área bajo la función de la densidad de
probabilidad, entre los puntos 𝑎 y 𝑏 a fin de evaluar las áreas bajo la curva normal.

Ejemplo: Obtenga 𝑝(0 ≤ 𝑧 ≤ 1.63). Esta probabilidad corresponde al área entre


la media (𝑧 = 0) y un punto 𝑧 = 1.63 desviaciones estándares a la derecha de la
media.

88
Solución: De la tabla de 𝑧 de las áreas bajo la curva normal a la derecha de la
media, solamente se necesita encontrar el valor tabulado correspondiente a 𝑧 =
1.63. Se baja por la columna de la izquierda de la tabla hasta el renglón
correspondiente a 𝑧 = 1.6 y se va luego por el renglón superior hasta la columna
marcada con 0.03. La intersección de esta combinación de renglón da el área 𝐴 =
0.4484. Por lo tanto, 𝑃(0 < 𝑧 < 1.63) = 0.4484.

Ejemplo: Ciertos estudios muestran que el rendimiento de la gasolina para


automóviles compactos vendidos en Estados Unidos, tienen distribución normal,
con un rendimiento medio de 30.5 millas por galón (mpg) y una desviación
estándar de 4.5 mpg. Si un fabricante desea diseñar un coche compacto más
económico que el 95 % de los automóviles compactos vendidos en Estados
Unidos, ¿cuál debe ser el rendimiento mínimo del coche nuevo?

Solución: Sea 𝑥 una variable aleatoria distribuida normalmente con una media de
30.5 y una desviación estándar de 4.5. Se desea encontrar el valor de 𝑥0 tal que

𝑃(𝑥 < 𝑥0 ) = 0.95

Se encuentra el valor de 𝑧0 tal que el área a la izquierda sea igual a 0.95. Puesto
que el área a la izquierda de 𝑧 = 0 es 0.5, 𝑧0 será el valor de 𝑧 en la Tabla que
corresponde a un área igual a 0.45. Este valor es 𝑧0 = 1.645.

Luego se encuentra el valor 𝑥0 correspondiente a 𝑧0 = 1.645 que se obtiene


utilizando la ecuación que relaciona 𝑥 y 𝑧 a saber:
𝑥−𝜇
𝑧=
𝜎
Donde, 𝜇 = 30.5 y 𝜎 = 4.5. Al sustituir los valores de 𝜇, 𝜎 y 𝑧0 en esta ecuación y
despejando 𝑥0 resulta:

𝑥0 − 30.5
1.645 =
4.5
𝑥0 = 4.5 ∗ 1.645 + 30.5 = 37.9

Por lo tanto, el nuevo coche compacto del fabricante debe desarrollar un


rendimiento de 37.9 mpg para ser mejor que el 95% de los coches compactos que
actualmente se venden en Estados Unidos.

89
La distribución normal como una aproximación de la distribución binomial

Aunque la distribución normal es continua, resulta interesante hacer notar que


algunas veces puede utilizarse para aproximar la distribución binomial, suponga
que nos gustaría saber la probabilidad de obtener 5, 6, 7 u 8 caras en diez
lanzamientos de una moneda no alterada:

𝑃(5, 6, 7 𝑢 8) = 𝑃(5) + 𝑃(6) + 𝑃(7) + 𝑃(8) = 0.2461 + 0.2051 +


0.1172 + 0.0439 = 0.6123

Para 𝑛 = 10 y 𝑝 = ½ se puede calcular la media (𝜇 = 𝑛𝑝 = 10(½) = 5) y


1
desviación estándar (𝜎 = √𝑛𝑝𝑞 = √5 ∗ = 1.58).
2

Observe el área bajo la curva normal entre 5 ± ½. Nos damos cuenta de que esta
área es de aproximadamente el mismo tamaño que el área de la barra que
representa la probabilidad binomial de obtener 5 caras. Los dos ½ que agregamos
y restamos se conocen como factores de corrección de continuidad y se utilizan
para mejorar la precisión de la aproximación.

Al usar los factores de corrección de continuidad, vemos que la probabilidad


binomial de obtener 5, 6, 7 u 8 caras puede ser aproximada por el área bajo la
curva normal entre 4.5 y 8.5. Determine esta probabilidad mediante el cálculo de
los valores de z correspondientes a 4.5 y 8.5.
𝑥 − 𝜇 4.5 − 5
𝑧1 = = = −0.32
𝜎 1.581
𝑥 − 𝜇 8.5 − 5
𝑧2 = = = 2.21
𝜎 1.581
𝑝(𝑧1 ≤ −0.32) = 𝑝(𝑧1 ≥ 0.32) = 0.1255 de que 𝑥 esté entre 4.5 y 5.

𝑝(𝑧2 ≥ 2.21) = 0.4864 correspondiente de que x esté entre 5 y


8.5.

La probabilidad de que 𝑥 esté entre 4.5 y 8.5:

𝐴 = 0.1255 + 0.4864 = 0.6119

Comparando la probabilidad binomial de 0.6123 (Tabla 𝑍) con la aproximación


normal de 0.6119, vemos que el error en la aproximación es menor a 1/10 (1%).

90
La aproximación normal a la distribución binomial resulta muy conveniente, pues
nos permite resolver el problema sin tener que consultar grandes tablas de la
distribución binomial. Debemos hacer notar que se necesita tener algo de cuidado
al utilizar esta aproximación, que es bastante buena siempre y cuando 𝑛𝑝 y 𝑛𝑞
sean de al menos cinco.

Distribución de Poisson
La distribución de probabilidad de Poisson debe su nombre a Siméon Denis
Poisson (1781-1840), un francés que desarrollo la distribución en el año 1834. La
distribución de Poisson se utiliza mucho en área de la administración de empresas
para modelar la distribución de frecuencias relativas del número de accidentes
industriales por unidad de tiempo o por administradores de personal, para
modelar la distribución de frecuencias relativas del número de accidentes de los
empleados o el número de reclamaciones de seguros, por unidad de tiempo.

Para que una variable recuento siga una distribución de Poisson deben cumplirse
varias condiciones:

1. En un intervalo muy pequeño (p. e. de un milisegundo) la probabilidad de


que ocurra un evento es proporcional al tamaño del intervalo.

2. La probabilidad de que ocurran dos o más eventos en un intervalo muy


pequeño es tan reducida que, a efectos prácticos, se puede considerar nula.

3. El número de ocurrencias en un intervalo pequeño no depende de lo que


ocurra en cualquier otro intervalo pequeño que no se solape con aquél.

Estas propiedades pueden resumirse en que el proceso que genera una


distribución de Poisson es estable (produce, a largo plazo, un número medio de
sucesos constante por unidad de observación) y no tiene memoria (conocer el
número de sucesos en un intervalo no ayuda a predecir el número de sucesos en
el siguiente).

El parámetro de la distribución, 𝜆, representa el número promedio de eventos


esperados por unidad de tiempo o de espacio, por lo que también se suele hablar
de 𝜆 como “la tasa de ocurrencia” del fenómeno que se observa.

91
La distribución de Poisson tiene iguales la media y la varianza igual a 𝑛𝑝. Para
valores de 𝜆 mayores de 20 la distribución de Poisson se aproxima a una
distribución normal de media y varianza iguales a 𝜆.

La distribución de probabilidad de Poisson, tiene que ver con ciertos procesos que
pueden ser descritos por una variable aleatoria discreta. La letra 𝑋 por lo general
representa a esta variable discreta y puede tomar valores enteros (0, 1, 2, 3, 4,
etc.). La probabilidad de tener exactamente 𝑥 presentaciones en una distribución
de Poisson se calcula con la fórmula:

𝑒 −𝜆 𝜆𝑥
𝑃 (𝑥 ) = 𝑓 (𝑥 ) =
𝑥!
Donde:

𝑃(𝑥) = probabilidad de tener exactamente 𝑥 presentaciones.

92
𝑒 −𝜆 = 2.71828 elevada a la lamda potencia negativa.

𝜆𝑥 = 𝜆 elevada a la 𝑥 potencia. 𝑥! = 𝑥 factorial.

𝜆 = parámetro de distribución o la media donde 𝜆 = 𝑝(𝑥), es el número promedio


de ocurrencias del evento aleatorio por intervalo de tiempo.

𝑋 = número de eventos raros por unidad de tiempo de distancia de espacio.

Ejemplo: Un administrador de un hospital ha estado estudiando las admisiones


diarias de emergencia durante un periodo de varios años, los estudios revelan
que en dicho periodo en promedio se presentaron 3 emergencias por día:
encuentre la probabilidad de que:

a) En un día dado ocurran sólo dos admisiones de emergencia.

En este ejemplo 𝜆 = 3 que es igual al valor promedio de ocurrencia en la población


y 𝑥 = 2 como una variable aleatoria discreta. La probabilidad de ocurrencia se
calcula como:

𝑒 −3 32
𝑃 (𝑥 = 2) = 𝑓 (2) = = 0.225
2!
b) ¿Cuál es la probabilidad de que en un día particular no ocurra ni una sola
admisión de emergencia?

𝑒 −3 30 (0.05 ∗ 1)
𝑓 (𝑥 ) = = = 0.05
0! 1
c) En un día particular sean admitidos 3 o 4 casos de emergencia.

Dado que los dos eventos son mutuamente exclusivos se usa la regla de
adición:

𝑒 −3 33 𝑒 −3 34 (0.05 ∗ 27) (0.05 ∗ 81)


𝑓 (3) + 𝑓 (4) = + = + = 0.225 + 0.16875
3! 4! 3∗2∗1 4∗3∗2∗1
= 0.39

Búsqueda de probabilidades de Poisson utilizando la tabla de Poisson

Ejemplo: los registros indican el número promedio de accidentes en un crucero


es igual a 5 mensuales. Si deseamos calcular la probabilidad de que cualquier

93
mes ocurran 4 accidentes. Podemos utilizar la tabla de Poisson aplicando la
fórmula:

𝑒 −𝜆 𝜆𝑥
𝑃 (𝑥 ) =
𝑥!
𝑒 −5 54
𝑃 (4) = = 0.17552
4!
Para utilizar esta tabla, todo lo que necesitamos saber son los valores de 𝑥 y de
𝜆, en este ejemplo 4 y 5, respectivamente. Ahora busque en la tabla, primero
encuentre la columna cuyo encabezado es 5; luego recórrala hacia abajo hasta
que esté a la altura del 4 y lea la respuesta directamente, 0.1755.

Relaciones entre la distribución Normal, Binomial y Poisson


Como hay una relación entre la distribución binomial y la distribución normal, se
sigue que también están relacionadas la distribución de Poisson y la distribución
normal. De hecho, puede probarse que la distribución de Poisson tiende a una
distribución normal con variable canónica.

Tabla: Relación entre distribuciones normales, binomial y de Poisson.

Parámetro Normal Binomial Poisson

Media 𝜇 𝜇 = 𝑛𝑝 𝜇=𝜆

Varianza 𝜎2 𝜎 2 = 𝑛𝑝𝑞 𝜎2 = 𝜆

Desviación típica 𝜎 𝜎 = √𝑛𝑝𝑞 𝜎 = √𝜆


𝑞−𝑝 1
Coeficiente de 𝛼3 = 0 𝛼3 =
√𝑛𝑝𝑞 𝛼3 =
sesgo √𝜆

Coeficiente de 𝛼4 = 3 (3! − 6𝑝𝑞) 𝛼4 = 3 +


curtosis 𝛼4 = 3 + ⌈ ⌉ 1
𝑛𝑝𝑞 𝜆

Desviación media 𝜎√2𝜋 = 0.7979

94
Una buena aproximación de la distribución binomial cuando 𝑛 es igual o mayor
que 20 y cuando 𝑝 es igual o menor que 0.05. En los casos en que se satisfacen
tales condiciones, podemos sustituir la media de la distribución binomial 𝑛𝑝 en
lugar de la media de la distribución de Poisson 𝜆 de modo que la formula será:
(𝑛𝑝)𝑥 𝑒 −𝑛𝑝
𝑃 (𝑥 ) =
𝑥!
Ejemplo: Supongamos que tenemos un hospital con 20 máquinas de diálisis renal
y que la probabilidad de que una de ellas no funcione bien durante un día
cualquiera es de 0.02 ¿Cuál es la probabilidad de que exactamente 3 queden
fuera de servicio en un mismo día?

En la Tabla que sigue se muestra las respuestas a esta pregunta. Como se


aprecia en ella, la diferencia entre las dos distribuciones de probabilidad es ligera
(cercana al 10% de error en el ejemplo): 𝑛 = 20, 𝑝 = 0.02, 𝑥 = 3, 𝑞 = 1 − 𝑝 = 0.98

Tabla: Solución de problema bajo dos enfoques de distribución.

Enfoque de Poisson Enfoque binomial

(𝑛𝑝)𝑛 𝑒 −𝑛𝑝 𝑛!
𝑃 (𝑥 ) = 𝑃 (𝑥 ) = ⌈ ⌉ (𝑝 𝑥 𝑞𝑛−𝑥 )
𝑥! (𝑛 − 𝑥 )!
(20∗0.02)3 𝑒 −20∗0.02 𝑃 (𝑥 )
𝑃 (𝑥 ) = =
3! 20!
0.00715 =⌈ ⌉ (0.023 0.9820−3 )
(20 − 3)!
= 0.0065

Distribución Logística
Pierre François Verhulst (1804-1849) describió por primera vez la curva logística
en un trabajo, publicado en 1845, que versaba sobre las investigaciones
matemáticas en las leyes que gobiernan el crecimiento de la población.

Función de Densidad de Probabilidad (PDF)

La función de densidad de probabilidad de la distribución logística es:

95
𝑥−𝜇
𝑒− 𝜎
𝑓 (𝑥 ) = 𝑥−𝜇 2
𝜎 (1 + 𝑒 − 𝜎 )

donde:

- 𝜇 = es la media (o localización).

- 𝜎 = es el parámetro de escala (relacionado con la dispersión de los datos).

- 𝑥 = es la variable aleatoria.

Función de Distribución Acumulada (CDF)

La función de distribución acumulada está dada por:


1
𝑓 (𝑥 ) = 𝑥−𝜇
1 + 𝑒− 𝜎

Esta función se asemeja a la curva sigmoide, lo que la hace útil en la regresión


logística.

Propiedades

- Simetría: Es simétrica en torno a 𝜇.

- Moda y Mediana: Coinciden con 𝜇.


𝜋2𝜎2
- Varianza: Viene dada por .
3

- Colas más pesadas que la normal: A diferencia de la normal, la logística tiene


colas más gruesas, lo que implica mayor probabilidad de valores extremos.

96
Ejemplo:

Supongamos que una variable aleatoria 𝑋 sigue una distribución logística con 𝜇 =
10 y 𝜎 = 2. Queremos calcular la probabilidad de que 𝑋 sea menor o igual a 12.

Solución:

Usamos la función de distribución acumulada:


1
𝑓 (𝑥 ) = 12−10 = 0.731

1+𝑒 2

Esto significa que hay aproximadamente un 73.1% de probabilidad de que la


variable aleatoria tome un valor menor o igual a 12.

Distribución Chi-Cuadrada

97
Un caso especial se obtiene cuando 𝑎 = 1/2 y 𝑝 = 𝑛/2, y es conocida por el
nombre de distribución Chi-cuadrada con 𝑛 grados de libertad (se denota por 𝜒𝑛2 ).

Esta distribución, que debe su nombre al matemático inglés Karl Pearson (1857-
1936), es fundamental en inferencia estadística y en los test estadísticos de
bondad de ajuste. Se emplea, entre otras muchas aplicaciones, para realizar la
prueba de hipótesis de homogeneidad, de independencia o la prueba de bondad
de ajuste (todas ellas denominadas pruebas Chi-cuadrada) y para determinar los
límites de confianza de la varianza muestral de una población normal.

Distribución t de Student
Esta distribución fue propuesta y tabulada por William Sealy Gosset (1876-1937),
más conocido por el seudónimo de Student, como resultado de un estudio sobre
la estimación de la media cuando el tamaño de muestra es pequeño. La

98
distribución t de Student queda completamente definida por medio de sus grados
de libertad, 𝑛, y se denota por 𝑡𝑛 .

Surge cuando se plantea estudiar el cociente entre una variable aleatoria con
distribución normal estándar y la raíz cuadrada del cociente entre una variable
aleatoria con distribución Chi-cuadrada y sus grados de libertad (𝑛), siendo las
dos variables independientes. Esta distribución desempeña un papel muy
importante en la inferencia estadística asociada a la teoría de muestras pequeñas
y es usada habitualmente en el contraste de hipótesis para la media de una
población o para comparar medias de dos poblaciones.

En cuanto a la forma que presenta su función de densidad cabe destacar las


similitudes que mantiene con la función de densidad de la distribución normal
estándar: forma acampanada, simétrica y centrada en el origen; la única diferencia
existente entre ambas distribuciones es que la función de densidad de la 𝑡 de
Student presenta unas colas más pesadas (mayor dispersión) que la normal.

Función de Densidad de Probabilidad (PDF)

La función de densidad de probabilidad para una variable aleatoria que sigue una
distribución t con 𝑘 grados de libertad es:
𝑘+1 𝑘+1
2 − 2
Γ( ) 𝑥
𝑓 (𝑥 ) = 2 (1 + )
𝑘 𝑘
√𝑘𝜋Γ (2)

donde:

- 𝑘 = representa los grados de libertad.

- Γ = es la función gamma.

Propiedades

- Simétrica respecto a 0, similar a la normal, pero con colas más pesadas.

- Media: 𝐸[𝑋] = 0 para 𝑘 > 1.


𝑘
- Varianza: 𝑉𝑎𝑟(𝑋) = para 𝑘 > 2.
𝑘−2

- A medida que 𝑘 → ∞, la distribución t se aproxima a la normal estándar 𝑁(0,1).

99
Aplicaciones

- Pruebas de hipótesis sobre medias poblacionales cuando la varianza es


desconocida y la muestra es pequeña.

- Intervalos de confianza para la media cuando la población sigue una distribución


normal y la varianza no es conocida.

- Regresión lineal para evaluar la significancia de coeficientes de regresión.

Distribución F de Snedecor
Otra de las distribuciones importantes asociadas a la normal es la que se define
como el cociente de dos variables aleatorias independientes con distribución Chi-
cuadrada divididas entre sus respectivos grados de libertad, 𝑛 y 𝑚; la variable
aleatoria resultante sigue una distribución F de Snedecor de parámetros 𝑛 y 𝑚

100
(denotada por 𝐹𝑛,𝑚 ). Debe su nombre al matemático y estadístico americano
George Waddel Snedecor (1881-1974).

Hay muchas aplicaciones de la F en estadística y, en particular, tiene un papel


importante en las técnicas del análisis de la varianza (ANOVA) y del diseño de
experimentos.

Aplicaciones

- Pruebas de igualdad de varianzas, como la prueba de Fisher-Snedecor.

- Análisis de varianza (ANOVA) para comparar varianzas entre grupos.

- Regresión lineal múltiple, para evaluar la significancia global del modelo.

- Contrastes de modelos estadísticos, en comparación de modelos anidados.

101
Teorema Central del Límite
El teorema central del límite es un resultado matemático que garantiza que, si
sumamos variables cualesquiera (no necesariamente normales), la variable suma
también seguirá una distribución normal (esto siempre que se cumplan algunas
condiciones básicas).

Así, cuando un dato o resultado es la suma de contribuciones independientes, de


igual magnitud y “con un tamaño típico”, este resultado corresponderá a una
Distribución Normal siempre que el número de contribuciones (el número de
sumandos) sea un número considerable (no pequeño).

Con un tamaño típico se quiere garantizar que las contribuciones tienen que “estar
controladas”, esto es, las contribuciones extremas tienen que estar controladas
por una probabilidad muy pequeña (En jerga matemática las contribuciones tienen
que tener varianza finita).

Este teorema asegura, de manera esquemática, que, cuando sumamos un


número grande de variables, la variable resultante sigue una distribución normal.

De manera general si contamos con la siguiente sucesión de variables aleatorias,


𝑋1 , 𝑋2 , … , 𝑋𝑛 . Y de cada variable se conoce el valor esperado y su varianza, en
términos formales, 𝜇𝑖 = 𝐸 [𝑋𝑖 ] 𝜎𝑖2 = 𝑉𝑎𝑟[𝑋𝑖 ].

Se verifica que la variable suma 𝑆 = 𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 si 𝑛 es un número


tendiendo a infinito) se puede aproximar por una variable normal, de media la
suma de las medias y varianza la suma de varianzas, es decir:

𝑛 𝑛
𝑆 − ∑𝑛𝑖=1 𝜇𝑖
𝑆 ≈ 𝑁 (∑ 𝜇𝑖 , √∑ 𝜎𝑖2 ) ⇒ 𝑍 = → 𝑁(0; 1)
𝑖=1 𝑖=1
√∑𝑛𝑖=1 𝜎𝑖2

102
Si, en vez de sumar variables, realizamos la media aritmética de las mismas,
también podemos utilizar el teorema central del límite (puesto que la media
aritmética es sumar y luego dividir por una constante). Este teorema (del que
damos únicamente una idea general, sin establecer las hipótesis matemáticas
reales) establece la importancia de la distribución normal.

Su resultado es que, cuando se suma un número grande de variables aleatorias,


la variable resultante es una variable con distribución aproximadamente igual a la
distribución normal. Incluso, el término número grande (porque matemáticamente
el teorema se establece cuando 𝑛 tiende a infinito) no lo es tanto, porque, en la
práctica, con tener que 𝑛 sea un número mayor o igual a 30, la aproximación ya
proporciona buenos resultados.

Ejemplo:

μ1 = E[X1 ] = 5
X1 ~ ? ⇒ {
σ12 = Var[X1 ] = 4

μ2 = E [ X 2 ] = 6
X2 ~ ? ⇒ {
σ22 = Var[X 2 ] = 3

μ2 = E [ X 2 ] = 4
X3 ~ ? ⇒ {
σ22 = Var[X 2 ] = 2

S = 20X1 + 30X 2 + 50X 3 ⇒ S ~ ?

μS = 20μ1 + 30μ2 + 50μ3 ⇒ μS = 20 ∗ 5 + 30 ∗ 6 + 50 ∗ 4 = 480

σ2S = 4σ12 + 3σ22 + 2σ23 ⇒ σ2S = 20 ∗ 4 + 30 ∗ 3 + 50 ∗ 2 = 270 ⇒ σS = √270


≅ 16,46

𝑆 − 480
𝑆 ≈ 𝑁(480,16,46) ⇒ 𝑍 = → 𝑁(0; 1)
16,46

μS = 20μ1 + 30μ2 + 50μ3 ⇒ μS = 20 ∗ 5 + 30 ∗ 6 + 50 ∗ 4 = 480

103
σ2S = 4σ12 + 3σ22 + 2σ23 ⇒ σ2S = 20 ∗ 4 + 30 ∗ 3 + 50 ∗ 2 = 270 ⇒ σS = √270
≅ 16,46

S − 480
S ≈ N(480,16,46) ⇒ Z = → N(0; 1)
16,46

Ahora bien, supongamos que se desea saber cuál es la probabilidad de que 𝑆 se


encuentre entre 460 y 480 inclusive. Es decir,

480 − 480 460 − 480


P[460 ≤ S ≤ 480] ≈ F [Z = ] − F [Z = ]
16,46 16,46

P[460 ≤ S ≤ 480] ≈ F[Z ≅ 0] − F[Z ≅ −1,22]

P[460 ≤ S ≤ 480] ≈ 0,50 − 0,11123244 = 0,38876756

Es decir, la probabilidad de que 𝑆 se encuentre entre 0,50 y 2 inclusive es de


0,38876756.

Además, el teorema es cierto independientemente de la distribución que sigan las


variables que se sumen (no importa si son exponenciales, binomiales, etc.). Lo
único que se necesita es saber su media y su varianza.

104
Herramientas y recursos disponibles en ciencia
de datos.
El ecosistema de herramientas en Ciencia de Datos es amplio y diverso,
permitiendo abordar desde la manipulación de datos hasta la implementación de
modelos de inteligencia artificial. La elección de herramientas depende de las
necesidades específicas del proyecto, el volumen de datos y el objetivo del
análisis. El acceso a recursos educativos y comunidades en línea es clave para
mantenerse actualizado en este campo en constante evolución. A continuación,
se presentan las principales herramientas utilizadas en Ciencia de Datos,
clasificadas por categorías.

Lenguajes de Programación:
Los lenguajes de programación son fundamentales en Ciencia de Datos, ya que
permiten manipular datos, construir modelos y automatizar procesos. Los más
utilizados son:

Python: es un lenguaje de programación de alto nivel ampliamente utilizado en la


ciencia de datos debido a su facilidad de uso, flexibilidad y ecosistema de
bibliotecas especializadas. Su sintaxis clara y su gran comunidad de
desarrolladores lo convierten en una herramienta ideal para el análisis, modelado
y visualización de datos. Características Claves en Ciencia de Datos:

a) Simplicidad y Legibilidad: Python se destaca por su sintaxis simple y legible, lo


que facilita la escritura y mantenimiento del código. Esto permite que los científicos
de datos se enfoquen en el análisis en lugar de lidiar con la complejidad del
lenguaje.

b) Ecosistema de Bibliotecas: Python cuenta con una amplia variedad de


bibliotecas diseñadas para la ciencia de datos, entre ellas:

- NumPy: Proporciona estructuras de datos eficientes para operaciones numéricas


y algebraicas.

- Pandas: Facilita la manipulación y análisis de datos con estructuras como


DataFrames.

- Matplotlib y Seaborn: Permiten la visualización de datos de manera efectiva.

105
- Scikit-learn: Ofrece herramientas para el aprendizaje automático y modelado
estadístico.

- TensorFlow y PyTorch: Enfocadas en aprendizaje profundo y redes neuronales.

c) Interactividad y Soporte en Notebooks: Herramientas como Jupyter Notebook


permiten escribir y ejecutar código en celdas interactivas, facilitando la
experimentación y la presentación de resultados con visualizaciones integradas.

d) Integración con Otras Tecnologías: Python se integra fácilmente con bases de


datos (SQL, NoSQL), plataformas de Big Data (Hadoop, Spark) y herramientas de
visualización (Tableau, Power BI).

e) Escalabilidad y Desempeño: Aunque Python no es el lenguaje más rápido, su


capacidad de integrar extensiones en C/C++ (como Numba y Cython) y su
compatibilidad con procesamiento paralelo lo hacen adecuado para tareas
exigentes en ciencia de datos.

f) Comunidad Activa y Recursos: Python cuenta con una comunidad global activa,
proporcionando soporte, documentación extensa y recursos de aprendizaje
gratuitos.

R: es un lenguaje de programación especializado en estadística y análisis de


datos, ampliamente utilizado en la comunidad académica, investigación y ciencia
de datos. Su ecosistema de paquetes y herramientas permite realizar desde
análisis básicos hasta modelado avanzado y aprendizaje automático.
Características Claves de R en Ciencia de Datos:

a) Enfoque Estadístico y Científico: R fue diseñado para el análisis estadístico, lo


que lo hace ideal para trabajar con modelos matemáticos, simulaciones y pruebas
de hipótesis. Ofrece funciones avanzadas para cálculo de probabilidades,
estadística inferencial y regresiones.

b) Ecosistema de Paquetes Especializados: R cuenta con una amplia gama de


paquetes en CRAN (Comprehensive R Archive Network) y Bioconductor, entre los
que destacan:

- dplyr y tidyr: Manipulación y limpieza de datos.

- ggplot2: Visualización de datos basada en la gramática de los gráficos.

- caret: Modelado y evaluación de algoritmos de machine learning.

106
- shiny: Creación de dashboards y aplicaciones web interactivas.

- forecast: Modelado de series temporales y predicciones.

c) Manejo Eficiente de Datos: R permite trabajar con grandes volúmenes de datos


a través de estructuras como data frames y tibbles. Además, su compatibilidad
con bases de datos SQL y NoSQL facilita la extracción y manipulación de
información.

d) Potentes Herramientas de Visualización: La capacidad de R para generar


visualizaciones de alta calidad con paquetes como ggplot2 y lattice lo hace ideal
para el análisis exploratorio de datos y la comunicación de resultados.

e) Integración con Otras Tecnologías: R se puede integrar con Python, C++, SQL,
Spark y Hadoop, lo que permite trabajar con Big Data y aprendizaje automático a
gran escala.

f) Desarrollo de Modelos de Machine Learning: A través de paquetes como


randomForest, xgboost y caret, R permite entrenar y evaluar modelos de
aprendizaje automático de manera eficiente.

g) Comunidad y Documentación: R tiene una comunidad activa que proporciona


paquetes, tutoriales y documentación detallada, facilitando el aprendizaje y
resolución de problemas.

SQL: (Structured Query Language) es un lenguaje de programación diseñado


para gestionar y manipular bases de datos relacionales. En el contexto de la
ciencia de datos, SQL es fundamental para la extracción, transformación y carga
(ETL) de datos, permitiendo trabajar con grandes volúmenes de información
almacenados en bases de datos. Características Claves de SQL en Ciencia de
Datos:

a) Manipulación y Consulta de Datos: SQL permite realizar operaciones sobre


bases de datos a través de consultas eficientes. Sus principales funcionalidades
incluyen:

- SELECT: Extracción de datos específicos.

- WHERE: Filtrado de registros según condiciones.

- JOIN: Combinación de datos de múltiples tablas.

- GROUP BY y HAVING: Agregación y filtrado de datos agregados.

107
- ORDER BY: Ordenamiento de resultados.

b) Optimización y Manejo de Grandes Volúmenes de Datos: SQL está optimizado


para manejar grandes volúmenes de datos mediante:

- Índices: Mejora del rendimiento de las consultas.

- Vistas: Definición de consultas reutilizables.

- Subconsultas y CTEs (Common Table Expressions)**: Mejor organización y


legibilidad del código.

c) Integración con Lenguajes de Programación: SQL se puede integrar con


Python, R y otros lenguajes de programación utilizados en ciencia de datos,
permitiendo combinar la manipulación de datos con análisis estadístico y
aprendizaje automático.

d) Seguridad y Control de Acceso: SQL permite gestionar el acceso a los datos


mediante:

- Roles y Permisos: Control sobre quién puede leer, escribir o modificar la base
de datos.

- Transacciones (ACID): Garantía de integridad en operaciones complejas.

e) Compatibilidad con Herramientas de Ciencia de Datos: SQL es compatible con


herramientas de visualización y análisis de datos como Power BI, Tableau y
Pandas en Python, lo que permite generar reportes y dashboards.

f) Lenguaje Estándar con Variantes: Existen diversas implementaciones de SQL


adaptadas a distintas bases de datos, como:

- MySQL: Ampliamente utilizado en aplicaciones web.

- PostgreSQL: Ofrece características avanzadas para análisis de datos.

- SQL Server: Integrado con entornos empresariales.

- BigQuery y Snowflake: Diseñados para análisis de datos en la nube.

Julia: es un lenguaje de programación de alto rendimiento diseñado para el


cálculo numérico y la computación científica. Su velocidad, similar a la de C o
Fortran, y su sintaxis simple, parecida a la de Python, lo hacen una opción

108
atractiva para la ciencia de datos, el aprendizaje automático y la modelización
estadística. Características Claves de Julia en Ciencia de Datos:

a) Alto Rendimiento: Julia está optimizado para el rendimiento, permitiendo


ejecutar cálculos complejos a velocidades comparables con C y Fortran gracias a
su compilación Just-In-Time (JIT) utilizando LLVM.

b) Facilidad de Uso y Sintaxis Intuitiva: La sintaxis de Julia es clara y concisa,


similar a Python, lo que facilita su adopción por parte de científicos de datos e
investigadores sin experiencia en lenguajes de bajo nivel.

c) Ecosistema de Paquetes Especializados: Julia cuenta con un ecosistema


creciente de paquetes para ciencia de datos, entre los que destacan:

- [Link]: Manipulación eficiente de datos tabulares.

- [Link] y [Link]: Visualización de datos.

- [Link]: Deep learning y redes neuronales.

- [Link]: Machine learning.

- [Link] y [Link]: Análisis estadístico y distribuciones de


probabilidad.

d) Soporte para Cálculo Distribuido y Paralelismo: Julia facilita la ejecución de


tareas en múltiples núcleos y nodos de manera nativa, permitiendo manejar
grandes volúmenes de datos y acelerar cálculos computacionales intensivos.

e) Tipado Dinámico y Estático: Julia combina lo mejor del tipado dinámico


(flexibilidad) y estático (rendimiento optimizado), permitiendo definir tipos
explícitamente cuando se requiere mayor eficiencia.

f) Interoperabilidad con Otros Lenguajes: Julia se puede integrar con Python, R,


C, C++ y Fortran, permitiendo aprovechar librerías existentes y facilitar la
transición desde otros lenguajes.

g) Herramientas de Machine Learning y Ciencia de Datos: Julia ofrece paquetes


optimizados para el entrenamiento y evaluación de modelos de machine learning,
permitiendo realizar tareas de clasificación, regresión y clustering de manera
eficiente.

109
Entornos de Desarrollo Integrados (IDEs) y
Plataformas:
Para trabajar de manera eficiente en Ciencia de Datos, se utilizan entornos que
facilitan la programación y ejecución de código:

Jupyter Notebook: es un entorno interactivo basado en celdas que permite


ejecutar código, visualizar datos y documentar análisis en un solo documento. Su
flexibilidad y facilidad de uso lo convierten en una herramienta fundamental en la
ciencia de datos, el análisis estadístico y el aprendizaje automático.
Características Claves de Jupyter Notebook en Ciencia de Datos:

a) Soporte para Múltiples Lenguajes: Jupyter Notebook es compatible con varios


lenguajes de programación a través de los "kernels" tales como Python, R, Julia y
SQL.

b) Interactividad y Visualización de Datos: Jupyter Notebook permite visualizar


datos de manera interactiva mediante paquetes de Python como:

- Matplotlib y Seaborn: Para generar gráficos estáticos y personalizables.

- Plotly y Bokeh: Para visualizaciones interactivas.

- Pandas y DataFrame: Para exploración y análisis de datos tabulares.

c) Integración con Ciencia de Datos y Machine Learning: Jupyter Notebook es


ampliamente utilizado en el desarrollo de modelos de machine learning y ciencia
de datos, permitiendo utilizar bibliotecas como:

- Scikit-learn: Algoritmos de aprendizaje automático.

- TensorFlow y PyTorch: Redes neuronales y deep learning.

- Statsmodels: Modelado estadístico y pruebas de hipótesis.

d) Documentación en Markdown y Latex: Jupyter Notebook permite escribir notas


y explicaciones en Markdown y LaTeX, facilitando la documentación de análisis y
la generación de informes reproducibles.

e) Reproducibilidad y Compartición:

- Exportación en Varios Formatos: Se pueden guardar notebooks en HTML, PDF,


Markdown y LaTeX.

110
- Integración con GitHub: Permite versionar notebooks y compartir código.

- Google Colab: Plataforma en la nube basada en Jupyter para ejecutar notebooks


sin configuración local.

f) Escalabilidad y Computación en la Nube: Jupyter Notebook puede ejecutarse


en entornos locales o en la nube, integrándose con plataformas como AWS,
Google Cloud y Azure, permitiendo trabajar con grandes volúmenes de datos y
aceleración mediante GPUs.

RStudio: es un entorno de desarrollo integrado (IDE) diseñado específicamente


para R, aunque también ofrece soporte para Python. Es ampliamente utilizado en
ciencia de datos debido a su facilidad de uso, integración con paquetes
estadísticos y herramientas de visualización avanzadas. Características Claves
de RStudio en Ciencia de Datos:

a) Entorno Integrado para R y Python: RStudio permite ejecutar scripts de R y


Python en un entorno unificado, facilitando el análisis de datos y la implementación
de modelos de machine learning.

b) Interfaz Amigable y Organizada:

- Editor de scripts con resaltado de sintaxis y autocompletado.

- Consola interactiva para ejecutar comandos en tiempo real.

- Visor de datos para explorar data frames de manera intuitiva.

- Panel de gráficos y paquetes para visualizar resultados y administrar librerías.

c) Potentes Herramientas para Ciencia de Datos:

- Tidyverse: Conjunto de paquetes (dplyr, ggplot2, tidyr, readr) para manipulación


y visualización de datos.

- Shiny: Creación de dashboards y aplicaciones web interactivas.

- caret y tidymodels: Implementación de modelos de machine learning.

- RMarkdown: Generación de reportes en HTML, PDF y Word con código


reproducible.

d) Integración con Bases de Datos y Big Data:

111
- Conexión nativa con bases de datos SQL mediante DBI y dplyr.

- Soporte para big data con Sparklyr y [Link].

- Integración con servicios en la nube como Google Cloud, AWS y Azure.

e) Versionado y Control de Código:

- Soporte para Git y GitHub para el versionado de proyectos.

- Integración con RStudio Server y RStudio Cloud para colaboración en equipo.

f) Computación en Paralelo y Alto Rendimiento:

- Ejecución de tareas en múltiples núcleos con parallel y future.

- Optimización de código con Rcpp y compatibilidad con C++.

Google Colab: es un entorno basado en Jupyter Notebook que permite ejecutar


código Python en la nube sin necesidad de configuración local. Es ampliamente
utilizado en ciencia de datos, machine learning e inteligencia artificial, ya que
ofrece acceso gratuito a GPUs y TPUs. Características Claves de Google Colab
en Ciencia de Datos:

a) Entorno Basado en Jupyter Notebook: Google Colab proporciona una interfaz


similar a Jupyter Notebook, permitiendo ejecutar código en celdas interactivas,
visualizar datos y documentar análisis en un solo archivo.

b) Acceso Gratuito a Hardware Acelerado:

- GPUs y TPUs gratuitas para acelerar el entrenamiento de modelos de machine


learning.

- Opción de pagar por recursos premium para mayor capacidad computacional.

c) Integración con el Ecosistema de Google:

- Google Drive: Permite almacenar y acceder a archivos directamente desde


Drive.

- BigQuery: Conexión con bases de datos en la nube.

- Google Sheets: Importación y exportación de datos desde hojas de cálculo.

112
d) Soporte para Ciencia de Datos y Machine Learning:

- Bibliotecas preinstaladas: Pandas, NumPy, Scikit-learn, TensorFlow, PyTorch y


más.

- Carga de datos desde múltiples fuentes: Archivos CSV, SQL, APIs, Google
Drive, etc.

- Visualización de datos: Integración con Matplotlib, Seaborn y Plotly.

e) Colaboración en Tiempo Real

- Edición compartida: Varios usuarios pueden trabajar en un notebook


simultáneamente.

- Comentarios y anotaciones: Facilita la revisión y discusión de código.

f) Reproducibilidad y Exportación

- Ejecutar notebooks en diferentes entornos: Localmente o en la nube.

- Exportación a múltiples formatos: HTML, PDF, Markdown y Python scripts.

VS Code y PyCharm: son dos de los entornos de desarrollo integrado (IDE) más
populares para programación en Python, incluyendo aplicaciones en ciencia de
datos y machine learning. Ambos ofrecen herramientas avanzadas para la
manipulación de datos, visualización, depuración y optimización de código.
Características de VS Code en Ciencia de Datos:

a). Ligero y Altamente Extensible: VS Code es un editor de código liviano con


soporte para extensiones, lo que permite personalizarlo según las necesidades
del usuario.

b) Integración con Jupyter Notebook:

- Permite ejecutar celdas de Jupyter directamente dentro del entorno.

- Compatibilidad con kernels de Python para análisis interactivos.

c) Soporte para Ciencia de Datos y Machine Learning:

- Extensión de Python: Ofrece compatibilidad con bibliotecas como Pandas,


NumPy, Matplotlib y Scikit-learn.

113
- Soporte para TensorFlow y PyTorch para deep learning.

- Integración con Azure Machine Learning y Google Cloud AI.

d) Integración con Control de Versiones y Colaboración:

- Git y GitHub integrados para el control de versiones.

- Soporte para GitHub Copilot y extensiones de trabajo colaborativo.

e) Depuración y Autocompletado Avanzado:

- Depurador visual con puntos de interrupción y evaluación de expresiones.

- IntelliSense para autocompletado inteligente de código.

Características de PyCharm en Ciencia de Datos:

a) IDE Especializado en Python: PyCharm es un entorno de desarrollo optimizado


para Python, ofreciendo una experiencia de programación fluida y herramientas
avanzadas para el desarrollo de proyectos en ciencia de datos.

b) Integración con Jupyter Notebook y Pandas:

- Soporte para notebooks de Jupyter dentro del entorno.

- Herramientas de inspección de data frames para visualizar y analizar datos.

c) Herramientas Avanzadas para Ciencia de Datos:

- Compatibilidad con bibliotecas de ciencia de datos y machine learning como


Pandas, NumPy y Scikit-learn.

- Integración con TensorFlow y PyTorch.

- Asistentes de configuración para entornos virtuales y conda.

d) Depuración y Optimización de Código:

- Depurador visual con inspección en vivo de variables.

- Herramientas de refactorización de código para mejorar la eficiencia.

- Análisis estático de código para identificar errores y sugerir mejoras.

114
e) Integración con Bases de Datos y Control de Versiones:

- Cliente SQL incorporado para trabajar con bases de datos.

- Integración con Git, GitHub y Docker para entornos de desarrollo escalables.

Herramientas para Análisis y Manipulación de


Datos:
- Pandas: Biblioteca de Python para la manipulación de datos en estructuras tipo
DataFrame.

- NumPy: Permite operaciones matemáticas eficientes sobre matrices y arrays.

- Dask: Alternativa escalable a Pandas para big data.

- OpenRefine: Herramienta para limpiar y transformar datos.

Herramientas para Visualización de Datos:


- Matplotlib y Seaborn: Bibliotecas de Python para gráficos estadísticos.

- ggplot2: Paquete de R altamente utilizado para visualizaciones avanzadas.

- Tableau y Power BI: Plataformas de business intelligence para la creación de


dashboards interactivos.

Herramientas para Machine Learning e Inteligencia


Artificial:
- Scikit-learn: Biblioteca de Python con algoritmos de machine learning.

- TensorFlow y PyTorch: Frameworks para deep learning y redes neuronales.

- XGBoost y LightGBM: Modelos optimizados para aprendizaje automático


supervisado.

Bases de Datos y Almacenamiento:


- SQL (PostgreSQL, MySQL, SQLite): Bases de datos relacionales para
almacenamiento estructurado.

- NoSQL (MongoDB, Cassandra): Almacenamiento de datos no estructurados.

- Google BigQuery y Amazon Redshift: Plataformas de almacenamiento en la


nube para big data.

115
Recursos y Comunidades en Ciencia de Datos:
Kaggle: es una plataforma en línea que ofrece un entorno colaborativo para
científicos de datos y analistas, proporcionando herramientas para desarrollar
proyectos de machine learning, participar en competencias y acceder a conjuntos
de datos de alta calidad. Características Claves de Kaggle en Ciencia de Datos:

a) Competencias de Machine Learning:

- Permite a los usuarios participar en competencias de ciencia de datos


organizadas por empresas y comunidades.

- Ofrece premios en efectivo y reconocimiento para los mejores modelos.

- Facilita la colaboración a través de equipos y foros de discusión.

b) Entorno de Programación en la Nube:

- Kaggle Notebooks (similar a Jupyter Notebooks) permiten ejecutar código en


Python y R sin necesidad de configuración local.

- Acceso a GPUs y TPUs gratuitas, ideal para entrenar modelos de deep learning.

- Entorno preconfigurado con bibliotecas como Pandas, NumPy, Scikit-learn,


TensorFlow y PyTorch.

c) Acceso a Conjuntos de Datos:

- Miles de datasets gratuitos listos para ser utilizados en proyectos de ciencia de


datos.

- Herramientas para explorar, visualizar y compartir datos.

- Integración con Google Cloud y BigQuery para manejo avanzado de datos.

d) Comunidad Activa y Recursos Educativos:

- Foros de discusión y notebooks compartidos para aprender de otros científicos


de datos.

- Cursos gratuitos de ciencia de datos y machine learning, con enfoque práctico.

- Publicación de notebooks con ejemplos y soluciones a problemas reales.

116
e) Integración con Herramientas Externas:

- Compatible con Google Drive para guardar y cargar archivos.

- Soporte para versionado de datos y modelos.

- Permite trabajar con bibliotecas externas a través de la instalación de paquetes


personalizados.

GitHub: es una plataforma de desarrollo colaborativo basada en Git, ampliamente


utilizada en ciencia de datos para el control de versiones, almacenamiento y
compartición de código, así como para la colaboración en proyectos de machine
learning y análisis de datos. Características Claves de GitHub en Ciencia de
Datos:

a) Control de Versiones y Colaboración:

- Historial de cambios: Permite rastrear modificaciones en el código y revertir a


versiones anteriores.

- Branches y Pull Requests: Facilita el desarrollo en paralelo y la integración de


cambios.

- Revisiones de código: Permite comentarios y discusiones sobre cambios en el


código.

b) Almacenamiento y Compartición de Proyectos:

- Repositorios públicos y privados para almacenar proyectos.

- Integración con Jupyter Notebooks, permitiendo visualizar código, gráficos y


celdas de ejecución.

- Posibilidad de compartir datos y modelos de machine learning con otros


usuarios.

c) Automatización con GitHub Actions:

- Automatización de flujos de trabajo para entrenar modelos de machine learning


y actualizar datos.

- Integración con CI/CD (Integración y Despliegue Continuo) para automatizar


pruebas y despliegues.

117
- Ejecución de scripts de ETL, limpieza de datos y actualización de modelos de
machine learning.

d) Integración con Herramientas de Ciencia de Datos:

- Compatible con Google Colab y Kaggle, permitiendo acceder a código desde


GitHub.

- Integración con VS Code y PyCharm para facilitar la edición y ejecución de


scripts.

- Conectividad con plataformas de despliegue como AWS, Google Cloud y


Heroku.

e) Documentación y Wiki:

- Permite crear archivos [Link] con descripciones detalladas de los


proyectos.

- Uso de GitHub Wiki para documentar procesos, metodologías y guías de


implementación.

- Soporte para Markdown y Jupyter Notebooks en la documentación.

- Coursera, edX y DataCamp: Plataformas educativas con cursos en ciencia de


datos y machine learning.

- ArXiv y ResearchGate: Fuentes de investigación y artículos académicos sobre


ciencia de datos.

118
Bibliografía utilizada y sugerida
Libros y otros manuscritos:
Anderson, D., Sweeney, D., & Williams, T. (2012). Estadística para Negocios y
Economía. Onceava Edición. Cengage Learning.

Chao, L. (1978). Estadística para las Ciencias Administrativas. Tercera Edición.


Mc Graw Hill.

Hastie, T., Tibshirani, R. & Friedman, J. (2009). The Elements of Statistical


Learning. Segunda Edición. Springer.

Ipiña, S. & Durand, A. (2008). Inferencia Estadística y Análisis de Datos. Pearson.

James, G., Witten, D., Hastie, T. & Tibshirani, R. (2017). An Introduction to


Statistical Learning. Octava Edición. Springer.

Levine, D., Krehbiel, T & Berenson, M. (2006). Estadística para Administración.


Cuarta Edición. Pearson

Mendenhall, W., Beaver, R. & Beaver, B. (2010). Introducción a la Probabilidad y


Estadística. Treceava Edición. Cengage Learning.

Walpole, R., Myers, R., Myers, S. & Ye, K. (2012). Probabilidad y Estadística para
Ingeniería y Ciencias. Novena Edición. Pearson.

Artículos de revista en formato electrónico:


Badii, M. H., & Castillo, J. (2009). Distribuciones probabilísticas de uso común.
Revista Daena: International Journal of Good Conscience, 4(1).

119

También podría gustarte