Preparatoria La Paz
Informática Aplicada a la Ciencia y a la Industria
Ing. Cristian Iván Domínguez Castillo
Funciones estadísticas en python
Con las herramientas aprendidas hasta este momendo, eres capaz de organizar cualquier tipo de información
en listas, data frames y estructuras que te permiten leer datos utilizando Python. Es momento de aplicar este
conocimiento para utilizar funciones estadísticas.
Python permite analizar datos estadisticos de diversar formas, algunas de estas formas se explican a
continuación:
Numpy
NumPy, abreviatura de Numerical Python, proporciona el objeto array n-dimensional (ndarray), una estructura
de datos más rápida y eficiente en memoria que las listas estándar de Python para trabajar con grandes
volúmenes de datos numéricos. Esto permite realizar cálculos estadísticos a gran escala de forma muy veloz.
Estadística Descriptiva Básica
NumPy incluye funciones optimizadas para calcular medidas estadísticas fundamentales en un array de datos:
Función Equivalente (ignora
Categoría Descripción
(Método/Módulo) NaN)
Tendencia
[Link](a) Calcula la Media Aritmética (promedio) de los elementos. [Link](a)
Central
[Link](a) Calcula la Mediana (valor central de los datos ordenados). [Link](a)
[Link](a,
Calcula la Media Ponderada (si se especifican pesos). -
weights=...)
Calcula la Desviación Estándar (raíz cuadrada de la
Dispersión [Link](a) [Link](a)
varianza).
Calcula la Varianza (dispersión cuadrática respecto a la
[Link](a) [Link](a)
media).
[Link](a) Calcula el Rango (Peak-to-Peak: Máximo - Mínimo). -
Posición [Link](a) o [Link](a) Encuentra el valor Mínimo del array o a lo largo de un eje. -
[Link](a) o
Encuentra el valor Máximo del array o a lo largo de un eje. -
[Link](a)
[Link](a, q) Calcula el Q-ésimo Percentil (ej. q=25 para el primer cuartil). [Link](a, q)
[Link](a, q) Calcula los Cuantiles (similar al percentil). [Link](a, q)
[Link](a) Devuelve el índice del valor mínimo. -
[Link](a) Devuelve el índice del valor máximo. -
Calcula el Coeficiente de Correlación de Pearson entre dos
Relación [Link](x, y) -
variables.
[Link](m) Calcula la Matriz de Covarianza. -
Cuenta el número de ocurrencias (frecuencia) de cada valor
Frecuencia [Link](x) -
no negativo.
Generación de Datos y Simulación
NumPy también es esencial para la generación de números aleatorios a partir de diversas distribuciones de
probabilidad (como la normal, uniforme, binomial, etc.) usando el módulo [Link]. Esto es crucial para:
• Simulaciones de Monte Carlo: Modelar escenarios complejos.
• Pruebas de Hipótesis y Muestreo: Crear conjuntos de datos simulados para validación.
Base para Bibliotecas Avanzadas
NumPy actúa como el bloque de construcción fundamental para otras bibliotecas de Python de nivel superior
utilizadas en estadística y ciencia de datos, como SciPy (que añade funciones estadísticas más avanzadas,
pruebas de hipótesis y distribuciones) y Pandas (que proporciona estructuras de datos para el análisis de datos
estructurados).
Ejemplo de estadisitica descriptiva en python con Numpy.
Statistics
La librería statistics de Python no es tan rápida ni completa como NumPy para el trabajo con arrays grandes, es
la librería estándar de Python para cálculos estadísticos.
Funciones Estadísticas de la Librería Estándar de Python
La librería statistics (debes importarla como import statistics as st) está diseñada para un cálculo estadístico
más simple en listas y tuplas de Python. No maneja arrays n-dimensionales de forma nativa ni tiene el foco en
la velocidad de NumPy.
Categoría Función Descripción
Tendencia
[Link](data) Calcula la Media Aritmética (promedio) de los datos.
Central
Calcula la media usando coma flotante, es más rápido que
[Link](data)
[Link]().
[Link](data) Calcula la Mediana (valor central de los datos ordenados).
[Link](data) Calcula la Moda (el valor que ocurre con más frecuencia).
Devuelve una lista de las modas, útil si hay múltiples valores más
[Link](data)
comunes.
Calcula la Desviación Estándar Muestral (usan $N-1$ en el
Dispersión [Link](data)
denominador).
Calcula la Desviación Estándar Poblacional (usan $N$ en el
[Link](data)
denominador).
[Link](data) Calcula la Varianza Muestral.
[Link](data) Calcula la Varianza Poblacional.
Relación [Link](x, y) Calcula la Covarianza muestral entre dos variables.
Calcula el Coeficiente de Correlación de Pearson entre dos
[Link](x, y)
variables.
[Link](data, Divide los datos en $n$ intervalos equiprobables (por defecto,
Posición
n=4) calcula cuartiles).
Diferencia Clave con NumPy
La principal diferencia es que statistics trabaja con las estructuras de datos nativas de Python (listas, tuplas) y
sus funciones se centran más en estadísticas básicas descriptivas. En cambio, NumPy está optimizado para los
ndarray (arrays multidimensionales) y es la herramienta de elección para el análisis de grandes conjuntos de
datos y cálculos de álgebra lineal.
Ejemplo de estadisitica descriptiva en python con statistics.
Pandas
Pandas es la librería de facto para la manipulación y el análisis de datos estructurados (tabulares) en Python. Se
basa en NumPy, por lo que hereda su velocidad y eficiencia para el cálculo numérico.
• Estructura de Datos: Las dos estructuras principales son el DataFrame (tabla de datos con filas y columnas
etiquetadas) y la Series (una única columna o array etiquetado).
• Estadística Descriptiva: En estadística, Pandas permite agrupar, limpiar y resumir datos fácilmente. Su
función estrella es .describe(), que proporciona un resumen rápido de las medidas de tendencia central,
dispersión y posición para todas las columnas numéricas de un DataFrame.
• Valores Faltantes: Pandas tiene un manejo robusto y explícito de los valores faltantes (NaN), que son
ignorados por defecto en casi todas sus funciones estadísticas.
Funciones estadísticas de pandas en python.
Método de Pandas
Categoría Descripción
(Series/DataFrame)
Resumen Genera un resumen estadístico de 8 puntos (count,
.describe()
Completo mean, std, min, max, cuartiles).
Tendencia
.mean() Media Aritmética.
Central
.median() Mediana.
.mode() Moda (devuelve una Series si hay múltiples modas).
Dispersión .std() Desviación Estándar (muestral por defecto, ddof=1).
.var() Varianza (muestral por defecto, ddof=1).
Posición .min() / .max() Mínimo / Máximo.
.quantile(q) Calcula el cuantil o percentil (ej. 0.25 para el Q1).
Coeficiente de Correlación (en un DataFrame,
Relación .corr()
devuelve la matriz).
.cov() Matriz de Covarianza.
Ejemplo de estadistica descriptiva con Pandas.