Estadística Descriptiva
Septiembre 2020
Introducción
La estadística tiene un doble objetivo:
I La generación y recopilación de datos que contengan
información relevante sobre un determinado problema.
I El análisis de los datos con el fin de extraer de ellos
información.
El primer paso en el análisis de los datos consistirá en describirlos a
través de ciertas medidas y gráficas, lo cual nos facilitará su
comprensión (Estadística Descriptiva).
Sin embargo, se busca ir más allá y poder sacar conclusiones
basadas en los datos. Para lograr esto, se utiliza un modelo
matemático (Teoría de la Probabilidad ) que nos permite extraer
conclusiones válidas (Inferencia Estadística) y tomar decisiones
razonables apoyados en el análisis de datos.
Podríamos formalizar entonces de la siguiente manera.
Estadística
I La Estadística es la ciencia que se encarga de recopilar,
organizar, resumir, presentar, analizar e interpretar datos
cuando la variabilidad e incertidumbre es una característica de
los mismos; además, se ocupa de realizar inferencias a partir de
los datos, con la finalidad de ayudar a la toma de decisiones y
formular predicciones.
Ramas de la Estadística:
I Estadística Descriptiva: trata de recoger, resumir, procesar,
analizar y presentar un grupo de datos, mediante métodos
numéricos y gráficos, para transformarlos en información.
I Estadística Inferencial: apoyándose en la teoría de
probabilidades y a partir de datos muestrales, realiza
estimaciones, decisiones, predicciones u otras generalizaciones
sobre un conjunto mayor de datos (población), convirtiendo
así la información en conocimiento.
Los datos
I Los datos son las medidas u observaciones reales recolectadas
de la muestra.
I La descripción de los datos es el primer paso en cualquier
estudio estadístico.
I Hay tres conceptos básicos en un conjunto de datos.
I Unidades muestrales
I Variables
I Tabla o matriz de datos
Variables y unidades muestrales
I Las variables son las características de interés para el
investigador asociadas a cada uno de los individuos u objetos
en estudio.
I Una unidad muestral o unidad de observación es el
individuo u objeto en el que se mide una variable.
Tipos de Variables
Población y Muestra
I La Población (universo) es el conjunto de todos los individuos
o elementos de interés que se quiere estudiar.
I N representa el tamaño de la población.
I Ejemplos:
I Los estudiantes de la UTEC.
I Los habitantes de Perú.
I Los pacientes de todos los hospitales y clínicas de Lima.
I Las empresas de producción y distribución de agua, gas y
electricidad.
I La Muestra es un subconjunto de la población seleccionada
para el análisis.
I n representa el tamaño de la muestra.
I Ejemplos:
I 150 estudiantes de la UTEC o los estudiantes de la carrera de
ingeniería industrial de la UTEC.
I 10000 habitantes (escogidos al azar) de Perú.
I 500 pacientes (seleccionados al azar) de los hospitales y clínicas
de Lima.
I 10 empresas de producción y distribución de agua, gas y
electricidad.
I “Muestrear” a la población entera se llama censo.
I Cuando se realiza un estudio estadístico lo ideal sería hacer un
censo, es decir incluir a todos y “muestrear” a toda la
población, sin embargo, hay problemas para realizar un censo:
I Puede ser difícil completar un censo: siempre parece haber
algunas personas que son difíciles de localizar o de medir. Y
estas personas difíciles de encontrar pueden tener ciertas
características que los distinguen del resto de la población.
I Las poblaciones rara vez se quedan quietas. Incluso si pudiera
realizar un censo, la población cambia constantemente, por lo
que nunca es posible obtener una medida perfecta.
I Realizar un censo es una tarea compleja y costosa por razones
de tiempo, dinero, recursos, seguridad y acceso a ciertos lugares,
entre otras. Por lo que estudiar la población a partir de una
muestra, muchas veces, es lo más recomendable.
I Cuando se realiza un estudio estadístico es importante que la
muestra recolectada sea representativa, esto es, que sea una
(pequeña) cantidad de individuos o elementos que reflejen, con
la mayor precisión posible, a un grupo más grande que es la
población.
I La muestra debe tener las mismas características de la
población.
I Si se obtiene una muestra sesgada, el interés y utilidad del
estudio estadístico será limitado, dependiendo del grado de
sesgos que presente.
I La muestra debe poseer toda la información deseada para tener
la posibilidad de extraerla, esto solo se puede lograr con una
buena selección de la muestra y un trabajo muy cuidadoso y de
alta calidad en la recogida de datos.
I Para lograrlo, debe escogerse una técnica de muestreo
adecuada, que produzca una muestra aleatoria adecuada.
Muestreo
I El muestreo es simplemente un conjunto de métodos para
obtener muestras.
Tipos de Muestreo
Muestreo Probabilístico
En el muestreo probabilístico, los elementos son seleccionados
utilizando criterios técnicos. En este tipo de muestreo, un elemento
que pertenece a la población tienen una probabilidad de ser incluido
en la muestra.
Muestreo aleatorio Simple
I Muestreo aleatorio simple: en este tipo de muestreo, todos
los elementos de la población tienen la misma probabilidad de
ser incluidos en la muestra.
I Se recomienda cuando las características de interés presentan
gran homogeneidad.
Muestreo estratificado
I Muestreo estratificado: la población se divide en grupos o
estratos, heterogéneos entre estos, pero con elementos
homogéneos dentro del grupo.
I En el muestreo aleatorio estratificado los elementos de la
población primero se dividen en grupos, a los que se les llama
estratos, de manera que cada elemento pertenezca a uno y sólo
un estrato.
I La base para la formación de los estratos, que puede ser
departamento, edad, tipo de industria, etc., está a discreción
de la persona que diseña la muestra.
I Sin embargo, se obtienen mejores resultados cuando los
elementos que forman un estrato son lo más parecido posible.
I Una vez formados los estratos, se toma una muestra aleatoria
simple de cada estrato.
Muestreo por conglomerado
I Muestreo por conglomerado: la población se divide en
grupos o conglomerados, homogéneos entre éstos, pero con
elementos heterogéneos dentro del grupo.
I El muestreo por conglomerados divide a la población en grupos
o conglomerados, luego selecciona una muestra aleatoria de
ellos y finalmente se obtiene una muestra de cada
conglomerado seleccionado.
I La característica del muestreo por conglomerados es que estos
son internamente heterogéneos, y homogéneos de
conglomerado a conglomerado.
Sesgo en la muestra
I Si solo una pequeña fracción de las personas muestreadas al
azar elige responder a una encuesta, es posible que la muestra
ya no sea representativa de la población.
I Si una muestra está formada por personas que se ofrecen
voluntariamente para responder porque tienen opiniones firmes
sobre el tema, lo más probable es que tampoco sea
representativa de la población (muestra de voluntarios).
I Si las personas a las que se puede acceder fácilmente tienen
más probabilidades de ser incluidas en la muestra (muestra por
conveniencia).
Ejemplo: Sesgo de supervivencia
Durante la Segunda Guerra Mundial las fuerzas aéreas
estadounidenses buscaban formas de reducir los derribos de sus
aviones militares y con ello las bajas de sus pilotos. La idea inicial
fue blindar los aviones. Sin embargo, blindar un avión para
aumentar su resistencia al fuego de los cañones antiaéreos y aviones
de caza enemigos, tiene como contrapartida un incremento de su
peso, lo que incide negativamente en sus prestaciones. Por ello el
blindaje íntegro no era una solución viable. Surgió entonces una
segunda idea, considerar un blindaje parcial, blindar sólo en
determinadas zonas de los aviones para lograr un efecto protector
que evitara la mayoría de los derribos, asumiendo que gran parte de
las caídas se debían a impactos de proyectiles en unas zonas muy
concretas de los aviones.
Para intentar corroborar esto se registraron, tras cada misión,
cuántos de los aviones de la escuadrilla habían caído y cuántos
habían regresado con o sin daños. Aquellos que volvieron dañados
se revisaban para determinar por cuántos proyectiles habían sido
alcanzados y en qué parte del avión habían sido impactados.
Observaron que la parte posterior del fuselaje y las alas era donde
más se concentraban los impactos, parecían ser a primera vista las
candidatas obvias para el blindaje, puesto que eran las zonas más
castigadas por los proyectiles enemigos.
Pero un estadístico discrepó (Abraham Wald): él indicó que había
algo que no cuadraba. Su punto de vista era distinto: si un avión
que recibía impactos en esas zonas era capaz de llegar a la base, es
que esas zonas eran resistentes. Él defendió justo lo contrario que
sus compañeros: las zonas a reforzar debían ser las otras, las que no
estaban marcadas con impactos, es decir, la cabina del avión, los
motores y la parte trasera del fuselaje.
Analizando en detalle, no se observaron impactos en la cabina de los
aviones, ni en los motores, ni en la parte trasera del fuselaje, sin
embargo, si el piloto hubiese sido herido o asesinado, o los motores
hubiesen fallado, o los cables de los mandos de dirección se hubiesen
dañado, difícilmente esos aviones hubieran podido llegar a las bases.
El error cometido es conocido como verdad sesgada o
información parcial. Ciertamente se recogieron muchos datos
sobre el estado de los aviones que llegaron a las bases, pero no se
recogió ninguna información sobre aquellos que no alcanzaron a
llegar a las bases. No se tomó ninguna nota sobre los impactos que
recibieron los derribados, por lo que esa parte de información,
seguramente la más importante, quedó eliminada de la toma de
decisiones.
Así pues, antes de tomar alguna decisión, para la cual
posiblemente dispongas de un montón de información,
pregúntate si realmente dispones de la información relevante
que necesitas.