0% encontró este documento útil (0 votos)
13 vistas4 páginas

Introducción a la Estadística Descriptiva

Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
13 vistas4 páginas

Introducción a la Estadística Descriptiva

Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

ETS7042 Semestre 2022-30 Prof. Virginia González y Prof.

César Henao
UNIDAD 1. Introducción y estadística descriptiva
(1) Introducción y Organización de datos
Definiciones y términos básicos Deducción: va de lo general a lo particular. Tipos de datos y escalas de medición
Al adjudicar propiedades de una población
Estadística: es la parte de las matemáticas
a las muestras, estamos deduciendo, y es-
que se encarga de recolectar, organizar,
tas deducciones requerirán el uso de proba-
analizar e interpretar información.
bilidades.
Inducción: va de lo particular a lo general.
Cuando hacemos una generalización sobre
un parámetro poblacional basándonos en
información derivada de una muestra, es-
Población: es todo conjunto de individuos o tamos usando inducción. La generalización
elementos, finito o infinito, que son de inte- obtenida mediante una inducción se llama
rés para un estudio, a los cuales se les inferencia y requiere el uso de probabilida-
puede medir una característica u observar des.
un atributo. Se puede hablar de poblacio-
nes teórica y práctica.
Censo: estudio de todos los elementos de la
población.
Tablas y Gráficos
Parámetro: medida numérica usada para
describir alguna característica de una po-
blación.
Muestra: subconjunto de una población.
Estadístico: medida numérica usada para
describir alguna característica de una Tipos de frecuencias
muestra.
Frecuencia absoluta: la frecuencia absoluta
de una clase 𝑖 (𝑓𝑖 ) es el número de observa-
ciones en dicha clase.
Frecuencia relativa: La frecuencia relativa
de una clase 𝑖 (𝑓𝑟 𝑖 ) es la relación entre la
frecuencia absoluta de esa clase y la suma-
toria de las frecuencias absolutas de todas Nota: cuando se añaden las frecuencias ab-
las clases (1 ≤ 𝑖 ≤ 𝑘). solutas acumuladas y/o las frecuencias re-
𝑘 lativas acumuladas a una TA o TNA enton-
Estadística descriptiva e inferencial 𝑓𝑖
𝑓𝑟 𝑖 = ;𝑛 = ∑ 𝑓𝑖 ces se le llama “tabla acumulada”.
∑𝑘𝑖=1 𝑓𝑖 𝑖=1
Estadística descriptiva: conjunto de técni-
cas utilizadas para organizar y describir en Frecuencia absoluta acumulada: la fre-
forma concisa la información recolectada, cuencia absoluta acumulada de una clase 𝑗
ya sea mediante tablas, gráficos, o a través (𝑓𝑎𝑐𝑢𝑚 𝑗 ) es el resultado de sumar sucesiva-
de medidas numéricas. mente las frecuencias absolutas de dicha
Estadística inferencial: conjunto de técni- clase y de las anteriores. La sumatoria de
cas utilizadas para realizar generalizacio- todas las frecuencias absolutas siempre es
nes, predicciones, estimaciones sobre po- igual al número de datos (𝑛).
blaciones a partir de muestras. Frecuencia relativa acumulada: la frecuen-
cia relativa acumulada de una clase 𝑗
(𝑓𝑟 𝑎𝑐𝑢𝑚 𝑗 ) es el resultado de sumar sucesi-
vamente las frecuencias relativas de dicha
clase y de las anteriores. La sumatoria de
todas las frecuencias relativas siempre es
igual a 1.
𝑗 𝑗
𝑓𝑎𝑐𝑢𝑚 𝑗 = ∑ 𝑓𝑖 ; 𝑓𝑟 𝑎𝑐𝑢𝑚 𝑗 = ∑ 𝑓𝑟 𝑖
𝑖=1 𝑖=1
ETS7042 Semestre 2021-30 Prof. Virginia González y Prof. César Henao
UNIDAD 1. Introducción y estadística descriptiva
(2) Organización de datos (continuación) y Medidas numéricas
Pasos para construir una Tabla Agrupada Notación fórmulas de Tablas Agrupadas
1. Clases (Ley de Sturges): aproximar al en- 𝐴: Amplitud
tero más cercano. 𝐹𝐼𝑖 : Frontera inferior de la clase 𝑖
𝐹𝑆𝑖 : Frontera superior de la clase 𝑖
𝑘 = 3.3 ∙ 𝑙𝑜𝑔(𝑛) + 1
𝑘: Número de clases
2. Rango: es la diferencia entre el dato me- 𝐿𝐼𝑖 : Límite inferior de la clase 𝑖
nor y el dato mayor. 𝐿𝑆𝑖 : Límite superior de la clase 𝑖
𝑚𝑖 : Punto medio de la clase 𝑖
𝑅 = 𝐷𝑎𝑡𝑜 𝑚𝑎𝑦𝑜𝑟 − 𝐷𝑎𝑡𝑜 𝑚𝑒𝑛𝑜𝑟
𝑛: Número de datos a agrupar
3. Precisión: tamaño de paso según como 𝑃: Precisión
se presenten los datos. Por ejemplo 𝑅: Rango Medidas de posición

Descripción numérica de datos 1. Cuantiles: es aquel valor para el cual un


porcentaje específico de valores queda en o
por debajo de él, pueden ser cuartiles (Q1,
4. Amplitud: es el rango entre el no. de cla- Q2, Q3), deciles (D1, D2, …,D9) y percentiles
ses (𝑘). Aproximar siempre hacia arriba te- (P1, P2, …,P99).
niendo en cuenta la precisión.
𝑅
𝐴=
𝑘
5. Límites de clase: usar la cantidad de ci-
fras de la precisión.
El primer paso es ordenar los datos y ubicar
𝐿𝐼1 = 𝐷𝑎𝑡𝑜 𝑚𝑒𝑛𝑜𝑟; 𝐿𝑆1 = 𝐿𝐼1 + 𝐴 − 𝑃; la posición del cuantil deseado:
𝐿𝐼𝑖 = 𝐿𝐼𝑖−1 + 𝐴; 𝐿𝑆𝑖 = 𝐿𝑆𝑖−1 + 𝐴;
(𝑛 + 1)
1<𝑖≤𝑘 𝑃𝑜𝑠 𝑄𝑖 = 𝑖 ∙ , 𝑖 = 1, 2, 3;
4
6. Fronteras de clase: usar una cifra adicio- (𝑛 + 1)
nal a la de la precisión. 𝑃𝑜𝑠 𝐷𝑖 = 𝑖 ∙ , 1 ≤ 𝑖 ≤ 9;
10
(𝑛 + 1)
𝑃 𝑃 𝑃𝑜𝑠 𝑃𝑖 = 𝑖 ∙ , 1 ≤ 𝑖 ≤ 99
𝐹𝐼1 = 𝐿𝐼1 − ; 𝐹𝑆1 = 𝐿𝑆1 + ; 100
2 2
𝐹𝐼𝑖 = 𝐹𝐼𝑖−1 + 𝐴; 𝐹𝑆𝑖 = 𝐹𝑆𝑖−1 + 𝐴; Medidas de tendencia central El segundo paso es determinar el valor del
1<𝑖≤𝑘 1. Media aritmética: representa el punto de cuantil. Si la posición da entero el cuantil es
7. Punto medio de clase (marcas de clase): equilibrio, se ve afectada por valores extre- igual al valor que está en esa posición. Si la
misma cantidad de cifras que las fronteras. mos. Se denotará como 𝑥̅ para la muestra posición da decimal, entonces se calcula el
y 𝜇 para la población. valor del cuantil así:
𝐿𝐼𝑖 + 𝐿𝑆𝑖 𝐹𝐼𝑖 + 𝐹𝑆𝑖
𝑚𝑖 = = ,1 ≤ 𝑖 ≤ 𝑘 ∑𝑛𝑖=1 𝑥𝑖 ∑𝑁 𝐶𝑢𝑎𝑛𝑡𝑖𝑙 =
2 2 𝑖=1 𝑥𝑖
𝑥̅ = ;𝜇= 𝑥𝑖 + (𝑃𝑜𝑠𝐶𝑢𝑎𝑛𝑡𝑖𝑙 − 𝑃𝑜𝑠 𝑥𝑖 ) ∙ (𝑥𝑖+1 − 𝑥𝑖 );
𝑛 𝑁
𝑖: depende de 𝑃𝑜𝑠𝐶𝑢𝑎𝑛𝑡𝑖𝑙.
2. Mediana: es el dato que parte en dos
partes iguales al conjunto de datos. Se de-
notará como 𝑥̃ para la muestra y 𝜇̃ para la
población. Para calcularla se debe: (i) Orde-
nar los datos de menor a mayor (ii). Calcu-
lar la posición del dato que corresponde a
Tip: si conozco la tabla agrupada y deseo la mediana (n+1)/2. (iii) Si el conjunto de
calcular la amplitud puedo usar la fórmula datos es impar la mediana es el valor cen- Notación fórmulas de Medidas
𝐴 = 𝐿𝐼𝑖+1 − 𝐿𝐼𝑖 = 𝑚𝑖+1 − 𝑚𝑖 ; 1 ≤ 𝑖 ≤ 𝑘 tral, si el conjunto de datos es par la me-
diana es el promedio de los valores centra- 𝑛: Número de datos de la muestra
Además, para las fronteras se cumple que les. 𝑁: Número de datos de la población
𝑃𝑜𝑠 𝐷𝑖 : Posición del decil 𝐷𝑖
𝐴 = 𝐹𝑆𝑖 − 𝐹𝐼𝑖 ; 𝐹𝐼𝑖+1 = 𝐹𝑆𝑖 ; 1 ≤ 𝑖 ≤ 𝑘 3. Moda: es el dato u observación que más 𝑃𝑜𝑠 𝑃𝑖 : Posición del percentil 𝑃𝑖
se repite, los conjuntos pueden ser unimo- 𝑃𝑜𝑠 𝑄𝑖 : Posición del cuartil 𝑄𝑖
dales, bimodales o multimodales. Se puede 𝑃𝑜𝑠 𝑥𝑖 : Posición del dato 𝑥𝑖
calcular para datos cualitativos y cuantita- 𝑥̅ : Media aritmética de la muestra
tivos. 𝑥𝑖 : Valor dato 𝑖 de la muestra o población
𝜇: Media aritmética de la población
ETS7042 Semestre 2021-30 Prof. Virginia González y Prof. César Henao
UNIDAD 1. Introducción y estadística descriptiva
(3) Medidas numéricas (continuación)
Medidas de variabilidad 2. Moda: es el punto medio de la clase mo-
dal (clase con mayor frecuencia absoluta).
1. Rango: mide la variabilidad del 100% de
los datos (débil). 3. Varianza:
𝑅 = 𝐷𝑎𝑡𝑜 𝑚𝑎𝑦𝑜𝑟 − 𝐷𝑎𝑡𝑜 𝑚𝑒𝑛𝑜𝑟 ∑𝑘𝑖=1 𝑓𝑖 ∙ (𝑚𝑖 − 𝑥̅ )2
𝑠2 =
2. Rango Intercuartílico: mide la variabili- 𝑛−1
dad del 50% de los datos centrales (débil). 4. Coeficiente de Asimetría:
𝑅𝐼𝑄 = 𝑄3 − 𝑄1 ∑𝑘𝑖=1 𝑓𝑖 ∙ (𝑚𝑖 − 𝑥̅ )3
𝐶𝐴𝑠 =
3. Varianza: mide qué tan alejados se en- 𝑛 ∙ 𝑠3
cuentran los datos respecto a la media, a 5. Coeficiente de Apuntamiento:
mayor varianza mayor variabilidad (está en
∑𝑘𝑖=1 𝑓𝑖 ∙ (𝑚𝑖 − 𝑥̅ )4
unidades cuadradas). Se puede utilizar 𝐶𝐴𝑝 =
para comparar conjuntos de datos que es- 𝑛 ∙ 𝑠4
tén en las mismas unidades y sean de la 6. Cuantil: primero se calcula la posición del
misma dimensión. Se denotará 𝑠 2 para la cuantil (misma fórmula anterior). Luego se
muestra y 𝜎 2 para la población (fuerte). calcula el valor del cuantil considerando la
amplitud (𝐴) de la tabla agrupada; la fre-
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 ∑𝑁
𝑖=1(𝑥𝑖 − 𝜇)
2
𝑠2 = ; 𝜎2 = cuencia absoluta (𝑓) y la frontera inferior
𝑛−1 𝑁 (ℒ) de la clase donde está el cuantil; y la di-
4. Desviación Estándar: es la raíz cuadrada ferencia entre la posición del cuantil y la
de la varianza. Para una muestra será 𝑠 = frecuencia acumulada hasta la clase ante-
√𝑠 2 y para una población será 𝜎 = √𝜎 2 . rior a la clase donde está el cuantil (𝑔).
Está en las mismas unidades de los datos, y 𝑔
tiene los mismos usos que la varianza 𝐶𝑢𝑎𝑛𝑡𝑖𝑙 = ℒ + ∙ 𝐴;
𝑓
(fuerte).
𝑔 = 𝑃𝑜𝑠𝐶𝑢𝑎𝑛𝑡𝑖𝑙 − 𝑓𝑎𝑐𝑢𝑚 𝐶𝑙𝑎𝑠𝑒 𝑎𝑛𝑡𝑒𝑟𝑖𝑜𝑟
5. Coeficiente de Variación: medida de va-
riabilidad que es independiente de la uni- Medidas para TNA Tip: Las fórmulas para TNA y TA presenta-
dad de medida, y expresa la desviación es- Datos en tablas no agrupadas, número de das aquí para muestras, se pueden utilizar
tándar como una proporción de la media clases 𝑘 y frecuencias 𝑓𝑖 : también para poblaciones, pero en el
(muy fuerte). cálculo de la varianza se debe dividir entre
𝑠 𝜎 1. Media: “N” en lugar de “n-1”. Para TA se puede
𝐶𝑉 = ; 𝐶𝑉 =
𝑥̅ 𝜇 𝑘 calcular la mediana como Q2, D5 o P50.
∑𝑘𝑖=1 𝑓𝑖 ∙ 𝑥𝑖
Medidas de forma 𝑥̅ = ; 𝑛 = ∑ 𝑓𝑖 Estandarización de datos
𝑛
𝑖=1
1. Coeficiente de Asimetría: mide el grado Comparar individuos de distintos conjun-
2. Varianza: tos. Se estandarizan los 𝑥𝑖 , y el nuevo con-
de asimetría de una distribución respecto a
la media. ∑𝑘𝑖=1 𝑓𝑖 ∙ 𝑥𝑖 2 − 𝑛 ∙ 𝑥̅ 2 junto de 𝑧𝑖 es adimensional, media=0 y va-
𝑠2 = rianza=1.
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )3 𝑛−1
𝐶𝐴𝑠 = ; 3. Coeficiente de asimetría: 𝑥𝑖 − 𝑥̅ 𝑥𝑖 − 𝜇
𝑛 ∙ 𝑠3 𝑧𝑖 = ; 𝑧𝑖 =
𝑠 𝜎
∑𝑁
𝑖=1(𝑥𝑖 − 𝜇)
3 ∑𝑘𝑖=1 𝑓𝑖 ∙ (𝑥𝑖 − 𝑥̅ )3
𝐶𝐴𝑠 = 𝐶𝐴𝑠 = Notación fórmulas de Medidas
𝑁∙𝜎 3 𝑛 ∙ 𝑠3
2. Coeficiente de Apuntamiento (curtosis): 4. Coeficiente de apuntamiento: 𝐶𝐴𝑠 : Coeficiente de asimetría
describe el apuntamiento o achatamiento 𝐶𝑉: Coeficiente de variación
∑𝑘𝑖=1 𝑓𝑖 ∙ (𝑥𝑖 − 𝑥̅ )4 𝑓𝑖 : Frecuencia de la clase 𝑖
de una cierta distribución, con respecto a la 𝐶𝐴𝑝 =
media. 𝑛 ∙ 𝑠4 𝑘: Número de clases
Medidas para TA 𝑛: Número de datos de la muestra
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )4 𝑁: Número de datos de la población
𝐶𝐴𝑝 = ; Datos en tablas agrupadas, número de cla-
𝑛 ∙ 𝑠4 ses 𝑘, frecuencias 𝑓𝑖 y marcas de clase 𝑚𝑖 : 𝑚𝑖 : punto medio de la clase 𝑖
∑𝑁
𝑖=1(𝑥𝑖 − 𝜇)
4 𝑠 2 : Varianza de la muestra
𝐶𝐴𝑝 = 1. Media: 𝑥̅ : Media aritmética de la muestra
𝑁 ∙ 𝜎4
∑𝑘𝑖=1 𝑓𝑖 ∙ 𝑚𝑖
𝑘 𝑥𝑖 : Valor dato 𝑖 de la muestra o población
𝑥̅ = ; 𝑛 = ∑ 𝑓𝑖 𝜇: Media aritmética de la población
𝑛
𝑖=1 𝜎 2 : Varianza de la población
ETS7042 Semestre 2021-30 Prof. Virginia González y Prof. César Henao
UNIDAD 1. Introducción y estadística descriptiva
(4) Ejemplos de estadística descriptiva
Encuesta nivel de servicio en un banco Rendimiento de un vehículo en mpg No. libros vendidos diariamente
(datos cualitativos ordinales) (datos cuantitativos continuos) (datos cuantitativos discretos)
Tabla No Agrupada Tabla Agrupada Diagrama de tallo y hojas (𝑛=50)

Resultado f f acum fr f r acum Rendimiento (mpg) 0 5 5 5 5 5


1 0 0 0 0 5 5 5 5 5 5
Excelente 6 6 0.15 0.15 LI LS FI FS m f f acum fr f r acum
2 0 0 5 5 5
Bueno 16 22 0.40 0.55 20.5 23.0 20.45 23.05 21.75 1 1 0.02 0.02 3 0 0 0 0 0 5 5
Regular 10 32 0.25 0.80 23.1 25.6 23.05 25.65 24.35 1 2 0.02 0.04 4 0 0 0 5 5 5
25.7 28.2 25.65 28.25 26.95 11 13 0.22 0.26 5 0 5
Malo 8 40 0.20 1.00 28.3 30.8 28.25 30.85 29.55 30 43 0.60 0.86 6 0 0 0 0 0 0
Total 40 - 1.00 - 30.9 33.4 30.85 33.45 32.15 6 49 0.12 0.98 7 5
33.5 36.0 33.45 36.05 34.75 0 49 0.00 0.98 8
Diagrama de barras (𝑓) 36.1 38.6 36.05 38.65 37.35 1 50 0.02 1.00 9 0 0 0 0 5
Total - 50 - 1.00 - 10 0
11
Histograma (𝑓 y fronteras) 12 0 0

Diagrama de cajas y bigotes


1. Calcular valores: cuartiles (𝑄1 , 𝑄2 , 𝑄3 ),
dato menor, dato mayor y rango intercuar-
tílico (𝑅𝐼𝑄).
2. Construir una recta numérica: marcar
allí los tres cuartiles.
Diagrama circular (𝑓𝑟 )
3. Construir una caja: los lados van so-
bre 𝑄1 y 𝑄3 , el ancho de la caja no im-
porta.
4. Dibujar dos bigotes: el primero va de
𝑄1 hasta 𝑚𝑎𝑥{𝑑𝑎𝑡𝑜 𝑚𝑒𝑛𝑜𝑟, 𝑄1 − 1.5 ∙
Polígono (𝑓 y marcas de clase) 𝑅𝐼𝑄}. El segundo va de 𝑄3 hasta
𝑚𝑖𝑛{𝑑𝑎𝑡𝑜 𝑚𝑎𝑦𝑜𝑟, 𝑄3 + 1.5 ∙ 𝑅𝐼𝑄}.
5. Añadir los datos aberrantes, atípicos
y extremos: usar el símbolo “o”.
Tabla Bivariada: información adicional
Género
Resultado F M Total
Excelente 3 3 6
Bueno 5 11 16
Regular 8 2 10
6. Opcional: añadir la media usando el
símbolo “x”.
Malo 5 3 8
Total 21 19 40 Ojiva (𝑓𝑎𝑐𝑢𝑚 y fronteras)
Diagrama de Pareto (𝑓 y 𝑓𝑟 𝑎𝑐𝑢𝑚 )

En este ejemplo 𝑄1 =15, 𝑄2 =32.5, 𝑄3 =60,


𝑑𝑎𝑡𝑜 𝑚𝑒𝑛𝑜𝑟=5, 𝑑𝑎𝑡𝑜 𝑚𝑎𝑦𝑜𝑟=120,
𝑅𝐼𝑄=45, 𝑥̅ =41.6, y no hay datos atípicos.

También podría gustarte