1. Tarea 1.
Estadística descriptiva
2. Nombre de miembros del grupo
3. Hacer una breve referencia, explicación de que es ese conjunto de datos.
Citar apropiadamente.
El conjunto de datos para el análisis llamado Iris que se encuentra disponible R.
Esta base de datos está compuesta por 150 observaciones de flores de la planta
iris, de las cuales existen tres especies diferentes de flores iris las cuales son:
virginica, setosa y versicolor. De cada especie se tienen 50 observaciones.
Las variables o atributos que se miden de cada flor son:
El tipo de flor o especie como variable cualitativa nominal o categórica. ´
El largo y el ancho del pétalo en cm como variables numéricas.
El largo y el ancho del sépalo en cm como variables numéricas.
Las variables en la base de datos son
[Link] = Longitud del sépalo
[Link] = Ancho del sépalo
[Link] = Longitud del pétalo
[Link] = Ancho del pétalo
Species = Especie o tipo de flor Iris.
4. Medidas de tendencia central: Explicar brevemente en qué
consisten. Obtener media, mediana, moda, desviación estándar,
varianza, coeficiente de variación, asimetría, curtosis, histograma de
frecuencias (sépalo x longitud, sépalo x ancho, pétalo x longitud,
pétalo x ancho). Primero usando los 150 datos, y luego en bloque
para cada especie.
Las medidas de tendencia central se emplean para describir y sintetizar
mediante un número único, denominado promedio, la posición de un valor
en la variable, en tal forma que represente al conjunto de valores
observados. A continuación, se describen algunas medidas de tendencia
central, de posición, forma y dispersión.
Moda: es el valor, categoría, o marca de clase que más se repite.
Mediana: se define como aquel valor de la variable que ocupa la posición
central del conjunto de datos ordenados, también se puede definir como
aquel valor de la variable que resulta ser mayor o igual que la mitad de
los datos y menor que la otra mitad. La mediana no tiene sentido
calcularla si los datos son cualitativos. A continuación, una fórmula para
calcular la mediana.
Media: solo es aplicable a datos de tipo numérico, es la media aritmética
de los datos observados, o sea, la suma de todos ellos dividido por el
número de observaciones:
para datos sin tabular, si están tabulados en
tablas de frecuencias:
, siendo k el número de valores distintos y ni la frecuencia
absoluta correspondiente al valor xi de la variable.
Cuartiles: al conjunto de datos ordenados lo dividen en cuatro intervalos
con el mismo número de observaciones, encontrado los cuartiles primero,
segundo y tercero.
Primer cuartil Q1: Es aquél valor de la variable que resulta ser mayor o
igual que el 25% de los datos y menor que el 75% restante.
Segundo cuartil: Q2 coincide con la mediana.
Tercer cuartil: Q3, es aquel valor de la variable que resulta ser mayor o
igual que el 75% de los datos y menor que el 25% restante.
Percentiles: se define como el valor de la variable que resulta ser mayor
o igual que un porcentaje dado de los datos. En general, definimos el
cuantil ( en tanto por 1) como aquél valor de la variable que resulta ser
menor que el 100% de los datos y mayor o igual que el 100(1- )%
restante, donde cuantil = p100(1-) .
Medidas de dispersión:
Para mejorar la información sobre el conjunto de datos no basta saber en
torno a qué valores está la mayoría de los datos, también es conveniente
saber si el conjunto de medidas son todas muy parecidas entre sí o si son
muy diferentes, esto se consigue con las medidas de dispersión o
variabilidad.
Rango: es la medida de variabilidad más simple, es el mayor valor menos
el más pequeño, conforme más próximos sean los valores observados,
menor será el rango.
R= max(xi) – min(xi)
Rango intercuartílico: la diferencia entre los cuartiles tercero y primero
RI = Q3-Q1
Varianza: es la media de los cuadrados de las diferencias o desviaciones
de cada dato hasta la media:
si los datos están agrupados en clases, la fórmula es:
La varianza se expresa en unidades al cuadrado y no es comparable con
los datos, por eso se define la desviación estándar.
Desviación estándar, es la raíz cuadrada positiva de la varianza,
Para comparar variabilidad entre magnitudes diferentes o entre diferentes
muestras, se utiliza el coeficiente de variación, que es la desviación típica
expresada en medias:
Medidas de asimetría y de forma: además de dar información sobre la
tendencia central de los datos y sobre cómo se reparten respecto del
centro, en ocasiones interesa conocer si los datos se reparten de un
modo simétrico a ambos lados de la media o no.
El coeficiente de asimetría mide esta propiedad, y se calcula como:
, o , si los datos están agrupados:
Si g<0, existe asimetría hacia la izquierda. Si g>0, la asimetría es hacia la
derecha. Si g=0, la distribución de datos es simétrica.
El coeficiente de curtosis o apuntamiento mide si las frecuencias de
los datos centrales son mucho mayores que las de los datos extremos, o
si, por el contrario, todos los datos se repiten un número más o menos
igual de veces. La distribución de los datos puedes se platicúrtica,
mesocúrtica y leptocúrtica.
Longitud sépalo Ancho sépalo Longitud pétalo Ancho pétalo
Min. 4,3 2,0 1 0,1
Q1 5,1 2,8 1,6 0,3
Mediana 5,8 3,0 4,350 1,3
Media 5,843 3,057 3,758 1,199
Q3 6,4 3,3 5,1 1,8
Max 7,9 4,4 6,9 2,5
Varianza 0,6856935 0,1899794 3,116278 0,5810063
Des estándar 0,8280661 0,4358663 1,765298 0,7622377
CV 0,1417113 0,1425642 0,4697441 0,6355511
Asimetría 0,3117531 0,3157671 0,3117531 -0,1019342
Curtosis 2,426432 3,180976 1,604464 1.663933
Moda
Tabla 1. Mediadas de tendencia centra, variabilidad y forma .
Los datos de la longitud de los sépalos de la especie de flor de la planta
iris, tiene un valor promedio de 5,843. Se caracterizan por tener
distribución asimétrica positiva con coeficiente de asimetría 0,3117531.
Esto indica que la moda es menor que la mediana (5,8) y a su vez estos
valores son menores al promedio (5,843) de los datos.
Por otro lado, de acuerdo con el coeficiente de curtosis (2,426432), indica
que la distribución de los datos tiene forma achatada o platicurtica como
se puede observar en el histograma de longitud de sépalo (ver figura 1).
Al analizar la variabilidad de los datos, el coeficiente de variación de la
longitud de sépalos es de 0,1417113 siendo este de menor variabilidad
comparado con los coeficientes de variación de ancho de sépalo, longitud
y ancho de pétalo (ver tabla 1).
Histograma de Longitud de Sepalo Histograma de Ancho de Sepalo
35
30
30
25
25
20
frecuencia
frecuencia
20
15
15
10
10
5
5
0
0
4 5 6 7 8 2.0 2.5 3.0 3.5 4.0
Longitud del Sepalo Ancho del Sepalo
Figura 1. Histograma longitud y ancho de sépalo respectivamente.
Seguidamente, los datos anchos de sépalos de la especie de flor de la
planta iris, tienen un valor promedio de 3,057. Se caracteriza por tener
variabilidad moderada con una desviación estándar de 0,4358663. Del
mismo modo que la variable longitud de sépalo, el ancho de sépalo tiene
distribución asimétrica positiva con coeficiente de asimetría de
0,3157671. Esto indica que la moda es menor que la mediana (3,0) y a su
vez estos valores son menores al promedio (3,057) de los datos.
El coeficiente de curtosis de los datos ancho de sépalo es de 0.1387047
indicando este valor que la distribución de los datos tiene forma achatada
o platicurtica como se puede observar en el histograma de longitud de
sépalo (ver figura 1).
Al analizar la variabilidad de los datos, el coeficiente de variación del
ancho de sépalo es de 0,1425642. Este valor es muy cercano al
coeficiente de variación de longitud de sépalos 0,1417113. Siendo este
último el de menor variabilidad comparado con los demás coeficientes de
variación ancho de sépalo, longitud y ancho de pétalo (ver tabla 1).
Histograma de Longitud de Petalo Histograma de Ancho de Petalo
35
30
30
25
20
frecuencia
frecuencia
20
15
10
10
5
0
1 2 3 4 5 6 7 0.0 0.5 1.0 1.5 2.0 2.5
Longitud del Petalo Ancho del Petalo
Figura 2. Histograma longitud y ancho de pétalo respectivamente.
Los datos de la longitud de pétalos de la especie de flor de la planta iris,
tiene un valor promedio de 3,758. La desviación estándar es de 1,765298
lo que indica mucha variabilidad en los datos. Se caracterizan por tener
distribución asimétrica con coeficiente de asimetría 0,31175310.
Esto indica que la moda es menor que la mediana (4,350) y a su vez
estos valores son menores al promedio (5,843) de los datos.
Por otro lado, de acuerdo con el coeficiente de curtosis (1,604464), indica
que la distribución de los datos tiene forma achatada o platicurtica como
se puede observar en el histograma de longitud de sépalo (ver figura 1).
Al analizar la variabilidad de los datos, el coeficiente de variación de la
longitud de sépalos es de 0,46974410 siendo de mayor variabilidad
comparado con los coeficientes de variación de ancho de sépalo, longitud
y ancho de pétalo y de menor variabilidad con el ancho de pétalo
respectivamente (ver tabla 1).
Del mismo modo, los datos de ancho de pétalos de la especie de flor de
la planta iris, tiene un valor promedio de 1,199. La desviación estándar es
de 0,7622377 lo que indica mucha variabilidad en los datos. Se
caracterizan por tener distribución asimétrica negativo con coeficiente de
asimetría de
-0.1019342. Esto indica que la media (1,199) es menor que la mediana
(1,3) y a su vez estos valores son menores que la moda de los datos.
Por otro lado, de acuerdo con el coeficiente de curtosis (1,604464), indica
que la distribución de los datos tiene forma achatada o platicurtica como
se puede observar en el histograma de longitud de sépalo (ver figura 1).
Al analizar la variabilidad de los datos, el coeficiente de variación de la
longitud de sépalos es de 0,6355511 siendo de mayor variabilidad
comparado el coeficiente de variación de longitud de pétalo (ver tabla 1).
Setosa Versicolor Viginica
LS AS LP AP LS AS LP AP LS AS LP AP
Min. 4.300 2.30 1.00 4.9 2.00 4.90 4.90 2.20 3.00
0 00 0 0
Q1 4.800 3.20 1.40 5.6 2.52 5.60 6.22 2.80 4.00
0 00 5 5 0
Mediana 5.000 3.40 1.50 5.9 2.80 5.90 6.50 3.00 4.35
0 0 00 0 0
Media 5.006 3.42 1.46 5.9 2.77 5.936 6.58 2.97 4.26
8 2 36 0 8 4
Q3 5.200 3.67 1.57 6.3 3.00 6.300 6.90 3.17 4.60
5 5 00 0 0 5
Max 5.800 4.40 1.90 7.0 3.40 7.000 7.90 3.80 5.10
0 0 00 0 0 0
Var 0.124249 2.68 12.8 0.2 0.26 0.26 0.40 0.26 0.22
459 464 66 643 6432 434 643 081
2 2 43 27 7 29 27 63
27
[Link] 0.3524897 0.35 0.35 0.5 0.63 0.10 0.63 0.63 0.46
248 248 16 587 2189 587 587 991
97 97 17 96 6 96 96 1
11
CV 0.0704134 0.07 0.07 0.0 0.08 0.08 0.09 0.21 0.11
4 041 041 86 695 6956 652 381 030
344 344 95 606 06 089 29 77
60
6
Asim 0.1164539 0.03 0.10 0. 0.10 0.10 0.11 0.35 -
992 317 218 2189 444 487 0.58
109 51
10 96 6 47 78 815
21 87
89
6
Curto 2.654235 3.74 3.80 2.4 2.55 2.40 2.91 3.51 2.92
422 459 01 172 1173 205 976 559
2 2 17 8 8 6 8
3
Tabla 2. Mediadas de tendencia central, variabilidad y forma longitud y ancho de sépalo
y pétalo por especie.
La distribución de los datos correspondiente a la longitud de sepalo
especie setona, tiene un promedio de 5,006. La desviacion estandar es
de 0, 3524897 lo que sugiere poca variabilidad en los datos. Se
caracterizan por tener distribución asimétrica positiva con coeficiente de
0,1164539. Esto indica que la moda es menor que la mediana (5.000) y a
su vez estos valores son menores al promedio (5.006) de los datos.
Por otro lado, de acuerdo con el coeficiente de curtosis (2.654235), indica
que la distribución de los datos tiene forma achatada o platicurtica como
se puede observar en el histograma de longitud de sépalo (ver figura 3).
Histograma de Longitud de Sepalo especie Setosa
12
10
8
frecuencia
6
4
2
0
4.5 5.0 5.5
Longitud del Sepalo
Figura 3. Histograma de longitud de sépalo especie setona.
Histograma de Longitud de Sepalo especie Versicolor
15
frecuencia
10
5
0
4.5 5.0 5.5 6.0 6.5 7.0
Longitud del Sepalo
Histograma de Longitud de Sepalo especie Virginica
15
frecuencia
10
5
0
4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0
Longitud del Sepalo
Histograma de Ancho de Sepalo especie Virginica
14
12
10
frecuencia
8
6
4
2
0
2.5 3.0 3.5
Ancho del Sepalo
Histograma de Longitud de Petalo especie Setosa
12
10
8
frecuencia
6
4
2
0
1.0 1.2 1.4 1.6 1.8
Longitud del Sepalo
Histograma de Ancho de Petalos especie Setosa
35
30
25
20
frecuencia
15
10
5
0
0.1 0.2 0.3 0.4 0.5 0.6
Ancho del Sepalo
Histograma de Ancho de Petalos especie Versicolor
12
10
8
frecuencia
6
4
2
0
1.0 1.2 1.4 1.6 1.8
Ancho del Sepalo
Histograma de Longitud de petalo especie Virginica
15
10
frecuencia
5
0
4.5 5.0 5.5 6.0 6.5 7.0
Longitud del Sepalo
Histograma de Ancho de petalos especie Virginica
12
10
8
frecuencia
6
4
2
0
1.4 1.6 1.8 2.0 2.2 2.4 2.6
Ancho del Sepalo
5. Represente los datos en gráficos
Diagrama de Barra variable Especie
50
40
30
frecuencia
20
10
0
setosa versicolor virginica
Especie
setosa
versicolor
virginica