0% encontró este documento útil (0 votos)
42 vistas23 páginas

Analisis Exploratorio - Informe

Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
42 vistas23 páginas

Analisis Exploratorio - Informe

Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

1. Tarea 1.

Estadística descriptiva

2. Nombre de miembros del grupo

3. Hacer una breve referencia, explicación de que es ese conjunto de datos.

Citar apropiadamente.

El conjunto de datos para el análisis llamado Iris que se encuentra disponible R.

Esta base de datos está compuesta por 150 observaciones de flores de la planta

iris, de las cuales existen tres especies diferentes de flores iris las cuales son:

virginica, setosa y versicolor. De cada especie se tienen 50 observaciones.

Las variables o atributos que se miden de cada flor son:

 El tipo de flor o especie como variable cualitativa nominal o categórica. ´

 El largo y el ancho del pétalo en cm como variables numéricas.

 El largo y el ancho del sépalo en cm como variables numéricas.

Las variables en la base de datos son

 [Link] = Longitud del sépalo

 [Link] = Ancho del sépalo

 [Link] = Longitud del pétalo


 [Link] = Ancho del pétalo

 Species = Especie o tipo de flor Iris.

4. Medidas de tendencia central: Explicar brevemente en qué

consisten. Obtener media, mediana, moda, desviación estándar,

varianza, coeficiente de variación, asimetría, curtosis, histograma de

frecuencias (sépalo x longitud, sépalo x ancho, pétalo x longitud,

pétalo x ancho). Primero usando los 150 datos, y luego en bloque

para cada especie.

Las medidas de tendencia central se emplean para describir y sintetizar

mediante un número único, denominado promedio, la posición de un valor

en la variable, en tal forma que represente al conjunto de valores

observados. A continuación, se describen algunas medidas de tendencia

central, de posición, forma y dispersión.

Moda: es el valor, categoría, o marca de clase que más se repite.

Mediana: se define como aquel valor de la variable que ocupa la posición

central del conjunto de datos ordenados, también se puede definir como

aquel valor de la variable que resulta ser mayor o igual que la mitad de

los datos y menor que la otra mitad. La mediana no tiene sentido

calcularla si los datos son cualitativos. A continuación, una fórmula para

calcular la mediana.
Media: solo es aplicable a datos de tipo numérico, es la media aritmética

de los datos observados, o sea, la suma de todos ellos dividido por el

número de observaciones:

para datos sin tabular, si están tabulados en

tablas de frecuencias:

, siendo k el número de valores distintos y ni la frecuencia

absoluta correspondiente al valor xi de la variable.

Cuartiles: al conjunto de datos ordenados lo dividen en cuatro intervalos

con el mismo número de observaciones, encontrado los cuartiles primero,

segundo y tercero.

Primer cuartil Q1: Es aquél valor de la variable que resulta ser mayor o

igual que el 25% de los datos y menor que el 75% restante.

Segundo cuartil: Q2 coincide con la mediana.


Tercer cuartil: Q3, es aquel valor de la variable que resulta ser mayor o

igual que el 75% de los datos y menor que el 25% restante.

Percentiles: se define como el valor de la variable que resulta ser mayor

o igual que un porcentaje dado de los datos. En general, definimos el

cuantil  ( en tanto por 1) como aquél valor de la variable que resulta ser

menor que el 100% de los datos y mayor o igual que el 100(1- )%

restante, donde cuantil  = p100(1-) .

Medidas de dispersión:

Para mejorar la información sobre el conjunto de datos no basta saber en

torno a qué valores está la mayoría de los datos, también es conveniente

saber si el conjunto de medidas son todas muy parecidas entre sí o si son

muy diferentes, esto se consigue con las medidas de dispersión o

variabilidad.

Rango: es la medida de variabilidad más simple, es el mayor valor menos

el más pequeño, conforme más próximos sean los valores observados,

menor será el rango.

R= max(xi) – min(xi)

Rango intercuartílico: la diferencia entre los cuartiles tercero y primero

RI = Q3-Q1
Varianza: es la media de los cuadrados de las diferencias o desviaciones

de cada dato hasta la media:

si los datos están agrupados en clases, la fórmula es:

La varianza se expresa en unidades al cuadrado y no es comparable con

los datos, por eso se define la desviación estándar.

Desviación estándar, es la raíz cuadrada positiva de la varianza,

Para comparar variabilidad entre magnitudes diferentes o entre diferentes

muestras, se utiliza el coeficiente de variación, que es la desviación típica

expresada en medias:

Medidas de asimetría y de forma: además de dar información sobre la

tendencia central de los datos y sobre cómo se reparten respecto del


centro, en ocasiones interesa conocer si los datos se reparten de un

modo simétrico a ambos lados de la media o no.

El coeficiente de asimetría mide esta propiedad, y se calcula como:

, o , si los datos están agrupados:

Si g<0, existe asimetría hacia la izquierda. Si g>0, la asimetría es hacia la

derecha. Si g=0, la distribución de datos es simétrica.

El coeficiente de curtosis o apuntamiento mide si las frecuencias de

los datos centrales son mucho mayores que las de los datos extremos, o

si, por el contrario, todos los datos se repiten un número más o menos

igual de veces. La distribución de los datos puedes se platicúrtica,

mesocúrtica y leptocúrtica.

Longitud sépalo Ancho sépalo Longitud pétalo Ancho pétalo

Min. 4,3 2,0 1 0,1


Q1 5,1 2,8 1,6 0,3
Mediana 5,8 3,0 4,350 1,3
Media 5,843 3,057 3,758 1,199
Q3 6,4 3,3 5,1 1,8
Max 7,9 4,4 6,9 2,5
Varianza 0,6856935 0,1899794 3,116278 0,5810063
Des estándar 0,8280661 0,4358663 1,765298 0,7622377
CV 0,1417113 0,1425642 0,4697441 0,6355511
Asimetría 0,3117531 0,3157671 0,3117531 -0,1019342
Curtosis 2,426432 3,180976 1,604464 1.663933
Moda

Tabla 1. Mediadas de tendencia centra, variabilidad y forma .

Los datos de la longitud de los sépalos de la especie de flor de la planta

iris, tiene un valor promedio de 5,843. Se caracterizan por tener

distribución asimétrica positiva con coeficiente de asimetría 0,3117531.

Esto indica que la moda es menor que la mediana (5,8) y a su vez estos

valores son menores al promedio (5,843) de los datos.

Por otro lado, de acuerdo con el coeficiente de curtosis (2,426432), indica

que la distribución de los datos tiene forma achatada o platicurtica como

se puede observar en el histograma de longitud de sépalo (ver figura 1).

Al analizar la variabilidad de los datos, el coeficiente de variación de la

longitud de sépalos es de 0,1417113 siendo este de menor variabilidad

comparado con los coeficientes de variación de ancho de sépalo, longitud

y ancho de pétalo (ver tabla 1).


Histograma de Longitud de Sepalo Histograma de Ancho de Sepalo

35
30

30
25

25
20
frecuencia

frecuencia

20
15

15
10

10
5

5
0

0
4 5 6 7 8 2.0 2.5 3.0 3.5 4.0

Longitud del Sepalo Ancho del Sepalo

Figura 1. Histograma longitud y ancho de sépalo respectivamente.

Seguidamente, los datos anchos de sépalos de la especie de flor de la

planta iris, tienen un valor promedio de 3,057. Se caracteriza por tener

variabilidad moderada con una desviación estándar de 0,4358663. Del

mismo modo que la variable longitud de sépalo, el ancho de sépalo tiene

distribución asimétrica positiva con coeficiente de asimetría de

0,3157671. Esto indica que la moda es menor que la mediana (3,0) y a su

vez estos valores son menores al promedio (3,057) de los datos.

El coeficiente de curtosis de los datos ancho de sépalo es de 0.1387047

indicando este valor que la distribución de los datos tiene forma achatada

o platicurtica como se puede observar en el histograma de longitud de

sépalo (ver figura 1).


Al analizar la variabilidad de los datos, el coeficiente de variación del

ancho de sépalo es de 0,1425642. Este valor es muy cercano al

coeficiente de variación de longitud de sépalos 0,1417113. Siendo este

último el de menor variabilidad comparado con los demás coeficientes de

variación ancho de sépalo, longitud y ancho de pétalo (ver tabla 1).

Histograma de Longitud de Petalo Histograma de Ancho de Petalo

35
30
30

25
20
frecuencia

frecuencia
20

15
10
10

5
0

1 2 3 4 5 6 7 0.0 0.5 1.0 1.5 2.0 2.5

Longitud del Petalo Ancho del Petalo

Figura 2. Histograma longitud y ancho de pétalo respectivamente.


Los datos de la longitud de pétalos de la especie de flor de la planta iris,

tiene un valor promedio de 3,758. La desviación estándar es de 1,765298

lo que indica mucha variabilidad en los datos. Se caracterizan por tener

distribución asimétrica con coeficiente de asimetría 0,31175310.

Esto indica que la moda es menor que la mediana (4,350) y a su vez

estos valores son menores al promedio (5,843) de los datos.

Por otro lado, de acuerdo con el coeficiente de curtosis (1,604464), indica

que la distribución de los datos tiene forma achatada o platicurtica como

se puede observar en el histograma de longitud de sépalo (ver figura 1).

Al analizar la variabilidad de los datos, el coeficiente de variación de la

longitud de sépalos es de 0,46974410 siendo de mayor variabilidad

comparado con los coeficientes de variación de ancho de sépalo, longitud

y ancho de pétalo y de menor variabilidad con el ancho de pétalo

respectivamente (ver tabla 1).

Del mismo modo, los datos de ancho de pétalos de la especie de flor de

la planta iris, tiene un valor promedio de 1,199. La desviación estándar es

de 0,7622377 lo que indica mucha variabilidad en los datos. Se

caracterizan por tener distribución asimétrica negativo con coeficiente de

asimetría de

-0.1019342. Esto indica que la media (1,199) es menor que la mediana

(1,3) y a su vez estos valores son menores que la moda de los datos.
Por otro lado, de acuerdo con el coeficiente de curtosis (1,604464), indica

que la distribución de los datos tiene forma achatada o platicurtica como

se puede observar en el histograma de longitud de sépalo (ver figura 1).

Al analizar la variabilidad de los datos, el coeficiente de variación de la

longitud de sépalos es de 0,6355511 siendo de mayor variabilidad

comparado el coeficiente de variación de longitud de pétalo (ver tabla 1).

Setosa Versicolor Viginica

LS AS LP AP LS AS LP AP LS AS LP AP
Min. 4.300 2.30 1.00 4.9 2.00 4.90 4.90 2.20 3.00
0 00 0 0
Q1 4.800 3.20 1.40 5.6 2.52 5.60 6.22 2.80 4.00
0 00 5 5 0
Mediana 5.000 3.40 1.50 5.9 2.80 5.90 6.50 3.00 4.35
0 0 00 0 0
Media 5.006 3.42 1.46 5.9 2.77 5.936 6.58 2.97 4.26
8 2 36 0 8 4
Q3 5.200 3.67 1.57 6.3 3.00 6.300 6.90 3.17 4.60
5 5 00 0 0 5
Max 5.800 4.40 1.90 7.0 3.40 7.000 7.90 3.80 5.10
0 0 00 0 0 0
Var 0.124249 2.68 12.8 0.2 0.26 0.26 0.40 0.26 0.22
459 464 66 643 6432 434 643 081
2 2 43 27 7 29 27 63
27
[Link] 0.3524897 0.35 0.35 0.5 0.63 0.10 0.63 0.63 0.46
248 248 16 587 2189 587 587 991
97 97 17 96 6 96 96 1
11
CV 0.0704134 0.07 0.07 0.0 0.08 0.08 0.09 0.21 0.11
4 041 041 86 695 6956 652 381 030
344 344 95 606 06 089 29 77
60
6
Asim 0.1164539 0.03 0.10 0. 0.10 0.10 0.11 0.35 -
992 317 218 2189 444 487 0.58
109 51
10 96 6 47 78 815
21 87
89
6

Curto 2.654235 3.74 3.80 2.4 2.55 2.40 2.91 3.51 2.92
422 459 01 172 1173 205 976 559
2 2 17 8 8 6 8
3
Tabla 2. Mediadas de tendencia central, variabilidad y forma longitud y ancho de sépalo
y pétalo por especie.

La distribución de los datos correspondiente a la longitud de sepalo

especie setona, tiene un promedio de 5,006. La desviacion estandar es

de 0, 3524897 lo que sugiere poca variabilidad en los datos. Se

caracterizan por tener distribución asimétrica positiva con coeficiente de

0,1164539. Esto indica que la moda es menor que la mediana (5.000) y a

su vez estos valores son menores al promedio (5.006) de los datos.

Por otro lado, de acuerdo con el coeficiente de curtosis (2.654235), indica

que la distribución de los datos tiene forma achatada o platicurtica como

se puede observar en el histograma de longitud de sépalo (ver figura 3).


Histograma de Longitud de Sepalo especie Setosa

12
10
8
frecuencia

6
4
2
0

4.5 5.0 5.5

Longitud del Sepalo

Figura 3. Histograma de longitud de sépalo especie setona.


Histograma de Longitud de Sepalo especie Versicolor

15
frecuencia

10
5
0

4.5 5.0 5.5 6.0 6.5 7.0

Longitud del Sepalo


Histograma de Longitud de Sepalo especie Virginica

15
frecuencia

10
5
0

4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0

Longitud del Sepalo


Histograma de Ancho de Sepalo especie Virginica

14
12
10
frecuencia

8
6
4
2
0

2.5 3.0 3.5

Ancho del Sepalo


Histograma de Longitud de Petalo especie Setosa

12
10
8
frecuencia

6
4
2
0

1.0 1.2 1.4 1.6 1.8

Longitud del Sepalo


Histograma de Ancho de Petalos especie Setosa

35
30
25
20
frecuencia

15
10
5
0

0.1 0.2 0.3 0.4 0.5 0.6

Ancho del Sepalo


Histograma de Ancho de Petalos especie Versicolor

12
10
8
frecuencia

6
4
2
0

1.0 1.2 1.4 1.6 1.8

Ancho del Sepalo


Histograma de Longitud de petalo especie Virginica

15
10
frecuencia

5
0

4.5 5.0 5.5 6.0 6.5 7.0

Longitud del Sepalo


Histograma de Ancho de petalos especie Virginica

12
10
8
frecuencia

6
4
2
0

1.4 1.6 1.8 2.0 2.2 2.4 2.6

Ancho del Sepalo

5. Represente los datos en gráficos


Diagrama de Barra variable Especie
50
40
30
frecuencia

20
10
0

setosa versicolor virginica

Especie
setosa

versicolor

virginica

También podría gustarte