Fase 4
Proyecto con procesamiento estadístico.
PRESENTADO POR:
Edwin Omar Ruano
PRESENTADO AL TUTOR:
Hecto Fabio Lopez
DIRECTOR DE CURSO
LUIS ALBERTO CACERES
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA (UNAD)
NOVIEMBRE 2021
Introducción
El principal objetivo del siguiente trabajo propuesto en la materia de estadística descriptiva para
agrarias es implementar los conocimiento adquiridos a lo largo de la materia en un proyecto real
donde se evidencia desde la recolección de los datos, hasta el procesamiento para la generación
de conclusiones.
Objetivo general
Aplicar los conocimientos adquiridos en estadística descriptiva a un problema real
Objetivos específicos
Realizar el trabajo de recolección de datos
Cargar los datos al programa R
Generar informa de los resultados obtenidos
Mi nombre es Edwin Ruano, resido en el municipio de Túrreques, en el municipio de Nariño
cerca de la capital del departamento, específicamente en la vereda La Cofradía. El departamento
tiene su principal actividad económica el cultivo de papa y para este estudio se tomarán los datos
del precio de la papa tipo Betina en el año 2019 antes de iniciar la pandemia, que es un tipo de
papa con rusticidad y es cultivada con menor cantidad de fertilizante que las variedades tradicionales.
Para esto nos basaremos en los datos almacenados en la pagina de Fedepapa en el link
[Link]
Para la variable discreta se realizará una encuesta a 50 hogares de la vereda donde podamos
indagar acerca de la cantidad de personas por hogar que en los años 2020 y 2021 perdieron sus
trabajos por causa de la pandemia.
Por ultimo para la variable cualitativa a los mismo 50 hogares se les preguntara si tienen o no
servicio de gas natural en sus hogares.
Tabla de datos
continua discreta cualitativa
551 0 0
402 1 0
452 0 0
503 0 0
427 0 1
489 1 1
328 2 1
327 1 0
356 1 0
413 1 0
486 2 0
564 0 0
465 0 0
440 1 0
388 1 0
500 2 0
528 3 0
501 0 1
469 0 0
533 0 1
565 0 0
567 0 0
709 1 1
779 0 1
704 1 0
845 2 0
668 0 0
670 3 0
440 0 0
450 0 1
528 1 1
556 0 0
603 0 0
566 0 0
711 1 0
601 1 0
618 1 0
611 1 0
616 1 0
601 1 1
608 2 1
629 1 1
612 1 0
557 1 0
528 0 0
557 0 0
517 1 1
399 0 1
325 2 1
314 2 1
Datos cargados en R
mean(CONTINUA)#media aritmética [1] 531.52
var(CONTINUA)#varianza [1] 13960.38
sd(CONTINUA)#desviación estándar [1] 118.154
min(CONTINUA) #Mínimo [1] 314
max(CONTINUA)# Máximo [1] 845
range(CONTINUA) #Rango [1] 314 845
median(CONTINUA)# Mediana [1] 530.5
length(CONTINUA)# Número de datos [1] 50
quantile(CONTINUA, 0.25)# Cuantil Q1 450.5
quantile(CONTINUA, 0.5)# Cuantil Q2 530.5
que es la misma mediana
quantile(CONTINUA, 0.75)# Cuantil Q3 606.75
IQR(CONTINUA) #Rango intercuartílico [1] 156.25
PERIODO 954 - Histograma variable CONTINUA
15
10
Frecuencia
5
0
300 400 500 600 700 800 900
Intervalos
Es un histograma que se forma por los intervalos representados con los rectángulos unidos.
Como es una variable continua se sacan los intervalos de menos a mayor y ubicamos los datos
que se tienen de los precios. Para este caso podemos observar que el rango de precios que mas se
repitió en el año 2019 fue el de 500 a 600 pesos. El precio que mayor repeticiones tuvo en el año
fue 800 a 900 lo que nos indica que el valor de la papa se mantuvo mas o menos estable.
PERIODO 954 - Boxplot variable CONTINUA
800
700
unidad de medida
600
500
400
300
Al observar la ubicación de los datos en el diagrama de boxplot podemos ver como los datos se
han repartido de forma uniforme a ambos lados lo que quiere decir que el Q1 y Q3 estan muy
parejos los datos dispersos alrededor de la mediana que se ubica en la negrita de la mitad.
VARIABLE DISCRETA
Mínimo 0
Máximo 3
Rango 0-3
Media aritmética 0.8
Mediana 1
Numero de datos 50
Desviación estándar 0.8329931
Cuantil Q1 0
Cuantil Q2 1
Cuantil Q3 1
Rango intercuartilico 1
Tabla de frecuencias absolutas
Tabla de frecuencias absolutas acumuladas
Tabla de frecuencias relativas
Tabla de frecuencias relativas acumuladas
PERIODO 954 - Diagrama de barras Frecuencia Absoluta DISCRETA
20
15
Frecuencias Absolutas
10
5
0
0 1 2 3
Como podemos observar en la gráfica, en la mayoría de los hogares encuestados ninguno de los
miembros perdió el empleo en el año 2020 de la pandemia. Pero en casi también la misma
cantidad de hogares 1 de sus miembros activos laboralmente perdió su fuente de ingreso o
empleo. En algunos hogares 2 personas perdieron el empleo y muy desafortunadamente en 2
hogares perdieron el empleo 3 de sus miembros que fueron prácticamente todos los que
laboraban.
PERIODO 954 - Diagrama de barras Frecuencia Relativa DISCRETA
0.4
0.3
Frecuencia Relativa
0.2
0.1
0.0
0 1 2 3
La grafica de frecuencia relativa nos muestras los datos obtenidos en la frecuencias absolutas
pero ahora en representación de decimales que al multiplicar por 100 nos da un valor en
porcentaje.
PERIODO 954 - Diagrama de barras Frecuencia Absoluta Acumulada DISCRETA
50
40
Frecuencia Absoluta Acumulada
30
20
10
0
0 1 2 3
La grafica de frecuencia absoluta nos presenta la acumulación de datos obtenidos en la
frecuencia absoluta, de forma que al sumarlas todas debemos obtener el total de los datos en este
caso 50.
PERIODO 954 - Diagrama de barras Frecuencia Relativa Acumulada DISCRETA
1.0
0.8
Frecuencia Relativa Acumulada
0.6
0.4
0.2
0.0
0 1 2 3
Los valores relativos se suman de forma que al final debemos obtener un 100%
3.0
2.5
2.0 PERIODO 954 - Boxplot DISCRETA
unidad de medida
1.5
1.0
0.5
0.0
La grafica de boxplot representa los datos en forma de cuartiles. También nos muestra la
mediana y los valores mínimo y máximo. Los datos tienen una asimetría negativa, ya que los
datos se ubican en la parte inferior de la gráfica.
PERIODO 954 - Gráfico de tarta Frecuencia Absoluta DISCRETA
1 2
Este tipo de grafica es circular y se divide en sectores o porciones que representan las frecuencias
absolutas. Cada porción de la torta es proporcional a la cantidad que esta representando. La
unión de todos los sectores arman el circulo.
VARIABLE CUALITATIVA
TABLA DE FRECUENCIAS ABSOLUTAS
TABLA DE FRECUENCIAS RELATIVAS
PERIODO 954 - Diagrama de Barras Frecuencia Absoluta CATEGORICA
30
25
Frecuencias absolutas
20
15
10
5
0
Bombona Gas Natural
En este caso podemos observar como 34 de los hogares encuestados cuentan con servicio de gas
por bombona y solo 16 hogares tienen gas natural.
PERIODO 954 - Diagrama de barras Frecuencia Relativa CATEGORICA
0.6
0.5
Frecuencias relativas
0.4
0.3
0.2
0.1
0.0
Bombona Gas Natural
Nuevamente la representación de los valores obtenidos en la grafica de frecuencia absoluta los
dividimos entre el total de datos para tener los valores de frecuencia relativa. Estos valores son la
representación de porcentaje.
CONCLUSIONES
Para la variable continua se escogió hacer el estudio del precio de la papa tipo Betina en
el año 2019 antes de iniciar la pandemia y se puede observar que la mayor parte del año
el precio se mantuvo entre 500 y 600 pesos. Lo que nos demuestra que el año de
pandemia afecto bastante los precios a nivel nacional bajando los precios
considerablemente.
Para el año de la pandemia, según la encuesta de los 50 hogares en 20 hogares algunos de
sus miembros perdieron su fuente de ingreso, en 20 de ellos ninguno perdió sus trabajo y
en los demás la perdida fue peor con 2 o 3 miembros sin empleo, lo que nos muestra que
para casi el 50% de la muestra disminuyeron los ingresos ocasionando desmejoras en la
calidad de vida.
Para finalizar se encuestaron 50 hogares sobre el servicio de gas domiciliario que tienen y
vemos que mayoría de los hogares cuentan con gas por bombona y solo 16 con servicio
de gas natural. Lo que demuestra la poca evolución en cuanto al servicio de gas que tiene
la región.
BIBLIOGRAFÍA
Balzarini, M. (2013). Estadística y biometría: ilustraciones del uso e infostat en
problemas de agronomía. Recuperado de
[Link]
5&query=bioestadística
Di, R. J. A., Casanoves, F., & Gonzalez, L. A. (2008). Estadística para las ciencias
agropecuarias (7a. ed.). Recuperado de
[Link]
3185731&tm=1519912328994
Mendoza, H, Bautista, G. (2002). Probabilidad y Estadística. Universidad Nacional
de Colombia, [Link] Licencia:
Creative Commons BY-NC-ND.
ANEXO CODIGO
R version 4.0.2 (2020-06-22) -- "Taking Off Again"
Copyright (C) 2020 The R Foundation for Statistical Computing
Platform: x86_64-w64-mingw32/x64 (64-bit)
R es un software libre y viene sin GARANTIA ALGUNA.
Usted puede redistribuirlo bajo ciertas circunstancias.
Escriba 'license()' o 'licence()' para detalles de distribucion.
R es un proyecto colaborativo con muchos contribuyentes.
Escriba 'contributors()' para obtener más información y
'citation()' para saber cómo citar R o paquetes de R en publicaciones.
Escriba 'demo()' para demostraciones, 'help()' para el sistema on-line de ayuda,
o '[Link]()' para abrir el sistema de ayuda HTML con su navegador.
Escriba 'q()' para salir de R.
> # CODIGO R PARA LA FASE CUATRO DEL CURSO ESTADÍSTICA DESCRIPTIVA
(300046A_954)
>
> # PARA EJECUTAR, DIGITAR "CONTROL+R" EN CADA LÍNEA, DE ARRIBA HACIA
ABAJO
>
> # Recuerde que antes de comenzar a ejecutar el script, debe ir a Archivo - cambiar dir y
especificar la carpeta donde tiene guardado este script y la hoja de cálculo [Link]
>
> # Al ejecutar el siguiente comando, debe aparecer la carpeta donde guardaron los archivos
"Script Fase 4-proyecto [Link]" y "[Link]"
>
> getwd()
[1] "C:/Estadistica descriptiva/2021-II/FASE4"
>
> # Si no les aparece la carpeta, el programa R no va a encontrar la base de datos y R mostrará
un mensaje de error al intentar abrirla:
>
> PROBA=[Link]("[Link]",header=T,sep=";",dec=",")
> attach(PROBA)
> attach(PROBA) # Muestra los nombres de las variables sobre los cuales R va a hacer
los cálculos
The following objects are masked from PROBA (pos = 3):
continua, cualitativa, discreta
>
> # Si el programa logró leer la hoja de cálculo "[Link]”, con el siguiente comando le debe
aparecer:
>
> View(PROBA)
>
> # Ciérrela y continúe ejecutando el código
>
> # VARIABLE CUANTITATIVA CONTINUA
>
> # Ejemplos: peso (de animales, de cosechas, etc.), contenidos de nutrientes en el suelo (ppm),
pH, edad, material particulado, etc.
>
> CONTINUA=continua
>
> summary(CONTINUA) # Resumen estadístico
Min. 1st Qu. Median Mean 3rd Qu. Max.
314.0 450.5 530.5 531.5 606.8 845.0
> mean(CONTINUA) # media aritmética
[1] 531.52
> var(CONTINUA) # varianza
[1] 13960.38
> sd(CONTINUA) # desviación estándar
[1] 118.154
> min(CONTINUA) # Valor mínimo del conjunto de datos
[1] 314
> max(CONTINUA) # Valor máximo del conjunto de datos
[1] 845
> range(CONTINUA) # Rango
[1] 314 845
> median(CONTINUA) # Mediana
[1] 530.5
> length(CONTINUA) # Número de datos
[1] 50
> quantile(CONTINUA, 0.25) # Cuantil Q1
25%
450.5
> quantile(CONTINUA, 0.5) # Cuantil Q2 que es la mimsa mediana
50%
530.5
> quantile(CONTINUA, 0.75) # Cuantil Q3
75%
606.75
> IQR(CONTINUA) # Rango intercuartílico
[1] 156.25
> sort(CONTINUA) # Ordenar
[1] 314 325 327 328 356 388 399 402 413 427 440 440 450 452 465 469 486 489 500
[20] 501 503 517 528 528 528 533 551 556 557 557 564 565 566 567 601 601 603 608
[39] 611 612 616 618 629 668 670 704 709 711 779 845
>
> # Instalación de la libreria agrícolae (permite el uso de otras herramientas estadísticas):
> # En "Secure CRAN mirrors", seleccionar el primero de la lista: "0-cloud [https]"
> # También puede seleccionar cualquiera del listado que inicia con “USA…”
> # Tener paciencia, ya que la instalación puede tomar varios minutos
> # Esperar hasta que el cursor (> |)vuelva a estar en color rojo en la parte inferior de la consola
R
>
> [Link]("agricolae")
Installing package into ‘C:/Users/Documents/R/win-library/4.0’
(as ‘lib’ is unspecified)
--- Please select a CRAN mirror for use in this session ---
probando la URL '[Link]
Content type 'application/zip' length 1273572 bytes (1.2 MB)
downloaded 1.2 MB
package ‘agricolae’ successfully unpacked and MD5 sums checked
The downloaded binary packages are in
C:\Users\Local\Temp\RtmpqehuZu\downloaded_packages
>
> library(agricolae) # si la libreria se instaló correctamente, al dar CONTROL+R se pone Rojo
Warning message:
package ‘agricolae’ was built under R version 4.0.5
>
> # Gráficos de la variable continua:
>
> # Tabla de frecuencias (histograma):
>
> hist(CONTINUA,xlab="Intervalos",ylab="Frecuencia",main="PERIODO 954 - Histograma
variable CONTINUA")
>
> # Diagrama de cajas (Boxplot):
>
> boxplot(CONTINUA,ylab="unidad de medida",main="PERIODO 954 - Boxplot variable
CONTINUA")#Gráficos de cajas
>
> # Cálculo de probabilidad:
>
> # inserte el valor de la media de su variable continua:
> media= 3.074
>
> # inserte la desviación estándar de su variable continua:
> sigma= 0.793548
>
> # Inserte el valor del que quiere conocer la probabilidad:
> valor=3.2
>
> # probabilidad:
>
> pnorm(valor,media,sigma)
[1] 0.5630791
>
>
> # VARIABLE CUANTITATIVA DISCRETA
>
> # Son variables de conteo, como número de personas que habitan un predio, número de crías
por parto, número de frutos por cosecha, etc.
>
> # En el siguiente renglón, reemplace y digite los 30 datos de su variable DISCRETA,
separándolos con comas:
>
> DISCRETA=discreta
>
> # RECUERDE QUE NO DEBE CAMBIAR NINGUNA LINEA DEL CODIGO
>
> summary(DISCRETA) # Resumen estadístico
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0 0.0 1.0 0.8 1.0 3.0
> min(DISCRETA) # Mínimo
[1] 0
> max(DISCRETA) # Máximo
[1] 3
> range(DISCRETA) # Rango
[1] 0 3
> mean(DISCRETA) # Media aritmética
[1] 0.8
> median(DISCRETA) # Mediana
[1] 1
> length(DISCRETA) # Número de datos
[1] 50
> sd(DISCRETA) # Desviación standar
[1] 0.8329931
> quantile(DISCRETA, 0.25) # Cuantil Q1
25%
0
> quantile(DISCRETA, 0.5) # Cuantil Q2 que es la mimsa mediana
50%
1
> quantile(DISCRETA, 0.75) # Cuantil Q3
75%
1
> IQR(DISCRETA) # Rango intercuartílico
[1] 1
> sort(DISCRETA) # Ordenar
[1] 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
[39] 1 1 1 2 2 2 2 2 2 2 3 3
>
> # Tablas de frecuencias para la variable discreta
>
> # Tabla de frecuencias absolutas:
>
> FrAbsDiscreta=table(DISCRETA)
> FrAbsDiscreta
DISCRETA
0 1 2 3
21 20 7 2
>
> # Tabla de frecuencias absolutas acumuladas:
>
> FrAbsAcumDiscreta<-[Link](cumsum(FrAbsDiscreta))
> FrAbsAcumDiscreta
0 1 2 3
21 41 48 50
> Tabla de frecuencias absolutas
Error: unexpected symbol in "Tabla de"
> # Tabla de frecuencias absolutas:
>
> FrAbsDiscreta=table(DISCRETA)
> FrAbsDiscreta
DISCRETA
0 1 2 3
21 20 7 2
>
> # Tabla de frecuencias absolutas acumuladas:
>
> FrAbsAcumDiscreta<-[Link](cumsum(FrAbsDiscreta))
> FrAbsAcumDiscreta
0 1 2 3
21 41 48 50
> Tabla de frecuencias absolutas acumuladas
Error: unexpected symbol in "Tabla de"
> # Tabla de frecuencias absolutas acumuladas:
>
> FrAbsAcumDiscreta<-[Link](cumsum(FrAbsDiscreta))
> FrAbsAcumDiscreta
0 1 2 3
21 41 48 50
>
> # Tabla de frecuencias relativas:
>
> FrRelDiscreta=[Link](table(DISCRETA))
> FrRelDiscreta # La frecuencia relativa se da en porcentaje, acá se presenta de 0 a 1, para
pasarla a porcentaje se multiplica por 100
DISCRETA
0 1 2 3
0.42 0.40 0.14 0.04
>
> # Tabla de Frecuencias relativas acumuladas:
>
> FrRelAcumDiscreta<-[Link](cumsum(FrRelDiscreta))
> FrRelAcumDiscreta # Para pasar a porcentaje, se multiplica por 100
0 1 2 3
0.42 0.82 0.96 1.00
>
> # GRÁFICOS DE TABLA DE FRECUENCIAS (DIAGRAMA DE BARRAS) PARA
VARIABLE DISCRETA:
>
> # Diagrama de barras frecuencia absoluta:
>
> barplot(FrAbsDiscreta,ylab="Frecuencias Absolutas",main="PERIODO 954 - Diagrama de
barras Frecuencia Absoluta DISCRETA")
>
> # Diagrama de barras frecuencia relativa:
>
> barplot(FrRelDiscreta,ylab="Frecuencia Relativa",main="PERIODO 954 - Diagrama de barras
Frecuencia Relativa DISCRETA")
>
> # Diagrama de barras frecuencia absoluta acumulada:
>
> barplot(FrAbsAcumDiscreta,ylab="Frecuencia Absoluta Acumulada",main="PERIODO 954 -
Diagrama de barras Frecuencia Absoluta Acumulada DISCRETA")
>
> # Diagrama de barras frecuencia relativa acumulada:
>
> barplot(FrRelAcumDiscreta,ylab="Frecuencia Relativa Acumulada",main="PERIODO 954 -
Diagrama de barras Frecuencia Relativa Acumulada DISCRETA")
>
> # Diagrama de cajas o Boxplot:
>
> boxplot(DISCRETA,ylab="unidad de medida",main="PERIODO 954 - Boxplot DISCRETA")
>
> # Gráfico de tarta o pie:
>
> pie(FrAbsDiscreta,col=rainbow(6),main=c("PERIODO 954 - Gráfico de tarta Frecuencia
Absoluta DISCRETA"))
>
>
>
> # VARIABLE CUALITATIVA O CATEGÓRICA
>
> # VARIABLE CUALITATIVA O CATEGÓRICA
>
> # Son atributos no numéricos, como el nivel de estudios de una persona, el nivel de ingreso, o
el grado de ataque de un patógeno.
> # Para poder analizarlos es necesario codificarlos
> # Por ejemplo, si se hace una encuesta del nivel de estudio que tienen los agricultores de un
municipio, se pueden asignar cuatro niveles:
> # 1= sin estudio, 2= primaria, 3= secundaria y 4= universidad
> # CATEGORICA = Nivel de estudio de agricultores
>
> CATEGORICA=cualitativa
>
> # Es necesario aclararle al programa que cada número es una categoría:
>
> # En el siguiente comando reemplace de acuerdo al número de niveles que tenga su variable
categórica:
>
>
> CATEGORICA=factor(CATEGORICA, levels=c(0,1),
+
+ # A continuación, indique el nombre de cada categoría:
+ # reemplace las palabras entre comillas, indicando el nombre de cada nivel de su variable:
+
+ labels=c("Bombona","Gas Natural"))
>
> CATEGORICA # Muestra cada dato con el nombre del nivel de la categoría que se asignó
previamente
[1] Bombona Bombona Bombona Bombona Gas Natural Gas Natural
[7] Gas Natural Bombona Bombona Bombona Bombona Bombona
[13] Bombona Bombona Bombona Bombona Bombona Gas Natural
[19] Bombona Gas Natural Bombona Bombona Gas Natural Gas Natural
[25] Bombona Bombona Bombona Bombona Bombona Gas Natural
[31] Gas Natural Bombona Bombona Bombona Bombona Bombona
[37] Bombona Bombona Bombona Gas Natural Gas Natural Gas Natural
[43] Bombona Bombona Bombona Bombona Gas Natural Gas Natural
[49] Gas Natural Gas Natural
Levels: Bombona Gas Natural
>
> summary(CATEGORICA) # Hace un resumen del número de individuos que pertenecen a
cada una de las categorías asignadas
Bombona Gas Natural
34 16
> table(CATEGORICA) #Tabla de frecuencias absolutas
CATEGORICA
Bombona Gas Natural
34 16
>
> # Tabla de frecuencia absoluta de la variable categórica o cualitativa:
>
> FrAbsCategorica=table(CATEGORICA)
> FrAbsCategorica
CATEGORICA
Bombona Gas Natural
34 16
>
> # Tabla de frecuencia relativa de la variable categórica o cualitativa:
>
> FrRelCategorica=[Link](table(CATEGORICA))
> FrRelCategorica
CATEGORICA
Bombona Gas Natural
0.68 0.32
>
>
> # GRÁFICOS DE VARIABLES CUALITATIVAS:
>
> # Diagrama de barras para frecuencia absoluta:
>
> barplot(FrAbsCategorica,ylab="Frecuencias absolutas",main="PERIODO 954 - Diagrama de
Barras Frecuencia Absoluta CATEGORICA")
>
> # Diagrama de barras para frecuencia relativa:
>
> barplot(FrRelCategorica,ylab="Frecuencias relativas",main="PERIODO 954 - Diagrama de
barras Frecuencia Relativa CATEGORICA")
>
> #Diseñado por: Luis Alberto Cáceres - Director de curso
> #Diseñado por: Luis Alberto Cáceres - Director de curso
>