INTRODUCCION
La estadística y la probabilidad son herramientas fundamentales en el análisis de
datos y en la toma de decisiones informadas en diversas disciplinas. Desde la investigación
científica hasta el ámbito empresarial, estas áreas del conocimiento nos permiten
comprender y modelar fenómenos aleatorios, así como extraer conclusiones significativas a
partir de datos empíricos. En este trabajo, se abordarán una serie de ejercicios prácticos que
ilustran conceptos clave de estadística descriptiva, inferencial y teoría de la probabilidad. A
través de ejemplos concretos y cálculos detallados, se pretende no solo reforzar la
comprensión teórica de estos conceptos, sino también su aplicación en situaciones reales.
Con ello, se espera fomentar un enfoque crítico y analítico ante los datos, habilidades
esenciales en un mundo cada vez más impulsado por la información.
OBJETIVOS
Objetivo General:
Analizar y aplicar conceptos fundamentales de estadística y probabilidad a través de
ejercicios prácticos, con el fin de desarrollar habilidades analíticas y mejorar la
comprensión de los métodos estadísticos en la resolución de problemas.
Objetivos Específicos:
1. Identificar y aplicar técnicas de estadística descriptiva* para resumir y representar
datos, utilizando medidas de tendencia central y dispersión que permitan una
interpretación clara de los resultados.
2. Desarrollar competencias en la inferencia estadística* mediante la realización de
pruebas de hipótesis y la construcción de intervalos de confianza, para evaluar
afirmaciones sobre poblaciones a partir de muestras.
3. Explorar conceptos básicos de probabilidad* a través de ejercicios que involucren
eventos aleatorios, distribuciones y teoremas fundamentales, con el objetivo de
entender su aplicación en situaciones cotidianas y en la toma de decisiones.
SITUACION PROBLEMA
La disponibilidad de una base histórica, abarcando los años 2007 a 2018, sobre la
producción agrícola nacional es esencial para comprender y mejorar los procesos
relacionados con esta importante actividad económica. Esta base no solo ofrece
información detallada sobre la producción agrícola a nivel nacional, sino que también
brinda datos específicos a nivel regional, con un enfoque particular en los productores
agrícolas. Este enfoque busca fortalecer los procesos productivos y de comercialización,
contribuyendo así al desarrollo sostenible del sector agrícola en Colombia.
Es relevante destacar que Colombia se distingue por la extraordinaria diversidad de cultivos
que se siembran en diversos contextos geográficos y climáticos. En este sentido, la
comprensión precisa del estado de la agricultura es fundamental para tomar decisiones
informadas que beneficien a proyectos rurales y urbanos en los diferentes departamentos
del país. Se espera que esta base de datos proporcione un conocimiento más profundo de las
condiciones agrícolas, facilitando así la implementación de políticas y estrategias que
impulsen el desarrollo económico, cultural y social de la nación.
Con base en lo anterior: ¿Cómo puede la Universidad Nacional Abierta y a Distancia
(UNAD) contribuir al fortalecimiento de la producción agrícola en Colombia,
aprovechando la base histórica de datos entre 2007 y 2018 y brindando información clave a
los productores para mejorar sus procesos productivos y de comercialización? Las variables
de la base de datos son:
La UNAD puede desempeñar un papel crucial en el fortalecimiento de la producción
agrícola en Colombia a través de varias estrategias:
Análisis de Datos Históricos: Utilizando la base de datos entre 2007 y 2018, la
UNAD puede identificar tendencias en la producción agrícola, incluyendo qué
cultivos han sido más exitosos en diferentes regiones y en qué condiciones
climáticas. Esto permitirá a los productores tomar decisiones informadas sobre qué
sembrar.
Capacitación y Educación: La universidad puede ofrecer programas de formación y
talleres para agricultores, enfocándose en las mejores prácticas agrícolas, el uso
eficiente de recursos, y técnicas de comercialización. Esto ayudará a los productores
a mejorar sus procesos y aumentar su competitividad.
Asesoría Técnica: A través de sus programas académicos, la UNAD puede
proporcionar asesoría técnica directa a los agricultores, ayudándoles a implementar
tecnologías innovadoras y sostenibles que aumenten la productividad.
Investigación Aplicada: La UNAD podría llevar a cabo investigaciones que aborden
problemas específicos del sector agrícola colombiano, como el manejo de plagas, la
conservación del agua o el uso de fertilizantes orgánicos. Los resultados podrían ser
compartidos con los productores para que puedan aplicarlos en sus prácticas.
Desarrollo de Redes: Fomentar redes entre agricultores para compartir experiencias,
recursos y conocimientos puede ser otro enfoque valioso. La UNAD podría actuar
como facilitador para conectar a los productores con especialistas, otros agricultores
y mercados.
Plataformas Tecnológicas: Implementar plataformas digitales que permitan a los
agricultores acceder fácilmente a información actualizada sobre precios del
mercado, condiciones climáticas, y técnicas agrícolas podría ser muy beneficioso.
Promoción de Prácticas Sostenibles: La educación sobre prácticas agrícolas
sostenibles no solo contribuiría al aumento de la producción, sino que también
ayudaría a preservar el medio ambiente, asegurando que las futuras generaciones
puedan continuar beneficiándose de los recursos agrícolas del país.
Ejercicio 1: Fomento al bilingüismo. Cada estudiante debe elegir un literal que contiene
una pareja de conceptos con los que deberá hacer una breve infografía en inglés, dando
concepto y un ejemplo sencillo.
Conceptos:
A. Media, Mediana
A
Ejercicio 2: Cada estudiante debe seleccionar una de las variables cuantitativas presentadas
en la base de datos. Debe manifestar su elección en el foro. Tenga en cuenta las elecciones
de sus compañeros de grupo, no se permiten variables repetidas. Usando el conjunto de
datos para la variable seleccionada realice lo siguiente:
• Construya la tabla de frecuencia con datos agrupados (área sembrada, área
cosechada, tiempo de producción, rendimiento) o con datos no agrupados (área no
cosechada).
Frecuenci Frecuenci Frecuenci Frecuenci
Frecuenci a a relativa a relativa a relativa
Marca de a absoluta Frecuenci acumulad Porcentua Porcentua
Datos Intervalos clase absoluta acumulad a relativa a l l
Muestra 450 LI LS Xi fi Fi hi Hi pi Pi
K=Intervalo 10 1 0 54 26,75 243 243 0,54 0,54 54 54
Lim inferior 0 2 54 107 80,26 64 307 0,142 0,682 14,222 68,222
Lim superior 522 3 107 161 133,77 48 355 0,107 0,789 10,667 78,889
Rango 522 4 161 214 187,28 19 374 0,042 0,831 4,222 83,111
a=amplitud 54 5 214 268 240,78 22 396 0,049 0,880 4,889 88,000
6 268 321 294,29 13 409 0,029 0,909 2,889 90,889
7 321 375 347,80 15 424 0,033 0,942 3,333 94,222
8 375 428 401,31 12 436 0,027 0,969 2,667 96,889
9 428 482 454,82 8 444 0,018 0,987 1,778 98,667
10 482 535 508,32 6 450 0,013 1 1,33 100
450 1 100
• A partir de la tabla de frecuencia construya un histograma, un diagrama circular y
un polígono de frecuencia. Presente conclusiones a partir de estos gráficos.
HISTOGRAMA Y POLIGONO DE
FRECUENCIA
300
250
FRECUENCIA
200
150
100
50
0
26 78 131 183 235 287 339 392 444 496
MARCA DE CLASE
HISTOGRAMA DE FRECUENCIA POLIGONO DE FRECUENCIA
El histograma y el polígono de frecuencia muestran una distribución de datos con una
marcada asimetría positiva o a la derecha. Esto significa que la mayor parte de los datos se
concentran en los valores más bajos (tiempo de producción menor), con una cola larga
hacia los valores más altos (tiempos de producción mayores).
Análisis:
- Mayor Frecuencia: La clase con mayor frecuencia se encuentra entre 26 y 78
unidades de tiempo (meses), esto indica que la mayoría de los cultivos se producen
dentro de este rango de tiempo.
- Decrecimiento Gradual: A medida que aumenta el tiempo de producción, la
frecuencia disminuye gradualmente. Esto sugiere que es menos común que los
cultivos tarden periodos de tiempo significativamente largos para su producción. La
disminución no es abrupta sino relativamente suave, lo que apunta a una
variabilidad en los tiempos de producción más allá de la clase con mayor
frecuencia.
- Poca Frecuencia en Valores Altos: Las clases con marcas de clase mayores a 300
muestran una frecuencia muy baja, indicando que los tiempos de producción
extremadamente largos son eventos poco frecuentes.
• Con base en la tabla de frecuencia, responda las siguientes preguntas:
- ¿En cuál intervalo se observa una cantidad mayor de los parámetros de su variable
escogida?
El intervalo con mayor cantidad de parámetros es el primero, de 0 a 52, con una
frecuencia absoluta de 242 meses.
- ¿Hasta cuál intervalo se acumula el 80% de los parámetros de su variable escogida?
Para determinar hasta qué intervalo se acumula el 80% de los parámetros, primero
calculamos el 80% del total de parámetros:
0.80∗450=360 meses .
Observando la columna Frecuencia absoluta acumulada (Fi), vemos que el 80% (360
meses) de los parámetros se acumula hasta el intervalo de 209 a 261, es decir el intervalo
número 5.
• Encuentre la media aritmética, mediana y moda usando las fórmulas para cada una
de estas en Excel.
Frecuenci Frecuencia
Marca de a absoluta
Datos Intervalos clase absoluta acumulada
Muestra 450 LI LS Xi fi Fi xi*fi
K=Intervalo 10 1 0 52 26,10 242 242 6316,2
Liminferior 0 2 52 104 78,30 64 306 5011,2
Limsuperior 522 3 104 157 130,50 47 353 6133,5
Rango 522 4 157 209 182,70 18 371 3288,6
a=amplitud 52 5 209 261 234,90 19 390 4463,1
6 261 313 287,10 19 409 5454,9
Medidas detendeciacentral 7 313 365 339,30 13 422 4410,9
Media 105,212 8 365 418 391,50 9 431 3523,5
Posicion mediana 225 9 418 470 443,70 13 444 5768,1
Mediana 49 10 470 522 495,90 6 450 2975,4
Moda 30 450 47345,4
• Encuentre el cuartil 2, el decil 7 y el percentil 45.
Percentil
Cuartil 2 Decil 7 45
K 2 K 7 K 45
Kn/4 225 Kn/10 315 Kn/100 202,5
F 0 F 306 F 0
FW 242 FW 47 FW 242
A 52 A 52 A 52
Li 0 Li 104 Li 0
Valor 48,35 Valor 114 Valor 43,51
• Interprete los resultados anteriores.
Medida Resultado INTERPRETACIÓN
Valor Máximo 522 El mayor tiempo de
producción son 522 meses
Valor mínimo 0 El menor tiempo de
producción son 0 meses
Rango 522 Los tiempos de producción
están entre 0 y 522 meses
Media 105,2 El tiempo promedio de
producción es de 105,2
meses
Mediana 49 El 50% del tiempo de
producción esta entre 0 y 49
meses
Moda 30 El tiempo de producción de
mayor frecuencia es de 30
meses
Cuartil 2 (Q2) 48,35 El 50% de producción esta
entre 0 y 48,35 meses
Decil 7 (D7) 114 El 70% de producción esta
entre 0 y 114 meses
Percentil 45 (P45) 43,51 El 45 % de producción está
entre 0 y 43,51 meses
• Encuentre la varianza, desviación típica y coeficiente de variación, asimetría y
curtosis; con base en lo anterior responda ¿La distribución es homogénea o heterogénea?
¿Qué tipo de concentración y asimetría presentan los datos?
1. Varianza: Una varianza alta indica que los tiempos de producción están muy
dispersos; es decir, hay cultivos cuyo tiempo de producción difiere
significativamente de la media.
2. Desviación estándar: una desviación estándar de aproximadamente 120,21 meses
sugiere que, en promedio, los cultivos se producen aproximadamente 120 meses (10
años) más o menos que la media, lo que es bastante significativo.
3. Coeficiente de variación: Un valor de 1,14 (114%) indica que la variabilidad en
los tiempos de producción es alta en relación con la media. Esto puede significar
que existe gran inconsistencia en el tiempo que tardan diferentes cultivos en
producirse.
Ejercicio 3: Cada estudiante debe seleccionar dos de las variables presentadas en la base de
datos. Debe manifestar sus elecciones en el foro. Tenga en cuenta las elecciones de sus
compañeros de grupo, no se permite que la combinación elegida por diferentes
estudiantes sean las mismas. Usando el conjunto de datos para las dos variables
seleccionadas realice lo siguiente:
• Encuentre la ecuación de regresión lineal.
• Grafique dentro de un diagrama de dispersión la recta que representa la regresión
lineal y determine si la relación entre las variables es positiva, negativa o sin relación.
• Encuentre el coeficiente de determinación y determine el porcentaje de
confiabilidad del modelo matemático obtenido.
• Encuentre el coeficiente de correlación de Pearson y determine el nivel de
correlación lineal entre las variables (perfecta, excelente, aceptable, regular mínima o sin
correlación)
• Usando la ecuación de regresión lineal, realice 3 predicciones.
Área cosechada
1000
900
f(x) = 1.00104010028919 x − 0.847344363779492
800
R² = 0.999894655423259
700
600
500
400
300
200
100
0
0 100 200 300 400 500 600 700 800 900 1000
La relación entre las variables área sembrada y área cosechada es positiva, ya que la
pendiente de la recta de regresión (1,001) es positiva. Esto indica que a medida que
aumenta el valor de x, el valor de y también aumenta.
El porcentaje de confiabilidad del modelo matemático se determina mediante el
coeficiente de determinación (R²). En este caso,
R ²=0,9999, lo que representa un 99 , 99 % de confiabilidad. Esto indica que el
modelo explica el 99,99% de la variabilidad de la variable dependiente (y) (el área
cosechada) en función de la variable independiente (x).
El nivel de correlación lineal entre las variables es perfecta o casi perfecta. Un R²
cercano a 1 indica una correlación lineal muy fuerte.
Predicciones usando la ecuación de regresión lineal
y=1,001 x−0,8473
Para realizar las predicciones, necesitamos valores de 'x' (variable independiente:
área sembrada). Asumiendo tres valores hipotéticos para 'x':
Para x=150
y=1,001∗150−0,8473=149,2527 ≈ 149 , 3
Para x=300
y=1,001∗300−0,8473=299,4527 ≈ 299 , 5
Para x=500
y=1,001∗500−0,8473=499,2527 ≈ 499 , 3
Las predicciones indican que, para cada valor de área sembrada, se espera un valor
de área cosechada muy cercano, lo que refuerza la alta correlación observada. Estas
predicciones se basan en el modelo lineal y su validez está limitada al rango de
datos utilizados para generar el modelo.
CONCLUSIÓN
A lo largo de este trabajo, se ha evidenciado la importancia de la estadística y la
probabilidad como herramientas esenciales para el análisis de datos y la toma de decisiones
informadas. A través de los ejercicios realizados, se han explorado conceptos clave que no
solo fortalecen el entendimiento teórico, sino que también permiten aplicar estos
conocimientos en situaciones prácticas. La estadística descriptiva ha facilitado la
comprensión de conjuntos de datos mediante su resumen y visualización, mientras que la
inferencia estadística ha proporcionado un marco para realizar afirmaciones sobre
poblaciones basadas en muestras. Además, el estudio de la probabilidad ha enriquecido
nuestra capacidad para evaluar riesgos y anticipar resultados en contextos inciertos. En
conjunto, estos aprendizajes subrayan la relevancia de dominar herramientas estadísticas en
un mundo donde la información es cada vez más abundante y necesaria para fundamentar
decisiones efectivas.