GUÍA DE ACTIVIDADES Y RÚBRICA DE EVALUACIÓN – TAREA 5 EVALUACIÓN
FINAL PRUEBA OBJETIVA ABIERTA (POA)
HELEN RODRÍGUEZ RODRIGUEZ
CC: 1003965486
YANIO CAPIZ YACUMAL
CC. 1082160465
MARISOL CHIMBACO ROCHA
CC. 1004473261
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA
VICERRECTORÍA ACADÉMICA Y DE INVESTIGACIÓN
CURSO: BIOESTADÍSTICA
CÓDIGO: 302277045
CONCEPTOS
1. Definan de manera grupal (colaborativa) las siguientes definiciones básicas del
curso (Se sugiere utilizar el material bibliográfico de apoyo listado al final de esta
guía de actividades).
Vector de datos.
Los vectores son objetos matemáticos que tienen módulo, dirección y sentido. Se puede
representar gráficamente a cualquier vector mediante una flecha. La longitud de la flecha
es proporcional al módulo del vector. Es un número que indica cuántas veces cabe la
unidad u en la longitud.
Matriz de datos
La MATRIZ DE DATOS es un modo de ordenar los datos de manera que sea
particularmente visible la estructura tripartita de los datos.
Variables cuantitativas continuas
Las variables cuantitativas continuas pueden adoptar cualquier valor en el marco de un
determinado intervalo. De acuerdo a la precisión del instrumento que realiza la medición,
pueden existir otros valores en el medio de dos valores.
Variable cuantitativa discreta.
Es aquella variable que puede tomar únicamente un número finito de valores. Por
ejemplo, el número de hermanos.
Variable Nominal
Una variable puede ser tratada como nominal cuando sus valores representan
categorías que no obedecen a una clasificación intrínseca.
Variable cualitativa categórica
Las variables categóricas contienen un número finito de categorías o grupos distintos. Los
datos categóricos pueden no tener un orden lógico. Por ejemplo, los
predictores categóricos incluyen sexo, tipo de material y método de pago.
Tabla de frecuencia
La distribución de frecuencias o tabla de frecuencias es una ordenación en forma
de tabla de los datos estadísticos, asignando a cada dato
su frecuencia correspondiente. Frecuencia absoluta: La frecuencia absoluta o
simplemente frecuencia es el número de veces que aparece un determinado valor en un
estudio estadístico.
En el caso de variable cualitativa no se pueden calcular las frecuencias acumuladas pues
no es posible establecer un orden en las clases dentro de la modalidad. Colocamos en la
tabla aquellos valores que son independientes del lugar en que se pongan las
modalidades.
Una variable cuantitativa continua puede tomar todos los valores reales comprendidos
entre un valor inicial y un final.
Histograma
Un histograma es la representación gráfica en forma de barras, que simboliza la
distribución de un conjunto de datos. Sirven para obtener una "primera vista" general, o
panorama, de la distribución de la población, o de la muestra, respecto a una
característica, cuantitativa y continua.
Histograma de frecuencias absolutas. Representa la frecuencia absoluta mediante la
altura de las barras.
Histograma de frecuencias relativas. Representa la frecuencia relativa mediante la
altura de las barras.
Gráfico de barras
Un diagrama de barras es un gráfico usado para mostrar de forma resumida un grupo de
datos que puede incluir variables cualitativas y cuantitativas.
Media muestral
La media muestral, que es un estadístico que se calcula a partir de la media aritmética de
un conjunto de valores de una variable aleatoria. La media poblacional, valor esperado o
esperanza matemática de una variable aleatoria.
Para calcular la media de la distribución muestral de proporciones se tendría que hacer la
sumatoria de la frecuencia por el valor de la proporción muestral y dividirla entre el
número total de muestras. x̄ = ( Σ xi ) / n
Varianza muestral
La Varianza es una medida de dispersión que se utiliza para representar la variabilidad de
un conjunto de datos respecto de la media aritmética del mismo. Así, se calcula como la
suma de los residuos elevados al cuadrado y divididos entre el total de observaciones.
La varianza se calcula como σ² = ( Σ (x-μ)² ) / N. Otra fórmula equivalente es σ² = (Σ x²) /
N ) - μ².
desviación estándar.
La desviación estándar mide la dispersión de una distribución de datos. Entre más
dispersa está una distribución de datos, más grande es su desviación estándar.
Mediana
Mediana Es el número intermedio de un grupo de números; es decir, la mitad de los
números son superiores a la mediana y la mitad de los números tienen valores menores
que la mediana. Por ejemplo, la mediana de 2, 3, 3, 5, 7 y 10 es 4.
Moda
La moda es el valor que aparece con mayor frecuencia en un conjunto de datos.
Espacio muestral
El espacio muestral está formado por todos los posibles resultados de un experimento
aleatorio. Es decir, se compone de todos y cada uno de los sucesos elementales.
El espacio muestral se denota con la letra griega Ω (Omega). Está compuesto por todos
los sucesos elementales y/o compuestos de la muestra y, por tanto, coincide con el
suceso seguro. Es decir, aquel suceso que siempre va a ocurrir.
Punto muestral.
Los puntos muestrales son los resultados simples de un experimento. En términos más
simples, los puntos muestrales son los eventos de un espacio muestral. Por ejemplo, al
lanzar un dado numerado de uno a seis, cada uno de los posibles resultados se considera
un punto muestral de este experimento.
Evento aleatorio.
Un suceso aleatorio es cualquier característica, propiedad o proposición lógica formulada
en relación al resultado de un experimento aleatorio, cuya ocurrencia o no puede ser
observada tras la realización del experimento.
En el caso de distribuciones de variables aleatorias, cuando una variable es
continua y simétrica ¿Qué modelo se usa?.
Una variable aleatoria continua X tiene una distribución Normal de parámetros µ y σ si su
función de densidad es: f(x) = 1 σ √ 2π exp ( − 1 2 (x − µ σ )2) para todo x, donde µ es
cualquier número, σ es cualquier número positivo y, en general, exp(t) significa et, siendo
e la base de los logaritmos neperianos.
Variable aleatoria discreta de conteo no acotado
Cuando una variable solo es capaz de adquirir un número finito de valores dentro de un
intervalo se dice que es aleatoria discreta. Por ejemplo, las veces que ha llovido en la
ciudad este mes solo puede ser un valor igual o mayor a 0 y entero un enfoque estándar
para analizar variables de conteo es el modelo de regresión Poisson.
Variables de proporciones
En la escala de proporción, las variables pueden ser agregadas, restadas, multiplicadas y
divididas sistemáticamente. La escala proporcional tiene unidades de escala con
propiedades únicas y útiles. Una de estas propiedades es que las unidades permiten su
conversión.
Es el número de observaciones con una característica en particular entre la población de
refe- rencia. El numerador siempre está incluido en el denominador. Se expresa en
porcentaje.
¿Cuáles son los parámetros más usados en estadística para estudiar y
utilizar funciones de distribución de variables aleatorias?.
Esperanza matemática de una variable aleatoria
Es la generalización de la media aritmética a toda la población, es decir, es la media de la
variable aleatoria. También se llama valor medio, valor esperado o esperanza
matemática, y se representa por la letra griega μ. μ
Distribución normal
En estadística y probabilidad se llama distribución normal, distribución de
Gauss, distribución gaussiana, distribución de Laplace-Gauss o normalidad estadística a
una de las distribuciones de probabilidad de variable continua que con más frecuencia
aparece en estadística y en la teoría de probabilidades.1
La gráfica de su función de densidad tiene una forma acampanada y es simétrica respecto
de un determinado parámetro estadístico. Esta curva se conoce como campana de
Gauss y es el gráfico de una función gaussiana.2
La importancia de esta distribución radica en que permite modelar numerosos fenómenos
naturales, sociales y psicológicos.3Mientras que los mecanismos que subyacen a gran
parte de este tipo de fenómenos son desconocidos, por la enorme cantidad de variables
incontrolables que en ellos intervienen, el uso del modelo normal puede justificarse
asumiendo que cada observación se obtiene como la suma de unas pocas causas
independientes.
De hecho, la estadística descriptiva solo permite describir un fenómeno, sin explicación
alguna. Para la explicación causal es preciso el diseño experimental, de ahí que al uso de
la estadística en psicología y sociología sea conocido como método correlacional.
distribución binomial
La distribución binomial es una distribución de probabilidad discreta que nos dice el
porcentaje en que es probable obtener un resultado entre dos posibles al realizar un
número n de pruebas. La probabilidad de cada posibilidad no puede ser más grande que
1 y no puede ser negativa.
Una distribución binomial es una distribución de probabilidad discreta que describe el
número de éxitos al realizar n experimentos independientes entre sí, acerca de una
variable aleatoria. Existen una gran diversidad de experimentos o sucesos que pueden
ser caracterizados bajo esta distribución de probabilidad.
La distribución de Poisson
La distribución de Poisson es una distribución de probabilidad discreta que se aplica a las
ocurrencias de algún suceso durante un intervalo determinado. Nuestra variable
aleatoria x representará el número de ocurrencias de un suceso en un intervalo
determinado, el cual podrá ser tiempo, distancia, área, volumen o alguna otra unidad
similar o derivada de éstas.
La distribución de Poisson se usa en ocasiones para aproximar la distribución
binomial. Existe un consenso en poder realizar esta aproximación cuando se
satisfagan las siguientes condiciones:
1.
2.
La fórmula para calcular las probabilidades que provienen de un proceso de Poisson es:
P ( x ) = μ x e – μ x !
2. Describa el siguiente problema e investigación, de acuerdo con los componentes
del diagrama 1. Esto es, a partir de la lectura de la investigación “Identificación de
características de tolerancia y resistencia en variedades de papa comercial frente
a la herbívora: diseño de experimentos y herramientas de análisis paramétrico y
no paramétrico de datos”, identifique: la situación de base (realidad,
observaciones), problema científico, modelo estadístico, diseño experimental
usado, datos obtenidos (principales), análisis de datos realizado y conclusiones..
A nivel mundial está creciendo la preocupación por el riesgo de la escasez de alimentos y
la constante demanda de los mismos, lo cual ha llevado a centrar los esfuerzos
investigativos en la búsqueda del incremento de la productividad y la reducción de plagas
en los cultivos; sin embargo la presencia de artrópodos plaga sigue reduciendo en un
promedio del 15 % la producción en los sistemas agrícolas a nivel mundial (Pimentel,
1991).
A pesar de los efectos negativos de la herbívora, recientes investigaciones sugieren que
la comprensión de los mecanismos por los cuales las plantas enfrentan este tipo de
ataques puede proporcionar nuevas herramientas para el desarrollo de programas de
mejoramiento genético y aumento de la productividad por unidad de superficie.
Frente a los resultados obtenidos para el experimento definido como “Tolerancia” y de
acuerdo a los resultados del análisis de las variables “número y peso de los tubérculos
sanos”, es posible concluir que existe un efecto de los tratamientos de herbívora inducida
implementados así como de las variedades de papa contempladas en el experimento. Al
analizar los datos correspondientes a la diferencia entre el número de tubérculos
obtenidos entre los tratamientos de inducción y control, es posible observar que existe un
aumento en el número de tubérculos obtenidos.
A partir de la implementación del modelo para conteos inflados con ceros,
correspondiente al análisis del experimento denominado “resistencia”, es posible concluir
que se evidencia un efecto del tratamiento de inducción local vs. Tratamiento control.
Es por eso que se puede concluir según los resultados que se obtuvieron en el
experimento denominado tolerancia y a los resultados del análisis de las variables
“número y peso de los tubérculos sanos”, es posible concluir que existe un efecto de los
tratamientos de herbívora inducida implementados así como de las variedades de papa
contempladas en el experimento
3. Ejercicios - Diseño de muestreo y contraste de hipótesis
a. considerar la variable rendimiento de soya, cuya distribución es normal con media
μ y desviación estándar σ. Para estimar el rendimiento promedio del maíz bajo el
efecto de un herbicida, se toma una muestra de tamaño 40 y se obtiene un
promedio de 60 qq/ha. Se sabe por experiencias anteriores que la varianza
poblacional σ 2 es 25 (qq/ha)2
Construir los intervalos de confianza del 95% y 99% para μ
Intervalo de confianza 95%
α=195%100%=0.50 α =195%100%=0.50
α=0.502=0.025 α =0.502=0.025
95%=60±1.9599×540−−√95%=60±1.9599×540
<μ>95%=<52.2525; 67.7474>< μ >95%=<52.2525; 67.7474>
Intervalo de confianza 99%
α=199%100%=0.01 α =199%100%=0.01
α=0.012=0.005 α =0.012=0.005
<μ>95%=60±2.5758×540−−√< μ >95%=60±2.5758×540
<μ>95%=<49.8181; 70.1818>< μ >95%=<49.8181; 70.1818>
¿Cómo cambia el intervalo anterior (95%) si el tamaño de la muestra fuese
100 y se obtiene el mismo promedio?
α=195%100%=0.50 α =195%100%=0.50
α=0.502=0.025 α =0.502=0.025
<μ>95%=60±1.96×2.645740−−√< μ >95%=60±1.96×2.645740
<μ>95%=<62.1692; 57.8307>< μ >95%=<62.1692; 57.8307>
b. Se quiere estudiar el efecto de distintas dosis de un medicamento para combatir a
los parásitos de abejas criadas en apicultura. Para ello, se tomaron 60 abejas al
azar, y se dividieron en 5 grupos de 12 individuos cada uno. El primer grupo no fue
medicado, pero a los restantes se les suministro el medicamento en dosis
crecientes. Tras una semana de tratamiento, se contabilizaron los parásitos
existentes en cada individuo, obteniendo los resultados siguientes:
Planteamiento del contraste
En este caso se quiere contrastar si el medicamento es efectivo y en que dosis respecto
al control observado. Por tanto, y dado que se dispone de datos para diferentes
tratamientos (en este caso 2 o más), es factible utilizar un análisis de la varianza de un
factor, contraste para la media de una variable continua normal en dos o más grupos,
donde el factor es la dosis, que contiene cinco clases o grupos o niveles, y la variable
numérica a analizar es el número de parásitos contabilizados en cada uno de las 60
abejas estudiadas, agrupados en los diferentes tratamientos y el control.
Requisitos del contraste y datos necesarios para su desarrollo
a) Datos necesarios
El resumen de os datos observados se presentan en la siguiente tabla, agrupados
para cada una de las clases para poder observar las posibles diferencias entre las
medias y también analizar las varianzas:
k=5
n = n1 + n1 + n2 + n3 + n4 + n5 = 60
X= 39.133
Requisitos
Independencia de los valores observados, hipótesis necesaria que se comprueba
mediante la inspección del diseño experimental. Si las unidades experimentales (en
nuestro caso las abejas ) han sido seleccionadas al azar se asume como verdadero (por
lo que se comenta en el enunciado).
Normalidad de los datos en cada una de las clases, se verifica mediante un contraste de
bondad de ajuste a una variable normal. En este caso se debería utilizar un K − S de
Kolmogorov-Smirnov a partir de la hipótesis H0 = Los datos del nivel i se ajustan a la
distribución normal para cada clase al no aparecer implícito en el enunciado (en caso de
resolución para el examen se asume por simplicidad en la resolución y por la escasez de
tiempo).
Homogeneidad de varianzas, debemos analizar si las varianzas son homogéneas
(parecidas) y esto lo hacemos a partir de un contraste de homogeneidad de varianzas
como la M de Bartlett para datos no balanceados o la G de Cochran para datos
balanceados.
SE RECHAZA Ho
NO SE RECHAZA Ho
SE RECHAZA Ho
SE RECHAZA Ho
CONCLUSION
Se rechaza H0 y por lo tanto al menos alguna de las clases son diferentes entre si
(existen diferencias en los resultados para las dosis aplicadas). Es decir, existe al menos
una dosis que tiene resultados diferentes a las demás. Como lo interesante una vez
comprobado H0 es averiguar cuál o cuáles son diferentes y en qué sentido para detectar
si alguna de las dosis es más efectiva se debe desarrollar un contraste a posteriori con
objeto de identificar las diferencias ya detectas (pero no identificadas) en el análisis de
ANOV
Contraste a posteriori
Para identificar cuáles son las medias que pueden ser diferentes entre si se ha optado por
desarrollar el contraste de comparaciones múltiples a posteriori de Bonferroni (no existen
demasiadas clases y por tanto es factible su uso), basado en comparaciones por pares de
todos con todos (los niveles) a partir de la t de Student para dos poblaciones con un
parámetro penalizador (dado que se realizan comparaciones simultaneas).
Ho: µi = µj → Ho: µi − µj = 0 → β
H1: µi 6= µy → H1: µi − µj 6= 0 → α/K′
tteo = tn−k,α/K′ = t60−5,0.05/10 = t55,0.005 = 2.6682
Al ser diez contrastes mediante la t de Student, la representación gráfica se basaría en el
gráfico de la t de Student para dos poblaciones normales de temas anteriores, uno para
cada uno de los pares de comparaciones. Analizando los resultados de los contrastes,
podemos identificar dos subconjuntos homogéneos:
125mg = 100mg < 50mg = 25mg = control
Conclusión biológica El número de parásitos observados usando dosis de 25 y 50 mg no
es significativamente distinto a los obtenidos en los peces control, por lo que estas dosis
no son efectivas. Por el contrario, a pesar de que aplicando dosis de 125 y 100 mg el
número de parásitos es significativamente menor a la observada en los controles,
aplicando una dosis de 125 mg no se observa una diferencia significativa en el número de
parásitos a la obtenida aplicando una dosis de 100 mg. El análisis de los resultados nos
permite concluir que el medicamento si es efectivo contra los parásitos, pero logra reducir
el número de parásitos de forma significativa a partir de una dosis de 100 mg.
CONCLUSIONES
Debemos tener en cuenta que La estadística nos permite realizar estudios
reales, con poblaciones exactas; lo cual nos ayuda a mejorar nuestros
proyectos. · Dentro de una planificación ambiental los datos estadísticos
juegan un papel muy importante, pues nos van a determinar en primera
medida gastos y nos garantizara la eficiencia.
Con un uso adecuado de la estadística podemos cuantificar la realidad y
disponer de los elementos que nos permitan su análisis.
REFERENCIAS
Bivand, R., Altman, M., Anselin, L., Assunção, R., Berke, O., Andrew Bernat,
Blanchet, G., Blankmeyer, E., Carvalho, M., Christensen, B., Chun, Y.,
Dormann, C., Dray, S., Halbersma, R., Krainski, E., Legendre, P., Lewin-Koh, N.,
Hongfei Li, J.M., Millo, G., Mueller, W., Ono, H., Peres-Neto, P., Piras, G., Reder,
M., Tiefelsdorf, M. & Yu, D. (2011) spdep: Spatial dependence: weighting
schemes, statistics and models. R package version 0.5-31
Gabriel, K. R. (1971). The biplot graphic display of matrices with application
to principal components analysis. Biometrics, 58(3), 453-467
Tablas de frecuencias - EcuRed. (2017). Ecured.cu. Recuperado de:
https://www.ecured.cu/Tablas_de_frecuencias
Tablas de frecuencias para datos cualitativos. (2017). prezi.com. Recuperado
dehttps://prezi.com/2ihfean3bfwp/tablas-de-frecuencias-para-datos-cualitativos