Guía de estudio.
Estadística inferencial
Profesora Rita García Rentería
Bloque V. Estadística inferencial 3
5.1. Distribuciones muestrales 3
5.1.1. Distribución de la media muestral 3
5.1.2. Distribución T 4
5.1.3. Distribución Ji-cuadrada (chi-cuadrada) 5
5.2. Estadístico, estimador y estimación de un parámetro 5
5.3. Estimador insesgado, eficiente y consistente 6
5.4. Cálculo de intervalos de confianza para la media, proporción y varianza (muestras
grandes y pequeñas) 7
5.4.1. Cálculo de intervalos para la media, muestras grandes 7
5.4.2. Cálculo de intervalos para la media, muestras chicas 8
5.4.3. Cálculo de intervalos para la proporción de una población 9
5.4.4. Cálculo de intervalos para la varianza 10
5.5. Tamaño de muestra 10
1
5.6. Definición de pruebas de hipótesis 11
5.6.1. Procedimiento general para las pruebas de hipótesis. 13
5.7. Pruebas de hipótesis para la media, proporción y varianza 15
5.8. Pruebas de hipótesis para diferencia de medias y proporciones 17
5.9. Ajuste de curvas por el método de mínimos cuadrados (lineal) 3
5.10. Prueba de ji- cuadrada de independencia 5
5.11. Prueba de homogeneidad 7
5.12. Técnicas de pronosticación 7
Referencias 9
2
Bloque V. Estadística inferencial
5.1. Distribuciones muestrales
La estadística inferencial permite averiguar características de una población, a partir de la
información de una muestra de dicha población, es decir, la muestra hace inferencia a la
población. Las herramientas estadísticas utilizadas en inferencia requieren que la distribución
de los datos, que se obtienen de la muestra, tenga determinadas características, todas
dependen del objetivo de la inferencia, pero generalmente se recomienda:
a) Plantear claramente el problema.
b) Delimitar la población en estudio y las características a analizar
c) Definir si el objetivo reside en estimar el valor de un parámetro desconocido de la
población (µ, σ, p).
d) Hacer un correcto diseño para la obtención de los datos muestrales, pues solo es
posible hacer inferencia a la población cuando la muestra es obtenida por métodos
aleatorios.
Siendo N el número de datos en la población, se extrae una muestra aleatoria de n datos,
representados por x1, x2, …, xn. El muestreo debe realizarse con reemplazo y cada elemento
de la población tiene la misma probabilidad de ser elegido, por lo cual todos los datos tienen
la misma función de probabilidad.
Para justificar la inferencia de la muestra a la población, debe considerarse que existe un
riesgo en la certeza de la información pronosticada, por tanto, es necesario establecer una
medida para la determinación del riesgo o error (Rodríguez Ojeda, 2007).
Existen dos tipos:
a) Error muestral: Es improbable que la media u otras mediciones calculadas a partir de
la muestra sean exactamente iguales a la de la población. Por lo tanto, este error es
̅ − 𝝁. Dentro
la diferencia entre el estadístico para la muestra y el de la población: e = 𝒙
de este error se encuentra el sesgo muestral, que consiste en la tendencia a favorecer
la selección de ciertos elementos en lugar de otros (Solano, 2017).
b) Error sistemático: Los errores que no están relacionados con el procedimiento de
muestreo y que bien podrían aparecer en los datos completos de la población, se
conocen como no muestrales o sistemáticos.
Cuando efectuamos un muestreo podemos calcular un estadístico que variará de una a otra
muestra. Así obtenemos una distribución del estadístico, denominada distribución muestral.
Las dos medidas fundamentales de esta distribución son la media y la desviación estándar.
5.1.1. Distribución de la media muestral
Si tenemos una población N, con distribución normal, con una media μ y varianza σ2 y
tomamos varias muestras de tamaño n, la distribución de medias de las muestras sigue
3
también una distribución normal. Para el cálculo de la media de cada muestra se utiliza la
siguiente ecuación:
Donde: 𝑋̅ = Media muestral.
X es la variable aleatoria.
De esta manera, la media de las medias y su varianza, se representan de la siguiente manera:
Estas expresiones nos dicen que la media de las medias (la media muestral, 𝜇𝑋̅ ) sería el valor
que tomaría la variable aleatoria si se tomara una cantidad grande de muestras y se calculara
su promedio, este valor se acercaría más al valor de μ (García, 2017).
Si la población no sigue una distribución normal, pero n es mayor a 30, es posible aplicar el
teorema de límite central, de esta manera, la distribución muestral de medias se aproxima
también a la normal. Este teorema es uno de los más importantes en la estadística inferencial
y se vale de la siguiente ecuación:
Para el cálculo de la probabilidad, se utilizan las tablas Z cuyo funcionamiento revisamos en
el bloque 4.
5.1.2. Distribución T
Hay ocasiones en que no se conoce la varianza de la población o n < 30, por lo que no se
puede usar la variable Z. En su lugar se usa el estadístico T, llamado también T de Student:
Donde: 𝑋̅= media muestral
S = desviación estándar muestral
μ = media poblacional
La forma del gráfico de la distribución depende de un valor denominado “grados de libertad”,
se calcula como: v = n – 1. La siguiente figura muestra un ejemplo de gráfico para la
distribución T.
Fig. 1. Distribución T.
4
Con la información de T y v, es posible calcular la probabilidad de T, mediante el uso de tablas
T de Student. A continuación, se ejemplifica su uso (Rodríguez Ojeda, 2007):
Calcularemos la probabilidad que una muestra aleatoria de n=6 y S= 0.5 tenga una media
mayor o igual a 6.5.
Como no conocemos la varianza poblacional, utilizamos el estadístico T:
̅−𝝁
𝑿 𝟔. 𝟓 − 𝟓. 𝟓
𝑻= = = 𝟒. 𝟗
𝑺 𝟎. 𝟓
√𝒏 √𝟔
v=n–1=6–1=5
Ahora buscamos en la tabla, la coordenada que corresponde al valor de 4.9, en la fila de v =
5, arrojando el valor de α=0.0025, por lo tanto:
P (𝑋̅ ≥ 6.5) = P (T ≥ 4.9) = 0.0025
Fig. 2. Ejemplo de uso de tablas T
5.1.3. Distribución Ji-cuadrada (chi-cuadrada)
Esta distribución es utilizada cuando no se conoce la media de las muestras o no es de interés
para el estudio. Toma como primicia que, si X es una variable aleatoria con distribución
normal, entonces X2 es una variable aleatoria con distribución ji-cuadrada. Esta distribución
también hace uso de los grados de libertad de la muestra (v = n – 1):
De igual manera que las anteriores, esta distribución hace uso de tablas para el cálculo de
la probabilidad, su uso es similar al ejemplificado arriba.
5.2. Estadístico, estimador y estimación de un parámetro
Cuando hablamos de un parámetro, nos referimos a una medida estadística de la población,
por ejemplo, su media (μ). Un estadístico es cualquier función medible de la muestra de una
variable aleatoria. Un estimador es la inferencia de un estadístico hacia la población. Permite
asignar valores poblaciones a partir de estadísticos muestrales.
Un estimador es un estadístico que, bajo características bien establecidas, puede estimar el
parámetro poblacional buscado. Por ejemplo: Queremos conocer las calificaciones de los
alumnos de un colegio. Como no podemos analizar las 1000 calificaciones, tomaremos una
5
muestra aleatoria, de la cual determinaremos algún estadístico, como la media. Podríamos
establecer cualquier función que represente a la muestra (como la suma de todas las
calificaciones, o la resta de todas), pero solo aquella con las características que describan a
la muestra (estadístico) pueden ser aplicadas: media y varianza.
5.3. Estimador insesgado, eficiente y consistente
Para que el estimador cumpla su función, debe cumplir con las siguientes características, que
permitirán que las conclusiones del estudio sean fiables:
1. Suficiente: El estimador trabaja con todos los datos de la muestra. Por ejemplo, la
media no escoge solo el 50% de los datos. Tiene en cuenta el 100% de los datos para
calcular el parámetro muestral.
2. Insesgado: la media de un estimador debe coincidir con el parámetro a estimar. Se
puede apreciar un ejemplo en la siguiente imagen (Rodríguez Ojeda, 2007):
Fig. 3. Representación de estimador insesgado. Θ1 es el estimador
insesgado del parámetro, pero Θ2 no lo es.
3. Consistente: El concepto de consistencia va de la mano con el de tamaño de la
muestra y el concepto de límite. Establece que, en caso de que la muestra sea muy
grande, el estimador hace referencia a la población casi sin error.
4. Eficiente: Un estimador es eficiente cuando la varianza es mínima:
Fig. 4. Representación de estimador eficiente. Θ1 es el estimador con
menor varianza, por lo que es el estimador eficiente, Θ2 no lo es.
5. Robusto: Se dice que un estimador es robusto en caso de que, a pesar de que la
hipótesis de partida sea incorrecta, los resultados se asemejan mucho a los
poblacionales.
6
5.4. Cálculo de intervalos de confianza para la media,
proporción y varianza (muestras grandes y pequeñas)
A una estimación de un parámetro poblacional que se da mediante dos números, entre los
cuales se considera que debe estar el parámetro en cuestión, se le llama estimación por
intervalo (Spiegel & Stephens, 2009). Lo razonable, en la práctica, es adjuntar, junto a la
estimación puntual del parámetro, un intervalo, es decir, mide el margen de error de la
estimación. El error para muestras con n ≥ 30, se calcula mediante la ecuación:
Donde: E= Error de la estimación.
σ = Desviación estándar de la población (si se desconoce, puede usarse la muestral
cuando n ≥ 30.
n = número de elementos de la muestra
Zα = Valor de la distribución normal Z que expresa el área que en la imagen se muestra
en amarillo:
Fig. 5. Representación de la distribución
normal estándar.
Esta ecuación indica que si se estima la media poblacional μ mediante 𝑋̅, se puede afirmar
con una confianza de 1 – α que el máximo error no excederá ese valor.
Un intervalo de confianza permite calcular dos valores alrededor de una media muestral (uno
superior y otro inferior). Estos valores van a acotar un rango dentro del cual, con una
determinada probabilidad (1 – α), se localiza el parámetro poblacional.
5.4.1. Cálculo de intervalos para la media, muestras grandes
Para calcular los intervalos de confianza de una media para muestras con n ≥ 30 se utiliza la
siguiente notación:
Donde: σ = Desviación estándar de la población (si se desconoce, puede usarse la muestral
cuando n ≥ 30.
n = número de elementos de la muestra
Zα = Valor de la distribución normal Z
La notación de los intervalos representa el área bajo la curva en la que se estima que se
encuentra el valor poblacional. En la figura 6 aparece en color azul.
7
Fig. 6. Representación gráfica de
un intervalo de confianza
Ahora, usaremos la fórmula en un ejercicio: Se desea estimar la media del tiempo que un
corredor emplea para completar una maratón. Para ello se han cronometrado 10 maratones
y se ha obtenido una media de 4 horas con una desviación estándar de 33 minutos (0,55
horas). Se desea obtener un intervalo al 95% de confianza.
n = 10
σ = 0.55
𝑋̅ = 0.55
α = 1 – 0.95 = 0.05/2= 0.025
Por tablas, se identifica que, para el nivel de confianza de 95 %, Zα/2= 1.96.
De tal manera que simplemente sustituimos en la fórmula:
Ejercicios sugeridos:
5.4.2. Cálculo de intervalos para la media, muestras chicas
En el caso de muestras pequeñas, de la que no se conoce la varianza poblacional, se utiliza
el estadístico T, en lugar de Z.
8
De tal manera que, el intervalo de confianza para muestras pequeñas y varianza
poblacional desconocida es:
Ejemplo: De una población con distribución normal se tomó una muestra aleatoria n = 4. Los
valores de X son: 9.4, 12.2, 10.7, 11.6. Determine los intervalos para la media poblacional
con 90 % de confianza:
Solución: Calculamos la media y la desviación estándar muestrales:
Posteriormente se obtiene el valor de tα/2, mediante tablas de T, para los grados de libertad
v = n – 1.
Aplicamos la notación de los intervalos de confianza:
5.4.3. Cálculo de intervalos para la proporción de una población
Se puede hacer un intervalo típico para una proporción poblacional (p) dada una proporción
muestral 𝑝̂ con la siguiente fórmula:
Es muy sencilla su aplicación, por ejemplo: De una muestra de 100 pruebas aleatorias de
alcoholemia, 10 conductores dan positivo. Hallar un intervalo de confianza para la
proporción de conductores alcoholizados en la población.
Identificamos la proporción de la muestra: 𝑝̂ = 10/100 = 0.1
n = 100
Y sustituimos:
9
5.4.4. Cálculo de intervalos para la varianza
Para estimar los intervalos de confianza de la varianza se aplica la fórmula:
Donde 𝑋𝑎2 es el estadístico chi-cuadrado, para los grados de libertad v = n-1
2
Ejemplo: Un fabricante de detergente líquido está interesado en la uniformidad de la máquina
utilizada para llenar las botellas. De manera específica, es deseable que la desviación
estándar del proceso de llenado sea menor que 0.15 onzas de líquido. Al tomar una muestra
aleatoria de 20 botellas, se obtiene una varianza muestral de 0.0153. Calcule el intervalo de
confianza de nivel 0.95 para la varianza del volumen de llenado de la población.
También puede denotarse como: 0.00884 ≤ σ2 ≤ 0.0326
5.5. Tamaño de muestra
En la selección del tamaño de muestra, es también un tipo de estimador, toma en cuenta el
Error E (Sección 5.4).
Nuevamente Zα/2 se obtiene de tablas Z.
Ejemplo: Se conoce que la varianza de una población es 20. Determine cual debe ser el
tamaño de muestra para que el error máximo en la estimación de la media poblacional no
exceda de 1, con una probabilidad de 99 %.
Solución:
10
5.6. Definición de pruebas de hipótesis
Otra manera de hacer inferencia es haciendo una afirmación acerca del valor que el
parámetro de la población bajo estudio puede tomar. Esta afirmación puede estar basada en
alguna creencia o experiencia pasada que será contrastada con la evidencia que nosotros
obtengamos a través de la información contenida en la muestra. Esta es una prueba de
hipótesis.
H0, es la hipótesis nula, es la afirmación propuesta para el parámetro de interés.
Ha, es la hipótesis alterna, usualmente opuesta a Ho.
Una vez establecida la hipótesis, se aplican las pruebas para determinar una decisión: se
acepta o se rechaza la hipótesis nula. En este proceso de decisión, puede ocurrir 4
escenarios, que se aprecian en la figura 7 (Rodríguez Ojeda, 2007).
Fig. 7. Escenarios del resultado de la
prueba de hipótesis
El error tipo I (α): Es la probabilidad de Rechazar H0 cuando H0 es verdadera.
El error tipo II (β): Es la probabilidad de Aceptar H0 cuando no es verdadera.
El valor α se conoce también como significancia de la prueba, es un parámetro que útil para
el desarrollo de la prueba de hipótesis. Su valor más usado es 0.05 (5 %).
Dependiendo del objetivo del estudio, se pueden formular hipótesis de una cola o de dos
colas, siendo Θ cualquier parámetro de interés de la prueba y Θ0, algún valor supuesto para
el parámetro de interés:
Pruebas de una cola: La hipótesis nula establece que el parámetro de interés de la prueba
es igual a un valor dado. Como el objetivo del estudio define un valor puntual (por ejemplo: el
área de calidad de una empresa fabricante de teclados establece que la media de los errores
encontrados debe ser 3), la hipótesis alternativa puede tomar dos formas, que la media de
errores encontrados sea menor a 3 o mayor a 3, de tal manera que las respuestas posibles
pueden encontrarse a la izquierda o a la derecha. Se representa matemáticamente como:
H0: Θ = Θ0
a) Ha: Θ < Θ0
b) Ha: Θ > Θ0
Gráficamente, la prueba de una cola se aprecia como en las imágenes 8 y 9. Donde la línea
roja representa el parámetro que divide a la zona de aceptación de la zona de rechazo, que
se puede encontrar hacia la izquierda o la derecha de la distribución.
11
Fig. 8. Prueba de una cola, donde la zona de Fig. 9. Prueba de una cola, donde la zona de
rechazo se encuentra en la cola izquierda. rechazo se encuentra en la cola derecha.
Entonces, para el ejemplo del fabricante de teclados, la hipótesis nula sería que la media de
los defectos encontrados sea exactamente 3:
H0: μ = 3
Por lo que sus hipótesis alternativas podrían tomar dos formas:
a) Ha: μ < 3
b) Ha: μ > 3
Si el contexto del problema lo indica, es posible decidir entre la hipótesis alternativa izquierda
o derecha, por ejemplo: el área de calidad establece que encontrar más de 3 defectos es
motivo de parar la línea para revisar los equipos de ensamble. Por tal motivo establecemos
que H0: μ = 3, y Ha: μ > 3. Nótese que, en esta prueba de una cola, debe entenderse que la
hipótesis nula solamente puede tomar la forma a (ser menor que el parámetro) o b (ser mayor
que el parámetro), no puede tomar ambas formas al mismo tiempo. Es decir, en el
contexto del problema del fabricante del teclado, sabemos que, si se encuentran la media de
defectos mayor a 3, se rechaza la hipótesis nula, se acepta la alternativa b (Ha: μ > 3) y se
concluye detener la línea de producción; si la media es igual a 3 no se rechaza la hipótesis
nula y no se para la línea; y si se encuentran menos de 3 defectos, sí se rechaza la hipótesis
nula, pero la hipótesis alternativa que se acepta es la forma a (Ha: μ < 3) cuya decisión es
otra a la hipótesis a, esta decisión sería no detener la línea de producción.
Prueba de dos colas: En esta prueba la hipótesis nula también designa un valor puntual, sin
embargo, la hipótesis alternativa puede tomar cualquier valor por encima o por debajo del
parámetro estimado. Se representa matemáticamente como:
H0: Θ = Θ0
Ha: Θ0 < Θ < Θ0
o
Ha: Θ < Θ0, Θ > Θ0
Gráficamente se aprecia en las figuras 10 y 11:
Fig. 11. Prueba de hipótesis de dos
Fig. 10. Prueba de hipótesis de dos colas. La zona sombreada es el
colas, ejemplo para el parámetro μ. área de rechazo.
12
La importancia de establecer si el problema se trata de una prueba de hipótesis de una cola
o de dos colas, es que de esta depende el manejo del factor de significancia α, pues para
pruebas de una cola, el parámetro estadístico Z, T o X2 (distribución normal, distribución T
y distribución chi-cuadrada), se encuentra de tablas con el valor de α = 0.05, para confianza
de 95 %. Todo valor de Z calculada que caiga a la derecha (en cola derecha, como en el
ejemplo de la imagen 12) indica que debe rechazarse la hipótesis nula; mientras que, en una
prueba de dos colas, para mismo nivel de confianza (95 %) se maneja el valor de α/2 = 0.025,
como lo muestra el ejemplo de la imagen 13.
Fig. 13. Ejemplo del de prueba de Fig. 12. Ejemplo del de prueba de
una cola para 95 % de confianza. dos colas para 95 % de confianza.
5.6.1. Procedimiento general para las pruebas de hipótesis.
Todas las pruebas de hipótesis están fundamentadas en las distribuciones muestrales de la
sección 5.1. Depende del objetivo del estudio y de la información con la que se cuenta, así,
hay pruebas de hipótesis para la media, la varianza y la proporción de la población. Para
todas las pruebas que mencionaremos, el procedimiento general es el mismo (Walpole,
Myers, Myers, & Ye, 2012), lo desarrollaremos con un ejemplo:
El gerente de una fábrica de tuberías desea determinar si el diámetro promedio de los tubos
es diferente de 5 cm.
Paso 1. Especificar las hipótesis:
H0: la media de la población de todos los tubos es igual a 5 cm
H0: μ = 5
Ha: Existen 3 opciones, dos unilaterales (una cola) y una bilateral (dos colas), como interesa
que el diámetro promedio no sea ni mayor ni menor que 5 cm, la prueba es bilateral.
Ha: μ < 5, μ > 5
Paso 2. Elegir un nivel de significancia (α). El más utilizado es 0.05. Utilizar ese si no lo
especifica el problema. También son comunes: 0.01, 0.02 y 0.1.
Paso 3. Determinar la potencia y tamaño de muestra. La potencia de una prueba de
hipótesis es la probabilidad de que la prueba rechace correctamente la hipótesis nula, está
relacionado con el número de elementos en la muestra, normalmente se utiliza potencia del
0.8 (80 %).
Paso 4. Recolectar los datos mediante muestreo aleatorio.
Paso 5. Realizar la prueba para obtener un valor p. La prueba elegida puede ser Z, T o X2.
Con estas pruebas se obtiene el p-valor o probabilidad de cola, a partir de las tablas,
13
identificando el parámetro estadístico Z, T o X2 calculado, con su respectiva significancia (α).
En el ejemplo, supondremos que se obtiene p = 0.0004.
Paso 6. Decidir si rechazar o no rechazar la hipótesis nula. El valor –p de una prueba es
el valor del área de la cola de la distribución que representa la zona de aceptación de la
hipótesis nula. Si este valor es menor a la significancia, entonces los datos no apoyan la
hipótesis nula y debe rechazarse. Como el valor p del ejemplo es menor que 0.05, el gerente
rechaza la hipótesis nula y concluye que el diámetro medio de todos los tubos no es igual a
5 cm.
Otra forma de decidir si se rechaza H0 consiste en la comparación del estadístico Z, T o X2
calculados con los de tablas para o llamados críticos. Si el valor no se encuentra entre el
rango –Ztablas < Zcalculada < + Ztablas, H0 se rechaza. Por ejemplo, si la prueba es de dos
colas, α se fija a un nivel de significancia de 0.05, entonces la región crítica es z > 1.96 o z <
−1.96, cualquier valor calculado de Z que salga del rango [-1.96, 1.96] rechaza H0.
Analizaremos otro ejemplo que muestra un ejemplo del procedimiento general de prueba de
hipótesis: Una muestra de 100 paquetes tiene un peso promedio de 71.8 g, con desviación
estándar de 8.9 g. Pruebe que el peso de todos los paquetes es mayor a 70.
Paso 1: Establecemos la hipótesis nula y alternativa:
H0: la media del peso de los paquetes es igual a 70 cm. Como consejo: generalmente las
hipótesis nulas hacen referencia a que el parámetro calculado no se sale de la zona de
aceptación, por lo que se tratará de acercar al valor de la media, mientras que las alternativas
corresponden a todo lo que se aleja de la media más allá de la zona de aceptación, por eso
las hipótesis nulas establecen que Θ = Θ0.
H0: μ = 70
Ha: Se busca probar que el peso de los paquetes es mayor que 70, se trata de una prueba de
una cola:
Ha: μ > 70
Paso 2: Significancia: como no la indica, se utiliza 0.05.
Paso 3: Potencia de la prueba y tamaño de muestra. No es necesario definirlos, pues este
paso solo es ejecutado cuando eres la persona que recolecta los datos. La información del
problema nos indica que el tamaño de muestra seleccionado fue n= 100
Paso 4: Recolectar datos. Los datos fueron recolectados y se proporciona la información que
arrojó la muestra:
n= 100
𝑋̅= peso promedio de la muestra 71.8
σ= desviación estándar 8.9
μ0= media poblacional estimada por la hipótesis nula 70
Paso 5: Como se conocen la media poblacional, la media muestral, la desviación estándar y
el tamaño de la muestra, se puede utilizar el estadístico normal Z:
14
Fig. 14. Prueba Z para el ejemplo de prueba unilateral
Obtenemos el valor p:
Paso 6: Decisión: Como el valor p (0.02) es menor que α (0.05) se rechaza la hipótesis nula
por lo que la estimación de la media poblacional no es igual a 70, se concluye que todos los
paquetes pesan más que 70 g.
5.7. Pruebas de hipótesis para la media, proporción y
varianza
En esta sección profundizaremos sobre el uso de las pruebas Z, T o X2, en función de sus
aplicaciones (para media, proporción o varianza) y de la información con la que se cuenta
para la resolución del problema. La siguiente tabla resume sus aplicaciones:
Parámetro Estadístico de
Condicional Donde:
estadístico prueba
Varianza poblacional 𝑋̅: media muestral
conocida μ: media poblacional
Media μ σ: desviación estándar
Varianza poblacional poblacional
desconocida n= elementos en la
muestra
S: desviación estándar
Varianza μ2 Grados de libertad v = n-1 muestral
𝑝̂ : proporción de la
población
Proporción de éxitos en la p: proporción de la
Proporción p población muestra
q = 1 - 𝑝̂
Como se mencionó, el procedimiento con el que aplicaremos las pruebas es el mismo, lo
único que cambia entre cada prueba es el estadístico que se calcula, cuya selección está
condicionada al parámetro estadístico que se busca estimar y qué información se conoce de
la población y/o la muestra. Analizaremos un ejemplo de aplicación de cada prueba
estadística:
1. Se desea conocer si la memoria RAM de un conjunto de computadoras con σ2 = 12.
Se realiza una prueba de rendimiento a 20 de las computadoras, obteniendo una
𝑋=̅ 8.5. La memoria RAM poblacional debe ser en promedio de 7 GB para
considerarse adecuada, determine si se cumple con esta condición.
15
Solución:
Paso 1. Especificar las hipótesis:
H0: la media de la población de memoria RAM es igual a 7 GB.
H0: μ = 7
Ha: μ diferente de 7
H0: μ < 7, μ > 7, dos colas
Paso 2. Elegir un nivel de significancia (también denominado alfa o α). α = 0.05, α/2=
0.025.
Paso 3. Tamaño de muestra n= 20
Paso 4. Datos
σ2= 12
𝑋= ̅ 8.5
Paso 5. Calcular es estadístico prueba, como se conoce la varianza poblacional y se
está estimando la media, se utiliza Z.
Paso 6. Identificamos Z de tablas para Zα/2 = 0.025 (Dos colas) = -1.96 y 1.96. Como
el estadístico Z calculado es mayor que el rango para Z, entonces H0 se rechaza y se
concluye que la memoria RAM de las computadoras es significativamente distinta de
7 GB.
2. Asus determina el consumo en kilowatts-hora que gasta anualmente su computadora
dirigida a “gamers”. Se afirma que una computadora gasta un promedio de 46 kW/h.
Si una muestra aleatoria de 12 computadoras, indica que gastan un promedio de 42
kW/h con una desviación estándar de 11.9 kW/h. Determine que las computadoras
gastan en promedio menos de 46 kW/h a un nivel de significancia de 0.05. Suponga
que la población sigue una distribución normal.
Solución:
H0: μ = 46
Ha: μ < 46 una cola, izquierda.
α = 0.05
Tcrítica para α = 0.05 = T < -1.796
Grados de libertad v= n-1 = 12 – 1 = 11
P (T< -1.16) ≈ 0.135
Como Tcalculada (-1.16) es mayor que Tcrítica (-1.796), es decir, se encuentra a su derecha
en la escala), y el valor p (0.135) es mayor que la significancia (0.05) entonces no se
rechaza H0 y se concluye que el gasto de las computadoras no es significativamente
menor que 46 kW/h.
16
3. En el mismo proceso de control de calidad de los teclados, donde toman una muestra
de 12 computadoras que gastan un promedio de 42 kW/h con una desviación estándar
de 11.9 kW/h, se conoce que la desviación estándar de la población σ= 13.1.
Determine si los datos en la muestran tienen la misma dispersión que la población.
Solución:
H0: σ2 = 171.61
Ha: σ2 < 171.61, σ2 > 171.61, dos colas
α = 0.05
Grados de libertad v= n-1 = 12 – 1 = 11
X2crítica para α/2 = 0.025 = -21.92 < X2crítica < 21.92
12 − 1 ∗ (11.9)2
=
13. 12 = 9.08
Como X calculada (9.08) se encuentra dentro del rango de X2crítica [-21.9, 21.9] se
2
concluye que no existen diferencias significativas entre la varianza estimada y la
varianza de la población, por lo que los datos tienen la misma dispersión.
4. Un vendedor del área de tecnología en una tienda departamental afirma que el 70%
de los compradores busca celulares Android. Una encuesta realizada a los
consumidores indica que 8 de los 15 encuestados buscan un celular Android. ¿Está
en lo correcto el vendedor? Utilice un nivel de significancia de 0.05.
Solución:
H0: 𝑝̂ = 0.7
Ha: 𝑝̂ < 0.7, 𝑝̂ > 0.7, dos colas
α = 0.05
Zα/2 = 0.025 (Dos colas) = -1.96 < Zα/2 < 1.96
Calculamos p y q
p = 8/15 = 0.53
q = 1 – 𝑝̂ = 1 – 0.7 = 0.3
8
− 0.7
= 15 = −1.61
(8/15) ∗ 0.3
15
Como Z calculada se encuentra dentro del rango para Z crítica, entonces H0 no es
rechazada, por lo que podemos concluir que el vendedor está en lo correcto al afirmar
que 70 % de los compradores buscan celulares Android.
5.8. Pruebas de hipótesis para diferencia de medias y
proporciones
Cuando el objetivo de estudio consiste en comparar dos conjuntos de datos, de dos
poblaciones distintas (o dos muestras), entonces se pueden utilizar pruebas de hipótesis para
comparar medias o proporciones y determinar si presentan diferencias significativas entre sus
parámetros estadísticos. Para ejecutar las pruebas, es necesario conocer la media o
17
proporción y la varianza de ambos conjuntos de datos. A continuación, analizaremos las
ecuaciones que permiten la comparación de medias mediante pruebas de hipótesis:
a) Comparación de medias si los dos grupos tienen la misma varianza:
b) Comparación de medias si los grupos tienen distinta varianza:
c) Comparación de proporciones
El procedimiento para los tres casos es el mismo que las demás pruebas de hipótesis. Lo
reforzaremos con un ejercicio: El voltaje medido en una fabricación de circuitos eléctricos
tiene una distribución normal con media 139 V y desviación estándar de 3 V. Otra fabricación
presenta lecturas de voltaje con distribución normal, media de 120 V y desviación estándar
de 2 V. De cada fabricación se tomó una muestra. De la primera fabricación se determinó el
voltaje de 18 circuitos, que presentaron una media de 141 V. De la segunda fabricación se
tomaron 20 piezas, con una media de 118 V. Indique si la fabricación de los circuitos tiene
consistencia, es decir, que no existen diferencias entre las mediciones de voltaje de los dos
circuitos.
Solución:
Paso 1. Especificar las hipótesis:
H0: la media de mediciones de voltaje de ambos grupos no presenta diferencias
estadísticas.
H0: μ1 = μ2
Ha: μ1 ≠ μ2, bilateral
Paso 2. Elegir un nivel de significancia (también denominado alfa o α). α = 0.05, α/2= 0.025.
Paso 3. Tamaño de muestras:
n1 = 18
n2 = 20
Paso 4. Datos
𝑋̅1=141
𝑋̅2 =118
18
μ1 = 139
μ2 = 120
σ1 = 3
σ2 = 2
2
Paso 5. Calcular es estadístico prueba
141 − 118 − 139 − 120
𝑍= = 4.78
32 22
(18 + 20)
Paso 6. Identificamos Z de tablas para Zα/2 = 0.025 (Dos colas) = -1.96 y 1.96. Como el
estadístico Z calculado es mayor que el rango para Z, entonces H0 se rechaza y se concluye
que la hay diferencias estadísticas entre las dos fabricaciones.
5.9. Ajuste de curvas por el método de mínimos cuadrados
(lineal)
El método de los mínimos cuadrados se utiliza para calcular la recta de regresión lineal que
minimiza los residuos, esto es, las diferencias entre los valores reales y los estimados por la
recta (Molina, 2020).
El modelo de regresión lineal posibilita, una vez establecida una función lineal, efectuar
predicciones sobre el valor de una variable Y sabiendo los valores de un conjunto de variables
X1, X2, … Xn.
A la variable Y la llamamos dependiente, aunque también se la conoce como variable
objetivo, endógena, criterio o explicada. Por su parte, las variables X son las variables
independientes, conocidas también como predictoras, explicativas, exógenas o regresoras.
La figura 15 es la representación de la regresión lineal; los puntos representan los datos con
coordenadas X, Y; la línea representa la tendencia de los datos, ajustado a la ecuación de la
línea recta, comúnmente expresada como: Y = mx + b, donde m es la pendiente, x es la
ordenada al origen y b es la intersección con el eje.
Fig. 15. Representación de una regresión lineal
La regresión lineal requiere que la relación entre las dos variables sea lineal, así que puede
representarse mediante la siguiente ecuación de una línea recta, de acuerdo con el autor,
en este caso la pendiente se representa como β1 y la ordenada al origen como β0.
3
Sin embargo, no podemos dejar de lado la probabilidad de error en la medición, de tal manera
que se considera en la fórmula como:
Este error representa la diferencia entre el valor real de yi, con respecto al que nos
proporcionaría la ecuación de la recta (el valor estimado, representado como ŷi).
Queremos que el total del error no permita gran cantidad de residuos (datos que se alejen
mucho de lo pronosticado), de tal manera que se realiza la sumatoria de residuos de todos
los datos de la muestra para conocer la cantidad de residuos:
Sin embargo, el cálculo de los residuos podría arrojar valores negativos que complicarían el
cálculo. Para corregirlo, se eleva al cuadrado la sumatoria de los residuos (es por esto que
se llama ajuste por método de mínimos cuadrados).
Incorporamos ahora el concepto de la ecuación de la recta:
Para obtener la ecuación de la recta de regresión (el ajuste de los datos):
Donde:
Su cálculo manual sería poco práctico, por lo que se recomienda utilizar programas
estadísticos o Excel. Normalmente, en Excel, se obtiene graficando los datos. Cuando se
obtiene la gráfica, se añade la línea de tendencia, como lo muestra la imagen 16. De esta se
obtiene además la información de R2, que corresponde al coeficiente de correlación. Este
indica en qué medida los datos se ajustan a la recta de la regresión, un coeficiente de 1 indica
un perfecto ajuste, mientras que un coeficiente menor que 0.5 es señal de un ajuste pobre,
quiere decir que la predicción de valores usando este modelo es poco confiable.
Fig. 16. Ejemplo de regresión lineal por el ajuste de mínimos cuadrados.
4
[Link] de ji- cuadrada de independencia
El estadístico X2 puede usarse para indicar si existe una relación entre dos variables
categóricas. Esta prueba nos indica si existe o no una relación entre las variables, pero no
indica el grado o el tipo de relación; es decir, no indica el porcentaje de influencia de una
variable sobre la otra.
La ecuación de la prueba ji-cuadrada de independencia es:
Donde:
O = dato observado
E = dato esperado
Esta prueba utiliza el concepto de Ei, que es el dato esperado considerando la primicia que
todos los resultados tienen la misma probabilidad de ocurrir y que todas las probabilidades
que conforman un evento suman 1 o 100 %. Comprenderemos el cálculo de Ei y de ji-
cuadrada, mediante un ejemplo:
La siguiente tabla refleja la cantidad de estudiantes, según la calificación obtenida en
estadística de dos universidades:
Universidad deficiente regular bueno
UBA 5 11 7
UP 20 32 3
Determine si la universidad influye en la calificación obtenida en estadística.
Solución:
Paso 1. Hipótesis
H0 La universidad no influye en la calificación obtenida.
Ha: La universidad sí influye en la calificación obtenida.
Paso 2: Sumar totales para construir la tabla de contingencia, esta se usa para calcular E
(dato esperado):
deficiente regular bueno Total
UBA 5 11 7 23
UP Total 20 32 3 55
Total 25 43 10 78
La tabla para los valores esperados Ei queda así:
deficiente regular bueno
UBA 7.37 12.679 2.949
UP Total 17.63 30.321 7.051
Se calculó por reglas de 3, como se indican en la siguiente tabla:
5
Deficiente Regular Bueno
EUBAdeficiente= (Ʃdeficiente * EUBAregular= (Ʃregular * ƩUBA) / EUBAbueno= (Ʃbueno * ƩUBA)
ƩUBA) / ƩTotal ƩTotal / ƩTotal
EUPdeficiente= (Ʃdeficiente * EUPregular= (Ʃregular * ƩUP) / EUBAbueno= (Ʃbueno * ƩUP) /
ƩUP) / ƩTotal ƩTotal ƩTotal
Paso 3. Calcular grados de libertad:
v = (# filas-1) (#columnas-1)
v=2
Paso 4. Aplicar la fórmula para calcular Chi-cuadrada.
deficiente regular bueno
UBA 0.76 0.22 5.57
UP Total 0.32 0.09 2.33
La tabla contiene los cuadrados de las diferencias de lo observado con respecto a lo
esperado. Ahora debemos sumar cada dato para completar la sumatoria de la fórmula.
X2 = 0.76 + 0.22 + 5.57 + 0.32 + 0.09 + 2.33 = 9.29
Finalmente se compara la chi-cuadrada calculada con la de tablas.
X2 tabla= 5.99
2 2
Como la chi-cuadrada calculada (9.29) se sale del rango (-X , +X ), [-5.99, +5.99], se rechaza
la hipótesis nula y concluimos que la universidad sí influye en la calificación de estadística, es
decir, existe una relación entre las variables universidad y calificación.
6
[Link] de homogeneidad
La homocedasticidad es una característica de un modelo de regresión lineal que implica que
la varianza de los errores es constante en los diferentes niveles de la variable.
Existen diferentes métodos para verificar la homogeneidad de la varianza, entre ellos, el más
robusto es el de Levene:
Donde:
W es el resultado de la prueba de Levene
k es el número de diferentes grupos a los que pertenecen los casos muestreados
N es el número total de casos en todos los grupos
ni es el número de casos en el grupo i
Zij puede tener 3 interpretaciones.
De acuerdo con esto, sustituyendo los datos k, N, ni y el estadístico Z de cada dato i, j, ij. Se
puede identificar un valor para W, que se compara con tablas para el estadístico F de Fisher
(Correa, Iral, & Rojas, 2006), para los grados de libertad: k-1.
5.12.Técnicas de pronosticación
Un pronóstico es la estimación cuantitativa o cualitativa de uno o varios factores (variables)
que conforman un evento futuro, con base en información actual o del pasado.
El objetivo de los métodos de serie de tiempo es descubrir un patrón en los datos históricos
y luego extrapolarlo hacia el futuro; el pronóstico se basa sólo en valores pasados de la
variable que tratamos de pronosticar o en errores pasados
La imagen 16 representa la clasificación de las diferentes técnicas para pronosticación:
7
Fig. 17. Clasificación de las técnicas de pronosticación
Profundizaremos en algunos métodos cuantitativos:
a) Promedios móviles
El método de los promedios móviles utiliza el promedio de los k valores de datos más
recientes en la serie de tiempo como el pronóstico para el siguiente periodo.
El término móvil indica que, mientras se dispone de una nueva observación para la serie de
tiempo, reemplaza a la observación más antigua de la ecuación anterior y se calcula un
promedio nuevo. Como resultado, el promedio cambiará, o se moverá, conforme surjan
nuevas observaciones.
b) La suavización exponencial
Este modelo utiliza un promedio ponderado de valores de series de tiempo pasadas como
pronóstico. La fórmula muestra que el pronóstico para el periodo t+1 es un promedio
ponderado del valor real en el periodo t y el pronóstico para el periodo t.
Donde α es la constante de suavización, usualmente se usan valores pequeños como 0.02.
Por ejemplo, para pronosticar un evento 4, se parte de los 3 anteriores, por lo que la fórmula
sería:
c) Regresión lineal
Esta herramienta utiliza la regresión lineal de los datos, es decir su ajuste a la ecuación
de la recta. El valor del pronóstico T, se expresa en función de su regresión:
8
De tal manera que el cálculo de la pendiente b1 y la ordenada al origen b0, se calculan
como:
Despejando la variable Y se puede hacer un pronóstico de los distintos valores que podría
tomar, en función de cualquier valor de X (t en este caso).
d) Medidas de error
Los métodos de pronóstico deben considerar una incertidumbre en la estimación, se
representa como:
Donde Et es el error del pronóstico del periodo t, Y es el valor real para el periodo t.
Con base en esta fórmula, se definen las siguientes medidas de error (Rodríguez Ojeda,
2007):
Estas herramientas son utilizadas, principalmente, en modelos de pronosticación financiera.
Referencias
Correa, J. C., Iral, R., & Rojas, L. (2006). Estudio de potencia de pruebas de homogeneidad.
Revista Colombiana de Estadística, 29(1), 57 -76.
García, M. (2017). Inferencia estadística. Red Digital Educativa Descartes.
9
Molina, M. (2020). La distancia más corta. El método de los mínimos cuadrados. Servicio de
Gastroenterología.
Rodríguez Ojeda, L. (2007). Probabilidad y estadística básica para ingenieros. Guayaquil,
Ecuador: Instituto de Ciencias Matemáticas. Escuela Superior Politécnica del Litoral.
Solano, H. (2017). Estadística inferencial. Barranquilla, Colombia: Editorial Universidad del
Norte.
Spiegel, M., & Stephens, L. (2009). Estadística (Cuarta edición ed.). Ciudad de México:
McGraw Hill.
Walpole, R. E., Myers, R. H., Myers, S. L., & Ye, K. (2012). Probabilidad y estadística para
ingeniería y ciencias (Novena edición ed.). Estado de México, México: Pearson.
10