Estadistica Ii PDF
Estadistica Ii PDF
Segundo semestre
DIRECTOR DE LA FCA
Mtro. Tomás Humberto Rubio Pérez
SECRETARIO GENERAL
Dr. Armando Tomé González
––––
COORDINACIÓN GENERAL
Mtra. Gabriela Montero Montiel
Jefa del Centro de Educación a Distancia y
Gestión del Conocimiento
COORDINACIÓN ACADÉMICA
Mtro. Francisco Hernández Mendoza
FCA-UNAM
––––
AUTORES
Lic. Manuel García Minjares
Mtra. Adriana Rodríguez Domínguez
REVISIÓN PEDAGÓGICA
Lic. Laura Antonia Fernández Lapray
CORRECCIÓN DE ESTILO
Mtro. José Alfredo Escobar Mellado
DISEÑO DE PORTADAS
[Link]. Ricardo Alberto Báez Caballero
Mtra. Marlene Olga Ramírez Chavero
DISEÑO EDITORIAL
Mtra. Marlene Olga Ramírez Chavero
.
Dr. Enrique Luis Graue Wiechers Mtro. Tomás Humberto Rubio Pérez
Rector Director
______________________________________________________
Estadística II
Apunte electrónico
ISBN: 978-970-32-5314-2
Plan de estudios 2012, actualizado 2016.
“Prohibida la reproducción total o parcial de por cualquier medio sin la autorización escrita
del titular de los derechos patrimoniales”
“Reservados todos los derechos bajo las normas internacionales. Se le otorga el acceso no exclusivo y
no transferible para leer el texto de esta edición electrónica en la pantalla. Puede ser reproducido con
fines no lucrativos, siempre y cuando no se mutile, se cite la fuente completa y su dirección electrónica;
de otra forma, se requiere la autorización escrita del titular de los derechos patrimoniales.”
Hecho en México
OBJETIVO GENERAL
Al finalizar el curso, el alumno será capaz de inferir las características de una
población con base en la información contenida, así como de contrastar diversas
pruebas para la toma de decisiones.
TEMARIO DETALLADO
(96 horas)
Horas
1. Introducción al muestreo 4
2. Distribuciones muestrales 8
3. Estimación de parámetros 10
4. Pruebas de hipótesis 10
5. Pruebas de hipótesis con la distribución ji cuadrada 8
6. Análisis de regresión lineal simple 10
7. Análisis de series de tiempo 8
8. Pruebas estadísticas no paramétricas 6
4 de 357
Tercer semestre
INTRODUCCIÓN
El plan de estudios vigente de las carreras ofrecidas por la Facultad de Contaduría y
Administración de la UNAM pretende que en su ejercicio profesional el egresado sea
capaz de analizar situaciones, evaluar acciones y decidir rumbos de acción. Esto es
imposible si no dispone de información.
5 de 357
Tercer semestre
son las pruebas estadísticas que permiten inferir alguna característica de interés de
una población con base en la información de una muestra.
2.
1. Introducción 3. Estimación 4. Pruebas de
Distribuciones
al muestreo de parámetros hipótesis
muestrales
El estudio de las unidades 1-3 permitirá alcanzar la primera parte del objetivo
general. La unidad 1 tiene la finalidad de que el estudiante conozca de forma global
cómo se obtiene una muestra. La unidad 2 presenta las distribuciones muestrales
más empleadas en inferencia estadística. Y la unidad 3 se enfoca a la realización de
estimaciones de los parámetros de una población a través de la información de una
muestra.
6 de 357
Tercer semestre
estadísticas realizadas con la información de una muestra. De esto tratan, en
conjunto con la unidad 2, las unidades 4 y 5.
Como valor agregado, se plantea cómo emplear Microsoft Excel (2013) para aplicar
algunas técnicas que se expondrán a lo largo de esta obra.
Este material está pensado para que el estudiante del SUAyED tenga un primer
acercamiento a la Estadística II, cuyo aprendizaje autodidacta requiere de un
contenido que facilite su comprensión y fomente profundizar en los temas con la
consulta de la bibliografía sugerida. También puede aprovecharlo el estudiante del
sistema escolarizado.
7 de 357
Tercer semestre
ESTRUCTURA CONCEPTUAL
Estadística inferencial
Tiene un enfoque
Paramétrico No Paramétrico
Se conoce la No se conoce
distribución de la distribución
la población Es necesario de la población
Para
Estimar o Contrastar
parámetros hipótesis
Análisis de
Análisis de y Series de
regresión lineal
tiempo
8 de 357
Tercer semestre
UNIDAD 1
Introducción al muestreo
9 de 357
Tercer semestre
OBJETIVO PARTICULAR
Al terminar la unidad, el alumno reconocerá los diferentes tipos de muestreo y sus
características.
TEMARIO DETALLADO
(4 horas)
1. Introducción al muestreo
1.1. Parámetros estadísticos y estimadores
1.2. Estimación de parámetros y pruebas de hipótesis
1.3. Muestreo aleatorio y muestreo de juicio
1.4. Muestras únicas y muestras múltiples
1.5. Muestras independientes y muestras relacionadas
1.6. Tipos de muestreo aleatorio
10 de 357
Tercer semestre
INTRODUCCIÓN
11 de 357
Tercer semestre
1.1. Parámetros, estadísticos
y estimadores
En el curso de Estadística Descriptiva, se brindaron las herramientas para describir
el comportamiento de un conjunto de datos con el empleo de tablas, gráficas y
medidas descriptivas. Así, después de llevar a cabo los procedimientos para
generarlos, se puede concluir acerca de la distribución de los datos su valor medio y
variabilidad, y con base en ello tomar decisiones. Sin embargo, con frecuencia, la
información descrita es un subconjunto o muestra proveniente de un conjunto mayor
del que se desea conocer su comportamiento. Entonces, surge la pregunta si la
información descrita en la muestra se puede generalizar a la población. Por ejemplo,
si el promedio del porcentaje de aciertos de un examen de conocimientos de
matemáticas aplicado a un grupo de Contaduría de primer semestre del turno
matutino de la Facultad de Contaduría y Administración de la UNAM es 56%, ¿se
podría decir que este resultado es generalizable a toda la población de la Facultad
de Contaduría y Administración de la UNAM? El curso de Estadística II
proporcionará los fundamentos para responder esta pregunta.
12 de 357
Tercer semestre
número de estudiantes que leen este tipo de publicaciones en una muestra de 20
estudiantes. La distribución de probabilidades de la variable asociada al ejercicio
sería como se muestra en la figura 1.
13 de 357
Tercer semestre
Figura 2. Distribución de probabilidad del número de alumnos que leen revistas de
espectáculos con una proporción de 0.35 y 20 encuestas aplicadas
14 de 357
Tercer semestre
El ejemplo anterior muestra el efecto del valor de un parámetro en la distribución de
una variable de interés, pero normalmente se ignora el valor de este parámetro y
debe fijarse su valor. Supóngase que en el ejemplo anterior el problema de interés
hubiera sido determinar la proporción de estudiantes de primer semestre de
Administración de la Facultad de Contaduría y Administración de la UNAM que leen
revistas de espectáculos a partir de entrevistar a 20 estudiantes. Supóngase que, de
los 20 entrevistados, 8 leen esta clase de revistas. Entonces, de acuerdo con los
resultados de esta muestra, la proporción de estudiantes que leen revistas de
𝟖𝟖 é𝒙𝒙𝒙𝒙𝒙𝒙𝒙𝒙𝒙𝒙
espectáculos es = 𝟎𝟎. 𝟒𝟒. La división realizada, , es un estimador
𝟐𝟐𝟐𝟐 𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕ñ𝒐𝒐 𝒅𝒅𝒅𝒅 𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎
de la proporción de estudiantes de la población de interés que leen revistas de
espectáculos, y el valor obtenido es una estimación.
Estimador
En la unidad 3 de este curso, se mostrarán los estimadores más utilizados, así como
la manera de realizar estimaciones, ya sea con valores puntuales o con un rango de
valores posibles.
15 de 357
Tercer semestre
Regresando al ejemplo, ahora supóngase que, de acuerdo con la experiencia de
estudios anteriores, se sabe que la proporción de alumnos que leen revistas de
espectáculos es de 0.37, y se sospecha que esta proporción es mayor en esta
generación. ¿El resultado obtenido en la muestra (0.4) nos permite afirmar que la
proporción es mayor? En la unidad 4, se podrá contestar esta pregunta con el
empleo de estadísticos de prueba, valores basados en la distribución y valores
muestrales que permiten tomar una decisión sobre si apoyar o no una hipótesis. En
este caso, el estadístico es de 0.274, por lo que no existe evidencia estadística para
apoyar que la proporción de alumnos que leen revistas de espectáculo es mayor a
0.37.
La estadística inferencial
16 de 357
Tercer semestre
1.2. Estimación de parámetros y
pruebas de hipótesis
En la sección anterior, se comentó que la Estadística II busca determinar el valor de
parámetros poblacionales a partir de una muestra con el empleo de estimadores o
estadísticos de prueba. Así, la Estadística II afronta dos problemáticas: estimación
de parámetros y pruebas de hipótesis.
Estimación de parámetros
•Se pretende fijar el valor de un parámetro poblacional que se interesa conocer a través
de una regla o fórmula basada en los valores de la muestra.
17 de 357
Tercer semestre
1.3. Muestreo aleatorio y
muestreo de juicio
Como se ha mencionado, en Estadística II se intenta determinar el valor de un
parámetro poblacional a partir de los valores de una muestra: tanto el tamaño como
la manera de extraer esta muestra determinará la validez de los resultados. Antes de
enfocarnos a los tipos de muestreo, es importante mencionar algunos conceptos
básicos relacionados con el muestreo.
Como ejemplo, supóngase que se desea estudiar los hábitos de estudio de los
alumnos vigentes de la Facultad de Contaduría y Administración de la UNAM de la
modalidad a distancia. Así, la población son los alumnos vigentes de la modalidad a
distancia de la Facultad de Contaduría y Administración de la UNAM.
18 de 357
Tercer semestre
Muestreo Es la metodología con la que se determina el número de elementos que
serán seleccionados de la población para formar un subconjunto llamado
muestra.
Muestra Se dice que una muestra es representativa cuando las unidades que la
representativa conforman contienen las diferentes características de la población en una
proporción semejante, de manera que es una imagen de ella.
19 de 357
Tercer semestre
El muestreo conviene si no se cuenta con
suficientes recursos para llevar a cabo un censo, y
cuando los resultados permitan tener cierto
margen de error. Una de sus principales ventajas
es que se logra ahorrar costos y tiempos, y se
tiene un mejor control (véase figura 3).
La figura anterior ilustra las ventajas del muestreo: menor costo, menor tiempo y
mayor control en capacitar al personal, recolectar y analizar la información, y el
control de campo. Todo esto conlleva una disminución del riesgo de cometer errores.
20 de 357
Tercer semestre
En la figura 4, se contrastan las principales diferencias entre el muestreo aleatorio
(probabilístico) y el de juicio (no probabilístico).
MUESTREO
Probabilístico No probabilístico
21 de 357
Tercer semestre
1.4. Muestras únicas y
muestras múltiples
En la sección anterior, se habló acerca de los tipos de muestreo que pueden
emplearse para seleccionar una muestra. Normalmente, se requiere una muestra
única para realizar inferencias de la población.
Como ejemplo, supóngase que se desea conocer las horas de estudio que los
estudiantes de primer ingreso de la Facultad de Contaduría y Administración de la
UNAM dedican a materias de matemáticas después del horario de clase. Para
conocer este dato, es suficiente una muestra de alumnos a quienes se pregunte
sobre qué tiempo dedican a estudiar matemáticas luego del horario de clase. En
este ejemplo, el estudio se centra en una
población, pero cuando interesa estudiar más de
una población, se necesitará extraer muestras
de cada una, por lo que el estudio requiere
muestras múltiples. Para ilustrar esta situación,
supóngase que se desea dar seguimiento a los
egresados de posgrado de la UNAM, tanto de
maestría como de doctorado. Dado que las
poblaciones de maestría y doctorado son
diferentes, se procede a extraer una muestra de
los egresados de maestría y otra de los
egresados de doctorado.
22 de 357
Tercer semestre
1.5. Muestras independientes y
muestras relacionadas
En Estadística II, es frecuente querer realizar un comparativo entre grupos para
confirmar si existe una diferencia significativa entre ellos.
Muestras
independientes.
Muestra relacionada.
23 de 357
Tercer semestre
1.6. Tipos de muestreo aleatorio
En el subtema 1.3, se mencionó que el muestreo puede ser aleatorio (probabilístico)
y de juicio (no probabilístico). Ahora, en la figura 5 se desglosan los principales tipos
de muestreo de cada uno.
Muestreo
No probabilístico Probabilístico
Aleatorio
Sistemático Estratificado Conglomerados
simple
24 de 357
Tercer semestre
A. Tipos de muestreo por juicio (no probabilísticos)
Muestreo por
juicio o
intencional
25 de 357
Tercer semestre
Muestreo de bola de
nieve
26 de 357
Tercer semestre
Muestreo aleatorio simple
Por ejemplo, en la comida de fin de año de una empresa se realiza una rifa con 20
premios. Se meten todos los nombres de los empleados en una tómbola y se van
extrayendo los ganadores uno a uno de forma aleatoria.
27 de 357
Tercer semestre
Muestreo sistemático
𝑵𝑵
𝑲𝑲 =
𝒏𝒏
𝟑𝟑𝟑𝟑
𝑲𝑲 = = 𝟒𝟒
𝟗𝟗
Este resultado indica que, de cada 4 alumnos, se escogerá uno para que sea parte
de la muestra. Este resultado también apunta que se pueden extraer 4 muestras
sistemáticas de tamaño 9. El método funcionaría de la siguiente manera: se
numeran del 1 al 36 a los alumnos de excelencia; posteriormente, se elige un
número aleatorio entre 1 y K (4), y a partir de ahí se selecciona cada K elemento.
Supóngase que se escoge como primer alumno de la muestra al que se encuentra
numerado con 4, entonces la muestra se conformaría con los alumnos numerados
28 de 357
Tercer semestre
con 4, 8, 12, 16, 20, 24, 28, 32 y 36. En la figura 7, se ilustra esta metodología para
el ejemplo.
Población
i=4
Opción para
comenzar el conteo
1 2 3 4 5 6 7 8 9 10 11 12
13 14 15 16 17 18 19 20 21 22 23 24
25 26 27 28 29 30 31 32 33 34 35 36
Muestra
4 8 12 16 20 24 28 32 36
Muestreo estratificado
29 de 357
Tercer semestre
parte de la muestra. Para ejemplificar esta metodología, supóngase que se quiere
conocer la periodicidad con que 36 familias acuden al supermercado. A fin de
estudiar mejor la población, se decidió segmentarla en tres estratos de acuerdo con
su nivel de ingreso mensual: con ingresos menores a $10,000; con ingresos entre
$10,000 y $20,000; con ingresos mayores de $20,000. Dado lo anterior, se decidió
tomar una muestra de tamaño 10, donde estuvieran representados los tres estratos.
En la figura 8, se ilustra este tipo de muestreo.
Familias 13 14 15 16 17 18 19 20 21 22 23 24
25 26 27 28 29 30 31 32 33 34 35 36
Muestra
17 23 7 3 4 32 8 23 24 36
n=10
Fuente: elaboración propia.
30 de 357
Tercer semestre
Muestreo por conglomerados
En este tipo de muestreo, cada unidad de la muestra está formada por un grupo de
elementos, al que se le llama conglomerado. Este grupo contiene representantes de
toda la población (de acuerdo con la característica que se mida).
31 de 357
Tercer semestre
Figura 9. Ilustración de un muestreo por conglomerados donde se extrae
una muestra de tamaño 10 de una población de 36 elementos
agrupados en tres conglomerados de tamaño 12
Población
1 2 3 4 5 6 7 8 9 10 11 12
13 14 15 16 17 18 19 20 21 22 23 24
25 26 27 28 29 30 31 32 33 34 35 36
1 4 6 17
7 21
16 26 3 5 2 8 36
18 22
14 19 30 20 24
27
Muestra
16 4 26 5 2 20 6 22 21 36
Errores de estimación
32 de 357
Tercer semestre
Atribuibles al muestreo No atribuibles al muestreo
𝒏𝒏
1 Para efectos de este curso, se asumirá que la fracción no es importante.0.
𝑵𝑵
33 de 357
Tercer semestre
Tabla 1. Fórmulas para calcular el tamaño de muestra para estimar una media
y proporción poblacional cuando se conoce o no el tamaño de la población
Donde:
• tamaño de la muestra
n
• tamaño de la población
N
• desviación estándar
S
• proporción muestral
p
•1 – p
q
• error permitido
e
• Nivel de confianza, expresado como valor del cuantil z de una distribución normal
Z estándar que separa la curva en dos áreas de tamaño 1 – α/2 y α/2 (0<α<1).
34 de 357
Tercer semestre
Tabla 2. Valores de z para niveles de confianza de 90%, 95% y 99%
Nivel de confianza z
90% 1.64
95% 1.96
99% 2.58
Como se mencionó, estos valores z son los cuantiles de una distribución normal
estándar que separa la curva en dos áreas de tamaño 1 – α/2 y α/2 (0<α<1). Por
ejemplo, para un nivel de confianza de 95%, α = 1 – 0.95 = 0.05 y α/2 = 0.05/2 =
0.025. El cuantil z = 1.96 separa la curva normal estándar en dos regiones de
tamaño 1 – 0.025 = 0.975 y 0.025.
35 de 357
Tercer semestre
Fórmula que se aplica: Sustituyendo los valores:
36 de 357
Tercer semestre
Fórmula que se aplica: Sustituyendo los valores:
Para este caso, falta calcular q, se sabe que q = 1–
p, entonces:
q = 1 – 0.4 = 0.6.
Así:
(𝟏𝟏. 𝟔𝟔𝟔𝟔𝟐𝟐 )(𝟎𝟎. 𝟒𝟒)(𝟎𝟎. 𝟔𝟔)(𝟑𝟑, 𝟓𝟓𝟓𝟓𝟓𝟓)
𝒏𝒏 =
(𝟑𝟑, 𝟓𝟓𝟓𝟓𝟓𝟓)(𝟎𝟎. 𝟏𝟏)𝟐𝟐 + (𝟏𝟏. 𝟔𝟔𝟔𝟔𝟐𝟐 )(𝟎𝟎. 𝟒𝟒)(𝟎𝟎. 𝟔𝟔)
𝒁𝒁𝟐𝟐 𝒑𝒑𝒑𝒑𝒑𝒑
𝒏𝒏 = 𝟐𝟐, 𝟑𝟑𝟑𝟑𝟑𝟑. 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏
𝑵𝑵𝒆𝒆𝟐𝟐 + 𝒁𝒁𝟐𝟐 𝒑𝒑𝒑𝒑 𝒏𝒏 =
𝟑𝟑𝟑𝟑. 𝟖𝟖𝟖𝟖 + 𝟎𝟎. 𝟔𝟔𝟔𝟔𝟔𝟔𝟔𝟔𝟔𝟔𝟔𝟔
𝟐𝟐, 𝟑𝟑𝟑𝟑𝟑𝟑. 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏
𝒏𝒏 =
𝟑𝟑𝟑𝟑. 𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒
𝒏𝒏 = 𝟔𝟔𝟔𝟔. 𝟒𝟒𝟒𝟒 = 𝟔𝟔𝟔𝟔
Con 64 entrevistas, se garantiza una estimación de P
con un error de 10% y un nivel de confianza de 90%.
37 de 357
Tercer semestre
Fórmula que se aplica: Sustituyendo los valores:
Así:
(𝟐𝟐. 𝟓𝟓𝟓𝟓𝟐𝟐 )(𝟗𝟗𝟗𝟗𝟐𝟐 )
𝒏𝒏 =
𝟏𝟏𝟏𝟏𝟐𝟐
𝟓𝟓𝟓𝟓, 𝟗𝟗𝟗𝟗𝟗𝟗. 𝟖𝟖𝟖𝟖
𝒏𝒏 =
𝟏𝟏𝟏𝟏𝟏𝟏
𝒁𝒁𝟐𝟐 𝑺𝑺𝟐𝟐
𝒏𝒏 = 𝒏𝒏 = 𝟓𝟓𝟓𝟓𝟓𝟓. 𝟏𝟏𝟏𝟏 = 𝟓𝟓𝟓𝟓𝟓𝟓
𝒆𝒆𝟐𝟐
38 de 357
Tercer semestre
Fórmula que se aplica: Sustituyendo los valores:
Así:
39 de 357
Tercer semestre
una caja de diálogo con las opciones de análisis que se pueden ejecutar en el
módulo, elegir la opción Muestra.
Se desplegará otro cuadro de diálogo que se divide en tres partes: Entrada, Método
de muestreo y Opciones de salida. A continuación, se explica cada una.
40 de 357
Tercer semestre
Entrada.
En esta sección, se introduce
la región donde se encuentra
la numeración asignada a las
tiendas (región de entrada).
Método del
muestreo. En esta sección, se elige el Periódico. Se refiere al
tipo de muestreo a muestreo sistemático. En
implementar. Excel considera caso de elegir esta opción, se
dos: activa la casilla donde se
indica el periodo de selección
(K).
Aleatorio. Se refiere al
muestreo aleatorio simple. Si
se opta por este tipo de
muestreo, el paquete solicita
el tamaño de la muestra.
Si se elige como alternativa en una nueva hoja, la muestra se escribe en una hoja
nueva del mismo archivo. En caso de optar por Libro nuevo, la muestra se escribirá
en un archivo nuevo.
Una vez completadas las secciones, oprimir Aceptar.
41 de 357
Tercer semestre
Fuente: Microsoft Excel (2013).
42 de 357
Tercer semestre
Fuente: Microsoft Excel (2013).
Valor_buscado
Es el número de la tienda
que se desea buscar.
43 de 357
Tercer semestre
Fuente: Microsoft Excel (2013).
Matriz_buscar_en
En este caso, las dos columnas completas de Tienda y No. de artículos vendidos. 3
3En este rango de búsqueda, la primera columna debe tener los valores buscados; de lo contrario, no trabajará
correctamente la función.
44 de 357
Tercer semestre
Fuente: Microsoft Excel (2013).
Escogidas las columnas, fijar el rango oprimiendo una vez la tecla F4. Aparecerán
signos de $ que indican que ya está fija la matriz.
45 de 357
Tercer semestre
Indicador de columnas Ordenados
46 de 357
Tercer semestre
Uso de números aleatorios en MS-Excel
[Link](1,10)
47 de 357
Tercer semestre
1. Seleccionar toda el área en la
cual se generarán los números
aleatorios.
2. Escribir la función
[Link], utilizando un
rango de 1 a 20.
48 de 357
Tercer semestre
3. Oprimir al mismo tiempo las
teclas Ctrl e Intro. Se generarán
los números aleatorios.
Para efectos de este ejemplo, las tiendas 6, 12, 13, 14 y 16 son las elegidas para
auditarlas (el resultado no necesariamente debe ser el mismo si se replica el
ejercicio, debido a que se eligen números aleatorios). De esta manera, se obtiene
una muestra empleando números aleatorios.
49 de 357
Tercer semestre
RESUMEN
Las metodologías empleadas en Estadística II tienen como insumo la información
recabada de una muestra, por ello su obtención cobra relevancia, pues la manera de
hacerlo garantizará la validez de los resultados.
50 de 357
Tercer semestre
Al final, se planteó un ejemplo de cómo utilizar Microsoft Excel (2013) para obtener
muestras tanto con el módulo de análisis de datos como con números aleatorios.
51 de 357
Tercer semestre
BIBLIOGRAFÍA
SUGERIDA
52 de 357
Tercer semestre
UNIDAD 2
Distribuciones muestrales
53 de 357
Tercer semestre
OBJETIVO PARTICULAR
Al terminar la unidad, el alumno identificará e interpretará los diferentes tipos de
distribuciones muestrales.
TEMARIO DETALLADO
(8 horas)
2. Distribuciones muestrales
2.1. La distribución muestral de la media
2.2. El teorema central del límite
2.3. La distribución muestral de la proporción
2.4. La distribución muestral de la varianza
54 de 357
Tercer semestre
INTRODUCCIÓN
El insumo de la estadística tanto descriptiva como inferencial es la información, por lo
que la obtención de la muestra juega un papel central en la validez de los resultados.
En Estadística II, con los valores recabados en una muestra se puede deducir el
valor de un parámetro de interés, lo que permitirá determinar el comportamiento de
una población.
55 de 357
Tercer semestre
2.1. La distribución
muestral de la media
Durante el curso de Estadística Descriptiva, en la sección dedicada a probabilidad,
se abordaron las variables aleatorias.
Variable aleatoria
56 de 357
Tercer semestre
Figura 1. Distribución de probabilidades de la variable aleatoria asociada al
número de águilas observadas en tres lanzamientos de una moneda de diez
pesos
Número de águilas
Es habitual que de una muestra aleatoria de tamaño n se calcule el promedio con los
valores extraídos, donde el resultado dependerá de la muestra:
57 de 357
Tercer semestre
Si se extrae una muestra de tres empleados (sin reemplazo) y se calcula su
𝟓𝟓
promedio de antigüedad, hay � � = 𝟏𝟏𝟏𝟏 posibles resultados, los cuales se detallan en
𝟑𝟑
la tabla 2.
58 de 357
Tercer semestre
Figura 2. Distribución de frecuencias de los promedios de antigüedad de una
muestra de tres empleados del área de planeación
59 de 357
Tercer semestre
En la siguiente sección, se analizará un resultado que garantiza que la distribución
muestral de la media se aproxima a una distribución normal conforme se incrementa
el tamaño de la muestra. Por lo pronto, solamente se hará mención de este
resultado.
5Cuando 𝑵𝑵−𝒏𝒏
la fracción 𝑵𝑵𝒏𝒏 > 𝟎𝟎. 𝟎𝟎𝟎𝟎 se multiplica por el factor de ajuste �
𝑵𝑵−𝟏𝟏
60 de 357
Tercer semestre
Supóngase que una organización realizó 8620
movimientos bancarios durante el último ejercicio
fiscal, con un importe promedio de $67,213.49 y
una desviación de $5,315.22. Se contrató un
despacho de auditores para validar estas
operaciones. Ante la premura con la que se requieren
los resultados, se determinó auditar una muestra de 150 movimientos. Se considera
que los resultados son satisfactorios si el promedio muestral difiere del real en $900.
Entonces, ¿cuál es la probabilidad de que el promedio muestral difiera del real $900?
4e-04
2e-04
0e+00
Importe promedio
61 de 357
Tercer semestre
La figura anterior presenta la distribución de todos los promedios obtenidos con
muestras de 150 movimientos bancarios. La línea al centro de la distribución es el
promedio real y las otras dos líneas verticales alrededor del promedio real limitan la
región de los resultados considerados satisfactorios ($66,313.49 y $68,113.49).
Para calcular la probabilidad, se procede a estandarizar los valores para trabajar con
una distribución normal con media cero y desviación estándar uno (Z).
De esta manera:
𝟔𝟔𝟔𝟔, 𝟑𝟑𝟑𝟑𝟑𝟑. 𝟒𝟒𝟒𝟒 − 𝟔𝟔𝟔𝟔, 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟒𝟒𝟒𝟒 𝑿𝑿 − 𝟔𝟔𝟔𝟔, 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟒𝟒𝟒𝟒 𝟔𝟔𝟔𝟔, 𝟏𝟏𝟏𝟏𝟏𝟏. 𝟒𝟒𝟒𝟒 − 𝟔𝟔𝟔𝟔, 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟒𝟒𝟒𝟒
𝑷𝑷( 𝟓𝟓,𝟑𝟑𝟑𝟑𝟑𝟑.𝟐𝟐𝟐𝟐
< 𝟓𝟓,𝟑𝟑𝟑𝟑𝟑𝟑.𝟐𝟐𝟐𝟐
< 𝟓𝟓,𝟑𝟑𝟑𝟑𝟑𝟑.𝟐𝟐𝟐𝟐
)
√𝟏𝟏𝟏𝟏𝟏𝟏 √𝟏𝟏𝟏𝟏𝟏𝟏 √𝟏𝟏𝟏𝟏𝟏𝟏
[Link](2.073) – [Link](–2.073)
= 0.9809 – 0.0191 = 0.9618
62 de 357
Tercer semestre
Observación
∑𝒏𝒏𝒊𝒊=𝟏𝟏(𝒙𝒙𝒊𝒊 − 𝒙𝒙
�)𝟐𝟐
𝒔𝒔𝟐𝟐 =
𝒏𝒏 − 𝟏𝟏
•
Donde:
𝟐𝟐
𝒔𝒔 = varianza muestral
𝒙𝒙𝒊𝒊 = valor del i-ésimo elemento de la muestra
� = promedio muestral
𝒙𝒙
N = tamaño de la muestra
63 de 357
Tercer semestre
La distribución t de Student es La distribución t de Student
también una distribución depende de un parámetro
acampanada alrededor de cero. A conocido como grados de
diferencia de una distribución libertad. La distribución t de
normal estándar (Z), sus Student es única para cada grado
extremos tardan en tomar una de libertad y conforme aumenta
forma asintótica, por lo que se se aproxima más a una
dice que es “pesada en las colas”. distribución normal estándar.
(𝒏𝒏 + 𝟏𝟏)
𝟏𝟏 𝚪𝚪 𝟐𝟐 𝒙𝒙𝟐𝟐 (−𝒏𝒏+𝟏𝟏)
𝒕𝒕𝒏𝒏 = � 𝒏𝒏 � (𝟏𝟏 + ) 𝟐𝟐
𝒏𝒏𝒏𝒏 𝚪𝚪 𝟐𝟐 𝒏𝒏
Para 𝒙𝒙 ∈ (−∞, ∞)
•
Donde:
64 de 357
Tercer semestre
Cuando se trabaja con una distribución t en Excel, se utilizan las siguientes
funciones:
𝟔𝟔𝟔𝟔, 𝟏𝟏𝟏𝟏𝟏𝟏 + 𝟔𝟔𝟔𝟔, 𝟑𝟑𝟑𝟑𝟑𝟑 + 𝟔𝟔𝟔𝟔, 𝟓𝟓𝟓𝟓𝟓𝟓 + 𝟔𝟔𝟔𝟔, 𝟗𝟗𝟗𝟗𝟗𝟗 + 𝟔𝟔𝟔𝟔, 𝟖𝟖𝟖𝟖𝟖𝟖
�=
𝒙𝒙 = 𝟔𝟔𝟔𝟔, 𝟓𝟓𝟓𝟓𝟓𝟓
𝟓𝟓
𝒔𝒔𝟐𝟐
(𝟔𝟔𝟔𝟔, 𝟏𝟏𝟏𝟏𝟏𝟏 − 𝟔𝟔𝟔𝟔, 𝟓𝟓𝟓𝟓𝟓𝟓)𝟐𝟐 + (𝟔𝟔𝟔𝟔, 𝟑𝟑𝟑𝟑𝟑𝟑 − 𝟔𝟔𝟔𝟔, 𝟓𝟓𝟓𝟓𝟓𝟓)𝟐𝟐 + (𝟔𝟔𝟔𝟔, 𝟓𝟓𝟓𝟓𝟓𝟓 − 𝟔𝟔𝟔𝟔, 𝟓𝟓𝟓𝟓𝟓𝟓) + (𝟔𝟔𝟔𝟔, 𝟗𝟗𝟗𝟗𝟗𝟗 − 𝟔𝟔𝟔𝟔, 𝟓𝟓𝟓𝟓𝟓𝟓)𝟐𝟐 + (𝟔𝟔𝟔𝟔, 𝟖𝟖𝟖𝟖𝟖𝟖 − 𝟔𝟔𝟔𝟔, 𝟓𝟓𝟓𝟓𝟓𝟓)𝟐𝟐
=
𝟓𝟓 − 𝟏𝟏
= 2,584,361.5
65 de 357
Tercer semestre
A continuación, se estandarizan los datos:
𝟔𝟔𝟔𝟔, 𝟑𝟑𝟑𝟑𝟑𝟑. 𝟒𝟒𝟒𝟒 − 𝟔𝟔𝟔𝟔, 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟒𝟒𝟒𝟒 𝑿𝑿 − 𝟔𝟔𝟔𝟔, 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟒𝟒𝟒𝟒 𝟔𝟔𝟔𝟔, 𝟏𝟏𝟏𝟏𝟏𝟏. 𝟒𝟒𝟒𝟒 − 𝟔𝟔𝟔𝟔, 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟒𝟒𝟒𝟒
𝑷𝑷( 𝟏𝟏,𝟔𝟔𝟔𝟔𝟔𝟔.𝟓𝟓𝟓𝟓
< 𝟏𝟏,𝟔𝟔𝟔𝟔𝟔𝟔.𝟓𝟓𝟓𝟓
< 𝟏𝟏,𝟔𝟔𝟔𝟔𝟔𝟔.𝟓𝟓𝟓𝟓
)
√𝟓𝟓 √𝟓𝟓 √𝟓𝟓
Observación:
La función Distr.t(1.252,4, 2)
66 de 357
Tercer semestre
Figura 5. Segmentación de la distribución t con cuatro
grados de libertad considerada en el problema
-1.252 1.252
t
Fuente: elaboración propia.
67 de 357
Tercer semestre
2.2. El teorema central del límite
En la sección anterior, se mencionó que la distribución muestral de una media es una
normal, pero ¿cuál es el sustento teórico de esta afirmación? En la teoría de
probabilidad existen dos resultados muy importantes: la ley de los grandes números
y el teorema del límite central, este último garantiza que el promedio de una muestra
siga una distribución normal. A continuación, se expone este teorema.
68 de 357
Tercer semestre
𝝈𝝈𝟐𝟐
� 𝒏𝒏 ~𝑵𝑵(𝝁𝝁,
𝑿𝑿 )
𝒏𝒏
•
Donde:
� 𝒏𝒏 = Promedio de n variables
𝑿𝑿
𝝈𝝈𝟐𝟐
𝑵𝑵(𝝁𝝁, 𝒏𝒏 ) = Distribución normal con media μ y varianza σ2/ n
69 de 357
Tercer semestre
𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏
𝝁𝝁 = 𝑬𝑬(𝑿𝑿) = 𝟏𝟏 ∙ + 𝟐𝟐 ∙ + 𝟑𝟑 ∙ + 𝟒𝟒 ∙ + 𝟓𝟓 ∙ + 𝟔𝟔 ∙ = 𝟑𝟑. 𝟓𝟓
𝟔𝟔 𝟔𝟔 𝟔𝟔 𝟔𝟔 𝟔𝟔 𝟔𝟔
Y la varianza (σ2):
𝝈𝝈𝟐𝟐 = 𝑬𝑬(𝑿𝑿𝟐𝟐 ) − 𝑬𝑬𝟐𝟐 (𝑿𝑿)
Donde:
𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏
𝑬𝑬(𝑿𝑿𝟐𝟐 ) = 𝟏𝟏𝟐𝟐 ∙ + 𝟐𝟐𝟐𝟐 ∙ + 𝟑𝟑𝟐𝟐 ∙ + 𝟒𝟒𝟐𝟐 ∙ + 𝟓𝟓𝟐𝟐 ∙ + 𝟔𝟔𝟐𝟐 ∙ = 𝟏𝟏𝟏𝟏. 𝟐𝟐
𝟔𝟔 𝟔𝟔 𝟔𝟔 𝟔𝟔 𝟔𝟔 𝟔𝟔
Así:
𝝈𝝈𝟐𝟐 = 𝑬𝑬(𝑿𝑿𝟐𝟐 ) − 𝑬𝑬𝟐𝟐 (𝑿𝑿) = 𝟏𝟏𝟏𝟏. 𝟐𝟐 − 𝟑𝟑. 𝟓𝟓𝟐𝟐 = 𝟐𝟐. 𝟗𝟗
70 de 357
Tercer semestre
Tabla 3. Resultados de dos lanzamientos de un dado en 100 ocasiones
Lanzamiento Lanzamiento Lanzamiento Lanzamiento
Muestra 1 2 Promedio Muestra 1 2 Promedio Muestra 1 2 Promedio Muestra 1 2 Promedio
1 2 4 3 26 5 6 5.5 51 4 3 3.5 76 5 4 4.5
2 6 3 4.5 27 6 3 4.5 52 6 5 5.5 77 2 6 4
3 6 6 6 28 6 5 5.5 53 3 1 2 78 4 2 3
4 6 3 4.5 29 5 1 3 54 3 6 4.5 79 3 5 4
5 5 2 3.5 30 5 6 5.5 55 5 4 4.5 80 1 6 3.5
6 2 4 3 31 2 1 1.5 56 2 4 3 81 6 2 4
7 5 2 3.5 32 2 2 2 57 4 6 5 82 4 3 3.5
8 4 2 3 33 1 1 1 58 5 2 3.5 83 5 6 5.5
9 3 6 4.5 34 5 5 5 59 2 3 2.5 84 3 3 3
10 2 4 3 35 4 3 3.5 60 4 1 2.5 85 1 6 3.5
11 1 3 2 36 4 4 4 61 6 4 5 86 4 2 3
12 2 6 4 37 5 1 3 62 2 2 2 87 4 5 4.5
13 3 5 4 38 5 1 3 63 3 3 3 88 6 5 5.5
14 1 4 2.5 39 3 4 3.5 64 2 4 3 89 5 1 3
15 1 6 3.5 40 2 5 3.5 65 5 3 4 90 6 4 5
16 1 5 3 41 6 1 3.5 66 1 3 2 91 3 1 2
17 6 2 4 42 4 5 4.5 67 2 6 4 92 4 5 4.5
18 3 6 4.5 43 4 4 4 68 4 2 3 93 2 3 2.5
19 4 3 3.5 44 2 5 3.5 69 3 5 4 94 6 6 6
20 3 2 2.5 45 3 6 4.5 70 1 2 1.5 95 6 3 4.5
21 5 6 5.5 46 1 1 1 71 5 2 3.5 96 5 1 3
22 3 4 3.5 47 4 3 3.5 72 4 3 3.5 97 5 2 3.5
23 4 4 4 48 6 6 6 73 4 5 4.5 98 5 3 4
24 4 5 4.5 49 4 3 3.5 74 4 1 2.5 99 1 3 2
25 3 1 2 50 1 3 2 75 2 6 4 100 5 5 5
Promedio: 3.6
Varianza: 1.3
71 de 357
Segundo semestre
La tabla anterior muestra los resultados de las 100 muestras de dos lanzamientos y
sus respectivos promedios. Obsérvese que el promedio de los promedios es 3.6
(cercano a 3.5, el valor esperado) y la varianza de los promedios (1.3), que se acerca
a 2.9/2 = 1.45. La siguiente figura muestra el histograma de la distribución del
promedio de dos lanzamientos junto con la distribución teórica a la que debería
aproximarse.
6 R Core Team (2015). R: A language and environment for statistical computing. R Foundation for
72 de 357
Segundo semestre
Ahora, supóngase que en vez de realizar dos lanzamientos se hicieran cinco, se
calculara el promedio y se repitiera este experimento 100 ocasiones. En la siguiente
tabla, se muestran los resultados.
73 de 357
Tercer semestre
Tabla 4. Resultados de cinco lanzamientos de un dado en 100 ocasiones
Lanzamiento Lanzamiento
Muestra 1 2 3 4 5 Promedio Muestra 1 2 3 4 5 Promedio
1 3 3 5 2 3 3.2 51 1 4 6 2 1 2.8
2 4 4 3 2 5 3.6 52 5 5 1 1 2 2.8
3 1 1 5 2 6 3 53 4 3 5 1 2 3
4 1 5 6 6 3 4.2 54 5 4 4 1 6 4
5 3 2 3 2 3 2.6 55 6 1 4 1 4 3.2
6 5 4 4 5 5 4.6 56 5 3 5 2 2 3.4
7 3 6 5 1 2 3.4 57 2 6 5 2 6 4.2
8 5 6 3 4 6 4.8 58 3 1 6 3 3 3.2
9 3 3 2 2 5 3 59 4 4 3 5 6 4.4
10 3 3 3 3 4 3.2 60 2 1 4 2 3 2.4
11 3 4 5 2 1 3 61 1 6 4 1 3 3
12 1 5 4 4 3 3.4 62 3 6 6 4 4 4.6
13 3 2 2 5 3 3 63 5 1 1 2 3 2.4
14 2 5 6 1 1 3 64 1 3 2 1 5 2.4
15 1 6 1 1 5 2.8 65 6 1 6 1 4 3.6
16 2 3 3 2 5 3 66 5 6 1 5 1 3.6
17 2 1 3 1 6 2.6 67 2 4 3 5 5 3.8
18 6 5 2 6 3 4.4 68 3 4 2 6 4 3.8
19 1 5 5 3 5 3.8 69 3 1 6 3 3 3.2
20 3 3 1 4 2 2.6 70 4 4 6 6 4 4.8
21 4 6 4 5 1 4 71 2 4 4 2 1 2.6
22 5 1 4 4 1 3 72 6 5 6 3 4 4.8
23 6 3 5 4 1 3.8 73 2 6 5 6 6 5
24 5 1 5 4 6 4.2 74 5 3 2 2 3 3
25 2 4 5 3 1 3 75 1 5 5 2 3 3.2
26 1 5 6 5 6 4.6 76 6 2 6 4 5 4.6
27 1 3 4 3 5 3.2 77 5 1 6 3 3 3.6
28 6 5 3 6 2 4.4 78 5 5 1 4 1 3.2
29 4 6 4 5 4 4.6 79 5 5 2 1 5 3.6
30 5 6 2 4 6 4.6 80 3 3 1 2 3 2.4
31 6 6 2 3 2 3.8 81 2 5 2 5 6 4
32 4 6 5 4 2 4.2 82 2 4 6 5 6 4.6
33 2 3 1 4 6 3.2 83 1 6 3 1 4 3
34 4 3 2 5 2 3.2 84 6 2 6 2 5 4.2
35 2 2 5 1 3 2.6 85 1 1 2 6 1 2.2
36 2 6 5 1 1 3 86 2 5 5 1 1 2.8
37 4 4 2 4 4 3.6 87 3 2 5 2 1 2.6
38 6 1 1 3 2 2.6 88 2 3 2 3 6 3.2
39 4 4 6 2 3 3.8 89 3 1 1 6 1 2.4
40 5 1 1 4 5 3.2 90 4 6 4 3 6 4.6
41 1 3 2 4 1 2.2 91 1 1 2 2 5 2.2
42 6 1 2 5 2 3.2 92 3 6 6 1 6 4.4
43 6 3 3 4 6 4.4 93 5 1 1 5 6 3.6
44 6 5 1 4 2 3.6 94 4 1 1 6 6 3.6
45 4 4 6 6 5 5 95 1 1 3 5 5 3
46 3 5 1 2 4 3 96 6 5 4 1 4 4
47 5 3 6 2 6 4.4 97 6 3 5 4 5 4.6
48 6 4 4 4 2 4 98 3 3 6 6 4 4.4
49 4 2 6 6 2 4 99 5 3 2 6 1 3.4
50 3 5 6 6 4 4.8 100 1 4 4 6 3 3.6
Promedio: 3.5
Varianza: 0.6
74 de 357
Tercer semestre
En el caso de 100 muestras de tamaño cinco, el promedio de los promedios es 3.5,
el valor esperado del lanzamiento de un dado; y la varianza de los promedios es 0.6,
la cual es casi 2.9/5 = 0.58. La siguiente figura es la gráfica de la distribución de los
promedios de las 100 muestras con la distribución teórica a la que debe aproximarse.
75 de 357
Tercer semestre
Figura 8. Distribución del promedio de cien muestras de
10, 30, 50 y 100 lanzamientos de un dado
76 de 357
Tercer semestre
2.3. La distribución muestral
de la proporción
Con frecuencia, la proporción poblacional P es uno de los parámetros que interesa
conocer al extraer una muestra. Para hacerlo, se emplea la proporción muestral p,
cuyo cálculo se realiza de la siguiente manera:
∑𝒏𝒏𝒊𝒊=𝟏𝟏 𝒙𝒙𝒊𝒊
𝒑𝒑 =
𝒏𝒏
• Donde:
La proporción es un caso del promedio donde los valores que toman los elementos
de la muestra son 1 si cumple con el criterio de interés, y 0 en caso contrario. De
esta manera, cada elemento tiene una distribución Bernoulli con parámetro P y
varianza P⋅(1 – P) debido a que los elementos de la muestra son independientes:
𝒏𝒏 𝒏𝒏 𝒏𝒏
y
𝒏𝒏 𝒏𝒏 𝒏𝒏
77 de 357
Tercer semestre
Con lo anterior:
𝒏𝒏 𝒏𝒏 𝒏𝒏
∑𝒏𝒏𝒊𝒊=𝟏𝟏 𝒙𝒙𝒊𝒊 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏
𝑬𝑬(𝒑𝒑) = 𝑬𝑬 � � = ∙ 𝑬𝑬(� 𝒙𝒙𝒊𝒊 ) = ∙ � 𝑬𝑬(𝒙𝒙𝒊𝒊 ) = ∙ � 𝑷𝑷 = ∙ 𝒏𝒏ˑ𝑷𝑷 = 𝑷𝑷
𝒏𝒏 𝒏𝒏 𝒏𝒏 𝒏𝒏 𝒏𝒏
𝒊𝒊=𝟏𝟏 𝒊𝒊=𝟏𝟏 𝒊𝒊=𝟏𝟏
Y
𝒏𝒏 𝒏𝒏 𝒏𝒏
∑𝒏𝒏𝒊𝒊=𝟏𝟏 𝒙𝒙𝒊𝒊 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝑷𝑷 ∙ (𝟏𝟏 − 𝑷𝑷)
𝑽𝑽(𝒑𝒑) = 𝑽𝑽 � � = 𝟐𝟐 ∙ 𝑽𝑽(� 𝒙𝒙𝒊𝒊 ) = 𝟐𝟐 ∙ � 𝑽𝑽(𝒙𝒙𝒊𝒊 ) = 𝟐𝟐 ∙ � 𝑷𝑷 ∙ (𝟏𝟏 − 𝑷𝑷) = 𝟐𝟐 ∙ 𝒏𝒏ˑ𝑷𝑷 ∙ (𝟏𝟏 − 𝑷𝑷) =
𝒏𝒏 𝒏𝒏 𝒏𝒏 𝒏𝒏 𝒏𝒏 𝒏𝒏
𝒊𝒊=𝟏𝟏 𝒊𝒊=𝟏𝟏 𝒊𝒊=𝟏𝟏
Según la estadística descriptiva, si una variable X tiene una distribución binomial con
parámetros n y p, entonces puede aproximarse a una normal con media n⋅p y
varianza n⋅p⋅(1 – p) si 𝒏𝒏𝒏𝒏 ≥ 𝟓𝟓 y 𝒏𝒏(𝟏𝟏 − 𝒑𝒑) ≥ 𝟓𝟓.
∑𝒏𝒏𝒊𝒊=𝟏𝟏 𝒙𝒙𝒊𝒊
𝒀𝒀 = + 𝟎𝟎 = 𝒑𝒑
𝒏𝒏
𝟏𝟏
Tiene una distribución normal con media 𝒏𝒏 ∙ 𝒏𝒏ˑ𝑷𝑷 = 𝑷𝑷
𝟏𝟏 𝑷𝑷∙(𝟏𝟏−𝑷𝑷)
y varianza 𝒏𝒏𝟐𝟐 ∙ 𝒏𝒏ˑ𝑷𝑷 ∙ (𝟏𝟏 − 𝑷𝑷) = 𝒏𝒏
78 de 357
Tercer semestre
Observaciones
𝑛𝑛
1. Cuando la proporción poblacional P es conocida y la población es finita con𝑁𝑁 ≤
𝑃𝑃(1 − 𝑃𝑃)
𝜎𝜎𝑝𝑝 = �
𝑛𝑛
𝑛𝑛
Pero si𝑁𝑁 > 0.05, la desviación de la proporción muestral será ajustada de la
siguiente manera:
𝑃𝑃(1 − 𝑃𝑃) 𝑁𝑁 − 𝑛𝑛
𝜎𝜎𝑝𝑝 = � ∙�
𝑛𝑛 𝑁𝑁 − 1
𝑝𝑝(1 − 𝑝𝑝)
𝜎𝜎𝑝𝑝 = �
𝑛𝑛 − 1
𝑛𝑛
Pero si𝑁𝑁 > 0.05, la desviación de la proporción muestral será ajustada de la
siguiente manera:
𝑝𝑝(1 − 𝑝𝑝) 𝑁𝑁 − 𝑛𝑛
𝜎𝜎𝑝𝑝 = � ∙�
𝑛𝑛 − 1 𝑁𝑁 − 1
79 de 357
Tercer semestre
De acuerdo con una encuesta realizada a una población de 2919 egresados de
licenciatura de la Facultad de Contaduría y Administración, el 80.4% considera
excelentes o buenas las técnicas de enseñanza que utilizaron sus profesores durante
la carrera 7. Con la intención de conocer a mayor profundidad la metodología de
enseñanza de sus docentes, la Dirección de la Facultad decide contactar a una
muestra aleatoria de 100 egresados que contestaron la encuesta. ¿Cuál es la
probabilidad de que el porcentaje de egresados en la muestra que juzgue excelentes
o buenas las técnicas de enseñanza de sus profesores de licenciatura sea mayor a
90%?
7UNAM. Dirección General de Planeación. Perfiles de alumnos egresados del nivel licenciatura de la
UNAM 2012-2013, p. 71.
[Link] Consultado
el 13 de julio de 2015.
80 de 357
Tercer semestre
Ahora, como n⋅P = (100)⋅(0.804) = 80.4 y n⋅(1 – P) = (100)⋅(1 – 0.804) = 19.6 son
mayores a 5, entonces la distribución muestral de la proporción se aproxima a una
normal con media 0.804 y desviación 0.04. (Véase figura 9).
81 de 357
Tercer semestre
2.4. La distribución muestral
de la varianza
En las secciones anteriores, se estudiaron las distribuciones muestrales de la media
y de la proporción, dos parámetros que frecuentemente se desea conocer al extraer
una muestra. Otro parámetro que también se busca identificar a través de un
muestreo es la varianza, a partir de la cual se llega a la desviación estándar.
82 de 357
Tercer semestre
En la figura anterior, se expresan las distribuciones de las varianzas de dos y cinco
lanzamientos, ambas sesgadas a la derecha. Obsérvese que con muestras de dos
elementos la distribución de frecuencias de la varianza se asemeja a una
exponencial, y al aumentar la muestra a cinco lanzamientos la distribución presenta
una curvatura y menor variación. Si se aumentara la muestra a 10, 30, 50 y 100
lanzamientos, la varianza tendría el comportamiento que ilustra la figura 11.
83 de 357
Tercer semestre
La distribución empleada para modelar la varianza muestral es 𝝌𝝌𝟐𝟐 (ji-cuadrada), cuya
función de densidad es
𝟏𝟏 𝒏𝒏 −𝒙𝒙
𝒇𝒇(𝒙𝒙) = 𝒏𝒏
𝒏𝒏
𝒙𝒙𝟐𝟐 −𝟏𝟏 𝒆𝒆 𝟐𝟐
𝟐𝟐𝟐𝟐 𝚪𝚪(𝟐𝟐)
Para x >0
Donde n son los grados de libertad, que se definen de la misma forma como se hizo
con la distribución t de Student.
Es sesgada a la derecha.
n=2
0.4
Densidad
0.3
0.2
n=4
0.1
n=8
0.0
0 5 10 15 20 25 30
84 de 357
Tercer semestre
En la figura anterior, se distingue que, conforme aumentan los grados de libertad, la
distribución tiende a aplanarse y el sesgo disminuye.
Resultados importantes
85 de 357
Tercer semestre
[Link](x,grados_de_libertad). Calcula la probabilidad que se acumula en
una distribución 𝒙𝒙𝟐𝟐 con los grados de
libertad establecidos a partir del punto x.
𝟐𝟐 𝟐𝟐 )
𝒔𝒔𝟐𝟐 𝒔𝒔𝟐𝟐
𝑷𝑷(𝒔𝒔 > 𝝈𝝈) = 𝑷𝑷(𝒔𝒔 > 𝝈𝝈 = 𝑷𝑷( 𝟐𝟐 > 𝟏𝟏) = 𝑷𝑷((𝒏𝒏 − 𝟏𝟏) ∙ 𝟐𝟐 > 𝒏𝒏 − 𝟏𝟏)
𝝈𝝈 𝝈𝝈
(𝒏𝒏−𝟏𝟏)𝒔𝒔𝟐𝟐
Como la variable tiene una distribución 𝝌𝝌𝟐𝟐 con n – 1 grados de libertad,
𝝈𝝈𝟐𝟐
86 de 357
Tercer semestre
En caso de no conocerse la varianza poblacional, el problema se resuelve de la
misma manera.
𝟐𝟐 𝟐𝟐 (𝟏𝟏 + 𝒅𝒅 𝒙𝒙) 𝟐𝟐
Para 𝒙𝒙 > 𝟎𝟎
Donde n y d son los grados de libertad de cada una de las muestras a comparar.
Características de la distribución F:
Es asintótica.
87 de 357
Tercer semestre
Funciones en Excel para trabajar la distribución 𝑭𝑭
88 de 357
Tercer semestre
RESUMEN
Se analizó la importancia del muestreo para inferir sobre un parámetro de la
población de interés. Al obtener una muestra aleatoria, se busca conocer los valores
de los parámetros poblacionales por medio de los valores que arroja la muestra. Los
parámetros muestrales son variables aleatorias porque dependen de los valores de
los elementos en la muestra, por lo que resulta necesario identificar sus
distribuciones para medir la calidad de los resultados.
De igual manera, se explicó el teorema del límite central utilizando como ejemplo el
lanzamiento de un dado, lo que garantiza que la distribución muestral del promedio
se acerca a una normal conforme la muestra se incrementa.
Como valor agregado, se presentaron las funciones de Excel para trabajar con las
distribuciones muestrales del promedio, de una proporción y de la varianza, que se
aplicarán en las siguientes unidades.
89 de 357
Tercer semestre
BIBLIOGRAFÍA
SUGERIDA
90 de 357
Tercer semestre
UNIDAD 3
Estimación de parámetros
91 de 357
Tercer semestre
OBJETIVO PARTICULAR
Al terminar la unidad, el alumno aprenderá los métodos de estimación de parámetros
y su interpretación.
TEMARIO DETALLADO
(10 horas)
3. Estimación de parámetros
3.1. Estimaciones por punto y estimaciones por intervalo
3.2. Error de muestreo y errores que no son de muestreo
3.3. Propiedades de los estimadores
3.4. Estimación de una media con muestras grandes
3.4.1. Determinación del tamaño de muestra necesario para estimar una
media
3.5. Estimación de una media con muestras pequeñas
3.6. Estimación de una proporción
3.6.1. Determinación del tamaño de muestra para estimar una
proporción
3.7. Otros intervalos de confianza
92 de 357
Tercer semestre
INTRODUCCIÓN
93 de 357
Tercer semestre
estimaciones del promedio poblacional (tanto con muestras grandes como con
pequeñas), estimaciones de una proporción, y finalmente cómo construir un intervalo
de confianza para la varianza y desviación poblacional.
94 de 357
Tercer semestre
3.1. Estimaciones por punto y
estimaciones por intervalo
Como se mencionó en la unidad de introducción al muestreo, la finalidad de la
Estadística II es realizar estimaciones de parámetros poblacionales con los valores
de una muestra. Supóngase que en una organización se realizará un evento
deportivo donde se ofrecerán bebidas energéticas a 800 participantes: los
organizadores se preguntan qué cantidad del líquido adquirir. Para resolver este
problema, encuestan a una muestra de 50 posibles asistentes acerca de la cantidad
de bebida que consumen en un evento similar. La encuesta arrojó que en promedio
consumen cuatro litros por persona; así, los organizadores estiman que deberán
adquirirse 800 x 4 = 3200 litros. Los organizadores creen que no necesariamente se
tendría que consumir esa cantidad, por lo que prefieren manejar un intervalo., y
después de un análisis de la información estiman que el consumo será entre 3000 y
3400 litros. ¿Qué diferencia hubo entre ambas estimaciones? En este subtema, se
responderá esta pregunta.
95 de 357
Tercer semestre
Notación y conceptos
Se define como estimación al valor resultante de aplicar el estimador con los datos
de la muestra.
96 de 357
Tercer semestre
La figura anterior presenta dos conjuntos de diferente tamaño. El menor ejemplifica
una muestra de tamaño n tomada del conjunto mayor, que es la población con N
� , el cual busca estimar el
elementos. Dentro de la muestra, se obtiene el estimador 𝜽𝜽
valor del parámetro poblacional θ, que normalmente se desconoce. Se espera que la
estimación se aproxime al valor real, lo cual se representa con el símbolo ≈.
Tipos de estimación
Tipos de estimación
Intervalos
Puntual
La estimación es un rango de valores
La estimación es un solo valor que se
donde se espera se encuentre el
considera es el quetoma el parámetro.
parámetro.
97 de 357
Tercer semestre
La figura anterior define los tipos de estimación (puntual y de intervalo). La parte
inferior de la figura representa esos tipos de estimación: la línea central de color azul
señala la estimación puntual del parámetro (3200 litros de bebida energética); y las
líneas en color verde, el rango de valores donde se espera que se encuentre el valor
del parámetro (3000, 3400).
98 de 357
Tercer semestre
Cuando se desconoce la varianza poblacional, se recurre a estimarla con la muestral:
�)𝟐𝟐
∑(𝒙𝒙𝟏𝟏 − 𝒙𝒙
𝒔𝒔𝟐𝟐 =
𝒏𝒏 − 𝟏𝟏
� ± 𝜹𝜹𝝈𝝈𝜽𝜽�
𝑰𝑰𝑰𝑰 = 𝜽𝜽
•
Donde:
99 de 357
Tercer semestre
Para construir un intervalo de confianza, es necesario conocer la estimación puntual
del parámetro y la desviación del estimador, y determinar el nivel de confianza.
Fórmula
Tamaño
Parámetro Desviación
Estimador de la Intervalo de Estimador
población estándar del
muestra confianza puntual estimador
𝝈𝝈
n>30 � ± 𝒁𝒁
𝑰𝑰𝑰𝑰 = 𝒙𝒙 𝒔𝒔
Promedio √𝒏𝒏 ∑ 𝒙𝒙𝒊𝒊 𝒔𝒔𝒙𝒙� =
�
𝒙𝒙 �=
𝒙𝒙 √𝒏𝒏
μ 𝝈𝝈 𝒏𝒏
n<30 � ± 𝒕𝒕
𝑰𝑰𝑰𝑰 = 𝒙𝒙
√𝒏𝒏
𝒑𝒑𝒑𝒑 ∑ 𝒙𝒙𝒊𝒊 𝒑𝒑𝒑𝒑
n>30 𝑰𝑰𝑰𝑰 = 𝒑𝒑 ± 𝒁𝒁� 𝒑𝒑 = 𝒔𝒔𝒑𝒑 = �
Proporción 𝒏𝒏 𝒏𝒏 𝒏𝒏
p
P 𝒑𝒑𝒑𝒑
n<30 𝑰𝑰𝑰𝑰 = 𝒑𝒑 ± 𝒕𝒕� 𝒙𝒙𝒊𝒊 = 𝟎𝟎 𝒐𝒐 𝟏𝟏 q=1-p
𝒏𝒏
100 de 357
Tercer semestre
3.2. Error de muestreo y errores
que no son de muestreo
Error de muestreo
Toda estimación tiene un error debido a que se conoce una parte de la información.
Al comienzo de cualquier ejercicio de estimación se debe fijar el límite de error
permitido, como un porcentaje o como una desviación de unidades.
101 de 357
Tercer semestre
Figura 3. Error de muestreo
� < 𝑩𝑩 ≥ 𝟏𝟏 − 𝜶𝜶
𝑷𝑷 𝜽𝜽 − 𝜽𝜽
8 La fórmula anterior es resultado de la ley de los grandes números, uno de los principales resultados
102 de 357
Tercer semestre
Error no atribuible al muestreo
El error no atribuible al muestreo se debe, entre otras causas, a un mal diseño del
instrumento, la logística implementada o una elevada tasa de no respuesta.
103 de 357
Tercer semestre
3.3. Propiedades de los estimadores
Para estimar un parámetro, puede existir en ocasiones más de un estimador, por lo
que es necesario utilizar aquellos que tengan las propiedades que se explican a
continuación.
Insesgado
• La primera propiedad de un estimador es que estime lo que se
quiere estimar; por ejemplo, si se realizara una estimación con
muchas muestras aleatorias, el valor esperado del estimador
es el parámetro poblacional de interés. Cuando esto ocurre, el
estimador es insesgado.
� � = 𝜽𝜽
𝑬𝑬�𝜽𝜽
� � = 𝑽𝑽𝑽𝑽𝑽𝑽 �𝜽𝜽
𝑬𝑬𝑬𝑬𝑬𝑬�𝜽𝜽 ��
104 de 357
Tercer semestre
Figura 4. Distribución de un estimador insesgado
f(
E(
La figura anterior ilustra la distribución de un estimador insesgado cuyo valor
esperado es el parámetro. Es importante mencionar que la distribución acampanada
de la figura solamente es con fines ilustrativos, ya que un estimador no
necesariamente tiene esta distribución de probabilidades.
� 𝟏𝟏 y 𝜽𝜽
Sean 𝜽𝜽 � 𝟐𝟐 dos estimadores del parámetro θ:
� 𝟏𝟏 �<𝑽𝑽𝑽𝑽𝑽𝑽 �𝜽𝜽
Si 𝑽𝑽𝑽𝑽𝑽𝑽 �𝜽𝜽 � 𝟐𝟐 �
105 de 357
Tercer semestre
Figura 5. Eficiencia de dos estimadores insesgados
θ θ
Menor variabilidad Mayor variabilidad
1
� 𝟏𝟏 y 𝜽𝜽
La figura 5 ilustra la distribución de dos estimadores 𝜽𝜽 � 𝟐𝟐 del parámetro
poblacional θ. Aunque ambos estimadores son insesgados, el primero da mejores
estimaciones, en tanto es más probable que arroje un valor más cercano al
� 𝟏𝟏 es más eficiente que 𝜽𝜽
parámetro real respecto del segundo. Por tanto, 𝜽𝜽 � 𝟐𝟐 .
Consistente
• La última propiedad esperada en un estimador es que, a medida que
utilice mayor información de la población, su estimación sea cada vez
más cercana al parámetro poblacional. Cuando esto ocurre, el estimador
es consistente.
106 de 357
Tercer semestre
Figura 6. Comportamiento de un estimador consistente
n = 100
n = 10
107 de 357
Tercer semestre
3.4. Estimación de una media
con muestras grandes
El teorema del límite central garantiza que, conforme aumenta el tamaño de la
muestra, la distribución del promedio muestral se acerca a una distribución normal
cuya media es el promedio poblacional, y la varianza es la varianza poblacional entre
el tamaño de la muestra. Como regla general:
108 de 357
Tercer semestre
Tabla 3. Elementos para realizar la estimación puntual y por intervalo de la
media (promedio) con muestras grandes
Fórmula
Tamaño
Parámetro Desviación
Estimador de la Intervalo de Estimador
población estándar del
muestra confianza puntual
estimador
Promedio 𝒔𝒔 ∑ 𝒙𝒙𝒊𝒊 𝒔𝒔
�
𝒙𝒙 n>30 𝑰𝑰𝑰𝑰 = �
𝒙𝒙 ± 𝒛𝒛 �=
𝒙𝒙 𝒔𝒔𝒙𝒙� =
μ √𝒏𝒏 𝒏𝒏 √𝒏𝒏
[Link](probabilidad)
𝜶𝜶
Para calcular el cuantil z donde se acumula una probabilidad de 1-𝟐𝟐 (0<α<1)
109 de 357
Tercer semestre
Figura [Link] calculado con la fórmula de Excel
[Link](probabilidad)
1-
Supóngase que se desea realizar una estimación con un nivel de confianza del 95%,
entonces:
1 – α = 0.95 𝜶𝜶 𝟎𝟎.𝟎𝟎𝟎𝟎
= = 𝟎𝟎. 𝟎𝟎𝟎𝟎𝟎𝟎
𝟐𝟐 𝟐𝟐
α = 1-0.95 Por tanto:
α = 0.05
[Link](1-0.025) = 1.96
En la tabla 4 se muestran los valores de z para los niveles de confianza más usados.
110 de 357
Tercer semestre
Tabla 4. Valores de z obtenidos para los niveles de confianza más
usados empleando Excel
Nivel de α Función en MS-Excel
𝜶𝜶 z
confianza 1-nivel de confianza [Link](1-𝟐𝟐 )
Primer ejemplo
111 de 357
Tercer semestre
Monto de las facturas auditadas
Monto de facturas combinadas
Gasto en Gasto en
Factura Factura
miles miles
1 99 16 96
2 15 17 79
3 59 18 71
4 14 19 56
5 72 20 51
6 59 21 72
7 68 22 25
8 22 23 71
9 40 24 52
10 79 25 99
11 97 26 70
12 82 27 82
13 93 28 47
14 76 29 35
15 48 30 93
112 de 357
Tercer semestre
Respuestas
Para solucionar este problema, se sugiere realizar lo siguiente.
113 de 357
Tercer semestre
7. Calcular la desviación del estimador a 8. Sustituir los valores en la fórmula general y
través de la fórmula correspondiente: calcular el límite inferior (LI) y límite superior (LS)
𝒔𝒔 del intervalo de confianza (IC):
𝒔𝒔𝒙𝒙� =
√𝒏𝒏 𝒔𝒔
𝟐𝟐𝟐𝟐. 𝟏𝟏𝟏𝟏 � ± 𝒁𝒁
𝑰𝑰𝑰𝑰 = 𝒙𝒙
𝒔𝒔𝒙𝒙� = √𝒏𝒏
√𝟑𝟑𝟑𝟑 𝑰𝑰𝑰𝑰 = 𝟔𝟔𝟔𝟔. 𝟎𝟎𝟎𝟎 ± 𝟐𝟐. 𝟓𝟓𝟓𝟓 ∙ 𝟒𝟒. 𝟓𝟓𝟓𝟓
𝟐𝟐𝟐𝟐. 𝟏𝟏𝟏𝟏 𝑰𝑰𝑰𝑰 = 𝟔𝟔𝟔𝟔. 𝟎𝟎𝟎𝟎 ± 𝟏𝟏𝟏𝟏. 𝟖𝟖𝟖𝟖𝟖𝟖
𝒔𝒔𝒙𝒙� =
𝟓𝟓. 𝟒𝟒𝟒𝟒𝟒𝟒 𝑳𝑳𝑳𝑳 = 𝟔𝟔𝟔𝟔. 𝟎𝟎𝟎𝟎 − 𝟏𝟏𝟏𝟏. 𝟖𝟖𝟖𝟖𝟖𝟖
𝒔𝒔𝒙𝒙� = 𝟒𝟒. 𝟓𝟓𝟓𝟓 𝑳𝑳𝑳𝑳 = 𝟓𝟓𝟓𝟓. 𝟐𝟐𝟐𝟐
𝑳𝑳𝑳𝑳 = 𝟔𝟔𝟔𝟔. 𝟎𝟎𝟎𝟎 + 𝟏𝟏𝟏𝟏. 𝟖𝟖𝟖𝟖𝟖𝟖
𝑳𝑳𝑳𝑳 = 𝟕𝟕𝟕𝟕. 𝟗𝟗𝟗𝟗
52 64 76
LI LS
Segundo ejemplo
114 de 357
Tercer semestre
En la siguiente tabla, se muestran las visitas realizada en un día por 35
representantes seleccionados.
Número de Número de
Representante visitas Representante visitas
realizadas realizadas
1 8 19 5
2 4 20 5
3 7 21 8
4 8 22 7
5 6 23 7
6 6 24 7
7 5 25 5
8 8 26 6
9 6 27 8
10 6 28 7
11 7 29 5
12 7 30 5
13 6 31 7
14 4 32 4
15 5 33 7
16 7 34 7
17 8 35 6
18 6
Respuestas
115 de 357
Tercer semestre
𝟖𝟖 + 𝟒𝟒 + ⋯ + 𝟕𝟕 + 𝟔𝟔 𝒔𝒔
�=
𝒙𝒙 � ± 𝒁𝒁
𝑰𝑰𝑰𝑰 = 𝒙𝒙
𝟑𝟑𝟑𝟑 √𝒏𝒏
𝟐𝟐𝟐𝟐𝟐𝟐
�=
𝒙𝒙 = 𝟔𝟔. 𝟐𝟐𝟐𝟐
𝟑𝟑𝟑𝟑
𝒔𝒔 = √𝟏𝟏. 𝟓𝟓𝟓𝟓𝟓𝟓
𝒔𝒔 = 𝟏𝟏. 𝟐𝟐𝟐𝟐𝟐𝟐
116 de 357
Tercer semestre
9. Construir el intervalo de confianza:
𝑰𝑰𝑰𝑰 = (𝑳𝑳𝑳𝑳, 𝑳𝑳𝑳𝑳)
𝑰𝑰𝑰𝑰 = (𝟓𝟓. 𝟖𝟖𝟖𝟖, 𝟔𝟔. 𝟔𝟔𝟔𝟔)
Con base en la estimación puntual, el promedio de visitas diarias efectuadas por un
representante médico es de 6.
Conforme a la estimación por intervalo, el promedio de visitas que realiza un
representante médico al día con un nivel de confianza del 95% se sitúa entre 6 y 7.
5.9
LI LS
Para responder a lo anterior, se debe tener claridad sobre dos aspectos: el error
máximo permitido y el nivel de confianza deseado. Cualquier resultado de un
muestreo va a presentar un error de estimación, pero se busca que el riesgo α de
que la distancia entre la estimación y el valor real supere un límite de error B
predefinido sea pequeño, es decir:
� | > 𝑩𝑩) < 𝜶𝜶
� − 𝑿𝑿
𝑷𝑷(|𝒙𝒙
117 de 357
Tercer semestre
Lo cual es equivalente a:
� | ≤ 𝑩𝑩) ≥ 𝟏𝟏 − 𝜶𝜶
� − 𝑿𝑿
𝑷𝑷(|𝒙𝒙 𝟎𝟎 ≤ 𝜶𝜶 ≤ 𝟏𝟏 (1)
Donde:
� 𝐏𝐏𝐏𝐏𝐏𝐏𝐏𝐏𝐏𝐏𝐏𝐏𝐏𝐏𝐏𝐏 𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩
𝐗𝐗:
𝐱𝐱�: 𝐏𝐏𝐏𝐏𝐏𝐏𝐏𝐏𝐏𝐏𝐏𝐏𝐏𝐏𝐏𝐏 𝐦𝐦𝐦𝐦𝐦𝐦𝐦𝐦𝐦𝐦𝐦𝐦𝐦𝐦𝐦𝐦
𝐁𝐁: 𝐄𝐄𝐄𝐄𝐄𝐄𝐄𝐄𝐄𝐄 𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩𝐩
Lo cual es una región de una distribución normal estandarizada limitada por los
cuantiles ±z.
118 de 357
Tercer semestre
Figura 8. Región con probabilidad de 95% con un alfa de 0.05
0.4
0.3
f(z)
0.2
95%
0.1
0.0
-3 -2 -1 0 1 2 3
Fuente: elaboración propia con uso de R. R Core Team (2014). R: A language and environment for statistical
computing. R Foundation for Statistical Computing, Vienna, Austria. URL [Link]
Al despejar n se obtiene:
𝟐𝟐
𝒛𝒛𝟐𝟐 𝝈𝝈𝟐𝟐 𝒏𝒏
𝑩𝑩 = �𝟏𝟏 − �
𝒏𝒏 𝑵𝑵
𝟐𝟐
𝒛𝒛𝟐𝟐 𝝈𝝈𝟐𝟐 𝒛𝒛𝟐𝟐 𝝈𝝈𝟐𝟐
𝑩𝑩 = −
𝒏𝒏 𝑵𝑵
𝒛𝒛𝟐𝟐 𝝈𝝈𝟐𝟐 𝒛𝒛𝟐𝟐 𝝈𝝈𝟐𝟐 𝑵𝑵𝑩𝑩𝟐𝟐 + 𝒛𝒛𝟐𝟐 𝝈𝝈𝟐𝟐
𝟐𝟐
= 𝑩𝑩 + =
𝒏𝒏 𝑵𝑵 𝑵𝑵
𝑵𝑵𝒛𝒛𝟐𝟐 𝝈𝝈𝟐𝟐
𝒏𝒏 = (2)
𝑵𝑵𝑩𝑩𝟐𝟐 +𝒛𝒛𝟐𝟐 𝝈𝝈𝟐𝟐
119 de 357
Tercer semestre
En caso de estar trabajando con una población infinita o con una donde el tamaño N
es desconocido, el error B es:
𝝈𝝈
𝑩𝑩 = 𝒛𝒛𝝈𝝈𝒙𝒙� = 𝒛𝒛
√𝒏𝒏
𝒛𝒛𝟐𝟐 𝝈𝝈𝟐𝟐
𝒏𝒏 = (3)
𝑩𝑩𝟐𝟐
Las fórmulas (2) y (3) son las mismas que se presentaron en la sección 1.6.
120 de 357
Tercer semestre
Respuesta
El problema indica que el parámetro de interés es un promedio (monto mensual
promedio destinado a transporte) además brinda la siguiente información:
N=600
B=20
α=0.05
σ=100
[Link](1-0.05/2)
𝑵𝑵𝒛𝒛𝟐𝟐 𝝈𝝈𝟐𝟐
𝒏𝒏 =
𝑵𝑵𝑩𝑩𝟐𝟐 + 𝒛𝒛𝟐𝟐 𝝈𝝈𝟐𝟐
𝒏𝒏 = 𝟖𝟖𝟖𝟖. 𝟖𝟖
Es decir, se requiere una muestra de 83 hogares para garantizar una estimación que
difiera en $20 del valor real con una confiabilidad de 1-α = 1 - 0.05 = 0.95 = 95%.
121 de 357
Tercer semestre
Ejemplo 2. ¿De qué tamaño sería la muestra en el ejemplo anterior si se
desconociera el tamaño de la población (N) y el resto de los parámetros se
mantuviera igual?
Respuesta
Del ejemplo anterior se tiene la siguiente información:
B=20
α=0.05
σ=100
z=1.96
𝒛𝒛𝟐𝟐 𝝈𝝈𝟐𝟐
𝒏𝒏 = 𝟐𝟐
𝑩𝑩
𝒏𝒏 = 𝟗𝟗𝟗𝟗. 𝟎𝟎𝟎𝟎
Es decir, se requiere una muestra de 96 hogares para garantizar una estimación que
difiera en $20 del valor real con una confiabilidad de 1-α = 1 - 0.05 = 0.95 = 95%.
122 de 357
Tercer semestre
Estimación del tamaño de muestra considerando el error como una proporción
del parámetro real
𝝈𝝈 𝒏𝒏
� = 𝒛𝒛
𝒓𝒓𝑿𝑿 ��𝟏𝟏 − �
√𝒏𝒏 𝑵𝑵
Al despejar n se obtiene:
𝝈𝝈𝟐𝟐 𝒏𝒏
� 𝟐𝟐 = 𝒛𝒛𝟐𝟐
𝒓𝒓𝟐𝟐 𝑿𝑿 �𝟏𝟏 − �
𝒏𝒏 𝑵𝑵
� 𝟐𝟐 + 𝒛𝒛𝟐𝟐 𝝈𝝈𝟐𝟐
𝝈𝝈𝟐𝟐 𝑵𝑵𝑵𝑵𝟐𝟐 𝑿𝑿
𝟐𝟐
𝒛𝒛 =
𝒏𝒏 𝑵𝑵
123 de 357
Tercer semestre
𝑵𝑵𝑵𝑵𝟐𝟐 𝝈𝝈𝟐𝟐
𝒏𝒏 =
� 𝟐𝟐 + 𝒛𝒛𝟐𝟐 𝝈𝝈𝟐𝟐
𝑵𝑵𝑵𝑵𝟐𝟐 𝑿𝑿
� 𝟐𝟐 se obtiene:
Si se divide tanto el numerador como denominador por 𝑿𝑿
𝝈𝝈 𝟐𝟐
𝑵𝑵𝑵𝑵𝟐𝟐 𝑿𝑿�𝟐𝟐
𝒏𝒏 = 𝝈𝝈 𝟐𝟐
𝑵𝑵𝑵𝑵𝟐𝟐 + 𝒛𝒛𝟐𝟐 � 𝟐𝟐
𝑿𝑿
𝑵𝑵𝑵𝑵𝟐𝟐 𝑪𝑪𝑪𝑪𝟐𝟐
𝒏𝒏 = (4)
𝑵𝑵𝑵𝑵𝟐𝟐 +𝒛𝒛𝟐𝟐 𝑪𝑪𝑪𝑪𝟐𝟐
𝝈𝝈
� = 𝒛𝒛
𝒓𝒓𝑿𝑿
√𝒏𝒏
𝝈𝝈𝟐𝟐
𝟐𝟐 � 𝟐𝟐 𝟐𝟐
𝒓𝒓 𝑿𝑿 = 𝒛𝒛
𝒏𝒏
𝒛𝒛𝟐𝟐 𝝈𝝈𝟐𝟐
𝒏𝒏 =
� 𝟐𝟐
𝒓𝒓𝟐𝟐 𝑿𝑿
𝒛𝒛𝟐𝟐
𝒏𝒏 = 𝒓𝒓𝟐𝟐 𝑪𝑪𝑪𝑪𝟐𝟐 (5)
124 de 357
Tercer semestre
Las fórmulas (4) y (5) tienen como ventaja adicional que no es necesario conocer el
valor de los parámetros poblacionales y es suficiente con definir la relación entre la
desviación respecto a la media.
Respuesta
El problema indica que el parámetro de interés es un promedio (pago promedio a
proveedores), además brinda la siguiente información:
N=4,000
r =10%
1-α=0.95 es decir α= 1- 0.95 = 0.05
CV=1.2
𝑵𝑵𝑵𝑵𝟐𝟐 𝑪𝑪𝑪𝑪𝟐𝟐
𝒏𝒏 =
𝑵𝑵𝑵𝑵𝟐𝟐 + 𝒛𝒛𝟐𝟐 𝑪𝑪𝑪𝑪𝟐𝟐
125 de 357
Tercer semestre
𝒏𝒏 = 𝟒𝟒𝟒𝟒𝟒𝟒. 𝟗𝟗𝟗𝟗
Es decir, se requiere una muestra de 486 comprobantes para garantizar una
estimación que difiera en 10% del promedio real con una confiabilidad de 95%.
Respuesta
Del ejemplo anterior se conoce que r =10%, z = 1.96 y CV = 1.2. Sustituyendo estos
valores en la fórmula (5) se obtiene:
𝒛𝒛𝟐𝟐 𝟐𝟐
𝒏𝒏 = 𝑪𝑪𝑪𝑪
𝒓𝒓𝟐𝟐
𝟏𝟏. 𝟗𝟗𝟗𝟗𝟐𝟐
𝒏𝒏 = 𝟏𝟏. 𝟐𝟐𝟐𝟐
𝟎𝟎. 𝟏𝟏𝟐𝟐
𝒏𝒏 = 𝟓𝟓𝟓𝟓𝟓𝟓. 𝟏𝟏𝟏𝟏
126 de 357
Tercer semestre
3.5. Estimación de una media
con muestras pequeñas
En la sección anterior, se mostró cómo realizar estimaciones de la media con
muestras grandes; sin embargo, en la práctica es común enfrentar situaciones donde
el tamaño de la muestra es menor a 30 elementos. ¿Cómo realizar estimaciones
para este caso? Sabemos que la distribución de la media muestral tiende a ser una
normal conforme aumenta el tamaño de muestra; para muestras pequeñas, donde
además se desconoce la varianza poblacional, la distribución del estimador muestral
se asemeja: puede modelarse con una distribución t de Student, con n – 1 grados de
libertad. La distribución t se aproxima a una normal estándar en la medida que
aumenta el tamaño de la muestra.
Fórmula
Tamaño
Parámetro Desviación
Estimador de la Intervalo de Estimador
población estándar del
muestra confianza puntual estimador
𝒔𝒔 𝒔𝒔
Promedio ∑ 𝒙𝒙𝒊𝒊 𝒔𝒔𝒙𝒙� =
�
𝒙𝒙 n<30 � ± 𝒕𝒕
𝑰𝑰𝑰𝑰 = 𝒙𝒙 �=
𝒙𝒙 √𝒏𝒏
μ √𝒏𝒏 𝒏𝒏
127 de 357
Tercer semestre
La tabla 5 tiene la misma descripción que la tabla 4, con la diferencia que el nivel de
confianza está expresado en el cuantil t de una distribución t de Student con n – 1
𝜶𝜶 𝜶𝜶
grados de libertad que parte la curva en dos áreas, una con valor 1-𝟐𝟐 y la otra de 𝟐𝟐,
[Link](probabilidad, grados_de_libertad
𝜶𝜶
• En esta función, el parámetro probabilidad se refiere a 𝟐𝟐 y el resultado es el cuantil
𝜶𝜶 𝜶𝜶
t, que separa la curva en dos regiones, una con área 1-𝟐𝟐 y la otra de 𝟐𝟐 , siendo α un
valor entre 0 y 1.)
1-
128 de 357
Tercer semestre
Supóngase que se desea realizar una estimación con un nivel de confianza de 90%
con una muestra de 10 elementos.
Se sustituyen en la
De esta forma, se
fórmula:
obtiene el valor
[Link](0.05, 9)
buscado.
= 2.26
Primer ejemplo
129 de 357
Tercer semestre
La siguiente tabla muestra la información.
130 de 357
Tercer semestre
Respuestas
1. Determinar el estimador del 2. Calcular el estimador puntual a través de la
parámetro 𝒙𝒙
� fórmula correspondiente:
∑ 𝒙𝒙𝒊𝒊
�=
𝒙𝒙
𝒏𝒏
𝟐𝟐𝟐𝟐 + 𝟒𝟒𝟒𝟒 + ⋯ + 𝟑𝟑𝟑𝟑 + 𝟐𝟐𝟐𝟐
�=
𝒙𝒙
𝟏𝟏𝟏𝟏
𝟑𝟑𝟑𝟑𝟑𝟑
�=
𝒙𝒙 = 𝟑𝟑𝟑𝟑. 𝟑𝟑
𝟏𝟏𝟏𝟏
3. Determinar la fórmula para 4. Establecer el nivel de confianza para calcular el
realizar el cálculo de la valor del punto de corte a través de α:
estimación por intervalo: Nivel de confianza = 95%, es decir, 0.95
𝒔𝒔 Determinar el valor de α:
� ± 𝒕𝒕
𝑰𝑰𝑰𝑰 = 𝒙𝒙
√𝒏𝒏
α = 1 – nivel de confianza
α = 1 – 0.95
α = 0.05
Calcular el valor del punto de corte t con la función
Excel:
[Link](α /2, n-1)
[Link](0.05/2, 10-1)
[Link](0.025, 9)
t = 2.685 = 2.69
5. Sustituir los valores en la 6. Sustituir los valores en la fórmula general para
fórmula general para calcular el calcular el límite inferior (LI) y límite superior (LS)
límite inferior (LI) y límite superior del intervalo:
(LS) del intervalo: 𝒔𝒔
� ± 𝒁𝒁
𝑰𝑰𝑰𝑰 = 𝒙𝒙
𝒔𝒔 √𝒏𝒏
𝑰𝑰𝑰𝑰 = �
𝒙𝒙 ± 𝒁𝒁
√𝒏𝒏 𝑰𝑰𝑰𝑰 = 𝟑𝟑𝟑𝟑. 𝟑𝟑 ± 𝟐𝟐. 𝟔𝟔𝟔𝟔 ∙ 𝟐𝟐. 𝟐𝟐𝟐𝟐
𝑰𝑰𝑰𝑰 = 𝟑𝟑𝟑𝟑. 𝟑𝟑 ± 𝟐𝟐. 𝟔𝟔𝟔𝟔 ∙ 𝟐𝟐. 𝟐𝟐𝟐𝟐 𝑰𝑰𝑰𝑰 = 𝟑𝟑𝟑𝟑. 𝟑𝟑 ± 𝟔𝟔. 𝟎𝟎𝟎𝟎𝟎𝟎
𝑰𝑰𝑰𝑰 = 𝟑𝟑𝟑𝟑. 𝟑𝟑 ± 𝟔𝟔. 𝟎𝟎𝟎𝟎𝟎𝟎 𝑳𝑳𝑳𝑳 = 𝟑𝟑𝟑𝟑. 𝟑𝟑 − 𝟔𝟔. 𝟎𝟎𝟎𝟎𝟎𝟎
𝑳𝑳𝑳𝑳 = 𝟑𝟑𝟑𝟑. 𝟑𝟑 − 𝟔𝟔. 𝟎𝟎𝟎𝟎𝟎𝟎
𝑳𝑳𝑳𝑳 = 𝟐𝟐𝟐𝟐. 𝟐𝟐𝟐𝟐 𝑳𝑳𝑳𝑳 = 𝟐𝟐𝟐𝟐. 𝟐𝟐𝟐𝟐
𝑳𝑳𝑳𝑳 = 𝟑𝟑𝟑𝟑. 𝟑𝟑 + 𝟔𝟔. 𝟎𝟎𝟎𝟎𝟎𝟎 𝑳𝑳𝑳𝑳 = 𝟑𝟑𝟑𝟑. 𝟑𝟑 + 𝟔𝟔. 𝟎𝟎𝟎𝟎𝟎𝟎
𝑳𝑳𝑳𝑳 = 𝟑𝟑𝟑𝟑. 𝟑𝟑𝟑𝟑 𝑳𝑳𝑳𝑳 = 𝟑𝟑𝟑𝟑. 𝟑𝟑𝟑𝟑
131 de 357
Tercer semestre
7. Construir el intervalo de confianza:
𝑰𝑰𝑰𝑰 = (𝑳𝑳𝑳𝑳, 𝑳𝑳𝑳𝑳)
𝑰𝑰𝑰𝑰 = (𝟐𝟐𝟐𝟐. 𝟐𝟐𝟐𝟐, 𝟑𝟑𝟑𝟑. 𝟑𝟑𝟑𝟑)
Con base en la estimación puntual, el promedio de horas de capacitación fue de 30.3
horas en el mes de julio.
De acuerdo con la estimación por intervalo, el promedio de horas de capacitación
recibidas en el mes de julio por los empleados del área operativa de la empresa de
refrescos está entre 24.25 y 36.34 horas, con un 95% de confianza.
Segundo ejemplo
4 259,036
5 269,143
6 279,054
7 286,484
132 de 357
Tercer semestre
8 292,889
9 299,688
10 305,969
11 314,557
12 316,589
13 324,413
14 330,382
15 337,431
16 342,457
Respuestas
133 de 357
Tercer semestre
utilizando la función Excel:
DISTR. T. INV (α /2, n-1)
DISTR.T. INV (0.01/2, 16-1)
DISTR. T. INV (0.005,15)
𝟏𝟏𝟏𝟏, 𝟒𝟒𝟒𝟒𝟒𝟒, 𝟒𝟒𝟒𝟒𝟒𝟒, 𝟔𝟔𝟔𝟔𝟔𝟔
𝒔𝒔 = �
t = 3.286 = 2.29 𝟏𝟏𝟏𝟏
𝒔𝒔 = �𝟏𝟏𝟏𝟏𝟏𝟏, 𝟖𝟖𝟖𝟖𝟖𝟖𝟖𝟖, 𝟕𝟕𝟕𝟕𝟕𝟕. 𝟎𝟎𝟎𝟎
𝒔𝒔 = 𝟑𝟑𝟑𝟑, 𝟎𝟎𝟎𝟎𝟎𝟎. 𝟖𝟖𝟖𝟖
LI LS
134 de 357
Tercer semestre
3.6. Estimación de
una proporción
Como se ha comentado, la media muestral se acerca a una distribución normal que
tiene como valor esperado el promedio poblacional, y su varianza es la varianza
poblacional entre el tamaño de la muestra. Una proporción muestral es, en cierta
manera, un promedio donde los valores son ceros y unos, por lo que su distribución
se acerca a una normal cuya media es la proporción poblacional, y la varianza es la
proporción por su complemento entre el tamaño de muestra.
Fórmula
Parámetro Desviación
Estimador Intervalo de Estimador
población estándar del
confianza puntual
estimador
𝒙𝒙𝒊𝒊 𝒑𝒑𝒑𝒑
𝒑𝒑 = 𝒔𝒔𝒑𝒑 = �
Proporción 𝒑𝒑𝒑𝒑 𝒏𝒏 𝒏𝒏
p 𝑰𝑰𝑰𝑰 = 𝒑𝒑 ± 𝒁𝒁�
P 𝒏𝒏
𝒙𝒙𝒊𝒊 = 𝟎𝟎 𝒐𝒐 𝟏𝟏 q=1-p
135 de 357
Tercer semestre
A continuación, se presenta un ejemplo de estimación de una proporción poblacional
con la información de una muestra.
Gasto en Gasto en
Factura Factura
miles miles
1 99 16 96
2 15 17 79
3 59 18 71
4 14 19 56
5 72 20 51
6 59 21 72
7 68 22 25
8 22 23 71
9 40 24 52
10 79 25 99
11 97 26 70
12 82 27 82
13 93 28 47
14 76 29 35
15 48 30 93
136 de 357
Tercer semestre
c. Interpretar los resultados.
Respuestas
137 de 357
Tercer semestre
6. Determinar la fórmula para calcular la 7. Calcular la desviación del estimador a
desviación estándar del estimador: través de la fórmula correspondiente:
𝒑𝒑𝒑𝒑
𝒔𝒔𝒑𝒑 = � 𝟎𝟎. 𝟐𝟐𝟐𝟐𝟐𝟐 ∙ 𝟎𝟎. 𝟕𝟕𝟕𝟕𝟕𝟕
𝒏𝒏 𝒔𝒔𝒑𝒑 = �
𝟑𝟑𝟑𝟑
Donde 𝒑𝒑 = 𝟎𝟎. 𝟐𝟐𝟐𝟐𝟐𝟐
𝒒𝒒 = 𝟏𝟏 − 𝒑𝒑 𝟎𝟎. 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏
𝒔𝒔𝒑𝒑 = �
𝒒𝒒 = 𝟏𝟏 − 𝟎𝟎. 𝟐𝟐𝟐𝟐𝟐𝟐 𝟑𝟑𝟑𝟑
8. Sustituir los valores en la fórmula para calcular el límite inferior (LI) y límite superior
(LS) del intervalo de confianza (IC):
𝒑𝒑𝒑𝒑
𝑰𝑰𝑰𝑰 = 𝒑𝒑 ± 𝒁𝒁�
𝒏𝒏
𝑰𝑰𝑰𝑰 = 𝟎𝟎. 𝟐𝟐𝟐𝟐𝟐𝟐 ± 𝟏𝟏. 𝟗𝟗𝟗𝟗 ∙ 𝟎𝟎. 𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎
𝑰𝑰𝑰𝑰 = 𝟎𝟎. 𝟐𝟐𝟐𝟐𝟐𝟐 ± 𝟎𝟎. 𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎
𝑳𝑳𝑳𝑳 = 𝟎𝟎. 𝟐𝟐𝟐𝟐𝟐𝟐 − 𝟎𝟎. 𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎
𝑳𝑳𝑳𝑳 = 𝟎𝟎. 𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐
𝑳𝑳𝑳𝑳 = 𝟎𝟎. 𝟐𝟐𝟐𝟐𝟐𝟐 + 𝟎𝟎. 𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎
𝑳𝑳𝑳𝑳 = 𝟎𝟎. 𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐
138 de 357
Tercer semestre
3.6.1. Determinación del tamaño de muestra para
estimar una proporción
Al despejar n se obtiene:
𝑵𝑵𝒛𝒛𝟐𝟐 𝒑𝒑𝒑𝒑
𝒏𝒏 = (6)
𝑵𝑵𝑩𝑩𝟐𝟐 +𝒛𝒛𝟐𝟐 𝒑𝒑𝒑𝒑
Donde q = 1-p
Obsérvese que las fórmulas (2) y (6) de la sección 3.4.1 son semejantes, sólo
cambia σ2 por pq.
𝒛𝒛𝟐𝟐 𝒑𝒑𝒑𝒑
𝒏𝒏 = (7)
𝑩𝑩𝟐𝟐
139 de 357
Tercer semestre
Que es la manera de calcular el tamaño de muestra cuando se desconoce el tamaño
𝒏𝒏
de la población o la proporción 𝑵𝑵 < 𝟎𝟎. 𝟎𝟎𝟎𝟎.
Respuesta
Se desea estimar una proporción (proporción de negocios que aplica el proceso
administrativo), la información que proporciona el problema es:
N = 8,500
B = 10% = 0.1
1-α = 0.95, es decir, α=0.05
𝒏𝒏 = 𝟗𝟗𝟗𝟗. 𝟗𝟗𝟗𝟗
140 de 357
Tercer semestre
Es decir, se requiere una muestra de 95 establecimientos para garantizar una
estimación que difiera en 10% de la proporción real con una confiabilidad de 95%.
Respuesta
Del ejemplo anterior se conoce que B=10%, z= 1.96 y P = 0.5. Sustituyendo estos
valores en la fórmula (7) se obtiene:
𝒏𝒏 = 𝟗𝟗𝟗𝟗. 𝟎𝟎𝟎𝟎
141 de 357
Tercer semestre
3.7. Otros intervalos de confianza
(𝒏𝒏 − 𝟏𝟏)𝑺𝑺𝟐𝟐
𝟐𝟐
~ ᵡ𝟐𝟐𝒏𝒏−𝟏𝟏
𝝈𝝈
(𝒏𝒏−𝟏𝟏)𝑺𝑺𝟐𝟐
Este resultado indica que el cociente 𝝈𝝈𝟐𝟐
tiene una distribución ji cuadrada con n –
1 grados de libertad. De esta manera, para construir un intervalo de confianza para la
varianza poblacional, se empleará una distribución ji cuadrada con n – 1 grados de
libertad.
142 de 357
Tercer semestre
Figura 10. Ubicación de los cuantiles de una distribución ji cuadrada que
permitan construir un intervalo que contenga a 𝝈𝝈𝟐𝟐
con un nivel de confianza 1-α
La figura anterior ilustra la ubicación de los cuantiles que encierran una región cuya
área es 1 – α. El valor superior ( ᵡ𝟐𝟐 𝒔𝒔 ) separa la curva en dos regiones, donde la
𝜶𝜶
derecha tiene un área de 𝟐𝟐). El valor inferior (ᵡ𝟐𝟐 𝒊𝒊 ), por su parte, separa la curva en dos
𝛼𝛼
regiones, donde la izquierda tiene un área de 2
.
Supóngase que se desea encontrar los puntos críticos que garantizan un nivel de
confianza del 90% con una muestra de 30 elementos.
143 de 357
Tercer semestre
Se establece el nivel de confianza:
Nivel de confianza = 90%, es decir, 0.90
Se determina α:
α = 1 – nivel de confianza
α = 1 – 0.90
α = 0.1
Se divide alfa entre 2:
𝟎𝟎. 𝟏𝟏
= 𝟎𝟎. 𝟎𝟎𝟎𝟎
𝟐𝟐
𝜶𝜶
Se calcula el punto que corta la curva en dos regiones: una de área 𝟐𝟐 (región
𝜶𝜶
derecha) y otra de 𝟏𝟏 − 𝟐𝟐 (región izquierda), con la fórmula:
𝜶𝜶
[Link] ( 𝟐𝟐 , n-1)
𝟎𝟎.𝟏𝟏
[Link] ( 𝟐𝟐 , 30-1)
[Link] (0.05,29)
𝟐𝟐
ᵡ𝐒𝐒 = 42.556
144 de 357
Tercer semestre
En la figura 11 se representa el resultado obtenido al aplicar la fórmula. Nótese que
𝜶𝜶
el cuantil divide la curva en dos regiones: la de la derecha tiene un área de 𝟐𝟐 ; y la de
𝜶𝜶
la izquierda, de 𝟏𝟏 − 𝟐𝟐 .
A continuación se calcula el punto que corta la curva en dos regiones: una de área
𝜶𝜶 𝜶𝜶
𝟏𝟏 −
𝟐𝟐
(región derecha) y otra de 𝟐𝟐
(región izquierda), con la fórmula:
𝛂𝛂
[Link] (𝟏𝟏 − 𝟐𝟐 , n-1)
[Link] (0.975,29)
𝐗𝐗 𝐢𝐢 𝟐𝟐 = 16.047
145 de 357
Tercer semestre
La figura anterior ilustra el resultado al aplicar la fórmula. Nótese que el cuantil divide
𝜶𝜶
la curva en dos regiones: la de la derecha tiene un área de 𝟏𝟏 − 𝟐𝟐 ; y la de la izquierda,
𝜶𝜶
de 𝟐𝟐 .
(𝒏𝒏−𝟏𝟏)𝑺𝑺𝟐𝟐 𝟐𝟐
(𝒏𝒏−𝟏𝟏)𝑺𝑺𝟐𝟐
≤ 𝝈𝝈 ≤
𝑿𝑿𝒔𝒔 𝟐𝟐 𝑿𝑿𝒊𝒊 𝟐𝟐
La tabla 7 presenta los elementos requeridos para realizar una estimación de
intervalo de una varianza poblacional.
Fórmula
Parámetro
Estimador Intervalo de Estimador Varianza
población
Confianza puntual muestral
(𝒏𝒏 − 𝟏𝟏)𝑺𝑺𝟐𝟐
𝑳𝑳𝑳𝑳 =
𝑿𝑿𝒔𝒔 𝟐𝟐 (𝒏𝒏 − 𝟏𝟏)𝑺𝑺𝟐𝟐
Varianza � 𝟐𝟐 =
𝝈𝝈 �)𝟐𝟐
∑(𝒙𝒙𝒊𝒊 − 𝒙𝒙
� 𝟐𝟐
𝝈𝝈 𝑿𝑿𝟐𝟐 𝑺𝑺𝟐𝟐 =
𝝈𝝈𝟐𝟐 𝒏𝒏 − 𝟏𝟏
(𝒏𝒏 − 𝟏𝟏)𝑺𝑺𝟐𝟐
𝑳𝑳𝑳𝑳 =
𝑿𝑿𝒊𝒊 𝟐𝟐
146 de 357
Tercer semestre
Un parque de diversiones es visitado
en promedio por 50 000 personas al
mes. Con la finalidad de diseñar una
promoción que incentive el consumo
de productos ofrecidos por el parque,
el gerente quiere conocer la
variabilidad del gasto de las familias
que lo visitan en un día. Para tal
efecto, se entrevistó a 30 familias
elegidas al azar y se registró su consumo durante su estadía.
Gasto al Gasto al
Factura Factura
día día
1 645 16 470
2 1,177 17 1,264
3 524 18 436
4 1,192 19 645
5 746 20 409
6 803 21 709
7 1,612 22 1,009
8 382 23 1,180
9 571 24 1,410
10 697 25 377
11 792 26 1,283
12 442 27 1,321
13 959 28 1,534
14 881 29 675
15 1,506 30 1,625
147 de 357
Tercer semestre
Respuestas:
148 de 357
Tercer semestre
𝟒𝟒, 𝟕𝟕𝟕𝟕𝟕𝟕, 𝟓𝟓𝟓𝟓𝟓𝟓. 𝟖𝟖 𝟒𝟒, 𝟕𝟕𝟕𝟕𝟕𝟕, 𝟓𝟓𝟓𝟓𝟓𝟓. 𝟖𝟖
𝑳𝑳𝑳𝑳 = 𝑳𝑳𝑳𝑳 =
𝟒𝟒𝟒𝟒. 𝟓𝟓𝟓𝟓 𝟏𝟏𝟏𝟏. 𝟎𝟎𝟎𝟎
𝑳𝑳𝑳𝑳 = 𝟏𝟏𝟏𝟏𝟏𝟏, 𝟖𝟖𝟖𝟖𝟖𝟖. 𝟎𝟎𝟎𝟎 𝑳𝑳𝑳𝑳 = 𝟐𝟐𝟐𝟐𝟐𝟐, 𝟗𝟗𝟗𝟗𝟗𝟗. 𝟔𝟔𝟔𝟔𝟔𝟔
Calcular la raíz cuadrada para Calcular la raíz cuadrada para obtener el valor
obtener el valor inferior de la superior de la desviación poblacional:
desviación poblacional: 𝝈𝝈𝑳𝑳𝑳𝑳 = 𝟓𝟓𝟓𝟓𝟓𝟓. 𝟏𝟏𝟏𝟏
𝝈𝝈𝑳𝑳𝑳𝑳 = 𝟑𝟑𝟑𝟑𝟑𝟑. 𝟗𝟗𝟗𝟗
Construir el intervalo de confianza para la desviación poblacional:
𝑰𝑰𝑰𝑰 = (𝑳𝑳𝑳𝑳, 𝑳𝑳𝑳𝑳)
𝑰𝑰𝑰𝑰 = (𝟑𝟑𝟑𝟑𝟑𝟑, 𝟓𝟓𝟓𝟓𝟓𝟓)
333 542
LI LS
149 de 357
Tercer semestre
RESUMEN
Se expusieron las bases para llevar a cabo la estimación de parámetros, uno de los
principales temas de la Estadística II. Se mostraron los tipos de estimaciones que
pueden realizarse de un parámetro (puntual y por intervalo) y se analizaron las
posibles fuentes de error de estimación, que pueden ser atribuibles a la muestra
recabada o a otras causas. Es factible que el riesgo de error de estimación por
causas no atribuibles al muestreo disminuya a través de un buen diseño del
instrumento, de la logística y considerando la posible no respuesta.
Por otro lado, se expusieron las propiedades que se buscan en los estimadores: que
sean insesgados, eficientes y consistentes.
150 de 357
Tercer semestre
BIBLIOGRAFÍA
SUGERIDA
151 de 357
Tercer semestre
UNIDAD 4
Pruebas de hipótesis
152 de 357
Tercer semestre
OBJETIVO PARTICULAR
Al terminar la unidad, el alumno conocerá las pruebas de hipótesis y su aplicación.
TEMARIO DETALLADO
(10 horas)
4. Pruebas de hipótesis
4.1. Planteamiento de las hipótesis
4.2. Errores tipo I y tipo II
4.3. Pruebas de uno y de dos extremos, y regiones de aceptación y de rechazo
4.4. Pruebas de hipótesis para una media poblacional
4.5. Tres métodos para realizar pruebas de hipótesis
4.5.1. El método del intervalo
4.5.2. El método estadístico de prueba
4.5.3. El método del valor de la P
4.6. Prueba de hipótesis sobre una proporción poblacional
4.7. Pruebas de hipótesis sobre la diferencia entre dos medias
4.8. Pruebas de hipótesis sobre la diferencia entre dos proporciones
4.9. Prueba para la diferencia entre dos varianzas
153 de 357
Tercer semestre
INTRODUCCIÓN
Hay dos temas que tienen mayor importancia en Estadística II: estimación de
parámetros y pruebas de hipótesis. En la unidad anterior, se expuso el tema de
estimación; ahora, se abordará el de pruebas de hipótesis.
En esta unidad se expone cómo plantear hipótesis, los tipos de errores que se
pueden cometer y las clases de pruebas. Además, se muestra cómo realizar
contrastes de hipótesis para una y dos medias, una y dos proporciones, y dos
varianzas.
154 de 357
Tercer semestre
4.1. Planteamiento de
las hipótesis
En todas las áreas del conocimiento donde se aplica el método científico, el
planteamiento de hipótesis desempeña un papel central. Después de observar una
situación, toda investigación parte de una hipótesis, la cual buscará apoyarse o no
con la evidencia recabada en una muestra. Por ejemplo, un investigador de las
ciencias administrativas podría estar interesado en demostrar que la proporción de
PYMES que fracasan los primeros cinco años de vida es mayor en el sector
comercial que en el de servicios. El gerente de marca de un producto desearía
demostrar que las ventas de su producto aumentan 10% si el tiempo de promoción
en radio es mayor a 25 minutos al día. O el coordinador de Matemáticas pretendería
demostrar que no hay diferencia en el desempeño de los alumnos del turno
vespertino respecto al matutino.
En este apartado, se mostrará qué es una hipótesis estadística, sus partes y cómo
plantearla.
155 de 357
Tercer semestre
Hipótesis estadística
Hipótesis alternativa
Hipótesis nula (H0) Nivel de significancia (α)
(H1 o Ha)
Enunciado referente
al comportamiento Enunciado que
del valor de un contrasta el
Probabilidad de no
parámetro comportamiento del
aceptar la hipótesis
poblacional que valor de un
nula cuando es
será probado a parámetro
verdadera.
través de la poblacional definido
información de una en la hipótesis nula.
muestra.
Probabilidad
de que el valor
Regla Valor del
arrojado por el
expresada con estadístico de Valores de la
estadístico de
una fórmula prueba a partir prueba donde
prueba sea
que involucra del cual se se rechaza la
observado si
los valores de rechaza la hipótesis nula.
la hipótesis
la muestra. hipótesis nula.
nula es
verdadera.
Planteamiento de hipótesis
156 de 357
Tercer semestre
El planteamiento de hipótesis consiste en definir tanto la hipótesis nula como la
alternativa de forma que involucre el parámetro a inferir. Es deseable plantear en la
hipótesis nula que el parámetro de interés es igual a cierto valor (𝜽𝜽 = 𝜽𝜽𝟎𝟎 ); y en la
alternativa, que es menor, mayor o diferente.
H0 : μ = 30
Ha : μ > 30
157 de 357
Tercer semestre
4.2. Errores tipo I y tipo II
Para realizar una prueba de hipótesis, se requiere recabar una muestra. Esto implica
asumir que la inferencia tendrá una desviación respecto al comportamiento real.
158 de 357
Tercer semestre
La tabla anterior muestra los escenarios posibles al realizar una prueba de hipótesis.
El primero ocurre cuando se toma una decisión correcta, ya sea aceptando o
rechazando la hipótesis cuando lo amerite. Los otros escenarios son los errores
mencionados previamente.
Este material se centra en controlar el error I. Para el manejo del error tipo II, se
recomienda consultar a Anderson (2012, pp. 382-387).
159 de 357
Tercer semestre
4.3. Pruebas de uno y de dos extremos
y regiones de aceptación y de rechazo
Existen dos pruebas:
160 de 357
Tercer semestre
En la figura 1, se ilustran los tipos de pruebas de hipótesis y sus zonas de rechazo.
Prueba de Hipótesis
Bilateral
Zona de No Rechazo
Zona Rechazo Zona Rechazo
Prueba de Hipótesis
Unilateral
Negativa Positiva
Zona de No Rechazo
Zona de No Rechazo
Zona Rechazo Zona Rechazo
El valor crítico
161 de 357
Tercer semestre
Donde la probabilidad es 1 – α. El resultado será el cuantil que separa la curva en
dos partes: 1 – α y α.
162 de 357
Tercer semestre
Fórmula general de un estadístico de prueba:
� − 𝜽𝜽𝟎𝟎
𝜽𝜽
𝑬𝑬𝑬𝑬 =
𝝈𝝈𝜽𝜽�
•
Donde:
EP = Estadístico de prueba
𝜽𝜽𝟎𝟎 = Parámetro poblacional asumiendo cierta la hipótesis nula
� = Estimador del parámetro
𝜽𝜽
𝝈𝝈𝜽𝜽� = Desviación estándar del estimador
Se cuenta con un estadístico de prueba para realizar una prueba con algún
parámetro. La tabla 3 contiene un resumen de los estadísticos de prueba a emplear
en esta unidad.
163 de 357
Tercer semestre
Tabla 3. Resumen de los elementos que conforman los estadísticos de prueba
para los casos a estudiar en esta unidad
Fórmula
Parámetro
Estimador Desviación estándar
poblacional Estadístico de prueba
del estimador
𝝈𝝈 � − 𝝁𝝁
𝒙𝒙
�
𝒙𝒙 𝝈𝝈𝒙𝒙� = 𝑬𝑬𝑬𝑬 = 𝝈𝝈
√𝒏𝒏
Promedio √𝒏𝒏
Si no se conoce σ, se
μ Si no se conoce σ, se
sustituye por s
sustituye por s
p 𝒑𝒑 − 𝑷𝑷
𝑷𝑷𝑷𝑷 𝑬𝑬𝑬𝑬 =
Proporción 𝝈𝝈𝒑𝒑 = � 𝑷𝑷𝑷𝑷
𝒏𝒏 �
𝒏𝒏
P q=1-p
�𝟏𝟏 − 𝒙𝒙
𝒙𝒙 �𝟐𝟐 �𝟏𝟏 − 𝒙𝒙
𝒙𝒙 �𝟐𝟐
𝝈𝝈𝟐𝟐 𝝈𝝈𝟐𝟐 𝑬𝑬𝑬𝑬 =
Diferencia de 𝝈𝝈𝒙𝒙�𝟏𝟏− 𝒙𝒙�𝟐𝟐 = � 𝟏𝟏 + 𝟐𝟐 𝝈𝝈𝟐𝟐𝟏𝟏 𝝈𝝈𝟐𝟐𝟐𝟐
𝒏𝒏𝟏𝟏 𝒏𝒏𝟐𝟐 � +
𝒏𝒏𝟏𝟏 𝒏𝒏𝟐𝟐
medias
Si no se conocen σ1, σ2, se Si no se conocen σ1, σ2, se
μ1 – μ2 sustituyen por s1 y s2 sustituyen por s1 y s2
Para terminar este apartado, en la figura 2 se ilustran los elementos que conforman
una prueba de hipótesis de dos colas con un estadístico de prueba con distribución
normal estándar.
164 de 357
Tercer semestre
Figura 2. Elementos de una prueba de hipótesis
No se rechaza Ho Se rechaza Ho
p-value
Planteamiento
Ho =
H1 =
Zona de Zona de
No Rechazo No Rechazo p-value
α/2 α/2 α/2 α/2
Zona Zona Zona Zona
Rechazo Rechazo Rechazo Rechazo
Punto Punto Punto Punto
crítico crítico crítico crítico
Estadístico Estadístico
de prueba de prueba
165 de 357
Tercer semestre
4.4. Pruebas de hipótesis
para una media poblacional
La primera prueba que se abordará en esta unidad se relaciona con el promedio
poblacional (μ). Para estimar este parámetro, se emplea el promedio muestral (𝒙𝒙
�). En
la segunda unidad, se mencionó que la distribución muestral de la media se acerca a
una normal cuando la varianza poblacional es conocida o si la muestra es de tamaño
de 30 o más elementos. Si se desconoce la varianza, la distribución muestral es una
t con n – 1 grados de libertad, la cual se aproxima a una normal estandarizada
conforme se incrementa la muestra.
166 de 357
Tercer semestre
Estadístico de prueba a utilizar:
� − 𝜽𝜽𝟎𝟎 𝒙𝒙
𝜽𝜽 � − 𝝁𝝁
𝑬𝑬𝑬𝑬 = =
𝝈𝝈𝜽𝜽� 𝝈𝝈𝒙𝒙�
Donde:
𝝈𝝈
𝝈𝝈𝒙𝒙� =
√𝒏𝒏
Ejemplo 1
Solución:
167 de 357
Tercer semestre
1. Identificar los datos 2. Definir las hipótesis
•El parámetro a probar es μ: •La hipótesis nula se establece con el valor
•μ = 6 histórico (μ = 6). La hipótesis alternativa se
•n = 30 encuentra en este segmento del enunciado
del problema: “el gerente del área llama la
•�
𝒙𝒙 = 𝟔𝟔. 𝟎𝟎𝟎𝟎
atención a los representantes médicos, pues
•s = 1.41 considera que el promedio de visitas ha
•α = 5% (0.05) disminuido en los últimos tres meses…”.
La prueba queda planteada así:
H0 : μ = 6
H1 : μ < 6
Es una prueba de un extremo (izquierdo).
168 de 357
Tercer semestre
Ejemplo 2
169 de 357
Tercer semestre
Solución:
El parámetro a probar es μ:
μ = 7.25
n = 40
α = 10% (0.10)
2. Calcular el promedio y desviación muestral. Se pueden emplear las fórmulas
promedio() y desvest()de Excel, o calcularlos con sus respectivas fórmulas.
Promedio muestral:
∑𝑛𝑛𝑖𝑖=1 𝑥𝑥𝑖𝑖
𝑥𝑥̅ =
𝑛𝑛
∑ 𝑥𝑥𝑖𝑖 223
𝑥𝑥̅ = =
𝑛𝑛 40
𝑥𝑥̅ = 5.57
Desviación estándar muestral:
∑(𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )2
𝑠𝑠 = �
𝑛𝑛 − 1
s = 3.23
3. Definir las hipótesis
170 de 357
Tercer semestre
4. Como el estadístico de prueba sigue una distribución normal estandarizada, se
determinará el valor crítico y la zona de rechazo con las fórmulas que
correspondan en Excel.
� − 𝝁𝝁
𝒙𝒙
𝑬𝑬𝑬𝑬 = 𝒔𝒔
√𝒏𝒏
𝟓𝟓. 𝟓𝟓𝟓𝟓 − 𝟕𝟕. 𝟐𝟐𝟐𝟐
𝑬𝑬𝑬𝑬 = 𝟑𝟑.𝟐𝟐𝟐𝟐
√𝟒𝟒𝟒𝟒
−𝟏𝟏. 𝟔𝟔𝟔𝟔
𝑬𝑬𝑬𝑬 = 𝟑𝟑.𝟐𝟐𝟐𝟐
𝟔𝟔.𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑
−𝟏𝟏. 𝟔𝟔𝟔𝟔
𝑬𝑬𝑬𝑬 =
𝟎𝟎. 𝟓𝟓𝟓𝟓𝟓𝟓𝟓𝟓
𝑬𝑬𝑬𝑬 = −𝟑𝟑. 𝟐𝟐𝟐𝟐
171 de 357
Tercer semestre
Se rechaza Ho
Zona de
No Rechazo
α= 0.10
Zona
Rechazo
PC = -1.28
EP = -3.28
Ejemplo 3
El gerente de producto de una marca de ropa conoce
que a nivel nacional los hogares de su segmento de
mercado destinan en promedio al mes $2,045 en la
compra de ropa y calzado. El gerente piensa que los
miembros de su programa de CRM (Customer
Relationship Management) no gastan esa cantidad.
Entonces, para diseñar una estrategia de venta con
los miembros de su programa de CRM, entrevista a
una muestra elegida al azar de 20 hogares, a
quienes pregunta la cantidad de dinero destinada a
vestido y calzado al mes. La muestra arrojó que en
promedio un hogar miembro del CRM gasta al mes
$1,930 con una desviación del $680. ¿Los resultados
anteriores apoyan la hipótesis del gerente, con una
significancia del 5%?
172 de 357
Tercer semestre
Solución:
Nuevamente, se siguen los pasos de los ejemplos anteriores.
−𝟏𝟏𝟏𝟏𝟏𝟏
𝟐𝟐𝟐𝟐
•En este caso, los puntos críticos se obtienen
•𝑬𝑬𝑬𝑬 = 𝟔𝟔𝟔𝟔𝟔𝟔 con la siguiente fórmula:
𝟒𝟒.𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒 •PC = [Link](0.05,19) = 2.0930
−𝟏𝟏𝟏𝟏𝟏𝟏
•𝑬𝑬𝑬𝑬 = •Como la prueba es de dos extremos y la
𝟏𝟏𝟏𝟏𝟏𝟏.𝟎𝟎𝟎𝟎
•𝑬𝑬𝑬𝑬 = −𝟎𝟎. 𝟕𝟕𝟕𝟕𝟕𝟕𝟕𝟕 fórmula considera esta situación, los puntos
críticos son ± 2.09.
El EP no se encuentra en la región de
rechazo, así que H0 no se rechaza a un
Zona de
nivel de significancia de 5%. Es decir, α= 0.025 No Rechazo α= 0.025
no hay elementos para no apoyar que
los hogares miembros del CRM Zona Zona
destinan al mes $2,045 en vestido y Rechazo Rechazo
calzado. PC = -2.09 PC = 2.09
EP = -0.76
173 de 357
Tercer semestre
4.5. Tres métodos para realizar
pruebas de hipótesis
En la sección anterior, se expuso cómo realizar pruebas de hipótesis para una
media, siguiendo estos pasos:
1. Plantear la hipótesis.
5. Concluir la prueba.
Para el punto 5, se pueden aplicar tres criterios: basarse en el valor del estadístico
de prueba, utilizar el p-value o emplear un intervalo de confianza. La siguiente sesión
muestra la manera de concluir una prueba de hipótesis utilizando los tres diferentes
métodos.
174 de 357
Tercer semestre
4.5.1. El método del intervalo
Para ejemplificar el uso del método del intervalo de confianza, se retomará el ejemplo
3 de la sesión anterior, donde con una significancia de 5% se deseaba probar que los
hogares miembros del programa de CRM destinaban al mes en promedio una
cantidad diferente a $2,045 en vestido y calzado. Para realizar la prueba, se empleó
una muestra aleatoria de 20 familias, quienes en promedio destinaban
mensualmente $1,930 en adquirir vestido y calzado con una desviación del $680.
H0: μ = $2,045
H1: μ ≠ $2,045
175 de 357
Tercer semestre
Con el método de intervalo de confianza, se acepta la hipótesis nula si $2,045 se
encuentra contenido. Como la significancia de la prueba (α) es de 5%, la
confiabilidad del intervalo es 1 – α = 1 – 0.05 = 0.95.
𝒔𝒔
� ± 𝒕𝒕
𝑰𝑰𝑰𝑰 = 𝒙𝒙
√𝒏𝒏
𝟔𝟔𝟔𝟔𝟔𝟔
𝑰𝑰𝑰𝑰 = 𝟏𝟏, 𝟗𝟗𝟗𝟗𝟗𝟗 ± 𝟐𝟐. 𝟎𝟎𝟎𝟎 ∙
√𝟐𝟐𝟐𝟐
Como el valor del parámetro bajo la hipótesis nula (2,045) lo contiene el intervalo, no
se rechaza 𝑯𝑯𝟎𝟎
En los ejemplos utilizados en las pruebas sobre la media se procedía a delimitar las
regiones de aceptación y rechazo de acuerdo con la distribución del estadístico de
prueba. Luego, con los valores de la muestra, se calculaba el valor del estadístico de
prueba y se observaba la región donde caía este valor:
176 de 357
Tercer semestre
4.5.3. El método del valor de la p
Otro criterio para determinar si se acepta o no una hipótesis es a través del valor de
la p, conocido como p-value. Este valor es la probabilidad de que el estadístico de
prueba sea el que arroje la muestra o un valor mayor.
DISTR.T(–7563,19,2) = 0.4587
Como el p-value es mayor a 0.05, no se rechaza la hipótesis nula.
177 de 357
Tercer semestre
4.6. Prueba de hipótesis sobre una
proporción poblacional
Donde:
𝑷𝑷(𝟏𝟏 − 𝑷𝑷)
𝝈𝝈𝒑𝒑 = �
𝒏𝒏
Ejemplo 1
178 de 357
Tercer semestre
una significancia de 0.05, se pide confirmar si se apoya lo dicho por el gerente de
logística.
Solución
Se realiza lo mismo de los ejemplos anteriores.
No se rechaza Ho
Solución:
Se procede como en los ejemplos anteriores.
180 de 357
Tercer semestre
1. Establecer los datos 2. Definir las hipótesis
•Parámetro solicitado P: •En este ejemplo, la hipótesis nula se
P = 72%, 0.72 establece con el valor conocido de la
•𝑸𝑸 = 𝟏𝟏 − 𝑷𝑷 población (P = 0.72). La hipótesis
•𝑸𝑸 = 𝟏𝟏 − 𝟎𝟎. 𝟕𝟕𝟕𝟕 alternativa se encuentra en este
•𝑸𝑸 = 𝟎𝟎. 𝟐𝟐𝟐𝟐 segmento del enunciado del problema:
•n = 300 “estas cifras no coinciden con la
realidad nacional”.
•α = 0.10
La prueba queda definida así:
•Probabilidad = 1 – 0.10 = 0.9 H0 : P = 0.72
𝟐𝟐𝟐𝟐𝟐𝟐
•𝒑𝒑 = = 𝟎𝟎. 𝟖𝟖𝟖𝟖 H1 : P ≠ 0.72
𝟑𝟑𝟑𝟑𝟑𝟑
Es una prueba de dos extremos.
Se rechaza Ho
EP = 5.78
181 de 357
Tercer semestre
4.7. Pruebas de hipótesis sobre
la diferencia entre dos medias
Es común enfrentarse a situaciones donde se desea comparar los parámetros de dos
poblaciones. Por ejemplo, el director de mercadotecnia de una organización podría
estar interesado en conocer el nivel de ingreso de cierto segmento de interés en el
Distrito Federal y en Tijuana; o el director de la FCA se interesaría en conocer el nivel
de matemáticas de los alumnos de primer ingreso provenientes del concurso de
selección en comparación con los de pase reglamentario.
� − 𝜽𝜽𝟎𝟎 𝒙𝒙
𝜽𝜽 �𝟏𝟏 − 𝒙𝒙 �𝟐𝟐
𝑬𝑬𝑬𝑬 = =
𝝈𝝈𝜽𝜽� 𝝈𝝈𝛍𝛍𝟏𝟏 – 𝛍𝛍𝟐𝟐
Donde:
𝝈𝝈𝟐𝟐𝟏𝟏 𝝈𝝈𝟐𝟐𝟐𝟐
𝝈𝝈𝛍𝛍𝟏𝟏 – 𝛍𝛍𝟐𝟐 = +
𝒏𝒏𝟏𝟏 𝒏𝒏𝟐𝟐
182 de 357
Tercer semestre
Esto es cuando se conoce la varianza poblacional; en caso contrario, se sustituye
por s.
𝒔𝒔𝟐𝟐 𝒔𝒔𝟐𝟐
(𝒏𝒏𝟏𝟏 + 𝒏𝒏𝟐𝟐 )𝟐𝟐
𝟏𝟏 𝟐𝟐
𝒈𝒈𝒈𝒈 = 𝟐𝟐
𝟏𝟏 𝒔𝒔𝟏𝟏 𝟐𝟐 𝟏𝟏 𝒔𝒔𝟐𝟐𝟐𝟐 𝟐𝟐
( ) + 𝒏𝒏𝟐𝟐 − 𝟏𝟏 𝒏𝒏𝟐𝟐 )
(
𝒏𝒏𝟏𝟏 − 𝟏𝟏 𝒏𝒏𝟏𝟏
Ejemplo 1
183 de 357
Tercer semestre
Solución:
Se procede como en los ejemplos anteriores.
184 de 357
Tercer semestre
2. Definir las hipótesis
•En este ejemplo, la hipótesis nula es
que no existe diferencia entre los
grupos (μ1 = μ2, equivalente a μ1-μ2 =
0). La hipótesis alternativa se
encuentra en este segmento del
enunciado del problema: “si existe
diferencia entre los grupos al tiempo
promedio destinado a ejercitarse”.
•La prueba queda planteada así:
•H0: μ1 = μ2
•H1: μ1 ≠ μ2
•La prueba es de dos extremos.
No se rechaza Ho
EP = 1.36
185 de 357
Tercer semestre
Ejemplo 2
Solución:
186 de 357
Tercer semestre
1. Establecer los datos
2. Definir las hipótesis
Parámetro solicitado La hipótesis nula es que no existe diferencia entre los
μ1 – μ2: grupos (μ1 = μ2, lo cual es equivalente a μ1-μ2= 0). La
�𝟏𝟏 = 1.56
𝒙𝒙 hipótesis alternativa se encuentra implícita en este
segmento del enunciado del problema: “¿Existe
�𝟐𝟐 = 2.08
𝒙𝒙 evidencia estadística que apoye la promoción de una
𝒔𝒔𝟏𝟏 = 𝟎𝟎. 𝟐𝟐𝟐𝟐 política de contratación basada en el tiempo de traslado
del aspirante?”. Si hay una diferencia importante,
𝒔𝒔𝟐𝟐 = 𝟎𝟎. 𝟏𝟏𝟏𝟏
entonces se tiene el sustento para promover la política.
n1 = 30 La prueba queda planteada de la siguiente manera:
n2 = 35 H0 : μ1 = μ2
H1 : μ1≠μ2
α = 0.05 Es una prueba de dos extremos.
Se rechaza Ho
Se dibuja la gráfica para determinar la
zona donde se encuentra el valor del
estadístico de prueba:
El EP se sitúa en la región de rechazo, así
que H0 se rechaza a un nivel de
significancia de .05. Es decir, hay Zona de
elementos para apoyar que existe
No Rechazo
evidencia estadística que apoye la α= 0.025 α= 0.025
promoción de una política de contratación Zona Zona
basada en el tiempo de traslado del
Rechazo Rechazo
aspirante.
PC =- 1.96 PC = 1.96
EP =-4.98
187 de 357
Tercer semestre
4.8. Pruebas de hipótesis sobre la
diferencia entre dos proporciones
En este apartado, se muestra la prueba que realiza la diferencia entre dos
proporciones poblacionales (P1 – P2). En esencia, la prueba establece que no existe
diferencia importante entre las proporciones de estas poblaciones (P1 = P2). Para
estimar esta diferencia, se emplea la diferencia de las proporciones muestrales
(𝒑𝒑𝟏𝟏 − 𝒑𝒑𝟐𝟐 ).
•
Donde:
𝒑𝒑𝟏𝟏 (𝟏𝟏 − 𝒑𝒑𝟏𝟏 ) 𝒑𝒑𝟐𝟐 (𝟏𝟏 − 𝒑𝒑𝟐𝟐 )
𝝈𝝈𝒑𝒑𝟏𝟏 − 𝒑𝒑𝟐𝟐 = +
𝒏𝒏𝟏𝟏 𝒏𝒏𝟐𝟐
188 de 357
Tercer semestre
Ejemplo 1
El SUAYED de la FCA de la UNAM ofrece dos modalidades para cursar las carreras
impartidas en esa Facultad: universidad abierta y educación a distancia. En ambas
modalidades, se cuida la calidad de sus profesores para garantizar la excelencia
académica. Se sospecha que en la materia de Estadística II existe diferencia en la
reprobación, por lo que se seleccionaron al azar dos muestras: una de 80 alumnos
de educación a distancia y otra de 60 de universidad abierta, para comprobar si hay
diferencia en las modalidades. Los resultados de las muestras se presentan en la
siguiente tabla.
Con una significancia del 5%, ¿se apoya que no existe diferencia entre modalidades
en la materia de Estadística II?
189 de 357
Tercer semestre
Solución:
Modalidad Proporción de alumnos que
Prueba de hipótesis: aprueba 𝑝𝑝𝑖𝑖 no aprueba 𝑞𝑞𝑖𝑖
𝑯𝑯𝟎𝟎 = 𝒑𝒑𝟏𝟏 = 𝒑𝒑𝟐𝟐
𝑯𝑯𝟏𝟏 = 𝒑𝒑𝟏𝟏 ≠ 𝒑𝒑𝟐𝟐 Educación a 55 25
= 0.69 = 0.31
distancia 80 80
Universidad 32 28
= 0.53 = 0.47
abierta 60 60
Total 87 53
= 0.62 = 0.38
140 140
Estadístico de prueba:
𝒑𝒑𝟏𝟏 − 𝒑𝒑𝟐𝟐
𝒁𝒁 =
𝒑𝒑𝟏𝟏 (𝟏𝟏 − 𝒑𝒑𝟏𝟏 ) 𝒑𝒑𝟐𝟐 (𝟏𝟏 − 𝒑𝒑𝟐𝟐 )
+
𝒏𝒏𝟏𝟏 𝒏𝒏𝟐𝟐
𝒁𝒁
𝟎𝟎. 𝟔𝟔𝟔𝟔 − 𝟎𝟎. 𝟓𝟓𝟓𝟓
=
𝟎𝟎. 𝟔𝟔𝟔𝟔(𝟏𝟏 − 𝟎𝟎. 𝟔𝟔𝟔𝟔) 𝟎𝟎. 𝟓𝟓𝟓𝟓(𝟏𝟏 − 𝟎𝟎. 𝟓𝟓𝟓𝟓)
+
𝟖𝟖𝟖𝟖 𝟔𝟔𝟔𝟔
𝟎𝟎. 𝟏𝟏𝟏𝟏
𝒁𝒁 =
𝟎𝟎. 𝟔𝟔𝟔𝟔(𝟎𝟎. 𝟑𝟑𝟑𝟑) 𝟎𝟎. 𝟓𝟓𝟓𝟓(𝟎𝟎. 𝟒𝟒𝟒𝟒)
+
𝟖𝟖𝟖𝟖 𝟔𝟔𝟔𝟔
𝟎𝟎. 𝟏𝟏𝟏𝟏
𝒁𝒁 =
𝟎𝟎. 𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐 𝟎𝟎. 𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐
+
𝟖𝟖𝟖𝟖 𝟔𝟔𝟔𝟔
𝟎𝟎. 𝟏𝟏𝟏𝟏
𝒁𝒁 =
𝟎𝟎. 𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎 + 𝟎𝟎. 𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎
𝟎𝟎. 𝟏𝟏𝟏𝟏
𝒁𝒁 =
𝟎𝟎. 𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎
𝟎𝟎. 𝟏𝟏𝟏𝟏
𝒁𝒁 =
𝟎𝟎. 𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎
𝒁𝒁 = 𝟏𝟏. 𝟖𝟖𝟖𝟖
No se rechaza Ho
Punto crítico:
[Link](1-0.05/2) =
1.959
El EP se halla en la región de no rechazo,
así que H0 no se rechaza con una
significancia del 5%. Entonces, no hay
evidencia para rechazar la hipótesis nula de Zona de
que no existe diferencia entre las α= 0.025 No Rechazo α= 0.025
modalidades de acuerdo con la proporción
de estudiantes aprobados en la materia de Zona
Zona
Estadística II.
Rechazo Rechazo
PC = -1.96 PC = 1.96
EP = 1.81
190 de 357
Tercer semestre
Ejemplo 2
Con una significancia del 0.1, ¿se apoya que hay diferencia en el resultado de la
venta de acuerdo con la situación marital?
191 de 357
Tercer semestre
Solución: Muestra Resultado de la venta
Compra No compra
Matrimonios 63 37
Prueba de hipótesis: = 0.63 = 0.37
100 100
𝑯𝑯𝟎𝟎 = 𝒑𝒑𝟏𝟏 = 𝒑𝒑𝟐𝟐
𝑯𝑯𝒂𝒂 = 𝒑𝒑𝟏𝟏 ≠ 𝒑𝒑𝟐𝟐 Parejas en 47 53
= 0.47 = 0.53
unión libre 100 100
Total 110 90
= 0.55 = 0.45
200 200
Estadístico de prueba:
𝒑𝒑𝟏𝟏 − 𝒑𝒑𝟐𝟐
𝒁𝒁 =
𝒑𝒑𝟏𝟏 (𝟏𝟏 − 𝒑𝒑𝟏𝟏 ) 𝒑𝒑𝟐𝟐 (𝟏𝟏 − 𝒑𝒑𝟐𝟐 )
𝒏𝒏𝟏𝟏 + 𝒏𝒏
𝟎𝟎. 𝟔𝟔𝟔𝟔 − 𝟎𝟎.𝟐𝟐𝟒𝟒𝟒𝟒
𝒁𝒁 =
𝟎𝟎. 𝟔𝟔𝟔𝟔(𝟏𝟏 − 𝟎𝟎. 𝟔𝟔𝟔𝟔) 𝟎𝟎. 𝟒𝟒𝟒𝟒(𝟏𝟏 − 𝟎𝟎. 𝟒𝟒𝟒𝟒)
𝟏𝟏𝟏𝟏𝟏𝟏 + 𝟏𝟏𝟏𝟏𝟏𝟏
𝟎𝟎. 𝟏𝟏𝟏𝟏
𝒁𝒁 =
𝟎𝟎. 𝟔𝟔𝟔𝟔(𝟎𝟎. 𝟑𝟑𝟑𝟑) 𝟎𝟎. 𝟒𝟒𝟒𝟒(𝟎𝟎. 𝟓𝟓𝟓𝟓)
𝟏𝟏𝟏𝟏𝟏𝟏 + 𝟏𝟏𝟏𝟏𝟏𝟏
𝟎𝟎. 𝟏𝟏𝟏𝟏
𝒁𝒁 =
𝟎𝟎. 𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐 𝟎𝟎. 𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐
+
𝟏𝟏𝟏𝟏𝟏𝟏 𝟏𝟏𝟏𝟏𝟏𝟏
𝟎𝟎. 𝟏𝟏𝟏𝟏
𝒁𝒁 =
𝟎𝟎. 𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎 + 𝟎𝟎. 𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎
𝟎𝟎. 𝟏𝟏𝟏𝟏
𝒁𝒁 =
𝟎𝟎. 𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎
𝟎𝟎. 𝟏𝟏𝟏𝟏
𝒁𝒁 =
𝟎𝟎. 𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎
𝒁𝒁 = 𝟐𝟐. 𝟑𝟑𝟑𝟑
Se rechaza Ho
Punto crítico:
[Link](1-0.10/2) = 1.644
El EP se sitúa en la región de rechazo, por lo
que H0 se rechaza con una significancia del Zona de
α= 0.05 No Rechazo
10%. Luego, hay evidencia para no apoyar α= 0.05
que no existe diferencia en la proporción de Zona
matrimonios y parejas en unión libre que Zona
Rechazo Rechazo
realizan la compra del tiempo compartido.
PC = -1.64 PC = 1.64
EP =2.30
192 de 357
Tercer semestre
4.9. Prueba para la diferencia
entre dos varianzas
La última prueba que se abordará en esta unidad se utilizará para comparar dos
varianzas. A diferencia de las pruebas para comparar dos medias o dos
proporciones, la distribución del estadístico de prueba es sesgada a la derecha, la
cual es la distribución F (mencionada al final de la segunda unidad). Para emplear
esta distribución, se parte del supuesto de que las muestras provienen de
poblaciones con distribución normal y que las dispersiones son las mismas. Si no se
cumple el supuesto, la prueba caerá en la región de rechazo.
𝑺𝑺𝟐𝟐𝟏𝟏
𝑭𝑭 =
𝑺𝑺𝟐𝟐𝟐𝟐
•
Donde:
Al igual que las distribuciones t de Student y 𝝌𝝌𝟐𝟐 , la distribución F depende del número
de elementos de las muestras extraídas de cada población, así que esta distribución
tiene como parámetros los grados de libertad: el tamaño de la muestra de la primera
población menos uno y el tamaño de la muestra de la segunda población menos uno.
Se acostumbra colocar la varianza más grande de las muestras en el numerador. A
continuación, se desglosa un ejemplo.
193 de 357
Tercer semestre
Ejemplo
Una escuela tiene como política aplicar exámenes departamentales de cada materia
para comprobar que los conocimientos de los alumnos es el mismo
independientemente del grupo al que pertenezcan, con una significancia del 0.1. El
coordinador del área de matemáticas quiere saber si hay variación entre las
calificaciones obtenidas de los dos grupos de Estadística II, y aplica el examen
parcial de la materia a una muestra de diez alumnos de cada grupo. Las
calificaciones obtenidas en cada muestra son las siguientes:
Calificaciones
Grupo 1 Grupo 2
4 7
8 9
9 6
3 6
5 8
5 7
8 8
5 7
8 10
9 7
194 de 357
Tercer semestre
Respuesta:
No se rechaza Ho
6. Se dibuja la gráfica para
determinar las zonas de rechazo y α= 0.05
comparar el estadístico de prueba:
El EP se sitúa en la región de no
rechazo, así que H0 no se rechaza
con una significancia del 10%.
Luego, no hay evidencia para
rechazar que no hay variación Zona de α= 0.05
entre las calificaciones obtenidas Zona no
de los dos grupos de Estadística Rechazo Rechazo Zona
Inferencial. Rechazo
PC = 3.17
PC = 0.31 EP = 3.06
195 de 357
Tercer semestre
RESUMEN
En esta unidad, se trató el tema de prueba de hipótesis, consistente en un contraste
de dos supuestos sobre el valor de un parámetro, el cual se prueba con los
resultados de una muestra. Se analizó cómo plantear hipótesis, se mencionaron los
tipos de errores que pueden cometerse, los tipos de pruebas que pueden realizarse y
la forma de delimitar las regiones de aceptación y rechazo. Se explicó también cómo
efectuar pruebas de hipótesis con los métodos de intervalo, estadístico de prueba y
p-value. Además, con el apoyo de Excel, se trabajaron ejercicios para realizar
pruebas con la media y la proporción, así como con la diferencia de medias,
proporciones y varianzas.
196 de 357
Tercer semestre
BIBLIOGRAFÍA
SUGERIDA
197 de 357
Tercer semestre
UNIDAD 5
Pruebas de hipótesis con la
distribución ji cuadrada
198 de 357
Tercer semestre
OBJETIVO PARTICULAR
Al terminar la unidad, el alumno relacionará los conceptos de prueba de hipótesis con
la distribución ji cuadrada.
TEMARIO DETALLADO
(10 horas)
199 de 357
Tercer semestre
INTRODUCCIÓN
En la unidad anterior, se dieron las bases para realizar pruebas de hipótesis para
contrastar valores de parámetros de una población, como la media y una proporción.
Posteriormente, se contrastaron medias, proporciones y varianzas de poblaciones
independientes utilizando estadísticos de prueba con distribuciones normal, t de
Student y F. Ahora, en esta unidad, se empleará otra distribución muestral, la ji
cuadrada (χ2), útil no solamente para realizar pruebas relacionadas con una varianza
poblacional, sino también para validar si una muestra se ajusta a una distribución
teórica, si hay un cambio en una distribución, si dos variables son independientes o si
dos muestras proceden de la misma población.
200 de 357
Tercer semestre
5.1. La distribución
ji cuadrada, χ2
En la última sección de la tercera unidad, se utilizó la distribución 𝝌𝝌𝟐𝟐 (ji cuadrada)
para estimar un intervalo para una varianza poblacional. Teóricamente, esta
distribución es un caso de otra distribución conocida como gamma; el parámetro que
determina su distribución son los grados de libertad, es decir, el número de
observaciones que pueden variar libremente. Las características de esta distribución
son las siguientes:
201 de 357
Tercer semestre
En distribuciones muestrales, se emplea el estadístico
(𝒏𝒏 − 𝟏𝟏)𝒔𝒔𝟐𝟐
𝝌𝝌𝟐𝟐 =
𝝈𝝈𝟐𝟐
•
Donde:
n = tamaño de muestra
𝝈𝝈𝟐𝟐 = varianza poblacional
𝒔𝒔𝟐𝟐 = varianza muestral
202 de 357
Tercer semestre
(𝒏𝒏 − 𝟏𝟏)𝒔𝒔𝟐𝟐
𝝌𝝌𝟐𝟐 =
𝝈𝝈𝟐𝟐
Ejemplo 1.
Un call center tiene como criterio de calidad que la
duración de sus llamadas tenga una desviación
estándar de 1.5 respecto al promedio de cinco minutos
El gerente del call center sospecha que la desviación
es mayor, para confirmarlo elige una muestra de 50
llamadas y obtiene una desviación de 1.37 minutos.
¿Se puede afirmar con un nivel de confianza del 95%
que la sospecha del gerente es correcta?
Parámetro Datos:
solicitado:
𝝈𝝈 𝝈𝝈 = 𝟏𝟏. 𝟓𝟓
𝒏𝒏 = 𝟓𝟓𝟓𝟓
𝒔𝒔 = 𝟏𝟏. 𝟑𝟑𝟑𝟑
Nivel de confianza: 95% = 0.95
Significancia: 𝜶𝜶 = 𝟏𝟏 − 𝟎𝟎. 𝟗𝟗𝟗𝟗 = 𝟎𝟎. 𝟎𝟎𝟎𝟎
Grados de libertad: n – 1 = 50 – 1 = 49
203 de 357
Tercer semestre
Cálculo del punto crítico
Con el empleo de la función de Ms-Excel:
[Link](probabilidad,grados_de_libertad)
Se obtiene:
[Link](0.05,49) = 66.3386
Figura 1. Resultado de la prueba de hipótesis Ho: 𝝈𝝈𝟐𝟐 = 1.5 contra Ho: 𝝈𝝈𝟐𝟐 > 1.5
No se rechaza Ho
Zona de
no
Rechazo
α= 0.05
Zona
Rechazo
PC = 66.33
EP = 40.87
La figura anterior muestra la distribución del estadístico de prueba asumiendo que la hipótesis
nula es cierta. Como la prueba es unilateral, en este caso la región de rechazo se encuentra en el
extremo derecho de la curva, a partir del punto crítico (66.33), ello significa que, si la prueba tiene
un valor mayor a este punto, la hipótesis nula se rechaza. En la figura, se observa que el resultado
de la prueba (40.87) es menor al punto crítico, por tanto, no se rechaza la hipótesis nula.
En conclusión, no existe evidencia estadística para rechazar la hipótesis nula, es decir, no se apoya
la sospecha del gerente que la desviación estándar sea mayor a 1.5 minutos.
204 de 357
Tercer semestre
Ejemplo 2.
Una empresa realiza periódicamente una encuesta de clima laboral entre los
empleados. Recientemente, varios departamentos solicitan que esta encuesta ya no
se realice con la misma periodicidad, pues distrae las labores de los subordinados.
En defensa de la encuesta, el director de recursos humanos sostiene que una
variabilidad de 7 minutos no afecta el desempeño. Para comprobar que la
variabilidad es de 7, elige una muestra de 20 empleados y obtiene un resultado de
6.7 minutos. ¿Se puede afirmar, con un nivel de confianza del 90%, que el director
está en lo correcto?
Parámetro Datos:
solicitado:
𝝈𝝈 𝝈𝝈 = 𝟕𝟕
𝒏𝒏 = 𝟐𝟐𝟐𝟐
𝒔𝒔 = 𝟔𝟔. 𝟕𝟕
Nivel de confianza: 90% = 0.90
Significancia: 𝜶𝜶 = 𝟏𝟏 − 𝟎𝟎. 𝟗𝟗 = 𝟎𝟎. 𝟏𝟏
𝟎𝟎. 𝟏𝟏
𝜶𝜶 = = 𝟎𝟎. 𝟎𝟎𝟎𝟎
𝟐𝟐
Grados de libertad: n – 1 = 20 – 1 = 19
205 de 357
Tercer semestre
Cálculo del punto crítico
Con Excel, se obtienen los puntos críticos. Valor crítico superior:
No se rechaza Ho
α= 0.05
Zona de
no
Rechazo α= 0.05
Zona
Rechazo Zona
Rechazo
PC = 30.14
PC =10.11
EP = 17.4
La figura anterior muestra la distribución del estadístico de prueba asumiendo que la hipótesis
nula es cierta. Como la prueba es bilateral, la región de rechazo se encuentra en ambos extremos
de la curva. La región de aceptación se halla entre los puntos críticos (10.11 y 30.14), esto significa
que, si la prueba tiene un valor en esta región, la hipótesis nula se acepta. En la figura, se observa
que el resultado de la prueba (17.4) se encuentra en la zona de aceptación, por tanto, no se
rechaza la hipótesis nula. En conclusión, no existe evidencia estadística para rechazar la hipótesis
nula: se apoya la defensa del director de recursos humanos.
206 de 357
Tercer semestre
5.3. Prueba para la diferencia
entre n proporciones
En la sección anterior, se mostró el empleo de la distribución 𝝌𝝌𝟐𝟐 para hacer un
contraste de hipótesis de una varianza poblacional. A partir de esta sección, se
analizará su utilidad en la comparación de datos observados contra esperados, y de
esta manera apoyar o no un comportamiento teórico.
𝒌𝒌
𝟐𝟐
(𝒐𝒐𝒊𝒊 − 𝒆𝒆𝒊𝒊 )𝟐𝟐
𝝌𝝌 = �
𝒆𝒆𝒊𝒊
𝒊𝒊=𝟏𝟏
•
Donde:
𝒐𝒐𝒊𝒊 = valor observado
𝒆𝒆𝒊𝒊 = valor esperado
k = número de categorías
Este estadístico tendrá una distribución 𝝌𝝌𝟐𝟐 . Los grados de libertad varían según el
contexto.
207 de 357
Tercer semestre
mutuamente excluyentes y cada uno con una probabilidad de ocurrencia de manera
que su suma da uno, se está frente a una distribución multinomial.
Rango de
Nivel Alumnos
calificación
A 9.1-10 15
B 8.1-9.0 35
C 7.1-8.0 50
D Hasta 7.0 40
Total 140
¿Se podría apoyar con un nivel de confianza de 95% que la estrategia modificó el
aprovechamiento de los estudiantes de Administración en Estadística II?
Obsérvese que el tratamiento de la información se ajusta al de una distribución
multinomial porque hay más de dos resultados y cada alumno nada más puede estar
en una categoría. Se denotará como pA, pB, pC y pD a la proporción de alumnos en
cada nivel, y se aplicará una prueba de hipótesis para determinar si la nueva
estrategia modifica el desempeño.
208 de 357
Tercer semestre
Asumiendo como cierta la hipótesis nula, se esperaría que los 140 alumnos se
distribuyeran de la siguiente manera:
Se calcula el estadístico de prueba que tendrá una distribución 𝝌𝝌𝟐𝟐 con k – 1 grados
de libertad, en este caso, k = 4:
𝒌𝒌
𝟐𝟐
(𝒐𝒐𝒊𝒊 − 𝒆𝒆𝒊𝒊 )𝟐𝟐
𝝌𝝌 = �
𝒆𝒆𝒊𝒊
𝒊𝒊=𝟏𝟏
𝟐𝟐
𝟐𝟐
(𝟏𝟏𝟏𝟏 − 𝟕𝟕) (𝟑𝟑𝟑𝟑 − 𝟐𝟐𝟐𝟐)𝟐𝟐 (𝟓𝟓𝟓𝟓 − 𝟕𝟕𝟕𝟕)𝟐𝟐 (𝟒𝟒𝟒𝟒 − 𝟑𝟑𝟑𝟑)𝟐𝟐
𝝌𝝌 = + + +
𝟕𝟕 𝟐𝟐𝟐𝟐 𝟕𝟕𝟕𝟕 𝟑𝟑𝟑𝟑
𝝌𝝌𝟐𝟐 = 𝟗𝟗. 𝟏𝟏 + 𝟗𝟗. 𝟑𝟑 + 𝟗𝟗. 𝟓𝟓 + 𝟎𝟎. 𝟕𝟕
𝝌𝝌𝟐𝟐 = 𝟐𝟐𝟐𝟐. 𝟕𝟕
Se realiza una prueba bilateral. Con Microsoft Excel (2013), se calcula el punto crítico
superior:
[Link](0.05/2,3) = 9.3
Y el inferior:
[Link](1-0.05/2,3) = 0.2
209 de 357
Tercer semestre
Figura 1. Resultado de la prueba de hipótesis
Se rechaza Ho
α= 0.025
Zona de
no
Rechazo α= 0.025
Zona Zona
Rechazo Rechazo
PC = 9.3
PC =0.2 EP = 28.7
210 de 357
Tercer semestre
5.4. Pruebas de bondad de ajuste
a distribuciones teóricas
Como se ha estudiado hasta este punto, tanto las técnicas de estimación como las
de contraste de hipótesis se realizan con la información de una muestra. A veces,
se pretende conocer si la población de la que proviene la muestra se ajusta a una
distribución teórica. En esta sección, se utilizará la distribución 𝝌𝝌𝟐𝟐 para probar si
un conjunto de información se ajusta a una distribución Normal, Poisson o
Binomial. En las tres distribuciones el proceso para realizar la prueba es similar:
Se forman categorías.
Se contrasta la hipótesis.
211 de 357
Tercer semestre
Con el estadístico de prueba:
𝒌𝒌
𝟐𝟐
(𝒐𝒐𝒊𝒊 − 𝒆𝒆𝒊𝒊 )𝟐𝟐
𝝌𝝌 = �
𝒆𝒆𝒊𝒊
𝒊𝒊=𝟏𝟏
•
Donde:
𝒐𝒐𝒊𝒊 = valor observado
𝒆𝒆𝒊𝒊 = valor esperado
k = número de categorías
Asumiendo cierta la hipótesis nula, este estadístico tendrá una distribución 𝝌𝝌𝟐𝟐 ,
con k – p – 1 grados de libertad, donde k es el número de categorías y p los
parámetros de la distribución teórica.
Los resultados de una prueba realizada a 110 aspirantes a ocupar una plaza laboral
se muestran a continuación.
212 de 357
Tercer semestre
80.0 60.0 56.7 54.2 52.5 50.8 48.3 46.7 45.0 42.5 36.7
69.2 59.2 56.7 53.3 51.7 50.0 48.3 46.7 45.0 42.5 36.7
69.2 59.2 56.7 53.3 51.7 50.0 48.3 45.8 44.2 41.7 36.7
69.2 59.2 56.7 53.3 51.7 49.2 47.5 45.8 44.2 41.7 34.2
69.2 58.3 56.7 53.3 51.7 49.2 47.5 45.8 44.2 40.8 34.2
68.3 58.3 55.8 53.3 50.8 49.2 47.5 45.0 44.2 40.8 33.3
64.2 57.5 55.8 53.3 50.8 49.2 47.5 45.0 43.3 40.0 32.5
63.3 57.5 55.8 52.5 50.8 49.2 46.7 45.0 43.3 38.3 32.5
61.7 56.7 55.0 52.5 50.8 48.3 46.7 45.0 43.3 37.5 29.2
60.8 56.7 54.2 52.5 50.8 48.3 46.7 45.0 42.5 36.7 37.2
A fin de precisar los puntajes que deben tener los candidatos para pasar a la
siguiente etapa, se quiere probar primeramente que los datos provienen de una
distribución normal con un nivel de confianza de 95%.
Así:
213 de 357
Tercer semestre
𝟖𝟖𝟖𝟖. 𝟎𝟎 + 𝟔𝟔𝟔𝟔. 𝟐𝟐 + ⋯ + 𝟐𝟐𝟐𝟐. 𝟐𝟐 + 𝟑𝟑𝟑𝟑. 𝟐𝟐
𝝁𝝁
�= = 𝟒𝟒𝟒𝟒. 𝟕𝟕
𝟏𝟏𝟏𝟏𝟏𝟏
•
Y:
(𝟖𝟖𝟖𝟖. 𝟎𝟎 − 𝟒𝟒𝟒𝟒. 𝟕𝟕)𝟐𝟐 +(𝟔𝟔𝟔𝟔. 𝟐𝟐 − 𝟒𝟒𝟒𝟒. 𝟕𝟕)𝟐𝟐 + ⋯ + 𝟐𝟐𝟐𝟐. 𝟐𝟐 − 𝟒𝟒𝟒𝟒. 𝟕𝟕 𝟐𝟐 + (𝟑𝟑𝟑𝟑. 𝟐𝟐 − 𝟒𝟒𝟒𝟒. 𝟗𝟗)𝟐𝟐
𝝈𝝈
�= = 𝟖𝟖. 𝟗𝟗
𝟏𝟏𝟏𝟏𝟏𝟏 − 𝟏𝟏
Tabla. Cálculo de los puntos de corte para formar las categorías que se
utilizarán en la prueba de bondad de ajuste a una distribución normal
Corte z Puntaje
49.7+z·8.9
1 -1.28 38.29
2 -0.84 42.21
3 -0.52 45.03
4 -0.25 47.45
5 0.00 49.70
6 0.25 51.95
7 0.52 54.37
8 0.84 57.19
9 1.28 61.11
214 de 357
Tercer semestre
La tabla anterior consta de tres columnas: corte, z y puntaje. En la primera columna
solamente se enumeran los puntos de corte que se requieren para dividir la
distribución teórica en 10 partes iguales. La segunda (z) es el cuantil de una
distribución normal estándar que acumula un área de 0.1 desde el último corte a la
izquierda. Y la tercera es la conversión del valor del cuantil z a la métrica del
examen. Esta conversión se fundamenta en que la distribución normal estándar se
calcula así:
𝑿𝑿 − 𝝁𝝁
𝒁𝒁 =
𝝈𝝈
•
Donde:
Z = variable estandarizada
X = variable original
μ = media de X
σ = desviación de X
•
Al despejar X, se obtiene:
𝑿𝑿 = 𝝁𝝁 + 𝒁𝒁 � 𝝈𝝈
215 de 357
Tercer semestre
0.04
0.03
Probabilidad
0.02
0.01
0.00
20 30 40 50 60 70 80
Puntaje de la prueba
Frecuencia
Categoría Observada Estimada
1 12 11
2 6 11
3 17 11
4 8 11
5 14 11
6 12 11
7 12 11
8 11 11
9 9 11
9R Core Team (2014). R: A language and environment for statistical computing. R Foundation for
Statistical Computing, Vienna, Austria. URL [Link]
216 de 357
Tercer semestre
10 9 11
Total 110 110
Una vez que se cuenta con las frecuencias observadas y estimadas para cada
categoría, se procede a realizar la prueba con el estadístico de prueba:
𝒌𝒌
(𝒐𝒐𝒊𝒊 − 𝒆𝒆𝒊𝒊 )𝟐𝟐
𝝌𝝌𝟐𝟐 = �
𝒆𝒆𝒊𝒊
𝒊𝒊=𝟏𝟏
•
Sustituyendo los valores, se tiene:
A partir de la hipótesis nula, el estadístico de prueba tiene una distribución 𝝌𝝌𝟐𝟐 con
del estadístico de prueba con el punto crítico de una distribución 𝝌𝝌𝟐𝟐 con 10 – 2 – 1 =
7 grados de libertad que corta la curva en dos zonas: una con área de 0.05 a su
derecha y la otra de 0.95.
Con Microsoft Excel (2013), se calcula el punto crítico de esta distribución así:
[Link](0.05, 7) = 14.07
217 de 357
Tercer semestre
En un establecimiento comercial, se han
incrementado las quejas respecto a que no hay
suficiente personal para atender a la clientela. Por
su parte, los empleados solicitan al gerente que
contrate más personal debido a que la demanda
los supera. Con la intención de justificar la
contratación de más personal, el gerente, durante una semana, tomó una muestra
aleatoria de 60 periodos de 15 minutos y registró el número de clientes que acuden
al establecimiento. Los registros son los siguientes:
10 6 9 8 12 9
20 15 1 20 16 1
14 16 18 0 19 9
17 1 5 4 10 4
10 20 13 10 16 19
8 17 13 9 1 6
5 10 15 10 14 9
10 15 8 3 11 8
18 17 14 17 12 9
3 2 14 15 16 1
Llegadas Casos
1 6
2 1
3 2
4 2
5 2
6 2
7 0
218 de 357
Tercer semestre
8 4
9 6
10 7
11 1
12 2
13 2
14 4
15 4
16 4
17 4
18 2
19 2
20 3
Promedio 10.7
Llegadas Casos
1 6
2a7 9
8a9 10
10 y más 35
Se busca probar que la muestra proviene de una población con distribución Poisson
con parámetro λ = 10.7, por lo que el siguiente paso es calcular el valor esperado de
cada categoría.
219 de 357
Tercer semestre
Llegadas Casos Probabilidad Esperado
1a7 15 0.1624 10
8a9 10 0.2096 13
10 y más 35 0.6245 37
𝒌𝒌
𝟐𝟐
(𝒐𝒐𝒊𝒊 − 𝒆𝒆𝒊𝒊 )𝟐𝟐
𝝌𝝌 = �
𝒆𝒆𝒊𝒊
𝒊𝒊=𝟏𝟏
•
Sustituyendo los valores, se obtiene:
𝟐𝟐
(𝟏𝟏𝟏𝟏 − 𝟏𝟏𝟏𝟏)𝟐𝟐 (𝟏𝟏𝟏𝟏 − 𝟏𝟏𝟏𝟏)𝟐𝟐 (𝟑𝟑𝟑𝟑 − 𝟑𝟑𝟑𝟑)𝟐𝟐
𝝌𝝌 = + +
𝟐𝟐
𝟏𝟏𝟏𝟏 𝟏𝟏𝟏𝟏 𝟑𝟑𝟑𝟑
𝝌𝝌 = 𝟑𝟑. 𝟓𝟓𝟓𝟓
A partir de la hipótesis nula, el estadístico de prueba tiene una distribución 𝝌𝝌𝟐𝟐 con
punto crítico de una distribución 𝝌𝝌𝟐𝟐 con 3 – 1 – 1 = 1 grados de libertad que corta la
curva en dos zonas: una con área de 0.05 a su derecha y la otra de 0.95.
Con Microsoft Excel (2013), se calcula el punto crítico de esta distribución así:
[Link](0.05, 1) = 3.84
220 de 357
Tercer semestre
5.4.3. Ajuste a una distribución binomial
Para finalizar el empleo de la 𝝌𝝌𝟐𝟐 para ajustar a una distribución teórica, a continuación
se presenta un ejercicio donde se desea probar que un conjunto de datos proviene
de una distribución Binomial.
Documentos
Expedientes
erróneos
0 130
1 150
2 200
3 120
4 50
Total 650
Antes de establecer alguna métrica, el auditor desea verificar que los expedientes
con errores siguen una distribución binomial con un nivel de confianza del 95%.
221 de 357
Tercer semestre
Estimados los parámetros de la distribución teórica, se procede a calcular los valores
esperados. Primero, se calculan las probabilidades de cada categoría y después la
probabilidad calculada se multiplica por el total de expedientes.
Documentos
Expedientes Probabilidad Esperados
erróneos
0 130 0.108 70
1 150 0.321 209
2 200 0.359 233
3 120 0.178 116
4 50 0.033 22
Total 650 1 650
𝒌𝒌
𝟐𝟐
(𝒐𝒐𝒊𝒊 − 𝒆𝒆𝒊𝒊 )𝟐𝟐
𝝌𝝌 = �
𝒆𝒆𝒊𝒊
𝒊𝒊=𝟏𝟏
•
Sustituyendo los valores, se obtiene:
(𝟏𝟏𝟏𝟏𝟏𝟏 − 𝟕𝟕𝟕𝟕)𝟐𝟐 (𝟏𝟏𝟏𝟏𝟏𝟏 − 𝟐𝟐𝟐𝟐𝟐𝟐)𝟐𝟐 (𝟐𝟐𝟐𝟐𝟐𝟐 − 𝟐𝟐𝟐𝟐𝟐𝟐)𝟐𝟐 (𝟏𝟏𝟏𝟏𝟏𝟏 − 𝟏𝟏𝟏𝟏𝟏𝟏)𝟐𝟐 (𝟓𝟓𝟓𝟓 − 𝟐𝟐𝟐𝟐)𝟐𝟐
𝝌𝝌𝟐𝟐 = + + + +
𝟕𝟕𝟕𝟕 𝟐𝟐𝟐𝟐𝟐𝟐 𝟐𝟐
𝟐𝟐𝟐𝟐𝟐𝟐 𝟏𝟏𝟏𝟏𝟏𝟏 𝟐𝟐𝟐𝟐
𝝌𝝌 = 𝟏𝟏𝟏𝟏𝟏𝟏. 𝟏𝟏
222 de 357
Tercer semestre
binomial tiene dos parámetros; entonces, se comparará el valor del estadístico de
libertad que corta la curva en dos zonas: una con área de 0.05 a su derecha, y la otra
de 0.95.
Con Microsoft Excel (2013), se calcula el punto crítico de esta distribución así:
[Link](0.05, 2) = 5.99
223 de 357
Tercer semestre
5.5. Pruebas sobre la independencia
entre dos variables
En las secciones 5.3 y 5.4, se mostró el uso de la distribución 𝝌𝝌𝟐𝟐 para realizar
pruebas acerca de la distribución de una población. Otra aplicación de la distribución
es para determinar independencia entre dos variables cualitativas. Por ejemplo,
podría ser de interés para el gerente de marca de una bebida gaseosa determinar si
existe asociación entre el apego emocional a la marca respecto al consumo del
producto; o al gerente de recursos humanos de una organización le sería de utilidad
identificar la asociación entre el nivel de puntualidad de los empleados respecto a su
zona de residencia. A continuación, se expone el empleo de la distribución 𝝌𝝌𝟐𝟐 para
determinar asociación entre variables.
Independencia de eventos
224 de 357
Tercer semestre
Para ilustrar lo anterior, se expone el siguiente ejemplo. Supóngase que la variable
X1 está asociada al resultado de un curso de estadística (aprobado, reprobado),
donde la probabilidad de aprobar es 0.3 y la variable X2 el sexo del alumno (mujer,
hombre), siendo la probabilidad que una mujer tome el curso de 0.2.
Mujer 0.2
Hombre 0.8
En la tabla anterior, se presentan las variables de interés: por fila se muestra los
valores de la variable X2 (género del alumno); y en las columnas, los valores
asociados a X1 (resultado del curso). En los márgenes de la tabla se encuentran las
distribuciones de probabilidad de las variables X1 y X2, denominadas distribuciones
marginales.
225 de 357
Tercer semestre
Los valores de cada celda de la tabla son el resultado de multiplicar el valor de la
distribución marginal en la fila por el de la columna.
Tablas cruzadas
Una tabla cruzada se utiliza para clasificar observaciones de una muestra de acuerdo
con dos o más características (variables cualitativas). Si las variables involucradas en
la tabla son independientes, la distribución conjunta tiene una distribución 𝝌𝝌𝟐𝟐 con
(r – 1)⋅(c – 1) grados de libertad, donde r es el número de renglones de la tabla y c
sus columnas.
226 de 357
Tercer semestre
𝒌𝒌
𝟐𝟐
(𝒐𝒐𝒊𝒊 − 𝒆𝒆𝒊𝒊 )𝟐𝟐
𝝌𝝌 = �
𝒆𝒆𝒊𝒊
𝒊𝒊=𝟏𝟏
227 de 357
Tercer semestre
Prueba de hipótesis:
𝑯𝑯𝟎𝟎 : 𝑳𝑳𝑳𝑳 𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝒐 𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔 𝒍𝒍𝒍𝒍 𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑 𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑 𝒆𝒆𝒆𝒆 𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊 𝒅𝒅𝒅𝒅𝒅𝒅 𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕 𝒅𝒅𝒅𝒅 𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊
𝑯𝑯𝒂𝒂 : 𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬 𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂 𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆 𝒍𝒍𝒍𝒍 𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝒐 𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔 𝒍𝒍𝒍𝒍 𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑 𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑 𝒚𝒚 𝒆𝒆𝒆𝒆 𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕 𝒅𝒅𝒅𝒅 𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊
Pase 0.61
reglamentado
Concurso de 0.39
selección
228 de 357
Tercer semestre
Tipo de ingreso Excelente Buena Regular Deficiente Total
𝒌𝒌
𝟐𝟐
(𝒐𝒐𝒊𝒊 − 𝒆𝒆𝒊𝒊 )𝟐𝟐
𝝌𝝌 = �
𝒆𝒆𝒊𝒊
𝒊𝒊=𝟏𝟏
(𝟔𝟔, 𝟏𝟏𝟏𝟏𝟏𝟏 − 𝟔𝟔, 𝟐𝟐𝟐𝟐𝟐𝟐)𝟐𝟐 (𝟏𝟏𝟏𝟏, 𝟏𝟏𝟏𝟏𝟏𝟏 − 𝟏𝟏𝟏𝟏, 𝟕𝟕𝟕𝟕𝟕𝟕)𝟐𝟐 (𝟏𝟏, 𝟐𝟐𝟐𝟐𝟐𝟐 − 𝟏𝟏, 𝟓𝟓𝟓𝟓𝟓𝟓)𝟐𝟐 (𝟖𝟖𝟖𝟖 − 𝟏𝟏𝟏𝟏𝟏𝟏)𝟐𝟐
𝝌𝝌𝟐𝟐 = + + +
𝟔𝟔, 𝟐𝟐𝟐𝟐𝟐𝟐 𝟏𝟏𝟏𝟏, 𝟕𝟕𝟕𝟕𝟕𝟕 𝟏𝟏, 𝟓𝟓𝟓𝟓𝟓𝟓 𝟏𝟏𝟏𝟏𝟏𝟏
(𝟒𝟒, 𝟎𝟎𝟎𝟎𝟎𝟎 − 𝟑𝟑, 𝟗𝟗𝟗𝟗𝟗𝟗)𝟐𝟐 (𝟗𝟗, 𝟎𝟎𝟎𝟎𝟎𝟎 − 𝟗𝟗, 𝟒𝟒𝟒𝟒𝟒𝟒)𝟐𝟐 (𝟏𝟏, 𝟐𝟐𝟐𝟐𝟐𝟐 − 𝟏𝟏, 𝟎𝟎𝟎𝟎𝟎𝟎)𝟐𝟐 (𝟏𝟏𝟏𝟏𝟏𝟏 − 𝟖𝟖𝟖𝟖)𝟐𝟐
+ + + +
𝟑𝟑, 𝟗𝟗𝟗𝟗𝟗𝟗 𝟗𝟗, 𝟒𝟒𝟒𝟒𝟒𝟒 𝟏𝟏, 𝟎𝟎𝟎𝟎𝟎𝟎 𝟖𝟖𝟖𝟖
𝝌𝝌𝟐𝟐 = 𝟐𝟐𝟐𝟐𝟐𝟐. 𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎
229 de 357
Tercer semestre
5.6. Pruebas de homogeneidad
En la sección precedente, se utilizó la distribución 𝝌𝝌𝟐𝟐 para determinar si dos variables
son independientes; ahora, se empleará para comprobar que dos o más muestras
son homogéneas.
Que dos o más muestras sean homogéneas significa que provienen de la misma
población, por lo que es de esperarse que presenten un comportamiento similar.
Supóngase que se desea realizar un estudio para determinar las causas por las que
los alumnos de la carrera de Administración no tienen un buen desempeño en la
materia de Estadística II. Se escogen al azar cuatro grupos (dos del turno matutino y
dos del vespertino) y se obtiene la distribución de calificaciones en la materia, como
se muestra a continuación.
230 de 357
Tercer semestre
Antes de continuar, los académicos responsables de la investigación quieren verificar
que las muestras (los grupos) sean homogéneas con un nivel de confianza de 95%
para generalizar los resultados que se obtengan, por lo que realizan una prueba de
homogeneidad de muestras.
Así como se procedió para probar si dos variables son independientes, en este caso
se utilizará el estadístico de prueba:
𝒌𝒌
𝟐𝟐
(𝒐𝒐𝒊𝒊 − 𝒆𝒆𝒊𝒊 )𝟐𝟐
𝝌𝝌 = �
𝒆𝒆𝒊𝒊
𝒊𝒊=𝟏𝟏
Su distribución bajo la hipótesis nula es 𝝌𝝌𝟐𝟐 con (r – 1)⋅(c – 1) grados de libertad. Para
este ejemplo, la tabla cuenta con cuatro renglones (r) y cuatro columnas (c), por lo
que la distribución tendrá (4 – 1)⋅(4 – 1) = 9 grados de libertad.
231 de 357
Tercer semestre
Estadístico de prueba:
𝒌𝒌
𝟐𝟐
(𝒐𝒐𝒊𝒊 − 𝒆𝒆𝒊𝒊 )𝟐𝟐
𝝌𝝌 = �
𝒆𝒆𝒊𝒊
𝒊𝒊=𝟏𝟏
(𝟕𝟕 − 𝟕𝟕)𝟐𝟐 (𝟓𝟓𝟓𝟓 − 𝟓𝟓𝟓𝟓)𝟐𝟐 (𝟗𝟗 − 𝟗𝟗)𝟐𝟐 (𝟔𝟔 − 𝟕𝟕)𝟐𝟐 (𝟔𝟔 − 𝟓𝟓)𝟐𝟐
𝝌𝝌𝟐𝟐 = + + + + ⋯+
𝟕𝟕 𝟓𝟓𝟓𝟓 𝟗𝟗 𝟕𝟕 𝟓𝟓
𝝌𝝌𝟐𝟐 = 𝟏𝟏. 𝟏𝟏
El punto crítico de una distribución 𝝌𝝌𝟐𝟐 con 9 grados de libertad que separa la curva
en dos regiones, una de 0.95 (izquierda del punto crítico) y otra de 0.05 (derecha del
punto crítico), es el siguiente.
[Link](0.05, 9)=16.9
𝒌𝒌
𝟐𝟐
(𝒐𝒐𝒊𝒊 − 𝒆𝒆𝒊𝒊 )𝟐𝟐
𝝌𝝌 = �
𝒆𝒆𝒊𝒊
𝒊𝒊=𝟏𝟏
se debe cuidar que los valores observados sean al menos de cinco. De no ser así, se
sugiere juntar categorías para que se cumpla esta condición; de lo contrario, la
prueba pierde precisión.
232 de 357
Tercer semestre
RESUMEN
En esta unidad, se expuso la distribución χ2, su uso para contrastar hipótesis
relacionadas con la varianza poblacional, diferencia de proporciones, bondad de
ajuste, independencia y homogeneidad.
(𝒏𝒏−𝟏𝟏)𝒔𝒔𝟐𝟐
Se utilizaron dos estadísticos de prueba: 𝝌𝝌𝟐𝟐 = para contrastar hipótesis
𝝈𝝈𝟐𝟐
(𝒐𝒐𝒊𝒊 −𝒆𝒆𝒊𝒊 )𝟐𝟐
relacionadas con la varianza poblacional, y 𝝌𝝌𝟐𝟐 = ∑𝒌𝒌𝒊𝒊=𝟏𝟏 para el resto de las
𝒆𝒆𝒊𝒊
pruebas expuestas. Para que este último estadístico de prueba arroje resultados
confiables, se debe observar que tanto la frecuencia observada como la esperada de
las categorías sean al menos de cinco.
Como valor agregado, se utilizó Excel para el cálculo de los puntos críticos, que se
ha venido practicando en unidades anteriores.
233 de 357
Tercer semestre
BIBLIOGRAFÍA
SUGERIDA
234 de 357
Tercer semestre
UNIDAD 6
Análisis de regresión
lineal simple
235 de 357
Tercer semestre
OBJETIVO PARTICULAR
El alumno conocerá el método de regresión lineal simple, así como su aplicación e
interpretación.
TEMARIO DETALLADO
(10 horas)
236 de 357
Tercer semestre
INTRODUCCIÓN
Existen situaciones donde se requiere determinar si el comportamiento de cierto
suceso se explica con el conocimiento de otra información. Por ejemplo, puede ser
de interés conocer el impacto del número de horas de preparación para un examen
de admisión a una institución de educación superior en el porcentaje de aciertos; o la
afectación de los ingresos de una organización en función del presupuesto destinado
a publicidad; o la duración de la batería de un dispositivo electrónico de acuerdo con
el tiempo destinado a descargar tutoriales.
237 de 357
Tercer semestre
6.1. Ecuación y recta de regresión
En este apartado, se tratarán los conceptos del modelo de regresión lineal simple.
Para entender mejor este modelo, se repasará brevemente la ecuación de la recta.
Ecuación de la recta
𝒚𝒚 = 𝒎𝒎𝒎𝒎 + 𝒃𝒃
•
Donde:
𝒎𝒎 = pendiente de la recta
𝒃𝒃 = ordenada al origen o el punto donde intersecta la recta al eje Y, cuando x = 0
y
y = mx+b
b
x
0
238 de 357
Tercer semestre
La figura anterior ilustra la función de una línea recta con parámetros m y b. La
pendiente m indica las unidades que se mueve y por cada unidad de cambio en x, y
b es la intersección de la recta con el eje de las ordenadas.
Para determinar la pendiente, es suficiente conocer dos puntos por donde atraviesa
la recta (x1, y1),(x2, y2) y aplicar la fórmula:
𝒚𝒚𝟐𝟐 − 𝒚𝒚𝟏𝟏
𝒎𝒎 =
𝒙𝒙𝟐𝟐 − 𝒙𝒙𝟏𝟏
239 de 357
Tercer semestre
Supóngase que una organización con 20
empleados realizó una evaluación del desempeño
de cada empleado, y de acuerdo con el resultado
se determinó un ajuste en el sueldo. Un auditor
quiere explicar el incremento salarial conforme al
desempeño del empleado.
Es decir, el incremento salarial observado del i-ésimo empleado tiene una parte
explicable por la variable explicativa (nivel de desempeño observado) y otra no
explicable, como puede ser una distracción del evaluador o su estado de salud al
momento de la reunión.
240 de 357
Tercer semestre
También μ(xi) es un estimador de yi cuya estimación depende del valor de xi. En el
modelo de regresión lineal, la regla para estimar y consiste en relacionarla con x a
través de una ecuación lineal.
•
Donde:
Entonces, el auditor puede partir del siguiente modelo para determinar el criterio de
incremento salarial de los empleados de la organización:
241 de 357
Tercer semestre
Ahora, cuando solamente se emplea una variable explicativa, al modelo de regresión
lineal se le denomina simple y se modela con la siguiente ecuación:
•
Donde:
𝒀𝒀𝒊𝒊 = variable dependiente o respuesta de la i-ésima observación
𝜷𝜷𝟎𝟎 = intersección con el eje Y
𝜷𝜷𝟏𝟏 = pendiente de la recta
𝑿𝑿𝒊𝒊 = variable independiente o explicativa de la i-ésima observación
𝜺𝜺𝒊𝒊 = error no observable de la i-ésima observación
i = 1,2,.., n.
•
Donde:
242 de 357
Tercer semestre
Figura 2. Ilustración del modelo de regresión lineal simple
Y
Yi = β0 – ß1 xi
La figura anterior ilustra un gráfico de dispersión donde cada punto azul representa el
valor de la variable respuesta (Y) observado con el valor de la variable explicativa
(X), la línea roja es la recta estimada que se ajusta al conjunto de datos, cuya
ecuación es 𝒀𝒀𝒊𝒊 = 𝜷𝜷𝟎𝟎 − 𝜷𝜷𝟏𝟏 𝑿𝑿𝒊𝒊 , y la diferencia entre el valor observado y el estimado
con la ecuación de regresión lineal es el error.
243 de 357
Tercer semestre
6.2. El método de
mínimos cuadrados
En la parte final de la sección anterior, en la figura 2 se ilustró cómo la recta de
regresión lineal simple atraviesa el conjunto de datos; sin embargo, el número de
rectas que se pueden trazar es infinito, por lo que surge la pregunta sobre cuál es la
recta conveniente. La respuesta no es difícil, dado que lo deseable es que la
diferencia entre el valor estimado y observado de una observación sea la menor
posible.
Como se explicó en la sección anterior, la recta 𝜷𝜷𝟎𝟎 + 𝜷𝜷𝟏𝟏 𝒙𝒙𝒊𝒊 es un valor esperado de
𝒚𝒚𝒊𝒊 , por lo que la suma de las diferencias entre los valores estimados y observados se
espera sea cero. Para superar este inconveniente, se procede a trabajar con los
errores al cuadrado, los cuales quedan expresados así:
244 de 357
Tercer semestre
𝒏𝒏 𝒏𝒏
La recta que se busca es de parámetros 𝜷𝜷𝟎𝟎 y 𝜷𝜷𝟏𝟏 y minimiza la expresión del lado
derecho. A esta metodología para obtener la recta que garantiza el menor error de
estimación se le conoce como mínimos cuadrados.
Los valores de los parámetros 𝜷𝜷𝟎𝟎 y 𝜷𝜷𝟏𝟏 , por el método de mínimos cuadrados, son los
siguientes:
� − 𝜷𝜷𝟏𝟏 𝒙𝒙
𝜷𝜷𝟎𝟎 = 𝒚𝒚 �
• Donde:
Una PYME que imparte clases de manejo a personas de entre 30 y 65 años, para
negociar las condiciones de su póliza de accidentes con la compañía de seguros que
les ofrece el servicio, quiere conocer la relación entre el número de accidentes
245 de 357
Tercer semestre
automovilísticos en la localidad donde se encuentra el negocio. La información se
presenta a continuación.
Para obtener la recta de regresión por mínimos cuadrados, se dan los siguientes
pasos:
246 de 357
Tercer semestre
2. Graficar las variables X y Y.
1000
Número de accidentes
800
600
400
200
0
25 35 45 55 65 75
Edad
247 de 357
Tercer semestre
Tabla 1. Memoria de cálculo de los elementos de la fórmula para calcular
𝜷𝜷𝟏𝟏 mediante mínimos cuadrados
1 2 1-2 (1)2
Xi Yi XiYi Xi2 n
Número de
Edad accidentes
30 1004 30120 900 36
31 946 29326 961
32 914 29248 1024
33 742 24486 1089
34 714 24276 1156
35 842 29470 1225
36 744 26784 1296
37 792 29304 1369
38 844 32072 1444
39 722 28158 1521
40 982 39280 1600
41 644 26404 1681
42 594 24948 1764
43 604 25972 1849
44 480 21120 1936
45 570 25650 2025
46 440 20240 2116
47 410 19270 2209
48 504 24192 2304
49 432 21168 2401
50 456 22800 2500
51 346 17646 2601
52 382 19864 2704
53 334 17702 2809
54 298 16092 2916
55 252 13860 3025
56 240 13440 3136
57 244 13908 3249
58 288 16704 3364
59 218 12862 3481
60 208 12480 3600
61 146 8906 3721
62 130 8060 3844
63 130 8190 3969
64 122 7808 4096
65 104 6760 4225
∑ 𝑿𝑿i 1710 ∑ 𝒀𝒀i 17822 ∑ 𝑿𝑿i 𝒀𝒀i 748570 ∑ 𝑿𝑿i2 85110
(∑ 𝑿𝑿i)2 2924100
∑ 𝑿𝑿i ∑ 𝒀𝒀i 30475620
248 de 357
Tercer semestre
La tabla anterior presenta el cálculo de los elementos de la fórmula de la pendiente
de la recta de regresión de mínimos cuadrados. La primera columna contiene la edad
del conductor (X); la segunda, el número de accidentes reportados para cada edad
(Y). La tercera columna se obtiene multiplicando las dos primeras, por ejemplo, el
primer elemento de esta columna (30,120) es resultado de multiplicar el primer valor
de la primera (30) por el primer valor de la segunda (1,004). La cuarta columna es
resultado de multiplicar la primera por sí misma. Regresando a analizar el primer
elemento (900), este se obtuvo de multiplicar por sí mismo el primer elemento de la
primera columna (30). En la parte final, se encuentran las sumas y multiplicaciones
que se requiere sustituir en la fórmula.
Y la ordenada al origen:
� − 𝜷𝜷𝟏𝟏 𝒙𝒙
𝜷𝜷𝟎𝟎 = 𝒚𝒚 �
𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏
�=
𝒀𝒀
𝟑𝟑𝟑𝟑
� = 𝟒𝟒𝟒𝟒𝟒𝟒. 𝟎𝟎𝟎𝟎𝟎𝟎
𝒀𝒀
𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏
�=
𝑿𝑿
𝟑𝟑𝟑𝟑
� = 𝟒𝟒𝟒𝟒. 𝟓𝟓
𝑿𝑿
� − 𝜷𝜷𝟏𝟏 𝒙𝒙
𝜷𝜷𝟎𝟎 = 𝒚𝒚 �
𝜷𝜷𝟎𝟎 = 𝟒𝟒𝟒𝟒𝟒𝟒. 𝟎𝟎𝟎𝟎𝟎𝟎 − (−𝟐𝟐𝟐𝟐. 𝟐𝟐𝟐𝟐𝟐𝟐 ∙ 𝟒𝟒𝟒𝟒. 𝟓𝟓)
𝜷𝜷𝟎𝟎 = 𝟒𝟒𝟒𝟒𝟒𝟒. 𝟎𝟎𝟎𝟎𝟎𝟎 − 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏. 𝟖𝟖𝟖𝟖𝟖𝟖
𝜷𝜷𝟎𝟎 = 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏. 𝟗𝟗𝟗𝟗𝟗𝟗
249 de 357
Tercer semestre
De esta manera, se obtienen los parámetros de la recta de regresión lineal simple
con el método de mínimos cuadrados. En la siguiente sección, se expone cómo
determinar la ecuación de regresión lineal simple.
6.3. Determinación de la
ecuación de regresión
Como se ha mencionado, el modelo de regresión lineal simple estima el valor
observado de la variable dependiente (Y) a partir de la explicativa (X) con la ecuación
de una recta. Una vez determinados los valores de los parámetros mediante mínimos
cuadrados, la estimación de los valores de Y se realiza con la ecuación de regresión
lineal simple:
�
𝒀𝒀𝒊𝒊 = 𝜷𝜷𝟎𝟎 + 𝜷𝜷𝟏𝟏 𝑿𝑿𝒊𝒊
En el ejemplo anterior, 𝜷𝜷𝟎𝟎 = 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏. 𝟗𝟗𝟗𝟗𝟗𝟗 (1,693) y 𝜷𝜷𝟏𝟏 = −𝟐𝟐𝟐𝟐. 𝟐𝟐𝟐𝟐𝟐𝟐 (-25.2) por lo que la
ecuación de regresión lineal simple es la siguiente:
250 de 357
Tercer semestre
�
𝒀𝒀𝒊𝒊 = 𝟏𝟏, 𝟔𝟔𝟔𝟔𝟔𝟔 − 𝟐𝟐𝟐𝟐. 𝟐𝟐𝑿𝑿𝒊𝒊
•
Donde:
�
𝒀𝒀𝒊𝒊 = estimación del número de accidentes para conductores en la i-ésima
observación. (i=1,2,…,36)
𝑿𝑿𝒊𝒊 = edad del conductor en la i-ésima observación. (i=1,2,…,36)
En esta ecuación, 𝜷𝜷𝟎𝟎 indica que, cuando X = 0, se espera observar 1693 accidentes,
lo que en el contexto del problema no tiene sentido, porque la edad de interés es
entre 30 y 65. Por otro lado, la pendiente de la ecuación tiene una dirección negativa,
esto significa que, conforme se avance en edad, se espera observar menos
accidentes. El valor de la pendiente (–25.2) indica que, por cada año que aumenta la
edad del conductor, el número de accidentes disminuye en 25.
251 de 357
Tercer semestre
parámetros. Por lo anterior, es necesario considerar los siguientes supuestos al
emplear una regresión lineal simple.
3. El error de estimación 𝜺𝜺𝒊𝒊 es una variable aleatoria cuyo valor esperado es cero y
su varianza es 𝝈𝝈𝟐𝟐, la cual se mantiene constante en todas las observaciones y es
desconocida.
4. Los errores 𝜺𝜺𝒊𝒊 son independientes. Esto significa que, dados dos valores
cualesquiera de X, xi, xj (i ≠ j), los errores 𝜺𝜺𝒊𝒊 , 𝜺𝜺𝒋𝒋 son independientes. 11
5. El error 𝜺𝜺𝒊𝒊 es una variable aleatoria con distribución normal. Al ser y una función
lineal del error, también se distribuye normalmente.
Uno de los aspectos que más se descuida al ajustar un modelo de regresión lineal
simple es revisar que se cumplan los supuestos del modelo (esta revisión implica
analizar el comportamiento de los residuos). Como este tema no está incluido en el
plan de estudios, no se abordará; sin embargo, se sugiere profundizarlo en Anderson
(2012), parte de la bibliografía citada al término de la unidad.
252 de 357
Tercer semestre
6.5. Inferencias estadísticas sobre la
pendiente de la recta de regresión
Como se mencionó en la sección anterior, el propósito del modelo de regresión lineal
simple no se reduce a calcular los parámetros de la recta, sino que implica realizar
inferencia sobre ellos. Cuando se ajusta un modelo de regresión, la primera prueba
efectuada es referente a si un modelo lineal es el adecuado para los datos, y
posteriormente se hacen inferencias sobre la pendiente. En este apartado, se
expondrá como llevar a cabo inferencias sobre la pendiente de la recta de regresión.
Para establecer inferencias con la pendiente del modelo, se contrastan las siguientes
hipótesis:
H0: 𝜷𝜷𝟏𝟏 = 0
H1: 𝜷𝜷𝟏𝟏 ≠ 0
253 de 357
Tercer semestre
El estadístico de prueba empleado para contrastar la hipótesis nula es el siguiente:
𝒏𝒏 𝟐𝟐
� 𝟏𝟏 − 𝜷𝜷𝟏𝟏
𝜷𝜷
𝒕𝒕 = �)
�(𝒙𝒙𝒊𝒊 − 𝒙𝒙
𝒔𝒔
𝒊𝒊=𝟏𝟏
•
Donde:
� )𝟐𝟐
∑(𝒀𝒀𝒊𝒊 − 𝒀𝒀
𝑺𝑺 =
𝒏𝒏 − 𝟐𝟐
Zona de
No Rechazo
Zona Zona
Rechazo Rechazo
Punto Punto
crítico crítico
t
Fuente: elaboración propia.
254 de 357
Tercer semestre
La figura 3 ilustra una prueba donde el estadístico de prueba se ubica en la zona de
rechazo, lo que significa que la pendiente tiene un valor significativo. Al final de la
unidad, se muestra un ejemplo de cómo realizar inferencias de la pendiente con
Microsoft Excel (2013).
�
𝒀𝒀𝒊𝒊 = 𝟏𝟏, 𝟔𝟔𝟔𝟔𝟔𝟔 − 𝟐𝟐𝟐𝟐. 𝟐𝟐𝑿𝑿𝒊𝒊
La pregunta es, entonces, si los coeficientes son significativos. Para responder esto,
se realiza la prueba de hipótesis, donde H0 es que los coeficientes son cero (no
tienen un valor significativo). El resultado de la prueba se muestra a continuación.
La tabla anterior muestra los valores de los coeficientes del modelo, su error, su
estadístico de prueba y resaltado. Se ve la significancia de la prueba (p value), y
como esta prueba es menor a 0.05, se rechaza H0: los coeficientes son significativos.
255 de 357
Tercer semestre
6.6. Análisis de correlación
En el análisis de regresión lineal simple, si la variable X es explicativa de Y, entonces
el modelo muestra el efecto de un cambio en X sobre Y. Un análisis complementario
es el de correlación, el cual determina el grado de asociación lineal entre dos
variables.
� )(𝒀𝒀𝒊𝒊 − 𝒀𝒀
∑(𝑿𝑿𝒊𝒊 − 𝑿𝑿 �)
𝒓𝒓 =
� )𝟐𝟐 ∑(𝒀𝒀𝒊𝒊 − 𝒀𝒀
∑(𝑿𝑿𝒊𝒊 − 𝑿𝑿 �)𝟐𝟐
256 de 357
Tercer semestre
La figura 4 muestra una categorización de la asociación entre dos variables en
función del valor del coeficiente de correlación.
Negativa Positiva
-1.00 0 1.00
Relación No existe Relación
lineal Relación lineal
negativa lineal positiva
perfecta perfecta
En la figura anterior, se muestra cómo interpretar los niveles de asociación entre dos
variables de acuerdo con el valor del coeficiente de correlación. Un valor mayor a
cero indica que existe una correlación positiva; en caso contrario, la correlación es
negativa. Las variables se considerarán con una asociación débil si su correlación
tiene un valor absoluto entre 0 y 35; moderada, entre 35 y 65; y fuerte, mayor a 65.
Para el ejemplo del número de accidentes por edad del conductor, la correlación
entre las dos variables es de –0.9633, lo que significa que la asociación entre las
variables es casi negativa perfecta.
257 de 357
Tercer semestre
La tabla 2 muestra la memoria de cálculo de los elementos que forman parte de la
fórmula de la correlación de las variables. En la parte superior de la tabla, se numera
la columna (del 1 al 9) y en algunos casos, debajo de este número, se indican las
columnas involucradas en la obtención de sus cifras. Por ejemplo, los valores de la
columna 5 se obtienen de restarle a la edad (columna 1) el promedio de edad
(columna 2). Los valores involucrados en la fórmula del coeficiente de correlación
son los dos que se hallan en la parte inferior derecha, y al sustituirlos se obtiene lo
siguiente:
−𝟗𝟗𝟗𝟗𝟗𝟗𝟗𝟗𝟗𝟗
𝒓𝒓 =
√𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏
−𝟗𝟗𝟗𝟗𝟗𝟗𝟗𝟗𝟗𝟗
𝒓𝒓 =
𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏. 𝟕𝟕𝟕𝟕𝟏𝟏𝟖𝟖
𝒓𝒓 = −𝟎𝟎. 𝟗𝟗𝟗𝟗𝟗𝟗𝟗𝟗
258 de 357
Tercer semestre
Tabla 2. Memoria de cálculo de los elementos de la fórmula para calcular r entre el número de accidentes y la
edad del conductor
1 2 3 4 5 6 7 8 9
(1-2) (1-2)2 (3-4) (3-4)2 5-7
Xi �
𝑿𝑿 Yi �
𝒀𝒀 �)
(Xi-𝑿𝑿 � )2
(Xi-𝑿𝑿 �)
(Yi-𝒀𝒀 � )2
(Yi-𝒀𝒀
Edad Promed Número de Promedio
io de X accidentes de Y
30 47.5 1004 495.06 -17.5 306.25 508.94 259024.45 -8906.52778
31 946 -16.5 272.25 450.94 203350.89 -7440.58333
32 914 -15.5 240.25 418.94 175514.45 -6493.63889
33 742 -14.5 210.25 246.94 60981.56 -3580.69444
34 714 -13.5 182.25 218.94 47936.67 -2955.75
35 842 -12.5 156.25 346.94 120370.45 -4336.80556
36 744 -11.5 132.25 248.94 61973.34 -2862.86111
37 792 -10.5 110.25 296.94 88176.00 -3117.91667
38 844 -9.5 90.25 348.94 121762.23 -3314.97222
39 722 -8.5 72.25 226.94 51503.78 -1929.02778
40 982 -7.5 56.25 486.94 237114.89 -3652.08333
41 644 -6.5 42.25 148.94 22184.45 -968.138889
42 594 -5.5 30.25 98.94 9790.00 -544.194444
43 604 -4.5 20.25 108.94 11868.89 -490.25
44 480 -3.5 12.25 -15.06 226.67 52.6944444
45 570 -2.5 6.25 74.94 5616.67 -187.361111
46 440 -1.5 2.25 -55.06 3031.11 82.5833333
47 410 -0.5 0.25 -85.06 7234.45 42.5277778
48 504 0.5 0.25 8.94 80.00 4.47222222
49 432 1.5 2.25 -63.06 3976.00 -94.5833333
50 456 2.5 6.25 -39.06 1525.34 -976388889
51 346 3.5 12.25 -149.06 22217.56 -521.694444
52 382 4.5 20.25 -113.06 12781.56 -508.75
53 334 5.5 30.25 -161.06 25938.89 -885.805556
259 de 357
Segundo semestre
54 298 6.5 42.25 -197.06 38830.89 -1280.86111
55 252 7.5 56.25 -243.06 59076.00 -1822.91667
56 240 8.5 72.25 -255.06 65053.34 -2167.97222
57 244 9.5 90.25 -251.06 63028.89 -2385.027778
58 288 10.5 110.25 -207.06 42872.00 -2174.08333
59 218 11.5 132.25 -277.06 76759.78 -3186.13889
60 208 12.5 156.25 -287.06 82400.89 -3588.19444
61 146 13.5 182.25 -349.06 121839.78 -4712.25
62 130 14.5 210.25 -365.06 133265.56 -5293.30556
63 130 15.5 240.25 -365.06 133265.56 -5658.36111
64 122 16.5 272.25 -373.06 139170.45 -6155.41667
65 104 17.5 306.25 -391.06 152924.45 -6843.47222
3885 2662667 � ) (Yi-𝒀𝒀
∑(𝑿𝑿i-𝑿𝑿 �) -97975 � )2 (Yi-𝒀𝒀
∑(𝑿𝑿i-𝑿𝑿 � )2
10344464748
260 de 357
Tercer semestre
Coeficiente de determinación R2
Para valorar el ajuste del modelo de regresión lineal simple, se considera otro
coeficiente llamado coeficiente de determinación, denotado como R2, que mide la
variabilidad explicada por el modelo. Para calcular el coeficiente de determinación, se
utiliza la siguiente fórmula:
𝟐𝟐
∑(� � )𝟐𝟐
𝒀𝒀𝒊𝒊 − 𝒀𝒀
𝑹𝑹 =
� )𝟐𝟐
∑(𝒀𝒀𝒊𝒊 − 𝒀𝒀
•
Donde:
R2 : coeficiente de determinación
Y�i ∶ i-ésima estimación de Y
Yi : i-ésima observación de Y
�: promedio de Y
Y
Para el ejemplo del número de accidentes por edad del conductor, el coeficiente de
determinación del modelo ajustado entre las dos variables 0.9279, esto significa que
el modelo explica en un 93% la variabilidad de la información. La tabla 3 muestra el
cálculo de los elementos que intervienen en la fórmula de R2.
261 de 357
Segundo semestre
Tabla 3. Memoria de cálculo de los elementos de la fórmula para calcular R2 entre el número de accidentes y la
edad del conductor
1 2 3 4 5 6 7 8
(3-4) (5)2 (2-4) (7)2
Xi Yi �i
𝒀𝒀 �
𝒀𝒀 � i-𝒀𝒀
(𝒀𝒀 �) � i-𝒀𝒀
(𝒀𝒀 � )2 �)
(Yi-𝒀𝒀 � )2
(Yi-𝒀𝒀
Edad Número de (-25.22 Promedio
accidentes edad de Y
conductor)
30 1004 936 495.06 441 194771.14 508.94 259024.448
31 946 911 416 173147.56 450.94 203350.892
32 914 886 391 152795.97 418.94 175514.448
33 742 861 366 133716.35 246.94 60981.5586
34 714 836 340 115908.70 218.94 47936.6698
35 842 810 315 99373.03 346.94 120370.448
36 744 785 290 84109.33 248.94 61973.3364
37 792 760 265 70117.61 296.94 88176.0031
38 844 735 240 57397.86 348.94 121762.225
39 722 709 214 45950.09 226.94 51503.7809
40 982 684 189 35774.29 486.94 237114.892
41 644 659 164 26870.47 148.94 22184.4475
42 594 634 139 19238.62 98.94 9790.00309
43 604 609 113 12878.74 108.94 11868.892
44 480 583 88 7790.85 -15.06 226.669753
45 570 558 63 3974.92 74.94 5616.66975
46 440 533 38 1430.97 -55.06 3031.1142
47 410 508 13 159.00 -85.06 7234.44753
48 504 482 -13 159.00 8.94 80.0030864
262 de 357
Segundo semestre
49 432 457 -38 1430.97 -63.06 3976.00309
50 456 432 -63 3974.92 -39.06 1525.33642
51 346 407 -88 7790.85 -149.06 22217.5586
52 382 382 -113 12878.74 -113.06 12781.5586
53 334 356 -139 19238.52 -161.06 25938.892
54 298 331 -164 26870.47 -197.06 38830.892
55 252 306 -189 35774.29 -243.06 59076.0031
56 240 281 -214 45950.09 -255.06 65053.3364
57 244 255 -240 57397.86 -251.06 63028.892
58 288 230 -265 70117.61 -207.06 42872.0031
59 218 205 -290 84109.33 -277.06 76759.7809
60 208 180 -315 99373.03 -287.06 82400.892
61 146 155 -340 115908.70 -349.06 121839.781
62 130 129 -366 133716.35 -365.06 133265.559
63 130 104 -391 152795.97 -365.06 133265.559
64 122 79 -416 173147.56 -373.06 139170.448
65 104 54 -441 194771.14 -391.06 152924.448
� i-𝒀𝒀
∑( 𝒀𝒀 � )2 2470810.97 � )2
∑(𝒀𝒀i-𝒀𝒀 2662667
263 de 357
Tercer semestre
Así como en la tabla 2, en la parte superior de la tabla 3 se numera la columna (del 1
al 8), y en algunos casos, debajo de este número, se indican las columnas
involucradas en la obtención de sus cifras. Por ejemplo, los valores de la columna 5
se obtienen de restarle a los accidentes estimados (columna 3) el promedio
observado de accidentes (columna 4). Los valores involucrados en la fórmula del
coeficiente de determinación son los dos que se sitúan en la parte inferior de la tabla;
y al sustituirlos se obtiene:
𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐. 𝟗𝟗𝟗𝟗
𝑹𝑹𝟐𝟐 =
𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐. 𝟖𝟖𝟖𝟖
𝑹𝑹𝟐𝟐 = 𝟎𝟎. 𝟗𝟗𝟗𝟗𝟗𝟗𝟗𝟗𝟗𝟗𝟗𝟗
Al igual que otras técnicas de análisis, Microsoft Excel (2013) permite realizar
regresión lineal simple en el módulo de análisis de datos. A continuación, se muestra
el uso de esta herramienta con los datos del ejemplo de los accidentes registrados
por edad del conductor.
264 de 357
Segundo semestre
Fuente: Microsoft Excel (2013).
265 de 357
Tercer semestre
Fuente: Microsoft Excel (2013).
266 de 357
Tercer semestre
Fuente: Microsoft Excel (2013).
267 de 357
Tercer semestre
Fuente: Microsoft Excel (2013).
ANÁLISIS DE VARIANZA
Grados de Suma de Promedio de F Valor crítico
libertad cuadrados los cuadrados de F
Regresión 1 2470810.972 2470810.972 437.8657505 5.35232E-21
Residuos 34 191856.9172 5642.850506
Total 35 2662667.889
268 de 357
Tercer semestre
Los resultados señalados con morado indican la significancia del modelo y de cada
uno de los parámetros. El primero (valor crítico de F) señala que el modelo lineal es
adecuado para la información que se analiza, pues es significativo por ser menor a
0.05. En el caso de los parámetros, dado que las probabilidades son menores a 0.05,
se rechaza la hipótesis nula de que los parámetros no son significativos y pueden
emplearse sin inconveniente en la ecuación.
intersecció[Link] ()
pendiente()
269 de 357
Tercer semestre
RESUMEN
Se expusieron las bases para realizar un análisis de regresión lineal simple con la
información de dos variables observadas. En primer lugar, se mostró la ecuación
empleada en el modelo de regresión lineal simple partiendo de un repaso de la
ecuación general de la recta, y siguiendo con la metodología de mínimos cuadrados
para estimar la recta que garantiza el menor error de estimación.
270 de 357
Tercer semestre
BIBLIOGRAFÍA
SUGERIDA
271 de 357
Tercer semestre
UNIDAD 7
272 de 357
Tercer semestre
OBJETIVO PARTICULAR
Al terminar la unidad, el alumno conocerá los métodos para el análisis de series de
tiempo, así como su aplicación e interpretación.
TEMARIO DETALLADO
(8 horas)
273 de 357
Tercer semestre
INTRODUCCIÓN
A lo largo del curso, se ha insistido en que la Estadística II contribuye a la toma de
decisiones que, frecuentemente, deben realizarse con información recabada en el
tiempo. Por ejemplo, para un inversionista, el conocimiento de los estados de
resultados de una empresa durante los últimos cinco años le ayudaría a decidir si
invierte en acciones de esa compañía. O la disposición de dinero en los cajeros
automáticos permitiría determinar la cantidad de efectivo que la institución bancaria
debe abastecer cada semana para garantizar el servicio de sus cuentahabientes. O
el historial reciente de pagos de una persona facilitaría a una micro financiera
dedicada a dar créditos de autos a determinar si el individuo es sujeto de crédito.
274 de 357
Tercer semestre
7.1. Los cuatro componentes
de una serie de tiempo
Una serie de tiempo es el registro de una variable a lo largo del tiempo realizado con
una periodicidad constante, por ejemplo, de forma diaria, semanal, mensual o anual.
La observación tomada en el tiempo t de una variable se denotará como Yt.
Las series de tiempo son aplicables por lo regular en todas las áreas de
conocimiento: en el índice nacional de precios al consumidor (INPC), tasa de
desempleo, cotización diaria del dólar norteamericano, evolución de los niveles de
colesterol de un paciente sometido a un estudio clínico en el que se estudia el efecto
de un medicamento, o las calificaciones de un alumno que periódicamente es
sometido a evaluaciones.
275 de 357
Tercer semestre
Consideremos que no siempre se encuentran presentes los cuatro componentes en
una serie de tiempo. En las siguientes secciones, se explicarán cada uno de estos
componentes y su manejo.
Hay dos enfoques para asociar la serie de tiempo con sus componentes: aditivo y
multiplicativo. En el primero, la serie de tiempo se considera que es resultado de la
suma de sus componentes. De esta manera, la serie de tiempo Yt queda expresada
así:
Yt = Tt + Et + Ct + It
•
Donde:
Yt = valor de la serie al tiempo t
Tt = componente de tendencia al tiempo t
Et = componente estacional al tiempo t
Ct = componente de cíclico al tiempo t
It = componente irregular o aleatorio al tiempo t
Yt = Tt * Et * Ct * It
•
Donde:
Yt = valor de la serie al tiempo t
Tt = componente de tendencia al tiempo t
Et = factor estacional al tiempo t
Ct = factor cíclico al tiempo t
It = factor irregular o aleatorio al tiempo t
276 de 357
Tercer semestre
7.2. Análisis gráfico
de la tendencia
El primer paso para analizar una serie de tiempo es realizar, a modo de análisis
exploratorio, una gráfica de líneas, donde en el eje X se ubicará el tiempo y en el eje
Y el valor de la serie a lo largo del periodo. El análisis gráfico permitirá visualizar los
componentes de la serie (por lo regular, la tendencia es el componente más
evidente).
La figura anterior muestra una serie cuyo valor en general se incrementa a medida
que va transcurriendo el tiempo.
277 de 357
Tercer semestre
Si la gráfica expresa un decrecimiento continuo a lo largo del tiempo, se dice que la
serie presenta una tendencia negativa (véase figura 2).
La figura anterior muestra una serie cuyo valor, en general, decrece conforme
transcurre el tiempo.
Una serie sin tendencia presentará variaciones alrededor de un solo valor a lo largo
del tiempo, similar a lo que la presenta la figura 3.
278 de 357
Tercer semestre
7.3. Tendencia secular
En el apartado anterior, se mencionó que el análisis de series de tiempo comienza
con una exploración gráfica en donde se identifican los componentes más notables.
Ahora, en este subtema, se explicará el componente de tendencia, que normalmente
destaca más en una serie de tiempo; y para estimarla se aplicarán los métodos de
regresión lineal y de promedios móviles.
279 de 357
Tercer semestre
Estimación de la tendencia con el modelo de regresión lineal simple
280 de 357
Tercer semestre
Precio del insumo de enero de 2013 a agosto de 2014
15,00
14,00
13,00
Precio ($)
12,00
11,00
10,00
feb-13
jul-13
feb-14
jul-14
may-13
jun-13
ago-13
may-14
jun-14
ago-14
nov-13
mar-13
mar-14
ene-13
sep-13
ene-14
dic-13
oct-13
abr-13
abr-14
Mes
281 de 357
Tercer semestre
X Mes Precio (Y) X Mes Precio (Y)
1 ene-13 10.92 11 nov-13 12.02
2 feb-13 11.03 12 dic-13 12.13
3 mar-13 11.14 13 ene-14 12.32
4 abr-13 11.25 14 feb-14 12.41
5 may-13 11.36 15 mar-14 12.50
6 jun-13 11.47 16 abr-14 12.59
7 jul-13 11.58 17 may-14 12.68
8 ago-13 11.69 18 jun-14 12.77
9 sep-13 11.80 19 jul-14 12.86
10 oct-13 11.91 20 ago-14 12.95
intersecció[Link]()
pendiente()
282 de 357
Tercer semestre
Fuente: Microsoft Excel (2013).
283 de 357
Tercer semestre
El modelo indica que, antes de comenzar a producir la tinta (en X = 0), el precio del
insumo se encontraba en $10.82, y desde ese momento, por cada mes que
transcurre, el precio del insumo se eleva 11 centavos. Luego, esta ecuación es la
tendencia de la serie.
Determinada la tendencia, se puede estimar el precio del insumo para los meses de
septiembre a diciembre del año actual sustituyendo en la ecuación el número que
corresponde al mes (21, 22, 23 o 24). De esta manera, se espera que en diciembre
el precio del insumo se encuentre en 10.82 + (0.11)⋅(24) = 13.46.
Como una observación final a este apartado, es importante definir si, de acuerdo con
el contexto de la serie a analizar, es necesario identificar un punto donde la variable
independiente (X) tome el valor de 0.
El método de promedios móviles (PM) consiste en construir una nueva serie con los
promedios de los datos establecidos por el orden.
284 de 357
Tercer semestre
Un promedio móvil de orden n (PMn) se obtiene así:
Mes Calificación
1 7
2 8
3 7
4 9
5 6
285 de 357
Tercer semestre
Mes Calificación PM2
1 7
2 8 7.5 𝟖𝟖 + 𝟕𝟕
𝟐𝟐
3 7 7.5
4 9
5 6
286 de 357
Tercer semestre
Mes Calificación PM3
1 7
2 8 7.3 𝟕𝟕 + 𝟖𝟖 + 𝟕𝟕
𝟑𝟑
3 7
4 9
5 6
Como es imposible seguir promediando tres valores, la nueva serie PM3 solamente
tendrá tres elementos. Es importante mencionar que, conforme aumenta el orden, la
nueva serie va teniendo menos valores respecto a la serie original.
287 de 357
Tercer semestre
La siguiente gráfica muestra el comportamiento de las calificaciones del estudiante y
los promedios móviles de orden 2 y 3.
10,0
9,0
Calificación
8,0
7,0
6,0
5,0
1 2 3 4 5
Mes
288 de 357
Tercer semestre
1. Asumir que el último valor del promedio móvil se observará en el siguiente mes:
289 de 357
Tercer semestre
De esta manera, de acuerdo con la tendencia mostrada por el promedio móvil de
orden dos, se espera que el estudiante obtenga calificaciones de 6.8 y 7.2 en las
evaluaciones faltantes.
290 de 357
Tercer semestre
En la sección Rango de entrada, seleccionar los datos de la variable; en Intervalo,
indicar el rango deseado; y seleccionar el sitio en la hoja de cálculo en donde quiere
que se despliegue el resultado en Rango de salida. Dar Aceptar.
291 de 357
Tercer semestre
Fuente: Microsoft Excel (2013).
292 de 357
Tercer semestre
7.4. Variaciones estacionales
En esta sección, se expondrá otro componente de una serie de tiempo: la
estacionalidad. Una serie de tiempo tiene un comportamiento estacional si de forma
periódica registra cambios a lo largo de un año. Por ejemplo, las ventas de una
papelería muestran un comportamiento estacional caracterizado por un incremento
durante los meses de julio y agosto, previo al comienzo del ciclo escolar del nivel
básico. O la venta de pescados y mariscos crece un mes previo a las festividades de
Semana Santa.
293 de 357
Tercer semestre
Indicador de comercio al por menor en artículos de papelería, libros, revistas
y periódicos, de enero de 2010 a diciembre de 2013
Mes 2010 2011 2012 2013
Enero 57.0 58.7 67.2 70.1
Febrero 65.1 63.2 67.4 68.9
Marzo 77.6 69.9 74.8 66.0
Abril 63.1 63.9 67.5 73.3
Mayo 71.8 64.9 81.4 76.2
Junio 81.1 71.4 86.5 83.5
Julio 71.7 82.0 104.7 91.8
Agosto 96.9 95.4 90.9 113.1
Septiembre 88.7 86.7 98.5 74.4
Octubre 67.7 67.0 73.4 70.6
Noviembre 74.3 63.9 73.0 71.4
Diciembre 81.2 68.2 81.4 78.7
Base 2008.
Fuente: [Link]. fecha de consulta 7/06/2015
120
100
80
Índice
60
40
20
0
2010/01
2010/03
2010/05
2010/07
2010/09
2010/11
2011/01
2011/03
2011/05
2011/07
2011/09
2011/11
2012/01
2012/03
2012/05
2012/07
2012/09
2012/11
2013/01
2013/03
2013/05
2013/07
2013/09
2013/11
Mes
294 de 357
Tercer semestre
Ahora bien, los factores de estacionalidad se calcularán de la siguiente manera.
295 de 357
Tercer semestre
jun-13 83.5 78.4
jul-13 91.8
ago-13 113.1
sep-13 74.4
oct-13 70.6
nov-13 71.4
dic-13 78.7
El primer punto del promedio móvil se obtiene al promediar los primeros 12 valores
de la serie y se encontrará ubicado de manera que separa seis meses antes y
después de él; es decir, se halla en el 15 de junio y el siguiente en el 15 de julio, para
llevarlo al primero de julio se vuelve a construir un promedio móvil de orden 2.
Mes Índice PM12 PM12_ajustado
ene-10 57.0
feb-10 65.1
mar-10 77.6
abr-10 63.1
may-10 71.8
jun-10 81.1
jul-10 71.7 74.7 74.7
ago-10 96.9 74.8 74.7
sep-10 88.7 74.7 74.3
oct-10 67.7 74.0 74.0
nov-10 74.3 74.1 73.8
dic-10 81.2 73.5 73.1
ene-11 58.7 72.7 73.1
feb-11 63.2 73.6 73.5
mar-11 69.9 73.4 73.4
abr-11 63.9 73.3 73.2
may-11 64.9 73.2 72.8
jun-11 71.4 72.3 71.8
jul-11 82.0 71.3 71.6
ago-11 95.4 72.0 72.1
sep-11 86.7 72.3 72.5
oct-11 67.0 72.7 72.9
nov-11 63.9 73.0 73.7
dic-11 68.2 74.4 75.0
ene-12 67.2 75.7 76.6
feb-12 67.4 77.6 77.4
mar-12 74.8 77.2 77.7
abr-12 67.5 78.2 78.4
may-12 81.4 78.7 79.1
jun-12 86.5 79.5 80.0
jul-12 104.7 80.6 80.7
ago-12 90.9 80.8 80.9
sep-12 98.5 80.9 80.6
296 de 357
Tercer semestre
oct-12 73.4 80.2 80.4
nov-12 73.0 80.7 80.5
dic-12 81.4 80.3 80.1
ene-13 70.1 80.0 79.5
feb-13 68.9 78.9 79.8
mar-13 66.0 80.8 79.8
abr-13 73.3 78.8 78.7
may-13 76.2 78.5 78.5
jun-13 83.5 78.4 78.4
jul-13 91.8
ago-13 113.1
sep-13 74.4
oct-13 70.6
nov-13 71.4
dic-13 78.7
El primer valor de la última serie se obtuvo al promediar los primeros dos valores del
promedio móvil de orden 12. El segundo valor de la nueva serie es resultado de
promediar el segundo y tercero del promedio móvil de orden 12, y así
sucesivamente.
120,0
100,0
80,0
Índice
60,0
40,0
20,0
0,0
jul-10
jul-11
jul-12
jul-13
ene-10
ene-11
ene-12
ene-13
oct-10
oct-11
oct-12
oct-13
abr-10
abr-11
abr-12
abr-13
Mes
Índice PM12_ajustado
297 de 357
Tercer semestre
El siguiente paso es calcular la variación de cada punto respecto al promedio móvil
dividiendo el valor original de la serie entre el promedio móvil.
Mes Índice PM12 PM12_ajustado Variación
ene-10 57.0
feb-10 65.1
mar-10 77.6
abr-10 63.1
may-10 71.8
jun-10 81.1
jul-10 71.7 74.7 74.7 0.96
ago-10 96.9 74.8 74.7 1.30
sep-10 88.7 74.7 74.3 1.19
oct-10 67.7 74.0 74.0 0.91
nov-10 74.3 74.1 73.8 1.01
dic-10 81.2 73.5 73.1 1.11
ene-11 58.7 72.7 73.1 0.80
feb-11 63.2 73.6 73.5 0.86
mar-11 69.9 73.4 73.4 0.95
abr-11 63.9 73.3 73.2 0.87
may-11 64.9 73.2 72.8 0.89
jun-11 71.4 72.3 71.8 0.99
jul-11 82.0 71.3 71.6 1.15
ago-11 95.4 72.0 72.1 1.32
sep-11 86.7 72.3 72.5 1.20
oct-11 67.0 72.7 72.9 0.92
nov-11 63.9 73.0 73.7 0.87
dic-11 68.2 74.4 75.0 0.91
ene-12 67.2 75.7 76.6 0.88
feb-12 67.4 77.6 77.4 0.87
mar-12 74.8 77.2 77.7 0.96
abr-12 67.5 78.2 78.4 0.86
may-12 81.4 78.7 79.1 1.03
jun-12 86.5 79.5 80.0 1.08
jul-12 104.7 80.6 80.7 1.30
ago-12 90.9 80.8 80.9 1.12
sep-12 98.5 80.9 80.6 1.22
oct-12 73.4 80.2 80.4 0.91
nov-12 73.0 80.7 80.5 0.91
dic-12 81.4 80.3 80.1 1.02
ene-13 70.1 80.0 79.5 0.88
feb-13 68.9 78.9 79.8 0.86
mar-13 66.0 80.8 79.8 0.83
abr-13 73.3 78.8 78.7 0.93
may-13 76.2 78.5 78.5 0.97
298 de 357
Tercer semestre
jun-13 83.5 78.4 78.4 1.06
jul-13 91.8
ago-13 113.1
sep-13 74.4
oct-13 70.6
nov-13 71.4
dic-13 78.7
Como el promedio móvil ajustado parte de julio de 2010 y termina en junio de 2013,
en cada mes se calcularon tres variaciones, que al promediarse serán los factores
estacionales.
Los factores estacionales muestran una mayor actividad en los meses de julio,
agosto y septiembre, donde el índice es, respectivamente, 13%, 25% y 20% mayor al
promedio. La menor actividad se registra en enero y febrero, donde los factores son
0.85 y 0.86.
299 de 357
Tercer semestre
Una vez calculados los factores estacionales, sigue desestacionalizar los datos,
dividiendo el valor original de la serie entre el factor que le corresponda.
300 de 357
Tercer semestre
may-13 76.2 0.96 79.1
jun-13 83.5 1.05 79.8
jul-13 91.8 1.13 80.9
ago-13 113.1 1.25 90.6
sep-13 74.4 1.20 61.8
oct-13 70.6 0.91 77.2
nov-13 71.4 0.93 77.0
dic-13 78.7 1.01 77.8
En la tabla anterior, los valores de la última columna son resultado de dividir el índice
entre el factor.
100,0
90,0
Índice desestacionalizado
80,0
70,0
60,0
50,0
40,0
30,0
20,0
10,0
0,0
ene-10
may-10
jul-10
sep-10
mar-10
nov-10
ene-11
may-11
jul-11
sep-11
nov-11
may-12
jul-12
sep-12
nov-12
may-13
jul-13
sep-13
mar-11
ene-12
mar-12
ene-13
mar-13
nov-13
Mes
Entonces, la tendencia de los datos desestacionalizados es 𝒚𝒚𝒕𝒕 = 𝟕𝟕𝟕𝟕. 𝟎𝟎𝟎𝟎 + 𝟎𝟎. 𝟏𝟏𝟏𝟏𝟏𝟏
301 de 357
Tercer semestre
La ecuación expresa que, por cada mes transcurrido, el índice desestacionalizado se
incrementa en 0.14.
Supóngase que se desea realizar un pronóstico para los siguientes cinco meses, es
decir, para las observaciones 49, 50, 51, 52 y 53. Primero, se sustituyen estos
valores en el modelo de la tendencia:
t 73.07 + 0.14t
49 73.07 + (0.14)⋅(49) = 79.93
50 73.07 + (0.14)⋅(50) = 80.07
51 73.07 + (0.14)⋅(51) = 80.21
52 73.07 + (0.14)⋅(52) = 80.35
53 73.07 + (0.14)⋅(53) = 80.49
302 de 357
Tercer semestre
7.5. Variaciones cíclicas
En la sección anterior, se trató cómo trabajar el componente estacional de una serie,
el cual ofrece las variaciones que se presentan a lo largo de un año. Ahora, en este
subtema se muestra el tratamiento de variaciones presentadas en periodos mayores
a un año, los cuales son el componente de ciclicidad.
303 de 357
Tercer semestre
En cuanto al tratamiento que se dará a este componente, será bajo un enfoque
aditivo. A continuación, se expone un ejemplo.
Población
Año escolar de
posgrado
2000 17,270
2001 16,547
2002 17,910
2003 18,530
2004 18,987
2005 19,765
2006 20,747
2007 21,230
2008 22,527
2009 23,875
2010 25,036
2011 25,167
2012 26,169
2013 26,878
2014 27,210
2015 28,018
304 de 357
Tercer semestre
Población escolar de posgrado
29,000
27,000
25,000
23,000
21,000
19,000
17,000
15,000
2000 2002 2004 2006 2008 2010 2012 2014
Población
Tendencia
Consecutivo Año escolar de
�
𝒚𝒚
posgrado
1 2000 17,270 16203
2 2001 16,547 17008 15397.45 Intersección
3 2002 17,910 17813 805.197059 Pendiente
4 2003 18,530 18618
5 2004 18,987 19423
6 2005 19,765 20229
7 2006 20,747 21034
8 2007 21,230 21839
9 2008 22,527 22644
10 2009 23,875 23449
11 2010 25,036 24255
12 2011 25,167 25060
13 2012 26,169 25865
14 2013 26,878 26670
15 2014 27,210 27475
16 2015 28,018 28281
305 de 357
Tercer semestre
La tendencia de la población de posgrado se estima con la siguiente ecuación:
Población Sin
Tendencia
Consecutivo Año escolar de tendencia
�
𝒚𝒚
posgrado �
𝒚𝒚 − 𝒚𝒚
1 2000 17,270 16,203 1,067
2 2001 16,547 17,008 - 461
3 2002 17,910 17,813 97
4 2003 18,530 18,618 - 88
5 2004 18,987 19,423 - 436
6 2005 19,765 20,229 - 464
7 2006 20,747 21,034 - 287
8 2007 21,230 21,839 - 609
9 2008 22,527 22,644 - 117
10 2009 23,875 23,449 426
11 2010 25,036 24,255 781
12 2011 25,167 25,060 107
13 2012 26,169 25,865 304
14 2013 26,878 26,670 208
15 2014 27,210 27,475 - 265
16 2015 28,018 28,281 - 263
306 de 357
Tercer semestre
y-
1,200
1,000
800
600
400
200
-
-200 2000 2002 2004 2006 2008 2010 2012 2014
-400
-600
-800
Sin Ciclo
Año tendencia PM3
�
𝒚𝒚 − 𝒚𝒚
2000 1,067
2001 - 461 234
2002 97 - 151
2003 - 88 - 143
2004 - 436 - 329
2005 - 464 - 396
2006 - 287 - 453
2007 - 609 - 338
2008 - 117 - 100
2009 426 363
2010 781 438
2011 107 398
2012 304 206
2013 208 82
2014 - 265 - 107
2015 - 263
La tabla anterior expresa la nueva serie obtenida con el promedio móvil de orden 3,
que al graficarse muestra el componente cíclico:
307 de 357
Tercer semestre
500
400
300
200
100
0
-100 2000 2002 2004 2006 2008 2010 2012 2014
-200
-300
-400
-500
308 de 357
Tercer semestre
El resultado es una serie irregular o aleatoria:
1200
1000
800
600
400
200
0
-200 2000 2002 2004 2006 2008 2010 2012 2014
-400
-600
-800
309 de 357
Tercer semestre
17 2016 29,086
18 2017 29,891
19 2018 30,696
20 2019 31,501
21 2020 32,307
310 de 357
Tercer semestre
De igual manera, se replica la fórmula de la columna Aleatorio para los periodos a
pronosticar:
311 de 357
Tercer semestre
Se crea una nueva columna para realizar el pronóstico, sumando los valores de las
columnas Tendencia, Ciclo y Aleatorio:
312 de 357
Tercer semestre
Por tanto, la población escolar aumentará de 28 018 a 31 331 alumnos entre 2016 y
2019.
313 de 357
Tercer semestre
Fuente: elaboración propia.
Estacionaria
314 de 357
Tercer semestre
7.7. Modelos autorregresivos
de promedios móviles
El empleo de estos modelos se realiza con series estacionarias. Debido a que se
requieren mayores bases de probabilidad y manejo de software estadístico como
STATA, EVIEWS, SAS, entre otros, solamente se mencionarán las principales
características de estos modelos.
t Yt
1 5
2 2
3 2
4 5
5 4
315 de 357
Tercer semestre
t Yt Yt+1
1 5 2
2 2 2
3 2 5
4 5 4
5 4
316 de 357
Tercer semestre
Se denota ARIMA (p,d,q), p es el orden de la parte autorregresiva;
donde:
d, el número de diferencias realizadas al modelo
original para convertirla en estacionaria;
q, el orden de la parte de medias móviles.
16,000,000
14,000,000
12,000,000
10,000,000
8,000,000
6,000,000
4,000,000
2,000,000
-
1984
1987
1990
1993
1996
1999
2002
2005
2008
2011
317 de 357
Tercer semestre
Autocorrelograma de la serie original
La gráfica anterior muestra que la observación actual está influenciada por una o dos
observaciones anteriores. Después de ajustar varios modelos, se eligió un
ARIMA (2, 2, 2), el que mejor se ajusta a la serie.
318 de 357
Tercer semestre
Fuente: elaboración propia. Datos procesados en el paquete estadístico R.
30
Millones
25
Pronóstico
20
Flujo de efectivo
ARIMA(2,2,2)
15
10
5 Histórico
-
1984
1987
1990
1993
1996
1999
2002
2005
2008
2011
2014
2017
2020
319 de 357
Tercer semestre
RESUMEN
Una serie de tiempo es una observación de los valores de una variable durante un
periodo, y consta de cuatro componentes: tendencia, estacionalidad, ciclicidad y un
elemento irregular o aleatorio.
Una serie puede tratarse bajo dos enfoques: el aditivo y multiplicativo. En el primero,
la serie se considera que es resultado de la suma de sus componentes; mientras
que, en el segundo los componentes se expresan como factores que alteran la
tendencia.
320 de 357
Tercer semestre
BIBLIOGRAFÍA
SUGERIDA
321 de 357
Tercer semestre
UNIDAD 8
Pruebas estadísticas
no paramétricas
322 de 357
Tercer semestre
OBJETIVO PARTICULAR
Al terminar la unidad, el alumno identificará las pruebas no paramétricas más
utilizadas.
TEMARIO DETALLADO
(8 horas)
323 de 357
Tercer semestre
INTRODUCCIÓN
En este material se ha estudiado que, para desarrollar una inferencia estadística, se
debe contar con una población cuya distribución depende de un parámetro del cual
se buscará inferir su valor a partir de una muestra. Asimismo, se han trabajado
distribuciones muestrales que permiten realizar una estimación por intervalo o llevar
a cabo una prueba, y se apoyan, en algunos casos, en supuestos como la
normalidad de la población o que la muestra es considerablemente grande. Sin
embargo, no siempre se puede garantizar que la población se apegue a los
supuestos, por lo que es útil recurrir a pruebas no paramétricas.
Durante la quinta unidad, se utilizó la distribución 𝝌𝝌𝟐𝟐 para realizar pruebas de bondad
de ajuste e inferir sobre el comportamiento de una población. Ahora, esta última
unidad se enfocará a los métodos no paramétricos de rachas, de signo y de signos y
rangos de Wilcoxon.
324 de 357
Tercer semestre
8.1. Diferencias entre los métodos
estadísticos paramétricos
y no paramétricos
Hasta este momento, los métodos presentados tanto de estimación como de prueba
de hipótesis son paramétricos, caracterizados por buscar inferir un parámetro de una
población que determina la distribución de la población. Para aplicar la metodología,
en ocasiones se parte de que la población sigue una distribución (frecuentemente es
la normal). Sin embargo, no siempre es posible conocer o garantizar los supuestos
de una distribución, por lo que se recurren a otras alternativas, las cuales no realizan
restricciones acerca de la distribución de la población (a estas metodologías se les
conoce como no paramétricas).
325 de 357
Tercer semestre
Ventajas de No asumen una distribución asociada a la población.
los métodos
no
paramétricos Su planteamiento es sencillo; y su cálculo, fácil.
326 de 357
Tercer semestre
8.2. La prueba de rachas
para aleatoriedad
La primera prueba no paramétrica que se expone es la de rachas, utilizada para
inferir si una muestra es aleatoria. Para aplicarla, normalmente se consideran dos
resultados, como el género de una persona, el resultado del lanzamiento de una
moneda, los valores por encima o debajo de la mediana, entre otros. Se enlistan los
elementos de la muestra de acuerdo con el orden de aparición y se cuentan las
rachas. Una racha es una secuencia de valores con una característica común
precedida y seguida por valores que no presentan esa característica.
Para ilustrar una racha, supóngase que los resultados asociados a una muestra son
dos: ganar (G) y perder (P). La información de una muestra de siete individuos se
enlista según el orden de aparición:
GGPGPPG
R 1 R2 R3 R4 R5
327 de 357
Tercer semestre
Para ilustrar lo anterior, supóngase que se hacen 10 lanzamientos de una moneda,
cuyos resultados son águila (A) y sol (S), y se observan los siguientes resultados:
AAAAASSSSS
ASASASASAS
Prueba de rachas
Y su desviación es:
Donde:
n1 = número de elementos con el primer resultado
n2 = número de elementos con el segundo resultado
328 de 357
Tercer semestre
El estadístico de prueba es:
𝑹𝑹 − 𝝁𝝁𝑹𝑹
𝒁𝒁 =
𝝈𝝈𝑹𝑹
•
Donde:
𝑹𝑹 = número de rachas
𝝁𝝁𝑹𝑹 = media del número de rachas
𝝈𝝈𝑹𝑹 = desviación del número de rachas
2. Calcular n1 y n2
3. Calcular R
329 de 357
Tercer semestre
A continuación, se plantean ejemplos.
Ejemplo 1
Solución:
330 de 357
Tercer semestre
1. Determinar el número de veces que se registra el total de días en que todos
los empleados llegaron puntuales (P) y el número de días en que al menos un
empleado llegó tarde (T). Estos datos representarán el tamaño de las muestras
P = n1 y T = n2:
P = n1 = 12
T = n2 = 8
Rachas = = 9
Como n1 y n2 son menores a 20, es suficiente consultar la tabla de valores
críticos de R en la prueba de rachas.
3. Realizar la prueba
Al consultar la tabla, se obtiene que la prueba se rechaza si R≤ 6 o R≥ 16.
Como R = 9, no hay elementos para rechazar la aleatoriedad de la muestra.
331 de 357
Tercer semestre
Ejemplo 2
Con la intención de negociar incentivos con las aseguradoras, el médico envía esta
información. El área técnica encargada de evaluar si la información que le manda el
médico es válida, realiza una prueba de rachas. Con una significancia del 5% la
muestra es válida.
332 de 357
Tercer semestre
Solución:
1. Determinar n1 y n2
n1 = S = 35
n2 = P = 35
R = 26
333 de 357
Tercer semestre
b) Calcular la desviación estándar:
334 de 357
Tercer semestre
8.3. La prueba del signo
Esta prueba recibe el nombre “del signo” porque se basa en la dirección de la
diferencia entre dos mediciones, expresada con un signo “+” o “–”, más que en los
datos de donde proceden. Normalmente, se emplea para hacer pruebas relacionadas
con la mediana de una población o comparar muestras apareadas.
• Donde:
Z = estadístico de prueba
R+ = número de datos positivos
n = tamaño de la muestra
335 de 357
Tercer semestre
Ejemplo 1
Con un nivel de significancia del 5%, ¿se apoya la hipótesis de que la mediana es de
17 horas?
Solución
336 de 357
Tercer semestre
Diferencia el dato
Horas
Empleado Mediana y la mediana Signo
extras
Cálculo Resultado
1 22 17 22-17 5 +
2 27 27-17 10 +
3 25 25-17 8 +
4 12 12-17 -5 -
5 14 14-17 -3 -
6 11 11-17 -6 -
7 16 16-17 -1 -
8 24 24-17 7 +
9 13 13-17 -4 -
10 20 20-17 3 +
11 12 12-17 -5 -
12 13 13-17 -4 -
13 21 21-17 4 +
14 17 17-17 0 =
15 18 18-17 1 +
16 11 11-17 -6 -
17 27 27-17 10 +
18 18 18-17 1 +
19 14 14-17 -3 -
20 17 17-17 0 =
Signo Frecuencia
+ 9
- 9
- 2
Total 20
Como existen dos signos “=”, se restan al total de la muestra, por lo que disminuye
su valor a 18 elementos:
n = 20 – 2 = 18
337 de 357
Tercer semestre
Sustituyendo los valores en el estadístico de prueba, se obtiene lo siguiente:
[Link](1-α/2)
[Link](1-0.05/2) = 1.9599
Las zonas de rechazo son en valores menores o iguales a –1.96 y mayores o iguales
a 1.96. El valor del estadístico de prueba es 0, por lo que no existe evidencia para
rechazar la hipótesis nula.
338 de 357
Tercer semestre
No se rechaza Ho
Zona de
No Rechazo
Zona Zona
Rechazo Rechazo
-1.96 +1.96
EP=0
Ejemplo 2
339 de 357
Tercer semestre
10 5 10
Con un nivel de significancia de 5%, ¿se apoya que los clientes prefieren más el pan
de linaza que de avena?
Solución
El primer paso consiste en calcular las diferencias entre las calificaciones que los
clientes dieron a los panes. Se asigna “+” cuando la calificación del pan de avena
supere al de linaza, y “–” en caso contrario. Cuando la calificación es la misma, se
asigna “=”. Las diferencias se muestran a continuación.
Signo Frecuencia
+ 3
- 7
- 0
Total 10
𝑯𝑯𝟎𝟎 : 𝒑𝒑 = 𝟎𝟎. 𝟓𝟓
340 de 357
Tercer semestre
𝑯𝑯𝟏𝟏 : 𝒑𝒑 > 𝟎𝟎. 𝟓𝟓
Por tanto, los datos que sustituiremos en la fórmula del estadístico de prueba serán
los siguientes:
[Link](1-α)
[Link](1-0.05) = 1.64
Las zonas de rechazo son en valores mayores o iguales a 1.64. Como el valor del
estadístico de prueba es 1.26, se concluye que no existe evidencia para rechazar la
hipótesis nula: no hay evidencia para afirmar que los clientes prefieran más el pan de
linaza que el de avena.
341 de 357
Tercer semestre
No se rechaza Ho
Zona de
No Rechazo
Zona Zona
Rechazo Rechazo
-1.64 +1.64
EP=1.26
342 de 357
Tercer semestre
La hipótesis nula es que las variables X y Y son equivalentes, con la misma mediana
y la misma distribución continua. Es decir, si H0 es cierta, se esperaría observar el
mismo número de diferencias en favor de X que dé Y, o lo que es equivalente, que la
suma de rangos positivos sea igual a la de negativos.
𝒏𝒏(𝒏𝒏 + 𝟏𝟏)
𝝁𝝁𝑻𝑻+ =
𝟒𝟒
Y desviación estándar:
343 de 357
Tercer semestre
Ejemplo
Calificación
del producto
Médico Antes Después
1 5 3
2 5 5
3 2 2
4 4 4
5 5 1
6 4 3
7 5 3
8 2 3
9 3 2
10 1 3
11 4 1
12 4 5
13 4 5
14 5 2
15 4 2
Con un nivel de significancia del 5%, ¿se podría apoyar que la capacitación a la
fuerza de ventas cambió la aceptación del producto?
Solución
344 de 357
Tercer semestre
A continuación, se muestra cada paso para realizar la prueba.
345 de 357
Tercer semestre
13 4 5 -1 1
14 5 2 3 3
15 4 2 2 2
Calificación Valor
del producto absoluto
Médico Antes Después Diferencia diferencia Rango
1 5 3 2 2
2 5 5 0 0 Se
3 2 2 0 0 eliminan
4 4 4 0 0
5 5 1 4 4
6 4 3 1 1
7 5 3 2 2
8 2 3 -1 1
9 3 2 1 1
10 1 3 -2 2
11 4 1 3 3
12 4 5 -1 1
13 4 5 -1 1
14 5 2 3 3
15 4 2 2 2
n = 15
346 de 357
Tercer semestre
Después, se calcula el rango promedio para las diferencias de valor 1:
Calificación Valor
del producto absoluto Promedio de Rango
Médico Antes Después Diferencia diferencia Rango los rangos definitivo
1 5 3 2 2 7
5 5 1 12
4 4
𝟏𝟏 + 𝟐𝟐 + 𝟑𝟑 + 𝟒𝟒 + 𝟓𝟓
6 4 3
1 1 1 𝟓𝟓 3
7 5 3 2 2 8
8 2 3 -1 1 2 𝟏𝟏𝟏𝟏 3
9 3 2 1 1 3 𝟓𝟓 3
10 1 3 -2 2 6
11 4 1 3 3 10
12 4 5 -1 1 4 3
13 4 5 -1 1 5 3
14 5 2 3 3 11
15 4 2 2 2 9
347 de 357
Tercer semestre
El rango promedio para las diferencias de valor 3 es el siguiente:
Calificación Valor
del producto absoluto Promedio de Rango
Médico Antes Después Diferencia diferencia Rango los rangos definitivo
1 5 3 2 2 6 7.5
5 5 1 4 4 12
6 4 3 1 1 1 3
7 5 3 2 2 7 7.5
8 2 3 -1 1 2 3
9 3 2 1 1 3 3
10 1 3 -2 2 8 7.5
𝟏𝟏𝟏𝟏 + 𝟏𝟏𝟏𝟏
11 4 1
3 3 10 𝟐𝟐 10.5
12 4 5 -1 1 4 3
13 4 5 -1 1 5 3
14 5 2 3 3 11 10.5
15 4 2 2 2 9 7.5
348 de 357
Tercer semestre
A cada rango se le pone el signo de su diferencia original:
349 de 357
Tercer semestre
T+ = 61.5
𝑯𝑯𝟎𝟎 : 𝑵𝑵𝑵𝑵 𝒉𝒉𝒉𝒉𝒉𝒉 𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅 𝒆𝒆𝒆𝒆 𝒍𝒍𝒍𝒍 𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄 𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂 𝒚𝒚 𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅 𝒅𝒅𝒅𝒅 𝒍𝒍𝒍𝒍 𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄
𝑯𝑯𝟏𝟏 : 𝑯𝑯𝑯𝑯𝑯𝑯 𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅 𝒆𝒆𝒆𝒆 𝒍𝒍𝒍𝒍 𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄 𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂 𝒚𝒚 𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅𝒅 𝒅𝒅𝒅𝒅 𝒍𝒍𝒍𝒍 𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄
Se realiza la prueba.
Donde n = 13
𝒏𝒏(𝒏𝒏 + 𝟏𝟏)
𝝁𝝁𝒓𝒓+ =
𝟒𝟒
𝟏𝟏𝟏𝟏(𝟏𝟏𝟏𝟏 + 𝟏𝟏)
𝝁𝝁𝒓𝒓+ =
𝟒𝟒
𝟏𝟏𝟏𝟏(𝟏𝟏𝟏𝟏)
𝝁𝝁𝒓𝒓+ =
𝟒𝟒
𝟏𝟏𝟏𝟏𝟏𝟏
𝝁𝝁𝒓𝒓+ =
𝟒𝟒
𝝁𝝁𝒓𝒓+ = 𝟑𝟑𝟑𝟑
350 de 357
Tercer semestre
𝟏𝟏𝟏𝟏𝟏𝟏 + 𝟐𝟐𝟐𝟐
𝝈𝝈𝒓𝒓+ = �
𝟐𝟐𝟐𝟐
𝟏𝟏𝟏𝟏𝟏𝟏
𝝈𝝈𝒓𝒓+ = �
𝟐𝟐𝟐𝟐
𝑻𝑻+ − 𝝁𝝁𝒓𝒓+
𝒛𝒛 =
𝝈𝝈𝒓𝒓+
𝟔𝟔𝟔𝟔. 𝟓𝟓 − 𝟑𝟑𝟑𝟑
𝒛𝒛 =
𝟐𝟐. 𝟕𝟕𝟕𝟕𝟕𝟕𝟕𝟕
𝟐𝟐𝟐𝟐. 𝟓𝟓
𝒛𝒛 =
𝟐𝟐. 𝟕𝟕𝟕𝟕𝟕𝟕𝟕𝟕
𝒛𝒛 = 𝟖𝟖. 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏
351 de 357
Tercer semestre
RESUMEN
En esta unidad, se presentó un primer acercamiento a la realización de pruebas con
el empleo de métodos no paramétricos. Estos métodos tienen la ventaja de no
asumir que la población sigue una distribución; sus pruebas son sencillas y
entendibles, aunque no tienen la misma potencia que las pruebas paramétricas.
Racha
Signos
La de rachas,
adecuada para probar La de signos, que Wilcoxon
la aleatoriedad de una permite realizar
muestra. inferencias acerca de La de Wilcoxon, que,
la mediana de una además de considerar
población la dirección de las
considerando diferencias, también
únicamente la toma en cuenta su
dirección de las magnitud.
diferencias de las
mediciones.
352 de 357
Tercer semestre
BIBLIOGRAFÍA
SUGERIDA
353 de 357
Tercer semestre
APÉNDICE
Los diferentes valores críticos de R están proporcionados en las tablas para valores n1 y n2 menores o iguales a 20. Para la prueba de rachas de
una muestra, cualquier valor observado de R que sea menor o igual al valor más pequeño, o que sea mayor o igual al valor más grande en un par, es
significativo en el nivel α = 0.05.
n2
n1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
2 2 2 2 2 2 2 2 2 2
- - - - - - - - -
3 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3
- - - - - - - - - - - - - - -
4 2 2 2 3 3 3 3 3 3 3 3 4 4 4 4 4
9 9 - - - - - - - - - - - - - -
5 2 2 3 3 3 3 3 4 4 4 4 4 4 4 5 5 5
9 10 10 11 11 - - - - - - - - - - - -
6 2 2 3 3 3 3 4 4 4 4 5 5 5 5 5 5 6 6
- 9 10 11 12 12 13 13 13 13 - - - - - - - -
7 2 2 3 3 3 4 4 5 5 5 5 5 6 6 6 6 6 6
- - 11 12 13 13 14 14 14 14 15 15 15 - - - - -
8 2 3 3 3 4 4 5 5 5 6 6 6 6 6 7 7 7 7
- - 11 12 13 14 14 15 15 16 16 16 16 17 17 17 17 17
9 2 3 3 4 4 5 5 5 6 6 6 7 7 7 7 8 8 8
- - - 13 14 14 15 16 16 16 17 17 18 18 18 18 18 18
10 2 3 3 4 5 5 5 6 6 7 7 7 7 8 8 8 8 9
- - - 13 14 15 16 16 17 17 18 18 18 19 19 19 20 20
11 2 3 4 4 5 5 6 6 7 7 7 8 8 8 9 9 9 9
- - - 13 14 15 16 17 17 18 19 19 19 20 20 20 21 21
12 2 2 3 4 4 5 6 6 7 7 7 8 8 8 9 9 9 10 10
- - - - 13 14 16 16 17 18 19 19 20 20 21 21 21 22 22
13 2 2 3 4 5 5 6 6 7 7 8 8 9 9 9 10 10 10 10
- - - - - 15 16 17 18 19 19 20 20 21 21 22 22 23 23
14 2 2 3 4 5 5 6 7 7 8 8 9 9 9 10 10 10 11 11
- - - - - 15 16 17 18 19 20 20 21 22 22 23 23 23 24
15 2 3 3 4 5 6 6 7 7 8 8 9 9 10 10 11 11 11 12
- - - - - 15 16 18 18 19 20 21 22 22 23 23 24 24 25
16 2 3 4 4 5 6 6 7 8 8 9 9 10 10 11 11 11 12 12
- - - - - - 17 18 19 20 21 21 22 23 23 24 25 25 25
17 2 3 4 4 5 6 7 7 8 9 9 10 10 11 11 11 12 12 13
- - - - - - 17 18 19 20 21 22 23 23 24 25 25 26 26
18 2 3 4 5 5 6 7 8 8 9 9 10 10 11 11 12 12 13 13
- - - - - - 17 18 19 20 21 22 23 24 25 25 26 26 27
19 2 3 4 5 6 6 7 8 8 9 10 10 11 11 12 12 13 13 13
- - - - - - 17 18 20 21 22 23 23 24 25 26 26 27 27
20 2 3 4 5 6 6 7 8 9 9 10 10 11 12 12 13 13 13 14
- - - - - - 17 18 20 21 22 23 24 25 25 26 27 27 28
Fuente: Siegel (1995, p. 369).
354 de 357
Tercer semestre
REFERENCIA BIBLIOGRÁFICA
BIBLIOGRAFÍA BÁSICA
Anderson, D. R. (2016). Estadística para negocios y economía. (12a ed.), México:
Cengage Leraning.
Levin R. y Rubin D. (2010). Estadística para administración y economía (7.ª ed.).
México: Pearson.
Levine, D. M. (2014). Estadística para administración. (6 ed.), México: Pearson.
Lind, A. D. (2015). Estadística aplicada a los negocios y a la economía. (16a ed.),
México: McGraw-Hill.
Mendenhall, W. (2015). Introducción a la probabilidad y estadística. (14a ed.),
México: Cengage Learning.
Rodríguez, F. J. (2014). Estadística aplicada II: estadística en administración para la
toma de decisiones. México: Grupo Editorial Patria.
Rodríguez, F. J. (2014). Estadística para administración. México: Grupo Editorial
Patria.
Triola, M. F. (2013). Estadística: actualización tecnológica. (11a ed.), México:
Pearson Educación.
BIBLIOGRAFÍA COMPLEMENTARIA
Alvarado, V. V. (2014). Probabilidad y estadística. México: Grupo Editorial Patria.
Domínguez, D. J. (2015). Estadística para administración y economía. México:
Alfaomega.
Fontana, D. B. (2014). Probabilidad y estadística. México: UNAM Facultad de
Ingeniería.
355 de 357
Tercer semestre
Funelabrada, D. T. (2014). Probabilidad y estadística. (4a ed.), México: McGraw-Hill.
Garza, O. B. (2014). Estadística y probabilidad. México: Pearson Educación.
Newbold, P. (2013). Estadística para administración y economía. (8a ed.), Madrid:
Pearson.
Spiegel, M. R. (2013). Probabilidad y estadística. (4a ed.), New York: McGraw-Hill.
356 de 357
Tercer semestre
357 de 357
Tercer semestre